Πανεπιστήµιο Πατρών Πολυτεχνική Σχολή Τµήµα Μηχανικών Ηλεκτρονικών Υπολογιστών και Πληροφορικής ιπλωµατική εργασία για το Μ Ε Επιστήµη και Τεχνολογία Υπολογιστών : Ανάπτυξη Μεθόδων Αυτόµατης Κατηγοριοποίησης Κειµένων Προσανατολισµένων στο Φύλο Χριστίνα Αραβαντινού ΑΜ:969 Επιβλέπων καθηγητής : Μεγαλοοικονόµου Βασίλειος Καθηγητής Τριµελής επιτροπή : Γεώργιος Παυλίδης Καθηγητής Χρήστος Μακρής Επίκουρος Καθηγητής Βασ. Μεγαλοοικονόµου Καθηγητής Μάιος 2015
3 Ευχαριστίες Στα πλαίσια της παρούσας διπλωµατικής, ϑα ήθελα να ευχαριστήσω µερικούς ανθρώπους, για την καθοριστική συµβολή τους στην ολοκλήρωσή της. Αρχικά, ϑα ήθελα να ευχαριστήσω τον καθηγητή κ. Βασίλειο Μεγαλοοικονόµου, που αποτέλεσε τον επιβλέποντα αυτής της εργασίας. Οι γνώσεις και η ϐοήθειά του ήταν καθοριστικές για την ολοκλήρωση της εργασίας, αλλά και για τη διεύρυνση των δικών µου γνώσεων. Στη συνέχεια, ευχαριστώ ϑερµά τον καθηγητή κ. Γεώργιο Παυλίδη και τον επίκουρο καθηγητή κ. Χρήστο Μακρή, που µου έκαναν την τιµή να είναι µέλη της τριµελούς επιτροπής της εργασίας µου. Επίσης, ένα µεγάλο ευχαριστώ στον ρ. Ιωσήφ Μπόρα για όλες τις συµβουλές και την καθοδήγησή του και στις ϕίλες και συνεργάτες µου Βάσω Σιµάκη και Αθανασία Κουµπούρη, γιατί χωρίς τη συνεργασία µου µαζί τους, το αποτέλεσµα της εργασίας δε ϑα ήταν το ίδιο. Τέλος, ϑέλω ιδιαίτερα να ευχαριστήσω την οικογένειά µου και τους ϕίλους µου, Χριστίνα, Βασίλη, Ευγενία, Ιωάννα, Αντελίνα, Αλέξανδρο, ηµήτρη και Γιώργο για την αµέριστη υποστήριξή τους όλον αυτό τον καιρό. Χριστίνα Αραβαντινού, Μάιος 2015
5 Περίληψη Η εντυπωσιακή εξάπλωση των µέσων κοινωνικής δικτύωσης τα τελευταία χρόνια, ϑέτει ϐασικά Ϲητήµατα τα οποία απασχολούν την ερευνητική κοινότητα. Η συγκέντρωση και οργάνωση του τεράστιου όγκου πληροφορίας ϐάσει ϑέµατος, συγγραφέα, ηλικίας ή και ϕύλου αποτελούν χαρακτηριστικά παραδείγµατα προβληµάτων που πρέπει να αντιµετωπιστούν. Η συσσώρευση παρόµοιας πληροφορίας από τα ψηφιακά ίχνη που αφήνει ο κάθε χρήστης καθώς διατυπώνει τη γνώµη του για διάφορα ϑέµατα ή περιγράφει στιγµιότυπα από τη Ϲωή του δηµιουργεί τάσεις, οι οποίες εξαπλώνονται ταχύτατα µέσω των tweets, των δηµοσιευµάτων σε ιστολόγια (blogs) και των αναρτήσεων στο facebook. Ιδιαίτερο ενδιαφέρον παρουσιάζει το πώς µπορεί όλη αυτή η πληροφορία να κατηγοριοποιηθεί ϐάσει δηµογραφικών χαρακτηριστικών, όπως το ϕύλο ή η ηλικία. Άµεσες πληροφορίες που παρέχει ο κάθε χρήστης για τον εαυτό του, όπως επίσης και έµµεσες πληροφορίες που µπορούν να προκύψουν από την γλωσσολογική ανάλυση των κειµένων του χρήστη, αποτελούν σηµαντικά δεδοµένα που µπορούν να χρησιµοποιηθούν για την ανίχνευση του ϕύλου του συγγραφέα. Πιο συγκεκριµένα, η αναγνώριση του ϕύλου ενός χρήστη από δεδοµένα κειµένου, µπορεί να αναχθεί σε ένα πρόβληµα κατηγοριοποίησης κειµένου. Το κείµενο υφίσταται επεξεργασία και στη συνέχεια µε τη χρήση µηχανικής µάθησης εντοπίζεται το ϕύλο. Ειδικότερα, µέσω στατιστικής και γλωσσολογικής ανάλυσης των κειµένων, εξάγονται διάφορα χαρακτηριστικά (π.χ. συχνότητα εµφάνισης λέξεων, µέρη του λόγου, µήκος λέξεων, χαρακτηριστικά που συνδέονται µε το περιεχόµενο κ.τ.λ.), τα οποία στη συνέχεια χρησιµοποιούνται για να γίνει η αναγνώριση ϕύλου. Στην παρούσα διπλωµατική εργασία σκοπός είναι η µελέτη και η ανάπτυξη ενός συστήµατος κατηγοριοποίησης κειµένων ιστολογίου και ιστοσελίδων κοινωνικής δικτύωσης, ϐάσει του ϕύλου. Εξετάζεται η απόδοση διαφορετικών συνδυασµών χαρακτηριστικών και κατηγοριοποιητών στον εντοπισµό του ϕύλου. Μέρος της παρούσας διπλωµατικής αποτέλεσε το αντικείµενο της εργασίας Towards a knowledge-based approach for gender text classification [35] που παρουσιάστηκε στο συνέδριο ECESCON 2015. Επίσης, µέρος της
6 εργασίας αυτής έχει υποβληθεί στο συνέδριο TSD 2015, µε τίτλο Using Sociolinguistic Inspired Features for Gender Classification of Web Authors, στο συνέδριο SPECOM 2015 µε τίτλο Gender Classification of Web Authors Using Feature Selection and Language Models και στο συνέδριο PCI 2015 µε τίτλο Identification of Users Age Using a Wide Feature Set and Different Classifiers.
Περιεχόµενα Περίληψη 5 Περιεχόµενα 7 1 Εισαγωγή 9 1.1 Γενική Περιγραφή........................ 9 1.2 Στόχοι της διπλωµατικής..................... 10 1.3 Συνεισφορά της διπλωµατικής.................. 11 1.4 οµή της εργασίας........................ 12 2 Θεωρητικό Υπόβαθρο 13 2.1 Κατηγοριοποίηση Κειµένου................... 13 2.1.1 Αυτόµατη Κατηγοριοποίηση Κειµένου.......... 14 2.1.2 Κατηγοριοποίηση κειµένου µε χρήση Naive Bayes... 14 2.1.3 Εξόρυξη Γνώµης...................... 15 2.2 Authorship Attribution..................... 16 3 Πεδία Ερευνας 19 3.1 Κατηγοριοποίηση Κειµένου µε ϐάση το Φύλο του Συγγραφέα. 19 3.1.1 Κατηγοριοποίηση µε ϐάση το ϕύλο σε blogs....... 20 3.1.2 Κατηγοριοποίηση µε ϐάση το ϕύλο σε ιστοσελίδες κοινωνικής δικτύωσης...................... 22 3.1.3 Κατηγοριοποίηση µε ϐάση το ϕύλο σε επίσηµα κείµενα. 24 4 Μεθοδολογία 25 4.1 Εξαγωγή Χαρακτηριστικών.................... 25 4.1.1 Χαρακτηριστικά ανεξάρτητα απ τη γλώσσα του κειµένου 26 7
8 ΠΕΡΙΕΧΟΜΕΝΑ 4.1.2 Χαρακτηριστικά που σχετίζονται µε τα µέρη του λόγου των λέξεων........................... 28 4.1.3 Γλωσσικά Μοντέλα.................... 28 4.1.4 Χαρακτηριστικά Εξαρτηµένα από τη Γλώσσα....... 29 4.1.5 Χαρακτηριστικά σχετικά µε το Περιεχόµενο....... 31 4.2 Περιγραφή Εργαλείων...................... 31 4.2.1 Η γλώσσα προγραµµατισµού Python........... 31 4.2.2 NLTK........................... 32 4.2.3 SentiWordNet....................... 34 4.2.4 WEKA........................... 37 5 Πειραµατικά Αποτελέσµατα και Αξιολόγηση 39 5.1 Κατηγοριοποίηση ως προς το ϕύλο............... 39 5.1.1 Πρώτο σύστηµα...................... 39 5.1.2 εύτερο σύστηµα..................... 42 6 Συµπεράσµατα και προοπτικές 47 Βιβλιογραφία 50
Κεφάλαιο 1 Εισαγωγή 1.1 Γενική Περιγραφή Τα τελευταία χρόνια παρατηρείται ϱαγδαία εξάπλωση του διαδικτύου. Αυτό έχει ως αποτέλεσµα την ολοένα και αυξανόµενη χρήση του ως µέσου για τη δηµόσια έκφραση της γνώµης των ανθρώπων µέσω του γραπτού λόγου µε ποικίλους τρόπους, για παράδειγµα µε κριτικές και πάνω σε διάφορα ϑέµατα, όπως είναι η ϑρησκεία και η πολιτική. Συνεχώς δηµιουργούνται καινούριες οµάδες συζητήσεων, blogs και ιστοσελίδες κοινωνικής δικτύωσης που περιέχουν άφθονα δείγµατα γραπτού λόγου των χρηστών. ηµιουργείται λοιπόν, ολοένα και αυξανόµενο ενδιαφέρον για να µπορέσουµε να κατανοήσουµε όσο το δυνατόν περισσότερο τα χαρακτηριστικά των χρηστών µε ϐάση τις γλωσσολογικές επιλογές τους και να τα συνδέσουµε µε τη διαδικτυακή τους συµπεριφορά. Κάποια από τα χαρακτηριστικά αυτά είναι το ϕύλο, η ηλικία, η κοινωνικοοικονοµική κατάστασή τους καθώς και το επίπεδο µόρφωσης. Εχοντας στη διάθεσή µας αυτά τα στοιχεία, τότε καθίσταται πιο εύκολη η µελέτη της συµπεριφοράς και των προτιµήσεων των ατόµων, εφόσον µπορούµε να αξιοποιήσουµε πιο στοχευµένες γνώσεις για αυτά. Ταυτόχρονα, είναι δυνατό να εξετάσουµε την εξέλιξη διάφορων κοινωνικών ϕαινοµένων, καθώς µεταβαίνουµε σε διαφορετικά ϕύλα. Στη συγκεκριµένη εργασία, επιλέξαµε να εστιάσουµε στον εντοπισµό του ϕύλου των χρηστών. Ο ϐασικότερος λόγος γι αυτό, είναι ότι αυτό το στοιχείο 9
10 ΚΕΦΑΛΑΙΟ 1. ΕΙΣΑΓΩΓ Η είναι ένα από τα πιο ενδεικτικά για ένα άτοµο. Άµεση απόρροια των παραπάνω είναι η συµβολή στη δηµιουργία ενός συστήµατος αναζήτησης, όπου τα αποτελέσµατα ϑα είναι πολύ πιο εξειδικευ- µένα, αφού ϑα επιστρέφουν αποτελέσµατα ταξινοµηµένα µε ϐάση το ϕύλο. Επίσης, ϑα µπορούσαµε να ϐελτιώσουµε υπηρεσίες ηλεκτρονικού εµπορίου, στις οποίες οι ειδικοί αναλυτές και διαφηµιστές ϑα έχουν τη δυνατότητα να παρατηρήσουν την επίδραση κάποιου προϊόντος ή υπηρεσίας σε άντρες και γυναίκες. Αποτέλεσµα αυτού είναι η στοχευµένη προβολή και διαφήµιση των προϊόντων στις οµάδες όπου αυτά έχουν περισσότερη απήχηση. Η έρευνά µας εστιάστηκε στην ενσωµάτωση ποσοτικών γλωσσολογικών χαρακτηριστικών σε µια διαδικασία κατηγοριοποίησης. 1.2 Στόχοι της διπλωµατικής Στόχος της παρούσας διπλωµατικής είναι η δηµιουργία αυτόνοµων συστη- µάτων, τα οποία ϑα µπορούν να κατηγοριοποιούν κειµενικά δεδοµένα µε ϐάση το ϕύλο του γράφοντα. ηλαδή, έχοντας ως είσοδο ένα κείµενο, τα συστήµατα αυτά να είναι σε ϑέση να δώσουν στην έξοδο το ϕύλο. Για να γίνει η κατηγοριοποίηση, απαιτείται ένα σύνολο από χαρακτηριστικά (features), µέσω των οποίων κάθε κείµενο ϑα µετατραπεί σε ένα διάνυσµα χαρακτηριστικών (feature vector). Στη ϐιβλιογραφία, έχει προταθεί ένας µεγάλος αριθµός από χαρακτηριστικά. Στόχος µας είναι να δηµιουργήσουµε και να εφαρµόσουµε ένα σύνολο χαρακτηριστικών όσο το δυνατόν πιο ανεξάρτητο από τη γλώσσα του κειµένου, ώστε να µπορεί να εφαρµοστεί σε ένα µεγάλο αριθµό διαφορετικών κειµένων. Παράλληλα, ϑέλοντας να αξιοποιήσουµε και το περιεχόµενο και πιο συγκεκριµένα στοιχεία του κειµένου, επιχειρούµε να δηµιουργήσουµε και ένα σύνολο χαρακτηριστικών το οποίο ϑα εξετάζει και τη συντακτική δοµή του κειµένου, όπως είναι τα µέρη του λόγου κάθε λέξης. Εξίσου σηµαντική είναι και η λογαριθµική πιθανοφάνεια (log likelihood) το κείµενο να ανήκει σε κάθε συγκεκριµένη κλάση που διαθέτουµε. Ακόµη, στόχος µας είναι να εξετάσουµε και την απόδοση χαρακτηριστικών που είναι περισσότερο σύνθετα και εξαρτώνται από τη γλώσσα του κειµένου στην κατηγοριοποίηση µε ϐάση το ϕύλο.
1.3. ΣΥΝΕΙΣΦΟΡΆ ΤΗΣ ΙΠΛΩΜΑΤΙΚ ΗΣ 11 1.3 Συνεισφορά της διπλωµατικής Η συνεισφορά της παρούσας διπλωµατικής εργασίας αποτελείται από τα εξής : Ενα σύνολο χαρακτηριστικών το οποίο περιέχει όλα τα πιθανά στοιχεία που µπορούµε να εντοπίσουµε σ ένα κείµενο, χωρίς να γνωρίζουµε τίποτε για τη γλώσσα και τα συντακτικά ή δοµικά χαρακτηριστικά του κειµένου. Ενα σύνολο χαρακτηριστικών το οποίο µελετάει τη συχνότητα εµφάνισης συγκεκριµένων µερών του λόγου σ ένα κείµενο. Επιλέχθηκαν µέρη του λόγου τα οποία ϕέρουν περισσότερη πληροφορία όσον αφορά στις γλωσσικές επιλογές των χρηστών. Ενα σύνολο χαρακτηριστικών το οποίο υπολογίζει τη λογαριθµική πιθανοφάνεια και την εντροπία κάθε κλάσης σε κάθε κείµενο που εξετάζουµε. Ενα σύνολο χαρακτηριστικών το οποίο εξαρτάται από τη γλώσσα του κειµένου και περιέχει χαρακτηριστικά τα οποία είναι περισσότερο σύνθετα και ξεπερνούν το επίπεδο ανάλυσης ως προς τους χαρακτήρες και τις λέξεις. Ολα τα παραπάνω χαρακτηριστικά µπορούν να χρησιµοποιηθούν είτε αυτόνοµα, είτε σε διάφορους συνδυασµούς µεταξύ τους, ώστε να πετύχουµε την καλύτερη δυνατή απόδοση στην κατηγοριοποίηση. Ετσι, προκύπτουν αυτόµατα συστήµατα κατηγοριοποίησης ϕύλου, τα οποία µπορούν να προσαρµοστούν εύκολα, ανάλογα µε τις επιλογές κειµένων και χαρακτηριστικών που κάνουµε. Η πλειοψηφία των κειµένων του κοινωνικού ιστού αποτελείται από κείµενα µικρού µεγέθους, οπότε είναι σχετικά δύσκολο να κατηγοριοποιηθούν σωστά. Τα σύνολα χαρακτηριστικών που προτείνουµε, στην πλειοψηφία τους είναι ανεξάρτητα από τον τύπο του κειµένου και εξετάζουν ένα µεγάλο αριθµό της διαθέσιµης πληροφορίας που µπορεί να µας παρέχει ένα κείµενο. Γι αυτό και έχουν αρκετά καλή απόδοση ανεξάρτητα απ τον τύπο του κειµένου και σηµειώνουν υψηλά ποσοστά επιτυχηµένης κατηγοριοποίησης όταν πρόκειται για κείµενα µικρού µεγέθους.
12 ΚΕΦΑΛΑΙΟ 1. ΕΙΣΑΓΩΓ Η 1.4 οµή της εργασίας Τώρα ϑα περιγράψουµε τη δοµή της εργασίας. Στο κεφάλαιο 2 παρουσιάζουµε τα επιστηµονικά πεδία της Επεξεργασίας Φυσικής Γλώσσας (NLP- Natural Language Processing) που εµπλέκονται στην υλοποίηση του συστήµατος µας. Αυτά είναι η κατηγοριοποίηση κειµένου (Text Classification) και η εξαγωγή του προφίλ του γράφοντα (Authorship Attribution). Στο κεφάλαιο 3 ϑα παρουσιάσουµε τις ϐασικές έρευνες που έχουν προταθεί στο πεδίο της κατηγοριοποίησης κειµένων µε ϐάση το ϕύλο. Στο κεφάλαιο 4 περιγράφουµε τη µέθοδο που σχεδιάσαµε και υλοποιήσαµε και αναφερόµαστε διεξοδικά στα εργαλεία που χρησιµοποιήσαµε για την υλοποίηση, τα οποία είναι αρχικά η γλώσσα προγραµµατισµού Python µέσω της οποίας έγινε όλη η υλοποίηση, το NLTK για την προεπεξεργασία των κειµένων και για την υλοποίηση διάφορων λειτουργιών επεξεργασίας ϕυσικής γλώσσας, το SentiWordNet για την ανάθεση πολικότητας σε κάθε λέξη και το WEKA, το οποίο είναι ένα εργαλείο µηχανικής µάθησης, το οποίο χρησιµοποιείται ευρέως για την κατηγοριοποίηση δεδοµένων. Στο κεφάλαιο 5 περιλαµβάνεται η πειραµατική εφαρµογή των πρότυπων συστηµάτων µας. είχνουµε τα σώµατα κειµένων που χρησιµοποιήσαµε για τα πειράµατά µας, περιγράφουµε τα διάφορα στάδια της υλοποίησης και παρουσιάζουµε εκτενώς τα αποτελέσµατα των πειραµάτων µας. Τέλος, στο κεφάλαιο 6 παραθέτουµε τα συµπεράσµατα που προέκυψαν από την εκπόνηση της εργασίας, τα διάφορα Ϲητήµατα που παρουσιάστηκαν στην υλοποίηση και τα ανοιχτά ϑέµατα προς ϐελτίωση για µετέπειτα έρευνα.
Κεφάλαιο 2 Θεωρητικό Υπόβαθρο Η Επεξεργασία Φυσικής Γλώσσας (NLP- Natural Language Processing) είναι ένας κλάδος της Επιστήµης των Υπολογιστών, της Τεχνητής Νοηµοσύνης και της Γλωσσολογίας. Ασχολείται µε την αλληλεπίδραση ανάµεσα στους υπολογιστές και στις ϕυσικές γλώσσες. Πολλές προκλήσεις περιλαµβάνουν την κατανόηση της ϕυσικής γλώσσας από τους υπολογιστές, δηλαδή την άντληση νοηµάτων από είσοδο που περιέχει ϕυσική γλώσσα. Μερικά από τα ϐασικά ερευνητικά πεδία της Επεξεργασίας Φυσικής Γλώσσας είναι η αυτόµατη εξαγωγή περιλήψεων, η επίλυση της αναφοράς, η µηχανική µετάφραση, η αναγνώριση ονοµάτων οντοτήτων, η οπτική αναγνώριση χαρακτήρων, η µορφοσυντακτική επισηµείωση, η εξαγωγή σχέσεων, η εξόρυξη γνώµης, η κατηγοριοποίηση κειµένου και η αναγνώριση της οµιλίας. Στο κεφάλαιο αυτό, ϑα περιγράψουµε τα επιστηµονικά πεδία τα οποία εµπλέκονται στη µελέτη και υλοποίηση των συστηµάτων µας. Αρχικά, ϑα περιγράψουµε την κατηγοριοποίηση κειµένου (Text Classification) και σχετικές έρευνες στο πεδίο και µετά ϑα εξετάσουµε την κατηγοριοποίηση κειµένων µε ϐάση το συγγραφέα τους (Authorship Attribution). 2.1 Κατηγοριοποίηση Κειµένου Η κατηγοριοποίηση κειµένου είναι ένα πρόβληµα το οποίο ανήκει στην Επιστήµη των Υπολογιστών. Το ϐασικό Ϲήτηµα είναι να αναθέσουµε ένα κείµενο σε µια ή περισσότερες κλάσεις ή κατηγορίες. Η κατηγοριοποίηση κειµένων µε 13
14 ΚΕΦΑΛΑΙΟ 2. ΘΕΩΡΗΤΙΚ Ο ΥΠ ΟΒΑΘΡΟ χρήση κάποιου αλγορίθµου ανήκει στην Επιστήµη της Πληροφορίας και στην Επιστήµη των Υπολογιστών. Τα κείµενα µπορεί να ταξινοµηθούν σύµφωνα µε το ϑέµα τους ή σύµφωνα µε άλλα χαρακτηριστικά, όπως είναι ο τύπος του κειµένου, ο συγγραφέας του, η ηλικία και το ϕύλο και η εξόρυξη γνώµης (Opinion Mining - Sentiment Analysis). [34] 2.1.1 Αυτόµατη Κατηγοριοποίηση Κειµένου Η Αυτόµατη Κατηγοριοποίηση Κειµένου µπορεί να διαχωριστεί σε τρεις κατηγορίες : σε επιβλεπόµενη κατηγοριοποίηση, όπου κάποια εξωτερική πηγή, πχ ένα σύνολο κειµένων εκπαίδευσης, παρέχει πληροφορία για τη σωστή κατηγοριοποίηση των κειµένων, σε µη επιβλεπόµενη κατηγοριοποίηση, όπου η κατηγοριοποίηση πρέπει να γίνει εξ ολοκλήρου χωρίς αναφορά σε κάποια εξωτερική γνώση και σε ηµιεπιβλεπόµενη κατηγοριοποίηση, όπου τµήµατα των κειµένων ταξινοµούνται από κάποιον εξωτερικό παράγοντα. Υπάρχουν διάφορες τεχνικές για την κατηγοριοποίηση κειµένων, όπως είναι η χρήση του κατηγοριοποιητή Naive Bayes, η χρήση της µετρικής tf - idf, τα νευρωνικά δίκτυα, οι µηχανές διανυσµάτων υποστήριξης, τα δέντρα απόφασης, οι Κ κοντινότεροι γείτονες, καθώς και προσεγγίσεις της επεξεργασίας ϕυσικής γλώσσας. 2.1.2 Κατηγοριοποίηση κειµένου µε χρήση Naive Bayes Σ ένα πρόβληµα κατηγοριοποίησης κειµένου, ϑα χρησιµοποιήσουµε τις λέξεις (όρους ή tokens) του κειµένου, µε σκοπό να αναθέσουµε το κείµενο στην κατάλληλη κλάση. Χρησιµοποιώντας τον κανόνα Maximum a Posteriori (MAP), προκύπτει ο ακόλουθος κατηγοριοποιητής : c map = argmax c C (P (c d)) = argmax c C (P (c) i k n d P (t k c)), όπου t k είναι οι λέξεις του κειµένου, C είναι το σύνολο των κλάσεων που χρησιµοποιείται στην κατηγοριοποίηση, P (c d) είναι η υπό συνθήκη
2.1. ΚΑΤΗΓΟΡΙΟΠΟ ΙΗΣΗ ΚΕΙΜ ΕΝΟΥ 15 πιθανότητα της κλάσης c δοθέντος του κειµένου d, P (c) είναι η εκ των προτέρων πιθανότητα της κλάσης c και P (t k c) είναι η υπό συνθήκη πιθανότητα της λέξης t k, δοθείσας της κλάσης c. Αυτό σηµαίνει ότι, για να ϐρούµε σε ποια κλάση ϑα πρέπει να αναθέσουµε ένα νέο κείµενο, πρέπει να υπολογίσουµε το γινόµενο της πιθανότητας κάθε λέξης του κειµένου, δοθείσας µιας συγκεκριµένης κλάσης (πιθανοφάνεια) και να πολλαπλασιάσουµε µε την πιθανότητα µιας συγκεκριµένης κλάσης (εκ των προτέρων). Αφού υπολογίσουµε όλα τα παραπάνω για όλες τις κλάσεις του συνόλου C, επιλέγουµε την κλάση µε την υψηλότερη πιθανότητα. Μερικές παραλλαγές του κοινού µοντέλου Naive Bayes είναι το πολυωνυ- µικό µοντέλο Naive Bayes, το δυαδικό πολυωνυµικό µοντέλο Naive Bayes και το µοντέλο Bernoulli. [22] 2.1.3 Εξόρυξη Γνώµης Ενα ϐασικό στοιχείο της συλλογής πληροφοριών ήταν πάντα να εντοπίσει τι σκέφτονται οι άνθρωποι. Καθώς οι πηγές που παρέχουν τις γνώµες των ανθρώπων γίνονται ολοένα και πιο δηµοφιλείς, προσφέρονται καινούριες ευκαιρίες στην αναζήτηση και κατανόηση της γνώµης των άλλων. Η εξόρυξη γνώµης ή εναλλακτικά ανάλυση συναισθήµατος είναι µια εφαρµογή της Επεξεργασίας Φυσικής Γλώσσας και της Υπολογιστικής Γλωσσολογίας και επικεντρώνεται στην αναγνώριση γνώµης, συναισθήµατος και υποκειµενικής πληροφορίας µέσα σ ένα κείµενο. Στοχεύει στον καθορισµό της διάθεσης ενός οµιλητή ή ενός συγγραφέα πάνω σ ένα ϑέµα ή στον υπολογισµό της συνολικής πολικότητας ενός εγγράφου. Ενα γεγονός είναι µια αντικειµενική περιγραφή µιας κατάστασης η οποία δεν περιέχει κάποια συναισθηµατική χροιά (π.χ. δηµοσιογραφικός λόγος), ενώ η άποψη είναι µια υποκειµενική κρίση (κείµενα κριτικών). Η διάθεση αυτή µπορεί να είναι κρίση, εκτίµηση, συναισθηµατική κατάσταση ή η συναισθηµατική επίδραση που ο συγγραφέας ή ο οµιλητής ϑέλει να µεταδώσει στο κοινό. Τελικά, πρέπει να εξαχθεί ένα συµπέρασµα για το αν η γνώµη που εκφράζεται είναι ϑετική, αρνητική ή ουδέτερη [25]. Στο [5] εξετάζεται το πρόβληµα της κατηγοριοποίησης εγγράφων όχι µε ϐάση το ϑέµα, αλλά σύµφωνα µε το συνολικό συναίσθηµα (ϑετική ή αρνητική
16 ΚΕΦΑΛΑΙΟ 2. ΘΕΩΡΗΤΙΚ Ο ΥΠ ΟΒΑΘΡΟ κριτική). Για να επιτευχθεί αυτή η κατηγοριοποίηση, εφαρµόζονται µέθοδοι µηχανικής µάθησης (κατηγοριοποιητής Naive Bayes, κατηγοριοποίηση µέγιστης εντροπίας και µηχανές διανυσµάτων υποστήριξης). Το σύνολο δεδοµένων που χρησιµοποιήθηκε είναι κριτικές ταινιών και παρατηρήθηκε ότι οι τρεις παραπάνω µέθοδοι δεν έχουν τόσο καλή απόδοση στην κατηγοριοποίηση συναισθήµατος όσο στην κατηγοριοποίηση µε ϐάση το ϑέµα. Τελικά, διαπιστώθηκε ότι ο κατηγοριοποιητής Naive Bayes είχε τη χειρότερη απόδοση, ενώ οι µηχανές διανυσµάτων υποστήριξης την καλύτερη. 2.2 Authorship Attribution Η ϐασική ιδέα πίσω από το στατιστικό ή υπολογιστικό authorship attribution είναι ότι, µετρώντας κάποια κειµενικά χαρακτηριστικά, µπορούµε να διακρίνουµε κείµενα τα οποία είναι γραµµένα από διαφορετικούς συγγραφείς. Ο µεγάλος όγκος διαθέσιµων online κειµένων, όπως είναι τα e-mail, οι συζητήσεις σε forum και τα blogs, υποδεικνύουν ένα ευρύ σύνολο εφαρµογών αυτής της τεχνολογίας, δεδοµένου ότι είναι δυνατό να διαχειριστούµε µικρά και ϑορυβώδη κείµενα από πολλούς συγγραφείς [33]. Μέχρι και τα τέλη της δεκαετίας του 1990, η έρευνα στο authorship attribution κατευθύνθηκε από προσπάθειες να καθοριστούν χαρακτηριστικά για την ποσοτικοποίηση του στυλ του γραπτού λόγου, µια τάση η οποία είναι γνωστή µε τον όρο stylometry [13], [14]. Συνεπώς, προτάθηκε µια µεγάλη ποικιλία από µετρικές, όπως είναι το µέγεθος της πρότασης, το µέγεθος της λέξης, οι συχνότητες των λέξεων και των χαρακτήρων και ο πλούτος του λεξιλογίου. Σ ένα τυπικό πρόβληµα authorship attribution, ένα κείµενου άγνωστου συγγραφέα ανατίθεται σε έναν υποψήφιο συγγραφέα, δοθέντος ενός συνόλου από υποψήφιους συγγραφείς, των οποίων είναι διαθέσιµα κάποια δείγµατα κειµένου. Από την πλευρά της µηχανικής µάθησης, αυτό µπορεί να ϑεωρηθεί σαν ένα πρόβληµα κατηγοριοποίησης κειµένου [30]. Πέρα απ το πρόβληµα αυτό, µπορεί να οριστεί κι ένα σύνολο από σχετικά Ϲητήµατα, µερικά από τα οποία είναι : Επικύρωση του συγγραφέα, δηλαδή αν ένα κείµενο έχει γραφτεί από ένα συγκεκριµένο συγγραφέα ή όχι [18].
2.2. AUTHORSHIP ATTRIBUTION 17 Plagiarism detection, δηλαδή ο εντοπισµός οµοιοτήτων µεταξύ δύο κειµένων [9], [3]. Εξαγωγή του προφίλ του χρήστη, δηλαδή εξαγωγή πληροφοριών για το επίπεδο εκπαίδευσης ή το ϕύλο του συγγραφέα [20]. Οι κυριότερες κατηγορίες και υποκατηγορίες χαρακτηριστικών που εξετάζονται στο πρόβληµα του authorship attribution ϕαίνονται παρακάτω : Στυλοµετρικά χαρακτηριστικά : Επίπεδο λέξεων, όπως το µήκος λέξεων ή προτάσεων, η γλωσσική πυκνότητα, συχνότητες λέξεων, n-grams, ορθογραφικά λάθη. Επίπεδο χαρακτήρων, όπως τύποι χαρακτήρων (γράµµατα ή ψηφία), n-gram χαρακτήρων, µέθοδοι συµπίεσης. Συντακτικό επίπεδο, όπως είναι το µέρος του λόγου στο οποίο ανήκει κάθε λέξη, ακολουθίες µερών του λόγου, η δοµή προτάσεων και ϕράσεων. Σηµασιολογικό επίπεδο, δηλαδή συνώνυµα ή σηµασιολογικές εξαρτήσεις. Χαρακτηριστικά ανάλογα µε την εφαρµογή, για παράδειγµα δοµικά και εξειδικευµένα χαρακτηριστικά για το περιεχόµενο ή τη γλώσσα του κειµένου. Μπορούµε να διακρίνουµε τις διαφορετικές προσεγγίσεις σύµφωνα µε το αν επεξεργάζονται κάθε κείµενο εκπαίδευσης ξεχωριστά, ή συγκεντρωτικά (ανά συγγραφέα). Πιο συγκεκριµένα, µερικές προσεγγίσεις συνενώνουν όλα τα διαθέσιµα κείµενα εκπαίδευσης ανά συγγραφέα, σ ένα ενιαίο αρχείο και εξάγουν µια συγκεντρωτική αναπαράσταση του στυλ του συγγραφέα αυτού (το προφίλ του συγγραφέα) µέσω αυτού του αρχείου. Αυτό σηµαίνει ότι οι διαφορές ανάµεσα στα κείµενα που έχουν γραφεί από τον ίδιο συγγραφέα παραβλέπονται. Η πλειοψηφία των πιο σύγχρονων προσεγγίσεων αντιµετωπίζει κάθε κείµενο εκπαίδευσης σαν µια µονάδα η οποία συνεισφέρει ξεχωριστά στο µοντέλο. Σε µια τυπική αρχιτεκτονική ενός τέτοιου µοντέλου, κάθε δείγ- µα κειµένου του συνόλου εκπαίδευσης αναπαρίσταται από ένα διάνυσµα
18 ΚΕΦΑΛΑΙΟ 2. ΘΕΩΡΗΤΙΚ Ο ΥΠ ΟΒΑΘΡΟ χαρακτηριστικών και ένας αλγόριθµος κατηγοριοποίησης εκπαιδεύεται µε χρήση του συνόλου εκπαίδευσης, ώστε να αναπτυχθεί το µοντέλο. Στη συνέχεια, το µοντέλο ϑα είναι σε ϑέση να εκτιµήσει τον πραγµατικό συγγραφέα ενός άγνωστου κειµένου. Τέτοιοι αλγόριθµοι κατηγοριοποίησης απαιτούν πολλαπλά στιγµιότυπα εκπαίδευσης για κάθε κλάση, ώστε να εξάγουν ένα αξιόπιστο µοντέλο. ηλαδή, τα δείγµατα κειµένου ϑα πρέπει να είναι αρκετά µεγάλα, ώστε τα χαρακτηριστικά αναπαράστασης να εκπροσωπούν επαρκώς το στυλ τους. Μια µέθοδος η οποία δανείζεται κάποια στοιχεία και από τις δύο παραπάνω προσεγγίσεις περιγράφεται στο [11]. Πιο συγκεκριµένα, όλα τα κείµενα εκπαίδευσης αναπαριστώνται ξεχωριστά. Ωστόσο, από τα διανύσµατα αναπαράστασης για τα κείµενα κάθε συγγραφέα υπολογίζεται ένας µέσος όρος κι έτσι προκύπτει ένα µοναδικό διάνυσµα για το προφίλ κάθε συγγραφέα. Η απόσταση του προφίλ ενός άγνωστου κειµένου από το προφίλ κάθε συγγραφέα υπολογίζεται στη συνέχεια, από µια συνάρτηση Ϲυγισµένων χαρακτηριστικών.
Κεφάλαιο 3 Πεδία Ερευνας Στο κεφάλαιο αυτό ϑα εστιάσουµε σε ένα σηµαντικό πεδίο τοµής ανάµεσα στην κατηγοριοποίηση κειµένου και στο authorship attribution. ηλαδή, ϑα αναφερθούµε διεξοδικά στην έρευνα που έχει γίνει στον τοµέα της κατηγοριοποίησης µε ϐάση το ϕύλο, καθώς αυτός ο τοµέας αποτελεί το ϐασικότερο κοµµάτι του συστήµατος που υλοποιήσαµε. Το πρόβληµα της κατηγοριοποίησης κειµένου µε ϐάση το ϕύλο έχει πολλές εφαρµογές στον τοµέα της διαφήµισης και του εµπορίου, όπως είναι οι στοχευµένες διαφηµίσεις ανάλογα µε το ϕύλο και η σχεδίαση των προϊόντων, ώστε να είναι ελκυστικά σε άνδρες και γυναίκες. Ωστόσο, αποτελεί ένα ιδιαίτερα σύνθετο πρόβληµα και ξεπερνά τα όρια της απλής κατηγοριοποίησης κειµένου. Γι αυτό και απαιτείται συνδυασµός αρκετών κειµενικών χαρακτηριστικών (features), ώστε η κατηγοριοποίηση να µπορεί να γίνει µε επιτυχία. 3.1 Κατηγοριοποίηση Κειµένου µε ϐάση το Φύλο του Συγγραφέα Οι διάφορες έρευνες που έχουν προταθεί στον τοµέα αυτό, εστιάζουν σε κείµενα που προέρχονται από blogs, από ιστοσελίδες κοινωνικής δικτύωσης και σε κείµενα µε περισσότερο επίσηµο ύφος. 19
20 ΚΕΦΑΛΑΙΟ 3. ΠΕ ΙΑ ΕΡΕΥΝΑΣ 3.1.1 Κατηγοριοποίηση µε ϐάση το ϕύλο σε blogs Τα blogs είναι ανεπίσηµα και προσωπικά κείµενα, τα οποία αποτελούν ένα µεγάλο µέρος της online δραστηριότητας. Τα ϑέµατα που κυριαρχούν είναι σχετικά µε την προσωπική Ϲωή των ανθρώπων, µε συνταγές, κριτικές προϊόντων ή και τυχαία γεγονότα. ιαφέρουν από περισσότερο επίσηµα κείµενα σε αρκετά σηµεία. Για παράδειγµα, τέτοιου είδους κείµενα συνήθως είναι µικρά σε µέγεθος, αδόµητα και αποτελούνται από απλές προτάσεις µε γραµµατικά και ορθογραφικά λάθη, συντοµογραφίες και αργκό λεξιλόγιο. Για όλους αυτούς τους λόγους, η κατηγοριοποίηση ϕύλου στα blogs είναι πιο δύσκολη απ ό,τι σε επίσηµα κείµενα. Πολύ συχνά, για να γίνει η κατηγοριοποίηση χρησιµοποιούνται features όπως λέξεις περιεχοµένου, ανάλυση µε ϐάση το λεξιλόγιο, τα µέρη του λόγου κάθε λέξης και µετά εφαρµόζονται αλγόριθµοι επιλογής features. Ενα σύνολο από 71000 blogs χρησιµοποιείται στα [29] και [2]. Εξετάζονται δύο κατηγορίες από χαρακτηριστικά : χαρακτηριστικά που σχετίζονται µε το στυλ, τα οποία είναι µέρη του λόγου, αριθµός λέξεων, υπερσύνδεσµοι κλπ. χαρακτηριστικά που σχετίζονται µε το περιεχόµενο, δηλαδή ένας αριθµός λέξεων οι οποίες εµφανίζονται πιο συχνά στο σύνολο κειµένων. Ο αλγόριθµος που χρησιµοποιήθηκε για την κατηγοριοποίηση είναι ο Multi- Class Real Winnow (MCRW). Εκτός από τα ευρέως χρησιµοποιούµενα χαρακτηριστικά, όπως είναι τα unigrams, στο [38] εξετάζεται και η απόδοση µερικών µη συνηθισµένων χαρακτηριστικών, τα οποία είναι το χρώµα που έχουν επιλέξει οι χρήστες στο blog τους, οι γραµµατοσειρές και τον αν τα γράµµατα είναι κεφαλαία ή µικρά, τα σηµεία στίξης και η χρήση emoticons. Ολα τα παραπάνω δίνονται στον κατηγοριοποιητή Naive Bayes. Στο [21] χρησιµοποιούνται διαφορετικές κατηγορίες χαρακτηριστικών για να γίνει η κατηγοριοποίηση. Πιο συγκεκριµένα, χρησιµοποιείται η µετρική F-Measure [12], στυλιστικά χαρακτηριστικά, χαρακτηριστικά που συνδέονται µε κάθε ϕύλο και κλάσεις λέξεων. Ταυτόχρονα, προτείνεται ένας αλγόριθµος
3.1. ΚΑΤΗΓΟΡΙΟΠΟ ΙΗΣΗ ΚΕΙΜ ΕΝΟΥ ΜΕ ΒΆΣΗ ΤΟ Φ ΥΛΟ ΤΟΥ ΣΥΓΓΡΑΦ ΕΑ 21 που εξάγει ακολουθίες µερών του λόγου και ένας νέος αλγόριθµος επιλογής χαρακτηριστικών. Η µετρική F-Measure εξερευνά το περιεχόµενο του κειµένου και πιο συγκεκριµένα την αντίθεση ανάµεσα στα συµφραζόµενα και στην πιο επίσηµη διατύπωση του κειµένου. Αυτό γίνεται µετρώντας τη συχνότητα εµφάνισης ορισµένων µερών του λόγου. Ενα χαµηλό σκορ στο F-Measure υποδεικνύει συµφραζόµενα, δηλαδή µεγαλύτερη χρήση αντωνυµιών (pron), ϱηµάτων (verb), επιρρηµάτων (adv) και συνδέσµων (int). Ενα µεγάλο σκορ, αντίθετα, δηλώνει πιο επίσηµη διατύπωση, µέσω της χρήσης ουσιαστικών (noun), επιθέτων (adj), προθέσεων (prep) και άρθρων (art). Ο τύπος για τη µετρική είναι (το freq.x δηλώνει τη συχνότητα του µέρους του λόγου x): F = 0.5 [(f req.noun + f req.adj + f req.prep + f req.art) (f req.pron + freq.verb + freq.adv + freq.int) + 100]. Η µετρική αυτή παρουσιάζει µεγάλη διαφορά ανάµεσα στα δύο ϕύλα. Οι γυναίκες σηµείωσαν χαµηλότερο σκορ, ενώ οι άνδρες µεγαλύτερο, ϕανερώνοντας έναν πιο επίσηµο τρόπο διατύπωσης στο γραπτό λόγο. Τα στυλιστικά χαρακτηριστικά συνδέονται µε το στυλ γραπτού λόγου των ανθρώπων. Αυτό εκφράζεται µέσω της χρήσης συγκεκριµένων µερών του λόγου και λέξεων που εµφανίζονται µε µεγάλη συχνότητα σε blogs. Τα χαρακτηριστικά που είναι αντιπροσωπευτικά για κάθε ϕύλο µετρώνται µέσω της συχνότητας εµφάνισης λέξεων που έχουν κατάληξη able, al, ful, ible, ic, ive, less, ly, ous και λέξεων που εκφράζουν µεταµέλεια. Επίσης, υπολογίζεται η συχνότητα εµφάνισης λέξεων που ανήκουν στις παρακάτω κατηγορίες : διάλογος σπίτι οικογένεια ϕαγητό και ένδυση συναισθήµατα λέξεις µε ϑετική πολικότητα
22 ΚΕΦΑΛΑΙΟ 3. ΠΕ ΙΑ ΕΡΕΥΝΑΣ λέξεις µε αρνητική πολικότητα Ο αλγόριθµος εξαγωγής ακολουθιών µερών του λόγου εντοπίζει συχνές ακολουθίες, οι οποίες ϕανερώνουν τη συντακτική πολυπλοκότητα στη γραφή ανδρών και γυναικών. Ο αλγόριθµος επιλογής χαρακτηριστικών χρησιµοποιεί ένα συνδυασµό από κριτήρια και µεθόδους επιλογής. Κάθε κριτήριο επιλογής µπορεί να πολωθεί υπέρ κάποιων χαρακτηριστικών, οπότε ο συνδυασµός τους εντοπίζει τα περισσότερο πληροφοριακά και διαφοροποιητικά χαρακτηριστικά. Οι αλγόριθµοι κατηγοριοποίησης που εφαρµόστηκαν είναι οι SVM, SVM Regression, Naive Bayes. Στο [6] σαν κύρια features χρησιµοποιούνται οι λέξεις και η στίξη του κειµένου σε δυαδική αναπαράσταση, αλλά και µε τη συχνότητα του όρου. Επίσης, υπολογίζουν και το µέσο µήκος λέξης και πρότασης. Οπως και στο [21], χρησιµοποιούν το F-Measure και τις συχνότητες εµφάνισης των λέξεων που ανήκουν στις κατηγορίες που αναφέρθηκαν παραπάνω. Οι αλγόριθµοι κατηγοριοποίησης που εφαρµόστηκαν είναι οι SVM, LDA, Naive Bayes. Τα features που παράχθηκαν στο [7] είναι : Ο αριθµός των προτάσεων. Ο αριθµός των λέξεων. Ο αριθµός των λέξεων ανά πρόταση. Το µέσο µήκος των λέξεων. Το ποσοστό των λέξεων µε επαναλαµβανόµενα γράµµατα. Το ποσοστό χρήσης emoticons. Το ποσοστό χρήσης υβριστικών λέξεων. Στη συνέχεια, τα κείµενα κατηγοριοποιήθηκαν µε χρήση των κατηγοριοποιητών J48, SVM, Naive Bayes και πολυεπίπεδα νευρωνικά δίκτυα. 3.1.2 Κατηγοριοποίηση µε ϐάση το ϕύλο σε ιστοσελίδες κοινωνικής δικτύωσης Στο [15] γίνεται ταξινόµηση κειµένων που προέρχονται απ το twitter, από κριτικές ξενοδοχείων, από blogs και από διάφορες άλλες αναρτήσεις απ τον
3.1. ΚΑΤΗΓΟΡΙΟΠΟ ΙΗΣΗ ΚΕΙΜ ΕΝΟΥ ΜΕ ΒΆΣΗ ΤΟ Φ ΥΛΟ ΤΟΥ ΣΥΓΓΡΑΦ ΕΑ 23 Κοινωνικό Ιστό µε ϐάση το ϕύλο και την ηλικία. Στόχος είναι να γίνεται σωστά η κατηγοριοποίηση σε διαφορετικά είδη κειµένων. Τα features που χρησιµοποιούνται για την κατηγοριοποίηση ανήκουν στις παρακάτω κατηγορίες : Features από την ψυχογλωσσολογική ϐάση δεδοµένων MRC, τα οποία περιέχουν πληροφορία για τη συχνότητα των λέξεων που έχουν ψυχογλωσσολογικό περιεχόµενο. Features που προέρχονται από το λεξικό LIWC (Linguistic Inquiry and Word Count) [19]. Features που σχετίζονται µε την έκφραση συναισθήµατος. Πιο συγκεκριµένα, υπολογίζεται ο αριθµός των προτάσεων που εκφράζουν ϑετικό, αρνητικό ή ουδέτερο συναίσθηµα. Ο µέσος αριθµός των λέξεων ανά πρόταση, ο αριθµός των προτάσεων και ο αριθµός των χαρακτήρων. Ο αριθµός εµφάνισης HTML tags τα οποία αναφέρονται σε συνδέσµους, εικόνες κλπ. Το πλήθος εµφάνισης ορθογραφικών και γραµµατικών λαθών κανονικοποιηµένο µε ϐάση το συνολικό αριθµό των λέξεων του κειµένου. Η συχνότητα εµφάνισης emoticons. Το πλήθος των αναρτήσεων για κάθε χρήστη, ο αριθµός κεφαλαίων γραµµάτων και το πλήθος των λέξεων που ξεκινούν µε κεφαλαίο γράµµα. Μια από τις πρώτες προσπάθειες να κατηγοριοποιηθούν status χρηστών του Facebook παρουσιάζεται στο [16]. Τα χαρακτηριστικά που λήφθηκαν υπόψη είναι οι λέξεις (µε ειδικά χαρακτηριστικά για stop words και αργκό λέξεις), η στίξη, τα κεφαλαία γράµµατα και τα emoticons, οι αριθµοί, τα κενά και τα γράµµατα ανά status. Οι κατηγοριοποιητές που χρησιµοποιήθηκαν είναι οι : Naive Bayes, Maximum Entropy, Perceptron.
24 ΚΕΦΑΛΑΙΟ 3. ΠΕ ΙΑ ΕΡΕΥΝΑΣ 3.1.3 Κατηγοριοποίηση µε ϐάση το ϕύλο σε επίσηµα κείµενα Στην κατηγορία αυτή ανήκουν κείµενα τα οποία είναι γραµµένα µε πιο επίσηµο ύφος, δηλαδή τελείως διαφορετικό σε σχέση µε τις δύο προηγούµενες υποενότητες. Παράδειγµα τέτοιου είδους κειµένου, αποτελεί το British National Corpus (BNC), το οποίο αποτελείται από 920 κείµενα, επισηµειωµένα µε το ϕύλο του συγγραφέα και µε τον τύπο τους. Το συγκεκριµένο σύνολο κειµένων χρησιµοποιήθηκε στο [20] για κατηγοριοποίηση σύµφωνα µε το ϕύλο του συγγραφέα. Τα χαρακτηριστικά που χρησιµοποιήθηκαν περιλαµβάνουν µια λίστα από λέξεις περιεχοµένουν, µια λίστα από n-grams µερών του λόγου και σηµεία στίξης. Η µέθοδος µάθησης που εφαρµόστηκε είναι ο αλγόριθµος Exponential Gradient (EG) [17].
Κεφάλαιο 4 Μεθοδολογία Γενικά, η δοµή των συστηµάτων που υλοποιήσαµε έχει ως είσοδο ένα σύνολο κειµένων, στη συνέχεια εξάγουµε χαρακτηριστικά απ αυτά τα κείµενα, οπότε τα κείµενα αναπαριστώνται ως διανύσµατα χαρακτηριστικών και δίνονται ως είσοδος στους κατηγοριοποιητές του WEKA, οι οποίοι στο τέλος δίνουν τα αποτελέσµατα της κατηγοριοποίησης. Στο κεφάλαιο αυτό ϑα περιγράψουµε τα χαρακτηριστικά που χρησιµοποιήσαµε, καθώς και τα εργαλεία που χρησιµοποιήθηκαν για την υλοποίηση του στόχου µας. 4.1 Εξαγωγή Χαρακτηριστικών Σ αυτή την ενότητα ϑα περιγράψουµε τις διαφορετικές κατηγορίες από features που χρησιµοποιήσαµε για την κατηγοριοποίηση, οι οποίες είναι τα features που είναι ανεξάρτητα απ τη γλώσσα του κειµένου, τα features που αφορούν στα µέρη του λόγου των λέξεων του κειµένου, τα features που αποτελούν γλωσσικά µοντέλα, τα features που εξαρτώνται από τη γλώσσα του κειµένου και τα features, που συνδέονται µε το περιεχόµενο του κειµένου. Ολες οι παραπάνω κατηγορίες χαρακτηριστικών υλοποιήθηκαν µε χρήση της γλώσσας προγραµµατισµού Python και του εργαλείου NLTK. 25
26 ΚΕΦΑΛΑΙΟ 4. ΜΕΘΟ ΟΛΟΓ ΙΑ 4.1.1 Χαρακτηριστικά ανεξάρτητα απ τη γλώσσα του κειµένου Κατασκευάσαµε ένα σύνολο από χαρακτηριστικά, τα οποία είναι ανεξάρτητα από τη γλώσσα και τον τύπο του κειµένου και µπορούν να εφαρµοστούν σε ένα µεγάλο σύνολο διαφορετικών κειµένων. Τα υπολογίζουµε ανά κείµενο και είναι τα εξής [39], [8]: 1. Το πλήθος των χαρακτήρων του κειµένου. 2. Το πλήθος των αλφαβητικών χαρακτήρων του κειµένου, κανονικοποιη- µένο ως προς το πλήθος των χαρακτήρων του κειµένου. 3. Το πλήθος των χαρακτήρων του κειµένου που είναι γραµµένοι µε κε- ϕαλαίο γράµµα, κανονικοποιηµένο ως προς το πλήθος των χαρακτήρων του κειµένου. 4. Το πλήθος των χαρακτήρων που είναι αριθµοί, κανονικοποιηµένο ως προς το πλήθος των χαρακτήρων του κειµένου. 5. Το πλήθος των κενών ( ), κανονικοποιηµένο ως προς το πλήθος των χαρακτήρων του κειµένου. 6. Το πλήθος των tabs, κανονικοποιηµένο ως προς το πλήθος των χαρακτήρων του κειµένου. 7. Η συχνότητα των χαρακτήρων που είναι γράµµατα. 8. Η συχνότητα των ειδικών χαρακτήρων :,@,#,$,%,,&,,,_,=,+,>,<,[,],{,},/,\,. 9. Ο συνολικός αριθµός των λέξεων. 10. Ο συνολικός αριθµός των µικρών λέξεων, δηλαδή λέξεων µε λιγότερα από 4 γράµµατα, κανονικοποιηµένος ως προς το συνολικό αριθµό των λέξεων του κειµένου. 11. Ο συνολικός αριθµός των χαρακτήρων στις λέξεις, κανονικοποιηµένος ως προς το συνολικό αριθµό των χαρακτήρων. 12. Το µέσο µήκος λέξης. 13. Ο συνολικός αριθµός των προτάσεων.
4.1. ΕΞΑΓΩΓ Η ΧΑΡΑΚΤΗΡΙΣΤΙΚ ΩΝ 27 14. Το πλήθος των παραγράφων. Ως παράγραφο ϑεωρούµε το τµήµα του κειµένου που ακολουθεί µετά από το χαρακτήρα αλλαγής γραµµής. 15. Ο συνολικός αριθµός των γραµµών του κειµένου. 16. Ο µέσος αριθµός χαρακτήρων ανά πρόταση. 17. Ο µέσος αριθµός λέξεων ανά πρόταση. 18. Το πλήθος των διαφορετικών λέξεων του κειµένου, κανονικοποιηµένο ως προς το συνολικό αριθµό των λέξεων του κειµένου. 19. Ο αριθµός των λέξεων που εµφανίζονται µόνο µια ϕορά στο κείµενο. 20. Ο αριθµός των λέξεων που εµφανίζονται µόνο δύο ϕορές στο κείµενο. 21. Η συχνότητα εµφάνισης των συµβόλων στίξης :,,.,?,!, :, ;,, 22. Το πλήθος των λειτουργικών λέξεων, όπως για παράδειγµα οι λέξεις although, much, plus, toward, who, you, your, under. 23. Το πλήθος των προτάσεων ανά παράγραφο. 24. Το πλήθος των χαρακτήρων ανά παράγραφο. 25. Το πλήθος των λέξεων που ξεκινούν µε κεφαλαίο γράµµα, κανονικοποιηµένο ως προς το συνολικό αριθµό των λέξεων του κειµένου. 26. Το πλήθος των emoticons, κανονικοποιηµένο ως προς το συνολικό αριθµό των λέξεων του κειµένου [27]. 27. Το πλήθος των λέξεων που έχουν όλα τους τα γράµµατα κεφαλαία, κανονικοποιηµένο ως προς το συνολικό αριθµό των λέξεων του κειµένου (ακρώνυµα) [27]. 28. Η τυπική απόκλιση της κατανοµής των τιµών του µήκους των λέξεων. 29. Η µέγιστη τιµή της κατανοµής των τιµών του µήκους των λέξεων. 30. Η ελάχιστη τιµή της κατανοµής των τιµών του µήκους των λέξεων. Τα χαρακτηριστικά 1 24 τα ϑεωρούµε baseline χαρακτηριστικά, οπότε ϑα αναφερόµαστε σ αυτά ως σύνολο baseline.
28 ΚΕΦΑΛΑΙΟ 4. ΜΕΘΟ ΟΛΟΓ ΙΑ 4.1.2 Χαρακτηριστικά που σχετίζονται µε τα µέρη του λόγου των λέξεων Σ αυτή την κατηγορία ανήκουν χαρακτηριστικά τα οποία υπολογίζουν τις συχνότητες εµφάνισης συγκεκριµένων µερών του λόγου, τα οποία ϕέρουν περισσότερο πληροφοριακό περιεχόµενο [21]. Τα χαρακτηριστικά µετρώνται ανά κείµενο και είναι τα παρακάτω : 1. Η συχνότητα εµφάνισης ουσιαστικών. 2. Η συχνότητα εµφάνισης κύριων ονοµάτων [28]. 3. Η συχνότητα εµφάνισης επιθέτων. 4. Η συχνότητα εµφάνισης προθέσεων. 5. Η συχνότητα εµφάνισης άρθρων. 6. Η συχνότητα εµφάνισης αντωνυµιών. 7. Η συχνότητα εµφάνισης ϱηµάτων. 8. Η συχνότητα εµφάνισης επιρρηµάτων. 9. Η συχνότητα εµφάνισης συνδέσµων. Για να ϐρούµε το µέρος του λόγου κάθε λέξης, εφαρµόσαµε µορφοσυντακτική επισηµείωση του κειµένου, µε χρήση του NLTK. 4.1.3 Γλωσσικά Μοντέλα Αυτού του είδους τα χαρακτηριστικά εξήχθησαν αφού κατασκευάσαµε γλωσσικά µοντέλα µε unigrams, bigrams και trigrams για κάθε ένα από τα δύο ϕύλα (άνδρας, γυναίκα). Τα µοντέλα για άνδρες και τα µοντέλα για γυναίκες εκπαιδεύτηκαν αρχικά µε ένα σύνολο εκπαίδευσης και στη συνέχεια για τον υπολογισµό των µετρικών χρησιµοποιήθηκε ένα σύνολο ελέγχου, διαχωρίζοντας τα κείµενα µε τέτοιον τρόπο, ώστε να µην υπάρχει τοµή ανάµεσα στα κείµενα του συνόλου εκπαίδευσης και του συνόλου ελέγχου. Οι µετρικές που υπολογίσαµε είναι το log likelihood και η εντροπία. Εποµένως, για κάθε γλωσσικό µοντέλο unigrams, bigrams και trigrams υπολογίσαµε τα παρακάτω οχτώ χαρακτηριστικά :
4.1. ΕΞΑΓΩΓ Η ΧΑΡΑΚΤΗΡΙΣΤΙΚ ΩΝ 29 1. Log likelihood για το ενδεχόµενο τα κείµενα να είναι γραµµένα από γυναίκες. 2. Log likelihood για το ενδεχόµενο τα κείµενα να είναι γραµµένα από άνδρες. 3. Η κανονικοποιηµένη τιµή του Log likelihood για το ενδεχόµενο τα κείµενα να είναι γραµµένα από γυναίκες. 4. Η κανονικοποιηµένη τιµή του Log likelihood για το ενδεχόµενο τα κείµενα να είναι γραµµένα από άνδρες. 5. Η εντροπία για το ενδεχόµενο τα κείµενα να είναι γραµµένα από γυναίκες. 6. Η εντροπία για το ενδεχόµενο τα κείµενα να είναι γραµµένα από άνδρες. 7. Η κανονικοποιηµένη τιµή της εντροπίας για το ενδεχόµενο τα κείµενα να είναι γραµµένα από γυναίκες. 8. Η κανονικοποιηµένη τιµή της εντροπίας για το ενδεχόµενο τα κείµενα να είναι γραµµένα από άνδρες. Εποµένως, συνολικά έχουµε 24 χαρακτηριστικά ανά κείµενο για αυτή την κατηγορία χαρακτηριστικών. 4.1.4 Χαρακτηριστικά Εξαρτηµένα από τη Γλώσσα Στην παρούσα υποενότητα ϑα περιγράψουµε χαρακτηριστικά τα οποία, στην πλειοψηφία τους, εξαρτώνται από τη γλώσσα του κειµένου και στοχεύουν στη ϐαθύτερη ανάλυση του κειµένου, ξεφεύγοντας από τα όρια των χαρακτήρων και των λέξεων. Η πληροφορία που εξετάζουν είναι πιο σύνθετη, οπότε ϑα πρέπει να είναι σε ϑέση να εντοπίζουν λεπτές διαφορές που µπορεί να υπάρχουν ανάµεσα σε κείµενα γραµµένα από γυναίκες και άνδρες. Τα χαρακτηριστικά µετρώνται ανά κείµενο και είναι τα παρακάτω : 1. Η συντακτική πολυπλοκότητα, την οποία µετράµε ως τον µέσο αριθµό των ϱηµάτων ανά πρόταση, κανονικοποιηµένο ως προς το συνολικό αριθµό των ϱηµάτων της πρότασης.
30 ΚΕΦΑΛΑΙΟ 4. ΜΕΘΟ ΟΛΟΓ ΙΑ 2. Το µέσο µήκος πρότασης [27], 3. Η ερωτηµατική επιτόνηση, η οποία υπολογίζεται ως ο αριθµός των ακολουθιών από διαφορετικές διατάξεις των συµβόλων! και?, πχ?!!!, κανονικοποιηµένος ως προς το συνολικό αριθµό των δύο συµβόλων στο κείµενο, 4. Ο αριθµός των επιθέτων του κειµένου, κανονικοποιηµένος ως προς το συνολικό αριθµό των λέξεων του κειµένου, 5. Ο τρόπος έκφρασης της ευγένειας, ο οποίος µετράται εντοπίζοντας ορισµένες στάνταρ λέξεις που χρησιµοποιούνται ως ένδειξη ευγένειας, όπως για παράδειγµα thanks, thank you, sorry, excuse me και στη συνέχεια κανονικοποιείται ως προς το συνολικό αριθµό λέξεων του κειµένου. 6. Ο κανονικοποιηµένος αριθµός των tag questions, όπως για παράδειγµα is it?, isnt it?. 7. Ο κανονικοποιηµένος αριθµός των εµφανίσεων αργκό λεξιλογίου [27]. 8. Ο κανονικοποιηµένος αριθµός εµφάνισης υβριστικών λέξεων και ϕράσεων. 9. Η λεξιλογική ποικιλία, η οποία µετράται ως το πλήθος των διαφορετικών λέξεων ανά κείµενο (έχοντας αφαιρέσει τους τερµατικούς όρους), κανονικοποιηµένο ως προς το συνολικό αριθµό λέξεων του κειµένου. 10. Η γλωσσική πυκνότητα, η οποία µετράται ως ο αριθµός των λέξεων περιεχοµένου του κειµένου (ουσιαστικά, επίθετα, ϱήµατα, επιρρήµατα), κανονικοποιηµένος ως προς το συνολικό αριθµό λέξεων του κειµένου. 11. Η συναισθηµατική γλώσσα, η οποία µετράται ως ο αριθµός των συναισθηµατικά ϕορτισµένων λέξεων, µε ϐάση το λεξικό του SentiWordNet, κανονικοποιηµένος ως προς το συνολικό αριθµό των λέξεων του κειµένου.
4.2. ΠΕΡΙΓΡΑΦ Η ΕΡΓΑΛΕ ΙΩΝ 31 4.1.5 Χαρακτηριστικά σχετικά µε το Περιεχόµενο Τώρα, ϑα παραθέσουµε χαρακτηριστικά τα οποία σχετίζονται περισσότερο µε το περιεχόµενο του κειµένου και µπορούν να συνεισφέρουν σε λεπτοµερέστερα αποτελέσµατα. Τα µετράµε ανά κείµενο και είναι τα εξής : 1. Ο αριθµός των εµφανίσεων υπερσυνδέσµων ("http://"), κανονικοποιη- µένος ως προς το συνολικό αριθµό των λέξεων του κειµένου [27], 2. Ο αριθµός εµφάνισης αυτοαναφορών, δηλαδή I, me, myself, mine, my, κανονικοποιηµένος ως προς το συνολικό αριθµό των λέξεων του κειµένου. 3. Το πλήθος χρήσης µελλοντικού χρόνου στο κείµενο, δηλαδή will, ll, going to, gonna, κανονικοποιηµένος ως προς το συνολικό αριθµό των λέξεων του κειµένου. 4. Η συχνότητα εµφάνισης τερµατικών όρων στο κείµενο, κανονικοποιη- µένη ως προς το συνολικό αριθµό των λέξεων του κειµένου. 4.2 Περιγραφή Εργαλείων Στην ενότητα αυτή ϑα περιγράψουµε τα εργαλεία που χρησιµοποιήσαµε στην υλοποίησή µας. 4.2.1 Η γλώσσα προγραµµατισµού Python Η γλώσσα προγραµµατισµού Python [26] αναπτύχθηκε τη δεκαετία το 90. Είναι γλώσσα διερµηνευόµενη και object-oriented. Αναπτύσσεται συνεχώς και ο κώδικάς της διανέµεται µε την άδεια Python Software Foundation. Τα πιο ϐασικά χαρακτηριστικά της είναι : Η αναγνωσιµότητα του κώδικά της, Η ευκολία στη χρήση της και Η δυνατότητά της να απλοποιεί στην υλοποίηση δύσκολες συναρτήσεις.
32 ΚΕΦΑΛΑΙΟ 4. ΜΕΘΟ ΟΛΟΓ ΙΑ Υλοποιεί διάφορες εργασίες µε χρήση ϐιβλιοθηκών (modules) και οι κύριοι τύποι δεδοµένων που χρησιµοποιεί είναι οι λίστες, τα λεξικά και οι πλειάδες. Εχει µεγαλο εύρος εφαρµογών, όπως για παράδειγµα στον επιστηµονικό υπολογισµό, στην τεχνητή νοηµοσύνη, στην επεξεργασία ϕυσικής γλώσσας κλπ. Στην παρούσα διπλωµατική εργασία χρησιµοποιήσαµε την έκδοση 2.6.5 της γλώσσας, η οποία σε συνδυασµό µε την πλατφόρµα NLTK χρησιµεύουν σε πολλές εφαρµογές της επεξεργασίας ϕυσικής γλώσσας. 4.2.2 NLTK Το NLTK (Natural Language Toolkit) είναι ένα πακέτο ϐιβλιοθηκών και προγραµµάτων της Python για εφαρµογές της Επεξεργασίας Φυσικής Γλώσσας και αναπτύχθηκε απ τους Steven Bird, Edward Loper και Ewan Klein. Περιλαµβάνει πολλά γνωστά σώµατα κειµένων, γραφικές αναπαραστάσεις και δειγµατικά δεδοµένα. Συνοδεύεται από ένα ϐιβλίο το οποίο εξηγεί τις έννοιες που σχετίζονται µε τα εργαλεία που παρέχει. Βασικός στόχος του NTLK είναι να υποστηρίξει την έρευνα και την εκµάθηση της Επεξεργασίας Φυσικής Γλώσσας καθώς και άλλων σχετικών πεδίων, όπως η Γλωσσολογία, η Τεχνητή Νοηµοσύνη, η Ανάκτηση Πληροφορίας και η Μηχανική Μάθηση. Εχει χρησιµοποιηθεί µε επιτυχία ως εργαλείο διδασκαλίας, µελέτης και ως πλατφόρµα για την ανάπτυξη πρωτότυπων ερευνητικών συστηµάτων. Κατά την υλοποίηση του συστήµατός µας χρησιµοποιήσαµε το NTLK [23], [24] για τις παρακάτω διαδικασίες : Χωρισµός του κειµένου σε προτάσεις (Sentence Tokenization/Segmentation). Αν ϑέλουµε να χωρίσουµε σε προτάσεις ένα µικρό κοµµάτι κειµένου, τότε µπορούµε να ακολουθήσουµε την παρακάτω διαδικασία : Ετσι, τώρα έχουµε µια λίστα µε τις προτάσεις και µπορούµε να τις χρησιµοποιήσουµε για περαιτέρω επεξεργασία. Αν, όµως, ϑέλουµε να διαχωρίσουµε ένα κείµενο το οποίο περιέχει πολλές προτάσεις, τότε είναι προτιµότερο να εφαρµόσουµε τα παρακάτω : Χωρισµός των προτάσεων σε λέξεις (Word Tokenization). Αν ϑέλουµε να διαχωρίσουµε µια πρόταση σε µεµονωµένες λέξεις, ϑα
4.2. ΠΕΡΙΓΡΑΦ Η ΕΡΓΑΛΕ ΙΩΝ 33 Σχήµα 4.1: Χωρισµός προτάσεων. Σχήµα 4.2: Χωρισµός προτάσεων σε κείµενο. ακολουθήσουµε τη διαδικασία που ϕαίνεται στην εικόνα 4.3. Σχήµα 4.3: Χωρισµός των προτάσεων σε λέξεις. Μορφοσυντακτική επισηµείωση (Part-Of-Speech Tagging). Η µορφοσυντακτική ανάλυση είναι η διαδικασία µε την οποία µια πρόταση από τη µορφή λίστας µε λέξης µετατρέπεται σε µια λίστα µε πλειάδες (tuples), όπου κάθε πλειάδα έχει τη µορφή (word, tag). Το tag είναι η µορφοσυντακτική ετικέτα και δείχνει αν η λέξη είναι ουσιαστικό, επίθετο, ϱήµα κτλ. Η διαδικασία είναι η εξής : Σχήµα 4.4: Μορφοσυντακτική επισηµείωση των λέξεων. Υπολογισµός της συχνότητας εµφάνισης κάθε λέξης µέσα στο κείµενο.
34 ΚΕΦΑΛΑΙΟ 4. ΜΕΘΟ ΟΛΟΓ ΙΑ Για να υπολογίσουµε τη συχνότητα εµφάνισης κάθε λέξης, χρησιµοποιούµε τη συνάρτηση FreqDist. Ενα παράδειγµα ϕαίνεται στην εικόνα 4.5: Σχήµα 4.5: Παράδειγµα χρήσης της FreqDist. 4.2.3 SentiWordNet Το SentiWordNet [31], [32] είναι µια λεξικολογική πηγή η οποία εµπλουτίζει το WordNet [37] και χρησιµοποιείται σε εφαρµογές εξόρυξης γνώµης. Είναι διαθέσιµο σε txt µορφή. Σε κάθε σύνολο συνωνύµων του WordNet αναθέτει τρία σκορ, όπως ϕαίνεται και στην εικόνα 4.6: Θετικής πολικότητας, Αρνητικής πολικότητας, Ουδετερότητας. Τα σκορ αυτά δείχνουν πόσο ϑετικοί, αρνητικοί ή ουδέτεροι είναι οι όροι που περιέχονται στο σύνολο συνωνύµων. Η τιµή κάθε σκορ ανήκει στο διάστηµα [0.0, 1.0] και το άθροισµά τους ισούται µε 1 για κάθε σύνολο συνωνύµων. Αυτό σηµαίνει ότι ένα σύνολο συνωνύµων µπορεί να έχει µη µηδενικά σκορ και στις τρεις κατηγορίες. ηλαδή, η άποψη που εκφράζεται από την έννοια που αντιστοιχεί στο σύνολο αυτό έχει και τις τρεις ιδιότητες σ ένα ϐαθµό.
4.2. ΠΕΡΙΓΡΑΦ Η ΕΡΓΑΛΕ ΙΩΝ 35 Σχήµα 4.6: Πώς το SentiWordNet αναπαριστά τις πολικότητες ενός όρου. Ενα παράδειγµα της λειτουργίας του SentiWordNet για τη λέξη estimable ϕαίνεται στην εικόνα 4.7: Η µέθοδος που χρησιµοποιήθηκε για την ανάπτυξη του SentiWordNet [10] ϐασίζεται στην εκπαίδευση ενός συνόλου τριαδικών κατηγοριοποιητών. Καθένας από αυτούς µπορεί να αποφασίσει εάν ένα σύνολο συνωνύµων είναι ϑετικό, αρνητικό ή ουδέτερο. Κάθε κατηγοριοποιητής διαφέρει από τους υπόλοιπους στο σύνολο εκπαίδευσης και στη συσκευή εκµάθησης µε τα οποία εκπαιδεύτηκε. Αυτό έχει ως αποτέλεσµα την παραγωγή διαφορετικών αποτελεσµάτων στην κατηγοριοποίηση των συνόλων συνωνύµων του WordNet. Τα σκορ που αντιστοιχούν στην άποψη που εκφράζει κάθε σύνολο συνωνύµων προκύπτουν ως η κανονικοποιηµένη αναλογία των σκορ που έχουν αναθέσει οι τριαδικοί κατηγοριοποιητές. Αν όλοι οι κατηγοριοποιητές αναθέσουν την
36 ΚΕΦΑΛΑΙΟ 4. ΜΕΘΟ ΟΛΟΓ ΙΑ Σχήµα 4.7: Οι πολικότητες της λέξης estimable. ίδια ετικέτα σ ένα σύνολο συνωνύµων, τότε αυτή η ετικέτα ϑα έχει το µέγιστο σκορ για το συγκεκριµένο σύνολο συνωνύµων. Αλλιώς, κάθε ετικέτα ϑα έχει ένα σκορ ανάλογο του αριθµού των κατηγοριοποιητών που την έχουν αναθέσει. Η ϐασική δοµή του SentiWordNet ϕαίνεται στην εικόνα 4.8.
4.2. ΠΕΡΙΓΡΑΦ Η ΕΡΓΑΛΕ ΙΩΝ 37 Σχήµα 4.8: Βασική δοµή του SentiWordNet. Για να ϕορτώσουµε το SentiWordNet στο πρόγραµµά µας και να εµφανίσουµε τα τρία σκορ µιας λέξης ϑα πρέπει να κάνουµε τα παρακάτω : Σχήµα 4.9: Φόρτωση του SentiWordNet. Στην εικόνα 4.10 ϐλέπουµε πώς µπορούµε να υπολογίσουµε το ϑετικό, αρνητικό και ουδέτερο σκορ της λέξης happy. Σχήµα 4.10: Υπολογισµός ϑετικής, αρνητικής και ουδέτερης πολικότητας της λέξης happy. 4.2.4 WEKA Το WEKA [36] είναι µια δηµοφιλής πλατφόρµα, η οποία χρησιµοποιείται σε εφαρµογές µηχανικής µάθησης. Αναπτύχθηκε στο Πανεπιστήµιο του Waikato, στη Νέα Ζηλανδία. Υποστηρίζει πολλές εφαρµογές της Εξόρυξης εδοµένων, όπως είναι η προεπεξεργασία των δεδοµένων, η συσταδοποίηση, η κατηγοριοποίηση, το
38 ΚΕΦΑΛΑΙΟ 4. ΜΕΘΟ ΟΛΟΓ ΙΑ regression, η οπτικοποίηση και η επιλογή χαρακτηριστικών. Πιο συγκεκρι- µένα, περιέχει υλοποιηµένο ένα µεγάλο σύνολο αλγορίθµων που ανήκουν σε καθεµία απ τις παραπάνω διαδικασίες.
Κεφάλαιο 5 Πειραµατικά Αποτελέσµατα και Αξιολόγηση Στο κεφάλαιο αυτό ϑα παρουσιάσουµε τα πειραµατικά αποτελέσµατα των συστηµάτων που υλοποιήσαµε για την κατηγοριοποίηση ως προς το ϕύλο. 5.1 Κατηγοριοποίηση ως προς το ϕύλο Για την κατηγοριοποίηση ως προς το ϕύλο, υλοποιήσαµε δύο διαφορετικά συστήµατα, τα οποία χρησιµοποιούν διαφορετικά σύνολα δεδοµένων και χαρακτηριστικών, ώστε να εξετάσουµε την απόδοση των χαρακτηριστικών µας σε διάφορα είδη κειµένων. Επίσης, στόχος µας ήταν να παρατηρήσουµε και τη συµπεριφορά διαφορετικών συνδυασµών χαρακτηριστικών στην κατηγοριοποίηση µε ένα σύνολο κατηγοριοποιητών. 5.1.1 Πρώτο σύστηµα Σύνολο εδοµένων Στο πρώτο σύστηµα που υλοποιήσαµε, το σύνολο δεδοµένων που χρησι- µοποιήσαµε είναι µια συλλογή από σχόλια χρηστών στο διαδίκτυο. Πιο συγκεκριµένα, το σύνολο αυτό περιλαµβάνει σχόλια χρηστών για διάφορα ϑέµατα, προερχόµενα από forum και άλλες ιστοσελίδες. Περιέχει σχόλια από διαφορετικές πηγές, τα οποία καλύπτουν ποικίλες ϑεµατικές περιοχές και από ιστοσελίδες που σχετίζονται µε τις προτιµήσεις κάθε ϕύλου (µόδα, αυτοκίνητα), 39
40 ΚΕΦΑΛΑΙΟ 5. ΠΕΙΡΑΜΑΤΙΚΆ ΑΠΟΤΕΛ ΕΣΜΑΤΑ ΚΑΙ ΑΞΙΟΛ ΟΓΗΣΗ αλλά και από ιστοσελίδες που αποτελούν ουδέτερες πηγές (ειδήσεις, υγεία, κλπ). Το σύνολο των κειµένων αποτελείται από 326736 λέξεις. Το πλήθος των χαρακτήρων συνολικά είναι 1643547. Ο διαχωρισµός του ϕύλου στα κείµενα ανάµεσα σε άνδρες και γυναίκες είναι 42% και 58% αντίστοιχα. Πειραµατική ιαδικασία Για την αξιολόγηση του συστήµατος, χρησιµοποιήσαµε διαφορετικούς συνδυασµούς των χαρακτηριστικών baseline που περιγράψαµε στην ενότητα 4.1.1 (Οµάδα 1) και των χαρακτηριστικών της ενότητας 4.1.4, που εξαρτώνται από τη γλώσσα του κειµένου (Οµάδα 2). Αρχικά, χρησιµοποιήσαµε ξεχωριστά τα baseline χαρακτηριστικά και τα χαρακτηριστικά που είναι ανεξάρτητα από τη γλώσσα και στη συνέχεια δηµιουργήσαµε τη συνένωσή τους. Τα χαρακτηριστικά που αντιστοιχούν στην Οµάδα 1 προστέθηκαν στα χαρακτηριστικά που αντιστοιχούν στην Οµάδα 2 και το συνενωµένο διάνυσµα χαρακτηριστικών δόθηκε για επεξεργασία στους αλγορίθµους κατηγοριοποίησης. Συνολικά, το διάνυσµα χαρακτηριστικών περιέχει 35 χαρακτηριστικά. Για την κατηγοριοποίηση, ϐασιζόµαστε σε αρκετούς αλγορίθµους µηχανικής µάθησης, οι οποίοι έχουν χρησιµοποιηθεί ευρέως στη ϐιβλιογραφία. Πιο συγκεκριµένα, χρησιµοποιήσαµε πολυεπίπεδα νευρωνικά δίκτυα (MLP) και µηχανές διανυσµάτων υποστήριξης (SVM) µε radial basis kernel (RBF) και µε polynomial kernel (poly). Επίσης, χρησιµοποιήσαµε τον Adaboost.M1, που είναι ένας boosting αλγόριθµος συνδυασµένος µε δέντρα απόφασης και έναν bagging αλγόριθµο που χρησιµοποιεί δέντρα απόφασης Bagging. Τέλος, χρησιµοποιήσαµε τρεις αλγορίθµους µε δέντρα απόφασης, τον Random Tree (RandTree), τον Random Forest (RandForest) και τον RepTree. Ολοι οι κατηγοριοποιητές υλοποιήθηκαν µέσω της πλατφόρµας WEKA. Για να αποφύγουµε επικαλύψεις ανάµεσα στα σύνολα εκπαίδευσης και ελέγχου, εφαρµόσαµε 10-fold cross validation. Αποτελέσµατα Στον πίνακα 5.1 ϐλέπουµε τα αποτελέσµατα της κατηγοριοποίησης µε µορφή ποσοστών %, για διαφορετικούς συνδυασµούς χαρακτηριστικών και αλγορίθµων. Η καλύτερη απόδοση για κάθε συνδυασµό χαρακτηριστικών
5.1. ΚΑΤΗΓΟΡΙΟΠΟ ΙΗΣΗ ΩΣ ΠΡΟΣ ΤΟ Φ ΥΛΟ 41 ϕαίνεται µε έντονα γράµµατα. Πίνακας 5.1: Αποτελέσµατα της κατηγοριοποίησης για διαφορετικούς συνδυασµούς χαρακτηριστικών και αλγορίθµων. Οµάδα 1 Οµάδα 2 Οµάδα 1 + Οµάδα 2 Bagging 82.72 69.35 83.54 Boosting 82.10 69.14 82.51 SVM(poly) 82.72 63.17 84.16 SVM(rbf) 67.49 50.00 68.31 MLP 82.31 66.87 82.51 RandForest 82.72 69.34 82.72 RandTree 79.84 66.05 81.07 RepTree 82.92 67.08 80.86 Οπως ϐλέπουµε στον πίνακα 5.1, η χρήση των χαρακτηριστικών της Οµάδας 2 ϐελτιώνει την ακρίβεια της κατηγοριοποίησης του ϕύλου σχεδόν κατά 1.5%, σε σύγκριση µε την καλύτερη απόδοση µόνο του baseline. Ειδικότερα, η καλύτερη baseline απόδοση είναι 82.92% µε χρήση του κατηγοριοποιητή REPTree, ενώ η συνολική καλύτερη απόδοση είναι 84.16%, η οποία επετεύχθη µε τον συνδυασµό των χαρακτηριστικών της Οµάδας 1 και της Οµάδας 2 και τον κατηγοριοποιητή SVM poly. Ο SVM poly αλγόριθµος υπερέχει των υπολοίπων, πιθανότατα γιατί δεν επηρεάζεται από το curse of dimensionality. Επίσης, αρκετά καλή απόδοση έχει και ο Bagging αλγόριθµος, ο οποίος πετυχαίνει απόδοση ίση µε 83.54%, για το συνδυασµό των χαρακτηριστικών της Οµάδας 1 και της Οµάδας 2. Η προσέγγιση της Οµάδας 2 δεν προσφέρει από µόνη της ανταγωνιστική απόδοση σε σύγκριση µε το baseline, αλλά στον συνδυασµό των χαρακτηριστικών αυτών υπάρχει αύξηση της απόδοσης, κάτι που αποδεικνύει τη σηµασία των χαρακτηριστικών που εξαρτώνται από τη γλώσσα του κειµένου.