«Μελέτη και αξιολόγηση τεχνικών Κατηγοριοποίησης Συναισθήματος σε σχόλια χρηστών στο Διαδίκτυο»

Transcript

1 ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ «ΜΑΘΗΜΑΤΙΚΑ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΚΑΙ ΤΩΝ ΑΠΟΦΑΣΕΩΝ» ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΜΑΘΗΜΑΤΙΚΩΝ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ Διπλωματική Εργασία «Μελέτη και αξιολόγηση τεχνικών Κατηγοριοποίησης Συναισθήματος σε σχόλια χρηστών στο Διαδίκτυο» Δήμου Ελένη Επιβλέπων Καθηγητής Κωτσιαντής Σωτήριος Πάτρα, Φεβρουάριος 2016

2 Πανεπιστήμιο Πατρών, Τμήμα Μαθηματικών - Τμήμα Μηχανικών Ηλεκτρονικών Υπολογιστών και Πληροφορικής Ελένη Δήμου 2016 Με την επιφύλαξη παντός δικαιώματος 2

3 Τριμελής Επιτροπή Γράψα Θεοδούλα, Αναπληρώτρια Καθηγήτρια Τμήματος Μαθηματικών, Πανεπιστημίου Πατρών Ράγγος Όμηρος, Επίκουρος Καθηγητής Τμήματος Μαθηματικών, Πανεπιστημίου Πατρών Κωτσιαντής Σωτήριος, Λέκτορας Τμήματος Μαθηματικών, Πανεπιστημίου Πατρών 3

4 Ευχαριστίες Θα ήθελα να ευχαριστήσω ιδιαιτέρως τον επιβλέποντα καθηγητή μου, κ. Σωτήρη Κωτσιαντή, για την καθοδήγησή του στην εκπόνηση της διπλωματικής μου εργασίας. Θα ήθελα επίσης να ευχαριστήσω τα μέλη της τριμελούς επιτροπής, κα. Θεοδούλα Γράψα και τον κ. Όμηρο Ράγγο για την υποστήριξή τους κατά τη διάρκεια των σπουδών μου. Τέλος, ευχαριστώ τη Βασιλική και το Χρήστο για την ουσιαστική βοήθεια που μου προσέφεραν. 4

5 Περίληψη Η άνθηση του διαδικτύου ανέδειξε νέα εργαλεία επικοινωνίας και διαύλους ανταλλαγής απόψεων. Η ανάγκη αξιοποίησης, μέσω αυτοματοποιημένων τεχνικών, του τεράστιου όγκου δεδομένων σε μορφή κειμένου, οδήγησε στην Εξόρυξη Γνώσης από Κείμενο (Text Mining) και στην Ανάλυση Συναισθήματος (Sentiment Analysis). Στόχος της Ανάλυσης Συναισθήματος, είναι η ανίχνευση της πολικότητας ενός κειμένου, με σκοπό την εξαγωγή της υποκειμενικής άποψης του συγγραφέα, ως προς το θέμα του κειμένου. Στην παρούσα εργασία παρουσιάζεται μία συγκριτική μελέτη μοντέλων κατηγοριοποίησης συναισθήματος, δεδομένων που προέρχονται από ιστοσελίδες κριτικής ταινιών (IMDb, Rotten Tomatoes) και από το Twitter. Δύο αλγόριθμοι, από την Επιβλεπόμενη Μηχανική Μάθηση, αποτελούν τη βάση των ταξινομητών, ο Πολυωνυμικός «Αφελής» Bayes (Multinomial Naive Bayes) και οι Μηχανές Διανυσμάτων Υποστήριξης (SVM). Επιπρόσθετα, διερευνάται η μεταβολή ορισμένων παραμέτρων, με σκοπό τη βελτίωση της απόδοσης των μοντέλων. Τέλος, προτείνεται η ενσωμάτωση του λεξικού πόρου SentiWordNet 3.0, στο μοντέλο ταξινόμησης των δεδομένων από το Twitter, σε συνδυασμό με τον καθαρισμό των tweets και τη γλωσσολογική ανάλυση των μηνυμάτων, καθώς οδηγεί σε περαιτέρω βελτίωση του ταξινομητή. Τα μοντέλα κατηγοριοποίησης συναισθήματος υλοποιούνται στο προγραμματιστικό περιβάλλον της Python. Λέξεις Κλειδιά: Ανάλυση Συναισθήματος, Πολικότητα Κειμένου, Μηχανική Μάθηση, Πολυωνυμικός «Αφελής» Bayes, Μηχανές Διανυσμάτων Υποστήριξης, SentiWordNet 3.0, Python 5

6 Abstract The Internet bloom revealed new communication tools and channels of opinions exchange. The need to exploit, through automated techniques, the huge amount of data in text format, led to Text Mining and Sentiment Analysis. The Analysis Sentiment aims to detect the polarity of a text, in order to export the subjective opinion of the author on the topic. This paper presents a comparative study of sentiment classification models, on data derived from movie reviews websites (IMDb, Rotten Tomatoes) and from Twitter. In order to build our classifiers, we use two algorithms, from the Supervised Machine Learning (Multinomial Naive Bayes and Support Vector Machines). Moreover, we explore how to improve the effectiveness of the model, by varying certain parameters. Finally, we propose the incorporation of the dictionary SentiWordNet 3.0, along with cleaning tweets and linguistic analysis of messages, as improves the classifier's performance. The sentiment classification models implemented using Python. Key Words: Sentiment Analysis, Text Polarity, Machine Learning, Multinomial Νaive Bayes, Support Vector Machines (SVM), SentiWordNet 3.0, Python 6

7 Πίνακας Περιεχομένων Τριμελής Επιτροπή... 3 Ευχαριστίες... 4 Περίληψη... 5 Abstract... 6 Πίνακας Περιεχομένων... 7 Κατάλογος Πινάκων Κατάλογος Εικόνων Εξόρυξη Γνώσης από Κείμενο Εισαγωγή Ανακάλυψη Γνώσης από Βάσεις Δεδομένων Η Διαδικασία της Ανακάλυψης Γνώσης Επιλογή Προεπεξεργασία Μετασχηματισμός Εξόρυξη γνώσης από δεδομένα Ερμηνεία και αξιολόγηση Εξόρυξη Γνώσης από Κείμενο Αναπαράσταση κειμένου Λογικό Μοντέλο Μοντέλο Διανυσματικού Χώρου Προσεγγίσεις στην Εξόρυξη Γνώσης από Κείμενο Κατηγοριοποίηση κειμένου Συσταδοποίηση κειμένου Εξαγωγή Κανόνων Συσχέτισης Περίληψη κειμένου Γλωσσικός Προσδιορισμός Απόδοση κειμένου σε συγγραφέα Οπτικοποίηση κειμένου Ανάλυση Συναισθήματος και Εξόρυξη Γνώμης

8 2.1 Εισαγωγή Τα επίπεδα της Ανάλυσης Συναισθήματος Επίπεδο κειμένου Επίπεδο πρότασης Επίπεδο οντότητας και χαρακτηριστικών Λεξικοί πόροι Κατηγοριοποίηση Συναισθήματος Εφαρμογές της Ανάλυσης Συναισθήματος Κοινωνικά δίκτυα Το Twitter Κριτικές προϊόντων και υπηρεσιών Σχετικές εργασίες Προσέγγιση του Προβλήματος Εισαγωγή «Απλοϊκό» Μοντέλο Bayes Gaussian Naive Bayes Multinomial Naive Bayes Μηχανές Διανυσμάτων Υποστήριξης Γραμμική κατηγοριοποίηση Μη Γραμμική κατηγοριοποίηση Μετρικές Αξιολόγησης Μοντέλα Κατηγοριοποίησης Συναισθήματος Προγραμματιστικό Περιβάλλον - Python Συλλογή δεδομένων Δεδομένα από Κριτικές Ταινιών Δεδομένα από το Twitter Περιγραφή Μοντέλου Κατηγοριοποίησης Εισαγωγή των δεδομένων Αναπαράσταση δεδομένων TF-IDF Ν-gram και Stopwords Επιλογή αλγορίθμου Σύνολα εκπαίδευσης ελέγχου Αξιολόγηση του μοντέλου Γλωσσολογική ανάλυση & SentiWordNet Πειραματικά Αποτελέσματα

9 5.1 Ταξινομητής για τα δεδομένα από το IMDB Ταξινομητής για τα δεδομένα από το RT Ταξινομητής για τα δεδομένα από το Twitter Ενσωμάτωση του SentiWordNet 3.0 στην ταξινόμηση των δεδομένων από το Twitter Συμπεράσματα Βιβλιογραφικές Αναφορές Παράρτημα Παράρτημα Παράρτημα

10 Κατάλογος Πινάκων Πίνακας 1: Παράδειγμα κριτικής από την ιστοσελίδα IMDb Πίνακας 2: Παραδείγματα κριτικών από την ιστοσελίδα Rotten Tomatoes Πίνακας 3: Παραδείγματα στιγμιοτύπων από τα δεδομένα του Twitter Πίνακας 4: Αφαίρεση των emoticons από τα tweets Πίνακας 5: Αφαίρεση των συντομογραφιών από τα tweets Πίνακας 6: Μετρικές αξιολόγησης 1 ου ταξινομητή (IMDB) Πίνακας 7: Μετρικές αξιολόγησης 2 ου ταξινομητή (IMDB) Πίνακας 8: Μετρικές αξιολόγησης 3 ου ταξινομητή (IMDB) Πίνακας 9: Μετρικές αξιολόγησης 4 ου ταξινομητή (IMDB) Πίνακας 10: Ο τελικός LinearSVC ταξινομητής (IMDB) Πίνακας 11: Ο τελικός MultinomialNB ταξινομητής (IMDB) Πίνακας 12: Η τελική επιλογή ταξινομητή για το σύνολο IMDB Πίνακας 13: Μετρικές αξιολόγησης 1 ου ταξινομητή (Rotten Tomatoes) Πίνακας 14: Μετρικές αξιολόγησης 2 ου ταξινομητή (Rotten Tomatoes) Πίνακας 15: Μετρικές αξιολόγησης 3 ου ταξινομητή (Rotten Tomatoes) Πίνακας 16: Μετρικές αξιολόγησης 4 ου ταξινομητή (Rotten Tomatoes) Πίνακας 17: Ο τελικός LinearSVC ταξινομητής (Rotten Tomatoes) Πίνακας 18: Ο τελικός MultinomialNB ταξινομητής (Rotten Tomatoes) Πίνακας 19: Η τελική επιλογή ταξινομητή για το σύνολο RT Πίνακας 20: Μετρικές αξιολόγησης 1 ου ταξινομητή (Twitter) Πίνακας 21: Μετρικές αξιολόγησης 2 ου ταξινομητή (Twitter) Πίνακας 22: Μετρικές αξιολόγησης 3 ου ταξινομητή (Twitter) Πίνακας 23: Μετρικές αξιολόγησης 4 ου ταξινομητή (Twitter) Πίνακας 24: Ο τελικός LinearSVC ταξινομητής (Twitter) Πίνακας 25: Βελτίωση του MultinomialNB ταξινομητή (Twitter) Πίνακας 26: Ο τελικός MultinomialNB ταξινομητής (Twitter) Πίνακας 27: Η τελική επιλογή ταξινομητή για το σύνολο Twitter Πίνακας 28: Βελτίωση του ταξινομητή για το 1 ο σύνολο tweets Πίνακας 29: Βελτίωση του ταξινομητή για το 2 ο σύνολο tweets Πίνακας 30: Βελτίωση του ταξινομητή για το 3 ο σύνολο tweets

11 Κατάλογος Εικόνων Εικόνα 1: Η διαδικασία Ανακάλυψης Γνώσης από Βάσεις Δεδομένων Εικόνα 2: To λήμμα sad (SentiWordNet 3.0) Εικόνα 3: To λήμμα happy (SentiWordNet 3.0) Εικόνα 4: Γραμμική διάκριση δεδομένων Εικόνα 5: Το υπερεπίπεδο μέγιστου περιθωρίου ενός SVM Εικόνα 6: Εφαρμογή συνάρτησης πυρήνα Εικόνα 7: Το τέχνασμα της συνάρτησης πυρήνα (Kernel Trick) Εικόνα 8: Confusion Matrix του LinearSVC ταξινομητή (ΙMDB) Εικόνα 9: Confusion Matrix του MultinomialNB ταξινομητή (ΙMDB) Εικόνα 10: Confusion Matrix του LinearSVC ταξινομητή (RT) Εικόνα 11: Confusion Matrix του MultinomialNB ταξινομητή (RT) Εικόνα 12: Confusion Matrix του LinearSVC ταξινομητή (Twitter) Εικόνα 13: Confusion Matrix του MultinomialNB ταξινομητή (Twitter) Εικόνα 14: Confusion Matrices για το σύνολο #google, #twitter Εικόνα 15: Confusion Matrices για το σύνολο #apple, #google Εικόνα 16: Confusion Matrices για το σύνολο #google, #microsoft, #twitter

12 1. Εξόρυξη Γνώσης από Κείμενο 1.1 Εισαγωγή Είναι γεγονός, ότι ο Παγκόσμιος Ιστός, Web 1.0 ( ~2000), αποτέλεσε ένα σημαντικό μέσο διαμοίρασης πληροφοριών και γνώσης, ωστόσο δε διέφερε ουσιαστικά από την προηγούμενη τεχνολογία, του 20ου αιώνα. Ο κυριότερος λόγος, ήταν ο σαφής διαχωρισμός των ρόλων «συγγραφέα» και «αναγνώστη». Η δημοσίευση ή η δημιουργία υλικού ήταν τεχνικά δύσκολη υπόθεση και αφορούσε, σχεδόν αποκλειστικά, λίγους και «μυημένους» χρήστες. Οι περιορισμένες δυνατότητες του Παγκόσμιο Ιστού, Web 1.0, οδήγησαν στον χαρακτηρισμό του ως Read-Only Web. Η δεύτερη εποχή του Παγκόσμιου Ιστού, Web 2.0 ( σήμερα), επέφερε ριζικές αλλαγές, σε τεχνολογικό επίπεδο, στο βαθμό πρόσβασης και συνολικότερα στην αξιοποίηση του Παγκόσμιου Ιστού. Η νέα εποχή του Web 2.0, χαρακτηρίζεται από την εξάπλωση του διαδικτύου, την πληθώρα των διαδικτυακών εφαρμογών, κυρίως όμως από την απίστευτη ευκολία στη δημιουργία περιεχομένου και την αξιοποίηση του Παγκόσμιου Ιστού ως μία πλατφόρμα συνεργασίας και συμμετοχής μεταξύ των χρηστών. Σε αντίθεση με το Web 1.0, την εποχή του Web 2.0 καταργούνται οι ρόλοι «συγγραφέα» και «αναγνώστη». Ο Παγκόσμιος Ιστός πέρασε στην εποχή του Read-Write Web. Οι χρήστες έχουν τη δυνατότητα να παράγουν περιεχόμενο (User Generated Content UGC) και να συμμετέχουν στη συγγραφή ιστοσελίδων, με ποικίλους τρόπους: Wikis, Ιστολόγια (Blogs), Κοινωνικά Δίκτυα (Social Networks), Κριτικές - Αξιολογήσεις (Reviews), Χώροι Συζητήσεων (Discussion Forums). 12

13 Μολαταύτα, ενώ στις μέρες μας η διαθέσιμη πληροφορία αυξάνεται με ραγδαίους ρυθμούς, την ίδια στιγμή, οι χρήστες αδυνατούν να διαχειριστούν τον τεράστιο όγκο των δεδομένων, έτσι ώστε να αξιοποιήσουν τη διαθέσιμη πληροφορία και να αποκομίσουν γνώση, με αποτέλεσμα να ανακύπτει το πρόβλημα της υπερπληροφόρησης. Η Εξόρυξη Γνώσης από Δεδομένα (Data Mining) παρεμβαίνει, προκειμένου να ικανοποιήσει την ανάγκη των χρηστών για αξιοποίηση της διαθέσιμης πληροφορίας και να αντιμετωπίσει το ζήτημα της υπερπληροφόρησης. Για το λόγο αυτό, η Εξόρυξη Γνώσης από Δεδομένα συχνά ορίζεται ως η εύρεση πληροφοριών που είναι κρυμμένες σε βάσεις δεδομένων. Εναλλακτικά, αποκαλείται Εξερευνητική Ανάλυση Δεδομένων, Ανακάλυψη Καθοδηγούμενη από Δεδομένα και Συμπερασματική Μάθηση. [4] Τέλος, αξίζει να τονίσουμε ότι τα δεδομένα στα οποία επιδιώκουμε να ανακαλύψουμε γνώση, δεν αποτελούν κατ ανάγκη δομημένα δεδομένα (δηλαδή δεδομένα που βρίσκονται αποθηκευμένα σε βάσεις δεδομένων). Εν αντιθέσει, η πλειονότητα των δεδομένων που επεξεργάζονται και αναλύονται, συνιστούν μη δομημένα δεδομένα, όπως για παράδειγμα δεδομένα κειμένων, εικόνων, εγγράφων, ιστοσελίδων. Ειδικότερα, η ανάγκη αξιοποίησης δεδομένων σε μορφή κειμένου, οδήγησε στην ανάπτυξη τεχνικών Εξόρυξη Γνώσης από Κείμενο (Text Mining). 1.2 Ανακάλυψη Γνώσης από Βάσεις Δεδομένων Με τον όρο Ανακάλυψη Γνώσης από Βάσεις Δεδομένων (Knowledge Discovery in Databases - KDD) ορίζεται «η ντετερμινιστική διαδικασία αναγνώρισης έγκυρων, καινοτόμων, ενδεχομένως χρήσιμων και εν τέλει κατανοητών προτύπων στα δεδομένα.» (Frawley, Piatesky-Shaphiro and Matheus, 1991). [8] 13

14 Η διαδικασία Ανακάλυψης Γνώσης στοχεύει στην ανάδειξη ή/και παραγωγή λειτουργικής γνώσης, μέσω της ανάλυσης βάσεων δεδομένων. Επιπλέον, διερευνά δομές γνώσης, οι οποίες αποκαλύπτουν γνώση που είναι «κρυμμένη» στα δεδομένα και δεν μπορεί να εξαχθούν από το χρήστη (άνθρωπο) με εύκολο τρόπο. Η Ανακάλυψη Γνώσης από Βάσεις Δεδομένων, ή εναλλακτικά Εξόρυξη Γνώσης από Δεδομένα 1 (Data Mining) ή Εξαγωγή Γνώσης (Knowledge Extraction) αποτελεί μια ολοκληρωμένη διαδικασία που περιλαμβάνει την επεξεργασία των δεδομένων, την εφαρμογή των αλγορίθμων ανακάλυψης γνώσης και τέλος την αξιολόγηση και την ερμηνεία των αποτελεσμάτων. Εν κατακλείδι, στόχος της Ανακάλυψης Γνώσης είναι η ανάλυση μεγάλου όγκου πρωτογενών δεδομένων, για την ανάδειξη συγκεκριμένων δομών και σχέσεων ανάμεσά τους, έτσι ώστε τα πρότυπα, οι κανόνες ή/και οι περιορισμοί που θα εξαχθούν από τα δεδομένα, να υποστηρίξουν τον άνθρωπο στη διαδικασία λήψης αποφάσεων. Η Ανακάλυψη Γνώσης έχει εφαρμογές σε πολλούς και διαφορετικούς τομείς. Ενδεικτικά αναφέρονται ορισμένοι: Ανάλυση και Διαχείριση της Αγοράς, Μάρκετινγκ Στόχου, Καθορισμός Προτύπων Συναλλαγών, Cross- Market Ανάλυση, Ανάλυση και Διαχείριση του Κινδύνου, Ανάλυση και Πρόβλεψη Κίνησης Μετρητών, Ανάλυση Χρονοσειρών, Ανάλυση Τάσης, Ανάλυση Ανταγωνισμού, Εντοπισμός και Διαχείριση Οικονομικού Εγκλήματος, Ιατρική Ασφάλιση, Τηλεπικοινωνίες, Ανακάλυψη Ιατρικής και Βιολογικής Γνώσης, Χαρτογράφηση Ανθρώπινου Εγκέφαλου, Δομή Κυττάρου, Ανακάλυψη Αιτιακών σχέσεων, Ανάλυση Ακολουθίας DNA, Αστρονομία, Internet Web Surf-Aid. Ειδικότερα, στον επιχειρηματικό τομέα, η Εξόρυξη Γνώσης από Δεδομένα είναι σε θέση να διαδραματίσει τόσο σημαντικό ρόλο στη διαδικασία λήψης αποφάσεων, ώστε να προσδώσει στην επιχείρηση σημαντικό ανταγωνιστικό πλεονέκτημα. 1 Η Εξόρυξη Γνώσης από Δεδομένα (Data Mining) αποτελεί κεντρική διαδικασία στη διαδικασία Ανακάλυψης Γνώσης από Βάσεις Δεδομένων. Εν τούτοις, ο όρος έχει επικρατήσει να χρησιμοποιείται καταχρηστικά, για να περιγράψει συνολικά τη διαδικασία Ανακάλυψης Γνώσης. [4] 14

15 1.3 Η Διαδικασία της Ανακάλυψης Γνώσης Η Ανακάλυψη Γνώσης από Βάσεις Δεδομένων είναι «μία διαδραστική και επαναληπτική διαδικασία, αρκετών βημάτων, στην οποία κατά κανόνα, απαιτείται η παρέμβαση του ανθρώπινου παράγοντα (χρήστη) για τη λήψη κρίσιμων αποφάσεων» (Fayyad, Piatesky-Shapiro and Smyth, 1996). [6] Αναλυτικότερα, η διαδικασία Ανακάλυψης Γνώσης αποτελείται από τα παρακάτω στάδια (Εικόνα 1): Εικόνα 1: Η διαδικασία Ανακάλυψης Γνώσης από Βάσεις Δεδομένων Επιλογή Αρχικό στάδιο στη διαδικασία Ανακάλυψης Γνώσης, αποτελεί η επιλογή (selection) των δεδομένων. Σκοπός είναι η δημιουργία του συνόλου δεδομένων, μέσα από το οποίο θα εξάγουμε την «κρυμμένη» γνώση. Εδώ, συλλέγονται δεδομένα από διάφορες, ετερογενείς πηγές δεδομένων και κατασκευάζεται το σύνολο δεδομένων στο οποίο, εν συνεχεία, θα εφαρμοστεί η αναζήτηση των προτύπων. Το στάδιο της επιλογής είναι πολύ σημαντικό, καθώς καθορίζει την ποιότητα των δεδομένων, που με τη σειρά της επηρεάζει 15

16 συνολικά την απόδοση της διαδικασίας ανακάλυψης γνώσης και την αξία των αποτελεσμάτων Προεπεξεργασία Το δεύτερο βήμα της διαδικασίας είναι η προεπεξεργασία (preprocessing) των δεδομένων. Σκοπός είναι να «καθαριστούν» και να επεξεργαστούν τυχόν λανθασμένα ή ελλιπή δεδομένα, γι αυτό άλλωστε ονομάζεται και στάδιο καθαρισμού των δεδομένων (data cleaning). Αξίζει να τονίσουμε ότι, το βήμα της προεπεξεργασίας των δεδομένων είναι το πιο χρονοβόρο και απαιτητικό στη διαδικασία ανακάλυψης γνώσης, καθώς αποσπά σχεδόν το 50-60% της συνολικής προσπάθειας. Στόχος είναι να περιορίσουμε την προσπάθεια που καταβάλλεται στο βήμα της προεπεξεργασίας, και να αφιερώσουμε περισσότερο χρόνο στο στάδιο της εξόρυξης δεδομένων και της αξιολόγησης ή/και ερμηνείας των αποτελεσμάτων Μετασχηματισμός Στην πλειονότητα των περιπτώσεων, τα δεδομένα προέρχονται από διαφορετικές πηγές και είναι απαραίτητο να μετατραπούν σε ένα κοινό σχήμα. Το τρίτο βήμα της διαδικασίας, είναι ο μετασχηματισμός των δεδομένων, ώστε να διευκολύνουν την ανακάλυψη γνώσης. Ο μετασχηματισμός των δεδομένων μπορεί να περιλαμβάνει: τη μείωση του αριθμού των χαρακτηριστικών των δεδομένων (dimensionality reduction), με την επιλογή ορισμένων εξ' αυτών (feature selection, attribute selection), τη μετατροπή συνεχόμενων αριθμητικών τιμών σε διακριτές τιμές, (διακριτοποίηση), την ομοιόμορφη κωδικοποίηση, ίδιας ποιοτικά πληροφορίας. 16

17 1.3.4 Εξόρυξη γνώσης από δεδομένα Ένα από τα σημαντικότερα στάδια στη διαδικασίας Ανακάλυψης Γνώσης, αποτελεί η Εξόρυξη Γνώσης από Δεδομένα (Data Mining). Κατά τη διάρκεια αυτού του βήματος, εφαρμόζονται οι αλγόριθμοι στα μετασχηματισμένα δεδομένα, για να προκύψουν τα επιθυμητά αποτελέσματα (τα πρότυπα και στη εν συνεχεία το μοντέλο). Οι αλγόριθμοι που θα εφαρμοστούν ποικίλλουν σημαντικά, και εν τέλει επιλέγονται βάσει του είδους της εξόρυξης που επιχειρείται Ερμηνεία και αξιολόγηση Τελευταίο στάδιο στη διαδικασία Ανακάλυψης Γνώσης, αποτελεί η ερμηνεία και αξιολόγηση (Interpretation / Evaluation) του μοντέλου. Τα πρότυπα που προκύπτουν από τη διαδικασία ανακάλυψης γνώσης, θα πρέπει να είναι χρήσιμα και κατανοητά. Κρίσιμο σημείο, αποτελεί η παρουσίαση των αποτελεσμάτων, καθώς μπορεί να επηρεάσει το βαθμό χρησιμότητας και κατανόησής τους. Συνήθη πρακτική συνιστά, η παρουσίαση των αποτελεσμάτων, να συνδυάζεται με την οπτικοποίηση των προτύπων ή/και των δεδομένων (pattern / data visualization) που περιγράφονται στο μοντέλο και την ενσωμάτωση γραφικών διεπαφών χρήστη (GUI), ώστε να παρουσιάζονται με μεγαλύτερη ευκρίνεια οι εξαγόμενες πληροφορίες. 1.4 Εξόρυξη Γνώσης από Κείμενο Αναμενόμενη εξέλιξη, σε συνέχεια της «Ανακάλυψης γνώσης από βάσεις δεδομένων (KDD)» και της Εξόρυξης Γνώσης από Δεδομένα (Data Mining), αποτέλεσαν η ανάπτυξη διαδικασιών για την «Ανακάλυψη γνώσης 17

18 από κείμενο (Knowledge Discovery in Text - KDT)» και η Εξόρυξη Γνώσης από Κείμενο (Text Mining). Ήταν λογικό, να γεννηθεί η ανάγκη αξιοποίησης, του τεράστιου όγκου δεδομένων σε μορφή κειμένου, με αυτόματο τρόπο. Πρακτικά, κατά την Εξόρυξη Γνώσης από Κείμενο, επιδιώκεται η εξόρυξη προτύπων, σε μη δομημένα κείμενα. [7] Η Εξόρυξη Γνώσης από Κείμενο συνδυάζει τεχνικές από την Εξόρυξη Γνώσης από Δεδομένα, τη Μηχανική Μάθηση, τη Στατιστική, την Επεξεργασία Φυσικής Γλώσσας, την Ανάκτηση Πληροφορίας, την Εξαγωγή Πληροφορίας και τη Διαχείριση Γνώσης. [7], [20] Είναι σημαντικό να διευκρινιστεί ότι η Εξόρυξη Γνώσης από Κείμενο, βοηθά τους χρήστες να εξάγουν, με αυτόματο τρόπο, την επιθυμητή, «νέα», «άγνωστη» πληροφορία, κυρίως μέσω του συνδυασμού τεχνικών και αλγορίθμων της μηχανικής μάθησης και δεν πρέπει σε καμία περίπτωση να συγχέεται με την αναζήτηση πληροφορίας μέσω του διαδικτύου. Η ειδοποιός διαφορά έγκειται στο ότι, κατά την «απλή» αναζήτηση μέσω του διαδικτύου, ο χρήστης αναζητά κάτι, που είναι a priori γνωστό. Εν αντιθέσει, μέσω της Εξόρυξης Γνώσης από Κείμενο, ο χρήστης επιδιώκει την αναζήτηση και ανακάλυψη «νέας» πληροφορίας. 1.5 Αναπαράσταση κειμένου Πριν συνεχίσουμε με την παρουσίαση των βασικότερων μεθόδων Εξόρυξης Γνώσης από Κείμενο, κρίνεται σκόπιμο να αναφερθούμε στον τρόπο με τον οποίο αναπαρίσταται ένα κείμενο κατά τη διαδικασία της εξόρυξης. Η δυσκολία αναπαράστασης ενός κειμένου, οφείλεται κυρίως στο ότι τα κείμενα, δεν έχουν εκ τω προτέρων ορισμένη δομή. Αντιμετωπίζουμε ένα κείμενο, σαν μία «σακούλα λέξεων» (bag of words), στην οποία «τοποθετούνται» όλοι οι όροι (λέξεις) που εμφανίζονται στο κείμενο. Ο δημοφιλέστερος τρόπος αναπαράστασης κειμένου, είναι η διανυσματική αναπαράσταση (vector representation). Κατά τη διανυσματική 18

19 αναπαράσταση, κάθε κείμενο απεικονίζεται ως ένα διάνυσμα όρων (term vector), και κάθε όρος συνιστά ένα μοναδικό ανεξάρτητο χαρακτηριστικό (feature). Σε κάθε στοιχείο του διανύσματος αποδίδεται μια τιμή, η οποία εκφράζει / περιγράφει την εμφάνιση του όρου μέσα στο κείμενο Λογικό Μοντέλο Το Λογικό Μοντέλο (Boolean Model) αναπαράστασης, εστιάζει στην εμφάνιση ή την απουσία ενός όρου από το κείμενο. Κάθε κείμενο αναπαρίσταται από ένα σύνολο λογικών τιμών. Η τιμή 1, δίνεται κατά κανόνα, για να εκφράσει την εμφάνιση ενός συγκεκριμένου όρου στο κείμενο, ενώ η τιμή 0, ως επί το πλείστον, υποδηλώνει την απουσία του συγκεκριμένου όρου από το κείμενο. Ενώ το λογικό μοντέλο αναπαράστασης παρουσιάζει κάποια ισχυρά πλεονεκτήματα (για παράδειγμα είναι κατανοητό και έχει ικανοποιητικό χρόνο αναζήτησης), εν τούτοις εμφανίζει ένα σημαντικό μειονέκτημα. Το συγκεκριμένο μοντέλο, δεν μπορεί να εκφράσει το κατά πόσο είναι πραγματικά σημαντική η παρουσία ενός συγκεκριμένου όρου σε ένα κείμενο Μοντέλο Διανυσματικού Χώρου Το Μοντέλο Διανυσματικού Χώρου (Vector Space Model -VSM) αναπαριστά τα κείμενα ως διανύσματα σε ένα πολυδιάστατο Ευκλείδειο χώρο. Στο Μοντέλο Διανυσματικού Χώρου, οι όροι του κειμένου, αποτελούν τα χαρακτηριστικά του κειμένου. Κατά την αναπαράσταση ενός κειμένου, κάθε άξονας στο χώρο αντιστοιχεί σε ένα χαρακτηριστικό του κειμένου. Η συντεταγμένη κάθε διανύσματος περιγράφει την εμφάνιση του συγκεκριμένου χαρακτηριστικού στο κείμενο. Το σημαντικό πλεονέκτημα του Μοντέλου Διανυσματικού Χώρου είναι, ότι η συντεταγμένη κάθε διανύσματος εκφράζει το βάρος του όρου στο κείμενο και αποτυπώνει το πόσο σημαντικός θεωρείται ο όρος στο συγκεκριμένο κείμενο. Τα βάρη που χρησιμοποιούνται για κάθε χαρακτηριστικό, είναι πραγματικές τιμές και μπορεί να είναι είτε απλά η 19

20 συχνότητα εμφάνισης της λέξης, είτε άλλες τιμές που θα αναλύσουμε σε επόμενο κεφάλαιο, όπως για παράδειγμα η στάθμιση TF-IDF. 1.6 Προσεγγίσεις στην Εξόρυξη Γνώσης από Κείμενο Η Εξόρυξη Γνώσης από Κείμενο, κατά κανόνα, προσεγγίζεται από μεθόδους και αλγορίθμους της Μηχανικής Μάθησης. Κάποιες από τις τεχνικές Εξόρυξης Γνώσης από Κείμενο, αλλά και οι σημαντικότερες μέθοδοι Μηχανικής Μάθησης που χρησιμοποιούνται στην εξόρυξη κειμένου παρουσιάζονται στη συνέχεια του κεφαλαίου Κατηγοριοποίηση κειμένου Ορισμός: «Δεδομένης μίας βάσης δεδομένων πλειάδων και ένα σύνολο από κατηγορίες C, το πρόβλημα της κατηγοριοποίησης είναι να ορίσουμε μία απεικόνιση όπου κάθε εκχωρείται σε μία κατηγορία. Μία κατηγορία ή κλάση,, περιέχει ακριβώς αυτές τις πλειάδες όπου έχουν απεικονιστεί σε αυτή, δηλαδή». (Dunham, 2003) [4] Η κατηγοριοποίηση / ταξινόμηση κειμένου (text classification) αποδίδει τα δεδομένα σε προκαθορισμένες κατηγορίες / κλάσεις. Ανήκει στις επιβλεπόμενες μεθόδους μηχανικής μάθησης, επειδή οι κατηγορίες είναι εκ των προτέρων καθορισμένες, πριν ακόμη εξεταστούν τα δεδομένα. Στην κατηγοριοποίηση, ένα σύνολο εκπαίδευσης (training set), χρησιμοποιείται για να εκπαιδεύσει το μοντέλο κατηγοριοποίησης, μέσω στατιστικής ανάλυσης 20

21 λεκτικών προτύπων. Τέλος, εφαρμόζεται το μοντέλο που αναπτύχθηκε, στην ταξινόμηση του συνόλου ελέγχου (test set) και αξιολογείται η απόδοσή του Συσταδοποίηση κειμένου Ορισμός: «Δοθείσης μίας βάσης δεδομένων που αποτελείται από πλειάδες και μίας ακέραιας τιμής, το πρόβλημα της συσταδοποίησης είναι να οριστεί μία αντιστοίχιση όπου κάθε ανατίθεται σε μία πλειάδα. Μία συστάδα,, περιέχει ακριβώς εκείνες τις πλειάδες που της ανατέθηκαν, δηλαδή». (Dunham, 2003) [4] Η συσταδοποίηση / ομαδοποίηση κειμένου (text clustering) είναι παρόμοια με την κατηγοριοποίηση κειμένου, ωστόσο παρουσιάζει μία ουσιαστική διαφορά. Όπως και στην κατηγοριοποίηση, έτσι και στη συσταδοποίηση τα δεδομένα οργανώνονται σε ομάδες. Όμως, ενώ στην κατηγοριοποίηση οι ομάδες (κλάσεις) είναι εκ των προτέρων καθορισμένες, στη συσταδοποίηση οι ομάδες (συστάδες) δεν είναι προκαθορισμένες. Για το λόγο αυτό, ανήκει στις μη επιβλεπόμενες μεθόδους μηχανικής μάθησης. Η συσταδοποίηση των δεδομένων επιτυγχάνεται, εντοπίζοντας την ομοιότητα των δεδομένων βάσει των χαρακτηριστικών που ενυπάρχουν σε αυτά Εξαγωγή Κανόνων Συσχέτισης Ορισμός: «Με δεδομένο ένα σύνολο από στοιχεία και μία βάση δεδομένων από συναλλαγές, όπου και, ένας κανόνας συσχέτισης (association rule) είναι ένα επαγωγικό συμπέρασμα της μορφής, όπου είναι σύνολα στοιχείων που ονομάζονται στοιχειοσύνολα». (Dunham, 2003) [4] 21

22 Ορισμός: «Η υποστήριξη (support s) για έναν κανόνα συσχέτισης είναι το ποσοστό των συναλλαγών στη βάση δεδομένων που περιέχουν το». (Dunham, 2003) [4] Ορισμός: «Η εμπιστοσύνη ή η ισχύς (confidence, strength α) για έναν κανόνα συσχέτισης είναι το κλάσμα των συναλλαγών που περιέχουν το προς τον αριθμό των συναλλαγών που περιέχουν το». (Dunham, 2003) [4] Οι κανόνες συσχέτισης (association rules) είναι κατάλληλοι για την εύρεση συσχετίσεων μεταξύ αντικειμένων. Ένας κανόνας συσχέτισης μεταξύ δύο αντικειμένων Α και Β δηλώνει πως η εμφάνιση του Α, σε κάποιο στιγμιότυπο του προβλήματος, συνεπάγεται και την εμφάνιση του Β, στο ίδιο στιγμιότυπο του προβλήματος και συμβολίζεται με A B. Η αξιολόγηση και ερμηνεία των κανόνων συσχέτισης που προκύπτουν από την εφαρμογή του μοντέλου, επιτυγχάνεται με την εφαρμογή δύο συντελεστών: της υποστήριξης s και της εμπιστοσύνης α Περίληψη κειμένου Η εξαγωγή της περίληψης (summarization) ενός κειμένου, έχει ως στόχο τη μείωση του μεγέθους του κειμένου, παράλληλα με τη διατήρηση του κεντρικού νοήματος του περιεχομένου του. Κατά την εξαγωγή της περίληψης, παρέχεται η δυνατότητα στο χρήστη να καθορίσει διάφορες παραμέτρους, όπως το πλήθος των λέξεων που θα εξαχθούν ή το ποσοστό, επί του συνολικού κειμένου, που θα περιλαμβάνεται την περίληψη. 22

23 1.6.5 Γλωσσικός Προσδιορισμός Η τεχνική του γλωσσικού προσδιορισμού ενός κειμένου (language identification), έχει στόχο να προσδιορίσει τη γλώσσα στην οποία είναι γραμμένο ένα κείμενο. Επιπλέον, εάν ένα κείμενο είναι γραμμένο σε περισσότερες από μία γλώσσες, μας παρέχει τη δυνατότητα να υπολογίσουμε το ποσοστό του κειμένου, που είναι γραμμένο σε κάθε γλώσσα Απόδοση κειμένου σε συγγραφέα Η τεχνική της απόδοσης κειμένου σε συγγραφέα, στοχεύει στον προσδιορισμό του συγγραφέα ενός κειμένου Οπτικοποίηση κειμένου H oπτικοποίηση (visualization) ενός κειμένου, έχει στόχο τη γραφική απεικόνιση ενός συνόλου κειμένων. Η τεχνική αυτή, χρησιμοποιεί την εξαγωγή χαρακτηριστικών γνωρισμάτων και το ευρετήριο κεντρικών όρων, για να πραγματοποιήσει τη γραφική αναπαράσταση των κειμένων. Με την ολοκλήρωση της οπτικοποίησης του κειμένου, ο χρήστης είναι σε θέση να αναγνωρίσει τα κύρια θέματα, τις βασικές έννοιες των κειμένων, αλλά και τη βαρύτητά τους, μέσω της αναπαράστασης (για παράδειγμα η σημασία αποδίδεται με το μέγεθος στη γραφική απεικόνιση). 23

24 2. Ανάλυση Συναισθήματος και Εξόρυξη Γνώμης 2.1 Εισαγωγή Η Ανάλυση Συναισθήματος (Sentiment Analysis) αποτελεί έναν επιμέρους τομέα της Εξόρυξης Γνώσης από Κείμενο, ο οποίος ασχολείται με την «υπολογιστική ανάλυση των απόψεων, των συναισθημάτων, των εκτιμήσεων, των αξιολογήσεων και των στάσεων των ανθρώπων προς οντότητες, όπως άτομα, προϊόντα, υπηρεσίες, θέματα, γεγονότα, και τα χαρακτηριστικά τους» (Liu, Zhang 2012). [16] Στόχος της Ανάλυσης Συναισθήματος, μέσω της επεξεργασίας Φυσικής Γλώσσας (Natural Language Processing), είναι η ανίχνευση της πολικότητας ενός κειμένου, με σκοπό την εξαγωγή της υποκειμενικής άποψης του συγγραφέα, ως προς το θέμα για το οποίο εκφράζεται. Η Ανάλυση Συναισθήματος εντοπίζει, αν η γνώμη που εκφράζεται στο κείμενο είναι θετικά, αρνητικά ή ουδέτερα διακείμενη στο θέμα. Για το λόγο αυτό, συχνά χρησιμοποιείται ο όρος Εξόρυξη Γνώμης (Opinion Mining), που θεωρείται ταυτόσημος με τον όρο Ανάλυση Συναισθήματος. [24] Το πρόβλημα που επιδιώκει να αντιμετωπίσει η Ανάλυση Συναισθήματος, είναι ένα από τα πιο απλά προβλήματα με τα οποία ασχολείται η Επεξεργασία Φυσικής Γλώσσας. Ο υπολογιστής, δε είναι απαραίτητο να αντιληφθεί πλήρως τη σημασιολογία της κάθε πρότασης, εν τούτοις θα πρέπει να ανιχνεύσει τη συνολική στάση του συγγραφέα ως προς το θέμα και να την ταξινομήσει ως προς την πολικότητά της. Ενώ, οι απαιτήσεις της Ανάλυσης Συναισθήματος, απλοποιούν σημαντικά το επίπεδο της κατανόησης και της επεξεργασίας της φυσικής γλώσσας από τον υπολογιστή, το ζήτημα της ανίχνευσης της πολικότητα, δεν παύει να είναι αρκετά απαιτητικό. 24

25 2.2 Τα επίπεδα της Ανάλυσης Συναισθήματος Οι προσεγγίσεις του προβλήματος της Ανάλυσης Συναισθήματος, διαφοροποιούνται ως προς το επίπεδο ανάλυσης Επίπεδο κειμένου Η Ανάλυση Συναισθήματος σε επίπεδο κειμένου / εγγράφου (document level), εστιάζει στον προσδιορισμό της υποκειμενικής θέσης του συγγραφέα, θετική ή αρνητική, ως προς το θέμα, το οποίο αναλύει στο κείμενο. Κατά κανόνα, επιλέγονται κείμενα που περιλαμβάνουν κρίσεις και απόψεις (opinionated text). Στην ανάλυση σε επίπεδο κειμένου, σημαντικό ρόλο διαδραματίζουν η γραμματική και η συντακτική ανάλυση του κειμένου (Part of Speech tagging POS), οι συντακτικές σχέσεις και το φαινόμενο της άρνησης. [1] Επίπεδο πρότασης Η Ανάλυση Συναισθήματος σε επίπεδο πρότασης (sentence level), επικεντρώνεται στην ανάλυση της πολικότητας μίας πρότασης. Στόχος είναι, να διαχωριστούν οι προτάσεις που περιέχουν αντικειμενικές θέσεις (objective sentences), από εκείνες που εκφράζουν υποκειμενικές κρίσεις (subjective sentences). Για το λόγο αυτό, η ανάλυση σε επίπεδο πρότασης αναφέρεται και ως υποκειμενική κατηγοριοποίηση (subjectivity classification). Στην ανάλυση σε επίπεδο πρότασης, όπως και στην ανάλυση σε επίπεδο κειμένου, λαμβάνονται υπόψη η γραμματική και συντακτική ανάλυση των λέξεων της πρότασης, το φαινόμενο της άρνησης και η σημασιολογία των λέξεων. [19], [33] 25

26 2.2.3 Επίπεδο οντότητας και χαρακτηριστικών Η Ανάλυση Συναισθήματος σε επίπεδο οντότητας και χαρακτηριστικών (entity and feature level), αναζητεί τα συναισθήματα και τις απόψεις που εκφράζονται ως προς τις οντότητες αλλά και τα επιμέρους χαρακτηριστικά τους. Κεντρική ιδέα αυτής της ανάλυσης, συνιστά το γεγονός ότι, μία υποκειμενική κρίση, αναλύεται σε δύο μέρη, το συναίσθημα και την οντότητα για την οποία εκφράζεται η κρίση. Συχνά, διερευνώνται και επιπρόσθετοι παράγοντες, όπως το πρόσωπο που εκφράζει την άποψη (opinion holder) αλλά και η χρονική στιγμή της έκφρασης (time). [16] Λεξικοί πόροι Ανεξαρτήτως της επιλογής του επιπέδου ανάλυσης (επίπεδο κειμένου, επίπεδο πρότασης, επίπεδο οντοτήτων), η πλειονότητα των μοντέλων ανάλυσης συναισθήματος, συνδυάζει μεθόδους της μηχανικής μάθησης, με λεξικούς πόρους, οι οποίοι υπολογίζουν την πολικότητα των λέξεων. Στη συνέχεια της εργασίας, θα αξιοποιηθεί ο λεξικός πόρος SentiWordNet 3.0, για την υλοποίηση μοντέλων κατηγοριοποίησης συναισθήματος. Το SentiWordNet 3.0 [36] είναι ένας λεξιλογικός πόρος, σχεδιασμένος για την υποστήριξη μοντέλων ανάλυσης συναισθήματος. Το λεξικό αξιοποιεί ως βασικό δομικό του στοιχείο, τα σύνολα συνωνύμων (synsets) της λεξιλογικής βάσης δεδομένων WordNet. Στο SentiWordNet 3.0 κάθε σύνολο συνωνύμων, βαθμολογείται ανάλογα με το συναίσθημα που εκφράζει. Ειδικότερα, σε κάθε σύνολο συνωνύμων, αποδίδονται τρεις βαθμολογίες: Pos(s), Neg(s), και Obj(s), οι οποίες περιγράφουν την πολικότητα των όρων του συνόλου (θετική, αρνητική, χωρίς πολικότητα). Το άθροισμα των βαθμολογιών είναι ίσο με τη μονάδα, για κάθε σύνολο συνωνύμων, λόγω της κανονικοποίησής τους στο διάστημα [0,1]. 26

27 Στις εικόνες που ακολουθούν, παρουσιάζονται δύο στιγμιότυπα του λεξικού SentiWordNet 3.0. Adjective P: O: N: 0.75 sad# experiencing or showing sorrow or unhappiness; "feeling sad because his dog had died"; "Better by far that you should forget and smile / Than that you should remember and be sad"- Christina Rossetti Feedback on SentiWordNet values: They are OK. Suggest your values.. P: 0 O: 0.75 N: 0.25 sad# of things that make you feel sad; "sad news"; "she doesn't like sad movies"; "it was a very sad story"; "When I am dead, my dearest, / Sing no sad songs for me"- Christina Rossetti Feedback on SentiWordNet values: They are OK. Suggest your values. P: 0 O: 0 N: 1 sorry#2 sad#3 pitiful#2 lamentable#1 distressing#2 deplorable# bad; unfortunate; "my finances were in a deplorable state"; "a lamentable decision"; "her clothes were in sad shape"; "a sorry state of affairs" Feedback on SentiWordNet values: They are OK. Suggest your values.. Εικόνα 2: To λήμμα sad (SentiWordNet 3.0) 2 Για τις λέξεις που ανήκουν σε περισσότερα από ένα σύνολα συνωνύμων (όπως τα παραδείγματα happy και sad ), θα υπολογίζουμε το μέσο όρο των βαθμολογιών, όλων των συνόλων συνωνύμων στα οποία συναντάμε τη λέξη. Η Αποσαφήνιση της Σημασίας των Λέξεων (Word Sense Disambiguation WSD) ξεφεύγει του πλαισίου της εργασίας

28 Adjective happy# P: O: N: 0 enjoying or showing or marked by joy or pleasure; "a happy smile"; "spent many happy days on the beach"; "a happy marriage" Feedback on SentiWordNet values: They are OK. Suggest your values. happy#2 felicitous# P: 0.75 O: 0.25 N: 0 marked by good fortune; "a felicitous life"; "a happy outcome" Feedback on SentiWordNet values: They are OK. Suggest your values. happy#3 glad# P: 0.5 O: 0.5 N: 0 eagerly disposed to act or to be of service; "glad to help" Feedback on SentiWordNet values: They are OK. Suggest your values. well-chosen#1 happy# P: O: N: 0 well expressed and to the point; "a happy turn of phrase"; "a few well-chosen words" Feedback on SentiWordNet values: They are OK. Suggest your values. Εικόνα 3: To λήμμα happy (SentiWordNet 3.0)

29 2.3 Κατηγοριοποίηση Συναισθήματος Στην παρούσα εργασία, θα χρησιμοποιήσουμε μεθόδους της επιβλεπόμενης Μηχανικής Μάθησης για την Ανάλυση Συναισθήματος και πιο συγκεκριμένα, θα προσεγγίσουμε το πρόβλημα της Ανάλυσης Συναισθήματος, ως πρόβλημα κατηγοριοποίησης / ταξινόμησης. Κάθε κατηγορία / κλάση αντιπροσωπεύει μία πολικότητα, ένα συναίσθημα. Η Ανάλυση Συναισθήματος μέσω της κατηγοριοποίησης συναισθήματος, διαφέρει από την κατηγοριοποίηση κειμένου. Η κατηγοριοποίηση κειμένου, γνωστή και ως ταξινόμηση κειμένου ή ανίχνευση θέματος, αναφέρεται στην αντιστοίχιση κειμένου φυσικής γλώσσας σε θεματικές κατηγορίες, οι οποίες ανήκουν σε ένα προκαθορισμένο σύνολο. Κατά την κατηγοριοποίηση κειμένου, οι κατηγορίες καθορίζονται βάσει των στόχων του εκάστοτε προβλήματος. Το πλήθος των κατηγοριών μπορεί να ποικίλει σημαντικά, ενώ δεν αποκλείεται σε ορισμένες περιπτώσεις, ένα κείμενο να αντιστοιχηθεί με μία ή περισσότερες επικαλυπτόμενες κλάσεις. Κάτι τέτοιο, δεν συμβαίνει κατά την κατηγοριοποίηση συναισθήματος. Η κατηγοριοποίηση συναισθήματος, κατά κανόνα, αναφέρεται σε ένα μικρό σύνολο κατηγοριών: θετική πολικότητα αρνητική πολικότητα, θετική πολικότητα αρνητική πολικότητα - χωρίς πολικότητα, 1 αστέρι, 2 αστέρια, 3 αστέρια, 4 αστέρια,5 αστέρια. Επιπροσθέτως, λόγω του ότι κατά την κατηγοριοποίηση συναισθήματος, επιδιώκεται η ανάλυση της πολικότητας ενός κειμένου, οι κατηγορίες είναι ανεξάρτητες και αμοιβαία αποκλειόμενες. 29

30 2.4 Εφαρμογές της Ανάλυσης Συναισθήματος Παρά τη σχετικά πρόσφατη άνθηση του τομέα της υπολογιστικής γλωσσολογικής έρευνας, η Ανάλυση Συναισθήματος έχει αναδυθεί, ως ένας ιδιαίτερα δραστήριος ερευνητικός τομέας, κυρίως λόγω των πολλών και σημαντικών εφαρμογών της. Η ανάλυση κειμένων στο διαδίκτυο, διαδραματίζει σημαντικό ρόλο, τόσο στην κατανόηση των κοινωνικών φαινομένων, όσο και στην αποτύπωση των κοινωνικών τάσεων. Τα αποτελέσματα της Ανάλυσης Συναισθήματος και της Εξόρυξης Γνώμης, συνιστούν αντικείμενο μελέτης και έρευνας πολλών επιστημονικών πεδίων, όπως η οικονομία, η κοινωνιολογία, η πολιτική, η ψυχολογία. Η Ανάλυση Συναισθήματος μπορεί να αναδείξει τη συνολική αντίληψη των χρηστών αναφορικά με ένα θέμα/ζήτημα. Επιπλέον, έχει τη δυνατότητα να αναδείξει ομάδες χρηστών, ανάμεσα στο συνολικό πληθυσμό, να παρατηρήσει τη διαχρονική πορεία και εξέλιξη των ομάδων, ακόμα και να συστήσει ένα προϊόν ή μία δραστηριότητα σε ένα άτομο. Τόσο τα κοινωνικά δίκτυα και τα προσωπικά ιστολόγια (blogs), όσο και οι ομάδες συζητήσεων (discussion forums), εκτός από «χώρους» ανταλλαγής και παράθεσης ιδεών και απόψεων για τους χρήστες, συγκροτούν μία πλούσια πηγή δεδομένων για την Ανάλυση Συναισθήματος και την Εξόρυξη Γνώμης. Αντίστοιχα σημαντική, είναι η αξιοποίηση των κριτικών/αξιολογήσεων των χρηστών, για προϊόντα και υπηρεσίες. Η επεξεργασία και η ανάλυσή τους, αποκρυσταλλώνει τις απόψεις των χρηστών για προϊόντα και υπηρεσίες, οδηγώντας σταδιακά, στην αντικατάσταση των παραδοσιακών δημοσκοπήσεων και ερευνών, μέσω ερωτηματολογίων. Η Εξόρυξη Γνώμης των καταναλωτών/χρηστών, ανακαλύπτει τις ευκαιρίες για την προώθηση νέων προϊόντων/υπηρεσιών και υπογραμμίζει τα περιθώρια βελτίωσης των προϊόντων και υπηρεσιών, που ήδη κυκλοφορούν στην αγορά. Αποσαφηνίζοντας τις τάσεις της αγοράς και τις προτιμήσεις των 30

31 καταναλωτών, η Εξόρυξη Γνώμης προσφέρει στις επιχειρήσεις, που αξιοποιούν αυτές τις πληροφορίες, σημαντικό ανταγωνιστικό πλεονέκτημα Κοινωνικά δίκτυα Σήμερα, τα μέσα κοινωνικής δικτύωσης, αποτελούν ένα ιδιαίτερα δημοφιλές επικοινωνιακό εργαλείο, μεταξύ των χρηστών του διαδικτύου. Ένα κοινωνικό δίκτυο, είναι ένα σύνολο αλληλεπιδράσεων και διαπροσωπικών σχέσεων. Εν τούτοις, καταχρηστικά, ο όρος χρησιμοποιείται για να περιγράψει τις ιστοσελίδες που επιτρέπουν την επαφή, επικοινωνία και αλληλεπίδραση ανάμεσα στους χρήστες. Οι δημοφιλέστερες ιστοσελίδες κοινωνικών δικτύων είναι το Facebook, το Twitter, το Linkedin και το Instagram. Οι ιστοσελίδες κοινωνικής δικτύωσης παρουσιάζουν ομαδοκεντρικό χαρακτήρα και προσφέρουν στους χρήστες μία σειρά από υπηρεσίες, όπως δημιουργία προφίλ, δημοσίευση τοποθετήσεων, κοινοποίηση εικόνων και βίντεο, σχολιασμό και άμεση ανταλλαγή μηνυμάτων. Τα κοινωνικά δίκτυα, ως εικονικές κοινότητες, συνιστούν «χώρους» ανταλλαγής και παράθεσης ιδεών και απόψεων για τους χρήστες, παρέχοντας μία πλούσια πηγή δεδομένων για Ανάλυση Συναισθήματος και Εξόρυξη Γνώμης. Η Εξόρυξη Γνώμης, αναδεικνύει τη συνολική άποψη των χρηστών αναφορικά με ένα θέμα, που συζητείται στα μέσα κοινωνικής δικτύωσης, εντοπίζει ομάδες χρηστών στο γενικό πληθυσμό και μπορεί να συστήσει προϊόντα ή δραστηριότητες στους χρήστες, είτε βάσει των προτιμήσεών τους, είτε με κριτήριο προηγούμενες επιλογές τους Το Twitter To Twitter ξεκίνησε τη λειτουργία του το 2006 και συνιστά ένα μέσο κοινωνικής δικτύωσης, που επιτρέπει στους χρήστες να στέλνουν και να διαβάζουν μηνύματα (tweets), περιορισμένου μήκους (μέχρι 140 χαρακτήρες). Τα μηνύματα μπορούν να αναγνωστούν και από μη συνδεδεμένους χρήστες, ωστόσο, μόνο οι συνδεδεμένοι χρήστες μπορούν να δημοσιεύσουν κείμενα 31

32 στον ιστότοπο. Η υπηρεσία έγινε γρήγορα δημοφιλής και είναι ένας από τους δέκα πιο δημοφιλείς ιστοτόπους του διαδικτύου. Χαρακτηριστικά αναφέρεται ότι: αριθμεί πάνω από 500 εκατομμύρια χρήστες, εκ των οποίων 302 εκατομμύρια χρήστες είναι ενεργοί. [41] Η Ανάλυση Συναισθήματος σε δεδομένα που προέρχονται από κοινωνικά δίκτυα, όπως το Twitter (μικρο-ιστολόγια, micro-blogs), παρουσιάζει περαιτέρω δυσκολίες. Αρχικά, ο περιορισμός των επιτρεπόμενων χαρακτήρων, οδηγεί σε περιεκτικότερα σε νοήματα, μηνύματα (τοποθετήσεις), με αποτέλεσμα να μην είναι εύκολα αντιληπτή η πολικότητα του κειμένου. Εν συνεχεία, το λεξιλόγιο που χρησιμοποιείται στη σύνταξη των μηνυμάτων, προέρχεται ως επί το πλείστον από την καθομιλούμενη γλώσσα. Οι χρήστες, δημιουργούν νέους όρους ή φράσεις (νεολογισμούς) για να εντάξουν νέες έννοιες στο λεξιλόγιό τους, παραλλάσουν λέξεις (συνήθως για να δώσουν έμφαση είτε με την επιμήκυνση φθόγγων είτε με τη χρήση κεφαλαίων γραμμάτων), χρησιμοποιούν emoticons, αλλά και πολλές συντομογραφίες, καθιστώντας δύσκολη την εφαρμογή γλωσσολογικών ή λεξικογραφικών εργαλείων, που στηρίζονται στην επίσημη, γραπτή μορφή της γλώσσας. Τέλος, δεν πρέπει να παραβλέπεται και ο θόρυβος που ενυπάρχει στα μηνύματα, λόγω των ορθογραφικών λαθών. [2], [15] Κριτικές προϊόντων και υπηρεσιών Η ανάλυση συναισθήματος κειμένων στο διαδίκτυο, διαδραματίζει σημαντικό ρόλο τόσο στην κατανόηση των κοινωνικών φαινομένων, όσο και στην αποτύπωση των κοινωνικών τάσεων. [31] Το διαδίκτυο προωθεί την αλληλεπίδραση των χρηστών, και την ανταλλαγή πληροφοριών και απόψεων, για προϊόντα ή υπηρεσίες, κυρίως μέσω κριτικών ή/και αξιολογήσεων. Η ανάλυση της πολικότητας των κριτικών, είναι ιδιαίτερα σημαντική, καθώς οι χρήστες λαμβάνουν υπόψη τους, τις κριτικές άλλων χρηστών, κατά τη λήψη αποφάσεων.[34] Η ανάλυση της πολικότητας των κριτικών, θα λέγαμε ότι εξυπηρετεί: 32

33 Τόσο τους καταναλωτές, παρέχοντάς τους τις απαραίτητες πληροφορίες, ώστε να καθορίσουν τις αποφάσεις και τις αγορές τους, Όσο και τις επιχειρήσεις, δίνοντάς τους τη δυνατότητα να παρακολουθούν την πορεία προϊόντων ή υπηρεσιών τους στην αγορά, και να ενημερώνονται για τις επιδόσεις των ανταγωνιστών. Η σημασία της ανάλυσης της πολικότητας κριτικών προϊόντων ή υπηρεσιών, υπογραμμίζεται από το πλήθος των εταιρειών, που επενδύουν σημαντικά στην Εξόρυξη Γνώμης, τόσο από τα κοινωνικά μέσα δικτύωσης, όσο και από ιστοτόπους κριτικών / αξιολογήσεων. 2.5 Σχετικές εργασίες Οι Pang et al. (2002), μελετούν την αποδοτικότητα τεχνικών της επιβλεπόμενης μηχανικής μάθησης, στην κατηγοριοποίηση συναισθήματος. Για τη συγκεκριμένη εργασία, αναλύθηκαν κριτικές ταινιών, από την ιστοσελίδα IMDB. Για το σύνολο δεδομένων τους, επέλεξαν κριτικές, οι οποίες συνοδεύονταν από βαθμολογία του χρήστη (είτε βάσει αστεριών, είτε αριθμητική), έτσι ώστε να αποδοθούν με αυτόματο τρόπο οι κατηγορίες στα στιγμιότυπα. Οι αλγόριθμοι που μελετήθηκαν είναι: Naive Bayes, Μέγιστης Εντροπίας, SVM. Κατά την εκπαίδευση, χρησιμοποίησαν δύο N-gram μοντέλα (unigram, bigram), πειραματίσθηκαν με το πλήθος των χαρακτηριστικών και εξέτασαν, εάν η συχνότητα ή η παρουσία ενός χαρακτηριστικού βελτιώνει την απόδοση του ταξινομητή. Οι ταξινομητές με αλγόριθμο SVM, σημείωσαν την καλύτερη απόδοση. [23] Οι Hu & Liu (2004) προτείνουν μία μέθοδο για την εξαγωγή περίληψης γνώμης, σε επίπεδο χαρακτηριστικών (feature based opinion summarization). Σε πρώτη εργασία τους [13], ασχολούνται με τον εντοπισμό εκείνων των χαρακτηριστικών, για τα οποία οι πελάτες εξέφρασαν τη γνώμη τους (opinion features). Κατόπιν, υπολογίζουν τη συχνότητα με την οποία εμφανίζονται στις 33

34 κριτικές των πελατών και τα κατατάσσουν αναλόγως. Σε επόμενη εργασία τους [12], προχωρούν την ανάλυση, και αναδεικνύουν σε κάθε κριτική, τις προτάσεις που εκφράζουν είτε θετική, είτε αρνητική γνώμη. Τέλος, συνοψίζουν τη συνολική πολικότητα της κριτικής των πελατών. Οι Ye et al. (2009) ενσωματώνουν τεχνικές της κατηγοριοποίησης συναισθήματος, στην εξόρυξη κριτικών από ταξιδιωτικά ιστολόγια. Ειδικότερα, προχωρούν σε συγκριτική μελέτη τριών αλγορίθμων επιβλεπόμενης μηχανικής μάθησης: του Naive Bayes, των SVM και του character based N- gram μοντέλου (Ν=8), με στόχο την κατηγοριοποίηση κριτικών, σχετικά με επτά δημοφιλής ταξιδιωτικούς προορισμούς. Υπογραμμίζουν τη σημασία των ταξιδιωτικών ιστολογίων, καθώς ασκούν επιρροή στη διαδικασία λήψης αποφάσεων των χρηστών που τα διαβάζουν. Περισσότεροι από τους μισούς καταναλωτές, πραγματοποιούν on-line έρευνα, πριν τις αγορές τους. Συγκεκριμένα, ανάμεσα στα προϊόντα και τις υπηρεσίες, τα ταξίδια σημειώνουν το υψηλότερο ποσοστό στην on-line έρευνα αγοράς, με το 73% των ταξιδιωτών, να αναζητά πληροφορίες στο διαδίκτυο, πριν αποφασίσει τις λεπτομέρειες του ταξιδιού. Τα δεδομένα τα αντλούν από την ταξιδιωτική στήλη της ιστοσελίδας Yahoo.com. Η κάθε κριτική έχει μία αξιολόγηση, βάσει πέντε αστεριών, από τον χρήστη που τη συνέταξε. Με γνώμονα αυτές τις αξιολογήσεις, οι κριτικές με τέσσερα ή πέντε αστέρια θεωρούνται θετικές, ενώ οι κριτικές με ένα ή δύο αστέρια καταχωρούνται ως αρνητικές. Κατά τη διάρκεια της εκπαίδευσης, χρησιμοποιήθηκε η τεχνική της Κ-Fold σταυρωτής επικύρωσης, με K=3. Βάσει της ορθότητας (accuracy) των τριών αλγορίθμων, καλύτερη απόδοση σημείωσαν οι αλγόριθμοι SVM και N-gram. Τέλος, διαπίστωσαν πως οι αποκλίσεις στις αποδόσεις των αλγορίθμων, ήταν πολύ σημαντικές (p<0.01), όταν τα σύνολα εκπαίδευσης αποτελούνται από 100 ή λιγότερα στιγμιότυπα. Στην περίπτωση που τα σύνολα εκπαίδευσης είχαν 500 ή περισσότερα στιγμιότυπα και οι τρεις προσεγγίσεις εμφάνισαν ορθότητα κατηγοριοποίησης πάνω από 80%. [34] Οι Go et al. (2009), επέλεξαν για πρώτη φορά, μηνύματα από το Twitter, ως σύνολο δεδομένων για την κατηγοριοποίηση συναισθήματος, και εφάρμοσαν την τεχνική της εξ αποστάσεως επίβλεψης. Για την ακρίβεια, 34

35 λόγω του μεγάλου όγκου των μηνυμάτων, ήταν πρακτικά αδύνατο να τοποθετηθούν χειροκίνητα οι κατηγορίες στα στιγμιότυπα. Η τεχνική της εξ αποστάσεως επίβλεψης χαρακτηρίζει ως θετικά ή αρνητικά τα tweets, ανάλογα με τα emoticons (noisy labels) που περιέχουν, διαγράφοντας τα μηνύματα που περιέχουν emoticons και από τις δύο κατηγορίες. Οι αλγόριθμοι που επιλέχθηκαν για την κατηγοριοποίηση συναισθήματος είναι: Naive Bayes, Μέγιστης Εντροπίας, SVM. Κατά την εκπαίδευση, χρησιμοποίησαν δύο N-gram μοντέλα (unigram, bigram), και αξιοποίησαν πληροφορίες των μερών του λόγου (POS tags). Οι ταξινομητές εμφάνισαν ορθότητα πάνω από 80%, με τον αλγόριθμο SVM να σημειώνει την καλύτερη επίδοση. [9] Οι Pak & Paroubek (2010) εξάγουν, με αυτόματο τρόπο, δεδομένα από το Twitter, προχωρούν σε γλωσσολογική ανάλυση των δεδομένων και κατασκευάζουν ταξινομητές συναισθήματος, βάσει του Naive Bayes μοντέλου. Τα δεδομένα διακρίνονται σε τρεις κατηγορίες. Οι δύο πρώτες κατηγορίες αφορούν την πολικότητα των κειμένων, έτσι προκύπτουν οι κατηγορίες: θετικό και αρνητικό συναίσθημα. Η τρίτη κατηγορία, αφορά αντικειμενικά κείμενα, δηλαδή κείμενα χωρίς συναίσθημα. Προκειμένου να εκπαιδεύσουν το μοντέλο ως προς την ουδέτερη κατηγορία, εξάγουν μηνύματα κειμένων από λογαριασμούς δημοφιλών εφημερίδων στο Twitter. Στο στάδιο της εξαγωγής των χαρακτηριστικών, προχωρούν σε αφαίρεση των URL συνδέσεων, των ονομάτων των χρηστών του Twitter των emoticons και των stopwords. Πειραματίζονται με δύο ταξινομητές, με διαφορετικά χαρακτηριστικά. Ο πρώτος βασίζεται στην εμφάνιση των N-grams, ενώ ο δεύτερος στην γραμματική και συντακτική πληροφορία των κειμένων (ανάλυση των μερών του λόγου (POS tags). Για την αξιολόγηση των ταξινομητών, χρησιμοποιείται η μετρική αξιολόγησης F-measure. [22] Οι O Connor et al. (2010), συνέδεσαν τη μέτρηση της κοινής γνώμης, μέσω σφυγμομετρήσεων, με την ανάλυση συναισθήματος κειμένου. Ανέλυσαν έρευνες εμπιστοσύνης πελατών και έρευνες πολιτικής άποψης, και διαπίστωσαν, ότι συσχετίζονται με τη συχνότητα εμφάνισης 35

36 «συναισθηματικών» λέξεων στα μηνύματα του Twitter. Σε ορισμένες περιπτώσεις, υπολόγισαν ότι η συσχέτιση ήταν άνω του 80%. [21] Οι Cha et al. (2010), υπογραμμίζουν τη σημασία των κατευθυνόμενων συνδέσεων (directed links), οι οποίες καθορίζουν τη ροή της πληροφορίας, και ως εκ τούτου υποδεικνύουν την επιρροή ενός χρήστη. Στην εργασία τους, συγκρίνουν τρία μέτρα επιρροής ενός χρήστη: το πλήθος των ακολούθων του (indegree), τα retweets και τις αναφορές (mentions). Το πρώτο συμπέρασμα στο οποίο κατέληξαν, ήταν πως η δημοτικότητα ενός χρήστη (high indegree), δεν επηρεάζει, κατ ανάγκη, τα retweets και τις αναφορές. Δεύτερον, χρήστες με μεγάλη επιρροή, πράγματι μπορούν να επηρεάζουν σημαντικά, άλλους χρήστες, σε πληθώρα θεμάτων. Τέλος, η επιρροή ενός χρήστη, δεν είναι δυνατό να αποκτηθεί αυθόρμητα ή τυχαία, παρά μόνο μέσα από συντονισμένη προσπάθεια. [3] Οι Barbosa & Feng (2010), παρουσιάζουν έναν ταξινομητή συναισθήματος για μηνύματα του Twitter, όπου σε πρώτο στάδιο κατηγοριοποιεί τα μηνύματα σε υποκειμενικά και αντικειμενικά, ενώ σε δεύτερο στάδιο διακρίνει τα tweets σε θετικά και αρνητικά. Για τον προσδιορισμό των κατηγοριών των tweets, προτείνουν έναν αυτόματο τρόπο, με χρήση noisy labels, αξιοποιώντας τρεις ιστοσελίδες ανίχνευσης συναισθήματος, ειδικά για μηνύματα του Twitter (Twendz, Twitter Sentiments, Tweet Feel). Επίσης, διακρίνουν τα χαρακτηριστικά των στιγμιοτύπων σε δύο κατηγορίες: τα μετα-χαρακτηριστικά και τα συντακτικά χαρακτηριστικά των tweets. Ο ταξινομητής που προτείνουν, έχει βάση τον αλγόριθμο SVM, και επιτυγχάνει ορθότητα άνω του 80% και στις δύο φάσεις της ταξινόμησης. [2] Οι Kouloumpis et al. (2011), αναλύουν την ενσωμάτωση γλωσσολογικών χαρακτηριστικών, στην κατηγοριοποίηση συναισθήματος. Δημιουργούν τρία σύνολα δεδομένων, που προέρχονται από μηνύματα του Twitter, στα οποία εφαρμόζουν ένα συνδυασμό μηχανικής των χαρακτηριστικών και μεθόδων επιβλεπόμενης μηχανικής μάθησης, για την ανάλυση της πολικότητας (θετικά, αρνητικά, ουδέτερα μηνύματα). Εξετάζουν μία πληθώρα χαρακτηριστικών όπως: N-grams, λεξικοί πόροι, ανάλυση 36

37 μερών του λόγου (POS tags), ιδιαιτερότητες των μικρο-ιστολογίων. Καταλήγουν στο συμπέρασμα, πως τα N-grams, οι λεξικοί πόροι και τα χαρακτηριστικά των μικρο-ιστολογίων είναι ο καλύτερος συνδυασμός, για ορθότερη κατηγοριοποίηση δεδομένων από το Twitter. [15] Οι Agarwal et al. (2011), διερευνούν τη σημασία του προσδιορισμού της εκ των προτέρων πολικότητας των μερών του λόγου (POS tags), καθώς και την απόδοση ενός Tree Kernel, προκειμένου να αποφευχθεί η ανάγκη εφαρμογής μηχανικής των χαρακτηριστικών. Το σύνολο δεδομένων που χρησιμοποιούν, προέρχεται από μηνύματα του Twitter, ταξινομημένα χειροκίνητα σε τρεις κατηγορίες (θετικά, αρνητικά, ουδέτερα). Η εκ των προτέρων πολικότητα των λέξεων, προσδιορίζεται βάσει του λεξικού Dictionary of Affect in Language και επεκτείνεται με την αξιοποίηση του λεξικού WordNet. Προσεγγίζουν την κατηγοριοποίηση των μηνυμάτων, με δύο διαφορετικούς τρόπους. Πρώτον, ταξινομούν τα θετικά και τα αρνητικά στιγμιότυπα (2 κλάσεις) και δεύτερον αξιοποιούν όλες τις κατηγορίες: θετικά, αρνητικά, ουδέτερα στιγμιότυπα (3 κλάσεις). Σε κάθε κατηγοριοποίηση, χρησιμοποιούν συνδυασμούς δύο μοντέλων, από τα εξής πέντε: Unigram μοντέλο, Tree Kernel μοντέλο, 100 Senti-features μοντέλο, Kernel με Sentifeatures μοντέλο και Unigram με Senti-features μοντέλο. [1] Οι Wang et al. (2014), ερευνούν τη συνεισφορά ομάδων ταξινομητών (ensemble learning) στην ανάλυση συναισθήματος. Συγκεκριμένα, πραγματοποιούν συγκριτική μελέτη τριών ομάδων ταξινομητών: Bagging, Boosting και Random Subspace, βάσει πέντε αλγορίθμων μάθησης: Naive Bayes, Μέγιστης Εντροπίας, Δέντρων Αποφάσεων, Κ-Κοντινότερων Γειτόνων και SVM. Η εφαρμογή των μοντέλων κατηγοριοποίησης, έγινε σε δέκα γνωστά σύνολα δεδομένων και την καλύτερη επίδοση σημείωσε η μέθοδος Random Subspace, με SVM αλγόριθμο. [31] 37

38 3. Προσέγγιση του Προβλήματος 3.1 Εισαγωγή Στη συνέχεια της εργασίας, για τη μελέτη του προβλήματος της κατηγοριοποίησης συναισθήματος, θα αξιοποιηθούν στατιστικές μέθοδοι που περιλαμβάνουν μοντέλα Bayes και Μηχανές Διανυσμάτων Υποστήριξης (Support Vector Machines SVM). Η προσέγγιση των στατιστικών μεθόδων, είναι η πλέον δημοφιλής στην Ανάλυση Συναισθήματος, χρησιμοποιεί αλγορίθμους Μηχανικής Μάθησης (Machine Learning), σε συνδυασμό με κείμενα, που έχουν κατηγοριοποιηθεί χειροκίνητα, ώστε να εκπαιδεύσει μία μηχανή, με στόχο να μπορεί να αναγνωρίσει την πολικότητα νέων κειμένων. 3.2 «Απλοϊκό» Μοντέλο Bayes Το δημοφιλέστερο μοντέλο για την κατηγοριοποίηση κειμένων, είναι το «απλοϊκό» μοντέλο Bayes (Naive Bayes model). Το συγκεκριμένο μοντέλο, χρησιμοποιεί τον κανόνα του Bayes, για την ανάθεση της κατηγορίας σε ένα στιγμιότυπο του προβλήματος, το οποίο αναπαρίσταται από ένα διάνυσμα χαρακτηριστικών. Το μοντέλο καλείται «απλοϊκό», επειδή υποθέτει την ανεξαρτησία μεταξύ των μεταβλητών των χαρακτηριστικών. Στα μοντέλα Bayes, υπολογίζεται η πιθανότητα κάθε κατηγορίας, με βάση τα δεδομένα, χρησιμοποιώντας τον κανόνα Bayes, προκειμένου να ταξινομηθεί ένα στιγμιότυπο του προβλήματος. 38

39 Έχοντας δύο τυχαίες μεταβλητές, ο κανόνας του Bayes ορίζει την πιθανότητα να συμβεί, δεδομένου ότι έχει συμβεί, δηλαδή την υπό συνθήκη πιθανότητα ως: Αντιστοίχως, στο πρόβλημα της κατηγοριοποίησης συναισθημάτων, η εκ των υστέρων πιθανότητα να ανατεθεί μία κατηγορία σε ένα στιγμιότυπο, δεδομένων των τιμών του χαρακτηριστικών του, υπολογίζεται ως εξής:, όπου είναι η κατηγορία και παίρνει μία διακριτή τιμή, από το πεπερασμένο σύνολο των δυνατών κατηγοριών, ενώ είναι το διάνυσμα των χαρακτηριστικών. Σύμφωνα με τον κανόνα του Bayes, η πιθανότητα αυτή υπολογίζεται ως εξής: [4] Στον υπολογισμό της παραπάνω πιθανότητας, έγκειται η ανάγκη της διατύπωσης του «απλοϊκού» μοντέλου Bayes. Ο υπολογισμός, για κάθε συνδυασμό των τιμών των χαρακτηριστικών, της συνδυασμένης πιθανότητας, είναι πρακτικά αδύνατος, στην περίπτωση που τα χαρακτηριστικά παίρνουν συνεχείς τιμές ή το πλήθος είναι αρκετά μεγάλο. Η «αφελής» υπόθεση της ανεξαρτησίας, του «απλοϊκού» μοντέλου Bayes, διευκολύνει και απλοποιεί σημαντικά τον υπολογισμό της συνδυασμένης πιθανότητας, υποθέτοντας ότι κάθε χαρακτηριστικό, ως τυχαία μεταβλητή είναι ανεξάρτητο από οποιοδήποτε άλλο χαρακτηριστικό, δεδομένης της κατηγορίας. 39

40 Αντίστοιχα, απλοποιείται και ο υπολογισμός της εκ των υστέρων πιθανότητας κάθε χαρακτηριστικού, ως εξής: Εν κατακλείδι, το «απλοϊκό» μοντέλο Bayes, για να υπολογίσει την εκ των υστέρων πιθανότητα κάθε κατηγορίας χρειάζεται: την εκ των προτέρων πιθανότητα κάθε κατηγορίας, την πιθανοφάνεια των δεδομένων δεδομένης της κατηγορίας, και την πιθανότητα εμφάνισης των δεδομένων. Ωστόσο, για τον υπολογισμό των πιθανοτήτων πρέπει να γνωρίζουμε την κατανομή των πιθανοτήτων των Η υπόθεση της κατανομής γίνεται στο στάδιο της εκπαίδευσης, όπου και καθορίζονται οι παράμετροι, βάσει των δεδομένων του συνόλου εκπαίδευσης. Η υπόθεση για την κατανομή των χαρακτηριστικών, καλείται «μοντέλο γεγονότων» (event model) του «απλοϊκού» Bayes. [19] Η κατανομή χρησιμοποιείται για τον υπολογισμό των αντίστοιχων πιθανοτήτων του συνόλου ελέγχου. Στη συνέχεια του κεφαλαίου, παρουσιάζονται οι υποθέσεις κανονικής και πολυωνυμικής κατανομής των χαρακτηριστικών. 40

41 3.2.1 Gaussian Naive Bayes Για τον υπολογισμό των υπό συνθήκη πιθανοτήτων, θα πρέπει να γνωρίζουμε την κατανομή των πιθανοτήτων των Αν τα χαρακτηριστικά των στιγμιοτύπων παίρνουν συνεχείς τιμές, τότε υποθέτουμε κανονική κατανομή για τις πιθανότητες των δεδομένης της κατηγορίας,. Κατά την εκπαίδευση, αρχικά επιλέγουμε για την κατηγορία τα αντίστοιχα στιγμιότυπα που έχουν ταξινομηθεί χειροκίνητα σε αυτή. Εν συνεχεία, από το σύνολο αυτό, για κάθε χαρακτηριστικό, υπολογίζουμε το μέσο όρο των τιμών του, και τη διασπορά και βάσει αυτών προσδιορίζουμε την κανονική κατανομή του χαρακτηριστικού για την κατηγορία. Στο τέλος, για κάθε χαρακτηριστικό και για κάθε κατηγορία, έχουμε μία κανονική κατανομή, η οποία καθορίζει την κατανομή του χαρακτηριστικού για την κατηγορία αυτή. Η πιθανοφάνεια των χαρακτηριστικών κατά τον έλεγχο υπολογίζεται ως εξής: Multinomial Naive Bayes Αν τα χαρακτηριστικά των στιγμιοτύπων αναπαριστούν συχνότητες γεγονότων, δηλαδή παίρνουν διακριτές τιμές, με πιθανότητες εμφάνισης στην κατηγορία,, τότε υποθέτουμε πολυωνυμική κατανομή. Συνεπώς, υπάρχει ένα πολυώνυμο πιθανοτήτων για κάθε κατηγορία, που εκφράζει την εμφάνιση των γεγονότων σε αυτή την κατηγορία, με συχνότητες. Τα υπολογίζονται από το σύνολο εκπαίδευσης, ως η συχνότητα εμφάνισης του γεγονότος στην κατηγορία ως εξής: 41

42 Αξίζει να σημειωθεί ότι αν ένας όρος δεν υπάρχει στο σύνολο εκπαίδευσης, ή αν δεν εμφανιστεί στα στιγμιότυπα της κατηγορίας, τότε μηδενίζει την τελική πιθανότητα να αναθέσουμε την κατηγορία αυτή στο στιγμιότυπο, που περιέχει τον όρο κατά τον έλεγχο. Το πρόβλημα που ανακύπτει, αντιμετωπίζεται με την προσθήκη μίας τιμής σε όλες τις πιθανότητες, ώστε καθίσταται αδύνατος ο μηδενισμός τους. Όταν η τιμή που προστίθεται είναι 1, έχουμε Laplace smoothing. Στη συνέχεια της εργασίας, για την κατηγοριοποίηση συναισθήματος, θα χρησιμοποιηθεί το Multinomial Naive Bayes μοντέλο. 3.3 Μηχανές Διανυσμάτων Υποστήριξης Οι Μηχανές Διανυσμάτων Υποστήριξης (Support Vector Machines SVM), είναι μοντέλα εποπτευόμενης μηχανικής μάθησης, που χρησιμοποιούνται τόσο για την κατηγοριοποίηση κειμένων, όσο και για την κατηγοριοποίηση συναισθήματος. Οι Μηχανές Διανυσμάτων Υποστήριξης αποτελούν μη πιθανοτικούς γραμμικούς ταξινομητές, καθώς συνδυάζουν τα γραμμικά μοντέλα, με τεχνικές μάθησης σε στιγμιότυπα. Τα μοντέλα SVM, επιλέγουν έναν μικρό πλήθος στιγμιοτύπων εκπαίδευσης, από κάθε κατηγορία, που ονομάζονται διανύσματα υποστήριξης (support vectors), τα οποία ορίζουν το μέγιστο περιθώριο (margin), μεταξύ των δύο κατηγοριών. Τα διανύσματα υποστήριξης, θα αξιοποιηθούν για την κατασκευή μίας γραμμικής συνάρτησης διάκρισης (discriminant function), η οποία θα διαχωρίσει τα δεδομένα με βέλτιστο τρόπο. Τα μοντέλα κατηγοριοποίησης SVM, είναι από τα δημοφιλέστερα, στην κατηγοριοποίηση συναισθήματος, λόγω της αποτελεσματικότητας, της ταχύτητας, και της ικανότητάς τους να παράγουν µη γραμμικά υπερεπίπεδα 42

43 απόφασης, καθιστώντας εφικτή την επίλυση προβλημάτων, που δεν είναι δυνατό να επιλυθούν με γραμμικά μοντέλα. Τα μοντέλα SVM, εκτός από την εκτέλεση γραμμικής κατηγοριοποίησης, μπορούν να πραγματοποιήσουν μη γραμμική κατηγοριοποίηση, εφαρμόζοντας το τέχνασμα του πυρήνα (kernel trick), μετασχηματίζοντας το χώρο των χαρακτηριστικών του προβλήματος, σε έναν χώρο μεγαλύτερης διάστασης Γραμμική κατηγοριοποίηση Αρχικά, υποθέτουμε πως είναι δυνατή η γραμμική διάκριση των δεδομένων. Χρησιμοποιώντας το μοντέλο διανυσματικής αναπαράστασης των δεδομένων ενός προβλήματος κατηγοριοποίησης κειμένου, το σύνολο n των στιγμιοτύπων εκπαίδευσης, διάστασης, είναι, όπου. Τα είναι τα χαρακτηριστικά του χώρου και ως σημειώνεται η κατηγορία στην οποία ανήκει το κάθε στιγμιότυπο εκπαίδευσης. Με δεδομένη την υπόθεση της γραμμικής διάκρισης των δεδομένων, είναι δυνατός ο υπολογισμός ενός υπερεπιπέδου, που διαχωρίζει με βέλτιστο τρόπο τα διανύσματα υποστήριξης, με εξίσωση:, όπου το κανονικό διάνυσμα του υπερεπιπέδου και η κατακόρυφη απόσταση του υπερεπιπέδου, από την αρχή του συστήματος συντεταγμένων. Εικόνα 4: Γραμμική διάκριση δεδομένων 4 4 Svm separating hyperplanes (SVG) by User: ZackWeinberg, parating_hyperplanes_(svg).svg 43

44 Στην Εικόνα 4 παρατηρούμε, πως το δε διακρίνει τις κατηγορίες, το τις διακρίνει με μικρό περιθώριο, το τις διακρίνει με μέγιστο περιθώριο. Για κάθε στιγμιότυπο εκπαίδευσης ισχύει:, αν, αν Ισοδύναμα, Τα στιγμιότυπα εκπαίδευσης που ικανοποιούν την ισότητα αυτής της σχέσης, ως σημεία του -διάστατου χώρου των χαρακτηριστικών, θα βρίσκονται: στο υπερεπίπεδο, με κατακόρυφη απόσταση του, από την αρχή του συστήματος συντεταγμένων, στο υπερεπίπεδο, με κατακόρυφη απόσταση του, από την αρχή του συστήματος συντεταγμένων, και είναι τα λεγόμενα διανύσματα υποστήριξης. Εικόνα 5: Το υπερεπίπεδο μέγιστου περιθωρίου ενός SVM 5 5 Svm max sep hyperplane with margin by Cyc - Own work. _max_sep_hyperplane_with_margin.png 44

45 Είναι προφανές, ότι η απόσταση των δύο υπερεπιπέδων και ίση με και βελτιστοποιείται, όταν το ελαχιστοποιηθεί. Η ελαχιστοποίηση του, είναι στην ουσία ένα πρόβλημα τετραγωνικού προγραμματισμού (quadratic programming) και επιλύεται με τη βοήθεια των πολλαπλασιαστών Lagrange. Στην περίπτωση, που δεν ισχύει η αρχική υπόθεση της γραμμικής διάκρισης των κατηγοριών, τότε «χαλαρώνουμε» τους περιορισμούς, επιτρέποντας σε κάποια στιγμιότυπα εκπαίδευσης να βρεθούν μεταξύ των υπερεπιπέδων και. Πιο συγκεκριμένα, η ποσότητα που πρέπει να ελαχιστοποιηθεί είναι ίση με, υπό τον περιορισμό:, με Παρατηρούμε ότι εάν λάβει τιμές μεγαλύτερες του 0, τότε είναι εφικτό κάποια στιγμιότυπα εκπαίδευσης να βρεθούν στην περιοχή του περιθωρίου. Η ανοχή του μοντέλου, στην ύπαρξη στιγμιοτύπων στο περιθώριο, εκφράζεται από την παράμετρο, που ορίζεται από το χρήστη του μοντέλου. Η επιλογή της παραμέτρου, επηρεάζει τη συνολική απόδοση του μοντέλου, καθώς σε μεγάλες τιμές της παραμέτρου, ελλοχεύει ο κίνδυνος του υπερταιριάσματος (overfitting) Μη Γραμμική κατηγοριοποίηση Στην προηγούμενη παράγραφο, αναλύθηκε η κατηγοριοποίηση κειμένων με μοντέλα SVM, σε δεδομένα, που είτε είναι γραμμικά διακριτά (hard margin), είτε είναι εφικτό να διακριθούν γραμμικά (soft margin). Εν τούτοις, αν ο βέλτιστος τρόπος να διακριθούν τα δεδομένα είναι μη γραμμικά υπερεπίδεδα, τότε κρίνεται καταλληλότερη η χρήση μίας μη γραμμικής διανυσματικής συνάρτησης. Για το σκοπό αυτό, ο χώρος του προβλήματος μετασχηματίζεται, σε έναν άλλο χώρο μεγαλύτερης ή και άπειρης διάστασης μέσω της απεικόνισης. Αν υπάρχει μία συνάρτηση πυρήνα (Εικόνα 6, Εικόνα 7), τέτοια ώστε: 45

46 τότε μπορεί να αποφευχθεί ο απαιτητικός υπολογισμός του εσωτερικού γινομένου, σε ένα χώρο άπειρων διαστάσεων. Η επιλογή της κατάλληλης συνάρτησης πυρήνα και της απεικόνισης συνιστούν κρίσιμες αποφάσεις, καθώς επηρεάζουν την απόδοση του μοντέλου. Κάποιες από τις συναρτήσεις πυρήνα που χρησιμοποιούνται αρκετά συχνά είναι: Gaussian - Radial Basis Function (RBF): Πολυωνυμική: Σιγμοειδής: Εικόνα 6: Εφαρμογή συνάρτησης πυρήνα 6 Εικόνα 7: Το τέχνασμα της συνάρτησης πυρήνα (Kernel Trick) 7 6 Kernel Machine" by Alisneaky - Own work. 46

47 3.4 Μετρικές Αξιολόγησης Προκειμένου να αξιολογηθεί η επίδοση ενός ταξινομητή, έχει προταθεί πληθώρα μετρικών αξιολόγησης. Στη συνέχεια του κεφαλαίου, παρουσιάζονται οι δημοφιλέστερες μετρικές αξιολόγησης αλγορίθμων μηχανικής μάθησης. Η πιο απλή και αντιπροσωπευτική μετρική είναι η Γενική Ορθότητα Πρόβλεψης. Η ορθότητα (accuracy) υπολογίζεται ως το ποσοστό των στιγμιότυπων του συνόλου ελέγχου που ταξινομήθηκαν στην σωστή κατηγορία. όπου, TP = το πλήθος των στιγμιοτύπων που ανήκουν στην κατηγορία positive και ταξινομήθηκαν στην κατηγορία positive. (σωστή ταξινόμηση) TN = το πλήθος των στιγμιοτύπων που ανήκουν στην κατηγορία negative και ταξινομήθηκαν στην κατηγορία positive. (σωστή ταξινόμηση) FP = το πλήθος των στιγμιοτύπων που ανήκουν στην κατηγορία negative και ταξινομήθηκαν στην κατηγορία positive. (λανθασμένη ταξινόμηση) FN = το πλήθος των στιγμιοτύπων που ανήκουν στην κατηγορία positive και ταξινομήθηκαν στην κατηγορία positive. (λανθασμένη ταξινόμηση)

48 H ευαισθησία ή ανάκληση (sensitivity ή recall) υπολογίζεται ως εξής: Η ακρίβεια (precision) υπολογίζεται ως εξής: H εξειδίκευση (specificity) υπολογίζεται ως εξής: Τέλος, η μετρική F-Measure παρέχει μία συνολική εκτίμηση των μοντέλων, καθώς συνδυάζει δύο άλλες μετρικές, την ανάκληση και την ακρίβεια. Η μετρική F-Measure στην ουσία είναι ο αρμονικός μέσος όρος (harmonic mean) της ανάκλησης και της ακρίβειας, και υπολογίζεται ως εξής: 48

49 4. Μοντέλα Κατηγοριοποίησης Συναισθήματος 4.1 Προγραμματιστικό Περιβάλλον - Python Η Python, είναι μία υψηλού επιπέδου γλώσσα προγραμματισμού, που δημιούργησε ο Ολλανδός Guido Van Rossum το 1991, το όνομα της οποίας εμπνεύστηκε από την εκπομπή Monty Python s Flying Circus, του BBC. Η φιλοσοφία του Van Rossum ήταν να αναπτύξει μία απλή, αλλά ταυτόχρονα ισχυρή γλώσσα προγραμματισμού, η οποία χαρακτηρίζεται από την αναγνωσιμότητα του κώδικά της, και τη σύνταξή της, η οποία δίνει τη δυνατότητα στους χρήστες, να εκφραστούν με μεγαλύτερη ευελιξία και συντομία, συγκριτικά με άλλες γλώσσες, όπως η C++ ή η Java. [38] Η Python είναι μία διερμηνευόμενη γλώσσα, γεγονός που κάνει τη χρήση της πιο εύκολη, από τη στιγμή που δεν απαιτείται μεταγλώττιση του προγράμματος. Η γλώσσα προγραμματισμού Python, χρησιμοποιεί αποτελεσματικές δομές δεδομένων υψηλού επιπέδου, οι οποίες σε συνδυασμό με τη διερμηνευτική της λειτουργία, αλλά και την αποδοτική αντικειμενοστρεφή της προσέγγιση, την καθιστούν μία από τις δημοφιλέστερες γλώσσες προγραμματισμού. Τέλος, αποτελεί μία επεκτάσιμη και ενσωματώσιμη γλώσσα, η οποία έχει στη διάθεσή της μία μεγάλη βιβλιοθήκη, που της παρέχει τεράστιες δυνατότητες. Τα μοντέλα κατηγοριοποίησης συναισθήματος αυτής της εργασίας, υλοποιήθηκαν σε γλώσσα Python. Η Python, επιλέχθηκε, κυρίως, λόγω της πληθώρας βιβλιοθηκών που υποστηρίζει, πολλές από τις οποίες χρησιμοποιήθηκαν στην υλοποίηση των μοντέλων. Ειδικότερα, διαθέτει βιβλιοθήκες σχεδιασμένες ειδικά για εφαρμογές Επεξεργασίας Φυσικής Γλώσσας (Natural Language ToolKit) και Ανάλυσης Συναισθήματος (SciKit Learn -sklearn). 49

50 4.2 Συλλογή δεδομένων Η εφαρμογή και η απόδοση ενός μοντέλου κατηγοριοποίησης συναισθήματος, επηρεάζεται σημαντικά, από σύνολο δεδομένων το οποίο μελετάται, και στο οποίο εφαρμόζεται το μοντέλο. Για την καλύτερη διερεύνηση των μοντέλων κατηγοριοποίησης συναισθήματος στο πλαίσιο αυτής της εργασίας, έχουν επιλεγεί σύνολα δεδομένων με διαφορετικά εγγενή χαρακτηριστικά. Δεδομένα που προέρχονται από ιστότοπους κριτικών, διαφέρουν από δεδομένα τα οποία προέρχονται από κοινωνικά δίκτυα, όπως το Twitter. Θα εξετασθούν δύο σύνολα δεδομένων, με κριτικές ταινιών (IMDb, Rotten Tomatoes), και ένα σύνολο δεδομένων με μηνύματα από το Twitter. Η σημαντικότερη διαφορά, έγκειται στο μέγεθος των κειμένων. Οι χρήστες του Twitter, έχουν τον περιορισμό των 140 χαρακτήρων, και υποχρεώνονται στη σύνταξη πιο περιεκτικών μηνυμάτων. Τουναντίον, στις κριτικές ταινιών, οι χρήστες έχουν τη δυνατότητα να αναπτύξουν τη σκέψη και την κριτική τους, χωρίς περιορισμούς στο μέγεθος του κειμένου. Ο περιορισμός της έκτασης του κειμένου στο Twitter, οδηγεί σε μία ακόμη απόκλιση. Οι χρήστες του Twitter, επιλέγουν πολλούς νεολογισμούς, συντομογραφίες, και διάφορα emoticons, ώστε να αποδώσουν με μεγαλύτερη σαφήνεια το μήνυμά τους. Το γεγονός αυτό, έχει ως αποτέλεσμα, συχνά η πολικότητα του μηνύματος να «κρύβεται» σε μία συντομογραφία ή σε ένα emoticon. Από την άλλη μεριά, το περιθώριο σύνταξης μεγαλύτερων κειμένων στις κριτικές ταινιών, δεν αποκλείει τη χρήση νεολογισμών, συντομογραφιών και emoticons. Εν τούτοις, κατά κανόνα, η πολικότητα της κριτικής αναδεικνύεται σε μεγάλο βαθμό και μόνο από το κείμενο. 50

51 4.2.1 Δεδομένα από Κριτικές Ταινιών Για την κατασκευή μοντέλου κατηγοριοποίησης συναισθήματος, κριτικών ταινιών, χρησιμοποιήθηκαν δύο σύνολα δεδομένων. Το πρώτο σύνολο δεδομένων περιέχει 2000 κριτικές, από το ιστότοπο IMDB ( Τα δεδομένα έχουν κατηγοριοποιηθεί χειροκίνητα σε δύο κατηγορίες, θετικές και αρνητικές κριτικές. Συνολικά, υπάρχουν 1000 θετικές και 1000 αρνητικές κριτικές. Κάθε μία κριτική, αποτελεί ένα ξεχωριστό αρχείο κειμένου (.txt). Το συγκεκριμένο σύνολο δεδομένων, δημιουργήθηκε για τους σκοπούς της εργασίας των Bo Pang και Lillian Lee, A Sentimental Education: Sentiment Analysis Using Subjectivity Summarization, το [26] [38] Το δεύτερο σύνολο δεδομένων, περιέχει κριτικές, από το ιστότοπο Rotten Tomatoes ( Συνολικά, υπάρχουν 5331 θετικές και 5331 αρνητικές κριτικές, οι οποίες έχουν κατηγοριοποιηθεί χειροκίνητα. Οι κριτικές είναι αποθηκευμένες σε δύο αρχεία κειμένου, ανάλογα με την πολικότητά τους (pos, neg), τα οποία μπορούν να χειριστούν και ως.csv αρχεία. Το συγκεκριμένο σύνολο δεδομένων, δημιουργήθηκε για τους σκοπούς της εργασίας των Bo Pang και Lillian Lee, Seeing stars: Exploiting class relationships for sentiment categorization with respect to rating scales, το [25] [40] Στον Πίνακα 1 και στον Πίνακα 2 δίνονται παραδείγματα στιγμιοτύπων των συνόλων δεδομένων, από τις ιστοσελίδες ΙMDb και Rotten Tomatoes αντίστοιχα. 51

52 Sentiment positive Review films adapted from comic books have had plenty of success, whether they're about superheroes ( batman, superman, spawn ), or geared toward kids ( casper ) or the arthouse crowd ( ghost world ), but there's never really been a comic book like from hell before. for starters, it was created by alan moore ( and eddie campbell ), who brought the medium to a whole new level in the mid '80s with a 12-part series called the watchmen. to say moore and campbell thoroughly researched the subject of jack the ripper would be like saying michael jackson is starting to look a little odd. the book ( or " graphic novel, " if you will ) is over 500 pages long and includes nearly 30 more that consist of nothing but footnotes. in other words, don't dismiss this film because of its source. if you can get past the whole comic book thing, you might find another stumbling block in from hell's directors, albert and allen hughes. getting the hughes brothers to direct this seems almost as ludicrous as casting carrot top in, well, nything, but riddle me this : who better to direct a film that's set in the ghetto and features really violent street crime than the mad geniuses behind menace ii society? the ghetto in question is, of course, whitechapel in 1888 london's east end. it's a filthy, sooty place where the whores ( called " unfortunates " ) are starting to get a little nervous about this mysterious psychopath who has been carving through their profession with surgical precision. when the first stiff turns up, copper peter godley ( robbie coltrane, the world is not enough ) calls in inspector frederick abberline ( johnny depp, blow ) to crack the case. abberline, a widower, has prophetic dreams he unsuccessfully tries to quell with copious amounts of absinthe and opium. upon arriving in whitechapel, he befriends an unfortunate named mary kelly ( heather graham, say it isn't so ) and proceeds to investigate the horribly gruesome crimes that even the police surgeon can't stomach. i don't think anyone needs to be briefed on jack the ripper, so i won't go into the particulars here, other than to say moore and campbell have a unique and interesting theory about both the identity of the killer and the reasons he chooses to slay. in the comic, they don't bother cloaking the identity of the ripper, but screenwriters terry hayes ( vertical limit ) and rafael yglesias ( les mis? rables ) do a good job of keeping him hidden from viewers until the very end. it's funny to watch the locals blindly point the finger of blame at jews and indians because, after all, an englishman could never be capable of committing such ghastly acts. and from hell's ending had me whistling the stonecutters song from the simpsons for days ( " who holds back the electric car/who made steve guttenberg a star? " ). don't worry - it'll all make sense when you see it. now onto from hell's appearance : it's certainly dark and bleak enough, and it's surprising to see how much more it looks like a tim burton film than planet of the apes did ( at times, it seems like sleepy hollow 2 ). the print i saw wasn't completely finished ( both color and music had not been finalized, so no comments about marilyn manson ), but cinematographer peter deming ( don't say a word ) ably captures the dreariness of victorian-era london and helped make the flashy killing scenes remind me of the crazy flashbacks in twin peaks, even though the violence in the film pales in comparison to that in the black-and-white comic. oscar winner martin childs' ( shakespeare in love ) production design turns the original prague surroundings into one creepy place. even the acting in from hell is solid, with the dreamy depp turning in a typically strong performance and deftly handling a british accent. ians holm ( joe gould's secret ) and richardson ( 102 dalmatians ) log in great supporting roles, but the big surprise here is graham. i cringed the first time she opened her mouth, imagining her attempt at an irish accent, but it actually wasn't half bad. the film, however, is all good. 2 : 00 - r for strong violence/gore, sexuality, language and drug content Πίνακας 1: Παράδειγμα κριτικής από την ιστοσελίδα IMDb 52

53 Sentiment Review negative simplistic, silly and tedious. negative it's so laddish and juvenile, only teenage boys could possibly find it funny. negative exploitative and largely devoid of the depth or sophistication that would make watching such a graphic treatment of the crimes bearable. negative [garbus] discards the potential for pathological study, exhuming instead, the skewed melodrama of the circumstantial situation. positive the rock is destined to be the 21st century's new " conan " and that he's going to make a splash even greater than arnold schwarzenegger, jean-claud van damme or steven segal. positive the gorgeously elaborate continuation of " the lord of the rings " trilogy is so huge that a column of words cannot adequately describe co-writer/director peter jackson's expanded vision of j. r. r. tolkien's middle-earth. positive effective but too-tepid biopic positive if you sometimes like to go to the movies to have fun, wasabi is a good place to start. Πίνακας 2: Παραδείγματα κριτικών από την ιστοσελίδα Rotten Tomatoes Παρατηρούμε, πως οι κριτικές που προέρχονται από την ιστοσελίδα IMDb, είναι πολύ εκτενέστερες, εν συγκρίσει με τις κριτικές που αναρτήθηκαν στη σελίδα Rotten Tomatoes. Στο πρώτη περίπτωση, οι κριτικές αποτελούνται από ολόκληρες παραγράφους, ενώ, αντίθετα, οι κριτικές του δεύτερου συνόλου δεδομένων περιλαμβάνουν, ένα μικρό πλήθος προτάσεων. Διαπιστώνουμε λοιπόν, πως ακόμα και εάν τα σύνολα δεδομένων έχουν το ίδιο περιεχόμενο, είναι πιθανό να εμφανίζουν σημαντικές διαφορές, ως προς τα χαρακτηριστικά τους Δεδομένα από το Twitter Το τρίτο σύνολο δεδομένων, που θα χρησιμοποιηθεί, για την υλοποίηση μοντέλου κατηγοριοποίησης συναισθήματος, προέρχεται από μηνύματα που έχουν δημοσιευτεί στο Twitter ( Το σύνολο δεδομένων περιέχει 5513 tweets, τα έχουν κατηγοριοποιηθεί χειροκίνητα σε τέσσερις κατηγορίες. 53

54 Αναλυτικά, κάθε στιγμιότυπο του συνόλου δεδομένων περιλαμβάνει: το θέμα του tweet (#topic), το συναίσθημα του tweet το tweet id, την ημερομηνία του δημοσιεύτηκε το tweet, το κείμενο του tweet. Στον Πίνακα 3, παρουσιάζονται μερικά παραδειγματικά στιγμιότυπα. Topic Sentiment Tweet ID Date Tweet Text apple positive apple negative google neutral google positive microsoft irrelevant microsoft neutral twitter negative Tue Oct 18 20:34: Tue Oct 18 17:25: ","Wed Oct 19 05:25: Wed Oct 19 03:03: Wed Oct 19 18:01: ","","Wed Oct 19 22:39: Thu Oct 20 04:27: I just realized that the reason I got into twitter was ios5 Total chaos store regent street. Like an Ethiopian feeding station. Can't believe this is same co. that makes all that cool shit #ThatsDisrespectful Like using #Google to search for #Bing I'm an ios user but the #ICS is awesome, great job #google #cuentalaleyenda que #microsoft llego a servir. Ah no! Eso nunca llego a ocurrir I wish there was #Microsoft #PowerPoint for #ipad Twitter, will you please fix this RT problem? twitter neutral Thu Oct 20 03:05: This nigga need to go to #Twitter Jail Πίνακας 3: Παραδείγματα στιγμιοτύπων από τα δεδομένα του Twitter 54

55 Τα tweets που επεξεργαζόμαστε, αναφέρονται σε τέσσερα θέματα: #topic #apple 1142 #microsoft 1364 #google 1317 #twitter 1290 Επιπλέον, στο συγκεκριμένο σύνολο δεδομένων τα tweets έχουν διακριθεί σε τέσσερις κατηγορίες, ανάλογα με το συναίσθημα που εκφράζουν: sentiment positive 519 neutral 2333 negative 572 irrelevant 1689 Τα tweets μπορούν να διακρίνουμε σε μηνύματα με πολικότητα (positive - negative) και σε μηνύματα χωρίς πολικότητα (neutral - irrelevant). Για τους σκοπούς της εργασίας, θα αγνοήσουμε τα μηνύματα χωρίς πολικότητα και θα εστιάσουμε την ανάλυση στην κατηγοριοποίηση των 1091 μηνυμάτων με θετικό ή αρνητικό συναίσθημα. Η λήψη των δεδομένων, λόγω των περιορισμών της Διεπαφής Προγραμματισμού Εφαρμογών (Application Programming Interface API) του Twitter, διαρκεί περίπου 43 ώρες. Με την ολοκλήρωση της λήψης, τα tweets αποθηκεύονται σε ένα αρχείο.csv. 55

56 4.3 Περιγραφή Μοντέλου Κατηγοριοποίησης Η υλοποίηση των μοντέλων κατηγοριοποίησης συναισθήματος, έγινε σε προγραμματιστικό περιβάλλον της Python. Παρακάτω, παρουσιάζονται τα βήματα που ακολουθήθηκαν, για την υλοποίηση των μοντέλων, ανάλογα με τις ιδιαιτερότητες τριών συνόλων δεδομένων Εισαγωγή των δεδομένων Η εισαγωγή των δεδομένων, εξαρτάται από τον τρόπο που είναι αποθηκευμένα τα δεδομένα. Τα 2000 αρχεία.txt, στα οποία είναι αποθηκευμένες οι κριτικές από τον ιστότοπο IMDB, μπορούμε εύκολα να τα εισάγουμε με τη χρήση της βιβλιοθήκης sklearn. (dataset.load_files). Αντίστοιχα, τα δύο αρχεία.csv, των κριτικών από τον ιστότοπο Rotten Tomatoes και των μηνυμάτων από το Twitter, εισάγονται με τη χρήση της βιβλιοθήκης panda (pd.read_csv) Αναπαράσταση δεδομένων TF-IDF Στην παράγραφο 1.5.2, μελετήθηκε η αναπαράσταση κειμένων με τη χρήση διανυσμάτων. Κατά την αναπαράσταση των κειμένων, ως επί το πλείστον, το βάρος κάθε όρου, ισούται µε τη συχνότητα εμφάνισης του όρου, στο αντίστοιχο κείμενο. Η επιλογή της συχνότητας, ως στάθμιση, έχει ως αποτέλεσμα, οι όροι με τη μεγαλύτερη συχνότητα, να θεωρούνται ως οι περισσότερο αντιπροσωπευτικοί όροι του κειμένου, λόγω της βαρύτητάς τους. Με αυτή την επιλογή, αποδίδονται υψηλά βάρη σε λέξεις, που απλά είναι περισσότερο χρησιμοποιήσιμες, για παράδειγμα τα stopwords. Μία λύση σε αυτό το πρόβλημα αποτελεί η στάθμιση TF-IDF, όπου TF (Term Frequency) η συχνότητα του όρου, ενώ IDF (Inverse Document Frequency) είναι ένα 56

57 βάρος που δηλώνει τη σημαντικότητα ενός όρου του κείμενου, σε σχέση με το σύνολο των κειμένων. Η στάθμιση υπολογίζεται από τον πολλαπλασιασμό των TF και IDF. Η στάθμιση TF-IDT, δίνει αρκετά καλά αποτελέσματα, καθώς το βάρος IDF παίρνει μεγάλες τιμές, όταν ένας όρος, υπάρχει σε λίγα κείμενα, ενώ, όταν ο όρος συναντάται σε πολλά από τα κείμενα, τότε το βάρος IDF παίρνει μικρές. τιμές. Με αυτή τη στάθμιση, οι σπάνιοι όροι έχουν υψηλό IDF, και όροι με μεγάλη συχνότητα βαρύνονται με χαμηλότερο IDF. Αυτή η προσέγγιση, έχει ως αποτέλεσμα, τα stopwords να παίρνουν σχετικά μικρό βάρος και να µην αποτελούν πλέον τους πιο αντιπροσωπευτικές όρους στα κείμενα. Η στάθμιση TF-IDT τις περισσότερες φορές, βελτιώνει την απόδοση των μοντέλων, ωστόσο υπάρχουν και κάποιες περιπτώσεις, που έχει τα αντίθετα αποτελέσματα. Μία τέτοια περίπτωση είναι, όταν οι όροι με τις λιγότερες εμφανίσεις στα κείμενα, δεν είναι αντιπροσωπευτικοί των κατηγοριών. Στα μοντέλα που υλοποιούνται στο πλαίσιο της εργασίας, έχει επιλεγεί αναπαράσταση των κειμένων με στάθμιση TF-IDT. Για την αναπαράσταση και TF-IDF στάθμιση των κειμένων, χρησιμοποιήθηκε η βιβλιοθήκη sklearn (feature_extraction.text.tfidfvectorizer) Ν-gram και Stopwords Κατά την αναπαράσταση των κειμένων, δίνεται η δυνατότητα να ρυθμιστούν κάποιες επιπλέον παράμετροι. Καθοριστική απόφαση, για την απόδοση του μοντέλου, αποτελεί η επιλογή της παραμέτρου N-gram. Η φύση των δεδομένων που θα μελετήσουμε, επιβάλλει την ανάλυση και αναπαράσταση των κειμένων, σε επίπεδο λέξης. Στη συνέχεια, το κατάλληλο εύρος του N- gram, θα διερευνηθεί μέσα από δοκιμές, έτσι ώστε να επιλεγεί εκείνο που βελτιστοποιεί την απόδοση του μοντέλου. Συγκεκριμένα, θα εξεταστούν τρεις περιπτώσεις: 1-gram (unigram), 2-gram (bigram) και 3-gram (trigram). 57

58 Μία δεύτερη σημαντική απόφαση, αποτελεί η διαχείριση των stopwords. Ως stopwords ορίζουμε τους τερματικούς όρους, δηλαδή τους όρους που δε φέρουν σημασιολογικό περιεχόμενο, όπως για παράδειγμα τα άρθρα. Κατά την υλοποίηση των μοντέλων κατηγοριοποίησης, θα διερευνήσουμε το κατά πόσο η αφαίρεση των stopwords, επηρεάζει την ορθότητα τους Επιλογή αλγορίθμου Οι αλγόριθμοι που έχουν επιλεγεί, για την υλοποίηση των μοντέλων, προέρχονται από την επιβλεπόμενη μηχανική μάθηση. Ο Multinomial Naive Bayes και ο αλγόριθμός SVΜ, με γραμμική συνάρτηση πυρήνα, θα αποτελέσουν τη βάση των μοντέλων κατηγοριοποίησης που μελετηθούν στη συνέχεια της εργασίας. Μετά την ολοκλήρωση των μοντέλων, θα πραγματοποιηθεί συγκριτική ανάλυση των αποδόσεών τους, στα τρία σύνολα δεδομένων. Η εισαγωγή των αλγορίθμων γίνεται με τη χρήση της βιβλιοθήκης sklearn (sklearn.naive_bayes.multinomialnb, sklearn.svm.linearsvc) Σύνολα εκπαίδευσης ελέγχου Ακόμα ένα σημαντικό βήμα, στη δημιουργία ενός ταξινομητή, βάσει αλγορίθμων της επιβλεπόμενης μηχανικής μάθησης, συνιστά ο διαχωρισμός του συνόλου δεδομένων, σε σύνολα εκπαίδευσης και ελέγχου αντίστοιχα. Σε αυτή την εργασία, έχουμε επιλέξει δύο μεθόδους διαχωρισμού των συνόλων δεδομένων. Η πρώτη μέθοδος, είναι η στρωματοποιημένη σταυρωτή επικύρωση (Stratified ΚFold Cross Validation). Στη στρωματοποιημένη σταυρωτή επικύρωση (εδώ, για K=10), σε κάθε αναδίπλωση του συνόλου, διατηρείται η αρχική αναλογία των κατηγοριών. Η δεύτερη μέθοδος, θα χωρίσει με τυχαίο τρόπο (Shuffle Split) το αρχικό σύνολο δεδομένων, σε σύνολα εκπαίδευσης και ελέγχου. Σε αυτό το διαχωρισμό, ο χρήστης ορίζει πόσα ζεύγη συνόλων εκπαίδευσης - ελέγχου θα δημιουργηθούν (εδώ, n=10) και τι ποσοστό από τα αρχικά δεδομένα θα τοποθετείται σε κάθε ένα από τα 58

59 σύνολα εκπαίδευσης-ελέγχου αντίστοιχα (εδώ, test = 10%). Η βιβλιοθήκη sklearn, υποστηρίζει τις μεθόδους δημιουργίας των συνόλων εκπαίδευσης και ελέγχου, καθώς και τη ρύθμιση των παραμέτρων τους από το χρήστη (cross_validation.shufflesplit και cross_validation.stratifiedkfold) Αξιολόγηση του μοντέλου Για την αξιολόγηση των μοντέλων κατηγοριοποίησης, έχουν επιλεγεί οι παρακάτω μετρικές: Ορθότητα (Accuracy) Ανάκληση (Recall) Ακρίβεια (Precision) F-Measure Επιπρόσθετα, θα εξάγουμε και τους Πίνακες Σύγχυσης (Confusion Matrices) των ταξινομητών, για την περαιτέρω ερμηνεία των αποτελεσμάτων. 4.4 Γλωσσολογική ανάλυση & SentiWordNet 3.0 Στην παράγραφο 2.2.4, έγινε αναφορά στους λεξικούς πόρους, και την αξιοποίησή τους στην κατηγοριοποίηση συναισθήματος. Το SentiWordNet 3.0 είναι ένας λεξικός πόρος, σχεδιασμένος για την υποστήριξη μοντέλων κατηγοριοποίησης συναισθήματος. [36] Εντάσσοντας το λεξικό στο μοντέλο μας, επιδιώκουμε τη βελτίωση της απόδοσής του, με την αποτελεσματικότερη ανίχνευση της πολικότητας των κειμένων. Στο μοντέλο κατηγοριοποίησης συναισθήματος που κατασκευάζουμε, θα ενσωματώσουμε το λεξικό SentiWordNet 3.0, στην υλοποίηση μία κλάσης σε Python, η οποία θα πραγματοποιεί γλωσσολογική ανάλυση (linguistic analysis) των κειμένων και στη συνέχεια θα βαθμολογεί την πολικότητα τους, βάσει του 59

60 συγκεκριμένου λεξικού. Στο πλαίσιο της παρούσας εργασίας, η συγκεκριμένη ανάλυση, θα πραγματοποιηθεί μόνο στο τρίτο σύνολο δεδομένων, δηλαδή στα μηνύματα που προέρχονται από το Twitter, κυρίως για λόγους υπολογιστικής πολυπλοκότητας. Όπως αναφέρθηκε στην παράγραφο 2.4.2, τα tweets παρουσιάζουν ιδιαιτερότητες, λόγω του περιορισμού των επιτρεπόμενων χαρακτήρων. Επομένως, παράλληλα με τη γλωσσολογική ανάλυση, τα δεδομένα που προέρχονται από το Twitter, είναι απαραίτητο να υποστούν επιπλέον προεπεξεργασία, πριν προχωρήσουμε στη γλωσσολογική ανάλυση. Σε πρώτη φάση, θα αφαιρεθούν τα emoticons, και θα αντικατασταθούν από λέξεις που εκφράζουν την πολικότητά τους, όπως φαίνεται στον Πίνακα 4. αφαίρεση των emoticons θετικά emoticons αρνητικά emoticons <3 good :/ bad :d good :&gt bad :dd good :dd bad :-) good :') bad :) good :-( bad ;) good :( bad (-: good :S bad (: good :-S bad Πίνακας 4: Αφαίρεση των emoticons από τα tweets Σε δεύτερη φάση, θα αφαιρεθούν οι συντομογραφίες και θα αντικατασταθούν από τις αντίστοιχες λέξεις, όπως φαίνεται στον Πίνακα 5. 60

61 αφαίρεση των συντομογραφιών r u haha hahaha don't:( won't didn't are you ha ha do not will not did not wouldn't would not Πίνακας 5: Αφαίρεση των συντομογραφιών από τα tweets Με την αφαίρεση των emoticons και των συντομογραφιών, επιδιώκεται η ενίσχυση της γλωσσολογικής ανάλυσης, καθώς αξιοποιούνται περισσότεροι όροι των μηνυμάτων, και δεν χάνεται η πολικότητά τους. Στη συνέχεια, με τη βοήθεια της βιβλιοθήκης ntlk, κάναμε γραμματική και συντακτική ανάλυση των μηνυμάτων (POS-tags). Τέλος, με την ενσωμάτωση του λεξικού SentiWordNet 3.0, υπολογίσουμε τη βαθμολογία της πολικότητας κάθε μηνύματος. Αναλυτικά, θα συμπεριλάβουμε στα χαρακτηριστικά του μοντέλου τα εξής: τη βαθμολογία αντικειμενικότητας τη βαθμολογία θετικής πολικότητας τη βαθμολογία αρνητικής πολικότητας το πλήθος των ουσιαστικών το πλήθος των επιθέτων το πλήθος των ρημάτων το πλήθος των επιρρημάτων το πλήθος των θαυμαστικών το πλήθος των ερωτηματικών το πλήθος των hashtags (#) το πλήθος των αναφορών (@) 61

62 5 Πειραματικά Αποτελέσματα Στη συνέχεια, παρουσιάζονται τα πειραματικά αποτελέσματα των ταξινομητών που υλοποιήθηκαν, για κάθε σύνολο δεδομένων. Για κάθε σύνολο, παρουσιάζεται ο καλύτερος LinearSVC, ο καλύτερος MultinomialNB ταξινομητής και εν τέλει, η τελική επιλογή ταξινομητή. Σε κάθε σύνολο εφαρμόστηκαν οι παρακάτω δώδεκα δοκιμές των ταξινομητών: Ταξινομητής με αλγόριθμο LinearSVC o StratifiedKFold K=10 Unigram Bigram Trigram o ShuffleSplit, n=10, test size=10% Unigram Bigram Trigram Ταξινομητής με αλγόριθμο MultinomialNB o StratifiedKFold K=10 Unigram Bigram Trigram o ShuffleSplit, n=10, test size=10% Unigram Bigram Trigram Αξίζει να σημειωθεί, ότι στους καλύτερους LinearSVC και MultinomialNB ταξινομητές κάθε συνόλου, διερευνήθηκε η επίδραση της αφαίρεσης των stopwords. Λόγω του ότι, στα δεδομένα των κριτικών ταινιών, η αφαίρεση των stopwords, χειροτέρεψε την απόδοση του ταξινομητή, δεν παρατίθενται οι αντίστοιχοι πίνακες. 62

63 5.1 Ταξινομητής για τα δεδομένα από το IMDB Στον Πίνακα 6, παρουσιάζονται τα αποτελέσματα του LinearSVC ταξινομητή, με μέθοδο διαχωρισμού των συνόλων εκπαίδευσης - ελέγχου: Stratified ΚFold Cross Validation, για unigram, bigram και trigram μοντέλα. LinearSVC IMDB StratifiedKFold K=10 accuracy recall precision f-measure unigram bigram trigram Πίνακας 6: Μετρικές αξιολόγησης 1 ου ταξινομητή (IMDB) Συνολικά, την καλύτερη επίδοση, κατέγραψε ο ταξινομητής με unigram μοντέλο. Στον Πίνακα 7, παρουσιάζονται τα αποτελέσματα του LinearSVC ταξινομητή, με μέθοδο διαχωρισμού των συνόλων εκπαίδευσης - ελέγχου: Shuffle Split, για unigram, bigram και trigram μοντέλα. LinearSVC IMDB ShuffleSplit, n=10, test_size=10% accuracy recall precision f-measure unigram bigram trigram Πίνακας 7: Μετρικές αξιολόγησης 2 ου ταξινομητή (IMDB) Ο ταξινομητής με unigram μοντέλο έχει την υψηλότερη ορθότητα. 63

64 Στον Πίνακα 8, παρουσιάζονται τα αποτελέσματα του LinearSVC ταξινομητή, με μέθοδο διαχωρισμού των συνόλων εκπαίδευσης - ελέγχου: Stratified ΚFold Cross Validation, για unigram, bigram και trigram μοντέλα. MultinomialNB IMDB StratifiedKFold K=10 accuracy recall precision f-measure unigram bigram trigram Πίνακας 8: Μετρικές αξιολόγησης 3 ου ταξινομητή (IMDB) Ο ταξινομητής με bigram μοντέλο σημείωσε την υψηλότερη ορθότητα, ωστόσο δεν ήταν ο καλύτερος στην ανάκληση και στην ακρίβεια. Στον Πίνακα 9, παρουσιάζονται τα αποτελέσματα του LinearSVC ταξινομητή, με μέθοδο διαχωρισμού των συνόλων εκπαίδευσης - ελέγχου: Shuffle Split, για unigram, bigram και trigram μοντέλα. MultinomialNB IMDB ShuffleSplit, n=10, test_size=10% accuracy recall precision f-measure unigram bigram trigram Πίνακας 9: Μετρικές αξιολόγησης 4 ου ταξινομητή (IMDB) Το bigram μοντέλο βελτίωσε την απόδοση του ταξινομητή, με εξαίρεση τη μετρική της ανάκλησης. 64

65 Ο καλύτερος LinearSVC ταξινομητής, με μέθοδο διαχωρισμού των συνόλων εκπαίδευσης - ελέγχου: Stratified ΚFold Cross Validation, και unigram μοντέλο, παρουσιάζεται στον Πίνακα 10. LinearSVC IMDB StratifiedKFold K=10 accuracy recall precision f-measure unigram Πίνακας 10: Ο τελικός LinearSVC ταξινομητής (IMDB) Ο τελικός LinearSVC ταξινομητής για το σύνολο κριτικών από το IMDB, σημείωσε 85.8% ορθότητα κατηγοριοποίησης και 85.9% στη μετρική F- Measure. Στην Εικόνα 8, παρατίθεται ο Πίνακας Σύγχυσης του ταξινομητή, για περεταίρω ανάλυση των αποτελεσμάτων της κατηγοριοποίησης. Εικόνα 8: Confusion Matrix του LinearSVC ταξινομητή (ΙMDB) 65

66 Ο καλύτερος MultinomialNB ταξινομητής, με μέθοδο διαχωρισμού των συνόλων εκπαίδευσης - ελέγχου: Stratified ΚFold Cross Validation, και bigram μοντέλο, παρουσιάζεται στον Πίνακα 11. MultinomialNB IMDB StratifiedKFold K=10 accuracy recall precision f-measure bigram Πίνακας 11: Ο τελικός MultinomialNB ταξινομητής (IMDB) Ο τελικός MultinomialNB ταξινομητής για το σύνολο κριτικών από το IMDB, σημείωσε 83.3% ορθότητα ταξινόμησης και 83.9% στη μετρική F-Measure Στην Εικόνα 9 παρατίθεται ο Πίνακας Σύγχυσης του ταξινομητή για ανάλυση και σύγκριση των αποτελεσμάτων της ταξινόμησης. Εικόνα 9: Confusion Matrix του MultinomialNB ταξινομητή (ΙMDB) 66

67 Η τελική επιλογή ταξινομητή παρουσιάζεται στον Πίνακα 12. LinearSVC IMDB StratifiedKFold K=10 accuracy recall precision f-measure unigram Πίνακας 12: Η τελική επιλογή ταξινομητή για το σύνολο IMDB Εν κατακλείδι, η τελική επιλογή για το σύνολο κριτικών από το IMDB, με 85.8% ορθότητα ταξινόμησης: Ταξινομητής με αλγόριθμο LinearSVC o StratifiedKFold K=10 Unigram Ο τελικός ταξινομητής, σε όλες τις μετρικές αξιολόγησης είχε αποτελέσματα υψηλότερα του 85%. 67

68 5.2 Ταξινομητής για τα δεδομένα από το RT Στον Πίνακα 13, παρουσιάζονται τα αποτελέσματα του LinearSVC ταξινομητή, με μέθοδο διαχωρισμού των συνόλων εκπαίδευσης - ελέγχου: Stratified ΚFold Cross Validation, για unigram, bigram και trigram μοντέλα. Rotten Tomatoes LinearSVC StratifiedKFold K=10 accuracy recall precision f-measure unigram bigram trigram Πίνακας 13: Μετρικές αξιολόγησης 1 ου ταξινομητή (Rotten Tomatoes) Την καλύτερη απόδοση σημείωσε ο ταξινομητής με bigram μοντέλο. Στον Πίνακα 14, παρουσιάζονται τα αποτελέσματα του LinearSVC ταξινομητή, με μέθοδο διαχωρισμού των συνόλων εκπαίδευσης - ελέγχου: Shuffle Split, για unigram, bigram και trigram μοντέλα. Rotten Tomatoes LinearSVC ShuffleSplit, n=10, test_size=10% accuracy recall precision f-measure unigram bigram trigram Πίνακας 14: Μετρικές αξιολόγησης 2 ου ταξινομητή (Rotten Tomatoes) Παρόλο που δεν είναι μεγάλες οι διαφορές στις μετρικές αξιολόγησης, ο ταξινομητής με bigram μοντέλο κάνει την ορθότερη κατηγοριοποίηση. 68

69 Στον Πίνακα 15, παρουσιάζονται τα αποτελέσματα του MultinomialNB ταξινομητή, με μέθοδο διαχωρισμού των συνόλων εκπαίδευσης ελέγχου: Stratified ΚFold Cross Validation, για unigram, bigram και trigram μοντέλα. Rotten Tomatoes MultinomialNB StratifiedKFold K=10 accuracy recall precision f-measure unigram bigram trigram Πίνακας 15: Μετρικές αξιολόγησης 3 ου ταξινομητή (Rotten Tomatoes) Σε όλες τις μετρικές αξιολόγησης, ο ταξινομητής με bigram μοντέλο ξεχώρισε και σημείωσε τις υψηλότερες τιμές. Στον Πίνακα 16, παρουσιάζονται τα αποτελέσματα του MultinomialNB ταξινομητή, με μέθοδο διαχωρισμού των συνόλων εκπαίδευσης - ελέγχου: Shuffle Split, για unigram, bigram και trigram μοντέλα. Rotten Tomatoes MultinomialNB ShuffleSplit, n=10, test_size=10% accuracy recall precision f-measure unigram bigram trigram Πίνακας 16: Μετρικές αξιολόγησης 4 ου ταξινομητή (Rotten Tomatoes) Ο ταξινομητής με bigram μοντέλο κατέγραψε την υψηλότερη ορθότητα, ωστόσο δεν ήταν ο καλύτερος σε ακρίβεια. 69

70 Ο καλύτερος LinearSVC ταξινομητής, με μέθοδο διαχωρισμού των συνόλων εκπαίδευσης - ελέγχου: Stratified ΚFold Cross Validation, και bigram μοντέλο, παρουσιάζεται στον Πίνακα 17. Rotten Tomatoes LinearSVC StratifiedKFold K=10 accuracy recall precision f-measure bigram Πίνακας 17: Ο τελικός LinearSVC ταξινομητής (Rotten Tomatoes) Ο τελικός LinearSVC ταξινομητής, που κατηγοριοποίησε αποτελεσματικότερα τα στιγμιότυπα του συνόλου κριτικών από το Rotten Tomatoes, κατέγραψε 78.7% ορθότητα και 79.0% στη μετρική F-Measure. Στην Εικόνα 10, παρατίθεται ο Πίνακας Σύγχυσης του ταξινομητή. Εικόνα 10: Confusion Matrix του LinearSVC ταξινομητή (RT) 70

71 Ο καλύτερος MultinomialNB ταξινομητής, με μέθοδο διαχωρισμού των συνόλων εκπαίδευσης - ελέγχου: Stratified ΚFold Cross Validation, και bigram μοντέλο, παρουσιάζεται στον Πίνακα 18. Rotten Tomatoes MultinomialNB StratifiedKFold K=10 accuracy recall precision f-measure bigram Πίνακας 18: Ο τελικός MultinomialNB ταξινομητής (Rotten Tomatoes) Ο τελικός MultinomialNB ταξινομητής για το σύνολο κριτικών από το IMDB, σημείωσε 79.3% ορθότητα ταξινόμησης και 79.0% στη μετρική F-Measure Στην Εικόνα 11 παρατίθεται ο Πίνακας Σύγχυσης του ταξινομητή για σύγκριση των αποτελεσμάτων της ταξινόμησης. Εικόνα 11: Confusion Matrix του MultinomialNB ταξινομητή (RT) 71

72 Η τελική επιλογή ταξινομητή παρουσιάζεται στον Πίνακα 19. Rotten Tomatoes MultinomialNB StratifiedKFold K=10 accuracy recall precision f-measure bigram Πίνακας 19: Η τελική επιλογή ταξινομητή για το σύνολο RT Συνοψίζοντας, η τελική επιλογή για την κατηγοριοποίηση συναισθήματος, του συνόλου κριτικών από το Rotten Tomatoes, με 79.3% ορθότητα ταξινόμησης είναι: Ταξινομητής με αλγόριθμο MultinomialNB o StratifiedKFold, K=10 Bigram Παρατηρείται, πως σε κάθε δομική των ταξινομητών, είτε με LinearSVC, είτε με MultinomialNB αλγόριθμο, η επιλογή bigram μοντέλου βελτιώνει την απόδοση του ταξινομητή, έναντι των unigram και trigram αντίστοιχα. 72

73 5.3 Ταξινομητής για τα δεδομένα από το Twitter Στον Πίνακα 20, παρουσιάζονται τα αποτελέσματα του LinearSVC ταξινομητή, με μέθοδο διαχωρισμού των συνόλων εκπαίδευσης - ελέγχου: Stratified ΚFold Cross Validation, για unigram, bigram και trigram μοντέλα. LinearSVC Twitter StratifiedKFold K=10 accuracy recall precision f-measure unigram bigram trigram Πίνακας 20: Μετρικές αξιολόγησης 1 ου ταξινομητή (Twitter) Ο ταξινομητής με unigram μοντέλο υπερτερεί σε όλες τις μετρικές αξιολόγησης. Στον Πίνακα 21, παρουσιάζονται τα αποτελέσματα του LinearSVC ταξινομητή, με μέθοδο διαχωρισμού των συνόλων εκπαίδευσης - ελέγχου: Shuffle Split, για unigram, bigram και trigram μοντέλα. LinearSVC Twitter ShuffleSplit, n=10, test_size=10% accuracy recall precision f-measure unigram bigram trigram Πίνακας 21: Μετρικές αξιολόγησης 2 ου ταξινομητή (Twitter) Ο ταξινομητής με bigram μοντέλο κατηγοριοποιεί καλύτερα τα δεδομένα. 73

74 Στον Πίνακα 22, παρουσιάζονται τα αποτελέσματα του MultinomialNB ταξινομητή, με μέθοδο διαχωρισμού των συνόλων εκπαίδευσης ελέγχου: Stratified ΚFold Cross Validation, για unigram, bigram και trigram μοντέλα. MultinomialNB Twitter StratifiedKFold K=10 accuracy recall precision f-measure unigram bigram trigram Πίνακας 22: Μετρικές αξιολόγησης 3 ου ταξινομητή (Twitter) Σε όλες τις μετρικές αξιολόγησης, ο ταξινομητής με unigram μοντέλο ξεχώρισε και σημείωσε τις υψηλότερες τιμές. Στον Πίνακα 23, παρουσιάζονται τα αποτελέσματα του MultinomialNB ταξινομητή, με μέθοδο διαχωρισμού των συνόλων εκπαίδευσης - ελέγχου: Shuffle Split, για unigram, bigram και trigram μοντέλα. MultinomialNB Twitter ShuffleSplit, n=10, test_size=10% accuracy recall precision f-measure unigram bigram trigram Πίνακας 23: Μετρικές αξιολόγησης 4 ου ταξινομητή (Twitter) Την υψηλότερη ορθότητα κατέγραψε ο ταξινομητής με unigram μοντέλο, ωστόσο δεν ήταν ο καλύτερος σε ακρίβεια. 74

75 Ο καλύτερος LinearSVC ταξινομητής, με μέθοδο διαχωρισμού των συνόλων εκπαίδευσης - ελέγχου: Shuffle Split, και bigram μοντέλο, παρουσιάζεται στον Πίνακα 24. LinearSVC Twitter ShuffleSplit, n=10, test_size=10% accuracy recall precision f-measure bigram Πίνακας 24: Ο τελικός LinearSVC ταξινομητής (Twitter) Ο τελικός LinearSVC ταξινομητής, με 84.6% ορθότητα και 84.1% στη μετρική F-Measure κατηγοριοποιεί τα μηνύματα από το Twitter. Στην Εικόνα 12, παρατίθεται ο Πίνακας Σύγχυσης του ταξινομητή, για ανάλυση των αποτελεσμάτων της κατηγοριοποίησης. Εικόνα 12: Confusion Matrix του LinearSVC ταξινομητή (Twitter) 75

76 Η μόνη περίπτωση που η αφαίρεση των stopwords, βελτίωσε την απόδοση των ταξινομητών, ήταν στους ταξινομητές με MultinomialNB αλγόριθμο, για την κατηγοριοποίηση των μηνυμάτων του Twitter. Στον πίνακα 25, φαίνεται η βελτίωση του καλύτερου MultinomialNB ταξινομητή, μετά την αφαίρεση των stopwords. MultinomialNB Twitter ShuffleSplit, n=10, test_size=10% accuracy recall precision f-measure unigram stopwords Πίνακας 25: Βελτίωση του MultinomialNB ταξινομητή (Twitter) Τελικά, ο καλύτερος MultinomialNB ταξινομητής, με μέθοδο διαχωρισμού των συνόλων εκπαίδευσης - ελέγχου: Shuffle Split, unigram μοντέλο και αφαίρεση των stopwords παρουσιάζεται στον Πίνακα 26. MultinomialNB Twitter ShuffleSplit, n=10, test_size=10% unigram & stopwords accuracy recall precision f-measure Πίνακας 26: Ο τελικός MultinomialNB ταξινομητής (Twitter) Ο τελικός MultinomialNB ταξινομητής για τα μηνύματα από το Twitter, σημείωσε 82.3% ορθότητα ταξινόμησης και s% στη μετρική F-Measure Στην Εικόνα 13 παρατίθεται ο Πίνακας Σύγχυσης του ταξινομητή για σύγκριση των αποτελεσμάτων της κατηγοριοποίησης. 76

77 Εικόνα 13: Confusion Matrix του MultinomialNB ταξινομητή (Twitter) Η τελική επιλογή ταξινομητή παρουσιάζεται στον Πίνακα 27. Twitter LinearSVC ShuffleSplit, n=10, test_size=10% accuracy recall precision f-measure bigram Πίνακας 27: Η τελική επιλογή ταξινομητή για το σύνολο Twitter Συμπεραίνουμε, πως η τελική επιλογή για την κατηγοριοποίηση συναισθήματος, των μηνυμάτων από το Twitter, με 84.6% ορθότητα ταξινόμησης είναι: Ταξινομητής με αλγόριθμο LinearSVC o Shuffle Split, n=10, test size=10% Bigram 77

78 5.4 Ενσωμάτωση του SentiWordNet 3.0 στην ταξινόμηση των δεδομένων από το Twitter Στην ενότητα 4.4, περιγράψαμε τον τρόπο με τον οποίο μπορούμε να αξιοποιήσουμε τη γλωσσολογική ανάλυση των κειμένων, και τη χρήση του λεξικού πόρου SentiWordNet 3.0, στην κατηγοριοποίηση συναισθήματος μηνυμάτων του Twitter. Για το σκοπό αυτό, δημιουργήσαμε δύο λεξικά για να καθαρίσουμε τα tweets από τα emoticons και τις συντομογραφίες, και στη συνέχεια ορίσαμε μία κλάση σε Python, η οποία πραγματοποιεί γλωσσολογική ανάλυση. Αρχικά, με τη βοήθεια της βιβλιοθήκης ntlk, προσδιορίσαμε τα μέρη του λόγου, στους όρους των κειμένων (POS-tags). Στη συνέχεια, με την ενσωμάτωση του λεξικού SentiWordNet 3.0, αποδόθηκαν οι βαθμολογίες σε κάθε όρο, ανάλογα με την πολικότητα τους. Έχει ήδη αναφερθεί, πως το ολοκληρωμένο μοντέλο κατηγοριοποίησης συναισθήματος, το εφαρμόσαμε μόνο στα δεδομένα του Twitter, για λόγους υπολογιστικής πολυπλοκότητας. Για την εφαρμογή του ολοκληρωμένου μοντέλου θα χρησιμοποιήσουμε τρία μικρότερα σύνολα μηνυμάτων: 1 ο σύνολο: tweets με αναφορές #google, #twitter 2 ο σύνολο: tweets με αναφορές #apple, #google 3 ο σύνολο tweets: tweets με αναφορές #google, #microsoft, #twitter Για την κατασκευή του μοντέλου, θα υιοθετήσουμε τον αλγόριθμο και τις παραμέτρους του μοντέλου που σημείωσε την καλύτερη απόδοση στην κατηγοριοποίηση των μηνυμάτων από το Twitter στην ενότητα 5.3, επομένως θα χρησιμοποιήσουμε: Ταξινομητή με αλγόριθμο LinearSVC o Shuffle Split, n=5, test size=20% Bigram 78

79 Η μόνη αλλαγή, έγινε για λόγους πολυπλοκότητας, και αφορά στη μείωση των συνόλων εκπαίδευσης ελέγχου (n=5, με μέγεθος του συνόλου ελέγχου 20%). Στον Πίνακα 28 παρουσιάζονται τα αποτελέσματα των μετρικών αξιολόγησης για το 1 ο σύνολο των tweets, με αναφορές #google, #twitter. #google #twitter αρχικός ταξινομητής LinearSVC ShuffleSplit, n=5, test_size=20%, bigram accuracy recall precision f-measure ταξινομητής & linguistic class Πίνακας 28: Βελτίωση του ταξινομητή για το 1 ο σύνολο tweets Μετά τη γλωσσολογική ανάλυση και την προσθήκη του λεξικού SentiWordNet 3.0, ο ταξινομητής είχε καλύτερη απόδοση, με ορθότητα 80.8% και F-Measure 86.6%. Στην Εικόνα 14 παρουσιάζονται οι Πίνακες Σύγχυσης για σύγκριση των αποτελεσμάτων των δύο ταξινομητών. Αρχικός Ταξινομητής Ταξινομητής & SentiWordNet 3.0 Εικόνα 14: Confusion Matrices για το σύνολο #google, #twitter 79

80 Στον Πίνακα 29 παρουσιάζονται τα αποτελέσματα των μετρικών αξιολόγησης για το 2 ο σύνολο των tweets, με θέμα #apple, #google. #apple #google αρχικός ταξινομητής LinearSVC ShuffleSplit, n=5, test_size=20%, bigram accuracy recall precision f-measure ταξινομητής & linguistic class Πίνακας 29: Βελτίωση του ταξινομητή για το 2 ο σύνολο tweets Παρόλο που ο αρχικός ταξινομητής, σημείωσε πολύ υψηλές τιμές σε όλες τις μετρικές αξιολόγησης, η ένταξη της γλωσσολογική ανάλυση και η ενσωμάτωση του λεξικού SentiWordNet 3.0, βελτίωσαν κι άλλο την απόδοσή του. Η ορθότητα κατηγοριοποίησης έφτασε το 87.3% και η F-Measure 87.2%. Στην Εικόνα 15, στους Πίνακες Σύγχυσης των δύο ταξινομητών, οπτικοποιούνται τα αποτελέσματα της κατηγοριοποίησης. Αρχικός Ταξινομητής Ταξινομητής & SentiWordNet 3.0 Εικόνα 15: Confusion Matrices για το σύνολο #apple, #google 80

Δείτε περισσότερα