«Μελέτη και αξιολόγηση τεχνικών Κατηγοριοποίησης Συναισθήματος σε σχόλια χρηστών στο Διαδίκτυο»

Σχετικά έγγραφα
Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο

Αλεξάνδρειο ΣΕΙ Θεσσαλονίκης 1. Σμήμα Διοίκησης Επιχειρήσεων 2. Σμήμα Μηχανικών Πληροφορικής

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Opinion Mining

ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ. Διπλωματική Εργασία. μάθησης»

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Διπλωματική Εργασία Αναγνώριση και ταξινόμηση ιστολόγιων. Αναστασιάδης Αντώνιος

Εξόρυξη Γνώσης από Βιολογικά εδομένα

Τίμος Κουλουμπής. Τμήμα Μηχανικών Πληροφοριακών & Επικοινωνιακών Συστημάτων, Πανεπιστήμιο Αιγαίου

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

Εκπαίδευση ταξινοµητών κειµένου για το χαρακτηρισµό άποψης. Ειρήνη Καλδέλη ιπλωµατική Εργασία. Περίληψη

Opinion Mining and Sentiment analysis

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

Οικονομικό Πανεπιστήμιο Αθηνών. Διπλωματική Εργασία Μεταπτυχιακού Διπλώματος Ειδίκευσης. Άρης Κοσμόπουλος

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Τεχνικές NLP Σχεδιαστικά Θέματα

Μέθοδοι εκμάθησης ταξινομητών από θετικά παραδείγματα με αριθμητικά χαρακτηριστικά. Νικόλαος Α. Τρογκάνης Διπλωματική Εργασία

Ανάκτηση Πληροφορίας

Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα

Opinion Mining and Sentiment Analysis

Αξιοποίηση κοινωνικών δικτύων στην εκπαίδευση Αλέξης Χαραλαμπίδης Γραφικές Τέχνες / Πολυμέσα Ενότητα Ιανουαρίου 2015

ΚΕΦΑΛΑΙΟ Μηχανική Μάθηση

Γλωσσικη τεχνολογια. Προεπεξεργασία Κειμένου

«Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα»

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

Γ Γυμνασίου: Οδηγίες Γραπτής Εργασίας και Σεμιναρίων. Επιμέλεια Καραβλίδης Αλέξανδρος. Πίνακας περιεχομένων

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Προεπεξεργασία Κειμένου

ΑΝΑΛΥΣΗ ΠΟΙΟΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ. Γεράσιμος Παπαναστασάτος, Ph.D. Αθήνα, Σεπτέμβριος 2016

ΑΝΑΛΥΣΗ ΠΟΙΟΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

ΕΝΙΑΙΟ ΠΛΑΙΣΙΟ ΠΡΟΓΡΑΜΜΑΤΟΣ ΣΠΟΥΔΩΝ

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 11 ο : Αυτόματη παραγωγή περιλήψεων. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

ΔΙΔΑΣΚΑΛΙΑ ΓΝΩΣΤΙΚΗΣ ΣΤΡΑΤΗΓΙΚΗΣ ΓΙΑ ΤΗΝ ΚΑΤΑΝΟΗΣΗ Δρ. Ζαφειριάδης Κυριάκος Οι ικανοί αναγνώστες χρησιμοποιούν πολλές στρατηγικές (συνδυάζουν την

Εξόρυξη Γνώμης: Δημιουργία Ελληνικού Λεξικού Πόρου

ΑΝΑΛΥΣΗ ΠΟΙΟΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Information Extraction

«Αξιολόγηση ατόμων με αφασία για Επαυξητική και Εναλλακτική Επικοινωνία, σύμφωνα με το μοντέλο συμμετοχής»

ΘΕΜΑ 1 Τεχνικές Εξαγωγής Συµφράσεων από εδοµένα Κειµένου και Πειραµατική Αξιολόγηση

Μέθοδοι Μηχανικής Μάθησης στην επεξεργασία Τηλεπισκοπικών Δεδομένων. Δρ. Ε. Χάρου

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ ΑΡΣΗ ΑΜΦΙΣΗΜΙΑΣ ΛΕΞΕΩΝ (ΑΠΟΣΑΦΗΝΙΣΗ ΕΝΝΟΙΑΣ ΛΕΞΕΩΝ) WORD SENSE DISAMBIGUATION

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 2 ο : Βασικές έννοιες. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Αναγνώριση Προτύπων Ι

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΑΣΚΗΣΗ. Δημιουργία Ευρετηρίων Συλλογής Κειμένων

Τεχνικές Εξόρυξης Δεδομένων

Αριστομένης Μακρής. Συστήματα Επιχειρηματικής Ευφυΐας (BI/BA)

1 Συστήματα Αυτοματισμού Βιβλιοθηκών

Γεώργιος Φίλιππας 23/8/2015

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ

ΔΙΟΙΚΗΣΗ ΕΠΙΚΟΙΝΩΝΙΑΣ ΜΕΣΩ ΤΩΝ ΝΕΩΝ ΜΕΣΩΝ

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ

1. Οι Τεχνολογίες της Πληροφορίας και των Επικοινωνιών στην εκπαιδευτική διαδικασία

Διαφάνεια 1.1. Μέρος 1 Εισαγωγή. Κεφάλαιο 1 Εισαγωγή στο ψηφιακό επιχειρείν και το ηλεκτρονικό εμπόριο

Σου προτείνω να τυπώσεις τις επόμενες τέσσερις σελίδες σε ένα φύλο διπλής όψης και να τις έχεις μαζί σου για εύκολη αναφορά.

Πληροφοριακά Συστήματα Διοίκησης

Η γλώσσα των μέσων κοινωνικής δικτύωσης: Υφομετρική ανάλυση με προεκτάσεις στην γλωσσική διδασκαλία

Εργαστήρια Text Mining & Sentiment Analysis με Rapid Miner

Εισαγωγική Επιμόρφωση για την εκπαιδευτική αξιοποίηση ΤΠΕ (Επιμόρφωση Β1 Επιπέδου)

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ

Αναγνώριση Προτύπων - Νευρωνικά ίκτυα

Διακριτικές Συναρτήσεις

«Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα

ΔΙΔΑΚΤΙΚΗ της ΠΛΗΡΟΦΟΡΙΚΗΣ

Αναζητήσεις στο Διαδίκτυο

MBR Ελάχιστο Περιβάλλον Ορθογώνιο (Minimum Bounding Rectangle) Το µικρότερο ορθογώνιο που περιβάλλει πλήρως το αντικείµενο 7 Παραδείγµατα MBR 8 6.

Τεχνητή Νοημοσύνη. 18η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Εκπαιδευτική Μονάδα 10.2: Εργαλεία χρονοπρογραμματισμού των δραστηριοτήτων.

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ. Τεχνολογίες Κοινωνικής Δικτύωσης στην Εκπαίδευση

Εννοιολογική Ομοιογένεια

Αναζητήσεις στο Διαδίκτυο

Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση. Τηλεπισκόπηση 24/6/2013. Τηλεπισκόπηση. Κ. Ποϊραζίδης ΤΑΞΙΝΟΜΗΣΗ ΕΙΚΟΝΑΣ

4.2 Μελέτη Επίδρασης Επεξηγηματικών Μεταβλητών

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος

Κατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών

ΑΝΤΙΚΕΙΜΕΝΟΣΤΡΕΦΗΣ ΑΝΑΛΥΣΗ Επιχειρηματική Μοντελοποίηση. Ιωάννης Σταμέλος Βάιος Κολοφωτιάς Πληροφορική

Ανάκτηση πολυμεσικού περιεχομένου

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. WordNet

Social Media Μέσα Κοινωνικής Δικτύωσης

Διδάσκων : Αργύρης Καραπέτσας Καθηγητής Νευροψυχολογίας Νευρογλωσσολογίας Πανεπιστήμιο Θεσσαλίας

P-Μiner : ιαχείριση Πυλών Καταλόγων (Portals) µε Υποστήριξη ιαδικασιών Εξόρυξης εδοµένων Χρήσης

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΣΧΟΛΗ ΜΗΧΑΝΙΚΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ. Πτυχιακή εργασία

Περιγραφή του εκπαιδευτικού/ μαθησιακού υλικού (Teaching plan)

Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

ΘΕΜΑΤΑ ΑΞΙΟΛΟΓΗΣΗΣ ΚΑΤΑΣΚΕΥΗ ΕΡΩΤΗΣΕΩΝ. Άννα Κουκά

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή

Ερευνητικό ερώτημα: Η εξέλιξη της τεχνολογίας της φωτογραφίας μέσω διαδοχικών απεικονίσεων της Ακρόπολης.

Εννοιολογική χαρτογράφηση: Διδακτική αξιοποίηση- Αποτελέσματα για το μαθητή

Οδηγός. Σχολιασμού. Διπλωματικής Εργασίας

Ανάλυση, Sentiment Analysis, Hybrid Method, SentiWordNet, Word Graphs, Deep Learning, Lexicon Based Approach

Τεχνολογίες Πληροφορικής και Επικοινωνιών (ΤΠΕ) στις Μικρομεσαίες Επιχειρήσεις (ΜΜΕ)

Στο στάδιο ανάλυσης των αποτελεσµάτων: ανάλυση ευαισθησίας της λύσης, προσδιορισµός της σύγκρουσης των κριτηρίων.

«Καθοριστικοί παράγοντες της αποτελεσματικότητας της από στόμα-σε-στόμα επικοινωνίας στις ιστοσελίδες κοινωνικής δικτύωσης»

Διαχείριση Ψηφιακού Περιεχομένου στο Επιχειρησιακό Περιβάλλον

ΓΕΩΓΡΑΦΙΚΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΩΝ ΓΕΩΓΡΑΦΙΚΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΩΝ - ΕΝΟΤΗΤΑ 1 7/4/2013 ΕΝΟΤΗΤΕΣ ΜΑΘΗΜΑΤΟΣ. Ορισμός

Ηλεκτρονικό Επιχειρείν & Νέες Τεχνολογίες για Επιχειρηματικότητα ΔΕΟ45

ΚΕΦΑΛΑΙΟ Εισαγωγή Μεθοδολογία της Έρευνας ΕΙΚΟΝΑ 1-1 Μεθοδολογία της έρευνας.

Έρευνα Μάρκετινγκ Ενότητα 5

ΓΕΩΠΟΝΙΚΗ ΣΧΟΛΗ ΑΠΘ Εργαστήριο Πληροφορικής στη Γεωργία ΠΛΗΡΟΦΟΡΙΚΗ Ι

Transcript:

ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ «ΜΑΘΗΜΑΤΙΚΑ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΚΑΙ ΤΩΝ ΑΠΟΦΑΣΕΩΝ» ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΜΑΘΗΜΑΤΙΚΩΝ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ Διπλωματική Εργασία «Μελέτη και αξιολόγηση τεχνικών Κατηγοριοποίησης Συναισθήματος σε σχόλια χρηστών στο Διαδίκτυο» Δήμου Ελένη Επιβλέπων Καθηγητής Κωτσιαντής Σωτήριος Πάτρα, Φεβρουάριος 2016

Πανεπιστήμιο Πατρών, Τμήμα Μαθηματικών - Τμήμα Μηχανικών Ηλεκτρονικών Υπολογιστών και Πληροφορικής Ελένη Δήμου 2016 Με την επιφύλαξη παντός δικαιώματος 2

Τριμελής Επιτροπή Γράψα Θεοδούλα, Αναπληρώτρια Καθηγήτρια Τμήματος Μαθηματικών, Πανεπιστημίου Πατρών Ράγγος Όμηρος, Επίκουρος Καθηγητής Τμήματος Μαθηματικών, Πανεπιστημίου Πατρών Κωτσιαντής Σωτήριος, Λέκτορας Τμήματος Μαθηματικών, Πανεπιστημίου Πατρών 3

Ευχαριστίες Θα ήθελα να ευχαριστήσω ιδιαιτέρως τον επιβλέποντα καθηγητή μου, κ. Σωτήρη Κωτσιαντή, για την καθοδήγησή του στην εκπόνηση της διπλωματικής μου εργασίας. Θα ήθελα επίσης να ευχαριστήσω τα μέλη της τριμελούς επιτροπής, κα. Θεοδούλα Γράψα και τον κ. Όμηρο Ράγγο για την υποστήριξή τους κατά τη διάρκεια των σπουδών μου. Τέλος, ευχαριστώ τη Βασιλική και το Χρήστο για την ουσιαστική βοήθεια που μου προσέφεραν. 4

Περίληψη Η άνθηση του διαδικτύου ανέδειξε νέα εργαλεία επικοινωνίας και διαύλους ανταλλαγής απόψεων. Η ανάγκη αξιοποίησης, μέσω αυτοματοποιημένων τεχνικών, του τεράστιου όγκου δεδομένων σε μορφή κειμένου, οδήγησε στην Εξόρυξη Γνώσης από Κείμενο (Text Mining) και στην Ανάλυση Συναισθήματος (Sentiment Analysis). Στόχος της Ανάλυσης Συναισθήματος, είναι η ανίχνευση της πολικότητας ενός κειμένου, με σκοπό την εξαγωγή της υποκειμενικής άποψης του συγγραφέα, ως προς το θέμα του κειμένου. Στην παρούσα εργασία παρουσιάζεται μία συγκριτική μελέτη μοντέλων κατηγοριοποίησης συναισθήματος, δεδομένων που προέρχονται από ιστοσελίδες κριτικής ταινιών (IMDb, Rotten Tomatoes) και από το Twitter. Δύο αλγόριθμοι, από την Επιβλεπόμενη Μηχανική Μάθηση, αποτελούν τη βάση των ταξινομητών, ο Πολυωνυμικός «Αφελής» Bayes (Multinomial Naive Bayes) και οι Μηχανές Διανυσμάτων Υποστήριξης (SVM). Επιπρόσθετα, διερευνάται η μεταβολή ορισμένων παραμέτρων, με σκοπό τη βελτίωση της απόδοσης των μοντέλων. Τέλος, προτείνεται η ενσωμάτωση του λεξικού πόρου SentiWordNet 3.0, στο μοντέλο ταξινόμησης των δεδομένων από το Twitter, σε συνδυασμό με τον καθαρισμό των tweets και τη γλωσσολογική ανάλυση των μηνυμάτων, καθώς οδηγεί σε περαιτέρω βελτίωση του ταξινομητή. Τα μοντέλα κατηγοριοποίησης συναισθήματος υλοποιούνται στο προγραμματιστικό περιβάλλον της Python. Λέξεις Κλειδιά: Ανάλυση Συναισθήματος, Πολικότητα Κειμένου, Μηχανική Μάθηση, Πολυωνυμικός «Αφελής» Bayes, Μηχανές Διανυσμάτων Υποστήριξης, SentiWordNet 3.0, Python 5

Abstract The Internet bloom revealed new communication tools and channels of opinions exchange. The need to exploit, through automated techniques, the huge amount of data in text format, led to Text Mining and Sentiment Analysis. The Analysis Sentiment aims to detect the polarity of a text, in order to export the subjective opinion of the author on the topic. This paper presents a comparative study of sentiment classification models, on data derived from movie reviews websites (IMDb, Rotten Tomatoes) and from Twitter. In order to build our classifiers, we use two algorithms, from the Supervised Machine Learning (Multinomial Naive Bayes and Support Vector Machines). Moreover, we explore how to improve the effectiveness of the model, by varying certain parameters. Finally, we propose the incorporation of the dictionary SentiWordNet 3.0, along with cleaning tweets and linguistic analysis of messages, as improves the classifier's performance. The sentiment classification models implemented using Python. Key Words: Sentiment Analysis, Text Polarity, Machine Learning, Multinomial Νaive Bayes, Support Vector Machines (SVM), SentiWordNet 3.0, Python 6

Πίνακας Περιεχομένων Τριμελής Επιτροπή... 3 Ευχαριστίες... 4 Περίληψη... 5 Abstract... 6 Πίνακας Περιεχομένων... 7 Κατάλογος Πινάκων... 10 Κατάλογος Εικόνων... 11 1. Εξόρυξη Γνώσης από Κείμενο... 12 1.1 Εισαγωγή... 12 1.2 Ανακάλυψη Γνώσης από Βάσεις Δεδομένων... 13 1.3 Η Διαδικασία της Ανακάλυψης Γνώσης... 15 1.3.1 Επιλογή... 15 1.3.2 Προεπεξεργασία... 16 1.3.3 Μετασχηματισμός... 16 1.3.4 Εξόρυξη γνώσης από δεδομένα... 17 1.3.5 Ερμηνεία και αξιολόγηση... 17 1.4 Εξόρυξη Γνώσης από Κείμενο... 17 1.5 Αναπαράσταση κειμένου... 18 1.5.1 Λογικό Μοντέλο... 19 1.5.2 Μοντέλο Διανυσματικού Χώρου... 19 1.6 Προσεγγίσεις στην Εξόρυξη Γνώσης από Κείμενο... 20 1.6.1 Κατηγοριοποίηση κειμένου... 20 1.6.2 Συσταδοποίηση κειμένου... 21 1.6.3 Εξαγωγή Κανόνων Συσχέτισης... 21 1.6.4 Περίληψη κειμένου... 22 1.6.5 Γλωσσικός Προσδιορισμός... 23 1.6.6 Απόδοση κειμένου σε συγγραφέα... 23 1.6.7 Οπτικοποίηση κειμένου... 23 2. Ανάλυση Συναισθήματος και Εξόρυξη Γνώμης... 24 7

2.1 Εισαγωγή... 24 2.2 Τα επίπεδα της Ανάλυσης Συναισθήματος... 25 2.2.1 Επίπεδο κειμένου... 25 2.2.2 Επίπεδο πρότασης... 25 2.2.3 Επίπεδο οντότητας και χαρακτηριστικών... 26 2.2.4 Λεξικοί πόροι... 26 2.3 Κατηγοριοποίηση Συναισθήματος... 29 2.4 Εφαρμογές της Ανάλυσης Συναισθήματος... 30 2.4.1 Κοινωνικά δίκτυα... 31 2.4.2 Το Twitter... 31 2.4.3 Κριτικές προϊόντων και υπηρεσιών... 32 2.5 Σχετικές εργασίες... 33 3. Προσέγγιση του Προβλήματος... 38 3.1 Εισαγωγή... 38 3.2 «Απλοϊκό» Μοντέλο Bayes... 38 3.2.1 Gaussian Naive Bayes... 41 3.2.2 Multinomial Naive Bayes... 41 3.3 Μηχανές Διανυσμάτων Υποστήριξης... 42 3.3.1 Γραμμική κατηγοριοποίηση... 43 3.3.2 Μη Γραμμική κατηγοριοποίηση... 45 3.4 Μετρικές Αξιολόγησης... 47 4. Μοντέλα Κατηγοριοποίησης Συναισθήματος... 49 4.1 Προγραμματιστικό Περιβάλλον - Python... 49 4.2 Συλλογή δεδομένων... 50 4.2.1 Δεδομένα από Κριτικές Ταινιών... 51 4.2.2 Δεδομένα από το Twitter... 53 4.3 Περιγραφή Μοντέλου Κατηγοριοποίησης... 56 4.3.1 Εισαγωγή των δεδομένων... 56 4.3.2 Αναπαράσταση δεδομένων TF-IDF... 56 4.3.3 Ν-gram και Stopwords... 57 4.3.4 Επιλογή αλγορίθμου... 58 4.4.5 Σύνολα εκπαίδευσης ελέγχου... 58 4.3.6 Αξιολόγηση του μοντέλου... 59 4.4 Γλωσσολογική ανάλυση & SentiWordNet 3.0... 59 5 Πειραματικά Αποτελέσματα... 62 8

5.1 Ταξινομητής για τα δεδομένα από το IMDB... 63 5.2 Ταξινομητής για τα δεδομένα από το RT... 68 5.3 Ταξινομητής για τα δεδομένα από το Twitter... 73 5.4 Ενσωμάτωση του SentiWordNet 3.0 στην ταξινόμηση των δεδομένων από το Twitter... 78 6. Συμπεράσματα... 82 Βιβλιογραφικές Αναφορές... 85 Παράρτημα 1... 89 Παράρτημα 2... 91 Παράρτημα 3... 93 9

Κατάλογος Πινάκων Πίνακας 1: Παράδειγμα κριτικής από την ιστοσελίδα IMDb... 52 Πίνακας 2: Παραδείγματα κριτικών από την ιστοσελίδα Rotten Tomatoes... 53 Πίνακας 3: Παραδείγματα στιγμιοτύπων από τα δεδομένα του Twitter... 54 Πίνακας 4: Αφαίρεση των emoticons από τα tweets... 60 Πίνακας 5: Αφαίρεση των συντομογραφιών από τα tweets... 61 Πίνακας 6: Μετρικές αξιολόγησης 1 ου ταξινομητή (IMDB)... 63 Πίνακας 7: Μετρικές αξιολόγησης 2 ου ταξινομητή (IMDB)... 63 Πίνακας 8: Μετρικές αξιολόγησης 3 ου ταξινομητή (IMDB)... 64 Πίνακας 9: Μετρικές αξιολόγησης 4 ου ταξινομητή (IMDB)... 64 Πίνακας 10: Ο τελικός LinearSVC ταξινομητής (IMDB)... 65 Πίνακας 11: Ο τελικός MultinomialNB ταξινομητής (IMDB)... 66 Πίνακας 12: Η τελική επιλογή ταξινομητή για το σύνολο IMDB... 67 Πίνακας 13: Μετρικές αξιολόγησης 1 ου ταξινομητή (Rotten Tomatoes)... 68 Πίνακας 14: Μετρικές αξιολόγησης 2 ου ταξινομητή (Rotten Tomatoes)... 68 Πίνακας 15: Μετρικές αξιολόγησης 3 ου ταξινομητή (Rotten Tomatoes)... 69 Πίνακας 16: Μετρικές αξιολόγησης 4 ου ταξινομητή (Rotten Tomatoes)... 69 Πίνακας 17: Ο τελικός LinearSVC ταξινομητής (Rotten Tomatoes)... 70 Πίνακας 18: Ο τελικός MultinomialNB ταξινομητής (Rotten Tomatoes)... 71 Πίνακας 19: Η τελική επιλογή ταξινομητή για το σύνολο RT... 72 Πίνακας 20: Μετρικές αξιολόγησης 1 ου ταξινομητή (Twitter)... 73 Πίνακας 21: Μετρικές αξιολόγησης 2 ου ταξινομητή (Twitter)... 73 Πίνακας 22: Μετρικές αξιολόγησης 3 ου ταξινομητή (Twitter)... 74 Πίνακας 23: Μετρικές αξιολόγησης 4 ου ταξινομητή (Twitter)... 74 Πίνακας 24: Ο τελικός LinearSVC ταξινομητής (Twitter)... 75 Πίνακας 25: Βελτίωση του MultinomialNB ταξινομητή (Twitter)... 76 Πίνακας 26: Ο τελικός MultinomialNB ταξινομητής (Twitter)... 76 Πίνακας 27: Η τελική επιλογή ταξινομητή για το σύνολο Twitter... 77 Πίνακας 28: Βελτίωση του ταξινομητή για το 1 ο σύνολο tweets... 79 Πίνακας 29: Βελτίωση του ταξινομητή για το 2 ο σύνολο tweets... 80 Πίνακας 30: Βελτίωση του ταξινομητή για το 3 ο σύνολο tweets... 81 10

Κατάλογος Εικόνων Εικόνα 1: Η διαδικασία Ανακάλυψης Γνώσης από Βάσεις Δεδομένων... 15 Εικόνα 2: To λήμμα sad (SentiWordNet 3.0)... 27 Εικόνα 3: To λήμμα happy (SentiWordNet 3.0)... 28 Εικόνα 4: Γραμμική διάκριση δεδομένων... 43 Εικόνα 5: Το υπερεπίπεδο μέγιστου περιθωρίου ενός SVM... 44 Εικόνα 6: Εφαρμογή συνάρτησης πυρήνα... 46 Εικόνα 7: Το τέχνασμα της συνάρτησης πυρήνα (Kernel Trick)... 46 Εικόνα 8: Confusion Matrix του LinearSVC ταξινομητή (ΙMDB)... 65 Εικόνα 9: Confusion Matrix του MultinomialNB ταξινομητή (ΙMDB)... 66 Εικόνα 10: Confusion Matrix του LinearSVC ταξινομητή (RT)... 70 Εικόνα 11: Confusion Matrix του MultinomialNB ταξινομητή (RT)... 71 Εικόνα 12: Confusion Matrix του LinearSVC ταξινομητή (Twitter)... 75 Εικόνα 13: Confusion Matrix του MultinomialNB ταξινομητή (Twitter)... 77 Εικόνα 14: Confusion Matrices για το σύνολο #google, #twitter... 79 Εικόνα 15: Confusion Matrices για το σύνολο #apple, #google... 80 Εικόνα 16: Confusion Matrices για το σύνολο #google, #microsoft, #twitter.. 81 11

1. Εξόρυξη Γνώσης από Κείμενο 1.1 Εισαγωγή Είναι γεγονός, ότι ο Παγκόσμιος Ιστός, Web 1.0 (1993 - ~2000), αποτέλεσε ένα σημαντικό μέσο διαμοίρασης πληροφοριών και γνώσης, ωστόσο δε διέφερε ουσιαστικά από την προηγούμενη τεχνολογία, του 20ου αιώνα. Ο κυριότερος λόγος, ήταν ο σαφής διαχωρισμός των ρόλων «συγγραφέα» και «αναγνώστη». Η δημοσίευση ή η δημιουργία υλικού ήταν τεχνικά δύσκολη υπόθεση και αφορούσε, σχεδόν αποκλειστικά, λίγους και «μυημένους» χρήστες. Οι περιορισμένες δυνατότητες του Παγκόσμιο Ιστού, Web 1.0, οδήγησαν στον χαρακτηρισμό του ως Read-Only Web. Η δεύτερη εποχή του Παγκόσμιου Ιστού, Web 2.0 (2004 - σήμερα), επέφερε ριζικές αλλαγές, σε τεχνολογικό επίπεδο, στο βαθμό πρόσβασης και συνολικότερα στην αξιοποίηση του Παγκόσμιου Ιστού. Η νέα εποχή του Web 2.0, χαρακτηρίζεται από την εξάπλωση του διαδικτύου, την πληθώρα των διαδικτυακών εφαρμογών, κυρίως όμως από την απίστευτη ευκολία στη δημιουργία περιεχομένου και την αξιοποίηση του Παγκόσμιου Ιστού ως μία πλατφόρμα συνεργασίας και συμμετοχής μεταξύ των χρηστών. Σε αντίθεση με το Web 1.0, την εποχή του Web 2.0 καταργούνται οι ρόλοι «συγγραφέα» και «αναγνώστη». Ο Παγκόσμιος Ιστός πέρασε στην εποχή του Read-Write Web. Οι χρήστες έχουν τη δυνατότητα να παράγουν περιεχόμενο (User Generated Content UGC) και να συμμετέχουν στη συγγραφή ιστοσελίδων, με ποικίλους τρόπους: Wikis, Ιστολόγια (Blogs), Κοινωνικά Δίκτυα (Social Networks), Κριτικές - Αξιολογήσεις (Reviews), Χώροι Συζητήσεων (Discussion Forums). 12

Μολαταύτα, ενώ στις μέρες μας η διαθέσιμη πληροφορία αυξάνεται με ραγδαίους ρυθμούς, την ίδια στιγμή, οι χρήστες αδυνατούν να διαχειριστούν τον τεράστιο όγκο των δεδομένων, έτσι ώστε να αξιοποιήσουν τη διαθέσιμη πληροφορία και να αποκομίσουν γνώση, με αποτέλεσμα να ανακύπτει το πρόβλημα της υπερπληροφόρησης. Η Εξόρυξη Γνώσης από Δεδομένα (Data Mining) παρεμβαίνει, προκειμένου να ικανοποιήσει την ανάγκη των χρηστών για αξιοποίηση της διαθέσιμης πληροφορίας και να αντιμετωπίσει το ζήτημα της υπερπληροφόρησης. Για το λόγο αυτό, η Εξόρυξη Γνώσης από Δεδομένα συχνά ορίζεται ως η εύρεση πληροφοριών που είναι κρυμμένες σε βάσεις δεδομένων. Εναλλακτικά, αποκαλείται Εξερευνητική Ανάλυση Δεδομένων, Ανακάλυψη Καθοδηγούμενη από Δεδομένα και Συμπερασματική Μάθηση. [4] Τέλος, αξίζει να τονίσουμε ότι τα δεδομένα στα οποία επιδιώκουμε να ανακαλύψουμε γνώση, δεν αποτελούν κατ ανάγκη δομημένα δεδομένα (δηλαδή δεδομένα που βρίσκονται αποθηκευμένα σε βάσεις δεδομένων). Εν αντιθέσει, η πλειονότητα των δεδομένων που επεξεργάζονται και αναλύονται, συνιστούν μη δομημένα δεδομένα, όπως για παράδειγμα δεδομένα κειμένων, εικόνων, εγγράφων, ιστοσελίδων. Ειδικότερα, η ανάγκη αξιοποίησης δεδομένων σε μορφή κειμένου, οδήγησε στην ανάπτυξη τεχνικών Εξόρυξη Γνώσης από Κείμενο (Text Mining). 1.2 Ανακάλυψη Γνώσης από Βάσεις Δεδομένων Με τον όρο Ανακάλυψη Γνώσης από Βάσεις Δεδομένων (Knowledge Discovery in Databases - KDD) ορίζεται «η ντετερμινιστική διαδικασία αναγνώρισης έγκυρων, καινοτόμων, ενδεχομένως χρήσιμων και εν τέλει κατανοητών προτύπων στα δεδομένα.» (Frawley, Piatesky-Shaphiro and Matheus, 1991). [8] 13

Η διαδικασία Ανακάλυψης Γνώσης στοχεύει στην ανάδειξη ή/και παραγωγή λειτουργικής γνώσης, μέσω της ανάλυσης βάσεων δεδομένων. Επιπλέον, διερευνά δομές γνώσης, οι οποίες αποκαλύπτουν γνώση που είναι «κρυμμένη» στα δεδομένα και δεν μπορεί να εξαχθούν από το χρήστη (άνθρωπο) με εύκολο τρόπο. Η Ανακάλυψη Γνώσης από Βάσεις Δεδομένων, ή εναλλακτικά Εξόρυξη Γνώσης από Δεδομένα 1 (Data Mining) ή Εξαγωγή Γνώσης (Knowledge Extraction) αποτελεί μια ολοκληρωμένη διαδικασία που περιλαμβάνει την επεξεργασία των δεδομένων, την εφαρμογή των αλγορίθμων ανακάλυψης γνώσης και τέλος την αξιολόγηση και την ερμηνεία των αποτελεσμάτων. Εν κατακλείδι, στόχος της Ανακάλυψης Γνώσης είναι η ανάλυση μεγάλου όγκου πρωτογενών δεδομένων, για την ανάδειξη συγκεκριμένων δομών και σχέσεων ανάμεσά τους, έτσι ώστε τα πρότυπα, οι κανόνες ή/και οι περιορισμοί που θα εξαχθούν από τα δεδομένα, να υποστηρίξουν τον άνθρωπο στη διαδικασία λήψης αποφάσεων. Η Ανακάλυψη Γνώσης έχει εφαρμογές σε πολλούς και διαφορετικούς τομείς. Ενδεικτικά αναφέρονται ορισμένοι: Ανάλυση και Διαχείριση της Αγοράς, Μάρκετινγκ Στόχου, Καθορισμός Προτύπων Συναλλαγών, Cross- Market Ανάλυση, Ανάλυση και Διαχείριση του Κινδύνου, Ανάλυση και Πρόβλεψη Κίνησης Μετρητών, Ανάλυση Χρονοσειρών, Ανάλυση Τάσης, Ανάλυση Ανταγωνισμού, Εντοπισμός και Διαχείριση Οικονομικού Εγκλήματος, Ιατρική Ασφάλιση, Τηλεπικοινωνίες, Ανακάλυψη Ιατρικής και Βιολογικής Γνώσης, Χαρτογράφηση Ανθρώπινου Εγκέφαλου, Δομή Κυττάρου, Ανακάλυψη Αιτιακών σχέσεων, Ανάλυση Ακολουθίας DNA, Αστρονομία, Internet Web Surf-Aid. Ειδικότερα, στον επιχειρηματικό τομέα, η Εξόρυξη Γνώσης από Δεδομένα είναι σε θέση να διαδραματίσει τόσο σημαντικό ρόλο στη διαδικασία λήψης αποφάσεων, ώστε να προσδώσει στην επιχείρηση σημαντικό ανταγωνιστικό πλεονέκτημα. 1 Η Εξόρυξη Γνώσης από Δεδομένα (Data Mining) αποτελεί κεντρική διαδικασία στη διαδικασία Ανακάλυψης Γνώσης από Βάσεις Δεδομένων. Εν τούτοις, ο όρος έχει επικρατήσει να χρησιμοποιείται καταχρηστικά, για να περιγράψει συνολικά τη διαδικασία Ανακάλυψης Γνώσης. [4] 14

1.3 Η Διαδικασία της Ανακάλυψης Γνώσης Η Ανακάλυψη Γνώσης από Βάσεις Δεδομένων είναι «μία διαδραστική και επαναληπτική διαδικασία, αρκετών βημάτων, στην οποία κατά κανόνα, απαιτείται η παρέμβαση του ανθρώπινου παράγοντα (χρήστη) για τη λήψη κρίσιμων αποφάσεων» (Fayyad, Piatesky-Shapiro and Smyth, 1996). [6] Αναλυτικότερα, η διαδικασία Ανακάλυψης Γνώσης αποτελείται από τα παρακάτω στάδια (Εικόνα 1): Εικόνα 1: Η διαδικασία Ανακάλυψης Γνώσης από Βάσεις Δεδομένων 1.3.1 Επιλογή Αρχικό στάδιο στη διαδικασία Ανακάλυψης Γνώσης, αποτελεί η επιλογή (selection) των δεδομένων. Σκοπός είναι η δημιουργία του συνόλου δεδομένων, μέσα από το οποίο θα εξάγουμε την «κρυμμένη» γνώση. Εδώ, συλλέγονται δεδομένα από διάφορες, ετερογενείς πηγές δεδομένων και κατασκευάζεται το σύνολο δεδομένων στο οποίο, εν συνεχεία, θα εφαρμοστεί η αναζήτηση των προτύπων. Το στάδιο της επιλογής είναι πολύ σημαντικό, καθώς καθορίζει την ποιότητα των δεδομένων, που με τη σειρά της επηρεάζει 15

συνολικά την απόδοση της διαδικασίας ανακάλυψης γνώσης και την αξία των αποτελεσμάτων. 1.3.2 Προεπεξεργασία Το δεύτερο βήμα της διαδικασίας είναι η προεπεξεργασία (preprocessing) των δεδομένων. Σκοπός είναι να «καθαριστούν» και να επεξεργαστούν τυχόν λανθασμένα ή ελλιπή δεδομένα, γι αυτό άλλωστε ονομάζεται και στάδιο καθαρισμού των δεδομένων (data cleaning). Αξίζει να τονίσουμε ότι, το βήμα της προεπεξεργασίας των δεδομένων είναι το πιο χρονοβόρο και απαιτητικό στη διαδικασία ανακάλυψης γνώσης, καθώς αποσπά σχεδόν το 50-60% της συνολικής προσπάθειας. Στόχος είναι να περιορίσουμε την προσπάθεια που καταβάλλεται στο βήμα της προεπεξεργασίας, και να αφιερώσουμε περισσότερο χρόνο στο στάδιο της εξόρυξης δεδομένων και της αξιολόγησης ή/και ερμηνείας των αποτελεσμάτων. 1.3.3 Μετασχηματισμός Στην πλειονότητα των περιπτώσεων, τα δεδομένα προέρχονται από διαφορετικές πηγές και είναι απαραίτητο να μετατραπούν σε ένα κοινό σχήμα. Το τρίτο βήμα της διαδικασίας, είναι ο μετασχηματισμός των δεδομένων, ώστε να διευκολύνουν την ανακάλυψη γνώσης. Ο μετασχηματισμός των δεδομένων μπορεί να περιλαμβάνει: τη μείωση του αριθμού των χαρακτηριστικών των δεδομένων (dimensionality reduction), με την επιλογή ορισμένων εξ' αυτών (feature selection, attribute selection), τη μετατροπή συνεχόμενων αριθμητικών τιμών σε διακριτές τιμές, (διακριτοποίηση), την ομοιόμορφη κωδικοποίηση, ίδιας ποιοτικά πληροφορίας. 16

1.3.4 Εξόρυξη γνώσης από δεδομένα Ένα από τα σημαντικότερα στάδια στη διαδικασίας Ανακάλυψης Γνώσης, αποτελεί η Εξόρυξη Γνώσης από Δεδομένα (Data Mining). Κατά τη διάρκεια αυτού του βήματος, εφαρμόζονται οι αλγόριθμοι στα μετασχηματισμένα δεδομένα, για να προκύψουν τα επιθυμητά αποτελέσματα (τα πρότυπα και στη εν συνεχεία το μοντέλο). Οι αλγόριθμοι που θα εφαρμοστούν ποικίλλουν σημαντικά, και εν τέλει επιλέγονται βάσει του είδους της εξόρυξης που επιχειρείται. 1.3.5 Ερμηνεία και αξιολόγηση Τελευταίο στάδιο στη διαδικασία Ανακάλυψης Γνώσης, αποτελεί η ερμηνεία και αξιολόγηση (Interpretation / Evaluation) του μοντέλου. Τα πρότυπα που προκύπτουν από τη διαδικασία ανακάλυψης γνώσης, θα πρέπει να είναι χρήσιμα και κατανοητά. Κρίσιμο σημείο, αποτελεί η παρουσίαση των αποτελεσμάτων, καθώς μπορεί να επηρεάσει το βαθμό χρησιμότητας και κατανόησής τους. Συνήθη πρακτική συνιστά, η παρουσίαση των αποτελεσμάτων, να συνδυάζεται με την οπτικοποίηση των προτύπων ή/και των δεδομένων (pattern / data visualization) που περιγράφονται στο μοντέλο και την ενσωμάτωση γραφικών διεπαφών χρήστη (GUI), ώστε να παρουσιάζονται με μεγαλύτερη ευκρίνεια οι εξαγόμενες πληροφορίες. 1.4 Εξόρυξη Γνώσης από Κείμενο Αναμενόμενη εξέλιξη, σε συνέχεια της «Ανακάλυψης γνώσης από βάσεις δεδομένων (KDD)» και της Εξόρυξης Γνώσης από Δεδομένα (Data Mining), αποτέλεσαν η ανάπτυξη διαδικασιών για την «Ανακάλυψη γνώσης 17

από κείμενο (Knowledge Discovery in Text - KDT)» και η Εξόρυξη Γνώσης από Κείμενο (Text Mining). Ήταν λογικό, να γεννηθεί η ανάγκη αξιοποίησης, του τεράστιου όγκου δεδομένων σε μορφή κειμένου, με αυτόματο τρόπο. Πρακτικά, κατά την Εξόρυξη Γνώσης από Κείμενο, επιδιώκεται η εξόρυξη προτύπων, σε μη δομημένα κείμενα. [7] Η Εξόρυξη Γνώσης από Κείμενο συνδυάζει τεχνικές από την Εξόρυξη Γνώσης από Δεδομένα, τη Μηχανική Μάθηση, τη Στατιστική, την Επεξεργασία Φυσικής Γλώσσας, την Ανάκτηση Πληροφορίας, την Εξαγωγή Πληροφορίας και τη Διαχείριση Γνώσης. [7], [20] Είναι σημαντικό να διευκρινιστεί ότι η Εξόρυξη Γνώσης από Κείμενο, βοηθά τους χρήστες να εξάγουν, με αυτόματο τρόπο, την επιθυμητή, «νέα», «άγνωστη» πληροφορία, κυρίως μέσω του συνδυασμού τεχνικών και αλγορίθμων της μηχανικής μάθησης και δεν πρέπει σε καμία περίπτωση να συγχέεται με την αναζήτηση πληροφορίας μέσω του διαδικτύου. Η ειδοποιός διαφορά έγκειται στο ότι, κατά την «απλή» αναζήτηση μέσω του διαδικτύου, ο χρήστης αναζητά κάτι, που είναι a priori γνωστό. Εν αντιθέσει, μέσω της Εξόρυξης Γνώσης από Κείμενο, ο χρήστης επιδιώκει την αναζήτηση και ανακάλυψη «νέας» πληροφορίας. 1.5 Αναπαράσταση κειμένου Πριν συνεχίσουμε με την παρουσίαση των βασικότερων μεθόδων Εξόρυξης Γνώσης από Κείμενο, κρίνεται σκόπιμο να αναφερθούμε στον τρόπο με τον οποίο αναπαρίσταται ένα κείμενο κατά τη διαδικασία της εξόρυξης. Η δυσκολία αναπαράστασης ενός κειμένου, οφείλεται κυρίως στο ότι τα κείμενα, δεν έχουν εκ τω προτέρων ορισμένη δομή. Αντιμετωπίζουμε ένα κείμενο, σαν μία «σακούλα λέξεων» (bag of words), στην οποία «τοποθετούνται» όλοι οι όροι (λέξεις) που εμφανίζονται στο κείμενο. Ο δημοφιλέστερος τρόπος αναπαράστασης κειμένου, είναι η διανυσματική αναπαράσταση (vector representation). Κατά τη διανυσματική 18

αναπαράσταση, κάθε κείμενο απεικονίζεται ως ένα διάνυσμα όρων (term vector), και κάθε όρος συνιστά ένα μοναδικό ανεξάρτητο χαρακτηριστικό (feature). Σε κάθε στοιχείο του διανύσματος αποδίδεται μια τιμή, η οποία εκφράζει / περιγράφει την εμφάνιση του όρου μέσα στο κείμενο. 1.5.1 Λογικό Μοντέλο Το Λογικό Μοντέλο (Boolean Model) αναπαράστασης, εστιάζει στην εμφάνιση ή την απουσία ενός όρου από το κείμενο. Κάθε κείμενο αναπαρίσταται από ένα σύνολο λογικών τιμών. Η τιμή 1, δίνεται κατά κανόνα, για να εκφράσει την εμφάνιση ενός συγκεκριμένου όρου στο κείμενο, ενώ η τιμή 0, ως επί το πλείστον, υποδηλώνει την απουσία του συγκεκριμένου όρου από το κείμενο. Ενώ το λογικό μοντέλο αναπαράστασης παρουσιάζει κάποια ισχυρά πλεονεκτήματα (για παράδειγμα είναι κατανοητό και έχει ικανοποιητικό χρόνο αναζήτησης), εν τούτοις εμφανίζει ένα σημαντικό μειονέκτημα. Το συγκεκριμένο μοντέλο, δεν μπορεί να εκφράσει το κατά πόσο είναι πραγματικά σημαντική η παρουσία ενός συγκεκριμένου όρου σε ένα κείμενο. 1.5.2 Μοντέλο Διανυσματικού Χώρου Το Μοντέλο Διανυσματικού Χώρου (Vector Space Model -VSM) αναπαριστά τα κείμενα ως διανύσματα σε ένα πολυδιάστατο Ευκλείδειο χώρο. Στο Μοντέλο Διανυσματικού Χώρου, οι όροι του κειμένου, αποτελούν τα χαρακτηριστικά του κειμένου. Κατά την αναπαράσταση ενός κειμένου, κάθε άξονας στο χώρο αντιστοιχεί σε ένα χαρακτηριστικό του κειμένου. Η συντεταγμένη κάθε διανύσματος περιγράφει την εμφάνιση του συγκεκριμένου χαρακτηριστικού στο κείμενο. Το σημαντικό πλεονέκτημα του Μοντέλου Διανυσματικού Χώρου είναι, ότι η συντεταγμένη κάθε διανύσματος εκφράζει το βάρος του όρου στο κείμενο και αποτυπώνει το πόσο σημαντικός θεωρείται ο όρος στο συγκεκριμένο κείμενο. Τα βάρη που χρησιμοποιούνται για κάθε χαρακτηριστικό, είναι πραγματικές τιμές και μπορεί να είναι είτε απλά η 19

συχνότητα εμφάνισης της λέξης, είτε άλλες τιμές που θα αναλύσουμε σε επόμενο κεφάλαιο, όπως για παράδειγμα η στάθμιση TF-IDF. 1.6 Προσεγγίσεις στην Εξόρυξη Γνώσης από Κείμενο Η Εξόρυξη Γνώσης από Κείμενο, κατά κανόνα, προσεγγίζεται από μεθόδους και αλγορίθμους της Μηχανικής Μάθησης. Κάποιες από τις τεχνικές Εξόρυξης Γνώσης από Κείμενο, αλλά και οι σημαντικότερες μέθοδοι Μηχανικής Μάθησης που χρησιμοποιούνται στην εξόρυξη κειμένου παρουσιάζονται στη συνέχεια του κεφαλαίου 1.6.1 Κατηγοριοποίηση κειμένου Ορισμός: «Δεδομένης μίας βάσης δεδομένων πλειάδων και ένα σύνολο από κατηγορίες C, το πρόβλημα της κατηγοριοποίησης είναι να ορίσουμε μία απεικόνιση όπου κάθε εκχωρείται σε μία κατηγορία. Μία κατηγορία ή κλάση,, περιέχει ακριβώς αυτές τις πλειάδες όπου έχουν απεικονιστεί σε αυτή, δηλαδή». (Dunham, 2003) [4] Η κατηγοριοποίηση / ταξινόμηση κειμένου (text classification) αποδίδει τα δεδομένα σε προκαθορισμένες κατηγορίες / κλάσεις. Ανήκει στις επιβλεπόμενες μεθόδους μηχανικής μάθησης, επειδή οι κατηγορίες είναι εκ των προτέρων καθορισμένες, πριν ακόμη εξεταστούν τα δεδομένα. Στην κατηγοριοποίηση, ένα σύνολο εκπαίδευσης (training set), χρησιμοποιείται για να εκπαιδεύσει το μοντέλο κατηγοριοποίησης, μέσω στατιστικής ανάλυσης 20

λεκτικών προτύπων. Τέλος, εφαρμόζεται το μοντέλο που αναπτύχθηκε, στην ταξινόμηση του συνόλου ελέγχου (test set) και αξιολογείται η απόδοσή του. 1.6.2 Συσταδοποίηση κειμένου Ορισμός: «Δοθείσης μίας βάσης δεδομένων που αποτελείται από πλειάδες και μίας ακέραιας τιμής, το πρόβλημα της συσταδοποίησης είναι να οριστεί μία αντιστοίχιση όπου κάθε ανατίθεται σε μία πλειάδα. Μία συστάδα,, περιέχει ακριβώς εκείνες τις πλειάδες που της ανατέθηκαν, δηλαδή». (Dunham, 2003) [4] Η συσταδοποίηση / ομαδοποίηση κειμένου (text clustering) είναι παρόμοια με την κατηγοριοποίηση κειμένου, ωστόσο παρουσιάζει μία ουσιαστική διαφορά. Όπως και στην κατηγοριοποίηση, έτσι και στη συσταδοποίηση τα δεδομένα οργανώνονται σε ομάδες. Όμως, ενώ στην κατηγοριοποίηση οι ομάδες (κλάσεις) είναι εκ των προτέρων καθορισμένες, στη συσταδοποίηση οι ομάδες (συστάδες) δεν είναι προκαθορισμένες. Για το λόγο αυτό, ανήκει στις μη επιβλεπόμενες μεθόδους μηχανικής μάθησης. Η συσταδοποίηση των δεδομένων επιτυγχάνεται, εντοπίζοντας την ομοιότητα των δεδομένων βάσει των χαρακτηριστικών που ενυπάρχουν σε αυτά. 1.6.3 Εξαγωγή Κανόνων Συσχέτισης Ορισμός: «Με δεδομένο ένα σύνολο από στοιχεία και μία βάση δεδομένων από συναλλαγές, όπου και, ένας κανόνας συσχέτισης (association rule) είναι ένα επαγωγικό συμπέρασμα της μορφής, όπου είναι σύνολα στοιχείων που ονομάζονται στοιχειοσύνολα». (Dunham, 2003) [4] 21

Ορισμός: «Η υποστήριξη (support s) για έναν κανόνα συσχέτισης είναι το ποσοστό των συναλλαγών στη βάση δεδομένων που περιέχουν το». (Dunham, 2003) [4] Ορισμός: «Η εμπιστοσύνη ή η ισχύς (confidence, strength α) για έναν κανόνα συσχέτισης είναι το κλάσμα των συναλλαγών που περιέχουν το προς τον αριθμό των συναλλαγών που περιέχουν το». (Dunham, 2003) [4] Οι κανόνες συσχέτισης (association rules) είναι κατάλληλοι για την εύρεση συσχετίσεων μεταξύ αντικειμένων. Ένας κανόνας συσχέτισης μεταξύ δύο αντικειμένων Α και Β δηλώνει πως η εμφάνιση του Α, σε κάποιο στιγμιότυπο του προβλήματος, συνεπάγεται και την εμφάνιση του Β, στο ίδιο στιγμιότυπο του προβλήματος και συμβολίζεται με A B. Η αξιολόγηση και ερμηνεία των κανόνων συσχέτισης που προκύπτουν από την εφαρμογή του μοντέλου, επιτυγχάνεται με την εφαρμογή δύο συντελεστών: της υποστήριξης s και της εμπιστοσύνης α. 1.6.4 Περίληψη κειμένου Η εξαγωγή της περίληψης (summarization) ενός κειμένου, έχει ως στόχο τη μείωση του μεγέθους του κειμένου, παράλληλα με τη διατήρηση του κεντρικού νοήματος του περιεχομένου του. Κατά την εξαγωγή της περίληψης, παρέχεται η δυνατότητα στο χρήστη να καθορίσει διάφορες παραμέτρους, όπως το πλήθος των λέξεων που θα εξαχθούν ή το ποσοστό, επί του συνολικού κειμένου, που θα περιλαμβάνεται την περίληψη. 22

1.6.5 Γλωσσικός Προσδιορισμός Η τεχνική του γλωσσικού προσδιορισμού ενός κειμένου (language identification), έχει στόχο να προσδιορίσει τη γλώσσα στην οποία είναι γραμμένο ένα κείμενο. Επιπλέον, εάν ένα κείμενο είναι γραμμένο σε περισσότερες από μία γλώσσες, μας παρέχει τη δυνατότητα να υπολογίσουμε το ποσοστό του κειμένου, που είναι γραμμένο σε κάθε γλώσσα. 1.6.6 Απόδοση κειμένου σε συγγραφέα Η τεχνική της απόδοσης κειμένου σε συγγραφέα, στοχεύει στον προσδιορισμό του συγγραφέα ενός κειμένου. 1.6.7 Οπτικοποίηση κειμένου H oπτικοποίηση (visualization) ενός κειμένου, έχει στόχο τη γραφική απεικόνιση ενός συνόλου κειμένων. Η τεχνική αυτή, χρησιμοποιεί την εξαγωγή χαρακτηριστικών γνωρισμάτων και το ευρετήριο κεντρικών όρων, για να πραγματοποιήσει τη γραφική αναπαράσταση των κειμένων. Με την ολοκλήρωση της οπτικοποίησης του κειμένου, ο χρήστης είναι σε θέση να αναγνωρίσει τα κύρια θέματα, τις βασικές έννοιες των κειμένων, αλλά και τη βαρύτητά τους, μέσω της αναπαράστασης (για παράδειγμα η σημασία αποδίδεται με το μέγεθος στη γραφική απεικόνιση). 23

2. Ανάλυση Συναισθήματος και Εξόρυξη Γνώμης 2.1 Εισαγωγή Η Ανάλυση Συναισθήματος (Sentiment Analysis) αποτελεί έναν επιμέρους τομέα της Εξόρυξης Γνώσης από Κείμενο, ο οποίος ασχολείται με την «υπολογιστική ανάλυση των απόψεων, των συναισθημάτων, των εκτιμήσεων, των αξιολογήσεων και των στάσεων των ανθρώπων προς οντότητες, όπως άτομα, προϊόντα, υπηρεσίες, θέματα, γεγονότα, και τα χαρακτηριστικά τους» (Liu, Zhang 2012). [16] Στόχος της Ανάλυσης Συναισθήματος, μέσω της επεξεργασίας Φυσικής Γλώσσας (Natural Language Processing), είναι η ανίχνευση της πολικότητας ενός κειμένου, με σκοπό την εξαγωγή της υποκειμενικής άποψης του συγγραφέα, ως προς το θέμα για το οποίο εκφράζεται. Η Ανάλυση Συναισθήματος εντοπίζει, αν η γνώμη που εκφράζεται στο κείμενο είναι θετικά, αρνητικά ή ουδέτερα διακείμενη στο θέμα. Για το λόγο αυτό, συχνά χρησιμοποιείται ο όρος Εξόρυξη Γνώμης (Opinion Mining), που θεωρείται ταυτόσημος με τον όρο Ανάλυση Συναισθήματος. [24] Το πρόβλημα που επιδιώκει να αντιμετωπίσει η Ανάλυση Συναισθήματος, είναι ένα από τα πιο απλά προβλήματα με τα οποία ασχολείται η Επεξεργασία Φυσικής Γλώσσας. Ο υπολογιστής, δε είναι απαραίτητο να αντιληφθεί πλήρως τη σημασιολογία της κάθε πρότασης, εν τούτοις θα πρέπει να ανιχνεύσει τη συνολική στάση του συγγραφέα ως προς το θέμα και να την ταξινομήσει ως προς την πολικότητά της. Ενώ, οι απαιτήσεις της Ανάλυσης Συναισθήματος, απλοποιούν σημαντικά το επίπεδο της κατανόησης και της επεξεργασίας της φυσικής γλώσσας από τον υπολογιστή, το ζήτημα της ανίχνευσης της πολικότητα, δεν παύει να είναι αρκετά απαιτητικό. 24

2.2 Τα επίπεδα της Ανάλυσης Συναισθήματος Οι προσεγγίσεις του προβλήματος της Ανάλυσης Συναισθήματος, διαφοροποιούνται ως προς το επίπεδο ανάλυσης. 2.2.1 Επίπεδο κειμένου Η Ανάλυση Συναισθήματος σε επίπεδο κειμένου / εγγράφου (document level), εστιάζει στον προσδιορισμό της υποκειμενικής θέσης του συγγραφέα, θετική ή αρνητική, ως προς το θέμα, το οποίο αναλύει στο κείμενο. Κατά κανόνα, επιλέγονται κείμενα που περιλαμβάνουν κρίσεις και απόψεις (opinionated text). Στην ανάλυση σε επίπεδο κειμένου, σημαντικό ρόλο διαδραματίζουν η γραμματική και η συντακτική ανάλυση του κειμένου (Part of Speech tagging POS), οι συντακτικές σχέσεις και το φαινόμενο της άρνησης. [1] 2.2.2 Επίπεδο πρότασης Η Ανάλυση Συναισθήματος σε επίπεδο πρότασης (sentence level), επικεντρώνεται στην ανάλυση της πολικότητας μίας πρότασης. Στόχος είναι, να διαχωριστούν οι προτάσεις που περιέχουν αντικειμενικές θέσεις (objective sentences), από εκείνες που εκφράζουν υποκειμενικές κρίσεις (subjective sentences). Για το λόγο αυτό, η ανάλυση σε επίπεδο πρότασης αναφέρεται και ως υποκειμενική κατηγοριοποίηση (subjectivity classification). Στην ανάλυση σε επίπεδο πρότασης, όπως και στην ανάλυση σε επίπεδο κειμένου, λαμβάνονται υπόψη η γραμματική και συντακτική ανάλυση των λέξεων της πρότασης, το φαινόμενο της άρνησης και η σημασιολογία των λέξεων. [19], [33] 25

2.2.3 Επίπεδο οντότητας και χαρακτηριστικών Η Ανάλυση Συναισθήματος σε επίπεδο οντότητας και χαρακτηριστικών (entity and feature level), αναζητεί τα συναισθήματα και τις απόψεις που εκφράζονται ως προς τις οντότητες αλλά και τα επιμέρους χαρακτηριστικά τους. Κεντρική ιδέα αυτής της ανάλυσης, συνιστά το γεγονός ότι, μία υποκειμενική κρίση, αναλύεται σε δύο μέρη, το συναίσθημα και την οντότητα για την οποία εκφράζεται η κρίση. Συχνά, διερευνώνται και επιπρόσθετοι παράγοντες, όπως το πρόσωπο που εκφράζει την άποψη (opinion holder) αλλά και η χρονική στιγμή της έκφρασης (time). [16] 2.2.4 Λεξικοί πόροι Ανεξαρτήτως της επιλογής του επιπέδου ανάλυσης (επίπεδο κειμένου, επίπεδο πρότασης, επίπεδο οντοτήτων), η πλειονότητα των μοντέλων ανάλυσης συναισθήματος, συνδυάζει μεθόδους της μηχανικής μάθησης, με λεξικούς πόρους, οι οποίοι υπολογίζουν την πολικότητα των λέξεων. Στη συνέχεια της εργασίας, θα αξιοποιηθεί ο λεξικός πόρος SentiWordNet 3.0, για την υλοποίηση μοντέλων κατηγοριοποίησης συναισθήματος. Το SentiWordNet 3.0 [36] είναι ένας λεξιλογικός πόρος, σχεδιασμένος για την υποστήριξη μοντέλων ανάλυσης συναισθήματος. Το λεξικό αξιοποιεί ως βασικό δομικό του στοιχείο, τα σύνολα συνωνύμων (synsets) της λεξιλογικής βάσης δεδομένων WordNet. Στο SentiWordNet 3.0 κάθε σύνολο συνωνύμων, βαθμολογείται ανάλογα με το συναίσθημα που εκφράζει. Ειδικότερα, σε κάθε σύνολο συνωνύμων, αποδίδονται τρεις βαθμολογίες: Pos(s), Neg(s), και Obj(s), οι οποίες περιγράφουν την πολικότητα των όρων του συνόλου (θετική, αρνητική, χωρίς πολικότητα). Το άθροισμα των βαθμολογιών είναι ίσο με τη μονάδα, για κάθε σύνολο συνωνύμων, λόγω της κανονικοποίησής τους στο διάστημα [0,1]. 26

Στις εικόνες που ακολουθούν, παρουσιάζονται δύο στιγμιότυπα του λεξικού SentiWordNet 3.0. Adjective P: 0.125 O: 0.125 N: 0.75 sad#1 01361863 experiencing or showing sorrow or unhappiness; "feeling sad because his dog had died"; "Better by far that you should forget and smile / Than that you should remember and be sad"- Christina Rossetti Feedback on SentiWordNet values: They are OK. Suggest your values.. P: 0 O: 0.75 N: 0.25 sad#2 01366277 of things that make you feel sad; "sad news"; "she doesn't like sad movies"; "it was a very sad story"; "When I am dead, my dearest, / Sing no sad songs for me"- Christina Rossetti Feedback on SentiWordNet values: They are OK. Suggest your values. P: 0 O: 0 N: 1 sorry#2 sad#3 pitiful#2 lamentable#1 distressing#2 deplorable#1 01126841 bad; unfortunate; "my finances were in a deplorable state"; "a lamentable decision"; "her clothes were in sad shape"; "a sorry state of affairs" Feedback on SentiWordNet values: They are OK. Suggest your values.. Εικόνα 2: To λήμμα sad (SentiWordNet 3.0) 2 Για τις λέξεις που ανήκουν σε περισσότερα από ένα σύνολα συνωνύμων (όπως τα παραδείγματα happy και sad ), θα υπολογίζουμε το μέσο όρο των βαθμολογιών, όλων των συνόλων συνωνύμων στα οποία συναντάμε τη λέξη. Η Αποσαφήνιση της Σημασίας των Λέξεων (Word Sense Disambiguation WSD) ξεφεύγει του πλαισίου της εργασίας. 2 http://sentiwordnet.isti.cnr.it/search.php?q=sad 27

Adjective happy#1 01148283 P: 0.875 O: 0.125 N: 0 enjoying or showing or marked by joy or pleasure; "a happy smile"; "spent many happy days on the beach"; "a happy marriage" Feedback on SentiWordNet values: They are OK. Suggest your values. happy#2 felicitous#2 01048406 P: 0.75 O: 0.25 N: 0 marked by good fortune; "a felicitous life"; "a happy outcome" Feedback on SentiWordNet values: They are OK. Suggest your values. happy#3 glad#2 02565583 P: 0.5 O: 0.5 N: 0 eagerly disposed to act or to be of service; "glad to help" Feedback on SentiWordNet values: They are OK. Suggest your values. well-chosen#1 happy#4 01000442 P: 0.125 O: 0.875 N: 0 well expressed and to the point; "a happy turn of phrase"; "a few well-chosen words" Feedback on SentiWordNet values: They are OK. Suggest your values. Εικόνα 3: To λήμμα happy (SentiWordNet 3.0) 3 3 http://sentiwordnet.isti.cnr.it/search.php?q=happy 28

2.3 Κατηγοριοποίηση Συναισθήματος Στην παρούσα εργασία, θα χρησιμοποιήσουμε μεθόδους της επιβλεπόμενης Μηχανικής Μάθησης για την Ανάλυση Συναισθήματος και πιο συγκεκριμένα, θα προσεγγίσουμε το πρόβλημα της Ανάλυσης Συναισθήματος, ως πρόβλημα κατηγοριοποίησης / ταξινόμησης. Κάθε κατηγορία / κλάση αντιπροσωπεύει μία πολικότητα, ένα συναίσθημα. Η Ανάλυση Συναισθήματος μέσω της κατηγοριοποίησης συναισθήματος, διαφέρει από την κατηγοριοποίηση κειμένου. Η κατηγοριοποίηση κειμένου, γνωστή και ως ταξινόμηση κειμένου ή ανίχνευση θέματος, αναφέρεται στην αντιστοίχιση κειμένου φυσικής γλώσσας σε θεματικές κατηγορίες, οι οποίες ανήκουν σε ένα προκαθορισμένο σύνολο. Κατά την κατηγοριοποίηση κειμένου, οι κατηγορίες καθορίζονται βάσει των στόχων του εκάστοτε προβλήματος. Το πλήθος των κατηγοριών μπορεί να ποικίλει σημαντικά, ενώ δεν αποκλείεται σε ορισμένες περιπτώσεις, ένα κείμενο να αντιστοιχηθεί με μία ή περισσότερες επικαλυπτόμενες κλάσεις. Κάτι τέτοιο, δεν συμβαίνει κατά την κατηγοριοποίηση συναισθήματος. Η κατηγοριοποίηση συναισθήματος, κατά κανόνα, αναφέρεται σε ένα μικρό σύνολο κατηγοριών: θετική πολικότητα αρνητική πολικότητα, θετική πολικότητα αρνητική πολικότητα - χωρίς πολικότητα, 1 αστέρι, 2 αστέρια, 3 αστέρια, 4 αστέρια,5 αστέρια. Επιπροσθέτως, λόγω του ότι κατά την κατηγοριοποίηση συναισθήματος, επιδιώκεται η ανάλυση της πολικότητας ενός κειμένου, οι κατηγορίες είναι ανεξάρτητες και αμοιβαία αποκλειόμενες. 29

2.4 Εφαρμογές της Ανάλυσης Συναισθήματος Παρά τη σχετικά πρόσφατη άνθηση του τομέα της υπολογιστικής γλωσσολογικής έρευνας, η Ανάλυση Συναισθήματος έχει αναδυθεί, ως ένας ιδιαίτερα δραστήριος ερευνητικός τομέας, κυρίως λόγω των πολλών και σημαντικών εφαρμογών της. Η ανάλυση κειμένων στο διαδίκτυο, διαδραματίζει σημαντικό ρόλο, τόσο στην κατανόηση των κοινωνικών φαινομένων, όσο και στην αποτύπωση των κοινωνικών τάσεων. Τα αποτελέσματα της Ανάλυσης Συναισθήματος και της Εξόρυξης Γνώμης, συνιστούν αντικείμενο μελέτης και έρευνας πολλών επιστημονικών πεδίων, όπως η οικονομία, η κοινωνιολογία, η πολιτική, η ψυχολογία. Η Ανάλυση Συναισθήματος μπορεί να αναδείξει τη συνολική αντίληψη των χρηστών αναφορικά με ένα θέμα/ζήτημα. Επιπλέον, έχει τη δυνατότητα να αναδείξει ομάδες χρηστών, ανάμεσα στο συνολικό πληθυσμό, να παρατηρήσει τη διαχρονική πορεία και εξέλιξη των ομάδων, ακόμα και να συστήσει ένα προϊόν ή μία δραστηριότητα σε ένα άτομο. Τόσο τα κοινωνικά δίκτυα και τα προσωπικά ιστολόγια (blogs), όσο και οι ομάδες συζητήσεων (discussion forums), εκτός από «χώρους» ανταλλαγής και παράθεσης ιδεών και απόψεων για τους χρήστες, συγκροτούν μία πλούσια πηγή δεδομένων για την Ανάλυση Συναισθήματος και την Εξόρυξη Γνώμης. Αντίστοιχα σημαντική, είναι η αξιοποίηση των κριτικών/αξιολογήσεων των χρηστών, για προϊόντα και υπηρεσίες. Η επεξεργασία και η ανάλυσή τους, αποκρυσταλλώνει τις απόψεις των χρηστών για προϊόντα και υπηρεσίες, οδηγώντας σταδιακά, στην αντικατάσταση των παραδοσιακών δημοσκοπήσεων και ερευνών, μέσω ερωτηματολογίων. Η Εξόρυξη Γνώμης των καταναλωτών/χρηστών, ανακαλύπτει τις ευκαιρίες για την προώθηση νέων προϊόντων/υπηρεσιών και υπογραμμίζει τα περιθώρια βελτίωσης των προϊόντων και υπηρεσιών, που ήδη κυκλοφορούν στην αγορά. Αποσαφηνίζοντας τις τάσεις της αγοράς και τις προτιμήσεις των 30

καταναλωτών, η Εξόρυξη Γνώμης προσφέρει στις επιχειρήσεις, που αξιοποιούν αυτές τις πληροφορίες, σημαντικό ανταγωνιστικό πλεονέκτημα. 2.4.1 Κοινωνικά δίκτυα Σήμερα, τα μέσα κοινωνικής δικτύωσης, αποτελούν ένα ιδιαίτερα δημοφιλές επικοινωνιακό εργαλείο, μεταξύ των χρηστών του διαδικτύου. Ένα κοινωνικό δίκτυο, είναι ένα σύνολο αλληλεπιδράσεων και διαπροσωπικών σχέσεων. Εν τούτοις, καταχρηστικά, ο όρος χρησιμοποιείται για να περιγράψει τις ιστοσελίδες που επιτρέπουν την επαφή, επικοινωνία και αλληλεπίδραση ανάμεσα στους χρήστες. Οι δημοφιλέστερες ιστοσελίδες κοινωνικών δικτύων είναι το Facebook, το Twitter, το Linkedin και το Instagram. Οι ιστοσελίδες κοινωνικής δικτύωσης παρουσιάζουν ομαδοκεντρικό χαρακτήρα και προσφέρουν στους χρήστες μία σειρά από υπηρεσίες, όπως δημιουργία προφίλ, δημοσίευση τοποθετήσεων, κοινοποίηση εικόνων και βίντεο, σχολιασμό και άμεση ανταλλαγή μηνυμάτων. Τα κοινωνικά δίκτυα, ως εικονικές κοινότητες, συνιστούν «χώρους» ανταλλαγής και παράθεσης ιδεών και απόψεων για τους χρήστες, παρέχοντας μία πλούσια πηγή δεδομένων για Ανάλυση Συναισθήματος και Εξόρυξη Γνώμης. Η Εξόρυξη Γνώμης, αναδεικνύει τη συνολική άποψη των χρηστών αναφορικά με ένα θέμα, που συζητείται στα μέσα κοινωνικής δικτύωσης, εντοπίζει ομάδες χρηστών στο γενικό πληθυσμό και μπορεί να συστήσει προϊόντα ή δραστηριότητες στους χρήστες, είτε βάσει των προτιμήσεών τους, είτε με κριτήριο προηγούμενες επιλογές τους. 2.4.2 Το Twitter To Twitter ξεκίνησε τη λειτουργία του το 2006 και συνιστά ένα μέσο κοινωνικής δικτύωσης, που επιτρέπει στους χρήστες να στέλνουν και να διαβάζουν μηνύματα (tweets), περιορισμένου μήκους (μέχρι 140 χαρακτήρες). Τα μηνύματα μπορούν να αναγνωστούν και από μη συνδεδεμένους χρήστες, ωστόσο, μόνο οι συνδεδεμένοι χρήστες μπορούν να δημοσιεύσουν κείμενα 31

στον ιστότοπο. Η υπηρεσία έγινε γρήγορα δημοφιλής και είναι ένας από τους δέκα πιο δημοφιλείς ιστοτόπους του διαδικτύου. Χαρακτηριστικά αναφέρεται ότι: αριθμεί πάνω από 500 εκατομμύρια χρήστες, εκ των οποίων 302 εκατομμύρια χρήστες είναι ενεργοί. [41] Η Ανάλυση Συναισθήματος σε δεδομένα που προέρχονται από κοινωνικά δίκτυα, όπως το Twitter (μικρο-ιστολόγια, micro-blogs), παρουσιάζει περαιτέρω δυσκολίες. Αρχικά, ο περιορισμός των επιτρεπόμενων χαρακτήρων, οδηγεί σε περιεκτικότερα σε νοήματα, μηνύματα (τοποθετήσεις), με αποτέλεσμα να μην είναι εύκολα αντιληπτή η πολικότητα του κειμένου. Εν συνεχεία, το λεξιλόγιο που χρησιμοποιείται στη σύνταξη των μηνυμάτων, προέρχεται ως επί το πλείστον από την καθομιλούμενη γλώσσα. Οι χρήστες, δημιουργούν νέους όρους ή φράσεις (νεολογισμούς) για να εντάξουν νέες έννοιες στο λεξιλόγιό τους, παραλλάσουν λέξεις (συνήθως για να δώσουν έμφαση είτε με την επιμήκυνση φθόγγων είτε με τη χρήση κεφαλαίων γραμμάτων), χρησιμοποιούν emoticons, αλλά και πολλές συντομογραφίες, καθιστώντας δύσκολη την εφαρμογή γλωσσολογικών ή λεξικογραφικών εργαλείων, που στηρίζονται στην επίσημη, γραπτή μορφή της γλώσσας. Τέλος, δεν πρέπει να παραβλέπεται και ο θόρυβος που ενυπάρχει στα μηνύματα, λόγω των ορθογραφικών λαθών. [2], [15] 2.4.3 Κριτικές προϊόντων και υπηρεσιών Η ανάλυση συναισθήματος κειμένων στο διαδίκτυο, διαδραματίζει σημαντικό ρόλο τόσο στην κατανόηση των κοινωνικών φαινομένων, όσο και στην αποτύπωση των κοινωνικών τάσεων. [31] Το διαδίκτυο προωθεί την αλληλεπίδραση των χρηστών, και την ανταλλαγή πληροφοριών και απόψεων, για προϊόντα ή υπηρεσίες, κυρίως μέσω κριτικών ή/και αξιολογήσεων. Η ανάλυση της πολικότητας των κριτικών, είναι ιδιαίτερα σημαντική, καθώς οι χρήστες λαμβάνουν υπόψη τους, τις κριτικές άλλων χρηστών, κατά τη λήψη αποφάσεων.[34] Η ανάλυση της πολικότητας των κριτικών, θα λέγαμε ότι εξυπηρετεί: 32

Τόσο τους καταναλωτές, παρέχοντάς τους τις απαραίτητες πληροφορίες, ώστε να καθορίσουν τις αποφάσεις και τις αγορές τους, Όσο και τις επιχειρήσεις, δίνοντάς τους τη δυνατότητα να παρακολουθούν την πορεία προϊόντων ή υπηρεσιών τους στην αγορά, και να ενημερώνονται για τις επιδόσεις των ανταγωνιστών. Η σημασία της ανάλυσης της πολικότητας κριτικών προϊόντων ή υπηρεσιών, υπογραμμίζεται από το πλήθος των εταιρειών, που επενδύουν σημαντικά στην Εξόρυξη Γνώμης, τόσο από τα κοινωνικά μέσα δικτύωσης, όσο και από ιστοτόπους κριτικών / αξιολογήσεων. 2.5 Σχετικές εργασίες Οι Pang et al. (2002), μελετούν την αποδοτικότητα τεχνικών της επιβλεπόμενης μηχανικής μάθησης, στην κατηγοριοποίηση συναισθήματος. Για τη συγκεκριμένη εργασία, αναλύθηκαν κριτικές ταινιών, από την ιστοσελίδα IMDB. Για το σύνολο δεδομένων τους, επέλεξαν κριτικές, οι οποίες συνοδεύονταν από βαθμολογία του χρήστη (είτε βάσει αστεριών, είτε αριθμητική), έτσι ώστε να αποδοθούν με αυτόματο τρόπο οι κατηγορίες στα στιγμιότυπα. Οι αλγόριθμοι που μελετήθηκαν είναι: Naive Bayes, Μέγιστης Εντροπίας, SVM. Κατά την εκπαίδευση, χρησιμοποίησαν δύο N-gram μοντέλα (unigram, bigram), πειραματίσθηκαν με το πλήθος των χαρακτηριστικών και εξέτασαν, εάν η συχνότητα ή η παρουσία ενός χαρακτηριστικού βελτιώνει την απόδοση του ταξινομητή. Οι ταξινομητές με αλγόριθμο SVM, σημείωσαν την καλύτερη απόδοση. [23] Οι Hu & Liu (2004) προτείνουν μία μέθοδο για την εξαγωγή περίληψης γνώμης, σε επίπεδο χαρακτηριστικών (feature based opinion summarization). Σε πρώτη εργασία τους [13], ασχολούνται με τον εντοπισμό εκείνων των χαρακτηριστικών, για τα οποία οι πελάτες εξέφρασαν τη γνώμη τους (opinion features). Κατόπιν, υπολογίζουν τη συχνότητα με την οποία εμφανίζονται στις 33

κριτικές των πελατών και τα κατατάσσουν αναλόγως. Σε επόμενη εργασία τους [12], προχωρούν την ανάλυση, και αναδεικνύουν σε κάθε κριτική, τις προτάσεις που εκφράζουν είτε θετική, είτε αρνητική γνώμη. Τέλος, συνοψίζουν τη συνολική πολικότητα της κριτικής των πελατών. Οι Ye et al. (2009) ενσωματώνουν τεχνικές της κατηγοριοποίησης συναισθήματος, στην εξόρυξη κριτικών από ταξιδιωτικά ιστολόγια. Ειδικότερα, προχωρούν σε συγκριτική μελέτη τριών αλγορίθμων επιβλεπόμενης μηχανικής μάθησης: του Naive Bayes, των SVM και του character based N- gram μοντέλου (Ν=8), με στόχο την κατηγοριοποίηση κριτικών, σχετικά με επτά δημοφιλής ταξιδιωτικούς προορισμούς. Υπογραμμίζουν τη σημασία των ταξιδιωτικών ιστολογίων, καθώς ασκούν επιρροή στη διαδικασία λήψης αποφάσεων των χρηστών που τα διαβάζουν. Περισσότεροι από τους μισούς καταναλωτές, πραγματοποιούν on-line έρευνα, πριν τις αγορές τους. Συγκεκριμένα, ανάμεσα στα προϊόντα και τις υπηρεσίες, τα ταξίδια σημειώνουν το υψηλότερο ποσοστό στην on-line έρευνα αγοράς, με το 73% των ταξιδιωτών, να αναζητά πληροφορίες στο διαδίκτυο, πριν αποφασίσει τις λεπτομέρειες του ταξιδιού. Τα δεδομένα τα αντλούν από την ταξιδιωτική στήλη της ιστοσελίδας Yahoo.com. Η κάθε κριτική έχει μία αξιολόγηση, βάσει πέντε αστεριών, από τον χρήστη που τη συνέταξε. Με γνώμονα αυτές τις αξιολογήσεις, οι κριτικές με τέσσερα ή πέντε αστέρια θεωρούνται θετικές, ενώ οι κριτικές με ένα ή δύο αστέρια καταχωρούνται ως αρνητικές. Κατά τη διάρκεια της εκπαίδευσης, χρησιμοποιήθηκε η τεχνική της Κ-Fold σταυρωτής επικύρωσης, με K=3. Βάσει της ορθότητας (accuracy) των τριών αλγορίθμων, καλύτερη απόδοση σημείωσαν οι αλγόριθμοι SVM και N-gram. Τέλος, διαπίστωσαν πως οι αποκλίσεις στις αποδόσεις των αλγορίθμων, ήταν πολύ σημαντικές (p<0.01), όταν τα σύνολα εκπαίδευσης αποτελούνται από 100 ή λιγότερα στιγμιότυπα. Στην περίπτωση που τα σύνολα εκπαίδευσης είχαν 500 ή περισσότερα στιγμιότυπα και οι τρεις προσεγγίσεις εμφάνισαν ορθότητα κατηγοριοποίησης πάνω από 80%. [34] Οι Go et al. (2009), επέλεξαν για πρώτη φορά, μηνύματα από το Twitter, ως σύνολο δεδομένων για την κατηγοριοποίηση συναισθήματος, και εφάρμοσαν την τεχνική της εξ αποστάσεως επίβλεψης. Για την ακρίβεια, 34

λόγω του μεγάλου όγκου των μηνυμάτων, ήταν πρακτικά αδύνατο να τοποθετηθούν χειροκίνητα οι κατηγορίες στα στιγμιότυπα. Η τεχνική της εξ αποστάσεως επίβλεψης χαρακτηρίζει ως θετικά ή αρνητικά τα tweets, ανάλογα με τα emoticons (noisy labels) που περιέχουν, διαγράφοντας τα μηνύματα που περιέχουν emoticons και από τις δύο κατηγορίες. Οι αλγόριθμοι που επιλέχθηκαν για την κατηγοριοποίηση συναισθήματος είναι: Naive Bayes, Μέγιστης Εντροπίας, SVM. Κατά την εκπαίδευση, χρησιμοποίησαν δύο N-gram μοντέλα (unigram, bigram), και αξιοποίησαν πληροφορίες των μερών του λόγου (POS tags). Οι ταξινομητές εμφάνισαν ορθότητα πάνω από 80%, με τον αλγόριθμο SVM να σημειώνει την καλύτερη επίδοση. [9] Οι Pak & Paroubek (2010) εξάγουν, με αυτόματο τρόπο, δεδομένα από το Twitter, προχωρούν σε γλωσσολογική ανάλυση των δεδομένων και κατασκευάζουν ταξινομητές συναισθήματος, βάσει του Naive Bayes μοντέλου. Τα δεδομένα διακρίνονται σε τρεις κατηγορίες. Οι δύο πρώτες κατηγορίες αφορούν την πολικότητα των κειμένων, έτσι προκύπτουν οι κατηγορίες: θετικό και αρνητικό συναίσθημα. Η τρίτη κατηγορία, αφορά αντικειμενικά κείμενα, δηλαδή κείμενα χωρίς συναίσθημα. Προκειμένου να εκπαιδεύσουν το μοντέλο ως προς την ουδέτερη κατηγορία, εξάγουν μηνύματα κειμένων από λογαριασμούς δημοφιλών εφημερίδων στο Twitter. Στο στάδιο της εξαγωγής των χαρακτηριστικών, προχωρούν σε αφαίρεση των URL συνδέσεων, των ονομάτων των χρηστών του Twitter (@user), των emoticons και των stopwords. Πειραματίζονται με δύο ταξινομητές, με διαφορετικά χαρακτηριστικά. Ο πρώτος βασίζεται στην εμφάνιση των N-grams, ενώ ο δεύτερος στην γραμματική και συντακτική πληροφορία των κειμένων (ανάλυση των μερών του λόγου (POS tags). Για την αξιολόγηση των ταξινομητών, χρησιμοποιείται η μετρική αξιολόγησης F-measure. [22] Οι O Connor et al. (2010), συνέδεσαν τη μέτρηση της κοινής γνώμης, μέσω σφυγμομετρήσεων, με την ανάλυση συναισθήματος κειμένου. Ανέλυσαν έρευνες εμπιστοσύνης πελατών και έρευνες πολιτικής άποψης, και διαπίστωσαν, ότι συσχετίζονται με τη συχνότητα εμφάνισης 35

«συναισθηματικών» λέξεων στα μηνύματα του Twitter. Σε ορισμένες περιπτώσεις, υπολόγισαν ότι η συσχέτιση ήταν άνω του 80%. [21] Οι Cha et al. (2010), υπογραμμίζουν τη σημασία των κατευθυνόμενων συνδέσεων (directed links), οι οποίες καθορίζουν τη ροή της πληροφορίας, και ως εκ τούτου υποδεικνύουν την επιρροή ενός χρήστη. Στην εργασία τους, συγκρίνουν τρία μέτρα επιρροής ενός χρήστη: το πλήθος των ακολούθων του (indegree), τα retweets και τις αναφορές (mentions). Το πρώτο συμπέρασμα στο οποίο κατέληξαν, ήταν πως η δημοτικότητα ενός χρήστη (high indegree), δεν επηρεάζει, κατ ανάγκη, τα retweets και τις αναφορές. Δεύτερον, χρήστες με μεγάλη επιρροή, πράγματι μπορούν να επηρεάζουν σημαντικά, άλλους χρήστες, σε πληθώρα θεμάτων. Τέλος, η επιρροή ενός χρήστη, δεν είναι δυνατό να αποκτηθεί αυθόρμητα ή τυχαία, παρά μόνο μέσα από συντονισμένη προσπάθεια. [3] Οι Barbosa & Feng (2010), παρουσιάζουν έναν ταξινομητή συναισθήματος για μηνύματα του Twitter, όπου σε πρώτο στάδιο κατηγοριοποιεί τα μηνύματα σε υποκειμενικά και αντικειμενικά, ενώ σε δεύτερο στάδιο διακρίνει τα tweets σε θετικά και αρνητικά. Για τον προσδιορισμό των κατηγοριών των tweets, προτείνουν έναν αυτόματο τρόπο, με χρήση noisy labels, αξιοποιώντας τρεις ιστοσελίδες ανίχνευσης συναισθήματος, ειδικά για μηνύματα του Twitter (Twendz, Twitter Sentiments, Tweet Feel). Επίσης, διακρίνουν τα χαρακτηριστικά των στιγμιοτύπων σε δύο κατηγορίες: τα μετα-χαρακτηριστικά και τα συντακτικά χαρακτηριστικά των tweets. Ο ταξινομητής που προτείνουν, έχει βάση τον αλγόριθμο SVM, και επιτυγχάνει ορθότητα άνω του 80% και στις δύο φάσεις της ταξινόμησης. [2] Οι Kouloumpis et al. (2011), αναλύουν την ενσωμάτωση γλωσσολογικών χαρακτηριστικών, στην κατηγοριοποίηση συναισθήματος. Δημιουργούν τρία σύνολα δεδομένων, που προέρχονται από μηνύματα του Twitter, στα οποία εφαρμόζουν ένα συνδυασμό μηχανικής των χαρακτηριστικών και μεθόδων επιβλεπόμενης μηχανικής μάθησης, για την ανάλυση της πολικότητας (θετικά, αρνητικά, ουδέτερα μηνύματα). Εξετάζουν μία πληθώρα χαρακτηριστικών όπως: N-grams, λεξικοί πόροι, ανάλυση 36

μερών του λόγου (POS tags), ιδιαιτερότητες των μικρο-ιστολογίων. Καταλήγουν στο συμπέρασμα, πως τα N-grams, οι λεξικοί πόροι και τα χαρακτηριστικά των μικρο-ιστολογίων είναι ο καλύτερος συνδυασμός, για ορθότερη κατηγοριοποίηση δεδομένων από το Twitter. [15] Οι Agarwal et al. (2011), διερευνούν τη σημασία του προσδιορισμού της εκ των προτέρων πολικότητας των μερών του λόγου (POS tags), καθώς και την απόδοση ενός Tree Kernel, προκειμένου να αποφευχθεί η ανάγκη εφαρμογής μηχανικής των χαρακτηριστικών. Το σύνολο δεδομένων που χρησιμοποιούν, προέρχεται από μηνύματα του Twitter, ταξινομημένα χειροκίνητα σε τρεις κατηγορίες (θετικά, αρνητικά, ουδέτερα). Η εκ των προτέρων πολικότητα των λέξεων, προσδιορίζεται βάσει του λεξικού Dictionary of Affect in Language και επεκτείνεται με την αξιοποίηση του λεξικού WordNet. Προσεγγίζουν την κατηγοριοποίηση των μηνυμάτων, με δύο διαφορετικούς τρόπους. Πρώτον, ταξινομούν τα θετικά και τα αρνητικά στιγμιότυπα (2 κλάσεις) και δεύτερον αξιοποιούν όλες τις κατηγορίες: θετικά, αρνητικά, ουδέτερα στιγμιότυπα (3 κλάσεις). Σε κάθε κατηγοριοποίηση, χρησιμοποιούν συνδυασμούς δύο μοντέλων, από τα εξής πέντε: Unigram μοντέλο, Tree Kernel μοντέλο, 100 Senti-features μοντέλο, Kernel με Sentifeatures μοντέλο και Unigram με Senti-features μοντέλο. [1] Οι Wang et al. (2014), ερευνούν τη συνεισφορά ομάδων ταξινομητών (ensemble learning) στην ανάλυση συναισθήματος. Συγκεκριμένα, πραγματοποιούν συγκριτική μελέτη τριών ομάδων ταξινομητών: Bagging, Boosting και Random Subspace, βάσει πέντε αλγορίθμων μάθησης: Naive Bayes, Μέγιστης Εντροπίας, Δέντρων Αποφάσεων, Κ-Κοντινότερων Γειτόνων και SVM. Η εφαρμογή των μοντέλων κατηγοριοποίησης, έγινε σε δέκα γνωστά σύνολα δεδομένων και την καλύτερη επίδοση σημείωσε η μέθοδος Random Subspace, με SVM αλγόριθμο. [31] 37

3. Προσέγγιση του Προβλήματος 3.1 Εισαγωγή Στη συνέχεια της εργασίας, για τη μελέτη του προβλήματος της κατηγοριοποίησης συναισθήματος, θα αξιοποιηθούν στατιστικές μέθοδοι που περιλαμβάνουν μοντέλα Bayes και Μηχανές Διανυσμάτων Υποστήριξης (Support Vector Machines SVM). Η προσέγγιση των στατιστικών μεθόδων, είναι η πλέον δημοφιλής στην Ανάλυση Συναισθήματος, χρησιμοποιεί αλγορίθμους Μηχανικής Μάθησης (Machine Learning), σε συνδυασμό με κείμενα, που έχουν κατηγοριοποιηθεί χειροκίνητα, ώστε να εκπαιδεύσει μία μηχανή, με στόχο να μπορεί να αναγνωρίσει την πολικότητα νέων κειμένων. 3.2 «Απλοϊκό» Μοντέλο Bayes Το δημοφιλέστερο μοντέλο για την κατηγοριοποίηση κειμένων, είναι το «απλοϊκό» μοντέλο Bayes (Naive Bayes model). Το συγκεκριμένο μοντέλο, χρησιμοποιεί τον κανόνα του Bayes, για την ανάθεση της κατηγορίας σε ένα στιγμιότυπο του προβλήματος, το οποίο αναπαρίσταται από ένα διάνυσμα χαρακτηριστικών. Το μοντέλο καλείται «απλοϊκό», επειδή υποθέτει την ανεξαρτησία μεταξύ των μεταβλητών των χαρακτηριστικών. Στα μοντέλα Bayes, υπολογίζεται η πιθανότητα κάθε κατηγορίας, με βάση τα δεδομένα, χρησιμοποιώντας τον κανόνα Bayes, προκειμένου να ταξινομηθεί ένα στιγμιότυπο του προβλήματος. 38

Έχοντας δύο τυχαίες μεταβλητές, ο κανόνας του Bayes ορίζει την πιθανότητα να συμβεί, δεδομένου ότι έχει συμβεί, δηλαδή την υπό συνθήκη πιθανότητα ως: Αντιστοίχως, στο πρόβλημα της κατηγοριοποίησης συναισθημάτων, η εκ των υστέρων πιθανότητα να ανατεθεί μία κατηγορία σε ένα στιγμιότυπο, δεδομένων των τιμών του χαρακτηριστικών του, υπολογίζεται ως εξής:, όπου είναι η κατηγορία και παίρνει μία διακριτή τιμή, από το πεπερασμένο σύνολο των δυνατών κατηγοριών, ενώ είναι το διάνυσμα των χαρακτηριστικών. Σύμφωνα με τον κανόνα του Bayes, η πιθανότητα αυτή υπολογίζεται ως εξής: [4] Στον υπολογισμό της παραπάνω πιθανότητας, έγκειται η ανάγκη της διατύπωσης του «απλοϊκού» μοντέλου Bayes. Ο υπολογισμός, για κάθε συνδυασμό των τιμών των χαρακτηριστικών, της συνδυασμένης πιθανότητας, είναι πρακτικά αδύνατος, στην περίπτωση που τα χαρακτηριστικά παίρνουν συνεχείς τιμές ή το πλήθος είναι αρκετά μεγάλο. Η «αφελής» υπόθεση της ανεξαρτησίας, του «απλοϊκού» μοντέλου Bayes, διευκολύνει και απλοποιεί σημαντικά τον υπολογισμό της συνδυασμένης πιθανότητας, υποθέτοντας ότι κάθε χαρακτηριστικό, ως τυχαία μεταβλητή είναι ανεξάρτητο από οποιοδήποτε άλλο χαρακτηριστικό, δεδομένης της κατηγορίας. 39

Αντίστοιχα, απλοποιείται και ο υπολογισμός της εκ των υστέρων πιθανότητας κάθε χαρακτηριστικού, ως εξής: Εν κατακλείδι, το «απλοϊκό» μοντέλο Bayes, για να υπολογίσει την εκ των υστέρων πιθανότητα κάθε κατηγορίας χρειάζεται: την εκ των προτέρων πιθανότητα κάθε κατηγορίας, την πιθανοφάνεια των δεδομένων δεδομένης της κατηγορίας, και την πιθανότητα εμφάνισης των δεδομένων. Ωστόσο, για τον υπολογισμό των πιθανοτήτων πρέπει να γνωρίζουμε την κατανομή των πιθανοτήτων των Η υπόθεση της κατανομής γίνεται στο στάδιο της εκπαίδευσης, όπου και καθορίζονται οι παράμετροι, βάσει των δεδομένων του συνόλου εκπαίδευσης. Η υπόθεση για την κατανομή των χαρακτηριστικών, καλείται «μοντέλο γεγονότων» (event model) του «απλοϊκού» Bayes. [19] Η κατανομή χρησιμοποιείται για τον υπολογισμό των αντίστοιχων πιθανοτήτων του συνόλου ελέγχου. Στη συνέχεια του κεφαλαίου, παρουσιάζονται οι υποθέσεις κανονικής και πολυωνυμικής κατανομής των χαρακτηριστικών. 40

3.2.1 Gaussian Naive Bayes Για τον υπολογισμό των υπό συνθήκη πιθανοτήτων, θα πρέπει να γνωρίζουμε την κατανομή των πιθανοτήτων των Αν τα χαρακτηριστικά των στιγμιοτύπων παίρνουν συνεχείς τιμές, τότε υποθέτουμε κανονική κατανομή για τις πιθανότητες των δεδομένης της κατηγορίας,. Κατά την εκπαίδευση, αρχικά επιλέγουμε για την κατηγορία τα αντίστοιχα στιγμιότυπα που έχουν ταξινομηθεί χειροκίνητα σε αυτή. Εν συνεχεία, από το σύνολο αυτό, για κάθε χαρακτηριστικό, υπολογίζουμε το μέσο όρο των τιμών του, και τη διασπορά και βάσει αυτών προσδιορίζουμε την κανονική κατανομή του χαρακτηριστικού για την κατηγορία. Στο τέλος, για κάθε χαρακτηριστικό και για κάθε κατηγορία, έχουμε μία κανονική κατανομή, η οποία καθορίζει την κατανομή του χαρακτηριστικού για την κατηγορία αυτή. Η πιθανοφάνεια των χαρακτηριστικών κατά τον έλεγχο υπολογίζεται ως εξής: 3.2.2 Multinomial Naive Bayes Αν τα χαρακτηριστικά των στιγμιοτύπων αναπαριστούν συχνότητες γεγονότων, δηλαδή παίρνουν διακριτές τιμές, με πιθανότητες εμφάνισης στην κατηγορία,, τότε υποθέτουμε πολυωνυμική κατανομή. Συνεπώς, υπάρχει ένα πολυώνυμο πιθανοτήτων για κάθε κατηγορία, που εκφράζει την εμφάνιση των γεγονότων σε αυτή την κατηγορία, με συχνότητες. Τα υπολογίζονται από το σύνολο εκπαίδευσης, ως η συχνότητα εμφάνισης του γεγονότος στην κατηγορία ως εξής: 41

Αξίζει να σημειωθεί ότι αν ένας όρος δεν υπάρχει στο σύνολο εκπαίδευσης, ή αν δεν εμφανιστεί στα στιγμιότυπα της κατηγορίας, τότε μηδενίζει την τελική πιθανότητα να αναθέσουμε την κατηγορία αυτή στο στιγμιότυπο, που περιέχει τον όρο κατά τον έλεγχο. Το πρόβλημα που ανακύπτει, αντιμετωπίζεται με την προσθήκη μίας τιμής σε όλες τις πιθανότητες, ώστε καθίσταται αδύνατος ο μηδενισμός τους. Όταν η τιμή που προστίθεται είναι 1, έχουμε Laplace smoothing. Στη συνέχεια της εργασίας, για την κατηγοριοποίηση συναισθήματος, θα χρησιμοποιηθεί το Multinomial Naive Bayes μοντέλο. 3.3 Μηχανές Διανυσμάτων Υποστήριξης Οι Μηχανές Διανυσμάτων Υποστήριξης (Support Vector Machines SVM), είναι μοντέλα εποπτευόμενης μηχανικής μάθησης, που χρησιμοποιούνται τόσο για την κατηγοριοποίηση κειμένων, όσο και για την κατηγοριοποίηση συναισθήματος. Οι Μηχανές Διανυσμάτων Υποστήριξης αποτελούν μη πιθανοτικούς γραμμικούς ταξινομητές, καθώς συνδυάζουν τα γραμμικά μοντέλα, με τεχνικές μάθησης σε στιγμιότυπα. Τα μοντέλα SVM, επιλέγουν έναν μικρό πλήθος στιγμιοτύπων εκπαίδευσης, από κάθε κατηγορία, που ονομάζονται διανύσματα υποστήριξης (support vectors), τα οποία ορίζουν το μέγιστο περιθώριο (margin), μεταξύ των δύο κατηγοριών. Τα διανύσματα υποστήριξης, θα αξιοποιηθούν για την κατασκευή μίας γραμμικής συνάρτησης διάκρισης (discriminant function), η οποία θα διαχωρίσει τα δεδομένα με βέλτιστο τρόπο. Τα μοντέλα κατηγοριοποίησης SVM, είναι από τα δημοφιλέστερα, στην κατηγοριοποίηση συναισθήματος, λόγω της αποτελεσματικότητας, της ταχύτητας, και της ικανότητάς τους να παράγουν µη γραμμικά υπερεπίπεδα 42

απόφασης, καθιστώντας εφικτή την επίλυση προβλημάτων, που δεν είναι δυνατό να επιλυθούν με γραμμικά μοντέλα. Τα μοντέλα SVM, εκτός από την εκτέλεση γραμμικής κατηγοριοποίησης, μπορούν να πραγματοποιήσουν μη γραμμική κατηγοριοποίηση, εφαρμόζοντας το τέχνασμα του πυρήνα (kernel trick), μετασχηματίζοντας το χώρο των χαρακτηριστικών του προβλήματος, σε έναν χώρο μεγαλύτερης διάστασης. 3.3.1 Γραμμική κατηγοριοποίηση Αρχικά, υποθέτουμε πως είναι δυνατή η γραμμική διάκριση των δεδομένων. Χρησιμοποιώντας το μοντέλο διανυσματικής αναπαράστασης των δεδομένων ενός προβλήματος κατηγοριοποίησης κειμένου, το σύνολο n των στιγμιοτύπων εκπαίδευσης, διάστασης, είναι, όπου. Τα είναι τα χαρακτηριστικά του χώρου και ως σημειώνεται η κατηγορία στην οποία ανήκει το κάθε στιγμιότυπο εκπαίδευσης. Με δεδομένη την υπόθεση της γραμμικής διάκρισης των δεδομένων, είναι δυνατός ο υπολογισμός ενός υπερεπιπέδου, που διαχωρίζει με βέλτιστο τρόπο τα διανύσματα υποστήριξης, με εξίσωση:, όπου το κανονικό διάνυσμα του υπερεπιπέδου και η κατακόρυφη απόσταση του υπερεπιπέδου, από την αρχή του συστήματος συντεταγμένων. Εικόνα 4: Γραμμική διάκριση δεδομένων 4 4 Svm separating hyperplanes (SVG) by User: ZackWeinberg, https://commons.wikimedia.org/wiki/file:svm_separating_hyperplanes_(svg).svg#/media/file:svm_se parating_hyperplanes_(svg).svg 43

Στην Εικόνα 4 παρατηρούμε, πως το δε διακρίνει τις κατηγορίες, το τις διακρίνει με μικρό περιθώριο, το τις διακρίνει με μέγιστο περιθώριο. Για κάθε στιγμιότυπο εκπαίδευσης ισχύει:, αν, αν Ισοδύναμα, Τα στιγμιότυπα εκπαίδευσης που ικανοποιούν την ισότητα αυτής της σχέσης, ως σημεία του -διάστατου χώρου των χαρακτηριστικών, θα βρίσκονται: στο υπερεπίπεδο, με κατακόρυφη απόσταση του, από την αρχή του συστήματος συντεταγμένων, στο υπερεπίπεδο, με κατακόρυφη απόσταση του, από την αρχή του συστήματος συντεταγμένων, και είναι τα λεγόμενα διανύσματα υποστήριξης. Εικόνα 5: Το υπερεπίπεδο μέγιστου περιθωρίου ενός SVM 5 5 Svm max sep hyperplane with margin by Cyc - Own work. https://commons.wikimedia.org/wiki/file:svm_max_sep_hyperplane_with_margin.png#/media/file:svm _max_sep_hyperplane_with_margin.png 44

Είναι προφανές, ότι η απόσταση των δύο υπερεπιπέδων και ίση με και βελτιστοποιείται, όταν το ελαχιστοποιηθεί. Η ελαχιστοποίηση του, είναι στην ουσία ένα πρόβλημα τετραγωνικού προγραμματισμού (quadratic programming) και επιλύεται με τη βοήθεια των πολλαπλασιαστών Lagrange. Στην περίπτωση, που δεν ισχύει η αρχική υπόθεση της γραμμικής διάκρισης των κατηγοριών, τότε «χαλαρώνουμε» τους περιορισμούς, επιτρέποντας σε κάποια στιγμιότυπα εκπαίδευσης να βρεθούν μεταξύ των υπερεπιπέδων και. Πιο συγκεκριμένα, η ποσότητα που πρέπει να ελαχιστοποιηθεί είναι ίση με, υπό τον περιορισμό:, με Παρατηρούμε ότι εάν λάβει τιμές μεγαλύτερες του 0, τότε είναι εφικτό κάποια στιγμιότυπα εκπαίδευσης να βρεθούν στην περιοχή του περιθωρίου. Η ανοχή του μοντέλου, στην ύπαρξη στιγμιοτύπων στο περιθώριο, εκφράζεται από την παράμετρο, που ορίζεται από το χρήστη του μοντέλου. Η επιλογή της παραμέτρου, επηρεάζει τη συνολική απόδοση του μοντέλου, καθώς σε μεγάλες τιμές της παραμέτρου, ελλοχεύει ο κίνδυνος του υπερταιριάσματος (overfitting). 3.3.2 Μη Γραμμική κατηγοριοποίηση Στην προηγούμενη παράγραφο, αναλύθηκε η κατηγοριοποίηση κειμένων με μοντέλα SVM, σε δεδομένα, που είτε είναι γραμμικά διακριτά (hard margin), είτε είναι εφικτό να διακριθούν γραμμικά (soft margin). Εν τούτοις, αν ο βέλτιστος τρόπος να διακριθούν τα δεδομένα είναι μη γραμμικά υπερεπίδεδα, τότε κρίνεται καταλληλότερη η χρήση μίας μη γραμμικής διανυσματικής συνάρτησης. Για το σκοπό αυτό, ο χώρος του προβλήματος μετασχηματίζεται, σε έναν άλλο χώρο μεγαλύτερης ή και άπειρης διάστασης μέσω της απεικόνισης. Αν υπάρχει μία συνάρτηση πυρήνα (Εικόνα 6, Εικόνα 7), τέτοια ώστε: 45

τότε μπορεί να αποφευχθεί ο απαιτητικός υπολογισμός του εσωτερικού γινομένου, σε ένα χώρο άπειρων διαστάσεων. Η επιλογή της κατάλληλης συνάρτησης πυρήνα και της απεικόνισης συνιστούν κρίσιμες αποφάσεις, καθώς επηρεάζουν την απόδοση του μοντέλου. Κάποιες από τις συναρτήσεις πυρήνα που χρησιμοποιούνται αρκετά συχνά είναι: Gaussian - Radial Basis Function (RBF): Πολυωνυμική: Σιγμοειδής: Εικόνα 6: Εφαρμογή συνάρτησης πυρήνα 6 Εικόνα 7: Το τέχνασμα της συνάρτησης πυρήνα (Kernel Trick) 7 6 Kernel Machine" by Alisneaky - Own work. https://commons.wikimedia.org/wiki/file:kernel_machine.png#/media/file:kernel_machine.png 46

3.4 Μετρικές Αξιολόγησης Προκειμένου να αξιολογηθεί η επίδοση ενός ταξινομητή, έχει προταθεί πληθώρα μετρικών αξιολόγησης. Στη συνέχεια του κεφαλαίου, παρουσιάζονται οι δημοφιλέστερες μετρικές αξιολόγησης αλγορίθμων μηχανικής μάθησης. Η πιο απλή και αντιπροσωπευτική μετρική είναι η Γενική Ορθότητα Πρόβλεψης. Η ορθότητα (accuracy) υπολογίζεται ως το ποσοστό των στιγμιότυπων του συνόλου ελέγχου που ταξινομήθηκαν στην σωστή κατηγορία. όπου, TP = το πλήθος των στιγμιοτύπων που ανήκουν στην κατηγορία positive και ταξινομήθηκαν στην κατηγορία positive. (σωστή ταξινόμηση) TN = το πλήθος των στιγμιοτύπων που ανήκουν στην κατηγορία negative και ταξινομήθηκαν στην κατηγορία positive. (σωστή ταξινόμηση) FP = το πλήθος των στιγμιοτύπων που ανήκουν στην κατηγορία negative και ταξινομήθηκαν στην κατηγορία positive. (λανθασμένη ταξινόμηση) FN = το πλήθος των στιγμιοτύπων που ανήκουν στην κατηγορία positive και ταξινομήθηκαν στην κατηγορία positive. (λανθασμένη ταξινόμηση) 7 http://www.eric-kim.net/eric-kim-net/posts/1/kernel_trick.html 47

H ευαισθησία ή ανάκληση (sensitivity ή recall) υπολογίζεται ως εξής: Η ακρίβεια (precision) υπολογίζεται ως εξής: H εξειδίκευση (specificity) υπολογίζεται ως εξής: Τέλος, η μετρική F-Measure παρέχει μία συνολική εκτίμηση των μοντέλων, καθώς συνδυάζει δύο άλλες μετρικές, την ανάκληση και την ακρίβεια. Η μετρική F-Measure στην ουσία είναι ο αρμονικός μέσος όρος (harmonic mean) της ανάκλησης και της ακρίβειας, και υπολογίζεται ως εξής: 48

4. Μοντέλα Κατηγοριοποίησης Συναισθήματος 4.1 Προγραμματιστικό Περιβάλλον - Python Η Python, είναι μία υψηλού επιπέδου γλώσσα προγραμματισμού, που δημιούργησε ο Ολλανδός Guido Van Rossum το 1991, το όνομα της οποίας εμπνεύστηκε από την εκπομπή Monty Python s Flying Circus, του BBC. Η φιλοσοφία του Van Rossum ήταν να αναπτύξει μία απλή, αλλά ταυτόχρονα ισχυρή γλώσσα προγραμματισμού, η οποία χαρακτηρίζεται από την αναγνωσιμότητα του κώδικά της, και τη σύνταξή της, η οποία δίνει τη δυνατότητα στους χρήστες, να εκφραστούν με μεγαλύτερη ευελιξία και συντομία, συγκριτικά με άλλες γλώσσες, όπως η C++ ή η Java. [38] Η Python είναι μία διερμηνευόμενη γλώσσα, γεγονός που κάνει τη χρήση της πιο εύκολη, από τη στιγμή που δεν απαιτείται μεταγλώττιση του προγράμματος. Η γλώσσα προγραμματισμού Python, χρησιμοποιεί αποτελεσματικές δομές δεδομένων υψηλού επιπέδου, οι οποίες σε συνδυασμό με τη διερμηνευτική της λειτουργία, αλλά και την αποδοτική αντικειμενοστρεφή της προσέγγιση, την καθιστούν μία από τις δημοφιλέστερες γλώσσες προγραμματισμού. Τέλος, αποτελεί μία επεκτάσιμη και ενσωματώσιμη γλώσσα, η οποία έχει στη διάθεσή της μία μεγάλη βιβλιοθήκη, που της παρέχει τεράστιες δυνατότητες. Τα μοντέλα κατηγοριοποίησης συναισθήματος αυτής της εργασίας, υλοποιήθηκαν σε γλώσσα Python. Η Python, επιλέχθηκε, κυρίως, λόγω της πληθώρας βιβλιοθηκών που υποστηρίζει, πολλές από τις οποίες χρησιμοποιήθηκαν στην υλοποίηση των μοντέλων. Ειδικότερα, διαθέτει βιβλιοθήκες σχεδιασμένες ειδικά για εφαρμογές Επεξεργασίας Φυσικής Γλώσσας (Natural Language ToolKit) και Ανάλυσης Συναισθήματος (SciKit Learn -sklearn). 49

4.2 Συλλογή δεδομένων Η εφαρμογή και η απόδοση ενός μοντέλου κατηγοριοποίησης συναισθήματος, επηρεάζεται σημαντικά, από σύνολο δεδομένων το οποίο μελετάται, και στο οποίο εφαρμόζεται το μοντέλο. Για την καλύτερη διερεύνηση των μοντέλων κατηγοριοποίησης συναισθήματος στο πλαίσιο αυτής της εργασίας, έχουν επιλεγεί σύνολα δεδομένων με διαφορετικά εγγενή χαρακτηριστικά. Δεδομένα που προέρχονται από ιστότοπους κριτικών, διαφέρουν από δεδομένα τα οποία προέρχονται από κοινωνικά δίκτυα, όπως το Twitter. Θα εξετασθούν δύο σύνολα δεδομένων, με κριτικές ταινιών (IMDb, Rotten Tomatoes), και ένα σύνολο δεδομένων με μηνύματα από το Twitter. Η σημαντικότερη διαφορά, έγκειται στο μέγεθος των κειμένων. Οι χρήστες του Twitter, έχουν τον περιορισμό των 140 χαρακτήρων, και υποχρεώνονται στη σύνταξη πιο περιεκτικών μηνυμάτων. Τουναντίον, στις κριτικές ταινιών, οι χρήστες έχουν τη δυνατότητα να αναπτύξουν τη σκέψη και την κριτική τους, χωρίς περιορισμούς στο μέγεθος του κειμένου. Ο περιορισμός της έκτασης του κειμένου στο Twitter, οδηγεί σε μία ακόμη απόκλιση. Οι χρήστες του Twitter, επιλέγουν πολλούς νεολογισμούς, συντομογραφίες, και διάφορα emoticons, ώστε να αποδώσουν με μεγαλύτερη σαφήνεια το μήνυμά τους. Το γεγονός αυτό, έχει ως αποτέλεσμα, συχνά η πολικότητα του μηνύματος να «κρύβεται» σε μία συντομογραφία ή σε ένα emoticon. Από την άλλη μεριά, το περιθώριο σύνταξης μεγαλύτερων κειμένων στις κριτικές ταινιών, δεν αποκλείει τη χρήση νεολογισμών, συντομογραφιών και emoticons. Εν τούτοις, κατά κανόνα, η πολικότητα της κριτικής αναδεικνύεται σε μεγάλο βαθμό και μόνο από το κείμενο. 50

4.2.1 Δεδομένα από Κριτικές Ταινιών Για την κατασκευή μοντέλου κατηγοριοποίησης συναισθήματος, κριτικών ταινιών, χρησιμοποιήθηκαν δύο σύνολα δεδομένων. Το πρώτο σύνολο δεδομένων περιέχει 2000 κριτικές, από το ιστότοπο IMDB (http://www.imdb.com/). Τα δεδομένα έχουν κατηγοριοποιηθεί χειροκίνητα σε δύο κατηγορίες, θετικές και αρνητικές κριτικές. Συνολικά, υπάρχουν 1000 θετικές και 1000 αρνητικές κριτικές. Κάθε μία κριτική, αποτελεί ένα ξεχωριστό αρχείο κειμένου (.txt). Το συγκεκριμένο σύνολο δεδομένων, δημιουργήθηκε για τους σκοπούς της εργασίας των Bo Pang και Lillian Lee, A Sentimental Education: Sentiment Analysis Using Subjectivity Summarization, το 2004. [26] [38] Το δεύτερο σύνολο δεδομένων, περιέχει 10662 κριτικές, από το ιστότοπο Rotten Tomatoes (http://www.rottentomatoes.com/). Συνολικά, υπάρχουν 5331 θετικές και 5331 αρνητικές κριτικές, οι οποίες έχουν κατηγοριοποιηθεί χειροκίνητα. Οι κριτικές είναι αποθηκευμένες σε δύο αρχεία κειμένου, ανάλογα με την πολικότητά τους (pos, neg), τα οποία μπορούν να χειριστούν και ως.csv αρχεία. Το συγκεκριμένο σύνολο δεδομένων, δημιουργήθηκε για τους σκοπούς της εργασίας των Bo Pang και Lillian Lee, Seeing stars: Exploiting class relationships for sentiment categorization with respect to rating scales, το 2005. [25] [40] Στον Πίνακα 1 και στον Πίνακα 2 δίνονται παραδείγματα στιγμιοτύπων των συνόλων δεδομένων, από τις ιστοσελίδες ΙMDb και Rotten Tomatoes αντίστοιχα. 51

Sentiment positive Review films adapted from comic books have had plenty of success, whether they're about superheroes ( batman, superman, spawn ), or geared toward kids ( casper ) or the arthouse crowd ( ghost world ), but there's never really been a comic book like from hell before. for starters, it was created by alan moore ( and eddie campbell ), who brought the medium to a whole new level in the mid '80s with a 12-part series called the watchmen. to say moore and campbell thoroughly researched the subject of jack the ripper would be like saying michael jackson is starting to look a little odd. the book ( or " graphic novel, " if you will ) is over 500 pages long and includes nearly 30 more that consist of nothing but footnotes. in other words, don't dismiss this film because of its source. if you can get past the whole comic book thing, you might find another stumbling block in from hell's directors, albert and allen hughes. getting the hughes brothers to direct this seems almost as ludicrous as casting carrot top in, well, nything, but riddle me this : who better to direct a film that's set in the ghetto and features really violent street crime than the mad geniuses behind menace ii society? the ghetto in question is, of course, whitechapel in 1888 london's east end. it's a filthy, sooty place where the whores ( called " unfortunates " ) are starting to get a little nervous about this mysterious psychopath who has been carving through their profession with surgical precision. when the first stiff turns up, copper peter godley ( robbie coltrane, the world is not enough ) calls in inspector frederick abberline ( johnny depp, blow ) to crack the case. abberline, a widower, has prophetic dreams he unsuccessfully tries to quell with copious amounts of absinthe and opium. upon arriving in whitechapel, he befriends an unfortunate named mary kelly ( heather graham, say it isn't so ) and proceeds to investigate the horribly gruesome crimes that even the police surgeon can't stomach. i don't think anyone needs to be briefed on jack the ripper, so i won't go into the particulars here, other than to say moore and campbell have a unique and interesting theory about both the identity of the killer and the reasons he chooses to slay. in the comic, they don't bother cloaking the identity of the ripper, but screenwriters terry hayes ( vertical limit ) and rafael yglesias ( les mis? rables ) do a good job of keeping him hidden from viewers until the very end. it's funny to watch the locals blindly point the finger of blame at jews and indians because, after all, an englishman could never be capable of committing such ghastly acts. and from hell's ending had me whistling the stonecutters song from the simpsons for days ( " who holds back the electric car/who made steve guttenberg a star? " ). don't worry - it'll all make sense when you see it. now onto from hell's appearance : it's certainly dark and bleak enough, and it's surprising to see how much more it looks like a tim burton film than planet of the apes did ( at times, it seems like sleepy hollow 2 ). the print i saw wasn't completely finished ( both color and music had not been finalized, so no comments about marilyn manson ), but cinematographer peter deming ( don't say a word ) ably captures the dreariness of victorian-era london and helped make the flashy killing scenes remind me of the crazy flashbacks in twin peaks, even though the violence in the film pales in comparison to that in the black-and-white comic. oscar winner martin childs' ( shakespeare in love ) production design turns the original prague surroundings into one creepy place. even the acting in from hell is solid, with the dreamy depp turning in a typically strong performance and deftly handling a british accent. ians holm ( joe gould's secret ) and richardson ( 102 dalmatians ) log in great supporting roles, but the big surprise here is graham. i cringed the first time she opened her mouth, imagining her attempt at an irish accent, but it actually wasn't half bad. the film, however, is all good. 2 : 00 - r for strong violence/gore, sexuality, language and drug content Πίνακας 1: Παράδειγμα κριτικής από την ιστοσελίδα IMDb 52

Sentiment Review negative simplistic, silly and tedious. negative it's so laddish and juvenile, only teenage boys could possibly find it funny. negative exploitative and largely devoid of the depth or sophistication that would make watching such a graphic treatment of the crimes bearable. negative [garbus] discards the potential for pathological study, exhuming instead, the skewed melodrama of the circumstantial situation. positive the rock is destined to be the 21st century's new " conan " and that he's going to make a splash even greater than arnold schwarzenegger, jean-claud van damme or steven segal. positive the gorgeously elaborate continuation of " the lord of the rings " trilogy is so huge that a column of words cannot adequately describe co-writer/director peter jackson's expanded vision of j. r. r. tolkien's middle-earth. positive effective but too-tepid biopic positive if you sometimes like to go to the movies to have fun, wasabi is a good place to start. Πίνακας 2: Παραδείγματα κριτικών από την ιστοσελίδα Rotten Tomatoes Παρατηρούμε, πως οι κριτικές που προέρχονται από την ιστοσελίδα IMDb, είναι πολύ εκτενέστερες, εν συγκρίσει με τις κριτικές που αναρτήθηκαν στη σελίδα Rotten Tomatoes. Στο πρώτη περίπτωση, οι κριτικές αποτελούνται από ολόκληρες παραγράφους, ενώ, αντίθετα, οι κριτικές του δεύτερου συνόλου δεδομένων περιλαμβάνουν, ένα μικρό πλήθος προτάσεων. Διαπιστώνουμε λοιπόν, πως ακόμα και εάν τα σύνολα δεδομένων έχουν το ίδιο περιεχόμενο, είναι πιθανό να εμφανίζουν σημαντικές διαφορές, ως προς τα χαρακτηριστικά τους. 4.2.2 Δεδομένα από το Twitter Το τρίτο σύνολο δεδομένων, που θα χρησιμοποιηθεί, για την υλοποίηση μοντέλου κατηγοριοποίησης συναισθήματος, προέρχεται από μηνύματα που έχουν δημοσιευτεί στο Twitter (https://twitter.com/). Το σύνολο δεδομένων περιέχει 5513 tweets, τα έχουν κατηγοριοποιηθεί χειροκίνητα σε τέσσερις κατηγορίες. 53

Αναλυτικά, κάθε στιγμιότυπο του συνόλου δεδομένων περιλαμβάνει: το θέμα του tweet (#topic), το συναίσθημα του tweet το tweet id, την ημερομηνία του δημοσιεύτηκε το tweet, το κείμενο του tweet. Στον Πίνακα 3, παρουσιάζονται μερικά παραδειγματικά στιγμιότυπα. Topic Sentiment Tweet ID Date Tweet Text apple positive 126395626 979196928 apple negative 126348169 826148352 google neutral 126529468 981452800 google positive 126493648 757071873 microsoft irrelevant 126719569 179054080 microsoft neutral 126789710 705213440 twitter negative 126877245 347348480 Tue Oct 18 20:34:00 +0000 2011 Tue Oct 18 17:25:25 +0000 2011 ","Wed Oct 19 05:25:50 +0000 2011 Wed Oct 19 03:03:30 +0000 2011 Wed Oct 19 18:01:14 +0000 2011 ","","Wed Oct 19 22:39:57 +0000 2011 Thu Oct 20 04:27:47 +0000 2011 I just realized that the reason I got into twitter was ios5 thanks @apple Total chaos at @apple store regent street. Like an Ethiopian feeding station. Can't believe this is same co. that makes all that cool shit #ThatsDisrespectful Like using #Google to search for #Bing I'm an ios user but the #ICS is awesome, great job #google #cuentalaleyenda que #microsoft llego a servir. Ah no! Eso nunca llego a ocurrir I wish there was #Microsoft #PowerPoint for #ipad Twitter, will you please fix this RT problem? twitter neutral 126856541 453291520 Thu Oct 20 03:05:31 +0000 2011 This nigga need to go to #Twitter Jail Πίνακας 3: Παραδείγματα στιγμιοτύπων από τα δεδομένα του Twitter 54

Τα tweets που επεξεργαζόμαστε, αναφέρονται σε τέσσερα θέματα: #topic #apple 1142 #microsoft 1364 #google 1317 #twitter 1290 Επιπλέον, στο συγκεκριμένο σύνολο δεδομένων τα tweets έχουν διακριθεί σε τέσσερις κατηγορίες, ανάλογα με το συναίσθημα που εκφράζουν: sentiment positive 519 neutral 2333 negative 572 irrelevant 1689 Τα tweets μπορούν να διακρίνουμε σε μηνύματα με πολικότητα (positive - negative) και σε μηνύματα χωρίς πολικότητα (neutral - irrelevant). Για τους σκοπούς της εργασίας, θα αγνοήσουμε τα μηνύματα χωρίς πολικότητα και θα εστιάσουμε την ανάλυση στην κατηγοριοποίηση των 1091 μηνυμάτων με θετικό ή αρνητικό συναίσθημα. Η λήψη των δεδομένων, λόγω των περιορισμών της Διεπαφής Προγραμματισμού Εφαρμογών (Application Programming Interface API) του Twitter, διαρκεί περίπου 43 ώρες. Με την ολοκλήρωση της λήψης, τα tweets αποθηκεύονται σε ένα αρχείο.csv. 55

4.3 Περιγραφή Μοντέλου Κατηγοριοποίησης Η υλοποίηση των μοντέλων κατηγοριοποίησης συναισθήματος, έγινε σε προγραμματιστικό περιβάλλον της Python. Παρακάτω, παρουσιάζονται τα βήματα που ακολουθήθηκαν, για την υλοποίηση των μοντέλων, ανάλογα με τις ιδιαιτερότητες τριών συνόλων δεδομένων. 4.3.1 Εισαγωγή των δεδομένων Η εισαγωγή των δεδομένων, εξαρτάται από τον τρόπο που είναι αποθηκευμένα τα δεδομένα. Τα 2000 αρχεία.txt, στα οποία είναι αποθηκευμένες οι κριτικές από τον ιστότοπο IMDB, μπορούμε εύκολα να τα εισάγουμε με τη χρήση της βιβλιοθήκης sklearn. (dataset.load_files). Αντίστοιχα, τα δύο αρχεία.csv, των κριτικών από τον ιστότοπο Rotten Tomatoes και των μηνυμάτων από το Twitter, εισάγονται με τη χρήση της βιβλιοθήκης panda (pd.read_csv). 4.3.2 Αναπαράσταση δεδομένων TF-IDF Στην παράγραφο 1.5.2, μελετήθηκε η αναπαράσταση κειμένων με τη χρήση διανυσμάτων. Κατά την αναπαράσταση των κειμένων, ως επί το πλείστον, το βάρος κάθε όρου, ισούται µε τη συχνότητα εμφάνισης του όρου, στο αντίστοιχο κείμενο. Η επιλογή της συχνότητας, ως στάθμιση, έχει ως αποτέλεσμα, οι όροι με τη μεγαλύτερη συχνότητα, να θεωρούνται ως οι περισσότερο αντιπροσωπευτικοί όροι του κειμένου, λόγω της βαρύτητάς τους. Με αυτή την επιλογή, αποδίδονται υψηλά βάρη σε λέξεις, που απλά είναι περισσότερο χρησιμοποιήσιμες, για παράδειγμα τα stopwords. Μία λύση σε αυτό το πρόβλημα αποτελεί η στάθμιση TF-IDF, όπου TF (Term Frequency) η συχνότητα του όρου, ενώ IDF (Inverse Document Frequency) είναι ένα 56

βάρος που δηλώνει τη σημαντικότητα ενός όρου του κείμενου, σε σχέση με το σύνολο των κειμένων. Η στάθμιση υπολογίζεται από τον πολλαπλασιασμό των TF και IDF. Η στάθμιση TF-IDT, δίνει αρκετά καλά αποτελέσματα, καθώς το βάρος IDF παίρνει μεγάλες τιμές, όταν ένας όρος, υπάρχει σε λίγα κείμενα, ενώ, όταν ο όρος συναντάται σε πολλά από τα κείμενα, τότε το βάρος IDF παίρνει μικρές. τιμές. Με αυτή τη στάθμιση, οι σπάνιοι όροι έχουν υψηλό IDF, και όροι με μεγάλη συχνότητα βαρύνονται με χαμηλότερο IDF. Αυτή η προσέγγιση, έχει ως αποτέλεσμα, τα stopwords να παίρνουν σχετικά μικρό βάρος και να µην αποτελούν πλέον τους πιο αντιπροσωπευτικές όρους στα κείμενα. Η στάθμιση TF-IDT τις περισσότερες φορές, βελτιώνει την απόδοση των μοντέλων, ωστόσο υπάρχουν και κάποιες περιπτώσεις, που έχει τα αντίθετα αποτελέσματα. Μία τέτοια περίπτωση είναι, όταν οι όροι με τις λιγότερες εμφανίσεις στα κείμενα, δεν είναι αντιπροσωπευτικοί των κατηγοριών. Στα μοντέλα που υλοποιούνται στο πλαίσιο της εργασίας, έχει επιλεγεί αναπαράσταση των κειμένων με στάθμιση TF-IDT. Για την αναπαράσταση και TF-IDF στάθμιση των κειμένων, χρησιμοποιήθηκε η βιβλιοθήκη sklearn (feature_extraction.text.tfidfvectorizer). 4.3.3 Ν-gram και Stopwords Κατά την αναπαράσταση των κειμένων, δίνεται η δυνατότητα να ρυθμιστούν κάποιες επιπλέον παράμετροι. Καθοριστική απόφαση, για την απόδοση του μοντέλου, αποτελεί η επιλογή της παραμέτρου N-gram. Η φύση των δεδομένων που θα μελετήσουμε, επιβάλλει την ανάλυση και αναπαράσταση των κειμένων, σε επίπεδο λέξης. Στη συνέχεια, το κατάλληλο εύρος του N- gram, θα διερευνηθεί μέσα από δοκιμές, έτσι ώστε να επιλεγεί εκείνο που βελτιστοποιεί την απόδοση του μοντέλου. Συγκεκριμένα, θα εξεταστούν τρεις περιπτώσεις: 1-gram (unigram), 2-gram (bigram) και 3-gram (trigram). 57

Μία δεύτερη σημαντική απόφαση, αποτελεί η διαχείριση των stopwords. Ως stopwords ορίζουμε τους τερματικούς όρους, δηλαδή τους όρους που δε φέρουν σημασιολογικό περιεχόμενο, όπως για παράδειγμα τα άρθρα. Κατά την υλοποίηση των μοντέλων κατηγοριοποίησης, θα διερευνήσουμε το κατά πόσο η αφαίρεση των stopwords, επηρεάζει την ορθότητα τους. 4.3.4 Επιλογή αλγορίθμου Οι αλγόριθμοι που έχουν επιλεγεί, για την υλοποίηση των μοντέλων, προέρχονται από την επιβλεπόμενη μηχανική μάθηση. Ο Multinomial Naive Bayes και ο αλγόριθμός SVΜ, με γραμμική συνάρτηση πυρήνα, θα αποτελέσουν τη βάση των μοντέλων κατηγοριοποίησης που μελετηθούν στη συνέχεια της εργασίας. Μετά την ολοκλήρωση των μοντέλων, θα πραγματοποιηθεί συγκριτική ανάλυση των αποδόσεών τους, στα τρία σύνολα δεδομένων. Η εισαγωγή των αλγορίθμων γίνεται με τη χρήση της βιβλιοθήκης sklearn (sklearn.naive_bayes.multinomialnb, sklearn.svm.linearsvc). 4.4.5 Σύνολα εκπαίδευσης ελέγχου Ακόμα ένα σημαντικό βήμα, στη δημιουργία ενός ταξινομητή, βάσει αλγορίθμων της επιβλεπόμενης μηχανικής μάθησης, συνιστά ο διαχωρισμός του συνόλου δεδομένων, σε σύνολα εκπαίδευσης και ελέγχου αντίστοιχα. Σε αυτή την εργασία, έχουμε επιλέξει δύο μεθόδους διαχωρισμού των συνόλων δεδομένων. Η πρώτη μέθοδος, είναι η στρωματοποιημένη σταυρωτή επικύρωση (Stratified ΚFold Cross Validation). Στη στρωματοποιημένη σταυρωτή επικύρωση (εδώ, για K=10), σε κάθε αναδίπλωση του συνόλου, διατηρείται η αρχική αναλογία των κατηγοριών. Η δεύτερη μέθοδος, θα χωρίσει με τυχαίο τρόπο (Shuffle Split) το αρχικό σύνολο δεδομένων, σε σύνολα εκπαίδευσης και ελέγχου. Σε αυτό το διαχωρισμό, ο χρήστης ορίζει πόσα ζεύγη συνόλων εκπαίδευσης - ελέγχου θα δημιουργηθούν (εδώ, n=10) και τι ποσοστό από τα αρχικά δεδομένα θα τοποθετείται σε κάθε ένα από τα 58

σύνολα εκπαίδευσης-ελέγχου αντίστοιχα (εδώ, test = 10%). Η βιβλιοθήκη sklearn, υποστηρίζει τις μεθόδους δημιουργίας των συνόλων εκπαίδευσης και ελέγχου, καθώς και τη ρύθμιση των παραμέτρων τους από το χρήστη (cross_validation.shufflesplit και cross_validation.stratifiedkfold). 4.3.6 Αξιολόγηση του μοντέλου Για την αξιολόγηση των μοντέλων κατηγοριοποίησης, έχουν επιλεγεί οι παρακάτω μετρικές: Ορθότητα (Accuracy) Ανάκληση (Recall) Ακρίβεια (Precision) F-Measure Επιπρόσθετα, θα εξάγουμε και τους Πίνακες Σύγχυσης (Confusion Matrices) των ταξινομητών, για την περαιτέρω ερμηνεία των αποτελεσμάτων. 4.4 Γλωσσολογική ανάλυση & SentiWordNet 3.0 Στην παράγραφο 2.2.4, έγινε αναφορά στους λεξικούς πόρους, και την αξιοποίησή τους στην κατηγοριοποίηση συναισθήματος. Το SentiWordNet 3.0 είναι ένας λεξικός πόρος, σχεδιασμένος για την υποστήριξη μοντέλων κατηγοριοποίησης συναισθήματος. [36] Εντάσσοντας το λεξικό στο μοντέλο μας, επιδιώκουμε τη βελτίωση της απόδοσής του, με την αποτελεσματικότερη ανίχνευση της πολικότητας των κειμένων. Στο μοντέλο κατηγοριοποίησης συναισθήματος που κατασκευάζουμε, θα ενσωματώσουμε το λεξικό SentiWordNet 3.0, στην υλοποίηση μία κλάσης σε Python, η οποία θα πραγματοποιεί γλωσσολογική ανάλυση (linguistic analysis) των κειμένων και στη συνέχεια θα βαθμολογεί την πολικότητα τους, βάσει του 59

συγκεκριμένου λεξικού. Στο πλαίσιο της παρούσας εργασίας, η συγκεκριμένη ανάλυση, θα πραγματοποιηθεί μόνο στο τρίτο σύνολο δεδομένων, δηλαδή στα μηνύματα που προέρχονται από το Twitter, κυρίως για λόγους υπολογιστικής πολυπλοκότητας. Όπως αναφέρθηκε στην παράγραφο 2.4.2, τα tweets παρουσιάζουν ιδιαιτερότητες, λόγω του περιορισμού των επιτρεπόμενων χαρακτήρων. Επομένως, παράλληλα με τη γλωσσολογική ανάλυση, τα δεδομένα που προέρχονται από το Twitter, είναι απαραίτητο να υποστούν επιπλέον προεπεξεργασία, πριν προχωρήσουμε στη γλωσσολογική ανάλυση. Σε πρώτη φάση, θα αφαιρεθούν τα emoticons, και θα αντικατασταθούν από λέξεις που εκφράζουν την πολικότητά τους, όπως φαίνεται στον Πίνακα 4. αφαίρεση των emoticons θετικά emoticons αρνητικά emoticons <3 good :/ bad :d good :&gt bad :dd good :dd bad :-) good :') bad :) good :-( bad ;) good :( bad (-: good :S bad (: good :-S bad Πίνακας 4: Αφαίρεση των emoticons από τα tweets Σε δεύτερη φάση, θα αφαιρεθούν οι συντομογραφίες και θα αντικατασταθούν από τις αντίστοιχες λέξεις, όπως φαίνεται στον Πίνακα 5. 60

αφαίρεση των συντομογραφιών r u haha hahaha don't:( won't didn't are you ha ha do not will not did not wouldn't would not Πίνακας 5: Αφαίρεση των συντομογραφιών από τα tweets Με την αφαίρεση των emoticons και των συντομογραφιών, επιδιώκεται η ενίσχυση της γλωσσολογικής ανάλυσης, καθώς αξιοποιούνται περισσότεροι όροι των μηνυμάτων, και δεν χάνεται η πολικότητά τους. Στη συνέχεια, με τη βοήθεια της βιβλιοθήκης ntlk, κάναμε γραμματική και συντακτική ανάλυση των μηνυμάτων (POS-tags). Τέλος, με την ενσωμάτωση του λεξικού SentiWordNet 3.0, υπολογίσουμε τη βαθμολογία της πολικότητας κάθε μηνύματος. Αναλυτικά, θα συμπεριλάβουμε στα χαρακτηριστικά του μοντέλου τα εξής: τη βαθμολογία αντικειμενικότητας τη βαθμολογία θετικής πολικότητας τη βαθμολογία αρνητικής πολικότητας το πλήθος των ουσιαστικών το πλήθος των επιθέτων το πλήθος των ρημάτων το πλήθος των επιρρημάτων το πλήθος των θαυμαστικών το πλήθος των ερωτηματικών το πλήθος των hashtags (#) το πλήθος των αναφορών (@) 61

5 Πειραματικά Αποτελέσματα Στη συνέχεια, παρουσιάζονται τα πειραματικά αποτελέσματα των ταξινομητών που υλοποιήθηκαν, για κάθε σύνολο δεδομένων. Για κάθε σύνολο, παρουσιάζεται ο καλύτερος LinearSVC, ο καλύτερος MultinomialNB ταξινομητής και εν τέλει, η τελική επιλογή ταξινομητή. Σε κάθε σύνολο εφαρμόστηκαν οι παρακάτω δώδεκα δοκιμές των ταξινομητών: Ταξινομητής με αλγόριθμο LinearSVC o StratifiedKFold K=10 Unigram Bigram Trigram o ShuffleSplit, n=10, test size=10% Unigram Bigram Trigram Ταξινομητής με αλγόριθμο MultinomialNB o StratifiedKFold K=10 Unigram Bigram Trigram o ShuffleSplit, n=10, test size=10% Unigram Bigram Trigram Αξίζει να σημειωθεί, ότι στους καλύτερους LinearSVC και MultinomialNB ταξινομητές κάθε συνόλου, διερευνήθηκε η επίδραση της αφαίρεσης των stopwords. Λόγω του ότι, στα δεδομένα των κριτικών ταινιών, η αφαίρεση των stopwords, χειροτέρεψε την απόδοση του ταξινομητή, δεν παρατίθενται οι αντίστοιχοι πίνακες. 62

5.1 Ταξινομητής για τα δεδομένα από το IMDB Στον Πίνακα 6, παρουσιάζονται τα αποτελέσματα του LinearSVC ταξινομητή, με μέθοδο διαχωρισμού των συνόλων εκπαίδευσης - ελέγχου: Stratified ΚFold Cross Validation, για unigram, bigram και trigram μοντέλα. LinearSVC IMDB StratifiedKFold K=10 accuracy recall precision f-measure unigram 0.858 0.868 0.851 0.859 bigram 0.846 0.889 0.818 0.852 trigram 0.814 0.923 0.757 0.832 Πίνακας 6: Μετρικές αξιολόγησης 1 ου ταξινομητή (IMDB) Συνολικά, την καλύτερη επίδοση, κατέγραψε ο ταξινομητής με unigram μοντέλο. Στον Πίνακα 7, παρουσιάζονται τα αποτελέσματα του LinearSVC ταξινομητή, με μέθοδο διαχωρισμού των συνόλων εκπαίδευσης - ελέγχου: Shuffle Split, για unigram, bigram και trigram μοντέλα. LinearSVC IMDB ShuffleSplit, n=10, test_size=10% accuracy recall precision f-measure unigram 0.854 0.867 0.842 0.854 bigram 0.847 0.891 0.817 0.853 trigram 0.808 0.918 0.750 0.826 Πίνακας 7: Μετρικές αξιολόγησης 2 ου ταξινομητή (IMDB) Ο ταξινομητής με unigram μοντέλο έχει την υψηλότερη ορθότητα. 63

Στον Πίνακα 8, παρουσιάζονται τα αποτελέσματα του LinearSVC ταξινομητή, με μέθοδο διαχωρισμού των συνόλων εκπαίδευσης - ελέγχου: Stratified ΚFold Cross Validation, για unigram, bigram και trigram μοντέλα. MultinomialNB IMDB StratifiedKFold K=10 accuracy recall precision f-measure unigram 0.808 0.741 0.856 0.794 bigram 0.833 0.870 0.810 0.839 trigram 0.823 0.895 0.782 0.835 Πίνακας 8: Μετρικές αξιολόγησης 3 ου ταξινομητή (IMDB) Ο ταξινομητής με bigram μοντέλο σημείωσε την υψηλότερη ορθότητα, ωστόσο δεν ήταν ο καλύτερος στην ανάκληση και στην ακρίβεια. Στον Πίνακα 9, παρουσιάζονται τα αποτελέσματα του LinearSVC ταξινομητή, με μέθοδο διαχωρισμού των συνόλων εκπαίδευσης - ελέγχου: Shuffle Split, για unigram, bigram και trigram μοντέλα. MultinomialNB IMDB ShuffleSplit, n=10, test_size=10% accuracy recall precision f-measure unigram 0.800 0.740 0.737 0.786 bigram 0.813 0.855 0.786 0.819 trigram 0.803 0.893 0.754 0.818 Πίνακας 9: Μετρικές αξιολόγησης 4 ου ταξινομητή (IMDB) Το bigram μοντέλο βελτίωσε την απόδοση του ταξινομητή, με εξαίρεση τη μετρική της ανάκλησης. 64

Ο καλύτερος LinearSVC ταξινομητής, με μέθοδο διαχωρισμού των συνόλων εκπαίδευσης - ελέγχου: Stratified ΚFold Cross Validation, και unigram μοντέλο, παρουσιάζεται στον Πίνακα 10. LinearSVC IMDB StratifiedKFold K=10 accuracy recall precision f-measure unigram 0.858 0.868 0.851 0.859 Πίνακας 10: Ο τελικός LinearSVC ταξινομητής (IMDB) Ο τελικός LinearSVC ταξινομητής για το σύνολο κριτικών από το IMDB, σημείωσε 85.8% ορθότητα κατηγοριοποίησης και 85.9% στη μετρική F- Measure. Στην Εικόνα 8, παρατίθεται ο Πίνακας Σύγχυσης του ταξινομητή, για περεταίρω ανάλυση των αποτελεσμάτων της κατηγοριοποίησης. Εικόνα 8: Confusion Matrix του LinearSVC ταξινομητή (ΙMDB) 65

Ο καλύτερος MultinomialNB ταξινομητής, με μέθοδο διαχωρισμού των συνόλων εκπαίδευσης - ελέγχου: Stratified ΚFold Cross Validation, και bigram μοντέλο, παρουσιάζεται στον Πίνακα 11. MultinomialNB IMDB StratifiedKFold K=10 accuracy recall precision f-measure bigram 0.833 0.870 0.810 0.839 Πίνακας 11: Ο τελικός MultinomialNB ταξινομητής (IMDB) Ο τελικός MultinomialNB ταξινομητής για το σύνολο κριτικών από το IMDB, σημείωσε 83.3% ορθότητα ταξινόμησης και 83.9% στη μετρική F-Measure Στην Εικόνα 9 παρατίθεται ο Πίνακας Σύγχυσης του ταξινομητή για ανάλυση και σύγκριση των αποτελεσμάτων της ταξινόμησης. Εικόνα 9: Confusion Matrix του MultinomialNB ταξινομητή (ΙMDB) 66

Η τελική επιλογή ταξινομητή παρουσιάζεται στον Πίνακα 12. LinearSVC IMDB StratifiedKFold K=10 accuracy recall precision f-measure unigram 0.858 0.868 0.851 0.859 Πίνακας 12: Η τελική επιλογή ταξινομητή για το σύνολο IMDB Εν κατακλείδι, η τελική επιλογή για το σύνολο κριτικών από το IMDB, με 85.8% ορθότητα ταξινόμησης: Ταξινομητής με αλγόριθμο LinearSVC o StratifiedKFold K=10 Unigram Ο τελικός ταξινομητής, σε όλες τις μετρικές αξιολόγησης είχε αποτελέσματα υψηλότερα του 85%. 67

5.2 Ταξινομητής για τα δεδομένα από το RT Στον Πίνακα 13, παρουσιάζονται τα αποτελέσματα του LinearSVC ταξινομητή, με μέθοδο διαχωρισμού των συνόλων εκπαίδευσης - ελέγχου: Stratified ΚFold Cross Validation, για unigram, bigram και trigram μοντέλα. Rotten Tomatoes LinearSVC StratifiedKFold K=10 accuracy recall precision f-measure unigram 0.770 0.770 0.770 0.770 bigram 0.787 0.803 0.778 0.790 trigram 0.780 0.806 0.766 0.785 Πίνακας 13: Μετρικές αξιολόγησης 1 ου ταξινομητή (Rotten Tomatoes) Την καλύτερη απόδοση σημείωσε ο ταξινομητής με bigram μοντέλο. Στον Πίνακα 14, παρουσιάζονται τα αποτελέσματα του LinearSVC ταξινομητή, με μέθοδο διαχωρισμού των συνόλων εκπαίδευσης - ελέγχου: Shuffle Split, για unigram, bigram και trigram μοντέλα. Rotten Tomatoes LinearSVC ShuffleSplit, n=10, test_size=10% accuracy recall precision f-measure unigram 0.769 0.772 0.772 0.772 bigram 0.783 0.797 0.780 0.789 trigram 0.776 0.802 0.767 0.776 Πίνακας 14: Μετρικές αξιολόγησης 2 ου ταξινομητή (Rotten Tomatoes) Παρόλο που δεν είναι μεγάλες οι διαφορές στις μετρικές αξιολόγησης, ο ταξινομητής με bigram μοντέλο κάνει την ορθότερη κατηγοριοποίηση. 68

Στον Πίνακα 15, παρουσιάζονται τα αποτελέσματα του MultinomialNB ταξινομητή, με μέθοδο διαχωρισμού των συνόλων εκπαίδευσης ελέγχου: Stratified ΚFold Cross Validation, για unigram, bigram και trigram μοντέλα. Rotten Tomatoes MultinomialNB StratifiedKFold K=10 accuracy recall precision f-measure unigram 0.784 0.779 0.787 0.783 bigram 0.793 0.780 0.800 0.790 trigram 0.790 0.775 0.799 0.787 Πίνακας 15: Μετρικές αξιολόγησης 3 ου ταξινομητή (Rotten Tomatoes) Σε όλες τις μετρικές αξιολόγησης, ο ταξινομητής με bigram μοντέλο ξεχώρισε και σημείωσε τις υψηλότερες τιμές. Στον Πίνακα 16, παρουσιάζονται τα αποτελέσματα του MultinomialNB ταξινομητή, με μέθοδο διαχωρισμού των συνόλων εκπαίδευσης - ελέγχου: Shuffle Split, για unigram, bigram και trigram μοντέλα. Rotten Tomatoes MultinomialNB ShuffleSplit, n=10, test_size=10% accuracy recall precision f-measure unigram 0.779 0.769 0.789 0.779 bigram 0.790 0.771 0.806 0.788 trigram 0.788 0.764 0.807 0.785 Πίνακας 16: Μετρικές αξιολόγησης 4 ου ταξινομητή (Rotten Tomatoes) Ο ταξινομητής με bigram μοντέλο κατέγραψε την υψηλότερη ορθότητα, ωστόσο δεν ήταν ο καλύτερος σε ακρίβεια. 69

Ο καλύτερος LinearSVC ταξινομητής, με μέθοδο διαχωρισμού των συνόλων εκπαίδευσης - ελέγχου: Stratified ΚFold Cross Validation, και bigram μοντέλο, παρουσιάζεται στον Πίνακα 17. Rotten Tomatoes LinearSVC StratifiedKFold K=10 accuracy recall precision f-measure bigram 0.787 0.803 0.778 0.790 Πίνακας 17: Ο τελικός LinearSVC ταξινομητής (Rotten Tomatoes) Ο τελικός LinearSVC ταξινομητής, που κατηγοριοποίησε αποτελεσματικότερα τα στιγμιότυπα του συνόλου κριτικών από το Rotten Tomatoes, κατέγραψε 78.7% ορθότητα και 79.0% στη μετρική F-Measure. Στην Εικόνα 10, παρατίθεται ο Πίνακας Σύγχυσης του ταξινομητή. Εικόνα 10: Confusion Matrix του LinearSVC ταξινομητή (RT) 70

Ο καλύτερος MultinomialNB ταξινομητής, με μέθοδο διαχωρισμού των συνόλων εκπαίδευσης - ελέγχου: Stratified ΚFold Cross Validation, και bigram μοντέλο, παρουσιάζεται στον Πίνακα 18. Rotten Tomatoes MultinomialNB StratifiedKFold K=10 accuracy recall precision f-measure bigram 0.793 0.780 0.800 0.790 Πίνακας 18: Ο τελικός MultinomialNB ταξινομητής (Rotten Tomatoes) Ο τελικός MultinomialNB ταξινομητής για το σύνολο κριτικών από το IMDB, σημείωσε 79.3% ορθότητα ταξινόμησης και 79.0% στη μετρική F-Measure Στην Εικόνα 11 παρατίθεται ο Πίνακας Σύγχυσης του ταξινομητή για σύγκριση των αποτελεσμάτων της ταξινόμησης. Εικόνα 11: Confusion Matrix του MultinomialNB ταξινομητή (RT) 71

Η τελική επιλογή ταξινομητή παρουσιάζεται στον Πίνακα 19. Rotten Tomatoes MultinomialNB StratifiedKFold K=10 accuracy recall precision f-measure bigram 0.793 0.780 0.800 0.790 Πίνακας 19: Η τελική επιλογή ταξινομητή για το σύνολο RT Συνοψίζοντας, η τελική επιλογή για την κατηγοριοποίηση συναισθήματος, του συνόλου κριτικών από το Rotten Tomatoes, με 79.3% ορθότητα ταξινόμησης είναι: Ταξινομητής με αλγόριθμο MultinomialNB o StratifiedKFold, K=10 Bigram Παρατηρείται, πως σε κάθε δομική των ταξινομητών, είτε με LinearSVC, είτε με MultinomialNB αλγόριθμο, η επιλογή bigram μοντέλου βελτιώνει την απόδοση του ταξινομητή, έναντι των unigram και trigram αντίστοιχα. 72

5.3 Ταξινομητής για τα δεδομένα από το Twitter Στον Πίνακα 20, παρουσιάζονται τα αποτελέσματα του LinearSVC ταξινομητή, με μέθοδο διαχωρισμού των συνόλων εκπαίδευσης - ελέγχου: Stratified ΚFold Cross Validation, για unigram, bigram και trigram μοντέλα. LinearSVC Twitter StratifiedKFold K=10 accuracy recall precision f-measure unigram 0.787 0.771 0.780 0.775 bigram 0.776 0.748 0.774 0.761 trigram 0.776 0.730 0.766 0.748 Πίνακας 20: Μετρικές αξιολόγησης 1 ου ταξινομητή (Twitter) Ο ταξινομητής με unigram μοντέλο υπερτερεί σε όλες τις μετρικές αξιολόγησης. Στον Πίνακα 21, παρουσιάζονται τα αποτελέσματα του LinearSVC ταξινομητή, με μέθοδο διαχωρισμού των συνόλων εκπαίδευσης - ελέγχου: Shuffle Split, για unigram, bigram και trigram μοντέλα. LinearSVC Twitter ShuffleSplit, n=10, test_size=10% accuracy recall precision f-measure unigram 0.842 0.831 0.841 0.836 bigram 0.846 0.839 0.843 0.841 trigram 0.845 0.837 0.843 0.840 Πίνακας 21: Μετρικές αξιολόγησης 2 ου ταξινομητή (Twitter) Ο ταξινομητής με bigram μοντέλο κατηγοριοποιεί καλύτερα τα δεδομένα. 73

Στον Πίνακα 22, παρουσιάζονται τα αποτελέσματα του MultinomialNB ταξινομητή, με μέθοδο διαχωρισμού των συνόλων εκπαίδευσης ελέγχου: Stratified ΚFold Cross Validation, για unigram, bigram και trigram μοντέλα. MultinomialNB Twitter StratifiedKFold K=10 accuracy recall precision f-measure unigram 0.770 0.672 0.812 0.736 bigram 0.746 0.615 0.806 0.697 trigram 0.742 0.599 0.808 0.688 Πίνακας 22: Μετρικές αξιολόγησης 3 ου ταξινομητή (Twitter) Σε όλες τις μετρικές αξιολόγησης, ο ταξινομητής με unigram μοντέλο ξεχώρισε και σημείωσε τις υψηλότερες τιμές. Στον Πίνακα 23, παρουσιάζονται τα αποτελέσματα του MultinomialNB ταξινομητή, με μέθοδο διαχωρισμού των συνόλων εκπαίδευσης - ελέγχου: Shuffle Split, για unigram, bigram και trigram μοντέλα. MultinomialNB Twitter ShuffleSplit, n=10, test_size=10% accuracy recall precision f-measure unigram 0.821 0.752 0.861 0.803 bigram 0.815 0.737 0.815 0.794 trigram 0.813 0.728 0.864 0.790 Πίνακας 23: Μετρικές αξιολόγησης 4 ου ταξινομητή (Twitter) Την υψηλότερη ορθότητα κατέγραψε ο ταξινομητής με unigram μοντέλο, ωστόσο δεν ήταν ο καλύτερος σε ακρίβεια. 74

Ο καλύτερος LinearSVC ταξινομητής, με μέθοδο διαχωρισμού των συνόλων εκπαίδευσης - ελέγχου: Shuffle Split, και bigram μοντέλο, παρουσιάζεται στον Πίνακα 24. LinearSVC Twitter ShuffleSplit, n=10, test_size=10% accuracy recall precision f-measure bigram 0.846 0.839 0.843 0.841 Πίνακας 24: Ο τελικός LinearSVC ταξινομητής (Twitter) Ο τελικός LinearSVC ταξινομητής, με 84.6% ορθότητα και 84.1% στη μετρική F-Measure κατηγοριοποιεί τα μηνύματα από το Twitter. Στην Εικόνα 12, παρατίθεται ο Πίνακας Σύγχυσης του ταξινομητή, για ανάλυση των αποτελεσμάτων της κατηγοριοποίησης. Εικόνα 12: Confusion Matrix του LinearSVC ταξινομητή (Twitter) 75

Η μόνη περίπτωση που η αφαίρεση των stopwords, βελτίωσε την απόδοση των ταξινομητών, ήταν στους ταξινομητές με MultinomialNB αλγόριθμο, για την κατηγοριοποίηση των μηνυμάτων του Twitter. Στον πίνακα 25, φαίνεται η βελτίωση του καλύτερου MultinomialNB ταξινομητή, μετά την αφαίρεση των stopwords. MultinomialNB Twitter ShuffleSplit, n=10, test_size=10% accuracy recall precision f-measure unigram 0.821 0.752 0.861 0.803 stopwords 0.823 0.814 0.819 0.817 Πίνακας 25: Βελτίωση του MultinomialNB ταξινομητή (Twitter) Τελικά, ο καλύτερος MultinomialNB ταξινομητής, με μέθοδο διαχωρισμού των συνόλων εκπαίδευσης - ελέγχου: Shuffle Split, unigram μοντέλο και αφαίρεση των stopwords παρουσιάζεται στον Πίνακα 26. MultinomialNB Twitter ShuffleSplit, n=10, test_size=10% unigram & stopwords accuracy recall precision f-measure 0.823 0.814 0.819 0.817 Πίνακας 26: Ο τελικός MultinomialNB ταξινομητής (Twitter) Ο τελικός MultinomialNB ταξινομητής για τα μηνύματα από το Twitter, σημείωσε 82.3% ορθότητα ταξινόμησης και s% στη μετρική F-Measure Στην Εικόνα 13 παρατίθεται ο Πίνακας Σύγχυσης του ταξινομητή για σύγκριση των αποτελεσμάτων της κατηγοριοποίησης. 76

Εικόνα 13: Confusion Matrix του MultinomialNB ταξινομητή (Twitter) Η τελική επιλογή ταξινομητή παρουσιάζεται στον Πίνακα 27. Twitter LinearSVC ShuffleSplit, n=10, test_size=10% accuracy recall precision f-measure bigram 0.846 0.839 0.843 0.841 Πίνακας 27: Η τελική επιλογή ταξινομητή για το σύνολο Twitter Συμπεραίνουμε, πως η τελική επιλογή για την κατηγοριοποίηση συναισθήματος, των μηνυμάτων από το Twitter, με 84.6% ορθότητα ταξινόμησης είναι: Ταξινομητής με αλγόριθμο LinearSVC o Shuffle Split, n=10, test size=10% Bigram 77

5.4 Ενσωμάτωση του SentiWordNet 3.0 στην ταξινόμηση των δεδομένων από το Twitter Στην ενότητα 4.4, περιγράψαμε τον τρόπο με τον οποίο μπορούμε να αξιοποιήσουμε τη γλωσσολογική ανάλυση των κειμένων, και τη χρήση του λεξικού πόρου SentiWordNet 3.0, στην κατηγοριοποίηση συναισθήματος μηνυμάτων του Twitter. Για το σκοπό αυτό, δημιουργήσαμε δύο λεξικά για να καθαρίσουμε τα tweets από τα emoticons και τις συντομογραφίες, και στη συνέχεια ορίσαμε μία κλάση σε Python, η οποία πραγματοποιεί γλωσσολογική ανάλυση. Αρχικά, με τη βοήθεια της βιβλιοθήκης ntlk, προσδιορίσαμε τα μέρη του λόγου, στους όρους των κειμένων (POS-tags). Στη συνέχεια, με την ενσωμάτωση του λεξικού SentiWordNet 3.0, αποδόθηκαν οι βαθμολογίες σε κάθε όρο, ανάλογα με την πολικότητα τους. Έχει ήδη αναφερθεί, πως το ολοκληρωμένο μοντέλο κατηγοριοποίησης συναισθήματος, το εφαρμόσαμε μόνο στα δεδομένα του Twitter, για λόγους υπολογιστικής πολυπλοκότητας. Για την εφαρμογή του ολοκληρωμένου μοντέλου θα χρησιμοποιήσουμε τρία μικρότερα σύνολα μηνυμάτων: 1 ο σύνολο: tweets με αναφορές #google, #twitter 2 ο σύνολο: tweets με αναφορές #apple, #google 3 ο σύνολο tweets: tweets με αναφορές #google, #microsoft, #twitter Για την κατασκευή του μοντέλου, θα υιοθετήσουμε τον αλγόριθμο και τις παραμέτρους του μοντέλου που σημείωσε την καλύτερη απόδοση στην κατηγοριοποίηση των μηνυμάτων από το Twitter στην ενότητα 5.3, επομένως θα χρησιμοποιήσουμε: Ταξινομητή με αλγόριθμο LinearSVC o Shuffle Split, n=5, test size=20% Bigram 78

Η μόνη αλλαγή, έγινε για λόγους πολυπλοκότητας, και αφορά στη μείωση των συνόλων εκπαίδευσης ελέγχου (n=5, με μέγεθος του συνόλου ελέγχου 20%). Στον Πίνακα 28 παρουσιάζονται τα αποτελέσματα των μετρικών αξιολόγησης για το 1 ο σύνολο των tweets, με αναφορές #google, #twitter. #google #twitter αρχικός ταξινομητής LinearSVC ShuffleSplit, n=5, test_size=20%, bigram accuracy recall precision f-measure 0.790 0.957 0.795 0.856 ταξινομητής & 0.808 0.949 0.796 0.866 linguistic class Πίνακας 28: Βελτίωση του ταξινομητή για το 1 ο σύνολο tweets Μετά τη γλωσσολογική ανάλυση και την προσθήκη του λεξικού SentiWordNet 3.0, ο ταξινομητής είχε καλύτερη απόδοση, με ορθότητα 80.8% και F-Measure 86.6%. Στην Εικόνα 14 παρουσιάζονται οι Πίνακες Σύγχυσης για σύγκριση των αποτελεσμάτων των δύο ταξινομητών. Αρχικός Ταξινομητής Ταξινομητής & SentiWordNet 3.0 Εικόνα 14: Confusion Matrices για το σύνολο #google, #twitter 79

Στον Πίνακα 29 παρουσιάζονται τα αποτελέσματα των μετρικών αξιολόγησης για το 2 ο σύνολο των tweets, με θέμα #apple, #google. #apple #google αρχικός ταξινομητής LinearSVC ShuffleSplit, n=5, test_size=20%, bigram accuracy recall precision f-measure 0.869 0.871 0.859 0.865 ταξινομητής & linguistic class 0.873 0.899 0.847 0.872 Πίνακας 29: Βελτίωση του ταξινομητή για το 2 ο σύνολο tweets Παρόλο που ο αρχικός ταξινομητής, σημείωσε πολύ υψηλές τιμές σε όλες τις μετρικές αξιολόγησης, η ένταξη της γλωσσολογική ανάλυση και η ενσωμάτωση του λεξικού SentiWordNet 3.0, βελτίωσαν κι άλλο την απόδοσή του. Η ορθότητα κατηγοριοποίησης έφτασε το 87.3% και η F-Measure 87.2%. Στην Εικόνα 15, στους Πίνακες Σύγχυσης των δύο ταξινομητών, οπτικοποιούνται τα αποτελέσματα της κατηγοριοποίησης. Αρχικός Ταξινομητής Ταξινομητής & SentiWordNet 3.0 Εικόνα 15: Confusion Matrices για το σύνολο #apple, #google 80