ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ. Διπλωματική Εργασία. μάθησης»

Transcript

1 ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΜΑΘΗΜΑΤΙΚΩΝ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ Διπλωματική Εργασία «Ανάλυση συναισθήματος με χρήση τεχνικών μηχανικής μάθησης» Συγγραφέας: Κατερίνα Χριστοπούλου Επιβλέπων Καθηγητής Κωτσιαντής Σωτήριος ΣΕΠΤΕΜΒΡΙΟΣ

2 Πανεπιστήμιο Πατρών, Τμήμα Μαθηματικών Κατερίνα Χριστοπούλου Με την επιφύλαξη παντός δικαιώματος 2

3 Τριμελής Επιτροπή Ιωάννης Δημητρίου, Λέκτορας Τμήματος Μαθηματικών, Πανεπιστημίου Πατρών Ράγγος Όμηρος, Επίκουρος Καθηγητής Τμήματος Μαθηματικών, Πανεπιστημίου Πατρών Κωτσιαντής Σωτήριος, Λέκτορας Τμήματος Μαθηματικών, Πανεπιστημίου Πατρών 3

4 ΔΗΛΩΣΗ ΜΗ ΛΟΓΟΚΛΟΠΗΣ ΚΑΙ ΑΝΑΛΗΨΗΣ ΠΡΟΣΩΠΙΚΗΣ ΕΥΘΥΝΗΣ Με πλήρη επίγνωση των συνεπειών του νόμου περί πνευματικών δικαιωμάτων, δηλώνω ενυπογράφως ότι είμαι αποκλειστική συγγραφέας της παρούσας Πτυχιακής Εργασίας, για την ολοκλήρωση της οποίας κάθε βοήθεια είναι πλήρως αναγνωρισμένη και αναφέρεται λεπτομερώς στην εργασία αυτή. Έχω αναφέρει πλήρως και με σαφείς αναφορές, όλες τις πηγές χρήσης δεδομένων, απόψεων, θέσεων και προτάσεων, ιδεών και λεκτικών αναφορών, είτε κατά κυριολεξία είτε βάσει επιστημονικής παρά- φρασης. Αναλαμβάνω την προσωπική και ατομική ευθύνη ότι σε περίπτωση αποτυχίας στην υλοποίηση των ανωτέρω δηλωθέντων στοιχείων, είμαι υπόλογος έναντι λογοκλοπής, γεγονός που σημαίνει αποτυχία στην Πτυχιακή μου Εργασία και κατά συνέπεια αποτυχία απόκτησης του Τίτλου Σπουδών, πέραν των λοιπών συνεπειών του νόμου περί πνευματικών δικαιωμάτων. Δηλώνω, συνεπώς, ότι αυτή η Πτυχιακή Εργασία προετοιμάστηκε και ολοκληρώθηκε από εμένα προσωπικά και αποκλειστικά και ότι, αναλαμβάνω πλήρως όλες τις συνέπειες του νόμου στην περίπτωση κατά την οποία αποδειχθεί, διαχρονικά, ότι η εργασία αυτή ή τμήμα της δεν μου ανήκει διότι είναι προϊόν λογοκλοπής άλλης πνευματικής ιδιοκτησίας. Κατερίνα Χριστοπούλου 4

5 Περίληψη H συνεχόμενη ανάπτυξη του διαδικτύου δημιούργησε νέους τρόπους επικοινωνίας. Τα social media παράγουν ένα τεράστιο όγκο δεδομένων σε μορφή κειμένου, τα οποία παρέχουν πληροφορίες για τις απόψεις και τα συναισθήματα των χρηστών. Σκοπός της Εξόρυξης Δεδομένων (Data Mining) και Ανάλυσης Συναισθήματος (Sentiment Analysis) είναι η επεξεργασία των πληροφοριών αυτών και η εξαγωγή συμπερασμάτων ως προς τα συναισθήματα των χρηστών και τη πολικότητα του κειμένου. Το οποίο είναι πολύ χρήσιμο κυρίως στην εξέλιξη και ανάπτυξη των εταιρειών. Η παρούσα διπλωματική εργασία μελετάει τις τεχνικές και τα εργαλεία της Ανάλυσης Συναισθήματος. Έπειτα, εξετάζονται οι κατηγορίες των τεχνικών Ανάλυσης Συναισθήματος, οι οποίες είναι οι τεχνικές με λεξικά, τεχνικές με επιβλεπόμενη και μη-επιβλεπόμενη μηχανική μάθηση. Στη συνέχεια γίνεται μελέτη και σύγκριση διαφορετικών μοντέλων κατηγοριοποίησης κειμένων από σελίδες κριτικής ταινιών (IMDb). Αλγόριθμοι που θα χρησιμοποιηθούν είναι ο Πολυωνυμικός «Αφελής» Bayes (Multinomial Naive Bayes) και οι Μηχανές Διανυσμάτων Υποστήριξης (SVM). Τα μοντέλα κατηγοριοποίησης υλοποιούνται μέσω του προγραμματιστικού περιβάλλοντος Weka. Λέξεις Κλειδιά: <<ανάλυση συναισθήματος, κοινωνικά δίκτυα, επιβλεπόμενη μηχανική μάθηση, μη-επιβλεπόμενη μηχανική μάθηση, τεχνικές με λεξικά, μικρο-ιστολόγια, ταξινομητής, Πολικότητα Κειμένου, Πολυωνυμικός «Αφελής», Διανυσμάτων Υποστήριξης (SVM) >> 5

6 Abstract The continuous development of the internet has created new ways of communications. Social media produce a vast amount of information about the users opinions and sentiments. The aim of Data Mining and Sentiment Analysis is to process this data and export conclusions, regarding the polarity of a text. Sentiment Analysis has become a main priority for every company and organization. In this dissertation different methods of sentiment analysis will be examined. Those methods are Dictionary Based techniques, Supervised and Unsupervised Machine Learning, as well as their combination. Finally there will be a comparison and examination of the application of different classifiers on a data set from a movie review site (IMDb). The Algorithms used are the Multinomial Naive Bayes and Support Vector Machines. The models for the classification will be implemented through the programming environment Weka. Keywords: <<Sentiment analysis, social networks, supervised machine learning learning, unsupervised machine learning, lexicon, microblogs, classifier, Text Polarity, Multinomial Νaive Bayes, Support Vector Machines (SVM), SentiWordNet 3.0 >> 6

7 Πίνακας Περιεχομένων Τριμελής Επιτροπή... 3 Περίληψη... 5 Abstract... 6 Πίνακας Περιεχομένων... 7 Εισαγωγή Αντικείμενο Διπλωματικής Εξόρυξη Γνώσης από Βάσεις Δεδομένων Διαδικασία της Ανακάλυψης γνώσης Εξόρυξη Γνώσης από κείμενο Μέθοδοι Μηχανικής Μάθησης για την Εξόρυξη Δεδομένων Ανάλυση Συναισθήματος Ανάλυση Συναισθήματος και Εξόρυξη Δεδομένων Εφαρμογές της Ανάλυσης Συναισθήματος Δυσκολίες και Προκλήσεις Κοινωνικά δίκτυα Προϊόντα και υπηρεσίες Κατηγοριοποίηση Κατηγοριοποίηση Συναισθήματος Κατηγοριοποίηση Συναισθήματος με σύμφωνα με τις χρήσεις Κατηγορίες Προσέγγισης κειμένου Σε επίπεδο εγγράφου/κειμένου Σε επίπεδο πρότασης Σε επίπεδο λέξης Επίπεδο οντότητας και χαρακτηριστικών Τεχνικές Βασισμένες σε Λεξικά Λεξικά WordNet Linguistic Inquiry and Word Count Τεχνικές επιβλεπόμενης μηχανικής μάθησης Προ-επεξεργασία

8 4.2 Χαρακτηριστικά Features Ταξινομητές «Απλοϊκό» Μοντέλο Naive Bayes Multinomial Naive Bayes Maximum Entropy Support Vector Machines Μετρικές Αξιολόγησης Μοντέλα Κατηγοριοποίησης Συναισθήματος Προγραμματιστικό Περιβάλλον Αρχεία στο Weka Συλλογή δεδομένων Δεδομένα από Κριτικές Ταινιών Περιγραφή Μοντέλου Κατηγοριοποίησης Επιλογή Αλγορίθμου Πειραματικά Αποτελέσματα Συμπεράσματα Bibliography

9 Εισαγωγή Η ραγδαία ανάπτυξη του διαδικτύου έχει άμεση επίδραση στην εξέλιξη όλων των πτυχών της ανθρώπινης κοινωνίας. Η σημαντικότερη προσφορά του Παγκόσμιου Ιστού, είναι ο εύκολος, γρήγορος και μαζικός διαμοιρασμός πληροφοριών. Η δημιουργία του Web 1.0 ήταν ένα ορόσημο στην εξέλιξη του διαδικτύου. Ωστόσο η δημοσίευση και η δημιουργία υλικού ήταν δύσκολη και περιορισμένη μόνο σε έμπειρους χρήστες. Αυτό οδήγησε και τον χαρακτηρισμό του Ιστού Web 1.0 ως Read-Only Web. H δεύτερη εποχή του Παγκόσμιου Ιστού, Web 2.0 (2004- σήμερα) διαφέρει πολύ, τόσο σε τεχνολογικό επίπεδο, όσο και στην προσβασιμότητα και ευκολία χρήσης του από καθημερινούς χρήστες, σε σύγκριση με τον πρώιμό του. Οι ρόλοι του «συγγραφέα» και «αναγνώστη» που είχαν καθιερωθεί την εποχή του Web 1.0 πλέον καταργούνται και με τον Web 2.0 περνάμε στην εποχή Read-Write Web, στην οποία οι χρήστες έχουν την δυνατότητα να παράγουν δικό τους περιεχόμενο. Παράλληλα όμως με την εξέλιξη του διαδικτύου, αυξήθηκε σε μεγάλο βαθμό και η διαθέσιμη πληροφορία κάνοντας δύσκολη την διαχείριση και επεξεργασία αυτής, για την απόκτηση γνώσης. Οι τεχνολογίες που έχουν δημιουργηθεί για την εξόρυξη γνώσης πρόσφεραν στο χρήστη τη δυνατότητα αντιμετώπισης του προβλήματος της υπερπληροφόρησης, και του έδωσαν τη δυνατότητα αξιοποίησης των διαθέσιμων πόρων. Το Data Mining (ή εξόρυξη γνώσης από δεδομένα), βασίζεται κυρίως στην εύρεση πληροφοριών που είναι κρυμμένες σε Βάσεις Δεδομένων. (Παρόμοιοι όροι: Exploratory data analysis, Data driven discovery). Η ανάγκη μελέτης και αξιολόγησης πληροφοριών, με αυτοματοποιημένο τρόπο, έτσι ώστε να είναι χρήσιμες για το χρήστη, οδήγησε στην δημιουργία του πεδίου της Ανάλυσης Συναισθήματος. Η ραγδαία ανάπτυξη του πεδίου της Ανάλυση Συναισθήματος από το 2000, αποτέλεσε στο να γίνει ένας από τους πιο ενεργείς τομείς του Neuro Linguistic Programming. (1) 9

10 1. Αντικείμενο Διπλωματικής 1.1 Εξόρυξη Γνώσης από Βάσεις Δεδομένων Η Εξόρυξη Γνώσης είναι ένα βήμα στην διαδικασία της Ανακάλυψης Γνώσης σε Βάσεις Δεδομένων (Knowledge Discovery in Databases) που απαιτεί εφαρμογή ανάλυσης δεδομένων και δημιουργία αλγορίθμων, οι οποίοι παράγουν συγκεκριμένη απαρίθμηση μοντέλων πάνω στα δεδομένα. «Usama Fayyad, Gregory Piatetsky-Shapiro, and Padhraic Smyth, 1996» Εικόνα 1.1: Ανακάλυψη γνώσης από Βάσεις Δεδομένων Διαδικασία της Ανακάλυψης γνώσης Η ανακάλυψη γνώσης από Βάσεις Δεδομένων είναι μία διαδραστική και επαναληπτική διαδικασία, η οποία απαιτεί πολλαπλά βήματα και αποφάσεις από τη μεριά του χρήστη. Μερικά από τα πιο βασικά βήματα σκιαγραφούνται παρακάτω: Επιλογή Το αρχικό στάδιο είναι η επιλογή των δεδομένων. Στόχος είναι η δημιουργία συνόλου δεδομένων, ή η εστίαση σε ένα αντικείμενο μεταβλητών, ή δειγμάτων 10

11 δεδομένων. Στο βήμα αυτό συλλέγονται δεδομένα από διάφορες πηγές και κατασκευάζεται το σύνολο δεδομένων στο οποίο στη συνέχεια της διαδικασίας της ανακάλυψης γνώσης θα γίνει η αναζήτηση των προτύπων. Αποτελεί ένα από τα πιο σημαντικά στάδια, διότι είναι καθοριστικός παράγοντας για την ποιότητα και την επάρκεια των παραγόμενων δεδομένων και έχει άμεση επιρροή στην εξαγωγή των αποτελεσμάτων. Προεπεξεργασία Επόμενο βήμα είναι η προεπεξεργασία. Σκοπός της είναι ο καθαρισμός των δεδομένων από πιθανούς θορύβους ή άχρηστες πληροφορίες. Συλλέγει τα χρήσιμα για το μοντέλο δεδομένα και αποφασίζει στρατηγικές για την διαχείριση των 'χαμένων' data. Αποτελεί ένα από τα πιο χρονοβόρα και απαιτητικά για τη διαδικασία βήματα, καθώς καταλαμβάνει σχεδόν το 50% της συνολικής εργασίας. Μετασχηματισμός Ο μετασχηματισμός των δεδομένων, που αποτελεί το επόμενο βήμα περιλαμβάνει τη μείωση του αριθμού των μεταβλητών (dimensionality reduction) και την εύρεση invariant representations*. Εξόρυξη Γνώσης από δεδομένα Στο επόμενο βήμα γίνεται η επιλογή της κατάλληλης μεθόδου εξόρυξης δεδομένων ( summarization, classification, regression, clustering), και η επιλογή αλγορίθμων για τη διερεύνηση των δεδομένων, ώστε να προκύψουν τα επιθυμητά αποτελέσματα/ πρότυπα. Ερμηνεία/ Αξιολόγηση (Interpretation / Evaluation) του μοντέλου Είναι το τελικό βήμα. Τα πρότυπα που προκύπτουν πρέπει να είναι συγχρόνως χρήσιμα και κατανοητά. Επίσης το βήμα αυτό είναι υπεύθυνο για την επίλυση η διόρθωση πιθανών διαφωνιών από προηγούμενη 'πιστευτή' γνώση. (2) *invariant representations είναι μία προγραμματιστική κατασκευή που αποτελείται από ένα σύνολο αμετάβλητων ιδιοτήτων, οι οποίες παραμένουν αναλλοίωτες μέσα στη βάση δεδομένων 11

12 1.1.2 Εξόρυξη Γνώσης από κείμενο Αμέσως μετά την ανακάλυψη γνώσης από βάσεις δεδομένων γεννήθηκε η ανάγκη αξιοποίησης του μεγάλου όγκου κειμένων με αυτοματοποιημένο τρόπο. Συνεπώς δημιουργήθηκε η ιδέα της εξόρυξης γνώσης από κείμενο. Η Εξόρυξη γνώσης από κείμενο, συνδυάζει τεχνικές από την εξόρυξη γνώσης από Δεδομένων, Machine Learning, τη στατιστική, την εξαγωγή πληροφορίας και την διαχείριση γνώσης. Σε αυτό το σημείο αξίζει να τονιστεί ότι η Εξόρυξη Γνώσης δεν σχετίζεται με την αναζήτηση πληροφορίας στο διαδίκτυο. Το πρώτο στοχεύει στην ανακάλυψη νέας γνώσης, ενώ το τελευταίο στην απλή αναζήτηση υπάρχουσας πληροφορίας. (3) Μέθοδοι Μηχανικής Μάθησης για την Εξόρυξη Δεδομένων 1. Text Classification (Κατηγοριοποίηση κειμένου) Αποτελεί μία από τις προβλεπόμενες μεθόδους μηχανικής μάθησης. Τα δεδομένα κατατάσσονται σε προκαθορισμένες κατηγορίες, οι οποίες υπάρχουν πριν εξεταστούν τα ίδια τα δεδομένα. Για την κατηγοριοποίηση κειμένου χρησιμοποιείται στατιστική ανάλυση των λέξεων του κειμένου. Για τον έλεγχο των αποτελεσμάτων και την αξιολόγηση της μεθόδου εφαρμόζεται το μοντέλο test set. 2. Clustering (Συσταδοποίηση κειμένου) Μέθοδος παρόμοια με αυτή της κατηγοριοποίησης κειμένου, καθώς τα δεδομένα και στις δύο περιπτώσεις χωρίζονται σε ομάδες, όμως παρουσιάζουν την εξής ειδοποιό διαφορά. Στην κατηγοριοποίηση οι κλάσεις\ομάδες είναι καθορισμένες πριν την εξέταση των ίδιων των δεδομένων, ενώ στη συσταδοποίηση οι συστάδες/ομάδες δεν είναι προκαθορισμένες. Για το λόγο αυτό η συσταδοποίηση ανήκει στις μη επιβλεπόμενες μεθόδους μηχανικής μάθησης. Η ομαδοποίηση των δεδομένων γίνεται με βάση τα χαρακτηριστικά που αυτά εμφανίζουν. 3. Association rules (Εξαγωγή Κανόνων Συσχέτισης) Κατάλληλη μέθοδος για τη εύρεση συσχετίσεων μεταξύ αντικειμένων. Ένας κανόνας συσχέτισης δύο αντικειμένων Χ και Υ, δηλώνει πως η εμφάνιση του 12

13 Χ σε κάποιο στιγμιότυπο, συνεπάγεται και την εμφάνιση του Υ, στο ίδιο στιγμιότυπο του προβλήματος. Συμβολίζεται Χ->Υ και εφαρμόζει δύο τελεστές, την υποστήριξη s και την εμπιστοσύνη a. 4. Summarization (Περίληψη κειμένου) Η περίληψη κειμένου έχει ως στόχο την μείωση της έκτασης του κειμένου, κρατώντας τις πιο σημαντικές πληροφορίες και διατηρώντας το νόημα του αρχικού περιεχομένου. Κατά την εξαγωγή της περίληψης ο χρήστης έχει την δυνατότητα να καθορίσει το πλήθος των λέξεων που θα γραφούν και διάφορες άλλες παραμέτρους. 5. Visualization (Οπτικοποίηση κειμένου) Με την οπτικοποίηση, δίνεται η δυνατότητα γραφικής απεικόνισης του κειμένου. Η μέθοδος αυτή εντοπίζει τα χαρακτηριστικά γνωρίσματα και τους βασικούς όρους του κειμένου για την γραφική του απεικόνιση. Το αποτέλεσμα της εφαρμογής της μεθόδους της οπτικοποίησης δίνει την δυνατότητα στο χρήστη να καταλάβει τις βασικές έννοιες του κειμένου, και την βαρύτητά τους, μέσω της αναπαράστασης. (1) Ανάλυση Συναισθήματος Σε αυτή την εργασία θα προσεγγιστεί το πρόβλημα της Ανάλυσης Συναισθήματος σαν πρόβλημα κατηγοριοποίησης, χρησιμοποιώντας μεθόδους επιβλεπόμενης Μηχανικής. Η Ανάλυση Συναισθήματος ( Sentiment Analysis), η οποία συναντάται και ως Εξόρυξη Γνώσης ( Opinion Mining ), μελετάει και αναλύει υπολογιστικά τις απόψεις, τα συναισθήματα, τι εκτιμήσεις, και τη στάση των ατόμων απέναντι στα χαρακτηριστικά, τις υπηρεσίες, άλλες οντότητες, αλλά θέματα και γεγονότα, και στα χαρακτηριστικά τους. Επίσης συναντάται και με πολλές διαφορετικές ονομασίες και μερικές από αυτές να είναι οι εξής: sentiment analysis, opinion mining, opinion extraction, sentiment mining, subjectivity analysis, review mining, κλπ. Ωστόσο ο επικρατέστερος όρος είναι Sentiment Analysis (Ανάλυση Συναισθήματος) ή Opinion Mining (Εξόρυξη Γνώσης). Τα τελευταία χρόνια έχει παρατηρηθεί ότι η ανάρτηση προσωπικών απόψεων και ιδεολογιών στα social media έχει βοηθήσει όχι μόνο στον επαναπροσδιορισμό της πορείας των εταιρειών, αλλά έχει άμεση επίδραση 13

14 και στο πολιτικό σύστημα. Τέτοιου είδους αναρτήσεις έχουν παρακινήσει μάζες ατόμων να προβούν σε πολιτικές μεταστροφές. Για αυτό το λόγο εμφανίστηκε η ανάγκη συλλογής και εξέτασης των αξιολογήσεων και των κριτικών που υπάρχουν στο διαδίκτυο. Οι εφαρμογές της Ανάλυσης Συναισθήματος κατά συνέπεια έχουν επεκταθεί σε όλους τους δυνατούς τομείς. Είτε πρόκειται για προϊόντα, για υπηρεσίες, για περίθαλψη, για πολιτικές εκλογές και για ψυχαγωγία. Τα παραπάνω έγιναν όλα εφικτά μετά την δημιουργία του Web 2.0, το 2004, διότι μέχρι τότε υπήρχαν ελάχιστες κριτικές και αξιολογήσεις σε ψηφιακή μορφή. Ο χρήστης δεν μπορούσε να συμμετέχει ενεργά και συνεπώς ούτε να εκφράσει την άποψή του. Μετά την εμφάνιση του Web 2.0 οι χρήστες παύουν να είναι παθητικοί και έχουν τη δυνατότητα να μοιράζονται δεδομένα και να αλληλεπιδρούν με άλλους χρήστες. Μερικές από τις ενέργειες που μπορεί να κάνει ο χρήστης, είναι η χρήση εκφράσεων όπως το tag ή link στις πλατφόρμες κοινωνικής δικτύωσης (social media), Forums ή με την δημιουργία προσωπικών ιστολογιών (Personal Blogs). (4) Τα κοινωνικά δίκτυα, όπως το Facebook και το Twitter είναι από τις πιο γνωστές εφαρμογές του Web 2.0. Σύμφωνα με επίσημα στατιστικά, το Twitter φιλοξενεί περισσότερους από 288 εκατομμύρια χρήστες, οι οποίοι δημοσιεύουν πάνω από 500 εκατομμύρια tweets την ημέρα. Τα δεδομένα αυτά παρέχουν πληροφορίες, οι οποίες κρύβουν πλήθος συναισθημάτων για τους χρήστες του, όσον αφορά παροχές υπηρεσιών, αλλά και αξιολογήσεις προϊόντων. Για την εξαγωγή του συναισθήματος από τα δεδομένα αυτά, χρησιμοποιούνται μέθοδοι κατηγοριοποίησης. Οι βασικότερες είναι, οι μέθοδοι με χρήση λεξικών και αλγορίθμων ταξινόμησης, οι οποίοι κατατάσσουν τα κείμενα κατευθείαν σε κατηγορίες. 2. Ανάλυση Συναισθήματος και Εξόρυξη Δεδομένων 2.1 Εφαρμογές της Ανάλυσης Συναισθήματος Τα αποτελέσματα της Ανάλυσης Συναισθήματος και της Εξόρυξης Δεδομένων από το διαδίκτυο αποτελούν αντικείμενο ενδιαφέροντος και μελέτης ποικίλων επιστημονικών πεδίων, όπως η οικονομία, η κοινωνιολογία, η πολιτική. 14

15 Με την Ανάλυση Συναισθήματος είναι δυνατή η διεξαγωγή συμπερασμάτων για τις απόψεις των χρηστών του διαδικτύου πάνω σε ένα συγκεκριμένο ζήτημα, καθώς και ο εντοπισμός ομάδων χρηστών με κοινά χαρακτηριστικά και προτιμήσεις. Τα κοινωνικά δίκτυα, τα προσωπικά ιστολόγια, τα forums και άλλες διαδικτυακές πλατφόρμες επικοινωνίας αποτελούν κύρια πηγή δεδομένων για την επιστήμη της Ανάλυσης Συναισθήματος και Εξόρυξη Γνώμης. Τα αποτελέσματα των πηγών αυτών παρέχουν σημαντικές πληροφορίες σε εταιρείες και οργανισμούς, ως προς τις προτιμήσεις των καταναλωτών. Με τον τρόπο αυτό αποσαφηνίζονται οι τάσεις της αγοράς και οι ανάγκες των χρηστών την συγκεκριμένη χρονική περίοδο. 2.2 Δυσκολίες και Προκλήσεις Σε ένα κείμενο, σύμφωνα με ένα γνωστό σύνολο βασικών λέξεων (keywords) μπορούσαμε να προσδιορίσουμε τη ολική πολικότητα της άποψης που εκφράζεται στο κείμενο, με την εξέταση των μεμονωμένων λέξεών του. Ωστόσο η προσέγγιση αυτή δεν σημειώνει υψηλά ποσοστά ακριβείας και πολλές φορές αν χρησιμοποιήσουμε δύο διαφορετικές μεθόδους θα παρατηρήσουμε σημαντικές διαφορές στα εξαγόμενα αποτελέσματα. Αυτό το γεγονός συμβαίνει διότι μία άποψη ή ένα συναίσθημα μπορεί να είναι κρυμμένο ή να έχει εκφραστεί με πιο έμμεσο τρόπο, χωρίς έχουν χρησιμοποιηθεί συναισθηματικά φορτισμένες λέξεις, κάτι που κάνει πιο δύσκολο τον εντοπισμό του. Επίσης η σειρά των λέξεων μέσα στο κείμενο είναι ένας σημαντικός παράγοντας που επηρεάζει την πολικότητά του. Ίδιες λέξεις τοποθετημένες στο κείμενο με διαφορετική σειρά μπορούν να αλλάξουν πλήρως την πολικότητά του. Επίσης σημαντικό είναι να εξετάζονται σημάδια ειρωνείας, σαρκασμού ή αμφισημίας. (5) Κοινωνικά δίκτυα Τα κοινωνικά δίκτυα τη σημερινή εποχή, αποτελούν το πλέον κυρίαρχο μέσο επικοινωνίας. Επίσης είναι ο χώρος στον οποίο οι χρήστες ανταλλάσσουν δημόσια απόψεις και ιδέες και αλληλεπιδρούν μεταξύ τους. Επίσης στους χρήστες δίνεται η δυνατότητα εκτός από τη συγγραφή κειμένου να εκφράζουν τη άποψή τους με διαφορετικούς τρόπους, όπως με τη χρήση των «like» ή «share» στο Facebook, ή «retweet» στο Twitter. Μερικές από τις δημοφιλέστερες πλατφόρμες κοινωνικής δικτύωσης είναι το Facebook, Twitter, και Instagram. Όπως είναι αναμενόμενο, τα κοινωνικά δίκτυα 15

16 αποτελούν μία από τις πιο βασικές πηγές δεδομένων για την Εξόρυξη Γνώσης και Ανάλυση Συναισθήματος. Η Ανάλυση Συναισθήματος όταν εφαρμόζεται στα κοινωνικά δίκτυα, συναντάει κάποιες επιπλέον δυσκολίες, οι οποίες σκιαγραφούνται παρακάτω: Μήκος Κειμένου: Αναμφισβήτητα το μήκος του κειμένου στα social media αποτελεί έναν από τους μεγαλύτερους περιορισμούς στην Ανάλυση Συναισθήματος, λόγω της μικρής του έκτασης (πχ το μέγιστο όριο στο twitter είναι 140 χαρακτήρες). Αν και σε ορισμένες περιπτώσεις το περιεχόμενο του μηνύματος είναι περιεκτικό και καθαρά τοποθετημένο, πολλές φορές το μικρό μήκος του κειμένου αφήνει ανακρίβειες και δεν είναι ξεκάθαρη η πολικότητα του κειμένου [BS10] Λεξιλόγιο: Είναι γνωστό ότι επί το πλείστον τα κείμενα στα κοινωνικά δίκτυα παρουσιάζουν μία ιδιαιτερότητα, λόγω της έντονης χρήσης γλώσσας αργκό, νεολογισμών και συντομογραφιών ( π.χ. gr8=great, ty=thank you). Τα οποία καθιστούν δύσκολη την εξαγωγή συμπερασμάτων για τα συναισθήματα του χρήστη μέσω της Εξόρυξης Γνώμης. Θόρυβος: Η επικοινωνία στα μέσα κοινωνικής δικτύωσης χαρακτηρίζεται από αμεσότητα. Ταυτόχρονα όμως οι χρήστες είναι επιρρεπείς σε συντακτικά, γραμματικά και ορθογραφικά λάθη. Αυτό το γεγονός αποτελεί βασικό εμπόδιο στην αποσαφήνιση των συναισθημάτων στο εκάστοτε κείμενο. Χρήση διαφορετικών γλωσσών στο ίδιο κείμενο: Καθώς τα κοινωνικά δίκτυα είναι διεθνή, και επί το πλείστον κυριαρχεί η αγγλική γλώσσα, οι χρήστες αποκτούν όλο και περισσότερη ευχέρεια σε αυτή. Αυτό έχει σαν αποτέλεσμα, στο ίδιο κείμενο να χρησιμοποιούν εκφράσεις σε διαφορετική γλώσσα, κάτι που αποτελεί πρόκληση για τα συστήματα ανίχνευσης συναισθήματος Προϊόντα και υπηρεσίες Η Ανάλυση Συναισθήματος και η Εξόρυξη Γνώμης έχει κεντρίσει το ενδιαφέρον των οργανισμών και των επιχειρήσεων. Η εξόρυξη της γνώμης των καταναλωτών από το διαδίκτυο ( από κοινωνικά δίκτυα, micro-blogs, forums) είναι ένα σημαντικό πεδίο επενδύσεων των επιχειρήσεων. Η ανάλυση της πολικότητας των αξιολογήσεων είναι χρήσιμη, τόσο για τους καταναλωτές όσο και τις επιχειρήσεις. Οι καταναλωτές έχουν την ευκαιρία να κάνουν εκτενή έρευνα για το κάθε προϊόν, υπηρεσία που θέλουν να δοκιμάσουν. Ενώ οι επιχειρήσεις κατανοούν καλύτερα τις ανάγκες και την γνώμη των πελατών. 16

17 3. Κατηγοριοποίηση 3.1 Κατηγοριοποίηση Συναισθήματος Στην Ανάλυση Συναισθήματος μέσω της κατηγοριοποίησης κάθε κατηγορία/κλάση αντιπροσωπεύει μία πολικότητα. Το πλήθος των κλάσεων, σε αντίθεση με την κατηγοριοποίηση κειμένου, στην οποία οι κλάσεις κάθε φορά ποικίλουν, τώρα είναι πολύ πιο περιορισμένες. Η κατηγοριοποίηση συναισθήματος αναφέρεται στο εξής σύνολο κλάσεων: Θετική πολικότητα- αρνητική πολικότητα Θετική πολικότητα- αρνητική πολικότητα- χωρίς πολικότητα 1 αστέρι-2αστέρια-3 αστέρια-4 αστέρια-5 αστέρια 3.2 Κατηγοριοποίηση Συναισθήματος με σύμφωνα με τις χρήσεις Οι χρήσεις της ανάλυσης συναισθήματος ποικίλουν και συνεχώς αυξάνονται, καθώς γίνεται χρήσιμη σε όλο και περισσότερα πεδία. Μερικές από τις κυριότερες χρήσης της στη σημερινή εποχή φαίνονται παρακάτω. Εικόνα 3.1: Κατηγορίες χρήσης της ανάλυσης συναισθήματος 17

18 Ψυχολογία Όπως είναι αναμενόμενο η Εξόρυξη γνώσης για την Ανάλυση Συναισθήματος συμβάλλει άμεσα στον τομέα της Ψυχολογίας. Πλέον τα ερωτηματολόγια ή οι δημοσκοπήσεις, έχουν αντικατασταθεί από τις τεχνικές ανάλυσης συναισθήματος. Μέσω του διαδικτύου οι επιστήμονες έχουν τη δυνατότητα να εντοπίσουν σημάδια κατάθλιψης ή άλλες ψυχολογικές διαταραχές των χρηστών και κατά συνέπεια να προλάβουν καταστάσεις αυτοτραυματισμού. (6) Δημοσιογραφία Η δημοσιογραφία είναι ακόμα ένας τομέας στον οποίο η εφαρμογή της ανάλυσης συναισθήματος προσφέρει πολλές πληροφορίες. Γι αυτό και χρησιμοποιείται από διάφορες εφαρμογές ενημέρωσης, όπως Politico, Pew, NBC, CNN. Feedback management, επιχειρήσεις Όπως αναφέρθηκε και παραπάνω, η ανάλυση συναισθήματος είναι ιδιαίτερα χρήσιμη για την πορεία των επιχειρήσεων. Οι εταιρείες και οι οργανισμοί έχουν τη δυνατότητα να δουν τις αντιδράσεις και τις αξιολογήσεις των πελατών τους και να οδηγηθούν σε διορθώσεις και βελτιώσεις των προϊόντων και των υπηρεσιών τους, σε αντίθεση με παλαιότερα, όταν ο μόνος τρόπος για να πάν αυτές τις πληροφορίες ήταν μέσω δημοσκοπήσεων ή ερωτηματολογίων. Χαρακτηριστικό παράδειγμα αποτελεί, ένα γεγονός που διαδραματίστηκε στις 21 Ιουνίου 2005, όταν ένας δημοσιογράφος έγραψε ένα post σε ένα blog, σχετικά με την εμπειρία του και τις εντυπώσεις του από τη χρήση προϊόντος της εταιρείας DELL. Το άρθρο του, το οποίο περιείχε εκφράσεις όπως DELL SUCKS. DELL LIES. Put that in your Google and smoke it, Dell, προσέγγισε το ενδιαφέρον, και επηρέασε τη γνώμη πολλών χρηστών του διαδικτύου οι οποίοι ενδιαφέρονταν να αγοράσουν υπολογιστή εκείνη τη περίοδο. Από αυτό το γεγονός και ύστερα, η DELL έγινε γνωστή ως Dell Hell. Το γεγονός αυτό ακολούθησε μία σειρά από από κακές κριτικές για την εταιρεία και δραματικές πτώσεις στις πωλήσεις της. Ανεξάρτητα από την καλή φήμη της εταιρείας κατά τη διάρκεια της δεκαετίας του 90 και αρχές 21 ου αιώνα, η εμπειρία ενός πελάτη έφτασε για να επηρεάσει σε μεγάλο βαθμό τη φήμη και την πορεία της DELL για τα δύο επόμενα χρόνια, επιφέροντας τεράστια ζημία στην επιχειρηματική της φήμη. Η ίδια η εταιρεία όμως ήταν αυτή που οφειλόταν για το πρόβλημα αυτό, λόγω της αποτυχίας σωστής επικοινωνίας με τους ανθρώπους που υπήρχαν στη βάση της και τη στήριζαν 18

19 τους πελάτες της. Ένα ακόμη σφάλμα της ήταν η άγνοια της παρουσίας της στο διαδίκτυο, για να έχει μια καλύτερη εικόνα για το κατά πόσο οι προτιμήσεις των πελατών της ήταν σε αντιστοιχία με τις υπηρεσίες και τα προϊόντα που η ίδια προσέφερε. Σχεδίαση προϊόντων και υπηρεσιών Η σωστή σχεδίαση προϊόντων και υπηρεσιών είναι ένας από τους βασικότερους τομείς των επιχειρήσεων. Για να εξασφαλιστεί αυτό, πρέπει να υπάρχει καλή γνώση των νέων τάσεων αγοράς και των προτιμήσεων των καταναλωτών. Ο τομέας που μελετάει το αντικείμενο αυτό είναι η Επιχειρηματική ευφυΐα (Business intelligence, BI). Η Επιχειρηματική ευφυΐα είναι ένα σύνολο τεχνικών οι οποίες συνιστούν στη μετατροπή δεδομένων σε αξιοποιήσιμες πληροφορίες για τις επιχειρήσεις. Η ανάλυση συναισθήματος είναι μία από τις εφαρμογές που έχει αποδειχτεί ιδιαίτερα χρήσιμη στην κατανόηση των προτιμήσεων, απόψεων και ανάγκες των καταναλωτών την συγκεκριμένη χρονική περίοδο, γεγονός ζωτικής σημασίας για την σχεδίαση και επιτυχημένη υλοποίηση προϊόντων και υπηρεσιών. Μετοχές Οι μετοχές αποτελούν έναν από τους πιο ρευστούς τομείς της αγοράς. Επίσης έχουν άμεση σύνδεση με τις απόψεις και τις προτιμήσεις των καταναλωτών, οι οποίες εκφράζονται μέσω των κοινωνικών δικτύων ή προσωπικών blog. Τα συναισθήματα των χρηστών μπορεί να έχουν σαν αποτέλεσμα την δραματική πτώση ή αύξηση των μετοχών. Συνεπώς μέσω της ανάλυσης συναισθήματος δίνεται η δυνατότητα πρόβλεψης της μεταγενέστερης δραστηριότητα της αγοράς. Όπως είναι λογικό ειδήσεις που προκαλούν θετικά συναισθήματα έχουν ως αντίκτυπο την αύξηση των τιμών των μετοχών, ενώ στην αντίθετη περίπτωση, παρατηρείται μείωση των τιμών. Χαρακτηριστικό παράδειγμα αποτελεί το 2013, όταν ένα ψεύτικο tweet οδήγησε τον Dow Jones σε δραματική πτώση σε μόλις δύο λεπτά. Όταν το αστείο όμως αποκαλύφτηκε η ανάκαμψη των τιμών στα αρχικά επίπεδα, πριν το ψεύτικο tweet, πήρε μόλις τρία λεπτά. Η πρόβλεψη του δείκτη τιμών των μετοχών (Dow Jones Industrial Average) είναι ακόμα πιο ακριβής όταν μελετάται ολόκληρο το κλίμα του Twitter. Πολιτική Τα κοινωνικά δίκτυα και τα micro-blogs είναι βασική πηγή πληροφοριών για τη πολική σκηνή, και για εκστρατείες μάρκετινγκ. Σημαντικό ορόσημο 19

20 αποτελεί η εκστρατεία του προέδρου των ΗΠΑ Μπαράκ Ομπάμα το Στην οποία, η Current TV, σε πρόγραμμά της κατά τη διάρκεια της συζήτησης μεταξύ Τζον Μακέιν και Μπαράκ Ομπάμα με τίτλο Hack the Debate, ζήτησε από το κοινό να δημοσιεύσει σχόλια στο Twitter. Με τη πρωτοβουλία αυτή, οι πολιτικοί είχαν τη δυνατότητα να βγάλουν πάρα πολλά συμπεράσματα, για την άποψη του κόσμου, ακούγοντας τις απόψεις του. Η ανάλυση συναισθήματος μέσω των σχολίων των χρηστών έπαιξε καθοριστικό ρόλο για στην έκβαση του αποτελέσματος των εκλογών. Έκτοτε το Twitter είναι βασικό μέσο επικοινωνίας της πολιτικής σκηνής. (7) Δημοσκοπήσεις Αν και παλιός όρος, οι σημερινές δημοσκοπήσεις διαφέρουν σε μεγάλο βαθμό από αυτές των προηγούμενων δεκαετιών. Μια τυπική παραδοσιακή τηλεφωνική δημοσκόπηση, ενός δείγματος χιλίων ερωτηθέντων κοστίζει τουλάχιστον δεκάδες χιλιάδες δολάρια, και πολλές εργατοώρες για την πραγμάτωσή της. Με τα σημερινά όμως μέσα δικτύωσης και την εφαρμογή εξόρυξης γνώσης και ανάλυσης συναισθήματος τα προβλήματα αυτά έχουν εξαλειφθεί. Μία δημοσκόπηση στη σημερινή εποχή είναι μία ανώδυνη και ανέξοδη διαδικασία, και πολύ πιο ακριβής, καθώς το δείγμα των ερωτηθέντων είναι πολύ μεγαλύτερο. Προφανώς υπάρχουν πολλές ακόμα χρήσεις της ανάλυσης συναισθήματος στα κοινωνικά δίκτυα. Μερικά παραδείγματα αναφέρονται παρακάτω. Μη κερδοσκοπικές οργανώσεις, όπως η Αμερικανική Αντικαρκινική Εταιρεία. Η κυβέρνηση των ΗΠΑ για ζητήματα εθνικής ασφάλειας. Για την εξαγωγή συναισθήματος, υπάρχουν τεχνικές επεξεργασίας φυσικής γλώσσας και αλγόριθμοι που μπορούν να χωριστούν σε κατηγορίες ανάλογα με τον τρόπο προσέγγισης του κειμένου αλλά και την ταξινόμηση συναισθήματος που κάθε φορά προτιμάται. Έτσι υφίστανται οι διάφοροι τρόποι της κατηγοριοποίησης της ανάλυσης συναισθήματος. Επιπλέον, αναλόγως με τη τεχνική και το βαθμό της ανθρώπινης παρέμβασης στη διαδικασία κατηγοριοποίησης, καθορίζονται επιπλέον 13 κατηγορίες. Παραστατικά τα παρουσιάζουμε στο παρακάτω σχήμα και αναλύονται παρακάτω. 20

21 3.3 Κατηγορίες Προσέγγισης κειμένου Εικόνα 3.2: Κατηγοριοποίηση Ανάλυσης Συναισθήματος Σε επίπεδο εγγράφου/κειμένου Αυτή η προσέγγιση εστιάζει στις απόψεις ενός μεμονωμένου ατόμου γύρω από ένα συγκεκριμένο θέμα, με σκοπό τον χαρακτηρισμό των προσωπικών συναισθημάτων και απόψεων του ως θετικών ή αρνητικών. Αν και πολύ χρήσιμη εφαρμογή, για την προσέγγιση αυτή το κείμενο πρέπει να επικεντρώνεται σε ένα μοναδικό θέμα, και να μην υπάρχει σύγκριση εννοιών. Η πλειοψηφία των τεχνικών ανάλυσης συναισθήματος εγγράφων είναι επιβλεπόμενης μάθησης. Υπάρχουν όμως και τεχνικές μη επιβλεπόμενης μάθησης. Στην ανάλυση σε επίπεδο κειμένου, καθοριστικό παράγοντα έχουν η γραμματική και η συντακτική ανάλυση του κειμένου, καθώς και οι συντακτικές σχέσεις και το φαινόμενο της άρνησης. (8) Σε επίπεδο πρότασης Η Ανάλυση Συναισθήματος σε επίπεδο πρότασης εστιάζει στην πολικότητά της. Δηλαδή εξετάζεται αν η στάση που εκφράζει είναι θετική, αρνητική ή ουδέτερη. Έχοντας σαν δεδομένο ότι κάθε πρόταση εκφράζει μόνο μια άποψη, οι προτάσεις μπορούν να κατηγοριοποιηθούν απευθείας ως θετικές ή αρνητικές. Σκοπός είναι ο διαχωρισμός των προτάσεων που περιέχουν πραγματικές-αντικειμενικές θέσεις, από αυτές που περιέχουν υποκειμενικές-προσωπικές απόψεις (4). Στη συνέχεια οι προτάσεις που περιέχουν στοιχεία υποκειμενικής κρίσης ταξινομούνται ως θετικές ή 21

22 αρνητικές. Γι αυτό το λόγο η προσέγγιση αυτή συχνά είναι συνυφασμένη με την ταξινόμηση υποκειμενικότητας (subjectivity classification). Στο επίπεδο αυτό, όπως και στο επίπεδο εγγράφου/κειμένου προσμετρούνται πολλές ακόμα παράμετροι, όπως το φαινόμενο της άρνησης (negation), η αμφισημία των λέξεων, ο συντακτικός ρόλος των λέξεων στην πρόταση κ.α. (9) (10) Σε επίπεδο λέξης Το επίπεδο λέξης είναι χρήσιμο για την ταξινόμηση έναν από των δύο παραπάνω επιπέδων (πρότασης ή κειμένου). Η νοοτροπία της ταξινόμησης αυτής είναι ότι οι δείκτες συναισθημάτων με τη μεγαλύτερη βαρύτητα είναι οι λέξεις γνώμης (opinion words). Ορίζεται λοιπόν η έννοια του λεξικού συναισθημάτων, το οποίο είναι λίστα από τέτοιες λέξεις (4). Για την κατασκευή των λεξικών συναισθημάτων χρησιμοποιούνται δεδομένα που είναι απόρροια της επεξεργασίας, εκτενών σωμάτων ηλεκτρονικών κειμένων (text corpora), γλωσσολογικών πόρων, όπως λεξικά και θησαυρών, με στόχο τον εμπλουτισμό μιας αρχικής λίστας που περιέχει λέξεις απόψεων (11) (seed words). Η προέκταση της λίστας αυτής, μπορεί να επιτευχθεί με χρήση συντακτικών μοτίβων τα οποία υλοποιούνται μέσα σε αυτά τα κείμενα. Η αξιοποίηση των πληροφοριών που προκύπτουν από τη συχνότητα εμφάνισης διαφορετικών μοτίβων λέξεων αποτελεί έναν άλλο τρόπο εμπλουτισμό της λίστας (12). Από την άλλη μεριά, τα λεξικά που έχουν ως βάση γλωσσολογικούς πόρους για να υλοποιήσουν αυτή την επέκταση χρησιμοποιούν τα συνώνυμα, τα αντώνυμα των λέξεων, καθώς και την ιεραρχία αυτών μέσα σε θησαυρούς όπως το WordΝet Επίπεδο οντότητας και χαρακτηριστικών Η Ανάλυση Συναισθήματος σε επίπεδο οντότητας και χαρακτηριστικών (entity and feature level), εστιάζει στις απόψεις που εκφράζονται και όχι στην ανάλυση δομικών στοιχείων της γλώσσας. Βασική ιδέα αυτής της ταξινόμησης, είναι ότι μία υποκειμενική κρίση, διαχωρίζεται σε δύο μέρη, το συναίσθημα και την οντότητα για την οποία εκφράζεται η άποψη. Συνηθίζεται επίσης να μελετούνται και επιπλέον παράγοντες, όπως το υποκείμενο που εκφράζει την άποψη (opinion holder) καθώς και η χρονική στιγμή που εκφράζεται η εκάστοτε άποψη (time). Όταν ένα υποκείμενο έχει μία άποψη για μία συγκεκριμένη οντότητα, είτε αυτή είναι θετική ή αρνητική, δεν σημαίνει ότι θα διατηρεί την ίδια γνώμη για όλα τα μεμονωμένα χαρακτηριστικά της (4). Η ταξινόμηση αυτή βασίζεται στην ιδέα ότι μία υποκειμενική άποψη αποτελείται από δύο μέρη, το συναίσθημα (sentiment) και τον στόχο (target). Γι αυτό είναι αναγκαίο η μελέτη και η ανάλυση όλων των επιμέρους χαρακτηριστικών μίας οντότητας και η αναζήτηση των συναισθημάτων προς τους στόχους αυτούς. (13). Για την ταξινόμηση του επιπέδου οντότητας και χαρακτηριστικών, 22

23 χρησιμοποιούνται κυρίως μέθοδοι επιβλεπόμενης μηχανικής μάθησης και δημιουργία λεξικών. 3.4 Τεχνικές Βασισμένες σε Λεξικά Ανεξάρτητα από την επιλογή επιπέδου ανάλυσης (κειμένου, πρότασης, οντοτήτων), τα περισσότερα μοντέλα ανάλυσης συναισθήματος, εκτός από τις μεθόδους μηχανικής μάθησης, χρησιμοποιούν και τεχνικές βασισμένες σε λεξικά, οι οποίες καθορίζουν την πολικότητα των λέξεων. Οι τεχνικές αυτές έχουν αποδειχτεί ότι έχουν καλά ποσοστά ακριβείας, όταν εφαρμόζονται σε κείμενα, των οποίων το λεξιλόγιο αναγνωρίζεται από τα εκάστοτε λεξικά που χρησιμοποιούν. Τα τελευταία είναι προκατασκευασμένα λεξικά συναισθήματος και αναλύουν την πολικότητα των λέξεων του κειμένου. Οι τεχνικές βασισμένες σε λεξικά, εκτός από μεγάλη ακρίβεια, έχουν τη δυνατότητα να εφαρμοστούν και σε πλήθος θεμάτων, χωρίς την χρήση training set. Ωστόσο η χρήση τους σε κείμενα δυναμικού χαρακτήρα, όπως Twitter ή micro-blogs υστερεί, λόγω της ύπαρξης συντομογραφιών και εκφράσεων αργκό. Επίσης η μελέτη της πολικότητας των λέξεων με τις τεχνικές αυτές είναι μονόπλευρη, διότι δεν λαμβάνουν υπόψη το γενικότερο πλαίσιο και ύφος του κειμένου μέσα στο οποίο χρησιμοποιούνται οι λέξεις, το οποίο μπορεί να οδηγήσει σε μεγάλες αποκλίσεις. Η τεχνική της χρήσης λεξικών για την ανάλυση συναισθήματος σε ένα κείμενο, αναγνωρίζει το κείμενο σαν ένα σύνολο από λέξεις (bag of words), χωρίς να την ενδιαφέρει η δομή ή γραμματική του κειμένου. Τα λεξικά για την απόδοση συναισθήματος αποδίδουν ετικέτες/βαθμολογίες στις λέξεις, σύμφωνα με το νόημά τους. Οι βασικές κατηγορίες στις οποίες τις χωρίζουν είναι αυτές που εκφράζουν θετικό, αρνητικό και ουδέτερο συναίσθημα. Μερικά λεξικά διαθέτουν περαιτέρω κατηγορίες όπως θετικό, αρνητικό, ουδέτερο, πολύ θετικό, πολύ αρνητικό. Για την εύρεση της συνολικής πολικότητας του κειμένου, προστίθενται οι βαθμολογίες των επιμέρους λέξεων, και το μεγαλύτερο άθροισμα καθορίζει το συνολικό συναίσθημα. 23

24 Εικόνα 4.1: Διαδικασία Ανάλυσης Συναισθήματος με χρήση λεξικού Δημιουργία λεξικών Όπως προαναφέρθηκε οι περισσότεροι μέθοδοι ανάλυσης συναισθήματος χρησιμοποιούν τεχνικές βασισμένες σε λεξικά, για την καλύτερη επίδοσή τους. Για την δημιουργία τέτοιων λεξικών, υπάρχουν τρεις βασικές προσεγγίσεις. Η προσέγγιση βασισμένη σε λεξικά, βασισμένη σε corpus (ηλεκτρονικό σώμα) και η μη-αυτοματοποιημένη μέθοδος. Dictionary-based methods/ Μέθοδοι βασισμένοι σε λεξικό: Οι συγκεκριμένες μέθοδοι προσπαθούν να καθορίσουν την πολικότητα μίας λέξεις από ήδη γνωστές και σημασιολογικά παρεμφερείς τους, μέσω της χρήσης λεξικών. Η μέθοδος αυτή ονομάζεται bootstrapping. Corpus-based methods/ Μέθοδοι βασισμένοι σε corpus Οι μέθοδοι βασισμένοι σε ηλεκτρονικό σώμα, λαμβάνουν υπόψη τα δομικά στοιχεία και το συντακτικό του κειμένου. Σκοπός τους είναι να προσεγγίσουν την πολικότητα των λέξεων ενός corpus, καθώς και η μελέτη των σχέσεων μεταξύ των λέξεων. Επίσης έχοντας σαν βασική αρχή μία ομάδα γνωστών λέξεων την εμπλουτίζει με ένα σύνολο από σημασιολογικά παρόμοιες λέξεις. 24

25 Η μη αυτοματοποιημένη μέθοδος Η μη αυτοματοποιημένη μέθοδος, αν και πιο χρονοβόρα, έχει τη δυνατότητα να συνδυάσει και να διορθώσει τις προηγούμενες. Γίνεται κατασκευή του λεξικού συναισθημάτων με την ανάλυση ενός συνόλου λέξεων, των οποίων η εισαγωγή γίνεται χειροκίνητα Λεξικά WordNet Το WordNet αποτελεί μία ηλεκτρονική λεξικολογική βάση δεδομένων. Βασικές λειτουργίες του λεξικού αυτού είναι η φυσική επεξεργασία κειμένων, όπως εξαγωγή δεδομένων and συμπερασμάτων, αυτόματη δημιουργία ευρετηρίων, κατηγοριοποίηση κειμένου, και μηχανική μετάφραση κειμένου, καθώς και η υλοποίηση query formulation με τη χρήση συνόλων συνωνύμων και ιεραρχίας ή άλλων σχέσεων μεταξύ των λέξεων του κειμένου. Η κύρια σημασιολογική σχέση μεταξύ των λέξεων στο WordNet είναι η συνωνυμία. Το λεξικό ομαδοποιεί τα μέρη του λόγου (ουσιαστικά, επίθετα, ρήματα) σε ομάδες συνωνύμων (synsets). Κάθε ομάδα αποτελεί μία ξεχωριστή σημασιολογική έννοια. Το WordNet επίσης διαθέτει και ένα σύνολο εννοιών. Η έννοια μιας λέξης εκφράζεται από την συχνότητα εμφάνισής ενός όρου με τη συγκεκριμένη έννοια, και αντιπροσωπεύεται με έναν αριθμό. Με βάση τη συχνότητα αυτή μπορούμε να βγάλουμε συμπέρασμα για την πιο δημοφιλή έννοια για κάθε λέξη (Most Frequent Sense). (14) (15) 25

26 26

27 Εικόνα 4.2: Λειτουργία λεξικού WordNet SentiWordNet Το SentiWordNet αποτελεί μία βελτιωμένη λεξική πηγή, ειδικά ανεπτυγμένη για την κατηγοριοποίηση συναισθήματος και εξόρυξη γνώσης. Το λεξικό αυτό είναι έκβαση της αυτόματης επισήμανσης όλων των synsets του WordNet, ανάλογα με τις έννοιες «θετικό», «αρνητικό», «ουδέτερο». Σε κάθε synset s αποδίδονται 3 βαθμολογίες: Pos(s), Neg(s), and Obj(s), οι οποίες δηλώνουν πόσο θετικοί, αρνητικοί ή ουδέτεροι είναι οι όροι που περιέχονται στο synset s αντίστοιχα. Κάθε μία από τις παραπάνω βαθμολογίες κυμαίνεται στο διάστημα [0.0,1.0] και το συνολικό άθροισμα των τριών βαθμολογιών πρέπει να ισούται με τη μονάδα, για κάθε synset. (11) 27

28 Εικόνα 4.3: Λειτουργία λεξικού SentiWordNet Linguistic Inquiry and Word Count Το πρόγραμμα LIWC αποτελείται από 4,500 λέξεις και κορμούς λέξεων και αποτελεί μία από τις βασικότερες τεχνικές κατηγοριοποίησης κειμένου. Πρόκειται για ένα υπολογιστικό πρόγραμμα γλωσσολογικής ανάλυσης. Κάθε λέξη ή κορμός λέξης χωρίζεται σε υποκατηγορίες σύμφωνα με το συναίσθημα, τα δομικά και τα γραμματικά χαρακτηριστικά τους. Τις περισσότερες φορές οι κατηγορίες αυτές κατατάσσονται ιεραρχικά. Για παράδειγμα όλες οι λέξεις που εκφράζουν χαρά, θα έχουν σαν πρώτη κατηγορία το θετικό συναίσθημα. Κάθε φορά που μία λέξη αντιστοιχείται σε μία κατηγορία το λεξικό LIWC αυξάνει τη μετρητή της κατηγορίας αυτής. Έπειτα, γίνεται η συλλογή των λέξεων (Word Collection). Στο βήμα αυτό δημιουργούνται προκαταρκτικές κατηγορίες συνόλων λέξεων, και επόμενες τυχαίες λέξεις που προέρχονταν από 3-6 κριτές ταξινομούνταν ανάλογα με την έννοιά τους στις ήδη προϋπάρχουσες κατηγορίες. Δημιουργείται έτσι ένας πίνακας από λίστες λέξεων. Στη συνέχεια γίνεται η βαθμολογία και η αξιολόγηση της κατηγοριοποίησης αυτής από τρεις ξεχωριστούς κριτές. Αμέσως μετά ακολουθεί η ψυχομετρική αξιολόγηση, κατά την οποία οι λέξεις με μικρή συχνότητα εμφάνισης είτε αντικαθιστούνται, είτε παραλείπονται. Τελικό στάδιο είναι οι προσθήκες/επεκτάσεις. Η δομή του λεξικού 28

29 αναδιαμορφώνεται και τροποποιείται, δίνοντας έμφαση στις λέξεις από προφορικά και γραπτά δείγματα. (14) Εικόνα 4.4: Λειτουργία λεξικού Linguistic Inquiry and Word Count 4. Τεχνικές επιβλεπόμενης μηχανικής μάθησης Η Επιβλεπόμενη Τεχνική Μάθηση ή Supervised Machine Learning, αποτελεί μία από τις πιο βασικές μεθόδους κατηγοριοποίησης συναισθήματος. Διαθέτει ένα προκαθορισμένο σύνολο από κλάσεις, και σαν στόχο έχει την κατηγοριοποίηση των αντικειμένων της εισόδου στις κλάσεις αυτές. Ορισμένοι από τους πιο γνωστούς αλγόριθμους επιβλεπόμενης μηχανικής μάθησης είναι οι Naive Bayes, Gaussian Naive Bayes, Support Vector Machines (SVM) και Multinomial Naive Bayes. 29

30 Στην περίπτωση της επιβλεπόμενης τεχνικής μάθησης, κάθε αντικείμενο που αποτελεί είσοδο για τον αλγόριθμο, αναπαριστάται σαν διάνυσμα. Με τον τρόπο αυτό ο ταξινομητής (classifier) μπορεί να διακρίνει τις διαφορές στα κείμενα και κατ επέκταση να τα ταξινομήσει στις σωστές κλάσεις. Οι τεχνικές επιβλεπόμενης μηχανικής μάθησης παρουσιάζουν τόσο πλεονεκτήματα, όσο και μειονεκτήματα. Η καλή τους ακρίβεια σε σύγκριση με τις τεχνικές μη επιβλεπόμενης μηχανικής μάθησης είναι ένα χαρακτηριστικό που τους κάνει να υπερτερούν σε σχέση με τις τελευταίες. Όμως η ανάγκη μεγάλου χρόνου εργασίας για την εύρεση πιο ικανοποιητικών τιμών αποτελεί ένα από τα μειονεκτήματα της επιβλεπόμενης μηχανικής μάθησης. Μοντέλο Επιβλεπόμενης Μηχανικής Μάθησης Αρχικά για την υλοποίηση της μηχανικής μάθησης και την ανάλυσης συναισθήματος, χρειαζόμαστε ένα σύνολο δεδομένων (data set). Το σύνολο αυτό χωρίζετε σε δύο set/ κατηγορίες. Η μία κατηγορία αποτελεί το training set, και η δεύτερη το test set. Το training set ή αλλιώς, σύνολο εκπαίδευσης, δίνεται σαν είσοδος, ώστε να το μελετήσει ο ταξινομητής. Το σύνολο εκπαίδευσης, έχει καταλυτικό ρόλο στην τεχνική της επιβλεπόμενης τεχνικής μάθησης, καθώς ανακαλύπτει τις ιδανικές τιμές για την χρήση των κατάλληλων κανόνων στην ταξινόμηση, και έχει άμεση επιρροή στο ποσοστό ακριβείας του αποτελέσματος. Το test set, ή αλλιώς σύνολο ελέγχου, υλοποιείται μετά το σύνολο εκπαίδευσης και πριν την πρόβλεψη. 4.1 Προ-επεξεργασία Η προ-επεξεργασία αποτελεί το στάδιο στο οποίο γίνεται η προσαρμογή του κειμένου/corpus σε κατάλληλη μορφή για την εκπαίδευση. Στο σημείο αυτό λαμβάνονται υπόψη τα ιδιαίτερα χαρακτηριστικά ενός κειμένου. Οι βασικές λειτουργίες που εφαρμόζονται για την προσαρμογή του κειμένου, για την μελλοντική του επεξεργασία με τις μεθόδους επιβλεπόμενης μηχανικής μάθησης είναι οι εξής: Η αναφορά στους άλλους χρήστες και τα hastags (#), αφαιρούνται ή αντικαθίστανται με άλλα key-words. (16) (17) (18) Τα άρθρα (a, an, the) επίσης αφαιρούνται. (18) Στο twitter το RT στα retweets αφαιρείται. (19) 30

31 Όσον αφορά τα emoticons, τα τελευταία αντικαθιστούνται με αντίστοιχες λέξεις συναισθήματος, από το λεξικό της Wikipedia. (19) Αφαιρούνται συνήθεις λέξεις. (19) Tokenization: η διαδικασία κατά την οποία γίνεται εξαγωγή όρων, οι οποίοι αποτελούν λεκτικές μονάδες (tokens) σε ένα κείμενο. Κάθε λέξη θεωρείται ένα token, τα οποία χωρίζονται μεταξύ τους με κενά ή σημεία στίξης. Σκοπός είναι ο καθορισμός των προτάσεων, των λέξεων και των σημείων στίξης. (16) (19) Με τον τρόπο αυτό, η περιττή πληροφορία έχει αφαιρεθεί και ο αλγόριθμος μπορεί να επεξεργαστεί το καθαρό κείμενο. Το αποτέλεσμα της ταξινόμησης του κειμένου θα είναι πιο αντιπροσωπευτικό, όσον αφορά την ανάλυση συναισθήματος. 4.2 Χαρακτηριστικά Features Τα χαρακτηριστικά ή αλλιώς features είναι αυτά που συμβάλουν στην έκβαση του αποτελέσματος ενός ταξινομητή. Για παράδειγμα features της οντότητας boat είναι sail, keel, boom, rudder, mast κτλ. Για την επεξεργασία όμως των features είναι αναγκαία η μετατροπή τους σ μορφή αποδεκτή για τον εκάστοτε ταξινομητή. Η ανάγκη αυτή προκύπτει γιατί κάθε ταξινομητής αναπαριστά τα χαρακτηριστικά με διαφορετικούς τρόπους (σε διανύσματα ή σε δυαδική μορφή). Τα χαρακτηριστικά που προκύπτουν είναι τα εξής: Tokens: όπως αναφέρθηκαν παραπάνω, τα οποία προκύπτουν κατά τη διαδικασία της προ-επεξεργασίας. N-grams: Πρόκειται για μονογράμματα, διγράμματα και τον συνδυασμό αυτών. Ο ταξινομητής Supportive Vector Machine έχει αποδειχτεί ο καταλληλότερος για τη χρήση των μονογραμμάτων. (20) Part-Of-Speech tagger: Είναι το πρόβλημα της σημείωσης με πληροφορίες για τη φύση των στοιχείων ενός ηλεκτρονικού κειμένου, ή όπως είναι γνωστό ως πρόγραμμα της γραμματικής επισημείωσης. Η χρήση του συνεισφέρει στην κατηγοριοποίηση της κάθε λέξης τους κειμένου σε μία κλάση, σύμφωνα με το τι μέρος του λόγου είναι (ρήμα, ουσιαστικό, επίθετο). Πολλές φορές το είδος μία λέξης μπορεί να έχει παραπάνω από μία ερμηνείες. Γι αυτό οι part of speech taggers εξετάζουν το κείμενο στο σύνολό του, ώστε να μπορούν να διακρίνουν επιπλέον ιδιαιτερότητες μίας λέξης, όπως πτώση, γένος, αριθμός κλπ. 31

32 Τα σημεία στίξης και το πλήθος των θαυμαστικών αποτελούν βασικά χαρακτηριστικά. Το πλήθος των επαναλαμβανόμενων γραμμάτων. Τα κεφαλαία γράμματα ή λέξεις Η άρνηση, η οποία αλλάζει όλη την πολικότητα μία έκφρασης. (18) (21) 4.3. Ταξινομητές Ο ταξινομητής (classifier) είναι μέσο το οποίο θα λάβει τις κατάλληλες αποφάσεις, με την βοήθεια των features. Πρόκειται ένα μαθηματικό εργαλείο το οποίο είναι υπεύθυνο για την ανάθεση ετικέτας/ label σε μία είσοδο «Απλοϊκό» Μοντέλο Naive Bayes Ο Naive Bayes αποτελεί έναν από τους πιο βασικούς ταξινομητές και στηρίζεται στην εφαρμογή του πιθανολογικού θεωρήματος Bayes. Στόχος τους είναι να κατατάξει ένα στιγμιότυπο σε μία από τις δεδομένες κλάσεις. Το μοντέλο καλείται «απλοϊκό» διότι στηρίζεται στην ανεξαρτησία μεταξύ των μεταβλητών. Βασικό του χαρακτηριστικό είναι ότι η εμφάνιση ενός χαρακτηριστικού σε κάποια κλάση είναι ανεξάρτητη από την εμφάνιση ενός άλλου χαρακτηριστικού, καθώς και το γεγονός ότι απαιτεί ένα σχετικά μικρό σύνολο εκπαίδευσης. Ο κανόνας Bayes αν του δοθούν δύο τυχαίες (και ανεξάρτητες) μεταβλητές Χ και Υ, ορίζεται ως η πιθανότητα να συμβεί η Χ= a, δεδομένου ότι έχει συμβεί η Υ=b, η οποίο ονομάζεται εκ των υστέρων πιθανότητα και εκφράζεται με τον παρακάτω τύπο: P(a b) = Στην μηχανική μάθηση και στην ανάλυση συναισθήματος, η παραπάνω πιθανότητα ορίζεται ως εξής: P(y x1,x2,..,xn) Όπου y είναι μία κλάση από το σύνολο των προκαθορισμένων κλάσεων, και {x1,x2,.,xn} είναι το διάνυσμα των χαρακτηριστικών Χ. Η πιθανότητα με βάση τον ταξινομητή Bayes υπολογίζεται από τον τύπο: P(y x1,x2,..,xn) = Όπου είναι η εκ των προτέρων πιθανότητα για κάθε xi και θεωρείται γνωστή. Συγκεκριμένα ο Naive Bayes υπολογίζει ξεχωριστά τις πιθανότητες του διανύσματος Χ να ανήκει σε κάθε μία από τις ορισμένες κλάσεις y, και επιστρέφει σαν τη σωστή κλάση κατάταξης, αυτή με τη 32

33 μεγαλύτερη πιθανότητα. Ο παραπάνω τύπος απλοποιείται ως εξής: (δήμου σελ 40, template σελ 50) P(y x1,x2,..,xn) = => P(y x1,x2,..,xn) = => P(y x1,x2,..,xn) = Multinomial Naive Bayes Ο Ταξινομητής ΜΝΒ (Multinomial Naive Bayes) ταξινομεί ένα γεγονός xi (xi ά ύ ) σε μία κλάση, η οποία έχει τη μεγαλύτερη πιθανότητα, χρησιμοποιώντας τον κανόνα Bayes: P(y xi) = Τα P(xi\y) υπολογίζονται από το training set, και εκφράζουν την πιθανότητα εμφάνισης ενός γεγονότος xi σε μία κλάση y, από το σύνολο των προκαθορισμένων κλάσεων, και υπολογίζεται από τον παρακάτω τύπο: P(xi y) = Στην περίπτωση που ένα γεγονός δεν υπάρχει στο training set, τότε η πιθανότητα P(y x1,x2,..,xn) μηδενίζεται, αν της αναθέσουμε το στιγμιότυπο του προβλήματος που περιέχει το γεγονός αυτό. Για να αποφευχθούν τέτοιου είδους προβλήματα, γίνεται προσθήκη μίας τιμής σε όλες τις πιθανότητες, με ώστε να μην είναι δυνατός ο μηδενισμός τους. (22) Maximum Entropy Ο ταξινομητής Maximum Entropy αποτελεί μία εναλλακτική τεχνική η οποία έχει αποδειχτεί πολύ χρήσιμη, σε πλήθος εφαρμογών. Πολλές φορές αποδίδει καλύτερα από τον απλοϊκό αλγόριθμο ταξινόμησης Naive Bayes, καθώς ο ίδιος ο χρήστης καθορίζει τα ζεύγη ετικετών (εκ των προτέρων πιθανότητα) χαρακτηριστικών (features) που έχουν τις δικές τους παραμέτρους. Σε αντίθεση με τον Naive Bayes στον οποίο καθορίζεται μία παράμετρος για 33

34 κάθε συνδυασμό χαρακτηριστικών (feature) ετικέτας (label). Επίσης ο ταξινομητής Maximum Entropy δεν προϋποθέτει την ανεξαρτησία μεταξύ των features, σε αντίθεση με τον Naive Bayes, γι' αυτό και μπορεί να αποδώσει καλύτερα σε περιπτώσεις εξάρτησης των χαρακτηριστικών. Η διαδικασία που ακολουθεί ο αλγόριθμος, με σκοπό την επίτευξη της μέγιστης απόδοσης του ταξινομητή, έχει ως εξής. Οι τιμές των παραμέτρων αρχικοποιούνται έτσι ώστε να επιτευχθεί η μέγιστη εντροπία της συγκεκριμένης κατανομής. Στην συνέχεια οι παράμετροι αυτοί ανανεώνονται επαναληπτικά, με σκοπό την βελτιστοποίηση των τιμών τους. Ωστόσο, αν και οι επαναληπτικές μέθοδοι βελτιστοποίησης εγγυώνται την εύρεση των βέλτιστων τιμών, ο χρόνος τους δεν μπορεί ποτέ να προκαθοριστεί. Γι' αυτό η γενική φιλοσοφία της μεθόδου είναι η επιλογή των μοντέλων που απαιτούν λιγότερες επαναλήψεις. Κάθε συνδυασμός ετικετών και χαρακτηριστικών στα οποία αποδίδεται δική τους παράμετρος, ονομάζεται joint-feature, και συμβάλουν στην υλοποίηση του Maximum Entropy, και είναι αντίστοιχα με αυτά που χρησιμοποιούνται στον ταξινομητή Naive Bayes. Τα joint-feature αντιπροσωπεύουν μία ιδιότητα των τιμών που έχουν ετικέτα με ετικέτα. Τα χαρακτηριστικά τα οποία δεν έχουν την joint-feature ιδιότητα αντιπροσωπεύουν ιδιότητα των τιμών χωρίς ετικέτα. Στη συνέχεια σε κάθε ετικέτα αποδίδεται ένας βαθμός για μία συγκεκριμένη είσοδο, που εξαρτάται από τα joint-features, και ισούται με το γινόμενο των τιμών που σχετίζονται με τα joint-features και εφαρμόζονται στην ετικέτα κατά την είσοδο. Η πιθανότητα P( c d) εκφράζεται με την παρακάτω εκθετική μορφή: P(c d) = Όπου fi(c,d) είναι χαρακτηριστικό/feature, μοναδικό για κάθε c, που ορίζεται μία κλάση από το σύνολο κλάσεων C, και d που εκφράζει μία λέξη. αν ά (23) *ni(d) = πλήθος λέξεων που υπάρχουν σε ένα κείμενο της κλάσης c Support Vector Machines Οι Μηχανές Διανυσματικής Υποστήριξης ή αλλιώς SVM, έχουν αποδειχτεί αρκέτα ικανοποιητικές τεχνικές για την κατηγοριοποίηση κειμένου, και πολλές φορές είναι πιο αποδοτικές από τον ταξινομητή Naive Bayes. Πρόκειται για ένα μη - πιθανολογικό αλγόριθμο, ο οποίος μπορεί να εφαρμοστεί για 34

35 γραμμικά αλλά και μη γραμμικά δεδομένα. Στόχος του είναι να ταξινομήσει τα δεδομένα σε δύο πιθανές κλάσεις. Στον ταξινομητή αυτό, τα δεδομένα αναπαριστούνται σαν σημεία στο χώρο και σκοπός του αλγορίθμου είναι να δημιουργήσει ένα hyperplane* το οποίο συμβολίζεται ως διάνυσμα w, το οποίο όχι μόνο θα διαχωρίζει τα δεδομένα στις 2 διακριτές κλάσεις, αλλά θα φροντίζει έτσι ώστε το κενό ανάμεσά τους να είναι όσο το δυνατόν μεγαλύτερο. Στον ταξινομητή αυτό μπορεί να γίνει η παραδοχή ότι οι δύο κλάσεις, στις οποίες κατηγοριοποιούνται τα δεδομένα είναι η θετική και η αρνητική, και συμβολίζονται ως cj={1,-1}, όπου αντίστοιχα είναι 1 η θετική και -1 η αρνητική. Όπως είναι λογικό χώρο στο χώρο μπορεί να υπάρχουν άπειρα hyperplanes, ή υπερ-επίπεδα, τα οποία χωρίζουν τις δύο κλάσεις. Γι αυτό το λόγο είναι αναγκαία η εύρεση του βέλτιστου υπερ- επιπέδου. Το βέλτιστο υπερ- επίπεδο είναι αυτό το οποίο έχει το μικρότερο σφάλμα ταξινόμησης των δεδομένων. Η Μηχανή Διανυσμάτων Υποστήριξης, συγκλίνει πάντα ντετερμινιστικά στην ίδια λύση, με την προϋπόθεση ότι έχει βρεθεί το βέλτιστο hyperplane. Το τελευταίο ονομάζεται maximum marginal hyperplane (MMH) και καθορίζει σε ποια από τις δύο κλάσεις που έχει ορίσει ανήκει κάθε δεδομένο. *hyperplane στον ν-διάστατο Ευκλείδειο χώρο είναι ένα διάνυσμα διάστασης n-1 (δηλαδή μία ευθεία) του αρχικού χώρου, το οποίο χωρίζει το χώρο σε δύο ξένα μέρη. 4.4 Μετρικές Αξιολόγησης Μετά το πέρας της εκπαίδευσης, το μηχανικό σύστημα μπορεί να ξεκινήσει την ταξινόμηση με την δοθείσα είσοδο. Για την αξιολόγηση της απόδοσης ενός ταξινομητή υπάρχουν συγκεκριμένες μετρικές για τον υπολογισμό της επίδοσης του εκάστοτε αλγορίθμου μηχανικής μάθησης. Η πιο βασική μετρική είναι η ορθότητα (accuracy), η οποία υπολογίζεται από τον τύπο: accuracy = TP = Σωστή ταξινόμηση / το πλήθος των στιγμιοτύπων που ανήκουν στην θετική κλάση και ταξινομήθηκαν στην θετική κλάση. TN = Σωστή ταξινόμηση / το πλήθος των στιγμιοτύπων που ανήκουν στην αρνητική κλάση και ταξινομήθηκαν στην θετική κλάση 35

36 FP = Λανθασμένη ταξινόμηση/ το πλήθος των στιγμιοτύπων που ανήκουν στην αρνητική κλάση και ταξινομήθηκαν στην αρνητική κλάση. FN = Λανθασμένη ταξινόμηση/ το πλήθος των στιγμιοτύπων που ανήκουν στην θετική κλάση και ταξινομήθηκαν στην αρνητική κλάση Άλλες μετρικές για την αξιολόγηση των αλγορίθμων μηχανικής μάθησης είναι: Η ευαισθησία ή ανάκληση(recall) που δίνεται από τον τύπο: recall = Η ακρίβεια (precision) που δίνεται από τον τύπο: precision = Η εξειδίκευση (specificity) που δίνεται από τον τύπο: specificity = H F-Measure, η οποία συνδυάζει δύο από τις παραπάνω μετρικές, την ακρίβεια και την ανάκληση, και παρέχει μία ολική εκτίμηση του μοντέλου: FMeasure = 5. Μοντέλα Κατηγοριοποίησης Συναισθήματος 5.1 Προγραμματιστικό Περιβάλλον Το προγραμματιστικό περιβάλλον το οποίο χρησιμοποιήθηκε σε αυτή την εργασία είναι το λογισμικό Weka. Το Weka (Waikato Environment for Knowledge Analysis) είναι μία πλατφόρμα για υλοποίηση μηχανικής μάθησης, 36

37 γραμμένη σε γλώσσα Java, και έχει αναπτυχθεί από το πανεπιστήμιο του Waikato, της Νέας Ζηλανδίας. Το πρόγραμμα περιέχει μία συλλογή οπτικών μέσων και αλγορίθμων για την ανάλυση δεδομένων, καθώς και μοντέλων πρόβλεψης. Πιο συγκεκριμένα υλοποιεί τις συγκεκριμένες λειτουργίες: Προεπεξεργασία των data, με χρήση συγκεκριμένων εφαρμογών πο ονομάζονται filters. Δημιουργία μοντέλων μέσω ενός training set. Αξιολόγηση αλγορίθμων τεχνικής μάθησης, μέσω στατιστικών στοιχείων. Απεικόνιση των δεδομένων και των αποτελεσμάτων που προέκυψαν κατά τη διαδικασία της εκπαίδευσης Αρχεία στο Weka Για την είσοδο των δεδομένων στο Weka, τα αρχεία πρέπει να είναι σε μορφή ARFF (Attribute - Relation File Format). Τα αρχεία της μορφής αυτής είναι αρχεία κειμένου χαρακτήρων, το οποίο περιλαμβάνει μία σειρά από instances, τα οποία με τη σειρά τους περιγράφονται από χαρακτηριστικά (attributes). Παρακάτω φαίνεται ένα παράδειγμα τέτοιου αρχείου. 37

38 Εικόνα 5.1: Μορφή αρχείου ARFF Οι γραμμές που ξεκινάνε με % είναι σχόλια τα οποία δεν υπολογίζονται κατά τη διαδικασία φόρτωσης του αρχείου, έτσι ώστε το νόημα του κειμένου να είναι πιο κατανοητό. Οι γραμμές που ξεκινάνε είναι υποχρεωτικές και δεν μπορούν να παραλειφθούν, και περιγράφουν το αρχείο. Στην συνέχεια είναι η δήλωση των attributes, η οποία γίνεται σύμφωνα με την εξής Το όρισμα <attribute_name> είναι το όνομα του attribute/χαρακτηριστικού, το οποίο πρέπει να ξεκινάει με γράμμα και να περικλείεται σε εισαγωγικά ( ). Το όρισμα <datatype> καθορίζει τον τύπος του χαρακτηριστικού. Ένα χαρακτηριστικό μπορεί να είναι αριθμητικό (numeric), ονομαστικό (<nominalspecification>), αλφαριθμητικό (string) ή ημερομηνία (date[<date-format>]). (24) 38

39 5.2 Συλλογή δεδομένων Για την καλύτερη κατανόηση και των μοντέλων ανάλυσης συναισθήματος, στο πλαίσιο αυτής της εργασίας θα εξεταστεί ένα σύνολο δεδομένων που προέρχεται από κριτικές ταινιών (IMDb). Οι χρήστες στην κριτική ταινιών έχουν τη δυνατότητα να εκφράσουν την άποψή τους, χωρίς κανέναν περιορισμό στο μέγεθος του κειμένου, το οποίο είναι ένα πλεονέκτημα, όσον αφορά την σαφήνεια του μηνύματος. Ωστόσο πολλές φορές συναντάται η χρήση συντομογραφιών, αργκό εκφράσεων, emoticons και hastags, τα οποία επηρεάζουν την κατανόηση της πολικότητας του εκάστοτε κειμένου, από τις μηχανές ανάλυσης συναισθήματος Δεδομένα από Κριτικές Ταινιών Το σύνολο δεδομένων που χρησιμοποιήθηκε στην εργασία αυτή περιέχει 2000 κριτικές, από το ιστότοπο IMDb ( Τα δεδομένα που ανακτήθηκαν έχουν χωριστεί χειροκίνητα σε δύο κατηγορίες, θετικές και αρνητικές κριτικές (1000 θετικές και 1000 αρνητικές). Κάθε κριτική, αποτελεί ένα ξεχωριστό αρχείο κειμένου. [26] [38] Στον παρακάτω πίνακα, δίνονται στιγμιότυπα κριτικών από την ιστοσελίδα IMDb: 39

40 Εικόνα 5.2: Στιγμιότυπο κριτικής ταινίας της ιστοσελίδας IMDb 5.3 Περιγραφή Μοντέλου Κατηγοριοποίησης Η υλοποίηση των μοντέλων κατηγοριοποίησης συναισθήματος, έγινε με τη βοήθεια του προγραμματιστικού περιβάλλοντος Weka. Παρακάτω, παρουσιάζονται τα βήματα που ακολουθήθηκαν, για την υλοποίηση των μοντέλων, ανάλογα με τις ιδιαιτερότητες τριών συνόλων δεδομένων Επιλογή Αλγορίθμου Για την εργασία αυτή έχουν επιλεχθεί οι αλγόριθμοι Multinomial Naïve Bays (MLN) και Stochastic Gradient Descent (SGD). Μετά την ανάλυση των μοντέλων κατηγοριοποίησης, θα συγκρίνουμε τα αποτελέσματα που θα προκύψουν. 40

41 6. Πειραματικά Αποτελέσματα Παρακάτω παρουσιάζονται τα πειραματικά αποτελέσματα των αλγορίθμων που χρησιμοποιήθηκαν για το σύνολο δεδομένων των κριτικών ταινιών. Σε κάθε αλγόριθμο εφαρμόστηκαν διαφορετικές τεχνικές επεξεργασίας κειμένου. Μερικές από τις πιο σημαντικές τεχνικές παρουσιάζονται παρακάτω: Word parsing και tokenization Σε αυτή τη φάση κάθε έγγραφο αναλύεται με σκοπό την εξαγωγή των όρων. Είναι αναγκαίος ο καθορισμός των χαρακτήρων διαχωρισμού, καθώς και η στρατιγική «tokenization» για ειδικές περιπτώσεις, όπως τονισμένες λέξεις, συνώνυμα ή ακρόνυμα κλπ. Stop-words removal Η τεχνική αυτή επιτρέπει την εξάλειψη συχνά χρησιμοποιούμενων λέξεων. Οι όροι αυτοί είναι αναγκαίο να εντοπίζονται και να απομακρύνονται καθώς είναι άχρηστες κατά τη διαδικασία της κατηγοριποίησης. Lemmatization and stemming Η τεχνική lemmatization, η οποία ετυμολογικά προέρχεται από τη λέξη Λήμμα (Lemma) καθορίζει τη ρίζα της κάθε λέξης. Για παράδειγμα οι λέξεις πλοίο, πλοίαρχος, πλοικτησία έχουν όλες την ίδια ετυμολογία. Stemming είναι μία απλή τεχνική lemmatization. Οι αλγόριθμοι Stemming λειτουργούν αφαιρώντας το επίθημα κάθε λέξης, ακολουθώντας συγκεκριμένους γραμματικούς κανόνες. Term selection/feature extraction Οι όροι που έχουν επιλεγεί από όλες τις προηγούμενες φάσεις πρέπει να περάσουν από μία επιπλέον επεξεργασία φιλτραρίσματος, για την αφαίρεση των όρων που έχουν μειωμένη ικανότητα προβλεψιμότητας ή είναι άμεσα συνδεδεμένοι με άλλους όρους. Η διαδικασία αυτή επίσης οδηγεί σε μία πιο απλή και αποτελεσματική κατηγοροιποίηση. Στη πρώτη φάση χρησιμοποιήθηκε το φίλτρο StringToWordVector, το οποίο μετατρέπει κάθε κείμενο σε διανυσματική μορφή. Με το StringToWordVector δίνεται η δυνατότητα να ανακαλύψουμε τα διαφορετικά στάδια της εξαγωγής κειμένου. Πιο συγκεκριμένα μπορούμε να κάνουμε τα εξής: 41

42 Καθορισμός του tokenizer Καθορισμός της λίστας των stop-words Επιλογή stemmer. Παρακάτω σκιαγραφούνται μερικά από τα βήματα που υλοποιήθηκαν για την κατηγοριοποίηση των 2000 κριτικών ταινιών από το site IMDb. Εικόνα 6.1 Εισαγωγή δεδομένων στο προγραμματιστικό περιβάλλον Weka Εικόνα 6.2: Εφαρμογή του String to Word Vector για τη μετατροπή των κειμένων σε διανύσματα 42

43 Εικόνα 6.3: Αποτελέσματα Sting to Word Vector χωρίς τη χρήση tokens, stopwords και attributes Εικόνα 6.4: Αποτελέσματα του αλγορίθμου Multinomial Bayes, με τους παραπάνω όρους Εικόνα 6.5: Αποτελέσματα του αλγορίθμου Multinomial Bayes 43

44 Εικόνα 6.6: Αποτελέσματα του αλγορίθμου SGD Εικόνα 6.7: Ποσοστά σωστής κατηγοριοποίησης του αλγορίθμου MLN Εικόνα 6.8: Ποσοστά σωστής κατηγοριοποίησης του αλγορίθμου SGD 44

Δείτε περισσότερα