«Σημασιολογικός προσδιορισμός απόψεων και. υποκειμενική ταξινόμηση μηνυμάτων κοινωνικών δικτύων» Case study Twitter. Φοιτήτρια: Αικατερίνη Τσαγκαλίδου

Σχετικά έγγραφα
1 Συστήματα Αυτοματισμού Βιβλιοθηκών

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Opinion Mining

Ρετσινάς Σωτήριος ΠΕ 1703 Ηλεκτρολόγων ΑΣΕΤΕΜ

Opinion Mining and Sentiment analysis

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

Social Media White. Chapter 1. Corporate Blogging

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Αλεξάνδρειο ΣΕΙ Θεσσαλονίκης 1. Σμήμα Διοίκησης Επιχειρήσεων 2. Σμήμα Μηχανικών Πληροφορικής

10 Νέα χαρακτηριστικά του Facebook που (πιθανόν) δεν γνωρίζεις

ΜΕΣΑ ΚΟΙΝΩΝΙΚΗΣ ΔΙΚΤΥΩΣΗΣ

«Καθοριστικοί παράγοντες της αποτελεσματικότητας της από στόμα-σε-στόμα επικοινωνίας στις ιστοσελίδες κοινωνικής δικτύωσης»

Εισαγωγή στα Μέσα Κοινωνικής Δικτύωσης

ΕΚΘΕΣΗ ΑΚΑΔΗΜΑΪΚΩΝ ΕΝΔΙΑΦΕΡΟΝΤΩΝ

Φύση και Μαθηματικά. Η χρυσή τομή φ

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Τεχνικές NLP Σχεδιαστικά Θέματα

Διαδικτυακό Περιβάλλον Διαχείρισης Ασκήσεων Προγραμματισμού

Στόχος της ψυχολογικής έρευνας:

Συγγραφή Τεχνικών Κειμένων

Η ΧΡΗΣΗ ΤΩΝ ΣΥΓΧΡΟΝΩΝ SOCIAL MEDIA

Αξιολόγηση της εκστρατείας ενημέρωσης, ευαισθητοποίησης, εκπαίδευσης στο πλαίσιο του έργου LIFE+PURE

Ερευνητική Εργασία. γ) ενθουσιασμό (ως προς τον τρόπο παρουσίασης των ηθοποιών)

Ideas that take you places

Τ.Ε.Ι. ΑΝΑΤΟΛΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΚΑΙ ΘΡΑΚΗΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ & ΕΠΙΧΕΙΡΗΣΕΩΝ

Ανάκτηση Πληροφορίας

ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΑ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΣΥΓΚΡΙΤΙΚΗ ΜΕΛΕΤΗ ΚΑΙ ΑΞΙΟΛΟΓΗΣΗ ΠΛΑΤΦΟΡΜΩΝ ΗΛΕΚΤΡΟΝΙΚΗΣ ΜΑΘΗΣΗΣ ΕΝΗΛΙΚΩΝ

Τίμος Κουλουμπής. Τμήμα Μηχανικών Πληροφοριακών & Επικοινωνιακών Συστημάτων, Πανεπιστήμιο Αιγαίου

Οικονόμου Παναγιώτης.

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Εισαγωγικό Φροντιστήριο

Πώς Διηγούμαστε ή Αφηγούμαστε ένα γεγονός που ζήσαμε

Γεωργική Εκπαίδευση Ενότητα 12

GoNToggle: ΕΞΥΠΝΗ ΜΗΧΑΝΗ ΑΝΑΖΗΤΗΣΗΣ ΜΕ ΧΡΗΣΗ ΟΝΤΟΛΟΓΙΩΝ

Γενικός προγραμματισμός στην ολομέλεια του τμήματος (διαδικασία και τρόπος αξιολόγησης μαθητών) 2 ώρες Προγραμματισμός και προετοιμασία ερευνητικής

Fake News ΕΛΛΗΝΙΚΟ ΚΕΝΤΡΟ ΑΣΦΑΛΟΥΣ ΔΙΑΔΙΚΤΥΟΥ. Γραμμή βοηθείας Ενημέρωση-Επαγρύπνηση Γραμμή παράνομου περιεχομένου

Θέματα Ατομικής Διπλωματικής Εργασίας Ακαδημαϊκό Έτος 2017/2018. Γεωργία Καπιτσάκη (Επίκουρη Καθηγήτρια)

ΟΔΗΓΟΣ ΧΡΗΣΗΣ ΥΠΗΡΕΣΙΑΣ [ΥΠΗΡΕΣΙΑ 2 ΑNAΠΤΥΞΗ

Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο

11/ Social Media. Η διείσδυση των Μέσων Κοινωνικής Δικτύωσης στην Ελλάδα.

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών

Γ Γυμνασίου: Οδηγίες Γραπτής Εργασίας και Σεμιναρίων. Επιμέλεια Καραβλίδης Αλέξανδρος. Πίνακας περιεχομένων

Διερεύνηση της αλληλεπίδρασης των συμμετεχόντων στα Εθνικά Θεματικά Δίκτυα Ερωτηματολόγιο Υπεύθυνων Συντονιστών

ΕΠΙΔΡΑΣΗ ΤΗΣ ΟΙΚΟΝΟΜΙΚΗΣ ΚΡΙΣΗΣ ΣΤΙΣ ΑΓΟΡΑΣΤΙΚΕΣ ΤΑΣΕΙΣ ΤΩΝ ΕΛΛΗΝΩΝ ΚΑΤΑΝΑΛΩΤΩΝ ΑΠΟ ΤΟ ΔΙΑΔΙΚΤΥΟ

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ. Κεφάλαιο 5 Συλλογή Δεδομένων & Δειγματοληψία

1. Σκοπός της έρευνας

Εισαγωγή στα Μέσα Κοινωνικής Δικτύωσης

Mobile Marketing: Οι Παράγοντες Αποδοχής του SMS των Ελλήνων Καταναλωτών

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. WordNet

Αναζητήσεις στο Διαδίκτυο

Χρήση δευτερογενών δεδομένων

Τεχνικές συλλογής δεδομένων στην ποιοτική έρευνα

Αναγνώριση Προτύπων Ι

Ανάλυση ποιοτικών δεδομένων

Twitter και Εφαρμογές

Εκπαίδευση ταξινοµητών κειµένου για το χαρακτηρισµό άποψης. Ειρήνη Καλδέλη ιπλωµατική Εργασία. Περίληψη

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΜΑΡΚΕΤΙΝΓΚ

ΠΑΝΕΛΛΑΔΙΚΗ ΕΡΕΥΝΑ ΤΟΥ ΕΚΚΕ ΜΕ ΤΙΤΛΟ: «TO ΔΙΑΔΙΚΤΥΟ ΣΤΗΝ ΕΛΛΑΔΑ. WORLD INTERNET PROJECT GREECE»

Εννοιολογική Ομοιογένεια

ΟΔΗΓΟΣ ΧΡΗΣΗΣ ΥΠΗΡΕΣΙΑΣ [ΥΠΗΡΕΣΊΑ 7 - ΥΠΗΡΕΣΊΑ

«ΣΤΑΤΙΣΤΙΚΗ ΕΡΕΥΝΑ ΚΑΙ ΑΝΑΛΥΣΗ ΤΩΝ ΥΠΗΡΕΣΙΩΝ ΗΛΕΚΤΡΟΝΙΚΗΣ ΠΡΟΒΟΛΗΣ ΣΤΗΝ ΚΥΠΡΙΑΚΗ ΑΓΟΡΑ»

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

Μέσα κοινωνικής δικτύωσης και κοινοποίηση περιεχομένου

ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ (ΤΕΙ) ΑΘΗΝΑΣ ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΒΙΒΛΙΟΘΗΚΟΝΟΜΙΑΣ ΚΑΙ ΣΥΣΤΗΜΑΤΩΝ ΠΛΗΡΟΦΟΡΗΣΗΣ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ

Αναζητήσεις στο Διαδίκτυο

Opinion Mining and Sentiment Analysis

Εργαστήρια Text Mining & Sentiment Analysis με Rapid Miner

Συνοπτικός Οδηγός Χρήσης του Moodle για τον Καθηγητή

Μεθοδολογία Έρευνας Διάλεξη 4 η : Κριτική Βιβλιογραφική Ανασκόπηση

ΚΕΦΑΛΑΙΟ Εισαγωγή Μεθοδολογία της Έρευνας ΕΙΚΟΝΑ 1-1 Μεθοδολογία της έρευνας.

Τα μέσα κοινωνικής δικτύωσης στη διαχείριση επικοινωνίας εταιρικών κρίσεων

Social Media και Επικοινωνία Φεβρουάριος 2009

ΕΝΙΑΙΟ ΠΛΑΙΣΙΟ ΠΡΟΓΡΑΜΜΑΤΟΣ ΣΠΟΥΔΩΝ

Σύνθετα μέτρα στην ποσοτική έρευνα: Δείκτες, κλίμακες και διαστάσεις

Τεχνικές Έρευνας. Εισήγηση 10 η Κατασκευή Ερωτηματολογίων

Σημαντικότητα της Έρευνας Μάρκετινγκ

1 η Δραστηριότητα Wiki

ΦΟΡΜΑ ΑΞΙΟΛΟΓΗΣΗΣ ΣΥΝΘΕΤΙΚΗΣ ΕΡΓΑΣΙΑΣ ΚΑΙ ΣΥΝΟΔΕΥΤΙΚΟΥ ΥΛΙΚΟΥ ΣΤΟ MYPROJECT

Δείγμα & Δειγματοληψία στην Έρευνα ΤΕΧΝΙΚΕΣ ΕΡΕΥΝΑΣ (#252) Θυμηθείτε. Γιατί δειγματοληψία; Δειγματοληψία

Γλωσσική Τεχνολογία. Εισαγωγή. Ίων Ανδρουτσόπουλος.

ΙΣΤΟΛΟΓΙΑ BLOGS Ένα διδακτικό εργαλείο

ΘΕΜΑΤΑ ΑΞΙΟΛΟΓΗΣΗΣ ΚΑΤΑΣΚΕΥΗ ΕΡΩΤΗΣΕΩΝ. Άννα Κουκά

Στην πράξη ουσιαστικά αντικαθιστά τον παραδοσιακό κατάλογο μιάς Βιβλιοθήκης με όλα τα παραπάνω πλεονεκτήματα.

ΕΡΩΤΗΜΑΤΟΛΟΓΙΟ ΞΕΝΟΔΟΧΕΙΑΚΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ (Hotel Questionnaire) Εγχειρίδιο χρήσης (Demo Manual)

Ermis Media. Κατηγορία: Τηλεόραση. Τίτλος Συμμετοχής: Ο Φώτης και η Μαρία λαμβάνουν Lacta Messages. Προϊόν/Υπηρεσία ( Brand Name): Lacta

15 τρόποι διαχείρισης αρνητικών σχολίων και κριτικής. Wake up to Booking.yeah

Παιδαγωγοί και παιδαγωγική σκέψη στον ελληνόφωνο χώρο (18ος αιώνας Μεσοπόλεμος)

Πληροφορίες για το νέο HSK

ΑΡΗΣ ΑΣΛΑΝΙΔΗΣ Φυσικός, M.Ed. Εκπαιδευτικός-Συγγραφέας

An expert is a person who has made all the mistakes that can be made in a very narrow field. Niels Bohr Βραβείο Νόμπελ στη Φυσική, 1922

Κοινωνικά Δίκτυα & Καλές Περιβαλλοντικές Πρακτικές

ΔΙΑΔΙΚΤΥΑΚΗ ΠΡΟΒΟΛΗ ΚΑΙ ΔΙΑΧΕΙΡΙΣΗ

Γραφείο Επαγγελματικού Προσανατολισμού και Πληροφόρησης Νέων Δήμου Ρεθύμνης

Παιδαγωγικές Εφαρμογές Η/Υ (Θεωρία) 21/03/2017. Διδάσκουσα: Αδαμαντία Κ. Σπανακά

ΠΕΡΙΛΗΨΗ ΠΡΟΕΡΓΑΣΙΑ ΓΙΑ ΝΑ ΓΡΑΨΟΥΜΕ ΜΙΑ ΚΑΛΗ ΠΕΡΙΛΗΨΗ

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

ΘΕΜΑ 1 Τεχνικές Εξαγωγής Συµφράσεων από εδοµένα Κειµένου και Πειραµατική Αξιολόγηση

Οδηγός LinkedIn. «10 συμβουλές επέκτασης της επιχείρησης σας, χρησιμοποιώντας το LinkedIn» Provided to you by

ΑΠΟΤΙΜΗΣΗ ΤΟΥ ΕΡΓΟΥ ΤΟΥ ΤΜΗΜΑΤΟΣ ΣΤΟΧΟΙ ΓΙΑ ΤΗΝ ΠΕΡΙΟΔΟ ΠΑΡΑΡΤΗΜΑ ΧΙ

ΟΔΗΓΟΣ ΧΡΗΣΗΣ ΥΠΗΡΕΣΙΑΣ [ΥΠΗΡΕΣΊΑ 4 - ΑΝΆΠΤΥΞΗ

ΑΝΑΛΥΣΗ ΑΡΘΡΟΥ ΜΕ ΘΕΜΑ: ΟΙ ΙΔΕΕΣ ΤΩΝ ΠΑΙΔΙΩΝ ΣΧΕΤΙΚΑ ΜΕ ΤΟ

ΤΕΧΝΟΛΟΓΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΝΟΣΗΛΕΥΤΙΚΗΣ

Transcript:

ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ «Σημασιολογικός προσδιορισμός απόψεων και υποκειμενική ταξινόμηση μηνυμάτων κοινωνικών δικτύων» Case study Twitter Φοιτήτρια: Αικατερίνη Τσαγκαλίδου Επιβλέπων: Αθηνά Βακάλη Αναπληρώτρια Καθηγήτρια τμήματος Πληροφορικής Θεσσαλονίκη, Φεβρουάριος 2011

ΠΡΟΛΟΓΟΣ Η παρούσα διπλωματική εργασία εκπονήθηκε στο πλαίσιο του Μεταπτυχιακού Προγράμματος Σπουδών της κατεύθυνσης «Πληροφοριακά Συστήματα» του τμήματος Πληροφορικής του Αριστοτέλειου Πανεπιστημίου Θεσσαλονίκης. Το αντικείμενο της εργασίας είναι η μελέτη, ο σχεδιασμός και η υλοποίηση μιας σημασιολογικής μεθόδου προσδιορισμού απόψεων και υποκειμενικής ταξινόμησης μηνυμάτων που προέρχονται από κοινωνικά δίκτυα και micro blogging υπηρεσίες. Η μελέτη περίπτωσης (case study) αφορά στο Twitter. Στο σημείο αυτό θα ήθελα να εκφράσω τις ειλικρινείς ευχαριστίες μου στην Αναπληρώτρια Καθηγήτρια κα Αθηνά Βακάλη, επιβλέπουσα της παρούσας διπλωματικής, για την ανάθεση της εργασίας, την υποστήριξή της, τις συμβουλές και παραινέσεις της καθ όλη τη διάρκεια εκπόνησής της, όπως επίσης και την Διδάκτορα κα Βασιλική Κουτσονικόλα, μέλος της ερευνητικής ομάδας του τμήματος, για την πολύτιμη, ευχάριστη και εποικοδομητική συνεργασία μας. Επιπλέον θα ήθελα να ευχαριστήσω τον κο Κωνσταντίνο Καφέτσιο, Επίκουρο Καθηγητή του τμήματος Ψυχολογίας του πανεπιστημίου της Κρήτης για τις επισημάνσεις και υποδείξεις του σχετικά με τα συναισθήματα και την εξαγωγή συμπερασμάτων από αυτά. Θεσσαλονίκη, Φεβρουάριος 2011 Αικατερίνη Τσαγκαλίδου Σελίδα 2 από 66

ABSTRACT This thesis describes the implementation of a method for the semantic opinion orientation and subjectivity classification of short messages coming from the microblogging service Twitter. Tweet messages are assessed as positive and negative with respect to a query. The implementation was done with the object-oriented high level computer language Python and our datasets were taken via the Application Programming Interface API of Twitter. We have use three datasets that concerns queries about Lady Gaga, Christmas and Wikileaks. Primarily we have study the research domain of Opinion Mining and Sentiment Analysis and highlight the unsolved problems that researchers facing now days. We record the theoretical concepts of the field and highlight the usefulness of lexiconbased techniques. The semantic analysis of our method relies on an opinion lexicon which furthermore enriched with synonymous words from WordNet (synsets). Our lexicon contains words and small phrases which are scored with an arithmetic value that indicate the semantic orientation of them and is independent from text. Finally we evaluate the results of our experiment processes and propose furthermore improvements for our method. Σελίδα 3 από 66

ΠΕΡΙΕΧΟΜΕΝΑ 1. Εισαγωγή...6 1.1 Οριοθέτηση του ερευνητικού πεδίου...7 1.2 Ανοικτά προβλήματα...8 1.3 Συνεισφορά της εργασίας...10 1.4 Η δομή της εργασίας...12 2. Εξόρυξη Γνώμης - Σημασιολογική Ανάλυση...14 2.1 Θεμελιώδεις έννοιες και Ορισμοί...17 2.2 Προηγούμενες εργασίες...19 2.2.1 Lexicon-Based Τεχνικές...20 2.2.2 Τεχνικές Μηχανικής Μάθησης...21 3. Λεξικό Απόψεων...23 3.1 Μέθοδοι δημιουργίας λεξικών...25 3.2 Πλεονεκτήματα - Μειονεκτήματα...26 4. Κοινωνικό δίκτυο «Twitter»...28 4.1 Ενδιαφέροντα στατιστικά στοιχεία...29 4.2 Δυσκολίες ανάλυσης των tweets...33 5. Παρουσίαση της μεθόδου...34 5.1 Τα Σύνολα Δεδομένων...35 5.1.1 Προετοιμασία δεδομένων...38 5.2 Δημιουργία λεξικού...40 Σελίδα 4 από 66

5.2.1 Εμπλουτισμός λεξικού...42 5.3 Υποκειμενική ταξινόμηση των tweets...45 6. Συγκεντρωτική παρουσίαση των αποτελεσμάτων της πειραματικής διαδικασίας...49 6.1 Σύνολο Δεδομένων «Χριστούγεννα»...51 6.2 Σύνολο Δεδομένων «Lady Gaga»...55 6.3 Σύνολο Δεδομένων «Wikileaks»...57 7. Συμπεράσματα...61 ΒΙΒΛΙΟΓΡΑΦΙΑ...64 Σελίδα 5 από 66

1o ΚΕΦΑΛΑΙΟ 1. ΕΙΣΑΓΩΓΗ Πολύ πριν την καθολική εξάπλωση του παγκόσμιου ιστού υπήρχε η ανάγκη της κατανόησης της γνώμης και της άποψης των συνανθρώπων μας. Εδώ και αρκετά χρόνια η ανάγκη αυτή πραγματοποιείται, ως επί το πλείστον, μέσα από τη μεγαλύτερη πηγή αναζήτησης πληροφοριών που είναι ο παγκόσμιος ιστός. Οι τεχνολογίες του web 2.0 επέτρεψαν την δημιουργία διαδικτυακών κοινοτήτων (forums, blogs, social networks) οι οποίες έχουν καθιερωθεί πλέον στην συνείδηση των χρηστών γιατί τους δίνουν την δυνατότητα να γνωρίζουν τις απόψεις άλλων χρηστών, να ανταλλάσουν πληροφορίες, να συνομιλούν και γενικότερα να σχολιάζουν γεγονότα που τους απασχολούν. Αυτή η νέα νοοτροπία αποτυπώνεται σε έρευνα που αναφέρεται στην εργασία [17] και από την οποία προκύπτει ότι το 81% των χρηστών έχουν προβεί σε αναζήτηση γνώμης για κάποιο προϊόν, τουλάχιστον μια φορά και το 20% αυτών το κάνουν σε καθημερινή βάση. Ανάμεσα στους χρήστες των blogs ποσοστό που κυμαίνεται από 73% έως το 87% δηλώνουν ότι έχουν επηρεαστεί θετικά ή αρνητικά από τις γνώμες που διαβάζουν. Ποσοστό χρηστών της τάξεως του 32% έχει ψηφίσει online για κάποιο προϊόν ή υπηρεσία ενώ 30% των χρηστών του δείγματος δηλώνουν ότι έχουν γράψει κριτική για κάποια υπηρεσία ή προϊόν που χρησιμοποίησαν. Σε άλλη έρευνα, που διεξήχθη σε δείγμα 2.500 αμερικανών ενηλίκων πολιτών, προκύπτει ότι στις πολιτικές εκλογές του 2006 οι πολίτες χρησιμοποίησαν το διαδίκτυο για την αναζήτηση της επικρατούσας πολιτικής τάσης. Αντίστοιχη έρευνα της MRB [40] για τα κοινωνικά δίκτυα (social media) στην Ελλάδα που διεξήχθη το 2009 παρουσιάζει ότι η μεγάλη πλειοψηφία των χρηστών του διαδικτύου θεωρεί ότι οι προσφερόμενες υπηρεσίες των δικτύων είναι πολύ θετικές. Τα σχετικά στατιστικά ποσοστά της έρευνας αφορούν στην ενημέρωση / πληροφόρηση (50,1%), την επικοινωνία (25,9%) και την διασκέδαση / ψυχαγωγία (23,0%). Σελίδα 6 από 66

1o ΚΕΦΑΛΑΙΟ 1.1 Οριοθέτηση του ερευνητικού πεδίου Τα δεδομένα που διοχετεύονται από τους χρήστες στο διαδίκτυο είναι κυρίως πληροφορία κειμένου (textual information), η οποία κατηγοριοποιείται σε γεγονότα (facts) και απόψεις (opinions) [1]. Τα γεγονότα είναι αντικειμενικές εκφράσεις σχετικές με οντότητες (entities), συμβάντα (events) και τις ιδιότητές τους (properties). Οι απόψεις είναι συνήθως υποκειμενικές εκφράσεις και περιγράφουν τη συναισθηματική κατάσταση των ανθρώπων, τις εκτιμήσεις ή τα αισθήματά τους σχετικά με μια οντότητα ή ένα συμβάν. Οι περισσότερες μελέτες που έχουν γίνει πάνω στον τομέα αυτό, επικεντρώνονται κυρίως στα γεγονότα και όχι στις απόψεις (π.χ. web search, text clustering text classification, information retrieval κ.α.). Οι εργασίες που μελετούν τις υποκειμενικές απόψεις των χρηστών, αναλύοντας το σημασιολογικό προσανατολισμό τους, είναι συγκριτικά λιγότερες, κυρίως γιατί η ανάγκη αυτή προέκυψε μετά την καθολική χρήση του web 2.0, το οποίο έχει αλλάξει δραματικά τον τρόπο που εκφράζονται οι χρήστες στο διαδίκτυο. Η συλλογή των υποκειμενικών απόψεων των χρηστών που καταγράφονται σε κοινωνικά δίκτυα (discussion groups, forums, blogs) ονομάζεται «User-Generated Content» (UGC) 1. Αυτή η συλλογή δημιουργεί μια νέα μετρήσιμη πηγή δεδομένων που έχει πρακτική εφαρμογή σε πολλά πεδία. Ωστόσο η ανεύρεση και η παρακολούθηση των απόψεων των χρηστών είναι δύσκολο έργο. Στις περισσότερες περιπτώσεις η πληροφορία είναι «κρυμμένη» μέσα σε κείμενα με αντιφατική, πολλές φορές, σημασιολογία. Γι αυτό το λόγο αναπτύχθηκε ο τομέας της Σημασιολογικής Ανάλυσης (Semantic Analysis - SA) ή αλλιώς Εξόρυξη Γνώμης (Opinion Mining - OM) που ασχολείται με την επεξεργασία της φυσικής γλώσσας και την εξόρυξη πληροφορίας από αυτήν. 1 Στη βιβλιογραφία αναφέρονται και άλλοι συνώνυμοι όροι όπως: Consumer Generated Media (CGM) και User-Created Content (UCC). Σελίδα 7 από 66

1o ΚΕΦΑΛΑΙΟ 1.2 Ανοικτά προβλήματα Πολλές εμπορικές εφαρμογές που έχουν αναπτυχθεί (e-shops,) χρησιμοποιούν ως πηγή πληροφοριών τις συλλογές UGC και υπόσχονται ότι ανακαλύπτουν την επικρατούσα άποψη των χρηστών χρησιμοποιώντας τεχνικές σημασιολογικής ανάλυσης. Όμως, όπως επισημαίνεται σε συζητήσεις καταγεγραμμένες σε διαδικτυακά blogs [38], τις περισσότερες φορές τα μηνύματα των χρηστών κατηγοριοποιούνται ως ουδέτερα, ήτοι σημαίνει ότι οι εφαρμογές αποτυγχάνουν να ανακαλύψουν κάποια θετική ή αρνητική άποψη (η συζήτηση είχε ως παράδειγμα το brand name Starbucks). Γι αυτό και μέχρι σήμερα η αυτοματοποιημένη σημασιολογική ανάλυση δεν είναι απόλυτα αποδεκτή, γιατί δεν εξυπηρετεί πλήρως ούτε τους χρήστες ούτε τις επιχειρήσεις, οι οποίοι αποσκοπούν σε πιο σαφή και αξιόπιστα αποτελέσματα. Οι απόψεις αυτές αντανακλούν τις ανησυχίες των ενημερωμένων χρηστών και καθιστούν σαφές ότι υπάρχει πλέον ισχυρή απαίτηση για ολοκληρωμένες λύσεις. Ο Bing Liu, καθηγητής του πανεπιστημίου του Illinois, που προσέφερε πολλά στην έρευνα της σημασιολογικής ανάλυσης, σε συνέντευξή του [39] επισημαίνει ότι η πρόοδος στο συγκεκριμένο τομέα είναι σχετικά αργή, γιατί οι ερευνητές συχνά δεν γνωρίζουν πια προβλήματα είναι πρακτικά κρίσιμα και αναλώνονται σε διάφορες μη συγκλειόμενες μελέτες. Αυτή η αργή εξέλιξη των ερευνών καθιστά ύποπτο το γεγονός ότι ορισμένες εφαρμογές, διαφημιστικών κυρίως εταιρειών, υποστηρίζουν ότι παρέχουν σημασιολογικές αναλύσεις και κατηγοριοποιούν δημοφιλή προϊόντα σύμφωνα με τις απόψεις των χρηστών. Σε πολλές από αυτές δε, παραθέτονται και ορισμένα παραδείγματα από τα μηνύματα, θέλοντας να ενισχύσουν την αξιοπιστία των αποτελεσμάτων που παρέχουν. Το ερώτημα που τίθεται είναι, γιατί εμφανίζονται μόνο λίγα μηνύματα και δεν παρουσιάζεται ένα ικανοποιητικό τυχαίο δείγμα, ώστε ο χρήστης να μπορεί να αξιολογήσει με διαφάνεια τα αποτελέσματα; Μήπως πίσω από την πρακτική αυτή κρύβονται επιχειρηματικές μέθοδοι προώθησης προϊόντων; Μήπως οι εφαρμογές αδυνατούν να παρουσιάσουν περισσότερα μηνύματα γιατί δεν μπορούν να επιτύχουν ικανοποιητική ακρίβεια στα αποτελέσματα; Σελίδα 8 από 66

1o ΚΕΦΑΛΑΙΟ Όμως πώς εκτιμάται η ακρίβεια των αποτελεσμάτων μιας αυτοματοποιημένης σημασιολογικής ανάλυσης; Μέχρι σήμερα δεν υπάρχει κάποια μετρική που να αξιολογεί την ορθότητα του σημασιολογικού προσδιορισμού ενός κειμένου. Κάποιοι θα υποστήριζαν ότι η καλύτερη μέθοδος αξιολόγησης είναι η πλήρη κατανόηση των γλωσσικών και συντακτικών κανόνων και η αποτύπωσή τους σε υπολογιστικές μεθόδους. Όμως κάθε γλώσσα έχει τις δικές της ιδιαιτερότητες, κατά συνέπεια απαιτούνται διαφορετικές προσεγγίσεις για κάθε μια ξεχωριστά. Επιπλέον πολλοί παράγοντες επηρεάζουν τον τρόπο με τον οποίο εκφράζονται οι χρήστες. Το μορφωτικό και κοινωνικό επίπεδο, ο πολιτισμός και η κουλτούρα, οι προσωπικές ιδιαιτερότητες καθενός είναι κάποιοι από τους παράγοντες που διαμορφώνουν τον γραπτό λόγο των χρηστών [25] και αυξάνουν σημαντικά τις παραμέτρους της ανάλυσης. Από τα παραπάνω συμπεραίνουμε ότι ο τομέας της σημασιολογικής ανάλυσης είναι ακόμα ένα ανοικτό πεδίο έρευνας. Οι προσεγγίσεις και οι μέθοδοι που παρουσιάζονται στην βιβλιογραφία δεν έχουν απορροφηθεί ακόμα από την βιομηχανία γι αυτό και δεν υπάρχουν εκτενείς συγκριτικές αναφορές, ενώ οι ερευνητικές εργασίες συνήθως εφαρμόζονται σε ένα περιορισμένο σύνολο δεδομένων. Γι αυτό οι ερευνητές [39] προτείνουν, κάθε καινοφανής ιδέα που παρουσιάζεται, να συνδυάζετε επιτυχημένα με υπάρχουσες προσεγγίσεις ώστε να εμπλουτίζεται η βάση γνώσης του ερευνητικού πεδίου και να αναδύονται οι ιδιαιτερότητές του. Σελίδα 9 από 66

1o ΚΕΦΑΛΑΙΟ 1.3 Συνεισφορά της εργασίας Καθημερινά, εκατομμύρια ανθρώπων καταθέτουν τις απόψεις και τις σκέψεις τους για διάφορα θέματα στα κοινωνικά δίκτυα. Η κατανόηση όμως του περιεχομένου των μηνυμάτων και αν αυτά εκφράζουν θετική ή αρνητική άποψη γίνεται αντιληπτή μόνο από τους ανθρώπους. Στην παρούσα εργασία παρουσιάζουμε μια μέθοδο που σχετίζεται με το σημασιολογικό προσδιορισμό των απόψεων και την υποκειμενική ταξινόμηση μηνυμάτων που προέρχονται από το κοινωνικό δίκτυo Twitter. Το Twitter είναι ένα παγκόσμιο δίκτυο επικοινωνίας που δεν έχει ακόμα πολλούς φανατικούς χρήστες στην Ελλάδα, αλλά έχει δισεκατομμύρια αφοσιωμένων χρηστών ανά τον κόσμο που το χρησιμοποιούν καθημερινά. Παρουσιάζει μια σημαντική διαφορά σε σχέση με άλλα, γνωστότερα δίκτυα όπως το Facebook, MSN κλπ. Ο χρήστης μπορεί να δημοσιεύσει ένα κείμενο περιορισμένης έκτασης (140 χαρακτήρες) το οποίο ονομάζεται «tweet». Γενικότερα τα tweets δεν είναι τόσο στοχαστικά, με την έννοια ότι δεν έχουν μια σαφώς εκφρασμένη άποψη σχετικά με ένα αντικείμενο όπως συνηθίζεται σε forums και blogs. Σχήμα 1: Απεικόνιση της μεθόδου Σελίδα 10 από 66

1o ΚΕΦΑΛΑΙΟ Η μέθοδος που προτείνεται είναι η πρώτη προσέγγιση στο πρόβλημα και περιλαμβάνει τη μελέτη, το σχεδιασμό και την υλοποίηση της διαδικασίας. Η μέθοδος χωρίζεται σε τρία διακριτά στάδια. Στο πρώτο στάδιο γίνεται η συλλογή των συνόλων δεδομένων χρησιμοποιώντας το Application Programming Interface (API) του Twitter. Τα δεδομένα προετοιμάζονται κατάλληλα για να συμμετέχουν στην περαιτέρω διαδικασία. Στο δεύτερο στάδιο, χρησιμοποιούμε μια λίστα λέξεων την οποία ονομάζουμε «Λεξικό απόψεων» που περιέχει λέξεις και φράσεις της αγγλικής γλώσσας οι οποίες είναι σημασιολογικά προσδιορισμένες σε θετικές και αρνητικές. Ο σημασιολογικός προσδιορισμός τους αποτυπώνεται από μια αριθμητική τιμή που κυμαίνεται μεταξύ του διαστήματος [-1, 1]. Περαιτέρω υλοποιούμε τεχνικές εμπλουτισμού του Λεξικού απόψεων αναζητώντας συνώνυμες λέξεις και φράσεις από το online λεξικό WordNet. Στο τελευταίο στάδιο της μεθόδου, υλοποιούμε lexicon-based τεχνικές για την υποκειμενική ταξινόμηση των μηνυμάτων χρησιμοποιώντας τα παραγόμενα δεδομένα των δύο προηγούμενων σταδίων. Το αποτέλεσμα της μεθόδου είναι η υποκειμενική ταξινόμηση των μηνυμάτων που προκύπτει από την επισήμανση των θετικών και αρνητικών απόψεων των χρηστών. Η υλοποίηση της μεθόδους έγινε με την αντικειμενοστραφή γλώσσα υψηλού επιπέδου Python η οποία επιλέχθηκε γιατί είναι open-source και παρέχει βιβλιοθήκες δυναμικής σημασιολογίας. Η πρακτική εφαρμογή μιας μεθόδου σημασιολογικού προσδιορισμού απόψεων και η χρήση της ως ένα εργαλείο, εξυπηρετεί την πλειοψηφία των χρηστών του διαδικτύου γιατί καλύπτει την καθημερινή απαίτησή τους για ενημέρωση παρέχοντας άμεσα αποτελέσματα. Αρκεί να αναλογιστούμε, πόσες φορές δεν έχουμε δαπανήσει χρόνο, ψάχνοντας πληροφορίες και απόψεις άλλων χρηστών για κάποιο προϊόν ή υπηρεσία ή πόσες φορές δεν έχουμε διαβάσει δημοσκοπήσεις σε διάφορες δημοσιογραφικές ιστοσελίδες, ψάχνοντας την επικρατούσα άποψη σχετικά με ένα πολιτικό ή κοινωνικό γεγονός. Πόσο ευκολότερο θα ήταν για όλους, αν κάθε κοινωνικό δίκτυο παρείχε μια μέθοδο αναζήτησης όπου εισάγοντας ο χρήστης μια λέξη-κλειδί εμφανίζονταν τα μηνύματα ταξινομημένα ως προς τη άποψη που εκφράζουν. Σελίδα 11 από 66

1o ΚΕΦΑΛΑΙΟ Τα οφέλη μιας τέτοιας μεθόδου είναι άμεσα ορατά και για τις επιχειρήσεις και για άλλους κοινωνικοπολιτικούς φορείς, οι οποίοι θα έχουν τη δυνατότητα, γρήγορα, άμεσα και κυρίως χωρίς ιδιαίτερο κόστος, να αντλούν χρήσιμες πληροφορίες για τις απόψεις των χρηστών σχετικά με προϊόντα ή υπηρεσίες, που θα τους βοηθήσουν να βελτιώσουν τις μελλοντικές τους στρατηγικές. Επί του παρόντος, μεγάλοι επιχειρηματικοί όμιλοι και πολιτικοί φορείς δαπανούν μεγάλο μέρος των προϋπολογισμών τους, αναζητώντας τις απόψεις των πολιτών κυρίως μέσω δημοσκοπήσεων. Η δημοσιοποίηση των αποτελεσμάτων των ερευνών δεν είναι πάντα γνωστοποιήσιμη στο ευρύτερο κοινό ενώ ορισμένες φορές η επεξεργασία των αποτελεσμάτων και η παρουσίασή τους δεν βοηθάει στον συμπερασμό μιας άμεσα θετικής ή αρνητικής άποψης. 1.4 Η δομή της εργασίας Στο δεύτερο κεφάλαιο γίνεται μια εισαγωγή στο γνωστικό αντικείμενο της Εξόρυξης Γνώμης (Opinion Mining - OM) και της Σημασιολογικής Ανάλυσης (Semantic Analysis SA), αναφέρονται οι βασικοί ορισμοί και οι θεωρητικές έννοιες που πλαισιώνουν το πεδίο και καταγράφονται οι επικρατέστερες μέθοδοι σημασιολογικής ανάλυσης που μελετήθηκαν σε σχετικές εργασίες. Στο τρίτο κεφάλαιο γίνεται αναφορά στην έννοια του Λεξικού Απόψεων (Opinion Dictionary OD) και περιγράφονται οι τεχνικές που χρησιμοποιήθηκαν σε ερευνητικές εργασίες για τον προσδιορισμό της σημασιολογίας των λέξεων ενώ στο τέλος του κεφαλαίου αναφέρουμε τα πλεονεκτήματα και τα μειονεκτήματα της χρήσης των λεξικών αυτών. Στο τέταρτο κεφάλαιο γίνεται μια σύντομη παρουσίαση του κοινωνικού δικτύου Twitter, αναφέρονται ενδιαφέροντα στατιστικά στοιχεία της υπηρεσίας και γίνεται μια καταγραφή των δυσκολιών ανάλυσης και επεξεργασίας των μηνυμάτων που προέρχονται από το συγκεκριμένο κοινωνικό δίκτυο. Σελίδα 12 από 66

1o ΚΕΦΑΛΑΙΟ Στο πέμπτο κεφάλαιο καταγράφονται τα στάδια υλοποίησης της μεθόδου, ξεκινώντας από τη διαδικασία συλλογής των συνόλων δεδομένων, το είδος τους και τις τεχνικές προετοιμασίας τους. Στη συνέχεια παρουσιάζεται η μέθοδος επεξεργασίας ενός λεξικού απόψεων που περιέχει σημασιολογικά βαθμολογημένες λέξεις και φράσεις της αγγλικής γλώσσας και οι διαδικασίες εμπλουτισμού του με συνώνυμους όρους. Στο τελευταίο στάδιο παρουσιάζεται η μέθοδος του σημασιολογικού προσδιορισμού των απόψεων και η υποκειμενική ταξινόμηση των μηνυμάτων που πραγματοποιείται συνδυάζοντας τα παραγόμενα αποτελέσματα των δύο προηγούμενων φάσεων. Στο έκτο κεφάλαιο αρχικώς παρουσιάζονται συγκεντρωτικά τα αποτελέσματα των πειραμάτων που έγιναν ενώ στη συνέχεια αναλύονται επιμέρους τα σύνολα δεδομένων και καταγράφονται οι προβληματισμοί και οι παρατηρήσεις μας για το καθένα ξεχωριστά. Στο έβδομο κεφάλαιο αναφέρονται τα συμπεράσματα που προέκυψαν από την ολοκλήρωση της διαδικασίας και παρουσιάζονται οι προτάσεις μας για την περαιτέρω βελτίωσή της. Τέλος αναφέρονται οι βιβλιογραφικές πηγές και οι ερευνητικές εργασίες που μελετήθηκαν και συνέβαλαν στην ολοκλήρωση της μεθόδου μας. Σελίδα 13 από 66

2 ο ΚΕΦΑΛΑΙΟ 2. ΕΞΟΡΥΞΗ ΓΝΩΜΗΣ - ΣΗΜΑΣΙΟΛΟΓΙΚΗ ΑΝΑΛΥΣΗ Η «Εξόρυξη Γνώμης» (Opinion Mining) είναι ένας όρος που πρωτοεμφανίζεται στα πλαίσια του συνεδρίου «International World Wide Web Conferences» το 2003. Ενδεχομένως ο τόπος δημοσίευσης, εν μέρει, να εξηγεί τη δημοτικότητα και την αποδοχή του στην ευρύτερη επιστημονική κοινότητα, όμως έως ένα μεγάλο βαθμό η ερμηνεία του συνδεόταν με την αναζήτηση πληροφοριών στο διαδίκτυο και την ανάκτηση πληροφορίας [16]. Το παρελθόν του όρου «Σημασιολογική Ανάλυση» (Sentiment Analysis) είναι παράλληλο με αυτό της εξόρυξης γνώμης [17]. Ο όρος «σημασιολογία» χρησιμοποιήθηκε αρχικά για την αυτόματη ανάλυση και αξιολόγηση ενός κειμένου για την παρακολούθηση της προβλέψιμης κρίσης, κυρίως σε εργασίες που αφορούσαν στην ανάλυση της συναισθηματικής αγοράς [21, 22]. Ωστόσο σήμερα έχει μια ευρύτερη έννοια που αφορά στην υπολογιστική αντιμετώπιση της γνώμης, του συναισθήματος και της υποκειμενικότητας ενός κειμένου. Η ερευνητική δραστηριότητα της Εξόρυξης γνώμης και της Συναισθηματικής ανάλυσης δεν έχει μεγάλο παρελθόν. Η επιστημονική κοινότητα έχει δείξει έντονο ενδιαφέρον από το 2000 και μετά, όπου υπάρχει ραγδαία αύξηση των βιβλιογραφικών αναφορών και μελετών για το συγκεκριμένο πεδίο [16]. Σχήμα 2: Διάγραμμα ερευνητικής δραστηριότητας Σελίδα 14 από 66

2 ο ΚΕΦΑΛΑΙΟ Οι παράγοντες που συνέβαλαν στην έξαρση της ερευνητικής δραστηριότητας στο τομέα αυτό είναι [17]: η αύξηση των μεθόδων στις διαδικασίες επεξεργασίας της φυσικής γλώσσας και της ανάκτησης πληροφορίας, η διαθεσιμότητα πληθώρας συνόλων δεδομένων λόγω της άνθησης του παγκόσμιου ιστού και των κοινωνικών δικτύων και η συνειδητοποίηση των διανοητικών προκλήσεων, της εμπορικότητας και των ευφυών εφαρμογών που μπορεί να προσφέρει το συγκεκριμένο ερευνητικό πεδίο. Γιατί όμως η εξόρυξη γνώμης είναι τόσο σημαντική και γιατί υπάρχει τόσο έντονο ενδιαφέρον; Οι επιχειρήσεις δαπανούν μεγάλα ποσά σε έρευνες αγοράς ώστε να ανακαλύψουν τη γνώμη των καταναλωτών σχετικά με κάποιο προϊόν ή υπηρεσία. Στο ίδιο μήκος κύματος κινούνται και πολιτικοκοινωνικοί φορείς, διεξάγοντας τακτικά έρευνες σχετικές με τη γνώμη των πολιτών και πως αυτοί αντιλαμβάνονται τις πολιτικές και κοινωνικές εξελίξεις. Και στις δύο προαναφερόμενες περιπτώσεις οι αναλυτές είναι επικεντρωμένοι σε ένα μοντέλο ανάλυσης που αποτελείται από ένα δείγμα ανθρώπων και ένα ερωτηματολόγιο. Η διαδικασία συλλογής και επεξεργασίας των απαντήσεων είναι αργή, δαπανηρή και συνήθως το αποτέλεσμα αντιπροσωπεύει ένα συγκεκριμένο δείγμα ανθρώπων με κάποια ιδιαίτερα κοινωνικοοικονομικά χαρακτηριστικά. Το κόστος της διαδικασίας είναι απαγορευτικό και αποτρεπτικό για τις μικρές επιχειρήσεις. Στο αντίποδα, μια μέθοδος σημασιολογικής ανάλυσης και εξόρυξης γνώμης, απαιτείται την ελάχιστη ανθρώπινη συμμετοχή, συνήθως την εισαγωγή μιας φράσης κλειδί, είναι γρήγορη και φτηνή με άμεσα αποτελέσματα, αντιπροσωπεύει συντριπτικά μεγαλύτερο δείγμα και μπορεί να χρησιμοποιηθεί άμεσα από όλους, είτε είναι απλοί χρήστες είτε επιχειρήσεις είτε άλλοι φορείς. Σελίδα 15 από 66

2 ο ΚΕΦΑΛΑΙΟ Υπάρχουν όμως σημαντικές δυσκολίες που πρέπει να ξεπεραστούν έως ότου φτάσουμε στο ιδανικό σημείο που περιγράφουμε παραπάνω. Οι δυσκολίες πάνω στις οποίες σκοντάφτει σήμερα η τεχνολογία είναι σχετικές με: α) το μεγάλο όγκο δεδομένων, τις περισσότερες φορές μη ταξινομημένο και κατηγοριοποιημένο (ελεύθερο κείμενο), γ) την εντοπισμό των απόψεων που προκύπτουν συνήθως έμμεσα μέσα από κείμενα (forums) και σύντομα μηνύματα των χρηστών (twitter, facebook, msn), δ) την δυσκολία επεκτασιμότητας των μεθόδων, συνήθως οι τεχνικές που αναπτύσσονται σε κάποιον πεδίο εφαρμογής (domain), δεν έχουν αξιόλογα αποτελέσματα αν εφαρμοσθούν σε άλλο πεδίο. Πέραν των ανωτέρων, οι ερευνητές και όσοι ασχολούνται με το συγκεκριμένο επιστημονικό πεδίο συχνά διαφωνούν για το κατά πόσο μια γραπτή δήλωση αποτελεί ξεκάθαρα γνώμη ή όχι. Σύμφωνα με την εργασία [16] οι απόψεις που είναι καταχωρημένες στο διαδίκτυο διακρίνονται σε δύο είδη: στις απόψεις - γνώμες, όπως οι φράσεις αλήθεια, ψέμα, είναι δυνατόν, είναι απίθανο και στις αποφάσεις κρίσεις, όπως οι λέξεις καλός, κακός, ουδέτερος, σοφός, ανόητος κ.α. Ωστόσο η μεταξύ τους διάκριση εξακολουθεί να είναι δύσκολη γιατί ενώ κάποιος μπορεί να αντιλαμβάνεται μια φράση ως άποψη, κάποιος άλλος να έχει διαφορετική υποκειμενική άποψη. Για παράδειγμα η πρόταση «πιστεύω ότι αυτός είναι έξυπνος» μπορεί να χαρακτηρισθεί και ως άποψη και ως απόφαση. Σελίδα 16 από 66

2 ο ΚΕΦΑΛΑΙΟ 2.1 Θεμελιώδεις έννοιες και Ορισμοί Είναι γνωστό το πρόβλημα των ερμηνειών και των ορισμών που προκύπτει σε κάθε τομέα. Στο παρόν κεφάλαιο θα αναφέρουμε τους βασικότερους από αυτούς, που εξυπηρετούν στην κατανόηση των αρχών του πεδίου της σημασιολογίας κειμένων. Η σημασιολογική ανάλυση ή εξόρυξη γνώμης είναι ο συνδυασμός μελέτης της άποψης, της σημασιολογίας και του συναισθήματος ενός κειμένου. Κύριος στόχος της είναι ο προσδιορισμός ή ο προσανατολισμός της άποψης που εκφράζει ένα κείμενο, μια διαδικασία που περικλείει ως επιμέρους στόχο και τη διάκριση μεταξύ υποκειμενικής και αντικειμενικής άποψης [1]. Σημασιολογική ανάλυση Εξόρυξη γνώμης Προσδιορισμός Σημασιολογίας Sentiment orientation Ταξινόμηση Classification Θετική Positive Αρνητική Υποκειμενική Subjective Negative Ουδέτερη Neutral Αντικειμενική Objective Σχήμα 3: Κατηγορίες σημασιολογικού προσδιορισμού και ταξινόμησης Σελίδα 17 από 66

2 ο ΚΕΦΑΛΑΙΟ Στη βιβλιογραφία συναντούμε συχνά τους συνώνυμους όρους «Συναισθηματική Κατηγοριοποίηση» (Sentiment Classification) και «Εξαγωγή Γνώμης» (Opinion Extraction) [16]. Ορισμός 1: Κάτοχος άποψης (opinion holder): Ο κάτοχος μιας άποψης είναι αυτός που την εκφράζει και μπορεί να είναι ένα υποκείμενο, ένας οργανισμός, μια ομάδα κ.α. Ορισμός 2: Προσδιορισμός Άποψης (Opinion orientation) 2 : Ο προσδιορισμός της άποψης, που αφορά σε ένα χαρακτηριστικό, υποδεικνύει εάν η άποψη είναι θετική, αρνητική ή ουδέτερη. Ορισμός 3: Συναισθήματα (emotions): Τα συναισθήματα είναι οι αισθήσεις και οι σκέψεις ενός υποκειμένου. Τα συναισθήματα είναι ένα ιδιαίτερο πεδίο έρευνας με το οποίο έχουν ασχοληθεί πολλοί επιστημονικοί τομείς, όπως η ψυχολογία, η φιλοσοφία, η κοινωνιολογία, η βιολογία κ.α. Παρόλα αυτά δεν υπάρχει ακόμα μια κοινά αποδεκτή βάση αναφοράς των συναισθηματικών κατηγοριών. Βασιζόμενοι στις εργασίες [3, 4, 25, 32] διακρίνουμε έξι κύριες κατηγορίες συναισθημάτων: αγάπη (love), χαρά (joy), έκπληξη (surprise), θυμό (anger), λύπη (fear) και φόβο (fear). Κάθε μια από τις κατηγορίες αυτές μπορεί να περιέχει πολλές ακόμα υποκατηγορίες κατηγοριοποιώντας περαιτέρω την ένταση των συναισθημάτων. Ορισμός 4: Πρόταση με άποψη (opinioned sentence) ονομάζεται μια πρόταση που εκφράζει άμεση ή έμμεση, θετική ή αρνητική άποψη. Η πρόταση αυτή μπορεί να είναι είτε υποκειμενική είτε αντικειμενική. Ορισμός 5: Αντικειμενική - Υποκειμενική πρόταση (sentence objectivity subjectivity): Μια αντικειμενική πρόταση εκφράζει κάποια πραγματική πληροφορία για τον κόσμο, ενώ μια υποκειμενική εκφράζει απόψεις και πεποιθήσεις. 2 Στη βιβλιογραφία αναφέρονται και άλλοι συνώνυμοι όροι όπως: polarity of opinion και semantic orientation. Σελίδα 18 από 66

2 ο ΚΕΦΑΛΑΙΟ Οι υποκειμενικές προτάσεις έχουν διάφορες μορφές όπως για παράδειγμα ισχυρισμούς, επιθυμίες, υποθέσεις, υποψίες, όμως υπάρχει και η περίπτωση να μην περιέχουν καμία άποψη. Το ίδιο παρατηρείται και σε ορισμένες αντικειμενικές προτάσεις. Με τους ορισμούς 4 & 5 γίνεται σαφής ο διαχωρισμός μεταξύ μιας υποκειμενικής πρότασης και μιας πρότασης με άποψη. Οι προτάσεις με άποψη αποτελούν υποσύνολο των υποκειμενικών προτάσεων. Η τεχνική αναγνώρισης και ταξινόμησης των προτάσεων με άποψη ονομάζεται «Υποκειμενική Ταξινόμηση» (Subjectivity Classification) [1]. Σύμφωνα με την εργασία [33] η υποκειμενική ταξινόμηση ενός κειμένου μπορεί να διαιρεθεί σε τρία αλληλοεξαρτώμενα πεδία: στον προσδιορισμό της υποκειμενικότητας (subjectivity) που ερευνά εάν σε ένα κείμενο, εκφράζεται ή όχι, θετική ή αρνητική άποψη σχετικά με ένα θέμα, στον προσδιορισμό του προσανατολισμού (orientation or polarity), που εξετάσει εάν σε ένα υποκειμενικό κείμενο εκφράζεται θετική ή αρνητική άποψη και στον προσδιορισμό του σθένους του προσανατολισμού (strength of orientation), που εξετάζει αν η θετική ή αρνητική άποψη που εκφράζεται σε ένα κείμενο είναι κλιμακωτή (ασθενής, μερική ή έντονη). 2.2 Προηγούμενες εργασίες Οι περισσότερες εργασίες μελετούν και προτείνουν μεθόδους για τον προσδιορισμός του προσανατολισμού ενός κειμένου δηλαδή την εύρεση των προτάσεων που περιέχουν άποψη για ένα θέμα είτε θετική είτε αρνητική [5, 7, 9, 10, 18, 19, 24, 26, 27, 30, 34]. Σε κάποιες εργασίες με χρήση στατιστικών μεθόδων, επεκτείνουν περαιτέρω την υποκειμενικότητα ενός κειμένου και ταξινομούν τις απόψεις με βάση κάποια συναισθήματα, όπως στην εργασία [4] η οποία αναγνωρίζει έξη συναισθήματα (anger, disgust, fear, joy, sadness, surprise) σε σύνολα δεδομένων που προέρχονται Σελίδα 19 από 66

2 ο ΚΕΦΑΛΑΙΟ από τίτλους ειδήσεων. Αντίστοιχα, στην εργασία [32] προσδιορίζουν την υποκειμενικότητα συζητήσεων από blogs, με βάση 8 συναισθηματικούς άξονες (acceptance, fear, anger, joy, anticipation, sadness, disgust, surprise). Από την μελέτη σχετικών ερευνητικών εργασιών προέκυψε το συμπέρασμα ότι για τον προσδιορισμό της υποκειμενικότητας ενός κειμένου χρησιμοποιούνται δύο βασικές προσεγγίσεις. Η πρώτη προσέγγιση βασίζεται σε λεξικά και χαρακτηρίζεται ως lexicon-based τεχνική ενώ η δεύτερη χρησιμοποιεί παραλλαγές αλγορίθμων Μηχανικής Μάθησης (machine learning) για τον προσδιορισμό της σημασιολογίας των απόψεων. 2.2.1 Lexicon-Based Τεχνικές Η κεντρική ιδέα των lexicon-based τεχνικών βασίζεται στο σημασιολογικό προσδιορισμό των λέξεων. Η μέθοδος που προτείνεται στην εργασία [9] υλοποιεί μια πολύ απλή και αποτελεσματική πρακτική. Εντοπίζονται και αθροίζονται οι θετικές και αρνητικές λέξεις που βρίσκονται κοντά σε ένα χαρακτηριστικό ενός προϊόντος. Εάν οι θετικές λέξεις υπερτερούν έναντι των αρνητικών τότε η άποψη που εκφράζεται για το χαρακτηριστικό θεωρείται θετική αλλιώς αρνητική. Η μέθοδος στηρίχθηκε σε ένα λεξικό, που δημιουργήθηκε από λέξεις-σπόρους του πεδίου και επεκτάθηκε με bootstrapping διαδικασίες χρησιμοποιώντας το online λεξικό WordNet. Στην εργασία [8], η οποία έχει το ίδιο πεδίο εφαρμογής, υιοθετείται η προηγούμενη τεχνική και επεκτείνεται, κάνοντας την παραδοχή ότι όσες λέξεις βρίσκονται κοντά σε ένα χαρακτηριστικό και αναφέρουν τον συντακτικό σύνδεσμο «και» τότε οι λέξεις ή οι φράσεις που συνδέονται έχουν τον ίδιο σημασιολογικό προσδιορισμό. Επιπλέον χρησιμοποιούνται τεχνικές part-of-speech (POS) και προσδιορίζεται χειροκίνητα η υποκειμενικότητα 1000 ιδιωματισμών που συχνά αναφέρονται σε κριτικές προϊόντων. Η τεχνική POS αφορά στην συντακτική ανάλυση ενός κειμένου, πραγματοποιείται μέσω part-of-speech parsers και χρησιμοποιείται αρκετά συχνά σε ερευνητικές εργασίες [2, 8, 9, 10, 12, 13, 18, 19]. Ένας POS parser λαμβάνει ως Σελίδα 20 από 66

2 ο ΚΕΦΑΛΑΙΟ είσοδο ένα κείμενο και επιστρέφει ως έξοδο ένα έγγραφο στο οποίο κάθε όρος έχει επισημανθεί με μια ετικέτα υποδεικνύοντας το μέρος του λόγου που ανήκει. Με αυτόν τον τρόπο εντοπίζεται η συντακτική χρήση μιας λέξης μέσα στο κείμενο και κατ επέκταση προσδιορίζεται η κατάλληλη ερμηνείας της. Οι κύριες κατηγορίες ετικετών της αγγλική γλώσσας είναι: ουσιαστικά (noun), ρήματα (verb), επίθετα (adjective), επιρρήματα (adverb), αντωνυμίες (pronoun) και προθέσεις (preposition). Το Twittratr [44] είναι ένα website που ισχυρίζεται ότι εκτελεί σημασιολογική ανάλυση στα μηνύματα του Twitter προσδιορίζοντας την άποψη των χρηστών σχετικά με ένα ερώτημα. Δεν μπορέσαμε να εντοπίσουμε την αντίστοιχη ερευνητική εργασία που να περιγράφει την ακριβή μέθοδο που εφαρμόσθηκε. Οι μόνες πληροφορίες που αναφέρονται στην ιστοσελίδα τους είναι ότι χρησιμοποιούν μια λίστα λέξεων που αποτελείται από 174 θετικά και 185 αρνητικά επίθετα τα οποία χρησιμοποιούνται για τον σημασιολογικό προσδιορισμό των tweets. Από τις δοκιμές που εκτελέσαμε διαπιστώσαμε ότι η πλειοψηφία των μηνυμάτων που επιστρέφονται, ταξινομούνται στην κατηγορία «Ουδέτερα» γεγονός που δείχνει ότι το λεξικό που χρησιμοποιείται δεν είναι ολοκληρωμένο. 2.2.2 Τεχνικές Μηχανικής Μάθησης Οι έρευνες που επικεντρώνονται σε αυτή την τεχνική πειραματίζονται στην επιλογή του καταλληλότερου αλγορίθμου Μ.Μ. και των πλέον αντιπροσωπευτικών χαρακτηριστικών ενός κειμένου. Αφού καταλήξουν σε ένα αξιόλογο σύνολο εκπαίδευσης, οι αλγόριθμοι Μ.Μ. εκπαιδεύεται έτσι ώστε να μπορούν, με σχετικά υψηλή ακρίβεια, να πραγματοποιούν υποκειμενική ταξινόμηση άγνωστων περιπτώσεων [5, 7, 10, 15, 21, 24, 27, 30]. Στην εργασία [10] μελετάται η υποκειμενική ταξινόμηση σύντομων μηνυμάτων από το Twitter, χρησιμοποιούνται κατηγοριοποιητές Μ.Μ. όπως ο Naïve Bayes, Maximun Entropy, Support Vector Machines ενώ η εξαγωγή των χαρακτηριστικών στηρίζεται σε unigrams, bigram και part-of-speech ετικέτες. Για την δημιουργία του συνόλου εκπαίδευσης χαρακτηρίζονται χειροκίνητα 177 αρνητικά και 184 θετικά μηνύματα. Ο αλγόριθμος που βρέθηκε να δίνει τα υψηλότερα ποσοστά Σελίδα 21 από 66

2 ο ΚΕΦΑΛΑΙΟ ταξινόμησης είναι ο MaxEnt με ποσοστά επιτυχίας 83%. Μια παρόμοια μέθοδο εφαρμόσθηκε και στην εργασία [27]. Το δικό τους σύνολο εκπαίδευσης αποτελείται από 370 θετικά και 370 αρνητικά μηνύματα που ομοίως χαρακτηρίσθηκαν χειροκίνητα ενώ ο κατηγοριοποιητής που είχε την μεγαλύτερη ακρίβεια ήταν ο Naïve Bayes με ποσοστά 64%. Ένα από τα συνήθη προβλήματα που αντιμετωπίζουν οι ερευνητές που εφαρμόζουν τεχνικές μηχανικής μάθησης είναι η μη αυτόματη προσθήκη ετικετών στα δεδομένα εκπαίδευσης. Στην εργασία [11] προτείνεται μια τέτοια μέθοδος χρησιμοποιώντας κατηγοριοποιητές υψηλής ακρίβειας (HP-Subj, HP-Obj) οι οποίοι αυτόματα αναγνωρίζουν κάποιες υποκειμενικές και αντικειμενικές προτάσεις. Οι κατηγοριοποιητές χρησιμοποιούν μια λίστα από λεξικογραφικούς όρους οι οποίοι αποτελούν μια πρώτη ένδειξη. Μια πρόταση θα ταξινομηθεί ως υποκειμενική εάν περιέχει δύο ή περισσότερους ενδεικτικούς όρους της λίστας και ως αντικειμενική στην αντίθετη περίπτωση. Οι κατηγοριοποιητές συνήθως δίνουν υψηλά ποσοστά ακρίβειας (high precision) αλλά χαμηλά ποσοστά ολοκλήρωσης (low recall). Μια ακόμα δυσκολία είναι σχετική με το γεγονός ότι τα συστήματα μάθησης πρέπει να εκπαιδεύονται σε ένα εξαιρετικά μεγάλο σύνολο δεδομένων για να αποκτήσουν ένα αξιόπιστο υποκειμενικό λεξιλόγιο που να έχει ευρεία και ολοκληρωμένη χρήση [17]. Σε κάθε έρευνα σημασιολογικού προσδιορισμού κειμένων, ανεξαρτήτου τεχνικής προσέγγισης, η ανάλυση εξαρτάται άμεσα από το πεδίο εφαρμογής των συνόλων [1]. Μια μέθοδος που έχει αξιόλογα αποτελέσματα σε ένα πεδίο μπορεί να μην είναι αξιόπιστη σε κάποιο άλλο. Το γεγονός αυτό οφείλεται στις ιδιαιτερότητες της φυσικής γλώσσας όπου η ερμηνεία πολλών λέξεων δεν είναι μονοσήμαντη. Όπως επισημαίνεται στην εργασία [5] το επίθετο «απρόβλεπτο» ερμηνεύεται αρνητικά όταν αφορά στη συμπεριφορά ενός αυτοκινήτου (απρόβλεπτη συμπεριφορά), ενώ θετικά όταν σχετίζεται με μια κινηματογραφική ταινία (απρόβλεπτη πλοκή). Σελίδα 22 από 66

3 ο ΚΕΦΑΛΑΙΟ 3. ΛΕΞΙΚΟ ΑΠΟΨΕΩΝ Η χρήση των λέξεων που εκφράζουν άποψη (opinion words) 3 εφαρμόζεται σε αρκετές εργασίες εξόρυξης γνώμης [9, 13, 15, 18, 24, 33, 34, 35, 36]. Συνήθως οι θετικές λέξεις (positive opinion words) εκφράσουν μια επιθυμητή κατάσταση ενώ οι αρνητικές (negative opinion words) μια ανεπιθύμητη κατάσταση. Παράδειγμα θετικών λέξεων: όμορφα (beautiful), υπέροχα (wonderful), καλά (good), φανταστικά (amazing) κ.α. Παράδειγμα αρνητικών λέξεων: άσχημα (bad), φτωχά (poor), απαίσια (terrible). Πέραν αυτών, υπάρχουν αντίστοιχα θετικές - αρνητικές φράσεις και ιδιωματισμοί. Συγκεντρωτικά, όλα τα παραπάνω, αποτελούν το λεξικό απόψεων (opinion lexicon) [1]. Οι λέξεις, θετικές και αρνητικές, μπορούν να χωριστούν σε δύο επιπλέον κατηγορίες: βασικού τύπου (base type) και συγκριτικού τύπου (comparative type). Στην κατηγορία συγκριτικού τύπου ανήκουν οι λέξεις, συνήθως επίθετα, που βρίσκονται στον υπερθετικό (comparative) και συγκριτικό (superlative) βαθμό. Παράδειγμα λέξεων συγκριτικού τύπου: καλύτερο (better), χειρότερο (worse), κάλλιστο (best), κάκιστο (worst) κ.α. Σε αντίθεση με τις λέξεις βασικού τύπου, οι συγκριτικού τύπου συνήθως δεν καταδεικνύουν άμεσα κάποια άποψη αλλά εκφράσουν μια σύγκριση για ένα ή περισσότερα αντικείμενα. Για παράδειγμα η πρόταση «Το αυτοκίνητό μου είναι καλύτερο από το δικό σου» δεν μπορεί να θεωρεί ότι εκφράζει μια άμεση άποψη (πιο αυτοκίνητο είναι καλύτερο). Η κατηγοριοποίηση των συγκριτικών λέξεων σε θετικές ή αρνητικές βασίζεται στο αν η λέξη αυτή αναπαριστά μια επιθυμητή ή ανεπιθύμητη κατάσταση του ουσιαστικού. Σε ορισμένες εργασίες [9, 13, 18, 24, 33] οι ερευνητές αντιμετωπίζουν την θετική ή αρνητική ιδιότητα των λέξεων ως κατηγορία, δηλαδή μια λέξη είναι είτε θετική είτε αρνητική. Άλλες εργασίες [15, 34, 35] αντιμετωπίζουν το σημασιολογικό προσδιορισμό μιας λέξης ως ένδειξη εκφρασμένη με μια αριθμητική τιμή. Όπως 3 Στη διεθνή βιβλιογραφία συναντούμε επίσης τους συνώνυμους όρους polar words, opinion-bearing words και sentiment words. Σελίδα 23 από 66

3 ο ΚΕΦΑΛΑΙΟ αναφέρεται στην εργασία [34] ο υπολογισμός του σημασιολογικού προσδιορισμού βασίζεται σε δύο παραδοχές: α) κάθε λέξη έχει μια αρχική πολικότητα (prior polarity) και είναι ανεξάρτητη του κειμένου και β) η ένδειξη του σημασιολογικού προσδιορισμού εκφράζεται ως μια αριθμητική τιμή. Στην εργασία [36] υιοθετούν τη θετική ή αρνητική ιδιότητα των λέξεων και την επεκτείνουν σε ομάδες συνώνυμων λέξεων (synsets) χρησιμοποιώντας το online λεξικό WordNet. Βασίζονται στην παραδοχή ότι κάθε sysnet περιέχει κυρίως όρους που έχουν τον ίδιο σημασιολογικό προσδιορισμό. Στη συνέχεια εφαρμόζετε ένα μοντέλο randomwalk για την ταξινόμηση των synsets του WordNet σε θετικά και αρνητικά. Ο όρος «synset» χρησιμοποιείται κυρίως στο ηλεκτρονικό λεξικό WordNet και εκφράζει την ομαδοποίηση των αγγλικών λέξεων σε ομάδες συνωνύμων όρων περιγράφοντας τη εννοιολογική τους σχέση. Υπάρχει μια δενδροειδή μορφή πίσω από τις ομάδες αυτές. Κάθε synset περιέχει όρους οι οποίοι ανήκουν και αυτοί σε άλλα synsets κοκ. Η σχέση αυτή συνδέει ειδικούς όρους (hyponym) με πιο αφαιρετικούς όρους (hypernym). Για παράδειγμα ο όρος «carrot» (hyponym) συνδέεται με τον όρο «plant root» ο οποίος με τη σειρά του συνδέεται με τον πιο αφαιρετικό όρο «plant organ». Με τον τρόπο αυτό χτίζεται ένα κατευθυνόμενο δέντρο που διαθέτει μονοπάτια μεταξύ κάθε όρου του λεξικού και παρέχει την δυνατότητα να υπολογισθεί η εννοιολογική ομοιότητα δύο ή περισσότερων λέξεων. Σχήμα 4: Σχηματική απεικόνιση των synsets Σελίδα 24 από 66

3 ο ΚΕΦΑΛΑΙΟ 3.1 Μέθοδοι δημιουργίας λεξικών Για τη δημιουργία ενός λεξικού απόψεων, δηλαδή μιας λίστας λέξεων σημασιολογικά προσδιορισμένες, χρησιμοποιούνται συνήθως τρεις προσεγγίσεις: η χειροκίνητη, η βασιζόμενη σε λεξικό και η βασιζόμενη σε γραμματική [1]. Στη πράξη χρησιμοποιούνται συνδυαστικά και οι τρεις τεχνικές. Αν και η χειροκίνητη δημιουργία λεξικών είναι αρκετά χρονοβόρα, κάποιοι ερευνητές [15, 34, 35] εξακολουθούν να τη χρησιμοποιούν γιατί αποτελεί την ασφαλέστερη μέθοδο, αφού ο σημασιολογικός προσδιορισμός των λέξεων προέρχεται από ειδικούς (domain experts). Στην εργασία [15] για να υπολογισθεί η θετική ή αρνητική άποψη κριτικών ταινιών, δημιουργήθηκαν 5 διαφορετικά λεξικά. Τα τέσσερα περιέχουν συντακτικούς όρους, 2.257 επίθετα, 1.142 ουσιαστικά, 903 ρήματα και 745 επιρρήματα ενώ το πέμπτο περιέχει 177 φράσεις και ιδιωματισμούς. Κάθε όρος των λεξικών βαθμολογήθηκε χειροκίνητα μεταξύ του διαστήματος [-5, 5]. Για παράδειγμα η λέξη «θαυμάσιος» βαθμολογήθηκε με 5, «ευχάριστος» με 2, «αηδιαστικός» με -3 και «τερατούργημα» με -5. Για να βρεθεί ο σημασιολογικός προσδιορισμός της φράσης «όχι κακός» προστίθενται τα σκορ των λέξεων -5+4=-1. Η βαθμολογία δόθηκε αρχικά από ένα domain expert με μητρική γλώσσα τα αγγλικά και έπειτα ελέγχθηκε από μια τριμελή επιτροπή ώστε να μειωθεί η υποκειμενικότητα της χειροκίνητης βαθμολογίας. Η προσέγγιση που βασίζεται σε λεξικό στηρίζεται στην υπόθεση ότι οι λέξεις μπορούν να θεωρηθούν ως μονάδες που περιέχουν άποψη. Στην εργασία [18] η δημιουργία του λεξικού ξεκινάει με την εξαγωγή των πλέον συχνά εμφανιζόμενων επιθέτων που αντλούνται από μια συλλογή σχετική με κριτικές προϊόντων. Αρχικά χρησιμοποιείται μια λίστα που περιέχει 30 επίθετα τα οποία έχουν επισημανθεί χειροκίνητα ως θετικά ή αρνητικά. Με τη βοήθεια του WordNet εντοπίζονται τα συνώνυμα επίθετα της λίστας. Εάν κάποιο συνώνυμο επίθετο βρεθεί στη συλλογή δεδομένων τότε προστίθεται στη λίστα και η διαδικασία επαναλαμβάνεται έως ότου προσδιορισθούν σημασιολογικά όλα τα επίθετα της συλλογής. Σελίδα 25 από 66

3 ο ΚΕΦΑΛΑΙΟ Μια γραμματική προσέγγιση που βασίζεται σε συντακτικά πρότυπα προτείνεται στην εργασία [13] και ονομάζεται μέθοδος σημασιολογικού εξαναγκασμού (sentiment consistency). Η μέθοδος ξεκινάει με λέξεις (επίθετα) που εκφράζουν άποψη. Το σύνολο αυτό χρησιμοποιείται για να αναγνωριστούν με γλωσσολογικό εξαναγκασμό άλλες συνώνυμες λέξεις (επίθετα με παρόμοιο σημασιολογικό προσανατολισμό). Ο εξαναγκασμός αυτός, τεχνικά πραγματοποιείται με τον συνδετικό όρο «και». Η παραδοχή της εργασίας έγκειται στο γεγονός ότι σε μία σύνθετη πρόταση, όταν υπάρχουν δύο επιμέρους προτάσεις που συνδέονται με τον γραμματικό όρο «και» συνήθως έχουν τον ίδιο προσανατολισμό (θετικό ή αρνητικό). Τέτοιου είδους εξαναγκασμοί χρησιμοποιούνται και για τους όρους, «ή», «αλλά», «ούτε», (or, bur, either-neither). Στην εργασία [14] προτάθηκε μια επέκταση του σημασιολογικού εξαναγκασμού σε γειτονικές προτάσεις (intersentential), θεωρώντας ότι γειτονικές προτάσεις μπορεί να έχουν παρόμοιο σημασιολογικό προσανατολισμό. Στην περίπτωση αυτή χρησιμοποιήθηκαν οι γραμματικοί όροι «αλλά» και «ωστόσο» ως δείκτες σημασιολογικού εξαναγκασμού. 3.2 Πλεονεκτήματα - Μειονεκτήματα Ένα σημαντικό πλεονέκτημα των τεχνικών που χρησιμοποιούν λεξικά απόψεων είναι ότι δεν απαιτούν σύνολα εκπαίδευσης που κάνουν προβλέψεις, αφού στηρίζονται σε λεξικά που περιέχουν ένα προκαθορισμένο σύνολο λέξεων με άποψη. Τέτοιες τεχνικές χαρακτηρίζονται ως μη επιβλεπόμενες τεχνικές μάθησης και συνήθως, αλλά όχι αποκλειστικά, χρησιμοποιούνται σε περιπτώσεις όπου δεν υπάρχουν διαθέσιμα σύνολα εκπαίδευσης [17]. Οι συλλογές (corpus) που χρησιμοποιούνται για το «χτίσιμο» ενός λεξικού παίζουν πολύ σημαντικό ρόλο στην ακρίβεια των αποτελεσμάτων της μεθόδου. Παρατηρείται όμως το φαινόμενο, λεξικά που έχουν στηριχθεί σε λέξεις ενός πεδίου να μην έχουν αξιόλογα αποτελέσματα όταν χρησιμοποιούνται σε διαφορετικό πεδίο εφαρμογής. Πέραν αυτού, για να μπορέσει ένα λεξικό να είναι ολοκληρωμένο και Σελίδα 26 από 66

3 ο ΚΕΦΑΛΑΙΟ να περιέχει την πλειονότητα των λέξεων, απαιτούνται πολύ μεγάλες συλλογές δεδομένων. Συχνά οι ερευνητές υποστηρίζουν ότι ο σημασιολογικός προσδιορισμός που προέρχεται από κάποιο λεξικό δεν μπορεί να είναι παρά μόνο μια ένδειξη [1]. Η σημασιολογία μιας πρότασης δεν εξαρτάται μόνο από την κατηγοριοποίηση των λέξεων ή/και των συνωνύμων τους σε θετικές ή αρνητικές. Η πρόταση «Ψάχνω για ένα καλό βιβλίο» δεν μπορεί να ταξινομηθεί ως θετική, μόνο και μόνο επειδή το επίθετο «καλό» έχει κατηγοριοποιηθεί στο λεξικό ως θετική λέξη. Σε κάθε περίπτωση τα λεξικά απόψεων αποτελούν το θεμέλιο λίθο πολλών μελετών και σχετικών εργασιών. Οι τεχνικές και οι μέθοδοι ποικίλουν και ενδεχομένως, να πρέπει να εμπλουτιστούν ακόμα περισσότερο αλλά εν κατακλείδι είναι μια τεχνική που ενισχύει σημαντικά τις διαδικασίες της σημασιολογική ανάλυσης. Σελίδα 27 από 66

4 ο ΚΕΦΑΛΑΙΟ 4. ΚΟΙΝΩΝΙΚΟ ΔΙΚΤΥΟ «TWITTER» Το Twitter είναι ένα online κοινωνικό δίκτυο και μια micro-blogging υπηρεσία, η οποία επιτρέπει στους χρήστες, αφού εγγραφούν, να συντάσσουν σύντομα μηνύματα και να διαβάζουν τα μηνύματα άλλων χρηστών της υπηρεσίας (τα γνωστά ως tweets). Είναι περισσότερο ένα ενημερωτικό δίκτυο και μια πηγή ειδήσεων. Το Twitter γράφτηκε πάνω σε μια πλατφόρμα ανοιχτού κώδικα τη Ruby on Rails με την γλώσσα Ruby και διαθέτει το δικό του API (Application programming interface). Εμπνευστής της υπηρεσίας είναι ο Jack Dorsey ο οποίος το 2005 σκέφτηκε ότι θα ήταν πολύ ενδιαφέρουν εάν μπορούσε να γνωρίζει τι κάνουν οι φίλοι του. Έτσι δημιουργήθηκε το Twitter, αρχικά, από την εταιρεία ανάπτυξης «Obvious» που εδρεύει στο San Francisco. Το πρωτότυπο υλοποιήθηκε (μόλις σε διάστημα δύο εβδομάδων) τον Μάρτιο 2006 ενώ η επίσημη πρώτη εμφάνισή του στο παγκόσμιο ιστό έγινε τον Αύγουστο 2006. Η υπηρεσία σύντομα έγινε αρκετά δημοφιλής με αποτέλεσμα τον Μάιο 2007 να ιδρυθεί η εταιρεία «Twitter Incorporated». Πλέον στην υπηρεσία είναι εγγεγραμμένοι περισσότεροι από 100 εκατομμύρια χρήστες ενώ καθημερινά ανταλλάσσονται πλέον των 55 εκατομμυρίων tweets. Τα tweets μπορούν να χαρακτηρισθούν ως ηλεκτρονικά μηνύματα παρόμοια των Short Message Service - SMS. Η μόνη διαφορά τους είναι η δημόσια κοινοποίησή τους. Η φιλοσοφία της υπηρεσίας είναι να μπορεί ο χρήστης να μεταδώσει στους άλλους μια κατάσταση, σκέψη, επιθυμία που συμβαίνει στην συγκεκριμένη στιγμή. Επιπλέον ο χρήστης μπορεί να παρακολουθεί τα μηνύματα των άλλων, να τα σχολιάζει και να ανατρέχει στο ιστορικό τους. Φυσικά για να λειτουργήσουν οι χρήστες ως δίκτυο ανθρώπων, θα πρέπει να δημιουργήσουν τον κύκλο τους. Στη γλώσσα του Twitter υπάρχουν οι followers, αυτοί που ακολουθούν ένα χρήστη και ειδοποιούνται για κάθε μήνυμα και οι following, αυτούς που ακολουθεί ο χρήστης και ενημερώνεται για τις αναρτήσεις τους. Σελίδα 28 από 66

4 ο ΚΕΦΑΛΑΙΟ 4.1 Ενδιαφέροντα στατιστικά στοιχεία Σύμφωνα με τα τελευταία στατιστικά στοιχεία του 2010 που δημοσιεύθηκαν από την ιστοσελίδα Web-Monitoring.com και αναρτήθηκαν σε σχετικό blog [43], ιδιαίτερο ενδιαφέρον παρουσιάζει το ακόλουθο σχήμα όπου εμφανίζει ότι το 25% της κίνησης της υπηρεσίας παράγεται εκ των έσω (χρήστες της υπηρεσίας) ενώ το 75% προέρχεται από εξωτερικούς παράγοντες, γεγονός που επισημαίνει το έντονο ενδιαφέρον των επιχειρήσεων (και όχι μόνο) για την προαγωγή και προώθηση των υπηρεσιών τους μέσω των κοινωνικών δικτύων. Σχήμα 5: Εσωτερικές και εξωτερικές συναλλαγές (traffic) της υπηρεσίας Το περιεχόμενο των tweets είναι ποικίλο με επικρατέστερο το κομμάτι που αφορά στα προσωπικά μηνύματα και τις συζητήσεις των χρηστών με ποσοστό 57% από το οποίο 27% αφορά σε προσωπικές συζητήσεις και 30% σε δηλώσεις σχετικά με την παρούσα κατάσταση των χρηστών. Ιδιαίτερα μεγάλο είναι το ποσοστό των διαφημιστικών μηνυμάτων που δημοσιεύονται στην υπηρεσία όπου τον μήνα Αύγουστο ανήλθε στο μέγιστο ποσοστό της τάξεων του 11% των δημοσιεύσεων. Έχουν αναπτυχθεί πάνω από 70.000 εφαρμογές χρησιμοποιώντας το API του Twitter ενώ η επιχείρηση απασχολεί μόνο 175 εργαζόμενους. Σελίδα 29 από 66

4 ο ΚΕΦΑΛΑΙΟ Σχήμα 6: Το περιεχόμενο των tweets Σχήμα 7: Εφαρμογές Εργαζόμενοι Στην έρευνα αποτυπώνεται το προφίλ των χρηστών της Αμερικής (ΗΠΑ). Όπως φαίνεται στο σχήμα 8 οι γυναίκες είναι η πλειοψηφία (55%) των users, ενώ η μέση ηλικία χρηστών είναι μεταξύ των 18-45 ετών. Οι περισσότεροι χρήστες (51%) είναι απόφοιτοι ανώτερων σχολών εκπαίδευσης ενώ το 58% αυτών δηλώνουν ότι έχουν ετήσια εισοδήματα άνω των 60.000 δολαρίων. Σελίδα 30 από 66

4 ο ΚΕΦΑΛΑΙΟ Σχήμα 8: Δημογραφικά στοιχεία χρηστών ΗΠΑ Τέλος στην έρευνα παρουσιάζεται λίστα με τους 20 πιο ενεργούς χρήστες της υπηρεσίας με το μεγαλύτερο αριθμό ακολούθων (followers). Μεταξύ της λίστας εμφανίζονται ονόματα πολιτικών όπως ο Barack Obama (4 η θέση), καλλιτεχνών όπως Lady Gaga, Britney Spears (2 η και 5 η θέση αντίστοιχα) και έγκυρων μέσων ενημέρωσης όπως η εφημερίδα The New York Times (20 η θέση). Σελίδα 31 από 66

4 ο ΚΕΦΑΛΑΙΟ Σχήμα 9: Λίστα με τους πλέον συχνούς χρήστες της υπηρεσίας Σελίδα 32 από 66

4 ο ΚΕΦΑΛΑΙΟ 4.2 Δυσκολίες ανάλυσης των tweets Όλες οι μελέτες που σχετίζονται με σημασιολογική ανάλυση κειμένων εμφανίζουν ιδιαιτερότητες και δυσκολίες. Τα tweets, πέραν των γνωστών προβλημάτων, παρουσιάζουν και κάποιες ακόμα ιδιαιτερότητες. Αρχικά το μέγεθος του κάθε μηνύματος. Οι 140 χαρακτήρες δεν είναι αρκετά δεδομένα για να αναλυθεί σημασιολογικά το περιεχόμενο. Ουσιαστικά αυτή είναι η πρόκληση αλλά και η μεγαλύτερη δυσκολία για το σημασιολογικό προσδιορισμό των απόψεων των χρηστών. Τα μηνύματα συνήθως αφορούν σε προσωπικές συζητήσεις και κατ επέκταση δεν έχουν ιδιαίτερα ενδιαφέρον περιεχόμενο, δεν είναι στοχαστικά ενώ ως επί το πλείστον δεν ακολουθούν γνωστούς συντακτικούς και γραμματικούς κανόνες. Φυσικά το μείζον πρόβλημα και εδώ είναι η υποκειμενικότητα και η αντικειμενικότητα μιας άποψης που στο συγκεκριμένο ερευνητικό πεδίο είναι ακόμα δυσκολότερο να εντοπισθεί λόγο της περιορισμένης έκτασης του μηνύματος. Οι χρήστες συχνά εμφανίζουν πολλαπλά συναισθήματα μέσα σε ένα μήνυμα, χρησιμοποιούν σαρκασμό και εκφράζονται με ιδιαίτερους χαρακτηρισμούς που δεν χρησιμοποιούνται συχνά εκτός διαδικτύου. Αναφερόμαστε στην ιδιαίτερη διάλεκτο που χρησιμοποιούν οι χρήστες, συνήθως νεαρών ηλικιών και είναι έξω και πέρα από κάθε γνωστό συντακτικό κανόνα π.χ. η λέξη cu σημαίνει see you ή u2 σημαίνει you too. Το φαινόμενο αυτό κάνει αρκετά δύσκολη την ανάλυση γιατί οι τεχνικές δεν μπορούν να βασισθούν πάνω σε γνωστά μοντέλα αλλά απαιτείται πειραματισμός και μελέτη περιπτώσεων και υπο-περιπτώσεων. Επιπλέον είναι γνωστή η διαφορετική ερμηνεία που έχουν κάποιες λέξεις. Άλλη ερμηνεία έχουν όταν χρησιμοποιούνται ως ουσιαστικά, άλλη ως ρήματα ενώ σημαντικό ρόλο παίζει και η θέση τους μέσα στην πρόταση. Το πρόβλημα αυτό δεν παρουσιάζεται μόνο σε μια γλώσσα αλλά αφορά όλες τις γνωστές διαλέκτους. Στο συγκεκριμένο πεδίο έρευνας η δυσκολία ανεύρεσης της κατάλληλης ερμηνείας αυξάνεται λόγω του περιορισμένου μήκους του μηνύματος και της χαλαρής γραμματικής δομής του. Σελίδα 33 από 66

5 ο ΚΕΦΑΛΑΙΟ 5. ΠΑΡΟΥΣΙΑΣΗ ΤΗΣ ΜΕΘΟΔΟΥ Η υλοποίηση της μεθόδου χωρίζεται σε τρεις επιμέρους φάσεις, όπως φαίνεται στο σχήμα (9). Στην φάση Α γίνεται η συλλογή των συνόλων δεδομένων από την υπηρεσία Twitter και εφαρμόζονται τεχνικές προετοιμασίας και καθαρισμού τους. Στη φάση Β χρησιμοποιώντας το λεξικό WordNet, δημιουργείται ένα λεξικό απόψεων που περιέχει σημασιολογικά βαθμολογημένες λέξεις και φράσεις της αγγλικής γλώσσας. Στην Γ φάση πραγματοποιείται η υποκειμενική ταξινόμηση των μηνυμάτων εφαρμόζοντας lexicon-based τεχνικές που βασίζονται σε δύο λεξικά. Το πρώτο αφορά στο λεξικό απόψεων που δημιουργήθηκε στην Β φάση και το δεύτερο περιείχε σημασιολογικά βαθμολογημένα σύμβολα (emotions) που συνήθως εμφανίζονται σε σύντομα μηνύματα κοινωνικών δικτύων. Σχήμα 10: Σχηματική παράσταση της μεθόδου Σελίδα 34 από 66

5 ο ΚΕΦΑΛΑΙΟ 5.1 Τα Σύνολα Δεδομένων Για τη συλλογή των δεδομένων χρησιμοποιήσαμε το API του Twitter, τη γλώσσα προγραμματισμού Python2.7 κα τη βιβλιοθήκη tweepy. Χρησιμοποιώντας την κλάση StreamWatcherListener(tweepy.StreamListener) που περιέχει τη μέθοδο StreamListener ζητείται να επιστραφούν όσα δημόσια tweets δημοσιεύθηκαν και περιέχουν μια λέξη κλειδί (key search query). def on_status(self, status): fout = open('querybackfile_%s.txt'%suffix, 'a') fout.write('-'*40+"\n") fout.write(status.user.screen_name + "; " + status.text.encode('utf-8')+"\n") fout.close() return True def on_error(self, status_code): print 'An error has occured! Status code = %s' % status_code return True # keep stream alive def on_timeout(self): print 'Timeout' return True Πλαίσιο 1: Κλάση «StreamWatcherListener» Τα tweets που επιστρέφονται δεν έχουν χρονικό περιορισμό δηλαδή δεν αφορούν κάποια συγκεκριμένη χρονική περίοδο (από έως). Προτιμήθηκε η συλλογή των δεδομένων να γίνει με χρήση ερωτήματος γιατί με αυτό το τρόπο τα δεδομένα «έρχονται» πιο «καθαρά», δηλαδή αποφεύγουμε τα φλύαρα tweets που δεν έχουν κάποιο συγκεκριμένο νόημα. Επιπλέον τα μηνύματα δεν φιλτράρονται σε κάποια συγκεκριμένη γλώσσα. Η απόφασή μας βασίσθηκε στην παραδοχή ότι ακόμα και tweets που είναι γραμμένα σε άλλες γλώσσες μπορεί να περιέχουν συνήθεις αγγλικές λέξεις και φράσεις ή emotions, από τα οποία μπορεί, έστω στοιχειωδώς, να προσδιορισθεί σημασιολογικά κάποια θετική ή αρνητική άποψη. Τα δεδομένα γράφονται σε txt αρχείο με μορφή username; tweet. Σελίδα 35 από 66

5 ο ΚΕΦΑΛΑΙΟ Η συλλογή μας αποτελείται από 3 σύνολα δεδομένων. Το πρώτο αφορά στη δημοφιλή τραγουδίστρια «Lady Gaga» το όνομα της οποίας είναι αρκετά διαδεδομένο στο νεανικό, και όχι μόνο, κοινό. Τα δεδομένα συλλέχθηκαν τον Οκτώβριο 2010, και αντιπροσωπεύουν 4.503 tweets. Screamo_Nation; Escape the fate wants to be bigger than eminem, lady gaga: ESCAPE THE FATE WANTS TO BE BIGGER THAN EMINEM, LADY GA... http://bit.ly/96dzwr ------------------------------------ jersoncutest; Check this video out -- Lady Gaga Telephone Parody (ft Beyonce): Key of Awesome #17 http://t.co/fvmc6cj via @youtube ------------------------------------ ZoeWiless; RT @VDFans: Right now, I m listening Lady Gaga! I love her she s amazing! love her music! and Teeth was the perfect song for #TVD new promo! ------------------------------------ CameraPilot; #unfollowmeif you like crap like lady gaga ------------------------------------ NerdofGaga; Put these artists in order of which you like the most; lady gaga Πλαίσιο 2: Απόσπασμα των tweets «Lady Gaga» Το δεύτερο σύνολο δεδομένων είναι σχετικό με μια συναισθηματική κατάσταση των χρηστών. Το συναίσθημα είναι μια πιο πολύπλοκη διαδικασία που προέρχεται από τις προσωπικές εμπειρίες του καθενός. Γι αυτό επιλέξαμε στις αρχές του Δεκεμβρίου 2010 να συλλέξαμε μηνύματα σχετικά με τα Χριστούγεννα. Αποθηκεύσαμε 63.752 tweets. mcglamorous; @DavidVenableQVC Sad I missed last 2 shows @QVC. Looks like u & @johnmclemore did fabulous job, even w/out our entourage! :) Merry Christmas ----------------------------------- ninamurad; RT @RachelBerryWMHS: I'm going to convince my dads that we should celebrate Christmas this year. I love the idea of having a gold star ------------------------------------ Σελίδα 36 από 66

5 ο ΚΕΦΑΛΑΙΟ DanMerson1; Just tried to fly my sons Christmas helicopter. My house is too small, I need a warehouse. ------------------------------------ KimRWilliams; Putting up the Christmas tree xd ------------------------------------ AStarrAMama; #Win 2 $50 #Walmart gift cards thx 2 @GiftCardRescue http://tinyurl.com/29vbf54 @CouponsFreebie #giveaway #contest #free #Christmas 12/9 Πλαίσιο 3: Απόσπασμα των tweets «Christmas» Το τρίτο και τελευταίο σύνολο δεδομένων είναι σχετικό με ένα δημοσιογραφικό και κοινωνικό γεγονός που βρισκόταν στην επικαιρότητα στις αρχές του Ιανουαρίου 2011 και αφορούσε στο θέμα που δημιουργήθηκε γύρω από τις διαρροές απορρήτων εγγράφων μέσω της ιστοσελίδας Wikileaks. Τα δεδομένα που συλλέξαμε αντιπροσωπεύουν 3.021 tweets. pepiamil; RT @telesurtv: EE.UU. exige a #Twitter información sobre cuenta de #WikiLeaks http://bit.ly/f8ey8y ------------------------------------ yvanseth; RT @wikileaks: Note that we can assume Google & Facebook also have secret US government subpeonas. They make no comment. Did they fold? ------------------------------------ iroelsanchez; http://wp.me/p10awn-1io Cuál fue el error de Julian #Assange? #Wikileaks #cablegate #Cuba #EEUU #USA ------------------------------------ HIAHEL; RT @telesurtv: EE.UU. exige a #Twitter información sobre cuenta de #WikiLeaks http://bit.ly/f8ey8y ------------------------------------ lavidalinux; RT @drakedalfa: #WikiLeaks: #USA is demanding our #Twitter account info http://goo.gl/ppzeh Πλαίσιο 4: Απόσπασμα των tweets «Wikileaks» Σελίδα 37 από 66

5 ο ΚΕΦΑΛΑΙΟ 5.1.1 Προετοιµασία δεδοµένων Κάθε πρωτόγεννες σύνολο δεδομένων απαιτεί ένα σχετικό «καθάρισμα» ώστε να απομακρυνθούν στοιχεία που δεν εξυπηρετούν στην ανάλυση και επιβαρύνουν υπολογιστικά τις περαιτέρω διαδικασίες. Τέτοια στοιχεία είναι τα άρθρα, οι κοινές λέξεις (common words), τα σημεία στίξης (punctuations), οι μη γνωστές λέξεις (unknown words). Το συγκεκριμένο σύνολο δεδομένων έχει ορισμένες ιδιαιτερότητες. Η πρώτη αφορά στα emotions που συνηθίζουν να δημιουργούν οι χρήστες από τα σημεία στίξης. Επειδή η μέθοδός μας στηρίζεται στην αξιολόγηση τους, δεν θέλαμε να αλλοιώσουμε τα συγκεκριμένα σύμβολα που δημιουργούνται από τα σημεία στίξης ( :-),!-(; κ.α. Γι αυτό αφαιρέσαμε μόνο δύο σημεία στίξης (.,) που δεν συμμετέχουν συνήθως σε emotions, προσπαθώντας να περιορίσουμε τις περιπτώσεις αλλοίωσής τους. Μια άλλη ιδιαιτερότητα του συνόλου δεδομένων είναι το συντακτικό που χρησιμοποιείται και που συνήθως δεν ακολουθεί γραμματικούς κανόνες. Παρατηρήσαμε συχνά την αναγραφή μη συντακτικά σωστών λέξεων όπως π.χ. helloooo, loveeeee κλπ. Για να μπορέσουμε να διαχειριστούμε τέτοιες περιπτώσεις εγκαταστήσαμε τη βιβλιοθήκη Natural Language Toolkit (NLTK) και χρησιμοποιήσαμε τη συνάρτηση unusual_words. Η συνάρτηση αυτή εξετάζει αν κάθε λέξη ενός κειμένου περιλαμβάνεται στo corpus του WordNet (nltk.corpus.words). Αν η λέξη δεν βρεθεί επιστρέφεται ως «unusual» και αφαιρείται από τα δεδομένα. Ο έλεγχος γίνεται με βάση το αγγλικό λεξιλόγιο (English_vocab). def unusual_words(text): text_vocab=set(w.lower() for w in text if w.isalpha()) english_vocab=set(w.lower() for w in nltk.corpus.words.words()) unusual=text_vocab.difference(english_vocab) return (unusual) Πλαίσιο 5: Συνάρτηση «unusual words» Σελίδα 38 από 66

5 ο ΚΕΦΑΛΑΙΟ Επιπλέον αποφασίσαμε ότι δεν θα επεξεργαζόμασταν στοιχεία σχετικά με νούμερα ή υπερσυνδέσουμς (hyperlinks) γι αυτό και τα αφαιρέσαμε από τα δεδομένα. Το σύνολο των κοινών λέξεων (άρθρα, σύνδεσμοι, προθέσεις κλπ) προέκυψαν ύστερα από σχετική αναζήτηση στο διαδίκτυο [41]. Θεωρήσαμε σκόπιμο, πριν αφαιρέσουμε ένα συγκεκριμένο σύνολο κοινών λέξεων, να χρησιμοποιήσουμε μια συνάρτηση που να επιστρέφει τις πλέον συχνές λέξεις του συνόλου δεδομένων που εξετάζουμε και μετά να αφαιρούμε όσες από αυτές κρίνουμε ότι δεν έχουν κάποια ιδιαίτερη αξία στην ανάλυσή μας. Οι λέξεις αυτές εμφανίζονται στην οθόνη κατά την διάρκεια εκτέλεσης της μεθόδου και ακολούθως, εάν κριθεί σκόπιμο, προσαρμόζεται χειροκίνητα η αντίστοιχη λίστα. Όλες οι λέξεις των μηνυμάτων μετατρέπονται σε lower case. Τα «καθαρά δεδομένα» αποθηκεύονται σε νέο txt αρχείο. Ένα χαρακτηριστικό απόσπασμα από τα «καθαρά δεδομένα» παρουσιάζεται στη συνέχεια. Στην αρχή αναφέρουμε το αρχικό μήνυμα και ακολούθως τη μορφή που έχει πάρει μετά την διαδικασία καθαρισμού. Τα μηνύματα προέρχονται από το σύνοδο δεδομένων «Christmas». questionledes; Web Poll: Is Reno's Christmas Tree crooked? http://bit.ly/fhc9ax questionledes; web poll: reno's christmas tree crooked? ------------------------------------ kirand13; @AlexParker_TWx yeaah me too :D hows your day been? christmas soon, whoop :L xxxxxx kirand13; @alexparker_twx me too :d your day been? christmas soon whoop :l ------------------------------------ Steve_Ince; RT @SimonsCat: Kitty-leaks are more fun than Wiki-leaks! The Simon's Cat Christmas film is now on the Guardian website! http://bit.ly/i1nwhx steve_ince; @simonscat: kitty-leaks are more fun than wiki-leaks! simon's cat christmas film now guardian website! Πλαίσιο 6: Απόσπασμα των tweets μετά την διαδικασία καθαρισμού τους Σελίδα 39 από 66

5 ο ΚΕΦΑΛΑΙΟ Για την υλοποίηση της μεθόδου που περιγράψαμε χρησιμοποιήσαμε την Python ver.2.6 και τις βιβλιοθήκες του Natural Language Toolkit (NLTK). Οι βιβλιοθήκες NLTK δεν είναι συμβατές με μεταγενέστερες εκδόσεις της Python. 5.2 Δημιουργία λεξικού Ένα από τα πλέον σημαντικά στάδια στη ανάλυσή μας ήταν η δημιουργία του λεξικού απόψεων. Επειδή δεν μπορούσαμε στα πλαίσια της παρούσας εργασίας να δημιουργήσουμε εξ αρχής ένα λεξικό, αναζητήσαμε ένα κοινά αποδεκτό αγγλικό λεξικό που να εξυπηρετεί τους σκοπούς της εργασίας. Από τη σχετική έρευνα στο διαδίκτυο καταλήξαμε σε ένα λεξικό απόψεων από το πανεπιστήμιο «University of Maryland, Baltimore» [42]. Το λεξικό περιέχει 18.536 λέξεις όπως επίθετα, ρήματα, αντωνυμίες, προθέσεις, επιρρήματα και μικρές φράσεις σημασιολογικά βαθμολογημένες μεταξύ του διαστήματος [-1, 1]. Όπως αναφέρεται στη σχετική ιστοσελίδα, το λεξικό προέρχεται από το Wordnet όμως δε διευκρινίζετε πώς προσδιορίσθηκε η βαθμολογία των λέξεων. Επιπλέον στην ίδια ηλεκτρονική διεύθυνση διατίθεντο και ένα αρχείο που περιείχε 55 σύμβολα (emotions) τα οποία έχουν αντίστοιχη σημασιολογική βαθμολογία στο ίδιο πεδίο τιμών. Στο ακόλουθο σχήμα παραστούμε σχηματικά το περιεχόμενο του λεξικού απόψεων στο οποίο αποτυπώνεται η διακύμανση της βαθμολογίας των λέξεων και γίνεται εμφανές ότι το λεξικό δεν περιέχει ουδέτερες λέξεις (neutral words). Αμέσως μετά, στους πίνακες 1&2, παρουσιάζουμε παραδείγματα των λέξεων και των emotions που περιέχουν τα λεξικά με την αντίστοιχη βαθμολογία τους. Σελίδα 40 από 66

5 ο ΚΕΦΑΛΑΙΟ Σχήμα 11: Σχηματική αναπαράσταση του περιεχομένου του λεξικού WORD SCORE Positive score upright 1.0 fortunate 0.958333333 idealistic 0.75 wise 0.6875 upfront 0.5 up 0.375 yap 0.25 Negative score white-tie -0.25 torture -0.3 ad-lib -0.333333333333 will-o'-the-wisp -0.375 useless -0.5 sad -0.583333333333 misfortunate -1.0 Πίνακας 1: Χαρακτηριστικά παραδείγματα λέξεων και φράσεων του λεξικού Emotion SCORE Positive score ;) 1.0 :-D 1.0 :o) 1.0 Negative score :-\ -1.0 :- -0.50 :O -0.25 Πίνακας 2: Απόσπασμα του λεξικού με emotions Σελίδα 41 από 66

5 ο ΚΕΦΑΛΑΙΟ 5.2.1 Εµπλουτισµός λεξικού Επειδή, όπως αναφέραμε και προηγουμένως, τα tweets εκφράζουν ιδιαίτερο λόγο, θεωρήσαμε σκόπιμο να εμπλουτίσουμε το υπάρχον λεξικό με συνώνυμες λέξεις και φράσεις, θέλοντας να αυξήσουμε τα ποσοστά της υποκειμενικής ταξινόμησης και να μειώσουμε τα ποσοστά των μηνυμάτων που δεν θα βαθμολογηθούν. Για τον εμπλουτισμό του λεξικού χρησιμοποιήσαμε τον online λεξικό WordNet και στηριχθήκαμε στην παραδοχή ότι κάθε συνώνυμη λέξη που βρίσκουμε θα έχει την ίδια σημασιολογική βαθμολογία με την λέξη του λεξικού. Σχήμα 12: Σχηματική παράσταση της διαδικασίας εμπλουτισμού του λεξικού Η διαδικασία που ακολουθήσαμε αποτυπώνεται στο σχήμα 12. Η κάθε λέξη του λεξικού αποτελεί την λέξη στόχο (target word) για την οποία, μέσω της συνάρτησης «def synonymous», αναζητούμε από το WordNet όλες τις συνώνυμες λέξεις ή φράσεις της. Η συνάρτηση επιστρέφει ένα σύνολο λέξεων (list of synsets). Για κάθε συνώνυμη λέξη και φράση, εξετάζουμε εάν αυτή περιέχεται ήδη στο λεξικό. Στην περίπτωση που βρεθεί απορρίπτεται αλλιώς προστίθεται στο λεξικό και τοποθετείται ακριβώς μετά τη λέξη στόχο. Με αυτόν τον τρόπο εμπλουτίσαμε το λεξικό το οποίο πλέον περιέχει 28.249 λέξεις και φράσεις. Σελίδα 42 από 66

5 ο ΚΕΦΑΛΑΙΟ def synonimous(word): print 'The word cheking is: ', word synsets = wordnet.synsets(word) Lemma_names=[] for synset in synsets: lemma=synset.lemma_names for name in lemma: if name!=word and name not in Lemma_names: Lemma_names.append(name.lower()) return Lemma_names Πλαίσιο 7: Συνάρτηση «synonymous» Ο εξαντλητικός έλεγχος που γινόταν για να αποφύγουμε κάθε πιθανότητα διπλή εγγραφής και να προεξοφλήσουμε την μονοσήμαντη βαθμολογία κάθε όρου του λεξικού, έκανε την διαδικασία εκτέλεσης αρκετά χρονοβόρα. Γι αυτό αποφασίσαμε να χωρίσουμε το λεξικό σε πέντε μικρότερα αρχεία και να εκτελέσουμε τη διαδικασία εμπλουτισμού σε καθένα ξεχωριστά. Εφαρμόζοντας τη τεχνική διαμερισμού των αρχείων δεν μπορούσαμε να αποφύγουμε την περίπτωση των διπλών λέξεων και αυτό γιατί ο έλεγχος περιορίζονταν στα όρια του κάθε αρχείου. Για να διορθώσουμε το πρόβλημα που παρουσιάσθηκε αφού ολοκληρώσαμε τον εμπλουτισμό όλων των επιμέρους αρχείων, τα ενοποιήσαμε και εφαρμόσαμε μια μέθοδο καθαρισμού, κάνοντας την εξής παραδοχή: για κάθε διπλή εγγραφή λέξεων που εντοπίζαμε, κρατούσαμε την λέξη στόχο και όχι την συνώνυμή της που προήλθε από την διαδικασία εμπλουτισμού. Στη συνέχεια αναφέρουμε ενδεικτικά δύο παραδείγματα της διαδικασίας εμπλουτισμού του λεξικού απόψεων και σημειώνουμε ορισμένες παρατηρήσεις που προέκυψαν από τον έλεγχο που διενεργήσαμε. Στο αρχικό λεξικό υπήρχε η λέξη «upstairs» που μεταφράζετε ως «επάνω πάτωμα, παραπάνω» για την οποία η συνάρτηση επέστρεψε ως συνώνυμες, δύο λέξεις και μια φράση. Σελίδα 43 από 66

5 ο ΚΕΦΑΛΑΙΟ '0.625', 'upstairs', 'upstair', 'up_the_stairs', 'on_a_higher_floor' Το παράδειγμα αυτό μπορούμε να το χαρακτηρίσουμε ως απόλυτη επιτυχία εφαρμογής. Υπάρχουν όμως και περιπτώσεις λιγότερο επιτυχημένες όπως η επόμενη που αφορά στην λέξη «overcome». Η λέξη «overcome» έχει αρνητική βαθμολογία στο λεξικό και μεταφράζεται ως «καταβάλω, καταβεβλημένος». Όμως η συνάρτηση επέστρεψε τις φράσεις 'get_the_best', 'have_the_best' προφανώς λαμβάνοντας υπόψη την ερμηνεία της λέξης ως «κερδίζω, νικώ». '-0.541666666667', 'overcome', 'get_the_best', 'have_the_best' Η μέθοδος εμπλουτισμού του λεξικού που εφαρμόσαμε είναι απολύτως αυτοματοποιημένη και εν μέρει δικαιολογεί την εμφάνιση ορισμένων περιπτώσεων που αποκλίνουν, όμως οι περιπτώσεις αυτές θα καταγραφούν μέσα από την πειραματική διαδικασία και θα διορθωθούν. Αξίζει να σημειωθεί ότι για την δημιουργία του λεξικού δεν χρησιμοποιήσαμε λέξεις που χαρακτηρίζουν το πεδίο εφαρμογής (domain words). Το γεγονός αυτό καθιστά το λεξικό ανεξάρτητο πεδίου (domain independent) και πρακτικά σημαίνει ότι η χρήση του μπορεί να επεκταθεί και σε άλλες κατηγορίες κειμένων. Σελίδα 44 από 66

5 ο ΚΕΦΑΛΑΙΟ 5.3 Υποκειμενική ταξινόμηση των tweets Η τελευταία φάση της μεθόδου αφορά στον σημασιολογικό προσδιορισμό των απόψεων και την υποκειμενική ταξινόμηση των μηνυμάτων σε δύο κατηγορίες, τη θετική και την αρνητική. Ο αλγόριθμος που αναπαριστά την υποκειμενική ταξινόμηση των μηνυμάτων παρατίθεται σε μορφή ψευδοκώδικα. 1 read wordlexicon 2 read emotionlexicon 3 read tweets 4 for each line remove any word begins with @,# 5 write the tweet to output 6 create a list of words 7 sumscor=0 8 total_found=0 9 for each word in the list 10 if word is in wordlexicon 11 write to output word, score 12 sumscor+=score 13 total_found+=1 14 else if word is in emotionlexicon 15 write to output emotion, scoreitem 16 sumscor+=scoreitem 17 total_found+=1 18 normalazation=sumscor/total_found 19 if total_found!=0 and sumscor!=0 20 if normalazation>0 21 write to outputfile ->positive 22 elif normalazation<0 23 write to outputfile ->negative Σελίδα 45 από 66

5 ο ΚΕΦΑΛΑΙΟ Αρχικά περνάμε ως εισόδους τρία αρχεία, το λεξικό που περιέχει τις λέξεις (wordlexicon), το λεξικό που περιέχει τα emotions (emotionlexicon) και το αρχείο που περιέχει τα tweets (1)(2)(3). Από κάθε tweet αφαιρούμε τις λέξεις που ξεκινούν με τα σύμβολα @ ή # (4) και το γράφουμε στο αρχείο εξόδου (5). Τα σύμβολα @, # χρησιμοποιούνται στην ορολογία των tweets για να εκφράσουν το «retweet» δηλαδή την απάντηση σε ένα tweet και την ετικέτα (tag) αντίστοιχα. Τα δεδομένα αυτά δεν αφαιρέθηκαν από το πρώτο στάδιο επειδή μέχρι τη στιγμή υλοποίησης του συγκεκριμένου σταδίου της μεθόδου δεν είχε αποφασισθεί εάν θα χρησιμοποιηθούν στην ανάλυση. Δημιουργούμε μια λίστα που περιλαμβάνει τις λέξεις του μηνύματος (6) και αρχικοποιούμε δύο μεταβλητές την sumscor, στην οποία κρατάμε τη συγκεντρωτική βαθμολογία του μηνύματος και την total_found, στην οποία κρατάμε τον αριθμό των λέξεων που βαθμολογήθηκαν (7, 8). Κάθε λέξη της λίστας την αναζητούμε στο λεξικό wordlexicon (9, 10). Για την αναζήτηση των λέξεων χρησιμοποιήσαμε την βιβλιοθήκη regular expression (re) της Python. Οι απλές εντολές αναζήτησης επέστρεφαν εκτός από τις σωστές λέξεις και όλες τις υπόλοιπες που περιείχαν τη λέξη είτε ως πρόθεμα είτε ως επιμέρους όρο μέσα σε μια φράση. Καταλήξαμε στην κανονική έκφραση (regular expression): pattern=re.compile(r"(?<![-_a-z])\b%s\b(?![-_/.a-z])" %word). Εάν η λέξη βρεθεί στο λεξικό γράφεται στο αρχείο εξόδου τόσο η λέξη όσο και η βαθμολογίας της (11). Για να έχουμε την συνολική βαθμολογία του tweet, προσθέτουμε την βαθμολογία της λέξης στη μεταβλητή sumscor (12), και αυξάνουμε κατά ένα τη μεταβλητή total_found, για να γνωρίζουμε πόσες λέξεις από το tweet βαθμολογήθηκαν (13). Αν η λέξη δε εντοπισθεί στο λεξικό, αναζητείται στο emotionlexicon (14) και αν βρεθεί αντίστοιχα γράφεται στο αρχείο εξόδου το emotion και η βαθμολογία του (15). Αθροίζουμε την βαθμολογία του emotion στη συνολική βαθμολογία του tweet (16) και αυξάνουμε κατά ένα τη μεταβλητή total_found (17). Σελίδα 46 από 66

5 ο ΚΕΦΑΛΑΙΟ Αφού εξεταστούν όλες οι λέξεις του tweet γίνεται κανονικοποίηση της μεταβλητής sumscor που περιέχει τη συνολική βαθμολογία του μηνύματος. Η κανονικοποίηση εκφράζετε ως ο λόγος του συνολικού αθροίσματος ενός μηνύματος προς τις λέξεις και τα σύμβολα που βαθμολογήθηκαν (18). Για την υποκειμενική ταξινόμηση των tweets κάναμε την εξής παραδοχή: επειδή η σημασιολογική βαθμολογία των όρων του λεξικού απόψεων είναι μεταξύ του διαστήματος [-1, 1] θεωρήσαμε ότι όσα tweets, μετά την κανονικοποίηση, έχουν συνολική βαθμολογία μεγαλύτερη του μηδενός (normalazation>0) εκφράζουν θετική άποψη ενώ όσα έχουν βαθμολογία μικρότερη του μηδενός (normalazation<0) αρνητική άποψη. Συνεπώς εάν ένα tweet βαθμολογήθηκε (19) και έχει βαθμολογία μεγαλύτερη του μηδενός ταξινομείτε ως θετικό (21), στην αντίθετη περίπτωση ως αρνητικό (23). Μετά την ολοκλήρωση του αλγορίθμου το αρχείο εξόδου περιέχει την υποκειμενική ταξινόμηση των μηνυμάτων ενός συνόλου δεδομένων. Στο ακόλουθο πλαίσιο παραθέτουνε ένα αντιπροσωπευτικό απόσπασμα του αρχείου εξόδου που περιέχει την υποκειμενική ταξινόμηση των tweets του συνόλου δεδομένων «Christmas». 1 tweet-> mcglamorous; sad last like u & did fabulous job even w/out our entourage! :) merry christmas found word sad with score -0.583333333333 found emotion :) with score 1.0 found word merry with score 0.291666666667 Found 3 items with total score 0.708333333334 Normalazation 0.236111111111 positive 2 tweet-> ninamurad; i'm going convince my that we should celebrate christmas this year love idea gold star found word going with score -0.375 found word year with score 0.5 found word love with score 0.325 Σελίδα 47 από 66

5 ο ΚΕΦΑΛΑΙΟ Found 3 items with total score 0.45 Normalazation 0.15 positive 3 tweet-> danmerson1; just tried fly my sons christmas helicopter my house too small need warehouse found word just with score 0.535714285714 found word tried with score 0.4375 found word fly with score -0.375 found word helicopter with score -0.5 found word small with score -0.375 Found 5 items with total score -0.276785714286 Normalazation -0.0553571428572 negative 4 tweet-> kimrwilliams; up christmas tree found word up with score 0.375 found word tree with score 0.375 Found 2 items with total score 0.75 Normalazation 0.375 positive 5 tweet-> astarramama; $50 gift 12/9 Found 0 items with total score 0 6 tweet-> missingpolaroid; christmas almost here found word almost with score 0.375 found word here with score 0.25 Found 2 items with total score 0.625 Normalazation 0.3125 positive 7 tweet-> gomezbieberfr; make change this christmas those less fortunate found word make with score 0.229166666667 found word less with score -0.25 found word fortunate with score 0.958333333333 Found 3 items with total score 0.9375 Normalazation 0.3125 positive Πλαίσιο 8: Απόσπασμα αποτελεσμάτων tweets Christmas Σελίδα 48 από 66

6 ο ΚΕΦΑΛΑΙΟ 6. ΣΥΓΚΕΝΤΡΩΤΙΚΗ ΠΑΡΟΥΣΙΑΣΗ ΤΩΝ ΑΠΟΤΕΛΕΣΜΑΤΩΝ ΤΗΣ ΠΕΙΡΑΜΑΤΙΚΗΣ ΔΙΑΔΙΚΑΣΙΑΣ Τα συγκριτικά αποτελέσματα της υποκειμενικής ταξινόμησης των τριών συνόλων δεδομένων που επεξεργασθήκαμε παρουσιάζονται στον ακόλουθο πίνακα. Η κατηγορία «No Classification» αφορά στα μηνύματα που δεν ταξινομήθηκαν από την μέθοδό μας και δεν είναι σχετική με μηνύματα που περιέχουν ουδέτερη άποψη. Subjective Classification Christmas Lady Gaga Wikileaks Total tweets % tweets % tweets % Tweets % Positive 31.532 49% 1.955 43% 1.050 35% 34.537 48% Negative 23.736 37% 934 21% 933 31% 25.603 36% No Classification 8.484 13% 1.614 36% 1.035 34% 11.133 16% Total 63.752 100% 4.503 100% 3.018 100% 71.273 100% Πίνακας 3: Συγκεντρωτικά αποτελέσματα αξιολόγησης Wikileaks Lady Gaga No Classification Negative Positive Christmas 0 5.000 10.000 15.000 20.000 25.000 30.000 35.000 Σχήμα 13: Συγκεντρωτικό διάγραμμα υποκειμενικής ταξινόμησης Σελίδα 49 από 66

6 ο ΚΕΦΑΛΑΙΟ Παρατηρούμε ότι η μέθοδος που ακολουθήσαμε επιτυγχάνει να προσδιορίζει σημασιολογικά και να ταξινομήσει ένα αρκετά μεγάλο σύνολο μηνυμάτων. Από τα 71.273 μηνύματα που εξετάσαμε επιτεύχθηκε υποκειμενική ταξινόμηση σε 60.140, ήτοι ποσοστό της τάξεων 84% που κρίνεται αρκετά ικανοποιητικό. Σαφώς υπάρχουν ακόμα περιθώρια βελτίωσης, ειδικά στην κατεύθυνση της μείωσης των μη ταξινομημένων μηνυμάτων που ανέρχονται σε ποσοστό 16% επί του συνόλου και της διόρθωσης των αποκλίσεων του λεξικού απόψεων, όμως τα πρώτα αποτελέσματα της μεθόδου είναι ενθαρρυντικά. No classification; 11.133 tweets 16% Subjective classification; 60.140 tweets 84% Σχήμα 14: Υποκειμενική ταξινόμηση των tweets Σχετικά με την ακρίβεια (accuracy) των αποτελεσμάτων δεν μπορούμε να εκφράσουμε επί του παρόντος άποψη γιατί θα πρέπει τα σύνολα δεδομένων να αξιολογηθούν και με άλλες συναφείς μεθόδους για να προκύψουν συγκριτικά στοιχεία. Σε κάθε περίπτωση η υποκειμενικότητα που χαρακτηρίζει τέτοιου είδους μεθόδους είναι άμεσα εξαρτώμενη από την δυσκολία προσδιορισμού της υποκειμενικότητας στο ερευνητικό πεδίο της σημασιολογίας και της εξόρυξης γνώμης. Οι lexicon-based τεχνικές που υλοποιήσαμε έδειξαν ότι η χρήση ενός σημασιολογικά βαθμολογημένου λεξικού απόψεων ενισχύει σημαντικά τις Σελίδα 50 από 66

6 ο ΚΕΦΑΛΑΙΟ μεθόδους της υποκειμενικής ταξινόμησης. Αν και το λεξικό που χρησιμοποιήσαμε επιδέχεται βελτιώσεις, παρόλα αυτά συνέβαλε σημαντικά στο υψηλό ποσοστό των μηνυμάτων που ταξινομήθηκαν και επιπλέον είναι ανεξάρτητο του πεδίου εφαρμογής γεγονός που ενισχύει την χρηστικότητά του. Αξίζει να σημειωθεί ότι, από τη μελέτη της βιβλιογραφίας, δεν προέκυψε ότι προηγήθηκε κάποια παρόμοια εργασία. Οι εργασίες [10, 27] που ασχολήθηκαν με τον προσδιορισμό της σημασιολογικής άποψης των tweets χρησιμοποίησαν μεθόδους μηχανικής μάθησης για τον σημασιολογικό προσδιορισμό απόψεων και την ταξινόμηση των μηνυμάτων. Στη συνέχεια του κεφαλαίου εξετάζουμε επιμέρους τα τρία σύνολα δεδομένων που επεξεργασθήκαμε και σχολιάζουμε για κάθε ένα από αυτά τις ιδιαιτερότητες που εντοπίσαμε από την πειραματική διαδικασία. 6.1 Σύνολο Δεδομένων «Χριστούγεννα» Το σύνολο δεδομένων αποτελείται από 63.752 μηνύματα. Από αυτά βρέθηκαν 55.268 μηνύματα που περιέχουν άποψη εκ των οποίων τα 31.532 ταξινομήθηκαν ως θετικά και 23.736 ως αρνητικά. Σχήμα 15: Μηνύματα με άποψη Σελίδα 51 από 66

6 ο ΚΕΦΑΛΑΙΟ Από την μελέτη του συνόλου δεδομένων διαπιστώθηκε ότι το είδος των μηνυμάτων σχετίζονται κυρίως με: Προσωπικά μηνύματα που αντανακλούν ανησυχίες, προβληματισμούς και προσδοκίες. Διαφημίσεις (spams). Οι διαφημίσεις αποτελούν ένα μεγάλο μέρος του συνόλου και είναι σχετικές με τραγούδια, ταινίες, εμπορικά κέντρα κ.α. Οι διαφημίσεις δεν προσφέρουν κάποια ουσιαστική σημασιολογική πληροφορία και συνήθως αλλοιώνουν την ακρίβεια των αποτελεσμάτων. Ενδεχομένως η υπηρεσία Twitter θα έπρεπε να διαθέτει ένα μηχανισμό φιλτραρίσματος, όμως η διαφήμιση και κατ επέκταση τα οικονομικά οφέλη που αποφέρει στα κοινωνικά δίκτυα δεν επιτρέπουν την λειτουργία τέτοιων μηχανισμών. Μέσα από την πειραματική διαδικασία θελήσαμε να δούμε ποιες λέξεις και φράσεις από το σύνολο των θετικών tweets εμφανίζονται πιο συχνά. Στον παρακάτω πίνακα παρουσιάζουμε τις πιο αντιπροσωπευτικές από αυτές. Word Frequency Score all 593 0.3125 just 399 0.535714285714 so 341 0.25 tree 315 0.375 merry 222 0.291666666667 love 218 0.325 happy 145 0.6875 year 140 0.5 great 126 0.354166666667 good 108 0.639423076923 best 107 0.5625 really 101 0.46875 buy 100 0.4375 come 95 0.25 please 95 0.625 :-) 90 1 much 76 0.375 people 72 0.5 Σελίδα 52 από 66

6 ο ΚΕΦΑΛΑΙΟ very 65 0.40625 spirit 64 0.21875 family 62 0.5 coming 61 0.25 perfect 56 0.708333333333 well 53 0.466666666667 better 51 0.625 Πίνακας 4: Συχνότητα εμφάνισης λέξεων των θετικών tweets Σχήμα 16: Word cloud θετικών tweets - Christmas Όπως διακρίνουμε υψήλη συχνότητα εμφάνισης, παρουσιάζουν λέξεις που παραδοσιακά προσδριορίζουν θετική άποψη όπως love, merry, best, better κλπ. Αντίστοιχα οι πλέον συχνές λέξεις που εμφανίζονται στα αρνητικά tweets παρουσιάζονται στον επόμενο πίνακα. Word Frequency Score have 475-0.5 song 252-0.203125 do 245-0.375 now 235-0.25 not 223-0.75 out 223-0.375 by 222-0.75 Σελίδα 53 από 66

6 ο ΚΕΦΑΛΑΙΟ going 182-0.375 today 144-0.25 other 140-0.25 no 131-0.333333333333 off 118-0.475 lot 92-0.625 little 90-0.275 down 88-0.303571428571 thanks 87-0.25 night 83-0.34375 next 77-0.25 present 70-0.25 fun 63-0.333333333333 beginning 52-0.375 top 50-0.208333333333 Πίνακας 5: Συχνότητα εμφάνισης λέξεων των αρνητικών tweets Παρατηρούμε ότι στον πίνακα 5 η λέξη «thanks» (ευχαριστίες, ευχαριστώ) έχει αρνητική βαθμολογία. Όπως διαπιστώσαμε η λέξη δεν αποτελεί συνώνυμο όρο που προέκυψε από την διαδικασία εμπλουτισμού του λεξικού αλλά είχε ορισθεί εξ αρχής ως αρνητική λέξη. Η συγκεκριμένη εγγραφή του λεξικού πρέπει να επαναξιολογηθεί. Το ίδιο παρατηρούμε και για τη λέξη «song». Στην περίπτωση αυτή όμως η λέξη καταχωρήθηκε ως συνώνυμη του όρου «strain» του λεξικού, ο οποίος έχει διαφορετικές ερμηνείες. Σαν ρήμα μεταφράζεται ως «τεντώνω, ζορίζω», ενώ σαν ουσιαστικό ερμηνεύεται ως «τάση, άσμα, σκοπός». Το λεξικό πριν τον εμπλουτισμό, δεν περιείχε τη λέξη. Άρα και σε αυτή τη περίπτωση διαπιστώνουμε μια σχετική ασάφεια ως προς την σημασιολογική βαθμολογία της συγκεκριμένης λέξης. Μια ακόμα εγγραφή που εμφανίζεται στον πίνακα συχνότητας των αρνητικών λέξεων προκάλεσε προβληματισμό και αφορά στη λέξη «fun», που μεταφράζεται ως «διασκέδαση». Διαπιστώσαμε ότι η λέξη έχει προστεθεί ως συνώνυμη της λέξης «sport». Η συγκεκριμένη περίπτωση θεωρείται ως σφάλμα της συνάρτηση του wordnet. Μπορεί εννοιολογικά η λέξη fun να είναι σχετική με τη λέξη sport, σε καμία περίπτωση όμως δεν μπορεί να χαρακτηρισθεί ως συνώνυμή της. '-0.333333333333', 'sport', 'summercater', 'sportsman', 'sportswoman', 'fun' Σελίδα 54 από 66

6 ο ΚΕΦΑΛΑΙΟ Σύμφωνα με τα παραπάνω, προκύπτει η ανάγκη αναθεώρησης του λεξικού απόψεων και επανακαθορισμού της βαθμολογίας ορισμένων συνώνυμων λέξεων, με τεχνικές που περιγράφονται αναλυτικά στο επόμενο κεφάλαιο. Ένα ακόμα ενδιαφέρον συμπέρασμα που προέκυψε από τη μελέτη των αποτελεσμάτων είναι σχετικό με τα emotions που χρησιμοποιούν οι χρήστες. Αναμέναμε η συχνότητα εμφάνισής τους να είναι αρκετά υψηλή, όμως τελικώς οι πειραματικές διαδικασίες απέδειξαν το αντίθετο. Όπως φαίνεται στον πίνακα 4 εκτός του emotion :-) (90 φορές) που εμφανίζεται σχετικά συχνά, κανένα άλλο σύμβολο δεν συμπεριλήφθηκε στους πίνακες συχνοτήτων. Επειδή το συγκεκριμένο λεξικό περιέχει τα βασικότερα emotions και η φαντασία των χρηστών παράγει νέα με γρήγορους ρυθμούς απαιτείται η επικαιροποίηση και ο εμπλουτισμός του. 6.2 Σύνολο Δεδομένων «Lady Gaga» Το σύνολο των δεδομένων αποτελείται από 4.503 μηνύματα από τα οποία 2.889 περιέχουν άποψη, τα 1.955 θετική και 934 αρνητική. Και σε αυτό το σύνολο τα διαφημιστικά μηνύματα ήταν πολύ συχνά. Καταμετρήθηκαν 95 μηνύματα που περιείχαν την ετικέτα «nowplaying» και αφορούσαν σε ανακοινώσεις από ραδιοφωνικούς σταθμούς. Σχήμα 17: Μηνύματα με άποψη Σελίδα 55 από 66

6 ο ΚΕΦΑΛΑΙΟ Εντοπίσαμε τις πλέον συχνές λέξεις που εμφανίζονται στο σύνολο των θετικών tweets και τις συγκρίναμε με το προηγούμενο σύνολο δεδομένων. Παρατηρήσαμε ότι υπάρχουν αρκετές κοινές λέξεις και είναι αυτές που συνήθως χρησιμοποιούνται για να εκφράσουν μια θετική άποψη. Με τον όρο «κοινές» αναφερόμαστε στις λέξεις που δεν χαρακτηρίζουν μονοσήμαντα μια έννοια αλλά χρησιμοποιούνται σε αρκετές εκφράσεις. Words Dataset Christmas Dataset Lady Gaga all 593 28 but 199 45 good 108 32 history 87 23 love 218 131 make 154 29 music 134 45 really 101 58 see 89 39 so 341 54 think 90 29 up 257 113 very 65 25 will 231 27 Πίνακας 6: Σύγκριση κοινών συχνά εμφανιζόμενων θετικών λέξεων Ένα τέτοιο σύνολο λέξεων μπορεί να έχει ένα ειδικό βάρος στις τεχνικές ανάλυσης, εισάγοντας μια διαφορετική παράμετρο αξιολόγησης. Η τεχνική της προσθήκης βάρους σε ομάδες λέξεων είναι μια τεχνική που εφαρμόζεται σε σημασιολογικές αναλύσεις κειμένου. Η δυσκολία εφαρμογής της όμως έγκειται στο γεγονός ότι δεν υπάρχει ένα κοινά αποδεκτό σύνολο τέτοιων λέξεων που να έχει εφαρμογή σε διαφορετικά είδη συνόλων. Συνεπώς απαιτείται πειραματισμός σε μεγάλο όγκο δεδομένων για να προκύψει ένα αξιόλογο και αξιόπιστο σύνολο λέξεων. Σελίδα 56 από 66

6 ο ΚΕΦΑΛΑΙΟ Σχήμα 18: Word cloud κοινών λέξεων - Christmas & Lady Gaga 6.3 Σύνολο Δεδομένων «Wikileaks» Το τελευταίο σύνολο δεδομένων που εξετάσαμε είναι σχετικό με την δημοσιογραφική είδηση διαρροής απορρήτων εγγράφων από διάφορα κράτη όπως η Αμερική, Γερμανία, Ισραήλ, Τουρκία, Ελλάδα κλπ. Ο ιδρυτής της ιστοσελίδας Julian Assange έχει απασχολήσει αρκετές φορές τον διεθνή τύπο για την δράση του, τόσο την προσωπική όσο και την επιχειρηματική. Επιλέξαμε το συγκεκριμένο θέμα γιατί θέλαμε να δούμε πώς εκφράζονται οι χρήστες της υπηρεσίας όταν σχολιάζουν τέτοιου είδους ειδήσεις και αν χρησιμοποιούν πιο ιδιαίτερες λέξεις ή εκφράσεις. Αξίζει να σημειωθεί ότι το συγκεκριμένο σύνολο δεδομένων περιέχει τα λιγότερα μηνύματα παρά το γεγονός ότι η χρονική διάρκεια του streaming των δεδομένων ήταν πιο μεγάλη από τις δύο προηγούμενες περιπτώσεις. Το σύνολο αποτελείται από 3.018 μηνύματα από τα οποία 1.983 περιέχουν άποψη, τα 1.050 θετική και 933 αρνητική. Όπως διαπιστώνουμε η άποψη των χρηστών είναι μοιρασμένη, με ελαφρή προβάδισμα αυτών που εκφράζονται θετικά σχετικά με το θέμα. Και σε αυτό το σύνολο είχαμε πολλά διαφημιστικά μηνύματα που περιείχαν κυρίως υπερσυνδέσμους σε ειδησεογραφικά πρακτορεία. Σελίδα 57 από 66

6 ο ΚΕΦΑΛΑΙΟ Σχήμα 19: Σχηματική παράσταση των tweets Το σύνολο των συχνών λέξεων, διαφοροποιείται σημαντικά σε σχέση με τα δύο προηγούμενα σύνολα δεδομένων. Είναι πιο ιδιαίτερο και περιλαμβάνει λέξεις πιο τυπικές, όπως court (νομοθετικό σώμα), government (διακυβέρνηση, διοίκηση), probe (έρευνα, ανάκριση), christian (χριστιανός, ηθικός, ελεήμονας). Word Frequency Score over 200 0.4375 account 158 0.25 news 133 0.25 court 104 0.625 government 102 0.25 probe 70 0.25 trawl 63 0.25 release 50 0.333333333 christian 48 0.25 people 36 0.5 dear 34 0.25 ordered 33 0.5625 favor 30 0.625 guardian 30 0.25 personal 30 0.5 please 26 0.625 site 22 0.375 after 21 0.25 Πίνακας 7: Συχνότητα εμφάνισης λέξεων των θετικών tweets Σελίδα 58 από 66

6 ο ΚΕΦΑΛΑΙΟ Σχήμα 19: Word cloud tweets Wikileaks Εντύπωση προκάλεσε η συχνότητα εμφάνισης της λέξης «trawl» που στην ελληνική γλώσσα αντιστοιχεί στη φράση «ψαρεύω με δίχτυ», η οποία προφανώς χρησιμοποιείται μεταφορικά και αποτυπώνει το ψάρεμα των ειδήσεων. Η συγκεκριμένη περίπτωση ενισχύει τον ισχυρισμό που αναπτύχθηκε στην εργασία και αντιπροσωπεύει τις απόψεις των ερευνητών σχετικά με τη δυσκολία εντοπισμού του σημασιολογικού προσδιορισμού των απόψεων ενός κειμένου. Πώς θα μπορούσε μια σημασιολογική μέθοδος να ερμηνεύσει τη μεταφορική έννοια αυτής ή παρόμοιων λέξεων; Οι ιδιαιτερότητες της φυσικής γλώσσας είναι τόσες πολλές που καμία μέθοδος μέχρι στιγμής δεν μπορεί να τις προβλέψει. Στις περισσότερες των περιπτώσεων ο στόχος είναι αντίστοιχες περιπτώσεις να περιορισθούν στο ελάχιστο δυνατό και να μην αλλοιώνουν αξιόλογα τα αποτελέσματα. Όλα τα προηγούμενα αποτελέσματα που παρουσιάσθηκαν, αποδεικνύουν ότι υπάρχει πλεονάζουσα και χρήσιμη πληροφορία στα σύντομα μηνύματα του κοινωνικού δικτύου Twitter. Οι χρήστες κρυμμένοι πίσω από την ανωνυμία του διαδικτύου, εκφράζονται ελεύθερα, αξιολογούν και σχολιάζουν πλήθος καθημερινών, κοινωνικών και προσωπικών θεμάτων. Σελίδα 59 από 66