Εξόρυξη γνώσης από Blogs: Εφαρμογές στο πεδίο της εξόρυξης ψυχικής διάθεσης

Transcript

1 ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ Εξόρυξη γνώσης από Blogs: Εφαρμογές στο πεδίο της εξόρυξης ψυχικής διάθεσης Διπλωματική Εργασία της Σπυράτου Ευαγγελίας (ΑΕΜ: 218) Επιβλέπων Καθηγητής: ΒΛΑΧΑΒΑΣ ΙΩΑΝΝΗΣ ΘΕΣΣΑΛΟΝΙΚΗ ΦΕΒΡΟΥΑΡΙΟΣ i-

2 Περίληψη Το θέμα της διατριβής αυτής είναι παρουσίαση των κυριότερων ερευνητικών τάσεων, μεθόδων και εφαρμογών που αφορούν στην ανακάλυψη γνώσης από ιστολόγια χρηστών (blogs), ενώ έμφαση δίνεται στην περιοχή της εξόρυξης ψυχικής διάθεσης με τεχνικές μηχανικής μάθησης. Τα ιστολόγια χρηστών αποτελούν μία πλούσια πηγή πληροφοριών στον παγκόσμιο ιστό, στην οποία εφαρμόζονται τεχνικές για την εξόρυξη πολύτιμης γνώσης. Γνώση μπορεί να αποτελέσει και η ψυχική διάθεση που υποδηλώνει κάθε μήνυμα, η οποία δύναται να αξιοποιηθεί κατά την μελέτη της επίδρασης ενός σημαντικού γεγονότος ή προσώπου στην παγκόσμια κοινότητα. Στο πρώτο τμήμα της εργασίας γίνεται ανασκόπηση της βιβλιογραφίας που σχετίζεται με τη διαδικασία της ανακάλυψης γνώσης από κείμενα και ιστολόγια, όπως επίσης και με την εξόρυξη ψυχικής διάθεσης από τέτοιο υλικό. Στο δεύτερο τμήμα παρουσιάζεται μια σειρά πειραμάτων εκπαίδευσης μοντέλων ταξινόμησης της ψυχικής διάθεσης που υποδηλώνουν μηνύματα που προέρχονται από ιστολόγια. Τα πειράματα αυτά έχουν ως στόχο την αξιολόγηση των κειμενικών χαρακτηριστικών που χρησιμοποιούνται για την αναπαράσταση των μηνυμάτων σε εφαρμογές εξόρυξης ψυχικής διάθεσης. Τα μοντέλα ταξινόμησης δημιουργήθηκαν και αξιολογήθηκαν με το λογισμικό Weka. Στη συνέχεια, παρουσιάζεται η διαδικτυακή εφαρμογή που υλοποιήθηκε στο πλαίσιο της παρούσας εργασίας, η οποία αξιοποιεί τα μοντέλα που αναπτύχθηκαν κατά την πειραματική φάση για την πρόβλεψη της υποδηλούμενης ψυχικής διάθεσης άλλων μηνυμάτων. -i-

3 Abstract The subject of this thesis is the presentation of the most significant research trends, methods and applications concerning blog data mining using machine learning techniques. Special attention is paid to the field of mood mining. Blogs constitute a valuable web information resource, thus machine learning techniques are applied to them in order to extract useful knowledge. Mood mining can generate knowledge which can be exploited to determine the effect of an important event or a notable person on the worldwide community. In the first part of this thesis, a survey of the literature which is related to text, blog and mood mining is presented. In the second part, a number of mood classification experiments on blog posts are conducted. These experiments aim at the evaluation of the text representation features that are usually chosen in mood mining applications. The classification models were built and evaluated by Weka software. Afterwards, a web application that utilizes these models is presented. This application was developed to predict the mood of the writer of a blog post based on a selected classification model. -ii-

4 Πρόλογος Η εξόρυξη γνώσης από ιστολόγια χρηστών (blogs) βρίσκεται τα τελευταία χρόνια στο επίκεντρο του επιστημονικού ενδιαφέροντος, κι αυτό γιατί η στάση των συγγραφέων της σφαίρας των ιστολογίων (blogosphere) φαίνεται να είναι καταλυτική για τη διαμόρφωση μίας παγκοσμιοποιημένης κοινής γνώμης. Τα ιστολόγια χρηστών, λοιπόν, αποτελούν μία πλούσια πηγή κειμενικών πληροφοριών από τον παγκόσμιο ιστό, στην οποία μπορούν να εφαρμοστούν τεχνικές για την εξόρυξη πολύτιμης γνώσης. Στην παρούσα διπλωματική εργασία γίνεται προσπάθεια να παρουσιαστούν οι κυριότερες ερευνητικές τάσεις, εφαρμογές και τεχνικές που αφορούν στην ανακάλυψη γνώσης από blogs, ενώ έμφαση δίνεται στην περιοχή της εξόρυξης ψυχικής διάθεσης με τεχνικές μηχανικής μάθησης. Παρουσιάζεται μια σειρά πειραμάτων εκπαίδευσης μοντέλων ταξινόμησης της ψυχικής διάθεσης που υποδηλώνουν μηνύματα που προέρχονται από ιστολόγια, τα οποία έχουν ως στόχο την αξιολόγηση των κειμενικών χαρακτηριστικών που χρησιμοποιούνται για την αναπαράσταση των μηνυμάτων σε εφαρμογές εξόρυξης ψυχικής διάθεσης. Επίσης, στο πλαίσιο της εργασίας, αναπτύχθηκε διαδικτυακή εφαρμογή η οποία αξιοποιεί τα μοντέλα που αναπτύχθηκαν για την πρόβλεψη της υποδηλούμενης ψυχικής διάθεσης άλλων μηνυμάτων. Η εκπόνηση της εργασίας έγινε στο εργαστήριο Λογικού Προγραμματισμού και Ευφυών συστημάτων (LPIS του τμήματος Πληροφορικής του Α.Π.Θ., σε συνεργασίας με την ομάδα Μηχανικής Μάθησης και Ανακάλυψης Γνώσης (Machine Learning and Knowledge Discovery Group MLKD Group). Θα ήθελα να ευχαριστήσω τον επιβλέποντα καθηγητή μου κ.ιωάννη Βλαχάβα για τη συνεργασία του αλλά και για την εμπιστοσύνη που μου έδειξε με την ανάθεση της συγκεκριμένης διπλωματικής εργασίας στο πρόσωπό μου. Δεν μπορώ να παραλείψω να ευχαριστήσω θερμά και το λέκτορα του τμήματος κ. Τσουμάκα Γρηγόριο για την πολύ σημαντική βοήθεια και καθοδήγηση που μου προσέφερε κατά τη διάρκεια εκπόνησης αυτής της εργασίας. Ευαγγελία Σπυράτου 18/02/2010 -iii-

5 Περιεχόμενα ΠΕΡΊΛΗΨΗ...I ABSTRACT...II ΠΡΌΛΟΓΟΣ...III 1 ΕΙΣΑΓΩΓΉ ΑΝΑΚΆΛΥΨΗ ΓΝΏΣΗΣ ΑΠΌ ΚΕΊΜΕΝΑ ΙΔΙΑΙΤΕΡΟΤΗΤΕΣ ΤΩΝ ΚΕΙΜΕΝΙΚΩΝ ΔΕΔΟΜΕΝΩΝ Η ΔΙΑΔΙΚΑΣΙΑ ΤΗΣ ΕΞΟΡΥΞΗΣ ΓΝΩΣΗΣ ΑΠΟ ΚΕΙΜΕΝΑ ΑΛΓΟΡΙΘΜΟΙ ΤΑΞΙΝΟΜΗΣΗΣ ΚΕΙΜΕΝΩΝ Ο αλγόριθμος Naive Bayes Support Vector Machines (SVM) ΕΦΑΡΜΟΓΕΣ Εμπορικές Εφαρμογές Εφαρμογές Ασφάλειας Βιοϊατρικές Εφαρμογές Ακαδημαϊκές Εφαρμογές ΛΟΓΙΣΜΙΚΌ ΕΞΌΡΥΞΗΣ ΕΠΙΛΟΓΟΣ ΠΕΔΙΑ ΕΡΕΥΝΗΤΙΚΟΥ ΕΝΔΙΑΦΕΡΟΝΤΟΣ ΕΞΌΡΥΞΗ ΑΠΌΨΕΩΝ ΑΠΌ ΤΟΝ ΠΑΓΚΌΣΜΙΟ ΙΣΤΌ ΑΝΑΖΗΤΗΣΗ ΑΠΟΨΕΩΝ Εννοιολογική Προσέγγιση Μοντελοποίηση Απόψεων Πεδία Αναζήτησης Απόψεων ΤΑΞΙΝΟΜΗΣΗ ΑΠΟΨΕΩΝ ΣΕ ΕΠΙΠΕΔΟ ΚΕΙΜΕΝΟΥ Ταξινόμηση Συναισθήματος Μη - Επιβλεπόμενη ταξινόμηση συναισθήματος Επιβλεπόμενη ταξινόμηση συναισθήματος ΤΑΞΙΝΟΜΗΣΗ ΑΠΟΨΕΩΝ ΣΕ ΕΠΙΠΕΔΟ ΠΡΟΤΑΣΕΩΝ Αναγνώριση Προτάσεων που εκφράζουν άποψη Αναγνώριση του προσανατολισμού των απόψεων ΑΝΑΚΑΛΥΨΗ ΤΟΥ ΣΗΜΑΣΙΟΛΟΓΙΚΟΥ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ ΛΕΞΕΩΝ ΚΑΙ ΦΡΑΣΕΩΝ Κατάρτιση λίστας από κειμενικό υλικό (Corpus-Based Approach) Κατάρτιση λίστας με τη χρήση κάποιου λεξικού συνωνύμων/αντωνύμων (dictionary-based approach) ΑΝΑΚΆΛΥΨΗ ΓΝΏΣΗΣ ΑΠΌ BLOGS Η ΚΑΤΆΣΤΑΣΗ ΤΟΥ «ΣΦΑΊΡΑΣ» ΤΩΝ BLOGS (BLOGOSPHERE) iv-

6 4.1.1 Τα Blogs, λογισμικά και η σφαίρα των blogs Διάθεση περιεχομένων Blogs με RSS Feeds ΤΑ ΧΑΡΑΚΤΗΡΙΣΤΙΚΆ ΤΩΝ BLOGS ΚΑΤΗΓΟΡΊΕΣ ΕΓΧΕΙΡΗΜΆΤΩΝ ΕΞΌΡΥΞΗΣ ΠΛΗΡΟΦΟΡΊΑΣ ΑΠΌ BLOGS ΕΣΤΊΑΣΗ ΤΩΝ ΕΡΕΥΝΏΝ ΚΑΙ ΑΝΑΔΥΌΜΕΝΕΣ ΤΆΣΕΙΣ Αναγνώριση των χαρακτηριστικών του συγγραφέα ενός Blog Αναζήτηση Απόψεων σε Blogs Αναγνώριση Spam Blogs Ταξινόμηση Συναισθήματος Εξόρυξη στάσης και ψυχικής διάθεσης ΕΞΌΡΥΞΗ ΨΥΧΙΚΉΣ ΔΙΆΘΕΣΗΣ ΑΠΌ BLOGS ΕΙΣΑΓΩΓΉ ΜΟΝΤΈΛΑ ΑΝΑΠΑΡΆΣΤΑΣΗΣ ΤΟΥ ΑΝΘΡΏΠΙΝΟΥ ΣΥΝΑΙΣΘΉΜΑΤΟΣ ΜΟΝΤΈΛΑ ΓΙΑ ΤΟΝ ΕΝΤΟΠΙΣΜΌ ΚΕΙΜΈΝΩΝ ΠΟΥ ΕΚΦΡΆΖΟΥΝ ΨΥΧΙΚΉ ΔΙΆΘΕΣΗ Εντοπισμός λέξεων κλειδιών Λεξιλογική Συγγένεια Στατιστική Επεξεργασία Φυσικής Γλώσσας Χειρωνακτικές Προσεγγίσεις ΕΠΙΛΟΓΉ ΧΑΡΑΚΤΗΡΙΣΤΙΚΏΝ ΚΑΙ ΜΕΘΌΔΩΝ ΤΑΞΙΝΌΜΗΣΗΣ ΕΡΓΑΣΊΕΣ ΣΤΟ ΠΕΔΊΟ ΤΗΣ ΤΑΞΙΝΌΜΗΣΗΣ ΨΥΧΙΚΉΣ ΔΙΆΘΕΣΗΣ ΣΕ ΕΠΊΠΕΔΟ ΜΗΝΎΜΑΤΟΣ Πειράματα ταξινόμησης ψυχικής διάθεσης σε Blogs Καθορισμός Ψυχικής Διάθεσης Συνδυάζοντας Πολλές Πηγές Αποδείξεων Κατανοώντας Πως Νιώθουν οι Bloggers: Αναγνώριση ψυχικής διάθεσης στα μηνύματα των Blogs ESSE: Ερευνώντας την ψυχολογική διάθεση στο διαδίκτυο ΟΙ ΚΥΡΙΌΤΕΡΕΣ ΕΡΓΑΣΊΕΣ ΣΤΟ ΠΕΔΊΟ ΤΗΣ ΑΝΆΚΤΗΣΗΣ ΑΘΡΟΙΣΤΙΚΉΣ ΨΥΧΙΚΉΣ ΔΙΆΘΕΣΗΣ Μια μέθοδος μέτρησης του μεγέθους της «ευτυχίας» βασισμένη σε κείμενα Αναγνώριση Επιπέδων καθολικής διάθεσης από μηνύματα σε blogs Αναγνωρίζοντας και εξηγώντας «κορυφές» στα επίπεδα ψυχικής διάθεσης στα blogs 98 ΑΝΑΖΉΤΗΣΗ ΑΘΡΟΙΣΤΙΚΉΣ ΨΥΧΙΚΉΣ ΔΙΆΘΕΣΗΣ ΔΕΔΟΜΈΝΩΝ ΛΈΞΕΩΝ ΚΛΕΙΔΙΏΝ ΠΕΙΡΆΜΑΤΑ ΕΞΌΡΥΞΗΣ ΨΥΧΙΚΉΣ ΔΙΆΘΕΣΗΣ ΠΡΟΕΠΕΞΕΡΓΑΣΊΑ ΔΕΔΟΜΈΝΩΝ ΕΠΙΛΟΓΉ ΑΛΓΟΡΊΘΜΟΥ ΜΗΧΑΝΙΚΉΣ ΜΆΘΗΣΗΣ Ο αλγόριθμος Liblinear ΜΕΊΩΣΗ ΤΩΝ ΔΙΑΣΤΆΣΕΩΝ Η μετρική Information Gain Η μετρική Chi Square (x2) ΕΚΠΑΊΔΕΥΣΗ ΜΟΝΤΈΛΩΝ ΚΑΙ ΑΠΟΤΕΛΈΣΜΑΤΑ Χρήση όλων των δυνατών κατηγοριών χαρακτηριστικών αναπαράστασης v-

7 6.4.2 Χρήση όλων των δυνατών κατηγοριών χαρακτηριστικών εκτός από μέρη του λόγου Χρήση όλων των δυνατών κατηγοριών χαρακτηριστικών εκτός από μέρη του λόγου και μέσο μήκος γραμμής Χρήση όλων των δυνατών κατηγοριών χαρακτηριστικών εκτός από μέρη του λόγου και σημεία στίξης Μοντελοποίηση με απαλοιφή ζευγών λέξεων (bigrams) Μοντελοποίηση με απαλοιφή μεμονωμένων λέξεων (unigrams) Μοντελοποίηση χωρίς stemming Μοντελοποίηση με απαλοιφή του χαρακτηριστικού για το εάν ένα κείμενο περιέχει συνδέσμους ή όχι ΔΗΜΙΟΥΡΓΊΑ ΣΗΜΑΣΙΟΛΟΓΙΚΏΝ ΧΑΡΑΚΤΗΡΙΣΤΙΚΏΝ ΧΡΗΣΙΜΟΠΟΙΏΝΤΑΣ ΛΕΞΙΛΟΓΙΚΈΣ ΠΗΓΈΣ Χρήση όλων των δυνατών κατηγοριών χαρακτηριστικών αναπαράστασης με τα επιπλέον χαρακτηριστικά Χρήση όλων των δυνατών κατηγοριών χαρακτηριστικών αναπαράστασης εκτός από μέρη του λόγου με τα επιπλέον χαρακτηριστικά ΣΎΝΟΨΗ ΚΑΙ ΣΥΜΠΕΡΆΣΜΑΤΑ ΕΦΑΡΜΟΓΉ ΠΡΌΒΛΕΨΗΣ ΨΥΧΙΚΉΣ ΔΙΆΘΕΣΗΣ ΑΡΧΙΤΕΚΤΟΝΙΚΉ ΤΟΥ ΣΥΣΤΉΜΑΤΟΣ ΚΑΙ ΜΟΝΤΈΛΑ ΤΑΞΙΝΌΜΗΣΗΣ Η αρχιτεκτονική του συστήματος Η γραφική διεπαφή του συστήματος Δυνατές Προεκτάσεις του Συστήματος ΣΥΜΠΕΡΆΣΜΑΤΑ - ΠΡΟΤΆΣΕΙΣ ΓΙΑ ΜΕΛΛΟΝΤΙΚΉ ΈΡΕΥΝΑ ΒΙΒΛΙΟΓΡΑΦΊΑ vi-

8 1 Εισαγωγή Τα τελευταία χρόνια γίνεται πολύς λόγος για το blogging και για τον τρόπο με τον οποίο τα blogs επηρεάζουν τα μέσα μαζικής ενημέρωσης και αλλάζουν τον τρόπο που οι άνθρωποι επικοινωνούν και μοιράζονται γνώσεις. Τα blogs βρίσκονται στο επίκεντρο της προσοχής σε εμπορικό επίπεδο, ενώ ένας μεγάλος αριθμός ακαδημαϊκών ερευνών τα αφορούν. Οι τρέχουσες έρευνες που σχετίζονται με τα blogs καλύπτουν πολλές διαφορετικές πτυχές, από εθνογραφικές και κοινωνιολογικές μελέτες μέχρι τυπικά μαθηματικά μοντέλα ροής πληροφοριών μέσω των blogs. Σκοπός αυτής της εργασίας είναι να σκιαγραφήσει τις προκλήσεις και τις ευκαιρίες που προσφέρει η σφαίρα των blogs από τη σκοπιά της πρόσβασης σε πολύτιμες πληροφορίες, ενώ έμφαση δίνεται στην περιοχή της εξόρυξης ψυχικής διάθεσης με τεχνικές μηχανικής μάθησης, από όπου παρουσιάζονται αρκετές ερευνητικές εργασίες. Στο πλαίσιο της εργασίας εκπονήθηκε επιπρόσθετα και μια σειρά πειραμάτων εκπαίδευσης μοντέλων ταξινόμησης της ψυχικής διάθεσης που υποδηλώνουν μηνύματα που προέρχονται από ιστολόγια, τα οποία έχουν ως στόχο την αξιολόγηση των κατηγοριών των κειμενικών χαρακτηριστικών που χρησιμοποιούνται για την αναπαράσταση των μηνυμάτων σε εφαρμογές εξόρυξης ψυχικής διάθεσης. Κατασκευάζονται, εκτός από δομικά και σημασιολογικά χαρακτηριστικά και διερευνάται το κατά πόσο συντελούν στην αύξηση της ακρίβειας των μοντέλων ταξινόμησης. Επίσης, κατά την εκπόνηση της εργασίας αναπτύχθηκε διαδικτυακή εφαρμογή η οποία αξιοποιεί τα μοντέλα που αναπτύχθηκαν, κατά την πειραματική φάση, για την πρόβλεψη της υποδηλούμενης ψυχικής διάθεσης άλλων μηνυμάτων. Η διπλωματική εργασία είναι διαρθρωμένη σε οκτώ κεφάλαια. Το παρόν είναι η Εισαγωγή. Στο δεύτερο κεφάλαιο, με τίτλο «Ανακάλυψη Γνώσης από Κείμενα», παρατίθεται το θεωρητικό υπόβαθρο όσον αφορά τις τεχνικές μηχανικής μάθησης που εφαρμόζονται στην εξόρυξη γνώσης από κειμενική πληροφορία γενικά. -7-

9 Στο τρίτο κεφάλαιο παρουσιάζονται οι κυριότερες τεχνικές αναζήτησης απόψεων από κειμενικό υλικό του παγκόσμιου ιστού, καθώς και η εξόρυξη του σημασιολογικού προσανατολισμού τους. Στο τέταρτο κεφάλαιο παρουσιάζεται η δομή της σφαίρας των blogs και εκείνων των ιδιαίτερων χαρακτηριστικών τους που τα διαφοροποιούν από την υπόλοιπη κειμενική πληροφορία. Γίνεται ανασκόπηση και απόπειρα κατηγοριοποίησης των ερευνητικών εργασιών που αφορούν στην ανάκτηση και στην εξόρυξη πληροφορίας από τέτοιου είδος υλικό. Παρουσιάζονται θέματα που απασχολούν διεθνή workshops και συνέδρια, αφιερωμένα στη μελέτη των blogs, όπως τα TREC και τα ICWSM. Στο πέμπτο κεφάλαιο γίνεται αναφορά στη σκοπιμότητα εξόρυξης ψυχικής διάθεσης από blogs και στις εφαρμογές που έχει. Παρουσιάζονται τα μοντέλα που χρησιμοποιούνται για την αναπαράσταση του ανθρώπινου συναισθήματος κατά την επικοινωνία ανθρώπου-υπολογιστή και συνοψίζονται οι τρόποι αναπαράστασης των κειμένων και οι αλγόριθμοι που χρησιμοποιήθηκαν από ερευνητές για την διεξαγωγή πειραμάτων εξόρυξης ψυχικής διάθεσης σε κειμενική πληροφορία γενικά. Επιπρόσθετα, αναλύεται μια σειρά από ερευνητικές εργασίες στο πεδίο της εξόρυξης ψυχικής διάθεσης από blogs. Στο έκτο κεφάλαιο παρουσιάζεται η μεθοδολογία που ακολουθήθηκε κατά τον πειραματισμό με δεδομένα από blogs με σκοπό την εξόρυξη ψυχικής διάθεσης. Περιγράφεται το στάδιο της συλλογής και προεπεξεργασίας των δεδομένων. Επίσης, περιγράφονται τα πειράματα ταξινόμησης που έγιναν πάντα με τον αλγόριθμο LibLinear και πάντα πάνω στον ίδιο όγκο μηνυμάτων. Τα μηνύματα μοντελοποιούνται κάθε φορά με διαφορετικούς συνδυασμούς κατηγοριών χαρακτηριστικών, με σκοπό τη διερεύνηση των καταλληλότερων κατηγοριών χαρακτηριστικών μηνυμάτων στην εξόρυξη ψυχικής διάθεσης. Στο έβδομο κεφάλαιο περιγράφεται η λειτουργικότητα της διαδικτυακής εφαρμογής που αναπτύχθηκε με την τεχνολογία jsp για την πρόβλεψη της ψυχικής διάθεσης ενός νέου μηνύματος ανάλογα με τις κατηγορίες συναισθήματος που ορίζονται από κάποιο προ-εκπαιδευμένο μοντέλο μηχανικής μάθησης. Σημαντικό χαρακτηριστικό του συστήματος είναι ότι μπορεί να χρησιμοποιήσει οποιοδήποτε προεκπαιδευμένο μοντέλο ταξινόμησης και να ταξινομήσει ένα μήνυμα σε οσεσδήποτε ψυχικές διαθέσεις υποστηρίζει το προ-εκπαιδευμένο μοντέλο. Μάλιστα, η παραμετροποίηση αυτή γίνεται με τη χρήση ενός εξωτερικού αρχείου παραμέτρων. -8-

10 Το όγδοο κεφάλαιο παρουσιάζει τα συμπεράσματα της εργασίας και μελλοντικές προτάσεις για έρευνα. -9-

11 2 Ανακάλυψη Γνώσης από Κείμενα Η εξόρυξη γνώσης από κείμενα (Text Mining) αναφέρεται γενικά στη διαδικασία της συλλογής πληροφορίας υψηλής ποιότητας από ελεύθερο κείμενο. Ο όρος «υψηλή ποιότητα» αναφέρεται στην τελική εξαγωγή μη αυτονόητης, χρήσιμης, και πρωτότυπης πληροφορίας. Η διαδικασία της εξόρυξης περιλαμβάνει πάντα την υποδιαδικασία της προεπεξεργασίας του κειμένου (επιλογή και επεξεργασία γλωσσικών χαρακτηριστικών, εξάλειψη κειμενικών ιδιαιτεροτήτων και αποθήκευση των τελικών δομημένων δεδομένων σε βάση δεδομένων), την επιλογή και εφαρμογή κάποιου μοντέλου επεξεργασίας (στατιστικού, μηχανικής μάθησης κ.τ.λ.) στα δομημένα πλέον στοιχεία του κειμένου και τελικά την αξιολόγηση και ερμηνεία των παραγόμενων αποτελεσμάτων. Στόχοι της εξόρυξης γνώσης, μπορούν να είναι η κατηγοριοποίηση κειμένων, η ομαδοποίηση κειμένων, η εξαγωγή απ αυτά εννοιών/οντοτήτων, η ανάλυση συναισθήματος, η περιληπτική παρουσίαση της πληροφορίας του κειμένου, η παραγωγή ταξινομιών των οντοτήτων του κειμένου και η εκμάθηση ενδιαφέροντων σχέσεων μεταξύ συγκεκριμένων οντοτήτων. Στην εικόνα που ακλουθεί παρουσιάζονται σχηματικά οι παραπάνω έννοιες: Εικόνα 1: Η διαδικασία της εξόρυξης γνώσης από κείμενα -10-

12 Η εξόρυξη πληροφορίας από κείμενα είναι ένας διεπιστημονικός τομέας που αφορά την επιστήμη της ανάκτησης πληροφοριών, της εξόρυξης δεδομένων, της μηχανικής μάθησης, τη στατιστική και την υπολογιστική γλωσσολογία. Δεδομένου ότι οι περισσότερες πληροφορίες (πάνω από 80%) αποθηκεύονται ως αδόμητο ή ημίδομημένο κείμενο, η εξόρυξη γνώσης από κείμενα φαίνεται να έχει υψηλή αξία, καθότι μπορεί να αποτελέσει χρήσιμο εργαλείο σε πολλές εμπορικές εφαρμογές. Πηγές κειμένων μπορούν να αποτελέσουν το διαδίκτυο, το ηλεκτρονικό ταχυδρομείο, οι ομάδες συζητήσεων (discussion groups και forums), οι ηλεκτρονικές βιβλιοθήκες, καθώς και αρχεία κειμένου. Ένα πεδίο υψηλού επιστημονικού ενδιαφέροντος σήμερα είναι η εξόρυξη γνώσης από κειμενικό περιεχόμενο που έχουν αναρτήσει χρήστες σε διάφορες πηγές του διαδικτύου. Καθώς ο όγκος των πληροφοριών στον κυβερνών χώρο διαρκώς αυξάνεται, η αξιολόγηση, ταξινόμηση και ομαδοποίηση αυτών των πληροφοριών, αποκτά διαρκώς αυξανόμενη χρησιμότητα. Για παράδειγμα, η ανάλυση συναισθήματος, μπορεί να εφαρμοστεί στην εκτίμηση του πόσο θετική ή αρνητική ήταν κάποια κριτική στο διαδίκτυο για μία ταινία. Μία τέτοια ανάλυση, μπορεί, ανάλογα με το μοντέλο εξόρυξης που εφαρμόζεται, να απαιτεί προεπεξεργασία του κειμένου (απαλοιφή λέξεων ή αντικατάσταση, συντακτική ανάλυση και εξαγωγή πλειάδων λέξεων) ή και σημασιολογική προεπεξεργασία λέξεων (συνώνυμα/αντώνυμα), των οποίων η παρουσία στο κείμενο έχει υψηλή προσδιοριστική σημαντικότητα. Επίσης, αυξανόμενο ενδιαφέρον σήμερα συγκεντρώνεται και στην πολύγλωσση ανάκτηση δεδομένων και τη δυνατότητα να ομαδοποιηθούν πληροφορίες από πολλές πηγές ανεξαρτήτως γλώσσας με βάσει παρόμοια στοιχεία τους σύμφωνα με την έννοιά τους. 2.1 ΙΔΙΑΙΤΕΡΟΤΗΤΕΣ ΤΩΝ ΚΕΙΜΕΝΙΚΩΝ ΔΕΔΟΜΕΝΩΝ Η εξόρυξη γνώσης από κείμενα είναι ένα δύσκολο εγχείρημα και αυτό διότι τα κειμενικά δεδομένα έχουν αρκετές ιδιαιτερότητες σε σχέση με άλλα δεδομένα. Αναφορικά, οι κυριότερες που αναφέρονται στη βιβλιογραφία είναι οι ακόλουθες: Λεξιλογική και Σημασιολογική Αμφισημία: Στο λόγο χρησιμοποιούνται συχνά προσωπικές αντωνυμίες που είναι δύσκολο να εντοπιστεί ποια ουσιαστικά αντικαθιστούν και με ποιά επίθετα σχετίζονται. Επίσης, χρησιμοποιούνται συχνά συνώνυμες λέξεις ή λέξεις με πολλαπλό νόημα. Ο όρος σημασιολογική αμφισημία -11-

13 αναφέρεται στο γεγονός ότι η ίδια φράση μπορεί να έχει διαφορετική σημασία ανάλογα με το περιεχόμενο μέσα στο οποίο αναφέρεται. Σχετική Εξάρτηση: Σε μία γλώσσα, μία έννοια ή μία ενέργεια είναι ένας συνδυασμός λέξεων και φράσεων. Μεγάλος Όγκος Βάσεων Κειμενικών Δεδομένων: Καθώς ο όγκος της κειμενικής πληροφορίας στο διαδίκτυο μεγαλώνει συνεχώς και όλο και περισσότερες εκδόσεις και δημοσιεύσεις υπάρχουν και σε ηλεκτρονική μορφή, οι βάσεις δεδομένων κειμένου αυξάνουν σε μέγεθος. Οι αλγόριθμοι επεξεργασίας αυτών των δεδομένων απαιτείται να κλιμακώνονται καλά, ώστε να είναι αποτελεσματικοί. Θόρυβος στα δεδομένα: π.χ. Ορθογραφικά λάθη Κακή δομή των δεδομένων: Συντακτικά και γραμματικά λάθη στις προτάσεις, που προκύπτουν από τη χρήση προφορικού λόγου σε γραπτό υλικό (π.χ. r u available?) Πολλές διαστάσεις του μοντέλου: Κατά τη μοντελοποίηση ενός κειμένου κάθε λέξη του μπορεί να είναι και μία διάσταση του μοντέλου που χρησιμοποιείται για εκπαίδευση και μάθηση. Το διάνυσμα που αναπαριστά ένα κείμενο ανάλογα με την απουσία ή παρουσία κάποιας λέξης, συνήθως είναι και πολύ αραιό. 2.2 Η ΔΙΑΔΙΚΑΣΙΑ ΤΗΣ ΕΞΟΡΥΞΗΣ ΓΝΩΣΗΣ ΑΠΟ ΚΕΙΜΕΝΑ Τα κριτήρια για ένα αποτελεσματικό σύστημα εξόρυξης γνώσης από κείμενα, ορίστηκαν από τον Sharp (2001) ως εξής: Το σύστημα θα πρέπει να λειτουργεί αποτελεσματικά με μεγάλες συλλογές δεδομένων (κλιμάκωση). Θα πρέπει να χρησιμοποιεί περισσότερο αλγορίθμους παρά ευρετικές και χειρωνακτικές μεθόδους. Θα πρέπει να εξάγει τα υποδείγματα (patterns) παρά την επιπρόσθετη προσθήκη εγγράφων. Θα πρέπει να ανακαλύπτει νέα γνώση. -12-

14 Η διαδικασία της εξόρυξης γνώσης από κείμενα αποτελείται από συγκεκριμένα βήματα, όπως φαίνονται στο παρακάτω σχεδιάγραμμα. Εικόνα 2: Τα βήατα εξόρυξης γνώσης από κείμενα Αναλυτικότερα: Βήμα 1ο: Συλλογή των σχετικών με το πρόβλημα εγγράφων. Το βήμα αυτό εξετάζει η επιστήμη της ανάκτησης πληροφοριών (information retrieval). Το πρόβλημα που πρέπει να επιλυθεί σ αυτή τη φάση είναι ο προσδιορισμός των εγγράφων που πρέπει να ανακτηθούν, δοθέντων κάποιων λέξεων/φράσεων αναζήτησης. Βήμα 2ο: Προεπεξεργασία των εγγράφων. Το βήμα αυτό περιλαμβάνει όλες τις διαδικασίες μετασχηματισμού των αρχικών εγγράφων που ανακτώνται. Ένα κείμενο θεωρείται συνήθως μια «τσάντα από λέξεις» (bag of words) και μπορεί να μοντελοποιηθεί ως ένα πολυδιάσταστο διάνυσμα. Κατά τη φάση της προεπεξεργασίας εξαλείφονται εκείνα τα χαρακτηριστικά του κειμένου που θα μπορούσαν να εισάγουν θόρυβο κατά τη διαδικασία της μοντελοποίησής του και της διαδικασίας εξόρυξης. Στο στάδιο αυτό μπορεί να λάβει χώρα η γλωσσική προεπεξεργασία (tokenization), δηλαδή η απαλοιφή από ένα κείμενο περιττών συμβόλων (%,!, HTML TAGS, ;, κ.τ.λ.). Επίσης μπορεί να λάβει χώρα και η διαδικασία της ανάθεσης των όρων στις γραμματικές τους κατηγορίες (part-ofspeech tagging) ή η διαδικασία της λημματοποίησης (lemmatization). Διαδεδομένη είναι και η μέθοδος αφαίρεσης των stopwords (λέξεις με μεγάλη συχνότητα σε ένα κείμενο, όπως άρθρα και σύνδεσμοι). Τέλος, μία κοινή μορφή επεξεργασίας των όρων ενός κειμένου είναι η αφαίρεση των καταλήξεων των λέξεων και η -13-

15 αντικατάστασή τους με τις ρίζες τους (stemming) (Bei Yu, 2006). Η επιλογή των διαδικασιών προεπεξεργασίας εξαρτάται από το στόχο και το πεδίο της διαδικασίας της μάθησης, αφού η μελέτη κάποιων χαρακτηριστικών μπορεί να είναι σκόπιμο να εξεταστεί ανάλογα με το πεδίο της εφαρμογής (π.χ. κατά την εξόρυξη ψυχικής διάθεσης από blogs σύμβολα όπως τα θαυμαστικά ή λέξεις με έμφαση (tag BOLD) είναι σημαντικά χαρακτηριστικά). Βήμα 3ο: Μοντελοποίηση κειμένου και εξαγωγή χαρακτηριστικών. Το βήμα αυτό είναι ίσως από τα πιο καθοριστικά για την ακρίβεια του παραγόμενου μοντέλου. Ένα κείμενο μπορεί να αναπαρασταθεί ως «ασκός με λέξεις» (Bag Of Words). Το μοντέλο BOW βασίζεται στη λογική του ότι κάθε κείμενο είναι μία συλλογή όρων ανεξαρτήτως σειράς και ότι το περιβάλλον ενός όρου δεν επηρεάζει το νόημά του. Έτσι, απλοποιεί την αναπαράσταση του κειμένου σε ένα διάνυσμα, όπου κάθε διάσταση είναι η παρουσία/απουσία μιας λέξης (Boolean model). Επίσης, κάθε διάσταση μπορεί να είναι η συχνότητα εμφάνισης μίας λέξης ή η κανονικοποιημένη συχνότητα εμφάνισης μίας λέξης (tf*idf). (Bey Yu, 2006) Βήμα 4ο: Εφαρμογή διαδικασιών μάθησης από κείμενα. Η μάθηση από κείμενα μπορεί να εφαρμοστεί στις εξής λειτουργίες: - Ταξινόμηση: Είναι η διαδικασία κατά την οποία τα κείμενα ταξινομούνται σε ένα προκαθορισμένο αριθμό κατηγοριών. Κατά τη διαδικασία της κατηγοριοποίησης, ένας ταξινομητής εκπαιδεύεται με ένα σύνολο εγγράφων, τα οποία έχουν συγκεκριμένα χαρακτηριστικά και στα οποία έχουν προστεθεί ετικέτες με την κατηγορία στην οποία ανήκουν. Στη συνέχεια ο ταξινομητής βρίσκει ένα μοντέλο για κάθε κατηγορία, το οποίο εκφράζεται ως συνάρτηση των χαρακτηριστικών των εγγράφων, και χρησιμοποιεί το μοντέλο αυτό για να αναθέσει τα νέα έγγραφα που θα δεχτεί ως είσοδο σε μία κατηγορία. Η διαδικασία αυτή φαίνεται στην παρακάτω εικόνα: -14-

16 Εικόνα 3: Ταξινόμηση κειμένων - Ομαδοποίηση: Είναι η λειτουργία κατά την οποία ένα σύνολο εγγράφων διαιρείται σε ομάδες με βάση κάποιο μέτρο ομοιότητας. Στην ομαδοποίηση, οι κατηγορίες-ομάδες στις οποίες θα ανατεθούν τα έγγραφα δεν είναι προκαθορισμένες όπως στην κατηγοριοποίηση, αλλά ανακαλύπτονται κατά τη διαδικασία επεξεργασίας των κειμένων. Τα έγγραφα που ανήκουν σε μία ομάδα θα πρέπει να είναι παρόμοια μεταξύ τους περισσότερο απ ότι με έγγραφα άλλων ομάδων. - Αναζήτηση και Ανάκτηση Πληροφοριών: Κατά τη διαδικασία αυτή, δοθέντος ενός ερωτήματος (σε κείμενο), γίνεται αναζήτηση μέσα στο σύνολο των κειμένων για την εύρεση σχετικής πληροφορίας. Κείμενα με μη σχετική πληροφορία απομακρύνονται, και παρουσιάζονται αυτά που πληρούν τα κριτήρια της αναζήτησης. Η λειτουργία αυτή παρουσιάζεται στην παρακάτω εικόνα: -15-

17 Εικόνα 4: Λειτουργία Αναζήτησης και Ανάκτησης Πληροφοριών - Δημιουργία Περίληψης των πληροφοριών. Η λειτουργία αυτή περιλαμβάνει τη μείωση της ποσότητας ενός κειμένου, αποδίδοντας όμως το περιεχόμενο και το βασικό νόημά του. 2.3 ΑΛΓΟΡΙΘΜΟΙ ΤΑΞΙΝΟΜΗΣΗΣ ΚΕΙΜΕΝΩΝ Σύμφωνα με τον Sebastiani (2002), για την ταξινόμηση κειμένων χρησιμοποιούνται κυρίως οι παρακάτω μέθοδοι μάθησης: Ταξινομητές που βασίζονται σε πιθανότητες (όπως ο αλγόριθμος Naive Bayes) Δέντρα αποφάσεων (όπως ο αλγόριθμος C4.5) Μέθοδοι παλινδρόμησης (όπως η ευθεία των ελαχίστων τετραγώνων Linear LeastSquares Fit, LLSF)) Online μέθοδοι μάθησης (όπως το νευρωνικό δίκτυο Perceptron) H μέθοδος του Rocchio που χρησιμοποιείται στην ανάκτηση πληροφοριών Νευρωνικά δίκτυα Lazy learners (όπως ο αλγόριθμος των k-πλησιέστερων γειτόνων (knn)) Support Vector Machines (SVM) Μέθοδοι μάθησης συνόλου (ensemble learning methods) -16-

18 Σύμφωνα με εμπειρικές έρευνες για τη σύγκριση των παραπάνω μεθόδων, οι αλγόριθμοι Naive Bayes και Support Vector Machines είναι οι αποτελεσματικότεροι στο πεδίο αυτό (Sebastiani, 2002). Παρακάτω παρουσιάζονται οι δύο αυτοί βασικοί αλγόριθμοι μηχανικής μάθησης Ο αλγόριθμος Naive Bayes Ο ταξινομητής Naive Bayes βασίζεται στην απλή υπόθεση ότι οι τιμές των χαρακτηριστικών είναι υπό συνθήκη ανεξάρτητες, δεδομένης της τιμής της εξαρτημένης μεταβλητής. Υπάρχουν αρκετές παραλλαγές στις εφαρμογές του αλγόριθμου αυτού. Ο McCallum (1998) συνόψισε δύο βασικά μοντέλα naive Bayes για την ταξινόμηση κειμένου, το πολυμεταβλητό μοντέλο του Bernoulli και το πολυωνυμικό μοντέλο. Το πολυμεταβλητό μοντέλο του Bernoulli χρησιμοποιεί χαρακτηριστικά με τιμές boolean (παρουσία ή απουσία λέξεων) ενώ το πολυωνυμικό μοντέλο χρησιμοποιεί χαρακτηριστικά με τιμές μη-μηδενικούς ακεραίους (συχνότητα εμφάνισης λέξεων). Και τα δύο μοντέλα υποθέτουν την υπό συνθήκη ανεξαρτησία των χαρακτηριστικών και δε λαμβάνουν υπόψη τη σειρά των λέξεων. Το πολυμεταβλητό μοντέλο του Bernoulli αποκαλείται επίσης μοντέλο δυαδικής ανεξαρτησίας (Binary Independence Model). Δοθέντος ενός συνόλου εγγράφων εκπαίδευσης με λεξιλόγιο, ένα έγγραφο αναπαρίσταται σαν ένα δυαδικό διάνυσμα χαρακτηριστικών (λέξεων) με μήκος χαρακτηριστικό- λέξη. Κάθε έχει τιμή 1 αν η λέξη υπάρχει στο κείμενο και 0 αν δεν υπάρχει. Το μοντέλο αυτό δε λαμβάνει υπόψη τη συχνότητα εμφάνισης των λέξεων και το μήκος του εγγράφου. Δοθέντος ενός προβλήματος ταξινόμησης με κλάσεις, η κλάση του εγγράφου καθορίζεται από την εξίσωση: Το όπου υπολογίζεται από την εξίσωση ο συνολικός αριθμός των εγγράφων και ο συνολικός αριθμός των εγγράφων στα οποία συναντάται η λέξη. Κάποιες φορές μία λέξη μπορεί να μη συναντάται σε μία κατηγορία, οπότε. Απαιτείται η χρήση τεχνικών κανονικοποίησης (smoothing), διότι μπορεί να υπάρχουν λέξεις που εμφανίζονται στα έγγραφα ελέγχου, -17-

19 αλλά όχι στα δεδομένα εκπαίδευσης. Εδώ χρησιμοποιούμε την m-εκτίμηση σε περίπτωση που. Για χαρακτηριστικά με boolean τιμές, και το m συνήθως τίθεται ίσο με 2. Στο πολυωνυμικό μοντέλο, η τιμή κάθε χαρακτηριστικού-λέξης είναι η συχνότητα εμφάνισής του στο έγγραφο. Αν συμβολίσουμε το συνολικό μήκος όλων των εγγράφων που ανήκουν στην κλάση, τότε το ως και το μέγεθος του λεξιλογίου ως υπολογίζεται από την εξίσωση και. Η μέθοδος αυτή χρησιμοποιεί την κανονικοποίηση Laplace (που ονομάζεται επίσης εξομάλυνση με την προσθήκη ενός, add-one smoothing). Στο πολυωνυμικό μοντέλο, ο εκπαιδευμένος ταξινομητής θα παραμείνει ίδιος αν αλλάξουμε τη σειρά των λέξεων μέσα σε ένα έγγραφο και ενώσουμε όλα τα παραδείγματα εγγράφων μίας κλάσης σε ένα μόνο παράδειγμα. Επομένως, το μήκος του κάθε ενός εγγράφου δε σχετίζεται με τους υπολογισμούς πιθανοτήτων. Σύμφωνα με προηγούμενες έρευνες (McCallum, 1998; Lewis, 1998), το πολυμεταβλητό μοντέλο του Bernoulli είναι αποτελεσματικό όταν εφαρμόζεται σε σύνολα δεδομένων με μικρό λεξιλόγιο, ενώ το πολυωνυμικό μοντέλο είναι πιο αποτελεσματικό όταν έχουμε λεξιλόγιο μεγάλου μεγέθους. Άρα το πολυωνυμικό μοντέλο είναι πιο δημοφιλές σε εφαρμογές κατηγοριοποίησης κειμένου. Για ένα πρόβλημα δυαδικής ταξινόμησης, οι προβλέψεις και για τα δύο μοντέλα καθορίζονται από τον ακόλουθο λόγο κλάσης Το έγγραφο ανήκει στην κλάση Μπορούμε να δούμε το λόγο αν και στη διαφορετικά. ως ένα μέτρο εμπιστοσύνης (confidence measure) για τις προβλέψεις του αλγόριθμου naive Bayes. Μετά το λογαριθμικό μετασχηματισμό, μία θετική τιμή του αντιπροσωπεύει την εμπιστοσύνη ότι το παράδειγμα ανήκει -18-

20 στην κλάση, ενώ μία αρνητική τιμή την εμπιστοσύνη ότι ανήκει στην κλάση Όσο μεγαλύτερη είναι η τιμή., τόσο πιο σίγουρος είναι ο ταξινομητής για την πρόβλεψη. Το PR μπορεί να χρησιμοποιηθεί σαν μέθοδος για να βαθμολογήσουμε τα αποτελέσματα της πρόβλεψης Support Vector Machines (SVM) Ο αλγόριθμος SVM ανήκει στις επιβλεπόμενες μεθόδους μηχανικής μάθησης και προσπαθεί να μεγιστοποιήσει τη γενίκευση, ώστε να αντιμετωπίσει το πρόβλημα της υπερπροσαρμογής (overfitting). Δοθέντων των δεδομένων εκπαίδευσης, ο SVM προσπαθεί να μεγιστοποιήσει το περιθώριο του ορίου απόφασης, βρίσκοντας το μέγιστο της συνάρτησης με περιορισμούς. Τα παραδείγματα εγγράφων που βρίσκονται στο περιθώριο έχουν μη μηδενικές τιμές και ονομάζονται Support Vectors (SV). Τα υπόλοιπα έγγραφα έχουν μηδενικές τιμές και θεωρείται ότι δε συνεισφέρουν στην ταξινόμηση. Στον παραπάνω τύπο, ο όρος είναι η συνάρτηση kernel (kernel function). Παρόλο που ο SVM μπορεί να χειριστεί μη γραμμικά όρια με τη συνάρτηση kernel, μελέτες έχουν δείξει ότι η γραμμική συνάρτηση kernel είναι αποτελεσματική για την εργασία της κατηγοριοποίησης κειμένου ενώ η πολυωνυμική συνάρτηση kernel δε βελτιώνει αισθητά την απόδοση (Leopold και Kindermann, 2002). Επομένως εδώ χρησιμοποιούμε την απλή γραμμική συνάρτηση kernel, Δοθέντος ενός παραδείγματος ελέγχου., η γραμμική συνάρτηση απόφασης είναι η εξής: όπου -19-

21 και. Η εξίσωση για την απόφαση ταξινόμησης είναι. Η τιμή της συνάρτησης απόφασης, δηλαδή η έξοδος του αλγορίθμου SVM για κάθε πρόβλεψη, μπορεί να θεωρηθεί σαν ένα είδος κριτηρίου εμπιστοσύνης της πρόβλεψης. Όσο μεγαλύτερη είναι η απόλυτη τιμή, τόσο πιο μακριά είναι το σημείο από το όριο της απόφασης, επομένως ο ταξινομητής είναι πιο «σίγουρος» για την πρόβλεψη. Εικόνα 5 Γεωμετρική αναπαράσταση του τρόπου λειτουργίας των SVM 2.4 ΕΦΑΡΜΟΓΕΣ Η ανακάλυψη γνώσης από κείμενα χρησιμοποιείται σήμερα σε πολλούς τύπους εφαρμογών Εμπορικές Εφαρμογές Το μεγάλο διαδικτυακό βιβλιοπωλείο AMAZON, χρησιμοποιεί τεχνικές ανακάλυψης γνώσης από κείμενα, ώστε να μπορεί να εντοπίζει πιθανούς αγοραστές ενός προϊόντος με βάση το προφίλ τους (κειμενική πληροφορία). Επίσης, πολλές εφαρμογές συλλέγουν και συσχετίζουν γνώση από διάφορες πηγές του διαδικτύου για ένα προϊόν και την τιμή του Εφαρμογές Ασφάλειας Το 2007, το τμήμα καταπολέμησης εγκλήματος της Europol ανέπτυξε σύστημα ανάλυσης, ώστε να καταπολεμήσει το διεθνές οργανωμένο έγκλημα. Το σύστημα αυτό -20-

22 με το όνομα OASIS, ενσωματώνει προηγμένες τεχνικές ανάλυσης κειμένου και επέτρεψε στη Europol να κάνει σημαντική πρόοδο ως προς την υποστήριξη της τήρησης του νόμου σε διεθνές επίπεδο Βιοϊατρικές Εφαρμογές Μια σειρά από εφαρμογές εξόρυξης γνώσης από κείμενο, χρησιμοποιούνται και στην επιστήμη της βιοϊατρικής. Για παράδειγμα η εφαρμογή PubGene συνδυάζει την εξόρυξη πληροφορίας με την οπτικοποίηση δικτύων, παρέχοντας τα αποτελέσματα στο διαδίκτυο. Ένα άλλο παράδειγμα εφαρμογής, που χρησιμοποιεί οντολογίες είναι η GoPubMed.org Ακαδημαϊκές Εφαρμογές Για πολλούς επιστημονικούς κλάδους, όπου επιστημονική πληροφορία περιλαμβάνεται συχνά μέσα σε γραπτό κείμενο, το ζήτημα της εξόρυξης κειμένων είναι σημαντικό. Για αυτό έχουν ληφθεί πρωτοβουλίες, όπως η πρόταση της Nature για δημιουργία ανοιχτού λογισμικού εξόρυξης πληροφορίας από κείμενα και του NIH για τον καθορισμό κοινού προτύπου δημοσίευσης επιστημονικών περιοδικών (με χρήση DTD), ώστε το σημασιολογικό περιεχόμενο του κειμένου να είναι δυνατό να παρέχεται σε μηχανές αναζήτησης. Στις Ηνωμένες Πολιτείες, στο πανεπιστήμιο της Καλιφόρνιας, το Μπέρκλεϋ αναπτύσσεται πρόγραμμα εξόρυξης και ανάλυσης βιοϊατρικών κειμένων το BioText, το οποίο θα βοηθάει στην ανάκτηση, συλλογή και ανάλυση τέτοιου περιεχομένου από πολλαπλές πηγές επιστημονικής πληροφορίας. 2.5 Λογισμικό Εξόρυξης Τμήματα έρευνας και ανάπτυξης μεγάλων εταιριών, όπως της IBM και της Microsoft, ερευνούν τεχνολογίες εξόρυξης γνώσης από κείμενα και αναπτύσσουν προγράμματα που ενσωματώνουν αυτές της τεχνολογίες. Τέτοιες τεχνικές μελετώνται και από εταιρίες που παρέχουν εφαρμογές αναζήτησης και δεικτοδότησης περιεχομένου, ώστε να βελτιωθεί η σχετικότητα και η αξία των παρεχόμενων αποτελεσμάτων αναζήτησης. Σήμερα παρέχονται αρκετά εμπορικά λογισμικά πακέτα εξόρυξης κειμενικής γνώσης, αλλά και ανοιχτό λογισμικό γι αυτό το σκοπό. Μεταξύ αυτών είναι και τα παρακάτω: -21-

23 AeroText Παρέχει πακέτο εφαρμογών εξόρυξης γνώσης από κείμενα για ανάλυση πηγών περιεχομένου πολλών γλωσσών. Autonomy Πακέτο κατάλληλο για εξόρυξη κειμενικής πληροφορίας, ομαδοποίηση και ταξινόμηση κειμένων. Endeca Technologies Παρέχει λογισμικό για την ανάλυση και ομαδοποίηση μη- δομημένου κειμένου. Expert System S.P.A. Πακέτο τεχνολογιών σημασιολογικής ανάλυσης και προϊόντων για προγραμματιστές και αναλυτές. Nstein - Λύση εξόρυξης κειμενικής πληροφορίας. Δημιουργεί πλούσια μέταπληροφορία. NLProcessor Εργαλείο γραμματικής ανάλυσης στοιχείων κειμένου. Pervasive Data Integrator Περιλαμβάνει εργαλείο με το οποίο ο χρήστης μπορεί να κάνει εντοπισμό ακολουθιών πληροφορίας σύμφωνα με κάποιο πρότυπο σε εκθέσεις (reports), html σελίδες, s και σώζει την ανακτημένη πληροφορία σε οποιαδήποτε βάση δεδομένων. SAS Παρέχει τη δυνατότητα ανάλυσης κειμένου, επεξεργασίας φυσικής γλώσσας και σύνθεση ταξινομιών από κείμενο. SPSS Παρέχει το εργαλείο SPSS Text Analysis και εργαλείο εξόρυξης κειμενικής πληροφορίας. Τα εργαλεία αυτά μπορούν να συνδυαστούν με το γνωστό στατιστικό πακέτο SPSS Predictive Analytics Solutions. Thomson Data Analyzer Δίνει τη δυνατότητα ανάλυσης επιστημονικών δημοσιεύσεων και νέων. LanguageWare GATE Βιβλιοθήκη εργαλείων ανάλυσης κειμένου από την IBM Εργαλείο ανάλυσης φυσικής γλώσσας. YALE/RapidMiner- Ανοιχτό λογισμικό εξόρυξης πληροφορίας και κειμενικής πληροφορίας Weka-Ανοιχτό λογισμικό που για ταξινόμηση και ομαδοποίηση πληροφοριάς και κειμενικής πληροφορίας -22-

24 2.6 ΕΠΙΛΟΓΟΣ ΠΕΔΙΑ ΕΡΕΥΝΗΤΙΚΟΥ ΕΝΔΙΑΦΕΡΟΝΤΟΣ Μέχρι σήμερα στο διαδίκτυο χρησιμοποιούνται περισσότερο μηχανές αναζήτησης βασισμένες σε λέξεις του κειμένου και όχι στη σημασιολογία του. Με άλλα λόγια, οι χρήστες είναι σε θέση να εντοπίσουν έγγραφα μόνο μέσω των αυτούσιων λέξεων που αυτά περιέχουν. Η εξόρυξη κειμένων μπορεί να επιτρέψει στις αναζητήσεις να απαντούν με αποτελέσματα/κείμενα, τα οποία σχετίζονται σημασιολογικά (κατηγορία κειμένου, έννοια, συμφραζόμενα) με κάποια λέξη-κλειδί. Επιπλέον, το λογισμικό εξόρυξης γνώσης από κείμενα μπορεί να χρησιμοποιηθεί για να συλλέξει μεγάλο όγκο πληροφοριών για συγκεκριμένους ανθρώπους και γεγονότα από ετερογενείς πηγές (συμπεριλαμβανομένων και πηγών του διαδικτύου). Παραδείγματος χάριν, με τη χρησιμοποίηση λογισμικού που εξάγει γεγονότα για επιχειρήσεις και άτομα από ηλεκτρονικές ειδήσεις, μεγάλα σύνολα δεδομένων μπορούν να συλλεχθούν για να διευκολύνουν την κοινωνικό-οικονομική ανάλυση. Στην πραγματικότητα, το λογισμικό εξόρυξης κειμενικής πληροφορίας μπορεί να ενεργήσει παρόμοια με έναν αναλυτή, αν και υπό περιορισμούς. Η εξόρυξη κειμένων χρησιμοποιείται επίσης σε μερικά φίλτρα ηλεκτρονικού ταχυδρομείου, ως τρόπος εντοπισμού ανεπιθύμητων (spam) ηλεκτρονικών μηνυμάτων, όπως είναι οι διαφημίσεις. -23-

25 3 Εξόρυξη Απόψεων από τον Παγκόσμιο Ιστό Σήμερα, στον παγκόσμιο ιστό υπάρχουν δύο είδη πληροφορίας: γεγονότα και απόψεις. Οι περισσότερες μηχανές αναζήτησης, μπορούν να ανακτούν μέσω λέξεων-κλειδιών γεγονότα, ενώ δεν μπορούν να ανακτήσουν απόψεις, καθότι αφενός μεν αυτές είναι δύσκολο να αναπαρασταθούν από μεμονωμένες λέξεις κλειδιά και αφετέρου οι αλγόριθμοι κατάταξης των αποτελεσμάτων (search ranking strategies), δεν είναι κατάλληλοι για ανάκτηση/εξόρυξη απόψεων. Ωστόσο, ο όγκος του περιεχομένου που αφορά απόψεις ολοένα και αυξάνεται, αφού ο παγκόσμιος ιστός έχει αλλάξει δραματικά τον τρόπο με τον οποίο οι άνθρωποι εκφράζουν τις απόψεις τους. Μπορούν να γράψουν κριτικές προϊόντων σε σελίδες ηλεκτρονικού εμπορίου, αλλά και να εκφράσουν τις απόψεις τους επάνω σε οποιοδήποτε ζήτημα σε διαδικτυακές ομάδες συζήτησης (discussion groups), ηλεκτρονικά ημερολόγια (web logs blogs) και χώρους δημόσιας συζήτησης (forums). Η μελέτη και εξόρυξη πληροφορίας από τέτοιο περιεχόμενο αυτό που δημιουργείται καθαρά από συνδρομή των χρηστών (user-generated), έχει πολλές ενδιαφέρουσες εφαρμογές, αν και πρόκειται για ένα αρκετά δύσκολο εγχείρημα για λόγους που αναφέρονται εκτενώς παρακάτω. Για παράδειγμα οι εταιρίες ενδιαφέρονται να μάθουν τις απόψεις του κόσμου για τα προϊόντα τους, ώστε να τα προβάλλουν κατάλληλα. Οι αγοραστές ενδιαφέρονται να διαβάσουν μία περίληψη όλων των διαθέσιμων κριτικών προϊόντων που σκέφτονται να αγοράσουν. Οι πολιτικοί και άλλα δημόσια πρόσωπα ενδιαφέρονται για την θετική και αρνητική δημοσιότητά τους. Στο κεφάλαιο ατό παρουσιάζονται οι μεθοδολογίες που συναντώνται στη βιβλιογραφία και αφορούν την εξόρυξη των απόψεων κειμενικό υλικό του παγκόσμιου ιστού. -24-

26 3.2. ΑΝΑΖΗΤΗΣΗ ΑΠΟΨΕΩΝ Εννοιολογική Προσέγγιση Οι απόψεις μέσα σε ένα κείμενο για κάποια οντότητα, όπως προϊόν, γεγονός, θέμα συζήτησης, πρόσωπο μπορεί να εκφράζονται είτε άμεσα με εκφράσεις που δηλώνουν συναίσθημα (π.χ. «Η ταινία ήταν υπέροχη»), είτε έμμεσα με σύγκριση της οντότητας με κάποια άλλη (π.χ. «Το αυτοκίνητο Α είναι καλύτερο από το Β.»). Στόχος του ερευνητικού πεδίου της αναζήτησης απόψεων στο διαδίκτυο, είναι η εφαρμογή εξειδικευμένων τεχνικών ανακάλυψης γνώσης κατά τη διαδικασία της αναζήτησης, ώστε ο χρήστης να είναι σε θέση να ανακτά απόψεις ή περίληψη αυτών των απόψεων για μία οντότητα. Ερωτήματα όπως «Ποια είναι η άποψη του κοινού για τα κινητά τηλέφωνα ΝΟΚΙΑ» ή «Ποια τηλέφωνα είναι καλύτερα, τα MOTOROLA ή τα NOKIA», θα μπορούν να απαντηθούν μέσα από μηχανές αναζήτησης που εφαρμόζουν τεχνικές εξόρυξης πληροφορίας από κείμενο. Τυπικά ερωτήματα χρηστών έχουν ως στόχο την ανάκτηση της άποψης ενός ατόμου για κάποιο χαρακτηριστικό μιας οντότητας, την συλλογή θετικών/αρνητικών απόψεων για κάποια οντότητα (ή κάποιο μεμονωμένο χαρακτηριστικό της), την πληροφόρηση για το πώς οι απόψεις πάνω σε μία συγκεκριμένη οντότητα μεταβλήθηκαν χρονικά (π.χ. απόψεις για κάποιο πολιτικό πρόσωπο με πηγή διάφορα Blogs), ή το εάν υπερτερεί κάποιο αντικείμενο σε σχέση με ένα άλλο. Απ αυτούς τους τύπους ερωτημάτων μόνο ο πρώτος μπορεί να απαντηθεί ικανοποιητικά από τις συνηθισμένες μηχανές αναζήτησης με κατάλληλη επιλογή λέξεων-κλειδιών, ως είσοδο, αφού η άποψη ενός ατόμου για κάτι τις περισσότερες φορές περιγράφεται σε ένα κείμενο. Για την απάντηση ερωτημάτων του δεύτερου τύπου χρειάζεται η ανάκτηση πολλών απόψεων και η εξαγωγή της συναισθηματικής τους κατεύθυνσης (θετική/αρνητική άποψη). Μετά από εξάλειψη τυχόντων spam απόψεων, το τελικό αποτέλεσμα που δίνεται στο χρήστη μπορεί να είναι είτε μία περίληψη αυτών, είτε ή ίδιες οι απόψεις ταξινομημένες σε θετικές και αρνητικές Μοντελοποίηση Απόψεων Μία άποψη (opinion) είναι η εκδήλωση μίας στάσης, συμπεριφοράς ή επευφήμισης απέναντι σε κάποιο αντικείμενο (object), από το υποκείμενο που την κατέχει (opinion holder). Το υποκείμενο αυτό μπορεί να είναι κάποιο πρόσωπο ή κάποιος φορέας (π.χ. οργανισμός, επιχείρηση). -25-

27 Ορισμός 1: Ένα αντικείμενο (object) είναι μια οντότητα Ο, η οποία μπορεί να είναι κάποιο προϊόν, άτομο, γεγονός, οργανισμός ή θέμα. Η οντότητα Ο αναπαρίσταται ως μία ιεραρχία από τα συστατικά της μέρη (components), τα συστατικά μέρη αυτών των μερών κ.τ.λ.. Κάθε συστατικό μίας οντότητας περιγράφεται από το δικό του σύνολο ιδιοτήτων (attributes). Η οντότητα Ο είναι ο κόμβος ρίζα αυτής της ιεραρχικής δομής, ο οποίος σχετίζεται επίσης με ένα σύνολο χαρακτηριστικών. Για συντομία κάθε συστατικό ενός αντικειμένου μαζί με τις ιδιότητές του θα αναφέρεται ως χαρακτηριστικό (feature). Μία άποψη μπορεί να ένα ή περισσότερα χαρακτηριστικά. Το ίδιο το αντικείμενο Ο (κόμβος ρίζα της ιεραρχίας) είναι και αυτό ένα χαρακτηριστικό. Εικόνα 6: Ιεραρχική αναπαράσταση μίας οντότητας Ορισμός 2: Κάθε αντικείμενο Ο μπορεί να αναπαρασταθεί με ένα πεπερασμένο σύνολο χαρακτηριστικών, πεπερασμένο. Κάθε χαρακτηριστικό μπορεί να εκφραστεί με ένα σύνολο συνώνυμων λέξεων ή φράσεων. Άρα ένα σύνολο, περιέχει όλα τα σύνολα συνώνυμων για κάθε χαρακτηριστικό. Σύμφωνα με τα παραπάνω, σε μία κριτική ενός προϊόντος (Hu και Liu, 2004) κάποιο υποκείμενο (opinion holder) σχολιάζει το υποσύνολο του Ο. Για κάθε χαρακτηριστικό κάποια λέξη ή φράση από το των χαρακτηριστικών που σχολιάζεται, το υποκείμενο χρησιμοποιεί για να περιγράψει το χαρακτηριστικό και εκφράζει μία θετική, αρνητική ή ουδέτερη άποψη για αυτό. -26-

28 3.2.3 Πεδία Αναζήτησης Απόψεων Το πρόβλημα της αναζήτησης απόψεων σε κειμενικά δεδομένα, προσεγγίζεται ερευνητικά τόσο σε επίπεδο κειμένου (γενικό συναίσθημα σε ένα κείμενο για κάποιο αντικείμενο), όσο και σε προτασιακό επίπεδο (εξαγωγή προτάσεων του κειμένου που εκφράζουν κάποια άποψη και ταξινόμηση αυτών σε θετικές και αρνητικές). Κατά την πρώτη προσέγγιση (document level approach) γίνεται η παραδοχή ότι ένα κείμενο αναφέρεται σε ένα μόνο αντικείμενο και περιέχει την άποψη ενός μόνο υποκειμένου. Εντέλει, ταξινομείται ως θετικό, αρνητικό ή ουδέτερο σε σχέση με το αντικείμενο του ενδιαφέροντος. Κατά τη δεύτερη (sentence level approach) γίνεται η παραδοχή ότι μία πρόταση περιέχει μόνο μία άποψη. Μια τρίτη προσέγγιση βασίζεται στη γενική ιδέα ότι μια άποψη μπορεί να αναφέρεται τόσο σε μία οντότητα ολόκληρη, όσο και σε κάθε επιμέρους χαρακτηριστικό της. Συνεπώς, μία πιο λεπτομερής προσέγγιση της εξόρυξης απόψεων είναι αυτή σε επίπεδο χαρακτηριστικού (feature level approach). Η προσέγγιση αυτή περιλαμβάνει τη διαδικασία την αναγνώρισης των χαρακτηριστικών, τα οποία έχει σχολιάσει ο χρήστης, τον σημασιολογικό προσδιορισμό των απόψεων και τέλος την ομαδοποίηση των συνώνυμων χαρακτηριστικών. Αποτέλεσμα αυτής της προσέγγισης μπορεί να είναι και μία περίληψη των απόψεων για κάθε σχολιασμένο χαρακτηριστικό. Κάθε μία από αυτές τις προσεγγίσεις, αναλύεται λεπτομερώς στο υπόλοιπο αυτού του κεφαλαίου. 3.3 ΤΑΞΙΝΟΜΗΣΗ ΑΠΟΨΕΩΝ ΣΕ ΕΠΙΠΕΔΟ ΚΕΙΜΕΝΟΥ Ταξινόμηση Συναισθήματος Ο όρος «ταξινόμηση συναισθήματος» αναφέρεται στην κατηγοριοποίηση κειμένων από μία πηγή, ανάλογα με το συνολικό συναίσθημα που εκφέρεται στις απόψεις των υποκειμένων που εκφράζονται για κάτι. Αποτέλεσμα είναι η ταξινόμηση του κειμένου ως προς τη μεταβλητή στόχο συναίσθημα, η οποία μπορεί να πάρει τις τιμές θετικό, αρνητικό ή ουδέτερο. Στο πεδίο της έρευνας αυτής έχουν συμβάλει εκατοντάδες δημοσιεύσεις τα περασμένα χρόνια (Esuli, 2008)). Γενικά, έχουν χρησιμοποιηθεί τόσο τεχνικές επιβλεπόμενης, όσο και μη επιβλεπόμενης μάθησης. Οι μη επιβλεπόμενες μέθοδοι, επικεντρώνονται στην εξαγωγή και ταξινόμηση λέξεων ή προτάσεων από το κείμενο, οι -27-

29 οποίες θεωρούνται ως ατομικές μονάδες που εκφράζουν συναίσθημα (Turney, 2002; Riloff και Wiebe, 2003; Hatzivassiloglou και Wiebe, 2000). Το γενικό συναίσθημα ενός κειμένου είναι τελικά το άθροισμα θετικών και αρνητικών συναισθημάτων των επιμέρους μονάδων. Επειδή, σ αυτές τις μεθόδους δε χρησιμοποιούνται δεδομένα εκπαίδευσης, γίνεται χρήση εξωτερικών βάσεων γνώσης (π.χ.wordnet), οι οποίες επιστρέφουν το σημασιολογικό περιεχόμενο και τη συναισθηματική κατεύθυνση μίας λέξης. Στις μεθόδους επιβλεπόμενης μάθησης, το συναίσθημα εξετάζονται μεγαλύτερα δομικά στοιχεία (πρόταση, παράγραφος, κείμενο), για την εξόρυξη συναισθήματος. Στην εργασία των Pang et.al. (2002) τα κείμενα μοντελοποιήθηκαν ως α) διανύσματα συχνότητας λέξεων και β) απουσίας ή παρουσίας λέξεων και εφαρμόστηκαν τρεις αλγόριθμοι μηχανικής μάθησης: Ο Naive Bayes, ένας αλγόριθμος βασισμένος σε SVM και ένας βασισμένος στο μέγεθος της εντροπίας. Καλύτερη απόδοση είχε αυτός που χρησιμοποιούσε SVM, με κείμενο που μοντελοποιήθηκε ως διάνυσμα παρουσίας ή απουσίας όρων. Πάντως, οι περισσότερες μεθοδολογίες επιβλεπόμενης μάθησης χρησιμοποιούνται κυρίως για ταξινόμηση συναισθήματος σε επίπεδο κειμένου. Οι Chaovalit and Zhou (2005) συνέκριναν σε απόδοση τις επιβλεπόμενες και μη επιβλεπόμενες μεθόδους και κατέληξαν στο συμπέρασμα ότι οι επιβλεπόμενες δίνουν ακριβέστερα αποτελέσματα, σε ένα σύνολο δεδομένων από κριτικές ταινιών. Ωστόσο, οι παραδοσιακοί ταξινομητές δεν είναι τόσο ακριβείς στην κατηγοριοποίηση συναισθήματος, όσο στην κατηγοριοποίηση κειμένων με βάση το θέμα τους. Προκειμένου να βελτιωθεί η ακρίβεια τους επιχειρήθηκε η εξαγωγή κι άλλων γλωσσικών χαρακτηριστικών, εκτός από επίθετα ή επιρρήματα. Επίσης, μελετήθηκε η σχέση του είδους και του στιλ ενός κειμένου με τον τρόπο που μπορεί να εκφράζει συναίσθημα. Πάντως στις περισσότερες μελέτες φαίνεται υπεροχή των SVM σε σχέση με τον Naive Bayes στην περιοχή της ταξινόμησης συναισθήματος, σε αντίθεση με την περιοχή της ταξινόμησης με βάση το θέμα Μη - Επιβλεπόμενη ταξινόμηση συναισθήματος Η εργασία του Turney (2002) προτείνει τον υπολογισμό ενός δείκτη για την κατηγοριοποίηση κριτικών σε θετικές και αρνητικές. Η διαδικασία ταξινόμησης περιλαμβάνει τρία βήματα. -28-

30 Βήμα 1ο: Part Of Speech Tagging. Κάθε λέξη του κειμένου σημαίνεται ανάλογα με το τι μέρος του λόγου είναι. Στη συνέχεια εξάγονται δύο συνεχόμενες λέξεις (bigrams), ανάλογα με τον αν η ακολουθία τους εμπίπτει σε κάποια πρότυπα (patterns), π.χ. εξάγονται δύο συνεχόμενα επίθετα. Ακολουθείται η μέθοδος εξαγωγής δύο λέξεων, διότι γίνεται η παραδοχή ότι η σημασία π.χ. ενός μάλλον θετικού επιθέτου μπορεί να αλλάζει, ανάλογα με την ακολουθία λέξεων μέσα στην οποία υπάρχει (π.χ. μεγάλη παραγωγή +, μεγάλος φόβος -). Βήμα 2ο: Υπολογίζεται ο δείκτης PMI (Pointwise mutual information) ως εξής: Ο δείκτης αυτός είναι ο λογάριθμος, με βάση το δύο, του λόγου της πιθανότητας να συνυπάρχουν δύο όροι σε ένα κείμενο, προς την πιθανότητα να υπάρχει κάθε όρος μεμονωμένα. Η σημασιολογική κατεύθυνση μίας φράσης (στη συγκεκριμένη περίπτωση μίας ακολουθίας δύο λέξεων), SO υπολογίζεται ως εξής: Δηλαδή, το εάν μία φράση έχει θετική ή αρνητική συναισθηματική χροιά είναι η διαφορά της πιθανότητας να συναντάται συχνά, σε κείμενα, κοντά στη λέξη τέλειος μείον τη διαφορά να συναντάται συχνά, σε κείμενα, κοντά στη λέξη φτωχός. Για τον υπολογισμό των πιθανοτήτων και των πιθανοτήτων και, δηλαδή των μεμονωμένων, χρησιμοποιήθηκε ο τελεστής near της μηχανής Altavista, ώστε να μην προσμετρούνται στον αριθμό των κειμένων που περιέχουν συνδυασμό των δύο όρων, αυτά στα οποία οι όροι απέχουν πάνω από ένα καθορισμένο όριο λέξεων. -29-

31 Βήμα 3ο: Υπολογίζεται ο μέσος όρος των SO όλων των φράσεων. Αν αυτός είναι θετικός, τότε η κριτική ταξινομείται ως θετική κριτική, αλλιώς ως αρνητική. Άλλη μια σημαντική εργασία στην κατηγορία αυτή είναι αυτή του Dave et. al. (2003). Μία κριτική, ταξινομείται ανάλογα με το άθροισμα ενός σκορ που έχουν λάβει διάφορα χαρακτηριστικά χαρακτηριστικών της. Πρώτα επιλέγεται ένα σύνολο. Η συνάρτηση υπολογισμού του σκορ ενός χαρακτηριστικού είναι η ακόλουθη: Στην παραπάνω συνάρτηση, C είναι μία κλάση (θετική κριτική) και C το συμπλήρωμά της (αρνητική κριτική). Το σκορ είναι το πηλίκο της πιθανότητας εμφάνισης του χαρακτηριστικού σε μία θετική κριτική μείον την πιθανότητα εμφάνισης του χαρακτηριστικού σε μία αρνητική κριτική προς το άθροισμα της πιθανότητας εμφάνισης του χαρακτηριστικού σε μία αρνητική κριτική συν την πιθανότητα εμφάνισης του χαρακτηριστικού σε μία θετική κριτική. Η κλάση της κριτικής καθορίζεται από τον τύπο: Όπου: Δηλαδή κατατάσσεται ως θετική (κλάση C), εάν το άθροισμα των σκορ των χαρακτηριστικών της είναι θετικό Επιβλεπόμενη ταξινόμηση συναισθήματος Η εργασία των Pang et.al. (2002), που αναφέρθηκε παραπάνω, είναι η πιο γνωστή αυτής της κατηγορίας. Στο στάδιο της προεπεξεργασίας των κειμένων, η άρνηση (negation) σημάνθηκε με ειδικό σύμβολο, εξάχθηκαν μεμονωμένες λέξεις, καθώς και συνδυασμοί δύο λέξεων, οι λέξεις σημάνθηκαν ανάλογα με το τι μέρος του λόγου ήταν. -30-

32 Τα κείμενα μοντελοποιήθηκαν ως α) διανύσματα συχνότητας λέξεων και β) απουσίας ή παρουσίας λέξεων και εφαρμόστηκαν τρεις αλγόριθμοι μηχανικής μάθησης: Ο Naive Bayes, ένας βασισμένος σε SVM και ένας βασισμένος στο μέγεθος της μέγιστης εντροπίας. Καλύτερη απόδοση είχε αυτός που χρησιμοποιούσε SVM με κείμενο μοντελοποιημένο ως διάνυσμα παρουσίας ή απουσίας όρων (χρήση μοντέλου μεμονωμένων λέξεων και όχι συνδυασμών). Ο αλγόριθμος ταξινόμησε τα κείμενα με ακρίβεια 83%. Οι Μullen και Collier (2004) χρησιμοποίησαν στην εργασία τους συνδυασμό των μεθόδων PMI και SVM για συναισθηματική ταξινόμηση κειμένων. 3.2 ΤΑΞΙΝΟΜΗΣΗ ΑΠΟΨΕΩΝ ΣΕ ΕΠΙΠΕΔΟ ΠΡΟΤΑΣΕΩΝ Αναγνώριση Προτάσεων που εκφράζουν άποψη Σημαντικό πεδίο έρευνας στην προσέγγιση αυτή είναι η αναγνώριση και εξαγωγή από ένα ευρύτερο κείμενο, μόνο εκείνων των προτάσεων που εκφράζουν κάποια άποψη (subjective sentences). Όλες οι μέθοδοι που αφορούν την επίλυση αυτού του προβλήματος χρησιμοποιούν κάποια τεχνική μηχανικής μάθησης. Η μεταβλητή στόχος μπορεί να πάρει δύο τιμές, objective (αντικειμενική/ουδέτερη πρόταση) και subjective (υποκειμενική/πρόταση που εκφράζει άποψη). Οι Riloff και Wiebe (2003), εφάρμοσαν μία επαναληπτική διαδικασία (bootstrapping approach) για την εκμάθηση εξαγωγής προτάσεων που περιέχουν υποκειμενικότητα. Χρησιμοποίησαν αρχικά δύο ταξινομητές υψηλής ακρίβειας (HPSubj και HP-Obj), για την ανάκτηση κάποιων ουδέτερων και υποκειμενικών προτάσεων. Οι προτάσεις που ανακτήθηκαν απ αυτούς, χρησιμοποιήθηκαν ως σύνολο εκπαίδευσης σε κάποιον άλλο αλγόριθμο, ο οποίος μπορούσε να μάθει να εξάγει ακολουθίες λέξεων (extraction of patterns) που σχετίζονταν με την υποκειμενικότητα. Συνήθως, αυτές οι ακολουθίες περιοριζόταν σε καθορισμένες συντακτικές μορφές φράσεων, π.χ. <subj> passive-verb. Τα πρότυπα που εξαγόταν μπορούσαν στη συνέχεια να χρησιμοποιηθούν για την εξαγωγή περισσότερων υποκειμενικών προτάσεων. Η διαδικασία που ακολουθήθηκε παρουσιάζεται στο παρακάτω διάγραμμα : -31-

33 Εικόνα 7: Μεθοδολογία των Rilloff και Wiebe Παρακάτω παρουσιάζονται κάποια πρότυπα που εκφράζουν την υποκειμενικότητα μίας πρότασης. Εικόνα 8: Τα πρότυπα που εκφράζουν την υποκειμενικότητα μίας πρότασης Σε άλλες εργασίες που εκπονήθηκαν για την εξαγωγή υποκειμενικών προτάσεων χρησιμοποιήθηκαν ταξινομητές όπως ο Naive Bayes και ο Multiple Naive Bayes Αναγνώριση του προσανατολισμού των απόψεων Οι Yu και Hazivassiloglou (2003) σε εργασία τους σχετικά με την αναγνώριση του προσανατολισμού μίας άποψης σε προτασιακό επίπεδο, χρησιμοποίησαν αρχικά μία -32-

34 σειρά από κλασικούς ταξινομητές για την αναγνώριση των υποκειμενικών προτάσεων. Πιο συγκεκριμένα έκαναν χρήση τριών αλγορίθμων μηχανικής μάθησης: του Naive Bayes, πολλαπλών ταξινομητών Naive Bayes και μιας μεθοδολογίας μέτρησης ομοιότητας προτάσεων (SIMFINDER) για την ανακάλυψη υποκειμενικών προτάσεων. Για την εξόρυξη του προσανατολισμού των προτάσεων έκαναν χρήση μίας μεθόδου παρόμοιας με αυτή του Turney, αλλά για τον υπολογισμό του σημασιολογικού προσανατολισμού χρησιμοποιήθηκαν περισσότερες λέξεις πέρα από τις λέξεις excellent και poor. Στον παραπάνω τύπο, όλων των λέξεων που είναι μέρη του λόγου επίθετο είναι η συχνότητα συνύπαρξης με κάποιο προκαθορισμένο θετικό και η σταθερά ε είναι συντελεστής εξομάλυνσης. Για την κατηγοριοποίηση κάθε λέξης, λαμβάνεται υπόψη ο μέσος LLR όλων των λέξεων στην πρόταση, και χρησιμοποιούνται κατώφλια για να ληφθεί μία απόφαση για το αν είναι θετική, αρνητική ή ουδέτερη. 3.3 ΑΝΑΚΑΛΥΨΗ ΤΟΥ ΣΗΜΑΣΙΟΛΟΓΙΚΟΥ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ ΛΕΞΕΩΝ ΚΑΙ ΦΡΑΣΕΩΝ Κατά την ανακάλυψη του σημασιολογικού προσανατολισμού των απόψεων προέκυψε η αναγκαιότητα του καθορισμού του σημασιολογικού προσανατολισμού λέξεων ή φράσεων. Κάποιες λέξεις (κυρίως επίθετα και επιρρήματα) είναι πάντα θετικά ή αρνητικά σε κάθε περιεχόμενο (π.χ. όμορφος (+), θαυμάσιος (+), καλός (+), απαίσιος (-), cost someone a leg and a arm(-)). Ωστόσο, η θετική ή αρνητική σημασία κάποιων λέξεων μπορεί να εξαρτάται πολλές φορές και από το περιεχόμενο στο οποίο αναφέρονται (π.χ. μεγάλο ταξίδι (-), μεγάλη επιτυχία (+)). Για την κατάρτιση θετικών και αρνητικών λιστών λέξεων και φράσεων χρησιμοποιούνται κυρίως τρεις προσεγγίσεις: Χειροκίνητη Συγκέντρωση της λίστας: Δεν είναι κακή προσέγγιση, αλλά είναι πολύ χρονοβόρα (manual approach). -33-

35 Κατάρτιση λίστας από κειμενικό υλικό (corpus-based approach) Κατάρτιση λίστας με τη χρήση κάποιου λεξικού συνωνύμων/αντωνύμων (dictionary-based approach) Κατάρτιση λίστας από κειμενικό υλικό (Corpus-Based Approach) Η μεθοδολογία αυτή βασίζεται στη συχνότητα συνεμφάνισης ακολουθιών λέξεων σε μεγάλες κειμενικές βάσεις δεδομένων (Turney, 2002; Hatzivassiloglou et al, 2000; Yu et al, 2003). Στην κατηγορία αυτή ανήκουν και οι μέθοδοι που χρησιμοποίησαν ο Turney (2002) (μέθοδος PMI) και οι Yu et al (2003) (μέθοδος LLR) για τον προσδιορισμό της συναισθηματικής χροιάς μίας λέξης ή φράσης. Η διαφορά ανάμεσα στις μεθόδους των δύο παραπάνω ερευνών, είναι ότι στη δεύτερη περίπτωση μελετήθηκε η συνύπαρξη λέξεων με περισσότερα θετικά και αρνητικά επίθετα. Γίνεται αντιληπτό ότι αυτές οι μέθοδοι μπορούν να εφαρμοστούν μόνο στην περίπτωση που το λεξιλόγιο εμπίπτει σε κάποιον συγκεκριμένο τομέα, ώστε το αρχικό δείγμα λέξεων που θα χρησιμοποιηθεί να είναι μονοσήμαντα θετικά ή αρνητικά προσδιορισμένο. Σε άλλες εργασίες χρησιμοποιήθηκαν περιορισμοί ή σύνδεσμοι για να ταξινομηθούν λέξεις που εκφράζουν άποψη. Αυτή η μέθοδος προκύπτει από την παρατήρηση ότι επίθετα που συνδέονται με τη λέξη «ΚΑΙ» είναι συνήθως συνώνυμα (Hatzivassiloglou, 1997). Η σύνδεση με άλλους συνδέσμους (ή, αλλά, ούτε..ούτε) έχει αντίστοιχες ιδιότητες. Μετά τον εντοπισμό συνδέσμων μπορεί να εφαρμοστούν τεχνικές μηχανικής μάθησης (log-linear model), με σκοπό να καθοριστεί εάν δύο συνδεδεμένα επίθετα εκφράζουν απόψεις κοινής συναισθηματικής χροιάς ή όχι. Τεχνικές ομαδοποίησης χρησιμοποιούνται για την παραγωγή δύο ομάδων λέξεων (θετικών και αρνητικών) Κατάρτιση λίστας με τη χρήση κάποιου λεξικού συνωνύμων/αντωνύμων (dictionary-based approach) Σε πάρα πολλές εργασίες συναντάται η χρήση του on-line λεξικού WordNet για την κατάρτιση λιστών λέξεων και φράσεων θετικού ή αρνητικού σημασιολογικού προσανατολισμού προτάσεων. Το WordNet παρέχει πληροφορία για τις συνώνυμες λέξεις κάποιας αναζητούμενης, καθώς και για άλλα μέρη του λόγου που -34-

36 σχετίζονται με τη λέξη αυτή (για κάθε ουσιαστικό, παρέχονται επίθετα και επιρρήματα που έχουν την ίδια ρίζα/stem). Η διαδικασία της κατάρτισης της λίστας ξεκινάει με ένα μικρό πλήθος αρχικών λέξεων θετικής και αρνητικής χροιάς. Το WordNet χρησιμοποιείται για αναζήτηση συνωνύμων και αντωνύμων των λέξεων. πληροφορία για τις συνώνυμες λέξεις κάποιας αναζητούμενης, καθώς και για άλλα μέρη του λόγου που σχετίζονται με τη λέξη αυτή (για κάθε ουσιαστικό, παρέχονται επίθετα και επιρρήματα που έχουν την ίδια ρίζα/stem). Η διαδικασία λήγει με ανθρώπινη παρατήρηση αποτελεσμάτων. Σε κάποιες εργασίες χρησιμοποιήθηκε επιπλέον πληροφορία από το WordNet, όπως οι αναλυτικές περιγραφές της σημασίας των λέξεων ή και τεχνικές μηχανικής μάθησης. Το μειονέκτημα της προσέγγισης αυτής για την κατάρτιση θετικών και αρνητικών λέξεων είναι ότι δε λαμβάνεται υπόψη η ιδιότητα κάποιων λέξεων να αλλάζουν συναισθηματική χροιά, ανάλογα με το περιεχόμενο στο οποίο αναφέρονται, και επομένως δεν μπορούν να προσδιοριστούν μονοσήμαντα. -35-

37 4 Ανακάλυψη Γνώσης από Blogs Τα τελευταία χρόνια το φαινόμενο το της χρήσης των blogs (ιστολόγια) από ολοένα και αυξανόμενο πλήθος χρηστών και η επιρροή που μπορεί να ασκήσει αυτός ο τρόπος έκφρασης στα ΜΜΕ, στο εμπόριο, αλλά και τον τρόπο ζωής των ανθρώπων, απασχόλησε τόσο τις κοινωνικές επιστήμες, όσο και τις επιστήμες της τεχνητής νοημοσύνης, υπολογιστικής γλωσσολογίας και μηχανικής μάθησης. Στο κεφάλαιο αυτό γίνεται μία παρουσίαση της σημερινής κατάστασης του κόσμου των blogs (blogosphere) και εκείνων των ιδιαίτερων χαρακτηριστικών τους που τα διαφοροποιούν από την υπόλοιπη κειμενική πληροφορία. Επίσης, γίνεται μία ανασκόπηση και απόπειρα κατηγοριοποίησης των μελετών και εφαρμογών που αφορούν στην ανάκτηση και στην εξόρυξη πληροφορίας από τέτοιου είδος υλικό, που απασχολούν σήμερα την ακαδημαϊκή κοινότητα. Παρουσιάζονται θέματα που απασχολούν διεθνή workshops και συνέδρια, αφιερωμένα στη μελέτη των blogs, όπως τα TREC και τα ICWSM. 4.1 Η κατάσταση του «σφαίρας» των Blogs (Blogosphere) Σε έναν κόσμο που αλλάζει συνεχώς η αύξηση της επιρροής της σφαίρας των blogs σχετικά με θέματα που αφορούν από τις επιχειρήσεις μέχρι την πολιτική συνεχίζει να αυξάνεται. Η στάση των συγγραφέων των blogs (bloggers), η οποία φαίνεται να μη διαφοροποιείται πολύ από παράγοντες όπως η ηλικία ή το φύλο, ή ακόμη η γεωγραφική περιοχή (Technorati, State of the blogoshere 2009), φαίνεται να γίνεται όλο και πιο καταλυτική για τη διαμόρφωση μίας παγκοσμιοποιημένης κοινής γνώμης και συνδράμει αποφασιστικά στον εκδημοκρατισμό της έκφρασης Τα Blogs, λογισμικά και η σφαίρα των blogs Ένα blog είναι μία μορφή ιστοχώρου, ο οποίος περιλαμβάνει μια λίστα καταχωρήσεων από την πιο πρόσφατη καταχώρηση στην παλαιότερη (Herman et al., 2005). Το περιεχόμενο των καταχωρήσεων μπορεί είναι οτιδήποτε, όπως νέα, πολιτικοκοινωνικός σχολιασμός, προσωπικά ημερολόγια και ειδικά θέματα. Μάλιστα με βάση το περιεχόμενο του ένα ιστολόγιο μπορεί να κατηγοριοποιηθεί σε προσωπικό ημερολόγιο -36-

38 (journal), ενημερωτικό ιστολόγιο (news blog) κ.τ.λ.. Στο επίκεντρο του ενδιαφέροντος, πάντως βρίσκονται τα blogs που λειτουργούν σαν online ημερολόγια, δίνοντας τη δυνατότητα να δούμε το περιβάλλον των ανθρώπων: τα ενδιαφέροντά τους, τις απόψεις τους και τα συναισθήματά τους. Έρευνες σχετικά με τον αριθμό των blogs αναφέρουν ότι παρατηρείται μία συνεχής εκθετική αύξηση, με τον αριθμό τους να φτάνει τα 30 εκατομμύρια στις αρχές του Ο αριθμός των ενεργών blogs (δηλαδή αυτών που ενημερώνονται σε τακτική βάση) δείχνει να αυξάνεται με μικρότερο ρυθμό. Παρόλο που οι αριθμοί διαφόρων αναφορών διαφέρουν, είναι γενικά αποδεκτό ότι η σφαίρα των blogs περιλαμβάνει μεγάλες ποσότητες πληροφοριών με εκατομμύρια ενεργούς bloggers παγκοσμίως, που προσθέτουν νέες καταχωρήσεις με ρυθμό τη μέρα και αποτελούν το 20% του αναγνωστικού κοινού από το σύνολο των χρηστών του διαδικτύου. Η επέκταση της χρήσης των blogs, οφείλεται κατά πολύ στο γεγονός ότι κάθε χρήστης του διαδικτύου μπορεί εύκολα και δωρεάν να ξεκινήσει το δικό του ιστολόγιο μέσω πολλών φορέων που προσφέρουν συστήματα τα οποία στηρίζονται σε λογισμικό και έχουν μετατρέψει την σύνταξη των ιστολογίων πολύ απλή διαδικασία. Τέτοια λογισμικά είναι το WordPress, το Blogger, το Lifejournal, το Twitter (microblogging). Ένα τυπικό blog αποτελείται από τον τίτλο που αναγράφεται στην κεφαλίδα της σελίδας ενώ συχνά ακολουθούν μία ή δύο περιγραφές κειμένου. Το κύριο μέρος της σελίδας αποτελείται από δύο στήλες, μια που αφιερώνεται στην παρουσίαση των καταχωρήσεων κατά την αντίστροφη χρονολογική σειρά, και άλλη μια πλαϊνή στήλη που περιέχει τις συνδέσεις (link). Στην κεντρική στήλη καταχωρήσεων απαντώνται πιο συχνά γραπτό κείμενο, αρχεία, εικόνες, επιτρεπόμενα σχόλια, βίντεο και ήχος, συνδέσεις και βιβλίο φιλοξενούμενων. Η καταχώρηση ενός blog, αποτελείται από την επικεφαλίδα μιας καταχώρησης, που περιέχουν τον τίτλο και την ημερομηνία της, ενώ σε ένα τυπικό υποσέλιδο περιέχεται η ώρα της καταχώρησης, το όνομα του συντάκτη ή το ψευδώνυμο του και συνδέσεις προς ένα μόνιμο αντίγραφο της καταχώρησης που αποθηκεύεται κάπου αλλού στην περιοχή (permalink). Στην παρακάτω εικόνα φαίνεται ένα blog τύπου προσωπικού ημερολογίου. -37-

39 Εικόνα 9: Blog τύπου προσωπικού ημερολογίου Η διαφορά-κλειδί μεταξύ του περιεχομένου άλλων ιστοσελίδων και της σφαίρας των blogs (το σύνολο όλων των blog) είναι ότι τα blogs αντιπροσωπεύουν μεμονωμένα άτομα. Όπως θα δούμε, οι κυριότερες διαφορές μεταξύ του περιεχομένου των blogs και του περιεχομένου άλλων ιστοσελίδων προκύπτουν από το εξής: ένα blog, στις περισσότερες περιπτώσεις, είναι σαν μία αντιπροσώπευση της ζωής ενός ανθρώπου, και επιδεικνύει τη δυναμική και αλληλεπιδραστική συμπεριφορά που είναι χαρακτηριστική στους ανθρώπους. Οι προσωπικές ιστοσελίδες (home pages) σχετίζονται επίσης με άτομα, αλλά δεν έχουν την ίδια δυναμική συμπεριφορά που έχουν τα blogs, που μοιάζει με την ανθρώπινη Διάθεση περιεχομένων Blogs με RSS Feeds Πολλά λογισμικά δημιουργίας blog προσφέρουν στους χρήστες τη δυνατότητα δημιουργίας ενός feed για κάθε blog. Το feed ενημερώνεται κάθε φορά που γίνεται μία νέα καταχώρηση ή σχόλιο σε ένα blog και διαβάζεται μέσω προγραμμάτων ανάγνωσης feed (feed/reader aggregator), όπως τα Bloglines, NewsGator κλπ. Τα προγράμματα αυτά εμφανίζουν στην οθόνη του χρήστη τις νέες καταχωρήσεις των blogs στα οποία -38-

40 αυτός είναι εγγεγραμμένος με αντίστροφη χρονολογική σειρά, δηλαδή πρώτα τα νεότερα. Κάποια λογισμικά δημιουργίας blog δίνουν στο χρήστη τη δυνατότητα παραμετροποίησης του feed: η δημοσίευση ενός feed μπορεί να ενεργοποιηθεί ή να απενεργοποιηθεί, το feed μπορεί να ενημερώνεται κάθε φορά που γίνεται μία νέα καταχώρηση ή τροποποιείται μία ήδη υπάρχουσα, μπορεί να είναι πλήρους ή μερικού περιεχομένου. Η τελευταία διάκριση είναι σημαντική. Ένα feed πλήρους περιεχομένου δημοσιεύει όλο το περιεχόμενο της νέας καταχώρησης στην αρχική σελίδα του blog, ενώ ένα feed μερικού περιεχομένου δημοσιεύει μία περίληψη της νέας καταχώρησης. Τα λογισμικά δημιουργίας blog μπορούν να χωριστούν σε τρεις κατηγορίες, ανάλογα με τις δυνατότητες που προσφέρουν σε σχέση με τη δημιουργία feed: 1. Αυτόματη δημιουργία feed (είτε πλήρους είτε μερικού περιεχομένου) 2. Προσαρμοσμένη δημιουργία feed 3. Μη δυνατότητα δημιουργίας feed. Στην τελευταία περίπτωση, χρήστες με τεχνικές γνώσεις μπορούν να χρησιμοποιήσουν ειδικό λογισμικό ώστε να δημιουργήσουν ένα feed και να το συνδέσουν με το blog τους, ή να χρησιμοποιήσουν κάποιον feed generator που θα φιλοξενεί ένα feed για το blog τους (π.χ. FeedBurner). Τα feeds μπορούν να χρησιμοποιηθούν για να διαχωριστούν οι καταχωρήσεις ενός blog ώστε στη συνέχεια να γίνει ανάλυση του περιεχομένου τους. Η Glance περιγράφει σε μία μελέτη της τον τρόπο που μπορεί να γίνει αυτό με τη χρήση των feeds. Στην παρακάτω εικόνα φαίνεται ένα RSS feed. -39-

41 . <item> <title>lifejournal: Life Journal Reading for January 19 - Genesis 47,48; Psalms 10; Luke 19 // <description>lifejournal: Life Journal Reading for January 19 - Genesis 47,48; Psalms 10; Luke 19 // <pubdate>tue, 19 Jan :00: </pubDate> <guid> <link> </item> Εικόνα 10: RSS Feed 4.2 Τα χαρακτηριστικά των Blogs Τα blogs εφόσον αντιπροσωπεύουν μεμονωμένα άτομα, έχουν ορισμένα μοναδικά χαρακτηριστικά που τα διαφοροποιούν από οποιοδήποτε άλλο περιεχόμενο του ιστού: ανεπίσημη, υποκειμενική γλώσσα, περίπλοκη δομή κοινότητας, και δυναμικές χρονικές ιδιότητες. Μία μεγάλη πρόκληση που εμφανίζεται στη σφαίρα των blogs στο πλαίσιο της ανάκτησης πληροφοριών είναι η εκμετάλλευση αυτών των εγγενών ιδιοτήτων ώστε να ενισχυθούν οι υπάρχουσες μέθοδοι πρόσβασης στα blogs καθώς και να αναπτυχθούν καινούριες. Υπάρχουν τρεις κύριες πτυχές που διαφοροποιούν τα blogs από ιστοσελίδες άλλου τύπου (Mishne, 2006) από τη σκοπιά της πρόσβασης σε πληροφορίες: οι γλωσσολογικές ιδιότητες του περιεχομένου ενός blog, η δομή της σφαίρας των blogs, και η σχέση τους με το χρόνο. Ο βαθύτερος λόγος για αυτές τις διαφορές είναι ένας, τα blogs αντιπροσωπεύουν ανθρώπους. Γλώσσα. Τα περισσότερα blogs είναι ένα μέσο για τον blogger ώστε να εκφράζει τις σκέψεις και τους προβληματισμούς του ανεπιφύλακτα. Ως τέτοια, τα blogs επιδεικνύουν μια μοναδική ανεπίσημη γλώσσα: [τα blogs] έχουν ιδιότητες και μονολόγου και διαλόγου. Είναι καταχωρήσεις ημερολογίου και -40-

42 ανοιχτές προσκλήσεις για συζήτηση ταυτόχρονα. Η γλώσσα που χρησιμοποιείται σε πολλά blogs είναι μία μίξη προφορικού και γραπτού λόγου, που αναμειγνύει χαρακτηριστικά και των δύο, όπως το είδος του λεξιλογίου (π.χ. χρήση jargon), ή η δομή των προτάσεων. Επιπρόσθετα, πολλά από τα προσωπικά blogs ανήκουν σε εφήβους και νέους, με αποτέλεσμα ένα ακόμα πιο ανεπίσημο περιβάλλον, όπου συζητούνται ανοιχτά θέματα που θεωρούνται προσωπικά. Ένα ακόμη χαρακτηριστικό της γλώσσας των blogs είναι το υποκειμενικό ύφος, που αποτελεί πρόσφορο έδαφος για μελέτες ανάλυσης συναισθήματος. Δομή. Μελέτες σχετικά με τη δομή της σφαίρας των blogs δείχνουν ότι αποτελεί ένα συνδυασμό ενός δικτύου πληροφοριών και ενός δικτύου ανθρώπων. Η σφαίρα των blogs αποτελείται από μία πυκνή τοπολογία μικρο-κοινότητας και διασυνδέεται με τρόπο που επιτρέπει ταχεία διάδοση πληροφοριών. Εκτός από την τοπολογία, υπάρχει ένα ακόμη ενδιαφέρον χαρακτηριστικό που αφορά τους υπερσυνδέσμους στη σφαίρα των blogs, σε σχέση με άλλους υπερσυνδέσμους. Οι σύνδεσμοι στα blogs έχουν διάφορους τύπους, όπως blogrolls (σύνδεσμοι μεταξύ blogs, που μοιάζουν με συνδέσμους μεταξύ ανθρώπων), σύνδεσμοι σε καταχωρήσεις άλλων blogs, που είναι παρόμοιοι με υπερσυνδέσμους σε άλλες ιστοσελίδες, και σύνδεσμοι αλληλεπίδρασης, όπως αυτοί που βρίσκονται στα σχόλια των blogs. Οι διαφορετικοί αυτοί τύποι συνδέσμων δημιουργούνται για διαφορετικούς λόγους και έχουν διαφορετική σημασία. Η σημαντικότητα των υπερσυνδέσμων στη σφαίρα των blogs παρακίνησε την εφαρμογή μεθόδων ανάλυσης κοινωνικών δικτύων σε αυτό το πεδίο, περισσότερο απ ότι στο περιεχόμενο άλλων ιστοσελίδων. Μεταβολή στο χρόνο. Το τελευταίο χαρακτηριστικό που ξεχωρίζει τα blogs από τις υπόλοιπες ιστοσελίδες είναι η ισχυρή σχέση τους με το χρόνο. Όπως αναφέρθηκε και προηγουμένως, τα blogs περιέχουν καταχωρήσεις που παρουσιάζονται με αντίστροφη χρονολογική σειρά (και πραγματικά, αυτή η ιδιότητα χρησιμοποιείται συνήθως για να τα προσδιορίσει). Οι καταχωρήσεις των blogs αναφέρουν σχεδόν πάντα την ημερομηνία και ώρα δημιουργίας τους, ενώ ένα περιεκτικό ιστορικό επιτρέπει στους αναγνώστες να έχουν πρόσβαση σε προηγούμενες καταχωρήσεις. Τα blogs, ιδιαίτερα τα προσωπικά που χρησιμοποιούνται ως ημερολόγια, ενημερώνονται συνεχώς. Το περιεχόμενό -41-

43 τους δείχνει κάποιους προβληματισμούς σχετικά με τρέχοντα γεγονότα, είτε παγκόσμια είτε γεγονότα από την προσωπική ζωή του blogger. Η παρακολούθηση ενός blog με χρονολογική σειρά αποκαλύπτει τις αλλαγές και τις εξελίξεις στα ενδιαφέροντα και στο περιβάλλον του blogger, ενώ η παρακολούθηση της σφαίρας των blogs με χρονολογική σειρά δείχνει τον αντίκτυπο των παγκόσμιων γεγονότων στη ζωή των ανθρώπων. 4.3 Κατηγορίες Εγχειρημάτων Εξόρυξης Πληροφορίας από blogs Σε ένα περιβάλλον τόσο πλούσιο σε πληροφορίες όσο είναι τα blogs, τα εργαλεία που παρέχουν ευφυή πρόσβαση είναι ιδιαίτερα σημαντικά. Οι μηχανές αναζήτησης που ειδικεύονται στα blogs, όπως οι Technorati, Blogpulse, Sphere, δίνουν έμφαση στα στατιστικά στοιχεία που παρέχουν σε σύγκριση με την απλή διεπιφάνεια που προσφέρουν οι παραδοσιακές μηχανές αναζήτησης όπως η Google και η Yahoo για την αναζήτηση σε blogs. Οι μηχανές αναζήτησης σε blogs ισχυρίζονται ότι οι χρήστες τους ενδιαφέρονται ιδιαίτερα για αυτό το πρόσθετο χαρακτηριστικό. Υπάρχει ένας μεγάλος αριθμός εργασιών πρόσβασης πληροφοριών στο πλαίσιο των blogs. Μερικές από αυτές περιλαμβάνουν την εφαρμογή γνωστών μεθόδων σε αυτό το νέο πεδίο (για παράδειγμα, ανάλυση συναισθήματος), ενώ άλλες είναι περισσότερο εξειδικευμένες για το blogging (π.χ. οπτικοποίηση). Ταξινόμηση κειμένου Ένα από τα πιο ενδιαφέροντα εγχειρήματα σε εμπορικό και ακαδημαϊκό επίπεδο αφορά την ταξινόμηση των πληροφοριών που βρίσκονται στα blogs. Αρχικά, η ποιότητα των δεδομένων είναι ένα μεγάλο θέμα στη σφαίρα των blogs, εφόσον είναι μεγάλος ο αριθμός των spam. Για να γίνουν αποτελεσματικά οι υπόλοιπες εργασίες που αφορούν την πρόσβαση πληροφοριών, θα πρέπει πρώτα να αντιμετωπιστεί αυτό το θέμα. Οι έτοιμες (off-the-shelf) μέθοδοι είναι αρκετά αποτελεσματικές για κάποιο τύπο blog spam, αλλά για τα spam που χρησιμοποιούν ιδιότητες των blogs όπως τα σχόλια απαιτείται κάποια προσέγγιση που χρησιμοποιεί τις ίδιες ιδιότητες. Η επόμενη πρόκληση στην ταξινόμηση κειμένου στη σφαίρα των blogs είναι η δημογραφική ανάλυση. Εφόσον τα blogs εκπροσωπούν άτομα, μπορούν να χρησιμοποιηθούν για να αποκαλύψουν πληροφορίες για τους συγγραφείς τους: την -42-

44 ηλικία, το φύλο κλπ. Εδώ, η ανεπίσημη γλώσσα που χρησιμοποιείται στα blogs είναι χρήσιμη για την αναγνώριση χαρακτηριστικών με βάση το στυλ για την ταξινόμηση. Μία άλλη εργασία ταξινόμησης που παίζει σημαντικό ρόλο είναι η ανάλυση συναισθήματος: η αναγνώριση απόψεων και ο καθορισμός θετικής ή αρνητικής στάσης. Η γλώσσα που χρησιμοποιείται στα blogs είναι σημαντικός λίθος και για αυτή την εργασία. Άλλες εργασίες ταξινόμησης στη σφαίρα των blogs είναι ο διαχωρισμός του περιεχομένου του blog από κείμενο που δεν αποτελεί περιεχόμενο του blog και η αναγνώριση των υποκατηγοριών των blogs (π.χ. προσωπικά blogs, τεχνολογικά blogs, πολιτικά blogs, κλπ). Ανάκτηση πληροφοριών Το επόμενο πεδίο πρόσβασης πληροφοριών που αφορά τα blogs είναι η ανάκτηση πληροφοριών. Η αναζήτηση έχει αλλάξει τον τρόπο που οι άνθρωποι αποκτούν πρόσβαση στο διαδίκτυο την τελευταία δεκαετία, και η σφαίρα των blogs δεν αποτελεί εξαίρεση. Ενώ όμως η αναζήτηση στον ιστό ωριμάζει, η αναζήτηση σε blogs βρίσκεται ακόμη σε εμβρυικό στάδιο. Αυτή τη στιγμή οι περισσότερες μηχανές αναζήτησης blogs προσφέρουν δύο τρόπους ταξινόμησης των αποτελεσμάτων αναζήτησης: ταξινόμηση με βάση την ημερομηνία και με βάση την «δημοτικότητα». Η ταξινόμηση με βάση την ημερομηνία (πρώτα παρουσιάζονται τα πιο πρόσφατα αποτελέσματα) είναι η συνηθέστερη, και σε πολλές περιπτώσεις η προεπιλεγμένη κατάταξη. Η κατάταξη με βάση τη δημοτικότητα πετυχαίνεται συνδέοντας μια τιμή prestige με κάθε blog στατικά, για παράδειγμα χρησιμοποιώντας τον αριθμό των επισκεπτών του. Τον πρώτο καιρό αυτό ήταν αρκετό για τη σφαίρα των blogs: οι χρήστες ήθελαν να δουν όλα τα αποτελέσματα, και ενδιαφερόταν περισσότερο για τα πιο πρόσφατα. Όσο όμως αυξάνεται το μέγεθος της σφαίρας των blogs, απαιτούνται πιο περίπλοκα μοντέλα σχετικότητας ως προς το θέμα αναζήτησης, μοντέλα που θα συνδυάζουν το πρόσφατο των καταχωρήσεων, τη σχετικότητά τους με το θέμα και τα στατικά prestige που ανατίθενται στα blogs. Επιπρόσθετα, οι ανάγκες των χρηστών που αναζητούν σε blogs είναι διαφορετικές από αυτές των χρηστών που κάνουν αναζήτηση στoν ιστό, και πιθανόν οι μετρικές αξιολόγησης να διαφέρουν. Οι σύγχρονες μέθοδοι ανάκτησης πληροφοριών μπορούν να χειριστούν ικανοποιητικά και τις διαφορετικές ανάγκες των χρηστών και τα νέα μοντέλα σχετικότητας που απαιτούνται, με την εκμετάλλευση των ιδιοτήτων των blogs, π.χ. συνδυάζοντας γλωσσικά μοντέλα από μία καταχώρηση blog -43-

45 και από το υπόλοιπο blog ή προσαρμόζοντας μεθόδους ανάλυσης συνδέσμων, όπως ο PageRank. Χρονική Ανάλυση Η ροή των χρονικά προσδιορισμένων καταχωρήσεων σε ένα blog είναι παρόμοια με μία συλλογή άρθρων εφημερίδας, με την έννοια ότι σχετίζεται με συνεχιζόμενα γεγονότα και υποθέσεις. Ωστόσο, σε αντίθεση με τις συλλογές ειδήσεων που έχουν μελετηθεί εκτενώς στον κόσμο της πρόσβασης πληροφορίας, το πώς μεταβάλλεται η κατάσταση (συναισθηματική και ψυχολογική) στα blogs είναι φωνή του λαού οι αντιδράσεις και τα συναισθήματα των ανθρώπων σε σχέση με αυτά τα γεγονότα, παρά αναφορές για τα γεγονότα. Αυτό προσφέρει έναν πλούτο αναλύσεων, προσανατολισμένων στο χρόνο, που μπορεί να εφαρμοστεί στα δεδομένα: ανίχνευση τάσεων, ανίχνευση του είδους των τάσεων (Brewington & Cybenko, 2000), πρόβλεψη χρονοσειρών, δυναμικά (χρονικά) μοντέλα γλώσσας, κλπ. Μερικά από αυτά τα χρονικά ζητήματα αναφέρονται για παράδειγμα στο BlogPulses s Trend Search, Technorati s Mentions by Day και timeline των διαθέσεων στα blogs που προσφέρεται από το MoodViews.1 Ανάλυση Κοινωνικών Δικτύων Υπάρχουν αρκετές μελέτες για τα φαινόμενα κοινωνικών δικτύων στον ιστό. Η εφαρμογή τεχνικών από τη θεωρία κοινωνικών δικτύων στο πλαίσιο των blogs είναι επιτακτική, καθώς αυτά είναι ένα δίκτυο ατόμων. Αυτό οδηγεί σε μελέτες εξουσίας και prestige. Σε συνδυασμό με τις χρονικές ιδιότητες της σφαίρας των blogs, τα blogs αποτελούν πρόσφορο έδαφος για τη μελέτη της διάδοσης πληροφοριών. Τέλος, κάποια χαρακτηριστικά της σφαίρας των blogs έχουν έμμεσο αντίκτυπο σε μια σειρά εργασιών πρόσβασης πληροφοριών. Η ανεπίσημη, και πολλές φορές μη σύμφωνη με τη γραμματική, γλώσσα που χρησιμοποιείται στα blogs τα καθιστά δύσκολο πεδίο για πολλά NLP εργαλεία όπως parsers ή λογισμικά εξαγωγής των μερών του λόγου. Αυτό με τη σειρά του επηρεάζει τις εργασίες που ωφελούνται από αυτά τα εργαλεία, όπως οι αναλυτές συναισθήματος. Μία άλλη πρόκληση προέρχεται από τη δυναμική φύση των blogs και το μικρό χρονικό διάστημα μεταξύ των ενημερώσεων και των σχολίων: οποιαδήποτε εργασία επιχειρεί εκτέλεση σε πραγματικό χρόνο, απαιτεί εξειδικευμένους μικρού χρόνου απόκρισης crawlers. 1 Φιλοξενείται στη διεύθυνση:

46 4.4 Εστίαση των Ερευνών και Αναδυόμενες Τάσεις Στην ενότητα αυτή παρουσιάζονται ενδιαφέρουσες ερευνητικές εργασίες πάνω στα blogs, στις περιοχές έρευνας που αναφέρθηκαν παραπάνω Αναγνώριση των χαρακτηριστικών του συγγραφέα ενός Blog Η επιστημονική κοινότητα καταβάλλει όλο και μεγαλύτερη προσπάθεια στην ανάπτυξη υπολογιστικών μεθόδων που θα αποκαλύπτουν το πρόσωπο που βρίσκεται πίσω από το blog. Το προφίλ ενός blogger είναι μια μίξη διαφόρων χαρακτηριστικών, όπως δημογραφικά χαρακτηριστικά, πεδία ενδιαφερόντων και προτιμήσεις. Ο προσδιορισμός της προσωπικότητας ενός blogger μπορεί να είναι ιδιαίτερα επωφελής σε μελέτες που αφορούν στην ανάλυση συναισθήματος και στην εξόρυξη άποψης. Αυτό συμβαίνει, επειδή οι άνθρωποι διαφέρουν στην προσωπικότητα και στο πώς εκτιμούν διάφορα γεγονότα, άρα και στο πόσο έντονα εκφράζουν την εκτίμηση ή την αποδοκιμασία τους για αυτά. Καθοριστικός παράγοντας για τον προσδιορισμό της προσωπικότητας είναι η γλώσσα. Οι λεξιλογικές επιλογές κάθε blogger μπορεί να αντικατοπτρίζουν δομικές διαφορές στην προσωπικότητά τους. Πρέπει, ωστόσο, να λαμβάνεται υπόψη το γεγονός ότι η χρήση διαφορετικής γλώσσας μπορεί να σχετίζεται με τοπικούς ιδιωματισμούς και διαλέκτους, γεγονός το οποίο καθιστά δυσκολότερη και πολυπλοκότερη τη μελέτη για τον προσδιορισμό της προσωπικότητας. Χαρακτηριστική στη μελέτη για τον καθορισμό της προσωπικότητας είναι η εργασία των Oberlander & Nowson (2006). Σε αυτή δημιουργήθηκαν μοντέλα ταξινόμησης μιας προσωπικότητας στις εξής τέσσερις κατηγορίες: εξωστρεφής, νευρωτική, συγκαταβατική και ευσυνείδητη. Σε μοντέλα δυαδικής ταξινόμησης, οι αλγόριθμοι που χρησιμοποιήθηκαν ήταν ο Naive Bayes και ο Support Vector Machines. Στα περισσότερα πειράματα πιο αποδοτικός ήταν ο Naive Bayes. Αντιθέτως, σε μοντέλα πολλαπλής ταξινόμησης χρησιμοποιήθηκε μόνο ο Naive Bayes. Ως χαρακτηριστικά μοντελοποίησης των κειμένων χρησιμοποιήθηκαν συνδυασμοί δομικών μονάδων κειμένου (n-grams). Η ακρίβεια των παραγόμενων μοντέλων μηχανικής μάθησης είχε μεγάλη διαφοροποίηση ανάλογα με την κατηγορία ταξινόμησης. Τα αποτελέσματα της μελέτης ήταν ενθαρρυντικά μιας και εξήχθησαν σχετικά ακριβή αποτελέσματα ταξινόμησης ακόμη και με μια μικρή συλλογή χαρακτηριστικών. -45-

47 4.4.2 Αναζήτηση Απόψεων σε Blogs Καθώς αυξάνεται η ποσότητα των πληροφοριών στα blogs, χρειάζονται καλύτεροι μηχανισμοί κατάταξης, όμοιοι με αυτούς που χρησιμοποιούνται στις μηχανές αναζήτησης ιστού: οι χρήστες δεν μπορούν πλέον να εξετάζουν όλα τα αποτελέσματα και ενδιαφέρονται πρώτα για τα πιο σχετικά. Η εργασία της ανάκτησης blog που αξιολογήθηκε στο διαγωνισμό TREC έδωσε μια ουσιαστική ώθηση σε αυτό το πεδίο. Η σφαίρα των Blog διαφοροποιείται από το υπόλοιπο διαδίκτυο με την έννοια ότι αποτελείται από δυναμικό και χρονικά προσδιορισμένο περιεχόμενο. Η ανάκτηση τέτοιου περιεχομένου μπορεί να βελτιστοποιηθεί με τη χρήση εξειδικευμένων τεχνικών ανάκτησης. Τέτοιες τεχνικές αξιοποιούν τη χρήση δομημένης πληροφορίας (RSS) που παρέχεται από τα blogs, σε συνδυασμό με το παραδοσιακό περιεχόμενό τους σε HTML μορφή. Έτσι, ενώ οι συνήθεις μηχανές αναζήτησης συνεχίζουν να προσπαθούν να ανακτήσουν και να δεικτοδοτήσουν τα blogs με βάση λέξεις-κλειδιά που εμφανίζονται αυτούσιες στο HTML περιεχόμενό τους, ερευνάται η ανάπτυξη μιας σειράς από εξειδικευμένες μηχανές αναζήτησης και ανάλυσης τέτοιου περιεχομένου, που θα αποκρίνονται ακριβέστερα στα ερωτήματα του χρήστη. Στο πεδίο της αναζήτησης απόψεων από blogs αναφέρεται και τμήμα του διαγωνισμού TREC. Ο διαγωνισμός TREC για blogs ξεκίνησε το 2006 με στόχο να εξερευνήσει την εργασία της αναζήτησης πληροφοριών στη σφαίρα των blogs. Τα εγχειρήματα της αναζήτησης απόψεων, εύρεσης θετικών ή αρνητικών στάσεων και εύρεσης blog ήταν καλές προσομοιώσεις ρεαλιστικών σεναρίων αναζήτησης χρήστη. Δόθηκε η δυνατότητα στους συμμετέχοντες να αξιολογήσουν τις τεχνικές και προσεγγίσεις που ακολούθησαν, προσφέροντας μια καλύτερη κατανόηση αυτών των εργασιών. Διαγωνισμοί TREC 2006, 2007, 2008 Blog Track Ο διαγωνισμός συστημάτων TREC διοργανώνεται από το Εθνικό Ινστιτούτο Προτύπων και Τεχνολογίας (National Institute of Standards and Technology, NITS) και το Υπουργείο Άμυνας των Η.Π.Α. για να στηρίξει την έρευνα στον τομέα της ανάκτησης πληροφοριών. Από το 2006 διενεργείται ειδικός διαγωνισμός που αφορά τα blogs, με στόχο να εξερευνηθεί η συμπεριφορά αναζήτησης πληροφοριών στη σφαίρα των blogs. TREC Blog Track

48 Στο διαγωνισμό TREC 2006 Blog track, στόχος ήταν η ανάπτυξη ενός συστήματος το οποίο θα εντοπίζει τις καταχωρήσεις ενός blog που εκφράζουν κάποια άποψη σχετικά με ένα δεδομένο θέμα-στόχο. Ο στόχος αυτός μπορεί να είναι μία οντότητα, για παράδειγμα ένα άτομο, μία τοποθεσία ή ένας οργανισμός, αλλά και μία ιδέα, ένα προϊόν ή ένα γεγονός. Συνοπτικά, τα συστήματα που θα αναπτυσσόταν έπρεπε να απαντήσουν στο ερώτημα «Τι σκέφτονται οι άνθρωποι για το Χ», όπου Χ ο δεδομένος στόχος. Δεν ήταν απαραίτητο ο τίτλος της καταχώρησης του blog να περιέχει το όνομα του στόχου, αλλά απαιτούνταν να εκφράζεται κάποια άποψη για το στόχο αυτό είτε στην καταχώρηση είτε σε κάποιο από τα σχόλια. Για τους σκοπούς του διαγωνισμού αυτού έπρεπε να δημιουργηθεί ένα σύνολο δεδομένων ελέγχου, δηλαδή μία συλλογή από blogs που θα αποτελούσαν μία ρεαλιστική αντιπροσώπευση της σφαίρας των blogs. Η συλλογή αυτή θα έπρεπε να περιέχει αρκετό αριθμό blogs ώστε να υπάρχουν σε αυτή κάποιες αναγνωρίσιμες ιδιότητες της σφαίρας των blogs, να καλύπτουν αρκετό χρονικό διάστημα και να περιέχουν spam μηνύματα και blogs. Η συλλογή αυτή δημιουργήθηκε από Πανεπιστήμιο της Γλασκώβης, με το όνομα Blog06. Τα θέματα-στόχοι για την εργασία της ανάκτησης πληροφοριών, 50 στο σύνολο, επιλέχθηκαν από το NITS από ένα σύνολο ερωτημάτων που έγιναν σε εμπορικές μηχανές αναζήτησης σε blogs. Τα θέματα που δημιουργήθηκαν είχαν τρία πεδία, τον τίτλο, με βάση τους όρους αναζήτησης που δίνονται, την περιγραφή, που βασίστηκε σε μία εκτίμηση για το τι αναζητούσαν οι χρήστες, και την αφήγηση, όπου δινόταν μια περιγραφή σχετικά με το ποιες απόψεις θεωρούνταν σχετικές με την αναζήτηση. Η αξιολόγηση των συστημάτων οργανώθηκε από το NIST και περιελάμβανε τη βαθμολόγηση της σχετικότητας κάθε εγγράφου με το θέμα-στόχο από έναν αξιολογητή. Η αξιολόγηση περιελάμβανε δύο επίπεδα: στο πρώτο επίπεδο καθοριζόταν αν το περιεχόμενο της καταχώρησης που επέστρεφε το σύστημα δεν εξεταζόταν λόγω του ότι ήταν διεύθυνση με ακατάλληλο περιεχόμενο (-1), η καταχώρηση blog εξεταζόταν αλλά δεν περιείχε πληροφορίες για το θέμα-στόχο (0), η καταχώρηση περιείχε πληροφορίες για το θέμα-στόχο αλλά δεν εξέφραζε κάποια άποψη για αυτό. Στο δεύτερο στάδιο, αν η καταχώρηση blog εξέφραζε κάποια άποψη ή συναισθήματα για το θέμα-στόχο, κατατασσόταν ανάλογα με το αν περιείχε αρνητικές απόψεις για το θέμα (2), περιείχε και θετικές και αρνητικές απόψεις (3) ή περιείχε μόνο θετικά σχόλια για το θέμα-στόχο. Οι μετρικές που χρησιμοποιήθηκαν για την αξιολόγηση της εργασίας ανάκτησης -47-

49 δεδομένων ήταν η μέση ακρίβεια (mean average precision, MAP), η R-ακρίβεια (RPrecision, R-Prec), η δυαδική προτίμηση (binary Preference, bpref), και η ακρίβεια στα 10 έγγραφα (Precision at 10 documents, Στον παρακάτω πίνακα παρουσιάζονται τα αποτελέσματα της ανάκτησης απόψεων ενός γύρου από τις 14 ομάδες με την καλύτερη μέση ακρίβεια (MAP), ταξινομημένα σύμφωνα με τη μέση ακρίβεια. Τα T, TD και TDN συμβολίζουν αν χρησιμοποιήθηκαν σε αυτό το γύρο από το διαγωνιζόμενο το πεδίο του τίτλου, το πεδίο του τίτλου και της περιγραφής, ή τα πεδία του τίτλου, της περιγραφής και της αφήγησης, αντίστοιχα. Εικόνα 11: Μετρικές Αξιολόγησης ενός γύρου των διαγωνιζομένων Στον επόμενο πίνακα παρουσιάζονται τα αποτελέσματα του καλύτερου γύρου κάθε διαγωνιζόμενου αναφορικά με τη σχετικότητα του θέματος. Λήφθηκαν υπόψη τα έγγραφα που βαθμολογήθηκαν με 1 και άνω σύμφωνα με την κλίμακα αξιολόγησης που παρουσιάστηκε παραπάνω. -48-

50 Εικόνα 12: Μετρικές Αξιολόγησης του καλύτερου γύρου των διαγωνιζομένων Οι περισσότεροι συμμετέχοντες προσέγγισαν το εγχείρημα της ανάκτησης απόψεων σαν μια διαδικασία δύο σταδίων. Στο πρώτο στάδιο τα έγγραφα βαθμολογούνταν μόνο με βάση τη σχετικότητά τους με το θέμα, με τη χρήση έτοιμων (off-the-shelf) συστημάτων ανάκτησης και σταθμισμένων μοντέλων. Στο δεύτερο στάδιο αυτά τα αποτελέσματα αναβαθμολογούνταν ή φιλτράρονταν με τη χρήση μίας ή περισσότερων ευριστικών μεθόδων για την ανίχνευση απόψεων στα έγγραφα που ανακτήθηκαν από το πρώτο στάδιο. Οι τεχνικές που αναφέρθηκαν από τους συμμετέχοντες για την αναγνώριση απόψεων στο περιεχόμενο των εγγράφων περιλαμβάνουν τις παρακάτω προσεγγίσεις: Προσεγγίσεις βασισμένες σε λεξικό Σε αυτή την προσέγγιση, χρησιμοποιούνταν μία λίστα όρων και του σημασιολογικού προσανατολισμού τους για να βαθμολογηθούν τα έγγραφα, ανάλογα με τη συχνότητα εμφάνισης των όρων του λεξικού σε αυτά. Σε κάποιες περιπτώσεις συνδυαζόταν με πληροφορίες για την απόσταση μεταξύ των όρων αυτών και των λέξεων του ερωτήματος-στόχου μέσα στο έγγραφο. Οι αναφορές για της επιτυχία αυτής της προσέγγισης ποικίλλουν, κάποιες ομάδες ανέφεραν υποβάθμιση των αποτελεσμάτων σε σχέση με τα βασικά αποτελέσματα ανάκτησης, ενώ άλλες ομάδες παρατήρησαν βελτίωση. Προσεγγίσεις ταξινόμησης κειμένου Ένας ταξινομητής εκπαιδευόταν με δεδομένα που περιείχαν απόψεις για κάποιο θέμα (όπως ιστοσελίδες με κριτικές προϊόντων) και δεδομένα που δεν περιείχαν απόψεις (όπως online εγκυκλοπαίδειες), και στη συνέχεια χρησιμοποιούνταν για να εκτιμήσει αν -49-

51 εκφραζόταν κάποια άποψη στο περιεχόμενο των ανακτημένων εγγράφων. Οι περισσότερες ομάδες που χρησιμοποίησαν αυτή την προσέγγιση προτίμησαν το αλγόριθμο SVM για την ταξινόμηση, αν και χρησιμοποιήθηκαν και άλλοι ταξινομητές. Η επιτυχία αυτής της μεθόδου ήταν περιορισμένη, πιθανόν εξαιτίας της διαφοράς μεταξύ των δεδομένων εκπαίδευσης και του περιεχομένου των blogs. Επιφανειακές γλωσσολογικές μέθοδοι Μερικοί συμμετέχοντες χρησιμοποίησαν τη συχνότητα εμφάνισης αντωνυμιών ή επιθέτων ως δείκτες περιεχομένου που εκφράζει κάποια άποψη. Η επιτυχία και της μεθόδου αυτής ήταν περιορισμένη. Εκτός από το βασικό εγχείρημα-στόχο της ανάκτησης απόψεων, υπήρχε και ένα ανοιχτό εγχείρημα στο διαγωνισμό TREC Στο εγχείρημα αυτό ζητήθηκε από τους συμμετέχοντες να προτείνουν και να περιγράψουν ένα εγχείρημα που θα μπορούσε να χρησιμοποιηθεί στο διαγωνισμό της επόμενης χρονιάς. Οι προτάσεις που έγιναν ήταν η εύρεση spam blogs σε μία συλλογή blogs, η ανίχνευση/εύρεση των αναδυόμενων τάσεων στα blogs, η παρακολούθηση των αλλαγών στο χαρακτήρα του blogger με το χρόνο, με βάση τις αλλαγές στις καταχωρήσεις του blog, και τέλος, ο έλεγχος για το αν δύο καταχωρήσεις blog αφορούν το ίδιο θέμα. TREC Blog Track 2007 Ο διαγωνισμός TREC για τα blogs συνεχίστηκε και την επόμενη χρονιά, το 2007, με την προσθήκη ενός νέου εγχειρήματος και ενός υποεγχειρήματος. Όμοια με το διαγωνισμό του 2006, υπήρχε ο στόχος της ανάκτησης απόψεων που αφορούσε τον εντοπισμό των καταχωρήσεων blog που εκφράζουν άποψη σχετικά με κάποιο δεδομένο θέμα-στόχο. Το νέο υποεγχείρημα που προστέθηκε ήταν η εύρεση θετικής ή αρνητικής στάσης σχετικά με το θέμα-στόχο σε μία καταχώρηση blog, ενώ το δεύτερο εγχείρημα αφορούσε την εύρεση feed σχετικά με κάποιο θέμα. Το σύνολο δεδομένων που χρησιμοποιήθηκε ήταν η συλλογή Blog06 από το διαγωνισμό της προηγούμενης χρονιάς. Αναφορικά με το εγχείρημα της εύρεσης απόψεων για κάποιο θέμα-στόχο, η διαδικασία που ακολουθήθηκε, η κλίμακα αξιολόγησης καθώς και οι μετρικές αξιολόγησης ήταν ίδιες με αυτές του διαγωνισμού της προηγούμενης χρονιάς. Παρατηρήθηκε ότι η απόδοση των συστημάτων στην εργασία της ανάκτησης εγγράφων στο διαγωνισμό TREC 2007 ήταν υψηλότερη απ ότι στο διαγωνισμό της -50-

52 προηγούμενης χρονιάς. Απαιτείται περισσότερη έρευνα για να διαπιστωθεί αν αυτό οφείλεται στο ότι τα θέματα αναζήτησης που χρησιμοποιήθηκαν ήταν ευκολότερα ή αν οι διαγωνιζόμενοι χρησιμοποίησαν πιο αποδοτικές μεθόδους ανάκτησης. Στον παρακάτω πίνακα παρουσιάζονται οι μετρικές αξιολόγησης του καλύτερου γύρου κάθε ομάδας που συμμετείχε, για το εγχείρημα της εύρεσης άποψης: Εικόνα 13: Μετρικές Αξιολόγησης του καλύτερου γύρου των διαγωνιζομένων Το νέο υποεγχείρημα που προστέθηκε στο διαγωνισμό TREC 2007 ήταν η εύρεση θετικής ή αρνητικής στάσης για το θέμα-στόχο στο ανακτημένο έγγραφο, δηλαδή αν η άποψη που εκφραζόταν ήταν θετική, αρνητική ή ένας συνδυασμός και των δύο. Η μετρική που χρησιμοποιήθηκε για την αξιολόγηση των αποτελεσμάτων ήταν η R- accuracy που αντιπροσωπεύει το ποσοστό των ανακτημένων εγγράφων πάνω από το βαθμό R που ταξινομήθηκαν σωστά, όπου R ο αριθμός των εγγράφων που εκφράζουν άποψη για το συγκεκριμένο θέμα-στόχο. Ο παρακάτω πίνακας παρουσιάζει τα αποτελέσματα του καλύτερου γύρου για κάθε διαγωνιζόμενο με βάση την R- accuracy. -51-

53 Εικόνα 14: Αποτελέσματα καλύτερου γύρου για κάθε διαγωνιζόμενο με βάση τo R- accuracy Οι συμμετέχοντες χρησιμοποίησαν διάφορες τεχνικές στις προσεγγίσεις τους κατά την ανάπτυξη των συστημάτων. Παρουσιάζουμε στη συνέχεια αυτές που βελτίωσαν τα αποτελέσματα της εύρεσης εγγράφων σχετικών με το θέμα αναζήτησης. Ευρετηριοποίηση (Indexing) Όλοι οι διαγωνιζόμενοι χρησιμοποίησαν ως δείκτη το στοιχείο του μόνιμου συνδέσμου (Permalink) προς μία καταχώρηση blog, με εξαίρεση την ομάδα του Πανεπιστημίου Waterloo που χρησιμοποίησε και τα τρία στοιχεία της συλλογής δεδομένων, το μόνιμο σύνδεσμο, τα feeds και την αρχική σελίδα (Homepage) Ανάκτηση Όπως και στο διαγωνισμό του 2006, οι περισσότερες ομάδες ακολούθησαν μία προσέγγιση δύο σταδίων για την ανάκτηση εγγράφων. Στο πρώτο στάδιο τα έγγραφα βαθμολογούνταν με βάση κάποια σταθμισμένα μοντέλα, και στο δεύτερο στάδιο αναβαθμολογούνταν λαμβάνοντας υπόψη χαρακτηριστικά της εύρεσης απόψεων. Χαρακτηριστικά Εύρεσης Απόψεων Χρησιμοποιήθηκαν κυρίως δύο αποτελεσματικές τεχνικές για την εύρεση εγγράφων που περιείχαν απόψεις. Η πρώτη βασίστηκε στην αυτόματη δημιουργία ενός σταθμισμένου λεξικού με βάση την αξιολόγηση των αποτελεσμάτων σχετικότητας στο εγχείρημα εύρεσης απόψεων του διαγωνισμού TREC Η βαρύτητα του κάθε όρου εκτιμά κατά πόσο αυτός εκφράζει κάποια άποψη. Στη συνέχεια το λεξικό αυτό δόθηκε σαν ερώτημα ώστε να δώσει μία εκτίμηση για τη θετική ή αρνητική στάση κάθε εγγράφου της συλλογής. Η δεύτερη προσέγγιση βασίστηκε σε μία λίστα όρων που εκφράζουν υποκειμενική άποψη. Η αναβαθμολόγηση του εγγράφου γινόταν ανάλογα με την εγγύτητα των όρων του ερωτήματος με τους όρους αυτής της λίστας. -52-

54 Το δεύτερο και καινούριο εγχείρημα-στόχος που προστέθηκε στο TREC 2007 Blog track ήταν η αναζήτηση feed (Blog distillation feed search). Συχνά οι χρήστες κάνουν αναζήτηση σε blogs που ασχολούνται με κάποιο συγκεκριμένο θέμα ώστε να εγγραφούν σε αυτά και να τα διαβάζουν σε τακτική βάση. Το ερώτημα στο οποίο θα απαντούσαν τα συστήματα που θα αναπτυσσόταν ήταν το εξής: «Βρες ένα blog στο οποίο το Χ είναι βασικό και επαναλαμβανόμενο θέμα». Για ένα δεδομένο θέμα-στόχο Χ, τα συστήματα θα έπρεπε να προτείνουν feeds τα οποία ασχολούνται συστηματικά με το Χ και πιθανότατα θα ενδιέφεραν το χρήστη ώστε να τα προσθέσει στο δικό του πρόγραμμα ανάγνωσης feed. Το σύνολο δεδομένων που χρησιμοποιήθηκε ήταν η συλλογή Blog06 του προηγούμενου διαγωνισμού, ενώ τα θέματα αναζήτησης προτάθηκαν από τους συμμετέχοντες. Για την εκτίμηση των αποτελεσμάτων, ζητήθηκε από τους αξιολογητές να διαβάσουν κάποια έγγραφα του feed και στη συνέχεια να κρίνουν αν το blog ασχολείται συστηματικά και κατά βάση με το ζητούμενο θέμα-στόχο. Οι μετρικές που χρησιμοποιήθηκαν ήταν η μέση ακρίβεια (mean average precision, MAP), η RPrecision, η δυαδική προτίμηση (binary Preference, bpref) και η ακρίβεια στα 10 έγγραφα (Precision at 10 documents, Στον παρακάτω πίνακα φαίνονται τα αποτελέσματα του καλύτερου γύρου για κάθε ομάδα. Εικόνα 15 : Aαποτελέσματα του καλύτερου γύρου για κάθε διαγωνιζόμενο Παρατηρήθηκε ότι συστήματα τα οποία μπορούσαν να εντοπίσουν και να αφαιρέσουν τα spam blogs είχαν καλύτερη απόδοση ανάκτησης. Οι συμμετέχοντες χρησιμοποίησαν διάφορες τεχνικές δεικτοδότησης και ανάκτησης για το συγκεκριμένο εγχείρημα. Αναφορικά με τη δεικτοδότηση, χρησιμοποιήθηκαν δύο είδη δεικτών. Κάποιες ομάδες δημιούργησαν δείκτη με βάση το στοιχείο Feeds της συλλογής Blog06 και κάποιες άλλες το στοιχείο Permalinks (μόνιμο σύνδεσμο). Η ομάδα που είχε την καλύτερη απόδοση πειραματίστηκε και με τους δύο -53-

55 τύπους δεικτών και ανέφερε ότι η δεικτοδότηση με βάση το στοιχείο Feeds είχε ως αποτέλεσμα μεγαλύτερη απόδοση στην ανάκτηση εγγράφων. Για την ανάκτηση δεδομένων, κάποιες ομάδες συνέδεσαν αυτό το εγχείρημα με άλλα υπάρχοντα εγχειρήματα αναζήτησης. Για παράδειγμα, το Πανεπιστήμιο της Μασαχουσέτης αντιμετώπισε το στόχο της εύρεσης blog σαν ένα πρόβλημα κατανεμημένης αναζήτησης. Οι περισσότερες ομάδες που χρησιμοποίησαν ευρετήριο στο στοιχείο Permalink, πρότειναν διάφορες τεχνικές για το άθροισμα των αποτελεσμάτων των καταχωρήσεων blog σε ένα συνολικό αποτέλεσμα για το feed. Σε σχέση με τον αντίστοιχο διαγωνισμό του 2006, η απόδοση των συστημάτων για το πρώτο εγχείρημα, του εντοπισμού απόψεων, ήταν καλύτερη στο TREC Κάποιοι διαγωνιζόμενοι πρότειναν νέες τεχνικές ανίχνευσης απόψεων που βελτίωσαν τα αποτελέσματά τους στην εύρεση εγγράφων σχετικών με το θέμα αναζήτησης. Οι αποδόσεις στο υποεγχείρημα της εύρεσης θετικής ή αρνητικής στάσης δεν ήταν αρκετά υψηλές, κάτι που δείχνει ότι το θέμα αυτό είναι ακόμη ανοιχτό πρόβλημα που απαιτεί περαιτέρω έρευνα. Το δεύτερο εγχείρημα είχε ως αποτέλεσμα την πρόταση κάποιων υποσχόμενων τεχνικών ανάκτησης. TREC Blog Track 2008 Στο διαγωνισμό που διοργανώθηκε το 2008 συνέχισαν να ερευνώνται τα εγχειρήματα της ανάκτησης απόψεων, εύρεσης θετικής ή αρνητικής στάσης και εύρεση feed με τη χρήση της συλλογής Blog06. Επιπρόσθετα, υπήρξε ένα νέο εγχείρημα εύρεσης καταχωρήσεων blogs σχετικών με ένα ζητούμενο θέμα. Οι διαγωνισμοί των δύο προηγούμενων ετών δείξανε ότι η απόδοση της ανάκτησης καταχωρήσεων που εκφέρουν άποψη για κάποιο θέμα εξαρτάται σε μεγάλο βαθμό από την απόδοση της εύρεσης εγγράφων σχετικών με αυτό το θέμα. Οι περισσότεροι συμμετέχοντες στους διαγωνισμούς των δύο προηγούμενων ετών χρησιμοποίησαν, όπως είδαμε, μία προσέγγιση δύο σταδίων για την ανάκτηση απόψεων: στο πρώτο στάδιο γινόταν η ανάκτηση εγγράφων σχετικά με το ζητούμενο θέμα και στο δεύτερο η αξιολόγηση του κατά πόσο το έγγραφο εκφράζει κάποια άποψη. Για να ερευνηθεί η σχέση αυτών των σταδίων προστέθηκε το τελευταίο εγχείρημα, ώστε να αξιολογηθούν οι τεχνικές που χρησιμοποιούνται για την ανάκτηση δεδομένων σχετικών με κάποιο θέμα. Η διαδικασία που ακολουθήθηκε, ο τρόπος αξιολόγησης και οι μετρικές ήταν όμοια με αυτά των προηγούμενων διαγωνισμών TREC. Στον παρακάτω πίνακα -54-

56 παρουσιάζονται οι μετρικές για τον καλύτερο γύρο κάθε ομάδας, στα εγχειρήματα της εύρεσης καταχωρήσεων σχετικών με κάποιο θέμα καθώς και της εύρεσης απόψεων. Εικόνα 16: Μετρικές Αξιολόγησης του καλύτερου γύρου των διαγωνιζομένων Οι αποδόσεις των συστημάτων τόσο στην ανάκτηση εγγράφων όσο και στην εύρεση απόψεων στο διαγωνισμό του 2006 ήταν σημαντικά χαμηλότερες από ότι στους διαγωνισμούς του 2007 και 2008, κάτι που πιθανόν να οφείλεται στο γεγονός ότι τα θέματα που χρησιμοποιήθηκαν στο TREC 2006 ήταν λίγο πιο δύσκολα. Οι πιο αποτελεσματικές προσεγγίσεις που χρησιμοποιήθηκαν στο εγχείρημα της εύρεσης απόψεων ήταν οι εξής: α) Η χρήση ενός SVM ταξινομητή για το διαχωρισμό υποκειμενικών και αντικειμενικών κειμένων, και στη συνέχεια για να καθοριστεί αν το κείμενο που εκφέρει υποκειμενική άποψη είναι σχετικό με το θέμα. β) Χρήση ενός λεξικού όρων. Για να καθοριστεί αν μια καταχώρηση blog εκφράζει άποψη για το θέμα-στόχο, υπολογιζόταν το άθροισμα των βαρών των αντίστοιχων όρων που υπήρχαν στην καταχώρηση. Ένα από τα συμπεράσματα του TREC 2007 Blog track, ήταν ότι το εγχείρημα της ανίχνευσης θετικής ή αρνητικής στάσης θα πρέπει να αποτελεί πιο αναπόσπαστο κομμάτι της διαδικασίας εύρεσης άποψης. Αντί για εγχείρημα ταξινόμησης, όπου το σύστημα αναγνωρίζει τι είδους άποψη εκφράζει το έγγραφο, στον διαγωνισμό του 2008 ορίστηκε ξανά ώστε να προσομοιώνει ένα σενάριο αναζήτησης χρήστη, κατά το οποίο το σύστημα θα ανακτά τα έγγραφα που εκφράζουν είτε θετική είτε αρνητική άποψη, και θα τα εμφανίζει στο χρήστη κατηγοριοποιημένα. Στον παρακάτω πίνακα βλέπουμε τα αποτελέσματα του καλύτερου γύρου για κάθε ομάδα. Για να υπολογιστεί η συνολική απόδοση κάθε συστήματος σε αυτό το εγχείρημα, υπολογίστηκε ο μέσος όρος της μέσης ακρίβειας (MAP) για την εύρεση -55-

57 θετικών στάσεων και της μέσης ακρίβειας για την εύρεση αρνητικών τάσεων (τον συμβολίζουμε με Mix MAP). Εικόνα 17: Μετρικές Αξιολόγησης του καλύτερου γύρου των διαγωνιζομένων με Mix MAP Με Δ MAP συμβολίζεται η διαφορά του Mix MAP του συγκεκριμένου γύρου και του Mix MAP στο στάδιο της ανάκτησης σχετικών εγγράφων. Μία σχετική αύξηση στην απόδοση υποδεικνύει ότι οι χρησιμοποιούμενες τεχνικές ανίχνευσης θετικής ή αρνητικής στάσης υπήρξαν χρήσιμες. Ωστόσο, στις περισσότερες περιπτώσεις παρατηρείται μία σχετική μείωση στην απόδοση, κάτι που δείχνει ότι οι τεχνικές που χρησιμοποιήθηκαν από τις περισσότερες ομάδες δεν ήταν αποτελεσματικές. Το εγχείρημα της εύρεσης blog, που εξετάστηκε πρώτη φορά στο διαγωνισμό του 2007, ασχολείται με ένα σενάριο αναζήτησης όπου ο χρήστης έχει ως στόχο να βρει ένα blog και να το προσθέσει στο πρόγραμμα ανάγνωσης feed. Η βαθμολόγηση έγινε από τους αξιολογητές με βάση την εξής κλίμακα: Spam (Το έγγραφο αποτελεί spam blog), Μη σχετικό (Δε θα έκανα εγγραφή σε αυτό το feed), Σχετικό (Το blog περιέχει αρκετές καταχωρήσεις σχετικές με το θέμα και πιθανόν να έκανα εγγραφή), Πολύ Σχετικό (Θα έκανα οπωσδήποτε εγγραφή σε αυτό το blog). Ο παρακάτω πίνακας δείχνει τα αποτελέσματα του καλύτερου γύρου για κάθε ομάδα, όπου ndcg (normalized Discounted Cumulative Gain) ο δείκτης που μετράει την αποτελεσματικότητα μιας μηχανής αναζήτησης. -56-

58 Εικόνα 18: Μετρικές Αξιολόγησης του καλύτερου γύρου των διαγωνιζομένων με ndcg Αναγνώριση Spam Blogs Η αυξημένη δημοτικότητα της αναζήτησης στο διαδίκτυο σαν βασικός τρόπος πρόσβασης σε σελίδες στον ιστό, έχει αυξήσει τα πλεονεκτήματα της επίτευξης υψηλών βαθμολογιών σε δημοφιλείς μηχανές αναζήτησης, ειδικά για τις εμπορικές ιστοσελίδες (Mishne, Carmel & Lempel, 2005). Παράλληλα όμως με την επιτυχία των μεθόδων ανάλυσης συνδέσμων, όπως ο αλγόριθμος PageRank, αυτό οδήγησε σε μία ταχύτατη αύξηση των συνδέσμων spam. Ένα τέτοιο παράδειγμα είναι τα link farms ομάδες ιστοσελίδων που ανταλλάσσουν συνδέσμους μεταξύ τους με αποκλειστικό σκοπό την αύξηση της δημοτικότητάς τους με τεχνητό τρόπο. Τα link farms μπορούν να ανιχνευτούν εύκολα με τοπολογική ανάλυση. Ωστόσο, τα τελευταία χρόνια έχει εμφανιστεί ένα νέο πρόβλημα spamming, που είναι δυσκολότερο να εντοπιστεί από τις μηχανές αναζήτησης: σχόλια spam. Ορισμός των Spam Blogs Σύμφωνα με την εργασία που εκπονήθηκε στα NEC Laboratories America, στο πλαίσιο του διαγωνισμού TREC 2006 τα spam blogs, ή αλλιώς splogs αποτελούν το 1020% του συνόλου των blogs. Την εβδομάδα της 24ης Οκτωβρίου 2005, τα 2.7 εκατομμύρια από ένα σύνολο 20.3 εκατομμυρίων blogs, ήταν splogs. Στις τρεις δημοφιλέστερες μηχανές αναζήτησης blog, περίπου 44 από τα 100 πρώτα αποτελέσματα αναζήτησης ήταν splogs. Τα παραπάνω στατιστικά στοιχεία δείχνουν ότι τα splogs δημιουργούν σοβαρά προβλήματα, όπως υποβάθμιση της ποιότητας ανάκτησης πληροφοριών και μεγάλη σπατάλη πόρων δικτύου και αποθηκευτικού χώρου. Στην παρακάτω εικόνα επιδεικνύεται το σχέδιο που ακολουθούν οι spammers. -57-

59 Εικόνα 19: Τα splogs χρησιμοποιούν διάφορες τεχνικές για την επίτευξη του spamming. To "B" αντιπροσωπεύει ένα blog, το "S" ένα splog και το "W" αναφέρεται σε ένα ενσωματωμένο site. Κίνητρό τους είναι να οδηγήσουν τους επισκέπτες σε συγκεκριμένες ιστοσελίδες (συμπεριλαμβανομένου και του splog) οι οποίες έχουν κερδοφόρους μηχανισμούς. Οι κερδοφόροι μηχανισμοί είναι επιχειρηματικές μέθοδοι που βασίζονται στο web, όπως προγράμματα διαφήμισης των μηχανών αναζήτησης (π.χ.google AdSense) ή προγράμματα με τα οποία ο χρήστης πληρώνει για κάθε κλικ που κάνει. Οι spammers χρησιμοποιούν διάφορους τρόπους για να βελτιώσουν την κατάταξη των splogs σε δημοφιλείς μηχανές αναζήτησης. Για να παραπλανήσουν τη μηχανή αναζήτησης, οι spammers αυξάνουν (1) το βαθμό σχετικότητας με το θέμα αναζήτησης (π.χ. με την πολλαπλή επανάληψη λέξεων κλειδιών) (2) τη δημοτικότητα (π.χ. με link farms) (3) το πρόσφατο μιας καταχώρησης (π.χ. με συχνές καταχωρήσεις). Οι αυξήσεις αυτές γίνονται με βάση κάποια κριτήρια που χρησιμοποιούν ο μηχανές αναζήτησης. Οι spammers έχουν επίσης σαν στόχο και τα κανονικά blogs, μέσω των σχολίων ώστε να ανεβάσουν την κατάταξη του splog. Χαρακτηριστικά των Spam Blogs Σε ένα τυπικό splog, το περιεχόμενο συνήθως παράγεται από μία μηχανή ώστε να προσελκύσει επισκέπτες μέσω της εμφάνισης είτε στις μηχανές αναζήτησης είτε στα blogs. Υπάρχουν κάποια τυπικά χαρακτηριστικά στα splogs: Περιεχόμενο που παράγεται από μηχανή Οι καταχωρήσεις των splogs παράγονται αυτόματα, και το περιεχόμενό τους συνήθως δεν βγάζει νόημα, είναι επαναλαμβανόμενο ή αντιγραμμένο από άλλες ιστοσελίδες. Περιεχόμενο χωρίς αξία Τα splogs παρέχουν άχρηστες πληροφορίες στους αναγνώστες. Υπάρχουν blogs που χρησιμοποιούν τεχνικές αυτόματης παραγωγής περιεχομένου για να προσφέρουν -58-

60 χρήσιμες υπηρεσίες, όπως το podcasting αυτά τα blog δεν θεωρούνται spam διότι προσφέρουν χρήσιμες πληροφορίες/υπηρεσίες. Κρυφή ατζέντα, συνήθως οικονομικός στόχος Τα splogs έχουν εμπορικούς στόχους, οι οποίοι φαίνονται από τις διαφημίσεις ή τους συνδέσμους σε άλλες ιστοσελίδες. Κάποια από αυτά τα χαρακτηριστικά, όπως η κρυφή ατζέντα, συναντώνται και σε άλλου τύπου spam (π.χ. web spam). Ωστόσο, τα splogs έχουν κάποιες μοναδικές ιδιότητες που περιγράφονται παρακάτω.τα splogs διαφέρουν από τα web spam στις ακόλουθες πτυχές: Δυναμικό περιεχόμενο Οι αναγνώστες των blogs ενδιαφέρονται περισσότερο για πρόσφατες καταχωρήσεις. Σε αντίθεση με το web spam όπου το περιεχόμενο είναι στατικό, ένα splog παράγει συνεχώς νέες καταχωρήσεις για να προσελκύσει αναγνώστες. Δεν υπάρχουν σύνδεσμοι υποστήριξης Ένας υπερσύνδεσμος συχνά ερμηνεύεται ως υποστήριξη άλλων ιστοσελίδων. Είναι λίγο απίθανο ένα web spam να έχει υποστήριξη από κανονικά sites. Ωστόσο, εφόσον οι spammers μπορούν να δημιουργήσουν υπερσυνδέσμους σε κανονικά blogs, οι σύνδεσμοι στα blogs δεν μπορούν να θεωρηθούν υποστηρικτικοί. Σχόλια Spam Τα σχόλια spam είναι σύνδεσμοι spam που βρίσκονται στα σχόλια και στις απαντήσεις ιστοσελίδων που υποστηρίζουν δυναμική επεξεργασία χρήστη. Με τη μαζική αύξηση του αριθμού των blogs τα τελευταία χρόνια, αυτές οι σελίδες έχουν πολλαπλασιαστεί. Άλλες σελίδες που αποτελούν στόχο για σχόλια spam είναι τα wikis και τα guestbooks. Τα blogs όμως έχουν διευκολύνει σημαντικά αυτούς που ασχολούνται με τα σχόλια spam: αντί να δημιουργούν ιστοσελίδες με συνδέσμους προς την spam ιστοσελίδα, οι spammers γράφουν απλώς έναν spam agent που επισκέπτεται τυχαία blogs και καταχωρεί σχόλια με συνδέσμους προς τη σελίδα τους. Με αυτό τον τρόπο το spamming γίνεται πιο εύκολο, και οι spammers ωφελούνται από την υψηλή δημοτικότητα πολλών blogs, που προέρχεται από την ταχύτατη αλλαγή του περιεχομένου τους και το μεγάλο αριθμό συνδέσμων σε αυτά. Τα spam σχόλια και οι spam σύνδεσμοι αποτελούν μεγάλη πρόκληση για τις μηχανές αναζήτησης, καθώς απειλούν σημαντικά την ποιότητα της κατάταξής τους. Οι εμπορικές μηχανές -59-

61 αναζήτησης αναζητούν νέες λύσεις σε αυτό το πρόβλημα, και ο αριθμός των ερευνών σχετικά με τους spam συνδέσμους ολοένα και αυξάνεται. Μεθοδολογίες ανίχνευσης Spam Blogs Οι Mishne, Carmel & Lempel, 2005 στην εργασία τους ακολουθούν μία προσέγγιση μοντελοποίησης που βασίζεται στο λεκτικό περιεχόμενο για την ανίχνευση συνδέσμων spam στα σχόλια των blogs και σε παρόμοιες ιστοσελίδες. Εξετάζουν τη χρήση της γλώσσας σε μια καταχώρηση blog, στα αντίστοιχα σχόλια και στην ιστοσελίδα προς την οποία υπάρχει σύνδεσμος στα σχόλια. Στην περίπτωση των σχολίων spam, τα γλωσσικά μοντέλα των παραπάνω είναι πολύ πιθανό να διαφέρουν: οι spammers συνήθως δημιουργούν συνδέσμους μεταξύ σελίδων που δεν έχουν καμία σημασιολογική σχέση, π.χ. ένα προσωπικό blog και ένα site επιχείρησης. Εξετάζεται η απόκλιση στα γλωσσικά μοντέλα ώστε να καταταχθεί αποτελεσματικά ένα σχόλιο ως spam ή μη. Η μέθοδός τους μπορεί να εφαρμοστεί με δύο τρόπους: είτε εξετάζεται ένα blog που έχει ήδη σχόλια, είτε ο έλεγχος γίνεται με online τρόπο, χρησιμοποιούμενος από το λογισμικό των blogs ώστε να αποκλείσει τα σχόλια spam τη στιγμή που δημοσιεύονται. Σε μία άλλη εργασία της ομάδας CRM114(William & Yerazunis, 2006) για το διαγωνισμό TREC 2006 εξετάστηκαν διάφορες υποθέσεις στο θέμα του φιλτραρίσματος spam (spam filtering). Οι υποθέσεις αυτές ήταν οι εξής: Οι spammers αλλάζουν τακτικές για να μπορέσουν να αποφύγουν τα spam φίλτρα που βασίζονται στο περιεχόμενο Μία εκπαιδευμένη βάση δεδομένων γνωστών spam και μη spam βελτιώνει την ακρίβεια Οι επαναλαμβανόμενες μέθοδοι εκπαίδευσης είναι πιο αποτελεσματικές από μία εκπαίδευση μόνο στα λάθη Οι ταξινομητές KNN/Hyperspace είναι πιο αποτελεσματικοί από τους κλασικούς Bayesian ή Markovian ταξινομητές Η καθυστέρηση της εκπαίδευσης από την ανατροφοδότηση έχει ως αποτέλεσμα υποβαθμισμένη ακρίβεια φιλτραρίσματος Τα φίλτρα βασισμένα στο μέγεθος bit-entropy είναι εξίσου καλά ή και καλύτερα από τα φίλτρα λημματοποίησης λέξεων -60-

62 Η μετρική 1-ROCA% είναι το καλύτερο κριτήριο μέτρησης της απόδοσης των φίλτρων spam Oι ερευνητές έβγαλαν τα εξής συμπεράσματα για τις παραπάνω υποθέσεις: οι spammers μπορούν να αποφύγουν επιτυχώς τα φίλτρα spam που βασίζονται στο περιεχόμενο, η εκπαίδευση μιας βάσης δεδομένων και οι επαναλαμβανόμενες μέθοδοι εκπαίδευσης δεν είναι ιδιαίτερα αποτελεσματικά. Οι ταξινομητές KNN έχουν περίπου την ίδια ακρίβεια με ταξινομητές Markov, η καθυστερημένη ανατροφοδότηση επηρεάζει μόνο οριακά την ακρίβεια του φίλτρου, και τα φίλτρα που βασίζονται στην εντροπία μπορούν να έχουν την ίδια ή και καλύτερη ακρίβεια από τα φίλτρα λημματοποίησης λέξεων. Βρέθηκε επίσης ότι υπάρχει μεγάλη συσχέτιση μεταξύ της μετρικής 1-ROCA% και της ακρίβειας του φίλτρου. Η ομάδα του Πανεπιστημίου του Άμστερνταμ (Mishne, 2006) χρησιμοποίησε ένα απλό μηχανισμό φιλτραρίσματος spam κατά τον οποίο σε κάθε feed ανατίθεται μία βαθμολογία, ανάλογα με την πιθανότητα το feed αυτό να είναι spam, με τη χρήση δύο ανεξάρτητων μεθόδων. Αρχικά, χρησιμοποιήθηκε μία μέθοδος μηχανικής μάθησης, η οποία έδειξε να είναι αποτελεσματική στην ανίχνευση spam. Δημιουργήθηκε ένα σύνολο εκπαίδευσης spam και μη-spam feeds, με βάση δύο απλοϊκές υποθέσεις: πρώτον, ότι ένα feed από το domain blogspot.com με domain name πάνω από 35 χαρακτήρες, είναι spam blog. Παραδείγματα τέτοιων domain που χαρακτηρίστηκαν ως spam είναι η διεύθυνση «casino-hotel-in-windsor-poker.blogspot.com». Η δεύτερη υπόθεση είναι ότι ένα feed από τα domains livejournal.com και typepad.com δεν είναι spam. Η ομάδα ανέφερε ότι και οι δύο υποθέσεις είχαν μεγάλη αποτελεσματικότητα. Η συλλογή εκπαίδευσης δημιουργήθηκε με τυχαία δειγματοληψία 500 spam feeds και 500 feeds που δεν ήταν spam. Στη συνέχεια εκπαιδεύτηκε ένας αλγόριθμος SVM με αυτό το σύνολο, και χρησιμοποιήθηκαν οι βαθμολογίες πρόβλεψής του σε όλη τη συλλογή για τον υπολογισμό της πιθανότητας ένα έγγραφο να είναι spam. Η δεύτερη μέθοδος ανίχνευσης spam βασίστηκε στο γεγονός ότι πολλά spam blogs έχουν μεγάλη συχνότητα εμφάνισης κάποιων λέξεων στο περιεχόμενό τους, με στόχο να κερδίσουν μεγαλύτερη βαθμολογία σχετικότητας για αυτές τις λέξεις-κλειδιά από τις μηχανές αναζήτησης. Αυτό έχει ως αποτέλεσμα υψηλό ποσοστό συμπίεσης για αυτά τα feeds, πολύ υψηλότερο από τα feeds που δεν είναι spam. Η ομάδα του Πανεπιστημίου -61-

63 του Άμστερνταμ υπολόγισε την κατανομή των ποσοστών συμπίεσης για τα spam feeds και για τα feeds που δεν είναι spam, και στη συνέχεια ανατέθηκε σε κάθε feed μία βαθμολογία ανάλογα με την πιθανότητα να ανήκει αυτό σε μία από τις δύο κατανομές. Η τελική εκτίμηση για την πιθανότητα να είναι ένα blog spam, ήταν προϊόν της SVM πρόβλεψης και της πρόβλεψης συμπίεσης. Η ομάδα του Πανεπιστημίου του Maryland (Java et al.,2006) και του Πανεπιστημίου John Hopkins δημιούργησε το σύστημα BlogVox για το διαγωνισμό TREC blog track Η συγκεκριμένη ομάδα χρησιμοποίησε για την ανίχνευση splogs στατιστικά μοντέλα, που βασίζονται σε εποπτευόμενες μεθόδους μηχανικής μάθησης. Τα στατιστικά μοντέλα που βασίζονται σε τοπικά χαρακτηριστικά αποδίδουν καλά στην ανίχνευση splogs. Τα αποτελέσματα του συγκεκριμένου συστήματος έδειξαν ότι τα χαρακτηριστικά bag-of-words έχουν ελαφρώς καλύτερη απόδοση από τα χαρακτηριστικά bag-of-outgoingurls και bag-of-outgoinganchors. Τα μοντέλα που χρησιμοποιούν χαρακτηριστικά βασισμένα σε συνδέσμους έχουν ελαφρώς χαμηλότερη απόδοση, οπότε για το BlogVox χρησιμοποιήθηκαν μόνο τοπικά χαρακτηριστικά. Η ομάδα του Πανεπιστημίου της Πίζας (Attardi, 2006), για να φιλτράρει τα splogs στο σύστημα που ανέπτυξε, χρησιμοποίησε μία λίστα splogs2. Κάθε blog από αυτή τη λίστα βαθμολογούνταν με 0 στη διαδικασία της ευρετηριοποίησης, και δεν εμφανιζόταν στα αποτελέσματα αναζήτησης. Στο διαγωνισμό TREC 2007, η ομάδα της Κινέζικης Ακαδημίας Επιστημών (Liao et al., 2007) χρησιμοποίησε την πυκνότητα των συνδέσμων για την ανίχνευση blog που περιέχουν συνδέσμους spam, η οποία είναι απλή αλλά αποτελεσματική μέθοδος. Ένα blog ταξινομείται ως spam αν ο αριθμός των συνδέσμων σε αυτό ξεπερνά ένα προκαθορισμένο όριο. Τα όρια αυτά υπολογίζονται με ευριστικές μεθόδους ώστε να επιτευχθεί η μεγαλύτερη δυνατή ακρίβεια. Για την ανίχνευση blogs με spam περιεχόμενο χρησιμοποιήθηκε μία προσέγγιση μηχανική μάθησης, και το θέμα αντιμετωπίστηκε ως πρόβλημα ταξινόμησης δύο κλάσεων. Το μοντέλο τους βασίστηκε στον αλγόριθμο SVM που χρησιμοποιείται ευρέως και έχει καλή απόδοση στην ταξινόμηση κειμένου. Επιλέχθηκαν τα ακόλουθα τοπικά χαρακτηριστικά: Επιλέχθηκαν τα χαρακτηριστικά bag-of-words και bag-of-word-n-grams με βάση το κείμενο του blog, όπου η εμφάνιση συγκεκριμένων λέξεων στο 2 Διατίθεται στη σελίδα:

64 κείμενο ή στο περιεχόμενο συγκεκριμένων tags (π.χ. του tag title ) χρησιμοποιούνται ως χαρακτηριστικά. Χρησιμοποιήθηκαν δύο νέα χαρακτηριστικά, τα bag-of-anchors και bagof urls. Στο bag-of-anchors, τα χαρακτηριστικά εξάγονται από το anchor text μιας σελίδας. Στο bag-of urls, τα urls διαιρούνται σε κομμάτια όπου υπάρχει σημείο στίξης (\, /,.,?, =, κλπ) και κάθε κομμάτι χρησιμοποιείται ως χαρακτηριστικό. Για το bag-of-urls, υιοθετήθηκε η προσέγγιση της πρόσθετης διαίρεσης των url, ώστε να αντιμετωπιστεί η περίπτωση που οι λέξεις είναι η μία μετά την άλλη σε μια προσπάθεια να μην ανιχνευθούν (π.χ. businesscardforfree). Χρησιμοποιήθηκαν η κανονικοποιημένη συχνότητα όρου και δυαδικές μορφές για την αναπαράσταση χαρακτηριστικών, και η μετρική Mutual Information μαζί με τη συχνότητα του όρου σαν μηχανισμός επιλογής χαρακτηριστικών, η οποία είναι απλή αλλά έχει καλή απόδοση στον αλγόριθμο SVM. Η ομάδα εκπαίδευσε τον ταξινομητή libsvm και ανίχνευσε τα splogs χρησιμοποιώντας τα παραπάνω χαρακτηριστικά. Τέλος, η ομάδα του Πανεπιστημίου του Illinois (Zhang & Yu, 2007) υιοθέτησε δύο κανόνες φιλτραρίσματος για την απομάκρυνση πιθανών spam εγγράφων. Ο πρώτος κανόνας απομακρύνει όποιο έγγραφο περιέχει μία πρόταση 300 ή παραπάνω λέξεων, καθώς κάποιοι spammers τοποθετούν ένα μεγάλο αριθμό λέξεων σε ένα έγγραφο για να ανακτάται από πολλά ερωτήματα. Το όριο των 300 λέξεων επιλέχθηκε διαισθητικά, χωρίς κάποια έρευνα. Ο δεύτερος κανόνας απομακρύνει όποιο έγγραφο περιέχει τουλάχιστον δύο από τις λέξεις nude, naked και sex, όταν ο συνολικός αριθμός αυτών των τριών λέξεων είναι μεγαλύτερος από 10, ώστε να απορριφθούν τα spam έγγραφα με ακατάλληλο περιεχόμενο. Όπως και πριν, οι λέξεις-χαρακτηριστικά και το όριο του 10 επιλέχθηκαν διαισθητικά Ταξινόμηση Συναισθήματος Εξόρυξη στάσης και ψυχικής διάθεσης Στο κεφάλαιο 3 αυτής της εργασίας έγινε αναφορά σε μεθοδολογίες ανίχνευσης απόψεων σε κειμενικό υλικό. Είναι γεγονός ότι πολλές εργασίες αφορούν μεθοδολογίες ταξινόμησης μιας άποψης σε θετική και αρνητική (Pang et al, 2002), (Turney 2002), -63-

65 (Kim & Hovy 2004), όπως επίσης και διαχωρισμού του υλικού που εκφράζει υποκειμενικές στάσεις από αυτό που είναι αντικειμενικό και πληροφοριακό (Wiebe et al., 2004). Η ταξινόμηση του σημασιολογικού προσανατολισμού των απόψεων από blogs μπορεί να έχει εφαρμογή στη σφυγμομέτρηση της κοινής γνώμης, δηλαδή της στάσης μιας κοινότητας χρηστών απέναντι σε κάποιο πρόσωπο ή αντικείμενο. Ενδεικτικά ο Mishne και Glance (2005) παρουσίασαν μία μεθοδολογία πρόβλεψης των πωλήσεων μιας ταινίας, στηριζόμενη στη στάση των bloggers. Η εξόρυξη ψυχικής διάθεσης δεν είναι τίποτε άλλο παρά μία λεπτομερέστερη διερεύνηση ενός συναισθήματος (για τον προσδιορισμό μίας ψυχικής διάθεσης κατά το μοντέλο του Ekman, χρησιμοποιούνται περισσότερες σημασιολογικές διαστάσεις, από την απλή θετικό/αρνητικό που αντιστοιχεί στη στάση ή το συναίσθημα απέναντι σε κάτι). Ωστόσο, σε πολλές εργασίες εξόρυξης ψυχικής διάστασης, χρησιμοποιείται ως χαρακτηριστικό και η στάση ενός μηνύματος. Μια εφαρμογή που βασίστηκε στην ταξινόμηση συναισθήματος από blogs είναι αυτή που παρουσιάζουν οι Mishne και Glance (2006). Στην εργασία τους εξετάζουν αν η εφαρμογή μεθόδων ανάλυσης συναισθήματος στα blogs μπορεί να δώσει μια αξιόπιστη πρόβλεψη για την επιτυχία μιας ταινίας, όταν οι τεχνικές αυτές εφαρμόζονται σε ένα περιορισμένο απόσπασμα του blog γύρω από τις αναφορές στην ταινία, και για καταχωρήσεις που δημοσιεύονται πριν την κυκλοφορία της ταινίας. Δεδομένα για Πειράματα Παρουσιάζονται παρακάτω τα δεδομένα και οι μεθοδολογίες που χρησιμοποίησαν οι Mishne και Glance για να εξετάσουν τη συσχέτιση ανάμεσα στο συναίσθημα και τις αναφορές στα blogs. Οικονομικά Δεδομένα για τις Ταινίες. Χρησιμοποιήθηκε η βάση δεδομένων IMDB (Internet Movie Database) για να ανακτηθούν πληροφορίες σχετικά με το διήμερο πρεμιέρας κάθε ταινίας (το πρώτο διήμερο που προβλήθηκε η ταινία στους κινηματογράφους), σχετικά με τα ακαθάριστα έσοδα εκείνο το διήμερο καθώς επίσης και με τον συνολικό αριθμό των αιθουσών στις οποίες προβαλλόταν η ταινία. Εστίασαν στα δεδομένα του διημέρου πρεμιέρας παρά στις συνολικές πωλήσεις, ώστε να αποφύγουν την περίπτωση κάποιες ταινίες να έχουν υψηλότερα έσοδα επειδή προβάλλονται για μεγαλύτερο χρονικό διάστημα, ή επειδή έχουν κυκλοφορήσει σε DVD κλπ. Τα έσοδα του διημέρου πρεμιέρας έχουν υψηλή συσχέτιση με τα συνολικά -64-

66 έσοδα της ταινίας, αποτελώντας συνήθως περίπου το 25% των συνολικών πωλήσεων (Simonoff & Sparrow, 2000). Ο αριθμός των αιθουσών στις οποίες προβαλλόταν η ταινία χρησιμοποιήθηκε για την κανονικοποίηση των εσόδων. Για κάθε ταινία χρησιμοποιήσαμε μία μεταβλητή Έσοδα ανά Αίθουσα. Αυτό επιτρέπει τη σύγκριση πωλήσεων ταινιών-υπερπαραγωγών, που μερικές φορές προβάλλονται μέχρι και σε 4000 αίθουσες την πρώτη εβδομάδα, με ταινίες που προβάλλονται σε αίθουσες κατά την κυκλοφορίας τους. Δεδομένα από Blogs. Για κάθε ταινία, οι Mishne και Glance συνέλεξαν όλες τις σχετικές καταχωρήσεις blog από το ευρετήριο της μηχανής αναζήτησης BlogPulse (Glance, Hurst, & Tomokiyo, 2004). Μία καταχώρηση θεωρούνταν «σχετική» με μία ταινία αν ικανοποιούσε τις ακόλουθες συνθήκες: Η ημερομηνία της καταχώρησης συμπεριλαμβανόταν στο χρονικό διάστημα ενός μήνα πριν το διήμερο πρεμιέρας της ταινίας και ενός μήνα μετά. Η καταχώρηση περιείχε είτε ένα σύνδεσμο στη σελίδα της ταινίας στην ιστοσελίδα της IMDB, είτε το όνομα της ταινίας σε συνδυασμό με μία από τις λέξεις {movie, watch, see, film}(και τα μορφολογικά παράγωγά τους). Από κάθε σχετική καταχώρηση blog, οι Mishne και Glance επέλεξαν ένα απόσπασμα στο οποίο αναφερόταν η ταινία, παίρνοντας k λέξεις γύρω από τον υπερσύνδεσμο προς την IMDB σελίδα της ταινίας, είτε γύρω από το όνομα της ταινίας. Χρησιμοποίησαν διάφορες τιμές για το k, από 6 λέξεις μέχρι 250. Τέλος, υπολόγισαν το συναίσθημα του blogger για καθένα από αυτά τα αποσπάσματα, χρησιμοποιώντας τις μεθόδους που περιγράφονται στην εργασία των Nigam και Hurst (Nigam & Hurst, 2004). Στην παρακάτω εικόνα βλέπουμε παραδείγματα αποσπασμάτων διαφορετικού μήκους για την ίδια ταινία, μαζί με τον υπολογισμό θετικής ή αρνητικής στάσης. Αυτό δείχνει τα πιθανά λάθη που μπορεί να προκύψουν από την επιλογή «πολύ μεγάλου» ή «πολύ μικρού» αποσπάσματος. Εικόνα 20: Αποσπάσματα σχετικά με ταινίες και στάση απέναντι σε αυτές -65-

67 Η ανάλυση αυτή έγινε για ένα σύνολο 49 ταινιών που κυκλοφόρησαν μεταξύ Φεβρουαρίου και Αυγούστου του 2005, με ελάχιστο προϋπολογισμό ενός εκατομμυρίου δολαρίων και πληροφορίες πωλήσεων που ήταν διαθέσιμες δημόσια. Ένα αντικείμενο-δείγμα που χρησιμοποιήθηκε στα πειράματα φαίνεται στην επόμενη εικόνα. Η βαθμολογία θετικής ή αρνητικής στάσης ακολουθεί log-linear κατανομή, με την πλειοψηφία των βαθμολογίων να βρίσκονται μεταξύ 4 και 7. Επομένως, η μέση βαθμολογία θετικής ή αρνητικής στάσης του 5.5 για την ταινία του πίνακα υποδηλώνει αρκετά θετικό συναίσθημα. Εικόνα 21: Ένα αντικείμενο - Δείγμα Πειράματα Υπολογίστηκε ο συντελεστής συσχέτισης του Pearson χαρακτηριστικών που έχουν σχέση με το συναίσθημα και το εισόδημα ανά αίθουσα, καθώς και των πωλήσεων. Ανάμεσα στα χαρακτηριστικά συναισθήματος ήταν: ο αριθμός των θετικών αποσπασμάτων, ο αριθμός των αρνητικών αποσπασμάτων, ο συνολικός αριθμός των αποσπασμάτων που δεν είχαν ουδέτερη άποψη, η αναλογία μεταξύ θετικών και αρνητικών αποσπασμάτων, ο μέσος και η διακύμανση των τιμών συναισθήματος. Εκτός από τη συσχέτιση αναφορικά με το συναίσθημα, μετρήθηκε η συσχέτιση του αριθμού των καταχωρήσεων blogs στα οποία αναφέρεται η ταινία. Έγιναν διαφορετικές μετρήσεις για τα αποσπάσματα που δημοσιεύτηκαν πριν και μετά την κυκλοφορία της ταινίας. Απλές μετρήσεις αναφορών βαθμολογία συναισθήματος -66-

68 Η χρήση βαθμολογημένου συναισθήματος για τη θετική ή αρνητική στάση, δεδομένου του βέλτιστου μεγέθους του αποσπάσματος, έχει σαν αποτέλεσμα καλύτερα επίπεδα συσχέτισης με τα επιχειρησιακά δεδομένα των ταινιών απ ότι οι απλές μετρήσεις αναφορών, για δεδομένα που συλλέχθηκαν πριν την κυκλοφορία της ταινίας. Για δεδομένα που συλλέχθηκαν μετά την κυκλοφορία της ταινίας, οι απλές μετρήσεις αναφορών της ταινίας αποτελούν καλύτερο δείκτη. Από τα διάφορα μέτρα ανίχνευσης θετικής ή αρνητικής στάσης που χρησιμοποιήθηκαν στο πείραμα, αυτά με τις καλύτερες τιμές συσχέτισης ήταν τα εξής: Πριν την κυκλοφορία της ταινίας: ο αριθμός των θετικών αναφορών μέσα σε αποσπάσματα μήκους 20 λέξεων. Μετά την κυκλοφορία της ταινίας: ο αριθμός των αναφορών είτε θετικής είτε αρνητικής στάσης, μέσα σε αποσπάσματα 140 λέξεων (χρησιμοποιώντας τον αριθμό των θετικών αναφορών, παίρνουμε σχεδόν εξίσου καλά αποτελέσματα). Η παρακάτω εικόνα συγκρίνει τη συσχέτιση μεταξύ επιχειρησιακών δεδομένων των ταινιών για τις απλές μετρήσεις αναφορών και για τις μετρικές θετικής ή αρνητικής στάσης με την καλύτερη απόδοση. Σαφώς, η συσχέτιση με το συναίσθημα βελτιώνεται σημαντικά σε σύγκριση με τις μετρήσεις αναφορών σε blogs πριν την κυκλοφορία της ταινίας, ενώ για τις μετρήσεις αναφορών μετά την κυκλοφορία της ταινίας το αποτέλεσμα είναι αρνητικό (αλλά ελάχιστα). Εικόνα 22: Συσχέτιση επιχειρησιακών δεδομένων και αναφορών της ταινίας στα blogs Παρόλο που η βελτίωση με τη χρήση των τιμών συναισθήματος στα δεδομένα πριν την κυκλοφορία της ταινίας είναι κάτι που μπορούμε να καταλάβουμε διαισθητικά, δεν είναι ξεκάθαρο/κατανοητό γιατί δεν έχει την ίδια επίδραση στα δεδομένα μετά την κυκλοφορία. Μία πιθανή εξήγηση είναι ότι τα αποσπάσματα των blogs μετά την κυκλοφορία της ταινίας είναι μεγαλύτερα και πιο περίπλοκα, μειώνοντας την ακρίβεια της ανάλυσης συναισθήματος. -67-

69 Μέγεθος Αποσπάσματος Ο περιορισμός του αποσπάσματος προς ανάλυση σε ένα σχετικά μικρό αριθμό λέξεων γύρω από τον τίτλο της ταινίας, ωφελεί την ανάλυση των μετρικών θετικής ή αρνητικής στάσης πριν την κυκλοφορία της ταινίας, αλλά μειώνει την αποτελεσματικότητα των μετρικών μετά την κυκλοφορία. Εξετάζοντας τα αποσπάσματα των blogs πριν και μετά την κυκλοφορία της ταινίας, διαπιστώνουμε ότι οι αναφορές σε μία ταινία πριν την κυκλοφορία της είναι συνήθως μικρές, εφόσον οι bloggers δεν έχουν πολλές πληροφορίες για αυτή. Συνήθως, εκφράζεται η πρόθεση παρακολούθησης ή μη της ταινίας, και κάποιες φορές απόψεις σχετικά με την διαφήμιση της ταινίας. Μετά την κυκλοφορία μιας ταινίας οι bloggers συνήθως καταγράφουν την εμπειρία παρακολούθησής της, και δίνουν πιο λεπτομερείς πληροφορίες. Υποθέτουμε ότι αυτή μπορεί να είναι η εξήγηση για τη διαφορετική επίδραση που έχει το μέγεθος του αποσπάσματος που επιλέγεται από τα blogs στην ποιότητα της συσχέτισης. Συμπεράσματα Η εργασία αποδεικνύει ότι υπάρχει καλή συσχέτιση μεταξύ των αναφορών ταινιών στα blogs τόσο πριν όσο και μετά την κυκλοφορία τους και στην οικονομική επιτυχία της ταινίας. Επιπλέον, έδειξαν ότι η χρήση ανάλυσης συναισθήματος στα blogs μπορεί να βελτιώσει αυτή τη συσχέτιση. Συγκεκριμένα, βρήκαν ότι ο αριθμός των θετικών αναφορών σε μία ταινία συσχετίζεται καλύτερα από την απλή μέτρηση των αναφορών για την περίοδο πριν την πρεμιέρα της ταινίας. 5 Εξόρυξη Ψυχικής Διάθεσης από Blogs Εκτός από περιεχόμενο, πολλά κείμενα περιέχουν μια συναισθηματική διάσταση. Ωστόσο η εξόρυξη της συναισθηματικής διάστασης που απορρέει από τα μηνύματα των blogs δεν έχει τύχει μεγάλης έρευνας μέχρι σήμερα, σε αντίθεση με την εξόρυξη της στάσης των bloggers. Στo κεφάλαιο αυτό επιχειρείται η οργάνωση και παρουσίαση της σχετικής βιβλιογραφίας. -68-

70 Οι εργασίες που παρουσιάζονται χωρίζονται σε τρεις κατηγορίες: σε αυτές που στοχεύουν στην εξόρυξη της ψυχικής διάθεσης που υποδηλώνει κάθε μεμονωμένο μήνυμα, σε αυτές που παρουσιάζουν μεθόδους εξόρυξης της αθροιστικής ψυχικής διάθεσης ενός συνόλου μηνυμάτων (aggregation) και τέλος, σε αυτές που παρουσιάζουν μεθόδους εξόρυξης της αθροιστικής διάθεσης, δεδομένου ενός θέματος αναζήτησης. Στη συνέχεια του κεφαλαίου γίνεται μία εισαγωγή στο πεδίο αυτό και στην ενότητα 5.2 παρουσιάζονται τα μοντέλα που χρησιμοποιούνται για την αναπαράσταση του ανθρώπινου συναισθήματος κατά την επικοινωνία ανθρώπου-υπολογιστή. Στην ενότητα 5.3 συνοψίζονται οι τρόποι αναπαράστασης των κειμένων και οι αλγόριθμοι που χρησιμοποιήθηκαν από ερευνητές για την διεξαγωγή πειραμάτων εξόρυξης ψυχικής διάθεσης από κείμενα. Στις ενότητες 5.4 με 5.6 μελετώνται κάποιες εργασίες στο πεδίο αυτό. 5.1 Εισαγωγή Μία από τις μεγαλύτερες προκλήσεις που αντιμετωπίζει σήμερα η επιστήμη της αλληλεπίδρασης ανθρώπου-υπολογιστή είναι η σχεδίαση ευφυών διεπαφών χρήστη. Ο Norman (2004) αναφέρει, χαρακτηριστικά, ότι οι μηχανές του μέλλοντος θα πρέπει να συνδέονται συναισθηματικά με τους χρήστες εκτός από το να εκτελούν σύνθετες πράξεις. Επίσης, ο Nass et al (1995) σε έρευνά του για τις αλληλεπιδράσεις ανθρώπου με άνθρωπο και ανθρώπου-υπολογιστή, υποστηρίζει ότι οι άνθρωποι αλληλεπιδρούν με τον υπολογιστή τους με κοινωνικό και συναισθηματικό τρόπο, όπως επικοινωνούν και με τους ανθρώπους. Πράκτορες οι οποίοι θα μπορούν να κατανοήσουν την ψυχική διάθεση του ατόμου με το οποίο αλληλεπιδρούν θα είναι πιο αληθοφανείς. Πέραν του πεδίου της επικοινωνίας ανθρώπου υπολογιστή και την εκπαίδευση ευφυών πρακτόρων, η αναγνώριση της διάθεσης είναι χρήσιμη σε εφαρμογές στον τομέα της ψυχιατρικής, διότι μπορεί να βοηθήσει τους επιστήμονες να μελετήσουν τη συμπεριφορά του ανθρώπου, καθώς και να αναπτύξουν μία καλύτερη αλληλεπίδραση με τους ασθενείς. Ακόμη, μπορεί να έχει εφαρμογή σε συστήματα αφήγησης ανθρώπινου λόγου από κείμενο, όπου τα σημεία στίξης πολλές φορές είναι ελλιπή για να καθορίσουν την προσωδία, όπως τον τόνο, την ένταση και τη διάρκεια του ήχου στην εκφορά συγκεκριμένων στοιχειών. Η εξόρυξη του συναισθήματος που εμπεριέχει ένα κείμενο, -69-

71 είτε ιστορία είτε μήνυμα blog, θα μπορούσε να δώσει χρήσιμη πληροφορία για τη μετατροπή του σε ηχητικό σήμα. Η εξόρυξη της ψυχικής διάθεσης από blogs, δίνει νέα διάσταση στις προσεγγίσεις αναζήτησης κειμένου: Μπορούν είτε να επιλέγονται μηνύματα συγκεκριμένων συναισθηματικών κατηγοριών, είτε τα μηνύματα που ανακτώνται από μια τέτοια μηχανή να επιστρέφονται ταξινομημένα ως προς την ψυχική διάθεση που υποδηλώνουν. Επίσης, τεχνικές εξόρυξης αθροιστικής διάθεσης μπορούν να εφαρμοστούν για την παρακολούθηση των συναισθημάτων που προκαλεί στους bloggers ένα σημαντικό γεγονός ή κάποιο σημαντικό άτομο. Η εξόρυξη της ψυχικής διάθεσης σε ένα μήνυμα από blogs, είναι ωστόσο ένα αρκετά δύσκολο εγχείρημα, λόγω του ότι οι συγγραφείς των blogs είναι διαφορετικοί και ο καθένας μπορεί να χρησιμοποιεί το δικό του στυλ έκφρασης, αλλά και ιδιώματα. Επίσης, δεν καθορίζουν όλοι οι συγγραφείς τη διάθεσή τους με τον ίδιο συνεπή τρόπο. Ακόμα, η εύρεση κοινών χαρακτηριστικών ανάμεσα σε ετερογενείς συγγραφείς είναι περίπλοκη εργασία. Επιπρόσθετα, τα μηνύματα των blogs έχουν συνήθως μικρό μέγεθος, το οποίο δυσκολεύει περισσότερο την ταξινόμηση (Mishne, 2005). Τέλος, δεν αποκλείεται σε ένα μήνυμα η ψυχική διάθεση να μεταβάλλεται ακόμα και σε ανάμεσα σε δύο διαδοχικές προτάσεις (Hugo Liu et al., 2003). 5.2 Μοντέλα αναπαράστασης του ανθρώπινου συναισθήματος Ένα απλό μοντέλο αναπαράστασης των ανθρώπινων συναισθημάτων είναι ο συνδυασμός του Σθένους (valence) και της Έντασης (intensity) του συναισθήματος. Η διάσταση του σθένους αναφέρεται στο πόσο θετικά ή αρνητικά είναι τα συναισθήματα, ενώ η διάσταση της έντασης περιγράφει το πόσο έντονα είναι αυτά. Το μοντέλο αυτό μπορεί να εμπλουτιστεί με την προσθήκη μίας ακόμα διάστασης, της Κυριαρχίας (dominance). Η διάσταση αυτή χρησιμοποιείται για να διαχωρίσει συναισθήματα παρόμοιου σθένους όπως ο θυμός (πολύ κυρίαρχο) και ο φόβος (λίγο κυρίαρχο). Ο Paul Ekman (2003) πρότεινε το μοντέλο των έξι συναισθημάτων χαρά, λύπη, φόβος, θυμός, αηδία και έκπληξη ως τα έξι βασικά ανθρώπινα συναισθήματα. Στη μελέτη του συναισθήματος στην επιστήμη των υπολογιστών υιοθετείται μία αρκετά απλοϊκή θεώρηση του συναισθήματος, ώστε να μπορούμε να το χειριστούμε υπολογιστικά στο επίπεδο λεπτομέρειας που είναι δυνατό. Υιοθετείται επίσης ένα -70-

72 μοντέλο ανάλογα με τους περιορισμούς του εκάστοτε εγχειρήματος. Καθώς βρίσκονται νέοι τρόποι ανίχνευσης και έκφρασης συναισθήματος, θα μπορούν να υιοθετηθούν πιο πολύπλοκα μοντέλα. Το μοντέλο PAD (Pleasure-Arousal-Dominant) σχεδιάστηκε για να περιγράψει τις συναισθηματικές αντιδράσεις ενός ατόμου. Αποτελείται από τρεις ανεξάρτητες διαστάσεις που χρησιμοποιούνται για να περιγράψουν και να μετρήσουν τις συναισθηματικές καταστάσεις. Οι διαστάσεις αυτές είναι: Ευχαρίστηση/Δυσαρέσκεια (Pleasure/Displeasure), Ενεργοποίηση/Μη Κυριαρχία/Υποτακτικότητα Ενεργοποίηση (Dominant/Submissive). Κάθε (Arousal/Nonarousal), μία από αυτές βαθμολογούνται σε μία κλίμακα από -1.0 έως 1.0, ενώ οι διαστάσεις τις Ευχαρίστησης και της Δυσαρέσκειας αντιστοιχούν στο μοντέλο Σθένους/Έντασης, και αν αντικατασταθούν από αυτές μας δίνουν το μοντέλο VAD (Valence-Arousal-Dominant). Μπορεί να γίνει αντιστοίχιση της βαθμολογίας VAD ή PAD σε μία πολυδιάστατη βαθμολογία Ekman, ώστε να βρούμε αν το άτομο αισθάνεται καθένα από τα έξι συναισθήματα του μοντέλου του Ekman. Η πολυδιάστατη βαθμολογία είναι πολύ σημαντική, διότι χρειάζεται να ξέρουμε π.χ. πόσο θυμωμένος είναι ένας χρήστης, για να προσδιορίσουμε πώς θα αντιδράσουμε σε αυτή την περίπτωση. Με τον τρόπο που ορίζονται τα δύο αυτά μοντέλα, υπάρχει μία άμεση αντιστοίχιση μεταξύ των βαθμολογιών τους. Δηλαδή, αν κάποιος έχει χαμηλό σθένος, υψηλή ενεργοποίηση και υψηλή κυριαρχία, τότε κατά πάσα πιθανότητα είναι «θυμωμένος», ενώ αν έχει χαμηλό σθένος, υψηλή ενεργοποίηση και χαμηλή κυριαρχία, τότε είναι «φοβισμένος». Η ψυχική κατάσταση (dispositional affect) είναι ένα χαρακτηριστικό της προσωπικότητας που δείχνει την τάση ενός ανθρώπου να ανταποκρίνεται σε διάφορες καταστάσεις με σταθερό, προβλέψιμο τρόπο. Αυτό το χαρακτηριστικό εκφράζεται με την τάση να βλέπουμε τα πράγματα με θετικό ή αρνητικό τρόπο. Η ψυχική κατάσταση μπορεί να θεωρηθεί ως ένας συνδυασμός της ευχαρίστησης και της ενεργοποίησης. Για παράδειγμα, ο ενθουσιασμός είναι συνδυασμός ευχαρίστησης και υψηλής ενεργοποίησης, ενώ η ηρεμία είναι συνδυασμός ευχαρίστησης και χαμηλής ενεργοποίησης. Με βάση αυτή την ταξινόμηση, οι διαφορετικοί συνδυασμοί υψηλής ή χαμηλής ευχαρίστησης και υψηλής ή χαμηλής ενεργοποίησης δημιουργούν τέσσερα τεταρτημόρια που φαίνονται στην παρακάτω εικόνα (Rubin et al., 2004). -71-

73 Εικόνα 23: Τα τέσσερα τεταρτημόρια αναπαράστασης της ψυχικής κατάστασης Σύμφωνα με την παραπάνω ταξινόμηση, οι Watson και Tellegen ανέπτυξαν ένα μοντέλο για την ταξινόμηση της ψυχικής κατάστασης. Οι ερευνητές ισχυρίζονται ότι υπάρχουν δύο διαστάσεις της ψυχικής κατάστασης: η θετική συναισθηματικότητα (affectivity) και η αρνητική. Σύμφωνα με το μοντέλο τους, η θετική συναισθηματικότητα δεν αντιπροσωπεύει το αντίθετο της αρνητικής, αλλά μια διαφορετική πλευρά. Η θετική συναισθηματικότητα περιγράφει την τάση ενός ατόμου να είναι χαρούμενο και ενεργητικό σε διάφορες καταστάσεις, ενώ η αρνητική περιγράφει την τάση ενός ατόμου να είναι θλιμμένο και αναστατωμένο και να έχει χαμηλή αυτοεκτίμηση μέσα στο χρόνο. 5.3 Μοντέλα για τον εντοπισμό κειμένων που εκφράζουν ψυχική διάθεση Κατά τους Hugo Liu, Henry Lieberman και Ted Selker (2003), οι υπάρχουσες προσεγγίσεις/μοντέλα που αναφέρονται στη βιβλιογραφία κατά τη διαδικασία της εξόρυξης ψυχικής διάστασης μπορούν να κατηγοριοποιηθούν σε προσεγγίσεις: 1) εντοπισμού λέξεων-κλειδιών, 2) λεξιλογικής συγγένειας, 3) στατιστικής επεξεργασίας φυσικής γλώσσας και 4) χειρωνακτικών μοντέλων. -72-

74 5.3.1 Εντοπισμός λέξεων κλειδιών Είναι η πιο αφελής τεχνική, αλλά και πιθανότατα η πιο διαδεδομένη. Ένα κείμενο κατηγοριοποιείται σε μία κατηγορία συναισθήματος ανάλογα με την παρουσία όρων που αναμφισβήτητα δηλώνουν μία ψυχική διάθεση, όπως οι λέξεις «εξοργισμένος», «αγχωμένος», «χαρούμενος». Το Ortony s Affective Lexicon παρέχει μία λίστα συχνά χρησιμοποιούμενων λέξεων που εκφράζουν ψυχική διάθεση. Μια άλλη λίστα είναι η λίστα ANEW, που απαντάται σε πολλές εργασίες του είδους. Η αδυναμία αυτής της προσέγγισης έγκειται σε δύο παράγοντες, στην έλλειψη δυνατότητας αναγνώρισης των αρνήσεων και την εξάρτηση από επιφανειακά χαρακτηριστικά. Για παράδειγμα ένας ταξινομητής εκπαιδευμένος πάνω σε ένα τέτοιο μοντέλο θα κατηγοριοποιήσει σωστά τη φράση «είμαι πολύ χαρούμενος», αλλά όχι τη φράση «δεν είμαι πολύ χαρούμενος». Επίσης, πολλά συναισθήματα υποδηλώνονται από συμφραζόμενα, χωρίς να δηλώνονται με λέξεις που εκφράζουν αναμφισβήτητα ψυχική διάθεση. Για παράδειγμα η πρόταση «Ο άνδρας μου ζήτησε διαζύγιο και θέλει την επιμέλεια των παιδιών μας», σίγουρα υποδηλώνει δυνατά αρνητικά συναισθήματα, χωρίς τη χρήση κάποιας λέξης-κλειδιού Λεξιλογική Συγγένεια Η μέθοδος αυτή είναι λίγο πιο ακριβής από την προηγούμενη. Στη μέθοδο αυτή στις λέξεις αποδίδεται μία πιθανότητα «συγγένειας» με μια συγκεκριμένη διάθεση. Έτσι δεν εξετάζονται μόνο επίθετα, αλλά και άλλα μέρη του λόγου. Έτσι, στη λέξη ατύχημα μπορεί να αποδοθεί μία πιθανότητα 75% να σχετίζεται με κάποιο αρνητικό συναίσθημα. Αυτές οι πιθανότητες συνήθως υπολογίζονται από κειμενικό υλικό (βλ. Ενότητα της παρούσας εργασίας). Παρόλο που η μέθοδος αυτή έχει καλύτερη απόδοση από τον Εντοπισμό λέξεων κλειδιών, παρουσιάζει δύο προβλήματα. Πρώτον, εφόσον λειτουργεί μόνο στο επίπεδο των λέξεων, μπορεί εύκολα να ξεγελαστεί από προτάσεις όπως «Απέφυγα ένα ατύχημα» (άρνηση). Δεύτερον, οι πιθανότητες της Λεξιλογικής Συγγένειας είναι συνήθως μεροληπτικές προς το κείμενο ενός συγκεκριμένου είδους, ανάλογα με την πηγή του σώματος των κειμένων. Εξαιτίας αυτού, είναι δύσκολο να αναπτυχθεί ένα μοντέλο που μπορεί να χρησιμοποιηθεί ανεξάρτητα από το πεδίο στο οποίο ανήκει το κείμενο. -73-

75 5.3.3 Στατιστική Επεξεργασία Φυσικής Γλώσσας Αυτή είναι μία άλλη προσέγγιση που έχει εφαρμοστεί στην εξόρυξη ψυχικής διάθεσης από κείμενο. Εκπαιδεύοντας έναν αλγόριθμο μηχανικής μάθησης με ένα μεγάλο σύνολο κειμένων, στα οποία έχει σημανθεί η ψυχική διάθεση που υποδηλώνουν, είναι δυνατόν ένα σύστημα να μάθει το σθένος του συναισθήματος για τις λέξεις κλειδιά που υποδηλώνουν συναίσθημα, όπως στην προσέγγιση του Εντοπισμού λέξεων κλειδιών. Επιπλέον όμως, το σύστημα μπορεί να λάβει υπόψη το σθένος άλλων αυθαίρετων λέξεων κλειδιών (όπως στη Λεξιλογική Συγγένεια), τη στίξη, και τη συχνότητα συνεμφάνισης δύο λέξεων. Στατιστικές μέθοδοι όπως η λανθάνουσα σημασιολογική ανάλυση (latent semantic analysis) είναι δημοφιλείς για την ταξινόμηση συναισθήματος ενός κειμένου, και έχουν χρησιμοποιηθεί από ερευνητές σε project όπως το Goertzel s Webmind. Ωστόσο, οι στατιστικές μέθοδοι είναι αδύναμες σημασιολογικά, δηλαδή, αν εξαιρέσουμε τις λέξεις κλειδιά που δηλώνουν προφανώς συναίσθημα, τα υπόλοιπα λεξιλογικά στοιχεία και στοιχεία συνεμφάνισης λέξεων σε ένα στατιστικό μοντέλο έχουν μικρή προβλεπτική αξία ξεχωριστά. Σαν αποτέλεσμα, οι στατιστικοί ταξινομητές κειμένου έχουν ικανοποιητική ακρίβεια μόνο όταν δέχονται ως είσοδο ένα αρκετά μεγάλο κείμενο. Ενώ οι μέθοδοι αυτές μπορούν να ταξινομήσουν αποτελεσματικά το κείμενο ενός χρήστη σε επίπεδο παραγράφου ή σελίδας, δεν είναι αρκετά αποτελεσματικές όταν εφαρμόζονται σε μικρότερες μονάδες κειμένου, όπως οι προτάσεις Χειρωνακτικές Προσεγγίσεις Σύμφωνα με τους Schank και Dyer, η εξόρυξη συναισθήματος είναι ένα πολύπλοκο και βαθύ πρόβλημα κατανόησης. Το πρόγραμμα DAYREAMER του Dyer μοντελοποιεί συναισθηματικές καταστάσεις μέσω μοντέλων χειρωνακτικών προσεγγίσεων του συναισθήματος, που βασίζονται σε ψυχολογικές θεωρίες για τις ανθρώπινες ανάγκες, στόχους και επιθυμίες. Λόγω της ενδελεχούς φύσης αυτής της προσέγγισης, η εφαρμογή της απαιτεί βαθιά κατανόηση και ανάλυση του κειμένου. Η δυνατότητα γενίκευσης και εφαρμογής αυτής της μεθόδου σε οποιουδήποτε είδους κείμενο είναι περιορισμένη, γιατί η συμβολική μοντελοποίηση των σεναρίων, σχεδίων, στόχων πρέπει να γίνει χειρονακτικά, και απαιτείται μια πιο βαθιά κατανόηση του κειμένου από αυτή που μπορούν να προσφέρουν οι τελευταίες σημασιολογικές τεχνολογίες. -74-

76 5.4 Επιλογή Χαρακτηριστικών και Μεθόδων ταξινόμησης Η ανάλυση συναισθήματος περιλαμβάνει τον προσδιορισμό της συναισθηματικής έντασης ενός κειμένου, μέσω ενός συνόλου κλάσεων συναισθημάτων που δεν είναι αμοιβαία αποκλειόμενες και πιθανώς συσχετίζονται. Σημαντικά χαρακτηριστικά γνωρίσματα της ανάλυσης συναισθήματος είναι τα χαρακτηριστικά που αντιπροσωπεύουν την ύπαρξη συναισθημάτων σε ένα κείμενο, και οι μέθοδοι με τις οποίες ανατίθενται σε αυτά βαθμολογίες συναισθηματικής έντασης (Abassi et al, 2008). Οι ιδιότητες που χρησιμοποιούνται για την αναπαράσταση συναισθημάτων μπορεί να είναι είτε χαρακτηριστικά που βασίζονται σε λεξικά, είτε γενικά χαρακτηριστικά που βασίζονται στα n-grams. Σε ένα μεγάλο αριθμό ερευνών έχουν χρησιμοποιηθεί λεξικά που παράχθηκαν είτε αυτόματα είτε χειρονακτικά. Στα λεξικά αυτά, μία λέξη ή φράση μπορεί να ανήκει σε πολλαπλές κλάσεις συναισθήματος. Η βαθμολογία έντασης για ένα χαρακτηριστικό βασίζεται στο βαθμό έντασης αυτής της κλάσης. Ανάλογα με τη σημασιολογική σχέση των συναισθημάτων, κάποιες κλάσεις μπορεί να έχουν θετική ή αρνητική συσχέτιση (Subasic και Huettner, 2001). Οι Subasic και Huettner (2001) σε έρευνά τους χρησιμοποίησαν την προσέγγιση Fuzzy Semantic Typing, που βασίζεται σε λεξικό το οποίο έχει δημιουργηθεί χειρονακτικά. Κάθε χαρακτηριστικό ανατίθεται σε πολλαπλές κατηγορίες συναισθήματος, με διαφορετική ένταση και βαθμό κεντρικότητας -η πιθανότητα μία λέξη να ανήκει στη συγκεκριμένη κλάση συναισθήματος-, ανάλογα με τη λέξη και τα συμφραζόμενα. Παρόλο που τα λεξικά που δημιουργούνται χειρονακτικά είναι πολύ χρήσιμα, η δημιουργία τους είναι συνήθως χρονοβόρα και κουραστική. Για το λόγο αυτό, πολλές μελέτες έχουν ερευνήσει τη χρήση μεθόδων που βασίζονται σε λεξικά αυτόματης παραγωγής, όπως τα Semantic Orientation (SO) και τα λεξικά WNet. Αυτές οι μέθοδοι παίρνουν ένα μικρό σύνολο παραδειγμάτων-λέξεων που έχουν παραχθεί χειρονακτικά και αντιπροσωπεύουν με ακρίβεια μία συγκεκριμένη κλάση συναισθήματος, και χρησιμοποιούν αυτόματες μεθόδους για την διεύρυνση του λεξικού (Abassi et al, 2008). Σύμφωνα με την εργασία των Turney και Littman (2003), η SO προσέγγιση εκτιμά την ένταση κάθε λέξης με βάση της συχνότητα συνεμφάνισής της με ένα σύνολο άλλων λέξεων-παραδειγμάτων που αντιπροσωπεύουν την ίδια κλάση. Μία άλλη μέθοδος που βασίζεται σε αυτόματα παραγόμενα λεξικά είναι τα WNet λεξικά. Η -75-

77 μέθοδος αυτή προτάθηκε από τους Kim και Hovy (2004) και είναι παρόμοια με την SO. Ωστόσο, χρησιμοποιεί το WNet για να διευρύνει το σύνολο λέξεων που σχετίζονται με μία κλάση συναισθήματος, συγκρίνοντας τα συνώνυμα κάθε υποψήφιας λέξης με την αρχική λίστα λέξεων-παραδειγμάτων. Εκτός από τις προσεγγίσεις που βασίζονται σε λεξικά, έχουν χρησιμοποιηθεί σε μελέτες γενικά n-gram χαρακτηριστικά. Ο Mishne (2005) χρησιμοποίησε τα bag-ofwrods (BOWs) και τα POS tags σε συνδυασμό με λεξικά που παράχθηκαν αυτόματα. Τα n-grams είναι ιδιαίτερα αποτελεσματικά στο πεδίο της ανάλυσης συναισθήματος, ειδικά αν συνδυαστούν με μεθόδους μηχανικής μάθησης που μπορούν να μάθουν τα ngrams που μεταδίδουν άποψη και συναίσθημα. Πολλές έρευνες έχουν χρησιμοποιήσει μεθόδους βαθμολόγησης και μεθόδους μηχανικής μάθησης για την ανάθεση μιας τιμής έντασης συναισθήματος σε ένα χαρακτηριστικό. Οι μέθοδοι που βασίζονται στη βαθμολόγηση συνήθως χρησιμοποιούνται με λεξικά, και υπολογίζουν τη μέση ένταση των όρων του λεξικού που εμφανίζονται μέσα στο κείμενο (εντοπισμός λέξεων) (Cho και Lee, 2006; Liu et al, 2003). Έχει επίσης χρησιμοποιηθεί ο μέσος όρος σε επίπεδο προτάσεων σε συνδυασμό με τις PMI βαθμολογίες σε επίπεδο λέξεων, που παράγονται με τη χρήση των SO και WNet λεξικών (Turney και Littman, 2003; Kim και Hovy, 2004). Οι έρευνες που χρησιμοποιούν λεξικά τα οποία έχουν δημιουργηθεί χειρονακτικά και περιλαμβάνουν δομικά πρότυπα προτάσεων, προφανώς δε χρησιμοποιούν το μέσο όρο, αλλά βρίσκουν αντιστοιχίες προτάσεων με καταχωρίσεις του λεξικού, και ανάλογα αναθέτουν βαθμολογίες έντασης (Liu et al, 2003). Οι μέθοδοι μηχανικής μάθησης έχουν επίσης αξιοποιηθεί για την ανάθεση τιμών έντασης συναισθήματος. Πολλές έρευνες χρησιμοποιούν τον αλγόριθμο SVM για να προσδιορίσουν αν ένα απόσπασμα κειμένου ανήκει σε μία συγκεκριμένη κλάση συναισθήματος (Chuang και Wu, 2004; Mishne, 2005). Μία αδυναμία του SVM είναι ότι μπορεί να χειριστεί μόνο διακριτές κλάσεις, ενώ η ένταση του συναισθήματος μπορεί να ποικίλλει σε ένα κείμενο. Κάποιοι ερευνητές επιχείρησαν να αντιμετωπίσουν αυτό το πρόβλημα με τη χρήση ταξινομητών που βασίζονται στην παλινδρόμηση (Pang και Lee, 2005). Ωστόσο, οι μέθοδοι μάθησης που βασίζονται στην παλινδρόμηση δεν έχουν χρησιμοποιηθεί αρκετά, παρά την αποτελεσματικότητά τους σε ορισμένα πεδία έρευνας. -76-

78 5.5 Εργασίες στο πεδίο της ταξινόμησης ψυχικής διάθεσης σε επίπεδο μηνύματος Στην ενότητα αυτή παρουσιάζονται οι εργασίες που έχουν ως στόχο τον καθορισμό της υποδηλούμενης ψυχικής διάθεσης σε επίπεδο μηνύματος σε αντιδιαστολή με τις εργασίες που παρουσιάζονται στην επόμενη ενότητα και επιχειρούν την ανίχνευση και ανάλυση της αθροιστικής ψυχικής διάθεσης Πειράματα ταξινόμησης ψυχικής διάθεσης σε Blogs Η εργασία αυτή του Mishne (2006), αποτελεί κύρια πηγή αναφοράς σε κάθε άλλη που ακολούθησε, όχι γιατί τα αποτελέσματά της ήταν πολύ ικανοποιητικά, αλλά κυρίως επειδή αφενός μεν αποτέλεσε την απαρχή της ενασχόλησης με το συγκεκριμένο πεδίο έρευνας, και αφετέρου μοντελοποίησε τα μηνύματα των blogs σαν διανύσματα με ένα πολύ ευρύ πλήθος χαρακτηριστικών. Τα δεδομένα εκπαίδευσης και ελέγχου ανακτήθηκαν από bogs του LiveJournal. Στο Livejournal κάθε χρήστης μπορεί μόνος τους να δηλώσει τη διάθεσή του, επιλέγοντας από μία λίστα 132 διαθέσεων ή γράφωντας μία λέξη για αυτό που αισθάνεται. Το αρχικό σώμα του κειμένου που συλλέχθηκε ήταν μηνύματα από blogs. Βέβαια, όπως ήταν αναμενόμενο η κατανομή των διαθέσεων στο σώμα αυτό ακολουθoύσε κατανομή Power Low, πολλές διακριτές διαθέσεις εμφανίζονταν μόνο μία φορά και λίγο λιγότερες δύο φορές. Τελικά, τα πειράματα έγιναν για τις επικρατέστερες διαθέσεις όπως εμφανίζονται στον παρακάτω πίνακα. Πίνακας 1 : Οι επικρατέστερες διαθέσεις στο σώμα μηνυμάτων -77-

79 Η εργασία αυτή, ως προτότυπη στο πεδίο εξόρυξης ψυχικής διάθεσης από blog, ήταν περισσότερο διερευνητική με σκοπό να απαντήσει στο κατά πόσο η εξόρυξη συναισθήματος από blogs είναι διαφορετική από εξόρυξη συναισθήματος από άλλου είδους κείμενο, ποια χαρακτηριστικά την διαφοροποιούν και ποια κειμενικά χαρακτηριστικά είναι περισσότερο ενδεικτικά μιας διάθεσης. Επιπρόσθετα, είχε σκοπό να διερευνήσει τον κατάλληλο όγκο των δεδομένων εκπαίδευσης, γι αυτό έγιναν πειράματα με διαφορετικό όγκο δεδομένων. Επιλογή Χαρακτηριστικών Η επιλογή των χαρακτηριστικών (features) σύμφωνα με τα οποία ένα μήνυμα θα μοντελοποιηθεί είναι ίσως και η πιο σημαντική απόφαση σε μία εφαρμογή ταξινόμησης κειμένου. Στην εργασία αυτή επιλέχθηκαν χαρακτηριστικά από τις ακόλουθες κατηγορίες: Συχνότητα των λέξεων Τα περισσότερα συστήματα ταξινόμησης κειμένου αντιμετωπίζουν το κείμενο σαν «τσάντα από λέξεις» και χρησιμοποιούν ως χαρακτηριστικά τη συχνότητα κάποιων λέξεων ή n-grams λέξεων (ο όρος αναφέρεται σε φράση τόσων λέξεων όσες και το n, π.χ. bi-gram είναι μία φράση δύο λέξεων). Άλλα χαρακτηριστικά είναι η συχνότητα των μερών του λόγου (POS tags) στο κείμενο και η συχνότητα των λημμάτων των λέξεων. Στην εργασία χρησιμοποιήθηκαν όλα τα παραπάνω χαρακτηριστικά. Τα μέρη του λόγου και τα λήμματα ανακτήθηκαν με το λογισμικό TreeTagger. Μήκος ενός μηνύματος Τέσσερα χαρακτηριστικά χρησιμοποιήθηκαν για την αναπαράσταση του μήκους ενός μηνύματος. Αυτά ήταν το συνολικό του μέγεθος σε bytes, ο αριθμός των λέξεων του μηνύματος, ο μέσος όρος του μήκους μιας πρότασης σε bytes και ο μέσος όρος των λέξεων σε μίας πρόταση. Ο διαχωρισμός των προτάσεων έγινε με μία αφελή μέθοδο, βασιζόμενη στα σημεία στίξης. Σημασιολογικός προσανατολισμός των μηνυμάτων -78-

80 Ο σημασιολογικός προσανατολισμός των μηνυμάτων (θετικός, αρνητικός) είναι σημαντικός για την ταξινόμηση της ψυχικής διάθεσης, αφού κάποιες διαθέσεις είναι σαφώς αρνητικές (π.χ. ενοχλημένος, νευριασμένος), ενώ κάποιες άλλες θετικές (π.χ. χαρούμενος). Αναμένεται ότι τα μηνύματα που εκφράζουν θετική ψυχική διάθεση, θα έχουν κατά μέσο όρο θετικότερο προσανατολισμό, από τα υπόλοιπα. Στα πειράματα του Mishne χρησιμοποιήθηκαν ως χαρακτηριστικά ο συνολικός προσανατολισμός του μηνύματος και ο μέσος όρος του προσανατολισμού των λέξεων. Για τον υπολογισμό των σημασιολογικών προσανατολισμών μιας λέξης χρησιμοποιούνται 2 πηγές (λίστες που έχουν κατασκευαστεί από άλλους μελετητές). Η Οι λίστα των Kim and Hovy (2004) αποτελείται από ρήματα και ουσιαστικά, σε κάθε ένα από τα οποία έχει αποδοθεί θετικό, αρνητικό ή ουδέτερο πρόσημο ανάλογα με τον προσανατολισμό που εκφράζει. Ο προσανατολισμός μίας πρότασης ή παραγράφου ισούται με το άθροισμα (ή το μέσο όρο) όλων των λέξεων που περιέχει. Το τελικό θετικό πρόσημο δηλώνει, δηλαδή, θετικό προσανατολισμό και το αρνητικό πρόσημο, αρνητική στάση. Η δεύτερη πηγή είναι παρόμοια (Turney and Littman, 2003) και χρησιμοποιεί 1718 επίθετα στα οποία έχει ανατεθεί κάποιος φυσικός αριθμός που δηλώνει όχι μόνο αν μία λέξη έχει θετική ή αρνητικά χροιά, αλλά και πόσο θετική ή αρνητική είναι η χροιά της. Η μέθοδος αυτή βασίζεται στη συνύπαρξη μίας λέξης με ένα μικρό αριθμό χειρωνακτικά ταξινομημένων λέξεων στο διαδίκτυο (η μέθοδος της συνύπαρξης του Turney, αναλύθηκε στο κεφάλαιο 2 της παρούσας εργασίας). Εικόνα 24: Αποσπάσματα από τις λίστες των Kim&Hovy και Turnrey&Littmat για το σημασιολογικό προσανατολισμό των λέξεων Ο δείκτης PMI IR μιας διάθεσης Ο δείκτης PMI-IR χρησιμοποιεί την ανάκτηση πληροφοριών για να εκτιμήσει το δείκτη PMI (Pointwise Mutual Information) χρησιμοποιώντας μηχανές αναζήτησης του -79-

81 διαδικτύου. Για την εκτίμηση του συνολικού PMI ενός κειμένου με συγκεκριμένο θέμα, είναι κοινή πρακτική να αθροίζονται όλοι οι δείκτες PMI των λέξεων του κειμένου. Για την ταξινόμηση της ψυχικής διάθεσης προ-υπολογίστηκαν οι δείκτες PMI IR των 2694 συχνότερα εμφανιζόμενων λέξεων με 40 επικρατέστερες διαθέσεις (συνολικά υπολογίστηκαν λέξεις). Για κάθε μία από τις 40 διαθέσεις, χρησιμοποιήθηκαν 2 χαρακτηριστικά συσχετισμού του μηνύματος με τη διάθεση: Το άθροισμα PMI των λέξεων και ο μέσος όρος PMI (συνολικά δηλαδή προστέθηκαν στο διάνυσμα 80 χαρακτηριστικά). Λέξεις με έμφαση Λέξεις με έμφαση μπορεί να είναι λέξεις γραμμένες ολόκληρες με κεφαλαία (π.χ. Είναι μια ΤΕΛΕΙΑ ιδέα.) ή λέξεις που περιέχονται ανάμεσα σε ειδικά σύμβολα (π.χ. *Δεν* είναι αυτό που είχα κατά. νου ή Θα σε πείραζε να το _κοίταζες_ πιο προσεχτικά). Σαν χαρακτηριστικό χρησιμοποιήθηκε ο αριθμός των λέξεων με έμφαση σε κάθε μήνυμα, όπως και η συχνότητα εμφάνισης κάθε λέξης με έμφαση στο κείμενο. Τα χαρακτηριστικά αυτά χρησιμοποιήθηκαν λόγω της πεποίθησης ότι οι λέξεις με έμφαση μπορεί να είναι σημαντικοί παράγοντες της διάθεσης του κειμένου. Ειδικά Σύμβολα Τα ειδικά σύμβολα μπορεί να είναι χαρακτήρες όπως τα σημεία στίξης (π.χ. τα θαυμαστικά) ή τα εικονίδια που δηλώνουν συναίσθημα (emoticons). Σε ορισμένες περιπτώσεις, όπως στην ταξινόμηση του είδους του κειμένου ή την ανίχνευση spam mail, η χρήση των σημείων στίξης ως χαρακτηριστικά ήταν ιδιαίτερα αποτελεσματική. Η χρήση των emoticons είναι επίσης πολύ διαδεδομένη σε πειράματα με υλικό από Blogs. Στην εργασία του Mishne χρησιμοποιήθηκαν οι συχνότητες εμφάνισης 15 ειδικών συμβόλων και 9 διαδεδομένων emoticons ανά μήνυμα. Αλγόριθμος Ταξινόμησης Για τα πειράματα ταξινόμησης χρησιμοποιήθηκε το λογισμικό SVMlight, ένα λογισμικό που υποστηρίζει αλογορίθμους SVM. Η επιλογή των πιο αντιπροσωπευτικών χαρακτηριστικών σχετικά με τη συχνότητα των λέξεων έγινε χρησιμοποιώντας τη μέθοδο Log likehood για λέξεις, POS και λήμματα. Επιλέχθηκαν οι 50 πιο αντιπροσωπευτικές λέξεις, POS και λήμματα για κάθε διάθεση. Τα χαρακτηριστικά που αναφέρονται σε λέξεις με έμφαση και ειδικούς χαρακτήρες συμπεριλήφθηκαν όλα. Ταξινόμηση Πειράματα Στην εργασία αυτή παρουσιάστηκαν 2 πειράματα. Στο πρώτο εξετάστηκε η αποτελεσματικότητα του καθορισμού μιας διάθεσης σε ένα μήνυμα και το αποτέλεσμα -80-

82 της αλλαγής του όγκου των δεδομένων εκπαίδευσης στην ακρίβεια της ταξινόμησης. Κατά την εκπαίδευσης για κάθε διάθεση χρησιμοποιήθηκε ίσος αριθμός θετικών και αρνητικών στιγμιότυπων. Για τον έλεγχο χρησιμοποιήθηκε επίσης ίσος αριθμός θετικών και αρνητικών στιγμιότυπων. Στο δεύτερο πείραμα τα στιγμιότυπα χωρίστηκαν ως προς την εξαρτημένη μεταβλητή χειρωνακτικά σε 2 σύνολα διαθέσεων. Σε «θετικές διαθέσεις» σε αντίθεση με «αρνητικές διαθέσεις» και σε «ενεργητικές διαθέσεις» σε αντίθεση με τις «παθητικές διαθέσεις». Κατόπιν, επαναλήφθηκαν οι φάσεις εκπαίδευσης και ελέγχου, όπως είχε γίνει και στο πρώτο σύνολο πειραμάτων για κάθε διακριτή διάθεση. Στόχος αυτού του δεύτερου πειράματος ήταν να διαπιστωθεί το αν μία ομαδοποίηση συγγενών μεταξύ τους διαθέσεων μπορεί να βελτιώσει την απόδοση του ταξινομητή, αφού πολλές διαθέσεις στον κειμενικό όγκο που χρησιμοποιήθηκε ήταν συνώνυμες (π.χ. κουρασμένος και νυσταγμένος). Αποτελέσματα Τα πειράματα, όπως περιγράφτηκαν στην προηγούμενη παράγραφο, διεξήχθηκαν με 400, 1600 και 6400 στιγμιότυπα εκπαίδευσης για το πρώτο πείραμα και από για το δεύτερο. Πίνακας 2: Ακρίβεια ταξινομητή για το πρώτο πείραμα -81-

83 Πίνακας 3: Ακρίβεια ταξινομητή για το δεύτερο πείραμα Όπως φαίνεται τα αποτελέσματα αυτής της έρευνας δεν ήταν και πολύ ενθαρρυντικά (8% βελτίωση από μία τυχαία ταξινόμηση κατά μέσο όρο), κάτι που κατέδειξε το πόσο δύσκολη είναι η εξόρυξη συναισθήματος από τέτοιου είδους υλικό. Αναφορικά με τα χαρακτηριστικά που επιλέχθηκαν για τη μοντελοποίηση των κειμένων, δυστυχώς δε πραγματοποιήθηκαν πειράματα με υποσύνολα αυτών, ώστε να αξιολογηθεί η καταλληλότητά τους. Επίσης, ήταν αρκετά αιφνιδιαστικό το γεγονός ότι η ομαδοποίηση των διαθέσεων δε βελτίωσε την ακρίβεια του ταξινομητή, παρά το γεγονός ότι σε αυτή την περίπτωση χρησιμοποιήθηκε μεγαλύτερος όγκος δεδομένων εκπαίδευσης. Η αποτυχία των πειραμάτων αποδόθηκε από τον ερευνητή αφενός μεν στην έλλειψη όγκου δεδομένων εκπαίδευσης στην περίπτωση ταξινόμησης μίας διάθεσης, αφετέρου στο μικρό μέγεθος που έχει συνήθως ένα μήνυμα σε blog (μέσος όρος 200 λέξεις). Επίσης, είναι πολύ σημαντικό το γεγονός ότι η ψυχική διάθεση ενός μηνύματος αποδίδονταν από τον ίδιο το συγγραφέα του μηνύματος και όχι από κάποιον τρίτο με ενιαία προσέγγιση. Πρακτικά αυτό εισάγει σημαντικό θόρυβο στα δεδομένα, δεδομένου του ότι όλοι οι άνθρωποι δεν αντιλαμβάνονται με ενιαίο τρόπο την ψυχική τους διάθεση, ενώ πολλοί συγγραφείς πιθανόν επέλεξαν την ψυχική διάθεση που είχαν όταν έγραφαν το μήνυμα και όχι την ψυχική διάθεση στην οποία ανταποκρίνονταν το ίδιο το μήνυμα. Νεότερες εργασίες που περιγράφονται παρακάτω είχαν πολύ καλύτερα αποτελέσματα, όταν τρίτοι αξιολογητές απέδιδαν την ψυχική διάθεση των μηνυμάτων Καθορισμός Ψυχικής Διάθεσης Συνδυάζοντας Πολλές Πηγές Αποδείξεων Στην εργασία τους οι Yuchul Jung et al. συνδυάζουν δύο συστήματα με σκοπό να χειριστούν τη διαφορετικότητα του στυλ γραφής από συγγραφέα σε συγγραφέα, αλλά και να διαχειριστούν το γεγονός ότι η ψυχική διάθεση ενός συγγραφέα σε ένα μήνυμα μπορεί από πρόταση σε πρόταση να αλλάζει. Χρησιμοποιείται ένα ταξινομητής βασισμένος σε SVM και ένα σύστημα με το όνομα Mood Flow Analyzer που προσπαθεί να συνδυάσει την κοινή γνώση (commonsense knowledge) με τα -82-

84 αποτελέσματα του ταξινομητή. Αυτή η κοινή γνώση αποκτάται από τη χρήση σημασιολογικών δικτύων (εφαρμογή ConceptNet), τη λίστα ANEW (Affective Norms of English) και ένα σύστημα εντοπισμού αλλαγής διάθεσης σε ένα μήνυμα. Για το συνδυασμό των αποτελεσμάτων των δύο συστημάτων χρησιμοποιείται ένα τρίτο σύστημα βασισμένο επίσης σε SVM (weighted voting scheme). Εικόνα 25 Η αρχιτεκτονική του προτεινόμενου συστήματος Για την αξιολόγηση του συστήματος χρησιμοποιήθηκε ένα σώμα από 4000 blogs, ενώ η ψυχική διάθεση (εξαρτημένη μεταβλητή) σε κάθε ένα αποδόθηκε χειρωνακτικά. Το σώμα αυτό επιλέχθηκε από 50GB μηνυμάτων, αρχικά χρησιμοποιώντας την τεχνική εντοπισμού λέξεων κλειδιών (keyword spotting), ενδεικτικές για την παρουσία συναισθήματος. Στη φάση της προεπεξεργασίας αποκλείστηκαν μηνύματα που περιείχαν λιγότερες από 5 και περισσότερες από 40 λέξεις. Κατόπιν η ψυχική διάθεση, επιλέχθηκε μεταξύ τεσσάρων (χαρούμενος, λυπημένος, θυμωμένος, φοβισμένος) από περισσότερους από έναν ανθρώπους / «αξιολογητές» και το δείγμα εκπαίδευσης αποτέλεσαν 1000 καταχωρήσεις σε blogs από κάθε ψυχική διάθεση, για τα οποία η απόδοση ψυχικής διάθεσης των αξιολογητών είχε συμπέσει. Ο συνδυασμός του ταξινομητή SVM με το έξυπνο σύστημα «κοινής γνώσης» βελτίωσε την ακρίβεια του ταξινομητή κατά 5.68%. Εκπαίδευση του Ταξινομητή SVM Τα χαρακτηριστικά που επιλέχθηκαν για τη μοντελοποίηση των κειμένων ήταν το μήκος του μηνύματος, οι συχνότητα κάποιων όρων, το συναίσθημα, οι λέξεις με έμφαση και ο δείκτης PMI-IR. Η εκπαίδευση έγινε με βάση τα κείμενα μοντελοποιημένα ως προς τα παραπάνω χαρακτηριστικά, χωρίς κάποια άλλη παρέμβαση. -83-

85 To σύστημα Mood Flow Analyzer Αρχικά ένα μήνυμα διαιρείται σε παραγράφους. Στη συνέχεια σε κάθε παράγραφο καταμετρώνται οι όροι που δηλώνουν ψυχική διάθεση χρησιμοποιώντας τη συνάρτηση GuesssMood που βασίζεται στο ConceptNet και τη λίστα ψυχικών διαθέσεων ANEW. Αν ο αριθμός των όρων είναι μεγαλύτερος από κάποιο όριο (χρησιμοποιήθηκαν ως όριο οι 3 όροι) η παράγραφος επιλέγεται για ανάλυση. Για την υλοποίηση της συνάρτησης GuessMood τα δεδομένα αναδιοργανώνονται και εξάγονται μόνο προτάσεις που υποδηλώνουν ψυχική διάθεση από το σύμφωνα με το Open Mind Common Sense Corpus (H.Liu and P.Singh) του ConceptNet. Με τη χρήση της λίστας ANEW εντοπίζεται η ψυχική διάθεση όταν δηλώνεται ευθέως στην παράγραφο, ενώ με τη χρήση της συνάρτησης GuessMood όταν υποδηλώνεται από τα συμφραζόμενα. Ανάλογα με τις δύο προσεγγίσεις αποδίδεται η επικρατούσα διάθεση σε μία παράγραφο. Όταν σε ένα έγγραφο το συναίσθημα που πηγάζει από όλες τις παραγράφους είναι αμετάβλητο, η συνάρτηση Mood Resolver αποδίδει την ψυχική διάθεση του εγγράφου. Όταν είναι όμως μεταβλητό η τελική ψυχική διάθεση αποδίδεται από μία ευριστική τεχνική που αποδίδει βάρη στις παραγράφους ανάλογα με τη θέση τους στο κείμενο. Εικόνα 26: Αρχές Λειτουργίας του συστήματος MFA Το σύστημα συνδυασμού των δύο προσεγγίσεων Το σύστημα MFA ταξινόμησε καλύτερα περίπου το 6% των blogs από αυτά που ο SVM ταξινομητής είχε ταξινομήσει λάθος. Έτσι. κατά το συνδυασμό των δύο -84-

86 συστημάτων λαμβάνεται ως απόφαση το αποτέλεσμα του MFA, όταν το επίπεδο εμπιστοσύνης που δίνει είναι υψηλότερο από τα αποτελέσματα του SVM. Το κύριο πρόβλημα ήταν να μετρηθεί αυτό το επίπεδο εμπιστοσύνης, δηλαδή να διερευνηθεί ουσιαστικά το πότε ο MFA δίνει καλύτερα αποτελέσματα. Η προσέγγιση να λαμβάνεται υπόψη η απόφαση του MFA ανάλογα με τη διάθεση που αποτελεί την εξαρτημένη μεταβλητή απορρίφθηκε, επειδή για κάθε διάθεση ο SVM είχε καλύτερα αποτελέσματα από τον MFA. Στη συνέχεια προτάθηκε ένα ευρεστικό σύστημα απόδοσης βαρών στις απόφασεις του SVM και του ΜFA ανάλογα με το περιεχόμενο του κειμένου (π.χ. συχνότητα λέξεων που δηλώνουν άμεσα ψυχική διάθεση), αλλά δεν είχε τα αναμενόμενα αποτελέσματα. Η τελική προσέγγιση ήταν η εκπαίδευση ενός τρίτου SVM ταξινομητή, ο οποίος εκπαιδεύτηκε με κείμενα που και οι δύο ταξινομητές ταξινόμησαν σωστά και με κείμενα που μόνο ο SVM ταξινόμησε λάθος. Για την επιλογή των χαρακτηριστικών των διανυσμάτων εκπαίδευσης χρησιμοποιείται η τεχνική TF*IDF weighting. Μία τελική συνάρτηση αποφασίζει για το αν θα επιλεγεί η απόφαση του SVM ή του MFA ταξινομητή, ανάλογα με τα βάρη που αποδίδονται από τον τελευταίο SVM ταξινομητή με είσοδο το κείμενο του blog. Αποτελέσματα Στον παρακάτω πίνακα φαίνονται τα αποτελέσματα (ακρίβεια) του πειράματος για κάθε ψυχική διάθεση. Στην πρώτη στήλη δίνεται η ακρίβεια του SVM, στη δεύτερη η ακρίβεια του συνδυασμού SVM και MFA κατά την πρωτη προσέγγιση (χρήση MFA σε ορισμένες διαθέσεις), στην τρίτη η ακρίβεια του συνδυασμού SVM και MFA κατά τη δεύτερη προσέγγιση (χρήση ευρεστικών βαρών). Στην τελευταία στήλη δίνεται η ακρίβεια του συνδυασμού SVM και MFA κατά την τελευταία προτεινόμενη προσέγγιση (απόφαση SVM για το ποιος ταξινομητής θα ληφθεί υπόψη). -85-

87 Πίνακας 4: Ακρίβεια ταξινομητών Παρά το γεγονός ότι η εξόρυξη ψυχικής διάθεσης από κείμενα είναι αρκετά δύσκολο εγχείρημα, τα αποτελέσματα αυτής της εργασίας ήταν πολύ ενθαρρυντικά Κατανοώντας Πως Νιώθουν οι Bloggers: Αναγνώριση ψυχικής διάθεσης στα μηνύματα των Blogs Η εργασία των G. Leshed and J. Kaye (2006) αναφέρεται επίσης στο πρόβλημα της ταξινόμησης της ψυχικής διάθεσης μηνυμάτων blogs. Όπως και στην εργασία του Mishne τα δεδομένα εκπαίδευσης λαμβάνονται από το LiveJournal, όπου οι ίδιοι οι χρήστες δηλώνουν τη διάθεσή τους. Τα δεδομένα εκπαίδευσης αποτέλεσαν περίπου μηνύματα, τα οποία αντιστοιχίζοντας στις επικρατέστερες διαθέσεις (κουρασμένος, ψυχαγωγημένος, χαρούμενος, βαριεστημένος, μπλιαχ, εύθυμος, ικανοποιημένος, νυσταγμένος, ενθουσιασμένος και ήρεμος). Τα δεδομένα ελέγχου αποτέλεσαν επιπλέον μηνύματα. Επιλογή Χαρακτηριστικών Τα κειμενικά δεδομένα αντιμετωπίστηκαν ως «τσάντα από λέξεις» (Bag Of Words) και μοντελοποιήθηκαν ως διανύσματα με τη μέθοδο tf*idf. Μια τέτοια μοντελοποίηση δε λαμβάνει υπόψη της παράγοντες όπως τις αρνήσεις, τη σειρά των λέξεων ή το σημασιολογικό προσανατολισμό τους. Αλγόριθμος Ταξινόμησης Παρόμοια με τον Mishne, χρησιμοποιήθηκε το λογισμικό SVMlight και ταξινομητής SVM. -86-

88 Πειράματα και Αποτελέσματα Αρχικά, παράχθηκαν με βάση τα αποτελέσματα του ταξινομητή, λίστες των σχετικότερων λέξεων ως προς μία διάθεση. Κατόπιν, έγινε η αντίστροφη διαδικασία, δηλαδή ερευνήθηκε το ποιά είναι η επικρατέστερη διάθεση, δεδομένου ενός όρου (π.χ. δεδομένου του όρου computer προέκυψε ότι η πιθανότερη διάθεση ήταν η διάθεση ενοχλημένος και η λιγότερο πιθανή η διάθεση στοχαστικός). Στο επόμενο στάδιο πειραμάτων, μελετήθηκε η επιτυχία αναγνώρισης μιας διάθεσης από ένα μήνυμα. Ο ταξινομητής έδωσε ακρίβεια 78%, καταδεικνύοντας ότι ακόμα κι αν το σύνολο των χαρακτηριστικών δε είναι τόσο πλήρες όσο του Mishne, ο μεγάλος όγκος δεδομένων εκπαίδευσης αρκεί για να βελτιώσει κατά πολύ την ακρίβεια του ταξινομητή. Σε ένα επόμενο πείραμα οι ψυχικές διαθέσεις ομαδοποιήθηκαν σε θετικές και αρνητικές, μετατρέποντας ουσιαστικά το εγχείρημα ταξινόμησης σε εγχείρημα σημασιολογικού προσανατολισμού (θετική/αρνητική διάθεση). Ο ταξινομητής που εκπαιδεύτηκε στο νέο σύνολο έδωσε 74% ακρίβεια επιβεβαιώνοντας ξανά τον καθοριστικό ρόλο του μεγάλου όγκου δεδομένων εκπαίδευσης. Τέλος, μελετήθηκε η συνωνυμία των διαθέσεων. Η εκτίμηση της πιθανής ομοιότητας μεταξύ δύο διαθέσεων έγινε με την εξής μετρική: Τα u και v αντιπροσωπεύουν δύο διαφορετικές διαθέσεις, ενώ το wij αντιπροσωπεύει το βάρος της λέξης i στο διάνυσμα της διάθεσης j. Θετικές τιμές της παραπάνω μετρικής σημαίνουν συνωνυμία διαθέσεων, ενώ αρνητικές το αντίθετο. Τα παραγόμενα μέτρα ομοιότητας χρησιμοποιήθηκαν για την ιεραρχική ομαδοποίηση των διαθέσεων σε 10 ομάδες. Τα αποτελέσματα της ομαδοποίησης απεικονίζονται στην εικόνα που ακολουθεί. -87-

89 Εικόνα 27: Ομαδοποίηση ψυχικών διαθέσεων Τα αποτελέσματα αυτής της ομαδοποίησης προκαλούν κάποια έκπληξη π.χ. για το τι σχέση μπορεί να έχει η διάθεση χαρούμενος με τη διάθεση εξαντλημένος, όμως δείχνουν ότι οι bloggers χρησιμοποιούν πολλές κοινές ακολουθίες λέξεων για να εκφράσουν συναισθήματα που κατά την κοινή αίσθηση και την ψυχολογική επιστήμη δεν έχουν σημασιολογική συγγένεια ESSE: Ερευνώντας την ψυχολογική διάθεση στο διαδίκτυο Οι Owsley Sood and Lucy Vasserman (2009) παρουσίασαν στο συνέδριο «Conference on Information and Knowledge Management» το 2009 ένα σύστημα ανάκτησης και ταξινόμησης της ψυχικής διάθεσης μηνυμάτων blogs στις κατηγορίες «μήνυμα που εκράζει λύπη», «μήνυμα που εκφράζει χαρά» και «μήνυμα που εκράζει θυμό». Το σύστημα αυτό είναι μία web based εφαρμογή πραγματικού χρόνου, η οποία δεδομένης μιας λέξης αναζήτησης, ανακτά μηνύματα με ενδιαφέρον περιεχόμενο και στη συνέχεια τα παρουσιάζει κατηγοριοποιημένα στο χρήστη. Το σύστημα ESSE αποτελείται από τρεις λειτουργικές μονάδες: Μονάδα Ανάκτησης: Η μονάδα αυτή εκτελεί τη διαδικασία ανάκτησης ενός μηνύματος, δεδομένης μιας φράσης κλειδιού που προσδιορίζεται από το χρήστη. Ένα ερώτημα δημιουργείται και εκτελείται στο σώμα των δεικτοδοτημένων blogs από το σώμα δεδομένων Spinn3r Dataset, που αποτελείται από 44 εκατομμύρια μηνύματα σε blogs. Τα κείμενα αναπαρίστανται ως διανύσματα με τη μέθοδο tf*idf. -88-

90 Μονάδα Ταξινόμησης: Ένας ταξινομητής λαμβάνει ως είσοδο ένα κείμενο και επιστρέφει ένα σύνολο αποτελεσμάτων που αντιπροσωπεύει την ψυχική διάθεση του κειμένου. Μονάδα Παρουσίασης Αποτελεσμάτων: Η διεπαφή (interface) του ESSE είναι μία πολύ απλή ιστοσελίδα. Εικόνα 28: Γραφική διεπαφή του συστήματος ESSE Τα δεδομένα εκπαίδευσης του ταξινομητή αποτέλεσαν περίπου μηνύματα από το LiveJournal, για τα οποία ο χαρακτηρισμός της ψυχικής διάθεσης, είχε καταχωρηθεί από τους συντάκτες των μηνυμάτων. Ομαδοποίηση Ψυχικών Διαθέσεων Το σύνολο των δεδομένων που συλλέχθηκε περιείχε πάνω από 130 διακριτές διαθέσεις, οι οποίες συχνά επικαλύπτονται νοηματικά (π.χ. οι όροι peeved και annoyed). Η υπόθεση των ερευνητών ήταν ότι η χρήση όλων αυτών των διαθέσεων (όπως ο Mishne), ως πιθανές τιμές της εξαρτημένης μεταβλητής, θα μείωνε την ακρίβεια του ταξινομητή (data overfit) και την αποτελεσματικότητα του συστήματος (μεγάλο σύνολο χαρακτηριστικών). Αρχική σκέψη ήταν να αντιστοιχιστούν στα κείμενα νέες διαθέσεις, σύμφωνα με το μοντέλο του Ekman, από αξιολογητές. Ωστόσο το ποσοστό συμφωνίας μεταξύ των αξιολογητών ως προς τη διάθεση των μηνυμάτων ήταν πολύ μικρό, αφενός μεν λόγω της ύπαρξης νοηματικά αλληλεπικαλυπτόμενων διαθέσεων και αφετέρου λόγω αφηρημένων διαθέσεων, όπως μλιαχ, κενό, ζεστό κ.τ.λ.. Η τελική προσέγγιση που ακολουθήθηκε ήταν να ομαδοποιηθούν οι διαθέσεις με τη χρήση μεδόθων μηχανικής μάθησης. Τελικά χρησιμοποιήθηκε ο αλγόριθμος KMeans, από τον οποίο προέκυψαν μετά από πειράματα τρεις συμπαγείς ομάδες, όπως και πολλοί outliers. Για την εφαρμογή του K-Means κάθε σημείο που αντιστοιχούσε σε μία από τις 130 κατηγορίες διαθέσεων αναπαραστάθηκε ως διάνυσμα που περιείχε τον -89-

91 αριθμό των λέξεων για κάθε λέξη (unigram) όλου του κειμενικού όγκου που συλλέχθηκε. Η απόσταση υπολογίστηκε με τη μετρική της ευκλείδιας απόστασης μεταξύ διανυσμάτων. Οι διαθέσεις outliers απορρίφθηκαν από το σύνολο εκπαίδευσης, ενώ τελικά παρέμειναν 31 διακριτές διαθέσεις που ανήκαν στις ομάδες χαρούμενος, λυπημένος και θυμωμένος. Αντίστοιχα βέβαια μειώθηκε και ο όγκος των δεδομένων εκπαίδευσης σε μηνύματα. Εικόνα 29: Αντιστοίχιση των ψυχικών διαθέσεων στις τρεις ομάδες που προέκυψαν Επιλογή Χαρακτηριστικών Ταξινόμησης Στη συνέχεια εκπαιδεύτηκε ένας ταξινομητής, ώστε δεδομένου ενός μηνύματος να το κατατάσσει σε μία από τις κατηγορίες «μήνυμα που εκφράζει λύπη», «μήνυμα που εκφράζει χαρά» και «μήνυμα που εκφράζει θυμό». Τα χαρακτηριστικά που χρησιμοποιήθηκαν, εκτός από τα συνηθισμένα για αυτό το σκοπό (unigrams, bigrams, ρίζες λέξεων), ήταν και η παρουσία συγκεκριμένων λέξεων που εκφράζουν συναίσθημα (words of affect), εικονίδια που χρησιμοποιούνται στο διαδίκτυο για την αναπαράσταση συναισθημάτων (emoticons) και χρήση internet slang εκφράσεων (όπως οι εκφράσεις omg και lol). Οι ερευνητές υποστήριξαν ότι αυτά τα χαρακτηριστικά είναι πολύ ενδεικτικά μιας διάθεσης, κυρίως όσον άφορα κειμενικό περιεχόμενο από s, blogs ή online συζητήσεις. Τα χαρακτηριστικά αυτά, υπολογίστηκαν για κάθε μήνυμα και προστέθηκαν ως χαρακτηριστικά στο διάνυσμα αναπαράστασης του μηνύματος. Η ύπαρξη τους όχι μόνο ως λέξεις (unigrams), αλλά και ως ξεχωριστό σύνολο χαρακτηριστικών τους προσδίδει μεγαλύτερο βάρος κατά την ταξινόμηση. -90-

92 Αλγόριθμος Ταξινόμησης Ο αλγόριθμος ταξινόμησης που επιλέχθηκε ήταν ο Naïve Bayes με σκοπό να υπολογιστεί η υπο συνθήκη πιθανότητα ένα μήνυμα d να είναι μέλος μίας κλάσης c, όταν οι πιθανές κλάσεις ήταν οι «χαρούμενος», «λυπημένος» και «θυμωμένος». Μετά την εκπαίδευση ο έλεγχος και ο υπολογισμός της απόδοσης του ταξινομητή έγινε με μέθοδο cross validation. Πειράματα και Αποτελέσματα Για την αξιολόγηση της κατάλληλης επιλογής χαρακτηριστικών δημιουργήθηκαν δώδεκα ταξινομητές οι οποίοι εκπαιδεύτηκαν με διαφορετικά σύνολα χαρακτηριστικών. Κάθε ταξινομητής εκπαιδεύτηκε με το 95% των δεδομένων και η απόδοσή του υπολογίστηκε με το υπόλοιπο 5%. Στην παρακάτω εικόνα παρουσιάζονται τα αποτελέσματα των πειραμάτων ως προς την ακρίβεια (recall), ανάκληση (precision) και f-measure: Εικόνα 30: Ακρίβεια, ανάκληση και f-measure του συτήματος Οι όροι ακρίβεια (precision) και recall (ανάκληση) είναι πολύ διαδεδομένοι στην στατιστική ταξινόμηση και ορίζονται ως εξής: -91-

93 Εικόνα 31: Ορισμός των όρων ακρίβεια (precision) και recall (ανάκληση) Για παράδειγμα, στην περίπτωση ενός ταξινομήτη που λαμβάνει τη διαδική απόφαση για το αν ένα μήνυμα είναι χαρούμενο ή όχι ισχύουν τα εξής: Hit: To μήνυμα να ήταν χαρούμενο και να προβλέφθηκε ως χαρούμενο Miss: To μήνυμα να ήταν χαρούμενο και να μην προβλέφθηκε ως χαρούμενο False Alarm: To μήνυμα να ήταν μην ήταν χαρούμενο και να προβλέφθηκε ως χαρούμενο Correct Rejection: To μήνυμα να ήταν μην ήταν χαρούμενο και να προβλέφθηκε ως μη χαρούμενο Οι δύο όροι ανάκληση και ακρίβεια είναι αντιστρόφως ανάλογοι, οπότε συνήθως υπολογίζεται η ακρίβεια σε διάφορα επίπεδα ανάκλησης. Το μέτρο F είναι ενδεικτικό της ακρίβειας του συστήματος, ως συνάρτησης των recall και Precision λαμβάνοντας τιμές από 0 έως 1 και υπολογίζεται ως εξής: Από τα παραπάνω αποτελέσματα παρατηρήθηκε ότι η χρήση των προτεινόμενων νέων χαρακτηριστικών (slang, emoticons και λέξεων που εκφράζουν συναίσθημα) βελτίωσε την ακρίβεια του συστήματος. Μια ακόμη παρατήρηση είναι ότι οι ταξινομητές, με οποιοδήποτε σύνολο χαρακτηριστικών ως είσοδο, για το αν ένα μήνυμα εκφράζει μια χαρούμενη ψυχική διάθεση ή όχι είναι πιο ακριβείς. Αυτό μπορεί να αποδοθεί και στο γεγονός ότι η ψυχική διάθεση χαρούμενος είναι θετική εν αντιθέσει με τις λυπημένος και θυμωμένος και είναι πιο ευδιάκριτη ακόμα και από τους ανθρώπους. Ο τελικός ταξινομητής που χρησιμοποιήθηκε από το ESSE έλαβε υπόψη του όλα τα σύνολα χαρακτηριστικών (unigrams, bigrams, stems, emotion words, slang, emoticons) σταθμισμένα με βάρη. Αυτή η μέθοδος έδωσε μέσο F-Measure 0,

94 5.6 Οι κυριότερες εργασίες στο πεδίο της ανάκτησης αθροιστικής ψυχικής διάθεσης Στην ενότητα αυτή παρουσιάζονται οι εργασίες στο πεδίο της ανάκτησης αθροιστικής ψυχικής διάθεσης στη σφαίρα των blogs, συνήθως για κάποια δεδομένη χρονική περίοδο. Ακόμα παρουσιάζεται μεθοδολογία ανίχνευσης αιτιών ασυνήθιστων των αθροιστικών επίπεδων μιας διάθεσης Μια μέθοδος μέτρησης του μεγέθους της «ευτυχίας» βασισμένη σε κείμενα Η εργασία αυτή πραγματεύεται το πόσο ευδιάκριτη είναι η διαφορά της χαρούμενης ψυχικής διάθεσης από την λυπημένη μέσα από στο σύνολο των μηνυμάτων από blogs. Οι R. Mihalcea (2006) ερευνά αρχικά το πόσο ενδεικτικές και αξιόπιστες μπορούν να είναι οι επιλογές των χρηστών του LiveJournal σχετικά με το αν είναι λυπημένοι ή χαρούμενοι, κρίνοντας από το γλωσσικό περιεχόμενο των μηνυμάτων τους. Επίσης, μελετούν το πόσο μεγάλη ψυχική εφορία δηλώνουν οι πιο συνηθισμένες λέξεις σε ένα χαρούμενο μήνυμα. Για τη διευρένηση του πρώτου στόχου, εκπαιδεύτηκε ένας Naïve Bayes ταξινομητής με χαρακτηριστικά μόνο τις μεμονωμένες λέξεις του κειμένου (unigrams) και τα αποτελέσματά του αξιολογήθηκαν με τη μέθοδο five-cross-validation. Η ακρίβεια του τελικά ήταν 79.13% και αποδεικνύει ότι όντως ένα σύστημα μπορεί να μάθει να διαχωρίζει ικανοποιητικά τις δύο ψυχικές διαθέσεις με βάση τις δηλώσεις των συγγραφέων των μηνυμάτων. Στη συνέχεια δημιουργήθηκε μία λίστα με τις συχνότερα εμφανιζόμενες λέξεις στα μηνύματα που εκφράζουν χαρά. Η λίστα αυτή, που περιείχε 446 λέξεις και το μέγεθος της ευτυχίας που υποδηλώνει μια λέξη προέκυψε διαιρώντας τον αριθμό των εμφανίσεων μίας λέξης σε μηνύματα χαράς προς το συνολικό αριθμό εμφανίσεων της σε όλα τα κείμενα. Η σύγκριση αυτής της λίστας με τη λίστα ANEW, που έχει χρησιμοποιηθεί σε πολλές εργασίες εξόρυξης στάσης και ψυχικής διάθεσης, με τη χρήση της μεθόδου Pearson Correlation, κατέδειξε ότι το μέγεθος της ευτυχίας που εκφράζει μία λέξη σχετίζεται λίγο με την ευχαρίστηση (ρ=0.54) και την κυριαρχία (ρ=0.44) και ακόμη λιγότερο με τη διέγερση (r=-0.01), δηλαδή τις τρεις διαστάσεις του συναισθήματος κατά το μοντέλο PAD. -93-

95 Η διαφοροποίηση που προκύπτει ανάμεσα σε αυτή την εργασία και τη λίστα ANEW μπορεί να οφείλεται στο γεγονός ότι η λίστα έχει καταρτιστεί με επιστημονική πειραματική μεθοδολογία, ενώ τα μηνύματα του LiveJournal αντικατοπτρίζουν καταστάσεις του πραγματικού κόσμου. Έτσι για παράδειγμα ενώ η λέξη αγάπη στη λίστα ANEW βαθμολογείται ως προς την ευχαρίστηση με 87,2 στη λίστα της εργασίας R. Mihalcea βαθμολογείται ως προς το μέγεθος της ευτυχίας που αντιπροσωπεύει μόνο με 48,7 (πράγμα που σημαίνει ότι σχετίζεται περισσότερο με στεναχωρημένη ψυχική διάθεση) Αναγνώριση Επιπέδων καθολικής διάθεσης από μηνύματα σε blogs Κατά τους Mishne και de Rijke (2006), η φύση των blogs δίνει τη δυνατότητα να μπορεί να εκτιμηθεί συνολικά η συναισθηματική κατάσταση των bloggers για ένα συγκεκριμένο χρονικό διάστημα. Πολλά blogs λειτουργούν ως ένα διαδικτυακό ημερολόγιο, στο οποίο αποτυπώνονται οι ψυχικές και συναισθηματικές διαθέσεις των bloggers. Από τη συλλογή, λοιπόν, όλων αυτών των μηνυμάτων μπορεί να αποδοθεί μια συναισθηματική κατάσταση στη σφαίρα των blogs (blogosphere state-of-mind), η οποία παρουσιάζει έντονο ενδιαφέρον για κοινωνιολόγους, μαρκετίστες, πολιτικούς αναλυτές και ανθρώπους των μέσων. Λόγω αυτού του ενδιαφέροντος, δημιουργήθηκαν αλγόριθμοι, οι οποίοι εκτιμούν τη γενική συναισθηματική κατάσταση από μηνύματα σε blogs για μια δεδομένη χρονική περίοδο. Στόχος δεν είναι η ταξινόμηση της διάθεσης κάθε μηνύματος, αλλά η συνολική ένταση ενός συναισθήματος, όπως χαρούμενος ή κουρασμένος, όπως αυτή προκύπτει από το σύνολό τους. Έχοντας, λοιπόν, ένα σύνολο μηνυμάτων για ένα μεταβλητό χρονικό διάστημα και μια δεδομένη διάθεση (πχ λυπημένος), στόχος είναι η εύρεση του ποσοστού συμμετοχής της εν λόγω διάθεσης στα μηνύματα αυτά. Εντοπισμός Διάθεσης Η διαδικασία για τον εντοπισμό της διάθεσης στη σφαίρα των blog αποτελείται από δύο στάδια. Το πρώτο είναι η αναγνώριση των λεκτικών χαρακτηριστικών που μπορούν να χρησιμοποιηθούν για τον εντοπισμό της διάθεσης και το δεύτερο είναι η χρήση μοντέλων μάθησης για την εκτίμηση της έντασης των διαθέσεων σε μια ορισμένη χρονική στιγμή με βάση τα ανωτέρω χαρακτηριστικά. -94-

96 Στο πρώτο στάδιο στόχος είναι η εύρεση των κατάλληλων λέξεων, οι οποίες θα είναι ενδεικτικές συγκεκριμένων διαθέσεων. Για τον σκοπό αυτό χρησιμοποιείται η μέθοδος της συχνότητας των n-grams. Προκειμένου να επιτευχθεί αυτός ο στόχος συλλέγουμε κείμενα κάθε ένα από τα οποία έχει σημανθεί από τους συγγραφείς του. Χρησιμοποιώντας μεθόδους ποσοτικοποίησης της απόστασης των όρων, όπως το log likelihood, δίνεται η δυνατότητα εύρεσης των κατάλληλων προς τον σκοπό μας λέξεων. Τα συγκρινόμενα κείμενα κατηγοριοποιούνται σε αυτά που είναι ενδεικτικά μιας ορισμένης διάθεσης m και σε αυτά που είναι ενδεικτικά άλλων διαθέσεων. Για κάθε διάθεση διακρίνουμε δύο κατανομές. Η μία περιλαμβάνει την κατανομή των λέξεων στο κείμενο που περιλαμβάνει τη διάθεση m και η άλλη περιλαμβάνει την κατανομή των λέξεων που υπάρχουν στο άλλο κείμενο με τις άλλες διαθέσεις. Στη συνέχεια ταξινομούμε τις λέξεις του κειμένου με τη m διάθεση, σύμφωνα με το log likelihood της καθεμιάς, συγκρινόμενες με αυτές του άλλου κειμένου. Έτσι παίρνουμε μια ταξινομημένη λίστα χαρακτηριστικών όρων της διάθεσης m. Η διαδικασία επαναλαμβάνεται για όλες τις διαθέσεις και έτσι αποκτούμε ένα σύνολο διακριτών χαρακτηριστικών για κάθε διάθεση. Σε δεύτερη φάση στόχος είναι η μοντελοποίηση των διαθέσεων με βάση τους χαρακτηριστικούς όρους που εξήχθησαν στο προηγούμενο στάδιο. Για το σκοπό αυτό ομαδοποιούμε τα μηνύματα που δημοσιεύθηκαν σε μια ορισμένη χρονική περίοδο και αθροίζουμε το πλήθος των μηνυμάτων που περιλαμβάνουν τη διάθεση m, καθώς και τα μηνύματα που περιλαμβάνουν τους χαρακτηριστικούς όρους που υποδηλώνουν αυτή τη διάθεση. Από το σύνολο αυτό κατασκευάζουμε στιγμιότυπα εκπαίδευσης για κάθε διάθεση m, με τα οποία τροφοδοτούμε τον αλγόριθμο μηχανικής μάθησης, ο οποίος μετά από δοκιμές επιλέχθηκε να είναι ο Pace Regression(Wang and Witten,1999). O Pace Regression είναι είδος γραμμικής παλινδρόμησης, αλλά είναι καταλληλότερος για μεγάλα σύνολα δεδομένων, τα οποία είναι αμοιβαία εξαρτώμενα. Το μοντέλο για τον καθορισμό της διάθεσης m είναι ένας γραμμικός συνδυασμός των χαρακτηριστικών του με την ακόλουθη μορφή : όπου ti είναι οι χαρακτηριστικοί όροι και ai οι υπολογιζόμενες από την παλινδρόμηση τιμές. -95-

97 Δεδομένα Παλινδρόμησης Στη συγκεκριμένη έρευνα τα στοιχεία πάρθηκαν από το LiveJournal για ένα διάστημα 39 ημερών. Το σύνολο των μηνυμάτων φτάνει τα 8.1 εκατομμύρια (2.2GB κειμένου) από τα οποία τα 3.5 εκατομμύρια περιλαμβάνουν κάποια ένδειξη της διάθεσης του συγγραφέα. Επιλογή χαρακτηριστικών Από όλο το δείγμα των 39 ημερών, οι 7 ημέρες χρησιμοποιήθηκαν για την εξαγωγή των χαρακτηριστικών όρων, όπως αυτοί περιγράφηκαν προηγουμένως. Οι όροι που επιλέχθηκαν τελικά αποτελούνται από τις δημοφιλέστερες μονές και διπλές λέξεις που βρίσκονταν στο top-10 της ταξινομημένης λίστας, όπως αυτή προέκυψε από το log likelihood για κάθε διάθεση. Η τελική λίστα με τα χαρακτηριστικά αποτελείται από 199 όρους. Ένα ενδεικτικό παράδειγμα παρουσιάζεται στον παρακάτω πίνακα : Εικόνα 32: Παραδείγματα κάποιων χαρακτηριστικών όρων για κάθε διάθεση Τα μηνύματα αυτών των 7 ημερών δεν επαναχρησιμοποιήθηκαν στο πείραμα. Τα μηνύματα των υπόλοιπων 32 ημερών χρησιμοποιήθηκαν για τη δημιουργία των μοντέλων και τον έλεγχο της απόδοσής τους. Για κάθε ώρα της ημέρας συγκεντρώθηκαν τα μηνύματα που δημοσιεύτηκαν με αποτέλεσμα να συγκεντρωθούν 768 στιγμιότυπα. Αυτά τα στιγμιότυπα χρησιμοποιήθηκαν για να εκτελέσουν ένα 10fold cross-validation run. Μελέτη Περίπτωσης Στις 7 Ιουλίου του 2005 το Λονδίνο δέχτηκε τρομοκρατικό χτύπημα με δεκάδες νεκρούς και εκατοντάδες τραυματίες. Η επίδραση της επίθεσης ήταν έντονη στους bloggers μιας και το θέμα έλαβε μεγάλες διαστάσεις στον τύπο. Το ποσοστό αυτών που η διάθεσή τους ήταν λυπημένος και σοκαρισμένος ανέβηκε κατακόρυφα μετά την επίθεση. Αντιθέτως, διαθέσεις όπως απασχολημένος ή χαρούμενος σημείωσαν πτώση σε σχέση με τους μέσους όρους. Το μοντέλο, όμως, που χρησιμοποιήθηκε δεν μπόρεσε να προβλέψει αυτή τη μεταβολή, όπως φαίνεται στο παρακάτω διάγραμμα, μιας και λέξεις που -96-

98 χρησιμοποιήθηκαν για να εκφράσουν τη λύπη, όπως βόμβα, τρόμος, Al Qaeda δεν βρίσκονταν στους χαρακτηριστικούς όρους. Έγινε, λοιπόν, η υπόθεση πως αν τοποθετούνταν στη μέθοδο εκτίμησης οι κατάλληλες λέξεις, τα αποτελέσματα θα ήταν διαφορετικά. Για το σκοπό αυτό, προστέθηκαν οι λέξεις επίθεση και βόμβα στους χαρακτηριστικούς όρους και μετακινήθηκαν δύο στιγμιότυπα από τα δεδομένα ελέγχου στα δεδομένα εκπαίδευσης. Στη συνέχεια, επαναλήφθηκε η διαδικασία εκτίμησης, της οποίας τα αποτελέσματα φαίνονται στο παρακάτω διάγραμμα. Εικόνα 33: Διάγραμμα αναπαράστασης της διάθεσης MAD Αποδεικνύεται, λοιπόν, ότι είναι σημαντική η τροποποίηση των δεδομένων εκπαίδευσης με βάση άρθρα εφημερίδων, ειδήσεις και γενικότερο λεξιλόγιο που χρησιμοποιείται μια δεδομένη περίοδο. Επίσης, αν η εκτίμηση της διάθεσης ενός μεμονωμένου μηνύματος είναι πολύ δύσκολη, η εξαγωγή συμπεράσματος για τη γενικότερη διάθεση στη σφαίρα των blogs είναι κατά πολύ ευκολότερη και μπορεί να είναι και αρκετά ακριβής. Διαδικτυακή Εφαρμογή MoodViews Με βάση το μαθηματικό μοντέλο της εργασίας δημιουργήθηκε από τους ερευνητές διαδικτυακή εφαρμογή για τον εντοπισμό της αθροιστικής διάθεσης στη σφαίρα των blogs.3 3 Βρίσκεται στη διεύθυνση

99 5.6.3 Αναγνωρίζοντας και εξηγώντας «κορυφές» στα επίπεδα ψυχικής διάθεσης στα blogs Στόχος των Krisztian Balog, Gilad Mishne και Maarten de Rijke (2007) σε αυτή την έρευνα είναι η αναζήτηση αλγορίθμων, οι οποίοι να μπορούν να αναγνωρίζουν ασυνήθιστες μεταπτώσεις στη συναισθηματική διάθεση των bloggers, αλλά και να μπορούν να ερμηνεύσουν τις αιτίες αυτής της απροσδόκητης αλλαγής. Λέγοντας να ερμηνεύσουν, εννοείται o εντοπισμός ενός μικρού αποσπάσματος ή κάποιων λέξεων που περιγράφει το γεγονός που προκάλεσε αυτή τη συμπεριφορά. Η συλλογιστική των συγγραφέων περιγράφεται ως εξής: Αν υπάρχουν ασυνήθιστες κορυφές σε μια ψυχική διάθεση m εξετάζουμε το λεξιλόγιο που χρησιμοποιήθηκε στα μηνύματα κατά την περίοδο που εμφανίστηκε η κορυφή, τα οποία εμπεριείχαν αυτή τη διάθεση. Καταγράφουμε τις ασυνήθιστες λέξεις ως σημάδια για την κορυφή της διάθεσης m. Για να χρησιμοποιήσουμε την έννοια των ασυνήθιστων λέξεων χρησιμοποιούνται μέθοδοι για σύγκριση κειμένων. Μόλις αναγνωριστούν οι ασυνήθιστες λέξεις, τις χρησιμοποιούμε για να συμβουλευτούμε κάποιο ειδησεογραφικό κείμενο, από το οποίο θα αποσπάσουμε ένα μικρό κείμενο, το οποίο θα επιστραφεί ως η πιθανή επεξήγηση του φαινομένου. Αναγνωρίζοντας κορυφές Πρώτο μέλημα είναι η εύρεση των κορυφών των διαθέσεων από τα μηνύματα των χρηστών σε blog. Πολλές διαθέσεις παρουσιάζουν κυκλική συμπεριφορά. Υπάρχουν κάποιες προφανείς διαθέσεις, οι οποίες έχουν ημερήσιο κύκλο. Για παράδειγμα, οι άνθρωποι αισθάνονται ξεκούραστοι το πρωί και κουρασμένοι τα απογεύματα. Άλλες διαθέσεις έχουν εβδομαδιαίο κύκλο. Παρατηρείται πχ ότι οι άνθρωποι πίνουν περισσότερο τα Σαββατοκύριακα. Μία κορυφή φαίνεται στην παρακάτω εικόνα: Εικόνα 34: Κορυφή της διάθεσης exited από την κυκλοφορία του βιβλίου Harry Potter -98-

100 Η ιδέα της αναγνώρισης των κορυφών βρίσκεται ακριβώς στην κυκλικότητα που παρουσιάζουν κάποιες διαθέσεις. Έστω ότι POSTS(mood,date,hour) είναι το πλήθος των μηνυμάτων στα οποία αποδόθηκε η διάθεση mood και τα οποία δημοσιεύθηκαν μια συγκεκριμένη ώρα (hour) μιας ημέρας(date). Ομοίως, ALLPOSTS (date, hour) είναι όλα τα μηνύματα που δημοσιεύτηκαν την ίδια ώρα μιας ημέρας. Η αναλογία των μηνυμάτων με μια δοσμένη διάθεση mood ως προς όλα τα μηνύματα που δημοσιεύθηκαν για όλες τις ημέρες μιας εβδομάδας θα μπορούσε να εκφραστεί ως εξής: R(mood, day, hour) = DW ( date ) = day POSTS (mood, date, hour ) DW ( date ) = day ALLPOSTS (date, hour ), όπου day = 0,,6 και DW(date) είναι μια συνάρτηση που επιστρέφει 0 έως 6 ανάλογα με την παράμετρο date. Τα επίπεδα μιας διάθεσης στο ορισμένο διάστημα μιας ώρας αλλάζουν αν η αναλογία των μηνυμάτων με τη συγκεκριμένη διάθεση ως προς το σύνολο των μηνυμάτων που δημοσιεύθηκαν στο εν λόγω χρονικό διάστημα είναι σημαντικά διαφορετικότερος από την παρατηρημένη αναλογία στην ίδια ώρα την ίδια ημέρα της εβδομάδας. Δηλαδή, POSTS (mood, date, hour ) D(mood, date, hour) = ALLPOSTS (date, hour ) R(mood, DW (date), hour ) Αν η απόλυτη τιμή του D ( D ) βγαίνει εκτός κάποιων προκαθορισμένων ορίων, τότε υπάρχει κάποια κορυφή, ενώ το πρόσημο του D καθορίζει το αν η κορυφή ήταν θετική ή αρνητική. Η απόλυτη τιμή του D μας δίνει το μέγεθος της κορυφής. Με τη μέθοδο αυτή μπορεί να γίνει έλεγχος και για χρονικό διάστημα μερικών ωρών, το οποίο συνιστά παράγοντα κανονικοποίησης. Εξηγώντας τις κορυφές Το επόμενο βήμα είναι η επεξήγηση της ύπαρξης κορυφών που αναγνωρίστηκαν με την προηγούμενη μεθοδολογία. Η διαδικασία αυτή χωρίζεται σε δύο στάδια. Πρώτο βήμα είναι η ανακάλυψη των χαρακτηριστικών τα οποία παρουσιάζουν μια σημαντικά διαφορετικότερη χρήση της γλώσσας από αυτά τα οποία συναντώνται στη γενική χρήση της γλώσσας που συνδέεται με τη συγκεκριμένη διάθεση. Σαν δεύτερο βήμα δημιουργούνται ερωτήματα χρησιμοποιώντας τις ασυνήθιστες λέξεις καθώς και τις -99-

101 ημερομηνίες που εμφανίστηκαν οι κορυφές και τα τρέχουμε σε ένα ειδησεογραφικό κείμενο. Πολυχρησιμοποιούμενες Λέξεις Για την ανακάλυψη των λόγων της αλλαγής μιας διάθεσης χρησιμοποιούνται λεξιλογικές τεχνικές που αναγνωρίζουν τις αλλαγές στη χρήση της γλώσσας. Συγκρίνονται δύο κείμενα, το πλήρες σύνολο των μηνυμάτων του blog, το οποίο αναφέρεται ως το κυρίως κείμενο (standard corpus) και ένα κείμενο το οποίο σχετίζεται με το χρονικό διάστημα που παρουσιάστηκε η κορυφή, το οποίο αναφέρεται ως κείμενο δείγμα (sample corpus). Για τη σύγκριση της συχνότητας των λέξεων μεταξύ δύο διαφορετικών κειμένων χρησιμοποιείται ο στατιστικός έλεγχος log-likelihood (Dunning, 1993). Έστω ότι παρατηρημένη E i = (N i i συχνότητα O ln( i ενός O )) / N E i i i όρου, N i η συνολική συχνότητα O i η και η αναμενόμενη συχνότητα στο κείμενο i (το i παίρνει i τις τιμές 1 και 2 για το κυρίως κείμενο και το κείμενο δείγμα αντίστοιχα). Στη συνέχεια η πιθανότητα log-likelihood υπολογίζεται ως ακολούθως : -2lnλ = 2 i O ln( i O ). E i i Δεδομένων της αρχικής και τελικής ημερομηνίας, όπου έκανε την εμφάνισή της μια κορυφή, και μιας λίστας υπερχρησιμοποιούμενων λέξεων για αυτή την περίοδο δημιουργείται ένα ερώτημα. Το ερώτημα αυτό χρησιμοποιείται στη συνέχεια σε τίτλους ειδησεογραφικών κειμένων. Ο τίτλος ανακτάται σε περίπτωση που εμπεριέχει τουλάχιστον μια από τις παραπάνω λέξεις και χρονολογείται λίγο πριν την έναρξη της κορυφής. Οι επιτυχημένοι τίτλοι ταξινομούνται με βάση το πλήθος των χαρακτηριστικών λέξεων που περιέχουν. Πειράματα Το κυρίως κείμενο αποτελείται από όλα τα μηνύματα που δημοσιεύθηκαν στο LiveJournal σε διάστημα 90 ημερών από τις 5 Ιουλίου του 2005 έως τις 2 Οκτωβρίου του Το σύνολο των μηνυμάτων αγγίζει τα 19 εκατομμύρια και για κάθε καταχώρηση το κείμενο του μηνύματος μαζί με την ημερομηνία και την ώρα -100-

102 δημοσίευσης είναι δεικτοδοτημένο. Εφαρμόστηκαν συγκεκριμένες μέθοδοι προεπεξεργασίας (αφαίρεση συνδέσμων, stemming). Το ειδησεογραφικό κείμενο αποτελείται από 1000 τίτλους ειδήσεων που δημοσιεύθηκαν στο WikiNews 4 κατά την περίοδο Ιουλίου Σεπτεμβρίου Στη συνέχεια παρουσιάζονται τρεις περιπτώσεις, όπου παρατηρήθηκε μια ακανόνιστη συμπεριφορά σε συγκεκριμένες διαθέσεις. Harry Potter Τον Ιούλιο του 2005 εμφανίστηκε έξαρση της διάθεσης ενθουσιασμένος. Το πρώτο βήμα της μεθόδου που αναλύθηκε προηγουμένως επέστρεψε μια σειρά από χαρακτηριστικές λέξεις, όπως potter, book, excited, hbp, read, princ, midnight. Στο δεύτερο βήμα η χρήση αυτών των λέξεων επέστρεψε τον ακόλουθο τίτλο : «July 16. Harry Potter and the Half-Blood Prince released.». Τυφώνας «Κατρίνα» Αυτό το παράδειγμα επισημαίνει την προσοχή που πρέπει να δίνεται στον καθορισμό των ορίων για τον ορισμό μιας κορυφής. Διαπιστώθηκαν κορυφές για το συναίσθημα «ανήσυχος» περί τα τέλη του Αυγούστου με όριο 40 80%. Οι κορυφές είναι πολύ περισσότερες με το χαμηλότερο όριο, ενώ με το μεγαλύτερο είναι λιγότερες, αλλά πιο ευδιάκριτες, όπως φαίνεται και στα παρακάτω διαγράμματα. Οι χαρακτηριστικές λέξεις που εμφανίζονται είναι hurricane, catrina, gas, Orleans κτλ. Από αυτές τις λέξεις προέκυψαν τίτλοι σχετικοί με τον τυφώνα «Κατρίνα». Τρομοκρατική επίθεση στο Λονδίνο Στις 7 Ιουλίου παρατηρήθηκε μια οξεία αύξηση του συναισθήματος «λυπημένος». Το γεγονός αποδείχτηκε ότι σχετίζεται με το τρομοκρατικό χτύπημα που έλαβε χώρα στο Λονδίνο εκείνη την ημέρα. Συμπεράσματα Διαπιστώθηκε ότι η μέθοδος εύρεσης κορυφών, αν και αρκετά απλοϊκή, είναι αρκετά αποτελεσματική. Επίσης, η προσέγγιση που ακολουθείται για την εύρεση της αιτίας της ύπαρξης κορυφής είναι εξίσου αποτελεσματική. Παρ όλα αυτά πρέπει να τονιστεί ότι δεν μπορεί να είναι αποτελεσματική για γεγονότα, τα οποία δε σχετίζονται με την ειδησεογραφία, μιας και οι πηγές που χρησιμοποιούνται για την εύρεση της αιτίας δεν καλύπτουν γεγονότα όπως γιορτές ή διακοπές που συνιστούν παράγοντες μεταβολής συγκεκριμένων διαθέσεων

103 Αναζήτηση αθροιστικής ψυχικής διάθεσης δεδομένων λέξεων κλειδιών Η εργασία με τίτλο «How to overcome Tiredness» των Balog και de Rijke (2007), έχει ως στόχο τη συσχέτιση της διάθεσης με κάποιο συγκεκριμένο θέμα χρησιμοποιώντας μηνύματα από blogs. Για την επίτευξη αυτού του στόχου, υπάρχει μια απλή προσέγγιση. Για ένα θέμα t αριθμούμε όλα τα μηνύματα στα οποία έχει καταγραφεί η διάθεση του συγγραφέα και βλέπουμε τη συχνότητα εμφάνισης των διαθέσεων για ορισμένη χρονική περίοδο. Τέλος, επιλέγουμε τις διαθέσεις που είχαν τη μεγαλύτερη συχνότητα εμφάνισης. Χρησιμοποιώντας αυτή την απλουστευμένη μέθοδο, υπάρχει το εξής πρόβλημα: η πιο συχνά εμφανιζόμενη διάθεση δεν είναι απαραίτητα και η πιο κατάλληλη με το κάθε θέμα. Σύμφωνα με διάφορα case studies ασχέτως του θέματος η πιο συχνά εμφανιζόμενη διάθεση είναι η κούραση! Για την εξάλειψη του προβλήματος της κούρασης προτείνονται τρία διαφορετικά μοντέλα. Ανάλυση Μοντέλων Η μοντελοποίηση του προβλήματος της συσχέτισης της διάθεσης με ένα θέμα έχει ως εξής : Ποια είναι η πιθανότητα μιας διάθεσης m να συσχετίζεται με το θέμα q; Καθορίζουμε την πιθανότητα p(m q) και ταξινομούμε τις διαθέσεις m σύμφωνα με αυτή. Οι top k διαθέσεις τείνουν να είναι οι πλέον συσχετιζόμενες με το θέμα. Αντί να γίνει αυτός ο υπολογισμός αυτόματα, εφαρμόζουμε το θεώρημα του Bayes και έχουμε : p (m q ) = p ( q m) p ( m) p (q ) (1), όπου p (m) η πιθανότητα εμφάνισης της διάθεσης και p (q ) η πιθανότητα εμφάνισης του θέματος. Κατόπιν αυτών, στόχος είναι ο προσδιορισμός της πιθανότητας εμφάνισης του θέματος q δεδομένης μιας διάθεσης m. 1ο Μοντέλο : Μοντέλο διάθεσης (Mood Model) Μια διάθεση m απεικονίζεται ως μια πολυωνυμική πιθανότητα διασποράς μεταξύ των όρων του λεξιλογίου(πχ p(t m)). Επειδή το p(t m) μπορεί να περιέχει μηδενικές πιθανότητες χρειαζόμαστε μια μέθοδο εξομάλυνσης. Για το σκοπό αυτό εισάγουμε ένα μοντέλο διάθεσης θm τέτοιο ώστε η πιθανότητα εμφάνισης ενός όρου δεδομένου του μοντέλου διάθεσης να είναι p(t θm). Έτσι μπορούμε να υπολογίσουμε την πιθανότητα ενός θέματος που παράγεται από το μοντέλο διάθεσης. Η πιθανότητα αυτή -102-

104 υπολογίζεται παίρνοντας το γινόμενο όλων των όρων στο θέμα. Έτσι έχουμε p (q θ m) = t q p(t θ m) (2) Για να εκτιμήσουμε το είναι p(t θm) κατασκευάζουμε ένα εμπειρικό μοντέλο p(t m) και στη συνέχεια εξομαλύνουμε p (t θ m ) = (1 λ ) d Dm το αποτέλεσμα με την πιθανότητα p (t d ) + λ p (t ), όπου Dm το σύνολο των μηνυμάτων που περιέχουν τη διάθεση m, p(t d) η μεγαλύτερη πιθανότητα εκτίμησης του όρου και p(t) το υποβόσκων μοντέλο. Αν συνδυάσουμε τα παραπάνω ευλόγως καταλήγουμε στον ακόλουθο τύπο : p(q θ m) = t q {(1 λ ) d p (t d ) + lp(t )} (3). Το μοντέλο αυτό συγκεντρώνει όλους τους όρους από τα μηνύματα των χρηστών που έχουν δηλωμένη διάθεση και τους χρησιμοποιεί για να την αποτυπώσει. Το μοντέλο χρησιμοποιείται για να προβλέψει πόσο πιθανό είναι μια διάθεση να παράγει ένα θέμα q. 2ο Μοντέλο : Μοντέλο μηνύματος (Post Model) Στο δεύτερο μοντέλο επιλέγουμε πρώτα τα μηνύματα που περιγράφουν καλύτερα το υπό διερεύνηση θέμα και στη συνέχεια κοιτάμε τις διαθέσεις που είναι πιο έντονα συσχετιζόμενες με τα επιλεγμένα μηνύματα. Το θέμα και οι διαθέσεις θεωρούνται ασυσχέτιστα και για το λόγο αυτό χρησιμοποιούμε τα μηνύματα ως συνδετικό κρίκο. p(q m) = d p(q θ d ) Dm (4), όπου Dm το σύνολο των μηνυμάτων που περιλαμβάνουν τη διάθεση m. Για να πάρουμε την πιθανότητα εμφάνισης ενός θέματος δεδομένου του μηνύματος (πχ p(q θd)) χρησιμοποιούμε μια συγκεκριμένη προσέγγιση μοντελοποίησης γλώσσας : p(q θ d ) = t q p (t θ d ) (5), όπου p (t θ d ) = (1 λ ) p (t d ) + λ p (t ) (6), όπου p(t d) η μεγαλύτερη πιθανότητα εμφάνισης του όρου και p(t) το υποβόσκων μοντέλο. Αν χρησιμοποιήσουμε τους παραπάνω τύπους καταλήγουμε στον ακόλουθο : p ( q m) = d Dm { t q ((1 λ ) p (t d ) + λ p(t ))} (7) -103-

105 Σε αυτό το μοντέλο, δεδομένης μιας συλλογής μηνυμάτων ταξινομημένων σύμφωνα με τη θεματολογία, εξετάζουμε κάθε μήνυμα και αν είναι σχετικό, εξετάζουμε και τη διάθεση που αναφέρεται. 3ο Μοντέλο : Μοντέλο Θεματολογίας (Topic Model) Στο μοντέλο αυτό δημιουργούμε ένα μοντέλο θεματολογίας για να αναπαραστήσουμε το ερώτημα. Δεδομένης μιας συλλογής μηνυμάτων από blogs και ενός θέματος υπό διερεύνηση q υποθέτουμε ότι υπάρχει ένα άγνωστο μοντέλο θεματολογίας θk που αναθέτει πιθανότητες p(t θk) στην εμφάνιση των όρων στα μηνύματα. Τόσο το ερώτημα όσο και τα μηνύματα γίνεται δειγματοληψία από το θk. Ο κύριος στόχος είναι ο υπολογισμός της πιθανότητας ενός όρου δεδομένου του μοντέλου θεματολογίας p(t θk). Οι Lavrenko και Croft προτείνουν έναν τρόπο υπολογισμού για αυτή την περίπτωση. p(t θ k ) p(t q) = p(t, q, q,...,q ) 1 2 m p(q, q,...q ) 1 2 p (t, q, q,..., q ) 1 ' = 2 m t p(t, q, q,..., q ' m 1 2 m ) (8) Για να υπολογίσουμε τη σύνθετη πιθανότητα p(t,q1,q2,, qm) ακολουθούμε τον τύπο (3) και υποθέτουμε ότι τα t,q1,q2,, qm είναι ανεξάρτητα μεταξύ τους μόλις επιλέξουμε μια κύρια κατανομή από ένα σύνολο κατανομών U. Αν υποθέσουμε ότι το U είναι το σύνολο των μηνυμάτων του blog έχουμε : p(t,q1,q2,, qm) = d U p( d ){ p(t θ d ) m i= 1 p(q θ d )} (9) i, όπου το p(d) δηλώνει μια προηγούμενη κατανομή στο σύνολο U, το p(t θd) καθορίζει την πιθανότητα να επιλεγεί το t αν πάρουμε έναν τυχαίο όρο από το μήνυμα d. Προκειμένου να ταξινομήσουμε τις διαθέσεις σύμφωνα με αυτό το μοντέλο χρησιμοποιούμε την KL- απόκλιση για να μετρήσουμε τις διαφορές μεταξύ του μοντέλου διάθεσης και του μοντέλου θεματολογίας. Διαθέσεις με μικρότερη απόκλιση από το μοντέλο θεματολογίας είναι πιο πιθανό να σχετίζονται με το θέμα. KL(θk θm) = t p(t θ k ) log p (t θ k ) p (t θ m) (10) Σύγκριση των μοντέλων Για τη σύγκριση των παραπάνω μοντέλων οι ερευνητές παραθέτουν στην εργασία τους δύο διαφορετικές μελέτες περίπτωσης. Στη μία περίπτωση εξετάζεται ένα σημαντικό γεγονός, ενώ στην άλλη εξετάζεται ένα θέμα το οποίο δεν συνιστά σημαντικό γεγονός

106 Η παρακάτω εικόνα παρουσιάζει το υπόμνημα διαθέσεων που χρησιμοποιείται στην εργασία: Εικόνα 35: Υπόμνημα Διαθέσεων Θέμα Ψώνια Στο υπό εξέταση θέμα ψώνια για την χρονική περίοδο του Νοεμβρίου του 2006, όπου δεν έλαβε χώρα κάποιο σημαντικό γεγονός, το πρώτο μοντέλο έφερνε για κάθε μέρα τυχαίες διαθέσεις. Το δεύτερο μοντέλο επέστρεψε τα αναμενόμενα αποτελέσματα, δηλαδή διαθέσεις που σχετίζονται με τη χαρά και την ευτυχία, αλλά παρ όλα αυτά η κούραση είναι παρούσα ως επικρατούσα διάθεση, ενώ το τρίτο μοντέλο επιστρέφει ως πρώτη διάθεση την κούραση και σε δεύτερη και τρίτη θέση τα συναισθήματα ικανοποίηση, χαρά κτλ, όπως φαίνεται και στην εικόνα που ακολουθεί: Εικόνα 36: Επικρατέστερες Διαθέσεις στο υπό εξέταση θέμα ψώνια Θέμα ipod Αυτή είναι μια ακόμη περίπτωση μη σημαντικού γεγονότος, όπου είναι δύσκολο να γίνουν προβλέψεις για προσδοκώμενες διαθέσεις. Σε αυτή την περίπτωση το πρώτο και δεύτερο μοντέλο επέστρεφαν διαφορετικές κάθε μέρα διαθέσεις, σε αντίθεση με το -105-

107 τρίτο μοντέλο, το οποίο και πάλι επέστρεφε σταθερά πρώτο το συναίσθημα της κούρασης. Θέμα Ημέρα των ευχαριστιών : Εδώ έχουμε την περίπτωση ενός σημαντικού γεγονότος, στο οποίο αναμένεται αυξημένη η διάθεση της ευγνωμοσύνης, της χαράς και άλλων θετικών συναισθημάτων λίγες μέρες πριν και μετά την ημέρα των ευχαριστιών. Σε αυτή την περίπτωση και τα τρία μοντέλα ανταποκρίθηκαν, όπως αναμενόταν. Θέμα Steven Irvin : Πρόκειται για την περίπτωση του «Κροκοδειλάκια», του Αυστραλού ηθοποιού, ο οποίος σκοτώθηκε στις 4 Απριλίου του 2006 σε ένα φρικτό ατύχημα. Σε αυτή την περίπτωση αναμένουμε θετικά συναισθήματα μέχρι και τις 4 Απριλίου, ενώ μετά αναμένονται πιο δυσάρεστα συναισθήματα όπως λύπη, θρήνος, στενοχώρια κτλ. Σε αυτή την περίπτωση τα μοντέλα 2 και 3 επέστρεψαν σωστά τις διαθέσεις σε αντίθεση με το πρώτο, το οποίο πάλι επέστρεφε τυχαίες διαθέσεις. Να σημειωθεί ότι το τρίτο μοντέλο πάλι επέστρεφε ως κύρια διάθεση την κούραση πριν το τραγικό συμβάν. Από τα παραπάνω προκύπτει ότι στην περίπτωση μη σημαντικών γεγονότων το πρώτο μοντέλο επιστρέφει τυχαίες διαθέσεις. Το δεύτερο επιστρέφει συχνά εμφανιζόμενες διαθέσεις, το οποίο είναι κοντά στις προσδοκίες μας, ενώ το τρίτο επιστρέφει τις συχνότερα εμφανιζόμενες διαθέσεις (κυρίως κουρασμένος). Τα μοντέλα 1 και 2 αποτυγχάνουν κυρίως λόγω έλλειψης ταυτόσημης απόδοσης διάθεσης σε ικανό αριθμό μηνυμάτων, ενώ το τρίτο αποτυγχάνει όταν η κατανομή του θέματος είναι συναφής με τα κυρίαρχα συναισθήματα. Στην περίπτωση ενός σημαντικού γεγονότος όλα τα μοντέλα έχουν την αναμενόμενη συμπεριφορά. Αν θέλουμε να επιλέξουμε κάποιο από τα τρία μοντέλα, θα καταλήξουμε στο τρίτο μιας και η θεματολογία εκφράζεται σαφέστερα υπό την έννοια της κατανομής των όρων. Σε γενικές γραμμές, σε περίπτωση ενός μη σημαντικού γεγονότος είναι δύσκολο να αποτυπωθεί η διάθεση των συγγραφέων. Αντιθέτως, αν υπάρχει κάποιο σημαντικό γεγονός είναι εύκολο να καταλάβουμε τις κυρίαρχες διαθέσεις. Παρ όλα αυτά, αν και το τρίτο μοντέλο είναι πιο ακριβές, το υπολογιστικό κόστος είναι αρκετά μεγάλο μιας και υπολογίζει την απόκλιση μεταξύ των μοντέλων διάθεσης και των μοντέλων θεματολογίας. Το μοντέλο θεματολογίας δεν μπορεί να προϋπολογιστεί, καθώς πρέπει πρώτα ο χρήστης να δώσει το ερώτημα. Αντιθέτως, το δεύτερο μοντέλο είναι πολύ ελκυστικότερο μιας και είναι πολύ εύκολο να υλοποιηθεί -106-

108 πάνω σε μια μηχανή αναζήτησης blogs. Λαμβάνοντας υπόψη και αυτό το χαρακτηριστικό, οι συγγραφείς καταλήγουν ότι το δεύτερο μοντέλο φαίνεται ως η καλύτερη επιλογή

109 6 Πειράματα Εξόρυξης Ψυχικής Διάθεσης Στο κεφάλαιο αυτό παρουσιάζεται βήμα προς βήμα η μεθοδολογία που ακολουθήθηκε κατά τον πειραματισμό με δεδομένα από blogs με σκοπό την εξόρυξη ψυχικής διάθεσης. Περιγράφεται αναλυτικά το στάδιο της συλλογής και προεπεξεργασίας των δεδομένων. Επίσης, γίνεται λόγος για τη μοντελοποίηση αυτών με τη χρήση δημοφιλών στη βιβλιογραφία κατηγοριών χαρακτηριστικών μοντελοποίησης κειμένων. Ακόμη περιγράφονται τα πειράματα ταξινόμησης που έγιναν πάντα με τον αλγόριθμο LibLinear και πάντα πάνω στον ίδιο όγκο κειμένων, αλλά μοντελοποιημένων κάθε φορά με διαφορετικό σύνολο χαρακτηριστικών, με σκοπό τη διερεύνηση των καταλληλότερων κατηγοριών μοντελοποίησης κειμένων στο πεδίο της εξόρυξης ψυχικής διάθεσης από blogs. 6.1 Προεπεξεργασία Δεδομένων Δεδομένα Εκπαίδευσης Το δεδομένα εκπαίδευσης που χρησιμοποιήθηκε για αυτή την εργασία, προήλθαν από το ίδιο αρχείο δεδομένων που χρησιμοποιήθηκε στην εργασία του Mishne (2006). Τα δεδομένα εκπαίδευσης και η μέτρηση της απόδοσης των ταξινομητών έγινε με τη μέθοδο 10 Fold Validation. Το αρχικό σώμα του κειμένου που συλλέχθηκε από διαφορετικά blogs περιείχε μηνύματα. Το αρχικό αρχείο κειμένου είχε μέγεθος 1,57 GB και συγκροτήθηκε από πληροφορία που προήλθε από RSS-Feeds πολλών καναλιών του LiveJournal, χρησιμοποιώντας το Yahoo Api για τη συλλογή τους. Η αρχική δομή του Xml αρχείου δεδομένων φαίνεται στην παρακάτω εικόνα: -108-

110 Εικόνα 37: Μορφή του αρχικού xml αρχείου δεδομένων Κάθε ετικέτα <item> του αρχείου αντιστοιχεί και σε ένα μήνυμα, για το οποίο ο ίδιος ο χρήστης μπορεί να έχει καταγράψει και τη διάθεσή του, επιλέγοντας από ένα σύνολο 132 διαθέσεων ή περιγράφοντας με μία λέξη ή φράση τη διάθεσή του. Δυστυχώς, μόνο τα από τα μηνύματα, περιέχουν την ετικέτα <lj:mood>, δηλαδή διάθεση. Επίσης, η κατανομή των διαθέσεων στο σώμα αυτό ακολουθεί την κατανομή Power Low, πολλές διακριτές διαθέσεις εμφανίζονταν μόνο μία φορά και λίγο λιγότερες δύο φορές. Τελικά, στα πειράματα, επειδή έπρεπε να εξασφαλιστεί σημαντικός αριθμός στιγμιότυπων για κάθε διάθεση, επιλέχθηκε συγκεκριμένο μοντέλο αναπαράστασης του ανθρώπινου συναισθήματος, το οποίο διακρίνει την ψυχική διάθεση στις κατηγορίες χαρούμενη, λυπημένη, θυμωμένη. Για τη δημιουργία του μοντέλου χρησιμοποιήθηκε η προτεινόμενη, από τους Sood et al. (2009), ομαδοποίηση διαθέσεων του LiveJournal. Είναι σκόπιμο να αναφερθεί εδώ, ότι οι διαθέσεις στο LiveJournal αν και είναι διακριτές δεν είναι σαφώς ορισμένες και όπως διαπιστώθηκε και σε άλλες εργασίες επικαλύπτονται (π.χ. bitchy και angry). Επίσης, αν και υπάρχει προτεινόμενη ιεράρχηση διαθέσεων, οι χρήστες σπανίως τις χρησιμοποιούν κατά την προτεινόμενη ιεραρχία.5. Τέλος, υπάρχουν προτεινόμενες διαθέσεις που σίγουρα δεν αναφέρονται σε ψυχική διάθεση (π.χ. blank ή hungry). Συνεπώς, η εκπαίδευση ενός ταξινομητή με

111 στόχο να προβλέπει την ψυχική διάθεση, χρησιμοποιώντας και τις 132 πιθανές διαθέσεις του LiveJournal δε θα εντάσσονταν στον στόχο της ταξινόμησης ψυχικής διάθεσης και συνεπώς δε θα είχε πρακτική εφαρμογή και δυνατότητα γενίκευσης πέρα από δεδομένα του LiveJournal. Επίσης, ο ασαφής εννοιολογικός διαχωρισμός των διαθέσεων του Livejournal, η επικάλυψή τους και η έλλειψη επαρκούς όγκου δεδομένων εκπαίδευσης θα κατέληγε σίγουρα στην εκπαίδευση ενός μοντέλου με περιορισμένη ακρίβεια, το οποίο θα παρουσίαζε υπερπροσαρμογή (overfit) και δεν θα είχε δυνατότητα γενίκευσης. Με βάση τα παραπάνω, η ομαδοποίηση συναφών ψυχικών διαθέσεων και η απόρριψη σπάνιων ή ανούσιων εννοιολογικά διαθέσεων, είναι η ενδεδειγμένη τεχνική για τη δημιουργία ενός κατάλληλου συνόλου δεδομένων εκπαίδευσης. Τέλος, θα πρέπει να αναφερθεί ότι σε κάποια μηνύματα του συνόλου των δεδομένων, παρατηρείται το φαινόμενο ο χρήστης να έχει επιλέξει ως ψυχική διάθεση του μηνύματος, την ψυχική διάθεση που τον αντιπροσωπεύει τη στιγμή της συγγραφής του κειμένου και όχι αυτή που απορρέει από το κείμενο, δημιουργώντας έτσι ακραίες τιμές στο σύνολο εκπαίδευσης. Αν και στο μεγαλύτερο ποσοστό των δεδομένων εκπαίδευσης, υπάρχει συσχέτιση της ψυχικής διάθεσης του κειμένου με την επιλεγμένη από το χρήστη ψυχική διάθεση, το επιλεγμένο σύνολο δεδομένων περιέχει αρκετές ακραίες τιμές (outliers). Μοντέλο Αναπαράστασης Συναισθήματος Όπως προαναφέρθηκε το μοντέλο αναπαράστασης συναισθήματος που χρησιμοποιήθηκε στην εργασία, βασίστηκε σε ομαδοποίηση συναφών διαθέσεων του LiveJournal. Μηνύματα που είχαν σημανθεί ως energetic, bouncy, happy, hyper, cheerful, ecstatic, excited, jubilant, giddy, giggly αντιστοιχίστηκαν στην κατηγορία χαρούμενο μήνυμα (happy). Μηνύματα που είχαν σημανθεί ως confused, crappy, crushed, depressed, distressed, envious, gloomy, guilty, intimidated, jealous, lonely, rejected, sad, scared αντιστοιχίστηκαν στην κατηγορία λυπημένο μήνυμα (sad). Τέλος, μηνύματα που είχαν σημανθεί ως aggravated, angry, bitchy, enraged, infuriated, irate, pissed off, αντιστοιχίστηκαν στην κατηγορία μήνυμα που εκφράζει θυμό (angry). Παρακάτω παρουσιάζεται η σχηματική αναπαράσταση των αντιστοιχίσεων που αναφέρθηκαν: -110-

112 Sad Category Confused, Happy Category Energetic, Happy, Crappy, Crushed, Bouncy Depressed, Distressed Hyper Envious, Cheerful, Ecstatic, Gloomy, Excited, Jubilant Intimidated, Giddy, Giggly Angry Category Aggravated, Angry Βitchy, Infuriated, Lonely Guilty Rejected, Jealous, Sad, Scared Enraged Ιrate Pissed off Εικόνα 38: Οι ομάδες των ψυχικών διαθέσεων του μοντέλου αναπαράστασης συναισθήματος Τη συνάφεια των διαθέσεων της παραπάνω ομαδοποίησης με τη χρήση του KMeans, επιβεβαιώνει και η νοηματική συνάφεια των παραπάνω διαθέσεων ως λέξεις (με τη χρήση του λεξικού WordNet6). Με τη μέθοδο αυτή συλλέχθηκε αρχικά ένα σύνολο δεδομένων που αριθμούσε στιγμιότυπα της κλάσης angry, στιγμιότυπα της κλάσης happy και στιγμιότυπα της κλάσης sad. Για λόγους έλλειψης μεγάλης υπολογιστικής ισχύος και προσπαθώντας στο τελικό σύνολο εκπαίδευσης τα δεδομένα να είναι ισοκατανεμημένα στις τρεις κλάσεις, με τυχαίο τρόπο μειώθηκε ο αριθμός των στιγμιότυπων. Το μέγεθος του συνόλου των δεδομένων εκπαίδευσης παρουσιάζεται στον πίνακα που ακολουθεί: Πίνακας 5: Αριθμός Στιγμιότυπων Δεδομένων Εκπαίδευσης ανά Κατηγορία Ψυχικής Διάθεσης

113 Αριθμός Στιγμιότυπων ανά Κατηγορία Ψυχικής Διάθεσης Σύνολο Στιγμιότυπων Sad 3548 Happy 3537 Angry Επεξεργασία Δεδομένων Το τμήμα της προεπεξεργασίας στην κατηγοριοποίηση κειμένων είναι εξαιρετικά σημαντικό, αλλά και χρονοβόρο (Sebastiani, 2002). Πριν από τη μοντελοποίηση των κειμένων, έπρεπε από το αρχικό Xml αρχείο να επιλεγούν τα μηνύματα που είχαν διάθεση που αντιστοιχίζονταν στο μοντέλο αναπαράστασης διάθεσης που επιλέχθηκε, να εξαχθούν τα επιλεγμένα μηνύματα (τίτλος και σώμα μηνύματος), η διάθεσή τους και να δημιουργηθούν κατάλληλες δομές αρχείων με τα μηνύματα αυτά, ώστε να είναι εφικτός ο μετασχηματισμός τους σε διανύσματα αναπαράστασης. Τόσο για την ανάγνωση του αρχικού xml αρχείου, την εξαγωγή των μηνυμάτων και των ψυχικών διαθέσεων, όσο και για την επεξεργασία των δεδομένων που συλλέχθηκαν δημιουργήθηκε JAVA client εφαρμογή, η δομή της οποίας φαίνεται στην ακόλουθη εικόνα: Εικόνα 39: Δομή της Client Εφαρμογής για την αρχική επεξεργασία των δεδομένων εκπαίδευσης Σημειώνεται, ότι η επεξεργασία του κειμένου των αρχικών μηνυμάτων ήταν απαραίτητη, καθότι η μορφή του RSS Feed περιέχει HTML Tags. Επίσης, κρίθηκε σκόπιμο κάποιες σειρές συμβόλων που αντιπροσωπεύουν εικονίδια αναπαράστασης συναισθήματος (emoticons) να αντικατασταθούν από μια ενιαία συμβολοσειρά (HappyEmoticon για τη σειρά ), ώστε να αποτελέσουν ενιαία λέξη (Unigram) κατά το στάδιο της μοντελοποίησης. Η ίδια μεθοδολογία χρησιμοποιήθηκε και για τη -112-

114 διατήρηση χαρακτηριστικών διαμόρφωσης κειμένου (έμφαση λέξεων, πλάγια γραφή). Αυτή η επεξεργασία έγινε με την κλάση HTML2Text και παρουσιάζεται παρακάτω. package preprocessing; public class Html2Text StringBuffer s; { public Html2Text() {} public String parse(string Text) { Text = Text.replace(">:(", "AngryEmoticon"); //Αντικατάσταση Emoticons Text = Text.replace(":)", "HappyEmoticon"); Text = Text.replace(":(", "SadEmoticon"); Text = Text.replace("'", "'");//Αντικατάσταση HTML με ASCII χαρακτήρες Text = Text.replace("&quot", "\""); Text = Text.replace("&amp", "&"); Text = Text.replace("<", "<"); Text = Text.replace(">", ">"); Text = Text.replace(" ", " "); Text = Text.replace("<i>", "$ITALICS$"); //Αντικατάσταση χαρακτηριστικών //διαμόρφωσης κειμένου Text = Text.replace("<b>", "$BOLD$"); Text = Text.replace("</b>", ""); Text = Text.replaceAll("\\<.*?>","");//Χρήση Regular Expression για την //αποκοπή Links, Εικόνων, Χαρακτηριστικών CSS κ.τ.λ. return Text; } } Εικόνα 40: Η κλάση HTML2Text Τα επεξεργασμένα μηνύματα (σώμα και τίτλος) αποθηκεύτηκαν ως απλά txt αρχεία (ένα αρχείο για κάθε μήνυμα) μέσα σε φακέλους με συγκεκριμένη δομή, ώστε να μπορούν να χρησιμοποιηθούν ως σύνολο εκπαίδευσης του λογισμικού Weka. Η απαιτούμενη δομή φαίνεται στην παρακάτω εικόνα: -113-

115 Εικόνα 41: Δομή φακέλων, όπως απαιτείται από την κλάση TextDirectoryLoader του Weka Επίσης, αποθηκεύτηκαν και σε excel αρχείο με συγκεκριμένη δομή, ώστε να μπορούν να χρησιμοποιηθούν ως σύνολο εκπαίδευσης του λογισμικού TagHelperTools7. Το λογισμικό αυτό βασίζεται στις βιβλιοθήκες του Weka και μπορεί να χρησιμοποιηθεί για τη μετατροπή ενός κειμένου σε Unigrams, Bigrams, POS Bigrams και άλλα πρόσθετα χαρακτηριστικά που ορίζονται με τη χρήση κάποιας γραμματικής από το χρήση. Εκτενέστερη παρουσίαση του λογισμικού αυτού γίνεται στην επόμενη ενότητα. Οι κλάσεις WekaSetConstructor και ExcelSetConstructor υλοποιούν την κατάλληλη αποθήκευση των μηνυμάτων, σύμφωνα με αυτά που προαναφέρθηκαν. Διανυσματική Αναπαράσταση Κειμένων Το μοντέλο διανυσματικού χώρου (Vector Space Model) είναι ένα τυποποιημένο εργαλείο αναπαράστασης κειμενικής πληροφορίας εδώ και τρεις δεκαετίες. Μεταξύ των πλεονεκτημάτων του συγκαταλέγεται και το γεγονός ότι μπορεί να αναπαριστά έγγραφα ετερογενούς μορφής και ανεξαρτήτως γλώσσας. 7 Πληροφορίες παρέχονται στη διεύθυνση: και τη διεύθυνση:

116 Ένα κείμενο μπορεί να αναπαρασταθεί σύμφωνα με το παραπάνω μοντέλο, αν θεωρηθεί ένας «ασκός με λέξεις» (Bag Of Words). Το μοντέλο BOW βασίζεται στη λογική του ότι κάθε κείμενο είναι μία συλλογή όρων ανεξαρτήτως σειράς και ότι το περιβάλλον ενός όρου δεν επηρεάζει το νόημά του. Έτσι, απλοποιεί την αναπαράσταση του κειμένου σε ένα διάνυσμα, όπου κάθε διάσταση είναι η παρουσία/απουσία μιας λέξης (Boolean model). Επίσης, κάθε διάσταση μπορεί να είναι η συχνότητα εμφάνισης μίας λέξης ή η κανονικοποιημένη συχνότητα εμφάνισης μίας λέξης (tf*idf). (Bey Yu, 2006) Το λογισμικό HelpTaggerTools (Rose et al.) εξάγει αυτόματα μια τέτοια αναπαράσταση από ένα αρχείο excel της ακόλουθης μορφής: Εικόνα 42: Απαιτούμενη μορφή Excel για το στάδιο της προεπεξεργασίας από το HelpTaggerTools Στην πρώτη στήλη του αρχείου πάντα δηλώνεται το όνομα και οι τιμές της εξαρτημένης μεταβλητής για κάθε στιγμιότυπο. Στη δεύτερη στήλη πρέπει πάντα να περιέχεται το κείμενο προς ταξινόμηση. Οι υπόλοιπες στήλες αποτελούν επιπλέον χαρακτηριστικά (ορισμένα από το χρήστη), τα οποία είναι επιθυμητό να ενσωματωθούν στη διανυσματική αναπαράσταση. Για το στάδιο της προεπεξεργασίας το λογισμικό υποστηρίζει της ακόλουθες λειτουργίες: Εξαγωγή μεμονωμένων (unigrams) όρων και φράσεων δύο όρων (bigrams). Στο απλούστερο μοντέλο BOW ένα κείμενο αναπαρίσταται μόνο από μεμονωμένους όρους. Ωστόσο οι φράσεις δύο όρων μπορεί να περιέχουν περισσότερη πληροφορία (π.χ. πληροφορία άρνησης ενός ρήματος). Εξαγωγή μερών του λόγου (POS bigramms). Τα μέρη του λόγου εξάγονται ανά ζεύγη και έχουν την έννοια ζευγαριών γραμματικών κατηγοριών. Μπορούν να χρησιμοποιηθούν ως χαρακτηριστικά ανάλυσης της συντακτικής δομής ενός κειμένου, γι αυτό μπορούν να συλλάβουν π.χ. τη διαφορά ανάμεσα στην κατάφαση «η απάντηση είναι» με την ερώτηση «Ποια είναι η απάντηση;» -115-

117 Υπολογισμός μήκους γραμμής. Σε εργασίες εξόρυξης ψυχικής διάθεσης το χαρακτηριστικό αυτό έχει χρησιμοποιηθεί, ως ένδειξη του πόσο αναλυτικό είναι ένα κείμενο. Δημιουργία χαρακτηριστικού για το εάν ένα κείμενο περιέχει συνδέσμους ή όχι. Το χαρακτηριστικό αυτό είναι ένδειξη για το πόσο ένα κείμενο είναι νοηματικά ολοκληρωμένο ή όχι. Για παράδειγμα, η φράση «ναι, εντάξει» σε αντιδιαστολή με τη φράση «η συνεισφορά του ήταν ουσιαστική και σταθερή». Αυτό το χαρακτηριστικό θα μπορούσε να χρησιμοποιηθεί για την ανίχνευση spam blog μηνυμάτων, τα οποία συνήθως δεν έχουν συμπαγή δομή περιεχομένου. Απαλοιφή σημείων στίξης. Τα σημεία στίξης μπορούν να αποκοπούν ή να διατηρηθούν. Ανάλογα με το πεδίο εφαρμογής της ταξινόμησης, μπορούν να είναι επιζήμια ή σημαντικά. Για παράδειγμα είναι πολύ ενδεικτικά στην περίπτωση που θέλουμε να διαχωρίσουμε μια καταφατική πρόταση από μία ερωτηματική. Επίσης, η χρήση του κόμματος συνήθως δείχνει ότι ο τρόπος γραφής ενός κειμένου είναι πιο σύνθετος από κάποιο που δεν περιέχει κόμματα. Χρήση stemming. Το stemming είναι η τεχνική που κάθε λέξη αντικαθίσταται με τη ρίζα της. Στόχος αυτής της τεχνικής είναι η μείωση της διάστασης των δεδομένων, αλλά και η ανίχνευση της ομοιότητας δύο κειμένων που μπορούν να έχουν ίδιο νόημα, αλλά να χρησιμοποιούν διαφορετικές γραμματικές δομές. Απαλοιφή συνδέσμων. Οι σύνδεσμοι μιας γλώσσας είναι χαρακτηριστικά που παρουσιάζουν μεγάλη συχνότητα εμφάνισης, όμως κουβαλούν μικρή σημασιολογική πληροφορία. Συχνά απαλείφονται κατά την προεπεξεργασίας με σκοπό τη μείωση της διάστασης των δεδομένων. Απαλοιφή σπάνιων λέξεων. Η απαλοιφή των λέξεων που δεν εμφανίζονται συχνά αποσκοπεί στη μείωση της διάστασης των δεδομένων και της πολυπλοκότητας του μοντέλου εκπαίδευσης, αλλά και την παραγωγή ενός μοντέλου ταξινόμησης που μπορεί να γενικευτεί επιτυχώς. Οι σπάνιες λέξεις έχουν μικρή χρησιμότητα στη γενίκευση ενός μοντέλου. Χρησιμοποιώντας διάφορους δημιουργήθηκαν μοντέλα συνδυασμούς αυτών των χαρακτηριστικών, με διαφορετικό πλήθος και τύπο χαρακτηριστικών, ως σύνολα δεδομένων εκπαίδευσης. Κατόπιν, εφαρμόστηκε σε αυτά ο ίδιος αλγόριθμος μηχανικής μάθησης και τεχνικές μείωσης των διαστάσεων, με σκοπό να διερευνηθεί -116-

118 κυρίως το ποια από αυτές τις κατηγορίες χαρακτηριστικών είναι καταλληλότερη για μία εφαρμογή ταξινόμησης ψυχικής διάθεσης. 6.2 Επιλογή Αλγορίθμου Μηχανικής Μάθησης Δεδομένου του μεγάλου πλήθους των χαρακτηριστικών, αλλά και των στιγμιότυπων ταξινόμησης του συνόλου εκπαίδευσης της παρούσας εργασίας, επιλέχθηκε να χρησιμοποιηθεί ο αλγόριθμος LibLinear, ο οποίος ανήκει στην κατηγορία των SVM αλγορίθμων, το μαθηματικό υπόβαθρο των οποίων παρουσιάστηκε στο πρώτο κεφάλαιο. Η χρήση ενός τέτοιου αλγόριθμου κρίθηκε κατάλληλη, επειδή παρουσιάζουν καλή κλιμάκωση με πολυδιάστατα δεδομένα, αφού ο χρόνος εκτέλεσής τους επηρεάζεται μόνο γραμμικά από τον αριθμό των ιδιοτήτων, Επίσης, οι SVM αλγόριθμοι δεν είναι ευαίσθητοι στην παρουσία φτωχών σε πληροφοριακή αξία ιδιοτήτων Ο αλγόριθμος Liblinear Η επίλυση προβλημάτων ταξινόμησης μεγάλης κλίμακας είναι κρίσιμη σε πολλές εφαρμογές όπως η ταξινόμηση κειμένου. Η γραμμική ταξινόμηση είναι μία από τις πιο υποσχόμενες μεθόδους μάθησης για δεδομένα μεγάλου όγκου με πολλά στιγμιότυπα και χαρακτηριστικά. Ο Liblinear είναι μία βιβλιοθήκη ανοιχτού λογισμικού για γραμμική ταξινόμηση μεγάλης κλίμακας. Υποστηρίζει logistic regression και γραμμικά support vector machines. Η αποτελεσματικότητα του Liblinear για προβλήματα εκπαίδευσης μεγάλης κλίμακας αποδεικνύεται από το ότι χρειάστηκε μόνο μερικά δευτερόλεπτα για την εκπαίδευση ενός προβλήματος ταξινόμησης κειμένου από το Reuters Corpus Volume 1, που περιέχει πάνω από παραδείγματα. Για την ίδια εργασία, ένας άλλος SVM ταξινομητής όπως ο Libsvm θα χρειαζόταν αρκετές ώρες. Ο Liblinear υποστηρίζει δύο δημοφιλείς δυαδικούς γραμμικούς ταξινομητές: τον LR (logistic regression) και τον γραμμικό SVM. Δοθέντος ενός ζευγαριού στιγμιότυπων παρακάτω πρόβλημα συναρτήσεις απώλειας, και οι δύο μέθοδοι επιλύουν το βελτιστοποίησης χωρίς περιορισμούς με διαφορετικές : -117-

119 min 1 T w w + C w 2 όπου 1 t= 1 ξ ( w : wt, y t ), είναι μία παράμετρος ποινής. Για τον SVM οι δύο συνήθεις συναρτήσεις απώλειας είναι οι max και max. Η πρώτη αναφέρεται ως L1-SVM και η δεύτερη ως L2-SVM. Η συνάρτηση απώλειας για τον LR είναι, η οποία παράγεται από ένα μοντέλο που βασίζεται σε πιθανότητες. Σε μερικές περιπτώσεις, η συνάρτηση διάκρισης του ταξινομητή περιλαμβάνει έναν όρο μεροληψίας (bias term), b. Για να χειριστεί αυτό τον όρο, ο Liblinear προσθέτει στο διάνυσμα w και σε κάθε στιγμιότυπο μία επιπλέον διάσταση:, όπου B μία σταθερά που καθορίζεται από το χρήστη. Για τον LR και τον L2-SVM, o Liblinear εφαρμόζει τη μέθοδο του Newton για τα διαστήματα εμπιστοσύνης. Για τα προβλήματα ταξινόμησης πολλών κλάσεων, εφαρμόζεται η στρατηγική one-vs-the-rest και η μέθοδος των Crammer και Singer. (Rong-En Fan et al., 2008) Στην παρούσα εργασία χρησιμοποιήθηκε μέσα από το Weka o L2-SVM. 6.3 Μείωση των Διαστάσεων Για την αύξηση της απόδοσης ενός μοντέλου ταξινόμησης και ταυτόχρονα τη μείωση της πολυπλοκότητας της εκπαίδευσης, χρησιμοποιούνται μεταξύ άλλων και μέθοδοι επιλογής γνωρισμάτων. Οι μέθοδοι επιλογής γνωρισμάτων στοχεύουν στη μείωση της διαστατικότητας του χώρου των γνωρισμάτων που χρησιμοποιούνται για την αναπαράσταση του συνόλου των κειμένων, απομακρύνοντας γνωρίσματα χωρίς πλούσιο πληροφοριακό περιεχόμενο. Προκειμένου να προσδιοριστεί ποια χαρακτηριστικά πρέπει να αποκοπούν, εφαρμόζονται αλγόριθμοι οι οποίοι τα ταξινομούν με βάση κάποιο χαρακτηριστικό μέγεθος (π.χ. η εντροπία) από τη συλλογή κειμένων και στη συνέχεια επιλέγονται τα n καλύτερα χαρακτηριστικά. Ωστόσο, δεν υπάρχει κάποιο αντικειμενικό κριτήριο το οποίο να προσδιορίζει τον αριθμό των χαρακτηριστικών που πρέπει να αποκοπούν, αλλά εμπειρικά αναζητείται εκείνο το μέγεθος που διατηρεί την καλύτερη ισορροπία ανάμεσα στην αποτελεσματικότητα της ταξινόμησης και την πολυπλοκότητα της εκπαίδευσης (Sebastiani, 2002; Yang, 1997)

120 Στην παρούσα εργασία χρησιμοποιήθηκαν δύο μέθοδοι επιλογής χαρακτηριστικών που είναι από τις πιο διαδεδομένες στο πεδίο της μηχανικής μάθησης από κείμενα, οι μέθοδοι Information Gain και X Square Statistics (Yang, 1997) Η μετρική Information Gain Η μέθοδος που στηρίζεται στη μετρική μετράει τα bits πληροφορίας που προστίθενται για την πρόβλεψη μίας κατηγορίας, ανάλογα με την παρουσία ή απουσία ενός όρου σε ένα έγγραφο. Το κέρδος πληροφορίας (Informational Gain) ενός όρου t ορίζεται ως: G (t ) = P(c i ) log P(c i ) + P(t ) i= 1 m P (c i t ) log P(c i t ) + P(t ) i= 1 m P ( c t ) log P ( c t ), i i i= 1 m m όπου o όρος {ci }i = 1 δηλώνει το σύνολο των κατηγοριών ταξινόμησης και ο όρος P(ci ) δηλώνει την κατανομή της κατηγορίας ci, υπολογισμένη με όλους τους όρους του κειμένου. Ο όρος P(ci t ) είναι η κατανομή της κατηγορίας ci με την ύπαρξη του όρου t, ενώ ο όρος P (ci t ) είναι η κατανομή της κατηγορίας ci με την απουσία του όρου t. Η μετρική μπορεί να αξιολογήσει καθολικά την καταλληλότητα ενός όρου, λαμβάνοντας υπόψη το ίδιο όλες τις κατηγορίες ταξινόμησης Η μετρική Chi Square (x2) Η έλλειψη ανεξαρτησίας μεταξύ δύο μεταβλητών t και c μπορεί να μετρηθεί από τη στατιστική x2. Η τιμή του μέτρου x2 μεταξύ ενός όρου και μίας κατηγορίας δίνεται από τη σχέση: x 2 (t, c ) = N * ( AD CB) 2, ( A + C ) * ( B + D ) * ( A + B ) * (C + D ) όπου το A αντιπροσωπεύει τις φορές συνεμφάνισης των μεταβλητών t και c, το B αντιπροσωπεύει την εμφάνιση του t χωρίς το c, το C αντιπροσωπεύει την εμφάνιση του c χωρίς το t και το D αντιπροσωπεύει τις φορές που δεν εμφανίζεται ούτε η μεταβλητή t ούτε και η c. Το N είναι ο συνολικός αριθμός των κειμένων. Η τιμή x2 ενός όρου στο διανυσματικό χώρο δίνεται από τη σχέση: -119-

121 2 x avg (t ) = m i= 1 P(ci ) * x 2 (t, ci ) 6.4 Εκπαίδευση Μοντέλων και Αποτελέσματα Προαναφέρθηκε, ότι πάνω στο ίδιο πλήθος στιγμιότυπων δημιουργήθηκαν μοντέλα με διαφορετικούς συνδυασμούς κατηγοριών χαρακτηριστικών αναπαράστασης. Καθένα από αυτά αποτέλεσε το σύνολο δεδομένων εκπαίδευσης του ταξινομητή Liblinear, σε αντίστοιχο με τα μοντέλα αριθμό πειραμάτων. Επίσης, για κάθε μοντέλο εφαρμόστηκαν οι τεχνικές μείωσης διαστάσεων που περιγράφτηκαν στην προηγούμενη ενότητα, με σκοπό να διερευνηθεί το ποια από αυτά τα χαρακτηριστικά που χρησιμοποιούνται στη βιβλιογραφία για την ταξινόμηση κειμένου είναι καταλληλότερα για μία εφαρμογή ταξινόμησης ψυχικής διάθεσης από μηνύματα blogs Χρήση όλων των δυνατών κατηγοριών χαρακτηριστικών αναπαράστασης Στο μοντέλο αυτό χρησιμοποιήθηκαν όλα τα δυνατά χαρακτηριστικά αναπαράστασης, δηλαδή ζεύγη μερών του λόγου (POS tagging), μεμονωμένες λέξεις (unigrams), ζεύγη δύο λέξεων (bigrams), stemming, απαλοιφή συνδέσμων (remove stop words) και χρήση σημείων στίξης (punctuation), πληροφορία για το μέσο μήκος μιας γραμμής (line length), ένα χαρακτηριστικό για το εάν ένα κείμενο περιέχει συνδέσμους ή όχι (contains stop words) και τέλος απαλοιφή των σπάνιων όρων (rare features, όριο 50 εμφανίσεις). Αναφέρεται εδώ, ότι σε όλα τα πειράματα έγινε απαλοιφή σπάνιων όρων, λόγω της πολυπλοκότητας του μοντέλου εκπαίδευσης που προκύπτει σε διαφορετική περίπτωση (έχει πάνω από 7000 χαρακτηριστικά). Επίσης, σε όλα τα πειράματα έγινε απαλοιφή συνδέσμων (ένα τέτοιο μοντέλο περιέχει 5131 χαρακτηριστικά χωρίς POS tagging και 5823 χαρακτηριστικά με POS tagging), λόγω των πολυδιάστατων διανυσμάτων αναπαράστασης που προκύπτουν. Η ακρίβεια του ταξινομητή παρουσιάζεται στον πίνακα που ακολουθεί: -120-

122 Πίνακας 6: Ακρίβεια LibLinear με χρήση pos, ug, bg, stemming, punctuation, line length, contains stop words, remove stop words, remove rare features Liblinear Ακρίβεια αλγορίθμου χωρίς μείωση % διαστάσεων ( 2471 χαρακτηριστικά) Ακρίβεια αλγορίθμου με μείωση διαστάσεων % σε 800 χαρακτηριστικά (Chi Square) Ακρίβεια αλγορίθμου με μείωση διαστάσεων % σε 800 χαρακτηριστικά (Gain Ratio) Χρήση όλων των δυνατών κατηγοριών χαρακτηριστικών εκτός από μέρη του λόγου Σ αυτό το μοντέλο χρησιμοποιήθηκαν μεμονωμένες λέξεις, ζεύγη δύο λέξεων, stemming, απαλοιφή συνδέσμων και χρήση σημείων στίξης, πληροφορία για το μέσο μήκος μιας γραμμής, ένα χαρακτηριστικό για το εάν ένα κείμενο περιέχει συνδέσμους ή όχι και τέλος απαλοιφή των σπάνιων όρων. Δε δημιουργήθηκαν χαρακτηριστικά στα διανύσματα αναπαράστασης κειμένων από εξαγωγή ζευγών μερών του λόγου. Η ακρίβεια του ταξινομητή παρουσιάζεται στον πίνακα που ακολουθεί: Πίνακας 7: Ακρίβεια LibLinear με χρήση ug, bg, stemming, punctuation, line length, contains stop words, remove stop words, remove rare features Liblinear Ακρίβεια αλγορίθμου χωρίς μείωση % διαστάσεων ( 1779 χαρακτηριστικά) Ακρίβεια αλγορίθμου με μείωση % διαστάσεων σε 800 χαρακτηριστικά (Chi Square) Ακρίβεια αλγορίθμου με μείωση % διαστάσεων σε 800 χαρακτηριστικά (Gain Ratio) Παρατηρείται, ότι η ακρίβεια αυτού του μοντέλου χωρίς μείωση διαστάσεων είναι υψηλότερη από την αντίστοιχη του προηγούμενου μοντέλου (μοντέλο ενότητας 6.4.1). Ωστόσο, με την εφαρμογή τεχνικών μείωσης των διαστάσεων, το προηγούμενο μοντέλο -121-

123 δίνει οριακά μεγαλύτερη ακρίβεια (max_ακρίβεια_μοντέλου_6.4.1 = % έναντι max_ακρίβεια_μοντέλου_6.4.2 = %). Η παρατήρηση αυτή οδηγεί στο συμπέρασμα ότι η εξαγωγή όλων των ζευγών μερών του λόγου ενός μηνύματος, οδηγεί σε μεγάλη αύξηση των διαστάσεων του μοντέλου εκπαίδευσης και μάλιστα με την προσθήκη χαρακτηριστικών χωρίς πλούσιο πληροφοριακά περιεχόμενο. Η εξαγωγή όλων των ζευγών μερών του λόγου μειώνει την ακρίβεια του ταξινομητή. Αντίθετα, η εξαγωγή επιλεγμένων μερών του λόγου αυξάνει την απόδοση ενός ταξινομητή σε σχέση με ένα μοντέλο που δε χρησιμοποιεί καθόλου ζεύγη μερών του λογού. Το παραπάνω συμπέρασμα, βασίζεται στην υψηλότερη ακρίβεια των ταξινομητών του μοντέλου 6.4.1, όπου χρησιμοποιήθηκε μείωση διαστάσεων. Το σύνολο των 800 χαρακτηριστικών που προέκυψε και από τις δύο τεχνικές μείωσης περιείχε πιο περιορισμένο αριθμό χαρακτηριστικών μερών του λόγου (περίπου 50 χαρακτηριστικά) κι αυτό συνετέλεσε στην αύξηση της ακρίβειας Χρήση όλων των δυνατών κατηγοριών χαρακτηριστικών εκτός από μέρη του λόγου και μέσο μήκος γραμμής Στο μοντέλο της ενότητας αυτής, χρησιμοποιήθηκαν μεμονωμένες λέξεις, ζεύγη δύο λέξεων, stemming, απαλοιφή συνδέσμων και χρήση σημείων στίξης, ένα χαρακτηριστικό για το εάν ένα κείμενο περιέχει συνδέσμους ή όχι και τέλος απαλοιφή των σπάνιων όρων. Δε δημιουργήθηκαν χαρακτηριστικά στα διανύσματα αναπαράστασης κειμένων από εξαγωγή ζευγών μερών του λόγου και επίσης δε συμπεριλήφθηκε το χαρακτηριστικό του μέσου μήκους γραμμής των μηνυμάτων. Η ακρίβεια του ταξινομητή παρουσιάζεται στον πίνακα που ακολουθεί: Πίνακας 8: Ακρίβεια LibLinear με χρήση ug, bg, stemming, punctuation, contains stop words, remove stop words, remove rare features -122-

124 Liblinear Ακρίβεια αλγορίθμου χωρίς μείωση % διαστάσεων ( 1778 χαρακτηριστικά) Ακρίβεια αλγορίθμου με μείωση % διαστάσεων σε 800 χαρακτηριστικά (Chi Square) Ακρίβεια αλγορίθμου με μείωση % διαστάσεων σε 800 χαρακτηριστικά (Gain Ratio) Παρατηρείται, ότι η ακρίβεια αυτού του μοντέλου χωρίς μείωση διαστάσεων είναι ελάχιστα χαμηλότερη από αυτή του μοντέλου που χρησιμοποιούσε το μέσο μήκος γραμμής ως χαρακτηριστικό (μοντέλο ενότητας 6.4.2) Χρήση όλων των δυνατών κατηγοριών χαρακτηριστικών εκτός από μέρη του λόγου και σημεία στίξης Τα χαρακτηριστικά που χρησιμοποιήθηκαν ήταν μεμονωμένες λέξεις, ζεύγη δύο λέξεων, stemming, απαλοιφή συνδέσμων, πληροφορία για το μέσο μήκος γραμμής, ένα χαρακτηριστικό για το εάν ένα κείμενο περιέχει συνδέσμους ή όχι και τέλος απαλοιφή των σπάνιων όρων. Δε δημιουργήθηκαν χαρακτηριστικά στα διανύσματα αναπαράστασης κειμένων από εξαγωγή ζευγών μερών του λόγου και απαλείφτηκαν τα σημεία στίξης. Η ακρίβεια του ταξινομητή παρουσιάζεται στον πίνακα που ακολουθεί: Πίνακας 9: Ακρίβεια LibLinear με χρήση ug, bg, stemming, linelength, contains stop words, remove stop words, remove rare features. Η ακρίβεια αυτού του μοντέλου είναι χαμηλότερη από την ακρίβεια των μοντέλων που Liblinear Ακρίβεια αλγορίθμου χωρίς μείωση διαστάσεων ( 1755 χαρακτηριστικά) % Ακρίβεια αλγορίθμου με μείωση διαστάσεων σε 800 χαρακτηριστικά % (Chi Square) Ακρίβεια αλγορίθμου με μείωση διαστάσεων σε 800 χαρακτηριστικά % (Gain Ratio) παρουσιάστηκαν (με μόνη εξαίρεση το μοντέλο χωρίς μείωση χαρακτηριστικών). Αυτή η παρατήρηση οδηγεί στο συμπέρασμα ότι τα σημεία στίξης είναι σημαντικά χαρακτηριστικά και φέρουν πληροφορία που σχετίζεται με την ψυχική διάθεση. Το συμπέρασμα αυτό ενισχύει και η παρατήρηση, ότι οι τεχνικές μείωσης διαστάσεων που -123-

125 χρησιμοποιήθηκαν στα μοντέλα που περιείχαν σημεία στίξης, κατέταξαν το! (EXLAMATION_MARK), ώς ένα από τα πιο στατιστικά σημαντικά χαρακτηριστικά Μοντελοποίηση με απαλοιφή ζευγών λέξεων (bigrams) Στο μοντέλο που παρουσιάζεται στην ενότητα αυτή χρησιμοποιήθηκαν μόνο μεμονωμένες λέξεις (unigrams) κατά τη μοντελοποίηση, ενώ απαλείφτηκαν τα ζεύγη δύο λέξεων. Χρησιμοποιήθηκε επίσης, stemming, απαλοιφή συνδέσμων, πληροφορία για το μέσο μήκος μιας γραμμής, ένα χαρακτηριστικό για το εάν ένα κείμενο περιέχει συνδέσμους ή όχι, σημεία στίξης και απαλοιφή των σπάνιων όρων. Στόχος αυτού του πειράματος ήταν να διερευνηθεί το κατά πόσο τα ζεύγη λέξεων συνεισφέρουν θετικά στη εξόρυξη ψυχικής διάθεσης. Η ακρίβεια του ταξινομητή παρουσιάζεται στον πίνακα που ακολουθεί: Πίνακας 10: Ακρίβεια LibLinear με χρήση ug, stemming, punctuation, linelength, contains stop words, remove stop words, remove rare features. Liblinear Ακρίβεια αλγορίθμου χωρίς μείωση % διαστάσεων ( 1694 χαρακτηριστικά) Ακρίβεια αλγορίθμου με μείωση % διαστάσεων σε 800 χαρακτηριστικά (Chi Square) Ακρίβεια αλγορίθμου με μείωση % διαστάσεων σε 800 χαρακτηριστικά (Gain Ratio) Η ακρίβεια αυτού του μοντέλου είναι επίσης χαμηλότερη από την ακρίβεια που κάνει του μοντέλου που κάνει χρήση όλων των χαρακτηριστικών εκτός από ζεύγη μερών του λόγου (μοντέλο 6.4.2). Αυτό καταδεικνύει ότι τα ζεύγη λέξεων πρέπει να εξάγωνται και να χρησιμοποιούνται ως χαρακτηριστικά για την εκπαίδευση ταξινομητών εξόρυξης ψυχικής διάθεσης από μηνύματα blogs Μοντελοποίηση με απαλοιφή μεμονωμένων λέξεων (unigrams) Στο μοντέλο που παρουσιάζεται στην ενότητα αυτή χρησιμοποιήθηκαν μόνο ζεύγη δύο λέξεων (bigrams) κατά τη μοντελοποίηση, ενώ απαλείφτηκαν μεμονωμένες λέξεις -124-

126 (unigrams). Χρησιμοποιήθηκε επίσης, stemming, απαλοιφή συνδέσμων, πληροφορία για το μέσο μήκος μιας γραμμής, ένα χαρακτηριστικό για το εάν ένα κείμενο περιέχει συνδέσμους ή όχι, και σημεία στίξης. Στόχος αυτού του πειράματος ήταν να διερευνηθεί το κατά πόσο ένα κείμενο μπορεί να μοντελοποιηθεί μόνο από ζεύγη λέξεων. Η ακρίβεια του ταξινομητή παρουσιάζεται στον πίνακα που ακολουθεί: Πίνακας 11: Ακρίβεια LibLinear με χρήση bg, stemming, punctuation, linelength, contains stop words, remove stop words. Liblinear Ακρίβεια αλγορίθμου χωρίς μείωση % διαστάσεων ( 2779 χαρακτηριστικά) Ακρίβεια αλγορίθμου με μείωση % διαστάσεων σε 800 χαρακτηριστικά (Chi Square) Ακρίβεια αλγορίθμου με μείωση % διαστάσεων σε 800 χαρακτηριστικά (Gain Ratio) Στο μοντέλο αυτό δε χρησιμοποιήθηκε απαλοιφή σπάνιων όρων διότι στην περίπτωση αυτή το τελικό μοντέλο θα είχε μόνο 88 διαστάσεις. Παρατηρείται ότι η ακρίβεια του μοντέλου είναι πολύ μικρότερη από την ακρίβεια όλων των προηγούμενων. Συνεπώς, τα ζεύγη λέξεων δεν μπορούν μόνα τους να αναπαραστήσουν ικανοποιητικά τα μηνύματα των blogs Μοντελοποίηση χωρίς stemming Στο μοντέλο που παρουσιάζεται στην ενότητα χρησιμοποιήθηκαν μεμονωμένες λέξεις, ζεύγη δύο λέξεων, απαλοιφή συνδέσμων και χρήση σημείων στίξης, πληροφορία για το μέσο μήκος μιας γραμμής, ένα χαρακτηριστικό για το εάν ένα κείμενο περιέχει συνδέσμους ή όχι και τέλος απαλοιφή των σπάνιων όρων. Δε δημιουργήθηκαν χαρακτηριστικά στα διανύσματα αναπαράστασης κειμένων από εξαγωγή ζευγών μερών του λόγου. Επίσης, δε χρησιμοποιήθηκε stemming, αυξάνοντας έτσι τον αρχικό αριθμό των διαστάσεων. Η ακρίβεια του ταξινομητή παρουσιάζεται στον πίνακα που ακολουθεί: -125-

127 Πίνακας 12: Ακρίβεια LibLinear με χρήση ug, bg, punctuation, linelength, contains stop words, remove stop words. Liblinear Ακρίβεια αλγορίθμου χωρίς μείωση % διαστάσεων ( 1857 χαρακτηριστικά) Ακρίβεια αλγορίθμου με μείωση % διαστάσεων σε 800 χαρακτηριστικά (Chi Square) Ακρίβεια αλγορίθμου με μείωση % διαστάσεων σε 800 χαρακτηριστικά (Gain Ratio) Από την παρατήρηση του παραπάνω πίνακα, προκύπτει ότι η τεχνική stemming βελτιώνει τα μοντέλο αναπαράστασης ενός μηνύματος, μειώνοντας τις διαστάσεις και ταυτόχρονα αυξάνοντας την απόδοση του ταξινομητή Μοντελοποίηση με απαλοιφή του χαρακτηριστικού για το εάν ένα κείμενο περιέχει συνδέσμους ή όχι Σκοπός αυτής της σειράς πειραμάτων ήταν να διερευνηθεί το κατά πόσο το χαρακτηριστικό αυτό μπορεί να συνεισφέρει στην ακρίβεια της ταξινόμησης των μηνυμάτων, προσφέροντας μια ισχυρή ένδειξη για το εάν ένα μήνυμα περιέχει συγκροτημένο εννοιολογικό περιεχόμενο ή πρόκειται για μήνυμα άνευ εννοιολογικού περιεχομένου (όπως μηνύματα spam ή μηνύματα μόνο με συνδέσμους και εικόνες). Έτσι, το μοντέλο που δημιουργήθηκε είναι πανομοιότυπο με το μοντέλο της ενότητας 6.4.2, απλά δεν περιέχει το χαρακτηριστικό ένδειξης του εάν ένα μήνυμα περιέχει συνδέσμους. Η ακρίβεια του ταξινομητή παρουσιάζεται στον πίνακα που ακολουθεί: Πίνακας 13 : Ακρίβεια LibLinear με χρήση ug, bg, punctuation, linelength, stemming, remove stop words. Liblinear Ακρίβεια αλγορίθμου χωρίς μείωση % διαστάσεων ( 1778 χαρακτηριστικά) Ακρίβεια αλγορίθμου με μείωση % διαστάσεων σε 800 χαρακτηριστικά (Chi Square) Ακρίβεια αλγορίθμου με μείωση % διαστάσεων σε 800 χαρακτηριστικά (Gain Ratio) -126-

128 Η ακρίβεια αυτού του μοντέλου χωρίς μείωση διαστάσεων είναι ελάχιστα χαμηλότερη (μόλις 0,05%) από αυτή του μοντέλου της ενότητας Η συνεισφορά, λοιπόν, του χαρακτηριστικού στην αύξηση της ακρίβειας της ταξινόμησης είναι αν και υπαρκτή, πολύ μικρή. 6.5 Δημιουργία Σημασιολογικών Χαρακτηριστικών χρησιμοποιώντας λεξιλογικές πηγές Οι παραπάνω κατηγορίες χαρακτηριστικών δεν αφορούν σημασιολογικά χαρακτηριστικά του κειμένου, αλλά μόνο δομικά στοιχεία του (λεξιλογική και συντακτική δομή). Ωστόσο, πολλοί ερευνητές πειραματίστηκαν με τον εμπλουτισμό των διανυσματικών αναπαραστάσεων των κειμένων με σημασιολογικά χαρακτηριστικά (Mishne, 2006; Sood et al.2009; Leshed and JKaye, 2006). Η υπόθεση ότι η χρήση τέτοιων χαρακτηριστικών μπορεί να βελτιώσει την ακρίβεια του μοντέλου ταξινόμησης, οδήγησε στη δημιουργία δύο συνόλων τέτοιων χαρακτηριστικών. Το πρώτο σύνολο αφορά τη μέτρηση του αριθμού εμφανίσεων ακολουθιών συμβόλων που χρησιμοποιούνται σε ηλεκτρονικά μέσα επικοινωνίας για να δηλώσουν συναισθηματική κατάσταση (emoticons) σε κάθε μήνυμα. Δημιουργήθηκαν έτσι τρία χαρακτηριστικά, ένα για το emoticon :) που υποδηλώνει χαρά, ένα για το :( που υποδηλώνει λύπη και ένα για το :< που υποδηλώνει θυμό. Έχει αναφερθεί παραπάνω ότι κατά τη διαδικασία της προεπεξεργασίας του συνόλου των δεδομένων οι ακολουθίες αυτές έχουν ήδη αντικατασταθεί με συγκεκριμένα αλφαριθμητικά, οπότε θα μπορούσαν να περιλαμβάνονται στα διανύσματα αναπαράστασης ως μεμονωμένες λέξεις (unigrams), όταν η συχνότητα εμφάνισής τους είναι πάνω από 50 φορές σε όλα τα κείμενα. Η παραπάνω συνθήκη ισχύει μόνο για το emoticon :), το οποίο εμφανίζεται στα κείμενα εκπαίδευσης 571 φορές. Τα άλλα emoticons, :( και :<, εμφανίζονται 271 και μόνο 7 φορές, αντίστοιχα, οπότε λόγω της μείωσης σπάνιων όρων, οι μεμονωμένες λέξεις που αντιστοιχούν στα χαρακτηριστικά αυτά απαλείφονται, χωρίς όμως αυτό να είναι σκόπιμο. Το δεύτερο σύνολο αφορά τη μέτρηση του αριθμού εμφανίσεων όρων που δηλώνονται στο λεξικό General Inquirer8 ως όροι απόλαυσης, πόνου και εχθρότητας. συμβόλων που χρησιμοποιούνται σε ηλεκτρονικά μέσα επικοινωνίας για να δηλώσουν συναισθηματική κατάσταση (emoticons) σε κάθε μήνυμα. Το λεξικό αυτό που έχει 8 Βρίσκεται στην ηλεκτρονική διεύθυνση:

129 καταρτιστεί από το Πανεπιστήμιο του Harvard, περιλαμβάνει λίστες κατάταξης όρων της Αγγλικής σε τρεις σημασιολογικές διαστάσεις συναισθημάτων, που περιγράφονται από το μοντέλο του Osgood (Ortony et al. 1988). Επίσης, περιλαμβάνει κι άλλες λίστες, όπως λίστες λέξεων που εκφράζουν απόλαυση, δύναμη, πόνο, ενθουσιασμό και πολλές άλλες. Στην παρούσα εργασία, χρησιμοποιήθηκαν οι λίστες απόλαυσης, πόνου και εχθρότητας, οι οποίες αντιστοιχίζονται αρκετά καλά με τις ψυχικές διαθέσεις χαρά, λύπη και θυμός που είναι οι κατηγορίες ταξινόμησης των ταξινομητών που εκπαιδεύτηκαν. Έτσι δημιουργήθηκαν τρία χαρακτηριστικά, το χαρακτηριστικό HappinessFactor, SadnessFactor και HostilityFactor. Η τιμή κάθε χαρακτηριστικού για κάθε μήνυμα υπολογίζεται ως το γινόμενο του αριθμού των συνολικών εμφανίσεων λέξεων εκείνης της λίστας που αντιστοιχίζεται στο χαρακτηριστικό στο μήνυμα επί το συνολικό αριθμό όλων των λέξεων όλων των λιστών προς τον αριθμό των λέξεων της λίστας που αντιστοιχίζεται στο χαρακτηριστικό που υπολογίζεται. Δηλαδή για τον υπολογισμό HappinessFactor: FHAPPINESS = NumberOfHappyWordsInPost * TotalNumberOfWordsInAllLists NumberOfWordsInHappyList Δηλαδή ο συνολικός αριθμός εμφανίσεων λέξεων χαράς σε ένα μήνυμα πολλαπλασιάζεται με ένα συντελεστή που υποδηλώνει το βάρος κάθε λέξης χαράς. Το βάρος αυτό καθορίζεται από το μέγεθος της λίστας που χρησιμοποιείται. Η κανονικοποίηση αυτή ήταν επιβεβλημένη λόγω του γεγονότος ότι οι τρεις λίστες του General Inquirer έχουν μεγάλη διαφορά αριθμού λέξεων μεταξύ τους. Για παράδειγμα η λίστα χαράς περιέχει 200 περίπου λέξεις, ενώ η λίστα εχθρότητας 650. Έτσι, είναι πολύ πιο πιθανό ένα μήνυμα να περιέχει πολύ περισσότερες λέξεις εχθρότητας απ ότι χαράς με βάση τις καταρτισμένες λίστες, αφού η λίστα εχθρότητας περιέχει περισσότερες λέξεις. Μετά τον υπολογισμό και την προσθήκη στα διανύσματα αναπαράστασης των κειμένων επαναλήφθηκαν δύο από τα πειράματα της προηγούμενης ενότητας

130 6.5.1 Χρήση όλων των δυνατών κατηγοριών χαρακτηριστικών αναπαράστασης με τα επιπλέον χαρακτηριστικά Στο μοντέλο αυτό χρησιμοποιήθηκαν όλα τα δυνατά χαρακτηριστικά αναπαράστασης, δηλαδή ζεύγη μερών του λόγου (POS tagging), μεμονωμένες λέξεις (unigrams), ζεύγη δύο λέξεων (bigrams), stemming, απαλοιφή συνδέσμων (remove stop words) και χρήση σημείων στίξης (punctuation), πληροφορία για το μέσο μήκος μιας γραμμής (line length), ένα χαρακτηριστικό για το εάν ένα κείμενο περιέχει συνδέσμους ή όχι (contains stop words), απαλοιφή των σπάνιων όρων (rare features, όριο 50 εμφανίσεις) και τα έξι επιπλέον χαρακτηριστικά που παρουσιάστηκαν στην ενότητα αυτή. Η ακρίβεια του ταξινομητή παρουσιάζεται στον πίνακα που ακολουθεί: Πίνακας 14 Ακρίβεια LibLinear με χρήση pos, ug, bg, stemming, punctuation, line length, contains stop words, remove stop words, remove rare feature, happyemoticons, sademoticons, angryemoticons, happinessfactor, sadnessfactor, hostilityfactor Liblinear Ακρίβεια αλγορίθμου χωρίς μείωση διαστάσεων ( 2477 χαρακτηριστικά) % Ακρίβεια αλγορίθμου με μείωση διαστάσεων σε 800 χαρακτηριστικά (Chi % Square) Ακρίβεια αλγορίθμου με μείωση διαστάσεων σε 600 χαρακτηριστικά ( Chi % Square) Ακρίβεια αλγορίθμου με μείωση διαστάσεων σε 400 χαρακτηριστικά ( Chi % Square) Η επανάληψη του πειράματος της ενότητας με τα έξι επιπρόσθετα χαρακτηριστικά αύξησε κατά 0,40 % την ακρίβεια του πρώτου μοντέλου. Ίδιο ποσοστό βελτίωσης παρατηρείται και κατά τη σύγκριση των μοντέλων με 800 χαρακτηριστικά. Ωστόσο, όπως φαίνεται το υψηλότερο ποσοστό ακρίβειας του μοντέλου, επιτυγχάνεται με δεδομένα εκπαίδευσης 600ων χαρακτηριστικών. Επιπρόσθετα, αξίζει να αναφερθεί ότι πέντε από τα έξι σημασιολογικά χαρακτηριστικά απέσπασαν υψηλή βαθμολόγηση από τον αλγόριθμο ranker με μετρική τη x2. Ωστόσο ως καταλληλότερα υποδείχτηκαν τα SadnessFactor, HappyEmoticons, HostilityFactor, και HappinessFactor. Το χαρακτηριστικό SadEmoticons βρίσκεται περίπου στη θέση 100, ενώ όλα τα άλλα στις πρώτες 25 θέσεις κατάταξης. Στο χαρακτηριστικό AngryEmoticons δόθηκε μηδενική βαθμολογία κάτι -129-

131 που αιτιολογείται από το γεγονός ότι μόνο 7 στιγμιότυπα του συνόλου εκπαίδευσης είχαν μη μηδενικό το χαρακτηριστικό αυτό. Στον παρακάτω πίνακα παρουσιάζονται τα 25 πρώτα αποτελέσματα του αλγορίθμου ranker: Πίνακας 15: Τα 25 καταλληλότερα χαρακτηριστικά από τον αλγόριθμο ranker (με μετρική x2 ) Rankings Χαρακτηριστικών EXCLAMATION_MARK fuck SadnessFactor hate feel excit sad piss depress HappyEmoticons lone HostilityFactor cry yai bitch RB_VB hurt stupid NNP_NNP happyemoticon HappinessFactor happi QUESTION_MARK shit know Χρήση όλων των δυνατών κατηγοριών χαρακτηριστικών αναπαράστασης εκτός από μέρη του λόγου με τα επιπλέον χαρακτηριστικά Όπως και στο αντίστοιχο με αυτό μοντέλο 6.4.2, χρησιμοποιήθηκαν ως χαρακτηριστικά μεμονωμένες λέξεις, ζεύγη δύο λέξεων, stemming, απαλοιφή συνδέσμων και χρήση σημείων στίξης, πληροφορία για το μέσο μήκος μιας γραμμής, ένα χαρακτηριστικό για το εάν ένα κείμενο περιέχει συνδέσμους ή όχι, απαλοιφή των σπάνιων όρων και τα έξι σημασιολογικά χαρακτηριστικά. Δε δημιουργήθηκαν χαρακτηριστικά στα διανύσματα αναπαράστασης κειμένων από εξαγωγή ζευγών μερών του λόγου. Η ακρίβεια του ταξινομητή παρουσιάζεται στον πίνακα που ακολουθεί: -130-

132 Πίνακας 16 Ακρίβεια LibLinear με χρήση ug, bg, stemming, punctuation, line length, contains stop words, remove stop words, remove rare feature, happyemoticons, sademoticons, angryemoticons, happinessfactor, sadnessfactor, hostilityfactor Liblinear Ακρίβεια αλγορίθμου χωρίς μείωση διαστάσεων ( 1785 χαρακτηριστικά) % Ακρίβεια αλγορίθμου με μείωση διαστάσεων σε 800 χαρακτηριστικά (Chi % Square) Ακρίβεια αλγορίθμου με μείωση διαστάσεων σε 600 χαρακτηριστικά ( Chi % Square) Το μοντέλο αυτό με μείωση διαστάσεων σε 600 χαρακτηριστικά δίνει τη μεγαλύτερη ακρίβεια όλων των ταξινομητών που παρουσιάστηκαν μέχρι τώρα. Σε σύγκριση δε με το αντίστοιχό του χωρίς τα σημασιολογικά χαρακτηριστικά, έχει αυξημένη ακρίβεια κατά 1,29%. 6.6 Σύνοψη και Συμπεράσματα Η ακρίβεια των όλων των μοντέλων, ανεξαρτήτως κατηγορίας χαρακτηριστικών, με τον αλγόριθμο LibLinear κυμάνθηκε από 51,8358% - 67,393%. Το άνω όριο ακρίβειας που επιτεύχθηκε δε μπορεί να θεωρηθεί απογοητευτικό, αφού αφενός μεν είναι συγκρίσιμα με αυτά των αντίστοιχων εργασιών που παρουσιάστηκαν στο κεφάλαιο 5 και αφετέρου θα πρέπει κανείς να έχει κατά νου, ότι τα στιγμιότυπα που χρησιμοποιήθηκαν περιέχουν μεγάλο πλήθος ακραίων τιμών, όπως προαναφέρθηκε στην ενότητα 6.1. Σχετικά, με τη σύγκριση των κατηγοριών συνόλων χαρακτηριστικών που χρησιμοποιήθηκαν, φαίνεται από το παρακάτω διάγραμμα, ότι τα χαρακτηριστικά με τη μεγαλύτερη σημασία είναι οι μεμονωμένες λέξεις, αφού η απουσία τους μειώνει δραματικά την ακρίβεια του παραγόμενου μοντέλου (μοντέλο 6.4.6). Επίσης, η παρουσία μεγάλου μέρους χαρακτηριστικών που αφορούν ζεύγη μερών του λόγου, αυξάνει πολύ τις διαστάσεις του μοντέλου με αποτέλεσμα τη μείωση της ακρίβειας (μοντέλο 6.4.7). Η χρήση όλων των υπόλοιπων χαρακτηριστικών που παρουσιάστηκαν συνεισφέρει στη μικρή αύξηση της ακρίβειας του μοντέλου

133 Διάγραμμα 1: Ακρίβεια μοντέλων ταξινόμησης για όλα τα μοντέλα χαρακτηριστικών χωρίς μείωση των διαστάσεων. Αυτό που τελικά φαίνεται να επέδρασε περισσότερο στην ακρίβεια, ήταν η μείωση των διαστάσεων του μοντέλου εκπαίδευσης. Μοντέλα με πολλές διαστάσεις παρουσίασαν χαμηλή ακρίβεια. Επίσης, ο καταλληλότερος αριθμός διαστάσεων φάνηκε να είναι μεταξύ 800 και 600 (ενότητες και 6.5.2). Στο επόμενο διάγραμμα παρουσιάζεται η ακρίβεια κάθε μοντέλου ταξινόμησης με 800 διαστάσεις, οι οποίες επιλέχθηκαν με τη μέθοδο Chi Square

134 Διάγραμμα 2: Ακρίβεια μοντέλων ταξινόμησης για όλα τα μοντέλα χαρακτηριστικών με μείωση διαστάσεων Ο ρόλος της χρήσης σημασιολογικών χαρακτηριστικών (μοντέλα και 6.5.2) φαίνεται να είναι θετικός συνεισφέροντας κατά περίπου 0,4% στη βελτίωση της ακρίβειας στην καλύτερη περίπτωση (σύγκριση μοντέλων με 6.5.2). Βέβαια, η ακρίβεια του μοντέλου είναι η υψηλότερη στα πειράματα με 800 διαστάσεις. Το μοντέλο αυτό έχει ακόμη υψηλότερη ακρίβεια στις 600 διαστάσεις (67,393%), την υψηλότερη από όλα τα μοντέλα. Τέλος, σχετικά με τη σύγκριση των μεθόδων μείωσης διαστάσεων που χρησιμοποιήθηκαν, η μετρική Chi Square φαίνεται να έχει λίγο καλύτερες επιδόσεις από την Informational Gain. Ως τεχνική μείωσης διαστάσεων μπορεί να θεωρηθεί και η τεχνική Stemming, η χρήση της οποίας βελτίωσε κατά 0,4% την ακρίβεια του ταξινομητή (σύγκριση μοντέλων και 6.4.7). Στο διάγραμμα που ακολουθεί παρουσιάζεται η σύγκριση των μεθόδων Chi Square και Informational Gain. Ως μέτρο σύγκρισης λαμβάνεται η ακρίβεια του ταξινομητή σε κάθε μοντέλο με διαφορετικά χαρακτηριστικά

135 Διάγραμμα 3: Σύγκριση μεθόδων μείωσης των διαστάσεων των μοντέλων -134-

136 7 Εφαρμογή Πρόβλεψης Ψυχικής Διάθεσης Στο κεφάλαιο αυτό περιγράφεται η ανάπτυξη μίας διαδικτυακής εφαρμογής, που έχει ως σκοπό την πρόβλεψη της ψυχικής διάθεσης που υποδηλώνει το γραπτό κείμενου. Δοθέντων, είτε ενός RSS Feed Url από blogs, είτε γραπτού κειμένου, το σύστημα προβλέπει την ψυχική διάθεση που εκφράζεται μέσα από τα μηνύματα του blog ή του κειμένου. Για την πρόβλεψη της ψυχικής διάθεσης το σύστημα χρησιμοποιεί κάποιο προ-εκπαιδευμένο μοντέλο ταξινόμησης (weka serialized model). Για την εκπαίδευση των μοντέλων μάθησης που χρησιμοποιεί το σύστημα και την αρχιτεκτονική του συστήματος γίνεται λόγος στη ενότητα 7.1. Στην ενότητα 7.2 παρουσιάζεται αναλυτικότερα η γραφική διεπαφή του συστήματος, δηλαδή οι δυναμικές σελίδες που το απαρτίζουν. Σημαντικό χαρακτηριστικό του συστήματος είναι ότι μπορεί να χρησιμοποιήσει οποιοδήποτε προ-εκπαιδευμένο μοντέλο ταξινόμησης και να ταξινομήσει ένα μήνυμα σε οσεσδήποτε ψυχικές διαθέσεις υποστηρίζει το προεκπαιδευμένο μοντέλο. Μάλιστα, η παραμετροποίηση αυτή γίνεται με τη χρήση ενός εξωτερικού αρχείου παραμέτρων. 7.1 Αρχιτεκτονική του Συστήματος και Μοντέλα Ταξινόμησης Το σύστημα έχει υλοποιηθεί αποκλειστικά με τεχνολογίες JAVA. Πιο συγκεκριμένα ο πυρήνας του συστήματος αποτελείται από τέσσερεις κλάσεις Java, ενώ η γραφική διεπαφή χρησιμοποιεί την τεχνολογία jsp. Σε αυτή την ενότητα θα παρουσιαστεί ο πυρήνας του συστήματος και ο τρόπος με τον οποίο δημιουργείται, αποθηκεύεται και ανακτάται ένα προ-εκπαιδευμένο μοντέλο ταξινόμησης, ώστε δοθέντος ενός νέου στιγμιότυπου να προβλεφτεί η κλάση στην οποία ανήκει, χωρίς να προηγηθεί επανεκπαίδευση ενός ταξινομητή με το συγκεκριμένο στιγμιότυπο, κάτι που φυσικά θα απαιτούσε μη αποδεκτό χρόνο για μία real-time διαδικτυακή εφαρμογή

137 7.1.1 Η αρχιτεκτονική του συστήματος Η αρχιτεκτονική του συστήματος παρουσιάζεται σχηματικά στο διάγραμμα που ακολουθεί. ΚΕΙΜΕΝΙΚΑ ΔΕΔΟΜΕΝΑ ΑΠΟ FEED Ή ΧΡΗΣΤΗ ΠΡΟΕΠΕΞΕΡΓΑΣΙΑ ΚΑΙ ΜΟΝΤΕΛΟΠΟΙΗΣΗ ΠΡΟΒΛΕΨΗ Μοντελοποιημένα ΤΙΜΗΣ (ΑΠΑΛΟΙΦΗ HTML TAGS, Κείμενα ΑΝΑΛΟΓΑ ΑΝΤΙΚΑΤΑΣΤΑΣΗ χαρακτηριστικά με ΤΟΥΣ ΚΑΝΟΝΕΣ EMOTICONS ΜΕ ΛΕΞΕΙΣ, τα χαρακτηριστικά ΥΠΟΛΟΓΙΣΜΟΥ POS TAGGING, STEMMING, εκπαίδευσης ) ΠΟΥ ΟΡΙΖΕΙ ΤΟ UNIGRAMS, BIGRAMS, STOPWORD REMOVAL, (ίδια ΚΛΑΣΗΣ ΜΕ ΠΑΡΟΥΣΙΑΣΗ ΑΠΟΤΕΛΕΣΜΑΤΩΝ ΜΟΝΤΕΛΟ ΤΑΞΙΝΟΜΗΣΗΣ LINE LENGTH) ΠΡΟΕΚΠΑΙΔΕΥΜΕΝΟ ΜΟΝΤΕΛΟ ΜΑΘΗΣΗΣ ΚΑΙ ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ ΕΚΠΑΙΔΕΥΣΗΣ Εικόνα 43: Η αρχιτεκτονική του συστήματος Τα αρχεία της εφαρμογής που δομήθηκαν με βάση την παραπάνω αρχιτεκτονική εμφανίζονται στην εικόνα που ακολουθεί και η λειτουργικότητά τους περιγράφεται στον πίνακα 13: -136-

138 Εικόνα 44: Τα αρχεία του Project MoodTeller Ακολουθεί ο πίνακας περιγραφής της λειτουργικότητας των αρχείων που φαίνονται στην εικόνα. Πίνακας 17: Η λειτουργικότητα των αρχείων JAVA και των JSP σελίδων Λειτουργικότητα Είναι ο πυρήνας του συστήματος. Υλοποιεί τη δημιουργία στιγμιότυπων Όνομα αρχείου MoodTellerCore.java κλάσεων (deserialization) για το προεκπαιδευμένο μοντέλο και την εφαρμογή του ταξινομητή σε ένα νέο μήνυμα. Χρησιμοποιείται για την προεπξεργασία ενός νέου μηνύματος. Είναι βοηθητικές στατικές κλάσεις, οι οποίες χρησιμοποιούνται για την ανάγνωση των μηνυμάτων ενός RSS Feed και την αποθήκευσή τους σε ένα InputFileRader.java RSSReaderUtils.java, ExcelUtils.java προσωρινό excel αρχείο. Είναι η γραφική διεπαφή. Λαμβάνουν την είσοδο του συστήματος, τα νέα Jsp σελίδες μηνύματα και παρουσιάζουν την πρόβλεψη που επιστρέφει ο πυρήνας

139 Είσοδοι του Συστήματος Όπως είναι ορατό από το διάγραμμα αρχιτεκτονικής, το σύστημα λαμβάνει ως εισόδους τα κειμενικά δεδομένα (μηνύματα blogs από RSS Feeds ή κείμενο χρήστη) που καλείται να ταξινομήσει και το προ-εκπαιδευμένο μοντέλο μάθησης μαζί με τα χαρακτηριστικά με τα οποία τα κειμενικά δεδομένα εκπαίδευσης μοντελοποιήθηκαν. Η παροχή των κειμενικών δεδομένων επιτελείται μέσω της γραφικής διεπαφής και αναλύεται στην ενότητα 7.2. Το λογισμικό μηχανικής μάθησης Weka9 που χρησιμοποιήθηκε στην παρούσα εργασία υποστηρίζει την αποθήκευση των παραμέτρων ή κανόνων υπολογισμού που προέκυψαν κατά την εκπαίδευση ενός ταξινομητή (οποιασδήποτε κατηγορίας) με ένα σύνολο εκπαίδευσης. Το μοντέλο αυτό αποθηκεύεται σε ένα αρχείο, αποτελώντας ένα serialized java object και μπορεί να ξανακληθεί οποτεδήποτε είναι απαραίτητο για την ταξινόμηση ενός νέου στιγμιότυπου. Όταν ξανακληθεί για την ταξινόμηση του νέου παραδείγματος δε γίνεται, λοιπόν, από την αρχή η εκπαίδευση ενός νέου ταξινομητή, αλλά το στιγμιότυπο ταξινομείται με βάση τις παραμέτρους του ήδη εκπαιδευμένου μοντέλου. Αυτή η διαδικασία είναι φυσικά πολύ συντομότερη από μία διαδικασία επανεκπαίδευσης, η οποία θα ήταν εξαιρετικά χρονοβόρα στην περίπτωση των πολυδιάστατων κειμενικών δεδομένων και θα μείωνε δραματικά το χρόνο απόκρισης του συστήματος. Επιπρόσθετα, είσοδο του συστήματος αποτελούν και τα χαρακτηριστικά του μοντέλου εκπαίδευσης. Αυτό είναι απαραίτητο, ώστε κάθε νέο κειμενικό στιγμιότυπο να μοντελοποιηθεί με βάση τα χαρακτηριστικά του συνόλου εκπαίδευσης, ώστε να είναι δυνατή η ταξινόμησή του με το προ-εκπαιδευμένο μοντέλο. Στην παρακάτω εικόνα φαίνεται το σύνολο των αρχείων με τα οποία αναπαρίσταται ένα προ-εκπαιδευμένο μοντέλο και τα χαρακτηριστικά του. 9 Πληροφορίες για τη διαδικασία Serialization στο Weka παρέχονται στη διεύθυνση: Πληροφορίες για τα Weka Models παρέχονται στη διεύθυνση:

140 Εικόνα 45: Σύνολο αρχείων που απαρτίζουν ένα προ-εκπαιδευμένο μοντέλο Τα αρχεία τύπου Model είναι τα δυαδικά αρχεία που περιέχουν τις παραμέτρους ή τους κανόνες υπολογισμού που προέκυψαν κατά την εκπαίδευση ενός ταξινομητή με ένα σύνολο δεδομένων εκπαίδευσης. Αυτά τα αρχεία δεν περιέχουν το σύνολο των δεδομένων εκπαίδευσης. Τα δεδομένα εκπαίδευσης περιέχονται στα αρχεία τύπου Ins, τα οποία είναι επίσης serialized java objects, αντικειμένων τύπου Instances (στιγμιότυπων) του Weka. Τα αρχεία αυτά παράγονται είτε μέσω του λογισμικού Weka είτε μέσω του TagHelperTools. Τα υπόλοιπα αρχεία παράγονται αυτόματα από το εργαλείο TagHelperTools, κατά τη διαδικασία μετατροπής ενός κειμένου σε διανυσματική αναπαράσταση όρων. Έτσι, το αρχείο FEATURE περιέχει, τα χαρακτηριστικά που επιλέχθηκαν από τα αρχικά κείμενα εκπαίδευσης, σύμφωνα με τα κριτήρια επιλογής αυτού που σχεδίασε την εκπαίδευση (καταγράφονται στο OM αρχείο). Οι κατηγορίες των χαρακτηριστικών εκπαίδευσης μπορεί να είναι μεμονωμένοι όροι (unigrams), ζεύγη όρων (bigrams), ζεύγη μερών του λόγου (POS tagging) unigrams), πληροφορία για το μέσο μήκος μιας γραμμής (line length) ενός μηνύματος, και ένα boolean χαρακτηριστικό για το εάν ένα κείμενο περιέχει συνδέσμους ή όχι (contains stop words) ή και συνδυασμοί των παραπάνω. Ακόμα, κατά την εκπαίδευση καθορίζεται το εάν θα χρησιμοποιηθεί stemming, απαλοιφή των συνδέσμων και των κανόνων στίξης. Στην επόμενη εικόνα παρουσιάζεται ο κώδικας που διαβάζει όλα αυτά τα serialized data objects και δημιουργεί τα στιγμιότυπα των κλάσεων που τα αρχεία περιγράφουν

Δείτε περισσότερα