Opinion Mining Χριστίνα Αραβαντινού aravantino@ceid.upatras.gr Μάιος 2014 Χριστίνα Αραβαντινού Opinion Mining Μάιος 2014 1 / 26
Περιεχόμενα Εισαγωγή Εφαρμογές ομή μιας άποψης Είδη απόψεων Προσεγγίσεις Επίλυση της Αναφοράς Spam Detection Opinion Mining και Κοινωνικές Επιστήμες SentiWordNet SentiStrength Χριστίνα Αραβαντινού Opinion Mining Μάιος 2014 2 / 26
Εισαγωγή (1/2) ύο είδη κειμενικής πληροφορίας: Γεγονότα και Απόψεις. Η Εξόρυξη Γνώμης (Opinion Mining) είναι η μελέτη των απόψεων και των συναισθημάτων που εκφράζονται σ ένα κείμενο. Το Web παράγει μεγάλες ποσότητες κειμένων που περιέχουν άποψη ανάγκη για αποτελεσματικές τεχνικές Opinion Mining. Χριστίνα Αραβαντινού Opinion Mining Μάιος 2014 3 / 26
Εισαγωγή (2/2) Οι απόψεις είναι σημαντικές γιατί όταν πρέπει να πάρουμε μια απόφαση για κάτι, θέλουμε να ακούσουμε και τις γνώμες των άλλων. User-generated content: κριτικές χρηστών, forums, blogs, Twitter, ομάδες συζητήσεων στο Web. Χριστίνα Αραβαντινού Opinion Mining Μάιος 2014 4 / 26
Εφαρμογές Business Intelligence Προγραμματισμός αγορών ιαχείριση της γνώμης του κόσμου Web Advertising Πολιτική Χριστίνα Αραβαντινού Opinion Mining Μάιος 2014 5 / 26
ομή μιας άποψης (1/2) Ενα παράδειγμα: I bought an iphone a few days ago. It was such a nice phone. The touch screen was really cool. The voice quality was clear too. Although the battery life was not long, that is ok for me. However, my mother was mad with me as I did not tell her before I bought the phone. She also thought the phone was too expensive, and wanted me to return it to the shop. (Bing Liu, Opinion Mining and Sentiment Analysis: NLP Meets Social Sciences) Χριστίνα Αραβαντινού Opinion Mining Μάιος 2014 6 / 26
ομή μιας άποψης (2/2) Μια άποψη (opinion) εκφράζεται από κάποιον (opinion holder) για κάτι (target object). Η άποψη μπορεί να έχει θετική, αρνητική ή ουδέτερη πολικότητα (polarity). Mary thinks that her new phone is fantastic. Opinion: (her new phone) is fantastic Opinion holder: Mary Target object: phone Polarity: positive Χριστίνα Αραβαντινού Opinion Mining Μάιος 2014 7 / 26
Είδη απόψεων Άμεσες απόψεις: εκφράσεις άποψης/συναισθήματος για κάποια οντότητα (προϊόντα, γεγονότα, θέματα, ανθρώπους κλπ). That book was really amazing. Συγκριτικές απόψεις: Συγκρίσεις που περιγράφουν ομοιότητες ή διαφορές για περισσότερες από μία οντότητες. Galaxy S4 is better than Galaxy S3. Χριστίνα Αραβαντινού Opinion Mining Μάιος 2014 8 / 26
Κατηγοριοποίηση συναισθήματος: επίπεδο κειμένου (1/3) Κατηγοριοποίηση ενός κειμένου με βάση το συνολικό συναίσθημα που εκφράζεται απ τον opinion holder. Υποθέτει ότι κάθε κείμενο αναφέρεται σ ένα συγκεκριμένο αντικείμενο/θέμα και περιέχει απόψεις μόνο από έναν opinion holder. Χριστίνα Αραβαντινού Opinion Mining Μάιος 2014 9 / 26
Κατηγοριοποίηση συναισθήματος: επίπεδο κειμένου (2/3) Μη επιβλεπόμενη κατηγοριοποίηση (Turney, 2002): Κριτικές απ το epinions.com για ταινίες, τράπεζες, ταξιδιωτικούς προορισμούς κλπ. Part-of-speech tagging. Εξαγωγή δύο διαδοχικών λέξεων απ τις κριτικές, αν τα μέρη του λόγου τους αντιστοιχούν σε κάποια δοθέντα patterns: επίθετο+ουσιαστικό, επίρρημα+επίθετο κλπ. Εκτίμηση του συναισθηματικού προσανατολισμού (SO) των εξαχθέντων φράσεων και υπολογισμός του μέσου SO όλων των φράσεων. Το κείμενο κατηγοριοποιείται ως θετικό αν ο μέσος SO είναι θετικός, αλλιώς ως αρνητικό. Χριστίνα Αραβαντινού Opinion Mining Μάιος 2014 10 / 26
Κατηγοριοποίηση συναισθήματος: επίπεδο κειμένου (3/3) Επιβλεπόμενη κατηγοριοποίηση (Pang et al., 2002) Εφαρμογή τεχνικών επιβλεπόμενης μάθησης για την κατηγοριοποίηση κριτικών ως θετικών ή αρνητικών. Naive Bayes, Maximum Entropy, Support Vector Machines. Features: λέξεις, διγράμματα, μέρη του λόγου, θέση κάθε λέξης κ.α. Σύνολο εκπαίδευσης κι ελέγχου: κριτικές για ταινίες (4-5 αστέρια θετικές, 1-2 αστέρια αρνητικές). Χριστίνα Αραβαντινού Opinion Mining Μάιος 2014 11 / 26
Κατηγοριοποίηση συναισθήματος: Επίπεδο πρότασης (1/2) Η κατηγοριοποίηση συναισθήματος σ επίπεδο κειμένου είναι πολύ γενική για τις περισσότερες εφαρμογές. Η ανάλυση στο επίπεδο της πρότασης στοχεύει στην κατηγοριοποίηση μιας πρότασης ως θετικής ή αρνητικής. ύο βήματα: Εντοπισμός υποκειμενικών προτάσεων. Κατάταξή τους σε μία απ τις δύο κλάσεις (θετική η αρνητική). Χριστίνα Αραβαντινού Opinion Mining Μάιος 2014 12 / 26
Κατηγοριοποίηση συναισθήματος: Επίπεδο πρότασης (2/2) Αναγνώριση υποκειμενικών προτάσεων με υπολογισμό ομοιότητας προτάσεων και Μπεϋζιανή κατηγοριοποίηση. Κατηγοριοποίηση συναισθήματος (θετικό, αρνητικό, ουδέτερο). (Yu and Hatzivassiloglou, 2003) Χριστίνα Αραβαντινού Opinion Mining Μάιος 2014 13 / 26
Επίπεδο οντοτήτων και χαρακτηριστικών (1/4) Η κατηγοριοποίηση στο επίπεδο κειμένου και πρότασης δεν εντοπίζει σε τι αναφέρεται η άποψη, δηλαδή τις οντότητες και τα χαρακτηριστικά τους. Το επόμενο βήμα είναι η αναγνώριση των οντοτήτων που συνδέονται με κάθε άποψη. Το μεγαλύτερο μέρος της έρευνας βασίζεται σε online reviews ο εντοπισμός της οντότητας (πχ όνομα προϊόντος) είναι ευκολότερος. Χριστίνα Αραβαντινού Opinion Mining Μάιος 2014 14 / 26
Επίπεδο οντοτήτων και χαρακτηριστικών (2/4) Αφαίρεση συχνών ονοματικών φράσεων που μάλλον δεν είναι χαρακτηριστικά ενός προϊόντος. Αναγνώριση σχέσεων part-of: Σε κάθε ονοματική φράση ανατίθεται ένα σκορ Pointwise Mutual Information που συνδέει αυτή τη φράση με εκφράσεις που αναφέρονται σε μέρος κάποιου προϊόντος. PMI(a, b) = hits(a b) hits(a)hits(b) (Popescu and Etzioni, 2005) Χριστίνα Αραβαντινού Opinion Mining Μάιος 2014 15 / 26
Επίπεδο οντοτήτων και χαρακτηριστικών (3/4) Προσέγγιση Double Propagation: (Qiu et al.,2009) Εξετάζει τις σχέσεις εξάρτησης ανάμεσα στις απόψεις και στα χαρακτηριστικά για να εξάγει χαρακτηριστικά. Οι λέξεις που φέρουν άποψη τροποποιούν κάποια χαρακτηριστικά του προϊόντος, πχ This camera takes great pictures. Ο αλγόριθμος ξεκινά χρησιμοποιώντας ένα σύνολο με λέξεις που εκφράζουν άποψη (set of seed opinion words). Χριστίνα Αραβαντινού Opinion Mining Μάιος 2014 16 / 26
Επίπεδο οντοτήτων και χαρακτηριστικών (4/4) Χριστίνα Αραβαντινού Opinion Mining Μάιος 2014 17 / 26
Επίλυση της Αναφοράς I bought a Canon S500 camera yesterday. It looked beautiful. I took a few photos last night. They were amazing. Σημαντική για το διαχωρισμό αντικειμένων και χαρακτηριστικών. Πρώτα sentiment analysis, στη συνέχεια εντοπισμός των συσχετίσεων επιθέτων και ουσιαστικών και τέλος επιβλεπόμενη μάθηση. (Ding and Liu, 2010) Χριστίνα Αραβαντινού Opinion Mining Μάιος 2014 18 / 26
Spam Detection (1/3) Οι απόψεις που εκφράζονται στα social media είναι χρήσιμες σε διαφορετικούς φορείς. Οι θετικές απόψεις συχνά σημαίνουν κέρδη και καλή φήμη για συγκεκριμένες επιχειρήσεις. Αυτό οδηγεί συχνά στην ανάρτηση ψεύτικων απόψεων και κριτικών. Χριστίνα Αραβαντινού Opinion Mining Μάιος 2014 19 / 26
Spam Detection (2/3) Οι ψεύτικες/αναληθείς κριτικές μπορεί να είναι: θετικές, με στόχο την προώθηση συγκεκριμένων προϊόντων. αρνητικές, με στόχο τη διαστρέβλωση της φήμης συγκεκριμένων προϊόντων. Χριστίνα Αραβαντινού Opinion Mining Μάιος 2014 20 / 26
Spam Detection (3/3) Οι πολύ αρνητικές κριτικές τείνουν να είναι spam. Οι κριτικές που είναι οι μοναδικές κριτικές σε μερικά προϊόντα είναι πιθανό να είναι spam. Οι κορυφαίοι reviewers μάλλον είναι spammers. Οι κριτικές που είναι spam συνήθως παίρνουν πολύ θετικό feedback, ενώ αυτές που δεν είναι συνήθως παίρνουν αρνητικό feedback. Χριστίνα Αραβαντινού Opinion Mining Μάιος 2014 21 / 26
Opinion Mining και Κοινωνικές Επιστήμες Εντοπισμός κι ανάλυση πολιτικών απόψεων. Σύγκριση των απόψεων που έχουν άνθρωποι από διαφορετικές χώρες για το ίδιο ζήτημα. Οι κοινωνικές, πολιτισμικές και οικονομικές επιδράσεις του spam. Ανάλυση συναισθήματος στον ψηφιακό κόσμο. Πώς οι απόψεις που εκφράζονται στο Web επηρεάζουν τον πραγματικό κόσμο. Χριστίνα Αραβαντινού Opinion Mining Μάιος 2014 22 / 26
SentiWordNet http://sentiwordnet.isti.cnr.it/index.php Λεξιλογική πηγή για Opinion Mining. Αναθέτει σε κάθε σύνολο συνωνύμων του WordNet ένα σκορ θετικής (P), αρνητικής (N) και ουδέτερης (O) πολικότητας. good: P: 0.75 O: 0.25 N: 0 Χριστίνα Αραβαντινού Opinion Mining Μάιος 2014 23 / 26
SentiStrength (1/2) http://sentistrength.wlv.ac.uk/ Σύστημα σχεδιασμένο για κείμενα του Κοινωνικού Ιστού. Χρησιμοποιεί λεξιλογική προσέγγιση. Προβλέπει την ένταση θετικού και αρνητικού συναισθήματος σε κείμενα. Χριστίνα Αραβαντινού Opinion Mining Μάιος 2014 24 / 26
SentiStrength (2/2) Αναθέτει σε ένα λεξικό 2608 λέξεων και θεμάτων λέξεων ένα ζεύγος θετικής και αρνητικής πολικότητας. Σε μη επιβλεπόμενη μορφή χρησιμοποιεί προκαθορισμένα σκορ για κάθε λέξη. Σε επιβλεπόμενη μορφή χρησιμοποιεί ένα σύνολο δεδομένων εκπαίδευσης για να προσαρμόσει τα σκορ των λέξεων πιο σωστά. Χριστίνα Αραβαντινού Opinion Mining Μάιος 2014 25 / 26
Αναφορές Bing Liu. Sentiment Analysis and Opinion Mining. Morgan & Claypool Publishers. May 2012. Furu Wei. Sentiment Analysis and Opinion Mining. Χριστίνα Αραβαντινού Opinion Mining Μάιος 2014 26 / 26