Εξόρυξη γνώσης από σχόλια σε τουριστικές ιστοσελίδες και παραγοντική ανάλυση του αισθήματος ικανοποίησης των πελατών για το ξενοδοχείο τους Γιώργος ταλίδης 1, Παναγιώτης ταλίδης 2, Κώστας Διαμαντάρας 2 και Δημήτριος Καραπιστόλης 1 Αλεξάνδρειο ΣΕΙ Θεσσαλονίκης 1 Σμήμα Διοίκησης Επιχειρήσεων 2 Σμήμα Μηχανικών Πληροφορικής Χρηματοδοτείται από την Ευρωπαϊκή Ένωση και Εθνικούς πόρους μέσω του προγράμματος ΑΡΧΙΜΗΔΗ ΙΙΙ
Κίνητρο και στόχοι της εργασίας Η δημοσιοποίηση της εμπειρίας και της γνώμης των τουριστών σε ιστοσελίδες κοινωνικής δικτύωσης επιδρά στις αποφάσεις νέων πελατών Σεράστιος όγκος δεδομένων μπορεί να αποτελέσει πηγή γνώσης σχετικά με το πώς διαμορφώνεται το αίσθημα ικανοποίησης των πελατών και από ποια στοιχεία επηρεάζεται τόχος τα σχόλια σε μορφή ελεύθερου κειμένου Εστίαση στην ανάλυση αισθήματος (sentiment analysis) Αδόμητα δεδομένα, μεγάλος όγκος -> text mining υσχέτιση του αισθήματος με άλλες μεταβλητές για την εύρεση παραγόντων και τάσεων που διαμορφώνουν τη γνώμη των επισκεπτών Παραγοντική ανάλυση αντιστοιχιών Εξαγωγή γνώσης σε μορφή κανόνων
Το συνολικό πλαίσιο Raw data Captured from social media Text mining / Sentiment analysis
Άντληση δεδομένων Προέλευση Tripadvisor άντληση με crawler σε python Ξενοδοχεία στην Κρήτη σχόλια στα Αγγλικά Ελεύθερα σχόλια, συνολική βαθμολογία, επιμέρους βαθμολογίες, Stars, Rating 60.000 reviews
Εξόρυξη αισθήματος από φυσικό κείμενο με μηχανική μάθηση
Επεξεργασία φυσικής γλώσσας Ιδιωματισμοί, ορθογραφικά λάθη, συντμήσεις, παρατεταμένοι χαρακτήρες, σύμβολα/στίξη. The ooonly good thing!!! Επαναλήψεις λέξεων, διπλή άρνηση, κλπ Κατακερματισμός (tokenizing), συχνές λέξεις
Εξαγωγή χαρακτηριστικών Δημιουργία προτύπων εκμάθησης Μοντέλα Bag of Words Χωρισμός σε κέρματα (tokens) Καταμέτρηση και κανονικοποίηση Διάνυσμα παρουσίας λέξεων στο κείμενο SentiWordNet Χαρακτηρισμός λέξεων με βάση λεξικό ύνοψη χαρακτηρισμού σε επίπεδο κειμένου Word2Vec Απεικόνιση λέξεων σε διανύσματα μεγάλης διάστασης (π.χ. 100) Προσέγγιση της «εγγύτητας» των εννοιών των λέξεων Doc2Vec Συνδυασμός των 3 μοντέλων
Αλγόριθμοι μηχανικής μάθησης Multinomial Naive Bayes Maximum Entropy (Logistic Regression) Support Vector Machines SVM with RBF Kernel Οι 4 αλγόριθμοι ML δοκιμάστηκαν σε 8 σετ χαρακτηριστικών από διαφορετικά μοντέλα εξαγωγής χαρακτηριστικών τόχος α) Κατάταξη σε κλίμακα 1-5 (συνολικό Rating του αξιολογητή) β) Δυαδική κατάταξη (+/-): 1,2,3 -> «-», 4,5-> «+»
Αποτελέσματα ανάλυσης αισθήματος
Αξιολόγηση αλγορίθμων Σο μοντέλο BoW είναι το πιο αποτελεσματικό από τα 3 απλά (82% ακρίβεια, έναντι 68% και 75% των SentiWordNet και Word2Vec, αντίστοιχα) Σο μοντέλο Doc2Vec βελτιώνει την απόδοση (87%) Οι τίτλοι που βάζουν οι χρήστες συνοψίζουν σε μεγάλο βαθμό τις συνολικές κριτικές Όλοι οι αλγόριθμοι ταξινόμησης δίνουν περίπου τα ίδια αποτελέσματα
Συσχέτιση επιμέρους στοιχείων αξιολόγησης με συνολικό αίσθημα υχνότερη δυσαρέσκεια από τον ύπνο και το δωμάτιο σε σχέση με την καθαριότητα
Διασταύρωση αξιολόγησης με χώρα
Διασταύρωση αισθήματος με αστέρια και χαρακτηριστικά ξενοδοχείου Αρνητικό αίσθημα συνδέεται με τις χαμηλότερες συνολικές βαθμολογίες του Tripadvisor, ξενοδοχεία 2 αστέρων, έλλειψη πάρκινγκ και πρωινού. Θετικό συναίσθημα για τα ξενοδοχεία με βαθμό 5 και ουδετερότητα για αυτά των 3 αστέρων.
Συμπεράσματα Η ανάλυση αισθήματος από σχόλια σε φυσικό κείμενο απεικονίζει αξιόπιστα την ικανοποίηση των επισκεπτών από το ξενοδοχείο τους. Η πρόβλεψη αισθήματος μπορεί να συσχετιστεί με χαρακτηριστικά των επισκεπτών και των ξενοδοχείων Τποσχόμενη μέθοδος αυτόματης εξαγωγής γνώσης από ανεξάντλητα και διαρκώς ανανεωνόμενα δεδομένα διαθέσιμα στο διαδίκτυο Περιορισμοί μελλοντική εργασία Πρόβλεψη αισθήματος για επιμέρους στοιχεία/κατηγορίες ενδιαφέροντος Εξαγωγή ολοκληρωμένων κανόνων για την τροφοδότηση της Βάσης Γνώσης