ΕΡΓΑΣΙΑ ΣΤΗΝ ΕΞΟΡΥΞΗ & ΑΝΑΚΤΗΣΗ ΠΛΗΡΟΦΟΡΙΑΣ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ ΘΕΜΑ: Μελέτη βιβλιογραφίας σχετικά με NLP & Sentiment analysis για rating prediction

ΕΡΓΑΣΙΑ ΣΤΗΝ ΕΞΟΡΥΞΗ & ΑΝΑΚΤΗΣΗ ΠΛΗΡΟΦΟΡΙΑΣ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ ΘΕΜΑ: Μελέτη βιβλιογραφίας σχετικά με NLP & Sentiment analysis για rating prediction ΔΗΜΗΤΡΙΑΔΗΣ ΔΗΜΗΤΡΗΣ - 560 ΧΡΙΣΤΕΛΗΣ ΕΥΑΓΓΕΛΟΣ 604 ΠΑΝΑΤΣΙΑΣ ΙΩΑΝΝΗΣ 581

I. Εισαγωγή Τα άρθρα, τα οποία μελετήσαμε είχαν ως βασικό άξονα την ανάλυση κειμένου αξιολόγησης χρηστών κοινωνικών δικτύων σχετικά με κάποιες επιχειρήσεις. Στόχος αυτής της στρατηγικής είναι η εξαγωγή συμπερασμάτων για τα προϊόντα ή τις υπηρεσίες, που παρέχονται από κάποια επιχείρηση, με πιο αντιληπτό τρόπο. Για να καταστεί αυτό δυνατό οι πολλοί ερευνητές προσέγγισαν το θέμα από την σκοπιά της επεξεργασίας φυσικής γλώσσας (Natural Language Processing). Συγκεκριμένα, οι περισσότεροι προσπάθησαν να βελτιώσουν τις ήδη υπάρχουσες βαθμολογίες χρηστών με βάση την γραπτή αξιολόγησή τους σχετικά με ένα προϊόν ή υπηρεσία. Δηλαδή σε κοινότητες ιστοσελίδες, όπως το Yelp, ο κάθε χρήστης μπορεί να δώσει μια κριτική σε μια κλίμακα 1-5 αστεριών (1 λιγότερο ευχαριστημένος, 5 πάρα πολύ ευχαριστημένος ) και μια γραπτή σύντομη αξιολόγηση της επιχείρησης με βάση την εμπειρία του. Ακόμη, το σκεπτικό αυτό μπορεί να χρησιμοποιηθεί και σε δημοσκοπήσεις για την έκβαση εκλογών και στην αποτύπωση του γενικού συναισθήματος μιας κοινωνίας για κάποιο φαινόμενο ή κατάσταση. Αυτό μπορεί να συμβεί με την εξαγωγή πληροφορίας από τις διαμοιραζόμενες πληροφορίες χρηστών ιστοσελίδων κοινωνικής δικτύωσης και γενικά Web 2.0 τεχνολογιών. Τα τελευταία έτη, η λογική αυτή της εξόρυξης πληροφοριών από τα δεδομένα κοινωνικών δικτύων έχει εκτοξευθεί, καθώς σε αυτές τις πλατφόρμες οι χρήστες μπορούν εκφράσουν την γνώμη τους για κάποιο πολιτικό πρόσωπο ή μια υπηρεσία οικειοθελώς και με βάση την εμπειρία τους. Παρόλα αυτά, η διαδικασία της εξόρυξης και η αποτελεσματικότητά της στην πρόβλεψη δεν έχει αξιοποιηθεί επαρκώς και γίνονται προσπάθειες για την εξαγωγή συναισθήματος από κριτικές και την μετατροπή αυτού σε χρήσιμη πληροφορία για τους άλλους χρήστες και στην δημιουργία ακριβέστερων προτάσεων προϊόντων. Τα προβλήματα που προάγουν την ανάπτυξη αυτού του κλάδου είναι αρχικά το κόστος διεξαγωγής δημοσκοπήσεων μέσω της κλασσικής μεθόδου των τηλεφωνημάτων. Ακόμη, η ύπαρξη κριτικών από πολλούς χρήστες για κάποιο προϊόν μπορεί να κουράσει κάποιον αναγνώστη καθώς αναζητά χρήσιμες πληροφορίες σε ένα τεράστιο πλήθων κριτικών. Συνεπώς, η εύρεση μια μεθόδου μετατροπής των κριτικών σε μια μετρική καλής κακής κριτικής είναι πιο προσιτή και στοχευμένη στην κατανόηση της ποιότητας κάποιας υπηρεσίας προϊόντος. Στην μελέτη μας θα προσπαθήσουμε να εκτελέσουμε πειράματα με το σκεπτικό να μετατρέψουμε το συναίσθημα μιας κριτικής σε μια μετρήσιμη ποσότητα για την διευκόλυνση των χρηστών. Αυτό θα το προσπαθήσουμε κατασκευάζοντας μοντέλα πρόβλεψης των βαθμολογιών των χρηστών του Yelp μέσω της αντίστοιχης κριτικής τους. Με αυτό τον τρόπο θα δείξουμε αν μπορεί να υποβοηθηθεί η βαθμολογία από την κριτική ή και να προβλεφθεί εξ ολοκλήρου χωρίς να χρειάζεται να την θέσει ο χρήστης χειροκίνητα.

I. Βασικές Αρχές Δύο πολύ σημαντικές μετρικές για τον υπολογισμό της ικανότητας της βαθμολογικής πρόβλεψης είναι η ακρίβεια (Precision) και η ανάκληση (Recall). Η ανάκληση μετρά το ποσοστό των σχετικών εγγράφων που το σύστημα μπορεί να ανακτήσει σε σχέση με όλα τα σχετικά έγγραφα που υπάρχουν στη συλλογή. Η ακρίβεια μετρά το ποσοστό των εγγράφων που είναι σχετικά μεταξύ αυτών που έχουν ανακτηθεί. Η ακρίβεια και η ανάκληση υπολογίζονται από τους παρακάτω τύπους αντίστοιχα: Precision = tp fp + tp, Recall = tp tp + fn όπου tp, fp, fn είναι ο αριθμός των σωστών θετικών, των λανθασμένων θετικών και των λανθασμένων αρνητικών ψήφων αντίστοιχα. Για να καθοριστεί η ορθότητα της πρόβλεψης, συγκρίνεται η πρόβλεψη της βαθμολογίας με τα μεταδεδομένα που παράγει το σύστημα της βαθμολόγησης. Μια ακόμη μετρική που χρησιμοποιήθηκε ήταν το μέσο τετραγωνικό σφάλμα (MSE), η οποία δίνει το συνολικό σφάλμα των μοντέλων πρόβλεψης σε κάποιο σύνολο δεδομένων. Ένα επιπρόσθετο μέτρο αξιολόγησης αποτελεί ο χρόνος εκτέλεσης της πρόβλεψης (runtime of the predictor), η οποία είναι ιδιαίτερα σημαντική σε περιπτώσεις όπου υπάρχει μεγάλος όγκος δεδομένων. II. Αλγόριθμοι & Τεχνικές Οι μεθοδολογίες, οι οποίες μελετήθηκαν, έχουν πολλά κοινά σημεία αλλά κάθε μία έχει κάτι το διαφορετικό να προσφέρει στην καλύτερη κατανόηση και προσέγγιση του θέματος. Η πρώτη προσέγγιση [1] ασχολείται με την βελτίωση της κριτικής σε εστιατόρια με βάση την κριτική των πελατών. Συγκεκριμένα, προτάθηκαν μέθοδοι χαρακτηρισμού ενός εστιατορίου ως καλού/κακού σχετικά με το φαγητό, το περιβάλλον, τις τιμές και της εξυπηρέτησης ξεχωριστά. Με αυτό τον τρόπο επιδιώκεται η βελτίωση της ακρίβειας στην πρόταση του καλύτερου εστιατορίου ανάλογα με τις προτιμήσεις του πελάτη. Το σύνολο δεδομένων, στο οποίο έγιναν τα πειράματα, προέρχεται από 50000 κριτικές εστιατορίων. Οι κριτικές αυτές προέρχονται από κριτικούς εστιατορίων και από πελάτες. Ένα μικρό ελάττωμα του συνόλου δεδομένων είναι πώς είναι αραιό, καθώς τα εστιατόρια έχουν λίγες κριτικές το καθένα και κάθε πελάτης/κριτικός έχει αξιολογήσει λίγα εστιατόρια. Η μεθοδολογία που ακολουθήθηκε ήταν: a) Ανάλυση των δεδομένων για την ανάδειξη κατηγοριών( Food, Service, Price, Ambience, Anecdotes και Miscellaneous) σχετικές με εστιατόρια στις οποίες θα ανατεθούν προτάσεις από τις κριτικές. Ακόμη δημιουργήθηκαν και οι κατηγορίες συναισθήματος της κάθε πρότασης (Positive, Negative, Neutral και Conflict).

b) Χειροκίνητη επισήμανση προτάσεων ως προς τις παραπάνω κατηγορίες. c) Εκπαίδευση και εκτέλεση πειραμάτων σε SVM (Support Vector Machines) ταξινομητές στα εν λόγω δεδομένα ( ταξινομητής ανάλογα με την κατηγορία και ταξινομητής ανάλογα με τις κατηγορίες συναισθήματος ). Τα χαρακτηριστικά κάθε ταξινομητή ήταν οι «ρίζες» των λέξεων (stemmed words) d) Για την εκτίμηση των αποτελεσμάτων χρησιμοποιήθηκε 7-fold cross validation και οι μετρικές accuracy, precision και recall. Τα παραπάνω είχαν καλά αποτελέσματα συνεπώς η δημιουργία μοντέλων πρόβλεψης με βάση το συναίσθημα είναι εφικτή και πιθανόν αποδοτική. Με σκοπό την εκμετάλλευση του εξαγόμενου συναισθήματος από τις κριτικές κατασκευάστηκε ένας τύπος για την μετατροπή της πληροφορίας αυτής σε βαθμολογία κριτικής, η οποία είναι εύκολα συγκρίσιμη με την βαθμολογία αστεριών. Ο τύπος αυτός είναι ο εξής : TextRating = [ P 4] + 1, (1) P+N όπου P ο αριθμός προτάσεων με θετικό συναίσθημα στην κριτική και N είναι ο αριθμός των προτάσεων με αρνητικό συναίσθημα, αντίστοιχα. Η βαθμολόγηση αυτή συγκεντρώνει το συνολικό συναίσθημα των προτάσεων και της όλης κριτικής. Με βάση αυτή την μετρική, δοκιμάστηκαν 3 μέθοδοι πρόβλεψης τις αξιολόγησης σε αστέρια. Η πρώτη μέθοδος, υπολογίζει την βαθμολογία ενός εστιατορίου ως τον μέσο όρο όλων των άλλων κριτικών για το εν λόγω εστιατόριο. Η επόμενη μέθοδος, χρησιμοποιεί κάποια μεταδεδομένα για τον υπολογισμό αυτό. Συγκεκριμένα, η βαθμολογία ενός εστιατορίου υπολογίζεται ως ο μέσος όρος όλων των εστιατορίων με την ίδια τιμή στο πεδίο Cuisine. Στην τρίτη μέθοδο, υπολογίζεται και πάλι ο μέσος όρος των βαθμολογιών ανάλογα με την επιλεγμένη κατηγορία (Food, Price, κτλ.). Κατόπιν, γίνονται πειράματα και σε μοντέλα παρεμβολής και συγκεκριμένα με την συνάρτηση mvregress του Matlab. Τα δεδομένα εισόδου είναι (category, sentiment) και ως εξαρτημένη μεταβλητή έχουμε την βαθμολογία αστεριών. Χρησιμοποιώντας τα βάρη που εξάγει η συνάρτηση υπολογίζουμε τις βαθμολογίες αστεριών αλλά μπορεί να βρεθούν εκτός ορίων. Μια άλλη τακτική που μελετήσαμε αφορούσε την εξαγωγή συναισθήματος σε δεδομένα με χρονικό χαρακτηρισμό και η πρόβλεψη με βάσει αυτών αποτελεσμάτων εκλογών ή της εκτίμησης του συναισθήματος των πολιτών σχετικά με το επίπεδο ζωής ή την εύρεση εργασίας [2]. Τα δεδομένα της συγκεκριμένης έρευνας προήλθαν από το Twitter μέσω της χρήσης του Twitter API και συλλέχθηκαν δεδομένα σε ημερήσια βάση για 3 χρόνια. Τα βήματα για την ανάλυση των κειμένων τα οποία απαρτίζουν το σύνολο δεδομένων μας είναι : 1. Ανάκτηση των μηνυμάτων τα οποία είναι συναφή με το θέμα της έρευνας. 2. Εκτίμηση της γνώμης του κοινού, δηλαδή ο καθορισμός αν τα μηνύματα εκφράζουν θετικές ή αρνητικές απόψεις σχετικά με το θέμα.

Κατά την εκτίμηση της γνώμης του κοινού, έγινε συλλογή κειμένων σε ημερήσια βάση και η βαθμολογία καθενός εξαρτήθηκε από τις λέξεις που περιέχει και το συναίσθημα αυτών,θετικό ή αρνητικό, Η βαθμολόγηση αυτή γίνεται με βάση κάποιο λεξικό με βαθμονομημένες λέξεις ανάλογα με το συναίσθημα που εκφράζουν. Υπάρχουν πολλά λεξικά τέτοιου είδους όπως το SentiWord και το OpinionFinder. Κάθε μήνυμα επισημαίνεται ως θετικό ή αρνητικό ένα περιέχει κάποια θετική λέξη και αρνητικό αν περιέχει κάποιο αρνητική. Συνεπώς, υπάρχουν μηνύματα τα οποία είναι και θετικά και αρνητικά ταυτόχρονα. Η βαθμολογία συναισθήματος της κάθε μέρας δίνεται από τον τύπο: x t = t(#θετικών λέξεων ανα θέμα) t(#αρνητικών λέξεων ανα θέμα) Ο τύπος αυτός εκφράζει αναλογία θετικών μηνυμάτων σε αντίθεση με τα αρνητικά σχετικά με κάποιο θέμα σε μια δεδομένη ημέρα. Η τεχνική αυτή παρατηρήθηκε πως παράγει ασταθή αποτελέσματα και για να εξαχθεί μια πιο ομαλή τάση χρησιμοποιήθηκε μια μέθοδος εξομάλυνσης, η οποία λαμβάνει υπόψιν της και τις k προηγούμενες ημέρες. Ο τύπος της μεθόδου είναι: MA t = 1 k (x t k+1 + x t k+2 + + x t ) Με βάση τον παραπάνω τύπο μπορούμε να προβλέψουμε την βαθμολογία συναισθήματος μιας μέρας με βάση τις προηγούμενες k μέρες. Μια επόμενη προσέγγιση βασίστηκε στον αλγόριθμο μάθησης Perceptron. Στη μηχανική μάθηση, ο αλγόριθμος μάθησης perceptron χρησιμοποιείται για την εποπτευόμενη μάθηση (supervised learning) των δυαδικών κατηγοριοποιητών (binary classifiers), συναρτήσεων δηλαδή που μπορούν να αποφασίζουν αν μία είσοδος (διάνυσμα ή αριθμός) ανήκουν στην μία ή στην άλλη κατηγορία. Με άλλα λόγια, αποτελεί ένα είδος γραμμικού ταξινομητή, δηλαδή αλγόριθμος ταξινόμησης που κάνει προβλέψεις οι οποίες βασίζονται σε μια συνάρτηση γραμμικής πρόβλεψης, συνδυάζοντας ένα σύνολο βαρών με τα χαρακτηριστικά του διανύσματος. Στην περίπτωση εξόρυξης δεδομένων που έχουν να κάνουν με τα συναισθήματα, χρησιμοποιείται ο αλγόριθμος μάθησης perceptron για να προβλεφθεί το συναίσθημα του χρήστη που γράφει την κριτική. Κάθε κριτική δεν θεωρείται ένα κείμενο συνολικό αλλά ένα σύνολο από προτάσεις κάθε μία από τις οποίες έχει το δικό της συναισθηματικό επίπεδο. Με αυτή την προσέγγιση, μετατίθεται το πρόβλημα στην συναισθηματική ανάλυση σε μία πρόταση αντί για ολόκληρο το κείμενο. Η υπόθεση ορίζεται από την παρακάτω εξίσωση: και η g είναι η οριακή συνάρτηση: h θ (x)= g(θ Τ x)

1, x 0 g(z)= 0, x<0 Κάθε πρόταση προβλέπεται να είναι θετική αν η υπόθεση ισούται με 1 ή αρνητική αν η υπόθεση προκύψει ίση με 0. Έπειτα υπολογίζεται η βαθμολογία από τη συνολική κριτική, η οποία βασίζεται στον αριθμό των «θετικών» και «αρνητικών» προτάσεων του κειμένου και υπολογίζεται από τον τύπο (1). Ακόμη, δοκιμάστηκε και ο αλγόριθμος Naïve Bayes με την δημιουργία του λεξιλογίου με κατακερματισμό του συνόλου των δεδομένων με αφαίρεση άρθρων και συνδετικών λέξεων και αναγωγή όλων των λέξεων στις ρίζες τους. Χρησιμοποιείται επίσης εξομάλυνση Laplace για την αποφυγή υπερμοντελοποίησης στα δεδομένα εκπαίδευσης. Η αναπαράσταση κάθε κριτικής είναι ένα διάνυσμα με χαρακτηριστικά τις λέξεις του λεξιλογίου και τιμές αν υπάρχει ή όχι η κάθε λέξη στην εν λόγω κριτική. Η μετατροπή αυτή ονομάζεται Binarized Bayes. Ταξινόμηση κειμένου Καθώς οι κριτικές των χρηστών είναι σε ελεύθερο κείμενο, θα πρέπει να χρησιμοποιήσουμε πηγές που πηγάζουν από τον κλάδο της επεξεργασίας φυσικής γλώσσας. Πολυάριθμες πηγές στο διαδίκτυο (άρθρα, έρευνες κ.α) αναφέρουν συγκεκριμένα βήματα για το πως πρέπει να γίνει η επεξεργασία αυτή. Έτσι προκύπτει άρρητη ανάγκη να μελετηθούν συγκεκριμένες τεχνικές για την ανάλυση κριτικών των χρηστών. Μία τέτοια τεχνική είναι η ταξινόμηση κειμένου. Με τον όρο ταξινόμηση κειμένου αναφερόμαστε στην προσπάθεια που γίνεται από ειδικούς κάποιου τομέα αλλά και από αυτοματοποιημένα συστήματα να κατατάξουν τα κείμενα με βάση το περιεχόμενό τους. Συνήθως αυτή η τεχνική χρησιμοποιείται σε ολόκληρα έγγραφα όπου μέσω ενός μοντέλου πρόβλεψης δίνονται κάποιες ετικέτες αυτά ή σε επίπεδο πρότασης. Πολύ συχνά σε επίπεδο πρότασης συναντάμε την ταξινόμηση ερώτησης (question classification) όπου σχετίζεται άμεσα με την ταξινόμηση κειμένου πρότασης. Εφόσον οι κριτικές αποτελούν προτάσεις, η ανάλυσή μας θα συνεχιστεί με την παρουσίαση τεχνικών που έχουν χρησιμοποιηθεί περισσότερο στην ταξινόμηση ερωτήσεων. Οι Abraham Ittycheriach et αl [7] ταξινομούν τις ερωτήσεις με βάση τις κατηγορίες MUC (Chinchor 1997) καθώς καιδύο που εφάρμοσαν οι ίδιοι. Η κατηγορία PHRASE απαιτεί η ερώτηση να έχει μία φράση με βάση κάποιο ουσιαστικό καιη κατηγορία REASON συλλαμβάνει όλες τις ερωτήσεις που αναντούν στο γιατί. Στο δικό τους σύστημα συμπαίραναν ότι η εύρεση καλύτερης ταξινόμησης των ερωτήσεων δεν θα είχε κάποια βελτίωση στα τελικά αποτελέσματα.

Οι David Buscaldi et al [8] στο δικό τους σύστημα ερωταπαντήσεων, για να ταξινομήσουν τις ερωτήσεις δημιούργησαν ένα σύνολο κανόνων που ταύτιζαν την ερώτηση με ιεραρχική δομή και χρησιμοποιούσαν κανονικές εκφράσεις για να αποδείξουν αν η ερώτηση ικανοποιεί μία συγκεκριμένη δομή ή όχι. Έχοντας ορίσει κάποιες κατηγορίες γενικές όπως QUANTITY, OTHER κ.α καθώς και υποκατηγορίες αυτών κατάφεραν σε ισπανικό σύνολο κειμένων του CLEF να επιτύχουν ποσοστό 92,25%. Ένα σχετικά παλιό σύστημα με όνομα FASTUS [9] πήρε μέρος σε διαγωνισμό συστημάτων που κατανοούν κείμενα και αξιολογήθηκε από την MUC-4 αξιολόγηση. Η μέθοδος που ακολουθήθηκε ήταν να βαθμολογηθεί η ικανότητα ενός συστήματος να δομήσει τις περιλήψεις κειμένων που σχετίζονταν με την τρομοκρατία. Για τον λόγο αυτό χρησιμοποίησαν πεπερασμένα αυτόματα ώστε να αναγνωρίζουν συγκεκριμένα

μοτίβα στις προτάσεις των περιλήψεων. Συνοψίζοντας, όλες οι τεχνικές που αναφέρθηκαν παραπάνω χρησιμοποιούν στα συστήματά τους την ταξινόμηση ερωτήσεων. Με αυτόν τον τρόπο είναι εφικτή η οργάνωση και δόμηση της ερώτησης σε μορφή ημιδομημένη, η οποία είναι πιο κοντά στο χώρο της πληροφορικής. Ανάκτηση πληροφορίας Όπως προαναφέρθηκε οι κριτικές αποτελούν γνώμες ανθρώπων και είναι εκφρασμένες σε ελεύθερο κείμενο. Για να χειριστούμε τέτοιου είδους κείμενα ώστε να εξάγουμε σημαντική πληροφορία δεν μπορούμε να αρκεστούμε μόνο στο περιεχόμενό τους. Θα πρέπει να υπάρχει κάποια μέθοδος ανάκτησης πληροφορίας που θα εμπλουτίζει αυτές τις απλές κριτικές σε πλούσια κείμενα. Για παράδειγμα δεν μπορούμε να ισχυριστούμε ότι μία κριτική είναι θετική χωρίς να υπάρχει γνώση για το ποιες έννοιες είναι αυτές που έχουν θετική χροιά και ποιες όχι. Επίσης θα ήταν σημαντικό να ταυτοποιήσουμε δύο κριτικές που μοιάζουν αρκετά. Ποιες όμως είναι αυτές οι κριτικές; Στο ερώτημα αυτό απαντάει η ανάκτηση πληροφορίας καθώς αναζητάει κείμενα σχετικά με κάποιο ερώτημα. Μετατροπή ερώτησης-πρότασης σε ερώτημα Έχουν προταθεί αρκετές τεχνικές για το πως μπορεί να γίνει μετατροπή πρότασης σε ερώτημα ώστε να αναζητηθεί αυτό σε μία τοπική η απομακρυσμένη βάση δεδομένων. Κάποιες από αυτές είναι οι ακόλουθες. Οι Susn Dumais et al [10] για να προσεγγίσουν το θέμα της μετατροπής της ερώτησης σε ερώτημα δοσμένης μιας ερώτησης, το σύστημά τους παρήγαγε έναν αριθμό από συμβολοσειρές που είναι υπο-συμβολοσειρές της ερώτησης. Για παράδειγμα Where is the Louvre Museum located? The Louvre Museum + is located The Louvre Museum + is + in Με αυτόν τον τρόπο ρωτάει το σύστημα μία μηχανή αναζήτησης και επιστρέφονται σχετικές παράγραφοι. Οι Vankata Siva Rama Sastry k et al [11] μετέτρεψαν ερωτήσεις με συγκεκριμένη δομή, π.χ what VBP NP VP what VP NP VP

σε ερωτήματα στην προσπάθειά τους να χειριστούν ερώτησεις στην αγγλική γλώσσα. Οι Dirk Weissenborn et. Al [12] αλλά και οι Yannis Papanikolaou et al [13] χρησιμοποίησαν συγκεκριμένες εκφράσεις ( LAT και FOCUS) ώστε να μετατρέψουν τις ερωτήσεις σε ερωτήματα. Τέλος, είναι σημαντικό να κατανοηθεί ότι οι κριτικές που έχουμε στη διάθεσή μας από χρήστες θα πρέπει να μετατραπούν σε ερωτήματα ώστε να ανακτηθούν σχετικές κριτικές και πληροφορίες γι' αυτές. Αξιολόγηση επιστρεφόμενης πληροφορίας Λογικό επακόλουθο μετά την ανάκτηση όγκου πληροφορίας, είναι η αξιολόγηση για το ποια πληροφορία είναι πιο σχετική με τη δική μας κριτική-πρόταση-ερώτηση. Για την αξιολόγηση αυτή έχουν προταθεί μετρικές που βαθμολογούν την ανακτόμενη πληροφορία. Οι Susan Dumais et al [10] έπειτα από μελέτες παρατήρησαν ότι οι 100 πιο σχετικές παράγραφοι σχετίζονται περισσότερο με τις ερωτήσεις που έδιναν στο σύστημά τους. Για να αξιολογήσουν τις παραγράφους, το σύστημά τους μετέτρεπε την ερώτηση και τις παραγράφους σε n-grams και εφάρμοζαν κάποια μετρική ταύτισης των δύο ακολουθιών n-grams. Οι Dirk Weissenborn et al [12] χρησιμοποίησαν την μηχανή αναζήτησης GoPubMed και αξιολόγησαν τα ανακτούμενα αποτελέσματα με βάση την βαθμολόγηση που έκανα η μηχανή αναζήτησης. Τέλος, συστήματα που δρουν σε κλειστές περιοχές (close domain) εκμεταλλεύονται πληροφορία που βρίσκεται συσσωρευμένη σε οντολογίες [14]. Έτσι είναι σε θέση να συγκρίνουν δύο κείμενα μεταξύ τους με την ταυτοποίηση των όρων τους. Μία μετρική που χρησιμοποιείται είναι η εξής: ts(c1, c2) = 2*common(C1,C2) / (depth(c1) + depth(c2)) όπου η common(c1,c2) δηλώνει τον αριθμό των κοινών μονοπατιών μεταξύ των όρων C1,C2 και depth(ci) το βάθος από την ρίζα της οντολογίας μέχρι τον όρο Ci. Καταλήγοντας πρέπει να τονιστεί ότι η ύπαρξη ενός καλού μηχανισμού αξιολόγησης των επιστρεφόμενων αποτελεσμάτων έχει σημαντική επίδραση στο τελικό παραγόμενο σύστημα. III. Πειραματικά Αποτελέσματα Με βάση τα άρθρα που μελετήσαμε, συγκεντρώσαμε κάποια ενδεικτικά αποτελέσματά για τα τρία μοντέλα που εξετάσαμε: το μοντέλο της εξαγωγής λέξεωνκλειδιών, το μοντέλο της πρόβλεψης της βαθμολογίας και το μοντέλο της ανάλυσης του κειμένου Όσον αναφορά το μοντέλο εξαγωγής λέξεων κλειδιών, προκύπτει από έρευνες [4] ότι η μέθοδος ExpandRank δίνει καλύτερα αποτελέσματα συγκριτικά με την TF-IDF και οι φράσεις κλειδιά είναι πιο σχετικές στην πρώτη περίπτωση. Παρακάτω δίνεται ένα διάγραμμα που αποτυπώνει παραστατικά τα αποτελέσματα που προέκυψαν από την εφαρμογή των δύο μεθόδων στα δεδομένα μίας επιχείρησης.

Στα προβλήματα της πρόβλεψης της βαθμολογίας από την κριτική του χρήστη της βαθμολογίας, στο άρθρο [3] συγκρίνονται τα αποτελέσματα των αλγορίθμων που χρησιμοποιήθηκαν. Μια σύγκριση της ακρίβειας και της ανάκλησης για το ίδιο σύνολο δεδομένων εκπαίδευσης, χρησιμοποιώντας διαφορετικούς αλγόριθμους μάθησης φαίνεται στο παρακάτω σχήμα. Οι αλγόριθμοι Multi-class SVM και Nearest Neighbor έχουν και οι δύο χαμηλή ακρίβεια και ανάκληση. Ο Perceptron έχει την υψηλότερη ακρίβεια και ανάκληση για τις βαθμολογίες του 1 ου και 5 ου αστεριού, αλλά οι προβλέψεις δεν είναι ικανοποιητικές για τις βαθμολογίες του 2 ου, 3 ου και 4 ου αστεριού. Ο αλγόριθμος που έχει την καλύτερη συνολική απόδοση είναι ο Binarized Naive Bayes, αλλά η περαιτέρω ανάλυση των σφαλμάτων εκτελώντας τον αλγόριθμο σε διαφορετικά δείγματα δείχνει ότι διαθέτει το πρόβλημα της υψηλής διακύμανσης. Τέλος, στην περίπτωση της ανάλυσης κειμένου από την εφαρμογή της εκπαίδευσης και εκτέλεσης πειραμάτων σε SVM (Support Vector Machines) ταξινομητές [1] παρατηρείται ότι η ακρίβεια και η ανάκληση για τις κριτικές που είχαν θετική χροιά ήταν σχετικά υψηλές, ενώ ήταν χαμηλότερες σε ουδέτερες, αντιφατικές και ανάμικτες κριτικές. Αυτό το χαμηλό ποσοστό ενδεχομένως να προέρχεται από τη διφορούμενη

φύση των κατηγοριών αυτών ή από το μικρό ποσό των δεδομένων γι αυτές τις κατηγορίες. IV. Συμπεράσματα Επεκτάσεις Με βάση την παραπάνω έρευνά μας καταλήξαμε σε κάποια συμπεράσματα για τις τεχνικές που χρησιμοποιήθηκαν και αναπτύχθηκαν στα εν λόγω άρθρα. Εν πρώτης, μπορούμε να πούμε με ασφάλεια πως η αφαίρεση άρθρων και λέξεων, οι οποίες δεν έχουν συνεισφορά στο συναίσθημα του κειμένου μπορούν να παραλειφθούν. Κατόπιν, μπορούμε να ανάγουμε τις λέξεις στις αντίστοιχες ρίζες τους (μέσω stemming τεχνικών) μειώνοντας έτσι την πολυπλοκότητα του προβλήματος και δίνοντας βάρος στο νόημα των λέξεων και όχι στο πλήθος τους. Βασιζόμενοι στις 2 αυτές τροποποιήσεις του αρχικού συνόλου δεδομένων παρατηρούμε σημαντική αύξηση στην ακρίβεια και στην ανάκληση των δεδομένων. Ακόμη, σημαντική είναι η επιλογή του κατάλληλου λεξικού για την βαθμολόγηση των λέξεων με βάση το συναίσθημα που εκφράζουν. Υπάρχει πληθώρα από επιλογές λεξικών για τέτοιου είδους εφαρμογές αλλά οι καλύτερες πρακτικές είναι: επιλογή λεξικού με βάση την κατηγορία της εφαρμογής (κριτική εστιατορίων, διάθεση ψήφου κτλ.) ή κατασκευή ενός λεξικού από το σύνολο εκπαίδευσης που διατίθεται με σκοπό την καλύτερη απόδοση των μοντέλων πρόβλεψης Καμία από τις παραπάνω λύσεις δεν αποτελεί πανάκεια αλλά είναι οι τεχνικές που φαίνεται να αποδίδουν καλύτερα. Η πρώτη έχει τα πλεονεκτήματα της μη αναγκαίας σάρωσης του συνόλου εκπαίδευσης και της σύστασης από επίθετα με «συναισθηματική» βαθμονόμηση. Το μειονέκτημα είναι η πιθανότητα να συμπεριληφθούν άσχετα με το αντικείμενο χαρακτηριστικά. Αυτό το μειονέκτημα προσπαθεί να καταπολεμήσει η δεύτερη λύση αλλά με αυτή την τεχνική συμπεριλαμβάνονται λέξεις με ορθογραφικά λάθη ως σωστές και επηρεάζουν την απόδοση του μοντέλου. Μια πρόταση είναι η εύρεση/κατασκευή ενός λεξικού από δεδομένα κοινωνικών δικτύων για την συμπερίληψη νέων αρκτικόλεξων και emoticons στον υπολογισμό συναισθήματος. Από την πλευρά των μοντέλων πρόβλεψης καλύτερο φαίνεται να είναι τα Bayesian συστήματα με κάποιες βελτιώσεις (πχ χαρακτηριστικά με δυαδικές τιμές για ύπαρξη/απώλεια εμφάνισης μιας λέξης στην εν λόγω κριτική).αλλά και τα υπόλοιπα μοντέλα λειτουργούν καλά. Αλλά μια πιθανή βελτίωση είναι η συνεχής ενημέρωση του μοντέλου πρόβλεψης με κάποιο αλγόριθμο ενεργής μάθησης (Active Learning). Η δυσκολία όμως σε αυτές τις υλοποιήσεις έγκεινται στο γεγονός πως δεν είναι εύκολο να διαχωριστούν οι κριτικές 4 αστεριών και από αυτές των 5 αστεριών καθώς είναι πολύ κοντά σημασιολογικά. Συνεπώς, ορθό θα ήταν η δημιουργία 2 κλάσεων συναισθήματος, καλής και κακής κριτικής. Στην περίπτωση χρονικών δεδομένων και πρόβλεψης μέσω ανάλυσης συναισθήματος φαίνεται να μην υπάρχει η δυνατότητα αυτόνομης λειτουργίας κάποιου συστήματος βασιζόμενου εξ ολοκλήρου σε αυτή την τεχνική. Η πιο

αποδοτική λύση είναι ο συνδυασμός των παραδοσιακών δημοσκοπήσεων με αυτές τις τεχνικές για την αξιοποίηση των δεδομένων από τα κοινωνικά δίκτυα. V. ΥΛΟΠΟΙΗΣΗ Η υλοποίησή μας θα είναι ένα υβριδικό σύστημα το οποίο θα προβλέπει μέσω ενός μοντέλου πρόβλεψης την βαθμολόγηση μίας κριτικής και έπειτα θα υπάρχει ενίσχυση αυτού του μοντέλου με τεχνικές ανάλυσης κειμένου που αναφέρθηκαν παραπάνω. Με αυτόν τον τρόπο εκμεταλλευόμαστε την ισχυρή θέση της στατιστικής καθώς επίσης τις διάφορες τεχνικές που έχουν ανακαλύψει για την επεξεργασία φυσικής γλώσσας. VI. ΒΙΒΛΙΟΓΡΑΦΙΑ [1] Ganu, G.; Elhadad, N. & Marian, A. (2009), Beyond the Stars: Improving Rating Predictions using Review Text Content., in 'WebDB' [2] O Connor B., R. Balasubramanyan, B. R. Routledge, and N. A. Smith, From Tweets to Polls: Linking Text Sentiment to Public Opinion Time Series, In Proceedings of International Conference on Weblogs and Social Media (ICWSM 10), 2010. [3] Yun Xu, Xinhui Wu, Qinxia Wang, Sentiment Analysis of Yelp's Ratings Based on Text Reviews, 2014 [4] Bechon P.; Grimaldi L. and Merouchi Y., Improving on Yelp Reviews Using NLP and Bayesian Scoring. Report on a project done within Andrew Ng's CS229 Machine Learning class at Stanford [5] J. Jong, "Predicting Rating with Sentiment Analysis," pp. 1-5, 2011. [Online]. Available: http://cs229.stanford.edu/proj2011/jong-predictingratingwithsentimentanalysis.pdf [6] Basiri, Mohammad Ehsan, Nasser Ghasem-Aghaee, and Ahmad Reza Naghsh-Nilchi. "Exploiting reviewers comment histories for sentiment analysis." Journal of Information Science 40.3 (2014): 313-328. [7] Abraham Ittycheriach, Martin Franz, Wei-Jing Zhu, Adwait Ratnaparkhi: IBM's Statistical Qustion Answering System (TREC 2000) [8] Davide Buscaldi, Paolo Rosso, Jose Manuel Gomez-Soriano, Emillio Sanchis: Answering question with an n-gram based passage retrieval engine (2009) [9] Douglas E. Appelt, Jerry R. Hobbs, John Bear, David Israel and Mabry Tyson: A Finite-state Processor for Information Extraction from Real-world Text (1993) [10] Susan Dumais, Michele Banko, Eric Brill, Jimmy Lin, Andew Ng: Web Question Answering: is More Always Better? (2002) [11] Vankata Siva Rama Sastry K, Salil Badodekar, and Pushpak Bhattacharyya: Question-to-Query Conversion in the Context of a Meaning-based, Multilingual Searh Engine [12] Dirk Weissenborn, George Tsatsaronis, and Michael Schroeder: Answering Factoid Questions in the Biomedical Domain [13] Yannis Papanikolaou, Dimitris Dimitriadis, Grigoris Tsoumakas, Manos Laliotis, Nikos Markantonatos, and Ioannis Vlahavas: Ensembe Approaches for Large-Scale Multi-Label Classification and Question Answering in Biomedicine (2014) [14] Irena Spasic, Sophia Ananiadou, Jogn McNaught and Anand Kumar: Text mining and ontologies in biomedicine: Making sense of raw text (2005)