Εξόρυξη Γνώμης από Σχόλια Χρηστών στο Twitter σε Πραγματικό Χρόνο

Transcript

1 ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ Εξόρυξη Γνώμης από Σχόλια Χρηστών στο Twitter σε Πραγματικό Χρόνο Πτυχιακή Εργασία Μιχαηλίδης Δημήτριος, 2292 Επιβλέπων Καθηγητής: Βλαχάβας Ιωάννης ΘΕΣΣΑΛΟΝΙΚΗ Ιούλιος 2017

2 2

3 Περίληψη Η συνεχώς αυξανόμενη χρήση του παγκοσμίου ιστού και των κοινωνικών δικτύων στον κόσμο σήμερα, έχει δημιουργήσει σημαντικές πλατφόρμες αλληλεπίδρασης μεταξύ των επιχειρήσεων και των πελατών τους. Παράλληλα, δημιουργείται μία τεράστια δεξαμενή δεδομένων, η εκμετάλλευση της οποίας καθίσταται επιτακτική, για την απόκτηση του ανταγωνιστικού πλεονεκτήματος. Ένας από τους τρόπους εκμετάλλευσης της πληροφορίας αυτής, είναι η Εξόρυξη Γνώμης ή Ανάλυση Συναισθήματος από δεδομένα κειμένου. Ο σκοπός είναι η ανάλυση κειμένων από τον παγκόσμιο ιστό και η εξαγωγή συμπερασμάτων για τα συναισθήματα, τις σκέψεις και τις επιθυμίες των ανθρώπων που τα έχουν δημοσιεύσει. Επιπλέον, μεγάλο ενδιαφέρον εμφανίζεται σε συνδυαστικές τεχνικές μεταξύ της Ανάλυσης Συναισθήματος και άλλων τομέων της Επιχειρηματική Ευφυίας, όπως η Ευφυία Τοποθεσίας. Οι μελέτες επικεντρώνονται στην εύρεση βέλτιστων μεθόδων συλλογής δεδομένων κειμένου και τοποθεσίας από διάφορες πηγές, και στο συνδυασμό αυτών για τη δημιουργία ολοκληρωμένων συνδυαστικών συστημάτων που θα διευκολύνουν τις επιχειρήσεις στη λήψη σημαντικών αποφάσεων. Στην παρούσα πτυχιακή εργασία, εξετάζουμε το πρόβλημα της δημιουργίας ενός τέτοιου συστήματος το οποίο θα λειτουργεί σε πραγματικό χρόνο, παρουσιάζοντας αποτελέσματα σε μερικά δευτερόλεπτα. Επιτελούμε τη διαδικασία της ταξινόμησης με μεθόδους Μηχανικής Μάθησης, έχοντας ως βάση ένα ήδη ταξινομημένο σύνολο κειμένων από το κοινωνικό δίκτυο Twitter. Μελετούμε διάφορους αλγορίθμους ταξινόμησης και εξαγωγής χαρακτηριστικών, επιλέγοντας με μεθόδους Διασταυρωμένης Επικύρωσης, τον κατάλληλο συνδυασμό για τον τομέα μελέτης της εργασίας. Επιπλέον, αντιμετωπίζουμε προβλήματα υπερπροσαρμογής και έλλειψης δεδομένων για την επίτευξη της ισορροπίας του συστήματος. Τέλος, εκμεταλλευόμαστε τη διαθεσιμότητα των APIs του Twitter και των Google Maps, για τη συλλογή νέων tweets και την ενσωμάτωση της πληροφορίας τοποθεσίας σε αυτά, και δημιουργούμε μία εφαρμογή ταξινόμησης σε πραγματικό χρόνο με τη χρήση της γλώσσας R και του Shiny Framework. Συνοψίζοντας, παρουσιάζουμε τα αποτελέσματα της μελέτης μας, τα συγκρίνουμε με αντίστοιχες έρευνες ικανοποίησης πελατών και προτείνουμε βελτιώσεις στο σύστημα, αλλά και περιοχές για μελλοντική μελέτη. 3

4 4

5 Abstract The ever-increasing usage of the world-wide web and the social networks on the world today, has created significant communication platforms between companies and their customers. This trend creates a huge amount of data, making the process of taking advantage of them imperative, in order for companies to obtain a competitive advantage. One of the ways to process the available data, is Opinion Mining or Sentiment Analysis of texts. The goal is to analyze documents from the world-wide web and draw conclusions regarding the sentiments, thoughts and desires of those who published them. Furthermore, companies show big interest in combinatorial techniques between Sentiment Analysis and other topics of Business Intelligence, one of them being Location Intelligence. Studies focus on finding optimal methods of text and location data collection from different sources, and combining them to create complete systems aiming to facilitate companies on the decisionmaking process. In this thesis, we deal with the problem of the creation of such systems, which will operate in real time, providing results in a matter of seconds. We go through the process of text classification with Machine Learning Methods, using a base of an already classified set of data from the social network Twitter. We study the different classification and feature extraction algorithms, selecting the best combination for our domain, using methods of Cross Validation. Furthermore, we deal with overfitting and lack of data problems, in order to balance the system. Finally, we take advantage of the availability of Twitter s and Google Maps APIs, for the collection of new tweets and the incorporation of location data into them. We create a web application for real time classification, using the R programming language and the Shiny Framework. We conclude the thesis presenting the results of our study and comparing them with similar customer satisfaction studies. We show the weaknesses and compromises of our system and propose improvement and areas for future studies. 5

6 6

7 Ευχαριστίες Θα ήθελα να ευχαριστήσω τον καθηγητή κύριο Ιωάννη Βλαχάβα για την εμπιστοσύνη, τη στήριξη και την καθοδήγηση καθ όλη τη διάρκεια εκπόνησης αυτής της εργασίας. Επίσης, θα ήθελα να ευχαριστήσω τη Δήμητρα Κακοσίμου για τις πηγές της και τον Νίκο Στυλιανού για την πολύτιμη βοήθεια και τις συμβουλές του. Τέλος, θα ήθελα να ευχαριστήσω τους φίλους και την οικογένειά μου για την υπομονή και τη στήριξή τους. 7

8 8

9 Περιεχόμενα Κεφάλαιο Εισαγωγή Γενικά Περίληψη Κεφαλαίων Κεφάλαιο Η Επιστήμη της Επιχειρηματικής Ευφυΐας Επιστήμη της Επιχειρηματικής Ευφυΐας Ιστορικά Στοιχεία Συστήματα Στήριξης Αποφάσεων (ΣΣΑ) ΣΣΑ Βασισμένα σε Μοντέλα ΣΣΑ Βασισμένα σε Δεδομένα Ορισμοί Συλλογή και Ανάλυση Δεδομένων Επίπεδο Πηγών Δεδομένων Επίπεδο Εξαγωγής-Μοντελοποίησης-Φόρτωσης Επίπεδο Αποθηκών Δεδομένων Υποσύνολα Δεδομένων Επίπεδο Μεταδεδομένων Επίπεδο Τελικού Χρήστη Τεχνικές και Συστήματα Επιχειρηματικής Ευφυΐας Μοντέλα Πρόβλεψης Περιγραφική Εξόρυξη Δεδομένων Ανάλυση Συνδέσμων Ταξινόμηση Συσταδοποίηση και Ανάλυση Ακραίων Τιμών Συστήματα Online Αναλυτικής Επεξεργασίας Ευφυΐα Βασισμένη στην Τοποθεσία Προβλήματα της Ευφυίας Τοποθεσίας Σχετικές Εργασίες Κεφάλαιο Ανάλυση Δεδομένων από Κοινωνικά Δίκτυα Εισαγωγή

10 3.2 Εξόρυξη Δεδομένων από Κοινωνικά Δίκτυα Εξόρυξη στο Διαδίκτυο Εξόρυξη στα Κοινωνικά Δίκτυα Κεντρικότητα (Centrality) Κύρος (Prestige) Κοινωνικά Δίκτυα Μικρό-Ιστολογίων Συναισθηματική Ανάλυση Κειμένων Ανάλυση με τη χρήση Λεξικού Ανάλυση με τη χρήση Μηχανικής Μάθησης Αλγόριθμοι Μηχανικής Μάθησης Αλγόριθμος Μέγιστης Εντροπίας Μηχανές Διανυσμάτων Υποστήριξης Διασταυρωμένη Επικύρωση Εξαγωγή Χαρακτηριστικών Συστήματα Γεωγραφικών Πληροφοριών Κεφάλαιο Ανάπτυξη Εφαρμογής Εξόρυξης Γνώμης Εισαγωγή Τομέας Μελέτης - Αρχικό Σύνολο Δεδομένων Προ επεξεργασία Δεδομένων Περιγραφή Διαδικασίας Προ Επεξεργασίας Προ Επεξεργασία Κειμένων με τη Χρήση της R Επιλογή Αλγορίθμου Μηχανικής Μάθησης Διαδικασία Επιλογής με τη Χρήση της R Βελτίωση Απόδοσης Ταξινομητή Εκπαίδευση Αλγορίθμου Ταξινόμησης Πρόβλεψη Κειμένων σε Πραγματικό Χρόνο Εξαγωγή Πληροφορίας Τοποθεσίας Υλοποίηση Διεπαφής της Εφαρμογής Παρουσίαση Αποτελεσμάτων Κεφάλαιο Σύνοψη και Μελλοντική Μελέτη Κεφάλαιο Βιβλιογραφία

11 Appendix A Train Script in R Appendix B Prediction Script in R Appendix C Server Script in R Appendix D UI Script in R

12 12

13 Κατάλογος Σχημάτων Σχήμα 1 Εξέλιξη της Επιχειρηματικής Ευφυΐας Σχήμα 2 Αρχιτεκτονική Επιχειρηματικής Ευφυίας Σχήμα 3 Αλγόριθμος DBSCAN(αριστερά), Αλγόριθμος Κ-Μέσων (δεξιά) Σχήμα 4 Κλασική Ανάλυση Ακραίων Τιμών Σχήμα 5 - Η Οντότητα i ονομάζεται Κεντρική (Liu, 2011) Σχήμα 6 - Η Οντότητα 3777 έχει μεγάλο Κύρος Σχήμα 7 - Προσέγγιση με τη χρήση Λεξικού Σχήμα 8 - Προσέγγιση Λεξικού, Προσέγγιση Μάθησης Σχήμα 9 - SVM για ταξινόμηση σε 2 κατηγορίες Σχήμα 10 - Διασταυρωμένη Επικύρωση σε 4 μέρη Σχήμα 11 - Σύστημα Γεωγραφικών Πληροφοριών Σχήμα 12 - Προβολή ενός tweet μέσα από την εφαρμογή του Twitter Σχήμα 13 - Συναίσθημα Αρχικού Συνόλου Δεδομένων Σχήμα 14 - Προ επεξεργασία Δεδομένων Σχήμα 15 - Παράδειγμα Προ Επεξεργασίας Κειμένου Σχήμα 16 - Η ροή επεξεργασίας ενός tweet στην εφαρμογή Σχήμα 17 - Ανάκτηση Δεδομένων Τοποθεσίας Χρήστη Σχήμα 18 - Τελική Εφαρμογή AirSent

14 14

15 Κατάλογος Αποσπασμάτων Κώδικα Απόσπασμα Κώδικα 1 - Ανάγνωση Δεδομένων Airline Tweets Απόσπασμα Κώδικα 2 - Καθαρισμός και Κανονικοποίηση των κειμένων Απόσπασμα Κώδικα 3 - Διασταυρωμένη Επικύρωση Απόσπασμα Κώδικα 4 - Εκπαίδευση Μοντέλου Απόσπασμα Κώδικα 5 - Ταξινόμηση Νέων Κειμένων Απόσπασμα Κώδικα 6 - Παράδειγμα JSON Tweet Απόσπασμα Κώδικα 7 - Αναζήτηση Πληροφορίας Τοποθεσίας Απόσπασμα Κώδικα 8 - Δημιουργία Διεπαφής με τη Χρήση του Shiny Απόσπασμα Κώδικα 9 - Δημιουργία Server με τη Χρήση του Shiny

16 16

17 Κεφάλαιο 1 Εισαγωγή Η Εξόρυξη Γνώμης (ή Ανάλυση Συναισθήματος) είναι η διαδικασία συλλογής και εξαγωγής της άποψης ανθρώπων για ένα θέμα, μέσα από κείμενα. Οι αλγόριθμοι Εξόρυξης Γνώμης ταξινομούν τα κείμενα ανάλογα με το συναίσθημά τους σε θετικά ή αρνητικά. Η διαδικασία αυτή γίνεται όλο και περισσότερο σημαντική για τις επιχειρήσεις, γιατί αποτελεί έναν άμεσο τρόπο μέτρησης της ικανοποίησης των πελατών τους. 1.1 Γενικά Η ραγδαία αύξηση της χρήσης των κοινωνικών δικτύων στο διαδίκτυο, δημιουργεί έναν μεγάλο όγκο από δεδομένα τα οποία καλούνται οι επιχειρήσεις να εκμεταλλευτούν. Καθημερινά, εκατομμύρια άνθρωποι δημοσιοποιούν σκέψεις και απόψεις τους για διάφορα θέματα, μετατρέποντας τα δίκτυα αυτά σε σημαντικές πηγές εξαγωγής συναισθήματος. Παράλληλα, οι περισσότερες πλέον επιχειρήσεις διαθέτουν προφίλ στα κοινωνικά δίκτυα, ενθαρρύνοντας με αυτόν τον τρόπο τους χρήστες να συνομιλούν άμεσα μαζί τους, εκφράζοντας την άποψή τους για τα προϊόντα και τις υπηρεσίες που προσφέρουν. Οι μέθοδοι εκμετάλλευσης των πληροφοριών αυτών είναι σχετικά νέες και πολλές βρίσκονται σε πρώιμο στάδιο. Επιπλέον, εμφανίζονται συνεχώς νέες ανάγκες και ευκαιρίες, δίνοντας σημαντικό ανταγωνιστικό πλεονέκτημα στις επιχειρήσεις που τις εκμεταλλεύονται πρώτες. Μία από αυτές είναι η τεχνολογία του GPS, η οποία είναι ενσωματωμένη σε όλες τις έξυπνες συσκευές και μεταδίδει συνεχώς τις πληροφορίες τοποθεσίας του κατόχου. Τα περισσότερα κοινωνικά δίκτυα επιτρέπουν την επισήμανση της τοποθεσίας από τους χρήστες σε κάθε νέα δημοσίευσή τους. Έτσι, δημιουργείται μία μεγάλη ευκαιρία για τις επιχειρήσεις να εκμεταλλευτούν αυτήν την πληροφορία και να εξάγουν δεδομένα συναισθήματος για κάθε περιοχή ξεχωριστά, δίνοντάς τους μία πιο ολοκληρωμένη γνώση των πελατών τους ώστε να προσαρμόσουν τις εκστρατείες προώθησής τους κατάλληλα. Λόγω της συνεχής αύξησης των δεδομένων στο διαδίκτυο, δημιουργείται η ανάγκη ανάπτυξης μιας πλατφόρμας η οποία θα αυτοματοποιεί τη διαδικασία συλλογής, επεξεργασίας, ταξινόμησης των δημοσιευμένων κειμένων, αλλά και την εύρεση και ενσωμάτωση της πληροφορίας τοποθεσίας σε αυτά. 17

18 Ο σκοπός της εργασίας αυτής είναι η δημιουργία μίας τέτοιας πλατφόρμας, η οποία θα επιτελεί την παραπάνω διαδικασία σε πραγματικό χρόνο και θα εμφανίζει τα αποτελέσματα σε μία εφαρμογή διαδικτύου με τη χρήση διαδραστικών χαρτών. Πιο συγκεκριμένα, θα εξετάσουμε τη γνώμη των πελατών κάθε πολιτείας των δημοφιλέστερων αεροπορικών εταιριών στην Αμερική. Παράλληλα, θα μελετήσουμε τις διάφορες μεθόδους επεξεργασίας κειμένου, εξαγωγής χαρακτηριστικών και ταξινόμησης, επιλέγοντας το συνδυασμό που αποδίδει καλύτερα στο πεδίο ορισμού του προβλήματος. 1.2 Περίληψη Κεφαλαίων Το κείμενο οργανώνεται σε 5 κεφάλαια, με τον ακόλουθο τρόπο: Στο δεύτερο κεφάλαιο, παρουσιάζεται η Επιχειρηματική Ευφυία, η επιστήμη δηλαδή η οποία ερευνά μεθόδους εκμετάλλευσης των συλλεγόμενων δεδομένων των επιχειρήσεων για τη λήψη σημαντικών αποφάσεων. Αναφερόμαστε στην ιστορία της επιστήμης, στις βασικές της αρχές της και στις μεθόδους που ερευνά. Στο τρίτο κεφάλαιο, εστιάζουμε στο πρόβλημα το οποίο αντιμετωπίζουμε στην εργασία, παρουσιάζοντας τους τρόπους εξόρυξης κειμένων και ανάλυσης του συναισθήματός τους, όπως η Μηχανική Μάθηση και η Μέθοδος Λεξικού. Αναφερόμαστε επίσης και στα Συστήματα Γεωγραφικών Πληροφοριών, τα οποία αναλύουν και παρουσιάζουν δεδομένα τοποθεσίας. Στο τέταρτο κεφάλαιο, περιγράφουμε τη διαδικασία με την οποία δημιουργήσαμε την εφαρμογή διαδικτύου για την Εξόρυξη Γνώμης από δημοσιεύσεις στο Twitter, με τη χρήση της γλώσσας προγραμματισμού R. Επιπλέον, παρουσιάζουμε τη μεθοδολογία με την οποία επιλέξαμε τον τρόπο εξαγωγής χαρακτηριστικών από τα κείμενα, και τον αλγόριθμο ταξινόμησης του συστήματος. Στο πέμπτο κεφάλαιο παρουσιάζουμε τα αποτελέσματα της ταξινόμησης για τις διάφορες αεροπορικές εταιρίες στην Αμερική, και τα συγκρίνουμε με τις επίσημες έρευνες του Ινστιτούτου Ικανοποίησης Πελατών. Τέλος, στο έκτο κεφάλαιο συνοψίζουμε τη μελέτη της εργασίας και αναφερόμαστε στις ιδιαιτερότητες και τις αδυναμίες του συστήματος, προτείνοντας τρόπους για μελλοντική μελέτη και βελτίωσή του. 18

19 Κεφάλαιο 2 Η Επιστήμη της Επιχειρηματικής Ευφυΐας Τα τελευταία χρόνια, η έννοια της Επιχειρηματικής Ευφυΐας έχει συνδεθεί άμεσα με τη λειτουργία των επιχειρήσεων. Πολυεθνικές εταιρίες και οργανισμοί, επενδύουν καθημερινά στη δημιουργία υποδομών που διευκολύνουν τη συλλογή και επεξεργασία δεδομένων σε σύντομο χρονικό διάστημα και αυτοματοποιούν τη διαδικασία λήψης αποφάσεων. Νεοφυείς επιχειρήσεις είναι ικανές να εκτοξεύουν την αξία τους, συλλέγοντας και μεταπωλώντας δεδομένα από τους χρήστες τους. 2.1 Επιστήμη της Επιχειρηματικής Ευφυΐας Κάθε μία πτυχή της επιχειρηματικής δραστηριότητας μπορεί να συλλέγει και να αποτιμά δεδομένα, ενώ οι μέθοδοι που χρησιμοποιούνται έχουν εξελιχθεί σε τέτοιο βαθμό, ώστε να είναι πλέον πιθανές οι ακριβείς προβλέψεις της συμπεριφοράς των πελατών, των προμηθευτών, αλλά και της αγοράς. Η πληροφορία η οποία συλλέγεται, η ταχύτητα επεξεργασίας της, αλλά και η σημασία και χρησιμότητα των εξαγόμενων συμπερασμάτων καθορίζουν σε μεγάλο βαθμό την κατάσταση μιας επιχείρησης, την πορεία των προϊόντων και υπηρεσιών της, καθώς και τη στρατηγική της για το μέλλον Ιστορικά Στοιχεία Η συνεχώς αυξανόμενη σημασία της λήψης αποφάσεων μέσα από τα δεδομένα, έχει οδηγήσει την επιστήμη της Επιχειρηματικής Ευφυΐας στην κορυφή των τεχνολογικών προτεραιοτήτων, σύμφωνα με τον οίκο Gartner [1]. Ωστόσο, ο όρος Επιχειρηματική Ευφυΐα δεν εμφανίστηκε τον 21ο αιώνα. Οι πρώτες αναφορές γίνονται από τον Richard Millar Devens. Ο Devens, χρησιμοποιεί τον όρο για να περιγράψει πώς ο τραπεζίτης Sir Henry Furnese αύξησε τα κέρδη του συλλέγοντας και αξιοποιώντας πληροφορίες για το περιβάλλον του, πολύ πριν από τους ανταγωνιστές του [2]. Ο όρος επανεμφανίζεται σχεδόν έναν αιώνα μετά, το 1958, σε ένα άρθρο του Hans Peter Luhn, ερευνητή της IBM, στο οποίο περιγράφει ένα σύστημα Επιχειρηματικής Ευφυΐας, το οποίο συλλέγει και κατηγοριοποιεί αρχεία της 19

20 εταιρίας με βάση τον τομέα στον οποίο αναφέρονται. Στο Σχήμα 1 φαίνεται η εξέλιξη της Επιχειρηματικής Ευφυΐας στο χρόνο Συστήματα Στήριξης Αποφάσεων (ΣΣΑ) Η πρώτη μορφή εφαρμοσμένης Επιχειρηματικής Ευφυΐας, εμφανίστηκε το 1960, με τη μορφή των Συστημάτων Στήριξης Αποφάσεων (ΣΣΑ). Τα ΣΣΑ αποτελούν πληροφοριακά συστήματα βασισμένα στη γνώση, τα οποία υποστηρίζουν τις δραστηριότητες λήψης αποφάσεων μιας επιχείρησης ή ενός οργανισμού σε όλους τους τομείς τους ΣΣΑ Βασισμένα σε Μοντέλα Τα πρώτα ΣΣΑ βασίστηκαν σε μοντέλα προσομοίωσης, με τη μορφή της ποιοτικής αναπαράστασης. Αυτά τα μοντέλα χρησιμοποιούν περιορισμένο όγκο δεδομένων και παραμέτρων, τα οποία ρυθμίζονται από τα στελέχη που καλούνται να αναλύσουν μια κατάσταση και να πάρουν μια απόφαση ή να χαράξουν τη στρατηγική της εταιρίας. Τα συστήματα αυτά εμφανίζονται συνήθως με τη μορφή ενός λογισμικού, τα οποία ο χρήστης παραμετροποιεί και δημιουργεί διάφορα σενάρια, όπως το τί θα συμβεί αν μεταβληθεί κάποια συνθήκη εισόδου, ή να ορίσει έναν στόχο-αποτέλεσμα και να αναζητήσει τις συνθήκες εισόδου που οδηγούν σε αυτό. Παρόλο που τα ΣΣΑ αυτά δημιουργούσαν ενθαρρυντικά αποτελέσματα, δεν προσέφεραν μέγιστη αποτελεσματικότητα, σύμφωνα με μία 15 η αποτίμηση [3]. Με τη χρήση των υπολογιστικών μοντέλων διαρκώς να αυξάνεται, οι έρευνες επικεντρώθηκαν στην ενίσχυση των ποικιλόμορφων μοντέλων, με τη χρήση πολυκριτηρίων και βελτιστοποίησης. Τα ΣΣΑ βασισμένα σε δεδομένα άρχισαν να εδραιώνονται ΣΣΑ Βασισμένα σε Δεδομένα Τα ΣΣΑ βασισμένα σε δεδομένα, δίνουν έμφαση στην πρόσβαση και επεξεργασία μιας σειράς από δεδομένα εσωτερικά της επιχείρησης, αλλά και από εξωτερικές πηγές και δεδομένα σε πραγματικό χρόνο. Στην απλούστερη τους μορφή, τα ΣΣΑ αυτά συλλέγουν δεδομένα από το σύστημα αρχείων (File System) με τη χρήση ερωτημάτων. Πρόσθετη λειτουργικότητα μπορεί να επιτευχθεί με τη χρήση Αποθηκών Δεδομένων και εργαλείων σχεδιασμένων να εξάγουν και να επεξεργάζονται δεδομένα για μία συγκεκριμένη ενέργεια. 20

21 Τα τελευταία χρόνια, με τη χρήση της On-Line Αναλυτικής Επεξεργασίας (OLAP), επιτυγχάνεται η μέγιστη δυνατή λειτουργικότητα, με την επεξεργασία συλλογών ιστορικών δεδομένων μεγάλου όγκου σε μικρό χρονικό διάστημα. Στις Αποθήκες Δεδομένων υπάρχουν δεδομένα από διάφορες πηγές. Αυτά τα δεδομένα, αρχικά επεξεργάζονται και αποθηκεύονται σε συγκεντρωτική μορφή. Στη συνέχεια, με τη χρήση της On-Line Αναλυτικής Επεξεργασίας, ο χρήστης μπορεί να προβάλλει και να αναλύσει τα δεδομένα με τη βοήθεια φίλτρων γενίκευσης. Αύτη η μορφή επεξεργασίας οδήγησε στην άνθιση ενός νέου κλάδου της Πληροφορικής, την Εξόρυξη Δεδομένων, η οποία στοχεύει στην αναζήτηση γνώσης από μεγάλους όγκους δεδομένων. Οι τεχνικές Εξόρυξης Δεδομένων, χρησιμοποιούνται στα ΣΣΑ και δεν απαιτούν τον προκαθορισμό μοντέλων, αλλά δημιουργούν τα μοντέλα μέσω της επεξεργασίας των δεδομένων. Τα μοντέλα αυτά μπορούν να χρησιμοποιηθούν και για τη διατύπωση προβλέψεων. Ο συνδυασμός των Αποθηκών Δεδομένων και της On-Line επεξεργασίας διεύρυνε τη χρήση των ΣΣΑ Βασισμένων σε δεδομένα και δημιούργησε τις βάσεις για τον σαφή ορισμό της επιστήμης της Επιχειρηματικής Ευφυΐας Ορισμοί O Howard Dresner του Gartner Group ήταν ο πρώτος που έδωσε έναν ορισμό στην επιστήμη. Κατά τον Dresner, Επιχειρηματική Ευφυΐα είναι ένας ευρύς όρος κάτω από τον οποίο τοποθετούνται έννοιες και μέθοδοι που βελτιώνουν την ικανότητα των επιχειρήσεων να λαμβάνουν αποφάσεις μέσω συστημάτων στήριξης, που βασίζονται σε καταγεγραμμένα στοιχεία και γεγονότα [4]. Ο Pechenizkiy ορίζει την Επιχειρηματική Ευφυΐα ως την τεχνολογία για την κατανόηση του παρελθόντος και την πρόβλεψη του μέλλοντος. Είναι μία ευρεία κατηγορία τεχνολογίας που επιτρέπει τη συλλογή, αποθήκευση, πρόσβαση και ανάλυση των δεδομένων για να βοηθήσει τα στελέχη των επιχειρήσεων να λαμβάνουν καλύτερες αποφάσεις και να αναλύουν τις επιδόσεις των επιχειρήσεών τους, μέσω της βαθιάς γνώσης των δεδομένων [5]. 21

22 Σχήμα 1 Εξέλιξη της Επιχειρηματικής Ευφυΐας 2.2 Συλλογή και Ανάλυση Δεδομένων Η διαδικασία της λήψης αποφάσεων μέσω της Επιχειρηματικής Ευφυΐας απαιτεί ένα καλά οργανωμένο σύστημα και μία σαφώς ορισμένη αρχιτεκτονική. Καθώς η λειτουργία της καθορίζεται από διαφορετικά αλλά αμοιβαίως εξαρτόμενα τμήματα, η σωστή δομή εξασφαλίζει την αποφυγή απώλειας δεδομένων μεταξύ των τμημάτων και διασφαλίζει την ομαλή εξαγωγή γνώσης και συμπερασμάτων στο βέλτιστο χρόνο. Έχουν οριστεί διάφορες αρχιτεκτονικές συστημάτων Επιχειρηματικής Ευφυΐας, οι οποίες παρουσιάζουν αρκετά κοινά στοιχεία μεταξύ τους. Σε αυτήν την ενότητα θα ορίσουμε πέντε στοιχεία της αρχιτεκτονικής: Λειτουργικά Συστήματα, Επίπεδο Εξαγωγής (Extract, Transform, Load), Αποθήκες Δεδομένων, Εφαρμογές ΕΕ και Portal ΕΕ [6]. Με βάση αυτήν την αρχιτεκτονική, προστέθηκαν και κάποια στοιχεία σημαντικά για τη σύγχρονη Επιχειρηματική Ευφυΐα, και δημιουργήθηκε η Αρχιτεκτονική πέντε επιπέδων, η οποία περιγράφεται παρακάτω και αποτελείται από τα εξής επίπεδα: Επίπεδο Πηγών Δεδομένων (Data Source Layer), Επίπεδο Εξαγωγής-Μοντελοποίησης-Φόρτωσης (ETL Layer), Επίπεδο Αποθηκών Δεδομένων (Data Warehouse Layer), Επίπεδο Τελικού Χρήστη (End User Layer), Επίπεδο Μεταδεδομένων (Metadata Layer) [7]. 22

23 2.2.1 Επίπεδο Πηγών Δεδομένων Τα δεδομένα τα οποία χρησιμοποιεί μια επιχείρηση προκειμένου να παίρνει αποφάσεις και να ορίζει τη στρατηγική της, προέρχονται από διάφορες πηγές δεδομένων. Αυτές οι πηγές κατηγοριοποιούνται με βάση την προέλευσή τους, σε εσωτερικές (internal data sources) και εξωτερικές (external data sources). Τα δεδομένα από εσωτερικές πηγές, προέρχονται από λογισμικά και διαδικασίες εσωτερικά της επιχείρησης και αφορούν τη λειτουργία της. Περιλαμβάνουν δεδομένα για τους πελάτες, τα προϊόντα και τις πωλήσεις τα οποία συνήθως συλλέγονται από Λογισμικά Διαχείρισης Πελατών και Πόρων. Οι εξωτερικές πηγές, προσφέρουν δεδομένα συλλεγόμενα εκτός της λειτουργίας της επιχείρησης. Τα δεδομένα αυτά συλλέγονται συνήθως από εξωτερικούς επιχειρηματικούς συνεργάτες, εταιρίες marketing, ανοιχτά δεδομένα επιχειρήσεων ή το Internet. Περιλαμβάνουν την κατάσταση και τις κινήσεις της αγοράς, τους ανταγωνιστές, το επιχειρησιακό περιβάλλον, αλλά και την πρόοδο της τεχνολογίας Επίπεδο Εξαγωγής-Μοντελοποίησης-Φόρτωσης Στο επίπεδο Εξαγωγής-Μοντελοποίησης-Φόρτωσης (Extract-Transform-Load Layer) εξάγεται πληροφορία από τα δεδομένα, μοντελοποιείται ανάλογα με τις ανάγκες της εφαρμογής και στη συνέχεια μεταφέρεται στην αντίστοιχη αποθήκη δεδομένων. Τα δεδομένα τα οποία συλλέγονται από τις εσωτερικές και εξωτερικές πηγές, συνήθως δεν είναι ολοκληρωμένα, ενώ πολλές φορές είναι διπλά. Γι αυτό το λόγο χρειάζεται η διαδικασία της εξαγωγής, για να επιλεγούν τα δεδομένα τα οποία είναι σημαντικά για την επίτευξη της απόφασης. Στη συνέχεια, αυτή η πληροφορία μεταφέρεται σε μία προσωρινή αποθήκη στην οποία γίνεται η μοντελοποίηση και ο καθαρισμός των δεδομένων. Αυτό το στάδιο εξασφαλίζει το ότι δεν θα χρειαστεί να ξανά εξάγουμε τα δεδομένα αν προκύψει κάποιο σφάλμα κατά την επεξεργασία. Μέσω της μοντελοποίησης, τα ακατέργαστα δεδομένα μετατρέπονται με τη χρήση κανόνων που ορίζονται με βάση την απόφαση η οποία πρέπει να παρθεί, σε μορφή αναγνωρίσιμη από το σύστημα λήψης απόφασης. Παράλληλα, εξασφαλίζεται και η 23

24 ιδιομορφία των δεδομένων προκειμένου να μπορούν να χρησιμοποιηθούν και στα υπόλοιπα συστήματα της επιχείρησης. Ο καθαρισμός τον δεδομένων γίνεται μέσω προκαθορισμένων κανόνων και επιτυγχάνει την εύρεση λαθών στα εξαγόμενα δεδομένα. Αν κάποιο τέτοιο σφάλμα ευρεθεί, επιστρέφονται πίσω στις πηγές δεδομένων για να γίνει η διόρθωσή τους. Μετά το πέρας της μοντελοποίησης και του καθαρισμού, τα δεδομένα μεταφέρονται στην αποθήκη δεδομένων, όπου και τελειώνει το ETL Επίπεδο και ξεκινάει το Επίπεδο Αποθηκών Δεδομένων (Data Warehouse Layer) Επίπεδο Αποθηκών Δεδομένων Το Επίπεδο Αποθηκών Δεδομένων αποτελείται από τρία μέρη, την αποθήκη λειτουργικών δεδομένων, τις αποθήκες και τα υποσύνολα δεδομένων, τα οποία ακολουθούν και την αντίστοιχη ροή. Η αποθήκη λειτουργικών δεδομένων, χρησιμοποιείται για την ενσωμάτωση των δεδομένων από το Επίπεδο Εξαγωγής-Μοντελοποίησης-Φόρτωσης στο Επίπεδο Αποθηκών Δεδομένων. Σε αυτό το εργαλείο αποθηκεύονται συγκεκριμένα για κάθε απόφαση δεδομένα, σε πραγματικό χρόνο και από διάφορες πηγές, προκειμένου να υποστηρίζουν τις διαδικασίες λήψης αποφάσεων. Τα δεδομένα μπορούν να επανεγγράφονται σε σύντομο χρόνο, αλλά και να αντικαθιστούνται από άλλα, καινούργια. Αυτή η ευελιξία επιτρέπει στα ODS να προβάλλουν δεδομένα από διάφορες πηγές με την ίδια μορφή σε όλες τις εφαρμογές της επιχείρησης. Χρησιμοποιούνται κυρίως για αποφάσεις σε σύντομο χρονικό διάστημα αλλά και για προβολή αναφορών σε πραγματικό χρόνο. Οι Αποθήκες Δεδομένων αποτελούν την κύρια πηγή αποθήκευσης δεδομένων των συστημάτων λήψεων αποφάσεων. Οι αποθήκες δεδομένων είναι προσανατολισμένες στο θέμα, ολοκληρωμένες, εξαρτώμενες από το χρόνο και μη πτητικές συλλογές δεδομένων οι οποίες υποστηρίζουν τη διαδικασία λήψης αποφάσεων. Επιπρόσθετα, συλλέγουν και αποθηκεύουν ιστορικά δεδομένα για την υποστήριξη αποφάσεων μακροπρόθεσμα, ενώ υποστηρίζουν και την Online Αναλυτική Επεξεργασία, αποθηκεύοντας και διατηρώντας δεδομένα σε πολυδιάστατες μορφές με σκοπό την αναφορά και ανάλυση. 24

25 2.2.4 Υποσύνολα Δεδομένων Τα δεδομένα που αποθηκεύονται στις αποθήκες δεδομένων, είναι σχεδιασμένα για να υποστηρίζουν διάφορες ανάγκες των τμημάτων μιας επιχείρησης, αλλά όχι για παίρνουν συγκεκριμένες αποφάσεις για κάθε ένα από αυτά. Για αυτόν το σκοπό υπάρχουν τα υποσύνολα δεδομένων (data marts), τα οποία αποτελούν υποσύνολα των Αποθηκών Δεδομένων, και τα οποία χρησιμοποιούνται για να καλύπτουν τις συγκεκριμένες ανάγκες μιας διαδικασίας ή ενός τμήματος του οργανισμού. Περιλαμβάνουν και αυτά ιστορικά δεδομένα για την μακροχρόνια ανάγνωση και ανάλυση. Τα data marts δημιουργούνται βασισμένα σε ένα πολυδιάστατο μοντέλο δεδομένων, το οποίο περιλαμβάνει πίνακες γεγονότων και διαστάσεων. Στον πίνακα γεγονότων αποθηκεύονται ποιοτικά δεδομένα όπως ο αριθμός των πωλήσεων, η ποσότητα των προϊόντων και η τιμή. Ο πίνακας διαστάσεων περιλαμβάνει δεδομένα τα οποία περιγράφουν τα γεγονότα, όπως τα προϊόντα, οι πελάτες και η τοποθεσία προέλευσης Επίπεδο Μεταδεδομένων Τα μετά-δεδομένα προσφέρουν πληροφορίες για τα δεδομένα των αποθηκών και τα υποσύνολα. Περιγράφουν τις εφαρμογές στις οποίες χρησιμοποιούνται, την πηγή τους, τις αλλαγές τις οποίες έχουν υποστεί καθώς και τις συσχετίσεις μεταξύ αυτών και άλλων πληροφοριών της εφαρμογής. Δεξαμενές μετά-δεδομένων χρησιμοποιούνται για την αποθήκευση τεχνικών και ποιοτικών πληροφοριών για τις πηγές των δεδομένων. Η σωστή χρήση και επεξεργασία των μετά-δεδομένων μειώνουν το κόστος κατασκευής των εφαρμογών, απλοποιούν τη διαδικασία συντήρησης αυτών και προσφέρουν στο χρήστη πληροφορίες για την πηγή των δεδομένων. Με αυτόν τον τρόπο, οι χρήστες δε χρειάζεται να σχεδιάσουν τη δομή των δεδομένων, κατά τη μοντελοποίηση, καθώς αυτή η πληροφορία εμπεριέχεται στα μετά-δεδομένα Επίπεδο Τελικού Χρήστη Το Επίπεδο του Τελικού Χρήστη (End User Layer) αποτελείται από εργαλεία τα οποία προσφέρουν ένα περιβάλλον αλληλεπίδρασης μεταξύ του τελικού χρήστη και του συστήματος λήψης αποφάσεων. Η πρόσβαση σε αυτές τις πληροφορίες ακολουθεί ένα ιεραρχικό μοντέλο πυραμίδας, με τα υψηλόβαθμα στελέχη του οργανισμού να έχουν 25

26 πρόσβαση σε αναλυτικές αναφορές και δεδομένα, ενώ όσο κατεβαίνουμε στην ιεραρχία η πρόσβαση γίνεται όλο και πιο περιορισμένη. Στο Σχήμα 2 φαίνεται η παραπάνω αρχιτεκτονική. Σχήμα 2 Αρχιτεκτονική Επιχειρηματικής Ευφυίας 2.3 Τεχνικές και Συστήματα Επιχειρηματικής Ευφυΐας Η αποτελεσματική και αποδοτική εφαρμογή της Επιχειρηματικής Ευφυΐας, μπορεί να οδηγήσει μια επιχείρηση στο να αποκτήσει σημαντικό πλεονέκτημα απέναντι στους ανταγωνιστές της. Για να επιτευχθεί αυτό, χρησιμοποιούνται μία σειρά από τεχνικές και συστήματα που υποστηρίζουν τη λήψη αποφάσεων. Η Επιχειρηματική Ευφυΐα είναι μία επιστήμη η οποία βασίζεται σε παραδοσιακές τεχνικές Στατιστικής. Οι περισσότερες μέθοδοι που χρησιμοποιούνται για τη συλλογή και ανάλυση δεδομένων, είναι προσαρμοσμένες πάνω σε μεθόδους στατιστικής ανάλυσης. Σε πολλούς από τους αλγορίθμους της Επιχειρηματικής Ευφυΐας, μπορούμε να διακρίνουμε μεθόδους ταξινόμησης, ομαδοποίησης και ανάλυσης ακραίων τιμών, sequential patterns, time series analysis, πρόβλεψης, οπισθοδρόμησης, link analysis (associations), καθώς και πολυδιάστατες μεθόδους όπως Online Αναλυτική Επεξεργασία. Παρακάτω περιγράφουμε τις κυριότερες 26

27 τεχνικές Μοντέλα Πρόβλεψης Τα Μοντέλα Πρόβλεψης (Predictive Models), είναι μια τεχνική Στατιστικής, η οποία χρησιμοποιείται κυρίως για την πρόβλεψη μελλοντικής συμπεριφοράς. Αποτελεί μία τεχνολογία εξόρυξης δεδομένων, η οποία δουλεύει αναλύοντας ιστορικά και τωρινά δεδομένα και παράγοντας μοντέλα με τα οποία προβλέπει μελλοντικά αποτελέσματα [8]. Η λειτουργία των Μοντέλων Πρόβλεψης, αποτελείται από τα εξής βήματα: 1. Συλλογή δεδομένων 2. Δημιουργία στατιστικού μοντέλου 3. Προβλέψεις 4. Επικύρωση ή αναθεώρηση μοντέλου Ένα παράδειγμα χρήσης των Μοντέλων Πρόβλεψης, αποτελούν τα μοντέλα ανίχνευσης απάτης, τα οποία συλλέγουν και αναλύουν δεδομένα σχετικά με τους πελάτες και τις κινήσεις τους, προσπαθώντας να προβλέψουν αν θα προβούν σε συγκεκριμένες συμπεριφορές στο μέλλον Περιγραφική Εξόρυξη Δεδομένων Ο στόχος της Ανάλυσης Δεδομένων, είναι η εξαγωγή πρακτικών συμπερασμάτων, τα οποία θα οδηγήσουν στη λήψη καλύτερων αποφάσεων και επιχειρηματικών αποτελεσμάτων. Προκειμένου να πετύχουν αυτόν το στόχο, είναι σημαντικό οι επιχειρήσεις να έχουν δημιουργούν συστήματα, η αρχιτεκτονική των οποίων να επιτρέπει την είσοδο και ανάλυση μεγάλου όγκου δεδομένων. Γι αυτόν το λόγο, χρησιμοποιούνται διάφορες τεχνικές εξόρυξης δεδομένων. Μία από αυτές είναι η Περιγραφική Εξόρυξη. Η Περιγραφική Εξόρυξη, αναλύει δεδομένα από παλαιότερα γεγονότα, για πληροφορία σχετικά με το πώς θα προσεγγίσει το μέλλον. Διαβάζοντας δεδομένα για το παρελθόν, αναζητά τους λόγους που οδήγησαν σε επιτυχία ή αποτυχία. Σε αντίθεση με τα Μοντέλα Πρόβλεψης, τα οποία επικεντρώνονται στην πρόβλεψη μιας μόνο μελλοντικής ενέργειας, τα Περιγραφικά Μοντέλα αναγνωρίζουν διάφορες συσχετίσεις μεταξύ των ομάδων δεδομένων. Ένα παράδειγμα χρήσης της Περιγραφικής Εξόρυξης, αποτελούν τα συστήματα αναφορών των πελατών μιας επιχείρησης, μέσα από τα οποία οι πελάτες κατηγοριοποιούνται ανάλογα με τις προτιμήσεις τους στα προϊόντα. 27

28 2.3.3 Ανάλυση Συνδέσμων Η Ανάλυση Συνδέσμων (Link Analysis) αποτελεί μια τεχνική ανάλυσης δεδομένων, η οποία χρησιμοποιείται για την αξιολόγηση σχέσεων και συνδέσμων μεταξύ κόμβων [9]. Ακολουθώντας του συνδέσμους που καταλήγουν σε κάθε κόμβο, μπορούμε να εξάγουμε πληροφορία για τις σχέσεις του με τους υπόλοιπους και να δημιουργήσουμε ένα δίκτυο, το οποίο στη συνέχεια χρησιμοποιείται για την εξαγωγή συμπερασμάτων σχετικά με: Την αναγνώριση γνωστών μοτίβων μέσα στα δεδομένα. Την αναζήτηση σφαλμάτων και ανωμαλιών στα δεδομένα τα οποία δεν ικανοποιούν τα γνωστά μοτίβα. Την ανακάλυψη νέων μοτίβων και σημείων ενδιαφέροντος. Η τεχνική της Ανάλυσης Συνδέσμων χρησιμοποιείται ευρέως στις διαδικτυακές μηχανές αναζήτησης, στις οποίες κάθε σελίδα στο διαδίκτυο κατατάσσεται με βάση τους συνδέσμους οι οποίοι καταλήγουν σε αυτή. Οι σελίδες με την καλύτερη κατάταξη για μια αναζήτηση εμφανίζονται στις πρώτες σελίδες των αποτελεσμάτων. Ένα άλλο παράδειγμα χρήσης αποτελεί το σύστημα ViCAP του FBI, καθώς και σε άλλα συστήματα καταπολέμησης του εγκλήματος. Με τη βοήθεια της Ανάλυσης Συνδέσμων, οι υπηρεσίες ασφάλειας μπορούν να δημιουργούν δίκτυα εμπιστοσύνης του κάθε υπόπτου, καθώς και να εξάγουν συμπεράσματα από τις τραπεζικές κινήσεις του και τις κλήσεις στο κινητό του Ταξινόμηση Η Ταξινόμηση (Classification) είναι μία τεχνική πρόβλεψης στην Επιχειρηματική Ευφυΐα. Η διαδικασία της Ταξινόμησης περιλαμβάνει τη χρήση μεταβλητών με γνωστές τιμές για την πρόβλεψη των μελλοντικών τιμών άλλων μεταβλητών [10]. Αναλυτικά, τα στάδια της ταξινόμησης είναι τα εξής: Ομαδοποίηση των δεδομένων εκπαίδευσης, δηλαδή των μεταβλητών με γνωστές τιμές, προκειμένου να δημιουργηθούν οι κατηγορίες. Εφαρμογή του αλγορίθμου ταξινόμησης (classifier) στις κατηγορίες, δημιουργώντας το περιγραφικό μοντέλο της κάθε μίας. Δημιουργία του συστήματος ταξινόμησης και ανάθεση των μοντέλων στις κατηγορίες που δημιουργήθηκαν. 28

29 Το σύστημα ταξινόμησης μπορεί να αξιολογηθεί με βάση την αποτελεσματικότητα του. Τα κριτήρια γι αυτήν την αξιολόγηση είναι τα εξής [10]: Ευστοχία πρόβλεψης. Πόσο εύστοχο είναι στο να βρίσκει τις κατηγορίες των νέων δεδομένων. Ταχύτητα. Ποια είναι τα υπολογιστικά κόστη του συστήματος. Ευρωστία. Ποια είναι η απόδοση των μοντέλων όταν η ποιότητα των δεδομένων είναι μικρή. Επεκτασιμότητα: Πώς ανταποκρίνεται το σύστημα σε δεδομένα μεγάλου όγκου. Επεξηγηματικότητα: Αν τα δεδομένα είναι κατανοητά προς τον χρήστη. Η Ταξινόμηση είναι μια τεχνική η οποία εντοπίζεται συχνά σε ιατρικές διαγνώσεις, όπου συγκρίνονται γνωστά δεδομένα από συμπτώματα μιας ασθένειας, και προβλέπεται η διάγνωση αυτής σε έναν νέο ασθενή Συσταδοποίηση και Ανάλυση Ακραίων Τιμών Η Συσταδοποίηση (Clustering) αποτελεί μέρος της μάθησης χωρίς επίβλεψη. Σε αντίθεση με την Ταξινόμηση, η μέθοδος αυτή δε βασίζεται σε προηγούμενα γνωστά δεδομένα, αλλά κατηγοριοποιεί τα τωρινά με τέτοιον τρόπο, ώστε δεδομένα όμοια μεταξύ τους να ανήκουν στην ίδια συστάδα (cluster). Η Συσταδοποίηση, αποτελεί ένα πρόβλημα βελτιστοποίησης με πολλαπλούς σκοπούς. Αυτός είναι και ο λόγος για τον οποίο υπάρχουν πληθώρα αλγορίθμων για τη λύση του, οι οποίοι διαφέρουν αρκετά μεταξύ τους. Οι κύριες διαφορές μεταξύ των αλγορίθμων συσταδοποίησης, είναι ο ορισμός των συστάδων (clusters) και η αποτελεσματική τοποθέτηση των δεδομένων σε αυτές. Οι αλγόριθμοι αυτοί κατηγοριοποιούνται με βάση τον τρόπο με τον οποίο ορίζουν μια συστάδα, και καθορίζονται από τα εξής μοντέλα: Μοντέλο Συνδεσιμότητας: Ομαδοποίηση με βάση τη συνδεσιμότητα μεταξύ των αποστάσεων των δεδομένων., π.χ. Ιεραρχική Ομαδοποίηση Μοντέλο Κέντρου Βάρους: Η κάθε συστάδα αντιπροσωπεύεται από ένα κέντρο βάρους, π.χ. Αλγόριθμος Κ-Μέσων Μοντέλο Κατανομής: Μοντελοποίηση των ομάδων βάσει στατιστικών κατανομών, π.χ. Αλγόριθμος Μεγιστοποίησης Αναμονής 29

30 Μοντέλο Πυκνότητας: Ορισμός συστάδων ως συνδεδεμένες πυκνές περιοχές στον χώρο των δεδομένων, π.χ. Αλγόριθμος DBSCAN Μοντέλα Υποσυνόλων: Μοντελοποίηση των συστάδων με τη χρήση των μελών τους, αλλά και των χαρακτηριστικών αυτών, π.χ. Biclustering Μοντέλα Σύμπλεξης: Μοντελοποίηση με βάση τις πληροφορίες σύμπλεξης (grouping) των δεδομένων, και όχι κάποιου προκαθορισμένου μοντέλου. Η συσταδοποίηση βρίσκει εφαρμογή σε διάφορες επιστήμες, όπως για παράδειγμα στα οικονομικά και συγκεκριμένα στην Ανάλυση Αγοράς, όπου επεξεργάζονται δεδομένα από έρευνες, δημοσκοπήσεις αλλά και κοινωνικά δίκτυα, προκειμένου να βρεθούν ομάδες ανθρώπων με συγκεκριμένα καταναλωτικά μοτίβα. Στο Σχήμα 3 διακρίνονται μερικοί από τους αλγορίθμους Συσταδοποίησης. Σχήμα 3 Αλγόριθμος DBSCAN(αριστερά), Αλγόριθμος Κ-Μέσων (δεξιά) Ανάλυση Ακραίων Τιμών Στο Σχήμα 3, διακρίνονται δεδομένα τα οποία έχουν ομαδοποιηθεί με τη μέθοδο των Κ- Μέσων. Μέσα σε αυτές τις ομάδες, εντοπίζονται αντικείμενα τα οποία, παρόλο που ανήκουν σε αυτές, απέχουν αρκετά από τους γείτονές τους. Τα δεδομένα τα οποία ανήκουν σε μία ομάδα, αλλά διαφέρουν σημαντικά από τα υπόλοιπα μέλη, δίνοντας την εντύπωση ότι έχουν παραχθεί από έναν διαφορετικό μηχανισμό, ονομάζονται Ακραίες Τιμές [11]. 30

31 Η εύρεση και ταυτοποίηση των Ακραίων Τιμών μπορεί να οδηγήσει στην ανακάλυψη χρήσιμης γνώσης για τα υπό επεξεργασία δεδομένα. Όπως φαίνεται στο Σχήμα 4, Υπάρχουν δύο τρόποι ανακάλυψης των ακραίων τιμών: Η Κλασική Ανάλυση, η οποία βασίζεται στα δεδομένα που χρησιμοποιήθηκαν σε μία συναλλαγή. Η Χωρική Ανάλυση, η οποία εξάγει την πληροφορία με βάση χωρικών δεδομένων. Σχήμα 4 Κλασική Ανάλυση Ακραίων Τιμών Κλασική Ανάλυση Στην Κλασική Ανάλυση, λαμβάνονται υπ όψη μια σειρά από δεδομένα τα οποία περιγράφουν μία συναλλαγή ή αλληλεπίδραση με το σύστημα. Για παράδειγμα, στα δεδομένα πωλήσεων αγαθών, κάθε αγορά από έναν πελάτη αποτελεί μία συναλλαγή η οποία περιλαμβάνει τα αγαθά τα οποία αγόρασε, καθώς και πληροφορίες για τον ίδιο. Όπως φαίνεται στο Σχήμα 4, υπάρχουν διάφορες προσεγγίσεις με τις οποίες επιτυγχάνεται η Κλασική Ανάλυση: Στατιστική Προσέγγιση: Ορίζει ένα μοντέλο κατανομής ή πιθανότητας για τα δεδομένα υπό επεξεργασία, και με βάση αυτό βρίσκει Ακραίες Τιμές με τη χρήση δοκιμών ασυμφωνίας. Προσέγγιση Απόστασης: Βασίζεται στον αριθμό των γειτόνων ενός αντικειμένου, και ορίζει Ακραίες Τιμές τα δεδομένα εκείνα για τα οποία υπάρχουν λιγότεροι από Κ γείτονες εντός της δοθείσας απόστασης [12]. 31

32 Προσέγγιση Απόκλισης: Ελέγχει τα κύρια χαρακτηριστικά των αντικειμένων των δεδομένων και ορίζει ως Ακραίες Τιμές τα δεδομένα τα οποία αποκλίνουν από αυτά τα χαρακτηριστικά. Προσέγγιση Πυκνότητας: Υπολογίζει την πυκνότητα σε κάθε σημείο, με βάση την τοπική πυκνότητα του γείτονά του. Τα δεδομένα τα οποία βρίσκονται στις περιοχές με μικρή πυκνότητα αποτελούν τις Ακραίες Τιμές. Χωρική Ανάλυση Χωρικά Δεδομένα αποτελούν αυτά τα οποία περιγράφονται στον χώρο, όπως για παράδειγμα κτήρια και πόλεις. Τα δεδομένα αυτά περιέχουν χαρακτηριστικά δύο κατηγοριών, τα χωρικά χαρακτηριστικά, τα οποία περιγράφουν γεωμετρικές ιδιότητες, και τα μη-χωρικά, τα οποία προσφέρουν άλλες πληροφορίες για το αντικείμενο. Μία Χωρική Ακραία Τιμή, αποτελεί το αντικείμενο του οποίου τα μη χωρικά χαρακτηριστικά διαφέρουν σημαντικά από τους γείτονες του στο χωρικό επίπεδο, παρόλο που είναι δυνατόν να μη συμβαίνει αυτό για όλη την υπόλοιπη ομάδα. Η αναγνώριση Ακραίων Τιμών στο χώρο, μπορεί να βοηθήσει στην ανακάλυψη κρυμμένης πληροφορίας για το σύνολο των δεδομένων, όπως για παράδειγμα τον εντοπισμό ακραίων καιρικών φαινομένων, ή σημείων μεγάλης κίνησης σε έναν αυτοκινητόδρομο. Η χωρική ανάλυση επιτυγχάνεται με τις παρακάτω δύο προσεγγίσεις: Προσέγγιση Χώρου: Ορίζει τις χωρικές γειτονιές με βάση την Ευκλείδεια Απόσταση μεταξύ των αντικειμένων. Χρησιμοποιεί χαρακτηριστικά -όπως η απόσταση από το κέντρο- ώς βάρη, προκειμένου να συγκρίνουν τα μη χωρικά χαρακτηριστικά. Προσέγγιση Γράφων: Χρησιμοποιείται σε ακανόνιστα κατανεμημένα χωρικά δεδομένα. Αρχικά κατασκευάζει έναν γράφο με βάση τους Κ-Κοντινότερους γείτονες στο χώρο. Στη συνέχεια αναθέτει τις διαφορές μεταξύ των μη χωρικών χαρακτηριστικών ως βάρη, και τέλος διαγράφει συνεχόμενα τις ακμές με τα μεγαλύτερα βάρη για να εντοπίσει απομονωμένα σημεία ή περιοχές που απέχουν αρκετά από τους γείτονές τους. 32

33 2.3.6 Συστήματα Online Αναλυτικής Επεξεργασίας Η Online Αναλυτική Επεξεργασία (Online Analytical Processing - OLAP) είναι μία μέθοδος ανάλυσης συγκεντρωτικών εταιρικών πολυδιάστατων δεδομένων, προερχομένων από διάφορες πηγές. Τα συστήματα της OLAP περιέχουν τρείς βασικές λειτουργίες, οι οποίες περιγράφονται ως εξής [13]: Ενοποίηση (roll-up): Περιλαμβάνει τη συσσωμάτωση δεδομένων τα οποία μπορούν να υπολογιστούν σε μία ή περισσότερες διαστάσεις. Για παράδειγμα, τα δεδομένα από κάθε πώληση των πωλητών ενοποιούνται για να ανακαλυφθούν τάσεις στην αγορά. Πλοήγηση (drill-down): Δίνει τη δυνατότητα στο χρήστη να πλοηγείται στις λεπτομέρειες των δεδομένων. Για παράδειγμα μπορεί να δει τις πωλήσεις ενός συγκεκριμένου προϊόντος από τις συνολικές. Slice and Dice: Δίνει τη δυνατότητα στο χρήστη να διαλέξει συγκεκριμένα δεδομένα και να τα προβάλει από μία συγκεκριμένη διάσταση. Για παράδειγμα να δει τις πωλήσεις ανά πωλητή, ημερομηνία ή πελάτη. Η Online Αναλυτική Επεξεργασία χρησιμοποιείται σε εφαρμογές αναφορών, κυρίως οικονομικών δεδομένων, όπως οι πωλήσεις, οι καμπάνιες marketing, η ανάλυση προϋπολογισμού και οι αναφορές των οικονομικών τριμήνων. 2.4 Ευφυΐα Βασισμένη στην Τοποθεσία Σύμφωνα με έρευνες, το 80% των δεδομένων σε επιχειρήσεις και οργανισμούς, περιέχουν χαρακτηριστικά που αφορούν την τοποθεσία [14]. Η ανάγκη για ανάλυση και επεξεργασία αυτών για την εξαγωγή συμπερασμάτων, οδήγησε στη δημιουργία του κλάδου της Ευφυΐας Βασισμένης στην Τοποθεσία (Location Based Intelligence - LBI) Τί είναι η Ευφυΐα Τοποθεσίας Μέχρι στιγμής, αναφερθήκαμε σε δεδομένα προερχόμενα από τις επιχειρήσεις και τους συνεργάτες της, τα οποία περιγράφουν τις δραστηριότητες τους. Η ανάλυσή αυτών οδηγεί σε αποφάσεις για το μέλλον και τη λειτουργία της επιχείρησης. Τις περισσότερες φορές, μέσα σε αυτά τα δεδομένα εμπεριέχονται και χαρακτηριστικά τα οποία αναφέρονται σε 33

34 δημογραφικά και γεωγραφικά στοιχεία, καθώς και σε άλλα δεδομένα τα οποία αφορούν το χωρικό περιβάλλον μέσα στο οποίο λειτουργεί μία επιχείρηση. Παράλληλα, διαθέσιμα στο κοινό υπάρχουν και δεδομένα τα οποία αφορούν την ευρύτερη περιοχή δράσης της επιχείρησης, και δεν αναφέρονται ούτε προέρχονται από τις δραστηριότητες αυτής. Τέτοια δεδομένα αποτελούν ο πληθυσμός και η έκταση μιας πόλης, η τοποθεσία της, η απόστασή της από τα μεγάλα αστικά κέντρα. Ο κλάδος της Ευφυίας Τοποθεσίας επιτρέπει τη λήψη στρατηγικών αποφάσεων, μέσω της ανάλυσης των απολύτων δεδομένων μιας περιοχής, και το συνδυασμό τους με τα συγκεκριμένα δεδομένα από τις δραστηριότητες των επιχειρήσεων που δραστηριοποιούνται σε αυτή. Οι επιχειρήσεις οι οποίες χρησιμοποιούν τεχνικές Ευφυΐας Τοποθεσίας, καταφέρνουν να αυξήσουν τα κέρδη τους, μειώνοντας παράλληλα τα κόστη και αυξάνοντας την αποτελεσματικότητα των αποφάσεών τους Τα Οφέλη της Ευφυΐας Τοποθεσίας Η Ευφυία Τοποθεσίας είναι ένα κλάδος της Επιχειρηματικής Ευφυίας, ο οποίος είναι ακόμη καινούργιος και δεν έχει εδραιωθεί στις περισσότερες επιχειρήσεις. Οι οργανισμοί οι οποίοι έχουν αρχίσει να εκμεταλλεύονται τα χαρακτηριστικά τοποθεσίας στα δεδομένα, έχουν οφέλη σε πολλές από τις λειτουργίες τους, τα οποία κατατάσσονται στις παρακάτω κατηγορίες: Επιχειρηματικές Αποφάσεις: Μέσω εφαρμογών οι οποίες προσφέρουν πληροφορίες για τη στρατηγική της επιχείρησης, όπως η επιλογή περιοχής δραστηριότητας. Αλληλεπίδραση Πελατών: Μέσω εφαρμογών που ενισχύουν τις υπηρεσίες προς τον πελάτη, αυτοματοποιώντας πολλές διαδικασίες. Εφαρμόζεται στην αγορά των ακινήτων μέσω υπηρεσιών αυτοεξυπηρέτησης (self service) προς τους πελάτες. Καταναλωτικές Εφαρμογές: Μέσω της ενσωμάτωσης της τοποθεσίας στις υπηρεσίες που προσφέρουν στις εφαρμογές διαδικτύου και κινητών συσκευών. Για παράδειγμα η εμφάνιση διαφημίσεων σχετικών με την τοποθεσία του χρήστη. Καθώς οι χρήστες των κινητών συσκευών εξοικειώνονται όλο και περισσότερο με τη χρήση των υπηρεσιών τοποθεσίας, τα δεδομένα τα οποία συλλέγονται αποκτούν περισσότερο νόημα και τα οφέλη προς τις επιχειρήσεις αυξάνονται. Πλέον, οι εφαρμογές που εκμεταλλεύονται την τοποθεσία του χρήστη δεν περιορίζονται μόνο στην παγκόσμια 34

35 κλίμακα των συντεταγμένων (μακρό-περιβάλλον), αλλά εφαρμόζονται και εντός κτηριακών εγκαταστάσεων, όπου η τοποθεσία καθορίζεται σε σχέση με μία περιορισμένη περιοχή τριγύρω (μικρό-περιβάλλον) Ευφυΐα Τοποθεσίας στην Πράξη Πρακτικά, η Ευφυΐα Τοποθεσίας έχει ήδη αρχίσει να εφαρμόζεται σε πολλούς τομείς των επιχειρήσεων, με μεγάλους όγκους δεδομένων να συμβάλλουν καθημερινά σε στρατηγικές αποφάσεις, με βάση των χαρακτηριστικών της τοποθεσίας. Συγκεκριμένα, η Ευφυΐα Τοποθεσίας βρίσκει εφαρμογή στους εξής τομείς: Λιανικό Εμπόριο Στον τομέα της λιανικής, η τοποθεσία ενός καταστήματος επηρεάζει τις πωλήσεις του σε μεγαλύτερο βαθμό από οποιοδήποτε άλλο παράγοντα. Μία ιδανική τοποθεσία είναι ικανή να οδηγήσει σε μεγαλύτερη αποτελεσματικότητα από ένα εξελιγμένο προϊόν. Ως αποτέλεσμα, τα εργαλεία Ευφυΐας Τοποθεσίας βοηθούν τους ιδιοκτήτες στα παρακάτω: Προσδιορισμός βέλτιστης τοποθεσίας καταστημάτων. Μεγιστοποίηση μεριδίου αγοράς και επίδοσης κάθε καταστήματος, αλλά και ανάλυση αυτών με χαμηλές επιδόσεις. Δημιουργία λεπτομερών προγνώσεων για την επίδοση των καταστημάτων μιας τοποθεσίας. Αποτελεσματική διαφήμιση σε συγκεκριμένες περιοχές. Πρόγνωση της απόδοσης ενός προϊόντος σε μία καινούργια αγορά. Χρηματοπιστωτικές Υπηρεσίες Η διαρκείς εμπορευματοποίηση σε συνδυασμό με την ποικιλομορφία των συναλλαγών, έχουν οδηγήσει τις χρηματοπιστωτικές υπηρεσίες στην προσπάθεια βελτιστοποίησης κάθε σταδίου των συναλλαγών, προκειμένου να παραμείνουν κερδοφόρες. Η Ευφυΐα Τοποθεσίας συμβάλλει σε αυτήν την κατεύθυνση ως εξής [15]: Μεγιστοποιεί την ταχύτητα και την επίδοση σε κάθε ένα από τα τμήματα. Αξιολογεί ευκαιρίες επέκτασης καθορίζοντας τον βέλτιστο αριθμό, τοποθεσία, αλλά και προτεραιότητα δημιουργίας τμημάτων. 35

36 Βελτιστοποιεί την διανομή προσωπικού στα διάφορα τμήματα. Απομονώνει τα προβλήματα επίδοσης του προσωπικού από τα εσωτερικά προβλήματα της αγοράς. Προσφέρει καλύτερη κατανόηση των αναγκών των πελατών, των προτιμήσεών τους και της συμπεριφοράς τους. Εντοπίζει τμήματα χαμηλής αποδοτικότητας και αξιολογεί αν θα πρέπει να κλείσουν ή να ενισχυθούν. Ασφάλιση Στον τομέα της ασφάλισης, η κατανόηση και εκμετάλλευση της τοποθεσίας στις υπηρεσίες που προσφέρουν, μπορεί να οδηγήσει στην μείωση των ρίσκων τα οποία αναλαμβάνουν. Συγκεκριμένα, τα συστήματα Ευφυΐας Τοποθεσίας μπορούν να βοηθήσουν τις ασφαλιστικές στα παρακάτω: Ακριβής εκτίμηση της δυναμικής μιας αγοράς, με σκοπό το αποδοτικότερο marketing, τις περισσότερες πωλήσεις και τη μεγαλύτερη αποδοτικότητα. Βελτίωση των αποφάσεων μέσω ακριβέστερων αναλύσεων των ρίσκων. Αύξηση της ανταγωνιστικότητας μέσω βελτιστοποίησης της πολιτικής χρέωσης των πελατών. Αύξηση της αποτελεσματικότητας και κερδοφορίας των επιχειρήσεων μέσω εφαρμογής αυτοματοποιημένων συστημάτων ασφάλισης, με τη βοήθεια εφαρμογών διαδικτύου και κινητών συσκευών. Προσφορά υπηρεσιών που προσφέρουν μεγαλύτερη αξία στους πελάτες. Τηλεπικοινωνίες Οι σημερινές επικοινωνίες βασίζονται σε μεγάλο ποσοστό στις ασύρματες και κινητές εγκαταστάσεις. Ακόμη και μικρές μεταβολές στην τοποθεσία, μπορούν να επηρεάσουν σε μεγάλο βαθμό την ποιότητα της υπηρεσίας, το βαθμό διατήρησης των πελατών, και ως κατά συνέπεια την κερδοφορία της επιχείρησης. Επιπρόσθετα από την ποιότητα των υπηρεσιών, οι εταιρίες τηλεπικοινωνιών μπορούν να επωφεληθούν από την Ευφυία Τοποθεσίας στους ακόλουθους τομείς: 36

37 Ανάλυση της ζήτησης της αγοράς, της κάλυψης του δικτύου, αλλά και δεδομένων των ανταγωνιστών για την βελτιστοποίηση των υπηρεσιών και της συντήρησης. Αναβάθμιση των υπηρεσιών εξυπηρέτησης πελατών, με λειτουργίες όπως ανακάλυψη βλαβών, ο υπολογισμός του χρόνου επαναφοράς (downtime), αλλά και την κατανομή των μηχανικών δικτύου σε πραγματικό χρόνο. Καλύτερη κατανόηση των αναγκών των πελατών, αλλά και των απειλητικών ανταγωνιστών. Εύστοχες στρατηγικές για μάρκετινγκ και πωλήσεων βασισμένες στη διαθεσιμότητα των υπηρεσιών τους και την πιθανότητα διάφορες ομάδες πελατών να ενδιαφέρονται γι αυτές. Δημόσια Διοίκηση Οι κυβερνήσεις ανά τον κόσμο έχουν εστιάσει στην δημιουργία συστημάτων ηλεκτρονικής διακυβέρνησης, προκειμένου να κάνουν τη δουλειά τους πιο αποτελεσματική, αλλά και να προσφέρουν βοήθεια στις τοπικές κοινότητες. Η Ευφυία Τοποθεσίας, μπορεί να βοηθήσει τις κυβερνήσεις προς αυτήν την κατεύθυνση, διευκολύνοντας τις διαδικασίες με τους εξής τρόπους: Προσέλκυση, διατήρηση και υποστήριξη των τοπικών επιχειρήσεων, με σκοπό τη δημιουργία θέσεων εργασίας. Προγραμματισμός και εκπόνηση έργων υποδομής μεγάλης κλίμακας. Αξιολόγηση της ανάγκης για βοήθεια και υποστήριξη στους τομείς των ανθρωπίνων υπηρεσιών, της οικονομικής ανάπτυξης, της γεωργίας και της δημόσιας υγείας. Ενίσχυση της πρόβλεψης φυσικών καταστροφών και προετοιμασία για τις εργασίες αναχαίτησης. Βελτίωση των υποδομών πρόβλεψης σε θέματα που αφορούν την Εθνική Ασφάλεια. Επιχειρήσεις που δραστηριοποιούνται στο Ίντερνετ Παρόλο που οι υπηρεσίες που προσφέρονται μέσω Ίντερνετ δεν ενδιαφέρονται για την τοποθεσία του πωλητή και του πελάτη, πολλές επιχειρήσεις ανακαλύπτουν ότι είναι περισσότερο επιτυχημένες σε περιοχές με συγκεκριμένα χαρακτηριστικά, όπως η απόσταση από τα αστικά κέντρα και η πυκνότητα των φυσικών καταστημάτων στην περιοχή. 37

38 Επιπρόσθετα, οι επιχειρήσεις αυτής της φύσης επωφελούνται από την Ευφυία Τοποθεσίας με τους εξής τρόπους: 1. Βελτιστοποίηση της αντιστοίχισης των διαφόρων ποικιλιών των προϊόντων στις γεωγραφικές περιοχές και τις ομάδες πελατών. 2. Βελτιστοποίηση των στρατηγικών απόκτησης πελατών, όπως το κόστος και ο χρόνος των δωρεάν μεταφορικών. 3. Βελτιστοποίησης της διαφήμισης το Ίντερνετ, στις διάφορες περιοχές ενδιαφέροντος. 2.5 Προβλήματα της Ευφυίας Τοποθεσίας Η Ευφυία Τοποθεσίας, είναι ένας τομέας της Επιχειρηματική Ευφυίας, του οποίου οι εφαρμογές δεν είναι ακόμη αρκετά ώριμες και διαδεδομένες στον ευρύ επιχειρηματικό κύκλο. Υπάρχουν ακόμη αρκετές προκλήσεις και προβλήματα τα οποία πρέπει να ξεπερασθούν προκειμένου να εφαρμόζεται σωστά και να επιφέρει τα επιθυμητά αποτελέσματα. Μερικά από αυτά αναλύονται παρακάτω: Μία Τεχνική για Όλες Εφαρμογές Τα προϊόντα και οι τις υπηρεσίες στο λιανικό εμπόριο, διακρίνονται σε τάξεις. Αυτά που ανήκουν σε χαμηλότερες τάξεις, ονομάζονται και αγαθά ευκολίας, ενώ στις υψηλότερες τάξεις βρίσκονται τα αγαθά επιλογής. Οι καταναλωτές είναι συνήθως λιγότερο πρόθυμοι να διανύσουν μεγάλες αποστάσεις για την απόκτηση αγαθών ευκολίας, γιατί αγοράζονται συχνά και είναι διαθέσιμα σε πολλά μέρη. Ως αποτέλεσμα, οι πωλήσεις αυτών των αγαθών εξαρτώνται κυρίως από τα χαρακτηριστικά και της ευκολίες που προσφέρει η επιχείρηση η οποία τα διαθέτει. Από την άλλη, οι καταναλωτές είναι περισσότερο πρόθυμοι να διανύσουν αποστάσεις και να περιπλανηθούν μεταξύ των καταστημάτων, συγκρίνοντας τιμές και ποιότητα, όταν ενδιαφέρονται για προϊόντα υψηλής τάξης. Για τον λόγο αυτό, όσο μεγαλώνει η τάξη του προϊόντος, τόσο μεγαλύτερη είναι και η περιοχή εξυπηρέτησης. Σκοπός τον επιχειρήσεων είναι να αυξάνουν την τάξη των προϊόντων, διαφοροποιώντας τα συνεχώς από τα ανταγωνιστικά. Ως αποτέλεσμα, οι πωλήσεις των προϊόντων υψηλής τάξης επηρεάζονται και από τις ανταγωνιστικές και συμπληρωματικές επιχειρήσεις στην εκάστοτε περιοχή εξυπηρέτησης. Για παράδειγμα, οι πωλήσεις ενός εστιατορίου σε μία περιοχή, εξαρτάται 38

39 άμεσα από τη ζήτηση την οποία δημιουργεί η ύπαρξη ενός γειτονικού πολυκαταστήματος στην περιοχή. Αυτό δημιουργεί σημαντική πολυπλοκότητα στις παραμέτρους και τη μοντελοποίηση των δεδομένων και είναι κάτι το οποίο δεν το έχουνε λύσει παρά μόνο ελάχιστα συστήματα Ευφυίας Τοποθεσίας. Τα τυπικά συστήματα Ευφυίας Τοποθεσίας, προκειμένου να πετύχουν μεγαλύτερη ευστοχία, εστιάζουν στις λεπτομέρειες της κάθε συγκεκριμένης περιοχής μελέτης, τα λεγόμενα νάνο-δεδομένα. Αυτά τα μοντέλα προσφέρουν λύσεις στα προϊόντα χαμηλών τάξεων, όπου η ζήτηση περιορίζεται γεωγραφικά. Στην αντίθετη όχθη, η πρόοδος στην ανάλυση των μακρό-δεδομένων είναι περιορισμένη. Για τον λόγο αυτό, νάνο-δεδομένα χρησιμοποιούνται λανθασμένα και στις αναλύσεις που αφορούν προϊόντα υψηλών τάξεων, όπου οι πωλήσεις επηρεάζονται από τους ανταγωνιστές. Με αυτή τη μέθοδο δημιουργούνται αστοχίες στις αναφορές των συστημάτων. Απομονωμένη Ανάλυση των Περιοχών Εξυπηρέτησης Τα περισσότερα Γεωγραφικά Συστήματα Πληροφοριών χρησιμοποιούν τεχνικές ζωνών επιρροής, ή χρόνου κίνησης στις αναλύσεις τους. Αυτές οι τεχνικές είναι διαδεδομένες στα προϊόντα ευκολίας, όπου οι καταναλωτές αναμένονται να διαλέξουν την κοντινότερη ή πιο προσβάσιμη τοποθεσία. Περιορίζονται όμως από το γεγονός ότι βασίζονται σε μία αυθαίρετη απόσταση ή εκτίμηση χρόνου, χωρίς να υπολογίζουν ότι στην πραγματικότητα, ακόμη και σε αυτά τα προϊόντα, η τοποθεσία και η αποτελεσματικότητα των ανταγωνιστών επηρεάζουν τη ζήτηση. Ισορροπία Προμήθειας και Ζήτησης Οι μέθοδοι ανάλυσης της τοποθεσίας δίνουν πολλή μεγάλη σημασία στη συμπεριφορά των καταναλωτών, ενώ υποτιμούν τη συνολική προμήθεια και ζήτηση σε μία περιοχή εξυπηρέτησης. Οι μέθοδοι αυτοί δεν προσφέρουν συνολική κατανόηση της δυναμικής της προμήθειας και της ζήτησης. Ως αποτέλεσμα, τα συστήματα γίνονται αναξιόπιστα, κυρίως λόγω της υπόθεσης της ισορροπίας μεταξύ αυτών. Ισορροπία μεταξύ προμήθειας και ζήτησης, υπάρχει όταν η προμήθεια ενός προϊόντος ή υπηρεσίας είναι ίση με τη ζήτηση. Στην πραγματικότητα, υπάρχει μεγάλο πρόβλημα ανισορροπίας ανάμεσα σε αυτά τα μεγέθη, τόσο σε επίπεδο επιχειρήσεων όσο και σε εθνικό. 39

40 Η ανισορροπία στις επιχειρήσεις, εκφράζεται μέσω ελλειμάτων και πλεονασμάτων, και δεν συμπεριλαμβάνεται στα συμβατικά συστήματα Ευφυίας Τοποθεσίας, διότι θεωρούνται ασήμαντα. Τα ελλείματα όμως συνεχώς αυξάνονται και συχνά αγγίζουν το 50% της συνολικής αγοράς. Όταν τα αποτελέσματα αυτών γίνονται εμφανή, θεωρούνται λανθασμένα υπεύθυνοι οι καταναλωτές με την ασταθή συμπεριφορά τους. Στην πραγματικότητα όμως, τα συστήματα αυτά δεν προσφέρουν πραγματική κατανόηση της προμήθειας και της ζήτησης και ως αποτέλεσμα οδηγούν σε λανθασμένες στρατηγικές αποφάσεις. 2.6 Σχετικές Εργασίες Με τα προβλήματα της Επιχειρηματικής Ευφυίας έχουν ασχοληθεί αρκετοί ερευνητές και επιχειρήσεις, οι οποίοι είτε βελτιστοποιούν υπάρχουσες τεχνικές, είτε δημιουργούν αθροιστικά συστήματα διαφόρων μεθόδων. Παρακάτω παρουσιάζομε μερικές από αυτές, οι οποίες επικεντρώνονται στην Ευφυία Τοποθεσίας, στη Συναισθηματική Ανάλυση και στο συνδυασμό αυτών. Το Tweetviz [16] είναι μία πλατφόρμα οι οποία αναλύει μεγάλο όγκο κειμένων από το Twitter και δημιουργεί διαδραστικές απεικονίσεις του συναισθήματος και των δημογραφικών χαρακτηριστικών των χρηστών. Οι Διακόπουλος και Naaman ανέπτυξαν ένα εργαλείο ανάλυσης σε πραγματικό χρόνο, για χρήση από δημοσιογράφους [17]. Ο σκοπός του είναι η εξαγωγή πληροφορίας συναισθήματος από μεγάλο όγκο Tweets σε πραγματικό χρόνο, για την άμεση αποτύπωση των αντιδράσεων του κοινού σε σημαντικά γεγονότα. Τέλος, όσον αφορά την Ευφυία Τοποθεσίας, οι McClanahan και Gokhale ανέπτυξαν μία πλατφόρμα εξαγωγής της ακριβής τοποθεσίας των χρηστών των κοινωνικών δικτύων με τη χρήση μεθόδων ταξινόμησης, παλινδρόμησης και ανάλυσης κειμένου [18]. Στο επόμενο κεφάλαιο περιγράφουμε αναλυτικά τα πεδία της Ευφυίας Τοποθεσίας με τα οποία ασχολούμαστε στην εργασία αυτή, και παρουσιάζουμε τις μεθόδους ανάλυσης και τους αλγορίθμους μηχανικής μάθησης που θα χρησιμοποιήσουμε για τη δημιουργία του ταξινομητή. 40

41 Κεφάλαιο 3 Ανάλυση Δεδομένων από Κοινωνικά Δίκτυα Ένας πολύ σημαντικός κλάδος της Επιχειρηματικής Ευφυίας ασχολείται με την ανάκτηση πληροφορίας από τους πελάτες της επιχείρησης, σχετικά με την ικανοποίησή τους από τα προϊόντα και τις υπηρεσίες που προσφέρει. Οι τεχνικές και οι στρατηγικές που αναπτύσσονται για να επιτευχθεί αυτός ο στόχος, ανήκουν στον τομέα της Εξόρυξης Γνώμης (Opinion Mining). 3.1 Εισαγωγή Σε κάθε διαδικασία λήψης μίας απόφασης, λαμβάνονται υπόψη διαφορετικοί παράμετροι από διαφορετικές πηγές. Αυτό δε συναντάται μόνο στις επιχειρήσεις, αλλά γενικότερα στον τρόπο με τον οποίο συμπεριφέρονται οι άνθρωποι απέναντι σε μία τέτοια πρόκληση. Η συνεχώς αυξανόμενη χρήση του διαδικτύου, προσφέρει στους χρήστες του διάφορες πλατφόρμες μέσα από τις οποίες μπορούν να εκφράσουν τις απόψεις τους ελεύθερα. Αυτές οι πλατφόρμες μπορούν να είναι είτε εξειδικευμένες στη δημιουργία κριτικών για τις επιχειρήσεις (Trip Advisor, Foursquare), είτε μαζικά κοινωνικά δίκτυα όπου οι χρήστες μοιράζονται τις σκέψεις τους (Facebook, Twitter). Με αυτόν τον τρόπο, δημιουργείται ένας μεγάλος όγκος δεδομένων διασκορπισμένων σε διάφορα μέσα, τον οποίο καλούνται οι επιχειρήσεις να εκμεταλλευτούν. Η διαδικασία της Εξόρυξης Γνώμης από τις παραπάνω πλατφόρμες, περιλαμβάνει [19]: Την αναζήτηση του ονόματος, του προϊόντος ή της υπηρεσίας που προσφέρει η επιχείρηση στις κριτικές και τα μηνύματα που δημοσιεύουν οι χρήστες. Την ταξινόμηση των κριτικών σε θετικές ή αρνητικές, ανάλογα με το περιεχόμενό τους, με τη χρήση μεθόδων Συναισθηματικής Ανάλυσης. Η συλλογή, επεξεργασία και αποτίμηση των πληροφοριών μέσω της Εξόρυξης γνώμης, δεν αφορά μόνο τους προσφέροντες του προϊόντος, αλλά και τους πελάτες, οι οποίοι ακολουθούν μία αντίστοιχη διαδικασία αλλά σε μικρότερη κλίμακα. Συγκεκριμένα, ένα μεγάλο ποσοστό των χρηστών του Ίντερνετ (71%) διαβάζει κριτικές online πριν αγοράσει ένα προϊόν [20], ενώ ένα σημαντικό ποσοστό (20%) το κάνει κάθε μέρα [21]. Μάλιστα, η 41

42 πλειοψηφία των χρηστών δηλώνει ότι οι αγορές τους επηρεάζονται περισσότερο από τις κριτικές, παρά από τις προσωπικές συστάσεις [22]. Η μαζική συλλογή και ανάλυση του συναισθήματος κειμένων των χρηστών των κοινωνικών δικτύων, αποτελεί μία πτυχή της Εξόρυξης Γνώμης. Στις περισσότερες περιπτώσεις, από μόνη της αυτή η πληροφορία δεν είναι αρκετή για να δημιουργήσει αξία για την επιχείρηση. Ιδιαίτερα για εκείνες που δραστηριοποιούνται τοπικά σε διάφορες περιοχές, ή η δράση τους εξαρτάται από τοπικούς παράγοντες, δημιουργείται η ανάγκη ύπαρξης περαιτέρω δεδομένων. Τα δεδομένα αυτά αφορούν συνήθως τη γεωγραφική προέλευση των χρηστών, αλλά και την τοποθεσία από την οποία δημοσιεύουν τις κριτικές τους. Έτσι ενισχύεται η αρχική πληροφορία και προσφέρεται στην επιχείρηση η δυνατότητα να γνωρίζει το πως αισθάνονται οι χρήστες διάφορων περιοχών για τα προϊόντα και τις υπηρεσίες της. Η ανάλυση και απεικόνιση δεδομένων που περιέχουν πληροφορίες τοποθεσίας, γίνονται με τη χρήση ειδικών εργαλείων, τα οποία ονομάζονται Συστήματα Γεωγραφικών Πληροφοριών (ΣΓΠ). Τα ΣΓΠ ορίζονται ως ψηφιακά συστήματα, τα οποία ενσωματώνουν, αποθηκεύουν, προσαρμόζουν, αναλύουν και παρουσιάζουν γεωγραφικά συσχετισμένες πληροφορίες [23]. Στις επόμενες ενότητες αναλύουμε λεπτομερώς τις έννοιες που παρουσιάστηκαν παραπάνω. 3.2 Εξόρυξη Δεδομένων από Κοινωνικά Δίκτυα Η εξαγωγή δεδομένων από τα κοινωνικά δίκτυα, βασίζεται σε μεθόδους και τεχνικές που προϋπάρχουν και εφαρμόζονται γενικότερα στην εξαγωγή πληροφορίας από το περιεχόμενο του διαδικτύου. Για την καλύτερη κατανόηση της διαδικασίας, θα ξεκινήσουμε από αυτές τις τεχνικές, ορίζοντας τες ως τεχνικές Εξόρυξης του Διαδικτύου (Web Mining) Εξόρυξη στο Διαδίκτυο Η Εξόρυξη του Διαδικτύου έχει ως στόχο την ανακάλυψή χρήσιμης πληροφορίας ή γνώσης από το Ίντερνετ, εκμεταλλευόμενη τη δομή υπερσυνδέσμων του, το περιεχόμενο των σελίδων και τα δεδομένα χρήσης αυτών [24]. Παρόλο που βασίζεται και χρησιμοποιεί τεχνικές της παραδοσιακής Εξόρυξης Δεδομένων, δεν αποτελεί μία ατόφια εφαρμογή αυτών 42

43 των μεθόδων, κυρίως λόγω της ανομοιογένειας αλλά και της μη δομημένης φύσης των δεδομένων του διαδικτύου. Κατά τη διάρκεια της τελευταίας δεκαετίας έχουν αναπτυχθεί πολλοί καινούργιοι αλγόριθμοι και τεχνικές εξόρυξης στο διαδίκτυο, οι οποίες κατηγοριοποιούνται με βάση το είδος των πρωτογενών δεδομένων σε τρείς κατηγορίες: Εξόρυξη Δομής, Εξόρυξη Περιεχομένου και Εξόρυξη Χρήσης [24]. Εξόρυξη Δομής Ανακαλύπτει χρήσιμη γνώση μέσω των υπερσυνδέσμων, η οποία αναπαριστά τη δομή του Παγκοσμίου Ιστού. Για παράδειγμα, ακολουθώντας τους υπερσυνδέσμους μπορούμε να ανακαλύψουμε τις σημαντικότερες ιστοσελίδες του Ιστού, μία τεχνική που χρησιμοποιείται στις Μηχανές Αναζήτησης. Εξόρυξη Περιεχομένου Εξάγει χρήσιμη πληροφορία από το περιεχόμενο των ιστοσελίδων. Με αυτόν τον τρόπο, μπορούμε για παράδειγμα να κατηγοριοποιήσουμε τις ιστοσελίδες ανάλογα με το θέμα του περιεχομένου τους. Παράλληλα, είναι δυνατή και η ανακάλυψη προτύπων στις σελίδες για την εξαγωγή δεδομένων όπως οι περιγραφές προϊόντων, οι τιμές τους και οι αξιολογήσεις των χρηστών. Εξόρυξη Χρήσης Αναφέρεται σε τεχνικές ανακάλυψης προτύπων των επισκεπτών, με τη χρήση των Αρχείων Χρήσης (Usage Logs) τα οποία καταγράφουν κάθε κίνηση του επισκέπτη στην ιστοσελίδα. Οι παραπάνω διαδικασίες αναλαμβάνουν τη συλλογή και αποθήκευση των πρωτογενών δεδομένων. Με την ολοκλήρωση αυτών, γίνεται η επεξεργασία και η εξαγωγή γνώσης από τα δεδομένα Εξόρυξη στα Κοινωνικά Δίκτυα Η Εξόρυξη στα Κοινωνικά Δίκτυα αποτελεί έναν κλάδο της Εξόρυξης του Διαδικτύου, ενώ πολλές φορές χρησιμοποιούνται οι ίδιες μέθοδοι ανακάλυψης πληροφορίας. Οι αναλύσεις σε αυτό το επίπεδο αποσκοπούν στη μελέτη των κοινωνικών οντοτήτων και των αλληλεπιδράσεων και σχέσεων μεταξύ αυτών. Οι σχέσεις αυτές αναπαρίστανται με τη χρήση ενός δικτύου ή γράφου, όπου κάθε κόμβος αντιστοιχεί σε μία οντότητα και κάθε ακμή σε μία 43

44 σχέση. Μέσα σε αυτούς τους γράφους μπορούμε να διακρίνουμε υπό-γράφους οι οποίοι αναπαριστούν κοινότητες μέσα στα Κοινωνικά Δίκτυα. Η εξόρυξη στα Κοινωνικά Δίκτυα είναι ιδιαίτερα σημαντική για την κατανόηση της Εξόρυξης στο Διαδίκτυο, το οποίο πρακτικά αποτελεί μία εικονική κοινωνία ή εικονικό κοινωνικό δίκτυο, όπου κάθε σελίδα αντιστοιχεί σε μία οντότητα και κάθε υπερσύνδεσμος σε μία σχέση. Όπως γίνεται αντιληπτό από αυτή τη δομή, είναι δυνατό να επιτύχουμε την ανάλυση των Κοινωνικών Δικτύων με τη χρήση μεθόδων Εξόρυξης Διαδικτύου, όπως η εξόρυξη δομής και περιεχομένου. Η συνεχώς αυξανόμενη χρήση των Κοινωνικών Δικτύων, έχει οδηγήσει και τις Μηχανές Αναζήτησης να στρέψουν την προσοχή τους προς την ανάλυση αυτών, προκειμένου να αυξήσουν την αποτελεσματικότητά τους. Έχουν αναπτυχθεί νέες μέθοδοι ανάλυσης στα Κοινωνικά Δίκτυα, οι οποίες βασίζονται στις έννοιες της Κεντρικότητας (Centrality) και του Κύρους (Prestige) [25]. Κεντρικότητα (Centrality) Οι Κοινωνικές Οντότητες οι οποίες είναι εκτενέστερα διασυνδεδεμένες με άλλες Οντότητες, λογίζονται ως σημαντικές ή διακεκριμένες. Στα πλαίσια ενός οργανισμού, άτομα με περισσότερες διασυνδέσεις, επαφές ή επικοινωνίες θεωρούνται πιο σημαντικά από άτομα με λιγότερες. Αυτά τα άτομα ονομάζονται Κεντρικές Οντότητες και ξεχωρίζουν στο γράφο, όπως φαίνεται στο Σχήμα 5. Σχήμα 5 - Η Οντότητα i ονομάζεται Κεντρική (Liu, 2011) 44

45 Κύρος (Prestige) Το Κύρος αποτελεί μία πιο εξειδικευμένη μέθοδο μέτρησης της σημαντικότητας μίας Κοινωνικής Οντότητας. Εδώ οι διασυνδέσεις δεν προσμετρώνται ενιαία, αλλά διακρίνονται σε εισερχόμενες (in-links) και εξερχόμενες (out-links). Μία Οντότητα λέμε ότι έχει κύρος, όταν υπάρχουν πολλές εισερχόμενες διασυνδέσεις. Για τη μέτρηση του Κύρους δε λαμβάνονται υπόψη οι εξερχόμενες, οι οποίες είναι σημαντικές μόνο για την Κεντρικότητα. Γίνεται άμεσα αντιληπτό, ότι προκειμένου να υπάρχουν μετρήσεις Κύρους, είναι απαραίτητο ο γράφος να είναι κατευθυνόμενος, όπως φαίνεται στο Σχήμα 6. Σχήμα 6 - Η Οντότητα 3777 έχει μεγάλο Κύρος Οι έννοιες της Κεντρικότητας και του Κύρους είναι πολύ σημαντικές και κατά τη διαδικασία της Συναισθηματικής Ανάλυσης στα Κοινωνικά Δίκτυα. Τα μηνύματα που προέρχονται από κεντρικές οντότητες με μεγάλο κύρος είναι ικανά να επηρεάσουν τη γνώμη των υπολοίπων ατόμων του δικτύου τους. Αυτές οι αναλύσεις εκπονούνται στις πλατφόρμες μικρόιστολογίων, τις οποίες αναλύουμε στην επόμενη ενότητα Κοινωνικά Δίκτυα Μικρό-Ιστολογίων Τα Μικρό-Ιστολόγια (Microblogging) είναι ένα είδος δραστηριοτήτων στα Κοινωνικά Δίκτυα, οι οποίες γίνονται όλο και περισσότερο δημοφιλείς στους χρήστες του Διαδικτύου. Καθημερινά, εμφανίζονται εκατομμύρια μηνύματα σε διάσημα Κοινωνικά Δίκτυα όπως το 45

46 Twitter, το Facebook και το Tumblr. Η ελεύθερη φύση των μηνυμάτων σε αυτές τις πλατφόρμες, σε συνδυασμό με την εύκολη προσβασιμότητα, συμβάλλει ώστε οι χρήστες του Διαδικτύου να εγκαταλείπουν τις τυπικές μεθόδους επικοινωνίας (παραδοσιακά blogs, λίστες αλληλογραφίας) και να επιλέγουν αντίθετα τις πλατφόρμες Μικρό-Ιστολογίων. Όλο και περισσότεροι χρήστες του Διαδικτύου χρησιμοποιούν αυτές τις πλατφόρμες για να δημοσιεύουν τις γνώμες τους για προϊόντα και υπηρεσίες που χρησιμοποιούν, ή για να εκφράσουν τις πολιτικές και θρησκευτικές απόψεις τους. Έτσι, προσφέρονται ως πολύτιμες πηγές εξόρυξης γνώμης και συναισθήματος, τόσο για εκστρατείες προώθησης εταιριών, όσο για κοινωνικές μελέτες των πολιτών. Στις επόμενες ενότητες, θα δούμε πώς επιτυγχάνονται τέτοιες αναλύσεις, αλλά και τι χρήσιμες πληροφορίες απορρέουν από αυτές. 3.3 Συναισθηματική Ανάλυση Κειμένων Η Συναισθηματική Ανάλυση (Sentiment Analysis), ή Σημασιολογικός Προσανατολισμός (Semantic Orientation), είναι το μέτρο υποκειμενικότητας και γνώμης ενός κειμένου. Συνήθως αναπαρίσταται με τη χρήση ενός παράγοντα αξιολόγησης (π.χ. θετικό ή αρνητικό), συνοδευόμενο από έναν δείκτη ισχύος (ο βαθμός στον οποίο ένα κείμενο είναι θετικό ή αρνητικό) που αφορά σε ένα ζήτημα, πρόσωπο ή ιδέα [26]. Μπορεί να χρησιμοποιηθεί και για την ανάλυση της κοινής γνώμης, αποφέροντας σημαντικά αποτελέσματα στο μάρκετινγκ και τη μέτρηση της δημοφιλίας, όπως για παράδειγμα με την αυτόματη ερμηνεία αξιολογήσεων προϊόντων στο Διαδίκτυο. Υπάρχουν δύο κύριες προσεγγίσεις του προβλήματος εξαγωγής συναισθήματος, η πρώτη βασίζεται στη χρήση ενός λεξικού, ενώ η δεύτερη χρησιμοποιεί μεθόδους Μηχανικής Μάθησης (Machine Learning) Ανάλυση με τη χρήση Λεξικού Η Προσέγγιση Λεξικού (Lexicon Based Approach), υπολογίζει τον συναισθηματικό προσανατολισμό ενός κειμένου, χρησιμοποιώντας το σημασιολογικό προσανατολισμό των ατομικών λέξεων ή φράσεων του κειμένου [27]. Το βοηθητικό λεξικό μπορεί να δημιουργηθεί είτε χειροκίνητα, είτε αυτόματα, χρησιμοποιώντας λέξεις-σπόρους (seedwords). 46

47 1) Χειροκίνητο Λεξικό Δημιουργούνται χειροκίνητα από τους ερευνητές. Περιλαμβάνουν συνήθως λιγότερες από λέξεις. Παραδείγματα αποτελούν το Λεξικό του Bing Liu [28], με λέξεις και το MPQA [29], με περίπου λέξεις. 2) Αυτόματο Λεξικό Δημιουργούνται αυτόματα με τη χρήση ενός συνόλου λέξεων που ονομάζονται λέξεις-σπόρους. Αρχίζουν με πολύ μικρά σύνολα, περίπου λέξεων, και χτίζονται σταδιακά. Μπορούν να εκταθούν σε εκατομμύρια λέξεις. Παράδειγμα αποτελεί η μέθοδος SentiWordNet [30]. Οι έρευνες στην προσέγγιση με τη χρήση λεξικού έχουν επικεντρωθεί στη χρήση επιθέτων ως δείκτες του σημασιολογικού προσανατολισμού ενός κειμένου [31]. Αρχικά, δημιουργείται μία λίστα από επίθετα συνοδευόμενα από την τιμή Σημασιολογικού Προσανατολισμού (Semantic Orientation Value SO Value, ΣΠ). Στη συνέχεια, για κάθε νέο κείμενο, όλα τα επίθετά εξάγονται και τους αναθέτονται οι τιμές ΣΠ, χρησιμοποιώντας τις τιμές του αρχικού λεξικού. Τέλος, όπως βλέπουμεs στο Σχήμα 7, οι τιμές των επιθέτων αθροίζονται και δημιουργείται η συνολική τιμή ΣΠ του κειμένου. Σχήμα 7 - Προσέγγιση με τη χρήση Λεξικού Ανάλυση με τη χρήση Μηχανικής Μάθησης Η Προσέγγιση Μάθησης (Learning Approach) βασίζεται στη χρήση μεθόδων Μηχανικής Μάθησης (Machine Learning) και συγκεκριμένα με τη χρήση Μάθησης με Επίβλεψη (Supervised Learning). Αυτό σημαίνει ότι προκειμένου να γίνει εφαρμογή αυτής της 47

48 προσέγγισης, χρειάζεται αρχικά η ύπαρξη ενός συνόλου δεδομένων, ήδη κατηγοριοποιημένων. Η προσέγγιση αυτή δε βασίζεται στην ύπαρξη ή δημιουργία ενός λεξικού, αλλά εκπαιδεύεται στην ανακάλυψη του σημασιολογικού προσανατολισμού, με τη χρήση των αρχικών δεδομένων. Μία αρκετά διαδεδομένη μέθοδος Μηχανικής Μάθησης, είναι η ανάλυση με τη χρήση Μηχανών Διανυσμάτων Υποστήριξης (Support Vector Machines). Οι αλγόριθμοι ΜΔΥ εκπαιδεύονται από το αρχικό σύνολο δεδομένων, χρησιμοποιώντας χαρακτηριστικά που εξάγονται από τα κείμενα αυτά, συνήθως με τη μορφή μονογραμμάτων (unigrams) ή διγραμμάτων (bigrams) και σπανιότερα με τη μορφή τριγραμμάτων (trigrams) [32]. Η επιλογή του αρχικού συνόλου κειμένων με το οποίο γίνεται η εκπαίδευση είναι πολύ σημαντική, καθώς καθορίζει την ακρίβεια (accuracy) και την ανάκληση (recall) της πρόβλεψης. Οι μέθοδοι Μάθησης με Επίβλεψη τείνουν να έχουν αρκετά υψηλή ακρίβεια στον εντοπισμό του Σημασιολογικού Προσανατολισμού ενός κειμένου [33]. Ωστόσο, η επίδοσή τους εξαρτάται σε μεγάλο βαθμό από το Πεδίο Ορισμού (Τομέας Μελέτης - Domain) στο οποίο εκπαιδεύτηκαν. Παρόλο που ένας αλγόριθμος μπορεί να έχει υψηλή ακρίβεια στο δικό του Πεδίο Ορισμού, η απόδοσή του πέφτει κατακόρυφα αν χρησιμοποιηθεί σε έναν διαφορετικό τομέα [34]. Η επιλογή ανάμεσα στις δύο προσεγγίσεις, εξαρτάται σε μεγάλο βαθμό από το Πεδίο Ορισμού του προβλήματος, την εφαρμογή της ανάλυσης αλλά και τη γλώσσα στην οποία είναι γραμμένα τα κείμενα. Στο Σχήμα 8 διακρίνουμε τις διαφορές μεταξύ της Προσέγγισης με Λεξικό και της Προσέγγισης Μάθησης. Σχήμα 8 - Προσέγγιση Λεξικού, Προσέγγιση Μάθησης 48

49 Για την διεκπεραίωση της μελέτης της εργασίας αυτής, χρησιμοποιήσαμε μεθόδους Μηχανικής Μάθησης. Στην επόμενη ενότητα περιγράφουμε τους δύο αλγορίθμους τους οποίους εξετάσαμε για την εκπαίδευση του συνόλου μας και τη δημιουργία του ταξινομητή. 3.4 Αλγόριθμοι Μηχανικής Μάθησης Οι αλγόριθμοι που χρησιμοποιούνται για την Εξόρυξη Γνώμης ποικίλλουν και επιλέγονται ανάλογα με το πρόβλημα προς επίλυση. Είναι, ωστόσο, γενικά αποδεκτό ότι υπάρχουν αλγόριθμοι που τείνουν να έχουν καλύτερη απόδοση στην ταξινόμηση κειμένου. Παρακάτω θα περιγράψουμε και θα εξετάσουμε στα δεδομένα μας δύο από αυτούς, τον αλγόριθμο Μέγιστης Εντροπίας (Max Entropy) και τις Μηχανές Διανυσμάτων Υποστήριξης (Support Vector Machines) Αλγόριθμος Μέγιστης Εντροπίας Ο Αλγόριθμος Μέγιστης Εντροπίας (Maximum Entropy Algorithm) είναι ένας πιθανοτικός ταξινομητής που ανήκει στην κατηγορία των εκθετικών μοντέλων. Διαφέρει από άλλους πιθανοτικούς ταξινομητές στο ότι δεν κάνει υποθέσεις ότι τα χαρακτηριστικά είναι υπό συνθήκη ανεξάρτητα μεταξύ τους. Ο αλγόριθμος βασίζεται στην αρχή της μέγιστης εντροπίας, σύμφωνα με την οποία, από όλα τα μοντέλα που ταιριάζουν στα δεδομένα εκπαίδευσης, επιλέγεται αυτό με τη μεγαλύτερη εντροπία και ως κατά συνέπεια τη μεγαλύτερη ομοιομορφία. Χρησιμοποιείται για την επίλυση διαφόρων προβλημάτων ταξινόμησης κειμένου όπως η ανίχνευση γλώσσας, η ταξινόμηση με βάση το θέμα, αλλά και η ανάλυση συναισθήματος. Συνήθως επιλέγεται έναντι άλλων μεθόδων, όταν: 1. Δεν υπάρχει γνώση για την αρχική κατανομή των δεδομένων και δεν είναι ασφαλές να κάνουμε υποθέσεις. 2. Δεν μπορούμε να υποθέσουμε την υπό συνθήκη ανεξαρτησία των χαρακτηριστικών των δεδομένων. Η τελευταία συνθήκη είναι προφανώς ιδανική σε προβλήματα ταξινόμησης κειμένου, όπου τα χαρακτηριστικά είναι λέξεις οι οποίες δεν είναι ανεξάρτητες μεταξύ τους. Ο στόχος του Αλγορίθμου Μέγιστης Εντροπίας είναι η ταξινόμηση σε μία τάξη (αρνητικό, θετικό, ουδέτερο) με τη χρήση των χαρακτηριστικών που περιγράψαμε στην προηγούμενη 49

50 ενότητα. Θεωρούμε την κλασικά αναπαράσταση Bag of Words και υποθέτουμε ότι {w 1, w 2,, w n } είναι οι λέξεις των κειμένων του συνόλου δεδομένων. Στη συνέχεια, τα κείμενα αναπαρίστανται από έναν πίνακα με τιμές 0 και 1 οι οποίες υποδεικνύουν αν μία λέξη w i ανήκει όχι σε κάθε κείμενο. Αυτή η αναπαράσταση ονομάζεται Πίνακας Εγγράφων- Χαρακτηριστικών (Document Term Matrix) και έχει την παρακάτω μορφή [32]. W 1 W 2 W 3 W 4 Document Document Ο στόχος είναι να κατασκευάσουμε ένα στοχαστικό μοντέλο το οποίο θα δέχεται ως είσοδο την πληροφορία x ενός κειμένου και θα επιστρέφει στην έξοδο την τιμή y, δηλαδή την τάξη στην οποία ανήκει. Με τη χρήση του αρχικού συνόλου δεδομένων υπολογίζουμε την εμπειρική πιθανότητα το τυχαίο κείμενο x να ανήκει στην κατηγορία y: p x, y = ' ( αριθμός εμφανίσεων του x, y στο σύνολο (1) Όπου Ν είναι το μέγεθος του αρχικού συνόλου δεδομένων. Ορίζουμε την παρακάτω δυαδική συνάρτηση: f? x, y = 1, εαν y = c A και το χ περιέχει τη w H 0, αλλιώς Η οποία ονομάζεται συνάρτηση-χαρακτηριστικό. Η συνάρτηση επιστρέφει 1 μόνον όταν η κλάση ενός συγκεκριμένου κειμένου είναι c i και το κείμενο περιέχει τη λέξη w k. Εκφράζουμε κάθε στατιστικό του αρχικού συνόλου δεδομένων ως την εκτιμώμενη δυαδική τιμή της συνάρτησης f j. Έτσι, η εκτιμώμενη τιμή του χαρακτηριστικού f j ως προς την εμπειρική κατανομή P x, y είναι: p f? = p(x, y)f? (x, y) M,N Σημείωση: Αν κάθε δείγμα στο σύνολο εκπαίδευσης εμφανίζεται μία φορά στο αρχικό σύνολο δεδομένων, τότε η p(x,y) είναι ίση με 1/N. Όταν ένα στατιστικό είναι χρήσιμο για την ταξινόμησή μας, απαιτούμε το μοντέλο να «συμμορφώνεται» ως προς αυτό. Για να το πετύχουμε αυτό, περιορίζουμε την εκτιμώμενη τιμή του μοντέλου σε αυτήν που εκτιμάται από τη συνάρτηση-χαρακτηριστικό f j. Η (3) εκτιμώμενη τιμή της f j ως προς το μοντέλο p(y x) είναι ίση με: (2) 50

51 p f A p x p y x) f? x, y (4) M,N Όπου p(x) είναι η εμπειρική κατανομή του χ στο σύνολο δεδομένων εκπαίδευσης και παίρνει συνήθως την τιμή 1/N. Τέλος, περιορίζοντας την εκτιμώμενη τιμή να είναι ίση με την εμπειρική τιμή, και συνδυάζοντας τις συναρτήσεις 3 και 4 παίρνουμε: p x p y x) f? x, y = p x, y f? x, y (5) M,N M,N Η συνάρτηση 5 ονομάζεται περιορισμός και μπορούμε να έχουμε τόσους περιορισμούς όσες και οι συναρτήσεις-χαρακτηριστικά. Οι παραπάνω περιορισμοί ικανοποιούνται από άπειρα μοντέλα. Προκειμένου να χτίσουμε το μοντέλο μας, χρειάζεται να επιλέξουμε το καλύτερο, βασιζόμενοι σε ένα συγκεκριμένο κριτήριο. Σύμφωνα με την Αρχή της Μέγιστης Εντροπίας, θα πρέπει να επιλέξουμε το μοντέλο που είναι όσο το δυνατόν πιο ομοιόμορφο, δηλαδή αυτό με τη μεγαλύτερη εντροπία: p = arg WXY max p x p y x) log p y x) M,N (6) Με τους παρακάτω περιορισμούς: p y x) 0, για όλα τα x, y p y x) = 1, για όλα τα x N M,N p x p y x)f? x, y = M,N p x, y f? x, y για j {1, 2,, n} Για να λυθεί το παραπάνω πρόβλημα εισάγουμε τους πολλαπλασιαστές Lagrange, με τους οποίους δημιουργούμε ένα δυικό πρόβλημα και απαλείφουμε τους περιορισμούς. Υπολογίζουμε μία εκτίμηση των πολλαπλασιαστών {λ 1,, λ n } με τη χρήση της Μεθόδου της Μεγίστης Πιθανοφάνειας (Maximum Likelihood Estimation method). Μπορεί να αποδειχθεί ότι αν βρούμε τις παραμέτρους {λ 1,, λ n } οι οποίες μεγιστοποιούν το δυικό πρόβλημα, τότε η πιθανότητα ένα κείμενο x να ταξινομηθεί ως y γίνεται ίση με: p y x) = exp [ A λ A f A x, y ] N exp [ A λ A f A (x, y) ] 51

52 Συμπεραίνοντας, με την προϋπόθεση ότι έχουμε βρει όλες τις παραμέτρους λ για το μοντέλο μας, το μόνο που χρειάζεται να κάνουμε για να ταξινομήσουμε ένα κείμενο είναι να χρησιμοποιήσουμε τον κανόνα «maximum a posteriori» και να διαλέξουμε την κατηγορία με τη μεγαλύτερη πιθανότητα Μηχανές Διανυσμάτων Υποστήριξης Οι Μηχανές Διανυσμάτων Υποστήριξης (Support Vector Machines) είναι μοντέλα μάθησης υπό επίβλεψη τα οποία χρησιμοποιούνται τόσο στην ταξινόμηση όσο και στην παλινδρόμηση (regression). Έχοντας ως βάση ένα αρχικό σύνολο ταξινομημένων δεδομένων, ο στόχος είναι η δημιουργία ενός βέλτιστου υπερεπιπέδου (hyperplane) το οποίο θα διαχωρίζει τις ομάδες μεταξύ τους. Βέλτιστο υπερεπίπεδο είναι αυτό του οποίου το περιθώριο από τις ομάδες είναι το μεγαλύτερο δυνατό. Ένα παράδειγμα εκτέλεσης αλγορίθμου ΜΔΥ φαίνεται στο Σχήμα 9. Σχήμα 9 - SVM για ταξινόμηση σε 2 κατηγορίες Οι Μηχανές Διανυσμάτων Υποστήριξης μπορούν να χρησιμοποιηθούν για την επίλυση γραμμικά διαχωρίσιμων και μη προβλημάτων. Γραμμικά Διαχωρίσιμα Προβλήματα Έστω ότι έχουμε ένα αρχικό σύνολο n ταξινομημένων δεδομένων (x 1, y 1 ),, (x n, y n ), όπου y i παίρνει την τιμή 1 ή -1, η οποία υποδηλώνει σε ποια κατηγορία ανήκει, ενώ κάθε x i είναι ένα πραγματικό διάνυσμα p-διαστάσεων. Το ζητούμενο είναι να βρεθεί ένα βέλτιστο υπερεπίπεδο το οποίο διαχωρίζει τα διανύσματα για τα οποία y i = 1 από αυτά με τιμή y i = - 52

53 1. Με τον όρο βέλτιστο εννοούμε το υπερεπίπεδο αυτό για το οποίο η απόσταση μεταξύ αυτού και του κοντινότερου διανύσματος x i να είναι μέγιστη. Κάθε ένα από αυτά τα υπερεπίπεδα μπορεί να αναπαρασταθεί ως ένα σύνολο σημείων x για τα οποία: w x b = 0 όπου w είναι ένα προσαρμοσμένο διάνυσμα βαρών και x το διάνυσμα εισόδου. Η παράμετρος p q του περιθωρίου. αποκαλείται περιθώριο διαχωρισμού. Στόχος είναι η μεγιστοποίηση αυτού Αρχικά, διαλέγουμε δύο παράλληλα υπερεπίπεδα, τα οποία διαχωρίζουν τις δύο κατηγορίες δεδομένων με τέτοιον τρόπο έτσι ώστε η απόσταση μεταξύ τους να είναι η μεγαλύτερη δυνατή. Η περιοχή που οριοθετούν τα δύο αυτά υπερεπίπεδα είναι το περιθώριο, ενώ το υπερεπίπεδο μεγίστου περιθωρίου βρίσκεται ακριβώς στη μέση αυτής της περιοχής. Αυτά τα υπερεπίπεδα μπορούν να περιγραφθούν με τις παρακάτω εξισώσεις: και w x b = 1 w x b = 1 Γεωμετρικά, η απόσταση μεταξύ αυτών των δύο είναι r q. Άρα, για να μεγιστοποιήσουμε την απόσταση μεταξύ τους πρέπει να ελαχιστοποιήσουμε το w. Επίσης, εισάγουμε και τον παρακάτω περιορισμό, προκειμένου να αποτρέψουμε σημεία να βρεθούν μέσα στο περιθώριο: Για Κάθε i πρέπει w x A b 1, αν y A = 1 ή w x A b 1, αν y A = 1 Ο περιορισμός αυτός μπορεί να γραφθεί ως εξής: y A w x A b 1, για όλα τα 1 i n Τελικά, καταλήγουμε στο παρακάτω πρόβλημα βελτιστοποίησης: Ελαχιστοποίηση του w ως προς το y A w x A b 1, για όλα τα 1 i n Τα w και b τα οποία λύνουν το πρόβλημα καθορίζουν τον τελικό ταξινομητή. Η εύρεση των διανυσμάτων αυτών γίνεται κατά τη διάρκεια της εκπαίδευσης και τα περιθώρια εξαρτώνται 53

54 από το αρχικό σύνολο. Παρατηρούμε ότι το υπερεπίπεδο μεγίστου περιθωρίου καθορίζεται εξολοκλήρου από τα x A τα οποία είναι κοντινότερα σε αυτό. Αυτά τα x A ονομάζονται διανύσματα υποστήριξης. Μη-Γραμμικά Διαχωρίσιμα Προβλήματα Για την επέκταση της χρήσης του αλγορίθμου σε δεδομένα που δεν είναι γραμμικά διαχωρίσιμα, εισάγουμε μία συνάρτηση κόστους χαλαρότητας: max(0, 1 y A (w x A b)) Αυτή η συνάρτηση παίρνει την τιμή 0 αν ικανοποιείται ο αρχικός περιορισμός, δηλαδή αν το x A βρίσκεται στη σωστή πλευρά του περιθωρίου. Για τα δεδομένα στη λάθος πλευρά, η τιμή της συνάρτησης είναι αναλογική της απόστασης από το περιθώριο. Στη συνέχεια, θέλουμε να ελαχιστοποιήσουμε την εξής παράσταση: [ 1 max (0, 1 y n A (w x A b))] + λ w r A}' όπου η παράμετρος λ καθορίζει το λόγο αύξησης του μεγέθους του περιθωρίου, εξασφαλίζοντας παράλληλα ότι το x A βρίσκεται στη σωστή πλευρά του. Συναρτήσεις Πυρήνα Τα προβλήματα τα οποία δεν είναι γραμμικά διαχωρίσιμα, μπορούμε να τα αναγάγουμε σε μεγαλύτερη διάσταση με τη χρήση ενός μετασχηματισμού: x Φ(x) Με αυτόν το μετασχηματισμό μετατρέπουμε το πρόβλημα σε γραμμικά διαχωρίσιμο. Για να το επιτύχουμε αυτό, υπολογίζουμε το εσωτερικό γινόμενο: K x, y = Φ x Φ(y) Αυτή η συνάρτηση ονομάζεται Συνάρτηση Πυρήνα. Στην επόμενη ενότητα, θα περιγράψουμε τη διαδικασία επιλογής του αλγορίθμου του ταξινομητή μας, η οποία βασίζεται στη μέθοδο της Διασταυρωμένης Επικύρωσης. 3.5 Διασταυρωμένη Επικύρωση Για την επιλογή του κατάλληλου αλγορίθμου Μηχανικής Μάθησης για την ταξινόμηση, χρειάζεται μία διαδικασία επικύρωσης, η οποία εξασφαλίζει ότι η ταξινόμηση θα λειτουργεί όπως προβλέπεται σε ένα ανεξάρτητο σύνολο δεδομένων. Μία τέτοια τεχνική αποτελεί η 54

55 Διασταυρωμένη Επικύρωση. Η ΔΕ εκτελεί τη διαδικασία τόσες φορές, ώστε να είναι αρκετές για την επικύρωση του αλγορίθμου. Η πιο γνωστή μέθοδος είναι η Διασταυρωμένη Επικύρωση σε 10 Μέρη (10 Fold Cross Validation). Συγκεκριμένα, τα στατιστικά που μας ενδιαφέρουν είναι η ακρίβεια η ανάκληση και η μέτρηση F (F Score). Ακρίβεια (precision): Το ποσοστό των δεδομένων που ανήκουν σε μία κατηγορία και ταξινομήθηκαν σωστά σε αυτή. Ανάκληση (recall): Το ποσοστό των σωστών ταξινομήσεων από όλο το σύνολο. Μέτρηση F (F Score): Ο αρμονικός μέσος μεταξύ της ακρίβειας και της ανάκλησης. Για να υπολογίσουμε τα παραπάνω στατιστικά και να αξιολογήσουμε την απόδοση του κάθε αλγορίθμου, χρησιμοποιούμε τις παρακάτω μετρήσεις: 1. Σωστά Θετικά (True Positives): Ο αριθμός των θετικών κειμένων που ταξινομήθηκαν σωστά ως θετικά. 2. Λάθος Θετικά (False Positives): Ο αριθμός των αρνητικών κειμένων που ταξινομήθηκαν λανθασμένα ως θετικά. 3. Σωστά Αρνητικά (True Negatives): Ο αριθμός των αρνητικών κειμένων που ταξινομήθηκαν σωστά ως αρνητικά. 4. Λάθος Αρνητικά (False Negatives): Ο αριθμός των θετικών κειμένων που ταξινομήθηκαν λανθασμένα ως αρνητικά. Στη Διασταυρωμένη Επικύρωση 10 μερών, το αρχικό σύνολο δεδομένων D διαχωρίζεται σε 10 αμοιβαίως αποκλειόμενα υποσύνολα D1, D2,, D10 με ίδιο κατά προσέγγιση μέγεθος. Στη συνέχεια, ο ταξινομητής εκπαιδεύεται 10 φορές, t ϵ (1, 2,, 10) χρησιμοποιώντας για σύνολο εκπαίδευσης (training set) το D Dt και για σύνολο ελέγχου το υποσύνολο Dt [37]. Έτσι, στο τέλος καταλήγουμε σε έναν πίνακα με τους παραπάνω υπολογισμούς και επιλέγουμε τον πιο αποδοτικό αλγόριθμο για τον ταξινομητή μας. Στο Σχήμα 10 βλέπουμε το παράδειγμα εκτέλεσης της μεθόδου της Διασταυρωμένης Επικύρωσης. 55

56 Σχήμα 10 - Διασταυρωμένη Επικύρωση σε 4 μέρη Στη συνέχεια περιγράφουμε τη διαδικασία επιλογής των χαρακτηριστικών που χρησιμοποιούνται για την ταξινόμηση των κειμένων. 3.6 Εξαγωγή Χαρακτηριστικών Η εξαγωγή των χαρακτηριστικών των κειμένων πριν από την ταξινόμησή τους, αποτελεί μία διαδικασία εξίσου σημαντική με την επιλογή του αλγορίθμου. Μία σωστή επιλογή χαρακτηριστικών μπορεί να αυξήσει κατακόρυφα την απόδοση ενός αλγορίθμου, ενώ μπορεί επίσης να προσφέρει σημαντική γνώση για τα δεδομένα προς επεξεργασία. Και σε αυτήν την περίπτωση δεν υπάρχουν βέλτιστοι συνδυασμοί, αλλά βασιζόμαστε στα αποτελέσματα της Διασταυρωμένης Επικύρωσης. Στην ταξινόμηση κειμένου, η πιο τυπική και απλή μέθοδος είναι ο Σάκος Λέξεων (Bag of Words). Σύμφωνα με αυτήν την αναπαράσταση, οι λέξεις του κειμένου αναπαριστούν ανεξάρτητες οντότητες που χαρακτηρίζουν το κείμενο [38]. Για παράδειγμα, η ύπαρξη της λέξης λατρεύω μπορεί να είναι αρκετά χρήσιμη πληροφορία για την ανακάλυψη θετικών κειμένων. Συνήθως ο αριθμός των λέξεων είναι κατά πολύ μεγαλύτερος του αριθμού κειμένων προς ταξινόμηση. Παρακάτω, βλέπουμε ένα παράδειγμα Bag of Words αναπαράστασης στο tweet του Σχήματος 10: Αρχικό Κείμενο: Thank you for everything. My last ask is the same as my first. I m asking you to believe not in my ability to create change, but in yours. o BoW: {Thank, you, for, everything,., My, last, ask, is, the, same, as, my, first,., I, m, asking, you, to, believe, -, not, in, my, ability, to, create, change, but, in, yours,.} 56

57 Γίνεται αντιληπτό ότι η παραπάνω τεχνική βασίζεται στην κάθε λέξη ξεχωριστά και όχι στην θέση και τους συνδυασμούς αυτών μες το κείμενο. Αυτού του είδους η αναπαράσταση λέγεται μονόγραμμα (bigram). Μπορούμε επίσης να επιλέξουμε συνδυασμούς διαδοχικών λέξεων μέσα από το κείμενο ως χαρακτηριστικά. Με αυτόν τον τρόπο δημιουργούμε διγράμματα (bigrams), τριγράμματα (trigrams) και γενικά ν-γράμματα (n-grams). Η σωστή επιλογή ν-γραμμάτων για την ταξινόμηση εξαρτάται από το πεδίο ορισμού του προβλήματος, αλλά και τα αποτελέσματα της Διασταυρωμένης Επικύρωσης. Παρακάτω βλέπουμε την αναπαράσταση ενός κειμένου με τη χρήση μονογραμμάτων, διγραμμάτων και τριγραμμάτων. 3. Αρχικό Κείμενο: «I hate flying with United» a. Unigrams: {I} {hate} {flying} {with} {united} b. Bigrams: {I hate} {hate flying} {flying with} {with united} c. Trigrams: {I hate flying} {flying with United} Μπορούμε συνειδητά να συμπεράνουμε ότι το συγκεκριμένο κείμενο μπορεί να ταξινομηθεί με τη χρήση απλών μονογραμμάτων. Διακρίνουμε όμως, ότι αν προσθέσουμε μία διάζευξη στην πρόταση, τα μονογράμματα ίσως να οδηγήσουν σε αντίθετη ταξινόμηση. Χρήσιμη πληροφορία για τις επιχειρήσεις δεν αποτελεί μόνον το κείμενο και η κατηγορία συναισθήματος αυτού, αλλά και άλλοι παράγοντες όπως ο χρήστης που το δημοσίευσε, το Κύρος του, αλλά και η τοποθεσία από την οποία το έστειλε. Τέτοια δεδομένα γίνονται περισσότερο ωφέλημα όταν εξάγονται από τα Κοινωνικά Δίκτυα, όπου οι χρήστες είναι πρόθυμοι να τα διαθέσουν δημοσίως. Στην επόμενη ενότητα, θα αναλύσουμε πως τα δεδομένα τοποθεσίας των χρηστών μπορούν να προσφέρουν πολύτιμες πληροφορίες, και με ποια συστήματα αυτές αναπαρίστανται. 3.7 Συστήματα Γεωγραφικών Πληροφοριών Τα Συστήματα Γεωγραφικών Πληροφοριών (ΣΓΠ), όπως αναφέραμε στην προηγούμενη ενότητα, είναι συστήματα τα οποία αναλύουν και παρουσιάζουν γεωγραφικά συσχετισμένες πληροφορίες. Πιο συγκεκριμένα, τα ΣΓΠ επιτελούν τις παρακάτω εργασίες [35]: Εισαγωγή χωρικών δεδομένων, από χάρτες, φωτογραφίες, δορυφόρους ή άλλες πηγές. Αποθήκευση και ανάκτηση δεδομένων με τη δυνατότητα εκτέλεσης ερωτημάτων. 57

58 Μετασχηματισμός, ανάλυση και μοντελοποίηση δεδομένων, συμπεριλαμβανομένων των χωρικών στατιστικών. Απεικόνιση αποτελεσμάτων με τη χρήση χαρτών. Σύμφωνα με τις παραπάνω εργασίες, τα ΣΓΠ σχετίζονται με άλλες εφαρμογές ανάλυσης δεδομένων, διαφέρουν όμως σε μερικές παραδοχές. Αρχικά, όλες οι πληροφορίες που επεξεργάζονται τα συστήματα αυτά, είναι συνδεδεμένες με γεωαναφορές (geo-references). Τυπικές βάσεις δεδομένων μπορεί να περιέχουν δεδομένα τοποθεσίας, όπως για παράδειγμα μία διεύθυνση, ή έναν ταχυδρομικό κώδικα. Στα ΣΓΠ, το κύριο μέσο αποθήκευσης και ανάκλησης δεδομένων αποτελούν οι γεωαναφορές, οι οποίες συνήθως εκφράζονται με τη μορφή των γεωγραφικών συντεταγμένων. Επίσης, τα ΣΓΠ αποτελούν συστήματα τα οποία ενσωματώνουν τεχνολογίες. Σε αντίθεση με άλλα συστήματα τα οποία είτε αναλύουν φωτογραφίες, είτε επεξεργάζονται δορυφορικά σήματα και δημιουργούν μοντέλα ή χάρτες, τα ΣΓΠ ενσωματώνουν όλες αυτές τις δυνατότητες σε ένα ενιαίο σύστημα. Τέλος, τα ΣΓΠ αποτελούν Συστήματα Υποστήριξης Αποφάσεων (Decision Support Systems). Ο τρόπος με τον οποίο τα δεδομένα συλλέγονται, αποθηκεύονται και επεξεργάζονται μέσα σε ένα ΣΓΠ, υποδεικνύει την κατεύθυνση στην οποία πρέπει να κινηθεί ο ερευνητής ή η επιχείρηση προκειμένου να πάρει μία απόφαση. Στο σχήμα 11 βλέπουμε ένα παράδειγμα Συστήματος Γεωγραφικών Πληροφοριών. 58

59 Σχήμα 11 - Σύστημα Γεωγραφικών Πληροφοριών Στο επόμενο κεφάλαιο, θα αναλύσουμε ένα πρόβλημα Εξόρυξης Γνώμης πελατών με τη χρήση του Κοινωνικού Δικτύου Twitter. Επίσης, θα αναπτύξουμε μία διαδικτυακή εφαρμογή η οποία εξάγει γνώση από τους χρήστες του Twitter σχετικά με τη γνώμη τους για τις Αμερικάνικες αεροπορικές εταιρίες και με τη βοήθεια ενός δια-δραστικού χάρτη, αναπαριστά τη γνώση αυτή για κάθε διαφορετική πολιτεία των Ηνωμένων Πολιτειών. 59

60 60

61 Κεφάλαιο 4 Ανάπτυξη Εφαρμογής Εξόρυξης Γνώμης Στα προηγούμενα κεφάλαια, περιγράψαμε και αναλύσαμε τις επιστημονικές μεθόδους και τι τεχνικές που χρησιμοποιούνται από τους οργανισμούς προκειμένου να εξορύξουν γνώση για ένα συγκεκριμένο θέμα, από κείμενα στα κοινωνικά δίκτυα. Σε αυτό το κεφάλαιο, θα εφαρμόσουμε αυτές τις τεχνικές και θα δημιουργήσουμε μία εφαρμογή η οποία πραγματοποιεί Εξόρυξη Γνώμης για τις μεγαλύτερες Αμερικάνικες αεροπορικές εταιρίες, επιτελώντας τις ακόλουθες εργασίες: 1. Εκπαιδεύει το σύστημα με τη χρήση μιας προκαθορισμένης συλλογής δεδομένων. 2. Αναζητεί κείμενα χρηστών (tweets) στο Twitter API 1 που αφορούν την εκάστοτε αεροπορική, με τη χρήση λέξεων-κλειδιών. 3. Ταξινομεί τα tweets σύμφωνα με το συναισθηματικό προσανατολισμό τους σε αρνητικά και θετικά. 4. Βρίσκει με τη βοήθεια του Google Maps API 2 την τοποθεσία κάθε χρήστη που δημοσίευσε ένα tweet. 5. Απεικονίζει σε ένα χάρτη τη μέση γνώμη των χρηστών κάθε πολιτείας, σύμφωνα με 4.1 Εισαγωγή τα συλλεγόμενα tweets. Όπως αναφέραμε σε προηγούμενα κεφάλαια, οι πλατφόρμες μικρό-ιστολογιών αποτελούν μία πολύτιμη πηγή δεδομένων για την επίτευξη της ανάλυσης συναισθήματος. Η φύση της σχεδίασής τους, καθώς και η ευκολία ανάκτησης των δεδομένων τους μέσω των APIs (Applicable Programming Interfaces) που δημοσιεύουν, διευκολύνουν τη διαδικασία συλλογής δεδομένων για μία αποτελεσματική εξόρυξη γνώσης. Στην εφαρμογή που θα φτιάξουμε, χρησιμοποιούμε την πιο διαδεδομένη πλατφόρμα μικρό-ιστολογιών, το Twitter. Οι λόγοι για τους οποίους επιλέξαμε το Twitter, είναι οι εξής: 1. Έχει τη μεγαλύτερη βάση χρηστών από τις υπόλοιπες πλατφόρμες. Συγκεκριμένα, το πρώτο τετράμηνο του 2017 είχε 328 εκατομμύρια μηνιαία ενεργούς χρήστες [36]

62 2. Αποτελεί μία καλή πηγή εξόρυξης γνωμών, καθώς οι χρήστες δημοσιεύουν τη γνώμη τους για διάφορα ζητήματα. 3. Περιέχει μία τεράστια βάση από δημοσιεύσεις κειμένου, οι οποίες μπορούν να ανακτηθούν εύκολα με τη χρήση του Twitter API. 4. Μία μεγάλη ποικιλία χρηστών χρησιμοποιεί την πλατφόρμα, από κανονικού χρήστες μέχρι δημόσια πρόσωπα, στελέχη πολυεθνικών, πολιτικοί και ηγέτες χωρών. 5. Οι χρήστες του Twitter προέρχονται από περισσότερες από 160 χώρες, ενώ υποστηρίζει περισσότερες από 40 γλώσσες. Θα χρησιμοποιήσουμε το δίκτυο του Twitter τόσο για την εκπαίδευση του συστήματος ταξινόμησης, όσο και για τη συλλογή και ταξινόμηση κειμένων σε πραγματικό χρόνο. Στο Σχήμα 12, βλέπουμε τη βασική δομή ενός tweet. Σχήμα 12 - Προβολή ενός tweet μέσα από την εφαρμογή του Twitter Στην επόμενη ενότητα, θα παρουσιάσουμε το πεδίο ορισμού του προβλήματος στο οποίο δίνει λύση η εφαρμογή και θα αναλύσουμε το αρχικό σύνολο δεδομένων με το οποίο θα εκπαιδεύσουμε το σύστημα. 4.2 Τομέας Μελέτης - Αρχικό Σύνολο Δεδομένων Στο προηγούμενο κεφάλαιο, όπου αναφερθήκαμε στην επίτευξη της ανάλυσης συναισθήματος με τη χρήση μεθόδων Μηχανικής Μάθησης, εστιάσαμε στην εξάρτηση της αποτελεσματικότητας αυτών των συστημάτων από το πεδίο ορισμού του προβλήματος. Αλγόριθμοι οι οποίοι έχουν εκπαιδευτεί με τη χρήση δεδομένων ενός συγκεκριμένου τομέα, 62

63 αποδίδουν καλύτερα όταν ταξινομούν κείμενα του ίδιου τομέα. Γι αυτόν το λόγο, η επιλογή του αρχικού συνόλου δεδομένων είναι ιδιαίτερα σημαντική, αφού ορίζει και το πρόβλημα στο οποίο θα προσφέρει λύση ο αλγόριθμος. Στα πλαίσια της συγκεκριμένης εργασίας, τα δεδομένα που χρησιμοποιήσαμε για την εκπαίδευση του συστήματος αφορούν tweets προς τις 6 μεγαλύτερες Αμερικάνικες εμπορικές αεροπορικές εταιρίες (American, Delta, Southwest, United, US Airways, Virgin America). Πιο συγκεκριμένα, το σύνολο, το οποίο συλλέχθηκε από την CrowdFlower το 2015, περιέχει περίπου tweets, το κάθε ένα απευθυνόμενο σε μία από αυτές. Τα tweets συλλέχθηκαν κατά τον Φεβρουάριο του 2015 και στη συνέχεια ταξινομήθηκαν ανάλογα με το συναίσθημά τους σε θετικά, αρνητικά και ουδέτερα, όπως φαίνεται στο Σχήμα 13. Σχήμα 13 - Συναίσθημα Αρχικού Συνόλου Δεδομένων Οι λόγοι που μας οδήγησαν στην επιλογή του συγκεκριμένου πεδίου ορισμού, είναι ο μεγάλος όγκος του αρχικού συνόλου δεδομένων, η ποικιλία μηνυμάτων προς διάφορες αεροπορικές, αλλά και το γεγονός ότι τα αρνητικά κείμενα είναι αρκετά περισσότερα από τα υπόλοιπα. Αυτό μας βοηθάει να αναδείξουμε τις αδυναμίες αυτών των μεθόδων ταξινόμησης στις συγκεκριμένες ιδιαιτερότητες, αλλά και τους τρόπους που μπορούμε να τις ξεπεράσουμε. 63

64 Επίσης, τα δεδομένα αυτά δε χρησιμοποιήθηκαν στο σύνολό τους για την εκπαίδευση, αλλά φιλτραρίστηκαν και αφαιρέθηκαν τα ουδέτερα, προκειμένου να επιτύχουμε μία δυαδική ταξινόμηση. Οι λόγοι γι αυτήν την επιλογή θα αναπτυχθούν στην ενότητα 4.4. Στην επόμενη ενότητα, θα αναλύσουμε την προ επεξεργασία που υπέστησαν τα tweets πριν χρησιμοποιηθούν για την εκπαίδευση του αλγορίθμου. 4.3 Προ επεξεργασία Δεδομένων Τα δεδομένα του αρχικού συνόλου εκπαίδευσης, είναι συνήθως ακατέργαστα. Ιδιαίτερα όταν εξάγονται από τα Κοινωνικά Δίκτυα, περιέχουν αρκετές πληροφορίες οι οποίες είναι άχρηστες για τη διαδικασία της εξόρυξης συναισθήματος. Τέτοιες πληροφορίες ονομάζονται θόρυβος. Ο στόχος της προ επεξεργασίας είναι η αφαίρεση του θορύβου από τα δεδομένα και η κανονικοποίησή τους. Παράλληλα, επιτυγχάνεται η μείωση του όγκου δεδομένων προς επεξεργασία, κάνοντας την εκπαίδευση πιο γρήγορη. Η διαδικασία που χρησιμοποιήθηκε για την προ επεξεργασία φαίνεται στο Σχήμα 14. Σχήμα 14 - Προ επεξεργασία Δεδομένων Σημειώνουμε ότι η παραπάνω διαδικασία εφαρμόζεται τόσο στα δεδομένα εκπαίδευσης, όσο και σε αυτά προς πρόβλεψη. Στη συνέχεια, αναλύουμε κάθε μία από αυτές τις εργασίες ξεχωριστά, με τη χρήση παραδείγματος ενός κειμένου. 64

65 4.3.1 Περιγραφή Διαδικασίας Προ Επεξεργασίας Κάθε βήμα της παραπάνω διαδικασίας αναλύεται ως ακολούθως: 1. Αφαίρεση επισημάνσεων Στην πλατφόρμα του Twitter, τα κείμενα που δημοσιεύουν οι χρήστες μπορούν να έχουν μία η περισσότερες επισημάνσεις (tags). Οι επισημάνσεις προς άλλους χρήστες προστίθενται όταν ένα tweet προορίζεται για τους επισυνημμένους χρήστες. Τα tweets που θα αναλύσουμε περιέχουν στην πλειοψηφία τους επισημάνσεις στις αεροπορικές για τις οποίες προορίζονται (για οι οποίες δε βοηθάνε στην ανάλυση του συναισθήματος του κειμένου. 2. Αφαίρεση υπερσυνδέσμων Πολλές φορές οι χρήστες προσθέτουν στα tweets τους και υπερσυνδέσμους προς άλλες ιστοσελίδες/tweets/χρήστες. Και αυτοί αποτελούν θόρυβο μη χρήσιμο κατά τη διάρκεια της ταξινόμησης, γι αυτό και τους αφαιρούμε. 3. Αφαίρεση αριθμών Άλλη μία συχνά εμφανιζόμενη μορφή θορύβου στα κείμενα των κοινωνικών δικτύων, οι αριθμοί δεν επηρεάζουν με κανέναν τρόπο το συναίσθημα ενός κειμένου, οπότε τους αφαιρούμε. 4. Μετατροπή κεφαλαίων σε πεζά Η μετατροπή αυτή γίνεται προκειμένου να αποφευχθεί η διάκριση λέξεων, λόγω διαφοράς πεζών και κεφαλαίων γραμμάτων. Για παράδειγμα, οι λέξεις disappointed και Disappointed δεν προσθέτουν κάποια διαφορά στο νόημα του κειμένου. Διαφορά επίσης δεν υφίσταται και μεταξύ φράσεων που είναι γραμμένες αποκλειστικά με πεζά με αυτές που γράφθηκαν με κεφαλαία. Οι προτάσεις flying experience was disappointing» και FLYING EXPERIENCE WAS DISAPPOINTING» δε διαφέρουν ως προς το συναισθηματικό τους προσανατολισμό. 5. Αφαίρεση μη συναισθηματικών λέξεων Τα κείμενα στα κοινωνικά δίκτυα γράφονται από ανθρώπους οι οποίοι χρησιμοποιούν την κοινή, φυσική γλώσσα. Για το λόγο αυτό, περιέχουν και πολλές συχνά χρησιμοποιούμενες λέξεις, οι οποίες δεν προσφέρουν κάποια πληροφορία που αφορά το συναίσθημα του κειμένου. Οι λέξεις αυτές ονομάζονται stop words και συνήθως αφαιρούνται κατά τη διάρκεια της προ επεξεργασίας. Παραδείγματα 65

66 τέτοιων λέξεων στην Αγγλική αποτελούν οι «a», «the», «are», ενώ στην Ελληνική οι «οι», «μου», «όσοι». 6. Αφαίρεση Σημείων Στίξης Παρόμοια με τα κεφαλαία γράμματα, τα σημεία στίξης δεν επηρεάζουν άμεσα το συναισθηματικό προσανατολισμό ενός κειμένου, παρά μόνο δίνουν έμφαση σε αυτό, όταν χρησιμοποιούνται σε συγκεκριμένα μέρη μιας πρότασης. Για το λόγο αυτό, αφαιρούνται στην προ επεξεργασία. 7. Αφαίρεση κενού περιεχομένου Οι παραπάνω μετασχηματισμοί στο κείμενο, μπορούν να αφήσουν αρκετό κενό χώρο μεταξύ των προτάσεων. Σε αυτό το στάδιο αφαιρούμε τους κενούς χαρακτήρες, μειώνοντας τον όγκο των δεδομένων. 8. Κανονικοποίηση Λέξεων Η κανονικοποίηση μίας λέξεις αποτελεί τη διαδικασία κατά την οποία αφαιρούμε από μία λέξη τη μορφολογική της κατάληξη. Με αυτόν τον τρόπο, οι λέξεις επιστρέφουν στη ρίζα τους. Έτσι, κοινές λέξεις που έχουν κοινές καταλήξεις μπορούν πλέον να αντιστοιχηθούν. Ένα παράδειγμα κανονικοποίησης αποτελεί η αποκοπή της κατάληξης στις λέξεις «argue», «argued», «argues», «argument» έτσι ώστε στο τέλος να μείνει η ρίζα τους, το «argu». Εφαρμόζοντας την παραπάνω διαδικασία σε ένα από τα tweets του συνόλου εκπαίδευσης, παίρνουμε το ακόλουθο αποτέλεσμα, όπως φαίνεται στο Σχήμα 15: Σχήμα 15 - Παράδειγμα Προ Επεξεργασίας Κειμένου Στην επόμενη ενότητα, περιγράφουμε πως πετύχαμε στην εφαρμογή μας τη διαδικασία της προ επεξεργασίας, χρησιμοποιώντας βιβλιοθήκες της R. 66

67 4.3.2 Προ Επεξεργασία Κειμένων με τη Χρήση της R H R προσφέρει πολλές δυνατότητες Επεξεργασίας Φυσικής Γλώσσας (Natural Language Processing). Αυτό επιτυγχάνεται με τη χρήση βιβλιοθηκών, τόσο των προ-εγκατεστημένων της γλώσσας, όσο και άλλον που δημιουργήθηκαν από τρίτους. Για την επίτευξη της προ επεξεργασίας που περιγράψαμε στην προηγούμενη ενότητα, θα ακολουθηθεί η παρακάτω διαδικασία: Διάβασμα των ακατέργαστων δεδομένων στη μνήμη του εξυπηρετητή (server) Δημιουργία Συλλογής Κειμένου (Corpus) με τα ακατέργαστα δεδομένα Εφαρμογή των κανόνων προ επεξεργασίας Αρχικά, παραθέτουμε στον ακόλουθο πίνακα μερικά παραδείγματα από τα ακατέργαστα δεδομένα, όπως είναι αποθηκευμένα στη.csv μορφή τους (Comma Separated Values). tweet_id airline airline_sentiment text Virgin it's really aggressive to blast obnoxious "entertainment" in your guests' faces & they have little recourse United positive I appreciate your efforts getting me home! Παρακάτω παραθέτουμε τις εντολές που χρησιμοποιούνται για να επιτευχθεί το διάβασμα των δεδομένων και η δημιουργία του corpus: # install required packages and load them install.package("tm") library(tm) # read the raw data from the csv file tweets.raw <- read.csv(file = "tweets_airlines.csv", colclasses = "character") # create a data frame with the most useful data tweets.sentiment <- data.frame(airline=tweets.raw[, "airline"], sentiment=tweets.raw[, "airline_sentiment"], text=tweets.raw[, "text"]) Απόσπασμα Κώδικα 1 - Ανάγνωση Δεδομένων Airline Tweets 67

68 Βήμα προς βήμα οι εντολές που χρησιμοποιήθηκαν: Αρχικά, εγκαθιστούμε τα πακέτα και τα φορτώνουμε στο τωρινό session της R. Στη συνέχεια, χρησιμοποιούμε την προ-εγκατεστημένη εντολή read.csv για να διαβάσουμε τα ακατέργαστα δεδομένα. Η παράμετρος file δέχεται ως τιμή το μονοπάτι προς το αρχείο που θέλουμε να διαβάσουμε, ενώ η colclasses μετατρέπει τα δεδομένα του csv αρχείου στην κλάση character της R. Για παράδειγμα, η τιμή μετατρέπεται σε μία σειρά χαρακτήρων με την ίδια τιμή. Αυτό γίνεται για τη διευκόλυνση των μετατροπών στη συνέχεια. Όταν αναθέτονται τα δεδομένα στη μεταβλητή tweets.raw, μετατρέπονται στην κλάση της R, Data Frame. Η μορφή αυτή μας επιτρέπει να χρησιμοποιήσουμε τα δεδομένα σε διάφορες μεθόδους, αλλά και να τα οπτικοποιούμε πιο εύκολα. Στη συνέχεια, χρησιμοποιούμε την επίσης προ-εγκατεστημένη εντολή data.frame για να δημιουργήσουμε ένα καινούργιο DataFrame, το οποίο περιέχει από το αρχικό σύνολο μόνο τις στήλες που μας ενδιαφέρουν στην παρούσα φάση. Τέλος, χρησιμοποιούμε την εντολή tweets.corpus του πακέτου «tm» προκειμένου να δημιουργήσουμε μία Συλλογή Κειμένων, η οποία θα χρησιμοποιηθεί για τη μετέπειτα επεξεργασία. Σημείωση ότι ως όρισμα περνάμε μόνο τα κείμενα και όχι τις υπόλοιπες πληροφορίες. Στη συνέχεια, εφαρμόζουμε τους κανόνες αφαίρεσης και κανονικοποίησης στο corpus: # Text Filtering tospace <- content_transformer(function (x, pattern) gsub(pattern, " ", x)) tweets.corpus <- tm_map(tweets.corpus, tospace, "@\\w+") tweets.corpus <- tm_map(tweets.corpus, tospace, "/") tweets.corpus <- tm_map(tweets.corpus, tospace, "@") tweets.corpus <- tm_map(tweets.corpus, tospace, "\\ ") tweets.corpus <- tm_map(tweets.corpus, content_transformer(tolower)) tweets.corpus <- tm_map(tweets.corpus, removenumbers) tweets.corpus <- tm_map(tweets.corpus, removewords, stopwords("english")) tweets.corpus <- tm_map(tweets.corpus, removepunctuation) tweets.corpus <- tm_map(tweets.corpus, stripwhitespace) tweets.corpus <- tm_map(tweets.corpus, stemdocument) Απόσπασμα Κώδικα 2 - Καθαρισμός και Κανονικοποίηση των κειμένων 68

69 Αναλυτικά οι εντολές που χρησιμοποιήθηκαν: Αρχικά, δημιουργούμε μία καινούργια μέθοδο, την tospace, η οποία είναι μέθοδος μετασχηματισμού περιεχομένου (content transformer). Συγκεκριμένα, δέχεται ώς όρισμα x το corpus προς μετασχηματισμό και το μοτίβο που θα αντικατασταθεί. Στη συνέχεια, για κάθε κείμενο στη συλλογή, βρίσκει το μοτίβο και το μετατρέπει σε κενό χαρακτήρα, με τη χρήση της μεθόδου gsub. Η gsub είναι προ εγκατεστημένη στην R και κάνει ακριβώς την ίδια διαδικασία, αλλά χρησιμοποιώντας ένα απλό κείμενο και όχι ένα ολόκληρο corpus. Στη συνέχεια εφαρμόζουμε τη μέθοδο tospace για να αντικαταστήσουμε τις επισημάνσεις και τους υπερσυνδέσμους των tweets. Επίσης, εφαρμόζουμε μερικές μεθόδους της βιβλιοθήκης «tm» που έχουμε εγκαταστήσει. Αυτές αφορούν τη μετατροπή σε πεζά (tolower content transformer), την αφαίρεση των αριθμών (removenumbers), την αφαίρεση των Αγγλικών stop words (removewords, stopwords( english )), των σημείων στίξης (removepunctuation) αλλά και του εναπομένοντα κενού χώρου (stripwhitespace). Τέλος, χρησιμοποιούμε τη μέθοδο stemdocument προκειμένου να κανονικοποιήσουμε τις λέξεις που περιέχει το corpus. Με τις εντολές που περιγράψαμε παραπάνω, το τελικό μας corpus θα είναι ακριβώς αυτό που χρειαζόμαστε, προκειμένου να εκπαιδεύσουμε τον αλγόριθμό ταξινόμησής μας. Επίσης, έχουμε ήδη έτοιμο τον κώδικα που θα χρησιμοποιηθεί και στο φιλτράρισμα των κειμένων που θα προβλέπουμε μετά το τέλος της εκπαίδευσης. Στην επόμενη ενότητα, θα αναλύσουμε τις μεθόδους Μηχανικής Μάθησης που θα χρησιμοποιήσουμε για την εκπαίδευση του συστήματος, καθώς και τη μέθοδο επιλογής των χαρακτηριστικών ταξινόμησης (feature selection). 4.4 Επιλογή Αλγορίθμου Μηχανικής Μάθησης Στο πεδίο της Μηχανικής Μάθησης, αναπτύσσονται συνεχώς καινούριες προσεγγίσεις και τεχνικές ταξινόμησης, κάθε μία από τις οποίες προσφέρει καλύτερη λύση σε ένα πρόβλημα από τις ήδη υπάρχουσες. Η απόδοση του κάθε αλγορίθμου εξαρτάται από τη φύση του προβλήματος, το πεδίο ορισμού του αλλά και το αρχικό σύνολο δεδομένων εκπαίδευσης. Για το λόγο αυτό, δεν υπάρχει κάποιος βέλτιστος αλγόριθμος για όλα τα προβλήματα. Στην επόμενη ενότητα, περιγράφουμε τη διαδικασία της Διασταυρωμένης Επικύρωσης με τη 69

70 χρήστη της γλώσσας R, με την οποία επιλέξαμε τον αλγόριθμο μεταξύ των δύο που αναλύσαμε στο 3 ο κεφάλαιο. 70

71 4.4.1 Διαδικασία Επιλογής με τη Χρήση της R Η διαδικασία της Διασταυρωμένης Επικύρωσης για τον αλγόριθμο Μέγιστης Εντροπίας και τις Μηχανές Διανυσμάτων Υποστήριξης, καθώς και η σύγκριση των αποτελεσμάτων, επιτεύχθηκε με τη χρήση των ακόλουθων εντολών στη γλώσσα R: # create the Document Term Matrix tweets.dtm.unigram <- DocumentTermMatrix(tweets.corpus) # set train and test start-end train.start <- 1; train.end <- 4827; test.start <- 4828; test.end <- 5363; # create container container.unigram = create_container(tweets.dtm.unigram, as.numeric(tweets.sentiment[,2]), trainsize=train.start:train.end, testsize=test.start:test.end, virgin=false) # cross validate Βήμα προς βήμα οι εντολές που χρησιμοποιήθηκαν: 1. Αρχικά δημιουργούμε με την εντολή DocumentTermMatrix έναν Πίνακα Εγγράφων- Χαρακτηριστικών, όπως είδαμε στην προηγούμενη ενότητα. 2. Στη συνέχεια, ορίζουμε τις μεταβλητές οι οποίες δηλώνουν τις θέσεις (indices) αρχής και τέλους των δεδομένων εκπαίδευσης και ελέγχου στο αρχικό σύνολο. 3. Έπειτα, δημιουργούμε έναν Container με τη χρήση της εντολής create_container του πακέτου RTextTools. Ο Container αυτός προετοιμάζει το μοντέλο για την εκπαίδευση, και περιέχει όπως βλέπουμε όλες τις πληροφορίες που χρειάζονται για την πραγματοποίησή της. Απόσπασμα Κώδικα 3 - Διασταυρωμένη Επικύρωση 4. Τέλος, με την εντολή cross_validate επιτυγχάνουμε τη Διασταυρωμένη Επικύρωση και αποθηκεύουμε τα αποτελέσματα σε μία νέα μεταβλητή. Στον παρακάτω πίνακα, παρουσιάζουμε τα αποτελέσματα της Διασταυρωμένης Επικύρωσης των αλγορίθμων Max Entropy και SVM, με τη χρήση και μονογραμμάτων και διγραμμάτων ως χαρακτηριστικά. 71

72 Θετικό Κείμενο Αρνητικό Κείμενο Unigrams Precision Recall F-Score Precision Recall F-Score MAXENT SVM Bigrams Precision Recall F-Score Precision Recall F-Score MAXENT SVM Σύμφωνα με τα παραπάνω αποτελέσματα, ο ιδανικότερος συνδυασμός για τον ταξινομητή αυτού του domain και με τη χρήση του συγκεκριμένου αρχικού συνόλου δεδομένων, είναι ο αλγόριθμος SVM με τη χρήση μονογραμμάτων ως χαρακτηριστικά. Παράλληλα, μπορούμε να παρατηρήσουμε μία διαφορά απόδοσης και των δύο αλγορίθμων στην ταξινόμηση θετικών κειμένων, σε αντίθεση με τα αρνητικά. Στην επόμενη ενότητα περιγράφουμε το λόγο για τον οποίο συμβαίνει αυτό αλλά και τον τρόπο που το ξεπεράσαμε για να δημιουργήσουμε έναν πιο ισορροπημένο ταξινομητή. 4.5 Βελτίωση Απόδοσης Ταξινομητή Παρατηρώντας ξανά τον πίνακα των αποτελεσμάτων της Διασταυρωμένης Επικύρωσης, διακρίνουμε ότι η ταξινόμηση των θετικών κειμένων καταγράφει μία αρκετά χαμηλότερη απόδοση από αυτή των αρνητικών. Προκειμένου να εντοπίσουμε την αιτία που συμβαίνει αυτό, αρκεί να ρίξουμε μία δεύτερη ματιά στο Σχήμα 13 της ενότητας 4.2. Όπως βλέπουμε, στο αρχικό σύνολο δεδομένων, το οποίο χρησιμοποιούμε για την επικύρωση αλλά και την εκπαίδευση του αλγορίθμου, υπάρχει μία δυσαναλογία μεταξύ των δεδομένων κάθε κατηγορίας. Συγκεκριμένα, τα αρνητικά κείμενα είναι τρείς φορές περισσότερα από τα θετικά. Παράλληλα, παρατηρούμε και την ύπαρξη σημαντικού αριθμού δεδομένων τα οποία είναι ουδέτερα. Όταν εισάγουμε το σύνολο όπως είναι προς εκπαίδευση, δημιουργείται μία κατάσταση υπερπροσαρμογής (overfitting) στα αρνητικά. Αυτό συμβαίνει λόγω της δυσαναλογίας στα δεδομένα. Ο ιδανικότερος τρόπος να το εξαλείψουμε αυτό είναι να εμπλουτίσουμε το αρχικό σύνολο με θετικά κείμενα και έτσι να έχουμε ίσο αριθμό δεδομένων στις δύο κατηγορίες και να μη χρειαστεί να αφαιρέσουμε αρνητικά κείμενα. 72

73 Για την επίτευξη αυτού χρειάζεται μία χρονοβόρα διαδικασία από μία ομάδα ατόμων, η οποία είναι εκτός των πλαισίων της εργασίας αυτής. Λόγω αυτού του περιορισμού, ακολουθήσαμε την παρακάτω συμβιβαστική λύση: 1. Τυχαία διαίρεση του αρχικού συνόλου αρνητικών κειμένων διά τρία και επιλογή περίπου κειμένων. 2. Διασταυρωμένη Επικύρωση σε 10 Μέρη με τη χρήση του αλγορίθμου SVM. 3. Καταγραφή των αποτελεσμάτων και του seed που χρησιμοποιήθηκε, για την εύκολη ανάκληση των τυχαίων κειμένων. 4. Επανάληψη της διαδικασίας τόσες φορές, ώστε καλυφθούν όσο το δυνατόν περισσότεροι συνδυασμοί. 5. Επιλογή του τυχαίου συνόλου με τη μέγιστη απόδοση από όλες τις επαναλήψεις. Ακολουθώντας αυτή τη διαδικασία, επιλέξαμε το σύνολο με την εξής μέγιστη απόδοση: Θετικό Κείμενο Αρνητικό Κείμενο Αλγόριθμος Precision Recall F-Score Precision Recall F-Score SVM Παρατηρούμε ότι η απόδοση στα αρνητικά έχει μειωθεί αισθητά, αλλά αυτό παράλληλα οδήγησε στην αύξηση της απόδοσης για τα θετικά κείμενα. Έτσι, καταλήξαμε σε έναν πιο ισορροπημένο ταξινομητή. Αυτός είναι και ο τελικός που θα χρησιμοποιήσουμε στην πρόβλεψη σε πραγματικό χρόνο, όπως περιγράφουμε στις επόμενες ενότητες. 73

74 4.6 Εκπαίδευση Αλγορίθμου Ταξινόμησης Έχοντας καταλήξει, πλέον, στον αλγόριθμο που θα χρησιμοποιήσουμε αλλά και στα χαρακτηριστικά στα οποία θα βασιστούμε γι αυτήν, αυτό που μένει είναι να ολοκληρώσουμε τη διαδικασία της εκπαίδευσης. Αυτό το πετυχαίνουμε με τις ακόλουθες εντολές στη γλώσσα R (το πλήρες αρχείο βρίσκεται στο Appendix A): # We re-create the container container.unigram = create_container(tweets.dtm.unigram,as.numeric(tweets.sentiment[,2]), trainsize=train.start:train.end, testsize=test.start:test.end, virgin=false) # Train the SVM algorithm models = train_model(container.unigram, algorithm=c("svm"), kernel = 'linear ) # Test its classification results = classify_model(container.unigram, models) # Save the classification result in a variable analytics.svm = create_analytics(container.unigram, results); Απόσπασμα Κώδικα 4 - Εκπαίδευση Μοντέλου Βήμα προς βήμα οι εντολές που χρησιμοποιήθηκαν: 1. Αρχικά δημιουργούμε τον container που θα αναλάβει τη διαδικασία της εκπαίδευσης και δημιουργίας του μοντέλου. 2. Στη συνέχεια χρησιμοποιούμε την εντολή train_model για να εκπαιδεύσουμε τον αλγόριθμο. Ορίζουμε ως συνάρτηση πυρήνα τη γραμμική, καθώς επιθυμούμε την ταξινόμηση με linear SVM. 3. Επιπλέον, ελέγχουμε το μοντέλο που δημιουργήσαμε με τη χρήση των δεδομένων εκπαίδευσης, στα δεδομένα ελέγχου (test data), για να επικυρώσουμε την απόδοσή του. Το επιτυγχάνουμε με τη χρήση της classify_model που ανήκει επίσης στο πακέτο RTextTools. 4. Αποθηκεύουμε τα αποτελέσματα σε μία νέα μεταβλητή και τα εμφανίζουμε στην κονσόλα. SVM_PRECISION SVM_RECALL SVM_FSCORE

75 Παρατηρούμε ότι η απόδοση είναι αρκετά κοντά με αυτή της Διασταυρωμένης Επικύρωσης. Στην επόμενη ενότητα, χρησιμοποιούμε το μοντέλο που μόλις εκπαιδεύσαμε, για την ταξινόμηση νέων, μη ταξινομημένων κειμένων-tweets. 4.7 Πρόβλεψη Κειμένων σε Πραγματικό Χρόνο Η Συναισθηματική Ανάλυση με τη χρήση δεδομένων από τα κοινωνικά δίκτυα, είναι μία μέθοδος Εξόρυξης Γνώμης που ήδη εφαρμόζεται από πολλές επιχειρήσεις παγκοσμίως. Συνήθως, η διαδικασία περιλαμβάνει τη συνεχή συλλογή κειμένων από τους χρήστες και τη σταδιακή ταξινόμησή τους με τη χρήση μεθόδων όπως αυτές που περιγράψαμε στις προηγούμενες ενότητες. Σε αυτήν την ενότητα εξετάζουμε μία διαδικασία ταξινόμησης σε πραγματικό χρόνο, όπου τα tweets τα οποία χρησιμοποιούμε συλλέγονται τη στιγμή που στέλνουμε το αίτημα για ταξινόμηση μίας συγκεκριμένης εταιρίας. Για την επίτευξη αυτής της λειτουργίας, χρησιμοποιούμε τη ροή δεδομένων που παρουσιάζεται στο Σχήμα 16. Σχήμα 16 - Η ροή επεξεργασίας ενός tweet στην εφαρμογή Τα tweets ανακτώνται με τη χρήση του Twitter API, επεξεργάζονται για την αφαίρεση του θορύβου και της μη χρήσιμης πληροφορίας και στη συνέχεια εισάγονται στο μοντέλο για να ταξινομηθούν. Η παραπάνω διαδικασία γίνεται σε πραγματικό χρόνο και τα tweets τα οποία ταξινομούνται είναι τα τελευταία κορυφαία tweets προς τη συγκεκριμένη εταιρία. Ακολουθούν οι εντολές σε γλώσσα R που χρησιμοποιήθηκαν για την επίτευξη της παραπάνω λειτουργίας (το πλήρες αρχείο βρίσκεται στο Appendix B): 75

76 library(twitter) api.key <- "TWIITTER KEY" api.secret <- "TWITTER SECRET" api.access.token <- "ACCESS TOKEN" api.access.token.secret <- "ACCESS TOKEN SECRET" setup_twitter_oauth(api.key, api.secret, api.access.token, api.access.token.secret); tweets.number < tweets.united <- n=tweets.number, lang = 'en', geocode = ' , ,1400mi' ) # convert to data frame for easier manipulation tweets.df <- do.call("rbind", lapply(tweets.united, as.data.frame)) # create a new data frame containing only the information we need new.tweets.united <- data.frame(id=tweets.df$id,airline=rep("united", tweets.number), sentiment=na, text=tweets.df$text) # specify the levels of the sentiment column levels(new.tweets.united$sentiment) <- c("negative", "positive"); # pre-processing see Appendix B # convert the texts to data frame for easier manipulation see Appendix B # create a Document-Term Matrix containing the texts of the tweets new.tweets.dtm <- create_matrix(new.tweets.filtered.text$text, originalmatrix = tweets.dtm.unigram) # create the container for the classification container.new.tweets <- create_container(new.tweets.dtm, as.numeric(new.tweets.united[,2]), testsize=1:tweets.number, virgin=true) # classify the new tweets new.tweets.results <- classify_model(container.new.tweets, models) # create a new data frame containing the final information new.tweets.results.final <- data.frame(id = tweets.df$id, screenname=as.character(tweets.df$screenname), new.tweets.filtered.text, new.tweets.results, original_text = new.tweets.united$text) # keep the results with classification confidence higher than 0.7 new.tweets.results.final.relevant <- new.tweets.results.final[new.tweets.results.final$svm_prob > 0.7, ] Απόσπασμα Κώδικα 5 - Ταξινόμηση Νέων Κειμένων 76

77 Παρακάτω περιγράφουμε τη διαδικασία που ακολουθήθηκε: Αρχικά φορτώνουμε το πακέτο twitter, το οποίο περιέχει μεθόδους για τη χρήση του Twitter API, ενώ περιλαμβάνει και την ταυτοποίηση. Στη συνέχεια ορίζουμε μεταβλητές για τα κλειδιά της εφαρμογής που δημιουργήσαμε στο Twitter API, και καλούμε τη μέθοδο setup_twitter_oauth του πακέτου twitter, η οποία ταυτοποιεί την εφαρμογή και ενσωματώνει το access token σε κάθε επόμενο request προς το Twitter API. Η searchtwitter, στέλνει ένα αίτημα στο Search APi του Twitter, με ορίσματα το κείμενο που επιθυμούμε να περιέχουν τα κείμενα, τον αριθμό των επιστρεφόμενων tweets, τη γλώσσα τους αλλά και την τοποθεσία από την οποία στάλθηκαν. Ο λόγος που επιθυμούμε συγκεκριμένη τοποθεσία θα αναλυθεί στην επόμενη ενότητα. Το Twitter API, μαζί με τα κείμενα των tweets επιστρέφει και διάφορες άλλες πληροφορίες όπως το id του, το όνομα του χρήστη και η τοποθεσία. Για την ταξινόμηση θα χρειαστούμε μόνο τα κείμενα και γι αυτό αρχικά μετατρέπουμε τα δεδομένα σε ένα Data Frame και στη συνέχεια δημιουργούμε ένα corpus χρησιμοποιώντας μόνο τα κείμενα των tweets. Έπειτα, κάνουμε την ίδια διαδικασία προ-επεξεργασίας όπως και στα δεδομένα εκπαίδευσης, για να αφαιρέσουμε το θόρυβο. Τέλος, χρησιμοποιούμε τη μέθοδο create_matrix για να δημιουργήσουμε το Document Term Matrix των κειμένων. Πλέον έχουμε την τελική μορφή των κειμένων και μένει να τα εισάγουμε στο μοντέλο για ταξινόμηση. Αρχικά, δημιουργούμε τον container, με την ίδια μέθοδο (του πακέτου RTextTools) που δημιουργήσαμε και τον training container. Έπειτα, χρησιμοποιούμε την classify_model για να προβλέψουμε τη συναισθηματική κατηγορία στην οποία ανήκει το κάθε tweet. Τέλος, δημιουργούμε ένα νέο data.frame το οποίο περιέχει κάποιες βασικές πληροφορίες για κάθε tweet (id, user screen name, text, classification result). Αυτό το data frame περιέχει τα αποτελέσματα και θα το χρησιμοποιήσουμε στη συνέχεια για τη χαρτογραφική απεικόνιση. Πριν περάσουμε σε αυτό, ωστόσο, αφαιρούμε από το τελικό δείγμα τα tweets για τα οποία η ταξινόμηση είναι σχετικά αβέβαιη, δηλαδή έχει confidence μικρότερο του 70%. Αυτό το κάνουμε γιατί δεν θέλουμε να υπάρχουν αβέβαια δεδομένα τα οποία θα κοστίσουν σε αξιοπιστία την ταξινόμηση. Στην επόμενη ενότητα, περιγράφουμε τη διαδικασία με την οποία δημιουργούμε τη χαρτογραφική απεικόνιση των tweets που μόλις συλλέξαμε και ταξινομήσαμε. 77

78 4.8 Εξαγωγή Πληροφορίας Τοποθεσίας Όπως αναφέραμε στις εισαγωγικές ενότητες, ο σκοπός αυτής της εργασίας δεν είναι μόνο η εξόρυξη συναισθήματος από το Twitter, αλλά παράλληλα και η ενσωμάτωση πληροφορίας τοποθεσίας στα αποτελέσματα. Με αυτόν τον τρόπο θα επιτύχουμε μία ολοκληρωμένη αναπαράσταση σε πραγματικό χρόνο, της γνώμης που έχουν οι Αμερικάνοι για τις δημοφιλέστερες αεροπορικές εταιρίες της χώρας τους. Παρατηρώντας τα δεδομένα που επιστρέφει το Twitter API, βλέπουμε ότι περιέχει και ένα πεδίο coordinates, το οποίο αναπαρίσταται με ένα ζεύγος συντεταγμένων στο χώρο και υποδεικνύει την τοποθεσία από την οποία έχει στείλει ο χρήστης το tweet: Το πεδίο coordinates θα έχει τιμή μόνον όταν ο χρήστης οικειοθελώς δηλώσει ότι { "created_at":"wed Jan 11 04:52: ", "id": , "text":"thank you for everything. My last ask is the same as my first. I'm asking you to believe\u2014not in my ability to create change, but in yours.", "user":{ "id": , "id_str":" ", "name":"president Obama", "screen_name":"potus44", "location":"washington, D.C.", "description":"this is an archive of an Obama Administration account maintained by the National Archives and Records Administration (NARA).", "url":" "entities":{ }.. }, "geo":null, "coordinates":null, "place":null, "contributors":null } Απόσπασμα Κώδικα 6 - Παράδειγμα JSON Tweet βρίσκεται εκεί καθώς στέλνει το tweet (check-in). Στην πλειοψηφία τους, οι χρήστες δεν επιθυμούν να ενσωματώσουν αυτήν την πληροφορία και ως κατά συνέπεια είναι κενή. Αντίθετα, στο προσωπικό τους προφίλ, μεγάλος αριθμός χρηστών δηλώνει την τοποθεσία τους, η οποία είναι ή η καταγωγή τους ή ο τωρινός τόπος διαμονής τους. Σημειώνεται ότι 78

79 αυτή η πληροφορία είναι συνήθως δημόσια και αποτελεί μέρος των βασικών πληροφοριών ενός χρήστη. Στο Σχήμα 17 βλέπουμε τη διαδικασία η οποία ακολουθήθηκε για την ανάκτηση της τοποθεσίας κάθε χρήστη, η οποία αναλύεται στη συνέχεια. Σχήμα 17 - Ανάκτηση Δεδομένων Τοποθεσίας Χρήστη Στον πίνακα του σχήματος βλέπουμε αρχικά μέρος των δεδομένων που επιστρέφονται για κάθε tweet από το Twitter Search API. Στη συνέχεια: 1. Παίρνουμε το όνομα χρήστη (username) και κάνουμε αναζήτηση στους χρήστες με βάση αυτό. 2. Το Twitter επιστρέφει την πλήρη πληροφορία του προφίλ του χρήστη, με τη μορφή JSON. 3. Από το JSON απομονώνουμε το πεδίο location, το οποίο περιέχει την τοποθεσία που έχει δηλώσει ο χρήστης (π.χ. Boston, MA). 4. Στη συνέχεια στέλνουμε την τοποθεσία στο Google Maps API, το οποίο μας επιστρέφει τις συντεταγμένες πεδίου. 5. Ενσωματώνουμε αυτήν την πληροφορία στο αρχικό tweet, και στη συνέχεια δημιουργούμε την τελική γραφική απεικόνιση του χάρτη. 79

80 Ο κώδικας σε R που χρησιμοποιήθηκε για την παραπάνω διαδικασία είναι ο εξής: library(ggmap) # Get users tweets.users <- lookupusers(results.final$screenname, includena = TRUE) tweets.users.df <- do.call("rbind", lapply(tweets.users, as.data.frame)) # Keep only the users who have declared a location on their profile tweets.users.located <-!is.na(tweets.users.df$location) # convert to vector for use in a loop tweets.users.location.vector <- tweets.users.df$location[tweets.users.located] # this will be populated inside the loop tweets.users.locations <- data.frame(lon = numeric(0), lat=numeric(0), state=character(0)) withprogress(message = 'finding tweet locations', min = 0, max = length(tweets.users.location.vector), value = 0, { for(loc in tweets.users.location.vector) { # get the location from google maps API location <- trycatch(geocode(loc, source = "google", output="more"), error = function(x) location <- NA) incprogress(amount = 1) location.df <- data.frame(lon = NA, lat=na, state=na) if(!is.na(location[1]) ) { if("country" %in% colnames(location)) { if(location$country == "United States" & "administrative_area_level_1" %in% colnames(location)) { location.df <- data.frame(lon = location$lon, lat = location$lat, state = tolower(location$administrative_area_level_1)) } } } } }) # add the new location to the data frame tweets.users.locations <- rbind(tweets.users.locations, location.df) tweets.with.location <- cbind(results.final, tweets.users.locations) tweets.located <- tweets.with.location[!is.na(tweets.with.location$state), ] #tweets who have non null state tweets.located[, "SVM_LABEL"] <- laply(tweets.located[, "SVM_LABEL"], as.numeric) #convert SVM_LABEL to numeric Απόσπασμα Κώδικα 7 - Αναζήτηση Πληροφορίας Τοποθεσίας 80

81 Παρακάτω περιγράφουμε τις εντολές που χρησιμοποιήθηκαν: Αρχικά δηλώνουμε το πακέτο ggmap, το οποίο χρησιμοποιούμε για την κλήση μεθόδων του Google Maps API. Χρησιμοποιούμε τη μέθοδο lookupusers του πακέτου twitter, η οποία επιστρέφει την πληροφορία των χρηστών ανάλογα με το username που δίνουμε. Στην περίπτωση αυτή αναζητούμε τους χρήστες για τα username των tweets. Επίσης, μετατρέπουμε τα δεδομένα σε data frame για ευκολότερη επεξεργασία. Στη συνέχεια, κρατάμε τους χρήστες οι οποίοι έχουν δηλώσει τοποθεσία δημόσια στο προφίλ τους και μετατρέπουμε το data frame σε ένα απλό vector. (τη μέθοδο withprogress θα την περιγράψουμε στην επόμενη ενότητα). Για κάθε μία από τις τοποθεσίες στο vector, χρησιμοποιούμε τη μέθοδο geocode του πακέτου ggmap, η οποία δέχεται ως όρισμα μία τοποθεσία και επιστρέφει τις συντεταγμένες της. Στη συνέχεια κάνουμε κάποιους ελέγχους πάνω στο geocode, καθώς θέλουμε να σιγουρέψουμε ότι τα tweets προέρχονται από χρήστες στην Αμερική και από μία από τις 50 πολιτείες (πεδίο administrative_area_level_1 ). Κρατάμε μόνο τις τοποθεσίες που περιέχουν αυτήν την πληροφορία. Τέλος, παίρνουμε το data frame με τις τοποθεσίες και το ενσωματώνουμε στο data frame των tweets, έτσι ώστε κάθε tweet να περιέχει και την πληροφορία της τοποθεσίας από την οποία προήλθε. Μετά την παραπάνω διαδικασία, τα tweets αναπαρίστανται ως ακολούθως: Πλέον, με τα δεδομένα αυτά μπορούμε να βγάλουμε συμπεράσματα για κάθε πολιτεία για την οποία έχουμε επαρκή πληροφορία. Μπορούμε, για παράδειγμα, με την ακόλουθη εντολή, να βρούμε για κάθε πολιτεία το μέσο συναίσθημα: tweets.mean.sentiment <- ddply(tweets.located,.(state), summarize, mean_sent=mean(svm_label)) Προκύπτει έτσι ένας νέος πίνακας, ο tweets.mean.sentiment με τη μέση τιμή συναισθήματος για κάθε διαφορετική πολιτεία: 81

82 Πολιτεία Συναίσθημα (1=αρνητικό, 2=θετικό) New York 1,3 California 1,4 Florida 1,4 Indiana 1,5 Από τον παραπάνω πίνακα μπορούμε να συμπεράνουμε ότι οι κάτοικοι της πολιτείας της Ιντιάνα έχουν καλύτερη γνώμη για την αεροπορική JetBlue από αυτούς της Νέας Υόρκης, της Καλιφόρνια και της Φλόριντα. Τη συγκεκριμένη διαφοροποίηση μπορούμε να την οπτικοποιήσουμε με τη χρήση ενός χάρτη και χρωματικών αποχρώσεων, για να έχουμε μία πιο εύκολη διάκριση μεταξύ την δύο πόλων συναισθήματος. Παράλληλα, επιθυμούμε να δημιουργήσουμε μία διαδραστική εφαρμογή για τη διευκόλυνση του χρήστη. Τη διαδικασία αυτή περιγράφουμε στην επόμενη ενότητα. 4.8 Υλοποίηση Διεπαφής της Εφαρμογής Με τη χρήση εντολών της γλώσσας R, μπορούμε να δημιουργήσουμε στατικές και δυναμικές αναπαραστάσεις των αποτελεσμάτων της μελέτης μας. Ο σκοπός μας, ωστόσο, είναι η δημιουργία μίας εφαρμογής διαδικτύου η οποία θα είναι προσβάσιμη από όλους, χωρίς να είναι απαραίτητη η γνώση και χρήση της R. Για να το επιτύχουμε αυτό, χρησιμοποιούμε το πακέτο RShiny, ένα framework σχεδιασμένο για αυτόν ακριβώς το λόγο. Οι λόγοι επιλογής του συγκεκριμένου framework, έναντι άλλων λύσεων όπως η δημιουργία ενός API και μίας Web Application, είναι οι εξής: 1. Δε χρειάζεται να αλλάξουμε τα script που έχουμε ήδη γράψει. Το μόνο που χρειάζεται είναι η σύνδεσή τους με μία διεπαφή. 2. Οι διεπαφές που δημιουργούνται με τη χρήση του Shiny είναι μοντέρνες και καλύπτουν τις απαιτήσεις αποκριτικότητας (responsiveness) των σύγχρονων εφαρμογών. Μπορούν να τρέξουν με την ίδια αποτελεσματικότητα σε υπολογιστές, κινητά ή tablets. 3. Υπάρχει υποστήριξη βιβλιοθηκών της JavaScript για τη δημιουργία γραφικών, όπως το leaflet το οποίο θα χρησιμοποιήσουμε για τη δημιουργία των χαρτών της εφαρμογής. 82

83 Μία εφαρμογή σε Shiny δημιουργείται με τη χρήση δύο μόνο βασικών αρχείων, το server.r και το ui.r. Το ui.r είναι υπεύθυνο για τη δημιουργία και τη στοίχιση των στοιχείων μέσα στη σελίδα, ενώ στο server.r τρέχουμε τα script που περιγράψαμε στις προηγούμενες ενότητες και τα αναθέτουμε σε μεταβλητές οι οποίες είναι συνδεδεμένες με το ui.r. Στη συνέχεια, περιγράφουμε τις εντολές που χρησιμοποιούμε στο ui.r αλλά και τον τρόπο με τον οποίο το συνδέουμε με το server.r. 83

84 Το αρχείο ui.r (το πλήρες αρχείο βρίσκεται στο Appendix D): library(shiny) library(leaflet) shinyui(navbarpage("airsent", tabpanel("map", # Sidebar with a slider input for number of bins sidebarlayout( sidebarpanel( selectinput("airline_select_main", label = h3("airline"), choices = airlines, selected = 1), htmloutput("stats") ), # Show a plot of the generated distribution mainpanel( #lotoutput("distplot") leafletoutput("map") ) ), datatableoutput("statestats") ), tabpanel("sample Data", datatableoutput("sampledata") ), tabpanel("real Time", sidebarlayout( sidebarpanel( selectinput("airline_select_realtime", label = h3("airline"), choices = airlines, selected = 1), sliderinput("tweet_number", label = h3("number of Tweets"), min = 10, max = 100, value = 50), actionbutton("submit", "GO") #p("only classifications with a confidence greater than 0.9 are shown") ), # Show a plot of the generated distribution mainpanel( leafletoutput("realtime_map") ) ), datatableoutput("realtimedata") ) )) Απόσπασμα Κώδικα 8 - Δημιουργία Διεπαφής με τη Χρήση του Shiny 84

85 Οι βιβλιοθήκες που χρειαζόμαστε είναι το Shiny Framework και το Leaflet για τη δημιουργία χαρτών. Η μέθοδος shinyui είναι υπεύθυνη για τη δημιουργία της διεπαφής και δέχεται ως όρισμα τη μεταβλητή που την ορίζει. Για τη συγκεκριμένη εφαρμογή θα δημιουργήσουμε μία σελίδα με μπάρα πλοήγησης (navigation bar), η οποία θα περιέχει 3 σελίδες, μία για την παρουσίαση δεδομένων offline ταξινόμησης, μία για την εμφάνιση δείγματος των δεδομένων αυτών και τέλος μία για την ταξινόμηση σε πραγματικό χρόνο. Κάθε μία σελίδα δημιουργείται με τη μέθοδο tabpanel, η οποία δέχεται ως ορίσματα τον τίτλο της και τα στοιχεία που θα εμφανίζει στο κυρίως μέρος της. Παρακάτω, παρουσιάζονται οι μέθοδοι που δημιουργούν τα βασικά στοιχεία αλληλεπίδρασης της εφαρμογής με το χρήστη: sidebarlayout: Μία διάταξη η οποία περιλαμβάνει μία πλάγια μπάρα (side bar) στα αριστερά και ένα κυρίως περιεχόμενο. Τα δύο αυτά ορίζονται με τις μεθόδους sidebarpanel και mainpanel. selectinput: Δημιουργεί ένα στοιχείο επιλογής (drop-down select) με προκαθορισμένες επιλογές. htmloutput: Εμφανίζει στοιχεία γραμμένα με custom HTML από το script του server. leafletoutput: Εμφανίζει ένα χάρτη με τη βιβλιοθήκη leaflet, καθορισμένο από τον server. datatableoutput: Εμφανίζει έναν πίνακα σύμφωνα με το data frame που ορίζεται στον server. actionbutton: Εμφανίζει ένα δια-δραστικό κουμπί. Βλέποντας τον τρόπο με τον οποίο ορίσαμε τα παραπάνω, είναι σημαντικό να κάνουμε δύο παρατηρήσεις. Κάθε στοιχείο που απλά παρουσιάζει αποτελέσματα προς το χρήστη, έχει ως κατάληξη output, ενώ κάθε στοιχείο που επιτρέπει την αλληλεπίδραση του χρήστη καταλήγει σε input. Επίσης, κάθε στοιχείο έχει ως πρώτο όρισμα ένα string που αναπαριστά το όνομά του, το οποίο χρησιμοποιούμε στο server.r script για να το συνδέσουμε με τα αποτελέσματα των εντολών. 85

86 Το αρχείο server.r περιέχει τις εντολές εκτέλεσης της διαδικασίας ταξινόμησης, τις οποίες έχουμε ήδη αναλύσει προηγουμένως. Παρακάτω, περιγράφουμε μερικές από τις εντολές σύνδεσης του server με τη διεπαφή (Το πλήρες αρχείο βρίσκεται στο Appendix C): library(shiny) library(rgdal) library(leaflet) shinyserver(function(input, output) { # get the states shapes from data states.ogr <- readogr("./shp/cb_2016_us_state_20m.shp",layer = "cb_2016_us_state_20m", GDAL1_integer64_policy = TRUE) # add mean_sent to the data states.df <- as.data.frame(states.ogr) states.df$name <- tolower(states.df$name) states.df <- left_join(states.df, tweets.mean.sentiment, by=c("name"="state")) states.ogr$mean_sent <- states.df$mean_sent states.ogr$total_tweets <- states.df$total_tweets # set the color palette see Appendix # create the output map output$map <- renderleaflet({ leaflet(states.ogr) %>% setview(lat = , lng = , zoom=3.5) %>% addpolygons(color = "#444444", weight = 1, smoothfactor = 0.5, opacity = 1.0, fillopacity = 0.5, fillcolor = ~pal.bins(mean_sent), highlightoptions = highlightoptions(color = "white", weight = 2,bringToFront = TRUE), popup = paste(states.ogr$name, "<br />", "Mean Sentiment: ", states.ogr$mean_sent, "<br />", "Total Tweets: ", states.ogr$total_tweets ) ) %>% # add legend see Appendix }) # Render a sample of 100 tweets from the data output$sampledata <- renderdatatable({ tweets.sample <- tweets.located[tweets.located$svm_prob > 0.9, ] tweets.sample <- tweets.sample[sample(nrow(tweets.sample), 100), ] tweets.sample <- subset(tweets.sample, select = c(original_text, SVM_LABEL, state)) return(tweets.sample) }) } Απόσπασμα Κώδικα 9 - Δημιουργία Server με τη Χρήση του Shiny 86

87 Η μέθοδος με την οποία δημιουργείται ο shiny server είναι η shinyserver, η οποία δέχεται ως όρισμα μία συνάρτηση (function) με ορίσματα input και output. Το input το χρησιμοποιούμε για να διαβάσουμε είσοδο από το χρήστη και το output για να εμφανίσουμε αποτελέσματα στην εφαρμογή. Αρχικά, χρησιμοποιούμε τη μέθοδο readogr για να διαβάσουμε δεδομένα χαρτών με τη μορφή διανυσμάτων. Αυτό θα μας δώσει τη δυνατότητα στη συνέχεια να σχεδιάσουμε χάρτες με τη χρήση του leaflet. Στα δεδομένα αυτά προσθέτουμε τις πληροφορίες που θέλουμε να εμφανίσουμε, όπως το όνομα της κάθε πολιτείας, το μέσο συναίσθημά και το συνολικό αριθμό tweets. Στη συνέχεια, δημιουργούμε με τη χρήση της colorbin μία παλέτα χρωμάτων με αποχρώσεις πράσινου και κόκκινου, για την αναπαράσταση του συναισθήματος σε κάθε πολιτεία. Τέλος, δημιουργούμε το χάρτη με τη μέθοδο renderleaflet, στην οποία περνάμε ως όρισμα τον χάρτη διανυσμάτων και δημιουργούμε τα πολύγωνα των πολιτειών χρωματίζοντάς τα με την παλέτα που δημιουργήσαμε, ανάλογα με το μέσο συναίσθημα της κάθε μίας. Επίσης, προσθέτουμε έναν legend στο χάρτη για τη γρήγορα αναφορά στις διάφορες αποχρώσεις και τη σημασία τους. Επιπλέον, με τη χρήση της renderdatatable, εμφανίζουμε στη δεύτερη σελίδα της εφαρμογής ένα δείγμα 100 ταξινομημένων κειμένων. Η χρήση των εντολών που περιγράψαμε παραπάνω στα αρχεία ui.r και server.r, είναι αρκετή για να δημιουργήσει το Shiny μία ολοκληρωμένη και λειτουργική εφαρμογή διαδικτύου, η οποία φιλοξενείται στην ιστοσελίδα 87

88 Στο Σχήμα 18 βλέπουμε την τελική εφαρμογή, όπως εμφανίζεται στο χρήστη όταν επισκέπτεται τη σελίδα. Σχήμα 18 - Τελική Εφαρμογή AirSent Στην τελευταία ενότητα του κεφαλαίου αυτού, θα παρουσιάσουμε μερικά αποτελέσματα της εργασίας που περιγράψαμε σε αυτό το κεφάλαιο και θα προτείνουμε βελτιώσεις για περαιτέρω μελέτη Παρουσίαση Αποτελεσμάτων Σύμφωνα με τις ταξινομήσεις του συστήματος που εκπαιδεύσαμε, μπορούμε να βγάλουμε τα εξής συμπεράσματα: Η United είναι από τις λιγότερο αγαπητές αεροπορικές εταιρίες στην Αμερική. Αντίθετα, η Southwest είναι η πιο αγαπητή. Η πολικότητα συναισθήματος για τις Jet Blue και Virgin βρίσκεται στη μέση, με τη JetBlue να τείνει περισσότερο προς το αρνητικό. Συγκρίνουμε τα παραπάνω αποτελέσματα με αντίστοιχες έρευνες που έχουν γίνει στους ταξιδιώτες από το Αμερικάνικο Ινστιτούτο Ικανοποίησης Πελατών (ACSI). Σύμφωνα με το ινστιτούτο: Η United είναι η 4 η πιο μισητή αεροπορική, πίσω από τις Frontier, Allegiant και Spirit Airlines. Η Southwest βρίσκεται στην κορυφή των προτιμήσεων των Αμερικανών, ισόπαλη με μία άλλη αεροπορική που ερευνήσαμε, την JetBlue. 88

Δείτε περισσότερα