ΧΑΡΟΚΟΠΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΣΧΟΛΗ ΨΗΦΙΑΚΗΣ ΤΕΧΝΟΛΟΓΙΑΣ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΤΗΛΕΜΑΤΙΚΗΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ : ΠΛΗΡΟΦΟΡΙΚΉ ΚΑΙ ΤΗΛΕΜΑΤΙΚΗ ΚΑΤΕΥΘΥΝΣΗ : Πληροφοριακά Συστήματα στην Διοίκηση Επιχειρήσεων Εξαγωγή Επιχειρηματικής γνώσης με εργαλεία ανοικτού κώδικα Διπλωματική Εργασία Μπουδουρίδου Σοφία Αθήνα, 2018
ΧΑΡΟΚΟΠΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΣΧΟΛΗ ΨΗΦΙΑΚΗΣ ΤΕΧΝΟΛΟΓΙΑΣ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΤΗΛΕΜΑΤΙΚΗΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ : ΠΛΗΡΟΦΟΡΙΚΉ ΚΑΙ ΤΗΛΕΜΑΤΙΚΗ ΚΑΤΕΥΘΥΝΣΗ : Πληροφοριακά Συστήματα στην Διοίκηση Επιχειρήσεων Τριμελής Εξεταστική Επιτροπή Βαρλάμης Ηρακλής Επίκουρος Καθηγητής, Τμήματος Πληροφορικής και Τηλεματικής, Χαροκόπειο Πανεπιστήμιο Αναγνωστόπουλος Δημοσθένης Καθηγητής, Τμήματος Πληροφορικής και Τηλεματικής, Χαροκόπειο Πανεπιστήμιο Τσερπές Κωνσταντίνος Επίκουρος Καθηγητής,, Τμήματος Πληροφορικής και Τηλεματικής, Χαροκόπειο Πανεπιστήμιο ii
Η Μπουδουρίδου Σοφία δηλώνω υπεύθυνα ότι: 1) Είμαι ο κάτοχος των πνευματικών δικαιωμάτων της πρωτότυπης αυτής εργασίας και από όσο γνωρίζω η εργασία μου δε συκοφαντεί πρόσωπα, ούτε προσβάλει τα πνευματικά δικαιώματα τρίτων. 2) Αποδέχομαι ότι η ΒΚΠ μπορεί, χωρίς να αλλάξει το περιεχόμενο της εργασίας μου, να τη διαθέσει σε ηλεκτρονική μορφή μέσα από τη ψηφιακή Βιβλιοθήκη της, να την αντιγράψει σε οποιοδήποτε μέσο ή/και σε οποιοδήποτε μορφότυπο καθώς και να κρατά περισσότερα από ένα αντίγραφα για λόγους συντήρησης και ασφάλειας. iii
ΕΥΧΑΡΙΣΤΙΕΣ Ολοκληρώνοντας την έρευνα και συγγραφή της παρούσας διπλωματικής εργασίας, θα ήθελα να ευχαριστήσω όλους όσους συνέβαλαν στην περάτωση αυτής της προσπάθειας. Αρχικώς, αισθάνομαι την ανάγκη να εκφράσω τις θερμές μου ευχαριστίες στον επιβλέποντα καθηγητή μου, κ. Ηρακλή Βαρλάμη, για την πολύτιμη βοήθεια, ενθάρρυνση αλλά και για τις στοχευμένες παρατηρήσεις και υποδείξεις του, οι οποίες βοήθησαν να αναδείξω πιο μεθοδικά και συστηματικά την προβληματική του διερευνούμενου ζητήματος. Ομοίως θα ήθελα να ευχαριστήσω και τα υπόλοιπα μέλη της τριμελούς επιτροπής τον κ. Δημοσθένη Αναγνωστόπουλο και τον κ. Κωνσταντίνο Τσερπέ που σαν καθηγητές συνέβαλαν στην ολοκλήρωση του εγχειρήματος μου. Ξεχωριστά οφείλω να ευχαριστήσω από καρδιάς τους οικείους μου ανθρώπους, φίλους και συναδέλφους για την αμέριστη συμπαράσταση και ηθική ενθάρρυνση, τόσο στη διάρκεια των μεταπτυχιακών μου σπουδών όσο και κατά τη συγγραφή αυτού του πονήματος. Ο στόχος μου έγινε στόχος τους. Η αναντικατάστατη υπομονή και υποστήριξή τους αποτελούν σταθερή πηγή έμπνευσης και προσπάθειας. Ως ελάχιστο δείγμα ηθικής οφειλής, η παρούσα διπλωματική διατριβή αφιερώνεται αποκλειστικά σε αυτούς. iv
Πίνακας Περιεχομένων ΕΙΣΑΓΩΓΗ... 1 KEΦΑΛΑΙΟ 1... 2 Ορισμός της επιχειρηματικής ευφυΐας... 2 Ο ρόλος της επιχειρηματικής ευφυΐας στη σύγχρονη εποχή... 4 Εφαρμογές επιχειρηματικής ευφυΐας... 6 Συστήματα επιχειρηματικής ευφυΐας... 9 Δομικά επίπεδα συστημάτων επιχειρηματικής ευφυΐας... 11 1.5.1 Πηγές δεδομένων... 12 1.5.2 Αποθήκες δεδομένων... 12 1.5.3 Διερεύνηση δεδομένων... 13 1.5.4 Εξόρυξη δεδομένων... 14 1.5.5 Βελτιστοποίηση... 15 1.5.6 Λήψη αποφάσεων... 15 Λογισμικό επιχειρηματικής ευφυΐας... 16 Οφέλη επιχειρηματικής ευφυΐας στις επιχειρήσεις... 17 Περιορισμοί επιχειρηματικής ευφυΐας... 19 KEΦΑΛΑΙΟ 2... 22 Εισαγωγικά στοιχεία... 22 Ορισμός της εξόρυξης δεδομένων... 23 Ανακάλυψη γνώσης από βάσεις δεδομένων... 24 2.3.1 Συλλογή Δεδομένων... 25 2.3.2 Προεπεξεργασία Δεδομένων... 26 2.3.3 Μετασχηματισμός Δεδομένων... 26 2.3.4 Εξόρυξη Δεδομένων... 26 2.3.5 Διερμηνεία και Αξιολόγηση... 27 Τεχνικές εξόρυξης δεδομένων... 27 Κατηγοριοποίηση... 27 Παλινδρόμηση... 28 Συσταδοποίηση... 29 v
Εξαγωγή και Ανάλυση Συσχετίσεων... 30 Ανίχνευση Ανωμαλιών... 31 KEΦΑΛΑΙΟ 3... 32 Εισαγωγικά στοιχεία... 32 Βασικά χαρακτηριστικά εργαλείων επιχειρηματικής ευφυΐας... 33 RapidMiner... 33 KNIME... 35 Pentaho... 36 BIRT... 37 Jaspersoft... 39 SpagoBI... 40 ReportServer... 42 Tableau... 43 Jedox... 43 QlikView... 44 KEΦΑΛΑΙΟ 4... 46 Εισαγωγικά στοιχεία... 46 4.1 RapidMiner... 46 4.2 KNIME... 49 4.3 Pentaho... 51 4.4 ΒΙΡΤ... 53 4.5 Jaspersoft... 54 4.6 SpagoBI... 56 4.7 ReportServer... 58 4.8 Tableau Public... 62 4.9 Jedox... 64 4.10 QlikView... 67 4.11 Συγκριτικοί Πίνακες... 69 KEΦΑΛΑΙΟ 5... 72 Εισαγωγικά Στοιχεία... 72 5.1 Καταγραφή δεδομένων... 73 vi
5.2 Πίνακες διαστάσεων... 74 5.2.1 Jedox... 76 5.2.2 QlikView... 79 5.3 Παλινδρόμηση... 82 5.3.1 RapidMiner... 82 5.3.2 KNIME... 85 ΣΥΜΠΕΡΑΣΜΑΤΑ... 87 Αναφορές... 88 1. ΒΙΒΛΙΟΓΡΑΦΙΑ... 88 2. ΙΣΤΟΣΕΛΙΔΕΣ... 89 vii
Περίληψη Με δεδομένη την πληθώρα σχετικών πληροφοριών, το άνοιγμα των αγορών σε παγκόσμιο επίπεδο και την ολοένα φθίνουσα δυνατότητα εξεύρεσης διαθεσίμων πόρων, οικονομικών ή ανθρώπινων, η εξαγωγή αξιόπιστης επιχειρηματικής γνώσης μέσω της αξιοποίησης εργαλείων ανοικτού κώδικα, συνιστά μια εν εξελίξει πρόταση, η οποία μπορεί να προσελκύσει το ενδιαφέρον ετερόκλιτων ομάδων, μεταξύ των οποίων συγκαταλέγονται: Οι επιχειρηματίες που επιθυμούν να έχουν στην κατοχή τους έγκυρες πληροφορίες άμεσα, προκειμένου για τη μέγιστη ανάπτυξή τους με το λιγότερο δυνατό κόστος. Οι προγραμματιστές, ώστε να τους παρέχεται η δυνατότητα επέμβασης, διαμόρφωσης και επεξεργασίας των ζητούμενων κατά περίπτωση δεδομένων. Οι αναλυτές, ούτως ώστε να καθίσταται εφικτή η επεξεργασία, εξαγωγή και παρουσίαση χρήσιμων πληροφοριών με διαφορετικούς τρόπους. Προσδιορίζοντας, αφενός, τί συνιστά επιχειρηματική ευφυΐα και, αφετέρου, τα είδη των αποτελεσμάτων που η τελευταία μπορεί να εξαγάγει μέσω της μεθοδολογίας της εξόρυξης δεδομένων, παρουσιάζονται και αναλύονται δέκα εργαλεία ανοικτού κώδικα, τα οποία συγκαταλέγονται στις λίστες των πιο αποδοτικών και αξιόπιστων εργαλείων Business Intelligence (BI) σε παγκόσμιο επίπεδο. Η εν λόγω εργασία θα επικεντρωθεί στον τρόπο εγκατάστασης και λειτουργίας τους, στη διαχείριση των αδειών χρήσης τους, στη διάθεση του κώδικά τους, στο κόστος απόκτησής τους και στις δυνατότητες που τα συνοδεύουν, ώστε να χαρακτηρίζονται ως εργαλεία επιχειρηματικής ευφυΐας. Τέλος, απομονώνοντας ένα σύνολο δεδομένων και αναλύοντάς το βάσει τεσσάρων εκ των δέκα εργαλείων, που επιλέχθηκαν με συγκεκριμένα κριτήρια, θα απαντηθούν ερωτήματα που άπτονται της δημιουργίας κύβων, της οπτικοποίησης αποτελεσμάτων και της πρόβλεψης τιμών, μέσω της μεθόδου της παλινδρόμησης. Λέξεις κλειδιά: [Επιχειρηματική ευφυΐα, Εξόρυξη Δεδομένων, Ανοικτός Κώδικας] viii
Abstract Given the abundance of relevant information, the opening of markets globally and the ever-decreasing availability of resources, whether financial or human, the export of reliable business knowledge through the use of open source tools, is an ongoing project that can attract the interest of heterogeneous groups, including: Entrepreneurs who want to have valid information directly, in order to maximize their growth at the least possible cost. Developers who want to be able to manipulate, modulate and process the data that is requested on a case-by-case basis. Analysts, in order to enable the processing, assessment and presentation of useful information in different ways. By identifying what constitutes Business Intelligence (BI) and the types of results the company can extract through the data mining methodology, ten open-source tools, which are among the most effective and reliable BI tools world-wide are presented and analyzed. This work will focus on how to set up and operate these tools, manage their licenses, make available their code, their acquisition costs, and the capabilities that come with them in order to be considered as business intelligence tools. Finally, by isolating a dataset and analyzing it with the use of four out of ten tools which have been selected by specific criteria, queries will be answered in relation to creating, visualization of results and price prediction through the regression method. Keywords: [Business Intelligence, Data Mining, Open Source] ix
ΚΑΤΑΛΟΓΟΣ ΕΙΚΟΝΩΝ Εικ. 1 Εισροές πληροφοριών κατά τη λήψη αποφάσεων...3 Εικ.2 Η διαδικασία της επιχειρηματικής ευφυΐας...4 Εικ.3 Η πυραμίδα των συστημάτων επιχειρηματικής ευφυΐας...12 Εικ.4 Βασικά στάδια της Ανακάλυψης Γνώσης από Βάσεις Δεδομένων (ΑΓΒΔ)...25 Εικ.5 Παράδειγμα κατηγοριοποίησης...28 Εικ.6 Παράδειγμα γραμμικής παλινδρόμησης... 29 Εικ.7 Παράδειγμα συσταδοποίησης...30 Εικ.8 Παράδειγμα ανίχνευσης ανωμαλιών... 31 Εικ.9 Το περιβάλλον εργασίας του RapidMiner... 34 Εικ.10 Γραφικό περιβάλλον του λογισμικού KNIME...35 Εικ.11 Γραφικό περιβάλλον του λογισμικού Pentaho...37 Εικ.2 Το γραφικό περιβάλλον του λογισμικού BIRT...38 Εικ.13 Το γραφικό περιβάλλον του λογισμικού Jaspersoft... 40 Εικ.3 Γραφικό περιβάλλον του λογισμικού SpagoBI...41 Εικ.4 Γραφικό περιβάλλον του λογισμικού ReportServer... 42 Εικ.5 Γραφικό περιβάλλον του λογισμικού Tableau...43 Εικ.6 Γραφικό περιβάλλον λογισμικού Jedox...44 Εικ. 7 Γραφικό περιβάλλον λογισμικού QlikView...45 Εικ. 19 Τιμολογιακή Πολιτική της εταιρείας RapidMiner... 47 Εικ.20 Αρχιτεκτονική της πλατφόρμας Pentaho...51 Εικ.21 Βασικές δυνατότητες της εφαρμογής Jaspersoft...54 Εικ.22 Αρχιτεκτονική SpagoBI Server...57 Εικ.23 Χαρακτηριστικά ReportServer Community και ReportServer Enterprice...60 Εικ.24 Χαρακτηριστικά εκδόσεων Jedox...65 Εικ.25 Qlik Pricing...68 Εικ.26 Jedox- Modeler...77 Εικ.27 Jedox- Αριθμός κατοικιών ανά τρίμηνο για τα έτη 2012-2016- Colum Cart...77 Εικ.28 Jedox- Αριθμός κατοικιών ανά τρίμηνο για τα έτη 2012-2016 - Pie Chart...78 x
Εικ 29 Jedox- Μέση τιμή πώλησης κατοικιών ανά τρίμηνο για τα έτη 2012-2016 - Line Chart...78 Εικ.30 Qlik- Εισαγωγή δεδομένων και διαγραμμάτων...80 Εικ.31 Qlik- Script Ημερομηνίας...80 Εικ.32 Αριθμός πωλήσεων και μέση τιμή πώλησης κατοικιών Αγγλίας & Ουαλίας από το 2012 έως το 2016...81 Εικ.33 QlikView- Line chart και Pie Chart...81 Εικ.34 RapidMiner - Model...83 Εικ.35 RapidMiner - 10-fold Cross Validation...83 Εικ.36 RapidMiner - Result...84 Εικ.37 KNIME - Model...85 Εικ.38 KNIME -Cross Validation...86 Εικ.39 KNIME - Result...86 xi
ΚΑΤΑΛΟΓΟΣ ΠΙΝΑΚΩΝ Πίν.1 Κατηγορία Χαρακτηριστικών 1...70 Πίν.2 Κατηγορία Χαρακτηριστικών 2...71 Πιν.3 Κατηγορία Χαρακτηριστικών 3...71 Πίν.4 Κατηγορία Χαρακτηριστικών 4...72 Πίν.5 Στήλες αρχείου csv...74-75 xii
ΕΙΣΑΓΩΓΗ Ζούμε στην εποχή της πληροφορίας. Αμέτρητες και διαφορετικού είδους πληροφορίες κατακλύζουν καθημερινά τους ανθρώπους, διαμέσου ενός πλέγματος παγκόσμιας συναλλαγής. Ποιες, όμως, από αυτές είναι χρήσιμες ή εκμεταλλεύσιμες και από ποιους ; Σκοπός της εργασίας αυτής είναι να εστιάσει στις ιδιότητες και τις ανάγκες του επιχειρηματικού τομέα και να συνδράμει στην επιλογή των κατάλληλων εργαλείων τα οποία μπορούν να επεξεργαστούν κάθε είδους πληροφορία, μετατρέποντάς την σε επιχειρηματική γνώση. Πιο συγκεκριμένα: Στο Κεφάλαιο 1 αναλύεται το τι συνιστά επιχειρηματική ευφυΐα, που μπορεί να εφαρμοστεί, ποιούς τομείς καλύπτει και ποιά είναι τα οφέλη της. Στο Κεφάλαιο 2 εξετάζεται ο όρος της Εξόρυξης Δεδομένων και οι τεχνικές που χρησιμοποιεί ώστε να παρουσιάσει σύντομη και περιεκτική γνώση. Στο Κεφάλαιο 3 παρουσιάζονται εν συντομία δέκα διαφορετικά εργαλεία επιχειρηματικής ευφυΐας (RapidMiner, KNIME, Pentaho, Birt, Jaspersof, SpagoBI, ReportServer, Tableau, Jedox, QlikView), κοινό γνώρισμα των οποίων αποτελεί η χρήση λογισμικού ανοικτού κώδικα. Στο Κεφάλαιο 4 αναπτύσσονται τα χαρακτηριστικά των δέκα εργαλείων και παρουσιάζονται συνοπτικοί πίνακες με αυτά. Στο Κεφάλαιο 5επιλέχθηκαν τέσσερα εργαλεία (RapidMiner, KNIME, Jedox, QlikView ) από το σύνολο των δέκα που εξετάστηκαν στα προηγούμενα κεφάλαια, και παρουσιάζεται ο τρόπος που το καθένα από αυτά προσφέρει πληροφορίες πάνω σε ένα συγκεκριμένο σύνολο δεδομένων. 1
KEΦΑΛΑΙΟ 1 Επιχειρηματική ευφυΐα Ορισμός της επιχειρηματικής ευφυΐας Με τον όρο επιχειρηματική ευφυΐα (businessintelligence) εννοούμε ένα σύνολο στρατηγικών, διαδικασιών, εφαρμογών, δεδομένων, τεχνολογιών και τεχνικών αρχιτεκτονικών που χρησιμοποιούνται για να υποστηρίξουν τη συλλογή, ανάλυση, παρουσίαση και διάδοση της επιχειρηματικής πληροφορίας 0. Ο όρος επιχειρηματική ευφυΐα (ΕΕ) χρησιμοποιήθηκε από τον HowardDresner το 1989 με σκοπό να περιγράψει τις μεθόδους που μπορούν να βελτιώσουν τη λήψη αποφάσεων με την υποστήριξη συστημάτων που βασίζονται σε στοιχεία[8]. Οι τεχνολογίες επιχειρηματικής ευφυΐας παρέχουν ιστορικές, τρέχουσες και προγνωστικές εικόνες των επιχειρηματικών διαδικασιών. Οι βασικές λειτουργίες των τεχνολογιών αυτών είναι οι αναφορές, η ανάλυση δεδομένων, η εξόρυξη δεδομένων, η επεξεργασία σύνθετων γεγονότων, οι επιχειρηματικές αναλύσεις, η συγκριτική αξιολόγηση, η εξόρυξη κειμένου, και είναι ικανές να διαχειρίζονται τεράστιες ποσότητες τόσο δομημένων όσο και αδόμητων δεδομένων, συντελώντας στην αναγνώριση, ανάπτυξη και δημιουργία νέων στρατηγικών ευκαιριών για τις επιχειρήσεις. Οι επιχειρήσεις είναι δυνατό να εφοδιαστούν με ένα ανταγωνιστικό πλεονέκτημα στις αγορές και να έχουν μία διαχρονική σταθερή πορεία, καθώς ανακύπτουν νέες ευκαιρίες και εφαρμόζονται αποτελεσματικές εφαρμογές που βασίζονται στη γνώση. Η επιχειρηματική ευφυΐα μπορεί να χρησιμοποιηθεί, ώστε να υποστηρίξει ένα ευρύ φάσμα επιχειρηματικών αποφάσεων, τόσο λειτουργικών όσο και στρατηγικών. Οι βασικές λειτουργικές αποφάσεις αφορούν την τοποθέτηση ή τιμολόγηση του προϊόντος. Οι επιχειρηματικές αποφάσεις που λαμβάνονται στα πλαίσια της στρατηγικής μιας εταιρείας αφορούν προτεραιότητες, στόχους και κατευθύνσεις σε ένα ευρύτερο επίπεδο. Σε όλες τις περιπτώσεις, η επιχειρηματική ευφυΐα είναι περισσότερο αποτελεσματική όταν συνδυάζει δεδομένα που προέρχονται από την 2
αγορά στην οποία στοχεύει η επιχείρηση (εξωτερικά δεδομένα) με δεδομένα από εσωτερικούς πόρους της επιχείρησης, όπως οικονομικά και λειτουργικά δεδομένα (εσωτερικά δεδομένα). Ο συνδυασμός των εσωτερικών και εξωτερικών δεδομένων διαμορφώνει μία ολοκληρωμένη και συνολική εικόνα, όποτε δημιουργείται ένα είδος ευφυΐας, που δεν είναι δυνατό να παραχθεί από μεμονωμένα σύνολα δεδομένων. Συνεπώς, διαπιστώνεται ότι τα εργαλεία επιχειρηματικής ευφυΐας επιτρέπουν στους οργανισμούς να αποκτήσουν γνώση για νέες αγορές, να εκτιμήσουν τη ζήτηση προϊόντων και υπηρεσιών καθώς και να αξιολογήσουν την επιρροή των εκστρατειών μάρκετινγκ που οργανώνει η επιχείρηση. Εικόνα 8 Εισροές πληροφοριών κατά τη λήψη αποφάσεων Πηγή: [3] Η επιχειρηματική ευφυΐα συνδυάζει προϊόντα, τεχνολογία και μεθόδους για να οργανώσει τις βασικές πληροφορίες που η διοίκηση θα πρέπει να αξιοποιήσει, ώστε να βελτιώσει τα κέρδη και την απόδοσή της[6]. Γενικά, o όρος επιχειρηματική ευφυΐα αφορά τις επιχειρηματικές πληροφορίες και αναλύσεις στο πλαίσιο των βασικών επιχειρηματικών διαδικασιών που οδηγούν στη λήψη αποφάσεων, καθώς και τις ενέργειες που εκτελούνται με στόχο τη βελτίωση των επιδόσεων των επιχειρήσεων. Οι επιχειρηματικές πληροφορίες και αναλύσεις χρησιμοποιούνται σε ένα πλαίσιο βασικών επιχειρησιακών διαδικασιών, χρησιμοποιούνται για την υποστήριξη αποφάσεων και δράσεων και οδηγούν σε βελτιωμένες επιδόσεις των επιχειρήσεων. Στο παρακάτω σχήμα φαίνεται η εφαρμογή της επιχειρηματικής ευφυΐας στην πράξη. 3
Εικόνα 2 Η διαδικασία της επιχειρηματικής ευφυΐας Πηγή: Williams S. et al, 2007, The profit impact of Business Intelligence Ο ρόλος της επιχειρηματικής ευφυΐας στη σύγχρονη εποχή Τα τελευταία χρόνια η επιχειρηματική ευφυΐα εντοπίζεται στο επίκεντρο του ενδιαφέροντος των σύγχρονων μεγάλων επιχειρήσεων, καθώς διαδραματίζει κυρίαρχο ρόλο στη λήψη αποφάσεων. Το επιχειρηματικό περιβάλλον είναι απαιτητικό, γεμάτο από προκλήσεις και, λόγω της πολύπλοκης φύσης των αποφάσεων στρατηγικού προσανατολισμού και της ύπαρξης ρίσκου ή αβεβαιότητας, η λήψη αποφάσεων εξελίσσεται σε μία δύσκολη και απαιτητική διαδικασία. Μερικοί παράγοντες που αυξάνουν το βαθμό πολυπλοκότητας είναι οι ακόλουθοι [2]: Οι επιχειρήσεις λειτουργούν με εντατικούς ρυθμούς, με αποτέλεσμα οι αποφάσεις να λαμβάνονται υπό την πίεση του χρόνου. Το εξωτερικό περιβάλλον χαρακτηρίζεται από αστάθεια και μεταβάλλεται με συνεχείς και γρήγορους ρυθμούς. Οι επιχειρήσεις καλούνται να βελτιώνονται διαρκώς λόγω του υψηλού ανταγωνισμού και των νέων προκλήσεων. Οι επιχειρήσεις εξαπλώνονται γεωγραφικά, με αποτέλεσμα να χρειάζεται να επιστρατευθούν πιο ευφυείς τεχνικές για την αποτελεσματική διαχείρισή τους. 4
Το ανθρώπινο δυναμικό έχει αναβαθμιστεί σε ποιοτικό και ποσοτικό επίπεδο και χαρακτηρίζεται από υψηλή κατάρτιση και διευρυμένες ικανότητες. Ο ρυθμός με τον οποίο παρέχονται οι πληροφορίες είναι καταιγιστικός και ο όγκος των δεδομένων χαοτικός. Ένα επιπλέον χαρακτηριστικό της σύγχρονης εποχής είναι η παγκοσμιοποίηση, τις αυξημένες προκλήσεις της οποίας καλείται να αντιμετωπίσει η διοίκηση των εταιρειών. Η οικονομία, με την επέλαση της παγκοσμιοποίησης, οδήγησε στην ανάπτυξη και ολοκλήρωση των παγκόσμιων αγορών. Η δραστηριοποίηση και ο ανταγωνισμός των επιχειρήσεων έχει λάβει παγκόσμιες διαστάσεις. Ο καταναλωτής της σημερινής οικονομίας έχει στη διάθεσή του μία πληθώρα πληροφοριών, γεγονός που τον καθιστά ενημερωμένο πάνω στις νέες τάσεις της αγοράς. Επίσης, διαθέτει μόρφωση και δεξιότητες χειρισμού νέων τεχνολογιών, έχει υψηλό εισόδημα και υψηλότερες απαιτήσεις. Τα νέα κανάλια επικοινωνίας και, κυρίως, το διαδίκτυο επιτρέπουν τη διάχυση της πληροφορίας σε παγκόσμια κλίμακα. Η ανταπόκριση στις υψηλές απαιτήσεις των σύγχρονων πελατών αποτελεί νέα πρόκληση για τις επιχειρήσεις. Μία άλλη σημαντική παράμετρος του σημερινού επιχειρηματικού περιβάλλοντος είναι ο πρωταγωνιστικός ρόλος που διαδραματίζουν οι αναπτυσσόμενες χώρες, στην περίπτωση των οποίων τα οικονομικά μεγέθη είναι συγκρίσιμα με αυτά των παραδοσιακά ανεπτυγμένων δυτικών κοινωνιών. Όλοι οι παραπάνω παράγοντες συμβάλλουν στη διαμόρφωση ενός επιχειρηματικού περιβάλλοντος ιδιαίτερα σύνθετου και αβέβαιου, όπου η λήψη σωστών αποφάσεων κρίνεται αναγκαία. Στο σημείο αυτό θα πρέπει να τονιστεί ότι η σύγχρονη επιχείρηση έχει στη διάθεσή της τεράστιους όγκους δεδομένων, που περιέχουν, στο μεγαλύτερο βαθμό, πληροφορία πολύτιμη για την επιχείρηση. Έχει καθιερωθεί, μάλιστα, αυτή η υπερσυσσώρευση των δεδομένων να χαρακτηρίζεται με τον όρο «BigData». Τα δεδομένα αυτά μπορεί να προέρχονται από εξωτερικές πηγές ή να συλλέγονται από εσωτερικές διαδικασίες την εταιρείας. Τα συστήματα επιχειρηματικής ευφυΐας στοχεύουν στη συγχώνευση και επεξεργασία, τόσο των εσωτερικών όσο και των εξωτερικών δεδομένων, και στην ανακάλυψη πολύτιμης πληροφορίας μέσω της οποίας θα γίνει η λήψη αποφάσεων. 5
Η εξόρυξη δεδομένων παρέχει στο σύγχρονο αναλυτή πρωτόγνωρες δυνατότητες, οι οποίες του επιτρέπουν να επεξεργαστεί τους τεράστιους όγκους των αποθηκευμένων δεδομένων και να αντλήσει την απαραίτητη πληροφορία, ώστε να τη χρησιμοποιήσει μετέπειτα για τη λήψη αποφάσεων. Επίσης, προσεγγίζει το πρόβλημα από όλες τις πλευρές του, παρέχοντας μεθοδολογίες για όλα τα στάδια της ανακάλυψης της γνώσης, από την αρχική συγκέντρωση και προεπεξεργασία των δεδομένων μέχρι την οπτικοποίηση των προτύπων και τη διατύπωση των τελικών συμπερασμάτων. Συμπερασματικά, η φύση της διαδικασίας λήψης επιχειρηματικών αποφάσεων, κυρίως σε στρατηγικό επίπεδο, η οποία περιλαμβάνει τη διαχείριση της αβεβαιότητας, σε συνδυασμό με τις νέες προκλήσεις της παγκοσμιοποιημένης οικονομίας, κατέστησαν επιτακτική την ανάγκη ποιοτικής και έγκαιρης πληροφόρησης. Ταυτόχρονα, η ολοσχερής διείσδυση της πληροφορικής στην καθημερινότητα του ανθρώπου, παρείχε τα αναγκαία δεδομένα, ενώ οι προηγμένες μεθοδολογίες ανάλυσης έδωσαν τη δυνατότητα της επεξεργασίας τους και την εξαγωγή της χρήσιμης πληροφορίας. Συμπεραίνουμε, λοιπόν, ότι οι παραπάνω παράγοντες οδήγησαν στην άνθιση της επιχειρηματικής ευφυΐας και στην εκτεταμένη χρήση της κατά τη λήψη αποφάσεων[7]. Εφαρμογές επιχειρηματικής ευφυΐας Σήμερα, είναι εκτεταμένη η χρήση της επιχειρηματικής ευφυΐας σε ένα ευρύ φάσμα εφαρμογών, οι οποίες συναντώνται στις καθημερινές διεργασίες μιας επιχείρησης και στοχεύουν στην αύξηση της αποδοτικότητας και παραγωγικότητάς τους. Μερικές βασικές εφαρμογές είναι οι εξής[3][6][7]: Διαχείριση Αλυσίδας Προμηθειών. Τα συστήματα επιχειρηματικής ευφυΐας παρέχουν αναλυτικές πληροφορίες σχετικά με τα επίπεδα αποθεμάτων κατά μήκος της αλυσίδας των προμηθειών, εξασφαλίζοντας καλύτερη διαχείριση και αύξηση στη ροή εσόδων, δαπανών και ικανοποίησης των πελατών. Η επιχειρηματική ευφυΐα βρίσκει, επίσης, εφαρμογή στην επιλογή προμηθευτών, μέσω της ανάλυσης των ιστορικών στοιχείων τους ως προς την ποιότητα των προϊόντων και υπηρεσιών, τις τιμολογιακές πολιτικές, τους χρόνους παράδοσης, τη συνέπεια και τις προσφορές τους. Επίσης, αξιοποιούνται και εξωτερικά στοιχεία σχετικά με τους υποψήφιους προμηθευτές, που να 6
αφορούν την επιχειρηματική δυναμική τους, τη χρηματοοικονομική τους κατάσταση, κλπ. Διαχείριση Κινδύνου. Προκειμένου να εκτιμηθούν αποτελεσματικά οι κίνδυνοι που εμπεριέχουν οι επιχειρηματικές αποφάσεις, η επιχειρηματική ευφυΐα παρέχει τα μέσα μέσω των οποίων αναλύονται τα ιστορικά δεδομένα και δημιουργούνται τα προφίλ κινδύνου των πελατών. Τα προφίλ αυτά αξιολογούνται με σκοπό να ανιχνευθούν οι ενδεχόμενοι επιχειρηματικοί κίνδυνοι. Διαχείριση Προϊόντων. Ένας βασικός στόχος των επιχειρήσεων στον τομέα παραγωγής προϊόντων είναι η μείωση των χρόνων παραγωγής, ώστε η διαθεσιμότητα των προϊόντων τους να συμβαδίζει με τις ανάγκες της αγοράς και να επιτυγχάνεται γρήγορη αύξηση των κερδών τους. Οικονομικοί Έλεγχοι. Μέσω της επιχειρηματικής ευφυΐας τα οικονομικά περιθώρια βελτιώνονται και οι δαπάνες μειώνονται. Τα συστήματα επιχειρηματικής ευφυΐας παρέχουν τη δυνατότητα ελέγχου της κερδοφορίας της επιχείρησης τόσο συνολικά όσο και ανά τακτά χρονικά διαστήματα, ανά γεωγραφική περιοχή, ανά κατηγορία προϊόντων, ανά αγοραστικό κοινό, κλπ, ώστε να εντοπίζονται με αυτόν τον τρόπο η δυναμική της αγοράς, οι νέες τάσεις και οι ευκαιρίες που ανακύπτουν. Η διοίκηση κάθε επιχείρησης διαχειρίζεται αποτελεσματικά το κεφάλαιο κίνησης μέσω της παρακολούθησης των εσόδων και εξόδων. Επίσης, η τρέχουσα κατάσταση της επιχείρησης συγκρίνεται με ιστορικά στοιχεία που έχουν συλλεχθεί από προηγούμενα έτη, καθώς και με συγκεκριμένους οικονομικούς στόχους, ώστε να παρέχεται μία ολοκληρωμένη εικόνα για την πορεία της επιχείρησης και τις χρηματοοικονομικές επιδόσεις της. Διαχείριση και έλεγχος για απάτες. Το γεγονός ότι υπάρχει πρόσβαση σε πληθώρα λεπτομερών πληροφοριών παρέχει στην επιχειρηματική ευφυΐα τη δυνατότητα να αναπτύσσει τεχνικές για την ανίχνευση παράνομων ενεργειών, μέσω της ανάλυσης προτύπων. Πωλήσεις. Ο τομέας των πωλήσεων παρακολουθείται και ελέγχεται από τα συστήματα επιχειρηματικής ευφυΐας, γεγονός που συντελεί στην ενίσχυση της 7
ανταγωνιστικής δράσης των επιχειρήσεων μέσα στις αγορές. Η ανάλυση των στοιχείων ξεκινά από το στάδιο της πρώτης επαφής με τους εκάστοτε πελάτες και ολοκληρώνεται όταν πραγματοποιείται η πώληση. Τα στοιχεία που συλλέγονται συγκρίνονται με τους οικονομικούς στόχους που έχουν τεθεί και αξιολογείται η πορεία των πωλήσεων, ώστε να ληφθούν κατάλληλα μέτρα και να εκτελεσθούν οι απαραίτητες ενέργειες. Μέσω αυτής της ανάλυσης είναι δυνατό να αναδυθούν και νέες ευκαιρίες. Επίσης, η ανάλυση τόσο των ιστορικών όσο και άλλων στοιχείων επιτρέπει να προβλεφθεί η εικόνα των μελλοντικών πωλήσεων με σχετική ακρίβεια. Πέρα από την ανάλυση των πωλήσεων, μελετάται και η δυναμική του τμήματος πωλήσεων. Η ανάλυση των στοιχείων πραγματοποιείται σε διάφορα επίπεδα, όπου εμπεριέχονται ακόμη και οι ατομικές επιδόσεις των πωλητών. Η διοίκηση είναι σε θέση να εντοπίσει τόσο τα ισχυρά όσο και τα αδύναμα σημεία και, στη συνέχεια, να αξιοποιήσει αυτήν την πληροφορία και να εκτελέσει τις απαραίτητες ενέργειες, ώστε να εφαρμοστούν οι βέλτιστες πρακτικές και να αντιμετωπισθούν τα αναδυόμενα προβλήματα. Μάρκετινγκ. Βασικός στόχος του τομέα του μάρκετινγκ είναι η επεξεργασία των στοιχείων που αφορούν τους πελάτες και η εξαγωγή πληροφορίας που θα χρησιμοποιηθεί για την οργάνωση των καμπανιών. Σε αυτό το σημείο έρχεται να συνεισφέρει η επιχειρηματική ευφυΐα, η οποία παρέχει τα μέσα για την κατανόηση της αγοραστικής συμπεριφοράς των καταναλωτών και την αναγνώριση των αναγκών και προτιμήσεών τους. Επιπλέον, με τη χρήση των τεχνικών επιχειρηματικής ευφυΐας, εντοπίζονται κατηγορίες πελατών, που χαρακτηρίζονται από όμοια χαρακτηριστικά και συμπεριφορές. Ο χώρος, λοιπόν, του μάρκετινγκ αξιοποιεί αυτήν την πληροφορία, ώστε να οργανώσει στοχευμένες διαφημιστικές εκστρατείες. Οι διαφημιστικές πρακτικές βελτιστοποιούνται μέσω της σύγκρισης των πραγματικών αποτελεσμάτων και των μεγεθών που έχουν προκύψει από τον προϋπολογισμό που διενεργεί η εταιρεία.. 8
Συστήματα επιχειρηματικής ευφυΐας Τα συστήματα επιχειρηματικής ευφυΐας μετουσιώνουν τα συλλεγόμενα δεδομένα σε χρήσιμη πληροφορία, η οποία, στη συνέχεια, μετατρέπεται σε γνώση, μέσω της επεξεργασίας και των αναλύσεων. Έτσι, μερικές από τις εργασίες που εκτελούνται είναι[3]: Η δημιουργία προβλέψεων μέσω της χρήσης ιστορικών δεδομένων καθώς και παρελθοντικών επιδόσεων και εκτιμήσεων. Ανάλυση «What if» για την αξιολόγηση των επιπτώσεων που επιφέρουν οι αλλαγές και τα εναλλακτικά σενάρια. Πρόσβαση στα δεδομένα, μέσω ad-hoc δικτύων, για την υποβολή ερωτημάτων και τη λήψη απαντήσεων. Τα συστήματα επιχειρηματικής ευφυΐας αποτελούν εξειδικευμένα πληροφοριακά συστήματα, τα οποία παρέχουν πληροφορία, η οποία έχει εξαχθεί από ποιοτικά και συγκεντρωτικά δεδομένα. Τα δεδομένα τροφοδοτούνται σε ειδικό λογισμικό, όπου διεξάγονται υψηλού επιπέδου αναλύσεις με τη χρήση αλγορίθμων εξόρυξης δεδομένων. Τα συστήματα αυτά συμβάλλουν σε συνεχείς βελτιώσεις της ποιότητας της πληροφορίας, καθώς παρέχουν δυνατότητες άμεσης πρόσβασης στην πληροφορία, εύκολης υποβολής ερωτημάτων στο σύστημα, σύνταξης αναφορών και διεξοδικής ανάλυσης των δεδομένων. Επομένως, από όσα έχουν αναφερθεί παραπάνω, μπορούμε να κατανοήσουμε τους λόγους που έχουν οδηγήσει τα συστήματα επιχειρηματικής ευφυΐας στην κορυφή του ενδιαφέροντος του επιχειρηματικού κόσμου. Σύμφωνα με σύγχρονες μελέτες και έρευνες, η επιχειρηματική ευφυΐα κατέχει μία από τις κορυφαίες θέσεις των τεχνολογικών προτεραιοτήτων των μεγαλύτερων επιχειρήσεων παγκοσμίως. Οι σημαντικότερες επιχειρήσεις πληροφορικής, όπως είναι η Oracle, η IBM, η Microsoft και η SAP, παρουσιάζουν έντονη δραστηριοποίηση και πρωταγωνιστούν στο χώρο, ενώ, ταυτόχρονα, έχουν κάνει την είσοδό τους και άλλες εξειδικευμένες επιχειρήσεις, όπως η Qlik και η Tableau, οι οποίες διεκδικούν δυναμικά σημαντικά μερίδια της νέας αυτής αγοράς. Οι δημιουργοί λογισμικού προσφέρουν συστήματα 9
επιχειρηματικής ευφυΐας που εφοδιάζουν τους οργανισμούς με τις δεξιότητες της μάθησης, της διαισθητικής αντίληψης, της αφαιρετικής σκέψης, της πρόβλεψης τάσεων και μελλοντικών συμβάντων, της σχεδίασης και της καινοτομίας. Η εξαγόμενη πληροφορία γίνεται γνώση, η οποία, αφού αξιοποιηθεί κατάλληλα, χρησιμοποιείται για την οργάνωση δράσεων, μέσω των οποίων καθορίζονται οι επιχειρηματικοί στόχοι και δρομολογείται η αποτελεσματική επίτευξή τους. Τα συστήματα επιχειρηματικής ευφυΐας συμβάλλουν καθοριστικά στην αναβάθμιση των διαδικασιών λήψης αποφάσεων. Προκειμένου να επιτευχθεί αυτό, κρίνεται αναγκαίο να γνωρίζουν τα στελέχη των επιχειρήσεων τα χαρακτηριστικά και τον τρόπο λειτουργίας των συστημάτων επιχειρηματικής ευφυΐας καθώς και να κατανοούν τις μεθόδους, τις δυνατότητες και τους περιορισμούς αυτών των συστημάτων. Τα συστήματα επιχειρηματικής ευφυΐας επιτρέπουν στις επιχειρήσεις να αναλύουν και να χρησιμοποιούν τα δεδομένα τους για τη λήψη αποφάσεων. Η επιχειρηματική ευφυΐα χρησιμοποιείται για το σχεδιασμό μακροπρόθεσμης στρατηγικής, τη βραχυπρόθεσμη ανάλυση και τη διαχείριση των επιχειρησιακών δραστηριοτήτων σε καθημερινή βάση. Οι βασικές εξελίξεις στη χρήση των συστημάτων ΕΕ είναι [3]: Τα χρονικά πλαίσια των στρατηγικών των επιχειρήσεων (προϋπολογισμός και προβλέψεις) συρρικνώνονται, για να επιτρέψουν στις επιχειρήσεις να ανταποκρίνονται περισσότερο στις άμεσες ανάγκες τους και στις απαιτήσεις των πελατών. Οι εφαρμογές ανάλυσης παρέχουν προληπτικά επιχειρηματική νοημοσύνη στους χρήστες. Σε πολλές περιπτώσεις, αυτές οι εφαρμογές δεν παρέχουν μόνο πληροφορίες για τις δραστηριότητες της επιχείρησης, αλλά συγκρίνουν την πραγματική απόδοσή της με τα επιχειρηματικά σχέδια, τους προϋπολογισμούς και τις προβλέψεις. Τα dashboards είναι μία μέθοδος παρουσίασης και οπτικοποίησης της επιχειρηματικής ευφυΐας στους χρήστες. Πρόκειται για ψηφιακούς πίνακες που παρέχουν ενημέρωση της τρέχουσας, αλλά και τις παρελθοντικής κατάστασης των επιδόσεων μίας επιχείρησης, και, συνήθως, προσφέρουν 10
διασυνδέσεις μέσω των οποίων δίνεται η δυνατότητα στους χρήστες να δράσουν άμεσα. Μέσω των επιχειρηματικών κανόνων, οι εταιρείες εφαρμόζουν εσωτερικούς ελέγχους, όπου η ύπαρξη ανατροφοδότησης επιτρέπει τη βελτιστοποίηση των λειτουργιών της επιχείρησης. Η διαδικασία αυτή υποβοηθά την υποστήριξη αυτοματοποιημένων αποφάσεων, προτάσεων και δράσεων. Η διαθεσιμότητα επιχειρηματικών πληροφοριών σε πραγματικό χρόνο γίνεται μία σημαντική απαίτηση, καθώς οι οργανισμοί πρέπει να λαμβάνουν τα άμεσα αποτελέσματα της επιχειρηματικής ευφυΐας, ώστε να διαχειριστούν και να εκτελέσουν καθημερινές επιχειρηματικές δραστηριότητες. Δομικά επίπεδα συστημάτων επιχειρηματικής ευφυΐας Τα συστήματα επιχειρηματικής ευφυΐας δομούνται από διαδοχικά επίπεδα, συνθέτοντας μία πυραμίδα [7]. Στη βάση της πυραμίδας βρίσκονται τα αρχικά δεδομένα, που βρίσκονται ακόμη σε ακατέργαστη μορφή, ενώ στην κορυφή της εντοπίζεται η διαδικασία της λήψης των τελικών αποφάσεων. Παρατηρούμε ότι τα διαφορετικά επίπεδα συνθέτουν μία ακολουθία ενεργειών η οποία έχει σαν αποτέλεσμα τη λήψη της τελικής απόφασης. Παρατηρούμε ότι όσο μεταβαίνουμε σε ανώτερο επίπεδο στην πυραμίδα, τόσο αυξάνει η δυνατότητα υποστήριξης των επιχειρηματικών αποφάσεων. Η πυραμίδα των συστημάτων επιχειρηματικής ευφυΐας φαίνεται στην παρακάτω εικόνα: 11
Εικόνα 3 Η πυραμίδα των συστημάτων επιχειρηματικής ευφυΐας Πηγή: [7] 1.5.1 Πηγές δεδομένων Στη βάση της πυραμίδας εντοπίζονται οι πηγές από τις οποίες συλλέγονται τα αρχικά δεδομένα[7]. Στις περισσότερες περιπτώσεις, τα δεδομένα αυτά προέρχονται από συστήματα που διαχειρίζονται τις επιχειρησιακές λειτουργίες, όπως είναι για παράδειγμα τα συστήματα ERP, καθώς και από τις βάσεις δεδομένων, που αποτελούν βασικό σύστημα κάθε οργανωμένης επιχείρησης. Άλλες πηγές δεδομένων είναι οι servers των επιχειρήσεων, οι εσωτερικές καταγραφές ή και πηγές που βρίσκονται στο εξωτερικό περιβάλλον. Τα δεδομένα αυτά είναι, ωστόσο, ακατάλληλα για τη λήψη αποφάσεων, αν και συνεισφέρουν στην αποτελεσματική οργάνωση των καθημερινών διαδικασιών της επιχείρησης. Η ακαταλληλότητα των δεδομένων οφείλεται στο γεγονός ότι είναι υπερβολικά αναλυτικά και, επομένως, δεν μπορούν να χρησιμοποιηθούν αξιόπιστα για επεξεργασία και εξαγωγή συμπερασμάτων. Επίσης, τα δεδομένα συλλέγονται από διαφορετικές πηγές, οπότε κρίνεται αναγκαία η συγχώνευσή τους πριν τη μετέπειτα επεξεργασία τους. 1.5.2 Αποθήκες δεδομένων Στο επόμενο επίπεδο της πυραμίδας εντοπίζονται οι αποθήκες δεδομένων, οι οποίες στην ουσία αποτελούν βάσεις δεδομένων που περιέχουν σε οργανωμένη μορφή τα δεδομένα, αφού πρώτα έχει γίνει η ενοποίηση και προεπεξεργασία αυτών. Τα 12
δεδομένα αυτά θα χρησιμοποιηθούν για την ανάλυση και την εξαγωγή συμπερασμάτων. Τα δεδομένα που είναι αποθηκευμένα στην αποθήκη φορτώνονται από το λειτουργικό σύστημα [17] και μπορεί να περάσουν μέσα από ένα λειτουργικό χώρο αποθήκευσης δεδομένων για τις πρόσθετες εργασίες, πριν χρησιμοποιηθούν στις αποθήκες δεδομένων για την υποβολή αναφορών. Στο επίπεδο αυτό εκτελούνται σε τακτά χρονικά διαστήματα οι εργασίες ETL (Extract, Transform, Load), οι οποίες αφορούν την εξαγωγή, το μετασχηματισμό και τη φόρτωση των δεδομένων στις αποθήκες. Η εξαγωγή (extract) είναι η διαδικασία συλλογής των δεδομένων από διαφορετικές πηγές, έτσι ώστε να μπορούν να χρησιμοποιηθούν για τη λήψη αποφάσεων. Τα δεδομένα που εξάγονται από διαφορετικές πηγές τοποθετούνται προσωρινά σε περιοχές, οι οποίες ονομάζονται περιοχές σταδιοποίησης[6]. Στη συνέχεια, εκτελείται η διαδικασία μετασχηματισμού (transform), όπου τα δεδομένα καθαρίζονται, ώστε να αφαιρεθεί μη χρήσιμη και ανακριβής πληροφορία. Η φόρτωση (load) είναι το τελικό βήμα της ETL διαδικασίας, όπου τα δεδομένα φορτώνονται σε αρχείο καταγραφής [2]. Η δημιουργία και η συντήρηση μιας αποθήκης δεδομένων είναι µία πολύπλοκη διαδικασία, καθώς πολλές διαφορετικές προσεγγίσεις είναι εφικτές. Αρκετοί οργανισμοί επιδιώκουν να δημιουργήσουν µία αποθήκη δεδομένων που θα περιέχει αναλυτικά δεδομένα από όλες τις δραστηριότητες του οργανισμού. Πρόκειται για ένα σύνθετο εγχείρημα που απαιτεί μεγάλο κόστος προκειμένου να επιτευχθεί. Μία άλλη λύση είναι η δημιουργία επιμέρους συλλογών δεδομένων (data marts), µε βασικό κριτήριο το αντικείμενο των εφαρμογών από τις οποίες προέρχονται ή το τμήμα του οργανισμού που τις χρησιμοποιεί. Πρόκειται για πιο ευέλικτα συστήματα στη δημιουργία τους, τα οποία, όμως, δεν παρέχουν ενιαία λύση, δημιουργώντας προβλήματα σε περίπτωση μακροχρόνιας χρήσης τους. 1.5.3 Διερεύνηση δεδομένων Στο επίπεδο αυτό διενεργείται η αρχική επεξεργασία των δεδομένων [7]. Η διαδικασία εκκινεί με το χρήστη να υποβάλλει ερωτήματα (queries) στη βάση δεδομένων, οπότε, στη συνέχεια, εξάγονται οι απαντήσεις και ο χρήστης συντάσσει αναφορές. Στις αναφορές τα δεδομένα μπορεί να έχουν τη μορφή αριθμητικών τιμών, πινάκων και γραφημάτων, μέσω των οποίων οπτικοποιείται η πληροφορία και 13
αποδίδεται πιο παραστατικά και κατανοητά. Επίσης, τα δεδομένα μπορεί να υποστούν μία αρχική στατιστική επεξεργασία (υπολογισμός μέσου όρου, τυπικής απόκλισης, κτλ), προκειμένου να επιτευχθεί η κανονικοποίηση των αντίστοιχων τιμών τους. Χαρακτηριστικό αυτού του επιπέδου είναι ότι ο χρήστης, αρχικά, προβαίνει σε υποθέσεις τις οποίες, στη συνέχεια, επιβεβαιώνει με τη χρήση των εργαλείων ανάλυσης. 1.5.4 Εξόρυξη δεδομένων Στο τέταρτο στάδιο εκτελείται υψηλού επιπέδου ανάλυση των δεδομένων, όπου επιστρατεύονται πιο προηγμένες τεχνικές. Με τον όρο εξόρυξη δεδομένων [15] εννοούμε την εξεύρεση μιας ενδιαφέρουσας, αυτονόητης, μη προφανούς και πιθανόν χρήσιμης πληροφορίας από μεγάλες βάσεις δεδομένων, όπου χρησιμοποιούνται συγκεκριμένες τεχνικές σε συνδυασμό με τις αρχές της στατιστικής, της τεχνητής νοημοσύνης, της μηχανικής μάθησης και των συστημάτων βάσεων δεδομένων. Στο επόμενο κεφάλαιο θα γίνει λεπτομερέστερη αναφορά στο πεδίο της εξόρυξης δεδομένων. Στόχος της εξόρυξης δεδομένων [15]είναι η πληροφορία που θα εξαχθεί και τα πρότυπα που θα προκύψουν να έχουν δομή κατανοητή προς τον άνθρωπο, έτσι ώστε να τον βοηθήσουν να πάρει τις κατάλληλες αποφάσεις. Αυτό επιτυγχάνεται με την ανάλυση μεγάλων ποσοτήτων δεδομένων, όπου είναι δυνατόν να εξαχθούν πρότυπα, όπως ομάδες από εγγραφές δεδομένων (συσταδοποίηση), ασυνήθιστες εγγραφές (εντοπισμός ανωμαλιών) και εξαρτήσεις (κανόνες συσχετίσεων). Αυτά τα πρότυπα, τελικά, μπορούν να θεωρηθούν ως μία περιγραφή των δεδομένων εισαγωγής και να χρησιμοποιηθούν για περαιτέρω ανάλυση. Οι μέθοδοι ανάλυσης συστάδων (cluster analysis) επιτρέπουν τη δημιουργία ομάδων από αντικείμενα που μοιάζουν μεταξύ τους. Η ανάλυση συστάδων μπορεί να εφαρμοστεί σε περιπτώσεις όπου θέλουμε να ομαδοποιήσουμε το αγοραστικό κοινό ως προς συγκεκριμένα χαρακτηριστικά. Οι μέθοδοι αυτού του επιπέδου έχουν το βασικό πλεονέκτημα ότι ο χρήστης δε χρειάζεται να ορίσει αρχικές υποθέσεις. Αρκεί να τροφοδοτήσουμε τους αλγορίθμους με τα δεδομένα, οπότε αυτοί, εκτελώντας έναν αριθμό βημάτων, παράγουν την έξοδο, που είναι, συνήθως, ένα μοντέλο. 14
1.5.5 Βελτιστοποίηση Από τις αναλύσεις των προηγούμενων επιπέδων της πυραμίδας προκύπτουν διάφορες ενδεχόμενες λύσεις, εκ των οποίων ο χρήστης πρέπει να επιλέξει την πιο αντιπροσωπευτική και, άρα, βέλτιστη λύση. Υπάρχουν διάφορες μέθοδοι για την επιλογή της βέλτιστης απόφασης, μεταξύ των οποίων αξίζει να αναφερθούν ο γραμμικός προγραμματισμός και οι ευρετικοί αλγόριθμοι. Ο γραμμικός προγραμματισμός αποτελεί ένα μαθηματικό μοντέλο στο οποίο γίνεται η βελτιστοποίηση πραγματικών μεταβλητών, το πεδίο τιμών των οποίων οριοθετείται από γραμμικούς περιορισμούς που αποτελούν συναρτήσεις αυτών των μεταβλητών. Οι ευρετικοί αλγόριθμοι είναι τεχνικές που βρίσκουν μία προσέγγιση της βέλτιστης λύσης ενός προβλήματος, όταν οι κλασικές μέθοδοι αδυνατούν να βρουν οποιαδήποτε λύση αυτού του προβλήματος. Με βάση το πλήθος των πιθανών λύσεων, τα προβλήματα που πρέπει να επιλυθούν χωρίζονται σε τρεις κατηγορίες [7]. Στην πρώτη κατηγορία ανήκουν τα διχοτόμα προβλήματα τα οποία μπορούν να έχουν δύο δυνατές λύσεις, όπως για παράδειγμα, έγκριση του δανείου ή απόρριψη της αίτησης. Επιπλέον, τα προβλήματα πολλαπλών λύσεων είναι δυνατό να έχουν έναν περιορισμένο αριθμό ενδεχόμενων λύσεων, όπως για παράδειγμα στην περίπτωση επιλογής ενός προμηθευτή μέσα από ένα σύνολο υποψήφιων προμηθευτών. Τέλος, υπάρχουν προβλήματα απεριόριστου αριθμού ενδεχόμενων λύσεων. 1.5.6 Λήψη αποφάσεων Στην κορυφή της πυραμίδας τοποθετείται η διαδικασία της λήψης αποφάσεων. Ωστόσο, θα πρέπει να τονιστεί ότι οι τεχνικές και τα συστήματα που αναφέρονται παραπάνω έχουν ως στόχο να βοηθούν τον άνθρωπο να λαμβάνει αποφάσεις, μέσω μιας αλληλεπιδραστικής διαδικασίας. Σε καμία περίπτωση δεν πρέπει να λαμβάνεται η απόφαση από τον υπολογιστή, αλλά από τον άνθρωπο, ο οποίος επιστρατεύοντας 15
την κρίση του θα πρέπει να πάρει την τελική απόφαση και να φέρει την ευθύνη αυτής. Λογισμικό επιχειρηματικής ευφυΐας Οι επιχειρήσεις, μέσω κατάλληλων εργαλείων και εξειδικευμένου λογισμικού, αξιοποιούν τις προχωρημένες δυνατότητες που τους παρέχει η επιχειρηματική ευφυΐα. Η επιλογή του κατάλληλου λογισμικού επιχειρηματικής ευφυΐας είναι καθοριστικής σημασίας, προκειμένου να μπορέσει ένας οργανισμός να επωφεληθεί από τα θετικά αποτελέσματα που επιφέρει η εφαρμογή της επιχειρηματικής ευφυΐας. Προκειμένου να επιλεγεί το κατάλληλο λογισμικό από μία επιχείρηση, χρησιμοποιείται μία μεθοδολογία, όπου, μέσω μίας σειράς βημάτων, αποφασίζεται, τελικά, ποιο εργαλείο καλύπτει καλύτερα τις ανάγκες της επιχείρησης. Η μεθοδολογία αυτή ονομάζεται Κύκλος Απόφασης (Decision Cycle) και τα επιμέρους βήματά της περιγράφονται στις επόμενες γραμμές [3]. Καθορισμός επιχειρηματικών στόχων. Αρχικά, θα πρέπει να καθοριστούν οι στόχοι που έχουν τεθεί προς επίτευξη και ο τρόπος με τον οποίο επιθυμεί η επιχείρηση να επωφεληθεί. Καθορισμός επιχειρηματικών απαιτήσεων. Η επιχείρηση θα πρέπει να καθορίσει τις απαιτήσεις της, ώστε να προσδιοριστούν και οι προς επίτευξη στόχοι της. Καθορισμός της κοινότητας χρηστών. Θα πρέπει να οριστούν οι χρήστες που εμπλέκονται στην επίτευξη των στόχων της επιχείρησης. Καθορισμός λειτουργικών απαιτήσεων. Στο στάδιο αυτό καθορίζεται η λειτουργικότητα που επιθυμεί να παρέχει η επιχείρηση μέσω των προϊόντων και υπηρεσιών της. Καθορισµός λειτουργικών δυνατοτήτων. Ορίζονται οι λειτουργικές δυνατότητες που πρέπει να παρέχονται από την επιχείρηση και οι οποίες θα στοχεύουν στην ικανοποίηση των αναγκών των χρηστών. Δημιουργία λίστας των κυριότερων παρόχων λογισμικού. Στο στάδιο αυτό επιλέγονται οι πάροχοι που εξυπηρετούν καλύτερα τις λειτουργικές απαιτήσεις και δυνατότητες που έχει ορίσει η επιχείρηση. 16
Καθορισµός επιχειρηµατικών και τεχνολογικών κριτηρίων. Προσδιορίζονται τα κριτήρια με τα οποία η επιχείρηση θα αξιολογήσει τους παρόχους από τη λίστα που έχει δημιουργήσει. Αξιολόγηση και επιλογή παρόχου. Στο στάδιο αυτό αξιολογούνται οι πάροχοι με βάση τα κριτήρια που αναφέρθηκαν παραπάνω και επιλέγεται, τελικά, ο πάροχος λογισμικού που καλύπτει καλύτερα τις ανάγκες της επιχείρησης. Ανάλογα με το λογισμικό που παρέχουν, οι επιχειρήσεις διακρίνονται σε δύο κατηγορίες: εξειδικευμένες επιχειρήσεις που εστιάζουν στην επιχειρηματική ευφυΐα (όπως οι Business Objects, Cognos, Hyperion Solutions, Information Builders, MicroStrategy) και επιχειρήσεις που παρέχουν ένα εύρος εφαρμογών (όπως οι Microsoft, Oracle, SAP και SAS Institute). Οι περισσότερες παρέχουν πλήρεις σουίτες (suites) και πλατφόρµες (platforms) επιχειρηµατικής ευφυΐας [1]. Κατά την επιλογή του λογισμικού επιχειρηματικής ευφυΐας, θα πρέπει, αρχικά, να διασφαλιστεί ότι αυτό είναι συμβατό με την αποθήκη δεδομένων της επιχείρησης. Επειδή η κατά παραγγελία κατασκευή, σχεδίαση και ενσωμάτωση ενός μοντέλου για συστήματα επιχειρηματικής ευφυΐας είναι χρονοβόρα και δαπανηρή, ορισμένες επιχειρήσεις καταφεύγουν σε διαδικτυακές υπηρεσίες, όπου το λογισμικό τοποθετείται από έναν πάροχο (provider) και ενοικιάζεται για µία συγκεκριμένη περίοδο, όπου η χρήση του μπορεί να γίνει από ορισμένους χρήστες της επιχείρησης (on demand). Οφέλη επιχειρηματικής ευφυΐας στις επιχειρήσεις Οι συνεχείς και ραγδαίες αλλαγές καθιστούν αναγκαία τη χρήση της επιχειρηματικής ευφυΐας, καθώς οι καταναλωτές απαιτούν άμεση και αποτελεσματική εξυπηρέτηση από τις επιχειρήσεις[3]. Προκειμένου να καταφέρουν οι επιχειρήσεις να παραμένουν ανταγωνιστικές, πρέπει να πληρούν ή ακόμη και να υπερβαίνουν τις προσδοκίες των καταναλωτών. Για να μπορέσουν να ανταποκριθούν στις σύγχρονες τάσεις και μελλοντικές εξελίξεις, θα πρέπει να βασίζονται ολοένα περισσότερο στα συστήματα επιχειρηματικής ευφυΐας. Έτσι, οι δυνατότητες των συστημάτων επιχειρηματικής ευφυΐας θα πρέπει να αυξάνονται με τέτοιον τρόπο, ώστε αυτός να είναι ανάλογος των αυξανόμενων προσδοκιών των καταναλωτών. 17
Η επιχειρηματική ευφυΐα δίνει τη δυνατότητα στους οργανισμούς να λαμβάνουν εύστοχες επιχειρηματικές αποφάσεις οι οποίες μπορούν να τους προσφέρουν πλεονέκτημα αναφορικά με τους ανταγωνιστές τους. Ιδιαίτερα, όταν οι επιχειρήσεις είναι σε θέση να λαμβάνουν πληροφορίες από το εξωτερικό περιβάλλον, μπορούν να προβλέψουν με ακρίβεια τις μελλοντικές τάσεις και οικονομικές συνθήκες. Ο απώτερος στόχος της επιχειρηματικής ευφυΐας είναι να οδηγεί σε βελτίωση της ποιότητας των πληροφοριών. Η επιχειρηματική ευφυΐα αποκαλύπτει: Τη θέση της επιχείρησης σε σχέση με τους ανταγωνιστές της. Τις αλλαγές στη συμπεριφορά του αγοραστικού κοινού. Τις εκάστοτε συνθήκες της αγοράς, τις μελλοντικές τάσεις και πληροφορίες δημογραφικού και οικονομικού ενδιαφέροντος. Το κοινωνικό, νομικό και πολιτικό περιβάλλον. Τις πρακτικές των ανταγωνιστικών επιχειρήσεων. Οι επιχειρήσεις συνειδητοποιούν ότι σε αυτό το ανταγωνιστικό και συνεχώς μεταβαλλόμενο επιχειρηματικό περιβάλλον, θα πρέπει να μπορούν να ανταποκριθούν και να προσαρμοστούν στην αλλαγή όσο το δυνατόν πιο γρήγορα και αποτελεσματικά. Η επιχειρηματική ευφυΐα, λοιπόν, παρέχει στις επιχειρήσεις τη δυνατότητα να χρησιμοποιούν τις απαραίτητες πληροφορίες, ώστε να ανταποκρίνονται άμεσα στις επερχόμενες αλλαγές. Στις παρακάτω γραμμές συνοψίζονται τα βασικά οφέλη που επιφέρει η εφαρμογή των συστημάτων επιχειρηματικής ευφυΐας [7]. Τα διαθέσιμα δεδομένα και τα εξειδικευμένο λογισμικό συμβάλλουν στην κατανόηση των αναγκών των πελατών και της αγοράς, των τακτικών των ανταγωνιστών, των διαθέσιμων πόρων και της αλυσίδας των προμηθειών. Τα συστήματα επιχειρηματικής ευφυΐας χρησιμοποιούν τις κατάλληλες τεχνολογίες, ώστε να αναδείξουν την ουσιαστική πληροφορία με έγκυρο και αξιόπιστο τρόπο. Η διοίκηση του οργανισμού λαμβάνει αναβαθμισμένη πληροφόρηση, γεγονός που οδηγεί στη λήψη, αν όχι βέλτιστων, βελτιωμένων αποφάσεων. 18
Τα υψηλά στελέχη των επιχειρήσεων καταστρώνουν τις στρατηγικές τους με βάση την επιχειρηματική ευφυΐα. Αντλώντας ποιοτική και στοχευμένη πληροφόρηση, η διοίκηση αξιοποιεί τα συστήματα επιχειρηματικής ευφυΐας, ώστε να καθορίσει τους στόχους της και να λάβει στρατηγικές αποφάσεις. Καθώς η εξασφάλιση συγκριτικού πλεονεκτήματος αποτελεί μόνιμη επιδίωξη κάθε επιχείρησης, η επιχειρηματική ευφυΐα παρέχει τα κατάλληλα μέσα, ώστε η επιχείρηση να αυξήσει την ανταγωνιστικότητά της. Η λήψη βελτιωμένων αποφάσεων, η αύξηση της αποδοτικότητας και ο καθορισμός σωστών στρατηγικών στόχων οδηγούν σε συγκριτικό πλεονέκτημα και κατ επέκταση σε αυξημένη ανταγωνιστική δράση. Η κερδοφορία της επιχείρησης αυξάνεται, βελτιώνεται η αποδοτικότητά της και μειώνεται το κόστος. Αυτό οφείλεται στο γεγονός ότι υπάρχει πολύτιμη γνώση σχετικά με τη διαχείριση της εφοδιαστικής αλυσίδας την κατανόηση των αγορών, γεγονός που μπορεί να οδηγήσει σε αυξήσεις των πωλήσεων και των κερδών. Η βαθύτερη κατανόηση της αγοράς οδηγεί στην κατανόηση των τάσεων της αγοράς και την ανίχνευση νέων επιχειρηματικών ευκαιριών. Επιπλέον, μέσω των μεθόδων ανάλυσης πρόβλεψης (predictive analytics), επιτρέπεται η επεξεργασία ιστορικών δεδομένων και η διαχείριση και πρόβλεψη της ζήτησης. Οι σημερινές επιχειρήσεις έχουν επενδύσει πολύ μεγάλα ποσά σε πληροφοριακά συστήματα. Τα δεδομένα αυτών των συστημάτων έχουν αναδειχθεί ως πηγή πολύτιμης γνώσης όταν αξιοποιούνται με τη χρήση της επιχειρηματικής ευφυΐας. Περιορισμοί επιχειρηματικής ευφυΐας Πέρα από τα οφέλη που επιφέρει η ανάπτυξη συστημάτων επιχειρηματικής ευφυΐας, μπορεί να προκύψουν διάφορα προβλήματα και ενδεχόμενοι κίνδυνοι, που έχουν ανασχετική επιρροή στην εφαρμογή της επιχειρηματικής ευφυΐας, όπως περιγράφεται παρακάτω [7]: 19
Η αγορά, λειτουργία και συντήρηση των αποθηκών δεδομένων και συστημάτων επιχειρηματικής ευφυΐας έχουν υψηλό κόστος. Παράλληλα, πρέπει να δαπανηθούν μεγάλα ποσά για την αγορά εξοπλισμού και την πρόσληψη προσωπικού με τεχνογνωσία. Ένα από τα σημαντικότερα προβλήματα κατά την ανάπτυξη συστημάτων επιχειρηματικής ευφυΐας είναι η χαμηλή ποιότητα των αρχικών δεδομένων. Τα δεδομένα αυτά βρίσκονται διάσπαρτα σε διαφορετικές πηγές, χαρακτηρίζονται από ανομοιογένεια, έλλειψη δομής και, σε ορισμένες περιπτώσεις, μπορεί να περιέχουν λανθασμένη ή αντιφατική πληροφορία. Η τροφοδότηση του συστήματος με τέτοιου είδους δεδομένα θα οδηγήσει σε αναξιόπιστη πληροφόρηση, το γνωστό «garbage in, garbage out» στη γλώσσα των υπολογιστών. Επειδή τα συστήματα επιχειρηματικής ευφυΐας επικοινωνούν μεταξύ τους και ανταλλάσσουν δεδομένα, θα πρέπει να επιλυθούν ζητήματα συμβατότητας που μπορεί να προκύψουν. Η χρήση των συστημάτων επιχειρηματικής ευφυΐας έχει επιφέρει αλλαγές στον τρόπο λειτουργίας των οργανισμών, ωστόσο μπορεί να υπάρξει επιφύλαξη και δυσπιστία από ορισμένα εμπλεκόμενα στελέχη ως προς την αποτελεσματικότητά τους όσον αφορά τις επιχειρηματικές διαδικασίες. Ένα βασικό πρόβλημα που μπορεί να αναδυθεί είναι η δυσκολία επικοινωνίας και συνεννόησης μεταξύ των στελεχών και των ειδικών πληροφορικής. Τα στελέχη της επιχείρησης επικεντρώνονται στα επιχειρησιακά ζητήματα που είναι οικονομικής και διοικητικής φύσης, ενώ οι ειδικοί πληροφορικής αναλαμβάνουν τα τεχνικά προβλήματα που προκύπτουν. Οπότε, αρκετές φορές μπορεί να δημιουργηθούν προβλήματα συνεννόησης, καθώς η κάθε πλευρά εκτιμά τις καταστάσεις από τη δική της οπτική γωνία, με βάση το γνωστικό της πεδίο. Κάθε επιχείρηση θα πρέπει να είναι επανδρωμένη με προσωπικό κατάλληλα εκπαιδευμένο, με τεχνική κατάρτιση, ώστε να μπορεί να χειρίζεται τα σύγχρονα συστήματα. Επίσης, επιβάλλεται η συνεχής εκπαίδευση του 20
προσωπικού, ώστε να ανταποκρίνεται στις συνεχώς αυξανόμενες απαιτήσεις των συστημάτων επιχειρηματικής ευφυΐας. Έχει ήδη γίνει κατανοητό ότι ο άνθρωπος είναι ο τελικός υπεύθυνος για τη λήψη των αποφάσεων. Η χρήση των συστημάτων και οι αυτοματοποιημένες διαδικασίες που παρέχουν αυτά μπορεί να εμπνεύσουν υπερβολική εμπιστοσύνη στους χρήστες τους. Ωστόσο, τα στελέχη των επιχειρήσεων δεν πρέπει να βασίζονται στις προβλέψεις του συστήματος, αλλά να λαμβάνουν αποφάσεις με βάση την προσωπική τους κρίση και αντίληψη, στοιχεία που δε διαθέτουν οι υπολογιστές. 21
KEΦΑΛΑΙΟ 2 Η έννοια της εξόρυξης δεδομένων Εισαγωγικά στοιχεία Τα τελευταία χρόνια έχει ανθίσει ένας νέος κλάδος της επιστήμης της πληροφορικής, η εξόρυξη δεδομένων. Ο όρος «εξόρυξη δεδομένων» εμφανίστηκε τα τελευταία χρόνια, κατά τη δεκαετία του 90. Ο τομέας της εξόρυξης δεδομένων σχετίζεται με πολλούς άλλους τομείς, όπως τη στατιστική (statistics), την τεχνητή νοημοσύνη (artificial intelligence), τη μηχανική μάθηση (machine learning), τις βάσεις δεδομένων (databases), τις μηχανές αναζήτησης, τα συστήματα υποστήριξης αποφάσεων (decision support systems), τα συστήματα άμεσης ανάλυσης δεδομένων (OLAP) και της αναγνώρισης προτύπων (pattern recognition) [4]. Η εξόρυξη δεδομένων εκμεταλλεύεται τον τεράστιο όγκο των διαθέσιμων δεδομένων και καταφέρνει, μέσω της επεξεργασίας τους, να ανακαλύψει χρήσιμη γνώση [7]. Σήμερα, τα δεδομένα καταγράφονται και αποθηκεύονται με καταιγιστικούς ρυθμούς. Η έξαρση αυτού του φαινομένου οφείλεται στο γεγονός ότι παράγεται φθηνό και εξαιρετικά ισχυρό υλικό υπολογιστών, στην καθολική διείσδυση και ενσωμάτωση των νέων τεχνολογιών πληροφορικής σε όλους τους τομείς της σύγχρονης κοινωνίας και στην ευρύτατη χρήση του διαδικτύου. Ο ανθρώπινος νους έχει περιορισμένες αναλυτικές δυνατότητες, ανεπαρκείς για την αντιμετώπιση του μεγάλου όγκου των δεδομένων, οπότε η επεξεργασία των δεδομένων αυτών, χωρίς τη χρήση εξειδικευμένων εργαλείων, καθίσταται αργή, ανακριβής και αναξιόπιστη. Προηγούμενοι επιστημονικοί κλάδοι, όπως η στατιστική και η μηχανική μάθηση, δεν παρέχουν τη δυνατότητα διαχείρισης του τεράστιου όγκου των δεδομένων, ενώ ο κλάδος των βάσεων δεδομένων, ο οποίος είναι και ο κύριος αρμόδιος για την αποθήκευση μεγάλου όγκου δεδομένων, δεν είναι προσανατολισμένος στην ανάλυσή τους. Η εξόρυξη δεδομένων αντλεί μεθοδολογίες από διάφορους επιστημονικούς κλάδους. Αρχικά, ασχολείται με την επεξεργασία μεγάλου όγκου δεδομένων και, στη συνέχεια, 22
παρέχει μεθοδολογίες για όλα τα στάδια της ανακάλυψης γνώσης, από την αρχική συγκέντρωση και προεπεξεργασία των δεδομένων μέχρι και την οπτικοποίηση των αποτελεσμάτων και την τελική αξιολόγησή τους. Η εξόρυξη δεδομένων κάνει ευρύτατη χρήση μεθόδων που προέρχονται από τα πεδία της μηχανικής μάθησης και της αναγνώρισης προτύπων. Μέσω ερευνών έχει αποδειχθεί ότι οι νέες αυτές μέθοδοι μπορούν να δώσουν καλύτερα αποτελέσματα από τις παραδοσιακές στατιστικές μεθόδους. Το βασικό πλεονέκτημα των μεθόδων που προαναφέρθηκαν είναι ότι δεν απαιτούν πρωτίστως τη διατύπωση υποθέσεων. Αντιθέτως, τα μοντέλα προκύπτουν απευθείας από τα δεδομένα με κατάλληλη επεξεργασία. Τέλος, οι νέες μέθοδοι δίνουν τη δυνατότητα της ανάλυσης πρόβλεψης, δηλαδή την επεξεργασία ιστορικών στοιχείων και τη διατύπωση μελλοντικών προβλέψεων. Ορισμός της εξόρυξης δεδομένων Με τον όρο εξόρυξη δεδομένων εννοούμε μία υπολογιστική διαδικασία για την ανακάλυψη προτύπων σε πολύ μεγάλα σύνολα δεδομένων, χρησιμοποιώντας τεχνικές και αλγορίθμους από τα πεδία της τεχνητής νοημοσύνης, της μηχανικής μάθησης, της στατιστικής και των συστημάτων βάσεων δεδομένων[15]. Η χρήση του όρου είναι, μάλλον, καταχρηστική, αφού στην ουσία δεν πρόκειται για εξαγωγή δεδομένων, αλλά, αντίθετα, χρησιμοποιούνται τα προεπεξεργασμένα και μετασχηματισμένα δεδομένα για την εξαγωγή χρήσιμης πληροφορίας. Ο στόχος της εξόρυξης δεδομένων είναι η εξαγωγή πληροφορίας από ένα σύνολο δεδομένων και ο μετασχηματισμός του σε μορφή κατανοητή από τον άνθρωπο, ώστε να μπορέσει να χρησιμοποιήσει την τελική πληροφορία για τη λήψη αποφάσεων. Η εξόρυξη δεδομένων συνδέεται με κάθε είδος συστήματος υποστήριξης αποφάσεων, όπου συναντώνται η τεχνητή νοημοσύνη, η μηχανική μάθηση και η επιχειρηματική ευφυΐα. Προκειμένου να εξάγουμε πραγματικά χρήσιμη πληροφορία, συνήθως απαιτείται να έχουμε όσο το δυνατό πιο πολλά δεδομένα. Έτσι, μπορούμε να πούμε γενικά πως η σπουδαιότητα ενός αλγόριθμου εξόρυξης δεδομένων μπορεί να περιγραφεί με βάση τον ακόλουθο τύπο: 23
σπουδαιότητα = (ποιότητα πληροφορίας) * απόδοση Από το παραπάνω συμπεραίνουμε πως στις περισσότερες εφαρμογές είναι άσκοπο να έχουμε υψηλή απόδοση αποτελεσμάτων με υπολογισμούς που απαιτούν απροσδιόριστα πολύ χρόνο ή να έχουμε σε σύντομο χρόνο αποτελέσματα πολύ χαμηλής ποιότητας. Επίσης, από τον τύπο αυτό φαίνεται το trade-off που παρατηρείται, συνήθως, σε πολλούς αλγορίθμους εξόρυξης δεδομένων [4]. Ανακάλυψη γνώσης από βάσεις δεδομένων Η Ανακάλυψη Γνώσης από Βάσεις Δεδομένων (ΑΓΒΔ) αποτελείται από συγκεκριμένα στάδια. Πρόκειται για την αποκάλυψη ή παραγωγή λειτουργικής γνώσης μέσα από την ανάλυση των δεδομένων. Αναφέρεται σε μία ολοκληρωμένη διαδικασία, από τη συλλογή δεδομένων μέχρι την αξιοποίηση των αποτελεσμάτων σε πιο πρακτικό επίπεδο. Τα βασικά στάδια της ΑΓΒΔ είναι [4]: Συλλογή Δεδομένων (Data Collection) Προεπεξεργασία Δεδομένων (Preprocessing) Μετασχηματισμός Δεδομένων (Transformation) Εξόρυξη Δεδομένων (Data Mining) Διερμηνεία και Αξιολόγηση (Interpretation/Evaluation) Τα παραπάνω στάδια φαίνονται σχηματικά στην παρακάτω εικόνα: 24
Εικόνα 4 Βασικά στάδια της Ανακάλυψης Γνώσης από Βάσεις Δεδομένων (ΑΓΒΔ) Πηγή: [4] Ο όρος Ανακάλυψη Γνώσης από Βάσεις Δεδομένων συχνά ταυτίζεται με τον όρο εξόρυξη δεδομένων, που στην πραγματικότητα αποτελεί ένα επιμέρους βήμα της. Όπως προαναφέρθηκε σε προηγούμενη παράγραφο, ο βασικός στόχος της εξόρυξης δεδομένων είναι η εξαγωγή χρήσιμης πληροφορίας ή προτύπων από το σύνολο των δεδομένων. Στις επόμενες υποενότητες ακολουθεί σύντομη περιγραφή για το κάθε επίπεδο της ΑΓΒΔ. 2.3.1 Συλλογή Δεδομένων Το πρώτο βήμα της ΑΓΒΔ είναι η συλλογή και η αποθήκευση των δεδομένων. Η συλλογή των δεδομένων γίνεται συνήθως είτε αυτόματα, π.χ. με χρήση αισθητήρων, είτε μη αυτόματα, π.χ. με χρήση ερωτηματολογίων. Σε περιπτώσεις που οι αισθητήρες δυσλειτουργούν ή δεν απαντηθούν κάποιες ερωτήσεις στα ερωτηματολόγια, τα δεδομένα μπορεί να περιέχουν αρκετό θόρυβο, ο οποίος επηρεάζει αρνητικά τις αναλύσεις που θα ακολουθήσουν. Το επόμενο στάδιο αναλαμβάνει να αντιμετωπίσει τέτοιου είδους προβλήματα που είναι δυνατό να ανακύψουν κατά τη διαδικασία της συλλογής δεδομένων [4]. 25
2.3.2 Προεπεξεργασία Δεδομένων Το δεύτερο και πιο σημαντικό στάδιο της ΑΓΒΔ είναι η προεπεξεργασία των δεδομένων. Οι μέθοδοι για τη συλλογή δεδομένων συχνά μπορεί να παρέχουν δεδομένα που περιέχουν μη αποδεκτές τιμές (πχ Εισόδημα: -100), ανέφικτους συνδυασμούς δεδομένων (πχ Φύλο: Άντρας, Έγκυος: Ναι), τιμές που απουσιάζουν, κτλ. Επομένως, η ανάλυση τέτοιων δεδομένων μπορεί να οδηγήσει σε παραπλανητικά και αναξιόπιστα αποτελέσματα, γεγονός που καθιστά αναγκαίο να διασφαλιστεί η ποιότητα των δεδομένων, πριν τη διεξαγωγή της ανάλυσης. Η διαδικασία της προεπεξεργασίας περιλαμβάνει κυρίως τον καθαρισμό των δεδομένων (cleaning), την κανονικοποίηση (normalization) και την εξαγωγή χαρακτηριστικών (featureextraction) [16]. 2.3.3 Μετασχηματισμός Δεδομένων Στο τρίτο στάδιο της ΑΓΒΔ πραγματοποιείται ο μετασχηματισμός των δεδομένων. Ουσιαστικά, τα δεδομένα μετασχηματίζονται, ώστε να αποκτήσουν κατάλληλη μορφή για τη μετέπειτα επεξεργασία τους. Πρακτικά, ο μετασχηματισμός πραγματοποιείται μέσω της χρήσης μίας ντετερμινιστικής μαθηματικής συνάρτησης σε όλα τα σημεία του συνόλου δεδομένων, ώστε η τιμή κάθε σημείου να αντικατασταθεί με την αντίστοιχη μετασχηματισμένη τιμή. Ο μετασχηματισμός χρησιμοποιείται, κυρίως, για την εξομάλυνση των δεδομένων και την απομάκρυνση θορύβου. Ειδικές μορφές μετασχηματισμού αποτελούν η διακριτοποίηση και η συμπίεση [4]. 2.3.4 Εξόρυξη Δεδομένων Σε αυτό το στάδιο της ΑΓΒΔ παράγεται το τελικό μοντέλο με την εφαρμογή κάποιου αλγορίθμου. Τα πλέον προεπεξεργασμένα και μετασχηματισμένα δεδομένα τροφοδοτούνται στον αλγόριθμο, ώστε να κατασκευαστεί το επιθυμητό μοντέλο, το οποίο, συνήθως, είναι κάποιο μοντέλο κατηγοριοποίησης ή πρόβλεψης. Το παραγόμενο μοντέλο, που δημιουργήθηκε από γνωστά δεδομένα, θέλουμε να μας 26
δώσει απάντηση για την τιμή ενός χαρακτηριστικού-μεταβλητής στόχου για νέα, άγνωστα δεδομένα. Τα μοντέλα που παράγονται ως έξοδος στο στάδιο της εξόρυξης δεδομένων διακρίνονται σε δυο βασικούς τύπους: τα μοντέλα πρόβλεψης (predictive) και τα περιγραφικά μοντέλα (descriptive). Ο στόχος ενός μοντέλου πρόβλεψης είναι να προβλέψει τιμές για ένα συγκεκριμένο χαρακτηριστικό που παρουσιάζει ενδιαφέρον και η συμπεριφορά του οποίου βασίζεται σε αυτήν άλλων χαρακτηριστικών. Ένα περιγραφικό μοντέλο βρίσκει πρότυπα ή κρυμμένες σχέσεις, που ανακαλύπτονται μέσω της επεξεργασίας των δεδομένων, και μελετά τις ιδιότητές τους, ώστε να δοθεί μια αιτιολόγηση της συμπεριφοράς τους [4] 2.3.5 Διερμηνεία και Αξιολόγηση Πρόκειται για το τελευταίο στάδιο της ΑΓΒΔ, όπου γίνεται η διερμηνεία και η αξιολόγηση των αποτελεσμάτων, και όχι του μοντέλου, που έχουν παραχθεί κατά τη διάρκεια της διαδικασίας [4]. Τεχνικές εξόρυξης δεδομένων Παρακάτω παρουσιάζονται οι διαφορετικές μέθοδοι εξόρυξης γνώσης. Κατηγοριοποίηση Στόχος της κατηγοριοποίησης (classification) είναι να δημιουργηθεί ένα μοντέλο - ταξινομητής (classifier), η εκπαίδευση του οποίου γίνεται με τη χρήση των διαθέσιμων δεδομένων. Ουσιαστικά, η εκπαίδευση του μοντέλου γίνεται μέσω της εκμάθησης μιας συνάρτησης, η οποία απεικονίζει ένα αντικείμενο, το οποίο αναπαρίσταται ως ένα διάνυσμα τιμών οι οποίες αντιστοιχούν σε διαφορετικά χαρακτηριστικά, σε μία τιμή μιας κατηγορικής μεταβλητής, η οποία είναι γνωστή και ως κλάση (ή κατηγορία). Η εκμάθηση αποτελεί μία συμπεριφορά των ευφυών συστημάτων, η μελέτη των οποίων γίνεται από τομείς, όπως είναι η μηχανική μάθηση 27
ή η τεχνητή νοημοσύνη. Η κατηγοριοποίηση δε θα πρέπει να συγχέεται, γενικά, με την έννοια της πρόβλεψης, καθώς, στην κατηγοριοποίηση, το επιθυμητό αποτέλεσμα της πρόβλεψης αντιστοιχεί στην κλάση στόχου των δειγμάτων. Η κλάση αυτή μπορεί να πάρει διακριτές τιμές από ένα πεπερασμένο σύνολο. Αντίθετα, κατά την πρόβλεψη με χρήση τεχνικών όπως η παλινδρόμηση, η μεταβλητή-στόχος μπορεί να είναι οποιοσδήποτε πραγματικός αριθμός [4]. Εικόνα 5 Παράδειγμα κατηγοριοποίησης Πηγή: http://magizbox.com/training/machinelearning/site/model_classification/ Παλινδρόμηση Πέρα από την κατηγοριοποίηση, η παλινδρόμηση (regression) είναι, επίσης, μία προγνωστική μέθοδος, η οποία μοντελοποιεί τη σχέση μεταξύ μίας βαθμωτής εξαρτημένης μεταβλητής (dependentvariable) και μίας ή περισσότερων ανεξάρτητων μεταβλητών (independentvariables). Η παλινδρόμηση προϋποθέτει ότι τα δεδομένα ταιριάζουν με μερικά γνωστά είδη συνάρτησης και, στη συνέχεια, καθορίζει την καλύτερη συνάρτηση αυτού του είδους για τη μοντελοποίηση των δεδομένων. Υπάρχουν δύο είδη παλινδρόμησης, η γραμμική και η λογιστική. Στη γραμμική παλινδρόμηση, γίνεται η μοντελοποίηση των δεδομένων με τη χρήση γραμμικών εξαρτήσεων μεταξύ των δεδομένων. Η λογιστική παλινδρόμηση χρησιμοποιείται όταν επιθυμούμε να προβλέψουμε την παρουσία ή απουσία κάποιου χαρακτηριστικού και αποτελεί γενίκευση της γραμμικής παλινδρόμησης [4]. 28
Εικόνα 6 Παράδειγμα γραμμικής παλινδρόμησης Πηγή: [4] Στην παραπάνω εικόνα παρουσιάζεται ένα απλό παράδειγμα γραμμικής παλινδρόμησης. Οι μεταβλητές είναι τα τετραγωνικά ενός σπιτιού και η τιμή πώλησης του σε χιλιάδες ευρώ. Η μέθοδος της γραμμικής παλινδρόμησης προσαρμόζει μια ευθεία στα δείγματα του συνόλου δεδομένων, τα οποία σηματοδοτούνται με κόκκινο Χ. Η προσαρμογή γίνεται, χρησιμοποιώντας μια συνάρτηση απόστασης ή μια συνάρτηση κόστους, την τιμή της οποία θέλουμε να ελαχιστοποιήσουμε. Έχοντας τη βέλτιστη ευθεία, δηλαδή την ευθεία που ελαχιστοποιεί την τιμή της συνάρτησης κόστους, μπορούμε να δώσουμε μια προσεγγιστικά καλή απάντηση σε ερωτήματα της μορφής: «Σε τι τιμές πωλούνται σπίτια των 150 τετραγωνικών;» [4]. Συσταδοποίηση Η συσταδοποίηση (clustering) είναι μια περιγραφική μέθοδος και στοχεύει στη δημιουργία συστάδων (clusters), δηλαδή ομάδων, οι οποίες θα περιέχουν δείγματα με παρόμοιες ιδιότητες. Η ομοιότητα των δεδομένων εξαρτάται κάθε φορά από το πρόβλημα που μελετάται. Ουσιαστικά, πρέπει να βρεθεί ένα πεπερασμένο σύνολο κατηγοριών ή συστάδων, το οποίο θα περιγράφει με βέλτιστο τρόπο τα δεδομένα. Οι κατηγορίες μπορεί να είναι αμοιβαία αποκλειόμενες και εξαντλητικές ή ιεραρχικές και επικαλυπτόμενες, έχοντας μία πιο σύνθετη αναπαράσταση. 29
Στο σχήμα που ακολουθεί βλέπουμε το αποτέλεσμα συσταδοποίησης φαρμακευτικών δεδομένων. Έχουν δημιουργηθεί 3 συστάδες με βάση τα χαρακτηριστικά «δοσολογία» και «διάρκεια επίδρασης» [4]. Εικόνα 7 Παράδειγμα συσταδοποίησης Πηγή: [4] Εξαγωγή και Ανάλυση Συσχετίσεων Η εξαγωγή κανόνων συσχέτισης (associationrulelearning) θεωρείται μια από τις σημαντικότερες μεθόδους της εξόρυξης δεδομένων. Οι κανόνες συσχέτισης καταφέρνουν να ανακαλύψουν κρυμμένες και ενδιαφέρουσες συσχετίσεις μεταξύ των μεταβλητών ενός συνόλου δεδομένων. Αυτό επιτυγχάνεται με τη δημιουργία ισχυρών κανόνων βάσει κάποιων μετρικών ενδιαφέροντος. Οι συσχετίσεις μεταξύ των μεταβλητών υποδηλώνονται με τη χρήση του τελεστή, οπότε τελικά παίρνουν τη μορφή Α Β, όπου τα Α και Β αντιστοιχούν σε σύνολα που αναφέρονται στα χαρακτηριστικά των δεδομένων που αναλύουμε. Σε ένα σύνολο δεδομένων, ένας κανόνας συσχέτισης Α Β προβλέπει την εμφάνιση των χαρακτηριστικών του συνόλου Β δεδομένης της εμφάνισης των χαρακτηριστικών του συνόλου Α. Κλασικό πεδίο εφαρμογής των κανόνων συσχέτισης είναι η ανάλυση του καλαθιού αγοράς 30
(market basket). Για παράδειγμα, έστω ότι οι συναλλαγές είναι: {ψωμί, γάλα}, {ψωμί, πάνες, μπύρα, αυγά}, {γάλα, πάνες, μπύρα, σόδα}, {ψωμί, γάλα, πάνες, μπύρα} και {ψωμί, γάλα, πάνες, σόδα}, και κάποιοι κανόνες συσχέτισης μεταξύ αυτών είναι {πάνες} {μπύρα}, {μπύρα, ψωμί} {γάλα}, {γάλα, ψωμί} {αυγά, σόδα}. Ο τελευταίος κανόνας, για παράδειγμα, φανερώνει ότι είναι πολύ πιθανό όποιος αγοράζει γάλα και ψωμί να αγοράσει, επίσης, αυγά και σόδα [4]. Ανίχνευση Ανωμαλιών Η ανίχνευση ανωμαλιών εστιάζει στην ανακάλυψη αποκλίσεων στα δεδομένα σε σχέση με αντίστοιχα δεδομένα, τα οποία έχουν συλλεχθεί στο παρελθόν ή με τυπικές τιμές των δεδομένων αυτών. Τυπικά, τα ανώμαλα σημεία μαρτυρούν κάποιο πρόβλημα, όπως είναι μία τραπεζική απάτη, δομικές ατέλειες, προβλήματα υγείας ή λάθη σε ένα κείμενο. Στο παρακάτω σχήμα παρουσιάζεται ένα τέτοιο παράδειγμα, στο οποίο φαίνεται πόσο απέχει το ανώμαλο δείγμα από τις υπόλοιπες τιμές [4]. Εικόνα 8 Παράδειγμα ανίχνευσης ανωμαλιών Πηγή: [4] 31
KEΦΑΛΑΙΟ 3 Εργαλεία επιχειρηματικής ευφυΐας Εισαγωγικά στοιχεία Ως συνέπεια της απαίτησης του επιχειρηματικού κόσμου για λύσεις συστημάτων επιχειρηματικής ευφυΐας υψηλού επιπέδου, έχει δημιουργηθεί μία αντίστοιχη μεγάλη αγορά, στην οποία δραστηριοποιούνται εταιρείες οι οποίες είναι εξειδικευμένες στο λογισμικό στατιστικής ανάλυσης, εταιρείες που πρωτοστατούσαν στο χώρο των βάσεων δεδομένων και κατασκευαστές συστημάτων [7]. Είναι γνωστό ότι είναι αδύνατη η λήψη εύστοχων επιχειρηματικών αποφάσεων χωρίς την ύπαρξη της κατάλληλης πληροφορίας, η οποία θα υποστηρίξει τη διαδικασία της λήψης αποφάσεων. Τα εργαλεία επιχειρηματικής ευφυΐας καθιστούν δυνατή την εξαγωγή μόνο των χρήσιμων πληροφοριών από το χαοτικό όγκο των διαθέσιμων επιχειρηματικών δεδομένων. Αποτελούν, επομένως, ισχυρά όπλα στα χέρια των επιχειρήσεων, καθώς τους παρέχουν τα μέσα ώστε να οδηγηθούν στην επιτυχία. Παρόλο που η επιχειρηματική ευφυΐα θεωρείται ότι πυροδοτήθηκε με την εμφάνιση των BigData, στην πραγματικότητα η αγορά των εργαλείων επιχειρηματικής ευφυΐας προηγείται χρονικά της ταχέως αναπτυσσόμενης αγοράς των BigData. Τα πρώτα εργαλεία επιχειρηματικής ευφυΐας εμφανίστηκαν στις αρχές της δεκαετίας του 1990. Οπότε, καθώς υπάρχει ιστορία στην πορεία των εργαλείων επιχειρηματικής ευφυΐας, αυτά έχουν εξελιχθεί και παρέχουν προηγμένες δυνατότητες. Στην επόμενη ενότητα θα παρουσιαστούν και θα αναλυθούν 10 από τα βασικότερα εργαλεία επιχειρηματικής ευφυΐας εκ των οποίων τα 2 πρώτα ηγούνται στο σύνολο των εφαρμογών που αφορούν την εξόρυξη δεδομένων. Να σημειωθεί ότι πρόκειται για εργαλεία ανοιχτού κώδικα. Το λογισμικό ανοιχτού κώδικα είναι λογισμικό ο πηγαίος κώδικας του οποίου είναι διαθέσιμος στους χρήστες, οι οποίοι μπορούν να τον μελετήσουν, να τον επεξεργαστούν και να τον τροποποιήσουν[30]. Το λογισμικό 32
ανοικτού κώδικα διατίθεται δωρεάν και παρέχει τη δυνατότητα ανατροφοδότησης, καθώς υπάρχει συνεχής αλληλεπίδραση στην κοινότητα των χρηστών, όπου ανταλλάσσονται απόψεις και προτείνονται βελτιώσεις, προσαρμοσμένες στις εκάστοτε ανάγκες. Βασικά χαρακτηριστικά εργαλείων επιχειρηματικής ευφυΐας Στις επόμενες υποενότητες αναφέρονται τα βασικά χαρακτηριστικά γνωστών ανοικτού κώδικα εργαλείων επιχειρηματικής ευφυΐας. RapidMiner Το RapidMiner παρέχει ένα ολοκληρωμένο και εύχρηστο γραφικό περιβάλλον, μέσα από το οποίο ο χρήστης μπορεί να εισάγει και να επισκοπήσει τα δεδομένα του, να εκτελέσει απλές ή σύνθετες αναλύσεις και να περιηγηθεί στα αποτελέσματα [8]. Στην παρακάτω εικόνα παρουσιάζεται το περιβάλλον του προγράμματος. 33
Εικόνα 9 Το περιβάλλον εργασίας του RapidMiner Βασικές οπτικές του χώρου εργασίας είναι η προβολή Σχεδίασης και η προβολή Αποτελεσμάτων. Στη Σχεδίαση καθορίζονται και παραμετροποιούνται τα βήματα της ανάλυσης, τα δεδομένα εισόδου και η επιθυμητή έξοδος. Η προβολή Αποτελεσμάτων παρέχει δυνατότητες οπτικοποίησης των αποτελεσμάτων μέσω γραφικών, διαγραμμάτων και πινάκων. Βασική έννοια στο RapidMiner είναι η Διαδικασία, η οποία αντιστοιχεί σε μια εφαρμογή και αποτελεί τη λύση ενός επιμέρους προβλήματος. Κάθε βήμα της Διαδικασίας παριστάνεται με ένα γραφικό αντικείμενο που λέγεται Τελεστής. Ένα θετικό χαρακτηριστικό του RapidMiner είναι ότι οι δυνατότητες που παρέχει μπορούν να επεκταθούν μέσω των add-ons και των επεκτάσεων, τα περισσότερα εκ των οποίων διατίθενται δωρεάν. Επίσης, μπορεί να διαβάζει απευθείας τα δεδομένα από αρχεία, πχ από csv ή excel, και από βάσεις δεδομένων. Μέσω μιας δικής του επέκτασης, το RapidMiner είναι πολύ αποτελεσματικό εργαλείο στο χώρο της ανάλυσης κειμένου, καθώς περιέχει ισχυρά χαρακτηριστικά επεξεργασίας κειμένου που μπορούν να συνδυαστούν με προηγμένους αλγορίθμους συσταδοποίησης και τελεστές μηχανικής μάθησης [21]. 34
Ένα μειονέκτημα του συγκεκριμένου λογισμικού εντοπίζεται στο γεγονός ότι το περιβάλλον του δεν είναι πολύ φιλικό προς το χρήστη, με αποτέλεσμα να κρίνεται αναγκαία η μελέτη του εγχειριδίου χρήσης. Επίσης, η χρήση πολύ μεγάλου μέρους της μνήμης οδηγεί συχνά σε σφάλματα, γεγονός που προκαλεί σύγχυση στο χρήστη. Ωστόσο, πέρα από τα συγκεκριμένα αρνητικά χαρακτηριστικά του, το RapidMiner θεωρείται ένα από τα κορυφαία εργαλεία ανοικτού κώδικα που χρησιμοποιούνται στο χώρο της εξόρυξης δεδομένων. KNIME Το λογισμικό KNIME είναι ένα ακόμη ανοικτού κώδικα εργαλείο που χρησιμοποιείται για ανάλυση δεδομένων. Ενσωματώνει διάφορα στοιχεία για μηχανική μάθηση και εξόρυξη δεδομένων. Η γραφική διεπαφή χρήστη επιτρέπει την εύκολη και γρήγορη συναρμολόγηση των κόμβων για την προεπεξεργασία, ανάλυση, μοντελοποίηση και οπτικοποίηση των δεδομένων. Χρησιμοποιείται συστηματικά στη φαρμακευτική έρευνα από το 2006[5]. Στην παρακάτω εικόνα φαίνεται το γραφικό περιβάλλον του KNIME. Εικόνα 10 Γραφικό περιβάλλον του λογισμικού KNIME Πηγή: https://www.knime.org/knime-analytics-platform 35
Το KNIME έχει υλοποιηθεί σε JAVA πλατφόρμα, γεγονός που το κάνει συμβατό με όλα τα λειτουργικά συστήματα, συμπεριλαμβανομένων των Linux, Windows και Mac. Έχει σχεδιαστεί με τέτοιο τρόπο, έτσι ώστε ακόμη και χρήστες που δεν έχουν εμπειρία πάνω στον προγραμματισμό, να μπορούν να χρησιμοποιήσουν εύκολα το εργαλείο [13] Επίσης, το KNIME παρέχει απεριόριστες δυνατότητες επεξεργασίας δεδομένων, καθώς μπορεί να διαχειριστεί τεράστιους όγκους δεδομένων, χωρίς περιορισμό στον αριθμό των γραμμών των δεδομένων ή στον αριθμό των φυσικών πόρων/λογικών επεξεργαστών που είναι δυνατό να χρησιμοποιηθούν κατά τη διαδικασία της επεξεργασίας των δεδομένων. Ένα μειονέκτημα θα μπορούσε να είναι η δυσκολία που μπορεί να αντιμετωπίσει ο χρήστης κατά την προσπάθεια κατανόησης της λογικής της σωλήνωσης εισόδου/εξόδου. Ένα ακόμη πρόβλημα είναι το γεγονός ότι το εγχειρίδιο χρήσης δεν είναι τόσο βοηθητικό για κάποιον αρχάριο χρήστη. Επίσης, ενώ το KNIME παρέχει καλούς περιγραφείς για τους κόμβους, δεν εμφανίζει αναλυτικές επεξηγήσεις στην περίπτωση που οι κόμβοι δεν μπορούν να συνδεθούν μεταξύ τους, σε αντίθεση με το RapidMiner, όπου εμφανίζονται αυτόματες επεξηγήσεις κάθε φορά που δεν είναι δυνατή η σύνδεση μεταξύ τελεστών. Pentaho Το εργαλείο Pentaho είναι ένα λογισμικό εκμάθησης και εξόρυξης δεδομένων. Προσφέρει αλγορίθμους κατηγοριοποίησης, παλινδρόμησης, συσταδοποίησης και κανόνων συσχέτισης, μέσω των οποίων οι χρήστες μπορούν να αναλύουν και να οπτικοποιούν τα δεδομένα ως προς πολλαπλές διαστάσεις. Το γραφικό περιβάλλον του Pentaho παρουσιάζεται στην εικόνα που ακολουθεί. 36
Εικόνα 11 Γραφικό περιβάλλον του λογισμικού Pentaho Πηγή: http://www.mooreds.com/wordpress/archives/category/pentaho-data-integration Ένα πλεονέκτημα του λογισμικού Pentaho είναι το γεγονός ότι παρέχει ευέλικτη υποστήριξη δεδομένων που προέρχονται από διαφορετικές πηγές. Επίσης, είναι ένα εργαλείο φιλικό προς το χρήστη, που η χρήση του δεν απαιτεί προγραμματιστικές δεξιότητες. Τέλος, η υποστήριξη των πελατών είναι οργανωμένη και συνεχής, τόσο διαδικτυακά όσο και τηλεφωνικά. BIRT Πρόκειται για ένα εργαλείο ανοικτού κώδικα το οποίο εξυπηρετεί τις ανάγκες της επιχειρηματικής ευφυΐας για client και διαδικτυακές εφαρμογές, κυρίως για όσες βασίζονται στις πλατφόρμες Java και JavaEE. Οι στόχοι του προγράμματος είναι να καλύψει το ευρύ φάσμα των αναγκών για τη διεκπεραίωση λειτουργικών αναφορών και πολυδιάστατης αναλυτικής επεξεργασίας. Αρχικά, το πρόγραμμα επικεντρώθηκε στη σχεδίαση και ενσωμάτωση των αναφορών στις εφαρμογές. Το BIRT υποστηρίζεται από μία ενεργή κοινότητα στο BIRTDeveloperCenter και από προγραμματιστές στο Eclipse.org. 37
Το λογισμικό BIRT αποτελείται από δύο δομικά στοιχεία: ένα σχεδιαστή οπτικών αναφορών εντός του γραφικού περιβάλλοντος Eclipse, ο οποίος χρησιμοποιείται για τη δημιουργία αναφορών και ένα runtime περιβάλλον για την παραγωγή αναφορών που μπορούν να χρησιμοποιηθούν από οποιοδήποτε περιβάλλον Java. Επίσης, υπάρχει και μία μηχανή γραφημάτων η οποία είναι ενσωματωμένη στο σχεδιαστή αναφορών και μπορεί να χρησιμοποιηθεί για να παράγει γραφήματα και να τα εντάξει σε μία εφαρμογή [10]. Το γραφικό περιβάλλον του BIRT φαίνεται παρακάτω: Εικόνα 12 Το γραφικό περιβάλλον του λογισμικού BIRT Πηγή: https://en.wikipedia.org/wiki/birt_project Το λογισμικό BIRT διαθέτει ισχυρή κοινότητα προγραμματιστών για υποστήριξη, παρέχει ένα σύνολο ισχυρών εργαλείων επιχειρηματικής ευφυΐας και θεωρείται από τα πιο δημοφιλή λογισμικά ανοικτού κώδικα που υπηρετούν το χώρο της επιχειρηματικής ευφυΐας. Διαθέτει δυνατή σχεδίαση και χαρακτηριστικά τα οποία επιτρέπουν στους προγραμματιστές να παρουσιάζουν τα δεδομένα τόσο σε μορφή κειμένου όσο και σε γραφικές μορφές. Η ευκολία χρήσης και η πληρότητα των χαρακτηριστικών αποτελούν τα δύο πιο σημαντικά χαρακτηριστικά του συγκεκριμένου εργαλείου. 38
Ωστόσο, το BIRT, σε αντίθεση με τα εργαλεία επιχειρηματικής ευφυΐας που αναφέρθηκαν παραπάνω, απαιτεί γνώσεις προγραμματισμού, προκειμένου να γίνει δυνατή η χρήση του. Επίσης, παρουσιάζονται προβλήματα κατά την αναβάθμιση του λογισμικού σε νεότερες εκδόσεις και παρέχεται η δυνατότητα μόνο για αναφορές και όχι για αναλύσεις. Jaspersoft Το Jaspersoft είναι ένα ακόμη ευέλικτο, οικονομικά αποδοτικό και ευρέως χρησιμοποιούμενο εργαλείο επιχειρηματικής ευφυΐας, το οποίο βελτιστοποιεί τη λήψη αποφάσεων μέσω εξαιρετικά διαδραστικών αναφορών, dashboards και ανάλυσης. Το Jaspersoft αντλεί δεδομένα από μία ή περισσότερες πηγές και τα παρουσιάζει σε ευανάγνωστη και κατανοητή μορφή. Τα dashboards συνδυάζουν δεδομένα και γραφικούς δείκτες, ώστε να παρέχουν περιλήψεις που περιέχουν βασικές πληροφορίες για την πορεία της επιχείρησης. Η ανάλυση των δεδομένων γίνεται μέσω μοντελοποίησης, διαχείρισης και οπτικοποίησης των δεδομένων, ώστε να εντοπισθούν ζητήματα που πρέπει να επιλυθούν, τάσεις που επικρατούν στην αγορά και να λαμβάνονται γρήγορα σωστές αποφάσεις. Τέλος, πραγματοποιούνται οι εργασίες εξαγωγής, μετασχηματισμού και φόρτωσης (ETL) δεδομένων από διαφορετικές πηγές στις αποθήκες, με σκοπό τη δημιουργία αναφορών και τη διεξαγωγή ανάλυσης. Το αντίστοιχο γραφικό περιβάλλον του λογισμικού Jaspersoft φαίνεται παρακάτω: 39
Εικόνα 13 Το γραφικό περιβάλλον του λογισμικού Jaspersoft Πηγή: https://www.getapp.com/business-intelligence-analytics-software/a/jaspersoft/ Ένα βασικό πλεονέκτημα του λογισμικού Jaspersoft είναι το γεγονός ότι υποστηρίζει μία ποικιλία προσαρμογέων δεδομένων. Επίσης, η ταξινόμηση των αναφορών μπορεί να οριστεί δυναμικά, ορίζοντας διαφορετικές ιδιότητες και παραμέτρους. Ωστόσο, το λογισμικό Jaspersoft μειονεκτεί ως προς την υποστήριξη δημοφιλών πηγών δεδομένων και τη γραφική σχεδίαση συνδέσεων μεταξύ των δεδομένων. SpagoBI Το λογισμικό SpagoBI παρέχει ένα ευρύ φάσμα μεθόδων ανάλυσης, ένα εξαιρετικά λειτουργικό σημασιολογικό επίπεδο, το οποίο απουσιάζει από άλλες πλατφόρμες, και ένα σύνολο προχωρημένων χαρακτηριστικών οπτικοποίησης δεδομένων, συμπεριλαμβανομένων των γεωγραφικών αναλύσεων. Τα επιμέρους τμήματα τα οποία συνθέτουν την αρχιτεκτονική της SpagoBI πλατφόρμας είναι τα εξής [37]: SpagoBIServer, αποτελεί τη βασική μονάδα, όπου παρέχεται η κεντρική και αναλυτική λειτουργικότητα. AnalyticalModel, αποτελεί τον πυρήνα του SpagoBIServer. 40
BehaviouralModel, ρυθμίζει την ορατότητα σε έγγραφα και δεδομένα, σύμφωνα με τους ρόλους των τελικών χρηστών. AdministrationTools, παρέχουν ποικίλες λειτουργικότητες, όπως είναι το userprofile σύστημα, η διαχείριση μενού, ο έλεγχος και η παρακολούθηση και τα γραφικά περιβάλλοντα. Cross-platformServices, περιέχουν τα κοινά χαρακτηριστικά που μπορούν να χρησιμοποιηθούν σε όλες τις περιοχές αναλύσεων. Ένα από τα βασικά πλεονεκτήματα του SpagoBI εργαλείου είναι ότι περιλαμβάνει έναν εντυπωσιακό αριθμό γραφημάτων και UI στοιχείων. Επίσης, η υλοποίηση των συνδέσεων μεταξύ των εγγράφων γίνεται με ευέλικτο τρόπο. Τέλος, παρέχονται διαδραστικά γραφήματα τα οποία επιτρέπουν να γίνονται αλλαγές στην πληροφορία, χωρίς να χρειάζεται να εκτελεστεί από την αρχή ολόκληρη η αναφορά. Ωστόσο, το εργαλείο για τη δημιουργία των αναφορών δεν παρέχει πλήρη λειτουργικότητα, η σελιδοποίηση δεν υποστηρίζεται και η επιλογή Expand/Collapse απουσιάζει από τους πίνακες. Εικόνα 14 Γραφικό περιβάλλον του λογισμικού SpagoBI Πηγή: http://www.predictiveanalyticstoday.com/spagobi-business-intelligence/ 41
ReportServer Αποτελεί ένα σύστημα αναφορών και dashboards, το οποίο περιέχει εργαλεία αναφορών προσανατολισμένα σε ad-hoc δίκτυα. Υποστηρίζει τα EclipseBirt, JasperReports και SAPCrystalReports. Ο ReportServer παρέχει ένα σύνολο επιλογών για αναφορές σε σχεσιακές βάσεις και αποθήκες δεδομένων. Επίσης, διαθέτει την επιλογή DynamicLists μέσω της οποίας είναι δυνατό να δημιουργούνται SQL αναφορές απευθείας από τον webclient. Η χρήση του Bitnami πακέτου απαλλάσσει τους χρήστες από τη χρονοβόρα διαδικασία εγκατάστασης του server. Ωστόσο, μπορεί να εμφανιστούν ορισμένα θέματα με την Java κατά τη χρήση του Bitnami πακέτου. Όπως γίνεται αντιληπτό, το εργαλείο αυτό απευθύνεται σε άτομα με γνώσεις προγραμματισμού. Εικόνα 15 Γραφικό περιβάλλον του λογισμικού ReportServer Πηγή: https://reportserver.net/en/ 42
Tableau Σύμφωνα με το Forbes το Tableau είναι ένα από τα 7 καλύτερα εργαλεία οπτικοποίησης δεδομένων για το 2017. Είναι ένα σημαντικό εργαλείο επιχειρηματικής ευφυΐας που το μεγαλύτερο πλεονέκτημά του είναι ότι μπορεί να διαθέτει τα αποτελέσματα των ενεργειών του στους ενδιαφερόμενους με πάρα πολλούς τρόπους. Το γραφικό του περιβάλλον του παρουσιάζεται στην παρακάτω εικόνα: Εικόνα 16 Γραφικό περιβάλλον του λογισμικού Tableau Πηγή :https://www.witinc.com/tableau-consulting/ Jedox Αποτελεί ένα client-server λογισμικό το οποίο χρησιμοποιείται για να δημιουργήσει λύσεις επιχειρηματικής ευφυΐας και διαχείρισης απόδοσης για συστηματική ανάλυση δεδομένων. Ο πυρήνας του σχεδιάστηκε για την ανάλυση, αναφορά και ενοποίηση δεδομένων. Το λογισμικό έχει αρθρωτή δομή και χρησιμοποιεί το Microsoft Excel ως 43
το γραφικό περιβάλλον από τη μία και ένα Jedox λογιστικό φύλλο από την άλλη, και τα δύο εκ των οποίων μπορούν να χρησιμοποιηθούν σε όλους τους κοινούς φυλλομετρητές ιστοσελίδων [24]. Το Exceladd-in και η διαδικτυακή διεπαφή του λογιστικού φύλλου ένα είδος Excel στο διαδίκτυο αυξάνουν τη χρησιμότητα του Jedox. Οι χρήστες μπορούν να κάνουν σχεδόν ότι θέλουν, από το να δημιουργούν και να χειρίζονται τις αναφορές μέχρι τη σχεδίαση και οργάνωση φορμών και αναλύσεων. Όλα αυτά γίνονται στο οικείο περιβάλλον του Microsoft Office, γεγονός που οδηγεί τους χρήστες στην επιλογή του συγκεκριμένου συστήματος [25]. Εικόνα 17Γραφικό περιβάλλον λογισμικού Jedox Πηγή: http://www.predictiveanalyticstoday.com/jedox-base-business-intelligence/ QlikView Το QlikView θεωρείται ένα κυρίαρχο εργαλείο στο χώρο της εξόρυξης γνώσης, καθώς επιτρέπει στους χρήστες να δημιουργήσουν εφαρμογές ανάλυσης δεδομένων και να σχεδιάσουν καίρια dashboards που θα συναντούν τις προκλήσεις της επιχειρηματικής ευφυΐας. Το καλύτερο χαρακτηριστικό αυτού του συστήματος είναι το AssociativeDataIndexingEngine, όπου οι γνώσεις και οι σχέσεις μεταξύ των 44
δεδομένων μπορούν να γίνουν διαχειρίσιμες με εύκολο τρόπο, ανεξάρτητα από πού προέρχονται. Το QlikView διαφέρει από τα συστήματα που βασίζονται σε ερωτήματα (querybased) καθώς παρέχει κατευθυνόμενη εξερεύνηση των δεδομένων, ώστε να βοηθήσει τους χρήστες να έχουν τον έλεγχο της διαδικασίας ανακάλυψης γνώσης. Επίσης, ένα σύνολο εργαλείων συνεργασίας επιτρέπει την ανάλυση των τεχνικών προδιαγραφών μαζί με τους συναδέλφους του χρήστη ή ακόμη του δίνει τη δυνατότητα να τις μοιραστεί. Αυτή η πλατφόρμα επιχειρηματικής ευφυΐας είναι φιλική προς το χρήστη, καθώς η ανάπτυξη των εφαρμογών μπορεί να γίνει και χωρίς τεχνική γνώση. Με τον τρόπο αυτό το QlikView παρέχει αποτελέσματα γρηγορότερα από τις περισσότερες λύσεις επιχειρηματικής ευφυΐας. Ένα ακόμη πλεονέκτημά του είναι η συμβατότητά του με τις περισσότερες ευρέως χρησιμοποιούμενες συσκευές και η εύκολη ενσωμάτωσή του σε διάφορα συστήματα δεδομένων. Οι εταιρείες μπορούν να χρησιμοποιήσουν αυτήν την εφαρμογή για να ανταποκριθούν στις προκλήσεις που γεννιόνται από το διαρκώς μεταβαλλόμενο επιχειρηματικό περιβάλλον, να ερμηνεύσουν τις φιγούρες και να εκτιμήσουν τα αποτελέσματα με ακρίβεια [12]. Εικόνα 18 Γραφικό περιβάλλον λογισμικού QlikView Πηγή: http://global.qlik.com/kr/explore/products/qlikview 45
KEΦΑΛΑΙΟ 4 Ανάλυση εργαλείων ΒΙ Εισαγωγικά στοιχεία Τα τελευταία χρόνια η ανάπτυξη των εφαρμογών λύσεων επιχειρηματικής ευφυΐας είναι γεγονός. Όπως και το χαρακτηριστικό αυτών των εφαρμογών να είναι λύσει ανοικτού κώδικα. Οι χρήστες αναζητούν εξερεύνηση των δεδομένων τους, ανάλυση και πλούσια οπτική απεικόνιση. Στον χώρο των εταιρειών πληροφορικής υπάρχει αυξημένη κινητικότητα στις συγχωνεύσεις ή εξαγορές εταιρειών που ασχολούνται αποκλειστικά με εφαρμογές BI από εταιρείες πληροφορικής στοχευμένες μέχρι πρότινος σε άλλους τομείς της πληροφορικής. Η ανάπτυξη και η συντήρηση μιας κοινότητας ανοικτού κώδικα απαιτεί σοβαρή προσήλωση και οικονομική ενίσχυση, θέματα που θα απασχολήσουν πλέον τα νέα σχήματα στο χώρο των εφαρμογών BI. Στις παρακάτω υποενότητες θα αναφερθούμε εκτενέστερα στα χαρακτηριστικά που έχουν 10 εργαλεία επιχειρηματικής ευφυΐας, επιλεγμένα μέσα από δημοσιευμένες έρευνες για τα καλύτερα εργαλεία BI ανοικτού κώδικα. 4.1 RapidMiner To RapidMiner παρουσιάστηκε το 2007 με το όνομα αυτό από την εταιρεία Rapid-I. Πρόδρομος του RapidMiner ήταν το YALE (Yet Another Learning Environment) το οποίο αναπτύχθηκε το 2001 από τους Ralf Klinkenberg, Ingo Mierswa, και Simon Fischer στη Μονάδα Τεχνητής Νοημοσύνης του Πανεπιστημίου του Dortmund. Το 46
2006 οι Ralf Klinkenberg και Ingo Mierswa ίδρυσαν την εταιρεία Rapid-I όπου συνέχισαν να αναπτύσσουν την αρχική τους πλατφόρμα. Το 2013 η εταιρεία Rapid-I μετονομάστηκε σε RapidMiner [34]. Σήμερα για την ανάπτυξη της πλατφόρμας του RapidMiner συμμετέχουν 50 προγραμματιστές από όλο τον κόσμο, το μεγαλύτερο ποσοστό εκ των οποίων είναι υπάλληλοι της εταιρείας RapidMiner. Η κοινότητα επιστημόνων χρηστών που συμβάλει στην ανάπτυξη της πλατφόρμας σήμερα ανέρχεται στις 250.000. To RapidMiner είναι ένα εργαλείο ανοικτού κώδικα το οποίο μπορεί να χρησιμοποιηθεί δωρεάν σε πλήθος εγγραφών έως 10.000 γραμμές. Πάνω από το όριο των 10.000 γραμμών υπάρχει μία κλίμακα τιμών ανά χρήση και ανά χρήστη όπου ξεκινά από τα 2.500$ μέχρι τα 10.000$ όπως αναφέρεται στην Εικόνα 19. Εικόνα 19 Τιμολογιακή Πολιτική της εταιρείας RapidMiner Η πλατφόρμα του RapidMinerStudio γραμμένη σε Java μπορεί να εγκατασταθεί τοπικά σε κάποιον υπολογιστή, σε server μέσω του RapidMinerServer και σε Cloud. Οι απαιτήσεις σε εξοπλισμό που προτείνεται από την εταιρεία παραθέτονται στον παρακάτω πίνακα. Minimum Recommended Dual Core 2GHz processor Quad Core 3GHz or faster processor 47
4GB RAM >1GB free disk space 16GB RAM >100GB free disk space Resolution: 1280x1024 Τα λειτουργικά συστήματα στα οποία μπορεί να εγκατασταθεί είναι : Windows 7, Windows 8, Windows 8.1, Windows 10 Linux MacOS X 10.8 or newer Τα δεδομένα που μπορούν να επεξεργαστούν μέσω της εφαρμογής περιλαμβάνουν πάνω από 40 τύπους αρχείων, συνδέσεις με βάσεις δεδομένων, πρόσβαση σε έγγραφα κειμένου και ιστοσελίδες και επεξεργασία εικόνων και αρχείων ήχου. Συγκεκριμένα οι βάσεις δεδομένων που μπορεί να υποστηρίξει είναι : Oracle Microsoft SQL Server MySQL PostgreSQL Teradata HP Vertica IBM Netezza NoSQL MongoDB Cassandra Apache Solr Splunk (read only) Οι υπηρεσίες cloud με τις οποίες συνεργάζεται είναι : Dropbox Amazon S3 Microsoft Azure Blob Storage Salesforce Twitter (read only) Mozenda (read only) Zapier (write only) 48
Οι τύποι των αρχείων που μπορεί να επεξεργαστεί είναι : CSV - Comma Separated Value MDB/ACCDB - Microsoft Access database XLS/XLSX - Microsoft Excel spreadsheet (97-2003,2007-2013) XML - Extensible Markup Language ARFF/XRFF - Weka file formats DBF - dbase Database File format (read only) SAV - IBM SPSS file format (read only) SAS - SAS file format up to v9.2 (read only) DTA - Stata file format (read only) QVX - QlikView data exchange (write only) Το RapidMiner είναι ένα ολοκληρωμένο περιβάλλον αφιερωμένο στη μηχανική μάθηση και εξόρυξη κειμένων και ένα από τα καλύτερα διαθέσιμα συστήματα ανάλυσης πρόβλεψης που διατίθενται στην αγορά σήμερα. Το εργαλείο μπορεί να χρησιμοποιηθεί για επιχειρησιακή νοημοσύνη, έρευνα, εκπαίδευση και ανάπτυξη εφαρμογών. Διαθέτοντας ένα ισχυρό σύνολο λειτουργιών και εργαλείων, το RapidMiner όχι μόνο βοηθά στην κατανόηση των δεδομένων αλλά δίνει τη δυνατότητα να δημιουργήσει ο χρήστης μοντέλα ώστε να μπορεί να εξάγει κρίσιμα στατιστικά στοιχεία και πληροφορίες. Τα δεδομένα αυτά μπορούν να παρουσιαστούν μέσω γραφικών παραστάσεων ή περιγραφικών στατιστικών. 4.2 KNIME Η ανάπτυξη της εφαρμογής KNIME άρχισε το 2004 από μια ομάδα μηχανικών λογισμικού στο Πανεπιστήμιο Konstanz της Γερμανίας. Η αρχική αυτή ομάδα των προγραμματιστών με επικεφαλής τον Michael Berthold είχε εργαστεί σε μία εταιρεία στη Silicon Valley που κατασκεύαζε λογισμικό για τη φαρμακευτική βιομηχανία. Ο αρχικός στόχος ήταν να δημιουργηθεί μια πλατφόρμα επεξεργασίας δεδομένων η οποία θα επέτρεπε την εύκολη ενσωμάτωση διαφορετικών ενοτήτων φόρτωσης, 49
επεξεργασίας, μετασχηματισμού, ανάλυσης και οπτικής παρουσίασης δεδομένων χωρίς να στοχεύει σε κάποια συγκεκριμένη περιοχή εφαρμογής. Το 2006 κυκλοφόρησε η πρώτη έκδοση του KNIME και αρκετές φαρμακευτικές εταιρείες άρχισαν να το χρησιμοποιούν. Από το 2012 το KNIME χρησιμοποιείται ευρέως πλέον όχι μόνο από φαρμακευτικές εταιρείες αλλά από τράπεζες, εκδοτικούς οίκους, κατασκευαστές αυτοκινήτων, άλλες βιομηχανίες αλλά και σε ερευνητικό επίπεδο [26]. Το KNIME είναι μια ανοιχτή πλατφόρμα ανάλυσης δεδομένων που μπορεί κάποιος χρήστης να αναπτύξει γρήγορα, να κλιμακώσει το επίπεδο των εργασιών του αποτελεσματικά και να εξοικειωθεί σε σύντομο χρονικό διάστημα. Στον κόσμο του BI, το KNIME είναι γνωστό ως η εφαρμογή που έκανε την επιχειρηματική ευφυΐα προσιτή σε άπειρους χρήστες και η οποία έχει επίσης μια μεγάλη κοινότητα χρηστών παγκοσμίως που μοιράζονται τις εμπειρίες τους. Η καινοτομία της εφαρμογής KNIME είναι ότι προσφέρει στον χρήστη έτοιμα παραδείγματα προς χρήση αλλά κυρίως ολοκληρωμένες διαδικασίες στις οποίες ο χρήστης μπορεί να εισάγει τα δεδομένα του και με λίγες μετατροπές να εμφανίσει τα τελικά αποτελέσματά του. Με περισσότερες από 1500 ενότητες, εκατοντάδες έτοιμα για εκτέλεση παραδείγματα, ένα μεγάλο εύρος ολοκληρωμένων εργαλείων και την ευρεία επιλογή προηγμένων αλγορίθμων, η πλατφόρμα KNIME θα μπορούσε να είναι η τέλεια εργαλειοθήκη για οποιονδήποτε που ασχολείται με εφαρμογές BI. Tο KNIME είναι γραμμένο σε Java. Είναι ένα λογισμικό ανοιχτού κώδικα με άδεια από του οργανισμού GNU (General Public License), που περιλαμβάνει ένα ολοκληρωμένο περιβάλλον ανάπτυξης (IDE) και ένα επεκτάσιμο σύστημα plug-in. Στο παρακάτω πίνακα παρουσιάζονται τα λειτουργικά συστήματα που υποστηρίζουν την εγκατάσταση του KNIME. Linux Windows Mac OS X KNIME (32bit) yes yes no 50
KNIME (64bit) yes yes yes KNIME Developer Version (32 KNIME Developer Version (64 2bit) yes yes 4bit) yes yes no yes 4.3 Pentaho Η εφαρμογή Pentaho είναι ένα λογισμικό ανοικτού κώδικα που εξυπηρετεί ένα ολοκληρωμένο σύστημα αναγκών επιχειρηματικής ευφυΐας. Η εταιρεία Pentaho με έδρα το Ορλάντο της Φλώρινας, εξαγοράστηκε το 2015 από την Hitachi Data Systems και το 2017 ενσωματώθηκε στην Hitachi Vantara μιας νέας εταιρείας που αποτελείται από την Hitachi Data Systems την Hitachi Insight Group και την Pentaho. Η εφαρμογή Pentaho μπορεί να διαχειριστεί και να ενώσει δεδομένα από διαφορετικές πηγές, να αναλύσει τα δεδομένα αυτά, να εξάγει πληροφορίες και να παρουσιάσει τα αποτελέσματα με μια σαφή διαδραστική οπτική. 51
Εικόνα 20 Αρχιτεκτονική της πλατφόρμας Pentaho Τα κύρια χαρακτηριστικά της εφαρμογής είναι : Ενσωμάτωση δεδομένων Επιχειρηματικές Αναλύσεις Αναλύσεις μεγάλου όγκου δεδομένων Αναλύσεις ad-hoc OLAP Αναλύσεις πρόγνωσης Μετρικές απόδοσης Dashboards Μπορεί να εγκατασταθεί στα παρακάτω λειτουργικά συστήματα : Windows Android Mac Web-based Ενώ πριν την εξαγορά της εταιρείας υπήρχαν δύο εκδόσεις, η Community και η Enterprice όπου η πρώτη ήταν δωρεάν και η δεύτερη με συνδρομή και επιπλέον υποστήριξη, σήμερα την εφαρμογή μπορεί κανείς να την χρησιμοποιήσει δοκιμαστικά για 30 ημέρες και δεν υπάρχει καμία πληροφορία σχετικά με την τιμολογιακή πολιτική αν θέλει κάποιος να συνεχίσει να την χρησιμοποιεί. 52
4.4 ΒΙΡΤ Η εφαρμογή BIRT αναπτύχθηκε από την εταιρεία Actuate στις αρχές του 2004. Με την προσχώρηση της εταιρείας στον οργανισμό Eclipse η εφαρμογή αποτέλεσε σημαντικό έργο ανάπτυξης της κοινότητας των προγραμματιστών του οργανισμού. Η εφαρμογή είναι ανοικτού κώδικα και βασίζεται στην Java και στην Java EE.To 2015 η OpenText Corp η μεγαλύτερη εταιρεία λογισμικού του Καναδά εξαγόρασε την Actuate. Κατά την ανακοίνωση της εξαγοράς αναφέρθηκε στους 3,5 εκατομμύρια προγραμματιστές ανοικτού κώδικα που υποστηρίζουν την ανάπτυξη της εφαρμογής BIRT [10]. Σήμερα εκτός από την χρηματοδότηση της Actuate, η ΙΒΜ και η Innovent Solutions υποστηρίζουν ενεργά την ανάπτυξή της. Η εφαρμογή BIRT είναι ένα λογισμικό ανοικτού κώδικα το οποίο επειδή εντάσσεται στον οργανισμό Eclipse χρησιμοποιεί την δημόσια άδεια του ιδρύματος. Με την συγκεκριμένη άδεια ο χρήστης μπορεί να χρησιμοποιήσει το λογισμικό, να το τροποποιήσει, να αντιγράψει και να διανείμει τυχόν εκδόσεις αλλά και να γνωστοποιηθούν οι δικές μου αλλαγές [18]. Η αρχική σκέψη ήταν η εφαρμογή να δίνει την δυνατότητα στους προγραμματιστές να σχεδιάζουν αναφορές και να τις ενσωματώνουν στις δικές τους εφαρμογές. Σήμερα το BIRT δημιουργεί αναφορές οι οποίες μπορούν να φτάσουν σε online αναλυτική επεξεργασία ακόμη και σε μορφή OLAP. Η εφαρμογή περιλαμβάνει δύο βασικές δυνατότητες. Έναν σχεδιαστή αναφορών μέσω του οποίου μπορεί κάποιος να δημιουργήσει αναφορές και τις παρουσιάσεις τους και ένα εργαλείο όπου παράγει παρουσιάσεις που μπορούν να αναπτυχθούν σε οποιοδήποτε περιβάλλον Java. Τα δεδομένα της η εφαρμογή μπορεί να τα εισάγει από αποθήκες δεδομένων, SQL βάσεις δεδομένων, από το διαδίκτυο αλλά κυρίως από XML αρχεία. Η εφαρμογή BIRT μπορεί να εγκατασταθεί ως αυτόνομη σε έναν υπολογιστή με λειτουργικό Windows ή ως προσθήκη του Eclipse IDE για Linux ή Mac OS X. 53
4.5 Jaspersoft To 2001 o Teodor Danciu παρουσίασε το JasperReports. Η εταιρεία Panscopic που ιδρύθηκε από τον Al Campa και τον Raj Bhargava συνεργάστηκε με τον Teodor Danciu το 2004, απέκτησε την πνευματική ιδιοκτησία της εφαρμογής JasperReports και άλλαξε το όνομα της σε Jaspersoft. Το 2014 η εταιρεία TIBCO αγόρασε την Jaspersoft. Το Jaspersoft είναι ένα εργαλείο αναφορών ανοικτού κώδικα γραμμένο σε Java. Μπορεί να αναπτυχθεί είτε μέσω του Jaspersoft Server είτε μέσω της βιβλιοθήκης του JasperReports σε μια υπάρχουσα εφαρμογή. Έχει την δυνατότητα να παρουσιάσει τις αναφορές αντλώντας στοιχεία από διάφορους τύπους αρχείων και χρησιμοποιώντας OLAP ανάλυση. Τα Dashboards που εμφανίζει επιτρέπουν στους χρήστες να κατανοούν καλύτερα τα αριθμητικά δεδομένα και να εξασφαλίζει την οπτική απεικόνιση μίας συνολικής κατάστασης. Τέλος, οι δυνατότητες ενσωμάτωσης δεδομένων της Jaspersoft είναι αξιόπιστες. Η εξαγωγή, ο μετασχηματισμός και η φόρτωση δεδομένων (ETL) δίνει την δυνατότητα στους χρήστες να μπορούν να μεταφέρουν δεδομένα διαφορετικού τύπου και από διαφορετικές πηγές σε ένα μόνο σημείο. Στο παρακάτω πίνακα αναφέρονται οι σημαντικότερες δυνατότητες της εφαρμογής Jaspersoft. Εικόνα 21 Βασικές δυνατότητες της εφαρμογής Jaspersoft 54
Τα λειτουργικά συστήματα στα οποία μπορεί να εγκατασταθεί είναι : Windows Linux Android Mac Web-based Μπορεί ο καθένας να εγκαταστήσει το Jaspersoft δοκιμαστικά για 60 ημέρες αλλά γενικότερα δεν υπάρχει τιμολογιακή πολιτική δημοσιευμένη. Θα πρέπει εάν κάποιος ενδιαφέρετε να απευθύνει στην εταιρεία.. 55
4.6 SpagoBI Το SpagoBI είναι μια εφαρμογή επιχειρηματικής ευφυΐας, ανοικτού κώδικα όπου δημιουργήθηκε το 2004 από την SpagoWorld μία πρωτοβουλία που ανήκει στην Engineering Group. Στόχος της ομάδας ήταν η δημιουργία ενός λογισμικού επιχειρηματικής ευφυΐας στηριζόμενο στην ευελιξία και την προσαρμοστικότητα του περιβάλλοντος και των αναγκών των χρηστών. Βασική προϋπόθεση όλων αυτών η ανταλλαγή γνώσεων και τεχνογνωσίας. Η εφαρμογή είναι μία σουίτα δυνατοτήτων επιχειρηματικής ευφυΐας η οποία περιλαμβάνει : Αναφορές που μπορούν να εξαχθούν σε αρχεία με την μορφή HTML, PDF, XLS, XML, TXT, CSV και RTF OLAP Διαγράμματα KPIs Αναφορές ad hoc Οπτικοποίηση χαρτών Εξόρυξη δεδομένων Ανάλυση σχέσεων μεταξύ δεδομένων ETL μέσω του Talend Open Studio Η εφαρμογή διανέμεται δωρεάν και μπορεί κάποιος να την χρησιμοποιήσει, να την τροποποιήσει ή να την μελετήσει σύμφωνα με τους όρους του Mozilla Public License v. 2.0. Το SpagoBI μπορεί να εγκατασταθεί σε λειτουργικά συστήματα : Windows XP Server MS Windows 7 56
Linux RHEL4 - AMD64/Intel64 Linux RHEL4 - x86 Linux RHEL5 - AMD64/Intel64 Linux RHEL5 - x86 Ubuntu 9.10 και μετά Το παρακάτω σχήμα αποτυπώνει την αρχιτεκτονική του SpagoBI Server ο οποίος είναι η κεντρική μονάδα της εφαρμογής SpagoBI. Εικόνα 22 Αρχιτεκτονική SpagoBI Server 57
4.7 ReportServer Η εφαρμογή ReportServer είναι μία πλατφόρμα επιχειρηματικής ευφυΐας ανοικτού κώδικα που μπορεί να ενσωματώσει και να διαχειριστεί αναφορές από άλλες εφαρμογές όπως από την εφαρμογή BIRT,από την εφαρμογή Jasper και από την SAP Crystals Reports αλλά και να δημιουργήσει και ανά διαχειριστεί νέες αναφορές. Η εφαρμογή έχει δύο εκδόσεις : την ReportServer Community και την ReportServer Enterprise. Η πρώτη διατίθεται δωρεάν και παρέχει αυξημένες δυνατότητες σχεδίασης και οπτικοποίησης αναφορών. Η δεύτερη με επιπλέον δυνατότητες κοστολογείται από την εταιρεία με 1.999 ανά server χωρίς να περιλαμβάνονται οι νέες εκδόσεις οι οποίες έχουν επιπλέον κόστος. Στους παρακάτω πίνακες αναφέρονται οι δυνατότητες της community και της enterprise έκδοσης. 58
59
Εικόνα 23 Χαρακτηριστικά ReportServer Community και ReportServer Enterprice Η εφαρμογή μπορεί να εγκατασταθεί στα ακόλουθα λειτουργικά συστήματα : Windows Linux Max OS X 60
και σε υπηρεσίες Cloud όπως Amazon EC2, Microsoft Azure, Oracle Cloud Platform, Digital Ocean, και VMware vcloud Air. 61
4.8 Tableau Public Η εταιρεία Tableau Software ιδρύθηκε το 2003 από τον καθηγητή του Πανεπιστημίου του Stanford Chris Stolte και τον Christian Chabot και έχει έδρα το Σηάτλ των Ηνωμένων Πολιτειών. Ο στόχος τους ήταν να δημιουργήσουν προϊόντα επιχειρηματικής ευφυΐας και να βοηθήσουν τον επιχειρηματικό κόσμο να βλέπει και να κατανοεί τα δεδομένα με προσιτό τρόπο. Οι εφαρμογές τους έχουν σαν στόχο την συνεργασία βάσεων δεδομένων, κύβων και υπολογιστικών φύλλων ώστε να παραχθούν αποτελέσματα μέσω γραφημάτων. Οι εφαρμογές που παρέχει η εταιρεία είναι η Tableau Desktop παίρνει δεδομένα ακόμη και online και τα μετατρέπει σε εικόνες με έναν εντελώς διαδραστικό τρόπο. Η Tableau Server είναι μια εφαρμογή για επιχειρήσεις όπου μπορούν μέσω αυτού να μοιράζονται τα αποτελέσματα της επεξεργασίας των δεδομένων τους μέσω web. Τέλος η Tableau On line έχει την ίδια λειτουργικότητα με την Tableau Server αλλά χρησιμοποιώντας την τεχνολογία Cloud. Η εταιρεία προσφέρει δωρεάν την έκδοση Tableau Public με την οποία μπορεί κάποιος να αξιοποιήσει τις δυνατότητες της Tableau Desktop αλλά έχεις τους εξής περιορισμούς : Μπορεί να εισαχθούν μόνο αρχεία excel ή csv Δεν μπορεί να συνδεθεί με βάσεις δεδομένων Δεν μπορεί ο χρήστης να αποθηκεύσει τα αρχεία του στον υπολογιστή του παρά μόνο στον Tableau Public account χωρητικότητας 10GB τα οποία και δημοσιοποιούνται. Οι προτεινόμενες ελάχιστες απαιτήσεις του συστήματος για να μπορεί να δουλέψει η εφαρμογή Tableau Desktop ή και Tableau Public είναι : Για εκδόσεις Microsoft Windows 7 και νεώτερες (32-bit and 64-bit) Microsoft Server 2008 R2 or newer Intel Pentium 4 or AMD Opteron processor or newer 2 GB memory 1.5 GB minimum free disk space 62
1366 x 768 screen resolution or higher Για Mac : imac/macbook computers 2009 or newer OSX 10.10 or newer 5 GB minimum free disk space 1366 x 768 screen resolution or higher 63
4.9 Jedox Η εταιρεία JEDOX AG ιδρύθηκε απο τον Kristian Raue το 2002 στο Freiburg im Breisgau της Γερμανίας. Από το 2008 η εταιρεία εισήχθηκε στο χρηματιστήριο και υποστηρίζεται, μεταξύ άλλων, από την KfW-Bank και τις εταιρίες επιχειρηματικών κεφαλαίων Wecken & Cie και ecapital. Σήμερα εργάζονται σε αυτήν 100 εργαζόμενοι. Η εταιρεία ανέπτυξε την εφαρμογή Jedox για να δημιουργήσει λύσεις επιχειρηματικής ευφυΐας. Ο πυρήνας της εφαρμογής είναι ένα πολυδιάστατος διακομιστείς OLAP που έχει σχεδιαστεί για προγραμματισμό, ανάλυση, αναφορά και ενοποίηση δεδομένων. Ο διακομιστείς σε πραγματικό χρόνο διαχειρίζεται τα δεδομένα και τα διατηρεί στην προσωρινή μνήμη για γρήγορη πρόσβαση. Τα API σε Java, PHP, C / C ++ ή.net που είναι διαθέσιμα μπορούν να χρησιμοποιηθούν για την ενσωμάτωση της βάσης δεδομένων Jedox OLAP σε άλλα περιβάλλοντα λογισμικού. Η εφαρμογή χρησιμοποιεί τα φύλλα του Excel 2007 της Microsoft ως χώρο εργασίας του χρήστη. Υπάρχει επίσης και μία έκδοση για OpenOffice που ονομάζεται PalOOCa. Μέσω της σύνδεσης αυτής οι χρήστες δεν χρειάζεται να έχουν εμπειρία σε θέματα προγραμματισμού για να αντλήσουν σύνθετες αναφορές. Η εταιρεία διαθέτει το προϊόν της δοκιμαστικά για 30 ημέρες ή για 14 ημέρες στο Cloud. Για την αγορά του υπάρχουν 4 εκδόσεις. Η βασική (Starter) που περιλαμβάνει 5 χρήστες με πρόσβαση στην βάση δεδομένων Jedox In-Memory, το Jedox Excel Add-in, το Jedox Web, το Jedox Mobile και το εργαλείο Jedox Integrator. Το κόστος της ανέρχεται σε 160 ευρώ ανά χρήστη ετησίως. Την Business έκδοση όπου περιλαμβάνει 10 χρήστες και επιτρέπει να προστεθούν και άλλοι ανάλογα τις ανάγκες της επιχείρησης. Οι λύσεις Cloud είναι η επιπλέον λειτουργικότητα που δίνεται σε σχέση με την Starter έκδοση. Η Premium έκδοση περιλαμβάνει 20 χρήστες και σημαντικές εκπτώσεις για να προστεθούν χρήστες ως προγραμματιστές ή ως χρήστες οι οποίοι θα βλέπουν μόνο τα αποτελέσματα. Οι λύσεις Cloud στην έκδοση αυτή λειτουργούν σε διακομιστές premium για υψηλότερες επιδόσεις και περιλαμβάνουν τη σύνδεση Cloud VPN. Τέλος η έκδοση All-inclusive Enteprice 64
όπου διαθέτει μεγαλύτερη ταχύτητα, 30 χρήστες και όλες τις δυνατότητες των προηγούμενων εκδόσεων. Δεν υπάρχει συγκεκριμένη τιμολόγηση των εκδόσεων εκτός από την έκδοση Starter. Στους παρακάτω πίνακες εμφανίζονται αναλυτικά οι δυνατότητες της κάθε έκδοσης Εικόνα 24 Χαρακτηριστικά εκδόσεων Jedox Οι δυνατότητες που καθιστούν το Jedox ως ένα από τα κορυφαία εργαλεία επιχειρηματικής ευφυΐας είναι το web περιβάλλον, η υποστήριξη για κινητά τηλέφωνα, ETL, η ενσωμάτωση SAP και η διαχείριση μεγάλων όγκων δεδομένων. 65
Συγκεκριμένα μέσω του Jedox Web ο χρήστης μπορεί να εισάγει δεδομένα στην βάση Jedox OLAP μέσα από ένα πρόγραμμα περιήγησης ιστού. Οι αναφορές μετατρέπονται σε εφαρμογές ιστού και μπορούν να τις διαχειριστούν οι χρήστες χωρίς να έχουν εγκατεστημένο το Excel μέσω ενός προγράμματος περιήγησης ιστού. Οι χρήστες επίσης μπορούν να έχουν πρόσβαση στις αναφορές είτε μέσω smartphones είτε μέσω tablet χρησιμοποιώντας την δυνατότητα που τους δίνεται μέσω του Jedox Web. Υπάρχει όμως και εφαρμογή για κινητά ios και Android. Υπάρχει πλήρης επικοινωνία μεταξύ των κινητών συσκευών και των βάσεων δεδομένων Jedox. Το Jedox ETL είναι μια εφαρμογή όπου εξάγει δεδομένα από διαφορετικές πηγές και τα εισάγει στον Jedox OLAP. Το ETL χρησιμοποιεί τα υφιστάμενα συστήματα σχεσιακών βάσεων δεδομένων όπως Oracle Microsoft SQL Server MySQL και PostgreSQL και τα συνδέει μέσω του συστήματος JDBC. Επίσης μπορούν να εξαχθούν στοιχεία και από άλλες μορφές αρχείων, απο το διαδίκτυο και απο συστήματα LDAP. Ειδικά για τα συστήματα SAP έχει σχεδιαστεί μία ειδική επικοινωνία ETL που ονομάζεται Jedox SAP Connector η οποία συνδέει τα συστήματα SAP SAP NetWeaver, όπως SAP-R / 3, SAP-ERP και SAP Business Warehouse (BW) δίνοντας την δυνατότητα στα συστήματα αυτά να ενσωματώσουν λύσεις επιχειρηματικής ευφυΐας. Τέλος η εταιρεία διαθέτει την εφαρμογή μέσω Cloud χρησιμοποιώντας είτε το Amazon AWS είτε του Microsoft Azure. 66
4.10 QlikView Η εταιρεία Qlik ιδρύθηκε το 1993 στο Lund της Σουηδίας. Κύριο αντικείμενο είχε την δημιουργία λογισμικού στον τομέα της επιχειρησιακής ευφυΐας. Το προϊόν που ανέπτυξαν για προσωπικούς υπολογιστές ήταν το QuikView. Τα πρώτα 4 γράμματα της ονομασίας του προϊόντος προσδιόριζαν και την φιλοσοφία της εταιρείας και προέρχονται από τις λέξεις Quality, Understanding, Interaction, Knowledge. Σήμερα το QlikView είναι το προϊόν της εταιρείας Qlik στον τομέα της επιχειρηματικής ευφυΐας. Η εφαρμογή δημιουργεί αναλύσεις και πίνακες ελέγχου προσαρμοσμένους στις επιχειρησιακές ανάγκες. Η εφαρμογή μπορεί να ενοποιήσει δεδομένα από πολλές πηγές και να παράξει αναφορές υψηλού επιπέδου. Επίσης μπορεί ο χρήστης να έχει πρόσβαση και έλεγχο των στοιχείων και αναφορών μέσω διαδικτύου. Τα συστήματα στα οποία μπορεί να εγκατασταθεί η εφαρμογή QlikView είναι : Microsoft Windows 7 x64 Microsoft Windows 8.1 x64 Microsoft Windows 10 x64 Microsoft Windows Server 2008 x64 Edition Microsoft Windows Server 2008 R2 Microsoft Windows Server 2012 Microsoft Windows Server 2012 R2 Microsoft Windows Server 2016 Η τιμολογιακή πολιτική της εταιρείας έχει τις στάνταρ εκδόσεις δωρεάν και τις εκδόσεις Enterprise κατόπιν συμφωνίας με την εταιρεία όπως φαίνεται στους παρακάτω πίνακες 67
Εικόνα 25 Qlik Pricing 68
4.11 Συγκριτικοί Πίνακες Η ανάλυση των χαρακτηριστικών των εργαλείων επιχειρηματικής ευφυΐας που αναπτύχθηκε στις παραπάνω ενότητες μας επέτρεψε να συντάξουμε τους παρακάτω πίνακες. Πίνακας Χαρακτηριστικών Κώδικας Άδειες Χρήσης Κόστος RapidMiner Open source Ναι 0$-10.000$ KNIME Open source Όχι 0 Pentaho Open source Ναι? Birt Open source Όχι 0 Jaspersoft Open source Ναι? SpagoBI Open source Όχι 0 ReportServer Open source Ναι 0-1.999 Tableau Public Ιδιωτικός Όχι 0 Jedox Open source Ναι 160 -? QlikView Open source Ναι 0$-?$ Πίνακας 1- Κατηγορία Χαρακτηριστικών 1 69
Τοπικά Server Cloud Mobile Web RapidMiner KNIME Pentaho Birt Jaspersoft SpagoBI ReportServer Tableau Public Jedox QlikView Πίνακας 2- Κατηγορία χαρακτηριστικών 2 Data Mining BI RapidMiner KNIME Pentaho Birt Jaspersoft SpagoBI ReportServer Tableau Public Jedox QlikView Πίνακας 3- Κατηγορία χαρακτηριστικών 3 70
ETL Cubes Visualization Classification Clustering RapidMiner KNIME Pentaho Birt Jaspersoft SpagoBI ReportServer Tableau Public Jedox QlikView Πίνακας 4- Κατηγορία χαρακτηριστικών 4 71
KEΦΑΛΑΙΟ 5 Μελέτη Περίπτωσης Εισαγωγικά Στοιχεία Μετά την καταγραφή των βασικών λειτουργιών που παρουσιάζονται στον πίνακα 4 των 10 εφαρμογών επιχειρηματικής ευφυΐας ανοικτού κώδικα που επιλέξαμε, θα επικεντρωθούμε και θα καταγράψουμε με πραγματικά δεδομένα το πως αντιμετωπίζουν 4 από τις 10 εφαρμογές δύο διαδικασίες που εντάσσονται στον χώρο της επιχειρηματικής ευφυΐας. Η πρώτη διαδικασία αφορά την δημιουργία κύβων και εάν οι εφαρμογές που θα χρησιμοποιήσουμε μπορούν να μετατρέψουν τα δεδομένα μας σε πίνακες με διαστάσεις και να οπτικοποιήσουν τα αποτελέσματα σε ένα γράφημα. Η δεύτερη διαδικασία αφορά μία μέθοδο πρόβλεψης εάν δηλαδή οι εφαρμογές μπορούν να προβλέψουν τιμές μέσω μοντέλων παλινδρόμησης. Για την πρώτη διαδικασία επιλέχθηκαν οι εφαρμογές Jedox και QlikView καθώς και οι δύο έχουν ως κοινό την χρησιμοποίηση ως περιβάλλον διεπαφής με τον χρήστη παρόμοιο με το Excel της Microsoft. Για την δεύτερη διαδικασία επιλέχθηκαν οι εφαρμογές RapidMiner και KNIME καθώς δεν υπάρχει περιορισμός για τις άδειες χρήσης τουλάχιστον για τα δεδομένα που θα επεξεργαστούμε και η εγκατάστασή τους δεν προϋποθέτει σημαντικούς λειτουργικούς πόρους. 72
5.1 Καταγραφή δεδομένων Θέλοντας να εξετάσουμε με πραγματικά δεδομένα τον κύβο και το μοντέλο παλινδρόμησης και να προχωρήσουμε σε μία καταγραφή σχετικά με τον τρόπο εφαρμογής τους και τα προσδοκώμενα αποτελέσματα αντλήσαμε dataset από το κυβερνητικό site data.gov.uk του Ηνωμένου Βασιλείου. Το εν λόγο site παρέχει δεδομένα από μέρη της κυβέρνησης, από δημόσιους φορείς και από τοπικές αρχές. Επιλέξαμε να χρησιμοποιήσουμε ένα σύνολο δεδομένων που αφορούν τις πωλήσεις κατοικιών σε Αγγλία και Ουαλία σε μορφή csv. Η επιλογή έγινε και λόγω των μεγεθών των αρχείων (από 11MB έως 2,86GB) αλλά κυρίως λόγω του πλήθους των στοιχείων καθώς τα δεδομένα αυτά καταγράφονται από το 1995 έως σήμερα [31]. Οι στήλες του αρχείου καθώς και το είδος του περιεχομένου τους, παραθέτονται παρακάτω στον πίνακα 5. Κωδικός στήλης Επεξήγηση στήλης ID PRICE DATE_OF_SALES POSTCODE PROPERTY_TYPE Τιμή Ημερομηνία Πώλησης Ο ταχυδρομικός κώδικας της κατοικίας Τύπος Ιδιοκτησίας D = Μονοκατοικία, S = Ημιανεξάρτητη, T = Μεζονέτα, F = Διαμέρισμα, = Άλλο O Old/New Ηλικία ακινήτου Y = νεόδμητο ακίνητο, N = όχι νεόδμητο DURATION Διάρκεια F = Αγορά, L = Μακροχρόνια Μίσθωση PAON SAON Ο αριθμός ή το όνομα της κατοικίας Δευτερεύον όνομα κατοικίας. Όταν ένα ακίνητο έχει χωριστεί σε ξεχωριστές μονάδες (για παράδειγμα, διαμερίσματα), ο PAON (παραπάνω) θα προσδιορίσει το κτίριο και θα καθοριστεί ο SAON που θα προσδιορίζει τη ξεχωριστή μονάδα / διαμέρισμα. 73
STREET Locality Town/City District County PPD Category Type Οδός Τοποθεσία Πόλη Περιοχή Χώρα Τύπος της αξίας πώλησης Record Status - monthly file only A = Ιδιοκτησία που πωλείται στο σύνολο της αξίας της. B = Πρόσθετη τιμή πώλησης συμπεριλαμβανομένων των μεταβιβάσεων Οι συναλλαγές κατηγορίας Β εντοπίστηκαν από τον Οκτώβριο του 2013. Υποδεικνύει προσθήκες, αλλαγές και διαγραφές στις εγγραφές A = Προσθήκη C = Αλλαγή D = Διαγραφή. Πίνακας 5 Στήλες αρχείου csv 5.2 Πίνακες διαστάσεων Έχοντας τα δεδομένα της υποενότητας 5.1, θα θέλαμε να απαντήσουμε στο ερώτημα πως κυμαίνονται οι πωλήσεις των νεόδμητων κατοικιών στην Αγγλία και στην Ουαλία τα τελευταία 5 χρόνια ανά τρίμηνο όσον αναφορά τον αριθμό των πωλήσεων αλλά και την μέση τιμή πώλησης. Χρειαζόμαστε για να έχουμε τα επιθυμητά αποτελέσματα ένα πίνακα με διαστάσεις τις στήλες Old/New όπου Υ η ένδειξη νεόδμητης κατοικίας και την DATE_OF_SALES όπου αναφέρεται η ημερομηνία πώλησης της κατοικίας. Οι μετρικές που θα χρησιμοποιήσουμε είναι η στήλη PRICE για να μπορέσουμε να υπολογίσουμε την μέση τιμή πώλησης και η στήλη ID για να μπορέσουμε να βρούμε τον αριθμό των πωλήσεων. Για να μπορέσουμε να αποφύγουμε αποτελέσματα που δεν απεικονίζουν την πραγματικότητα θα πρέπει να επεξεργαστούμε το αρχείο μας πριν προσπαθήσουμε να 74
αντλήσουμε πληροφορίες από αυτό. Ελέγξαμε εάν υπάρχουν τιμές στις στήλες που είναι βασικές για το ερώτημά μας. Επιλέξαμε τις εγγραφές που αφορούν τα έτη από το 2012 έως το 2016. Διαγράψαμε τις εγγραφές με την ένδειξη D στην στήλη Record Status - monthly file only καθώς η ένδειξη αυτή δηλώνει την διαγραφή των συγκεκριμένων εγγραφών. Τροποποιήσαμε την μορφή του πεδίου της ημερομηνίας από YYYY-MM-DD ss:ss σε DD-MM-YYYY και διαγράψαμε τις στήλες PAON, SAON, Street, Locality, PPD Category Type και Record Status - monthly file only καθώς δεν μας δίνουν κάποια πληροφορία για τα ερωτήματα που θέλουμε να απαντήσουμε και αποθηκεύσαμε το νέο μας αρχείο με το όνομα Data Set 2012-2016.xlsx 75
5.2.1 Jedox Εγκαταστήσαμε την εφαρμογή Jedox 7.1 Premium for windows σε προσωπικό υπολογιστή με άδεια ελεύθερης χρήσης για 30 ημέρες. Η εφαρμογή περιλαμβάνει τον Jedox OLAP Server και το Jedox Excel Add-in. Ο Jedox OLAP Server είναι μία βάση δεδομένων φορτωμένη εξ ολοκλήρου στην μνήμη που υπολογιστή για γρήγορη επεξεργασία και το Jedox Excel Add-in προστίθεται ως επιλογή στο Excel. Μετά την εγκατάσταση τρέξαμε το Excel και ανοίξαμε το αρχείο Data Set 2012-2016.xlsx. Για να μπορέσει το Jedox να εντοπίσει τις διαστάσεις και τις μετρικές ώστε να έχουμε τα αποτελέσματα που θέλουμε έπρεπε να χρησιμοποιήσουμε τους ανάλογους τύπους που είναι αναγνωρίσιμοι από την εφαρμογή. Για το ποιές είναι οι μετρικές που θέλουμε να χρησιμοποιήσουμε δηλώσαμε στην επικεφαλίδα τον στηλών ID και PRICE την ένδειξη [MES] επομένως η επικεφαλίδες των στηλών αυτών τροποποιήθηκαν ως εξής ID[MES] και PRICE[MES]. Για τις διαστάσεις που θέλουμε να χρησιμοποιήσουμε δηλώσαμε στην επικεφαλίδα της στήλης N_O, N_O[1] ως πρώτη διάσταση και στην στήλη της ημερομηνίας DATE_OF_SALES DATE_OF_SALES[DATE,dd.MM.yyyy,MMM yy,en,2012,2016] ώστε να μπορέσουμε να έχουμε την ένδειξη του χρόνου σε μήνες, τρίμηνα και έτος. Στην συνέχεια ανοίξαμε ένα νέο φύλλο και φορτώσαμε τα δεδομένα του πρώτου φύλλου μέσα από την επιλογή του Jedox Data-Driven Modeling. Αφού φορτώθηκαν τα δεδομένα πατώντας την επιλογή Modeler βλέπουμε ότι έχει δημιουργηθεί μία βάση με το όνομα του αρχείου και τις διαστάσεις και τις μετρικές που έχουμε δηλώσει καθώς και ο κύβος με τις διαστάσεις που ορίσαμε όπως φαίνεται στη εικόνα 26. 76
Εικόνα 26 Jedox- Modeler Για να μπορέσουμε να δώσουμε απάντηση στο πρώτο ερώτημα δηλαδή ποιό είναι το πλήθος των πωλήσεων των νεόδμητων κατοικιών από το 2012 έως το 2016 χρησιμοποιήσαμε την συνθήκη PALO.DATA για να αθροίσει τον αριθμό της στήλης ID ανά τρίμηνο. Τα αποτελέσματα παρουσιάζονται στην εικόνα 27 και 28. Εικόνα 27 Jedox- Αριθμός κατοικιών ανά τρίμηνο για τα έτη 2012-2016- Colum Cart 77
Εικόνα 28 Jedox- Αριθμός κατοικιών ανά τρίμηνο για τα έτη 2012-2016 - Pie Chart Για να μπορέσουμε να δώσουμε απάντηση στο δεύτερο ερώτημα δηλαδή ποιά είναι η μέση τιμή πώλησης των νεόδμητων κατοικιών από το 2012 έως το 2016 χρησιμοποιήσαμε την συνθήκη PALO.DATA.AVG για να μας εμφανίσει τον μέσο όρο των τιμών ανά τρίμηνο της στήλης PRICE. Τα αποτελέσματα παρουσιάζονται στην εικόνα 29. Εικόνα 29 Jedox- Μέση τιμή πώλησης κατοικιών ανά τρίμηνο για τα έτη 2012-2016 - Line Chart 78
5.2.2 QlikView Εγκαταστήσαμε την εφαρμογή QlikView Personal Edition όπου είναι το προϊόν της Qlik για προσωπικούς υπολογιστές και δεν απαιτεί άδειες. Η εγκατάσταση έγινε τοπικά σε υπολογιστή με λειτουργικό Windows 8.1 x64. H εφαρμογή κατά την έναρξη της με έναν οδηγό καθορίζει τα βήματα του χρήστη ώστε να φτάσει στο επιθυμητό αποτέλεσμα της επεξεργασίας και οπτικοποίησης των δεδομένων του. Εισάγαμε το αρχείο όπου η εφαρμογή αναγνώρισε τις επικεφαλίδες των στηλών και το είδος τους ξεχωρίζοντας τις αλφαριθμητικές, τις αριθμητικές και τις στήλες με περιεχόμενο ημερομηνιών. Έπειτα επιλέξαμε την μορφή του διαγράμματος που θέλουμε και ορίσαμε τις διαστάσεις και την συνθήκη των μετρικών που θα χρησιμοποιήσουμε. Στο δικό μας ερώτημα οι διαστάσεις είναι η στήλη Ο_Ν και η στήλη DATE_OF_SALES και οι μετρικές, ο αριθμός της στήλης ID Count(ID) και ο μέσος όρος των τιμών της στήλης PRICE Avg(PRICE). Η εφαρμογή μας εμφανίζει μετά το τέλος της διαδικασίας έναν πίνακα με τις εγγραφές του αρχείου μας και τα δύο διαγράμματα που επιλέξαμε όπως φαίνεται στην εικόνα 27. Σε αυτό το στάδιο η εφαρμογή έχει δημιουργήσει έναν αρχείο QVD (QlikView Data) όπου περιέχει τον πίνακα των δεδομένων μας. Για να παρουσιάσουμε την χρονική διάσταση της στήλης DATE_OF_SALES ανά τρίμηνο και ανά έτος χρειάστηκε να επέμβουμε στο script που δημιουργεί η εφαρμογή κατά την εισαγωγή του αρχείου με τις παρακάτω γραμμές κώδικα : Month(DATE_OF_SALES) as Month, Year(DATE_OF_SALES) as Year, 'Q' & Ceil(Month(DATE_OF_SALES)/3) as Quarter, Dual(Year(DATE_OF_SALES) & '-Q'& Ceil(Month(DATE_OF_SALES)/3),Year(DATE_OF_SALES)& Ceil(Month(DATE_OF_SALES/3))) as YearQtr, Date(MonthStart(DATE_OF_SALES),'MMM-YYYY') as YearMonth Μέσω της επιλογής "Edit Script" δίνεται η δυνατότητα και επέμβει ο χρήστης και να διαμορφώσει με οποιονδήποτε τρόπο τα δεδομένα του είτε απλώς αλλάζοντας τις ονομασίες των στηλών είτε δημιουργώντας νέες στήλες βασισμένες σε αυτές που ήδη έχει εισάγει, τις οποίες μπορεί και μπορεί μετά να χρησιμοποιήσει στην οπτικοποίηση των αποτελεσμάτων του. 79
Εικόνα 30 Qlik- Εισαγωγή δεδομένων και διαγραμμάτων Η ενσωμάτωση τους παρουσιάζεται στην εικόνα 28. Εικόνα 31 Qlik- Script Ημερομηνίας Στην οπτική απεικόνιση των αποτελεσμάτων των ερωτημάτων μας, οι επιλογές είναι πάρα πολλές και σε επίπεδο σχεδιασμού αλλά και χρωμάτων. Τα αποτελέσματα και η απεικόνισή τους μπορούν να εκτυπωθούν ή να αποθηκευτούν σε αρχεία. Στην εικόνα 80
29 και 30 εμφανίζονται κάποιες από τις δυνατότητες που έχουμε μέσω της εφαρμογής για να οπτικοποιήσουμε τα αποτελέσματά μας. Εικόνα 32 Αριθμός πωλήσεων και μέση τιμή πώλησης κατοικιών Αγγλίας & Ουαλίας από το 2012 έως το 2016 Εικόνα 33 QlikView- Line chart και Pie Chart 81
5.3 Παλινδρόμηση Χρησιμοποιώντας το ίδιο αρχείο με την ενότητα 5.2 δηλαδή το Data Set 2012-2016.xlsx το οποίο περιλαμβάνει τις πωλήσεις κατοικιών για τα έτη 2012 έως 2016 στην Αγγλία και στην Ουαλία, θα θέλαμε να προβλέψουμε την τιμή πώλησης των νεόδμητων κατοικιών. Για να το πετύχουμε αυτό θα αναπτύξουμε μοντέλα πρόβλεψης στις εφαρμογές RapidMiner και KNIME και θα εξετάσουμε κατά πόσο υποστηρίζουν αλγόριθμους παλινδρόμησης και εάν κάνουν επικύρωση των αποτελεσμάτων τους. 5.3.1 RapidMiner Εγκαταστήσαμε την εφαρμογή RapidMiner Studio for Windows 64 bit σε προσωπικό υπολογιστή με ελεύθερη άδεια χρήσης για επεξεργασία εγγραφών έως 10.000. Το περιβάλλον της εφαρμογής είναι πολύ προσιτό προς τον χρήστη και κατανοητό τουλάχιστον ως προς την εισαγωγή των δεδομένων. Η εφαρμογή αναγνώρισε αυτόματα την επικεφαλίδα του αρχείου και τους τύπους των δεδομένων. Όλες οι δυνατότητες της εφαρμογής βρίσκονται ως επιλογές στην ενότητα Operators. Επιλέξαμε να χρησιμοποιήσουμε την επιλογή Cross Validation για να απαντήσουμε στο αρχικό μας ερώτημα. Ορίσαμε ως Label την στήλη PRICE και προχωρήσαμε στις συνδέσεις των επιλογών όπως φαίνεται στην εικόνα 34 και 35. 82
Εικόνα 34 RapidMiner - Model Εικόνα 35 RapidMiner - 10-fold Cross Validation Τα αποτελέσματα της εκπαίδευσης του μοντέλου μας φαίνεται στην εικόνα 36 όπου η πρόβλεψη της τιμής πώλησης μιας νεόδμητης κατοικίας είναι 249.950 λίρες. 83
Εικόνα 36 RapidMiner - Result 84
5.3.2 KNIME Εγκαταστήσαμε την εφαρμογή KNIME σε προσωπικό υπολογιστή με ελεύθερη άδεια χρήσης, ένα από τα λίγα λογισμικά BI που δεν έχουν κανένα κόστος εγκατάστασης και εξακολουθούν να είναι ανοικτού κώδικα. Εισάγαμε το αρχείο Data Set 2012-2016.xlsx και ορίσαμε ως Class την στήλη Ν_Ο όπου έχει την ένδειξη των παλιών και νέων κατοικιών και ως Prediction Colum την στήλη PRICE καθώς θέλουμε να προβλέψουμε την τιμή πώληση νέων κατοικιών. Εικόνα 37 KNIME - Model Στην εικόνα 37 αποτυπώνεται το μοντέλο που δημιουργήσαμε και στην εικόνα 38 η ανάλυση του υπομοντέλου Cross Validation. Τέλος στην εικόνα 39 εμφανίζονται τα αποτελέσματα της πρόβλεψης. Διαπιστώσαμε ότι και οι δύο εφαρμογές καταλήγουν στο ίδιο αποτέλεσμα. 85
Εικόνα 38 KNIME -Cross Validation Εικόνα 39 KNIME - Result 86