Δ Ι Π Λ Ω Μ ΑΤ Ι Κ Η Ε Ρ ΓΑ Σ Ι Α

Transcript

1 Α Ρ Ι Σ Τ Ο Τ Ε Λ Ε Ι Ο Π Α Ν Ε Π Ι Σ Τ Η Μ Ι Ο Θ Ε Σ Σ Α Λ Ο Ν Ι Κ Η Σ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ Δ Ι Π Λ Ω Μ ΑΤ Ι Κ Η Ε Ρ ΓΑ Σ Ι Α ΠΑΡΑΓΩΓΗ ΚΑΙ ΟΠΤΙΚΟΠΟΙΗΣΗ ΚΑΝΟΝΩΝ ΣΥΣΧΕΤΙΣΗΣ ΓΙΑ ΔΕΔΟΜΕΝΑ ΣΥΝΑΛΛΑΓΩΝ ΣΥΓΓΡΑΦΕΑΣ ΙΩΣΗΦΙΔΟΥ ΓΕΩΡΓΙΑ ΕΠΙΒΛΕΠΩΝ ΚΑΘΗΓΗΤΗΣ: Βλαχάβας Ιωάννης ΘΕΣΣΑΛΟΝΙΚΗ 2016

2

3 ΠΕΡΙΛΗΨΗ Π Ε Ρ Ι Λ Η Ψ Η Η παρούσα εργασία ασχολείται με την παρουσίαση και ανάλυση των εννοιών και των μεθόδων της επιχειρηματικής ευφυΐας και της μηχανικής μάθησης. Στο πλαίσιο αυτό γίνεται μελέτη των αλγορίθμων παραγωγής κανόνων συσχέτισης με σκοπό την κατανόηση τους. Ως εφαρμογή, πραγματοποιείται παραγωγή κανόνων συσχέτισης σε σύνολο δεδομένων συναλλαγών, με την παρουσία πρόσθετων πληροφοριών για την προσφατότητα (Recency) και αξία (Value) κάθε συναλλαγής. Τα επιπλέον δεδομένα χρησιμοποιήθηκαν με τέτοιο τρόπο ώστε να γίνει δυνατό να χαρακτηριστούν οι παραγόμενοι κανόνες ως πρόσφατοι ή ως προσοδοφόροι. Ως επιπλέον στοιχείο ανάλυσης δημιουργήθηκε ένα γράφημα για την οπτικοποίηση των κανόνων, και την δυνατότητα γρήγορης σύγκρισης μεταξύ των πιο ισχυρών κανόνων ως προς την προσφατότητα και την αξία τους. Στην συνέχεια υλοποιείται και παρουσιάζεται μία εφαρμογή ως εργαλείο για την ανακάλυψη κανόνων συσχέτισης σε δεδομένα συναλλαγών η οποία εμπεριέχει και την ανάλυση προσφατότητας αξίας των κανόνων συσχέτισης. Η διπλωματική αυτή έγινε στα πλαίσια του Διατμηματικού Μεταπτυχιακού «Πληροφορικής και Διοίκησης» των τμημάτων Πληροφορικής και Οικονομικών του Αριστοτελείου Πανεπιστημίου Θεσσαλονίκης και κατατίθεται στο Αριστοτέλειο Πανεπιστήμιο τον Μάρτιο του ΠΕΡΙΛΗΨΗ 1

4

5 ABSTRACT A B S T R A C T This particular thesis discusses and presents the concepts and methods of business intelligence and machine learning. In this context there is a study of association rule generation algorithms to their understanding. As an application we run association rules on a transactional data set which contains additional information of recency and value for each transaction. The additional data were used in such a way as to make it possible to describe a generated rule as recent and/or lucrative. As an additional component of this analysis a graph-based visualization was developed to add the ability to quickly compare among the most powerful rules regarding to their recency and value. Furthermore, an application is implemented and presented as a tool for discovering association rules in transaction data, and which also includes the Recency Value graph visualization among other commonly used visualizations for association rules. The thesis was part of the Interdepartmental Master "Information and Management" of Computer Science and Economics departments of the Aristotle University of Thessaloniki. It was filed at the Aristotle University in March ABSTRACT 3

6

7 ΕΥΧΑΡΙΣΤΙΕΣ Ε Υ Χ Α Ρ Ι Σ Τ Ι Ε Σ Θα ήθελα να ευχαριστήσω τους γονείς μου και όλους όσους έχουν συμβάλει άμεσα ή έμμεσα στην διεκπεραίωση της διπλωματικής εργασίας μου. Ευχαριστώ ιδιαίτερα τον επιβλέποντα καθηγητή μου κύριο Βλαχάβα Ιωάννη που μου έδωσε την ευκαιρία να εμβαθύνω στην μελέτη ενός εξαιρετικά ενδιαφέροντος τομέα, όπως επίσης και τον διδακτορικό ερευνητή Ανέστη Φαχαντίδη για την βοήθεια και τη σωστή καθοδήγηση που μου προσέφερε οποιαδήποτε στιγμή την χρειάστηκα σε κάθε στάδιο αυτής της διαδικασίας. Τέλος θα ήθελα να ευχαριστήσω τον σύντροφο μου Ζήση για την αμέριστη στήριξη, βοήθεια και υπομονή του που συντέλεσαν σημαντικά καθ όλη την διάρκεια εκπόνησης αυτής της μελέτης. ΕΥΧΑΡΙΣΤΙΕΣ 5

8

9 ΠΕΡΙΕΧΟΜΕΝΑ Π Ε Ρ Ι Ε Χ Ο Μ Ε Ν Α ΠΕΡΙΛΗΨΗ... 1 ABSTRACT... 3 ΕΥΧΑΡΙΣΤΙΕΣ... 5 ΠΕΡΙΕΧΟΜΕΝΑ... 7 ΚΕΦΑΛΑΙΟ 1: ΕΙΣΑΓΩΓΗ... 9 ΚΕΦΑΛΑΙΟ 2: ΕΠΙΧΕΙΡΗΜΑΤΙΚΗ ΕΥΦΥΪΑ ΚΑΙ ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΈΝΝΟΙΕΣ ΤΗΣ ΕΠΙΧΕΙΡΗΜΑΤΙΚΗΣ ΕΥΦΥΙΑΣ ΚΑΙ ΤΗΣ ΜΗΧΑΝΙΚΗΣ ΜΑΘΗΣΗΣ ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΑΛΓΟΡΙΘΜΟΙ ΚΑΝΟΝΩΝ ΣΥΣΧΕΤΙΣΗΣ ΣΥΓΚΡΙΣΗ ΑΛΓΟΡΙΘΜΩΝ ΚΑΝΟΝΩΝ ΣΥΣΧΕΤΙΣΗΣ ΚΕΦΑΛΑΙΟ 3: ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΣΕ ΔΕΔΟΜΕΝΑ ΛΙΑΝΙΚΗΣ ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΣΕ ΔΕΔΟΜΕΝΑ ΛΙΑΝΙΚΗΣ ΕΡΓΑΛΕΙΑ ΠΑΡΑΓΩΓΗΣ ΚΑΙ ΟΠΤΙΚΟΠΟΙΣΗΣ ΚΑΝΟΝΩΝ ΣΥΣΧΕΤΙΣΗΣ ΔΕΔΟΜΕΝΑ ΕΙΣΑΓΩΓΗΣ ΠΡΟΕΠΕΞΕΡΓΑΣΙΑ ΔΕΔΟΜΕΝΩΝ ΠΑΡΑΓΩΓΗ ΚΑΝΟΝΩΝ ΣΥΣΧΕΤΙΣΗΣ ΠΑΡΑΓΩΓΗ ΓΡΑΦΗΜΑΤΟΣ ΠΑΡΟΥΣΙΑΣΗ ΟΛΟΚΛΗΡΩΜΕΝΟΥ ΣΥΣΤΗΜΑΤΟΣ ΠΑΡΑΓΩΓΗΣ ΚΑΝΟΝΩΝ ΚΕΦΑΛΑΙΟ 4: ΕΠΙΛΟΓΟΣ ΔΙΠΛΩΜΑΤΙΚΗΣ ΕΡΓΑΣΙΑΣ ΠΑΡΑΡΤΗΜΑ I: ΒΙΒΛΙΟΓΡΑΦΙΑ ΠΑΡΑΡΤΗΜΑ II: ΚΩΔΙΚΑΣ ΠΟΥ ΧΡΗΣΙΜΟΠΟΙΗΘΗΚΕ ΠΕΡΙΕΧΟΜΕΝΑ 7

10

11 ΚΕΦΑΛΑΙΟ 1: ΕΙΣΑΓΩΓΗ Κ Ε Φ Α Λ Α Ι Ο 1 : Ε Ι Σ Α Γ Ω Γ Η ΕΙΣΑΓΩΓΗ 9

12

13 ΚΕΦΑΛΑΙΟ 1: ΕΙΣΑΓΩΓΗ ΕΙΣΑΓΩΓΗ Τα τελευταία χρόνια, έχουμε παρατηρήσει τον όγκο των δεδομένων που παράγονται και αποθηκεύονται σχεδόν σε κάθε επιστημονικό πεδίο, να αυξάνεται ραγδαία. Διαθέτοντας λοιπόν μεγάλη ποσότητα δεδομένων, το επόμενο στάδιο γίνεται μέσω της εξόρυξης δεδομένων που μπορεί να οριστεί ως η εφαρμογή αλγορίθμων ως υπολογιστικά προγράμματα, σε δεδομένα. Χάρη στις μεθόδους της εξόρυξης δεδομένων καθίσταται δυνατή η παραγωγή, «εξόρυξη» νέας γνώσης από πολύ μεγάλα σύνολα δεδομένων και η μετατροπή των αρχικών δεδομένων σε χρήσιμη πληροφορία. Προχωρώντας ένα βήμα ακόμα παραπέρα, συναντάμε την επιστήμη της μηχανικής μάθησης. Έναν κλάδο της τεχνητής νοημοσύνης, που επιδιώκει την κατασκευή προγραμμάτων ικανών να γίνονται όλο και πιο αποτελεσματικά χωρίς να είναι ρητά προγραμματισμένα. Η ανακάλυψη Κανόνων Συσχέτισης είναι μια από τις βασικότερες τεχνικές της μηχανικής μάθησης. Μέσω αυτής της τεχνικής ανακαλύπτονται ενδιαφέροντες συσχετίσεις και σχέσεις στα δεδομένα. Οι σχέσεις αυτές προκύπτουν από τη συχνή ταυτόχρονη εμφάνιση τιμών δεδομένων. Το συνηθέστερο πεδίο εφαρμογής των κανόνων συσχέτισης είναι η ανάλυση του καλαθιού αγορών (market basket analysis), η οποία μέσω της ανάλυσης μεγάλου όγκου δεδομένων από εγγραφές επιχειρησιακών συναλλαγών, καταλήγει σε συμπεράσματα πάνω στις σχέσεις που υπάρχουν μεταξύ των προϊόντων που αγοράζουν οι καταναλωτές. Αυτού του είδους οι πληροφορίες μπορούν να βοηθήσουν σε πολλές διαδικασίες λήψης επιχειρησιακών αποφάσεων, όπως και στον τρόπο με τον οποίο θα τοποθετηθούν τα προϊόντα στα ράφια, τον σχεδιασμό ενός καταλόγου ή ακόμα και του εσωτερικού του καταστήματος. Η σημαντικότερη όμως συμβολή τους, βρίσκεται στην ανάλυση και την πρόβλεψη της καταναλωτικής συμπεριφοράς. Την παρούσα εργασία απασχολεί η εφαρμογή των κανόνων συσχέτισης σε δεδομένα συναλλαγών, με την παρουσία πρόσθετων δεδομένων σχετικά με την προσφατότητα (Recency) και την αξία (Value) των συναλλαγών, και πως αυτά τα δεδομένα μπορούν να επιστρέψουν νέες και χρήσιμες πληροφορίες σχετικές με την αγοραστική συμπεριφορά. Εν συνεχεία αναπτύχθηκαν μια σειρά από γραφήματα για την οπτικοποίηση αυτής της ανάλυσης με σκοπό να αυξηθεί η ευχρηστία της. Στο πλαίσιο της συγκεκριμένης ανάλυσης υλοποιήθηκε και μία εφαρμογή που επιτρέπει σε managers ή marketers εταιριών με δεδομένά συναλλαγών την εφαρμογή κανόνων συσχέτισης, και την λήψη του αποτελέσματος όχι μόνο στην παραδοσιακή μορφή, αλλά και στην μορφή διαγραμμάτων που καθιστούν την κατανόηση και την χρήση των παραγόμενων κανόνων πολύ πιο εύκολη. Πιο συγκεκριμένα η εργασία δομείται σε κεφάλαια ως εξής: Στο Κεφάλαιο 2, αρχικά, παρουσιάζονται, επεξηγούνται και αναλύονται οι έννοιες της Επιχειρηματικής Ευφυίας και της Μηχανικής Μάθησης και η σημασία τους στο επιχειρηματικό περιβάλλον του σήμερα. Στην συνέχεια παρουσιάζονται οι τεχνικές της μηχανικής μάθησης και οι διακρίσεις τους ανάλογα με το πρόβλημα το οποίο καλούνται να επιλύσουν. Βαρύτητα δίνεται στην τεχνική της ανακάλυψης γνώσης με κανόνες συσχέτισης που είναι και το κύριο αντικείμενο της εργασίας. Αναλύονται οι κυριότεροι αλγόριθμοι κανόνων συσχέτισης με παραδείγματα εκτέλεσής τους και μία τελική σύγκρισή τους. Το κεφαλαίο ΕΙΣΑΓΩΓΗ 11

14 ΚΕΦΑΛΑΙΟ 1: ΕΙΣΑΓΩΓΗ προχωράει με την ανάλυση, ειδικά, δεδομένων συναλλαγών με εφαρμογή κανόνων συσχέτισης για εξόρυξη νέας πληροφορίας, η οποία ονομάζεται Ανάλυση Καλαθιού Αγοράς. και στο συγκεκριμένο σημείο της εργασίας, αναλύεται η συγκεκριμένη τεχνική, η διαδικασία με την οποία εφαρμόζεται και τι είδους απαντήσεις μπορεί να προσφέρει στους αναλυτές. Τελειώνοντας το κεφάλαιο, γίνεται αναφορά στα εργαλεία που χρησιμοποιήθηκαν προκειμένου να πραγματοποιηθεί μία τέτοια ανάλυση σε ένα παραδειγματικό σύνολο δεδομένων, καθώς και των εργαλείων που χρησιμοποιήθηκαν για την ανάπτυξη μιας εφαρμογής για παραγωγή και οπτικοποίηση κανόνων συσχέτισης σε δεδομένα συναλλαγών. Στο Κεφάλαιο 3, γίνεται επεξήγηση της μεθοδολογίας και των βημάτων που ακολουθήθηκαν προκειμένου να πραγματοποιηθεί η παραγωγή κανόνων συσχέτισης στο σύνολο δεδομένων που δόθηκε, καθώς και ο τρόπος που χρησιμοποιήθηκαν τα δεδομένα προσφατότητας και αξίας για τον χαρακτηρισμό των κανόνων που προέκυψαν. Στην συνέχεια επεξηγείται η δημιουργία και η χρηστικότητα του διαγράμματος προσφατότητας-αξίας των κανόνων και το κεφάλαιο κλείνει με μία παρουσίαση της ολοκληρωμένης εφαρμογής, με εικόνες και επεξήγηση των επιλογών που προσφέρονται για την είσοδο των δεδομένων, αλλά και όλων των οπτικοποιήσεων και λοιπόν εξόδων που λαμβάνει ο χρήστης. Το κεφάλαιο 4, αποτελεί τον επίλογο της εργασίας όπου αναφέρονται τα σημεία που ήταν πιο δύσκολο να επιλυθούν, και τον τρόπο που ξεπεράστηκαν αυτές οι δυσκολίες. Το κεφάλαιο κλείνει με κάποιες προτάσεις για πιθανές μελλοντικές επεκτάσεις της μελέτης αυτής που θα προσφέρουν επιπλέον δυνατότητες. Στο Παράρτημα I παρουσιάζονται αλφαβητικά η βιβλιογραφία και οι δικτυακοί τόποι που αναφέρονται στην εργασία. Στο Παράρτημα IΙ, περιλαμβάνεται ο πηγαίος κώδικας που χρησιμοποιήθηκε για την παραγωγή της εφαρμογής, και τις ανάλυσης των κανόνων συσχέτισης με δεδομένα προσφατότητας και αξίας. ΕΙΣΑΓΩΓΗ 12

15 ΚΕΦΑΛΑΙΟ 2: ΕΠΙΧΕΙΡΗΜΑΤΙΚΗ ΕΥΦΥΪΑ ΚΑΙ ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ Κ Ε Φ Α Λ Α Ι Ο 2 : Ε Π Ι Χ Ε Ι Ρ Η Μ ΑΤ Ι Κ Η Ε ΥΦ Υ Ι Α Κ Α Ι Μ Η Χ Α Ν Ι Κ Η Μ Α Θ Η Σ Η ΕΠΙΧΕΙΡΗΜΑΤΙΚΗ ΕΥΦΥΪΑ ΚΑΙ ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ 13

16

17 ΚΕΦΑΛΑΙΟ 2:ΕΠΙΧΕΙΡΗΜΑΤΙΚΗ ΕΥΦΥΪΑ ΚΑΙ ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ ΕΠΙΧΕΙΡΗΜΑΤΙΚΗ ΕΥΦΥΙΑ ΚΑΙ ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ 2.1 ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΕΝΝΟΙΕΣ ΤΗΣ ΕΠΙΧΕΙΡΗΜΑΤΙΚΗΣ ΕΥΦΥΪΑΣ ΚΑΙ ΤΗΣ ΜΗΧΑΝΙΚΗΣ ΜΑΘΗΣΗΣ Επιχειρηματική Ευφυΐα Η πληροφορία είναι ζωτικής σημασίας για κάθε είδους επιχείρηση σε μία εποχή όπου η τεχνολογία αναπτύσσεται ραγδαία και τα εργαλεία και οι τεχνικές για την αξιοποίησή της πολλαπλασιάζονται ή βελτιώνονται καθημερινά. Η πληροφορία είναι το κλειδί για την επιτυχία μιας επιχείρησης, καθώς βάση αυτής, μπορούν να σχεδιαστούν και να οργανωθούν πιο αποτελεσματικές στρατηγικές για την επίτευξη κάθε είδους στόχου - βραχυπρόθεσμου ή μακροπρόθεσμου. Οι μέθοδοι της επιχειρηματικής ευφυίας ή Business Intelligence (BI) μπορούν να βοηθήσουν τα στελέχη μία επιχείρησης να πάρουν καλύτερες αποφάσεις εκμεταλλευόμενες το μεγάλο μέγεθος των μη επεξεργασμένων δεδομένων που διαθέτει μία επιχείρηση και μετατρέποντας τα σε χρήσιμη πληροφορία. Ο όρος επιχειρηματική ευφυΐα αφορά τεχνικές και εργαλεία (λογισμικά) που χρησιμοποιούνται για την συλλογή, αποθήκευση και πρόσβαση σε δεδομένα σχετικά με τις δραστηριότητες μίας επιχείρησης καθώς και την διαχείριση, την ανάλυση και την αξιοποίηση τους για αποτελεσματικότερη λήψη αποφάσεων. Οι τεχνολογίες της επιχειρηματικής ευφυίας είναι ικανές να διαχειρίζονται μεγάλο όγκο μη δομημένων δεδομένων για τον εντοπισμό ή την ανάπτυξη νέων στρατηγικών επιχειρηματικών ευκαιριών. Ο στόχος της επιχειρηματικής ευφυίας είναι να επιτρέψει την ερμηνεία αυτού του όγκου δεδομένων από τα στελέχη και να δώσει στην εταιρία το ανταγωνιστικό πλεονέκτημα που θα την οδηγήσει σε μακροπρόθεσμη σταθερότητα και ανάπτυξη (Rud, 2009), (Negash, 2014). Η επιχειρηματική ευφυΐα αφορά παρελθοντικά, τρέχοντα αλλά και προγνωστικά δεδομένα των επιχειρησιακών λειτουργιών και έχει εφαρμογή σε μεγάλο εύρος αυτών. Για παράδειγμα, κάποιες από τις βασικές λειτουργικές αποφάσεις που υποστηρίζει η επιχειρηματική ευφυΐα είναι η τοποθέτηση του προϊόντος και η τιμολόγησή του. Στρατηγικές επιχειρηματικές αποφάσεις μπορεί να περιλαμβάνουν την ιεράρχηση προτεραιοτήτων και στόχων, αλλά και την κατεύθυνση στην οποία θα κινηθεί η εταιρία μελλοντικά (Coker, 2014). Κάποιες από τις δραστηριότητες της επιχειρηματικής ευφυίας είναι οι εξής: Οπτικοποίηση Επιχειρηματικών Δεδομένων Ερωτήματα και Αναφορές Online Αναλυτική Επεξεργασία (OLAP) Στατιστική Ανάλυση, Πρόβλεψη και Εξόρυξη Δεδομένων Συστήματα Στήριξης Αποφάσεων ΕΠΙΧΕΙΡΗΜΑΤΙΚΗ ΕΥΦΥΪΑ ΚΑΙ ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ 15

18 ΚΕΦΑΛΑΙΟ 2: ΕΠΙΧΕΙΡΗΜΑΤΙΚΗ ΕΥΦΥΪΑ ΚΑΙ ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ Ανάλυση Χρονοσειρών (συμπεριλαμβανομένων προγνωστικών τεχνικών) ( Introduction to Business Intelligence, 14:44:11 UTC) Συχνά οι εφαρμογές BI χρησιμοποιούν δεδομένα τα οποία είναι συγκεντρωμένα σε Αποθήκες Συγκεντρωτικών Δεδομένων (Data Warehouses). Μία αποθήκη συγκεντρωτικών δεδομένων μπορεί να οριστεί ως μία βάση δεδομένων η οποία διατηρεί δεδομένα χωριστά από τη βάση δεδομένων για τις λειτουργικές διεργασίες ενός οργανισμού. Τα δεδομένα τα οποία περιέχουν, προέρχονται από πρωτογενή εταιρικά δεδομένα και είναι διαχρονικά και συγχωνευμένα. Παρόλο που αποτελούν βασικό υποσύστημα των Συστημάτων Στήριξης Αποφάσεων που βασίζονται σε ανάλυση όγκου ιστορικών δεδομένων, κάθε αποθήκη συγκεντρωτικών δεδομένων δεν υποστηρίζει λειτουργίες επιχειρηματικής ευφυίας και ταυτόχρονα δεν απαιτούν όλες οι εφαρμογές επιχειρηματικής ευφυίας μία αποθήκη συγκεντρωτικών δεδομένων (Βλαχάβας et al., 2011), ( Introduction to Business Intelligence, 14:44:11 UTC). Η online αναλυτική επεξεργασία (OLAP), είναι μία προσέγγιση η οποία επιτρέπει τη γρήγορη απόκριση σε ερωτήματα που αφορούν πολυδιάστατα δεδομένα τα οποία μπορεί να προέρχονται από διάφορες πηγές. Τα εργαλεία OLAP επιτρέπουν στους χρήστες να αναλύουν πολυδιάστατα δεδομένα δια δραστικά από διάφορες οπτικές, χάρη στις διάφορες όψεις και απεικονίσεις των δεδομένων που δημιουργούν. Η εξόρυξη δεδομένων (Data Mining) είναι ακόμα ένα εργαλείο το οποίο παρέχει τη δυνατότητα στην Διοίκηση να λάβει σωστές επιχειρηματικές αποφάσεις. Η εξόρυξη δεδομένων είναι η υπολογιστική διαδικασία για την ανακάλυψη προηγουμένως άγνωστων ή απαρατήρητων μοντέλων ή σχέσεων, σε μεγάλες εγγραφές δεδομένων. Συνδυάζει μεθόδους από τα πεδία της τεχνητής νοημοσύνης, της στατιστικής, των βάσεων δεδομένων και της μηχανικής μάθησης. Η εξόρυξη δεδομένων μπορεί να χρησιμοποιηθεί με πάρα πολλούς τρόπους, όπως για παράδειγμα για την ανάλυση καλαθιού καταναλωτών, η οποία οδηγεί την ανακάλυψη των προϊόντων που οι καταναλωτές αγοράζουν συνήθως μαζί και αυτή η γνώση βοηθάει τους managers να προωθήσουν κατάλληλα, άλλα προϊόντα. Στον τραπεζικό τομέα μπορεί να γίνει εκτίμηση πελατειακού ρίσκου, η οποία χρησιμοποιείται για να αξιολογηθεί το κατά πόσον ο πελάτης είναι πιθανό να εξοφλήσει το δάνειο για το οποίο αιτείται. Ακόμα είναι δυνατόν να γίνει ανίχνευση απάτης πιστωτικών καρτών βάση ιστορικών δεδομένων της συμπεριφοράς των πελατών (Βλαχάβας, 2011). Η διαδικασία της εξόρυξης δεδομένων μπορεί να διακριθεί σε τρία στάδια. Αρχικά είναι η προετοιμασία - η οποία συμβαίνει πριν την εξόρυξη δεδομένων και είναι η προετοιμασία του συνόλου δεδομένων (dataset) το οποίο συνήθως πρέπει να μετατραπεί σε κατάλληλη για επεξεργασία μορφή. Η εξόρυξη δεδομένων, είναι η διαδικασία επιλογής των αλγορίθμων που θα χρησιμοποιηθούν και αφορά την επίλυση ποικίλων προβλημάτων όπως, τον εντοπισμό ανωμαλιών, την ομαδοποίηση, την ταξινόμηση ή την κατασκευή μοντέλων παλινδρόμησης. Η αξιολόγηση του αποτελέσματος, είναι το τελικό βήμα στην ανακάλυψη νέας γνώσης και διασφαλίζει ότι τα μοντέλα ή πρότυπα που παράχθηκαν από τους αλγορίθμους εξόρυξης δεδομένων παρουσιάζονται στο ευρύτερο σύνολο των πιθανών δεδομένων και όχι αποκλειστικά στο συγκεκριμένο σύνολο δεδομένων στο ΕΠΙΧΕΙΡΗΜΑΤΙΚΗ ΕΥΦΥΪΑ ΚΑΙ ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ 16

19 ΚΕΦΑΛΑΙΟ 2: ΕΠΙΧΕΙΡΗΜΑΤΙΚΗ ΕΥΦΥΪΑ ΚΑΙ ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ οποίο εφαρμόστηκε η διαδικασία της εξόρυξης ( Introduction to Business Intelligence, 14:44:11 UTC). Μηχανική Μάθηση Το πεδίο της μηχανικής μάθησης (Machine Learning), αφορά διεργασίες παρόμοιες με αυτές της εξόρυξης δεδομένων. Και τα δύο συστήματα ψάχνουν σε δεδομένα με σκοπό την ανακάλυψη μοντέλων. Ωστόσο, ενώ οι εφαρμογές της εξόρυξης δεδομένων εξάγουν δεδομένα που σκοπό έχουν την ανθρώπινη κατανόηση, η μηχανική μάθηση χρησιμοποιεί αυτά τα δεδομένα για να βελτιώσει την κατανόηση του ίδιου του προγράμματος (Rouse). Η μηχανική μάθηση είναι ένας κλάδος του ευρύτερου πεδίου της Τεχνητής Νοημοσύνης (AI), και ασχολείται με το σχεδιασμό και την υλοποίηση αλγορίθμων οι οποίοι μαθαίνουν από δεδομένα χωρίς να έχουν προγραμματιστεί συγκεκριμένα για αυτό που μαθαίνουν (Arthur Samuel). Συνοπτικά θα μπορούσαμε να πούμε ότι η μηχανική μάθηση αφορά τον σχεδιασμό συστημάτων τα οποία μαθαίνουν, μέσω εκπαίδευσης. Τα συστήματα μπορούν να μάθουν και να βελτιωθούν με την εμπειρία ώστε να είναι σε θέση να τελειοποιήσουν ένα μοντέλο το οποίο μπορεί να χρησιμοποιηθεί για την επίλυση μελλοντικών περιπτώσεων (Bell, 2015). Τα συστήματα αυτά είναι προσαρμόσιμα (adaptable) έχουν δηλαδή τη δυνατότητα να αλλάζουν αυτόματα και να εκτελούν ανάλογες ενέργειες όταν εκτίθενται σε νέα δεδομένα ( Μηχανική μάθηση, 2014). Υπάρχουν πολλοί αλγόριθμοι μηχανικής μάθησης, και κατηγοριοποιούνται ανάλογα με τη φύση του προβλήματος το οποίο αντιμετωπίζουν και το επιθυμητό αποτέλεσμα: Μάθηση με επίβλεψη: Στην μάθηση με επίβλεψη ο αλγόριθμος καλείται να κατασκευάσει μία συνάρτηση από ένα σύνολο δεδομένων. Αρχικά παρουσιάζονται στο σύστημα παραδείγματα εισόδων και οι επιθυμητές έξοδοι (σύνολο εκπαίδευσης) με στόχο να μάθει το γενικό κανόνα ο οποίος αντιστοιχεί εισόδους σε εξόδους. Αυτός ο κανόνας εκφράζεται με μία συνάρτηση η οποία γενικεύεται και για νέες εισόδους με άγνωστη έξοδο (σύνολο ελέγχου). Μάθηση χωρίς επίβλεψη: Στην μάθηση χωρίς επίβλεψη δεν δίνονται παραδείγματα και το σύστημα πρέπει μόνο του να ανακαλύψει συσχετίσεις ή ομάδες στα δεδομένα εισόδου, χωρίς να είναι γνωστό εκ των προτέρων εάν υπάρχουν (Βλαχάβας, 2011), (Bell, 2015). Ενισχυτική μάθηση: Στην ενισχυτική μάθηση ένα πρόγραμμα αλληλεπιδρά με ένα δυναμικό περιβάλλον στα πλαίσια του οποίου πρέπει να φέρει σε πέρας ένα συγκεκριμένο σκοπό. Το πρόγραμμα θα πρέπει να αναπτύξει μία στρατηγική ενεργειών για μία δεδομένη κατάσταση βάση της ανταμοιβής ή της τιμωρίας που λαμβάνει από το σχεδιαστή του, χωρίς εκείνος να του λέει ρητά το κατά πόσον έχει έρθει πιο κοντά στο στόχο του ή όχι. Τα προβλήματα της μηχανικής μάθησης είναι ποικίλα και υπάρχουν πολλά είδη τεχνικών για την λύση τους. Το βασικό κριτήριο της επιλογής της κατάλληλης τεχνικής σχετίζεται με το είδος των δεδομένων που διαθέτουμε και του τελικού ΕΠΙΧΕΙΡΗΜΑΤΙΚΗ ΕΥΦΥΪΑ ΚΑΙ ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ 17

20 ΚΕΦΑΛΑΙΟ 2: ΕΠΙΧΕΙΡΗΜΑΤΙΚΗ ΕΥΦΥΪΑ ΚΑΙ ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ στόχου που θέλουμε να πετύχουμε. Κάποιες βασικές τεχνικές μηχανικής μάθησης και το είδος των προβλημάτων που αφορούν αναλύονται παρακάτω: Μάθηση με επίβλεψη 1. Classification (ταξινόμηση): Η ταξινόμηση αφορά δεδομένα που ανήκουν σε διακριτές κατηγορίες (όπως για παράδειγμα η ομάδα αίματος). Το πρόβλημα της ταξινόμησης ασχολείται με τον προσδιορισμό της κατηγορίας στην οποία ανήκει μία νέα παρατήρηση, βάση ενός συνόλου δεδομένων εκπαίδευσης (training dataset) το οποίο περιέχει παρατηρήσεις των οποίων η ταξινόμηση είναι γνωστή. Ένα παράδειγμα είναι η ταξινόμηση βάση του εάν είναι ανεπιθύμητα ή όχι. Οι αλγόριθμοι που σχετίζονται με αυτό το πρόβλημα λέγονται ταξινομητές (classifiers) (Alpaydin, 2010), ( Statistical classification ). Κάποιοι από τους πιο δημοφιλής ταξινομητές είναι τα Δέντρα Αποφάσεων (Decision Trees), ο k- Nearest Neighbors και ο Naive Bayes: Τα Δέντρα αποφάσεων περιγράφουν με ένα δενδροειδές διάγραμμα την ταξινόμηση των δεδομένων, στο οποίο κάθε κόμβος ή κλαδί ορίζει μία συνθήκη ελέγχου της τιμής κάποιου χαρακτηριστικού των περιπτώσεων, και κάθε φύλλο αντιστοιχεί σε μία διαφορετική διακριτή τιμή του χαρακτηριστικού που σχετίζεται με τον κόμβο. Τα δέντρα ταξινόμησης χρησιμοποιούν ως είσοδο τις τιμές των ανεξάρτητων μεταβλητών προκειμένου να μοντελοποιήσουν την πρόβλεψη της τιμής της εξαρτημένης μεταβλητής. Στελέχη εταιριών μπορούν να μελετήσουν τα μονοπάτια που οδηγούν σε τερματικά φύλλα τα οποία περιγράφουν μία επιθυμητή ή ανεπιθύμητη κατάσταση και να πάρουν αποφάσεις για τις επόμενες στρατηγικές κινήσεις τις εταιρίας (Βλαχάβας, 2011). Ο k-nearest Neighbors χρησιμοποιεί αποθηκευμένα παραδείγματα, και αναβάλει τη μάθηση έως ότου εμφανιστεί μία νέα περίπτωση. Η λειτουργία του βασίζεται στην οργάνωση των αποθηκευμένων δεδομένων ως σημεία ενός n-διαστατού ευκλείδειου χώρου Rn (όπου n ο αριθμός των ανεξάρτητων μεταβλητών). Η καινούργια περίπτωση ταξινομείται σύμφωνα με την τιμή των πιο όμοιων με αυτήν περιπτώσεων. Σύμφωνα, δηλαδή με την τιμή των k-πλησιέστερων γειτόνων της. Η εγγύτητα των γειτόνων υπολογίζεται σύμφωνα με την ευκλείδεια απόσταση των σημείων στο χώρο και το k είναι ένας θετικός ακέραιος αριθμός, συνήθως όχι μεγάλος. Σε γενικές γραμμές ο k-nearest Neighbors είναι κατάλληλος για ταξινομήσεις όπου τα χαρακτηριστικά (οι ανεξάρτητες μεταβλητές) σχετίζονται με την τιμή ταξινόμησης με πολύπλοκο και δυσνόητο τρόπο, αλλά οι περιπτώσεις ίδιου τύπου είναι αρκετά ομοιογενείς. Ένα παράδειγμα χρήσης του είναι σε οπτικές εφαρμογές αναγνώρισης προσώπων σε εικόνες και βίντεο (Lantz, 2013), (Harrington, 2012), (Βλαχάβας, 2011). Ενώ οι προηγούμενοι αλγόριθμοι προσπαθούν να δώσουν μια απόλυτη απάντηση για την κατηγορία στην οποία ανήκουν οι παρατηρήσεις που θέλουμε να ταξινομηθούν, ο αλγόριθμος Naive Bayes μας δίνει μία εκτίμηση πιθανότητας για το ποια είναι η κατηγορία στην οποία πρέπει να ταξινομηθούν οι παρατηρήσεις μας. Βασίζεται στις αρχές της θεωρίας των πιθανοτήτων, οπότε οι εκτιμήσεις του ΕΠΙΧΕΙΡΗΜΑΤΙΚΗ ΕΥΦΥΪΑ ΚΑΙ ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ 18

21 ΚΕΦΑΛΑΙΟ 2: ΕΠΙΧΕΙΡΗΜΑΤΙΚΗ ΕΥΦΥΪΑ ΚΑΙ ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ βασίζονται στη χρήση παρελθοντικών δεδομένων (δεδομένα εκπαίδευσης) ώστε να υπολογίσει την πιθανότητα να ανήκει μία παρατήρηση σε μία ομάδα ταξινόμησης βάση των ανεξάρτητων μεταβλητών. Ο συγκεκριμένος αλγόριθμος στηρίζεται στην υπόθεση ότι όλες οι μεταβλητές είναι εξίσου σημαντικές (επηρεάζουν εξίσου το αποτέλεσμα) και είναι ανεξάρτητες μεταξύ τους. Η μέθοδος αυτή χρησιμοποιεί όλες τις διαθέσιμες ενδείξεις για να αλλάζει προοδευτικά τις προβλέψεις. Παίρνει υπ' όψη ακόμα και μεταβλητές που έχουν μικρή επίδραση στην πρόβλεψη. Εάν υπάρχει μεγάλος αριθμός μεταβλητών που έχουν μικρή επιρροή στην τελική πρόβλεψη, η συνολική επιρροή τους μπορεί να είναι αρκετά σημαντική. Ο Naive Bayes βρίσκει εφαρμογή στην ανίχνευση εισβολών σε δίκτυα υπολογιστών, σε ιατρικές διαγνώσεις όταν δίνεται μία σειρά από συμπτώματα που παρατηρήθηκαν και ειδικότερα στην ταξινόμηση κειμένου, όπου είναι ο αλγόριθμος που χρησιμοποιείται πιο συχνά (Βλαχάβας, 2011), (Rish, 2001). 2. Regression (Παλινδρόμηση): Η διαφορά μεταξύ του προβλήματος της ταξινόμησης και της παλινδρόμησης είναι ότι στο πρόβλημα της παλινδρόμησης η μεταβλητή στόχος παίρνει τιμές αριθμητικές και συνεχείς. Για παράδειγμα οι πωλήσεις που πετυχαίνει μία εταιρία ή ο αριθμός των κατασκευαστικών λαθών που προκύπτουν στην παραγωγή του προϊόντος ή οι τιμές των μετοχών. Η παλινδρόμηση αντίθετα από άλλα προβλήματα της μηχανικής μάθησης δεν είναι συνώνυμη με κάποιον συγκεκριμένο αλγόριθμο, αλλά είναι μία προσέγγιση η οποία περιλαμβάνει έναν αριθμό μεθόδων οι οποίες μπορούν να προσαρμοστούν και να επιλύσουν έναν μεγάλο αριθμό προβλημάτων μηχανικής μάθησης. Ο σκοπός της παλινδρόμησης είναι η κατασκευή μίας συνάρτησης η οποία θα μοντελοποιεί τη σχέση μεταξύ της εξαρτημένης μεταβλητής y (μεταβλητή στόχος) και ενός ή περισσότερων ανεξάρτητων μεταβλητών x (χαρακτηριστικά). Η συνάρτηση χρησιμοποιείται για την πρόβλεψη της τιμής της εξαρτημένης μεταβλητής όταν είναι γνωστές οι τιμές των ανεξάρτητων μεταβλητών και στην ουσία κάνει ποσοτικοποίηση του μεγέθους και της ισχύς της σχέσης της τιμής εξόδου με τιμές εισόδου. Το πιο συνηθισμένο μοντέλο παλινδρόμησης είναι το γραμμικό, όπου η σχέση των μεταβλητών εκφράζεται με μία γραμμική συνάρτηση της μορφής: y = b0 + b1x1 +b2x2...+bnxn. Το σύστημα μάθησης προσπαθεί να προσδιορίσει τις τιμές των b έτσι ώστε η γραμμική συνάρτηση να είναι σε θέση να συσχετίσει με την περισσότερη δυνατή ακρίβεια τις τιμές των μεταβλητών x με την τιμή της y (Harrington, 2012). Μάθηση χωρίς επίβλεψη 1. Clustering (Ομαδοποίηση): Ο σκοπός της ομαδοποίησης ως πρόβλημα της μηχανικής μάθησης είναι ο διαχωρισμός ενός συνόλου δεδομένων σε ομάδες όμοιων αντικειμένων έτσι ώστε τα δεδομένα (αντικείμενα) που ανήκουν στην ίδια ομάδα να είναι μεταξύ τους όσο το δυνατόν πιο όμοια και αυτά που ανήκουν σε διαφορετικές ομάδες όσο το δυνατόν πιο ανόμοια. Καθώς το σύστημα καλείται να διαχωρίσει τα δεδομένα αυτόματα χωρίς προηγούμενη γνώση του πως θα πρέπει να είναι ομάδες, η ομαδοποίηση είναι αντικείμενο της μάθησης χωρίς επίβλεψη. ΕΠΙΧΕΙΡΗΜΑΤΙΚΗ ΕΥΦΥΪΑ ΚΑΙ ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ 19

22 ΚΕΦΑΛΑΙΟ 2: ΕΠΙΧΕΙΡΗΜΑΤΙΚΗ ΕΥΦΥΪΑ ΚΑΙ ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ Διαφέρει από την ταξινόμηση καθώς στην ταξινόμηση γνωρίζουμε από πριν τις ομάδες, τι αντιπροσωπεύουν και το τι αναζητάμε (Βλαχάβας, 2011). Αντιθέτως το αποτέλεσμα μιας ομαδοποίησης θα μπορούσε να είναι η αναγνώριση των ομάδων A, B και C και είναι στο χέρι του ειδικού να αναγνωρίσει το τι αντιπροσωπεύουν αυτές οι ομάδες και να τις ονομάσει σύμφωνα με το νόημα τους. Η χρήση αυτής της τεχνικής λοιπόν, είναι στην ανακάλυψη γνώσης και όχι στις προβλέψεις. Η ομαδοποίηση δεν αντιπροσωπεύει έναν αλγόριθμο, αλλά ένα πρόβλημα της μηχανικής μάθησης προς επίλυση, και υπάρχουν πολλοί αλγόριθμοι που προσεγγίζουν το πρόβλημα διαφορετικά και έχουν σημαντικές διαφορές ως προς το τι θεωρούν ως ομάδα (cluster) και πως ορίζεται η ομοιότητα μεταξύ των αντικειμένων (Lantz, 2013), (Altman, 1992). Υπάρχουν τρεις κατηγόριες αλγορίθμων ομαδοποίησης: α). Οι αλγόριθμοι που στοχεύουν στον καλύτερο διαχωρισμό του συνόλου δεδομένων σε έναν αριθμό ομάδων (partition-based). β). Οι ιεραρχικοί (hierarchical) αλγόριθμοι προσπαθούν να ανακαλύψουν τον αριθμό και το μέγεθος των ομάδων που υπάρχουν στα δεδομένα ιεραρχικά. γ). Οι πιθανοκρατικοί (probabilistic) αλγόριθμοι που βασίζονται σε μοντέλα πιθανοτήτων. Ο αλγόριθμος k-means και οι ιεραρχικοί αλγόριθμοι είναι αυτοί που χρησιμοποιούνται πιο πολύ (Βλαχάβας, 2011). 2. Outlier Detection (Anomaly Detection - Ανίχνευση Ακραίων Τιμών): Η συγκεκριμένη τεχνική ασχολείται με τον εντοπισμό παρατηρήσεων που δεν ανταποκρίνονται με το αναμενόμενο πρότυπο ή μοντέλο που ακολουθούν οι άλλες παρατηρήσεις ενός συνόλου δεδομένων. Αυτές οι παρατηρήσεις αναφέρονται ως ακραίες τιμές ή ανωμαλίες ή θόρυβος στα δεδομένα. Ο αλγόριθμος LOF (Local Outlier Factor) αναζητά ανωμαλίες στα δεδομένα με τον εξής τρόπο: Αναπαριστά τα δεδομένα ως σημεία στο χώρο και μετρά την τοπική πυκνότητα (local density), ενός σημείου σε σχέση με τα γειτονικά του σημεία. Έτσι εντοπίζει περιοχές με χαμηλή πυκνότητα δεδομένων και τα σημεία που βρίσκονται εκεί αναγνωρίζονται ως ανωμαλίες γιατί αποκλίνουν από τα υπόλοιπα δεδομένα. Συνήθως αυτές οι παρατηρήσεις που αποκλίνουν υποδεικνύουν κάποιου είδους πρόβλημα, όπως τραπεζικές απάτες (ή κλεμμένες πιστωτικές κάρτες), ένα κατασκευαστικό ή δομικό ελάττωμα, κάποια εισβολή σε ένα δίκτυο ή σύστημα, ιατρικά προβλήματα ή ακόμα και σφάλματα σε ένα κείμενο (Hodge and Austin, 2004), (Chandola, 2009), ( Anomaly detection, 2015). Μία ακόμα σημαντική μέθοδος μάθησης χωρίς επίβλεψη είναι οι Κανόνες Συσχέτισης (Association Rules), είναι δημοφιλής μέθοδος που χρησιμοποιείται για την ανακάλυψη ενδιαφέρων σχέσεων μεταξύ μεταβλητών σε βάσεις δεδομένων. Οι κανόνες συσχέτισης αξιοποιούνται σήμερα σε μία σειρά εφαρμογών από διάφορες περιοχές, συμπεριλαμβανομένων: Την ανακάλυψη ενδιαφερόντων μοντέλων χρήσης του web από χρήστες, έτσι ώστε να επέλθει καλύτερη κατανόηση των αναγκών και των συνηθειών τους και την επακόλουθη βελτίωση των υπηρεσιών των web-based εφαρμογών. ΕΠΙΧΕΙΡΗΜΑΤΙΚΗ ΕΥΦΥΪΑ ΚΑΙ ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ 20

23 ΚΕΦΑΛΑΙΟ 2: ΕΠΙΧΕΙΡΗΜΑΤΙΚΗ ΕΥΦΥΪΑ ΚΑΙ ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ Σε λογισμικό που παρακολουθεί τη δραστηριότητα δικτύων ή συστημάτων, με σκοπό να παράγει κανόνες σχετικούς με κακόβουλες δραστηριότητες ή παραβιάσεις κάποιας πολιτικής και να παράγει αναφορές σε περίπτωση που εντοπίζει κάποια εισβολή. Στον τομέα του λιανικού εμπορίου η ανάλυση του καλαθιού είναι η πιο διαδεδομένη χρήση των κανόνων συσχέτισης καθώς βοηθούν τους managers των επιχειρήσεων να κατανοήσουν την αγοραστική συμπεριφορά των πελατών τους. Οι πληροφορίες που παράγονται χρησιμοποιούνται έπειτα για των σχεδιασμό promotion και εκπτώσεων, τεχνικών πωλήσεων σε υπάρχοντες πελάτες, στη διαχείριση αποθεμάτων, ακόμα και στο σχεδιασμό των ίδιων των καταστημάτων ( Association rule learning, 2015). Η εφαρμογή των κανόνων συσχέτισης στο λιανικό εμπόριο είναι και το θέμα που απασχολεί αυτήν την εργασία. Πιο συγκεκριμένα, θα ασχοληθούμε με την εφαρμογή των κανόνων συσχέτισης σε δεδομένα συναλλαγών και χαρακτηριστικά πελατών supermarket. Σκοπός είναι η παραγωγή χρήσιμων πληροφοριών για τη συμπεριφορά των καταναλωτών και η παρουσίαση τους με εύκολα κατανοητό τρόπο για χρήση από τους manager της εταιρίας. Παρακάτω θα αναλυθούν περαιτέρω οι κανόνες συσχέτισης και οι σχετικοί αλγόριθμοι και στη συνέχεια θα ακολουθήσει ο σχεδιασμός και η υλοποίηση της σχετικής εφαρμογής. 2.2 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Οι κανόνες συσχέτισης στοχεύουν στην ανακάλυψη ενδιαφέρων και προηγουμένως άγνωστων συσχετίσεων σε μεγάλες βάσεις δεδομένων αλλά και στην ανακάλυψη ακολουθιών ή συμπεριφορών που συνδυαστικά οδηγούν σε κάποιο αποτέλεσμα. Η ιδιαιτερότητα των κανόνων συσχέτισης είναι ακριβώς ότι η φύση της διαδικασίας μάθησης είναι εξερευνητική (exploratory), δεν ελέγχουμε δηλαδή την εγκυρότητα μίας υπόθεσης, αλλά αναζητούμε την ανακάλυψη καινούργιας γνώσης, καινούργιων συσχετίσεων (Βλαχάβας, 2011). Αναπτύχθηκαν στο πλαίσιο των βάσεων δεδομένων, από τον Rakesh Agrawal στις αρχές της δεκαετίας του '90. Οι κανόνες συσχέτισης δεν αποτελούν εργαλείο προβλέψεων, αλλά μάθησης χωρίς επίβλεψη, σε αντίθεση με τα προβλήματα της ταξινόμησης και της παλινδρόμησης που αναφέρθηκαν νωρίτερα. Το πρόγραμμα απλά δουλεύει στα δεδομένα, αναζητώντας συσχετίσεις που δεν γνωρίζουμε από πριν εάν υπάρχουν (Lantz, 2013). Το αρχικό πρόβλημα έχει να κάνει με την ανακάλυψη τέτοιων κανόνων σε καλάθια αγορών (market basket analysis). Το πρόβλημα αυτό περιλαμβάνει έναν μεγάλο αριθμό αντικειμένων-προϊόντων και τον συνδυασμό που επιλέγουν να αγοράσουν οι πελάτες σε κάθε τους συναλλαγή. Το ζητούμενο είναι η εύρεση κανόνων που περιγράφουν τα υποσύνολα των αντικειμένων που αγοράζονται μαζί. Παράλληλα γίνεται αναζήτηση για κανόνες υποσυνόλων αντικειμένων που όταν αγοράζονται μαζί συνεπάγονται και την αγορά κάποιου ακόμα αντικειμένου. ΕΠΙΧΕΙΡΗΜΑΤΙΚΗ ΕΥΦΥΪΑ ΚΑΙ ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ 21

24 ΚΕΦΑΛΑΙΟ 2: ΕΠΙΧΕΙΡΗΜΑΤΙΚΗ ΕΥΦΥΪΑ ΚΑΙ ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ Για παράδειγμα, έστω ότι έχουμε τις παρακάτω εγγραφές συνόλων αντικειμένων: Συναλλαγή (Transaction) Αντικείμενα (Item sets) 1 ψωμί, βούτυρο, γάλα 2 ψωμί, βούτυρο, ζάχαρη, γάλα 3 ψωμί, γάλα 4 γάλα, βούτυρο, ψωμί Από αυτά τα δεδομένα μπορούν να προκύψουν κανόνες όπως: {βούτυρο, ψωμί} {γάλα} Ο κανόνας αυτός δηλώνει ότι υπάρχει σημαντική συσχέτιση μεταξύ της αγοράς βουτύρου, ψωμιού και γάλακτος. Οι κανόνες γενικά εκφράζονται με την παρακάτω μορφή: {Χ1,..., Χn} {Y} Το πόσο σημαντική είναι μία συσχέτιση και κατ' επέκταση πόσο ενδιαφέρον ή σημαντικοί οι κανόνες συσχέτισης που προέκυψαν μετριέται με τη χρήση στατιστικών μέτρων. Τα μέτρα αυτά είναι η Υποστήριξη (Support), η Εμπιστοσύνη (Confidence) και το Lift. Η Υποστήριξη (Support) μετρά το πόσο συχνά ένα αντικειμενοσύνολο (item set) εμφανίζεται στα δεδομένα ή αλλιώς πόσο συχνά ένας κανόνας έχει εφαρμογή στο σύνολο δεδομένων. Για παράδειγμα, από τα παραπάνω δεδομένα το αντικειμενοσύνολο {βούτυρο, ψωμί, γάλα} έχει υποστήριξη 3/4 = 0.75 γιατί από τις 4 εγγραφές που έχουμε οι τρείς περιλαμβάνουν και τα τρία προϊόντα. Η υποστήριξη ισούται με τον αριθμό των εγγραφών που εμφανίζεται το αντικειμενοσύνολο X προς τον αριθμό των εγγραφών που έχουμε. Η υποστήριξη είναι ένα πολύ σημαντικό μέτρο γιατί ένας κανόνας που έχει χαμηλή υποστήριξη μπορεί να εκφράζει κάτι το τυχαίο. Επίσης από επιχειρηματικής άποψης ένας κανόνας με χαμηλή υποστήριξη δεν είναι ενδιαφέρον, καθώς δεν είναι κερδοφόρο να προωθούνται ταυτόχρονα προϊόντα τα οποία οι πελάτες σπάνια αγοράζουν μαζί. Για αυτούς τους λόγους η υποστήριξη χρησιμοποιείται για την απαλοιφή κανόνων που δεν παρουσιάζουν κάποιο ενδιαφέρον. Αυτό γίνεται θέτοντας ένα κατώτατο όριο υποστήριξης (minimum support) στον αλγόριθμο, ώστε να αναζητήσει μόνο τα αντικειμενοσύνολα τα οποία ανταποκρίνονται σε αυτό το κατώτατο όριο (Tan et al., 2005). Η Εμπιστοσύνη (Confidence) είναι το μέτρο που καθορίζει την ακρίβεια ενός κανόνα. Υπολογίζει το πόσο συχνά τα αντικείμενα Y εμφανίζονται σε συναλλαγές που περιλαμβάνουν τα αντικείμενα Χ. Ισούται δηλαδή με τον αριθμό των εγγραφών που περιλαμβάνουν τα αντικείμενα {Χ1,..,Χν,Υ}, προς τον αριθμό των εγγραφών που περιλαμβάνουν τα Χ. Για παράδειγμα, από τον παραπάνω πίνακα ο κανόνας {βούτυρο, ψωμί} {γάλα} έχει εμπιστοσύνη 4/4=1, άρα 100%, γιατί από τις 4 εγγραφές που περιλαμβάνουν βούτυρο και ψωμί, και οι 4 περιλαμβάνουν και γάλα. Η Εμπιστοσύνη μετρά την αξιοπιστία του συμπεράσματος που βγαίνει από έναν κανόνα. Για έναν δεδομένο κανόνα Χ Υ όσο πιο υψηλή είναι η εμπιστοσύνη τόσο πιο πιθανό είναι το Υ να παρουσιάζεται σε συναλλαγές που περιέχουν το Χ. ΕΠΙΧΕΙΡΗΜΑΤΙΚΗ ΕΥΦΥΪΑ ΚΑΙ ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ 22

25 ΚΕΦΑΛΑΙΟ 2: ΕΠΙΧΕΙΡΗΜΑΤΙΚΗ ΕΥΦΥΪΑ ΚΑΙ ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ Μπορούμε να πούμε ότι η εμπιστοσύνη ορίζει την πιθανότητα να ισχύει το Υ δεδομένου ότι ισχύει το Χ. Το Lift ενός κανόνα, είναι ο λόγος της υποστήριξης του αντικειμενοσυνόλου {Χ1,..,Χν,Υ} προς το γινόμενο της υποστήριξης του {Χ1,..., Χn} και της υποστήριξης του {Y}, έτσι όπως θα παρουσιάζονταν εάν αυτά τα δύο στοιχειοσύνολα ήταν στατιστικά ανεξάρτητα μεταξύ τους. Lift(X Y) = supp(x U Y) / sup(x) * sup(y). Είναι με άλλα λόγια η πιθανότητα του αντικειμενοσυνόλου-στόχου να βρεθεί μέσα στο σύνολο των συναλλαγών ως προς την πιθανότητα να βρεθούν κάθε ένα από τα αντικείμενα στο σύνολο των συναλλαγών ανεξάρτητα το ένα από το άλλο. Εάν το lift είναι μεγαλύτερο από την μονάδα τότε τα αντικείμενα φαίνεται να έχουν συσχέτιση μεταξύ τους και η παρουσία των αντικειμένων Χ αυξάνει την πιθανότητα να εμφανιστούν και τα αντικείμενα Υ σε μία συναλλαγή. Όσο μεγαλύτερο είναι το lift τόσο ισχυρότερη η συσχέτιση μεταξύ των αντικειμένων του στοιχειοσυνόλου. Εάν το lift είναι μικρότερο από την μονάδα τότε η παρουσία των αντικειμένων Χ μειώνουν την πιθανότητα να εμφανιστούν και τα Υ στην ίδια συναλλαγή. Εάν το lift ισούται με τη μονάδα, τότε τα αντικείμενα X και Y είναι ανεξάρτητα μεταξύ τους. Η παρουσία των Χ δεν επηρεάζει την πιθανότητα εμφάνισης των Υ στις συναλλαγές. Αφού γίνει η παραγωγή των κανόνων συσχέτισης το lift χρησιμοποιείται ως φίλτρο για την αναζήτηση των κανόνων με το μεγαλύτερο ενδιαφέρον. Αναζητούμε τους κανόνες που έχουν υψηλότερο lift. Τα στατιστικά αυτά μέτρα, μας επιτρέπουν να ποσοτικοποιούμε την επιτυχία του αποτελέσματος των κανόνων συσχέτισης. Τα αποτελέσματα των κανόνων συσχέτισης πρέπει να ερμηνεύονται με προσοχή. Το συμπέρασμα που απορρέει από έναν κανόνα δεν συνεπάγεται απαραίτητα και κάποια αιτιότητα στη συσχέτιση των προϊόντων, αλλά υποδεικνύει μία ισχυρή σχέση επανεμφάνισης των αντικειμένων μαζί (Lantz, 2013). Τέλος το βασικό μειονέκτημα των κανόνων συσχέτισης είναι η δυσκολία της επιλογής των πιο ενδιαφερόντων κανόνων, αφού το σύνολο των κανόνων που μπορεί να παραχθούν μπορεί να είναι πολύ μεγάλο. Η ρύθμιση των κατώτερων ορίων της υποστήριξης και της εμπιστοσύνης μπορεί να βοηθήσει να ελαττωθεί το σύνολο των κανόνων αφήνοντας μόνο τους πιο έγκυρους και ενδιαφέροντες, αλλά και πάλι πρέπει να δοθεί προσοχή στη ρύθμιση αυτών των μεγεθών ώστε να μην παραβλέψουν και κάποιους σημαντικούς κανόνες (Βλαχάβας et al., 2011), (Tan et al., 2004). Στο επόμενο κεφάλαιο αναλύονται οι αλγόριθμοι των κανόνων συσχέτισης, αρχίζοντας με τον αλγόριθμο Apriori ο οποίος χρησιμοποιεί κατώτερα όρια υποστήριξης και εμπιστοσύνης προκειμένου να βρίσκει τους ισχυρούς κανόνες, μειώνοντας το σύνολο των παραγόμενων κανόνων σε πιο διαχειρίσιμα επίπεδα. Βασικές έννοιες για την κατανόηση των αλγορίθμων κανόνων συσχέτισης. Σε αυτό το σημείο θα παρουσιαστούν κάποιες βασικές έννοιες που σχετίζονται με την εξόρυξη κανόνων συσχέτισης και κάποιες στρατηγικές που ακολουθούν οι αλγόριθμοι για να αντιμετωπίσουν τις προκλήσεις που παρουσιάζει το πρόβλημα της αναζήτησης συχνών αντικειμενοσυνόλων. ΕΠΙΧΕΙΡΗΜΑΤΙΚΗ ΕΥΦΥΪΑ ΚΑΙ ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ 23

26 ΚΕΦΑΛΑΙΟ 2: ΕΠΙΧΕΙΡΗΜΑΤΙΚΗ ΕΥΦΥΪΑ ΚΑΙ ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ Όπως αναφέραμε παραπάνω το πρόβλημά της εξόρυξης χωρίζεται σε δύο κομμάτια. Το κομμάτι της αναζήτησης συχνών αντικειμενοσυνόλων βάσει ενός ορίου υποστήριξης και το κομμάτι της εξόρυξης των κανόνων από αυτά τα συχνά αντικειμενοσύνολα βάσει ενός ορίου εμπιστοσύνης. Οι υπολογιστικές απαιτήσεις για την παραγωγή των συχνών αντικειμενοσυνόλων είναι συνήθως πολύ μεγαλύτερες από αυτές για την παραγωγή των κανόνων συσχέτισης (Tan, 2004). Ο έλεγχος όλων των αντικειμενοσυνόλων που σχηματίζονται από ένα σύνολο δεδομένων δεν είναι πρακτικός λόγω του τεράστιου χώρου αναζήτησης που προκύπτει (Jochen Hipp and Gholamreza Nakhaeizadeh, 2000). Για ένα σύνολο στοιχείων Ι = {a,b,c,d,e} για παράδειγμα το παρακάτω πλέγμα δείχνει όλα τα δυνατά αντικειμενοσύνολα που προκύπτουν (Tan, 2005). Εικόνα 1: Πλέγμα αντικειμενοσυνόλων Γενικά για d δεδομένα αντικείμενα υπάρχουν 2 d πιθανά αντικειμενοσύνολα που δημιουργούνται. Εάν λοιπόν το d είναι πολύ μεγάλο τότε και ο χώρος αναζήτησης συχνών αντικειμενοσυνόλων θα είναι εκθετικά μεγαλύτερος (Tan, 2005). Candidate Generation Η brute-force προσέγγιση είναι να εξεταστεί το επίπεδο υποστήριξης για κάθε ένα από όλα τα αντικειμενοσύνολα που υπάρχουν στο πλέγμα. Υπάρχουν διάφορες τεχνικές για να αποφευχθεί αυτό και να μειωθεί η υπολογιστική πολυπλοκότητα του προβλήματος. Αυτές είναι: Reduce number of candidate item set (M) -Μείωση του αριθμού των υποψήφιων αντικειμενοσυνόλων. Αυτή είναι μία τεχνική που χρησιμοποιείται πάρα πολύ συχνά και εφαρμόζεται στον αλγόριθμο apriori όπως και σε κάθε αλγόριθμο που προέρχεται από αυτόν. Η τεχνική αυτή βασίζεται στην αρχή apriori η οποία βοηθάει στον περιορισμό του εκθετικά μεγάλου χώρου αναζήτησης και θα αναλυθεί μαζί με τον αλγόριθμο παρακάτω. Reduce number of comparisons (NM) - Μείωση του αριθμού των συγκρίσεων. Reduce number of transactions (Ν) - Μείωση του αριθμού των συναλλαγών (Tan, 2005). ΕΠΙΧΕΙΡΗΜΑΤΙΚΗ ΕΥΦΥΪΑ ΚΑΙ ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ 24

27 ΚΕΦΑΛΑΙΟ 2: ΕΠΙΧΕΙΡΗΜΑΤΙΚΗ ΕΥΦΥΪΑ ΚΑΙ ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ Closed & Maximal Item sets Ένας άλλος τρόπος με τον οποίο μπορούμε να μειώσουμε τον αριθμό των αντικειμενοσυνόλων που θα ελεγχθούν από το πλέγμα χωρίς ταυτόχρονα να χάσουμε κάποια πληροφορία για τα συχνά αντικειμενοσύνολα που υπάρχουν είναι με τη μέθοδο των κλειστών αντικειμενοσυνόλων (closed item sets). Ένα αντικειμενοσύνολο είναι κλειστό εάν κανένα από τα άμεσα υπερσύνολα του δεν έχει τουλάχιστον την ίδια υποστήριξη με αυτό. Ένα επίπεδο παραπάνω από τα κλειστά αντικειμενοσύνολα βρίσκονται τα μέγιστα συχνά αντικειμενοσύνολα (maximal frequent item sets). Ως μέγιστο αντικειμενοσύνολο ορίζεται ένα αντικειμενοσύνολο, από του οποίου τα υπερσύνολα κανένα δεν είναι συχνό. Η σχέση μεταξύ κλειστών και μέγιστων αντικειμενοσυνόλων φαίνεται στην παρακάτω εικόνα. Εικόνα 2 Σχέση μεταξύ συχνών, κλειστών και μέγιστων αντικειμενοσυνόλων Τα μέγιστα αντικειμενοσύνολα δεν εμπεριέχουν το επίπεδο υποστήριξης τους, σε αντίθεση από τα κλειστά οπότε απαιτείται ακόμα μία σάρωση των δεδομένων προκειμένου αυτή να υπολογιστεί. Λόγω της φύσης της αναζήτησής των κλειστών αντικειμενοσυνόλων- που γίνεται μαζί με τον υπολογισμό της υποστήριξης- τα κλειστά αντικειμενοσύνολα μας παρέχουν και την υποστήριξη των μη κλειστών αντικειμενοσυνόλων. Για αυτόν τον λόγο είναι προτιμότερη σε πολλές περιπτώσεις η χρήση των κλειστών αντικειμενοσυνόλων. Για να είναι συχνό ένα κλειστό αντικειμενοσύνολο θα πρέπει η υποστήριξή του να είναι να είναι τουλάχιστον ισοδύναμη με το όριο της ελάχιστης υποστήριξης που θέσαμε (Tan et al., 2004), (Jiawei and Micheline, 2006). Alternatives -- Traversing the Search Space Μέθοδοι BFS & DFS Ο χώρος της αναζήτησης των συχνών αντικειμενοσυνόλων μπορεί να αναπαρασταθεί όπως είπαμε παραπάνω με ένα πλέγμα. Η αναζήτηση λοιπόν μπορούμε να πούμε ότι αντιστοιχεί στη διάσχιση αυτού του πλέγματος. Υπάρχουν πολλοί τρόποι που μπορεί να γίνει η αναζήτηση και αντιστοιχούν σε μία διαφορετική ΕΠΙΧΕΙΡΗΜΑΤΙΚΗ ΕΥΦΥΪΑ ΚΑΙ ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ 25

28 ΚΕΦΑΛΑΙΟ 2: ΕΠΙΧΕΙΡΗΜΑΤΙΚΗ ΕΥΦΥΪΑ ΚΑΙ ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ στρατηγική διάσχισης αυτού του πλέγματος. Το αν κάποια στρατηγική είναι καλύτερη από κάποια άλλη, αυτό εξαρτάται από την δομή που έχουν τα συχνά αντικειμενοσύνολα στο πλέγμα, άρα μπορεί να διαφέρει από περίπτωση σε περίπτωση ανάλογα με τα δεδομένα (Jochen Hipp and Gholamreza Nakhaeizadeh, 2000). Οι αλγόριθμοι με τους οποίους θα ασχοληθούμε ανήκουν σε μία από τις στρατηγικές του Breadth-First Search ή του Depth-First Search. Η αναζήτηση Breadth-First ξεκινάει από την ρίζα και συνεχίζει διαδοχικά σε κάθε ένα κλαδί του πλέγματος με τη σειρά, όπως φαίνεται στο σχήμα. Οι αριθμοί αντιστοιχούν στην σειρά με την οποία θα εξεταστεί ο κάθε κόμβος. Εικόνα 3 Breadth-First Αναζήτηση Η Depth-First αναζήτηση από την άλλη μεριά, ξεκινάει από την ρίζα αλλά ακολουθεί κάθε κλαδί μέχρι εκεί που τελειώνει και συνεχίζει την αναζήτηση γυρίζοντας στον αμέσως προηγούμενο κόμβο που είχε διακλάδωση. Μία αναπαράσταση αυτής της αναζήτησης φαίνεται στο σχήμα ( DFS versus BFS search ). Εικόνα 4 Depth-First Αναζήτηση Αλγόριθμοι που εφαρμόζουν Breadth- First αναζήτηση είναι ο apriori, apriori TID apriori hybrid ενώ αλγόριθμοι που εφαρμόζουν Depth-First είναι οι FP-growth και ECLAT (Jochen Hipp and Gholamreza Nakhaeizadeh, 2000) ΑΛΓΟΡΙΘΜΟΙ ΚΑΝΟΝΩΝ ΣΥΣΧΕΤΙΣΗΣ O αλγόριθμος Apriori βασίζεται στην αρχή apriori που είναι η εξής: «Όλα τα υποσύνολα ενός συχνού συνόλου, πρέπει να είναι επίσης συχνά. ΕΠΙΧΕΙΡΗΜΑΤΙΚΗ ΕΥΦΥΪΑ ΚΑΙ ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ 26

29 ΚΕΦΑΛΑΙΟ 2: ΕΠΙΧΕΙΡΗΜΑΤΙΚΗ ΕΥΦΥΪΑ ΚΑΙ ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ Με άλλα λόγια εάν το υποσύνολο {Α,Β} είναι συχνό, τότε τα αντικείμενα {Α} και {Β} θα πρέπει να είναι συχνά. Η υποστήριξη ως μέτρο, μας δείχνει πόσο συχνά ένα αντικείμενο εμφανίζεται στα δεδομένα Επομένως εφόσον ξέρουμε ότι το αντικείμενο {Α} δεν ικανοποιεί ένα επιθυμητό όριο υποστήριξης δεν υπάρχει λόγος να λάβουμε υπ όψη κανένα υποσύνολο το οποίο περιλαμβάνει το {Α} (Lantz, 2013). Ο αλγόριθμος apriori χρησιμοποιεί αυτήν την λογική για να απορρίψει πιθανούς κανόνες συσχέτισης με χαμηλή υποστήριξη που δεν παρουσιάζουν κάποιο ενδιαφέρον. Μία αναπαράσταση της φαίνεται στην παρακάτω εικόνα, όπου υποθέτουμε ότι το υποσύνολο {C, D, E} είναι συχνό. Ως εκ τούτου και όλα τα αντικείμενα και οι δυάδες που σχηματίζουν είναι επίσης συχνά. Εικόνα 5 Απαλοιφή των κανόνων με χαμηλή υποστήριξη Η διαδικασία της δημιουργίας κανόνων, γίνεται σε δύο στάδια: Στο πρώτο στάδιο εντοπίζονται όλα τα υποσύνολα τα οποία ανταποκρίνονται σε ένα όριο υποστήριξης το οποίο θέτουμε αρχικά. Στο δεύτερο στάδιο της διαδικασίας δημιουργούνται κανόνες από τα υποσύνολα που επιλέχθηκαν, οι οποίοι πρέπει να ανταποκρίνονται σε ένα όριο εμπιστοσύνης το οποίο επίσης θέτουμε. Ο αλγόριθμος πραγματοποιεί το πρώτο στάδιο αναζήτησης συχνών αντικειμένων εντοπίζοντας αρχικά όλα τα συχνά μεμονωμένα αντικείμενα. Μετά δημιουργεί όλες τις δυνατές δυάδες που προκύπτουν από τα συχνά αντικείμενα μόνο. Δηλαδή εάν για παράδειγμα τα αντικείμενα {Α}, {Β}, {C} είναι συχνά (βάσει της υποστήριξης τους), ενώ το {D} δεν είναι, τότε οι δυάδες που θα δημιουργηθούν είναι οι {A,B}, {A,C} {B,C} και καμία δυάδα που να περιέχει το {D} αφού απορρίπτονται apriori. Οι δυάδες αυτές λέγονται υποψήφιες δυάδες, και στη συνέχεια ο αλγόριθμος εκτελείται ξανά στα δεδομένα για να ελέγξει ποιες από αυτές ικανοποιούν την απαιτούμενη υποστήριξη και να βρεθούν έτσι οι συχνές δυάδες. Η διαδικασία θα συνεχιστεί με όμοιο τρόπο. Από τις συχνές δυάδες ο αλγόριθμος θα δημιουργήσει ΕΠΙΧΕΙΡΗΜΑΤΙΚΗ ΕΥΦΥΪΑ ΚΑΙ ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ 27

30 ΚΕΦΑΛΑΙΟ 2: ΕΠΙΧΕΙΡΗΜΑΤΙΚΗ ΕΥΦΥΪΑ ΚΑΙ ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ όλες τις δυνατές τριάδες που προκύπτουν και θα εκτελεστεί ξανά στα δεδομένα για να ελέγξει ποιες από αυτές τις τριάδες είναι συχνές. Η όλη διαδικασία επαναλαμβάνεται μέχρι να βρεθούν τα μέγιστα σύνολα αντικειμένων που ικανοποιούν την υποστήριξη που θέσαμε. Στο δεύτερο στάδιο γίνεται η παραγωγή των κανόνων συσχέτισης. Ξεκινάμε από το σύνολο των συχνών αντικειμένων. Γνωρίζοντας ότι ένα υποσύνολο συναντιέται συχνά, θέλουμε να βρούμε εάν υπάρχει κάποια επιπλέον πληροφορία που μπορούμε να αποκομίσουμε από αυτό, όπως αν ένα αντικείμενο ή ένα υποσύνολο συνεπάγεται κάποιο άλλο αντικείμενο. Ξεκινώντας ελέγχονται όλα τα υποσύνολα. Για παράδειγμα από το υποσύνολο {Α, Β} θα προκύψουν οι κανόνες {Α} {Β} και {Β} {Α}. Αυτοί οι κανόνες στη συνέχεια θα εκτιμηθούν βάσει ενός επιπέδου εμπιστοσύνης το οποίο θέτουμε. Οι κανόνες που δεν ανταποκρίνονται στο επιθυμητό επίπεδο εμπιστοσύνης απορρίπτονται. Ακόμα και αν ο κανόνας {Α} {Β} ισχύει βάσει της εμπιστοσύνης του, είναι δηλαδή στατιστικά σημαντικός, αυτό δεν σημαίνει ότι και ο αντίθετος κανόνας {Β} {Α} θα είναι στατιστικά σημαντικός. Όπως και στη διαδικασία εύρεσης των συχνών αντικειμένων, έτσι και στην εξαγωγή κανόνων ξεκινάμε με κανόνες που στη δεξιά πλευρά έχουν ένα μόνο αντικείμενο. Οι κανόνες που ανταποκρίνονται στο επιθυμητό επίπεδο εμπιστοσύνης χρησιμοποιούνται έπειτα για την παραγωγή νέων υποψήφιων κανόνων με δύο αντικείμενα στη δεξιά πλευρά τους. Για παράδειγμα, εάν οι κανόνες {Α, C, D} {B} και {A, B, D} {C} έχουν υψηλό επίπεδο εμπιστοσύνης τότε ο υποψήφιος κανόνας {A,D} {B, C} παράγεται από την συγχώνευσή τους. Και σε αυτήν την διαδικασία η αρχή apriori βοηθάει στην ταχύτητα του αλγόριθμου. Εάν θεωρήσουμε για παράδειγμα ότι η εμπιστοσύνη του κανόνα {Β, C, D} {A} είναι χαμηλή, τότε όλοι οι κανόνες που απορρέουν από αυτόν τον κανόνα και περιέχουν το {Α}, όπως ο {C, D} {A, B} κτλ., δεν θα ληφθούν καθόλου υπ όψη (Tan et al., 2005), (Lantz, 2013), (Roberto J, 1998), (Agarwal and Srikant, 1994). Για παράδειγμα, έστω ότι έχουμε δεδομένα από 10 συναλλαγές που αφορούν 4 προϊόντα. Συναλλαγές {A, B, C, D} {A, B, D} {A, B} {B, C, D} {B, C} {C, D} {B, D} {A, C, D} {C, D} {A, B, D} Πίνακας 1 Θέτουμε το όριο της υποστήριξης στο 40%. Η υποστήριξη του αντικειμένου Α είναι 5/10=50% αφού εμφανίζεται σε 5 συναλλαγές από τις 10 που έχουμε συνολικά. Με όμοιο τρόπο βρίσκουμε την υποστήριξη και των υπόλοιπων αντικειμένων. ΕΠΙΧΕΙΡΗΜΑΤΙΚΗ ΕΥΦΥΪΑ ΚΑΙ ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ 28

31 ΚΕΦΑΛΑΙΟ 2: ΕΠΙΧΕΙΡΗΜΑΤΙΚΗ ΕΥΦΥΪΑ ΚΑΙ ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ Το αποτέλεσμα που προκύπτει είναι: Αντικείμενα Υποστήριξη {A} 50% {B} 70% {C} 60% {D} 80% Πίνακας 2 Όλα τα αντικείμενα έχουν υποστήριξη πάνω από 40%. Είναι όλα συχνά, άρα προχωράμε στο συνδυασμό δυάδων που σχηματίζουν και υπολογίζουμε για αυτές την υποστήριξη. Δυάδες Υποστήριξη {A, B} 40% {A, C} 20% {A, D} 40% {B, C} 30% {B, D} 50% {C, D} 50% Πίνακας 3 Οι δυάδες {A, B}, {A, D}, {B, D} και {C, D} έχουν υποστήριξη πάνω από 40% οπότε θεωρούνται συχνές. Οι υπόλοιπες απορρίπτονται από τη διαδικασία, καθώς κανένα υπερσύνολο που προκύπτει από αυτές δεν θα είναι συχνό. Στο επόμενο βήμα σχηματίζουμε τις πιθανές τριάδες που προκύπτουν από τις συχνές δυάδες. Τριάδες Υποστήριξη {A, B, D} 30% {B, C, D} 20% Πίνακας 4 Η υποστήριξη και για τις δύο τριάδες είναι χαμηλή σε αυτό το παράδειγμα οπότε απορρίπτονται και ο αλγόριθμος σταματά εδώ, με μέγιστο δυνατό σύνολο αντικειμένων τις δυάδες. ΕΠΙΧΕΙΡΗΜΑΤΙΚΗ ΕΥΦΥΪΑ ΚΑΙ ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ 29

32 ΚΕΦΑΛΑΙΟ 2: ΕΠΙΧΕΙΡΗΜΑΤΙΚΗ ΕΥΦΥΪΑ ΚΑΙ ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ Η εξαγωγή κανόνων θα γίνει από αυτά τα συχνά σύνολα αντικειμένων, ελέγχοντας το επίπεδο εμπιστοσύνης των πιθανών κανόνων. Το όριο της εμπιστοσύνης είναι 80%. {Α, Β} {Α} {Β}: εμπιστοσύνη = 4/5 = 80% γιατί από τις 5 συναλλαγές που περιλαμβάνουν το Α οι 4 περιλαμβάνουν και το Β. {Β} {Α}: εμπιστοσύνη = 4/7 = 57% {A, D} {A} {D} = 80% {D} {A} = 50% {B, D} {B} {D} = 71% {D} {B} = 62% {C, D} {C} {D}= 62% {D} {C}= 83% Σύμφωνα με το όριο της εμπιστοσύνης που θέσαμε οι κανόνες που τελικά παράγονται είναι οι {A} {B}, {A} {D} και {D} {C}. Εάν ελαττώσουμε το όριο της εμπιστοσύνης θα παράγονταν περισσότεροι κανόνες. FP Growth Algorithm Ο αλγόριθμος FP-Growth χρησιμοποιεί μια διαφορετική προσέγγιση από τον apriori για την ανακάλυψη συχνών υποσυνόλων. Αντίθετα από τον apriori που δημιουργεί τα υποψήφια συχνά υποσύνολα και μετά σαρώνει τα δεδομένα κάθε φορά χωριστά για κάθε νέο μοντέλο (δυάδες, τριάδες, κτλ.) για να ελέγξει το ποια από αυτά είναι συχνά, ο FP-growth σαρώνει τα δεδομένα μία φορά και τα κωδικοποιεί σε μία μορφή που λέγεται FP-tree, το οποίο σημαίνει Frequent Pattern. Στη συνέχεια εξάγει τα συχνά υποσύνολα απ ευθείας από αυτήν την δομή. Η τεχνική του FPgrowth έχει ως αποτέλεσμα πολύ γρηγορότερους χρόνους εκτέλεσης καθώς απαιτεί δύο μόνο σαρώσεις των δεδομένων, οι οποίες και αντιστοιχούν στα δύο στάδια της διαδικασίας (Harrington, 2012). Το FP-tree είναι το βασικό κομμάτι του συγκεκριμένου αλγορίθμου. Ο ρόλος του είναι η αποθήκευση, της συχνότητας εμφάνισης των υποσυνόλων των αντικειμένων σε μία πιο συμπιεσμένη μορφή. Δημιουργείται με το «διάβασμα» του αλγορίθμου μίας γραμμής δεδομένων τη φορά, και χαρτογραφώντας και αποθηκεύοντας κάθε συναλλαγή ως μονοπάτι στο δέντρο. Τα υποσύνολα που περιέχουν όμοια αντικείμενα θα μοιραστούν κομμάτι του δέντρου. Όταν υπάρχει διαφορά σε κάποιο αντικείμενο τότε το δέντρο διασπάται και δημιουργείται ένα διαφορετικό μονοπάτι. Ο κάθε κόμβος του δέντρου αντιπροσωπεύει ένα αντικείμενο του υποσυνόλου και πόσες φορές εμφανίστηκε σε αυτήν την αλληλουχία, οπότε ένα μονοπάτι μπορεί να μας δείξει πόσες φορές εμφανίστηκε μία αλληλουχία. ΕΠΙΧΕΙΡΗΜΑΤΙΚΗ ΕΥΦΥΪΑ ΚΑΙ ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ 30

33 ΚΕΦΑΛΑΙΟ 2: ΕΠΙΧΕΙΡΗΜΑΤΙΚΗ ΕΥΦΥΪΑ ΚΑΙ ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ Η έννοια της υποστήριξης χρησιμοποιείται και εδώ, ως ένα μέτρο για το ποια υποσύνολα θεωρούνται συχνά. Το όριο της υποστήριξης δίνεται ως input πριν ξεκινήσει ο αλγόριθμος. Θα περιγράψουμε τη δημιουργία ενός δέντρου με ένα παράδειγμα (Bell, 2015), (Jared, 2014). Έστω ότι έχουμε τα παρακάτω δεδομένα, τα οποία αποτελούνται από 10 συναλλαγές που αφορούν 5 προϊόντα. Πίνακας 5 Αρχικά τα δεδομένα σαρώνονται μία φορά ώστε να διαπιστωθεί η συχνότητα εμφάνισης όλων των αντικειμένων. Με την λογική apriori εάν ένα αντικείμενο δεν είναι συχνό, τότε και τα υποσύνολα που περιέχουν αυτό το αντικείμενο δεν θα είναι συχνά επίσης. Οπότε, τα αντικείμενα που δεν είναι συχνά, βάσει της υποστήριξης τους απορρίπτονται, ενώ τα συχνά αντικείμενα ταξινομούνται με φθίνουσα σειρά βάσει της υποστήριξης τους. Ο αλγόριθμός σαρώνει μια δεύτερη φορά τα δεδομένα και κατασκευάζει το FP-tree με τον εξής τρόπο. Αρχικά υπάρχει ένα μόνο κόμβος και είναι κενός. Με το πέρασμα της πρώτης σειράς των δεδομένων, το δέντρο παίρνει την εξής μορφή. Εικόνα 6 Δημιουργία του FP-tree Οι κόμβοι a και b δημιουργούνται μαζί με το άθροισμα της συχνότητας του κάθε κόμβου. Μετά το πέρασμα της δεύτερης σειράς των δεδομένων ένα καινούργιο μονοπάτι δημιούργησαν για να αναπαραστήσει την επόμενη συναλλαγή και τα αντικείμενα που περιλαμβάνει. ΕΠΙΧΕΙΡΗΜΑΤΙΚΗ ΕΥΦΥΪΑ ΚΑΙ ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ 31

34 ΚΕΦΑΛΑΙΟ 2: ΕΠΙΧΕΙΡΗΜΑΤΙΚΗ ΕΥΦΥΪΑ ΚΑΙ ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ Εικόνα 7 Δημιουργία του FP-tree Παρατηρούμε ότι ενώ και οι δύο πρώτες συναλλαγές περιλαμβάνουν το αντικείμενο b τα μονοπάτια τους δεν συνδέονται γιατί δεν μοιράζονται το ίδιο πρόθεμα (prefix) δεν ξεκινάνε δηλαδή και οι δύο με το ίδιο αντικείμενο. Υπάρχει όμως ένας δείκτης μεταξύ των κόμβων που αναπαριστούν το ίδιο αντικείμενο. Μετά το πέρασμα της τρίτης συναλλαγής το δέντρο διαμορφώνεται ως εξής. Εικόνα 8 Δημιουργία του FP-tree Η τρίτη συναλλαγή έχει κοινό πρόθεμα με την πρώτη, και έτσι το μονοπάτι που την αντιπροσωπεύει επικαλύπτει το μονοπάτι της πρώτης συναλλαγής. Εξαιτίας αυτής της επικάλυψης το άθροισμα της συχνότητας του αντικειμένου a αυξάνεται. Αυτή η διαδικασία συνεχίζεται με τον ίδιο τρόπο μέχρι να αναπαρασταθούν όλες οι συναλλαγές στο FP-tree. Στο συγκεκριμένο παράδειγμα το δέντρο που διαμορφώνεται τελικά είναι το παρακάτω. Εικόνα 9 Ολοκληρωμένο δέντρο αναζήτησης Το μέγεθος του FP-tree είναι συνήθως μικρότερο από το μέγεθος των αρχικών δεδομένων γιατί πολλές συναλλαγές έχουν κάποια κοινά αντικείμενα αλλά και επειδή πολύ πληροφορία που δεν είναι χρήσιμη - μη σημαντικά δεδομένα - έχουν ΕΠΙΧΕΙΡΗΜΑΤΙΚΗ ΕΥΦΥΪΑ ΚΑΙ ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ 32

35 ΚΕΦΑΛΑΙΟ 2: ΕΠΙΧΕΙΡΗΜΑΤΙΚΗ ΕΥΦΥΪΑ ΚΑΙ ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ παραληφθεί. Το μέγεθος θα είναι ακόμα μικρότερο αν πολλές συναλλαγές έχουν κοινά προθέματα. Το επόμενο βήμα μετά την κατασκευή του δέντρου είναι η εξαγωγή των συχνών αντικειμένων. Ομοίως με τον apriori ξεκινάμε με την εύρεση συχνών υποσυνόλων που περιέχουν ένα μόνο αντικείμενο και κάθε φορά αναζητάμε όλο και μεγαλύτερα υποσύνολα. Η διαδικασία έχει ως εξής. Στο αρχικό δέντρο γίνεται μία σύνθετη αναζήτηση (bottom up). Σύμφωνα με το παράδειγμα μας, το αντικείμενο που βρίσκεται χαμηλότερα στο δέντρο είναι το e και ακολούθως το d, c, b και a. Για να βρούμε όλα τα συχνά υποσύνολα που περιέχουν αρχικά το e, θα αποσπάσουμε από το αρχικό δέντρο όλα τα μονοπάτια που σχετίζονται με το αντικείμενο και θα έχουμε ένα νέο δέντρο που θα περιλαμβάνει μόνο τα υποσύνολα που περιέχουν το e, όπως στην εικόνα. Εικόνα 10 Το μέρος του αρχικού δέντρου που κρατάμε Για να σχηματίσουμε το επόμενο δέντρο που αφορά το αντικείμενο d θα χρησιμοποιήσουμε το αρχικό δέντρο, αλλά αποκόβοντας όλους τους κόμβους του e. Συνεχίζουμε με τον ίδιο τρόπο προς τα πάνω μέχρι να μείνει ένα δέντρο που θα σχετίζεται με ένα μόνο αντικείμενο. Τα δέντρα που παράγονται σε κάθε βήμα φαίνονται στις ακόλουθες εικόνες. ΕΠΙΧΕΙΡΗΜΑΤΙΚΗ ΕΥΦΥΪΑ ΚΑΙ ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ 33

36 ΚΕΦΑΛΑΙΟ 2: ΕΠΙΧΕΙΡΗΜΑΤΙΚΗ ΕΥΦΥΪΑ ΚΑΙ ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ Εικόνα 11 Δέντρα αναζήτησης σε κάθε στάδιο απαλοιφής κόμβων Ο αλγόριθμος, βρίσκει με αυτόν τον τρόπο όλους τους συνδυασμούς που προκύπτουν από κάθε δέντρο, και υπολογίζει την υποστήριξη τους. Τα συχνά υποσύνολα είναι αυτά που η υποστήριξη τους είναι στο επιθυμητό όριο. Τα συχνά υποσύνολα που βρίσκονται μετά το πέρας της διαδικασίας στο παράδειγμα μας είναι. Αντικείμενο e d c b a Συχνά υποσύνολα {e},{d,e},{a,d,e},{c,e},{a,e} {d}, {c,d}, {b,c,d}, {a,c,d}, {b,d}, {a,b,d}, {a,d} {c}, {b,c}, {a,b,c}, {a,c} {b}, {a,b} {a} Πίνακας 6 Ο αλγόριθμος FP-growth παρουσιάζει ενδιαφέρον γιατί δείχνει πως μία συμπιεσμένη αναπαράσταση των δεδομένων μπορεί να βοηθήσει στην πολύ αποτελεσματική εύρεση των συχνών αντικειμένων. Επιπροσθέτως η αποτελεσματικότητα του, οφείλεται και στη στρατηγική που ακολουθεί η οποία βασίζεται στη διάσπαση της εξόρυξης σε κομμάτια (Διαίρει και βασίλευε), και οδηγεί σε πιο επικεντρωμένη έρευνα μικρότερων συνόλων δεδομένων. Σε πολλές περιπτώσεις ο FP-growth ξεπερνάει σε επιδόσεις τον απλό αλγόριθμο apriori κατά πολλές τάξεις μεγέθους (Tan et al., 2004), (Παπαδόπουλος και Γούναρης.). Eclat Algorithm O αλγόριθμος Eclat (Equivalence CLASS Transformation) είναι ένας ακόμα αλγόριθμος αναζήτησης συχνών αντικειμενοσυνόλων, ο οποίος διασχίζει το προθεματικό δέντρο (prefix tree), depth-first και ο πρώτος που αναφέρουμε που χρησιμοποιεί την διατομή των αντικειμενοσυνόλων για την εύρεση των συχνότερων. Προτάθηκε πρώτη φορά από τους Zaki, Parthasarathy, Li και Ogihara το 1997 ( Association rule learning, 2015). Ο αλγόριθμος αυτός μετασχηματίζει τα δεδομένα σε κάθετες λίστες με τις συναλλαγές στις οποίες περιλαμβάνεται κάθε αντικείμενο χωριστά. Οι λίστες αυτές ονομάζονται TIDs (Transaction ids) γιατί κωδικοποιούν κάθε συναλλαγή με ένα id. ΕΠΙΧΕΙΡΗΜΑΤΙΚΗ ΕΥΦΥΪΑ ΚΑΙ ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ 34

37 ΚΕΦΑΛΑΙΟ 2: ΕΠΙΧΕΙΡΗΜΑΤΙΚΗ ΕΥΦΥΪΑ ΚΑΙ ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ Στις παρακάτω εικόνες βλέπουμε την μετατροπή μίας οριζόντιας λίστας δεδομένων σε μία κάθετη TID-List. Εικόνα 12 Μετατροπή λίστας σε κάθετη TID-List Απαιτείται μόνο μία σάρωση όλων των δεδομένων της βάσης, ώστε να δημιουργηθεί με μετατροπή η κάθετη βάση δεδομένων στην οποία κάθε στήλη αντιπροσωπεύει και ένα αντικείμενο και οι γραμμές περιέχουν τα id των συναλλαγών που τα αφορούν. Ο τρόπος με τον οποίο υπολογίζεται η υποστήριξη κάθε υποψήφιου αντικειμενοσυνόλου βασίζεται στην τομή μεταξύ δύο TID-Lists όπως φαίνεται στην εικόνα 13 (Tan et al., 2005). Εικόνα 13 Τομή των αντικειμενοσυνόλων Α και Β Η εικόνα δείχνει την τομή των δύο λιστών για τα αντικείμενα Α και Β. Το αποτέλεσμα είναι μια λίστα με τις συναλλαγές που περιέχουν και το Α και το Β άρα το υποσύνολο ΑΒ ( Apriori and Eclat algorithm in Association Rule Mining, 21:17:30 UTC). Η διαδικασία εύρεσης συχνών στοιχειοσυνόλων με τον Eclat γίνεται με επαναλήψεις. Στην πρώτη επανάληψη ο αλγόριθμος υπολογίζει τις TID-lists και την υποστήριξη όλων των μεμονωμένων αντικειμένων. Μετά σε κάθε επανάληψη δημιουργεί κάθε δυνατό υποψήφιο αντικειμενοσύνολο υπολογίζοντας την τομή του πιο αριστερού αντικειμένου στην κάθετη βάση δεδομένων με κάθε ένα που βρίσκεται στα δεξιά του και μετά το αμέσως επόμενο κοκ. Εάν το υποψήφιο αντικειμενοσύνολο είναι συχνό βάσει της υποστήριξης του τότε αποθηκεύεται. Με τον τρόπο αυτό ο Eclat αποφεύγει τη δημιουργία και τον έλεγχο υποψήφιων αντικειμενοσυνόλων που δεν βρίσκονται στο προθεματικό δέντρο και ΕΠΙΧΕΙΡΗΜΑΤΙΚΗ ΕΥΦΥΪΑ ΚΑΙ ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ 35

38 ΚΕΦΑΛΑΙΟ 2: ΕΠΙΧΕΙΡΗΜΑΤΙΚΗ ΕΥΦΥΪΑ ΚΑΙ ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ επιταχύνει τους υπολογισμούς της υποστήριξης (Schmidt-Thieme, 2005), (Manisha Girotra and Saloni Minocha, 2013). Apriori TID & Apriori Hybrid Πολλοί αλγόριθμοι έχουν δημιουργηθεί από επεκτάσεις, βελτιώσεις ή προσαρμογές από τους κύριους αλγορίθμους που αναφέρθηκαν παραπάνω. Δύο τέτοιοι αλγόριθμοι είναι ο aprioritid και ο apriori hybrid ο οποίος είναι ένας συνδυασμός του απλού apriori και του aprioritid. Αρχικά ο aprioritid λειτουργεί με τον ίδιο τρόπο όπως και ο απλός apriori αλγόριθμος, στην πρώτη σάρωση της βάσης προσδιορίζει τα υποψήφια αντικειμενοσύνολα. Η καινοτομία αυτού του αλγόριθμου είναι ότι δεν χρησιμοποιεί την βάση για τον υπολογισμό της υποστήριξης των υποψήφιων αντικειμενοσυνόλων μετά την πρώτη σάρωση. Δημιουργεί μία κωδικοποίηση της βάσης και υπολογίζει την υποστήριξη από αυτήν. Εξοικονομεί έτσι υπολογιστικό κόστος, ειδικά μετά από μερικές σαρώσεις, όταν η κωδικοποίηση γίνεται πολύ μικρότερη σε μέγεθος σε σχέση με την αρχική βάση. Η κωδικοποίηση που κάνει ο apriori TID είναι μία αναπαράσταση κάθε συναλλαγής ανά τα υποψήφια συχνά αντικείμενα που περιέχει στη μορφή ενός πίνακα C. Από αυτόν τον πίνακα γίνονται οι επόμενοι υπολογισμοί για τις συχνές δυάδες, τριάδες κτλ. Ο πίνακας διαμορφώνεται σε κάθε σάρωση έτσι ώστε μόνο οι συναλλαγές που περιέχουν συχνά αντικειμενοσύνολα να εισάγονται σε αυτόν με αποτέλεσμα το μέγεθος του σταδιακά να μειώνεται πολύ σε σχέση με την αρχική βάση. Εικόνα 14 Παράδειγμα λειτουργίας του AprioriTID Ο απλός αλγόριθμος apriori αποδίδει καλύτερα από τον aprioritid μόνο κατά τις πρώτες σαρώσεις όπου το μέγεθος της αρχικής βάσης δεν έχει πολύ μεγάλη διαφορά από αυτό του TID πίνακα, εφόσον υπάρχουν αρκετές σαρώσεις ο apriori TID θα αποδώσει πολύ καλύτερα από εκείνο το σημείο και μετά. Για αυτούς τους λόγους δημιουργήθηκε ο αλγόριθμος apriori hybrid, ο οποίος συνδυάζει τον απλό apriori με τον apriori TID. Ο hybrid apriori χρησιμοποιεί τον ΕΠΙΧΕΙΡΗΜΑΤΙΚΗ ΕΥΦΥΪΑ ΚΑΙ ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ 36

39 ΚΕΦΑΛΑΙΟ 2: ΕΠΙΧΕΙΡΗΜΑΤΙΚΗ ΕΥΦΥΪΑ ΚΑΙ ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ απλό apriori για τις πρώτες σαρώσεις τις βάσης και περνάει στη χρήση του apriori TID για τις επόμενες, όταν υπολογίζει ότι τα υποψήφια αντικειμενοσύνολα στο τέλος της επόμενης σάρωσης θα χωράνε στην μνήμη (Agarwal and Srikant, 1994), (Jyoti et al., 2013), (Sayad), (Manisha Girotra and Saloni Minocha, 2013) Σ Υ Γ Κ Ρ Ι Σ Η Α Λ Γ Ο Ρ Ι Θ ΜΩ Ν Κ Α Ν Ο Ν Ω Ν Σ Υ Σ Χ Ε Τ Ι Σ Η Σ Αλγόριθμος Εφαρμογή Πλεονεκτήματα Μειονεκτήματα Apriori Apriori TID Apriori Hybrid FP-Growth Καλύτερος για την αναζήτηση κλειστών στοιχειοσυνόλων. Χρήση σε προβλήματα που δεν είναι πολύ μεγάλα. Καλύτερη επιλογή από τον απλό apriori και τον apriori TID. Χρήση σε μεγάλα προβλήματα. 1. Απλός αλγόριθμος 2.Δημιουργεί υποψήφια σύνολα μόνο από συχνά αντικείμενα. 1. Δεν κάνει χρήση ολόκληρης της βάσης για αναζήτηση υποψήφιων συνόλων. 2. Καλύτερος από τον apriori σε ορισμένα προβλήματα Απαιτεί 2 μόνο σαρώσεις της βάσης. 2. Δεν δημιουργεί υποψήφια σύνολα. ECLAT - Απαιτεί λιγότερη μνήμη. Πίνακας 7 1. Χρειάζεται πολύ μνήμη. - Η χρήση της δομής του δέντρου δημιουργεί πολυπλοκότητα. Αν τα υποψήφια σύνολα είναι πολλά ο apriori είναι γρηγορότερος ΕΠΙΧΕΙΡΗΜΑΤΙΚΗ ΕΥΦΥΪΑ ΚΑΙ ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ 37

40

41 ΚΕΦΑΛΑΙΟ 3: ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΣΕ ΔΕΔΟΜΕΝΑ ΛΙΑΝΙΚΗΣ Κ Ε Φ Α Λ Α Ι Ο 3 : Κ Α Ν Ο Ν Ε Σ Σ Υ Σ Χ Ε Τ Ι Σ Η Σ Σ Ε Δ Ε Δ Ο Μ Ε Ν Α Λ Ι Α Ν Ι Κ Η Σ ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΣΕ ΔΕΔΟΜΕΝΑ ΛΙΑΝΙΚΗΣ 39

42

43 ΚΕΦΑΛΑΙΟ 3: ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΣΕ ΔΕΔΟΜΕΝΑ ΛΙΑΝΙΚΗΣ ΑΝΑΛΥΣΗ ΚΑΛΑΘΙΟΥ ΑΓΟΡΑΣ 3.1 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΣΕ ΔΕΔΟΜΕΝΑ ΛΙΑΝΙΚΗΣ Η παραγωγή κανόνων συσχέτισης σε δεδομένα συναλλαγών λιανικής ονομάζεται Ανάλυση Καλαθιού Αγοράς (Market Basket Analysis). Κάθε πελάτης αγοράζει διαφορετικούς συνδυασμούς προϊόντων, διαφορετικές ποσότητες και σε διαφορετικές χρονικές στιγμές. Έτσι η ΑΚΑ μπορεί να βοηθήσει στην κατανόηση της αγοραστικής συμπεριφοράς του κάθε πελάτη ( Market Basket Analysis and Mining Association Rules ). Η αγοραστική συμπεριφορά μπορεί να δείξει τον τρόπο που ψωνίζει ένας πελάτης, για παράδειγμα αν ψωνίζει αυθόρμητα, αν τείνει να αγοράζει πολλά κομμάτια προσφορών ή αν επιλέγει μόνο οικονομικά προϊόντα. Έκτος από αυτό η ΑΚΑ μπορεί να δείξει ποιοι πελάτες τείνουν να προτιμούν συγκεκριμένες ομάδες προϊόντων. Η εξαγωγή κανόνων για προϊόντα που αγοράζονται μαζί οδηγεί στα προϊόντα των οποίων οι πωλήσεις μπορούν να επωφεληθούν με κάποιά προώθηση. Η ανακάλυψη τέτοιων πληροφοριών επηρεάζει αποφάσεις οι οποίες σχετίζονται με τη διαμόρφωση των καταστημάτων, την αποδοτικότερη διαχείριση των αποθεμάτων, στρατηγικές προώθησης πωλήσεων και προσφορών αλλά και τον σχεδιασμό προγραμμάτων επιβράβευσης πελατών ( Association Rule Mining (Artificial Intelligence) ). Εκτός από το περιεχόμενο του καλαθιού των πελατών, μεγάλο ενδιαφέρον παρουσιάζει το τι δεν αγοράζουν και γιατί. Εάν για παράδειγμα κάποιοι πελάτες αγοράζουν μαγιά αλλά όχι αλεύρι, τότε μπορεί να προτιμούν να αγοράσουν το αλεύρι από κάποιον ανταγωνιστή. Μεγάλο ρόλο παίζουν και προϊόντα τα οποία μπορεί να είναι παράγοντες-κλειδιά σε μία πελατειακή σχέση. Για παράδειγμα εάν διατηρούμε στα ράφια συγκεκριμένα προϊόντα πολυτελείας τα οποία αγοράζονται από κάποιον πελάτη με μεγάλη αξία συναλλαγών, τότε η αφαίρεση αυτών των προϊόντων και η αντικατάστασή τους με κάποια ποιο ευπώλητα προϊόντα, μπορεί να απειλήσει ολόκληρη την σχέση με μία τέτοια ομάδα πελατών ( Market Basket Analysis and Mining Association Rules ). Σε επόμενο στάδιο οι κανόνες συσχέτισης εφαρμόζονται με ένα διαφορετικό τρόπο έτσι ώστε, να ανιχνευθούν τέτοιες ενδιαφέρουσες και χρήσιμες πληροφορίες. Η Διαφορική Ανάλυση Καλαθιού Αγοράς (Differential Market Basket Analysis) απαλείφει το πρόβλημα του πολύ μεγάλου αριθμού ήδη γνωστών ή μη ενδιαφέροντών πληροφοριών. Σε μία διαφορική ανάλυση συγκρίνονται αποτελέσματα κανόνων μεταξύ καταστημάτων, μεταξύ καταναλωτών διαφορετικών δημογραφικών ομάδων, μεταξύ διαφορετικών ημέρων της εβδομάδας ή εποχής του χρόνου και τα λοιπά. Εάν παρατηρηθεί ότι ένας κανόνας ισχύει για ένα κατάστημα αλλά όχι για τα υπόλοιπα (ή αντίστοιχα ένας κανόνας ισχύει για όλα τα καταστήματα αλλά όχι για ένα) τότε αυτό το κατάστημα παρουσιάζει κάποιο ενδιαφέρον. Μπορεί οι πελάτες που το επισκέπτονται να έχουν διαφορετικές προτιμήσεις, ή μπορεί να είναι οργανωμένο με έναν καλύτερο, πιο κερδοφόρο τρόπο. ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΣΕ ΔΕΔΟΜΕΝΑ ΛΙΑΝΙΚΗΣ 41

44 ΚΕΦΑΛΑΙΟ 3: ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΣΕ ΔΕΔΟΜΕΝΑ ΛΙΑΝΙΚΗΣ Αξίζει να αναφέρουμε ότι παρόλο που συνήθως η ΑΚΑ αφορά αντικείμενα που αγοράζονται μαζί στην ίδια συναλλαγή, αυτό δεν είναι πάντα απαραίτητο. Υπάρχουν αλγόριθμοι οι οποίοι προσαρμόζονται ώστε να ψάχνουν ακολουθίες αγορών με την πάροδο του χρόνου. Η Προγνωστική Ανάλυση Καλαθιού Αγοράς (Predictive Market Basket Analysis) χρησιμοποιείται για να προσδιοριστούν ομάδες προϊόντων τα οποία γενικά αγοράζονται σε αλληλουχία ( Market Basket Analysis ). Η παρούσα εργασία αφορά την ανάπτυξη ενός συστήματος για την παραγωγή κανόνων συσχέτισης σε δεδομένα συναλλαγών και την οπτικοποίηση τους, με σκοπό την χρήση της τελικής εφαρμογής για ανάλυση καλαθιού αγορών από τμήμα μάρκετινγκ λιανικού εμπορίου. 3.2 ΕΡΓΑΛΕΙΑ ΠΑΡΑΓΩΓΗΣ ΚΑΙ ΟΠΤΙΚΟΠΟΙΗΣΗΣ ΚΑΝΟΝΩΝ ΣΥΣΧΕΤΙΣΗΣ Για την ανάπτυξη του συστήματος, την παραγωγή και την οπτικοποίηση των κανόνων συσχέτισης, επιλέχθηκε η γλώσσα ανοιχτού λογισμικού R. Η R είναι γλώσσα προγραμματισμού και εργαλείο λογισμικού για στατιστικούς υπολογισμούς και γραφικές αναπαραστάσεις. Χρησιμοποιείται παγκοσμίως από στατιστικολόγους και αναλυτές δεδομένων με τη δημοτικότητα της να έχει αυξηθεί τα τελευταία χρόνια (DAVID SMITH) και να αποτελεί σημαντικό εργαλείο για ένα μεγάλο εύρος επιστημονικών πεδίων αλλά και εταιριών που εστιάζουν στην ανάλυση των δεδομένων τους. Η R αποτελεί μία διαφορετική εφαρμογή της γλώσσας S. H γλώσσα S δημιουργήθηκε από τον John Chambers στα εργαστήρια Bell Labs. Υπάρχουν μερικές σημαντικές διαφορές, αλλά ένα μεγάλο μέρος του κώδικα που γράφεται για την S τρέχει χωρίς κάποια αλλαγή του στην R. Την γλώσσα R δημιούργησαν οι Ross Ihaka και Robert Gentleman στο Πανεπιστήμιο του Όκλαντ στη Νέα Ζηλανδία. Σήμερα αναπτύσσεται από την R Development Core Team αλλά και από την κοινότητα ελεύθερου λογισμικού που χρησιμοποιεί την γλώσσα. Συντάσσεται και εκτελείται σε μία ευρεία ποικιλία από πλατφόρμες UNIX καθώς και Windows και MacOS, ενώ διατίθεται δωρεάν υπό τους όρους της άδειας χρήσης ελεύθερου λογισμικού GNU GPL ( What is R? ). Οι δυνατότητες της R επεκτείνονται μέσω πακέτων τα οποία έχουν δημιουργηθεί από χρήστες και τα οποία εστιάζουν σε εξιδεικευμένες τεχνικές (στατιστικές μεθόδους, παραγωγή γραφικών, δυνατότητες εισαγωγής/εξαγωγής δεδομένων από διάφορες μορφές, εργαλεία δημιουργίας αναφορών και άλλα). Τα πακέτα που χρησιμοποιήθηκαν για τους σκοπούς του συγκεκριμένου συστήματος ήταν τα πακέτα arules, arulesvis και shiny. Το πακέτο arules παρέχει όλη την απαραίτητη δομή και εργαλεία για την αναπαράσταση, τον χειρισμό και την ανάλυση δεδομένων συναλλαγών και μοτίβων (συχνά αντικειμενοσύνολα και κανόνες συσχέτισης). Το πακέτο δημιούργησαν οι: Michael Hahsler, Christian Buchta, Bettina Gruen και Kurt Hornik ( arules: Mining Association Rules and Frequent Itemsets ). Το πακέτο arulesvis επεκτείνει περαιτέρω το πακέτο arules, παρέχοντας διάφορες τεχνικές απεικόνισης για κανόνες συσχέτισης και αντικειμενοσύνολα. Περιλαμβάνονται επίσης και δια δραστικές απεικονίσεις για κανόνες. Το πακέτο ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΣΕ ΔΕΔΟΜΕΝΑ ΛΙΑΝΙΚΗΣ 42

45 ΚΕΦΑΛΑΙΟ 3: ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΣΕ ΔΕΔΟΜΕΝΑ ΛΙΑΝΙΚΗΣ ανέπτυξαν οι Michael Hahsler και Sudheer Chelluboina ( arulesviz: Visualizing Association Rules and Frequent Itemsets ). Το πακέτο shiny είναι ένα εργαλείο το οποίο επιτρέπει στους αναλυτές δεδομένων να δημιουργήσουν εύκολα δια δραστικές εφαρμογές web, οι οποίες ενσωματώνουν τη δουλεία τους αναλύσεις - με χρήση της R. Η αυτόματη «αντιδραστική» (reactive) λειτουργία του πακέτου, μεταξύ των εισόδων και των εξόδων, είναι το κλειδί για την κατασκευή των εφαρμογών ( shiny: Web Application Framework for R ). 3.3 ΔΕΔΟΜΕΝΑ ΕΙΣΑΓΩΓΗΣ Χρησιμοποιήσαμε ένα δοκιμαστικό σύνολο δεδομένων, βασισμένο σε πραγματικά δεδομένα συναλλαγών από κατάστημα λιανικής (σούπερ-μάρκετ). Οι συναλλαγές πραγματοποιήθηκαν σε διάστημα δυόμιση μηνών. Το σετ δεδομένων αποτελείται από μεμονωμένες συναλλαγές και 169 κατηγορίες προϊόντων. Επιπλέον το σετ δεδομένων είχε στοιχεία από RFM (Recency Frequency Monetary) ανάλυση των συναλλαγών και ποιο συγκεκριμένα είχαμε την προσφατότητα κάθε συναλλαγής (πόσες μέρες είχαν περάσει από την ημέρα που έγινε η συναλλαγή σε σχέση με την ημέρα που έγινε η ανάκτηση των δεδομένων) καθώς και την αξία κάθε συναλλαγής. Πριν την επεξεργασία των δεδομένων, έγινε ένα διάγραμμα σχετικής συχνότητας των 25 πιο συχνών αντικειμένων, όπως φαίνεται στην εικόνα 15. Στο πλαίσιο της περιγραφικής στατιστικής με σκοπό την καλύτερη κατανόηση του συνόλου δεδομένων πάνω στο οποίο εργαζόμαστε. Εικόνα 15 Διάγραμμα Συχνότητας Αυτό το διάγραμμα απεικονίζει τα προϊόντα που αγοράζονται πιο συχνά. Αξίζει να παρατηρήσουμε ότι η υποστήριξη ακόμα και των πιο συχνών ειδών είναι σχετικά χαμηλή, (για παράδειγμα το πιο συχνό αντικείμενο εμφανίζεται μόνο περίπου ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΣΕ ΔΕΔΟΜΕΝΑ ΛΙΑΝΙΚΗΣ 43

46 ΚΕΦΑΛΑΙΟ 3: ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΣΕ ΔΕΔΟΜΕΝΑ ΛΙΑΝΙΚΗΣ στο 3,5% των συναλλαγών). Αυτές οι πληροφορίες χρησιμεύουν ιδιαίτερα στον ορισμό του ορίου της υποστήριξης που θα θέσουμε στον αλγόριθμο apriori για την παραγωγή των κανόνων συσχέτισης. Στην προκειμένη περίπτωση γνωρίζουμε ότι για να λάβουμε έναν εύλογο αριθμό κανόνων θα πρέπει να ρυθμίσουμε το όριο της υποστήριξης πολύ πιο κάτω από ΠΡΟΕΠΕΞΕΡΓΑΣΙΑ ΔΕΔΟΜΕΝΩΝ Πριν την εφαρμογή του αλγόριθμου apriori έπρεπε να γίνει κάποια προεπεξεργασία των δεδομένων. Αυτό περιλάμβανε τον μετασχηματισμό των δεδομένων στην κατάλληλη μορφή. Τα δεδομένα δόθηκαν σε μορφή csv αρχείου και η αρχική μορφή τους ήταν ως εξής: κάθε γραμμή αναπαριστούσε μία συναλλαγή, υπήρχε μία στήλη με τα δεδομένα της προσφατότητας της συναλλαγής και μία με την αξία της. Η επόμενη στήλη περιείχε τα προϊόντα που υπήρχαν στην εκάστοτε συναλλαγή διαχωρισμένα με κόμμα. Δημιουργήθηκε ένα data frame στο περιβάλλον της R με τα αρχικά δεδομένα. Το frame αυτό αποτελούνταν από μία στήλη με τα id των συναλλαγών, η οποία προστέθηκε (κάθε συναλλαγή είχε έναν αύξοντα αριθμό ξεκινώντας από το 1), μία στήλη με τα δεδομένα της προσφατότητας και μία με τα δεδομένα της αξίας των συναλλαγών. Από εκεί και πέρα, κάθε προϊόν αποτελούσε και μία στήλη. Ο τρόπος έκφρασης του περιεχομένου μίας συναλλαγής ήταν με την αξία που είχε κάθε κελί στις στήλες των προϊόντων. Ήταν True αν το αντικείμενο υπήρχε στην συναλλαγή ή False αν δεν υπήρχε. Αυτή η μέθοδος αναπαράστασης των συναλλαγών λέγεται μέθοδος καλαθιού (basket). Ο αλγόριθμος apriori χρησιμοποιεί κατηγορικά δεδομένα για την παραγωγή κανόνων. Μετά από δοκιμές που έγιναν με την κατηγοριοποίηση της προσφατότητας, και της αξίας και την συμμέτοχή τους ως μεταβλητές στην παραγωγή κανόνων συσχέτισης, αποφασίστηκε να μην χρησιμοποιηθούν τελικά ως μεταβλητές απ ευθείας στην παραγωγή των κανόνων. Ο λόγος για αυτό ήταν διότι με την συμμετοχή τους οι κανόνες που παράγονταν περιείχαν σχεδόν πάντα στο δεξιό μέλος τους την αξία του καλαθιού και αυτό δεν επέτρεπε να διερευνηθούν οι συσχετίσεις μεταξύ των προϊόντων. Η ενναλακτική που τελικά εφαρμόστηκε ήταν να γίνει η παραγωγή των κανόνων συσχέτισης μόνο με τα δεδομένα των προϊόντων και η πληροφορία της προσφατότητας και της αξίας να προστεθεί μετά, χαρακτηρίζοντας τον κανόνα ως πρόσφατο ή μη και αντίστοιχα ως προσοδοφόρο ή όχι. Για να γίνει αυτό, έπρεπε αρχικά να εκτελεστεί ο αλγόριθμός apriori στα δεδομένα μας, και να επιλεγούν οι πιο ενδιαφέροντες κανόνες από το αποτέλεσμα του. 3.5 ΠΑΡΑΓΩΓΗ ΚΑΝΟΝΩΝ ΣΥΣΧΕΤΙΣΗΣ Για την παραγωγή των κανόνων συσχέτισης τα όρια των παραμέτρων τέθηκαν ως εξής: υποστήριξη = 0,001 εμπιστοσύνη = 0,6 και μέγιστος αριθμός αντικειμένων στους κανόνες = 4 αντικείμενα. Τα όρια αυτά επιλέχθηκαν έτσι ώστε να παραχθεί μεγάλος αριθμός κανόνων. ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΣΕ ΔΕΔΟΜΕΝΑ ΛΙΑΝΙΚΗΣ 44

47 ΚΕΦΑΛΑΙΟ 3: ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΣΕ ΔΕΔΟΜΕΝΑ ΛΙΑΝΙΚΗΣ Το αποτέλεσμα ήταν η παραγωγή 4,007 κανόνων, οι περισσότεροι από τους οποίους περιείχαν 4 αντικείμενα, και λιγότεροι περιείχαν 3 ή 2 αντικείμενα. Αντί να χρησιμοποιήσουμε τα όρια των παραμέτρων για να περιορίσουμε το σύνολο κανόνων που επιστράφηκαν, προτιμήσαμε να επιτρέψουμε την παραγωγή ενός αρκετά μεγάλου συνόλου κανόνων, για να αυξήσουμε την πιθανότητα παραγωγής χρήσιμων/σχετικών κανόνων. Χρήση Δεδομένων Προσφατότητας και Αξίας Αφού παράχθηκαν οι κανόνες συσχέτισης και ταξινομήθηκαν βάσει των τιμών του lift, προχωρήσαμε στη χρήση των δεδομένων που είχαμε σχετικά με την προσφατότητα και την αξία των συναλλαγών. Ο σκοπός ήταν να χρησιμοποιήσουμε αυτά τα δεδομένα με τέτοιο τρόπο ώστε να μπορούμε να παρατηρήσουμε ποιοι από τους κανόνες ήταν πιο πρόσφατοι από κάποιους άλλους και ταυτόχρονα ποιοι ήταν πιο προσοδοφόροι. Η μεθοδολογία που ακολουθήθηκε για γίνει αυτό ήταν ως εξής: Αφού επιλεγεί ένα σύνολο κανόνων που μας ενδιαφέρει, βάσει μίας μεταβλητής, όπως για παράδειγμα το lift ή η εμπιστοσύνη, γίνεται μία αναζήτηση στα αρχικά δεδομένα για να βρεθούν οι συναλλαγές που ανταποκρίνονται σε αυτόν τον κανόνα οι συναλλαγές δηλαδή για τις οποίες αυτός ο κανόνας ισχύει. Για αυτές τις συναλλαγές υπολογίζεται ο μέσος όρος της προσφατότητας και της αξίας. Αυτός ο μέσος όρος, αντιπροσωπεύει την προσφατότητα και την αξία του κάθε κανόνα. Για να δώσουμε ένα παράδειγμα αυτής της διαδικασίας, θα επιλέξουμε έναν πολύ μικρό αριθμό κανόνων και θα βρούμε την τιμή της προσφατότητας και της αξίας τους. Έστω ότι επιλέγουμε τους τρεις κορυφαίους κανόνες βάση του lift από την ανάλυση που προηγήθηκε. Για κάθε έναν από αυτούς τους κανόνες βρίσκονται τα id των συναλλαγών οι οποίες περιέχουν τον κανόνα. Τα ids επιστρέφονται ως list, ένα list τη φορά για κάθε κανόνα, οπότε καταλήγουμε με τρία list. Οι lists πρέπει να μετατραπούν σε data.frames ώστε να μπορεί να γίνει ένα inner join με το αρχικό data frame το οποίο περιέχει όλες τις συναλλαγές. Το inner join επιτυγχάνεται εύκολα μέσω του πακέτου dplyr για την R. Για το frame που προκύπτει υπολογίζεται ο μέσος όρος της στήλης της προσφατότητας και της αξίας. Αυτή η διαδικασία επαναλαμβάνεται τρείς φορές μία για κάθε κανόνα, οπότε και καταλήγουμε με έξι αριθμούς που αντιπροσωπεύουν την προσφατότητα και την αξία για κάθε κανόνα. Ο κώδικας που χρησιμοποιείται περιλαμβάνεται στο παράρτημα II. 3.6 ΠΑΡΑΓΩΓΗ ΓΡΑΦΗΜΑΤΟΣ Σαν επέκταση της παραπάνω ανάλυσης, έγινε μία προσπάθεια οπτικοποίησης των κανόνων βάσει της προσφατότητας και της αξίας τους. Δεδομένου ότι έχουμε βρει τις της τιμές αυτές, δημιουργήσαμε ένα γράφημα, βασισμένο στο γράφημα για οπτικοποίηση δεδομένων του πακέτου arulesvis ( arulesviz: Visualizing Association Rules and Frequent Itemsets ). Στο γράφημα αυτό οι κανόνες παρουσιάζονται ως κύκλοι και τα αντικείμενα των κανόνων ως κείμενο. Τα αντικείμενα συνδέονται με τους κανόνες με βέλη τα οποία προσδιορίζουν και τη θέση που έχει το αντικείμενο στον κανόνα. Τα αντικείμενα στο αριστερό μέλος ενός κανόνα έχουν βέλη τα οποία δείχνουν προς τους κύκλους, ενώ τα αντικείμενα στο δεξιό μέλος του κανόνα έχουν ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΣΕ ΔΕΔΟΜΕΝΑ ΛΙΑΝΙΚΗΣ 45

48 ΚΕΦΑΛΑΙΟ 3: ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΣΕ ΔΕΔΟΜΕΝΑ ΛΙΑΝΙΚΗΣ βέλη τα οποία δείχνουν προς ιδία ενώ ξεκινάνε από κάποιο κύκλο. Στην αρχική έκδοση του γραφήματος το μέγεθος και το σχήμα των κύκλων προσδιορίζονται βάσει των τιμών της εμπιστοσύνης και του lift. Στη δική μας έκδοση, το σχήμα των κύκλων προσδιορίζεται βάσει των τιμών της προσφατότητας και το χρώμα βάσει των τιμών της αξίας. Ένα παράδειγμα του γραφήματος βρίσκεται στην εικόνα 16. Προκειμένου το γράφημα να είναι πιο φιλικό στον χρήστη, προτιμήθηκε το μεγάλο μέγεθος του κύκλου να υποδηλώνει ότι ο κανόνας είναι πιο πρόσφατος. Έτσι υπάρχει συμφωνία με την αντίληψη του χώρου. Το μεγαλύτερο σχήμα είναι πιο «κοντά» στον χρήστη. Καθώς όμως η μεγάλη τιμή της προσφατότητας δηλώνει ότι ένας κανόνας είναι παλαιότερος, τα νούμερα έπρεπε να διορθωθούν για την δημιουργία του διαγράμματος. Αυτή η διόρθωση έγινε με την αφαίρεση κάθε τιμής προσφατότητας, από την τιμή της μέγιστης προσφατότητας, στα πλαίσια του δείγματος των κανόνων που οπτικοποιούνται. Για αυτόν τον λόγο τα νούμερα της προσφατότητας που παρουσιάζονται στο γράφημα είναι αντεστραμμένα. Δεν παρουσιάστηκε παρόμοιο πρόβλημα με την μεταβλητή της αξίας, αφού υψηλές τιμές σε αυτήν την περίπτωση, υποδηλώνουν και υψηλή αξία. Όσο πιο έντονος είναι ο χρωματισμός του κύκλου τόσο μεγαλύτερη και η αξία του κανόνα. Για να μπορέσουν αυτές οι τιμές να παρουσιαστούν στο συγκεκριμένο γράφημα έπρεπε να περαστούν μέσα στο αντικείμενο της κατηγορίας rules το οποίο παράγεται από το πακέτο arules. Η εντολή για να δημιουργηθεί καινούργια μεταβλητή σε αυτό το αντικείμενο ήταν: <- Re Όπου rules είναι το αντικείμενο κανόνων, το Recency η καινούργια μεταβλητή που δημιουργείται, και το Re οι τιμές της προσφατότητας για τους κανόνες, που έχουν βρεθεί σε προηγούμενο στάδιο. Έτσι οι τιμές αυτές μπορούν να χρησιμοποιηθούν απ ευθείας από τη λειτουργία plot, του πακέτου arulesviz ως αναφορές για το σχήμα και το χρώμα των κύκλων. ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΣΕ ΔΕΔΟΜΕΝΑ ΛΙΑΝΙΚΗΣ 46

49 ΚΕΦΑΛΑΙΟ 3: ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΣΕ ΔΕΔΟΜΕΝΑ ΛΙΑΝΙΚΗΣ Εικόνα 16 Γράφημα Προσφατότητας Αξίας Κανόνων ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΣΕ ΔΕΔΟΜΕΝΑ ΛΙΑΝΙΚΗΣ 47

50 ΚΕΦΑΛΑΙΟ 3: ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΣΕ ΔΕΔΟΜΕΝΑ ΛΙΑΝΙΚΗΣ 3.7 ΠΑΡΟΥΣΙΑΣΗ ΟΛΟΚΛΗΡΩΜΕΝΟΥ ΣΥΣΤΗΜΑΤΟΣ ΠΑΡΑΓΩΓΗΣ ΚΑΝΟΝΩΝ Σε αυτό το κεφάλαιο θα παρουσιαστεί η τελική εφαρμογή για παραγωγή και οπτικοποίηση κανόνων συσχέτισης που δημιουργήθηκε. Ο κώδικας της εφαρμογής βασίστηκε σε ένα εργαλείο που δημιουργήθηκε από τον Andrew Brooks και του οποίου ο κώδικας ήταν ανοιχτός (andrew). Ο κώδικας τροποποιήθηκε με τέτοιο τρόπο ώστε να συμπεριληφθούν επιπλέον λειτουργίες που θεωρήσαμε σημαντικές και να αφαιρεθούν κομμάτια που θεωρήθηκαν πολύ τεχνικά ή μη απαραίτητα για την ανάλυση δεδομένων συναλλαγών. Για τον σκοπό της παρουσίασης χρησιμοποιούμε τα δοκιμαστικά δεδομένα που αναλύθηκαν παραπάνω, και κάνουμε οπτικοποίηση για τους δέκα κανόνες με το υψηλότερο lift. Αφού εκκινήσουμε την εφαρμογή εμφανίζεται η παρακάτω οθόνη: Εικόνα 17 Αρχική οθόνη εφαρμογής Στο αριστερό μέρος της εφαρμογής βρίσκονται οι επιλογές εισόδου για την παραγωγή των κανόνων συσχέτισης, ενώ στο δεξιό οι γραφικές αναπαραστάσεις και έξοδοι που δίνει η ανάλυση. ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΣΕ ΔΕΔΟΜΕΝΑ ΛΙΑΝΙΚΗΣ 48

51 ΚΕΦΑΛΑΙΟ 3: ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΣΕ ΔΕΔΟΜΕΝΑ ΛΙΑΝΙΚΗΣ Ξεκινώντας με τις επιλογές εισόδου, η πρώτη επιλογή αφορά τον αριθμό των κανόνων που οπτικοποιούνται, αφού η εφαρμογή προσανατολίζεται στην οπτικοποίηση, και ο χρήστης μπορεί αν θέλει να αλλάξει των αριθμό κανόνων που εμφανίζονται, αρκετές φορές. Η δεύτερη επιλογή στο δεξιό τμήμα της εφαρμογής έχει να κάνει και πάλι με την οπτικοποίηση και δίνεται η επιλογή στον χρήστη να οπτικοποιήσει ένα δείγμα των κανόνων ή όλους όσοι έχουν παραχθεί. Η προεπιλογή είναι να οπτικοποιούνται οι δέκα πρώτοι κανόνες(σύμφωνα με τη μετρική lift). Προτιμάτε το δείγμα κανόνων, καθώς κάποια από τα διαγράμματα δεν είναι ευανάγνωστα όταν απεικονίζουν μεγάλο αριθμό κανόνων. Η επόμενη επιλογή της εφαρμογής σχετίζεται με την επιλογή των αντικειμένων του συνόλου δεδομένων που έχουμε, και θέλουμε να συμπεριληφθούν στην παραγωγή των κανόνων συσχέτισης. Αμέσως μετά την επιλογή των μεταβλητών, βρίσκονται οι επιλογές για το επίπεδο των παραμέτρων της υποστήριξης και της εμπιστοσύνης, σε μορφή δρομέα. Η μορφή αυτή επιλέχθηκε καθώς η υποστήριξη και η εμπιστοσύνη παίρνουν τιμές μεταξύ του μηδέν και του ένα, άρα υπάρχει συγκεκριμένο εύρος τιμών. Εικόνα 18 Επιπλέον επιλογές για την παραγωγή κανόνων ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΣΕ ΔΕΔΟΜΕΝΑ ΛΙΑΝΙΚΗΣ 49

52 ΚΕΦΑΛΑΙΟ 3: ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΣΕ ΔΕΔΟΜΕΝΑ ΛΙΑΝΙΚΗΣ Η επόμενη επιλογή έχει να κάνει με την παράμετρο βάση της οποίας θα γίνει η ταξινόμηση των παραγόμενων κανόνων συσχέτισης. Υπάρχουν οι εξής τρείς επιλογές: Lift, Εμπιστοσύνη, Υποστήριξη. Ανάλογα με την επιλογή που γίνεται οι παραγόμενοι κανόνες ταξινομούνται διαφορετικά. Έτσι οι πρώτοι δέκα (σύμφωνα με την προεπιλογή) που οπτικοποιούνται μπορεί να διαφέρουν ανάλογα με την τιμή που έχουν για κάθε παράμετρο. Για την διευκόλυνση του χρήστη έχει προστεθεί μία ετικέτα με το βασικό νόημα της κάθε παραμέτρου: Εικόνα 19 Ετικέτα επεξήγησης παραμέτρων Οι επόμενες επιλογές δίνουν τη δυνατότητα για πιο εξειδικευμένη παραγωγή κανόνων. Η επιλογή για τον μέγιστο αριθμό αντικειμένων που περιέχονται σε έναν κανόνα, δίνει την ευχέρεια στον χρήστη να περιορίσει τον αριθμό τον αντικειμένων που θα περιέχονται σε κάθε κανόνα. Για παράδειγμα, αν ο μέγιστος αριθμός αντικειμένων οριστεί στο πέντε, τότε δεν θα παραχθούν κανόνες που περιέχουν πάνω από πέντε αντικείμενα, συνολικά και στα δύο μέλη του κανόνα. Καθώς ένας αναλυτής μπορεί να ενδιαφέρεται για κανόνες που περιέχουν κάποια συγκεκριμένα αντικείμενα στο δεξιό ή αριστερό μέλος του κανόνα, - για παράδειγμα μπορεί να ψάχνουμε ποια προϊόντα συσχετίζονται με την αγορά ενός προϊόντος που θέλουμε να βάλουμε σε προσφορά συμπεριλάβαμε την δυνατότητα ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΣΕ ΔΕΔΟΜΕΝΑ ΛΙΑΝΙΚΗΣ 50

53 ΚΕΦΑΛΑΙΟ 3: ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΣΕ ΔΕΔΟΜΕΝΑ ΛΙΑΝΙΚΗΣ να επιλεγεί ένα υποσύνολο των αντικειμένων που εμφανίζονται είτε στη δεξιά είτε στην αριστερή πλευρά των κανόνων. Έτσι μπορεί να γίνει αναζήτηση μόνο για πολύ συγκεκριμένους κανόνες. Τέλος ο χρήστης μπορεί να εξάγει τα αποτελέσματα της παραγωγής κανόνων συσχέτισης στη μορφή csv αρχείου. Τα αποτελέσματα μπορούν έπειτα να συμπεριληφθούν σε κάποια αναφορά, ή να περαστούν σε κάποιο άλλο λογισμικό για επεξεργασία. Συνεχίζουμε με την παρουσίαση του δεξιού μέρους της εφαρμογής στο οποίο δίνονται οι έξοδοι της ανάλυσης των κανόνων. Έχουμε πολλά γραφήματα αναπαράστασης των κανόνων, το κάθε ένα από τα οποία εμφανίζεται σε διαφορετική καρτέλα. Αρχικά εμφανίζεται ένα διάγραμμα συχνοτήτων, ως κομμάτι της περιγραφικής στατιστικής που γίνεται αρχικά για την διερεύνηση του συνόλου δεδομένων στο οποίο πρόκειται να τρέξει ο αλγόριθμός apriori. Στο διάγραμμα συχνοτήτων, βλέπουμε τα 20 αντικείμενα που εμφανίζονται πιο συχνά στις συναλλαγές. Εικόνα 20 Διάγραμμα Συχνοτήτων ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΣΕ ΔΕΔΟΜΕΝΑ ΛΙΑΝΙΚΗΣ 51

54 ΚΕΦΑΛΑΙΟ 3: ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΣΕ ΔΕΔΟΜΕΝΑ ΛΙΑΝΙΚΗΣ Στην επόμενη καρτέλα εμφανίζεται το γράφημα απεικόνισης των κανόνων συσχέτισης σε συνδυασμό με την ανάλυση της προσφατότητας και αξίας τους και το οποίο αναπτύχθηκε για τους σκοπούς αυτής της εργασίας. Εικόνα 21 Γράφημα Προσφατότητας-Αξίας Κανόνων Συσχέτισης Στο συγκεκριμένο γράφημα, απεικονίζονται τα αντικείμενα και οι συσχετίσεις τους. Οι κύκλοι είναι οι κανόνες. Όσο μεγαλύτεροι εμφανίζονται οι κύκλοι τόσο πιο πρόσφατος είναι ο κανόνας. Το χρώμα των κύκλων δείχνει την αξία του κανόνα. Όσο πιο κόκκινος είναι ο κανόνας τόσο μεγαλύτερη η αξία. Ενώ όταν το χρώμα εξασθενεί η αξία του κανόνα είναι μικρότερη. Το γράφημα αυτό μπορεί να είναι ένα πολύ χρήσιμο εργαλείο στην αναζήτηση πρόσφατων κανόνων, που μπορεί να δηλώνουν ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΣΕ ΔΕΔΟΜΕΝΑ ΛΙΑΝΙΚΗΣ 52

55 ΚΕΦΑΛΑΙΟ 3: ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΣΕ ΔΕΔΟΜΕΝΑ ΛΙΑΝΙΚΗΣ κάποια νέα αγοραστική τάση, ή στην αναζήτηση προσοδοφόρων κανόνων που δεν είναι πλέον πρόσφατοι, με σκοπό να αναζωπυρωθούν μέσω τεχνικών μάρκετινγκ. Έκτος από το συγκεκριμένο γράφημα έχουν προστεθεί μερικές ακόμα επιλογές οπτικοποίησης κανόνων ως επιπλέον εργαλεία, τα οποία παρέχονται από το πακέτο arulesvis και χρησιμοποιούνται ευρέως για το σκοπό αυτό. Όλες οι υπόλοιπες απεικονίσεις γίνονται βάση των μετρικών του lift, της εμπιστοσύνης και της υποστήριξης. Η επόμενη γραφική απεικόνιση είναι ένα γράφημα που ομαδοποιεί τους κανόνες που έχουν κοινό το δεξιό μέλος τους. Οι κύκλοι αναπαριστούν μία ομάδα, στην οποία μόνο τα αριστερά μέλη των κανόνων ομαδοποιούνται. Δηλαδή, όλοι οι κανόνες που έχουν στο δεξί μέλος το προϊόν ψωμί (από τους οποίους προκύπτει δηλαδή το προϊόν αυτό) ομαδοποιούνται σε έναν κύκλο. Το μέγεθος του κύκλου αναπαριστά την συνολική υποστήριξη αυτών των κανόνων, ενώ το χρώμα τους το συνολικό lift. Η ταξινόμηση τους στο γράφημα, γίνεται βάση του lift (Michael Hahsler, 2011). Εικόνα 22 Γράφημα Ομαδοποίησης Κανόνων Στην καρτέλα, παράλληλες συντεταγμένες, μπορούμε να δούμε το ομώνυμο γράφημα στο οποίο τα αντικείμενα των κανόνων που οπτικοποιούνται φαίνονται στον ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΣΕ ΔΕΔΟΜΕΝΑ ΛΙΑΝΙΚΗΣ 53

56 ΚΕΦΑΛΑΙΟ 3: ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΣΕ ΔΕΔΟΜΕΝΑ ΛΙΑΝΙΚΗΣ άξονα y ως ονομαστικές μεταβλητές, ενώ στον άξονα x φαίνονται οι θέσεις που έχουν τα αντικείμενα αυτά στον κανόνα. Αντί για μία απλή γραμμή, χρησιμοποιείται ένα βέλος, η άκρη του οποίου καταλήγει στο αντικείμενο-επακόλουθό του κανόνα. Τα βέλη επεκτείνονται στον άξονα του x μόνο τόσες θέσεις όσες εκπροσωπούν τον αριθμό τον αντικειμένων του κανόνα. Άρα κανόνες με λιγότερα αντικείμενα αναπαρίστανται από πιο μικρά βέλη. Εικόνα 23 Γράφημα Παράλληλων Συντεταγμένων Το πάχος που έχει κάθε βέλος αντιπροσωπεύει την υποστήριξη του κανόνα και η ένταση του χρώματος αντιπροσωπεύει την εμπιστοσύνη. Σε αυτού του είδος το γράφημα γίνεται προφανές ότι η οπτική ανάλυση μεγάλου αριθμού κανόνων ταυτόχρονα γίνεται δύσκολη, δεδομένου ότι όσο περισσότερους κανόνες οπτικοποιούμε τόσο αυξάνονται και οι διασταυρώσεις μεταξύ των βελών. Μια πολύ απλή απεικόνιση κανόνων συσχέτισης, γίνεται με τη χρήση ενός διαγράμματος διασποράς με μία παράμετρο (lift, υποστήριξη) σε κάθε άξονα. Μία τρίτη παράμετρος (εμπιστοσύνη) προστίθεται στο διάγραμμά ως τον χρωματισμό των ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΣΕ ΔΕΔΟΜΕΝΑ ΛΙΑΝΙΚΗΣ 54

57 ΚΕΦΑΛΑΙΟ 3: ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΣΕ ΔΕΔΟΜΕΝΑ ΛΙΑΝΙΚΗΣ σημείων. Κάθε κανόνας αντιπροσωπεύεται από ένα σημείο το οποίο τοποθετείτε στο διάγραμμα ανάλογα με της τιμές που έχει ο κανόνας για κάθε παράμετρο. Εικόνα 24 Διάγραμμα Διασποράς Το συγκεκριμένο διάγραμμα μπορεί να υποστηρίξει την απεικόνιση για πολύ μεγάλο αριθμό κανόνων. Μας επιτρέπει να παρατηρήσουμε ότι στο συγκεκριμένο παράδειγμα, οι κανόνες με υψηλό lift έχουν συνήθως χαμηλή υποστήριξη, μας επιτρέπει δηλαδή να παρατηρήσουμε ως σύνολο τους κανόνες που έχουν προκύψει. Η τελευταία γραφική απεικόνιση κανόνων που περιλαμβάνει η εφαρμογή είναι η απεικόνιση σε πίνακα (matrix). Αυτή η τεχνική απεικόνισης οργανώνει τα αντικείμενα που εμφανίζονται στο αριστερό μέλος των κανόνων στον άξονα x και τα αντικείμενα που εμφανίζονται στο δεξιό μέλος του κανόνα στον άξονα y. Ένα κουτί εμφανίζεται στην τομή δύο αντικειμένων, με τον χρωματισμό του να αναπαριστά το επίπεδο του lift του κανόνα. Αν δεν υπάρχει κανόνας που να συνδυάζει δύο αντικείμενα, τότε το σημείο τομής τους παραμένει κενό. ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΣΕ ΔΕΔΟΜΕΝΑ ΛΙΑΝΙΚΗΣ 55

58 ΚΕΦΑΛΑΙΟ 3: ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΣΕ ΔΕΔΟΜΕΝΑ ΛΙΑΝΙΚΗΣ Εικόνα 25 Απεικόνιση Κανόνων Συσχέτισης σε Πίνακα Η τελευταία καρτέλα της εφαρμογής εμφανίζει έναν πίνακα δεδομένων ο οποίος εμφανίζει όλους τους κανόνες που προέκυψαν από την εφαρμογή του αλγορίθμου, και είναι η έξοδος που δίνει η R από την παραγωγή των κανόνων. Όπως φαίνεται και στην Εικόνα 24, μαζί με τους κανόνες εμφανίζονται και οι τιμές των παραμέτρων lift, εμπιστοσύνη και υποστήριξη. Επιπλέον έχουν προστεθεί κάποια γνωστά στατιστικά μέτρα τα οποία χρησιμεύουν ως μέτρα ενδιαφέροντος των κανόνων. Τα μέτρα που επιλέξαμε να συμπεριλάβουμε είναι το x 2 και οι δείκτες gini, conviction και coverage. Ο χρήστης μπορεί να επιλέξει να ταξινομηθούν οι κανόνες με αύξουσα ή φθίνουσα σειρά, βάση οποιουδήποτε από αυτά τα μετρά. Για την διευκόλυνση του χρήστη, υπάρχει και ένα εργαλείο αναζήτησης στο πάνω δεξιά μέρος του πίνακα, το οποίο επιτρέπει την εύρεση κανόνων που περιέχουν κάποιο συγκεκριμένο αντικείμενο, είτε στο αριστερό είτε στο δεξιό μέλος τους. ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ ΣΕ ΔΕΔΟΜΕΝΑ ΛΙΑΝΙΚΗΣ 56

Δείτε περισσότερα