ΠΡΟΩΘΗΣΗ ΠΡΟΪΟΝΤΩΝ ΜΕ ΧΡΗΣΗ

Transcript

1 ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΙΟΝΙΩΝ ΝΗΣΩΝ ΠΑΡΑΡΤΗΜΑ ΛΕΥΚΑΔΑΣ ΤΜΗΜΑ ΕΦΑΡΜΟΓΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ ΣΤΗ ΔΙΟΙΚΗΣΗ ΚΑΙ ΣΤΗΝ ΟΙΚΟΝΟΜΙΑ ΠΡΟΩΘΗΣΗ ΠΡΟΪΟΝΤΩΝ ΜΕ ΧΡΗΣΗ ΚΑΝΟΝΩΝ ΣΥΣΧΕΤΙΣΗΣ ΜΕΛΕΤΗ ΠΕΡΙΠΤΩΣΗΣ ΣΕ ΚΑΤΑΣΤΗΜΑ ΜΕ ΚΑΛΛΥΝΤΙΚΑ. ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΣΥΝΤΑΚΤΗΣ: ΚΟΥΤΣΙΟΥΜΠΑΣ ΑΝΔΡΕΑΣ Α.Μ.: 438 ΕΠΙΒΛΕΠΩΝ ΚΑΘΗΓΗΤΗΣ: ΚΑΤΣΗΣ ΧΡΗΣΤΟΣ Ακαδ. Έτος:

2

3 Αφιερωμένο Σους γονείς μου Και στην αδερφή μου Μαρία..

4

5 Ευχαριστίες Θα ήθελα να ευχαριστήσω θερμά τους καθηγητές μου κ. Κατσή και κ. Γεωργούλα για την πολύτιμη βοήθεια που μου παρείχαν καθ όλη την διάρκεια της πτυχιακής εργασίας μέχρι την εκπόνησή της. Είχα την δυνατότητα να ασχοληθώ μ ένα αξιόλογο θέμα και κατάφερα να μάθω πολλά για τους αλγορίθμους της Εξόρυξης Δεδομένων και γενικότερα για τον όρο του Data Mining. Επίσης θα ήθελα να ευχαριστήσω την οικογένεια μου για την πολύτιμη βοήθεια που μου παρείχαν όλα αυτά τα χρόνια της φοιτητικής μου ζωής, που με την σκέψη τους και μόνο μου έδιναν δύναμη για να συνεχίσω. Χωρίς αυτούς δεν θα είχα την δυνατότητα να φτάσω ως εδώ που έφτασα!!! Τέλος, θα ήθελα να ευχαριστήσω όλους τους φίλους που μου συμπαραστάθηκαν και με βοήθησαν με την πτυχιακή μου εργασία. Αυτοί είναι: Λίτσα Κ., Βασίλης Κ., Ελένη Λ., Άννα Ζ., Λιάνα Ν., Εβίτα Ρ., Βασίλης Ντ. και Ειρήνη Ασλ.. Και φυσικά ένα μεγάλο ευχαριστώ σε όλη την παρέα για την ψυχολογική υποστήριξη που μου παρείχαν

6

7 Όλα τα δικαιώματα διατηρούνται. Κανένα μέρος της εργασίας αυτής δεν μπορεί να αναπαραχθεί ή να μεταδοθεί σε οποιαδήποτε μορφή ή με οποιοδήποτε μέσο, ηλεκτρονικό ή μηχανικό, περιλαμβανομένων φωτοαντιγραφικό, ή από οποιοδήποτε σύστημα αποθήκευσης πληροφοριών ή σύστημα ανάκτησης, χωρίς προηγούμενη γραπτή άδεια του κατόχου των πνευματικών δικαιωμάτων, εκτός από περιπτώσεις μη κερδοσκοπικών εκπαιδευτικών και μόνον σκοπών κατά τις οποίες ο συγγραφέας παραχωρεί το δικαίωμα δανεισμού κομματιών της δουλειάς. All rights reserved. No part of this work may be reproduced or transmitted in any form or by any means, electronic or mechanical, including photocopying, or by any system of information storage and retrieval system, without the prior written permission of the copyright owner, except for non-profit educational purposes only where the author grants the right to borrow pieces of work.

8

9 ΠΙΝΑΚΑΣ ΠΕΡΙΕΧΟΜΕΝΩΝ Περιεχόμεναa Εικόνων Περιεχόμενα Σχημάτων Περιεχόμενα Πινάκων Πρόλογος Abstract Κεφάλαιο 1 ο Εισαγωγή Εξόρυξη Δεδομένων Ορισμός Ιστορική Αναδρομή Η Διαδικασία Εξόρυξης Δεδομένων Κατηγοριοποίηση των Μεθόδων Εξόρυξης Δεδομένων Δημιουργία Προτύπων Εφαρμογή της Εξόρυξης Δεδομένων Οι Παράγοντες Επιτυχίας της Εξόρυξης Δεδομένων Απαιτήσεις Εξόρυξης Δεδομένων Λόγοι χρήσης της Εξόρυξης Δεδομένων Μέτρα Αξιολόγησης της Εξόρυξης Γνώσης από Δεδομένα Βιβλιογραφικές Αναφορές Κεφάλαιο 2 ο Εισαγωγή Κανόνες Συσχέτισης Ορισμοί Κανόνων Συσχέτισης Αλγόριθμος Apriori Η ΣΥΝΑΡΤΗΣΗ APRIORI - GEN Η ΣΥΝΑΡΤΗΣΗ SUBSET ΜΙΑ ΠΑΡΑΛΛΑΓΗ ΣΤΟΝ ΑΛΓΟΡΙΘΜΟ Πλεονεκτήματα και Μειονεκτήματα Χρήσης του Αλγόριθμου Apriori Αλγόριθμος AprioriTID Σύγκριση Αλγορίθμων Παραγωγής Κανόνων Συσχέτισης BFS ΚΑΙ ΑΠΕΥΘΕΙΑΣ ΜΕΤΡΗΣΗ ΤΩΝ ΥΠΟΨΗΦΙΩΝ BFS ΚΑΙ ΤΟΜΗ ΣΥΝΟΛΩΝ ΑΠΟ TID DFS ΚΑΙ ΑΠΕΥΘΕΙΑΣ ΜΕΤΡΗΣΗ ΤΩΝ ΥΠΟΨΗΦΙΩΝ... 53

10 2.7.4 DFS ΚΑΙ ΤΟΜΗ ΣΥΝΟΛΩΝ ΑΠΟ TID Προηγμένες Τεχνικές Δημιουργίας Κανόνων Συσχέτισης ΓΕΝΙΚΕΥΜΕΝΟΙ ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΕΩΝ ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΕΩΝ ΠΟΛΛΑΠΛΩΝ ΕΠΙΠΕΔΩΝ ΠΟΣΟΤΙΚΟΙ ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΕΩΝ ΚΑΝΟΝΕΣ ΠΟΛΛΑΠΛΩΝ ΤΙΜΩΝ ΕΛΑΧΙΣΤΗΣ ΥΠΟΣΤΗΡΙΞΗΣ ΚΑΝΟΝΕΣ ΣΤΑΤΙΣΤΙΚΗΣ ΣΥΣΧΕΤΙΣΗΣ Αυξητικοί Κανόνες Συσχέτισης Μέτρηση της Ποιότητας των Κανόνων Βιβλιογραφικές Αναφορές Κεφάλαιο 3 ο Εισαγωγή Ανάλυση του WEKA Η Διεπαφή Explorer Ανάλυση Βάσης Δεδομένων Καταστήματος Καλλυντικών ΑΝΑΛΥΣΗ ΑΠΟΤΕΛΕΣΜΑΤΩΝ APRIORI Αλλαγή των Προεπιλεγμένων Τιμών του Αλγορίθμου ΑΛΛΑΓΗ ΤΗΣ ΕΛΑΧΙΣΤΗΣ ΥΠΟΣΤΗΡΙΞΗΣ ΑΛΛΑΓΗ ΤΗΣ ΕΛΑΧΙΣΤΗΣ ΕΜΠΙΣΤΟΣΥΝΗΣ ΑΛΛΑΓΗ ΤΗΣ ΕΛΑΧΙΣΤΗΣ ΕΜΠΙΣΤΟΣΥΝΗΣ ΚΑΙ ΤΗΣ ΕΛΑΧΙΣΤΗΣ ΥΠΟΣΤΗΡΙΞΗΣ Βιβλιογραφικές Αναφορές Κεφάλαιο 4 ο... 82

11 ΠΕΡΙΕΧΟΜΕΝΑA ΕΙΚΟΝΩΝ Εικόνα 1 Τα στοιχεία της Εξόρυξης Δεδομένων Κεφάλαιο 1 ο Σελίδα 21 Εικόνα 2 Σχεδιάγραμμα τρόπου λήψης απόφασης από τους χρήστες της Εξόρυξης Δεδομένων Κεφάλαιο 1 ο Σελίδα 29 Εικόνα 3 Παράδειγμα: Αποτελέσματα χρήσης αλγορίθμου AprioriTID Κεφάλαιο 2 ο Σελίδα 50 Εικόνα 4 Η Διεπαφή χρήστη Explorer Κεφάλαιο 3 ο Σελίδα 66 Εικόνα 5 Weka GUI Genetic Object Editor Για αλλαγή χαρακτηριστικών Apriori Κεφάλαιο 3 ο Σελίδα 72 ΠΕΡΙΕΧΟΜΕΝΑ ΣΧΗΜΑΤΩΝ - Σχήμα 2.1 Ψευδοκώδικας Apriori Κεφάλαιο 2ο Σελίδα 43

12 - Σχήμα 2.2 Ψευδοκώδικας Αλγορίθμου AprioriTID Κεφάλαιο 2 ο Σελίδα 49 - Σχήμα 2.3 Αναπαράσταση χώρου εύρεση συχνών στοιχείων Κεφάλαιο 2 ο Σελίδα 51 - Σχήμα 2.4 Ιεραρχία Εννοιών Κεφάλαιο 2 ο Σελίδα 55 - Σχήμα 3.1 Αρχείο Weka Κεφάλαιο3 ο Σελίδα 68 ΠΕΡΙΕΧΟΜΕΝΑ ΠΙΝΑΚΩΝ Πίνακας 2.1 Πίνακας Υποστήριξης και Εμπιστοσύνης για Μερικούς Κανόνες Συσχέτησης Κεφάλαιο2 ο Σελίδα 39 Πίνακας 2.2 Πίνακας Παραμέτρων Κεφάλαιο2 ο Σελίδα 41

13 ΠΡΟΛΟΓΟΣ Τις τελευταίες δεκαετίες έχουν παραχθεί πολύ μεγάλες ποσότητες δεδομένων από διάφορες διεργασίες που έχουν οργανωθεί με την χρήση των υπολογιστικών συστημάτων, όπως: Συστήματα δοσοληψιών που λειτουργούν επί πολλά χρόνια (π.χ. τραπεζικές συναλλαγές, τηλεφωνικές κλήσεις, αγορές με πιστωτική κάρτα κτλ.) Διαδικασίες που συσσωρεύουν μεγάλα ψηφιακά στοιχεία αρχεία (όπως φωτογραφίες από δορυφόρους, πειραματικά δεδομένα κτλ.) Οι δοσοληψίες αυτές καταγράφονται και έτσι έχουν δημιουργηθεί τεράστιες Βάσεις Δεδομένων (κυρίως σε σχεσιακή μορφή) οι οποίες σε μεγάλο ποσοστό μένουν ανεκμετάλλευτες. Οι κύριες διεργασίες που πραγματοποιούνται με αυτές είναι: Σχεσιακού τύπου ερωτήσεις με στόχο την επιλογή μικρού υποσυνόλου των δεδομένων που ικανοποιούν κάποια πολύ συγκεκριμένα κριτήρια που ο χρήστης μπορεί να έχει κατά νου. Στατιστική επεξεργασία κυρίως με την μορφή αθροιστικών συναρτήσεων που εφαρμόζονται σε πολλές διαστάσεις (τεχνολογία των αποθηκών δεδομένων). Και στις δύο παραπάνω περιπτώσεις ο χρήστης έχει γνώση του στόχου των ερωτήσεων, πράγμα που υπονοεί ότι ο εκάστοτε χρήστης γνωρίζει την δομή και την σημασία των δεδομένων και των τιμών που εμφανίζονται ως αποτελέσματα. 13 Προώθηση Προϊόντων με Χρήση Κανόνων Συσχέτησης

14 14 Από την άλλη πλευρά είναι πολύ πιθανόν στις τεράστιες αυτές Βάσεις Δεδομένων να υπάρχει «κρυμμένη γνώση» (με μορφή συσχετίσεων, εξαρτήσεων, ομαδοποιήσεων κτλ.) που δεν είναι εκ των προτέρων γνώση, αλλά μπορεί να είναι πάρα πολύ χρήσιμη για τους εκάστοτε χρήστες. Αυτό που λείπει είναι η «μη επιβλεπόμενη ανάκτηση γνώσης», με άλλα λόγια η εφαρμογή αλγορίθμων στα δεδομένα μας για την ανακάλυψη και εξαγωγή της κρυμμένης γνώσης που προαναφέρθηκε. Ο χώρος της εξόρυξης δεδομένων ήρθε να καλύψει ακριβώς αυτή την απαίτηση της περαιτέρω επεξεργασίας των αποθηκευμένων δεδομένων στις Βάσεις Δεδομένων. Η περιοχή αυτή γνώρισε μεγάλη ανάπτυξη καθώς αναπτύχθηκε μεγάλη ερευνητική αλλά και βιομηχανική δραστηριότητα στον χώρο αυτόν. Επίσης, οι απαιτήσεις των οργανισμών προκάλεσαν νέες απαιτήσεις σε ό,τι αναφορά στην ανάλυση δεδομένων και συνέλαβαν στην ανάπτυξη της βιομηχανίας του λογισμικού, με την δημιουργία εργαλείων για εξόρυξη γνώσης. Τα εργαλεία αυτά είναι είτε γενικού σκοπού (όπως οι επεκτάσεις για εξόρυξη δεδομένων των σχεσιακών συστημάτων OLACLE, Microsoft/ SQL- Server) είτε προσαρμοσμένα στις απαιτήσεις συγκεκριμένων περιοχών εφαρμογών. Ο σκοπός αυτής της πτυχιακής είναι να εισάγει τον αναγνώστη σε διάφορες αρχές και αλγορίθμους εξόρυξης γνώσης. Χρησιμοποιούνται αλγόριθμοι και συνοδευτικοί ψευδοκώδικες για να περιγράψουν διάφορες προσεγγίσεις. Η έμφαση είναι στη χρήση της εξόρυξης γνώσης σε εφαρμογές πραγματικού κόσμου που συναντούν μεγάλες Βάσεις Δεδομένων. Παρέχει στους αναγνώστες μια ολοκληρωμένη σε πλάτος αλλά σε ένα σχετικό βάθος πληροφόρηση σχετικά με τις βασικές προσεγγίσεις και αλγορίθμους της εξόρυξης δεδομένων ή όπως ονομάζεται αλλιώς, της εξόρυξης γνώσης. Τέλος, παρουσιάζεται μια μελέτη για την προώθηση προϊόντων μέσω των κανόνων συσχέτισης. μέσω του προγράμματος weka, καθώς και κάποιες αναλύσεις σχετικά με τα βήματα αλλά και τα αποτελέσματα που προέκυψαν. Μελέτη Περίπτωσης σε Κατάστημα με Καλλυντικά

15 ABSTRACT Over the past decades large amounts of data have been produced from various processes that have been organized using computer systems, including: Systems that operate transactions over several years (e.g. banking, telephone calls, purchases with credit cards, etc.). Procedures that accumulate large digital data - files (such as photographs from satellites, experimental data etc.). Transactions are recorded and thus have created huge databases (especially in a relational form) with a large percentage of them remaining inactive. The main processes carried out by them are: Relational queries-aiming at selecting a small subset of data that satisfy some very specific criteria that the user may have in mind Statistical analysis mainly in the form of aggregate functions that apply to many dimensions (data warehouses). In both cases the user is aware of the objective, which implies that each user knows the structure and importance of data and values are displayed as results. On the other hand it is very likely these huge databases to contain hidden knowledge (in the form of relationships, dependencies, etc.) which is not prior knowledge that can be very useful for individual users. What is missing is the unsupervised retrieval of knowledge, in other words, the algorithms applied 15 Προώθηση Προϊόντων με Χρήση Κανόνων Συσχέτησης

16 on our data for the discovery and extraction of the hidden knowledge mentioned above. The area of data mining came to fulfill the need for further processing of the data stored in databases. This area has flourished over the past decade and large research and industrial activity have been observed. Moreover, the requirements of various organisms have created new needs for data analysis tools and the development of the software industry to meet the needs for data mining tools. These tools are either general purpose (such as extensions for relational data mining systems - OLACLE, Microsoft / SQL- Server) or customized for specific application areas. The purpose of this dissertation is to prove an introduction to various principles and data mining algorithms. Algorithms and accompanying pseudocode are presented for a number of different approaches. The emphasis is placed on the use of data mining to real world applications involving large databases. It provides readers with a comprehensive in breadth but and also in depth presentation of the key approaches and algorithms for data mining also referred as knowledge mining. Finally, we present a case study of cosmetics promotion through association rules using the weka data mining tool, in a step by step manner along with our findings and results. 16 Μελέτη Περίπτωσης σε Κατάστημα με Καλλυντικά

17

18

19 ΚΕΦΑΛΑΙΟ 1 Ο ΕΙΣΑΓΩΓΗ Σήμερα, οι περισσότεροι οργανισμοί και εταιρίες, συλλέγουν και αποθηκεύουν τεράστιους όγκους δεδομένων, με την βοήθεια της Πληροφορικής. Οι Βάσεις Δεδομένων τους, μπορούν να φθάσουν έως και τα terabytes, και μέσα σε αυτόν τον τεράστιο όγκο υπάρχουν πολλές σημαντικές πληροφορίες για τους συγκεκριμένους οργανισμούς. Ο λόγος για το φαινόμενο αυτό, είναι η αλματώδης ανάπτυξη της Πληροφορικής, που σήμερα προσφέρει τεράστιες δυνατότητες και ευκολίες για την αποθήκευση και την συλλογή δεδομένων με μικρό κόστος και ισχυρούς υπολογιστές με πολλαπλούς επεξεργαστές (multiprocessors) σε πολύ χαμηλές τιμές. Το πρόβλημα που αντιμετωπίζουν σήμερα οι περισσότερες εταιρείες είναι πώς θα μπορέσουν να εξάγουν τα συμπεράσματα εκείνα που έχουν κάποιο νόημα και σημασία για τις απαιτήσεις τους, μέσα από αυτές τις τεράστιες μάζες στοιχείων που διαθέτουν. Η απάντηση για την πρόκληση αυτή δίνεται μέσα από την Εξόρυξη Δεδομένων (ή αλλιώς εξόρυξη Γνώσης από Δεδομένα). Ο όγκος των δεδομένων που αποθηκεύονται στα αρχεία και στις Βάσεις Δεδομένων αυξάνονται με έναν εκπληκτικό αριθμό. Την ίδια στιγμή, οι χρήστες αυτών των δεδομένων επιθυμούν πιο πολύπλοκες και εξειδικευμένες πληροφορίες. Για παράδειγμα ένας υπεύθυνος πωλήσεων δεν μπορεί να είναι ικανοποιημένος από μια απλή λίστα με τα στοιχεία των πελατών του, αλλά επιθυμεί λεπτομερείς πληροφορίες σχετικά με τις προηγμένες αγορές των πελατών, καθώς επίσης και εκείνες τις πληροφορίες που εκφράζουν τις μελλοντικές τους αγορές. Οι απλές ερωτήσεις, που μπορούν να εκφραστούν σε μια δομημένη γλώσσα ερωτήσεων, π.χ. η SQL, δεν μπορούν να υποστηρίξουν

20 μεγάλες απαιτήσεις πληροφοριών. Η εξόρυξη γνώσης από τα δεδομένα παρεμβαίνει προκειμένου να ικανοποιηθούν όλες εκείνες οι ανάγκες για λεπτομερείς και εξειδικευμένες πληροφορίες. 1.1 ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ ΟΡΙΣΜΟΣ Η εξόρυξη δεδομένων παίρνει το όνομά της από τις ομοιότητες που έχει η αναζήτηση πολύτιμων πληροφοριών για τις επιχειρήσεις, από μια μεγάλη Βάση Δεδομένων, με την εξόρυξη πολύτιμων ορυκτών από μια ορεινή μάζα. Συχνά ορίζεται σαν η εύρεση πληροφοριών που είναι κρυμμένες σε μια Βάση Δεδομένων. Εναλλακτικά, η εξόρυξη γνώσης από δεδομένα ονομάστηκε εξερευνητική ανάλυση δεδομένων, ανακάλυψη καθοδηγούμενη από δεδομένα και συμπερασματική μάθηση. Η εξόρυξη δεδομένων, δηλαδή η εξαγωγή των κρυμμένων πληροφοριών από μεγάλες Βάσεις δεδομένων, αποτελεί μια ισχυρή τεχνολογία με πολύ μεγάλες δυνατότητες στην βοήθεια των επιχειρήσεων να επικεντρωθούν στις πιο σημαντικές πληροφορίες, που περιέχονται στις Βάσεις τους. Τα εργαλεία εξόρυξης δεδομένων «αναγνωρίζουν» εκτός από τα δεδομένα και (κυρίως) τις τάσεις και τις κατευθύνσεις, που ξεπερνούν μια απλή ανάλυση με τη χρήση συμβατικών συστημάτων Βάσεων Δεδομένων. Με την χρήση πολύπλοκών αλγόριθμών οι χρήστες έχουν την δυνατότητα να αναγνωρίζουν διάφορα χαρακτηριστικά-κλειδιά των επιχειρηματικών τους διαδικασιών και να διερευνήσουν τις ευκαιρίες που εμφανίζονται. Οι αναλύσεις που προσφέρονται μέσα από την εξόρυξη δεδομένων είναι ανώτερες των απλών αναλύσεων προηγούμενων συμβάντων (π.χ. στατιστική ανάλυση). Μπορούν να απαντήσουν σε διάφορες κρίσιμες επιχειρηματικές ερωτήσεις πιο γρήγορα από τον παραδοσιακό τρόπο. Επιπλέον, οι αναλύσεις 20 αυτές μπορούν να βρίσκουν χρήσιμες προβλεπτικές πληροφορίες που μπορεί να διέφυγαν της προσοχής των ειδικών. Η εξόρυξη δεδομένων αποτελεί ένα εργαλείο, το οποίο μπορεί και αναλύει την Βάση Δεδομένων και κυρίως επισημαίνει και «φωτίζει» διάφορα σημεία Μελέτη Περίπτωσης σε Κατάστημα με Καλλυντικά

21 κλειδιά. Η κύρια επιτυχία της εξόρυξης δεδομένων έρχεται από την σωστή διατύπωση των προβλημάτων που επιθυμεί να αναλύσει ο τελικός χρήστης. Επίσης θα πρέπει να υπάρχει μια σωστή χρήση των δεδομένων επίλυσης του προβλήματος αλλά και η ύπαρξη της σωστής κατανόησης της εμπλεκόμενης επιχειρηματικής διαδικασίας. Τέλος, θα πρέπει τα σχήματα/πρότυπα/μοτίβα που αποκαλύπτονται μέσω της εξόρυξης δεδομένων να επαληθεύονται στον πραγματικό κόσμο. Η εξόρυξη δεδομένων αποτελεί εργαλείο και όχι μαγική, γυάλινη σφαίρα. Τα κύρια κλειδιά της επιτυχίας στην εξόρυξη δεδομένων είναι η ακριβής διατύπωση του προβλήματος που προσπαθούν οι χρήστες να λύσουν, αλλά και η χρήση των σωστών δεδομένων για την επίλυση του προβλήματος και η κατανόηση της εμπλεκόμενης επιχειρηματικής διαδικασίας. Επιπλέον, τα σχήματα/μοτίβα που αποκαλύπτονται μέσω της εξόρυξης δεδομένων πρέπει να επαληθευθούν στον πραγματικό κόσμο. Συμπερασματικά, η εξόρυξη δεδομένων (Data Mining) [Kamber, 2004], καλείται η εξεύρεση (σημαντικών, αυτονόητων, άγνωστων και πιθανόν χρήσιμων) πληροφοριών ή επαναλαμβανόμενων προτύπων (patterns) σε τεράστιες Βάσεις Δεδομένων (βλέπε Εικόνα 1). Το Data Mining αναγνωρίζεται ως ένα εργαλείο που συνδυάζει την στατιστική, την μηχανική εκμάθηση, αλγόριθμους ομαδοποίησης (clustering), μεθόδους οπτικοποίησης (visualization) και τις Βάσεις Δεδομένων. Σήμερα, η επιστήμη της εξόρυξης δεδομένων έχει ένα ευρύ φάσμα και πολλαπλές εφαρμογές, όσες αυτή μπορεί να καταστεί σίγουρη ότι μπορεί να ανταπεξέρθει στις απαιτήσεις των εφαρμογών αυτών [Kumar, 2005]. Εικόνα 1 - Τα στοιχεία της Εξόρυξης Δεδομένων 21 Προώθηση Προϊόντων με Χρήση Κανόνων Συσχέτησης

22 1.2 ΙΣΤΟΡΙΚΗ ΑΝΑΔΡΟΜΗ Σε σχέση με την ιστορία των Βάσεων Δεδομένων, η ιστορία της εξόρυξης δεδομένων είναι σχετικά πολύ νέα 1960 και μεταγενέστερα: Συλλογή Δεδομένων - Επεξεργασία Αρχείων 1970 Αρχές του 1980 Ιεραρχικά και δικτυακά μοντέλα Σχεσιακά συστήματα βάσεων δεδομένων Εργαλεία μοντελοποίησης Μέθοδοι ευρετηριοποίησης (Β-δέντρα, κατακερματισμός) Γλώσσες επερωτήσεων SQL. Διεπαφές χρήστη (πχ φόρμες και αναφορές) Επεξεργασία και βελτιστοποίηση ερωτήσεων Συναλλαγές, ανάκαμψη από σφάλματα, έλεγχος συγχρονικότητας OLTP (on-line analytical processing) Άμεσης Αναλυτικής Επεξεργασίας Εξελιγμένα Συστήματα Βάσεων Δεδομένων (μέσα 1980 σήμερα) Νέα μοντέλα (αντικείμενο-σχεσιακό, επεκταμένα σχεσιακά κλπ) Νέες εφαρμογές και τύποι δεδομένων (χρονικά, χωρικά, δεδομένα από αισθητήρες, συνεχή, κλπ) Εξελιγμένη Ανάλυση Δεδομένων Αποθήκες Δεδομένων και Εξόρυξη (1990 σήμερα) Διαδικτυακές Βάσεις Δεδομένων 1990 σήμερα IR (Ανάκτηση Πληροφορίας) + ΒΔ Η τρέχουσα κατάσταση στην εξόρυξη γνώσης από τα δεδομένα είναι παρόμοια με αυτή που επικρατούσε στην επεξεργασία των ερωτήσεων σε Βάσεις Δεδομένων στα τέλη της δεκαετίας του 60 και στις αρχές της δεκαετίας του 70. Κατά την επόμενη δεκαετία, θα σημειωθεί μεγάλη πρόοδος, όσον αφορά στην εξόρυξη γνώσης, για παράδειγμα θα εμφανιστούν και θα αναπτυχθούν νέα 22 μοντέλα επεξεργασίας ερωτήσεων των βιομηχανικών προτύπων, αλλά και αλγόριθμοι, που θα στοχεύουν στις εφαρμογές εξόρυξης γνώσης. Μελέτη Περίπτωσης σε Κατάστημα με Καλλυντικά

23 1.3 Η ΔΙΑΔΙΚΑΣΙΑ ΕΞΟΡΥΞΗΣ ΔΕΔΟΜΕΝΩΝ Η εξόρυξη δεδομένων περιλαμβάνει τα μοντέλα συναρμολογήσεων [Fayyad, 1996] των υπό εξέταση δεδομένων, ή εναλλακτικά την εξαγωγή των προτύπων από αυτά. Δηλαδή, περιλαμβάνει κυρίως μεθοδολογίες και τεχνικές εξαγωγής προτύπων δεδομένων ή τις περιγραφές δεδομένων από μεγάλες Βάσεις Δεδομένων. Ουσιαστικά, οι παράμετροι του μοντέλου που είναι γνωστές από τα δεδομένα ή από τα πρότυπα που προσδιορίζονται, αντιπροσωπεύουν την γνώση που έχει εξαχθεί από ένα σύνολο δεδομένων. Υπάρχει μια μεγάλη συλλογή αλγορίθμων εξόρυξης δεδομένων, πολλοί από τους οποίους χρησιμοποιούν έννοιες και τεχνικές από διαφορετικούς τομείς όπως η στατιστική, η αναγνώριση προτύπων, η μηχανική μάθηση, οι αλγόριθμοί και οι Βάσεις Δεδομένων. Μια θεμελιώδης ιδιότητα των αλγορίθμων εξόρυξης δεδομένων, και αυτή που τους διαφοροποιεί από άλλες παρόμοιες τεχνικές που υιοθετούνται στην μηχανική μάθηση και στην στατιστική, είναι ότι οι αλγόριθμοι εξόρυξης δεδομένων έχουν σχεδιαστεί με έμφαση στην εξελισιμότητα όσον αφορά το μέγεθος του συνόλου δεδομένων εισαγωγής. Η πλειοψηφία των αλγορίθμων εξόρυξης δεδομένων θα μπορούσε να περιγραφεί σε υψηλό επίπεδο με τον όρο ενός απλού πλαισίου. Συγκεκριμένα θα μπορούσαν να αντιμετωπιστούν ως σύνθεση των τριών ακόλουθων συστατικών [Fayyad, 1996]: Την περιγραφή του μοντέλου. Υπάρχουν δύο παράγοντες σχετικοί με το μοντέλο: Η λειτουργία του μοντέλου: καθορίζει τους βασικούς στόχους κατά την διάρκεια της διαδικασίας εξόρυξης δεδομένων π.χ. η ταξινόμηση (classification) ή ομαδοποίηση (clustering) Η παραστατική μορφή του μοντέλου: η απεικόνιση του μοντέλου καθορίζει και το ταίριασμα του με την απεικόνιση των δεδομένων και τη δυνατότητα να ερμηνευθεί το μοντέλο με κατανοητούς όρους. Χαρακτηριστικά, πιο περίπλοκα μοντέλα ταιριάζουν καλύτερα στα δεδομένα αλλά μπορεί να είναι 23 δυσκολότερο να γίνουν κατανοητά και να ανταποκριθούν σε πραγματικές συνθήκες. Τα πιο γνωστά μοντέλα είναι τα δέντρα και οι κανόνες απόφασης, τα Προώθηση Προϊόντων με Χρήση Κανόνων Συσχέτησης

24 νευρωτικά δίκτυα, τα συστήματα βασισμένα σε παραδείγματα, τα γραφικά μοντέλα, τα μοντέλα βασισμένα στις πιθανότητες (π.χ. δίκτυα Bayes και τα συγγενικά μοντέλα). Την αξιολόγηση του μοντέλου. Με βάση κάποια κριτήρια αξιολόγησης (π.χ. μέγιστη πιθανότητα) θα μπορούσαμε να καθορίσουμε πόσο καλά ένα συγκεκριμένο μοντέλο ταιριάζει με τα κριτήρια της KDD διαδικασίας. Γενικά η αξιολόγηση του μοντέλου αναφέρεται και στην εγκυρότητα των προτύπων και στην αξιολόγηση της ακρίβειας, της χρησιμότητας και της δυνατότητας κατανόησης του μοντέλου. Τους αλγόριθμους αναζήτησης. Αναφέρεται στην προδιαγραφή ενός αλγόριθμου να βρίσκει συγκεκριμένα μοντέλα και παραμέτρους, δοσμένου ενός συνόλου δεδομένων, μιας οικογένειας μοντέλων και ενός κριτηρίου αξιολόγησης. Υπάρχουν δύο τύποι αλγορίθμων αναζήτησης: Αυτοί που αναζητούν παραμέτρους. Αυτός ο τύπος αλγορίθμων ψάχνει για παραμέτρους, οι οποίες βελτιστοποιούν ένα κριτήριο αξιολόγησης για το μοντέλο. Οι αλγόριθμοι εκτελούν το στόχο αναζήτησης παίρνοντας ως είσοδο ένα σύνολο δεδομένων και μια απεικόνιση μοντέλου. Αυτοί που αναζητούν μοντέλα. Εκτελούν μια επαναληπτική διαδικασία αναζήτησης για την απεικόνιση των δεδομένων. Για κάποια συγκεκριμένη απεικόνιση ενός μοντέλου, εφαρμόζεται η μέθοδος αναζήτησης παραμέτρων και η ποιότητα των αποτελεσμάτων αξιολογείται. 1.4 ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ ΤΩΝ ΜΕΘΟΔΩΝ ΕΞΟΡΥΞΗΣ ΔΕΔΟΜΕΝΩΝ Τα τελευταία έτη διάφορες τεχνικές και μέθοδοι εξόρυξης δεδομένων έχουν 24 αναπτυχθεί. Διαφορετικά κριτήρια κατηγοριοποίησης μπορούν να χρησιμοποιηθούν για να κατηγοριοποιήσουν τις μεθόδους και τα συστήματα εξόρυξης δεδομένων, βασισμένες στους τύπους των Βάσεων Δεδομένων που θα χρησιμοποιηθούν, τους τύπους γνώσης που θα εξαχθούν και τις τεχνικές που θα Μελέτη Περίπτωσης σε Κατάστημα με Καλλυντικά

25 εφαρμοστούν. Η κατηγοριοποίηση των συστημάτων εξόρυξης δεδομένων είναι βασισμένη στα ακόλουθα κριτήρια: [Chen, 1996] Τι είδους Βάση Δεδομένων χρησιμοποιείται; Ένα σύστημα εξόρυξης δεδομένων θα μπορούσε να ταξινομηθεί σύμφωνα με τα είδη Βάσεων Δεδομένων στις οποίες εφαρμόζεται η εξόρυξη δεδομένων. Για παράδειγμα, ένα σύστημα που χρησιμοποιείται για την εξαγωγή γνώσης από σχεσιακά δεδομένα καλείται σχεσιακό σύστημα γνώσης. Εάν εξάγει την γνώση από αντικειμενοστραφείς Βάσεις Δεδομένων καλείται αντικειμενοστραφές σύστημα εξόρυξης δεδομένων. Γενικότερα, ένα σύστημα εξόρυξης δεδομένων θα μπορούσε να ταξινομηθεί βασισμένο στους διάφορους τύπους συστημάτων Βάσεων Δεδομένων. Τι είδους γνώση εξάγεται; Από ένα σύστημα εξόρυξης δεδομένων θα μπορούσαν να εξαχθούν διάφορα είδη γνώσης, όπως είναι οι κανόνες συσχέτισης (association rules), συσταδοποίηση (clustering), κανόνες κατηγοριοποίησης (classification rules), χαρακτηριστικοί κανόνες. Ένα σύστημα εξόρυξης δεδομένων θα μπορούσε, ακόμα, να ταξινομηθεί με το επίπεδο της γενίκευσης της εξαγόμενης γνώσης, η οποία θα μπορούσε να είναι γενική, πρώτου επιπέδου ή πολυεπίπεδη γνώση. Ποιο είδος τεχνικών χρησιμοποιείται; Μια ακόμα σημαντική ταξινόμηση των συστημάτων δεδομένων θα μπορούσε να είναι σύμφωνα με τις χρησιμοποιούμενες τεχνικές εξόρυξης δεδομένων. Παραδείγματος χάριν, θα μπορούσαν να ταξινομηθούν σε αυτόνομα συστήματα, συστήματα προσανατολισμένα στα δεδομένα, συστήματα οδηγούμενα από ερωταποκρίσεις καθώς και διαλογικά συστήματα. Επίσης, σύμφωνα με την προσέγγιση που χρησιμοποιείται θα μπορούσαν να ταξινομηθούν βάση σε συστήματα γενικής εξόρυξης, εξόρυξης βασισμένη στα πρότυπα, στη στατιστική ή στα μαθηματικά. 25 Προώθηση Προϊόντων με Χρήση Κανόνων Συσχέτησης

26 1.5 ΔΗΜΙΟΥΡΓΙΑ ΠΡΟΤΥΠΩΝ ΕΦΑΡΜΟΓΗ ΤΗΣ ΕΞΟΡΥΞΗΣ ΔΕΔΟΜΕΝΩΝ Για την εφαρμογή της εξόρυξης δεδομένων απαιτούνται διάφορες τεχνικέςπρότυπα, τα οποία είναι αποτέλεσμα μιας σειράς από χρονοβόρες διαδικασίες έρευνας και ανάπτυξης προϊόντων. Ακόμα, και η ανάπτυξη της τεχνολογίας των υπολογιστών ακολούθησε τις βελτιώσεις για τις τεχνολογίες αποθήκευσης και πρόσβασης στα δεδομένα. Οι τεχνολογίες αυτές επιτρέπουν στους χρήστες να πλοηγηθούν στα δεδομένα τους σε πραγματικό χρόνο. Η εξόρυξη δεδομένων χρησιμοποιεί κάθε διαθέσιμη τεχνολογία ώστε η εξελικτική διαδικασία να μπορεί να ξεπεράσει την πρόσβαση και την πλοήγηση μέσω της παράδοσης προοπτικών πληροφοριών. Η εξόρυξη δεδομένων πραγματοποιείται στα δεδομένα που έχουν την μορφή ποσοτικών, κειμενικών ή πολυμεσικών δεδομένων. Οι εφαρμογές της εξόρυξης δεδομένων χρησιμοποιούν διάφορους παραμέτρους για να εξετάσουν τα δεδομένα αυτά. Οι παράμετροι αυτοί κυρίως είναι: η συσχέτιση (association: σχήματα σύμφωνα με τα οποία έναν συμβάν μπορεί να συσχετιστεί με άλλα συμβάντα), η αλληλουχία ή «ανάλυση οδού» (sequence or path analysis: σχήματα όπου ένα συμβάν οδηγεί σε κάποιο άλλο), η ταξινόμηση (classification: η αναγνώριση νέων σχημάτων), η ομαδοποίηση (clustering: η ανεύρεση και οπτική καταγραφή άγνωστων ομάδων/στοιχείων) και τέλος η πρόβλεψη (forecasting: η ανακάλυψη σχημάτων από τα οποία είναι δυνατόν να πραγματοποιηθούν λογικές προβλέψεις σχετικά με μελλοντικές δραστηριότητες). Τα εργαλεία της εξόρυξης δεδομένων είναι σε θέση να αναλύουν τεράστιες ποσότητες δεδομένων μέσα σε λίγα λεπτά, όταν εφαρμόζονται σε σημεία παράλληλης επεξεργασία και υψηλής αποδόσεως. Αυτό, έχει σαν αποτέλεσμα οι χρήστες να έχουν την δυνατότητα να πειραματιστούν σε πολλά περισσότερα πρότυπα, ώστε να κατανοήσουν σύνθετα δεδομένα. Η υψηλή ταχύτητα έχει αποτέλεσμα μεγαλύτερες Βάσεις Δεδομένων, καλύτερη ανάλυση τεράστιων όγκων δεδομένων και καλύτερες προβλέψεις, βάση των αποφάσεων των χρηστών. 26 Έτσι γεννιέται το ερώτημα πως μπορεί να είναι δυνατόν να ανταποκριθεί η εξόρυξη δεδομένων στα σημαντικά πράγματα που δεν γνωρίζουμε ή τι μπορεί να επακολουθήσει στην συνέχεια. Για να απαντήσει η εξόρυξη δεδομένων σε αυτό το Μελέτη Περίπτωσης σε Κατάστημα με Καλλυντικά

27 ερώτημα δημιούργησε την τεχνική δημιουργία προτύπων (patterns). Η δημιουργία προτύπων δεν είναι τίποτα παρά η τεχνική οικοδόμησης ενός προτύπου πάνω σε μια συγκεκριμένη κατάσταση όπου ήδη γνωρίζουμε τις απαντήσεις βάση της εμπειρίας και της γνώσης, ενώ, στη συνέχεια το πρότυπο εφαρμόζετε σε μία άλλη κατάσταση στην οποία δεν γνωρίζουμε την απάντηση. Ένα παράδειγμα μπορεί να είναι η περίπτωση ενός διευθυντή μάρκετινγκ σε μια εταιρία τηλεπικοινωνιών, που θέλει να αποκτήσει ορισμένους νέους πελάτες υπεραστικής τηλεφωνίας. Για να επιτύχει το εγχείρημα αυτό, ο διευθυντής μάρκετινγκ, μπορεί είτε να ταχυδρομήσει στην τύχη ορισμένα κουπόνια είτε να χρησιμοποιήσει κάποιες άλλες τεχνικές μάρκετινγκ που απευθύνονται στο ευρύ κοινό ή να χρησιμοποιήσει κάποια δεδομένα που ήδη γνωρίζει (η ρητή του γνώση) και την εμπειρία του (η άρρητη γνώση του) ώστε να μπορέσει να οικοδομήσει ένα πρότυπο για να τον βοηθήσει στον στόχο του. Ενώ η εξόρυξη δεδομένων αποτελεί σημαντική πρόοδο στον τύπο των εργαλείων ανάλυσης που υπάρχουν σήμερα, οι δυνατότητές της έχουν κάποια όρια. Ένας περιορισμός, είναι το γεγονός ότι η εξόρυξη δεν αναφέρει στον χρήστη ποια είναι η αξία ή η σημασία των δεδομένων που έχει ανακαλύψει. Ένας άλλος περιορισμός είναι ότι, ενώ η εξόρυξη δεδομένων μπορεί να αναγνωρίζει τις συνδέσεις μεταξύ συμπεριφορών ή μεταβλητών, δεν μπορεί να αναγνωρίζει οποιαδήποτε αιτιολογική σχέση που μπορεί να έχουν. Τέλος, για να είναι η εξόρυξη επιτυχής απαιτεί ακόμα ειδικούς στην τεχνολογία και στην ανάλυση οι οποίοι μπορούν να συνθέσουν την ανάλυση και να ερμηνεύσουν τα εξαγόμενα αποτελέσματα. 1.6 ΟΙ ΠΑΡΑΓΟΝΤΕΣ ΕΠΙΤΥΧΙΑΣ ΤΗΣ ΕΞΟΡΥΞΗΣ ΔΕΔΟΜΕΝΩΝ Υπάρχουν δύο παράγοντες επιτυχίας στην εξόρυξη δεδομένων. Ο πρώτος είναι η ακριβής διατύπωση των προβλημάτων που είναι προς επίλυση, ενώ ο δεύτερος παράγοντας, ο οποίος είναι εξίσου σημαντικός είναι η ύπαρξη ορθών 27 δεδομένων στην διάθεσή των χρηστών (δεδομένα χωρίς λάθη τα οποία να Προώθηση Προϊόντων με Χρήση Κανόνων Συσχέτησης

28 σχετίζονται με το υπό εξέταση πρόβλημα). Τα δεδομένα αυτά μπορούν είτε να μετασχηματιστούν είτε να συνδυαστούν με πολλούς και διάφορους τρόπους. Η εξόρυξη δεδομένων δεν μπορεί να παρέχει αυτόματα λύσεις χωρίς πρώτα να προηγηθεί μια καθοδήγηση. Επίσης, η εξόρυξη δεδομένων προστατεύει τους χρήστες από πολύπλοκες στατιστικές τεχνικές και τους βοηθάει από να κατανοήσουν τον τρόπο λειτουργίας των αλγορίθμων που επιλέγουν και βασίζονται για την επίλυση των προβλημάτων τους. Όπως και με όλες τις τεχνικές διαχείρισης γνώσης, η χρήση ορθών δεδομένων (η ρητή γνώση) και η καλή τεχνογνωσία που αφορά την κάθε επιχειρηματική λειτουργία (άρρητη γνώση) έχουν μεγάλη σημασία στην σωστή συνεργασία και αποτελεσματικότητα της εξόρυξης. Η ιστορία των τεχνικών διαχείρισης γνώσεις, δείχνει ότι ένας μεγάλος αριθμός από εταιρείες έχουν αναπτύξει πολλές επιτυχημένες εφαρμογές εξόρυξης δεδομένων. Επιπλέον, οι πρώτοι που υιοθέτησαν τις τεχνικές άνηκαν κυρίως στους τομείς πληροφοριών, όπως είναι οι χρηματοοικονομικές υπηρεσίες και το μάρκετινγκ. Οι τεχνολογίες αυτές είναι διαθέσιμες και εφαρμόσιμες σε οποιαδήποτε εταιρεία που αναζητά αποδοτικότητα διαχείρισης σε μια μεγάλη αποθήκη δεδομένων. Τα συστήματα εξόρυξης δεδομένων είναι φτιαγμένα να διαχειρίζονται τεράστιες μάζες δεδομένων και πληροφοριών. Μπορούν να έχουν και να ανατρέχουν σε ιστορικά δεδομένα, όπως επίσης και να χειρίζονται και από υψηλόβαθμα στελέχη ώστε σε μικρό χρονικό διάστημα να έχουν μια διαγραμματική αναπαράσταση των πληροφοριών και των προτύπων για την καλύτερη λήψη αποφάσεων. (βλέπε Εικόνα 2) Στο σχεδιάγραμμα που ακολουθεί βλέπουμε τον τρόπο λήψης απόφασης (με την βοήθεια της εξόρυξης δεομένων) από τους χρήστες (οι οποίοι μπορούν να είναι και υψηλόβαθμα στελέχη). 28 Μελέτη Περίπτωσης σε Κατάστημα με Καλλυντικά

29 Εικόνα 2 - Σχεδιάγραμμα τρόπου λήψης απόφασης από τους χρήστες της Εξόρυξης Δεδομένων 1.7 ΑΠΑΙΤΗΣΕΙΣ ΕΞΟΡΥΞΗΣ ΔΕΔΟΜΕΝΩΝ Για να επιτύχουμε μια αποτελεσματική διαδικασία εξόρυξης δεδομένων, θα πρέπει πρώτα να εξετάσουμε το είδος των χαρακτηριστικών που μπορεί υπάρχουν σε ένα σύστημα εξόρυξης δεδομένων, καθώς επίσης και τις απαιτήσεις που πρέπει να λάβουμε υπόψη στην ανάπτυξη των τεχνικών εξόρυξης δεδομένων. Οι κύριες απαιτήσεις μπορούν να συνοψιστούν στα εξής [Chen, 1996., Agrawal, 1998]: Χειρισμός των διαφορετικών τύπων δεδομένων: Δεδομένου ότι διαφορετικοί τύποι και Βάσεις Δεδομένων χρησιμοποιούνται σε διαφορετικές εφαρμογές, είναι σημαντικό ένα σύστημα εξόρυξης δεδομένων να εφαρμόζεται αποτελεσματικά σε πολλαπλούς και ανόμοιους τύπους δεδομένων. Οι Βάσεις Δεδομένων είναι στην πλειοψηφία τους συγγενείς μεταξύ τους. Συνεπώς, είναι σημαντικό να υποστηρίζονται με τεχνικές για αποδοτική και αποτελεσματική ανάλυση για τα συγγενικά τους δεδομένα, από ένα σύστημα εξόρυξης δεδομένων. 29 Επιπλέον, πολλά συστήματα Βάσεων Δεδομένων που έχουν τεθεί πρόσφατα σε Προώθηση Προϊόντων με Χρήση Κανόνων Συσχέτησης

30 30 χρήση περιέχουν σύνθετους τύπους δεδομένων, όπως δομές δεδομένων, χωροχρονικά στοιχεία κτλ. Ένα τέτοια σύστημα πρέπει να λειτουργεί αποτελεσματικά ανεξάρτητα από τους τύπους δεδομένων. Απόδοση και εξελισιμότητα των αλγορίθμων εξόρυξης δεδομένων: Για να επιτευχθεί αποτελεσματική εξόρυξη γνώσης από μεγάλα σύνολα δεδομένων οι αλγόριθμοι πρέπει να προσαρμοστούν κατάλληλα σε αυτά. Αυτό σημαίνει ότι ο χρόνος εκτέλεσης των αλγορίθμων εξόρυξης δεδομένων πρέπει να είναι αποδεκτός και αναμενόμενος για μεγάλες Βάσεις Δεδομένων. Οι αλγόριθμοι με εκθετική ή πολυωνυμική πολυπλοκότητα δεν είναι κατάλληλοι. Χρησιμότητα, βεβαιότητα και εκφραστικότητα των αποτελεσμάτων εξόρυξης δεδομένων: Η εξορυγμένη γνώση πρέπει να παρουσιάζει με ακριβή τρόπο τα περιεχόμενα των Βάσεων Δεδομένων. Η ακρίβεια των αποτελεσμάτων θα μπορούσε να εκφραστεί χρησιμοποιώντας κάποια μέτρα βεβαιότητας. Ο θόρυβος και τα outliers, που αντιπροσωπεύουν τις εξαιρέσεις, πρέπει να αντιμετωπιστούν αποτελεσματικά από τα συστήματα εξόρυξης δεδομένων. Το γεγονός αυτό, δίνει κίνητρο για μια πιο συστηματική μελέτη της ποιότητας της εξορυγμένης γνώσης, της κατασκευαστικής στατιστικής, των αναλυτικών, μοντέλων, των μοντέλων προσομοίωσης, καθώς και των εργαλείων. Διαφορετικού τύπου εκφράσεις των ερωτήσεων και των αποτελεσμάτων της εξόρυξης δεδομένων: Διαφορετικοί τύποι γνώσεων θα μπορούσαν να εξαχθούν από μεγάλα σύνολά δεδομένων. Θα ήταν επίσης χρήσιμο να μπορούμε να εξετάσουμε την γνώση από ποικίλες απόψεις και να την αντιπροσωπεύσουμε με διάφορες μορφές. Κατά συνέπεια υπάρχει μια ανάγκη να εκφραστούν οι επερωτήσεις εξόρυξης δεδομένων και η εξορυγμένη γνώση σε γλώσσες υψηλού επιπέδου ή μέσω γραφικών διεπαφών των χρηστών προκειμένου η διαδικασία της εξόρυξης να μπορεί να είναι εφαρμόσιμη από μη ειδικούς και η εξορυγμένη γνώση να χρησιμοποιείται άμεσα από τους εκάστοτε χρήστες. Μια άλλη απαίτηση για την αποτελεσματική παρουσίαση της γνώσης είναι το σύστημα να υιοθετεί τις εκφραστικές τεχνικές αναπαράστασης γνώσης. Διαλογική ανακάλυψη γνώσης στα πολύ- εννοιολογικά επίπεδα: Η διαλογική ανακάλυψη της γνώσης επιτρέπει σε κάθε χρήστη να αλληλεπιδράσει με Μελέτη Περίπτωσης σε Κατάστημα με Καλλυντικά

31 ένα σύστημα, καθορίζοντας τις ερωτήσεις εξόρυξης δεδομένων προκειμένου να αλλάξει την εστίαση των δεδομένων, να οδηγήσει μια διαδικασία εξόρυξης σε ένα πιο λεπτομερές επίπεδο και να δει τα δεδομένα και τα αποτελέσματα εξόρυξης δεδομένων σε πολλαπλά επίπεδα από διαφορετικές πτυχές. Εξόρυξη γνώσης από διαφορετικές πηγές δεδομένων: Η διάδοση της σύνδεσης των υπολογιστών σε τοπικό αλλά και σε παγκόσμιο επίπεδο, συμπεριλαμβανομένου του Διαδικτύου, έχει το προβάδισμα στη σύνδεση των διαφόρων πηγών δεδομένων. Αυτό οδηγεί στη δημιουργία μεγάλων κατανεμημένων και ετερογενών Βάσεων Δεδομένων. Το τεράστιο ποσό δεδομένων, η υψηλή κατανομή τους και η υπολογιστική τους πολυπλοκότητα τους οδηγούν στην ανάπτυξη παράλληλων και κατανεμημένων αλγορίθμων εξόρυξης δεδομένων. 1.8 ΛΟΓΟΙ ΧΡΗΣΗΣ ΤΗΣ ΕΞΟΡΥΞΗΣ ΔΕΔΟΜΕΝΩΝ Ο κύριος λόγος χρήσης της εξόρυξης δεδομένων είναι για την ανάλυση των Βάσεων Δεδομένων και στην καλύτερη λήψη κρίσιμων αποφάσεων όπως: Ανάλυση αγοράς και διαχείρισης όπως είναι τα: Target marketing, Customer relation Management, Market basket analysis (supermarket), Cross selling, Market segmentation. Παράδειγμα της κατηγορίας αυτής είναι: Η περίπτωση "Diapers and beer". Η παρατήρηση ότι πελάτες που αγοράζουν πάνες αγοράζουν και μπύρα επιτρέπουν στα καταστήματα να τοποθετούν αυτά τα είδη σχετικά κοντά, γνωρίζοντας ότι οι πελάτες θα κάνουν τη διαδρομή μεταξύ των ραφιών με τις πάνες και αυτών με τις μπύρες. Τοποθετώντας ανάμεσά τους και πατατάκια αυξάνουν τις πωλήσεις και στα τρία είδη. Ανάλυση εταιρειών και διαχείριση ρίσκου όπως είναι οι Προβλέψεις, η Διατήρηση πελατολογίου, η Βελτιωμένη 31 χρηματοδότηση, ο Έλεγχος ποιότητας και η Ανάλυση ανταγωνιστικότητας. Προώθηση Προϊόντων με Χρήση Κανόνων Συσχέτησης

32 32 Παράδειγμα για την κατηγορία είναι: Η κατασκευή δένδρων αποφάσεων από ιστορικά στοιχεία τραπεζικών δανείων για την παραγωγή αλγορίθμων, ώστε να αποφασίζεται αν πρέπει ή όχι να δοθεί ένα δάνειο σε έναν υποψήφιο πελάτη. Εντοπισμός απάτης και διαχείρισης που γίνονται μέσω της εξόρυξης κειμένου, δηλαδή newsgroup, , documents and web analysis. Αλλά και μέσω ευφυών απαντήσεων σε ερωτήματα. Παραδείγματα είναι: Άτομα που σκηνοθετούν ατυχήματα για να εισπράξουν από τις ασφαλιστικές εταιρίες, ή κάποιοι που κάνουν ξέπλυμα «βρώμικου χρήματος» εντοπίζοντας ύποπτες μεταφορές χρημάτων ή κάποιοι που κλέβουν τους παροχείς τηλεπικοινωνιών και κάνουν τηλεφωνήματα που έχουν κάποια επαναλαμβανόμενα σχέδια είτε προς μια κλειστή ομάδα ατόμων (κινητά) είτε κάποια συγκεκριμένη ώρα της ημέρας κλπ. Από εμπορικής άποψης οι κύριοι λόγοι χρήσης της Εξόρυξης δεδομένων είναι: Πολλά δεδομένα συγκεντρώνονται και εισάγονται σε μεγάλες Βάσεις Δεδομένων, όπου είναι δύσκολοι η αναζήτηση πληροφοριών. Τα δεδομένα αυτά προέρχονται κυρίως από το Διαδίκτυο ή από ηλεκτρονικές αγορές ή συναλλαγές με τράπεζες. Οι υπολογιστές γίνονται φθηνότεροι αλλά πιο ισχυροί ώστε να επιτρέπουν την χρήση της Εξόρυξης Δεδομένων χωρίς την δημιουργία προβλημάτων Η ύπαρξη μεγάλου ανταγωνισμού όπως είναι η καλύτερη και προσωπική παροχή υπηρεσιών σε διάφορα πεδία όπως (fraud detection and targeting marketing). Από επιστημονικής πλευράς ο λόγος της συλλογής και αποθήκευσης των δεδομένων σε τρομερές ταχύτητες (enormous speeds) GB/hour αλλά και η ύπαρξη επιστημονικών προσομοιώσεων που παράγουν terabytes από δεδομένα είναι οι κύριες αιτίες για την εξάπλωση της εξόρυξης στον επιστημονικό τομέα ώστε να βοηθήσει τους επιστήμονες στην κατηγοριοποίηση και στην τμηματοποίηση των δεδομένων, αλλά και στην διατύπωση υποθέσεων. Μελέτη Περίπτωσης σε Κατάστημα με Καλλυντικά

33 1.9 ΜΕΤΡΑ ΑΞΙΟΛΟΓΗΣΗΣ ΤΗΣ ΕΞΟΡΥΞΗΣ ΓΝΩΣΗΣ ΑΠΟ ΔΕΔΟΜΕΝΑ Η μέτρηση της αποτελεσματικότητας αλλά και της χρησιμότητας μιας τεχνικής εξόρυξης γνώσης δεν είναι μια απλή διαδικασία. Στην πραγματικότητα μπορούν να χρησιμοποιηθούν πολλά και διαφορετικά μέτρα αξιολόγησης για διαφορετικές τεχνικές και πάντα ανάλογα με το επίπεδο ενδιαφέροντος της κάθε μίας τεχνικής. Ένα πιθανό μέτρο αξιολόγησης και μέτρησης μιας τεχνικής εξόρυξης, μπορεί να είναι η απόδοση της επένδυσης (return on investment ROI). Από την μια το μέτρο ROI να εξετάζει τη διαφορά ανάμεσα στο κόστος της τεχνικής και από την άλλη την διαφορά στην εξοικονόμηση ή στα κέρδη, που προκύπτουν από την χρήση αυτής της τεχνικής. Η διαφορά αυτή θα μπορούσε να μετρηθεί σαν αύξηση στις πωλήσεις ή σαν μείωση στις δαπάνες τις διαφήμισης ή ακόμα και σαν άθροισμα αυτών των δύο ΒΙΒΛΙΟΓΡΑΦΙΚΕΣ ΑΝΑΦΟΡΕΣ Silberschatz, H.,. (2002). Data System Concepts. McGraw Hill. Agrawal, R. G. (1998). Automatic Subspace Clustering of High Dimetional Data for Data Mining Applications. in Proceedings of the ACM SIGMOD Conference on Management of Data. Chen, M.-S. H. (1996, December). Data Mining: An overview from a Database Perspetive. IEEE Transactions on Knowledge and Data Engineering, No 6 (Vol. 8). Dunham, M. H. (2004). Data Mining Introductory and Advanced Topics. Prentice Hall. Fayyad, U. M.-S. (1996). Advances in Knowledge Duscovery and data Mining. AAAI Press. Kamber, J. H. (2004). Data Mining Concepts and Techniques. Kumar, V. (2005). Introduction to Data Mining. 33 Petkoic, D. (2000). Οδηγός του SQL Server Μ. Γκιούρδας. Προώθηση Προϊόντων με Χρήση Κανόνων Συσχέτησης

34 U. Fayyad, G. P.-S. (1996). Advances in Knowledge Discovery and Data Mining Workshops on Knowledge Discovery in Databases. U. Fayyad, G. P.-S. (1999). Advances in Knowledge Discovery and Data Mining International Conferences on Knowledge Discovery in Databases and Data Mining. Μ. Χαλκίδη, Μ. Β. (2005). Εξόρυξη γνώσης από Βάσεις Δεδομένων και τον Παγκόσμιο Ιστό. Αθήνα: Τυπωθήτω. Νίκος, Τ. (n.d.). Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης. Κανόνες συσχέτισης. (Τ. Νίκος, Επιμ.) Πίτουρα, Ε. (2009). Εξόρυξη Δεδομένων - Άνοιξη Ανάκτηση Ιούνιος 2010, από 34 Μελέτη Περίπτωσης σε Κατάστημα με Καλλυντικά

35 ΚΕΦΑΛΑΙΟ 2 Ο ΕΙΣΑΓΩΓΗ Οι κανόνες συσχέτισης αποτελούν μια σύγχρονη μέθοδο εξαγωγής γνώσης από μεγάλες Βάσεις Δεδομένων. Δημιουργήθηκαν από τον Agrawalet το Όλες οι πληροφορίες που περιγράφουν και συγκεντρώνονται από τους κανόνες συσχέτισης είναι ιδιαίτερα σημαντικές για τους χρήστες των συστημάτων εξόρυξης δεδομένων. Δημιουργήθηκαν για τις ανάγκες ανάλυσης του καλαθιού αγοράς, δηλαδή, εκφράζουν το αποτέλεσμα της ανάλυσης χιλιάδων καλαθιών αγοράς των πελατών. παρέχουν έναν συνοπτικό τρόπο για να εκφράζουν τις χρήσιμες και σημαντικές πληροφορίες, ώστε να γίνουν εύκολα κατανοητές από τους χρήστες. Τέλος, έχουν την ικανότητα να ανακαλύπτουν τις κρυμμένες συσχετίσεις μεταξύ γνωρισμάτων ενός συνόλου δεδομένων. Οι συσχετισμοί που παρουσιάζονται με βάση τους κανόνες συσχέτισης είναι κυρίως της μορφής Α Β, όπου Α και Β αναφέρονται σε γνωρίσματα που υπάρχουν στα υπό ανάλυση δεδομένα.[dunham,2004] Η αγορά ενός προϊόντος, όταν αγοράζεται μαζί με ένα άλλο προϊόν, αντιπροσωπεύει έναν κανόνα συσχέτισης. Οι κανόνες συσχέτισης χρησιμοποιούνται συχνά από τα καταστήματα λιανικής πώλησης για να βοηθήσουν στο marketing, στην διαφήμιση, στην ταξινόμηση των ορόφων και τέλος στον κατάλογο απογραφής. Αν και έχουν άμεση σχέση με τις επιχειρήσεις 35 Προώθηση Προϊόντων με Χρήση Κανόνων Συσχέτησης

36 λιανικής πώλησης, έχουν χρησιμοποιηθεί και για άλλους σκοπούς. Ένα παράδειγμα είναι η χρήση των κανόνων στην πρόβλεψη λαθών στα δίκτυα τηλεπικοινωνιών. Οι κανόνες συσχέτισης χρησιμοποιούνται για να μας δείξουν τις διάφορες συσχετίσεις που μπορεί να υπάρχουν ανάμεσα στα δεδομένα. Αυτές οι συσχετίσεις που ανακαλύπτονται δεν είναι έμφυτες στα δεδομένα, όπως για παράδειγμα οι εξαρτήσεις των δεδομένων μέσω των συναρτήσεων, και δεν αντιπροσωπεύουν κανένα είδος αιτιότητας ή συσχέτισης. Αντίθετα, οι κανόνες χρησιμοποιούνται για να ανιχνεύσουν μια συνηθισμένη χρήση. Για παράδειγμα, μια αλυσίδα καλλυντικών κρατάει ένα αρχείο με τις εβδομαδιαίες συναλλαγές, όπου κάθε συναλλαγή αντιπροσωπεύει τα προϊόντα που αγοράστηκαν κατά την διάρκεια μίας συναλλαγής με την ταμειακή μηχανή. Το υπεύθυνο τμήμα πωλήσεων της αλυσίδας λαμβάνει μια περιληπτική έκθεση όλων των συναλλαγών, η οποία υποδεικνύει τι είδη προϊόντων πουλήθηκαν και σε ποία ποσότητα. Επιπλέον, το τμήμα μπορεί να ζητήσει περιοδικές πληροφορίες σχετικά με το ποία προϊόντα πουλήθηκαν μαζί. 2.1 ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Η ανάλυση συνδέσμων (link analysis), που εναλλακτικά αναφέρεται και σαν ανάλυση συγγένειας (affinity analysis) ή συσχέτιση (association), αναφέρεται στη διαδικασία της εξόρυξης γνώσης που ανακαλύπτει συσχετίσεις μεταξύ δεδομένων. Το καλύτερο παράδειγμα αυτού του είδους της εφαρμογής είναι ο προσδιορισμός κανόνων συσχετίσεων. Ένας κανόνας συσχέτισης (association rule) είναι ένα μοντέλο που αναγνωρίζει ειδικούς τύπους συσχέτισης μεταξύ δεδομένων. Αυτές οι συσχετίσεις συχνά χρησιμοποιούνται στις λιανικές πωλήσεις για να αναγνωριστούν προϊόντα που συχνά αγοράζονται μαζί. [M. Χαλκίδη,2005] Έστω ένα κατάστημα λιανικής πώλησης τροφίμων, που προσπαθεί να αποφασίσει εάν θα βάλει το ψωμί σε έκπτωση. Προκειμένου να βοηθηθεί ο 36 πωλητής να καθορίσει τον αντίκτυπο αυτή της απόφασης, δημιουργεί κανόνες συσχέτισης που δείχνουν ποια άλλα προϊόντα αγοράζονται συχνά με το ψωμί. Βρίσκει ότι στο 60% των περιπτώσεων που πωλούνται μαζί με το ψωμί είναι τα Μελέτη Περίπτωσης σε Κατάστημα με Καλλυντικά

37 κουλουράκια και ότι το 70% των περιπτώσεων πωλούνται και τα γάλατα μαζί με το ψωμί. Βασισμένος σε αυτά τα δεδομένα προσπαθεί να εκμεταλλευτεί τη συσχέτιση ανάμεσα στο ψωμί, τα κουλουράκια και το γάλα βάζοντας μερικά κουλουράκια και μερικά γάλατα στο διάδρομο που έχει τοποθετήσει το ψωμί. Επιπλέον αποφασίζει να μην βάλει αυτά τα προϊόντα ταυτόχρονα σε έκπτωση. Εδώ τα δεδομένα που αναλύθηκαν αποτελούνται από πληροφορίες σχετικά με τα προϊόντα που μπορεί να αγοράσει ένας πελάτης. Συσχετίσεις χρησιμοποιούνται και σε πολλές άλλες εφαρμογές, όπως είναι η πρόβλεψη της αποτυχίας των λειτουργιών των τηλεπικοινωνιακών διακοπτών. Η χρήση των κανόνων συσχετίσεων για τις όποιες αποφάσεις πρέπει να γίνονται με πολλή προσοχή επειδή υπάρχει ο κίνδυνος αυτές οι συσχετίσεις να είναι τυχαίες. Οι συσχετίσεις αυτές μπορεί να μην αντιπροσωπεύουν καμία έμφυτη σχέση ανάμεσα στα δεδομένα, κάτι που ισχύει στα παραδείγματα στις συναρτησιακές εξαρτήσεις. Όπως για παράδειγμα δεν υπάρχει καμία συσχέτιση ανάμεσα στα κουλουράκια και στο ψωμί, 010η οποία προκαλεί τα δύο προϊόντα να αγοράζονται μαζί. Ακόμα δεν υπάρχει καμία εγγύηση ότι αυτή η συσχέτιση θα συνεχίσει να εμφανίζεται και στο μέλλον. Ωστόσο, οι κανόνες συσχέτισης μπορούν να χρησιμοποιηθούν για να βοηθήσουν την διοίκηση των καταστημάτων λιανικής πώλησης στην αποτελεσματική διαφήμιση, στο marketing και στον έλεγχο της αποθήκης. Η ανάλυση των κανόνων συσχετίσεων (association rules), αναφέρεται στην διαδικασία της εξαγωγής γνώσης από διάφορες Βάσεις Δεδομένων και η οποία διαδικασία αποκαλύπτει με ποιο συγκεκριμένο τρόπο τα δεδομένα μπορούν να συνδέονται. Το πιο γνωστό παράδειγμα της διαδικασίας αυτής είναι ο προσδιορισμός κανόνων συσχέτισης από την ανάλυση του καλαθιού αγοράς (market basket analysis) ή δεδομένων συναλλαγών. [M. Χαλκίδη,2005., Πίτουρα,2009] Η πιο γνωστή προσέγγιση για την ανάλυση των κανόνων συσχέτισης είναι η διάσπαση του προβλήματος σε δύο μέρη. Σαν πρώτο μέρος είναι η εύρεση συχνών στοιχειοσύνολων (frequent itemsets). Ενώ το δεύτερο μέρος ορίζει τη δημιουργία κανόνων συσχέτισης από τα στοιχειοσύνολα. Ο γνωστότερος 37 Προώθηση Προϊόντων με Χρήση Κανόνων Συσχέτησης

38 αλγόριθμός εύρεσης συχνών στοιχειοσύνολων και εξαγωγή συσχετίσεων από αυτά είναι ο Apriori. Σε κάθε σάρωσή του σε μια Βάση Δεδομένων δημιουργεί υποψήφια στοιχειοσύνολα και εξετάζει την συχνότητά τους. 2.2 ΟΡΙΣΜΟΙ ΚΑΝΟΝΩΝ ΣΥΣΧΕΤΙΣΗΣ Οι κανόνες συσχέτισης ορίζονται με πέντε απλούς ορισμούς. Οι ορισμοί αυτοί είναι: [M. Χαλκίδη,2005] Σύνολα αντικειμένων. Με την έννοια αυτή εννοούμε ένα σύνολο αντικειμένων, που είναι καλά ορισμένο. Τα αντικείμενα ξεχωρίζουν το ένα από το άλλο, δηλαδή είναι διαφορετικά. Τα αντικείμενα αυτά ονομάζονται στοιχεία ή μέλη του συνόλου. Συναλλαγή. Με τον ορισμό της συναλλαγής εννοούμε μια ακολουθία από πράξεις εγγραφής και ανάγνωσης που τελειώνει με μια πράξη επικύρωσης (commit) ή με μια πράξη ακύρωσης (abort-rollback). Στοιχειοσύνολα. Με δεδομένα ένα σύνολο από στοιχεία I={I 1,I 2,,I m } και μια Βάση Δεδομένων από συναλλαγές D={t 1,t 2,,t n }, όπου ti={i i1,i i2,,i ik } και I ij I, όπου είναι ένα επαγωγικό συμπέρασμα της μορφής, όπου Χ,Υ ανήκουν στο Ι και είναι σύνολα στοιχείων που ονομάζονται στοιχειοσύνολα και η ένωση του συνόλου Χ και Υ είναι ίσο με το μηδέν. Υποστήριξη (support s) για ένα κανόνα συσχέτισης Χ Υ είναι το ποσοστό των συναλλαγών στην Βάση Δεδομένων που περιέχουν την ένωση του συνόλου Χ με το σύνολο Υ. με απλά λόγια, η υποστήριξη μετράει πόσο συχνά εμφανίζεται μέσα σε μια τυπική Β.Δ. Εμπιστοσύνη ή Ισχύς (confidence, strength -a) για ένα κανόνα συσχέτισης είναι το κλάσμα του αριθμού των συναλλαγών που περιέχουν 38 την ένωση του συνόλου Χ με το σύνολο Υ προς τον αριθμό των συναλλαγών που περιέχουν το Χ. Γενικότερα, η εμπιστοσύνη μετράει την ισχύ ενός κανόνα συσχέτισης. Μελέτη Περίπτωσης σε Κατάστημα με Καλλυντικά

39 Μεγάλα (Συχνά) Στοιχειοσύνολα είναι τα στοιχειοσύνολα εκείνα των οποίων ο αριθμός των εμφανίσεών είναι πάνω από το οριζόμενο κατώφλι, s. Χρησιμοποιούμε τον συμβολισμό L για να δηλώσουμε το σύνολο που αποτελείται από όλα τα συχνά στοιχειοσύνολα και το l για να δηλώσουμε ένα συγκεκριμένο στοιχειοσύνολο. Έχοντας ορίσει ένα κατώφλι k=3, εάν ένα στοιχειοσύνολο εμφανίζεται k ή παραπάνω φορές τότε λέμε ότι το στοιχειοσύνολο αυτό είναι συχνό, δηλαδή l k μεγέθους k. Γενικά δεν ενδιαφερόμαστε για όλες τις συσχετίσεις αλλά μονό για εκείνες που είναι σημαντικές. Αυτό μπορούμε να το καταλάβουμε από δύο πολύ χρήσιμα μέτρα για την σημαντικότητα των συσχετίσεων, την υποστήριξη και την εμπιστοσύνη. Στον πίνακα που ακολουθεί δίνεται ένα παράδειγμα για την σημαντικότητα των συσχετίσεων μέσω της υποστήριξης και της εμπιστοσύνης. Πίνακας Πίνακας Υποστήριξης και Εμπιστοσύνης για Μερικούς Κανόνες Συσχέτισης Χ Υ s a Bread PeanutButter 60% 75% PeanutButter Bread 60% 100% Beer Bread 20% 50% PeanutButter Jelly 20% 33.3% Jelly PeanutButter 20% 100% Jelly Milk 0% 0% Τυπικά, χρησιμοποιούμε τιμές μεγάλης εμπιστοσύνης και μια μικρότερη υποστήριξη. Για παράδειγμα, αν πάρουμε τον πρώτο κανόνα του Πίνακα 2.1, βλέπουμε ότι a=75%. Δηλαδή, ο κανόνας αυτός, ισχύει στο 75% των συνολικών περιπτώσεων που θα μπορούσαν να ισχύουν. Αυτό σημαίνει ότι τα ¾ των φορών που εμφανίζεται το Bread εμφανίζεται και το PeanutButter. Αυτός είναι πιο 39 Προώθηση Προϊόντων με Χρήση Κανόνων Συσχέτησης

40 ισχυρός κανόνας από αυτόν με τον κανόνα Jelly Milk, γιατί δεν υπάρχουν τιμές που το Milk να αγοράζεται μαζί με το Jelly. Χαμηλότερες τιμές για την υποστήριξη μπορεί να είναι επιτρεπτές αφού η υποστήριξη δείχνει το ποσοστό των φορών που συμβαίνει ένας κανόνας από την αρχή μέχρι το τέλος μιας Βάσης Δεδομένων. Για παράδειγμα είναι ο κανόνας Jelly PeanutButter, η εμπιστοσύνη είναι 100% αλλά η υποστήριξη είναι μόνο 20%. Σε αυτή την περίπτωση ισχύει ότι ο κανόνας υπάρχει μόνο στο 20% των συναλλαγών, αλλά όταν το πρότερο (adecedent) Jelly, ισχύει όταν το επακόλουθο (consequent) είναι πάντα το ίδιο. Εδώ θα ήταν μια καλή διαφημιστική στρατηγική, η οποία θα είχε σαν στόχο την αγορά του Jelly από τους καταναλωτές ΑΛΓΟΡΙΘΜΟΣ APRIORI Είναι ο πιο γνωστός αλγόριθμος εξόρυξης δεδομένων για την εύρεση κανόνων συσχέτισης και χρησιμοποιείται από τα περισσότερα εμπορικά προϊόντα. Ο Apriori βασίζεται σε μια αρχή, η οποία αναφέρει ότι αν ένα στοιχειοσύνολο είναι συχνό, τότε όλα τα υποσύνολά του είναι συχνά. Τα συχνά στοιχειοσύνολα ονομάζονται επίσης και κλειστά προς κάτω επειδή εάν ένα στοιχειοσύνολο ικανοποιεί τις απαιτήσεις της ελάχιστης υποστήριξης, το ίδιο συμβαίνει και για όλα τα υποσύνολά του. Σε αντίθετη περίπτωση εάν ένα στοιχειοσύνολο δεν είναι συχνό, δεν χρειάζεται η παράγωγη υποσυνόλων, σαν υποψήφιο επειδή αυτό αποκλείεται να είναι συχνό. [Dunham,2004., Argawal, 1998] Γενικότερα, «διαβάζει» τον αρχικό πίνακα D διαδοχικές φορές, δηλαδή όσες φορές είναι το πλήθος των διαφορετικών items στον πίνακα. Έπειτα, κάνει μια αναζήτηση όλων των itemsets που έχουν ελάχιστη υποστήριξη (frequent 40 itemsets ή large itemsets) και τέλος κάνει χρήση των frequent itemsets για την δημιουργία των κανόνων συσχέτισης. Ένας χρήστης του αλγορίθμου βασίζεται σε Μελέτη Περίπτωσης σε Κατάστημα με Καλλυντικά

41 έναν πίνακα παραμέτρων (βλέπε Πίνακα 2.2) που αναλύει κάθε παράμετρο του αλγορίθμου. Πίνακας Πίνακας Παραμέτρων k- στοιχειοσύνολο Ένα στοιχειοσύνολο που περιέχει k αντικείμενα L k Σύνολο από μεγάλα/συχνά k- στοιχειοσύνολα (με ελάχιστη υποστήριξη), όπου κάθε αριθμός του συνόλου έχει 2 πεδία. Το πρώτο είναι το στοιχειοσύνολο και το δεύτερο είναι ο μετρητής υποστήριξης (support count) C k k D Σύνολο από μεγάλα k-στοιχειοσύνολα (ενδεχομένως μεγάλα), όπου κάθε αριθμός του συνόλου έχει 2 πεδία. Το πρώτο είναι το στοιχειοσύνολο και το δεύτερο είναι ο μετρητής υποστήριξης (support count) Σύνολο υποψηφίων στοιχειοσύνολων όταν τα TIDs των εγγεγραμμένων δοσοληψιών που σχετίζονται με τα υποψήφια στοιχειοσύνολα Σύνολο συναλλαγών Εκτελεί τόσο ποσοστό αριθμό περασμάτων όσο το πλήθος των διαφορετικών αντικειμένων. Παρέχει στους χρήστες την ιδιότητα του τερματισμού υποσυνόλου, όπου κάθε υποσύνολο ενός συχνού στοιχειοσύνολου είναι επίσης συχνό. Τέλος, σε κάθε διαδοχική προσπέλασή του χρησιμοποιεί τα στοιχειοσύνολα του προηγούμενου περάσματος με στόχο να δημιουργηθούν καινούργια στοιχειοσύνολα. Τα στοιχειοσύνολα αυτά ονομάζονται υποψήφια (candidate itemsets) καθώς δεν γνωρίζουν την υποστήριξή τους και κατ επέκταση αν είναι συχνά (frequent). Για τον λόγο αυτόν μετριέται η υποστήριξή τους μέσω ενός περάσματος από τον αρχικό πίνακα. Το κλειδί σε όλη την διαδικασία είναι ότι σε κάθε βήμα γίνεται ένα μόνο πέρασμα από τον αρχικό 41 Προώθηση Προϊόντων με Χρήση Κανόνων Συσχέτησης

42 πίνακα. Στο τέλος του κάθε βήματος αποφασίζεται ποία στοιχειοσύνολα είναι συχνά ώστε να χρησιμοποιηθούν για το επόμενο βήμα. [Fayyad, 1996., Argawal, 1998] Το όνομα του αλγορίθμου οφείλεται στην εξής ιδιότητα, όπως αναφέρεται ο κ. Μιχάλης Βαζιργιάννης, «Κάθε υποσύνολο ενός συχνού itemset είναι επίσης συχνό». Επίσης, ισχύει και η αντιστροφή της παρακάτω ιδιότητας: «Υπάρχει τουλάχιστον ένα υποσύνολο ενός μη συχνού itemset που να είναι επίσης μη συχνό» [M. Χαλκίδη, 2005]. Δεδομένων αυτών των ιδιοτήτων μπορούμε να παράγουμε τα υποψήφια στοιχειοσύνολα από τα ήδη γνωστά συχνά στοιχειοσύνολα και μόνο. Απορρίπτοντας, έτσι ένα μεγάλο σύνολο από τα υποψήφια στοιχειοσύνολα και δεν υπολογίζουμε την υποστήριξή τους, καθώς είναι γνωστό εκ των προτέρων (a priori) ότι αυτά δεν πρόκειται να είναι συχνά. [M. Χαλκίδη, 2005., Dunham, 2004] Για όλα τα στοιχειοσύνολα που υπάρχουν σε ένα πίνακα θεωρούμε ότι υπάρχει μια διάταξη μεταξύ τους, για παράδειγμα λεξικογραφική. Μπορούμε ακόμα να αντικαταστήσουμε τα στοιχεία με φυσικούς αριθμούς ώστε η διάταξη να είναι περισσότερο προφανής. Τα στοιχεία που αποτελούν ένα στοιχειοσύνολο βρίσκονται αποθηκευμένα σε μια Βάση Δεδομένων με αυτή τη διάταξη. Έστω ένα k-itemset X, τότε θα χρησιμοποιούμε τον συμβολισμό Χ[1] Χ[2] Χ[k] για να δείξουμε ότι το στοιχειοσύνολο Χ αποτελείται από τα στοιχεία Χ[1], Χ[2],, Χ[k] για τα οποία ισχύει ότι Χ[1]<Χ[2]< <Χ[k]. Το σύνολο των συχνών (frequent ή large) k-itemsets θα συμβολίζεται με L k, ενώ το σύνολο των υποψηφίων (candidate) k-itemsets θα συμβολίζεται με C k. Φυσικά, ισχύει ότι το σύνολο C k είναι υπερσύνολο του L k, δηλαδή. 42 Κάθε στοιχειοσύνολο έχει, εκτός από τη λίστα με τα στοιχεία που περιέχει, και έναν μετρητή υποστήριξης (support count) που χρησιμοποιείται για να υπολογιστεί η υποστήριξή του. Ο μετρητής αυτός αρχικοποιείται στο μηδέν (0) και κάθε φορά που συναντάτε το συγκεκριμένο στοιχειοσύνολο σε ένα transaction του πίνακα τότε αυξάνεται κατά ένα (1). Κατά συνέπεια όταν εξεταστούν όλες οι σειρές του πίνακα η τιμή του μετρητή διαιρούμενη με το Μελέτη Περίπτωσης σε Κατάστημα με Καλλυντικά

43 πλήθος των σειρών του πίνακα δίνει την υποστήριξη του αντίστοιχου στοιχειοσύνολου. Παρακάτω, ακολουθεί ο αλγόριθμος Apriori σε μορφή ψευδοκώδικα (Σχήμα 2.1) : 1. L 1 = {large I-itemsets}; 2. For (k=2; L k-1 Ø; k++) do begin 3. C k = Apriori-gen(L k-1 ); // δημιουργία υποψηφίων 4. Forall transactions t D do begin 5. C t = subset(c k, t); // οι υποψήφιοι που περιέχονται στο t 6. For each candidates c C t do 7. c. count++; 8. end 9. L k = {c C k c. count minsup} 10. End 11. Return kl k ; Σχήμα Ψευδοκώδικας Apriori Όπως αναφέραμε και προηγουμένως στο πρώτο πέρασμα από τον πίνακα δοσοληψιών D βρίσκονται τα συχνά I-itemsets, μετρώντας πόσες φορές εμφανίζεται το κάθε στοιχείο και απομακρύνοντας αυτά που εμφανίζονται λιγότερο από το minsup (ελάχιστη υποστήριξη) φορές (εντολή 1). Κάθε επόμενο πέρασμα (εντολή 2), έστω το k πέρασμα, περιλαμβάνει δύο φάσεις. Η πρώτη φάση αφορά στην παραγωγή των υποψηφίων k-itemsets C k από τα συχνά (k-1)- itemsets L k που βρέθηκαν στο προηγούμενο πέρασμα. Για τον σκοπό αυτό χρησιμοποιείτε η συνάρτηση Apriori-gen (εντολή 3) που περιγράφεται παρακάτω. Η δεύτερη φάση αφορά στον υπολογισμό του support count για τα υποψήφια στοιχειοσύνολα. Για κάθε transaction (εντολή 4) βρίσκονται τα υποψήφια 43 Προώθηση Προϊόντων με Χρήση Κανόνων Συσχέτησης

44 στοιχειοσύνολα που περιέχονται σ αυτό (εντολή 5) και ο μετρητής αυξάνεται κατά 1 (εντολή 7). Το κρίσιμο σημείο στην δεύτερη αυτή φάση είναι ο γρήγορός υπολογισμός του συνόλου C t,των υποψηφίων δηλαδή που περιέχονται στη δοσοληψία t. Η συνάρτηση subset επιτυγχάνει αυτόν το σκοπό και περιγράφεται αναλυτικότερα στην συνέχεια. Στο τέλος του περάσματος υπολογίζεται το σύνολο L k (εντολή 9) απορρίπτοντας τα στοιχειοσύνολα του C k που δεν είναι συχνά. Ο αλγόριθμος επιστρέφει την ένωση όλων των στοιχειοσυνόλων (εντολή 11) λύνοντας έτσι το ζητούμενο πρόβλημα της εύρεσης κανόνων συσχέτισης. Έχοντας ως δεδομένο την ιδιότητα των συχνών στοιχειοσύνολων και τον αλγόριθμο Apriori-Gen, ο αλγόριθμος Apriori είναι σαφώς πιο κατανοητός για τους χρήστες της εξόρυξης δεδομένων. Ο αλγόριθμος Apriori προϋποθέτει ότι η Βάση Δεδομένων βρίσκεται στην μνήμη. Ο μέγιστος αριθμός των περασμάτων στην Βάση Δεδομένων είναι το πολύ κατά ένα μεγαλύτερος από το πλήθος του μεγαλύτερου συχνού στοιχειοσύνολου. Έτσι, αυτός ο αριθμός των περασμάτων της βάσης είναι και ένα από τα μειονεκτήματα της προσέγγισης Η ΣΥΝΑΡΤΗΣΗ APRIORI - GEN Η συνάρτηση Apriori-Gen, όπως περιγράφτηκε σε προηγούμενη ενότητα, πρέπει να παράγει τα υποψήφια k-itemsets από τα γνωστά (k-1)-itemsets. Έχει ως είσοδο το σύνολο L k-1 και ως έξοδο το σύνολο C k, ένα υπερσύνολο δηλαδή του L k, όπως έχει εξηγηθεί. Η συνάρτηση αποτελείται από δύο βήματα, το βήμα ένωσης (join-step) και το βήμα ξεκαθαρίσματος (prune-step) που περιγράφονται από τις εξής συναρτήσεις. 44 Στο πρώτο βήμα γίνεται η ένωση δύο (k-1)-itemsets που ανήκουν στο L k-1 και επιπλέον έχουν ακριβώς (κ-2) κοινά στοιχεία. Έτσι, θα προκύψει ένα Μελέτη Περίπτωσης σε Κατάστημα με Καλλυντικά

45 στοιχειοσύνολο, που θα αποτελείται από τα (k-2) κοινά στοιχεία και το μη κοινό στοιχείο από τα 2 (Κ-1)-itemsets, δηλαδή θα έχει σύνολο k στοιχεία. Στο επόμενο βήμα γίνεται χρήση της βασικής αρχής του αλγορίθμου Apriori. Κατά συνέπεια απορρίπτονται εκείνα τα στοιχειοσύνολα για τα οποία υπάρχει τουλάχιστον ένα (k-1) υποσύνολό τους που να μην ανήκει στο σύνολο L k-1 (πρόταση ισοδύναμη με την απαίτηση να υπάρχουν ακριβώς k μέλη του L k-1 στα στοιχειοσύνολα). Αυτό, γιατί, είναι a priori γνωστό ότι δεν είναι συχνά. [M. Χαλκίδη, 2005] Στο πρώτο βήμα μπορεί να γίνει και μια βελτίωση αν εκμεταλλευτούμε την διάταξη που έχουμε ορίσει στα στοιχεία. Χρησιμοποιώντας ορολογία από την γλώσσα SQL το βελτιωμένο join-step μπορεί να γραφτεί και ως εξής: Insert into C k Select X[1], X[2],,X[k-1], Y[k-1] From L K-1 X, L k-1 Y Where X[1]=Y[1],,X[k-2]=Y[k-2], X[k-1]<Y[k-1] Το σύνολο C k που υπολογίζεται με το τροποποιημένο πρώτο βήμα είναι πιο μικρό από το αντίστοιχο C k, υπολογίζεται πιο εύκολα λόγω της ύπαρξης της διάταξης και κατά συνέπεια επιταχύνει την όλη διαδικασία. Ως παράδειγμα μπορούμε να αναφέρουμε το εξής: Έστω ότι το L 3 περιέχει πέντε 3-itemsets L 3 ={{1 2 3}, {1 2 4}, {1 3 4}, {1 3 5}, {2 3 4}}. Τότε μετά το join-step θα έχουμε το εξής αποτέλεσμα C 4 ={{ }, { }}.Τέλος το prune-step θα διαγράψει το στοιχειοσύνολο { } επειδή το υποσύνολο του {1 4 5} δεν βρίσκεται στο L 3. Κατά συνέπεια το τελικό αποτέλεσμα θα είναι C 4 ={{ }} Η ΣΥΝΑΡΤΗΣΗ SUBSET Η συνάρτηση subset έχει αναλάβει το πιο δύσκολο έργο του αλγορίθμου. 45 Πρέπει να υπολογίσει για κάθε transaction ποιο είναι το υποσύνολο εκείνο του C k το οποίο αποτελείται από όλα τα στοιχειοσύνολα που περιέχονται στο Προώθηση Προϊόντων με Χρήση Κανόνων Συσχέτησης

46 εκάστοτε transaction. Θα πρέπει όμως να έχουμε υπόψη μας ότι για τον σκοπό αυτόν θα πρέπει τα υποψήφια στοιχειοσύνολα να αποθηκεύονται με τέτοιον τρόπο ώστε να επιταχύνεται η όλη διαδικασία. Τα υποψήφια στοιχειοσύνολα C k αποθηκεύονται σε ένα hash-tree (δέντρο κατακερματισμού). Ένα κόμβος του δέντρου αυτού περιέχει είτε μια λίστα από στοιχειοσύνολα, αν είναι κόμβος φύλλο, είτε έναν πίνακα κατακερματισμού (hash-table) αν πρόκειται για εσωτερικό κόμβο. Κάθε κόμβος (bucket) του πίνακα κατακερματισμού ενός εσωτερικού κόμβου δείχνει σε έναν άλλο κόμβο. Θεωρώντας ότι η ρίζα του hash-tree έχει βάθος 1, τότε ένας εσωτερικός κόμβος βάθους d δείχνει σε κόμβους βάθους d+1. Τα στοιχειοσύνολα επομένως αποθηκεύονται μόνο στα φύλλα, ενώ οι υπόλοιποι κόμβοι περιέχουν πληροφορία για το πώς θα αναζητηθούν τα στοιχειοσύνολα. [M. Χαλκίδη, 2005] Όταν προσθέτουμε ένα καινούργιο στοιχειοσύνολο, ξεκινάμε από την ρίζα και συνεχίζουμε διασχίζοντας το δέντρο μέχρι να φτάσουμε σε κάποιο φύλλο. Τότε σε εκείνο το φύλλο προθέτουμε το στοιχειοσύνολο στο σύνολο των στοιχειοσυνόλων που υπάρχουν ήδη αποθηκευμένα. Σε ένα εσωτερικό κόμβο βάθους d αποφασίζουμε πιο κλαδί του κόμβου θα ακολουθήσουμε εφαρμόζοντας τη συνάρτηση κατακερματισμού στο d-οστό στοιχείο του στοιχειοσύνολου. Όλοι οι κόμβοι αρχικά δημιουργούνται ως φύλλα. Όταν ο αριθμός των στοιχειοσυνόλων για ένα φύλλο ξεπεράσει ένα συγκεκριμένο αριθμό - κατώφλι τότε το φύλλο αυτό μετατρέπεται σε εσωτερικό κόμβο με τόσα φύλλα όσα τα buckets της συνάρτησης κατακερματισμού. Ως συνέπεια του τρόπου δημιουργία του hash-tree, αν το δέντρο αποθηκεύει τα υποψήφια k-itemsets, δηλαδή το C k, τότε θα έχει βάθος το πολύ k+1 (η μέγιστη διαδρομή θα περιλαμβάνει k hashtables και θα καταλήγει σε ένα φύλλο). [M. Χαλκίδη, 2005., U. Fayyad G. P.-S., 1996] ΜΙΑ ΠΑΡΑΛΛΑΓΗ ΣΤΟΝ ΑΛΓΟΡΙΘΜΟ Είναι δυνατόν να μετριέται η υποστήριξη των υποψηφίων με διαφορετικό μέγεθος με ένα πέρασμα. Όπως αναφέραμε και σε προηγούμενες ενότητες, ο αλγόριθμος Apriori υπολογίζει από το k-πέρασμα από τη Βάση Δεδομένων την Μελέτη Περίπτωσης σε Κατάστημα με Καλλυντικά

47 υποστήριξη των k-στοιχειοσυνόλων του συνόλου C k. Μπορούμε όμως να υπολογίσουμε την υποστήριξη των στοιχειοσυνόλων μεγαλύτερων από k παράγοντας τα σύνολα C * k+e γνωρίζοντας μόνο το σύνολο L k+1, αντί να παράγουμε το C k. Για παράδειγμα από το C k με εφαρμογή της συνάρτησης Apriori-gen προκύπτει το C * k+1 και με επιπλέον εφαρμογή της συνάρτησης στο νέο σύνολο προκύπτει το C * k+2. Τα σύνολα C * k+e για e θετικό είναι μεγαλύτερα από τα αντίστοιχα C k+e καθώς τα τελευταία προέρχονται απευθείας από τα αντίστοιχα L k+e-1. Η παραπάνω παραλλαγή εφαρμόζεται όταν το κόστος του να κρατάμε περισσότερα υποψήφια στοιχειοσύνολα αντισταθμίζεται από το γεγονός ότι δεν χρειάζεται να ξαναδιαβάσουμε τον αρχικό πίνακα για τα αμέσως επόμενα περάσματα. [M. Χαλκίδη, 2005.] 2.5 ΠΛΕΟΝΕΚΤΗΜΑΤΑ ΚΑΙ ΜΕΙΟΝΕΚΤΗΜΑΤΑ ΧΡΗΣΗΣ ΤΟΥ ΑΛΓΟΡΙΘΜΟΥ APRIORI Όπως όλοι οι αλγόριθμοι έτσι και ο αλγόριθμος Apriori έχει κάποια πλεονεκτήματα και κάποια μειονεκτήματα. Στην παράγραφο που ακολουθεί παρουσιάζονται κάποια πλεονεκτήματα και μειονεκτήματα. Πλεονεκτήματα: Αξιοποίηση ιδιότητας τερματισμού υποσυνόλου Εύκολα παραλληλοποιήσιμη Εύκολα υλοποιήσιμη Μειονεκτήματα: Υποθέτει ότι η Βάση Δεδομένων συναλλαγών είναι αποθηκευμένη στη μνήμη transaction. Απαιτεί πολλά σαρώματα στη Β.Δ. 47 Προώθηση Προϊόντων με Χρήση Κανόνων Συσχέτησης

48 2.6 ΑΛΓΟΡΙΘΜΟΣ APRIORITID Ο αλγόριθμος AprioriTID ακολουθεί την ίδια λογική με τον Apriori καθώς προτάθηκε στην ίδια εργασία των Argawal, Srikant [Argawal, 1994]. Η ουσιαστική διαφοροποίησή του είναι ότι ο πίνακας των δοσοληψιών D διαβάζεται μόνο μια φορά στην αρχή. Οι πληροφορίες που περιέχει ο πίνακας δοσοληψιών περιέχονται τώρα στον πίνακα. Κάθε εγγραφή του πίνακα αυτού είναι της μορφής <TID, {X k }>, όπου X k είναι ένα υποψήφιο k-itemset που περιέχεται στην δοσοληψία με αναγνωριστικό TID. Ο πίνακας είναι ουσιαστικά ο αρχικός πίνακας δοσοληψιών με τη διαφορά ότι κάθε στοιχείο i έχει αντικατασταθεί από το 1-itemsets {i}. για τις τιμές του k μεγαλύτερες του 1 ο πίνακας προκύπτει από το k βήμα του αλγορίθμου και κάθε εγγραφή του περιέχει στοιχειοσύνολα από το εκάστοτε σύνολο C k. [Argawal, 1994] Η χρησιμοποίηση του αντί του πίνακα δοσοληψιών παρουσιάζει καλύτερα αποτελέσματα για μεγαλύτερες τιμές του k. Το γεγονός αυτό οφείλεται στο ότι σιγά σιγά δοσοληψίες που δεν έχουν στοιχειοσύνολα δεν αναπαρίστανται στον. Επίσης κάθε εγγραφή του πίνακα γίνεται όλο και πιο μικρή από την αντίστοιχη του πίνακα δοσοληψιών D καθώς λιγότερα υποψήφια στοιχειοσύνολα παράγονται όσο το k μεγαλώνει. Στο σχήμα που ακολουθεί (σχήμα 2.2) δίνεται ο ψευδοκώδικας του αλγορίθμου. Παρατηρείται ότι η συνάρτηση subset δεν χρειάζεται πια καθώς δεν διαβάζεται ο πίνακας δοσοληψιών αλλά το. 48 Μελέτη Περίπτωσης σε Κατάστημα με Καλλυντικά

49 1. L 1 = {large I-itemsets}; 2. C 1 = database D; 3. For (k=2; L k-1 Ø; k++) do begin 4. C k = Apriori-gen(L k-1 ); // δημιουργία υποψηφίων 5. C k = 0; 6. Forall entries t do begin 7. // εύρεση των υποψηφίων που περιέχονται στην εγγραφή t 8. C t ={c C k (c-c[k]) t. Set_of_itemset (c c[k-1]) t. set_of_itemset 9. Forall candidates c C t do 10. c. count++; 11. if (C t 0) then += t. TID, C t ; 12. End 13. L k = {c C k c. count minsup} 14. End 15. Return kl k ; Σχήμα Ψευδοκώδικας Αλγορίθμου AprioriTID Η εντολή 7 είναι αυτή που αντικαθιστά την συνάρτηση subset. Το σύνολο C t προκύπτει ελέγχοντας για κάθε υποψήφιο k-itemset αν όλα τα (k-1) υποσύνολά του περιέχονται στην εγγραφή μελετάται. Υπενθυμίζεται ότι δεν είναι απόλυτα αναγκαίο να ελεγχθούν όλα τα υποσύνολα, αλλά μόνο τα δύο από τα οποία προέκυψε το k-itemset στο join-step της συνάρτησης Apriori-gen, όπως εξάλλου φαίνεται και τον ψευδοκώδικα. Μέσω ενός παραδείγματος γίνεται περισσότερο κατανοητή η λειτουργία του αλγορίθμου AprioriTID. Τα ενδιάμεσα καθώς και τα τελικά σύνολα των στοιχειοσυνόλων που προκύπτουν από την εφαρμογή του αλγορίθμου 49 Προώθηση Προϊόντων με Χρήση Κανόνων Συσχέτησης

50 παρουσιάζονται στην εικόνα 3 η σειρά με την οποία δημιουργούνται τα παρακάτω σύνολα είναι:. Επειδή ο αλγόριθμος AprioriTID έχει καλύτερα αποτελέσματα στα τελευταία περάσματα από ότι στα πρώτα, συνηθίζεται να χρησιμοποιείται ο Apriori για τις πρώτες επαναλήψεις. Ένας τέτοιος αλγόριθμος είναι ο AprioriHybrid που συνδυάζει τα πλεονεκτήματα και των δύο αλγορίθμων που παρουσιάστηκαν. Εικόνα 3 - Παράδειγμα: Αποτελέσματα χρήσης Αλγορίθμου AprioriTID 2.7 ΣΥΓΚΡΙΣΗ ΑΛΓΟΡΙΘΜΩΝ ΠΑΡΑΓΩΓΗΣ ΚΑΝΟΝΩΝ ΣΥΣΧΕΤΙΣΗΣ Όπως έχει αναφερθεί το πρόβλημα της παραγωγής κανόνων συσχέτισης ανάγεται στην εύρεση των συχνών στοιχειοσυνόλων, το οποίο όμως παραμένει εξαιρετικά μεγάλο ακόμα και με την εισαγωγή της ελάχιστης υποστήριξης. Ο 50 χώρος της εύρεσης των συχνών στοιχειοσυνόλων αναπαριστάται στο παρακάτω σχήμα για την απλή περίπτωση που έχουμε τέσσερα στοιχεία I ={1, 2, 3, 4}. Μελέτη Περίπτωσης σε Κατάστημα με Καλλυντικά

51 Η έντονη μαύρη γραμμή χωρίζει τον χώρο σε δύο τμήματα. Το πάνω τμήμα περιέχει τα συχνά στοιχειοσύνολα, ενώ το κάτω τμήμα περιέχει τα μη συχνά. Η ύπαρξη μιας και μόνο τέτοιας γραμμής οφείλεται αποκλειστικά και μόνο στην ιδιότητα του προς τα κάτω κλεισίματος, που εκμεταλλεύεται ο αλγόριθμος Apriori. Σύμφωνα με την ιδιότητα αυτή κάθε υποσύνολο ενός συχνού στοιχειοσύνολου είναι επίσης συχνό. Η επιλογή διαφορετικών τιμών για το minsup απλά μετακινεί τη γραμμή κατακόρυφα και πιθανώς αλλάζει το σχήμα της. Σχήμα Αναπαράσταση χώρου εύρεσης συχνών στοιχείων Οι διάφοροι αλγόριθμοι που έχουν προταθεί παρουσιάζουν το ίδιο κοινό χαρακτηριστικό και εφαρμόζουν το όριο minsup για να απορρίψουν στοιχειοσύνολα από το χώρο εύρεσής τους. Όσο πιο γρήγορα βρεθεί το όριο τόσο πιο γρήγορα ο αλγόριθμος θα μπορέσει να παράγει το σύνολο των συχνών στοιχειοσυνόλων.[han, 2000] Οι αλγόριθμοι εύρεσης των συχνών στοιχειοσυνόλων χρησιμοποιούν κυρίως μεθόδους επίσκεψης, όπως την κατά πλάτος αναζήτηση (Breadth-First 51 Προώθηση Προϊόντων με Χρήση Κανόνων Συσχέτησης

52 Search BFS) και την κατά βάθος αναζήτηση (Depth-First Search DFS). Με την πρώτη μέθοδο υπολογίζεται η υποστήριξη όλων των (k-1)- itemsets πριν υπολογιστεί η υποστήριξη των k-itemsets. Αντίθετα η δεύτερη μέθοδος χρησιμοποιεί αναδρομική επίσκεψη στο δέντρο μέχρι να βρεθεί κάποιο φύλλο. Ένας άλλος διαχωρισμός των αλγορίθμων είναι με βάση τον τρόπο με τον οποίο υπολογίζεται η υποστήριξη των υποψηφίων στοιχειοσυνόλων. Η μια μέθοδος είναι να μετριέται απευθείας από τον πίνακα δοσοληψιών πόσες φορές εμφανίζεται ένα συγκεκριμένο στοιχειοσύνολο. Για τον σκοπό αυτόν χρησιμοποιείται ένας μετρητής και δομές δεδομένων, όπως αυτές στον αλγόριθμο Apriori (hash-trees) για να αποθηκεύονται τα υποψήφια στοιχειοσύνολα. Η άλλη μέθοδος στηρίζεται στις τομές συνόλων (set intersections). Για κάθε στοιχειοσύνολο υπάρχει ένα σύνολο (tidlist) στο οποίο αποθηκεύονται τα TIDs (αναγνωριστικά των δοσοληψιών) των δοσοληψιών εκείνων που περιέχουν το συγκεκριμένο στοιχειοσύνολο BFS ΚΑΙ ΑΠΕΥΘΕΙΑΣ ΜΕΤΡΗΣΗ ΤΩΝ ΥΠΟΨΗΦΙΩΝ Χαρακτηριστικότεροι αλγόριθμοι αυτής της κατηγορίας είναι οι Apriori και AprioriTID που μελετήθηκαν σε προηγούμενες παραγράφους. Ένας άλλος αλγόριθμος που ανήκει στην κατηγορία αυτή είναι ο DIC (Dynamic Itemset Counting) [Brin, 1997]. Χαρακτηριστικό αυτού του αλγορίθμου είναι ότι μόλις ένα στοιχειοσύνολο ξεπεράσει το όριο για το minsup, ο αλγόριθμος παράγει υποψήφιους που προέρχονται από αυτό, χωρίς να μετρήσει μέχρι τέλους την υποστήριξη του στοιχειοσύνολου. Για το σκοπό αυτό χρησιμοποιείται ένα δέντρο με τα προθέματα (prefix tree). Το δέντρο αυτό διαφέρει από το hash-tree του Apriori καθώς σε κάθε κόμβο αποθηκεύεται ένα ακριβώς στοιχειοσύνολο. Κάθε κόμβος δείχνει σε κόμβους που περιέχουν στοιχειοσύνολα που έχουν το ίδιο πρόθεμα με το στοιχειοσύνολο του κόμβου πατέρα. 52 Μελέτη Περίπτωσης σε Κατάστημα με Καλλυντικά

53 2.7.2 BFS ΚΑΙ ΤΟΜΗ ΣΥΝΟΛΩΝ ΑΠΟ TID Στην κατηγορία αυτή ανήκει ο αλγόριθμος Partition [Savasere 1995]. Ο αλγόριθμος αυτός μοιάζει με τον Apriori, αλλά υπολογίζει την υποστήριξη των στοιχειοσυνόλων με βάση τις λίστες από TIDs που αποθηκεύονται για κάθε στοιχειοσύνολο. Το πρόβλημα που σχετίζεται με τους αλγορίθμους αυτής της κατηγορίας είναι ότι οι λίστες με τα TIDs (tidlists) πιάνουν πολύ χώρο, ιδιαίτερα αν αναλογιστεί κάποιος ότι πρέπει να κρατηθούν τα tidlists όλων των τιμών των (k-1)-itemsets ώστε να υπολογιστούν οι λίστες των k- itemsets. Το πρόβλημα αυτό λύνει ο αλγόριθμος Partition κάνοντας αυτό που υποδηλώνει το όνομά του. Χωρίζει τον αρχικό πίνακα σε υποπίνακες έτσι ώστε όλες οι λίστες με TIDS που θα προκύψουν να χωρούν στην κύρια μνήμη του συστήματος. Το επιπλέον κόστος είναι ότι αφού ανακαλυφθούν τα τοπικά συχνά στοιχειοσύνολα πρέπει να γίνει ένα τελευταίο διάβασμα του πίνακα έτσι ώστε να βρεθούν τα ολικά συχνά στοιχειοσύνολα. Ισχύει η αρχή ότι για να είναι ένα στοιχειοσύνολα συχνό σε ολόκληρο τον πίνακα πρέπει να είναι συχνό σε τουλάχιστον ένα από τας τμήματά του (partitions) DFS ΚΑΙ ΑΠΕΥΘΕΙΑΣ ΜΕΤΡΗΣΗ ΤΩΝ ΥΠΟΨΗΦΙΩΝ Η κατηγορία αυτή περιέχει αλγορίθμους στους οποίους μετριέται η υποστήριξη, με διάβασμα του πίνακα δοσοληψιών, των υποψηφίων εκείνων μόνο που ανήκουν σε έναν κόμβο του δέντρου. Ένας αποτελεσματικός αλγόριθμος της κατηγορίας αυτής είναι ο FP- growth [Han, 2000]. Ο αλγόριθμος αυτός στο πρώτο βήμα παράγει ένα δέντρο FP- tree (Frequent Pattern Tree) που αντικαθιστά τον πίνακα δοσοληψιών. Στο δέντρο αυτό περιέχονται μόνο τα συχνά 1-itemsets και είναι φτιαγμένο ώστε οι κόμβοι με τα πιο συχνά στοιχειοσύνολα να βρίσκονται ψηλά και να έχουν κατά συνέπεια τους περισσότερους συνδέσμους. Στη συνέχεια δημιουργούνται conditional FP-trees από υποσύνολα του αρχικού πίνακα και η διαδικασία συνεχίζεται αναδρομικά. 53 Προώθηση Προϊόντων με Χρήση Κανόνων Συσχέτησης

54 2.7.4 DFS ΚΑΙ ΤΟΜΗ ΣΥΝΟΛΩΝ ΑΠΟ TID Στην περίπτωση που χρησιμοποιούμε κατά βάθος αναζήτηση στο δέντρο κλάσεων τα σύνολα από TIDs κρατούνται μόνο για τα στοιχειοσύνολα που βρίσκονται στο μονοπάτι από την ρίζα μέχρι τον κόμβο που εξετάζουμε. Κατά συνέπεια ο χωρισμός του πίνακα σε τμήματα (βλ. αλγόριθμο Partition) δεν είναι απαραίτητος καθώς το κόστος σε μνήμη είναι μικρότερο. Ο Eclat ανήκει σε αυτήν την κατηγορία [Zaki, 1997]. Επιπλέον χρησιμοποιεί το χαρακτηριστικό των γρήγορων τομών, σύμφωνα με το οποίο μια τομή διακόπτεται αμέσως μόλις είναι βέβαιο ότι το στοιχειοσύνολο που προκύπτει δεν έχει ελάχιστη υποστήριξη (minimum support). 2.8 ΠΡΟΗΓΜΕΝΕΣ ΤΕΧΝΙΚΕΣ ΔΗΜΙΟΥΡΓΙΑΣ ΚΑΝΟΝΩΝ ΣΥΣΧΕΤΙΣΗΣ Στα πλαίσια της ενότητας αυτής αναπτύσσονται διάφοροι τρόποι που αναπτύχθηκαν για να βοηθήσουν στην δημιουργία διάφορων κανόνων συσχετίσεων ΓΕΝΙΚΕΥΜΕΝΟΙ ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΕΩΝ Στους γενικευμένους κανόνες συσχέτισης χρησιμοποιούμε μια ιεραρχία εννοιών, η οποία παρουσιάζει την συσχέτιση στο σύνολο των εννοιών μεταξύ των διάφορων στοιχείων. Έτσι, οι γενικευμένοι κανόνες μπορούν να επιτρέπουν την δημιουργία κανόνων στα διάφορα επίπεδα της ιεραρχίας (Σχήμα 2.5). Ένας γενικευμένος κανόνας συσχέτισης (generalized association rule), Χ Υ, ορίζεται όπως και ένας απλός, συνηθισμένος κανόνας συσχέτισης. Όμως, υπάρχει και ένας περιορισμός, οποίος τον διαφοροποιεί από τον απλό κανόνα και αναφέρεται ότι κανένα στοιχείο του Υ δεν μπορεί να είναι πάνω (στην ιεραρχία) 54 από ένα στοιχείο του Χ. Όταν δημιουργούμε γενικευμένους κανόνες συσχέτισης όλοι οι κανόνες δημιουργούνται χρησιμοποιώντας κυρίως μία ή και περισσότερες δεδομένες ιεραρχίες. Μελέτη Περίπτωσης σε Κατάστημα με Καλλυντικά

55 Έχουν προταθεί διάφοροι αλγόριθμοι για την δημιουργία γενικευμένων κανόνων όμως ο απλούστερος είναι να επεκτείνουμε κάθε συναλλαγή προσθέτοντας (για κάθε στοιχείο σε αυτή) όλα τα στοιχεία που υπάρχουν πάνω από αυτό σε οποιαδήποτε ιεραρχία. Σχήμα 2.4 Ιεραρχία Εννοιών ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΕΩΝ ΠΟΛΛΑΠΛΩΝ ΕΠΙΠΕΔΩΝ Μια παραλλαγή των γενικευμένων κανόνων είναι οι κανόνες συσχέτισης πολλαπλών επιπέδων (multiple-level association rules). Με τους κανόνες πολλαπλών επιπέδων μπορούμε να εμφανίζουμε τα στοιχειοσύνολα σε όποια ιεραρχία επιθυμούμε. Για να επιτευχθεί αυτό το μόνο που χρειάζεται είναι να χρησιμοποιήσουμε μία παραλλαγή του αλγόριθμου Apriori (βλέπε Κεφάλαιο 2.4.3), έτσι ώστε να διασχίζεται, η ιεραρχία εννοιών, με έναν τρόπο από πάνω προς τα κάτω- για να δημιουργηθούν τα συχνά στοιχειοσύνολα. Η τροποποίηση των βασικών κανόνων συσχέτισης μπορεί να μεταβάλλεται ανάλογα με τις απαιτήσεις των προβλημάτων. Κυρίως, υπάρχει μεγάλη υποστήριξη για τα στοιχειοσύνολα που βρίσκονται στα υψηλά επίπεδα της ιεραρχίας των εννοιών. Έτσι, η ελάχιστη υποστήριξη που απαιτούν οι κανόνες συσχέτισης μπορεί να είναι διαφορετική ανάλογα πάντα με το επίπεδο της ιεραρχίας. Με απλά λόγια, για την έννοια της ελάχιστης υποστήριξης 55 Προώθηση Προϊόντων με Χρήση Κανόνων Συσχέτησης

56 δημιουργούνται κάποιοι κανόνες που θα πρέπει να ακολουθούνται. Οι κανόνες αυτοί είναι: [Dunham,2004] Η ελάχιστη υποστήριξη θα πρέπει να είναι ίδια για όλους τους κόμβους της ιεραρχίας στο ίδιο επίπεδο. Αν α i είναι η ελάχιστη υποστήριξη για το επίπεδο i στην ιεραρχία και α i -1 είναι η ελάχιστη υποστήριξη για το επίπεδο i-1, τότε α i -1> α i ΠΟΣΟΤΙΚΟΙ ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΕΩΝ Ένας ποσοτικός κανόνας συσχέτισης (quantitative association rule) είναι ένας κανόνας που περιλαμβάνει κατηγορικά και αριθμητικά δεδομένα. Ένα παράδειγμα ενός ποσοτικού κανόνα είναι: ένας πελάτης που αγοράζει ένα ποτό από 30$ μέχρι 50$ το μπουκάλι αγοράζει επίσης χαβιάρι. Όπου, διαφέρει από τον παραδοσιακό κανόνα συσχέτισης, όπως είναι: ένας πελάτης αγοράζει κρασί αγοράζει επίσης χαβιάρι. Η βασική προσέγγιση, για να βρεθούν ποσοτικοί κανόνες συσχετίσεων, βρίσκεται στον αλγόριθμο Apriori, που χρησιμοποιείται για να δημιουργήσει τα συχνά στοιχειοσύνολα. Όμως, εκτός από τον αλγόριθμο Apriori μπορούμε να χρησιμοποιήσουμε οποιοδήποτε άλλον αλγόριθμο ίδιου τύπου με τον Apriori ΚΑΝΟΝΕΣ ΠΟΛΛΑΠΛΩΝ ΤΙΜΩΝ ΕΛΑΧΙΣΤΗΣ ΥΠΟΣΤΗΡΙΞΗΣ Σε μεγάλες Βάσεις Δεδομένων, οι οποίες περιέχουν πολλά διαφορετικά δεδομένα, η χρήση μιας ελάχιστης τιμής για υποστήριξη δημιουργεί πολλά προβλήματα. Αυτό δημιουργείται επειδή διαφορετικά δεδομένα συμπεριφέρονται με διαφορετικούς τρόπους στην ίδια ελεγχόμενη κατάσταση. Οι χρήστες των κανόνων πολλαπλών τιμών θεωρούν ότι εάν λαμβάνουμε ένα κατώφλι υποστήριξης με ένα γνώρισμα με δύο τιμές είναι πιο εύκολο από αν λαμβάνουμε 56 ένα κατώφλι με ένα γνώρισμα, το οποίο έχει εκατοντάδες τιμές. Αυτό, γίνεται επειδή μπορεί να μη λειτουργήσει σωστά η χρήση της μιας τιμής υποστήριξης για όλους τους κανόνες συσχέτισης, με αποτέλεσμα να χαθούν μερικοί χρήσιμοι κανόνες συσχέτισης. Μελέτη Περίπτωσης σε Κατάστημα με Καλλυντικά

57 Σε αυτή την τεχνολογία υπάρχει ένα πρόβλημα το οποίο ονομάζεται: το πρόβλημα των σπάνιων στοιχείων (rare item problem). Δημιουργείται όταν υπάρχουν διαμερίσεις με μικρό αριθμό τιμών, όπου θα δημιουργούν χαμηλότερες υποστηρίξεις από εκείνες με μεγάλο αριθμό τιμών, καθώς και όταν χρησιμοποιούμε μεγαλύτερες υποστηρίξεις, όπου χάνουμε κάποιους κανόνες που είναι άξιας προσοχής. Με πολύ απλά λόγια, αν η ελάχιστη υποστήριξη καθορίζεται υψηλή, τότε πολλοί κανόνες που θα δημιουργηθούν δεν θα μπορούν να συνδέονται με στοιχεία που εμφανίζονται σπάνια. Ενώ αν η ελάχιστη υποστήριξη είναι ορισμένη χαμηλά, τότε θα δημιουργηθούν πάρα πολλοί κανόνες, από τους οποίους πολλοί δεν θα είναι σημαντικοί, κυρίως για τα στοιχεία που είναι συχνά. Για την επίλυση του προβλήματος έχουν δημιουργηθεί πολλές προτάσεις. Μια προσέγγιση είναι να διαμερίζονται τα δεδομένα με βάση την υποστήριξη και να δημιουργούνται κανόνες συσχετίσεων για κάθε διαμέριση ξεχωριστά. Μια δεύτερη προσέγγιση αναφέρεται στην ομαδοποίηση των σπάνιων στοιχείων και να δημιουργούνται κανόνες συσχέτισης για αυτές τις ομαδοποιήσεις. Ενώ, τέλος, ο συνδυασμός συσταδοποίησης και κανόνων συσχετίσεων είναι μια προσέγγιση για την επίλυση του προβλήματος στην τεχνική των κανόνων πολλαπλών τιμών ελάχιστης υποστήριξης. Η επίλυση αυτή αναφέρεται στην ομαδοποίηση των δεδομένων της Βάσης Δεδομένων με βάση κάποια κριτήρια συσταδοποίησης και έπειτα στην δημιουργία κανόνων συσχετίσεων για κάθε συστάδα ξεχωριστά ΚΑΝΟΝΕΣ ΣΤΑΤΙΣΤΙΚΗΣ ΣΥΣΧΕΤΙΣΗΣ Ένας κανόνας στατιστικής συσχέτισης (correlation rule) ορίζεται σαν ένα σύνολα από στοιχειοσύνολα τα οποία σχετίζονται στατιστικά. Το κυρίως κίνητρο για την ανάπτυξή τους είναι οι αρνητικές συσχετίσεις που μπορούν να είναι πολύ χρήσιμες. Οι αρνητικές συσχετίσεις μας λένε ότι αν η πιθανότητα να αγοράσεις δύο στοιχεία μαζί είναι μεγάλη, τότε η πιθανότητα να αγοράσεις ένα από τα δύο στοιχεία χωρίς να αγοράσεις το άλλο είναι μεγαλύτερη. Η συσχέτιση ικανοποιεί 57 την προς τα πάνω κλειστότητα στο δικτυωτό πλέγμα των υποσυνόλων. Έτσι, αν Προώθηση Προϊόντων με Χρήση Κανόνων Συσχέτησης

58 τα στοιχεία ενός συνόλου συσχετίζονται μεταξύ τους, το ίδιο θα συμβαίνει και με καθένα υποσύνολό του. [Dunham,2004] 2.9 ΑΥΞΗΤΙΚΟΙ ΚΑΝΟΝΕΣ ΣΥΣΧΕΤΙΣΗΣ Μέχρι τώρα μιλήσαμε για αλγόριθμους που πρέπει να διαθέτουν μια Βάση Δεδομένων, η οποία θα πρέπει να είναι στατική (να μην μεταβάλλεται κάθε φορά από αλλαγές στοιχείων ή από πρόσθεση στοιχείων). Με όλους τους αλγόριθμους που αναλύσαμε, η δημιουργία κανόνων συσχέτισης για μια καινούργια κατάσταση στην Βάση Δεδομένων, απαιτεί ένα ολόκληρο τρέξιμο του εκάστοτε αλγόριθμου. Έχουν προτείνει διάφορες προσεγγίσεις, για να επιλυθεί το ζήτημα της διατήρησης των κανόνων συσχέτισης καθώς αλλάζει η Βάση Δεδομένων. Οι περισσότερες προσεγγίσεις μας λέμε πώς να αντιμετωπίσουμε το ζήτημα του πώς θα αντιμετωπίσουμε την μεταβολή των κανόνων συσχέτισης καθώς προσθέτονται νέα δεδομένα στην Βάση Δεδομένων. Αυτές, οι προσεγγίσεις αυξητικής ενημέρωσης (incremental updating) εστιάζουν στον καθορισμό συχνών στοιχειοσυνόλων για το D db όπου D είναι η κατάσταση της Βάσης Δεδομένων και db είναι οι ενημερώσεις σε αυτήν και όπου τα συχνά στοιχειοσύνολα για το D, L, είναι γνωστά. Μια αυξητική προσέγγιση, γρήγορη ενημέρωση (fast update FUP), βασίζεται στον αλγόριθμο Apriori. Κάθε επανάληψη, k, κάνει ένα πέρασμα του db και του D με υποψήφιους που δημιουργήθηκαν από προηγούμενη επανάληψη k-1, με βάση τα συχνά στοιχειοσύνολα σε εκείνο το πέρασμα. Επιπλέον χρησιμοποιούμε σα μέρος του συνόλου των υποψηφίων για το πέρασμα k το L k που βρέθηκε στο D. Η διαφορά είναι ο αριθμός των υποψηφίων που εξετάζονται σε κάθε επανάληψη μειώνεται μέσω της περικοπής των υποψηφίων. Η περικοπή βασίζεται στην ιδιότητα των συχνών στοιχειοσυνόλων, όπου ένα στοιχειοσύνολο 58 πρέπει να είναι συχνό σε μία τουλάχιστον από τις διαμερίσεις της Βάσης Δεδομένων. Μελέτη Περίπτωσης σε Κατάστημα με Καλλυντικά

59 Σαν είσοδο για κάθε πέρασμα k, χρησιμοποιούμε το L k και τους μετρητές για κάθε στοιχειοσύνολο L k. Όταν ένας μετρητής για κάθε στοιχείο του L k βρεθεί στην db, αυτόματα γνωρίζουμε το κατά πόσο είναι συχνό σε ολόκληρη την Βάση Δεδομένων χωρίς να κάνουμε την σάρωση στο D. επιπλέον, δεν χρειάζεται να μετρήσουμε κάποια από τα στοιχεία του L k κατά την διάρκεια του περάσματος της db. Εάν αυτά έχουν ένα υποσύνολο το οποίο δεν είναι συχνό σε ολόκληρη την Βάση Δεδομένων. [Dunham,2004] 2.10 ΜΕΤΡΗΣΗ ΤΗΣ ΠΟΙΟΤΗΤΑΣ ΤΩΝ ΚΑΝΟΝΩΝ Η υποστήριξη και η εμπιστοσύνη είναι οι συνηθέστεροι μέθοδοι μέτρησης κανόνων που χρησιμοποιούνται για να μετρηθεί η ποιότητα ενός κανόνα συσχέτισης. Και Όμως, υπάρχουν και κάποια προβλήματα για τις μεθόδους μέτρησης κανόνων. Όπως για παράδειγμα ο κανόνας μέτρησης, κανόνων συσχέτισης, εμπιστοσύνης, δεν την ενδιαφέρει καθόλου η πιθανότητα P(B). Ένας κανόνας, μπορεί να έχει είτε υψηλή είτε χαμηλή υποστήριξη και εμπιστοσύνη αλλά μπορεί να είναι ένας προφανής κανόνας συσχέτισης. Δηλαδή, μπορεί κάποιος κανόνας να μην μας προκαλεί έκπληξη γιατί δεν έχει στην πραγματικότητα μεγάλο ενδιαφέρον για τους χρήστες. Έτσι, δημιουργούνται και άλλες έννοιες, όπως η έκπληξη και το ενδιαφέρον, που βοηθούν στην αξιολόγηση της ποιότητας και της χρησιμότητας των κανόνων συσχέτισης. Η χρησιμότητα των κανόνων συσχέτισης που ανακαλύπτονται, μπορεί να συνδέεται με την ποσότητα της έκπληξης, η οποία με την σειρά της συνδέεται με τους κανόνες ή μπορεί να συνδέεται με το πώς αυτοί οι κανόνες αποκλείονται 59 από τους προηγούμενους γνωστούς κανόνες συσχέτισης. Σε αυτή την περίπτωση η έκπληξη αποτελεί ένα μέτρο αλλαγής των συσχετίσεων μεταξύ των στοιχείων και Προώθηση Προϊόντων με Χρήση Κανόνων Συσχέτησης

60 στο πέρασμα του χρόνου. Με απλά λόγια, όταν ένας κανόνας συσχέτισης σε μια πραγματική στιγμή μειωνόταν σημαντικά θα ήταν μία μεγάλη έκπληξη για τους χρήστες, ενώ θα είχε ακόμα το ενδιαφέρον των χρηστών ακόμα και όταν η εμπιστοσύνη του κανόνα μειωνόταν. Τέλος, έχει δημιουργηθεί και μία ακόμα τεχνική μέτρησης των κανόνων συσχέτισης. Η τεχνική αυτή ονομάζεται το τεστ του χ τετραγώνου για την ανεξαρτησία. Προτάθηκε για την χρήση με τους κανόνες στατιστικής συσχέτισης και είναι κατανοητό κυρίως από στατιστικής μεριάς αφού χρησιμοποιείται από την στατιστική για αρκετό καιρό. Αντίθετα με τις τεχνικές μέτρησης της υποστήριξης και της εμπιστοσύνης, το τεστ χ τετραγώνου για την ανεξαρτησία, λαμβάνει υπόψη και την παρουσία αλλά και την απουσία των στοιχείων σε ένα σύνολο. Κυρίως χρησιμοποιείται για να δείξει στους χρήστες πόσο η μέτρηση ενός στοιχειοσύνολου, που είναι ένας πιθανός κανόνας συσχέτισης, μπορεί για να διαφέρει από μία αναμενόμενη μέτρηση. Η διαφορά μεταξύ της υποστήριξης και της εμπιστοσύνης με το τεστ χ τετραγώνου είναι ότι στην πρώτη περίπτωση οι τιμές που υπάρχουν είναι αυθαίρετες και πρέπει να επιλεχθούν για να βρεθούν ποιοι κανόνες έχουν ενδιαφέρον, ενώ στην δεύτερη περίπτωση οι τιμές που υπάρχουν είναι κατανοητές προς τους χρήστες με την χρήση πινάκων και δείχνουν τις κρίσιμες τιμές που πρέπει να χρησιμοποιηθούν για τον καθορισμό των συσχετίσεων ανάμεσα στα στοιχεία. Παραδείγματός χάριν, η στατική χ τετραγώνου μπορεί να υπολογιστεί με τον ακόλουθο τρόπο: Υποθέτουμε ότι έχουμε ένα σύνολο στοιχείων I={I 1,I 2,,I m }, επειδή, όμως, ενδιαφερόμαστε και για τον εάν θα εμφανιστεί ένα στοιχείο και για το εάν δεν εμφανιστεί, μια συναλλαγή t j μπορεί να θεωρηθεί σαν tj {I 1, 1 }*{I 2, 2 }*.*{I m, m } 60 Δεδομένου οποιουδήποτε πιθανού στοιχειοσύνολου Χ, αυτό επίσης θεωρείται σαν ένα υποσύνολο ενός Καρτεσιανού γινόμενου. Η στατική χ τετραγώνου υπολογίζεται στη συνέχεια για το Χ σαν Μελέτη Περίπτωσης σε Κατάστημα με Καλλυντικά

61 Εδώ Ο(Χ) είναι η μέτρηση του αριθμού των συναλλαγών οι οποίες περιέχουν τα στοιχεία του Χ. για ένα στοιχείο I i, η αναμενόμενη τιμή είναι, η μέτρηση του αριθμού των συναλλαγών οι οποίες περιέχουν I i.. Η αναμενόμενη τιμή Ε[Χ] υπολογίζεται υποθέτοντας ανεξαρτησία και έτσι υπολογίζεται σαν Όπου n είναι το πλήθος των συναλλαγών ΒΙΒΛΙΟΓΡΑΦΙΚΕΣ ΑΝΑΦΟΡΕΣ A. Silberschatz, H.,. (2002). Data System Concepts. McGraw Hill. Agrawal, R. G. (1998). Automatic Subspace Clustering of High Dimetional Data for Data Mining Applications. in Proceedings of the ACM SIGMOD Conference on Management of Data. Argawal, R. S. (1994). Fast algorithms for mining association rules. Chile: VLDB Conference. Brin, S. M. (1997). Dynamic itemset counting and implication rules for market basket data. ACM Conference. Chen, M.-S. H. (1996, December). Data Mining: An overview from a Database Perspetive. IEEE Transactions on Knowledge and Data Engineering, No 6 (Vol. 8). Dunham, M. H. (2004). Data Mining Introductory and Advanced Topics. Prentice Hall. Fayyad, U. M.-S. (1996). Advances in Knowledge Duscovery and data Mining. AAAI Press. Han, J. P. (2000). Mining frequent parrents without candidate ganeration. Texas: ACM SIGMOD. 61 Προώθηση Προϊόντων με Χρήση Κανόνων Συσχέτησης

62 Kamber, J. H. (2004). Data Mining Concepts and Techniques. Kumar, V. (2005). Introduction to Data Mining. Petkoic, D. (2000). Οδηγός του SQL Server Μ. Γκιούρδας. Savasere, A. O. (September 1995). An efficient algorithm for mining asssociation rules in large databases. Zurich: VLDB. U. Fayyad, G. P.-S. (1996). Advances in Knowledge Discovery and Data Mining Workshops on Knowledge Discovery in Databases. U. Fayyad, G. P.-S. (1999). Advances in Knowledge Discovery and Data Mining International Conferences on Knowledge Discovery in Databases and Data Mining. Zaki, M. P. (1997). New algorithms for fast discovery of association rules. California: KDD. Μ. Χαλκίδη, Μ. Β. (2005). Εξόρυξη γνώσης από Βάσεις Δεδομένων και τον Παγκόσμιο Ιστό. Αθήνα: Τυπωθήτω. Νίκος, Τ. (n.d.). Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης. Κανόνες συσχέτισης. (Τ. Νίκος, Επιμ.) Πίτουρα, Ε. (2009). Εξόρυξη Δεδομένων - Άνοιξη Ανάκτηση Ιούνιος 2010, από 62 Μελέτη Περίπτωσης σε Κατάστημα με Καλλυντικά

63 ΚΕΦΑΛΑΙΟ 3 Ο ΕΙΣΑΓΩΓΗ Weka (Waikato Environment for Knowledge Analysis) είναι η πιο δημοφιλής προγραμματιστική σουίτα για την μηχανική μάθηση, γραμμένη σε Java. Αναπτύχθηκε στο πανεπιστήμιο του Waikato στην Νέα Ζηλανδία. Είναι ένα ελεύθερο πρόγραμμα, όπως ορίζει η GNU (General Public License)[Δημόσια Γενική Άδεια]. Στα πλαίσια της παρούσας πτυχιακής αναλύεται μια Βάση Δεδομένων, η οποία περιέχει δεδομένα από ένα κατάστημα καλλυντικών ειδών. Αναπτύσσεται όλη η διαδικασία ανάλυσης και εύρεσης κανόνων συσχέτισης, ώστε να βρεθούν σωστή και ισχυροί κανόνες για να υπάρξει μια καλύτερη προώθηση των προϊόντων αυτών Στο κεφάλαιο αυτό περιγράφονται ένα προς ένα τα βήματα για την εύρεση των κανόνων συσχέτισης, για την Βάση Δεδομένων που χρησιμοποιούμε για ανάλυση. 3.1 ΑΝΑΛΥΣΗ ΤΟΥ WEKA Το Weka περιέχει μια συλλογή από εργαλεία οπτικοποίησης και αλγορίθμους για την ανάλυση των δεδομένων και μοντέλα προβλέψεων, σε συνδυασμό με γραφικές διεπαφές χρήστη για την εύκολη πρόσβαση και 63 λειτουργικότητα. Η αρχική μη Java έκδοση του Weka ήταν η TCL/TK (γλώσσα Προώθηση Προϊόντων με Χρήση Κανόνων Συσχέτησης

64 δέσμης εργασιών) για την, ως επί το πλείστον από τρίτους, μοντελοποίηση αλγορίθμων που εφαρμόζονταν σε άλλες γλώσσες προγραμματισμού, καθώς και ένα MakeFile με βάση το σύστημα για την εκτέλεση της μηχανικής μάθησης σε πειράματα. Αυτή η πρωτότυπη έκδοση είχε αρχικά σχεδιαστεί ως εργαλείο για την ανάλυση δεδομένων από το γεωργικό τομέα, αλλά η πιο πρόσφατη πλήρως Javabased έκδοση Weka, για την οποία η ανάπτυξή της ξεκίνησε από το 1997, χρησιμοποιείται σήμερα σε πολλές διαφορετικές εφαρμογές και τομείς, ιδίως για εκπαιδευτικούς σκοπούς και την έρευνα. Τα πλεονεκτήματα του Weka είναι: Η ελεύθερη διαθεσιμότητα υπό την GNU General Public License Η Φορητότητα: επειδή εφαρμόζει πλήρως την γλώσσα προγραμματισμού Java και με αυτό τον τρόπο μπορεί να τρέξει σε οποιαδήποτε σύγχρονη υπολογιστική πλατφόρμα Η ευκολία στην χρήση από έναν αρχάριο, λόγω της γραφικής διεπαφής του χρήστη (graphical user interfaces) H ύπαρξη μιας ολοκληρωμένης συλλογής από αλγορίθμους προεπεξεργασίας και τεχνικές μοντελοποίησης. 64 Το Weka υποστηρίζει πολλά πρότυπα εξόρυξης δεδομένων όπως είναι η ομαδοποίηση, η ταξινόμηση, η οπισθοδρόμηση, η απεικόνιση και η επιλογή χαρακτηριστικών γνωρισμάτων. Όλες οι τεχνικές του Weka βασίζονται στο ότι τα δεδομένα είναι διαθέσιμα ως ένα ενιαίο επίπεδο αρχείο, όπου κάθε σημείο δεδομένων περιγράφεται με έναν σταθερό αριθμό χαρακτηριστικών (κατά κανόνα αριθμητικά ή ονομαστικά χαρακτηριστικά, αλλά και κάποια άλλα είδη χαρακτηριστικών). Τέλος, το Weka παρέχει πρόσβαση σε SQL Βάσεις Δεδομένων που χρησιμοποιούν Java Database Connectivity και μπορεί να επεξεργαστεί τα αποτελέσματα που επιστρέφονται από ένα ερώτημα της Βάσης Δεδομένων. Από την άλλη το Weka δεν είναι ικανό να επεξεργαστεί πολύ-σχεσιακές σχέσεις, αλλά όμως μπορεί μέσω ενός ξεχωριστού λογισμικού να μετατρέψει μια Μελέτη Περίπτωσης σε Κατάστημα με Καλλυντικά

65 συλλογή από συνδεδεμένους πίνακες Βάσεων Δεδομένων σε ένα ενιαίο πίνακα που είναι κατάλληλος για την μεταποίηση μέσω του Weka. Η κύρια διεπαφή του χρήστη για το Weka είναι το Explorer, αλλά την ίδια λειτουργικότητα μπορεί να την προσεγγίσει και μέσω της διεπαφής ροής γνώσης και από την γραμμή εντολών. Υπάρχει επίσης ο πειραματιστής, ο οποίος επιτρέπει τη συστηματική σύγκριση των επιδόσεων των προβλέψεων της μηχανής μάθησης των αλγορίθμων Weka. 3.2 Η ΔΙΕΠΑΦΗ EXPLORER Η διεπαφή Explorer έχει πολλούς και διαφορετικούς τρόπους χρήσης, που δίνουν πρόσβαση σε κύρια συστατικά του Weka (βλ. εικόνα 3.1): Η καρτέλα Preprocess (Προεπεξεργασίας) παρέχει την δυνατότητα να εισάγει δεδομένα από μία Βάση Δεδομένων, από ένα CSV αρχείο (αρχείο με δεδομένα χωρισμένα με κόμμα), και να προεπεξεργάζεται τα δεδομένα, πριν υποστούν κάποια άλλη επεξεργασία, χρησιμοποιώντας ένα φίλτρο. Τα φίλτρα αυτά μπορούν να χρησιμοποιηθούν για τον μετασχηματισμό των στοιχείων (π.χ. μετατρέποντας αριθμητικά χαρακτηριστικά σε διακριτά) και τέλος να καταστούν δυνατή την διαγραφή κάποιων στοιχείων σε περιπτώσεις ή και ιδιότητες, σύμφωνα πάντα με κάποια κριτήρια. Η καρτέλα Classify (Ταξινόμηση) επιτρέπει στον χρήστη να εφαρμόζει τακτικές αλγορίθμων ταξινόμησης και παλινδρόμησης (αδιακρίτως ονομάζονται ταξινομητές στο Weka) σε ένα σύνολο δεδομένων, με εκτίμηση της ακρίβειας του προκύπτοντος μοντέλου πρόβλεψης, καθώς και την οπτικοποίηση λανθασμένης πρόβλεψης με την χρήση καμπυλών ή το ίδιο το μοντέλο, αν αυτό μπορεί να αποτελέσει αντικείμενο απεικόνισης, όπως π.χ. ένα δέντρο απόφασης. Η καρτέλα Associate (Συσχέτιση) παρέχει πρόσβαση σε εκπαιδευόμενους κανόνες συσχέτισης που προσπαθούν να προσδιορίσουν όλες τις σημαντικές 65 αλληλεξαρτήσεις μεταξύ των χαρακτηριστικών των δεδομένων. Προώθηση Προϊόντων με Χρήση Κανόνων Συσχέτησης

66 Η καρτέλα Cluster (Σύμπλεγμα - Ομαδοποίηση) δίνει στον χρήστη την δυνατότητα να χρησιμοποιήσει τις τεχνικές ομαδοποίησης του Weka, π.χ. την χρήση του αλγορίθμου ομαδοποίησης σε σχέση με τους κοντινότερους γείτονες (kmeans). Υπάρχει ακόμα και η εφαρμογή του αλγορίθμου μεγιστοποίησης της προσδοκίας για την εκμάθηση μείγματος κανονικών κατανομών. Η καρτέλα «Επιλογή Χαρακτηριστικών» (Select Attributes) ορίζει αλγορίθμους για τον εντοπισμό των πιο χρήσιμων χαρακτηριστικών σε ένα σύνολο δεδομένων. Τέλος, η καρτέλα Απεικόνιση (Visualize) δείχνει μια matrix γραφική παράσταση, όπου τα ατομικά διαγράμματα διασποράς μπορούν να επιλεγούν, να διευρυνθούν αλλά και να αναλυθούν περαιτέρω, με την χρήση διαφόρων φορέων επιλογής. Εικόνα Η διεπαφή χρήστη Explorer 66 Μελέτη Περίπτωσης σε Κατάστημα με Καλλυντικά

67 3.3 ΑΝΑΛΥΣΗ ΒΑΣΗΣ ΔΕΔΟΜΕΝΩΝ ΚΑΤΑΣΤΗΜΑΤΟΣ ΚΑΛΛΥΝΤΙΚΩΝ Σε αυτή την ενότητα παρουσιάζεται και αναλύεται η Βάση δεδομένων για ένα κατάστημα με ειδή περιποίησης προσώπου και άλλων διαφόρων καλλυντικών προϊόντων, (ανάλυση του καλαθιού αγορών ). Για την ανάλυση της Βάσης Δεδομένων θα χρησιμοποιήσουμε το πρόγραμμα Weka. Μια εταιρεία καλλυντικών προϊόντων διαθέτει μια Βάση Δεδομένων, την οποία την χρησιμοποιεί στις συναλλαγές της με τους πελάτες, και θέλει να την χρησιμοποιήσει για να διαπιστώσει αν υπάρχουν κάποια συσχετίσεις αγοράς προϊόντων, έτσι ώστε με την βοήθειά τους να διαμορφώσει των χώρο για την καλύτερη τοποθέτηση και δημιουργία προτάσεων αγοράς, για τους πελάτες της, σε πραγματικό χρόνο. (Recommendation system Σύστημα Πρότασης Αγοράς) Η Βάση Δεδομένων της αποτελείται από δεκατέσσερα (14) χαρακτηριστικά/προϊόντα και 1000 συναλλαγές. Στην περίπτωση αυτή, έχουμε πολλές συναλλαγές και κατά συνέπεια υπάρχουν και σημεία μη αγοράς κάποιων προϊόντων, που μπορούν να οδηγήσουν στην παραγωγή κανόνων συσχέτισης που δεν θα έχουν κανένα απολύτως νόημα. Έτσι, κατά την μετατροπή της βάσης σε αρχείο του Weka θα πρέπει να προσέξουμε τις λεπτομέρειες αυτές, καθώς και την σωστή δήλωση των προϊόντων. Στο παρακάτω σχήμα βλέπουμε τη δήλωση των χαρακτηριστικών, καθώς και τις τιμές που μπορούν να πάρουν τα χαρακτηριστικά: την τιμή ένα (1) για αγορά του προϊόντος και όταν το προϊόν δεν το αγοράζει ο πελάτης παίρνει σαν τιμή το λατινικό ερωτηματικό (?) το οποίο δηλώνει έλλειψη. Όπως, παρατηρούμε υπάρχουν κάποιοι ειδικοί χαρακτήρες που θα πρέπει να εισάγουμε για να δημιουργηθεί το αρχείο Weka. Θα πρέπει να εισάγουμε κάθε χαρακτηριστικό με την ενώ τα δεδομένα της Βάσης εισάγονται με την βοήθεια της Τέλος, υπάρχουν και τα νούμερα από το ένα (1) έως το χίλια (1.000), που δηλώνουν τον αύξοντα των εγγραφών της Βάσης Δεδομένων. Αυτό, το χαρακτηριστικό, που είναι αριθμητικό, θα πρέπει κατά την ανάλυση της Βάσης Δεδομένων να μην το συμπεριλάβουμε, διότι δεν παρέχει κάποια πληροφορία σχετικά με την αγορά των προϊόντων. 67 Προώθηση Προϊόντων με Χρήση Κανόνων Συσχέτησης

68 @relation tid numeric % Δήλωση του ονόματος του arff αρχείου (Weka αρχείο) % Το πεδίο αυτό καταγράφει τον αύξοντα αριθμό των παραδειγμάτων στη Bag Blush Nail_Polish Brushes Concealer Eyebrow_Pencils Bronzer {1} % Τα χαρακτηριστικά της Lip_Liner Mascara Eye_Shadow Foundation Lip_Gloss Lipstick Eyeliner 1,?,1,1,1,1,?,1,1,1,?,?,?,?,1 2,?,?,1,?,1,?,1,1,?,?,1,1,?,? 3,?,1,?,?,1,1,1,1,1,1,1,1,1,? 4,?,?,1,1,1,?,1,?,?,?,1,?,?,1 % Οι τιμές που παίρνουν τα χαρακτηριστικά της ΒΔ ,1,1,?,?,1,?,?,?,1,1,?,?,1,1 % Με 1 έχει αγοραστεί, ενώ με? 1000,?,?,?,?,1,?,1,1,?,1,?,?,?,1 όχι. Σχήμα Αρχείο Weka Μελέτη Περίπτωσης σε Κατάστημα με Καλλυντικά

69 Όπως, αναφέρθηκε και στα προηγούμενα κεφάλαια για την δημιουργία κανόνων συσχέτισης χρησιμοποιούμε τον Αλγόριθμο Apriori. Ο αλγόριθμος αυτός βρίσκεται στην καρτέλα Associate, της διεπαφής χρήστη Explorer ΑΝΑΛΥΣΗ ΑΠΟΤΕΛΕΣΜΑΤΩΝ APRIORI Έχοντας δημιουργήσει το αρχείο Weka με βάση τα Δεδομένα που έχουμε και έχοντας αφαιρέσει τα στοιχεία που δεν μας προσφέρουν κάποια σημαντική πληροφορία, για την δημιουργία των κανόνων συσχέτισης. Εικόνα 3.2 Weka GUI Genetic Object Editor Για αλλαγή χαρακτηριστικών Apriori Έπειτα θα πρέπει να επιλέξουμε από το πεδίο του associator τον Apriori. Εκεί από το πεδίο choose θα επιλέξουμε τις προεπιλεγμένες τιμές των φίλτρων του αλγορίθμου από τον Weka.GUI.GenericObjectEditor της διεπαφής χρήστη Explorer. (βλ. Εικόνα 3.2). Εκεί βλέπουμε ότι η τιμή της εμπιστοσύνης (minmetric) είναι 0.9 και η τιμή της υποστήριξης (lowerboundminsupport) είναι 0.1. επίσης, παρατηρούμε και πόσους κανόνες θα υπολογίσει ο αλγόριθμους, οι οποίοι θα είναι δέκα (10) στο σύνολο. 69 Εκτελώντας τον αλγόριθμο καταλήγουμε στα εξής αποτελέσματα για ανάλυση και επιλογή των καλύτερων κανόνων συσχέτισης. Προώθηση Προϊόντων με Χρήση Κανόνων Συσχέτησης

Δείτε περισσότερα