Data Mining: Στοχεύοντας στους σωστούς πελάτες
To CRM front-office πελατών Οι Προμηθευτές Οι Πελάτες ΟΟργανισμός
Τροφοδότηση ενεργειών Μάρκετινγκ ΒΙ
Απόταδεδομέναστηγνώση Επιχειρηματική Γνώση Επιχειρηματικοί Κανόνες Μετα- Δεδομένα Δομή Βάσης Δεδομένων Συγκεντρωτικά Δεδομένα (Λειτουργικά ή Επιχειρησιακά) Επιχειρησιακά ή Λειτουργικά Δεδομένα Τι μάθαμε από τα δεδομένα Λογική δομή δεδομένων και συσχετισμοί με φυσική δομή και πηγές Φυσική δομή δεδομένων, πίνακες, πεδία, κλειδιά Ομαδοποιήσεις κατά ποιος, τι, πότε, πού Ποιος, τι, πότε, πού Όγκος δεδομένων
Από την υπεροπληροφόρηση στην υποστήριξη διοικητικών αποφάσεων Από την υπερπληροφόρηση στην αποτελεσματική πληροφόρηση & Στήριξη των Αποφάσεων της Διοίκησης
Επιχειρηματικά Δεδομένα Το 80% των επιχειρηματικών δεδομένων είναι αδόμητα!!! Το σύνολο των δεδομένων αυτών διπλασιάζεται κάθε 6 8 μήνες!!!
Σχέση Αξίας Πληροφορίας / Όγκου Δεδομένων - Κόστος Κόστος Αξία 100% Αρχείων
Ανάγκες πληροφόρησης - πρόσβαση Ανάγκες Πληφορόρησης Δυνατότητες Πρόσβασης Προγραμματιστές Προγραμματιστές Αναλυτές Αναλυτές Managers Managers
Η συνολική εικόνα ενός συστήματος ΒΙ Τοπικές Βάσεις Βάσεις Κεντρικών Συστημάτων Βάσεις Τρίτων Ποιοτική Αναβάθμιση δεδομένων Λογισμικό Επικοινωνιών DATA WAREHOUSE Σχεδιασμός Ενοποίηση Επιλογή Συγχρονισμός Συντονισμός Warehouse database Διαχείριση Αξιοποίηση Πληροφοριών End User Queries Multidimensional G.I.S. Data Mining
Επιχειρηματική ευφυΐα (Business Intelligence BI) Αποθήκη πληροφοριών (Data warehouse) Αποθήκη πληροφοριών υποστηρικτικών διοικητικών αποφάσεων Η ακεραιότητα των δεδομένων επιτυγχάνεται με επιχειρηματικούς κανόνες Εφαρμογή ενιαίας διαμόρφωσης πληροφοριών Πηγή πληροφοριών (Data mart) Αποθήκη για συγκεκριμένους καταναλωτές Εξειδικευμένη ανάλυση δεδομένων Ανάλυση δεδομένων (Reporting, OLAP, GIS, Data mining) Ανάλυση για τάσεις, προβλέψεις πωλήσεων, διαχείριση αποθεμάτων Εντοπίζει προβλήματα, αναπτύσσει την έρευνα, συλλέγει και αναλύει δεδομένα
Extract Transform Load Τοπικές Βάσεις Βάσεις Κεντρικών Συστημάτων Βάσεις Τρίτων Ποιοτική Αναβάθμιση δεδομένων Λογισμικό Επικοινωνιών DATA WAREHOUSE Σχεδιασμός Ενοποίηση Επιλογή Συγχρονισμός Συντονισμός Warehouse database Διαχείριση Αξιοποίηση Πληροφοριών End User Queries Multidimensional G.I.S. Data Mining
Από τα πρωτογενή δεδομένα
Στη Σχεσιακή Βάση Δεδομένων
Από το Σχεσιακό στο Πολυδιάστατο Μοντέλο
Οι διαστάσεις
Τα πεδία τιμών
OLAP Reporting Τοπικές Βάσεις Βάσεις Κεντρικών Συστημάτων Βάσεις Τρίτων Ποιοτική Αναβάθμιση δεδομένων Λογισμικό Επικοινωνιών DATA WAREHOUSE Σχεδιασμός Ενοποίηση Επιλογή Συγχρονισμός Συντονισμός Warehouse database Διαχείριση Αξιοποίηση Πληροφοριών End User Queries Multidimensional G.I.S. Data Mining
Ανά Γεωγραφική Περιοχή και Κλάδο της Οικονομίας
Αγροτικά Προϊόντα-Ζωοτροφές Εισηγμένες
Ανά Αντικείμενο και Γεωγραφία
Εξόρυξη Δεδομένων (Data Mining)
Τι σημαίνει εξόρυξη δεδομένων Επιχειρηματικά Δεδομένα Δένδρο Απόφασης
Ορισμός εξόρυξης δεδομένων ΕΔ είναι η διερεύνηση και η ανάλυση μεγάλων ποσοτήτων πρωτογενών δεδομένων, με σκοπό την αποκάλυψη συγκεκριμένων δομών και σχέσεων ανάμεσά τους. Στόχος η βελτίωση του ανταγωνιστικού πλεονεκτήματος της επιχείρησης. Επίσης ΕΔ είναι ένα «σύνολο τεχνικών» για την ανάλυση μεγάλου όγκου δεδομένων.
Γιατί Εξόρυξη Δεδομένων; Όγκος των διαθέσιμων δεδομένων είναι πολύ μεγάλος (εκατομμύρια εγγραφές) Όλες οι επιχειρήσεις έχουν οικονομική πρόσβαση σε σημαντικών δυνατοτήτων Η/Υ Αύξηση των πιέσεων του ανταγωνισμού ανταγωνιστικά πλεονεκτήματα βραχύβια και σχετικά Διαθεσιμότητα τεχνολογικών υποδομών και λογισμικού
Επιχειρηματικά προβλήματα και εξόρυξη δεδομένων Ανάλυση αποχωρήσεων (churn analysis) γιατί φεύγουν οι πελάτες, τι θα τους κρατήσει; ; (π.χ.( κινητή τηλεφωνία) Σταυροειδείς πωλήσεις (cross-selling) selling) τι άλλο πιθανόν να αγόραζε ο πελάτης; ; (π.χ.( βιβλία Αmazon) Ανίχνευση απάτης (fraud detection) ποιες περιπτώσεις μπορεί να εμπεριέχουν δόλο; ; (π.χ.( δηλώσεις ασφαλιστικών) Διαχείριση κινδύνων (risk management) τι κινδύνους εμπεριέχει μια επιχειρηματική απόφαση; ; (π.χ.( έγκριση δανείου) Τμηματοποίηση πελατών (customer segmentation) τι κοινά χαρακτηριστικά έχουν οι πελάτες; ; (π.χ.( στόχευση υποψηφίων πιστωτικών καρτών) Στόχευση διαφημίσεων τι διαφημίσεις να βάλουμε στο web με βάση τις συνήθειες πλοήγησης και αγορών των πελατών; Προβλέψεις πωλήσεων (sales forecast) τι θα πουληθεί ανά μονάδα χρόνου στο μέλλον;
Βασικός Διαχωρισμός συστημάτων ΕΔ Κατευθυνόμενα (Directed) Στόχος η εξήγηση ή πρόβλεψη ή κατηγοριοποίηση συγκεκριμένης μεταβλητής μάρκετινγκ όπως ανταπόκριση σε άμεσες πωλήσεις ή διαθέσιμο εισόδημα ή συχνότητα παραγγελιών (ονομάζονται μεταβλητές στόχευσης). Ελεύθερα (Undirected) Στόχος η αποκάλυψη δομών ή ομοιοτήτων ή σχέσεων στα δεδομένα, χωρίς εκ των προτέρων χρήση κριτηρίων ή προκαθορισμένων δομών (π.χ. ηλικίες, φύλο).
Κατηγοριοποίηση συστημάτων εξόρυξης δεδομένων Ταξινόμηση (classification) Ομαδοποίηση (clustering) ή κατάτμηση (segmentation) Συσχετισμός (association) ή ανάλυση καλαθιού μάρκετινγκ Παλινδρόμηση (regression) Πρόβλεψη (forecasting) Ανάλυση ακολουθίας (sequence analysis) Ανάλυση αποκλίσεων (deviation analysis)
Ομαδοποίηση (clustering) ή κατάτμηση (segmentation) Χρησιμοποιείται για να εντοπίσει φυσικές ομαδοποιήσεις που βασίζονται σε ένα σύνολο χαρακτηριστικών. Περιπτώσεις στην ίδια ομάδα έχουν συνήθως κοινά χαρακτηριστικά. Ο αλγόριθμος είναι μη εποπτευόμενος (unsupervised) εφ όσον στη διαδικασία εκπαίδευσης δεν επιλέγεται μια μεταβλητή, αλλά όλες οι μεταβλητές αντιμετωπίζονται ισότιμα. Οι περισσότεροι αλγόριθμοι βασίζονται σε ένα σύνολο επαναλήψεων (iterations) και σταματούν όταν το μοντέλο συγκλίνει (converges), δηλαδή όταν τα σύνολα κάθε ομαδοποίησης γίνουν διακριτά. Για το λόγο αυτό, οι μεθοδολογίες ομαδοποίησης αναπτύχθηκαν σημαντικά μετά τα τέλη της δεκαετίας του 60, με τη χρήση των main frames.
Ομαδοποίηση (clustering) ή κατάτμηση (segmentation) Η πραγματικότητα είναι κάπως έτσι: Την εξήγηση των τμημάτων (cluster) πρέπει να τη δώσει ο ερευνητής
Ομαδοποιήσεις (Clustering) Τοπικές Βάσεις Βάσεις Κεντρικών Συστημάτων Βάσεις Τρίτων Ποιοτική Αναβάθμιση δεδομένων Λογισμικό Επικοινωνιών DATA WAREHOUSE Σχεδιασμός Ενοποίηση Επιλογή Συγχρονισμός Συντονισμός Warehouse database Διαχείριση Αξιοποίηση Πληροφοριών End User Queries Multidimensional G.I.S. Data Mining
1 η Ομαδοποίηση Εξαγωγικές- Εισαγωγικές-Προσωπικό
Ομάδες (10 & 11 ενδιαφέρουν)
Ομάδα 11 Στατιστικά «Ισχυρές» Μεταβλητές
Ουσιαστικά 5 ομαδοποιήσεις
2 η Ομαδοποίηση + Κλάδος + Περιφέρεια
Επιστροφή δεδομένων στο Excel
Εμπλουτισμός (πρόσθετες πληροφορίες) - Φιλτράρισμα
Τροφοδότηση στο CRM ΒΙ
Συσχετισμός (association) ή ανάλυση καλαθιού μάρκετινγκ Ονομάζεται έτσι γιατί η σημαντικότερη χρήση του είναι για την εκτίμηση των κυριοτέρων προϊόντων που πουλιούνται στο ίδιο καλάθι αγορών και ως εκ τούτου για την εκτίμηση επιχειρηματικών κανόνων με στόχο τη σταυροειδή πώληση (cross selling). Η διαδικασία του συσχετισμού στοχεύει (1) να εντοπίσει συχνές ομάδες επαναλαμβανόμε- νων πωλήσεων και (2) κανόνες συσχετισμού. Ο αλγόριθμος βρίσκει τα πλέον κοινά είδη μετά από πολλαπλές επαναλήψεις, με βάση το όριο συχνότητας (frequency threshold / support) που ορίζει ο χρήστης (π.χ. ένα όριο 2% σημαίνει ότι θα επιλεγούν μόνο τα είδη που είναι κοινά στο 2% του συνόλου των καλαθιών αγοράς). Κάθε ομάδα ειδών χαρακτηρίζεται από την τιμή του πλήθους των κοινών ειδών (π.χ.. 3 σημαίνει ότι βρέθηκαν 3 είδη κοινά στο 2% του συνόλου των καλαθιών αγοράς). Επίσης ο αλγόριθμος υπολογίζει κανόνες (π.χ. εάν κάποιος πελάτης αγοράσει μαζί τα είδη Α και Β τότε υπάρχει 80% πιθανότητα να αγοράσει και το είδος Γ).
Συσχετισμός (Association) Τοπικές Βάσεις Βάσεις Κεντρικών Συστημάτων Βάσεις Τρίτων Ποιοτική Αναβάθμιση δεδομένων Λογισμικό Επικοινωνιών DATA WAREHOUSE Σχεδιασμός Ενοποίηση Επιλογή Συγχρονισμός Συντονισμός Warehouse database Διαχείριση Αξιοποίηση Πληροφοριών End User Queries Multidimensional G.I.S. Data Mining
Αποτέλεσμα έρευνας αγοράς
Δημοφιλείς ταινίες
Ισχυροί συσχετισμοί (όσοι έχουν δει ΙΙΙ, συνήθως έχουν δει ΙΙ και 4)
Πλήθος αγορών
Στατιστική ισχύς συσχετισμών
Επιλογή πελατών βάσει κανόνα
Ομαδοποίηση των αποτελεσμάτων
Φιλτράρισμα αποτελεσμάτων
Τροφοδότηση στο CRM ΒΙ
Προβλήματα ευρύτερης αποδοχής Αποκλειστικά περιβάλλοντα (proprietary) με μικρές δυνατότητες ευρύτερης αξιοποίησης (έμφαση σε αλγορίθμους λόγω στατιστικού υπόβαθρου, ανυπαρξία APIs) Απευθύνονται σε αναλυτές με ισχυρό στατιστικό και μαθηματικό υπόβαθρο Περιορισμένη γνώση της τεχνολογίας από την αγορά Οι αλγόριθμοι πολύ γενικοί, οι κανόνες που προκύπτουν συχνά άπτονται της κοινής λογικής Έλλειψη standards. Γίνονται προσπάθειες (OLE DB for DM, XML / A for Analysis, ISO SQL MM, OMG CWM Common Warehouse Metadata)
Ο κύκλος ζωής ενός έργου εξόρυξης δεδομένων 1. Συλλογή δεδομένων 2. Καθαρισμός και μετατροπή δεδομένων 1. Μετατροπή μορφής δεδομένων 2. Μετατροπή συνεχών αριθμών (π.χ. περιορισμός σε εύρος τιμών) 3. Ομαδοποίηση σε λίγες διακριτές ομάδες 4. Δημιουργία συνόλων (aggregation) 5. Διαχείριση κενών τιμών (π.χ. αντικατάσταση με Μ.Ο. ή εκτίμηση) 6. Αφαίρεση περιθωριακών τιμών (outliers) 3. Δημιουργία μοντέλου επιλογή βέλτιστου αλγόριθμου 4. Αξιολόγηση ποιότητας μοντέλου (lift charts) επιχειρηματική αξία (ίσως να χρειασθεί νέος κύκλος επιστροφή στο βήμα 2) 5. Δημιουργία αναφορών (ευρήματα αξιολόγηση) 6. Προβλέψεις με βάση νέες περιπτώσεις (prediction scoring) 7. Ολοκλήρωση ευρημάτων στην επιχειρηματική εφαρμογή 8. Διαχείριση μοντέλου
Υπεροχή DM έναντι άλλων τεχνολογιών αξιοποίησης δεδομένων Τι συμβαίνει; Γιατί συμβαίνει;