Η συνολική εικόνα Τοπικές Βάσεις Βάσεις Κεντρικών Συστημάτων Βάσεις Τρίτων Ποιοτική Αναβάθμιση δεδομένων Λογισμικό Επικοινωνιών DATA WAREHOUSE Σχεδιασμός Ενοποίηση Επιλογή Συγχρονισμός Συντονισμός Warehouse database Διαχείριση Αξιοποίηση Πληροφοριών End User Queries Multidimensional G.I.S. Data Mining
Απόταδεδομέναστηγνώση Επιχειρηματική Γνώση Επιχειρηματικοί Κανόνες Μετα- Δεδομένα Δομή Βάσης Δεδομένων Συγκεντρωτικά Δεδομένα (Λειτουργικά ή Επιχειρησιακά) Επιχειρησιακά ή Λειτουργικά Δεδομένα Τι μάθαμε από τα δεδομένα Λογική δομή δεδομένων και συσχετισμοί με φυσική δομή και πηγές Φυσική δομή δεδομένων, πίνακες, πεδία, κλειδιά Ομαδοποιήσεις κατά ποιος, τι, πότε, πού Ποιος, τι, πότε, πού Όγκος δεδομένων
Τι σημαίνει εξόρυξη δεδομένων Επιχειρηματικά Δεδομένα Δένδρο Απόφασης
Ορισμός εξόρυξης δεδομένων ΕΔ είναι η διερεύνηση και η ανάλυση μεγάλων ποσοτήτων πρωτογενών δεδομένων, με σκοπό την αποκάλυψη συγκεκριμένων δομών και σχέσεων ανάμεσά τους. Στόχος η βελτίωση του ανταγωνιστικού πλεονεκτήματος της επιχείρησης. Επίσης ΕΔ είναι ένα «σύνολο τεχνικών» για την ανάλυση μεγάλου όγκου δεδομένων.
Γιατί Εξόρυξη Δεδομένων; Όγκος των διαθέσιμων δεδομένων είναι πολύ μεγάλος (εκατομμύρια εγγραφές) Όλες οι επιχειρήσεις έχουν οικονομική πρόσβαση σε σημαντικών δυνατοτήτων Η/Υ Αύξηση των πιέσεων του ανταγωνισμού ανταγωνιστικά πλεονεκτήματα βραχύβια και σχετικά Διαθεσιμότητα τεχνολογικών υποδομών και λογισμικού
Επιχειρηματικά προβλήματα και εξόρυξη δεδομένων Ανάλυση αποχωρήσεων (churn analysis) γιατί φεύγουν οι πελάτες, τι θα τους κρατήσει; ; (π.χ.( κινητή τηλεφωνία) Σταυροειδείς πωλήσεις (cross-selling) selling) τι άλλο πιθανόν να αγόραζε ο πελάτης; ; (π.χ.( βιβλία Αmazon) Ανίχνευση απάτης (fraud detection) ποιες περιπτώσεις μπορεί να εμπεριέχουν δόλο; ; (π.χ.( δηλώσεις ασφαλιστικών) Διαχείριση κινδύνων (risk management) τι κινδύνους εμπεριέχει μια επιχειρηματική απόφαση; ; (π.χ.( έγκριση δανείου) Τμηματοποίηση πελατών (customer segmentation) τι κοινά χαρακτηριστικά έχουν οι πελάτες; ; (π.χ.( στόχευση υποψηφίων πιστωτικών καρτών) Στόχευση διαφημίσεων τι διαφημίσεις να βάλουμε στο web με βάση τις συνήθειες πλοήγησης και αγορών των πελατών; Προβλέψεις πωλήσεων (sales forecast) τι θα πουληθεί ανά μονάδα χρόνου στο μέλλον;
Βασικός Διαχωρισμός συστημάτων ΕΔ Κατευθυνόμενα (Directed) Directed) Στόχος η εξήγηση ή πρόβλεψη ή κατηγοριοποίηση συγκεκριμένης μεταβλητής μάρκετινγκ όπως ανταπόκριση σε άμεσες πωλήσεις ή διαθέσιμο εισόδημα ή συχνότητα παραγγελιών (ονομάζονται μεταβλητές στόχευσης). Ελεύθερα (Undirected) Στόχος η αποκάλυψη δομών ή ομοιοτήτων ή σχέσεων στα δεδομένα, χωρίς εκ των προτέρων χρήση κριτηρίων ή προκαθορισμένων δομών (π.χ. ηλικίες, φύλο).
Κατηγοριοποίηση συστημάτων εξόρυξης δεδομένων Ταξινόμηση (classification) Ομαδοποίηση (clustering) ή κατάτμηση (segmentation) Συσχετισμός (association) ή ανάλυση καλαθιού μάρκετινγκ Παλινδρόμηση (regression) Πρόβλεψη (forecasting) Ανάλυση ακολουθίας (sequence analysis) Ανάλυση αποκλίσεων (deviation analysis)
Ταξινόμηση (classification) Συνήθως επιλύει προβλήματα όπως ανάλυσης αποχωρήσεων (churn analysis), διαχείρισης κινδύνων (risk management) και στόχευσης. Επιλύει μια μεταβλητή στόχευσης (target attribute) σαν συνάρτηση των υπολοίπων μεταβλητών εισόδου. Βασίζεται σε ιστορικά στοιχεία όπου φαίνεται η επίδραση των μεταβλητών εισόδου στην μεταβλητή στόχευσης. Ουσιαστικά το σύστημα εκπαιδεύεται από τα ιστορικά στοιχεία και είναι εποπτευόμενο (supervised) Τυπικοί αλγόριθμοι ταξινόμησης είναι τα δένδρα αποφάσεων (decision trees), τα νευρωνικά δίκτυα (neural networks) και Naïve Bayes μοντέλα πιθανοτήτων.
Ταξινόμηση (classification) Τα Δέντρα Αποφάσεων εκφράζουν «κανόνες» και ταξινομούν τον σχετικά ανομοιογενή πληθυσμό σε μικρότερες, ομοιογενής ομάδες, στη βάση μίας μεταβλητής στόχου (π.χ. είναι αγοραστής δεν είναι αγοραστής). Οι κανόνες αυτοί μπορούν να αποδοθούν με απλά ελληνικά, π.χ. ΕΑΝ Ηλικία < 25 και Φύλο = Άνδρας και Χρήση Πιστωτικής = Όχι, ΤΟΤΕ Αγοραστής = ΟΧΙ.
Ταξινόμηση (classification) Τα ακόλουθα είναι παραδείγματα επιτυχημένης και αποτυχημένης ταξινόμησης.
Ταξινόμηση (classification) Πλεονεκτήματα των Δέντρων Αποφάσεων Εύκολη η κατανόησή τους Όμορφη γραφική απεικόνιση των επιχειρηματικών κανόνων Όχι ιδιαίτερες προϋποθέσεις για τα πρωτογενή δεδομένα Μπορούν να αναλυθούν τόσο μεταβλητές λόγου όσο και ονοματικές Μειονεκτήματα των Δέντρων Αποφάσεων Η μεταβλητή στόχος πρέπει να είναι ονοματική (categorical) Περιορίζονται σε μία μεταβλητή στόχο Οι σχετικοί αλγόριθμοι έχουν αποδειχθεί ασταθείς Δέντρα αποφάσεων στηριζόμενα σε αριθμητικά δεδομένα (μεταβλητές λόγου) μπορεί να είναι ιδιαιτέρως πολύπλοκα.
Ομαδοποίηση (clustering) ή κατάτμηση (segmentation) Χρησιμοποιείται για να εντοπίσει φυσικές ομαδοποιήσεις που βασίζονται σε ένα σύνολο χαρακτηριστικών. Περιπτώσεις στην ίδια ομάδα έχουν συνήθως κοινά χαρακτηριστικά. Ο αλγόριθμος είναι μη εποπτευόμενος (unsupervised) εφ όσον στη διαδικασία εκπαίδευσης δεν επιλέγεται μια μεταβλητή, αλλά όλες οι μεταβλητές αντιμετωπίζονται ισότιμα. Οι περισσότεροι αλγόριθμοι βασίζονται σε ένα σύνολο επαναλήψεων (iterations) και σταματούν όταν το μοντέλο συγκλίνει (converges), δηλαδή όταν τα σύνολα κάθε ομαδοποίησης γίνουν διακριτά. Για το λόγο αυτό, οι μεθοδολογίες ομαδοποίησης αναπτύχθηκαν σημαντικά μετά τα τέλη της δεκαετίας του 60, με τη χρήση των main frames.
Ομαδοποίηση (clustering) ή κατάτμηση (segmentation) Η πραγματικότητα είναι κάπως έτσι: Την εξήγηση των τμημάτων (cluster) πρέπει να τη δώσει ο ερευνητής
Συσχετισμός (association) ή ανάλυση καλαθιού μάρκετινγκ Ονομάζεται έτσι γιατί η σημαντικότερη χρήση του είναι για την εκτίμηση των κυριοτέρων προϊόντων που πουλιούνται στο ίδιο καλάθι αγορών και ως εκ τούτου για την εκτίμηση επιχειρηματικών κανόνων με στόχο τη σταυροειδή πώληση (cross selling). Η διαδικασία του συσχετισμού στοχεύει (1) να εντοπίσει συχνές ομάδες επαναλαμβανόμε- νων πωλήσεων και (2) κανόνες συσχετισμού. Ο αλγόριθμος βρίσκει τα πλέον κοινά είδη μετά από πολλαπλές επαναλήψεις, με βάση το όριο συχνότητας (frequency threshold / support) που ορίζει ο χρήστης (π.χ. ένα όριο 2% σημαίνει ότι θα επιλεγούν μόνο τα είδη που είναι κοινά στο 2% του συνόλου των καλαθιών αγοράς). Κάθε ομάδα ειδών χαρακτηρίζεται από την τιμή του πλήθους των κοινών ειδών (π.χ.. 3 σημαίνει ότι βρέθηκαν 3 είδη κοινά στο 2% του συνόλου των καλαθιών αγοράς). Επίσης ο αλγόριθμος υπολογίζει κανόνες (π.χ. εάν κάποιος πελάτης αγοράσει μαζί τα είδη Α και Β τότε υπάρχει 80% πιθανότητα να αγοράσει και το είδος Γ).
Συσχετισμός (association) ή ανάλυση καλαθιού μάρκετινγκ Χρήσιμο σε περιπτώσεις όπου ο πελάτης αγοράζει κάθε φορά διαφορετικά προϊόντα και ποσότητες (π.χ. ΣΜ). Προσφέρει κατανόηση στο γιατί γίνονται οι αγορές, ποια προϊόντα κινούνται γρήγορα στο ράφι, ποια προϊόντα αγοράζονται μαζί κ.λπ. Κατευθύνει τη δομή και το ύφος του καταστήματος, τη ταξινόμηση των προϊόντων στα ράφια (merchandising) και τη διενέργεια προγραμμάτων προώθησης στο σημείο αγοράς. Απαντά σε συγκεκριμένα ερωτήματα όπως: Αριθμός επισκέψεων/πελάτη πελάτη Αριθμός μοναδικών προϊόντων/αγορά αγορά Αριθμός συνολικών προϊόντων/αγορά αγορά Για κάθε κωδικό: Πόσοι πελάτες αγόρασαν ή % επί συνόλου Πόσα κομμάτια κατά μέσο όρο αγοράζει ο πελάτης Ποσοστό επισκέψεων στο κατάστημα με αγορά του προϊόντος Ποσοστό του προϊόντος στο καλάθι κατά μέσο όρο
Συσχετισμός (association) ή ανάλυση καλαθιού μάρκετινγκ Σημαντική η βοήθεια με γραφικά
Παλινδρόμηση (regression) Είναι παρόμοια με την ταξινόμηση, με τη διαφορά ότι η μεταβλητή στόχευσης είναι ένας συνεχής αριθμός. Π.χ. υπολογίζει το ρυθμό εξαγοράς κουπονιών σε σχέση με την αξία τους, τη μέθοδο διανομής και τον όγκο διανομής ή την ταχύτητα του ανέμου σε σχέση με τη θερμοκρασία την υγρασία και την ατμοσφαιρική πίεση. Χρησιμοποιείται σαν τεχνική εδώ και αιώνες με πιο γνωστές μεθόδους την γραμμική (linear) και λογιστική (logistic) παλινδρόμηση (regression). Άλλες τεχνικές περιλαμβάνουν τα δένδρα παλινδρόμησης (regression trees) και τα νευρωνικά δίκτυα (neural networks). Εάν η μεταβλητή στόχευσης δεν είναι συνεχής αριθμός, τότε εφαρμόζονται τεχνικές όπως η λογιστική παλινδρόμηση
Πρόβλεψη (forecasting) Π.χ. ποια θα είναι η τιμή της Χ μετοχής αύριο ή το σύνολο των πωλήσεων του Ψ προϊόντος τον επόμενο μήνα; Ο αλγόριθμος παίρνει σαν είσοδο μια χρονοσειρά δεδομένων, ήτοι συνεχόμενα (στο χρόνο) δεδομένα που περιλαμβάνουν και τη χρονική στιγμή που έλαβαν χώρα. Οι τεχνικές προβλέψεων βασίζονται σε τάση (trend) περιοδικότητα (periodicity) και καθαρισμό θορύβου (noisy noise filtering). Η πιο διαδεδομένη τεχνική χρονοσειράς είναι η ARIMA (AutoRegressive Integrated Moving Average model).
Ανάλυση ακολουθίας (sequence analysis) Χρησιμοποιείται για την εκτίμηση μοντέλου για ασυνεχείς σειρές. Η ακολουθία αποτελείται από μια σειρά ασυνεχών τιμών (ή καταστάσεων). Π.χ. η σειρά των ιστοσελίδων που περιηγείται ένας χρήστης του web, ή η σειρά με την οποία αγοράζει είδη ένας καταναλωτής. Οι χρονοσειρές και οι ακολουθίες βασίζονται σε χρονικά συνεχόμενα δεδομένα που βασίζονται σε παρατηρήσεις που είναι εξαρτημένες μεταξύ τους. Η διαφορά είναι ότι ενώ οι χρονοσειρές βασίζονται σε συνεχείς αριθμούς, οι ακολουθίες βασίζονται σε ασυνεχείς καταστάσεις. Οι συσχετισμοί και οι ακολουθίες βασίζονται σε ομάδες ειδών ή καταστάσεων. Η διαφορά είναι ότι ενώ οι ακολουθίες αναλύουν την εναλλαγή καταστάσεων, οι συσχετισμοί θεωρούν κάθε είδος ξεχωριστό και ανεξάρτητο. Χρησιμοποιούνται κυρίως για ανάλυση ενεργειών χρηστών του web και ανάλυση DNA με πιο διαδεδομένη τεχνική τις αλυσίδες Markov
Ανάλυση αποκλίσεων (deviation analysis) Χρησιμοποιείται για τον εντοπισμό των σπανίων περιπτώσεων που συμπεριφέρονται διαφορετικά από τις υπόλοιπες. Επίσης ονομάζεται ανίχνευση περιθωριακών καταστάσεων (outlier detection) και εντοπίζει σημαντικές αποκλίσεις από την συνήθη συμπεριφορά. Η πλέον διαδεδομένη χρήση είναι ο εντοπισμός πλαστών χρεώσεων σε πιστωτικές κάρτες. Άλλες εφαρμογές αφορούν τον εντοπισμό αυθαίρετων παρεισδύσεων σε τηλεπικοινωνιακά δίκτυα, ανάλυση σφαλμάτων παραγωγής κ.ά. Δεν υπάρχει κοινώς αποδεκτή τεχνική, αλλά χρησιμοποιούνται παραλλαγές των αλγορίθμων δένδρων αποφάσεων (decision trees), ομαδοποιήσεων (clustering) και νευρωνικών δικτύων (neural networks). Για την εξόρυξη σημαντικών κανόνων οι αναλυτές πρέπει να επαναδειγματίσουν τις αποκλίνουσες περιπτώσεις στα δεδομένα εκπαίδευσης του συστήματος εξόρυξης δεδομένων.
Τεχνικές εξόρυξης δεδομένων Η τεχνολογία εξόρυξης δεδομένων δανείζεται τεχνολογίες από τρεις κλάδους: : (1) τη στατιστική,, (2) την εκπαίδευση Η/Υ και (3) τις βάσεις δεδομένων 1. Η πλειοψηφία των συστημάτων που αναφέρθηκε βασίζονται στη στατιστική 2. Η εξόρυξη δεδομένων βασίζεται στην αυτόματη ή ημι-αυτόματη ανακάλυψη μοντέλων (patterns) και βασίζεται σε αλγορίθμους εκπαίδευσης Η/Υ, όπως τα νευρωνικά δίκτυα (για μη γραμμικούς συσχετισμούς) και οι γενετικοί αλγόριθμοι (που προσομοιάζουν τη διαδικασία της φυσικής εξέλιξης) 3. Ενώ η κλασική στατιστική προϋποθέτει ότι το σύνολο των προς επεξεργασία δεδομένων θα βρίσκονται στη μνήμη του Η/Υ, αυτό συνήθως δεν είναι εφικτό και απαιτούνται τεχνικές συσχετισμού που θα διαχειρίζονται μεγάλες βάσεις δεδομένων
Προβλήματα ευρύτερης αποδοχής Αποκλειστικά περιβάλλοντα (proprietary) με μικρές δυνατότητες ευρύτερης αξιοποίησης (έμφαση σε αλγορίθμους λόγω στατιστικού υπόβαθρου, ανυπαρξία APIs) Απευθύνονται σε αναλυτές με ισχυρό στατιστικό και μαθηματικό υπόβαθρο Περιορισμένη γνώση της τεχνολογίας από την αγορά Οι αλγόριθμοι πολύ γενικοί, οι κανόνες που προκύπτουν συχνά άπτονται της κοινής λογικής Έλλειψη standards. Γίνονται προσπάθειες (OLE DB for DM, XML / A for Analysis, ISO SQL MM, OMG CWM Common Warehouse Metadata)
Ο κύκλος ζωής ενός έργου εξόρυξης δεδομένων 1. Συλλογή δεδομένων 2. Καθαρισμός και μετατροπή δεδομένων 1. Μετατροπή μορφής δεδομένων 2. Μετατροπή συνεχών αριθμών (π.χ. περιορισμός σε εύρος τιμών) 3. Ομαδοποίηση σε λίγες διακριτές ομάδες 4. Δημιουργία συνόλων (aggregation) 5. Διαχείριση κενών τιμών (π.χ. αντικατάσταση με Μ.Ο. ή εκτίμηση) 6. Αφαίρεση περιθωριακών τιμών (outliers) 3. Δημιουργία μοντέλου επιλογή βέλτιστου αλγόριθμου 4. Αξιολόγηση ποιότητας μοντέλου (lift charts) επιχειρηματική αξία (ίσως να χρειασθεί νέος κύκλος επιστροφή στο βήμα 2) 5. Δημιουργία αναφορών (ευρήματα αξιολόγηση) 6. Προβλέψεις με βάση νέες περιπτώσεις (prediction scoring) 7. Ολοκλήρωση ευρημάτων στην επιχειρηματική εφαρμογή 8. Διαχείριση μοντέλου
Υπεροχή DM έναντι άλλων τεχνολογιών αξιοποίησης δεδομένων Τι συμβαίνει; Γιατί συμβαίνει;