Εξόρυξη Δεδομένων Data Mining

Σχετικά έγγραφα
Η συνολική εικόνα. Ποιοτική Αναβάθμιση δεδομένων. Λογισμικό Επικοινωνιών DATA WAREHOUSE. Σχεδιασμός Ενοποίηση Επιλογή Συγχρονισμός Συντονισμός

Data Mining: Στοχεύοντας στους σωστούς πελάτες. Αριστομένης Μακρής

Advanced Analytics Software Training.

«Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα»

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

Τμηματοποίηση αγοράς. Έννοια, κριτήρια, είδη

V. Τμηματοποίηση Καταναλωτικής Αγοράς Η έννοια της τμηματοποίησης (κατάτμησης)

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

ΤΙ ΕIΝΑΙ ΠΡΟΒΛΕΨΕΙΣ; Διαδικασία εκτίμησης μελλοντικών καταστάσεων βασιζόμενη συνήθως σε ιστορικά στοιχεία

ΔΙΟΙΚΗΣΗ ΠΑΡΑΓΩΓΗΣ. ΕΝΟΤΗΤΑ 4η ΠΡΟΒΛΕΨΗ ΖΗΤΗΣΗΣ

Υποσυστήματα Πωλήσεων και Μάρκετινγκ

8. ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ ΔΕΔΟΜΕΝΩΝ

Βελτίωση της λήψης αποφάσεων και της διαχείρισης γνώσεων

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος

Διακριτικές Συναρτήσεις

Αναγνώριση Προτύπων Ι

ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ. Εισαγωγή στην Εξόρυξη Δεδομένων Πασχάλης Θρήσκος, PhD Λάρισα

Διδάκτορας Οικονομικού Πανεπιστημίου Αθηνών

Τεχνικές Προβλέψεων Προετοιμασία Χρονοσειράς Data and Adjustments

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων»

Προσδιορισμός των κρίσιμων παραμέτρων επιρροής της υπέρβασης των ορίων ταχύτητας με δεδομένα από έξυπνα κινητά τηλέφωνα Αριστοτέλης Κοκκινάκης

Πληροφοριακά Συστήματα Διοίκησης. Επισκόπηση μοντέλων λήψης αποφάσεων Τεχνικές Μαθηματικού Προγραμματισμού

Η ΕΠΑΝΑΣΤΑΣΗ ΤΟΥ ΚΡΙΟΥ

Πληροφοριακό Σύστημα Επιχειρηματικής Ευφυίας για την Oμαδοποίηση Πελατών Λιανικής

Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

στη Συμπεριφορά του Οδηγού Αξιοποιώντας Λεπτομερή Δεδομένα

Εισαγωγή στο Μάρκετινγκ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ

Εξαγωγή Μετασχηματισμός Εισαγωγή Δεδομένων στην Αποθήκη Πληροφοριών (ETL) ETL) Αριστομένης Μακρής

Τεχνικές Εξόρυξης Δεδομένων

Μεθοδική Ανάπτυξη Δικτυακής Υποδομής. Παρουσίαση στην ημερίδα για Σύγχρονες τάσεις στις Τηλεπικοινωνίες και Τεχνολογίες Αιχμής

ΕΞΕΤΑΣΕΙΣ στο τέλος του εξαμήνου με ΑΝΟΙΧΤΑ βιβλία ΕΞΕΤΑΣΕΙΣ ο καθένας θα πρέπει να έχει το ΔΙΚΟ του βιβλίο ΔΕΝ θα μπορείτε να ανταλλάσετε βιβλία ή να

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

ΠΜΣ Πληροφορικής Πανεπιστηµίου Πειραιά. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εισαγωγή. Γιάννης Θεοδωρίδης

7. ΣΥΣΤΗΜΑΤΑ ΕΞΟΡΥΞΗΣ ΔΕΔΟΜΕΝΩΝ

Έρευνα Μάρκετινγκ Ενότητα 5

Τσικολάτας Α. (2009) Customer Relationship Management - CRM. Πάτρα

Βέλτιστες Πρακτικές Διασφάλισης Ποιότητας. Δεδομένων. Πώς προσεγγίζουμε την Ποιότητα των Δδ Δεδομένων

ΕΠΙΔΡΩΝΤΕΣ ΠΑΡΑΓΟΝΤΕΣ ΣΤΗ ΛΗΨΗ ΑΠΟΦΑΣΕΩΝ ΜΑΡΚΕΤΙΝΓΚ

Εισαγωγή στην υδροπληροφορική και βελτιστοποίηση συστημάτων υδατικών πόρων

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

Πληροφοριακά Συστήματα Διοίκησης

ΠΡΟΓΡΑΜΜΑ ΕΚΠΑΙΔΕΥΤΙΚΩΝ ΣΕΜΙΝΑΡΙΩΝ ΙΑΝΟΥΑΡΙΟΣ 2016 ΙΟΥΛΙΟΣ 2016

ΕΠΙΧΕΙΡΗΜΑΤΙΚΟ ΣΧΕΔΙΟ ΓΙΑ ΝΕΑ ΕΠΙΧΕΙΡΗΣΗ ΤΕΧΝΟΛΟΓΙΑΣ

Πληροφοριακά Συστήματα Διοίκησης. Διοικητική Επιστήμη και Λήψη Αποφάσεων

Τεχνολογικό Εκπαιδευτικό Ίδρυμα Δυτικής Μακεδονίας Western Macedonia University of Applied Sciences Κοίλα Κοζάνης Kozani GR 50100

ΕΡΕΥΝΑ ΑΠΟΔΟΧΗΣ ΑΥΤΟΝΟΜΩΝ ΟΧΗΜΑΤΩΝ ΑΠΟ ΤΟΥΣ ΕΛΛΗΝΕΣ ΟΔΗΓΟΥΣ

Πληροφοριακά Συστήματα Διοίκησης

Εξόρυξη Γνώσης από Βιολογικά εδομένα

Εξόρυξη Γνώσης από εδοµένα (data mining)

Εισαγωγή στην υδροπληροφορική και βελτιστοποίηση συστημάτων υδατικών πόρων

Μεθοδολογίες Αξιοποίησης Δεδομένων

Επιχειρηματικές Προβλέψεις: Μέθοδοι & Τεχνικές Data and Adjustments Διάλεξη 5

Ηλεκτρονικό Εμπόριο. Ενότητα 6: Διαχείριση Σχέσεων με Πελάτες Σαπρίκης Ευάγγελος Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά)

1. Ποιο από τα παρακάτω είναι προϋπόθεση του επιτυχημένου μάρκετινγκ;

ΕΠΙΧΕΙΡΗΜΑΤΙΚΟ ΣΧΕΔΙΟ ΓΙΑ ΝΕΑ ΕΠΙΧΕΙΡΗΣΗ ΤΕΧΝΟΛΟΓΙΑΣ

Μια ολοκληρωμένη, διαχρονική και μόνιμη συλλογή δεδομένων οργανωμένη κατά αντικείμενο ανάλυσης με στόχο τη διαδικασία υποστήριξης λήψης αποφάσεων -

Αρχές Μάρκετινγκ Αγροτικών Προϊόντων και Τροφίμων

ΟΙΚΟΝΟΜΕΤΡΙΑ. Ενότητα 3: Πολλαπλή Παλινδρόμηση. Αναπλ. Καθηγητής Νικόλαος Σαριαννίδης Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά)

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ. Ερωτήσεις πολλαπλής επιλογής. Συντάκτης: Δημήτριος Κρέτσης

Θεμελιώδεις Αρχές Συστημάτων Βάσεων Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

Ολοκληρωµένη λύση επιλεκτικής συγκέντρωσης, αναδιοργάνωσης δεδοµένων και παραγωγής πληροφορίας

ΣΥΣΤΗΜΑ ΠΑΡΑΚΟΛΟΥΘΗΣΗΣ ΑΕΡΟΣΩΜΑΤΙ ΙΑΚΗΣ ΡΥΠΑΝΣΗΣ ΣΕ ΣΧΕ ΟΝ ΠΡΑΓΜΑΤΙΚΟ ΧΡΟΝΟ

ΠΕΡΙΕΧΟΜΕΝΑ. 1. Εισαγωγή Συνεχής ποσοτική εξαρτημένη μεταβλητή...66 Ενδεικτική εφαρμογή...68 ΛΙΓΑ ΛΟΓΙΑ ΓΙΑ ΤΟΥΣ ΣΥΓΓΡΑΦΕΙΣ...

Κεφάλαιο 4 ο. Η ψηφιακή επιχείρηση: Ηλεκτρονικό εμπόριο και ηλεκτρονικό επιχειρείν

Συστήματα Πληροφοριών Διοίκησης

4. ΕΠΙΛΟΓΗ ΤΗΣ ΜΕΘΟΔΟΥ ΠΡΟΒΛΕΨΗΣ

Τεχνικές Προβλέψεων. Προβλέψεις

Πωλήσεις. Μπίτης Αθανάσιος 2017

Περιεχόμενα. Πρόλογος... 15

HMY 795: Αναγνώριση Προτύπων

Προγράμματα Κατάρτισης από την ITMC A.E.

ΜΟΝΟΠΑΡΑΜΕΤΡΙΚΗ ΚΑΙ ΠΟΛΥΠΑΡΑΜΕΤΡΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ. Αριάδνη Αργυράκη

Οικονομία - Επιχειρήσεις Μάρκετινγκ 1

Ομαδοποίηση των απαιτήσεων του προτύπου ISO Σύστημα ποιότητας Ευθύνη της διοίκησης Διαχείριση πόρων Υλοποίηση του προϊόντος

Τ.Ε.Ι. ΑΝΑΤΟΛΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΚΑΙ ΘΡΑΚΗΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ & ΕΠΙΧΕΙΡΗΣΕΩΝ

ΕΠΙΧΕΙΡΗΜΑΤΙΚΟΤΗΤΑ ΚΑΙ ΚΑΙΝΟΤΟΜΙΑ

Όχι. e-marketing & e-advertising. ωφέλειες. Παραδοσιακό Μάρκετινγκ. Νέες Τεχνολογίες. e-marketing. αγοράζουν

Τίτλος Ειδικού Θεματικού Προγράμματος: «Διοίκηση, Οργάνωση και Πληροφορική για Μικρομεσαίες

Οι βασικές αλλαγές που επιδρούν στο επιχειρηματικό περιβάλλον

ΠΕΡΙΛΗΨΕΙΣ ΕΡΓΑΣΙΩΝ 4 Ο ΦΟΙΤΗΤΙΚΟ ΣΥΝΕΔΡΙΟ ΕΕΕE ΕΠΙΧΕΙΡΗΣΙΑΚΗ ΕΡΕΥΝΑ: ΕΥΚΑΙΡΙΕΣ ΚΑΙ ΠΡΟΚΛΗΣΕΙΣ ΜΕΣΑ ΣΤΗΝ ΚΡΙΣΗ ΔΙΟΡΓΑΝΩΣΗ

Εισαγωγή στη Στατιστική

ΧΑΤΖΗΦΩΤΙΑΔΗΣ ΔΗΜΗΤΡΙΟΣ

ΕΠΛ 003.1: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ. Για διοικητικά στελέχη

Ο ΚΑΤΑΝΑΛΩΤΗΣ ΣΤΟ INTERNET

Επιχειρηματικότητα Σημαντικές Διαπιστώσεις & Τάσεις

Εισαγωγική Παρουσίαση

1. ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ ΔΕΔΟΜΕΝΩΝ

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΜΑΡΚΕΤΙΝΓΚ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΟΡΓΑΝΩΣΗΣ & ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

ΒΑΣΙΚΟΙ ΤΟΜΕΙΣ ΑΝΑΦΟΡΑΣ ΕΝΟΣ BUSINESS PLAN. Εισαγωγή

Επιχειρησιακός Σχεδιασμός & Επιχειρηματικότητα

ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ. Επικ. Καθ. Στέλιος Ζήμερας. Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικά Χρηματοοικονομικά Μαθηματικά

Η ΑΓΟΡΑ. Νικόλαος Καρανάσιος Επίκουρος Καθηγητής

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ

Στατιστική Επιχειρήσεων Ι

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ

Για ποιον σκοπό χρησιμοποιούνται τα cookies σε αυτό τον ιστοχώρο; Για ποιούς σκοπούς ΔΕΝ χρησιμοποιούνται τα cookies σε αυτό τον ιστοχώρο;

Transcript:

Εξόρυξη Δεδομένων Data Mining

Η συνολική εικόνα ενός συστήματος BI/BA

Επιχειρηματική Γνώση Από τα δεδομένα στη γνώση Επιχειρηματι κοί Κανόνες Μετα- Δεδομένα Δομή Βάσης Δεδομένων Συγκεντρωτικά Δεδομένα (Λειτουργικά ή Επιχειρησιακά) Επιχειρησιακά ή Λειτουργικά Δεδομένα Τι μάθαμε από τα δεδομένα Λογική δομή δεδομένων και συσχετισμοί με φυσική δομή και πηγές Φυσική δομή δεδομένων, πίνακες, πεδία, κλειδιά Ομαδοποιήσεις κατά ποιος, τι, πότε, πού Ποιος, τι, πότε, πού Όγκος δεδομένων

Τι σημαίνει εξόρυξη δεδομένων Επιχειρηματικά Δεδομένα Δένδρο Απόφασης

Ορισμός εξόρυξης δεδομένων ΕΔ είναι η διερεύνηση και η ανάλυση μεγάλων ποσοτήτων πρωτογενών δεδομένων, με σκοπό την αποκάλυψη συγκεκριμένων δομών και σχέσεων ανάμεσά τους. Στόχος η βελτίωση του ανταγωνιστικού πλεονεκτήματος της επιχείρησης. Επίσης ΕΔ είναι ένα «σύνολο τεχνικών» για την ανάλυση μεγάλου όγκου δεδομένων.

Τα πρώτα standards CRISP-DM Daimler-Benz 1999 OHRA (ασφαλιστική) NCR (Η/Υ) SPSS (στατιστικό λογισμικό)

CRISP-DM (Cross-Industry Standard Process for Data Mining)

Ο κύκλος ζωής ενός έργου εξόρυξης δεδομένων 1. Συλλογή δεδομένων 2. Καθαρισμός και μετατροπή δεδομένων 1. Μετατροπή μορφής δεδομένων 2. Μετατροπή συνεχών αριθμών (π.χ. περιορισμός σε εύρος τιμών) 3. Ομαδοποίηση σε λίγες διακριτές ομάδες 4. Δημιουργία συνόλων (aggregation) 5. Διαχείριση κενών τιμών (π.χ. αντικατάσταση με Μ.Ο. ή εκτίμηση) 6. Αφαίρεση περιθωριακών τιμών (outliers) 3. Δημιουργία μοντέλου επιλογή βέλτιστου αλγόριθμου 4. Αξιολόγηση ποιότητας μοντέλου (lift charts) επιχειρηματική αξία (ίσως να χρειασθεί νέος κύκλος επιστροφή στο βήμα 2) 5. Δημιουργία αναφορών (ευρήματα αξιολόγηση) 6. Προβλέψεις με βάση νέες περιπτώσεις (prediction scoring) 7. Ολοκλήρωση ευρημάτων στην επιχειρηματική εφαρμογή 8. Διαχείριση μοντέλου

CRISP-DM

Επιχειρηματική κατανόηση Αυτό εξαρτάται από το πού θέλεις να φτάσεις Μπορείς να μου πεις προς τα πού πρέπει να πάω; Τότε δεν πολυέχει σημασία το πώς Δεν με πολυνοιάζει το πού

Κατανόηση των δεδομένων Τι δεδομένα έχουμε και πού; Από ποια διαδικασία και από ποιόν δημιουργούνται; Τι σημαίνουν οι στήλες (πεδία) και οι γραμμές (λογικές εγγραφές); Υπάρχουν ακρώνυμα και συντομογραφίες ασαφή ή άγνωστα; Αναζήτηση με γνώστες (από πού προέρχονται, πώς συλλέχτηκαν; πώς κωδικοποιήθηκαν και αποθηκεύτηκαν; είναι ακριβή και αξιόπιστα;) Αποφάσεις βασισμένες σε ατελή ή λανθασμένα δεδομένα θα είναι ατελείς ή λανθασμένες

Προετοιμασία των δεδομένων

Μοντέλο - επιλογή αλγορίθμου

Αξιολόγηση μοντέλου Με μαθηματικά μοντέλα (στατιστική, διασταύρωση στοιχείων) Με τη λογική (η εμπειρία στο αντικείμενο βοηθά στην αξιολόγηση του μοντέλου)

Υλοποίηση Εάν έχουν επακριβώς ορισθεί οι απαιτήσεις Εάν τα δεδομένα έχουν προετοιμασθεί ώστε να βοηθούν να δοθούν απαντήσεις Εάν το μοντέλο δοκιμάστηκε και είναι ενδιαφέρον και χρήσιμο Τότε μόνο μπορεί να χρησιμοποιηθεί Δημιουργία αυτοματισμών και παραδοτέων Ένταξη στην παραγωγική διαδικασία Βελτιώσεις (ακρίβεια, επιδόσεις, γκρίνιες)

Γιατί Εξόρυξη Δεδομένων; Όγκος των διαθέσιμων δεδομένων είναι πολύ μεγάλος (εκατομμύρια εγγραφές) Όλες οι επιχειρήσεις έχουν οικονομική πρόσβαση σε σημαντικών δυνατοτήτων Η/Υ Αύξηση των πιέσεων του ανταγωνισμού ανταγωνιστικά πλεονεκτήματα βραχύβια και σχετικά Διαθεσιμότητα τεχνολογικών υποδομών και λογισμικού

Επιχειρηματικά προβλήματα και εξόρυξη δεδομένων Ανάλυση αποχωρήσεων (churn analysis) γιατί φεύγουν οι πελάτες, τι θα τους κρατήσει; (π.χ. κινητή τηλεφωνία) Σταυροειδείς πωλήσεις (cross-selling) τι άλλο πιθανόν να αγόραζε ο πελάτης; (π.χ. βιβλία Αmazon) Ανίχνευση απάτης (fraud detection) ποιες περιπτώσεις μπορεί να εμπεριέχουν δόλο; (π.χ. δηλώσεις ασφαλιστικών) Διαχείριση κινδύνων (risk management) τι κινδύνους εμπεριέχει μια επιχειρηματική απόφαση; (π.χ. έγκριση δανείου) Τμηματοποίηση πελατών (customer segmentation) τι κοινά χαρακτηριστικά έχουν οι πελάτες; (π.χ. στόχευση υποψηφίων πιστωτικών καρτών) Στόχευση διαφημίσεων τι διαφημίσεις να βάλουμε στο web με βάση τις συνήθειες πλοήγησης και αγορών των πελατών; Προβλέψεις πωλήσεων (sales forecast) τι θα πουληθεί ανά μονάδα χρόνου στο μέλλον;

Βασικός Διαχωρισμός συστημάτων ΕΔ Κατευθυνόμενα (Directed) Στόχος η εξήγηση ή πρόβλεψη ή κατηγοριοποίηση συγκεκριμένης μεταβλητής μάρκετινγκ όπως ανταπόκριση σε άμεσες πωλήσεις ή διαθέσιμο εισόδημα ή συχνότητα παραγγελιών (ονομάζονται μεταβλητές στόχευσης). Ελεύθερα (Undirected) Στόχος η αποκάλυψη δομών ή ομοιοτήτων ή σχέσεων στα δεδομένα, χωρίς εκ των προτέρων χρήση κριτηρίων ή προκαθορισμένων δομών (π.χ. ηλικίες, φύλο).

Κατηγοριοποίηση συστημάτων εξόρυξης δεδομένων Ταξινόμηση (classification) Ομαδοποίηση (clustering) ή κατάτμηση (segmentation) Συσχετισμός (association) ή ανάλυση καλαθιού μάρκετινγκ Παλινδρόμηση (regression) Πρόβλεψη (forecasting) Ανάλυση ακολουθίας (sequence analysis) Ανάλυση αποκλίσεων (deviation analysis)

Ταξινόμηση (classification) Συνήθως επιλύει προβλήματα όπως ανάλυσης αποχωρήσεων (churn analysis), διαχείρισης κινδύνων (risk management) και στόχευσης. Επιλύει μια μεταβλητή στόχευσης (target attribute) σαν συνάρτηση των υπολοίπων μεταβλητών εισόδου. Βασίζεται σε ιστορικά στοιχεία όπου φαίνεται η επίδραση των μεταβλητών εισόδου στην μεταβλητή στόχευσης. Ουσιαστικά το σύστημα εκπαιδεύεται από τα ιστορικά στοιχεία και είναι εποπτευόμενο (supervised) Τυπικοί αλγόριθμοι ταξινόμησης είναι τα δένδρα αποφάσεων (decision trees), τα νευρωνικά δίκτυα (neural networks) και Naïve Bayes μοντέλα πιθανοτήτων.

Ταξινόμηση (classification) Τα Δέντρα Αποφάσεων εκφράζουν «κανόνες» και ταξινομούν τον σχετικά ανομοιογενή πληθυσμό σε μικρότερες, ομοιογενής ομάδες, στη βάση μίας μεταβλητής στόχου (π.χ. είναι αγοραστής δεν είναι αγοραστής). Οι κανόνες αυτοί μπορούν να αποδοθούν με απλά ελληνικά, π.χ. ΕΑΝ Ηλικία < 25 και Φύλο = Άνδρας και Χρήση Πιστωτικής = Όχι, ΤΟΤΕ Αγοραστής = ΟΧΙ.

Ταξινόμηση (classification) Τα ακόλουθα είναι παραδείγματα επιτυχημένης και αποτυχημένης ταξινόμησης.

Ταξινόμηση (classification) Πλεονεκτήματα των Δέντρων Αποφάσεων Εύκολη η κατανόησή τους Όμορφη γραφική απεικόνιση των επιχειρηματικών κανόνων Όχι ιδιαίτερες προϋποθέσεις για τα πρωτογενή δεδομένα Μπορούν να αναλυθούν τόσο μεταβλητές λόγου όσο και ονοματικές Μειονεκτήματα των Δέντρων Αποφάσεων Η μεταβλητή στόχος πρέπει να είναι ονοματική (categorical) Περιορίζονται σε μία μεταβλητή στόχο Οι σχετικοί αλγόριθμοι έχουν αποδειχθεί ασταθείς Δέντρα αποφάσεων στηριζόμενα σε αριθμητικά δεδομένα (μεταβλητές λόγου) μπορεί να είναι ιδιαιτέρως πολύπλοκα.

Ομαδοποίηση (clustering) ή κατάτμηση (segmentation) Χρησιμοποιείται για να εντοπίσει φυσικές ομαδοποιήσεις που βασίζονται σε ένα σύνολο χαρακτηριστικών. Περιπτώσεις στην ίδια ομάδα έχουν συνήθως κοινά χαρακτηριστικά. Ο αλγόριθμος είναι μη εποπτευόμενος (unsupervised) εφ όσον στη διαδικασία εκπαίδευσης δεν επιλέγεται μια μεταβλητή, αλλά όλες οι μεταβλητές αντιμετωπίζονται ισότιμα. Οι περισσότεροι αλγόριθμοι βασίζονται σε ένα σύνολο επαναλήψεων (iterations) και σταματούν όταν το μοντέλο συγκλίνει (converges), δηλαδή όταν τα σύνολα κάθε ομαδοποίησης γίνουν διακριτά. Για το λόγο αυτό, οι μεθοδολογίες ομαδοποίησης αναπτύχθηκαν σημαντικά μετά τα τέλη της δεκαετίας του 60, με τη χρήση των main frames.

Ομαδοποίηση (clustering) ή κατάτμηση (segmentation) Η πραγματικότητα είναι κάπως έτσι: Την εξήγηση των τμημάτων (cluster) πρέπει να τη δώσει ο ερευνητής

Συσχετισμός (association) ή ανάλυση καλαθιού μάρκετινγκ Ονομάζεται έτσι γιατί η σημαντικότερη χρήση του είναι για την εκτίμηση των κυριοτέρων προϊόντων που πουλιούνται στο ίδιο καλάθι αγορών και ως εκ τούτου για την εκτίμηση επιχειρηματικών κανόνων με στόχο τη σταυροειδή πώληση (cross selling). Η διαδικασία του συσχετισμού στοχεύει (1) να εντοπίσει συχνές ομάδες επαναλαμβανόμενων πωλήσεων και (2) κανόνες συσχετισμού. Ο αλγόριθμος βρίσκει τα πλέον κοινά είδη μετά από πολλαπλές επαναλήψεις, με βάση το όριο συχνότητας (frequency threshold / support) που ορίζει ο χρήστης (π.χ. ένα όριο 2% σημαίνει ότι θα επιλεγούν μόνο τα είδη που είναι κοινά στο 2% του συνόλου των καλαθιών αγοράς). Κάθε ομάδα ειδών χαρακτηρίζεται από την τιμή του πλήθους των κοινών ειδών (π.χ. 3 σημαίνει ότι βρέθηκαν 3 είδη κοινά στο 2% του συνόλου των καλαθιών αγοράς). Επίσης ο αλγόριθμος υπολογίζει κανόνες (π.χ. εάν κάποιος πελάτης αγοράσει μαζί τα είδη Α και Β τότε υπάρχει 80% πιθανότητα να αγοράσει και το είδος Γ).

Συσχετισμός (association) ή ανάλυση καλαθιού μάρκετινγκ Χρήσιμο σε περιπτώσεις όπου ο πελάτης αγοράζει κάθε φορά διαφορετικά προϊόντα και ποσότητες (π.χ. ΣΜ). Προσφέρει κατανόηση στο γιατί γίνονται οι αγορές, ποια προϊόντα κινούνται γρήγορα στο ράφι, ποια προϊόντα αγοράζονται μαζί κ.λπ. Κατευθύνει τη δομή και το ύφος του καταστήματος, τη ταξινόμηση των προϊόντων στα ράφια (merchandising) και τη διενέργεια προγραμμάτων προώθησης στο σημείο αγοράς. Απαντά σε συγκεκριμένα ερωτήματα όπως: Αριθμός επισκέψεων/πελάτη Αριθμός μοναδικών προϊόντων/αγορά Αριθμός συνολικών προϊόντων/αγορά Για κάθε κωδικό: Πόσοι πελάτες αγόρασαν ή % επί συνόλου Πόσα κομμάτια κατά μέσο όρο αγοράζει ο πελάτης Ποσοστό επισκέψεων στο κατάστημα με αγορά του προϊόντος Ποσοστό του προϊόντος στο καλάθι κατά μέσο όρο

Συσχετισμός (association) ή ανάλυση καλαθιού μάρκετινγκ Σημαντική η βοήθεια με γραφικά

Παλινδρόμηση (regression) Είναι παρόμοια με την ταξινόμηση, με τη διαφορά ότι η μεταβλητή στόχευσης είναι ένας συνεχής αριθμός. Π.χ. υπολογίζει το ρυθμό εξαγοράς κουπονιών σε σχέση με την αξία τους, τη μέθοδο διανομής και τον όγκο διανομής ή την ταχύτητα του ανέμου σε σχέση με τη θερμοκρασία την υγρασία και την ατμοσφαιρική πίεση. Χρησιμοποιείται σαν τεχνική εδώ και αιώνες με πιο γνωστές μεθόδους την γραμμική (linear) και λογιστική (logistic) παλινδρόμηση (regression). Άλλες τεχνικές περιλαμβάνουν τα δένδρα παλινδρόμησης (regression trees) και τα νευρωνικά δίκτυα (neural networks). Εάν η μεταβλητή στόχευσης δεν είναι συνεχής αριθμός, τότε εφαρμόζονται τεχνικές όπως η λογιστική παλινδρόμηση

Πρόβλεψη (forecasting) Π.χ. ποια θα είναι η τιμή της Χ μετοχής αύριο ή το σύνολο των πωλήσεων του Ψ προϊόντος τον επόμενο μήνα; Ο αλγόριθμος παίρνει σαν είσοδο μια χρονοσειρά δεδομένων, ήτοι συνεχόμενα (στο χρόνο) δεδομένα που περιλαμβάνουν και τη χρονική στιγμή που έλαβαν χώρα. Οι τεχνικές προβλέψεων βασίζονται σε τάση (trend) περιοδικότητα (periodicity) και καθαρισμό θορύβου (noisy noise filtering). Η πιο διαδεδομένη τεχνική χρονοσειράς είναι η ARIMA (AutoRegressive Integrated Moving Average model).

Ανάλυση ακολουθίας (sequence analysis) Χρησιμοποιείται για την εκτίμηση μοντέλου για ασυνεχείς σειρές. Η ακολουθία αποτελείται από μια σειρά ασυνεχών τιμών (ή καταστάσεων). Π.χ. η σειρά των ιστοσελίδων που περιηγείται ένας χρήστης του web, ή η σειρά με την οποία αγοράζει είδη ένας καταναλωτής. Οι χρονοσειρές και οι ακολουθίες βασίζονται σε χρονικά συνεχόμενα δεδομένα που βασίζονται σε παρατηρήσεις που είναι εξαρτημένες μεταξύ τους. Η διαφορά είναι ότι ενώ οι χρονοσειρές βασίζονται σε συνεχείς αριθμούς, οι ακολουθίες βασίζονται σε ασυνεχείς καταστάσεις. Οι συσχετισμοί και οι ακολουθίες βασίζονται σε ομάδες ειδών ή καταστάσεων. Η διαφορά είναι ότι ενώ οι ακολουθίες αναλύουν την εναλλαγή καταστάσεων, οι συσχετισμοί θεωρούν κάθε είδος ξεχωριστό και ανεξάρτητο. Χρησιμοποιούνται κυρίως για ανάλυση ενεργειών χρηστών του web και ανάλυση DNA με πιο διαδεδομένη τεχνική τις αλυσίδες Markov

Ανάλυση αποκλίσεων (deviation analysis) Χρησιμοποιείται για τον εντοπισμό των σπανίων περιπτώσεων που συμπεριφέρονται διαφορετικά από τις υπόλοιπες. Επίσης ονομάζεται ανίχνευση περιθωριακών καταστάσεων (outlier detection) και εντοπίζει σημαντικές αποκλίσεις από την συνήθη συμπεριφορά. Η πλέον διαδεδομένη χρήση είναι ο εντοπισμός πλαστών χρεώσεων σε πιστωτικές κάρτες. Άλλες εφαρμογές αφορούν τον εντοπισμό αυθαίρετων παρεισδύσεων σε τηλεπικοινωνιακά δίκτυα, ανάλυση σφαλμάτων παραγωγής κ.ά. Δεν υπάρχει κοινώς αποδεκτή τεχνική, αλλά χρησιμοποιούνται παραλλαγές των αλγορίθμων δένδρων αποφάσεων (decision trees), ομαδοποιήσεων (clustering) και νευρωνικών δικτύων (neural networks). Για την εξόρυξη σημαντικών κανόνων οι αναλυτές πρέπει να επαναδειγματίσουν τις αποκλίνουσες περιπτώσεις στα δεδομένα εκπαίδευσης του συστήματος εξόρυξης δεδομένων.

Αλγόριθμοι του SQL Server 2005

Τεχνικές εξόρυξης δεδομένων Η τεχνολογία εξόρυξης δεδομένων δανείζεται τεχνολογίες από τρεις κλάδους: (1) τη στατιστική, (2) την εκπαίδευση Η/Υ και (3) τις βάσεις δεδομένων 1. Η πλειοψηφία των συστημάτων που αναφέρθηκε βασίζονται στη στατιστική 2. Η εξόρυξη δεδομένων βασίζεται στην αυτόματη ή ημι-αυτόματη ανακάλυψη μοντέλων (patterns) και βασίζεται σε αλγορίθμους εκπαίδευσης Η/Υ, όπως τα νευρωνικά δίκτυα (για μη γραμμικούς συσχετισμούς) και οι γενετικοί αλγόριθμοι (που προσομοιάζουν τη διαδικασία της φυσικής εξέλιξης) 3. Ενώ η κλασική στατιστική προϋποθέτει ότι το σύνολο των προς επεξεργασία δεδομένων θα βρίσκονται στη μνήμη του Η/Υ, αυτό συνήθως δεν είναι εφικτό και απαιτούνται τεχνικές συσχετισμού που θα διαχειρίζονται μεγάλες βάσεις δεδομένων

Προβλήματα ευρύτερης αποδοχής Αποκλειστικά περιβάλλοντα (proprietary) με μικρές δυνατότητες ευρύτερης αξιοποίησης (έμφαση σε αλγορίθμους λόγω στατιστικού υπόβαθρου, ανυπαρξία APIs) Απευθύνονται σε αναλυτές με ισχυρό στατιστικό και μαθηματικό υπόβαθρο Περιορισμένη γνώση της τεχνολογίας από την αγορά Οι αλγόριθμοι πολύ γενικοί, οι κανόνες που προκύπτουν συχνά άπτονται της κοινής λογικής Έλλειψη standards. Γίνονται προσπάθειες (OLE DB for DM, XML / A for Analysis, ISO SQL MM, OMG CWM Common Warehouse Metadata)

Ο κύκλος ζωής ενός έργου εξόρυξης δεδομένων 1. Συλλογή δεδομένων 2. Καθαρισμός και μετατροπή δεδομένων 1. Μετατροπή μορφής δεδομένων 2. Μετατροπή συνεχών αριθμών (π.χ. περιορισμός σε εύρος τιμών) 3. Ομαδοποίηση σε λίγες διακριτές ομάδες 4. Δημιουργία συνόλων (aggregation) 5. Διαχείριση κενών τιμών (π.χ. αντικατάσταση με Μ.Ο. ή εκτίμηση) 6. Αφαίρεση περιθωριακών τιμών (outliers) 3. Δημιουργία μοντέλου επιλογή βέλτιστου αλγόριθμου 4. Αξιολόγηση ποιότητας μοντέλου (lift charts) επιχειρηματική αξία (ίσως να χρειασθεί νέος κύκλος επιστροφή στο βήμα 2) 5. Δημιουργία αναφορών (ευρήματα αξιολόγηση) 6. Προβλέψεις με βάση νέες περιπτώσεις (prediction scoring) 7. Ολοκλήρωση ευρημάτων στην επιχειρηματική εφαρμογή 8. Διαχείριση μοντέλου

Η εξέλιξη

Τι χρησιμοποιεί η αγορά KDnuggets Annual Software Poll 2013

Κορυφαίοι αλγόριθμοι Predictive Analytics

Εφαρμογές Predictive Analytics

Ο ανταγωνισμός advanced analytics

Υπεροχή DM έναντι άλλων τεχνολογιών αξιοποίησης δεδομένων Τι συμβαίνει; Γιατί συμβαίνει;