Η συνολική εικόνα. Ποιοτική Αναβάθμιση δεδομένων. Λογισμικό Επικοινωνιών DATA WAREHOUSE. Σχεδιασμός Ενοποίηση Επιλογή Συγχρονισμός Συντονισμός

Σχετικά έγγραφα
Data Mining: Στοχεύοντας στους σωστούς πελάτες. Αριστομένης Μακρής

Εξόρυξη Δεδομένων Data Mining

Εξαγωγή Μετασχηματισμός Εισαγωγή Δεδομένων στην Αποθήκη Πληροφοριών (ETL) ETL) Αριστομένης Μακρής

1. ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ ΔΕΔΟΜΕΝΩΝ

V. Τμηματοποίηση Καταναλωτικής Αγοράς Η έννοια της τμηματοποίησης (κατάτμησης)

Τμηματοποίηση αγοράς. Έννοια, κριτήρια, είδη

«Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα»

ΤΙ ΕIΝΑΙ ΠΡΟΒΛΕΨΕΙΣ; Διαδικασία εκτίμησης μελλοντικών καταστάσεων βασιζόμενη συνήθως σε ιστορικά στοιχεία

Υποσυστήματα Πωλήσεων και Μάρκετινγκ

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

Προγράμματα Η /Υ / Εφαρμογές σε συστ ήματα Π ό οι τητας Αριστομένης Μακρής

Advanced Analytics Software Training.

Η ΕΠΑΝΑΣΤΑΣΗ ΤΟΥ ΚΡΙΟΥ

Διακριτικές Συναρτήσεις

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

Ηλεκτρονικό Εμπόριο. Ενότητα 6: Διαχείριση Σχέσεων με Πελάτες Σαπρίκης Ευάγγελος Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά)

Βελτίωση της λήψης αποφάσεων και της διαχείρισης γνώσεων

Διδάκτορας Οικονομικού Πανεπιστημίου Αθηνών

Έρευνα Μάρκετινγκ Ενότητα 5

ΔΙΟΙΚΗΣΗ ΠΑΡΑΓΩΓΗΣ. ΕΝΟΤΗΤΑ 4η ΠΡΟΒΛΕΨΗ ΖΗΤΗΣΗΣ

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων»

Πληροφοριακό Σύστημα Επιχειρηματικής Ευφυίας για την Oμαδοποίηση Πελατών Λιανικής

Εισαγωγή στο Μάρκετινγκ

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

Τεχνικές Προβλέψεων Προετοιμασία Χρονοσειράς Data and Adjustments

ΠΜΣ Πληροφορικής Πανεπιστηµίου Πειραιά. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εισαγωγή. Γιάννης Θεοδωρίδης

Πανεπιστήμιο Πειραιώς Τμήμα : Οργάνωσης και Διοίκησης Επιχειρήσεων

ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ. Εισαγωγή στην Εξόρυξη Δεδομένων Πασχάλης Θρήσκος, PhD Λάρισα

Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ

Πληροφοριακά Συστήματα Διοίκησης. Επισκόπηση μοντέλων λήψης αποφάσεων Τεχνικές Μαθηματικού Προγραμματισμού

Μια ολοκληρωμένη, διαχρονική και μόνιμη συλλογή δεδομένων οργανωμένη κατά αντικείμενο ανάλυσης με στόχο τη διαδικασία υποστήριξης λήψης αποφάσεων -

Αρχές Μάρκετινγκ Αγροτικών Προϊόντων και Τροφίμων

Θεμελιώδεις Αρχές Συστημάτων Βάσεων Δεδομένων

Τεχνικές Εξόρυξης Δεδομένων

Τεχνολογικό Εκπαιδευτικό Ίδρυμα Δυτικής Μακεδονίας Western Macedonia University of Applied Sciences Κοίλα Κοζάνης Kozani GR 50100

Εξόρυξη Γνώσης από εδοµένα (data mining)

στη Συμπεριφορά του Οδηγού Αξιοποιώντας Λεπτομερή Δεδομένα

Τσικολάτας Α. (2009) Customer Relationship Management - CRM. Πάτρα

Τεχνικές Προβλέψεων. Προβλέψεις

ΠΕΡΙΕΧΟΜΕΝΑ. 1. Εισαγωγή Συνεχής ποσοτική εξαρτημένη μεταβλητή...66 Ενδεικτική εφαρμογή...68 ΛΙΓΑ ΛΟΓΙΑ ΓΙΑ ΤΟΥΣ ΣΥΓΓΡΑΦΕΙΣ...

HMY 795: Αναγνώριση Προτύπων

Ομαδοποίηση των απαιτήσεων του προτύπου ISO Σύστημα ποιότητας Ευθύνη της διοίκησης Διαχείριση πόρων Υλοποίηση του προϊόντος

Οικονομία - Επιχειρήσεις Μάρκετινγκ 1

1. Ποιο από τα παρακάτω είναι προϋπόθεση του επιτυχημένου μάρκετινγκ;

8. ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ ΔΕΔΟΜΕΝΩΝ

Συστήματα Πληροφοριών Διοίκησης

Πληροφοριακά Συστήματα Διοίκησης

Αναγνώριση Προτύπων Ι

ΕΞΕΤΑΣΕΙΣ στο τέλος του εξαμήνου με ΑΝΟΙΧΤΑ βιβλία ΕΞΕΤΑΣΕΙΣ ο καθένας θα πρέπει να έχει το ΔΙΚΟ του βιβλίο ΔΕΝ θα μπορείτε να ανταλλάσετε βιβλία ή να

Επιχειρηματικές Προβλέψεις: Μέθοδοι & Τεχνικές Data and Adjustments Διάλεξη 5

Βέλτιστες Πρακτικές Διασφάλισης Ποιότητας. Δεδομένων. Πώς προσεγγίζουμε την Ποιότητα των Δδ Δεδομένων

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ

Επιχειρησιακός Σχεδιασμός & Επιχειρηματικότητα

Η ΑΓΟΡΑ. Νικόλαος Καρανάσιος Επίκουρος Καθηγητής

ΕΠΙΔΡΩΝΤΕΣ ΠΑΡΑΓΟΝΤΕΣ ΣΤΗ ΛΗΨΗ ΑΠΟΦΑΣΕΩΝ ΜΑΡΚΕΤΙΝΓΚ

ΕΡΕΥΝΑ ΑΠΟΔΟΧΗΣ ΑΥΤΟΝΟΜΩΝ ΟΧΗΜΑΤΩΝ ΑΠΟ ΤΟΥΣ ΕΛΛΗΝΕΣ ΟΔΗΓΟΥΣ

Προσδιορισμός των κρίσιμων παραμέτρων επιρροής της υπέρβασης των ορίων ταχύτητας με δεδομένα από έξυπνα κινητά τηλέφωνα Αριστοτέλης Κοκκινάκης

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ. Ερωτήσεις πολλαπλής επιλογής. Συντάκτης: Δημήτριος Κρέτσης

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Πληροφοριακά Συστήματα Διοίκησης

Εισαγωγή στην υδροπληροφορική και βελτιστοποίηση συστημάτων υδατικών πόρων

ΕΠΙΧΕΙΡΗΜΑΤΙΚΟ ΣΧΕΔΙΟ ΓΙΑ ΝΕΑ ΕΠΙΧΕΙΡΗΣΗ ΤΕΧΝΟΛΟΓΙΑΣ

ΧΑΤΖΗΦΩΤΙΑΔΗΣ ΔΗΜΗΤΡΙΟΣ

ΟΙΚΟΝΟΜΕΤΡΙΑ. Ενότητα 3: Πολλαπλή Παλινδρόμηση. Αναπλ. Καθηγητής Νικόλαος Σαριαννίδης Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά)

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

ΒΑΣΙΚΟΙ ΤΟΜΕΙΣ ΑΝΑΦΟΡΑΣ ΕΝΟΣ BUSINESS PLAN. Εισαγωγή

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΜΑΡΚΕΤΙΝΓΚ

ΠΙΘΑΝΟΤΗΤΕΣ - ΣΤΑΤΙΣΤΙΚΗ

Κεφάλαιο 4 ο. Η ψηφιακή επιχείρηση: Ηλεκτρονικό εμπόριο και ηλεκτρονικό επιχειρείν

ΣΥΣΤΗΜΑ ΠΑΡΑΚΟΛΟΥΘΗΣΗΣ ΑΕΡΟΣΩΜΑΤΙ ΙΑΚΗΣ ΡΥΠΑΝΣΗΣ ΣΕ ΣΧΕ ΟΝ ΠΡΑΓΜΑΤΙΚΟ ΧΡΟΝΟ

ΕΠΙΔΡΑΣΗ ΤΗΣ ΟΙΚΟΝΟΜΙΚΗΣ ΚΡΙΣΗΣ ΣΤΙΣ ΑΓΟΡΑΣΤΙΚΕΣ ΤΑΣΕΙΣ ΤΩΝ ΕΛΛΗΝΩΝ ΚΑΤΑΝΑΛΩΤΩΝ ΑΠΟ ΤΟ ΔΙΑΔΙΚΤΥΟ

Εισαγωγή στην υδροπληροφορική και βελτιστοποίηση συστημάτων υδατικών πόρων

24/4/19. Τύποι έρευνας ανάλογα με τη φύση του προβλήματος ΕΡΕΥΝΑ ΜΑΡΚΕΤΙΝΓΚ

ΕΠΙΧΕΙΡΗΜΑΤΙΚΟ ΣΧΕΔΙΟ ΓΙΑ ΝΕΑ ΕΠΙΧΕΙΡΗΣΗ ΤΕΧΝΟΛΟΓΙΑΣ

Εξόρυξη Γνώσης µε SQL Server 2005 Analysis Services

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα. Logistics. Ενότητα # 6: Σχεδιασμός και Έλεγχος της Αλυσίδας Εφοδιασμού

ΜΟΝΟΠΑΡΑΜΕΤΡΙΚΗ ΚΑΙ ΠΟΛΥΠΑΡΑΜΕΤΡΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ. Αριάδνη Αργυράκη

Εξόρυξη Γνώσης από Βιολογικά εδομένα

Τ.Ε.Ι. ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΣXOΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ

Κεφάλαιο 6 Σχεδιασμός και Έλεγχος της Αλυσίδας Εφοδιασμού

Κεφάλαιο 1 ο. Διοίκηση και διαχείριση της ψηφιακής επιχείρησης

Τ.Ε.Ι. ΑΝΑΤΟΛΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΚΑΙ ΘΡΑΚΗΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ & ΕΠΙΧΕΙΡΗΣΕΩΝ

Γεώργιος Φίλιππας 23/8/2015

Στρατηγικές επίτευξης ανταγωνιστικού πλεονεκτήματος

ΕΠΙΧΕΙΡΗΜΑΤΙΚΟΤΗΤΑ ΚΑΙ ΚΑΙΝΟΤΟΜΙΑ

Οικονομετρία. Απλή Παλινδρόμηση Βασικές έννοιες και τυχαίο σφάλμα. Τμήμα: Αγροτικής Οικονομίας & Ανάπτυξης. Διδάσκων: Λαζαρίδης Παναγιώτης

Ολοκληρωµένη λύση επιλεκτικής συγκέντρωσης, αναδιοργάνωσης δεδοµένων και παραγωγής πληροφορίας

Προγράμματα Κατάρτισης από την ITMC A.E.

ΠΡΟΓΡΑΜΜΑ ΕΚΠΑΙΔΕΥΤΙΚΩΝ ΣΕΜΙΝΑΡΙΩΝ ΙΑΝΟΥΑΡΙΟΣ 2016 ΙΟΥΛΙΟΣ 2016

Χρονολογικές Σειρές (Time Series) Lecture notes Φ.Κουντούρη 2008

Οι βασικές αλλαγές που επιδρούν στο επιχειρηματικό περιβάλλον

Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα

Τμήμα Λογιστικής και Χρηματοοικονομικής. Θεωρία Πιθανοτήτων. Δρ. Αγγελίδης Π. Βασίλειος

Πληροφοριακά Συστήματα Διοίκησης. Διοικητική Επιστήμη και Λήψη Αποφάσεων

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΤΜΗΜΑ ΟΡΓΑΝΩΣΗΣ & ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

Transcript:

Η συνολική εικόνα Τοπικές Βάσεις Βάσεις Κεντρικών Συστημάτων Βάσεις Τρίτων Ποιοτική Αναβάθμιση δεδομένων Λογισμικό Επικοινωνιών DATA WAREHOUSE Σχεδιασμός Ενοποίηση Επιλογή Συγχρονισμός Συντονισμός Warehouse database Διαχείριση Αξιοποίηση Πληροφοριών End User Queries Multidimensional G.I.S. Data Mining

Απόταδεδομέναστηγνώση Επιχειρηματική Γνώση Επιχειρηματικοί Κανόνες Μετα- Δεδομένα Δομή Βάσης Δεδομένων Συγκεντρωτικά Δεδομένα (Λειτουργικά ή Επιχειρησιακά) Επιχειρησιακά ή Λειτουργικά Δεδομένα Τι μάθαμε από τα δεδομένα Λογική δομή δεδομένων και συσχετισμοί με φυσική δομή και πηγές Φυσική δομή δεδομένων, πίνακες, πεδία, κλειδιά Ομαδοποιήσεις κατά ποιος, τι, πότε, πού Ποιος, τι, πότε, πού Όγκος δεδομένων

Τι σημαίνει εξόρυξη δεδομένων Επιχειρηματικά Δεδομένα Δένδρο Απόφασης

Ορισμός εξόρυξης δεδομένων ΕΔ είναι η διερεύνηση και η ανάλυση μεγάλων ποσοτήτων πρωτογενών δεδομένων, με σκοπό την αποκάλυψη συγκεκριμένων δομών και σχέσεων ανάμεσά τους. Στόχος η βελτίωση του ανταγωνιστικού πλεονεκτήματος της επιχείρησης. Επίσης ΕΔ είναι ένα «σύνολο τεχνικών» για την ανάλυση μεγάλου όγκου δεδομένων.

Γιατί Εξόρυξη Δεδομένων; Όγκος των διαθέσιμων δεδομένων είναι πολύ μεγάλος (εκατομμύρια εγγραφές) Όλες οι επιχειρήσεις έχουν οικονομική πρόσβαση σε σημαντικών δυνατοτήτων Η/Υ Αύξηση των πιέσεων του ανταγωνισμού ανταγωνιστικά πλεονεκτήματα βραχύβια και σχετικά Διαθεσιμότητα τεχνολογικών υποδομών και λογισμικού

Επιχειρηματικά προβλήματα και εξόρυξη δεδομένων Ανάλυση αποχωρήσεων (churn analysis) γιατί φεύγουν οι πελάτες, τι θα τους κρατήσει; ; (π.χ.( κινητή τηλεφωνία) Σταυροειδείς πωλήσεις (cross-selling) selling) τι άλλο πιθανόν να αγόραζε ο πελάτης; ; (π.χ.( βιβλία Αmazon) Ανίχνευση απάτης (fraud detection) ποιες περιπτώσεις μπορεί να εμπεριέχουν δόλο; ; (π.χ.( δηλώσεις ασφαλιστικών) Διαχείριση κινδύνων (risk management) τι κινδύνους εμπεριέχει μια επιχειρηματική απόφαση; ; (π.χ.( έγκριση δανείου) Τμηματοποίηση πελατών (customer segmentation) τι κοινά χαρακτηριστικά έχουν οι πελάτες; ; (π.χ.( στόχευση υποψηφίων πιστωτικών καρτών) Στόχευση διαφημίσεων τι διαφημίσεις να βάλουμε στο web με βάση τις συνήθειες πλοήγησης και αγορών των πελατών; Προβλέψεις πωλήσεων (sales forecast) τι θα πουληθεί ανά μονάδα χρόνου στο μέλλον;

Βασικός Διαχωρισμός συστημάτων ΕΔ Κατευθυνόμενα (Directed) Directed) Στόχος η εξήγηση ή πρόβλεψη ή κατηγοριοποίηση συγκεκριμένης μεταβλητής μάρκετινγκ όπως ανταπόκριση σε άμεσες πωλήσεις ή διαθέσιμο εισόδημα ή συχνότητα παραγγελιών (ονομάζονται μεταβλητές στόχευσης). Ελεύθερα (Undirected) Στόχος η αποκάλυψη δομών ή ομοιοτήτων ή σχέσεων στα δεδομένα, χωρίς εκ των προτέρων χρήση κριτηρίων ή προκαθορισμένων δομών (π.χ. ηλικίες, φύλο).

Κατηγοριοποίηση συστημάτων εξόρυξης δεδομένων Ταξινόμηση (classification) Ομαδοποίηση (clustering) ή κατάτμηση (segmentation) Συσχετισμός (association) ή ανάλυση καλαθιού μάρκετινγκ Παλινδρόμηση (regression) Πρόβλεψη (forecasting) Ανάλυση ακολουθίας (sequence analysis) Ανάλυση αποκλίσεων (deviation analysis)

Ταξινόμηση (classification) Συνήθως επιλύει προβλήματα όπως ανάλυσης αποχωρήσεων (churn analysis), διαχείρισης κινδύνων (risk management) και στόχευσης. Επιλύει μια μεταβλητή στόχευσης (target attribute) σαν συνάρτηση των υπολοίπων μεταβλητών εισόδου. Βασίζεται σε ιστορικά στοιχεία όπου φαίνεται η επίδραση των μεταβλητών εισόδου στην μεταβλητή στόχευσης. Ουσιαστικά το σύστημα εκπαιδεύεται από τα ιστορικά στοιχεία και είναι εποπτευόμενο (supervised) Τυπικοί αλγόριθμοι ταξινόμησης είναι τα δένδρα αποφάσεων (decision trees), τα νευρωνικά δίκτυα (neural networks) και Naïve Bayes μοντέλα πιθανοτήτων.

Ταξινόμηση (classification) Τα Δέντρα Αποφάσεων εκφράζουν «κανόνες» και ταξινομούν τον σχετικά ανομοιογενή πληθυσμό σε μικρότερες, ομοιογενής ομάδες, στη βάση μίας μεταβλητής στόχου (π.χ. είναι αγοραστής δεν είναι αγοραστής). Οι κανόνες αυτοί μπορούν να αποδοθούν με απλά ελληνικά, π.χ. ΕΑΝ Ηλικία < 25 και Φύλο = Άνδρας και Χρήση Πιστωτικής = Όχι, ΤΟΤΕ Αγοραστής = ΟΧΙ.

Ταξινόμηση (classification) Τα ακόλουθα είναι παραδείγματα επιτυχημένης και αποτυχημένης ταξινόμησης.

Ταξινόμηση (classification) Πλεονεκτήματα των Δέντρων Αποφάσεων Εύκολη η κατανόησή τους Όμορφη γραφική απεικόνιση των επιχειρηματικών κανόνων Όχι ιδιαίτερες προϋποθέσεις για τα πρωτογενή δεδομένα Μπορούν να αναλυθούν τόσο μεταβλητές λόγου όσο και ονοματικές Μειονεκτήματα των Δέντρων Αποφάσεων Η μεταβλητή στόχος πρέπει να είναι ονοματική (categorical) Περιορίζονται σε μία μεταβλητή στόχο Οι σχετικοί αλγόριθμοι έχουν αποδειχθεί ασταθείς Δέντρα αποφάσεων στηριζόμενα σε αριθμητικά δεδομένα (μεταβλητές λόγου) μπορεί να είναι ιδιαιτέρως πολύπλοκα.

Ομαδοποίηση (clustering) ή κατάτμηση (segmentation) Χρησιμοποιείται για να εντοπίσει φυσικές ομαδοποιήσεις που βασίζονται σε ένα σύνολο χαρακτηριστικών. Περιπτώσεις στην ίδια ομάδα έχουν συνήθως κοινά χαρακτηριστικά. Ο αλγόριθμος είναι μη εποπτευόμενος (unsupervised) εφ όσον στη διαδικασία εκπαίδευσης δεν επιλέγεται μια μεταβλητή, αλλά όλες οι μεταβλητές αντιμετωπίζονται ισότιμα. Οι περισσότεροι αλγόριθμοι βασίζονται σε ένα σύνολο επαναλήψεων (iterations) και σταματούν όταν το μοντέλο συγκλίνει (converges), δηλαδή όταν τα σύνολα κάθε ομαδοποίησης γίνουν διακριτά. Για το λόγο αυτό, οι μεθοδολογίες ομαδοποίησης αναπτύχθηκαν σημαντικά μετά τα τέλη της δεκαετίας του 60, με τη χρήση των main frames.

Ομαδοποίηση (clustering) ή κατάτμηση (segmentation) Η πραγματικότητα είναι κάπως έτσι: Την εξήγηση των τμημάτων (cluster) πρέπει να τη δώσει ο ερευνητής

Συσχετισμός (association) ή ανάλυση καλαθιού μάρκετινγκ Ονομάζεται έτσι γιατί η σημαντικότερη χρήση του είναι για την εκτίμηση των κυριοτέρων προϊόντων που πουλιούνται στο ίδιο καλάθι αγορών και ως εκ τούτου για την εκτίμηση επιχειρηματικών κανόνων με στόχο τη σταυροειδή πώληση (cross selling). Η διαδικασία του συσχετισμού στοχεύει (1) να εντοπίσει συχνές ομάδες επαναλαμβανόμε- νων πωλήσεων και (2) κανόνες συσχετισμού. Ο αλγόριθμος βρίσκει τα πλέον κοινά είδη μετά από πολλαπλές επαναλήψεις, με βάση το όριο συχνότητας (frequency threshold / support) που ορίζει ο χρήστης (π.χ. ένα όριο 2% σημαίνει ότι θα επιλεγούν μόνο τα είδη που είναι κοινά στο 2% του συνόλου των καλαθιών αγοράς). Κάθε ομάδα ειδών χαρακτηρίζεται από την τιμή του πλήθους των κοινών ειδών (π.χ.. 3 σημαίνει ότι βρέθηκαν 3 είδη κοινά στο 2% του συνόλου των καλαθιών αγοράς). Επίσης ο αλγόριθμος υπολογίζει κανόνες (π.χ. εάν κάποιος πελάτης αγοράσει μαζί τα είδη Α και Β τότε υπάρχει 80% πιθανότητα να αγοράσει και το είδος Γ).

Συσχετισμός (association) ή ανάλυση καλαθιού μάρκετινγκ Χρήσιμο σε περιπτώσεις όπου ο πελάτης αγοράζει κάθε φορά διαφορετικά προϊόντα και ποσότητες (π.χ. ΣΜ). Προσφέρει κατανόηση στο γιατί γίνονται οι αγορές, ποια προϊόντα κινούνται γρήγορα στο ράφι, ποια προϊόντα αγοράζονται μαζί κ.λπ. Κατευθύνει τη δομή και το ύφος του καταστήματος, τη ταξινόμηση των προϊόντων στα ράφια (merchandising) και τη διενέργεια προγραμμάτων προώθησης στο σημείο αγοράς. Απαντά σε συγκεκριμένα ερωτήματα όπως: Αριθμός επισκέψεων/πελάτη πελάτη Αριθμός μοναδικών προϊόντων/αγορά αγορά Αριθμός συνολικών προϊόντων/αγορά αγορά Για κάθε κωδικό: Πόσοι πελάτες αγόρασαν ή % επί συνόλου Πόσα κομμάτια κατά μέσο όρο αγοράζει ο πελάτης Ποσοστό επισκέψεων στο κατάστημα με αγορά του προϊόντος Ποσοστό του προϊόντος στο καλάθι κατά μέσο όρο

Συσχετισμός (association) ή ανάλυση καλαθιού μάρκετινγκ Σημαντική η βοήθεια με γραφικά

Παλινδρόμηση (regression) Είναι παρόμοια με την ταξινόμηση, με τη διαφορά ότι η μεταβλητή στόχευσης είναι ένας συνεχής αριθμός. Π.χ. υπολογίζει το ρυθμό εξαγοράς κουπονιών σε σχέση με την αξία τους, τη μέθοδο διανομής και τον όγκο διανομής ή την ταχύτητα του ανέμου σε σχέση με τη θερμοκρασία την υγρασία και την ατμοσφαιρική πίεση. Χρησιμοποιείται σαν τεχνική εδώ και αιώνες με πιο γνωστές μεθόδους την γραμμική (linear) και λογιστική (logistic) παλινδρόμηση (regression). Άλλες τεχνικές περιλαμβάνουν τα δένδρα παλινδρόμησης (regression trees) και τα νευρωνικά δίκτυα (neural networks). Εάν η μεταβλητή στόχευσης δεν είναι συνεχής αριθμός, τότε εφαρμόζονται τεχνικές όπως η λογιστική παλινδρόμηση

Πρόβλεψη (forecasting) Π.χ. ποια θα είναι η τιμή της Χ μετοχής αύριο ή το σύνολο των πωλήσεων του Ψ προϊόντος τον επόμενο μήνα; Ο αλγόριθμος παίρνει σαν είσοδο μια χρονοσειρά δεδομένων, ήτοι συνεχόμενα (στο χρόνο) δεδομένα που περιλαμβάνουν και τη χρονική στιγμή που έλαβαν χώρα. Οι τεχνικές προβλέψεων βασίζονται σε τάση (trend) περιοδικότητα (periodicity) και καθαρισμό θορύβου (noisy noise filtering). Η πιο διαδεδομένη τεχνική χρονοσειράς είναι η ARIMA (AutoRegressive Integrated Moving Average model).

Ανάλυση ακολουθίας (sequence analysis) Χρησιμοποιείται για την εκτίμηση μοντέλου για ασυνεχείς σειρές. Η ακολουθία αποτελείται από μια σειρά ασυνεχών τιμών (ή καταστάσεων). Π.χ. η σειρά των ιστοσελίδων που περιηγείται ένας χρήστης του web, ή η σειρά με την οποία αγοράζει είδη ένας καταναλωτής. Οι χρονοσειρές και οι ακολουθίες βασίζονται σε χρονικά συνεχόμενα δεδομένα που βασίζονται σε παρατηρήσεις που είναι εξαρτημένες μεταξύ τους. Η διαφορά είναι ότι ενώ οι χρονοσειρές βασίζονται σε συνεχείς αριθμούς, οι ακολουθίες βασίζονται σε ασυνεχείς καταστάσεις. Οι συσχετισμοί και οι ακολουθίες βασίζονται σε ομάδες ειδών ή καταστάσεων. Η διαφορά είναι ότι ενώ οι ακολουθίες αναλύουν την εναλλαγή καταστάσεων, οι συσχετισμοί θεωρούν κάθε είδος ξεχωριστό και ανεξάρτητο. Χρησιμοποιούνται κυρίως για ανάλυση ενεργειών χρηστών του web και ανάλυση DNA με πιο διαδεδομένη τεχνική τις αλυσίδες Markov

Ανάλυση αποκλίσεων (deviation analysis) Χρησιμοποιείται για τον εντοπισμό των σπανίων περιπτώσεων που συμπεριφέρονται διαφορετικά από τις υπόλοιπες. Επίσης ονομάζεται ανίχνευση περιθωριακών καταστάσεων (outlier detection) και εντοπίζει σημαντικές αποκλίσεις από την συνήθη συμπεριφορά. Η πλέον διαδεδομένη χρήση είναι ο εντοπισμός πλαστών χρεώσεων σε πιστωτικές κάρτες. Άλλες εφαρμογές αφορούν τον εντοπισμό αυθαίρετων παρεισδύσεων σε τηλεπικοινωνιακά δίκτυα, ανάλυση σφαλμάτων παραγωγής κ.ά. Δεν υπάρχει κοινώς αποδεκτή τεχνική, αλλά χρησιμοποιούνται παραλλαγές των αλγορίθμων δένδρων αποφάσεων (decision trees), ομαδοποιήσεων (clustering) και νευρωνικών δικτύων (neural networks). Για την εξόρυξη σημαντικών κανόνων οι αναλυτές πρέπει να επαναδειγματίσουν τις αποκλίνουσες περιπτώσεις στα δεδομένα εκπαίδευσης του συστήματος εξόρυξης δεδομένων.

Τεχνικές εξόρυξης δεδομένων Η τεχνολογία εξόρυξης δεδομένων δανείζεται τεχνολογίες από τρεις κλάδους: : (1) τη στατιστική,, (2) την εκπαίδευση Η/Υ και (3) τις βάσεις δεδομένων 1. Η πλειοψηφία των συστημάτων που αναφέρθηκε βασίζονται στη στατιστική 2. Η εξόρυξη δεδομένων βασίζεται στην αυτόματη ή ημι-αυτόματη ανακάλυψη μοντέλων (patterns) και βασίζεται σε αλγορίθμους εκπαίδευσης Η/Υ, όπως τα νευρωνικά δίκτυα (για μη γραμμικούς συσχετισμούς) και οι γενετικοί αλγόριθμοι (που προσομοιάζουν τη διαδικασία της φυσικής εξέλιξης) 3. Ενώ η κλασική στατιστική προϋποθέτει ότι το σύνολο των προς επεξεργασία δεδομένων θα βρίσκονται στη μνήμη του Η/Υ, αυτό συνήθως δεν είναι εφικτό και απαιτούνται τεχνικές συσχετισμού που θα διαχειρίζονται μεγάλες βάσεις δεδομένων

Προβλήματα ευρύτερης αποδοχής Αποκλειστικά περιβάλλοντα (proprietary) με μικρές δυνατότητες ευρύτερης αξιοποίησης (έμφαση σε αλγορίθμους λόγω στατιστικού υπόβαθρου, ανυπαρξία APIs) Απευθύνονται σε αναλυτές με ισχυρό στατιστικό και μαθηματικό υπόβαθρο Περιορισμένη γνώση της τεχνολογίας από την αγορά Οι αλγόριθμοι πολύ γενικοί, οι κανόνες που προκύπτουν συχνά άπτονται της κοινής λογικής Έλλειψη standards. Γίνονται προσπάθειες (OLE DB for DM, XML / A for Analysis, ISO SQL MM, OMG CWM Common Warehouse Metadata)

Ο κύκλος ζωής ενός έργου εξόρυξης δεδομένων 1. Συλλογή δεδομένων 2. Καθαρισμός και μετατροπή δεδομένων 1. Μετατροπή μορφής δεδομένων 2. Μετατροπή συνεχών αριθμών (π.χ. περιορισμός σε εύρος τιμών) 3. Ομαδοποίηση σε λίγες διακριτές ομάδες 4. Δημιουργία συνόλων (aggregation) 5. Διαχείριση κενών τιμών (π.χ. αντικατάσταση με Μ.Ο. ή εκτίμηση) 6. Αφαίρεση περιθωριακών τιμών (outliers) 3. Δημιουργία μοντέλου επιλογή βέλτιστου αλγόριθμου 4. Αξιολόγηση ποιότητας μοντέλου (lift charts) επιχειρηματική αξία (ίσως να χρειασθεί νέος κύκλος επιστροφή στο βήμα 2) 5. Δημιουργία αναφορών (ευρήματα αξιολόγηση) 6. Προβλέψεις με βάση νέες περιπτώσεις (prediction scoring) 7. Ολοκλήρωση ευρημάτων στην επιχειρηματική εφαρμογή 8. Διαχείριση μοντέλου

Υπεροχή DM έναντι άλλων τεχνολογιών αξιοποίησης δεδομένων Τι συμβαίνει; Γιατί συμβαίνει;