ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ. Εισαγωγή στην Εξόρυξη Δεδομένων Πασχάλης Θρήσκος, PhD Λάρισα

Σχετικά έγγραφα
Data Mining: Στοχεύοντας στους σωστούς πελάτες. Αριστομένης Μακρής

Η συνολική εικόνα. Ποιοτική Αναβάθμιση δεδομένων. Λογισμικό Επικοινωνιών DATA WAREHOUSE. Σχεδιασμός Ενοποίηση Επιλογή Συγχρονισμός Συντονισμός

Εξόρυξη Δεδομένων Data Mining

Ηλεκτρονικό Εμπόριο. Ενότητα 6: Διαχείριση Σχέσεων με Πελάτες Σαπρίκης Ευάγγελος Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά)

ΔΗΜΙΟΥΡΓΩΝΤΑΣ ΤΗΝ ΔΙΚΗ ΜΟΥ ΕΠΙΧΕΙΡΗΣΗ. Creating my own company

Πληροφοριακό Σύστημα Επιχειρηματικής Ευφυίας για την Oμαδοποίηση Πελατών Λιανικής

MICRO: Ενίσχυση της ανταγωνιστικότητας των πολύ μικρών επιχειρήσεων σε αγροτικές περιοχές Ενότητα No 1 : Marketing/Προώθηση & Ηλεκτρονικό εμπόριο

Συστήματα Επιχειρηματικής Ευφυίας. Εισαγωγικές Έννοιες

Που πάνε τα στοιχεία (data) μας; Κίνδυνοι από τρίτους φορείς

Η Oracle ανακοίνωσε την πιο ολοκληρωμένη λύση στον τομέα της Ανάλυσης δεδομένων στο Cloud

Εισαγωγή στο Marketing (βασικές έννοιες) ΑΤΕΙ ΙΟΝΙΩΝ ΝΗΣΩΝ Τμήμα Δημοσίων Σχέσεων & Επικοινωνίας Α. Κουμπαρέλης Καθηγητής Εφαρμογών

ΑΡΘΡΟ «ΕΞΙ ΣΤΟΥΣ ΔΕΚΑ ΕΛΛΗΝΕΣ ΧΡΗΣΙΜΟΠΟΙΟΥΝ ΠΛΕΟΝ ΚΑΘΗΜΕΡΙΝΑ ΤΟ ΔΙΑΔΙΚΤΥΟ»

Ενότητα 3: Διαχείριση πληροφοριακών πόρων με τη χρήση βάσεων δεδομένων

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

Κεφάλαιο 9: Ολοκληρωμένο επικοινωνιακό μάρκετινγκ. Copyright 2015 Pearson Education, Inc. publishing as Prentice Hall 9-1

ΕΠΛ 003.1: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ. Για διοικητικά στελέχη

Πληροφοριακά Συστήματα Διοίκησης

Managing Information. Lecturer: N. Kyritsis, MBA, Ph.D. Candidate Athens University of Economics and Business.

Ηλεκτρονικό Κατάστημα

ΕΓΧΕΙΡΙΔΙΟ ΟΡΘΩΝ ΠΡΑΚΤΙΚΩΝ ΗΛΕΚΤΡΟΝΙΚΟ ΕΜΠΟΡΙΟ ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΜΕΣΟΛΟΓΓΙΟΥ

Business Development, SAP Hellas 01/12/2007

Ο ΚΑΤΑΝΑΛΩΤΗΣ ΣΤΟ INTERNET

Εξαγωγή Μετασχηματισμός Εισαγωγή Δεδομένων στην Αποθήκη Πληροφοριών (ETL) ETL) Αριστομένης Μακρής

Διαχείριση Εφοδιαστική Αλυσίδας. ΤΕΙ Κρήτης / Τμήμα Διοίκησης Επιχειρήσεων

Πληροφοριακά Συστήματα Διοίκησης

Επιχειρηματική Ευφυΐα (Business Intelligence - BI)

Υποσυστήματα Πωλήσεων και Μάρκετινγκ

Βελτίωση της λήψης αποφάσεων και της διαχείρισης γνώσεων

Κεφάλαιο 4 ο. Η ψηφιακή επιχείρηση: Ηλεκτρονικό εμπόριο και ηλεκτρονικό επιχειρείν

Ηλεκτρονικό Επιχειρείν & Νέες Τεχνολογίες για Επιχειρηματικότητα ΔΕΟ45

Ηλεκτρονικά Καταστήματα E Shops

Τεχνικές Εξόρυξης Δεδομένων

1 η ΕΝΟΤΗΤΑ. Δημιουργώντας εισόδημα online. Internet Μια αγορά συνεχιζόμενης ανάπτυξης. Πλεονεκτήματα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα

Η ΕΠΑΝΑΣΤΑΣΗ ΤΟΥ ΚΡΙΟΥ

Τ.Ε.Ι. ΑΝΑΤΟΛΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΚΑΙ ΘΡΑΚΗΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ & ΕΠΙΧΕΙΡΗΣΕΩΝ

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

ΔΙΟΙΚΗΣΗ ΠΑΡΑΓΩΓΗΣ. ΕΝΟΤΗΤΑ 4η ΠΡΟΒΛΕΨΗ ΖΗΤΗΣΗΣ

Σχεδίαση Βάσεων Δεδομένων

Συστήματα Πληροφοριών Διοίκησης

ΕΡΓΑΣΙΑ. (στο μάθημα: Τεχνολογίες Εφαρμογών Διαδικτύου του Η εξαμήνου σπουδών του Τμήματος Πληροφορικής & Τηλ/νιών)

Η επιχειρηματική ιδέα και η εταιρία spin off. Βασίλης Μουστάκης Καθηγητής Πολυτεχνείου Κρήτης

ΜΗΧΑΝΟΓΡΑΦΙΚΕΣ ΛΥΣΕΙΣ ΜΕ ΦΟΡΗΤΕΣ ΣΥΣΚΕΥΕΣ

ΕΕΟ 11. Η χρήση στατιστικών εργαλείων στην εκτιμητική

E- Marketing: Το Marketing στη νέα ψηφιακή εποχή. Δημήτρης Καραβασίλης Παναγιώτης Μίλης Θεσσαλονίκη, Ιούνιος 2018

Κεφάλαιο 1 ο. Διοίκηση και διαχείριση της ψηφιακής επιχείρησης

Διαχείριση Βάσης Δεδομένων (dbadmin)

Παρουσίαση της λύσης Dnet Mobile Terminal

Εισαγωγή, Βασικές Έννοιες, Οφέλη και Κίνδυνοι

Τ.Ε.Ι. ΑΝΑΤΟΛΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΚΑΙ ΘΡΑΚΗΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ & ΕΠΙΧΕΙΡΗΣΕΩΝ

ΑΝΤΙΚΕΙΜΕΝΟΣΤΡΕΦΗΣ ΑΝΑΛΥΣΗ Επιχειρηματική Μοντελοποίηση. Ιωάννης Σταμέλος Βάιος Κολοφωτιάς Πληροφορική

ΟΙ ΝΕΕΣ ΤΕΧΝΟΛΟΓΙΕΣ ΩΣ ΕΠΙΧΕΙΡΗΜΑΤΙΚΟ ΕΡΓΑΛΕΙΟ

ΣΧΕΔΙΟ ΜΑΡΚΕΤΙΝΓΚ. Έκδοση και ημερομηνία: Στοιχεία Οργανισμού. Όνομα Οργανισμού / Επιχείρησης: (Διεύθυνση): (Ημερομηνία έναρξης Επιχείρησης):

MICRO: Ενίσχυση της ανταγωνιστικότητας των πολύ μικρών επιχειρήσεων σε αγροτικές περιοχές Ενότητα No 3: Οικονομική Διαχείριση μικρών επιχειρήσεων

CRM για Εκπαιδευτικούς Φορείς

Θεμελιώδεις Αρχές Συστημάτων Βάσεων Δεδομένων

ΕΘΝΙΚΟ ΚΑΙ ΚΑΠΟΔΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ

Οικονομία - Επιχειρήσεις Μάρκετινγκ 1

Microsoft Dynamics NAV & Verticals

Πληροφοριακά Συστήματα Διοίκησης

Τα 4P Προώθηση Προϊόντων. Νικόλαος Α. Παναγιώτου Λέκτορας Τομέας Βιομηχανικής ιοίκησης & Επιχειρησιακής Έρευνας Σχολή Μηχανολόγων Μηχανικών

ΚΑΤΗΓΟΡΙΕΣ ΔΙΑΚΙΝΗΣΗΣ ΠΡΟΣΩΠΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

LOGO. Εξόρυξη Δεδομένων. Δειγματοληψία. Πίνακες συνάφειας. Καμπύλες ROC και AUC. Σύγκριση Μεθόδων Εξόρυξης

Ποιοτικοί Δείκτες Υπηρεσιών Βιβλιοθηκών και Διαχείριση Πόρων: Μεθοδολογίες Ανάλυσης και στρατηγικός σχεδιασμός.

Αύξηση κερδών μέσω της μετάβασης σε πελατοκεντρικό μοντέλο επιχείρησης

Εισαγωγικό Μάθημα Βασικές Έννοιες - Ανάλυση Απαιτήσεων

INTERNET MARKETING Πώς Να Το Εκμεταλλευτείς Αποτελεσματικά Για Να Φέρεις Μία Σταθερή Ροή Πελατών. MakeMoneyOnline.gr!

Πληροφορική 2. Τεχνητή νοημοσύνη

Μεθοδική Ανάπτυξη Δικτυακής Υποδομής. Παρουσίαση στην ημερίδα για Σύγχρονες τάσεις στις Τηλεπικοινωνίες και Τεχνολογίες Αιχμής

CRM and Sales Force Automation

SPAMMING - ΑΝΕΠΙΘΥΜΗΤΗ ΑΛΛΗΛΟΓΡΑΦΙΑ

Κεφάλαιο 2 ο. Συστήματα Πληροφοριών στην επιχείρηση

Σχεδιασμός διαδικασιών. Source: Joe Schwarz,

Εταιρικοί Πελάτες. Delving into deep waters Οι νέες τεχνολογίες στην e-fresh.gr

Τι είναι πληροφοριακό σύστημα

Διοίκηση Παραγωγής και Υπηρεσιών

Η τεχνολογία σύμμαχος στις προκλήσεις του σήμερα

CRM. Σηµειώσεις για το σεµινάριο Αθανάσιος Ν. Σταµούλης. Customer Relationship Management

Business Intelligence Tools Avecon, data mining techniques online analytical processing OLAP Avecon Εξοικονόμηση κόστους: DataMATRIX3

Ονομάζομαι Βασιλάκος Γιάννης και είμαι Αντιπρόεδρος και Διευθύνων. Σύμβουλος της Κωτσόβολος, εταιρίας του Ομίλου Dixons Carphone με

Αγορά Πληροφορικής. Προϊόντα και Υπηρεσίες.

Τεχνολογίες Πληροφορικής και Επικοινωνιών (ΤΠΕ) στις Μικρομεσαίες Επιχειρήσεις (ΜΜΕ)

Τίτλος Ειδικού Θεματικού Προγράμματος: «Διοίκηση, Οργάνωση και Πληροφορική για Μικρομεσαίες

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ. Εισαγωγικές Έννοιες

Περιγραφή Μαθήματος. Περιγραφή Περιεχόμενο του Μαθήματος

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

Ανάκτηση Πληροφορίας

ΕΠΙΔΡΑΣΗ ΤΗΣ ΟΙΚΟΝΟΜΙΚΗΣ ΚΡΙΣΗΣ ΣΤΙΣ ΑΓΟΡΑΣΤΙΚΕΣ ΤΑΣΕΙΣ ΤΩΝ ΕΛΛΗΝΩΝ ΚΑΤΑΝΑΛΩΤΩΝ ΑΠΟ ΤΟ ΔΙΑΔΙΚΤΥΟ

Η-επιχειρείν και συνεργασία σε παγκόσμιο επίπεδο

Πως μπορούν να χρησιμοποιηθούν ιστορικά δεδομένα για την κατασκευή

ΕΠΛ 003.3: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ. Για οικονομολόγους

Created by : Market Research Team. Market Research Team

Μηχανική Λογισμικού για Διαδικτυακές & Φορητές Εφαρμογές

Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

ΣΥΓΧΡΟΝΕΣ ΤΕΧΝΙΚΕΣ MARKETING ΣΧΟΛΙΚΟΣ ΕΤΟΣ ΕΡΕΥΝΗΤΙΚΗ ΕΡΓΑΣΙΑ ΝΥΚΕΙΟ ΝΥΔΡΙΟΥ ΤΜΗΜΑ Α1

Ανάπτυξη & Σχεδίαση Λογισμικού (ΗΥ420)

Παροχή βοήθειας για την αποφυγή αμφισβητήσεων και αντιστροφών χρέωσης.

Κατανοώντας την επιχειρηματική ευκαιρία

ΔΙΑΔΙΚΤΥΑΚΗ ΠΡΟΒΟΛΗ ΚΑΙ ΔΙΑΧΕΙΡΙΣΗ

Transcript:

1 ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ Εισαγωγή στην Εξόρυξη Δεδομένων Πασχάλης Θρήσκος, PhD Λάρισα 2016-2017

2 Τα δεδομένα πολλαπλασιάζονται με γεωμετρική πρόοδο Οι χρήστες συσκευών επιθυμούν εξεζητημένη και εκλεπτυσμένη γνώση Πως; Εξόρυξη Δεδομένων

3 Ορισμός Τι είναι η εξόρυξη γνώσης; Γιατί εξόρυξη γνώσης? Ποιες οι εφαρμογές? Ποιες οι τεχνικές? Ποια η διαδικασία? Ποιο το λογισμικό?

4 Ορισμός «Η εξόρυξη γνώσης είναι μια συλλογή από τεχνικές για αποτελεσματική και αυτοματοποιημένη ανακάλυψη άγνωστων, έγκυρων, χρήσιμων και κατανοητών προτύπων (pattern) σε πολύ μεγάλα σύνολα δεδομένων. Τα πρότυπα αυτά θα πρέπει να αποδίδονται με τέτοιον τρόπο, ώστε να χρησιμοποιηθούν για λήψη αποτελεσματικών αποφάσεων».

Prentice Hall 5 Η εξόρυξη δεδομένων είναι Η εύρεση πληροφορίας κρυμμένη μέσα σε Βάσεις Δεδομένων. Η εύρεση ενός μοντέλου από δεδομένα. Παρόμοιοι όροι : Ανάλυση για την εξεύρεση πληροφορίας Συμπερασματική εκμάθηση

6 Η εξόρυξη δεδομένων είναι Αποτελεσματική και αυτοματοποιημένη διαδικασία Μεγάλα σύνολα δεδομένων. Η γνώση που ανακαλύπτεται πρέπει να είναι έγκυρη και να παρουσιάζεται με κατανοητό τρόπο. Οι επιχειρήσεις ενδιαφέρονται για την ανακάλυψη προτύπων συμπεριφοράς για προβλέψεις και συμπερισματολογία. Μια αποθήκη δεδομένων είναι η «μνήμη» μιας επιχείρησης. Η εξόρυξης γνώσης είναι η ευφυΐα που εκμεταλλεύεται αυτή τη μνήμη.

7 Παραδείγματα Η amazon.com χρησιμοποιεί συσχετίσεις (associations). Προτάσεις (recommendation systems) προς τους πελάτες βασίζονται σε προηγούμενες αγορές του πελάτη ή σε αγορές που έγιναν από άλλους πελάτες από άλλους. Η spotify.com χρησιμοποιώντας τις ίδιες τεχνικές δημιουργεί λίστες με προτεινόμενα τραγούδια και καλλιτέχνες. Βασίζεται σε τι έχουν ακούσει άλλοι πελάτες και ποιες οι ακουστικές προτιμήσεις του πελάτη μέσα από τις επιλογές που έχει κάνει ο ίδιος Το καλύτερο παράδειγμα είναι το Facebook. Ένα ακόμη παράδειγμα είναι το YouTube

8 Εξόρυξη Δεδομένων Χειριζόμαστε μεγάλα σύνολα δεδομένων, ίσως Gigabytes, μπορεί και Terabytes. Αν και οι τεχνικές που χρησιμοποιούμε μπορούν να δουλέψουν και με μικρά σύνολα δεδομένων, όσο μεγαλύτερο είναι το σύνολο των δεδομένων, τόσο είμαστε σίγουροι ότι θα βρούμε άγνωστη και αξιοποιήσιμη γνώση. (Προσοχή!!) Τα μεγάλα σύνολα δεδομένων αν δεν τα χειριστούμε σωστά, μπορεί να μας οδηγήσουν σε συμπεράσματα που είναι ανακριβή. Υπάρχει μία μεγάλη συζήτηση γύρω από την Εξόρυξη Δεδομένων και η εταιρεία συμβούλων Gartner Group την έχει κατατάξει στις 10 καλύτερες δέκα τεχνολογίες.

9 Γιατί ; Αλματώδης ανάπτυξη στην αποθήκευση επιχειρηματικών δεδομένων έκρηξη πληροφορίας Ανάγκη για εξεζητημένες επιχειρηματικές αποφάσεις τα de facto συστήματα πληροφόρησης είναι τα Συστήματα Συναλλαγών (OLTP) και οι Αποθήκες Δεδομένων. Τα OLTP δεδομένα είναι δύσχρηστα για το μέσο χρήστη Νέες τεχνολογίες φτηνός αποθηκευτικός χώρος, εύκολη συλλογή πληροφοριών, καλύτερα συστήματα διαχείρισης πληροφοριών, και το σημαντικότερο δεδομένα για να αναλύσουμε και να κατανοήσουμε.

10 Έκρηξη Πληροφορίας Τα συστήματα ΒΔ χρησιμοποιούνται από το μέσα του 1960. Και υπάρχουν καταχωρημένα βουνά δεδομένων. Ταμεία supermaket και barcodes σε πολλά προϊόντα, ηλεκτρονικές κρατήσεις θέσεων, πανεπιστημιακά δεδομένα, μεγάλος αριθμός κινητών συσκευών, ηλεκτρονικό εμπόριο, όλα δημιουργούν δεδομένα. Οι κυβερνήσεις επίσης συλλέγουν δεδομένα για επεξεργασία.

11 Έκρηξη Πληροφορίας Διατραπεζικές συναλλαγές μέσω Internet banking και ATMs. Πιστωτικές και χρεωστικές κάρτες. Ιατρικά δεδομένα. Μεταφορές Διαβατήρια, βίζες Ταυτότητα μέσω ραδιοσυχνοτήτων(rfid-radio Frequency ID) Γεωστατικά δεδομένα

12 https://www.google.gr/url?sa=i&rct=j&q=&esrc=s&source=images&cd=&cad=rja&uact=8&ved=&u rl=http%3a%2f%2fbuzz.report%2fportfolio%2fcollecting-student- feedback%2f&bvm=bv.136811127,d.d2s&psig=afqjcnhwmqndk- CQ7gktqamb2zKAMP1IKQ&ust=1477729981858354

13

14 https://blog.varonis.com/wp-content/uploads/2014/08/exponential-750x395.png

15 OLTP Οι περισσότερες επιχειρησιακές ΒΔ σχεδιάστηκαν τη δεκαετία του 70 και 80 σαν μια προσπάθεια να αυτοματοποιηθούν διάφορες διαδικασίας γραφείου, πχ εισαγωγή παραγγελιών, εγγραφές φοιτητών, καταχώρηση ασθενών, κρατήσεις εισιτηρίων κτλ. Οι παραπάνω είναι δομημένες και επαναλαμβανόμενες διαδικασίες που εύκολα μπορούν να αυτοματοποιηθούν.

16 Λήψη αποφάσεων Χρειάζεται κάποιο είδος επιχειρησιακής ιστορικότητας και επιχειρησιακής ευφυΐας. Δεδομένα OLTP δεν είναι η κατάλληλη υποδομή για να διατηρήσουμε ιστορικότητα σε μια επιχείρηση. Η γνώση που είναι κρυμμένη στα δεδομένα μπορεί να είναι το μυστικό όπλο σε ένα ανταγωνιστικό περιβάλλον. Όμως εξαιτίας του τεραστίου όγκου δεδομένων, κάποιος δεν μπορεί παρά να δει ένα πολύ μικρό μέρος αυτής της γνώσης. Ερώτηση: Γιατί ένα σύστημα OLTP δεν είναι κατάλληλο για να συντηρήσει την επιχειρησιακή ιστορικότητα;

17 OLTP και Λήψη Αποφάσεων Σε μια επιχείρηση, τα δεδομένα που παράγονται και αξιοποιούνται ανήκουν σε δύο κατηγορίες Λεπτομερή Δεδομένα που χρειάζονται για την καθημερινή λειτουργία της επιχείρησης Επεξεργασμένα Δεδομένα που χρειάζονται για να βρεθούν τάσεις, προκλήσεις και ευκαιρίες Τα Λεπτομερή Δεδομένα είναι η λειτουργική πλευρά της επιχείρησης και τα Επεξεργασμένα Δεδομένα αφορούν στη λήψη αποφάσεων.

Που χρησιμοποιούνται Λειτουργικά Υπάλληλοι Καθημερινή λειτουργία Αναφέρονται σε εφαρμογές Τρέχοντα δεδομένα Λεπτομερή δεδομένα Απλά ερωτήματα OLTP Predetermined queries Λήψη Αποφάσεων Υψηλόβαθμη διοίκηση Λήψη απόφασης Αναφέρονται σε θεματολογία Ιστορικά δεδομένα Συναθροίσεις δεδομένων Πολύπλοκα ερωτήματα Ad hoc queries Ενημέρωση/Εισαγωγή/Αναζήτηση Μόνο αναζήτηση Σε πραγματικό χρόνο Όχι πραγματικό χρόνο 18

19 Εξέλιξη της τεχνολογίας Η αύξηση των επιχειρησιακών δεδομένων συνοδεύτηκε από μείωση του κόστους αποθήκευσης και επεξεργασίας τους. Η απόδοση των υπολογιστών, υπολογιζόμενη σε MHz/$, αυξάνεται κάθε 27 ± 2 months. Η τεχνολογία των ΣΣΒΔ έχει εξελιχθεί με αλματώδες ρυθμούς. Η συλλογή δεδομένων είναι καλύτερη και πολύ φτηνότερη Η ανάγκη για ανάλυση και σύνθεση πληροφορίας αυξάνεται ημέρα με την ημέρα στο απαιτητικό επιχειρησιακό περιβάλλον της παγκοσμιοποιημένης οικονομίας.

20 http://www.demetercapital.com/wp-content/uploads/2015/07/image-credit-to-time-magazine.png

21 Νέες εφαρμογές Νέες εξεζητημένες επιχειρησιακές εφαρμογές περιλαμβάνουν : Πρόβλεψη και ανάλυση πωλήσεων Σχεδιασμός προωθητικών ενεργειών (marketing campaign) Μοντελοποίηση επιχειρηματικών αποφάσεων Τα συστήματα συναλλαγών δεν είναι σχεδιασμένα για να υποστηρίζουν τέτοιες εφαρμογές. Μεγάλες επιχειρήσεις έχουν πολλά OLTP συστήματα οπότε είναι απαραίτητο να ενοποιήσουμε την πληροφορία πριν την χρησιμοποιήσουμε. Ερώτηση: Γιατί τα συστήματα OLTP δεν μπορούν να χρησιμοποιηθούν για πρόβλεψη και ανάλυση πωλήσεων;

22 Γιατί τώρα; Οι λόγοι για τους οποίους υπάρχει μεγάλο ενδιαφέρον στην παρούσα στιγμή μπορούν να συνοψιστούν στους εξής: Συσσώρευση μεγάλου όγκου δεδομένων Μείωση του κόστους της υπολογιστικής ισχύος που χρειάζεται για τις εφαρμογές εξόρυξης δεδομένων Καλύτεροι αλγόριθμοι στατιστικής και μηχανικής μάθησης Διαθεσιμότητα λογισμικού Επιχειρηματική ανταγωνιστικότητα

23 Εφαρμογές Στα οικονομικά, τηλεπικοινωνίες, ασφάλειες, λιανικές πωλήσεις, όπως : Έγκριση δανείων/πιστωτικών καρτών Κατάτμηση αγοράς (market segmentation) Ανίχνευση απάτης Καλύτερες προωθητικές ενέργειες Ανάλυση τάσεων (trend analysis) Το καλάθι της νοικοκυράς (market basket analysis) Αποχώρηση και μετακίνηση πελάτη σε ανταγωνιστική εταιρεία (customer churn) Σχεδίαση ιστότοπου και διαφήμιση

24 Έγκριση δανείων/πιστωτικών καρτών Μια τράπεζα δεν γνωρίζει τους πελάτες της σε προσωπικό επίπεδο. Η μοναδική πληροφορία που έχει μια τράπεζα είναι αυτή που έχει καταχωρημένη στους υπολογιστές της. Τα πιστωτικά ιδρύματα και οι τράπεζες συλλέγουν πολλές πληροφορίας για την συμπεριφορά των πελατών τους από πολλές πηγές, ακόμη και το Facebook. Αυτή η πληροφορία χρησιμοποιείται για την δημιουργία μοντέλων για την ικανότητα και προθυμία ενός πελάτη να αποπληρώσει το δάνειό του.

25 Κατάτμηση αγοράς Μεγάλος όγκος πληροφοριών περιέχει πολύτιμη πληροφορία για τους πελάτες μιας επιχείρησης Η αγορά μπορεί να διαχωριστεί με πολλούς τρόπους όταν λάβουμε υπ όψιν σαν μεταβλητές αντιπροσωπευτικά γνωρίσματα πελατών και το είδος της αγοράς που μας ενδιαφέρει (πχ. νοικοκυριά, γυναίκες μέχρι 40 ετών κτλ. Δεν είναι πάντα εύκολο να βρούμε τις κατάλληλες μεταβλητές για την κατάτμιση

26 Κατάτμηση αγοράς http://3.bp.blogspot.com/-_3fzddtuvrc/vrnvumf7sii/aaaaaaaaada/twiil8dlify/s1600/market-segmentation.png

27 Ανίχνευση απάτης Αποτελεί δύσκολο εγχείρημα μια και είναι δύσκολο να ορίσουμε τα χαρακτηριστικά μιας απάτης. Συχνά ορίζεται σαν αποκλίνουσα συμπεριφορά από το σύνηθες. Το σύνηθες όμως θα πρέπει να οριστεί. Σημείωση : στην στατιστική συχνά δεν λαμβάνουμε υπ όψιν τις αποκλίνουσες τιμές. Στην εξόρυξη δεδομένων όμως είναι χρήσιμο να τις αναγνωρίσουμε και να τις εξετάσουμε μια και μπορεί να είναι είτε άχρηστα δεδομένα είτε δείγματα απάτης.

28 Ανίχνευση απάτης Τυπική προσέγγιση : Συσταδοποίηση (clustering), δημιουργία μοντέλου, αποκλίνουσες τιμές Εφαρμογές στον ιατρικό τομέα, λιανική, πιστωτικές κάρτες, τηλεπικοινωνίες : Ασφάλεια αυτοκινήτου : αριθμός ατυχημάτων Ξέπλυμα χρήματος : αριθμός «ύποπτων» συναλλαγών Ιατρική ασφάλεια : περιττές ή συσχετιζόμενες μεταξύ τους εξετάσεις Τηλεπικοινωνίες : προορισμός, διάρκεια και χρονικός προσδιορισμός κλήσης, πρότυπα συμπεριφοράς Λιανική : οι αιδήμονες υποστηρίζουν ότι τα έσοδα από πωλήσεις μειώνονται κατά 38% λόγω ανέντιμων υπαλλήλων Αντι-τρομοκρατία

29 Καλύτερες προωθητικές ενέργειες Όταν οι πελάτες αγοράζουν νέα προϊόντα, άλλα προϊόντα μπορούν να τους προταθούν όποτε είναι αυτά διαθέσιμα. Για παράδειγμα σε μια προωθητική ενέργεια μέσω τηλεφώνου, είναι χρήσιμο να γνωρίζουμε: Αν ο πελάτης άκουσε τον πωλητή πριν διακόψει την συνομιλία? Αν ο πελάτης αγόρασε και σε τι ποσότητα Αν ο πελάτης πρόκειται να επιστρέψει το προϊόν Αν ο πελάτης πλήρωσε για το προϊόν

30 Ανάλυση Τάσεων Σε μία μεγάλη επιχείρηση, οι τάσεις σε διαφόρους κρίσιμους δείκτες δεν είναι πάντα προβλέψιμες από το ανώτερο διοικητικό προσωπικό. Ούτε καν με την οπτικοποίηση που είναι πολύ χρήσιμο εργαλείο για συγκεκριμένο είδος αναλύσεων Χρειάζεται συχνά η χρήση τεχνικών εξόρυξης δεδομένων για να μπορέσουμε να ανιχνεύσουμε τις τάσεις. Οι τάσεις μπορεί να διαχωριστούν σε Βραχυπρόθεσμες Κυκλικές Εποχιακές

Ανάλυση καλαθιού αγοράς 31

32 Ανάλυση καλαθιού αγοράς Έχει σαν στόχο να ανακαλύψει τα προϊόντα που οι πελάτες προτιμούν καθώς και τα προϊόντα που αγοράζονται πάντα μαζί Χρήσιμο όταν χρειάζεται να αναδιοργανωθούν τα ράφια ενός καταστήματος ή να τοποθετηθούν προϊόντα με έκπτωση Μπορεί να χρησιμοποιηθεί επίσης και σε άλλες εφαρμογές, όπως συστήματα προτάσεων αγοράς (Amazon), θεματικές επιλογές (FaceBook) κτλ

33 Αποχώρηση πελάτη Στον τηλεπικοινωνιακό κλάδο, οι εταιρείες κάνουν πολύ μεγάλη προσπάθεια να κρατήσουν τους δικούς τους πελάτες και να πείσουν καλούς πελάτες άλλων εταιριών να έρθουν στο δικό τους δίκτυο. Οι εταιρίες θέλουν να μάθουν ποιοι πελάτες είναι συνεπείς, γιατί κάποιος πελάτης εγκαταλείπει την εταιρεία τι κάνει κάποιον πελάτη να μην θέλει να εγκαταλείψει την συγκεκριμένη εταιρεία. Είναι φτηνότερο για την εταιρεία να διατηρήσει έναν πελάτη από το να πείσει κάποιον πελάτης άλλης εταιρείας να προσχωρήσει στο δίκτυό της

34 Αποχώρηση πελάτη Ο σκοπός είναι να γνωρίσεις τους πελάτες σου καλύτερα ώστε να τους κρατήσεις περισσότερο. Δοθέντος του ανταγωνισμού, αν δεν φροντίσεις τους πελάτες σου αρκετά, αυτοί θα φύγουν προς μια άλλη εταιρεία. Επίσης, μερικές εταιρείες θέλουν να μάθουν ποιοι πελάτες κοστίζουν περισσότερο αν παραμείνουν από το να μετακινηθούν προς μια άλλη εταιρεία, πχ Κάτοχοι πιστωτικών καρτών που δεν κάνουν χρήση της κάρτας τους Πελάτες τράπεζας που δεν έχουν πολλά χρήματα στους λογαριασμούς τους

35 Σχεδιασμός ιστοχώρου Ένας καλός ιστότοπος είναι αποτελεσματικός εάν οι επισκέπτες βρίσκουν εύκολα αυτό που ψάχνουν Η εξόρυξη δεδομένων μας βοηθάει να ανακαλύψουμε Data mining can help discover τις προτιμήσεις των επισκεπτών σε συγκεκριμένες σελίδες ώστε η συνολική διάρθρωση του ιστοχώρου να αλλάξει βάσει αυτής της πληροφορίας. Η τεχνική που χρησιμοποιείται βασίζεται στην καταγραφή των επισκέψεων μέσω παραπομπών στο ιστοχώρο (clickstream)

36 Διαδικασία Εξόρυξης Δεδομένων Μια επιτυχημένη εξόρυξη δεδομένων εμπεριέχει μια προσεκτικό ορισμό των στόχων και μια προσεκτική επιλογή των δεδομένων που θα χρησιμοποιήσουμε. Τα βασικά βήματα που ακολουθούμε είναι τα εξής : 1. Ανάλυση απαιτήσεων 2. Συλλογή δεδομένων και επιλογή χαρακτηριστικών 3. Καθαρισμός και προετοιμασία δεδομένων 4. Επιλογή της κατάλληλης τεχνικής/αλγορίθμου 5. Εφαρμογή, αξιολόγηση, παρακολούθηση 6. Οπτικοποίηση αποτελεσμάτων

37 Ανάλυση απαιτήσεων Οι επιχειρησιακοί χρήστες θα πρέπει να ορίσουν τους στόχους που η εξόρυξη δεδομένων θα πρέπει να εκπληρώσει. Το επιχειρησιακό πρόβλημα θα πρέπει να είναι ξεκάθαρο και κατανοητό. Καμία εξόρυξη δεδομένων δεν θα έχει απτά αποτελέσματα αν δεν είναι γνωστό τι ψάχνουμε να βρούμε. Αν οι στόχοι είναι ξεκάθαροι, είναι πιο εύκολο να αξιολογήσουμε τα αποτελέσματα.

38 Συλλογή δεδομένων και επιλογή χαρακτηριστικών Επιλέγουμε την καλύτερη πηγή δεδομένων. Αν υπάρχει Αποθήκη Δεδομένων, τότε τα περισσότερα δεδομένα θα βρίσκονται εκεί. Διαφορετικά πρέπει να βρούμε τα ΣΣΒΔ που περιέχουν την πληροφορία, να την εξάγουμε και να την μεταφέρουμε σε κάποιο προσωρινό αποθηκευτικό μέσο. Σε μερικές περιπτώσεις μόνο ένα δείγμα των δεδομένων χρειάζεται. Επιλέγουμε τα πιο χρήσιμα χαρακτηριστικά. Δηλαδή εκείνα που θα μας δώσουν την περισσότερη πληροφορία.

39 Συλλογή δεδομένων και επιλογή χαρακτηριστικών Αρχικό σύνολο δεδομένων Επιλογή υποσυνόλου Αξιολόγηση χαρακτηριστικών Τρέχων καλύτερο υποσύνολο Όχι Κριτήριο Αποδοχής Ναι Επιλεγμένο υποσύνολο χαρακτηριστικών

40 Καθαρισμός και προετοιμασία δεδομένων Αν υπάρχει μια Αποθήκη Δεδομένων δεν χρειάζεται μεγάλη προσπάθεια γιατί ήδη τα δεδομένα έχουν περάσει τη διαδικασία καθαρισμού και ομοιογενοποίησης. Διαφορετικά θα χρειαστεί μεγάλη προσπάθεια που συνήθως χρειάζεται μέχρι και το 50% της συνολικής ανθρωποπροσπάθειας του εγχειρήματος. Πρακτικά θα πρέπει να δημιουργηθεί ένας χώρος όπου θα αποθηκευτούν δεδομένα από διάφορες και ετερογενής πηγές. Κατά τη διαδικασία καθαρισμού και ομοιογενοποίησης, θα υπάρξουν περιπτώσεις όπου θα υπάρξουν διπλοεγγραφές, τιμές που λείπουν κτλ. Θα πρέπει να οριστεί μια διαδικασία ETL (extraction, transformation and loading)

41 Επιλογή της κατάλληλης τεχνικής /αλγορίθμου Αν υποθέσουμε ότι υπάρχει διαθεσιμότητα αρκετών εργαλείων για εξόρυξη δεδομένων, το μοντέλο που θα επιλεγεί θα πρέπει να καλύπτει τις ανάγκες της επιχείρησης. Ένα δείγμα θα πρέπει να επιλεγεί και μια σειρά από τεχνικές θα πρέπει να εξεταστούν. Για κάθε τεχνική, τα αποτελέσματα θα πρέπει να αξιολογηθούν και η χρησιμότητά τους να ερμηνευτεί. Αυτή είναι μια επαναλαμβανόμενη διαδικασία, η οποία μπορεί να οδηγήσει να επιλεγούν παραπάνω από μια τεχνικές οι οποίες θα πρέπει να ελεγχθούν και να επικυρωθούν.

Τεχνικές εξόρυξης δεδομένων 42

43 Τεχνικές εξόρυξης δεδομένων Κατηγοριοποίηση τοποθετεί τα δεδομένα σε προκαθορισμένες ομάδες ή κλάσεις Καθοδηγούμενη εκμάθηση (Supervised learning) Αναγνώριση προτύπων (Pattern recognition) Πρόβλεψη (Prediction) Παλινδρόμηση χρησιμοποιείται για συσχετίσει μια πραγματική τιμή σε μια προβλεπόμενη τιμή. Συσταδοποίηση ομαδοποιεί όμοια δεδομένα σε συστάδες. Μη-καθοδηγούμενη εκμάθηση (Unsupervised learning) Κατάτμηση (Segmentation) Διχοτόμηση (Partitioning)

44 Εφαρμογή, αξιολόγηση, παρακολούθηση Εφόσον έχει επιλεγεί και επικυρωθεί ένας μόνο αλγόριθμος, τότε θα πρέπει να υλοποιηθεί. Αυτό μπορεί να περιλαμβάνει ανάπτυξη λογισμικού για τη δημιουργία αναφορών ή την οπτικοποίηση των αποτελεσμάτων για τα ανώτερο διοικητικά στελέχη.. Εάν υπάρχουν περισσότεροι από ένας αλγόριθμοι, τότε θα πρέπει να επιλέξουμε τον καλύτερο. Αυτό σημαίνει ότι πρέπει να ελέγξουμε την ακρίβεια των αποτελεσμάτων και την αποτελεσματικότητα του κάθε αλγορίθμου. Χρειάζεται τακτική παρακολούθηση της αποδοτικότητας Κάθε επιχείρηση εξελίσσεται. Το ίδιο θα πρέπει και η διαδικασία εξόρυξης δεδομένων. Η παρακολούθησης της διαδικασίας μπορεί να οδηγήσει σε βελτιώσεις και διορθώσεις των εργαλείων και τον αλγορίθμων που έχουν υλοποιηθεί.

45 Αναφορές και οπτικοποίηση αποτελεσμάτων Η παρουσίαση και επεξήγηση των αποτελεσμάτων στα ανώτερα στελέχη μια επιχείρησης είναι ένα από τα πιο σημαντικά βήματα της όλης διαδικασίας. Τα πιο πολλά εργαλεία Εξόρυξης Δεδομένων περιλαμβάνουν εργαλεία οπτικοποίησης των αποτελεσμάτων Αναφορές θα πρέπει να δομηθούν που να παρουσιάζουν τα αποτελέσματα. Αν υπάρχουν εργαλεία επιχειρηματικής ευφυΐας, θα πρέπει να δημιουργηθούν διαδραστικά ταμπλό για την παρουσίαση των αποτελεσμάτων

Βαθμός δυσκολίας Επιχειρηματική ευφυΐα και Analytics Προσομοίωση - Μοντελοποίηση Ποιο το καλύτερο σχέδιο δράσης Πως η θερμοκρασία -5C επηρεάζει τα φορτηγά μας Σχέδιο Δράσης (Ενέργειες που πρέπει να γίνουν) Ανάλυση συστάδων Πρόβλεψη (Τι πρόκειται να συμβεί) Ποιοι είναι οι καλύτεροι πελάτες μου Ποια η επόμενη αγορά τους Γραμμική Παλινδρόμηση Ανάλυση (Γιατί έγινε;) Παρακολούθηση (Τι συμβαίνει τώρα) Πόση ποσότητα θα εμπορεύματος θα χρειαστούμε Ποια θα είναι τα έξοδα στο τέλος τους χρόνου Περιγραφική στατιστική Αναφορές (Τι έγινε;) Πόση ποσότητα εμπορεύματος έχουμε Ποια τα τρέχοντα έξοδα

47 CRSIP-DM. Η διαδικασία CRISP DM (Cross Industry Standard Process for Data Mining) είναι μια ακολουθία βημάτων και καλών πρακτικών για την ανάπτυξη μοντέλων εξόρυξης δεδομένων. Προτυποποιήθηκε από μια ομάδα εταιριών και σε πρόσφατες ψηφοφορίες αναδύχθηκε η δημοφιλέστερη. Υποστηρίζεται από όλα τα γνωστά εμπορικά πακέτα εξόρυξης δεδομένων, όπως SAS, IBM Data Modeler

48 CRISP DM Τα έξι βήματα της διαδικασία CRISP DM είναι τα εξής: 1. Κατανόηση του επιχειρηματικού στόχου (Business understanding) 2. Κατανόηση των δεδομένων (Data understanding) 3. Προετοιμασία των δεδομένων (Data preparation) 4. Κατασκευή μοντέλου (Modelling) 5. Αξιολόγηση (Evaluation) 6. Ανάπτυξη-Υλοποίηση (Deployment)

CRISP Data Mining Model 49

50 Αλγόριθμοι εξόρυξης δεδομένων Αν και η εξόρυξη δεδομένων είναι ένα σχετικά νέο πεδίο, αρκετές από τις τεχνικές που χρησιμοποιεί έχουν αναπτυχθεί εδώ και καιρό από άλλες επιστήμες Μηχανική μάθηση, στατιστική, τεχνική νοημοσύνη κτλ Οι τεχνικές αυτές σε μερικές περιπτώσεις έχουν τροποποιηθεί, ώστε να μπορέσουν να εφαρμοστούν σε πολλά δεδομένα

51 Τεχνικές Εξόρυξης Δεδομένων Ανάλυση συσχετισμών (Association analysis) Ταξινόμηση (classification) και πρόβλεψη (prediction) Ανάλυση συστάδων (cluster analysis) Εξόρυξη δεδομένων από τον Παγκόσμιο Ιστό (Web data mining) Μηχανές αναζήτησης Ανάλυση χρονοσειρών

52 Ανάλυση συσχετίσεων Η ανάλυση συσχετίσεων αφορά στην ανακάλυψη σχέσεων ή συσχετισμών ανάμεσα σε ένα σύνολο από αντικείμενα. Παραδείγματα είναι : Κάποιος που έχει πάρει καταναλωτικό δάνειο το αποπληρώνει με πιθανότητα 80% εάν είναι ιδιοκτήτης κατοικίας. Κάποιος που αγοράζει πάνες, αγοράζει και μπύρα.

53 Κατηγοριοποίηση και πρόβλεψη Σε ένα σύνολο αντικειμένων, με το κάθε αντικείμενο να έχει ορισμένα χαρακτηριστικά και να ανήκει σε μια συγκεκριμένη κατηγορία, εφαρμόζουμε έναν αλγόριθμο. Ο αλγόριθμος δίνει κάποιες «οδηγίες» βάσει του παραπάνω συνόλου για την αντιστοίχιση νέων αντικειμένων στις κλάσεις «κατάταξης». Η κατηγοριοποίηση χρησιμοποιείται για την πρόβλεψη της κλάσης που ανήκει ένα αντικείμενο. Τέτοιες τεχνικές είναι η λογιστική παλινδρόμηση, τα δένδρα απόφασης, τα νευρωνικά δίκτυα κτλ

54 Συσταδοποίηση Είναι τεχνική παρόμοια με την κατηγοριοποίηση με σκοπό την διαμόρφωση συστάδων(clusters) έτσι ώστε κάθε μία από αυτές τις συστάδες να έχει όμοια αντικείμενα, αλλά διαφορετικά σε σχέση με τις υπόλοιπες συστάδες Η συσταδοποίηση δεν χρειάζεται αντικείμενα με συγκεκριμένη κλάση. Βασίζεται στην αρχή της μεγιστοποίησης της ομοιότητας μέσα στην ίδια συστάδα (intracluster similarity) και ελαχιστοποίησης της ομοιότητας ανάμεσα στις συστάδες (intercluster similarity.)

55 Οδηγίες για μια επιτυχημένη εξόρυξη δεδομένων Τα δεδομένα πρέπει να είναι διαθέσιμα Τα δεδομένα πρέπει να είναι σχετικά με τον στόχο της εξόρυξης δεδομένων αρκετά για την τεχνική που πρέπει να εφαρμόσουμε να έχει εφαρμοστεί μια διαδικασία «καθαρισμού» Το πρόβλημα θα πρέπει να είναι καθορισμένο Το πρόβλημα δεν θα πρέπει να επιλύεται με τη χρήση ερωτημάτων SQL ή OLAP Τα αποτελέσματα θα πρέπει να οδηγούν σε ενέργειες

Ευχαριστώ Πασχάλης Θρήσκος PhD pthriskos@mnec.gr