Πως μπορούν να χρησιμοποιηθούν ιστορικά δεδομένα για την κατασκευή



Σχετικά έγγραφα
Η ΕΠΑΝΑΣΤΑΣΗ ΤΟΥ ΚΡΙΟΥ

Data Mining: Στοχεύοντας στους σωστούς πελάτες. Αριστομένης Μακρής

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

Κεφάλαιο 1 ο. Διοίκηση και διαχείριση της ψηφιακής επιχείρησης

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 1 ο : Εισαγωγή στην γλωσσική τεχνολογία. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Στόχος της ψυχολογικής έρευνας:

Διδάκτορας Οικονομικού Πανεπιστημίου Αθηνών

ΓΕΩΠΟΝΙΚΗ ΣΧΟΛΗ ΑΠΘ Εργαστήριο Πληροφορικής στη Γεωργία ΠΛΗΡΟΦΟΡΙΚΗ Ι

Managing Information. Lecturer: N. Kyritsis, MBA, Ph.D. Candidate Athens University of Economics and Business.

Τεχνικές Εξόρυξης Δεδομένων

Πληροφοριακό Σύστημα Επιχειρηματικής Ευφυίας για την Oμαδοποίηση Πελατών Λιανικής

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

Τ.Ε.Ι. ΑΝΑΤΟΛΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΚΑΙ ΘΡΑΚΗΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ & ΕΠΙΧΕΙΡΗΣΕΩΝ

Μέρος Β /Στατιστική. Μέρος Β. Στατιστική. Γεωπονικό Πανεπιστήμιο Αθηνών Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (

Έρευνα Μάρκετινγκ Ενότητα 5

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

ΟΙΚΟΝΟΜΕΤΡΙΑ. Ενότητα 2: Παλινδρόμηση. Αναπλ. Καθηγητής Νικόλαος Σαριαννίδης Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά)

Μέθοδοι Μηχανικής Μάθησης στην επεξεργασία Τηλεπισκοπικών Δεδομένων. Δρ. Ε. Χάρου

ΔΙΟΙΚΗΣΗ ΠΑΡΑΓΩΓΗΣ. ΕΝΟΤΗΤΑ 4η ΠΡΟΒΛΕΨΗ ΖΗΤΗΣΗΣ

Οικονομία - Επιχειρήσεις Μάρκετινγκ 1

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

ΤΕΙ ΚΕΝΤΡΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ

Περιεχόμενα. Πρόλογος... 15

Η συνολική εικόνα. Ποιοτική Αναβάθμιση δεδομένων. Λογισμικό Επικοινωνιών DATA WAREHOUSE. Σχεδιασμός Ενοποίηση Επιλογή Συγχρονισμός Συντονισμός

Ηλεκτρονικό εμπόριο. HE 8 Εξατομίκευση

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών

Δρ. Βασίλειος Γ. Καμπουρλάζος Δρ. Ανέστης Γ. Χατζημιχαηλίδης

«Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα»

ΟΜΑΔΑ Λ. Αναστασίου Κωνσταντίνος Δεληγιάννη Ισαβέλλα Ζωγοπούλου Άννα Κουκάκης Γιώργος Σταθάκη Αρετιάννα

Ονομάζομαι Βασιλάκος Γιάννης και είμαι Αντιπρόεδρος και Διευθύνων. Σύμβουλος της Κωτσόβολος, εταιρίας του Ομίλου Dixons Carphone με

Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα

Η Oracle ανακοίνωσε την πιο ολοκληρωμένη λύση στον τομέα της Ανάλυσης δεδομένων στο Cloud

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 2 ο : Βασικές έννοιες. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

Εξόρυξη Γνώσης από Βιολογικά εδομένα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΕΠΛ 003.1: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ. Για διοικητικά στελέχη

Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

Είδη Groupware. Λογισμικό Συνεργασίας Ομάδων (Groupware) Λογισμικό Groupware. Υπάρχουν διάφορα είδη groupware ανάλογα με το αν οι χρήστες εργάζονται:

ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ. Εισαγωγή στην Εξόρυξη Δεδομένων Πασχάλης Θρήσκος, PhD Λάρισα

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ. Κατηγορίες Πληροφοριακών Συστημάτων Διοικητικής Υποστήριξης

Αλεξάνδρειο ΣΕΙ Θεσσαλονίκης 1. Σμήμα Διοίκησης Επιχειρήσεων 2. Σμήμα Μηχανικών Πληροφορικής

Πληροφοριακά Συστήματα Διοίκησης

Ανάκτηση Πληροφορίας

Ο ΚΑΤΑΝΑΛΩΤΗΣ ΣΤΟ INTERNET

Εταιρικοί Πελάτες. Delving into deep waters Οι νέες τεχνολογίες στην e-fresh.gr

Ενότητα 1: Εισαγωγή. ΤΕΙ Στερεάς Ελλάδας. Τμήμα Φυσικοθεραπείας. Προπτυχιακό Πρόγραμμα. Μάθημα: Βιοστατιστική-Οικονομία της υγείας Εξάμηνο: Ε (5 ο )

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΔΙΟΙΚΗΣΗΣ

Μάρκετινγκ Επιχειρήσεων Λιανικής Πώλησης

Θεμελιώδεις Αρχές Συστημάτων Βάσεων Δεδομένων

Μεθοδολογίες Αξιοποίησης Δεδομένων

Πληροφοριακά Συστήματα Διοίκησης. Διοικητική Επιστήμη και Λήψη Αποφάσεων

Ενότητα 3: Διαχείριση πληροφοριακών πόρων με τη χρήση βάσεων δεδομένων

ΕΠΛ 003.3: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ. Για οικονομολόγους

Περιγραφή Μαθήματος. Περιγραφή Περιεχόμενο του Μαθήματος

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ. Ερωτήσεις πολλαπλής επιλογής. Συντάκτης: Δημήτριος Κρέτσης

Μηχανική Λογισμικού για Διαδικτυακές & Φορητές Εφαρμογές

A ΕΠΑ.Λ ΕΦΑΡΜΟΓΕΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 5 η ΕΝΟΤΗΤΑ: ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ. Εκπαιδευτικοί: ΓΑΛΑΝΟΣ ΓΕΩΡΓΙΟΣ ΜΠΟΥΣΟΥΝΗΣ ΚΩΝΣΤΑΝΤΙΝΟΣ

Ηλεκτρονικό Εμπόριο. Ενότητα 6: Διαχείριση Σχέσεων με Πελάτες Σαπρίκης Ευάγγελος Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά)

ΑΝΤΙΚΕΙΜΕΝΟΣΤΡΕΦΗΣ ΑΝΑΛΥΣΗ Επιχειρηματική Μοντελοποίηση. Ιωάννης Σταμέλος Βάιος Κολοφωτιάς Πληροφορική

ΕΠΙΔΡΩΝΤΕΣ ΠΑΡΑΓΟΝΤΕΣ ΣΤΗ ΛΗΨΗ ΑΠΟΦΑΣΕΩΝ ΜΑΡΚΕΤΙΝΓΚ

HMY 795: Αναγνώριση Προτύπων

ΣΧΟΛΗ ΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ. Δρ.Αριστέα Γκάγκα

Εξόρυξη Γνώσης από εδοµένα (data mining)

ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΡΟΗ: ΣΤΑΤΙΣΤΙΚΗ-ΠΙΘΑΝΟΤΗΤΕΣ ΜΑΘΗΜΑ: ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ ΔΗΜΗΤΡΑ ΤΑΤΣΙΟΥ

E- Marketing: Το Marketing στη νέα ψηφιακή εποχή. Δημήτρης Καραβασίλης Παναγιώτης Μίλης Θεσσαλονίκη, Ιούνιος 2018

ΕΝΟΤΗΤΑ 1 - Νέες Τεχνολογίες Πληροφοριών και Επικοινωνίας. 1ο ΥΠΟΚΕΦΑΛΑΙΟ: ΤΠΕ (Τεχνολογία Πληροφοριών και Επικοινωνιών)

Αναγνώριση Προτύπων Ι

Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας. Παρουσίαση Νο. 1. Εισαγωγή

ΑΝΑΛΥΣΗ Ε ΟΜΕΝΩΝ 1. ΕΙ Η Ε ΟΜΕΝΩΝ, ΣΥΛΛΟΓΗ, ΚΩ ΙΚΟΠΟΙΗΣΗ ΚΑΙ ΕΙΣΑΓΩΓΗ

ΓΕΩΓΡΑΦΙΚΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΩΝ ΓΕΩΓΡΑΦΙΚΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΩΝ - ΕΝΟΤΗΤΑ 1 7/4/2013 ΕΝΟΤΗΤΕΣ ΜΑΘΗΜΑΤΟΣ. Ορισμός

ΕΠΙΧΕΙΡΗΣΙΑΚΗ ΕΡΕΥΝΑ ΘΕΩΡΙΑ ΚΑΙ ΕΦΑΡΜΟΓΗ ΤΟΥ ΓΡΑΜΜΙΚΟΥ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ ΣΤΗ ΛΗΨΗ ΑΠΟΦΑΣΕΩΝ (1)

Media Monitoring. Ενότητα 2: Η ανάλυση περιεχομένου. Σταμάτης Πουλακιδάκος Σχολή ΟΠΕ Τμήμα ΕΜΜΕ

CRM Υλοποίηση Εφαρμογής: Λύσεις και Πλεονεκτήματα

Κύρια σημεία. Η έννοια του μοντέλου. Έρευνα στην εφαρμοσμένη Στατιστική. ΈρευναστηΜαθηματικήΣτατιστική. Αντικείμενο της Μαθηματικής Στατιστικής

Πληροφορική (BSc & MSc)

ΠΕΡΙΓΡΑΜΜΑ ΜΑΘΗΜΑΤΟΣ

Διοικητική Επιστήμη. Ενότητα # 3: ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΚΑΙ ΛΗΨΗ ΑΠΟΦΑΣΕΩΝ. Διδάσκων: Μανασάκης Κωνσταντίνος

Εισαγωγή στην υδροπληροφορική και βελτιστοποίηση συστημάτων υδατικών πόρων

723 Τεχνολογίας Πληροφορικής και Τηλεπικοινωνιών ΤΕΙ Λάρισας

ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ

1 Συστήματα Αυτοματισμού Βιβλιοθηκών

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ

Εισαγωγή στην υδροπληροφορική και βελτιστοποίηση συστημάτων υδατικών πόρων

Εξαγωγή Μετασχηματισμός Εισαγωγή Δεδομένων στην Αποθήκη Πληροφοριών (ETL) ETL) Αριστομένης Μακρής

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

219 Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Θεσσαλονίκης

Πίνακας περιεχομένων. Μέρος 1ο ΑΝΤΑΓΩΝΙΣΤΙΚΟ ΠΛΕΟΝΕΚΤΗΜΑ ΜΕΣΩ ΤΩΝ LOGISTICS

Εξόρυξη Δεδομένων Data Mining

Β.δ Επιλογή των κατάλληλων εμπειρικών ερευνητικών μεθόδων

«Καθοριστικοί παράγοντες της αποτελεσματικότητας της από στόμα-σε-στόμα επικοινωνίας στις ιστοσελίδες κοινωνικής δικτύωσης»

Πληροφοριακά Συστήματα Διοίκησης

ΠΑΝΕΠΙΣΤΗΜΙΑΚΗ-ΕΠΙΧΕΙΡΗΜΑΤΙΚΗ ΣΥΝΕΡΓΑΣΙΑ (ΠΕΣ)

Κασταλία Σύστηµα στοχαστικής προσοµοίωσης υδρολογικών µεταβλητών

Συστήματα Επιχειρηματικής Ευφυίας. Εισαγωγικές Έννοιες

ΔΕΙΓΜΑΤΟΛΗΨΙΑ ΧΡΟΝΟΣΗΜΑΣΜΕΝΩΝ, ΑΚΟΛΟΥΘΙΑΚΩΝ, ΣΥΝΘΕΤΩΝ ΤΥΠΩΝ ΔΕΔΟΜΕΝΩΝ

OMICRON SYSTEMS ΕΤΑΙΡΙΚΟ ΠΡΟΦΙΛ. Σεπτέμβριος 2018

ΑΚΑΔΗΜΙΑ ΤΩΝ ΠΟΛΙΤΩΝ

Πρόγραμμα εξ Αποστάσεως Εκπαίδευσης E-Learning. Στρατηγικό Μάρκετινγκ και Μάνατζμεντ. E-learning. Οδηγός Σπουδών

Transcript:

ΜΕΡΟΣ Α ΕΙΣΑΓΩΓΗ

ΚΕΦΑΛΑΙΟ 1 Εξόρυξη Δεδομένων

22 Η επανάσταση του ΚΡΙΟΥ 1.1 Εισαγωγή Το Data Mining αποτελεί μια νέα ερευνητική περιοχή, ραγδαία εξελισσόμενη, που είναι η τομή πολλών θεωριών και επιστημών, συμπεριλαμβανομένων της στατιστικής, των βάσεων δεδομένων, της τεχνητής νοημοσύνης, της βελτιστοποίησης, της αναγνώρισης σχεδίων κ.ά. Η αυξανόμενη προσοχή που δίνεται σήμερα, στο Data Mining, οφείλεται στο γεγονός ότι οι περισσότεροι άνθρωποι στις μέρες μας έχουν «βάσεις δεδομένων». Σημαντικό ρόλο στην εξέλιξη αυτή παίζουν δύο παράγοντες: το μειωμένο κόστος των ηλεκτρονικών υπολογιστών και των αποθηκευτικών μέσων και, η επιτυχία των συστημάτων βάσεων δεδομένων που αποτελούν «καθεστώς» σε πολλές δραστηριότητες στις επιστήμες, στις επιχειρήσεις και στην κρατική διοίκηση. Με την ευρεία χρήση των βάσεων δεδομένων και την εκρηκτική αύξηση των μεγεθών τους, ιδιώτες και οργανισμοί βρέθηκαν αντιμέτωποι με το πρόβλημα να καταστήσουν ωφέλιμα τα δεδομένα τους. Παραδοσιακά, η χρήση των δεδομένων περιοριζόταν σε ερωτήματα πάνω τους, από καλά σχεδιασμένες ε- φαρμογές και γεννήτριες αναφορών. Ενώ αυτή η χρήση είναι ικανοποιητική για μεγάλο αριθμό καλά οριζόμενων διαδικασιών, δεν υπήρχε σχεδιασμός για την υποστήριξη εξερεύνησης των δεδομένων, για συστήματα στήριξης αποφάσεων και διαχείρισης γνώσης. Σήμερα, που η συλλογή και η αποθήκευση δεδομένων έχει γίνει εύκολη και φτηνή, προκύπτουν νέες προκλήσεις: Μπορούν τα δεδομένα να βοηθήσουν μια εταιρία να αποκτήσει ανταγωνιστικά πλεονεκτήματα; Πως μπορούν να χρησιμοποιηθούν ιστορικά δεδομένα για την κατασκευή μοντέλων; Μπορεί να προβλεφθεί η συμπεριφορά τους; Οι προκλήσεις αυτές έγιναν ιδιαίτερα σημαντικές με την παρουσία τεράστιων όγκων δεδομένων. Μια μεγάλη βάση δεδομένων αντιπροσωπεύει ένα μεγάλο όγκο πληροφορίας που δεν μπορεί να καταστεί πολύτιμος με τα υπάρχοντα

Κεφ. 1 - Εξόρυξη Δεδομένων 23 συστήματα διαχείρισης, τα οποία δεν υποστηρίζουν εξερεύνηση, πλοήγηση, δημιουργία μοντέλων. Η παροχή αυτών των δυνατοτήτων και περισσότερων είναι ο στόχος της ερευνητικής περιοχής του Data Mining. Το Data Mining, σκοπό έχει, την ανακάλυψη της χρήσιμης πληροφορίας από μεγάλες συλλογές δεδομένων. Η ανακαλυπτόμενη γνώση μπορεί να έχει την μορφή κανόνων που περιγράφουν ιδιότητες των δεδομένων, μπορεί να είναι συχνά εμφανιζόμενα σχέδια είτε κατηγοριοποίηση των αντικειμένων σε βάσεις δεδομένων. 1.2 Ορισμός Ο ορισμός της έννοιας του Data Mining, αν και σχετικά νέας στον επιστημονικό και ερευνητικό χώρο, συναντά πολλές εκδοχές, οι περισσότερες εκ των οποίων, όμως, ξεκινούν από μια κοινή βάση: την ανακάλυψη πολύτιμης πληροφορίας. Data Mining είναι η διαδικασία που χρησιμοποιείται για την ανακάλυψη κρυμμένης πληροφορίας από σύνολα δεδομένων, με τέτοιο τρόπο ώστε αυτή να είναι κατανοητή και εύκολα εκμεταλλεύσιμη για τον κάτοχο τους. Παρακάτω παρατίθενται διάφοροι ορισμοί που απαντώνται στην σχετική βιβλιογραφία: Data mining είναι η ανάλυση (συχνά μεγάλων) συνόλων δεδομένων ώστε να ανακαλύψουμε σχέσεις που δεν υποψιαζόμαστε ότι υπάρχουν και να συνοψίσουμε τα δεδομένα με νέους τρόπους που να είναι εξίσου κατανοητά και χρήσιμα στον ιδιοκτήτη τους. Data mining είναι η εξαγωγή της υπονοούμενης, προηγουμένως άγνωστης και χρήσιμης πληροφορίας από τα δεδομένα. Data mining είναι η διαδικασία ανακάλυψης ενδιαφέρουσας γνώσης από μεγάλες ποσότητες δεδομένων που είναι αποθηκευμένα είτε σε βάσεις δεδομένων είτε σε αποθήκες δεδομένων είτε σε οποιαδήποτε άλλη αποθήκη πληροφορίας. Data Mining είναι η διαδικασία της εξερεύνησης και ανάλυσης, με αυτόματα μέσα, μεγάλων ποσοτήτων δεδομένων με σκοπό την ανακάλυψη σχεδίων με σημασία και κανόνων.

24 Η επανάσταση του ΚΡΙΟΥ 1.3 Ιστορικό Στις μέρες μας το Data Mining είναι πλέον θέμα, σε πολλά άρθρα σε περιοδικά πληροφορικής αλλά και σε περιοδικά επιχειρηματικού και οικονομικού ενδιαφέροντος. Ωστόσο, μόλις πριν λίγα χρόνια, ελάχιστοι άνθρωποι είχαν ακούσει τον όρο. Οι ρίζες του data mining ξεκινούν από την κλασική επιστήμη της στατιστικής. Χωρίς την στατιστική δεν θα μπορούσε να υπάρχει το Data Mining, καθώς η στατιστική είναι ο θεμέλιος λίθος των περισσότερων τεχνολογιών, πάνω στις οποίες χτίστηκε το Data Mining. Η κλασική στατιστική περιέχει θεωρίες όπως η ανάλυση παλινδρόμησης, η σταθερή κατανομή, η σταθερή απόκλιση, η α- νάλυση ομάδων και πολλές ακόμα, οι οποίες χρησιμοποιούνται για την μελέτη δεδομένων και σχέσεων μεταξύ αυτών. Είναι βέβαιο ότι η κλασική στατιστική παίζει βασικό ρόλο στα εργαλεία και στις τεχνικές του Data Mining στις μέρες μας. Σημαντικό ρόλο στην εξέλιξη του Data Mining είχε και η τεχνητή νοημοσύνη (artificial intelligence). Η τεχνητή νοημοσύνη δημιουργήθηκε ως το αντίπαλο δέος της στατιστικής, προσπαθώντας να εφαρμόσει στην επεξεργασία στατιστικών προβλημάτων, διαδικασίες ανθρώπινου τρόπου σκέψης. Επειδή η προσέγγιση αυτή απαιτούσε μεγάλη υπολογιστική ισχύ, ήταν πρακτικά αδύνατο να εφαρμοσθεί, έως τις αρχές της δεκαετίας του 80, όταν εμφανίσθηκαν οι πρώτοι ηλεκτρονικοί υπολογιστές με μεγάλη επεξεργαστική ικανότητα και λογικές τιμές. Η τεχνητή νοημοσύνη βρήκε εφαρμογή σε υψηλά επιστημονικά και κυβερνητικά επίπεδα, αλλά πολλές από τις αρχές της, υιοθετήθηκαν από εμπορικά προϊόντα, όπως κομμάτια που αφορούν βελτιστοποίηση ερωτημάτων για σχεσιακά συστήματα διαχείρισης βάσεων δεδομένων. Προάγγελο του Data Mining αποτέλεσε και η εκμάθηση μηχανής (machine learning), η οποία περιγράφεται, με μεγαλύτερη ακρίβεια, ως η ένωση της στατιστικής και της τεχνητής νοημοσύνης. Καθώς η τεχνητή νοημοσύνη δεν αποτέλεσε εμπορική επιτυχία, οι τεχνικές της, σε μεγάλο ποσοστό υιοθετήθηκαν από την εκμάθηση μηχανής. Η εκμάθηση μηχανής εκμεταλλευόμενη τις ολοένα και καλύτερες προσφορές υπολογιστών σε χαμηλές τιμές αλλά με μεγάλες δυνατότητες, βρήκε μεγαλύτερη εφαρμογή, επειδή η αρχική τιμή των προϊόντων της ήταν χαμηλότερη από αυτή της τεχνητής νοημοσύνης. Η εκμάθηση μηχανής μπορεί να θεωρηθεί ως η εξέλιξη της τεχνητής νοημοσύνης, επειδή χρησιμοποιεί ευρήματα της δεύτερης συνεπικουρούμενα από στατιστική ανάλυση και επικεντρώνεται στην εκμάθηση από τα προγράμματα υπολο-

Κεφ. 1 - Εξόρυξη Δεδομένων 25 γιστών των δεδομένων που μελετούν, έτσι ώστε τα προγράμματα να παίρνουν διαφορετικές αποφάσεις ανάλογα με την ποιότητα των δεδομένων που ερευνούνται, χρησιμοποιώντας στατιστική για θεμελιώδεις αρχές και προσθέτοντας πιο πλήρη ευρήματα τεχνητής νοημοσύνης και αλγόριθμους προκειμένου να πετύχει τους στόχους της. Το Data Mining, κατά μια έννοια, είναι η βασική προσαρμογή των τεχνικών εκμάθησης μηχανής σε εμπορικές εφαρμογές. Περιγράφεται καλύτερα ως η ένωση των ιστορικών και πρόσφατων ανακαλύψεων στην στατιστική, την τεχνητή νοημοσύνη και την εκμάθηση μηχανής. Αυτές οι τεχνικές, χρησιμοποιούνται μαζί για να μελετήσουν τα δεδομένα και να βρουν κρυμμένες τάσεις και σχέδια σε αυτά. Το Data Mining βρίσκει διαρκώς αυξανόμενη αποδοχή σε επιστημονικές και σε επιχειρηματικές περιοχές που απαιτούν την ανάλυση μεγάλων ποσοτήτων δεδομένων για την ανακάλυψη τάσεων, που σε άλλη περίπτωση δεν θα μπορούσαν να ανακαλυφθούν. 1.4 Χρήσεις Το Data Mining έχει πλέον ευρύ πεδίο εφαρμογής. Χαρακτηριστικά παραδείγματα χρήσης των εφαρμογών του είναι τα ακόλουθα: Εμπόριο Διαφήμιση: Το Data Mining χρησιμοποιείται για την αναγνώριση των αγοραστικών συνηθειών των πελατών, για την ανακάλυψη σχέσεων μεταξύ των πελατών και των προϊόντων, για την ανάλυση του καλαθιού αγοράς των πελατών καθώς και για την πρόβλεψη ανταπόκρισης των πελατών σε διαφημιστικές καμπάνιες. Τράπεζες: Η χρήση του Data Mining έγκειται στην αναγνώριση απάτης από χρήση πιστωτικών καρτών, στην ανακάλυψη πιστών πελατών, στην πρόβλεψη οικονομικών μεγεθών, στην παρακολούθηση μετακίνησης πελατών, στην πρόβλεψη απώλειας πελατών, στην ανακάλυψη κρυμμένων συσχετισμών μεταξύ τραπεζικών προϊόντων, στον ορισμό χρηματοοικονομικών κανόνων. Ασφάλεια και Υγεία: Οι εφαρμογές του Data Mining στοχεύουν στην πρόβλεψη αγοράς νέων ασφαλιστικών προϊόντων, στην αναγνώριση συμπεριφοράς «επικίνδυνων» πελατών, στην ανακάλυψη απάτης, στην ανάλυση απαιτήσεων πελατών. Μεταφορές: Το Data Mining συνεισφέρει στην ανάλυση των μετακινήσεων, στην καλύτερη εκμετάλλευση των δρομολογίων των μέσων μαζικής μεταφοράς.

26 Η επανάσταση του ΚΡΙΟΥ Φαρμακευτική: Εφαρμογές του Data Mining βοηθούν στον χαρακτηρισμό της συμπεριφοράς πελάτη για την πρόγνωση των επισκέψεων, στην αναγνώριση επιτυχών θεραπειών για διαφορετικές ασθένειες. Τα μέσα ενημέρωσης παίζουν και αυτά μεγάλο ρόλο στην προβολή επιτυχημένων παραδειγμάτων εφαρμογής και χρήσης Data Mining στον πραγματικό κόσμο. Στον επιστημονικό χώρο και συγκεκριμένα στον χώρο της αστρονομίας, σημειώθηκε αξιοσημείωτη επιτυχία από το σύστημα SKIGAT που χρησιμοποιήθηκε από τους επιστήμονες για την ανάλυση εικόνων και την κατηγοριοποίηση αντικειμένων του ουρανού από μια πλειάδα εικόνων. Στον επιχειρηματικό χώρο τα παραδείγματα είναι ακόμα περισσότερα. Σήμερα τα συστήματα που υιοθετούνται είναι αυτά που αναγνωρίζουν τις διαφορετικές ομάδες πελατών και προβλέπουν την συμπεριφορά τους. Στις Ηνωμένες Πολιτείες οι μισές επιχειρήσεις χρησιμοποιούν τέτοιου είδους συστήματα με καλά αποτελέσματα, ενώ και οι υπόλοιπες σκέφτονται να τα χρησιμοποιήσουν. Χαρακτηριστικό παράδειγμα η American Express που ανέφερε αύξηση 10%-15% στην χρήση των πιστωτικών καρτών, με την υιοθέτηση μεθόδων Data Mining για την ανάλυση των δεδομένων. 1.5 Διαδικασίες Ανακάλυψης Γνώσης Ο όρος Data Mining συχνά χρησιμοποιείται ως συνώνυμο όλης της διαδικασίας εξαγωγής χρήσιμης πληροφορίας από μια βάση δεδομένων, που ονομάζεται ανακάλυψη γνώσης (Knowledge Discovery) σε βάσεις δεδομένων. Η διαδικασία αυτή είναι γενικότερη και περιλαμβάνει και άλλα βήματα πλην του Data Mining. Το Data Mining είναι ένα βήμα της συνολικής διαδικασίας και συγκεκριμένα η εφαρμογή αλγορίθμων για την ανακάλυψη σχεδίων και κανόνων από τα δεδομένα. Η διαδικασία φαίνεται σχηματικά παρακάτω (Εικόνα 1):

Κεφ. 1 - Εξόρυξη Δεδομένων 27 Συλλογή Δεδομένων / Δείγμα Καθαρισμός/ Προεπεξεργασία Μετασχηματισμός / Προβολή Data Mining Δομές: Σχέδια και Μοντέλα Κριτήρια Υπολογισμού Αποθήκη Δεδομένων ΓΝΩΣΗ Εικόνα 1. Διαδικασία ανακάλυψης γνώσης Η διαδικασία ανακάλυψης γνώσης είναι διαδραστική και επαναληπτική. Περιλαμβάνει αρκετά βήματα και πολλές αποφάσεις λαμβάνονται από τον χρήστη. Τα βήματα είναι τα ακόλουθα : 1. Κατασκευή και κατανόηση του περιβάλλοντος της εφαρμογής: Στο σημείο αυτό λαμβάνεται υπόψη και προηγούμενη σχετική γνώση και καθορίζεται ο στόχος της διαδικασίας ανακάλυψης γνώσης από την οπτική ματιά του πελάτη. 2. Δημιουργία του στοχευόμενου συνόλου δεδομένων: Το βήμα αυτό εμπεριέχει την συλλογή των δεδομένων ή την εστίαση σε ένα υποσύνολο από μεταβλητές ή δείγμα των δεδομένων, πάνω στα οποία θα ε- πιχειρηθεί η ανακάλυψη.

28 Η επανάσταση του ΚΡΙΟΥ 3. Καθαρισμός και προεπεξεργασία των δεδομένων: Οι βασικές ενέργειες είναι η απαλοιφή του θορύβου αν κρίνεται απαραίτητο, η συλλογή της κατάλληλης πληροφορίας για την μέτρηση του θορύβου, η α- πόφαση για την στρατηγική που θα ακολουθηθεί για χαμένες τιμές δεδομένων. 4. Μετασχηματισμός και προβολή των δεδομένων: Σκοπός είναι η εύρεση χρήσιμων χαρακτηριστικών για την παρουσίαση των δεδομένων ανάλογα με τον στόχο της εργασίας. 5. Ταίριασμα των στόχων της διαδικασίας ανακάλυψης με μια συγκεκριμένο μέθοδο Data Mining, για παράδειγμα ταξινόμηση, παλινδρόμηση, ομαδοποίηση, κ.ά. 6. Επιλογή μοντέλων: Σε αυτό το βήμα επιλέγονται οι Data Mining αλγόριθμοι και οι μέθοδοι που θα χρησιμοποιηθούν. Η επιλογή των αλγορίθμων και των μεθόδων αποφασίζεται ανάλογα με τον τύπο των δεδομένων. Για παράδειγμα, διαφορετικοί αλγόριθμοι χρησιμοποιούνται για αριθμητικές μεταβλητές και άλλοι για λογικές μεταβλητές. 7. Data Mining: Έρευνα για ενδιαφέροντα και πολύτιμα σχέδια μεταξύ των δεδομένων. 8. Μετάφραση των σχεδίων που ανακαλύπτονται και επανάληψη ό- ποιων από τα πρώτα εφτά βήματα απαιτούνται. 9. Χρήση της γνώσης: Στο τελικό βήμα χρησιμοποιείται η γνώση που αποκτήθηκε είτε για την εξαγωγή χρήσιμων συμπερασμάτων, είτε για την αποθήκευση της σε συστήματα για μελλοντική χρήση, είτε για την εξαγωγή αναφορών και εκθέσεων στους ενδιαφερόμενους. Όπως τονίστηκε και προηγουμένως η παραπάνω διαδικασία μπορεί να περιλαμβάνει επαναλήψεις μεταξύ των βημάτων της. Ωστόσο το μεγαλύτερο βάρος εστιάζεται στο βήμα του Data Mining. Το στάδιο του Data Mining περιλαμβάνει επαναλαμβανόμενες εφαρμογές ξεχωριστών μεθόδων. Οι στόχοι της ανακάλυψης γνώσης ορίζονται από την χρήση του συστήματος. Μπορούν να διακριθούν δύο τύποι στόχων: πιστοποίηση, και ανακάλυψη Με στόχο την πιστοποίηση, το σύστημα είναι περιορισμένο να πιστοποιήσει τις υποθέσεις του χρήστη. Με στόχο την ανακάλυψη το σύστημα αυτόνομα,

Κεφ. 1 - Εξόρυξη Δεδομένων 29 βρίσκει νέα σχέδια. Ο στόχος της ανακάλυψης μπορεί να διαχωριστεί με την σειρά του σε δύο άλλους τύπους στόχων: πρόβλεψη, και περιγραφή Με στόχο την πρόβλεψη το σύστημα ανακαλύπτει σχέδια για την μελλοντική συμπεριφορά διάφορων οντοτήτων, ενώ με στόχο την περιγραφή το σύστημα ανακαλύπτει σχέδια για παρουσίαση, με ανθρώπινα κατανοητό τρόπο, στον χρήστη. Στην εικόνα 2, φαίνεται η κατηγοριοποίηση των τύπων στόχων ανακάλυψης γνώσης. Τύποι Στόχων Ανακάλυψης Γνώσης Πιστοποίηση Ανακάλυψη Πρόβλεψη Περιγραφή Εικόνα 2. Κατηγοριοποίηση τύπων στόχων ανακάλυψης γνώσης 1.6. Βασικές μέθοδοι Data Mining Οι περισσότερες Data Mining μέθοδοι βασίζονται σε δοκιμασμένες και ελεγμένες τεχνικές από την εκμάθηση μηχανής, την αναγνώριση σχεδίων και την στατιστική, όπως ταξινόμηση, ομαδοποίηση, παλινδρόμηση, κ.ά. Ενδεχομένως στην βιβλιογραφία να αναφέρεται πλήθος μεθόδων και αλγορίθμων, ω- στόσο στην πραγματικότητα το σύνολο τους, βασίζεται σε μερικές θεμελιώδεις μεθόδους. Οι βασικές μέθοδοι είναι οι ακόλουθες:

30 Η επανάσταση του ΚΡΙΟΥ 1.6.1. Ταξινόμηση Ταξινόμηση είναι η αποτύπωση ενός αντικειμένου δεδομένου, σε μια από πολλές κλάσεις που έχουν προηγουμένως ορισθεί. Παραδείγματα μεθόδων ταξινόμησης χρησιμοποιούνται ως κομμάτια σε εφαρμογές ανακάλυψης γνώσης που περιλαμβάνουν κατατάξεις (ταξινομήσεις) τάσεων σε οικονομικές αγορές καθώς και στον αυτόματο εντοπισμό αντικειμένων που έχουν ενδιαφέρον σε μεγάλη βάση δεδομένων εικόνων. 1.6.2. Παλινδρόμηση Παλινδρόμηση είναι η αποτύπωση ενός αντικειμένου δεδομένου, σε μια, πραγματικής τιμής, μεταβλητή πρόγνωσης. Υπάρχουν πολλές εφαρμογές παλινδρόμησης, όπως για παράδειγμα ο υπολογισμός της πιθανότητας που έχει ένας ασθενής να επιζήσει δοθέντων των αποτελεσμάτων ενός συνόλου διαγνωστικών ελέγχων, η πρόβλεψη της απαίτησης των πελατών για ένα νέο προϊόν ως συνάρτηση μιας διαφημιστικής δαπάνης, καθώς και η πρόγνωση χρονικών σειρών όπου οι μεταβλητές εισόδου μπορεί να είναι χρονικές καθυστερήσεις της μεταβλητής πρόγνωσης. 1.6.3. Ομαδοποίηση Ομαδοποίηση είναι μια συνηθισμένη εργασία όπου κάποιος ψάχνει να αναγνωρίσει ένα πεπερασμένο σύνολο κατηγοριών ή ομάδων που περιγράφουν τα δεδομένα. Οι κατηγορίες πρέπει να είναι αμοιβαία αποκλειστικές και πλήρεις. Παραδείγματα εφαρμογών ομαδοποίησης περιλαμβάνουν την ανακάλυψη ο- μογενών υποσυνόλων καταναλωτών σε εμπορικές βάσεις δεδομένων. 1.6.4. Σύνοψη Η σύνοψη περιλαμβάνει μεθόδους για την εύρεση συμπαγών περιγραφών για ένα υποσύνολο δεδομένων. Ένα απλό παράδειγμα είναι η ταξινόμηση σε πίνακες των μέσων και της σταθερής απόκλισης για όλα τα πεδία. Περισσότερο σύνθετο παράδειγμα είναι η ανακάλυψη λειτουργικών σχέσεων ανάμεσα σε μεταβλητές. 1.6.5. Μοντελοποίηση εξαρτήσεων Η μοντελοποίηση εξαρτήσεων περιέχει την εύρεση μοντέλων που περιγράφουν σημαντικές εξαρτήσεις μεταξύ μεταβλητών. Τα μοντέλα εξαρτήσεων υπάρχουν σε δύο επίπεδα:

Κεφ. 1 - Εξόρυξη Δεδομένων 31 1. Το δομικό επίπεδο ενός μοντέλου, προδιαγράφει (συχνά με γραφικό τρόπο) ποιες μεταβλητές είναι τοπικά εξαρτημένες μεταξύ τους, και 2. Το ποσοτικό επίπεδο ενός μοντέλου, προδιαγράφει την ισχύ των εξαρτήσεων χρησιμοποιώντας αριθμητική κλίμακα. Για παράδειγμα, πιθανοτικά δίκτυα εξάρτησης χρησιμοποιούν υπό συνθήκη ανεξαρτησία για να προδιαγράψουν το δομικό επίπεδο ενός μοντέλου και πιθανότητες για να προδιαγράψουν το ποσοτικό επίπεδο. 1.6.6. Ανίχνευση αλλαγών και αποκλίσεων Η ανίχνευση αλλαγών και αποκλίσεων εστιάζει στην ανακάλυψη των πιο σημαντικών αλλαγών σε δεδομένα από τις προηγούμενες μετρήσιμες τιμές. 1.7 Βασικές τεχνικές Data Mining Υπάρχει μεγάλη ποικιλία τεχνικών Data Mining. Οι δημοφιλέστερες εξ αυτών είναι οι κάτωθι: 1.7.1. Δέντρα αποφάσεων και κανόνες Τα δέντρα αποφάσεων και οι κανόνες έχουν μια απλουστευμένη μορφή αναπαράστασης, τέτοιας που κάνει το εξαγόμενο μοντέλο πολύ εύκολο στην κατανόηση του από τον χρήστη. Ένας μεγάλος αριθμός από αλγόριθμους δέντρων απόφασης και κανόνων περιγράφεται στη βιβλιογραφία της εκμάθησης μηχανής και της εφαρμοσμένης στατιστικής 1.7.2. Μη γραμμική παλινδρόμηση και μέθοδοι ταξινόμησης Αυτές οι μέθοδοι περιέχουν μια οικογένεια από τεχνικές για πρόγνωση, οι ο- ποίες προσαρμόζουν γραμμικούς και μη γραμμικούς συνδυασμούς μιας βασικής συνάρτησης σε συνδυασμούς των μεταβλητών εισόδου. Παραδείγματα τέτοιων τεχνικών είναι τύποι νευρωνικών δικτύων 1.7.3. Μέθοδοι βασισμένες στο παράδειγμα Η αναπαράσταση είναι απλή και έχει να κάνει με την χρήση αντιπροσωπευτικών παραδειγμάτων από την βάση δεδομένων για την προσέγγιση του μοντέλου. Αυτό σημαίνει, προγνώσεις σε νέα παραδείγματα που προκύπτουν από ιδιότητες παρόμοιων παραδειγμάτων σε μοντέλο του οποίου η πρόγνωση είναι γνωστή. Οι τεχνικές αυτές περιλαμβάνουν τον αλγόριθμο ταξινόμησης του

32 Η επανάσταση του ΚΡΙΟΥ κοντινότερου γείτονα και αλγόριθμους παλινδρόμησης και επιπλέον, συστήματα αιτιολόγησης ανά περίπτωση. 1.7.4. Μοντέλα πιθανοτικής γραφικής εξάρτησης Τα γραφικά μοντέλα προδιαγράφουν πιθανές εξαρτήσεις χρησιμοποιώντας γραφική δομή. Στην απλή τους μορφή, τα μοντέλα προσδιορίζουν ποιες μεταβλητές έχουν απ ευθείας εξάρτηση μεταξύ τους. 1.8 Υφιστάμενη κατάσταση Data Mining Με βάση έρευνα που διεξήχθη το 2007, προέκυψαν πολλά ενδιαφέροντα στοιχεία για την σημερινή κατάσταση στο χώρο του data mining. 1.8.1. Ταυτότητα της έρευνας Στην έρευνα αυτή συμμετείχε ομάδα πεπειραμένων data miners, με τα ακόλουθα βασικά χαρακτηριστικά: o 40% κάτοχοι μεταπτυχιακού o 29% κάτοχοι διδακτορικού o 9% κάτοχοι ΜΒΑ o 3% κάτοχοι πανεπιστημιακού διπλώματος ή πτυχίου, κ.ά. Παράλληλα, η ενασχόλησή τους με το data mining, ποικίλει, όπως φαίνεται παρακάτω: o 24% πάνω από 10 χρόνια. o 30% μεταξύ 6 και 10 χρόνια o 32% μεταξύ 2 και 5 χρόνια, κ.ά. Οι ίδιοι οι ερωτώμενοι απαντούν ως προς το αντικείμενο της εργασίας τους, ότι είναι: o 46% data miners / data analysts (αναλυτές δεδομένων) o 12% ερευνητές o 12% business analysts (επιχειρησιακοί αναλυτές) o 3% προγραμματιστές, κ.ά.. Από ερωτήματα πολλαπλής απάντησης, προέκυψε ότι τα μεγέθη των data sets που χρησιμοποίησαν ποικίλουν, όπως φαίνεται ακολούθως:

Κεφ. 1 - Εξόρυξη Δεδομένων 33 o 48% αξιοποίησε τουλάχιστον ένα data set με περισσότερο από 1.000.000 εγγραφές, ενώ, o 58% αξιοποίησε data sets με πάνω από 100.000 εγγραφές. Στην ερώτηση σε τι επιχειρήσεις πεδίο αξιοποιήθηκαν τα δεδομένα, οι απαντήσεις έδειξαν: o 51% CRM / Marketing o 36% Οικονομικά (Financial) o 30% Ακαδημαϊκά (Acaddemic) o 17% Τηλεπικοινωνίες (Telecommunications) o 16% Λιανική (Retail) 1.8.2. Αποτελέσματα της έρευνας Οι βασικές μέθοδοι data mining που χρησιμοποιούνται φαίνονται στον πίνακα 1 Πίνακας 1. Μέθοδοι data mining που χρησιμοποιούνται σήμερα % Μέθοδος 89% Μοντέλα Πρόβλεψης 77% Ομαδοποίηση 39% Πρόγνωση/Χρονοσειρές 33% Ανάλυση καλαθιού αγοράς 28% Text Mining 23% Outlier Detection 13% Κανόνες Συσχέτισης 7% Άλλη Αντίστοιχα οι πλέον χρησιμοποιούμενοι αλγόριθμοι εξόρυξης δεδομένων α- πεικονίζονται στον πίνακα 2. Σημαντικό εύρημα είναι και οι λόγοι για τους οποίους ο data miner επιλέγει ένα συγκεκριμένο εργαλείο. Οι λόγοι αυτοί κατά σειρά σπουδαιότητας, φαίνονται παρακάτω: o Ανεξαρτησία / Σταθερότητα του εργαλείου o Δυνατότητα χειρισμού μεγάλου όγκου δεδομένων o Τεχνικές χειρισμού δεδομένων o Ποιότητα αποτελέσματος / ευκολία μετάφρασης

34 Η επανάσταση του ΚΡΙΟΥ Πίνακας 2. Αλγόριθμοι data mining που χρησιμοποιούνται σήμερα % Αλγόριθμος 79% Δέντρα Αποφάσεων 77% Παλινδρόμηση 72% Cluster Analysis 42% Νευρωνικά Δίκτυα 36% Κανόνες Συσχέτισης 36% Factor Analysis 31% Χρονοσειρές 23% Bayesian 20% Support Vector Machines (SVM) 18% Bundling (boosting/bagging, etc.) 18% Rule induction 16% Survival Analysis 11% Other 10% Γεννετικοί αλγόριθμοι 9% Link Analysis o Δυνατότητα να αυτοματοποιεί επαναληπτικές εργασίες o Ταχύτητα o Το εργαλείο περιέχει μια συγκεκριμένη τεχνική που χρειάζομαι o Ποικιλία διαθέσιμων αλγόριθμων o Ευκολία σκοραρίσματος μοντέλων σε άλλα data sets o Ευκολία χρήσης o Κόστος εργαλείου o Δυνατότητα τροποποίησης των options των αλγορίθμων o Προσωπική πείρα / Οικειότητα o Δυνατότητα εφαρμογής εξόρυξης απ ευθείας στη βάση δεδομένων o Ποιότητα εγχειριδίων χρήσης o Δυνατότητα συγγραφής προσωπικού κώδικα o Ποιότητα γραφικού περιβάλλοντος εργασίας o Συμβατότητα με άλλες εφαρμογές o Δυνατότητα επεξεργασίας δεδομένων με ροές (batches) o Ποιότητα γραφικών

Κεφ. 1 - Εξόρυξη Δεδομένων 35 o Συμβατότητα με άλλους συναδέλφους o Το εργαλείο είναι ευρέως χρησιμοποιούμενο. Μετά τα κριτήρια επιλογής εργαλείου εξόρυξης δεδομένων, στον πίνακα 3 φαίνονται τα πλέον δημοφιλή εργαλεία data mining, με βάση τον βαθμό χρήσης τους. Πίνακας 3. Δημοφιλέστερα εργαλεία Data Mining Εργαλείο Ποτέ Περιστασιακά Συχνά SPSS 52% 18% 30% Your own code 55% 18% 27% SPSS Clementine 57% 8% 35% SAS 59% 14% 27% R 77% 16% 7% SAS Enterprise Miner 77% 12% 11% C4.5 / C5.0 / See5 78% 13% 9% Weka 79% 13% 9% Other free tool 81% 11% 8% Other commercial tool 83% 8% 9% Oracle Data Mining 87% 9% 3% Plus (Insightful) 90% 8% 2% Salford Systems CART, MARS, TreeNet, Random Forests 89% 8% 2% Quadstone / Portrait Software 91% 4% 5% KXEN 94% 5% 1% Unica (Affinium Model) 94% 5% 1% Angoss KnowledgeSTUDIO / KnowledgeSEEKER 95% 4% 1% Statistica (Statsoft) 95% 4% 1% Teradata 95% 4% 1% Fair Isaac (Model Builder) 97% 2% 1% Insightful Miner 97% 2% 1% Chordiant 98% 1% 1% SAP 98% 1% 1% ThinkAnalytics 99% 1% 0%

36 Η επανάσταση του ΚΡΙΟΥ Τέλος, το πλέον καίριο κατά τη γνώμη μου εύρημα είναι οι προκλήσεις που αντιμετωπίζουν σήμερα οι data miners. Οι προκλήσεις αυτές φαίνονται στον πίνακα 4. Πίνακας 4. Προκλήσεις που αντιμετωπίζουν οι data miners % Πρόκληση 76% Dirty data 51% Μη διαθεσιμότητα / δυσκολία πρόσβασης στα δεδομένα 51% Εξήγηση του data mining σε άλλους 36% Εύρεση ικανών data miners 31% Ανάγκη συνεργασίας με Πληροφορική 26% Περιορισμοί των εργαλείων 24% Πολιτικές επιχείρησης/ Έλλειψη διευθυντικής υποστήριξης 23% Τα data mining αποτελέσματα δεν χρησιμοποιούνται από τους business decision makers 22% Δυσκολίες στο deployment/scoring 19% Προσαρμογή data mining λύσης σε όλη την βάση δεδομένων 18% Ζητήματα μυστικότητας (privacy)