Εισαγωγή στην εξόρυξη δεδομένων. ή Εισαγωγή στην εξόρυξη γνώσης από δεδομένα

Σχετικά έγγραφα
Πανεπιστήµιο Πειραιώς - Τµήµα Πληροφορικής. Αποθήκες εδοµένων και Εξόρυξη Γνώσης. (Data Warehousing & Data Mining) Εισαγωγή

Εξόρυξη Γνώσης µε SQL Server 2005 Analysis Services

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

ΠΜΣ Πληροφορικής Πανεπιστηµίου Πειραιά. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εισαγωγή. Γιάννης Θεοδωρίδης

Εξόρυξη Δεδομένων. Εισαγωγή

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Data Mining: Στοχεύοντας στους σωστούς πελάτες. Αριστομένης Μακρής

Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα

ΕΞΟΡΥΞΗ Ε ΟΜΕΝΩΝ. Εισαγωγή

Η συνολική εικόνα. Ποιοτική Αναβάθμιση δεδομένων. Λογισμικό Επικοινωνιών DATA WAREHOUSE. Σχεδιασμός Ενοποίηση Επιλογή Συγχρονισμός Συντονισμός

The Data Gap. Number of analysts Total new disk (TB) since Εισαγωγή. Εισαγωγή. Γιατί; Τι είναι η Εξόρυξη εδομένων

Εξόρυξη Γνώσης από Βιολογικά εδομένα

ΕΞΟΡΥΞΗ Ε ΟΜΕΝΩΝ. Εισαγωγή. Εξόρυξη Δεδομένων

Ανακάλυψη Γνώσης από εδοµένα και Εξόρυξη Γνώσης στο εργαλείο WEKA

Εξόρυξη Δεδομένων Data Mining

«Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα»

Τεχνικές Εξόρυξης Δεδομένων

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

Διδάσκοντες: Μαρία Χαλκίδη

Ταξινόμηση. Εισαγωγή. Ορισμός. Ορισμός. Τεχνικές Ταξινόμησης. Εισαγωγή

ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ. Εισαγωγή στην Εξόρυξη Δεδομένων Πασχάλης Θρήσκος, PhD Λάρισα

Εξόρυξη Γνώσης - το εργαλείο WEKA

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Πληροφοριακά Συστήματα Διοίκησης

Προεπεξεργασία Δεδομένων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκουσα: Μαρία Χαλκίδη

Εξόρυξη Γνώσης από εδοµένα (data mining)

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ

Δέντρα Απόφασης (Decision(

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Τεχνικές NLP Σχεδιαστικά Θέματα

Τεχνητή Νοημοσύνη. 15η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Πληροφοριακά Συστήματα Διοίκησης

Εισαγωγή στα Πληροφοριακά Συστήματα

Ανάκτηση Πληροφορίας. Φροντιστήριο 4

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. Κατηγοριοποίηση. Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD

ΠΡΟΒΛΕΨΗ ΧΡΕΟΚΟΠΙΑΣ ΜΕ ΜΕΘΟΔΟΥΣ ΕΞΟΡΥΞΗΣ ΓΝΩΣΗΣ ΑΠΟ ΔΕΔΟΜΕΝΑ(DATA MINING)

Μηχανική Λογισμικού για Διαδικτυακές & Φορητές Εφαρμογές

ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΙΟΝΙΩΝ ΝΗΣΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΓΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ ΣΤΗ ΔΙΟΙΚΗΣΗ ΚΑΙ ΣΤΗΝ ΟΙΚΟΝΟΜΙΑ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ

Ο ΚΑΤΑΝΑΛΩΤΗΣ ΣΤΟ INTERNET

Πως μπορούν να χρησιμοποιηθούν ιστορικά δεδομένα για την κατασκευή

Θεμελιώδεις Αρχές Συστημάτων Βάσεων Δεδομένων

Διδάσκουσα: Χάλκου Χαρά,

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων»

Συσταδοποίηση Ι. Τι είναι συσταδοποίηση. Εφαρμογές. Εφαρμογές. Εισαγωγή Θέματα που θα μας απασχολήσουν σήμερα. Πότε μια συσταδοποίηση είναι καλή;

V. Τμηματοποίηση Καταναλωτικής Αγοράς Η έννοια της τμηματοποίησης (κατάτμησης)

Προτεινόμενες Διπλωματικές Εργασίες 2009

Πληροφοριακά Συστήματα Διοίκησης

Εξαγωγή Μετασχηματισμός Εισαγωγή Δεδομένων στην Αποθήκη Πληροφοριών (ETL) ETL) Αριστομένης Μακρής

Ποιοτικοί Δείκτες Υπηρεσιών Βιβλιοθηκών και Διαχείριση Πόρων: Μεθοδολογίες Ανάλυσης και στρατηγικός σχεδιασμός.

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή

Πληροφοριακό Σύστημα Επιχειρηματικής Ευφυίας για την Oμαδοποίηση Πελατών Λιανικής

Μέθοδοι Μηχανικής Μάθησης στην επεξεργασία Τηλεπισκοπικών Δεδομένων. Δρ. Ε. Χάρου

ΔΙΑΔΙΚΤΥΑΚΟ ΣΥΣΤΗΜΑ ΒΕΛΤΙΣΤΗΣ ΔΙΑΧΕΙΡΙΣΗΣ ΕΝΕΡΓΕΙΑΚΩΝ ΠΟΡΩΝ E.M.I.R. - Energy Management & Intelligent Reporting

ΑΡΘΡΟ «ΕΞΙ ΣΤΟΥΣ ΔΕΚΑ ΕΛΛΗΝΕΣ ΧΡΗΣΙΜΟΠΟΙΟΥΝ ΠΛΕΟΝ ΚΑΘΗΜΕΡΙΝΑ ΤΟ ΔΙΑΔΙΚΤΥΟ»

Η ΕΠΑΝΑΣΤΑΣΗ ΤΟΥ ΚΡΙΟΥ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ

Τι είναι πληροφοριακό σύστημα

Εισαγωγή στο Ηλεκτρονικό Επιχειρείν. ΤΕΙ Δυτικής Ελλάδας Τμήμα Διοίκησης Επιχειρήσεων - Πάτρα Κουτσονίκος Γιάννης

Ανάκτηση Πληροφορίας

Εξόρυξη Δεδομένων. Βελτιστοποίηση Συστημάτων & Υδροπληροφορική. Χρήστος Μακρόπουλος & Ανδρέας Ευστρατιάδης

ΚΕΦΑΛΑΙΟ Μηχανική Μάθηση

Που πάνε τα στοιχεία (data) μας; Κίνδυνοι από τρίτους φορείς

Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Ανάλυση μεγάλων δεδομένων με χρήση εργαλείων εξόρυξης δεδομένων. Η περίπτωση μιας εφαρμογής υποστήριξης αποφάσεων εκλογικής ψήφου.

ΠΕΡΙΕΧΟΜΕΝΑ. 1. Εισαγωγή Συνεχής ποσοτική εξαρτημένη μεταβλητή...66 Ενδεικτική εφαρμογή...68 ΛΙΓΑ ΛΟΓΙΑ ΓΙΑ ΤΟΥΣ ΣΥΓΓΡΑΦΕΙΣ...

Ηλεκτρονικό εμπόριο. HE 8 Εξατομίκευση

Κατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών

ΤΕΧΝΙΚΕΣ ΕΞΟΡΥΞΗΣ ΓΝΩΣΗΣ ΚΑΙ ΕΦΑΡΜΟΓΕΣ ΤΟΥΣ ΣΤΗΝ ΠΡΟΩΘΗΣΗ ΑΓΑΘΩΝ DATA MINING TECHNIQUES AND APPLICATIONS IN MARKETING

ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ. Αναζήτηση Γνώσης σε Ιατρικά Δεδομένα στον SQL Server 2005

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

Προτεινόμενες Διπλωματικές Εργασίες 2008

ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ Μ.I.S ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

ΠΡΟΩΘΗΣΗ ΠΡΟΪΟΝΤΩΝ ΜΕ ΧΡΗΣΗ

Ευφυής Προγραμματισμός

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

υποδείγματος για την αξιολόγηση αυτοκινήτων με τεχνικές Data Mining.»

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Πανεπιστήµιο Πειραιώς - Τµήµα Πληροφορικής. Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Mining) Τεχνικές Data Mining. Γιάννης Θεοδωρίδης

«Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα

Υπερπροσαρμογή (Overfitting) (1)

ΜΑΘΗΜΑ 8 - ΕΡΩΤΗΣΕΙΣ ΠΟΛΛΑΠΛΗΣ ΕΠΙΛΟΓΗΣ

Ονομάζομαι Βασιλάκος Γιάννης και είμαι Αντιπρόεδρος και Διευθύνων. Σύμβουλος της Κωτσόβολος, εταιρίας του Ομίλου Dixons Carphone με

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Εξόρυξη γνώσης από δεδομένα δικτύου υπολογιστών: Συστήματα ανίχνευσης εισβολής.

Έρευνα Μάρκετινγκ Ενότητα 5

Πληροφοριακά Συστήματα Διοίκησης

Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006

Big Data/Business Intelligence

Τμηματοποίηση αγοράς. Έννοια, κριτήρια, είδη

Βάσεις Δεδομένων ΙΙ. Διάλεξη 6 η Έννοιες Εξόρυξης Δεδομένων. Ανακάλυψη νέων πληροφοριών σε σχέση με πρότυπα ή κανόνες από μεγάλους όγκους δεδομένων.

ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ. Θέμα: «Market Basket Analysis» Στυλιανός Μητσοτάκης Α.Μ Επιβλέπων καθηγητής: Βασίλειος Ταμπακάς ΑΝΤΙΡΡΙΟ 2018

Predicting the Choice of Contraceptive Method using Classification

Κεφάλαιο 4 ο. Η ψηφιακή επιχείρηση: Ηλεκτρονικό εμπόριο και ηλεκτρονικό επιχειρείν

Τ.Ε.Ι. Δυτικής Ελλάδας Τμήμα Διοίκησης Επιχειρήσεων Μεσολόγγι. 8 η Διάλεξη. Μάθημα: Τεχνολογίες Διαδικτύου

ΕΦΑΡΜΟΓΗ ΑΛΓΟΡΙΘΜΩΝ ΕΠΑΓΩΓΙΚΟΥ ΛΟΓΙΚΟΥ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ ΣΤΗ ΣΧΕΣΙΑΚΗ ΕΞΟΡΥΞΗ Ε ΟΜΕΝΩΝ

HMY 795: Αναγνώριση Προτύπων

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΠΛΗΡΟΦΟΡΙΚΗ

Transcript:

Εισαγωγή στην εξόρυξη δεδομένων ή Εισαγωγή στην εξόρυξη γνώσης από δεδομένα 1

Δεδομένα, δεδομένα, δεδομένα... Παράγονται όλο και περισσότερα δεδομένα: Τραπεζικά, τηλεπικοινωνιακά,... Επιστημονικά δεδομένα: αστρονομικά, βιολογικά κλπ. Κείμενα στο web κ.α. Αποθηκεύονται όλο και περισσότερα δεδομένα: Γρήγορη και φθηνή τεχνολογία αποθήκευσης Ικανά ΣΔΒΔ για μεγάλες ΒΔ 2

Γιατί ασχολούμαστε με την εξόρυξη δεδομένων;;; (Η εμπορική πλευρά) Μεγάλοι όγκοι δεδομένων συλλέγονται και αποθηκεύονται Δεδομένα από το διαδίκτυο, από το ηλεκτρονικό εμπόριο Aγορές σε καταστήματα Τραπεζικές συναλλαγές αγορές με πιστωτική Οι Η/Υ έγιναν φτηνότεροι και πολύ πιο αποδοτικοί Ο ανταγωνισμός αυξάνεται Ανάγκη για παροχή καλύτερων και εξειδικευμένων υπηρεσιών (Διαχείριση σχέσεων με τον πελάτη) 3

Γιατί ασχολούμαστε με την εξόρυξη δεδομένων;;; (Η επιστημονική πλευρά) Δεδομένα συλλέγονται και αποθηκεύονται με τεράστιες ταχύτητες enormous speeds (GB/hour) απομακρυσμένοι αισθητήρες σε ένα δορυφόρο τηλεσκόπια σαρώνουν τους ουρανούς μικροσυστοιχίες δημιουργούν γονιδιακά δεδομένα επιστημονικές εξομοιώσεις δημιουργούν terabytes από δεδομένα Οι παραδοσιακές τεχνικές είναι ανεπαρκείς για τα πρωταρχικά δεδομένα (raw data) Η εξόρυξη μπορεί να βοηθήσει τους επιστήμονες στην ταξινόμηση και τον διαχωρισμό των δεδομένων στην διαμόρφωση Υποθέσεων (Hypothesis Formation) 4

Τάσεις εξέλιξης Ο νόμος του Moore Η ταχύτητα των υπολογιστών διπλασιάζεται κάθε 18 μήνες Ο νόμος της αποθήκευσης Τα δεδομένα που αποθηκεύονται διπλασιάζονται κάθε 9 μήνες Κατά συνέπεια... πολύ λίγα από αυτά τα δεδομένα μπορεί να κοιτάξει (και να αναλύσει) ο άνθρωπος 1987 1990 1993 1996 processing 1999 2002 2005 storage Άρα χρειάζεται η εξόρυξη δεδομένων / Πληροφοριών (ανακάλυψη γνώσης μέσα από τα δεδομένα (Knowledge Discovery in Data - KDD) για να δώσει νόημα και χρήση στα δεδομένα 2008 2011 2014 5

Κίνητρο Συχνά υπάρχει «κρυμμένη» πληροφορία στα δεδομένα Ανάλυση «με το χέρι» μπορεί να πάρει βδομάδες πριν (και εάν) ανακαλυφθεί η κρυμμένη πληροφορία Πολλά από τα δεδομένα δεν αναλύονται καν 4,000,000 3,500,000 3,000,000 2,500,000 2,000,000 1,500,000 The Data Gap Total new disk (TB) since 1995 1,000,000 500,000 0 Number of analysts 1995 1996 1997 1998 1999 From: R. Grossman, C. Kamath, V. Kumar, Data Mining for Scientific and Engineering Applications 6

Τι είναι εξόρυξη δεδομένων Πολλοί ορισμοί Μη τετριμμένη εξαγωγή εγγενούς, άγνωστης μέχρι τότε και πιθανώς χρήσιμης πληροφορία από δεδομένα Διερεύνηση και ανάλυση(exploration & analysis), με αυτόματοποιημένα ή ημι-αυτοματοποιημένα μέσα, μεγάλων ποσοτήτων δεδομένων για την ανακάλυψη μοτίβων/ προτύπων που «έχουν νόημα» 7

Τι (δεν) είναι εξόρυξη δεδομένων Τι δεν είναι εξόρυξη δεδομένων Η εύρεση ονομάτων στον τηλεφωνικό κατάλογο Η υποβολή μιας ερώτηση σε μια μηχανή αναζήτησης για πληροφορίες σχετικά με την λέξη Amazon Τι είναι εξόρυξη δεδομένων Μερικά ονόματα εμφανίζονται πιο συχνά σε συγκεκριμένες περιοχές (Παπαδόπουλος, Κανελόπουλος, στην Πάτρα) Η ομαδοποίηση παρόμοιων εγγράφων που επιστρέφονται από μια μηχανή αναζήτησης σύμφωνα με τα συμφραζόμενα (e.g. Amazon 8 rainforest, Amazon.com,)

Από πού προήλθε η εξόρυξη δεδομένων Παίρνει ιδέες από την μηχανική μάθηση, την τεχνητή νοημοσύνη, την αναγνώριση προτύπων, την στατιστική, τις βάσεις δεδομένων Οι κλασσικές τεχνικές μπορεί να είναι ανεπαρκείς λόγω: Του τεραστίου όγκου των δεδομένων Της μεγάλης διάστασης των δεδομένων Της ετερογενούς μορφής, και της διαμοιρασμένης φύσης των δεδομένων Statistics/ AI Data Mining Database systems Machine Learning/ Pattern Recognition 9

Πρωτογενή δεδομένα Διαδικασία ανακάλυψης γνώσης Ολοκλήρωση Ερμηνεία & Αξιολόγηση Knowledge Γνώση Αποθήκη Δεδομένων (data warehouse) Μετ/να Δεδομένα δεδομένα στόχος (target data) Πρότυπα (patterns) και Κανόνες (rules) Κατανόηση 10

Εξόρυξη Δεδομένων Data mining (ένας ευρύς ορισμός): Η διαδικασία ημι-αυτόματης ανάλυσης μεγάλων ΒΔ με στόχο την εύρεση χρήσιμης πληροφορίας «γνώσης» π.χ.: «καλύτεροι πελάτες είναι αυτοί με σπουδές μεταπτυχιακού επιπέδου (ανεξαρτήτως ύψους εισοδήματος) ή αυτοί με υψηλά εισοδήματα (ανεξαρτήτως επιπέδου σπουδών) Παράδειγμα αναπαράστασης: δέντρο απόφασης (decision tree) Πώς θα προκύψει ένα τέτοιο πρότυπο (pattern) από μια μεγάλη ΒΔ; 11

Παράδειγμα Δένδρου Αποφάσεων 12

Εφαρμογές Εξόρυξης Δεδομένων Ανάλυση αγοραστικής συμπεριφοράς στοχευμένο marketing, ανάλυση καλαθιού αγοράς, διασταύρωση πωλήσεων, τμηματοποίηση αγοράς Ανάλυση κινδύνου Πρόβλεψη τάσεων (συγκράτηση / διαρροή πελατών), έλεγχος ποιότητας, ανάλυση ανταγωνισμού Ανίχνευση απάτης Π.χ. στην τηλεφωνία ή στη διακίνηση ηλεκτρονικού χρήματος Ανάλυση του Παγκόσμιου Ιστού Web mining (ανάλυση δομής ή περιεχομένου) 13

Βασικές διεργασίες της Εξόρυξης Δεδομένων Μέθοδοι πρόβλεψης (predictive) Χρήση ορισμένων μεταβλητών για την πρόβλεψη αγνώστων ή μελλοντικών τιμών άλλων μεταβλητών. Περιγραφικές μέθοδοι (descriptive) Εύρευση μοτίβων/προτύπων (patterns) τα οποία περιγράφουν τα δεδομένα και μπορούν να ερμηνευθούν από τον άνθρωπο. From [Fayyad, et.al.] Advances in Knowledge Discovery and Data Mining, 1996 14

Βασικές διεργασίες της Εξόρυξης Δεδομένων Ταξινόμηση (Classification) [Predictive] Ομαδοποίηση/συσταδοποίηση (Clustering) [Descriptive] Εύρεση κανόνων συσχέτισης (Association Rule Discovery) [Descriptive] Εύρεση διαδοχικών/σειριακών μοτίβων/προτύπων (Sequential Pattern Discovery) [Descriptive] Παλινδρόμηση (Regression) [Predictive] Ανίχνευση αποκλίσεων (Deviation Detection) [Predictive] 15

Τεχνικές Εξόρυξης Δεδομένων Επιβλεπόμενη μάθηση (Κατηγοριοποίηση) Δέντρα αποφάσεων, Νευρωνικά δίκτυα, Κατηγοριοποίηση κατά Bayes Μη-επιβλεπόμενη μάθηση (Συσταδοποίηση) Ιεραρχική, Διαμερισμού, Πυκνότητας Εξόρυξη κανόνων συσχετίσεων Refund Yes No MarSt NO Single, Divorced TaxInc < 80K > 80K YES NO Married NO 16

Ταξινόμηση/κατηγοριοποίηση: Ορισμός Δεδομένου ενός συνόλου από καταγραφές (σύνολο εκπαίδευσης-training set ) Κάθε καταγραφή περιέχει ένα σύνολο από μεταβλητές (attributes), μία από τις μεταβλητές είναι η κατηγορία (class). Βρες ένα μοντέλο (model) για την μεταβλητή της κατηγορίας ως συνάρτηση των άλλων μεταβλητών. Στόχος: νέες καταγραφές (previously unseen) θα πρέπει να ανατίθονται σε μία κατηγορία με όσο μεγαλύτερη ακρίβεια γίνεται. Ένα σύνολο ελέγχου (test set) χρησιμοποιείται για τον υπολογισμό της ακρίβειας του μοντέλου. Συνήθως το υπάρχον σύνολο δεδομένων χωρίζεται σε δύο (ή σε τρία) σύνολα, με το σύνολο εκπαίδευσης να χρησιμοποιείται για να κατασκευαστεί το μοντέλο και το σύνολο ελέγχου για την επικύρωση/επαλήθευση του. 17

Κατηγοριοποίηση Ταξινόμηση, Πρόβλεψη Εκμάθηση μιας τεχνικής να προβλέπει την κλάση ενός στοιχείου επιλέγοντας από προκαθορισμένες τιμές Προσεγγίσεις: στατιστικές μέθοδοι δένδρα αποφάσεων νευρωνικά δίκτυα... 18

Κατηγοριοποίηση Ορισμός προβλήματος: Δοθέντων μιας βάσης δεδομένων D={t 1,t 2,,t n } και ενός συνόλου κατηγοριών - "κλάσεων" C={C 1,,C m }, να βρεθεί μια απεικόνιση f: DgC όπου κάθε εγγραφή t i ανατίθεται σε μία κλάση C j. Ουσιαστικά, η κατηγοριοποίηση διαμερίζει τη D σε κλάσεις ισοδυναμίας. Η Πρόβλεψη είναι παρόμοιο πρόβλημα, αλλά μπορεί να θεωρηθεί ότι έχει άπειρο αριθμό κλάσεων. 19

Κατηγοριοποίηση (συν.) Δέντρα Αποφάσεων (Decision Trees) παράδειγμα Y 3 if X > 5 then blue else if Y > 3 then blue else if X > 2 then grey else blue 2 5 X 20

Κατηγοριοποίηση (συν.) Δέντρα Αποφάσεων (Decision Trees) μαθηματικό υπόβαθρο χρήση στοιχείων από τη θεωρία πληροφορίας (εντροπία) μετράμε το κέρδος πληροφορίας (information gain) Gain D, S H D P D H s i 1 i D i όπου H p1, p2,..., ps s i 1 p i log 1 p i 21

10 10 Παράδειγμα ταξινόμησης Tid Refund Marital Status Taxable Income Cheat Refund Marital Status Taxable Income Cheat 1 Yes Single 125K No No Single 75K? 2 No Married 100K No Yes Married 50K? 3 No Single 70K No No Married 150K? 4 Yes Married 120K No Yes Divorced 90K? 5 No Divorced 95K Yes No Single 40K? 6 No Married 60K No 7 Yes Divorced 220K No No Married 80K? Test Set 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes Training Set Learn Classifier Model 22

Ταξινόμηση: Εφαρμογή 1 Στοχευμένη διαφήμιση Στόχος: Μείωση του κόστους αποστολής με την επιλογή ενός συνόλου από καταναλωτές που είναι πιθανόν να αγοράσουν ένα καινούριο προϊόν κινητής τηλεφωνίας. Προσέγγιση: Χρησιμοποίηση δεδομένων από την εισαγωγή ενός παρόμοιου προϊόντος. Γνωρίζουμε ποιοι πελάτες αγόρασαν και ποιοι όχι. Αυτή η {αγοράζω, δεν αγοράζω} απόφαση αποτελεί την μεταβλητή της κατηγορίας (class attribute). Συλλογή διαφόρων δημογραφικών στοιχείων, στοιχείων τρόπου ζωής (lifestyle), και στοιχείων που αφορούν την σχέση τους με την επιχείρηση για όλους αυτούς τους καταναλωτές. Επάγγελμα, που μένουν, ποιο είναι το εισόδημά τους, κτλ Χρησιμοποίησε αυτές τις πληροφορίες σαν δεδομένα εισόδου (input attributes) για την εκπαίδευση ενός ταξινομητή. From [Berry & Linoff] Data Mining Techniques, 1997 23

Ταξινόμηση: Εφαρμογή 2 Ανίχνευση Απάτης Στόχος: Πρόβλεψη ύποπτων («παράνομων») συναλλαγών με πιστωτικές κάρτες. Προσέγγιση: Χρήση των συναλλαγών και των πληροφοριών που σχετίζονται με τον λογαριασμό του ως μεταβλητές. Πότε ένα πελάτης αγοράζει, τι αγοράζει, πόσο συχνά πληρώνει στην ώρα του κτλ Πρόσθεσε μία μεταβλητή/ετικέτα σε κάθε προηγούμενη συναλλαγή ανάλογα εάν ήταν κανονική ή παράνομη. Αυτό αποτελεί την μεταβλητή της τάξης (class attribute). Δημιούργησε ένα μοντέλο για την κατηγορία των συναλλαγών. Χρησιμοποίησε αυτό το μοντέλο για την ανίχνευση ύποπτων συναλλαγών από τις κινήσεις του λογαριασμού. 24

Ταξινόμηση: Εφαρμογή 3 Ταξινόμηση ουράνιων σωμάτων Στόχος: Η πρόβλεψη της κατηγορία (αστέρας ή γαλαξίας) ουράνιων σωμάτων, κυρίως όσων δεν είναι ευδιάκριτα χρησιμοποιώντας εικόνες από τηλεσκόπιο (Palomar Observatory). 3000 εικόνες με 23,040 x 23,040 pixels ανά εικόνα. Προσέγγιση: Κατάτμηση της εικόνας. Μέτρηση χαρακτηριστικών της εικόνας (features) - 40 για κάθε αντικείμενο. Μοντελοποίησε την κατηγορία με βάση αυτά τα χαρακτηριστικά. Αποτέλεσμα: Μπόρεσε να εντοπίσει 16 νέα μερικά από τα πιο απομακρυσμένα αντικείμενα που είναι δύσκολο να εντοπιστούν 25 From [Fayyad, et.al.] Advances in Knowledge Discovery and Data Mining, 1996

Ταξινομόντας γαλαξίες http://aps.umn.edu Πρώιμο (Early) Κατηγορία: Στάδιο σχηματισμού (Stages of Formation) Ενδιάμεσο (Intermediate) Χαρακτηριστικά (Attributes): Χαρακτηριστικά της εικόνας, Χαρακτηριστικά από τα κύματα φωτός που λαμβάνονται κτλ Προχωρημένο (Late) Μέγεθος Δεδομένων: 72 εκατομμύρια αστέρια, 20 εκατομμύρια γαλαξίες Βάση δεδομένων: 150 GB 26

Ομαδοποίηση/συσταδοποίηση: Ορισμός Δεδομένου ενός συνόλου από δεδομένα (σημεία), κάθε ένα από τα οποία έχει ένα σύνολο από χαρακτηριστικά (attributes), και ενός μέτρου ομοιότητας μεταξύ τους, βρες ομάδες/συστάδες (clusters) έτσι ώστε Δεδομένα που ανήκουν σε μια ομάδα είναι πιο όμοια μεταξύ τους. Δεδομένα που ανήκουν σε διαφορετικές ομάδες είναι λιγότερα όμοια μεταξύ τους. Μέτρα ομοιότητας (Similarity Measures): Ευκλείδεια απόσταση για συνεχείς μεταβλητές. Άλλα μέτρα ανάλογα με την εφαρμογή. 27

Παράδειγμα ομαδοποίησης Ομαδοποίηση σε τρεις διαστάσεις με βάση την ευκλείδεια απόσταση (Intracluster) Οι αποστάσεις εντός των ομάδων ελαχιστοποιούνται (Intercluster) Οι αποστάσεις μεταξύ των ομάδων μεγιστοποιούνται 28

Συσταδοποίηση (Clustering) Ομαδοποίηση Εύρεση μιας φυσικής ομαδοποίησης των δεδομένων, χωρίς προκαθορισμό των ομάδων C 1 C 2 Πόσες συστάδες και ποιες; C 3 C 4 29

Συσταδοποίηση (Clustering) Ορισμός προβλήματος: Δοθέντων μιας ΒΔ D={t 1, t 2,, t n } από εγγραφές, ενός μέτρου ομοιότητας sim(t i, t j ) μεταξύ δύο εγγραφών της ΒΔ και μιας ακέραιας τιμής k, να βρεθεί μια αντιστοίχιση f : Dg{1,..., k} όπου κάθε εγγραφή t i της ΒΔ αντιστοιχίζεται σε μία συστάδα K j, 1 j k, έτσι ώστε να μεγιστοποιείται ένα κριτήριο βελτιστοποίησης. Η συσταδοποίηση μπορεί να είναι: Ιεραρχική vs. Διαμέρισης - δημιουργούνται εμφωλιασμένα σύνολα συστάδων ή δημιουργείται απευθείας ένα σύνολο k συστάδων. Αυξητική (incremental) vs. Μαζική (batch) - χειρισμός ενός στοιχείου την φορά ή όλων των στοιχείων μαζί. Για μικρές (που χωράνε στην κύρια μνήμη) ή μεγάλες ΒΔ 30

Συσταδοποίηση (Clustering) Ζητήματα που προκύπτουν Μέγεθος χώρου λύσεων: οι πιθανοί συνδυασμοί n στοιχείων σε k συστάδες είναι ένας πολύ μεγάλος αριθμός (π.χ. 4*10 10 για n=1000, k=4) Αναγκαστικά, η αναζήτηση γίνεται σε ένα μικρό υποσύνολο των πιθανών λύσεων Συνάρτηση (αν-)ομοιότητας ή απόστασης Τόσο σε επίπεδο δεδομένων: Ευκλείδεια σε n-διάστατο χώρο, απόσταση κατανομών κ.α.... όσο και σε επίπεδο συστάδων: απλού συνδέσμου / πλήρους συνδέσμου / μέση / μεταξύ κέντρων βάρους κ.α. 31

Ομαδοποίηση: Εφαρμογή 1 Κατάτμηση της αγοράς (Market Segmentation): Στόχος: Διαχωρισμός της αγοράς σε διακριτά σύνολα καταναλωτών, με κάθε σύνολο να μπορεί εν δυνάμει να χρησιμοποιηθεί για την προώθηση συγκεκριμένων προϊόντων. Προσέγγιση: Συλλογή διαφόρων στοιχείων για τους πελάτες με βάση δημογραφικά στοιχεία και πληροφορίες για τον τρόπο ζωής τους. Εύρεση ομάδων παρόμοιων πελατών. Εκτίμηση της ποιότητας της ομαδοποίησης παρατηρώντας τις αγοραστικές συνήθειες πελατών που ανήκουν σε μια ομάδα σε σχέση με άλλες ομάδες. 32

Ομαδοποίηση: Εφαρμογή 2 Ομαδοποίηση εγγράφων Στόχος: Η εύρεση ομάδων από έγγραφα τα οποία είναι παρόμοια μεταξύ τους με βάση την εμφάνιση σημαντικών όρων σε αυτά. Προσέγγιση: Η εύρεση όρων που εμφανίζονται συχνά σε κάθε έγγραφο. Δημιουργία ενός μέτρου ομοιότητας με βάση την συχνότητα εμφάνισης διαφόρων όρων και χρήση του για την δημιουργία ομάδων. Κέρδος: Η ανάκτηση πληροφορίας (Information Retrieval) μπορεί να χρησιμοποιήσει τις ομάδες για να συσχετίσει ένα νέο έγγραφο ή ένα όρο 33 αναζήτησης με ήδη ομαδοποιημένα έγγραφα.

Παράδειγμα ομαδοποίησης εγγράφων Δεδομένα: 3204 άρθρα των Los Angeles Times. Μέτρο ομοιότητας: Πόσες λέξεις είναι κοινές σε αυτά τα έγγραφα (ύστερα από κάποιο φιλτράρισμα ορισμένων λέξεων). Category Total Correctly Articles Placed Financial 555 364 Foreign 341 260 National 273 36 Metro 943 746 Sports 738 573 Entertainment 354 278 34

Εύρεση κανόνων συσχέτισης: Ορισμός Δεδομένου ενός συνόλου καταγραφών που η κάθε μία περιέχει έναν αριθμό από αντικείμενα από ένα συγκεκριμένο σύνολο Παρήγαγε κανόνες εξάρτησης (dependency rules) που θα προβλέπουν εμφάνιση ενός αντικειμένου με βάση τις εμφανίσεις άλλων αντικειμένων. TID Items 1 Bread, Coke, Milk 2 Beer, Bread 3 Beer, Coke, Diaper, Milk 4 Beer, Bread, Diaper, Milk 5 Coke, Diaper, Milk Rules Discovered: {Milk} --> {Coke} {Diaper, Milk} --> {Beer} 35

Εξόρυξη κανόνων συσχέτισης Εύρεση ταυτόχρονων εμφανίσεων δεδομένων (άρα, πιθανής συσχέτισης ή εξάρτησης) μέσα σε ένα «καλάθι» δεδομένων 36

Εξόρυξη κανόνων συσχέτισης Ορισμός προβλήματος: Δοθέντων ενός συνόλου στοιχείων I={I 1,I 2,,I m }, μιας βάσης δοσοληψιών D={t 1,t 2,, t n }, όπου t i ={I i1,i i2,, I ik } και I ij I, ενός κατωφλιού ελάχιστης υποστήριξης s και ενός κατωφλιού ελάχιστης εμπιστοσύνης, να βρεθούν όλοι οι κανόνες συσχέτισης X Y, όπου X,Y I και X Y = ø, των οποίων τα μέτρα υποστήριξης και εμπιστοσύνης ξεπερνούν τα κατώφλια s και Ζήτημα που προκύπτει Μέγεθος χώρου λύσεων: οι πιθανοί συνδυασμοί m στοιχείων ανά k είναι ένας τεράστιος αριθμός για m της τάξης χιλιάδων και k όλες οι πιθανές τιμές μεταξύ 2 και m 37

Εύρεση κανόνων συσχέτισης: Εφαρμογή 1 Διαφημιστική προώθηση και προώθηση αγοράς Έστω ότι ο κανόνας που «ανακαλύφθηκε» είναι {κουλούρια, } --> {πατατάκια} Πατατάκια ως επακόλουθο (consequent) => Μπορεί να χρησιμοποιηθεί για να καθοριστεί τι πρέπει να γίνει για να αυξηθούν οι πωλήσεις του. Κουλούρια ως πρότερο (antecedent) => μπορεί να χρησιμοποιηθεί για να δούμε ποια προϊόντα θα επηρεαστούν εάν το κατάστημα πάψει να πουλάει bagels. Κουλούρια ως πρότερο και πατατάκια ως επακόλουθο => μπορεί να χρησιμοποιηθεί για να δούμε τι προϊόντα πρέπει να πουληθούν μαζί με τα κουλούρια για να προωθηθούν επιπλέον οι πωλήσεις στα πατατάκια 38

Εύρεση κανόνων συσχέτισης: Εφαρμογή 2 Διαχείριση ραφιών Supermarket Στόχος: Να βρεθούν προϊόντα τα οποία αγοράζονται μαζί από έναν επαρκή αριθμό από πελάτες. Προσέγγιση: Επεξεργασία των συναλλαγών που συγκεντρώνονται με barcode scanners για την εύρεση συσχετίσεων μεταξύ τους. Ένας κλασσικός κανόνας -- Εάν ένα πελάτης αγοράζει πάνες και γάλα, τότε είναι πολύ πιθανόν να αγοράσει και μπύρα. Συνεπώς μην εκπλαγείτε εάν βρείτε μπύρες στοιβαγμένες δίπλα στις πάνες! 39

Εύρεση διαδοχικών/σειριακών μοτίβων/προτύπων : Ορισμός Δεδομένου ενός συνόλου από αντικείμενα, με κάθε αντικείμενο συσχετισμένο με μια σειρά/διαδοχή από (δικά του) γεγονότα, βρε κανόνες που προβλέπουν ισχυρές σειριακές εξαρτήσεις (sequential dependencies) μεταξύ διαφορετικών γεγονότων. (A B) (C) (D E) Οι κανόνες δημιουργούνε αφού πρώτα ανακαλυφθούν τα μοτίβα. Οι εμφανίσεις των γεγονότων στα μοτίβα διέπονται από χρονικούς περιορισμούς (A B) (C) (D E) <= xg >ng <= ws <= ms 40

Εύρεση διαδοχικών/σειριακών μοτίβων/προτύπων : Παραδείγματα Σε logs για τηλεπικοινωνιακά προβλήματα, (Inverter_Problem Excessive_Line_Current) (Rectifier_Alarm) --> (Fire_Alarm) Σε καταστήματα, Βιβλιοπωλείο: (Intro_To_Visual_C) (C++_Primer) --> (Perl_for_dummies,Tcl_Tk) Σε μαγαζί με αθλητικά: (Shoes) (Racket, Racketball) --> (Sports_Jacket) 41

Παλινδρόμηση Πρόβλεψη της τιμής μιας συνεχούς μεταβλητής με βάση τις τιμές άλλων μεταβλητών, υποθέτοντας μίας γραμμικής ή μη-γραμμικής εξάρτησης. Έχει μελετηθεί εκτενώς στο πεδίο της στατιστικής και των νευρωνικών δικτύων. Παραδείγματα: Πρόβλεψη πωλήσεων ενός νέου προϊόντος με βάση την διαφημιστική καμπάνια. Πρόβλεψη της ταχύτητα των ανέμων ως συνάρτηση της θερμοκρασίας, της υγρασίας, της πίεσης κτλ Πρόβλεψη τιμών μετοχών 42

Ανίχνευση αποκλίσεων/ανωμαλιών Ανίχνευση σημαντικών αποκλίσεων από την κανονική συμπεριφορά Εφαρμογές: Ανίχνευση απάτης με πιστωτικές κάρτες Ανίχνευση επιθέσεων σε δίκτυα Ανίχνευση σφαλμάτων σε μηχανές 43

Προκλήσεις Κλιμάκωση Διάσταση Πολύπλοκα και ετερογενή δεδομένα Ποιότητα δεδομένων Κυριότητα δεδομένων, διαμερισμός Διατήρηση της ιδιωτικότητας Δυναμικά δεδομένα 44

Εργαλεία WEKA Data Mining software Weka is a collection of machine learning algorithms for data mining tasks. The algorithms can either be applied directly to a dataset or called from your own Java code. Weka contains tools for data preprocessing, classification, regression, clustering, association rules, and visualization http://www.cs.waikato.ac.nz/ml/weka Microsoft SQL Server 2005 BI Solutions SQL Server 2005 provides many new and enhanced business intelligence (BI) features designed to give you a competitive advantage. These advantages include integrating multiple data sources with Integration Services; enriching data and building complex business analytics with Analysis Services; and writing, managing, and delivering rich reports with Reporting Services http://www.microsoft.com/sql/solutions/bi 45