Ειδικά Θζματα Βάςεων Δεδομζνων Ενότητα 15: Εξόρυξη Δεδομζνων (Data Mining) Δρ. Τςιμπίρθσ Αλκιβιάδθσ Τμιμα Μθχανικϊν Πλθροφορικισ ΤΕ
Άδειεσ Χρήςησ Το παρόν εκπαιδευτικό υλικό υπόκειται ςε άδειεσ χριςθσ Creative Commons. Για εκπαιδευτικό υλικό, όπωσ εικόνεσ, που υπόκειται ςε άλλου τφπου άδειασ χριςθσ, θ άδεια χριςθσ αναφζρεται ρθτϊσ. 2
Χρηματοδότηςη Το παρόν εκπαιδευτικό υλικό ζχει αναπτυχκεί ςτα πλαίςια του εκπαιδευτικοφ ζργου του διδάςκοντα. Το ζργο «Ανοικτά Ακαδθμαϊκά Μακιματα ςτο ΤΕΙ Κεντρικισ Μακεδονίασ» ζχει χρθματοδοτιςει μόνο τθ αναδιαμόρφωςθ του εκπαιδευτικοφ υλικοφ. Το ζργο υλοποιείται ςτο πλαίςιο του Επιχειρθςιακοφ Προγράμματοσ «Εκπαίδευςθ και Δια Βίου Μάκθςθ» και ςυγχρθματοδοτείται από τθν Ευρωπαϊκι Ζνωςθ (Ευρωπαϊκό Κοινωνικό Ταμείο) και από εκνικοφσ πόρουσ. 3
Ενότητα 15 Εξόρυξη Γνϊςησ (Data Mining) Δρ. Τςιμπίρθσ Αλκιβιάδθσ 4
Περιεχόμενα ενότητασ Εξόρυξθ Δεδομζνων (DATA MINING) KDD ΚΑΙ DATA MINING Μζκοδοι DATA MINING Συςταδοποίθςθ (CLUSTERING) Ιεραρχικό, Διαμεριςτικό ΚΑΙ Αςαφζσ CLUSTERING Διαμεριςτικοί Αλγόρικμοι K-means clustering 5
Σκοποί ενότητασ Ο όροσ εξόρυξθ δεδομζνων αναφζρεται ςτθν διαδικαςία ανάλυςθσ μεγάλων βάςεων δεδομζνων για εφρεςθ χριςιμων μοτίβων. Σχετίηεται με τθν ανακάλυψθ τθσ γνϊςθσ ςε βάςεισ δεδομζνων. Στθν ενότθτα αυτι γίνεται μια αναφορά ςε βαςικζσ τεχνικζσ εξόρυξθσ δεδομζνων όπωσ ςυςταδοποίθςθ, κατθγοριοποίθςθ, δζντρα αποφάςεων και κανόνεσ ςυςχζτιςθσ. Παρουςιάηονται ςτον ςπουδαςτι νζα επιςτθμονικά πεδία ερευνθτικισ και επαγγελματικισ δράςθσ και γίνεται επεξιγθςθ αντιπροςωπευτικϊν αλγορίκμων. 6
Ειςαγωγή ςτην KDD Στισ μζρεσ μασ και ςε ζνα πολφ μεγάλο εφροσ πεδίων θ ςυλλογι, καταγραφι και επεξεργαςία δεδομζνων γίνεται με δραματικοφσ ρυκμοφσ. Δθμιουργοφνται ςυνεχϊσ κεωρίεσ και εργαλεα τα οποία βοθκοφν ςτθν ςυλλογι χριςιμων πλθροφοριϊν από τα ολοζνα αυξανόμενα δεδομζνα. Αυτζσ οι κεωρίεσ και τα εργαλεία είναι το αντικείμενο τθσ Ανακάλυψθσ Γνϊςθσ ςε Βάςεισ Δεδομζνων γνωςτι και ωσ KDD (Knowledge Discovery in Databases). H KDD διαδικαςία αςχολείται με τθν δθμιουργία και μελζτθ μεκόδων και τεχνικϊν που εφαρμόηονται ςτα δεδομζνα με ςκοπό τθν εξαγωγι χριςιμων πλθροφοριϊν. 7
Χρήςη των τεχνικϊν KDD Marketing Επενδφςεισ (Investment) Fraud Detection Επικοινωνίεσ και Data Cleaning Ιατρικι 8
KDD - Data Mining Γενικά ο όροσ KDD αναφζρεται ςτθ ςυνολικι διαδικαςία τθν εφρεςθσ γνϊςθσ από ςφνολα δεδομζνων και ο όροσ Data Mining αναφζρεται ςε ζνα μζροσ αυτισ τθσ διαδικαςίασ. Data Mining είναι θ εφαρμογι ςυγκεκριμζνου αλγορίκμου για τθν εξαγωγι μοντζλου από τα δεδομζνα. Επιπλζον βιματα ςτθν KDD διαδικαςία είναι: προετοιμαςία των δεδομζνων, επιλογι δεδομζνων, κακαριςμόσ δεδομζνων (data cleaning), ενςωμάτωςθ κατάλλθλθσ γνϊςθσ και ςωςτι μετάφραςθ και μελζτθ των αποτελεςμάτων 9
KDD - Data Mining 10
Data Mining 11
Data Mining 12
Data Mining 13
Συςταδοποίηςη- κατηγοριοποίηςη Clustering (ςυςταδοποίηςη) To clustering είναι θ εργαςία του μεριςμοφ ενόσ ςυνόλου δεδομζνων ςε ομάδεσ ομοίων ςτοιχείων, clusters. Τα δεδομζνα ομαδοποιούνται ςε ςύνολα με βάςθ κάποιο κριτιριο ομοιότθτασ. Το clustering δεν βαςίηεται ςε προκακοριςμζνεσ κλάςεισ. Classification (κατηγοριοποίηςη) Η διαδικαςία κατθγοριοποίθςθσ των δεδομζνων ςε κάποια από τισ προκακοριςμζνεσ κλάςεισ. Συχνά θ διαδικαςία του classification περιγράφεται ςαν μία ςυνάρτθςθ μάκθςθσ (learning function), θ οποία ταξινομεί (classifies) κάκε αντικείμενο του ςυνόλου δεδομζνων ςε μία από τισ προκακοριςμζνεσ κατθγορίεσ. Η διαδικαςία του classification χαρακτθρίηεται από: Ζνα ςφνολο καλά οριςμζνων κατθγοριϊν, ζνα training set. Στόχοσ: Ο οριςμόσ ενόσ μοντζλου το οποίο μπορεί να κατθγοριοποιεί νζα δεδομζνα από ζνα test set 14
Kανόνεσ ςυςχζτιςησ - εκτίμηςη και πρόβλεψη Εξαγωγή κανόνων ςυςχζτιςησ (association rules extraction) Προςδιοριςμόσ και εξαγωγι των ςυςχετίςεων ι προτφπων τα οποία υπάρχουν ςε μία ςυλλογι αντικειμζνων. Τα πρότυπα μποροφν να εκφραςτοφν με κανόνεσ, των οποίων θ γενικι μορφι είναι If X then Y. Κριτιρια εγκυρότθτασ και ςθμαντικότθτασ κανόνων: support factor, confidence factor Estimation & prediction (εκτίμηςη και πρόβλεψη). Περιλαμβάνει τεχνικζσ εκτίμθςθσ και πρόβλεψθσ μελλοντικϊν τάςεων ι τιμϊν. Ο ςτόχοσ εδϊ είναι να καταςκευάςουμε ζνα μοντζλο που κα επιτρζπει τθν τιμι μιασ μεταβλθτισ να προβλεφκεί από τισ γνωςτζσ τιμζσ άλλων μεταβλθτϊν 15
Παλινδρόμηςη - Συνάθροιςη Regression (παλινδρόμηςη). Αντιςτοιχεί τα αντικείμενα από ζνα ςφνολο δεδομζνων ςτθν τιμι μίασ μεταβλθτισ πρόβλεψθσ Summarization (Συνάθροιςη) Περιλαμβάνει μεκόδουσ για τθν περιγραφι ενόσ υποςυνόλου δεδομζνων. Π.χ. θ εκτίμθςθ τθσ μζςθσ και τθσ τυπικισ απόκλιςθσ για όλα τα πεδία, reports, τεχνικζσ παρουςίαςθσ, τθν παραγωγι ςυνοπτικϊν κανόνων. 16
Clustering 17
X2 Clustering Cluster 1 A Cluster 3 F G D E Cluster 2 S I M I L A R I T Y B C X1 A B C D E F G Σημεία ζε ηρία clusters Δενδοδιάγραμμα ιεραρτίας 18
X2 K-means clustering 1. Επιλογι k κεντροειδϊν cluster τα οποία αποτελοφν και τα μόνα ςτοιχεία των k επελεγμζνων clusters. G F 2. Τοποκζτθςε κάκε ςτοιχείο ςτο πιο κοντινό cluster μετά από υπολογιςμό τθσ απόςταςθσ του ςθμείου από το κεντροειδζσ του cluster. 3. Υπολόγιςε το νζο κεντροειδζσ. C E D B A X1 Εσαιζθηζία ηοσ αλγορίθμοσ k-means ζηην αρτική επιλογή clusters. 4. Αν το κριτιριο τερματιςμοφ δεν ικανοποιείται πιγαινε ςτο βιμα 2. 19