Εξόρυξη Γνώσης - το εργαλείο WEKA Οµάδα ιαχείρισης εδοµένων, Τµήµα Πληροφορικής, Πανεπιστήµιο Πειραιώς (http:// http://isl.cs.unipi.gr/) Κοτσιφάκος Ευάγγελος ek@unipi.gr Νοέµβριος 2008
Ανακάλυψη και Εξόρυξη Γνώσης Η ανακάλυψη γνώσης από δεδοµένα (Knowledge Discovery in Data KDD) είναι η µη τετριµµένη διαδικασία εύρεσης έγκυρων, πρωτότυπων, πιθανώς χρήσιµων και οπωσδήποτε κατανοητών προτύπων (patterns) µέσα στα δεδοµένα Η εξόρυξη γνώσης από δεδοµένα (Data Mining) είναι η χρήση αλγορίθµων για την εξαγωγή των πληροφοριών και προτύπων που παράγονται µε τη διαδικασία KDD
ιαδικασία Εξόρυξης Γνώσης
Εργασίες εξόρυξης γνώσης Κανόνες Συσχέτισης Κατηγοριοποίηση / Πρόβλεψη έντρα απόφασης, νευρωνικά δίκτυα,, Bayesian κατηγοριοποίηση Συσταδοποίηση Ιεραρχικοί, διαµεραστικοί, µε βάση την πυκνότητα Yes NO Refund TaxInc No Single, Divorced MarSt < 80K > 80K Married NO NO YES
Κανόνες Συσχέτισης (Association rules) Ορισµός: X Y όπου X,Y I και X Y = ø Το X ονοµάζεται LHS (left-hand side) ή antecedent (προηγούµενο) ή head (κεφαλή) του κανόνα Το Y ονοµάζεται RHS (right-hand hand side) ή consequent (επακόλουθο) ή body (σώµα) του κανόνα Υποστήριξη (support) του AR (s)( X Y: το ποσοστό των δοσοληψιών που περιέχουν το X Y ή αλλιώς η πιθανότητα P(X Y) Εµπιστοσύνη (confidence) του AR (α)( X Y: η αναλογία του πλήθους των δοσοληψιών που περιέχουν το X Y ως προς το πλήθος των δοσοληψιών που περιέχουν το X. ή αλλιώς, η εξαρτηµένη πιθανότητα P(X Y Χ) = P(X Y) Y)/P(X)
Κατηγοριοποίηση (Classification) Ορισµός: Εκµάθηση µιας τεχνικής να προβλέπει την κλάση ενός στοιχείου επιλέγοντας από προκαθορισµένες τιµές Εποπτευόµενη µάθηση Επόπτευση: Τα δεδοµένα εκπαίδευσης συνοδεύονται από ετικέτες για την κλάση µε την οποία ανήκει το καθένα Τα νέα δεδοµένα κατηγοριοποιούνται µε βάση τη γνώση που µας παρέχουν τα δεδοµένα εκπαίδευσης
Συσταδοποίηση (Clustering) Ορισµός: Η εύρεση συστάδων για τις οποίες για κάθε εγγραφή που περιλαµβάνουν, η οµοιότητα µεταξύ αυτής και οποιασδήποτε εγγραφής από την ίδια συστάδα να είναι µεγαλύτερη από την οµοιότητα µεταξύ αυτής και οποιασδήποτε εγγραφής από άλλες συστάδες Μη εποπτευόµενη µάθηση ε γνωρίζουµε τις κλάση στην οποία ανήκουν τα δεδοµένα εκπαίδευσης Μας δίνεται ένα σύνολο µετρήσεων, παρατηρήσεων κλπ. µε στόχο να ανακαλύψουµε κλάσεις ή οµάδες µέσα στα δεδοµένα
WEKA data mining tool Applications Tools Visualization http://www.cs.waikato.ac.nz/ml/weka/ Version 3-5-63
WEKA applications Applications: : the main applications within WEKA. Explorer.. An environment for exploring data with WEKA (the rest of this documentation deals with this application in more detail). Experimenter.. An environment for performing experiments and conducting statistical tests between learning schemes. KnowledgeFlow.. This environment supports essentially the same functions as the Explorer but with a drag-and and-drop drop interface. One advantage is that it supports incremental learning. SimpleCLI.. Provides a simple command-line interface that allows direct execution of WEKA commands for operating systems that do not provide their own command line interface.
WEKA tools Tools: Other useful applications. ArffViewer: : An application for viewing ARFF files in spreadsheet format. SqlViewer: : represents an SQL worksheet, for querying databases via JDBC. EnsembleLibrary: : An interface for generating setups for Ensemble Selection (a contribution by Robert Jung and David Michael from Cornell University, Ithaca, NY, USA).
WEKA visualization Visualization Ways of visualizing data with WEKA Plot For plotting a 2D plot of a dataset. ROC Displays a previously saved ROC curve. TreeVisualizer For displaying directed graphs, e.g., a decision tree. GraphVisualizer Visualizes XML BIF or DOT format graphs, e.g., for Bayesian networks. BoundaryVisualizer Allows the visualization of classifier decision boundaries in two dimensions.
WEKA explorer 1. Preprocess.. Choose and modify the data being acted on. 2. Classify.. Train and test learning schemes that classify or perform regression. 3. Cluster.. Learn clusters for the data. 4. Associate.. Learn association rules for the data. 5. Select attributes.. Select the most relevant attributes in the data. 6. Visualize.. View an interactive 2D plot of the data.
WEKA explorer βασική οθόνη
WEKA explorer βασική οθόνη Open file... Brings up a dialog box allowing you to browse for the data file on the local file system. Open URL... Asks for a Uniform Resource Locator address for where the data is stored. Open DB... Reads data from a database. Generate... Enables you to generate artificial data from a variety of DataGenerators.
WEKA - preprocess Data Preprocess Input: Arff data format files CSV data format files Filters Nominal to string String to Nominal string to nominal Data Cleaner addcluster
WEKA - κατηγοριοποίηση
WEKA συσταδοποίηση
WEKA κανόνες συσχέτισης
WEKA file formats
WEKA arff file @relation weather.symbolic @attribute outlook {sunny, overcast, rainy} @attribute temperature {hot, mild, cool} @attribute humidity {high, normal} @attribute windy {TRUE, FALSE} @attribute play {yes, no} @data sunny,hot,high,false,no sunny,hot,high,true,no overcast,hot,high,false,yes rainy,mild,high,false,yes.
WEKA - αλγόριθµοι Το WEKA υποστηρίζει ένα µεγάλο πλήθος αλγορίθµων για τις 3 κατηγορίες (συσχέτιση, κατηγοριοποίηση και συσταδοποίηση) µε πολλές παραµέτρους Μπορεί να υλοποιηθούν νέοι αλγόριθµοι και να ενσωµατωθούν εύκολα στο σύστηµα Μπορεί να γίνει µαζική επεξεργασία αρχείων µέσω της γραµµής εντολών.
WEKA - demo Άνοιγµα αρχείου µε EXCEL text editor Άνοιγµα αρχείου µε WEKA και µε CSV editor του WEKA. Επιλογή attributes από αρχική οθόνη Επεξήγηση βασικών στοιχείων αρχικής οθόνης Επιλογή φίλτρων (απλή αναφορά) και αλλαγή παραµέτρων τους
WEKA - demo Επιλογή Tabs για clusters, associations και classification Επιλογή αλγορίθµου (από τη λίστα) και έλεγχος παραµέτρων (αναφορικά µόνο) Τρόπος εκτέλεσης και έξοδος αποτελεσµάτων στο δεξί µέρος. Error log Εκτέλεση Κανόνων συσχέτισης µερικές φορές µε διαφορετικές παραµέτρους και attributes Capture output (από( δεξί µέρος της οθόνης)
WEKA - demo Επιλογή αλγορίθµου k-means (πχ) για clustering. Εκτέλεση αλγορίθµου output Εφαρµογή φίλτρου AddCluster στα δεδοµένα (από την αρχική οθόνη) Εξαγωγή αποτελεσµάτων από editor του WEKA