Εξόρυξη Γνώσης από Δεδομένα

Εξόρυξη Γνώσης από Δεδομένα Το εργαλείο WEKA Ομάδα ιαχείρισης εδομένων,, Τμήμα Πληροφορικής, Πανεπιστήμιο Πειραιώς http://infolab.cs.unipi.gr έσποινα Κοπανάκη (dkopanak@unipi.gr) Νοέμβριος 2009

Τα δεδομένα αφθονούν Μόνο ένα μικρό ποσοστό (5-10%) των συλλεγόμενων δεδομένων τυγχάνει ανάλυσης. Μία τυπική επιχειρησιακή βάση δδ δεδομένων σήμερα περιέχει συχνά μεγάλο αριθμό εγγραφών δεδομένων πολλών διαστάσεων. Τελικά: We are drowning in data, but starving for knowledge! Πώς μπορούν να εξερευνηθούν εκατομμύρια εγγραφών εκατοντάδων μεταβλητών, ώστε να ανακαλυφθούν πρότυπα (patterns)?

Ανακάλυψη και Εξόρυξη Γνώσης Η Ανακάλυψη Γνώσης Από Δεδομένα (Knowledge Discovery in Data KDD) είναι η μη τετριμμένη διαδικασία για την εξαγωγή έγκυρων, πρωτότυπων, πιθανώς χρήσιμων και οπωσδήποτε κατανοητών προτύπων (patterns) μέσα στα δεδομένα Η Εξόρυξη Γνώσης (Data Mining) είναι η χρήση αλγορίθμων και τεχνικών για την εξαγωγή προτύπων κατά τη διάρκεια της διαδικασίας KDD Αποτελεί ένα βήμα της KDD διαδικασίας

Από τα δεδομένα στην πληροφορία και την γνώση

Κύριες εργασίες εξόρυξης γνώσης Εύρεση συσχετίσεων μεταξύ των δεδομένων Κανόνες συσχέτισης Κατηγοριοποίηση σε προκαθορισμένες κλάσεις έντρα απόφασης, νευρωνικά δίκτυα, Bayesian κατηγοριοποίηση Συσταδοποίηση/ Ομαδοποίηση Ιεραρχικοί, διαμεριστικοί, με βάση την πυκνότητα Yes NO Refund No MarSt Single, Divorced Married TaxInc NO < 80K > 80K NO YES

Κανόνες Συσχέτισης (Association Rules) Έστω Ι ένα σύνολο από αντικείμενα (items) Ένας κανόνας συσχέτισης έχει τη μορφή X Y όπου X,Y I και X Y = ø Το X ονομάζεται head (κεφαλή) ή LHS (left-hand side) ή antecedent (προηγούμενο) του κανόνα Το Y ονομάζεται body (σώμα) ή RHS (right-hand side) ή consequent (επακόλουθο) του κανόνα Ένας κανόνας σχετίζεται με διάφορα μέτρα ποιότητας όπως: H υποστήριξη (support) του κανόνα ορίζεται ως το ποσοστό των δοσοληψιών που περιέχουν τα αντικείμενα (X Y) ή αλλιώς η πιθανότητα P(X Y) Η εμπιστοσύνη (confidence) του κανόνα ορίζεται ως το ποσοστό των δοσοληψιών του X που περιέχουν και το Υ ή αλλιώς, η εξαρτημένη πιθανότητα P(X Y Χ) = P(X Y)/P(X) A, B, C A, C, E A, D, F,B A, D, C (A,B) C support(abc) = 1/4 confidence (ABC) =1/2 Customer 1 Customer 2 Customer 3 Customer 4

Κατηγοριοποίηση (Classification) Ανάπτυξη ενός μοντέλου πρόβλεψης της κλάσης των στιγμιότυπων ενός προβλήματος Το μοντέλο χτίζεται με βάση ένα σύνολο δεδομένων εκπαίδευσης (training set) Η απόδοση του μοντέλου αξιολογείται με βάση ένα σύνολο δδ δεδομένων ελέγχου (test set) Εποπτευόμενη μάθηση: χρειάζεται να γνωρίζουμε την κλάση των μ η μ η η χρ ζ γ ρζ μ η η στιγμιότυπων εκπαίδευσης

Συσταδοποίηση (Clustering) ιαχωρισμός των δεδομένων σε ομάδες/ συστάδες έτσι ώστε για κάθε εγγραφή που περιλαμβάνει μία συστάδα, η ομοιότητα της με οποιασδήποτε εγγραφή από την ίδια συστάδα να είναι μεγαλύτερη από την ομοιότητα της με οποιασδήποτε εγγραφή από άλλες συστάδες. Μη εποπτευόμενη μάθηση ε γνωρίζουμε την κλάση στην οποία ανήκουν τα δεδομένα εκπαίδευσης. Μας δίνεται ένα σύνολο μετρήσεων, παρατηρήσεων κλπ. με στόχο να ανακαλύψουμε κλάσεις ή ομάδες μέσα στα δεδομένα. Cluster 1 Cluster 2 Data Cluster 3 Cluster 4

WEKA: the bird Copyright: Martin Kramer (mkramer@wxs.nl)

To εργαλείο WEKA (Waikato Environment for Knowledge Analysis) Machine Learning algorithms in Java. Αναπτύσσεται στο Πανεπιστήμιο του Waikato στη Νέα Ζηλανδία. Ξεκίνησε να αναπτύσσεται το 1994. Τα βασικά χαρακτηριστικά της επιτυχίας του WEKA είναι: Παρέχει ποικιλία αλγορίθμων για εξόρυξη ξη γνώσης και μηχανική εκμάθηση. Open source και ελεύθερα διαθέσιμο. Ανεξάρτητη πλατφόρμα. Εύχρηστο από ανθρώπους που δεν είναι ειδικοί σε θέματα εξόρυξης γνώσης. Ενημερωμένο μέχρι και σήμερα με όλους τους αλγόριθμους που υπάρχουν στην ερευνητική βιβλιογραφία. http://www.cs.waikato.ac.nz/ml/weka/ Data Mining: Practical Machine Learning Tools and Techniques (Second Edition) Ian H. Witten, Eibe Frank

Εκδόσεις του WEKA To WEKA συνεχώς αναπτύσσεται 3.0: Η έκδοση που αναφέρεται και το ανάλογο βιβλίο 3.2: Προστέθηκε το γραφικό περιβάλλον 3.4: General User Interface (GUI) έκδοση 3.5: Έκδοση ανάπτυξης 3.6: Τρέχουσα σταθερή GUI έκδοση

Tο Weka σήμερα Ο σκοπός παραμένει ο ίδιος Άνθρωποι 6 Academic Staff 1 Postdoc 5PhD students t 1 MSc student 2R Research programmers 1 BSc/BCMS Honours Student

Εγκατάσταση του WEKA Κατέβασμα του προγράμματος από τη διεύθυνση: Κατέβασμα του προγράμματος από τη διεύθυνση: http://www.cs.waikato.ac.nz/ml/weka/

Περιβάλλον Διεπαφής 14

Περιβάλλον διεπαφής (GUI) Το WEKA GUI Chooser window χρησιμοποιείται για να αρχίσει κάποιος τα WEKA s graphical environments. Στο δεξιό μέρος του παραθύρου υπάρχουν 4 κουμπιά Explorer interface: Παρέχει γραφικό περιβάλλον για τις ρουτίνες του weka και τα συστατικά του μέρη, περισσότερο για το exploring of data. Experimenter: Επιτρέπει στη δημιουργία πειραμάτων και στατιστικών αναλύσεων των σχημάτων που παρέχονται. KnowledgeFlow: ίνει ίδιες δυνατότητες με το προηγούμενο αλλά με ένα περιβάλλον που επιτρέπει drag-and-drop. Simple CLI: Παρέχει γραμμή εντολών για τις ρουτίνες του weka και είναι περισσότερο για λειτουργικά συστήματα που δεν έχουν γραμμή εντολών.

Μορφή δεδομένων Χρησιμοποιεί flat text files για την περιγραφή των δεδομένων. Τα δεδομένα μπορούν να εισάγονται από ένα αρχείο σε διάφορες μορφές: ARFF, CSV, C4.5, binary Τα αρχεία που περιέχουν το σύνολο δεδομένων πρέπει να έχουν συγκεκριμένο format και να αποθηκεύονται με την επέκταση.arff. Στον φάκελο C:\Program Files\Weka-3-6\data περιέχονται κάποια παραδείγματα τέτοιων αρχείων. εδομένα μπορούν επίσης να δοθούν από ένα URL ή από μία SQL βάση (χρησιμοποιώντας ώ JDBC).

ARFF File Format Απαιτεί declarations από @RELATION,, @ATTRIBUTE και @DATA: Η δήλωση @RELATION συσχετίζει ένα όνομα με το dataset: @RELATION <relation-name> name> @RELATION iris Η δήλωση @ATTRIBUTE καθορίζει ρζ το όνομα και τον τύπο ενός χαρακτηριστικού: @attribute <attribute-name> <datatype> Το Datatype μπορεί να είναι numeric, nominal, string ή date @ATTRIBUTE sepallength NUMERIC @ATTRIBUTE petalwidth NUMERIC @ATTRIBUTE class {Iris-setosa,Iris-versicolor,Iris-virginica} Η δήλωση @DATA είναι μια γραμμή που δηλώνει την αρχή του data segment: @DATA 5.1, 3.5, 1.4, 0.2, Iris-setosa 4.9,?, 1.4,?, Iris-versicolor

ARFF File Format @relation heart-disease-simplified @attribute age numeric @attribute sex { female, male} @attribute chest_pain_type { typ_angina, asympt, non_anginal, atyp_angina} @attribute cholesterol numeric @attribute exercise_induced_angina { no, yes} @attribute class { present, not_present} @data 63,male,typ_angina,233,no,not_present 67,male,asympt,286,yes,present asympt yes present 67,male,asympt,229,yes,present 38,female,non_anginal,?,no,not_present... Περισσότερες πληροφορίες στην εξής ηλεκτρονική διεύθυνση:: http://www.cs.waikato.ac.nz/ waikato ac nz/~ml/weka/arff.html

ARFF File Format @relation weather.symbolic @attribute outlook {sunny, overcast, rainy} @attribute temperature {hot, mild, cool} @attribute humidity {high, normal} @attribute windy {TRUE, FALSE} @attribute play {yes, no} @data sunny,hot,high,false,no sunny,hot,high,true,no overcast,hot,high,false,yes rainy,mild,high,false,yes. 19

Explorer - Καρτέλες Preprocess: Επιλογή και τροποποίηση των δεδομένων. Classify: Εκπαίδευση και έλεγχος των learning schemes που κάνουν classification ή regression. Cluster: Εφαρμογή clustering στα δεδομένα. Associate: ημιουργεί κανόνες συσχέτισης για τα δεδομένα. Select attributes: Επιλογή των πιο σχετικών χαρακτηριστικών των δεδομένων. Visualize: Προβολή διαδραστικών 2D διαγραμμάτων των δδ δεδομένων. 20

Explorer Βασική οθόνη

Explorer: Preprocessing Στο επάνω μέρος του παραθύρου υπάρχουν διάφορες καρτέλες Κατά την εκκίνηση του Explorer μόνο η πρώτη καρτέλα είναι ενεργή και αυτό γιατί πρέπει πριν γίνει οτιδήποτε να ανοιχτεί το αρχείο δεδομένων

Explorer: Preprocessing Φόρτωση δεδομένων στο Weka Explorer Open file. Εμφάνιση παραθύρου που επιτρέπει την εύρεση αρχείου δδ δεδομένων. Open URL. Ερώτηση για την Uniform Resource Locator διεύθυνση όπου βρίσκονται τα δεδομένα αποθηκευμένα. Open DB. ιαβάζει δεδομένα από τη βάση. Generate... Σου επιτρέπει τη δημιουργία δεδομένων μέσα από μια ποικιλία DataGenerators.

Explorer - Preprocessing Τα Pre-processing εργαλεία στο WEKA ονομάζονται filters Το WEKA περιέχει filters για: Discretization, normalization, resampling, attribute selection, transforming, combining attributes, κτλ

Explorer: Καρτέλες: Status box To status box βρίσκεται στο κάτω μέρος του παραθύρου και δείχνει κάποια μηνύματα για το τι γίνεται κάθε στιγμή. Παράδειγμα: Όταν ο Explorer είναι απασχολημένος στην φόρτωση ενός αρχείου δεδομένων, τότε το status box κάνοντας δεξί κλικ δίνει ένα μενού με 2 επιλογές: Πληροφορίες ρ για τη μνήμη. Ποσοστό διαθέσιμης μνήμης για το WEKA. Τρέχει ο garbage collector (διαχείριση μνήμης). Τρέχει από την Java ο garbage collector και ψάχνει μνήμη που δεν χρησιμοποιείται ο και την απελευθερώνει, έτσι υπάρχει διαθέσιμη μνήμη για νέες εργασίες. Ο garbage collector τρέχει στο background.

Explorer: Καρτέλες: Log button Πατώντας εδώ ανοίγει ένα παράθυρο που περιέχει πληροφορίες που σε κάθε σειρά δηλώνει την ημερομηνία μη και το γεγονός γ που έχει συμβεί κάθε φορά Καθώς το WEKA κάνει διάφορες ενέργειες το log κρατάει πληροφορίες για τις ενέργειες αυτές.

Explorer: Preprocessing The Current Relation Εδώ φαίνονται τα δεδομένα που μόλις έχουν εισαχθεί. Έχει 3 πεδία: Relation: Το όνομα του relation, όπως δίνεται στο αρχείο. Τα Filters τροποποιούν το όνομα ενός relation. Instances: Ο αριθμός των instances (data points/records) των δδ δεδομένων. Attributes: Ο αριθμός των χαρακτηριστικών (features) των δεδομένων.

Explorer: Preprocessing Working With Attributes: No.: ηλώνει τον αριθμό του χαρακτηριστικού με τη σειρά που βρίσκεται μέσα στο αρχείο δδ δεδομένων. Selection tick boxes: Μπορεί να γίνει επιλογή ορισμένων χαρακτηριστικών που έχουν σχέση με την ανάλυση. Name: Tο όνομα του κάθε χαρακτηριστικού όπως είναι δηλωμένο στο αρχείο δεδομένων.

Explorer: Preprocessing Selected attribute Name: Το όνομα του χαρακτηριστικού που έχει επιλεχθεί Type: Ο τύπος του επιλεγμένου χαρακτηριστικού, συνήθως Nominal or Numeric. Missing: Το ποσοστό των instances στα δεδομένα που λείπουν δεδομένα. Distinct: Ο αριθμός των διαφορετικών τιμών που περιέχουν τα δεδομένα για το επιλεγμένο χαρακτηριστικό. Unique: Το ποσοστό των instances στα δεδομένα που έχουν τιμή που για άλλο χαρακτηριστικό δεν έχουν τα άλλα instances.

Explorer: Preprocessing Filters Γίνεται μετατροπή των δεδομένων με διάφορους τρόπους. Επιλέγεται από τη λίστα το filter. Μόλις γίνεται η επιλογή παρουσιάζεται το όνομα του εκεί που επιλέχθηκε. Πατώντας εκεί ανοίγει παράθυρο με τις ρυθμίσεις του τρέχοντος ρχ filter.

12/4/2009 University of Waikato 31

Explorer - Clustering data Το WEKA περιέχει αλγόριθμους συσταδοποίσης για εύρεση ομάδων όμοιων εγγραφών στο σύνολο των δεδομένων. Κάποια παραδείγματα είναι: k-means, M EM, Cobweb, b X-means, FarthestFirst tfi t Οι συστάδες μπορούν να οπτικοποιηθούν και να συγκριθούν με τις πραγματικές συστάδες (εάν ά δίνονται). ) Γίνεται εκτίμηση βασιζόμενη στη loglikelihood εάν το clustering scheme παράγει κατανομή πιθανότητας. 12/4/2009 University of Waikato 52

Explorer - Clustering Αφού έχει επιλεγεί ένα σύνολο δεδομένων είναι δυνατόν να γίνει συσταδοποίηση (εύρεση ομάδων όμοιων δεδομένων). ) Από την καρτέλα cluster μπορεί να επιλεγεί ένας αλγόριθμος με βάση τον οποίο θα γίνει συσταδοποίηση και με το κουμπί start να αρχίσει η εκτέλεση του αλγορίθμου.

Explorer - Clustering Οι αλγόριθμοι συσταδοποίησης που έχουν υλοποιηθεί είναι οι: Cobweb (ιεραρχική συσταδοποίηση) DBScan EM Farthest First OPTICS SimpleKmeans (K-means) Xmeans

Explorer - Clustering Οι τιμές των παραμέτρων κάθε αλγορίθμου συσταδοποίησης (όπως ο αριθμός των clusters στον kmeans, το eps και το MinPts στον DBScan) μπορούν να τροποποιηθούν από μία καρτέλα που εμφανίζεται με διπλό κλικ πάνω στο όνομα του αλγορίθμου όταν αυτός έχει επιλεγεί. Με δεξί κλικ πάνω στο όνομα του αλγορίθμου που έχει ήδη εκτελεστεί στα δεδομένα (από το result list) εμφανίζεται ένα μενού με την βοήθεια του οποίου μπορεί να εμφανιστεί η γραφική αναπαράσταση των δεδομένων, με βάση τις ομάδες που έχουν προκύψει από το clustering

Explorer - Classification Selecting a Classifier Πατώντας στο επάνω μέρος της καρτέλας αυτής δίνεται το GenericObjectEditor dialog box και επιλέγουμε τον classifier που επιθυμούμε. Οι classifiers στο WEKA είναι μοντέλα για την πρόβλεψη nominal ή numeric quantities. Τα ενσωματωμένα learning schemes περιέχουν: Decision trees και λίστες, instance-based classifiers, support vector machines, multi-layer perceptions, p logistic regression, Bayes nets,

Explorer - Classification Επιλογές Use training set: Ο classifier αποτιμάται στο πόσο καλά μπορεί να προβλέψει την class των instances που εκπαιδεύτηκε. Supplied test set: Ο classifier αποτιμάται στο πόσο καλά προβλέπει την class από το set των instances που φορτώθηκαν από το αρχείο. Cross-validation: Ο classifier αποτιμάται από cross-validation, χρησιμοποιώντας τον αριθμό των folds που εισάγονται στο ανάλογο πεδίο. Percentage split: Ο classifier αποτιμάται στο πόσο καλά προβλέπει ένα certain percentage των δεδομένων που προσφέρονται για testing. Τα δεδομένα αυτά εξαρτώνται από την τιμή που εισάγεται στο πεδίο.

Explorer - Classification Αποτελέσματα Run information: Πληροφορίες σχετικά με τις επιλογές του learning scheme, relation name, instances, attributes και το test mode που σχετίζονται με τη διαδικασία. Classifier model (full training set): Μια textual αναπαράσταση του classification μοντέλου που δημιουργήθηκε σε όλα τα training data. Summary: Λίστα στατιστικών για το πώς έγινε η πρόβλεψη την true class των instances κάτω από το επιλεγμένο test mode. Detailed Accuracy By Class: Μια πιο λεπτομερής αναφορά ανά class για την ακρίβεια πρόβλεψης του classifier. Confusion Matrix: ί είχνει πόσα instances αντιστοιχίζονται σε κάθε class. Τα στοιχεία δείχνουν τον αριθμό των test examples των οποίων η ακριβής class είναι η γραμμή και των οποίων η προβλεπόμενη class είναι η στήλη.

QuickTime and a TIFF (LZW) decompressor are needed to see this picture. 12/4/2009 University of Waikato 94

QuickTime and a TIFF (LZW) decompressor are needed to see this picture. 12/4/2009 University of Waikato 95

Explorer - Finding associations Το WEKA περιέχει μεταξύ άλλων τον Apriori αλγόριθμο για την εύρεση κανόνων συσχέτισης. ουλεύει μόνο με διακριτά δεδομένα. Μπορεί να προσδιορίσει στατιστικές εξαρτήσεις μεταξύ των ομάδων των χαρακτηριστικών: Γάλα, βούτυρο ψωμί, αυγά (με confidence 0.9 και support 0,5) Ο αλγόριθμος Apriori μπορεί να υπολογίσει όλους τους κανόνες που έχουν ένα δοθέν minimum support και υπερβαίνουν ένα δοθέν επίπεδο confidence. 12/4/2009 University of Waikato 99

Explorer Επιλογή χαρακτηριστικών Η καρτέλα αυτή μπορεί να χρησιμοποιηθεί για να εξετάσει ποια χαρακτηριστικά είναι τα πιο κατάλληλα. Οι μέθοδοι επιλογής χαρακτηριστικών αποτελούνται από δυο μέρη: Μέθοδος εξερεύνησης: best-first, t forward selection, random, exhaustive, genetic algorithm, ranking Μέθοδος εκτίμησης: correlation-based, wrapper, information gain, chi-squared, Ευεληξία: το WEKA επιτρέπει συνδυασμούς αυτών των δυο. 12/4/2009 University of Waikato 103

Explorer Οπτικοποίηση Δεδομένων Η οπτικοποίηση είναι πολύ χρήσιμη στην πράξη. Το WEKA μπορεί να οπτικοποιήσει ένα χαρακτηριστικό (1D) ή ζύ ζεύγη χαρακτηριστικών (2D). Κωδικοποιημένες βάση χρώματος οι τιμές των κλάσεων. υνατότητα διαχείρισης ποιοτικών χαρακτηριστικών και ανίχνευση κρυφών δεδομένων. υνατότητα Zoom-in. 12/4/2009 University of Waikato 107

Experimenter Ο Experimenter διευκολύνει τη σύγκριση της απόδοσης διαφορετικών learning schemes. Για προβλήματα κατηγοριοποίησης και παλινδρόμησης. Τα αποτελέσματα μπορούν να εξαχθούν σε αρχείο ή βάση δεδομένων. Μπορεί να επαναληφθεί για διαφορετικές τιμές των παραμέτρων. 12/4/2009 University of Waikato 116

The Knowledge Flow GUI Χρησιμοποιείται για την εκτέλεση πειραμάτων machine learning. Data sources, classifiers συνδέονται γραφικά Τα δεδομένα ρέουν μέσω των: πχ., data source -> filter -> classifier -> evaluator Τα Layouts μπορούν να αποθηκευτούν και να χρησιμοποιηθούν στη συνέχεια ξανά. 12/4/2009 University of Waikato 125

WEKA - αλγόριθμοι Όπως είδαμε, το WEKA υποστηρίζει ένα μεγάλο πλήθος αλγορίθμων για τις 3 κατηγορίες εξόρυξης γνώσης συσχέτιση, κατηγοριοποίηση και συσταδοποίηση με πολλές παραμέτρους Μπορεί να υλοποιηθούν νέοι αλγόριθμοι και να ενσωματωθούν εύκολα στο σύστημα Οι παραδοσιακοί αλγόριθμοι χρειάζονται να έχουν όλα τα δεδομένα στην κύρια μνήμη με αποτέλεσμα να μην είναι αποτελεσματικό για μεγάλες βάσεις δεδομένων.

Ευχαριστώ!