Εξόρυξη Γνώσης από Δεδομένα

Σχετικά έγγραφα
Εξόρυξη Γνώσης - το εργαλείο WEKA

Ανακάλυψη Γνώσης από εδοµένα και Εξόρυξη Γνώσης στο εργαλείο WEKA

Αποθήκες και Εξόρυξη Δεδομένων

«Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα»

Εξόρυξη Γνώσης µε SQL Server 2005 Analysis Services

Αποθήκες και Εξόρυξη Δεδομένων

«Τεχνογλωσσία VIII» Εξαγωγή πληροφοριών από κείμενα

Αποθήκες και Εξόρυξη Δεδομένων

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ

Αποθήκες και Εξόρυξη Δεδομένων

Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα

ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ

ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ (Data Mining) Πανδή Αθηνά

ΕΜΠ ΔΠΜΣ Εφαρμοσμένες Μαθηματικές Επιστήμες Αλγόριθμοι Εξόρυξης Πληροφορίας. Διάλεξη02 ΣυνιστώσεςΔεδομένων Οπτικοποίηση&Εξερεύνηση

Ανάλυση μεγάλων δεδομένων με χρήση εργαλείων εξόρυξης δεδομένων. Η περίπτωση μιας εφαρμογής υποστήριξης αποφάσεων εκλογικής ψήφου.

Κατηγοριοποίηση. Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης. 2 ο Φροντιστήριο. Σκούρα Αγγελική

8. ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ ΔΕΔΟΜΕΝΩΝ

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώση

Εξόρυξη Γνώσης από Βιολογικά εδομένα

Πανεπιστήμιο Πειραιώς Τμήμα Πληροφορικής

Ι. Preprocessing (Επεξεργασία train.arff):

Τεχνικές Εξόρυξης Δεδομένων

ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ

ΕΡΓΑΣΙΑ : DATASET WEATHER ΕΙΡΗΝΗ ΛΥΓΚΩΝΗ

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

Διδάσκουσα: Χάλκου Χαρά,

ΑΝΔΡΟΥΛΑΚΗΣ ΜΑΝΟΣ A.M AΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ

ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΡΟΗ: ΣΤΑΤΙΣΤΙΚΗ-ΠΙΘΑΝΟΤΗΤΕΣ ΜΑΘΗΜΑ: ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ ΔΗΜΗΤΡΑ ΤΑΤΣΙΟΥ

ΚΕΦΑΛΑΙΟ 5. Matlab GUI για FWSVM και Global SVM

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων:

Ανακάλυψη κανόνων συσχέτισης από εκπαιδευτικά δεδομένα

ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

Ευφυής Προγραμματισμός

Σχεδιασμός Βάσεων Δεδομένων

Εισαγωγή στην εξόρυξη δεδομένων. ή Εισαγωγή στην εξόρυξη γνώσης από δεδομένα

ΕΙΣΑΓΩΓΗ ΔΕΔΟΜΕΝΩΝ ΑΠΟ EXCEL ΣΤΟ GRETL

Ταξινόμηση. Εισαγωγή. Ορισμός. Ορισμός. Τεχνικές Ταξινόμησης. Εισαγωγή

ΕΡΓΑΣΤΗΡΙΟ 6 ο : Ταξινομήσεις εικόνων μη επιβλεπόμενη ταξινόμηση

υποδείγματος για την αξιολόγηση αυτοκινήτων με τεχνικές Data Mining.»

Πανεπιστήµιο Πειραιώς - Τµήµα Πληροφορικής. Αποθήκες εδοµένων και Εξόρυξη Γνώσης (Data Warehousing & Mining) Τεχνικές Data Mining. Γιάννης Θεοδωρίδης

Κεφάλαιο 9. Εξαγωγή Κανόνων Συσχέτισης

Αναγνώριση Προτύπων Εργασία 1η Classification

ΠΜΣ Πληροφορικής Πανεπιστηµίου Πειραιά. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Εισαγωγή. Γιάννης Θεοδωρίδης

Εισαγωγή στους Υπολογιστές

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής. Εξόρυξη Γνώσης από εδοµένα (Data Mining) Συσταδοποίηση. Γιάννης Θεοδωρίδης

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

6. ΕΠΙΣΚΟΠΗΣΗ ΤΟΥ ΧΑΡΤΗ

Εργασία «Διαχείριση Δικτύων» Ιούνιος 2014, Θεσ/νίκη

Διαχείριση Γνώσης Ροές Διαδικασιών

Κατηγοριοποίηση (Εποπτευόμενη μάθηση)

Nearest Neighbor Analysis

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

ΑΝΑΠΑΡΑΓΩΓΗ ΜΑΘΗΣΙΑΚΩΝ ΑΝΤΙΚΕΙΜΕΝΩΝ ΣΤΟ ΦΩΤΟΔΕΝΤΡΟ ΜΑΘΗΣΙΑΚΑ ΑΝΤΙΚΕΙΜΕΝΑ. Οδηγίες για Java

Δρ. Σταύρος Καραθανάσης

Αλγόριθμοι Μηχανικής Μάθησης σε Πολυεπεξεργαστικά Περιβάλλοντα

2. Εισαγωγή Δεδομένων σε Σχεσιακή Βάση Δεδομένων

A3.3 Γραφικά Περιβάλλοντα Επικοινωνίας και Διαχείριση Παραθύρων

Εργαστήρια Text Mining & Sentiment Analysis με Rapid Miner

Προεπεξεργασία Δεδομένων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκουσα: Μαρία Χαλκίδη

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή

ΔΙΑΡΘΡΩΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ

squared error, Mean absolute error, Root mean squared error) µεγάλωσαν,

Πανεπιστήμιο Δυτικής Μακεδονίας. Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών. Ηλεκτρονική Υγεία. Εργαστήριο 4 ο : MATLAB

ΠΡΟΒΛΕΨΗ ΧΡΕΟΚΟΠΙΑΣ ΜΕ ΜΕΘΟΔΟΥΣ ΕΞΟΡΥΞΗΣ ΓΝΩΣΗΣ ΑΠΟ ΔΕΔΟΜΕΝΑ(DATA MINING)

Predicting the Choice of Contraceptive Method using Classification

Πανεπιστήµιο Πειραιώς - Τµήµα Πληροφορικής. Αποθήκες εδοµένων και Εξόρυξη Γνώσης. (Data Warehousing & Data Mining) Εισαγωγή

(classification) 2 ΠΑ.ΠΕΙ. ΓιάννηςΘεοδωρίδης 4.1

Visual Flowchart Γενικά

ΕΓΧΕΙΡΙΔΙΟ ΜΑΘΗΤΗ. της Πλατφόρμας Τηλεκατάρτισης


Περιγραφή των Δεδομένων

6. ΓΕΩΓΡΑΦΙΚΑ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ

ΠΡΟΣΟΧΗ Η έκδοση 5.40 δεν απαιτεί Convert μετά την εγκατάσταση.

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΑΤΕΥΘΥΝΣΗ: ΨΗΦΙΑΚΕΣ ΕΠΙΚΟΙΝΩΝΙΕΣ ΚΑΙ ΔΙΚΤΥΑ ΤΙΤΛΟΣ: ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΔΙΑΧΕΙΡΙΣΗΣ ΔΙΚΤΥΩΝ ΜΕ ΧΡΗΣΗ ΤΕΧΝΙΚΩΝ ΜΗΧΑΝΙΚΗΣ ΜΑΘΗΣΗΣ

Τεχνητή Νοημοσύνη ΙΙ. Εργαστηριακή Άσκηση 6. Μουστάκας Κωνσταντίνος. Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστων

Αθήνα, Απρίλιος 2018 ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΥΠΟΥΡΓΕΙΟ ΟΙΚΟΝΟΜΙΚΩΝ

Σύντοµο Εγχειρίδιο Χρήσης. του Λογισµικού Στατιστικής Επεξεργασίας. SPSS for Windows v. 8.0

Δημιουργία και επεξεργασία διανυσματικών επιπέδων στο QGIS

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Οδηγίες. Εγκατάσταση Προσωπικού Πιστοποιητικού

6. ΓΕΩΓΡΑΦΙΚΑ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ

Διάλεξη 06: Αλγόριθμοι εκμάθησης ΜέροςΒ Bayes, ΚανόνεςΣυσχέτισης, ΑδρανήςΕκμάθηση & Ομαδοποίηση

Λογισμική Εφαρμογή Διαχείρισης Ερωτηματολογίων ΟΔΗΓΟΣ ΧΡΗΣΗΣ System Συμβουλευτική Α.Ε

BHMATA ΓΙΑ ΑΝΑΒΑΘΜΙΣΗ ΣΤΟ 3S/I.T.P.

1. Άνοιγμα Και Κλείσιμο Της Εφαρμογής Φυλλομετρητή Ιστού (Internet Explorer)

ΕΓΧΕΙΡΙΔΙΟ ΧΡΗΣΗΣ GRS-1

ΕΠΕΞΕΡΓΑΣΙΑ ΒΙΝΤΕΟ ΜΕ ΤΟ ΠΡΟΓΡΑΜΜΑ VSDC FREE VIDEO EDITOR

Κεφάλαιο 2: Βασικά χαρακτηριστικά και δυνατότητες των G.I.S.

ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ. Δρ. Βασίλης Π. Αγγελίδης Τμήμα Μηχανικών Παραγωγής & Διοίκησης Δημοκρίτειο Πανεπιστήμιο Θράκης

ΠΛΗΡΟΦΟΡΙΚΗ Ι Εργαστήριο 1 MATLAB ΠΛΗΡΟΦΟΡΙΚΗ Ι ΕΡΓΑΣΤΗΡΙΟ 1. Θέμα εργαστηρίου: Εισαγωγή στο MATLAB και στο Octave

ΜΑΘΗΜΑ 10 Ο ΟΡΓΑΝΩΣΗ ΤΗΣ Β ΓΙΑ ΧΡΗΣΤΕΣ (NON-EXPERTS) Α. ΗΜΙΟΥΡΓΙΑ ΠΙΝΑΚΑ ΕΠΙΛΟΓΩΝ 1. TOOLS DATA UTILITIES SWITCHBOARD MANAGER YES

Σχήµα 4.1: Εισαγωγή βρόγχου while-loop.

Visual Basic Γλώσσα οπτικού

ΗΜΕΡΟΜΗΝΙΑ: 25/05/2009 TΕΛΙΚΗ ΕΡΓΑΣΙΑ ΝΙΚΗ ΜΟΣΧΟΥ

(training data) (test data)

ΛΟΓΙΣΜΙΚΟ ΠΡΟΣΟΜΟΙΩΣΗΣ ANYLOGIC

2o μέρος εργασίας (Αρχείο cpu)

Οδηγίες για την εγκατάσταση του πακέτου Cygwin

Εγκατάσταση αρχείων βιβλιοθήκης VHOPE και VHOPE

Transcript:

Εξόρυξη Γνώσης από Δεδομένα Το εργαλείο WEKA Ομάδα ιαχείρισης εδομένων,, Τμήμα Πληροφορικής, Πανεπιστήμιο Πειραιώς http://infolab.cs.unipi.gr έσποινα Κοπανάκη (dkopanak@unipi.gr) Νοέμβριος 2009

Τα δεδομένα αφθονούν Μόνο ένα μικρό ποσοστό (5-10%) των συλλεγόμενων δεδομένων τυγχάνει ανάλυσης. Μία τυπική επιχειρησιακή βάση δδ δεδομένων σήμερα περιέχει συχνά μεγάλο αριθμό εγγραφών δεδομένων πολλών διαστάσεων. Τελικά: We are drowning in data, but starving for knowledge! Πώς μπορούν να εξερευνηθούν εκατομμύρια εγγραφών εκατοντάδων μεταβλητών, ώστε να ανακαλυφθούν πρότυπα (patterns)?

Ανακάλυψη και Εξόρυξη Γνώσης Η Ανακάλυψη Γνώσης Από Δεδομένα (Knowledge Discovery in Data KDD) είναι η μη τετριμμένη διαδικασία για την εξαγωγή έγκυρων, πρωτότυπων, πιθανώς χρήσιμων και οπωσδήποτε κατανοητών προτύπων (patterns) μέσα στα δεδομένα Η Εξόρυξη Γνώσης (Data Mining) είναι η χρήση αλγορίθμων και τεχνικών για την εξαγωγή προτύπων κατά τη διάρκεια της διαδικασίας KDD Αποτελεί ένα βήμα της KDD διαδικασίας

Από τα δεδομένα στην πληροφορία και την γνώση

Κύριες εργασίες εξόρυξης γνώσης Εύρεση συσχετίσεων μεταξύ των δεδομένων Κανόνες συσχέτισης Κατηγοριοποίηση σε προκαθορισμένες κλάσεις έντρα απόφασης, νευρωνικά δίκτυα, Bayesian κατηγοριοποίηση Συσταδοποίηση/ Ομαδοποίηση Ιεραρχικοί, διαμεριστικοί, με βάση την πυκνότητα Yes NO Refund No MarSt Single, Divorced Married TaxInc NO < 80K > 80K NO YES

Κανόνες Συσχέτισης (Association Rules) Έστω Ι ένα σύνολο από αντικείμενα (items) Ένας κανόνας συσχέτισης έχει τη μορφή X Y όπου X,Y I και X Y = ø Το X ονομάζεται head (κεφαλή) ή LHS (left-hand side) ή antecedent (προηγούμενο) του κανόνα Το Y ονομάζεται body (σώμα) ή RHS (right-hand side) ή consequent (επακόλουθο) του κανόνα Ένας κανόνας σχετίζεται με διάφορα μέτρα ποιότητας όπως: H υποστήριξη (support) του κανόνα ορίζεται ως το ποσοστό των δοσοληψιών που περιέχουν τα αντικείμενα (X Y) ή αλλιώς η πιθανότητα P(X Y) Η εμπιστοσύνη (confidence) του κανόνα ορίζεται ως το ποσοστό των δοσοληψιών του X που περιέχουν και το Υ ή αλλιώς, η εξαρτημένη πιθανότητα P(X Y Χ) = P(X Y)/P(X) A, B, C A, C, E A, D, F,B A, D, C (A,B) C support(abc) = 1/4 confidence (ABC) =1/2 Customer 1 Customer 2 Customer 3 Customer 4

Κατηγοριοποίηση (Classification) Ανάπτυξη ενός μοντέλου πρόβλεψης της κλάσης των στιγμιότυπων ενός προβλήματος Το μοντέλο χτίζεται με βάση ένα σύνολο δεδομένων εκπαίδευσης (training set) Η απόδοση του μοντέλου αξιολογείται με βάση ένα σύνολο δδ δεδομένων ελέγχου (test set) Εποπτευόμενη μάθηση: χρειάζεται να γνωρίζουμε την κλάση των μ η μ η η χρ ζ γ ρζ μ η η στιγμιότυπων εκπαίδευσης

Συσταδοποίηση (Clustering) ιαχωρισμός των δεδομένων σε ομάδες/ συστάδες έτσι ώστε για κάθε εγγραφή που περιλαμβάνει μία συστάδα, η ομοιότητα της με οποιασδήποτε εγγραφή από την ίδια συστάδα να είναι μεγαλύτερη από την ομοιότητα της με οποιασδήποτε εγγραφή από άλλες συστάδες. Μη εποπτευόμενη μάθηση ε γνωρίζουμε την κλάση στην οποία ανήκουν τα δεδομένα εκπαίδευσης. Μας δίνεται ένα σύνολο μετρήσεων, παρατηρήσεων κλπ. με στόχο να ανακαλύψουμε κλάσεις ή ομάδες μέσα στα δεδομένα. Cluster 1 Cluster 2 Data Cluster 3 Cluster 4

WEKA: the bird Copyright: Martin Kramer (mkramer@wxs.nl)

To εργαλείο WEKA (Waikato Environment for Knowledge Analysis) Machine Learning algorithms in Java. Αναπτύσσεται στο Πανεπιστήμιο του Waikato στη Νέα Ζηλανδία. Ξεκίνησε να αναπτύσσεται το 1994. Τα βασικά χαρακτηριστικά της επιτυχίας του WEKA είναι: Παρέχει ποικιλία αλγορίθμων για εξόρυξη ξη γνώσης και μηχανική εκμάθηση. Open source και ελεύθερα διαθέσιμο. Ανεξάρτητη πλατφόρμα. Εύχρηστο από ανθρώπους που δεν είναι ειδικοί σε θέματα εξόρυξης γνώσης. Ενημερωμένο μέχρι και σήμερα με όλους τους αλγόριθμους που υπάρχουν στην ερευνητική βιβλιογραφία. http://www.cs.waikato.ac.nz/ml/weka/ Data Mining: Practical Machine Learning Tools and Techniques (Second Edition) Ian H. Witten, Eibe Frank

Εκδόσεις του WEKA To WEKA συνεχώς αναπτύσσεται 3.0: Η έκδοση που αναφέρεται και το ανάλογο βιβλίο 3.2: Προστέθηκε το γραφικό περιβάλλον 3.4: General User Interface (GUI) έκδοση 3.5: Έκδοση ανάπτυξης 3.6: Τρέχουσα σταθερή GUI έκδοση

Tο Weka σήμερα Ο σκοπός παραμένει ο ίδιος Άνθρωποι 6 Academic Staff 1 Postdoc 5PhD students t 1 MSc student 2R Research programmers 1 BSc/BCMS Honours Student

Εγκατάσταση του WEKA Κατέβασμα του προγράμματος από τη διεύθυνση: Κατέβασμα του προγράμματος από τη διεύθυνση: http://www.cs.waikato.ac.nz/ml/weka/

Περιβάλλον Διεπαφής 14

Περιβάλλον διεπαφής (GUI) Το WEKA GUI Chooser window χρησιμοποιείται για να αρχίσει κάποιος τα WEKA s graphical environments. Στο δεξιό μέρος του παραθύρου υπάρχουν 4 κουμπιά Explorer interface: Παρέχει γραφικό περιβάλλον για τις ρουτίνες του weka και τα συστατικά του μέρη, περισσότερο για το exploring of data. Experimenter: Επιτρέπει στη δημιουργία πειραμάτων και στατιστικών αναλύσεων των σχημάτων που παρέχονται. KnowledgeFlow: ίνει ίδιες δυνατότητες με το προηγούμενο αλλά με ένα περιβάλλον που επιτρέπει drag-and-drop. Simple CLI: Παρέχει γραμμή εντολών για τις ρουτίνες του weka και είναι περισσότερο για λειτουργικά συστήματα που δεν έχουν γραμμή εντολών.

Μορφή δεδομένων Χρησιμοποιεί flat text files για την περιγραφή των δεδομένων. Τα δεδομένα μπορούν να εισάγονται από ένα αρχείο σε διάφορες μορφές: ARFF, CSV, C4.5, binary Τα αρχεία που περιέχουν το σύνολο δεδομένων πρέπει να έχουν συγκεκριμένο format και να αποθηκεύονται με την επέκταση.arff. Στον φάκελο C:\Program Files\Weka-3-6\data περιέχονται κάποια παραδείγματα τέτοιων αρχείων. εδομένα μπορούν επίσης να δοθούν από ένα URL ή από μία SQL βάση (χρησιμοποιώντας ώ JDBC).

ARFF File Format Απαιτεί declarations από @RELATION,, @ATTRIBUTE και @DATA: Η δήλωση @RELATION συσχετίζει ένα όνομα με το dataset: @RELATION <relation-name> name> @RELATION iris Η δήλωση @ATTRIBUTE καθορίζει ρζ το όνομα και τον τύπο ενός χαρακτηριστικού: @attribute <attribute-name> <datatype> Το Datatype μπορεί να είναι numeric, nominal, string ή date @ATTRIBUTE sepallength NUMERIC @ATTRIBUTE petalwidth NUMERIC @ATTRIBUTE class {Iris-setosa,Iris-versicolor,Iris-virginica} Η δήλωση @DATA είναι μια γραμμή που δηλώνει την αρχή του data segment: @DATA 5.1, 3.5, 1.4, 0.2, Iris-setosa 4.9,?, 1.4,?, Iris-versicolor

ARFF File Format @relation heart-disease-simplified @attribute age numeric @attribute sex { female, male} @attribute chest_pain_type { typ_angina, asympt, non_anginal, atyp_angina} @attribute cholesterol numeric @attribute exercise_induced_angina { no, yes} @attribute class { present, not_present} @data 63,male,typ_angina,233,no,not_present 67,male,asympt,286,yes,present asympt yes present 67,male,asympt,229,yes,present 38,female,non_anginal,?,no,not_present... Περισσότερες πληροφορίες στην εξής ηλεκτρονική διεύθυνση:: http://www.cs.waikato.ac.nz/ waikato ac nz/~ml/weka/arff.html

ARFF File Format @relation weather.symbolic @attribute outlook {sunny, overcast, rainy} @attribute temperature {hot, mild, cool} @attribute humidity {high, normal} @attribute windy {TRUE, FALSE} @attribute play {yes, no} @data sunny,hot,high,false,no sunny,hot,high,true,no overcast,hot,high,false,yes rainy,mild,high,false,yes. 19

Explorer - Καρτέλες Preprocess: Επιλογή και τροποποίηση των δεδομένων. Classify: Εκπαίδευση και έλεγχος των learning schemes που κάνουν classification ή regression. Cluster: Εφαρμογή clustering στα δεδομένα. Associate: ημιουργεί κανόνες συσχέτισης για τα δεδομένα. Select attributes: Επιλογή των πιο σχετικών χαρακτηριστικών των δεδομένων. Visualize: Προβολή διαδραστικών 2D διαγραμμάτων των δδ δεδομένων. 20

Explorer Βασική οθόνη

Explorer: Preprocessing Στο επάνω μέρος του παραθύρου υπάρχουν διάφορες καρτέλες Κατά την εκκίνηση του Explorer μόνο η πρώτη καρτέλα είναι ενεργή και αυτό γιατί πρέπει πριν γίνει οτιδήποτε να ανοιχτεί το αρχείο δεδομένων

Explorer: Preprocessing Φόρτωση δεδομένων στο Weka Explorer Open file. Εμφάνιση παραθύρου που επιτρέπει την εύρεση αρχείου δδ δεδομένων. Open URL. Ερώτηση για την Uniform Resource Locator διεύθυνση όπου βρίσκονται τα δεδομένα αποθηκευμένα. Open DB. ιαβάζει δεδομένα από τη βάση. Generate... Σου επιτρέπει τη δημιουργία δεδομένων μέσα από μια ποικιλία DataGenerators.

Explorer - Preprocessing Τα Pre-processing εργαλεία στο WEKA ονομάζονται filters Το WEKA περιέχει filters για: Discretization, normalization, resampling, attribute selection, transforming, combining attributes, κτλ

Explorer: Καρτέλες: Status box To status box βρίσκεται στο κάτω μέρος του παραθύρου και δείχνει κάποια μηνύματα για το τι γίνεται κάθε στιγμή. Παράδειγμα: Όταν ο Explorer είναι απασχολημένος στην φόρτωση ενός αρχείου δεδομένων, τότε το status box κάνοντας δεξί κλικ δίνει ένα μενού με 2 επιλογές: Πληροφορίες ρ για τη μνήμη. Ποσοστό διαθέσιμης μνήμης για το WEKA. Τρέχει ο garbage collector (διαχείριση μνήμης). Τρέχει από την Java ο garbage collector και ψάχνει μνήμη που δεν χρησιμοποιείται ο και την απελευθερώνει, έτσι υπάρχει διαθέσιμη μνήμη για νέες εργασίες. Ο garbage collector τρέχει στο background.

Explorer: Καρτέλες: Log button Πατώντας εδώ ανοίγει ένα παράθυρο που περιέχει πληροφορίες που σε κάθε σειρά δηλώνει την ημερομηνία μη και το γεγονός γ που έχει συμβεί κάθε φορά Καθώς το WEKA κάνει διάφορες ενέργειες το log κρατάει πληροφορίες για τις ενέργειες αυτές.

Explorer: Preprocessing The Current Relation Εδώ φαίνονται τα δεδομένα που μόλις έχουν εισαχθεί. Έχει 3 πεδία: Relation: Το όνομα του relation, όπως δίνεται στο αρχείο. Τα Filters τροποποιούν το όνομα ενός relation. Instances: Ο αριθμός των instances (data points/records) των δδ δεδομένων. Attributes: Ο αριθμός των χαρακτηριστικών (features) των δεδομένων.

Explorer: Preprocessing Working With Attributes: No.: ηλώνει τον αριθμό του χαρακτηριστικού με τη σειρά που βρίσκεται μέσα στο αρχείο δδ δεδομένων. Selection tick boxes: Μπορεί να γίνει επιλογή ορισμένων χαρακτηριστικών που έχουν σχέση με την ανάλυση. Name: Tο όνομα του κάθε χαρακτηριστικού όπως είναι δηλωμένο στο αρχείο δεδομένων.

Explorer: Preprocessing Selected attribute Name: Το όνομα του χαρακτηριστικού που έχει επιλεχθεί Type: Ο τύπος του επιλεγμένου χαρακτηριστικού, συνήθως Nominal or Numeric. Missing: Το ποσοστό των instances στα δεδομένα που λείπουν δεδομένα. Distinct: Ο αριθμός των διαφορετικών τιμών που περιέχουν τα δεδομένα για το επιλεγμένο χαρακτηριστικό. Unique: Το ποσοστό των instances στα δεδομένα που έχουν τιμή που για άλλο χαρακτηριστικό δεν έχουν τα άλλα instances.

Explorer: Preprocessing Filters Γίνεται μετατροπή των δεδομένων με διάφορους τρόπους. Επιλέγεται από τη λίστα το filter. Μόλις γίνεται η επιλογή παρουσιάζεται το όνομα του εκεί που επιλέχθηκε. Πατώντας εκεί ανοίγει παράθυρο με τις ρυθμίσεις του τρέχοντος ρχ filter.

12/4/2009 University of Waikato 31

12/4/2009 University of Waikato 32

12/4/2009 University of Waikato 33

12/4/2009 University of Waikato 34

12/4/2009 University of Waikato 35

12/4/2009 University of Waikato 36

12/4/2009 University of Waikato 37

12/4/2009 University of Waikato 38

12/4/2009 University of Waikato 39

12/4/2009 University of Waikato 40

12/4/2009 University of Waikato 41

12/4/2009 University of Waikato 42

12/4/2009 University of Waikato 43

12/4/2009 University of Waikato 44

12/4/2009 University of Waikato 45

12/4/2009 University of Waikato 46

12/4/2009 University of Waikato 47

12/4/2009 University of Waikato 48

12/4/2009 University of Waikato 49

12/4/2009 University of Waikato 50

12/4/2009 University of Waikato 51

Explorer - Clustering data Το WEKA περιέχει αλγόριθμους συσταδοποίσης για εύρεση ομάδων όμοιων εγγραφών στο σύνολο των δεδομένων. Κάποια παραδείγματα είναι: k-means, M EM, Cobweb, b X-means, FarthestFirst tfi t Οι συστάδες μπορούν να οπτικοποιηθούν και να συγκριθούν με τις πραγματικές συστάδες (εάν ά δίνονται). ) Γίνεται εκτίμηση βασιζόμενη στη loglikelihood εάν το clustering scheme παράγει κατανομή πιθανότητας. 12/4/2009 University of Waikato 52

Explorer - Clustering Αφού έχει επιλεγεί ένα σύνολο δεδομένων είναι δυνατόν να γίνει συσταδοποίηση (εύρεση ομάδων όμοιων δεδομένων). ) Από την καρτέλα cluster μπορεί να επιλεγεί ένας αλγόριθμος με βάση τον οποίο θα γίνει συσταδοποίηση και με το κουμπί start να αρχίσει η εκτέλεση του αλγορίθμου.

Explorer - Clustering Οι αλγόριθμοι συσταδοποίησης που έχουν υλοποιηθεί είναι οι: Cobweb (ιεραρχική συσταδοποίηση) DBScan EM Farthest First OPTICS SimpleKmeans (K-means) Xmeans

Explorer - Clustering Οι τιμές των παραμέτρων κάθε αλγορίθμου συσταδοποίησης (όπως ο αριθμός των clusters στον kmeans, το eps και το MinPts στον DBScan) μπορούν να τροποποιηθούν από μία καρτέλα που εμφανίζεται με διπλό κλικ πάνω στο όνομα του αλγορίθμου όταν αυτός έχει επιλεγεί. Με δεξί κλικ πάνω στο όνομα του αλγορίθμου που έχει ήδη εκτελεστεί στα δεδομένα (από το result list) εμφανίζεται ένα μενού με την βοήθεια του οποίου μπορεί να εμφανιστεί η γραφική αναπαράσταση των δεδομένων, με βάση τις ομάδες που έχουν προκύψει από το clustering

12/4/2009 University of Waikato 56

12/4/2009 University of Waikato 57

12/4/2009 University of Waikato 58

12/4/2009 University of Waikato 59

12/4/2009 University of Waikato 60

12/4/2009 University of Waikato 61

12/4/2009 University of Waikato 62

12/4/2009 University of Waikato 63

12/4/2009 University of Waikato 64

Explorer - Classification Selecting a Classifier Πατώντας στο επάνω μέρος της καρτέλας αυτής δίνεται το GenericObjectEditor dialog box και επιλέγουμε τον classifier που επιθυμούμε. Οι classifiers στο WEKA είναι μοντέλα για την πρόβλεψη nominal ή numeric quantities. Τα ενσωματωμένα learning schemes περιέχουν: Decision trees και λίστες, instance-based classifiers, support vector machines, multi-layer perceptions, p logistic regression, Bayes nets,

Explorer - Classification Επιλογές Use training set: Ο classifier αποτιμάται στο πόσο καλά μπορεί να προβλέψει την class των instances που εκπαιδεύτηκε. Supplied test set: Ο classifier αποτιμάται στο πόσο καλά προβλέπει την class από το set των instances που φορτώθηκαν από το αρχείο. Cross-validation: Ο classifier αποτιμάται από cross-validation, χρησιμοποιώντας τον αριθμό των folds που εισάγονται στο ανάλογο πεδίο. Percentage split: Ο classifier αποτιμάται στο πόσο καλά προβλέπει ένα certain percentage των δεδομένων που προσφέρονται για testing. Τα δεδομένα αυτά εξαρτώνται από την τιμή που εισάγεται στο πεδίο.

Explorer - Classification Αποτελέσματα Run information: Πληροφορίες σχετικά με τις επιλογές του learning scheme, relation name, instances, attributes και το test mode που σχετίζονται με τη διαδικασία. Classifier model (full training set): Μια textual αναπαράσταση του classification μοντέλου που δημιουργήθηκε σε όλα τα training data. Summary: Λίστα στατιστικών για το πώς έγινε η πρόβλεψη την true class των instances κάτω από το επιλεγμένο test mode. Detailed Accuracy By Class: Μια πιο λεπτομερής αναφορά ανά class για την ακρίβεια πρόβλεψης του classifier. Confusion Matrix: ί είχνει πόσα instances αντιστοιχίζονται σε κάθε class. Τα στοιχεία δείχνουν τον αριθμό των test examples των οποίων η ακριβής class είναι η γραμμή και των οποίων η προβλεπόμενη class είναι η στήλη.

12/4/2009 University of Waikato 68

12/4/2009 University of Waikato 69

12/4/2009 University of Waikato 70

12/4/2009 University of Waikato 71

12/4/2009 University of Waikato 72

12/4/2009 University of Waikato 73

12/4/2009 University of Waikato 74

12/4/2009 University of Waikato 75

12/4/2009 University of Waikato 76

12/4/2009 University of Waikato 77

12/4/2009 University of Waikato 78

12/4/2009 University of Waikato 79

12/4/2009 University of Waikato 80

12/4/2009 University of Waikato 81

12/4/2009 University of Waikato 82

12/4/2009 University of Waikato 83

12/4/2009 University of Waikato 84

12/4/2009 University of Waikato 85

12/4/2009 University of Waikato 86

12/4/2009 University of Waikato 87

12/4/2009 University of Waikato 88

12/4/2009 University of Waikato 89

12/4/2009 University of Waikato 90

12/4/2009 University of Waikato 91

12/4/2009 University of Waikato 92

12/4/2009 University of Waikato 93

QuickTime and a TIFF (LZW) decompressor are needed to see this picture. 12/4/2009 University of Waikato 94

QuickTime and a TIFF (LZW) decompressor are needed to see this picture. 12/4/2009 University of Waikato 95

12/4/2009 University of Waikato 96

12/4/2009 University of Waikato 97

Explorer - Finding associations Το WEKA περιέχει μεταξύ άλλων τον Apriori αλγόριθμο για την εύρεση κανόνων συσχέτισης. ουλεύει μόνο με διακριτά δεδομένα. Μπορεί να προσδιορίσει στατιστικές εξαρτήσεις μεταξύ των ομάδων των χαρακτηριστικών: Γάλα, βούτυρο ψωμί, αυγά (με confidence 0.9 και support 0,5) Ο αλγόριθμος Apriori μπορεί να υπολογίσει όλους τους κανόνες που έχουν ένα δοθέν minimum support και υπερβαίνουν ένα δοθέν επίπεδο confidence. 12/4/2009 University of Waikato 99

12/4/2009 University of Waikato 100

12/4/2009 University of Waikato 101

12/4/2009 University of Waikato 102

Explorer Επιλογή χαρακτηριστικών Η καρτέλα αυτή μπορεί να χρησιμοποιηθεί για να εξετάσει ποια χαρακτηριστικά είναι τα πιο κατάλληλα. Οι μέθοδοι επιλογής χαρακτηριστικών αποτελούνται από δυο μέρη: Μέθοδος εξερεύνησης: best-first, t forward selection, random, exhaustive, genetic algorithm, ranking Μέθοδος εκτίμησης: correlation-based, wrapper, information gain, chi-squared, Ευεληξία: το WEKA επιτρέπει συνδυασμούς αυτών των δυο. 12/4/2009 University of Waikato 103

12/4/2009 University of Waikato 104

12/4/2009 University of Waikato 105

12/4/2009 University of Waikato 106

Explorer Οπτικοποίηση Δεδομένων Η οπτικοποίηση είναι πολύ χρήσιμη στην πράξη. Το WEKA μπορεί να οπτικοποιήσει ένα χαρακτηριστικό (1D) ή ζύ ζεύγη χαρακτηριστικών (2D). Κωδικοποιημένες βάση χρώματος οι τιμές των κλάσεων. υνατότητα διαχείρισης ποιοτικών χαρακτηριστικών και ανίχνευση κρυφών δεδομένων. υνατότητα Zoom-in. 12/4/2009 University of Waikato 107

12/4/2009 University of Waikato 108

12/4/2009 University of Waikato 109

12/4/2009 University of Waikato 110

12/4/2009 University of Waikato 111

12/4/2009 University of Waikato 112

12/4/2009 University of Waikato 113

12/4/2009 University of Waikato 114

12/4/2009 University of Waikato 115

Experimenter Ο Experimenter διευκολύνει τη σύγκριση της απόδοσης διαφορετικών learning schemes. Για προβλήματα κατηγοριοποίησης και παλινδρόμησης. Τα αποτελέσματα μπορούν να εξαχθούν σε αρχείο ή βάση δεδομένων. Μπορεί να επαναληφθεί για διαφορετικές τιμές των παραμέτρων. 12/4/2009 University of Waikato 116

12/4/2009 University of Waikato 117

12/4/2009 University of Waikato 118

12/4/2009 University of Waikato 119

12/4/2009 University of Waikato 120

12/4/2009 University of Waikato 121

12/4/2009 University of Waikato 122

12/4/2009 University of Waikato 123

12/4/2009 University of Waikato 124

The Knowledge Flow GUI Χρησιμοποιείται για την εκτέλεση πειραμάτων machine learning. Data sources, classifiers συνδέονται γραφικά Τα δεδομένα ρέουν μέσω των: πχ., data source -> filter -> classifier -> evaluator Τα Layouts μπορούν να αποθηκευτούν και να χρησιμοποιηθούν στη συνέχεια ξανά. 12/4/2009 University of Waikato 125

12/4/2009 University of Waikato 126

12/4/2009 University of Waikato 127

12/4/2009 University of Waikato 128

12/4/2009 University of Waikato 129

12/4/2009 University of Waikato 130

12/4/2009 University of Waikato 131

12/4/2009 University of Waikato 132

WEKA - αλγόριθμοι Όπως είδαμε, το WEKA υποστηρίζει ένα μεγάλο πλήθος αλγορίθμων για τις 3 κατηγορίες εξόρυξης γνώσης συσχέτιση, κατηγοριοποίηση και συσταδοποίηση με πολλές παραμέτρους Μπορεί να υλοποιηθούν νέοι αλγόριθμοι και να ενσωματωθούν εύκολα στο σύστημα Οι παραδοσιακοί αλγόριθμοι χρειάζονται να έχουν όλα τα δεδομένα στην κύρια μνήμη με αποτέλεσμα να μην είναι αποτελεσματικό για μεγάλες βάσεις δεδομένων.

Ευχαριστώ!