ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ (Data Mining) Πανδή Αθηνά

Σχετικά έγγραφα
ΑΝΔΡΟΥΛΑΚΗΣ ΜΑΝΟΣ A.M AΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ

ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ

ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ

squared error, Mean absolute error, Root mean squared error) µεγάλωσαν,

ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΡΟΗ: ΣΤΑΤΙΣΤΙΚΗ-ΠΙΘΑΝΟΤΗΤΕΣ ΜΑΘΗΜΑ: ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ ΔΗΜΗΤΡΑ ΤΑΤΣΙΟΥ

Ι. Preprocessing (Επεξεργασία train.arff):

ΗΜΕΡΟΜΗΝΙΑ: 25/05/2009 TΕΛΙΚΗ ΕΡΓΑΣΙΑ ΝΙΚΗ ΜΟΣΧΟΥ

ιατµηµατικό Μεταπτυχιακό Πρόγραµµα Σπουδών ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ

ΕΡΩΤΗΜΑ 1 ΕΡΩΤΗΜΑ 2. ELONGATEDNESS <= 41 AND MAX.LENGTH ASPECT RATIO <= 7 AND COMPACTNESS > 95: bus (70.0/1.0)

ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΤΞΗ ΠΛΗΡΟΦΟΡΙΑ

ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ: ΕΠΙΛΟΓΗ ΒΕΛΤΙΣΤΟΥ ΑΛΓΟΡΙΘΜΟΥ

«Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα»

Ζήτημα 1ο. Ζήτημα 2o. Τρέχουμε κάποιους αλγόριθμους. Ο OneR δίνει τους παρακάτω κανόνες

8. ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ ΔΕΔΟΜΕΝΩΝ

LOGO. Εξόρυξη Δεδομένων. Δειγματοληψία. Πίνακες συνάφειας. Καμπύλες ROC και AUC. Σύγκριση Μεθόδων Εξόρυξης

Τεχνικές Προβλέψεων. Προετοιμασία & Ανάλυση Χρονοσειράς

Διπλωματική Εργασία. Διαχείριση Γνώσης και Ασφάλεια Πληροφοριών

Αποθήκες και Εξόρυξη Δεδομένων

Αποθήκες και Εξόρυξη Δεδομένων

Εξόρυξη Γνώσης από Δεδομένα

Ανακάλυψη Γνώσης από εδοµένα και Εξόρυξη Γνώσης στο εργαλείο WEKA

4.4 Βάσεις Δεδομένων με πολλές Μεταβλητές

ΕΜΠ ΔΠΜΣ Εφαρμοσμένες Μαθηματικές Επιστήμες Αλγόριθμοι Εξόρυξης Πληροφορίας. Διάλεξη02 ΣυνιστώσεςΔεδομένων Οπτικοποίηση&Εξερεύνηση

Τεχνικές Προβλέψεων. 2η Ενότητα Προετοιμασία & Ανάλυση Χρονοσειράς

ΕΜΠ ΔΠΜΣ Εφαρμοσμένες Μαθηματικές Επιστήμες Αλγόριθμοι Εξόρυξης Πληροφορίας. Διάλεξη 03: Προεπεξεργασία & Επιλογή Δεδομένων

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

ΜΟΝΤΕΛΟΠΟΙΗΣΗ ΔΙΑΡΚΕΙΑΣ ΦΩΝΗΜΑΤΩΝ ΤΗΣ ΕΛΛΗΝΙΚΗΣ ΓΛΩΣΣΑΣ ΜΕ ΕΦΑΡΜΟΓΗ ΣΤΗ ΣΥΝΘΕΣΗ ΟΜΙΛΙΑΣ

Διδάσκουσα: Χάλκου Χαρά,

ΟΙΚΟΝΟΜΕΤΡΙΑ. Βιολέττα Δάλλα. Εθνικό και Καποδιστριακό Πανεπιστήµιο Αθηνών

ΤΟΜΕΑΣ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΑΣ (Τ. & Τ.Π.) ΕΡΓΑΣΤΗΡΙΟ ΕΝΣΥΡΜΑΤΟΥ ΤΗΛΕΠΙΚΟΙΝΩΝΙΑΣ

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

ΠΕΙΡΑΜΑΤΙΚΕΣ ΠΡΟΣΟΜΟΙΩΣΕΙΣ ΚΕΦΑΛΑΙΟ 4. είναι η πραγματική απόκριση του j δεδομένου (εκπαίδευσης ή ελέγχου) και y ˆ j

Εξόρυξη Γνώσης από Βιολογικά εδομένα

Αναγνώριση Προτύπων Εργασία 1η Classification

Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώση

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ. ΜΑΘΗΜΑ 3ο

ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ MSc Τραπεζικής & Χρηματοοικονομικής

ΣΥΣΧΕΤΙΣΗ και ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

Αποθήκες και Εξόρυξη Δεδομένων

ΤΜΗΜΑΕΠΙΧΕΙΡΗΜΑΤΙΚΟΥΣΧΕΔΙΑΣΜΟΥ & ΠΛΗΡΟΦΟΡΙΑΚΩΝΣΥΣΤΗΜΑΤΩΝ

ΒΑΣΙΚΑ ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ ΣΕΙΡΩΝ ΚΑΝΟΝΙΚΟΤΗΤΑ

Μάθηση και Γενίκευση. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

2o μέρος εργασίας (Αρχείο cpu)

Ερωτήσεις κατανόησης στην Οικονομετρία (Με έντονα μαύρα γράμματα είναι οι σωστές απαντήσεις)

υποδείγματος για την αξιολόγηση αυτοκινήτων με τεχνικές Data Mining.»

Εξόρυξη Γνώσης - το εργαλείο WEKA

Υπολογιστική Νοημοσύνη. Μάθημα 9: Γενίκευση

2η Ενότητα Προετοιμασία & Ανάλυση Χρονοσειράς. -

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ Μονάδα Συστημάτων Προβλέψεων & Προοπτικής Forecasting System Unit

Παραβίασητωνβασικώνυποθέσεωντηςπαλινδρόμησης (Violation of the assumptions of the classical linear regression model)

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

Υπερπροσαρμογή (Overfitting) (1)

ΜΑΘΗΜΑ 3ο. Υποδείγματα μιας εξίσωσης

Διάλεξη 07: Αλγόριθμοι εκμάθησης ΜέροςΓ Συναρτήσεις & μετα-μαθησιακοί Αλγόριθμοι

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

«ΑΝΑΠΤΥΞΗ ΣΥΣΤΗΜΑΤΟΣ ΑΥΤΟΜΑΤΟΥ ΤΕΜΑΧΙΣΜΟΥ ΚΑΙ ΑΝΑΓΝΩΡΙΣΗΣΣ ΗΧΗΤΙΚΩΝ ΚΑΤΗΓΟΡΙΩΝ ΑΠΟ ΡΑΔΙΟΦΩΝΙΚΕΣ ΕΚΠΟΜΠΕΣ»

ΓΡΑΜΜΙΚΗ ΠΑΛΙΝ ΡΟΜΗΣΗ

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

ΕΠΙΛΥΣΗ ΕΚΦΥΛΙΣΜΕΝΩΝ ΚΑΙ ΓΕΝΙΚΩΝ ΓΡΑΜΜΙΚΩΝ ΠΡΟΒΛΗΜΑΤΩΝ. 4.1 Επίλυση Εκφυλισμένων Γραμμικών Προβλημάτων

ΜΑΘΗΜΑ 3ο. Βασικές έννοιες

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

Πρόβλεψη Χρηματιστηριακών Μεγεθών με Τεχνικές Εξόρυξης Δεδομένων

Digital Image Processing

ΤΜΗΜΑ ΕΠΙΧΕΙΡΗΜΑΤΙΚΟΥ ΣΧΕΔΙΑΣΜΟΥ & ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ. ΟΙΚΟΝΟΜΕΤΡΙΚΑ ΠΡΟΤΥΠΑ ΕΡΓΑΣΤΗΡΙΟ ΜΑΘΗΜΑ 1 ο ΕΡΓΑΣΤΗΡΙΟΥ ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΣΤΑΤΙΣΤΙΚΗΣ

Δείγμα πριν τις διορθώσεις

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ. ΜΑΘΗΜΑ 12ο

Στατιστική ΙΙΙ(ΣΤΑΟ 230) Χρονολογικές Σειρες-Κινητοι Μέσοι, Αφελείς Μέθοδοι και Αποσύνθεση (εκδ. 2η)

Πανεπιστήμιο Πειραιώς Τμήμα Πληροφορικής

Διερεύνηση περιβαλλοντικών χρονοσειρών με στατιστικές μεθόδους και τεχνικές εξόρυξης δεδομένων

Εισαγωγή στην Ανάλυση Δεδομένων

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

, και. είναι σταθερές (χρονικά αμετάβλητες), προκύπτει το χρονικά αμετάβλητο φίλτρο Kalman (Time Invariant Kalman Filter):

Χρονικές σειρές 6 Ο μάθημα: Αυτοπαλίνδρομα μοντέλα (2)

Βυζαντινός Ρεπαντής Κολλέγιο Αθηνών 2010

dtw(a, B) = dtw(a n, B m )

Προεπεξεργασία Δεδομένων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκουσα: Μαρία Χαλκίδη

Analyze/Forecasting/Create Models

ΕΘΝΙΚΗ ΤΡΑΠΕΖΑ ΥΔΡΟΛΟΓΙΚΩΝ ΚΑΙ ΜΕΤΕΩΡΟΛΟΓΙΚΩΝ ΠΛΗΡΟΦΟΡΙΩΝ ΟΔΗΓΙΕΣ ΚΑΤΑΧΩΡΗΣΗΣ ΧΡΟΝΟΣΕΙΡΩΝ ΓΙΑ ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΒΔ ΕΝΥΔΡΙΣ ΤΟΥ ΥΔΡΟΣΚΟΠΙΟΥ

ΧΡΟΝΟΣΕΙΡΕΣ. Διαχείριση Πληροφοριών


Είδη Διορθωτών: Υπάρχουν πολλών ειδών διορθωτές. Μία βασική ταξινόμησή τους είναι οι «Ειδικοί Διορθωτές» και οι «Κλασσικοί Διορθωτές».

Κατηγοριοποίηση. Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης. 2 ο Φροντιστήριο. Σκούρα Αγγελική

Εξόρυξη γνώμης πολιτών από ελεύθερο κείμενο

ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Τραπεζικής & Χρηματοοικονομικής

Αν έχουμε δύο μεταβλητές Χ και Υ και σύμφωνα με την οικονομική θεωρία η μεταβλητή Χ προσδιορίζει τη συμπεριφορά της Υ το ερώτημα που τίθεται είναι αν

ΚΕΦΑΛΑΙΟ 5. Matlab GUI για FWSVM και Global SVM

Ανάλυση μεγάλων δεδομένων με χρήση εργαλείων εξόρυξης δεδομένων. Η περίπτωση μιας εφαρμογής υποστήριξης αποφάσεων εκλογικής ψήφου.

ΕΜΠ ΔΠΜΣ Εφαρμοσμένες Μαθηματικές Επιστήμες Αλγόριθμοι Εξόρυξης Πληροφορίας. Διάλεξη 04: Απεικόνιση Γνώσης, Αξιοπιστία & Αποτίμηση

Κεφάλαιο 9. Εξαγωγή Κανόνων Συσχέτισης

Σχήµα 4.1: Εισαγωγή βρόγχου while-loop.

+ ε βελτιώνει ουσιαστικά το προηγούμενο (β 3 = 0;) 2. Εξετάστε ποιο από τα παρακάτω τρία μοντέλα:

Digital Image Processing

Clustering. Αλγόριθµοι Οµαδοποίησης Αντικειµένων

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

2. ΧΡΗΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΠΑΚΕΤΩΝ ΣΤΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

E mail:

Τεχνολογικό Εκπαιδευτικό Ίδρυμα Δυτικής Μακεδονίας Western Macedonia University of Applied Sciences Κοίλα Κοζάνης Kozani GR 50100

ΜΑΘΗΜΑ 4 ο. Μοναδιαία ρίζα

Transcript:

ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ (Data Mining) Πανδή Αθηνά Μάιος 2008

Τα δεδομένα που έχουμε προς επεξεργασία χωρίζονται σε τρία μέρη: 1. Τα δεδομένα εκπαίδευσης (training set) που αποτελούνται από 2528 υποδείγματα και 39 χαρακτηριστικά 2. Τα δεδομένα επαλήθευσης (quiz set) που αποτελούνται από 1265 υποδείγματα και 39 χαρακτηριστικά 3. Τα δεδομένα εξέτασης (test set) που αποτελούνται από1265 υποδείγματα και 39 χαρακτηριστικά Πριν όμως από οποιαδήποτε εφαρμογή αλγορίθμων στο train set, κρίνεται απαραίτητη μια προεπεξεργασία και προεπισκόπηση των δεδομένων. Ανοίγοντας το train set με το λογισμικό Weka επιλέγουμε την εντολή visualize all και παίρνουμε μια πρώτη εικόνα για όλα τα attributes. Όπως βλέπουμε και στο παρακάτω σχήμα η attribute 38 έχει όλα τα instances 0, η 36 έχει 2513 μηδενικά instances ενώ η attribute 34 έχει μόνο ένα μη μηδενικό instance. Επομένως μπορούμε να αφαιρέσουμε αυτές τις τρεις μεταβλητές από το train set χρησιμοποιώντας την εντολή Remove. Στη συνέχεια προχωράμε στην δημιουργία νέου train set χωρίς τις μεταβλητές 34, 36 και 38 το οποίο ονομάζουμε train 11. Στο train 11 θα εφαρμόσουμε διάφορους αλγόριθμους και θα επιλέξουμε εκείνους με το μικρότερο σφάλμα και υψηλότερο συντελεστή συσχέτισης. Στην περίπτωση μας αρκετοί αλγόριθμοι δεν τρέχουν διότι το class attribute είναι numeric και όχι nominal. Μπορούμε βέβαια να μετατρέψουμε τον τύπο της μεταβλητής στόχου με την εντολή weka filters -> unsupervised-> attribute -> NumericToBinary. Όμως δεν ενδείκνυται να αλλάζουμε την class attribute διότι χάνεται πληροφορία. Συνεπώς δοκιμάζουμε 2

τους αλγόριθμούς που είναι συμβατοί με numeric class. Να σημειώσουμε επίσης ότι στα δεδομένα μας δεν μπορούμε να κάνουμε ομαδοποίηση (cluster) διότι η μεταβλητή στόχος είναι numeric. Παρακάτω παρουσιάζονται οι αλγόριθμοι που εφαρμόστηκαν στο train 11 και έδωσαν χαμηλό σφάλμα και υψηλό συντελεστή συσχέτισης. 1. Weka.classifiers->RegressionByDiscretization->Bagging->Bagging- >PART Relation: train-weka.filters.unsupervised.attribute.remove-r34,36,38 Instances: 2528 Time taken to build model: 76.67 seconds Correlation coefficient 0.9251 Mean absolute error 0.0572 Root mean squared error 0.1616 Relative absolute error 15.8132 % Root relative squared error 37.9856 % 2. Weka.classifiers->RegressionByDiscretization->AdaBoostM1->PART Relation: train-weka.filters.unsupervised.attribute.remove-r34,36,38 Instances: 2528 Attributes: 37 Correlation coefficient 0.9148 3

Mean absolute error 0.0326 Root mean squared error 0.1746 Relative absolute error 9.0248 % Root relative squared error 41.049 % 3. Weka.classifiers->RegressionByDiscretization->AdaBoostM1->Bagging- >PART Correlation coefficient 0.912 Mean absolute error 0.032 Root mean squared error 0.1777 Relative absolute error 8.8583 % Root relative squared error 41.7661 % 4. Weka.classifiers->RegressionByDiscretization->Bagging->J48 Correlation coefficient 0.9123 Mean absolute error 0.0615 Root mean squared error 0.1742 Relative absolute error 17.0029 % Root relative squared error 40.9434 % 5. Weka.classifiers->RandomSubSpace->RegressionByDiscretization-> J48Graft Correlation coefficient 0.9198 4

Mean absolute error 0.0685 Root mean squared error 0.1678 Relative absolute error 18.9252 % Root relative squared error 39.4458 % Στη συνέχεια δημιουργούμε ένα νέο quiz set αφαιρώντας τις μεταβλητές 34, 36 και 38 όπως ακριβώς είχαμε κάνει στο train 11. Ονομάζουμε το νέο αρχείο quiz11. Τρέχουμε τον αλγόριθμο που έχουμε επιλέξει με cross validation (αφήνουμε την default επιλογή των 10 folds). Όταν ολοκληρωθεί η διαδικασία επιλέγουμε supplied test set και ορίζουμε σαν test set να είναι το quiz11 που έχουμε δημιουργήσει. Τρέχουμε ξανά τον αλγόριθμο και ζητάμε από το weka να μας εμφανίσει τις προβλέψεις (predictions). Επαναλαμβάνουμε αυτήν την διαδικασία και για τους πέντε αλγορίθμους. Τα success rates που λάβαμε για κάθε αλγόριθμο είναι τα ακόλουθα: Αλγόριθμος 1: 0,955 Αλγόριθμος 2: 0,941 Αλγόριθμος 3: 0,955 Αλγόριθμος 4: 0,953 Αλγόριθμος 5: 0,955 Για την τελική υποβολή στο test set επιλέγουμε τον Αλγόριθμο 5 με correlation coefficient 0,9198 και success rate 0,955. Να σημειώσουμε σε αυτό το σημείο ότι δεν επιλέξαμε τον Αλγόριθμο 1 παρόλο που μας έδωσε στο train set μεγαλύτερο συντελεστή συσχέτισης (0,9251), διότι η χρησιμοποίηση τριών meta αλγορίθμων (RegressionByDiscretization, Bagging (2)) ενδέχεται να προκαλέσει overtraining στα δεδομένα. Τέλος πρέπει να αναφερθεί ότι δεν εφαρμόστηκε attribute selection (preprocess- >choose filter) στο train set διότι είχαμε αρκετά χαμηλότερο success rate στο quiz set. Για παράδειγμα έχοντας κρατήσει τις μεταβλητές που μας υπόδειξε το φίλτρο 5

AttributeSelection (6, 7, 12, 13, 23, 24, 27, 28, 32, 35) ο αλγόριθμος 5 έδωσε success rate 0,902 έναντι 0,955 που είχαμε χωρίς τα attribute 34, 36, 38. 6