ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ



Σχετικά έγγραφα
ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ

ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ (Data Mining) Πανδή Αθηνά

ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

ΑΝΔΡΟΥΛΑΚΗΣ ΜΑΝΟΣ A.M AΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ

ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ

ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΡΟΗ: ΣΤΑΤΙΣΤΙΚΗ-ΠΙΘΑΝΟΤΗΤΕΣ ΜΑΘΗΜΑ: ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ ΔΗΜΗΤΡΑ ΤΑΤΣΙΟΥ

Ι. Preprocessing (Επεξεργασία train.arff):

squared error, Mean absolute error, Root mean squared error) µεγάλωσαν,

ιατµηµατικό Μεταπτυχιακό Πρόγραµµα Σπουδών ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ

ΗΜΕΡΟΜΗΝΙΑ: 25/05/2009 TΕΛΙΚΗ ΕΡΓΑΣΙΑ ΝΙΚΗ ΜΟΣΧΟΥ

Αναγνώριση Προτύπων Εργασία 1η Classification

2o μέρος εργασίας (Αρχείο cpu)

Διπλωματική Εργασία. Διαχείριση Γνώσης και Ασφάλεια Πληροφοριών

LOGO. Εξόρυξη Δεδομένων. Δειγματοληψία. Πίνακες συνάφειας. Καμπύλες ROC και AUC. Σύγκριση Μεθόδων Εξόρυξης

Διδάσκουσα: Χάλκου Χαρά,

ΤΟΜΕΑΣ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΑΣ (Τ. & Τ.Π.) ΕΡΓΑΣΤΗΡΙΟ ΕΝΣΥΡΜΑΤΟΥ ΤΗΛΕΠΙΚΟΙΝΩΝΙΑΣ

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

Μάθηση και Γενίκευση. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Τεχνικές Προβλέψεων. Προετοιμασία & Ανάλυση Χρονοσειράς

ΕΜΠ ΔΠΜΣ Εφαρμοσμένες Μαθηματικές Επιστήμες Αλγόριθμοι Εξόρυξης Πληροφορίας. Διάλεξη02 ΣυνιστώσεςΔεδομένων Οπτικοποίηση&Εξερεύνηση

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

Διακριτικές Συναρτήσεις

Τεχνικές Προβλέψεων. 2η Ενότητα Προετοιμασία & Ανάλυση Χρονοσειράς

8. ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ ΔΕΔΟΜΕΝΩΝ

Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώση

Εταιρικοί Πελάτες. Delving into deep waters Οι νέες τεχνολογίες στην e-fresh.gr

Αποθήκες και Εξόρυξη Δεδομένων

Εισαγωγή στη Στατιστική

ΜΕΘΟΔΟΣ ΤΗΣ ΒΗΜΑΤΙΚΗΣ ΠΑΛΙΝΔΡΟΜΗΣΗΣ (STEPWISE REGRESSION)

ΕΙΣΑΓΩΓΗ ΔΕΔΟΜΕΝΩΝ ΑΠΟ EXCEL ΣΤΟ GRETL

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΠΡΟΣΟΜΟΙΩΣΗ ΔΙΕΡΓΑΣΙΩΝ ΧΡΗΣΙΜΟΠΟΙΩΝΤΑΣ ΤΟ ΛΟΓΙΣΜΙΚΟ EXTEND. 1 ο εργαστήριο Διοίκησης και Παραγωγής Έργων

Διάλεξη 07: Αλγόριθμοι εκμάθησης ΜέροςΓ Συναρτήσεις & μετα-μαθησιακοί Αλγόριθμοι

ΠΕΙΡΑΜΑΤΙΚΕΣ ΠΡΟΣΟΜΟΙΩΣΕΙΣ ΚΕΦΑΛΑΙΟ 4. είναι η πραγματική απόκριση του j δεδομένου (εκπαίδευσης ή ελέγχου) και y ˆ j

Μενύχτα, Πιπερίγκου, Σαββάτης. ΒΙΟΣΤΑΤΙΣΤΙΚΗ Εργαστήριο 6 ο

Αποθήκες και Εξόρυξη Δεδομένων

ΣΥΣΧΕΤΙΣΗ και ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

ΕΡΩΤΗΜΑ 1 ΕΡΩΤΗΜΑ 2. ELONGATEDNESS <= 41 AND MAX.LENGTH ASPECT RATIO <= 7 AND COMPACTNESS > 95: bus (70.0/1.0)

Δημιουργία. Σε αυτό το εγχειρίδιο περιγράφεται η Δημιουργία. Εκτυπώσεων & Προβολών

ΛΟΓΙΣΜΙΚΟ ΠΡΟΣΟΜΟΙΩΣΗΣ ANYLOGIC

ΓΡΑΜΜΙΚΗ ΠΑΛΙΝ ΡΟΜΗΣΗ

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

+ ε βελτιώνει ουσιαστικά το προηγούμενο (β 3 = 0;) 2. Εξετάστε ποιο από τα παρακάτω τρία μοντέλα:

ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΤΞΗ ΠΛΗΡΟΦΟΡΙΑ

Αριθμητική Ανάλυση & Εφαρμογές

Εύρεση ν-στού πρώτου αριθμού

ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΕΡΓΑΣΤΗΡΙΟ (SPSS)

Το συγκεκριμένο εγχειρίδιο δημιουργήθηκε για να βοηθήσει την κατανόηση της διαδικασίας των αριθμοδεικτών. Παρακάτω προτείνεται μια αλληλουχία

ΤΜΗΜΑ ΕΠΙΧΕΙΡΗΜΑΤΙΚΟΥ ΣΧΕΔΙΑΣΜΟΥ & ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ. ΟΙΚΟΝΟΜΕΤΡΙΚΑ ΠΡΟΤΥΠΑ ΕΡΓΑΣΤΗΡΙΟ ΜΑΘΗΜΑ 1 ο ΕΡΓΑΣΤΗΡΙΟΥ ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΣΤΑΤΙΣΤΙΚΗΣ

Σχεδιασμός εκτυπώσεων ERG

Αικατερίνη Καμπάση, PhD. Τμήμα Προστασίας και Συντήρησης Πολιτισμικής Κληρονομιάς Α.Τ.Ε.Ι. Ιονίων Νήσων

ΤΣΑΛΤΑ ΜΑΡΙΑ Α.Μ: 1946 ΠΑΥΛΕΛΛΗ ΛΟΥΙΖΑ Α.Μ: 2342 ΤΣΑΪΛΑΚΗ ΦΑΝΗ Α.Μ: Οικονομετρικά. Εργαστήριο 15/05/11

«Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα»

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ

Σχεδιασμός εκτυπώσεων ERG

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ. ΜΑΘΗΜΑ 3ο

υποδείγματος για την αξιολόγηση αυτοκινήτων με τεχνικές Data Mining.»

ΕΜΠ ΔΠΜΣ Εφαρμοσμένες Μαθηματικές Επιστήμες Αλγόριθμοι Εξόρυξης Πληροφορίας. Διάλεξη 04: Απεικόνιση Γνώσης, Αξιοπιστία & Αποτίμηση

ICAP GROUP S.A. ΑΝΑΘΕΩΡΗΣΗ ΜΑΚΡΟΟΙΚΟΝΟΜΙΚΩΝ ΥΠΟΔΕΙΓΜΑΤΩΝ

Στατιστική Επιχειρήσεων Ι

5. ΤΟ ΓΕΝΙΚΟ ΓΡΑΜΜΙΚΟ ΜΟΝΤΕΛΟ (GENERAL LINEAR MODEL) 5.1 Εναλλακτικά μοντέλα του απλού γραμμικού μοντέλου: Το εκθετικό μοντέλο

Αναγνώριση Προτύπων Εργασία 2η Clustering

Οδηγός Ανάλυσης Αξιοπιστίας και Εγκυρότητας Ψυχομετρικών Κλιμάκων με το SPSS

Εξόρυξη Γνώσης από Βιολογικά εδομένα

Διπλωματική εργασία Θέμα: «Δημιουργία ευφυούς συστήματος για τη διαχείριση και διαλογή των ασθενών Τμήματος Επειγόντων Περιστατικών

Εκτύπωση Γενικού Ημερολογίου

Βήματα για την επίλυση ενός προβλήματος

Εργαστήριο Διοίκησης Παραγωγής & Έργων. Εισαγωγή στην προσομοίωση διεργασιών χρησιμοποιώντας το λογισμικό Extend

Περιεχόμενα. Κεφάλαιο 1 Εισαγωγή στην Access...9. Κεφάλαιο 2 Χειρισμός πινάκων... 25

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών

ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΤΜΗΜΑ ΟΡΓΑΝΩΣΗΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΔΙΔΑΣΚΩΝ: ΘΑΝΑΣΗΣ ΚΑΖΑΝΑΣ. Οικονομετρία

Εξόρυξη Γνώσης από Δεδομένα

Κατηγοριοποίηση. Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης. 2 ο Φροντιστήριο. Σκούρα Αγγελική

Παραβίασητωνβασικώνυποθέσεωντηςπαλινδρόμησης (Violation of the assumptions of the classical linear regression model)

ΤΟΠΟΓΡΑΦΙΚΑ ΔΙΚΤΥΑ ΚΑΙ ΥΠΟΛΟΓΙΣΜΟΙ ΑΝΑΣΚΟΠΗΣΗ ΘΕΩΡΙΑΣ ΣΥΝΟΡΘΩΣΕΩΝ

Πίνακας περιεχομένων. Κεφάλαιο 1 Λειτουργίες βάσης δεδομένων Κεφάλαιο 2 Συγκεντρωτικοί πίνακες Πρόλογος... 11

ΤΕΧΝΙΚΕΣ ΠΡΟΒΛΕΨΗΣ ΠΟΛΛΑΠΛΩΝ ΜΕΤΑΒΛΗΤΩΝ ΕΞΟΔΟΥ

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ. Ερωτήσεις πολλαπλής επιλογής. Συντάκτης: Δημήτριος Κρέτσης

Στατιστική ΙΙΙ(ΣΤΑΟ 230) Χρονολογικές Σειρες-Κινητοι Μέσοι, Αφελείς Μέθοδοι και Αποσύνθεση (εκδ. 2η)

Άσκηση 1 (ανακοινώθηκε στις 20 Μαρτίου 2017, προθεσμία παράδοσης: 24 Απριλίου 2017, 12 τα μεσάνυχτα).

Ζήτημα 1ο. Ζήτημα 2o. Τρέχουμε κάποιους αλγόριθμους. Ο OneR δίνει τους παρακάτω κανόνες

Εισόδημα Κατανάλωση

Περιγραφή των Δεδομένων

Εγκατάσταση αρχείων βιβλιοθήκης VHOPE και VHOPE

2η Ενότητα Προετοιμασία & Ανάλυση Χρονοσειράς. -

4. ΚΕΦΑΛΑΙΟ ΕΦΑΡΜΟΓΕΣ ΤΟΥ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΥ FOURIER

Προεπεξεργασία Δεδομένων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκουσα: Μαρία Χαλκίδη

Εισαγωγή στην Στατιστική (ΔΕ200Α-210Α)

ΜΟΝΤΕΛΟΠΟΙΗΣΗ ΔΙΑΡΚΕΙΑΣ ΦΩΝΗΜΑΤΩΝ ΤΗΣ ΕΛΛΗΝΙΚΗΣ ΓΛΩΣΣΑΣ ΜΕ ΕΦΑΡΜΟΓΗ ΣΤΗ ΣΥΝΘΕΣΗ ΟΜΙΛΙΑΣ

Μοντέλα Πολλαπλής Παλινδρόμησης

Μεταπτυχιακό Πρόγραμμα Φυσικού Τμήματος «Υπολογιστική Φυσική» Θέμα εργασίας στο A Μέρος του μαθήματος «Προσομοίωση Χαοτικών Συστημάτων»

Γ) Χρήση Λογισμικού για την υλοποίηση πρακτικών εφαρμογών της Ασαφούς Λογικής

FORTRAN και Αντικειμενοστραφής Προγραμματισμός

ΔΙΔΑΚΤΙΚΗ της ΠΛΗΡΟΦΟΡΙΚΗΣ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ Μονάδα Συστημάτων Προβλέψεων & Προοπτικής Forecasting System Unit

Εργαστήρια Text Mining & Sentiment Analysis με Rapid Miner

Οδηγός γρήγορης εκκίνησης του PowerSuite

ΚΕΦΑΛΑΙΟ 5. Matlab GUI για FWSVM και Global SVM

ΕΡΓΑΣΤΗΡΙΟ ΣΤΑΤΙΣΤΙΚΗΣ

Οδηγός καταχώρισης σχεδίου δράσης σχολείου στην Ηλεκτρονική Πύλη Επαγγελματικής Μάθησης

Ενότητα 21 Pivot Tables

Transcript:

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ Δ.Π.Μ.Σ: «Εφαρμοσμένες Μαθηματικές Επιστήμες» 2008

ΕΙΣΑΓΩΓΗ Η παρούσα εργασία αφορά τη διαχείριση των λογαριασμών των πελατών μιας επιχείρησης. Η επιχείρηση διατηρεί στοιχεία για κάθε πελάτη της και με βάση τα στοιχεία αυτά αποτιμά κάθε πελάτη της ως «καλό» ή «κακό». Η διαχείριση κα αξιοποίηση τέτοιων δεδομένων θα πρέπει να γίνεται με πολλή προσοχή, καθώς κάθε λανθασμένη υπόδειξη συνεπάγεται σημαντικό κόστος για την επιχείρηση. Για παράδειγμα, μια τέτοια επιχείρηση θα μπορούσε να είναι μια τράπεζα η οποία ενδιαφέρεται να εντοπίσει τους κατόχους πιστωτικών καρτών που ενδέχεται να χρεοκοπήσουν. Σε περίπτωση λανθασμένης υπόδειξης για κάποιο πελάτη, η τράπεζα βρίσκεται αντιμέτωπη με σημαντικό κόστος. Αν ένας «κακός» πελάτης χαρακτηριστεί ως «καλός» τότε η τράπεζα κινδυνεύει με απώλεια αποπληρωμής λόγω χρεοκοπίας του πελάτη. Από την άλλη, αν ένας «καλός» πελάτης χαρακτηριστεί ως «κακός» τότε η περαιτέρω εξακρίβωση των χαρακτηριστικών του αποτελεί μια κοστοβόρα διαδικασία για την τράπεζα και επιπλέον είναι πιθανό το ενδεχόμενο διακοπής της συνεργασίας με ένα αξιόπιστο πελάτη. Για την ανάλυση των δεδομένων της άσκησης και την εξαγωγή συμπερασμάτων θα χρησιμοποιήσουμε το λογισμικό WEKA.

ΕΦΑΡΜΟΓΗ ΣΤΟ WEKA Για την εργασία δίνεται το σύνολο των δεδομένων εκπαίδευσης (training set) το οποίο αποτελείται από 2528 υποδείγματα (instances), 39 χαρακτηριστικά (attributes) και 1 ακόμα χαρακτηριστικό που είναι το ζητούμενο(outlook). Επίσης δίνεται το σύνολο των δεδομένων επαλήθευσης (quiz set) που αποτελείται από 1265 υποδείγματα και 39 χαρακτηριστικά καθώς και το σύνολο των δεδομένων εξέτασης (test set) με 1265 υποδείγματα και 39 χαρακτηριστικά. Όλες οι συνιστώσες των υποδειγμάτων, όλων των συνόλων που δίνονται, είναι αριθμητικές (numeric). O στόχος μας είναι να καθορίσουμε ποιοι είναι οι «κακοί» πελάτες του test set. Για να το πετύχουμε αυτό, θα χρησιμοποιήσουμε τα δεδομένα εκπαίδευσης για την «εξόρυξη» γνώσης, στη συνέχεια θα πάρουμε την ανάδραση της μαθησιακής αυτής διαδικασίας μέσω των δεδομένων του quiz set και τέλος θα εφαρμόσουμε τα εξαγόμενα αυτών των δομικών περιγραφών στα δεδομένα του test set. Το πρώτο βήμα της ανάλυσής μας είναι η προεπισκόπηση των δεδομένων μας. Πριν αρχίσουμε την εφαρμογή αλγορίθμων στο training set για την εκμάθηση του μοντέλου, είναι χρήσιμο να εκτελέσουμε μια οπτική διερεύνηση των δεδομένων μας. Ανοίγοντας λοιπόν το training set στο WEKA και χρησιμοποιώντας το tab visualize all προκύπτουν τα ιστογράμματα συχνοτήτων που αντιστοιχούν σε κάθε μεταβλητή. Η εικόνα που παίρνουμε για όλα τα attributes από το WEKA είναι η παρακάτω:

Από αυτά τα ιστογράμματα μπορούμε να δούμε αν κάποιο attribute μπορεί να αφαιρεθεί. Παρατηρούμε ότι από τις 39 attributes των 2528 instances του training set η attribute 38 είναι περιττό να συμπεριληφθεί καθώς σε αυτή το κάθε instance είναι ίσο με μηδέν. Το ιστόγραμμα για τη μεταβλητή αυτή είναι το παρακάτω και προκύπτει επιλέγοντας τη συγκεκριμένη μεταβλητή από το πλαίσιο Attributes :

Στη συνέχεια, με επιλεγμένη τη μεταβλητή 38, χρησιμοποιούμε το tab Remove και την αφαιρούμε. Αποθηκεύουμε το training set ως train_1.arff (το οποίο δεν περιέχει την attribute 38) και συνεχίζουμε με αυτό την ανάλυσή μας. Παρατηρούμε τώρα από τα ιστογράμματα συχνοτήτων ότι παρόμοια συμπεριφορά παρουσιάζουν και οι attributes 36 και 34 καθώς έχουν μόλις 15 και 1 αντίστοιχα instances διαφορετικά του μηδενός. Τα ιστογράμματα συχνοτήτων των 34 και 36 είναι τα δύο επόμενα :

Η παραμονή τους στο dataset όμως είναι καλύτερα να αποφασιστεί μετά την εφαρμογή κάποιων μεθόδων παλινδρόμησης και την εξέταση των αντίστοιχων σφαλμάτων και όχι σε αυτό το πολύ αρχικό, οπτικό στάδιο της προεπισκόπησης των δεδομένων. Ας εφαρμόσουμε τώρα μεθόδους παλινδρόμησης στο training set για την παραμονή ή όχι των attributes 34 και 36, σύμφωνα με την εξής διαδικασία: από το αρχικό μας training set αφαιρούμε τις attributes 34,36 και 38 και αποθηκεύουμε το νέο σύνολο ως train_2.arff. Στη συνέχεια, εκτελούμε διάφορες μεθόδους παλινδρόμησης τόσο στο train_1.arff όσο και στο train_2.arff και συγκρίνουμε τα διάφορα σφάλματα παλινδρόμησης (Mean absolute error, Root mean squared error, Relative absolute error, root relative squared error). Τις μεθόδους παλινδρόμησης μπορούμε να τις βρούμε στο WEKA αν χρησιμοποιήσουμε το tab classify και στο πεδίο classifier ορίζουμε την επιθυμητή μέθοδο παλινδρόμησης. Έχουμε επομένως την εξής εικόνα στο WEKA:

Επιλέγουμε για παράδειγμα ως μέθοδο παλινδρόμησης την Linear Regression. Η μέθοδος αυτή βρίσκεται στο WEKA ως επιλογή του classifier της μορφής function, έχουμε τότε την παρακάτω εικόνα:

Εφαρμόζοντας αυτή τη διαδικασία για τα δύο σύνολα, έχουμε τα εξής log files στο WEKA: Για το train_1.arff: === Run information === Scheme: weka.classifiers.functions.linearregression -S 0 -R 1.0E-8 Relation: train-weka.filters.unsupervised.attribute.remove-r38 Instances: 2528 Attributes: 39 attr01 attr02 attr03 attr04 attr05 attr06 attr07 attr08 attr09 attr10 attr11 attr12 attr13 attr14 attr15 attr16 attr17 attr18 attr19 attr20 attr21 attr22 attr23 attr24 attr25 attr26 attr27 attr28 attr29 attr30

attr31 attr32 attr33 attr34 attr35 attr36 attr37 attr39 output Test mode: 10-fold cross-validation === Classifier model (full training set) === Linear Regression Model output = 0.0001 * attr04 + 0.0001 * attr05 + 0.0352 * attr06 + 0.0992 * attr07 + 0.0001 * attr09 + 0.0003 * attr10 + 0.0006 * attr12 + 0.0005 * attr13 + 0.0003 * attr16 + 0.0002 * attr17 + 0.0004 * attr18 + -0.0003 * attr20 + 0.0002 * attr21 + -0.0002 * attr22 + 0.0005 * attr23 + -0.0016 * attr24 + -0.0002 * attr26 + 0.0007 * attr27 + 0.0007 * attr28 + 0.0003 * attr30 + 0.0005 * attr32 + -0.0007 * attr33 + 0.1496 * attr35 +

0.1506 * attr36 + -0.0002 * attr37 + 0.3252 Time taken to build model: 1.14 seconds === Cross-validation === === Summary === Correlation coefficient 0.743 Mean absolute error 0.2056 Root mean squared error 0.2847 Relative absolute error 56.8375 % Root relative squared error 66.9218 % Total Number of Instances 2528 Και για το train_2.arff: === Run information === Scheme: weka.classifiers.functions.linearregression -S 0 -R 1.0E-8 Relation: train-weka.filters.unsupervised.attribute.remove- R34,36,38 Instances: 2528 Attributes: 37 attr01 attr02 attr03 attr04 attr05 attr06 attr07 attr08 attr09 attr10 attr11 attr12 attr13

attr14 attr15 attr16 attr17 attr18 attr19 attr20 attr21 attr22 attr23 attr24 attr25 attr26 attr27 attr28 attr29 attr30 attr31 attr32 attr33 attr35 attr37 attr39 output Test mode: 10-fold cross-validation === Classifier model (full training set) === Linear Regression Model output = 0.0001 * attr04 + 0.0001 * attr05 + 0.0343 * attr06 + 0.0987 * attr07 + 0.0002 * attr08 + 0.0001 * attr09 + 0.0002 * attr10 + 0.0006 * attr12 +

0.0005 * attr13 + 0.0003 * attr16 + 0.0002 * attr17 + 0.0004 * attr18 + -0.0003 * attr20 + 0.0002 * attr21 + -0.0002 * attr22 + 0.0005 * attr23 + -0.0017 * attr24 + -0.0002 * attr26 + 0.0007 * attr27 + 0.0007 * attr28 + 0.0003 * attr30 + 0.0005 * attr32 + -0.0007 * attr33 + 0.1487 * attr35 + -0.0002 * attr37 + 0.326 Time taken to build model: 0.81 seconds === Cross-validation === === Summary === Correlation coefficient 0.7423 Mean absolute error 0.2059 Root mean squared error 0.285 Relative absolute error 56.918 % Root relative squared error 66.9906 % Total Number of Instances 2528 Παρατηρούμε ότι τα σφάλματα παλινδρόμησης διαφέρουν ελάχιστα για τα δύο σύνολα και επομένως καταλήγουμε στο συμπέρασμα ότι οι attributes 34 και 36 επηρρεάζουν ελάχιστα το μοντέλο μας. Έτσι επιλέγουμε να τις διαγράψουμε από το training set, χρησιμοποιώντας την εντολή Remove του πεδίου Attributes και συνεχίζουμε έχοντας ως training set το train_2.arff.

Ανοίγουμε τώρα το αρχείο quizextended.arff, αφαιρούμε τις attributes 34,36 και 38 και αποθηκεύουμε το αρχείο ως quizextended_2.arff. Από τους αλγόριθμους που δοκιμάσαμε, θα επιλέξουμε τον μεταμαθησιακό αλγόριθμο bagging και ως classifier θα ορίσουμε τον επίσης μεταμαθησιακό αλγόριθμο regression by discretization. Για την επιλογή του αλγορίθμου Bagging έχουμε στο WEKA την παρακάτω εικόνα: Για την επιλογή του εμφωλευμένου classifier που θα χρησιμοποιήσει ο αλγόριθμος Bagging, έχουμε τα εξής στο WEKA:

Γενικά, οι μεταμαθησιακοί αλγόριθμοι στηρίζονται στην κατασκευή πολλών «εμπειρογνωμόνων», δηλαδή πολλών μοντέλων που δημιουργούνται με τεχνικές μηχανικής μάθησης. Με αυτό τον τρόπο βελτιώνουν σημαντικά την προβλεπτική ικανότητα, όμως συχνά τα εξαγόμενα αποτελέσματα είναι δύσκολο να αναλυθούν. Στην περίπτωση του αλγορίθμου bagging, έχουμε εμφωλευμένο ένα δεύτερο classifier ο οποίος μειώνει τη διασπορά. Για προβλήματα ταξινόμησης, όπως το συγκεκριμένο πρόβλημα της άσκησης, τα αποτελέσματα προκύπτουν ως συνδυασμός προβλέψεων μέσω εύρεσης μέσου όρου. Κάθε μοντέλο σε αυτή τη διαδικασία συνδυασμού λαμβάνει την ίδια βαρύτητα. Εφαρμόζοντας αυτόν τον αλγόριθμο στο train_2.arff εμφανίζονται τα παρακάτω αποτελέσματα στο WEKA:

=== Run information === Scheme: weka.classifiers.meta.bagging -P 100 -S 1 -I 10 -W weka.classifiers.meta.regressionbydiscretization -- -B 10 - W weka.classifiers.trees.j48 -- -C 0.25 -M 2 Relation: trainweka.filters.unsupervised.attribute.remove-r34,36,38 Instances: 2528 Attributes: 37 attr01 attr02 attr03 attr04 attr05 attr06 attr07 attr08 attr09 attr10 attr11 attr12 attr13 attr14 attr15 attr16 attr17 attr18 attr19 attr20 attr21 attr22 attr23 attr24 attr25 attr26 attr27 attr28 attr29 attr30 attr31 attr32

attr33 attr35 attr37 attr39 output Test mode: 10-fold cross-validation === Classifier model (full training set) === All the base classifiers: Regression by discretization Class attribute discretized into 10 values Classifier spec: weka.classifiers.trees.j48 -C 0.25 -M 2 J48 pruned tree ------------------ Time taken to build model: 65.58 seconds === Cross-validation === === Summary === Correlation coefficient 0.9123 Mean absolute error 0.0615 Root mean squared error 0.1742 Relative absolute error 17.0029 % Root relative squared error 40.9434 % Total Number of Instances 2528 Από τα παραπάνω αποτελέσματα έχουμε αφαιρέσει τα δένδρα που εξάγει ο αλγόριθμος J48 στον οποίο βασίζεται η μέθοδος Regression By Discretization, για λόγους εξοικονόμησης χώρου. Εφαρμόζουμε τώρα τον ίδιο αλγόριθμο στο quizextended_2 arff επιλέγοντας στο πλαίσιο test options του WEKA την επιλογή supplied test set και set, quizextended_2.arff. Έτσι έχουμε τα παρακάτω αποτελέσματα:

=== Run information === Scheme: weka.classifiers.meta.bagging -P 100 -S 1 -I 10 -W weka.classifiers.meta.regressionbydiscretization - - -B 10 -W weka.classifiers.trees.j48 -- -C 0.25 -M 2 Relation: trainweka.filters.unsupervised.attribute.remove-r34,36,38 Instances: 2528 Attributes: 37 Time taken to build model: 9.8 seconds === Evaluation on test set === === Summary === Correlation coefficient 0 Mean absolute error 0.2536 Root mean squared error 0.4668 Relative absolute error 107.049 % Root relative squared error 197.0105 % Total Number of Instances 1265 Έχουμε αφαιρέσει τα δένδρα που εξάγει ο J48 και τις προβλέψεις, λόγω του μεγάλου μεγέθους που καταλάμβαναν. Παρατηρούμε ότι τα σφάλματα είναι αρκετά καλά και ότι δεν οδηγηθήκαμε σε υπερπροσαρμογή (overtraining), καθώς δεν προέκυψαν μηδενικά σφάλματα. Εφαρμόζουμε τώρα τα παραπάνω βήματα επιλογής και επεξεργασίας στο test set. Αρχικά θα αφαιρέσουμε τις attributes 34, 36 και 38 και θα το σώσουμε ως testexdended2.arff. Στη συνέχεια, τρέχουμε τον αλγόριθμο που επιλέξαμε για το train_2.arff, δηλαδή τον Bagging με classifier Regression by discretization χρησιμοποιώντας ως supplied test set το testextended2.arff αντί του quiz που χρησιμοποιήσαμε πριν. Έτσι καταλήγουμε στην τελική μας πρόβλεψη.