ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ

Σχετικά έγγραφα
ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ

ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ (Data Mining) Πανδή Αθηνά

ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

ΑΝΔΡΟΥΛΑΚΗΣ ΜΑΝΟΣ A.M AΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ

ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ

Ι. Preprocessing (Επεξεργασία train.arff):

ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΡΟΗ: ΣΤΑΤΙΣΤΙΚΗ-ΠΙΘΑΝΟΤΗΤΕΣ ΜΑΘΗΜΑ: ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ ΔΗΜΗΤΡΑ ΤΑΤΣΙΟΥ

squared error, Mean absolute error, Root mean squared error) µεγάλωσαν,

ΗΜΕΡΟΜΗΝΙΑ: 25/05/2009 TΕΛΙΚΗ ΕΡΓΑΣΙΑ ΝΙΚΗ ΜΟΣΧΟΥ

ιατµηµατικό Μεταπτυχιακό Πρόγραµµα Σπουδών ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ

Τεχνικές Προβλέψεων. Προετοιμασία & Ανάλυση Χρονοσειράς

Διδάσκουσα: Χάλκου Χαρά,

8. ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ ΔΕΔΟΜΕΝΩΝ

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

Αριθμητική Ανάλυση & Εφαρμογές

Τεχνικές Προβλέψεων. 2η Ενότητα Προετοιμασία & Ανάλυση Χρονοσειράς

LOGO. Εξόρυξη Δεδομένων. Δειγματοληψία. Πίνακες συνάφειας. Καμπύλες ROC και AUC. Σύγκριση Μεθόδων Εξόρυξης

Βελτιστοποίηση κατανομής πόρων συντήρησης οδοστρωμάτων Πανεπιστήμιο Πατρών - Πολυτεχνική Σχολή Τμήμα Πολιτικών Μηχανικών

4.4 Βάσεις Δεδομένων με πολλές Μεταβλητές

Μάθηση και Γενίκευση. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

ΕΡΩΤΗΜΑ 1 ΕΡΩΤΗΜΑ 2. ELONGATEDNESS <= 41 AND MAX.LENGTH ASPECT RATIO <= 7 AND COMPACTNESS > 95: bus (70.0/1.0)

5. ΤΟ ΓΕΝΙΚΟ ΓΡΑΜΜΙΚΟ ΜΟΝΤΕΛΟ (GENERAL LINEAR MODEL) 5.1 Εναλλακτικά μοντέλα του απλού γραμμικού μοντέλου: Το εκθετικό μοντέλο

ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΕΡΓΑΣΤΗΡΙΟ (SPSS)

Εισαγωγή στη Matlab Βασικές Συναρτήσεις

Βήματα για την επίλυση ενός προβλήματος

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

Εργαστήριο Μαθηματικής Ανάλυσης Ι. Εισαγωγή στη Matlab Βασικές Συναρτήσεις-Γραφικές παραστάσεις. Πανεπιστήμιο Θεσσαλίας. Σχολή Θετικών Επιστημών

ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Τραπεζικής & Χρηματοοικονομικής

ΒΑΣΙΚΑ ΣΤΟΙΧΕΙΑ ΘΕΩΡΙΑΣ ΤΗΣ ΜΕΘΟΔΟΥ SIMPLEX

ΤΕΙ Ιονίων Νήσων Εργαστηριακές Ασκήσεις στα Γεωγραφικά Συστήματα Πληροφοριών

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

Αναγνώριση Προτύπων Εργασία 1η Classification

ΠΕΙΡΑΜΑΤΙΚΕΣ ΠΡΟΣΟΜΟΙΩΣΕΙΣ ΚΕΦΑΛΑΙΟ 4. είναι η πραγματική απόκριση του j δεδομένου (εκπαίδευσης ή ελέγχου) και y ˆ j

Διπλωματική Εργασία. Διαχείριση Γνώσης και Ασφάλεια Πληροφοριών

Συνεργείο Αυτοκινήτων

Λύσεις θεμάτων Επιχειρησιακής Έρευνας (17/09/2014)

SPSS Statistical Package for the Social Sciences

Μεθοδολογία των επιστημών του Ανθρώπου : Στατιστική Εργαστήριο 6 :

GreekLUG Ελεύθερο Λογισμικό & Λογισμικό Ανοικτού Κώδικα

2. ΧΡΗΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΠΑΚΕΤΩΝ ΣΤΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

ΛΥΜΕΝΕΣ ΕΦΑΡΜΟΓΕΣ ΣΤΟ 2 ο ΚΕΦΑΛΑΙΟ

Οδηγός δημιουργίας Υποομάδων / Μαθημάτων / Χρηστών στο LAMS του ΠΣΔ

8o ΕΡΓΑΣΤΗΡΙΟ ΣΦΑΛΜΑΤΑ, ΜΟΡΦΟΠΟΙΗΣΗ ΥΠΟ ΟΡΟΥΣ ΚΑΙ ΓΡΑΦΗΜΑΤΑ

4 ο ΦΥΛΛΟ ΕΡΓΑΣΙΑΣ ΓΕΝΙΚΟΣ ΣΚΟΠΟΣ :

Υπολογιστικά & Διακριτά Μαθηματικά

Κατακόρυφη - Οριζόντια μετατόπιση συνάρτησης

Διπλωματική εργασία Θέμα: «Δημιουργία ευφυούς συστήματος για τη διαχείριση και διαλογή των ασθενών Τμήματος Επειγόντων Περιστατικών

με Τέλος πάντων, έστω ότι ξεκινάει ένα άλλο υποθετικό σενάριο που απλά δεν διευκρινίζεται. Για το i) θα έχουμε , 2

ΕΜΠ ΔΠΜΣ Εφαρμοσμένες Μαθηματικές Επιστήμες Αλγόριθμοι Εξόρυξης Πληροφορίας. Διάλεξη02 ΣυνιστώσεςΔεδομένων Οπτικοποίηση&Εξερεύνηση

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Διαχείριση Εφοδιαστικής Αλυσίδας ΙΙ

2η Ενότητα Προετοιμασία & Ανάλυση Χρονοσειράς. -

Ο ΗΓΙΕΣ ΓΙΑ ΤΟ ΠΡΟΓΡΑΜΜΑ LINDO ΚΑΙ ΤΗΝ ΕΠΙΛΥΣΗ ΠΡΟΒΛΗΜΑΤΩΝ ΓΡΑΜΜΙΚΟΥ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ

ΣΚΟΠΟΙ ΒΗΜΑ 1 Ο. Θα εμφανιστεί το λογότυπο του προγράμματος.. ..και μετά από λίγο ένα παράθυρο με τίτλο Προβολές CMap Tools. [1]

Αποθήκες και Εξόρυξη Δεδομένων

Εισόδημα Κατανάλωση

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ. ΜΑΘΗΜΑ 3ο

Πλήρης Διαχείριση Συμβάσεων

x 2,, x Ν τον οποίον το αποτέλεσμα επηρεάζεται από

Εύρεση ν-στού πρώτου αριθμού

Βυζαντινός Ρεπαντής Κολλέγιο Αθηνών 2010

Τμήμα Διοίκησης Επιχειρήσεων

Επαγωγική Στατιστική. Εισαγωγή Βασικές έννοιες

ΚΕΦΑΛΑΙΟ 5. Matlab GUI για FWSVM και Global SVM

Υ: Νόσος. Χ: Παράγοντας Κινδύνου 1 (Ασθενής) 2 (Υγιής) Σύνολο. 1 (Παρόν) n 11 n 12 n 1. 2 (Απών) n 21 n 22 n 2. Σύνολο n.1 n.2 n..

Επιλογή επενδύσεων κάτω από αβεβαιότητα

ΤΜΗΜΑΕΠΙΧΕΙΡΗΜΑΤΙΚΟΥΣΧΕΔΙΑΣΜΟΥ & ΠΛΗΡΟΦΟΡΙΑΚΩΝΣΥΣΤΗΜΑΤΩΝ

Αλγόριθμοι και πολυπλοκότητα Η Άπληστη Μέθοδος

3.7 Παραδείγματα Μεθόδου Simplex

Στασιμότητα χρονοσειρών Νόθα αποτελέσματα-spurious regression Ο έλεγχος στασιμότητας είναι απαραίτητος ώστε η στοχαστική ανάλυση να οδηγεί σε ασφαλή

Συνδυασμός Μαθηματικών με γραφικές παραστάσεις

Οργάνωση Υπολογιστών

ΟΙΚΟΝΟΜΕΤΡΙΑ. Α μέρος: Πολυσυγγραμμικότητα. Παπάνα Αγγελική

ΕΛΕΓΧΟΣ ΠΑΡΑΓΩΓΙΚΩΝ ΔΙΕΡΓΑΣΙΩΝ

Σύντομη περιγραφή 5. Για να ξεκινήσετε 6. Οι οθόνες του προγράμματος 8. Εγκατάσταση προγράμματος 6 Δημιουργία κωδικών χρήστη 7

Εργαστήρια Text Mining & Sentiment Analysis με Rapid Miner

Περιγραφική Στατιστική. Ακαδ. Έτος ο εξάμηνο. Κ. Πολίτης

Αριθμητικές Μέθοδοι σε Προγραμματιστικό Περιβάλλον

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Σύστημα Πλεονάσματος. Αναπαράσταση Πραγματικών Αριθμών. Αριθμητικές Πράξεις σε Αριθμούς Κινητής Υποδιαστολής

Ακαδημαϊκό Έτος , Χειμερινό Εξάμηνο Μάθημα: Εργαστήριο «Πληροφορική Υγείας» ΕΙΣΑΓΩΓΗ ΣΤΗΝ ACCESS

Δυαδικό Σύστημα Αρίθμησης

Microsoft Excel Κεφάλαιο 1. Εισαγωγή. Βιβλίο εργασίας

Field Service Management ΕΓΧΕΙΡΙΔΙΟ ΧΡΗΣΗΣ

ΔΗΜΙΟΥΡΓΙΑ ΔΙΑΔΙΚΤΥΑΚΗΣ ΦΟΡΜΑΣ - ΕΡΩΤΗΜΑΤΟΛΟΓΙΟΥ ΜΕ ΤΟ DRIVE ΤΗΣ GOOGLE. Κων/νος Κλουβάτος Σχολικός Σύμβουλος 3 ης Περιφέρειας Π.Ε.

Μεταβολές της Δυναμικής Ενέργειας στην κατακόρυφη κίνηση σώματος εξαρτημένου από ελατήριο. Με τη βοήθεια λογισμικού LoggerProGR

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 2 Μαΐου /23

ΑΡΧΙΤΕΚΤΟΝΙΚΗ ΥΠΟΛΟΓΙΣΤΩΝ. Κεφάλαιο 3

Εξόρυξη Γνώσης από Βιολογικά εδομένα

Πανεπιστήμιο Δυτικής Μακεδονίας. Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών. Ηλεκτρονική Υγεία. Εργαστήριο 4 ο : MATLAB

Ο Οδηγός γρήγορης εκκίνησης


Τυπικές χρήσεις της Matlab

ΑΡΙΘΜΗΤΙΚΕΣ ΜΕΘΟΔΟΙ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ

ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΔΙΑΧΕΙΡΙΣΗΣ ΚΙΝΔΥΝΟΥ. Credit Value at Risk

2.1 Δραστηριότητα: Εισαγωγή στο όριο συνάρτησης σε σημείο

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

Περιεχόμενα. Κεφάλαιο 1 Εισαγωγή στην Access...9. Κεφάλαιο 2 Χειρισμός πινάκων... 25

Transcript:

Ε Θ Ν Ι Κ Ο Μ Ε Τ Σ Ο Β Ι Ο Π Ο Λ Υ Τ Ε Χ Ν Ε Ι Ο ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ & ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ ΟΝΟΜΑΤΕΠΩΝΥΜΟ: ΜΠΑΡΛΑ ΔΗΜΗΤΡΑ Α.Μ. 09480020

Εισαγωγή Το σύνολο των δεδομένων μας έχει ως εξής: Τα δεδομένα εκπαίδευσης (training set) που αποτελούνται από 2528 υποδείγματα και 39 χαρακτηριστικά. Τα δεδομένα επαλήθευσης (quiz set) που αποτελούνται από 1265 υποδείγματα και 39 χαρακτηριστικά. Τα δεδομένα εξέτασης (test set) που αποτελούνται από 1265 υποδείγματα και 39 χαρακτηριστικά. Δεν έχουμε κάποια συγκεκριμένη πληροφορία όσον αφορά τα δεδομένα αλλά για λόγους επεξήγησης θεωρούμε ότι πρόκειται για μια τράπεζα, η οποία ενδιαφέρεται να εντοπίσει τους κατόχους πιστωτικών καρτών που ενδέχεται να χρεοκοπήσουν. Εξετάζοντας τα 39 χαρακτηριστικά κάθε πελάτη καταλήγουμε στο συμπέρασμα για το αν ο πελάτης είναι καλός ή κακός. Αν ο κακός προβλέπεται ως καλός υπάρχει απώλεια αποπληρωμής λόγω χρεοκοπίας. Αν ο καλός προβλέπεται ως κακός υπάρχει περαιτέρω εξακρίβωση χαρακτηριστικών του πελάτη, η οποία είναι κοστοβόρα, ή ακόμα και διακοπή με έναν πελάτη που είναι αξιόπιστος. Επιλογή χαρακτηριστικών Κάνουμε έναν οπτικό έλεγχο των χαρακτηριστικών που έχουμε. Αυτό είναι εφικτό από την επιλογή του Weka στο Preprocess, Visualize Αll.

Παρατηρούμε ότι οι τιμές του χαρακτηριστικού 38 είναι όλες ίσες με μηδέν άρα δεν μας δίνει κάποια πληροφορία για το σύνολο των δεδομένων. Το ίδιο ισχύει και με τα χαρακτηριστικά 34 και 36, όπου το μεγαλύτερο ποσοστό των τιμών είναι μηδέν. Εκτός από αυτά τα χαρακτηριστικά, που δεν μας παρέχουν στην ουσία καμία πληροφορία εμφανίζονται και χαρακτηριστικά που έχουν παρόμοια γραφική απεικόνιση άρα θα δίνουν παρόμοια πληροφορία και δεν είναι απαραίτητο να τα εξετάσουμε όλα. Αυτά τα χαρακτηριστικά είναι τα εξής: (1,28), (2,8), (6,7), (16,19), (11,27,21), (18,20). Οπότε κάνοντας διαφορετικούς συνδυασμούς και αφαιρώντας κάποια από τα παραπάνω χαρακτηριστικά προσπαθούμε να βρούμε τον καλύτερο συνδυασμό ώστε να καταλήξουμε στο καλύτερο αποτέλεσμα. Έλεγχος καλού αποτελέσματος- Αποτίμηση αριθμητικής πρόβλεψης Χρησιμοποιούμε τα κριτήρια σφάλματος για να ελέγξουμε αν η πρόβλεψη που έχουμε για την ταξινόμηση είναι η καλύτερη. Τα σφάλματα που χρησιμοποιούμε ειναι τα εξής: Correlation coefficient. Κάνει αποτίμηση της συσχέτισης μεταξύ των πραγματικών τιμών και των προβλέψεων. Παίρνει τιμές από το 1, όταν πρόκειται για απόλυτα συσχετιζόμενα αποτελέσματα, έως το 0, όταν δεν υπάρχει καμία συσχέτιση. Παίρνει επίσης, την τιμή -1 όταν τα αποτελέσματα έχουν πλήρως αρνητική συσχέτιση. Οι τιμές του είναι ανεξάρτητες της κλίμακας των δεδομένων και επιθυμούμε την μεγιστοποίηση του ώστε να έχουμε τα καλύτερα αποτελέσματα. Mean absolute error. Ένα από τα πιο δημοφιλή μέτρα σφάλματος είναι το mean squared error. Εμείς αν αυτού χρησιμοποιούμε το mean absolute error που είναι λιγότερο ευαίσθητο σε τιμές προς εξαίρεση. Επιθυμούμε η τιμή του να είναι όσο το δυνατόν μικρότερη. Root mean squared error. Έχει τις ίδιες διαστάσεις με την προβλεπόμενη τιμή και επιθυμούμε την ελαχιστοποίηση του.

Relative absolute error. Πρόκειται για τιμές σφάλματος που συγκρίνονται με τις τιμές σφάλματος που θα προέκυπταν αν κάθε πρόβλεψη ήταν ίση με τη μέση τιμή. Και σε αυτό επιθυμούμε την ελαχιστοποίηση του. Root relative squared error. Επιθυμούμε την ελαχιστοποίηση του για την καλύτερη ταξινόμηση των δεδομένων. WEKA Ανοίγουμε το training set με το weka και εφαρμόζουμε διάφορες μεθόδους για να επιλέξουμε την αποδοτικότερη. Αρχικά επιλέγουμε ποια χαρακτηριστικά θα διαγράψουμε επειδή δεν συνεισφέρουν στην απόδοση πληροφορίας. Στην εργασία αυτή έχουμε διαγράψει τα: 2,11,18,19,21,28,34,36,38 για τους λόγους που προαναφέρθηκαν. Για τη διαγραφή επιλέγουμε τα παραπάνω χαρακτηριστικά από τη λίστα στο Preprocess και ύστερα την εντολή remove. Στο classify υπάρχουν οι classifiers που θα χρησιμοποιήσουμε για να πάρουμε τα αποτελέσματα της ταξινόμησης.

Έχοντας πειραματιστεί με classifiers (αλγόριθμους εκμάθησης) όπως είναι οι κανόνες, τα δένδρα, οι κανόνες Bayes, η αδρανής εκμάθηση, οι συναρτήσεις και οι μετα-μαθησιακοί αλγόριθμοι καταλήξαμε ότι τα καλύτερα αποτελέσματα ταξινόμησης τα παίρνουμε χρησιμοποιώντας τους μετα μαθησιακούς αλγόριθμους. Επιλέγουμε τον μετα-αλγόριθμο Bagging και στην εντολή choose επιλέγουμε έναν ακόμα μετα-αλγόριθμο, τον RegressionByDiscretization, και ύστερα το δένδρο J48. Κάνουμε έλεγχο χρησιμοποιώντας cross validation με 10 folds. Τα αποτελέσματα από τον έλεγχο είναι τα εξής: === Cross-validation === === Summary === Correlation coefficient 0.9132 Mean absolute error 0.061 Root mean squared error 0.1732 Relative absolute error 16.8507 % Root relative squared error 40.7224 % Total Number of Instances 2528

Τα παραπάνω αποτελέσματα είναι αρκετά ικανοποιητικά και γι αυτό θα τα εφαρμόσουμε και στο quiz set. Για να γίνει αυτό ανοίγουμε με το weka το quiz set. Προσθέτουμε το χαρακτηριστικό output, γιατί δεν εμφανίζεται στη λίστα, και επιλέγουμε τα ίδια χαρακτηριστικά που χρησιμοποιήσαμε στο training set. Για να προσθέσουμε το νέο χαρακτηριστικό στο Preprocess, επιλέγουμε στο filter το unsupervised attribute και ύστερα την εντολή add. Αφού προσθέσουμε το νέο χαρακτηριστικό στην επιλογή Edit ορίζουμε τις τιμές του output ίσες με μηδέν. Αποθηκεύουμε το quiz set που κατασκευάσαμε και επανερχόμαστε στο training set. Επιλέγουμε πάλι τα χαρακτηριστικά που είχαμε και πριν καθώς και τους μετααλγόριθμους. Στο Classify τώρα επιλέγουμε το supplied test set και ανοίγουμε το αποθηκευμένο quiz set. Στο παράθυρο more options επιλέγουμε να εμφανίζονται τα output predictions. Αυτή η επιλογή εμφανίζει μια ακολουθία δεκαδικών αριθμών την οποία μετατρέπουμε σε μια ακολουθία από 0 και 1, τα οποία χρησιμοποιούμε για να βρούμε την πρόβλεψη. Πληκτρολογώντας το start παίρνουμε για τα 1265 υποδείγματα των δεδομένων την ακολουθία 0,1 και έχουμε το αποτέλεσμα 0,9541. Όσο πιο κοντά στο 1 είναι αυτή η τιμή τόσο πιο καλή είναι η πρόβλεψη που έχουμε κάνει. Με τον ίδιο ακριβώς τρόπο εργαζόμαστε και στο test set. Τα αποτελέσματα που παίρνουμε από το test είναι: === Evaluation on test set === === Summary === Correlation coefficient 0 Mean absolute error 0.2345 Root mean squared error 0.4441 Relative absolute error 98.9765 % Root relative squared error 187.4346 % Total Number of Instances 1265