ιατµηµατικό Μεταπτυχιακό Πρόγραµµα Σπουδών ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ

Σχετικά έγγραφα
squared error, Mean absolute error, Root mean squared error) µεγάλωσαν,

ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ

ΗΜΕΡΟΜΗΝΙΑ: 25/05/2009 TΕΛΙΚΗ ΕΡΓΑΣΙΑ ΝΙΚΗ ΜΟΣΧΟΥ

ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΡΟΗ: ΣΤΑΤΙΣΤΙΚΗ-ΠΙΘΑΝΟΤΗΤΕΣ ΜΑΘΗΜΑ: ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ ΔΗΜΗΤΡΑ ΤΑΤΣΙΟΥ

Ι. Preprocessing (Επεξεργασία train.arff):

ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ (Data Mining) Πανδή Αθηνά

ΑΝΔΡΟΥΛΑΚΗΣ ΜΑΝΟΣ A.M AΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ

ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ

ΕΡΩΤΗΜΑ 1 ΕΡΩΤΗΜΑ 2. ELONGATEDNESS <= 41 AND MAX.LENGTH ASPECT RATIO <= 7 AND COMPACTNESS > 95: bus (70.0/1.0)

ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ: ΕΠΙΛΟΓΗ ΒΕΛΤΙΣΤΟΥ ΑΛΓΟΡΙΘΜΟΥ

ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΤΞΗ ΠΛΗΡΟΦΟΡΙΑ

ΒΑΣΙΚΑ ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ ΣΕΙΡΩΝ ΚΑΝΟΝΙΚΟΤΗΤΑ

1 Συνοπτική ϑεωρία. 1.1 Νόµοι του Προτασιακού Λογισµού. p p p. p p. ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ Τµήµα Επιστήµης Υπολογιστών

Τεχνικές Προβλέψεων. Προετοιμασία & Ανάλυση Χρονοσειράς

ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

Αριθµητική Παραγώγιση και Ολοκλήρωση

ΘΕΜΑΤΑ ΕΞΕΤΑΣΗΣ ΚΑΙ ΑΠΑΝΤΗΣΕΙΣ ΕΞΕΤΑΣΤΙΚΗ ΠΕΡΙΟ ΟΣ:

ΤΣΑΛΤΑ ΜΑΡΙΑ Α.Μ: 1946 ΠΑΥΛΕΛΛΗ ΛΟΥΙΖΑ Α.Μ: 2342 ΤΣΑΪΛΑΚΗ ΦΑΝΗ Α.Μ: Οικονομετρικά. Εργαστήριο 15/05/11

Α. ΠΡΟΣΘΕΣΗ - ΑΦΑΙΡΕΣΗ ΡΗΤΩΝ ΠΑΡΑΣΤΑΣΕΩΝ ΜΕ ΚΟΙΝΟ ΠΑΡΟΝΟΜΑΣΤΗ

ΛΙΒΑΘΙΝΟΣ ΝΙΚΟΛΑΟΣ Επιστήµη και Τεχνολογία των Υπολογιστών Α.Μ.: 403. Πρώτη Οµάδα Ασκήσεων

τη µέθοδο της µαθηµατικής επαγωγής για να αποδείξουµε τη Ϲητούµενη ισότητα.

2. Missing Data mechanisms

Πρόβληµα 2 (12 µονάδες)

Τεχνικές Προβλέψεων. 2η Ενότητα Προετοιμασία & Ανάλυση Χρονοσειράς

Κατ οίκον Εργασία 5 Σκελετοί Λύσεων

) = a ο αριθµός των µηχανών n ο αριθµός των δειγµάτων που παίρνω από κάθε µηχανή

HY118- ιακριτά Μαθηµατικά. Μαθηµατική επαγωγή. 11 Επαγωγή

Μεθοδολογίες παρεµβολής σε DTM.

Γραµµική Άλγεβρα. Εισαγωγικά. Μέθοδος Απαλοιφής του Gauss

3D-Deconvolution. Πριν την εφαρµογή του λογισµικού για 3D deconvolution: 1. Λήψη της εικόνας

Α. ΤΕΙ ΚΡΗΤΗΣ Τµήµα Εφαρµοσµένης Πληροφορικής και Πολυµέσων Εργαστήριο Νευρωνικών Δικτύων

Οικονοµετρικό Υπόδειγµα. Γράφηµα Ροής 1.

ΣΕΙΡΕΣ TAYLOR. Στην Ενότητα αυτή θα ασχοληθούµε µε την προσέγγιση συναρτήσεων µέσω πολυωνύµων. Πολυώνυµο είναι κάθε συνάρτηση της µορφής:

Το θεώρηµα πεπλεγµένων συναρτήσεων

Πανεπιστήµιο Κρήτης - Τµήµα Επιστήµης Υπολογιστών. ΗΥ-217: Πιθανότητες-Χειµερινό Εξάµηνο 2015 ιδάσκων : Π. Τσακαλίδης. Λύσεις Τρίτης Σειράς Ασκήσεων

Οι θεµελιώδεις έννοιες που απαιτούνται στη Επαγωγική Στατιστική (Εκτιµητική, ιαστήµατα Εµπιστοσύνης και Έλεγχοι Υποθέσεων) είναι:

Α. ΑΝΙΣΟΤΗΤΕΣ - ΚΑΝΟΝΕΣ ΑΝΙΣΟΤΗΤΩΝ

Ανάλυση Δεδοµένων µε χρήση του Στατιστικού Πακέτου R

ΤΜΗΜΑ ΕΠΙΧΕΙΡΗΜΑΤΙΚΟΥ ΣΧΕΔΙΑΣΜΟΥ & ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ ΤΕΙ ΠΑΤΡΑΣ ΤΕΙ ΠΑΤΡΑΣ ΣΗΜΕΙΩΣΕΙΣ ΜΑΘΗΜΑΤΟΣ ΕΠΙΧΕΙΡΗΣΙΑΚΏΝ ΠΑΙΓΝΙΩΝ- ΠΡΟΓΡΑΜΜΑ GAMBIT

Ασκήσεις για το µάθηµα «Ανάλυση Ι και Εφαρµογές» (ε) Κάθε συγκλίνουσα ακολουθία άρρητων αριθµών συγκλίνει σε άρρητο αριθµό.

ΠΡΟΒΛΗΜΑ ΑΝΑΘΕΣΗΣ Ή ΑΝΤΙΣΤΟΙΧΗΣΗΣ Ή ΕΚΧΩΡΗΣΗΣ Ή ΚΑΤΑΝΟΜΗΣ (ASSIGNMENT PROBLEM)

2 o Καλοκαιρινό σχολείο Μαθηµατικών Νάουσα 2008

Περίληψη ιπλωµατικής Εργασίας

Μέτρηση κατανοµής ηλεκτρικού πεδίου

4.2 Μέθοδος Απαλοιφής του Gauss

ειγµατοληπτική κατανοµή

Ζήτημα 1ο. Ζήτημα 2o. Τρέχουμε κάποιους αλγόριθμους. Ο OneR δίνει τους παρακάτω κανόνες

Σύνοψη Προηγούµενου. Γλώσσες χωρίς Συµφραζόµενα (2) Ισοδυναµία CFG και PDA. Σε αυτό το µάθηµα. Αυτόµατα Στοίβας Pushdown Automata

ΤΜΗΜΑ ΕΠΙΧΕΙΡΗΜΑΤΙΚΟΥΣΧΕ ΙΑΣΜΟΥ & xcvbnmσγqwφertyuioσδφpγρaηsόρ ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ. ωυdfghjργklαzxcvbnβφδγωmζqwert ΟΙΚΟΝΟΜΕΤΡΙΚΑ ΠΡΟΤΥΠΑ

Προϋποθέσεις : ! Και οι δύο µεταβλητές να κατανέµονται κανονικά και να έχουν επιλεγεί τυχαία.

3. Οριακά θεωρήµατα. Κεντρικό Οριακό Θεώρηµα (Κ.Ο.Θ.)

ΣΗΜΕΙΩΣΕΙΣ ΣΤΑΤΙΣΤΙΚΗΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥ ΩΝ «ΦΡΟΝΤΙ Α ΣΤΟ ΣΑΚΧΑΡΩ Η ΙΑΒΗΤΗ» ΑΝΑΛΥΤΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

ΣΚΟΠΟΙ Η αισθητοποίηση του φαινοµένου του ηχητικού συντονισµού Η κατανόηση της αρχής λειτουργίας των πνευστών οργάνων ΥΛΙΚΑ-ΟΡΓΑΝΑ

Κρυπτογραφία και Πολυπλοκότητα

Ανάλυση ιακύµανσης Μονής Κατεύθυνσης

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ

Ακρότατα υπό συνθήκη και οι πολλαπλασιαστές του Lagrange

TSA1233FW-00 ΓΙΑ ΤΗΝ ΙΚΗ ΣΑΣ ΑΣΦΑΛΕΙΑ: ΠΡΟ ΙΑΓΡΑΦΕΣ: ΕΓΚΑΤΑΣΤΑΣΗ - ΣΥΝ ΕΣΗ:

LOGO. Εξόρυξη Δεδομένων. Δειγματοληψία. Πίνακες συνάφειας. Καμπύλες ROC και AUC. Σύγκριση Μεθόδων Εξόρυξης

1 Υποθέσεις και Θεωρήµατα

Α. ΡΗΤΕΣ ΑΛΓΕΒΡΙΚΕΣ ΠΑΡΑΣΤΑΣΕΙΣ

Ο είκτης Συσχέτισης. Υπάρχουν πολλές οι έρευνες στις οποίες µας ενδιαφέρει να µελετήσουµε αν υπάρχει ΑΛΛΗΛΕΞΑΡΤΗΣΗ µεταξύ δύο µεταβλητών

Heapsort Using Multiple Heaps

Επιστηµονικός Υπολογισµός Ι Ενότητα 1 - Εισαγωγή. Ευστράτιος Γαλλόπουλος

Γραµµική Αλγεβρα Ι. Ενότητα: ιανυσµατικοί χώροι. Ευάγγελος Ράπτης. Τµήµα Μαθηµατικών

Στατιστικό κριτήριο χ 2

ΕπίλυσηΠροβληµάτων Αναθέσεων: Η "Ουγγρική Μέθοδος"

ΚΕ.ΠΛΗ.ΝΕ.Τ. ΖΑΚΥΝΘΟΥ 2013 ΜΕΡΙΚΕΣ ΠΡΑΚΤΙΚΕΣ ΛΥΣΕΙΣ ΓΙΑ ΟΛΟΥΣ WINDOWS 8

Αρχίστε αµέσως το πρόγραµµα xline Εσόδων Εξόδων.


2η Ενότητα Προετοιμασία & Ανάλυση Χρονοσειράς. -

ΑΝΩΣΗ µε λογισµικό PheT ΦΥΛΛΟ ΕΡΓΑΣΙΑΣ. Πείραµα. (εικονικό).

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

Σχολικός Σύµβουλος ΠΕ03

Β06Σ03 ΣΤΑΤΙΣΤΙΚΗ ΠΕΡΙΓΡΑΦΙΚΗ ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΗΝ ΨΥΧΟΠΑΙΔΑΓΩΓΙΚΗ

2.7.4 Πως οι εικόνες καταγράφονται στο γεωγραφικό χώρο

Πρόβληµα 2 (15 µονάδες)

Τεχνολογία και Κοινωνία

3. Στο Block Diagram αναπτύσουµε το υπολογιστικό µέρος του προγράµµατος. Σχήµα 1.1: Το Front Panel του LabVIEW.

Κώδικας σχεδίασης Λογισµικής ιαγραµµατικής Οντολογίας

e 5t (sin 5t)u(t)e st dt e st dt e 5t e j5t e st dt s j5 j10 (s + 5 j5)(s j5)

1 Ορισµός ακολουθίας πραγµατικών αριθµών

Ορισµοί και εξισώσεις κίνησης

Γραµµικός Προγραµµατισµός - Μέθοδος Simplex

Η εφαρµογή xsortlab. Οπτικός τρόπος ταξινόµησης

Συναρτησιακές Εξαρτήσεις

Πολλαπλή παλινδρόµηση. Μάθηµα 3 ο

ΤΜΗΜΑΕΠΙΧΕΙΡΗΜΑΤΙΚΟΥΣΧΕΔΙΑΣΜΟΥ & ΠΛΗΡΟΦΟΡΙΑΚΩΝΣΥΣΤΗΜΑΤΩΝ

ροµολόγηση πακέτων σε δίκτυα υπολογιστών

Στόχος µαθήµατος: ΒΙΟΣΤΑΤΙΣΤΙΚΗ ΙΙ. 1. Απλή γραµµική παλινδρόµηση. 1.2 Παράδειγµα 6 (συνέχεια)

«Πρόβλεψη» «Forecasting»

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ. ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ Τελικές εξετάσεις 30 Σεπτεµβρίου 2005

Συναρτησιακές Εξαρτήσεις. Βάσεις εδοµένων Ευαγγελία Πιτουρά 1

H ΓΛΩΣΣΑ C. Μάθηµα 7: Πίνακες. ηµήτρης Ψούνης

HY118- ιακριτά Μαθηµατικά

ΟΜΗ ΤΗΣ ΕΦΑΡΜΟΓΗΣ... 3 ΕΡΩΤΗΣΕΙΣ... 5 ΕΡΕΥΝΕΣ... 8

ΕΠΙΤΑΧΥΝΣΗ- ΕΠΙΤΑΧΥΝΟΜΕΝΗ ΚΙΝΗΣΗ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Transcript:

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ιατµηµατικό Μεταπτυχιακό Πρόγραµµα Σπουδών ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ Τελική Εργασία στο µάθηµα Αλγόριθµοι Εξόρυξης Πληροφορίας Μουτσανά Βασιλική

Τα δεδοµένα που έχουµε προς επεξεργασία αποτελούνται από 2528 υποδείγµατα (instances) και 39 αριθµητικά χαρακτηριστικά ή αλλιώς µεταβλητές που επηρεάζουν την τιµή του χαρακτηριστικού προς εξέταση, εδώ output. Στόχος µας είναι να καταλήξουµε σε ένα σύνολο attribute το οποίο θα µας δώσει τις απαιτούµενες πληροφορίες µε το µικρότερο υπολογιστικό κόστος. Το πρώτο βήµα είναι να διαπιστώσουµε εάν κάποιες από τις µεταβλητές µας δεν συµβάλλουν σηµαντικά στην εξαγωγή συµπερασµάτων οπότε µπορούµε να τις αφαιρέσουµε από την περαιτέρω ανάλυση χωρίς να χάνουµε σε ακρίβεια και αξιοπιστία. Μία πρώτη ιδέα µπορούµε να πάρουµε παρατηρώντας τα χαρακτηριστικά συνολικά (επιλέγοντας visualize all). Παρατηρούµε ότι το attribute 38 θα µπορούσε ίσως να αφαιρεθεί αφού δεν παρουσιάζει ιδιαίτερο ενδιαφέρον. Προκειµένου να καταλήξουµε στο σωστό σύνολο attribute προς επεξεργασία δοκιµάζουµε διαφορετικές µεθόδους αποτίµησης και αναζήτησης χαρακτηριστικών ή υποσυνόλου χαρακτηριστικών. Εάν επιλέξουµε τους συνδυασµούς CfsSubsetEval BestFirst, CfsSubsetEval SubsetForwardSelection, CfsSubsetEval ScatterSearch καταλήγουµε σε 10 χαρακτηριστικά έναντι των 39 που είχαµε αρχικά. Στις 2 πρώτες περιπτώσεις τα χαρακτηριστικά αυτά συµπίπτουν ενώ στην 3 η είναι

διαφορετικά. Με το συνδυασµό CfsSubsetEval- GeneticSearch φαίνεται ότι τελικά καταλήγουµε σε 9 attribute ενώ µε τον CfsSubsetEval GreedyStepwise σε 11. Στη συνέχεια µπορούµε να εφαρµόσουµε διάφορους αλγορίθµους και να παρατηρήσουµε το ποσοστό επιτυχηµένης πρόβλεψης που µας δίνει καθένας από αυτούς καθώς και τα αντίστοιχα σφάλµατα. Αρχικά εφαρµόζουµε τον M5Rules στο σύνολο των attribute 6,7,12,19,23,24,27,28,32. Τα αποτελέσµατα που παίρνουµε προκύπτουν χρησιµοποιώντας τη µέθοδο Cross - Validation: Correlation coefficient 0.8602 Mean absolute error 0.089 Root mean squared error 0.2174 Relative absolute error 24.5963 % Root relative squared error 51.1032 % Στη συνέχεια εφαρµόζουµε τον Conjunctive Rule στο ίδιο σύνολο µεταβλητών Correlation coefficient 0.7234 Mean absolute error 0.1665 Root mean squared error 0.2938 Relative absolute error 46.0312 % Root relative squared error 69.0597 % οκιµάζουµε τον M5Rules χωρίς αυτή τη φορά να αφαιρέσουµε κάποια από τις µεταβλητές µας. Οπότε θα πάρουµε:

Correlation coefficient 0.9058 Mean absolute error 0.0651 Root mean squared error 0.1802 Relative absolute error 17.9993 % Root relative squared error 42.3605 % Τα αποτελέσµατα είναι πολύ καλύτερα και το σφάλµα αρκετά µικρότερο. Τα ίδια ακριβώς αποτελέσµατα θα παρατηρήσουµε και µε τη χρήση των Bagging και RandomSubspace. Εδώ αξίζει να σηµειώσουµε ότι αφαιρώντας το attribute 38 - για το οποίο είχαµε διαπιστώσει αρχικά ότι µπορεί να µην συνεισέφερε ουσιαστικά στην ανάλυση µας - τα εξαγόµενα είναι τα ίδια. Μέχρι τώρα όλα τα attribute ήταν numeric µε αποτέλεσµα να µην µπορούµε να εφαρµόσουµε κάποιους αλγορίθµους που απαιτούν nominal χαρακτηριστικά. Για το λόγο αυτό θα µετατρέψουµε το output σε nominal για να δούµε εάν τα ποσοστά επιτυχούς πρόβλεψης βελτιώνονται και κατά πόσο. οκιµάζουµε τους αλγορίθµους Jrip και J48graft οπότε έχουµε αντίστοιχα: Correctly Classified Instances 2413 95.4509 % Incorrectly Classified Instances 115 4.5491 % Kappa statistic 0.8747 Mean absolute error 0.0642 Root mean squared error 0.206 Relative absolute error 17.7439 % Root relative squared error 48.4407 %

Correctly Classified Instances 2414 95.4905 % Incorrectly Classified Instances 114 4.5095 % Kappa statistic 0.875 Mean absolute error 0.0526 Root mean squared error 0.2072 Relative absolute error 14.5387 % Root relative squared error 48.7387 % δηλαδή τα αποτελέσµατα βελτιώνονται σηµαντικά. Εδώ είχαµε αφαιρέσει το attribute 38. Συνεχίζουµε µε nominal output οπότε εφαρµόζοντας τον αλγόριθµο Ladtree παίρνουµε: Correctly Classified Instances 2436 96.3608 % Incorrectly Classified Instances 92 3.6392 % Kappa statistic 0.8989 Mean absolute error 0.0623 Root mean squared error 0.17 Relative absolute error 17.2347 % Root relative squared error 39.9848 % και τα συγκεκριµένα αποτελέσµατα βελτιώνονται ακόµη περισσότερο όταν µετά από δοκιµές αφαιρούµε τα χαρακτηριστικά 8, 13 και 37, δηλαδή:

Correctly Classified Instances 2442 96.5981 % Incorrectly Classified Instances 86 3.4019 % Kappa statistic 0.9053 Mean absolute error 0.0618 Root mean squared error 0.1686 Relative absolute error 17.0762 % Root relative squared error 39.6569 % Μέχρι στιγµής ο συγκεκριµένος αλγόριθµος µας δίνει το µεγαλύτερο ποσοστό επιτυχίας και το µικρότερο σφάλµα. Αυτό που κάνουµε στη συνέχεια είναι να χρησιµοποιήσουµε µετα αλγορίθµους για να βελτιώσουµε το ποσοστό επιτυχηµένης πρόβλεψης. Έτσι επιλέγουµε Bagging Ladtree οπότε: Correctly Classified Instances 2448 96.8354 % Incorrectly Classified Instances 80 3.1646 % Kappa statistic 0.9117 Mean absolute error 0.0633 Root mean squared error 0.1613 Relative absolute error 17.4872 % Root relative squared error 37.933 % Μετά από κάποιες ακόµη δοκιµές καταλήγουµε στο συνδυασµό Bagging Adaboost - Ladtree τον οποίο θα χρησιµοποιήσουµε επιλέγοντας ως supply test set το αρχείο test, ευελπιστώντας να πάρουµε αντίστοιχα καλά αποτελέσµατα µε αυτά που παίρνουµε µε την cross validation µέθοδο.

Correctly Classified Instances 2455 97.1123 % Incorrectly Classified Instances 73 2.8877 % Kappa statistic 0.9194 Mean absolute error 0.0394 Root mean squared error 0.1534 Relative absolute error 10.9051 % Root relative squared error 36.0725 %