ΑΝΔΡΟΥΛΑΚΗΣ ΜΑΝΟΣ A.M AΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ

Σχετικά έγγραφα
ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ (Data Mining) Πανδή Αθηνά

ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ

ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΡΟΗ: ΣΤΑΤΙΣΤΙΚΗ-ΠΙΘΑΝΟΤΗΤΕΣ ΜΑΘΗΜΑ: ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ ΔΗΜΗΤΡΑ ΤΑΤΣΙΟΥ

squared error, Mean absolute error, Root mean squared error) µεγάλωσαν,

ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ

Ι. Preprocessing (Επεξεργασία train.arff):

ΗΜΕΡΟΜΗΝΙΑ: 25/05/2009 TΕΛΙΚΗ ΕΡΓΑΣΙΑ ΝΙΚΗ ΜΟΣΧΟΥ

ιατµηµατικό Μεταπτυχιακό Πρόγραµµα Σπουδών ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ

2o μέρος εργασίας (Αρχείο cpu)

ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΤΞΗ ΠΛΗΡΟΦΟΡΙΑ

Τεχνικές Προβλέψεων. Προετοιμασία & Ανάλυση Χρονοσειράς

ΕΡΩΤΗΜΑ 1 ΕΡΩΤΗΜΑ 2. ELONGATEDNESS <= 41 AND MAX.LENGTH ASPECT RATIO <= 7 AND COMPACTNESS > 95: bus (70.0/1.0)

ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ: ΕΠΙΛΟΓΗ ΒΕΛΤΙΣΤΟΥ ΑΛΓΟΡΙΘΜΟΥ

Αναγνώριση Προτύπων Εργασία 1η Classification

Άσκηση 11. Δίνονται οι παρακάτω παρατηρήσεις:

+ ε βελτιώνει ουσιαστικά το προηγούμενο (β 3 = 0;) 2. Εξετάστε ποιο από τα παρακάτω τρία μοντέλα:

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

ΕΜΠ ΔΠΜΣ Εφαρμοσμένες Μαθηματικές Επιστήμες Αλγόριθμοι Εξόρυξης Πληροφορίας. Διάλεξη02 ΣυνιστώσεςΔεδομένων Οπτικοποίηση&Εξερεύνηση

ΤΜΗΜΑΕΠΙΧΕΙΡΗΜΑΤΙΚΟΥΣΧΕΔΙΑΣΜΟΥ & ΠΛΗΡΟΦΟΡΙΑΚΩΝΣΥΣΤΗΜΑΤΩΝ

ΠΕΙΡΑΜΑΤΙΚΕΣ ΠΡΟΣΟΜΟΙΩΣΕΙΣ ΚΕΦΑΛΑΙΟ 4. είναι η πραγματική απόκριση του j δεδομένου (εκπαίδευσης ή ελέγχου) και y ˆ j

«Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα»

ΜΟΝΤΕΛΟΠΟΙΗΣΗ ΔΙΑΡΚΕΙΑΣ ΦΩΝΗΜΑΤΩΝ ΤΗΣ ΕΛΛΗΝΙΚΗΣ ΓΛΩΣΣΑΣ ΜΕ ΕΦΑΡΜΟΓΗ ΣΤΗ ΣΥΝΘΕΣΗ ΟΜΙΛΙΑΣ

LOGO. Εξόρυξη Δεδομένων. Δειγματοληψία. Πίνακες συνάφειας. Καμπύλες ROC και AUC. Σύγκριση Μεθόδων Εξόρυξης

ΓΡΑΜΜΙΚΗ ΠΑΛΙΝ ΡΟΜΗΣΗ

Τεχνικές Προβλέψεων. 2η Ενότητα Προετοιμασία & Ανάλυση Χρονοσειράς

Ζήτημα 1ο. Ζήτημα 2o. Τρέχουμε κάποιους αλγόριθμους. Ο OneR δίνει τους παρακάτω κανόνες

ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Τραπεζικής & Χρηματοοικονομικής

8. ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ ΔΕΔΟΜΕΝΩΝ

Ερωτήσεις κατανόησης στην Οικονομετρία (Με έντονα μαύρα γράμματα είναι οι σωστές απαντήσεις)

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ. ΜΑΘΗΜΑ 3ο

Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώση

Εφαρμοσμένα Μαθηματικά ΙΙ 7ο Σετ Ασκήσεων (Λύσεις) Γραμμικά Συστήματα- Απαλοιφή Gauss Επιμέλεια: I. Λυχναρόπουλος

ΟΙΚΟΝΟΜΕΤΡΙΑ. Βιολέττα Δάλλα. Εθνικό και Καποδιστριακό Πανεπιστήµιο Αθηνών

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

2. ΕΠΙΛΟΓΗ ΜΟΝΤΕΛΟΥ ΜΕ ΤΗ ΜΕΘΟΔΟ ΤΟΥ ΑΠΟΚΛΕΙΣΜΟΥ ΜΕΤΑΒΛΗΤΩΝ (Backward Elimination Procedure) Στην στατιστική βιβλιογραφία υπάρχουν πολλές μέθοδοι για

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ Μονάδα Συστημάτων Προβλέψεων & Προοπτικής Forecasting System Unit

Βήματα για την επίλυση ενός προβλήματος

4.4 Βάσεις Δεδομένων με πολλές Μεταβλητές

Διδάσκουσα: Χάλκου Χαρά,

ΜΕΘΟΔΟΣ ΤΗΣ ΒΗΜΑΤΙΚΗΣ ΠΑΛΙΝΔΡΟΜΗΣΗΣ (STEPWISE REGRESSION)

10. ΠΟΛΛΑΠΛΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

υποδείγματος για την αξιολόγηση αυτοκινήτων με τεχνικές Data Mining.»

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών

ΕΛΕΓΧΟΣ ΠΑΡΑΓΩΓΙΚΩΝ ΔΙΕΡΓΑΣΙΩΝ

Τμήμα Μηχανικών Παραγωγής και Διοίκησης Χειμερινό Διδάσκων: Καθηγητής Παντελής Ν. Μπότσαρης Εργαστήρια/Ασκήσεις: Δρ.

2η Ενότητα Προετοιμασία & Ανάλυση Χρονοσειράς. -

Τεχνολογικό Εκπαιδευτικό Ίδρυμα Δυτικής Μακεδονίας Western Macedonia University of Applied Sciences Κοίλα Κοζάνης Kozani GR 50100

Ραδιομετρική Ενίσχυση - Χωρική Επεξεργασία Δορυφορικών Εικόνων

Εξόρυξη Γνώσης από Βιολογικά εδομένα

ΠΕΡΙΓΡΑΦΗ ΚΑΙ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ

Ευαισθησία της γραμμής παλινδρόμησης (Sensitivity of linear regression)

Χαλκίδης Νέστωρας, Τσαγιοπούλου Μαρία, Παπακωνσταντίνου Νίκος, Μωυσιάδης Θεόδωρος. Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης 2016

ΧΡΟΝΙΚΕΣ ΣΕΙΡΕΣ. Παπάνα Αγγελική

Περιγραφή των Δεδομένων

Επαγωγική Στατιστική. Εισαγωγή Βασικές έννοιες

Διπλωματική εργασία Θέμα: «Δημιουργία ευφυούς συστήματος για τη διαχείριση και διαλογή των ασθενών Τμήματος Επειγόντων Περιστατικών

Μενύχτα, Πιπερίγκου, Σαββάτης. ΒΙΟΣΤΑΤΙΣΤΙΚΗ Εργαστήριο 6 ο

Οικονομικό Πανεπιστήμιο Αθηνών. Διπλωματική Εργασία Μεταπτυχιακού Διπλώματος Ειδίκευσης. Άρης Κοσμόπουλος

Τηλεπισκόπηση - Φωτοερμηνεία

Κεφάλαιο 16 Απλή Γραμμική Παλινδρόμηση και Συσχέτιση

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΙΕΘΝΩΝ ΚΑΙ ΕΥΡΩΠΑΪΚΩΝ ΟΙΚΟΝΟΜΙΚΩΝ ΣΠΟΥ ΩΝ

ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΤΜΗΜΑ ΟΡΓΑΝΩΣΗΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΔΙΔΑΣΚΩΝ: ΘΑΝΑΣΗΣ ΚΑΖΑΝΑΣ. Οικονομετρία

ΤΜΗΜΑΕΠΙΧΕΙΡΗΜΑΤΙΚΟΥΣΧΕΔΙΑΣΜΟΥ & ΠΛΗΡΟΦΟΡΙΑΚΩΝΣΥΣΤΗΜΑΤΩΝ. ΤΕΧΝΙΚΕΣ ΠΡΟΒΛΕΨΕΩΝ& ΕΛΕΓΧΟΥ ΜΑΘΗΜΑ ΘΕΩΡΙΑΣ-ΣΤΑΣΙΜΕΣΔΙΑΔΙΚΑΣΙΕΣ-ΥΠΟΔΕΙΓΜΑΤΑ ARIMA (p,d,q)

Στατιστικές συναρτήσεις Γραφική και πινακοποιημένη αναπαράσταση δεδομένων (ιστόγραμμα) Διαχειριστής Σεναρίων Κινητός Μέσος σε Χρονοσειρές o o o

Αριθμητικά Συστήματα

ΕΜΠ ΔΠΜΣ Εφαρμοσμένες Μαθηματικές Επιστήμες Αλγόριθμοι Εξόρυξης Πληροφορίας. Διάλεξη 03: Προεπεξεργασία & Επιλογή Δεδομένων

ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ MSc Τραπεζικής & Χρηματοοικονομικής

ΒΑΣΙΚΑ ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ ΣΕΙΡΩΝ ΚΑΝΟΝΙΚΟΤΗΤΑ

Προβλέψεις ισοτιμιών στο EViews

ΠΡΟΒΛΗΜΑ ΑΥΤΟΣΥΣΧΕΤΙΣΤΩΝ ΣΦΑΛΜΑΤΩΝ

Παραβίασητωνβασικώνυποθέσεωντηςπαλινδρόμησης (Violation of the assumptions of the classical linear regression model)

2. ΧΡΗΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΠΑΚΕΤΩΝ ΣΤΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

Μεταπτυχιακό Πρόγραμμα Φυσικού Τμήματος «Υπολογιστική Φυσική» Θέμα εργασίας στο A Μέρος του μαθήματος «Προσομοίωση Χαοτικών Συστημάτων»

Οικονομετρία. Εξειδίκευση του υποδείγματος. Προσθήκη άσχετης μεταβλητής και παράλειψη σχετικής. Τμήμα: Αγροτικής Οικονομίας & Ανάπτυξης

ΚΕΦΑΛΑΙΟ 6 ΠΡΟΒΛΕΨΕΙΣ ΜΕ ΥΠΟΔΕΙΓΜΑΤΑ ΧΡΟΝΟΣΕΙΡΩΝ

Προεπεξεργασία Δεδομένων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκουσα: Μαρία Χαλκίδη

ΠΟΛΛΑΠΛΗ ΠΑΛΙΝΔΡΟΜΗΣΗ: ΑΣΚΗΣΕΙΣ

ΠΑΛΙΝΔΡΟΜΗΣΗ ΤΑΞΗΣ ΜΕΓΕΘΟΥΣ

Δείγμα πριν τις διορθώσεις

Έλεγχος Προγραμμάτων και Συστήματος

ΕΜΠ ΔΠΜΣ Εφαρμοσμένες Μαθηματικές Επιστήμες Αλγόριθμοι Εξόρυξης Πληροφορίας. Διάλεξη 04: Απεικόνιση Γνώσης, Αξιοπιστία & Αποτίμηση

E mail:

Διακριτικές Συναρτήσεις

Διερεύνηση περιβαλλοντικών χρονοσειρών με στατιστικές μεθόδους και τεχνικές εξόρυξης δεδομένων

Προϋποθέσεις : ! Και οι δύο µεταβλητές να κατανέµονται κανονικά και να έχουν επιλεγεί τυχαία.

ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΕΡΓΑΣΤΗΡΙΟ (SPSS)

Οδηγός Ανάλυσης Αξιοπιστίας και Εγκυρότητας Ψυχομετρικών Κλιμάκων με το SPSS

ΕΠΕΞΕΡΓΑΣΙΑ & ΑΝΑΛΥΣΗ ΙΑΤΡΙΚΩΝ ΣΗΜΑΤΩΝ

Διπλωματική Εργασία. Διαχείριση Γνώσης και Ασφάλεια Πληροφοριών

ΜΑΘΗΜΑ 4 ο. Μοναδιαία ρίζα

ΤΜΗΜΑ ΕΠΙΧΕΙΡΗΜΑΤΙΚΟΥ ΣΧΕΔΙΑΣΜΟΥ & ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ

ICAP GROUP S.A. ΑΝΑΘΕΩΡΗΣΗ ΜΑΚΡΟΟΙΚΟΝΟΜΙΚΩΝ ΥΠΟΔΕΙΓΜΑΤΩΝ

Περιγραφή των εργαλείων ρουτινών του στατιστικού

Παραδείγματα Απαλοιφή Gauss Απαλοιφή Gauss-Jordan Παραγοντοποίηση LU, LDU

ENOTHTA 8 IAXEIPIΣH KAI ΣYΣTHMATA APXEIΩN

Υπολογιστική Νοημοσύνη. Μάθημα 9: Γενίκευση

Transcript:

ΑΝΔΡΟΥΛΑΚΗΣ ΜΑΝΟΣ A.M. 09470015 AΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ Διδάσκων: Γιώργος Τζιραλής ΔΠΜΣ ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ

Στάδιο 1 ο. Προεπισκόπηση-προεπεξεργασία δεδομένων: Δίδονται τα παρακάτω δεδομένα που έχουμε προς επεξεργασία και ανάλυση και τα οποία είναι διαχωρισμένα σε τρία μέρη: 1. Σε δεδομένα εκπαίδευσης (training set) που αποτελούνται από 2528 υποδείγματα και 39 χαρακτηριστικά. 2. Σε δεδομένα επαλήθευσης (quiz set) που αποτελούνται από 1265 υποδείγματα και 39 χαρακτηριστικά. 3. Σε δεδομένα εξέτασης (test set) που αποτελούνται από1265 υποδείγματα και 39 χαρακτηριστικά. Γνωρίζουμε ότι κατά την ανάλυση ενός μεγάλου όγκου δεδομένων, ώστε να βρεθούν σχέσεις, αναμενόμενες και μη, ανάμεσα στα δεδομένα, είναι αρκετά χρήσιμο να γίνει μια πρώτη προεπεξεργασία, πριν την οποιαδήποτε εφαρμογή αλγορίθμων. Όσον αφορά το dataset training set, με το οποίο και θα δουλέψουμε αρχικά, παρατηρούμε τα εξής: Στo attribute38, κάθε instance έχει τιμή 0. Αυτό σημαίνει ότι είναι καλό να αφαιρεθεί. Παρατηρώντας το παρακάτω ιστόγραμμα για το attribute 38, ενισχύεται η άποψή μας: Τα attributes 36 και 34, έχουν από 15 και 1 αντίστοιχα καταχωρήσεις με 1, ενώ όλες οι υπόλοιπες είναι 0. Παραθέτουμε και τα δύο ιστογράμματα, για τα attributes 34 και 36 αντίστοιχα:

Αυτό σημαίνει ότι ίσως θα πρέπει να εκτελεστούν κάποιοι μέθοδοι παλινδρόμησης ώστε έπειτα να αποφασιστεί αν θα παραμείνουν τα συγκεκριμένα attributes, ή θα πρέπει να τα αφαιρέσουμε. Παρατηρούμε επίσης ότι missing values δεν υπάρχουν, αν και αυτό δε θα αποτελούσε πρόβλημα, καθότι στο Weka υπάρχει η δυνατότητα αντικατάστασης τους. Οπότε οδηγούμαστε στη δημιουργία ενός καινούργιου αρχείου, του train1, στο οποίο έχουμε αφαιρέσει τα attributes 34, 36, και 38. Εφαρμόζουμε στη συνέχεια linear regression, και στο train και στο train1, και συγκρίνουμε τα αποτελέσματα, για να ελέγξουμε αν καλώς πράξαμε: Για το train προκύπτει το ακόλουθο log-file: Correlation coefficient 0.743 Mean absolute error 0.2056 Root mean squared error 0.2847 Relative absolute error 56.8375 % Root relative squared error 66.9218 % Συνεχίζουμε με το train1 και παίρνουμε τα παρακάτω αποτελέσματα: Correlation coefficient 0.7423 Mean absolute error 0.2059 Root mean squared error 0.285

Relative absolute error 56.918 % Root relative squared error 66.9906 % Άρα είναι προφανές από τα σφάλματα παλινδρόμησης και τις τιμές των correlation coefficients ότι δεν επηρεάζει το μοντέλο η αφαίρεση των προαναφερθέντων attributes, άρα συνεχίζουμε έχοντας ως βάση το train1. Στάδιο 2 ο. Εφαρμογή αλγορίθμων στα training και quiz sets. Σε αυτό το σημείο, θα αναφέρουμε τους καλύτερους αλγόριθμους που χρησιμοποιήσαμε, βάσει των τιμών του correlation coefficient, των σφαλμάτων που καθένας δίνει και του ποσοστού πρόβλεψης. Η διαδικασία που ακολουθήσαμε ειναι η παρακάτω: Χρησιμοποιήσαμε διάφορους αλγορίθμους στο Weka, πρώτα στο training set και έπειτα στο quiz. Να σημειώσουμε ότι καταρχήν, το training set χρησιμοποιείται για τη δημιουργία μοντέλου, ενώ με τη χρήση cross-validation μπορεί να προκύψει και αξιόπιστη εκτίμηση του σφάλματος. Ωστόσο, το μοντέλο που προκύπτει δεν μπορεί να χρησιμοποιηθεί στο Weka για την εκπόνηση πρόβλεψης σε dataset διαφορετικού αριθμού χαρακτηριστικών, όπως το quiz set. Για αυτό το λόγο είναι αναγκαία η προσθήκη ενός πλαστού χαρακτηριστικού prediction, το οποίο και περιέχει το πρόσθετο attribute prediction με τιμή ίση με 0 σε όλα τα instances του quiz. Αυτό το αρχείο το αποθηκεύσαμε ως quizextended. Έπειτα, εφαρμόσαμε σε αυτό όλα τα βήματα προεπεξεργασίας που κάναμε στο training set, και συγκεκριμένα αφαιρέσαμε τις μεταβλητές 34, 36, και 38. Το καινούργιο αρχείο το αποθηκεύσαμε ως quizextended1 και με βάση αυτό θα δουλέψουμε. Εφαρμόσαμε τους αλγορίθμους πρώτα στο training set και έπειτα στο quizextended1 set οπότε και αποθηκεύσαμε τα predictions. Παρατήρηση: Δώσαμε μεγάλη σημασία στη συμβατότητα των επιλεγμένων αλγορίθμων με το class attribute, το οποίο και είναι numeric. Aυτό για το λόγο ότι

αρκετοί έχουν σαν προϋπόθεση για να μπορούν να χρησιμοποιηθούν, την ύπαρξη nominal μεταβλητής στόχου. Υπάρχουν τρόποι για να αντιμετωπιστεί αυτό, όπως με χρήση κάποιου φίλτρου, αλλά δε συνίσταται η αλλαγή του class attribute, οπότε και δεν έγινε κάτι τέτοιο. Έπειτα λοιπόν από αρκετούς πειραματισμούς και συνδυασμούς αλγορίθμων, καταλήξαμε στην παρακάτω καλύτερη τετράδα. Καταγράφουμε επίσης σε κάθε αλγόριθμο τα αποτελέσματα που πήραμε στο training set. Αλγόριθμος 1 EnsembleSelection Backward Elimination Correlation coefficient 0.8951 Mean absolute error 0.082 Root mean squared error 0.1901 Relative absolute error 22.658 % Root relative squared error 44.6943 % Αλγόριθμος 2 Bagging RegressionByDescretization J48 Correlation coefficient 0.9123 Mean absolute error 0.0615 Root mean squared error 0.1742 Relative absolute error 17.0029 % Root relative squared error 40.9434 %

Αλγόριθμος 3 RandomSubSpace RegressionByDescretization J48 Correlation coefficient 0.9154 Mean absolute error 0.0721 Root mean squared error 0.1722 Relative absolute error 19.9263 % Root relative squared error 40.4707 % Αλγόριθμος 4 RandomSubSpace RegressionByDescretization J48graft Correlation coefficient 0.9198 Mean absolute error 0.0685 Root mean squared error 0.1678 Relative absolute error 18.9252 % Root relative squared error 39.4458 % Οι παραπάνω αλγόριθμοι, έπειτα από την εφαρμογή τους στο quizextended1 set, θέτοντάς το ως supplied test set, έδωσαν τα εξής success rates:

Αλγόριθμος 1: 0,948 Αλγόριθμος 2: 0,953 Αλγόριθμος 3: 0,953 Αλγόριθμος 4: 0,955 Οπότε οδηγηθήκαμε στην επιλογή του αλγορίθμου RandomSubSpace RegressionByDescretization J48graft, καθότι μας έδωσε το υψηλότερο correlation coefficient, τα μικρότερα σφάλματα και τo καλύτερο success rate. Στάδιο 3 ο. Εφαρμογή του επιλεγμένου αλγορίθμου στο test set. Πριν την εφαρμογή του παραπάνω αλγορίθμου στο test set, πρέπει και σε αυτό να αφαιρεθούν οι μεταβλητές 34, 36 και 38, καθώς και να προσθέσουμε ένα πρόσθετο attribute prediction με τιμή ίση με 0 σε όλα τα instances του test set. Το τελικό αρχείο το αποθηκεύσαμε ως testextendedteliko. Οπότε χρησιμοποιήσαμε τον αλγόριθμο στο training set με cross-validation, και έπειτα τον εφαρμόσαμε πάλι, θέτοντας ως supplied test set το test και αναμένουμε τα αποτελέσματα. Το μόνο μας πρόβλημα, είναι ότι ο συνδυασμός των δύο meta αλγορίθμων, ίσως οδηγήσει σε overtraining, αλλά εμένουμε στην επιλογή μας, λόγω των πολύ καλών αποτελεσμάτων που πήραμε.