ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΡΟΗ: ΣΤΑΤΙΣΤΙΚΗ-ΠΙΘΑΝΟΤΗΤΕΣ ΜΑΘΗΜΑ: ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ ΔΗΜΗΤΡΑ ΤΑΤΣΙΟΥ

Σχετικά έγγραφα
ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ

ΑΝΔΡΟΥΛΑΚΗΣ ΜΑΝΟΣ A.M AΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ

ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ (Data Mining) Πανδή Αθηνά

Ι. Preprocessing (Επεξεργασία train.arff):

ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

ΗΜΕΡΟΜΗΝΙΑ: 25/05/2009 TΕΛΙΚΗ ΕΡΓΑΣΙΑ ΝΙΚΗ ΜΟΣΧΟΥ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ

ιατµηµατικό Μεταπτυχιακό Πρόγραµµα Σπουδών ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ

squared error, Mean absolute error, Root mean squared error) µεγάλωσαν,

ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ

ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ: ΕΠΙΛΟΓΗ ΒΕΛΤΙΣΤΟΥ ΑΛΓΟΡΙΘΜΟΥ

Ζήτημα 1ο. Ζήτημα 2o. Τρέχουμε κάποιους αλγόριθμους. Ο OneR δίνει τους παρακάτω κανόνες

ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΤΞΗ ΠΛΗΡΟΦΟΡΙΑ

Τεχνικές Προβλέψεων. Προετοιμασία & Ανάλυση Χρονοσειράς

ΕΡΩΤΗΜΑ 1 ΕΡΩΤΗΜΑ 2. ELONGATEDNESS <= 41 AND MAX.LENGTH ASPECT RATIO <= 7 AND COMPACTNESS > 95: bus (70.0/1.0)

ΤΜΗΜΑΕΠΙΧΕΙΡΗΜΑΤΙΚΟΥΣΧΕΔΙΑΣΜΟΥ & ΠΛΗΡΟΦΟΡΙΑΚΩΝΣΥΣΤΗΜΑΤΩΝ

Διάλεξη 07: Αλγόριθμοι εκμάθησης ΜέροςΓ Συναρτήσεις & μετα-μαθησιακοί Αλγόριθμοι

Αναγνώριση Προτύπων Εργασία 1η Classification

ΠΕΙΡΑΜΑΤΙΚΕΣ ΠΡΟΣΟΜΟΙΩΣΕΙΣ ΚΕΦΑΛΑΙΟ 4. είναι η πραγματική απόκριση του j δεδομένου (εκπαίδευσης ή ελέγχου) και y ˆ j

Εισόδημα Κατανάλωση

Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώση

2o μέρος εργασίας (Αρχείο cpu)

Τεχνικές Προβλέψεων. 2η Ενότητα Προετοιμασία & Ανάλυση Χρονοσειράς

Εξόρυξη Γνώσης από Βιολογικά εδομένα

«Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα»

Διπλωματική Εργασία. Διαχείριση Γνώσης και Ασφάλεια Πληροφοριών

4.4 Βάσεις Δεδομένων με πολλές Μεταβλητές

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

ΕΜΠ ΔΠΜΣ Εφαρμοσμένες Μαθηματικές Επιστήμες Αλγόριθμοι Εξόρυξης Πληροφορίας. Διάλεξη02 ΣυνιστώσεςΔεδομένων Οπτικοποίηση&Εξερεύνηση

8. ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ ΔΕΔΟΜΕΝΩΝ

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

Υπερπροσαρμογή (Overfitting) (1)

4 o Μάθημα Διάστημα Εμπιστοσύνης του Μέσου

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών

4 o Μάθημα Διάστημα Εμπιστοσύνης του Μέσου

LOGO. Εξόρυξη Δεδομένων. Δειγματοληψία. Πίνακες συνάφειας. Καμπύλες ROC και AUC. Σύγκριση Μεθόδων Εξόρυξης

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ. ΜΑΘΗΜΑ 3ο

Ερωτήσεις κατανόησης στην Οικονομετρία (Με έντονα μαύρα γράμματα είναι οι σωστές απαντήσεις)

ΜΕΘΟΔΟΣ ΤΗΣ ΒΗΜΑΤΙΚΗΣ ΠΑΛΙΝΔΡΟΜΗΣΗΣ (STEPWISE REGRESSION)

ΤΜΗΜΑ ΕΠΙΧΕΙΡΗΜΑΤΙΚΟΥ ΣΧΕΔΙΑΣΜΟΥ & ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ. ΟΙΚΟΝΟΜΕΤΡΙΚΑ ΠΡΟΤΥΠΑ ΕΡΓΑΣΤΗΡΙΟ ΜΑΘΗΜΑ 1 ο ΕΡΓΑΣΤΗΡΙΟΥ ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΣΤΑΤΙΣΤΙΚΗΣ

Σχεδίαση μαθησιακών δραστηριοτήτων λογιστικά φύλλα υπερμεσικά περιβάλλοντα προσομοιώσεις

ICAP GROUP S.A. ΑΝΑΘΕΩΡΗΣΗ ΜΑΚΡΟΟΙΚΟΝΟΜΙΚΩΝ ΥΠΟΔΕΙΓΜΑΤΩΝ

ΤΟΜΕΑΣ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΑΣ (Τ. & Τ.Π.) ΕΡΓΑΣΤΗΡΙΟ ΕΝΣΥΡΜΑΤΟΥ ΤΗΛΕΠΙΚΟΙΝΩΝΙΑΣ

ΣΥΣΧΕΤΙΣΗ και ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

Μεταπτυχιακό Πρόγραμμα Φυσικού Τμήματος «Υπολογιστική Φυσική» Θέμα εργασίας στο A Μέρος του μαθήματος «Προσομοίωση Χαοτικών Συστημάτων»

ΤΙ ΕΙΝΑΙ ΣΤΑΤΙΣΤΙΚΗ; Στατιστική είναι η διαδικασία εξαγωγής πληροφορίας από τα δεδομένα. Διαχείριση Πληροφοριών 1.1

ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΕΡΓΑΣΤΗΡΙΟ (SPSS)

ΕΠΕΞΕΡΓΑΣΙΑ & ΑΝΑΛΥΣΗ ΙΑΤΡΙΚΩΝ ΣΗΜΑΤΩΝ

ΜΑΘΗΜΑ 3ο. Βασικές έννοιες

Στατιστική είναι το σύνολο των μεθόδων και θεωριών που εφαρμόζονται σε αριθμητικά δεδομένα προκειμένου να ληφθεί κάποια απόφαση σε συνθήκες

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Διαχείριση Υδατικών Πόρων

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

Μενύχτα, Πιπερίγκου, Σαββάτης. ΒΙΟΣΤΑΤΙΣΤΙΚΗ Εργαστήριο 6 ο

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

Πίνακας περιεχομένων. Κεφάλαιο 1 Λειτουργίες βάσης δεδομένων Κεφάλαιο 2 Συγκεντρωτικοί πίνακες Πρόλογος... 11

Διαστήματα Εμπιστοσύνης

ΠΟΛΛΑΠΛΗ ΠΑΛΙΝΔΡΟΜΗΣΗ: ΑΣΚΗΣΕΙΣ

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα. Ελεγκτική

ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ Έρευνα και Συγγραφή

Ανάλυση μεγάλων δεδομένων με χρήση εργαλείων εξόρυξης δεδομένων. Η περίπτωση μιας εφαρμογής υποστήριξης αποφάσεων εκλογικής ψήφου.

Τεχνικές Εξόρυξης Δεδομένων

ΔΗΜΟΚΡΙΤΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΡΑΚΗΣ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ. Μεταπτυχιακό πρόγραμμα ΑΣΚΗΣΗ ΚΑΙ ΠΟΙΟΤΗΤΑ ΖΩΗΣ ΠΛΗΡΟΦΟΡΙΑΚΟ ΕΝΤΥΠΟ ΜΑΘΗΜΑΤΟΣ

Στατιστικές συναρτήσεις Γραφική και πινακοποιημένη αναπαράσταση δεδομένων (ιστόγραμμα) Διαχειριστής Σεναρίων Κινητός Μέσος σε Χρονοσειρές o o o

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ. Ερωτήσεις πολλαπλής επιλογής. Συντάκτης: Δημήτριος Κρέτσης

ΠΡΟΤΑΣΗ ΟΜΑΔΑΣ ΕΡΓΑΣΙΑΣ ΠΕΔΜΕΔΕ ΣΑΤΕ ΓΙΑ ΤΟΝ ΠΡΟΣΔΙΟΡΙΣΜΟ ΑΣΥΝΗΘΙΣΤΑ ΧΑΜΗΛΩΝ ΠΡΟΣΦΟΡΩΝ (ΑΧΠ)

ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Τραπεζικής & Χρηματοοικονομικής

ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΜΠΣ Τραπεζικής & Χρηματοοικονομικής

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv

ΕΜΠ ΔΠΜΣ Εφαρμοσμένες Μαθηματικές Επιστήμες Αλγόριθμοι Εξόρυξης Πληροφορίας. Διάλεξη 03: Προεπεξεργασία & Επιλογή Δεδομένων

Κεφάλαιο 9. Έλεγχοι υποθέσεων

ΧΡΟΝΙΚΕΣ ΣΕΙΡΕΣ. Παπάνα Αγγελική

ΟΙΚΟΝΟΜΕΤΡΙΑ. Β μέρος: Ετεροσκεδαστικότητα. Παπάνα Αγγελική

Υπολογιστική Νοημοσύνη. Μάθημα 9: Γενίκευση

Stochastic Signals Class Estimation Theory. Andreas Polydoros University of Athens Dept. of Physics Electronics Laboratory

Διερεύνηση περιβαλλοντικών χρονοσειρών με στατιστικές μεθόδους και τεχνικές εξόρυξης δεδομένων

Οικονομικό Πανεπιστήμιο Αθηνών. Διπλωματική Εργασία Μεταπτυχιακού Διπλώματος Ειδίκευσης. Άρης Κοσμόπουλος

Αποθήκες και Εξόρυξη Δεδομένων

Data Analytics Και Ευφυή Συστήματα Πρόβλεψης Δεδομένων Σε Χρονοσειρά. Εφαρμογή Στον Εναρμονισμένο Δείκτη Τιμών Καταναλωτή.

Κεφάλαιο 9. Έλεγχοι υποθέσεων

ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ Ι Συμπληρωματικές Σημειώσεις Δημήτριος Παντελής

Χαλκίδης Νέστωρας, Τσαγιοπούλου Μαρία, Παπακωνσταντίνου Νίκος, Μωυσιάδης Θεόδωρος. Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης 2016

ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ MSc Τραπεζικής & Χρηματοοικονομικής

2. ΕΠΙΛΟΓΗ ΤΟΥ ΜΕΓΕΘΟΥΣ ΤΩΝ ΠΑΡΑΤΗΡΗΣΕΩΝ

Δέντρα Απόφασης (Decision(

ΜΑΘΗΜΑ 4 ο. Μοναδιαία ρίζα

ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΤΜΗΜΑ ΟΡΓΑΝΩΣΗΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΔΙΔΑΣΚΩΝ: ΘΑΝΑΣΗΣ ΚΑΖΑΝΑΣ. Οικονομετρία

Χρονικές σειρές 2 Ο μάθημα: Εισαγωγή στις χρονοσειρές

ΠΟΣΟΤΙΚΕΣ ΜΕΘΟΔΟΙ ΙI (ΣΤΑΤΙΣΤΙΚΗ ΓΙΑ ΤΗ ΔΙΟΙΚΗΣΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ) (ΟΔΕ 2116)

Σκοπός του κεφαλαίου είναι η κατανόηση των βασικών στοιχείων μιας στατιστικής έρευνας.

1991 US Social Survey.sav

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ Μονάδα Συστημάτων Προβλέψεων & Προοπτικής Forecasting System Unit

Διδάσκουσα: Χάλκου Χαρά,

Εισαγωγή στα Πληροφοριακά Συστήματα

Στατιστική Ι. Μέτρα Διασποράς (measures of dispersion) Δρ. Δημήτρης Σωτηρόπουλος

5. ΤΟ ΓΕΝΙΚΟ ΓΡΑΜΜΙΚΟ ΜΟΝΤΕΛΟ (GENERAL LINEAR MODEL) 5.1 Εναλλακτικά μοντέλα του απλού γραμμικού μοντέλου: Το εκθετικό μοντέλο

Από τα Δεδομένα στις Πληροφορίες - Μέρος Ι (Ταξινόμηση, Επιλογή, Μερικά Αθροίσματα)

Στατιστική, Άσκηση 2. (Κανονική κατανομή)

Transcript:

ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΡΟΗ: ΣΤΑΤΙΣΤΙΚΗ-ΠΙΘΑΝΟΤΗΤΕΣ ΜΑΘΗΜΑ: ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ ΔΗΜΗΤΡΑ ΤΑΤΣΙΟΥ

ΠΡΟΕΠΙΣΚΟΠΗΣΗ ΚΑΙ ΕΞΕΡΕΥΝΗΣΗ ΤΩΝ ΔΕΔΟΜΕΝΩΝ Τα προς επεξεργασία δεδομένα μπορούν να ταξινομηθούν στα παρακάτω μέρη: Στα δεδομένα εκπαίδευσης, training set που συνίσταται από 2528 υποδείγματα (instances) και 40 αριθμητικά χαρακτηριστικά (numeric attributes) εκ των οποίων το τελευταίο έχει οριστεί ως η μεταβλητή στόχος (output) Στα δεδομένα επαλήθευσης, quiz set που συνίσταται από 1265 υποδείγματα και 39 χαρακτηριστικά Στα δεδομένα εξέτασης, test set που συνίσταται από 1265 υποδείγματα και 39 χαρακτηριστικά Η κατανόηση της μορφής των δεδομένων είναι αρκετά σημαντική ώστε να θεωρηθεί ίσως πιο άμεσης σπουδαιότητας από τα ενδιάμεσα βήματα ενός αλγορίθμου εξόρυξης πληροφορίας. Στο σύνολο δεδομένων εκπαίδευσης του training set μπορούν να χρησιμοποιηθούν αρκετές τεχνοτροπίες προεπεξεργασίας δεδομένων, ώστε να οδηγηθούμε σε μια προεπιλογή χαρακτηριστικών. Ορισμένα απλά εργαλεία οπτικοποίησης αποδείχτηκαν ιδιαίτερα χρήσιμα στην εξερεύνηση των δεδομένων Από τα περιγραφικά χαρακτηριστικά και τα γραφήματα διαπιστώνουμε ότι κάποιες μεταβλητές παρουσιάζουν παρόμοια συμπεριφορά, οπότε έχουν την ίδια συμμετοχή στο τελικό αποτέλεσμα. Παράδειγμα οι μεταβλητές: 18 και 20, 16 και 19, 21 και 27.

attr18 attr20 Επίσης σε αρκετές μεταβλητές το μεγαλύτερο ποσοστό υποδειγμάτων εμφανίζει τις τιμές του συγκεντρωμένες σε συγκεκριμένο διάστημα και παρατηρείται μεγάλη απόκλιση στις τιμές από ένα πολύ μικρό πλήθος αυτών, που θα μπορούσαν να θεωρηθούν ως outliers. Επομένως αυτές οι μεταβλητές μπορούν να χαρακτηριστούν ως σταθερές δίχως πληροφοριακή αξία στο data set.

Έτσι οι μεταβλητές 34και 36 δεν φαίνεται να επηρεάζουν το αποτέλεσμα καθώς και η 38 μας οδηγεί στο συμπέρασμα ότι δεν έχει καμία αξία στην εξαγωγή συμπερασμάτων. Η attribute 34 παίρνει μόνο σε μία καταχώρηση την τιμή 1 ενώ σε όλες τις υπόλοιπες την τιμή 0 Η attribute 36 έχει σε όλες τις καταχωρήσεις της την τιμή 0 εκτός από 15 που έχει την τιμή 1. Η attribute 38 παίρνει την τιμή 0 σε όλα τα instances ΠΡΟΕΠΙΛΟΓΗ ΧΑΡΑΚΤΗΡΙΣΤΙΚΩΝ Οι παρατηρήσεις αυτές επαληθεύονται και από τους αλγόριθμους αξιολόγησης και επιλογής χαρακτηριστικών. Ως αξιολογητή χρησιμοποίησα τον CfsSubsetEval με τις εξής μεθόδους αναζήτησης: Best First: 10 μεταβλητές: 6,7,12,13,23,24,27,28,32,35 Genetic Search: 9 μεταβλητές: 6,7,12,19,23,24,27,28,32 Greedy Stepwise: 11 μεταβλητές: 6,7,12,13,23,24,27,28,32,35,36 Παρατήρησα ότι οι μεταβλητές 24,27,28,32 εμφανίζονταν και στις 3 μεθόδους αναζήτησης. Στη συνέχεια εφάρμοσα κάποιους κανόνες ομαδοποίησης και συσχέτισης των χαρακτηριστικών. Πειραματίστηκα αρκετά με προσθαφαίρεση των μεταβλητών και αυξάνοντας κατά διαστήματα το θόρυβο σε κάποιες από αυτές.

Στην αρχή με τη βοήθεια του αλγορίθμου M5Rules που βασίζεται σε κανόνες ταξινόμησης εκτιμούσα κατά περίπτωση τα αποτελέσματα βάσει του συντελεστή συσχέτισης και των αντίστοιχων σφαλμάτων. ΕΠΙΛΟΓΗ ΧΑΡΑΚΤΗΡΙΣΤΙΚΩΝ Έτσι κατέληξα στην επιλογή ενός data set με 10 χαρακτηριστικά, τα εξής: attr7,attr8,attr22,attr24,attr27,attr28,attr32,attr33,attr35, output. ΕΦΑΡΜΟΓΗ ΑΛΓΟΡΙΘΜΩΝ ΤΑΞΙΝΟΜΗΣΗΣ Με τη βοήθεια των φίλτρων και με Descretize μετέτρεψα τη μεταβλητή στόχο από numeric σε nominal έτσι ώστε να μπορώ να εφαρμόσω και τους υπόλοιπους από τους αλγόριθμους ταξινόμησης. Εφάρμοσα αρκετούς από τους απλούς αλγορίθμους που υπάρχουν στο Weka και έχοντας ως μέτρο απόδοσης την τιμή του σφάλματος (error rate) που βασίζεται στο ποσοστό της σωστής πρόβλεψης της τάξης των υποδειγμάτων, συμπέρανα ότι οι πιο αξιόλογοι είναι οι LADTree, J48graft, Random Forest, JRip, Ridor, PART. Καλύτερος εξ αυτών ο LADTree Αλγόριθμος 1. LADTree: Correctly Classified Instances 2437 96.4003% Incorrectly Classified Instances 91 3.5997% Kappa Statistic 0.8992 Mean absolute error 0.061 Root mean squared error 0.1682 Relative absolute error 39.5517% Στη συνέχεια πειραματίστηκα με τα Μετα-μαθησιακά σχήματα που βασίζονται στην κατασκευή πολλών εμπειρογνωμόνων και στην ανάδειξη της πλειοψηφούσας γνώμης. Έτσι βασίστηκα σε τεχνικές εμφωλίασης (bagging), ενδυνάμωσης (boosting), συσσώρευσης (stacking) και κώδικες διόρθωσης σφαλμάτων (ECOC). Τα αποτελέσματα ήταν καλύτερα. Παραθέτω μερικά:

Αλγόριθμος 2. AdaBoostM1 με classifier LADTree: Correctly Classified Instances 2444 96.6772% Incorrectly Classified Instances 84 3.3228% Kappa Statistic 0.9077 Mean absolute error 0.0374 Root mean squared error 0.1702 Relative absolute error 10.3207% Root relative squared error 40.0368% Αλγόριθμος 3. MultiBoostAB με classifier J48graft: Correctly Classified Instances 2436 96.3608% Incorrectly Classified Instances 92 3.6392% Kappa Statistic 0.8983 Mean absolute error 0.0366 Root mean squared error 0.1857 Relative absolute error 10.1318% Root relative squared error 43.6643% Αλγόριθμος 4. Vote με classifiers (J48graft, RandomForest, LADTree, Ridor, Jrip, PART): Correctly Classified Instances 2435 96.3212% Incorrectly Classified Instances 93 3.6788% Kappa Statistic 0.8975 Mean absolute error 0.0581 Root mean squared error 0.169 Relative absolute error 16.0537% Root relative squared error 39.7418%

Αλγόριθμος 5. Vote με classifiers (NaiveBayes, BFTree, J48graft, RandomForest, LADTree, Ridor, DTNB, Jrip, PART): Correctly Classified Instances 2431 96.163% Incorrectly Classified Instances 97 3.837% Kappa Statistic 0.8931 Mean absolute error 0.0682 Root mean squared error 0.1714 Relative absolute error 18.8604% Root relative squared error 40.3039% Ωστόσο ενδιαφέρει η πιθανή μελλοντική απόδοση σε νέα παραδείγματα και όχι η απόδοση στα ήδη δεδομένα υποδείγματα εκπαίδευσης. Προκειμένου να αποφευχθεί η υπερπροσαρμογή του μοντέλου και των προβλέψεων στα δεδομένα εκπαίδευσης χρησιμοποιούνται τα δεδομένα επαλήθευσης (quiz set). Το quiz set έχουμε επεξεργαστεί ώστε να είναι συμβατό με το training set. Διατηρήσαμε ακριβώς τις ίδιες μεταβλητές και επιπλέον προσθέσαμε μία πλαστή μεταβλητή nominal ως αντίστοιχη της μεταβλητής στόχου. Εφαρμόζοντας ακριβώς τους ίδιους αλγορίθμους στο νέο quiz set, θέτοντάς το ως supplied test set, έδωσαν αποτελέσματα με success rates: Αλγόριθμος 1: 0.9518 Αλγόριθμος 2: 0.9407 Αλγόριθμος 3: 0.9541 Αλγόριθμος 4: 0.9541 Αλγόριθμος 5: 0.9573 Την καλύτερη πρόβλεψη σύμφωνα με την κατάταξη έχει το σχήμα του Αλγορίθμου 5 Τα αντίστοιχα αποτελέσματα από την εφαρμογή του στο quiz set φαίνονται παρακάτω:

=== Evaluation on test set === === Summary === Correctly Classified Instances 959 75.8103 % Incorrectly Classified Instances 306 24.1897 % Kappa statistic -0.0016 Mean absolute error 0.2324 Root mean squared error 0.4204 Relative absolute error 97.8062 % Root relative squared error 176.6203 % Total Number of Instances 1265 Οπότε οδηγούμαστε στο συμπέρασμα να χρησιμοποιήσουμε τον αλγόριθμο meta Vote weka.classifiers(naivebayes, BFTree, J48graft, RandomForest, LADTree, Ridor, DTNB, Jrip, PART) που έδωσε το καλύτερο success rate ΕΦΑΡΜΟΓΗ ΤΟΥ ΕΠΙΛΕΓΜΕΝΟΥ ΑΛΓΟΡΙΘΜΟΥ ΣΤΟ test set Λόγω των καλών αποτελεσμάτων που έδωσε ο παραπάνω metaαλγόριθμος και του γεγονότος ότι βασίζεται σε σχήματα κωδικών διόρθωσης σφαλμάτων εξόδου έχοντας μόνο τον ενδοιασμό μήπως οδηγήσει σε overtraining αποφασίζουμε την εφαρμογή του στο test set. Ακολουθούμε την ίδια διαδικασία όπως και με το μετασχηματισμό των δεδομένων του quiz set, έτσι ώστε να δημιουργήσουμε ένα data set παρόμοιο με αυτό του training set. Θέτοντάς το ως supplied test set έχουμε τα παρακάτω αποτελέσματα: === Evaluation on test set === === Summary === Correctly Classified Instances 978 77.3123 % Incorrectly Classified Instances 287 22.6877 % Kappa statistic -0.0016 Mean absolute error 0.2149 Root mean squared error 0.4019 Relative absolute error 90.447 % Root relative squared error 168.8537 % Total Number of Instances 1265