ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ

Σχετικά έγγραφα
Ι. Preprocessing (Επεξεργασία train.arff):

ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ (Data Mining) Πανδή Αθηνά

ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΡΟΗ: ΣΤΑΤΙΣΤΙΚΗ-ΠΙΘΑΝΟΤΗΤΕΣ ΜΑΘΗΜΑ: ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ ΔΗΜΗΤΡΑ ΤΑΤΣΙΟΥ

ΑΝΔΡΟΥΛΑΚΗΣ ΜΑΝΟΣ A.M AΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ

ΗΜΕΡΟΜΗΝΙΑ: 25/05/2009 TΕΛΙΚΗ ΕΡΓΑΣΙΑ ΝΙΚΗ ΜΟΣΧΟΥ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ

ιατµηµατικό Μεταπτυχιακό Πρόγραµµα Σπουδών ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ

ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ

squared error, Mean absolute error, Root mean squared error) µεγάλωσαν,

Εξόρυξη Γνώσης από Βιολογικά εδομένα

Διπλωματική Εργασία. Διαχείριση Γνώσης και Ασφάλεια Πληροφοριών

Αναγνώριση Προτύπων Εργασία 1η Classification

«Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα»

ΕΡΩΤΗΜΑ 1 ΕΡΩΤΗΜΑ 2. ELONGATEDNESS <= 41 AND MAX.LENGTH ASPECT RATIO <= 7 AND COMPACTNESS > 95: bus (70.0/1.0)

ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΤΞΗ ΠΛΗΡΟΦΟΡΙΑ

ΤΟΜΕΑΣ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΑΣ (Τ. & Τ.Π.) ΕΡΓΑΣΤΗΡΙΟ ΕΝΣΥΡΜΑΤΟΥ ΤΗΛΕΠΙΚΟΙΝΩΝΙΑΣ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

8. ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ ΔΕΔΟΜΕΝΩΝ

Ζήτημα 1ο. Ζήτημα 2o. Τρέχουμε κάποιους αλγόριθμους. Ο OneR δίνει τους παρακάτω κανόνες

LOGO. Εξόρυξη Δεδομένων. Δειγματοληψία. Πίνακες συνάφειας. Καμπύλες ROC και AUC. Σύγκριση Μεθόδων Εξόρυξης

«ΑΝΑΠΤΥΞΗ ΣΥΣΤΗΜΑΤΟΣ ΑΥΤΟΜΑΤΟΥ ΤΕΜΑΧΙΣΜΟΥ ΚΑΙ ΑΝΑΓΝΩΡΙΣΗΣΣ ΗΧΗΤΙΚΩΝ ΚΑΤΗΓΟΡΙΩΝ ΑΠΟ ΡΑΔΙΟΦΩΝΙΚΕΣ ΕΚΠΟΜΠΕΣ»

Διδάσκουσα: Χάλκου Χαρά,

Κατηγοριοποίηση. 3 ο Φροντιστήριο. Ε Ξ Ό Ρ Υ Ξ Η Δ Ε Δ Ο Μ Έ Ν Ω Ν Κ Α Ι Α Λ Γ Ό Ρ Ι Θ Μ Ο Ι Μ Ά Θ Η Σ Η ς. Σκούρα Αγγελική

υποδείγματος για την αξιολόγηση αυτοκινήτων με τεχνικές Data Mining.»

ΕΜΠ ΔΠΜΣ Εφαρμοσμένες Μαθηματικές Επιστήμες Αλγόριθμοι Εξόρυξης Πληροφορίας. Διάλεξη02 ΣυνιστώσεςΔεδομένων Οπτικοποίηση&Εξερεύνηση

Τεχνικές Προβλέψεων. Προετοιμασία & Ανάλυση Χρονοσειράς

ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ: ΕΠΙΛΟΓΗ ΒΕΛΤΙΣΤΟΥ ΑΛΓΟΡΙΘΜΟΥ

ΕΜΠ ΔΠΜΣ Εφαρμοσμένες Μαθηματικές Επιστήμες Αλγόριθμοι Εξόρυξης Πληροφορίας. Διάλεξη 03: Προεπεξεργασία & Επιλογή Δεδομένων

Κατηγοριοποίηση. Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης. 2 ο Φροντιστήριο. Σκούρα Αγγελική

SPSS Statistical Package for the Social Sciences

Τεχνικές Προβλέψεων. 2η Ενότητα Προετοιμασία & Ανάλυση Χρονοσειράς

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

Συνδυασμός Ταξινομητών χρησιμοποιώντας Μήτρες Αποφάσεων (Decision Templates) με εφαρμογή στην Ταξινόμηση Καρκινικών Δεδομένων ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

4. Αεροτριγωνισμός Προετοιμασία Δεδομένων Επίλυση Αεροτριγωνισμού

Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώση

ΤΜΗΜΑ ΕΠΙΧΕΙΡΗΜΑΤΙΚΟΥ ΣΧΕΔΙΑΣΜΟΥ & ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ. ΟΙΚΟΝΟΜΕΤΡΙΚΑ ΠΡΟΤΥΠΑ ΕΡΓΑΣΤΗΡΙΟ ΜΑΘΗΜΑ 1 ο ΕΡΓΑΣΤΗΡΙΟΥ ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΣΤΑΤΙΣΤΙΚΗΣ

ΕΜΠ ΔΠΜΣ Εφαρμοσμένες Μαθηματικές Επιστήμες Αλγόριθμοι Εξόρυξης Πληροφορίας. Διάλεξη 04: Απεικόνιση Γνώσης, Αξιοπιστία & Αποτίμηση

2o μέρος εργασίας (Αρχείο cpu)

Εξόρυξη Γνώσης από Δεδομένα

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

Πρόβλεψη Χρηματιστηριακών Μεγεθών με Τεχνικές Εξόρυξης Δεδομένων

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥ ΩΝ ΤΜΗΜΑΤΟΣ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ. ιπλωµατική Εργασία. της.

Αποθήκες εδομένων και Εξόρυξη εδομένων:

Ερωτήσεις κατανόησης στην Οικονομετρία (Με έντονα μαύρα γράμματα είναι οι σωστές απαντήσεις)

ΜΟΝΤΕΛΟΠΟΙΗΣΗ ΔΙΑΡΚΕΙΑΣ ΦΩΝΗΜΑΤΩΝ ΤΗΣ ΕΛΛΗΝΙΚΗΣ ΓΛΩΣΣΑΣ ΜΕ ΕΦΑΡΜΟΓΗ ΣΤΗ ΣΥΝΘΕΣΗ ΟΜΙΛΙΑΣ

Προγραμματισμός και Χρήση Ηλεκτρονικών Υπολογιστών - Βασικά Εργαλεία Λογισμικού

ΘΕΜΑΤΑ ΔΙΠΛΩΜΑΤΙΚΩΝ ΕΡΓΑΣΙΩΝ ΓΙΑ ΤΟ

ΤΜΗΜΑΕΠΙΧΕΙΡΗΜΑΤΙΚΟΥΣΧΕΔΙΑΣΜΟΥ & ΠΛΗΡΟΦΟΡΙΑΚΩΝΣΥΣΤΗΜΑΤΩΝ

Μετατροπή Εταιρίας σε Εταιρία ΕΛΠ

4.4 Βάσεις Δεδομένων με πολλές Μεταβλητές

Αποθήκες και Εξόρυξη Δεδομένων

Ανάλυση μεγάλων δεδομένων με χρήση εργαλείων εξόρυξης δεδομένων. Η περίπτωση μιας εφαρμογής υποστήριξης αποφάσεων εκλογικής ψήφου.

Εφαρμοσμένη Πληροφορική ΙΙ (Θ) Είσοδος/Έξοδος Μεταβλητές Τύποι Μεταβλητών Τελεστές και Προτεραιότητα Μετατροπές Μεταξύ Τύπων

Επιλογή παραμέτρων και χαρακτηριστικών ταξινομητή με χρήση της καμπύλης λειτουργίας δείκτη (ROC Curve)

2η Ενότητα Προετοιμασία & Ανάλυση Χρονοσειράς. -

ΠΑΡΑΡΤΗΜΑ: QUIZ ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ

Δέντρα Απόφασης (Decision(

ΕΙΣΑΓΩΓΗ ΔΕΔΟΜΕΝΩΝ ΑΠΟ EXCEL ΣΤΟ GRETL

Δομές Δεδομένων. Ενότητα 2: Στοίβες Εισαγωγή-Υλοποίηση ΑΤΔ Στοίβα με Πίνακα-Εφαρμογή Στοίβας: Αντίστροφη Πολωνική Γραφή. Καθηγήτρια Μαρία Σατρατζέμη

ΠΕΙΡΑΜΑΤΙΚΕΣ ΠΡΟΣΟΜΟΙΩΣΕΙΣ ΚΕΦΑΛΑΙΟ 4. είναι η πραγματική απόκριση του j δεδομένου (εκπαίδευσης ή ελέγχου) και y ˆ j

Τύποι δεδομένων, τελεστές, μεταβλητές

Διάλεξη 07: Αλγόριθμοι εκμάθησης ΜέροςΓ Συναρτήσεις & μετα-μαθησιακοί Αλγόριθμοι

SPSS. Βασικά στοιχεία

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΗΠΕΙΡΟΥ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ Τ.Ε.

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

Μεθοδολογία της Έρευνας και Εφαρμοσμένη Στατιστική

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ. Μηχανική μάθηση. Ενότητα 7: Metrics of Performance. Ιωάννης Τσαμαρδίνος Τμήμα Επιστήμης Υπολογιστών

Analyze/Forecasting/Create Models

Αλγόριθμοι Μηχανικής Μάθησης σε Πολυεπεξεργαστικά Περιβάλλοντα

Αρχεία Ένα αρχείο αποτελείται από μία σειρά ομοειδών δεδομένων που ονομάζονται λογικές εγγραφές (logical record)

Εξόρυξη Γνώσης - το εργαλείο WEKA

Τµήµα Πληροφορικής. Υλοποίηση LRU Cache ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ - ΕΡΓΑΣΙΑ 4. Φθινοπωρινό Εξάµηνο Διδάσκων: E. Μαρκάκης. Γενικά περί Caching

ΠΕΡΙΓΡΑΦΗ ΨΗΦΙΑΚΩΝ Ε ΟΜΕΝΩΝ ΚΑΙ ΜΕΘΟ ΟΛΟΓΙΑ ΕΠΙΛΥΣΗΣ ΤΗΣ ΑΣΚΗΣΗΣ 2

Σφάλματα (errors) Σε κάθε υπολογισμό μιας πραγματικής ποσότητας υπάρχει σφάλμα

Εισαγωγή στο MATLAB. Κολοβού Αθανασία, ΕΔΙΠ,

Statistics. hrs1 Number of hours worked last week. educ Highest year of school completed. sibs NUMBER OF BROTHERS AND SISTERS. N Valid

ΤΕΙ Ιονίων Νήσων Εργαστηριακές Ασκήσεις στα Γεωγραφικά Συστήματα Πληροφοριών

Ανακάλυψη Γνώσης από εδοµένα και Εξόρυξη Γνώσης στο εργαλείο WEKA

Διερεύνηση της Αξιοπιστίας και της Εγκυρότητας Ψυχομετρικής Κλίμακας με το λογισμικό SPSS

Αριθμητική Ανάλυση & Εφαρμογές

Αλγόριθμοι και Δομές Δεδομένων (IΙ) (γράφοι και δένδρα)

Σύντοµο Εγχειρίδιο Χρήσης. του Λογισµικού Στατιστικής Επεξεργασίας. SPSS for Windows v. 8.0

ΘΕΜΑ Α ΑΡΧΗ 1ΗΣ ΣΕΛΙΔΑΣ

Γραφικά υπολογιστών Εργαστήριο 4 Εισαγωγή στις λίστες

Περιγραφή των Δεδομένων

Αποθήκες και Εξόρυξη Δεδομένων

MOBILITY TOOL + ΝΟΕΜΒΡΙΟΣ 2014

10. ΠΟΛΛΑΠΛΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΗΣΗ

Ιωάννης Τσαούσης, Πανεπιστήμιο Κρήτης Τμήμα Ψυχολογίας

Πανεπιστήμιο Δυτικής Μακεδονίας. Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών. Ηλεκτρονική Υγεία. Εργαστήριο 4 ο : MATLAB

Μια πρόταση διδασκαλίας για το μάθημα του προγραμματισμού Η/Υ στο Λύκειο με τη μεθοδολογία STEM

ΒΙΟΣΤΑΤΙΣΤΙΚΗ Πρακτική με SPSS (1)

ΠΛΗΡΟΦΟΡΙΚΗ Ι JAVA Τμήμα θεωρίας με Α.Μ. σε 3, 7, 8 & 9 25/10/07

ΜΑΘΗΜΑ 3ο. Υποδείγματα μιας εξίσωσης

ΚΕΦΑΛΑΙΟ 5. Matlab GUI για FWSVM και Global SVM

Υπερπροσαρμογή (Overfitting) (1)

Κεφάλαιο 15. Παραγοντική ανάλυση διακύµανσης. Παραγοντική

Σεμινάριο Προηγμένα Θέματα Στατιστικής. Dr. Nikolaos Mittas Dr. Theodosios Theodosiou

Transcript:

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ Δ.Π.Μ.Σ. ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ ΧΟΥΧΟΥΜΗΣ ΙΩΑΝΝΗΣ

Το σύνολο των δεδομένων που μας έχει δοθεί περιέχεται σε 3 αρχεία με κατάληξη.arff, με αριθμητικές (numeric) τιμές για κάθε χαρακτηριστικό (attribute) : 1. train.arff Δεδομένα εκπαίδευσης (training set) 2528 υποδείγματα 39 χαρακτηριστικά (δυαδικά, ακέραια, πραγματικά) & ζητούμενο μεταβλητή στόχος (record label, good / bad) 2) quiz.arff Δεδομένα επαλήθευσης (quiz set) 1265 υποδείγματα (instances) 39 χαρακτηριστικά 3) test.arff Δεδομένα εξέτασης (test set) 1265 υποδείγματα (instances) 39 χαρακτηριστικά Για την επεξεργασία των δεδομένων και την εξαγωγή των αποτελεσμάτων χρησιμοποιήθηκε το open source software : Weka 3.6.0 (Data Mining Software in Java) http://www.cs.waikato.ac.nz/ml/weka/ Αρχικά θα εξετάσουμε μέσα από οπτικούς ελέγχους αν κάποια χαρακτηριστικά δεν μας παρέχουν επιπλέον πληροφορία και μπορούμε να τα διαγράψουμε. Δημιουργώντας τα ιστογράμματα συχνοτήτων για κάθε χαρακτηριστικό παρατηρούμε ότι μπορούμε να διαγράψουμε (χρησιμοποιώντας την εντολή Remove) το attribute 38 καθώς σε αυτό κάθε instance έχει τιμή ίση με 0. Επίσης και η εφαρμογή του φίλτρου: filters unsupervised attribute RemoveUseless διαγράφει το attribute 38.

Στο attribute 34 έχουμε 2527 instances με τιμή 0 και ένα instance με τιμή 1 οπότε μπορούμε να το διαγράψουμε και αυτό.

Στο attribute 36 έχουμε 2513 instances με τιμή 0 και 15 instances με τιμή 1 αντίστοιχα, οπότε ίσως μπορούμε να διαγράψουμε και το attribute 36 αλλά θα ήταν καλύτερα πρώτα να τρέξουμε κάποιους αλγόριθμους και να συγκρίνουμε τα ποσοστά επιτυχίας με ή χωρίς τη διαγραφή του πριν καταλήξουμε στην τελική απόφαση. Επίσης έγινε η χρησιμοποίηση διαφόρων φίλτρων για την επιλογή των χαρακτηριστικών όπως για παράδειγμα από το tab Select attributes του Weka επιλέγοντας Attribute Evaluator CfsSubsetEVal Search Method GreedyStepwise έχουμε ένα σύνολο με 11 attributes (6, 7, 12, 13, 23, 24, 27, 28, 32, 35, 36 ) από τα 39 ενώ επιλέγοντας Attribute Evaluator WrapperSubsetEval Search Method GeneticSearch

παίρνουμε ένα σύνολο από μόνο 4 attributes (1, 19, 20, 27) Τρέχοντας τον αλγόριθμο: classifiers rules M5Rules με Cross validation για διάφορες επιλογές χαρακτηριστικών πήραμε υψηλό συντελεστή συσχέτισης και χαμηλό σφάλμα στην περίπτωση όπου έχουμε διαγράψει τα attributes (34, 36, 38) για το training set το οποίο είχαμε αποθηκεύσει ως train_numeric343638.arff: === Cross-validation === Correlation coefficient 0.9058 Mean absolute error 0.0651 Root mean squared error 0.1802 Relative absolute error 17.9993 % Root relative squared error 42.3605 % Total Number of Instances 2528 Στη συνέχεια έγινε η προσθήκη ενός νέου πλαστού χαρακτηριστικού 'prediction' στο quiz set (για να είναι συμβατό με το training set) με τιμή ίση με 0 σε όλα τα instances του και αποθηκεύτηκε ως quizextnded.arff και εφαρμόστηκε ο παραπάνω αλγόριθμος θέτοντας αυτή τη φορά ως supplied test set το quizextnded.arff από όπου προέκυψαν τα παρακάτω αποτελέσματα: === Evaluation on test set === Correlation coefficient 0 Mean absolute error 0.2718 Root mean squared error 0.469 Relative absolute error 114.7134 % Root relative squared error 197.9197 % Total Number of Instances 1265 Ο αλγόριθμος αυτός έδωσε ποσοστό επιτυχίας 0.9423. Για να εφαρμοστούν κάποιοι αλγόριθμοι οι οποίοι απαιτούν η μεταβλητή στόχος να είναι nominal χρειάστηκε η μετατροπή της στο train.arff και το quiz.arff από numeric σε nominal με το φίλτρο: filters unsupervised attribute NumericToNominal -R last Στην περίπτωση του quiz.arff επειδή στο πλαστό χαρακτηριστικό 'prediction' που προστέθηκε κάθε τιμή είναι ίση με 0 για όλα τα instances η εφαρμογή του παραπάνω φίλτρου δίνει:

@relation quiz-weka.filters.unsupervised.attribute.add-nunnamed- Clast-weka.filters.unsupervised.attribute.NumericToNominal-Rlast @attribute attr01 numeric @attribute attr02 numeric @attribute attr03 numeric... @attribute attr37 numeric @attribute attr38 numeric @attribute attr39 numeric @attribute output {0} το οποίο δημιουργεί ασυμβατότητα μεταξύ train set και quiz set έχοντας ως supplied test το quiz.arff. Έτσι χρειάστηκε να επεξεργαστούμε το quiz.arff ανοίγοντας το με έναν text editor και αλλάζοντας την γραμμή @attribute output {0} σε @attribute output {0, 1} το οποίο αποθηκεύτηκε ως quizextended_nominal.arff Εφαρμόστηκαν συνολικά 84 αλγόριθμοι (από τους οποίους οι 15 ήταν metaαλγόριθμοι) στους οποίους είχαν αφαιρεθεί είτε τα attributes (34, 36, 38) είτε τα attributes (34, 38).Aπό τα success rate που πήραμε αποφασίστηκε η μη διαγραφή του attribute 36 διότι π.χ. ο αλγόριθμος: classifiers trees RandomForest με την διαγραφή των attributes (34,38) έδωσε ποσοστό 0,9494 ενώ με την διαγραφή των (34, 36, 38) έδωσε χαμηλότερη τιμή 0,9462. Μετά την επιλογή να διαγραφούν τα attributes (34,38) και την μετατροπή της μεταβλητής στόχου σε nominal αποθηκεύτηκε το quiz.arff ως quizextended_nominal3438.arff

Από τους αλγόριθμους που δοκιμάστηκαν ο : classifiers meta Bagging LADTree έδωσε το μεγαλύτερο ποσοστό επιτυχίας 0.9549 (δηλαδή 1208 σωστές προβλέψεις στις 1265) έχοντας ως suplied test το quizextended_nominal3438.arff και πήραμε τα παρακάτω αποτελέσματα: === Stratified cross-validation === Correctly Classified Instances 2447 96.7959 % Incorrectly Classified Instances 81 3.2041 % Kappa statistic 0.9105 Mean absolute error 0.0635 Root mean squared error 0.1617 Relative absolute error 17.5682 % Root relative squared error 38.0272 % Total Number of Instances 2528 === Detailed Accuracy By Class === TP Rate FP Rate Precision Recall F-Measure ROC Area Class 0.983 0.082 0.975 0.983 0.979 0.991 0 0.918 0.017 0.945 0.918 0.931 0.991 1 Weighted Avg. 0.968 0.066 0.968 0.968 0.968 0.991 === Confusion Matrix === a b <-- classified as 1897 32 a = 0 49 550 b = 1. === Evaluation on test set === Correctly Classified Instances 951 75.1779 % Incorrectly Classified Instances 314 24.8221 % Kappa statistic 0 Mean absolute error 0.2677 Root mean squared error 0.4646 Relative absolute error 112.8769 % Root relative squared error 195.8993 % Total Number of Instances 1265

=== Detailed Accuracy By Class === TP Rate FP Rate Precision Recall F-Measure ROC Area Class 0.752 0 1 0.752 0.858? 0 0 0.248 0 0 0? 1 Weighted Avg. 0.752 0 1 0.752 0.858 0 === Confusion Matrix === a b <-- classified as 951 314 a = 0 0 0 b = 1 Ο παραπάνω αλγόριθμος εφαρμόστηκε ξανά έχοντας ώς supplied test set τώρα το test set στο οποίο έγιναν οι εξής τροποποιήσεις ( προσθήκη ενός νέου πλαστού χαρακτηριστικού 'prediction' με τιμή ίση με 0 σε όλα τα instances του, διαγραφή των attributes 34, 38 και μετατροπή της μεταβλητής στόχου σε nominal )και αποθηκεύτηκε ως testextended_nominal3438.arff όπου προέκυψαν τα παρακάτω αποτελέσματα και πήραμε την τελική πρόβλεψη για τη μεταβλητή στόχο. === Evaluation on test set === Correctly Classified Instances 967 76.4427 % Incorrectly Classified Instances 298 23.5573 % Kappa statistic 0 Mean absolute error 0.2495 Root mean squared error 0.4443 Relative absolute error 105.1962 % Root relative squared error 187.3369 % Total Number of Instances 1265 === Detailed Accuracy By Class === TP Rate FP Rate Precision Recall F-Measure ROC Area Class 0.764 0 1 0.764 0.866? 0 0 0.236 0 0 0? 1 Weighted Avg. 0.764 0 1 0.764 0.866 0

=== Confusion Matrix === a b <-- classified as 967 298 a = 0 0 0 b = 1