Ι. Preprocessing (Επεξεργασία train.arff):

Σχετικά έγγραφα
ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ

ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΡΟΗ: ΣΤΑΤΙΣΤΙΚΗ-ΠΙΘΑΝΟΤΗΤΕΣ ΜΑΘΗΜΑ: ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ ΔΗΜΗΤΡΑ ΤΑΤΣΙΟΥ

ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ (Data Mining) Πανδή Αθηνά

ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ

ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ

ΗΜΕΡΟΜΗΝΙΑ: 25/05/2009 TΕΛΙΚΗ ΕΡΓΑΣΙΑ ΝΙΚΗ ΜΟΣΧΟΥ

ιατµηµατικό Μεταπτυχιακό Πρόγραµµα Σπουδών ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ

ΑΝΔΡΟΥΛΑΚΗΣ ΜΑΝΟΣ A.M AΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ

squared error, Mean absolute error, Root mean squared error) µεγάλωσαν,

ΕΡΩΤΗΜΑ 1 ΕΡΩΤΗΜΑ 2. ELONGATEDNESS <= 41 AND MAX.LENGTH ASPECT RATIO <= 7 AND COMPACTNESS > 95: bus (70.0/1.0)

Αναγνώριση Προτύπων Εργασία 1η Classification

ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΤΞΗ ΠΛΗΡΟΦΟΡΙΑ

Διάλεξη 07: Αλγόριθμοι εκμάθησης ΜέροςΓ Συναρτήσεις & μετα-μαθησιακοί Αλγόριθμοι

Ζήτημα 1ο. Ζήτημα 2o. Τρέχουμε κάποιους αλγόριθμους. Ο OneR δίνει τους παρακάτω κανόνες

Διδάσκουσα: Χάλκου Χαρά,

Διπλωματική Εργασία. Διαχείριση Γνώσης και Ασφάλεια Πληροφοριών

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Τεχνικές Προβλέψεων. Προετοιμασία & Ανάλυση Χρονοσειράς

ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ: ΕΠΙΛΟΓΗ ΒΕΛΤΙΣΤΟΥ ΑΛΓΟΡΙΘΜΟΥ

8. ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ ΔΕΔΟΜΕΝΩΝ

ΜΟΝΤΕΛΟΠΟΙΗΣΗ ΔΙΑΡΚΕΙΑΣ ΦΩΝΗΜΑΤΩΝ ΤΗΣ ΕΛΛΗΝΙΚΗΣ ΓΛΩΣΣΑΣ ΜΕ ΕΦΑΡΜΟΓΗ ΣΤΗ ΣΥΝΘΕΣΗ ΟΜΙΛΙΑΣ

«Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα»

ΤΟΜΕΑΣ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΑΣ (Τ. & Τ.Π.) ΕΡΓΑΣΤΗΡΙΟ ΕΝΣΥΡΜΑΤΟΥ ΤΗΛΕΠΙΚΟΙΝΩΝΙΑΣ

Εφαρμοσμένη Πληροφορική ΙΙ (Θ) Είσοδος/Έξοδος Μεταβλητές Τύποι Μεταβλητών Τελεστές και Προτεραιότητα Μετατροπές Μεταξύ Τύπων

Αποθήκες και Εξόρυξη Δεδομένων

LOGO. Εξόρυξη Δεδομένων. Δειγματοληψία. Πίνακες συνάφειας. Καμπύλες ROC και AUC. Σύγκριση Μεθόδων Εξόρυξης

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

ΠΕΙΡΑΜΑΤΙΚΕΣ ΠΡΟΣΟΜΟΙΩΣΕΙΣ ΚΕΦΑΛΑΙΟ 4. είναι η πραγματική απόκριση του j δεδομένου (εκπαίδευσης ή ελέγχου) και y ˆ j

Εξόρυξη Γνώσης από Βιολογικά εδομένα

4.4 Βάσεις Δεδομένων με πολλές Μεταβλητές

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών

ΚΕΦΑΛΑΙΟ 5. Matlab GUI για FWSVM και Global SVM

ΕΜΠ ΔΠΜΣ Εφαρμοσμένες Μαθηματικές Επιστήμες Αλγόριθμοι Εξόρυξης Πληροφορίας. Διάλεξη 03: Προεπεξεργασία & Επιλογή Δεδομένων

Τεχνικές Προβλέψεων. 2η Ενότητα Προετοιμασία & Ανάλυση Χρονοσειράς

Εξόρυξη Γνώσης από Δεδομένα

Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ. Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ»

ΤΜΗΜΑΕΠΙΧΕΙΡΗΜΑΤΙΚΟΥΣΧΕΔΙΑΣΜΟΥ & ΠΛΗΡΟΦΟΡΙΑΚΩΝΣΥΣΤΗΜΑΤΩΝ

Αικατερίνη Καμπάση, PhD. Τμήμα Προστασίας και Συντήρησης Πολιτισμικής Κληρονομιάς Α.Τ.Ε.Ι. Ιονίων Νήσων

2o μέρος εργασίας (Αρχείο cpu)

ΕΜΠ ΔΠΜΣ Εφαρμοσμένες Μαθηματικές Επιστήμες Αλγόριθμοι Εξόρυξης Πληροφορίας. Διάλεξη 04: Απεικόνιση Γνώσης, Αξιοπιστία & Αποτίμηση

Διπλωματική εργασία Θέμα: «Δημιουργία ευφυούς συστήματος για τη διαχείριση και διαλογή των ασθενών Τμήματος Επειγόντων Περιστατικών

Κατηγοριοποίηση. Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης. 2 ο Φροντιστήριο. Σκούρα Αγγελική

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

ΕΜΠ ΔΠΜΣ Εφαρμοσμένες Μαθηματικές Επιστήμες Αλγόριθμοι Εξόρυξης Πληροφορίας. Διάλεξη02 ΣυνιστώσεςΔεδομένων Οπτικοποίηση&Εξερεύνηση

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

Αριθμητική Ανάλυση & Εφαρμογές

Περιγραφή των Δεδομένων

Εισαγωγή στο Data Mining Από τα δεδομένα στη γνώση

«ΑΝΑΠΤΥΞΗ ΣΥΣΤΗΜΑΤΟΣ ΑΥΤΟΜΑΤΟΥ ΤΕΜΑΧΙΣΜΟΥ ΚΑΙ ΑΝΑΓΝΩΡΙΣΗΣΣ ΗΧΗΤΙΚΩΝ ΚΑΤΗΓΟΡΙΩΝ ΑΠΟ ΡΑΔΙΟΦΩΝΙΚΕΣ ΕΚΠΟΜΠΕΣ»

ΠΛΗΡΟΦΟΡΙΚΗ Ι JAVA Τμήμα θεωρίας με Α.Μ. σε 8 & 9 18/10/07

Ανάλυση μεγάλων δεδομένων με χρήση εργαλείων εξόρυξης δεδομένων. Η περίπτωση μιας εφαρμογής υποστήριξης αποφάσεων εκλογικής ψήφου.

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΕΠΑΝΑΛΗΠΤΙΚΟ ΔΙΑΓΩΝΙΣΜΑ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ

Αποθήκες και Εξόρυξη Δεδομένων

Υπολογιστική Νοημοσύνη. Μάθημα 9: Γενίκευση

GreekLUG Ελεύθερο Λογισμικό & Λογισμικό Ανοικτού Κώδικα

Γραφικά υπολογιστών Εργαστήριο 4 Εισαγωγή στις λίστες

Εργαστήριο «Τεχνολογία Πολιτισμικού Λογισμικού» Ενότητα. Επεξεργασία πινάκων

13/5/2015 ΟΥΡΕΣ ΠΡΟΤΕΡΑΙΟΤΗΤΑΣ. Δομές Δεδομένων. Ουρές Προτεραιότητας

Βελτιστοποίηση κατανομής πόρων συντήρησης οδοστρωμάτων Πανεπιστήμιο Πατρών - Πολυτεχνική Σχολή Τμήμα Πολιτικών Μηχανικών

Δέντρα Απόφασης (Decision(

1991 US Social Survey.sav

Εξαγωγή Καταστάσεων ΜΥΦ. Σε αυτό το εγχειρίδιο περιγράφεται η εξαγωγή αρχείου για τις συγκεντρωτικές καταστάσεις πελατώνπρομηθευτών

Σχεδιασμός εκτυπώσεων ERG

Συνοπτικός Οδηγός Χρήσης του MySQL Workbench

Ανακάλυψη Γνώσης από εδοµένα και Εξόρυξη Γνώσης στο εργαλείο WEKA

CRM για Εκπαιδευτικούς Φορείς

Δημιουργίας Ενεργειών

ΚΤΙΡΙΑΚΕΣ ΥΠΟΔΟΜΕΣ Α.Ε. Οδηγίες Λειτουργίας Πληροφοριακού Συστήματος ηλεκτρονικής διαχείρισης Αιτημάτων. v1.3 (23/11/2014)

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΕΠΑΝΑΛΗΠΤΙΚΟ ΔΙΑΓΩΝΙΣΜΑ ΟΝΟΜΑΤΕΠΩΝΥΜΟ:

Eισαγωγή στο λογισμικό QGis

ΤΕΙ Ιονίων Νήσων Εργαστηριακές Ασκήσεις στα Γεωγραφικά Συστήματα Πληροφοριών

Kεφ.2: Σχεσιακό Μοντέλο (επανάληψη) Κεφ.6.1: Σχεσιακή Άλγεβρα

Γνωρίστε το Excel 2007

ΟΥΡΕΣ ΠΡΟΤΕΡΑΙΟΤΗΤΑΣ

Συνοπτικό εγχειρίδιο χρήσης του Microsoft Visual Studio 2010

Δυαδικό Σύστημα Αρίθμησης

ModellingSpace. Εγχειρίδιο Χρήστη

SPSS. Βασικά στοιχεία

Προγραμματισμός και Χρήση Ηλεκτρονικών Υπολογιστών - Βασικά Εργαλεία Λογισμικού

ΕΛΛΗΝΙΚΗ ΜΑΘΗΜΑΤΙΚΗ ΕΤΑΙΡΕΙΑ

ΦΙΛΤΡΟ KALMAN ΔΙΑΚΡΙΤΟΥ ΧΡΟΝΟΥ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΑΤΕΥΘΥΝΣΗ: ΨΗΦΙΑΚΕΣ ΕΠΙΚΟΙΝΩΝΙΕΣ ΚΑΙ ΔΙΚΤΥΑ ΤΙΤΛΟΣ: ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΔΙΑΧΕΙΡΙΣΗΣ ΔΙΚΤΥΩΝ ΜΕ ΧΡΗΣΗ ΤΕΧΝΙΚΩΝ ΜΗΧΑΝΙΚΗΣ ΜΑΘΗΣΗΣ

ΑΡΧΗ 1ΗΣ ΣΕΛΙΔΑΣ Γ ΗΜΕΡΗΣΙΩΝ

Αρχεία Ένα αρχείο αποτελείται από μία σειρά ομοειδών δεδομένων που ονομάζονται λογικές εγγραφές (logical record)

Εισαγωγή στην επιστήμη των υπολογιστών

Οδηγός καταχώρισης σχεδίου δράσης σχολείου στην Ηλεκτρονική Πύλη Επαγγελματικής Μάθησης

Σφάλματα (errors) Σε κάθε υπολογισμό μιας πραγματικής ποσότητας υπάρχει σφάλμα

Υπολογιστικό Πρόβληµα

Λίγα λόγια από το συγγραφέα Κεφάλαιο 1: Βάσεις δεδομένων και Microsoft Access Κεφάλαιο 2: Microsoft Access

Οδηγός γρήγορης εκκίνησης

Σχεδιασμός εκτυπώσεων ERG

ΠΑΡΑΔΕΙΓΜΑ ΔΗΜΙΟΥΡΓΙΑΣ ΓΡΑΦΗΜΑΤΟΣ ΣΤΟ MICROSOFT EXCEL 2003

ΜΑΘΗΜΑ / ΤΑΞΗ : ΔΟΜΗΜΕΝΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ / ΕΠΑΛ ΣΕΙΡΑ: ΗΜΕΡΟΜΗΝΙΑ:

Εγχειρίδιο Χρήστη Φάση 1: Καταχώρηση Ειδικοτήτων

ΟΔΗΓΙΕΣ ΧΡΗΣΗΣ LIVETRIP TRAVELLER

Διαστήματα Εμπιστοσύνης

Α Διαγώνισμα 1 ου Τριμήνου στο μάθημα της Πληροφορικής Γ Γυμνασίου Ονοματεπώνυμο:...

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων»

Transcript:

Ονοματεπώνυμο: Κατερίνα Αργύρη Δ.Π.Μ.Σ: Εφαρμοσμένες Μαθηματικές Επιστήμες Ακαδ. Έτος: 2008-2009 1

Για την παρούσα εργασία διατίθενται τρία σύνολα δεδομένων: Δεδομένα Εκπαίδευσης (train set αρχείο train.arff): με 2528 το πλήθος υποδείγματα, 39 το πλήθος χαρακτηριστικά συν μία μεταβλητή output (μεταβλητή στόχος), Δεδομένα Επαλήθευσης (quiz set αρχείο quiz.arff): με 1265 το πλήθος υποδείγματα, 39 το πλήθος χαρακτηριστικά, Δεδομένα Εξέτασης (test set αρχείο test.arff): με 1265 το πλήθος υποδείγματα, 39 το πλήθος χαρακτηριστικά. Σκοπός: Η εξαγωγή μοτίβων πληροφοριών από το train set, η χρήση του quiz set για τον έλεγχο των εξαγομένων μας και τέλος η εφαρμογή τους στο test set προκειμένου να επιτύχουμε ακριβείς προβλέψεις για τη μεταβλητή στόχο. Η ακριβής διαδικασία έχει ως ακολούθως: Ι. Preprocessing (Επεξεργασία train.arff): Με την εντολή Visualize All καθίσταται σαφές ότι η μεταβλητή 38 δε μας προσφέρει κάποιου είδους πληροφορία οπότε αφού την επιλέξουμε, την κάνουμε χειροκίνητα Για περαιτέρω «φιλτράρισμα» επιλέγουμε το tab Select Attributes κι από κει με Attribute Evaluator CfsSubsetEval και εφαρμόζοντας τη μέθοδο GeneticSearch προκύπτουν οι μεταβλητές υψηλού ενδιαφέροντος 07,13,14,24,27,28,32,35 και σαφώς η output. Με την ενέργεια filter-unsupervised-attribute-remove διαγράφουμε τις λοιπές μεταβλητές προσέχοντας αν συμπληρώσουμε τα indices που μας ενδιαφέρουν (plus την target) να θέσουμε και την boolean invertselection true. Τρέχουμε δοκιμαστικά κάποιους αλγόριθμους ώστε να επιβεβαιώσουμε μέσω μιας απλής σύγκρισης των σφαλμάτων το αμελητέο κόστος που προκάλεσε η διαγραφή των επιλεγμένων μεταβλητών. Τέλος, χρησιμοποιώντας την ενέργεια filter-unsupervised-attribute- NumericToNominal, μετατρέπω από numeric σε nominal τη μεταβλητή output. Το ακόλουθο στιγμιότυπο του WEKA δείχνει το τελικό σύνολο εκπαίδευσης που αποθηκεύτηκε με το όνομα train_g.arff. 2

Σχήμα 1. Στιγμιότυπο του WEKA: Η τελική μορφή του συνόλου εκπαίδευσης ΙΙ. Επεξεργασία quiz.arff Επαναλαμβάνουμε με μεγάλη ακρίβεια την ίδια επεξεργασία στο σύνολο quiz.arff προκειμένου να μπορούμε να το χρησιμοποιήσουμε ως σύνολο ελέγχου. Έτσι αφού επιλέξουμε τα χαρακτηριστικά 07,13,14,24,27,28,32,35 προσθέτουμε ένα χαρακτηριστικό output το οποίο μετατρέπουμε από numeric σε nominal. Το ακόλουθο στιγμιότυπο του WEKA δείχνει το τελικό σύνολο επαλήθευσης το οποίο αποθηκεύτηκε με το όνομα quiz_g.arff. 3

Σχήμα 2. Στιγμιότυπο του WEKA: Η τελική μορφή του συνόλου επαλήθευσης. ΙΙΙ. Επιλογή Κατάλληλου Αλγόριθμου Εφαρμόστηκαν επιλεγμένοι αλγόριθμοι στο train set και με χρήση του quiz set ως supplied test set (test options). Ενδεικτικά αναφέρονται κάποιοι Classifiers που χρησιμοποιήθηκαν : Bayes NaiveBayes NaiveBayesSimple Functions MultilayerPerceptron Logistic SimpleLogistic 4

Trees J48 RandomTree UserClassifier Rules OneR PART DecisionTable ZeroR Meta AdaBoostM1 Bagging Stacking Vote Για την επιλογή του καταλληλότερου αλγόριθμου επιστρατεύτηκαν διάφορα κριτήρια όπως το υψηλό ποσοστό επιτυχίας των προβλέψεων της μεταβλητής στόχου, τα ποσοστά σφαλμάτων που παρέχει το WEKA (mean absolute error, root mean squared error, relative absolute error, root relative squared error), η ανθεκτικότητα της επιτυχίας πρόβλεψης σε προσθήκη θορύβου καθώς και το χαμηλό υπολογιστικό κόστος. Έτσι, ζητούμενο ήταν η εύρεση αλγορίθμου που δίνει μικρό σφάλμα για το σύνολο εκπαίδευσης και υψηλά ποσοστά επιτυχίας για το σύνολο επαλήθευσης. 5

Παρακάτω παρατίθενται ενδεικτικά τα τρεξίματα τριών από τους καλύτερους (ως προς το ποσοστό επιτυχίας των προβλέψεων της μεταβλητής και τα λοιπά προαναφερθέντα κριτήρια) αλγόριθμους και έπειτα αιτιολογείται η τελική επιλογή: αλγόριθμος τρέξιμο (10-fold cross-validation) επιτυχία πρόβλεψης (με quizset ως supplied test set) Bagging PART Correctly Classified Instances 94.6598 % Incorrectly Classified Instances 5.3402 % Kappa statistic 0.8509 Mean absolute error 0.0752 Root mean squared error 0.1952 Relative absolute error 20.789 % Root relative squared error 45.9107 % Total Number of Instances 2528 AdaBoostM1 J48 Correctly Classified Instances 94.3829 % Incorrectly Classified Instances 5.6171 % Kappa statistic 0.8434 Mean absolute error 0.0566 Root mean squared error 0.232 Relative absolute error 15.6593 % Root relative squared error 54.5717 % Total Number of Instances 2528 Logitboost M5P Correctly Classified Instances 91.693 % Incorrectly Classified Instances 8.307 % Kappa statistic 0.7626 Mean absolute error 0.0888 Root mean squared error 0.2779 Relative absolute error 24.5556 % Root relative squared error 65.3629 % Total Number of Instances 2528 Πίνακας 1. Οι επικρατέστεροι αλγόριθμοι. 0,9217 0,9225 0,9146 Ενώ και οι επικρατέστεροι αλγόριθμοι έδωσαν σχεδόν ισοδύναμες προβλέψεις η τελική επιλογή ήταν ο μεταμαθησιακός αλγόριθμος Bagging με ορισμένο Classifier 6

τον αλγόριθμο PART επειδή τα σφάλματα στη συγκεκριμένη περίπτωση ήταν χαμηλότερα και επιδείκνυε σταθερότερη συμπεριφορά σε προσθήκη θορύβου. ΙΙΙ. Επεξεργασία test set Ανοίγουμε το test.arff, ακολουθούμε τις ίδιες διαδικασίες επιλογής και αφού προσθέσουμε ένα χαρακτηριστικό με το όνομα output και το επεξεργαζόμαστε με τον ίδιο τρόπο που ακολουθήθηκε και στα train.arff, quiz.arff. Έπειτα το αποθηκεύουμε με το όνομα test_g.arff. IV. Εφαρμογή επιλεγμένου αλγόριθμου στο test set Τελικά εφαρμόζουμε τον Bagging με Classifier τον PART επιλέγοντας ως supplied test set το επεξεργασμένο σύνολο εξέτασης (test_g.arff). Έτσι, αφού επιλέξουμε τη δυνατότητα output predictions προκύπτει η τελική μας πρόβλεψη. 7