DATA MINING ΗΜΕΡΟΜΗΝΙΑ: 25/05/2009 TΕΛΙΚΗ ΕΡΓΑΣΙΑ ΝΙΚΗ ΜΟΣΧΟΥ
1 ΠΡΟΕΠΕΞΕΡΓΑΣΙΑ ΔΕΔΟΜΕΝΩΝ Αφού δεν γνωρίζουμε κάποιο τρόπο για να επιλέξουμε εκ των προτέρων την πιο κατάλληλη και αποδοτική μέθοδο μάθησης (ή έστω κατηγορία) δεν έχουμε προβεί σε ολικούς μετασχηματισμούς με σκοπό την καλύτερη προσαρμογή των δεδομένων σε κάποια συγκεκριμένη κατηγορία. Έχουμε προβεί όμως σε «σχετική αλλαγή» κάποιων δεδομένων μας έτσι ώστε συνολικά να προσαρμόζονται καλύτερα σε οποιαδήποτε κατηγορία και έχουμε αφαιρέσει τις μεταβλητές αυτές που δεν προσθέτουν σχετικά καμία πληροφορία. Περαιτέρω αλλαγές ή επεξεργασία θα μπορούσαν να γίνουν μόνο εάν είχαμε πληροφορίες για την φύση (είδος) των δεδομένων, κάτι το οποίο είναι βασικό για την οποιαδήποτε ανάλυση Τα καλύτερα αποτελέσματα επιτεύχθηκαν αφαιρώντας τις μεταβλητές 3,34,36,38 και αλλάζοντας τις 2,16 και 25 ΜΕΤΑΒΛΗΤΗ 3 Έχουμε αφαιρέσει την 3 διότι η τιμή της στο 99,7 % (2520/2528) των περιπτώσεων είναι -0,059041 attribute03 Total -0,059041 2520 0,266739 1 3,17251 1 3,41564 1 4,45762 1 7,02015 1 8,82381 1 16,4742 1 18,5634 1
2 ΜΕΤΑΒΛΗΤΗ 34 Έχουμε αφαιρέσει την 34 διότι η τιμή της στο 99,996% των περιπτώσεων είναι 0 attribute34 Total 0 2527 1 1 ΜΕΤΑΒΛΗΤΗ 36 Έχουμε αφαιρέσει την 36 διότι η τιμή της στο 99,4% των περιπτώσεων είναι 0 attribute36 Total 0 2513 1 15 ΜΕΤΑΒΛΗΤΗ 38 Έχουμε αφαιρέσει την 38 διότι η τιμή της είναι παντού 0 attribute38 Total 0 2528
3 ΜΕΤΑΒΛΗΤΗ 2 Έχει αλλαχθεί η μεταβλητή 2, η οποία αρχικά είχε 2436 (96,36% ) instances με την ίδια τιμή και 92 instances με 92 διαφορετικές τιμές. Για τα 92 instances δημιουργήθηκαν 2 νέες κατηγορίες με τους μέσους όρους Average Count of attribute02-0,99427763 38-0,118627 2436 3,401699 54 ΜΕΤΑΒΛΗΤΗ 16 Έχει αλλαχθεί η μεταβλητή 16, η οποία αρχικά είχε 2442 (96,59% ) instances με την ίδια τιμή και 86 instances με 86 διαφορετικές τιμές. Για τα 86 instances δημιουργήθηκε μια νέα κατηγορία με το μέσο όρο αυτών Row Labels Count of attribute16-0,049254 2442 6,502202116 86 ΜΕΤΑΒΛΗΤΗ 25 Έχει αλλαχθεί η μεταβλητή 25, η οποία αρχικά είχε 2457 (97,19% ) instances με την ίδια τιμή και 71 instances με 71 διαφορετικές τιμές. Για τα τελευταία instances δημιουργήθηκε μια νέα κατηγορία με το μέσο όρο αυτών Row Labels Count of attribute25-0,046694 2457 7,5062 71 ΓΕΝΙΚΟΣ ΚΑΝΟΝΑΣ: Αφαιρούμε τις μεταβλητές αυτές που έχουν την ίδια τιμή στο 99% των περιπτώσεων και πάνω και αλλάζουμε τις τιμές (χρησιμοποιώντας τους μέσους όρους) στις μεταβλητές που έχουν την ίδια τιμή περίπου στο 96% των περιπτώσεων.
4 Το τελικό train dataset περιλαμβάνει τις ακόλουθες μεταβλητές: 1,2,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,35, 37,39 Χρησιμοποιήθηκαν όλες οι κατηγορίες ταξινομητών και output (numeric and nominal), αλλά τα καλύτερα αποτελέσματα επιτεύχθηκαν στους meta αλγορίθμους. Θα δώσουμε στη συνέχεια κάποια παραδείγματα αλγορίθμων FUNCTION CLASSIFIERS Multilayer Perceptron Prediction: 0,5391 Correctly Classified Instances 404 30.9368 % Incorrectly Classified Instances 860 68.0631 % Kappa statistic -0.0061 Mean absolute error 0.6907 Root mean squared error 0.8058 Relative absolute error 144.5391 % Root relative squared error 156.0037 % LAZY CLASSIFIERS KStar -B 10 -M a Prediction: 0,8 Correctly Classified Instances 1073 84.8221 % Incorrectly Classified Instances 192 15.1779 % Kappa statistic -0.0364 Mean absolute error 0.3525 Root mean squared error 0.4689 Relative absolute error 121.7532 % Root relative squared error 142.2997 %
5 BAYES CLASSIFIERS Bayes Net Prediction: 0,9044 Correctly Classified Instances 903 70.3834% Incorrectly Classified Instances 361 18.6066% Kappa statistic -0.0336 Mean absolute error 0.189 Root mean squared error 0.508 Relative absolute error 99.80% Root relative squared error 57.080% RULES CLASSIFIERS JRip -F 3 -N 1.0 -O 1 -S 0 Prediction: 0,9281 Correctly Classified Instances 903 71.3834 % Incorrectly Classified Instances 362 28.6166 % Kappa statistic -0.0016 Mean absolute error 0.286 Root mean squared error 0.5299 Relative absolute error 98.7942 % Root relative squared error 160.7925 % TREES CLASSIFIERS ADTree Prediction: 0,947 Correctly Classified Instances 906 71.6206 % Incorrectly Classified Instances 359 28.3794 % Kappa statistic -0.0286 Mean absolute error 0.2878 Root mean squared error 0.4834 Relative absolute error 101.8766 % Root relative squared error 151.7068 %
6 META CLASSIFIERS ΑdaBoostM-RandomForest Prediction: 0,947 Correctly Classified Instances 906 71.6206 % Incorrectly Classified Instances 359 28.3794 % Kappa statistic -0.0286 Mean absolute error 0.284 Root mean squared error 0.5326 Relative absolute error 100.5488 % Root relative squared error 167.1269 % TREES CLASSIFIERS LADTree -B 00 Prediction: 0,9518 Correctly Classified Instances 912 72.0949 % Incorrectly Classified Instances 353 27.9051 % Kappa statistic -0.0461 Mean absolute error 0.283 Root mean squared error 0.4994 Relative absolute error 100.2013 % Root relative squared error 156.7233 % Τέλος, τα καλύτερα αποτελέσματα επιτυγχάνονται με τη χρησιμοποίηση του bagging και του REPTree Prediction: 0,9549 Correlation coefficient 0 Mean absolute error 0.2401 Root mean squared error 0.444 Relative absolute error 101.3182 % Root relative squared error 187.3867 %
7 Συνεπώς, εφαρμόζουμε τον συγκεκριμένο αλγόριθμο και στο τελικό test και λαμβάνουμε τα ακόλουθα αποτελέσματα Correlation coefficient 0 Mean absolute error 0.2067 Root mean squared error 0.3989 Relative absolute error 87.249 % Root relative squared error 168.33 %