ΕΡΩΤΗΜΑ 1 Κάνοντας Visualize all στο παρατηρούμε ότι όλα τα 20 attributes είναι σημαντικά στο train set και το output είναι nominal Cross validation με δοκιμή διάφορων αλγορίθμων για το train set επιλογή ανάλογα με το ποσοστό Correctly Classified Instances 1. Bagging->RepTree 73.4667 % 2. AdaBoostM1 70.6667 % 3. Bagging -> J48 81.6 % 4. AttributeSelectedClassifier->J48 88.8 % Δοκιμάζοντας και κανόνες και δένδρα επιπλέον τα καλύτερα αποτελέσματα τα έδινε AttributeSelectedClassifier->J48. Ανεβάζω το test set στο Supply και κάνω το ίδιο. Τα αποτελέσματα είναι στο σχετικό αρχείο Lygkoni_Eirini.xls. Τα attributes που επιλέχθηκαν είναι: checking_status duration credit_history purpose credit_amount savings_status employment installment_commitment personal_status other_parties residence_since property_magnitude age other_payment_plans housing existing_credits job num_dependents own_telephone foreign_worker class ΕΡΩΤΗΜΑ 2 Υλοποιώντας τον αλγόριθμο PART προκύπτουν 29 κανόνες. Ο καθένας έχει την δική του ερμηνεία. Παρακάτω ακολουθούν όλοι οι κανόνες και για παράδειγμα θα ερμηνεύσουμε μερικούς. MAX.LENGTH ASPECT RATIO <= 7 AND COMPACTNESS > 95: bus (70.0/1.0)
Ο παραπάνω κανόνας μας λέει πως αν το αμάξι έχει ELONGATEDNESS μικρότερη ή ίση του 41 και ASPECT RATIO μικρότερο ή ίσο του 7 και COMPACTNESS μεγαλύτερο του 95 το αμάξι είναι λεωφορείο. Παρατηρούμε ότι από τα 70 υποδείγματα μόνο 1 είναι λάθος. Η αξιοπιστία του είναι πάρα πολύ καλή. SCALED VARIANCE_MINOR <= 721 AND HOLLOWS RATIO <= 195 AND MAX.LENGTH ASPECT RATIO > 8 AND KURTOSIS ABOUT_MINOR > 185: opel (23.0) SCALED VARIANCE_MINOR <= 721 AND COMPACTNESS <= 109 AND SKEWNESS ABOUT_MAJOR > 67 AND COMPACTNESS > 106: saab (24.0/1.0) SCALED VARIANCE_MINOR > 721: opel (23.0/1.0) COMPACTNESS > 109: saab (16.0) Αν ELONGATEDNESS μικρότερο ή ίσο του 41 και PR.AXIS ASPECT RATIO μικρότερο ή ίσο του 68 και COMPACTNESS μεγαλύτερη του 109το αμάξι είναι saab. Ισχύει μόνο για 16 υποδείγματα. PR.AXIS ASPECT RATIO <= 57 AND HOLLOWS RATIO > 197: opel (9.0) DISTANCE CIRCULARITY > 103 AND PR.AXIS RECTANGULARITY <= 24 AND ELONGATEDNESS > 30 AND PR.AXIS RECTANGULARITY > 22 AND COMPACTNESS > 97 AND PR.AXIS RECTANGULARITY > 23: saab (18.0/3.0)
SKEWNESS ABOUT_MINOR > 12 AND KURTOSIS ABOUT_MAJOR > 3 AND KURTOSIS ABOUT_MINOR <= 198: saab (16.0) SKEWNESS ABOUT_MINOR > 10 AND SKEWNESS ABOUT_MAJOR <= 69: opel (16.0/1.0) MAX.LENGTH ASPECT RATIO > 7: opel (132.0/65.0) Ο παραπάνω κανόνας δεν είναι πολύ καλός αφού από τα 132 υποδείγματα τα 65 είναι λάθος. MAX.LENGTH ASPECT RATIO > 8 AND HOLLOWS RATIO > 189 AND SKEWNESS ABOUT_MAJOR > 63: van (107.0/2.0) Η ερμηνεία του κανόνα είναι ότι αν το MAX.LENGTH ASPECT RATIO είναι μεγαλύτερο του 8 και το HOLLOWS RATIO είναι μεγαλύτερο του 189 και SKEWNESS ABOUT_MAJOR μεγαλύτερο του 63 τότε το αμάξι είναι van. Από τα 107 υποδείγματα που έχουν εξεταστεί τα 2 είναι μόνο λάθος. SCALED VARIANCE_MINOR > 309 AND DISTANCE CIRCULARITY <= 76 AND SKEWNESS ABOUT_MINOR <= 10 AND SKEWNESS ABOUT_MAJOR > 64 AND CIRCULARITY > 41: bus (107.0/1.0) PR.AXIS ASPECT RATIO > 63 AND ELONGATEDNESS <= 47 AND MAX.LENGTH ASPECT RATIO <= 7 AND KURTOSIS ABOUT_MAJOR <= 23 AND SCALED RADIUS OF GYRATION <= 185: bus (35.0) SCATTER RATIO > 144 AND PR.AXIS ASPECT RATIO <= 62 AND MAX.LENGTH ASPECT RATIO <= 8 AND PR.AXIS ASPECT RATIO <= 61: opel (60.0/29.0) SCALED VARIANCE_MAJOR <= 173 AND COMPACTNESS <= 82 AND COMPACTNESS <= 81 AND KURTOSIS ABOUT_MAJOR > 4: opel (12.0) SCALED VARIANCE_MAJOR <= 173 AND COMPACTNESS > 82 AND KURTOSIS ABOUT_MAJOR <= 19 AND SCATTER RATIO <= 142 AND
PR.AXIS RECTANGULARITY <= 17 AND SKEWNESS ABOUT_MINOR <= 18: van (30.0/1.0) SCALED VARIANCE_MAJOR > 173 AND PR.AXIS ASPECT RATIO <= 69 AND COMPACTNESS > 91: saab (8.0/1.0) SCALED VARIANCE_MAJOR <= 173 AND MAX.LENGTH RECTANGULARITY > 138 AND PR.AXIS RECTANGULARITY <= 18 AND ELONGATEDNESS > 47: van (33.0) PR.AXIS ASPECT RATIO > 65 AND PR.AXIS ASPECT RATIO <= 70: van (4.0) KURTOSIS ABOUT_MAJOR <= 17 AND PR.AXIS ASPECT RATIO > 58: van (12.0) ELONGATEDNESS > 46 AND MAX.LENGTH ASPECT RATIO > 4 AND SCALED RADIUS OF GYRATION <= 124 AND KURTOSIS ABOUT_MAJOR <= 28 AND MAX.LENGTH RECTANGULARITY > 124: van (9.0) MAX.LENGTH ASPECT RATIO <= 4: saab (7.0) RADIUS RATIO <= 120 AND CIRCULARITY <= 38: saab (6.0/1.0) RADIUS RATIO > 120 AND SCALED VARIANCE_MAJOR <= 163: opel (39.0/18.0) ELONGATEDNESS > 48: van (5.0) ELONGATEDNESS <= 44 AND COMPACTNESS > 89 AND PR.AXIS RECTANGULARITY > 19: saab (4.0/1.0) ELONGATEDNESS <= 44 AND PR.AXIS ASPECT RATIO <= 68: opel (5.0) SCALED VARIANCE_MAJOR <= 174: saab (12.0/3.0): bus (4.0)
Αποφύγαμε να ερμηνεύσουμε τους μεγάλους κανόνες. Οι κανόνες με το χρώμα κόκκινο δεν είναι αξιόπιστοι αντίθετα με τους πράσινους οι οποίοι είναι και αυτοί που επιλέγουμε. Όμοια τρέχουμε και τον αλγόριθμο JRIP. Προκύπτουν 17 κανόνες από αυτούς επιλέγουμε μόνο εκείνους με το χρώμα πράσινο. (ELONGATEDNESS >= 43) and (MAX.LENGTH ASPECT RATIO >= 9) and (DISTANCE CIRCULARITY >= 73) => Class=van (86.0/0.0) (SCALED VARIANCE_MINOR <= 309) and (MAX.LENGTH RECTANGULARITY >= 132) and (DISTANCE CIRCULARITY <= 64) and (SCALED RADIUS OF GYRATION <= 157) => Class=van (23.0/0.0) (PR.AXIS RECTANGULARITY <= 18) and (MAX.LENGTH RECTANGULARITY >= 128) and (SCALED RADIUS OF GYRATION <= 140) => Class=van (42.0/6.0) (SCALED VARIANCE_MINOR <= 309) and (MAX.LENGTH RECTANGULARITY >= 142) => Class=van (33.0/5.0) (ELONGATEDNESS >= 53) and (SCALED RADIUS OF GYRATION >= 137) => Class=van (15.0/5.0) (SCALED VARIANCE_MAJOR <= 177) and (MAX.LENGTH ASPECT RATIO >= 10) => Class=van (8.0/1.0) (MAX.LENGTH ASPECT RATIO >= 8) and (MAX.LENGTH RECTANGULARITY >= 173) => Class=opel (45.0/8.0) (MAX.LENGTH ASPECT RATIO >= 8) and (COMPACTNESS <= 103) and (ELONGATEDNESS <= 37) and (HOLLOWS RATIO <= 195) => Class=opel (14.0/0.0) (MAX.LENGTH ASPECT RATIO >= 8) and (HOLLOWS RATIO <= 198) and (KURTOSIS ABOUT_MINOR >= 189) => Class=opel (42.0/17.0) (SKEWNESS ABOUT_MAJOR <= 67) and (HOLLOWS RATIO <= 203) => Class=opel (66.0/30.0) (SCALED RADIUS OF GYRATION <= 142) and (HOLLOWS RATIO <= 194) and (DISTANCE CIRCULARITY >= 57) => Class=opel (17.0/2.0) (MAX.LENGTH ASPECT RATIO >= 9) and (DISTANCE CIRCULARITY >= 100) and (SCALED VARIANCE_MAJOR <= 231) => Class=saab (71.0/9.0) (MAX.LENGTH ASPECT RATIO >= 9) and (PR.AXIS ASPECT RATIO <= 61) => Class=saab (23.0/7.0) (SCALED VARIANCE_MAJOR <= 165) and (DISTANCE CIRCULARITY <= 66) => Class=saab (36.0/11.0)
(SKEWNESS ABOUT_MAJOR <= 72) and (PR.AXIS ASPECT RATIO <= 65) and (DISTANCE CIRCULARITY >= 81) and (SKEWNESS ABOUT_MAJOR >= 66) => Class=saab (27.0/7.0) (CIRCULARITY <= 40) and (RADIUS RATIO <= 144) => Class=saab (16.0/6.0) => Class=bus (282.0/69.0) θα μπορούσαμε να τρέξουμε και αλγόριθμους όπως δένδρα.