ΑΝΤΙΜΕΤΩΠΙΣΗ ΕΛΛΙΠΩΝ ΤΙΜΩΝ ΣΕ ΠΡΟΒΛΗΜΑΤΑ ΕΞΟΡΥΞΗΣ ΔΕΔΟΜΕΝΩΝ

Transcript

1 ΤΜΗΜΑ ΜΑΘΗΜΑΤΙΚΩΝ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ «ΜΑΘΗΜΑΤΙΚΑ ΚΑΙ ΣΥΓΧΡΟΝΕΣ ΕΦΑΡΜΟΓΕΣ» ΑΝΤΙΜΕΤΩΠΙΣΗ ΕΛΛΙΠΩΝ ΤΙΜΩΝ ΣΕ ΠΡΟΒΛΗΜΑΤΑ ΕΞΟΡΥΞΗΣ ΔΕΔΟΜΕΝΩΝ ΜΕΤΑΠΤΥΧΙΑΚΗ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ ΣΤΑΜΟΥΛΗ ΙΩΑΝΝΑ Επιβλέπων: Λέκτορας Σωτήρης Β. Κωτσιαντής Πάτρα, Δεκέμβριος 2015

2

3 ΤΜΗΜΑ ΜΑΘΗΜΑΤΙΚΩΝ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ «ΜΑΘΗΜΑΤΙΚΑ ΚΑΙ ΣΥΓΧΡΟΝΕΣ ΕΦΑΡΜΟΓΕΣ» ΑΝΤΙΜΕΤΩΠΙΣΗ ΕΛΛΙΠΩΝ ΤΙΜΩΝ ΣΕ ΠΡΟΒΛΗΜΑΤΑ ΕΞΟΡΥΞΗΣ ΔΕΔΟΜΕΝΩΝ ΜΕΤΑΠΤΥΧΙΑΚΗ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ ΣΤΑΜΟΥΛΗ ΙΩΑΝΝΑ Επιβλέπων: Λέκτορας Σωτήρης Β. Κωτσιαντής Εγκρίθηκε από την τριμελή επιτροπή την 21 η Δεκεμβρίου 2015 (Υπογραφή) (Υπογραφή) (Υπογραφή).... Σωτήρης Κωτσιαντής Όμηρος Ράγγος Δημήτριος Καββαδίας Λέκτορας Επίκουρος Καθηγητής Επίκουρος Καθηγητής Πάτρα, Δεκέμβριος 2015

4 Πανεπιστήμιο Πατρών, Τμήμα Μαθηματικών Σταμούλη Ιωάννα Με την επιφύλαξη παντός δικαιώματος.

5 Περίληψη Ο αιώνας που διανύουμε έχει χαρακτηριστεί ως αιώνας της πληροφορίας. Για το λόγο αυτό η συλλογή πληροφοριών και δεδομένων καθώς και η εξόρυξη γνώσης χρησιμοποιούνται σε πολλούς τομείς της σύγχρονης κοινωνίας. Σημειώνεται επίσης ότι στη συλλογή πληροφοριών παρατηρούνται ελλείψεις στα δεδομένα και στην παρούσα διπλωματική θα παρουσιαστούν τρόποι αντιμετώπισης αυτών με σκοπό όσο το δυνατόν καλύτερη εξαγωγή πληροφορίας από τα δεδομένα. Στο πρώτο κεφάλαιο παρουσιάζεται η έννοια της εξόρυξης γνώσης από βάσεις δεδομένων (Data Mining) και η διαδικασία που ακολουθείται. Επίσης παρουσιάζεται ο ρόλος της προ-επεξεργασίας όπως και κάποιες βασικές εργασίες αυτής. Στο δεύτερο κεφάλαιο, αρχικά, αναλύονται οι μορφές των ελλιπών τιμών στα δεδομένα, στη συνέχεια παρουσιάζονται οι αιτίες για τις οποίες υπάρχουν ελλιπή στοιχεία και στο τέλος αυτού του κεφαλαίου αναλύονται οι τρόποι αντιμετώπισης των ελλειπόντων δεδομένων. Στο τρίτο κεφάλαιο αναλύονται μέθοδοι εξόρυξης γνώσης όπως τα δένδρα απόφασης, οι μηχανές διανυσμάτων υποστήριξης, ο k-πλησιέστερος γείτονας, η γραμμική και λογιστική παλινδρόμηση, ο αλγόριθμος προώθησης (boosting), τα νευρωνικά δίκτυα, ο αλγόριθμος ελάχιστης βελτιστοποίησης (sequential minimal optimization-smo) και τα πολυστρωματικά νευρωνικά δίκτυα (multilayer perceptron-mlp). Στο τέταρτο κεφάλαιο γίνεται η χρήση των μεθόδων αντιμετώπισης ελλιπών τιμών σε ορισμένες βάσεις δεδομένων χρησιμοποιώντας τέσσερις ταξινομητές (C4.5, MLP, SMO, 3-NN) μέσω του εργαλείου KEEL. Στο πέμπτο και τελευταίο κεφάλαιο επιχειρούμε την εφαρμογή μεθόδων σε πέντε βάσεις δεδομένων με ελλιπή στοιχεία χρησιμοποιώντας το στατιστικό πρόγραμμα R. Πιο συγκεκριμένα, γίνεται αντιμετώπιση των ελλιπών στοιχείων στα δεδομένα και στη συνέχεια χρησιμοποιούνται οι μέθοδοι των δένδρων αποφάσεων, των μηχανών διανυσμάτων υποστήριξης, του αλγορίθμου προώθησης και των νευρωνικών δικτύων.

6 Πίνακας περιεχομένων Περίληψη... 5 Κεφάλαιο Εισαγωγικές Έννοιες Ορισμός εξόρυξης γνώσης από τις βάσεις δεδομένων και η διαδικασία ανεύρεσης Γενικά για την προ-επεξεργασία Βασικές εργασίες στην προ-επεξεργασία δεδομένων... 8 Κεφάλαιο Ελλιπείς Τιμές στις Βάσεις Δεδομένων Μορφές Ελλιπών Τιμών Μη Μονότονη Μορφή (General) Μονότονη μορφή (Monotone) Μονομεταβλητό ελλείπον στοιχείο (Univariate nonresponse) Πολυμεταβλητό ελλείπον στοιχείο (Multivariate two patterns) Αντιστοίχιση Αρχείων (File Matching) Παραγοντική Ανάλυση (Factor Analysis) Αιτίες Απώλειας των Στοιχείων Τρόποι Αντιμετώπισης των Ελλιπών Τιμών σε Βάσεις Δεδομένων Διαγραφή Περίπτωσης (Case Deletion or Ignore Missing-IM) Μέση τιμή, Διάμεσος, Κεντρική τιμή (Mean, median, mode Imputation-MC) Παλινδρόμηση (Regression Imputation) Hot-deck Imputation k-πλησιέστερος γείτονας (k-nearest Neighbor Imputation-kNNI) Πολλαπλός Καταλογισμός (Multiple Imputation-MI) Μέθοδος Δένδρου Απόφασης (Decision Tree-C 4.5) Μπεϋζιανή Επανάληψη (Bayesian Iteration Imputation-BII) Κανένας Καταλογισμός (Do not Impute-DNI) Μέθοδος αντικατάστασης με την πιο συχνή τιμή για τα κατηγορικά χαρακτηριστικά και με τη μέση τιμή για τα αριθμητικά χαρακτηριστικά (Concept Most Common Attribute Value for Symbolic Attributes, and Concept Average Value for Numerical Attributes-CMC) Καταλογισμός στάθμισης με τον k- πλησιέστερο γείτονα (Weighted imputation with k- Nearest Neighbour-WKNNI) Μέση τιμή k σημείων (k-means Clustering Imputation-KMI) Καταλογισμός με μέση τιμή k-ασαφών σημείων (Imputation with Fuzzy K-means Clustering-FKMI)... 21

7 Μηχανές Διανυσμάτων Υποστήριξης (Support Vector Machines Imputation-SVMI) Κάλυψη Περιπτώσεων (Event Covering-EC) Αλγόριθμος Πρόβλεψης-Μεγιστοποίησης (Regularized Expectation-Maximization-EM) Μοναδική τιμή Αποσύνθεσης (Singular Value Decomposition Imputation -SVDI) Ελάχιστος Τοπικός Τετραγωνικός Καταλογισμός (Local Least Squares Imputation-LLSI). 23 Κεφάλαιο Αλγόριθμοι Εξόρυξης Γνώσης Τι είναι Κατηγοριοποίηση (Classification) Αλγόριθμοι Βασισμένοι σε Δένδρα Απόφασης Μηχανές Διανυσμάτων Υποστήριξης ( Support Vector Machines SVM) Αλγόριθμος k-nearest Neighbor (k-κοντινότερου γείτονα knn) Γραμμική και Λογιστική Παλινδρόμηση Αλγόριθμος Προώθησης Boosting Νευρωνικά Δίκτυα Τι είναι τα Νευρωνικά Δίκτυα Εκπαίδευση ενός Νευρωνικού Δικτύου Ακολουθιακής Ελάχιστης Βελτιστοποίησης (Sequential Minimal Optimization -SMΟ) Πολυεπίπεδο Νευρωνικό Δίκτυο (Multilayer perceptron) Κεφάλαιο Διαχείριση Προβλήματος με τη χρήση του KEEL Περιγραφή Βάσεων Δεδομένων Primary Tumor data set Dermatology data set Automobile data set Horse Colic data set Mushroom data set Cylinder Bands data set Hepatitis data set Water-Treatment Plant data set Credit Approval data set Breast Cancer Wisconsin (Original) data set Breast Cancer data set Post-Operative data set Mammographic Mass data set... 48

8 Heart Disease (Cleveland) data set Sponge Data Set Audiology (Original) Data Set Lung-Cancer Data Set Echocardiogram Data Set Ozone Level Detection Data Set Soybean (Small) Data Set Congressional Voting Data Set Διαχείριση Προβλήματος με τη χρήση του εργαλείου KEEL C4.5 Ταξινομητής MLP Ταξινομητής SMO Ταξινομητής NN Ταξινομητής Κεφάλαιο Διαχείριση Προβλήματος με τη χρήση του πακέτου R Adult Data Set Περιγραφή Χαρακτηριστικών συνόλου Πίνακας Αποτελεσμάτων για το Adult Data Set Breast Cancer Data Set Περιγραφή χαρακτηριστικών συνόλου Πίνακας Αποτελεσμάτων για το Breast Cancer Data Set Hepatitis Data Set Περιγραφή Χαρακτηριστικών Συνόλου Πίνακας Αποτελεσμάτων για το Hepatitis Data Set Automobile Data Set Περιγραφή Χαρακτηριστικών Συνόλου Πίνακας αποτελεσμάτων για το Automobile Data Set Breast Cancer Wisconsin (Original) data set Περιγραφή Χαρακτηριστικών Συνόλου Πίνακας αποτελεσμάτων για το Breast Cancer Wisconsin (Original) Data Set Συμπεράσματα ανά αλγόριθμο Decision Tree Ada Boost SVM... 89

9 5.6.4 Neural Networks Συμπεράσματα Βιβλιογραφία Παράρτημα... 99

10 Κεφάλαιο 1 Εισαγωγικές Έννοιες 1.1 Ορισμός εξόρυξης γνώσης από τις βάσεις δεδομένων και η διαδικασία ανεύρεσης Εξόρυξη γνώσης από βάσεις δεδομένων είναι η χρήση αλγορίθμων για την εξαγωγή χρήσιμων πληροφοριών από τα δεδομένα. [1] Η Ανακάλυψη Γνώσης σε Βάσεις Δεδομένων (Knowledge Discovery in Data - KDD) είναι μία διαδικασία ανακάλυψης νέων χρήσιμων και κατανοητών προτύπων στα δεδομένα. Ο ορισμός της διαδικασίας αυτής δόθηκε από τους Frawley,Piatesky-Shapiro και Matheus το 1991 ως εξής: «KDD είναι η ντετερμινιστική διαδικασία αναγνώρισης έγκυρων, καινοτόμων, ενδεχομένως χρήσιμων και εν τέλει κατανοητών προτύπων στα δεδομένα.» [1] Εικόνα 1: Βήματα της διαδικασίας ανακάλυψης γνώσης από τα δεδομένα 6

11 Η διαδικασία KDD συχνά θεωρείται πολύπλοκη, στην πιο γενική της μορφή που περιλαμβάνει συγκεκριμένα απλούστερα βήματα. Η είσοδος σε αυτή τη διαδικασία είναι τα δεδομένα, και οι χρήσιμες πληροφορίες που επιθυμούν οι χρήστες είναι η έξοδος. Η διαδικασία αυτή απαιτεί πολύ χρόνο για την ολοκλήρωση της. Το παραπάνω σχήμα επεξηγεί τη συνολική διαδικασία της ανακάλυψης γνώσης σε βάσεις δεδομένων. [1] Επιλογή (selection): Τα δεδομένα που χρειάζονται για τη διαδικασία της ανακάλυψης γνώσης μπορούν να προέλθουν από πολλές διαφορετικές πηγές δεδομένων. Σε αυτό το πρώτο βήμα συλλέγονται δεδομένα από διάφορες βάσεις δεδομένων, αρχεία και μη ηλεκτρονικές πηγές. [2] Προ-επεξεργασία (processing): Τα δεδομένα που πρόκειται να χρησιμοποιηθούν κατά τη διαδικασία, ίσως να είναι λανθασμένα ή ελλιπή. Ίσως υπάρχουν ανώμαλα δεδομένα από πολλαπλές πηγές που περιλαμβάνουν διαφορετικούς τύπους δεδομένων και διαφορετικές μονάδες μέτρησης. Σε αυτό το βήμα μπορούν να πραγματοποιηθούν πολλές και διαφορετικές δραστηριότητες. Τα λανθασμένα δεδομένα μπορεί να διορθωθούν ή να αφαιρεθούν, ενώ τα ελλιπή δεδομένα πρέπει να συλλεχθούν ή να εκτιμηθούν. [2] Μετασχηματισμός (transformation): Τα δεδομένα που προέρχονται από διαφορετικές πηγές χρειάζεται να μετατραπούν σε ένα κοινό σχήμα για την περαιτέρω επεξεργασία τους. Μερικά δεδομένα ίσως απαιτείται να κωδικοποιηθούν ή να μετασχηματιστούν σε πιο χρήσιμα σχήματα (κανονικοποίηση). [2] Εξόρυξη γνώσης από τα δεδομένα (data mining): Με βάση το είδος της εξόρυξης που είναι να εκτελεστεί, σε αυτό το βήμα εφαρμόζονται αλγόριθμοι στα τροποποιημένα δεδομένα για να προκύψουν τα επιθυμητά αποτελέσματα. [2] Ερμηνεία / αξιολόγηση (interpretation /evaluation): Είναι πολύ σημαντικό το πώς θα παρουσιαστούν στους χρήστες τα αποτελέσματα της εξόρυξης γνώσης, επειδή η χρησιμότητα ή μη των αποτελεσμάτων μπορεί να εξαρτάται ακριβώς από αυτήν την παρουσίαση. [2] 7

12 1.2 Γενικά για την προ-επεξεργασία Η προ-επεξεργασία είναι μία σημαντική διαδικασία στο πρόβλημα της εξόρυξης γνώσης. Συχνά, παρατηρείται πρόβλημα στα δεδομένα μιας βάσης δεδομένων γιατί οι μέθοδοι με τις οποίες γίνεται η συλλογή δεδομένων δεν έχουν τα απαραίτητα κριτήρια για να κρίνουν κατά πόσο είναι ποιοτικά. Αυτό έχει ως αποτέλεσμα να υπάρχουν «βρώμικα» δεδομένα, όπως ελλιπή δεδομένα (missing data, δηλαδή δεδομένα που έχουν έλλειψη τιμών σε κάποια χαρακτηριστικά ή έλλειψη χαρακτηριστικών που μας ενδιαφέρουν), θορυβώδη (δεδομένα που περιέχουν λάθη ή ακραίες τιμές,outliers) και ασυνεπή (δεδομένα με διαφορές σε ονόματα, κωδικούς). Το πρόβλημα γίνεται πιο αισθητό όταν η βάση δεδομένων είναι μεγάλη και η διαδικασία συλλογής δεδομένων διαρκεί χρόνια. Για πιο έγκυρα αποτελέσματα αναπτύχθηκαν κάποιες μέθοδοι με στόχο την επεξεργασία δεδομένων που περιέχουν ελλιπή στοιχεία. [3] Αυτό το φαινόμενο παρατηρείται κυρίως σε επιστήμες όπως η ιατρική, η ψυχολογία, η βιολογία οι οποίες σχετίζονται με τον άνθρωπο και τα δεδομένα χαρακτηρίζονται από την υποκειμενικότητα του. Επίσης, στην αρχαιολογία όπου τα ευρήματα πολλές φορές δεν είναι πλήρη. [3] Αλλά μπορεί και να οφείλονται και σε τυχαίους παράγοντες όπως: [3] Σε λάθη ερευνητών κατά την καταχώρηση Κάποιος ο οποίος δε θέλει να συμμετέχει στην έρευνα Άτομο το οποίο σταματά να συμμετέχει στην έρευνα λόγω αλλαγής διεύθυνσης, αυτό συμβαίνει πιο συχνά στις μακροχρόνιες έρευνες Άτομο το οποίο δεν απαντά σε κάποια ερωτήματα για προσωπικούς λόγους 1.3 Βασικές εργασίες στην προ-επεξεργασία δεδομένων Κάποιες από τις βασικές εργασίες που γίνονται για την επεξεργασία δεδομένων είναι οι παρακάτω: Καθαρισμός δεδομένων Συμπλήρωση τιμών που λείπουν, εξομάλυνση θορύβου, εύρεσηαφαίρεση ακραίων τιμών, επίλυση ασυνεπειών 8

13 Ολοκλήρωση δεδομένων Ολοκλήρωση πολλαπλών βάσεων δεδομένων, κύβων και αρχείων Μετασχηματισμός δεδομένων Κανονικοποίηση, συσσώρευση Μείωση δεδομένων Μειωμένη αναπαράσταση του όγκου αλλά παραγωγή ίδιων ή παρόμοιων αναλυτικών αποτελεσμάτων [4] Διακριτοποίηση δεδομένων Μετατροπή αριθμητικών χαρακτηριστικών σε κατηγορικά όταν αλγόριθμοι συσταδοποίησης/ κατηγοριοποίησης μπορούν να χειριστούν μόνο κατηγορικά χαρακτηριστικά. Εικόνα 2: Διαδικασία προ-επεξεργασίας δεδομένων 9

14 Με τη προ-επεξεργασία γίνεται μετασχηματισμός δεδομένων σε μορφή κατάλληλη και αποδοτική για την επιλεγμένη μέθοδο μάθησης, ώστε οι ποιοτικές αποφάσεις να βασίζονται σε ποιοτικά δεδοµένα. [4] Τα ποιοτικά δεδομένα βασίζονται στα εξής κριτήρια: [4] Ακρίβεια Πληρότητα Συνέπεια Επικαιρότητα Αξιοπιστία Προστιθέμενη αξία Πόσο εύκολα μπορούν να ερμηνευτούν Προσβασιμότητα 10

15 Κεφάλαιο 2 Ελλιπείς Τιμές στις Βάσεις Δεδομένων 2.1 Μορφές Ελλιπών Τιμών Ανάλογα με την μορφή των ελλιπών τιμών γίνεται η κατάλληλη επιλογή μεθόδου για την αντιμετώπιση τους. Η δημιουργία πινάκων διευκολύνει την εκτίμηση των αναλυτών όσον αφορά τον τρόπο που θα χρησιμοποιηθεί για την αποτελεσματικότερη αντιμετώπιση των ελλιπών δεδομένων. Οι μορφές ελλιπών τιμών, σύμφωνα με τους Little και Rubin (2002) διακρίνονται στις παρακάτω κατηγορίες Μη Μονότονη Μορφή (General) Οι ελλιπείς τιμές δεν έχουν κάποια συγκεκριμένη μορφή. Μπορεί να λείπουν τιμές σε διάφορα σημεία ενός ή περισσότερων χαρακτηριστικών στο πίνακα που αντιπροσωπεύει τη βάση δεδομένων. [3] Η διαχείριση αυτής της μορφής ελλιπών δεδομένων γίνεται είτε με μεθόδους καταλογισμού είτε με μεθόδους αντικατάστασης από τα υπάρχοντα δεδομένα. Στην περίπτωση την οποία τα ελλιπή δεδομένα δεν είναι τόσο πολλά σε σχέση με τα συνολικά χρησιμοποιούνται και οι μέθοδοι διαγραφής. Στο παρακάτω πίνακα δίνεται μια εικόνα για τη μη μονότονη μορφή των ελλιπών στοιχείων. [3] Εικόνα 3: Μη μονότονη μορφή ελλιπών στοιχείων 11

16 2.1.2 Μονότονη μορφή (Monotone) Τα δεδομένα που παρουσιάζουν μονότονη μορφή στα ελλιπή στοιχεία τους προκύπτουν από έρευνες που κυρίως απαιτούν πολλά χρόνια για την εξαγωγή αποτελεσμάτων και λόγω των πολλών χρόνων οι ερωτηθέντες δεν συμμετέχουν πια στην έρευνα είτε επειδή δεν ενδιαφέρονται πια είτε απομακρύνθηκαν από αυτή για οποιοδήποτε λόγο. Από την εικόνα του πίνακα φαίνεται ότι όλα τα στοιχεία που λείπουν για ένα χαρακτηριστικό λείπει και για το επόμενο. [3] Εικόνα 4: Μονότονη μορφή ελλιπών στοιχείων 12

17 2.1.3 Μονομεταβλητό ελλείπον στοιχείο (Univariate nonresponse) Όλα τα ελλιπή στοιχεία εμφανίζονται σε μία μόνο μεταβλητή. Στις υπόλοιπες μεταβλητές εμφανίζονται όλα τα στοιχεία. Στην παρακάτω εικόνα η μεταβλητή που περιέχει τις ελλιπείς τιμές είναι η τελευταία ενώ στις υπόλοιπες δεν υπάρχουν ελλιπείς τιμές. [3] Εικόνα 5: Μονομεταβλητή μορφή ελλιπών στοιχείων Πολυμεταβλητό ελλείπον στοιχείο (Multivariate two patterns) Σε αυτή την περίπτωση σε αντίθεση με την παραπάνω μορφή τα ελλιπή στοιχεία εμφανίζονται σε περισσότερες από μία μεταβλητή. Σύμφωνα με το παρακάτω σχήμα φαίνεται πως στις τρεις τελευταίες στήλες-μεταβλητές υπάρχουν ελλιπή δεδομένα ενώ στις δύο πρώτες τα στοιχεία είναι πλήρη. [3] Εικόνα 6: Πολυμεταβλητή μορφή ελλιπών στοιχείων 13

18 2.1.5 Αντιστοίχιση Αρχείων (File Matching) Σε αυτή την περίπτωση για το καλύτερο αποτέλεσμα των αναλύσεων χρειάζεται να συσχετιστούν οι μεταβλητές που έχουν κοινά δεδομένα. Στην παρακάτω εικόνα παρατηρείται ότι στην πρώτη μεταβλητή δεν υπάρχουν καθόλου ελλιπείς τιμές, ενώ στην δεύτερη υπάρχουν ελλιπή στοιχεία στις τελευταίες παρατηρήσεις και στην τρίτη μεταβλητή υπάρχουν ελλιπή στοιχεία στις πρώτες παρατηρήσεις. Με βάση αυτής της μεθόδου γίνεται συσχετισμός δεδομένων την πρώτης μεταβλητής με τη δεύτερη καθώς και της πρώτης με την τρίτη αφού με αυτό το συνδυασμό παρατηρούνται κοινά στοιχεία. Αυτό έχει ως αποτέλεσμα τα δεδομένα που λείπουν να συμπληρωθούν με το συνδυασμό των μεταβλητών που έχουν κοινά στοιχεία. [3] Εικόνα 7: File Matching Παραγοντική Ανάλυση (Factor Analysis) Η Factor Analysis (παραγοντική ανάλυση) χρησιμοποιείται σε προβλήματα των οποίων οι σημαντικές μεταβλητές δεν μπορούν να παρατηρηθούν. Τέτοιες μεταβλητές είναι χαρακτηριστικές σε προβλήματα που σχετίζονται με τη συμπεριφορά των ανθρώπων ή τη στάση ζωή τους όπως η κοινωνικοοικονομική κατάσταση, οι πολιτικές πεποιθήσεις, ο τρόπος που μπορεί να αντιμετωπίσουν ένα γεγονός. Σκοπός της παραγοντικής ανάλυσης είναι να γίνει σύνδεση των μεταβλητών για τις οποίες υπάρχουν μετρήσεις με αυτών των μεταβλητών για τις οποίες δεν υπάρχουν. Στο παρακάτω σχήμα η 14

19 πρώτη μεταβλητή έχει μόνο ελλιπή στοιχεία, ενώ η δεύτερη μεταβλητή έχει πλήρη δεδομένα. Με τη παραγοντική ανάλυση γίνεται μία πολυμεταβλητή παλινδρόμηση της μεταβλητής που έχει πλήρη στοιχεία ως προς τη μεταβλητή που έχει ελλιπή στοιχεία ώστε να συσχετιστούν και να συμπληρωθούν τα δεδομένα που λείπουν. [3] Εικόνα 8: Factor Analysis 2.2 Αιτίες Απώλειας των Στοιχείων Σύμφωνα με τους Little και Rubin (1987) τα στοιχεία μπορεί να λείπουν εντελώς τυχαία (missing completely at random), είτε να λείπουν τυχαία (missing at random) ή να μην είναι τυχαία η έλλειψη τιμών (missing not at random). [3] Πιο συγκεκριμένα Να λείπουν εντελώς τυχαία (missing completely at random) Σε αυτή την περίπτωση η έλλειψη στοιχείων οφείλεται σε τυχαία γεγονότα. Χαρακτηριστικά παραδείγματα είναι κάποια από τα παρακάτω: Ένα ερωτηματολόγιο που έχει συμπληρωθεί και στη συνέχεια χάθηκε Λανθασμένη καταχώρηση στοιχείων κατά τη διάρκεια πληκτρολόγησης 15

20 Κυρίως σε μια μακροχρόνια έρευνα αλλά και όταν οι συμμετέχοντες σταματούν να προσέρχονται για την ολοκλήρωση της έρευνας [3] Να λείπουν τυχαία (missing at random) Στην περίπτωση αυτή η εμφάνιση ελλιπών τιμών εξαρτάται μόνο από τις γνωστές τιμές. Σε μία βάση δεδομένων κατά κύριο λόγο τα χαρακτηριστικά τα οποία συνήθως δε λείπουν είναι το φύλο, ηλικία. Ένα παράδειγμα για την κατανόηση αυτής της αιτίας είναι το παρακάτω: Αν σε μία βάση δεδομένων η ηλικία για κάθε παράδειγμα είναι γνωστή τότε η εμφάνιση ελλιπών τιμών σε κάποιο άλλο χαρακτηριστικό θα εξαρτάται μόνο από την ηλικία. [3] Όχι τυχαία έλλειψη τιμών (missing not at random) Σε αυτή την κατηγορία η έλλειψη στοιχείων θεωρείται ότι δεν είναι τυχαία γιατί οφείλεται σε όλες τις μεταβλητές, και στην ίδια την μεταβλητή που περιέχει τα ελλιπή στοιχεία, και σε άλλες που δεν περιέχουν καθόλου ελλιπή στοιχεία αλλά και σε αιτίες τυχαίες. Ένα παράδειγμα που περιγράφει την παραπάνω αιτία ελλιπών τιμών είναι το παρακάτω: Στο ερώτημα δήλωσης μηνιαίου μισθού είναι αρκετά αναμενόμενο να μην απαντήσουν κάποιοι ερωτηθέντες. Αυτό έχει ως αποτέλεσμα η παρουσία ελλιπών τιμών να μην οφείλεται εντελώς στην τύχη. [3] 2.3 Τρόποι Αντιμετώπισης των Ελλιπών Τιμών σε Βάσεις Δεδομένων Στην ενότητα αυτή θα αναφερθούν κάποιες δημοφιλείς μέθοδοι για την διαχείριση των ελλιπών τιμών. 16

21 2.3.1 Διαγραφή Περίπτωσης (Case Deletion or Ignore Missing-IM) Η μέθοδος αυτή παραλείπει αυτές τις περιπτώσεις (παραδείγματα) οι οποίες περιέχουν ελλιπή δεδομένα και κάνει ανάλυση των υπαρχόντων. Αν και είναι η πιο κοινή μέθοδος έχει δύο προφανή μειονεκτήματα Μια ουσιαστική μείωση στο μέγεθος του συνόλου που διατίθεται για ανάλυση Στην περίπτωση που ο μηχανισμός ελλιπών τιμών δεν είναι MCAR (έλλειψη δεδομένων εντελώς τυχαία) τα αποτελέσματα μπορεί να μην είναι αμερόληπτα. [6] Μέση τιμή, Διάμεσος, Κεντρική τιμή (Mean, median, mode Imputation-MC) Γίνεται αντικατάσταση των ελλιπών τιμών με το μέσο όρο (mean) των υπαρχόντων δεδομένων όταν τα δεδομένα είναι αριθμητικά. Όταν τα δεδομένα είναι κατηγορικά η αντικατάσταση των ελλιπών τιμών γίνεται με βάση το mode, δηλαδή για κάθε χαρακτηριστικό η τιμή που εμφανίζεται πιο συχνά. Στην περίπτωση που υπάρχουν μεγάλη απόκλιση στις τιμές των δεδομένων για ένα χαρακτηριστικό τότε γίνεται αντικατάσταση με βάση τη διάμεσο (median). [3] Όσον αφορά την μέση τιμή υπάρχουν δύο κατηγορίες που μπορεί να βρεθεί και να γίνει η αντίστοιχη αντικατάσταση: Για κάθε μία καταχώρηση η οποία έχει ελλιπείς τιμές βρίσκεται η μέση τιμή των χαρακτηριστικών της για τα οποία τα δεδομένα είναι πλήρη. [3] Για κάθε χαρακτηριστικό βρίσκεται η μέση τιμή. Αυτό έχει ως αποτέλεσμα αν κάποιο παράδειγμα έχει ελλιπές στοιχείο σε ένα χαρακτηριστικό γίνεται αντικατάσταση της μέσης τιμής στο χαρακτηριστικό αυτό. [3] Αυτός ο τρόπος διαχείρισης ελλιπών στοιχείων μπορεί να μην είναι ο καλύτερος τρόπος συμπλήρωσης των ελλιπών δεδομένων εκτός και αν τα δεδομένα λείπουν εντελώς τυχαία. [3] 17

22 2.3.3 Παλινδρόμηση (Regression Imputation) Τα δεδομένα που λείπουν αντικαθίστανται από μια γραμμική συνάρτηση παλινδρόμησης, αντί της αντικατάστασης όλων των ελλειπόντων στοιχείων με στατιστικά στοιχεία. Η μέθοδος αυτή εξαρτάται από τη γραμμική σχέση μεταξύ των χαρακτηριστικών (των υπαρχόντων και των ελλειπόντων). Είναι αρκετά συχνό φαινόμενο η σχέση των χαρακτηριστικών να μην είναι γραμμική. [6] Η μέθοδος αυτή δίνει σωστά αποτελέσματα σε τιμές που λείπουν εντελώς τυχαία (MCAR) και ικανοποιητικά στα δεδομένα που λείπουν τυχαία (MAR). [6] Hot-deck Imputation Στην περίπτωση αυτή κάθε ελλιπής τιμή αντικαθίσταται από μία τιμή η οποία υπάρχει και είναι παρόμοια περίπτωση με την περίπτωση που εμφανίζει ελλιπή τιμή. Ο τρόπος επιλογής της περίπτωσης γίνεται τυχαία από τις υπόλοιπες παρόμοιες περιπτώσεις οι οποίες είναι και αυτές παρόμοιες. [6] k-πλησιέστερος γείτονας (k-nearest Neighbor Imputation-kNNI) Αυτή η μέθοδος χρησιμοποιεί τον αλγόριθμο k-πλησιέστερου γείτονα για την εκτίμηση και την αντικατάσταση των δεδομένων που λείπουν. Τα κύρια πλεονεκτήματα αυτής της μεθόδου είναι: [6] Μπορεί να εκτιμήσει δύο ποιοτικά χαρακτηριστικά (η πιο συχνή τιμή μεταξύ των k πλησιέστερων γειτόνων) και ποσοτικά χαρακτηριστικά (ο μέσος όρος των k πλησιέστερων γειτόνων). [6] Δεν είναι απαραίτητο να δημιουργηθεί ένα προγνωστικό μοντέλο για κάθε χαρακτηριστικό με ελλιπή στοιχεία. [6] Η αποδοτικότητα είναι ένα από τα μεγαλύτερα προβλήματα αυτής της μεθόδου διότι ο αλγόριθμος k-πλησιέστερος γείτονας αναζητά τις πιο παρόμοιες περιπτώσεις και η αναζήτηση πρέπει να γίνει σε ολόκληρη τη βάση δεδομένων και συνήθως η βάση είναι πολύ μεγάλη για την αναζήτηση. Επιπλέον το πώς θα επιλεχθεί η τιμή k και το πόσο παρόμοιες θα είναι οι περιπτώσεις επηρεάζει σε μεγάλο βαθμό το αποτέλεσμα. [6] 18

23 2.3.6 Πολλαπλός Καταλογισμός (Multiple Imputation-MI) Η βασική ιδέα του MI είναι Κάθε ελλιπές στοιχείο αντικαθίσταται από m>1 αληθοφανείς τιμές, έτσι ώστε να δημιουργηθούν m πλήρη σύνολα. Κάθε ένα από αυτά τα m σύνολα που έχουν δημιουργηθεί αναλύονται από μεθόδους κατάλληλες για την ανάλυση δεδομένων. Όλα τα σύνολα που έχουν δημιουργηθεί συγκεντρώνονται με σκοπό να παραχθεί το τελικό αποτέλεσμα. [6] Μέθοδος Δένδρου Απόφασης (Decision Tree-C 4.5) Συνήθως γίνεται η εκτίμηση των τιμών που λείπουν με βάση τις υπάρχουσες σε άλλα παραδείγματα. Στρατηγικές: Δίνεται η τιμή που είναι πιο κοινή σε όλα τα παραδείγματα του κόμβου Δίνεται η τιμή που είναι πιο κοινή στα παραδείγματα του κόμβου που έχουν τιμή χαρακτηριστικού στόχου ίδια με το υπό εξέταση παράδειγμα Συσχέτιση για κάθε τιμή του X με μια πιθανότητα. Οι πιθανότητες αυτές εκτιμώνται από τις παρατηρούμενες συχνότητες των τιμών του X στο σύνολο εκπαίδευσης του κόμβου. [7] Μπεϋζιανή Επανάληψη (Bayesian Iteration Imputation-BII) O απλός μπεϋζιανός ταξινομητής (Naïve Bayesian) είναι ένας δημοφιλής εκτιμητής, όχι μόνο για την καλή απόδοση αλλά και για την απλή του μορφή. Δεν είναι ευαίσθητος στα ελλιπή δεδομένα και η αποτελεσματικότητα του υπολογισμού είναι πολύ υψηλή. Η Μπεϋζιανή επανάληψη χρησιμοποιεί τον απλό μπεϋζιανό ταξινομητή για τον καταλογισμό των ελλιπών δεδομένων. Περιλαμβάνονται δύο φάσεις: [6] 19

24 Η επιλογή της σειράς του χαρακτηριστικού που χρησιμοποιείται εξαρτάται από διάφορες μετρήσεις όπως το κέρδος πληροφορίας (information gain), το ποσοστό των ελλιπών στοιχειών. [6] Χρησιμοποιώντας τον απλό μπεϋζιανό ταξινομητή υπολογίζονται τα ελλιπή δεδομένα. [6] Είναι μία επαναληπτική διαδικασία. Γενικά δεν είναι απαραίτητο να αντικατασταθούν όλες οι ελλιπείς τιμές και έτσι μειώνονται οι φορές που επαναλαμβάνεται η διαδικασία. [6] Κανένας Καταλογισμός (Do not Impute-DNI) Όπως υποδηλώνει και το όνομά του, όλα τα δεδομένα που λείπουν παραμένουν έτσι όπως είναι χωρίς να γίνει κάποια αντικατάσταση. Σκοπός είναι η εξακρίβωση κατά πόσο οι μέθοδοι καταλογισμού αποδίδουν καλύτερα αποτελέσματα από τα αρχικά δεδομένα. [37] Μέθοδος αντικατάστασης με την πιο συχνή τιμή για τα κατηγορικά χαρακτηριστικά και με τη μέση τιμή για τα αριθμητικά χαρακτηριστικά (Concept Most Common Attribute Value for Symbolic Attributes, and Concept Average Value for Numerical Attributes-CMC) Σε αυτή τη μέθοδο οι ελλιπείς τιμές θα αντικατασταθούν με τη τιμή που επαναλαμβάνεται πιο συχνά αν το χαρακτηριστικό παίρνει ονομαστικές τιμές ή με τη μέση τιμή αν το χαρακτηριστικό παίρνει αριθμητικές τιμές μόνο που σε αυτή την περίπτωση λαμβάνεται υπόψη μόνο οι περιπτώσεις που ανήκουν στην ίδια κλάση με το χαρακτηριστικό που παρουσιάζει την ελλιπή τιμή. [37] Καταλογισμός στάθμισης με τον k- πλησιέστερο γείτονα (Weighted imputation with k-nearest Neighbour-WKNNI) Η μέθοδος αυτή επιλέγει τις περιπτώσεις με τις παρόμοιες τιμές όσον αφορά την απόσταση σε σχέση με μία συγκεκριμένη τιμή ώστε να μπορεί να κάνει αυτό που κάνει και η KNNI μέθοδος. Παρ όλα αυτά η εκτιμώμενη τιμή τώρα λαμβάνει υπόψη τις διαφορετικές αποστάσεις από τους «γείτονες» 20

25 χρησιμοποιώντας το μέσο βάρος ή την τιμή που επαναλαμβάνεται περισσότερο με βάση την απόσταση. [37] Μέση τιμή k σημείων (k-means Clustering Imputation-KMI) Λαμβάνοντας υπόψη ένα σύνολο αντικειμένων, ο γενικός στόχος της ομαδοποίησης είναι να χωριστούν τα δεδομένα σε ομάδες με βάση την ομοιότητα των αντικειμένων, και να ελαχιστοποιηθεί η ανομοιότητα μεταξύ των αντικειμένων μέσα στις συστάδες. Η ανομοιότητα εντός της συστάδας μπορεί να μετρηθεί με την απόσταση μεταξύ των αντικειμένων καθώς και του κεντροειδούς της συστάδας όπως έχει ανατεθεί. Το κεντροειδές της συστάδας είναι η μέση τιμή όλων των αντικειμένων που βρίσκονται στη συστάδα. Η τελευταία διαδικασία είναι η συμπλήρωση των ελλιπών τιμών με βάση των πληροφοριών που παρέχει η συστάδα. Τα δεδομένα που βρίσκονται μέσα στην ίδια συστάδα λαμβάνονται ως πλησιέστεροι γείτονες και με την εφαρμογή του αλγορίθμου ΚΝΝ γίνεται αντικατάσταση των δεδομένων που λείπουν. [37] Καταλογισμός με μέση τιμή k-ασαφών σημείων (Imputation with Fuzzy K- means Clustering-FKMI) Στην ασαφή συσταδοποίηση, κάθε αντικείμενο έχει μια συνάρτηση συμμετοχής η οποία περιγράφει τον βαθμό με τον οποίο το αντικείμενο ανήκει σε μία συγκεκριμένη συστάδα. Κατά τη διαδικασία ενημέρωσης των συναρτήσεων συμμετοχής και των κεντροειδών, λαμβάνονται υπόψη μόνο τα πλήρη χαρακτηριστικά. Στο σημείο αυτό πρέπει να αναφερθεί ότι ένα αντικείμενο δεν μπορεί να τοποθετηθεί σε μία συγκεκριμένη συστάδα όταν αντιπροσωπεύεται από ένα κεντροειδές, γιατί κάθε αντικείμενο ανήκει σε όλες τις k συστάδες με διαφορετικούς βαθμούς. Τα ελλιπή χαρακτηριστικά θα αντικατασταθούν με βάση το βαθμό της συνάρτησης συμμετοχής καθώς και από τις τιμές των κεντροειδών της συστάδας. [37] 21

26 Μηχανές Διανυσμάτων Υποστήριξης (Support Vector Machines Imputation- SVMI) Σύμφωνα με τη SVM παλινδρόμηση για να γίνει η πρόβλεψη των τιμών που λείπουν, πρώτα επιλέγονται παραδείγματα στα οποία δεν υπάρχουν καθόλου ελλιπή δεδομένα. Στο επόμενο βήμα ένα από τα χαρακτηριστικά κατάστασης αποτελεί γνώρισμα εισόδου, μερικές από τις τιμές που λείπουν, ως χαρακτηριστικό απόφασης (χαρακτηριστικό εξόδου) και τα χαρακτηριστικά απόφασης ως χαρακτηριστικά κατάστασης αντίστροφα. Τέλος η SVM παλινδρόμηση χρησιμοποιείται για την πρόβλεψη των τιμών των χαρακτηριστικών απόφασης. [37] Κάλυψη Περιπτώσεων (Event Covering-EC) Μία άλλη μέθοδος για τον χειρισμό των ελλιπών τιμών που υπάρχουν στα δεδομένα είναι η Event-Covering η οποία βασίζεται την αλληλεξάρτηση μεταξύ γνωστών και των τιμών των γνωρισμάτων που λείπουν. Η αλληλεξάρτηση υπολογίζεται από πίνακες «έκτακτης ανάγκης». Το αποτέλεσμα της μεθόδου δεν είναι κατ 'ανάγκη ένα πλήρες σύνολο δεδομένων δηλαδή όλες τις τιμές του χαρακτηριστικού να είναι γνωστές. [37] Αλγόριθμος Πρόβλεψης-Μεγιστοποίησης (Regularized Expectation- Maximization-EM) Ο αλγόριθμος ΕΜ είναι μία επαναληπτική διαδικασία που διαχωρίζει το πρόβλημα σε δύο επιμέρους προβλήματα εκτίμησης και περιλαμβάνει δύο βήματα, το βήμα της μεγιστοποίησης ή βήμα Μ (Maximization) και το βήμα της πρόβλεψης ή βήμα Ε (Expectation), τα οποία εναλλάσσονται κυκλικά. Η διαδικασία σταματά όταν επέλθει σύγκλιση στις εκτιμώμενες τιμές. [3] Μοναδική τιμή Αποσύνθεσης (Singular Value Decomposition Imputation - SVDI) Σε αυτή την μέθοδο η SVD χρησιμοποιείται για να ληφθεί ένα σύνολο από κοινές ορθογώνιες εκφράσεις προτύπων οι οποίες μπορούν να συνδυαστούν γραμμικά για την προσέγγιση των τιμών όλων των χαρακτηριστικών του συνόλου δεδομένων. Στην αρχή γίνεται ο υπολογισμός των ελλιπών τιμών με τη χρήση του αλγορίθμου EM και στη συνέχεια με τη χρήση της SVD υπολογίζονται οι ιδιοτιμές. Με τη χρήση των ιδιοτιμών γίνεται η εφαρμογή 22

27 παλινδρόμησης στα πλήρη δεδομένα του χαρακτηριστικού για να ληφθεί μία εκτίμηση της ίδιας της ελλιπούς τιμής. [37] Ελάχιστος Τοπικός Τετραγωνικός Καταλογισμός (Local Least Squares Imputation-LLSI) Στη μέθοδο αυτή, το χαρακτηριστικό στόχος το οποίο έχει ελλιπείς τιμές αναπαρίσταται ως γραμμικός συνδυασμός των παρόμοιων περιπτώσεων. [37] 23

28 Κεφάλαιο 3 Αλγόριθμοι Εξόρυξης Γνώσης 3.1 Τι είναι Κατηγοριοποίηση (Classification) Δεδομένης μιας βάσης δεδομένων D = { 1, 2,..., n } εγγραφών και ένα σύνολο από κατηγορίες C = { C 1, C 2,..., C n t t t }, το πρόβλημα της κατηγοριοποίησης είναι να ορίσουμε μια απεικόνιση f : D C όπου κάθε εκχωρείται σε μια i κατηγορία. Μια κατηγορία ή κλάση περιέχει ακριβώς εκείνες τις j C j εγγραφές που έχουν απεικονιστεί σε αυτή, δηλαδή t C t C = { j i t f ti CJ, 1 i n και D. Απλούστερα, η ταξινόμηση είναι διαδικασία αναγνώρισης i της κλάσης στην οποία ανήκει κάθε στιγμιότυπο των δεδομένων. [8] Η διαδικασία της κατηγοριοποίησης έχει ως είσοδο μία συλλογή από εγγραφές που αποτελούν το σύνολο εκπαίδευσης. Κάθε εγγραφή περιέχει ένα σύνολο από γνωρίσματα (attributes). Ένα από τα γνωρίσματα είναι η κλάση. Ως έξοδος για το γνώρισμα κλάση θα υπάρχει ένα μοντέλο το οποίο είναι μία συνάρτηση τιμών των υπόλοιπων γνωρισμάτων. Η διαδικασία αυτή έχει ως σκοπό οι νέες άγνωστες εγγραφές να ανατίθενται σε μία από τις κλάσεις με τη μεγαλύτερη δυνατή ακρίβεια. Ένα σύνολο ελέγχου χρησιμοποιείται για τον καθορισμό της ακρίβειας του μοντέλου. Συνήθως το σύνολο δεδομένων χωρίζεται σε σύνολο εκπαίδευσης και σύνολο ελέγχου, με το σύνολο εκπαίδευσης να χρησιμοποιείται για να κατασκευαστεί το μοντέλο και το σύνολο ελέγχου για να επικυρωθεί. [2] 24

29 Εικόνα 10: Διαδικασία κατηγοριοποίησης Αλγόριθμοι Βασισμένοι σε Δένδρα Απόφασης Η προσέγγιση του δένδρου απόφασης είναι πολύ χρήσιμη στα προβλήματα κατηγοριοποιήσης. Με αυτήν την τεχνική, κατασκευάζεται ένα δένδρο για να μοντελοποιήσει τη διαδικασία της κατηγοριοποιήσης. Μόλις χτιστεί ένα δένδρο, εφαρμόζεται σε κάθε μία πλειάδα στη βάση δεδομένων και καταλήγει σε μία κατηγοριοποιήση για κάθε πλειάδα. Υπάρχουν δύο βασικά βήματα στην τεχνική αυτήν Η κατασκευή του δένδρου Η εφαρμογή του στη βάση δεδομένων του Ορισμός: Δίνεται ότι μια βάση δεδομένων είναι D t t t t t,..., 1 n όπου i i1,..., ih και ότι το σχήμα της βάσης δεδομένων περιέχει τα ακόλουθα γνωρίσματα A1, A2,..., A h. Επίσης δίνεται ένα σύνολο από κατηγορίες C C,..., 1 Cm. [9] 25

30 Ένα δένδρο απόφασης (decision Tree- DT) ή δένδρο κατηγοριοποίησης είναι δένδρο που συσχετίζεται με το D και έχει τις ακόλουθες ιδιότητες Κόμβος ρίζα, που δεν έχει εισερχόμενες ακμές και μηδέν ή περισσότερες εξερχόμενες Εσωτερικός κόμβος, παίρνει το όνομά του από ένα γνώρισμα A, και έχει ακριβώς μία εισερχόμενη ακμή και i δύο ή περισσότερες εξερχόμενες Ακμή, παίρνει το όνομά της από ένα κατηγόρημα-τιμή, το οποίο εφαρμόζεται στο γνώρισμα που συνδέεται με το πατέρα- κόμβο Φύλλο ή τερματικός κόμβος, έχει ως όνομα μια κατηγορία C, έχει ακριβώς μία εισερχόμενη ακμή και καμία i εξερχόμενη [9] Οι βασικοί αντικειμενικοί σκοποί των ταξινομητών δέντρων αποφάσεων είναι: i. Να ταξινομήσουν σωστά όσο το δυνατόν περισσότερο ποσοστό από το σύνολο εκπαίδευσης. ii. Να γενικεύσουν πέρα από το δείγμα εκπαίδευσης, έτσι ώστε ένα νέο άγνωστο δείγμα εκπαίδευσης να μπορεί να ταξινομηθεί με όσο το δυνατόν μεγαλύτερη ακρίβεια. iii. Να μπορούν να ενημερώνονται (update) όταν διαθέτουν περισσότερα δεδομένα. iv. Να έχουν όσο πιο απλή δομή γίνεται [9] 26

31 Παράδειγμα Δένδρου Απόφασης Αριστερά βρίσκεται το σύνολο δεδομένων (data set) ενώ δεξιά το δέντρο απόφασης. Το παραπάνω παράδειγμα, έχει μία ρίζα (όπως κάθε δέντρο) που σημειώνεται με κίτρινο χρώμα, δύο εσωτερικούς κόμβους που σημειώνονται με κόκκινο χρώμα και 4 φύλλα που σημειώνονται με μπλε χρώμα. [9] Για την κατανόηση του τρόπου λειτουργίας του δέντρου απόφασης, θα γίνει η ταξινόμηση σε μία από τις δύο κλάσεις του παραδείγματος (την YES και την NO) στην παρακάτω εγγραφή: [9] Ξεκινώντας από την ρίζα με το χαρακτηριστικό Refund η απάντηση είναι Νο, οπότε η κίνηση στο δένδρο είναι προς τα δεξιά και το επόμενο χαρακτηριστικό είναι το Marital Status στου οποίου η απάντηση είναι Married όπου το δένδρο καταλήγει στο κόμβο φύλλο Νο. [9] 27

32 Πιο γενικά Ξεκινώντας από τον κόμβο ρίζα, εφαρμόζεται η συνθήκη ελέγχου στην εγγραφή και ακολουθείται η κατάλληλη διακλάδωση ανάλογα με τα αποτελέσματα του ελέγχου Οδηγούμαστε σε έναν εσωτερικό κόμβο στον οποίο εφαρμόζεται μια νέα συνθήκη ελέγχου, και η διαδικασία συνεχίζεται μέχρι να φτάσουμε σε κόμβο φύλλο Η ετικέτα κατηγορία που σχετίζεται με το φύλλο αποδίδεται στην εγγραφή ελέγχου [9] Επαγωγή Δένδρου Απόφασης i. Αρχικοποίηση με ένα κόμβο που περιέχει όλες τις εγγραφές ii. Διάσπαση του κόμβου (μοίρασμα των εγγραφών) με βάση μία συνθήκη- διαχωρισμού σε κάποιο από τα γνωρίσματα. Επιλέγεται το καλύτερο γνώρισμα διαχωρισμού iii. Αναδρομική κλήση του δεύτερου βήματος iv. Η διαδικασία σταματά όταν ικανοποιηθεί κάποιο κριτήριο τερματισμού v. Εκτέλεση κλαδέματος του δένδρου (tree pruning) για βελτίωση της επίδοσης [9] Μηχανές Διανυσμάτων Υποστήριξης ( Support Vector Machines SVM) Οι μηχανές διανυσμάτων υποστήριξης αποτελούν αλγορίθμους που επιτυγχάνουν εκμάθηση γραμμικών ταξινομητών. Ο ταξινομητής SVM χρησιμοποιείται στα προβλήματα ταξινόμησης όπου υπάρχουν μόνο δύο κλάσεις (δυαδικά) και εξυπηρετούν και γραμμικά αλλά και μη γραμμικά δεδομένα. [10] Σκοπός αυτής της διαδικασίας είναι να βρεθεί ένα υπερεπίπεδο απόφασης το οποίο θα απομονώσει τα δεδομένα εκπαίδευσης έτσι ώστε τα δεδομένα που ανήκουν στην ίδια κατηγορία να βρίσκονται και στην ίδια πλευρά του υπερεπιπέδου. [10] 28

33 Εικόνα 11: Σκοπός των ταξινομητών SVM η εύρεση αυτού του υπερεπιπέδου Κατά τη διαδικασία εύρεσης κατάλληλου πολυεπιπέδου θα βρεθούν κι αλλά, το κατάλληλο όμως πολυεπίπεδο είναι αυτό για το οποίο η απόσταση από το κοντινότερο δεδομένο είναι μέγιστη, δηλαδή γίνεται αναζήτηση του υπερεπιπέδου μέγιστου περιθωρίου (maximal margin hyperplpane). Εικόνα 12: Το υπερεπίπεδο μεγίστου περιθωρίου 29

34 Υπερεπίπεδο Μέγιστου Περιθωρίου Εστω ένα σύνολο δεδομένων δύο γραμμικά διαχωρίσιμων τάξεων για τα οποία υπάρχει υπερεπίπεδο στο χώρο των υποδειγμάτων που ταξινομεί χωρίς λάθος όλα τα υποδείγματα εκπαίδευσης. Το υπερεπίπεδο μέγιστου περιθωρίου είναι εκείνο το οποίο επιτυγχάνει το μέγιστο διαχωρισμό μεταξύ των τάξεων. Το κυρτό περίβλημα ενός συνόλου σημείων (όπως φαίνεται και στην παραπάνω εικόνα) ορίζεται το μικρότερο δυνατό κυρτό πολύγωνο που εσωκλείει το σύνολο των σημείων. Οι δύο τάξεις (άσπρο-μαύρο) είναι γραμμικά διαχωρίσιμες όταν τα κυρτά περιβλήματά τους δεν επικαλύπτονται. Συμπερασματικά, ως υπερεπίπεδο μέγιστου περιθωρίου ορίζεται εκείνο με τη μέγιστη απόσταση από τα κυρτά περιβλήματα. Τα υποδείγματα με τη μικρότερη απόσταση από το υπερεπίπεδο μέγιστου περιθωρίου καλούνται διανύσματα υποστήριξης (support vectors). [10] Γραμμικώς Διαχωρίσιμα Δεδομένα T Η εξίσωση του γραμμικού διαχωρισμού θα είναι f ( x) w x b όπου w και b είναι οι παράμετροι του μοντέλου και xi ( xi 1, xi 2,..., xid ) το σύνολο των χαρακτηριστικών του i-οστού παραδείγματος εκπαίδευσης σε ένα σύνολο Ν παραδειγμάτων εκπαίδευσης {( x,y )} N i i i 1 και δυο κατηγορίες y { 1,1}. To w ονομάζεται διάνυσμα των βαρών και το b βάρος i κατωφλίου. Η εξίσωση του γραμμικού διαχωρισμού μπορεί να γραφεί και ως: T w x b 0 i T w x b 0 i όπου η πρώτη εξίσωση αναφέρεται στην κλάση +1 ενώ η δεύτερη στην κλάση -1. Το περιθώριο του υπερεπιπέδου υπολογίζεται με τον παρακάτω τύπο 2 arg in 2. [11] w 30

35 Εικόνα 13: Γραμμικό SVM Παράδειγμα SVM (Γραμμκώς Διαχωρίσιμα Δεδόμενα) Στην παραπάνω εικόνα φαίνονται οι δύο τρόποι με τους οποίους μπορούν να διαχωριστούν τα δεδομένα. Ο πιο κατάλληλος τρόπος είναι αυτός που θα αποδώσει και το μικρότερο λάθος. Ο πιο αποδοτικός διαχωρισμός είναι αυτός που θα έχει το μεγαλύτερο διαχωριστικό όριο (maximum marginal hyperplane) μεταξύ των κλάσεων και σύμφωνα με την εικόνα είναι ο δεύτερος τρόπος. [11] 31

36 Μη Γραμμικώς Διαχωρίσιμα Δεδομένα Σε αυτήν την κατηγορία ανήκουν τα δεδομένα των οποίων οι κλάσεις δεν μπορούν να διαχωριστούν με μία ευθεία γραμμή. [11] Εικόνα 14: Μη γραμμικό SVM Αλγόριθμος k-nearest Neighbor (k-κοντινότερου γείτονα knn) Ορισμός: Κ-κοντινότεροι γείτονες μίας εγγραφής x είναι τα σημεία που έχουν την k-οστή μικρότερη απόσταση από το x. [12] Εικόνα 15: Αλγόριθμος k-nn Στο παραπάνω σχήμα, στην πρώτη εικόνα φαίνεται ότι υπάρχει 1 πλησιέστερος γείτονας στο x, στη δεύτερη 2 πλησιέστεροι γείτονες και στην τρίτη 3 πλησιέστεροι γείτονες. [12] 32

37 Με βάση αυτόν τον αλγόριθμο για να κατηγοριοποιηθεί μία άγνωστη εγγραφή, απαιτούνται: Ο υπολογισμός της απόστασης από τις εγγραφές του συνόλου Εύρεση των k-κοντινότερων γειτόνων (βάσει της απόστασης) Χρήση των κλάσεων των κοντινότερων γειτόνων για τον καθορισμό της κλάσης της άγνωστης εγγραφής, με βάση την πλειοψηφία των κλάσεων των κοντινότερων γειτόνων. Η απόσταση των κοντινότερων γειτόνων με το σημείο του οποίου αναζητείται η κλάση του υπολογίζεται με τη χρήση μιας μετρικής απόστασης όπως η Ευκλείδεια. [12] Η Ευκλείδεια απόσταση μεταξύ δύο σημείων, π.χ. X1 ( x11, x12,..., x1 n ) και X ( x, x,..., x ) ορίζεται από την σχέση: [12] n dist( X, X ) ( x x ) 1 2 1i 2i i 1 n 2 Σημειώνεται ότι η τιμή του k επηρεάζει το αποτέλεσμα Αν το k είναι πολύ μικρό τότε υπάρχει ευαισθησία στα σημεία θορύβου Αν το k είναι πολύ μεγάλο, η γειτονιά μπορεί να περιέχει σημεία από άλλες κλάσεις Γενικά, όσο περισσότερα είναι τα πρότυπα εκπαίδευσης, τόσο μεγαλύτερη πρέπει να είναι η τιμή της παραμέτρου k. Συχνά, λαμβάνεται k n, όπου n είναι το σύνολο εκπαίδευσης. [12] Συνήθως, γίνεται κανονικοποίηση των τιμών πριν την χρήση του τύπου για τον υπολογισμό της απόστασης. H κανονικοποίηση έχει ως στόχο, τον περιορισμό της έκτασης του ελάχιστου και του μέγιστου των τιμών. Εκτελεί μια γραμμική μετατροπή των αρχικών δεδομένων και υποθέτοντας ότι min A και max A είναι η μικρότερη και η μεγαλύτερη τιμή σε ένα διάστημα Α, η min-max κανονικοποίηση μετατρέπει μια τιμή v του Α σε v στο διάστημα 33

38 [ new _ min A, new _ max A ] μέσω του τύπου: min A ' ( new _ max new _ min ) new _ min max min A A A A A [12] Στην περίπτωση που τα δεδομένα δεν είναι συμμετρικώς κατανεμημένα γύρω από τη μέση τιμή τότε χρησιμοποιούμε μη γραμμικές μεθόδους. Με αυτό τον τρόπο συμπιέζει τα δεδομένα στο διάστημα [0,1]. [12] Παράδειγμα k-nn Αλγορίθμου Στο παραπάνω σχήμα υπάρχει μία εγγραφή (κόκκινο αστέρι) άγνωστης κλάσης. Οι πιθανές κλάσεις είναι η κλάση Α με το κίτρινο και η κλάση Β με το μωβ χρώμα. Αν το k=3 τότε οι κοντινότεροι γείτονες της νέας εγγραφής είναι τρεις και ένας από αυτούς ανήκει στην κλάση Α ενώ οι υπόλοιποι δύο ανήκουν στην κλάση Β. Στην περίπτωση που το k=6 τότε οι πλησιέστεροι γείτονες της νέας εγγραφής είναι 6, οι 4 των οποίων ανήκουν στην κλάση Α και οι 2 στην κλάση Β. 34

39 Άλλες αποστάσεις που χρησιμοποιούνται για την εγγύτητα κάθε νέας εγγραφής είναι οι παρακάτω: [16] Γραμμική και Λογιστική Παλινδρόμηση Η παλινδρόμηση είναι μια ευρέως χρησιμοποιημένη στατιστική τεχνική μοντελοποίησης για την έρευνα της συσχέτισης μεταξύ μίας εξαρτώμενης μεταβλητής και μιας ή περισσότερων ανεξάρτητων μεταβλητών. Χρησιμοποιείται με σκοπό την εκχώρηση δεδομένων σε μία πραγματική μεταβλητή πρόβλεψης, όπως ισχύει και στην περίπτωση της κατηγοριοποίησης όταν είναι διακριτή, αλλιώς καλείται παλινδρόμηση αν η μεταβλητή είναι συνεχής. Η παλινδρόμηση προϋποθέτει ότι τα σχετικά δεδομένα ταιριάζουν με μερικά γνωστά είδη συνάρτησης και μετά καθορίζει την καλύτερη συνάρτηση αυτού 35

40 του είδους που μοντελοποιεί τα δεδομένα που έχουν δοθεί. Αποτέλεσμα της παλινδρόμησης όταν χρησιμοποιείται ως τεχνική εξόρυξης δεδομένων, αποτελεί ένα μοντέλο που χρησιμοποιείται αργότερα για να προβλέψει τις τιμές της κατηγορίας για τα νέα δεδομένα. [13] Η παλινδρόμηση είναι μια τεχνική που χρησιμοποιείται για την μοντελοποίηση και την ανάλυση αριθμητικών δεδομένων, μιας εξαρτημένης μεταβλητής και κάποιων ανεξάρτητων μεταβλητών. Το μοντέλο είναι μια συνάρτηση συσχέτισης της εξαρτημένης μεταβλητής από τις ανεξάρτητες. Η μοντελοποίηση μπορεί να γίνει χωρίς να είναι γνωστή από πριν η γνώση για τον τρόπο με τον οποίο συνδέεται η εξαρτημένη μεταβλητή από τις ανεξάρτητες και τότε ονομάζεται εμπειρική μοντελοποίηση. Στην γραμμική παλινδρόμηση, η απαίτηση του μοντέλου που θα παραχθεί είναι: η εξαρτημένη μεταβλητή y i να είναι ένας γραμμικός συνδυασμός των ανεξαρτήτων μεταβλητών. [13] Απλή Γραμμική Παλινδρόμηση Στην απλή γραμμική παλινδρόμηση υπάρχει η ανεξάρτητη μεταβλητή δύο παράμετροι 0, 1. Το μοντέλο έχει τη μορφή yi 0 1xi i με i 1, m όπου i είναι το σφάλμα της πρόβλεψης. [13], και Πολλαπλή Γραμμική Παλινδρόμηση Το μοντέλο της απλής γραμμικής παλινδρόμησης μπορεί να επεκταθεί με τη χρήση περισσότερων από μία ανεξάρτητες μεταβλητές. Αυτό το μοντέλο που προκύπτει είναι η πολλαπλή γραμμική παλινδρόμηση η οποία δίνεται από τον τύπο y 1x1 2x2... i Το μοντέλο αυτό ονομάζεται γενικό γραμμικό μοντέλο (general linear model). [13] 36

41 Λογιστική Παλινδρόμηση Η λογιστική παλινδρόμηση χρησιμοποιείται για την πρόβλεψη στην ύπαρξη ή όχι ενός χαρακτηριστικού. Πρόκειται για μία γενίκευση της απλή γραμμικής παλινδρόμησης όταν όμως η εξαρτημένη μεταβλητή Υ παίρνει δύο τιμές (0 και 1, 0 όταν λείπει το χαρακτηριστικό και 1 όταν υπάρχει). Η λογιστική συνάρτηση ορίζεται ως εξής f ( ) 1 1 exp( ). [13] 3.2 Αλγόριθμος Προώθησης Boosting Αρχικά, ας αναφερθεί ο στόχος του αλγορίθμου Προώθησης-Boosting ο οποίος είναι η παραγωγή ενός πολύ ακριβούς κανόνα με το συνδυασμό πολλών πρόχειρων αδύναμων κανόνων. Ο αλγόριθμος Προώθησης-Boosting προέρχεται από τον αλγόριθμο Hedge. [14] Ο αλγόριθμος αυτός ακολουθεί τα παρακάτω βήματα για να καταλήξει στην καλύτερη πρόβλεψη. 1. Σε ένα σύνολο στρατηγικών οι οποίες στο τέλος χρησιμοποιούνται για την πρόβλεψη αντιστοιχούνται με βάρη 2. Το βάρος κάθε στρατηγικής εκφράζει την πιθανότητα ποια στρατηγική είναι η πιο ακριβής 3. Στις στρατηγικές με τις σωστές προβλέψεις τοποθετούνται μεγαλύτερα βάρη εν αντιθέσει με τις στρατηγικές που προβλέπουν λανθασμένα των οποίων τα βάρη μειώνονται. [14] Θα δοθεί ένα χαρακτηριστικό παράδειγμα για την κατανόηση του αλγορίθμου: Αν κάποιος θέλει να στοιχηματίσει στον ιππόδρομο και θέλει να φτιάξει ένα πρόγραμμα για να έχει όσο περισσότερα κέρδη τότε αυτός ο αλγόριθμος θα δέχεται ένα διάνυσμα με πληροφορίες για κάθε ιπποδρομία (αποδόσεις, ηλικία αλόγων, κατάταξη καβαλάρη) και θα προβλέπει το νικητή κάθε ιπποδρομίας. Κάποιος ειδικός από τον ιππόδρομο λογικά δε θα μπορεί να δώσει μια απάντηση για το ποιο άλογο θα κερδίζει, πάντα στην περίπτωση όμως που παρουσιαστούν τα δεδομένα κάθε ιπποδρομίας θα μπορέσει να 37

42 απαντήσει για το ποιο άλογο είχε την καλύτερη απόδοση. Παρατηρείται ότι αυτός ο τρόπος που εξάγεται το συμπέρασμα δεν είναι πολύ ακριβής αλλά τουλάχιστον έχει περισσότερη βάση από μία τυχαία επιλογή. Στην περίπτωση που δοθούν στον ειδικό του ιπποδρόμου περισσότερες ιπποδρομίες θα μπορέσει να εξάγει περισσότερα συμπεράσματα. Τα δύο προβλήματα που προκύπτουν είναι με ποιον τρόπο θα επιλεγούν οι ιπποδρομίες καθώς και πως θα συνδυάσει τα συμπεράσματα που έχουν εξαχθεί. Από αυτά τα δύο προβλήματα που προέκυψαν ο αλγόριθμος boosting μπορεί να εξάγει ένα ακριβή κανόνα πρόβλεψης με τον συνδυασμό αυτών των δύο ασαφών παραγόντων. [14] 3.3 Νευρωνικά Δίκτυα Τι είναι τα Νευρωνικά Δίκτυα Τα νευρωνικά δίκτυα έκαναν την εμφάνιση τους τα τελευταία σαράντα περίπου χρόνια. Το κύριο χαρακτηριστικό τους είναι ότι βασίζονται στο νευρικό σύστημα των ζωντανών οργανισμών. Στην ουσία προσπαθούν να συνδυάσουν τον τρόπο σκέψης του ανθρώπινου εγκεφάλου με τον μαθηματικό τρόπο σκέψης. Χαρακτηριστικά σημειώνεται ότι χρησιμοποιούνται εκφράσεις όπως «ένα δίκτυο μαθαίνει και εκπαιδεύεται», «θυμάται ή ξεχνά μία αριθμητική τιμή» εκφράσεις που μέχρι τώρα σχετίζονταν με τον άνθρωπο. Πιο συγκεκριμένα τα νευρωνικά δίκτυα ξεκινούν από τη βιολογία. Το νευρικό σύστημα των οργανισμών αποτελείται από πολλά νευρωνικά δίκτυα τα οποία είναι υπεύθυνα για την επαφή με τον εξωτερικό κόσμο, τη μάθηση, την μνήμη. Ο εγκέφαλος ο οποίος έχει το πιο σημαντικό ρόλο στο νευρικό σύστημα αποτελείται από νευρωνικά δίκτυα. Κάθε νευρωνικό δίκτυο αποτελείται από πολλούς νευρώνες ή νευρώνια (neurons). Ο κάθε νευρώνας είναι ανεξάρτητος στο δίκτυο και συνεχώς επεξεργάζονται πληροφορίες. [15] Τα βιολογικά νευρωνικά δίκτυα στους ζωντανούς οργανισμούς εύκολα μπορούν να αναγνωρίσουν μία εικόνα ή μία φωνή. Ο ηλεκτρονικός υπολογιστής λόγω της διαφορετική δομής του σε σχέση με αυτή του 38

43 εγκεφάλου δεν μπορεί να το επιτύχει. Ένας τρόπος για να επιτευχθεί αυτό είναι να δημιουργηθούν πρότυπα του νευρωνικού συστήματος του ανθρώπου, τα οποία θα περιέχουν όλα τα χαρακτηριστικά που είναι γνωστά και τα οποία θα μπορούσαν μόνα τους να εκτελέσουν τις εργασίες όπως κάνουν τα βιολογικά νευρωνικά δίκτυα. Τα δίκτυα αυτά ονομάζονται τεχνικά νευρωνικά δίκτυα (Artificial Neural Nets, ANN). Τα δίκτυα αυτά παίρνουν τη γνώση και μαθαίνουν με την εξάσκηση και την εμπειρία αλλά δεν ακολουθούν κανόνες. Η εκπαίδευση γίνεται με τη παρουσίαση αντιπροσωπευτικών ή παρόμοιων προτύπων στο δίκτυο με αυτά που είναι ο στόχος να μάθει. Κάθε δίκτυο έχει δέχεται εισόδους και δίδει εξόδους. Στην ουσία του δίνονται ως είσοδοι κάποια πρότυπα για τα οποία είναι η γνωστή η έξοδος. Το δίκτυο δημιουργεί την εσωτερική δομή και αφού βρει τη σωστή θα μπορεί να λύνει και άλλα παρόμοια προβλήματα τα οποία θα είναι άγνωστα μέχρι τότε. Τα προβλήματα αυτά όμως πρέπει να είναι της ίδιας φύσης και των ίδιων χαρακτηριστικών όπως αυτά της εκπαίδευσης. [15] Εκπαίδευση ενός Νευρωνικού Δικτύου Εικόνα 16: Δομή Νευρικού Δικτύου Ένα νευρωνικό δίκτυο αποτελείται από νευρώνες. Κάθε νευρώνας έχει ηλεκτρικά σήματα τα οποία τα δέχεται ως είσοδο, μία μόνο έξοδο και κάποιες πιθανές καταστάσεις στις οποίες μπορεί να βρεθεί. Όπως φαίνεται και στην εικόνα κάθε είσοδος έχει μία τιμή βάρους από την οποία συνεπάγεται πόσο 39

44 στενός είναι ο σύνδεσμος δύο νευρώνων που συνδέονται. Το εύρος της τιμής του βάρους είναι [-1,1]. Με την ενεργοποίηση κάθε νευρώνα υπολογίζεται μία συνάρτηση με όλα τα υπάρχοντα δεδομένα και γίνεται σύγκριση της τιμής αυτής της συνάρτησης με την τιμή κατωφλίου η οποία είναι χαρακτηριστική για το συγκεκριμένο νευρώνα. Στην περίπτωση που η τιμή της συνάρτησης είναι μεγαλύτερη από εκείνη του κατωφλίου, ο νευρώνας υπολογίζει την έξοδο και την προωθεί ως είσοδο στον επόμενο νευρώνα. [15] Οι τιμές των βαρών αλλάζουν κατά τη διάρκεια της εκπαίδευσης και ο τρόπος με τον οποίο αλλάζουν εξαρτάται από την μέθοδο που έχει επιλεχθεί. Είναι τρεις οι τρόποι με τους οποίους αλλάζουν τα βάρη: ο εποπτευόμενος τρόπος, ο μη εποπτευόμενος και ο αυτό-εποπτευόμενος, Εποπτευόμενος Τυχαία αρχικοποίηση τιμών στις τιμές των βαρών, δίνονται οι τιμές των εισόδων και των στόχων. Στη διαδικασία της εκπαίδευσης αλλάζουν οι τιμές των βαρών σε σχέση με το σφάλμα που υπάρχει σε σχέση με το στόχο. Μη-εποπτευόμενος Δίνεται η πληροφορία στο δίκτυο χωρίς να γίνεται κάποιος έλεγχος. Αυτο-εποπτευόμενος Το δίκτυο αυτό-ελέγχει τον εαυτό του και διορθώνει μόνο του τα σφάλματα στα δεδομένα με τον μηχανισμό ανάδρασης. [15] Η εκπαίδευση ολοκληρώνεται όταν τα βάρη σταματούν να μεταβάλλονται και αυτό συμβαίνει όταν το βάρος της εξόδου είτε είναι μηδέν ή τείνει στο μηδέν. Τέλος, ένα απλό νευρωνικό δίκτυο αποτελείται από ένα νευρώνα. Τα πιο περίπλοκα νευρωνικά δίκτυα δημιουργούνται από πολλούς νευρώνες οι οποίοι συνδέονται με συγκεκριμένη δομή. Όταν η δομή είναι πολύ περίπλοκη πρόκειται για αρχιτεκτονική δικτύων η οποία είναι διαφορετική από την δομή των υπολογιστών. Οι υπολογιστές δουλεύουν σειριακά σε αντίθεση με τα νευρωνικά δίκτυα τα οποία έχουν παράλληλο τρόπο λειτουργίας αφού μία εργασία μοιράζεται σε διαφορετικά τμήματα του δικτύου και από αυτό συνεπάγεται και η μεγάλη ταχύτητα. [15] 40

45 3.4 Ακολουθιακής Ελάχιστης Βελτιστοποίησης (Sequential Minimal Optimization -SMΟ) Είναι ένας νέος αλγόριθμος για την εκπαίδευση των Μηχανών Διανυσμάτων Υποστήριξης (Support Vector Machines). H εκπαίδευση ενός SVM προϋποθέτει τη λύση ενός πολύ μεγάλου τετραγωνικού προγραμματιστικού προβλήματος βελτιστοποίησης. Ο SMO σπάει αυτό το μεγάλο πρόβλημα σε μια σειρά από μικρότερα δυνατά προβλήματα. Αυτά τα μικρά προβλήματα επιλύονται αναλυτικά και αποφεύγεται η χρήση ενός χρονοβόρου εσωτερικού βρόχου για τη αριθμητική βελτιστοποίηση. [38] 3.5 Πολυεπίπεδο Νευρωνικό Δίκτυο (Multilayer perceptron) Ένα πολυεπίπεδο νευρωνικό δίκτυο (MLP) είναι ένα τεχνητό μοντέλο μεταδράσεως νευρωνικό δίκτυο που χαρτογραφεί σύνολα δεδομένων εισόδου σε ένα σύνολο κατάλληλων εξόδων. Ένα MLP αποτελείται από πολλαπλά στρώματα των κόμβων σε ένα κατευθυνόμενο γράφημα, με κάθε στρώμα πλήρως συνδεδεμένο με το επόμενο. Εκτός από τους κόμβους εισόδου, κάθε κόμβος είναι ένας νευρώνας (ή στοιχείο επεξεργασίας) με μια μη γραμμική συνάρτηση ενεργοποίησης. Το MLP χρησιμοποιεί μια εποπτευόμενη τεχνική μάθησης που ονομάζεται ανάστροφη διάδοση για την εκπαίδευση του δικτύου. Το MLP είναι μια τροποποίηση του προτύπου γραμμικού perceptron και μπορεί να διακρίνει στοιχεία που δεν είναι γραμμικά διαχωρίσιμα. [39] 41

46 Κεφάλαιο 4 Διαχείριση Προβλήματος με τη χρήση του KEEL Το ΚEEL (Knowledge Extraction based on Evolutionary Learning) είναι ένα ανοιχτού κώδικα (GPLv3) εργαλείο λογισμικού Java που χρησιμοποιείται για την εξαγωγή γνώσης η οποία βασίζεται στην εξελικτική μάθηση. Το KEEL παρέχει ένα απλό GUI με βάση τη ροή των δεδομένων για το σχεδιασμό των πειραμάτων με διαφορετικά σύνολα δεδομένων και υπολογιστικών αλγορίθμων νοημοσύνης (με ιδιαίτερη προσοχή στους εξελικτικούς αλγορίθμους), προκειμένου να εκτιμηθεί η συμπεριφορά των αλγορίθμων. Περιέχει μία ευρεία ποικιλία των κλασσικών αλγορίθμων εξόρυξης γνώσης, τεχνικές προ-επεξεργασίας (επιλογή συνόλου εκπαίδευσης, επιλογή χαρακτηριστικών, διακριτοποίηση, μέθοδοι καταλογισμού για τις τιμές που λείπουν) και μεταξύ άλλων υπολογιστικούς αλγόριθμους μάθησης βασιζόμενους στη συγκέντρωση πληροφοριών, υβριδικά μοντέλα, στατιστικές μεθοδολογίες προ-επεξεργασίας και ούτω καθεξής. Αυτό επιτρέπει την εκτέλεση μιας πλήρους ανάλυσης των νέων υπολογιστικής νοημοσύνης προτάσεων σε σχέση με τις υπάρχουσες. Το κύριο μενού του εργαλείου KEEL περιλαμβάνει: Διαχείριση Δεδομένων (Data Management): Το τμήμα διαχείρισης δεδομένων, συγκεντρώνει όλες τις λειτουργίες που σχετίζονται με τα σύνολα δεδομένων που χρησιμοποιούνται κατά τη διαδικασία εξόρυξης δεδομένων. Ορισμένες λειτουργίες σχετίζονται με την μετατροπή του συνόλου δεδομένων από άλλες μορφές δεδομένων που χρησιμοποιήθηκε στα εργαλεία διαχείρισης δεδομένων ή στα εργαλεία εξόρυξης δεδομένων του KEEL και αντίστροφα. Η ενότητα αυτή επιτρέπει επίσης την τροποποίηση του συνόλου δεδομένων μέσω του γραφικού περιβάλλοντος και περιλαμβάνει επίσης βοηθητικά προγράμματα για την οπτικοποίηση των δεδομένων. Τέλος, υπάρχει μια διαδικασία για να δημιουργηθούν κατατμήσεις σε ένα σύνολο δεδομένων. Αυτές οι κατατμήσεις θα χρησιμοποιηθούν στο τμήμα πειραμάτων για τη δημιουργία διασταυρωμένης επικύρωσης k-μερών στα πειράματα με έναν εύκολο τρόπο. 42

47 Πειράματα (Experiments): Η ενότητα πειραμάτων σχεδιάστηκε για να βοηθήσει τον χρήστη να δημιουργήσει ένα πείραμα εξόρυξης δεδομένων χρησιμοποιώντας ένα γραφικό περιβάλλον. Το πείραμα που δημιουργείται μπορεί να τρέξει σε οποιαδήποτε μηχανή που υποστηρίζει μία Java Εικονική Μηχανή. Αυτή η ενότητα είναι το πιο ισχυρό τμήμα που περιλαμβάνεται στο εργαλείο, δεδομένου ότι δίνει τη δυνατότητα στο χρήστη να εφαρμόσει την υλοποίηση περισσότερων από 500 αλγόριθμους για οποιοδήποτε σύνολο δεδομένων και να εκπληρώσει ένα πείραμα εξόρυξης δεδομένων. Η διαδικασία αυτή ανακουφίζει τον χρήστη από το να δημιουργήσει όλα τα αρχεία ρυθμίσεων για τις μεθόδους (αυτά τα αρχεία δημιουργούνται αυτόματα από το λογισμικού ΚΕΕL) και επιτρέπει στο χρήστη να εκτελέσει συγκρίσεις με ένα μεγάλο αριθμό από σύνολα δεδομένων, ένα μεγάλο αριθμό των αλγορίθμων και άλλων χρήσιμων λειτουργιών όπως την εφαρμογή των στατιστικών ελέγχων με τα αποτελέσματα του πειράματος ή την έξοδο των χρήσιμων δεδομένων που συνδέονται με το πείραμα, για παράδειγμα η ακρίβεια του ταξινομητή σε ένα σύνολο δεδομένων. Εκπαιδευτικά (Educational): Η εκπαιδευτική ενότητα προσπαθεί να είναι ένα χρήσιμο εργαλείο σε ένα περιβάλλον διδασκαλίας. Για την επίτευξη του στόχου αυτού, το εκπαιδευτικό τμήμα προσφέρει μια προβολή σε πραγματικό χρόνο για την εξέλιξη των αλγορίθμων, που επιτρέπει στους χρήστες να χρησιμοποιήσουν αυτές τις πληροφορίες για να μάθουν πώς μπορούν να ρυθμίσουν τις παραμέτρους τους. Ενότητες (Modules): Το τμήμα αυτό περιλαμβάνει νέες ενότητες που επεκτείνει τις λειτουργίες του λογισμικού KEEL για συγκεκριμένα καθήκοντα που συνδέονται με τη διαδικασία εξόρυξης δεδομένων που απαιτούν ειδική μεταχείριση. «Ανισόρροπη» Mάθηση (Imbalanced Learning): Αυτή η ενότητα διαθέτει αρκετούς αλγορίθμους που έχουν σχεδιαστεί ειδικά για την «ανισόρροπη» κατηγοριοποίηση. Το γραφικό περιβάλλον δίνει στον χρήστη την πρόσβαση σε ένα συγκεκριμένο σύνολο προβλημάτων στο οποίο οι αλγόριθμοι και οι διαδικασίες αξιολόγησης στην «ανισόρροπη» κατηγοροποίηση διατηρούν την 43

48 ίδια δομή και τους ίδιους στόχους με την ενότητα των πειραμάτων. Μη Παραμετρική Στατιστική Ανάλυση (Non-Parametric Statistical Analysis): Η ενότητα αυτή παρέχει στο χρήστη αρκετές μηπαραμετρικές στατιστικές διαδικασίες κατά ζεύγη (Wilcoxon τεστ) και πολλαπλές συγκρίσεις, μαζί με τις διάφορες εκ των υστέρων διαδικασίες για τις προηγμένες επαληθεύσεις των αποτελεσμάτων, που δίνονται σε ακατέργαστη μορφή CSV. Επιπλέον, αυτή η ενότητα εξάγει όλα τα αποτελέσματα των αναλύσεων σε μορφή LaTeX, διευκoλύνει την ένταξη των αναφορών που λαμβάνονται σε οποιαδήποτε πειραματική έκθεση. Ημι-Εποπτευόμενη Μάθηση (Semi-Supervised Learning): Η ενότητα αυτή, παρόμοια με την «Ανισόρροπη» Μάθηση, είναι αφιερωμένη στη δημιουργία και το σχεδιασμό των πειραμάτων που σχετίζονται με την ημι-εποπτευόμενη μάθηση. Διαθέτει ένα περιβάλλον παρόμοιο με την ενότητα των πειραμάτων το οποίο χαρακτηρίζει τα συναφή σύνολα δεδομένων και τις μεθόδους οι οποίες ήταν χρήσιμες. Μάθηση Πολλαπλού Παραδείγματος (Multiple Instance Learning): Η ενότητα αυτή ακολουθεί το ίδιο πρότυπο με τις μη ισορροπημένες και ημι-εποπτευόμενες ενοτήτες μάθησης, επιτρέπει στο χρήστη να δημιουργήσει και να προετοιμάσει τα πειράματα πολλαπλής-μάθησης. Διαθέτει ένα γραφικό περιβάλλον παρόμοιο με του τμήματος πειραμάτων που δίνει πρόσβαση σε συγκεκριμένα σύνολα δεδομένων πολλαπλών παραδειγμάτων και αλγορίθμων οι οποίοι είναι σχεδιασμένοι για να αντιμετωπίσουν αυτό το πρόβλημα Περιγραφή Βάσεων Δεδομένων Στο σημείο αυτό θα γίνει η περιγραφή μερικών βάσεων δεδομένων οι οποίες θα χρησιμοποιηθούν για να δοθεί το αποτέλεσμα ποια μέθοδος αντιμετώπισης ελλιπών τιμών είναι πιο αποδοτική όσον αφορά τους αλγορίθμους C4.5, MLP, SMO, 3-NN. 44

49 4.1.1 Primary Tumor data set Η πρώτη περιγραφή θα γίνει στη βάση δεδομένων Primary Tumor Data Set ( ). Είναι ένα σύνολο το οποίο αποτελείται από ένα δείγμα 339 εγγραφών, 17 χαρακτηριστικών και υπάρχουν ελλιπείς τιμές. H βάση αναφέρεται σε ποιο σημείο του οργανισμού βρίσκεται ο όγκος Dermatology data set Πρόκειται για τη βάση δεδομένων Dermatology Data Set ( Είναι ένα σύνολο το οποίο αποτελείται από ένα δείγμα 366 εγγραφών, 34 χαρακτηριστικών και υπάρχουν ελλιπείς τιμές. Στο σύνολο δεδομένων σχετίζεται με τις ερυθηματολεπιδώδεις πλάκες, το χαρακτηριστικό οικογενειακό ιστορικό έχει την τιμή 1 εάν οποιαδήποτε από αυτές τις ασθένειες έχει παρατηρηθεί στην οικογένεια, και 0 διαφορετικά. Το χαρακτηριστικό ηλικία αντιπροσωπεύει απλά την ηλικία του ασθενούς. Για κάθε άλλο χαρακτηριστικό (κλινικά και ιστοπαθολογικά) ο βαθμός κυμαίνεται στην κλίμακα από 0 έως 3. Εδώ, 0 υποδεικνύει ότι το χαρακτηριστικό δεν ήταν παρόν, 3 υποδεικνύει την μεγαλύτερη δυνατή ποσότητα, και 1, 2 δείχνουν τις σχετικές ενδιάμεσες τιμές Automobile data set To σύνολο δεδομένων που θα χρησιμοποιηθεί ονομάζεται Automobile Data Set ( Το σύνολο των εγγραφών είναι 205, ο αριθμός των χαρακτηριστικών είναι 26 και υπάρχουν ελλιπείς τιμές. Αυτό το σύνολο δεδομένων αποτελείται από τρεις τύπους οντοτήτων : (α) ο προσδιορισμός τoυ αυτόματου όσον αφορά διάφορα χαρακτηριστικά (β) αποδίδεται βαθμολογία σχετικά με τον κίνδυνο της ασφάλειάς του (γ)οι απώλειες είναι κανονικοποιημένες λόγω της χρήσης του σε σύγκριση με άλλα αυτοκίνητα. 45

50 Symboling αντιστοιχεί στο βαθμό στον οποίο «το αυτόματο» είναι πιο επικίνδυνο από την τιμή που υποδεικνύει. Στα αυτοκίνητα δόθηκε αρχικά ένα «risk factor symbol» όπου συνδέεται ο κίνδυνος με την τιμή του. Στη συνέχεια, αν είναι πιο επικίνδυνη ( ή λιγότερο ), το σύμβολο αυτό ρυθμίζεται μετακινώντας την πιο πάνω ( ή προς τα κάτω ) την κλίμακα. Η τιμή του +3 υποδεικνύει ότι το «αυτόματο» είναι επικίνδυνο, -2 ότι ίσως είναι αρκετά ασφαλής. Η κλάση θα είναι το χαρακτηριστικό symboling Horse Colic data set Πρόκειται για τη βάση δεδομένων Horse Colic Data Set ( Είναι ένα σύνολο το οποίο αποτελείται από ένα δείγμα 368 εγγραφών, 23 χαρακτηριστικών και υπάρχουν ελλιπείς τιμές. Ένα σύνολο δεδομένων για τις ασθένειες των ίππων. Ο στόχος είναι να καθορίσει εάν το άλογο χρειάζεται χειρουργείο ή όχι Mushroom data set Πρόκειται για τη βάση δεδομένων Mushroom Data Set ( Είναι ένα σύνολο το οποίο αποτελείται από ένα δείγμα 8124 εγγραφών, 22 χαρακτηριστικών και υπάρχουν ελλιπείς τιμές. Κάθε είδος ταυτοποιείται ως βρώσιμο ή δηλητηριώδες Cylinder Bands data set Πρόκειται για τη βάση δεδομένων Cylinder Bands Data Set ( ). Είναι ένα σύνολο το οποίο αποτελείται από ένα δείγμα 539 εγγραφών, 19 χαρακτηριστικών και υπάρχουν ελλιπείς τιμές. Στόχος είναι να καθοριστεί εάν ένα κομμάτι είναι cylinder band. 46

51 4.1.7 Hepatitis data set To σύνολο δεδομένων που θα χρησιμοποιηθεί ονομάζεται Hepatitis Data Set ( ). Το σύνολο των εγγραφών είναι 155, ο αριθμός των χαρακτηριστικών είναι 19 και υπάρχουν ελλιπείς τιμές. Στόχος είναι να προβλεφθεί αν οι ασθενείς αυτοί θα πεθάνουν και τότε ανήκουν στην κλάση 1 ή θα επιβιώσουν όπου τότε θα βρίσκονται στην κλάση Water-Treatment Plant data set To σύνολο δεδομένων που θα χρησιμοποιηθεί ονομάζεται Water- Treatment Plant Data Set ( ). Το σύνολο των εγγραφών είναι 527 και ο αριθμός των χαρακτηριστικών είναι 38. Ο στόχος είναι να χαρακτηρίσει την κατάσταση λειτουργίας του εργοστασίου με σκοπό την πρόγνωση βλαβών μέσω των μεταβλητών κατάστασης του φυτού σε κάθε ένα από τα στάδια της διαδικασίας επεξεργασίας Credit Approval data set To σύνολο δεδομένων που θα χρησιμοποιηθεί ονομάζεται Credit Approval Data Set ( ). Το σύνολο των εγγραφών είναι 690, ο αριθμός των χαρακτηριστικών είναι 15. Αυτό το αρχείο αφορά εφαρμογές πιστωτικών καρτών. Όλα τα ονόματα και τις τιμές των γνωρισμάτων έχουν αλλάξει σε σύμβολα για την προστασία του απορρήτου των δεδομένων. Αυτό το σύνολο δεδομένων είναι ενδιαφέρον, επειδή υπάρχει ένα καλό μείγμα από χαρακτηριστικά: συνεχής, ονομαστικές με μικρό και με μεγαλύτερο αριθμό τιμών Breast Cancer Wisconsin (Original) data set Το σύνολο δεδομένων που θα χρησιμοποιηθεί ονομάζεται Breast Cancer Wisconsin (Original) Data Set ( ). Tο σύνολο των εγγραφών είναι 683, ο αριθμός των χαρακτηριστικών είναι 9 και υπάρχουν ελλιπείς τιμές. Αυτή η βάση δεδομένων περιέχει τις περιπτώσεις 47

52 από μία μελέτη που διεξήχθη στο Πανεπιστήμιο του Wisconsin Νοσοκομεία, Μάντισον, για τους ασθενείς που είχαν υποβληθεί σε χειρουργική επέμβαση για καρκίνου του μαστού. Ο στόχος είναι να προσδιοριστεί εάν ο ανιχνευόμενος όγκος είναι καλοήθης ή κακοήθης. Συνεπώς, σημειώνεται ότι αν ο όγκος είναι καλοήθης ανήκει στην κλάση (2) και αν είτε κακοήθης στην κλάση (4) Breast Cancer data set To σύνολο δεδομένων που θα χρησιμοποιηθεί ονομάζεται Breast Cancer Data Set ( Το σύνολο των εγγραφών είναι 286, ο αριθμός των χαρακτηριστικών είναι 9 και υπάρχουν ελλιπείς τιμές. Κάθε περίπτωση του δείγματος ανήκει σε μία από τις δύο κλάσεις no-recurrence-events ή recurrence-events Post-Operative data set To σύνολο δεδομένων που θα χρησιμοποιηθεί ονομάζεται Post-Operative Data Set ( ). Το σύνολο των εγγραφών είναι 90, ο αριθμός των χαρακτηριστικών είναι 8 και υπάρχουν ελλιπείς τιμές. Η διαδικασία της ταξινόμησης αυτής της βάσης δεδομένων είναι να προσδιοριστεί ο τόπος όπου οι ασθενείς θα βρίσκονται στην μετεγχειρητική ανάκαμψη. Επειδή η υποθερμία είναι μια σημαντική ανησυχία μετά την επέμβαση, τα χαρακτηριστικά αντιστοιχούν με τις μετρήσεις της θερμοκρασίας του σώματος. Η ετικέτα τάξη μπορεί να λάβει μία από τις ακόλουθες τιμές: Ι (ασθενής πρέπει να μεταφερθεί στην Μονάδα Εντατικής Θεραπείας), S (ασθενής είναι έτοιμη να πάει στο σπίτι), Α (ασθενής που μεταφέρεται στο Γενικό Νοσοκομείο) Mammographic Mass data set To σύνολο δεδομένων που θα χρησιμοποιηθεί ονομάζεται Mammographic Data Set ( ). Το σύνολο των εγγραφών είναι 961, ο αριθμός των χαρακτηριστικών είναι 5 και υπάρχουν ελλιπείς τιμές. Αυτό το σύνολο δεδομένων μπορεί να χρησιμοποιηθεί για να προβλεφθεί η σοβαρότητα 48

53 (καλοήθης ή κακοήθης) ενός όγκου από μία μαστογραφία από BI-RADS χαρακτηριστικά και την ηλικία του ασθενούς Heart Disease (Cleveland) data set To σύνολο δεδομένων που θα χρησιμοποιηθεί ονομάζεται Heart Disease (Cleverland) Data Set ( ). Το σύνολο των εγγραφών είναι 303. Αυτό το σύνολο δεδομένων σχετίζεται με την καρδιοπάθεια, χρησιμοποιώντας ένα υποσύνολο των 14 χαρακτηριστικών. Ο στόχος είναι να ανιχνεύσει την παρουσία της καρδιακής νόσου στον ασθενή. Είναι ακέραιος και αποτιμάται από 0 (χωρίς παρουσία) έως Sponge Data Set To σύνολο δεδομένων που θα χρησιμοποιηθεί ονομάζεται Sponge Data Set ( ). Το σύνολο των εγγραφών είναι 76, ο αριθμός των χαρακτηριστικών είναι 45 και υπάρχουν ελλιπείς τιμές Audiology (Original) Data Set To σύνολο δεδομένων που θα χρησιμοποιηθεί ονομάζεται Audiology (Original) Data Set ( ). Το σύνολο των εγγραφών είναι Lung-Cancer Data Set To σύνολο δεδομένων που θα χρησιμοποιηθεί ονομάζεται Lung Cancer Data Set ( ). Το σύνολο των εγγραφών είναι 32, ο αριθμός των χαρακτηριστικών είναι 56 και υπάρχουν ελλιπείς τιμές. Σε αυτή τη βάση δεδομένων περιγράφονται τρεις τύποι παθολογικών καρκίνων του πνεύμονα. 49

54 Echocardiogram Data Set To σύνολο δεδομένων που θα χρησιμοποιηθεί ονομάζεται Echocardiogram Data Set ( ). Το σύνολο των εγγραφών είναι 132, ο αριθμός των χαρακτηριστικών είναι 12 και υπάρχουν ελλιπείς τιμές. Στόχος είναι να αναφέρει εάν ένας ασθενής επέζησε για τουλάχιστον ένα έτος μετά την καρδιακή προσβολή Ozone Level Detection Data Set To σύνολο δεδομένων που θα χρησιμοποιηθεί ονομάζεται Ozone Level Detection Data Set ( ). Το σύνολο των εγγραφών είναι 2536, ο αριθμός των χαρακτηριστικών είναι 73 και υπάρχουν ελλιπείς τιμές. Στόχος είναι να αναφερθεί αν η ημέρα ήταν κανονική ή ήταν ημέρα όζοντος Soybean (Small) Data Set To σύνολο δεδομένων που θα χρησιμοποιηθεί ονομάζεται Soybean (Small) Data Set ( Το σύνολο των εγγραφών είναι 47 και ο αριθμός των χαρακτηριστικών είναι Congressional Voting Data Set To σύνολο δεδομένων που θα χρησιμοποιηθεί ονομάζεται Congressional Voting Data Set ( Το σύνολο των εγγραφών είναι 435. Αυτό το σύνολο δεδομένων περιλαμβάνει ψήφους για κάθε της αμερικανικής Βουλής των Αντιπροσώπων του Κογκρέσου στις 16 βασικές ψήφους που προσδιορίζονται από το CQA. Η CQA απαριθμεί εννέα διαφορετικούς τύπους των ψήφων: voted for, paired for, and announced for (these three simplified to yea), voted against, paired against, and announced against (these three simplified to nay), voted present, voted present to avoid conflict of interest, and did not vote or otherwise make a position known (these three simplified to an unknown disposition). 50

55 4.2 Διαχείριση Προβλήματος με τη χρήση του εργαλείου KEEL Στους παρακάτω πίνακες φαίνονται τα αποτελέσματα για κάθε ένα από τους τέσσερις ταξινομητές C4.5, MLP, SMO, 3-NN. Τα δεδομένα τροποποιήθηκαν μέσω των μεθόδων: EC, k-νν, WKNN, KM, FKM, SVM, EM, IM, MC, CMC, SVDI, BPCA, LLSI και τέλος χρησιμοποιήθηκε η μέθοδος DI όπου τα δεδομένα παρέμειναν με τις ελλιπείς τιμές τους C4.5 Ταξινομητής Στον πίνακα της εικόνας 17 αναφέρονται οι μέθοδοι αντιμετώπισης ελλιπών τιμών όσον αφορά το μέρος της εκπαίδευσης (training) του C4.5. Σύμφωνα με τον πίνακα η μέθοδος που σημείωσε την καλύτερη απόδοση 88.72% κατά μέσο όρο είναι η CMC. Ενώ η μέθοδος που σημείωσε την χειρότερη τιμή 85.18% είναι η EM. Στον πίνακα της εικόνας 19 αναφέρονται οι μέθοδοι αντιμετώπισης ελλιπών τιμών όσον αφορά το μέρος του ελέγχου (test) του C4.5. Σύμφωνα με τον πίνακα η μέθοδος που σημείωσε την καλύτερη απόδοση 76.4% κατά μέσο όρο είναι η SVMI. Ενώ η μέθοδος που σημείωσε την χειρότερη τιμή 48.19% είναι η BPCA. Στα ραβδογράμματα, στην εικόνα 18 και 20, φαίνονται αναλυτικά οι αποδόσεις για κάθε μέθοδο αντικατάστασης ελλιπών τιμών σε όλα τα σύνολα εκπαίδευσης και ελέγχου των βάσεων δεδομένων, αντίστοιχα.. 51

56 Εικόνα 17: Απόδοση των μεθόδων αντιμετώπισης ελλιπών τιμών στα σύνολο εκπαίδευσης διάφορων βάσεων δεδομένων μέσω του ταξινομητή C4.5 52

57 Εικόνα 18: Ραβδόγραμμα αποδοτικότητας των μεθόδων αντιμετώπισης ελλιπών τιμών σε όλες τις βάσεις δεδομένων 53

58 Εικόνα 19: Απόδοση των μεθόδων αντιμετώπισης ελλιπών τιμών στα σύνολα ελέγχου διάφορων βάσεων δεδομένων μέσω του ταξινομητή C4.5 54

59 Εικόνα 20 : Ραβδόγραμμα αποδοτικότητας των μεθόδων αντιμετώπισης ελλιπών τιμών σε όλες τις βάσεις δεδομένων 55

60 4.2.2 MLP Ταξινομητής Στον πίνακα της εικόνας 21 αναφέρονται οι μέθοδοι αντιμετώπισης ελλιπών τιμών όσον αφορά το μέρος της εκπαίδευσης του MLP. Σύμφωνα με τον πίνακα η μέθοδος που σημείωσε την καλύτερη απόδοση 80.34% κατά μέσο όρο είναι η LLSI. Ενώ η μέθοδος που σημείωσε την χειρότερη τιμή 62.11% είναι η IM. Στον πίνακα της εικόνας 23 αναφέρονται οι μέθοδοι αντιμετώπισης ελλιπών τιμών όσον αφορά το μέρος του ελέγχου του MLP. Σύμφωνα με τον πίνακα η μέθοδος που σημείωσε την καλύτερη απόδοση 62.58% κατά μέσο όρο είναι η CMC. Ενώ η μέθοδος που σημείωσε την χειρότερη τιμή 47.18% είναι η BPCA. Στα ραβδογράμματα, στην εικόνα 22 και 24, φαίνονται αναλυτικά οι αποδόσεις για κάθε μέθοδο αντικατάστασης ελλιπών τιμών σε όλα τα σύνολα εκπαίδευσης και ελέγχου των βάσεων δεδομένων, αντίστοιχα. 56

61 Εικόνα 21: : Απόδοση των μεθόδων αντιμετώπισης ελλιπών τιμών στα σύνολα εκπαίδευσης διάφορων βάσεων δεδομένων μέσω του ταξινομητήmlp 57

63 . Εικόνα 23: Απόδοση των μεθόδων αντιμετώπισης ελλιπών τιμών στα σύνολα ελέγχου διάφορων βάσεων δεδομένων μέσω του ταξινομητή MLP 59

65 4.2.3 SMO Ταξινομητής Στον πίνακα της εικόνας 25 αναφέρονται οι μέθοδοι αντιμετώπισης ελλιπών τιμών όσον αφορά το μέρος της εκπαίδευσης (training) του SMO. Σύμφωνα με τον πίνακα η μέθοδος που σημείωσε την καλύτερη απόδοση 91.17% κατά μέσο όρο είναι η IM. Ενώ η μέθοδος που σημείωσε την χειρότερη τιμή 87.32% είναι η EM. Στον πίνακα της εικόνας 27 αναφέρονται οι μέθοδοι αντιμετώπισης ελλιπών τιμών όσον αφορά το μέρος του ελέγχου του SMO. Σύμφωνα με τον πίνακα η μέθοδος που σημείωσε την καλύτερη απόδοση 78.52% κατά μέσο όρο είναι η CMC. Ενώ η μέθοδος που σημείωσε την χειρότερη τιμή 47.43% είναι η BPCA. Στα ραβδογράμματα, στην εικόνα 26 και 28, φαίνονται αναλυτικά οι αποδόσεις για κάθε μέθοδο αντικατάστασης ελλιπών τιμών σε όλα τα σύνολα εκπαίδευσης και ελέγχου των βάσεων δεδομένων, αντίστοιχα. 61

66 Εικόνα 25: Απόδοση των μεθόδων αντιμετώπισης ελλιπών τιμών στα σύνολα εκπαίδευσης διάφορων βάσεων δεδομένων μέσω του ταξινομητή SMO 62

68 Εικόνα 27: Απόδοση των μεθόδων αντιμετώπισης ελλιπών τιμών στα σύνολα ελέγχου διάφορων βάσεων δεδομένων μέσω του ταξινομητή SMO 64

70 NN Ταξινομητής Στον πίνακα της εικόνας 29 αναφέρονται οι μέθοδοι αντιμετώπισης ελλιπών τιμών όσον αφορά το μέρος της εκπαίδευσης (training) του 3-NN. Σύμφωνα με τον πίνακα η μέθοδος που σημείωσε την καλύτερη απόδοση 72.6% κατά μέσο όρο είναι η CMC. Ενώ η μέθοδος που σημείωσε την χειρότερη τιμή 61.75% είναι η EC. Στον πίνακα της εικόνας 31 αναφέρονται οι μέθοδοι αντιμετώπισης ελλιπών τιμών όσον αφορά το μέρος του ελέγχου του 3-ΝΝ. Σύμφωνα με τον πίνακα η μέθοδος που σημείωσε την καλύτερη απόδοση 72.08% κατά μέσο όρο είναι η CMC. Ενώ η μέθοδος που σημείωσε την χειρότερη τιμή 45.53% είναι η BPCA. Στα ραβδογράμματα, στην εικόνα 30 και 32, φαίνονται αναλυτικά οι αποδόσεις για κάθε μέθοδο αντικατάστασης ελλιπών τιμών σε όλα τα σύνολα εκπαίδευσης και ελέγχου των βάσεων δεδομένων, αντίστοιχα. 66

71 Εικόνα 29: Απόδοση των μεθόδων αντιμετώπισης ελλιπών τιμών στα σύνολα εκπαίδευσης διάφορων βάσεων δεδομένων μέσω του ταξινομητή 3-NN 67

73 Εικόνα 31: Απόδοση των μεθόδων αντιμετώπισης ελλιπών τιμών στα σύνολα ελέγχου διάφορων βάσεων δεδομένων μέσω του ταξινομητή 3-ΝΝ 69

74 Εκόνα 32 : Ραβδόγραμμα αποδοτικότητας των μεθόδων αντιμετώπισης ελλιπών τιμών σε όλες τις βάσεις δεδομένων 70

75 Κεφάλαιο 5 Διαχείριση Προβλήματος με τη χρήση του πακέτου R 5.1 Adult Data Set Στο σημείο αυτό θα γίνει η περιγραφή πέντε βάσεων δεδομένων οι οποίες θα χρησιμοποιηθούν για να δοθεί το αποτέλεσμα ποια μέθοδος αντιμετώπισης ελλιπών τιμών είναι πιο αποδοτική όσον αφορά διάφορους αλγορίθμους. Η πρώτη περιγραφή θα γίνει στη βάση δεδομένων Adult Data Set ( Είναι ένα σύνολο το οποίο αποτελείται από ένα δείγμα εγγραφών, 14 χαρακτηριστικών και υπάρχουν ελλιπείς τιμές. Κάθε περίπτωση του δείγματος ανήκει σε μία από τις δύο κλάσεις οι οποίες αναφέρονται στο εισόδημα κάθε χρόνου. Πιο συγκεκριμένα, η μία κλάση είναι για όσους έχουν εισόδημα μικρότερο ίσο από 50Κ (<=50Κ) και η άλλη περισσότερο από 50Κ (>50Κ) Περιγραφή Χαρακτηριστικών συνόλου 1. Age, αναφέρεται στην ηλικία του κάθε ατόμου και είναι συνεχής τιμή 2. Workclass, αναφέρεται στην επαγγελματική κατάσταση της κάθε εγγραφής και πρόκειται για κατηγορικές τιμές (Private, Self-emp-notinc, Federal-gov, Local-gov, State-gov, Without-pav, Never-worked) 3. Fnlwgt, πρόκεται για την οικονομικο-κοινωνική κατάσταση και παίρνει συνεχείς τιμές 4. Education, αναφέρεται στην εκπαίδευση της κάθε καταχώρησης και παίρνει κατηγορικές τιμές (Bachelors, Some-college, 11th, HS-grad, Prof- 71

76 school, Assoc-acdm, Assoc-voc, 9th, 7th-8th, 12th, Masters, 1st-4th, 10th, Doctorate, 5th-6th, Preschool) 5. Education-num, αναφέρεται στις σπουδές με συνέχεις τιμές 6. Marital-status, πρόκειται για την οικογενειακή κατάσταση και είναι κατηγορικές οι τιμές (Married-civ-spouse, Divorced, Never-married, Separated, Widowed, Married-spouse-absent, Married-AF-spouse) 7. Occupation, αναφέρεται σε ποιον τομέα δουλεύει κάθε άνθρωπος και είναι κατηγορικές οι τιμές (Tech-support, Craft-repair, Other-service, Sales, Exec-managerial, Prof-specialty, Handlers-cleaners, Machine-opinspct, Adm-clerical, Farming-fishing, Transport-moving, Priv-house-serv, Protective-serv, Armed-Forces) 8. Relationship, αναφέρεται στην οικογενειακή κατάσταση και παίρνει κατηγορικές τιμές (Wife, Own-child, Husband, Not-in-family, Otherrelative, Unmarried) 9. Race, αναφέρεται στην φυλή κάθε ατόμου και παίρνει κατηγορικές τιμές (White, Asian-Pac-Islander, Amer-Indian-Eskimo, Other, Black) 10. Sex, πρόκειται για το φύλο κάθε ατόμου και είναι κατηγορικές οι τιμές (Female, Male) 11. Capital-gain, πρόκειται για το κέρδος από επενδύσεις κεφαλαίων και οι τιμές είναι συνεχείς 12. Capital-loss, πρόκειται για τη ζημία από επενδύσεις κεφαλαίων και οι τιμές είναι συνεχείς 13. Hours-per-week, πρόκειται για τις ώρες που δουλεύει κάθε εργαζόμενος την εβδομάδα και οι τιμές είναι συνεχείς 14. Native-country, αναφέρεται στην χώρα καταγωγής και οι τιμές είναι κατηγορικές (United-States, Cambodia, England, Puerto-Rico, Canada, Germany, Outlying-US(Guam-USVI-etc), India, Japan, Greece, South, China, Cuba, Iran, Honduras, Philippines, Italy, Poland, Jamaica, Vietnam, Mexico, Portugal, Ireland, France, Dominican-Republic, Laos, Ecuador, Taiwan, Haiti, Columbia, Hungary, Guatemala, Nicaragua, Scotland, 72

77 Thailand, Yugoslavia, El-Salvador, Trinadad&Tobago, Peru, Hong, Holand-Netherlands) 15. Class, αναφέρεται σε ποια κλάση ανήκει η κάθε καταχώρηση ανάλογα με το εισόδημα του Πίνακας Αποτελεσμάτων για το Adult Data Set Στον παρακάτω πίνακα έχοντας αρχικά τα δεδομένα με τις ελλιπείς τιμές τους εξετάστηκαν σε τέσσερις μεθόδους (Decision Tree, Ada Boost, SVM, Neural Networks). Στην συνέχεια εξετάστηκαν στις ίδιες μεθόδους ελλιπή δεδομένα τα οποία είτε αντικαταστάθηκαν από την τιμή που παρουσιάστηκε τις περισσότερες φορές ανά χαρακτηριστικό όταν αυτό περιείχε κατηγορικές τιμές ή αντικαταστάθηκαν με το μέσο όρο όταν οι τιμές του χαρακτηριστικού ήταν αριθμητικές. Επιπλέον, τρίτος τρόπος αντιμετώπισης είναι η διαγραφή όσων γραμμών περιέχουν ελλιπείς τιμές και ο τέταρτος μέσω του πακέτου VIM. DI MC IM Hot-deck Decision Tree 78,5% 78,5% 68,4% 62,7% Ada Boost 78,3% 76,1% 84,2% 84,3% 73

78 SVM 76,3% 76,1% 86,8% 67,4% Neural Networks 78,3% 76,1% 86,8% 66,6% Παρατηρώντας τον παραπάνω πίνακα οι τρόποι που παρουσιάζουν τα μεγαλύτερα ποσοστά μέσω της διαγραφής των γραμμών που έχουν ελλιπείς τιμές είναι το SVM και Neural Networks με ποσοστό 86,8%. Ενώ ο τρόπος που παρουσιάζει το μικρότερο ποσοστό μέσω του πακέτου VIM είναι το Decision Tree με ποσοστό 62,7%. Εικόνα 33: Ραβδόγραμμα αποδοτικότητας των μεθόδων αντιμετώπισης ελλιπών τιμών σε σχέση με τους αλγορίθμους στη συγκεκριμένη βάση δεδομένων 5.2 Breast Cancer Data Set To σύνολο δεδομένων που θα χρησιμοποιηθεί ονομάζεται Breast Cancer Data Set ( Το σύνολο των εγγραφών είναι 286, ο αριθμός των χαρακτηριστικών είναι 9 και υπάρχουν 74

79 ελλιπείς τιμές. Κάθε περίπτωση του δείγματος ανήκει σε μία από τις δύο κλάσεις no-recurrence-events ή recurrence-events Περιγραφή χαρακτηριστικών συνόλου 1. Class: αναφέρεται στην κλάση στην οποία ανήκει η κάθε εγγραφή, αν η κάθε περίπτωση έχει παρουσιάσει υποτροπή ή όχι και παίρνει κατηγορικές τιμές (no-recurrence-events, recurrence-events) 2. Age: αναφέρεται στην ηλικία των ανθρώπων που συμμετέχουν στη βάση δεδομένων και είναι συνεχείς οι τιμές (10-19,20-29,30-39,40-49,50-59,60-69,70-79,80-89,90-99) 3. Menopause: αναφέρεται στην εμμηνόπαυση και παίρνει κατηγορικές τιμές (lt40, ge40, premeno) 4. Tumor-size: πρόκειται για το μέγεθος του όγκου και οι τιμές του είναι συνεχείς (0-4, 5-9, 10-14, 15-19, 20-24, 25-29, 30-34, 35-39, 40-44, 45-49, 50-54, 55-59) 5. Inv-nodes: οι τιμές του χαρακτηριστικού είναι συνεχείς (0-2, 3-5, 6-8, 9-11, 12-14, 15-17, 18-20, 21-23, 24-26, 27-29, 30-32, 33-35, 36-39) 6. Node-caps: οι τιμές του είναι κατηγορικές (yes,no) 7. Deg-malig: παίρνει αριθμητικές τιμές (1, 2, 3) 8. Breast: αναφέρεται για ποιο από τους δύο μαστούς πρόκειται και παίρνει κατηγορικές τιμές (left-right) 9. Breast-quad: αναφέρεται συγκεκριμένα σε ποιο μέρος του στήθους βρίσκεται ο όγκος και οι τιμές του χαρακτηριστικού είναι κατηγορικές (left-up, left-low, right-up, right-low, central 75

80 10. Irradiated:αναφέρεται στο αν έχει περάσει κάθε ασθενής από ακτινοβολία ή όχι και παίρνει κατηγορικές τιμές (yes, no) Πίνακας Αποτελεσμάτων για το Breast Cancer Data Set Στον παρακάτω πίνακα βρίσκονται αρχικά τα δεδομένα με τις ελλιπείς τιμές τους εξετάστηκαν σε τέσσερις μεθόδους (Decision Tree, Ada Boost, SVM, Neural Networks). Στην συνέχεια εξετάστηκαν στις ίδιες μεθόδους ελλιπή δεδομένα τα οποία είτε αντικαταστάθηκαν από την τιμή που παρουσιάστηκε τις περισσότερες φορές ανά χαρακτηριστικό όταν αυτό περιείχε κατηγορικές τιμές ή αντικαταστάθηκαν με το μέσο όρο όταν οι τιμές του χαρακτηριστικού ήταν αριθμητικές. Επιπλέον, τρίτος τρόπος αντιμετώπισης είναι η διαγραφή όσων γραμμών περιέχουν ελλιπείς τιμές και ο τέταρτος μέσω του πακέτου VIM. DI MC IM Hot-deck Decision Tree 78,9% 73,68 % 51,35 % 73,684 % Ada Boost 78,9% 73,68 % 51,35 % 73,684 % SVM 80,5 % 78,9 % 64,86 % 78,9 % Neural Networks 63,88 % 52,6 % 59,459 % 52,631 % Παρατηρώντας τον παραπάνω πίνακα ο τρόπος που παρουσιάζει το μεγαλύτερο ποσοστό αφήνοντας τα δεδομένα με τις ελλιπείς τιμές είναι το SVM με ποσοστό 80,5%. Ενώ οι τρόποι που παρουσιάζουν τα μικρότερα ποσοστά διαγράφοντας τις γραμμές που έχουν ελλιπείς τιμές είναι το Decision Tree και το Ada Boost με ποσοστό 51.35%. 76

81 Εικόνα 34: Ραβδόγραμμα αποδοτικότητας των μεθόδων αντιμετώπισης ελλιπών τιμών σε σχέση με τους αλγορίθμους στη συγκεκριμένη βάση δεδομένων 5.3 Hepatitis Data Set To σύνολο δεδομένων που θα χρησιμοποιηθεί ονομάζεται Hepatitis Data Set ( Το σύνολο των εγγραφών είναι 155, ο αριθμός των χαρακτηριστικών είναι 19 και υπάρχουν ελλιπείς τιμές. Στόχος είναι να προβλεφθεί αν οι ασθενείς αυτοί θα πεθάνουν και τότε ανήκουν στην κλάση 1 ή θα επιβιώσουν όπου τότε θα βρίσκονται στην κλάση Περιγραφή Χαρακτηριστικών Συνόλου Παρακάτω θα αναφερθούν χαρακτηριστικά τα οποία εμφανίζονται στους ασθενείς που έχουν προσβληθεί από τον ιό της ηπατίτιδας. Σημειώνεται ότι το (1) αναφέρεται ως όχι επομένως το (2) ως ναι. Επιπλέον, όσον αφορά το φύλο του κάθε ασθενή το (1) αναφέρεται ως άνδρας και το (2) ως γυναίκα. 77

82 1. Class: έχει αριθμητική τιμή (1, 2) 2. Age: έχει αριθμητική συνεχείς τιμές (10, 20, 30, 40, 50, 60, 70, 80) 3. Sex: έχει αριθμητική τιμή (1, 2) 4. Steroid: έχει αριθμητική τιμή (1, 2) 5. Antivirals: έχει αριθμητική τιμή (1, 2) 6. Fatigue: έχει αριθμητική τιμή (1, 2) 7. Malaise: έχει αριθμητική τιμή (1, 2) 8. Anorexia: έχει αριθμητική τιμή (1, 2) 9. Liver Big: έχει αριθμητική τιμή (1, 2) 10. Liver Firm: έχει αριθμητική τιμή (1, 2) 11. Spleen Palpable: έχει αριθμητική τιμή (1, 2) 12. Spiders: έχει αριθμητική τιμή (1, 2) 13. Ascites: έχει αριθμητική τιμή (1, 2) 14. Varices: έχει αριθμητική τιμή (1, 2) 15. Bilirubin: έχει αριθμητικές τιμές (0.39, 0.80, 1.20, 2.00, 3.00, 4.00) 16. Alk Phosphate: έχει αριθμητικές τιμές (33, 80, 120, 160, 200, 250) 17. Sgot: έχει αριθμητικές τιμές (13, 100, 200, 300, 400, 500) 18. Albumin: έχει αριθμητικές τιμές (2.1, 3.0, 3.8, 4.5, 5.0, 6.0) 19. Protime: έχει αριθμητικές τιμές (10, 20, 30, 40, 50, 60, 70, 80, 90) 20. Histology: έχει αριθμητική τιμή (1,2) Πίνακας Αποτελεσμάτων για το Hepatitis Data Set Στον παρακάτω πίνακα βρίσκονται αρχικά τα δεδομένα με τις ελλιπείς τιμές τους εξετάστηκαν σε τέσσερις μεθόδους ( Decision Tree, Ada Boost, SVM, Neural Networks). Στην συνέχεια εξετάστηκαν στις ίδιες μεθόδους ελλιπή δεδομένα τα οποία είτε αντικαταστάθηκαν από την τιμή που παρουσιάστηκε τις περισσότερες φορές ανά χαρακτηριστικό όταν αυτό περιείχε κατηγορικές τιμές ή αντικαταστάθηκαν με το μέσο όρο όταν οι τιμές του χαρακτηριστικού ήταν αριθμητικές. Επιπλέον, τρίτος τρόπος αντιμετώπισης είναι η διαγραφή όσων γραμμών περιέχουν ελλιπείς τιμές και ο τέταρτος μέσω του πακέτου VIM. 78

83 DI MC IM Hot-deck Decision Tree 69,5% 73,9% 75,0% 78,2% Ada Boost 78,2% 78,2% 83,3% 73,9% SVM 85,7% 78,2% 75,0% 73,9% Neural Networks 78,2% 73,9% 75,0% 73,9% Παρατηρώντας τον παραπάνω πίνακα ο τρόπος που παρουσιάζει το μεγαλύτερο ποσοστό αφήνοντας τα δεδομένα με τις ελλιπείς τιμές είναι το SVM με ποσοστό 85,7%. Ενώ ο τρόπος που παρουσιάζουν το μικρότερο ποσοστό αφήνοντας τα δεδομένα με τις ελλιπείς τιμές είναι το Decision Tree με ποσοστό 69.5%. 79

84 Εικόνα 35: Ραβδόγραμμα αποδοτικότητας των μεθόδων αντιμετώπισης ελλιπών τιμών σε σχέση με τους αλγορίθμους στη συγκεκριμένη βάση δεδομένων 5.4 Automobile Data Set To σύνολο δεδομένων που θα χρησιμοποιηθεί ονομάζεται Automobile Data Set ( Το σύνολο των εγγραφών είναι 205, ο αριθμός των χαρακτηριστικών είναι 26 και υπάρχουν ελλιπείς τιμές. Αυτό το σύνολο δεδομένων αποτελείται από τρεις τύπους οντοτήτων : (α) ο προσδιορισμός τoυ αυτόματου όσον αφορά διάφορα χαρακτηριστικά (β) αποδίδεται βαθμολογία σχετικά με τον κίνδυνο της ασφάλειάς του (γ)οι απώλειες είναι κανονικοποιημένες λόγω της χρήσης του σε σύγκριση με άλλα αυτοκίνητα. Symboling αντιστοιχεί στο βαθμό στον οποίο «το αυτόματο» είναι πιο επικίνδυνο από την τιμή που υποδεικνύει. Στα αυτοκίνητα δόθηκε αρχικά ένα «risk factor symbol» όπου συνδέεται ο κίνδυνος με την τιμή του. Στη συνέχεια, αν είναι πιο επικίνδυνη ( ή λιγότερο ), το σύμβολο αυτό ρυθμίζεται μετακινώντας την πιο πάνω ( ή προς τα κάτω ) την κλίμακα. Η τιμή του +3 υποδεικνύει ότι το «αυτόματο» είναι επικίνδυνο, -2 ότι ίσως είναι αρκετά ασφαλής. 80

85 Η κλάση θα είναι το χαρακτηριστικό symboling Περιγραφή Χαρακτηριστικών Συνόλου 1. Symboling: έχει αριθμητική τιμή (-3, -2, -1, 0, 1, 2, 3) 2. Normalized-losses: έχει αριθμητικές τιμές ( ) 3. Make: αναφέρεται στην μάρκα κάθε αυτοκινήτου και έχει κατηγορικές τιμές (Alfa-romeo, Audi, Bmw, Chevrolet, Dodge, Honda, Isuzu, Jaguar, Mazda, Mercedes-benz, Mercury, Mitsubishi, Nissan, Peugot, Plymouth, Porsche, Renault, Saab, Subaru, Toyota, Volkswagen, Volvo. 4. Fuel-type: αναφέρεται στο τύπο καυσίμων και οι τιμές είναι κατηγορικές ( diesel, gas) 5. Aspiration:έχει τιμές κατηγορικές (std, turbo) 6. Num-of-doors: αναφέρεται στο πλήθος των θυρών και οι τιμές είναι κατηγορικές ( four, two) 7. Body-style: πρόκειται για τον τύπο του αυτοκινήτου και οι τιμές είναι κατηγορικές (hardtop, wagon, sedan, hatchback, convertible) 8. Drive-wheels:οι τιμές είναι κατηγορικές (4wd, fwd, rwd) 9. Engine-location: πρόκειται για τη θέση της μηχανής και η τιμή του χαρακτηριστικού είναι κατηγορική (front, rear) 10. Wheel- Base: η τιμή του χαρακτηριστικού είναι αριθμητικές συνεχείς ( ) 81

86 11. Length: σχετίζεται με το μήκος του κάθε αυτοκινήτου και οι τιμές είναι αριθμητικές συνεχείς ( ) 12.Width: σχετίζεται με το πλάτος του κάθε αυτοκινήτου και οι τιμές είναι συνεχείς αριθμητικές ( ) 13. Height: σχετίζεται με το ύψος του κάθε αυτοκινήτου και οι τιμές είναι συνεχείς αριθμητικές ( ) 14. Curb-Weight: σχετίζεται με το απόβαρο και παίρνει αριθμητικές συνεχείς τιμές ( ) 15. Engine-size: αναφέρεται στον τύπο της μηχανής και οι τιμές είναι κατηγορικές ( dohcv, I, ohc, ohcv, rotor) 16. Num-of-cylinders: αναφέρεται στον αριθμό των κυλίνδρων και οι τιμές είναι κατηγορικές (eight, five, four, six, three, twelve, two) 17. Engine-size: σχετίζεται με το μέγεθος της μηχανής και οι τιμές είναι αριθμητικές συνεχείς (61-326) 18. Fuel-system: σχετίζεται με το σύστημα καυσίμων και οι τιμές είανι κατηγορικές (1bbl, 2bbl, 4bbl, idi, mfi, mpfi, spdi, spfi) 19. Bore: σχετίζεται με την οπή και οι τιμές είναι αριθμητικές και συνεχείς ( ) 20. Stroke: οι τιμές είναι αριθμητικές και συνεχείς ( ) 21. Compression-ratio: οι τιμές είναι αριθμητικές και συνεχείς (7-23) 22. Horsepower: σχετίζεται με το πλήθος των ίππων (48-288) 23. Peak-rpm: είναι αριθμητικές συνεχείς οι τιμές ( ) 24. City-mpg: είναι αριθμητικές συνεχείς οι τιμές (13-49) 25. Highway-mpg: είναι αριθμητικές συνεχείς οι τιμές (16-54) 26. Price: σχετίζεται με την τιμή η οποία είναι αριθμητική και συνεχής ( ) 82

87 5.4.2 Πίνακας αποτελεσμάτων για το Automobile Data Set Στον παρακάτω πίνακα βρίσκονται αρχικά τα δεδομένα με τις ελλιπείς τιμές τους εξετάστηκαν σε τέσσερις μεθόδους ( Decision Tree, Ada Boost, SVM, Neural Networks). Στην συνέχεια εξετάστηκαν στις ίδιες μεθόδους ελλιπή δεδομένα τα οποία είτε αντικαταστάθηκαν από την τιμή που παρουσιάστηκε τις περισσότερες φορές ανά χαρακτηριστικό όταν αυτό περιείχε κατηγορικές τιμές ή αντικαταστάθηκαν με το μέσο όρο όταν οι τιμές του χαρακτηριστικού ήταν αριθμητικές. Επιπλέον, τρίτος τρόπος αντιμετώπισης είναι η διαγραφή όσων γραμμών περιέχουν ελλιπείς τιμές και ο τέταρτος μέσω του πακέτου VIM της μεθόδου Hot-deck. DI MC IM Hot-deck Decision Tree 100% 100% 100% 100% Ada Boost 100% 100% 100% 100% SVM 100% 100% 100% 100% Neural Networks 100% 100% 100% 100% 83

88 Παρατηρώντας τον παραπάνω πίνακα όλοι οι τρόποι παρουσιάζουν αποτέλεσμα με επιτυχία 100%. Εικόνα 36: Ραβδόγραμμα αποδοτικότητας των μεθόδων αντιμετώπισης ελλιπών τιμών σε σχέση με τους αλγορίθμους στη συγκεκριμένη βάση δεδομένων 5.5 Breast Cancer Wisconsin (Original) data set Το σύνολο δεδομένων που θα χρησιμοποιηθεί ονομάζεται Breast Cancer Wisconsin (Original) Dat Set ( ). Tο σύνολο των εγγραφών είναι 683, ο αριθμός των χαρακτηριστικών είναι 9 και υπάρχουν ελλιπείς τιμές. Αυτή η βάση δεδομένων περιέχει τις περιπτώσεις από μία μελέτη που διεξήχθη στο Πανεπιστήμιο του Wisconsin Νοσοκομεία, Μάντισον, για τους ασθενείς που είχαν υποβληθεί σε χειρουργική επέμβαση για καρκίνου του μαστού. Ο στόχος είναι να προσδιοριστεί εάν ο ανιχνευόμενος όγκος είναι καλοήθης ή κακοήθης. Συνεπώς, σημειώνεται ότι αν ο όγκος είναι καλοήθης ανήκει στην κλάση (2) και αν είτε κακοήθης στην κλάση (4). 84

89 5.5.1 Περιγραφή Χαρακτηριστικών Συνόλου 1. ClumpThickness: έχει συνεχείς αριθμητικές τιμές (1,10) 2. CellSize: έχει συνεχείς αριθμητικές τιμές (1,10) 3. CellShape: έχει συνεχείς αριθμητικές τιμές (1,10) 4. MarginalAdhesion: έχει συνεχείς αριθμητικές τιμές (1,10) 5. EpithelialSize: έχει συνεχείς αριθμητικές τιμές (1,10) 6. BareNuclei: έχει συνεχείς αριθμητικές τιμές (1,10) 7. BlandChromatin: έχει συνεχείς αριθμητικές τιμές (1,10) 8. NormalNucleoli: έχει συνεχείς αριθμητικές τιμές (1,10) 9. Mitoses: έχει συνεχείς αριθμητικές τιμές (1,10) 10. Class: έχει αριθμητικές τιμές (2,4) Πίνακας αποτελεσμάτων για το Breast Cancer Wisconsin (Original) Data Set Στον παρακάτω πίνακα βρίσκονται αρχικά τα δεδομένα με τις ελλιπείς τιμές τους εξετάστηκαν σε τέσσερις μεθόδους (Decision Tree, Ada Boost, SVM, Neural Networks). Στην συνέχεια εξετάστηκαν στις ίδιες μεθόδους ελλιπή δεδομένα τα οποία είτε αντικαταστάθηκαν από την τιμή που παρουσιάστηκε τις περισσότερες φορές ανά χαρακτηριστικό όταν αυτό περιείχε κατηγορικές τιμές ή αντικαταστάθηκαν με το μέσο όρο όταν οι τιμές του χαρακτηριστικού ήταν αριθμητικές. Επιπλέον, τρίτος τρόπος αντιμετώπισης είναι η διαγραφή όσων γραμμών περιέχουν ελλιπείς τιμές και ο τέταρτος μέσω του πακέτου VIM. 85

90 DI MC IM Hot-deck Decision Tree 91,07% 91,0% 90,3% 90,3% Ada Boost 98,2% 98,2% 94,2% 94,2% SVM 92,4% 92,8% 92,3% 92,3% Neural Networks 90,5% 89,2% 78,8% 78,8% Παρατηρώντας τον παραπάνω πίνακα οι τρόποι που παρουσιάζουν τα μεγαλύτερα ποσοστά αφήνοντας τα δεδομένα με τις ελλιπείς τιμές και αντικαθιστώντας τις ελλιπείς τιμές με την τιμή που εμφανίστηκε πιο πολλές ανά χαρακτηριστικό είναι το Ada Boost με ποσοστό 98,2%. Ενώ ο τρόπος που παρουσιάζει τα μικρότερα ποσοστά αρχικά διαγράφοντας τις γραμμές που έχουν ελλιπείς τιμές και χρησιμοποιώντας το πακέτο VIM είναι τα Neural Networks με ποσοστό 78.8%. 86

91 Εικόνα 37: Ραβδόγραμμα αποδοτικότητας των μεθόδων αντιμετώπισης ελλιπών τιμών σε σχέση με τους αλγορίθμους στη συγκεκριμένη βάση δεδομένων 5.6 Συμπεράσματα ανά αλγόριθμο Decision Tree Σύμφωνα με τον πίνακα στην εικόνα 38, παρατηρείται πως η μέθοδος η οποία έχει την καλύτερη απόδοση κατά μέσο όρο για τον αλγόριθμο Decision Tree είναι Do Not Impute (DI) με ποσοστό % ενώ η τεχνική που έχει το μικρότερο ποσοστό 77.01% είναι η Case Deletion or Ignore Missing (IM). Dec.Tree Datasets DI MC IM Hot- Deck Adult Breast C Hepatitis Auto Winconsin Mean Εικόνα 38: Απόδοση των μεθόδων αντιμετώπισης ελλιπών τιμών σε βάσεις δεδομένων μέσω του Decision Tree 87

92 Εικόνα 39: Ραβδόγραμμα αποδοτικότητας των μεθόδων αντιμετώπισης ελλιπών τιμών σε σχέση με τους αλγορίθμους 5.6.2Ada Boost Σύμφωνα με τον πίνακα στην εικόνα 40, παρατηρείται πως η μέθοδος η οποία έχει την καλύτερη απόδοση κατά μέσο όρο για τον αλγόριθμο Ada Boost είναι Do Not Impute (DI) με ποσοστό 86.72% ενώ η τεχνική που έχει το μικρότερο ποσοστό 82.61% είναι η Case Deletion or Ignore Missing (IM). Ada Boost Datasets DI MC IM Hot-deck Adult Breast C Hepatitis Auto Winconsin Mean Εικόνα 40: Απόδοση των μεθόδων αντιμετώπισης ελλιπών τιμών σε βάσεις δεδομένων μέσω του Ada Boost 88

93 Εικόνα 41: Ραβδόγραμμα αποδοτικότητας των μεθόδων αντιμετώπισης ελλιπών τιμών σε σχέση με τους αλγορίθμους SVM Σύμφωνα με τον πίνακα στην εικόνα 42, παρατηρείται πως η μέθοδος η οποία έχει την καλύτερη απόδοση κατά μέσο όρο για τον αλγόριθμο SVM είναι Do Not Impute (DI) με ποσοστό 86.98% ενώ η τεχνική που έχει το μικρότερο ποσοστό 82.5% είναι η Hot-deck. SVM Datasets DI MC IM Hotdeck Adult Breast C Hepatitis Auto Winconsin Mean Εικόνα 42: Απόδοση των μεθόδων αντιμετώπισης ελλιπών τιμών σε βάσεις δεδομένων μέσω του SVM 89

94 Εικόνα 43: Ραβδόγραμμα αποδοτικότητας των μεθόδων αντιμετώπισης ελλιπών τιμών σε σχέση με τους αλγορίθμους Neural Networks Σύμφωνα με τον πίνακα στην εικόνα 44, παρατηρείται πως η μέθοδος η οποία έχει την καλύτερη απόδοση κατά μέσο όρο για τον αλγόριθμο Neural Networks είναι Do Not Impute (DI) με ποσοστό % ενώ η τεχνική που έχει το μικρότερο ποσοστό % είναι η Hot-deck. Neural Networks Datasets DI MC IM Hotdeck Adult Breast C Hepatitis Auto Winconsin Mean Εικόνα 44: Απόδοση των μεθόδων αντιμετώπισης ελλιπών τιμών σε βάσεις δεδομένων μέσω του SVM 90