ΑΝΤΙΜΕΤΩΠΙΣΗ ΕΛΛΙΠΩΝ ΤΙΜΩΝ ΣΕ ΠΡΟΒΛΗΜΑΤΑ ΕΞΟΡΥΞΗΣ ΔΕΔΟΜΕΝΩΝ

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "ΑΝΤΙΜΕΤΩΠΙΣΗ ΕΛΛΙΠΩΝ ΤΙΜΩΝ ΣΕ ΠΡΟΒΛΗΜΑΤΑ ΕΞΟΡΥΞΗΣ ΔΕΔΟΜΕΝΩΝ"

Transcript

1 ΤΜΗΜΑ ΜΑΘΗΜΑΤΙΚΩΝ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ «ΜΑΘΗΜΑΤΙΚΑ ΚΑΙ ΣΥΓΧΡΟΝΕΣ ΕΦΑΡΜΟΓΕΣ» ΑΝΤΙΜΕΤΩΠΙΣΗ ΕΛΛΙΠΩΝ ΤΙΜΩΝ ΣΕ ΠΡΟΒΛΗΜΑΤΑ ΕΞΟΡΥΞΗΣ ΔΕΔΟΜΕΝΩΝ ΜΕΤΑΠΤΥΧΙΑΚΗ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ ΣΤΑΜΟΥΛΗ ΙΩΑΝΝΑ Επιβλέπων: Λέκτορας Σωτήρης Β. Κωτσιαντής Πάτρα, Δεκέμβριος 2015

2

3 ΤΜΗΜΑ ΜΑΘΗΜΑΤΙΚΩΝ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ «ΜΑΘΗΜΑΤΙΚΑ ΚΑΙ ΣΥΓΧΡΟΝΕΣ ΕΦΑΡΜΟΓΕΣ» ΑΝΤΙΜΕΤΩΠΙΣΗ ΕΛΛΙΠΩΝ ΤΙΜΩΝ ΣΕ ΠΡΟΒΛΗΜΑΤΑ ΕΞΟΡΥΞΗΣ ΔΕΔΟΜΕΝΩΝ ΜΕΤΑΠΤΥΧΙΑΚΗ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ ΣΤΑΜΟΥΛΗ ΙΩΑΝΝΑ Επιβλέπων: Λέκτορας Σωτήρης Β. Κωτσιαντής Εγκρίθηκε από την τριμελή επιτροπή την 21 η Δεκεμβρίου 2015 (Υπογραφή) (Υπογραφή) (Υπογραφή).... Σωτήρης Κωτσιαντής Όμηρος Ράγγος Δημήτριος Καββαδίας Λέκτορας Επίκουρος Καθηγητής Επίκουρος Καθηγητής Πάτρα, Δεκέμβριος 2015

4 Πανεπιστήμιο Πατρών, Τμήμα Μαθηματικών Σταμούλη Ιωάννα Με την επιφύλαξη παντός δικαιώματος.

5 Περίληψη Ο αιώνας που διανύουμε έχει χαρακτηριστεί ως αιώνας της πληροφορίας. Για το λόγο αυτό η συλλογή πληροφοριών και δεδομένων καθώς και η εξόρυξη γνώσης χρησιμοποιούνται σε πολλούς τομείς της σύγχρονης κοινωνίας. Σημειώνεται επίσης ότι στη συλλογή πληροφοριών παρατηρούνται ελλείψεις στα δεδομένα και στην παρούσα διπλωματική θα παρουσιαστούν τρόποι αντιμετώπισης αυτών με σκοπό όσο το δυνατόν καλύτερη εξαγωγή πληροφορίας από τα δεδομένα. Στο πρώτο κεφάλαιο παρουσιάζεται η έννοια της εξόρυξης γνώσης από βάσεις δεδομένων (Data Mining) και η διαδικασία που ακολουθείται. Επίσης παρουσιάζεται ο ρόλος της προ-επεξεργασίας όπως και κάποιες βασικές εργασίες αυτής. Στο δεύτερο κεφάλαιο, αρχικά, αναλύονται οι μορφές των ελλιπών τιμών στα δεδομένα, στη συνέχεια παρουσιάζονται οι αιτίες για τις οποίες υπάρχουν ελλιπή στοιχεία και στο τέλος αυτού του κεφαλαίου αναλύονται οι τρόποι αντιμετώπισης των ελλειπόντων δεδομένων. Στο τρίτο κεφάλαιο αναλύονται μέθοδοι εξόρυξης γνώσης όπως τα δένδρα απόφασης, οι μηχανές διανυσμάτων υποστήριξης, ο k-πλησιέστερος γείτονας, η γραμμική και λογιστική παλινδρόμηση, ο αλγόριθμος προώθησης (boosting), τα νευρωνικά δίκτυα, ο αλγόριθμος ελάχιστης βελτιστοποίησης (sequential minimal optimization-smo) και τα πολυστρωματικά νευρωνικά δίκτυα (multilayer perceptron-mlp). Στο τέταρτο κεφάλαιο γίνεται η χρήση των μεθόδων αντιμετώπισης ελλιπών τιμών σε ορισμένες βάσεις δεδομένων χρησιμοποιώντας τέσσερις ταξινομητές (C4.5, MLP, SMO, 3-NN) μέσω του εργαλείου KEEL. Στο πέμπτο και τελευταίο κεφάλαιο επιχειρούμε την εφαρμογή μεθόδων σε πέντε βάσεις δεδομένων με ελλιπή στοιχεία χρησιμοποιώντας το στατιστικό πρόγραμμα R. Πιο συγκεκριμένα, γίνεται αντιμετώπιση των ελλιπών στοιχείων στα δεδομένα και στη συνέχεια χρησιμοποιούνται οι μέθοδοι των δένδρων αποφάσεων, των μηχανών διανυσμάτων υποστήριξης, του αλγορίθμου προώθησης και των νευρωνικών δικτύων.

6 Πίνακας περιεχομένων Περίληψη... 5 Κεφάλαιο Εισαγωγικές Έννοιες Ορισμός εξόρυξης γνώσης από τις βάσεις δεδομένων και η διαδικασία ανεύρεσης Γενικά για την προ-επεξεργασία Βασικές εργασίες στην προ-επεξεργασία δεδομένων... 8 Κεφάλαιο Ελλιπείς Τιμές στις Βάσεις Δεδομένων Μορφές Ελλιπών Τιμών Μη Μονότονη Μορφή (General) Μονότονη μορφή (Monotone) Μονομεταβλητό ελλείπον στοιχείο (Univariate nonresponse) Πολυμεταβλητό ελλείπον στοιχείο (Multivariate two patterns) Αντιστοίχιση Αρχείων (File Matching) Παραγοντική Ανάλυση (Factor Analysis) Αιτίες Απώλειας των Στοιχείων Τρόποι Αντιμετώπισης των Ελλιπών Τιμών σε Βάσεις Δεδομένων Διαγραφή Περίπτωσης (Case Deletion or Ignore Missing-IM) Μέση τιμή, Διάμεσος, Κεντρική τιμή (Mean, median, mode Imputation-MC) Παλινδρόμηση (Regression Imputation) Hot-deck Imputation k-πλησιέστερος γείτονας (k-nearest Neighbor Imputation-kNNI) Πολλαπλός Καταλογισμός (Multiple Imputation-MI) Μέθοδος Δένδρου Απόφασης (Decision Tree-C 4.5) Μπεϋζιανή Επανάληψη (Bayesian Iteration Imputation-BII) Κανένας Καταλογισμός (Do not Impute-DNI) Μέθοδος αντικατάστασης με την πιο συχνή τιμή για τα κατηγορικά χαρακτηριστικά και με τη μέση τιμή για τα αριθμητικά χαρακτηριστικά (Concept Most Common Attribute Value for Symbolic Attributes, and Concept Average Value for Numerical Attributes-CMC) Καταλογισμός στάθμισης με τον k- πλησιέστερο γείτονα (Weighted imputation with k- Nearest Neighbour-WKNNI) Μέση τιμή k σημείων (k-means Clustering Imputation-KMI) Καταλογισμός με μέση τιμή k-ασαφών σημείων (Imputation with Fuzzy K-means Clustering-FKMI)... 21

7 Μηχανές Διανυσμάτων Υποστήριξης (Support Vector Machines Imputation-SVMI) Κάλυψη Περιπτώσεων (Event Covering-EC) Αλγόριθμος Πρόβλεψης-Μεγιστοποίησης (Regularized Expectation-Maximization-EM) Μοναδική τιμή Αποσύνθεσης (Singular Value Decomposition Imputation -SVDI) Ελάχιστος Τοπικός Τετραγωνικός Καταλογισμός (Local Least Squares Imputation-LLSI). 23 Κεφάλαιο Αλγόριθμοι Εξόρυξης Γνώσης Τι είναι Κατηγοριοποίηση (Classification) Αλγόριθμοι Βασισμένοι σε Δένδρα Απόφασης Μηχανές Διανυσμάτων Υποστήριξης ( Support Vector Machines SVM) Αλγόριθμος k-nearest Neighbor (k-κοντινότερου γείτονα knn) Γραμμική και Λογιστική Παλινδρόμηση Αλγόριθμος Προώθησης Boosting Νευρωνικά Δίκτυα Τι είναι τα Νευρωνικά Δίκτυα Εκπαίδευση ενός Νευρωνικού Δικτύου Ακολουθιακής Ελάχιστης Βελτιστοποίησης (Sequential Minimal Optimization -SMΟ) Πολυεπίπεδο Νευρωνικό Δίκτυο (Multilayer perceptron) Κεφάλαιο Διαχείριση Προβλήματος με τη χρήση του KEEL Περιγραφή Βάσεων Δεδομένων Primary Tumor data set Dermatology data set Automobile data set Horse Colic data set Mushroom data set Cylinder Bands data set Hepatitis data set Water-Treatment Plant data set Credit Approval data set Breast Cancer Wisconsin (Original) data set Breast Cancer data set Post-Operative data set Mammographic Mass data set... 48

8 Heart Disease (Cleveland) data set Sponge Data Set Audiology (Original) Data Set Lung-Cancer Data Set Echocardiogram Data Set Ozone Level Detection Data Set Soybean (Small) Data Set Congressional Voting Data Set Διαχείριση Προβλήματος με τη χρήση του εργαλείου KEEL C4.5 Ταξινομητής MLP Ταξινομητής SMO Ταξινομητής NN Ταξινομητής Κεφάλαιο Διαχείριση Προβλήματος με τη χρήση του πακέτου R Adult Data Set Περιγραφή Χαρακτηριστικών συνόλου Πίνακας Αποτελεσμάτων για το Adult Data Set Breast Cancer Data Set Περιγραφή χαρακτηριστικών συνόλου Πίνακας Αποτελεσμάτων για το Breast Cancer Data Set Hepatitis Data Set Περιγραφή Χαρακτηριστικών Συνόλου Πίνακας Αποτελεσμάτων για το Hepatitis Data Set Automobile Data Set Περιγραφή Χαρακτηριστικών Συνόλου Πίνακας αποτελεσμάτων για το Automobile Data Set Breast Cancer Wisconsin (Original) data set Περιγραφή Χαρακτηριστικών Συνόλου Πίνακας αποτελεσμάτων για το Breast Cancer Wisconsin (Original) Data Set Συμπεράσματα ανά αλγόριθμο Decision Tree Ada Boost SVM... 89

9 5.6.4 Neural Networks Συμπεράσματα Βιβλιογραφία Παράρτημα... 99

10 Κεφάλαιο 1 Εισαγωγικές Έννοιες 1.1 Ορισμός εξόρυξης γνώσης από τις βάσεις δεδομένων και η διαδικασία ανεύρεσης Εξόρυξη γνώσης από βάσεις δεδομένων είναι η χρήση αλγορίθμων για την εξαγωγή χρήσιμων πληροφοριών από τα δεδομένα. [1] Η Ανακάλυψη Γνώσης σε Βάσεις Δεδομένων (Knowledge Discovery in Data - KDD) είναι μία διαδικασία ανακάλυψης νέων χρήσιμων και κατανοητών προτύπων στα δεδομένα. Ο ορισμός της διαδικασίας αυτής δόθηκε από τους Frawley,Piatesky-Shapiro και Matheus το 1991 ως εξής: «KDD είναι η ντετερμινιστική διαδικασία αναγνώρισης έγκυρων, καινοτόμων, ενδεχομένως χρήσιμων και εν τέλει κατανοητών προτύπων στα δεδομένα.» [1] Εικόνα 1: Βήματα της διαδικασίας ανακάλυψης γνώσης από τα δεδομένα 6

11 Η διαδικασία KDD συχνά θεωρείται πολύπλοκη, στην πιο γενική της μορφή που περιλαμβάνει συγκεκριμένα απλούστερα βήματα. Η είσοδος σε αυτή τη διαδικασία είναι τα δεδομένα, και οι χρήσιμες πληροφορίες που επιθυμούν οι χρήστες είναι η έξοδος. Η διαδικασία αυτή απαιτεί πολύ χρόνο για την ολοκλήρωση της. Το παραπάνω σχήμα επεξηγεί τη συνολική διαδικασία της ανακάλυψης γνώσης σε βάσεις δεδομένων. [1] Επιλογή (selection): Τα δεδομένα που χρειάζονται για τη διαδικασία της ανακάλυψης γνώσης μπορούν να προέλθουν από πολλές διαφορετικές πηγές δεδομένων. Σε αυτό το πρώτο βήμα συλλέγονται δεδομένα από διάφορες βάσεις δεδομένων, αρχεία και μη ηλεκτρονικές πηγές. [2] Προ-επεξεργασία (processing): Τα δεδομένα που πρόκειται να χρησιμοποιηθούν κατά τη διαδικασία, ίσως να είναι λανθασμένα ή ελλιπή. Ίσως υπάρχουν ανώμαλα δεδομένα από πολλαπλές πηγές που περιλαμβάνουν διαφορετικούς τύπους δεδομένων και διαφορετικές μονάδες μέτρησης. Σε αυτό το βήμα μπορούν να πραγματοποιηθούν πολλές και διαφορετικές δραστηριότητες. Τα λανθασμένα δεδομένα μπορεί να διορθωθούν ή να αφαιρεθούν, ενώ τα ελλιπή δεδομένα πρέπει να συλλεχθούν ή να εκτιμηθούν. [2] Μετασχηματισμός (transformation): Τα δεδομένα που προέρχονται από διαφορετικές πηγές χρειάζεται να μετατραπούν σε ένα κοινό σχήμα για την περαιτέρω επεξεργασία τους. Μερικά δεδομένα ίσως απαιτείται να κωδικοποιηθούν ή να μετασχηματιστούν σε πιο χρήσιμα σχήματα (κανονικοποίηση). [2] Εξόρυξη γνώσης από τα δεδομένα (data mining): Με βάση το είδος της εξόρυξης που είναι να εκτελεστεί, σε αυτό το βήμα εφαρμόζονται αλγόριθμοι στα τροποποιημένα δεδομένα για να προκύψουν τα επιθυμητά αποτελέσματα. [2] Ερμηνεία / αξιολόγηση (interpretation /evaluation): Είναι πολύ σημαντικό το πώς θα παρουσιαστούν στους χρήστες τα αποτελέσματα της εξόρυξης γνώσης, επειδή η χρησιμότητα ή μη των αποτελεσμάτων μπορεί να εξαρτάται ακριβώς από αυτήν την παρουσίαση. [2] 7

12 1.2 Γενικά για την προ-επεξεργασία Η προ-επεξεργασία είναι μία σημαντική διαδικασία στο πρόβλημα της εξόρυξης γνώσης. Συχνά, παρατηρείται πρόβλημα στα δεδομένα μιας βάσης δεδομένων γιατί οι μέθοδοι με τις οποίες γίνεται η συλλογή δεδομένων δεν έχουν τα απαραίτητα κριτήρια για να κρίνουν κατά πόσο είναι ποιοτικά. Αυτό έχει ως αποτέλεσμα να υπάρχουν «βρώμικα» δεδομένα, όπως ελλιπή δεδομένα (missing data, δηλαδή δεδομένα που έχουν έλλειψη τιμών σε κάποια χαρακτηριστικά ή έλλειψη χαρακτηριστικών που μας ενδιαφέρουν), θορυβώδη (δεδομένα που περιέχουν λάθη ή ακραίες τιμές,outliers) και ασυνεπή (δεδομένα με διαφορές σε ονόματα, κωδικούς). Το πρόβλημα γίνεται πιο αισθητό όταν η βάση δεδομένων είναι μεγάλη και η διαδικασία συλλογής δεδομένων διαρκεί χρόνια. Για πιο έγκυρα αποτελέσματα αναπτύχθηκαν κάποιες μέθοδοι με στόχο την επεξεργασία δεδομένων που περιέχουν ελλιπή στοιχεία. [3] Αυτό το φαινόμενο παρατηρείται κυρίως σε επιστήμες όπως η ιατρική, η ψυχολογία, η βιολογία οι οποίες σχετίζονται με τον άνθρωπο και τα δεδομένα χαρακτηρίζονται από την υποκειμενικότητα του. Επίσης, στην αρχαιολογία όπου τα ευρήματα πολλές φορές δεν είναι πλήρη. [3] Αλλά μπορεί και να οφείλονται και σε τυχαίους παράγοντες όπως: [3] Σε λάθη ερευνητών κατά την καταχώρηση Κάποιος ο οποίος δε θέλει να συμμετέχει στην έρευνα Άτομο το οποίο σταματά να συμμετέχει στην έρευνα λόγω αλλαγής διεύθυνσης, αυτό συμβαίνει πιο συχνά στις μακροχρόνιες έρευνες Άτομο το οποίο δεν απαντά σε κάποια ερωτήματα για προσωπικούς λόγους 1.3 Βασικές εργασίες στην προ-επεξεργασία δεδομένων Κάποιες από τις βασικές εργασίες που γίνονται για την επεξεργασία δεδομένων είναι οι παρακάτω: Καθαρισμός δεδομένων Συμπλήρωση τιμών που λείπουν, εξομάλυνση θορύβου, εύρεσηαφαίρεση ακραίων τιμών, επίλυση ασυνεπειών 8

13 Ολοκλήρωση δεδομένων Ολοκλήρωση πολλαπλών βάσεων δεδομένων, κύβων και αρχείων Μετασχηματισμός δεδομένων Κανονικοποίηση, συσσώρευση Μείωση δεδομένων Μειωμένη αναπαράσταση του όγκου αλλά παραγωγή ίδιων ή παρόμοιων αναλυτικών αποτελεσμάτων [4] Διακριτοποίηση δεδομένων Μετατροπή αριθμητικών χαρακτηριστικών σε κατηγορικά όταν αλγόριθμοι συσταδοποίησης/ κατηγοριοποίησης μπορούν να χειριστούν μόνο κατηγορικά χαρακτηριστικά. Εικόνα 2: Διαδικασία προ-επεξεργασίας δεδομένων 9

14 Με τη προ-επεξεργασία γίνεται μετασχηματισμός δεδομένων σε μορφή κατάλληλη και αποδοτική για την επιλεγμένη μέθοδο μάθησης, ώστε οι ποιοτικές αποφάσεις να βασίζονται σε ποιοτικά δεδοµένα. [4] Τα ποιοτικά δεδομένα βασίζονται στα εξής κριτήρια: [4] Ακρίβεια Πληρότητα Συνέπεια Επικαιρότητα Αξιοπιστία Προστιθέμενη αξία Πόσο εύκολα μπορούν να ερμηνευτούν Προσβασιμότητα 10

15 Κεφάλαιο 2 Ελλιπείς Τιμές στις Βάσεις Δεδομένων 2.1 Μορφές Ελλιπών Τιμών Ανάλογα με την μορφή των ελλιπών τιμών γίνεται η κατάλληλη επιλογή μεθόδου για την αντιμετώπιση τους. Η δημιουργία πινάκων διευκολύνει την εκτίμηση των αναλυτών όσον αφορά τον τρόπο που θα χρησιμοποιηθεί για την αποτελεσματικότερη αντιμετώπιση των ελλιπών δεδομένων. Οι μορφές ελλιπών τιμών, σύμφωνα με τους Little και Rubin (2002) διακρίνονται στις παρακάτω κατηγορίες Μη Μονότονη Μορφή (General) Οι ελλιπείς τιμές δεν έχουν κάποια συγκεκριμένη μορφή. Μπορεί να λείπουν τιμές σε διάφορα σημεία ενός ή περισσότερων χαρακτηριστικών στο πίνακα που αντιπροσωπεύει τη βάση δεδομένων. [3] Η διαχείριση αυτής της μορφής ελλιπών δεδομένων γίνεται είτε με μεθόδους καταλογισμού είτε με μεθόδους αντικατάστασης από τα υπάρχοντα δεδομένα. Στην περίπτωση την οποία τα ελλιπή δεδομένα δεν είναι τόσο πολλά σε σχέση με τα συνολικά χρησιμοποιούνται και οι μέθοδοι διαγραφής. Στο παρακάτω πίνακα δίνεται μια εικόνα για τη μη μονότονη μορφή των ελλιπών στοιχείων. [3] Εικόνα 3: Μη μονότονη μορφή ελλιπών στοιχείων 11

16 2.1.2 Μονότονη μορφή (Monotone) Τα δεδομένα που παρουσιάζουν μονότονη μορφή στα ελλιπή στοιχεία τους προκύπτουν από έρευνες που κυρίως απαιτούν πολλά χρόνια για την εξαγωγή αποτελεσμάτων και λόγω των πολλών χρόνων οι ερωτηθέντες δεν συμμετέχουν πια στην έρευνα είτε επειδή δεν ενδιαφέρονται πια είτε απομακρύνθηκαν από αυτή για οποιοδήποτε λόγο. Από την εικόνα του πίνακα φαίνεται ότι όλα τα στοιχεία που λείπουν για ένα χαρακτηριστικό λείπει και για το επόμενο. [3] Εικόνα 4: Μονότονη μορφή ελλιπών στοιχείων 12

17 2.1.3 Μονομεταβλητό ελλείπον στοιχείο (Univariate nonresponse) Όλα τα ελλιπή στοιχεία εμφανίζονται σε μία μόνο μεταβλητή. Στις υπόλοιπες μεταβλητές εμφανίζονται όλα τα στοιχεία. Στην παρακάτω εικόνα η μεταβλητή που περιέχει τις ελλιπείς τιμές είναι η τελευταία ενώ στις υπόλοιπες δεν υπάρχουν ελλιπείς τιμές. [3] Εικόνα 5: Μονομεταβλητή μορφή ελλιπών στοιχείων Πολυμεταβλητό ελλείπον στοιχείο (Multivariate two patterns) Σε αυτή την περίπτωση σε αντίθεση με την παραπάνω μορφή τα ελλιπή στοιχεία εμφανίζονται σε περισσότερες από μία μεταβλητή. Σύμφωνα με το παρακάτω σχήμα φαίνεται πως στις τρεις τελευταίες στήλες-μεταβλητές υπάρχουν ελλιπή δεδομένα ενώ στις δύο πρώτες τα στοιχεία είναι πλήρη. [3] Εικόνα 6: Πολυμεταβλητή μορφή ελλιπών στοιχείων 13

18 2.1.5 Αντιστοίχιση Αρχείων (File Matching) Σε αυτή την περίπτωση για το καλύτερο αποτέλεσμα των αναλύσεων χρειάζεται να συσχετιστούν οι μεταβλητές που έχουν κοινά δεδομένα. Στην παρακάτω εικόνα παρατηρείται ότι στην πρώτη μεταβλητή δεν υπάρχουν καθόλου ελλιπείς τιμές, ενώ στην δεύτερη υπάρχουν ελλιπή στοιχεία στις τελευταίες παρατηρήσεις και στην τρίτη μεταβλητή υπάρχουν ελλιπή στοιχεία στις πρώτες παρατηρήσεις. Με βάση αυτής της μεθόδου γίνεται συσχετισμός δεδομένων την πρώτης μεταβλητής με τη δεύτερη καθώς και της πρώτης με την τρίτη αφού με αυτό το συνδυασμό παρατηρούνται κοινά στοιχεία. Αυτό έχει ως αποτέλεσμα τα δεδομένα που λείπουν να συμπληρωθούν με το συνδυασμό των μεταβλητών που έχουν κοινά στοιχεία. [3] Εικόνα 7: File Matching Παραγοντική Ανάλυση (Factor Analysis) Η Factor Analysis (παραγοντική ανάλυση) χρησιμοποιείται σε προβλήματα των οποίων οι σημαντικές μεταβλητές δεν μπορούν να παρατηρηθούν. Τέτοιες μεταβλητές είναι χαρακτηριστικές σε προβλήματα που σχετίζονται με τη συμπεριφορά των ανθρώπων ή τη στάση ζωή τους όπως η κοινωνικοοικονομική κατάσταση, οι πολιτικές πεποιθήσεις, ο τρόπος που μπορεί να αντιμετωπίσουν ένα γεγονός. Σκοπός της παραγοντικής ανάλυσης είναι να γίνει σύνδεση των μεταβλητών για τις οποίες υπάρχουν μετρήσεις με αυτών των μεταβλητών για τις οποίες δεν υπάρχουν. Στο παρακάτω σχήμα η 14

19 πρώτη μεταβλητή έχει μόνο ελλιπή στοιχεία, ενώ η δεύτερη μεταβλητή έχει πλήρη δεδομένα. Με τη παραγοντική ανάλυση γίνεται μία πολυμεταβλητή παλινδρόμηση της μεταβλητής που έχει πλήρη στοιχεία ως προς τη μεταβλητή που έχει ελλιπή στοιχεία ώστε να συσχετιστούν και να συμπληρωθούν τα δεδομένα που λείπουν. [3] Εικόνα 8: Factor Analysis 2.2 Αιτίες Απώλειας των Στοιχείων Σύμφωνα με τους Little και Rubin (1987) τα στοιχεία μπορεί να λείπουν εντελώς τυχαία (missing completely at random), είτε να λείπουν τυχαία (missing at random) ή να μην είναι τυχαία η έλλειψη τιμών (missing not at random). [3] Πιο συγκεκριμένα Να λείπουν εντελώς τυχαία (missing completely at random) Σε αυτή την περίπτωση η έλλειψη στοιχείων οφείλεται σε τυχαία γεγονότα. Χαρακτηριστικά παραδείγματα είναι κάποια από τα παρακάτω: Ένα ερωτηματολόγιο που έχει συμπληρωθεί και στη συνέχεια χάθηκε Λανθασμένη καταχώρηση στοιχείων κατά τη διάρκεια πληκτρολόγησης 15

20 Κυρίως σε μια μακροχρόνια έρευνα αλλά και όταν οι συμμετέχοντες σταματούν να προσέρχονται για την ολοκλήρωση της έρευνας [3] Να λείπουν τυχαία (missing at random) Στην περίπτωση αυτή η εμφάνιση ελλιπών τιμών εξαρτάται μόνο από τις γνωστές τιμές. Σε μία βάση δεδομένων κατά κύριο λόγο τα χαρακτηριστικά τα οποία συνήθως δε λείπουν είναι το φύλο, ηλικία. Ένα παράδειγμα για την κατανόηση αυτής της αιτίας είναι το παρακάτω: Αν σε μία βάση δεδομένων η ηλικία για κάθε παράδειγμα είναι γνωστή τότε η εμφάνιση ελλιπών τιμών σε κάποιο άλλο χαρακτηριστικό θα εξαρτάται μόνο από την ηλικία. [3] Όχι τυχαία έλλειψη τιμών (missing not at random) Σε αυτή την κατηγορία η έλλειψη στοιχείων θεωρείται ότι δεν είναι τυχαία γιατί οφείλεται σε όλες τις μεταβλητές, και στην ίδια την μεταβλητή που περιέχει τα ελλιπή στοιχεία, και σε άλλες που δεν περιέχουν καθόλου ελλιπή στοιχεία αλλά και σε αιτίες τυχαίες. Ένα παράδειγμα που περιγράφει την παραπάνω αιτία ελλιπών τιμών είναι το παρακάτω: Στο ερώτημα δήλωσης μηνιαίου μισθού είναι αρκετά αναμενόμενο να μην απαντήσουν κάποιοι ερωτηθέντες. Αυτό έχει ως αποτέλεσμα η παρουσία ελλιπών τιμών να μην οφείλεται εντελώς στην τύχη. [3] 2.3 Τρόποι Αντιμετώπισης των Ελλιπών Τιμών σε Βάσεις Δεδομένων Στην ενότητα αυτή θα αναφερθούν κάποιες δημοφιλείς μέθοδοι για την διαχείριση των ελλιπών τιμών. 16

21 2.3.1 Διαγραφή Περίπτωσης (Case Deletion or Ignore Missing-IM) Η μέθοδος αυτή παραλείπει αυτές τις περιπτώσεις (παραδείγματα) οι οποίες περιέχουν ελλιπή δεδομένα και κάνει ανάλυση των υπαρχόντων. Αν και είναι η πιο κοινή μέθοδος έχει δύο προφανή μειονεκτήματα Μια ουσιαστική μείωση στο μέγεθος του συνόλου που διατίθεται για ανάλυση Στην περίπτωση που ο μηχανισμός ελλιπών τιμών δεν είναι MCAR (έλλειψη δεδομένων εντελώς τυχαία) τα αποτελέσματα μπορεί να μην είναι αμερόληπτα. [6] Μέση τιμή, Διάμεσος, Κεντρική τιμή (Mean, median, mode Imputation-MC) Γίνεται αντικατάσταση των ελλιπών τιμών με το μέσο όρο (mean) των υπαρχόντων δεδομένων όταν τα δεδομένα είναι αριθμητικά. Όταν τα δεδομένα είναι κατηγορικά η αντικατάσταση των ελλιπών τιμών γίνεται με βάση το mode, δηλαδή για κάθε χαρακτηριστικό η τιμή που εμφανίζεται πιο συχνά. Στην περίπτωση που υπάρχουν μεγάλη απόκλιση στις τιμές των δεδομένων για ένα χαρακτηριστικό τότε γίνεται αντικατάσταση με βάση τη διάμεσο (median). [3] Όσον αφορά την μέση τιμή υπάρχουν δύο κατηγορίες που μπορεί να βρεθεί και να γίνει η αντίστοιχη αντικατάσταση: Για κάθε μία καταχώρηση η οποία έχει ελλιπείς τιμές βρίσκεται η μέση τιμή των χαρακτηριστικών της για τα οποία τα δεδομένα είναι πλήρη. [3] Για κάθε χαρακτηριστικό βρίσκεται η μέση τιμή. Αυτό έχει ως αποτέλεσμα αν κάποιο παράδειγμα έχει ελλιπές στοιχείο σε ένα χαρακτηριστικό γίνεται αντικατάσταση της μέσης τιμής στο χαρακτηριστικό αυτό. [3] Αυτός ο τρόπος διαχείρισης ελλιπών στοιχείων μπορεί να μην είναι ο καλύτερος τρόπος συμπλήρωσης των ελλιπών δεδομένων εκτός και αν τα δεδομένα λείπουν εντελώς τυχαία. [3] 17

22 2.3.3 Παλινδρόμηση (Regression Imputation) Τα δεδομένα που λείπουν αντικαθίστανται από μια γραμμική συνάρτηση παλινδρόμησης, αντί της αντικατάστασης όλων των ελλειπόντων στοιχείων με στατιστικά στοιχεία. Η μέθοδος αυτή εξαρτάται από τη γραμμική σχέση μεταξύ των χαρακτηριστικών (των υπαρχόντων και των ελλειπόντων). Είναι αρκετά συχνό φαινόμενο η σχέση των χαρακτηριστικών να μην είναι γραμμική. [6] Η μέθοδος αυτή δίνει σωστά αποτελέσματα σε τιμές που λείπουν εντελώς τυχαία (MCAR) και ικανοποιητικά στα δεδομένα που λείπουν τυχαία (MAR). [6] Hot-deck Imputation Στην περίπτωση αυτή κάθε ελλιπής τιμή αντικαθίσταται από μία τιμή η οποία υπάρχει και είναι παρόμοια περίπτωση με την περίπτωση που εμφανίζει ελλιπή τιμή. Ο τρόπος επιλογής της περίπτωσης γίνεται τυχαία από τις υπόλοιπες παρόμοιες περιπτώσεις οι οποίες είναι και αυτές παρόμοιες. [6] k-πλησιέστερος γείτονας (k-nearest Neighbor Imputation-kNNI) Αυτή η μέθοδος χρησιμοποιεί τον αλγόριθμο k-πλησιέστερου γείτονα για την εκτίμηση και την αντικατάσταση των δεδομένων που λείπουν. Τα κύρια πλεονεκτήματα αυτής της μεθόδου είναι: [6] Μπορεί να εκτιμήσει δύο ποιοτικά χαρακτηριστικά (η πιο συχνή τιμή μεταξύ των k πλησιέστερων γειτόνων) και ποσοτικά χαρακτηριστικά (ο μέσος όρος των k πλησιέστερων γειτόνων). [6] Δεν είναι απαραίτητο να δημιουργηθεί ένα προγνωστικό μοντέλο για κάθε χαρακτηριστικό με ελλιπή στοιχεία. [6] Η αποδοτικότητα είναι ένα από τα μεγαλύτερα προβλήματα αυτής της μεθόδου διότι ο αλγόριθμος k-πλησιέστερος γείτονας αναζητά τις πιο παρόμοιες περιπτώσεις και η αναζήτηση πρέπει να γίνει σε ολόκληρη τη βάση δεδομένων και συνήθως η βάση είναι πολύ μεγάλη για την αναζήτηση. Επιπλέον το πώς θα επιλεχθεί η τιμή k και το πόσο παρόμοιες θα είναι οι περιπτώσεις επηρεάζει σε μεγάλο βαθμό το αποτέλεσμα. [6] 18

23 2.3.6 Πολλαπλός Καταλογισμός (Multiple Imputation-MI) Η βασική ιδέα του MI είναι Κάθε ελλιπές στοιχείο αντικαθίσταται από m>1 αληθοφανείς τιμές, έτσι ώστε να δημιουργηθούν m πλήρη σύνολα. Κάθε ένα από αυτά τα m σύνολα που έχουν δημιουργηθεί αναλύονται από μεθόδους κατάλληλες για την ανάλυση δεδομένων. Όλα τα σύνολα που έχουν δημιουργηθεί συγκεντρώνονται με σκοπό να παραχθεί το τελικό αποτέλεσμα. [6] Μέθοδος Δένδρου Απόφασης (Decision Tree-C 4.5) Συνήθως γίνεται η εκτίμηση των τιμών που λείπουν με βάση τις υπάρχουσες σε άλλα παραδείγματα. Στρατηγικές: Δίνεται η τιμή που είναι πιο κοινή σε όλα τα παραδείγματα του κόμβου Δίνεται η τιμή που είναι πιο κοινή στα παραδείγματα του κόμβου που έχουν τιμή χαρακτηριστικού στόχου ίδια με το υπό εξέταση παράδειγμα Συσχέτιση για κάθε τιμή του X με μια πιθανότητα. Οι πιθανότητες αυτές εκτιμώνται από τις παρατηρούμενες συχνότητες των τιμών του X στο σύνολο εκπαίδευσης του κόμβου. [7] Μπεϋζιανή Επανάληψη (Bayesian Iteration Imputation-BII) O απλός μπεϋζιανός ταξινομητής (Naïve Bayesian) είναι ένας δημοφιλής εκτιμητής, όχι μόνο για την καλή απόδοση αλλά και για την απλή του μορφή. Δεν είναι ευαίσθητος στα ελλιπή δεδομένα και η αποτελεσματικότητα του υπολογισμού είναι πολύ υψηλή. Η Μπεϋζιανή επανάληψη χρησιμοποιεί τον απλό μπεϋζιανό ταξινομητή για τον καταλογισμό των ελλιπών δεδομένων. Περιλαμβάνονται δύο φάσεις: [6] 19

24 Η επιλογή της σειράς του χαρακτηριστικού που χρησιμοποιείται εξαρτάται από διάφορες μετρήσεις όπως το κέρδος πληροφορίας (information gain), το ποσοστό των ελλιπών στοιχειών. [6] Χρησιμοποιώντας τον απλό μπεϋζιανό ταξινομητή υπολογίζονται τα ελλιπή δεδομένα. [6] Είναι μία επαναληπτική διαδικασία. Γενικά δεν είναι απαραίτητο να αντικατασταθούν όλες οι ελλιπείς τιμές και έτσι μειώνονται οι φορές που επαναλαμβάνεται η διαδικασία. [6] Κανένας Καταλογισμός (Do not Impute-DNI) Όπως υποδηλώνει και το όνομά του, όλα τα δεδομένα που λείπουν παραμένουν έτσι όπως είναι χωρίς να γίνει κάποια αντικατάσταση. Σκοπός είναι η εξακρίβωση κατά πόσο οι μέθοδοι καταλογισμού αποδίδουν καλύτερα αποτελέσματα από τα αρχικά δεδομένα. [37] Μέθοδος αντικατάστασης με την πιο συχνή τιμή για τα κατηγορικά χαρακτηριστικά και με τη μέση τιμή για τα αριθμητικά χαρακτηριστικά (Concept Most Common Attribute Value for Symbolic Attributes, and Concept Average Value for Numerical Attributes-CMC) Σε αυτή τη μέθοδο οι ελλιπείς τιμές θα αντικατασταθούν με τη τιμή που επαναλαμβάνεται πιο συχνά αν το χαρακτηριστικό παίρνει ονομαστικές τιμές ή με τη μέση τιμή αν το χαρακτηριστικό παίρνει αριθμητικές τιμές μόνο που σε αυτή την περίπτωση λαμβάνεται υπόψη μόνο οι περιπτώσεις που ανήκουν στην ίδια κλάση με το χαρακτηριστικό που παρουσιάζει την ελλιπή τιμή. [37] Καταλογισμός στάθμισης με τον k- πλησιέστερο γείτονα (Weighted imputation with k-nearest Neighbour-WKNNI) Η μέθοδος αυτή επιλέγει τις περιπτώσεις με τις παρόμοιες τιμές όσον αφορά την απόσταση σε σχέση με μία συγκεκριμένη τιμή ώστε να μπορεί να κάνει αυτό που κάνει και η KNNI μέθοδος. Παρ όλα αυτά η εκτιμώμενη τιμή τώρα λαμβάνει υπόψη τις διαφορετικές αποστάσεις από τους «γείτονες» 20

25 χρησιμοποιώντας το μέσο βάρος ή την τιμή που επαναλαμβάνεται περισσότερο με βάση την απόσταση. [37] Μέση τιμή k σημείων (k-means Clustering Imputation-KMI) Λαμβάνοντας υπόψη ένα σύνολο αντικειμένων, ο γενικός στόχος της ομαδοποίησης είναι να χωριστούν τα δεδομένα σε ομάδες με βάση την ομοιότητα των αντικειμένων, και να ελαχιστοποιηθεί η ανομοιότητα μεταξύ των αντικειμένων μέσα στις συστάδες. Η ανομοιότητα εντός της συστάδας μπορεί να μετρηθεί με την απόσταση μεταξύ των αντικειμένων καθώς και του κεντροειδούς της συστάδας όπως έχει ανατεθεί. Το κεντροειδές της συστάδας είναι η μέση τιμή όλων των αντικειμένων που βρίσκονται στη συστάδα. Η τελευταία διαδικασία είναι η συμπλήρωση των ελλιπών τιμών με βάση των πληροφοριών που παρέχει η συστάδα. Τα δεδομένα που βρίσκονται μέσα στην ίδια συστάδα λαμβάνονται ως πλησιέστεροι γείτονες και με την εφαρμογή του αλγορίθμου ΚΝΝ γίνεται αντικατάσταση των δεδομένων που λείπουν. [37] Καταλογισμός με μέση τιμή k-ασαφών σημείων (Imputation with Fuzzy K- means Clustering-FKMI) Στην ασαφή συσταδοποίηση, κάθε αντικείμενο έχει μια συνάρτηση συμμετοχής η οποία περιγράφει τον βαθμό με τον οποίο το αντικείμενο ανήκει σε μία συγκεκριμένη συστάδα. Κατά τη διαδικασία ενημέρωσης των συναρτήσεων συμμετοχής και των κεντροειδών, λαμβάνονται υπόψη μόνο τα πλήρη χαρακτηριστικά. Στο σημείο αυτό πρέπει να αναφερθεί ότι ένα αντικείμενο δεν μπορεί να τοποθετηθεί σε μία συγκεκριμένη συστάδα όταν αντιπροσωπεύεται από ένα κεντροειδές, γιατί κάθε αντικείμενο ανήκει σε όλες τις k συστάδες με διαφορετικούς βαθμούς. Τα ελλιπή χαρακτηριστικά θα αντικατασταθούν με βάση το βαθμό της συνάρτησης συμμετοχής καθώς και από τις τιμές των κεντροειδών της συστάδας. [37] 21

26 Μηχανές Διανυσμάτων Υποστήριξης (Support Vector Machines Imputation- SVMI) Σύμφωνα με τη SVM παλινδρόμηση για να γίνει η πρόβλεψη των τιμών που λείπουν, πρώτα επιλέγονται παραδείγματα στα οποία δεν υπάρχουν καθόλου ελλιπή δεδομένα. Στο επόμενο βήμα ένα από τα χαρακτηριστικά κατάστασης αποτελεί γνώρισμα εισόδου, μερικές από τις τιμές που λείπουν, ως χαρακτηριστικό απόφασης (χαρακτηριστικό εξόδου) και τα χαρακτηριστικά απόφασης ως χαρακτηριστικά κατάστασης αντίστροφα. Τέλος η SVM παλινδρόμηση χρησιμοποιείται για την πρόβλεψη των τιμών των χαρακτηριστικών απόφασης. [37] Κάλυψη Περιπτώσεων (Event Covering-EC) Μία άλλη μέθοδος για τον χειρισμό των ελλιπών τιμών που υπάρχουν στα δεδομένα είναι η Event-Covering η οποία βασίζεται την αλληλεξάρτηση μεταξύ γνωστών και των τιμών των γνωρισμάτων που λείπουν. Η αλληλεξάρτηση υπολογίζεται από πίνακες «έκτακτης ανάγκης». Το αποτέλεσμα της μεθόδου δεν είναι κατ 'ανάγκη ένα πλήρες σύνολο δεδομένων δηλαδή όλες τις τιμές του χαρακτηριστικού να είναι γνωστές. [37] Αλγόριθμος Πρόβλεψης-Μεγιστοποίησης (Regularized Expectation- Maximization-EM) Ο αλγόριθμος ΕΜ είναι μία επαναληπτική διαδικασία που διαχωρίζει το πρόβλημα σε δύο επιμέρους προβλήματα εκτίμησης και περιλαμβάνει δύο βήματα, το βήμα της μεγιστοποίησης ή βήμα Μ (Maximization) και το βήμα της πρόβλεψης ή βήμα Ε (Expectation), τα οποία εναλλάσσονται κυκλικά. Η διαδικασία σταματά όταν επέλθει σύγκλιση στις εκτιμώμενες τιμές. [3] Μοναδική τιμή Αποσύνθεσης (Singular Value Decomposition Imputation - SVDI) Σε αυτή την μέθοδο η SVD χρησιμοποιείται για να ληφθεί ένα σύνολο από κοινές ορθογώνιες εκφράσεις προτύπων οι οποίες μπορούν να συνδυαστούν γραμμικά για την προσέγγιση των τιμών όλων των χαρακτηριστικών του συνόλου δεδομένων. Στην αρχή γίνεται ο υπολογισμός των ελλιπών τιμών με τη χρήση του αλγορίθμου EM και στη συνέχεια με τη χρήση της SVD υπολογίζονται οι ιδιοτιμές. Με τη χρήση των ιδιοτιμών γίνεται η εφαρμογή 22

27 παλινδρόμησης στα πλήρη δεδομένα του χαρακτηριστικού για να ληφθεί μία εκτίμηση της ίδιας της ελλιπούς τιμής. [37] Ελάχιστος Τοπικός Τετραγωνικός Καταλογισμός (Local Least Squares Imputation-LLSI) Στη μέθοδο αυτή, το χαρακτηριστικό στόχος το οποίο έχει ελλιπείς τιμές αναπαρίσταται ως γραμμικός συνδυασμός των παρόμοιων περιπτώσεων. [37] 23

28 Κεφάλαιο 3 Αλγόριθμοι Εξόρυξης Γνώσης 3.1 Τι είναι Κατηγοριοποίηση (Classification) Δεδομένης μιας βάσης δεδομένων D = { 1, 2,..., n } εγγραφών και ένα σύνολο από κατηγορίες C = { C 1, C 2,..., C n t t t }, το πρόβλημα της κατηγοριοποίησης είναι να ορίσουμε μια απεικόνιση f : D C όπου κάθε εκχωρείται σε μια i κατηγορία. Μια κατηγορία ή κλάση περιέχει ακριβώς εκείνες τις j C j εγγραφές που έχουν απεικονιστεί σε αυτή, δηλαδή t C t C = { j i t f ti CJ, 1 i n και D. Απλούστερα, η ταξινόμηση είναι διαδικασία αναγνώρισης i της κλάσης στην οποία ανήκει κάθε στιγμιότυπο των δεδομένων. [8] Η διαδικασία της κατηγοριοποίησης έχει ως είσοδο μία συλλογή από εγγραφές που αποτελούν το σύνολο εκπαίδευσης. Κάθε εγγραφή περιέχει ένα σύνολο από γνωρίσματα (attributes). Ένα από τα γνωρίσματα είναι η κλάση. Ως έξοδος για το γνώρισμα κλάση θα υπάρχει ένα μοντέλο το οποίο είναι μία συνάρτηση τιμών των υπόλοιπων γνωρισμάτων. Η διαδικασία αυτή έχει ως σκοπό οι νέες άγνωστες εγγραφές να ανατίθενται σε μία από τις κλάσεις με τη μεγαλύτερη δυνατή ακρίβεια. Ένα σύνολο ελέγχου χρησιμοποιείται για τον καθορισμό της ακρίβειας του μοντέλου. Συνήθως το σύνολο δεδομένων χωρίζεται σε σύνολο εκπαίδευσης και σύνολο ελέγχου, με το σύνολο εκπαίδευσης να χρησιμοποιείται για να κατασκευαστεί το μοντέλο και το σύνολο ελέγχου για να επικυρωθεί. [2] 24

29 Εικόνα 10: Διαδικασία κατηγοριοποίησης Αλγόριθμοι Βασισμένοι σε Δένδρα Απόφασης Η προσέγγιση του δένδρου απόφασης είναι πολύ χρήσιμη στα προβλήματα κατηγοριοποιήσης. Με αυτήν την τεχνική, κατασκευάζεται ένα δένδρο για να μοντελοποιήσει τη διαδικασία της κατηγοριοποιήσης. Μόλις χτιστεί ένα δένδρο, εφαρμόζεται σε κάθε μία πλειάδα στη βάση δεδομένων και καταλήγει σε μία κατηγοριοποιήση για κάθε πλειάδα. Υπάρχουν δύο βασικά βήματα στην τεχνική αυτήν Η κατασκευή του δένδρου Η εφαρμογή του στη βάση δεδομένων του Ορισμός: Δίνεται ότι μια βάση δεδομένων είναι D t t t t t,..., 1 n όπου i i1,..., ih και ότι το σχήμα της βάσης δεδομένων περιέχει τα ακόλουθα γνωρίσματα A1, A2,..., A h. Επίσης δίνεται ένα σύνολο από κατηγορίες C C,..., 1 Cm. [9] 25

30 Ένα δένδρο απόφασης (decision Tree- DT) ή δένδρο κατηγοριοποίησης είναι δένδρο που συσχετίζεται με το D και έχει τις ακόλουθες ιδιότητες Κόμβος ρίζα, που δεν έχει εισερχόμενες ακμές και μηδέν ή περισσότερες εξερχόμενες Εσωτερικός κόμβος, παίρνει το όνομά του από ένα γνώρισμα A, και έχει ακριβώς μία εισερχόμενη ακμή και i δύο ή περισσότερες εξερχόμενες Ακμή, παίρνει το όνομά της από ένα κατηγόρημα-τιμή, το οποίο εφαρμόζεται στο γνώρισμα που συνδέεται με το πατέρα- κόμβο Φύλλο ή τερματικός κόμβος, έχει ως όνομα μια κατηγορία C, έχει ακριβώς μία εισερχόμενη ακμή και καμία i εξερχόμενη [9] Οι βασικοί αντικειμενικοί σκοποί των ταξινομητών δέντρων αποφάσεων είναι: i. Να ταξινομήσουν σωστά όσο το δυνατόν περισσότερο ποσοστό από το σύνολο εκπαίδευσης. ii. Να γενικεύσουν πέρα από το δείγμα εκπαίδευσης, έτσι ώστε ένα νέο άγνωστο δείγμα εκπαίδευσης να μπορεί να ταξινομηθεί με όσο το δυνατόν μεγαλύτερη ακρίβεια. iii. Να μπορούν να ενημερώνονται (update) όταν διαθέτουν περισσότερα δεδομένα. iv. Να έχουν όσο πιο απλή δομή γίνεται [9] 26

31 Παράδειγμα Δένδρου Απόφασης Αριστερά βρίσκεται το σύνολο δεδομένων (data set) ενώ δεξιά το δέντρο απόφασης. Το παραπάνω παράδειγμα, έχει μία ρίζα (όπως κάθε δέντρο) που σημειώνεται με κίτρινο χρώμα, δύο εσωτερικούς κόμβους που σημειώνονται με κόκκινο χρώμα και 4 φύλλα που σημειώνονται με μπλε χρώμα. [9] Για την κατανόηση του τρόπου λειτουργίας του δέντρου απόφασης, θα γίνει η ταξινόμηση σε μία από τις δύο κλάσεις του παραδείγματος (την YES και την NO) στην παρακάτω εγγραφή: [9] Ξεκινώντας από την ρίζα με το χαρακτηριστικό Refund η απάντηση είναι Νο, οπότε η κίνηση στο δένδρο είναι προς τα δεξιά και το επόμενο χαρακτηριστικό είναι το Marital Status στου οποίου η απάντηση είναι Married όπου το δένδρο καταλήγει στο κόμβο φύλλο Νο. [9] 27

32 Πιο γενικά Ξεκινώντας από τον κόμβο ρίζα, εφαρμόζεται η συνθήκη ελέγχου στην εγγραφή και ακολουθείται η κατάλληλη διακλάδωση ανάλογα με τα αποτελέσματα του ελέγχου Οδηγούμαστε σε έναν εσωτερικό κόμβο στον οποίο εφαρμόζεται μια νέα συνθήκη ελέγχου, και η διαδικασία συνεχίζεται μέχρι να φτάσουμε σε κόμβο φύλλο Η ετικέτα κατηγορία που σχετίζεται με το φύλλο αποδίδεται στην εγγραφή ελέγχου [9] Επαγωγή Δένδρου Απόφασης i. Αρχικοποίηση με ένα κόμβο που περιέχει όλες τις εγγραφές ii. Διάσπαση του κόμβου (μοίρασμα των εγγραφών) με βάση μία συνθήκη- διαχωρισμού σε κάποιο από τα γνωρίσματα. Επιλέγεται το καλύτερο γνώρισμα διαχωρισμού iii. Αναδρομική κλήση του δεύτερου βήματος iv. Η διαδικασία σταματά όταν ικανοποιηθεί κάποιο κριτήριο τερματισμού v. Εκτέλεση κλαδέματος του δένδρου (tree pruning) για βελτίωση της επίδοσης [9] Μηχανές Διανυσμάτων Υποστήριξης ( Support Vector Machines SVM) Οι μηχανές διανυσμάτων υποστήριξης αποτελούν αλγορίθμους που επιτυγχάνουν εκμάθηση γραμμικών ταξινομητών. Ο ταξινομητής SVM χρησιμοποιείται στα προβλήματα ταξινόμησης όπου υπάρχουν μόνο δύο κλάσεις (δυαδικά) και εξυπηρετούν και γραμμικά αλλά και μη γραμμικά δεδομένα. [10] Σκοπός αυτής της διαδικασίας είναι να βρεθεί ένα υπερεπίπεδο απόφασης το οποίο θα απομονώσει τα δεδομένα εκπαίδευσης έτσι ώστε τα δεδομένα που ανήκουν στην ίδια κατηγορία να βρίσκονται και στην ίδια πλευρά του υπερεπιπέδου. [10] 28

33 Εικόνα 11: Σκοπός των ταξινομητών SVM η εύρεση αυτού του υπερεπιπέδου Κατά τη διαδικασία εύρεσης κατάλληλου πολυεπιπέδου θα βρεθούν κι αλλά, το κατάλληλο όμως πολυεπίπεδο είναι αυτό για το οποίο η απόσταση από το κοντινότερο δεδομένο είναι μέγιστη, δηλαδή γίνεται αναζήτηση του υπερεπιπέδου μέγιστου περιθωρίου (maximal margin hyperplpane). Εικόνα 12: Το υπερεπίπεδο μεγίστου περιθωρίου 29

34 Υπερεπίπεδο Μέγιστου Περιθωρίου Εστω ένα σύνολο δεδομένων δύο γραμμικά διαχωρίσιμων τάξεων για τα οποία υπάρχει υπερεπίπεδο στο χώρο των υποδειγμάτων που ταξινομεί χωρίς λάθος όλα τα υποδείγματα εκπαίδευσης. Το υπερεπίπεδο μέγιστου περιθωρίου είναι εκείνο το οποίο επιτυγχάνει το μέγιστο διαχωρισμό μεταξύ των τάξεων. Το κυρτό περίβλημα ενός συνόλου σημείων (όπως φαίνεται και στην παραπάνω εικόνα) ορίζεται το μικρότερο δυνατό κυρτό πολύγωνο που εσωκλείει το σύνολο των σημείων. Οι δύο τάξεις (άσπρο-μαύρο) είναι γραμμικά διαχωρίσιμες όταν τα κυρτά περιβλήματά τους δεν επικαλύπτονται. Συμπερασματικά, ως υπερεπίπεδο μέγιστου περιθωρίου ορίζεται εκείνο με τη μέγιστη απόσταση από τα κυρτά περιβλήματα. Τα υποδείγματα με τη μικρότερη απόσταση από το υπερεπίπεδο μέγιστου περιθωρίου καλούνται διανύσματα υποστήριξης (support vectors). [10] Γραμμικώς Διαχωρίσιμα Δεδομένα T Η εξίσωση του γραμμικού διαχωρισμού θα είναι f ( x) w x b όπου w και b είναι οι παράμετροι του μοντέλου και xi ( xi 1, xi 2,..., xid ) το σύνολο των χαρακτηριστικών του i-οστού παραδείγματος εκπαίδευσης σε ένα σύνολο Ν παραδειγμάτων εκπαίδευσης {( x,y )} N i i i 1 και δυο κατηγορίες y { 1,1}. To w ονομάζεται διάνυσμα των βαρών και το b βάρος i κατωφλίου. Η εξίσωση του γραμμικού διαχωρισμού μπορεί να γραφεί και ως: T w x b 0 i T w x b 0 i όπου η πρώτη εξίσωση αναφέρεται στην κλάση +1 ενώ η δεύτερη στην κλάση -1. Το περιθώριο του υπερεπιπέδου υπολογίζεται με τον παρακάτω τύπο 2 arg in 2. [11] w 30

35 Εικόνα 13: Γραμμικό SVM Παράδειγμα SVM (Γραμμκώς Διαχωρίσιμα Δεδόμενα) Στην παραπάνω εικόνα φαίνονται οι δύο τρόποι με τους οποίους μπορούν να διαχωριστούν τα δεδομένα. Ο πιο κατάλληλος τρόπος είναι αυτός που θα αποδώσει και το μικρότερο λάθος. Ο πιο αποδοτικός διαχωρισμός είναι αυτός που θα έχει το μεγαλύτερο διαχωριστικό όριο (maximum marginal hyperplane) μεταξύ των κλάσεων και σύμφωνα με την εικόνα είναι ο δεύτερος τρόπος. [11] 31

36 Μη Γραμμικώς Διαχωρίσιμα Δεδομένα Σε αυτήν την κατηγορία ανήκουν τα δεδομένα των οποίων οι κλάσεις δεν μπορούν να διαχωριστούν με μία ευθεία γραμμή. [11] Εικόνα 14: Μη γραμμικό SVM Αλγόριθμος k-nearest Neighbor (k-κοντινότερου γείτονα knn) Ορισμός: Κ-κοντινότεροι γείτονες μίας εγγραφής x είναι τα σημεία που έχουν την k-οστή μικρότερη απόσταση από το x. [12] Εικόνα 15: Αλγόριθμος k-nn Στο παραπάνω σχήμα, στην πρώτη εικόνα φαίνεται ότι υπάρχει 1 πλησιέστερος γείτονας στο x, στη δεύτερη 2 πλησιέστεροι γείτονες και στην τρίτη 3 πλησιέστεροι γείτονες. [12] 32

37 Με βάση αυτόν τον αλγόριθμο για να κατηγοριοποιηθεί μία άγνωστη εγγραφή, απαιτούνται: Ο υπολογισμός της απόστασης από τις εγγραφές του συνόλου Εύρεση των k-κοντινότερων γειτόνων (βάσει της απόστασης) Χρήση των κλάσεων των κοντινότερων γειτόνων για τον καθορισμό της κλάσης της άγνωστης εγγραφής, με βάση την πλειοψηφία των κλάσεων των κοντινότερων γειτόνων. Η απόσταση των κοντινότερων γειτόνων με το σημείο του οποίου αναζητείται η κλάση του υπολογίζεται με τη χρήση μιας μετρικής απόστασης όπως η Ευκλείδεια. [12] Η Ευκλείδεια απόσταση μεταξύ δύο σημείων, π.χ. X1 ( x11, x12,..., x1 n ) και X ( x, x,..., x ) ορίζεται από την σχέση: [12] n dist( X, X ) ( x x ) 1 2 1i 2i i 1 n 2 Σημειώνεται ότι η τιμή του k επηρεάζει το αποτέλεσμα Αν το k είναι πολύ μικρό τότε υπάρχει ευαισθησία στα σημεία θορύβου Αν το k είναι πολύ μεγάλο, η γειτονιά μπορεί να περιέχει σημεία από άλλες κλάσεις Γενικά, όσο περισσότερα είναι τα πρότυπα εκπαίδευσης, τόσο μεγαλύτερη πρέπει να είναι η τιμή της παραμέτρου k. Συχνά, λαμβάνεται k n, όπου n είναι το σύνολο εκπαίδευσης. [12] Συνήθως, γίνεται κανονικοποίηση των τιμών πριν την χρήση του τύπου για τον υπολογισμό της απόστασης. H κανονικοποίηση έχει ως στόχο, τον περιορισμό της έκτασης του ελάχιστου και του μέγιστου των τιμών. Εκτελεί μια γραμμική μετατροπή των αρχικών δεδομένων και υποθέτοντας ότι min A και max A είναι η μικρότερη και η μεγαλύτερη τιμή σε ένα διάστημα Α, η min-max κανονικοποίηση μετατρέπει μια τιμή v του Α σε v στο διάστημα 33

38 [ new _ min A, new _ max A ] μέσω του τύπου: min A ' ( new _ max new _ min ) new _ min max min A A A A A [12] Στην περίπτωση που τα δεδομένα δεν είναι συμμετρικώς κατανεμημένα γύρω από τη μέση τιμή τότε χρησιμοποιούμε μη γραμμικές μεθόδους. Με αυτό τον τρόπο συμπιέζει τα δεδομένα στο διάστημα [0,1]. [12] Παράδειγμα k-nn Αλγορίθμου Στο παραπάνω σχήμα υπάρχει μία εγγραφή (κόκκινο αστέρι) άγνωστης κλάσης. Οι πιθανές κλάσεις είναι η κλάση Α με το κίτρινο και η κλάση Β με το μωβ χρώμα. Αν το k=3 τότε οι κοντινότεροι γείτονες της νέας εγγραφής είναι τρεις και ένας από αυτούς ανήκει στην κλάση Α ενώ οι υπόλοιποι δύο ανήκουν στην κλάση Β. Στην περίπτωση που το k=6 τότε οι πλησιέστεροι γείτονες της νέας εγγραφής είναι 6, οι 4 των οποίων ανήκουν στην κλάση Α και οι 2 στην κλάση Β. 34

39 Άλλες αποστάσεις που χρησιμοποιούνται για την εγγύτητα κάθε νέας εγγραφής είναι οι παρακάτω: [16] Γραμμική και Λογιστική Παλινδρόμηση Η παλινδρόμηση είναι μια ευρέως χρησιμοποιημένη στατιστική τεχνική μοντελοποίησης για την έρευνα της συσχέτισης μεταξύ μίας εξαρτώμενης μεταβλητής και μιας ή περισσότερων ανεξάρτητων μεταβλητών. Χρησιμοποιείται με σκοπό την εκχώρηση δεδομένων σε μία πραγματική μεταβλητή πρόβλεψης, όπως ισχύει και στην περίπτωση της κατηγοριοποίησης όταν είναι διακριτή, αλλιώς καλείται παλινδρόμηση αν η μεταβλητή είναι συνεχής. Η παλινδρόμηση προϋποθέτει ότι τα σχετικά δεδομένα ταιριάζουν με μερικά γνωστά είδη συνάρτησης και μετά καθορίζει την καλύτερη συνάρτηση αυτού 35

40 του είδους που μοντελοποιεί τα δεδομένα που έχουν δοθεί. Αποτέλεσμα της παλινδρόμησης όταν χρησιμοποιείται ως τεχνική εξόρυξης δεδομένων, αποτελεί ένα μοντέλο που χρησιμοποιείται αργότερα για να προβλέψει τις τιμές της κατηγορίας για τα νέα δεδομένα. [13] Η παλινδρόμηση είναι μια τεχνική που χρησιμοποιείται για την μοντελοποίηση και την ανάλυση αριθμητικών δεδομένων, μιας εξαρτημένης μεταβλητής και κάποιων ανεξάρτητων μεταβλητών. Το μοντέλο είναι μια συνάρτηση συσχέτισης της εξαρτημένης μεταβλητής από τις ανεξάρτητες. Η μοντελοποίηση μπορεί να γίνει χωρίς να είναι γνωστή από πριν η γνώση για τον τρόπο με τον οποίο συνδέεται η εξαρτημένη μεταβλητή από τις ανεξάρτητες και τότε ονομάζεται εμπειρική μοντελοποίηση. Στην γραμμική παλινδρόμηση, η απαίτηση του μοντέλου που θα παραχθεί είναι: η εξαρτημένη μεταβλητή y i να είναι ένας γραμμικός συνδυασμός των ανεξαρτήτων μεταβλητών. [13] Απλή Γραμμική Παλινδρόμηση Στην απλή γραμμική παλινδρόμηση υπάρχει η ανεξάρτητη μεταβλητή δύο παράμετροι 0, 1. Το μοντέλο έχει τη μορφή yi 0 1xi i με i 1, m όπου i είναι το σφάλμα της πρόβλεψης. [13], και Πολλαπλή Γραμμική Παλινδρόμηση Το μοντέλο της απλής γραμμικής παλινδρόμησης μπορεί να επεκταθεί με τη χρήση περισσότερων από μία ανεξάρτητες μεταβλητές. Αυτό το μοντέλο που προκύπτει είναι η πολλαπλή γραμμική παλινδρόμηση η οποία δίνεται από τον τύπο y 1x1 2x2... i Το μοντέλο αυτό ονομάζεται γενικό γραμμικό μοντέλο (general linear model). [13] 36

41 Λογιστική Παλινδρόμηση Η λογιστική παλινδρόμηση χρησιμοποιείται για την πρόβλεψη στην ύπαρξη ή όχι ενός χαρακτηριστικού. Πρόκειται για μία γενίκευση της απλή γραμμικής παλινδρόμησης όταν όμως η εξαρτημένη μεταβλητή Υ παίρνει δύο τιμές (0 και 1, 0 όταν λείπει το χαρακτηριστικό και 1 όταν υπάρχει). Η λογιστική συνάρτηση ορίζεται ως εξής f ( ) 1 1 exp( ). [13] 3.2 Αλγόριθμος Προώθησης Boosting Αρχικά, ας αναφερθεί ο στόχος του αλγορίθμου Προώθησης-Boosting ο οποίος είναι η παραγωγή ενός πολύ ακριβούς κανόνα με το συνδυασμό πολλών πρόχειρων αδύναμων κανόνων. Ο αλγόριθμος Προώθησης-Boosting προέρχεται από τον αλγόριθμο Hedge. [14] Ο αλγόριθμος αυτός ακολουθεί τα παρακάτω βήματα για να καταλήξει στην καλύτερη πρόβλεψη. 1. Σε ένα σύνολο στρατηγικών οι οποίες στο τέλος χρησιμοποιούνται για την πρόβλεψη αντιστοιχούνται με βάρη 2. Το βάρος κάθε στρατηγικής εκφράζει την πιθανότητα ποια στρατηγική είναι η πιο ακριβής 3. Στις στρατηγικές με τις σωστές προβλέψεις τοποθετούνται μεγαλύτερα βάρη εν αντιθέσει με τις στρατηγικές που προβλέπουν λανθασμένα των οποίων τα βάρη μειώνονται. [14] Θα δοθεί ένα χαρακτηριστικό παράδειγμα για την κατανόηση του αλγορίθμου: Αν κάποιος θέλει να στοιχηματίσει στον ιππόδρομο και θέλει να φτιάξει ένα πρόγραμμα για να έχει όσο περισσότερα κέρδη τότε αυτός ο αλγόριθμος θα δέχεται ένα διάνυσμα με πληροφορίες για κάθε ιπποδρομία (αποδόσεις, ηλικία αλόγων, κατάταξη καβαλάρη) και θα προβλέπει το νικητή κάθε ιπποδρομίας. Κάποιος ειδικός από τον ιππόδρομο λογικά δε θα μπορεί να δώσει μια απάντηση για το ποιο άλογο θα κερδίζει, πάντα στην περίπτωση όμως που παρουσιαστούν τα δεδομένα κάθε ιπποδρομίας θα μπορέσει να 37

42 απαντήσει για το ποιο άλογο είχε την καλύτερη απόδοση. Παρατηρείται ότι αυτός ο τρόπος που εξάγεται το συμπέρασμα δεν είναι πολύ ακριβής αλλά τουλάχιστον έχει περισσότερη βάση από μία τυχαία επιλογή. Στην περίπτωση που δοθούν στον ειδικό του ιπποδρόμου περισσότερες ιπποδρομίες θα μπορέσει να εξάγει περισσότερα συμπεράσματα. Τα δύο προβλήματα που προκύπτουν είναι με ποιον τρόπο θα επιλεγούν οι ιπποδρομίες καθώς και πως θα συνδυάσει τα συμπεράσματα που έχουν εξαχθεί. Από αυτά τα δύο προβλήματα που προέκυψαν ο αλγόριθμος boosting μπορεί να εξάγει ένα ακριβή κανόνα πρόβλεψης με τον συνδυασμό αυτών των δύο ασαφών παραγόντων. [14] 3.3 Νευρωνικά Δίκτυα Τι είναι τα Νευρωνικά Δίκτυα Τα νευρωνικά δίκτυα έκαναν την εμφάνιση τους τα τελευταία σαράντα περίπου χρόνια. Το κύριο χαρακτηριστικό τους είναι ότι βασίζονται στο νευρικό σύστημα των ζωντανών οργανισμών. Στην ουσία προσπαθούν να συνδυάσουν τον τρόπο σκέψης του ανθρώπινου εγκεφάλου με τον μαθηματικό τρόπο σκέψης. Χαρακτηριστικά σημειώνεται ότι χρησιμοποιούνται εκφράσεις όπως «ένα δίκτυο μαθαίνει και εκπαιδεύεται», «θυμάται ή ξεχνά μία αριθμητική τιμή» εκφράσεις που μέχρι τώρα σχετίζονταν με τον άνθρωπο. Πιο συγκεκριμένα τα νευρωνικά δίκτυα ξεκινούν από τη βιολογία. Το νευρικό σύστημα των οργανισμών αποτελείται από πολλά νευρωνικά δίκτυα τα οποία είναι υπεύθυνα για την επαφή με τον εξωτερικό κόσμο, τη μάθηση, την μνήμη. Ο εγκέφαλος ο οποίος έχει το πιο σημαντικό ρόλο στο νευρικό σύστημα αποτελείται από νευρωνικά δίκτυα. Κάθε νευρωνικό δίκτυο αποτελείται από πολλούς νευρώνες ή νευρώνια (neurons). Ο κάθε νευρώνας είναι ανεξάρτητος στο δίκτυο και συνεχώς επεξεργάζονται πληροφορίες. [15] Τα βιολογικά νευρωνικά δίκτυα στους ζωντανούς οργανισμούς εύκολα μπορούν να αναγνωρίσουν μία εικόνα ή μία φωνή. Ο ηλεκτρονικός υπολογιστής λόγω της διαφορετική δομής του σε σχέση με αυτή του 38

43 εγκεφάλου δεν μπορεί να το επιτύχει. Ένας τρόπος για να επιτευχθεί αυτό είναι να δημιουργηθούν πρότυπα του νευρωνικού συστήματος του ανθρώπου, τα οποία θα περιέχουν όλα τα χαρακτηριστικά που είναι γνωστά και τα οποία θα μπορούσαν μόνα τους να εκτελέσουν τις εργασίες όπως κάνουν τα βιολογικά νευρωνικά δίκτυα. Τα δίκτυα αυτά ονομάζονται τεχνικά νευρωνικά δίκτυα (Artificial Neural Nets, ANN). Τα δίκτυα αυτά παίρνουν τη γνώση και μαθαίνουν με την εξάσκηση και την εμπειρία αλλά δεν ακολουθούν κανόνες. Η εκπαίδευση γίνεται με τη παρουσίαση αντιπροσωπευτικών ή παρόμοιων προτύπων στο δίκτυο με αυτά που είναι ο στόχος να μάθει. Κάθε δίκτυο έχει δέχεται εισόδους και δίδει εξόδους. Στην ουσία του δίνονται ως είσοδοι κάποια πρότυπα για τα οποία είναι η γνωστή η έξοδος. Το δίκτυο δημιουργεί την εσωτερική δομή και αφού βρει τη σωστή θα μπορεί να λύνει και άλλα παρόμοια προβλήματα τα οποία θα είναι άγνωστα μέχρι τότε. Τα προβλήματα αυτά όμως πρέπει να είναι της ίδιας φύσης και των ίδιων χαρακτηριστικών όπως αυτά της εκπαίδευσης. [15] Εκπαίδευση ενός Νευρωνικού Δικτύου Εικόνα 16: Δομή Νευρικού Δικτύου Ένα νευρωνικό δίκτυο αποτελείται από νευρώνες. Κάθε νευρώνας έχει ηλεκτρικά σήματα τα οποία τα δέχεται ως είσοδο, μία μόνο έξοδο και κάποιες πιθανές καταστάσεις στις οποίες μπορεί να βρεθεί. Όπως φαίνεται και στην εικόνα κάθε είσοδος έχει μία τιμή βάρους από την οποία συνεπάγεται πόσο 39

44 στενός είναι ο σύνδεσμος δύο νευρώνων που συνδέονται. Το εύρος της τιμής του βάρους είναι [-1,1]. Με την ενεργοποίηση κάθε νευρώνα υπολογίζεται μία συνάρτηση με όλα τα υπάρχοντα δεδομένα και γίνεται σύγκριση της τιμής αυτής της συνάρτησης με την τιμή κατωφλίου η οποία είναι χαρακτηριστική για το συγκεκριμένο νευρώνα. Στην περίπτωση που η τιμή της συνάρτησης είναι μεγαλύτερη από εκείνη του κατωφλίου, ο νευρώνας υπολογίζει την έξοδο και την προωθεί ως είσοδο στον επόμενο νευρώνα. [15] Οι τιμές των βαρών αλλάζουν κατά τη διάρκεια της εκπαίδευσης και ο τρόπος με τον οποίο αλλάζουν εξαρτάται από την μέθοδο που έχει επιλεχθεί. Είναι τρεις οι τρόποι με τους οποίους αλλάζουν τα βάρη: ο εποπτευόμενος τρόπος, ο μη εποπτευόμενος και ο αυτό-εποπτευόμενος, Εποπτευόμενος Τυχαία αρχικοποίηση τιμών στις τιμές των βαρών, δίνονται οι τιμές των εισόδων και των στόχων. Στη διαδικασία της εκπαίδευσης αλλάζουν οι τιμές των βαρών σε σχέση με το σφάλμα που υπάρχει σε σχέση με το στόχο. Μη-εποπτευόμενος Δίνεται η πληροφορία στο δίκτυο χωρίς να γίνεται κάποιος έλεγχος. Αυτο-εποπτευόμενος Το δίκτυο αυτό-ελέγχει τον εαυτό του και διορθώνει μόνο του τα σφάλματα στα δεδομένα με τον μηχανισμό ανάδρασης. [15] Η εκπαίδευση ολοκληρώνεται όταν τα βάρη σταματούν να μεταβάλλονται και αυτό συμβαίνει όταν το βάρος της εξόδου είτε είναι μηδέν ή τείνει στο μηδέν. Τέλος, ένα απλό νευρωνικό δίκτυο αποτελείται από ένα νευρώνα. Τα πιο περίπλοκα νευρωνικά δίκτυα δημιουργούνται από πολλούς νευρώνες οι οποίοι συνδέονται με συγκεκριμένη δομή. Όταν η δομή είναι πολύ περίπλοκη πρόκειται για αρχιτεκτονική δικτύων η οποία είναι διαφορετική από την δομή των υπολογιστών. Οι υπολογιστές δουλεύουν σειριακά σε αντίθεση με τα νευρωνικά δίκτυα τα οποία έχουν παράλληλο τρόπο λειτουργίας αφού μία εργασία μοιράζεται σε διαφορετικά τμήματα του δικτύου και από αυτό συνεπάγεται και η μεγάλη ταχύτητα. [15] 40

45 3.4 Ακολουθιακής Ελάχιστης Βελτιστοποίησης (Sequential Minimal Optimization -SMΟ) Είναι ένας νέος αλγόριθμος για την εκπαίδευση των Μηχανών Διανυσμάτων Υποστήριξης (Support Vector Machines). H εκπαίδευση ενός SVM προϋποθέτει τη λύση ενός πολύ μεγάλου τετραγωνικού προγραμματιστικού προβλήματος βελτιστοποίησης. Ο SMO σπάει αυτό το μεγάλο πρόβλημα σε μια σειρά από μικρότερα δυνατά προβλήματα. Αυτά τα μικρά προβλήματα επιλύονται αναλυτικά και αποφεύγεται η χρήση ενός χρονοβόρου εσωτερικού βρόχου για τη αριθμητική βελτιστοποίηση. [38] 3.5 Πολυεπίπεδο Νευρωνικό Δίκτυο (Multilayer perceptron) Ένα πολυεπίπεδο νευρωνικό δίκτυο (MLP) είναι ένα τεχνητό μοντέλο μεταδράσεως νευρωνικό δίκτυο που χαρτογραφεί σύνολα δεδομένων εισόδου σε ένα σύνολο κατάλληλων εξόδων. Ένα MLP αποτελείται από πολλαπλά στρώματα των κόμβων σε ένα κατευθυνόμενο γράφημα, με κάθε στρώμα πλήρως συνδεδεμένο με το επόμενο. Εκτός από τους κόμβους εισόδου, κάθε κόμβος είναι ένας νευρώνας (ή στοιχείο επεξεργασίας) με μια μη γραμμική συνάρτηση ενεργοποίησης. Το MLP χρησιμοποιεί μια εποπτευόμενη τεχνική μάθησης που ονομάζεται ανάστροφη διάδοση για την εκπαίδευση του δικτύου. Το MLP είναι μια τροποποίηση του προτύπου γραμμικού perceptron και μπορεί να διακρίνει στοιχεία που δεν είναι γραμμικά διαχωρίσιμα. [39] 41

46 Κεφάλαιο 4 Διαχείριση Προβλήματος με τη χρήση του KEEL Το ΚEEL (Knowledge Extraction based on Evolutionary Learning) είναι ένα ανοιχτού κώδικα (GPLv3) εργαλείο λογισμικού Java που χρησιμοποιείται για την εξαγωγή γνώσης η οποία βασίζεται στην εξελικτική μάθηση. Το KEEL παρέχει ένα απλό GUI με βάση τη ροή των δεδομένων για το σχεδιασμό των πειραμάτων με διαφορετικά σύνολα δεδομένων και υπολογιστικών αλγορίθμων νοημοσύνης (με ιδιαίτερη προσοχή στους εξελικτικούς αλγορίθμους), προκειμένου να εκτιμηθεί η συμπεριφορά των αλγορίθμων. Περιέχει μία ευρεία ποικιλία των κλασσικών αλγορίθμων εξόρυξης γνώσης, τεχνικές προ-επεξεργασίας (επιλογή συνόλου εκπαίδευσης, επιλογή χαρακτηριστικών, διακριτοποίηση, μέθοδοι καταλογισμού για τις τιμές που λείπουν) και μεταξύ άλλων υπολογιστικούς αλγόριθμους μάθησης βασιζόμενους στη συγκέντρωση πληροφοριών, υβριδικά μοντέλα, στατιστικές μεθοδολογίες προ-επεξεργασίας και ούτω καθεξής. Αυτό επιτρέπει την εκτέλεση μιας πλήρους ανάλυσης των νέων υπολογιστικής νοημοσύνης προτάσεων σε σχέση με τις υπάρχουσες. Το κύριο μενού του εργαλείου KEEL περιλαμβάνει: Διαχείριση Δεδομένων (Data Management): Το τμήμα διαχείρισης δεδομένων, συγκεντρώνει όλες τις λειτουργίες που σχετίζονται με τα σύνολα δεδομένων που χρησιμοποιούνται κατά τη διαδικασία εξόρυξης δεδομένων. Ορισμένες λειτουργίες σχετίζονται με την μετατροπή του συνόλου δεδομένων από άλλες μορφές δεδομένων που χρησιμοποιήθηκε στα εργαλεία διαχείρισης δεδομένων ή στα εργαλεία εξόρυξης δεδομένων του KEEL και αντίστροφα. Η ενότητα αυτή επιτρέπει επίσης την τροποποίηση του συνόλου δεδομένων μέσω του γραφικού περιβάλλοντος και περιλαμβάνει επίσης βοηθητικά προγράμματα για την οπτικοποίηση των δεδομένων. Τέλος, υπάρχει μια διαδικασία για να δημιουργηθούν κατατμήσεις σε ένα σύνολο δεδομένων. Αυτές οι κατατμήσεις θα χρησιμοποιηθούν στο τμήμα πειραμάτων για τη δημιουργία διασταυρωμένης επικύρωσης k-μερών στα πειράματα με έναν εύκολο τρόπο. 42

47 Πειράματα (Experiments): Η ενότητα πειραμάτων σχεδιάστηκε για να βοηθήσει τον χρήστη να δημιουργήσει ένα πείραμα εξόρυξης δεδομένων χρησιμοποιώντας ένα γραφικό περιβάλλον. Το πείραμα που δημιουργείται μπορεί να τρέξει σε οποιαδήποτε μηχανή που υποστηρίζει μία Java Εικονική Μηχανή. Αυτή η ενότητα είναι το πιο ισχυρό τμήμα που περιλαμβάνεται στο εργαλείο, δεδομένου ότι δίνει τη δυνατότητα στο χρήστη να εφαρμόσει την υλοποίηση περισσότερων από 500 αλγόριθμους για οποιοδήποτε σύνολο δεδομένων και να εκπληρώσει ένα πείραμα εξόρυξης δεδομένων. Η διαδικασία αυτή ανακουφίζει τον χρήστη από το να δημιουργήσει όλα τα αρχεία ρυθμίσεων για τις μεθόδους (αυτά τα αρχεία δημιουργούνται αυτόματα από το λογισμικού ΚΕΕL) και επιτρέπει στο χρήστη να εκτελέσει συγκρίσεις με ένα μεγάλο αριθμό από σύνολα δεδομένων, ένα μεγάλο αριθμό των αλγορίθμων και άλλων χρήσιμων λειτουργιών όπως την εφαρμογή των στατιστικών ελέγχων με τα αποτελέσματα του πειράματος ή την έξοδο των χρήσιμων δεδομένων που συνδέονται με το πείραμα, για παράδειγμα η ακρίβεια του ταξινομητή σε ένα σύνολο δεδομένων. Εκπαιδευτικά (Educational): Η εκπαιδευτική ενότητα προσπαθεί να είναι ένα χρήσιμο εργαλείο σε ένα περιβάλλον διδασκαλίας. Για την επίτευξη του στόχου αυτού, το εκπαιδευτικό τμήμα προσφέρει μια προβολή σε πραγματικό χρόνο για την εξέλιξη των αλγορίθμων, που επιτρέπει στους χρήστες να χρησιμοποιήσουν αυτές τις πληροφορίες για να μάθουν πώς μπορούν να ρυθμίσουν τις παραμέτρους τους. Ενότητες (Modules): Το τμήμα αυτό περιλαμβάνει νέες ενότητες που επεκτείνει τις λειτουργίες του λογισμικού KEEL για συγκεκριμένα καθήκοντα που συνδέονται με τη διαδικασία εξόρυξης δεδομένων που απαιτούν ειδική μεταχείριση. «Ανισόρροπη» Mάθηση (Imbalanced Learning): Αυτή η ενότητα διαθέτει αρκετούς αλγορίθμους που έχουν σχεδιαστεί ειδικά για την «ανισόρροπη» κατηγοριοποίηση. Το γραφικό περιβάλλον δίνει στον χρήστη την πρόσβαση σε ένα συγκεκριμένο σύνολο προβλημάτων στο οποίο οι αλγόριθμοι και οι διαδικασίες αξιολόγησης στην «ανισόρροπη» κατηγοροποίηση διατηρούν την 43

48 ίδια δομή και τους ίδιους στόχους με την ενότητα των πειραμάτων. Μη Παραμετρική Στατιστική Ανάλυση (Non-Parametric Statistical Analysis): Η ενότητα αυτή παρέχει στο χρήστη αρκετές μηπαραμετρικές στατιστικές διαδικασίες κατά ζεύγη (Wilcoxon τεστ) και πολλαπλές συγκρίσεις, μαζί με τις διάφορες εκ των υστέρων διαδικασίες για τις προηγμένες επαληθεύσεις των αποτελεσμάτων, που δίνονται σε ακατέργαστη μορφή CSV. Επιπλέον, αυτή η ενότητα εξάγει όλα τα αποτελέσματα των αναλύσεων σε μορφή LaTeX, διευκoλύνει την ένταξη των αναφορών που λαμβάνονται σε οποιαδήποτε πειραματική έκθεση. Ημι-Εποπτευόμενη Μάθηση (Semi-Supervised Learning): Η ενότητα αυτή, παρόμοια με την «Ανισόρροπη» Μάθηση, είναι αφιερωμένη στη δημιουργία και το σχεδιασμό των πειραμάτων που σχετίζονται με την ημι-εποπτευόμενη μάθηση. Διαθέτει ένα περιβάλλον παρόμοιο με την ενότητα των πειραμάτων το οποίο χαρακτηρίζει τα συναφή σύνολα δεδομένων και τις μεθόδους οι οποίες ήταν χρήσιμες. Μάθηση Πολλαπλού Παραδείγματος (Multiple Instance Learning): Η ενότητα αυτή ακολουθεί το ίδιο πρότυπο με τις μη ισορροπημένες και ημι-εποπτευόμενες ενοτήτες μάθησης, επιτρέπει στο χρήστη να δημιουργήσει και να προετοιμάσει τα πειράματα πολλαπλής-μάθησης. Διαθέτει ένα γραφικό περιβάλλον παρόμοιο με του τμήματος πειραμάτων που δίνει πρόσβαση σε συγκεκριμένα σύνολα δεδομένων πολλαπλών παραδειγμάτων και αλγορίθμων οι οποίοι είναι σχεδιασμένοι για να αντιμετωπίσουν αυτό το πρόβλημα Περιγραφή Βάσεων Δεδομένων Στο σημείο αυτό θα γίνει η περιγραφή μερικών βάσεων δεδομένων οι οποίες θα χρησιμοποιηθούν για να δοθεί το αποτέλεσμα ποια μέθοδος αντιμετώπισης ελλιπών τιμών είναι πιο αποδοτική όσον αφορά τους αλγορίθμους C4.5, MLP, SMO, 3-NN. 44

49 4.1.1 Primary Tumor data set Η πρώτη περιγραφή θα γίνει στη βάση δεδομένων Primary Tumor Data Set ( ). Είναι ένα σύνολο το οποίο αποτελείται από ένα δείγμα 339 εγγραφών, 17 χαρακτηριστικών και υπάρχουν ελλιπείς τιμές. H βάση αναφέρεται σε ποιο σημείο του οργανισμού βρίσκεται ο όγκος Dermatology data set Πρόκειται για τη βάση δεδομένων Dermatology Data Set ( Είναι ένα σύνολο το οποίο αποτελείται από ένα δείγμα 366 εγγραφών, 34 χαρακτηριστικών και υπάρχουν ελλιπείς τιμές. Στο σύνολο δεδομένων σχετίζεται με τις ερυθηματολεπιδώδεις πλάκες, το χαρακτηριστικό οικογενειακό ιστορικό έχει την τιμή 1 εάν οποιαδήποτε από αυτές τις ασθένειες έχει παρατηρηθεί στην οικογένεια, και 0 διαφορετικά. Το χαρακτηριστικό ηλικία αντιπροσωπεύει απλά την ηλικία του ασθενούς. Για κάθε άλλο χαρακτηριστικό (κλινικά και ιστοπαθολογικά) ο βαθμός κυμαίνεται στην κλίμακα από 0 έως 3. Εδώ, 0 υποδεικνύει ότι το χαρακτηριστικό δεν ήταν παρόν, 3 υποδεικνύει την μεγαλύτερη δυνατή ποσότητα, και 1, 2 δείχνουν τις σχετικές ενδιάμεσες τιμές Automobile data set To σύνολο δεδομένων που θα χρησιμοποιηθεί ονομάζεται Automobile Data Set ( Το σύνολο των εγγραφών είναι 205, ο αριθμός των χαρακτηριστικών είναι 26 και υπάρχουν ελλιπείς τιμές. Αυτό το σύνολο δεδομένων αποτελείται από τρεις τύπους οντοτήτων : (α) ο προσδιορισμός τoυ αυτόματου όσον αφορά διάφορα χαρακτηριστικά (β) αποδίδεται βαθμολογία σχετικά με τον κίνδυνο της ασφάλειάς του (γ)οι απώλειες είναι κανονικοποιημένες λόγω της χρήσης του σε σύγκριση με άλλα αυτοκίνητα. 45

50 Symboling αντιστοιχεί στο βαθμό στον οποίο «το αυτόματο» είναι πιο επικίνδυνο από την τιμή που υποδεικνύει. Στα αυτοκίνητα δόθηκε αρχικά ένα «risk factor symbol» όπου συνδέεται ο κίνδυνος με την τιμή του. Στη συνέχεια, αν είναι πιο επικίνδυνη ( ή λιγότερο ), το σύμβολο αυτό ρυθμίζεται μετακινώντας την πιο πάνω ( ή προς τα κάτω ) την κλίμακα. Η τιμή του +3 υποδεικνύει ότι το «αυτόματο» είναι επικίνδυνο, -2 ότι ίσως είναι αρκετά ασφαλής. Η κλάση θα είναι το χαρακτηριστικό symboling Horse Colic data set Πρόκειται για τη βάση δεδομένων Horse Colic Data Set ( Είναι ένα σύνολο το οποίο αποτελείται από ένα δείγμα 368 εγγραφών, 23 χαρακτηριστικών και υπάρχουν ελλιπείς τιμές. Ένα σύνολο δεδομένων για τις ασθένειες των ίππων. Ο στόχος είναι να καθορίσει εάν το άλογο χρειάζεται χειρουργείο ή όχι Mushroom data set Πρόκειται για τη βάση δεδομένων Mushroom Data Set ( Είναι ένα σύνολο το οποίο αποτελείται από ένα δείγμα 8124 εγγραφών, 22 χαρακτηριστικών και υπάρχουν ελλιπείς τιμές. Κάθε είδος ταυτοποιείται ως βρώσιμο ή δηλητηριώδες Cylinder Bands data set Πρόκειται για τη βάση δεδομένων Cylinder Bands Data Set ( ). Είναι ένα σύνολο το οποίο αποτελείται από ένα δείγμα 539 εγγραφών, 19 χαρακτηριστικών και υπάρχουν ελλιπείς τιμές. Στόχος είναι να καθοριστεί εάν ένα κομμάτι είναι cylinder band. 46

51 4.1.7 Hepatitis data set To σύνολο δεδομένων που θα χρησιμοποιηθεί ονομάζεται Hepatitis Data Set ( ). Το σύνολο των εγγραφών είναι 155, ο αριθμός των χαρακτηριστικών είναι 19 και υπάρχουν ελλιπείς τιμές. Στόχος είναι να προβλεφθεί αν οι ασθενείς αυτοί θα πεθάνουν και τότε ανήκουν στην κλάση 1 ή θα επιβιώσουν όπου τότε θα βρίσκονται στην κλάση Water-Treatment Plant data set To σύνολο δεδομένων που θα χρησιμοποιηθεί ονομάζεται Water- Treatment Plant Data Set ( ). Το σύνολο των εγγραφών είναι 527 και ο αριθμός των χαρακτηριστικών είναι 38. Ο στόχος είναι να χαρακτηρίσει την κατάσταση λειτουργίας του εργοστασίου με σκοπό την πρόγνωση βλαβών μέσω των μεταβλητών κατάστασης του φυτού σε κάθε ένα από τα στάδια της διαδικασίας επεξεργασίας Credit Approval data set To σύνολο δεδομένων που θα χρησιμοποιηθεί ονομάζεται Credit Approval Data Set ( ). Το σύνολο των εγγραφών είναι 690, ο αριθμός των χαρακτηριστικών είναι 15. Αυτό το αρχείο αφορά εφαρμογές πιστωτικών καρτών. Όλα τα ονόματα και τις τιμές των γνωρισμάτων έχουν αλλάξει σε σύμβολα για την προστασία του απορρήτου των δεδομένων. Αυτό το σύνολο δεδομένων είναι ενδιαφέρον, επειδή υπάρχει ένα καλό μείγμα από χαρακτηριστικά: συνεχής, ονομαστικές με μικρό και με μεγαλύτερο αριθμό τιμών Breast Cancer Wisconsin (Original) data set Το σύνολο δεδομένων που θα χρησιμοποιηθεί ονομάζεται Breast Cancer Wisconsin (Original) Data Set ( ). Tο σύνολο των εγγραφών είναι 683, ο αριθμός των χαρακτηριστικών είναι 9 και υπάρχουν ελλιπείς τιμές. Αυτή η βάση δεδομένων περιέχει τις περιπτώσεις 47

52 από μία μελέτη που διεξήχθη στο Πανεπιστήμιο του Wisconsin Νοσοκομεία, Μάντισον, για τους ασθενείς που είχαν υποβληθεί σε χειρουργική επέμβαση για καρκίνου του μαστού. Ο στόχος είναι να προσδιοριστεί εάν ο ανιχνευόμενος όγκος είναι καλοήθης ή κακοήθης. Συνεπώς, σημειώνεται ότι αν ο όγκος είναι καλοήθης ανήκει στην κλάση (2) και αν είτε κακοήθης στην κλάση (4) Breast Cancer data set To σύνολο δεδομένων που θα χρησιμοποιηθεί ονομάζεται Breast Cancer Data Set ( Το σύνολο των εγγραφών είναι 286, ο αριθμός των χαρακτηριστικών είναι 9 και υπάρχουν ελλιπείς τιμές. Κάθε περίπτωση του δείγματος ανήκει σε μία από τις δύο κλάσεις no-recurrence-events ή recurrence-events Post-Operative data set To σύνολο δεδομένων που θα χρησιμοποιηθεί ονομάζεται Post-Operative Data Set ( ). Το σύνολο των εγγραφών είναι 90, ο αριθμός των χαρακτηριστικών είναι 8 και υπάρχουν ελλιπείς τιμές. Η διαδικασία της ταξινόμησης αυτής της βάσης δεδομένων είναι να προσδιοριστεί ο τόπος όπου οι ασθενείς θα βρίσκονται στην μετεγχειρητική ανάκαμψη. Επειδή η υποθερμία είναι μια σημαντική ανησυχία μετά την επέμβαση, τα χαρακτηριστικά αντιστοιχούν με τις μετρήσεις της θερμοκρασίας του σώματος. Η ετικέτα τάξη μπορεί να λάβει μία από τις ακόλουθες τιμές: Ι (ασθενής πρέπει να μεταφερθεί στην Μονάδα Εντατικής Θεραπείας), S (ασθενής είναι έτοιμη να πάει στο σπίτι), Α (ασθενής που μεταφέρεται στο Γενικό Νοσοκομείο) Mammographic Mass data set To σύνολο δεδομένων που θα χρησιμοποιηθεί ονομάζεται Mammographic Data Set ( ). Το σύνολο των εγγραφών είναι 961, ο αριθμός των χαρακτηριστικών είναι 5 και υπάρχουν ελλιπείς τιμές. Αυτό το σύνολο δεδομένων μπορεί να χρησιμοποιηθεί για να προβλεφθεί η σοβαρότητα 48

53 (καλοήθης ή κακοήθης) ενός όγκου από μία μαστογραφία από BI-RADS χαρακτηριστικά και την ηλικία του ασθενούς Heart Disease (Cleveland) data set To σύνολο δεδομένων που θα χρησιμοποιηθεί ονομάζεται Heart Disease (Cleverland) Data Set ( ). Το σύνολο των εγγραφών είναι 303. Αυτό το σύνολο δεδομένων σχετίζεται με την καρδιοπάθεια, χρησιμοποιώντας ένα υποσύνολο των 14 χαρακτηριστικών. Ο στόχος είναι να ανιχνεύσει την παρουσία της καρδιακής νόσου στον ασθενή. Είναι ακέραιος και αποτιμάται από 0 (χωρίς παρουσία) έως Sponge Data Set To σύνολο δεδομένων που θα χρησιμοποιηθεί ονομάζεται Sponge Data Set ( ). Το σύνολο των εγγραφών είναι 76, ο αριθμός των χαρακτηριστικών είναι 45 και υπάρχουν ελλιπείς τιμές Audiology (Original) Data Set To σύνολο δεδομένων που θα χρησιμοποιηθεί ονομάζεται Audiology (Original) Data Set ( ). Το σύνολο των εγγραφών είναι Lung-Cancer Data Set To σύνολο δεδομένων που θα χρησιμοποιηθεί ονομάζεται Lung Cancer Data Set ( ). Το σύνολο των εγγραφών είναι 32, ο αριθμός των χαρακτηριστικών είναι 56 και υπάρχουν ελλιπείς τιμές. Σε αυτή τη βάση δεδομένων περιγράφονται τρεις τύποι παθολογικών καρκίνων του πνεύμονα. 49

54 Echocardiogram Data Set To σύνολο δεδομένων που θα χρησιμοποιηθεί ονομάζεται Echocardiogram Data Set ( ). Το σύνολο των εγγραφών είναι 132, ο αριθμός των χαρακτηριστικών είναι 12 και υπάρχουν ελλιπείς τιμές. Στόχος είναι να αναφέρει εάν ένας ασθενής επέζησε για τουλάχιστον ένα έτος μετά την καρδιακή προσβολή Ozone Level Detection Data Set To σύνολο δεδομένων που θα χρησιμοποιηθεί ονομάζεται Ozone Level Detection Data Set ( ). Το σύνολο των εγγραφών είναι 2536, ο αριθμός των χαρακτηριστικών είναι 73 και υπάρχουν ελλιπείς τιμές. Στόχος είναι να αναφερθεί αν η ημέρα ήταν κανονική ή ήταν ημέρα όζοντος Soybean (Small) Data Set To σύνολο δεδομένων που θα χρησιμοποιηθεί ονομάζεται Soybean (Small) Data Set ( Το σύνολο των εγγραφών είναι 47 και ο αριθμός των χαρακτηριστικών είναι Congressional Voting Data Set To σύνολο δεδομένων που θα χρησιμοποιηθεί ονομάζεται Congressional Voting Data Set ( Το σύνολο των εγγραφών είναι 435. Αυτό το σύνολο δεδομένων περιλαμβάνει ψήφους για κάθε της αμερικανικής Βουλής των Αντιπροσώπων του Κογκρέσου στις 16 βασικές ψήφους που προσδιορίζονται από το CQA. Η CQA απαριθμεί εννέα διαφορετικούς τύπους των ψήφων: voted for, paired for, and announced for (these three simplified to yea), voted against, paired against, and announced against (these three simplified to nay), voted present, voted present to avoid conflict of interest, and did not vote or otherwise make a position known (these three simplified to an unknown disposition). 50

55 4.2 Διαχείριση Προβλήματος με τη χρήση του εργαλείου KEEL Στους παρακάτω πίνακες φαίνονται τα αποτελέσματα για κάθε ένα από τους τέσσερις ταξινομητές C4.5, MLP, SMO, 3-NN. Τα δεδομένα τροποποιήθηκαν μέσω των μεθόδων: EC, k-νν, WKNN, KM, FKM, SVM, EM, IM, MC, CMC, SVDI, BPCA, LLSI και τέλος χρησιμοποιήθηκε η μέθοδος DI όπου τα δεδομένα παρέμειναν με τις ελλιπείς τιμές τους C4.5 Ταξινομητής Στον πίνακα της εικόνας 17 αναφέρονται οι μέθοδοι αντιμετώπισης ελλιπών τιμών όσον αφορά το μέρος της εκπαίδευσης (training) του C4.5. Σύμφωνα με τον πίνακα η μέθοδος που σημείωσε την καλύτερη απόδοση 88.72% κατά μέσο όρο είναι η CMC. Ενώ η μέθοδος που σημείωσε την χειρότερη τιμή 85.18% είναι η EM. Στον πίνακα της εικόνας 19 αναφέρονται οι μέθοδοι αντιμετώπισης ελλιπών τιμών όσον αφορά το μέρος του ελέγχου (test) του C4.5. Σύμφωνα με τον πίνακα η μέθοδος που σημείωσε την καλύτερη απόδοση 76.4% κατά μέσο όρο είναι η SVMI. Ενώ η μέθοδος που σημείωσε την χειρότερη τιμή 48.19% είναι η BPCA. Στα ραβδογράμματα, στην εικόνα 18 και 20, φαίνονται αναλυτικά οι αποδόσεις για κάθε μέθοδο αντικατάστασης ελλιπών τιμών σε όλα τα σύνολα εκπαίδευσης και ελέγχου των βάσεων δεδομένων, αντίστοιχα.. 51

56 Εικόνα 17: Απόδοση των μεθόδων αντιμετώπισης ελλιπών τιμών στα σύνολο εκπαίδευσης διάφορων βάσεων δεδομένων μέσω του ταξινομητή C4.5 52

57 Εικόνα 18: Ραβδόγραμμα αποδοτικότητας των μεθόδων αντιμετώπισης ελλιπών τιμών σε όλες τις βάσεις δεδομένων 53

58 Εικόνα 19: Απόδοση των μεθόδων αντιμετώπισης ελλιπών τιμών στα σύνολα ελέγχου διάφορων βάσεων δεδομένων μέσω του ταξινομητή C4.5 54

59 Εικόνα 20 : Ραβδόγραμμα αποδοτικότητας των μεθόδων αντιμετώπισης ελλιπών τιμών σε όλες τις βάσεις δεδομένων 55

60 4.2.2 MLP Ταξινομητής Στον πίνακα της εικόνας 21 αναφέρονται οι μέθοδοι αντιμετώπισης ελλιπών τιμών όσον αφορά το μέρος της εκπαίδευσης του MLP. Σύμφωνα με τον πίνακα η μέθοδος που σημείωσε την καλύτερη απόδοση 80.34% κατά μέσο όρο είναι η LLSI. Ενώ η μέθοδος που σημείωσε την χειρότερη τιμή 62.11% είναι η IM. Στον πίνακα της εικόνας 23 αναφέρονται οι μέθοδοι αντιμετώπισης ελλιπών τιμών όσον αφορά το μέρος του ελέγχου του MLP. Σύμφωνα με τον πίνακα η μέθοδος που σημείωσε την καλύτερη απόδοση 62.58% κατά μέσο όρο είναι η CMC. Ενώ η μέθοδος που σημείωσε την χειρότερη τιμή 47.18% είναι η BPCA. Στα ραβδογράμματα, στην εικόνα 22 και 24, φαίνονται αναλυτικά οι αποδόσεις για κάθε μέθοδο αντικατάστασης ελλιπών τιμών σε όλα τα σύνολα εκπαίδευσης και ελέγχου των βάσεων δεδομένων, αντίστοιχα. 56

61 Εικόνα 21: : Απόδοση των μεθόδων αντιμετώπισης ελλιπών τιμών στα σύνολα εκπαίδευσης διάφορων βάσεων δεδομένων μέσω του ταξινομητήmlp 57

62 Εικόνα 22 : Ραβδόγραμμα αποδοτικότητας των μεθόδων αντιμετώπισης ελλιπών τιμών σε όλες τις βάσεις δεδομένων 58

63 . Εικόνα 23: Απόδοση των μεθόδων αντιμετώπισης ελλιπών τιμών στα σύνολα ελέγχου διάφορων βάσεων δεδομένων μέσω του ταξινομητή MLP 59

64 Εικόνα 24 : Ραβδόγραμμα αποδοτικότητας των μεθόδων αντιμετώπισης ελλιπών τιμών σε όλες τις βάσεις δεδομένων 60

65 4.2.3 SMO Ταξινομητής Στον πίνακα της εικόνας 25 αναφέρονται οι μέθοδοι αντιμετώπισης ελλιπών τιμών όσον αφορά το μέρος της εκπαίδευσης (training) του SMO. Σύμφωνα με τον πίνακα η μέθοδος που σημείωσε την καλύτερη απόδοση 91.17% κατά μέσο όρο είναι η IM. Ενώ η μέθοδος που σημείωσε την χειρότερη τιμή 87.32% είναι η EM. Στον πίνακα της εικόνας 27 αναφέρονται οι μέθοδοι αντιμετώπισης ελλιπών τιμών όσον αφορά το μέρος του ελέγχου του SMO. Σύμφωνα με τον πίνακα η μέθοδος που σημείωσε την καλύτερη απόδοση 78.52% κατά μέσο όρο είναι η CMC. Ενώ η μέθοδος που σημείωσε την χειρότερη τιμή 47.43% είναι η BPCA. Στα ραβδογράμματα, στην εικόνα 26 και 28, φαίνονται αναλυτικά οι αποδόσεις για κάθε μέθοδο αντικατάστασης ελλιπών τιμών σε όλα τα σύνολα εκπαίδευσης και ελέγχου των βάσεων δεδομένων, αντίστοιχα. 61

66 Εικόνα 25: Απόδοση των μεθόδων αντιμετώπισης ελλιπών τιμών στα σύνολα εκπαίδευσης διάφορων βάσεων δεδομένων μέσω του ταξινομητή SMO 62

67 Εικόνα 26 : Ραβδόγραμμα αποδοτικότητας των μεθόδων αντιμετώπισης ελλιπών τιμών σε όλες τις βάσεις δεδομένων 63

68 Εικόνα 27: Απόδοση των μεθόδων αντιμετώπισης ελλιπών τιμών στα σύνολα ελέγχου διάφορων βάσεων δεδομένων μέσω του ταξινομητή SMO 64

69 Εικόνα 28 : Ραβδόγραμμα αποδοτικότητας των μεθόδων αντιμετώπισης ελλιπών τιμών σε όλες τις βάσεις δεδομένων 65

70 NN Ταξινομητής Στον πίνακα της εικόνας 29 αναφέρονται οι μέθοδοι αντιμετώπισης ελλιπών τιμών όσον αφορά το μέρος της εκπαίδευσης (training) του 3-NN. Σύμφωνα με τον πίνακα η μέθοδος που σημείωσε την καλύτερη απόδοση 72.6% κατά μέσο όρο είναι η CMC. Ενώ η μέθοδος που σημείωσε την χειρότερη τιμή 61.75% είναι η EC. Στον πίνακα της εικόνας 31 αναφέρονται οι μέθοδοι αντιμετώπισης ελλιπών τιμών όσον αφορά το μέρος του ελέγχου του 3-ΝΝ. Σύμφωνα με τον πίνακα η μέθοδος που σημείωσε την καλύτερη απόδοση 72.08% κατά μέσο όρο είναι η CMC. Ενώ η μέθοδος που σημείωσε την χειρότερη τιμή 45.53% είναι η BPCA. Στα ραβδογράμματα, στην εικόνα 30 και 32, φαίνονται αναλυτικά οι αποδόσεις για κάθε μέθοδο αντικατάστασης ελλιπών τιμών σε όλα τα σύνολα εκπαίδευσης και ελέγχου των βάσεων δεδομένων, αντίστοιχα. 66

71 Εικόνα 29: Απόδοση των μεθόδων αντιμετώπισης ελλιπών τιμών στα σύνολα εκπαίδευσης διάφορων βάσεων δεδομένων μέσω του ταξινομητή 3-NN 67

72 Εικόνα 30 : Ραβδόγραμμα αποδοτικότητας των μεθόδων αντιμετώπισης ελλιπών τιμών σε όλες τις βάσεις δεδομένων 68

73 Εικόνα 31: Απόδοση των μεθόδων αντιμετώπισης ελλιπών τιμών στα σύνολα ελέγχου διάφορων βάσεων δεδομένων μέσω του ταξινομητή 3-ΝΝ 69

74 Εκόνα 32 : Ραβδόγραμμα αποδοτικότητας των μεθόδων αντιμετώπισης ελλιπών τιμών σε όλες τις βάσεις δεδομένων 70

75 Κεφάλαιο 5 Διαχείριση Προβλήματος με τη χρήση του πακέτου R 5.1 Adult Data Set Στο σημείο αυτό θα γίνει η περιγραφή πέντε βάσεων δεδομένων οι οποίες θα χρησιμοποιηθούν για να δοθεί το αποτέλεσμα ποια μέθοδος αντιμετώπισης ελλιπών τιμών είναι πιο αποδοτική όσον αφορά διάφορους αλγορίθμους. Η πρώτη περιγραφή θα γίνει στη βάση δεδομένων Adult Data Set ( Είναι ένα σύνολο το οποίο αποτελείται από ένα δείγμα εγγραφών, 14 χαρακτηριστικών και υπάρχουν ελλιπείς τιμές. Κάθε περίπτωση του δείγματος ανήκει σε μία από τις δύο κλάσεις οι οποίες αναφέρονται στο εισόδημα κάθε χρόνου. Πιο συγκεκριμένα, η μία κλάση είναι για όσους έχουν εισόδημα μικρότερο ίσο από 50Κ (<=50Κ) και η άλλη περισσότερο από 50Κ (>50Κ) Περιγραφή Χαρακτηριστικών συνόλου 1. Age, αναφέρεται στην ηλικία του κάθε ατόμου και είναι συνεχής τιμή 2. Workclass, αναφέρεται στην επαγγελματική κατάσταση της κάθε εγγραφής και πρόκειται για κατηγορικές τιμές (Private, Self-emp-notinc, Federal-gov, Local-gov, State-gov, Without-pav, Never-worked) 3. Fnlwgt, πρόκεται για την οικονομικο-κοινωνική κατάσταση και παίρνει συνεχείς τιμές 4. Education, αναφέρεται στην εκπαίδευση της κάθε καταχώρησης και παίρνει κατηγορικές τιμές (Bachelors, Some-college, 11th, HS-grad, Prof- 71

76 school, Assoc-acdm, Assoc-voc, 9th, 7th-8th, 12th, Masters, 1st-4th, 10th, Doctorate, 5th-6th, Preschool) 5. Education-num, αναφέρεται στις σπουδές με συνέχεις τιμές 6. Marital-status, πρόκειται για την οικογενειακή κατάσταση και είναι κατηγορικές οι τιμές (Married-civ-spouse, Divorced, Never-married, Separated, Widowed, Married-spouse-absent, Married-AF-spouse) 7. Occupation, αναφέρεται σε ποιον τομέα δουλεύει κάθε άνθρωπος και είναι κατηγορικές οι τιμές (Tech-support, Craft-repair, Other-service, Sales, Exec-managerial, Prof-specialty, Handlers-cleaners, Machine-opinspct, Adm-clerical, Farming-fishing, Transport-moving, Priv-house-serv, Protective-serv, Armed-Forces) 8. Relationship, αναφέρεται στην οικογενειακή κατάσταση και παίρνει κατηγορικές τιμές (Wife, Own-child, Husband, Not-in-family, Otherrelative, Unmarried) 9. Race, αναφέρεται στην φυλή κάθε ατόμου και παίρνει κατηγορικές τιμές (White, Asian-Pac-Islander, Amer-Indian-Eskimo, Other, Black) 10. Sex, πρόκειται για το φύλο κάθε ατόμου και είναι κατηγορικές οι τιμές (Female, Male) 11. Capital-gain, πρόκειται για το κέρδος από επενδύσεις κεφαλαίων και οι τιμές είναι συνεχείς 12. Capital-loss, πρόκειται για τη ζημία από επενδύσεις κεφαλαίων και οι τιμές είναι συνεχείς 13. Hours-per-week, πρόκειται για τις ώρες που δουλεύει κάθε εργαζόμενος την εβδομάδα και οι τιμές είναι συνεχείς 14. Native-country, αναφέρεται στην χώρα καταγωγής και οι τιμές είναι κατηγορικές (United-States, Cambodia, England, Puerto-Rico, Canada, Germany, Outlying-US(Guam-USVI-etc), India, Japan, Greece, South, China, Cuba, Iran, Honduras, Philippines, Italy, Poland, Jamaica, Vietnam, Mexico, Portugal, Ireland, France, Dominican-Republic, Laos, Ecuador, Taiwan, Haiti, Columbia, Hungary, Guatemala, Nicaragua, Scotland, 72

77 Thailand, Yugoslavia, El-Salvador, Trinadad&Tobago, Peru, Hong, Holand-Netherlands) 15. Class, αναφέρεται σε ποια κλάση ανήκει η κάθε καταχώρηση ανάλογα με το εισόδημα του Πίνακας Αποτελεσμάτων για το Adult Data Set Στον παρακάτω πίνακα έχοντας αρχικά τα δεδομένα με τις ελλιπείς τιμές τους εξετάστηκαν σε τέσσερις μεθόδους (Decision Tree, Ada Boost, SVM, Neural Networks). Στην συνέχεια εξετάστηκαν στις ίδιες μεθόδους ελλιπή δεδομένα τα οποία είτε αντικαταστάθηκαν από την τιμή που παρουσιάστηκε τις περισσότερες φορές ανά χαρακτηριστικό όταν αυτό περιείχε κατηγορικές τιμές ή αντικαταστάθηκαν με το μέσο όρο όταν οι τιμές του χαρακτηριστικού ήταν αριθμητικές. Επιπλέον, τρίτος τρόπος αντιμετώπισης είναι η διαγραφή όσων γραμμών περιέχουν ελλιπείς τιμές και ο τέταρτος μέσω του πακέτου VIM. DI MC IM Hot-deck Decision Tree 78,5% 78,5% 68,4% 62,7% Ada Boost 78,3% 76,1% 84,2% 84,3% 73

78 SVM 76,3% 76,1% 86,8% 67,4% Neural Networks 78,3% 76,1% 86,8% 66,6% Παρατηρώντας τον παραπάνω πίνακα οι τρόποι που παρουσιάζουν τα μεγαλύτερα ποσοστά μέσω της διαγραφής των γραμμών που έχουν ελλιπείς τιμές είναι το SVM και Neural Networks με ποσοστό 86,8%. Ενώ ο τρόπος που παρουσιάζει το μικρότερο ποσοστό μέσω του πακέτου VIM είναι το Decision Tree με ποσοστό 62,7%. Εικόνα 33: Ραβδόγραμμα αποδοτικότητας των μεθόδων αντιμετώπισης ελλιπών τιμών σε σχέση με τους αλγορίθμους στη συγκεκριμένη βάση δεδομένων 5.2 Breast Cancer Data Set To σύνολο δεδομένων που θα χρησιμοποιηθεί ονομάζεται Breast Cancer Data Set ( Το σύνολο των εγγραφών είναι 286, ο αριθμός των χαρακτηριστικών είναι 9 και υπάρχουν 74

79 ελλιπείς τιμές. Κάθε περίπτωση του δείγματος ανήκει σε μία από τις δύο κλάσεις no-recurrence-events ή recurrence-events Περιγραφή χαρακτηριστικών συνόλου 1. Class: αναφέρεται στην κλάση στην οποία ανήκει η κάθε εγγραφή, αν η κάθε περίπτωση έχει παρουσιάσει υποτροπή ή όχι και παίρνει κατηγορικές τιμές (no-recurrence-events, recurrence-events) 2. Age: αναφέρεται στην ηλικία των ανθρώπων που συμμετέχουν στη βάση δεδομένων και είναι συνεχείς οι τιμές (10-19,20-29,30-39,40-49,50-59,60-69,70-79,80-89,90-99) 3. Menopause: αναφέρεται στην εμμηνόπαυση και παίρνει κατηγορικές τιμές (lt40, ge40, premeno) 4. Tumor-size: πρόκειται για το μέγεθος του όγκου και οι τιμές του είναι συνεχείς (0-4, 5-9, 10-14, 15-19, 20-24, 25-29, 30-34, 35-39, 40-44, 45-49, 50-54, 55-59) 5. Inv-nodes: οι τιμές του χαρακτηριστικού είναι συνεχείς (0-2, 3-5, 6-8, 9-11, 12-14, 15-17, 18-20, 21-23, 24-26, 27-29, 30-32, 33-35, 36-39) 6. Node-caps: οι τιμές του είναι κατηγορικές (yes,no) 7. Deg-malig: παίρνει αριθμητικές τιμές (1, 2, 3) 8. Breast: αναφέρεται για ποιο από τους δύο μαστούς πρόκειται και παίρνει κατηγορικές τιμές (left-right) 9. Breast-quad: αναφέρεται συγκεκριμένα σε ποιο μέρος του στήθους βρίσκεται ο όγκος και οι τιμές του χαρακτηριστικού είναι κατηγορικές (left-up, left-low, right-up, right-low, central 75

80 10. Irradiated:αναφέρεται στο αν έχει περάσει κάθε ασθενής από ακτινοβολία ή όχι και παίρνει κατηγορικές τιμές (yes, no) Πίνακας Αποτελεσμάτων για το Breast Cancer Data Set Στον παρακάτω πίνακα βρίσκονται αρχικά τα δεδομένα με τις ελλιπείς τιμές τους εξετάστηκαν σε τέσσερις μεθόδους (Decision Tree, Ada Boost, SVM, Neural Networks). Στην συνέχεια εξετάστηκαν στις ίδιες μεθόδους ελλιπή δεδομένα τα οποία είτε αντικαταστάθηκαν από την τιμή που παρουσιάστηκε τις περισσότερες φορές ανά χαρακτηριστικό όταν αυτό περιείχε κατηγορικές τιμές ή αντικαταστάθηκαν με το μέσο όρο όταν οι τιμές του χαρακτηριστικού ήταν αριθμητικές. Επιπλέον, τρίτος τρόπος αντιμετώπισης είναι η διαγραφή όσων γραμμών περιέχουν ελλιπείς τιμές και ο τέταρτος μέσω του πακέτου VIM. DI MC IM Hot-deck Decision Tree 78,9% 73,68 % 51,35 % 73,684 % Ada Boost 78,9% 73,68 % 51,35 % 73,684 % SVM 80,5 % 78,9 % 64,86 % 78,9 % Neural Networks 63,88 % 52,6 % 59,459 % 52,631 % Παρατηρώντας τον παραπάνω πίνακα ο τρόπος που παρουσιάζει το μεγαλύτερο ποσοστό αφήνοντας τα δεδομένα με τις ελλιπείς τιμές είναι το SVM με ποσοστό 80,5%. Ενώ οι τρόποι που παρουσιάζουν τα μικρότερα ποσοστά διαγράφοντας τις γραμμές που έχουν ελλιπείς τιμές είναι το Decision Tree και το Ada Boost με ποσοστό 51.35%. 76

81 Εικόνα 34: Ραβδόγραμμα αποδοτικότητας των μεθόδων αντιμετώπισης ελλιπών τιμών σε σχέση με τους αλγορίθμους στη συγκεκριμένη βάση δεδομένων 5.3 Hepatitis Data Set To σύνολο δεδομένων που θα χρησιμοποιηθεί ονομάζεται Hepatitis Data Set ( Το σύνολο των εγγραφών είναι 155, ο αριθμός των χαρακτηριστικών είναι 19 και υπάρχουν ελλιπείς τιμές. Στόχος είναι να προβλεφθεί αν οι ασθενείς αυτοί θα πεθάνουν και τότε ανήκουν στην κλάση 1 ή θα επιβιώσουν όπου τότε θα βρίσκονται στην κλάση Περιγραφή Χαρακτηριστικών Συνόλου Παρακάτω θα αναφερθούν χαρακτηριστικά τα οποία εμφανίζονται στους ασθενείς που έχουν προσβληθεί από τον ιό της ηπατίτιδας. Σημειώνεται ότι το (1) αναφέρεται ως όχι επομένως το (2) ως ναι. Επιπλέον, όσον αφορά το φύλο του κάθε ασθενή το (1) αναφέρεται ως άνδρας και το (2) ως γυναίκα. 77

82 1. Class: έχει αριθμητική τιμή (1, 2) 2. Age: έχει αριθμητική συνεχείς τιμές (10, 20, 30, 40, 50, 60, 70, 80) 3. Sex: έχει αριθμητική τιμή (1, 2) 4. Steroid: έχει αριθμητική τιμή (1, 2) 5. Antivirals: έχει αριθμητική τιμή (1, 2) 6. Fatigue: έχει αριθμητική τιμή (1, 2) 7. Malaise: έχει αριθμητική τιμή (1, 2) 8. Anorexia: έχει αριθμητική τιμή (1, 2) 9. Liver Big: έχει αριθμητική τιμή (1, 2) 10. Liver Firm: έχει αριθμητική τιμή (1, 2) 11. Spleen Palpable: έχει αριθμητική τιμή (1, 2) 12. Spiders: έχει αριθμητική τιμή (1, 2) 13. Ascites: έχει αριθμητική τιμή (1, 2) 14. Varices: έχει αριθμητική τιμή (1, 2) 15. Bilirubin: έχει αριθμητικές τιμές (0.39, 0.80, 1.20, 2.00, 3.00, 4.00) 16. Alk Phosphate: έχει αριθμητικές τιμές (33, 80, 120, 160, 200, 250) 17. Sgot: έχει αριθμητικές τιμές (13, 100, 200, 300, 400, 500) 18. Albumin: έχει αριθμητικές τιμές (2.1, 3.0, 3.8, 4.5, 5.0, 6.0) 19. Protime: έχει αριθμητικές τιμές (10, 20, 30, 40, 50, 60, 70, 80, 90) 20. Histology: έχει αριθμητική τιμή (1,2) Πίνακας Αποτελεσμάτων για το Hepatitis Data Set Στον παρακάτω πίνακα βρίσκονται αρχικά τα δεδομένα με τις ελλιπείς τιμές τους εξετάστηκαν σε τέσσερις μεθόδους ( Decision Tree, Ada Boost, SVM, Neural Networks). Στην συνέχεια εξετάστηκαν στις ίδιες μεθόδους ελλιπή δεδομένα τα οποία είτε αντικαταστάθηκαν από την τιμή που παρουσιάστηκε τις περισσότερες φορές ανά χαρακτηριστικό όταν αυτό περιείχε κατηγορικές τιμές ή αντικαταστάθηκαν με το μέσο όρο όταν οι τιμές του χαρακτηριστικού ήταν αριθμητικές. Επιπλέον, τρίτος τρόπος αντιμετώπισης είναι η διαγραφή όσων γραμμών περιέχουν ελλιπείς τιμές και ο τέταρτος μέσω του πακέτου VIM. 78

83 DI MC IM Hot-deck Decision Tree 69,5% 73,9% 75,0% 78,2% Ada Boost 78,2% 78,2% 83,3% 73,9% SVM 85,7% 78,2% 75,0% 73,9% Neural Networks 78,2% 73,9% 75,0% 73,9% Παρατηρώντας τον παραπάνω πίνακα ο τρόπος που παρουσιάζει το μεγαλύτερο ποσοστό αφήνοντας τα δεδομένα με τις ελλιπείς τιμές είναι το SVM με ποσοστό 85,7%. Ενώ ο τρόπος που παρουσιάζουν το μικρότερο ποσοστό αφήνοντας τα δεδομένα με τις ελλιπείς τιμές είναι το Decision Tree με ποσοστό 69.5%. 79

84 Εικόνα 35: Ραβδόγραμμα αποδοτικότητας των μεθόδων αντιμετώπισης ελλιπών τιμών σε σχέση με τους αλγορίθμους στη συγκεκριμένη βάση δεδομένων 5.4 Automobile Data Set To σύνολο δεδομένων που θα χρησιμοποιηθεί ονομάζεται Automobile Data Set ( Το σύνολο των εγγραφών είναι 205, ο αριθμός των χαρακτηριστικών είναι 26 και υπάρχουν ελλιπείς τιμές. Αυτό το σύνολο δεδομένων αποτελείται από τρεις τύπους οντοτήτων : (α) ο προσδιορισμός τoυ αυτόματου όσον αφορά διάφορα χαρακτηριστικά (β) αποδίδεται βαθμολογία σχετικά με τον κίνδυνο της ασφάλειάς του (γ)οι απώλειες είναι κανονικοποιημένες λόγω της χρήσης του σε σύγκριση με άλλα αυτοκίνητα. Symboling αντιστοιχεί στο βαθμό στον οποίο «το αυτόματο» είναι πιο επικίνδυνο από την τιμή που υποδεικνύει. Στα αυτοκίνητα δόθηκε αρχικά ένα «risk factor symbol» όπου συνδέεται ο κίνδυνος με την τιμή του. Στη συνέχεια, αν είναι πιο επικίνδυνη ( ή λιγότερο ), το σύμβολο αυτό ρυθμίζεται μετακινώντας την πιο πάνω ( ή προς τα κάτω ) την κλίμακα. Η τιμή του +3 υποδεικνύει ότι το «αυτόματο» είναι επικίνδυνο, -2 ότι ίσως είναι αρκετά ασφαλής. 80

85 Η κλάση θα είναι το χαρακτηριστικό symboling Περιγραφή Χαρακτηριστικών Συνόλου 1. Symboling: έχει αριθμητική τιμή (-3, -2, -1, 0, 1, 2, 3) 2. Normalized-losses: έχει αριθμητικές τιμές ( ) 3. Make: αναφέρεται στην μάρκα κάθε αυτοκινήτου και έχει κατηγορικές τιμές (Alfa-romeo, Audi, Bmw, Chevrolet, Dodge, Honda, Isuzu, Jaguar, Mazda, Mercedes-benz, Mercury, Mitsubishi, Nissan, Peugot, Plymouth, Porsche, Renault, Saab, Subaru, Toyota, Volkswagen, Volvo. 4. Fuel-type: αναφέρεται στο τύπο καυσίμων και οι τιμές είναι κατηγορικές ( diesel, gas) 5. Aspiration:έχει τιμές κατηγορικές (std, turbo) 6. Num-of-doors: αναφέρεται στο πλήθος των θυρών και οι τιμές είναι κατηγορικές ( four, two) 7. Body-style: πρόκειται για τον τύπο του αυτοκινήτου και οι τιμές είναι κατηγορικές (hardtop, wagon, sedan, hatchback, convertible) 8. Drive-wheels:οι τιμές είναι κατηγορικές (4wd, fwd, rwd) 9. Engine-location: πρόκειται για τη θέση της μηχανής και η τιμή του χαρακτηριστικού είναι κατηγορική (front, rear) 10. Wheel- Base: η τιμή του χαρακτηριστικού είναι αριθμητικές συνεχείς ( ) 81

86 11. Length: σχετίζεται με το μήκος του κάθε αυτοκινήτου και οι τιμές είναι αριθμητικές συνεχείς ( ) 12.Width: σχετίζεται με το πλάτος του κάθε αυτοκινήτου και οι τιμές είναι συνεχείς αριθμητικές ( ) 13. Height: σχετίζεται με το ύψος του κάθε αυτοκινήτου και οι τιμές είναι συνεχείς αριθμητικές ( ) 14. Curb-Weight: σχετίζεται με το απόβαρο και παίρνει αριθμητικές συνεχείς τιμές ( ) 15. Engine-size: αναφέρεται στον τύπο της μηχανής και οι τιμές είναι κατηγορικές ( dohcv, I, ohc, ohcv, rotor) 16. Num-of-cylinders: αναφέρεται στον αριθμό των κυλίνδρων και οι τιμές είναι κατηγορικές (eight, five, four, six, three, twelve, two) 17. Engine-size: σχετίζεται με το μέγεθος της μηχανής και οι τιμές είναι αριθμητικές συνεχείς (61-326) 18. Fuel-system: σχετίζεται με το σύστημα καυσίμων και οι τιμές είανι κατηγορικές (1bbl, 2bbl, 4bbl, idi, mfi, mpfi, spdi, spfi) 19. Bore: σχετίζεται με την οπή και οι τιμές είναι αριθμητικές και συνεχείς ( ) 20. Stroke: οι τιμές είναι αριθμητικές και συνεχείς ( ) 21. Compression-ratio: οι τιμές είναι αριθμητικές και συνεχείς (7-23) 22. Horsepower: σχετίζεται με το πλήθος των ίππων (48-288) 23. Peak-rpm: είναι αριθμητικές συνεχείς οι τιμές ( ) 24. City-mpg: είναι αριθμητικές συνεχείς οι τιμές (13-49) 25. Highway-mpg: είναι αριθμητικές συνεχείς οι τιμές (16-54) 26. Price: σχετίζεται με την τιμή η οποία είναι αριθμητική και συνεχής ( ) 82

87 5.4.2 Πίνακας αποτελεσμάτων για το Automobile Data Set Στον παρακάτω πίνακα βρίσκονται αρχικά τα δεδομένα με τις ελλιπείς τιμές τους εξετάστηκαν σε τέσσερις μεθόδους ( Decision Tree, Ada Boost, SVM, Neural Networks). Στην συνέχεια εξετάστηκαν στις ίδιες μεθόδους ελλιπή δεδομένα τα οποία είτε αντικαταστάθηκαν από την τιμή που παρουσιάστηκε τις περισσότερες φορές ανά χαρακτηριστικό όταν αυτό περιείχε κατηγορικές τιμές ή αντικαταστάθηκαν με το μέσο όρο όταν οι τιμές του χαρακτηριστικού ήταν αριθμητικές. Επιπλέον, τρίτος τρόπος αντιμετώπισης είναι η διαγραφή όσων γραμμών περιέχουν ελλιπείς τιμές και ο τέταρτος μέσω του πακέτου VIM της μεθόδου Hot-deck. DI MC IM Hot-deck Decision Tree 100% 100% 100% 100% Ada Boost 100% 100% 100% 100% SVM 100% 100% 100% 100% Neural Networks 100% 100% 100% 100% 83

88 Παρατηρώντας τον παραπάνω πίνακα όλοι οι τρόποι παρουσιάζουν αποτέλεσμα με επιτυχία 100%. Εικόνα 36: Ραβδόγραμμα αποδοτικότητας των μεθόδων αντιμετώπισης ελλιπών τιμών σε σχέση με τους αλγορίθμους στη συγκεκριμένη βάση δεδομένων 5.5 Breast Cancer Wisconsin (Original) data set Το σύνολο δεδομένων που θα χρησιμοποιηθεί ονομάζεται Breast Cancer Wisconsin (Original) Dat Set ( ). Tο σύνολο των εγγραφών είναι 683, ο αριθμός των χαρακτηριστικών είναι 9 και υπάρχουν ελλιπείς τιμές. Αυτή η βάση δεδομένων περιέχει τις περιπτώσεις από μία μελέτη που διεξήχθη στο Πανεπιστήμιο του Wisconsin Νοσοκομεία, Μάντισον, για τους ασθενείς που είχαν υποβληθεί σε χειρουργική επέμβαση για καρκίνου του μαστού. Ο στόχος είναι να προσδιοριστεί εάν ο ανιχνευόμενος όγκος είναι καλοήθης ή κακοήθης. Συνεπώς, σημειώνεται ότι αν ο όγκος είναι καλοήθης ανήκει στην κλάση (2) και αν είτε κακοήθης στην κλάση (4). 84

89 5.5.1 Περιγραφή Χαρακτηριστικών Συνόλου 1. ClumpThickness: έχει συνεχείς αριθμητικές τιμές (1,10) 2. CellSize: έχει συνεχείς αριθμητικές τιμές (1,10) 3. CellShape: έχει συνεχείς αριθμητικές τιμές (1,10) 4. MarginalAdhesion: έχει συνεχείς αριθμητικές τιμές (1,10) 5. EpithelialSize: έχει συνεχείς αριθμητικές τιμές (1,10) 6. BareNuclei: έχει συνεχείς αριθμητικές τιμές (1,10) 7. BlandChromatin: έχει συνεχείς αριθμητικές τιμές (1,10) 8. NormalNucleoli: έχει συνεχείς αριθμητικές τιμές (1,10) 9. Mitoses: έχει συνεχείς αριθμητικές τιμές (1,10) 10. Class: έχει αριθμητικές τιμές (2,4) Πίνακας αποτελεσμάτων για το Breast Cancer Wisconsin (Original) Data Set Στον παρακάτω πίνακα βρίσκονται αρχικά τα δεδομένα με τις ελλιπείς τιμές τους εξετάστηκαν σε τέσσερις μεθόδους (Decision Tree, Ada Boost, SVM, Neural Networks). Στην συνέχεια εξετάστηκαν στις ίδιες μεθόδους ελλιπή δεδομένα τα οποία είτε αντικαταστάθηκαν από την τιμή που παρουσιάστηκε τις περισσότερες φορές ανά χαρακτηριστικό όταν αυτό περιείχε κατηγορικές τιμές ή αντικαταστάθηκαν με το μέσο όρο όταν οι τιμές του χαρακτηριστικού ήταν αριθμητικές. Επιπλέον, τρίτος τρόπος αντιμετώπισης είναι η διαγραφή όσων γραμμών περιέχουν ελλιπείς τιμές και ο τέταρτος μέσω του πακέτου VIM. 85

90 DI MC IM Hot-deck Decision Tree 91,07% 91,0% 90,3% 90,3% Ada Boost 98,2% 98,2% 94,2% 94,2% SVM 92,4% 92,8% 92,3% 92,3% Neural Networks 90,5% 89,2% 78,8% 78,8% Παρατηρώντας τον παραπάνω πίνακα οι τρόποι που παρουσιάζουν τα μεγαλύτερα ποσοστά αφήνοντας τα δεδομένα με τις ελλιπείς τιμές και αντικαθιστώντας τις ελλιπείς τιμές με την τιμή που εμφανίστηκε πιο πολλές ανά χαρακτηριστικό είναι το Ada Boost με ποσοστό 98,2%. Ενώ ο τρόπος που παρουσιάζει τα μικρότερα ποσοστά αρχικά διαγράφοντας τις γραμμές που έχουν ελλιπείς τιμές και χρησιμοποιώντας το πακέτο VIM είναι τα Neural Networks με ποσοστό 78.8%. 86

91 Εικόνα 37: Ραβδόγραμμα αποδοτικότητας των μεθόδων αντιμετώπισης ελλιπών τιμών σε σχέση με τους αλγορίθμους στη συγκεκριμένη βάση δεδομένων 5.6 Συμπεράσματα ανά αλγόριθμο Decision Tree Σύμφωνα με τον πίνακα στην εικόνα 38, παρατηρείται πως η μέθοδος η οποία έχει την καλύτερη απόδοση κατά μέσο όρο για τον αλγόριθμο Decision Tree είναι Do Not Impute (DI) με ποσοστό % ενώ η τεχνική που έχει το μικρότερο ποσοστό 77.01% είναι η Case Deletion or Ignore Missing (IM). Dec.Tree Datasets DI MC IM Hot- Deck Adult Breast C Hepatitis Auto Winconsin Mean Εικόνα 38: Απόδοση των μεθόδων αντιμετώπισης ελλιπών τιμών σε βάσεις δεδομένων μέσω του Decision Tree 87

92 Εικόνα 39: Ραβδόγραμμα αποδοτικότητας των μεθόδων αντιμετώπισης ελλιπών τιμών σε σχέση με τους αλγορίθμους 5.6.2Ada Boost Σύμφωνα με τον πίνακα στην εικόνα 40, παρατηρείται πως η μέθοδος η οποία έχει την καλύτερη απόδοση κατά μέσο όρο για τον αλγόριθμο Ada Boost είναι Do Not Impute (DI) με ποσοστό 86.72% ενώ η τεχνική που έχει το μικρότερο ποσοστό 82.61% είναι η Case Deletion or Ignore Missing (IM). Ada Boost Datasets DI MC IM Hot-deck Adult Breast C Hepatitis Auto Winconsin Mean Εικόνα 40: Απόδοση των μεθόδων αντιμετώπισης ελλιπών τιμών σε βάσεις δεδομένων μέσω του Ada Boost 88

93 Εικόνα 41: Ραβδόγραμμα αποδοτικότητας των μεθόδων αντιμετώπισης ελλιπών τιμών σε σχέση με τους αλγορίθμους SVM Σύμφωνα με τον πίνακα στην εικόνα 42, παρατηρείται πως η μέθοδος η οποία έχει την καλύτερη απόδοση κατά μέσο όρο για τον αλγόριθμο SVM είναι Do Not Impute (DI) με ποσοστό 86.98% ενώ η τεχνική που έχει το μικρότερο ποσοστό 82.5% είναι η Hot-deck. SVM Datasets DI MC IM Hotdeck Adult Breast C Hepatitis Auto Winconsin Mean Εικόνα 42: Απόδοση των μεθόδων αντιμετώπισης ελλιπών τιμών σε βάσεις δεδομένων μέσω του SVM 89

94 Εικόνα 43: Ραβδόγραμμα αποδοτικότητας των μεθόδων αντιμετώπισης ελλιπών τιμών σε σχέση με τους αλγορίθμους Neural Networks Σύμφωνα με τον πίνακα στην εικόνα 44, παρατηρείται πως η μέθοδος η οποία έχει την καλύτερη απόδοση κατά μέσο όρο για τον αλγόριθμο Neural Networks είναι Do Not Impute (DI) με ποσοστό % ενώ η τεχνική που έχει το μικρότερο ποσοστό % είναι η Hot-deck. Neural Networks Datasets DI MC IM Hotdeck Adult Breast C Hepatitis Auto Winconsin Mean Εικόνα 44: Απόδοση των μεθόδων αντιμετώπισης ελλιπών τιμών σε βάσεις δεδομένων μέσω του SVM 90

95 Εικόνα 45: Ραβδόγραμμα αποδοτικότητας των μεθόδων αντιμετώπισης ελλιπών τιμών σε σχέση με τους αλγορίθμους 91

Αναγνώριση Προτύπων Ι

Αναγνώριση Προτύπων Ι Αναγνώριση Προτύπων Ι Ενότητα 1: Μέθοδοι Αναγνώρισης Προτύπων Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται

Διαβάστε περισσότερα

Εξόρυξη Γνώσης από Βιολογικά εδομένα

Εξόρυξη Γνώσης από Βιολογικά εδομένα Παρουσίαση Διπλωματικής Εργασίας Εξόρυξη Γνώσης από Βιολογικά εδομένα Καρυπίδης Γεώργιος (Μ27/03) Επιβλέπων Καθηγητής: Ιωάννης Βλαχάβας MIS Πανεπιστήμιο Μακεδονίας Φεβρουάριος 2005 Εξόρυξη Γνώσης από Βιολογικά

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Data Mining - Classification Data Mining Ανακάλυψη προτύπων σε μεγάλο όγκο δεδομένων. Σαν πεδίο περιλαμβάνει κλάσεις εργασιών: Anomaly Detection:

Διαβάστε περισσότερα

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Κεφάλαιο 20 Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Σακελλαρίου Τεχνητή Νοηµοσύνη, B' Έκδοση - 1 - Ανακάλυψη Γνώσης σε

Διαβάστε περισσότερα

Μάθηση και Γενίκευση. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Μάθηση και Γενίκευση. Τεχνητά Νευρωνικά Δίκτυα (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων Μάθηση και Γενίκευση Το Πολυεπίπεδο Perceptron (MultiLayer Perceptron (MLP)) Έστω σύνολο εκπαίδευσης D={(x n,t n )}, n=1,,n. x n =(x n1,, x nd ) T, t n =(t n1,, t np ) T Θα πρέπει το MLP να έχει d νευρώνες

Διαβάστε περισσότερα

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων Εισηγητής: ρ Ηλίας Ζαφειρόπουλος Εισαγωγή Ιατρικά δεδοµένα: Συλλογή Οργάνωση Αξιοποίηση Data Mining ιαχείριση εδοµένων Εκπαίδευση

Διαβάστε περισσότερα

Το μοντέλο Perceptron

Το μοντέλο Perceptron Το μοντέλο Perceptron Αποτελείται από έναν μόνο νευρώνα McCulloch-Pitts w j x x 1, x2,..., w x T 1 1 x 2 w 2 Σ u x n f(u) Άνυσμα Εισόδου s i x j x n w n -θ w w 1, w2,..., w n T Άνυσμα Βαρών 1 Το μοντέλο

Διαβάστε περισσότερα

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή Τµήµα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών ΗΜΜΥ 795: ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ Ακαδηµαϊκό έτος 2010-11 Χειµερινό Εξάµηνο Τελική εξέταση Τρίτη, 21 εκεµβρίου 2010,

Διαβάστε περισσότερα

4.3. Γραµµικοί ταξινοµητές

4.3. Γραµµικοί ταξινοµητές Γραµµικοί ταξινοµητές Γραµµικός ταξινοµητής είναι ένα σύστηµα ταξινόµησης που χρησιµοποιεί γραµµικές διακριτικές συναρτήσεις Οι ταξινοµητές αυτοί αναπαρίστανται συχνά µε οµάδες κόµβων εντός των οποίων

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη. 18η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Τεχνητή Νοημοσύνη. 18η διάλεξη ( ) Ίων Ανδρουτσόπουλος. Τεχνητή Νοημοσύνη 18η διάλεξη (2016-17) Ίων Ανδρουτσόπουλος http://www.aueb.gr/users/ion/ 1 Οι διαφάνειες αυτής της διάλεξης βασίζονται: στο βιβλίο Machine Learning του T. Mitchell, McGraw- Hill, 1997,

Διαβάστε περισσότερα

Πληροφοριακά Συστήματα Διοίκησης

Πληροφοριακά Συστήματα Διοίκησης Πληροφοριακά Συστήματα Διοίκησης Τρεις αλγόριθμοι μηχανικής μάθησης ΠΜΣ Λογιστική Χρηματοοικονομική και Διοικητική Επιστήμη ΤΕΙ Ηπείρου @ 2018 Μηχανική μάθηση αναγνώριση προτύπων Η αναγνώριση προτύπων

Διαβάστε περισσότερα

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος Χιωτίδης Γεώργιος Τμήμα Λογιστικής και Χρηματοοικονομικής Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

Διακριτικές Συναρτήσεις

Διακριτικές Συναρτήσεις Διακριτικές Συναρτήσεις Δρ. Δηµήτριος Τσέλιος Επίκουρος Καθηγητής ΤΕΙ Θεσσαλίας Τµήµα Διοίκησης Επιχειρήσεων Θερµικός χάρτης των XYZ ξενοδοχείων σε σχέση µε τη γεωγραφική περιοχή τους P. Adamopoulos New

Διαβάστε περισσότερα

Δρ. Βασίλειος Γ. Καμπουρλάζος Δρ. Ανέστης Γ. Χατζημιχαηλίδης

Δρ. Βασίλειος Γ. Καμπουρλάζος Δρ. Ανέστης Γ. Χατζημιχαηλίδης Μάθημα 4 ο Δρ. Ανέστης Γ. Χατζημιχαηλίδης Τμήμα Μηχανικών Πληροφορικής Τ.Ε. ΤΕΙ Ανατολικής Μακεδονίας και Θράκης 2016-2017 Διευρυμένη Υπολογιστική Νοημοσύνη (ΥΝ) Επεκτάσεις της Κλασικής ΥΝ. Μεθοδολογίες

Διαβάστε περισσότερα

Κατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών

Κατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών Κατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών Αναπαράσταση των δεδομένων ως διανύσματα χαρακτηριστικών (feature vectors): Επιλογή ενός

Διαβάστε περισσότερα

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων»

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων» Τμήμα Πληροφορικής και Τηλεπικοινωνιών Πρόγραμμα Μεταπτυχιακών Σπουδών Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων» Αργυροπούλου Αιμιλία

Διαβάστε περισσότερα

Το Πολυεπίπεδο Perceptron. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Το Πολυεπίπεδο Perceptron. Τεχνητά Νευρωνικά Δίκτυα (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων Το Πολυ Perceptron Δίκτυα Πρόσθιας Τροφοδότησης (feedforward) Tο αντίστοιχο γράφημα του δικτύου δεν περιλαμβάνει κύκλους: δεν υπάρχει δηλαδή ανατροφοδότηση της εξόδου ενός νευρώνα προς τους νευρώνες από

Διαβάστε περισσότερα

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R, Επίκουρος Καθηγητής, Τομέας Μαθηματικών, Σχολή Εφαρμοσμένων Μαθηματικών και Φυσικών Επιστημών, Εθνικό Μετσόβιο Πολυτεχνείο. Περιεχόμενα Εισαγωγή στο

Διαβάστε περισσότερα

Κεφ. 7: Συνήθεις διαφορικές εξισώσεις (ΣΔΕ) - προβλήματα αρχικών τιμών

Κεφ. 7: Συνήθεις διαφορικές εξισώσεις (ΣΔΕ) - προβλήματα αρχικών τιμών Κεφ. 7: Συνήθεις διαφορικές εξισώσεις (ΣΔΕ) - προβλήματα αρχικών τιμών 7. Εισαγωγή (ορισμός προβλήματος, αριθμητική ολοκλήρωση ΣΔΕ, αντικατάσταση ΣΔΕ τάξης n με n εξισώσεις ης τάξης) 7. Μέθοδος Euler 7.3

Διαβάστε περισσότερα

ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΤΕΙ Δυτικής Μακεδονίας ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ 2015-2016 Τεχνητή Νοημοσύνη Νευρώνας Perceptron Διδάσκων: Τσίπουρας Μάρκος Εκπαιδευτικό Υλικό: Τσίπουρας Μάρκος Τζώρτζης Γρηγόρης Περιεχόμενα Εισαγωγή

Διαβάστε περισσότερα

Κεφ. 6Β: Συνήθεις διαφορικές εξισώσεις (ΣΔΕ) - προβλήματα αρχικών τιμών

Κεφ. 6Β: Συνήθεις διαφορικές εξισώσεις (ΣΔΕ) - προβλήματα αρχικών τιμών Κεφ. 6Β: Συνήθεις διαφορικές εξισώσεις (ΣΔΕ) - προβλήματα αρχικών τιμών. Εισαγωγή (ορισμός προβλήματος, αριθμητική ολοκλήρωση ΣΔΕ, αντικατάσταση ΣΔΕ τάξης n με n εξισώσεις ης τάξης). Μέθοδος Euler 3. Μέθοδοι

Διαβάστε περισσότερα

«Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα»

«Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα» ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Πρόγραμμα Σπουδών M.I.S. «Αναζήτηση Γνώσης σε Νοσοκομειακά Δεδομένα» Μεταπτυχιακός Φοιτητής: Επιβλέπων Καθηγητής: Εξεταστής Καθηγητής: Τορτοπίδης Γεώργιος Μηχανικός

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 3. Περιγραφή της Μεθόδου ΠΕΡΙΓΡΑΦΗ ΤΗΣ ΜΕΘΟΔΟΥ

ΚΕΦΑΛΑΙΟ 3. Περιγραφή της Μεθόδου ΠΕΡΙΓΡΑΦΗ ΤΗΣ ΜΕΘΟΔΟΥ ΚΕΦΑΛΑΙΟ 3 Περιγραφή της Μεθόδου Το αντικείμενο αυτής της εργασίας είναι η χρήση μιας μεθόδου προσέγγισης συναρτήσεων που έχει προταθεί από τον hen-ha huang και ονομάζεται Ασαφώς Σταθμισμένη Παλινδρόμηση

Διαβάστε περισσότερα

Υπερπροσαρμογή (Overfitting) (1)

Υπερπροσαρμογή (Overfitting) (1) Αλγόριθμος C4.5 Αποφυγή υπερπροσαρμογής (overfitting) Reduced error pruning Rule post-pruning Χειρισμός χαρακτηριστικών συνεχών τιμών Επιλογή κατάλληλης μετρικής για την επιλογή των χαρακτηριστικών διάσπασης

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη. 16η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Τεχνητή Νοημοσύνη. 16η διάλεξη ( ) Ίων Ανδρουτσόπουλος. Τεχνητή Νοημοσύνη 16η διάλεξη (2016-17) Ίων Ανδρουτσόπουλος http://www.aueb.gr/users/ion/ 1 Οι διαφάνειες αυτής της διάλεξης βασίζονται σε ύλη του βιβλίου Artificial Intelligence A Modern Approach των

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση ΚΕΦΑΛΑΙΟ 18 18 Μηχανική Μάθηση Ένα φυσικό ή τεχνητό σύστηµα επεξεργασίας πληροφορίας συµπεριλαµβανοµένων εκείνων µε δυνατότητες αντίληψης, µάθησης, συλλογισµού, λήψης απόφασης, επικοινωνίας και δράσης

Διαβάστε περισσότερα

Ακαδημαϊκό Έτος , Χειμερινό Εξάμηνο Διδάσκων Καθ.: Νίκος Τσαπατσούλης

Ακαδημαϊκό Έτος , Χειμερινό Εξάμηνο Διδάσκων Καθ.: Νίκος Τσαπατσούλης ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΛΟΠΟΝΝΗΣΟΥ, ΤΜΗΜΑ ΤΕΧΝΟΛΟΓΙΑΣ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΚΕΣ 3: ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΚΑΙ ΑΝΑΛΥΣΗ ΕΙΚΟΝΑΣ Ακαδημαϊκό Έτος 7 8, Χειμερινό Εξάμηνο Καθ.: Νίκος Τσαπατσούλης ΕΡΩΤΗΣΕΙΣ ΕΠΑΝΑΛΗΨΗΣ Το παρόν

Διαβάστε περισσότερα

Διπλωματική εργασία της Στυλιανής Κ. Παπαδάκη

Διπλωματική εργασία της Στυλιανής Κ. Παπαδάκη Πολυτεχνείο Κρήτης Τμήμα Μηχανικών Παραγωγής και Διοίκησης Διπλωματική εργασία της Στυλιανής Κ. Παπαδάκη Διατριβή που υπεβλήθη για τη μερική ικανοποίηση των απαιτήσεων για την απόκτηση Μεταπτυχιακού Διπλώματος

Διαβάστε περισσότερα

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2 Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας Verson ΜΙΑ ΣΥΜΒΑΣΗ: Προκειμένου να καταστήσουμε πιο συμπαγή το συμβολισμό H : ορίζουμε Ετσι έχουμε *=[ ] an *=[ ]. H : * * ΣΗΜΕΙΩΣΗ: Στη συνέχεια εκτός αν ορίζεται

Διαβάστε περισσότερα

Ασκήσεις Φροντιστηρίου «Υπολογιστική Νοημοσύνη Ι» 5 o Φροντιστήριο

Ασκήσεις Φροντιστηρίου «Υπολογιστική Νοημοσύνη Ι» 5 o Φροντιστήριο Πρόβλημα ο Ασκήσεις Φροντιστηρίου 5 o Φροντιστήριο Δίνεται το παρακάτω σύνολο εκπαίδευσης: # Είσοδος Κατηγορία 0 0 0 Α 2 0 0 Α 0 Β 4 0 0 Α 5 0 Β 6 0 0 Α 7 0 Β 8 Β α) Στον παρακάτω κύβο τοποθετείστε τα

Διαβάστε περισσότερα

Πανεπιστήμιο Κύπρου Πολυτεχνική Σχολή

Πανεπιστήμιο Κύπρου Πολυτεχνική Σχολή Πανεπιστήμιο Κύπρου Πολυτεχνική Σχολή Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών ΗΜΜΥ 795: ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ Ακαδημαϊκό έτος 2010-11 Χειμερινό Εξάμηνο Practice final exam 1. Έστω ότι για

Διαβάστε περισσότερα

Προεπεξεργασία Δεδομένων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκουσα: Μαρία Χαλκίδη

Προεπεξεργασία Δεδομένων. Αποθήκες και Εξόρυξη Δεδομένων Διδάσκουσα: Μαρία Χαλκίδη Προεπεξεργασία Δεδομένων Αποθήκες και Εξόρυξη Δεδομένων Διδάσκουσα: Μαρία Χαλκίδη Η διαδικασίας της ανακάλυψης γνώσης Knowledge Discovery (KDD) Process Εξόρυξη δεδομένων- πυρήνας της διαδικασίας ανακάλυψης

Διαβάστε περισσότερα

Βασικές αρχές εκπαίδευσης ΤΝΔ: το perceptron. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Βασικές αρχές εκπαίδευσης ΤΝΔ: το perceptron. Τεχνητά Νευρωνικά Δίκτυα (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων Βασικές αρχές εκπαίδευσης ΤΝΔ: το perceptron Βιολογικός Νευρώνας Δενδρίτες, που αποτελούν τις γραμμές εισόδου των ερεθισμάτων (βιολογικών σημάτων) Σώμα, στο οποίο γίνεται η συσσώρευση των ερεθισμάτων και

Διαβάστε περισσότερα

Στατιστική Ι (ΨΥΧ-1202) ιάλεξη 3

Στατιστική Ι (ΨΥΧ-1202) ιάλεξη 3 (ΨΥΧ-1202) Λεωνίδας Α. Ζαμπετάκης Β.Sc., M.Env.Eng., M.Ind.Eng., D.Eng. Εmail: statisticsuoc@gmail.com ιαλέξεις: ftp://ftp.soc.uoc.gr/psycho/zampetakis/ ιάλεξη 3 ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ ΤΜΗΜΑ ΨΥΧΟΛΟΓΙΑΣ Ρέθυμνο,

Διαβάστε περισσότερα

ΟΜΑΔΕΣ. Δημιουργία Ομάδων

ΟΜΑΔΕΣ. Δημιουργία Ομάδων Δημιουργία Ομάδων Μεθοδολογίες ομαδοποίησης δεδομένων: Μέθοδοι για την εύρεση των κατηγοριών και των υποκατηγοριών που σχηματίζουν τα δεδομένα του εκάστοτε προβλήματος. Ομαδοποίηση (clustering): εργαλείο

Διαβάστε περισσότερα

ΕΥΦΥΗΣ ΕΛΕΓΧΟΣ. Ενότητα #12: Εισαγωγή στα Nευρωνικά Δίκτυα. Αναστάσιος Ντούνης Τμήμα Μηχανικών Αυτοματισμού Τ.Ε.

ΕΥΦΥΗΣ ΕΛΕΓΧΟΣ. Ενότητα #12: Εισαγωγή στα Nευρωνικά Δίκτυα. Αναστάσιος Ντούνης Τμήμα Μηχανικών Αυτοματισμού Τ.Ε. ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα ΕΥΦΥΗΣ ΕΛΕΓΧΟΣ Ενότητα #12: Εισαγωγή στα Nευρωνικά Δίκτυα Αναστάσιος Ντούνης Τμήμα Μηχανικών Αυτοματισμού Τ.Ε. Άδειες Χρήσης Το

Διαβάστε περισσότερα

Ασκήσεις μελέτης της 19 ης διάλεξης

Ασκήσεις μελέτης της 19 ης διάλεξης Οικονομικό Πανεπιστήμιο Αθηνών, Τμήμα Πληροφορικής Μάθημα: Τεχνητή Νοημοσύνη, 2016 17 Διδάσκων: Ι. Ανδρουτσόπουλος Ασκήσεις μελέτης της 19 ης διάλεξης 19.1. Δείξτε ότι το Perceptron με (α) συνάρτηση ενεργοποίησης

Διαβάστε περισσότερα

Μέθοδοι Μηχανικής Μάθησης στην επεξεργασία Τηλεπισκοπικών Δεδομένων. Δρ. Ε. Χάρου

Μέθοδοι Μηχανικής Μάθησης στην επεξεργασία Τηλεπισκοπικών Δεδομένων. Δρ. Ε. Χάρου Μέθοδοι Μηχανικής Μάθησης στην επεξεργασία Τηλεπισκοπικών Δεδομένων Δρ. Ε. Χάρου Πρόγραμμα υπολογιστικής ευφυίας Ινστιτούτο Πληροφορικής & Τηλεπικοινωνιών ΕΚΕΦΕ ΔΗΜΟΚΡΙΤΟΣ exarou@iit.demokritos.gr Μηχανική

Διαβάστε περισσότερα

ΤΕΙ ΣΕΡΡΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΞΕΤΑΣΗ ΣΤΟ ΜΑΘΗΜΑ «ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ» ΠΑ. 7 ΣΕΠΤΕΜΒΡΙΟΥ 2012

ΤΕΙ ΣΕΡΡΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΞΕΤΑΣΗ ΣΤΟ ΜΑΘΗΜΑ «ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ» ΠΑ. 7 ΣΕΠΤΕΜΒΡΙΟΥ 2012 ΠΑ. 7 ΣΕΠΤΕΜΒΡΙΟΥ Δίνονται τα εξής πρότυπα: [ ] [ ] [ ] [ ] Άσκηση η (3 μονάδες) Χρησιμοποιώντας το κριτήριο της ομοιότητας να απορριφθεί ένα χαρακτηριστικό με βάση το συντελεστή συσχέτισης. (γράψτε ποιο

Διαβάστε περισσότερα

Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500

Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500 Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500 Πληθυσμός Δείγμα Δείγμα Δείγμα Ο ρόλος της Οικονομετρίας Οικονομική Θεωρία Διατύπωση της

Διαβάστε περισσότερα

ΜΟΝΟΠΑΡΑΜΕΤΡΙΚΗ ΚΑΙ ΠΟΛΥΠΑΡΑΜΕΤΡΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ. Αριάδνη Αργυράκη

ΜΟΝΟΠΑΡΑΜΕΤΡΙΚΗ ΚΑΙ ΠΟΛΥΠΑΡΑΜΕΤΡΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ. Αριάδνη Αργυράκη ΜΟΝΟΠΑΡΑΜΕΤΡΙΚΗ ΚΑΙ ΠΟΛΥΠΑΡΑΜΕΤΡΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ Αριάδνη Αργυράκη ΣΤΑΔΙΑ ΕΚΤΕΛΕΣΗΣ ΠΕΡΙΒΑΛΛΟΝΤΙΚΩΝ ΓΕΩΧΗΜΙΚΩΝ ΕΡΕΥΝΩΝ 1.ΣΧΕΔΙΑΣΜΟΣ: - Καθορισμός στόχων έρευνας - Ιστορικό περιοχής 2 4.

Διαβάστε περισσότερα

Εκπαίδευση ΤΝΔ με ελαχιστοποίηση του τετραγωνικού σφάλματος εκπαίδευσης. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν.

Εκπαίδευση ΤΝΔ με ελαχιστοποίηση του τετραγωνικού σφάλματος εκπαίδευσης. Τεχνητά Νευρωνικά Δίκτυα (Διαφάνειες), Α. Λύκας, Παν. Εκπαίδευση ΤΝΔ με ελαχιστοποίηση του τετραγωνικού σφάλματος εκπαίδευσης Ελαχιστοποίηση συνάρτησης σφάλματος Εκπαίδευση ΤΝΔ: μπορεί να διατυπωθεί ως πρόβλημα ελαχιστοποίησης μιας συνάρτησης σφάλματος E(w)

Διαβάστε περισσότερα

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2 Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας Verson ΧΑΡΤΟΓΡΑΦΗΣΗ ΤΟΥ ΧΩΡΟΥ ΤΩΝ ΤΑΞΙΝΟΜΗΤΩΝ Ταξινομητές Ταξινομητές συναρτ. διάκρισης Ταξινομητές επιφανειών απόφ. Παραμετρικοί ταξινομητές Μη παραμετρικοί

Διαβάστε περισσότερα

Πιο συγκεκριμένα, η χρήση του MATLAB προσφέρει τα ακόλουθα πλεονεκτήματα.

Πιο συγκεκριμένα, η χρήση του MATLAB προσφέρει τα ακόλουθα πλεονεκτήματα. i Π Ρ Ο Λ Ο Γ Ο Σ Το βιβλίο αυτό αποτελεί μια εισαγωγή στα βασικά προβλήματα των αριθμητικών μεθόδων της υπολογιστικής γραμμικής άλγεβρας (computational linear algebra) και της αριθμητικής ανάλυσης (numerical

Διαβάστε περισσότερα

2. ΕΠΙΛΟΓΗ ΜΟΝΤΕΛΟΥ ΜΕ ΤΗ ΜΕΘΟΔΟ ΤΟΥ ΑΠΟΚΛΕΙΣΜΟΥ ΜΕΤΑΒΛΗΤΩΝ (Backward Elimination Procedure) Στην στατιστική βιβλιογραφία υπάρχουν πολλές μέθοδοι για

2. ΕΠΙΛΟΓΗ ΜΟΝΤΕΛΟΥ ΜΕ ΤΗ ΜΕΘΟΔΟ ΤΟΥ ΑΠΟΚΛΕΙΣΜΟΥ ΜΕΤΑΒΛΗΤΩΝ (Backward Elimination Procedure) Στην στατιστική βιβλιογραφία υπάρχουν πολλές μέθοδοι για 2. ΕΠΙΛΟΓΗ ΜΟΝΤΕΛΟΥ ΜΕ ΤΗ ΜΕΘΟΔΟ ΤΟΥ ΑΠΟΚΛΕΙΣΜΟΥ ΜΕΤΑΒΛΗΤΩΝ (Backward Elimination Procedure) Στην στατιστική βιβλιογραφία υπάρχουν πολλές μέθοδοι για τον καθορισμό του καλύτερου υποσυνόλου από ένα σύνολο

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη. 17η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Τεχνητή Νοημοσύνη. 17η διάλεξη ( ) Ίων Ανδρουτσόπουλος. Τεχνητή Νοημοσύνη 17η διάλεξη (2016-17) Ίων Ανδρουτσόπουλος http://.aueb.gr/users/ion/ 1 Οι διαφάνειες αυτής της διάλεξης βασίζονται: στο βιβλίο Artificia Inteigence A Modern Approach των S. Russe και

Διαβάστε περισσότερα

ΜΟΝΟΠΑΡΑΜΕΤΡΙΚΗ ΚΑΙ ΠΟΛΥΠΑΡΑΜΕΤΡΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ

ΜΟΝΟΠΑΡΑΜΕΤΡΙΚΗ ΚΑΙ ΠΟΛΥΠΑΡΑΜΕΤΡΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ ΜΟΝΟΠΑΡΑΜΕΤΡΙΚΗ ΚΑΙ ΠΟΛΥΠΑΡΑΜΕΤΡΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ ΣΤΑΤΙΣΤΙΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΓΙΑ ΤΟΝ ΕΝΤΟΠΙΣΜΟ ΓΕΩΧΗΜΙΚΗΣ ΑΝΩΜΑΛΙΑΣ Στατιστική ανάλυση του γεωχημικού δείγματος μας δίνει πληροφορίες για τον

Διαβάστε περισσότερα

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. Κατηγοριοποίηση. Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. Κατηγοριοποίηση. Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD Τμήμα Πληροφορικής με Εφαρμογές στη Βιοϊατρική Σχολή Θετικών Επιστημών Πανεπιστήμιο Θεσσαλίας ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ Κατηγοριοποίηση Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD Κατηγοριοποιητής K πλησιέστερων

Διαβάστε περισσότερα

ΔΙΚΤΥO RBF. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

ΔΙΚΤΥO RBF. Τεχνητά Νευρωνικά Δίκτυα (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων ΔΙΚΤΥO RBF Αρχιτεκτονική δικτύου RBF Δίκτυα RBF: δίκτυα συναρτήσεων πυρήνα (radial basis function networks). Πρόσθιας τροφοδότησης (feedforward) για προβλήματα μάθησης με επίβλεψη. Εναλλακτικό του MLP.

Διαβάστε περισσότερα

Η ΜΕΘΟΔΟΣ PCA (Principle Component Analysis)

Η ΜΕΘΟΔΟΣ PCA (Principle Component Analysis) Η ΜΕΘΟΔΟΣ PCA (Principle Component Analysis) Η μέθοδος PCA (Ανάλυση Κύριων Συνιστωσών), αποτελεί μία γραμμική μέθοδο συμπίεσης Δεδομένων η οποία συνίσταται από τον επαναπροσδιορισμό των συντεταγμένων ενός

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ Ακαδ. Έτος 07-08 Διδάσκων: Βασίλης ΚΟΥΤΡΑΣ Επικ. Καθηγητής v.koutras@fme.aegea.gr Τηλ: 7035468 Θα μελετήσουμε

Διαβάστε περισσότερα

ΑΝΤΑΓΩΝΙΣΤΙΚΗ ΜΑΘΗΣΗ ΔΙΚΤΥA LVQ και SOM. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

ΑΝΤΑΓΩΝΙΣΤΙΚΗ ΜΑΘΗΣΗ ΔΙΚΤΥA LVQ και SOM. Τεχνητά Νευρωνικά Δίκτυα (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων ΑΝΤΑΓΩΝΙΣΤΙΚΗ ΜΑΘΗΣΗ ΔΙΚΤΥA LVQ και SOM Μάθηση χωρίς επίβλεψη (unsupervised learning) Σύνολο εκπαίδευσης D={(x n )}, n=1,,n. x n =(x n1,, x nd ) T, δεν υπάρχουν τιμές-στόχοι t n. Προβλήματα μάθησης χωρίς

Διαβάστε περισσότερα

Ευφυής Προγραμματισμός

Ευφυής Προγραμματισμός Ευφυής Προγραμματισμός Ενότητα 10: Δημιουργία Βάσεων Κανόνων Από Δεδομένα-Προετοιμασία συνόλου δεδομένων Ιωάννης Χατζηλυγερούδης Πολυτεχνική Σχολή Τμήμα Μηχανικών Η/Υ & Πληροφορικής Δημιουργία Βάσεων Κανόνων

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ Δ.Π.Μ.Σ: «Εφαρμοσμένες Μαθηματικές Επιστήμες» 2008

Διαβάστε περισσότερα

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης

Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας. Εισηγητής Αναστάσιος Κεσίδης Μεταπτυχιακό Πρόγραμμα «Γεωχωρικές Τεχνολογίες» Ψηφιακή Επεξεργασία Εικόνας Εισηγητής Αναστάσιος Κεσίδης Τμηματοποίηση εικόνας Τμηματοποίηση εικόνας Γενικά Διαμερισμός μιας εικόνας σε διακριτές περιοχές

Διαβάστε περισσότερα

Ενότητα 1: Εισαγωγή. ΤΕΙ Στερεάς Ελλάδας. Τμήμα Φυσικοθεραπείας. Προπτυχιακό Πρόγραμμα. Μάθημα: Βιοστατιστική-Οικονομία της υγείας Εξάμηνο: Ε (5 ο )

Ενότητα 1: Εισαγωγή. ΤΕΙ Στερεάς Ελλάδας. Τμήμα Φυσικοθεραπείας. Προπτυχιακό Πρόγραμμα. Μάθημα: Βιοστατιστική-Οικονομία της υγείας Εξάμηνο: Ε (5 ο ) ΤΕΙ Στερεάς Ελλάδας Τμήμα Φυσικοθεραπείας Προπτυχιακό Πρόγραμμα Μάθημα: Βιοστατιστική-Οικονομία της υγείας Εξάμηνο: Ε (5 ο ) Ενότητα 1: Εισαγωγή Δρ. Χρήστος Γενιτσαρόπουλος Λαμία, 2017 1.1. Σκοπός και

Διαβάστε περισσότερα

Αναγνώριση Προτύπων Ι

Αναγνώριση Προτύπων Ι Αναγνώριση Προτύπων Ι Ενότητα 3: Στοχαστικά Συστήματα Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες

Διαβάστε περισσότερα

Ομαδοποίηση Ι (Clustering)

Ομαδοποίηση Ι (Clustering) Ομαδοποίηση Ι (Clustering) Πασχάλης Θρήσκος PhD Λάρισα 2016-2017 pthriskos@mnec.gr Αλγόριθμοι ομαδοποίησης Επίπεδοι αλγόριθμοι Αρχίζουμε με μια τυχαία ομαδοποίηση Βελτιώνουμε επαναληπτικά KMeans Ομαδοποίηση

Διαβάστε περισσότερα

ΤΕΙ ΣΕΡΡΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΞΕΤΑΣΗ ΣΤΟ ΜΑΘΗΜΑ «ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ» ΔΕ. 11 ΙΟΥΝΙΟΥ 2012

ΤΕΙ ΣΕΡΡΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ ΕΞΕΤΑΣΗ ΣΤΟ ΜΑΘΗΜΑ «ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ» ΔΕ. 11 ΙΟΥΝΙΟΥ 2012 ΔΕ. ΙΟΥΝΙΟΥ Δίνονται τα εξής πρότυπα: [ ] [ ] [ ] [ ] Άσκηση η ( μονάδες) Χρησιμοποιώντας το κριτήριο της ομοιότητας να απορριφθεί ένα χαρακτηριστικό με βάσει το συντελεστή συσχέτισης. (γράψτε ποιο χαρακτηριστικό

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών 44 Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών Διδακτικοί στόχοι Σκοπός του κεφαλαίου είναι οι μαθητές να κατανοήσουν τα βήματα που ακολουθούνται κατά την ανάπτυξη μιας εφαρμογής.

Διαβάστε περισσότερα

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D.

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D. Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D. Μη γραμμικός προγραμματισμός: βελτιστοποίηση χωρίς περιορισμούς Πανεπιστήμιο Θεσσαλίας Σχολή Θετικών Επιστημών ΤμήμαΠληροφορικής Διάλεξη 7-8 η /2017 Τι παρουσιάστηκε

Διαβάστε περισσότερα

Αναγνώριση Προτύπων Ι

Αναγνώριση Προτύπων Ι Αναγνώριση Προτύπων Ι Ενότητα 2: Δομικά Συστήματα Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες

Διαβάστε περισσότερα

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων HMY 795: Αναγνώριση Προτύπων Διάλεξη 3 Επιλογή μοντέλου Επιλογή μοντέλου Θεωρία αποφάσεων Επιλογή μοντέλου δεδομένα επικύρωσης Η επιλογή του είδους του μοντέλου που θα χρησιμοποιηθεί σε ένα πρόβλημα (π.χ.

Διαβάστε περισσότερα

ΤΥΧΑΙΟΙ ΑΡΙΘΜΟΙ - ΠΡΟΣΟΜΟΙΩΣΗ

ΤΥΧΑΙΟΙ ΑΡΙΘΜΟΙ - ΠΡΟΣΟΜΟΙΩΣΗ ΚΕΦΑΛΑΙΟ 11 ΤΥΧΑΙΟΙ ΑΡΙΘΜΟΙ - ΠΡΟΣΟΜΟΙΩΣΗ ΤΥΧΑΙΟΙ ΑΡΙΘΜΟΙ Θα εισαγάγουμε την έννοια του τυχαίου αριθμού με ένα παράδειγμα. Παράδειγμα: Θεωρούμε μια τυχαία μεταβλητή με συνάρτηση πιθανότητας η οποία σε

Διαβάστε περισσότερα

Μέρος Β /Στατιστική. Μέρος Β. Στατιστική. Γεωπονικό Πανεπιστήμιο Αθηνών Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.

Μέρος Β /Στατιστική. Μέρος Β. Στατιστική. Γεωπονικό Πανεπιστήμιο Αθηνών Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua. Μέρος Β /Στατιστική Μέρος Β Στατιστική Γεωπονικό Πανεπιστήμιο Αθηνών Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) Από τις Πιθανότητες στη Στατιστική Στα προηγούμενα, στο

Διαβάστε περισσότερα

5. ΤΟ ΓΕΝΙΚΟ ΓΡΑΜΜΙΚΟ ΜΟΝΤΕΛΟ (GENERAL LINEAR MODEL) 5.1 Εναλλακτικά μοντέλα του απλού γραμμικού μοντέλου: Το εκθετικό μοντέλο

5. ΤΟ ΓΕΝΙΚΟ ΓΡΑΜΜΙΚΟ ΜΟΝΤΕΛΟ (GENERAL LINEAR MODEL) 5.1 Εναλλακτικά μοντέλα του απλού γραμμικού μοντέλου: Το εκθετικό μοντέλο 5. ΤΟ ΓΕΝΙΚΟ ΓΡΑΜΜΙΚΟ ΜΟΝΤΕΛΟ (GENERAL LINEAR MODEL) 5.1 Εναλλακτικά μοντέλα του απλού γραμμικού μοντέλου: Το εκθετικό μοντέλο Ένα εναλλακτικό μοντέλο της απλής γραμμικής παλινδρόμησης (που χρησιμοποιήθηκε

Διαβάστε περισσότερα

ΔΙΑΧΩΡΙΣΤΙΚΗ ΟΜΑΔΟΠΟΙΗΣΗ

ΔΙΑΧΩΡΙΣΤΙΚΗ ΟΜΑΔΟΠΟΙΗΣΗ ΔΙΑΧΩΡΙΣΤΙΚΗ ΟΜΑΔΟΠΟΙΗΣΗ Εισαγωγή Τεχνικές διαχωριστικής ομαδοποίησης: Ν πρότυπα k ομάδες Ν>>k Συνήθως k καθορίζεται από χρήστη Διαχωριστικές τεχνικές: επιτρέπουν πρότυπα να μετακινούνται από ομάδα σε

Διαβάστε περισσότερα

ΚΑΤΗΓΟΡΙΕΣ ΤΑΞΙΝΟΜΗΣΗΣ

ΚΑΤΗΓΟΡΙΕΣ ΤΑΞΙΝΟΜΗΣΗΣ ΚΑΤΗΓΟΡΙΕΣ ΤΑΞΙΝΟΜΗΣΗΣ Κατευθυνόμενη ταξινόμηση (supervsed cassfcaton) Μη-κατευθυνόμενη ταξινόμηση (unsupervsed cassfcaton) Γραμμική: Lnear Dscrmnant Anayss Μη- Γραμμική: Νευρωνικά δίκτυα κλπ. Ιεραρχική

Διαβάστε περισσότερα

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ Tel.: +30 2310998051, Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Σχολή Θετικών Επιστημών Τμήμα Φυσικής 541 24 Θεσσαλονίκη Καθηγητής Γεώργιος Θεοδώρου Ιστοσελίδα: http://users.auth.gr/theodoru ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

Διαβάστε περισσότερα

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας Τεχνικές Μείωσης Διαστάσεων Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας 1 Εισαγωγή Το μεγαλύτερο μέρος των δεδομένων που καλούμαστε να επεξεργαστούμε είναι πολυδιάστατα.

Διαβάστε περισσότερα

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. ΕΝΟΤΗΤΑ: Γραμμικές Συναρτήσεις Διάκρισης. ΔΙΔΑΣΚΟΝΤΕΣ: Βλάμος Π. Αυλωνίτης Μ. ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. ΕΝΟΤΗΤΑ: Γραμμικές Συναρτήσεις Διάκρισης. ΔΙΔΑΣΚΟΝΤΕΣ: Βλάμος Π. Αυλωνίτης Μ. ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ ΕΝΟΤΗΤΑ: Γραμμικές Συναρτήσεις Διάκρισης ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΔΙΔΑΣΚΟΝΤΕΣ: Βλάμος Π. Αυλωνίτης Μ. Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ ο Κεφάλαιο: Στατιστική ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΚΑΙ ΟΡΙΣΜΟΙ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ Πληθυσμός: Λέγεται ένα σύνολο στοιχείων που θέλουμε να εξετάσουμε με ένα ή περισσότερα χαρακτηριστικά. Μεταβλητές X: Ονομάζονται

Διαβάστε περισσότερα

Τμήμα Μηχανικών Πληροφορικής ΤΕ Η μέθοδος Simplex. Γκόγκος Χρήστος ΤΕΙ Ηπείρου Επιχειρησιακή Έρευνα. τελευταία ενημέρωση: 19/01/2017

Τμήμα Μηχανικών Πληροφορικής ΤΕ Η μέθοδος Simplex. Γκόγκος Χρήστος ΤΕΙ Ηπείρου Επιχειρησιακή Έρευνα. τελευταία ενημέρωση: 19/01/2017 Τμήμα Μηχανικών Πληροφορικής ΤΕ 2016-2017 Η μέθοδος Simplex Γκόγκος Χρήστος ΤΕΙ Ηπείρου Επιχειρησιακή Έρευνα τελευταία ενημέρωση: 19/01/2017 1 Πλεονεκτήματα Η μέθοδος Simplex Η μέθοδος Simplex είναι μια

Διαβάστε περισσότερα

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική

ΟΙΚΟΝΟΜΕΤΡΙΑ. Παπάνα Αγγελική ΟΙΚΟΝΟΜΕΤΡΙΑ Ενότητα 2: Ανασκόπηση βασικών εννοιών Στατιστικής και Πιθανοτήτων Παπάνα Αγγελική Μεταδιδακτορική ερευνήτρια, ΑΠΘ E-mail: angeliki.papana@gmail.com, agpapana@auth.gr Webpage: http://users.auth.gr/agpapana

Διαβάστε περισσότερα

Διδάσκουσα: Χάλκου Χαρά,

Διδάσκουσα: Χάλκου Χαρά, Διδάσκουσα: Χάλκου Χαρά, Διπλωματούχος Ηλεκτρολόγος Μηχανικός & Τεχνολογίας Η/Υ, MSc e-mail: chalkou@upatras.gr Επιβλεπόμενοι Μη Επιβλεπόμενοι Ομάδα Κατηγορία Κανονικοποίηση Δεδομένων Συμπλήρωση Ελλιπών

Διαβάστε περισσότερα

Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ. Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ»

Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ. Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ» Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ» 2 ΔΥΝΑΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ Προβλήματα ελάχιστης συνεκτικότητας δικτύου Το πρόβλημα της ελάχιστης

Διαβάστε περισσότερα

Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα. Τεχνητά Νευρωνικά Δίκτυα (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα Τεχνητή Νοημοσύνη (Artificial Intelligence) Ανάπτυξη μεθόδων και τεχνολογιών για την επίλυση προβλημάτων στα οποία ο άνθρωπος υπερέχει (?) του υπολογιστή Συλλογισμοί

Διαβάστε περισσότερα

Ομαδοποίηση ΙΙ (Clustering)

Ομαδοποίηση ΙΙ (Clustering) Ομαδοποίηση ΙΙ (Clustering) Πασχάλης Θρήσκος PhD Λάρισα 2016-2017 pthriskos@mnec.gr Αλγόριθμοι ομαδοποίησης Επίπεδοι αλγόριθμοι Αρχίζουμε με μια τυχαία ομαδοποίηση Βελτιώνουμε επαναληπτικά KMeans Ομαδοποίηση

Διαβάστε περισσότερα

Ασκήσεις Φροντιστηρίου «Υπολογιστική Νοημοσύνη Ι» 4 o Φροντιστήριο

Ασκήσεις Φροντιστηρίου «Υπολογιστική Νοημοσύνη Ι» 4 o Φροντιστήριο Ασκήσεις Φροντιστηρίου 4 o Φροντιστήριο Πρόβλημα 1 ο Ο πίνακας συσχέτισης R x του διανύσματος εισόδου x( στον LMS αλγόριθμο 1 0.5 R x = ορίζεται ως: 0.5 1. Ορίστε το διάστημα των τιμών της παραμέτρου μάθησης

Διαβάστε περισσότερα

Πρόλογος... xv. Κεφάλαιο 1. Εισαγωγικές Έννοιες... 1

Πρόλογος... xv. Κεφάλαιο 1. Εισαγωγικές Έννοιες... 1 Πρόλογος... xv Κεφάλαιο 1. Εισαγωγικές Έννοιες... 1 1.1.Ιστορική Αναδρομή... 1 1.2.Βασικές Έννοιες... 5 1.3.Πλαίσιο ειγματοληψίας (Sampling Frame)... 9 1.4.Κατηγορίες Ιατρικών Μελετών.... 11 1.4.1.Πειραµατικές

Διαβάστε περισσότερα

1. ΣΤΑΤΙΚΗ ΑΡΙΣΤΟΠΟΙΗΣΗ

1. ΣΤΑΤΙΚΗ ΑΡΙΣΤΟΠΟΙΗΣΗ . ΣΤΑΤΙΚΗ ΑΡΙΣΤΟΠΟΙΗΣΗ. Μέγιστα και Ελάχιστα Συναρτήσεων Χωρίς Περιορισμούς Συναρτήσεις μιας Μεταβλητής Εστω f ( x) είναι συνάρτηση μιας μόνο μεταβλητής. Εστω επίσης ότι x είναι ένα σημείο στο πεδίο ορισμού

Διαβάστε περισσότερα

Μέθοδοι μονοδιάστατης ελαχιστοποίησης

Μέθοδοι μονοδιάστατης ελαχιστοποίησης Βασικές αρχές μεθόδων ελαχιστοποίησης Μέθοδοι μονοδιάστατης ελαχιστοποίησης Οι μέθοδοι ελαχιστοποίησης είναι επαναληπτικές. Ξεκινώντας από μια αρχική προσέγγιση του ελαχίστου (την συμβολίζουμε ) παράγουν

Διαβάστε περισσότερα

Η μέθοδος Simplex. Γεωργία Φουτσιτζή-Γκόγκος Χρήστος ΤΕΙ Ηπείρου Επιχειρησιακή Έρευνα. Τμήμα Μηχανικών Πληροφορικής ΤΕ

Η μέθοδος Simplex. Γεωργία Φουτσιτζή-Γκόγκος Χρήστος ΤΕΙ Ηπείρου Επιχειρησιακή Έρευνα. Τμήμα Μηχανικών Πληροφορικής ΤΕ Τμήμα Μηχανικών Πληροφορικής ΤΕ 2017-2018 Η μέθοδος Simplex Γεωργία Φουτσιτζή-Γκόγκος Χρήστος ΤΕΙ Ηπείρου Επιχειρησιακή Έρευνα τελευταία ενημέρωση: 19/01/2017 1 Πλεονεκτήματα Η μέθοδος Simplex Η μέθοδος

Διαβάστε περισσότερα

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2 Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας Verson 2 1 ΧΑΡΤΟΓΡΑΦΗΣΗ ΤΟΥ ΧΩΡΟΥ ΤΩΝ ΤΑΞΙΝΟΜΗΤΩΝ Ταξινομητές Ταξινομητές συναρτ. διάκρισης Ταξινομητές επιφανειών απόφ. Παραμετρικοί ταξινομητές Μη παραμετρικοί

Διαβάστε περισσότερα

Δομές Δεδομένων. Τι είναι η δομή δεδομένων; Έστω η ακολουθία αριθμών: 8, 10,17,19,22,5,12 Λογικό Επίπεδο. Φυσικό Επίπεδο RAM. Ταξινομημένος.

Δομές Δεδομένων. Τι είναι η δομή δεδομένων; Έστω η ακολουθία αριθμών: 8, 10,17,19,22,5,12 Λογικό Επίπεδο. Φυσικό Επίπεδο RAM. Ταξινομημένος. Δομές Δεδομένων Τι είναι η δομή δεδομένων; Έστω η ακολουθία αριθμών: 8, 10,17,19,22,5,12 Λογικό Επίπεδο Φυσικό Επίπεδο RAM Πίνακας 8 10 17 19 22 Ταξινομημένος Πίνακας 5 8 10 12 17 Δένδρο 8 5 10 12 19 17

Διαβάστε περισσότερα

Υπολογιστικό Πρόβληµα

Υπολογιστικό Πρόβληµα Υπολογιστικό Πρόβληµα Μετασχηµατισµός δεδοµένων εισόδου σε δεδοµένα εξόδου. Δοµή δεδοµένων εισόδου (έγκυρο στιγµιότυπο). Δοµή και ιδιότητες δεδοµένων εξόδου (απάντηση ή λύση). Τυπικά: διµελής σχέση στις

Διαβάστε περισσότερα

Μέθοδοι πολυδιάστατης ελαχιστοποίησης

Μέθοδοι πολυδιάστατης ελαχιστοποίησης Μέθοδοι πολυδιάστατης ελαχιστοποίησης με παραγώγους Μέθοδοι πολυδιάστατης ελαχιστοποίησης Δ. Γ. Παπαγεωργίου Τμήμα Μηχανικών Επιστήμης Υλικών Πανεπιστήμιο Ιωαννίνων dpapageo@cc.uoi.gr http://pc64.materials.uoi.gr/dpapageo

Διαβάστε περισσότερα

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2 Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας Version 2 1 ΜΗ ΓΡΑΜΜΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΔΕΝΔΡΑ ΑΠΟΦΑΣΗΣ Πρόκειται για μια οικογένεια μη γραμμικών ταξινομητών Είναι συστήματα απόφασης πολλών σταδίων (multistage),

Διαβάστε περισσότερα

Ενότητα 1: Πληθυσμός και δείγμα Είδη Μεταβλητών - Περιγραφική στατιστική

Ενότητα 1: Πληθυσμός και δείγμα Είδη Μεταβλητών - Περιγραφική στατιστική ΕΘΝΙΚΟ ΚΑΠΟΔΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ - ΙΑΤΡΙΚΗ ΣΧΟΛΗ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ «ΕΦΑΡΜΟΣΜΕΝΗ ΝΕΥΡΟΑΝΑΤΟΜΙΑ» «Βιοστατιστική, Μεθοδολογία και Συγγραφή Επιστημονικής Μελέτης» Ενότητα 1: Πληθυσμός

Διαβάστε περισσότερα

E[ (x- ) ]= trace[(x-x)(x- ) ]

E[ (x- ) ]= trace[(x-x)(x- ) ] 1 ΦΙΛΤΡΟ KALMAN ΔΙΑΚΡΙΤΟΥ ΧΡΟΝΟΥ Σε αυτό το μέρος της πτυχιακής θα ασχοληθούμε λεπτομερώς με το φίλτρο kalman και θα δούμε μια καινούρια έκδοση του φίλτρου πάνω στην εφαρμογή της γραμμικής εκτίμησης διακριτού

Διαβάστε περισσότερα

Μέθοδοι μονοδιάστατης ελαχιστοποίησης

Μέθοδοι μονοδιάστατης ελαχιστοποίησης Βασικές αρχές μεθόδων ελαχιστοποίησης Μέθοδοι μονοδιάστατης ελαχιστοποίησης Οι μέθοδοι ελαχιστοποίησης είναι επαναληπτικές. Ξεκινώντας από μια αρχική προσέγγιση του ελαχίστου (την συμβολίζουμε ) παράγουν

Διαβάστε περισσότερα

Εισαγωγικές Έννοιες. ημήτρης Φωτάκης. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Εθνικό Μετσόβιο Πολυτεχνείο

Εισαγωγικές Έννοιες. ημήτρης Φωτάκης. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Εθνικό Μετσόβιο Πολυτεχνείο Εισαγωγικές Έννοιες ημήτρης Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο Πολυτεχνείο Άδεια Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons.

Διαβάστε περισσότερα

Τεχνικές Εξόρυξης Δεδομένων

Τεχνικές Εξόρυξης Δεδομένων ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ Διατμηματικό Μεταπτυχιακό Πρόγραμμα στα Πληροφοριακά Συστήματα ( MIS ) Τεχνικές Εξόρυξης Δεδομένων για την βελτίωση της απόδοσης σε Κατανεμημένα Συστήματα Ζάχος Δημήτριος Επιβλέποντες:

Διαβάστε περισσότερα

Γραφική Λύση & Πρότυπη Μορφή Μαθηματικού Μοντέλου

Γραφική Λύση & Πρότυπη Μορφή Μαθηματικού Μοντέλου ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ Επιχειρησιακή Έρευνα Γραφική Λύση & Πρότυπη Μορφή Μαθηματικού Μοντέλου Η παρουσίαση προετοιμάστηκε από τον Ν.Α. Παναγιώτου Περιεχόμενα Παρουσίασης 1. Προϋποθέσεις Εφαρμογής

Διαβάστε περισσότερα

3. O ΑΛΓΟΡΙΘΜΟΣ ΤΟΥ PERCEPTRON

3. O ΑΛΓΟΡΙΘΜΟΣ ΤΟΥ PERCEPTRON 3. O ΑΛΓΟΡΙΘΜΟΣ ΤΟΥ PERCEPRON 3. ΕΙΣΑΓΩΓΗ: Το Perceptron είναι η απλούστερη μορφή Νευρωνικού δικτύου, το οποίο χρησιμοποιείται για την ταξινόμηση ενός ειδικού τύπου προτύπων, που είναι γραμμικά διαχωριζόμενα.

Διαβάστε περισσότερα

ΕΥΦΥΗΣ ΕΛΕΓΧΟΣ. Ενότητα #8: Βελτιστοποίηση Συστημάτων Ασαφούς Λογικής. Αναστάσιος Ντούνης Τμήμα Μηχανικών Αυτοματισμού Τ.Ε.

ΕΥΦΥΗΣ ΕΛΕΓΧΟΣ. Ενότητα #8: Βελτιστοποίηση Συστημάτων Ασαφούς Λογικής. Αναστάσιος Ντούνης Τμήμα Μηχανικών Αυτοματισμού Τ.Ε. ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα ΕΥΦΥΗΣ ΕΛΕΓΧΟΣ Ενότητα #8: Βελτιστοποίηση Συστημάτων Ασαφούς Λογικής Αναστάσιος Ντούνης Τμήμα Μηχανικών Αυτοματισμού Τ.Ε. Άδειες

Διαβάστε περισσότερα

ΕΛΕΓΧΟΣ ΠΑΡΑΓΩΓΙΚΩΝ ΔΙΕΡΓΑΣΙΩΝ

ΕΛΕΓΧΟΣ ΠΑΡΑΓΩΓΙΚΩΝ ΔΙΕΡΓΑΣΙΩΝ ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα ΕΛΕΓΧΟΣ ΠΑΡΑΓΩΓΙΚΩΝ ΔΙΕΡΓΑΣΙΩΝ Ενότητα: Αναγνώριση Διεργασίας - Προσαρμοστικός Έλεγχος (Process Identification) Αλαφοδήμος Κωνσταντίνος

Διαβάστε περισσότερα

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2 Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας Verson ΜΗ ΓΡΑΜΜΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ Η παραπάνω ανάλυση ήταν χρήσιμη προκειμένου να κατανοήσουμε τη λογική των δικτύων perceptrons πολλών επιπέδων

Διαβάστε περισσότερα

ΔΙΑΧΩΡΙΣΜΟΣ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΚΡΗΤΙΚΟΥ ΚΑΤΕΡΙΝΑ NΙΚΑΚΗ ΚΑΤΕΡΙΝΑ NΙΚΟΛΑΪΔΟΥ ΧΡΥΣΑ

ΔΙΑΧΩΡΙΣΜΟΣ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΚΡΗΤΙΚΟΥ ΚΑΤΕΡΙΝΑ NΙΚΑΚΗ ΚΑΤΕΡΙΝΑ NΙΚΟΛΑΪΔΟΥ ΧΡΥΣΑ ΔΙΑΧΩΡΙΣΜΟΣ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ ΚΡΗΤΙΚΟΥ ΚΑΤΕΡΙΝΑ NΙΚΑΚΗ ΚΑΤΕΡΙΝΑ NΙΚΟΛΑΪΔΟΥ ΧΡΥΣΑ ΔΙΑΧΩΡΙΣΜΟΣ ΚΑΙ ΤΑΞΙΝΟΜΗΣΗ Είναι τεχνικές που έχουν σκοπό: τον εντοπισμό χαρακτηριστικών των οποίων οι αριθμητικές τιμές επιτυγχάνουν

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ Ακαδ. Έτος 06-07 Διδάσκων: Βασίλης ΚΟΥΤΡΑΣ Επικ. Καθηγητής v.koutra@fme.aegea.gr Τηλ: 7035468 Θα μελετήσουμε

Διαβάστε περισσότερα