ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ ΠΕΛΑΤΩΝ ΛΙΑΝΙΚΗΣ ΤΡΑΠΕΖΙΚΗΣ

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ ΠΕΛΑΤΩΝ ΛΙΑΝΙΚΗΣ ΤΡΑΠΕΖΙΚΗΣ"

Transcript

1 ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΣΤΗΝ ΠΛΗΡΟΦΟΡΙΚΗ ΓΙΑ ΑΠΟΦΟΙΤΟΥΣ ΑΛΛΩΝ ΣΧΟΛΩΝ ΕΡΓΑΣΙΑ ΑΠΟΝΟΜΗΣ ΜΕΤΑΠΤΥΧΙΑΚΟΥ ΔΙΠΛΩΜΑΤΟΣ ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ ΠΕΛΑΤΩΝ ΛΙΑΝΙΚΗΣ ΤΡΑΠΕΖΙΚΗΣ ΚΩΝΣΤΑΝΤΙΝΟΣ ΣΑΜΨΩΝΗΣ ΕΠΙΒΛΕΠΩΝ ΚΑΘΗΓΗΤΗΣ ΜΑΡΑΓΚΟΥΔΑΚΗΣ Ε. ΙΟΥΛΙΟΣ 2017

2 ΠΙΝΑΚΑΣ ΠΕΡΙΕΧΟΜΕΝΩΝ 1. EΙΣΑΓΩΓΗ ΠΙΣΤΟΛΗΠΤΙΚΗ ΑΞΙΟΛΟΓΗΣΗ ΠΙΣΤΟΥΧΟΥ Χρηματοπιστωτικός Τομέας και Λιανική Τραπεζική Ιστορική Αναδρομή Μεθοδολογικές Προσεγγίσεις Ανάπτυξης Μοντέλων ΣΧΕΤΙΚΕΣ ΕΡΕΥΝΗΤΙΚΕΣ ΕΡΓΑΣΙΕΣ ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ Ορισμός και Βασικές Έννοιες Δέντρο Απόφασης - Πλεονεκτήματα Δέντρο Απόφασης - Μειονεκτήματα Το Πρόβλημα της Υπερπροσαρμογής (Overfitting) Αντιμετώπιση της Υπερπροσαρμογής Βαθιά Mηχανική εκμάθηση (Deep Learning) Μέθοδοι Ομάδων (Ensemble Methods) Γενικά Στοιχεία Εισαγωγή Στη Μέθοδο Ομάδων Μέθοδοι Δημιουργίας Ομάδας Κατηγοριοποιητών ΑΛΓΟΡΙΘΜΟΙ ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗΣ Επαγωγικό Δέντρο Αποφάσεων (Decision Trees) Γενικά Αλγόριθμος του Hunt Μέτρα Επιλογής Καλύτερου Διαχωρισμού Αλγόριθμος του CHAID Κατηγοριοποιητής Κανόνων (Rule Based Classifier) Κατηγοριοποιητής Πλησιέστερου Γείτονα (K-nn) Κατηγοριοποιητές Bayes Κατηγοριοποίηση με Τεχνητά Νευρωνικά Δίκτυα Μηχανές Διανυσμάτων Υποστήριξης (Support Vector Machines - SVM) ΔΕΔΟΜΕΝΑ Παρουσίαση & Επεξεργασία Δεδομένων Ταυτότητα Των Δεδομένων Επεξεργασία Δεδομένων ΑΝΑΠΤΥΞΗ ΚΑΤΗΓΟΡΙΟΠΟΙΗΤΗ ΔΕΝΤΡΟΥ ΑΠΟΦΑΣΗΣ Αλγόριθμος Ηunt Aλγόριθμος CHAID ΕΦΑΡΜΟΓΗ ΑΛΛΩΝ ΜΟΝΤΕΛΩΝ ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗΣ Κατηγοριοποίηση Πελατών Λιανικής Τραπεζικής Page 2

3 7.1 Κατηγοριοποιητής Κανόνων (Rule Based Classifier) Kατηγοριοποιητης Πλησιεστερου Γειτονα Κατηγοριοποιητής Bayes Τεχνητό Νευρωνικό Δίκτυο (Artificial Neural Network) Μηχανή Διανυσμάτων Υποστήριξης (Support Vector Machine) OΜΑΔΕΣ ΚΑΤΗΓΟΡΙΟΠΟΙΗΤΩΝ Oμάδα Κατηγοριοποιητών Με Πρόβλεψη Κατά Πλειοψηφία (Vote) Μοντέλο Ενίσχυσης (Boosting) με τον Αλγόριθμο Adaboost Μοντέλο Εμφωλίασης Συνάθροισης Αυτοδυναμίας (Bagging) Μοντέλο Gradient Boosted Trees ΣΥΓΚΡΙΤΙΚΗ ΑΝΑΛΥΣΗ ΑΠΟΤΕΛΕΣΜΑΤΩΝ ΚΑΙ ΣΥΜΠΕΡΑΣΜΑΤΑ Ποσοτικά Κριτήρια Μετρικές Απόδοσης Μοντέλων Στατιστική Εκτίμηση Σύγκριση Ακρίβειασ Κατηγοριοποιητών Ποιοτικά Κριτήρια Αξιολόγησης Δέντρα Απόφασης Κατηγοριοποιητής Κανόνων Κατηγοριοποιητής Πλησιέστερου Γείτονα Κατηγοριοποιητής Βayes (Aπλοϊκός) Κατηγοριοποιητής Με Τεχνητά Νευρωνικά Δίκτυα Μηχανές Υποστήριξης Διανυσμάτων ΣΥΓΚΡΙΣΗ ΑΠΟΤΕΛΕΣΜΑΤΩΝ ΜΕ ΣΧΕΤΙΚΕΣ ΕΡΕΥΝΗΤΙΚΕΣ ΕΡΓΑΣΙΕΣ ΒΙΒΛΙΟΓΡΑΦΙΑ Κατηγοριοποίηση Πελατών Λιανικής Τραπεζικής Page 3

4 1. EΙΣΑΓΩΓΗ ΠΙΣΤΟΛΗΠΤΙΚΗ ΑΞΙΟΛΟΓΗΣΗ ΠΙΣΤΟΥΧΟΥ 1.1 ΧΡΗΜΑΤΟΠΙΣΤΩΤΙΚΟΣ ΤΟΜΕΑΣ ΚΑΙ ΛΙΑΝΙΚΗ ΤΡΑΠΕΖΙΚΗ ΙΣΤΟΡΙΚΗ ΑΝΑΔΡΟΜ Η H μεγάλη ανάπτυξη του χρηματοπιστωτικού τομέα τις τελευταίες δεκαετίες ανέδειξε την ανάγκη ανάπτυξης των κατάλληλων εργαλείων για την αξιολόγηση τόσο των υποψήφιων όσο και των υφιστάμενων πελατών πιστούχων. Ο στόχος προφανής, η ορθολογική και επικερδής κατανομή και εκμετάλλευση των διαθέσιμων προς δανεισμό κεφαλαίων προς όφελος των μετόχων και κατ επέκταση και της οικονομίας. Ειδικά δε από τα μέσα της δεκαετίας του 80 και ιδιαίτερα κατά τη δεκαετία του 90 παρουσιάστηκαν μεγάλες αλλαγές στον τρόπο ζωής των νοικοκυριών, που σε συνδυασμό με την αλματώδη τεχνολογική πρόοδο στην παραγωγή αγαθών, οδήγησε σε σημαντική αύξηση της κατανάλωσης. Η τάση αυτή οδήγησε σε έκρηξη ανόδου της Λιανικής Τραπεζικής, ένα φαινόμενο που ξεκίνησε στις Η.Π.Α. και στη συνέχεια επεκτάθηκε και στα υπόλοιπα ανεπτυγμένα και αναπτυσσόμενα κράτη. Στο τέλος του 1997 το ύψος δανεισμού σε προϊόντα Λιανικής Τραπεζικής (στεγαστικά, καταναλωτικά, πιστωτικές κάρτες, δάνεια αγοράς αυτοκινήτου, φοιτητικά δάνεια κτλ) ανερχόταν ήδη σε 5 τρισεκατομμύρια δολλάρια περίπου. Γίνεται εύκολα αντιληπτό ότι αυτή η απότομη αύξηση ζήτησης και η μαζική παράλληλη εκταμίευση πολύ μεγάλου αριθμού και μικρών σχετικά σε όγκο δανείων, οδήγησε στην ανάγκη ανάπτυξης τυποποιημένων και αυτοματοποιημένων μεθόδων αξιoλόγησης που υποστηριζόμενες από προηγμένες τεχνολογικές εφαρμογές, μπορούν να προσφέρουν γρήγορη διαχείριση και αξιολόγηση των αιτημάτων και των πελατών. Επιπρόσθετα, η μεγάλη αύξηση των χαρτοφυλακίων δανείων Λιανικής Τραπεζικής, δημιούργησε αντίστοιχες ανάγκες και στο κομμάτι παρακολούθησης και διαχείρισης του υφισταμένου πελατολογίου. Με αυτό τον τρόπο η πιστωτική έκρηξη στη Λιανική Τραπεζική συνοδεύτηκε από μια πραγματική επανάσταση τα τελευταία 20 χρόνια στο χώρο των στατιστικών μοντέλων αξιολόγησης του πιστούχου. Η χρήση των μοντέλων εκτίμησης πιστωτικού Κατηγοριοποίηση Πελατών Λιανικής Τραπεζικής Page 4

5 κινδύνου είχε ξεκινήσει ήδη από τη δεκαετία του 50, ωστόσο η χρήση τους από τα πιστωτικά ιδρύματα επεκτάθηκε ραγδαία από τα μέσα της δεκαετίας του 90. Σήμερα οι τράπεζες διαθέτουν διαφορετικά μοντέλα αξιολόγησης/βαθμολόγησης πελατών ανά τύπο δανειακού προϊόντος. Στον τομέα της Λιανικής Τραπεζικής έχει κυριαρχήσει η ευρεία χρήση των λεγόμενων σκοροκαρτών ( Credit risk scorecards ) με μοντέλα για την αξιολόγηση και την έγκριση νέων αιτημάτων/δανείων/πελατών (application credit risk scorecards), την αξιολόγηση της συμπεριφοράς υφισταμένων πελατών (behavioral scorecards) προκειμένου να ληφθούν σημαντικές αποφάσεις για την επέκταση ενίσχυση της συνεργασίας, τη διαχείριση της σχέσης και την τιμολόγηση του πελάτη. Eπίσης έχουν αναπτυχθεί μοντέλα που εστιάζονται στην κερδοφορία (profit based), μοντέλα που προβλέπουν περιπτώσεις απάτης, καθώς και μοντέλα εκτίμησης των πλέον κατάλληλων προς επικέντρωση προβληματικών δανείων/πιστούχων, προκειμένου οι αντίστοιχες διευθύνσεις να επιτύχουν τις βέλτιστες δυνατές ανακτήσεις κεφαλαίων και το μέγιστο δυνατό περιορισμό της ζημίας. Τα πλεονεκτήματα που προσφέρει η χρήση των μοντέλων εκτίμησης πιστωτικού κινδύνου λιανικής τραπεζικής είναι πολλά. Το πιο προφανές όφελος έχει να κάνει με τον παράγοντα χρόνο. Εκεί που κάποιος αναλυτής θα χρειαζόταν κάποιες ημέρες προκειμένου να αξιολογήσει ένα πελάτη, μέσω των μοντέλων η αξιολόγηση μπορεί να επιτευχθεί σε λιγότερο από μία ώρα. Οπότε και ο πελάτης μπορεί να ενημερωθεί για την έγκριση ή απόρριψη του αιτήματός του ταχύτατα και κατά συνέπεια πολύ γρηγορότερα μπορεί να ολοκληρωθεί και η όλη διαδικασία εκταμίευσης σε περίπτωση έγκρισης. Το δεύτερο μεγάλο πλεονέκτημα έχει να κάνει με τον περιορισμό της υποκειμενκότητας στις αξιολογήσεις. Αντί να έχουμε κάποιον αξιολογητή ο οποίος θα αξιολογούσε με τα δικά του κριτήρια, την εμπειρία από την προϋπηρεσία του και τις δικές του προτεραιότητες, με τη χρήση των μοντέλων έχουμε τα ίδια κριτήρια για όλες τις αξιολογήσεις. Ένα ακόμη σημαντικό πλεονέκτημα είναι ότι τα μοντέλα λαμβάνουν υπόψη πολύ περισσότερες παραμέτρους και παράγοντες από όσους θα είχε τη δυνατότητα να λάβει ταυτόχρονα υπόψη ο οποιοσδήποτε αξιολογητής. Κατηγοριοποίηση Πελατών Λιανικής Τραπεζικής Page 5

6 1.1.2 ΜΕΘΟΔΟΛΟΓΙΚΕΣ ΠΡΟΣΕΓΓΙΣΕΙΣ ΑΝΑΠΤΥΞΗΣ ΜΟΝΤΕΛΩΝ Υπάρχουν δύο γενικές προσεγγίσεις για την ανάπτυξη των μοντέλων εκτίμησης πιστωτικού κινδύνου λιανικής τραπεζικής. Η πρώτη προσέγγιση είναι η απόκτηση ενός έτοιμου μοντέλου από την αγορά (Generic model). Η λύση αυτή ακολουθείται συνήθως στην περίπτωση έλλειψης επαρκούς όγκου δεδομένων από ένα πιστωτικό ίδρυμα. Γι αυτό το λόγο αναγκάζεται να καταφύγει σε μια έτοιμη λύση που έχει βασιστεί σε δεδομένα από πολλά διαφορετικά πιστωτικά ιδρύματα. Το μεγάλο μειονέκτημα σε αυτή την περίπτωση είναι ότι τα δεδομένα με βάση τα οποία χτίστηκε το μοντέλο μπορεί να αποκλίνουν σημαντικά από το προφίλ του πιστωτικού ιδρύματος με συνέπεια να έχουμε μειωμένη αποτελεσματικότητα. Από την άλλη πλευρά η λύση αυτή έχει μειωμένο κόστος απόκτησης και χρόνο υλοποίησης, αφού είναι έτοιμη και απαιτούνται ελάχιστες προσαρμογές. Επίσης λόγω της φύσης των δεδομένων (διαθέσιμα στοιχεία από πολλές διαφορετικές πηγές και από διαφορετικά πιστωτικά ιδρύματα), το μοντέλο είναι πιο αντιπροσωπευτικό στο σύνολο του πληθυσμού που στοχεύει. Η δεύτερη προσέγγιση είναι αυτή της εσωτερικής ανάπτυξης μοντέλου προσαρμοσμένου στις ανάγκες και το προφίλ του πιστωτικού ιδρύματος με τη χρήση εσωτερικών δεδομένων (Customised model). Είναι φανερό, ότι η προσέγγιση αυτή απαιτεί μεγαλύτερο χρόνο ανάπτυξης και μεγαλύτερο κόστος υλοποίησης. Η άλλη όψη του νομίσματος είναι η μεγαλύτερη ακρίβεια που αναμένεται να προσφέρει αυτή η λύση σε ένα πιστωτικό ίδρυμα. Οι προαναφερθείσες δύο προσεγγίσεις επικεντρώνονται στο κομμάτι των δεδομένων που θα χρησιμοποιηθούν για την ανάπτυξη των μοντέλων. Σε ότι αφορά τη μεθοδολογική προσέγγιση διακρίνουμε σε δύο κύριες κατηγορίες. Την Kατηγοριοποίηση (Classification) και την Παλινδρόμηση (Regression). H Κατηγοριοποίηση ενδείκνυται για τις περιπτώσεις εκείνες που έχουμε μια ονομαστική ή κατηγορική διακριτή εξαρτημένη μεταβλητή. Ειδική περίπτωση αποτελεί η κατηγοριοποίηση μιας δίτιμης μεταβλητής (Ναι Όχι, Καλός Κακός κτλ). Όταν όμως έχουμε μια αριθμητική και συνεχή μεταβλητή, τότε ακολουθείται η προσέγγιση της παλινδρόμησης. Στην παλινδρόμηση υποθέτουμε ότι η σχέση Κατηγοριοποίηση Πελατών Λιανικής Τραπεζικής Page 6

7 μεταξύ των ανεξάρτητων μεταβλητών X i, i = 1 ως N, (όπου Ν ο αριθμός των ανεξάρτητων μεταβλητών) και της εξαρτημένης μεταβλητής Y εκφράζεται μέσω της σχέσης: Y = C 0 + C 1 X 1 + C 2 X 2 +C 3 X C N X N Οι συντελεστές C i εκτιμώνται στατιστικά. Στην παρούσα εργασία θα ασχοληθούμε με την κατηγοριοποίηση ως μεθοδολογία για την ανάπτυξη μοντέλου αξιολόγησης υφιστάμενων πελατών λιανικής τραπεζικής (behavioral retail credit risk assessment model). Στη συγκεκριμένη αξιολόγηση μεγαλύτερη βαρύτητα αποκτούν τα χαρακτηριστικά συμπεριφοράς του πελάτη κατά το διάστημα παρατήρησης, όπως η συνέπεια που παρουσιάζει στις πληρωμές, αν έχει παρουσιάσει καθυστέρηση και πόσες φορές έχει συμβεί αυτό, αν τα ποσά καθυστέρησης είναι σημαντικά, αν καλύπτει ικανοποιητικά και στους υπόλοιπους όρους της σύμβασης, αν έχει ζητήσει τροποποίηση των όρων λόγω οικονομικής αδυναμίας κ.ο.κ. Πρόκειται για ένα κλασικό προβλήματα κατηγοριοποίησης, όπου με βάση τα δεδομένα που αναφέραμε παραπάνω, ο πελάτης κατατάσσεται ως «καλός» ή «κακός» αντίστοιχα. Οι τιμές της εξαρτημένης μεταβλητής («ετικέτας») είναι δύο, συνεπώς έχουμε μια περίπτωση δίτιμης κατηγοριοποίησης. Για την ανάπτυξη του μοντέλου μας θα βασιστούμε κυρίως σε δύο αλγορίθμους επαγωγικού δέντρου απόφασης, ενώ για σκοπούς σύγκρισης θα εξετάσουμε και εναλλακτικούς αλγορίθμους κατηγοριοποίησης. Κατηγοριοποίηση Πελατών Λιανικής Τραπεζικής Page 7

8 2. ΣΧΕΤΙΚΕΣ ΕΡΕΥΝΗΤΙΚΕΣ ΕΡΓΑΣΙΕΣ Στο βιβλίο Predictive Analytics and Data Mining Concepts and Practice with Rapid Miner γίνεται ανάπτυξη μοντέλου Δέντρου Απόφασης για την κατηγοριοποίηση δανειοληπτών με βάση συμπεριφορικά και δημογραφικά χαρακτηριστικά. Πιο συγκεκριμένα, χρησιμοποιήθηκε ένα δείγμα παρατηρήσεων με 20 χαρακτηριστικά και κατηγοριοποίηση σε κακούς και καλούς πελάτες. Τα δεδομένα που χρησιμοποιήθηκαν βρίσκονται στο Πανεπιστήμιο της Καλιφόρνια (Irvine Machine Learning data repository), ενώ προέρχονται από τον καθηγητή Dr. Hans Hofmann του πανεπιστημίου του Αμβούργου. Τα κατηγορικά χαρακτηριστικά που εξετάζονται είναι περίπου ίδια με αυτά της εργασίας μας. Το ύψος και η διάρκεια του δανείου, το ιστορικό συμπεριφοράς του πελάτη στο ίδιο ή σε άλλα δάνεια στην τράπεζα, η οικογενειακή κατάσταση, το επάγγελμα και ο βαθμός εξειδίκευσης, η ηλικία, η ύπαρξη εγγυητή, τα περιουσιακά στοιχεία και η εθνικότητα του πιστούχου είναι ενδεικτικά χαρακτηριστικά που έχουν ληφθεί υπόψη. Η αναλογία καλών κακών πελατών στο δείγμα ήταν 70%-30%. Μια πολύ ενδιαφέρουσα μελέτη σύγκρισης μοντέλων κατηγοριοποίησης έγινε το 2013 υπό τον τίτλο Benchmarking state-of-the-art classification algorithms for credit scoring: A ten-year update (Stefan Lessmanna: Institute of Information Systems - University of Hamburg, Hsin-Vonn Seowb: Nottingham University Business School - University of Nottingham-Malaysia Campus, Bart Baesens: Department of Decision Sciences & Information Management - Catholic University of Leuven & School of Management - University of Southampton, Lyn C. Thomas: School of Management - University of Southampton). Σε αυτή τη μελέτη εξετάζονται πολλά εναλλακτικά μοντέλα κατηγοριοποίησης πελατών λιανικής τραπεζικής, ανάμεσα στα οποία και τα μοντέλα που εξετάσαμε στη δική μας εργασία. Η εξέταση και η σύγκριση γίνεται χρησιμοποιώντας 7 διαφορετικά δείγματα δεδομένων. Τα χαρακτηριστικά των δειγμάτων φαίνονται στον παρακάτω πίνακα Κατηγοριοποίηση Πελατών Λιανικής Τραπεζικής Page 8

9 SUMMARY OF CREDIT SCORING DATASETS DATASET CASES INDEPENDENT VARIABLES BAD RATE AC ,445 GC ,3 Bene ,667 Bene ,3 UK ,04 PAK ,261 GMC ,067 Παρατηρούμε ότι το δείγμα UK (προέρχεται από Βρετανική τράπεζα) βρίσκεται αρκετά κοντά στο δικό μας ως προς το πλήθος εγγραφών, το πλήθος ανεξάρτητων εγγραφών, αλλά και την αναλογία καλών κακών πελατών στο δείγμα. Επομένως μπορούμε να επικεντρωθούμε στα αποτελέσματα του συγκεκριμένου δείγματος. Ένα ακόμη σχετικό ερευνητικό άρθρο είναι αυτό με τίτλο An experimental comparison of classification algorithms for imbalanced credit scoring data sets. (Brown, I., & Mues, C. 2012). Στην εργασία αυτή εξετάζεται η απόδοση των μοντέλων κατηγοριοποίησης ΑΝΝ, Ν. Bayes, SVM, Rule Induction σε 30 διαφορετικά δείγματα δεδομένων, όπου ο βαθμός ανισορροπίας μεταξύ των δύο κλάσεων κυμαίνεται από 9:1 που είναι και το πλησιέστερο προς το δικό μας δείγμα δεδομένων ως 41:1, ενώ το μέγεθος των δειγμάτων κυμαίνεται από 92 ως παρατηρήσεις. Τα δεδομένα προέρχονται από το ΚΕΕL (Knowledge Extraction based on Evolutionary Learning). Ως κριτήρια απόδοσης έχουν ληφθεί η Ακρίβεια και η AUC. Στο άρθρο με τίτλο A credit scoring analysis using data mining algorithms επιχειρείται η σύγκριση κάποιων μοντέλων κατηγοριοποίησης ανάμεσα στους οποίους συμπεριλαμβάνονται και οι δύο αλγόριθμοι Δέντρου Απόφασης CART και CHAID που εξετάσαμε στη δική μας εργασία. Η σύγκρισή τους γίνεται με κριτήριο την Ακρίβεια του μοντέλου. Για τη συγκεκριμένη μελέτη χρησιμοποιήθηκε δείγμα 150 εγγραφών από τη Ρουμανία με 18 κατηγορίες χαρακτηριστικών. Η αναλογία Κατηγοριοποίηση Πελατών Λιανικής Τραπεζικής Page 9

10 καλών κακών πελατών στο δείγμα είναι 70%-30%. Κακός θεωρείται κάθε πελάτης που έχει παρουσιάσει έστω και μια φορά καθυστέρηση πληρωμής. Στο άρθρο Building Customers Credit Scoring Models with Combination of Feature Selection and Decision Tree Algorithms (Zahra Davoodabadi, Computer Eng. Department, Shahab-e-Danesh Institute of Higher Education, Qom, Iran and Ali Moeini, Department of Algorithms and Computations, University of Tehran, Tehran, Iran) γίνεται εξέταση εναλλακτικών μοντέλων Δέντρου Απόφασης (ID3, C4.5 και CART) με χρήση του Gain Ratio. Ως κριτήριο απόδοσης εξετάζονται η Ακρίβεια του Μοντέλου και η AUC. Στην έρευνα αυτή χρησιμοποιήθηκαν 3 δείγματα δεδομένων. Ένα από τη Γερμανική αγορά, εγγραφών με αναλογία καλών κακών 70%- 30% και 21 κατηγορίες χαρακτηριστικών, ένα από την αγορά της Αυστραλίας με πλήθος 690, 307 καλούς και 383 κακούς πελάτες και 15 κατηγορίες χαρακτηριστικών και το τρίτο δείγμα από την αγορά Leasing του Ιράν, με εγγραφές, καλούς και κακούς πελάτες. Κατηγοριοποίηση Πελατών Λιανικής Τραπεζικής Page 10

11 3. ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ 2.1 ΟΡΙΣΜΟΣ ΚΑΙ ΒΑΣΙΚΕΣ ΈΝΝΟΙ ΕΣ Η Κατηγοριοποίηση είναι μια διαδικασία κατάταξης αντικειμένων σε μια από τις προκαθορισμένες κατηγορίες. Τα δεδομένα εισόδου για την κατηγοριοποίηση είναι εγγραφές δεδομένων. Κάθε εγγραφή, που επίσης ονομάζεται στιγμιότυπο ή δείγμα χαρακτηρίζεται από μια πλειάδα (x,y), όπου x είναι το σύνολο των χαρακτηριστικών και y είναι ένα ειδικό χαρακτηριστικό, το οποίο ορίζεται ως ετικέτα της κατηγορίας ( επίσης ονομάζεται κατηγορία ή χαρακτηριστικό-στόχος). Είσοδος: Σύνολο χαρακτηριστικών (x) Μοντέλο Καητηγοριοποίησης Έξοδος: Ετικέτα Κατηγορίας (y) Η Κατηγοριοποίηση ορίζεται ως η διαδικασία εκμάθησης μιας συνάρτησηςστόχου (target function) f, η οποία απεικονίζει κάθε σύνολο χαρακτηριστικών x σε μία από τις προκαθορισμένες ετικέτες κατηγορίας y. Η συνάρτηση-στόχος ονομάζεται και μοντέλο κατηγοριοποίησης (Classification model). Ένα μοντέλο κατηγοριοποίησης μπορεί να χρησιμοποιηθεί είτε για Περιγραφική μοντελοποίηση, όπου το μοντέλο χρησιμοποιείται ως ένα επεξηγηματικό εργαλείο για τη διάκριση των αντικειμένων διαφορετικών κατηγοριών, είτε για Προβλεπτική μοντελοποίηση, όπου το μοντέλο χρησιμοποιείται για να προβλέψει την ετικέτα κατηγορίας μη γνωστών εγγραφών. Μια τεχνική κατηγοριοποίησης, είναι μια συστηματική προσέγγιση για τη δημιουργία μοντέλων κατηγοριοποίησης από ένα σύνολο δεδομένων εισόδου. Κάθε τεχνική χρησιμοποιεί έναν αλγόριθμο μάθησης (learning algorithm), προκειμένου να καταλήξει στο μοντέλο που ταιριάζει καλύτερα στη σχέση μεταξύ των χαρακτηριστικών και της ετικέτας των εγγραφών του συνόλου εισόδου. Το μοντέλο που παράγεται από τον αλγόριθμο μάθησης, θα πρέπει να αποδίδει εξίσου καλά Κατηγοριοποίηση Πελατών Λιανικής Τραπεζικής Page 11

12 τόσο στο σύνολο των δεδομένων εισόδου, όσο και σε άλλες άγνωστες εγγραφές στις οποίες θα πρέπει να προβλέπει με επιτυχία την ετικέτα κατηγορίας. Το σύνολο δεδομένων που χρησιμοποιείται για την ανάπτυξη του μοντέλου, ονομάζεται σύνολο εκπαίδευσης (training set). To μοντέλο αξιολογείται ως προς την αξιοπιστία και αποτελεσματικότητα των προβλέψεών του σε ένα σύνολο αγνώστων εγγραφών, το σύνολο ελέγχου (test set). Στην παρούσα εργασία θα εξετάσουμε τα σημαντικότερα μοντέλα κατηγοριοποίησης, όπως του Δέντρου Απόφασης, τον Κατηγοριοποιητή βάσει Κανόνων, τον Κατηγοριοποιητή του Πλησιέστερου Γείτονα, τον απλό Κατηγοριοποιητή Bayes, τα Νευρωνικά Δίκτυα και τις Μηχανές Διανυσμάτων Υποστήριξης. Επίσης θα εξετάσουμε κάποιες προηγμένες μεθοδολογικές προσεγγίσεις, όπως το μοντέλο Deep Learning και τα μοντέλα Ομάδων Κατηγοριοποιητών. Μοντέλο βάσης στην εργασία μας θα αποτελέσει αυτό του Δέντρου Απόφασης το οποίο και παρουσιάζεται στην επόμενη ενότητα. 2.2 Δ ΕΝΤΡΟ ΑΠΟΦΑΣΗΣ - ΠΛ ΕΟΝΕΚΤΗΜΑΤΑ Η Κατηγοριοποίηση Δέντρου Απόφασης παρουσιάζει αρκετά πλεονεκτήματα. Το μοντέλο αυτό έχει απλή δομή και φιλoσοφία, γεγονός που το καθιστά πολύ ευκολονόητα ακόμη και για ανθρώπους που δεν έχουν ιδιαίτερες επιστημονικές γνώσεις στο στατιστικό τομέα. Επίσης υπάρχουν πολύ μικρότερες απαιτήσεις σε ό,τι αφορά την επεξεργασία και την προετοιμασία των δεδομένων. Αν για παράδειγμα τα δεδομένα μας αποτελούνται από ετερογενείς μεταβλητές σε κλίμακα εύρους τιμών (π.χ. εισοδήματα σε χιλιάδες ή εκατομμύρια νομισματικές μονάδες, ηλικίες σε έτη κ.ο.κ.) τότε πολλοί αλγόριθμοι για να λειτουργήσουν σωστά χρειάζονται κανoνικοποίηση. Αυτό δε συμβαίνει για τον αλγόριθμο Δέντρου Απόφασης, αφού η δομή του δέντρου με τις διακλαδώσεις δεν απαιτεί κανενός τύπου μετασχηματισμό των δεδομένων. Ένα τρίτο πλεονέκτημα του Δέντρου Απόφασης είναι ότι δεν επηρεάζεται από προβλήματα ποιότητας δεδομένων, όπως η έλλειψη τιμών δεδομένων ή οι ακραίες τιμές. Κατηγοριοποίηση Πελατών Λιανικής Τραπεζικής Page 12

13 Το πιο σημαντικό όμως πλεονέκτημα του Δέντρου Απόφασης απέναντι κυρίως στην παλινδρόμηση, είναι η μεγαλύτερη απόδοσή του και προσαρμογή του σε μη γραμμικές σχέσεις. Μια βασική υπόθεση της παλινδρόμησης είναι η ύπαρξη γραμμικού τύπου σχέσης μεταξύ των ανεξάρτητων και της εξαρτημένης μεταβλητής. Όταν στην πραγματικότητα οι σχέσεις μεταξύ των μεταβλητών διαφέρουν πολύ από το να είναι γραμμικές, η γραμμική παλινδρόμηση παρουσιάζει πρόβλημα. Αυτό δε συμβαίνει όμως με το Δέντρο Απόφασης που ως μη παραμετρικό δεν προϋποθέτει κάποιο τύπο σχέσης μεταξύ των μεταβλητών. Στην περίπτωση δίτιμης εξαρτημένης μεταβλητής χρησιμοποιείται κυρίως το υπόδειγμα της Λογαριθμικής (Logistic) Παλινδρόμησης Ενα επίσης πολύ σημαντικό πλεονέκτημα είναι ότι με το Δέντρο Απόφασης δε χρειάζεται να ακολουθήσουμε σαν προεργασία τη μείωση των διαστάσεων με την επιλογή των πιο σημαντικών ανεξάρτητων μεταβλητών που επηρεάζουν περισσότερο το μοντέλο (feature selection). To βήμα αυτό κρίνεται απαραίτητο στην παλινδρόμηση, προκειμένου να αντιμετωπιστούν προβλήματα πολυσυγγραμμικότητας (multicollinearity), όταν δηλαδή έχουμε ισχυρές συσχετίσεις μεταξύ κάποιων ανεξάρτητων μεταβλητών. Η πολυσυγγραμμικότητα αντιμετωπίζεται με διάφορες τεχνικές, με σημαντικότερη την Ανάλυση Κύριων Συνιστωσών (Principal Component Analysis). Με το Δέντρο Απόφασης, το ζήτημα αυτό αντιμετωπίζεται ενδογενώς, αφού ο αλγόριθμος με τον τρόπο που λειτουργεί επιλέγει τις πιο σημαντικές ανεξάρτητες μεταβλητές σαν κόμβους. 2.3 Δ ΕΝΤΡΟ ΑΠΟΦΑΣΗΣ - ΜΕΙΟΝΕΚΤΗΜΑΤΑ ΤΟ ΠΡΟΒΛΗΜΑ ΤΗΣ ΥΠΕΡΠΡΟΣΑΡΜΟΓΗΣ (OVERFITTING) Ο αλγόριθμος Δέντρου Απόφασης παρουσιάζει ένα μοναδικό αλλά σημαντικό μειονέκτημα. Είναι επιρρεπής στο φαινόμενο της Υπερπροσαρμογής στα δεδομένα του δείγματος (Overfitting). Το πρόβλημα αυτό εμφανίζεται όταν έχουμε ένα μοντέλο που ενώ παρουσιάζει πολύ μεγάλη απόδοση στα δεδομένα που χρησιμοποιήσαμε για να το αναπτύξουμε, η προβλεπτική του ικανότητα είναι πολύ Κατηγοριοποίηση Πελατών Λιανικής Τραπεζικής Page 13

14 φτωχή σε άγνωστα δεδομένα, παρουσιάζει όπως λέγεται υψηλό σφάλμα γενίκευσης. Υπάρχουν πολλοί λόγοι που μπορεί να οδηγήσουν στο συγκεκριμένο πρόβλημα. Ένας από αυτούς μπορεί να είναι η χρησιμοποίηση μικρού δείγματος για την ανάπτυξη του μοντέλου, γεγονός που μπορεί να οδηγήσει σε εκτιμήσεις με υψηλή διακύμανση και συνεπώς μεγάλο περιθώριο σφάλματος. Όταν το δείγμα μας είναι ανεπαρκές σε μέγεθος, τότε είναι πολύ πιθανό κάποιες περιπτώσεις κατηγοριοποίησης να υποαντιπροσωπεύονται και επομένως μπορεί να οδηγηθούμε σε λάθος συμπεράσματα κατηγοριοποίησης. Ένας δεύτερος λόγος Υπερπροσαρμογής είναι η παρουσία θορύβου στο δείγμα ανάπτυξης του μοντέλου. Αν στα δεδομένα που χρησιμοποιούμε για να χτίσουμε το μοντέλο μας συμπεριλαμβάνονται κάποιες εγγραφές με λανθασμένη ετικέτα, τότε θα οδηγηθούμε σε λάθος εφαρμογή κριτηρίων και λανθασμένες εκτιμήσεις. Ο κυριότερος ίσως λόγος εμφάνισης της Υπερπροσαρμογής σχετίζεται με την πολυπλοκότητα του μοντέλου. Όσο αυξάνεται η πολυπλοκότητα και το δέντρο αποκτά περισσότερες διακλαδώσεις και κόμβους, τόσο αυξάνεται και η πιθανότητα κάποιος κόμβος να επιλεγεί τυχαία χωρίς στην πραγματικότητα να συνεισφέρει στην προβλεπτική ικανότητα του μοντέλου. Επομένως θα πρέπει κάθε φορά να αποφασίζουμε το βαθμό πολυπλοκότητας του Δέντρου Απόφασης ΑΝΤΙΜΕΤΩΠΙΣΗ ΤΗΣ ΥΠΕΡΠΡΟΣΑΡΜΟΓΗΣ ΚΡΙΤΗΡ ΙΑ ΣΦΑΛΜΑ ΓΕΝΙΚΕΥΣΗΣ ΚΑΙ Η ΕΚΤΙΜΗΣΗ ΤΟΥ Ένας απλός τρόπος για να αποφασίσουμε ποια είναι η ιδανική πολυπλοκότητα του μοντέλου είναι να θεωρήσουμε ότι το σφάλμα που παρουσιάζεται στο δείγμα ανάπτυξης του μοντέλου, το σφάλμα εκπαίδευσης, αποτελεί μια πολύ καλή εκτίμηση για το σφάλμα γενίκευσης. Επομένως θα καταλήξουμε στην επιλογή του Δέντρου εκείνου που ελαχιστοποιεί το σφάλμα εκπαίδευσης. Η επιλογή αυτή κρίνεται πού ριψοκίνδυνη γιατί συχνά το σφάλμα εκπαίδευσης αποτελεί πολύ φτωχή εκτίμηση για το σφάλμα γενίκευσης. Κατηγοριοποίηση Πελατών Λιανικής Τραπεζικής Page 14

15 Ένας δεύτερος τρόπος για να αποφασίσουμε την ιδανική πολυπλοκότητα είναι η Πεσιμιστική Εκτίμηση Σφάλματος (Pessimistic Error Estimation). Με αυτή την προσέγγιση θεωρούμε ότι το σφάλμα γενίκευσης προσδιορίζεται από το σφάλμα εκπαίδευσης προσαυξημένο κατά ένα όρο που λειτουργεί ως ποινή για την πολυπλοκότητα του μοντέλου. Έτσι, όσο πιο μεγάλη είναι η τιμή του όρου αυτού, τόσο πιο δύσκολη θα γίνεται η επέκταση του Δέντρου. Η πεσιμιστική εκτίμηση σφάλματος μπορεί να υπολογισθεί με τον παρακάτω τύπο: Όπου Τ το Δέντρο Απόφασης, k το πλήθος των κόμβων φύλλων, e( ) το σφάλμα εκπαίδευσης, Ν t το πλήθος των εγγραφών του δείγματος, n(t i ), το πλήθος εγγραφών που κατηγοριοποιούνται στον κόμβο t i και V ο συντελεστής ποινής. Μπορούμε να καταλάβουμε καλύτερα τη λειτουργία της Πεσιμιστικής Εκτίμησης Σφάλματος με το παρακάτω παράδειγμα. Έστω ότι έχουμε τα δύο δυαδικά δέντρα που απεικονίζονται στα παρακάτω σχήματα. Τα δύο δέντρα έχουν προκύψει από ένα δείγμα δεδομένων με 24 εγγραφές. Αν θεωρήσουμε ότι η ετικέτα που παίρνει κάθε κόμβος φύλλο καθορίζεται από την πλειοψηφία των τιμών του, τότε εφαρμόζοντας τον παραπάνω τύπο για V(t i ) = 0.5 έχουμε ότι: Βλέπουμε ότι με συντελεστή ποινής 0.5 το Δ 2 δέντρο με τη μεγαλύτερη ανάπτυξη έχει μικρότερο σφάλμα και θα είναι η επιλογή μας. Με τη συγκεκριμένη τιμή του συντελεστή γίνεται αντιληπτό, ότι για να προχωρήσουμε στην επέκταση ενός κόμβου στα 2 παιδιά του, θα πρέπει να υπάρχει βελτίωση στην κατηγοριοποίηση τουλάχιστον μιας εγγραφής. Αυτό προκύπτει γιατί η επέκταση κατά ένα κόμβο θα επιφέρει επιβάρυνση ποινής 0.5, η οποία είναι μικρότερη από τη μία μονάδα Κατηγοριοποίηση Πελατών Λιανικής Τραπεζικής Page 15

16 μείωσης του σφάλματος. Αν τώρα αυξήσουμε το συντελεστή σε 1, τότε οι αντίστοιχες τιμές που παίρνουμε είναι ε(δ 1 ) = και ε(δ 2 ) = Συνεπώς θα επιλέξουμε το Δ 2 αυτή τη φορά. Με συντελεστή ποινής 1 παρατηρούμε ότι για να προχωρήσουμε στην επέκταση ενός κόμβου, θα πρέπει να υπάρχει βελτίωση σε 2 εγγραφές. Κατηγοριοποίηση Πελατών Λιανικής Τραπεζικής Page 16

17 ΔΕΝΤΡΟ 1 ΔΕΝΤΡΟ 2 + : + : + : + : + : + : + : + : + : + : + : Το σφάλμα γενίκευσης μπορεί επίσης να εκτιμηθεί, ως μια στατιστική διόρθωση του σφάλματος εκπαίδευσης. Από τη στιγμή που το σφάλμα γενίκευσης τείνει να είναι μεγαλύτερο από το σφάλμα εκπαίδευσης, μπορούμε να εκτιμήσουμε το πρώτο ως ένα άνω όριο του τελευταίου. Αν θεωρήσουμε ότι το πλήθος των σφαλμάτων σε κάθε κόμβο φύλλο ακολουθεί τη διωνυμική κατανομή, τότε μπορούμε να υπολογίσουμε το όριο αυτό προσεγγίζοντας τη διωνυμική κατανομή με την κανονική κατανομή και θέτοντας ένα επίπεδο εμπιστοσύνης α ως εξής: Όπου z α/2 η κρίσιμη τιμή τυποποιημένης κανονικής κατανομής με επίπεδο εμπιστοσύνης α και Ν το συνολικό πλήθος των εγγραφών που χρησιμοποιούνται για να υπολογιστεί το σφάλμα εκπαίδευσης e. Οπότε αν επιστρέψουμε στο προηγούμενο παράδειγμα και εξετάσουμε το δεξιότερο εσωτερικό κόμβο, βλέπουμε ότι πριν το διαχωρισμό έχουμε βαθμό σφάλματος για τον κόμβο 3/9 = Εφαρμόζοντας τον παραπάνω τύπο για τον κόμβο αυτό με επίπεδο εμπιστοσύνης 95% έχουμε Κατηγοριοποίηση Πελατών Λιανικής Τραπεζικής Page 17

18 Ο τύπος μας δίνει που αντιστοιχεί σε ένα πλήθος 9* = σφάλματα. Αν επεκτείνουμε τον κόμβο στα 2 παιδιά του, τότε έχουμε βαθμούς σφάλματος στους δύο δεξιότερους κόμβους φύλλα 1/4 = 0.25 και 0/5 = 0 αντίστοιχα. Χρησιμοποιώντας την εξίσωση βρίσκουμε τα δύο άνω όρια e upper (4, 0.25, 0.95) = 0.699, e upper (5, 0, 0.95)= Συνεπώς έχουμε 4* * = 4.97 σφάλματα. Το νούμερο αυτό είναι μικρότερο από το αντίστοιχο του κόμβου πατέρα συνεπώς η επέκταση βελτιώνει το μοντέλο. ΔΙΑΧΕΙΡ ΙΣΗ Τ ΗΣ ΥΠΕΡ ΠΡ ΟΣΑΡΜΟΓΗΣ ΣΤΟ ΔΕΝΤΡΟ Α ΠΟΦΑΣΗΣ Με κριτήριο την εκτίμηση του σφάλματος γενίκευσης που μπορεί να γίνει με τις μεθόδους που είδαμε παραπάνω, μπορούμε να αντιμετωπίσουμε το πρόβλημα της υπερπροσαρμογής είτε με εκ των προτέρων είτε με εκ των υστέρων κλάδεμα του δέντρου. Στο κλάδεμα εκ των προτέρων ο αλγόριθμος εξετάζει σε κάθε βήμα ένα από τα παραπάνω κριτήρια και προχωράει σε επέκταση όσο παρατηρείται βελτίωση. Ο αλγόριθμος σταματάει να καμία επέκταση δεν επιφέρει περαιτέρω βελτίωση μείωση του σφάλματος γενίκευσης. Το θετικό στοιχείο της προσέγγισης αυτής είναι ότι αποφεύγεται η ανάπτυξη υπερβολικά πολύπλοκων δέντρων τα οποία υπερπροσαρμόζονται στο δείγμα εκπαίδευσης. Ωστόσο η δυσκολία έγκειται στην επιλογή των κατάλληλων παραμέτρων έτσι ώστε να μην έχω ούτε ένα υπερβολικά απλό δέντρο που θα υποαποδίδει αλλά ούτε και ένα εξαιρετικά πολύπλοκο που θα παρουσιάζει το πρόβλημα της υπερπροσαρμογής. Με το εκ των υστέρων κλάδεμα, το δέντρο αρχικά αναπτύσσεται πλήρως και στη συνέχεια ακολουθεί η διαδικασία κλαδέματος, ξεκινώντας από κάτω προς τα πάνω. Με αυτή την προσέγγιση πηγαίνουμε ανάποδα και εξετάζουμε την αντικατάσταση ενός υποδέντρου με ένα κόμβο φύλλο του οποίου η ετικέτα θα καθοριστεί από την πλειοψηφούσα τιμή ή από το πιο χρησιμοποιούμενο παρακλάδι του δέντρου. Η Κατηγοριοποίηση Πελατών Λιανικής Τραπεζικής Page 18

19 διαδικασία συνεχίζεται έως ότου σταματάει να παρατηρείται βελτίωση στο σφάλμα γενίκευσης. Το εκ των υστέρων κλάδεμα δίνει καλύτερα αποτελέσματα σε γενικές γραμμές, έχει ωστόσο μεγαλύτερο υπολογιστικό κόστος και είναι πιο χρονοβόρο, δεδομένου ότι πρώτα υπολογίζεται όλο το δέντρο και μετά κλαδεύεται. 2.3 ΒΑΘΙΑ MΗΧΑΝΙΚΗ ΕΚΜΑΘΗΣΗ (DEEP LEARNING) Η Βαθιά Μηχανική Εκμάθηση (Deep Learning) αποτελεί μία πολύ σημαντική εξέλιξη στις σύγχρονες μεθοδολογικές προσεγγίσεις μοντέλων πρόβλεψης. Έρχεται σαν συνέχεια της προόδου στα Νευρωνικά Δίκτυα, μια νέα προσέγγιση στο χώρο της Τεχνητής Νοημοσύνης και της μηχανικής εκμάθησης (Machine Learning). Είναι ένας τύπος τεχνητής νοημοσύνης που επιτρέπει στις μηχανές να μαθαίνουν και να βελτιώνουν την αποτελεσματικότητά τους με την εμπειρία και την προοδευτική χρήση των δεδομένων. Η Μηχανική Εκμάθηση δίνει τη δυνατότητα αναπαράστασης μιας σύνθετης και αρκετά πολύπλοκης πραγματικότητας ως μιας σειράς απλούστερων και ιεραρχημένων εννοιών που είναι ένθετες σε ακόμη απλούστερες έννοιες, έτσι ώστε μια αφηρημένη δομή προσεγγίζεται σταδιακά από άλλες λιγότερο αφηρημένες δομές (δίκτυο υποδίκτυα). Με αυτή την προσέγγιση λύνεται το σημαντικότερο πρόβλημα που αντιμετωπίζουμε με τα Τεχνητά Νευρωνικά Δίκτυα, την έλλειψη γνώσης για τον τρόπο και τους μηχανισμούς μέσα από τους οποίους φτάνουμε σε ένα αποτέλεσμα. Με τη Βαθιά Μηχανική Εκμάθηση, σταματούν πλέον τα ενδιάμεσα βήματα να αποτελούν «μαύρο κουτί». Ένα τεχνητό νευρωνικό δίκτυο πολλών επιπέδων και εμπρόσθιας τροφοδοσίας (feedforward multilayer perceptron, MLP),αποτελεί χαρακτηριστικό παράδειγμα της βαθιάς μηχανικής εκμάθησης. Το συγκεκριμένο μοντέλο αποτελεί μια μαθηματική συνάρτηση φ που απεικονίζει τις τιμές εισόδου στην έξοδο. Η συγκεκριμένη συνάρτηση μπορεί να αναπαραστεί ως σύνθεση των συναρτήσεων f, z,q, όπου κάθε συνάρτηση αντιστοιχεί σε ένα κρυφό ενδιάμεσο επίπεδο. Έτσι έχουμε την αρχική συνάρτηση ενεργοποίησης φ(x) = f(z(q(x))), όπου x ένα σετ τιμών εισόδου. Υπάρχουν δύο προσεγγίσεις για την έννοια του βάθους. Η πρώτη εκφράζεται ως το μήκος του μεγαλύτερου μονοπατιού που οδηγεί στη λύση, δηλαδή μία τιμή εισόδου στη σωστή τιμή εξόδου. Η δεύτερη προσέγγιση που ακολουθείται από πολλά πιθανοθεωρητικά μοντέλα, εξετάζει το βάθος από ένα άλλο πρίσμα. Δε θεωρεί βάθος το μήκος του μονοπατιού προς τη λύση, αλλά το μήκος του Κατηγοριοποίηση Πελατών Λιανικής Τραπεζικής Page 19

20 γραφήματος που περιγράφει το πως σχετίζονται οι ενδιάμεσες προσεγγίσεις (έννοιες /αναπαραστάσεις) μεταξύ τους. Αυτό το βάθος μπορεί να ξεπερνάει κατά πολύ το μονοπάτι της λύσης γιατί περιλαμβάνει όλες τις αλληλεπιδράσεις μεταξύ των ενδιάμεσων βημάτων μέχρι να καταλήξουμε στο αποτέλεσμα της εξόδου. Ανεξάρτητα πάντως από τη θεώρηση του βάθους, η βαθιά μηχανική εκμάθηση θεωρείται ότι καταπιάνεται με μοντέλα και αρχιτεκτονικές που εμπεριέχουν περισσότερα ενδιάμεσα επίπεδα και έννοιες από τα μοντέλα της παραδοσιακής μηχανικής εκμάθησης. Στην παρούσα εργασία θα εξετάσουμε και το μοντέλο Βαθιάς Μηχανικής Εκμάθησης στην ενότητα των Τεχνητών Νευρωνικών Δικτύων 2.4 ΜΕΘΟΔΟΙ ΟΜΑΔΩΝ (ENSEMBLE METHODS) ΓΕΝΙΚΑ ΣΤΟΙΧΕΙΑ ΕΙΣΑΓΩΓΗ ΣΤΗ ΜΕΘ ΟΔΟ ΟΜΑΔΩΝ Tα τελευταία χρόνια έχουν αναπτυχθεί κάποιες τεχνικές βελτίωσης της ορθότητας της κατηγοριοποίησης, με συνδυασμό των προβλέψεων πολλών κατηγοριοποιητών. Αυτές οι τεχνικές είναι γνωστές ως μέθοδοι Ομάδων ή μέθοδοι Συνδυασμού Κατηγοριοποιητών (Classifier Combination methods). Μία μέθοδος ομάδας κατασκευάζει ένα σύνολο βασικών κατηγοριοποιητών από τα δεδομένα εκπαίδευσης και κατηγοριοποιεί το δείγμα ελέγχου δίνοντας μία «ψήφο» στην πρόβλεψη κάθε κατηγοριοποιητή. Συνεπώς ως κλάση επιλέγεται η τιμή με τις περισσότερες ψήφους από τους κατηγοριοποιητές που έχουν χρησιμοποιηθεί στην ομάδα. Οι μέθοδοι ομάδας τείνουν να αποδίδουν καλύτερα από κάθε απλό κατηγοριοποιητή. Αν υποθέσουμε ότι έχουμε 25 δυαδικούς κατηγοριοποιητές με βαθμό σφάλματος ε = 0.35 ο καθένας. Η ομάδα αυτών των κατηγοριοποιητών προβλέπει την κλάση ενός δείγματος ελέγχου, λαμβάνοντας υπόψη την πλειοψηφία των προβλέψεων των βασικών κατηγοριοποιητών. Αν οι βασικοί κατηγοριοποιητές είναι όλοι ίδιοι, τότε θα έχουν ακριβώς την ίδια πρόβλεψη και συνεπώς ο βαθμός σφάλματος θα παραμείνει Αν όμως έχουμε διαφορετικούς κατηγοριοποιητές, ανεξάρτητους μεταξύ τους, δηλαδή τα σφάλματά τους δεν είναι συσχετιζόμενα, τότε η ομάδα θα κάνει λάθος πρόβλεψη μόνο αν η πλειοψηφία των Κατηγοριοποίηση Πελατών Λιανικής Τραπεζικής Page 20

21 κατηγοριοποιητών δώσει λάθος πρόβλεψη. Σε αυτή την περίπτωση ο αναμενόμενος βαθμός σφάλματος δίνεται από την παρακάτω σχέση = 0.06 Βλέπουμε ότι το αποτέλεσμα της ομάδας κατηγοριοποιητών αναμένεται πολύ καλύτερο από αυτό των βασικών κατηγοριοποιητών. Υπάρχουν όμως δύο απαραίτητες προϋποθέσεις για να ισχύει αυτή η συνθήκη. Η μία υπόθεση αναφέρθηκε και έχει να κάνει με την ανεξαρτησία των βασικών κατηγοριοποιητών. Η δεύτερη υπόθεση είναι ότι οι βασικοί κατηγοριοποιητές αποδίδουν καλύτερα από την τυχαία πρόβλεψη, δηλαδή πρέπει ε<0.5. Στην πράξη είναι δύσκολο να εξασφαλιστεί πλήρης ανεξαρτησία μεταξύ των βασικών κατηγοριοποιητών, αλλά έχει διαπιστωθεί ότι η βελτίωση με την μέθοδο ομάδας επιτυγχάνεται και στην περίπτωση ύπαρξης μικρών συσχετίσεων μεταξύ των βασικών κατηγοριοποιητών ΜΕΘΟΔΟΙ ΔΗΜΙΟΥΡΓΙΑΣ ΟΜΑΔΑΣ ΚΑΤΗΓΟΡΙΟΠΟΙΗΤΩΝ Μια ομάδα κατηγοριοποιητών κατασκευάζεται με πολλούς τρόπους. Πρώτη μπορούμε να αναφέρουμε αυτή με Διαχείριση του συνόλου εκπαίδευσης. Mε αυτή την προσέγγιση δημιουργούνται πολλαπλά σύνολα εκπαίδευσης με επαναδειγματοληψία των αρχικών δεδομένων, σύμφωνα με μια κατανομή δειγματοληψίας. Η κατανομή δειγματοληψίας καθορίζει την πιθανότητα ενός δείγματος να επιλεγεί για εκπαίδευση. Στη συνέχεια χρησιμοποιείται ένας βασικός κατηγοριοποιητής ανά δείγμα εκπαίδευσης. Δύο μέθοδοι που ανήκουν σ αυτή την κατηγορία είναι η Εμφωλίαση (Bagging) και η Ενίσχυση (Boosting). Σε αυτές τις μεθόδους θα εστιαστεί και η προσοχή μας στην παρούσα εργασία. Μία δεύτερη προσέγγιση είναι αυτή της Διαχείρισης των Γνωρισμάτων Εισόδου. Σε αυτή την προσέγγιση επιλέγεται ένα υποσύνολο των χαρακτηριστικών εισόδου για να σχηματίσει το κάθε σύνολο εκπαίδευσης. Το υποσύνολο μπορεί να επιλεγεί είτε τυχαία είτε κατόπιν υπόδειξης ειδικών που γνωρίζουν πολύ καλά τα πεδία. Η συγκεκριμένη προσέγγιση είναι κατάλληλη για τις περιπτώσεις όπου υπάρχουν περισσότερα γνωρίσματα από όσα χρειαζόμαστε στο σύνολο δεδομένων. Κατηγοριοποίηση Πελατών Λιανικής Τραπεζικής Page 21

22 Το Τυχαίο Δάσος (Random Forest) είναι μια χαρακτηριστική μέθοδος ομάδας αυτής της κατηγορίας. Τρίτη προσέγγιση αποτελεί η Διαχείριση Ετικετών Κατηγορίας. Mε τη συγκεκριμένη προσέγγιση - όταν έχουμε ένα πρόβλημα με μεγάλο πλήθος ετικετών κατηγορίας - το μετασχηματίζουμε σε ένα πρόβλημα δυαδικής κατηγοριοποίησης διαχωρίζοντας τις ετικέτες με τυχαίο τρόπο σε δύο υποσύνολα Α 0 και Α 1. Οι εγγραφές του συνόλου εκπαίδευσης που ανήκουν στο υποσύνολο Α 0 κατατάσσονται στην κατηγορία 0, ενώ οι εγγραφές του υποσυνόλου Α 1 στην κατηγορία 1 αντίστοιχα. Με αυτό τον τρόπο έχουμε δημιουργήσει δύο νέες ετικέτες, οι οποίες χρησιμοποιούνται για την εκπαίδευση ενός βασικού κατηγοριοποιητή. Επαναλαμβάνοντας πολλές φορές τα παραπάνω βήματα εκπαιδεύουμε αντίστοιχα το σύνολο βασικών κατηγοριοποιητών της ομάδας. Στη συνέχεια, χρησιμοποιούμε ένα δείγμα ελέγχου και δίνουμε μία ψήφο στην πρόβλεψη κάθε βασικού κατηγοριοποιητή. Αν η κατηγορία 0 έχει την πλειοψηφία, τότε κάθε ετικέτα που ανήκει στην κατηγορία 0 παίρνει μία ψήφο. Στο τέλος, η ετικέτα με τις περισσότερες ψήφους θα εκληφθεί ως η ετικέτα πρόβλεψης της συγκεκριμένης εγγραφής. Ενδεικτικά αναφέρουμε ως παράδειγμα αυτής της μεθόδου, αυτή της Κωδικοποίησης Διόρθωσης Σφαλμάτων Εξόδου. Τέταρτη προσέγγιση είναι αυτή της Διαχείρισης του αλγορίθμου εκπαίδευσης. Υπάρχουν κάποιοι αλγόριθμοι που αν χρησιμοποιηθούν με τον κατάλληλο τρόπο πολλές φορές στο ίδιο σύνολο δεδομένων εκπαίδευσης, μπορούν να δώσουν διαφορετικά μοντέλα. Ένας τέτοιος για παράδειγμα είναι ο κατηγοριοποιητής με Νευρωνικά Δίκτυα, αλλάζοντας την τοπολογία του ή τα αρχικά βάρη των συνδέσμων μεταξύ των νευρώνων. Η κατηγοριοποίηση ενός δείγματος ελέγχου επιτυγχάνεται συνδυάζοντας τις προβλέψεις των βασικών κατηγοριοποιητών της ομάδας. Αυτό μπορεί να γίνει είτε λαμβάνοντας σαν επικρατούσα ετικέτα αυτή με την πλειοψηφία των ψήφων όπως έχουμε ήδη αναφέρει, είτε σταθμίζοντας κάθε ψήφο με την ακρίβεια του βασικού κατηγοριοποιητή. Κατηγοριοποίηση Πελατών Λιανικής Τραπεζικής Page 22

23 4. ΑΛΓΟΡΙΘΜΟΙ ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗΣ 4.1 ΕΠΑΓΩΓΙΚΟ ΔΕΝΤΡΟ ΑΠΟΦΑΣΕΩΝ (DECIS ION TR EES) ΓΕΝΙΚΑ Ο Κατηγοριοποιητής Δέντρου Απόφασης είναι μια απλή, δυναμική και ευρέως χρησιμοποιούμενη τεχνική κατηγοριοποίησης. Ένα πρόβλημα κστηγοριοποίησης μπορεί να λυθεί με την υποβολή προσεχτικά σχεδιασμένων ερωτήσεων που σχετίζονται με τα χαρακτηριστικά των εγγραφών ελέγχου. Κάθε ερώτημα αποτελεί μια συνθήκη ελέγχου που οδηγεί τη διάσπαση του συνόλου δεδομένων σε υποσύνολα. Η κάθε απάντηση που λαμβάνουμε, οδηγεί στη διατύπωση της επόμενης ερώτησης και αυτή η διαδικασία επαναλαμβάνεται μέχρι να καταλήξουμε στην κατάταξη της εγγραφής στη μία από τις δύο ετικέτες κατηγορίας. Η σειρά των ερωτήσεων και οι συναφείς απαντήσεις, μπορούν να αποτυπωθούν στη μορφή ενός δέντρου απόφασης, μιας ιεραρχικής δομής που αποτελείται από κόμβους και κατευθυνόμενες ακμές. Κάθε κόμβος αντιστοιχεί σε μια ανεξάρτητη μεταβλητή των δεδομένων που θέλουμε να κατηγοριοποιήσουμε. Σε κάθε δέντρο διακρίνουμε τρεις τύπους κόμβων. Τον κόμβο ρίζα, που είναι μοναδικός για κάθε δέντρο, βρίσκεται στην κορυφή της ιεραρχίας, οπότε από αυτόν μόνο ξεκινούν και δεν καταλήγουν κατευθυνόμενες ακμές. Έχουμε επίσης τους εσωτερικούς κόμβους. Σε κάθε εσωτερικό κόμβο καταλήγει ακριβώς μία ακμή και μπορεί να ξεκινούν δύο ή περισσότερες ανάλογα με τις τιμές που λαμβάνει η μεταβλητή που αντιπροσωπεύει ο κόμβος αυτός. Τέλος έχουμε και τους τερματικούς κόμβους ή κόμβους φύλλα καθένας από τους οποίους έχει μια εισερχόμενη ακμή και καμιά εξερχόμενη. Σε κάθε κόμβο φύλλο αντιστοιχεί μια ετικέτα κατηγορίας. Κάθε εγγραφή ελέγχου κατηγοριοποιείται με απλό τρόπο μετά τη δημιουργία του δέντρου απόφασης. Για τη δημιουργία ενός δέντρου απόφασης έχουν αναπτυχθεί διάφοροι αποδοτικοί αλγόριθμοι ώστε να βρίσκουν το καταλληλότερο δέντρο απόφασης σε λογικό χρονικό διάστημα. Οι αλγόριθμοι αυτοί συνήθως χρησιμοποιούν μια άπληστη στρατηγική που στοχεύει στη βέλτιστη απόφαση με κάποια τοπικά Κατηγοριοποίηση Πελατών Λιανικής Τραπεζικής Page 23

24 κριτήρια, γεγονός που σημαίνει ότι στοχεύουν σε τοπικό βέλτιστο του προβλήματος και όχι στην καλύτερη λύση στο σύνολο του χώρου αναζήτησης Α ΛΓΟ Ρ Ι ΘΜ ΟΣ Τ ΟΥ H U NT Ένας τέτοιος αλγόριθμος είναι ο αλγόριθμος του Hunt, o οποίος αποτελεί τη βάση πολλών αλγορίθμων επαγωγής δέντρων απόφασης, όπως των ID3, C4.5 και CART. Αυτόν τον αλγόριθμο χρησιμοποιήσαμε κι εμείς για την ανάπτυξη του μοντέλου κατηγοριοποίησης. Σύμφωνα με τη φιλοσοφία του αλγορίθμου το σύνολο εκπαίδευσης διασπάται συνεχώς σε μικρότερα και πιο ομοιογενή ως προς την τιμή της εξαρτημένης μεταβλητής υποσύνολα. Μια γενική περιγραφή του αλγορίθμου ακολουθεί παρακάτω: Βήμα 1: Επιλέγουμε από το πλήθος των ανεξάρτητων μεταβλητών Χ i εκείνη που θα αποτελέσει τον κόμβο ρίζα. Η επιλογή γίνεται χρησιμοποιώντας ένα κριτήριο ομοιογένειας των δεδομένων, την Εντροπία, το οποίο υπολογίζουμε για κάθε τιμή κατηγορία των ανεξάρτητων μεταβλητών Όπου k το πλήθος των διαφορετικών τιμών της εξαρτημένης μεταβλητής Υ (στην περίπτωση της δίτιμης μεταβλητής όπως εδώ, 2), p(j t) το ποσοστό των εγγραφών της τιμής j στον κόμβο t. Όσο πιο ομοιόμορφο το υπό εξέταση υποσύνολο, τόσο μικρότερη η τιμή της Εντροπίας η οποία μηδενίζεται αν το υποσύνολο περιλαμβάνει μόνο μια τιμή της εξαρτημένης μεταβλητής. Βήμα 2: Στη συνέχεια χρησιμοποιούμε μια δεύτερη μετρική σε επίπεδο μεταβλητής, την Πληροφορία ( Information ), που δίνεται από τον τύπο Όπου Ιm η Πληροφορία για τη μεταβλητή m, l το πλήθος των τιμών-κατηγοριών κάθε μεταβλητής, ni το πλήθος εμφάνισης της τιμής i στο δείγμα πλήθους n και Entropyi η Εντροπία της τιμής i για τη μεταβλητή m. Κατηγοριοποίηση Πελατών Λιανικής Τραπεζικής Page 24

25 Βήμα 3: Υπολογίζουμε τη μετρική Kέρδος Πληροφορίας ( Information Gain ) τη διαφορά της Πληροφορίας του προηγούμενου σταδίου από το επόμενο: IGt = It It-1 Όπου IGt το Κέρδος Πληροφορίας στον κόμβο t. Επιλέγουμε ως κόμβο ρίζα τη μεταβλητή εκείνη που μεγιστοποιεί το Κέρδος Πληροφορίας. Παραθέτουμε κι ένα απλό παράδειγμα παρακάτω προκειμένου να γίνουν πιο κατανοητά τα βήματα που περιγράψαμε παραπάνω. Έστω ότι έχουμε μια δίτιμη εξαρτημένη μεταβλητή Y με τιμές (Ναι, Όχι), ένα δείγμα Z δεδομένων 15 εγγραφών με 9 τιμές του Ναι και 6 του Όχι για την Υ. Έστω επίσης ότι εξετάζουμε μια μεταβλητή Χ με τρεις τιμές κατηγορίες (α,β,γ). Έστω ότι η τιμή α εμφανίζεται 4 φορές στο δείγμα, δηλαδή n α = 4 και αντίστοιχα n β = 5 και n γ = 6. Επίσης παρουσιάζουμε τον πίνακα με την κατανομή των τιμών της Υ στα υποσύνολα Z α, Ζ β, Ζ γ (τα υποσύνολα του δείγματος όπου οι τιμές της μεταβλητής Χ είναι α, β και γ αντίστοιχα): Ναι Όχι Z α 3 1 Ζ β 2 3 Ζ γ 4 2 Υ 9 6 Με βάση τα παραπάνω βήματα θα έχουμε: Οπότε Ι 0 = = Ι Zα = 0.75* *2 = Αντίστοιχα υπολογίζουμε Ι Zβ = και Ι Zγ = και στη συνέχεια: Κατηγοριοποίηση Πελατών Λιανικής Τραπεζικής Page 25

26 I Z = (4/15)* (5/15)* (6/15)*0.918 = Τελικά IG Z,1 = I 0 - I Z = = Υπολογίζοντας τις μετρικές και για τις υπόλοιπες μεταβλητές, επιλέγουμε για κόμβο ρίζα εκείνη που μεγιστοποιεί το IG. Επαναλαμβάνουμε τα βήματα 1, 2, 3, επεκτείνοντας το δέντρο από πάνω προς τα κάτω, δημιουργώντας εσωτερικούς κόμβους, μέχρι να ολοκληρώσουμε φτάνοντας στα φύλλα ή τερματικούς κόμβους ΜΕΤΡΑ ΕΠΙΛΟΓΗΣ ΚΑΛΥΤΕΡΟΥ ΔΙΑΧΩΡΙΣΜΟΥ Υπάρχουν πολλά μέτρα που μπορούμε να χρησιμοποιήσουμε για τον καλύτερο διαχωρισμό των εγγραφών. Τα μέτρα αυτά ορίζονται σε σχέση με την κατανομή των κατηγοριών στις οποίες ανήκουν οι εγγραφές πριν και μετά το διαχωρισμό και βασίζονται στο βαθμό ομοιογένειας των κόμβων. ΕΝΤΡΟΠΙΑ Η Εντροπία δίνεται από τον παρακάτω τύπο Όπου p(j t) το ποσοστό των εγγραφών σε ένα κόμβο t που ανήκουν στην κατηγορία j. Στην περίπτωση της δίτιμης κατηγοριοποίησης όπως στην περίπτωσή μας, έχουμε j=2, οπότε έχουμε p 0 = 1-p 1 για τα ποσοστά των δύο κατηγοριών. Από τον τύπο της εντροπίας γίνεται φανερό ότι όσο πιο ανομοιογενείς οι εγγραφές σε ένα κόμβο τόσο μεγαλύτερη η τιμή της που μεγιστοποιείται για p 0 = p 1 = 0.5, οπότε έχουμε Entropy = 1 ΔΕΙΚΤΗΣ GINI Ο Δείκτης Gini δίνεται από τον τύπο Κατηγοριοποίηση Πελατών Λιανικής Τραπεζικής Page 26

27 Σ ΦΑΛΜΑ ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗΣ Παρατηρούμε ότι και τα τρία μέτρα παρουσιάζουν ίδια συμπεριφορά ως προς την ομοιογένεια με μόνη διαφορά τις μέγιστες τιμές τους. Αυτό γίνεται απολύτως κατανοητό με το ακόλουθο γράφημα που μας δείχνει και τα τρία μέτρα μαζί Γραφική Παράσταση Εντροπίας Gini C.E. 1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 0,00 0,01 0,01 0,10 0,20 0,30 0,40 0,50 0,60 0,70 0,80 0,90 0,99 1,00 1,00 Entropy Gini Classification Error ΚΕΡΔΟΣ ΠΛΗΡΟΦΟΡ ΙΑΣ (INFORMATION GAIN) Για να αξιολογηθεί η απόδοση μιας συνθήκης ελέγχου δηλαδή για να αποφασίσουμε την ανεξάρτητη μεταβλητή που θα χρησιμοποιήσουμε ως τον επόμενο κόμβο, θα πρέπει να γίνει σύγκριση του βαθμού ομοιογένειας μεταξύ των δύο κόμβων (του κόμβου γονέα με τους υποψηφίους κόμβους παιδιά). Όσο μεγαλώνει η ομοιογένεια τόσο καλύτερη θεωρείται η επιλογή. Συνεπώς ένα κριτήριο που μπορούμε να χρησιμοποιήσουμε είναι η μεγιστοποίηση της διαφοράς Κατηγοριοποίηση Πελατών Λιανικής Τραπεζικής Page 27

28 Όπου I t το μέτρο ομοιoγένειας στον κόμβο t, k το πλήθος τιμών μιας εξαρτημένης μεταβλητής, Ν(u j ) το πλήθος εγγραφών που σχετίζονται με την τιμή u j. Στην περίπτωση που το μέτρο είναι η Εντροπία, το Δ ονομάζεται Κέρδος Πληροφορίας ΑΛΓΟΡΙΘΜΟΣ ΤΟΥ CHAID Ο αλγόριθμος του CHAID είναι μία παραλλαγή του αλγορίθμου του Hunt που εξετάσαμε πριν. Η διαφοροποίησή του έγκειται στο μέτρο διαχωρισμού που χρησιμοποιεί. Αντί για το Κέρδος Πληροφορίας και την Εντροπία χρησιμοποιεί τη στατιστικό τεστ της X 2. Ένα ακόμη ιδιαίτερο χαρακτηριστικό του είναι ότι εφαρμόζεται μόνο σε ονομαστικές κατηγοριοποιήσεις. Ο όρος CHAID προέρχεται από τα αρχικά Chi squared Automatic Interactive Detection. Το στατιστικό τεστ Χ 2 χρησιμοποιείται ως μια μη παραμετρική στατιστική μεθοδολογία ελέγχου της υπόθεσης ότι η κατανομή της συχνότητας παρατήρησης μιας παραμέτρου είναι στατιστικά ίδια με τη θεωρητική της κατανομή (Χ 2 ). Επειδή αναφερόμαστε σε ονομαστικές μεταβλητές, χρησιμοποιούμε τη συχνότητα αντί της μέσης τιμής και της διασποράς. Ο αλγόριθμος ακολουθεί πολλαπλούς διαχωρισμούς του δείγματος, συνεπώς η χρήση του ενδείκνυται για πολύ μεγάλα δείγματα. Σε μικρά δείγματα, λόγω των πολλαπλών διαχωρισμών, θα καταλήξουμε πολύ γρήγορα σε κόμβους με πολύ λίγα στοιχεία, οπότε η πρόβλεψη δε θα είναι τόσο αξιόπιστη. 3.2 ΚΑΤΗΓΟΡΙΟΠΟΙΗΤΗΣ ΚΑΝΟ ΝΩΝ (RULE BASED CLASSIFIER) Ο Κατηγοριοποιητής Κανόνων χρησιμοποιεί μια συγκεκριμένη τεχνική για την κατηγοριοποίηση των εγγραφών. Καταλήγει στο αποτέλεσμα με μια σειρά κανόνων if then else. Αν υποθέσουμε ότι έχουμε ένα σύνολο κανόνων Κ = {κ 1, κ 2,...,κ ν ) όπου κ i είναι οι κανόνες κατηγοριοποίησης, τότε κάθε κανόνας μπορεί να γραφεί στη μορφή κ i : (Condition i ) y i To αριστερό μέρος του κανόνα κ i ονομάζεται προηγούμενο κανόνα ( rule antecedent ) ή συνθήκη εισόδου. H συνθήκη εισόδου μπορεί να περιλαμβάνει τη σύζευξη δύο ή περισσοτέρων ελέγχων ανεξάρτητων μεταβλητών. Κατηγοριοποίηση Πελατών Λιανικής Τραπεζικής Page 28

29 Conditioni : (X1 op u1) And (X2 op u2) And.( Xk op uk) Όπου Χi οι ανεξάρτητες μταβλητές, op ο λογικός τελεστής (>, <, =,,,...) που εκφράζει τη συνθήκη ελέγχου και ui τιμή της μεταβλητής (π.χ. Επάγγελμα = Ιδιωτικός Υπάλληλος Αnd Αρχικό Ποσό Δανείου = Χαμηλό And Επιτόκιο = Χαμηλό) Το δεξί μέρος του κανόνα ονομάζεται επακόλουθο κανόνα ( rule consequent ) και περιέχει την κατηγορία yi. Η ποιότητα ενός κανόνα εκφράζεται με μέτρα όπως η Κάλυψη ( Coverage ) και η Aκρίβεια ( Accuracy ). Η Κάλυψη μας δίνει την αναλογία των εγγραφών που καλύπτονται από το προηγούμενο ενός κανόνα στο σύνολο εγγραφών, Όπου N το σύνολο των εγγραφών ενός συνόλου δεδομένων και L το πλήθος των εγγραφών που ικανοποιούν τη συνθήκη εισόδου του κανόνα r. H Ακρίβεια μας δίνει το λόγο των εγγραφών μιας συνθήκης εισόδου L που καταλήγουν σε μια συγκεκριμένη κατηγορία y. Υπάρχουν δύο πολύ σημαντικές ιδιότητες που παίζουν σημαντικό ρόλο στο σύνολο κανόνων που παράγονται από ένα κατηγοριοποιητή κανόνων. Η πρώτη είναι η ιδιότητα των αμοιβαία αποκλειόμενων κανόνων ( Mutually Exclusive Rules ). Η ιδιότητα αυτή διασφαλίζει ότι κάθε εγγραφή ενός συνόλου δεδομένων μπορεί να καλύπτεται από το πολύ ένα κανόνα, δηλαδή δεν υπάρχει εγγραφή που να καλύπτεται από δύο διαφορετικούς κανόνες. Η δεύτερη είναι η ιδιότητα των πλήρων κανόνων ( Exhaustive rules ) που διασφαλίζει ότι δεν υπάρχει εγγραφή που να μην καλύπτεται από κάποιον κανόνα. Οταν ισχύουν ταυτόχρονα και οι δύο ιδιότητες τότε κάθε εγγραφή καλύπτεται από ακριβώς ένα κανόνα. Κατηγοριοποίηση Πελατών Λιανικής Τραπεζικής Page 29

30 Συνήθως όμως δεν υπάρχουν οι ιδιότητες αυτές. Όταν δεν έχουμε πλήρεις κανόνες, τότε δημιουργούμε ένα προεπιλεγμένο κανόνα χωρίς συνθήκες εισόδου, ακριβώς για να καλύψει όλες εκείνες τις εγγραφές που μένουν ακάλυπτες από τους κανόνες του κατηγοριοποιητή. Όταν δεν έχουμε αμοιβαία αποκλειόμενους κανόνες, μπορεί μια εγγραφή να καλύπτεται από δύο ή περισσότερους κανόνες. Σε αυτή την περίπτωση θα πρέπει με κάποιο τρόπο να αντιστοιχήσουμε την εγγραφή σε έναν από τους κανόνες που την καλύπτουν. Αυτό μπορεί να γίνει είτε χωρίς διάταξη των κανόνων (unordered rules), οπότε η επιλογή γίνεται με βάση την πλειοψηφούσα κατηγορία, είτε ακολουθούμε διάταξη των κανόνων και επιλέγουμε βάσει της διάταξης. Για τη διάταξη υπάρχουν επίσης δύο εναλλακτικές επιλογές, είτε κατά κανόνα (Rule based ordering scheme) είτε κατά κατηγορία (Class based ordering scheme). Στην διάταξη κατά κανόνα διατάσσουμε τους ξεχωριστούς κανόνες με κάποιο ποιοτικό κριτήριο. Η επιλογή αυτή διασφαλίζει ότι κάθε εγγραφή θα κατηγοριοποιηθεί με τον «καλύτερο» κανόνα που την καλύπτει. Ένα πιθανό μειονέκτημα είναι ότι οι χαμηλότεροι σε προτεραιότητα κανόνες μπορεί να μην αντιστοιχηθούν λόγω της διάταξης σε επαρκή αριθμό εγγραφών. Στη διάταξη κατά κατηγορία, όλοι οι κανόνες που κατηγοριοποιούνται στην ίδια κλάση εμφανίζονται μαζί. Η σειρά των κανόνων της ίδιας κατηγορίας δεν έχει σημασία. Το μειονέκτημα αυτής της διάταξης είναι ότι μπορεί κάποιος σημαντικός κανόνας να ιεραρχηθεί χαμηλά λόγω της κατηγορίας στην οποία κατατάσσεται. Η διάταξη κατά κατηγορία ακολουθείται από τους περισσότερους αλγορίθμους κατηγοριοποίησης κανόνων. Υπάρχουν δύο προσεγγίσεις για την ανάπτυξη κατηγοριοποιητών κανόνων. Η άμεση δημιουργία κανόνων κατευθείαν από το δείγμα δεδομένων ή η έμμεση δημιουργία κανόνων από άλλα μοντέλα κατηγοριοποίησης, όπως τα δέντρα απόφασης και τα νευρωνικά δίκτυα. Στην παρούσα εργασία θα εξετάσουμε την άμεση προσέγγιση. Πιο συγκεκριμένα, θα εξετάσουμε τον αλγόριθμό Ripper. O συγκεκριμένος είναι ένας αλγόριθμος σειριακής κάλυψης (sequential covering algorithm). Κατηγοριοποίηση Πελατών Λιανικής Τραπεζικής Page 30

31 Κατατάσσει τους κανόνες κατά κατηγορία, ξεκινώντας με τη μειοψηφούσα κατηγορία (θετικές τιμές). Επιλέγει τους κανόνες κατά τέτοιο τρόπο ώστε το υποσύνολο των εγγραφών που καλύπτεται από τον επιλεγμένο κανόνα να έχει μόνο θετικές τιμές ή έστω πολύ λίγες αρνητικές (Learn one rule). Οι εγγραφές αυτές που καλύπτονται από τους επιλεγμένους κανόνες εξαλείφονται και οι κανόνες προστίθενται στη λίστα κανόνων. Η διαδικασία αυτή επαναλαμβάνεται ώσπου οι εξεταζόμενοι κανόνες αρχίζουν να κατηγοριοποιούνται σε περισσότερες αρνητικές τιμές (τιμές της άλλης ή των άλλων κατηγοριών). Τότε ολοκληρώνεται η ανάπτυξη κανόνων για την πρώτη κατηγορία (κριτήριο τερματισμού) και συνεχίζει με τα ίδια ακριβώς βήματα για την επόμενη (επόμενες) κατηγορία μέχρι όλες οι κατηγορίες να καλυφθούν. O αλγόριθμος Ripper αναπτύσσει τους κανόνες στο δείγμα εκπαίδευσης ακολουθώντας τη στρατηγική γενική σε ειδική. Δηλαδή ξεκινάει από την κατηγορία στόχο και προσθέτει διαδοχικά συνθήκες ελέγχου μέχρι η προστιθέμενη συνθήκη να καλύπτει περισσότερες αρνητικές τιμές. Επιλέγει την καλύτερη για προσθήκη συνθήκη ελέγχου με κριτήριο το μέτρο Κέρδους Πληροφορίας του FOIL Όπου p 0, p 1 τα θετικά δείγματα που καλύπτει ένας κανόνας πριν και μετά την επέκταση και n 0, n 1 τα αντίστοιχα αρνητικά. Στο στάδιο της επικύρωσης του μοντέλου στο δείγμα ελέγχου, γίνεται κλάδεμα των κανόνων με κριτήριο το μέτρο (p-n)/(p+n) όπου p και n το πλήθος των θετικών και αρνητικών δειγμάτων του συνόλου ελέγχου, που καλύπτονται από τον εξεταζόμενο κανόνα. Το μέτρο αυτό είναι μονότονα συσχετιζόμενο με την ακρίβεια του κανόνα στο σύνολο ελέγχου. Έτσι, αν το μέτρο βελτιώνεται μετά το κλάδεμα, τότε η συνθήκη ελέγχου αφαιρείται. Το κλάδεμα γίνεται ξεκινώντας από την τελευταία συνθήκη ελέγχου και προχωράει προς τις προηγούμενες.αν για παράδειγμα υπάρχει ένας Κατηγοριοποίηση Πελατών Λιανικής Τραπεζικής Page 31

32 κανόνας r: A And B And C And D y όπου Α, Β, C, D συνθήκες ελέγχου, τότε ο αλγόριθμος θα εξετάσει πρώτα τη συνθήκη D, μετά τη C And D,κατόπιν τη B And C And D και τέλος την A And B And C And D. 3.3 ΚΑΤΗΓΟΡΙΟΠΟΙΗΤΗΣ ΠΛΗΣΙΕΣΤΕΡΟΥ ΓΕΙΤΟΝΑ (K-NN) Τα προηγούμενα μοντέλα κατηγοριοποίησης που εξετάσαμε βασίζονται στην σε 2 στάδια. Στο πρώτο στάδιο γίνεται η εκπαίδευση, όπου χρησιμοποιώντας το αντίστοιχο δείγμα εκπαίδευσης γίνεται μια βέλτιστη προσέγγιση της σχέσης μεταξύ των ανεξάρτητων και των εξαρτημένων μεταβλητών. Στη συνέχεια, η σχέση αυτή χρησιμοποιείται γενικευμένα στο δεύτερο στάδιο προκειμένου να γίνει η κατηγοριοποίηση κάθε άγνωστης εγγραφής. Η συγκεκριμένη προσέγγιση χαρακτηρίζεται Eager Learner. Υπάρχει όμως και η εναλλακτική προσέγγιση της απευθείας πρόβλεψης της κατηγορίας μιας άγνωστης εγγραφής χωρίς να έχει προηγηθεί το στάδιο της εκτίμησης της σχέσης μεταξύ ανεξάρτητων μεταβλητών κατηγορίας. Σε αυτή την περίπτωση η κατηγοριοποίηση γίνεται με βάση την κατηγοριοποίηση που έχει λάβει ένα πλήθος k γνωστών εγγραφών με παρόμοια χαρακτηριστικά. Πρόκειται για μια τυφλή μεθοδολογική προσέγγιση, όπου η πρόβλεψη γίνεται κατευθείαν μέσα από το σύνολο εκπαίδευσης και γι αυτό και λέγεται Lazy Learner. Ο Κατηγοριοποιητής Πλησιέστερου Γείτονα ανήκει σε αυτή την κατηγορία των lazy learners. Κάθε εγγραφή αναπαρίσταται ως ένα σημείο δεδομένων στο χώρο d διαστάσεων, όπου d το πλήθος των ανεξάρτητων μεταβλητών. Οπότε κάθε άγνωστη εγγραφή του δείγματος ελέγχου κατηγοριοποιείται με βάση την κατηγορία των k εγγύτερων γνωστών εγγραφών του δείγματος εκπαίδευσης. Η εγγύτητα προσδιορίζεται με τη χρήση κάποιου σχετικού μέτρου. Υπάρχουν πάρα πολλά μέτρα εγγύτητας ή και ομοιότητας/ανομοιότητας που μπορούμε να χρησιμοποιήσουμε. Η καταλληλότητα του καθενός εξαρτάται από τον τύπο αλλά και τη μορφή των δεδομένων και η επιλογή του καταλληλότερου μπορεί να αποβεί μια αρκετά δύσκολη και χρονοβόρα διαδικασία με δοκιμή και συγκριτική ανάλυση των αποτελεσμάτων που έχουμε με τις εναλλακτικές λύσεις. Αναφέρουμε συνοπτικά τα σημαντικότερα μέτρα εγγύτητας: Κατηγοριοποίηση Πελατών Λιανικής Τραπεζικής Page 32

33 Ευκλείδεια απόσταση: H κλασικότερη μετρική μέτρησης της απόστασης δύο σημείων στο χώρο. Δίνεται από τον τύπο: απόσταση γενικεύεται από το μέτρο της απόστασης Minkowski που δίνεται από την ακόλουθη εξίσωση Όπου x = (x1, x2,.., xn) και y = (y1,, y2,., yn) τα σημεία στο n διάστατο χώρο (Rn). Η Ευκλείδεια Για λ=1 έχουμε την απόσταση νόρμα ή Manhattan που ενδείκνυται για δίτιμες μεταβλητές. Συντελεστής Απλού Ταιριάσματος (Simple Matching Coefficient SMC): Χρησιμοποιείται σε δίτιμες μεταβλητές και ορίζεται ως ο λόγος του πλήθους των τιμών των χαρακτηριστικών που ταιριάζουν προς το πλήθος των χαρακτηριστικών: Αν έχουμε χ= (1,0,0,1,1,0) και y=(1,1,0,0,1,1) έχουμε f00= 1, f11=2, f10=1, f01 =2, οπότε SMC = 3/6 = 0.5. Μία παραλλαγή του SMC που χρησιμοποιείται για ασύμμετρα δυαδικά χαρακτηριστικά είναι ο συντελεστής Jaccard (J) Κατηγοριοποίηση Πελατών Λιανικής Τραπεζικής Page 33

34 Ομοιότητα Συνημιτόνου (Cosine Similarity): Μας δίνει ένα μέτρο της γωνίας που σχηματίζουν δύο σημεία x και y, χωρίς να λαμβάνει υπόψη τα μεγέθη τους. Δίνεται από τον τύπο: Όπου x*y το εσωτερικό γινόμενο διανυσμάτων, Σx k y k και x το μήκος του διανύσματος x,. Αν κανονικοποιήσουμε τις μεταβλητές τότε η μετρική ταυτίζεται με το εσωτερικό γινόμενο των x, y. Ο Κ-ΝΝ ως αλγόριθμος lazy learner δεν απαιτούν τη δημιουργία μοντέλου. Ωστόσο η κατηγοριοποίηση ενός δείγματος ελέγχου μπορεί να είναι αρκετά χρονοβόρα και ακριβή σε πόρους, επειδή απαιτείται ο υπολογισμός των τιμών εγγύτητας μεταξύ των εγγραφών ελέγχου και των εγγραφών εκπαίδευσης. Αντίθετα, οι αλγόριθμοι eager learners όπως τα δέντρα απόφασης καταναλώνουν το συντριπτικά μεγαλύτερο μέρος των πόρων τους για την ανάπτυξη του μοντέλου, ενώ η κτηγοριοποίηση είναι συνήθως μια απλή και μη χρονοβόρα υπόθεση. Η κατηγοριοποίηση με τον Κ-ΝΝ γίνεται με βάση την τοπική πληροφορία (της απόστασης των Ν γειτόνων. Το γεγονός αυτό έχει σαν συνέπεια ο Κ-ΝΝ να είναι επιρρεπής στο θόρυβο. 3.4 ΚΑΤΗΓΟΡΙΟΠΟΙΗΤΕΣ BAYES Ο κατηγοριοποιητής Bayes παρουσιάζει μια προσέγγιση μοντελοποίησης πιθανολογούμενων σχέσεων μεταξύ των ανεξάρτητων μεταβλητών και της μεταβλητής κατηγορίας. Σύμφωνα με το θεώρημα του Bayes έχουμε: Όπου P(Y=y X=x) η δεσμευμένη ή υπό συνθήκη ή εκ των υστέρων (posterior) πιθανότητα η τυχαία μεταβλητή Y να λάβει την τιμή y δεδομένου ότι η τυχαία μεταβλητή Χ έχει λάβει την τιμή x. Επίσης P(Y=y) είναι η εκ των προτέρων πιθανότητα η τυχαία μεταβλητή Υ να λάβει την τιμή y, ενώ P(X=x, Y=y) είναι η Κατηγοριοποίηση Πελατών Λιανικής Τραπεζικής Page 34

35 από κοινού πιθανότητα η τυχαία μεταβλητή Υ να λάβει την τιμή y και η τυχαία μεταβλητή X να λάβει την τιμή x. Το θεώρημα του Bayes μπορεί να χρησιμοποιηθεί για την επίλυση του προβλήματος της πρόβλεψης κατηγορίας. Αν υποθέσουμε ότι με Χ δηλώνεται το σύνολο των χαρακτηριστικών κατηγορίας, δηλαδή Χ =(Χ 1, Χ 2, Χ 3,...,Χ Ν ) και Υ η μεταβλητή κατηγορίας και επίσης θεωρήσουμε ότι η σχέση της Υ με τα Χi είναι μη ντετερμινιστική, τότε μπορούμε να υποθέσουμε ότι οι Χ και Υ είναι τυχαίες μεταβλητές και η σχέση τους να ερμηνευτεί μέσω της πιθανότητας P(Y X). Οι δεσμευμένες πιθανότητες για κάθε συνδυασμό των Υ και X υπολογίζονται με βάση τις πληροφορίες που λαμβάνουμε από το δείγμα εκπαίδευσης. Η ακριβής εκτίμηση των εκ των υστέρων πιθανοτήτων για όλους τους πιθανούς συνδυασμούς τιμών των χαρακτηριστικών κατηγορίας και της κλάσης απαιτεί πολύ μεγάλο δείγμα εκπαίδευσης ακόμη και για μεσαίο πλήθος χαρακτηριστικών. Το θεώρημα του Bayes είναι χρήσιμο γιατί μας δίνει τη δυνατότητα βάσει του παραπάνω τύπου να υπολογίσουμε αυτή την πιθανότητα μέσω των πιθανοτήτων P(Y) και P(X) καθώς και της εξαρτώμενης από την κατηγορία πιθανότητας P(X Y). Όταν συγκρίνονται οι εκ των υστέρων πιθανότητες για διαφορετικές τιμές του Υ, ο παρονομαστής P(X) είναι σταθερός και επομένως μπορεί να αγνοηθεί. Η πιθανότητα P(Y) μπορεί να υπολογιστεί από το σύνολο εκπαίδευσης γνωρίζοντας την αναλογία των εγγραφών κάθε κατηγορίας. Οπότε το κλειδί για τον υπολογισμό, τη σύγκριση και τελικά την κατηγοριοποίηση κάθε συνδυασμού των χαρακτηριστικών κατηγορίας, είναι η εκτίμηση της πιθανότητας P(X Y). O απλός κατηγοριοποιητής Bayes βασίζει την εκτίμηση της παραπάνω πιθανότητας σε μια πολύ κρίσιμη υπόθεση: ότι τα χαρακτηριστικά κατηγορίας είναι υπό συνθήκη ανεξάρτητα δεδομένης μιας ετικέτας κατηγορίας y. Η υπόθεση αυτή εκφράζεται με τον παρακάτω τύπο: Κατηγοριοποίηση Πελατών Λιανικής Τραπεζικής Page 35

36 Έτσι, με την υπόθεση αυτή της υπό συνθήκη ανεξαρτησίας των χαρακτηριστικών κατηγορίας το πρόβλημα υπολογισμού της δεσμευμένης πιθανότητας P(Y X) ανάγεται στο πρόβλημα υπολογισμού των δεσμευμένων πιθανοτήτων των χαρακτηριστικών δεδομένης της κλάσης Υ. Η κατηγορία που μεγιστοποιεί το παραπάνω γινόμενο επί την εκ των υστέρων πιθανότητα P(Y) επιλέγεται. Όταν έχουμε να κάνουμε με κατηγορικά χαρακτηριστικά, ο υπολογισμός των παραπάνω πιθανοτήτων γίνεται παίρνοντας τις κατάλληλες αναλογίες των εγγραφών εκπαίδευσης της ετικέτας y που λαμβάνουν τη υπό εξέταση τιμή xi για το χαρακτηριστικό Χi. Αν όμως τα χαρακτηριστικά κατηγορίας είναι συνεχή, τότε έχουμε δύο επιλογές. Είτε να κάνουμε διακριτοποίηση όλων των συνεχών μεταβλητών οπότε να τις μετατρέψουμε σε κατηγορικές. Σε αυτή την περίπτωση η διακριτοποίηση παίζει σημαντικό ρόλο για τις προβλέψεις που θα καταλήξουμε. Αν χρησιμοποιήσουμε πολλά διαστήματα τιμών κατηγορίες για τα χαρακτηριστικά, τότε χρειαζόμαστε και αντίστοιχα μεγάλο δείγμα εκπαίδευσης, προκειμένου όλα τα διαστήματα να αντιπροσωπεύονται επαρκώς στο δείγμα. Αν δε συμβεί αυτό θα έχουμε πρόβλημα αξιοπιστίας των εκτιμήσεών μας. Αντίθετα, αν έχουμε λίγα διαστήματα, τότε είναι πιθανόν να έχουμε λανθασμένη κατηγοριοποίηση των δεδομένων και λανθασμένες εκτιμήσεις. Εναλλακτικά μπορούμε να θεωρήσουμε για κάθε συνεχή μεταβλητή ότι ακολουθεί κάποια συγκεκριμένη κατανομή πιθανότητας και με βάση αυτή την υπόθεση να εκτιμήσουμε τις παραμέτρους της κατανομής από το δείγμα εκπαίδευσης. Συνήθως επιλέγουμε μια κατανομή Gauss για να αναπαραστήσει την υπό συνθήκη πιθανότητα της συνεχούς μεταβλητής. Εκτιμούμε το μέσο μ και τη διασπορά σ 2 της κατανομής και έτσι έχουμε Η παράμετρος μ ij μπορεί να εκτιμηθεί με βάση το μέσο δείγματος του Xi για όλες τις εγγραφές εκπαίδευσης για τις οποίες y=y j. Ομοίως τo σ 2 υπολογίζεται από τη διασπορά s 2 του ίδιου δείγματος Κατηγοριοποίηση Πελατών Λιανικής Τραπεζικής Page 36

37 Στην πραγματικότητα ο παραπάνω τύπος δίνει τη συνάρτηση πυκνότητας πιθανότητας (probability density function). Kαθώς η συνάρτηση είναι συνεχής η πιθανότητα της τυχαίας μεταβλητής να λάβει μια συγκεκριμένη τιμή είναι 0. Αυτό που υπολογίζουμε σε μια συνεχή τυχαία μεταβλητή είναι η πιθανότητα να βρίσκεται σε ένα διάστημα (x i, x i +ε) όπου ε μια πολύ μικρή σταθερά Δεδομένου ότι ο ε είναι ένας σταθερός πολλαπλασιαστικός παράγοντας για κάθε κατηγορία, εξουδετερώνεται όταν κανονικοποιείται η εκ των υστέρων πιθανότητα P(X Y). Επομένως μπορούμε να εφαρμόσουμε την εξίσωση της συνάρτησης πυκνότητας για να προσεγγίσουμε τη δεσμευμένη πιθανότητα P(X i Y). Ένα πιθανό πρόβλημα μπορεί να αντιμετωπίσουμε με τον κατηγοριοποιητή Bayes είναι ότι αν η δεσμευμένη πιθανότητα ενός από τα Χ i είναι 0, τότε όλο το γινόμενο μηδενίζεται και έτσι η συνολική υπό συνθήκη πιθανότητα P(X Y) της κατηγορίας γίνεται 0. Το ενδεχόμενο αυτό είναι πιο εύκολο να συμβεί, όσο μικρότερο είναι το δείγμα εκπαίδευσης και όσο περισσότερα τα χαρακτηριστικά κατηγορίας. Αν οι εγγραφές εκπαίδευσης δεν καλύπτουν πολλές από τις τιμές των χαρακτηριστικών, τότε είναι πιθανό κάποιες εγγραφές ελέγχου να μην είναι εφικτό να κατηγοριοποιηθούν. Το πρόβλημα αυτό αντιμετωπίζεται με την προσέγγιση της m-εκτίμησης για τον υπολογισμό των υπό συνθήκη πιθανοτήτων: Όπου n το πλήθος των εγγραφών της κατηγορίας y j, nc είναι το πλήθος του δείγματος εκπαίδευσης της κατηγορίας y j που λαμβάνουν την τιμή x i, m είναι μια παράμετρος γνωστή ως το ισοδύναμο μέγεθος δείγματος και p μια παράμετρος που ορίζεται από το χρήστη. O παραπάνω όρος είναι γνωστός και ως Διορθωτής Laplace ( Laplace Corrector ). Με τη χρήση αυτού του όρου αποφεύγουμε τις μηδενικές πιθανότητες μετατρέποντάς τις σε πολύ μικρές μεν, διάφορες του μηδενός δε. Κατηγοριοποίηση Πελατών Λιανικής Τραπεζικής Page 37

38 3.5 ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ ΜΕ ΤΕΧΝΗΤΑ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ Η χρήση των Τεχνητών Νευρωνικών Δικτύων στηρίζεται στην προσπάθεια προσομοίωσης της λειτουργίας βιολογικών συστημάτων και ειδικότερα του ανθρώπινου εγκεφάλου. Ένα Τεχνητό Νευρωνικό Δίκτυο αποτελείται από ένα σύνολο διασυνδεμένων κόμβων. Οι κόμβοι συνδέονται με χορδές συγκεκριμένης κατεύθυνσης. Την αναπαράσταση ενός απλού Τεχνητού Νευρωνικού Δικτύου μπορούμε να δούμε στο διάγραμμα που ακολουθεί Χ1 Κόμβοι Εισόδου ΑΠΛΟ ΝΕΥΡΩΝΙΚΟ ΔΙΚΤΥΟ Κόμβος 0.5 Εξόδου Χ Χ3 c =0.6 y Ένα τέτοιο νευρωνικό δίκτυο που αποτελείται από δύο τύπους κόμβων, τους κόμβους εισόδου και τον κόμβο εξόδου, ονομάζεται νευρώνας (perceptron). Οι κόμβοι εισόδου αντιστοιχούν στα χαρακτηριστικά εισόδου, ενώ ο κόμβος εξόδου δίνει την κατηγορία y. Παρατηρούμε ότι οι τιμές εισόδου σταθμίζονται με κάποιους συντελεστές βάρους, ενώ υπάρχει και ένας σταθερός συντελεστής c, o συντελεστής μεροληψίας. Με το συνδυασμό των παραγόντων αυτών δημιουργείται μια συνάρτηση, η συνάρτηση ενεργοποίησης (activation function), που καθορίζει την τιμή εξόδου κατηγορία. Στο παραπάνω παράδειγμα έχουμε ως συνάρτηση ενεργοποίησης τη γραμμική σχέση f(x) = 0.5*X *X *X 3-0.6, οπότε θέτουμε y=1 αν f > 0, y =-1, αν f 0. Κατά τη φάση εκπαίδευσης ενός νευρώνα οι συντελεστές βάρους προσαρμόζονται μέχρι οι έξοδοι του νευρώνα να ταυτίζονται με τις τιμές Κατηγοριοποίηση Πελατών Λιανικής Τραπεζικής Page 38

39 κατηγορίας του δείγματος εκπαίδευσης. Οι συντελεστές βάρους αναπροσαρμόζονται με βάση τη σχέση (k) Όπου w j ο συντελεστής βάρους του χαρακτηριστικού x j, στην k επανάληψη και για το δείγμα εκπαίδευσης i, y^ εκτιμώμενη τιμή εξόδου και λ ο βαθμός εκμάθησης. H παραπάνω σχέση δείχνει ότι η προσαρμογή των συντελεστών βαρών γίνεται βάσει του σφάλματος πρόβλεψης y-y^. Αν η πρόβλεψη είναι σωστή τότε οι συντελεστές δε μεταβάλλονται. Η τιμή του λ βρίσκεται μεταξύ 0 και 1. Αν η τιμή του λ είναι κοντά στο 0 τότε η προσαρμογή των συντελεστών δίνει μεγαλύτερη βαρύτητα στις προηγούμενες επαναλήψεις, ενώ αν είναι κοντά στο 1 η προσαρμογή των συντελεστών είναι πιο ευαίσθητη στην τελευταία επανάληψη. Μπορούμε επίσης να επιλέξουμε το λ να είναι μεταβλητό, όπου στις πρώτες επαναλήψεις παίρνει μεγάλες τιμές και στη συνέχεια σταδιακά μειώνεται. Συνήθως τα μοντέλα νευρωνικών δικτύων που χρησιμοποιούνται είναι αρκετά πιο πολύπλοκα από αυτό του νευρώνα. Μια βασική διαφορά είναι η ύπαρξη πολλών ενδιάμεσων κόμβων σε διάφορα επίπεδα. Αυτά τα επίπεδα ονομάζονται κρυφά επίπεδα ( hidden layers ). Όταν ο αριθμός των ενδιάμεσων επιπέδων είναι αυξημένος (>2-3) τότε μιλάμε για βαθιά αρχιτεκτονική εκμάθησης, προσέγγιση που προσομοιάζει καλύτερα σε πολύπλοκες λειτουργίες με πολλά ενδιάμεσα στάδια (π.χ διαδικασία της ανθρώπινης οπτικής αντίληψης). Επίσης η σύνδεση μεταξύ των κόμβων μπορεί να διαφέρει σημαντικά. Μπορεί να έχουμε σύνδεση κάθε κόμβου μόνο με κόμβους του επόμενου επιπέδου. Σε αυτή την περίπτωση έχουμε να κάνουμε με ένα νευρωνικό δίκτυο εμπρόσθιας τροφοδότησης ( feed forward ). Υπάρχει όμως και η πιθανότητα σύνδεσης των κόμβων με άλλους κόμβους του ίδιου ή και προηγούμενων επιπέδων. Σε αυτή την περίπτωση αναφερόμαστε σε δίκτυο με ανατροφοδότηση ( recurrent ). Κατηγοριοποίηση Πελατών Λιανικής Τραπεζικής Page 39

40 Ένας τρίτος παράγοντας διαφοροποίησης είναι ο τύπος της συνάρτησης ενεργοποίησης που μπορεί να χρησιμοποιηθεί. Στο παράδειγμα του νευρώνα χρησιμοποιήθηκε μια γραμμική συνάρτηση ενεργοποίησης. Σε πολλά προβλήματα όμως, η κατάλληλη συνάρτηση ενεργοποίησης είναι αρκετά πιο πολύπλοκη και μη γραμμική (σιγμοειδής, υπερβολικής εφαπτομένης). Οι συναρτήσεις αυτές δίνουν τη δυνατότητα στους κρυφούς κόμβους και στους κόμβους εξόδου, να παράγουν τιμές εξόδου που είναι μη γραμμικές ως προς τις παραμέτρους εισόδου. Στις περιπτώσεις αυτές που η πολυπλοκότητα αυξάνεται η προσαρμογή των συντελεστών βάρους γίνεται με την προσέγγιση της βαθμωτής κατάβασης ( gradient descent ). Παρατηρούμε ότι ο βαθμός εκμάθησης λ πρέπει να προσαρμόζεται προς την κατεύθυνση μείωσης του σφάλματος πρόβλεψης Ε(w). 3.6 ΜΗΧΑΝΕΣ ΔΙΑΝΥΣΜΑΤΩΝ ΥΠΟΣΤΗΡΙ ΞΗΣ (SUPPORT VECTOR MACHINES - SVM) Το μοντέλο Μηχανής Διανυσμάτων Υποστήριξης αποτελεί μια ακόμη έκφανση της μηχανικής εκμάθησης. Στην ουσία αντλεί και συνδυάζει στοιχεία από τρεις διαφορετικές περιοχές: την επιστήμη των υπολογιστών, τη στατιστική και τη μαθηματική θεωρία βελτιστοποίησης. Η μεθοδολογική βάση των Μηχανών Διανυσμάτων Υποστήριξης είναι αυτή της κατηγοριοποίησης. Η συγκεκριμένη τεχνική προσπαθεί να οριοθετήσει μια περιοχή σημείων κατά τέτοιο τρόπο, ώστε όλα τα σημεία εντός της οριοθετημένης περιοχής να ανήκουν στην ίδια κλάση. Από τη στιγμή που θα οριοθετηθεί αυτή η περιοχή, αυτό που μας ενδιαφέρει στη συνέχεια είναι να ελέγξουμε κατά πόσο ένα σημείο ελέγχου που θα μας δοθεί βρίσκεται εντός της περιοχής ή όχι. Το πλεονέκτημα της προσέγγισης αυτής είναι ότι με την οριοθέτηση της περιοχής, οι εγγραφές που χρησιμοποιήσαμε για να την οριοθετήσουμε παύουν στη μεγάλη τους πλειοψηφία να μας είναι απαραίτητες. Το μόνο που Κατηγοριοποίηση Πελατών Λιανικής Τραπεζικής Page 40

41 χρειαζόμαστε πραγματικά είναι ένας πυρήνας στοιχείων, για την ταυτοποίηση και την προσαρμογή της οριοθέτησης. Ο χώρος που οριοθετούμε θα είναι Ν διαστάσεων, όσο και το πλήθος των χαρακτηριστικών κατηγορίας που χρησιμοποιούμε για την κατηγοριοποίηση. Αντίστοιχα, κάθε σημείο αποτελείται από Ν συνιστώσες, όσες και οι διαστάσεις. Γι αυτό χρησιμοποιούμε την έννοια του διανύσματος για το κάθε σημείο, ενώ και ο χώρος που οριοθετούμε είναι ένα υπερεπίπεδο Ν διαστάσεων. Στην απλή περίπτωση των δύο διαστάσεων, το όριο θα μπορούσε να είναι μια ευθεία ή μια καμπύλη γραμμή. Το πρόβλημα είναι ότι μπορεί να υπάρχουν πολλές ευθείες ή άλλου τύπου γραμμές που διαχωρίζουν τις δύο κλάσεις. Οπότε σε αυτή την περίπτωση το πρόβλημα εστιάζεται στην επιλογή της πιο κατάλληλης. Εξ ορισμού ο καλύτερος διαχωρισμός είναι αυτός που ελαχιστοποιεί το σφάλμα κατηγοριοποίησης. Στο σημείο αυτό η δεύτερη παράμετρος που εξετάζεται από τις Μηχανές Υποστήριξης Διανυσμάτων είναι η γεωμετρική απόσταση μεταξύ των δύο περιοχών κλάσεων. Η μετρική αυτή που είναι επίσης Ν διαστάσεων - ονομάζεται περιθώριο ( margin ). Το περιθώριο σχηματίζεται αν μετατοπίσουμε παράλληλα το όριο απόφασης μέχρι να βρούμε τις πρώτες τιμές της κάθε κατηγορίας. Η μέγιστη αυτή απόσταση αποτελεί το περιθώριο που καθορίζεται συνεπώς από το όριο απόφασης και δύο παράλληλα υπερεπίπεδα δεξιά και αριστερά του ορίου. Συνεπώς το συγκεκριμένο μοντέλο προσπαθεί να μεγιστοποιήσει το περιθώριο ( Maximal marging hyperplane ), ικανοποιώντας παράλληλα ένα συγκεκριμένο ελάχιστο στόχο για το σφάλμα κατηγοριοποίησης. Στο παρακάτω διάγραμμα βλέπουμε δύο ευθείες που διαχωρίζουν τα δεδομένα χωρίς να υπάρχει σφάλμα κατηγοριοποίησης. Συνήθως επιλέγουμε το διαχωρισμό με το μεγαλύτερο όριο, ακόμη κι αν εμφανίζει ελαφρώς μεγαλύτερο σφάλμα κατηγοριοποίησης, γιατί έτσι αντιμετωπίζεται καλύτερα το ενδεχόμενο της υπερπροσαρμογής του μοντέλου στα δεδομένα. Κατηγοριοποίηση Πελατών Λιανικής Τραπεζικής Page 41

42 ε2 ε1 v v Υπάρχουν όμως συχνά περιπτώσεις, όπου δεν είναι εφικτός ο πλήρης και ξεκάθαρος διαχωρισμός των δεδομένων. Σε αυτή την περίπτωση έχουμε σημεία που βρίσκονται εντός του περιθωρίου και η καλύτερη επιλογή είναι αυτή που ελαχιστοποιεί το πλήθος των εντός περιθωρίου δεδομένων. Σε αυτή την περίπτωση εισάγουμε στη βελτιστοποίηση έναν πρόσθετο παράγοντα κόστους, ξ, που αυξάνεται με το πλήθος των εντός ορίου σημείων. Οπότε ο βέλτιστος διαχωρισμός επιτυγχάνεται όταν ελαχιστοποιούμε τον παράγοντα κόστους ξ όπως αποτυπώνεται και στο παρακάτω διάγραμμα. ξ ε2 ε1 v v Υπάρχουν επίσης περιπτώσεις που ο διαχωρισμός των δεδομένων δεν είναι γραμμικός. Σε μια τέτοια περίπτωση θα πρέπει να βρούμε τον κατάλληλο μετασχηματισμό της σχέσης των δεδομένων που θα μας επιτρέψει στη συνέχεια να κάνουμε γραμμικό διαχωρισμό. Κατηγοριοποίηση Πελατών Λιανικής Τραπεζικής Page 42

43 5. ΔΕΔΟΜΕΝΑ 5.1 ΠΑΡΟΥΣΙΑΣΗ & ΕΠΕΞΕΡΓΑΣΙΑ ΔΕΔΟΜΕΝΩΝ ΤΑΥΤΟΤΗΤΑ ΤΩΝ ΔΕΔΟΜΕΝΩΝ Για την ανάπτυξη και εφαρμογή του μοντέλου μας χρησιμοποιήσαμε ένα δείγμα διαφόρων δανειακών προϊόντων ιδιωτών (Λιανικής Τραπεζικής). Συμπεριλήφθηκαν δάνεια καταναλωτικά, προσωπικά, αγοράς αυτοκινήτου, καθώς και προϊόντα ρύθμισης και αναδιάρθρωσης (distressed restructured) δανείων λιανικής τραπεζικής. H διαφορά των δύο τελευταίων κατηγοριών έγκειται στα αίτια τροποποίησης των αρχικών όρων δανειοδότησης. Πιο συγκεκριμένα, ρυθμισμένα δάνεια είναι αυτά των οποίων οι αρχικοί όροι έχουν τροποποιηθεί για λόγους μάρκετινγκ ή επιβράβευσης ενός καλού πελάτη ή λόγω μεταβολής παραμέτρων της αγοράς (π.χ. πτώση επιτοκίων). Η αναδιάρθρωση δανείων γίνεται όταν ο πελάτης αντιμετωπίζει δυσκολίες στην εξυπηρέτηση του δανείου, οι τροποποιημένοι όροι είναι εκτός αγοράς - δηλαδή οι συγκεκριμένοι όροι δε θα παραχωρούνταν σε ένα πελάτη ισοδύναμης πιστοληπτικής αξιολόγησης υπό κανονικές συνθήκες και με μόνο κριτήριο την αξιολόγησή του. Το δείγμα μας αποτελείται από δάνεια τα οποία ήταν «ενήμερα». Ενήμερα χαρακτηρίζονται τα δάνεια εκείνα που παρουσιάζουν προσωρινή καθυστέρηση πληρωμών που δεν υπερβαίνει τις 90 ημέρες. Εμείς στην εργασία μας χρησιμοποιήσαμε δείγμα ενήμερων δανείων με προσωρινή καθυστέρηση το πολύ ως 30 ημέρες με ημερομηνία αναφοράς 31/12/2010. Σημειώνουμε ότι σύμφωνα με τους διεθνείς λογιστικούς αλλά και εποπτικούς κανόνες, ένα δάνειο που παρουσιάζει καθυστέρηση πληρωμής μεγαλύτερη των 90 ημερών θεωρείται σε αθέτηση ( in default ) και αυτομάτως σταματάει η λογιστικοποίηση των τόκων του ( non performing status ). Επιλέξαμε να χτίσουμε το δείγμα με λίγο πιο παλιά δεδομένα και όχι πιο πρόσφατα, δεδομένης της δραματικής πτώσης ως εκμηδενισμού της πιστωτικής δραστηριότητας στα επόμενα από το 2010 έτη, ως αποτέλεσμα της κρίσης στη χώρα μας. Θα ήταν επομένως πολύ δύσκολο να βρούμε Κατηγοριοποίηση Πελατών Λιανικής Τραπεζικής Page 43

44 ικανοποιητικό δείγμα δανείων σε πιο πρόσφατες χρονολογίες, ενώ και η εικόνα που θα αποκομίζαμε θα ήταν έντονα επηρεασμένη από την οικονομική κρίση. Το παράθυρο δείγματος (sample window) που χρησιμοποιήσαμε είναι 6-12 μήνες, οπότε τα δάνεια του δείγματος έχουν εκταμιευθεί μεταξύ 1/1/2010 και 30/6/2010, ενώ το παράθυρο παρατήρησης/απόδοσης ( performance window ) είναι 6 μήνες. Πολύ σημαντικό ρόλο για την ανάλυσή μας παίζει ο καθορισμός των δύο τιμών της εξαρτημένης μεταβλητής, του «καλού» και του «κακού» πελάτη. «Κακό» θεωρήσαμε τον πελάτη που κατά τη διάρκεια του παραθύρου παρατήρησης/απόδοσης παρουσίασε έστω και μια φορά καθυστέρηση μεγαλύτερη των 30 ημερών ή τον πελάτη που έχει κάνει αναδιάρθρωση του δανείου του. Συνεπώς πελάτες που στο πρώτο εξάμηνο του 2011 (1/1/ /06/2011) παρουσίασαν έστω και για μια φορά καθυστέρηση έστω και 31 ημέρες ή που έχουν υποστεί αναδιάρθρωση δανείου κατηγοριοποιήθηκαν ως «κακοί». Η δεύτερη συνθήκη προκύπτει από το εποπτικό πλαίσιο της Ευρωπαϊκής Ένωσης σύμφωνα με το οποίο προβλέπεται η θεώρηση της αναδιάρθρωσης ενός δανείου ως κριτήριο έναυσμα για την κατάταξη του ανοίγματος και του πελάτη σε αθέτηση ( default trigger ). H κατάταξη σε αθέτηση διατηρείται για τουλάχιστον ένα έτος μετά την τελευταία τροποποίηση των όρων του δανείου, οπότε και υπάρχει η δυνατότητα επαναφοράς στην κατάσταση του ενήμερου, υπό την προϋπόθεση ικανοποίησης συγκεκριμένων κριτηρίων που συνδέονται με την επαρκή ικανοποίηση των τροποποιημένων όρων του δανείου και την ομαλή αποπληρωμή του. Με βάση τις παραπάνω συνθήκες δημιουργήσαμε τη δίτιμη (καλός, κακός) εξαρτημένη μεταβλητή κατηγοριοποίησης του πελάτη, την ετικέτα κατηγορίας. Οι ανεξάρτητες μεταβλητές που χρησιμοποιήθηκαν για την ανάπτυξη του μοντέλου κατηγοριοποίησης, παρουσιάζονται και περιγράφονται αναλυτικά παρακάτω: MoBs (Month on Books): Το συγκεκριμένο πεδίο δείχνει πόσους μήνες βρίσκεται το κάθε δάνειο στα βιβλία της τράπεζας. Στο δείγμα συμπεριλήφθηκαν δάνεια που είχαν ανοιχτεί μεταξύ 6-12 μηνών πριν το Κατηγοριοποίηση Πελατών Λιανικής Τραπεζικής Page 44

45 μήνα αναφοράς, δηλαδή μεταξύ 31/12/2209 και 30/6/2010 στην περίπτωσή μας. Οπότε αν π.χ. το συγκεκριμένο πεδίο έχει τιμή 12, αυτό σημαίνει ότι το δάνειο ανοίχθηκε 12 μήνες πριν την ημερομηνία αναφοράς, δηλαδή 12 μήνες πριν το Δεκέμβριο του 2010, άρα το Δεκέμβριο του Δεδομένης της δομής του δείγματος που αναφέρεται παραπάνω (δάνεια 6-12 μηνών), το συγκεκριμένο πεδίο παίρνει τιμές από 6 ως 12 ProductType: Δηλώνει το δανειακό προϊόν. Carloan, consumerloan, personalloan, distressedrestructured & rescheduled είναι οι 5 τιμές του πεδίου που αντιστοιχούν στους αντίστοιχους τύπους δανείων που χρησιμοποιήθηκαν στο δείγμα InitAmount: To αρχικό ποσό του δανείου κατά την εκταμίευση (συνεχής μεταβλητή) CurrentBalance: Το ποσό του δανείου κατά την ημερομηνία αναφοράς, δηλαδή στις 31/12/2010 (συνεχής μεταβλητή) CurrentBucket: To διάστημα ημερών καθυστέρησης που εμφάνιζε ο πελάτης κατά την ημερομηνία αναφοράς (31/12/2010). Δεδομένου ότι στο δείγμα μας πήραμε μόνο ενήμερους πελάτες, δηλαδή πελάτες με 30 το πολύ ημέρες καθυστέρησης, η συγκεκριμένη μεταβλητή παίρνει δύο τιμές. Η μία αντιστοιχεί σε 0 ημέρες καθυστέρησης (τιμή current ) και η δεύτερη που αντιστοιχεί στη ζώνη 1-30 ημερών καθυστέρησης (τιμή firstbucket ) TenorInMonths: η συγκεκριμένη μεταβλητή μας δίνει την εναπομένουσα ληκτότητα του δανείου σε μήνες ως παράμετρο διάρκειας του δανείου. Το εύρος τιμών είναι μήνες RateType: δηλώνει το είδος του επιτοκίου, σταθερό ( fixed ) ή κυμαινόμενο ( variable ) RateVal: δίνει την τιμή του επιτοκίου. Παρατηρούνται τιμές στο εύρος 0%- 15,1%. Τα μηδενικά επιτόκια αντιστοιχούν σε περιόδους χάριτος-αναστολής πληρωμής τόκων κυρίως αναδιαρθρωμένων δανείων MaxBucketLast12M: Το πεδίο αυτό δίνει τη χειρότερη καθυστέρηση που παρουσίασε ο πελάτης κατά τη διάρκεια του δανείου, σε μορφή ζώνης καθυστέρησης. Οι χρονικές ζώνες ( buckets ) που χρησιμοποιούνται είναι: o current : 0 ημέρες καθυστέρησης Κατηγοριοποίηση Πελατών Λιανικής Τραπεζικής Page 45

46 o firstbucket : 1-30 ημέρες καθυστέρησης o secondbucket : ημέρες καθυστέρησης o thirdbucket : ημέρες καθυστέρησης o fourthbucket : >90 ημέρες καθυστέρησης CustAge: η ηλικία του πιστούχου ΗasGuarantor: δηλώνει την ύπαρξη ή όχι εγγύησης εγγυητή για το δάνειο (δίτιμη μεταβλητή) MaritalStatus: δίνει την πληροφορία κατά πόσο ο πιστούχος είναι παντρεμένος ή όχι (δίτιμη μεταβλητή) EducationalStatus: το επίπεδο εκπαίδευσης του πιστούχου. Οι διαφορετικές τιμές του δείγματος καταγράφονται ως εξής: o Uneducated (χωρίς φοίτηση σε σχολείο) o Basic απολυτήριο πρωτοβάθμιας εκπαίδευσης o Mesiekpedefsi απολυτήριο δευτεροβάθμιας εκπαίδευσης o Tei απόφοιτος Τ.Ε.Ι. o Aei απόφοιτος Α.Ε.Ι. o Masters κάτοχος μεταπτυχιακού διδακτορικού τίτλου σπουδών PostalCode: ο Ταχυδρομικός Κώδικας της διεύθυνσης διανομής του πιστούχου. Στο δείγμα αντιπροσωπεύονται όλοι οι νομοί της Ελλάδας κατ αναλογία με τον πληθυσμό τους. Επίσης στην Αθήνα και τη Θεσσαλονίκη έχουν ληφθεί πιστούχοι από τις διάφορες συνοικίες των δύο πόλεων Occupation: δηλώνει τον τύπο απασχόλησης εργασίας του πιστούχου. Διακρίνουμε τις τιμές: o Dimosiosypal δημόσιος υπάλληλος o Idiotikosypal ιδιωτκός υπάλληλος o Eleftherosepagg - ελεύθερος επαγγελματίας o Retired συνταξιούχος o Anergos άνεργος o Eisodimatias εισοδηματίας o Foititis φοιτητής o Oikiaka οικιακά Κατηγοριοποίηση Πελατών Λιανικής Τραπεζικής Page 46

47 4.1.2 ΕΠΕΞΕΡΓΑΣΙΑ ΔΕΔΟΜΕΝΩΝ Σε πρώτο στάδιο εξετάσαμε τα δεδομένα και προχωρήσαμε σε κατάλληλη επεξεργασία, προκειμένου να αντιμετωπίσουμε αδυναμίες και να βελτιώσουμε την ανάλυση. Εφαρμόσαμε τεχνικές διακριτοποίησης στις μεταβλητές με συνεχείς τιμές, ελέγξαμε τα αποτελέσματα και προβήκαμε σε επιπλέον συγχωνεύσεις περιοχών τιμών όπου κρίθηκε σκόπιμο. Επίσης αντιμετωπίσαμε το θέμα έλλειψης τιμών σε ορισμένες μεταβλητές. ΔΙΑΚΡΙΤ ΟΠΟ ΙΗΣΗ Διακριτοποίηση έγινε για τις μεταβλητές CurrentBalance, CustAge, InitAmount, RateVal, TenorInMonths και MoBs. H επιλογή των διαστημάτων διακριτοποίησης έγινε με κριτήριο την ελαχιστοποίηση της εντροπίας. Όσο πιο ομοιογενής είναι η ομαδοποίηση των συνεχών μεταβλητών, τόσο μικρότερη η εντροπία. Τα αποτελέσματα των διακριτοποιήσεων ελέγχθηκαν χρησιμοποιώντας και το κριτήριο του WOE ( Weight of Evidence ). Το συγκεκριμένο κριτήριο μας δίνει την προβλεπτική δύναμη κάθε διαστήματος διακριτοποίησης στο διαχωρισμό μεταξύ καλών και κακών πελατών. Υπολογίζεται ως ο λόγος της κατανομής των καλών προς την κατανομή των κακών στο συγκεκριμένο διάστημα: Ακολουθώντας την παραπάνω διαδικασία η μεταβλητή CurrentBalance πήρε τις τιμές του παρακάτω πίνακα Πίνακας Διακριτοποίησης Μεταβλητής CurrentBalance CurrentBalance bad good Total DistrBad DistrGood WOE range2 [ ] ,84% 71,29% 0, range3 [ ] ,36% 8,08% -0,24792 range4 [ ] ,62% 3,13% -0,58427 range5 > ,62% 4,05% -1,05379 range1 < ,57% 13,44% 0, Grand Total % 100% Κατηγοριοποίηση Πελατών Λιανικής Τραπεζικής Page 47

48 Βλέπουμε ότι στην πρώτη τιμή της μεταβλητής CurrentBalance που αντιστοιχεί στο διάστημα με τα χαμηλότερα ποσά τρέχοντος υπολοίπου (0 ως 913,24 EUR) το ποσοστό κατανομής στο διάστημα αυτό των καλών (13,44%) ως προς το σύνολο των καλών πελατών, είναι μεγαλύτερο από το αντίστοιχο ποσοστό κατανομής στο διάστημα αυτό των κακών (9,57%). Οπότε το WOE του διαστήματος είναι 0,34 περίπου. Παρατηρούμε ότι καθώς το ύψος υπολοίπου του δανείου αυξάνεται, η σχέση σιγά σιγά ανατρέπεται και καταλήγουμε σε αρνητικά νούμερα WOE. Η φθίνουσα αυτή μεταβολή του WOE ως συνάρτηση του ύψους του ανεξόφλητου δανείου συνάδει απόλυτα και με τη λογική, αφού όσο πιο μεγάλο το οφειλόμενο ποσό, τόσο πιο πιθανό είναι να έχουμε αθέτηση και κακό πελάτη. Μπορούμε να δούμε στο παρακάτω γράφημα την εξέλιξη του WOE για τη συγκεκριμένη μεταβλητή. Γράφημα WOE Μεταβλητής CurrentBalance 0,60 0,40 0,20 0,3401 0,1262 0,00-0,20-0,40-0,2479 WOE -0,60-0,80-1,00-1,20-0,58-1,0538 range1 < range2 [ ] range3 [ ] range4 [ ] range5 > Αντίστοιχα για τη μεταβλητή CustAge η διαδικασία διακριτοποίησης μας έδωσε τον παρακάτω διαχωρισμό: Πίνακας Διακριτοποίησης Μεταβλητής CustAge CustAge bad good Total DistrBad DistrGood WOE > ,50% 14,55% 0, [ ] ,91% 64,88% -0, ,59% 20,56% 0, Grand Total % 100% Κατηγοριοποίηση Πελατών Λιανικής Τραπεζικής Page 48

49 Γράφημα WOE Μεταβλητής CustAge 0,4 0,3 0,33 0,34 0,2 0,1 0-0,1-0,2-0,14 WOE > 63.0 [ ] 33.0 Η εξέλιξη της τιμής του WOE για τη συγκεκριμένη μεταβλητή είναι κυρτή κι αυτό συμβαδίζει με τη λογική της αγοράς καθώς οι νεότεροι σε ηλικία και οι μεγαλύτεροι εμφανίζουν καλύτερη συμπεριφορά στην αποπληρωμή δανειακών υποχρεώσεων σε σύγκριση με τις ενδιάμεσες ηλικίες. Ακολουθούν οι πίνακες και τα γραφήματα για τις υπόλοιπες μεταβλητές που διακριτοποιήθηκαν: Πίνακας Διακριτοποίησης Μεταβλητής InitAmount InitAmount bad good Total DistrBad DistrGood WOE high_am ,19% 15,35% -49,5124 med_am ,67% 41,23% 23,26167 low_am ,14% 43,42% 2, Totals % 100% Όπου low_am 6.588, < med_am και high_am> EUR Κατηγοριοποίηση Πελατών Λιανικής Τραπεζικής Page 49

50 Γράφημα WOE Μεταβλητής InitAmount ,99 23,26 WOE ,51 low_am med_am high_am Πίνακας Διακριτοποίησης Μεταβλητής RateVal RateVal bad good Grand Total DistrBad DistrGood WOE ,53% 23,79% 1, [ ] ,28% 28,87% 1, [ ] ,05% 46,06% -0,55266 > ,15% 1,28% -0, % 100% Γράφημα WOE Μεταβλητής RateVal 1,5 1 1,29 1,03 0,5 0-0,5-1 WOE -0,55-0,90-1,5 Κατηγοριοποίηση Πελατών Λιανικής Τραπεζικής Page 50

51 Πίνακας Διακριτοποίησης Μεταβλητής TenorInMonths TenorInMonths bad good Total DistrBad DistrGood WOE ,26% 67,89% 0, [69-84] ,75% 27,35% 0, [84-100] ,80% 1,99% -0,64567 [ ] ,63% 0,15% -1,45663 > ,56% 2,62% -2,63623 Totals % 100% Γράφημα WOE Μεταβλητής TenorInMonths 1 0,5 0,57 0,28 0-0,5-1 -1,5-2 -0,65 WOE -1,46-2,5-3 -2,64 69 [69-84] [84-100] [ ] >116 Πίνακας Διακριτοποίησης Μεταβλητής MoBs MoBs bad good Grand Total DistrBad DistrGood WOE ,88% 20,11% -0,88809 [7-8] ,23% 9,47% -0,17049 [8-10] ,08% 31,09% 0, > ,82% 39,33% 0, Totals % 100% Κατηγοριοποίηση Πελατών Λιανικής Τραπεζικής Page 51

52 Γράφημα WOE Μεταβλητής MoBs 1 0,8 0,6 0,4 0,2 0-0,2-0,4-0,6-0,8-1 0,72 0,46 WOE -0,17-0,89 7 [7-8] [8-10] > 10 Σ ΥΓΧΩΝΕΥΣΗ Τ ΙΜΩΝ ΜΕΤ ΑΒΛΗΤΩ Ν Σε κάποιες από τις κατηγορικές μεταβλητές προχωρήσαμε σε συγχώνευση τιμών προκειμένου να πετύχουμε καλύτερη παρουσία της μεταβλητής με κριτήριο το WOE. Ενδεικτικά αναφέρουμε τη μεταβλητή EducationalStatus, όπου συγχωνεύσαμε τις τιμές uneducated και basic θεωρώντας ότι αντιπροσωπεύουν χαμηλό επίπεδο μόρφωσης, όπως και τις τιμές aei, tei (τριτοβάθμια εκπαίδευση). WOE Μεταβλητής EducationalStatus EducationalStatus bad good Total DistrBad DistrGood WOE uneducated_basic ,66% 8,61% -0,2137 mesiekpedefsi ,38% 81,05% 0,0083 tei_aei ,64% 9,80% 0, masters ,31% 0,53% 0, % 100% Κατηγοριοποίηση Πελατών Λιανικής Τραπεζικής Page 52

53 Γράφημα WOE Μεταβλητής EducationalStatus 0,6 0,55 0,5 0,4 0,3 0,2 0,1 0-0,1 0,01 0,13 WOE -0,2-0,3-0,21 Αντίστοιχα επεξεργαστήκαμε και τη μεταβλητή Postal Code μετατρέποντάς την τελικά σε δίτιμη μεταβλητή χωρίζοντας τις γεωγραφικές περιοχές σε Βόρεια και Νότια Ελλάδα. Στη Νότια Ελλάδα συμπεριλάβαμε τη Στερεά Ελλάδα, την Πελοπόννησο, τα νησιά των Κυκλάδων, της Κρήτης και του Ιονίου, ενώ όλες τις υπόλοιπες περιοχές τις κατατάξαμε στη Βόρεια Ελλάδα. WOE Μεταβλητής PostalCode PostalCode bad good Total DistrBad DistrGood WOE NORTH GREECE ,52% 31,71% 10,60894 SOUTH GREECE ,48% 68,29% -4,56798 Grand Total % 100% Επίσης για τη μεταβλητή Occupation παρατηρήσαμε ότι κάποιες από τις τιμές παρουσίαζαν πολύ όμοια χαρακτηριστικά, οπότε ομαδοποιήσαμε τους ιδιωτικούς υπαλλήλους, τους δημόσιους υπαλλήλους, τους συνταξιούχους και τους εισοδηματίες (παρόμοια bad rates της τάξης 14%-15%) σε μία κατηγορία την οποία ονομάσαμε sec_inc (secured income) υπό το πρίσμα ότι έχουν ένα σχετικά σταθερό, εξασφαλισμένο εισόδημα. Αντίστοιχα ομαδοποιήσαμε τους ελεύθερους επαγγελματίες και τους ανέργους σε μία κατηγορία τιμής unsec_inc (unsecured Κατηγοριοποίηση Πελατών Λιανικής Τραπεζικής Page 53

54 income) στη λογική ότι οι συγκεκριμένοι δεν έχουν σταθερό, ούτε καν εξασφαλισμένο εισόδημα (bad rates 17%). WOE Μεταβλητής Occupation Occupation bad good Total DistrBad DistrGood WOE foititis ,06% 0,64% 2, sec_inc ,51% 81,52% 0, Unsec_inc ,43% 17,84% -0,56627 Grand Total % 100% Γράφημα WOE Μεταβλητής EducationalStatus 2,5 2,29 2 1,5 1 0,5 0-0,5-1 0,17 WOE -0,57 foititis sec_inc Unsec_inc ΈΛΛΕΙΨ Η ΤΙΜΩΝ ΔΕΔΟΜΕΝΩΝ Κάποιες μεταβλητές του δείγματός μας παρουσίασαν κενές τιμές. Το μεγαλύτερο πρόβλημα παρουσιάστηκε στη μεταβλητή EducationalStatus όπου πάνω από το 50% των τιμών ήταν κενές. Σε πολύ μικρή κλίμακα είχαμε κενές τιμές και στις μεταβλητές Occupation και MaritalStatus. Σε όλες τις περιπτώσεις αντικαταστήσαμε τις κενές τιμές με την επικρατούσα τιμή κάθε μεταβλητής. ΕΠΕΞΕΡ ΓΑΣΜΕΝΟ ΔΕΙΓΜΑ Με την εφαρμογή των παραπάνω βημάτων ολοκληρώσαμε την επεξεργασία των δεδομένων και καταλήξαμε σε ένα πολύ βελτιωμένο σετ δεδομένων για να εφαρμόσουμε το μοντέλο μας. Κατηγοριοποίηση Πελατών Λιανικής Τραπεζικής Page 54

55 Η αποτύπωση των παραπάνω βημάτων στο Rapid Miner απεικονίζεται ως εξής Κατηγοριοποίηση Πελατών Λιανικής Τραπεζικής Page 55

56 6. ΑΝΑΠΤΥΞΗ ΚΑΤΗΓΟΡΙΟΠΟΙΗΤΗ ΔΕΝΤΡΟΥ ΑΠΟΦΑΣΗΣ 5.1 ΑΛΓΟΡΙΘΜΟΣ ΗUNT Μετά τις απαραίτητες βελτιώσεις στα δεδομένα μας προχωρήσαμε στην εφαρμογή του μοντέλου κατηγοριοποίησης με τη χρήση Δέντρου Απόφασης. Σε πρώτη φάση χρησιμοποιήσαμε τον τελεστή Decision Tree για την εφαρμογή του μοντέλου. Ο συγκεκριμένος τελεστής βασίζεται στον αλγόριθμο του Hunt. To σύνολο δεδομένων χωρίστηκε σε δύο υποσύνολα με αναλογία 70%-30%. Το μεγαλύτερο υποσύνολο χρησιμοποιήθηκε ως σύνολο εκπαίδευσης ( training set ) ενώ το 30% αποτέλεσε το σύνολο ελέγχου ( test set ) για την επικύρωση του μοντέλου. Για το διαχωρισμό του δείγματος χρησιμοποιήσαμε στρωματοποιημένη δειγματοληψία, οπότε το σύνολο ελέγχου έχει την ίδια κατανομή τιμών της εξαρτημένης μεταβλητής με το δείγμα εκπαίδευσης. Προκειμένου να αποφύγουμε το αποτέλεσμα ενός πολύ μεγάλου σε βάθος, πολύπλοκου και με πάρα πολλές διακλαδώσεις δέντρου, θέτουμε κάποιους περιορισμούς στον επαναληπτικό αλγόριθμο. Ένα πολύ μεγάλο σε βάθος και σε πλάτος δέντρο δεν είναι επιθυμητό αποτέλεσμα αφενός γιατί υπάρχει μεγάλη πιθανότητα να εμφανιστεί το φαινόμενο της υπερπροσαρμογής μοντέλου, αφετέρου γιατί είναι δυσλειτουργικό και τα αποτελέσματά του δύσκολα ερμηνεύονται. Για τους παραπάνω λόγους θέτουμε μέγιστο βάθος στο δέντρο μας. Στη δική μας περίπτωση θέσαμε ως μέγιστο βάθος 5 που μας επιτρέπει να έχουμε ένα αρκετά ανεπτυγμένο δέντρο. Οπότε ένας κόμβος φύλλο είτε θα αποτελείται από μόνο μία κλάση, είτε θα χαρακτηρίζεται από την πλειοψηφία των τιμών του, στην περίπτωση που ο αλγόριθμος ολοκληρώνεται λόγω των περιορισμών που έχουμε θέσει. Επίσης θέτουμε ελάχιστο αριθμό φύλλων που πρέπει να έχει ένας τερματικός κόμβος, αλλά και ένας εσωτερικός κόμβος προκειμένου να διασπαστεί περαιτέρω. Και για τις δύο περιπτώσεις επιλέξαμε σαν ελάχιστο τον αριθμό 5, με γνώμονα το συνδυασμό βελτίωσης των αποτελεσμάτων και ικανοποιητικής ανάλυσης του δέντρου μας. Επιπρόσθετα θέσαμε ως ελάχιστο Κέρδος Πληροφορίας προκειμένου να προχωράμε Κατηγοριοποίηση Πελατών Λιανικής Τραπεζικής Page 56

57 σε επόμενη διακλάδωση το Τέλος χρησιμοποιήσαμε το κλάδεμα τόσο εκ των προτέρων όσο και εκ των υστέρων. Για το κλάδεμα εκ των προτέρων θέσαμε τον αριθμό των εναλλακτικών κόμβων που εξετάζει παράλληλα ο αλγόριθμος προκειμένου να επιλέξει τον καλύτερο για διάσπαση, σε 3. Οι εικόνες που ακολουθούν απεικονίζουν τη δομή εφαρμογής του μοντέλου στο Rapid Miner. Κατηγοριοποίηση Πελατών Λιανικής Τραπεζικής Page 57

58 Στην επόμενη σελίδα παρουσιάζονται οι πίνακες αποτελεσμάτων του μοντέλου δέντρου αποφάσεων. Ο πρώτος πίνακας απεικονίζει τη Μήτρα Σύγχυσης ( Confusion Matrix ) του μοντέλου. Μήτρα Σύγχυσης Αλγόριθμος Ηunt true good true bad class precision pred. good % pred. bad % class recall 98.47% 61.44% Η Ακρίβεια του Μοντέλου μας δίνει το ποσοστό των σωστών εκτιμήσεων στο σύνολο ελέγχου, δηλαδή αποτελεί το άθροισμα των σωστά εκτιμημένων καλών και των σωστά εκτιμημένων κακών προς το σύνολο ελέγχου. Κατηγοριοποίηση Πελατών Λιανικής Τραπεζικής Page 58

59 Το μοντέλο παρουσιάζει ιδιαίτερα ικανοποιητική Ακρίβεια που φτάνει στο 92%. H Ανάκληση ( Recall ) για την κλάση του «Κακού» Πελάτη που μας ενδιαφέρει μας δίνει το ποσοστό των σωστά εκτιμημένων κακών πελατών επί του συνόλου των πραγματικά κακών, δηλαδή δίνεται από τον τύπο Παρατηρούμε ότι επί συνόλου κακών πελατών που περιλαμβάνονται στο σύνολο ελέγχου, το 61.44% εκτιμήθηκε ορθά ως κακό από το μοντέλο, ενώ 716 κακοί στην πραγματικότητα πελάτες εκτιμήθηκαν λανθασμένα ως καλοί (38.56%). Υπάρχει λοιπόν μια σχετική τάση του μοντέλου να υποεκτιμά τους κακούς πελάτες, παρά το γεγονός ότι το ποσοστό της ανάκλησης κινείται σε θετικά επίπεδα (>60%). Η Ακρίβεια ( Precision ) για την ίδια κλάση εκφράζει αντίστοιχα το ποσοστό των σωστά εκτιμημένων κακών είναι Η Ακρίβεια και η Ανάκληση της κλάσης μπορούν να συνοψιστούν σε ένα μέτρο που ονομάζεται Μέτρο f (f-measure) και που αποτελεί τον αρμονικό μέσο των δύο μετρικών O αρμονικός μέσος δύο αριθμών τείνει είναι πιο κοντά προς το χαμηλότερο, οπότε μια ικανοποιητική του τιμή μας δείχνει ότι και οι δύο μετρικές κινούνται σε καλά επίπεδα. Η Καμπύλη Χαρακτηριστικής Λειτουργίας Δείκτη ( Receiver Operating Characteristic Curve ή ROC) είναι μια γραφική παράσταση της σχέσης ανάμεσα στους σωστά εκτιμημένους κακούς πελάτες (αληθής θετικός βαθμός) και τους λανθασμένα εκτιμημένους κακούς πελάτες (ψευδώς θετικός βαθμός). Στην Καμπύλη Κατηγοριοποίηση Πελατών Λιανικής Τραπεζικής Page 59

60 ROC αναπαριστάμε τον αληθή θετικό βαθμό στον άξονα των Y και τον ψευδώς θετικό βαθμό στον άξονα των X. Σε έναν ιδανικό κατηγοριοποιητή, θα είχαμε ορθή εκτίμηση όλων των εγγραφών με αποτέλεσμα η καμπύλη ROC να σχηματίζει το Γ κινούμενη κατά μήκος του άξονα Υ ως το σημείο Β(0,1), (100% των σωστά εκτιμώμενων ως κακών) και στη συνέχεια παράλληλα με τον άξονα των Χ ως το σημείο Γ (1,1). Επομένως όσο πιο κοντά βρίσκεται η καμπύλη ROC στην πάνω αριστερή γωνία του επιπέδου ΧΥ τόσο πιο αποδοτικό το μοντέλο. Ένα μοντέλο που εκτιμά στην τύχη θα έχει καμπύλη ROC τη διαγώνιο ευθεία που ενώνει τα σημεία Ο(0,0) και Γ(1,1). Αντίστοιχα η Επιφάνεια κάτω από την Καμπύλη ( Area Under the Curve ή ΑUC) δίνει το ποσοστό της επιφάνειας του ΧΥ που βρίσκεται κάτω από την Καμπύλη ROC. Συνεπώς, όσο πιο καλό το μοντέλο, τόσο η AUC θα αυξάνεται, τείνοντας προς το 1 που είναι η μέγιστη τιμή που μπορεί να πάρει στην περίπτωση του ιδανικού μοντέλου. Είναι επίσης προφανές ότι AUC = 0.5 για ένα μοντέλο που επιλέγει τυχαία τις κλάσεις. Όπως φαίνεται στην παρακάτω εικόνα, η τιμή AUC για το μοντέλο μας ανέρχεται σε 0.87, τιμή πολύ ικανοποιητική (> 0.8) Καμπύλη ΑUC Αλγόριθμος Hunt Κατηγοριοποίηση Πελατών Λιανικής Τραπεζικής Page 60

61 Δέντρο Απόφασης Αλγόριθμος Ηunt Από το σχήμα του Δέντρου Απόφασης του μοντέλου, προκύπτει ότι σαν κόμβος ρίζα επελέγη ο τύπος του δανείου (Loan type). Στο δεύτερο επίπεδο βάθους έχουμε τρεις κόμβους φύλλα. Είναι τα δάνεια αυτοκινήτων που οδηγούν στην κλάση καλών πελατών με συντριπτική πλειοψηφία (8.845/9.208 εγγραφές), τα καταναλωτικά δάνεια που επίσης οδηγούν στην κλάση Κατηγοριοποίηση Πελατών Λιανικής Τραπεζικής Page 61

62 των καλών πελατών με μεγάλη πλειοψηφία (3.178/3.633) και τα αναδιαρθρωμένα δάνεια που οδηγούν στην κλάση των κακών πελατών εξ ορισμού. Επίσης στο δεύτερο επίπεδο έχουμε ως εσωτερικό κόμβο τη μέγιστη καθυστέρηση που εμφάνισε ο πελάτης στους τελευταίους 12 μήνες που προκύπτει ως δεύτερο κριτήριο απόφασης για τα προσωπικά δάνεια, ενώ ο πέμπτος τύπος δανείου, τα ρυθμισμένα, οδηγεί στο δεύτερο επίπεδο βάθους στο κριτήριο των ημερών καθυστέρησης κατά την ημερομηνία αναφοράς του δείγματος (current bucket). Στο τρίτο επίπεδο βάθους έχουμε τους κόμβους φύλλα που προκύπτουν από την εξέταση της καθυστέρησης των τελευταίων 12 μηνών. Οι πελάτες με προσωπικά δάνεια που δεν παρουσίασαν ποτέ έστω και μία ημέρα καθυστέρησης κατηγοριοποιούνται ως καλοί, ενώ αντιθέτως εκείνοι που παρουσίασαν καθυστέρηση άνω των 90 ημερών (fourth bucket) κατηγοριοποιούνται σαν κακοί πελάτες. Για τα ενδιάμεσα διαστήματα καθυστέρησης 0-30 ημέρες και ημέρες εξετάζεται ως επιπλέον κριτήριο (εσωτερικός κόμβος σε βάθος 3) η καθυστέρηση κατά την ημερομηνία αναφοράς (current bucket). Για το διάστημα ημέρες εξετάζεται ως επιπλέον κριτήριο το αρχικό ποσό του δανείου. Ο εσωτερικός κόμβος current bucket του δεύτερου επιπέδου βάθους, μας δίνει στο τρίτο επίπεδο τον κόμβο φύλλο κακού πελάτη αν οι ημέρες καθυστέρησης κατά την ημερομηνία αναφοράς ήταν μεταξύ 0 και 30 ημέρες, ενώ αν δεν υπήρχε καθυστέρηση κατά την ημερομηνία αναφοράς εξετάζεται ως επιπλέον κριτήριο στο τρίτο επίπεδο βάθους το κριτήριο της μέγιστης καθυστέρησης κατά το διάστημα παρατήρησης του δείγματος. Στο τέταρτο επίπεδο έχουμε την ανάδειξη δέκα κόμβων φύλλων και ενός ακόμη εσωτερικού κόμβου, του αρχικού ποσού δανείου και καταλήγουμε στο πέμπτο και τελευταίο επίπεδο βάθους με την ανάδειξη τριών ακόμη τελικών κόμβων (φύλλων). πίνακα Τα αποτελέσματα του δέντρου παρουσιάζονται διαγραμματικά στον παρακάτω Βάθος 1 Βάθος 2 Βάθος 3 Βάθος 4 Βάθος 5 Κατηγοριοποίηση Πελατών Λιανικής Τραπεζικής Page 62

63 Loan Type Car Loan Consumer Distressed Personal Rescheduled Καλός Καλός Κακός Max bucket last 12 months Current bucket Current First Second Third Fourth Current First Καλός Current Bucket Current Bucket Initial amount Κακός Max bucket last 12 months Κακός Current First Current First low med high Current First Second Third Καλός Κακός Καλός Κακός Κακός Κακός Καλός Καλός Καλός Initial amount Κακός low med high Κακός Καλός Καλός 5.2 AΛΓΟΡΙΘΜΟΣ CHAID Εφαρμόσαμε και για τον αλγόριθμο CHAID την ίδια παραμετροποίηση με τον αλγόριθμο του Hunt, προκειμένου να έχουμε άμεση συγκρισιμότητα των αποτελεσμάτων. Miner Η εικόνα που ακολουθεί μας δείχνει την υλοποίηση του μοντέλου στο Rapid Κατηγοριοποίηση Πελατών Λιανικής Τραπεζικής Page 63

64 Όπως θα δούμε αμέσως παρακάτω τα αποτελέσματα των δύο αλγορίθμων να είναι σχεδόν ίδια με ελάχιστες αποκλίσεις. Μήτρα Σύγχυσης Αλγόριθμος CHAID true good true bad class precision pred. good ,65% pred. bad ,09% class recall 99,10% 57,30% H Ακρίβεια του μοντέλου είναι Accuracy CHAID = 91.81% ενώ η ακρίβεια της κλάσης του «Κακού» είναι Precision Bad, CHAID = 93.09% και η ανάκληση αντίστοιχα ανέρχεται σε Recall Bad, CHAID = 57.3%. To μέτρο f ανέρχεται σε 70.93% και η τιμή AUC σε Οι τιμές των μετρικών για τον αλγόριθμο CHAID παρουσιάζονται στον παρακάτω πίνακα: Πίνακας Μετρικών Αλγόριθμος CHAID Μετρική Τιμή Accuracy CHAID 91.81% Κατηγοριοποίηση Πελατών Λιανικής Τραπεζικής Page 64

65 f-measure CHAID 70.93% AUC CHAID Precision Bad, CHAID 93.09% Recall Bad, CHAID 57.3% Καμπύλη AUC Αλγόριθμος CHAID Στο επόμενο κεφάλαιο, θα αντιπαραβάλλουμε τα αποτελέσματα των δύο μοντέλων Δέντρου Απόφασης με τα άλλα μοντέλα Κατηγοριοποίησης που παρουσιάσαμε στο τρίτο κεφάλαιο της παρούσας εργασίας. 7. ΕΦΑΡΜΟΓΗ ΑΛΛΩΝ ΜΟΝΤΕΛΩΝ ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗΣ 7.1 ΚΑΤΗΓΟΡΙΟΠΟΙΗΤΗΣ ΚΑΝΟΝΩΝ (RULE BASED CLASSIFIER) Για το μοντέλο του Καηγοριοποιητή Κανόνων χωρίσαμε και πάλι το δείγμα δεδομένων σε δείγμα εκπαίδευσης (70%) και δείγμα ελέγχου (30%) και επιλέξαμε ως κριτήριο διαχωρισμού το Κέρδος Πληροφορίας, όπως ακριβώς και στην Κατηγοριοποίηση Πελατών Λιανικής Τραπεζικής Page 65

66 περίπτωση των Επαγωγικών Δέντρων Απόφασης. Θέσαμε ως κατώτατο όριο πλειοψηφίας ετικέτας το 90% προκειμένου να θεωρούμε ένα κόμβο καθαρό. Επίσης θέσαμε κατώτατο όριο βελτίωσης το 25% προκειμένου να γίνεται κλάδεμα ενός κλαδιού. Η ανάπτυξη κι εφαρμογή του μοντέλου στο Rapid Miner απεικονίζεται παρακάτω Τα αποτελέσματα του αλγορίθμου παρουσιάζονται παρακάτω Μήτρα Σύγχυσης Κατηγοριοποιητής Κανόνων true good true bad class precision pred. good ,92% pred. Bad ,35% class recall 98,60% 41,90% H Ακρίβεια του μοντέλου υπολογίστηκε σε 88.71% Κατηγοριοποίηση Πελατών Λιανικής Τραπεζικής Page 66

67 Επίσης το μέτρο F του μοντέλου υπολογίστηκε σε 56.42% Στον παρακάτω πίνακα αποτυπώνονται όλες οι μετρικές του Κατηγοριοποιητή Κανόνων Κατηγοριοποιητής Κανόνων Μετρική Τιμή Accuracy 88.71% f-measure 56.42% AUC Precision Bad 86.35% Recall Bad 41.9% Κατηγοριοποίηση Πελατών Λιανικής Τραπεζικής Page 67

68 Η γραφική παράσταση της παραμέτρου AUC παρουσιάζεται παρακάτω: Καμπύλη AUC Κατηγοριοποιητής Κανόνων μορφή: Τα αποτελέσματα του Κατηγοριοποιητή Κανόνων παρουσιάζονται με την εξής Kατηγοριοποιητής Κανόνων 1 if MaxBucketLast12M = current then good (16626 / 1475) 2 if Current bucket = current and TenorInMonths = [ ] then good (2086 / 525) 3 if Loan type = distressedrestructured then bad (0 / 1242) 4 if Current bucket = current and Loan type = carloan then good (404 / 63) 5 if MaxBucketLast12M = firstbucket and Current bucket = current then good (514 / 168) 6 if MaxBucketLast12M = firstbucket and Loan type = carloan then good (211 / 87) 7 if MaxBucketLast12M = secondbucket and Current bucket = firstbucket then bad (104 / 233) 8 if Loan type = consumerloan and MaxBucketLast12M = firstbucket then good (211 / 113) 9 if MaxBucketLast12M = thirdbucket and Current Balance = then bad (8 / 39) 10 if Postal Code = SOUTH GREECE and TenorInMonths = [ ] then bad (91 / 133) 11 if Current Balance = > and Current bucket = firstbucket then bad (16 / 34) 12 if Age = [ ] and Current Balance = then good (33 / 11) 13 if EducationalStatus = uneducated_basic and Current Balance = then bad (6 / 22) 14 if EducationalStatus = mesiekpedefsi and Interest Rate Type = variable then good (60 / 38) Κατηγοριοποίηση Πελατών Λιανικής Τραπεζικής Page 68

69 15 if MaxBucketLast12M = thirdbucket and Postal Code = SOUTH GREECE then bad (3 / 15) 16 if EducationalStatus = tei_aei and Postal Code = SOUTH GREECE then bad (6 / 19) 17 if MoBs = [ ] and Interest rate Value = 6.55%-10% then good (11 / 4) 18 if Interest rate Value = 10%-13.6% and TenorInMonths = [ ] then bad (56 / 66) 19 if Current Balance = <= then good (4 / 0) 20 if Interest Rate Type = variable and Initial Amount = high_amount then good (3 / 1) 21 if TenorInMonths = [ ] and MaritalStatus = agamos then good (6 / 3) 22 if Age = [ ] and Postal Code = NORTH GREECE then bad (2 / 6) 23 if MaritalStatus = egamos and Current bucket = firstbucket then good (33 / 23) 24 else bad (4 / 10) 7.2 KΑΤΗΓΟΡΙΟΠΟΙΗΤΗΣ ΠΛΗΣΙΕΣΤΕΡΟΥ ΓΕΙ ΤΟΝΑ Το επόμενο μοντέλο που εξετάσαμε είναι αυτό του Πλησιέστερου Γείτονα. Για την ανάπτυξη του μοντέλου χρησιμοποιήσαμε για την παράμετρο Κ την τιμή 5 (Κ=5). Με την επιλογή αυτή λαμβάνονται υπόψη οι 5 πλησιέστερες εγγραφές του δείγματος εκπαίδευσης για την κατηγοριοποίηση κάθε άγνωστης εγγραφής. Σαν μέτρο εγγύτητας επιλέξαμε την ομοιότητα εσωτερικού γινομένου, γιατί αυτή η μετρική μας έδωσε τα καλύτερα αποτελέσματα ανάκλησης για την κλάση του κακού πελάτη. Παρουσιάζουμε όμως εναλλακτικά και τα αποτελέσματα με χρήση της Ευκλείδειας απόστασης που έδωσε μεγαλύτερη Ακρίβεια. Προχωρήσαμε επίσης σε κανονικοποίηση των μεταβλητών έτσι ώστε να μην έχουμε επίδραση στα αποτελέσματα από τις διαφορετικές κλίμακες μεγεθών των μεταβλητών. Επίσης σταθμίσαμε το βάρος των 5 πλησιέστερων εγγραφών με συντελεστή αντίστροφο της εγγύτητάς τους, έτσι ώστε να αποφύγουμε την επίδραση από πιο μακρινούς γείτονες και αντίστοιχα να αυξήσουμε τη βαρύτητα της επίδρασης των αποτελεσμάτων από τους πλησιέστερους. Η ανάπτυξη του μοντέλου στο Rapid Miner απεικονίζεται παρακάτω: Κατηγοριοποίηση Πελατών Λιανικής Τραπεζικής Page 69

70 Η Μήτρα Σύγχυσης του μοντέλου με μέτρο εγγύτητας την Ευκλείδεια απόσταση παρουσιάζεται στον παρακάτω πίνακα Μήτρα Σύγχυσης Πλησιέστερος Γείτονας (Κ=5) με Ευκλείδεια true good true bad class precision pred. good ,00% pred. bad ,35% class recall 95,41% 36,67% Οι μετρικές του μοντέλου συγκεντρώνονται στον πίνακα που ακολουθεί Κατηγοριοποιητής Πλησιέστερου Γείτονα(Ευκλείδεια) Μετρική Τιμή Accuracy 5-nn 87.79% f-measure 5-nn 43.79% AUC 5-nn Precision Bad, 5-nn 54.35% Κατηγοριοποίηση Πελατών Λιανικής Τραπεζικής Page 70

71 Recall Bad, 5-nn 36.67% Η Καμπύλη ΑUC για το μοντέλο Πλησιέστερου Γείτονα ακολουθεί Καμπύλη AUC Πλησιέστερος Γείτονας 5-nn (Ευκλείδεια) Μετρικές Πλησιέστερου Γείτονα με Ομοιότητα Εσωτερικού Γινομένου Κατηγοριοποιητής Πλησιέστερου Γείτονα (Εσωτερικό Γινόμενο) Μετρική Τιμή Accuracy 5-nn 82.94% f-measure 5-nn 45.93% AUC 5-nn Precision Bad, 5-nn 39.00% Recall Bad, 5-nn 55.87% Κατηγοριοποίηση Πελατών Λιανικής Τραπεζικής Page 71

72 7.3 ΚΑΤΗΓΟΡΙΟΠΟΙΗΤΗ Σ BAYES Για το συγκεκριμένο μοντέλο χωρίσαμε και πάλι τα δεδομένα μας στο δείγμα εκπαίδευσης (70%) και στο δείγμα ελέγχου (30%). Στη συνέχεια αναπτύξαμε το μοντέλο στο Rapid Miner όπως απεικονίζεται στην εικόνα που ακολουθεί Κατηγοριοποίηση Bayes στο Rapid Miner πίνακα Τα αποτελέσματα του κατηγοριοποιητή Bayes συνοψίζονται στον παρακάτω Κατηγοριοποίηση Πελατών Λιανικής Τραπεζικής Page 72

73 Μετρικές Κατηγοριοποιητή Βayes Κατηγοριοποιητής Bayes Μετρική Τιμή Accuracy Bayes 90.98% f-measure Bayes 72.21% AUC Bayes Precision Bad, Bayes 77.69% Recall Bad, Bayes 67.44% H μήτρα σύγχυσης για τον κατηγοριοποιητή Bayes διαμορφώθηκε ως ακολούθως Μήτρα Σύγχυσης Κατηγοριοποιητής Bayes true good true bad class precision pred. Good ,34% pred. Bad ,69% class recall 95,93% 67,44% Κατηγοριοποίηση Πελατών Λιανικής Τραπεζικής Page 73

74 Καμπύλη AUC Κατηγοριοποιητής Bayes 7.4 ΤΕΧΝΗΤΟ ΝΕΥΡΩΝΙΚΟ ΔΙΚΤΥΟ (ARTIFICIAL NEURAL NETWORK) Για την ανάπτυξη του μοντέλου χωρίσαμε τα δεδομένα μας στο δείγμα εκπαίδευσης (70%) και στο δείγμα ελέγχου (30%) όπως ακριβώς και με τα άλλα μοντέλα κατηγοριοποίησης. Χρησιμοποιήσαμε τον τελεστή Neural Net του Rapid Miner, οποίος βασίζεται στη δημιουργία νευρωνικών δικτύων εμπρόσθιας τροφοδότησης (η δομή του δικτύου επιτρέπει συνδέσμους μόνο από τους κόμβους ενός επιπέδου στους κόμβους του επόμενου επιπέδου και όχι του ίδιου ή προηγούμενου). H ανάπτυξη του μοντέλου στο Rapid Miner απεικονίζεται ακολούθως Κατηγοριοποίηση Πελατών Λιανικής Τραπεζικής Page 74

75 Επίσης χρησιμοποιεί την τεχνική της οπισθοδρόμησης (back propagation) σύμφωνα με την οποία υπάρχουν δύο φάσεις στην εκτέλεση του αλγορίθμου προσαρμογής των συντελεστών βάρους. Η πρώτη φάση, η εμπρόσθια, εξελίσσεται με τα βάρη που υπολογίζονται σε κάθε επανάληψη να χρησιμοποιούνται για την προσαρμογή των βαρών στην επόμενη επανάληψη, προχωρώντας προς αυτή την κατεύθυνση μέχρι την ολοκλήρωση του αλγορίθμου. Κατά τη δεύτερη φάση, την οπίσθια, η προσαρμογή των βαρών γίνεται ανάποδα. Δηλαδή οι υπολογισθείσες τιμές των βαρών στην τελευταία επανάληψη χρησιμοποιούνται για να υπολογισθεί Κατηγοριοποίηση Πελατών Λιανικής Τραπεζικής Page 75

76 το σφάλμα εκτίμησης. Το αποτέλεσμα αυτό στη συνέχεια χρησιμοποιείται για την προσαρμογή των συντελεστών στο προηγούμενο επίπεδο κ.ο.κ. Θέσαμε το συντελεστή εκμάθησης στο 0.2 με δυνατότητα να μειώνεται σταδιακά με την αύξηση των επαναλήψεων (επιλογή παραμέτρου decay). Ορίσαμε σε 500 τον αριθμό των επαναλήψεων εκπαίδευσης (default value) και θέσαμε το όριο σφάλματος εκτίμησης στο (10-3 ). Τέλος διαπιστώσαμε ότι το μοντέλο βελτίωνε την απόδοσή του με την προσθήκη ενδιάμεσων κρυφών κόμβων και καταλήξαμε με τρία κρυφά επίπεδα. Η δομή του δικτύου απεικονίζεται στο ακόλουθο διάγραμμα: Δομή Δικτύου Τεχνητής Νοημοσύνης Η μήτρα σύγχυσης του μοντέλου διαμορφώθηκε ως εξής: Κατηγοριοποίηση Πελατών Λιανικής Τραπεζικής Page 76

77 Μήτρα Σύγχυσης Νευρωνικά Δίκτυα true good true bad class precision pred. good ,83% pred. bad ,14% class recall 98,35% 64,08% Ο πίνακας με τις τιμές μετρικών του μοντέλου ακολουθεί Κατηγοριοποίηση με Τεχνητά Νευρωνικά Δίκτυα Μετρική Τιμή Accuracy ANN 92.37% f-measure ANN 74.56% AUC ANN Precision Bad, ANN 89.14% Recall Bad, ANN 64.08% Καμπύλη AUC Τεχνητό Νευρωνικό Δίκτυο Κατηγοριοποίηση Πελατών Λιανικής Τραπεζικής Page 77

78 Εναλλακτικά εξετάσαμε το μοντέλο Deep Learning, όπου χρησιμοποιήσαμε σαν συνάρτηση ενεργοποίησης τη maxout γιατί με αυτή προσεγγίζει καλύτερα τα δεδομένα μας. Κατά τη συγκεκριμένη συνάρτηση, δημιουργούνται υποδίκτυα μέσα στα δίκτυα με συνδεδεμένους εσωτερικούς κόμβους των κρυφών επιπέδων, στους οποίους υπολογίζονται γραμμικοί μετασχηματισμοί μιας μη γραμμικής συνάρτησης. Σαν αποτέλεσμα εξόδου λαμβάνεται το max των γραμμικών αυτών μετασχηματισμών. Στην εικόνα που ακολουθεί φαίνεται η ανάπτυξη του μοντέλου στο RapidMiner. Στον παρακάτω πίνακα παρατίθεται η μήτρα σύγχυσης του μοντέλου Μήτρα Σύγχυσης Deep Learning ANN true good true bad class precision pred. good ,90% pred. bad ,76% class recall 96,22% 70,49% Κατηγοριοποίηση Πελατών Λιανικής Τραπεζικής Page 78

79 Κατηγοριοποίηση με Τεχνητά Νευρωνικά Δίκτυα Deep Learning Μετρική Τιμή Accuracy ANN-DL 91.72% f-measure ANN-DL 74.56% AUC ANN-DL Precision Bad, ANN-DL 79.76% Recall Bad, ANN-DL 70.44% 7.5 ΜΗΧΑΝΗ ΔΙΑΝΥΣΜΑΤΩΝ ΥΠΟΣΤΗΡΙΞΗΣ (SUPPORT VECTOR MACHINE) Για το συγκεκριμένο μοντέλο χρησιμοποιήσαμε τον τελεστή της βελτιστοποίησης (optimization) έτσι ώστε να ελέγξουμε το υπολογιστικό κόστος για την εύρεση της καλύτερης δυνατής παραμετροποίησης του SVM, ώστε να έχουμε και τα καλύτερα δυνατά αποτελέσματα με τη χρήση του. Η ανάπτυξη του μοντέλου στο Rapid Miner απεικονίζεται παρακάτω Κατηγοριοποίηση Πελατών Λιανικής Τραπεζικής Page 79

80 Κατηγοριοποίηση Πελατών Λιανικής Τραπεζικής Page 80

81 Τα αποτελέσματα του SVM παρατίθενται παρακάτω Μήτρα Σύγχυσης Μηχανές Διανυσμάτων Υποστήριξης true good true bad class precision pred. good ,90% pred. bad ,57% class recall 99,50% 41,25% Κατηγοριοποίηση με Μηχανές Διανυσμάτων Υποστήριξης Μετρική Τιμή Accuracy SVM 89.33% f-measure SVM 57.44% AUC SVM Precision Bad, SVM 94.57% Recall Bad, SVM 41.25% Κατηγοριοποίηση Πελατών Λιανικής Τραπεζικής Page 81

82 Καμπύλη AUC Μηχανή Υποστήριξης Διανυσμάτων Κατηγοριοποίηση Πελατών Λιανικής Τραπεζικής Page 82

83 8. OΜΑΔΕΣ ΚΑΤΗΓΟΡΙΟΠΟΙΗΤΩΝ 8.1 OΜΑΔΑ ΚΑΤΗΓΟΡΙΟΠΟΙΗΤΩΝ ΜΕ ΠΡΟΒΛ ΕΨΗ ΚΑΤΑ ΠΛΕΙΟΨΗΦΙΑ (VOTE) To πρώτο μοντέλο Ομάδας κατηγοριοποιητών που δοκιμάσαμε, αποτελεί συνδυασμό των βασικών μοντέλων Δέντρου Απόφασης (αλγόριθμος Hunt), απλοϊκού Bayes και Τεχνητού Νευρωνικού Δικτύου (Deep Learner. Η παραμετροποίηση των βασικών κατηγοριοποιητών στο RapidMiner είναι ακριβώς αυτή που ακολουθήσαμε κατά την εξέταση των συγκεκριμένων αλγορίθμων στο προηγούμενο κεφάλαιο. Η τελική επιλογή της ετικέτας κατηγορίας για κάθε εγγραφή γίνεται με βάση την τιμή που έχει προβλεφθεί κατά απλή πλειοψηφία από τους βασικούς κατηγοριοποιητές. Οι παρακάτω εικόνες απεικονίζουν την ανάπτυξη του μοντέλου στο RapidMiner Κατηγοριοποίηση Πελατών Λιανικής Τραπεζικής Page 83

84 Ακολουθούν η μήτρα σύγχυσης και ο πίνακας αποτελεσμάτων του συγκεκριμένου μοντέλου Μήτρα Σύγχυσης Ομάδα Κατηγοριοποιητών (Vote) true good true bad class precision pred. good ,59% pred. bad ,68% class recall 97,18% 68,50% Κατηγοριοποίηση Πελατών Λιανικής Τραπεζικής Page 84

85 Κατηγοριοποίηση με Ομάδα Κατηγοριοποιητών (Vote) Μετρική Τιμή Accuracy VOTE 92.17% f-measure VOTE 75.33% AUC VOTE Precision Bad, VOTE 83.68% Recall Bad, VOTE 68.50% 8.2 ΜΟΝΤΕΛΟ ΕΝΙ ΣΧΥΣΗΣ (BOOSTI NG) ΜΕ ΤΟΝ ΑΛΓΟΡΙΘΜΟ ADABOOST H Ενίσχυση (Boosting) είναι όπως αναφέραμε και στο Κεφάλαιο 2, μία από τις βασικές μεθοδολογίες κατασκευής Ομάδων Κατηγοριοποιητών με την προσέγγιση της Διαχείρισης του Δείγματος Εκπαίδευσης. Σύμφωνα με την προσέγγιση αυτή, υπάρχουν διαδοχικές δειγματοληπτικές επιλογές με επανάθεση των εγγραφών του δείγματος εκπαίδευσης. Με κάθε τέτοια δειγματοληψία δημιουργείται ένα νέο σύνολο δεδομένων, που χρησιμοποιείται στη συνέχεια για την εκπαίδευση του βασικού μας κατηγοριοποιητή και στη συνέχεια για να κατηγοριοποιηθούν το σύνολο των εγγραφών του αρχικού συνόλου. Στο αρχικό στάδιο όλες οι εγγραφές του αρχικού συνόλου εκπαίδευσης έχουν την ίδια βαρύτητα (1/ν αν υποθέσουμε ν το μέγεθος του δείγματος εκπαίδευσης). Μετά από κάθε δειγματοληψία, τα βάρη αναπροσαρμόζονται, έτσι ώστε να δίνεται μεγαλύτερη βαρύτητα και τελικά να κυριαρχούν στα δείγματα που επιλέγονται, οι εγγραφές εκείνες που κατηγοριοποιούνται λανθασμένα. Έστω ότι { (x j, y j ) j = 1,.,N} ένα σύνολο Ν δειγμάτων εκπαίδευσης. Στον αλγόριθμο AdaBoost, η σημασία βασικού κατηγοριοποιητή C i εξαρτάται από το βαθμό σφάλματος, ο οποίος ορίζεται ως Κατηγοριοποίηση Πελατών Λιανικής Τραπεζικής Page 85

86 Όπου Ι(p) = 1 αν το κατηγόρημα είναι αληθές και 0 διαφορετικά. Η σημασία του κατηγοριοποιητή C i δίνεται από την ακόλουθη παράμετρο Γίνεται εύκολα αντιληπτό ότι όσο ο βαθμός σφάλματος τείνει προς το 1, το α παίρνει αρνητική τιμή και αντιστρόφως όσο ο βαθμός σφάλματος τείνει προς το 0, το α παίρνει θετικές τιμές. Η παράμετρος α i χρησιμοποιείται για την ενημέρωση των βαρών (j) των δειγμάτων εκπαίδευσης. Για παράδειγμα, έστω ότι w i το βάρος που αποδίδεται στην εγγραφή (x i, y i ) κατά τη j-οστή επανάληψη της διαδικασίας ενίσχυσης. Ο μηχανισμός ενημέρωσης των βαρών του αλγορίθμου AdaBoost δίνεται από τη σχέση Όπου Ζ j o παράγοντας κανονικοποίησης που χρησιμοποιείται για να διασφαλίσουμε ότι τα βάρη w i αθροίζουν στη μονάδα. Η παραπάνω σχέση αυξάνει τα βάρη για τις εγγραφές που έχουν κατηγοριοποιηθεί εσφαλμένα και μειώνει τα βάρη για τις εγγραφές που έχουν κστηγοριοποιηθεί σωστά. Με τον αλγόριθμο AdaBoost βλέπουμε ότι μας δίνεται η δυνατότητα να βελτιώσουμε σταδιακά ένα βασικό κατηγοριοποιητή που έχουμε επιλέξει αρχικά. Στην εργασία μας επιλέξαμε σαν βασικό αλγόριθμο το Δέντρο Απόφασης (Hunt), θέτοντας τις ίδιες παραμέτρους, όπως στο προηγούμενο κεφάλαιο. Εφαρμόζοντας τον αλγόριθμο Ενίσχυσης AdaBoost με 15 επαναλήψεις καταλήξαμε στα παρακάτω αποτελέσματα Κατηγοριοποίηση Πελατών Λιανικής Τραπεζικής Page 86

87 Κατηγοριοποίηση με Ομάδα Κατηγοριοποιητών - Ενίσχυση (AdaBoost) Μετρική Τιμή AdaBoost Tιμή Δ.Α. (Hunt) Accuracy ADABOOST-DT 92.29% 92.01% f-measure ADABOOST-DT 74.04% 72.86% AUC ADABOOST-DT Precision Bad, ADABOOST-DT 89.76% 89.49% Recall Bad, ADABOOST-DT 63.00% 61.44% Aπό τον παραπάνω πίνακα φαίνεται ότι με την Ενίσχυση επιτυγχάνουμε ελαφρά βελτίωση του Δέντρου Απόφασης. Δοκιμάζοντας αντίστοιχα τον αλγόριθμο στο μοντέλο ANN-Deep Learning διαπιστώσαμε επίσης βελτίωση στην Ακρίβεια του Μοντέλου και στην Ακρίβεια Κλάσης του κακού πελάτη, αλλά είχαμε πολύ μικρή επιδείνωση της Ανάκλησης της κλάσης του κακού πελάτη. Κατηγοριοποίηση με Ομάδα Κατηγοριοποιητών - Ενίσχυση (AdaBoost) Μετρική Τιμή AdaBoost Tιμή DL Accuracy ADABOOST-DL 91.98% 91.72% f-measure ADABOOST-DL 74.43% 74.56% AUC ADABOOST -DL Precision Bad, ADABOOST-DL 83.89% 79.76% Recall Bad, ADABOOST-DL 66.88% 70.44% Κατηγοριοποίηση Πελατών Λιανικής Τραπεζικής Page 87

88 8.3 ΜΟΝΤΕΛΟ ΕΜΦΩΛΙΑΣΗΣ ΣΥΝΑΘΡΟΙΣΗΣ ΑΥΤΟΔΥΝΑΜΙΑΣ (BAGGI NG) H Εμφωλίαση είναι μια άλλη σημαντική μεθοδολογία στη Διαχείριση του Δείγματος Εκπαίδευσης για την κατασκευή Ομάδας Κατηγοριοποιητών. Κατά την Εμφωλίαση, πραγματοποιούνται επαναληπτικές δειγματοληψίες με επανάθεση στο σύνολο εκπαίδευσης. Οι δειγματοληψίες γίνονται σύμφωνα με μια ομοιόμορφη κατανομή πιθανότητας. Κάθε δείγμα που παράγεται έχει το ίδιο πλήθος δεδομένων με το σύνολο εκπαίδευσης. Αυτό σημαίνει ότι κάποιες εγγραφές του συνόλου εκπαίδευσης μπορεί να εμφανιστούν πολλές φορές σε κάθε δειγματοληψία, αφού αυτή πραγματοποιείται με επανάθεση. Συνεπώς κάποιες άλλες εγγραφές αυτομάτως θα τείνουν να εξαλειφθούν. Όσο μεγαλύτερος ο αριθμός των δειγματοληψιών, το πλήθος των αρχικών δεδομένων που θα έχουν επιλεγεί στα δείγματα συγκλίνει στο 63.2% του συνόλου εκπαίδευσης. Μετά την εκπαίδευση k Κατηγοριοποιητών, μια εγγραφή ελέγχου αποδίδεται σε εκείνη την κατηγορία που λαμβάνει το μεγαλύτερο πλήθος ψήφων. Η απόδοση της Εμφωλίασης εξαρτάται από τη σταθερότητα του βασικού κατηγοριοποιητή. Αν ο βασικός κατηγοριοποιητής είναι αρκετά σταθερός, τότε ανταποκρίνεται καλά σε μικρές διαταραχές του συνόλου εκπαίδευσης. Αυτό σημαίνει ότι το σφάλμα της ομάδας οφείλεται κυρίως στη μεροληψία του βασικού Κατηγοριοποίηση Πελατών Λιανικής Τραπεζικής Page 88

89 κατηγοριοποιητή. Σε αυτή την περίπτωση η Εμφωλίαση δε θα βοηθήσει στη βελτίωση του αποτελέσματος, ενώ αντίθετα μπορεί να προκαλέσει και επιδείνωση λόγω της χρήσης ενός ποσοστού περίπου 65% των δεδομένων του συνόλου εκπαίδευσης. Αξίζει επίσης να σημειωθεί ότι δεδομένης της ίδιας πιθανότητας που έχει κάθε εγγραφή να επιλεγεί, η εμφωλίαση δεν επικεντρώνεται σε συγκεκριμένες εγγραφές όπως η Ενίσχυση με αποτέλεσμα να είναι λιγότερο επιρρεπής σε υπερπροσαρμογή του μοντέλου. Στην εργασία εφαρμόσαμε την εμφωλίαση στο μοντέλο του Δέντρου Απόφασης (Hunt) και προέκυψαν τα αποτελέσματα του παρακάτω πίνακα Κατηγοριοποίηση με Ομάδα Κατηγοριοποιητών - Εμφωλίαση (Βagging) Μετρική Τιμή Bagging Tιμή Δ.Α. (Hunt) Accuracy BAGGING 91.97% 91.72% f-measure BAGGING 73.06% 74.56% AUC BAGGING Precision Bad, BAGGING 88.04% 79.76% Recall Bad, BAGGING 62.44% 70.44% μοντέλο. Παρατηρούμε ότι η Εμφωλίαση έφερε χειρότερα αποτελέσματα από το βασικό 8.4 ΜΟΝΤΕΛΟ GRADIENT BOOSTED TREES To συγκεκριμένο μοντέλο αποτελεί μια γενίκευση της προσέγγισης AdaBoost που εξετάσαμε ήδη. Αντί της προσαρμογής των συντελεστών βάρους που έχουμε στην περίπτωση του AdaBoost, στο μοντέλο αυτό γίνεται προσθήκη σε κάθε επανάληψη και μιας συνάρτησης η οποία αποσκοπεί στη βελτίωση της πρόβλεψης (βελτιστοποίηση της αντικειμενικής συνάρτησης). Κατηγοριοποίηση Πελατών Λιανικής Τραπεζικής Page 89

90 Αν υποθέσουμε ότι έχουμε τα ζεύγη { (Χ 1, Υ 1 ), (Χ 2, Υ 2 ),..., (Χ Ν, Υ Ν )} όπου Χ 1,...Χ Ν είναι εγγραφές ενός συνόλου εκπαίδευσης και Υ 1,..., Υ Ν οι πραγματικές ετικέτες κατηγορίας. Στην πρώτη επανάληψη προσεγγίζουμε την πρόβλεψη ως εξής: Y i 0 = F(X i ) (1) Στο δεύτερο βήμα προσθέτουμε μια συνάρτηση Η(.) με σκοπό να προσεγγίσει τη διαφορά Υ F(X) και συνεπώς να βελτιώσει το αρχικό μοντέλο. Συνεπώς έχουμε Υ i (1) = F(X i ) + H(X i ) (2) Στα επόμενα βήματα αντίστοιχα προστίθενται κι άλλες συναρτήσεις με κριτήριο τη βελτιστοποίηση μιας αντικειμενικής συνάρτησης που έχουμε επιλέξει. Η προστιθέμενη σε κάθε βήμα συνάρτηση χρησιμοποιείται στην περίπτωση της παλινδρόμησης. Στην κατηγοριοποίηση, παίρνουμε σε κάθε βήμα ένα πρόσθετο δέντρο με διαφορετικές παραμέτρους, διαφορετικά κριτήρια επιλογής κόμβου, που αποσκοπεί στη βελτίωση της κατηγοριοποίησης. Παράμετροι που εξετάζονται σε ένα δέντρο είναι το βάθος, το κλάδεμα των φύλλων, το ελάχιστο μέγεθος φύλλου κλπ. Στην παρούσα εργασία έγινε εξέταση της συγκεκριμένης μεθοδολογίας με βασικό κατηγοριοποιητή το Δέντρο Απόφασης (Hunt). Επιλέξαμε τη χρήση 10 δέντρων το πολύ, με μέγιστο βάθος 5. Τα αποτελέσματα συνοψίζονται παρακάτω Κατηγοριοποίηση με Ομάδα Κατηγοριοποιητών - GBT Μετρική Τιμή GBT Tιμή Δ.Α. (Hunt) Accuracy GBT 92.15% 91.72% f-measure GBT 75.28% 74.56% AUC GBT Precision Bad, GBT 83.55% 79.76% Recall Bad, GBT 68.50% 70.44% Κατηγοριοποίηση Πελατών Λιανικής Τραπεζικής Page 90

91 Παρατηρούμε ότι η χρήση της συγκεκριμένης μεθοδολογίας βελτιώνει το βασικό μοντέλο. Κατηγοριοποίηση Πελατών Λιανικής Τραπεζικής Page 91

92 9. ΣΥΓΚΡΙΤΙΚΗ ΑΝΑΛΥΣΗ ΑΠΟΤΕΛΕΣΜΑΤΩΝ ΚΑΙ ΣΥΜΠΕΡΑΣΜΑΤΑ 9.1 ΠΟΣΟΤΙΚΑ ΚΡΙ ΤΗΡΙΑ ΜΕΤΡΙΚΕΣ ΑΠΟΔΟΣΗΣ ΜΟΝΤΕΛ ΩΝ Στα δύο προηγούμενα κεφάλαια εξετάσαμε το βασικό μας αλλά και εναλλακτικά μοντέλα κατηγοριοποίησης. Στο πέμπτο κεφάλαιο αναλύσαμε την κατηγοριοποίηση με τη μέθοδο του Δέντρου Απόφασης. Αναπτύξαμε μάλιστα δύο εναλλακτικούς αλγορίθμους Δέντρου Απόφασης, τον αλγόριθμο του Hunt και τον αλγόριθμο του CHAID. Στο έκτο κεφάλαιο παρουσιάσαμε εναλλακτικά μοντέλα κατηγοριοποίησης. Πιο συγκεκριμένα, παρουσιάστηκαν τα μοντέλα του Κατηγοριοποιητή Κανόνων, του Πλησιέστερου Γείτονα, του Bayes, τα Τεχνητά Νευρωνικά Δίκτυα και τέλος τις Μηχανές Υποστήριξης Διανυσμάτων. Στο έβδομο κεφάλαιο παρουσιάστηκαν μοντέλα Ομάδων Κατηγοριοποιητών Πίνακας Παραμέτρων Απόδοσης Κατηγοριοποιητών Accuracy f-measure AUC Precision Recall Hunt 92,01% 72,86% 0,87 89,49% 61,44% CHAID 91,81% 70,94% 0,901 93,09% 57,30% Induction Tree 88,71% 56,42% 0,784 86,35% 41,90% 5-NN Ευκλείδεια 87,79% 43,79% 0,785 54,35% 36,67% 5-ΝΝ Εσ. Γινόμενο 82,94% 45,94% 0,796 39,00% 55,87% Bayes 90,98% 72,20% 0,913 77,69% 67,44% ΑΝΝ- DL 91,72% 74,56% 0,921 79,76% 70,44% ANN 92,37% 74,56% 0,925 89,14% 64,08% SVM 89,33% 57,44% 0,897 94,57% 41,25% VOTE 92,17% 75,33% 0,864 93,59% 68,50% ADABOOST DT 92,29% 74,04% 0,823 89,76% 63,00% ADABOOST DL 91,98% 74,43% 0,88 83,89% 66,88% BAGGING DT 91,97% 73,06% 0,891 88,04% 62,44% GBT DT 92,15% 75,28% ,55% 68,50% Κατηγοριοποίηση Πελατών Λιανικής Τραπεζικής Page 92

93 Το πρόβλημα της κατηγοριοποίησης πιστούχων που εξετάζουμε στην παρούσα εργασία χαρακτηρίζεται από ασυμμετρία μεταξύ των δύο ετικετών. Οι κακοί πελάτες είναι πολύ λιγότεροι σε σύγκριση με τους καλούς πελάτες στο δείγμα. Επιπρόσθετα, η σημαντικότητα της σωστής εκτίμησης των κακών πελατών είναι πολύ μεγαλύτερη για τα πιστωτικά ιδρύματα,δεδομένης της ζημίας που αναμένεται να υπάρξει από μια δανειοδότηση σε ένα κακό πελάτη. Για τους παραπάνω λόγους εξετάσαμε και τα κριτήρια f-measure ΑUC πέραν της ακρίβειας (Accuracy) του υποδείγματος. Παρατηρούμε λοιπόν ότι τα μοντέλα βασικών κατηγοριοποιητών που ξεχωρίζουν σε απόδοση είναι αυτά του Δέντρου Απόφασης και οι δύο εναλλακτικές λύσεις που εξετάσαμε το μοντέλο που βασίζεται στα Τεχνητά Νευρωνικά Δίκτυα και το Μοντέλο Κατηγοριοποιητή Βayes. f-measure Κατηγοριοποιητών f-measure 80,00% 60,00% 72,86% 70,94% 56,42% 43,79% 45,94% 72,20% 74,56% 57,44% 40,00% 20,00% 0,00% Σε ό,τι αφορά το f-measure παρατηρούμε και από το παραπάνω διάγραμμα ότι την καλύτερη επίδοση παρουσιάζει ο Κατηγοριοποιητής Τεχνητών Νευρωνικών Δικτύων με 74.56%, ενώ ακολουθεί ο Κατηγοριοποιητής Δέντρου Απόφασης με τον αλγόριθμο του Hunt με 72.86%, ο Κατηγοριοποιητής Bayes με 72.20% και ο Κατηγοριοποιητής Δέντρου Απόφασης με τον αλγόριθμο του CHAID με 70.94%. Παρατηρούμε ότι και οι τέσσερις κατηγοριοποιητές υπερβαίνουν το 70% και Κατηγοριοποίηση Πελατών Λιανικής Τραπεζικής Page 93

94 υπερτερούν ξεκάθαρα των υπόλοιπων μοντέλων που για τη συγκεκριμένη μετρική κινούνται σε τιμές κάτω του 60% (Μηχανή Υποστήριξης Διανυσμάτων, Επαγωγικό Δέντρο) αλλά και του 50% (5-ΝΝ). Υπενθυμίζουμε ότι το f-μέτρο εκφράζει τον αρμονικό μέσο μεταξύ ακρίβειας (precision) και ανάκλησης (recall) για την ετικέτα του κακού πελάτη και η τιμή της βρίσκεται πιο κοντά στη χαμηλότερη εκ των δύο παραμέτρων. Λαμβάνοντας υπόψη ότι σε όλα σχεδόν τα μοντέλα που εξετάσαμε η ανάκληση ήταν χαμηλότερη από την ακρίβεια, οι υψηλές τιμές του f υποδηλώνουν και ικανοποιητικά υψηλές τιμές για την ανάκληση. Αυτό μεταφράζεται σε μειωμένο κίνδυνο λανθασμένης εκτίμησης ως καλού ενός κακού στην πραγματικότητα πελάτη, ένα σημείο στο οποίο εστιάζεται το ενδιαφέρον μας. Την παραπάνω διαπίστωση μπορούμε εύκολα να την επιβεβαιώσουμε και από τον παρακάτω πίνακα Διάγραμμα Τιμών Ακρίβειας και Ανάκλησης Κατηγοριοποιητών 100,00% 80,00% 60,00% 40,00% 20,00% 0,00% Precision Recall Σχετικά με την καμπύλη AUC, όπως φαίνεται και στο παρακάτω διάγραμμα, η καλύτερη επίδοση ανήκει και πάλι στον Κατηγοριοποιητή με Τεχνητά Νευρωνικά Δίκτυα (0.925), ακολουθεί ο Κατηγοριοποιητής Bayes (0.913), ο Κατηγοριοποιητής Δέντρου Απόφασης με τον αλγόριθμο CHAID (0.901) και ο Κατηγοριοποιητής με Μηχανή Υποστήριξης Διανυσμάτων (SVM, 0.897). Αξίζει να σημειωθεί ότι πολύ υψηλή τιμή εμφανίζει και ο Κατηγοριοποιητής Δέντρου Απόφασης με τον αλγόριθμο Hunt (0.87). Κατηγοριοποίηση Πελατών Λιανικής Τραπεζικής Page 94

95 Την υψηλότερη τιμή Ακρίβειας μοντέλου (Accuracy) εμφανίζει και πάλι ο Κατηγοριοποιητής με Τεχνητά Νευρωνικά Δίκτυα (92.37%), ακολουθεί ο Κατηγοριοποιητής Δέντρου Απόφασης με τον αλγόριθμο Hunt (92.01%), ο Κατηγοριοποιητής Δέντρου Απόφασης με τον αλγόριθμο CHAID (91.81%) και ο Κατηγοριοποιητής Bayes (90.98%). Τα συγκεκριμένα συγκριτικά αποτελέσματα αποτυπώνονται και στο αντίστοιχο διάγραμμα που ακολουθεί. Διάγραμμα Τιμών ΑUC Κατηγοριοποιητών 0,95 0,9 0,87 0,901 AUC 0,913 0,925 0,897 0,85 0,8 0,784 0,785 0,796 0,75 0,7 Διάγραμμα Τιμών Ακρίβειας Μοντέλου Κατηγοριοποιητών Accuracy 95,00% 92,01% 90,00% 91,81% 88,71% 87,79% 90,98% 92,37% 89,33% 85,00% 82,94% 80,00% 75,00% Κατηγοριοποίηση Πελατών Λιανικής Τραπεζικής Page 95

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Data Mining - Classification Data Mining Ανακάλυψη προτύπων σε μεγάλο όγκο δεδομένων. Σαν πεδίο περιλαμβάνει κλάσεις εργασιών: Anomaly Detection:

Διαβάστε περισσότερα

Υπερπροσαρμογή (Overfitting) (1)

Υπερπροσαρμογή (Overfitting) (1) Αλγόριθμος C4.5 Αποφυγή υπερπροσαρμογής (overfitting) Reduced error pruning Rule post-pruning Χειρισμός χαρακτηριστικών συνεχών τιμών Επιλογή κατάλληλης μετρικής για την επιλογή των χαρακτηριστικών διάσπασης

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη. 16η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Τεχνητή Νοημοσύνη. 16η διάλεξη ( ) Ίων Ανδρουτσόπουλος. Τεχνητή Νοημοσύνη 16η διάλεξη (2016-17) Ίων Ανδρουτσόπουλος http://www.aueb.gr/users/ion/ 1 Οι διαφάνειες αυτής της διάλεξης βασίζονται σε ύλη του βιβλίου Artificial Intelligence A Modern Approach των

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη. 18η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Τεχνητή Νοημοσύνη. 18η διάλεξη ( ) Ίων Ανδρουτσόπουλος. Τεχνητή Νοημοσύνη 18η διάλεξη (2016-17) Ίων Ανδρουτσόπουλος http://www.aueb.gr/users/ion/ 1 Οι διαφάνειες αυτής της διάλεξης βασίζονται: στο βιβλίο Machine Learning του T. Mitchell, McGraw- Hill, 1997,

Διαβάστε περισσότερα

Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500

Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500 Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500 Πληθυσμός Δείγμα Δείγμα Δείγμα Ο ρόλος της Οικονομετρίας Οικονομική Θεωρία Διατύπωση της

Διαβάστε περισσότερα

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. Κατηγοριοποίηση. Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. Κατηγοριοποίηση. Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD Τμήμα Πληροφορικής με Εφαρμογές στη Βιοϊατρική Σχολή Θετικών Επιστημών Πανεπιστήμιο Θεσσαλίας ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ Κατηγοριοποίηση Αριστείδης Γ. Βραχάτης, Dipl-Ing, M.Sc, PhD Κατηγοριοποιητής K πλησιέστερων

Διαβάστε περισσότερα

Περιεχόμενα. Πρόλογος... 15

Περιεχόμενα. Πρόλογος... 15 Περιεχόμενα Πρόλογος... 15 Κεφάλαιο 1 ΘΕΩΡΗΤΙΚΑ ΚΑΙ ΦΙΛΟΣΟΦΙΚΑ ΟΝΤΟΛΟΓΙΚΑ ΚΑΙ ΕΠΙΣΤΗΜΟΛΟΓΙΚΑ ΖΗΤΗΜΑΤΑ ΤΗΣ ΜΕΘΟΔΟΛΟΓΙΑΣ ΕΡΕΥΝΑΣ ΤΟΥ ΠΡΑΓΜΑΤΙΚΟΥ ΚΟΣΜΟΥ... 17 Το θεμελιώδες πρόβλημα των κοινωνικών επιστημών...

Διαβάστε περισσότερα

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ

ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ Μ.Ν. Ντυκέν, Πανεπιστήμιο Θεσσαλίας Τ.Μ.Χ.Π.Π.Α. Ε. Αναστασίου, Πανεπιστήμιο Θεσσαλίας Τ.Μ.Χ.Π.Π.Α. ΔΙΑΛΕΞΗ 07 & ΔΙΑΛΕΞΗ 08 ΣΗΜΠΕΡΑΣΜΑΤΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Βόλος, 016-017 ΕΙΣΑΓΩΓΗ ΣΤΗΝ

Διαβάστε περισσότερα

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων Εισηγητής: ρ Ηλίας Ζαφειρόπουλος Εισαγωγή Ιατρικά δεδοµένα: Συλλογή Οργάνωση Αξιοποίηση Data Mining ιαχείριση εδοµένων Εκπαίδευση

Διαβάστε περισσότερα

Δειγματοληψία στην Ερευνα. Ετος

Δειγματοληψία στην Ερευνα. Ετος ΓΕΩΠΟΝΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ Τμήμα Αγροτικής Οικονομίας & Ανάπτυξης Μέθοδοι Γεωργοοικονομικής και Κοινωνιολογικής Ερευνας Δειγματοληψία στην Έρευνα (Μέθοδοι Δειγματοληψίας - Τρόποι Επιλογής Τυχαίου Δείγματος)

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση ΚΕΦΑΛΑΙΟ 18 18 Μηχανική Μάθηση Ένα φυσικό ή τεχνητό σύστηµα επεξεργασίας πληροφορίας συµπεριλαµβανοµένων εκείνων µε δυνατότητες αντίληψης, µάθησης, συλλογισµού, λήψης απόφασης, επικοινωνίας και δράσης

Διαβάστε περισσότερα

Κατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών

Κατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών Κατηγοριοποίηση βάσει διανύσματος χαρακτηριστικών Αναπαράσταση των δεδομένων ως διανύσματα χαρακτηριστικών (feature vectors): Επιλογή ενός

Διαβάστε περισσότερα

Τεχνολογικό Εκπαιδευτικό Ίδρυμα Δυτικής Μακεδονίας Western Macedonia University of Applied Sciences Κοίλα Κοζάνης Kozani GR 50100

Τεχνολογικό Εκπαιδευτικό Ίδρυμα Δυτικής Μακεδονίας Western Macedonia University of Applied Sciences Κοίλα Κοζάνης Kozani GR 50100 Ποσοτικές Μέθοδοι Τεχνολογικό Εκπαιδευτικό Ίδρυμα Δυτικής Μακεδονίας Western Macedonia University of Applied Sciences Κοίλα Κοζάνης 50100 Kozani GR 50100 Απλή Παλινδρόμηση Η διερεύνηση του τρόπου συμπεριφοράς

Διαβάστε περισσότερα

Αναγνώριση Προτύπων Ι

Αναγνώριση Προτύπων Ι Αναγνώριση Προτύπων Ι Ενότητα 1: Μέθοδοι Αναγνώρισης Προτύπων Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται

Διαβάστε περισσότερα

Είδη Μεταβλητών Κλίμακα Μέτρησης Οι τεχνικές της Περιγραφικής στατιστικής ανάλογα με την κλίμακα μέτρησης Οι τελεστές Π και Σ

Είδη Μεταβλητών Κλίμακα Μέτρησης Οι τεχνικές της Περιγραφικής στατιστικής ανάλογα με την κλίμακα μέτρησης Οι τελεστές Π και Σ ΠΕΡΙΕΧΟΜΕΝΑ ΚΕΦΑΛΑΙΟ 1 Εισαγωγικές Έννοιες 19 1.1 1.2 1.3 1.4 1.5 1.6 1.7 Η Μεταβλητότητα Η Στατιστική Ανάλυση Η Στατιστική και οι Εφαρμοσμένες Επιστήμες Στατιστικός Πληθυσμός και Δείγμα Το στατιστικό

Διαβάστε περισσότερα

Αναλυτική Στατιστική

Αναλυτική Στατιστική Αναλυτική Στατιστική Συμπερασματολογία Στόχος: εξαγωγή συμπερασμάτων για το σύνολο ενός πληθυσμού, αντλώντας πληροφορίες από ένα μικρό υποσύνολο αυτού Ορισμοί Πληθυσμός: σύνολο όλων των υπό εξέταση μονάδων

Διαβάστε περισσότερα

ΕΛΕΓΧΟΣ ΠΑΡΑΓΩΓΙΚΩΝ ΔΙΕΡΓΑΣΙΩΝ

ΕΛΕΓΧΟΣ ΠΑΡΑΓΩΓΙΚΩΝ ΔΙΕΡΓΑΣΙΩΝ ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα ΕΛΕΓΧΟΣ ΠΑΡΑΓΩΓΙΚΩΝ ΔΙΕΡΓΑΣΙΩΝ Ενότητα: Αναγνώριση Διεργασίας - Προσαρμοστικός Έλεγχος (Process Identification) Αλαφοδήμος Κωνσταντίνος

Διαβάστε περισσότερα

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων»

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων» Τμήμα Πληροφορικής και Τηλεπικοινωνιών Πρόγραμμα Μεταπτυχιακών Σπουδών Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων» Αργυροπούλου Αιμιλία

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ. Ερωτήσεις πολλαπλής επιλογής. Συντάκτης: Δημήτριος Κρέτσης

ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ. Ερωτήσεις πολλαπλής επιλογής. Συντάκτης: Δημήτριος Κρέτσης ΠΑΝΕΠΙΣΤΗΜΙΑΚΑ ΦΡΟΝΤΙΣΤΗΡΙΑ ΚΟΛΛΙΝΤΖΑ Ερωτήσεις πολλαπλής επιλογής Συντάκτης: Δημήτριος Κρέτσης 1. Ο κλάδος της περιγραφικής Στατιστικής: α. Ασχολείται με την επεξεργασία των δεδομένων και την ανάλυση

Διαβάστε περισσότερα

Έλεγχος υποθέσεων και διαστήματα εμπιστοσύνης

Έλεγχος υποθέσεων και διαστήματα εμπιστοσύνης 1 Έλεγχος υποθέσεων και διαστήματα εμπιστοσύνης Όπως γνωρίζουμε από προηγούμενα κεφάλαια, στόχος των περισσότερων στατιστικών αναλύσεων, είναι η έγκυρη γενίκευση των συμπερασμάτων, που προέρχονται από

Διαβάστε περισσότερα

Ανάλυση και Σχεδιασμός Μεταφορών Ι Ανάλυση Διακριτών Επιλογών

Ανάλυση και Σχεδιασμός Μεταφορών Ι Ανάλυση Διακριτών Επιλογών Ανάλυση Διακριτών Επιλογών Παναγιώτης Παπαντωνίου Δρ. Πολιτικός Μηχανικός, Συγκοινωνιολόγος Πάτρα, 2017 Περιεχόμενα Αθροιστικά μοντέλα Εξατομικευμένα μοντέλα Μοντέλα Διακριτών Μεταβλητών Θεωρία Μεγιστοποίησης

Διαβάστε περισσότερα

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Κεφάλαιο 20 Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Σακελλαρίου Τεχνητή Νοηµοσύνη, B' Έκδοση - 1 - Ανακάλυψη Γνώσης σε

Διαβάστε περισσότερα

Αναγνώριση Προτύπων Ι

Αναγνώριση Προτύπων Ι Αναγνώριση Προτύπων Ι Ενότητα 3: Στοχαστικά Συστήματα Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες

Διαβάστε περισσότερα

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ ο Κεφάλαιο: Στατιστική ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΚΑΙ ΟΡΙΣΜΟΙ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ Πληθυσμός: Λέγεται ένα σύνολο στοιχείων που θέλουμε να εξετάσουμε με ένα ή περισσότερα χαρακτηριστικά. Μεταβλητές X: Ονομάζονται

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη. 17η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Τεχνητή Νοημοσύνη. 17η διάλεξη ( ) Ίων Ανδρουτσόπουλος. Τεχνητή Νοημοσύνη 17η διάλεξη (2016-17) Ίων Ανδρουτσόπουλος http://.aueb.gr/users/ion/ 1 Οι διαφάνειες αυτής της διάλεξης βασίζονται: στο βιβλίο Artificia Inteigence A Modern Approach των S. Russe και

Διαβάστε περισσότερα

Αποθήκες εδομένων και Εξόρυξη εδομένων:

Αποθήκες εδομένων και Εξόρυξη εδομένων: Αποθήκες εδομένων και Εξόρυξη εδομένων: Κατηγοριοποίηση: Μέρος Α http://delab.csd.auth.gr/~gounaris/courses/dwdm/ gounaris/courses/dwdm/ Ευχαριστίες Οι διαφάνειες του μαθήματος σε γενικές γραμμές ακολουθούν

Διαβάστε περισσότερα

2. ΕΠΙΛΟΓΗ ΜΟΝΤΕΛΟΥ ΜΕ ΤΗ ΜΕΘΟΔΟ ΤΟΥ ΑΠΟΚΛΕΙΣΜΟΥ ΜΕΤΑΒΛΗΤΩΝ (Backward Elimination Procedure) Στην στατιστική βιβλιογραφία υπάρχουν πολλές μέθοδοι για

2. ΕΠΙΛΟΓΗ ΜΟΝΤΕΛΟΥ ΜΕ ΤΗ ΜΕΘΟΔΟ ΤΟΥ ΑΠΟΚΛΕΙΣΜΟΥ ΜΕΤΑΒΛΗΤΩΝ (Backward Elimination Procedure) Στην στατιστική βιβλιογραφία υπάρχουν πολλές μέθοδοι για 2. ΕΠΙΛΟΓΗ ΜΟΝΤΕΛΟΥ ΜΕ ΤΗ ΜΕΘΟΔΟ ΤΟΥ ΑΠΟΚΛΕΙΣΜΟΥ ΜΕΤΑΒΛΗΤΩΝ (Backward Elimination Procedure) Στην στατιστική βιβλιογραφία υπάρχουν πολλές μέθοδοι για τον καθορισμό του καλύτερου υποσυνόλου από ένα σύνολο

Διαβάστε περισσότερα

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος Χιωτίδης Γεώργιος Τμήμα Λογιστικής και Χρηματοοικονομικής Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

Ενότητα 1: Εισαγωγή. ΤΕΙ Στερεάς Ελλάδας. Τμήμα Φυσικοθεραπείας. Προπτυχιακό Πρόγραμμα. Μάθημα: Βιοστατιστική-Οικονομία της υγείας Εξάμηνο: Ε (5 ο )

Ενότητα 1: Εισαγωγή. ΤΕΙ Στερεάς Ελλάδας. Τμήμα Φυσικοθεραπείας. Προπτυχιακό Πρόγραμμα. Μάθημα: Βιοστατιστική-Οικονομία της υγείας Εξάμηνο: Ε (5 ο ) ΤΕΙ Στερεάς Ελλάδας Τμήμα Φυσικοθεραπείας Προπτυχιακό Πρόγραμμα Μάθημα: Βιοστατιστική-Οικονομία της υγείας Εξάμηνο: Ε (5 ο ) Ενότητα 1: Εισαγωγή Δρ. Χρήστος Γενιτσαρόπουλος Λαμία, 2017 1.1. Σκοπός και

Διαβάστε περισσότερα

Δρ. Βασίλειος Γ. Καμπουρλάζος Δρ. Ανέστης Γ. Χατζημιχαηλίδης

Δρ. Βασίλειος Γ. Καμπουρλάζος Δρ. Ανέστης Γ. Χατζημιχαηλίδης Μάθημα 5 ο Δρ. Ανέστης Γ. Χατζημιχαηλίδης Τμήμα Μηχανικών Πληροφορικής Τ.Ε. ΤΕΙ Ανατολικής Μακεδονίας και Θράκης 2016-2017 Διευρυμένη Υπολογιστική Νοημοσύνη (ΥΝ) Επεκτάσεις της Κλασικής ΥΝ. Μεθοδολογίες

Διαβάστε περισσότερα

Δέντρα Απόφασης (Decision(

Δέντρα Απόφασης (Decision( Δέντρα Απόφασης (Decision( Trees) Το μοντέλο που δημιουργείται είναι ένα δέντρο Χρήση της τεχνικής «διαίρει και βασίλευε» για διαίρεση του χώρου αναζήτησης σε υποσύνολα (ορθογώνιες περιοχές) Ένα παράδειγμα

Διαβάστε περισσότερα

Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Μάθημα: Στατιστική II Διάλεξη 1 η : Εισαγωγή-Επανάληψη βασικών εννοιών Εβδομάδα 1 η : ,

Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Μάθημα: Στατιστική II Διάλεξη 1 η : Εισαγωγή-Επανάληψη βασικών εννοιών Εβδομάδα 1 η : , Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Μάθημα: Στατιστική II Διάλεξη 1 η : Εισαγωγή-Επανάληψη βασικών εννοιών Εβδομάδα 1 η :1-0-017, 3-0-017 Διδάσκουσα: Κοντογιάννη Αριστούλα Σκοπός του μαθήματος Η παρουσίαση

Διαβάστε περισσότερα

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ. Κεφάλαιο 10. Εισαγωγή στην εκτιμητική

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ. Κεφάλαιο 10. Εισαγωγή στην εκτιμητική ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΔΥΤΙΚΗΣ ΕΛΛΑΔΑΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΠΑΤΡΑΣ Εργαστήριο Λήψης Αποφάσεων & Επιχειρησιακού Προγραμματισμού Καθηγητής Ι. Μητρόπουλος ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ

Διαβάστε περισσότερα

Δειγματοληψία στην εκπαιδευτική έρευνα. Είδη δειγματοληψίας

Δειγματοληψία στην εκπαιδευτική έρευνα. Είδη δειγματοληψίας Δειγματοληψία στην εκπαιδευτική έρευνα Είδη δειγματοληψίας Γνωρίζουμε ότι: Με τη στατιστική τα δεδομένα γίνονται πληροφορίες Στατιστική Δεδομένα Πληροφορία Αλλά από πού προέρχονται τα δεδομένα; Πώς τα

Διαβάστε περισσότερα

Στατιστική Ι. Ενότητα 9: Κατανομή t-έλεγχος Υποθέσεων. Δρ. Γεώργιος Κοντέος Τμήμα Διοίκησης Επιχειρήσεων Γρεβενών

Στατιστική Ι. Ενότητα 9: Κατανομή t-έλεγχος Υποθέσεων. Δρ. Γεώργιος Κοντέος Τμήμα Διοίκησης Επιχειρήσεων Γρεβενών Στατιστική Ι Ενότητα 9: Κατανομή t-έλεγχος Υποθέσεων Δρ. Γεώργιος Κοντέος Τμήμα Διοίκησης Επιχειρήσεων Γρεβενών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 5: Κατηγοριοποίηση Μέρος Α Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το

Διαβάστε περισσότερα

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2 Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας Version 2 1 ΜΗ ΓΡΑΜΜΙΚΟΙ ΤΑΞΙΝΟΜΗΤΕΣ ΔΕΝΔΡΑ ΑΠΟΦΑΣΗΣ Πρόκειται για μια οικογένεια μη γραμμικών ταξινομητών Είναι συστήματα απόφασης πολλών σταδίων (multistage),

Διαβάστε περισσότερα

HMY 795: Αναγνώριση Προτύπων

HMY 795: Αναγνώριση Προτύπων HMY 795: Αναγνώριση Προτύπων Διάλεξη 3 Επιλογή μοντέλου Επιλογή μοντέλου Θεωρία αποφάσεων Επιλογή μοντέλου δεδομένα επικύρωσης Η επιλογή του είδους του μοντέλου που θα χρησιμοποιηθεί σε ένα πρόβλημα (π.χ.

Διαβάστε περισσότερα

Κεφάλαιο 10 Εισαγωγή στην Εκτίμηση

Κεφάλαιο 10 Εισαγωγή στην Εκτίμηση Κεφάλαιο 10 Εισαγωγή στην Εκτίμηση Εκεί που είμαστε Κεφάλαια 7 και 8: Οι διωνυμικές,κανονικές, εκθετικές κατανομές και κατανομές Poisson μας επιτρέπουν να κάνουμε διατυπώσεις πιθανοτήτων γύρω από το Χ

Διαβάστε περισσότερα

Μάθηση και Γενίκευση. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Μάθηση και Γενίκευση. Τεχνητά Νευρωνικά Δίκτυα (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων Μάθηση και Γενίκευση Το Πολυεπίπεδο Perceptron (MultiLayer Perceptron (MLP)) Έστω σύνολο εκπαίδευσης D={(x n,t n )}, n=1,,n. x n =(x n1,, x nd ) T, t n =(t n1,, t np ) T Θα πρέπει το MLP να έχει d νευρώνες

Διαβάστε περισσότερα

ΕΙΣΑΓΩΓΗ. Βασικές έννοιες

ΕΙΣΑΓΩΓΗ. Βασικές έννοιες ΕΙΣΑΓΩΓΗ Βασικές έννοιες Σε ένα ερωτηματολόγιο έχουμε ένα σύνολο ερωτήσεων. Μπορούμε να πούμε ότι σε κάθε ερώτηση αντιστοιχεί μία μεταβλητή. Αν θεωρήσουμε μια ερώτηση, τα άτομα δίνουν κάποιες απαντήσεις

Διαβάστε περισσότερα

Περιγραφική Ανάλυση ποσοτικών μεταβλητών

Περιγραφική Ανάλυση ποσοτικών μεταβλητών Περιγραφική Ανάλυση ποσοτικών μεταβλητών Στο data file Worldsales.sav (αρχείο υποθετικών πωλήσεων ανά ήπειρο και προϊόν) Analyze Descriptive Statistics Frequencies Επιλογή μεταβλητής Revenue Πατάμε στο

Διαβάστε περισσότερα

Είδη Μεταβλητών. κλίµακα µέτρησης

Είδη Μεταβλητών. κλίµακα µέτρησης ΠΕΡΙΕΧΟΜΕΝΑ Κεφάλαιο 1 Εισαγωγικές Έννοιες 19 1.1 1.2 1.3 1.4 1.5 1.6 1.7 Η Μεταβλητότητα Η Στατιστική Ανάλυση Η Στατιστική και οι Εφαρµοσµένες Επιστήµες Στατιστικός Πληθυσµός και Δείγµα Το στατιστικό

Διαβάστε περισσότερα

ΕΕΟ 11. Η χρήση στατιστικών εργαλείων στην εκτιμητική

ΕΕΟ 11. Η χρήση στατιστικών εργαλείων στην εκτιμητική ΕΕΟ 11 Η χρήση στατιστικών εργαλείων στην εκτιμητική 1. Εισαγωγή 2. Προϋποθέσεις χρήσης των Αυτοματοποιημένων Εκτιμητικών Μοντέλων (ΑΕΜ) 3. Περιορισμοί στη χρήση των ΑΕΜ εφόσον έχουν πληρωθεί οι προϋποθέσεις

Διαβάστε περισσότερα

Υπολογιστικό Πρόβληµα

Υπολογιστικό Πρόβληµα Υπολογιστικό Πρόβληµα Μετασχηµατισµός δεδοµένων εισόδου σε δεδοµένα εξόδου. Δοµή δεδοµένων εισόδου (έγκυρο στιγµιότυπο). Δοµή και ιδιότητες δεδοµένων εξόδου (απάντηση ή λύση). Τυπικά: διµελής σχέση στις

Διαβάστε περισσότερα

Τ.Ε.Ι. ΑΝΑΤΟΛΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΚΑΙ ΘΡΑΚΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΓΡΑΜΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ

Τ.Ε.Ι. ΑΝΑΤΟΛΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΚΑΙ ΘΡΑΚΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΓΡΑΜΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ Τ.Ε.Ι. ΑΝΑΤΟΛΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΚΑΙ ΘΡΑΚΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΓΡΑΜΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΕΙΣΗΓΗΤΗΣ: Δρ. Ιωάννης Σ. Τουρτούρας Μηχανικός Παραγωγής & Διοίκησης Δ.Π.Θ. Χρηματοδότηση Το παρόν εκπαιδευτικό

Διαβάστε περισσότερα

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων

Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Αποθήκες Δεδομένων και Εξόρυξη Δεδομένων Ενότητα 6: Κατηγοριοποίηση Μέρος Β Αναστάσιος Γούναρης, Επίκουρος Καθηγητής Άδειες Χρήσης Το

Διαβάστε περισσότερα

i Σύνολα w = = = i v v i=

i Σύνολα w = = = i v v i= ΜΕΤΡΑ ΘΕΣΗΣ ΆΣΚΗΣΗ Η βαθμολογία στα 0 μαθήματα ενός μαθητή είναι: 3, 9, 6, 0, 5,,, 0, 0, 4. Να υπολογίσετε: α) Τη μέση τιμή. β) Τη διάμεσο. Απάντηση t t + t + t 0 = = = = 3 + 9 + 6 + 0 + 5 + + + 0 + 0

Διαβάστε περισσότερα

Ασκήσεις μελέτης της 16 ης διάλεξης

Ασκήσεις μελέτης της 16 ης διάλεξης Οικονομικό Πανεπιστήμιο Αθηνών, Τμήμα Πληροφορικής Μάθημα: Τεχνητή Νοημοσύνη, 016 17 Διδάσκων: Ι. Ανδρουτσόπουλος Ασκήσεις μελέτης της 16 ης διάλεξης 16.1. (α) Έστω ένα αντικείμενο προς κατάταξη το οποίο

Διαβάστε περισσότερα

Αντικείμενο του κεφαλαίου είναι: Ανάλυση συσχέτισης μεταξύ δύο μεταβλητών. Εξίσωση παλινδρόμησης. Πρόβλεψη εξέλιξης

Αντικείμενο του κεφαλαίου είναι: Ανάλυση συσχέτισης μεταξύ δύο μεταβλητών. Εξίσωση παλινδρόμησης. Πρόβλεψη εξέλιξης Γραμμική Παλινδρόμηση και Συσχέτιση Αντικείμενο του κεφαλαίου είναι: Ανάλυση συσχέτισης μεταξύ δύο μεταβλητών Εξίσωση παλινδρόμησης Πρόβλεψη εξέλιξης Διμεταβλητές συσχετίσεις Πολλές φορές χρειάζεται να

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ Ακαδ. Έτος 07-08 Διδάσκων: Βασίλης ΚΟΥΤΡΑΣ Επικ. Καθηγητής v.koutras@fme.aegea.gr Τηλ: 7035468 Θα μελετήσουμε

Διαβάστε περισσότερα

HELLENIC OPEN UNIVERSITY School of Social Sciences ΜΒΑ Programme. Επιλογή δείγματος. Κατερίνα Δημάκη

HELLENIC OPEN UNIVERSITY School of Social Sciences ΜΒΑ Programme. Επιλογή δείγματος. Κατερίνα Δημάκη HELLENIC OPEN UNIVERSITY School of Social Sciences ΜΒΑ Programme Επιλογή δείγματος Κατερίνα Δημάκη Αν. Καθηγήτρια Τμήμα Στατιστικής Οικονομικό Πανεπιστήμιο Αθηνών 1 Τρόποι Συλλογής Δεδομένων Απογραφική

Διαβάστε περισσότερα

Έρευνα Μάρκετινγκ Ενότητα 5

Έρευνα Μάρκετινγκ Ενότητα 5 ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Ενότητα 5 : Μέθοδοι Στατιστικής Ανάλυσης Χριστίνα Μπουτσούκη Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative

Διαβάστε περισσότερα

Μέρος Β /Στατιστική. Μέρος Β. Στατιστική. Γεωπονικό Πανεπιστήμιο Αθηνών Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.

Μέρος Β /Στατιστική. Μέρος Β. Στατιστική. Γεωπονικό Πανεπιστήμιο Αθηνών Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua. Μέρος Β /Στατιστική Μέρος Β Στατιστική Γεωπονικό Πανεπιστήμιο Αθηνών Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (www.aua.gr/gpapadopoulos) Από τις Πιθανότητες στη Στατιστική Στα προηγούμενα, στο

Διαβάστε περισσότερα

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ Σ ΤΑΤ Ι Σ Τ Ι Κ Η i ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ Κατανομή Δειγματοληψίας του Δειγματικού Μέσου Ο Δειγματικός Μέσος X είναι μια Τυχαία Μεταβλητή. Καθώς η επιλογή και χρήση διαφορετικών δειγμάτων από έναν

Διαβάστε περισσότερα

ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΤΕΙ Δυτικής Μακεδονίας ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ 2015-2016 Τεχνητή Νοημοσύνη Μάθηση από Παρατηρήσεις Διδάσκων: Τσίπουρας Μάρκος Εκπαιδευτικό Υλικό: Τσίπουρας Μάρκος http://ai.uom.gr/aima/ 2 Μορφές μάθησης

Διαβάστε περισσότερα

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv Σ ΤΑΤ Ι Σ Τ Ι Κ Η i Statisticum collegium iv Στατιστική Συμπερασματολογία Ι Σημειακές Εκτιμήσεις Διαστήματα Εμπιστοσύνης Στατιστική Συμπερασματολογία (Statistical Inference) Το πεδίο της Στατιστικής Συμπερασματολογία,

Διαβάστε περισσότερα

ΑΝΑΛΥΣΗ ΠΡΟΤΙΜΗΣΕΩΝ ΓΙΑ ΤΗ ΧΡΗΣΗ ΣΥΣΤΗΜΑΤΟΣ ΕΝΟΙΚΙΑΖΟΜΕΝΩΝ ΠΟΔΗΛΑΤΩΝ ΣΤΟΝ ΔΗΜΟ ΑΘΗΝΑΙΩΝ

ΑΝΑΛΥΣΗ ΠΡΟΤΙΜΗΣΕΩΝ ΓΙΑ ΤΗ ΧΡΗΣΗ ΣΥΣΤΗΜΑΤΟΣ ΕΝΟΙΚΙΑΖΟΜΕΝΩΝ ΠΟΔΗΛΑΤΩΝ ΣΤΟΝ ΔΗΜΟ ΑΘΗΝΑΙΩΝ Εθνικό Μετσόβιο Πολυτεχνείο Σχολή Πολιτικών Μηχανικών Τομέας Μεταφορών και Συγκοινωνιακής Υποδομής ΑΝΑΛΥΣΗ ΠΡΟΤΙΜΗΣΕΩΝ ΓΙΑ ΤΗ ΧΡΗΣΗ ΣΥΣΤΗΜΑΤΟΣ ΕΝΟΙΚΙΑΖΟΜΕΝΩΝ ΠΟΔΗΛΑΤΩΝ ΣΤΟΝ ΔΗΜΟ ΑΘΗΝΑΙΩΝ ΤΣΟΛΑΚΗ ΑΘΗΝΑ

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΚΑΙ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΠΑΡΟΥΣΙΑΣΗ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΛΙΝΑ ΜΑΣΣΟΥ Δ.Π.Μ.Σ: «Εφαρμοσμένες Μαθηματικές Επιστήμες» 2008

Διαβάστε περισσότερα

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R, Επίκουρος Καθηγητής, Τομέας Μαθηματικών, Σχολή Εφαρμοσμένων Μαθηματικών και Φυσικών Επιστημών, Εθνικό Μετσόβιο Πολυτεχνείο. Περιεχόμενα Εισαγωγή στο

Διαβάστε περισσότερα

Το μοντέλο Perceptron

Το μοντέλο Perceptron Το μοντέλο Perceptron Αποτελείται από έναν μόνο νευρώνα McCulloch-Pitts w j x x 1, x2,..., w x T 1 1 x 2 w 2 Σ u x n f(u) Άνυσμα Εισόδου s i x j x n w n -θ w w 1, w2,..., w n T Άνυσμα Βαρών 1 Το μοντέλο

Διαβάστε περισσότερα

τρόπος για να εμπεδωθεί η θεωρία. Για την επίλυση των παραδειγμάτων χρησιμοποιούνται στατιστικά πακέτα, ώστε να είναι δυνατή η ανάλυση μεγάλου όγκου

τρόπος για να εμπεδωθεί η θεωρία. Για την επίλυση των παραδειγμάτων χρησιμοποιούνται στατιστικά πακέτα, ώστε να είναι δυνατή η ανάλυση μεγάλου όγκου ΠΡΟΛΟΓΟΣ Η γραμμική παλινδρόμηση χρησιμοποιείται για την μελέτη των σχέσεων μεταξύ μετρήσιμων μεταβλητών. Γενικότερα, η γραμμική στατιστική συμπερασματολογία αποτελεί ένα ευρύ πεδίο της στατιστικής ανάλυσης

Διαβάστε περισσότερα

ΠΕΡΙΕΧΟΜΕΝΑ ΜΕΡΟΣ ΠΡΩΤΟ: ΠΙΘΑΝΟΤΗΤΕΣ 11 ΚΕΦΑΛΑΙΟ 1 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΠΙΘΑΝΟΤΗΤΑΣ 13

ΠΕΡΙΕΧΟΜΕΝΑ ΜΕΡΟΣ ΠΡΩΤΟ: ΠΙΘΑΝΟΤΗΤΕΣ 11 ΚΕΦΑΛΑΙΟ 1 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΠΙΘΑΝΟΤΗΤΑΣ 13 ΠΕΡΙΕΧΟΜΕΝΑ ΜΕΡΟΣ ΠΡΩΤΟ: ΠΙΘΑΝΟΤΗΤΕΣ 11 ΚΕΦΑΛΑΙΟ 1 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΠΙΘΑΝΟΤΗΤΑΣ 13 ΚΕΦΑΛΑΙΟ 2 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΠΙΘΑΝΟΤΗΤΑΣ 20 2.1 Αβεβαιότητα, Τυχαία Διαδικασία, και Συναφείς Έννοιες 20 2.1.1 Αβεβαιότητα

Διαβάστε περισσότερα

Ερευνητική υπόθεση. Η ερευνητική υπόθεση αναφέρεται σε μια συγκεκριμένη πρόβλεψη σχετικά με τη σχέση ανάμεσα σε δύο ή περισσότερες μεταβλητές.

Ερευνητική υπόθεση. Η ερευνητική υπόθεση αναφέρεται σε μια συγκεκριμένη πρόβλεψη σχετικά με τη σχέση ανάμεσα σε δύο ή περισσότερες μεταβλητές. Ερευνητική υπόθεση Η ερευνητική υπόθεση αναφέρεται σε μια συγκεκριμένη πρόβλεψη σχετικά με τη σχέση ανάμεσα σε δύο ή περισσότερες μεταβλητές. Στα πειραματικά ερευνητικά σχέδια, η ερευνητική υπόθεση αναφέρεται

Διαβάστε περισσότερα

9. Παλινδρόμηση και Συσχέτιση

9. Παλινδρόμηση και Συσχέτιση 9. Παλινδρόμηση και Συσχέτιση Παλινδρόμηση και Συσχέτιση Υπάρχει σχέση ανάμεσα σε δύο ή περισσότερες μεταβλητές; Αν ναι, ποια είναι αυτή η σχέση; Πως μπορεί αυτή η σχέση να χρησιμοποιηθεί για να προβλέψουμε

Διαβάστε περισσότερα

Εισαγωγικές Έννοιες. ημήτρης Φωτάκης. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Εθνικό Μετσόβιο Πολυτεχνείο

Εισαγωγικές Έννοιες. ημήτρης Φωτάκης. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Εθνικό Μετσόβιο Πολυτεχνείο Εισαγωγικές Έννοιες ημήτρης Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο Πολυτεχνείο Άδεια Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons.

Διαβάστε περισσότερα

ΕΛΕΓΧΟΙ ΥΠΟΘΕΣΕΩΝ ΚΕΦΑΛΑΙΟ 17

ΕΛΕΓΧΟΙ ΥΠΟΘΕΣΕΩΝ ΚΕΦΑΛΑΙΟ 17 ΚΕΦΑΛΑΙΟ 17 ΕΛΕΓΧΟΙ ΥΠΟΘΕΣΕΩΝ Στο κεφάλαιο αυτό θα αναφερθούμε σε ένα άλλο πρόβλημα της Στατιστικής που έχει κυρίως (αλλά όχι μόνο) σχέση με τις παραμέτρους ενός πληθυσμού (τις παραμέτρους της κατανομής

Διαβάστε περισσότερα

Μηχανική Μάθηση: γιατί;

Μηχανική Μάθηση: γιατί; Μηχανική Μάθηση Μηχανική Μάθηση: γιατί; Απαραίτητη για να μπορεί ο πράκτορας να ανταπεξέρχεται σε άγνωστα περιβάλλοντα Δεν είναι δυνατόν ο σχεδιαστής να προβλέψει όλα τα ενδεχόμενα περιβάλλοντα. Χρήσιμη

Διαβάστε περισσότερα

Στατιστική Ι (ΨΥΧ-1202) ιάλεξη 3

Στατιστική Ι (ΨΥΧ-1202) ιάλεξη 3 (ΨΥΧ-1202) Λεωνίδας Α. Ζαμπετάκης Β.Sc., M.Env.Eng., M.Ind.Eng., D.Eng. Εmail: statisticsuoc@gmail.com ιαλέξεις: ftp://ftp.soc.uoc.gr/psycho/zampetakis/ ιάλεξη 3 ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ ΤΜΗΜΑ ΨΥΧΟΛΟΓΙΑΣ Ρέθυμνο,

Διαβάστε περισσότερα

Κεφάλαιο 9. Έλεγχοι υποθέσεων

Κεφάλαιο 9. Έλεγχοι υποθέσεων Κεφάλαιο 9 Έλεγχοι υποθέσεων 9.1 Εισαγωγή Όταν παίρνουμε ένα ή περισσότερα τυχαία δείγμα από κανονικούς πληθυσμούς έχουμε τη δυνατότητα να υπολογίζουμε στατιστικά, όπως μέσους όρους, δειγματικές διασπορές

Διαβάστε περισσότερα

Διαχείριση Εφοδιαστικής Αλυσίδας ΙΙ

Διαχείριση Εφοδιαστικής Αλυσίδας ΙΙ Διαχείριση Εφοδιαστικής Αλυσίδας ΙΙ 1 η Διάλεξη: Αναδρομή στον Μαθηματικό Προγραμματισμό 2019, Πολυτεχνική Σχολή Εργαστήριο Συστημάτων Σχεδιασμού, Παραγωγής και Λειτουργιών Περιεχόμενα 1. Γραμμικός Προγραμματισμός

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ Ακαδ. Έτος 06-07 Διδάσκων: Βασίλης ΚΟΥΤΡΑΣ Επικ. Καθηγητής v.koutra@fme.aegea.gr Τηλ: 7035468 Θα μελετήσουμε

Διαβάστε περισσότερα

Ασκήσεις μελέτης της 19 ης διάλεξης

Ασκήσεις μελέτης της 19 ης διάλεξης Οικονομικό Πανεπιστήμιο Αθηνών, Τμήμα Πληροφορικής Μάθημα: Τεχνητή Νοημοσύνη, 2016 17 Διδάσκων: Ι. Ανδρουτσόπουλος Ασκήσεις μελέτης της 19 ης διάλεξης 19.1. Δείξτε ότι το Perceptron με (α) συνάρτηση ενεργοποίησης

Διαβάστε περισσότερα

Απλή Γραμμική Παλινδρόμηση II

Απλή Γραμμική Παλινδρόμηση II . Ο Συντελεστής Προσδιορισμού Η γραμμή Παλινδρόμησης στο δείγμα, αποτελεί μία εκτίμηση της γραμμής παλινδρόμησης στον πληθυσμό. Αν και από τη μέθοδο των ελαχίστων τετραγώνων προκύπτουν εκτιμητές που έχουν

Διαβάστε περισσότερα

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας Τεχνικές Μείωσης Διαστάσεων Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας 1 Εισαγωγή Το μεγαλύτερο μέρος των δεδομένων που καλούμαστε να επεξεργαστούμε είναι πολυδιάστατα.

Διαβάστε περισσότερα

Ευφυής Προγραμματισμός

Ευφυής Προγραμματισμός Ευφυής Προγραμματισμός Ενότητα 10: Δημιουργία Βάσεων Κανόνων Από Δεδομένα-Προετοιμασία συνόλου δεδομένων Ιωάννης Χατζηλυγερούδης Πολυτεχνική Σχολή Τμήμα Μηχανικών Η/Υ & Πληροφορικής Δημιουργία Βάσεων Κανόνων

Διαβάστε περισσότερα

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 2 ο : Βασικές έννοιες. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος:

ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ. Μάθημα 2 ο : Βασικές έννοιες. Γεώργιος Πετάσης. Ακαδημαϊκό Έτος: ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Μάθημα 2 ο : Βασικές έννοιες Γεώργιος Πετάσης Ακαδημαϊκό Έτος: 2012 2013 ΤMHMA MHXANIKΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ, Πανεπιστήμιο Πατρών, 2012 2013 Γλωσσική Τεχνολογία, Μάθημα 2 ο, Βασικές

Διαβάστε περισσότερα

Αριθμητική Ανάλυση και Εφαρμογές

Αριθμητική Ανάλυση και Εφαρμογές Αριθμητική Ανάλυση και Εφαρμογές Διδάσκων: Δημήτριος Ι. Φωτιάδης Τμήμα Μηχανικών Επιστήμης Υλικών Ιωάννινα 07-08 Αριθμητική Παραγώγιση Εισαγωγή Ορισμός 7. Αν y f x είναι μια συνάρτηση ορισμένη σε ένα διάστημα

Διαβάστε περισσότερα

ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ. 3 η ΠΑΡΟΥΣΙΑΣΗ. Ι. Δημόπουλος Τμήμα Διοίκησης Επιχειρήσεων και Οργανισμών. ΤΕΙ Πελοποννήσου

ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ. 3 η ΠΑΡΟΥΣΙΑΣΗ. Ι. Δημόπουλος Τμήμα Διοίκησης Επιχειρήσεων και Οργανισμών. ΤΕΙ Πελοποννήσου ΜΕΘΟΔΟΛΟΓΙΑ ΕΡΕΥΝΑΣ 3 η ΠΑΡΟΥΣΙΑΣΗ Ι. Δημόπουλος Τμήμα Διοίκησης Επιχειρήσεων και Οργανισμών. ΤΕΙ Πελοποννήσου Συλλογή δεδομένων Πρωτογενή δεδομένα Εργαστηριακές μετρήσεις Παρατήρηση Παρατήρηση με συμμετοχή,

Διαβάστε περισσότερα

Στατιστική Ι. Ανάλυση Παλινδρόμησης

Στατιστική Ι. Ανάλυση Παλινδρόμησης Στατιστική Ι Ανάλυση Παλινδρόμησης Ανάλυση παλινδρόμησης Η πρόβλεψη πωλήσεων, εσόδων, κόστους, παραγωγής, κτλ. είναι η βάση του επιχειρηματικού σχεδιασμού. Η ανάλυση παλινδρόμησης και συσχέτισης είναι

Διαβάστε περισσότερα

Γραμμικός Προγραμματισμός

Γραμμικός Προγραμματισμός Γραμμικός Προγραμματισμός Εφαρμογή σε Άλλα Προβλήματα Διαχείρισης Έργων Π. Γ. Υψηλάντης ΓΠ στη Διοίκηση Έργων Προβλήματα μεταφοράς και δρομολόγησης Αναθέσεις προσωπικού Επιλογή προμηθευτών Καθορισμός τοποθεσίας

Διαβάστε περισσότερα

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 22 Μαΐου /32

Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπισ τήμιο Κρήτης 22 Μαΐου /32 Εφαρμοσμένη Στατιστική Δημήτριος Μπάγκαβος Τμήμα Μαθηματικών και Εφαρμοσμένων Μαθηματικών Πανεπιστήμιο Κρήτης 22 Μαΐου 2017 1/32 Εισαγωγή: Τυπικό παράδειγμα στατιστικού ελέγχου υποθέσεων. Ενας νέος τύπος

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ Ακαδ. Έτος 6-7 Διδάσκων: Βασίλης ΚΟΥΤΡΑΣ Λέκτορας v.koutras@fme.aegea.gr Τηλ: 735468 Σε αρκετές εφαρμογές

Διαβάστε περισσότερα

ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Τραπεζικής & Χρηματοοικονομικής

ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Τραπεζικής & Χρηματοοικονομικής ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Τραπεζικής & Χρηματοοικονομικής Υποθέσεις του Απλού γραμμικού υποδείγματος της Παλινδρόμησης Η μεταβλητή ε t (διαταρακτικός όρος) είναι τυχαία μεταβλητή με μέσο όρο

Διαβάστε περισσότερα

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή Τµήµα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών ΗΜΜΥ 795: ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ Ακαδηµαϊκό έτος 2010-11 Χειµερινό Εξάµηνο Τελική εξέταση Τρίτη, 21 εκεµβρίου 2010,

Διαβάστε περισσότερα

Έλεγχος Υποθέσεων. Δρ. Αθανάσιος Δαγούμας, Επ. Καθηγητής Οικονομικής της Ενέργειας & των Φυσικών Πόρων, Πανεπιστήμιο Πειραιώς

Έλεγχος Υποθέσεων. Δρ. Αθανάσιος Δαγούμας, Επ. Καθηγητής Οικονομικής της Ενέργειας & των Φυσικών Πόρων, Πανεπιστήμιο Πειραιώς Δρ. Αθανάσιος Δαγούμας, Επ. Καθηγητής Οικονομικής της Ενέργειας & των Φυσικών Πόρων, Πανεπιστήμιο Πειραιώς Η μηδενική υπόθεση είναι ένας ισχυρισμός σχετικά με την τιμή μιας πληθυσμιακής παραμέτρου. Είναι

Διαβάστε περισσότερα

ΧΡΟΝΙΚΕΣ ΣΕΙΡΕΣ. Παπάνα Αγγελική

ΧΡΟΝΙΚΕΣ ΣΕΙΡΕΣ. Παπάνα Αγγελική ΧΡΟΝΙΚΕΣ ΣΕΙΡΕΣ 7o Μάθημα: Απλή παλινδρόμηση (ΕΠΑΝΑΛΗΨΗ) Παπάνα Αγγελική Μεταδιδακτορική ερευνήτρια, ΑΠΘ & ΠΑΜΑΚ E-mail: angeliki.papana@gmail.com, agpapana@auth.gr Webpage: http://users.auth.gr/agpapana

Διαβάστε περισσότερα

ΣΤΑΤΙΣΤΙΚΗ 1 Τί λέγεται πληθυσμός τι άτομα και τι μεταβλητή ενός πληθυσμού 2. Ποιες μεταβλητές λέγονται ποιοτικές ή κατηγορικές; 3.

ΣΤΑΤΙΣΤΙΚΗ 1 Τί λέγεται πληθυσμός τι άτομα και τι μεταβλητή ενός πληθυσμού 2. Ποιες μεταβλητές λέγονται ποιοτικές ή κατηγορικές; 3. .. ΣΤΑΤΙΣΤΙΚΗ 1 Τί λέγεται πληθυσμός τι άτομα και τι μεταβλητή ενός πληθυσμού 2. Ποιες μεταβλητές λέγονται ποιοτικές ή κατηγορικές; 3. Ποιες μεταβλητές λέγονται ποσοτικές; 4. Πότε μια ποσοτική μεταβλητή

Διαβάστε περισσότερα

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2 Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας Verson 2 1 M = 1 N = N prob k N k { k n ω wrongly classfed} = (1 ) N k 2 Η συνάρτηση πιθανοφάνειας L(p) μεγιστοποιείται όταν =k/n. 3 Αφού τα s είναι άγνωστα,

Διαβάστε περισσότερα

Ιεραρχική αναλυση αποφασεων Analytic hierarchy process (AHP)

Ιεραρχική αναλυση αποφασεων Analytic hierarchy process (AHP) Ιεραρχική αναλυση αποφασεων Analytic hierarchy process (AHP) Εισαγωγή Παρουσιάστηκε από τον Thomas L. Saaty τη δεκαετία του 70 Μεθοδολογία που εφαρμόζεται στην περιοχή των Multicriteria Problems Δίνει

Διαβάστε περισσότερα

ΔΕΟ13 - Επαναληπτικές Εξετάσεις 2010 Λύσεις

ΔΕΟ13 - Επαναληπτικές Εξετάσεις 2010 Λύσεις ΔΕΟ - Επαναληπτικές Εξετάσεις Λύσεις ΘΕΜΑ () Το Διάγραμμα Διασποράς εμφανίζεται στο επόμενο σχήμα. Από αυτό προκύπτει καταρχήν μία θετική σχέση μεταξύ των δύο μεταβλητών. Επίσης, από το διάγραμμα φαίνεται

Διαβάστε περισσότερα

Διακριτικές Συναρτήσεις

Διακριτικές Συναρτήσεις Διακριτικές Συναρτήσεις Δρ. Δηµήτριος Τσέλιος Επίκουρος Καθηγητής ΤΕΙ Θεσσαλίας Τµήµα Διοίκησης Επιχειρήσεων Θερµικός χάρτης των XYZ ξενοδοχείων σε σχέση µε τη γεωγραφική περιοχή τους P. Adamopoulos New

Διαβάστε περισσότερα

Απλή Γραμμική Παλινδρόμηση και Συσχέτιση 19/5/2017

Απλή Γραμμική Παλινδρόμηση και Συσχέτιση 19/5/2017 Απλή Γραμμική Παλινδρόμηση και Συσχέτιση 2 Εισαγωγή Η ανάλυση παλινδρόμησης περιλαμβάνει το σύνολο των μεθόδων της στατιστικής που αναφέρονται σε ποσοτικές σχέσεις μεταξύ μεταβλητών Πρότυπα παλινδρόμησης

Διαβάστε περισσότερα

Κατανεμημένα Συστήματα Ι

Κατανεμημένα Συστήματα Ι Εκλογή αρχηγού σε γενικά δίκτυα 20 Οκτωβρίου 2016 Παναγιώτα Παναγοπούλου Εκλογή αρχηγού σε γενικά δίκτυα Προηγούμενη διάλεξη Σύγχρονα Κατανεμημένα Συστήματα Μοντελοποίηση συστήματος Πρόβλημα εκλογής αρχηγού

Διαβάστε περισσότερα

ΕΠΙΧΕΙΡΗΣΙΑΚΗ ΕΡΕΥΝΑ ΘΕΩΡΙΑ ΚΑΙ ΕΦΑΡΜΟΓΗ ΤΟΥ ΓΡΑΜΜΙΚΟΥ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ ΣΤΗ ΛΗΨΗ ΑΠΟΦΑΣΕΩΝ (1)

ΕΠΙΧΕΙΡΗΣΙΑΚΗ ΕΡΕΥΝΑ ΘΕΩΡΙΑ ΚΑΙ ΕΦΑΡΜΟΓΗ ΤΟΥ ΓΡΑΜΜΙΚΟΥ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ ΣΤΗ ΛΗΨΗ ΑΠΟΦΑΣΕΩΝ (1) ΕΠΙΧΕΙΡΗΣΙΑΚΗ ΕΡΕΥΝΑ ΘΕΩΡΙΑ ΚΑΙ ΕΦΑΡΜΟΓΗ ΤΟΥ ΓΡΑΜΜΙΚΟΥ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ ΣΤΗ ΛΗΨΗ ΑΠΟΦΑΣΕΩΝ (1) 1 Προέλευση και ιστορία της Επιχειρησιακής Έρευνας Αλλαγές στις επιχειρήσεις Τέλος του 19ου αιώνα: βιομηχανική

Διαβάστε περισσότερα

Κατανεμημένα Συστήματα Ι

Κατανεμημένα Συστήματα Ι Κατανεμημένα Συστήματα Ι Εκλογή αρχηγού και κατασκευή BFS δένδρου σε σύγχρονο γενικό δίκτυο Παναγιώτα Παναγοπούλου Περίληψη Εκλογή αρχηγού σε γενικά δίκτυα Ορισμός του προβλήματος Ο αλγόριθμος FloodMax

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ Ακαδ. Έτος 06-07 Διδάσκων: Βασίλης ΚΟΥΤΡΑΣ Λέκτορας v.koutras@fme.aegea.gr Τηλ: 7035468 Εκτίμηση Διαστήματος

Διαβάστε περισσότερα

Η ΜΕΘΟΔΟΣ PCA (Principle Component Analysis)

Η ΜΕΘΟΔΟΣ PCA (Principle Component Analysis) Η ΜΕΘΟΔΟΣ PCA (Principle Component Analysis) Η μέθοδος PCA (Ανάλυση Κύριων Συνιστωσών), αποτελεί μία γραμμική μέθοδο συμπίεσης Δεδομένων η οποία συνίσταται από τον επαναπροσδιορισμό των συντεταγμένων ενός

Διαβάστε περισσότερα

Πρόλογος... xv. Κεφάλαιο 1. Εισαγωγικές Έννοιες... 1

Πρόλογος... xv. Κεφάλαιο 1. Εισαγωγικές Έννοιες... 1 Πρόλογος... xv Κεφάλαιο 1. Εισαγωγικές Έννοιες... 1 1.1.Ιστορική Αναδρομή... 1 1.2.Βασικές Έννοιες... 5 1.3.Πλαίσιο ειγματοληψίας (Sampling Frame)... 9 1.4.Κατηγορίες Ιατρικών Μελετών.... 11 1.4.1.Πειραµατικές

Διαβάστε περισσότερα

ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΔΙΑΧΕΙΡΙΣΗΣ ΚΙΝΔΥΝΟΥ. Credit Value at Risk

ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΔΙΑΧΕΙΡΙΣΗΣ ΚΙΝΔΥΝΟΥ. Credit Value at Risk ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΔΙΑΧΕΙΡΙΣΗΣ ΚΙΝΔΥΝΟΥ Credit Value at Risk Credit Value at Risk: Εισαγωγή To Credit Value at Risk είναι μία βασική μέτρηση για τον καθορισμό των εποπτικών κεφαλαίων και των κεφαλαίων που η

Διαβάστε περισσότερα