Πρόβλεψη Επισφαλών Δανείων

Transcript

1 ΑΡΙ ΣΤ ΟΤ Ε ΛΕ Ι ΟΠΑΝΕ ΠΙ ΣΤ ΗΜΙ ΟΘΕ ΣΣΑΛΟΝΙ ΚΗΣ ΔΙ ΑΤ ΜΗΜΑΤ Ι ΚΟΠΡΟΓ Ρ ΑΜΜΑΜΕΤ ΑΠΤ ΥΧΙ ΑΚΩΝΣΠΟΥ ΔΩΝ «ΠΛΗΡΟΦΟΡΙ ΚΗΚΑΙ ΔΙ ΟΙ ΚΗΣΗ» Τ ΜΗΜΑΤ ΩΝΠΛΗΡΟΦΟΡΙ ΚΗΣΚΑΙ ΟΙ ΚΟΝΟΜΙ ΚΩΝΕ ΠΙ ΣΤ ΗΜΩΝ Πρόβλε ψηεπι σφαλώνδανε ί ων Δι πλ ωματ ι κ ήε ργ ασί ατ ηςμαρί αασλάνη( ΑΕ Μ: 358) Εξ ε τ αστ ι κήεπι τ ροπή Ε πι βλ έ πων :κ. Ι ωάν ν ηςβλ αχ άβαςi Μέ λ η: κ α. Κυρι ακ ήκοσμί δου&κ. Νι κ όλ αοςβασι λ ε ι άδης Θε σσαλονί κη, Μάρτ ι ος2013

2 ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΔΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ «ΠΛΗΡΟΦΟΡΙΚΗ ΚΑΙ ΔΙΟΙΚΗΣΗ» ΤΜΗΜΑΤΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΚΩΝ ΕΠΙΣΤΗΜΩΝ Πρόβλεψη Επισφαλών Δανείων Διπλωματική Εργασία της Μαρία Ασλάνη (ΑΕΜ: 358) Εξεταστική Επιτροπή Επιβλέπων: κ. Ιωάννης Βλαχάβας Μέλη: κα. Κυριακή Κοσμίδου κ. Νικόλαος Βασιλειάδης ΘΕΣΣΑΛΟΝΙΚΗ ΜΑΡΤΙΟΣ i-

3

4 Περίληψη Σκοπός της εργασίας είναι η κατασκευή ενός μοντέλου που θα προβλέπει την πιθανότητα αδυναμίας των οφειλετών να είναι συνεπείς στις δανειακές τους υποχρεώσεις για διάστημα δυο ετών. Αρχικά, γίνεται περιγραφή της διαδικασίας ανακάλυψης γνώσης σε βάσεις δεδομένων και των μεθόδων εξόρυξης γνώσης, ενώ στην συνέχεια διευκρινίζεται το εννοιολογικό πλαίσιο της δανειακής πολιτικής των χρηματοπιστωτικών ιδρυμάτων, με έμφαση στα μη- εξυπηρετούμενα δάνεια. Επιπλέον, παρουσιάζεται ο τρόπος αξιολόγησης της πιστοληπτικής ικανότητας του δανειολήπτη, σε μια συγκεκριμένη χρονική στιγμή, με την χρήση μοντέλων βαθμολόγησης πιστοληπτικής ικανότητας και παρουσιάζονται κριτικά τα δημοφιλέστερα διαθέσιμα εργαλεία ανακάλυψης γνώσης. Μετά από τη θεωρητική διερεύνηση του θέματος, γίνεται χρήση του λογισμικού Weka για την οικοδόμηση ενός μοντέλου που θα μπορούν να χρησιμοποιούν τα χρηματοπιστωτικά ιδρύματα και οι οφειλέτες για καλύτερες οικονομικές αποφάσεις. Το μοντέλο που προέκυψε βασίζεται στον μεταμαθησιακό αλγόριθμο Bagging, το οποίο περιγράφει περίπου το 93,63% των περιπτώσεων και καλύπτει το 86,04% του γραφήματος της καμπύλης που απεικονίζει τη σχετική αντιστάθμιση οφέλους και κόστους (ROC). Λέξεις κλειδιά: Weka, βαθμολόγηση πιστοληπτικής ικανότητας, AUC -i-

5 Abstract The aim of the present thesis is the construction of a model that provides the possibility that the debtors cannot be consistent in their loan obligations for a two years period. Initially, it describes the process of knowledge discovery in databases and data mining methods and then, it clarifies the conceptual framework of the credit policy of financial institutions, with emphasis on non- performing loans. In addition, it outlines the evaluation method of customers creditworthiness, at a given time, by using credit scoring models and is presented critically the most popular knowledge discovery tools. After the theoretical investigation, is used the Weka software for building a model, which can be used by financial institutions and borrowers in better financial decisions. The final model is based on the metalearning algorithm, Bagging, which describes approximately 93.63% of observations and covers 86.04% of the curve graph, that illustrates the relative compensation of benefits and costs (ROC). Key words: Weka, credit scoring, AUC -ii-

6 Πρόλογος Η παρούσα διατριβή με τίτλο Πρόβλεψη Επισφαλών Δανείων έχει εκπονηθεί στα πλαίσια του Διατμηματικού Προγράμματος Μεταπτυχιακών Σπουδών Πληροφορικής και Διοίκησης, των τμημάτων Πληροφορικής και Οικονομικών Επιστημών του Αριστοτελείου Πανεπιστημίου Θεσσαλονίκης, κατά το ακαδημαϊκό έτος Αφορμή για την επιλογή του θέματος έδωσε το ιδιαίτερο ενδιαφέρον κατά τη διάρκεια των μεταπτυχιακών σπουδών, για την ανακάλυψη γνώσης από βάσεις δεδομένων και για την χρήση εργαλείων εξόρυξης γνώσης, με σκοπό την παραγωγή αξιοποιήσιμης πληροφορίας και τη συμβολή της στην διερεύνηση τμήματος της οικονομικής επιστήμης. Με την παρούσα εργασία επιχειρείται αφενός η κατανόηση της διαδικασίας της ανακάλυψης γνώσης από βάσεις δεδομένων και αφετέρου η εφαρμοσμένη έρευνα, με τη χρήση του εργαλείου λογισμικού WEKA, στον τραπεζικό τομέα και πιο συγκεκριμένα, στον τομέα των επισφαλών δανείων, με την χρήση της έννοιας του credit scoring. Στόχος της εργασίας αποτελεί η κατασκευή ενός μοντέλου που θα προβλέπει την πιθανότητα αδυναμίας των οφειλετών να είναι συνεπείς στις δανειακές τους υποχρεώσεις για διάστημα δυο ετών, με απώτερο στόχο την προστασία τόσο των χρηματοπιστωτικών ιδρυμάτων, μέσω των καλύτερων εξατομικευμένων αποφάσεων, όσο και των οφειλετών, με αύξηση του αισθήματος ασφάλειας. Αισθάνομαι την ανάγκη να ευχαριστήσω όλους όσους συνέβαλαν στην τεκμηρίωση της εργασίας, είτε με την παροχή στοιχείων, είτε με την πολύτιμη συμβουλή τους. Ιδιαίτερα οφείλω να ευχαριστήσω τον επιβλέποντα Καθηγητή του τμήματος Πληροφορικής του Αριστοτελείου Πανεπιστημίου Θεσσαλονίκης κ. Ιωάννη Βλαχάβα, για τις εύστοχες επισημάνσεις του, τα ερεθίσματα στα παιχνίδια της σκέψης, και τη συμβολή του στην ολοκλήρωση αυτής της εργασίας. -iii-

7 Επιπλέον, θα ήθελα να ευχαριστήσω τον υποψήφιο διδάκτορα του τμήματος Πληροφορικής κ. Ελευθέριο Σπυρομήτρο, για την εποικοδομητική συνεργασία μας και τις πολύτιμες υποδείξεις του, συνιστώσες που συνέβαλαν στην άρτια διεκπεραίωση της εργασίας. Τέλος, ευχαριστώ την οικογένειά μου που με στηρίζει διαχρονικά και τους φίλους μου, που με την διακριτική τους παρουσία μου συμπαραστάθηκαν στην εκπόνηση της παρούσας διατριβής. -iv-

8 Περιεχόμενα ΠΡΟΛΟΓΟΣ... III ΠΕΡΙΕΧΟΜΕΝΑ... 1 ΚΕΦΑΛΑΙΟ 1_ ΕΙΣΑΓΩΓΗ ΑΝΤΙΚΕΙΜΕΝΟ ΣΚΟΠΟΣ- ΣΤΟΧΟΣ ΜΕΘΟΔΟΛΟΓΙΑ... 8 ΚΕΦΑΛΑΙΟ 2_ ΑΝΑΚΑΛΥΨΗ ΓΝΩΣΗΣ ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ ΑΝΑΚΑΛΥΨΗ ΓΝΩΣΗΣ ΣΕ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ Στάδια ανακάλυψης Γνώσης Προβλήματα στην διαδικασία Ανακάλυψης Γνώσης ΜΕΘΟΔΟΙ ΕΞΟΡΥΞΗΣ ΑΠΟ ΔΕΔΟΜΕΝΑ Πρότυπα πληροφόρησης Μοντέλα πρόβλεψης Επισκόπηση τεχνικών ΚΕΦΑΛΑΙΟ 3_ ΤΡΑΠΕΖΙΚΟΣ ΔΑΝΕΙΣΜΟΣ ΟΙ ΤΡΑΠΕΖΕΣ ΚΑΙ Η ΔΑΝΕΙΑΚΗ ΠΟΛΙΤΙΚΗ ΤΟΥΣ

9 3.2 ΜΗ ΕΞΥΠΗΡΕΤΟΥΜΕΝΑ ΔΑΝΕΙΑ ΠΙΣΤΩΤΙΚΟΣ ΚΙΝΔΥΝΟΣ ΚΑΙ ΔΙΑΧΕΙΡΙΣΗ ΤΟΥ CREDIT SCORE ΚΕΦΑΛΑΙΟ 4_ ΕΡΓΑΛΕΙΑ ΑΝΑΚΑΛΥΨΗΣ ΓΝΩΣΗΣ ΠΑΡΟΥΣΙΑΣΗ ΕΡΓΑΛΕΙΩΝ Εμπορικά ΕΛ/ΛΑΚ WEKA Δημιουργία και τροποποιήσεις Διακρίσεις και Στατιστικά Δομή του WEKA Δομή αρχείων Διεπαφή χρήστη ΚΕΦΑΛΑΙΟ 5_ ΒΑΣΗ ΔΕΔΟΜΕΝΩΝ ΟΡΙΟΘΕΤΗΣΗ ΠΡΟΒΛΗΜΑΤΟΣ ΠΕΡΙΓΡΑΦΗ ΤΗΣ ΒΑΣΗΣ ΔΕΔΟΜΕΝΩΝ ΑΝΑΛΥΣΗ ΜΕΤΑΒΛΗΤΩΝ ΠΡΟΕΤΟΙΜΑΣΙΑ ΔΕΔΟΜΕΝΩΝ ΕΚΤΙΜΗΣΗ ΣΗΜΑΝΤΙΚΟΤΗΤΑΣ ΜΕΤΑΒΛΗΤΩΝ ΜΕΤΡΙΚΕΣ ΑΞΙΟΛΟΓΗΣΗΣ ΑΠΟΤΕΛΕΣΜΑΤΩΝ ΚΕΦΑΛΑΙΟ 6_ ΠΡΟΒΛΕΨΗ ΕΠΙΣΦΑΛΩΝ ΔΑΝΕΙΩΝ ΑΝΤΙΚΑΤΑΣΤΑΣΗ ΕΛΛΙΠΩΝ ΤΙΜΩΝ ΜΕ ΜΕΣΗ ΤΙΜΗ Trees Bayes Rules Functions Meta ΠΡΟΒΛΕΨΗ ΤΩΝ ΕΛΛΙΠΩΝ ΤΙΜΩΝ Εξόρυξη έχοντας προβλέψει με REP Tree Εξόρυξη έχοντας προβλέψει με Bagging ΑΦΑΙΡΕΣΗ ΜΕΤΑΒΛΗΤΩΝ Αφαίρεση της NumberOfDependents

10 6.3.2 Αφαίρεση των μεταβλητών NumberOfDependents και DeptRatio Αφαίρεση των μεταβλητών NumberOfDependents και NumberRealEstateLoansOrLines ΣΥΓΚΡΙΣΗ ΑΛΓΟΡΙΘΜΩΝ ΠΡΟΒΛΕΨΗ ΤΙΜΩΝ ΚΕΦΑΛΑΙΟ 7_ ΣΥΜΠΕΡΑΣΜΑΤΑ ΠΗΓΕΣ ΠΑΡΑΡΤΗΜΑ

11 Περιεχόμενα Εικόνων Εικόνα 2.1 Επισκόπηση των βημάτων που συνθέτουν την διαδικασία ανακάλυψης γνώσης Εικόνα 2.2 Προσπάθεια που απαιτείται σε κάθε βήμα της διαδικασίας ανακάλυψης γνώσης Εικόνα 2.3. Μοντέλο τεχνητού νευρώνα Εικόνα 2.4. Προσδιορισμός κατηγορίας με βάση τους 3 και τους 5 κοντινότερους γείτονες Εικόνα 4.1. Αριθμός λήψεων του λογισμικού Weka, πηγή: Sourceforge.net Εικόνα 4.2. Πλατφόρμα χρήσης του Weka, πηγή: Sourgeforge.net Εικόνα 4.3. Αρχικό περιβάλλον του WEKA, έκδοση Εικόνα 4.4 Φίλτρα για προεπεξεργασία Εικόνα 6.1. Γραφική απεικόνιση απόδοσης αλγορίθμου (median) Εικόνα 6.2. Γραφική απεικόνιση απόδοσης αλγορίθμων (REP Tree) Εικόνα 6.3. Γραφική απεικόνιση απόδοσης των αλγορίθμων (Bagging) Εικόνα 6.4. Γραφική απεικόνιση απόδοσης αλγορίθμων με αφαίρεση μεταβλητών Εικόνα 6.5. Γραφική απεικόνιση των αποδοτικότερων αλγορίθμων κάθε μεθόδου Εικόνα 6.6. Καμπύλη ROC για την κλάση 0 και

12 Περιεχόμενα Πινάκων Πίνακας 1. Κλίμακα διαβαθμίσεων πιστωτικού κινδύνου Πίνακας 2. Τύποι μεταβλητών Πίνακας 3. Κατάταξη σύμφωνα με το ChiSquaredAttributeEval Πίνακας 4. Κατάταξη σύμφωνα με το InfoAttributeEval Πίνακας 5. Κατάταξη σύμφωνα με το GainRatioAttributeEval Πίνακας 6. Πίνακας συνάφειας. (Confusion matrix) Πίνακας 7. Απόδοση αλγορίθμων με χρήση της μέσης τιμής Πίνακας 8. Απόδοση αλγορίθμων για την MonthlyIncome Πίνακας 9. Απόδοση αλγορίθμων με πρόβλεψη (Περίπτωση REP Tree) Πίνακας 10. Απόδοση αλγορίθμων με πρόβλεψη (Περίπτωση Bagging) Πίνακας 11. Απόδοση αλγορίθμων με αφαίρεση της NumberOfDependents Πίνακας 12. Απόδοση αλγορίθμων με αφαίρεση των NumberOfDependents και DeptRatio Πίνακας 13. Απόδοση αλγορίθμων με αφαίρεση των NumberOfDependents και NumberRealEstateLoansOrLines Πίνακας 14. Σύγκριση των δυο πιο αποδοτικών αλγορίθμων

13 -6-

14 Κεφάλαιο 1_ Εισαγωγή Σήμερα, που άνθρωπος καλείται να ανταποκριθεί στους γρήγορους ρυθμούς εμφάνισης νέων πληροφοριών, στον έλεγχο και την αξιοποίηση τους, η αυτοματοποίηση της ανακάλυψης γνώσης μπορεί να αποτελέσει ένα χρήσιμο εργαλείο. Ιδιαίτερα, στις μέρες μας, όπου η άνθηση του ανταγωνισμού φαίνεται να καλπάζει σε όλες του τις εκφάνσεις και να ενισχύεται από τα πολιτικο-οικονομικο-κοινωνικά πλαίσια, η γνώση μπορεί να αποτελέσει ανταγωνιστικό πλεονέκτημα, για ανώτερες επιδόσεις. Μια από τις περισσότερο χρησιμοποιούμενες ρήσεις είναι «Η γνώση είναι Δύναμη» 1. Η επαλήθευσή της τοποθετείται και στην περίπτωση των οργανισμών, διότι η αξιοποίηση της γνώσης συμβάλει αφενός στην μελλοντική πρόβλεψη καταστάσεων, που ενδεχομένως να ήταν μοιραίες και αφετέρου στην έγκαιρη προσαρμογή και κατανόηση του περιβάλλοντος. Έτσι, η αξία της γνώσης είναι χρυσός για την λειτουργία και βιωσιμότητα των οργανισμών και για την εξόρυξή της συχνά απαιτείται επένδυση προσπάθειας και κεφαλαίου, ώστε να επιτευχθούν τα επιθυμητά αποτελέσματα. 1.1 Αντικείμενο Η παρούσα εργασία έχει ως αντικείμενο τη διερεύνηση της σημασίας της εξόρυξης γνώσης για τα χρηματοπιστωτικά ιδρύματα, καθώς και την ανάδειξη των δυνατοτήτων αξιοποίησης και των προοπτικών ανάδειξής των εργαλείων εξόρυξης γνώσης, μέσω της κατανόησής τους ως ιδιαίτερα εργαλεία για την γνώση και τον άνθρωπο. Επικεντρώνεται στην σκιαγράφηση του προφίλ των δανειοληπτών που θα παρουσιάσουν πρόβλημα ανταπόκρισης στις οικονομικές τους υποχρεώσεις. Συγκεκριμένα, η μελέτη οριοθετείται στην εξέταση παραγόντων που αφορούν το ιστορικό πληρωμών, τις οφειλές και τη χρήση πίστωσης, καθώς και προσωπικά 1 Roger Bacon ( ), άγγλος ιερωμένος και φιλόσοφος. 2 αμοιβές που είναι υποχρεωμένος να δώσει ο οφειλέτης στον δανειστή για ορισμένη ποσότητα χρηματικού δανείου που πήρε για συγκεκριμένη χρονική περίοδο -7-

15 στοιχεία που αντανακλούν τα έσοδα και τις υποχρεώσεις του οφειλέτη και παρουσιάζουν ιδιαίτερο ενδιαφέρον ανάλυσης. 1.2 Σκοπός- Στόχος Σκοπός της εργασίας είναι, αφού αποσαφηνίσει έννοιες για την διαδικασία ανακάλυψης γνώσης και τη δανειακή πολιτική των χρηματοπιστωτικών ιδρυμάτων σχετικά με τα μη- εξυπηρετούμενα δάνεια, να οδηγηθεί στην χρήση μιας μεγάλης βάσης δεδομένων και να αναδείξει έναν αποδοτικό αλγόριθμο, ο οποίος θα προσφέρει ένα μεγάλο ποσοστό ακρίβειας. Το μοντέλο που θα προκύψει θα μπορεί να χρησιμοποιηθεί από τους χρηματοπιστωτικούς οργανισμούς, με σκοπό την αξιολόγηση της πιστοληπτικής ικανότητας των οφειλετών, γεγονός που θα οδηγήσει σε μείωση του πιστωτικού τους κινδύνου και θα προσφέρει έναν οδηγό αντικειμενικής αυτόαξιολόγησης των εν δυνάμει οφειλετών, ώστε να μην προβούν σε μια κίνηση που θα οδηγήσει την οικονομική τους κατάσταση σε δυσχέρεια. Επιχειρεί επομένως να συμβάλλει στη διατύπωση προτάσεων και τεχνικών, για τη βελτίωση της διαχείρισης του προφίλ των δανειοληπτών, την καλύτερη αξιολόγηση της πορείας του δανείου, μέσω της πρόβλεψης και την έγκαιρη προετοιμασία του οργανισμού, ώστε να αποφευχθεί μια δυσάρεστη μελλοντική κατάσταση. Η προσέγγιση της εργασίας λοιπόν δεν εστιάζεται τόσο στο σύνολο των παραγόντων που συνιστούν τον ασφαλή δανειολήπτη, αλλά στην εύρεση του αποδοτικότερου μοντέλου που προβλέπει με μεγαλύτερη ακρίβεια την πιθανότητα οικονομικής αδυναμίας στην ανταπόκριση των δανειακών υποχρεώσεων με βάση τα δοθέντα στοιχεία, τονίζοντας τη συμβολή της πληροφορικής σε ζητήματα που συνδέονται με οικονομικά στοιχεία. 1.3 Μεθοδολογία Η εργασία μπορεί να χωριστεί σε δύο τμήματα, το θεωρητικό και το εφαρμοσμένο τμήμα, καθώς και σε ένα μεταβατικό κεφάλαιο, που αποτελεί τον συνδετικό κρίκο τον δύο κεφαλαίων. Συγκεκριμένα: -8-

16 Το πρώτο μέρος, που είναι θεωρητικής διερεύνησης του θέματος, αποτελείται από το δεύτερο και τρίτο κεφάλαιο. Στο δεύτερο κεφάλαιο περιγράφεται η διαδικασία ανακάλυψης γνώσης σε βάσεις δεδομένων και οι μέθοδοι εξόρυξης γνώσης. Η επισκόπηση των τεχνικών επεξηγεί τον τρόπο λειτουργίας τους και συμβάλει στην κατανόηση της μεθόδου πίσω από τα αποτελέσματα. Στο τρίτο κεφάλαιο, διευκρινίζεται το εννοιολογικό πλαίσιο, της δανειακής πολιτικής των τραπεζών, με έμφαση στα μη- εξυπηρετούμενα δάνεια και τον πιστωτικό κίνδυνο που φέρουν. Επιπλέον, παρουσιάζονται οι παράγοντες που επηρεάζουν την προσωπική οικονομική υγεία του δανειολήπτη, σε μια συγκεκριμένη χρονική στιγμή, η οποία αποτυπώνεται στο credit scoring. Το τέταρτο κεφάλαιο αποτελεί τον συνδετικό κρίκο μεταξύ των δύο ευρύτερων τμημάτων της εργασίας. Συγκεκριμένα παρουσιάζονται κριτικά ποικίλα εργαλεία εξόρυξης γνώσης και διακρίνονται σε εμπορικά και ελεύθερα λογισμικά. Εκτενέστερα περιγράφεται το WEKA και τα χαρακτηριστικά του και εισάγει τον αναγνώστη στο περιβάλλον και τις ικανότητες του προγράμματος που χρησιμοποιείται στην εργασία. Το δεύτερο μέρος αποτελεί το εφαρμοσμένο τμήμα της εργασίας, όπου αρχικά, στο πέμπτο κεφάλαιο, περιγράφονται τα ιδιαίτερα χαρακτηριστικά της βάσης δεδομένων και την προετοιμασία που απαιτεί. Στο σημείο αυτό, εκτιμάται η σημαντικότητα των μεταβλητών της βάσης δεδομένων και ορίζεται η μετρική αξιολόγησης των αλγορίθμων. Στην συνέχεια, πραγματοποιείται η εξέταση των αλγορίθμων με παραλλαγές στα διάφορα στάδια της προετοιμασίας των δεδομένων, με σκοπό να βρεθεί ο αποδοτικότερος συνδυασμός αλγορίθμου και προετοιμασίας δεδομένων. -9-

17

18 Κεφάλαιο 2_ Ανακάλυψη Γνώσης Η τεχνολογική έκρηξη της πληροφορικής και η ραγδαία εξάπλωση του παγκόσμιου ιστού οδήγησε σε πλουραλισμό πληροφοριών και γνώσης, γεγονός ωστόσο που δεν συνοδεύτηκε από τον εύκολο εντοπισμό, επεξεργασία και χρήση τους από τον άνθρωπο. Η εμφάνιση της μηχανικής μάθησης, η οποία συνέβαλε στην γρήγορη και αξιόπιστη άντληση των πληροφοριών, σε συνεργασία με τη διαδικασία ανακάλυψης γνώσης που βοήθησε στην αξιοποίηση και δημιουργία νέας γνώσης, παρουσίασαν ένα τρόπο καλύτερης διαχείρισης των δεδομένων. 2.1 Μηχανική Μάθηση Η Μηχανική Μάθηση (machine learning) αποτελεί βασικό τομέα έρευνας της Τεχνητής Νοημοσύνης και μελετά τη σχεδίαση υπολογιστικών προγραμμάτων ικανών να μαθαίνουν, ώστε να βελτιώνεται η απόδοσή τους. Η Τεχνητή Νοημοσύνη (artificial intelligence) είναι ο τομέας της επιστήμης των υπολογιστών, που ασχολείται με την σχεδίαση ευφυών υπολογιστικών συστημάτων, δηλαδή συστημάτων που επιδεικνύουν χαρακτηριστικά που σχετίζονται με την νοημοσύνη στην ανθρώπινη συμπεριφορά [A. Barr, E. A. Feigenbaum, 1981]. Η έννοια της μηχανικής μάθησης έχει περιγραφεί από πολλούς ορισμούς στο πέρασμα των χρόνων. Ο ορισμός που θεωρείται επικρατέστερος διατυπώθηκε από τον Mitchell (1997), σύμφωνα με τον οποίο ένα πρόγραμμα υπολογιστή θεωρείται ότι μαθαίνει από την εμπειρία Ε σε σχέση με μια κατηγορία εργασιών Τ και μια μετρική απόδοσης Ρ, αν η απόδοσή του σε εργασίες της Τ, όπως μετράται από την Ρ, βελτιώνονται με την εμπειρία Ε. Εύλογο ερώτημα θα ήταν Για ποιο λόγο οι μηχανές πρέπει να μαθαίνουν;. Απάντηση στο ερώτημα μπορεί να δοθεί από πολλές συνιστώσες που συναντώνται στο περιβάλλον. Μερικές από αυτές είναι: Πολλές εργασίες δεν μπορούν να οριστούν σωστά, χωρίς την χρήση παραδείγματος. Για τον λόγο αυτό είναι χρήσιμο να ορίζονται ζεύγη εισόδου/ εξόδου, δίχως καθορισμένη σχέση εισόδου/ επιθυμητής εξόδου. Έτσι οι μηχανές -11-

19 θα είναι σε θέση να προσαρμόσουν την εσωτερική δομή τους, ώστε να παράγουν σωστή έξοδο για μεγάλο αριθμό εισόδων του δείγματος και να τονίσουν την σχέση που υπονοούν τα παραδείγματα. Οι μέθοδοι μηχανικής μάθησης μπορούν συχνά να χρησιμοποιηθούν για την εξαγωγή σημαντικών σχέσεων και συσχετισμών που είναι πιθανό να είναι κρυμμένοι ανάμεσα σε μεγάλους σωρούς από δεδομένα. Οι μηχανές μπορούν να προσαρμοστούν σε ένα μεταβαλλόμενο περιβάλλον και να μειώσουν την ανάγκη για συνεχή ανασχεδιασμό. Το σύνολο των γνώσεων που διατίθεται για την εκτέλεση ορισμένων καθηκόντων μπορεί να είναι πολύ μεγάλο για ρητή κωδικοποίηση από τον άνθρωπο. Οι μηχανές οι οποίες μαθαίνουν αυτή την γνώση σταδιακά είναι σε θέση συλλάβουν περισσότερη πληροφορία από ότι ο άνθρωπος. Οι σχεδιαστές συχνά παράγουν μηχανήματα που δεν λειτουργούν τόσο καλά, όσο αναμένονταν, στο περιβάλλον που χρησιμοποιούνται. Συγκεκριμένα, ορισμένα χαρακτηριστικά του εργασιακού περιβάλλοντος μπορεί να μην είναι πλήρως γνωστά κατά τον χρόνο σχεδίασης. Οι μέθοδοι μηχανικής μάθησης μπορούν να δώσουν λύση, ώστε να βελτιωθεί ο υφιστάμενος σχεδιασμός των μηχανημάτων. Συνεχώς ανακαλύπτεται νέα γνώση από τον άνθρωπο, καθώς υπάρχει ένα σταθερό ρεύμα νέων γεγονότων στον κόσμο. Σε αντίθεση με τις μεθόδους μηχανικής μάθησης που είναι σε θέση να παρακολουθούν και να συμμορφώνονται με τις νέες γνώσεις, ο συνεχής επανασχεδιασμός των συστημάτων είναι ανέφικτος. Γενικότερα, στόχος της μηχανικής μάθησης είναι η δημιουργία συστημάτων που να είναι σε θέση να εκπαιδεύονται από εμπειρικά δεδομένα που έχουν παρατηρήσει στο παρελθόν, ώστε να εκτελούν αποτελεσματικότερα την εργασία για την οποία προορίζονται. Τα στάδια για την διαδικασία εκμάθησης είναι: Απόκτηση καταγεγραμμένων εμπειρικών δεδομένων Επεξεργασία των δεδομένων, ώστε να βρεθούν γενικεύσεις Χρήση των αποτελεσμάτων για την εκτέλεση της εργασίας στόχου. Η μηχανική μάθηση μπορεί να διακριθεί σε δύο κατηγορίες, ανάλογα με το επιθυμητό αποτέλεσμα του αλγορίθμου: -12-

20 Μάθηση με επίβλεψη (supervised learning) ή μάθηση με παραδείγματα (learning from examples), σύμφωνα με την οποία το σύστημα εκπαιδεύεται αρχικά σε ένα σύνολο παραδειγμάτων εκπαίδευσης όπου κάθε παράδειγμα χαρακτηρίζεται από μια κατηγορία και προσπαθεί να ανακαλύψει τις κοινές ιδιότητες των αντικειμένων. Τυπικό παράδειγμα της μάθησης με επίβλεψη αποτελούν τα προβλήματα ταξινόμησης. Μάθηση χωρίς επίβλεψη (unsupervised learning) ή μάθηση από παρατήρηση. Στην συγκεκριμένη κατηγορία δεν χρησιμοποιείται κάποιο προκαθορισμένο σύνολο τιμών, αλλά το σύστημα πρέπει να ανακαλύψει μόνο του συσχετίσεις ή ομάδες σε ένα σύνολο δεδομένων. 2.2 Ανακάλυψη Γνώσης σε Βάσεις Δεδομένων Η ανακάλυψη γνώσης σε βάσεις δεδομένων (Knowledge Discovery in Databases- KDD) είναι μια σύνθετη διαδικασία για τον προσδιορισμό έγκυρων, νέων, δυνητικά χρήσιμων και τελικά κατανοητών προτύπων σε δεδομένα [U. M. Fayyad et al, 1996]. Η διαδικασία περιλαμβάνει την μετατροπή χαμηλού επιπέδου δεδομένα σε υψηλού επιπέδου πληροφορία. Στόχος είναι η αποτελεσματική εξαγωγή προτύπων (δημιουργία νέων δομών από την οργάνωση και συσχέτιση εμπειριών και παραστάσεων) με νόημα που παρουσιάζουν βεβαιότητα και ενδιαφέρον και επομένως προσδίδει χρησιμότητα στον χρήστη. Η βεβαιότητα είναι απαραίτητη για τον καθορισμό της αξιοπιστίας των προτύπων. Για τον προσδιορισμό της βεβαιότητας περιλαμβάνονται διάφοροι παράγοντες, όπως η ακεραιότητα των δεδομένων, το μέγεθος του δείγματος στο οποίο έγινε η ανακάλυψη, ακόμα και ο βαθμός υποστήριξης από την διαθέσιμη γνώση πάνω στον τομέα. Από οποιαδήποτε βάση δεδομένων μπορούν να εξαχθούν πολλά πρότυπα, γνώση όμως προσφέρουν τα πρότυπα που με κάποιο τρόπο παρουσιάζουν ενδιαφέρον. Τα ενδιαφέρον πρότυπα είναι καινούργια, χρήσιμα και μη τετριμμένα, παράγοντες που εξαρτώνται από το πλαίσιο αναφοράς του χρήστη. Οι δύο παραπάνω συνιστώσες απαρτίζουν την χρησιμότητα του προτύπου, δηλαδή την συνεισφορά του στην επίτευξη του στόχου που εξετάζεται. -13-

21 Η εξόρυξη δεδομένων συχνά συγχέεται με την διαδικασία ανακάλυψης γνώσης από βάσεις δεδομένων και οι ορισμοί των δύο διαδικασιών ταυτίζονται. Η διαφορά των δύο έγκειται στο γεγονός ότι η εξόρυξη γνώσης αποτελεί το βασικότερο από τα στάδια της ανακάλυψης γνώσης και για τον λόγο αυτό ταυτίζεται καταχρηστικά με όλη την διαδικασία ανακάλυψης γνώσης. Συγκεκριμένα, η διαδικασία ανακάλυψης γνώσης αναφέρεται σε ολόκληρη την διαδικασία εξαγωγής χρήσιμων πληροφοριών, από την επιλογή των δεδομένων μέχρι και την αξιολόγηση και ερμηνεία των αποτελεσμάτων, ενώ η εξόρυξη γνώσης από δεδομένα αποτελεί ένα από τα βήματα της διαδικασίας KDD και εστιάζεται κυρίως στις μεθοδολογίες και τεχνικές εξόρυξης προτύπων δεδομένων. Η εξόρυξη γνώσης (Data Mining) ορίζεται ως η σύνθετη διαδικασία εξαγωγής συγκεκριμένης, προηγουμένως άγνωστης και δυνητικά ωφέλιμης γνώσης από δεδομένα [W. J. Frawley et al, 1992] ή ακόμα ως η επιστήμη της εξόρυξης χρήσιμης πληροφορίας από σύνολα ή βάσεις δεδομένων μεγάλου μεγέθους [D. J. Hand et al, 2001]. Η εξόρυξη γνώσης έχει αναδειχθεί τα τελευταία χρόνια εξαιτίας του διαρκώς αυξανόμενου ρυθμού ροής πληροφοριών προς επεξεργασία και έχει εξελιχθεί σε ένα από τα βασικότερα ερευνητικά ζητήματα στον τομέα των βάσεων δεδομένων, της τεχνητής νοημοσύνης και της στατιστικής Στάδια ανακάλυψης Γνώσης Για την μετατροπή των ακατέργαστων δεδομένων και την ανακάλυψη γνώσης απαιτείται αρχικά η προεπεξεγασία των δεδομένων, που περιλαμβάνει την επιλογή, την προεπεξεργασία και τον μετασχηματισμό των δεδομένων, στην συνέχεια ακολουθεί η εξόρυξη δεδομένων και τέλος η μεταεπεξεργασία, κατά την οποία τα αποτελέσματα ερμηνεύονται και αξιολογούνται. Απαραίτητη προϋπόθεση για την εφαρμογή της ανακάλυψης γνώσης είναι η πλήρης και έγκαιρη κατανόηση του τομέα πάνω στον οποίο θα εφαρμοστεί η ανακάλυψη γνώσης. Οι στόχοι απαιτείται να καθοριστούν και να ληφθούν υπόψη όλοι οι διαθέσιμοι πόροι, οικονομικοί και ανθρώπινοι, καθώς και οι περιορισμοί που ενδεχομένως υπάρχουν. Στην συνέχεια οι στόχοι πρέπει να επαληθευτούν ως προς την χρήση τους και να γίνει σαφής προσδιορισμός των δεδομένων. Αρωγός στην διαδικασία αυτή μπορεί να αποτελέσει η συνδρομή ενός ειδικού πάνω στον τομέα που μελετάται, ώστε το πρόβλημα να καθοριστεί µε αρκετή ακρίβεια. Ακόμη, πρέπει να σημειωθεί ότι η -14-

22 διαδικασία εύρεσης γνώσης είναι αλληλεπιδραστική και επαναληπτική καθώς τις περισσότερες φορές ορισμένα από τα επιμέρους βήματα είναι αναγκαίο να επαναληφθούν, αφού ενδέχεται να προκύψουν προβλήματα που να σχετίζονται µε τις αρχικές επιλογές και τα οποία ήταν αδύνατο να εντοπιστούν αρχικά. Επιπλέον, από την φύση τους τα αποτελέσματα που προκύπτουν από κύκλο εφαρμογής της ανακάλυψης γνώσης, μπορούν να δώσουν το ερέθισμα για νέου είδους αναζητήσεις με την επανάληψη ολόκληρης της διαδικασίας με σκοπό την ανακάλυψη νέας γνώσης. Τα επιμέρους στάδια της διαδικασίας ανακάλυψης γνώσης απεικονίζονται στην Εικόνα 2.1 και περιγράφονται παρακάτω σύμφωνα με τους [Fayyad et al., 1996]. Εικόνα 2.1 Επισκόπηση των βημάτων που συνθέτουν την διαδικασία ανακάλυψης γνώσης. Επιλογή δεδομένων Από σχεσιακές βάσεις δεδομένων επιλέγεται το σύνολο των δεδομένων στο οποίο θα εφαρμοστούν οι αλγόριθμοι ανακάλυψης γνώσης (training data set selection). Τα δεδομένα αυτά είναι τις περισσότερες φορές δεν είναι οργανωμένα με τρόπο που να διευκολύνεται η διαδικασία ανακάλυψης γνώσης. Συχνά η οργάνωσή τους προορίζεται για άλλη χρήση ή λαμβάνονται από διαφορετικές και ετερογενείς πηγές και έτσι οι αλγόριθμοι εύρεσης γνώσης δεν μπορούν να εφαρμοστούν απ ευθείας. Επομένως απαιτείται η εξαγωγή δεδομένων και η ενοποίησή τους, ώστε να οργανωθούν σε απλούστερες δομές. Συνήθως, η ανάγκη αυτή καλύπτεται από τα συστήματα αποθήκευσης δεδομένων (data warehouse), τα οποία παρέχουν στους αλγόριθμους ανακάλυψης γνώσης μια ευκολότερα προσβάσιμη όψη των δεδομένων. -15-

23 Προεπεξεργασία Τα δεδομένα που επιλέγονται ενδέχεται να είναι ελλιπή ή λανθασμένα, όπως άγνωστα πεδία ή πεδία πού η τιμή τους δεν ανταποκρίνεται στην πραγματικότητα. Συχνά υπάρχουν διαφορετικοί τύποι δεδομένων και διαφορετικές μονάδες μέτρησης για το ίδιο είδος πληροφορίας. Συνεπώς είναι αναγκαία η προεπεξεργασία των δεδομένων (data preprocessing), κατά την οποία πραγματοποιείται η διόρθωση ή η απομάκρυνση των λανθασμένων δεδομένων και η αντικατάσταση ή η πρόβλεψη των δεδομένων που λείπουν. Το στάδιο αυτό, λόγω των εργασιών που πραγματοποιούνται, συχνά αναφέρεται και ως καθαρισμός δεδομένων (data cleaning). Μετασχηματισμός Ο μετασχηματισμός των δεδομένων (data transformation) πραγματοποιείται με σκοπό να διευκολύνουν την ανακάλυψη γνώσης και να παρέχουν πιο κατανοητά αποτελέσματα. Παραδείγματα μετασχηματισμών που μπορούν να γίνουν είναι τα εξής: Επιλογή ή συγχώνευση χαρακτηριστικών, ώστε να μειωθεί η πολυπλοκότητα των δεδομένων. Μείωση του αριθμού των υπό εξέταση χαρακτηριστικών (dimensionality reduction) με επιλογή ορισμένων εξ αυτών. Μείωση του αριθμού των τιμών που παίρνει ένα χαρακτηριστικό (variability reduction). Αντικατάσταση ενός χαρακτηριστικού από άλλο. Διακριτοποίηση, δηλαδή μετατροπή συνεχών τιμών σε διακριτές τιμές. Απομάκρυνση σπάνια εμφανιζόμενων ακραίων τιμών, όπως είναι τα παράτυπα σημεία (outliers). Μετασχηματισμός με εφαρμογή κάποιας συνάρτησης (π.χ. λογαριθμικής) στις τιμές ενός χαρακτηριστικού. Ομοιόμορφη κωδικοποίηση της ποιοτικά ίδιας πληροφορίας. Εξόρυξη δεδομένων Στο σημείο αυτό προσδιορίζεται η κατηγορία αλγορίθμου που θα χρησιμοποιηθεί ανάλογα με το είδος της γνώσης που θα αναζητηθεί. Η εξόρυξη γνώσης είναι το βασικότερο στάδιο στην διαδικασία ανακάλυψης γνώσης. Είναι η διαδικασία που -16-

24 επιχειρεί να ανακαλύψει μοτίβα σε μεγάλα σύνολα δεδομένων. Η γνώση που προκύπτει διακρίνεται σε δύο είδη, τα μοντέλα πρόβλεψης (predictive models) και τα πρότυπα πληροφόρησης (informative patterns). Οι μέθοδοι αναλύονται εκτενέστερα στο Εδάφιο 2.3. Ερμηνεία- Αξιολόγηση Στο τελευταίο στάδιο της ανακάλυψης γνώσης πραγματοποιείται η διαχείριση των αποτελεσμάτων που προέκυψαν. Συγκεκριμένα, τα αποτελέσματα ερμηνεύονται και αξιολογούνται με την βοήθεια ποικίλων τεχνικών. Για την ερμηνεία και πλήρη κατανόηση των αποτελεσμάτων χρησιμοποιούνται τεχνικές οπτικής αναπαράστασης, όπως γραφικές απεικονίσεις, ώστε να επιτευχθεί η εξαγωγή και η συγκέντρωση πιο πολύπλοκων συμπερασμάτων. Συχνά παρατηρείται ορισμένα μοντέλα που παράγονται από τους αλγόριθμους εξόρυξης δεδομένων να μην είναι έγκυρα ή να έχουν προβλήματα, όπως το φαινόμενο της υπερμοντελοποίησης. Για την αξιολόγηση των μοντέλων γίνεται η χρήση ενός δοκιμαστικού συνόλου (test set), στο οποίο ο αλγόριθμος δεν έχει εκπαιδευτεί Προβλήματα στην διαδικασία Ανακάλυψης Γνώσης Ο πραγματικός κόσμος και κατ επέκταση τα δεδομένα που προέρχονται από αυτόν έχουν πολυδιάστατη φύση και η μη- οργανωμένη συλλογή τους καθιστούν δύσκολη την αμιγή κατανόηση και επεξεργασία τους. Η μη- καθαρότητα των δεδομένων έχει ως επακόλουθο την απόκρυψη χρήσιμων πληροφοριών, καθώς και την μείωση της αποδοτικότητας και της ποιότητας των πληροφοριών. Για την εξάλειψη των προβλημάτων που δημιουργούνται απαιτείται η προ-επεξεργασία των δεδομένων πριν από την εξόρυξη γνώσης. Παρόλο που δεν αναφέρεται συχνά, η προετοιμασία των δεδομένων αποτελεί το μεγαλύτερο μέρος της προσπάθειας που πρέπει να δαπανηθεί για να προκύψει ένα αξιόπιστο αποτέλεσμα κατά την διαδικασία της ανακάλυψης γνώσης. Στην Εικόνα 2.2 παρουσιάζεται μια ευρεία σκιαγράφηση των σταδίων της διαδικασίας και την σχετική προσπάθεια που απαιτείται για το καθένα από αυτά. Όπως μπορούμε να παρατηρήσουμε, περίπου το 60% του απαιτούμενου χρόνου δαπανάται στην προετοιμασία των δεδομένων για εξόρυξη, αποδεικνύοντας έτσι την κρίσιμη εξάρτηση από καθαρά και σχετικά δεδομένα. -17-

25 Εικόνα 2.2 Προσπάθεια που απαιτείται σε κάθε βήμα της διαδικασίας ανακάλυψης γνώσης. Δεδομένα με θόρυβο Στις βάσεις δεδομένων συχνά μια ή περισσότερες μεταβλητές έχουν τιμές που αποκλίνουν σημαντικά σε σχέση με την αναμενόμενη τιμή. Η διαχείριση των ακραίων τιμών εξαρτάται από την φύση τους. Οι ακραίες τιμές υποδεικνύουν είτε σημάδια ανησυχίας, είτε σημεία ενδιαφέροντος για την έρευνα. Η πηγή προέλευσης των ακραίων τιμών μπορεί να προέρχεται από λάθος κατά την καταχώρηση των δεδομένων στη βάση. Σε αυτή την περίπτωση, η λάθος τιμή θα διορθωθεί ή θα διαγραφεί από την ανάλυση. Επιπλέον, σύνηθες φαινόμενο κατά την διαδικασία αλλαγής λειτουργικού συστήματος είναι η αδυναμία αντανάκλασής του στο περιβάλλον της εξόρυξης δεδομένων. Είναι σαφές ότι σε αυτή την περίπτωση το μόνο που απαιτείται είναι η ενημέρωση των μεταδεδομένων. Ελλιπή δεδομένα Τα ελλιπή δεδομένα (missing data) παρατηρούνται όταν δεν υπάρχει αποθηκευμένη τιμή για μια μεταβλητή. Το φαινόμενο αυτό μπορεί προέρχεται από αναπάντητα ερωτηματολόγια, από ανθρώπινη παράλειψη, από μη καταγεγραμμένο ιστορικό, από ασυνέπειες με άλλα καταγεγραμμένα δεδομένα και συνεπώς διαγραφή τους, κ.α. Για την αντιμετώπιση του φαινομένου έχουν αναπτυχθεί ποικίλες μεθοδολογίες από τις οποίες καμία δεν μπορεί να θεωρηθεί ως η ιδανική λύση. -18-

26 Μια μέθοδος είναι η απόρριψη των εγγραφών με τα πεδία που περιέχουν ελλιπή δεδομένα, η οποία χαρακτηρίζεται από σχετική ευκολία χρήσης αλλά έχει σαν συνέπεια την απώλεια δεδομένων με αξία. Παρόλο αυτά, σε δεδομένα μεγάλου όγκου δεν αποτελεί πρόβλημα η απώλεια μερικών δεδομένων, αντίθετα με την βάση λίγων εγγραφών, όπου η ποιότητα του αποτελέσματος που θα προκύψει θα μειωθεί σημαντικά. Στην περίπτωση όπου παρατηρείται σημαντικός αριθμός παρατηρήσεων από ελλιπείς τιμές για την ίδια μεταβλητή, μια επιλογή είναι η διαγραφή της μεταβλητής από την ανάλυση. Αρνητική συνέπεια από την διαγραφή της μεταβλητής είναι η πιθανότητα η συγκεκριμένη μεταβλητή να κατέχει καθοριστικό ρόλο για το αποτέλεσμα της ανάλυσης. Η απόφαση της μείωσης παρατηρήσεων ή μεταβλητών δεν είναι πάντα εύκολη και οι επιπτώσεις αυτής δεν μπορούν εύστοχα να προβλεφτούν. Μια άλλη προσέγγιση είναι η συμπλήρωση των ελλιπών τιμών με την πιο πιθανή τιμή. Για τις ποσοτικές μεταβλητές η πιο πιθανή τιμή μπορεί να είναι η μέση τιμή δειγμάτων της ίδιας κλάσης, ενώ για τις κατηγορικές μεταβλητές θα μπορούσε να χρησιμοποιηθεί μια νέα τιμή ( άγνωστο ) που θα περιγράφει το κενό. Για την συμπλήρωση των ελλιπών τιμών έχουν αναπτυχθεί μοντέλα πρόβλεψης, τα οποία προβλέπουν την πιο πιθανή τιμή για την μεταβλητή με βάση τις τιμές των άλλων μεταβλητών στις παρατηρήσεις. Όσο περισσότερες προβλέψεις παραθέτονται στα υπάρχοντα δεδομένα, τόσο μειώνεται η ακρίβεια και η εγκυρότητα του τελικού αποτελέσματος. Δείγματα Η αδυναμία των ερευνητών να αναλύσουν τεράστια ποσά δεδομένων οδήγησε στη λήψη δείγματος από την βάση, με την χρήση του οποίου θα δοθεί ακριβές αποτέλεσμα με μικρό κόστος. Η δειγματοληψία απαιτεί στατιστικές μεθόδους, ώστε το δείγμα να αντιπροσωπεύει ικανοποιητικά (με ανεκτά σφάλματα) την αρχική βάση και να περιλαμβάνει χρήσιμα δεδομένα. Πολύ σημαντικός κρίνεται ο καθορισμός του μεγέθους του δείγματος, καθώς το δείγμα πρέπει να είναι αντιπροσωπευτικό του πληθυσμού. Διπλό- εγγραφές Στις βάσεις δεδομένων συχνά περιέχονται παρατηρήσεις που είναι διπλότυπες. Το φαινόμενο αυτό μπορεί να προκαλέσει προβλήματα, όπως για παράδειγμα η αποστολή του ίδιου μηνύματος, στον ίδιο παραλήπτη δύο φορές. Για να εντοπιστούν και να -19-

27 μειωθούν οι διπλές εγγραφές, πρέπει να ληφθούν υπόψη δύο ζητήματα ανάλογα με την περίπτωση. Αν δυο αντικείμενα αντιπροσωπεύουν ένα, τότε οι τιμές των αντίστοιχων χαρακτηριστικών πιθανώς να διαφέρουν και αυτή η σύγχυση πρέπει να λυθεί. Επιπλέον, πρέπει να δοθεί προσοχή στην περίπτωση που δύο παρατηρήσεις είναι όμοιες, χωρίς να έχουν διπλοεγγραφεί, όπως παράδειγμα δυο διαφορετικά άτομα με πανομοιότυπα ονόματα. 2.3 Μέθοδοι εξόρυξης από δεδομένα Τα αποτελέσματα της εξόρυξης γνώσης από δεδομένα εξαρτώνται από τον τύπο αλγορίθμου που έχει χρησιμοποιηθεί και διακρίνονται σύμφωνα με αυτόν σε δύο είδη γνώσης, τα πρότυπα πληροφόρησης και τα μοντέλα πρόβλεψης Πρότυπα πληροφόρησης Τα πρότυπα πληροφόρησης (informative patterns) περιγράφουν συσχετίσεις μεταξύ των δεδομένων και προκύπτουν από την μη επιτηρούμενη μάθηση (μάθηση χωρίς επίβλεψη) κατά την οποία ο αλγόριθμος κατασκευάζει ένα μοντέλο για κάποιο σύνολο εισόδων χωρίς να γνωρίζει τις επιθυμητές εξόδους για το σύνολο εκπαίδευσης. Το σύστημα καλείται να ανακαλύψει συσχετίσεις ή ομάδες σε ένα σύνολο δεδομένων, βασιζόμενο στις ιδιότητες του, δημιουργώντας πρότυπα, χωρίς να είναι γνωστό αν υπάρχουν, πόσα και ποιά είναι. Κάθε πρότυπο έχει τοπικό χαρακτήρα, περιγράφει ένα μέρος από τα δεδομένα και όχι το σύνολό τους, δίχως να υπάρχουν σαφή επιδιωκόμενα αποτελέσματα. Αντιθέτως, τα πρότυπα πληροφόρησης έχουν διερευνητική φύση και συχνά απαιτούν τεχνικές μεταεπεξεργασίας για να επικυρωθούν και να εξηγηθούν τα αποτελέσματα. Τα βασικότερα πρότυπα πληροφόρησης είναι οι κανόνες συσχέτισης και η ομαδοποίηση Μοντέλα πρόβλεψης Τα μοντέλα πρόβλεψης (predictive models) προβλέπουν την τιμή μιας μεταβλητής και προκύπτουν από την επιτηρούμενη μάθηση (μάθηση με επίβλεψη), κατά την οποία μια έννοια ή συνάρτηση εκπαιδεύεται από ένα σύνολο δεδομένων και αποτελεί περιγραφή ενός μοντέλου. Η συνάρτηση χρησιμοποιείται για την πρόβλεψη της τιμής μιας μεταβλητής, βάση των τιμών ενός συνόλου μεταβλητών. Τα μοντέλα πρόβλεψης διακρίνονται στην ταξινόμηση (classification), η οποία χρησιμοποιείται για την -20-

28 πρόβλεψη διακριτών μεταβλητών και στην παρεμβολή (regression), η οποία χρησιμοποιείται για την πρόβλεψη αριθμητικών τιμών. Στόχος αμφότερων είναι η εκπαίδευση του μοντέλου να ελαχιστοποιεί το σφάλμα μεταξύ της προβλεπόμενης και της πραγματικής τιμής της μεταβλητής που μελετάται. Μερικά από τα μοντέλα πρόβλεψης είναι: Μάθηση εννοιών, Δένδρα Ταξινόμησης, Μάθηση κατά περίπτωση, Μάθηση κατά Bayes, Παρεμβολή ή Παλινδρόμηση, Νευρωνικά δίκτυα κ.α Επισκόπηση τεχνικών Κανόνες συσχέτισης Οι κανόνες συσχέτισης (association rules) εμφανίζονται για πρώτη φορά στις αρχές της δεκαετίας του 90 και έκτοτε χρησιμοποιούνται για την ανακάλυψη προτύπων που περιγράφουν τα ισχυρά συσχετισμένα χαρακτηριστικά στα δεδομένα. Μέσα σε ένα μεγάλο σύνολο δεδομένων εφαρμόζεται ένας κανόνας συσχέτισης, ώστε να αποκαλυφθούν συγγένειες μεταξύ των στοιχείων του συνόλου, διότι η κοινή παρουσία αντικειμένων είναι ένδειξη πιθανής σχέσης μεταξύ αυτών των αντικειμένων. Οι κανόνες συσχέτισης είναι προτάσεις της μορφής {Χ 1,.,Χ n } -> Υ, που σημαίνει ότι αν βρεθούν όλες οι προϋποθέσεις Χ 1,., Χ n στο καλάθι, τότε είναι πιθανό να βρεθεί και το αποτέλεσμα Y. Μέσα στον εκθετικά αυξανόμενο χώρο αναζήτησης, στόχος των κανόνων συσχέτισης είναι η εξαγωγή των πιο ενδιαφερόντων προτύπων με τον πιο αποτελεσματικό τρόπο. Οι κανόνες συσχέτισης που προκύπτουν ακόμα και από μια μικρή βάση δεδομένων είναι πολλοί και για να έχουν αξία πρέπει να συνοδεύονται από κάποια ποσοτικά μεγέθη που μετρούν την ποιότητα, την υποστήριξη και την εμπιστοσύνη. Η υποστήριξη (support) ή κάλυψη (coverage) εκφράζει την πιθανότητα εμφάνισης του εξεταζόμενου κανόνα συσχέτισης στο σύνολο των αντικειμένων και προκύπτει από το λόγο των εγγραφών που περιλαμβάνουν τον κανόνα προς το σύνολο των εγγραφών. Συγκεκριμένα, παρουσιάζει το πλήθος των παραδειγμάτων για το οποία ισχύουν τόσο οι προϋποθέσεις, όσο και τα αποτελέσματά του. Έτσι, ο κανόνας Χ -> Y έχει υποστήριξη s, αν s% των εγγραφών στο σύνολο όλων των εγγραφών περιέχουν Χ U Y. Η εμπιστοσύνη (confidence) εκφράζει την πιθανότητα να βρεθεί το αποτέλεσμα Υ σε ένα σύνολο αντικειμένων που περιέχει το Χ και προκύπτει από το λόγο του πλήθους των παραδειγμάτων που υποστηρίζουν τον κανόνα προς το πλήθος των παραδειγμάτων -21-

29 που υποστηρίζουν τις προϋποθέσεις του κανόνα. Έτσι, ο κανόνας Χ -> Y έχει εμπιστοσύνη c, αν c% των εγγραφών στο σύνολο όλων των εγγραφών που περιέχουν το Χ περιέχουν και το Υ. Η εμπιστοσύνη για τον συγκεκριμένο κανόνα μπορεί να εκφραστεί και με συνάρτηση της υποστήριξης με τον ακόλουθο τύπο, όπου S (X) η υποστήριξη του Χ και S (X U Y) η υποστήριξη του συνόλου {X, Y}: Οι κανόνες που προκύπτουν από την παραπάνω διαδικασία είναι πολλοί και συχνά απαιτείται επιλογή εκείνων που έχουν την μεγαλύτερη πρακτική αξία. Για την διάκριση αυτών των κανόνων ο χρήστη ορίζει ένα κάτω όριο στις τιμές των μεγεθών υποστήριξη και εμπιστοσύνη, το οποίο συχνά αναφέρεται ως κατώφλι ελάχιστης υποστήριξης και κατώφλι ελάχιστης εμπιστοσύνης αντίστοιχα. Παρόλα αυτά οι μετρικές της υποστήριξής και της εμπιστοσύνης δεν είναι πάντα αρκετές, ώστε να ελαττωθεί ικανοποιητικά το σύνολο των κανόνων συσχέτισης, χωρίς να χαθούν κάποιοι σημαντικοί κανόνες. Για τον λόγο αυτό, η παρουσία ενός ειδικού κρίνεται σημαντική, και ρόλος του είναι ο κατάλληλος ορισμός των μεγεθών της υποστήριξης και της εμπιστοσύνης και έπειτα η επιλογή των χρήσιμων κανόνων. Οι μετρικές της υποστήριξης και της εμπιστοσύνης μετρούν την ποιότητα των κανόνων συσχέτισης και υπολογίζουν αντικειμενικά την χρησιμότητα του μοντέλου στον χρήστη. Η υποκειμενική διάσταση της χρησιμότητας του μοντέλου βρίσκεται στην δυνατότητα αξιοποίησής του και στο απροσδόκητο του μοντέλου, δηλαδή οι κανόνες που προκύπτουν να μπορούν να χρησιμοποιηθούν με κάποιο τρόπο και να είναι προηγουμένως άγνωστες στον χρήστη ή να έρχονται σε αντίθεση με την υπάρχουσα γνώση του. Για την ανακάλυψη κανόνων συσχέτισης έχουν προταθεί αρκετοί αλγόριθμοι, όπως ο αλγόριθμός Apriori, ο αλγόριθμος FP-Growth, ο αλγόριθμος Eclat, κ.α. Η απόδοση κάθε αλγόριθμου καθορίζεται από το πόσο γρήγορα εκτελεί και το πόσο καλά διαχειρίζεται τα διαφορετικά σύνολα δεδομένων. Οι βασικές διαφορές στα σύνολα δεδομένων συναντώνται στον αριθμό των αντικειμένων, στον αριθμό των χαρακτηριστικών και το μέγεθος του συνόλου δεδομένων. Ομαδοποίηση Η ομαδοποίηση (clustering) αποτελεί μια χρήσιμη τεχνική για την ανακάλυψη γνώσης από μια βάση δεδομένων και αφορά την μη επιτηρούμενη μάθηση, στην οποία δεν -22-

30 υπάρχει προκαθορισμένο σύνολο τιμών. Το πρόβλημα στηρίζεται στην προσπάθεια ανακάλυψης ομάδων στενά συνδεδεμένων παρατηρήσεων, έτσι ώστε οι παρατηρήσεις της ίδιας ομάδας να είναι περισσότερο όμοιες μεταξύ τους σε σχέση με παρατηρήσεις που ανήκουν σε άλλη ομάδα. Μετά την εκπαίδευση των ομάδων, το αποτέλεσμα έχει την μορφή διαγράμματος που δείχνει πως οι παρατηρήσεις κατανέμονται μέσα στις ομάδες. Η μορφή απεικόνισης των αποτελεσμάτων εξαρτάται από την μέθοδο ομαδοποίησης που χρησιμοποιήθηκε. Επιπλέον συχνά παρατηρείται, οι ομάδες που προέκυψαν από κάποιο αλγόριθμο να διαφέρουν σημαντικά ως προς τις ιδιότητές τους, από ομάδες που παρήχθησαν από διαφορετικό αλγόριθμο. Οι αλγόριθμοι της ομαδοποίησης διακρίνονται σε δεκάδες κατηγορίες από τις οποίες οι κυριότερες είναι οι εξής: Ομαδοποίηση με βάση την συνδεσιμότητα ή ιεραρχική ομαδοποίηση (hierarchical clustering), η οποία προσπαθεί να οικοδομήσει με ιεραρχικό τρόπο τον αριθμό και την δομή των ομάδων. Η στρατηγικές για την ιεράρχηση των ομάδων εμπίπτει σε δυο κατηγορίες, ανάλογα με την κατεύθυνση της ανάπτυξης: Συγχωνευτικά (agglomerative), οπού κάθε παρατήρηση ξεκίνα την δική της ομάδα και στην συνέχεια ζεύγη ομάδων συγχωνεύονται σε μία ομάδα ιεραρχικά ( bottom up προσέγγιση) και Διαιρετικά (divisive), κατά την οποία όλες οι παρατηρήσεις βρίσκονται σε μια ομάδα και διαχωρίζονται ακλουθώντας την ιεραρχία προς τα κάτω ( top down προσέγγιση). Ομαδοποίηση βασισμένη σε διαχωρισμούς (partition based clustering), που προσπαθούν να βρουν τον καλύτερο διαχωρισμό ενός συνόλου δεδομένων σε ένα συγκεκριμένο αριθμό ομάδων. Ο πιο γνωστός αλγόριθμος αυτής της κατηγορίας είναι των Κ-μέσων (K- means algorithm), ο οποίος αποτελεί πρόβλημα βελτιστοποίησης. Με συγκεκριμένο αριθμό Κ ομάδων, ο αλγόριθμος επιλέγει Κ τυχαία σημεία από τα δεδομένα θέτοντάς τα ως κέντρα των ομάδων, και στην συνέχεια αναθέτει κάθε σημείο στη ομάδα της οποίας το κέντρο είναι πλησιέστερο. Έπειτα, για κάθε ομάδα υπολογίζεται το μέσο σημείο και ορίζεται ως το νέο κέντρο της ομάδας. Τα παραπάνω βήματα αποτελούν μέρος μιας επαναληπτικής διαδικασίας η οποία εκτελείται μέχρι να μην εμφανίζεται κάποια αλλαγή στις ομάδες. -23-

31 Ομαδοποίηση βασισμένη στις πιθανότητες (probability based clustering), η οποία βασίζεται σε μοντέλα πιθανοτήτων. Χαρακτηριστικό παράδειγμα αυτής της κατηγορίας είναι ο αλγόριθμος μεγιστοποίησης της προσδοκίας (expectation- maximization) ή πιο σύντομα ΕΜ αλγόριθμος. Ο ΕΜ αλγόριθμος είναι γενική μέθοδος εύρεσης εκτιμητών πιθανότητας (maximum likelihood estimators) των παραμέτρων μιας δοθείσας κατανομής, σε προβλήματα όπου κάποιες μεταβλητές δεν έχουν παρατηρηθεί. Κατά την ασαφή ομαδοποίηση (fuzzy clustering), οι αλγόριθμοι συνδέουν το κάθε αντικείμενο με όλες τις υπάρχουσες ομάδες μέσω ενός βαθμού συμμετοχής, σε αντίθεση με τους παραδοσιακούς αλγόριθμους ομαδοποίησης που κάθε αντικείμενο ανήκει σε μια μόνο ομάδα. Ο πιο διαδεδομένος ασαφής αλγόριθμος είναι ο fuzzy c- means αλγόριθμος (FCM algorithm). Εκτός από τους παραπάνω, υπάρχουν πληθώρα άλλων κατηγοριών ομαδοποίησης, όπως η ομαδοποίηση μέσω τεχνιτών νευρωνικών δικτύων (AANs), η γραφοθεωριτική ομαδοποίηση, οι αλγόριθμοι βασισμένοι σε πλέγμα, κ.α. Στους περισσότερους αλγόριθμους η απόσταση μεταξύ των δεδομένων χρησιμοποιείται σαν μέτρο ομοιότητας και διαφοράς. Έστω σε ένα σύνολο δεδομένων D και δύο δεδομένα του συνόλου x, y που περιγράφονται από m χαρακτηριστικά (x 1, x 2,.,x m ), (y 1,y 2,.,y m ). Οι πιο γνωστοί τύποι απόστασης που χρησιμοποιούνται είναι: Απόσταση Manhattan, όπου i=1,2,,m Ευκλείδεια απόσταση, όπου i=1,2,.,m Σταθμισμένη ευκλείδεια απόσταση, όπου i=1,2,,m και w m τα βάρη για να εξισορροπήσουν την σημαντικότητα των χαρακτηριστικών -24-

32 Απόσταση Minkowski, όπου i=1,2,,m και λ ένας ακέραιος (Αν λ=1, τότε έχουμε την απόσταση Manhattan. Αν λ=2, τότε έχουμε την ευκλείδεια απόσταση). Παλινδρόμηση Η παλινδρόμηση ή παρεμβολή (regression) προβλέπει την τιμή της εξόδου, όταν είναι γνωστές οι είσοδοι. Αποτελεί μια διαδικασία προσδιορισμού της σχέσης μιας εξαρτημένης μεταβλητής y, με μια ή περισσότερες ανεξάρτητες μεταβλητές x 1, x 2,, x n. Τα μοντέλα παλινδρόμησης μπορεί να είναι είτε γραμμικά, είτε μη γραμμικά. Στα γραμμικά (linear) μοντέλα, η αναμενόμενη τιμή εξόδου μοντελοποιείται με το σταθμισμένο άθροισμα των παραμέτρων εισόδου και έχει την μορφή: Y i =β o + β 1 x 1i + β 2 x 2i + + β n x ni, όπου i=1,2,,m τα δεδομένα εκπαίδευσης και β n ο αριθμός των συντελεστών που απαιτείται να υπολογισθούν. Τα μη γραμμικά μοντέλα έχουν πιο πολύπλοκο τρόπο σύνδεσης, αλλά μπορούν να μετατραπούν σε γραμμικά και να ακολουθήσουν τον ίδιο τρόπο επίλυσης. Ταξινόμηση Η ταξινόμηση (classification) είναι πρόβλημα ανάθεσης μιας νέας παρατήρησης σε μια ή περισσότερες προκαθορισμένες κατηγορίες (κλάσεις) με την μεγαλύτερη δυνατή ακρίβεια. Πρόκειται για μια διαδικασία εκμάθησης μιας συνάρτησης στόχου f (target function) που απεικονίζει κάθε σύνολο γνωρισμάτων σε μία από τις προκαθορισμένες κλάσεις. Μπορεί να χρησιμοποιηθεί είτε ως επεξηγηματικό εργαλείο (περιγραφικό μοντέλο), είτε για την πρόβλεψη της κλάσης άγνωστων εγγραφών (μοντέλο πρόβλεψης). -25-

33 Για τα μοντέλα ταξινόμησης, το σύνολο δεδομένων χωρίζεται σε ένα σύνολο εκπαίδευσης (training set) και σε ένα σύνολο ελέγχου (test set). Ο παραπάνω διαχωρισμός αποτελεί σημαντικό μέρος για την αξιολόγηση των μοντέλων εξόρυξης δεδομένων, όπου η απόδοση κάθε μοντέλου μετράται σύμφωνα με το ποσοστό σφάλματος (error rate), δηλαδή το ποσοστό των μη σωστά ταξινομημένων παρατηρήσεων στην βάση δεδομένων. Το σύνολο εκπαίδευσης χρησιμοποιείται για να δημιουργηθεί το μοντέλο, ενώ το σύνολο ελέγχου για να το επικυρώσει. Συνήθως, κατά τον διαχωρισμό το μεγαλύτερο μέρος των δεδομένων χρησιμοποιείται για την εκπαίδευση και ένα μικρότερο τμήμα των δεδομένων για τον έλεγχο. Έχουν αναπτυχθεί πολλοί ταξινομητές, από τους οποίους οι πιο ευρέως χρησιμοποιούμενοι περιγράφονται παρακάτω. Δένδρα ταξινόμησης Τα δένδρα απόφασης ή ταξινόμησης ( decision/ classification trees) εφαρμόζονται σε περιπτώσεις όπου τα δεδομένα καλούνται να χωριστούν σε ομάδες και όχι για την εξαγωγή αριθμητικών αποκρίσεων ή την περιγραφή της σχέσης μεταξύ των μεταβλητών. Χρησιμοποιούνται για να προβλέψουν, με κάποιο βαθμό ακρίβειας, την τιμή της μεταβλητής που μοντελοποιούν με βάση τις τιμές των θεωρούμενων ανεξάρτητων μεταβλητών. Τα δένδρα ταξινόμησης περιγράφουν τα δεδομένα με γραφικό τρόπο παρουσιάζοντας μια δενδροειδής δομή που αποτελείται από κόμβους και κλαδιά. Κάθε κόμβος ορίζει μια συνθήκη ελέγχου της τιμής κάποιου χαρακτηριστικού των περιπτώσεων, ενώ κάθε κλαδί αντιστοιχεί σε μια διαφορετική διακριτή τιμή του χαρακτηριστικού που σχετίζεται με τον κόμβου από τον οποίο προήλθε. Μια νέα περίπτωση ταξινομείται αρχίζοντας από τον κόμβο- ρίζα (αρχικός κόμβος) και ακολουθεί σε κάθε κόμβο- χαρακτηριστικό το κλαδί που έχει ίδια τιμή με αυτή της περίπτωσης. Το τελικό δένδρο μπορεί να χρησιμοποιηθεί είτε για πρόβλεψη, όπου οι ανεξάρτητες μεταβλητές είναι η είσοδος και η εξαρτημένη μεταβλητή η έξοδος, είτε ως περιγραφή/ διερεύνηση, όπου τα αποτελέσματα μπορούν να φανερώσουν συσχετίσεις μεταξύ εξαρτημένης και ανεξάρτητης μεταβλητής. Ένα δένδρο ταξινόμησης μπορεί εναλλακτικά να αναπαρασταθεί και με ένα σύνολο από κανόνες (κανόνες ταξινόμησης, classification rules). Το βασικό, όμως, πλεονέκτημα της μεθόδου βρίσκεται στην δενδροειδής δομή, διότι επιτρέπει την εύκολη ερμηνεία των αποτελεσμάτων. -26-

34 Οι πιο γνωστοί αλγόριθμοι δένδρων ταξινόμησης είναι οι παρακάτω: Ο ID3 (Iterative Dichotomiser 3) κάνει την εμφάνιση του το 1979 από τον J.Ross Quinlan και αποτελεί τον πιο γνωστό αλγόριθμο μάθησης δένδρων ταξινόμησης. Η λειτουργία του βασίζεται σε συγκεντρωτικά μεγέθη του συνόλου των δεδομένων εκπαίδευσης και για τον λόγο αυτό απαιτεί το παραπάνω σύνολο από την αρχή. Ο ID3 είναι ένας άπληστος (greedy) αλγόριθμος, δηλαδή δίνει την βέλτιστη λύση τοπικά (σε κάθε στάδιο), ώσπου να προσεγγίσει την γενική βέλτιστη λύση, ακολουθώντας κατεύθυνση από πάνω προς τα κάτω και επιλέγοντας για αρχή το πιο κατάλληλο χαρακτηριστικό για ρίζα. O αλγόριθμος C4.5 είναι μεταγενέστερος του αλγορίθμου ID3 και αποτελεί επέκτασή του. Συγκεκριμένα, είναι βελτιωμένος διότι διευκολύνει την διαχείριση των ελλιπών δεδομένων, αγνοώντας τα κατά την διάρκεια της δημιουργίας του δένδρου και στη συνέχεια τα κατατάσσει με βάση μιας τιμής πρόβλεψης, που έχει προσδιοριστεί από τις υπόλοιπες τιμές αυτού του χαρακτηριστικού. Επιπλέον, χωρίζει τις συνεχείς τιμές των χαρακτηριστικών σε διαστήματα και τέλος, μπορεί να εφαρμόσει σημαντικές στρατηγικές κλαδέματος, ώστε να αποφευχθεί το φαινόμενο της υπερμοντελοποίησης. Ο αλγόριθμος C5.0 είναι εμπορική έκδοση του C4.5 και χρησιμοποιείται εκτενώς σε πακέτα λογισμικού εξόρυξης γνώσης. Χρησιμοποιείται για μεγάλα σύνολα δεδομένων, και εμφανίζει πλεονεκτήματα στην χρήση μνήμης, η οποία παρουσιάζεται βελτιωμένη κατά 90%, στην ταχύτητα και στην ακρίβεια των κανόνων που παράγει. Το μεγαλύτερο, όμως, πλεονέκτημα είναι η δυνατότητα της χρήσης μιας τεχνικής που συνδυάζει διάφορους κατηγοριοποιητές. Ο αλγόριθμος CART (Classification And Regression Tree) διατυπώθηκε από τους Breiman et al το Ένα δένδρο CART είναι ένα δυαδικό δένδρο απόφασης που κατασκευάζεται από την διάσπαση ενός κόμβου σε δύο κόμβους παιδιά, ξεκινώντας από τον κόμβο- ρίζα που περιέχει το σύνολο των δεδομένων εκπαίδευσης. Ο αλγόριθμος CHAID (Chi- squared Automatic Interaction Detection) δημοσιεύτηκε το 1980 από τον Gordon B. Kass. Μπορεί να ανιχνεύει την αλληλεπίδραση μεταξύ των μεταβλητών στο σύνολο των δεδομένων. Απαιτεί μεγάλο μέγεθος δείγματος και πλεονέκτημά της είναι η παρουσίαση του αποτελέσματος με οπτικό τρόπο που το καθιστά εύκολο να ερμηνευτεί. -27-

35 Μάθηση κατά Bayes Η μάθηση κατά Bayes (Bayes learning) είναι μια πιθανολογική προσέγγιση για την εξαγωγή συμπεράσματος. Στην μάθηση κατά Bayes κάθε παράδειγμα εκπαίδευσης μπορεί σταδιακά να μειώσει ή να αυξήσει την πιθανότητα να είναι σωστή μια υπόθεση, γεγονός που προσφέρει μεγάλη ευελιξία στους σχετικούς αλγορίθμους καθώς δεν απορρίπτουν αμέσως μια υπόθεση όταν προκύπτει ότι δεν είναι σε απόλυση συμφωνία με τα παραδείγματα εκπαίδευσης. Επιπλέον, η προϋπάρχουσα γνώση μπορεί να συνδυαστεί με τα δεδομένα εκπαίδευσης για να προσδιοριστεί η τελική πιθανότητα μιας υπόθεσης, ενώ οι νέες περιπτώσεις μπορούν να ταξινομηθούν συνδυάζοντας τις προβλέψεις πολλαπλών υποθέσεων σταθμισμένες με τις πιθανότητές τους, δίνοντας ευελιξία. Ο απλός ή αφελής ταξινομητής Bayes (simple/ naive Bayes classifier) είναι η πιο δημοφιλής και απλή εκδοχή της μάθησης κατά Bayes και βασίζεται στην παραδοχή ότι τα χαρακτηριστικά είναι υπό όρους ανεξάρτητα μεταξύ τους. Παρόλο που η υπόθεση συχνά παραβιάζεται, στην πράξη ο αλγόριθμος λειτουργεί πολύ καλά. Βασικό πλεονέκτημα του αφελή ταξινομητή είναι ότι μειώνει τα προβλήματα διαστάσεων, όπως την απαίτηση για ύπαρξη μεγάλων συνόλων δεδομένων. Νευρωνικά δίκτυα Τα τεχνητά νευρωνικά δίκτυα ή απλά νευρωνικά δίκτυα (neural networks) είναι ένα χρήσιμο υπολογιστικό εργαλείο, με πολλαπλές εφαρμογές, που παρέχει ένα πρακτικό τρόπο για την εκμάθηση αριθμητικών και διανυσματικών συναρτήσεων ορισμένων σε συνεχή ή διακριτά μεγέθη. Τα νευρωνικά δίκτυα αρχικά προτάθηκαν ως μοντέλο προσομοίωσης της λειτουργίας του ανθρώπινου εγκεφάλου και η αρχιτεκτονική τους βασίζεται στην αρχιτεκτονική των βιολογικών νευρωνικών δικτύων. Τα νευρωνικά δίκτυα αποτελούνται από ένα πλήθος νευρώνων που συνδέονται μεταξύ τους. Ένας νευρώνας είναι μια μονάδα επεξεργασίας πληροφορίας με πολλές εισόδους x i και μια έξοδο y, η οποία αποτελεί είσοδο για άλλους νευρώνες. Οι συνδέσεις μεταξύ των νευρώνων ή αλλιώς συνάψεις (synapses) καθορίζονται από τον βαθμό αλληλεπίδρασης για κάθε ζεύγος νευρώνων σύμφωνα με τα συναπτικά βάρη (synaptic weights). Τα τρία βασικά στοιχεία ενός τεχνητού νευρώνων είναι τα ακόλουθα: -28-

36 Ένα σύνολο από συνάψεις με βάρη w i Έναν αθροιστή (προσθέτει τα επηρεασμένα από τα βάρη σήματα εισόδου) και Μια συνάρτηση ενεργοποίησης (φίλτρο που διαμορφώνει την τελική τιμή εξόδου) Εικόνα 2.3. Μοντέλο τεχνητού νευρώνα. Ένα νευρωνικό δίκτυο έχει την ικανότητα να μαθαίνει από το περιβάλλον του και να βελτιώνει την απόδοσή του μέσω της μάθησης. Η βελτίωση γίνεται σταδιακά, ενώ η μάθηση επιτυγχάνεται μέσω μιας επαναληπτικής διαδικασίας ρυθμίσεων της τιμής των συναπτικών βαρών, με αποτέλεσμα, μετά από κάθε επανάληψη το δίκτυο να αποκτά περισσότερη γνώση. Το βασικό πλεονέκτημα των νευρωνικών δικτύων είναι ότι μπορούν να αποθηκεύουν εμπειρία και γνώση από το περιβάλλον, την οποία μπορεί να ανακαλέσει. Επιπλέον, έχει τη δυνατότητα γενικεύει, να εξάγει, δηλαδή, τα βασικά χαρακτηριστικά ενός συστήματος, ακόμα και όταν πρόκειται για ελλιπή ή/και με θόρυβο δεδομένα. Τέλος, τα νευρωνικά δίκτυα έχουν μεγάλη ανοχή σε δομικά σφάλματα (π.χ. καταστροφή κάποιου νευρώνα), χωρίς να διαταράσσεται σημαντικά η λειτουργία τους, γεγονός που καθιστά την χρήση τους ιδανική για λειτουργία σε αντίξοες συνθήκες. Μάθηση κατά περίπτωση Στην μάθηση κατά περίπτωση (instance- based learning) τα δεδομένα εκπαίδευσης διατηρούνται αυτούσια, ώστε μια νέα παρατήρηση να ταξινομείται με βάση την σχέση της με τα ήδη υπάρχοντα δεδομένα. Ο πιο γνωστός αλγόριθμος αυτής της κατηγορίας είναι ο αλγόριθμος των k- κοντινότερων γειτόνων (k- nearest neighbors), σύμφωνα με τον οποίο όλα τα χαρακτηριστικά τοποθετούνται ως σημεία σε έναν n- διάστατο ευκλείδειο χώρο R n, όπου n ο αριθμός των χαρακτηριστικών. Κάθε νέα παρατήρηση τοποθετείται ως νέο -29-

37 σημείο στο χώρο και η τιμή της προσδιορίζεται με βάση των χαρακτηρισμό των k κοντινότερων γειτόνων. Οι κοντινότεροι γείτονες βρίσκονται με βάση την Ευκλείδεια απόσταση. Στο παρακάτω παράδειγμα ζητείται να χαρακτηριστεί η νέα παρατήρησηκύκλος, ταξινομώντας τη είτε στην πρώτη κατηγορία με τα τετράγωνα, είτε στην δεύτερη με τα τρίγωνα. Αν k=3 (εσωτερικός κυκλικός δακτύλιος), η νέα παρατήρηση τοποθετείται στην δεύτερη κατηγορία των τριγώνων, εξαιτίας της ύπαρξης περισσότερων τριγώνων (δύο) έναντι τετραγώνων (ένα). Για τον ίδιο λόγο, αν k= 5 (εξωτερικός κυκλικός δακτύλιος), η νέα παρατήρηση τοποθετείται στην πρώτη κατηγορία των τετραγώνων. Εικόνα 2.4. Προσδιορισμός κατηγορίας με βάση τους 3 και τους 5 κοντινότερους γείτονες. -30-

38 Κεφάλαιο 3_ Τραπεζικός Δανεισμός Ο ρόλος των τραπεζών καθίσταται ιδιαίτερα σημαντικός στο σύγχρονο χρηματοοικονομικό περιβάλλον, γεγονός που οφείλεται στο γεγονός ότι οι τράπεζες δεν λειτουργούν πλέον μόνο ως διαμεσολαβητές μεταξύ πλεονασματικών και ελλειμματικών μονάδων με απώτερο σκοπό την εξομάλυνση στην κατανομή εισοδημάτων και επενδύσεων των νοικοκυριών και των επιχειρήσεων, αλλά επιτελούν και μια σειρά από διακριτές λειτουργίες, όπως η διαχείριση κινδύνων, η παρακολούθηση οφειλετών και η επεξεργασία πληροφοριών. Η παροχή δανείων σε πολίτες, επιχειρήσεις και κράτη αποτελεί μια από τις βασικότερες λειτουργίες του τραπεζικού συστήματος. Το πόσο καλά ένα τραπεζικό ίδρυμα εκτελεί την εκπλήρωση της λειτουργίας του δανεισμού έχει άμεση σχέση με την οικονομική υγεία της περιοχής του, διότι τα παρεχόμενα δάνεια υποστηρίζουν την ανάπτυξη νέων επιχειρήσεων και θέσεων εργασίας και μεταφέρουν πληροφορία στην αγορά σχετικά με την ποιότητα πίστωσης που μπορούν να δεχθούν οι δανειζόμενοι. Για την προστασία και των δύο μερών, ο δανεισμός πρέπει να διέπεται από κανόνες, αξιολόγηση πελατών και συνεχή παρακολούθηση της πορείας τους, ώστε να υπάρχουν οι κατάλληλες προϋποθέσεις που θα οδηγήσουν στην αποπληρωμή του δανείου. Στην διαδικασία αυτή, χρήσιμη είναι η εξόρυξη πληροφορίας σχετικά με τα επιθυμητά χαρακτηριστικά που πρέπει να εντοπίζονται πάνω στους υποψήφιους για δανειοδότηση και η εξαγωγή μοντέλων για την εκτίμηση της πιθανότητας αποπληρωμής των δανείων τους. Για τον σχηματισμό σωστών προβλέψεων από ζημίες επισφαλών δανείων, θα διακριθούν οι παράγοντες που αξιολογούνται και συμβάλουν στην ικανότητα των δανειοληπτών να ανταπεξέλθουν στην οικονομική υποχρέωσή τους. Στην συνέχεια του κεφαλαίου παρουσιάζεται η δανειακή πολιτική των τραπεζών και δίνεται έμφαση στα μη εξυπηρετούμενα δάνεια, και στις τεχνικές προσδιορισμού του προφίλ πολιτών που διαθέτουν υψηλή πιστοληπτική ικανότητα. -31-

39 3.1 Οι Τράπεζες και η Δανειακή Πολιτική τους Το τραπεζικό δίκαιο της Ευρωπαϊκής Ένωσης ορίζει τις δραστηριότητες των πιστωτικών ιδρυμάτων, οι οποίες συνίστανται στην αποδοχή καταθέσεων ή άλλων επιστρεπτέων κεφαλαίων από το κοινό, στην χορήγηση δανείων ή λοιπών πιστώσεων για λογαριασμό της (Ν. 2076/92), καθώς και μια σειρά πρόσθετων λειτουργιών, όπως η παροχή υπηρεσιών πληροφόρησης και διαχείρισης κινδύνων, επενδυτικών υπηρεσιών, υπηρεσιών πληρωμών και διακανονισμού και ασφαλιστικών υπηρεσιών (Ελληνική Ένωση Τραπεζών, 2006). Μέσα από το σύνολο των δραστηριοτήτων των τραπεζικών ιδρυμάτων, ο δανεισμός κεφαλαίων αποτελεί πρωταρχική λειτουργία, παρέχει πίστωση για την χρηματοδότηση νέων και υφιστάμενων δραστηριοτήτων και απαιτεί μια καλά σχεδιασμένη πιστωτική πολιτική, για την απόκτηση υψηλής απόδοσης και την ελαχιστοποίηση του κινδύνου. Η διασφάλιση των κεφαλαίων που δανείζει ο πιστωτικός οργανισμός και η λήψη των τόκων 2 επί του κεφαλαίου είναι καθοριστικής σημασίας για την αύξηση των καθαρών εσόδων και την απρόσκοπτη λειτουργία του. Τα καθαρά έσοδα ορίζονται ως η διαφορά μεταξύ των συνολικών στοιχείων εσόδων και των συνολικών στοιχείων εξόδων. Καθαρά έσοδα= Συνολικά στοιχεία εσόδων Συνολικά στοιχεία εξόδων Η κύρια πηγή εσόδων για την τράπεζα είναι τα έσοδα από τόκους, που προκύπτουν από τα έντοκα στοιχεία ενεργητικού 3, κυρίως από δάνεια και επενδύσεις. Συμπληρωματικά έσοδα παρέχονται από αμοιβές για συγκεκριμένες υπηρεσίες, όπως η χρήση ATM, ενώ τα έξοδα ενός τραπεζικού οργανισμού πραγματοποιούνται κατά την δημιουργία των εσόδων και περιλαμβάνουν τους τόκους που καταβάλλονται στους καταθέτες, τόκοι που οφείλονται σε ληφθέντα δάνεια μη-καταθέτων, κόστος μετοχικού κεφαλαίου, μισθοί, ημερομίσθια και παροχές σε υπαλλήλους, φόροι, κ.α. Για την ανάλυση του πόσο καλά λειτουργούν οι υπηρεσίες ενός χρηματοπιστωτικού ιδρύματος, χρησιμοποιούνται δείκτες αποδοτικότητας, από τους οποίους οι πιο σημαντικοί είναι οι δύο ακόλουθοι: 2 αμοιβές που είναι υποχρεωμένος να δώσει ο οφειλέτης στον δανειστή για ορισμένη ποσότητα χρηματικού δανείου που πήρε για συγκεκριμένη χρονική περίοδο 3 οι πόροι που ελέγχει μια επιχείρηση και προκύπτουν από παρελθόντα γεγονότα και αναμένεται η εισροή μελλοντικών οικονομικών οφειλών -32-

40 ROA (Return on Assets). Είναι κατά κύριο λόγο ένας δείκτης διαχειριστικής αποδοτικότητας και απεικονίζει την ικανότητα της διοίκησης να μετατρέπει τα περιουσιακά στοιχεία σε καθαρά κέρδη. ROE (Return on Equity capital). Είναι ένα μέτρο του ποσοστού επιστροφής που ρέει στους μετόχους και προσεγγίζει το καθαρό όφελος που έχουν λάβει από την επένδυση των κεφαλαίων τους στο χρηματοπιστωτικό ίδρυμα. Από τα παραπάνω, γίνεται εμφανή η ανάγκη των τραπεζών για εξασφάλιση της ομαλής πορείας των καθαρών εσόδων, για την διατήρηση της αποδοτικότητάς τους [P. S. Rose, S. C. Hudgins, 2010]. Όπως προαναφέρθηκε τα έσοδα από τόκους δανείων αποτελούν βασική συνιστώσα για την αύξηση των καθαρών εσόδων για έναν τραπεζικό οργανισμό και για τον λόγο αυτό η σωστή εκτίμηση της ικανότητας των δανειοληπτών να αποπληρώσουν το δάνειο είναι καθοριστικής σημασίας. Έτσι, για την διαδικασία δανεισμού από την πλευρά των χρηματοπιστωτικό ιδρυμάτων ακολουθούνται τα παρακάτω έξι βήματα: 1. Εύρεση υποψήφιων δανειακών πελατών. Στις περισσότερες περιπτώσεις, τα δάνεια προς τα φυσικά πρόσωπα προκύπτουν από άμεσο αίτημά τους και προσέγγιση των τραπεζικών υπαλλήλων που είναι υπεύθυνοι για την δανειοδότηση. 2. Αξιολόγηση του χαρακτήρα και της ειλικρίνειας του σκοπού του υποψήφιου πελάτη. Μετά την εκδήλωση ενδιαφέροντος του δυνητικού δανειολήπτη για λήψη δανείου, ακολουθεί συνέντευξη του δανειακού πελάτη με τον υπεύθυνο υπάλληλο για τα δάνεια, δίνοντας την δυνατότητα στον δανειολήπτη να εξηγήσει τις πιστωτικές του ανάγκες και στον τραπεζικό υπάλληλο να εκτιμήσει την ειλικρίνεια του σκοπού και του χαρακτήρα του δανειολήπτη. 3. Επιτόπιες επισκέψεις και αξιολόγηση του ιστορικού πίστωσης. Το στάδιο αυτό περιλαμβάνει την επικοινωνία του δανειοδότη με παλαιότερους πιστωτές του ενδιαφερόμενου προς δάνειο, για αξιολόγηση της εμπειρίας τους και την καταγραφή του ιστορικού αποπληρωμής, που αποκαλύπτει περισσότερα για τον χαρακτήρα, την ειλικρίνεια και την υπευθυνότητα του δανειολήπτη απέναντι στις πιστώσεις που του παρέχονται. -33-

41 4. Αξιολόγηση της οικονομικής κατάστασης του υποψήφιου πελάτη. Αν όλα έχουν εξελιχθεί ομαλά μέχρι αυτό το στάδιο, ο υποψήφιος δανειολήπτης καλείται να προσκομίσει τα απαραίτητα έγγραφα, ώστε να αξιολογηθεί πλήρως το αίτημα δανείου και να αναλυθεί η ύπαρξη επαρκής ροής μετρητών και περιουσιακών στοιχείων ασφαλείας για αποπληρωμή του δανείου. Στην συνέχεια, το τμήμα ανάλυσης ετοιμάζει μια σύντομη περίληψη και σύσταση, συνήθως συνοδευόμενη από προφορική παρουσίαση και συζήτηση για τα δυνατά και αδύνατα σημεία της αίτησης, την οποία εγκρίνει ή απορρίπτει η δανειακή επιτροπή. 5. Αξιολόγηση πιθανών εξασφαλίσεων του δανείου και υπογραφή δανειακής σύμβασης. Μετά την έγκριση της δανειακής επιτροπής, ελέγχονται τα περιουσιακά στοιχεία που πρόκειται να δεσμευτούν ως εγγύηση, προκειμένου να διασφαλιστεί ότι το δανειοδοτούν πιστωτικό ίδρυμα θα αποκτήσει την κυριότητα του ακινήτου σε περίπτωση αθέτησης της δανειακής σύμβασης. 6. Έλεγχος της τήρησης της δανειακής σύμβασης και άλλες ανάγκες εξυπηρέτησης των πελατών. Η νέα συμφωνία πρέπει να παρακολουθείται συνεχώς για την διασφάλιση των όρων του δανείου και την αποπληρωμή του δανεισθέντος κεφαλαίου και των τόκων του. Η λήψη μιας απόφασης για ένα δάνειο επηρεάζεται και από τον υποκειμενικό παράγοντα, διότι συχνά χρησιμοποιούνται πληροφορίες σχετικά με την εικόνα που σχημάτισε ο αξιολογητής για τον υποψήφιο δανειολήπτη. Έτσι, η αξιολόγηση δεν γίνεται αποκλειστικά με βάση ισχυρά αντικειμενικές πληροφορίες, όπως ιστορικό πληρωμών κ.α., αλλά και με ποιοτικής φύσης πληροφορίες, όπως ο χαρακτήρας του πιστούχου κ.α., γεγονός που αναδεικνύει τον καθοριστικό παράγοντα των αξιολογητών στην διαδικασία έγκρισης του δανείου. Κατά συνέπεια ο ρόλος του credit officer ειδικότερα όσον αφορά την παροχή μη μετρήσιμης πληροφόρησης είναι ρόλος κλειδί και επηρεάζει τον σχηματισμό του γενικότερου προφίλ του πελάτη. [J. A. Scott, 2006]. Το κόστος αξιολόγησης της πιστοληπτικής ικανότητας των πελατών, δηλαδή η ικανότητα ανταπόκρισης στις δανεικές υποχρεώσεις, είναι πολύ σημαντικό όσον αφορά τη διαμόρφωση της πιστωτικής πολιτικής των τραπεζών. Η μέτρηση της πιστοληπτικής ικανότητας συνίσταται σε τέσσερις επιμέρους τεχνικές που συμβάλλουν στην αξιολόγηση του ιστορικού πίστωσης, της οικονομική κατάστασης και των πιθανών εξασφαλίσεων [X. He, Y. Wang, 2007]: -34-

42 Direct measurement. Στην περίπτωση αυτή αξιολογείται και αναλύεται ο πελάτης με βάση την έρευνα και ανάλυση που κάνει η ίδια η τράπεζα. Η μέθοδος αυτή είναι η περισσότερο δαπανηρή σε σχέση με τις ακόλουθες. Guarantee measuremnt. Εδώ εξετάζεται και αξιολογείται η ύπαρξη τρίτου προσώπου που εγγυάται το δάνειο, Collateral measurement. Στην περίπτωση αυτή η τράπεζα λειτουργεί ως ενεχυροδανειστήριο. Η τράπεζα αξιολογεί τα προσφερόμενα καλύμματα προκειμένου να εγκρίνει ή να απορρίψει το δάνειο, Credit record measurement. Η τράπεζα διαθέτει πρόσβαση σε κάποιο σύστημα πιστοληπτικής αξιολόγησης και εκτιμά την πιστοληπτική ικανότητα του πελάτη λαμβάνοντας υπόψη τυχόν στοιχεία του, καταχωρημένα στο εν λόγω σύστημα. Τα συμπεράσματα που βγαίνουν από την εκτίμηση του κόστους αξιολόγησης του πελάτη αναφορικά με την δανειακή πολιτική των τραπεζών είναι ότι αυτό επηρεάζει όχι μόνο το ύψος του δανειακού χαρτοφυλακίου, αλλά και το ύψος των επιτοκίων. Επιπρόσθετα, όσο πιο πολλές καλύψεις προσφέρονται σε δάνεια τόσο μικρότερο είναι και το κίνητρο των τραπεζών να μοιραστούν πληροφορίες που αφορούν την πιστοληπτική ικανότητα των πελατών τους. Το ίδιο ισχύει και εάν το ποσοστό των εγκεκριμένων σε σχέση με τα αιτηθέντα δάνεια είναι επίσης χαμηλό. Ένα δάνειο σύμφωνα με το επόμενο άρθρο μπορεί χρηματοοικονομικά να βρίσκεται σε μία από τις ακόλουθες καταστάσεις [L. D. Smith, E. C. Lawrence, 1995]: α) Ενήμερο (current), όταν οι βεβαιωμένες οφειλές καλύπτονται από τις πληρωμές, β) Σε καθυστέρηση (delinquent), όταν οι βεβαιωμένες οφειλές υπολείπονται των πληρωμών, γ) Σε επισφάλεια (charged off), όταν ολόκληρο το ποσό του δανείου οφείλεται και έχει γίνει απαιτητό, δ) Πληρωμένο (paid off), όταν έχει καταβληθεί το σύνολο της οφειλής. -35-

43 3.2 Μη Εξυπηρετούμενα Δάνεια Ένα από τα μεγαλύτερα προβλήματα για τις τράπεζες είναι τα μη εξυπηρετούμενα δάνεια (NPAs- Non Performing Assets). Ένα δάνειο γίνεται μη εξυπηρετούμενο όταν σταματάει να αποφέρει εισόδημα για τον πιστωτικό οργανισμό. Για να χαρακτηριστεί μία πιστωτική διευκόλυνση μη εξυπηρετούμενη θα πρέπει οι τόκοι ή / και μέρος του κεφαλαίου που χαρακτηρίζονται ως καθυστερούμενες οφειλές να μην ξεπερνούν χρονικά κάποιο συγκεκριμένο χρονικό διάστημα (συνήθως 90 ημέρες). Η συχνότητα εμφάνισης τέτοιων δανείων οφείλεται σε μεγάλο βαθμό τόσο σε ενδογενείς (παράγοντες που επηρεάζονται από την τράπεζα, όπως λάθη διοίκησης, παράνομη χειραγώγηση και αδύναμες δανειακές πολιτικές) όσο και σε εξωγενείς (παράγοντες που δεν επηρεάζονται από την τράπεζα, όπως αλλαγές στην οικονομία, φυσικές καταστροφές και κανονισμοί που επιβάλλονται από την κυβέρνηση) παράγοντες. Στην συνέχεια παρατίθενται κάποιοι από τους παράγοντες οι οποίοι έχουν επίδραση στην εμφάνιση επισφαλών δανείων [G. M. Sanjeev, 2007]. Ενδογενείς Αξιολόγηση Ανεπαρκή ικανότητα αξιολόγησης της πιστοληπτικής ικανότητας των πελατών Έλλειψη κινήτρων από την πλευρά των διαχειριστών Ανυπαρξία διοικητικών κυρώσεων Επιμερισμός αρμοδιοτήτων για την εκτίμηση της αξίας των εξασφαλίσεων Παρακολούθηση και Έλεγχος Προσπάθειες μείωσης κόστος Έλλειψη ανθρώπινου δυναμικού Έλλειψη επικέντρωσης της ανώτατης διοίκησης Κατάσχεση και διάθεση εξασφαλίσεων -36-

44 Εξωγενείς Επίδραση από την κεντρική κυβέρνηση Παρεμβολές από την τοπική κυβέρνηση Πολιτικές παρεμβάσεις Ηθελημένη αθέτηση υποχρεώσεων από δανειολήπτες Άνετοι περιορισμοί του προϋπολογισμού Τα θεμέλια για την δημιουργία πληθώρας μη εξυπηρετούμενων δανείων εντοπίζονται στην φάση της οικονομικής ανόδου, κατά την οποία παρατηρείται δανειακή επέκταση (lending booms), όπου οι απαιτήσεις για καλύμματα μειώνονται, ενώ είναι πιο πιθανό υψηλού κινδύνου επενδύσεις και δανειζόμενοι να τύχουν χρηματοδότησης [M. Carey, G. Nini, 2007]. Ο αυξημένος ανταγωνισμός των τραπεζών σε συνδυασμό με τους «δυνατούς» ισολογισμούς που εμφανίζουν οι εταιρείες κατά τη διάρκεια της οικονομικής ανόδου μειώνουν την σημασία των λοιπών κριτηρίων πιστοδότησης και εκθέτουν την πιστωτική πολιτική των τραπεζών σε αυξημένο κίνδυνο που μεταφράζεται σε ζημίες από μη εξυπηρετούμενα δάνεια αργότερα. Η κακή προφύλαξη, ο ηθικός κίνδυνος και οι προοπτική επισφάλειας επηρεάζουν την πιθανότητα της εξασφάλισης του δανείου, δηλαδή την παροχή καλύψεων [A. A. Gottesman, G. S. Roberts, 2007]. Οι παράγοντες, οι οποίοι επηρεάζουν την απόφαση για εξασφάλιση ενός δανείου, δηλαδή παροχή καλύψεων, παρουσιάζονται παρακάτω: Διάρθρωση Ιδίων Κεφαλαίων του δανειζόμενου. Όσο πιο πολύ συμμετέχουν τα Ίδια Κεφάλαια, τόσο μικρότερη είναι η πιθανότητα να ζητηθούν εξασφαλίσεις. Σημαντικό ρόλο παίζουν επίσης οι ατέλειες στην πληροφόρηση (information asymmetries), όπου το ένα μέλος μιας συνδιαλλαγής έχει περισσότερη ή λιγότερη πληροφόρηση σε σχέση με το άλλο με αποτέλεσμα την απόκτηση πλεονεκτήματος. Υποστηρίζοντας την υπόθεση ότι οι εξασφαλίσεις αντιμετωπίζουν κυρίως τον ηθικό κίνδυνο και παραμέτρους όπως η υποεπένδυση ή η υποκατάσταση παγίων, εξάγεται ότι τα μακροπρόθεσμα δάνεια είναι πολύ περισσότερο πιθανό να καλυφθούν με εξασφαλίσεις σε σχέση με τα βραχυπρόθεσμα [A. A. Gottesman, G. S. Roberts, 2004]. Τέλος τα δάνεια που χορηγούν τράπεζες είναι πιο πιθανό να εξασφαλιστούν σε σχέση με άλλα που χορηγούνται από τρίτους. -37-

45 3.3 Πιστωτικός κίνδυνος και διαχείρισή του Ο αυξημένος αριθμός επισφαλών δανείων καθιστά τον τραπεζικό οργανισμό επίφοβο ως προς την εμφάνιση μεγάλων δανειακών ζημιών με αποτέλεσμα τον κλονισμό της εμπιστοσύνης του καταναλωτικού κοινού, γεγονός που θέτει ζητήματα επιβίωσης του πιστωτικού οργανισμού μέσα σε ένα άκρως ανταγωνιστικό περιβάλλον. Ο πιστωτικός κίνδυνος (credit risk) αποτελεί τη σημαντικότερη απειλή για την φερεγγυότητα των τραπεζών και συνδέεται με την ενδεχόμενη αδυναμία του πελάτη να εκπληρώσει τις συμβατικές του υποχρεώσεις και να εξυπηρετήσει το δάνειό του. Ο πιστωτικός κίνδυνος μπορεί να οριστεί ως η πιθανή ή αναμενόμενη ζημία που προέρχεται από αδυναμίες των δανειζομένων να επιστρέψουν τα κεφάλαια ή/και τους τόκους των κεφαλαίων που δανείστηκαν και δημιουργείται όταν η πιστοληπτική ικανότητα του δανειζομένου είναι χαμηλή και άρα ευπρόσβλητη ακόμα και από ασήμαντες μεταβολές του οικονομικού περιβάλλοντος. Ο πιστωτικός κίνδυνος αναγνωρίζεται ως ο πιο σημαντικός κίνδυνος ανάμεσα στα διάφορα είδη κινδύνων που αντιμετωπίζουν οι τράπεζες. Για την καλύτερη αντιμετώπιση του συγκεκριμένου κινδύνου οι τράπεζες ανέπτυξαν τρία εργαλεία διαχείρισής του [J. S. Gonas et al, 2004]: Προφύλαξη (screening), όπου είναι το στάδιο πριν εκταμιευθεί το δάνειο κατά το οποίο ο δανειστής αξιολογείται, Διαχείριση (monitoring), όπου περιλαμβάνει την συγκέντρωση δεδομένων για τον πιστούχο μετά την λήψη του δανείου ώστε να προβλεφθεί η οικονομική συμπεριφορά του, Είσπραξη (collection), όπου είναι το στάδιο κατά το οποίο μέρος ή ολόκληρο το δάνειο γίνεται απαιτητό από την τράπεζα. Ως εργαλεία διαχείρισης πιστωτικού κινδύνου, η προφύλαξη και η διαχείριση, λειτουργούν ως υποκατάστατα, ενώ η είσπραξη λειτουργεί αυτόνομα και συμπληρωματικά στα άλλα δύο. Το μέγεθος του πιστωτικού οργανισμού επίσης παίζει σημαντικό ρόλο στην αποτελεσματικότητα των εργαλείων, καθώς οι μεγάλες τράπεζες συνήθως είναι πιο αποτελεσματικές στην παρακολούθηση αλλά λιγότερο αποτελεσματικές όσον αφορά την είσπραξη. -38-

46 Η διαχείριση του κινδύνου δανειοδότησης συμβάλει στην πρόληψη αδυναμίας εισπράξεως του δανείου, γεγονός που κρίνεται απαραίτητο, λαμβάνοντας υπόψη την μεγάλη ποικιλία διαφορετικών κινδύνων στους οποίους εκτίθεται ένας χρηματοπιστωτικός οργανισμός. Οι νέες αρχές διαχείρισης κινδύνου, που βρίσκουν εφαρμογή κυρίως σε τραπεζικούς οργανισμού των Η.Π.Α. και στις οποίες βασίζονται οι φορείς παροχής χρηματοπιστωτικών υπηρεσιών προσπαθώντας να απομονώσουν μέρος του κινδύνου, είναι οι παρακάτω [P. S. Rose, S.C. Hudgins, 2010]: Τιτλοποίηση (securitizing) δανείων και περιουσιακών στοιχείων. Οικονομική πρακτική συγκέντρωσης των διάφορων τύπων χρέους, όπως στεγαστικά δάνεια, δάνεια για αγορά αυτοκινήτων, κ.α. με έκδοση τίτλων, όπως τα ομόλογα, και εκχώρησή τους σε έναν άλλο οργανισμό (οικονομική οντότητα ειδικού σκοπού), ο οποίος εκδίδει χρεόγραφα χρησιμοποιώντας ως εξασφάλιση τις εκχωρηθείσες απαιτήσεις, συμβάλλοντας στην απομόνωση του χρηματοοικονομικού κίνδυνου της τράπεζας. Σκοπός είναι η δημιουργία ρευστότητας, επιτρέποντας μικρότερους επενδυτές να αγοράσουν μετοχές από μια μεγαλύτερη ομάδα ενεργητικού. Πώληση δανείων ή μέρος αυτών σε άλλους επενδυτές, όπως ασφαλιστικές εταιρείες και ξένες τράπεζες, με αποτέλεσμα να μοιράζονται την έκθεση στον κίνδυνο και την αύξηση του κεφαλαίου. Έκδοση standby εγγυητικών επιστολών (SLC- Standby Letter of Credit). Πρόκειται για έγραφες υποχρεώσεις του εκδότη επιστολών να καταβάλει ένα ποσό στον δικαιούχο για λογαριασμό του πελάτη-αιτών, σε περίπτωση που ο πελάτης δεν μπορεί να πληρώσει τον δικαιούχο. Τα μέρη των SLC είναι ο εκδότης (συνήθως μια τράπεζα ή ένας ασφαλιστικός οργανισμός), ο αιτών (στον οποίο θα γίνει η έκδοση των εγγυητικών επιστολών) και ο δικαιούχος (ο δανειστής που ανησυχεί για την ασφάλεια των χρημάτων και συνεργάζεται με τον αιτών). Χρήση πιστωτικών παραγόντων (credit derivatives), δηλαδή συμβάσεις που αφορούν δανειστές, οι οποίοι επιθυμούν να απομακρύνουν μέρος του κινδύνου από τα χαρτοφυλάκιά τους και επενδυτές, οι οποίοι είναι πρόθυμοι να δεχτούν τον κίνδυνο ελπίζοντας ότι στην συνέχεια θα αυξηθεί η αξία των παραγώγων. -39-

47 Οι παραπάνω είναι νέες τεχνικές απομάκρυνσης του κινδύνου που περιέχεται στα δάνεια και προκαλούν θετικές επιδράσεις στα χρηματοπιστωτικά ιδρύματα, διασφαλίζοντας τα χαρτοφυλάκιά τους από αθέτηση υποχρεώσεων από το μέρος των δανειζομένων και μειώνοντας κατά πολύ το λειτουργικό τους κόστος [R. Jankowitsch et al, 2006]. Παρόλο αυτά, ο κίνδυνος δεν εξαλείφεται, αλλά μεταβιβάζεται και παραμένει στην αγορά. Για τον λόγο αυτό η εξατομικευμένη αξιολόγηση του δανειστή πριν από την εκταμίευση του δανείου και η συνεχής παρακολούθηση της οικονομικής του πορείας κρίνεται απαραίτητη, ώστε να εξασφαλιστεί η αποπληρωμή του δανείου. 3.4 Credit score Η ανάληψη πιστωτικού κινδύνου από τις τράπεζες γίνεται έναντι μιας αμοιβής που ενσωματώνεται στο επιτόκιο χρηματοδότησης και καλείται ασφάλιστρο κινδύνου (risk premium) και ορίζεται ως το ελάχιστο χρηματικό ποσό με το οποίο γίνεται ανάληψη κινδύνου ενός μη ασφαλούς περιουσιακού στοιχείου. Για την εκτίμηση της τιμής του ασφαλίστρου απαιτείται ποσοτικοποίηση του αναλαμβανόμενου πιστωτικού κινδύνου και πιο συγκεκριμένα ο υπολογισμός της αναμενόμενης ζημίας από την χρηματοδότηση. Με την υιοθέτηση μοντέλων βαθμολόγησης πιστοληπτικής ικανότητας (credit scoring models), κάθε τραπεζικός οργανισμός μπορεί να εκτιμήσει την πιθανότητα μη αποπληρωμής του δανείου, ώστε να γίνει μέτρηση του πιστωτικού κινδύνου και να οδηγηθεί στην προέγκριση ή απόρριψη του δανείου. Η πιστοληπτική ικανότητα αποτυπώνεται στο credit score, το οποίο αντιπροσωπεύει την προσωπική οικονομική υγεία του δανειολήπτη, σε μια συγκεκριμένη χρονική στιγμή και πρόκειται για έναν αριθμό, συνήθως από το 300 μέχρι το 850, ενδεικτικός του ρίσκου που αναλαμβάνει κάποιο πιστωτικό ίδρυμα όταν δανείζει σε φυσικά πρόσωπα. Όσο υψηλότερη είναι η βαθμολογία, τόσο χαμηλότερος είναι ο κίνδυνος του δανειστή. Σύμφωνα με την βαθμολογία προσαρμόζεται και το επιτόκιο του δανείου. Μια χαμηλή βαθμολογία αυξάνει το ρίσκο στων δανειστών και το δάνειο οδηγείται σε μεγαλύτερο επιτόκιο (βλέπε: Παράρτημα 1α και 1β). Το score του κάθε δανειολήπτη διαμορφώνεται καθώς εξελίσσεται η οικονομική του δραστηριότητα, με αποτέλεσμα να χτίζεται ένα πιστοληπτικό προφίλ. Στο σημείο αυτό οι δανειστές καλούνται να αποφασίσουν σχετικά με το χαμηλότερο δυνατό score που μπορεί να παρουσιάσει ο δανειολήπτης και μέχρι το οποίο θα εξακολουθούν να δανείζουν χρήματα. -40-

48 Πίνακας 1. Κλίμακα διαβαθμίσεων πιστωτικού κινδύνου. CREDIT SCORE ΠΕΡΙΓΡΑΦΗ Άριστο σκορ. Οι δανειστές προσφέρουν το καλύτερο επιτόκιο δανεισμού Πολύ καλό σκορ. Δεν υπάρχει πρόβλημα έγκρισης δανείου με καλό επιτόκιο δανεισμού Καλό σκορ. Δεν υπάρχει πρόβλημα έγκρισης δανείου με καλό επιτόκιο δανεισμού Μέτριο σκορ. Μπορεί να εγκριθεί το δάνειο, αλλά όχι με χαμηλό επιτόκιο δανεισμού Φτωχό σκορ. Μπορεί να εγκριθεί το δάνειο, αλλά με πολύ υψηλό επιτόκιο δανεισμού Πολύ φτωχό σκορ. Αμφίβολο ότι πληρούνται οι προϋποθέσεις δανεισμού, και αν πληρούνται, το επιτόκιο είναι εξαιρετικά υψηλό. Με δεδομένη μιας γνωστής εκ των προτέρων κλίμακας διαβαθμίσεων πιστωτικού κινδύνου, πραγματοποιείται η αξιολόγηση και η κατάταξη των πιστούχων (φυσικών προσώπων, επιχειρήσεων, κ.α.) σε βαθμίδες πιστωτικού κινδύνου, για την πρόβλεψη της εμφάνισης ασυνέπειας (probability of default). Οι παράγοντες οι οποίοι επηρεάζουν το score και τα βάρη τους είναι οι παρακάτω: Ιστορικό πληρωμών (βάρος: 35%): Οι πληρωμές κάθε μορφής χρέους έχουν επίδραση στην πορεία του score του δανειολήπτη. Η πτώχευση, οι δικαστικές υποθέσεις και οι καθυστερημένες πληρωμές χρέους επηρεάζουν αρνητικά την πιστοληπτική ικανότητα. Αντίθετα, οι έγκαιρες πληρωμές χρέους ενισχύουν το score. Το χρονικό διάστημα από την τελευταία εκκρεμή πληρωμή του χρέους και ο αριθμός των υποθηκευμένων στοιχείων επηρεάζουν την διακύμανση του score. Χρέος/ Οφειλές (βάρος: 30%): Ο δεύτερος πιο σημαντικός παράγοντας είναι το σύνολο του ποσού χρημάτων που χρωστάει ο δανειολήπτης σε κάθε ένα -41-

49 χρηματοπιστωτικό λογαριασμό. Επιπλέον λαμβάνεται υπόψη, το ποσοστό χρήσης της πίστωσης σε σχέση με τα πιστωτικά όρια που έχουν δοθεί και το συνολικό ποσό των δόσεων που εκκρεμούν στους λογαριασμούς. Χρονικό διάστημα πίστωσης (βάρος: 15%): Το συνολικό χρονικό διάστημα κατά το οποίο γίνεται χρήση των πιστωτικών ορίων και οι τραπεζικοί λογαριασμοί. Μια επί σειράν ορθή χρήση πίστωσης αυξάνει το score. Χρήση νέων πιστωτικών γραμμών (βάρος: 10%): Ο αριθμός των νέων πιστωτικών ορίων των οποίων έγινε χρήση και οι πρόσφατα ανοιγμένοι τραπεζικοί λογαριασμοί επηρεάζουν το score. Τύπος πίστωσης (βάρος: 10%): Ο χειρισμός των διαφορετικών μορφών πίστωσης επηρεάζει την αξιολόγηση της πιστοληπτικής ικανότητας. Μια πιο λεπτομερή μελέτη για τις κρίσιμες πτυχές της αίτησης δανείου, περιλαμβάνει τους παράγοντες των πέντε Cs που επιδρούν στην εξυπηρέτηση του δανείου και πρέπει να ικανοποιούνται [R. L. Rose, 1989]: Character. Χαρακτήρας/ φήμη. Περιλαμβάνει το προηγούμενο ιστορικό αποπληρωμής, την εμπειρία άλλων πιστωτών για τον πελάτη, τον σκοπό του δανείου, την πρόβλεψη προσωπικού εισοδήματος, το πιστωτικό αρχείο και την ύπαρξη εγγυητών. Capacity. Ικανότητα/ δυναμικότητα. Ο δανειολήπτης οφείλει να έχει την εξουσία να ζητήσει δάνειο και το νομικό καθεστώς να του επιτρέπει μια δεσμευτική συμφωνία (παράδειγμα να καλύπτει το όριο ηλικίας). Για τον λόγο αυτό απαιτείται η ταυτότητα του πελάτη και των πιστωτών, αντίγραφα από κάρτες κοινωνικής ασφάλισης, δίπλωμα οδήγησης και άλλα νομικά έγγραφα, κ.α. Cash. Μετρητά. Περιλαμβάνει την επάρκεια του εισοδήματος ή τις ταμειακές ροές. Οι ελλείψεις στις ταμειακές ροές είναι κοινοί δείκτες προβληματικών δανειακών σχέσεων. Για τον λόγο αυτό, οι τραπεζικές ρυθμίσεις απαιτούν ικανές τραπεζικές ροές για την διασφάλιση του δανείου και λαμβάνουν υπόψη τις καθαρές αποδοχές του δανειολήπτη, τον έλεγχο των εξόδων, τις πρόσφατες αλλαγές των τραπεζικών λογαριασμών, κ.α. [D. L. Street, K. G. Stanga, 1989] Collateral. Εγγυήσεις. Περιλαμβάνει την ποιότητα και την ποσότητα των περιουσιακών στοιχείων. Η ευπάθεια των περιουσιακών στοιχείων για -42-

50 απαξίωση, ο βαθμός εξειδίκευσής τους, η ρευστοποιήσιμη αξία τους, η ασφαλιστική κάλυψη, κ.α. λαμβάνονται υπόψη από τα χρηματοπιστωτικά ιδρύματα. Conditions. Συνθήκες. Περιλαμβάνει την κατάσταση της οικονομίας. Πιο συγκεκριμένα, την ευαισθησία του πελάτη σε οικονομικές μεταβολές, τους ρυθμιστικούς, πολιτικούς και περιβαλλοντικούς παράγοντες που επηρεάζουν τον πελάτη και την δουλειά του. Επιπρόσθετα, μερικοί ειδικοί στον δανεισμό εισαγάγουν και ένα έκτο C, αυτό του ελέγχου- Control, το οποίο περιλαμβάνει την συμμόρφωση με τους κανονισμούς και την πολιτική του δανειστή. Το πιστωτικό score εξακολουθεί να διαμορφώνεται και να επηρεάζεται είτε θετικά είτε αρνητικά και κατά την διάρκεια του δανείου. Η τήρηση της συμφωνίας αποπληρωμής του δανείου και η συνέπεια στο χρονοδιάγραμμα επιβραβεύεται με πρόσθεση μονάδων που αυξάνουν το credit score, ενώ η ασυνέπεια και οι καθυστερήσεις ζημιώνονται με μείωση του credit score (βλέπε: Παράρτημα 2). Τα δάνεια που βρίσκονται σε καθυστέρηση αντιμετωπίζονται ποικιλοτρόπως από τα χρηματοπιστωτικά ιδρύματα βασιζόμενοι σε πολλούς παράγοντες, ένας από τους οποίους είναι ο αριθμός των ημερών καθυστέρησης, παράγοντας που θα ληφθεί υπόψη και στην πορεία της εργασίας για την ανακάλυψη των επισφαλών τραπεζικών δανειοληπτών. Έτσι, ανάλογα με τις ημέρες καθυστέρησης προκύπτουν οι επόμενες κατηγορίες: 1-29 ημέρες: Κατά την διάρκεια αυτής της περιόδου, οι εταιρίες πίστωσης δεν αναφέρουν ακόμα την παραβατικότητα στα πιστωτικά γραφεία. Αν ο οφειλέτης πληρώσει στο ακέραιο πριν από την τριακοστή ημέρα μπορεί να αποφευχθεί μια αρνητική έκθεση στο ιστορικό πίστωσής του ημέρες: Αναφέρεται η παραβατικότητα στα πιστωτικά γραφεία, αλλά η πιστωτική βαθμολογία του δανειζομένου δεν επηρεάζεται τόσο αρνητικά. Σε αυτή την περίπτωση ο οφειλέτης είναι σε 30 ημέρες καθυστέρηση για μια πληρωμή και σε πάνω από μια ημέρα καθυστέρηση για δύο πληρωμές ημέρες: Η πιστωτική βαθμολογία επηρεάζεται σε μεγάλο βαθμό και αρνητικά. Σε αυτή την περίπτωση ο οφειλέτης είναι σε 60 ή περισσότερες ημέρες καθυστέρηση για μια πληρωμή σε 30 ή περισσότερες ημέρες -43-

51 καθυστέρηση για δύο πληρωμές και σε περισσότερες από μια ημέρα καθυστέρηση για τρείς πληρωμές. 90+ ημέρες: Η πιστωτική του βαθμολογία συνεχίζει να μειώνεται. Σε αυτή την περίπτωση ο οφειλέτης είναι σε 90 ή περισσότερες ημέρες καθυστέρηση για μια πληρωμή σε 60 ή περισσότερες ημέρες καθυστέρηση για δύο πληρωμές, σε 30 ή περισσότερες ημέρες καθυστέρηση για τρεις πληρωμές και σε περισσότερες από μια ημέρα καθυστέρηση για τέσσερεις πληρωμές. Όπως γίνεται εμφανές είναι ιδιαίτερα καθοριστικής σημασίας η χρήση μοντέλων εκ μέρους των τραπεζών, τα οποία βοηθούν στον σχηματισμό σωστών προβλέψεων για ζημίες από επισφαλή δάνεια, και εξασφαλίζουν την πορεία της κερδοφορίας και τη χάραξη της μακροπρόθεσμης στρατηγικής των πιστωτικών οργανισμών [J. Dermine, C. Neto de Carvalho, 2006]. Επιπλέον, η χρήση μοντέλων για την εκτίμηση της πιθανότητας αποπληρωμής των δανείων, αυξάνει το αίσθημα ασφάλειας των δανειοληπτών και τους οδηγεί σε καλύτερες εξατομικευμένες οικονομικές αποφάσεις. Για την ανακάλυψη συσχετίσεων σε ένα σύνολο περιπτώσεων, την επεξεργασία και τον έλεγχό τους καθώς και για την μοντελοποίησή τους απαιτείται η χρήση εργαλείων λογισμικού, τα οποία αυτοματοποιούν την διαδικασία. Στο επόμενο κεφάλαιο γίνεται περιγραφή των δημοφιλέστερων εργαλείων ανακάλυψης γνώσης, με έμφαση στο WEKA, το οποίο εμφανίζει υψηλή δημοτικότητα και βρίσκει εφαρμογή σε πολλούς τομείς, ιδιαίτερα στην εκπαίδευση και την έρευνα. -44-

52 Κεφάλαιο 4_ Εργαλεία ανακάλυψης γνώσης Η ανάπτυξη και η εφαρμογή αλγορίθμων εξόρυξης δεδομένων απαιτεί την χρήση ισχυρών εργαλείων λογισμικού. Ο αυξανόμενος όγκος των δεδομένων προς επεξεργασία καθιστά τον άνθρωπο ανίκανο να επεξεργαστεί και να ελέγξει το πλήθος των πληροφοριών, καθώς και να εξάγει χρήσιμα πρότυπα πληροφόρησης ή/ και μοντέλα πρόβλεψης. Πολλές εταιρίες έσπευσαν να ικανοποιήσουν την παραπάνω ανάγκη για αυτοματοποίηση της διαδικασίας ανακάλυψης γνώσης, με αποτέλεσμα η αγορά να παρέχει ποικίλα λογισμικά, το καθένα με τα πλεονεκτήματα και τις αδυναμίες του. Εκτός από τα εμπορικά λογισμικά, η διανομή των οποίων αποβλέπει στην δημιουργία κέρδους για τις εταιρίες, την εμφάνισή τους κάνουν και εργαλεία που ανήκουν στο ελεύθερο λογισμικό. Αποτέλεσμα του αυξανόμενου αριθμού των διαθέσιμων εργαλείων είναι η όλο και πιο δύσκολη επιλογή του πιο κατάλληλου λογισμικού. Έκτος από τα εμπορικά λογισμικά, έχουν εμφανιστεί και χρησιμοποιούνται ευρέως και με επιτυχία, αρκετά πακέτα που ανήκουν στο ελεύθερο λογισμικό. Στην συνέχεια του κεφαλαίου θα γίνει παρουσίαση των πιο γνωστών εργαλείων ανακάλυψης γνώσης δίνοντας μεγαλύτερη έμφαση στο πακέτο λογισμικού WEKA. Το WEKA είναι ένα ελεύθερο λογισμικό και από τα πιο δημοφιλή εργαλεία μηχανικής μάθησης, με μεγάλη ποικιλία αλγορίθμων και καλή πρόσβαση σε παραμέτρους, το οποίο χρησιμοποιήθηκε στην ανάλυση της βάσης δεδομένων για την εξαγωγή συμπερασμάτων και θα περιγραφεί στην δεύτερη ενότητα του κεφαλαίου εκτενώς. 4.1 Παρουσίαση Εργαλείων Εμπορικά Intelligent Miner Το Intelligent Miner είναι προϊόν της IBM και η ανάπτυξή του έλαβε χώρα σε υποκατάστημα της Γερμανίας. Τα βασικά χαρακτηριστικά του προϊόντος είναι: -45-

53 Επίδοση, ευρεία επιλογή κατοχυρωμένων αλγορίθμων εξόρυξης με διπλωμα ευρεσιτεχνίας. Διαλειτουργικότητα μεταξύ των αλγορίθμων. Τα αποτελέσματα ενός αλγορίθμου μπορούν να περάσουν σαν είσοδο σε άλλο αλγόριθμο. Επεκτασιμότητα, με υποστήριξη μεγάλων όγκων δεδομένων σε όλες τις πλατφόρμες της IBM. Επιπλέον, η υποστήριξη παράλληλης επεξεργασίας από το Intelligent Miner βελτιώνει σημαντικά τον χρόνο αναζήτησης, ενώ ενσαρκώνει την τελευταία τεχνολογία εξόρυξης δεδομένων με δυνατότητα υποστήριξης όλης της διαδικασίας, από τις εργασίες προετοιμασίας μέχρι την αφομοίωση των αποτελεσμάτων. Μειονεκτήματα που πλαισιώνουν το προϊόν θεωρείται το υψηλό κόστος, η αδυναμία βέλτιστης λειτουργίας στα λειτουργικά συστήματα Linux και Windows και οι περιορισμένες επιλογές αλγορίθμων. SPSS Modeler Το SPSS Modeler, μετονομασία του SPSS Clementine, αναπτύχθηκε αρχικά από την εταιρία Integral Solutions Ltd (ISL) το 1989 και γρήγορα συγκέντρωσε την προσοχή της κοινότητας των ανθρώπων που είχαν ως αντικείμενο την εξόρυξη δεδομένων. Στην συνέχεια, η ISL εξαγοράσθηκε το 1998 από την SPSS Inc, η οποία έβλεπε στο πρόγραμμα δυνατότητες για εκτεταμένη ανάπτυξη ως εμπορικό εργαλείο εξόρυξης δεδομένων. Τέλος, το καλοκαίρι του 2009 η IBM εξαγόρασε την SPSS Inc, με αποτέλεσμα να αυξήσει περισσότερο το μερίδιο αγοράς της. Το SPSS Modeler βοηθά στην δημιουργία μοντέλων πρόβλεψης γρήγορα και διαισθητικά, διαθέτοντας μεγάλη ποικιλία γραφημάτων και διαγραμμάτων. Επιπρόσθετα, προσφέρει ευκολίες για την διαχείριση των μεταβλητών (π.χ. δημιουργία νέων μεταβλητών με βάση τις υπάρχουσες). Τα μειονεκτήματα του προγράμματος εντοπίζονται στην ανυπαρξία ισχυρών μεθόδων και επέκτασής του, καθώς και στην αδυναμία επεξεργασίας των αποτελεσμάτων. SQL Server Ο SQL Server είναι μια σχεσιακή βάση δεδομένων με χαρακτηριστικά γνωρίσματα εξόρυξης δεδομένων, η οποία αναπτύσσεται από την Microsoft. Το λογισμικό προσφέρει ευκολία χρήσης και υψηλή ικανοποίηση των πελατών, με καλή υποστήριξη από την Microsoft. Παρόλο αυτά ο SQL Server αποτελεί καλή επιλογή μόνο σε περιβάλλον Windows και σε περιπτώσεις όπου απαιτείται μέτρια επεκτασιμότητα. -46-

54 Ο SQL Server 2000 διαθέτει δύο κατοχυρωμένους αλγόριθμους με δίπλωμα ευρεσιτεχνίας, τον Microsoft Decision Trees και τον Microsoft Clustering. Οι επόμενες εκδόσεις είναι ο SQL Server 2005 και ο SQL Server 2008, ενώ η τελευταία έκδοση είναι ο SQL Server Enterprise Miner Ο Enterprise Miner δημιουργήθηκε το 1997 από την εταιρία SAS, η οποία κατέχει το μεγαλύτερο μερίδιο αγοράς στα προϊόντα εξόρυξης δεδομένων. Πρόκειται για ένα ολοκληρωμένο πακέτο, φιλικό προς τον χρήστη, με βάθος αλγορίθμων και δυνατότητα επέκτασης. Έχει την ικανότητα να δημιουργεί μοντέλα εύκολα και γρήγορα με καλό περιβάλλον εργασίας για τον χρήστη. Oracle Το πακέτο Oracle 11g, το πιο πρόσφατο από τα πακέτα, περιέχει αρκετούς αλγόριθμους και εργαλεία εξόρυξης δεδομένων, σε αντίθεση με το προηγούμενο πακέτο oracle 9i, το οποίο περιοριζόταν σε αλγορίθμους βασισμένους στην συσχέτιση και στους κατηγοριοποιητές Bayes. Το Oracle διαθέτει αποθήκες δεδομένων και χαρακτηριστικά επιχειρηματικής ευφυΐας, καθώς και δυνατότητα επεκτασιμότητας. Επιπλέον, μπορεί να γίνει χρήση του σχεδόν σε όλες τις πλατφόρμες, να βρίσκει σημαντικά μοτίβα που βρίσκονται κρυμμένα στα δεδομένα και διαθέτει πολλά εργαλεία και υποστήριξη από την Oracle. Βασικό μειονέκτημα του πακέτου είναι το υψηλό κόστος ΕΛ/ΛΑΚ Σε αντίθεση με τα εμπορικό λογισμικό, των οποίων η διάθεση γίνεται με σκοπό το κέρδος και ο πηγαίος κώδικας παραμένει κρυφός, το ελεύθερο λογισμικό μπορεί να χρησιμοποιηθεί, αντιγραφεί, μελετηθεί, τροποποιηθεί και αναδιανεμηθεί χωρίς περιορισμό ( Ίδρυμα Ελεύθερου λογισμικού- Free Software Foundation). Το λογισμικό ανοικτού κώδικα επιτρέπει τον χρήστη να μελετήσει, να αλλάξει, να βελτιώσει και σε μερικές περιπτώσεις να διανείμει το λογισμικό. Τα τελευταία χρόνια παρατηρείται μια στροφή προς το ελεύθερο λογισμικό και τα λογισμικά ανοικτού κώδικα (ΕΛ/ΛΑΚ). Σύμφωνα με έρευνα της εφημερίδας KDnuggets για το έτος 2012, άξιο αναφοράς είναι η αύξηση του αριθμού των χρηστών, με ποσοστό 71%, που χρησιμοποίησαν ελεύθερο λογισμικό ή λογισμικό ανοικτού κώδικα, από τους οποίους το 30% έκαναν αποκλειστική χρήση ελεύθερου λογισμικού και όχι εμπορικού. Με βάση αποτελέσματα -47-

55 δημοσκοπήσεων, επιλέχθηκαν και παρουσιάζονται μερικά από τα πιο γνωστά ελεύθερα λογισμικά εξόρυξης δεδομένων. RapidMiner Το RapidMiner, γνωστό και ως YALE (Yet Another Learning Environment), είναι ένα περιβάλλον για εξόρυξη δεδομένων, γραμμένο σε γλώσσα Java, που ξεκίνησε από το πανεπιστήμιο τεχνολογίας του Dortmund το Τα τελευταία χρόνια το RapidMiner βρίσκεται στις πρώτες θέσεις σύμφωνα με δημοσκοπήσεις της KDnuggets, εφημερίδα εξόρυξης δεδομένων, για εργαλεία που χρησιμοποιούνται για εξόρυξη δεδομένων σε πραγματικά έργα. Συγκεκριμένα, το 2009 κατέλαβε την δεύτερη θέση, ενώ το 2010 την πρώτη. Το πρόγραμμα χρησιμοποιεί συστήματα μάθησης και εκτιμητές από το μαθησιακό περιβάλλον του WEKA, με το οποίο γίνεται συχνά σύγκριση, και συστήματα στατιστικής μοντελοποίησης από το R. Το RapidMiner είναι πλήρες και ευέλικτο πακέτο, με δυνατότητα επεξεργασίας μεγάλων συνόλων δεδομένων. Επιπλέον, διαθέτει ισχυρό και διαισθητικό GUI (Graphical User Interface), για τον σχεδιασμό αναλυτικών διαδικασιών και περιλαμβάνει σε μια ενιαία σουίτα την ενοποίηση δεδομένων, την ανάλυση δεδομένων και την υποβολή εκθέσεων. R Το πακέτο R είναι γλώσσα προγραμματισμού, αλλά και δημοφιλές στατιστικό πακέτο, το οποίο χρησιμοποιείται και για εξόρυξη δεδομένων. Το R εμφανίστηκε το 1993 και σχεδιάστηκε από τους Ross Ihaka και Robert Gentleman στο πανεπιστήμιο του Auckland στη Νέα Ζηλανδία. Ο πηγαίος κώδικάς του είναι γραμμένος σε C, Fortran και R και η τελευταία έκδοση του προγράμματος (2.15.1) βγήκε τον Ιούνιο του Πρόκειται για ένα κομψό πακέτο με πλούσια στατιστική βιβλιοθήκη, που για το έτος 2010 και 2011 βρισκόταν στην δεύτερη θέση, ενώ το 2012 κατέλαβε την πρώτη θέση ανάμεσα στα προγράμματα που χρησιμοποιούνται για εξόρυξη δεδομένων σε πραγματικά έργα, σύμφωνα με δημοσκόπηση της KDnuggets. Ο χρήστης μπορεί να έχει τον πλήρη έλεγχο, ενώ η βασική λειτουργικότητα και τα πολλά διαθέσιμα πακέτα επιτρέπουν την χρήση του, χωρίς να απαιτείται η πλήρης γνώση των διαδικασιών. Μειονέκτημα του πακέτου είναι το λιγότερο διαδραστικό GUI και η διαφορετικότητα της γλώσσας σε σχέση με την σημερινές επικρατούσες γλώσσες. -48-

56 Orange Η ανάπτυξη του λογισμικού Orange ξεκίνησε το 1996 στο τμήμα επιστήμης υπολογιστών και πληροφορικής του πανεπιστημίου της Ljubljana στην Σλοβενία. Περιλαμβάνει ένα σύνολο στοιχείων για την προεπεξεργασία δεδομένων, χαρακτηριστικά αξιολόγησης και φιλτραρίσματος, για την μοντελοποίηση και αξιολόγηση του μοντέλου, καθώς και τεχνικές εξερεύνησης. Το πακέτο υλοποιείται σε C++ και Python και έλαβε υψηλές βαθμολογίες για την ευκολία προγραμματισμού και ικανότητας ενσωμάτωσης λογισμικού, εξαιτίας της εύκολης ως προς την μάθηση γλώσσα Python. Δεν διαθέτει σύστημα διασύνδεσης, αλλά έχει περιβάλλον μοντελοποίησης, το οποίο χρησιμοποιείται κυρίως για σκοπούς απεικόνισης. Το Orange εμφανίζει δυσκολία στον χειρισμό μεγάλων συνόλων δεδομένων και παρατηρούνται σφάλματα και αδυναμίες, οι οποίες γίνονται προσπάθειες να εξαλειφθούν στις νέες εκδόσεις. KNIME Το KNIME (Konstanz Information Miner) ενσωματώνει την μηχανική μάθηση και την εξόρυξη δεδομένων μέσω των διαθέσιμων επεκτάσιμων ενοτήτων (modules). Το KNIME ξεκίνησε το 2009 από μια ομάδα μηχανικών λογισμικού του πανεπιστημίου του Konstanz και η πρώτη έκδοση κυκλοφόρησε το 2006, ενώ η τελευταία (KNIME version 2.6.0) το καλοκαίρι του Πλέον το πακέτο επιτρέπει στον χρήστη να δημιουργήσει οπτικά ροές δεδομένων, να εκτελέσει επιλεκτικά ορισμένα ή όλα τα βήματα της ανάλυσης και στην συνέχεια να ελέγξει τα αποτελέσματα, χωρίς παρόλο αυτά να μπορεί να πετύχει υψηλή ταχύτητα υπολογισμού των αποτελεσμάτων. Επιπλέον, διαθέτει μεγάλη ποικιλία από βιβλιοθήκες και πρόσθετα χαρακτηριστικά που αυξάνουν την λειτουργικότητά του. Απευθύνεται και σε αρχάριους χρήστες που επιθυμούν να αναλύσουν ένα σύνολο δεδομένων, αφού δεν απαιτεί βαθιά κατανόηση του τρόπου δημιουργίας των αρχείων, είναι φιλικό προς τον χρήστη και εύχρηστο. JHepWork Το τελευταίο προς εξέταση πακέτο λογισμικού για εξόρυξη δεδομένων είναι το JHepWork, στο οποίο διακρίνονται πολλές ομοιότητες με τα πακέτα που προαναφέρθηκαν. Η δημιουργία του προγράμματος είναι αποτέλεσμα ομαδικής εργασίας από υποστηρικτές του ελεύθερου λογισμικού, ενώ ο αρχικός σχεδιασμός έγινε από τον Dr. S.Chekanov. Το JHepWork τρέχει σε Java, που προσφέρει ταχύτερη απόδοση σε σχέση με την C++ και έχει υποστήριξη API (Application Programming -49-

57 Interface). Επιπλέον, διαθέτει προηγμένα χαρακτηριστικά και είναι αρκετά ισχυρό, ώστε να χρησιμοποιηθεί για ποικίλες χρήσεις και ανάγκες εξόρυξης δεδομένων. Η πραγματική, όμως λειτουργικότητα και απόδοση του λογισμικού απαιτεί από τον χρήστη τουλάχιστον τις βασικές γνώσεις κωδικοποίησης και προγραμματισμού με Python. 4.2 WEKA Το WEKA (Waikato Environment for Knowledge Analysis) είναι δημοφιλές λογισμικό μηχανικής μάθησης γραμμένο σε Java, η ανάπτυξη του οποίου έγινε από το πανεπιστήμιο του Waikato της Νέας Ζηλανδίας. Είναι ανοικτό λογισμικό διαθέσιμο κάτω από την GNU General Public License (GNU GPL), η οποία είναι η πιο ευρέως χρησιμοποιούμενη άδεια χρήσης ελεύθερου λογισμικού και εξασφαλίζει την διατήρηση των ελευθεριών ακόμα και μετά από αλλαγή ή πρόσθεση εργασιών. Το λογισμικό περιέχει μια συλλογή από εργαλεία απεικόνισης και αλγορίθμους για ανάλυση δεδομένων και δημιουργία μοντέλων πρόβλεψης, μαζί με εύχρηστο γραφικό περιβάλλον. Το πρόγραμμα είναι διαθέσιμο μέσω της σελίδας από την οποία μπορεί να γίνει η λήψη του. Τα πλεονεκτήματα που συναντώνται στο WEKA 3 είναι τα παρακάτω: Δωρεάν διάθεση υπό την άδεια GNU General Public License Φορητότητα, λειτουργεί σχεδόν σε κάθε σύγχρονη υπολογιστική πλατφόρμα, διότι εφαρμόζεται πλήρως στη γλώσσα προγραμματισμού Java Διαθέτει ολοκληρωμένη συλλογή δεδομένων προεπεξεργασίας και τεχνικές μοντελοποίησης Επεκτασιμότητα, μπορούν εύκολα να ενσωματωθούν νέοι αλγόριθμοι Υποστήριξη, η οποία επιτυγχάνεται με επικοινωνία με τα μέλη μέσω ηλεκτρονικού ταχυδρομίου, του Wekalist, με συμβουλές για πιθανά προβλήματα μέσω της ιστοσελίδας (Weka- troubleshooting), με απαντήσεις στα πιο συχνά ερωτήματα (FAQ- Frequently Asked Questions), κ.α. Έγγραφα, παρατηρείται αύξηση του όγκου πληροφοριών που υπάρχουν στο διαδίκτυο σχετικά με το WEKA, απόρροια της ενθουσιώδης κοινότητας χρηστών και της συνδυασμένης γνώσης που μοιράζονται Ευκολία στη χρήση, εξαιτίας των γραφικών διεπαφής του χρήστη. -50-

58 4.2.1 Δημιουργία και τροποποιήσεις Το 1993 ξεκίνησε η ανάπτυξη της αρχικής έκδοσης του WEKA γραμμένη σε TCL/ TK 4 για την μοντελοποίηση των αλγορίθμων που εφαρμόζονται και σε άλλες γλώσσες προγραμματισμού, γλώσσα C για βοηθητικά προγράμματα προεπεξεργασίας δεδομένων και ένα σύστημα βασισμένο σε Makefiles 5, για την εκτέλεση πειραμάτων μηχανικής μάθησης. Οι πρώτες εκδόσεις περιορίστηκαν σε λειτουργικά συστήματα UNIX και οι διανομές ήταν διαθέσιμες για Linux, Solaris και SGI. Η αρχική έκδοση είχε σχεδιαστεί αρχικά ως ένα εργαλείο για την ανάλυση δεδομένων στο γεωργικό τομέα και υποστηρίχθηκε με επιχορήγηση από την κυβέρνηση. Οι γενικοί στόχοι ήταν η δημιουργία ενός περιβάλλοντος εργασίας για μηχανική μάθηση, ο προσδιορισμός των παραγόντων, οι οποίοι συμβάλουν στην επιτυχή εφαρμογή τους στις γεωργικές βιομηχανίες και η ανάπτυξη νέων μεθόδων μηχανικής μάθησης και τρόπων αξιολόγησης της αποτελεσματικότητας τους. Λόγω των εξαρτήσεων από άλλες βιβλιοθήκες, που σχετίζονταν κυρίως με την διεπαφή του χρήστη, το λογισμικό γινόταν σταδιακά όλο και πιο δυσκίνητο και δύσκολο να διατηρηθεί. Το 1997 αποφασίσθηκε το WEKA να αναπτυχθεί ξανά από την αρχή σε Java, περιλαμβάνοντας εφαρμογές από μοντελοποίηση αλγορίθμων. Η επιλογή της Java έναντι της C++ στηρίχθηκε στο γεγονός ότι η Java αναπτυσσόταν ραγδαία και ο εντοπισμός των σφαλμάτων είχε απλοποιηθεί εντυπωσιακά. Η νέα έκδοση αρχικά ονομάστηκε JAWS (Java Weka System) για να αποφευχθεί η σύγχυση με την προηγούμενη έκδοση του WEKA, στην συνέχεια όμως (1999) επέστρεψε στο όνομα WEKA, το οποίο και διατηρεί μέχρι σήμερα. Η νέα έκδοση, WEKA 3, βρήκε εφαρμογή σε πολλούς τομείς, ιδιαίτερα στην εκπαίδευση και την έρευνα Διακρίσεις και Στατιστικά Το Weka είναι ένα ευρέως χρησιμοποιούμενο λογισμικό, του οποίου η δημοτικότητα συνοδεύεται από μια σειρά διακρίσεις. Το 2005, απονεμήθηκε στο Weka το SIGKDD Service Award, το οποίο είναι το μεγαλύτερο βραβείο υπηρεσιών στον τομέα της εξόρυξης δεδομένων και της ανακάλυψης γνώσης. Το βραβείο δόθηκε λόγο της 4 TCL/TK: γλώσσα προγραμματισμού με σενάρια 5 Makefiles: αρχεία που διαβάζονται από το λογισμικό Make και καθορίζουν τον τρόπο με τον οποίο θα προσδιοριστεί το πρόγραμμα στόχος -51-

59 σημαντικής συνεισφοράς της ομάδας του Weka, στον τομέα της εξόρυξης δεδομένων, συμπεριλαμβανομένων των επιστημονικών και εθελοντικών υπηρεσιών στην διάδοση τεχνικών πληροφοριών, στην εκπαίδευση και την χρηματοδότηση ερευνών. Η δημοτικότητα του προγράμματος και η εμπιστοσύνη των χρηστών προς το πρόγραμμα αντικατοπτρίζεται στον αριθμό των λήψεων που πλησιάζει τα 3,5 εκατομμύρια, σύμφωνα με την Sourceforge.net, την πιο γνωστή τοποθεσία για ανάπτυξη, έλεγχο και διαχείριση ελεύθερων και ανοικτού κώδικα λογισμικών. Εικόνα 4.1. Αριθμός λήψεων του λογισμικού Weka, πηγή: Sourceforge.net Από την παρουσίαση του διαγράμματος, παρατηρείται μια συνεχώς αυξανόμενη πορεία, με έναρξή της τον Οκτώβριο του 2005, όπου σημειώθηκαν λήψεις και αποκορύφωμα τον Μάιο του 2012 με λήψεις. Επιπλέον, η Η.Π.Α. θεωρείται ως κυρίαρχη χώρα χρήσης του Weka, καταλαμβάνοντας ποσοστό 16% επί των συνολικών λήψεων και τα Windows το επικρατέστερο λειτουργικό σύστημα στο οποίο εγκαταστάθηκε το πρόγραμμα, με ποσοστό 64% επί των συνολικών λήψεων. Εικόνα 4.2. Πλατφόρμα χρήσης του Weka, πηγή: Sourgeforge.net -52-

60 Κάθε χρόνο η ιστοσελίδα KDNuggets διενεργεί δημοσκόπηση που αφορά την δημοτικότητα των διαφόρων εργαλείων λογισμικού για εξόρυξη δεδομένων που κυκλοφορούν στην αγορά. Σύμφωνα με τις δημοσκοπήσεις το WEKA κατέχει κάθε χρόνο μια θέση μέσα στις πρώτες 10. Συγκεκριμένα, το έτος 2012 κατέλαβε την πέμπτη θέση με ποσοστό 14,8%, αφήνοντας πίσω πολλά από τα πιο γνωστά προγράμματα, όπως τα SPSS, Orange, Statistica, SQL Server, κ.α. ενώ το 2011 και 2010 είχε την 7 η (11,8%) και 6 η θέση (14,3%) αντίστοιχα. Επιπλέον, το 2007 και 2008 κατέλαβε την 2 η και 3 η θέση δημοτικότητας μεταξύ των εργαλείων ελεύθερου λογισμικού αντίστοιχα Δομή του WEKA Το WEKA είναι γραμμένο σε κώδικα που αποτελείται από πολλά, μικρού μεγέθους προγράμματα γραμμένα σε Java (αντικειμενοστραφή γλώσσα προγραμματισμού), καθένα από τα οποία υλοποιούνται σαν μια κλάση (class) που περιλαμβάνει μια συλλογή αντικειμένων των οποίων η συμπεριφορά καθορίζεται από ιδιότητες και μεθόδους. Οι κλάσεις ακολουθούν μια συγκεκριμένη ιεραρχία και οργανώνονται σε πακέτα (Packages), καθένα από τα οποία περιέχει μια συλλογή από συσχετιζόμενες κλάσεις. Τα βασικότερα Packages είναι τα ακόλουθα: Weka.core package Το core package είναι ο κεντρικός πυρήνας του WEKA, στις κλάσεις του οποίου έχουν πρόσβαση οι υπόλοιπες κλάσεις του συστήματος, και υλοποιεί συγκεκριμένα Interfaces και Classes. Μερικά παραδείγματα Interfaces και Classes είναι τα παρακάτω: Interfaces: AdditionalMeasureProducer, Copyable, Drawable, Matchable, OptionHandler, κ.α. Class: Attribute, FastVector, Instance, Instances, Matrix, Option, Queue, Range, Statistics, κ.α. Τα Interfaces είναι όμοια με τα Classes με την διαφορά ότι τα Interfaces δεν έχουν καμία λειτουργικότητα από μονά τους, διότι είναι μια λίστα από μεθόδους χωρίς πραγματική εφαρμογή, αλλά υλοποιούν τις μεθόδους τους στις κλάσεις. Οι βασικότερες κλάσεις του weka.core package είναι οι κλάσεις των χαρακτηριστικών (Attribute), των περιπτώσεων- στιγμιότυπων (Instance) και του συνόλου δεδομένων προς επεξεργασία (Instances). -53-

61 Weka.filters package Στο εν λόγω πακέτο βρίσκονται συγκεντρωμένοι όλοι οι αλγόριθμοι προεπεξεργασίας των δεδομένων. Η κλάση Filter ορίζει τη γενική δομή των κλάσεων που περιέχουν τους αλγορίθμους φιλτραρίσματος, οι οποίοι και υλοποιούνται ως υποκλάσεις της Filter. Weka.classifiers package Το πακέτο περιλαμβάνει την εκτέλεση των περισσότερων αλγορίθμων ταξινόμησης και πρόβλεψης αριθμητικών τιμών. Η κυριότερη κλάση του Package είναι ο Classifier, ο οποίος ορίζει την γενική δομή κάθε σχήματος ταξινόμησης και πρόβλεψης και περιέχει τρείς μεθόδους: buildclassifier(): παράγει το μοντέλο κατηγοριοποίησης από ένα σύνολο δεδομένων εκπαίδευσης classifyinstance(): αξιολογεί το μοντέλο με κάποιο άγνωστο σύνολο δεδομένων δοκιμής και DistributionForInstance(): παράγει κάποια κατανομή πιθανοτήτων για όλες τις κλάσεις. Weka.associations package Περιλαμβάνονται κλάσεις με αλγόριθμους για την δημιουργία κανόνων συσχέτισης, οι οποίοι τοποθετούνται σε διαφορετικό πακέτο από τους ταξινομητές, εξαιτίας των θεμελιωδών διαφορών τους. Άλλα πακέτα είναι το weka.clusters, το οποίο περιέχει αλγόριθμους ομαδοποίησης, το weka.estimators, όπου περιέχονται υποκλάσεις της κλάσης Estimator και συνδυάζουν διαφορετικούς τύπους κατανομής πιθανοτήτων και το weka.attributeselection, το οποίο περιλαμβάνει αρκετές κλάσεις για επιλογή χαρακτηριστικών Δομή αρχείων Για την ανάλυση των δεδομένων με το WEKA απαιτείται η μετατροπή των δεδομένων εισόδου στην μορφή ARFF (Attribute Relationship File Format). Ένα αρχείο ARFF -54-

62 είναι ένα αρχείο κειμένου χαρακτήρων ASCII 6, το οποίο περιγράφει μια λίστα από αντικείμενα (instances) που μοιράζονται κάποια χαρακτηριστικά (attributes) και έχει κατάληξη arff. Το αρχείο ARFF περιλαμβάνει δύο ενότητες, την επικεφαλίδα (header) και το τμήμα των δεδομένων (data). Κάθε γραμμή που ξεκινάει με % είναι σχόλια που περιγράφουν τι περιέχει το αρχείο, καθιστώντας το πιο κατανοητό και δεν λαμβάνονται υπόψη κατά την διάρκεια φορτώματος του αρχείου. Στην πρώτη ενότητα, όπου ορίζονται τα χαρακτηριστικά του αρχείου, βρίσκεται το όνομα που περιγράφει το αρχείο, καθώς και οι μεταβλητές που χρησιμοποιούνται. Tο όνομα του αρχείου δίνεται στην πρώτη γραμμή (δεν μπορεί να παραλειφθεί) με την <name> Στην συνέχεια ακολουθεί η δήλωση των χαρακτηριστικών που περιγράφουν το σύνολο των δεδομένων, η οποία δίνεται με την <attribute_name> {attribute_type} Το <attribute_name> είναι το όνομα του χαρακτηριστικού, ενώ το {attribute_type} καθορίζει τον τύπο του χαρακτηριστικού. Προϋποθέσεις για την σωστή γραφή του ονόματος ενός χαρακτηριστικού είναι να ξεκινάει το όνομα με γράμμα και να περικλείονται οι λέξεις με εισαγωγικά σε περίπτωση που το χαρακτηριστικό περιγράφεται με δύο ή περισσότερες λέξεις. Για τον τύπο του χαρακτηριστικού το WEKA υποστηρίζει τα αριθμιτικά δεδομένα (numeric), τα κατηγορικά/ ονομαστικά δεδομένα (nominal), τα αλφαριθμητικά δεδομένα (string) και ημερομηνίες (date). Μετά από την δήλωση χαρακτηριστικών (στην δεύτερη ενότητα), ακολουθούν τα δεδομένα ως λίστα παραδειγμάτων κάτω από την Κάθε παράδειγμα περιγράφεται σε μια ξεχωριστή γραμμή, οι τιμές του οποίου χωρίζονται με κόμμα και εμφανίζονται σύμφωνα με την σειρά που δηλώθηκε στην επικεφαλίδα του αρχείου. Στην περίπτωση που υπάρχει ελλιπή τιμή, την θέση της καταλαμβάνει ένα λατινικό ερωτηματικό. 6 ASCII (American Standard Cade for Information Interchange): κωδικοποιημένο σύνολο χαρακτήρων του λατινικού αλφαβήτου όπως αυτό χρησιμοποιείται στην Αγγλική γλώσσα και σε άλλες δυτικοευρωπαϊκές γλώσσες. Χρησιμοποιείται για αναπαράσταση κειμένου στους υπολογιστές, σε συσκευές τηλεπικοινωνίας, καθώς και σε άλλες συσκευές που δουλεύουν με κείμενο. -55-

63 4.2.5 Διεπαφή χρήστη Με την λήψη του λογισμικού, εμφανίζεται το αρχικό περιβάλλον του WEKA, το οποίο προσφέρει την δυνατότητα επιλογής περιβάλλοντος ανάμεσα σε τέσσερεις επιλογές: Explorer, Experimenter, Knowledge Flow και Simple CLI. Εικόνα 4.3. Αρχικό περιβάλλον του WEKA, έκδοση Explorer Μέσα από το περιβάλλον του Explorer δίνεται πρόσβαση σε όλες τις λειτουργίες του πακέτου με χρήση λίστας επιλογών ή συμπλήρωση φορμών. Παράλληλα, προσφέρεται η δυνατότητα εφαρμογής μεθόδων και αλγορίθμων μηχανικής μάθησης, η επεξεργασία των δεδομένων και η οπτικοποίησή τους, καθώς και σύγκριση των τεχνικών. Ο Explorer καθοδηγεί τον χρήστη με μια αλληλουχία των βημάτων, ώστε οι επιλογές του να είναι εφαρμόσιμες, και πρόσθετα προσφέρει προεπιλεγμένες τιμές για την ελάχιστη απαιτούμενη προσπάθεια. Μειονέκτημα του εν λόγω περιβάλλοντος είναι ότι, κατά την εκτέλεσή του και την επεξεργασία των δεδομένων, όλες οι πληροφορίες διατηρούνται στην κύρια μνήμη, γεγονός που το καθιστά μη αποδοτικό για μεγάλου μεγέθους σύνολα δεδομένων. Συγκεκριμένα, ο Explorer προσφέρει πρόσβαση στις παρακάτω καρτέλες: Preprocess: Γίνεται επιλογή του συνόλου των δεδομένων και κατάλληλη τροποποίηση/ προεπεξεργασία του. Συγκεκριμένα εισάγονται τα δεδομένα από μια βάση δεδομένων και προεπεξεργάζονται με την βοήθεια αλγορίθμων φιλτραρίσματος. Στην διαδικασία αυτή δίνονται πληροφορίες σχετικά με τα δεδομένα, όπως το πλήθος των παραδειγμάτων, τα χαρακτηριστικά, στατιστικά στοιχεία, απεικόνιση των χαρακτηριστικών, κ.α. Τα φίλτρα χρησιμοποιούνται -56-

64 για τον μετασχηματισμό των δεδομένων (π.χ. για μετατροπή αριθμητικών δεδομένων σε διακριτά) και παρέχεται η δυνατότητα διαγραφής περιπτώσεων και χαρακτηριστικών σύμφωνα με καθορισμένα κριτήρια. Εικόνα 4.4 Φίλτρα για προεπεξεργασία. Τα φίλτρα διακρίνονται στα φίλτρα με επίβλεψη (supervised) και χωρίς επίβλεψη (unsupervised). Τα φίλτρα με επίβλεψη λαμβάνουν υπόψη κατά την εκτέλεσή τους την τιμή του γνωρίσματος που έχει δηλωθεί ως κλάση (Class), ενώ τα φίλτρα χωρίς επίβλεψη δε λαμβάνουν υπόψη την τιμή του γνωρίσματος που έχει δηλωθεί ως κλάση ή εφαρμόζονται σε δεδομένα για τα οποία δεν υφίσταται η έννοια της τάξης (πχ. στις χρονοσειρές). Κάθε μια κατηγορία αναλύεται και σε περαιτέρω διάκριση, η οποία είναι σε φίλτρα με εφαρμογή στα χαρακτηριστικά (attribute) και με εφαρμογή στις περιπτώσεις (instance). Τα φίλτρα σε επίπεδο χαρακτηριστικών (ανά στήλη) επηρεάζουν τις τιμές των στιγμιότυπων ανά χαρακτηριστικό, ενώ σε επίπεδο περιπτώσεων (ανά γραμμή) επηρεάζουν τις τιμές των στιγμιότυπων ανά στιγμιότυπο. Classify: Στην καρτέλα αυτή γίνεται εκπαίδευση και αξιολόγηση μαθησιακών σχημάτων ταξινόμησης ή/ και παλινδρόμησης. Υπάρχουν πληθώρα αλγορίθμων που προσφέρονται από το WEKA για κάθε κατηγορία ταξινομητών, και δίνονται ενδεικτικά οι ακόλουθοι: Bayes: NaiveBayes, BayesNet, AODE, κ.α. Trees: Id3, J48, ADTree, RandomTree, κ.α. Rules: DecisionTable, OneR, ConjunctiveRule, κ.α. Functions: SimpleLinearRegression, LeastMedSq, PaceRegression, κ.α. Lazy: IB1, IBk, KStar, κ.α. Misc.: Hyperpipes, VFI -57-

65 Η απόδοση των ταξινομητών μπορεί να ελεγχτεί μέσω των παρακάτω τεσσάρων τρόπων: Με χρήση του συνόλου των δεδομένων (use training set): αποτιμάται η απόδοση του ταξινομητή στον βαθμό που προέβλεψε την τάξη των περιπτώσεων που εκπαιδεύτηκαν. Με το προσφερόμενο σύνολο ελέγχου (supplied test set): η απόδοση του ταξινομητή αποτιμάται από τον βαθμό που προέβλεψε την τάξη των τάξη του συνόλου των περιπτώσεων που φορτώθηκαν από το αρχείο. Με την μέθοδο διασταυρωμένης επικύρωσης (cross- validation): η γενική ιδέα, με την οποία εξετάζεται η απόδοση του ταξινομητή, είναι η εξαγωγή μιας παρατηρήσεων από το σύνολο των δεδομένων με σκοπό την πρόβλεψή της και στην συνέχεια η σύγκρισή της με την πραγματική τιμή για τον υπολογισμό του λάθους. Με ποσοστό διάσπασης (percentage split): η απόδοση του ταξινομητή αποτιμάται στον βαθμό που προέβλεψε ένα ορισμένο ποσοστό (συνήθως 10%) του συνόλου των δεδομένων, το οποίο επιλέχθηκε για έλεγχο (test). Cluster: Στην συγκεκριμένη καρτέλα γίνεται επιλογή ενός αλγόριθμου με βάση τον οποίο θα γίνει ομαδοποίηση, ενώ στην συνέχεια εμφανίζεται το πλήθος των ομάδων που δημιουργούνται και ο αριθμός των περιπτώσεων που περιέχει κάθε ομάδα. Επιπλέον, μέσα από την καρτέλα δίνεται η δυνατότητα για ορισμένους αλγορίθμους να καθοριστεί το πλήθος των ομάδων θέτοντας παραμέτρους. Οι αλγόριθμοι για ομαδοποίηση είναι οι παρακάτω: EM Cobweb Farthest First Make Density Based Clusterer Simple K means Associate: Εφαρμόζεται εξόρυξη και αξιολόγηση των κανόνων συσχέτισης στο σύνολο των δεδομένων. Το WEKA προσφέρει τρείς αλγορίθμους για την εξαγωγή κανόνων συσχέτισης μεταξύ των χαρακτηριστικών και καμία μέθοδο -58-

66 αξιολόγησης των κανόνων που δημιουργήθηκαν. Οι αλγόριθμοι εκπαίδευσης των κανόνων συσχέτισης είναι οι: Apriori PredictiveApriori Tertius Select attributes: Η καρτέλα προσφέρει πρόσβαση σε αρκετές μεθόδους επιλογής υποσυνόλων των χαρακτηριστικών και αξιολόγησή τους, με σκοπό την διάκριση των χαρακτηριστικών που είναι περισσότερο χρήσιμα στην εξαγωγή συμπερασμάτων. Η επιλογή του υποσυνόλου των χαρακτηριστικών γίνεται με συνδυασμό ενός αξιολογητή του υποσυνόλου των δεδομένων και μιας μεθόδου αναζήτησης των καλύτερων συνδυασμών χαρακτηριστικών. Οι αξιολογητές των υποσυνόλων των χαρακτηριστικών είναι οι: CfsSubsetEval ClassifierSubsetEval ConsistencySubsetEval WrapperSubsetEval, ενώ οι μέθοδοι αναζήτησης είναι οι: BestFirst ExhaustiveSearch GeneticSearch GreedyStepwise RaceSearch RandomSearch RankSearch Εναλλακτική ταχύτερη προσέγγιση, αλλά με μικρότερη ακρίβεια είναι η αξιολόγηση των χαρακτηριστικών μεμονωμένα και η ταξινόμηση τους, απορρίπτοντας τα χαρακτηριστικά που βρίσκονται κάτω από ένα ορισμένο κατώφλι. Οι αξιολογητές για την παραπάνω μέθοδο είναι οι: -59-

67 ChiSquaredAttributeEval GainRatioAttributeEval InfoGainAttributeEval OneRAttributeEval PrincipalComponents ReliefFAttributeEval SVMAttributeEval SymmetricalUncertAttributeEval Visualize: Στο στάδιο αυτό γίνεται οπτική συσχέτιση (οπτικοποίηση των δεδομένων της βάσης και όχι των αποτελεσμάτων από τα μοντέλα ταξινόμησης ή ομαδοποίησης) και εξερεύνηση ανά δύο των χαρακτηριστικών στο σύνολο των δεδομένων με δυνατότητα εμφάνισης γραφικής αναπαράστασης κάθε γνωρίσματος σε συνάρτηση με άλλο γνώρισμα, με την βοήθεια δισδιάστατων διαγραμμάτων και χρωματικών διακρίσεων μεταξύ των χαρακτηριστικών. Experimenter Ο Experimenter εστιάζεται στην ταξινόμηση και την παλινδρόμηση, απαντώντας στο κρίσιμο ερώτημα της επιλογής μεταξύ μεθόδων και τιμών των παραμέτρων που αποδίδουν καλύτερα, δεδομένου του προβλήματος. Το περιβάλλον του Experimenter επιτρέπει την αυτοματοποίηση της διαδικασίας, καθιστώντας εύκολη την χρήση ταξινομητών και φίλτρων με διαφορετικές ρυθμίσεις παραμέτρων, την συλλογή στατιστικών στοιχείων για τις αποδόσεις, καθώς και την πραγματοποίηση σημαντικών ελέγχων. Επιπλέον, δίνεται η δυνατότητα δημιουργίας πειραμάτων μεγάλης κλίμακας, τα οποία απαιτούν χρόνο και τρέχουν χωρίς την παρέμβαση του χρήστη, ο οποίος μπορεί στην συνέχεια να αναλύσει τα στατιστικά στοιχεία των επιδόσεων που έχουν συλλεχθεί. Συγκεκριμένα ο Experimenter ακολουθεί τα παρακάτω βήματα: Setup (Simple ή Advanced) Run Analyze Knowledge Flow Το περιβάλλον του Knowledge Flow αποτελεί μια εναλλακτική του Explorer και ο καθορισμός του γίνεται με διαμόρφωση των επιμέρους συστατικών και σύνδεσή τους. -60-

68 Το περιβάλλον του Knowledge Flow εστιάζεται στην ροή των δεδομένων μέσω του συστήματος, καθώς επιτρέπει την διαχείριση συνεχών ροών δεδομένων, αλλά και δεδομένων σε παρτίδες, σε αντίθεση με τον Explorer που δεν υποστηρίζει την σταδιακή αύξηση των δεδομένων, παρά μόνο τα δεδομένα σε παρτίδες. Μέσα από την καρτέλα του Knowledge Flow προσφέρονται όλοι οι ταξινομητές και τα φίλτρα που είναι διαθέσιμα μέσω του WEKA, καθώς και συστατικά αξιολόγησης και οπτικοποίησης, όπως τα παρακάτω: Αξιολόγηση: TrainingSetMker, TestSetMaker, CrossValidationFoldMaker, κ.α. Οπτικοποίηση: DataVisualizer, ScatterPlotMatrix, TextViewer, GraphViewer, κ.α. Simple CLI (Command- Line Interface) Το Simple CLI παρέχει γραμμή εντολών για τις ρουτίνες του WEKA και είναι περισσότερο για λειτουργικά συστήματα που δεν έχουν γραμμή εντολών. Σε αντίθεση με τα προαναφερθέντα περιβάλλοντα του WEKA, το Command- Line Interface δε διαθέτει γραφικό περιβάλλον και η διαδικασία εξόρυξης γνώσης εκτελείται μέσω κατάλληλων προγραμματιστικών εντολών που δίνονται από τον χρήστη. Όπως γίνεται κατανοητό, στο σημείο αυτό συναντάται και το μειονέκτημά του για αρχάριους χρήστες, διότι για την συγκεκριμένη ενέργεια απαιτούνται στοιχειώδεις γνώσεις προγραμματισμού. -61-

69

70 Κεφάλαιο 5_ Βάση Δεδομένων 5.1 Οριοθέτηση Προβλήματος Τα χρηματοπιστωτικά ιδρύματα, όπως οι τράπεζες, διαδραματίζουν σημαντικό ρόλο στην διαμόρφωση της αγοραστικής δύναμης των καταναλωτών παρέχοντας μια πληθώρα πιστωτικών και επενδυτικών αγαθών. Απώτερος στόχος των τραπεζικών ιδρυμάτων είναι η αύξηση της κερδοφορίας τους, μέσω της καταβολής τόκων από τους δανειολήπτες για το δεσμευμένο κεφάλαιο. Από την άλλη πλευρά, τα φυσικά πρόσωπα καταφεύγουν στην λήψη δανείου για την κάλυψη αναγκών ή την επένδυση κεφαλαίου που θα οδηγήσει σε περαιτέρω αύξηση του αρχικού κεφαλαίου. Παρόλο αυτά, μια ενδεχόμενη αδυναμία του δανειολήπτη να εκπληρώσει τις συμβατικές του υποχρεώσεις και να εξυπηρετήσει το δάνειό του έχει αρνητικές επιπτώσεις και στα δύο συναλλασσόμενα μέρη, αφενός με την οικονομική απώλεια και τον κλονισμό της φερεγγυότητας του χρηματοπιστωτικού ιδρύματος και αφετέρου με τον κίνδυνο της οικονομικής υγείας του δανειολήπτη, που πιθανώς να καταλήξει σε οικονομική καταστροφή. Σκοπός της παρούσης εργασίας είναι η προσέγγιση θεμάτων που άπτονται του τραπεζικού δανεισμού και της αξιολόγησης της πιστοληπτικής ικανότητας των δανειοληπτών, με την συμβολή εργαλείων εξόρυξης δεδομένων, που διαμορφώνουν το προφίλ του δανειολήπτη. Τα μοντέλα πιστοληπτικής ικανότητας συχνά χρησιμοποιούνται για την μέτρηση του πιστωτικού κινδύνου, ώστε να εγκριθεί ή να απορριφθεί ένα δάνειο. Στόχος της εργασίας είναι η εξαγωγή χρήσιμων πληροφοριών και η σύγκριση αλγορίθμων για την πρόβλεψη της πιθανότητας ένας δανειολήπτης να βιώσει οικονομικό κίνδυνο στα επόμενα δύο χρόνια, και κατ επέκταση η οικοδόμηση μοντέλου που θα μπορούν να χρησιμοποιούν τα χρηματοπιστωτικά ιδρύματα και οι οφειλέτες για καλύτερες οικονομικές αποφάσεις. 5.2 Περιγραφή της Βάσης Δεδομένων Η βάση δεδομένων που θα χρησιμοποιηθεί προσφέρθηκε στα πλαίσια διαγωνισμού που φιλοξενήθηκε από την Kaggle, μια δημοφιλή πλατφόρμα με διαγωνισμούς που σκοπό -63-

71 έχουν την πρόβλεψη μοντέλων. Ο διαγωνισμός είχε τον διακριτικό τίτλο Give Me Some Credit και έκανε έναρξη στις 19 Σεπτεμβρίου 2011 και λήξη στις 15 Δεκεμβρίου 2011, με συμμετοχή 926 ομάδων και χρηματικό έπαθλο $5000. Ο διαγωνισμός παρείχε ένα σύνολο δεδομένων εκπαίδευσης αποτελούμενο από ανώνυμους δανειολήπτες, καθώς και ένα σύνολο δεδομένων ελέγχου με εγγραφές. Οι δύο βάσεις δεδομένων προσφέρονται σε μορφή csv (comma- separated values), με κατάληξη.csv, την οποία και υποστηρίζει το WEKA ως εναλλακτική μορφή αρχείου για εισαγωγή και επεξεργασία της. Αυτή η μορφή είναι μια σχετικά απλή μορφή αρχείου, η οποία αποθηκεύει τα δεδομένα (αριθμούς και κείμενο) σε μορφή απλού κειμένου, δηλαδή σε μια ακολουθία χαρακτήρων, και αποτελείται από εγγραφές διαχωρισμένες με αλλαγή γραμμής, ενώ κάθε εγγραφή περιέχει πεδία σε ταυτόσημη αλληλουχία που διαχωρίζονται με οριοθέτες (συνήθως κόμμα). Στο επόμενο πλαίσιο παρουσιάζεται μέρος του προς εξέταση αρχείου csv. Στην πρώτη γραμμή ή γραμμή κεφαλίδας του αρχείου csv εμφανίζονται τα ονόματα των χαρακτηριστικών ή των πεδίων που καθορίζονται στις γραμμές που ακολουθούν και κάθε όνομα διαχωρίζεται με κόμμα. Η αμέσως επόμενη γραμμή αντιπροσωπεύει ένα δανειζόμενο και παρέχει πληροφορίες που αφορούν την κατάστασή του. Τα χαρακτηριστικά σε κάθε σειρά εμφανίζονται με την ίδια ακολουθία, όπως εμφανίζονται τα ονόματα των χαρακτηριστικών στην γραμμή της κεφαλίδας, ενώ η κάθε τιμή του χαρακτηριστικού διαχωρίζεται με κόμμα. id,seriousdlqin2yrs,revolvingutilizationofunsecuredlines,age,numberoftime30-59dayspastduenotworse,debtratio,monthlyincome,numberofopencreditlinesandloans,numberoftimes90dayslate,numberrealestateloansorlines,numberoftime60-89dayspastduenotworse,numberofdependents 1,1, ,45,2, ,9120,13,0,6,0,2 2,0, ,40,0, ,2600,4,0,0,0,1 3,0, ,38,1, ,3042,2,1,0,0,0 4,0, ,30,0, ,3300,5,0,0,0,0 5,0, ,49,1, ,63588,7,0,1,0,0 6,0, ,74,0, ,3500,3,0,1,0,1 7,0, ,57,0,5710,?,8,0,3,0,0 8,0, ,39,0, ,3500,8,0,0,0,0 9,0, ,27,0,46,?,2,0,0,0,? 10,0, ,57,0, ,23684,9,0,4,0,2 11,0, ,30,0, ,2500,5,0,0,0,0 12,0, ,51,0, ,6501,7,0,2,0,2 13,0, ,46,0, ,12454,13,0,2,0,2 14,1, ,40,3, ,13700,9,3,1,1,2-64-

72 15,0, ,76,0,477,0,6,0,1,0,0 16,0, ,64,0, ,11362,7,0,1,0,2 17,0, ,78,0,2058,?,10,0,2,0,0 18,0, ,53,0, ,8800,7,0,0,0,0 19,0, ,43,0, ,3280,7,0,1,0,2 Μετά την εισαγωγή του csv αρχείου στο WEKA, το πρόγραμμα εξάγει τα αποτελέσματα σε arff μορφή και μέρος του αρχείου παρουσιάζεται στο παρακάτω πλαίσιο. Έτσι έχουμε στην πρώτη γραμμή την δήλωση του ονόματος του αρχείου cs- training) ακολουθούμενο στις επόμενες γραμμές από τα χαρακτηριστικά που περιγράφουν το σύνολο των δεδομένων προσδιορίζοντας το όνομα και τον τύπο του SeriousDlqin2yrs numeric). Στην συνέχεια γίνεται παράθεση όλων των δανειοληπτών, καθένας από τους οποίους περιγράφεται από σε μια ξεχωριστή γραμμή, με τις τιμές του να διαχωρίζονται με κόμμα και με την σειρά που δηλώθηκαν στην επικεφαλίδα του id SeriousDlqin2yrs RevolvingUtilizationOfUnsecuredLines age NumberOfTime30-59DaysPastDueNotWorse DebtRatio MonthlyIncome NumberOfOpenCreditLinesAndLoans NumberOfTimes90DaysLate NumberRealEstateLoansOrLines NumberOfTime60-89DaysPastDueNotWorse NumberOfDependents 1,1, ,45,2, ,9120,13,0,6,0,2 2,0, ,40,0, ,2600,4,0,0,0,1 3,0, ,38,1, ,3042,2,1,0,0,0 4,0, ,30,0, ,3300,5,0,0,0,0 5,0, ,49,1, ,63588,7,0,1,0,0 6,0, ,74,0, ,3500,3,0,1,0,1 7,0, ,57,0,5710,?,8,0,3,0,0 8,0, ,39,0, ,3500,8,0,0,0,0 9,0, ,27,0,46,?,2,0,0,0,? 10,0, ,57,0, ,23684,9,0,4,0,2 11,0, ,30,0, ,2500,5,0,0,0,0 12,0, ,51,0, ,6501,7,0,2,0,2 13,0, ,46,0, ,12454,13,0,2,0,2 14,1, ,40,3, ,13700,9,3,1,1,2 15,0, ,76,0,477,0,6,0,1,0,0 16,0, ,64,0, ,11362,7,0,1,0,2 17,0, ,78,0,2058,?,10,0,2,0,0-65-

73 18,0, ,53,0, ,8800,7,0,0,0,0 19,0, ,43,0, ,3280,7,0,1,0,2 20,0, ,25,0, ,333,2,0,0,0,0 5.3 Ανάλυση Μεταβλητών Η βάση δεδομένων αποτελείται από δώδεκα μεταβλητές, από τις οποίες οι RevolvingUtilizationOfUnsecuredLines, age, NumberOfTime30-59DaysPastDueNotWorse, DebtRatio, MonthlyIncome, NumberOfOpenCreditLinesAndLoans, NumberOfTimes90DaysLate, NumberRealEstateLoansOrLines, NumberOfTime60-89DaysPastDueNotWorse και NumberOfDependents είναι οι ανεξάρτητες μεταβλητές, ενώ η SeriousDlqin2yrs η εξαρτημένη μεταβλητή, για την οποία και θα εκπαιδευτεί το μοντέλο. Επιπλέον, έχουμε και την μεταβλητή id, που αποτελεί τον αύξων αριθμό καταχώρισης. Αναλυτικότερα, οι μεταβλητές της βάσης εξηγούνται παρακάτω: Id: αύξων αριθμός για κάθε περίπτωση δανειολήπτη που καταχωρήθηκε. Πρόκειται για μοναδικό αριθμό και χρησιμοποιείται για την αναγνώριση κάθε εγγραφής- οφειλέτη. RevolvingUtilizationOfUnsecuredLines: Το σύνολο των πιστωτικών καρτών και των προσωπικών γραμμών πίστωσης, εξαιρουμένων των ακινήτων και των δόσεων για χρέη, π.χ. δόση για δάνειο αυτοκινήτου, διαιρεμένο με το άθροισμα των πιστωτικών ορίων του οφειλέτη. Age: Ηλικία του δανειζόμενου σε χρόνια. NumberOfTime30-59DaysPastDueNotWorse: Πόσες φορές έχει καθυστερήσει ο δανειολήπτης τις πληρωμές για 30 με 59 ημέρες και όχι για μεγαλύτερο χρονικό διάστημα, στα τελευταία δύο χρόνια. DebtRatio: Οι μηνιαίες πληρωμές για χρέη, έξοδα διατροφής και επιβίωσης διαιρεμένα με το μηνιαίο μεικτό εισόδημα. MonthlyIncome: Μηνιαίο εισόδημα NumberOfOpenCreditLinesAndLoans: Αριθμός ανοικτών δανείων (δόσεις όπως δάνεια αυτοκινήτων ή υποθήκες) και πιστώσεις (όπως πιστωτικές κάρτες) NumberOfTimes90DaysLate: Πόσες φορές έχει καθυστερήσει ο δανειολήπτης τις πληρωμές για 90 ημέρες ή περισσότερο. -66-

74 NumberRealEstateLoansOrLines: Αριθμός ενυπόθηκων δανείων και στεγαστικών δανείων, συμπεριλαμβανομένων των συμμετοχών των κατοικιών σε γραμμές πίστωσης (home equity lines of credit- HELOC, συνήθως προφέρεται ως Hee-lock. Πρόκειται για δάνειο στο οποίο ο δανειστής συμφωνεί να δανείσει το μέγιστο ποσό για συμφωνημένη χρονική περίοδο, όταν υπάρχει ως εγγύηση το σπίτι του δανειζομένου και ισούται με την αξία του σπιτιού αφαιρώντας το υπόλοιπο του στεγαστικού δανείου. Συνήθως η κατοικία του οφειλέτη φέρει την μεγαλύτερη αξία ανάμεσα στα περιουσιακά του στοιχεία, με αποτέλεσμα η επέκταση του στεγαστικού δανείου να αφορά μεγάλα ποσά για έξοδα, όπως η εκπαίδευση, βελτίωση της κατοικίας, ιατρική περίθαλψη, κ.α. Η κατάχρηση του HELOC αναφέρεται συχνά ως μια από τις αιτίες της σημερινής κρίσης των ενυπόθηκων δανείων. "Characteristics of a HELOC", MTGProfessor.com, May 19, 2008). NumberOfTime60-89DaysPastDueNotWorse: Πόσες φορές έχει καθυστερήσει ο δανειολήπτης τις πληρωμές για 60 με 89 ημέρες και όχι για μεγαλύτερο χρονικό διάστημα, στα τελευταία δύο χρόνια. NumberOfDependents: Αριθμός εξαρτώμενων μελών της οικογένειας εξαιρουμένου του ιδίου (όπως σύζυγος, παιδιά, κ.α.) Σύμφωνα με τις τιμές των παραπάνω μεταβλητών θα εξεταστούν αλγόριθμοι του WEKA και η απόδοσή τους για την εύρεση της πιθανότητας αθέτησης πληρωμής των πιστωτικών δανείων από τους οφειλέτες. Η εξεταζόμενη μεταβλητή είναι η SeriousDlqin2yrs και δηλώνει αν ο δανειζόμενος θα βιώσει οικονομική δυσχέρεια στα επόμενα δύο χρόνια. Η μεταβλητή είναι δυαδικού τύπου και οι τιμές που παίρνει είναι: 0: δεν θα αντιμετωπίσει προβλήματα στο δάνειο για 2 χρόνια 1: θα αντιμετωπίσει προβλήματα στο δάνειο για 2 χρόνια Οι οφειλέτες που δεν θα αντιμετωπίσουν προβλήματα αποπληρωμής του δανείου για τα επόμενα δύο χρόνια καταλαμβάνουν ποσοστό περίπου 93,3% των περιπτώσεων (συγκεκριμένα 93,316% ή από τους ), ενώ προβλήματα θα αντιμετωπίσουν περίπου το 6,7% (συγκεκριμένα το 6,684% ή δανειολήπτες από τους ). -67-

75 Πίνακας 2. Τύποι μεταβλητών. Όνομα μεταβλητής SeriousDlqin2yrs RevolvingUtilizationOfUnsecuredLines Age NumberOfTime30-59DaysPastDueNotWorse DebtRatio MonthlyIncome NumberOfOpenCreditLinesAndLoans NumberOfTimes90DaysLate NumberRealEstateLoansOrLines NumberOfTime60-89DaysPastDueNotWorse NumberOfDependents Τύπος Δυαδικό Ποσοστό Ακέραιος Ακέραιος Ποσοστό Πραγματικός Ακέραιος Ακέραιος Ακέραιος Ακέραιος Ακέραιος 5.4 Προετοιμασία Δεδομένων Η προετοιμασία των δεδομένων διαδραματίζει καθοριστικό ρολό για την εξαγωγή ενός μοντέλου με υψηλή απόδοση και την εξαγωγή χρήσιμης πληροφορίας από αυτό. Στην συνέχεια θα αναφερθούν οι ενέργειες που έγιναν προκειμένου να αντιμετωπιστούν προβλήματα που παρουσιάστηκαν στα δεδομένα, ώστε να είναι κατάλληλα για χρήση, με σκοπό την εξαγωγή μοντέλου πρόβλεψης της συνέπειας των οφειλετών στην αποπληρωμή του δανείου. Αφαίρεση μη χρήσιμης μεταβλητής Για την καλύτερη απόδοση των αλγορίθμων χρειάστηκε να διαγραφεί η μεταβλητή id, διότι απεικονίζει τον αύξοντα αριθμό των παρατηρήσεων και δεν προσφέρει κάποια επιπλέον πληροφορία στο μοντέλο μας. -68-

76 Τροποποίηση του τύπου της μεταβλητής SeriousDlqin2yrs Η εξεταζόμενη μεταβλητή SeriousDlqin2yrs αρχικά εμφανίζεται ως numeric μεταβλητή, γεγονός που δεν συνάδει με την φύση της διότι είναι δυαδική και παίρνει τις τιμές {0, 1}. Για την μετατροπή της από numeric σε nominal έγινε χρήση του φίλτρου: Filters\ unsupervised\attribute\ NumericToNominal Αύξηση υπολογιστικών απαιτήσεων Όπως προαναφέρθηκε, οι παρατηρήσεις της βάσης δεδομένων εκπαίδευσης είναι στο σύνολο τους με αποτέλεσμα οι αλγόριθμοι να απαιτούν αυξημένες υπολογιστικές δυνατότητες για να πραγματοποιηθούν. Το πρόβλημα αντιμετωπίστηκε προσθέτοντας στην κονσόλα του Weka την εντολή: C:\Program files\weka-3-6>java-jar weka.jar-xmx3g Η παραπάνω εντολή αυξάνει το heap μέγεθος της μνήμης από 512Mb σε 3g, η οποία χρησιμοποιείται δυναμικά και προσφέρεται για χρήση στην περίπτωση των εξεταζόμενων δεδομένων, δεδομένου ότι δεν γνωρίζουμε εκ των προτέρων το μέγεθος της μνήμης που απαιτεί κάθε μοντέλο. Με την παραπάνω διαδικασία επιτεύχθηκε η εξέταση ποικίλων μοντέλων που περιγράφονται σε επόμενο εδάφιο και η σύγκριση της απόδοσής τους. Συμπλήρωση ελλιπών τιμών Για την μεταβλητή monthlyincome παρατηρούμε ότι στο 20% των παρατηρήσεων δεν υπάρχει αποθηκευμένη τιμή, γεγονός που μπορεί να οφείλεται σε αναπάντητα ερωτηματολόγια, σε ανθρώπινη παράλειψη, κ.α. Η έλλειψη τιμών στην συγκεκριμένες παρατηρήσεις φαίνεται να έχει αντίκτυπο και στην μεταβλητή Deptratio, η οποία προκύπτει από τις μηνιαίες πληρωμές για χρέη και έξοδα διατροφής/ επιβίωσης διαιρεμένα με το μηνιαίο μεικτό εισόδημα, του οποίου οι τιμές αγνοούνται. Παραδείγματα αυτής της περίπτωσης είναι οι ακόλουθες εγγραφές, όπου η τιμή του μηνιαίου μισθού δεν αναγράφεται (ΝΑ) και η μεταβλητή Deptratio φαίνεται να επηρεάζεται, διότι είναι ακέραιος αριθμός μεγαλύτερος της μονάδας και όχι ποσοστό: -69-

77 7,0, ,57,0,5710,NA,8,0,3,0,0 9,0, ,27,0,46,NA,2,0,0,0,NA 17,0, ,78,0,2058,NA,10,0,2,0,0 33,0, ,62,0,977,NA,6,0,1,0,0 42,0, ,81,0,75,NA,7,0,0,0,0 59,0, ,43,0,2477,NA,3,0,1,0,2 63,0, ,72,0,1720,NA,12,0,2,0,0 72,0, ,67,0,1824,NA,7,0,2,0,0 87,0, ,58,1,3282,NA,8,0,2,0,0 93,0, ,52,0,2662,NA,10,0,2,1,0 97,0, ,48,2,10,NA,2,0,0,0,NA 101,0, ,61,0,15,NA,4,0,0,0,0 110,0, ,61,0,4739,NA,11,0,4,0,NA 116,0, ,74,0,7,NA,4,0,0,0,0 119,0, ,68,0,269,NA,4,0,0,0,0 125,0, ,39,0,4090,NA,9,0,2,0,0 Μια μέθοδος για την αντιμετώπιση αυτού του προβλήματος είναι η απόρριψη των εγγραφών με τα πεδία που περιέχουν ελλιπή δεδομένα, η οποία χαρακτηρίζεται από σχετική ευκολία χρήσης αλλά στην συγκεκριμένη περίπτωση δεν προτείνεται, διότι το ποσοστό των περιπτώσεων που δεν θα καταφέρουν να είναι συνεπείς στις οφειλές τους είναι μικρό (6,7%) και η αφαίρεση εγγραφών ενδέχεται να έχει σαν συνέπεια την απώλεια δεδομένων με αξία. Μια άλλη προσέγγιση για τη συμπλήρωση των ελλιπών τιμών είναι η χρήση της μέσης τιμής στις ελλιπείς παρατηρήσεις. Για τις ποσοτικές μεταβλητές, όπως η μεταβλητή monthlyincome, η πιο πιθανή τιμή μπορεί να είναι η μέση τιμή δειγμάτων της ίδιας κλάσης και επιτυγχάνεται μέσω του φίλτρου: Filters\ unsupervised\attribute\ ReplaceMissingValues Εφαρμόζοντας το παραπάνω φίλτρο στα δεδομένα γίνεται αντικατάσταση των ελλιπών τιμών με την μέση τιμή, η οποία είναι 6.670,221 και στην συνέχεια εξετάζονται οι επιθυμητοί αλγόριθμοι. Στην παρούσα εργασία έγινε πρόβλεψη των πιο πιθανών τιμών με βάση τις τιμές των άλλων μεταβλητών στις παρατηρήσεις για την συμπλήρωση των υπαρχόντων ελλιπών τιμών. Ερευνήθηκε η απόδοση των αλγορίθμων με βάση την μεταβλητή MonthlyIncome και έγινε πρόβλεψη των τιμών με την χρήση των αποδοτικότερων. Στην συνέχεια εκτιμήθηκαν τα μοντέλα για την μεταβλητή SeriousDlqin2yrs και έγινε σύγκριση των αποδόσεών τους (Κεφάλαιο 6.2). Γεγονός είναι ότι όσο περισσότερες -70-

78 προβλέψεις παραθέτονται στα υπάρχοντα δεδομένα, τόσο μειώνεται η ακρίβεια και η εγκυρότητα του τελικού αποτελέσματος. Μια δεύτερη μεταβλητή που εμφανίζει ελλιπείς τιμές είναι η NumberOfDependents, που παρόλο αυτά δεν απαιτεί κάποια επεξεργασία διότι αφενός το ποσοστό εμφάνισης ελλιπών τιμών είναι μικρό (3%) και αφετέρου η συγκεκριμένη μεταβλητή δεν είναι ιδιαίτερα σημαντική για το μοντέλο, όπως προκύπτει από την αξιολόγηση των μεταβλητών. 5.5 Εκτίμηση σημαντικότητας μεταβλητών. Η σημαντικότητα των μεταβλητών του μοντέλου μπορεί να εκτιμηθεί μέσω της καρτέλας Select attributes του Weka, στην οποία γίνεται διάκριση των χαρακτηριστικών που είναι περισσότερο χρήσιμα στην εξαγωγή συμπερασμάτων. Για την επιλογή των χαρακτηριστικών έγινε χρήση τριών αξιολογητών των δεδομένων (GainRatioAttributeEval, ChiSquaredAttributeEval και InfoAttributeEval) με μέθοδο αναζήτησης- κατάταξης Ranker, η οποία κατατάσσει της μεταβλητές με βάση την αξιολόγηση. Οι αξιολογητές που χρησιμοποιηθήκαν αναλυτικότερα είναι: ChiSquaredAttributeEval. H Chi-squared μέθοδος αξιολογεί το κάθε ένα γνώρισμα ξεχωριστά, μετρώντας το στατιστικό X 2 με βάση το γνώρισμα-κλάση και στη συνέχεια τα γνωρίσματα ταξινομούνται ανάλογα με τη μεγαλύτερη τιμή του X 2 που τους έχει αποδοθεί. InfoAttributeEval. Αξιολογεί τις μεταβλητές με βάση το κέρδος πληροφορίας (information gain), το οποίο βασίζεται με την σειρά του στην εντροπία πληροφορίας (information entropy). Η εντροπία της πληροφορίας μετρά ουσιαστικά την ανομοιογένεια που υπάρχει στο σύνολο δεδομένων εκπαίδευσης στο στάδιο του διαχωρισμού αναφορικά με την υπό εξέταση εξαρτημένη μεταβλητή και η τιμή της δίνεται από την σχέση: Όπου S το σύνολο των δεδομένων εκπαίδευσης στο στάδιο του διαχωρισμού, c οι διαφορετικές κατηγορίες και p i το ποσοστό των παραδειγμάτων του S που ανήκουν στην κατηγορία i. -71-

79 Το κέρδος πληροφορίας αναπαριστά την μείωση της εντροπίας του συνόλου εκπαίδευσης S αν επιλεγεί ως παράμετρος διαχωρισμού η μεταβλητή Α. Η μεταβλητή επιλέγεται ώστε να οδηγεί σε περισσότερο συμπαγές δέντρο. Η σχέση που περιγράφει το κέρδος πληροφορίας είναι: Όπου E(S) η εντροπία πληροφορίας του υπό εξέταση κόμβου, Α η ανεξάρτητη μεταβλητή, με τιμές Values(A), βάση της οποίας επιχειρείται ο επόμενος διαχωρισμός, u μια από τις δυνατές τιμές της Α, S u το πλήθος των εγγραφών με Α= u και E(Su) η εντροπία πληροφορίας του υπό εξέταση κόμβου ως προς την τιμή A= u. Όταν η πληροφοριακή εντροπία μειώνεται, αυξάνεται η πυκνότητα της πληροφορίας και άρα η περιγραφή είναι πιο συμπαγής. Η μέθοδος κατάταξης Ranker χρησιμοποιεί έναν αλγόριθμο που ταξινομεί τα γνωρίσματα ανάλογα με την αξιολόγηση τους. GainRatioAttributeEval. Αξιολογεί τις μεταβλητές με βάση το λόγο κέρδους (gain ratio). Ο λόγος κέρδους είναι μια τροποποίηση του κέρδους πληροφορίας και αντιμετωπίζει το πρόβλημα της μεροληψίας. Υπολογίζει τον αριθμό και το μέγεθος του υποσυνόλου των υποδειγμάτων κάθε κλάδου και για την επιλογή χαρακτηριστικού. Πιο συγκεκριμένα, διορθώνει το κέρδος πληροφορίας λαμβάνοντας υπ όψιν την εγγενή πληροφορία (intrinsic information) της διάσπασης, η οποία αφορά την εντροπία της κατανομής των υποδειγμάτων σε κλάδους. Σύμφωνα με τα παραπάνω, ο λόγος κέρδους δίνεται από την σχέση: Και σε αυτή την περίπτωση χρησιμοποιήθηκε η μέθοδος κατάταξης Ranker για την ταξινόμηση των γνωρισμάτων ανάλογα με την αξιολόγηση τους. Εφαρμόζοντας τις παραπάνω μεθόδους προέκυψαν τα παρακάτω αποτελέσματα για την κατάταξη των μεταβλητών από άποψη σημαντικότητας: -72-

80 Πίνακας 3. Κατάταξη σύμφωνα με το ChiSquaredAttributeEval. Θέση Μεταβλητή 1 NumberOfTimes90DaysLate 2 RevolvingUtilizationOfUnsecuredLines 3 NumberOfTime30-59DaysPastDueNotWorse 4 NumberOfTime60-89DaysPastDueNotWorse 5 Age 6 NumberOfOpenCreditLinesAndLoans 7 DebtRatio 8 MonthlyIncome 9 NumberRealEstateLoansOrLines 10 NumberOfDependents Πίνακας 4. Κατάταξη σύμφωνα με το InfoAttributeEval. Θέση Μεταβλητή 1 RevolvingUtilizationOfUnsecuredLines 2 NumberOfTimes90DaysLate 3 NumberOfTime30-59DaysPastDueNotWorse 4 NumberOfTime60-89DaysPastDueNotWorse 5 Age 6 NumberOfOpenCreditLinesAndLoans 7 DebtRatio 8 MonthlyIncome 9 NumberRealEstateLoansOrLines 10 NumberOfDependents -73-

81 Πίνακας 5. Κατάταξη σύμφωνα με το GainRatioAttributeEval. Θέση Μεταβλητή 1 NumberOfTimes90DaysLate 2 NumberOfTime60-89DaysPastDueNotWorse 3 NumberOfTime30-59DaysPastDueNotWorse 4 RevolvingUtilizationOfUnsecuredLines 5 Age 6 NumberRealEstateLoansOrLines 7 NumberOfOpenCreditLinesAndLoans 8 MonthlyIncome 9 DebtRatio 10 NumberOfDependents Από τις κατατάξεις που προέκυψαν παρατηρούμε ότι η μεταβλητή Monthly Income δεν είναι αρκετά σημαντική για το μοντέλο πρόβλεψης, με εξαρτημένη μεταβλητή την SeriousDlin2yrs. Και στις τρείς περιπτώσεις καταλαμβάνει την 8η θέση μεταξύ των 10 ανεξάρτητων μεταβλητών. Οι μεταβλητές που εμφανίζουν ιδιαίτερη σημαντικότητα είναι οι NumberOfTimes90DaysLate, NumberOfTime60-89DaysPastDueNotWorse, NumberOfTime30-59DaysPastDueNotWorse και RevolvingUtilizationOfUnsecured Lines. Το αποτέλεσμα είναι εύλογο αφού οι τέσσερεις μεταβλητές αφορούν τις ημέρες καθυστέρησης των πληρωμών του δανείου και το σύνολο των πιστωτικών καρτών και των προσωπικών γραμμών πίστωσης. -74-

82 5.6 Μετρικές αξιολόγησης αποτελεσμάτων Οι καταστάσεις πρόβλεψης δίνονται μέσα από τον πίνακα σύγχυσης (confusion matrix): Πίνακας 6. Πίνακας συνάφειας. (Confusion matrix). Πρόβλεψη κλάσης Yes No Πραγματική κλάση Yes TP FN No FP TN Αναλυτικότερα: ΤΡ (True Positive). Το μοντέλο ταξινομεί μια περίπτωση στην κλάση Yes και στην πραγματικότητα είναι της κλάσης Yes και άρα δεν υπάρχει σφάλμα (αληθώς θετικά). FP (False Positive). Το μοντέλο ταξινομεί μια περίπτωση στην κλάση Yes και στην πραγματικότητα είναι της κλάσης No και άρα υπάρχει σφάλμα (ψευδώς θετικά). FN (False Negative). Το μοντέλο ταξινομεί μια περίπτωση στην κλάση No και στην πραγματικότητα είναι της κλάσης Yes και άρα υπάρχει σφάλμα (ψευδώς αρνητικά). TN (True Negative). Το μοντέλο ταξινομεί μια περίπτωση στην κλάση No και στην πραγματικότητα είναι της κλάσης No και άρα δεν υπάρχει σφάλμα (αληθώς αρνητικά). Για την αξιολόγηση της απόδοσης των τεχνικών που χρησιμοποιήθηκαν υπάρχουν διάφορες διαθέσιμες μετρικές, από τις οποίες σημαντικότερες είναι: Accuracy. Πρόκειται για το σύνολο των ορθά κατηγοριοποιημένων δεδομένων προς το συνολικό αριθμό των δεδομένων. -75-

83 Precision (Ακρίβεια). Αφορά το τμήμα των ανακτώμενων κειμένων που είναι σχετικά και είναι ο λόγος του αριθμού των πραγματικά ορθών εγγραφών που προβλέφθηκαν προς τον αριθμό των εγγραφών που προβλέφθηκαν ως ορθές. Recall (Ανάκληση). Αφορά το τμήμα των σχετικών εγγραφών που ανακτήθηκαν και είναι ο λόγος των πραγματικά ορθών εγγραφών που προέβλεψε ο αλγόριθμος προς το σύνολο των πραγματικά ορθών εγγραφών. F- measure. Η μετρική αυτή συνδυάζει τις μετρικές precision ( p ) και recall ( r ) με ίσα βάρη σύμφωνα με την σχέση: AUC (Area Under the ROC Curve). Η καμπύλη ROC (Receiver Operating Characteristics- Καμπύλη λειτουργικών χαρακτηριστικών) είναι η γραφική παράσταση που απεικονίζει τη σχετική αντιστάθμιση οφέλους (αληθείς θετικές περιπτώσεις) και κόστους (ψευδείς θετικές περιπτώσεις). Στον κάθετο άξονα του γραφήματος είναι ο αληθής θετικός ρυθμός (ρυθμός των TP), ο οποίος εκφράζει το εκατοστιαίο ποσοστό των θετικών περιπτώσεων που κατηγοριοποιήθηκαν σωστά στην θετική κλάση, και στον οριζόντιο άξονα ο ψευδής θετικός ρυθμός (ρυθμός των FP), ο οποίος εκφράζει το εκατοστιαίο ποσοστό των αρνητικών περιπτώσεων που λανθασμένα κατηγοριοποιήθηκαν στη θετική κλάση [A. I. Bandos et al, 2005]. Η μετρική AUC μετρά την απόδοση του αλγορίθμου ως ένας αδιάστατος πραγματικός αριθμός 7 και είναι το εμβαδόν που περικλείεται από την ROC καμπύλη και τον οριζόντιο άξονα. Οι τιμές που μπορεί να πάρει και αντικατοπτρίζουν την διαγνωστική ακρίβεια, είναι: 0 AUC 1 Η μέγιστη τιμή της επιτυγχάνεται όταν ο αληθής θετικός ρυθμός είναι ίσος με 1 (100%) και ο ψευδής θετικός ρυθμός είναι ίσος με μηδέν, ενώ η ελάχιστη τιμή 7 πραγματικός αριθμός που δεν συνδέεται με κάποια φυσική μονάδα. -76-

84 εμφανίζεται όταν ο αληθής θετικός ρυθμός είναι ίσος με μηδέν και ο ψευδής θετικός ρυθμός ίσος με 1. Γραφικά, όσο πιο κυρτωμένη είναι η καμπύλη προς το πάνω αριστερό μέρος του γραφήματος, τόσο καλύτερο είναι το μοντέλο. Η μετρική AUC αποτελεί μια αξιόπιστη μέτρηση της διαγνωστικής ακρίβειας που εκφράζει τη γενική απόδοση ενός κατηγοριοποιητή και επιδέχεται σύγκριση με την απόδοση άλλου κατηγοριοποιητή. Στην παρούσα εργασία, η εκτίμηση της απόδοσης των αλγορίθμων έγινε με βάση το AUC, καθώς είναι ένα από τα καλύτερα μέτρα σύγκρισης και χρησιμοποιείται ευρέως σε πολλές έρευνες. Επιπλέον, η μετρική AUC επιλέχθηκε για μέτρο σύγκρισης και στο πλαίσιο του διαγωνισμού για την σύγκριση των αποτελεσμάτων μεταξύ των διαγωνιζομένων. -77-

85 -78-

86 Κεφάλαιο 6_ Πρόβλεψη Επισφαλών Δανείων Μετά την ολοκλήρωση του σταδίου της προετοιμασίας των δεδομένων ακολουθεί η εξέταση ποικίλων αλγορίθμων, με σκοπό την εξαγωγή ενός μοντέλου με υψηλή απόδοση και την εξαγωγή χρήσιμης πληροφορίας από αυτό. Η εκτίμηση των αλγορίθμων έγινε με βάση το AUC και ως ταξινομητές χρησιμοποιήθηκαν δένδρα ταξινόμησης (Trees), Bayesian ταξινομητές (Bayes), κανόνες ταξινόμησης (Rules) και Functions. Επιπλέον, έγινε χρήση και metalearning αλγορίθμων (Meta), για αύξηση της απόδοσης των ταξινομητών. Για την εξέταση των δεδομένων, χρησιμοποιήθηκαν ποικίλες περιπτώσεις προετοιμασίας δεδομένων, όπως η αντικατάσταση των ελλιπών τιμών με την μέση τιμή, η πρόβλεψη των ελλιπών τιμών και στην συνέχεια εξέταση των συμπληρωμένων δεδομένων, καθώς και αφαίρεση μεταβλητών που δεν προσφέρουν πληροφορία στο μοντέλο. 6.1 Αντικατάσταση ελλιπών τιμών με μέση τιμή Αρχικά, για την εξέταση των αλγορίθμων έγινε συμπλήρωση των ελλιπών τιμών της μεταβλητής MonthlyIncome με την μέση τιμή των τιμών των παρατηρήσεων της ίδιας κλάσης, όπως περιγράφηκε στην παράγραφο 5.4 και μετά την προετοιμασία των δεδομένων εξετάστηκαν οι αλγόριθμοι ταξινόμησης (αρχείο medianformissing) Trees Τα δένδρα ταξινόμησης εφαρμόζονται στα δεδομένα της παρούσης εργασίας, διότι καλούνται να χωριστούν σε ομάδες (0 ή 1) και χρησιμοποιούνται για να προβλέψουν, με κάποιο βαθμό ακρίβειας, την τιμή της μεταβλητής που μοντελοποιούν (SeriousDlqin2yrs) με βάση τις τιμές των θεωρούμενων ανεξάρτητων μεταβλητών. Για την συγκεκριμένη κατηγορία εξετάστηκαν οι αλγόριθμοι J48, Simple Cart, RandomTree, REPTree, RandomForest και ADTree. -79-

87 Αλγόριθμος J48 Ο J48 αλγόριθμος ή αλλιώς C4.5 είναι ένας άπληστος αλγόριθμος και διαχειρίζεται κατηγοριματικές και συνεχείς τιμές και εφαρμόζεται από πάνω προς τα κάτω με επαναληπτική υλοποίηση της μεθόδου διαίρει και βασίλευε, η λειτουργία του οποίου έχει περιγραφεί εκτενέστερα στην παράγραφο Χρησιμοποιώντας τον αλγόριθμο με τις προκαθορισμένες τιμές (default) στις παραμέτρους ρύθμισης, ο δείκτης AUC= , ενώ μειώνοντας τον ελάχιστο αριθμό παραδειγμάτων σε κάθε φύλλο του δέντρου σε 1 (minnumobj=1) και του παράγοντα εμπιστοσύνης που χρησιμοποιείται για το κλάδεμα του δέντρου (confidencefactor=0.1, μεγαλύτερο κλάδεμα) ο δείκτης AUC= Αλγόριθμος Simple Cart Στον συγκεκριμένο αλγόριθμο η κατηγοριοποίηση εφαρμόζεται με βάση το κόστοςπολυπλοκότητα κλαδέματος και αναζητά την ελάχιστη τιμή alpha. Εάν δύο κόμβοι έχουν την ίδια τιμή alpha επιλέγει αυτόν που είναι περισσότερο άδειος. Με τις προκαθορισμένες τιμές στις παραμέτρους ρύθμισης, ο δείκτης AUC= Αλγόριθμος Random Tree Η ταξινόμηση του αλγορίθμου Random Tree γίνεται με την κατασκευή ενός δέντρου, θεωρώντας k τυχαία γνωρίσματα σε κάθε κόμβο. Ο συγκεκριμένος αλγόριθμος δεν εκτελεί την λειτουργία του κλαδέματος. Για τα δεδομένα της βάσης που εξετάζεται και χρησιμοποιώντας τις default παραμέτρους ρύθμισης, ο δείκτης AUC έχει την τιμή 0,6126 για την κλάση 0 και 0,6136 για την κλάση 1. Αλγόριθμος REP Tree Ο αλγόριθμος REP Tree είναι μια γρήγορη μέθοδος εκπαίδευσης δέντρου ταξινόμησης. Συγκεκριμένα χτίζει ένα δέντρο απόφασης/ παλινδρόμησης χρησιμοποιώντας το κέρδος πληροφορίας/ διακύμανση και κλαδεύει σύμφωνα με το μειωμένο σφάλμα. Ο REP Tree αλγόριθμος, διατηρώντας τις προκαθορισμένες τιμές για τις παραμέτρους ρύθμισης δίνει AUC= 0,8363. Αλγόριθμος Random Forest Η ταξινόμηση, σύμφωνα με τον Random Forest αλγόριθμο, πραγματοποιείται κατασκευάζοντας ένα δάσος από τυχαία δένδρα. Ο δείκτης AUC, για τον συγκεκριμένο αλγόριθμο είναι 0,793 για την κλάση 0 και 0,7787 για την κλάση

88 Αλγόριθμος AD Tree Κατηγοριοποιεί τις παρατηρήσεις δημιουργώντας ένα εναλλασσόμενο δένδρο απόφασης. Σύμφωνα με τον AD Tree αλγόριθμο, ο δείκτης AUC= Bayes Σύμφωνα με τους Bayes ταξινομητές, κάθε παράδειγμα εκπαίδευσης μπορεί σταδιακά να μειώσει ή να αυξήσει την πιθανότητα να είναι σωστή μια υπόθεση. Οι αλγόριθμοι είναι αρκετά ευέλικτοι, καθώς δεν απορρίπτουν αμέσως μια υπόθεση όταν προκύπτει ότι δεν είναι σε απόλυση συμφωνία με τα παραδείγματα εκπαίδευσης. Για την εύρεση του αποδοτικότερου μοντέλου εξετάστηκε ο Naïve Bayes και ο Naïve Bayes Simple αλγόριθμος. Αλγόριθμος Naïve Bayes Ο Naïve Bayes αλγόριθμος ταξινομεί χρησιμοποιώντας εκτιμητές τάξεων. Οι τιμές ακριβείας των αριθμητικών εκτιμητών επιλέγονται με βάση την ανάλυση των δεδομένων εκπαίδευσης. Σύμφωνα με τον αλγόριθμο Naïve Bayes και διατηρώντας τις default ρυθμίσεις για τις παραμέτρους, ο δείκτης AUC= 0,6795. Με αλλαγή της παραμέτρου usesuperviseddiscretization= True, για μετατροπή των numeric μεταβλητών σε nominal, έχουμε AUC= 0,8558. Αλγόριθμος Naïve Bayes Simple Ο απλός ταξινομητής Naïve Bayes βασίζεται στην παραδοχή ότι τα χαρακτηριστικά είναι υπό όρους ανεξάρτητα μεταξύ τους και μοντελοποιεί τις αριθμητικές μεταβλητές από μια κανονική κατανομή. Ο δείκτης AUC για το σύνολο των δεδομένων είναι ίσος με 0, Rules Ένα δένδρο ταξινόμησης μπορεί να μετατραπεί σε ένα σύνολο κανόνων ταξινόμησης, όπου κάθε κανόνας αντιστοιχεί σε ένα μονοπάτι του δένδρου από την ρίζα μέχρι ένα κόμβο- φύλο. Για την επεξεργασία των δεδομένων της βάσης που μελετάται, χρησιμοποιήθηκε και ο αλγόριθμος PART, οποίος βασίζεται στους κανόνες ταξινόμησης. -81-

89 Αλγόριθμος PART Ο αλγόριθμος PART χρησιμοποιεί την μέθοδο διαίρει και βασίλευε και χτίζει μέρος του δένδρου ταξινόμησης C4.5 σε κάθε εκτέλεση και μετατρέπει το καλύτερο φύλο σε κανόνα. Με την διατήρηση των προκαθορισμένων τιμών για τις παραμέτρους ρύθμισης έχουμε AUC= , ενώ με αλλαγές των παραμέτρων παρατηρούμε μια αυξομείωση του δείκτη. Συγκεκριμένα, με μείωση του ελάχιστου αριθμού των περιπτώσεων ανά κανόνα σε 1 (minnumobj=1) η απόδοση του AUC μειώνεται στο 0,8477, ενώ με μείωση του παράγοντα εμπιστοσύνης που χρησιμοποιείται για κλάδεμα σε 0,1 (confidencefactor= 0,1) η απόδοση του AUC αυξάνεται στα 0,8497. Ο συνδυασμός των δύο τελευταίων (minnumobj=1 και confidencefactor= 0,1) δεν έχει ευεργετικά αποτελέσματα, αφού προκύπτει AUC= Functions Η κατηγορία functions αποτελείται από μια ανάμεικτη ομάδα ταξινομητών, οι οποίοι μπορούν να καταγραφούν σαν μαθηματικές εξισώσεις με έναν λογικά φυσικό τρόπο. Οι αλγόριθμοι που χρησιμοποιήθηκαν από αυτή την κατηγορία είναι οι SMO, Multilayer Perceptron και Simple Logistic. Αλγόριθμος SMO Ο αλγόριθμος SMO αφορά έναν αλγόριθμο σειριακής βελτιστοποίησης για παρεμβολή με μηχανές υποστήριξης διανυσμάτων με πολυωνυμικούς πυρήνες. Τα δεδομένα εξετάστηκαν σύμφωνα με αυτόν και το αποτέλεσμα που προέκυψε είναι AUC= Το αποτέλεσμα είναι εύλογο, καθώς ο αλγόριθμος εξειδικεύεται στην μάθηση με επίβλεψη. Αλγόριθμος Multilayer Perceptron Ο αλγόριθμος Multilayer Perceptron χρησιμοποιήθηκε για την δημιουργία ενός νευρωνικού δικτύου και χρησιμοποιεί την τεχνική backpropagation 8. Για ένα επιθυμητό αποτέλεσμα, το δίκτυο μαθαίνει από πολλές εισόδους. Το μοντέλο που δημιουργήθηκε από την εφαρμογή του αλγορίθμου δίνει AUC= συντομογραφία του backward propagation of errors, τεχνική η οποία αποτελεί κοινή μέθοδο εκπαίδευσης των τεχνιτών νευρωνικών δικτύων -82-

90 Αλγόριθμος Simple Logistic Είναι ένας ταξινομητής για την δημιουργία γραμμικών μοντέλων λογιστικής παλινδρόμησης. Έχοντας στους ρυθμιστικούς παράγοντες τις προκαθορισμένες τιμές, η απόδοση του μοντέλου που δημιουργήθηκε περιγράφεται από το AUC= , το οποίο εμφανίζεται ιδιαιτέρως χαμηλό Meta Οι μεταμαθησιακοί (metalearning) αλγόριθμοι χρησιμοποιούν τους παραπάνω ταξινομητές και τους μετατρέπουν αυξάνοντας την αποδοτικότητά τους. Μια παράμετρος χρησιμοποιείται για να καθορίσει τον βασικό ταξινομητή και οι υπόλοιπες καθορίζουν τον αριθμό των εκτελέσεων και τον αρχικό σπόρο για την γεννήτρια τυχαίων αριθμών 9. Οι αλγόριθμοι που χρησιμοποιήθηκαν είναι οι Bagging και AdaBoostM1. Αλγόριθμος Bagging Ο μεταμαθησιακός αλγόριθμος Bagging συνδυάζει τις αποφάσεις διάφορων μοντέλων και επιχειρεί να εξουδετερώσει την αστάθεια των μεθόδων μάθησης. Το αποτέλεσμα που προκύπτει μετά από 10 εκτελέσεις (Interactions= 10) και επιλέγοντας ως ταξινομητή τον αλγόριθμο REP Tree είναι AUC= Δοκιμάζοντας ως ταξινομητή τον Naïve Bayes με usesuperviseddiscetization= True, ο οποίος είχε την καλύτερη απόδοση από τους προαναφερθέντες αλγορίθμους (0,8558), ο δείκτης AUC έχει την τιμή 0,8566, δηλαδή είναι ελάχιστα κατώτερος σε σχέση με τον Bagging με ταξινομητή τον REP Tree αλγόριθμο. Εισάγοντας ως ταξινομητή τον Naïve Bayes Simple, το AUC ελαττώνεται σημαντικά με τιμή 0,701, με τον AD Tree αλγόριθμο η απόδοση είναι 0,8559 και τον J48 αλγόριθμο AUC= 0,843. Ο πιο αποδοτικός συνδυασμός μεθόδου αλγορίθμου Bagging και ταξινομητή είναι με την χρήση του REP Tree. Για την περαιτέρω αύξηση της απόδοσης του έγινε δοκιμή της αυξομείωσης του αριθμού των εκτελέσεων. Έτσι με τρείς εκτελέσεις (Interactions= 3) ο δείκτης AUC μειώνεται στο 0,8527, ενώ με είκοσι εκτελέσεις (Interactions= 20) παρατηρείται αύξηση με AUC= 9 Μηχανισμός παραγωγής ανεξάρτητων τυχαίων αριθμών. -83-

91 0,8604, το οποίο αποτελεί και το καλύτερο ποσοστό του μοντέλου με την καμπύλη ROC να καλύπτει το 86,04% της επιφάνειας του γραφήματος. Αλγόριθμος AdaBoostM1 Είναι μια ευρέως χρησιμοποιούμενη μέθοδος για Boosting, και μπορεί να οδηγήσει στην βελτίωση της απόδοσης του αλγορίθμου. Χειρίζεται τις σταθμισμένες παρατηρήσεις, οπού το βάρος κάθε παρατήρησης είναι θετικός αριθμός. Η παρουσία του βάρους των παρατηρήσεων αλλάζει τον τρόπο με τον οποίο υπολογίζεται το λάθος ταξινόμησης (το άθροισμα των βαρών των περιπτώσεων με λάθος ταξινόμηση διαιρεμένο με το συνολικό βάρος όλων των περιπτώσεων). Τοποθετώντας βάρη στις περιπτώσεις ο αλγόριθμος συγκεντρώνει ένα συγκεκριμένο σύνολο περιπτώσεων με το μεγαλύτερο βάρος. Οι συγκεκριμένες περιπτώσεις γίνονται ιδιαιτέρως σημαντικές διότι υπάρχει μεγαλύτερο κίνητρο για να ταξινομηθούν σωστά. Συνδυάζοντας τον μεταμαθησιακό αλγόριθμο AdaBoostM1 με τον REP Tree, ο δείκτης AUC παίρνει την τιμή 0,7764, η οποία είναι ιδιαιτέρως χαμηλή. Για την καλύτερη σύγκριση των αποτελεσμάτων που προέκυψαν από την εξέταση των αλγορίθμων (10-fold cross-validation) δίνεται η γραφική απεικόνιση της απόδοσης των αλγορίθμων με βάση τον AUC και ο πίνακας (Πίνακας 7), ο οποίος παρουσιάζει αναλυτικότερα το ποσοστό των σωστά κατηγοριοποιημένων παρατηρήσεων, τις μετρικές AUC, Precision και Recall και το ρυθμό των TP και FP για κάθε αλγόριθμο. Εικόνα 6.1. Γραφική απεικόνιση απόδοσης αλγορίθμου (median). -84-

92 Πίνακας 7. Απόδοση αλγορίθμων με χρήση της μέσης τιμής. Ποσοστό σωστά κατηγοριοποιημένων παρατηρήσεων AUC Precision Recall TPRate FPRate J % 0, (0) (1) 0.99 (0) (1) 0.99 (0) (1) (0) 0.01 (1) J48 (minnumobj=1, confide.=0.1) % (0) (1) 0.99 (0) (1) 0.99 (0) (1) (0) 0.01 (1) Simple Cart % (0) (1) (0) 0.18 (1) (0) 0.18 (1) 0.82 (0) (1) Naïve Bayes % (0) 0.45 (1) (0) (1) (0) (1) (0) (1) Naïve Bayes (usesuper.=true) % (0) (1) 0.96 (0) (1) 0.96 (0) (1) (0) 0.04 (1) Naïve Bayes Simple % (0) (1) (0) (1) (0) (1) (0) (1) SMO % (0) (1) (0) (1) (0) (1) (0) (1) Multilayer Perceptron % (0) (1) (0) (1) (0) (1) (0) (1) Simple Logistic % (0) (1) (0) (1) (0) (1) (0) (1) PART % (0) (1) (0) (1) (0) (1) (0) (1) PART (minnumobj=1) % (0) (1) (0) (1) (0) (1) (0) (1) PART (confide.=0.1) % (0) (1) (0) (1) (0) (1) (0) (1) PART (minnumobj=1, confide.=0.1) % (0) (1) 0.99 (0) (1) 0.99 (0) (1) (0) 0.01 (1) -85-

93 Συνέχεια Ποσοστό σωστά κατηγοριοποιημένων παρατηρήσεων AUC Precision Recall TPRate FPRate Random Tree % (0) (1) (0) (1) (0) (1) (0) (1) (0) (1) REP Tree % (0) (1) (0) (1) (0) (1) (0) (1) Random Forest % (0) (1) (0) (1) (0) (1) (0) (1) (0) (1) AD Tree % (0) 0.57 (1) (0) (1) (0) (1) (0) (1) Bagging (με REP Tree για classifier- Interact.=10) 93,5507% (0) (1) (0) (1) (0) (1) (0) (1) Bagging (Naïve Bayes και usesuperviseddisceti zation=true για % (0) (1) 0.96 (0) (1) 0.96 (0) (1) (0) 0.04 (1) classifier) Bagging (Naïve Bayes Simple για classifier) % (0) 0.38 (1) (0) (1) (0) (1) (0) (1) Bagging (AD Tree για classifier) % (0) (1) (0) (1) (0) (1) (0) (1) AdaBoostM1 (με REP Tree για classifier) 92.07% (0) (1) (0) (1) (0) (1) (0) (1) Bagging (με REP Tree για classifier- Interactions=3) % (0) 0.51 (1) (0) (1) (0) (1) (0) (1) Bagging (με PER Tree για classifier- Interactions=20) % (0) 0.57 (1) 0.99 (0) (1) 0.99 (0) (1) (0) 0.01 (1) Bagging (με J48 για classifier) % (0) (1) (0) (1) (0) (1) (0) (1) -86-

94 Όπως φαίνεται στον πίνακα ο πιο αποδοτικός αλγόριθμος είναι ο μεταμαθησιακός αλγόριθμος Bagging με ταξινομητή τον REP Tree, ο οποίος κατηγοριοποιεί σωστά το 93,6207% των παρατηρήσεων, έχει AUC= 0,8604 και αρκετά υψηλό βαθμό ακρίβειας και ανάκλησης. 6.2 Πρόβλεψη των ελλιπών τιμών Για την αντιμετώπιση της ύπαρξης ελλιπών τιμών στις παρατηρήσεις της μεταβλητή monthlyincome, εκτός από την συμπλήρωση με την μέση τιμή, μπορεί να γίνει πρόβλεψη των τιμών τους με βάση τις τιμές των άλλων μεταβλητών στις παρατηρήσεις για την συμπλήρωση των υπαρχόντων ελλιπών τιμών. Έτσι το σύνολο των παρατηρήσεων ( εγγραφές) χωρίστηκε σε δύο αρχεία, όπου το ένα χρησιμοποιήθηκε ως training set (αρχείο notna) και εμπεριέχει το σύνολο των παρατηρήσεων χωρίς ελλιπείς τιμές στην μεταβλητή MonthlyIncome (80% των εγγραφών) και το άλλο χρησιμοποιήθηκε ως test set (αρχείο onlyna) και εμπεριέχει τις παρατηρήσεις με τις ελλιπείς τιμές στην μεταβλητή MonthlyIncome (20% των εγγραφών). Το μοντέλο εκπαιδεύτηκε για την μεταβλητή MonthlyIncome και στην συνέχεια με χρήση του αποδοτικότερου έγινε πρόβλεψη των ελλιπών τιμών της μεταβλητής. Για την διερεύνηση της απόδοσης των αλγορίθμων με βάση την μεταβλητή MonthlyIncome και για την επιλογή του αποδοτικότερου, οι αλγόριθμοι αξιολογήθηκαν με βάση τον συντελεστή συσχέτισης (correlation coefficient) και τα σφάλματα που εμφανίζουν. Ο συντελεστής συσχέτισης μετρά την στατιστική συσχέτιση μεταξύ των τιμών που προβλέφθηκαν και των πραγματικών τιμών. Για την μέτρηση των σφαλμάτων χρησιμοποιήθηκε το mean absolute error 10, το root mean-squared error, το relative absolute error (το συνολικό absolute error) και το root relative squared error. Οι αλγόριθμοι που εξετάστηκαν είναι οι REP Tree (Trees), Conjunctive Rule (Rules), Zero R (Rules), M5P (Trees), Decision Table (Rules), Decision Stump (Trees), Multilayer Percepton (Functions) και Linear Regression (Functions). 10 βρίσκει το μέσο όρο στο εύρος των ατομικών λαθών και έχει την τάση να διογκώνει την επίδραση των outliers, δηλαδή των περιπτώσεων των οποίων το σφάλμα πρόβλεψης είναι πολύ μεγαλύτερο από των άλλων. -87-

95 Αλγόριθμος Conjunctive Rule Η ταξινόμηση υλοποιεί ένα συνδετικό κανόνα μάθησης που μπορεί να προβλέψει και numeric και nominal κλάσεις. Ο κανόνας αποτελείται από έναν πρόγονο και έναν απόγονο, όπου ο απόγονος είναι η κατανομή των διαθέσιμων κλάσεων στο σύνολο των δεδομένων. Εάν η παρατήρηση που ελέγχεται δεν καλύπτεται από τον κανόνα, τότε προβλέπεται με χρήση των κατανομών της προκαθορισμένης τάξης/ αξία των δεδομένων που δεν καλύπτονται από τον κανόνα των δεδομένων εκπαίδευσης. Ο αλγόριθμος επιλέγει έναν απόγονο από τον υπολογισμό του κέρδους πληροφορίας κάθε προγόνου και κλαδεύει τον παραγόμενο κανόνα χρησιμοποιώντας το μειωμένο σφάλμα κλαδέματος (REP- Reduced Error Prunning) ή προ-κλαδεύει με βάση τον αριθμό των προγόνων. Αλγόριθμος Zero R Προβλέπει την πλειοψηφική κλάση για τις nominal μεταβλητές, όπως στην περίπτωση αυτή, ή την μέση τιμή για τις numeric μεταβλητές. Αλγόριθμος Μ5Ρ Ο αρχικός αλγόριθμος Μ5 εφευρέθηκε από τους R. Quinlan και Yong Wang και εφαρμόζει βασικές ρουτίνες για την δημιουργία ενός δένδρου ή κανόνα μοντέλου Μ5. Αλγόριθμος Decision Table Ο αλγόριθμος χτίζει ένα πλειοψηφικό απλό πίνακα απόφασής. Αλγόριθμος Decision Stump Χτίζει δένδρα απόφασης ενός επιπέδου και μπορεί να κάνει παλινδρόμηση (με βάση το μέσο τετραγωνικό σφάλμα) ή ταξινόμηση (με βάση την εντροπία). Συνήθως χρησιμοποιείται σε συνδυασμό με έναν Boosting αλγόριθμο. Αλγόριθμος Linear Regression Χρησιμοποιεί την γραμμική παλινδρόμηση για την πρόβλεψη και είναι σε θέση να αντιμετωπίσει σταθμισμένες περιπτώσεις. Οι αλγόριθμοι REP Tree και Multilayer Percepton έχουν περιγραφεί στο προηγούμενο κεφάλαιο. -88-

96 Τα αποτελέσματα των αλγορίθμων παρουσιάζονται στον επόμενο πίνακα (Πίνακας 8) και αξιολογούνται με βάση τον συντελεστή συσχέτισης και λάθη που εμφανίζουν: Πίνακας 8. Απόδοση αλγορίθμων για την MonthlyIncome. Correlation Mean Root mean- Relative Root coefficient absolute squared absolute relative error error error squared error Meta.Bagging (REP Tree για classifier) % 90.31% Tree.REP Tree % 98% Rules.Conjunctive Rule % 95.55% Rules.Zero R % 100% Trees.M5P % % Rules.Decision Table % 99.32% Trees.Decision Stump % 99.52% Functions.Multilayer Percepton % % Functions.Linear Regression % 98.89% Η πρόβλεψη έγινε αρχικά με βάση τον REP Tree και στην συνέχεια με βάση τον μεταμαθησιακό αλγόριθμο Bagging, που φαίνεται να υπερτερεί, αφού εμφανίζει τα μικρότερα σφάλματα και το μεγαλύτερο συντελεστή συσχέτισης. Μετά την συμπλήρωση των ελλιπών τιμών με τις τιμές που προβλέφθηκαν από τους αλγόριθμους, εξετάστηκε η απόδοση των αλγορίθμων Εξόρυξη έχοντας προβλέψει με REP Tree Οι τιμές που προβλέφθηκαν με τον αλγόριθμο REP Tree ενσωματώθηκαν στα δεδομένα και στην συνέχεια εξετάστηκαν οι αλγόριθμοι για την εύρεση του αποδοτικότερου μοντέλου που κατηγοριοποιεί τους οφειλέτες στις κλάσεις 0 και 1 (αρχείο predictionreptree). Τα αποτελέσματά τους, σχετικά με το ποσοστό των σωστά κατηγοριοποιημένων παρατηρήσεων, το AUC, το Precision, το Recall και των ρυθμό των TP και FP, παρουσιάζονται στον παρακάτω στον πίνακα (Πίνακας 9): -89-

97 Πίνακας 9. Απόδοση αλγορίθμων με πρόβλεψη (Περίπτωση REP Tree). Ποσοστό σωστά κατηγοριοποιημένων παρατηρήσεων AUC Precision Recall TPRate FPRate J % 0, (0) 0.56 (1) 0.99 (0) (1) 0.99 (0) (1) (0) 0.01 (1) J48 (minnumobj=1, confide.=0.1) % (0) 0.57 (1) 0.99 (0) (1) 0.99 (0) (1) (0) 0.01 (1) Simple Cart % (0) (1) 0.99 (0) (1) 0.99 (0) (1) (0) 0.01 (1) Random Tree % (0) (1) (0) 0.26 (1) (0) (1) (0) (1) (0) (1) REP Tree % (0) (1) 0.99 (0) (1) 0.99 (0) (1) (0) 0.01 (1) Random Forest % (0) (1) (0) (1) (0) (1) (0) (1) (0) (1) AD Tree % (0) (1) (0) (1) (0) (1) (0) (1) Naïve Bayes % (0) (1) (0) (1) (0) (1) (0) (1) Naïve Bayes (usesuper.=true) % (0) (1) 0.96 (0) (1) 0.96 (0) (1) (0) 0.04 (1) Naive Bayes Simple % (0) (1) (0) (1) (0) (1) (0) (1) PART % (0) (1) (0) (1) (0) (1) (0) (1) PART (minnumobj=1) % (0) (1) (0) (1) (0) (1) (0) (1) -90-

98 Συνέχεια Ποσοστό σωστά κατηγοριοποιημένων παρατηρήσεων AUC Precision Recall TPRate FPRate PART (confide.=0.1) % (0) (1) (0) (1) (0) (1) (0) (1) PART (minnumobj=1, confide.=0.1) % (0) (1) (0) (1) (0) (1) (0) (1) SMO % (0) (1) (0) (1) (0) (1) (0) (1) Multilayer Perceptron % (0) (1) (0) 0.17 (1) (0) 0.17 (1) 0.83 (0) (1) Simple Logistic % (0) (1) (0) (1) (0) (1) (0) (1) Bagging (με REP Tree ως classifier και Interact.=10) % (0) (1) (0) (1) (0) (1) (0) (1) Bagging (με REP Tree ως classifier και Interact.=20) % (0) (1) 0.99 (0) (1) 0.99 (0) (1) (0) 0.01 (1) Ο πιο αποδοτικός αλγόριθμος είναι ο μεταμαθησιακός Bagging με ταξινομητή τον REP Tree και 20 εκτελέσεις, ο οποίος κατηγοριοποιεί σωστά το 93,6127% των παρατηρήσεων και AUC= Η σχετική υπεροχή του γίνεται περισσότερο εμφανή με την γραφική απεικόνιση των αποδόσεων (Εικόνα 6.2). Παρατηρούμε ότι οι περισσότερες αποδόσεις των αλγορίθμων με την μέθοδο της συμπλήρωσης των ελλιπών τιμών με πρόβλεψη από τον αλγόριθμο REP Tree είναι μικρότερες σε σχέση με την συμπλήρωση των ελλιπών τιμών με την μέση τιμή των τιμών των παρατηρήσεων -91-

99 από την ίδια κλάση (Εικόνα 6.1). Παρόλο αυτά οι διαφορές της απόδοσης κατά αντιστοιχία είναι μικρές, γεγονός που πιθανών να οφείλεται στο ότι η μεταβλητή MonthlyIncome δεν είναι αρκετά σημαντική για το μοντέλο μας. Εικόνα 6.2. Γραφική απεικόνιση απόδοσης αλγορίθμων (REP Tree) Εξόρυξη έχοντας προβλέψει με Bagging Οι τιμές που προβλέφθηκαν με τον αλγόριθμο Bagging και ορίζοντας ως ταξινομητή τον REP Tree με 10 εκτελέσεις ενσωματώθηκαν στα δεδομένα και στην συνέχεια εξετάστηκαν οι αλγόριθμοι για την εύρεση του αποδοτικότερου (αρχείο predictionbagging). Οι αποδόσεις των αλγορίθμων παρουσιάζονται στον πίνακα 10 και γραφικά στην εικόνα 6.3, όπου γίνεται εμφανές ότι οι αλγόριθμοι μειονεκτούν έναντι τω άλλων μεθόδων. -92-

100 Πίνακας 10. Απόδοση αλγορίθμων με πρόβλεψη (Περίπτωση Bagging). Ποσοστό σωστά κατηγοριοποιημένων παρατηρήσεων AUC Precision Recall TPRate FPRate AD Tree % (0) (1) 1 (0) (1) 1 (0) (1) (0) 0 (1) Naïve Bayes (usesuper.=tr ue) % (0) (1) (0) (1) (0) (1) (0) (1) Naïve Bayes Simple % (0) (1) (0) (1) (0) (1) (0) (1) Εικόνα 6.3. Γραφική απεικόνιση απόδοσης των αλγορίθμων (Bagging). 6.3 Αφαίρεση μεταβλητών Για την εύρεση ενός αποδοτικότερου αλγορίθμου δοκιμάστηκε η αφαίρεση των λιγότερο σημαντικών μεταβλητών σύμφωνα με την εκτίμηση σημαντικότητας που είχε περιγραφεί στην παράγραφο 5.5. Για την συμπλήρωση των ελλιπών τιμών που υπάρχουν στις παρατηρήσεις της μεταβλητής MonthlyIncome έγινε αντικατάσταση με -93-

101 την μέση τιμή των τιμών των παρατηρήσεων της ίδιας κλάσης, διότι αποδείχτηκε ως η καλύτερη μέθοδος συμπλήρωσης, αφού οι αποδόσεις εμφανίζονταν βελτιωμένες σε σχέση με την μέθοδο της πρόβλεψης Αφαίρεση της NumberOfDependents Από την βάση δεδομένων αφαιρέθηκε η μεταβλητή NumberOfDependents, διότι σύμφωνα τους αξιολογητές (GainRatioAttributeEval, ChiSquaredAttributeEval και InfoAttributeEval) που περιγράφηκαν στην παράγραφο 5.5 κατατάσσεται στην τελευταία θέση από άποψη σημαντικότητας (αρχείο medianformissing-dep). Έτσι το μοντέλο θα προβλέπει την κλάση της SeriousDlqin2yrs με βάση εννιά μεταβλητές. Τα αποτελέσματα από την εξόρυξη ήταν τα ακόλουθα: Πίνακας 11. Απόδοση αλγορίθμων με αφαίρεση της NumberOfDependents. Ποσοστό σωστά κατηγοριοποιημένων παρατηρήσεων AUC Precision Recall TPRate FPRate AD Tree % (0) 0.57(1) (0) (1) (0) (1) (0) (1) REP Tree % (0) (1) (0) (1) (0) (1) (0) (1) Naïve Bayes (usesuper.=true) 92.49% (0) (1) (0) (1) (0) (1) (0) (1) Bagging (με REP Tree για classifier- 93,556% (0) (1) (0) (1) (0) (1) (0) (1) Interactions=10) Bagging (με REP Tree για classifier- Interactions=20) % (0) 0.57 (1) 0.99 (0) 0.19 (1) 0.99 (0) 0.19 (1) 0.81 (0) 0.01 (1) -94-

102 Ο αποδοτικότερος αλγόριθμος είναι ο Bagging με ταξινομητή τον REP Tree και 20 εκτελέσεις, ο οποίος έχει AUC= Σύμφωνα με την μετρική AUC δεν παρατηρείται βελτίωση της απόδοσης με την αφαίρεση της μεταβλητής NumberOfDependents, αλλά παρουσιάζει το ίδιο βαθμό απόδοσης Αφαίρεση των μεταβλητών NumberOfDependents και DeptRatio Η αφαίρεση της μεταβλητής NumberOfDependents έδειξε μια ισόποση απόδοση του μοντέλου και έδωσε το έναυσμα για περαιτέρω έρευνα πάνω στην αφαίρεση συγκεκριμένων μεταβλητών. Σύμφωνα με τον αξιολογητή GainRatioAttributeEval η ένατη μεταβλητή από άποψη σημαντικότητας είναι η μεταβλητή DeptRatio. Για τον λόγο αυτό επιλέχθηκε για διαγραφή σε συνδυασμό με την διαγραφή της μεταβλητής NumberOfDependents, και η εξαγωγή του μοντέλου πραγματοποιήθηκε με βάση τις εναπομείναντες οκτώ μεταβλητές (αρχείο medianformissing-dep+dr). Τα αποτελέσματα από την εξέταση των αλγορίθμων παρουσιάζονται στον πίνακα που ακολουθεί: Πίνακας 12. Απόδοση αλγορίθμων με αφαίρεση των NumberOfDependents και DeptRatio. Ποσοστό σωστά κατηγοριοποιημένων παρατηρήσεων AUC Precision Recall TPRate FPRate PART % (0) (1) 0.99 (0) (1) 0.99 (0) (1) (0) 0.01 (1) Bagging (με REP Tree για classifier- 93,5487% (0) 0.55 (1) (0) (1) (0) (1) (0) (1) Interactions=10) Bagging (με REP Tree για classifier- Interactions=20) % (0) (1) (0) (1) (0) (1) (0) (1) -95-

103 Η καλύτερη απόδοση σύμφωνα με τα παραπάνω επιτυγχάνεται με τον αλγόριθμο Bagging, με χρήση του REP Tree για ταξινομητή, και δίνει AUC= Όπως φαίνεται από το αποτέλεσμα, το μοντέλο δεν φαίνεται να βελτιώθηκε, αλλά παρουσίασε μικρότερη απόδοση και επομένως θεωρούμε ότι η μεταβλητή DeptRatio περιέχει πληροφορία και είναι αρκετά σημαντική για το μοντέλο μας και δεν την αποκλείουμε από την βάση δεδομένων Αφαίρεση των μεταβλητών NumberOfDependents και NumberRealEstateLoansOrLines Στην προηγούμενη παράγραφο έγινε αφαίρεση της μεταβλητής DeptRatio, η οποία εκτιμήθηκε σύμφωνα με τον GainRatioAttributeEval αξιολογητή ότι ήταν η ένατη κατά σειρά σημαντικότητας μεταβλητή. Οι άλλοι δύο αξιολογητές, όμως, κατατάσσουν την μεταβλητή DeptRatio στην έβδομη θέση, ενώ στην ένατη θέση βρίσκεται η μεταβλητή NumberRealEstateLoansOrLines. Για τον λόγο αυτό, θα εξετάσουμε την πιθανότητα να προκύπτει καλύτερο μοντέλο με αφαίρεση της μεταβλητής Number Real Estate Loans Or Lines (αρχείο medianformissing-dep+re). Σύμφωνα με τα αποτελέσματα των αλγορίθμων που εξετάστηκαν (Πίνακας 13) παρατηρούμε ότι με την αφαίρεση της δεν βελτιώνεται το μοντέλο, αλλά αντίθετα η τιμή του AUC μειώνεται στο 0,8594. Για τον λόγο αυτό διατηρούμε την μεταβλητή NumberRealEstateLoansOrLines στην βάση δεδομένων, διότι διαφαίνεται η ύπαρξη σημαντικής πληροφορίας για το μοντέλο. Οι αποδόσεις των μοντέλων με την μέθοδο της αφαίρεσης μεταβλητών παρουσιάζονται στο σύνολό τους και γραφικά (Εικόνα 6.4). -96-

104 Πίνακας 13. Απόδοση αλγορίθμων με αφαίρεση των NumberOfDependents και NumberRealEstateLoansOrLines. ποσοστό σωστά κατηγ/νων παρατ/σεων AUC Precision Recall TPRate FPRate PART % (0) (1) (0) (1) (0) (1) (0) (1) Bagging (με REP Tree για classifier- 93,544% (0) 0.55 (1) (0) (1) (0) (1) (0) (1) Interactions=10) Bagging (με REP Tree για classifier % (0) (1) 0.99 (0) (1) 0.99 (0) (1) (0) 0.01 (1) Interactions=20) Εικόνα 6.4. Γραφική απεικόνιση απόδοσης αλγορίθμων με αφαίρεση μεταβλητών. -97-

105 6.4 Σύγκριση αλγορίθμων Από την παρουσίαση των αλγορίθμων προέκυψε ότι το αποδοτικότερο μοντέλο προέρχεται από τον μεταμαθησιακό αλγόριθμο Bagging με ταξινομητή τον REP Tree. Οι αλγόριθμοι εξετάστηκαν με παραλλαγές στα διάφορα στάδια της προετοιμασίας των δεδομένων, με σκοπό να βρεθεί ο αποδοτικότερος συνδυασμός αλγορίθμου και προετοιμασίας δεδομένων. Αρχικά έγινε αντικατάσταση των ελλιπών τιμών της βάσης δεδομένων με την μέση τιμή, ενώ στην συνέχεια εξετάστηκε η περίπτωση της πρόβλεψης των ελλιπών τιμών, η ενσωμάτωσή τους στα δεδομένα και η εξέταση της απόδοσης των αλγορίθμων. Ως εναλλακτικός τρόπος συμπλήρωσης των ελλιπών τιμών έγινε πρόβλεψη με βάση τις τιμές των παρατηρήσεων στους άλλους παράγοντες. Σε πρώτη φάση, έγινε πρόβλεψη τιμών με βάση τον αλγόριθμο REP Tree και μετά την ένταξη των προβλεπόμενων τιμών των παρατηρήσεων στο σύνολο των δεδομένων εξετάστηκε η απόδοση των αλγορίθμων, που φαίνεται ότι οι περισσότεροι μειονεκτούσαν έναντι των προηγούμενων αποτελεσμάτων. Έπειτα έγινε πρόβλεψη των ελλιπών τιμών με βάση τον μεταμαθησιακό αλγόριθμο Bagging, ο οποίος φαίνεται να υπερτερεί στην αξιολόγηση που προηγήθηκε. Τα αποτελέσματα των αλγορίθμων δεν παρουσίαζαν βελτίωση. Από τα παραπάνω, διαφαίνεται η επικράτηση της μέσης τιμής για την συμπλήρωση των ελλιπών τιμών με αποδοτικότερο αλγόριθμο τον Bagging με χρήση του REP Tree για ταξινομητή, ο οποίος δίνει δείκτη AUC=0.8604, δηλαδή η καμπύλη ROC καλύπτει το 86,04% της επιφάνειας του γραφήματος. Με βάση την εκτίμηση της σημαντικότητας των μεταβλητών από τρείς αξιολογητές, εξετάστηκε η πιθανότητα βελτίωσης της απόδοσης του μοντέλου με αφαίρεση μεταβλητών που πιθανόν να μην περιείχαν χρήσιμη πληροφορία για το μοντέλο. Με την αφαίρεση της μεταβλητής NumberOfDependents ο δείκτης AUC=0.8604, είναι ίδιος με την τιμή του AUC που προέκυψε και χωρίς την αφαίρεση της μεταβλητής. Παρόλο αυτά συνεκτιμώντας και τις άλλες μετρικές, η γενική του απόδοση εμφανίζεται ελαφρώς βελτιωμένη (Πίνακας 14). Συγκεκριμένα, το ποσοστό των σωστά κατηγοριοποιημένων παρατηρήσεων είναι 93,6273% και είναι ελάχιστα μεγαλύτερο από το ποσοστό που προκύπτει χωρίς την αφαίρεση της μεταβλητής NumberOfDependents το οποίο είναι 93,6207%. Ομοίως, αυξημένη εμφανίζεται η μετρική Precision κατά 0,001 για την κλάση 0, η μετρική Recall κατά 0,004, ο ρυθμός TP κατά 0,004, ενώ ο ρυθμός FP είναι μειωμένος κατά 0,004. Όλα τα παραπάνω καθιστούν τον συγκεκριμένο αλγόριθμο ελάχιστα καλύτερο. -98-

106 Πίνακας 14. Σύγκριση των δυο πιο αποδοτικών αλγορίθμων. Ποσοστό σωστά κατηγοριοποιημέν ων παρατηρήσεων AUC Precisio n Recall TPRate FPRate Median % (0) 0.57 (1) 0.99 (0) (1) 0.99 (0) (1) (0) 0.01 (1) Median Dep % (0) 0.57 (1) 0.99 (0) 0.19 (1) 0.99 (0) 0.19 (1) 0.81 (0) 0.01 (1) Η δοκιμή της αφαίρεσης μιας επιπλέον μεταβλητής με μικρή σημαντικότητα για το μοντέλο, σύμφωνα με τους αξιολογητές, δεν επέφεραν βελτίωση στην μητρική AUC και έτσι διατηρήθηκαν για την εξόρυξη γνώσης. Από την κάθε μέθοδο που χρησιμοποιήθηκε έγινε διάκριση του αποδοτικότερου αλγορίθμου και η αποδόσεις τους παρουσιάζονται γραφικά στην εικόνα 6,5. Εικόνα 6.5. Γραφική απεικόνιση των αποδοτικότερων αλγορίθμων κάθε μεθόδου. -99-

107 Συνεπώς από την ανάλυση που προηγήθηκε, για την εύρεση του αποδοτικότερου αλγορίθμου, απαιτείται η συμπλήρωση των ελλιπών τιμών με την μέση τιμή της αντίστοιχης κλάσης, η αφαίρεση των μεταβλητών id και NumberOfDependents και η μετατροπή της ζητούμενης κλάσης από αριθμητική σε δυαδική. Έτσι, καταλήγουμε στο συμπέρασμα ότι το αποδοτικότερο μοντέλο που περιγράφει τα δεδομένα των δανειοληπτών και προβλέπει την πιθανότητα να παρουσιάσουν αδυναμία ανταπόκρισης στις δανειακές τους υποχρεώσεις είναι με τον μεταμαθησιακό αλγόριθμο Bagging και χρήση του REP Tree ως ταξινομητή, μετά από είκοσι εκτελέσεις. Το μοντέλο παρουσιάζει υψηλές αποδόσεις, με: Ποσοστό σωστά κατηγοριοποιημένων παρατηρήσεων: 93,6273% AUC: Weighted Avg. Precision: 0.92 Weighted Avg. Recall: Weighted Avg. TP Rate: Weighted Avg. FP Rate: Η αξιολόγηση πραγματοποιήθηκε με μετρική τον δείκτη AUC, την περιοχή κάτω από την καμπύλη ROC, η οποία και παρουσιάζεται γραφικά στην εικόνα 6.6. Εικόνα 6.6. Καμπύλη ROC για την κλάση 0 και

108 6.5 Πρόβλεψη τιμών Σκοπός της εκπαίδευσης και εύρεσης του αποδοτικότερου μοντέλου, που περιγράφει τα δεδομένα της βάσης, είναι η χρήση του για την πρόβλεψη της κλάσης νέων παρατηρήσεων. Στο στάδιο αυτό διαφαίνεται η χρησιμότητα των εργαλείων εξόρυξης γνώσης, διότι το ζητούμενο από την αρχή της έρευνας είναι το παραγόμενο αποτέλεσμα, που θα δίνει τις κατευθυντήριες γραμμές στις οικονομικές ή διοικητικές αποφάσεις. Στα πλαίσια του διαγωνισμού προσφέρεται ένα αρχείο ελέγχου (test set) με παρατηρήσεις, για τις οποίες αναζητούμε την πρόβλεψη της τιμής της μεταβλητής SeriousDlqin2yrs. Απαραίτητη προϋπόθεση για την χρήση του αρχείου είναι η τροποποίηση των μεταβλητών και των δεδομένων, αντίστοιχη με αυτή που πραγματοποιήθηκε στην προετοιμασία των δεδομένων εκπαίδευσης, ώστε οι παρατηρήσεις του ελέγχου να συνάδουν σε μορφή με τις παρατηρήσεις του αρχείου εκπαίδευσης. Έτσι πραγματοποιούνται οι αλλαγές: Αφαίρεση της μεταβλητής id (Remove/ id) Αφαίρεση της μεταβλητής NumberΟfDependents, διότι επιλέχθηκε ως αποδοτικότερο μοντέλο στην διαδικασία εκπαίδευσης του μοντέλου (Remove/ NumberΟfDependents) Μετατροπή της SeriousDlqin2yrs από numeric σε nominal (filters/ NumericToNominal) Αντικατάσταση ελλιπών τιμών της μεταβλητής MonthlyIncome με την μέση τιμή της κλάσης (filters/ ReplaceMissingValues) Ορισμός των τιμών που θα πάρει η μεταβλητή SeriousDlqin2yrs. Η διαδικασία αυτή πραγματοποιείται ανοίγοντας το αρχείο σε μορφή κειμένου και ορίζοντας τις τιμές 0 και 1 για την nominal μεταβλητή ( {0,1} ). Μετά τις τροποποιήσεις που παρουσιάστηκαν, το αρχείο ελέγχου είναι έτοιμο για πρόβλεψη (cs-test-dep), η οποία πραγματοποιείται μετά την εκπαίδευση του μοντέλου. Ο ορισμός του test set γίνεται μέσω του Supplied test set / Set και στην συνέχεια πραγματοποιείται η πρόβλεψη με την επιλογή Re-evaluate model on current test set που προσφέρεται μέσω του Result buffer. Τα αποτελέσματα της πρόβλεψης μπορούν να χρησιμοποιηθούν με δύο τρόπους, ανάλογα με την περίπτωση: -101-

109 Στην περίπτωση όπου η πραγματική κλάση της κάθε παρατήρησης είναι γνωστή, μπορεί να γίνει σύγκριση των αποτελεσμάτων πρόβλεψης, ώστε να βρεθεί το ποσοστό ακρίβειας των προβλέψεων. Στην περίπτωση όπου τα δεδομένα ελέγχου είναι νέα, σκοπός δεν είναι η σύγκριση της προβλεπόμενης κλάσης με την πραγματική, αλλά τα αποτελέσματα της πρόβλεψης προορίζονται για την χρήση τους σε διαδικασίες λήψης αποφάσεων. Τα αποτελέσματα της παρούσας πρόβλεψης του test set δεν μπορούν να συγκριθούν με την πραγματική κλάση, διότι η πραγματική κλάση της κάθε παρατήρησης δεν δίνεται στα πλαίσια του διαγωνισμού (output). Παρόλα αυτά, μπορούν να αποτελέσουν μια προσομοίωση των αναγκών ενός χρηματοπιστωτικού ιδρύματος, κατά την διαδικασία πρόβλεψης της πιθανότητας ενός δανείου να είναι επισφαλή για το διάστημα των επόμενων ετών

110 Κεφάλαιο 7_ Συμπεράσματα Η ανακάλυψη γνώσης αποτελεί λύση στο πρόβλημα της μετατροπής χαμηλού επιπέδου δεδομένων που βρίσκονται σε αφθονία, σε υψηλού επιπέδου πληροφορία, αξιοποιήσιμη στις διαδικασίες λήψης αποφάσεων. Ιδιαίτερη χρησιμότητα βρίσκουν στον χρηματοπιστωτικό τομέα, όπου μια σειρά από διακριτές λειτουργίες (διαχείριση κινδύνων, παρακολούθηση οφειλετών, κ.α.) μπορούν να στηριχθούν σε μοντέλα πρόβλεψης για την εξασφάλιση της βιωσιμότητας και οικονομικής υγείας του οργανισμού και των οφειλετών. Ο δανεισμός αποτελεί μια από τις βασικότερες λειτουργίες των χρηματοπιστωτικών ιδρυμάτων και η χρήση μοντέλων, συμβάλει στον σχηματισμό σωστών εξατομικευμένων προβλέψεων σχετικά με την βαθμολόγηση της πιστοληπτικής ικανότητας των οφειλετών. Με τον τρόπο αυτό μπορεί να εξασφαλιστεί η πορεία της κερδοφορίας και η χάραξη της μακροπρόθεσμης στρατηγικής των πιστωτικών οργανισμών και επιπλέον, να αυξηθεί το αίσθημα ασφάλειας των οφειλετών σχετικά με την χρήση αντικειμενικών κριτηρίων από τους οργανισμούς για την πορεία των δανειακών οφειλών τους. Η χρήση του credit score περιγράφει την πιστοληπτική ικανότητα του κάθε οφειλέτη και εξάγεται με βάση την βαθμολόγηση του σε συγκεκριμένους παράγοντες που ορίζονται από το κάθε χρηματοπιστωτικό ίδρυμα και αφορούν την πορεία ανταπόκρισης του οφειλέτη στις δανειακές του υποχρεώσεις, καθώς και προσωπικά ή οικογενειακά χαρακτηριστικά που ενδέχεται να επηρεάζουν την οικονομική του επιφάνεια. Στην παρούσα εργασία πραγματοποιήθηκε η εξαγωγή γνώσης από δεδομένα που δόθηκαν στα πλαίσια του διαγωνισμού, που φιλοξενήθηκε από τη Kaggle και αφορούν την προσωπική κατάσταση και το ιστορικό πληρωμών των δανειοληπτών. Μετά την προετοιμασία των δεδομένων έγινε σύγκριση αλγορίθμων για την πρόβλεψη της πιθανότητας ένας δανειολήπτης να βιώσει οικονομικό κίνδυνο στα επόμενα δύο χρόνια, και κατ επέκταση η οικοδόμηση μοντέλου που θα μπορούν να χρησιμοποιούν τα χρηματοπιστωτικά ιδρύματα και οι οφειλέτες για καλύτερες οικονομικές αποφάσεις. Οι αλγόριθμοι εξετάστηκαν με διάφορες μορφές επεξεργασίας των δεδομένων με το WEKA και το αποδοτικότερο μοντέλο προέκυψε με αντικατάσταση των ελλιπών τιμών -103-

111 με την μέση τιμή της κλάσης που εμφάνιζε τις ελλιπείς τιμές και αφαίρεση της μεταβλητής που δηλώνει τον αριθμό των εξαρτώμενων μελών του κάθε οφειλέτη. Το μοντέλο προέκυψε από τον αλγόριθμο Bagging και χρήση του αλγορίθμου REP Tree ως ταξινομητή και περιγράφει το 93,6273% των περιπτώσεων, ποσοστό που είναι αρκετά υψηλό, και καλύπτει το 86,04% του γραφήματος της καμπύλης που απεικονίζει τη σχετική αντιστάθμιση οφέλους και κόστους (ROC). Μετά την εκπαίδευση των δεδομένων, ακολούθησε η διαδικασία πρόβλεψης τιμών σε ένα σύνολο δεδομένων ελέγχου, τα αποτελέσματα του οποίου μπορούν να χρησιμοποιηθούν για την λήψη αποφάσεων σχετικά με την πορεία δανείου και είναι αντιπροσωπευτική των διαδικασιών που ακολουθούνται σε πραγματικές συνθήκες. Η έρευνα που πραγματοποιήθηκε μπορεί να αποτελέσει έναυσμα για περαιτέρω ανάλυση στον χρηματοπιστωτικό τομέα. Η παρούσα εργασία επικεντρώθηκε στην ανάλυση μεταβλητών που αφορούσαν το ιστορικό πληρωμών των δανειοληπτών καθώς και στοιχεία που αφορούν την προσωπική κοινωνική τους κατάσταση (μηνιαίο εισόδημα, αριθμός εξαρτώμενων μελών, ηλικία). Το ιστορικό πληρωμών περιγράφεται σε ικανοποιητικό βαθμό με τις εξεταζόμενες μεταβλητές, όμως η χρήση επιπλέον μεταβλητών που αφορούν την προσωπική και οικογενειακή κατάσταση του δανειολήπτη, μπορεί να προσφέρει επιπλέον πληροφορία στο μοντέλο (π.χ. φύλο, ενοίκιο ή κατοχή κατοικίας, κ.α.). Η οικονομική πορεία της κάθε χώρας δεν μένει σταθερή στην πάροδο των χρόνων, αλλά παρουσιάζονται οικονομικές διακυμάνσεις με κυκλικότητα. Για την εξαγωγή ενός αξιόπιστου και πλήρως προσαρμοσμένου μοντέλου στην τρεχούμενη οικονομική φάση μπορούν να αξιοποιηθούν οικονομικά στοιχεία αντιπροσωπευτικά της οικονομικής πορείας της χώρας. Μεταβλητές αυτής της φύσεως είναι το επίπεδο του εισοδήματος, της απασχόλησης, της ανεργίας, των τιμών, η συναλλαγματική ισοτιμία, κ.α. Με τον εμπλουτισμό του μοντέλου με μεταβλητές μακροοικονομικής φύσεως, επιτυγχάνεται η επικαιροποίηση και ο καλύτερος αντικατοπτρισμός των αποτελεσμάτων. Στην παρούσα εργασία έγινε η χρήση του WEKA ένα δημοφιλές λογισμικό μηχανικής μάθησης για την ανάλυση των δεδομένων και τη δημιουργία μοντέλων πρόβλεψης. Για την ανάλυση της παρούσας βάσης δεδομένων μπορεί να γίνει χρήση και άλλων εργαλείων εξόρυξης δεδομένων και να συγκριθούν τα αποτελέσματα. Με αυτό τον τρόπο θα ελεγχθεί και διασφαλιστεί η ακρίβεια των αποτελεσμάτων

112 Τέλος, η εξέταση των δεδομένων μπορεί να μην αποσκοπεί στην εύρεση της κλάσης στην οποία ανήκει ο κάθε δανειολήπτης σχετικά με την πιθανότητα αδυναμίας του να ανταποκριθεί στις δανειακές του υποχρεώσεις για τα επόμενα 2 χρόνια, αλλά στην ανακάλυψη άλλου είδους πληροφορίας. Για παράδειγμα, η ανάλυση μπορεί να εστιάζεται στην εύρεση των φορών που θα καθυστερήσει ο δανειολήπτης πάνω από 90 ημέρες την πληρωμή της δόσης του. Έτσι, η ανάλυση μπορεί να προσανατολιστεί και να αναπτυχθεί σε πολλές κατευθύνσεις

113

114 Πηγές [1] R. Agrawal, T. Imielinski, and A. Swami (1993). Mining Association Rules between Sets of Items in Large Databases, SIGMOD, pp [2] Α. I. Bandos, H. E. Rockette, D. Gur (2005). A Conditional Nonparametric Test for Comparing Two Areas Under the ROC Curves From a Paired Design, Academic Radiology, Vol 12, No 3 [3] Α. Barr and E.A. Feigenbaum (1981). The Handbook of Artificial Intelligence, Addison-Wesley,volume 1, 409 pp [4] Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Σακελλαρίου (2006). Τεχνητή Νοημοσύνη, Γ Έκδοση, Β. Γκιούρδας Εκδοτική [5] R. R. Bouckaert (2006). Bayesian Network Classifiers in Weka for Version 3-5-5, University of Waikato [6] R. R. Bouckaert, E. Frank, M. A. Hall, G. Holmes, B. Pfahringer, P. Reutemann, I. H. Witten (2010). WEKA Experiences with a Java Open-Source Project, Journal of Machine Learning Research 11 [7] P. Cabena, P. Hadjinian, R. Stadler, J. Verhees, A. Zanasi (1997). Discovering Data Mining from Concept to Implementation, Prentice Hall, New Jersey [8] M. Carey, G. Nini (2007). Is the Corporate Loan Market globally Integrated? A Pricing Puzzle. The Journal of finance, 112, [9] K. J. Cios, W. Pedrycz, and R. Swiniarski (1998). Data Mining Methods for Knowledge Discovery, Dordrecht: Kluwer [10] J. Dermine, C. Neto de Carvalho (2006). Bank loan losses-given-default: A case study, Journal of Banking & Finance, 30, [11] U. M. Fayyad, G. P. Shapiro, P. Smyth and R. Uthurusamy (1996). Advances in Knowledge Discovery and Data Mining, AAAI/MIT Press [12] W. J. Frawley, G. Piatetsky-Shapiro, C. J. Matheus (1992). Knowledge Discovery in Databases: An overview, AI Magazine, Volume 13, Number

115 [13] R. Gananadesikan (1977). Methods for statistical Data Analysis of Multivariate Observations, Wiley [14] M. Goebel, Le Gruenwald (1999). A survey of Data Mining and Knowledge Discovery software tools, ACM SIGKDD, Volume 1, Issue 1 [15] J. S. Gonas, M. J. Highfield, D. J. Mullineaux (2004). When Are Commercial Loans Scured?. The Financial Review, 39, [16] Α. A. Gottesman, G. S. Roberts (2004). Maturity and Corporate Loan Pricing. The Financial Review, 39, [17] A. Gottesman, G. S. Roberts (2007). Loan Rates and Collateral. The Financial Review, 42, [18] D. J. Hand, H. Mannila, P. Smyth (2001). Principles of Data Mining, Massachusetts Institute of Technology [19] X. He, Y. Wang (2007). Bank loan behaviour and credit information sharing: an insight from measurement costs. Journal of Economic Policy Reform, 10, [20] R. Jankowitsch, S. Pichler, W. S. A. Schwaiger (2006). Modelling the economic value of credit rating systems. Journal of Banking & Finance, 31, [21] Y. Kodratoff, K. Jantke, T. Shinohara, T. Zeugmann, Technical and Scientific Issues of KDD (or: Is KDD a Science?), Algorithmic Learning Theory, Springer Verlag LNAI N.997, pp [22] P. Mills (2011). Efficient statistical classification of satellite measurements, International Journal of Remote Sensing [23] S. Mitra, T. Acharya (2003). Data Mining, Multimedia Soft Computing and Bioinformatics, Willey [24] R. L. Rose, The Five Cs: Guides to Good Loan Analysis. Commercial Lending Newsletter, August 1989, pp [25] P. S. Rose, S. C. Hudgins (2010). Bank Management and Financial Services, 8 η Έκδοση, Mc Graw-Hill [26] G. M. Sanjeev (2007). Bankers Perceptions on Causes of Bad Loans in Banks. Journal of Management Research, 7, [27] J. A. Scott (2006). Loan Officer turnover and credit Availability for Small Firms. Journal of Small Business Management, 44,

116 [28] L. D. Smith, E. C. Lawrence (1995). Forecasting losses on a liquidating longterm loan portfolio, Journal of Banking & Finance, 19, [29] D. L. Street, K. G. Stanga (1989). The Relevance of a Segment Cash Flow Statement in Lending Decisions. Accounting and Business Research, [30] P. Tan, M. Steinbach, V. Kumar (2006). Introduction to Data Mining, Addison Wesley [31] H. Witten, E. Frank (2005). Data Mining, Practical Machine Learning Tools and Techniques, second edition, Elsevier [32] S. Zhang, Ch. Zhang, Q. Yang (2003). Data preparation for data mining, Applied Artificial Intelligence: An International Journal, Volume 17, Issue 5-6 Διαδικτυακοί τόποι

117

118 Παράρτημα Παράρτημα 1α Παράγοντες πρόβλεψης σε παράδειγμα μοντέλου βαθμολόγησης πιστωτικής ποιότητας και οι αξία τους (πηγή: P. S. Rose, S. C. Hudgins). Παράγοντες πρόβλεψης πιστωτικής ποιότητας Αξία Επαγγελματική κατάσταση πελάτη Επαγγελματίας ή στέλεχος επιχειρήσεων 100 Ειδικευμένος εργάτης 80 Εργαζόμενος γραφείου 70 Μαθητής 50 Ανειδίκευτος εργάτης 40 Εργαζόμενος ημι-απασχόλησης 20 Κατάσταση κατοικίας Ιδιοκτήτης κατοικίας 60 Ενοικιάζει σπίτι ή διαμέρισμα 40 Κατοικεί με φίλο ή συγγενή 20 Πιστοληπτική ικανότητα Άριστη 100 Μέτρια 50 Καμία καταγραφή 20 Φτωχή 00 Διάρκεια τωρινής εργασίας Περισσότερο από ένα χρόνο 50 Ένας χρόνος ή λιγότερο 20 Τηλέφωνο στο σπίτι ή στο διαμέρισμα -111-

119 Ναι 20 Όχι 00 Αριθμός εξαρτώμενων ατόμων Κανένα 30 Ένα 30 Δύο 40 Τρία 40 Πάνω από τρία 20 Λογαριασμοί καταθέσεων Λογαριασμοί αποταμίευσης και κίνησης 40 Μόνο λογαριασμοί αποταμίευσης 30 Μόνο λογαριασμοί κίνησης 20 Κανένας 00 Παράρτημα 1β Εγκεκριμένα ποσά πίστωσης με βάση τους πόντους βαθμολόγησης του παραστήματος 1α. (πηγή: P. S. Rose, S. C. Hudgins). Πόντοι Απόφαση πίστωσης 280 ή λιγότεροι Απόρριψη αίτησης Επέκταση πίστωσης μέχρι τα 1000$ Επέκταση πίστωσης μέχρι τα 2000$ Επέκταση πίστωσης μέχρι τα 3000$ Επέκταση πίστωσης μέχρι τα 4000$ Επέκταση πίστωσης μέχρι τα 6000$ Επέκταση πίστωσης μέχρι τα 10000$ -112-

120 Παράρτημα 2 Παράγοντες που επηρεάζουν το credit score (πηγή: The Value of Implementing Scoring in the Collections Process,2006) Παράγοντας Απόδοση Score Αμφισβήτηση, απάτη και ακάλυπτες πληρωμές Διακανονισμούς πληρωμών Αθέτηση διαρρυθμίσεων πληρωμών Ποσό που καθυστέρησε πάνω από 90 ημέρες Χρόνος που είναι πελάτης Ναι Κανένα από τα παραπάνω Ναι Όχι 1-2 φορές Πάνω από 3 Από $50 και πάνω Κάτω από $50 90 ημέρες 180 ημέρες 364 ημέρες μήνες μήνες Πάνω από 2 χρόνια Ημέρες καθυστέρησης ημέρες ημέρες ημέρες Πάνω από 90 ημέρες Πόσες φορές καθυστέρησε πάνω από 30 ημέρες τους τελευταίους 12 μήνες Πόσες φορές καθυστέρησε πάνω από 60 ημέρες τους τελευταίους 12 μήνες Πόσες φορές καθυστέρησε πάνω από 90 ημέρες τους τελευταίους 12 μήνες Πόσες φορές καθυστέρησε πάνω από 120 ημέρες τους τελευταίους 12 μήνες Πόσες φορές δόθηκε σε γραφείο συλλογής Μόνο μια 2-3 Πάνω από 4 Από 2 και πάνω Λιγότερο από 2 Μία ή περισσότερες Καμία Μία ή περισσότερες Καμία Μία ή περισσότερες Καμία

121 Ηπαρούσαδι ατ ρι βήμετ ί τ λ ο Πρόβλ ε ψηε πι σφαλ ώνδαν ε ί ων έ χ ε ι ε κ πον ηθε ί στ απλ αί σι ατ ου ΔΠΜΣΠλ ηροφορι κ ήςκ αι Δι οί κ ησης, τ ωντ μημάτ ων Πλ ηροφορι κ ήςκ αι Οι κ ον ομι κ ών Ε πι στ ημώντ ουαρι στ οτ ε λ ε ί ου Παν ε πι στ ημί ουθε σσαλ ον ί κ ης. Πραγ ματ ε ύε τ αι τ ηνκ ατ ασκ ε υή ε ν όςμον τ έ λ ουπουθα προβλ έ πε ι τ ηνπι θαν ότ ητ α αδυν αμί αςτ ωνοφε ι λ ε τ ώνν α ε ί ν αι συν ε πε ί ςστ ι ςδαν ε ι ακ έ ς τ ουςυποχ ρε ώσε ι ςγ ι αδι άστ ημα δυοε τ ών. Θε σσαλονί κη, Μάρτ ι ος2013

Δείτε περισσότερα