«ΕΞΟΡΥΞΗ ΓΝΩΣΗΣ ΣΤΗ ΛΟΓΙΣΤΙΚΗ-ΧΡΗΜΑΤΟΟΙΚΟΝΟΜΙΚΗ

Transcript

1 Α Ρ Ι Σ Τ Ο Τ Ε Λ Ε Ι Ο Π Α Ν Ε Π Ι Σ Τ Η Μ Ι Ο Θ Ε Σ Σ Α Λ Ο Ν Ι Κ Η Σ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥ ΩΝ «ΠΛΗΡΟΦΟΡΙΚΗ ΚΑΙ ΙΟΙΚΗΣΗ» Ι Π Λ Ω Μ ΑΤ Ι Κ Η Ε Ρ ΓΑ Σ Ι Α «ΕΞΟΡΥΞΗ ΓΝΩΣΗΣ ΣΤΗ ΛΟΓΙΣΤΙΚΗ-ΧΡΗΜΑΤΟΟΙΚΟΝΟΜΙΚΗ Η ΠΕΡΙΠΤΩΣΗ ΧΟΡΗΓΗΣΗΣ ΤΡΑΠΕΖΙΚΩΝ ΑΝΕΙΩΝ» (Data Mining in Accounting-Finance The Case of Bank Loan Granting) ΜΑΡΙΑΝΘΗ ΖΙΩΓΚΟΥ ΕΞΕΤΑΣΤΙΚΗ ΕΠΙΤΡΟΠΗ ΕΠΙΒΛΕΠΩΝ: ΧΑΡΑΛΑΜΠΟΣ ΣΠΑΘΗΣ, ΑΝΑΠΛΗΡΩΤΗΣ ΚΑΘΗΓΗΤΗΣ ΜΕΛΗ: ΗΜΗΤΡΙΟΣ ΚΟΥΣΕΝΙ ΗΣ, ΕΠΙΚΟΥΡΟΣ ΚΑΘΗΓΗΤΗΣ ΙΩΑΝΝΗΣ ΣΤΑΜΕΛΟΣ, ΑΝΑΠΛΗΡΩΤΗΣ ΚΑΘΗΓΗΤΗΣ ΘΕΣΣΑΛΟΝΙΚΗ 2012

2 Α Ρ Ι Σ Τ Ο Τ Ε Λ Ε Ι Ο Π Α Ν Ε Π Ι Σ Τ Η Μ Ι Ο Θ Ε Σ Σ Α Λ Ο Ν Ι Κ Η Σ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΙΑΤΜΗΜΑΤΙΚΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥ ΩΝ «ΠΛΗΡΟΦΟΡΙΚΗ ΚΑΙ ΙΟΙΚΗΣΗ» Ι Π Λ Ω Μ ΑΤ Ι Κ Η Ε Ρ ΓΑ Σ Ι Α «ΕΞΟΡΥΞΗ ΓΝΩΣΗΣ ΣΤΗ ΛΟΓΙΣΤΙΚΗ-ΧΡΗΜΑΤΟΟΙΚΟΝΟΜΙΚΗ Η ΠΕΡΙΠΤΩΣΗ ΧΟΡΗΓΗΣΗΣ ΤΡΑΠΕΖΙΚΩΝ ΑΝΕΙΩΝ» (Data Mining in Accounting-Finance The Case of Bank Loan Granting) ΜΑΡΙΑΝΘΗ ΖΙΩΓΚΟΥ ΕΞΕΤΑΣΤΙΚΗ ΕΠΙΤΡΟΠΗ ΕΠΙΒΛΕΠΩΝ: ΧΑΡΑΛΑΜΠΟΣ ΣΠΑΘΗΣ, ΑΝΑΠΛΗΡΩΤΗΣ ΚΑΘΗΓΗΤΗΣ ΜΕΛΗ: ΗΜΗΤΡΙΟΣ ΚΟΥΣΕΝΙ ΗΣ, ΕΠΙΚΟΥΡΟΣ ΚΑΘΗΓΗΤΗΣ ΙΩΑΝΝΗΣ ΣΤΑΜΕΛΟΣ, ΑΝΑΠΛΗΡΩΤΗΣ ΚΑΘΗΓΗΤΗΣ ΘΕΣΣΑΛΟΝΙΚΗ 2012 Η ΠΕΡΙΠΤΩΣΗ ΧΟΡΗΓΗΣΗΣ ΤΡΑΠΕΖΙΚΩΝ ΑΝΕΙΩΝ II

3 Π Ε Ρ Ι Λ Η Ψ Η Η κοινωνία της πληροφορίας στην οποία ζούµε χαρακτηρίζεται από τεράστιο όγκο ποικίλων και πολύπλοκων δεδοµένων, η διαχείριση των οποίων δεν είναι πλέον εφικτή µε τους µέχρι τώρα παραδοσιακούς τρόπους. Ένας δηµοφιλής και αποτελεσµατικός τρόπος για τη διαχείριση αυτών των δεδοµένων και την εξαγωγή γνώσης από τεράστιες βάσεις δεδοµένων είναι η εξόρυξη δεδοµένων (Data Mining). Το συγκεκριµένο επιστηµονικό πεδίο βρίσκει εφαρµογή σε πολλούς τοµείς της λογιστικής-χρηµατοοικονοµικής. Στην παρούσα εργασία διερευνάται η σχέση µεταξύ της Εξόρυξης εδοµένων και της Λογιστικής-Χρηµατοοικονοµικής προκειµένου να διαπιστωθεί κατά πόσο οι µέθοδοι Εξόρυξης εδοµένων µπορούν να αξιοποιήσουν λογιστικά-χρηµατοοικονοµικά δεδοµένα και να εξάγουν χρήσιµα συµπεράσµατα και γνώση. Στα πλαίσια της έρευνας επιχειρείται η εξόρυξη γνώσης από τη βάση δεδοµένων ενός οµίλου τραπεζών του εξωτερικού µε τη χρήση κατάλληλου λογισµικού εξόρυξης δεδοµένων. ηµιουργήθηκαν µοντέλα βασισµένα σε τεχνικές data mining και έπειτα από τη σύγκρισή τους προέκυψε ότι καλύτερη είναι η απόδοση του µοντέλου που βασίστηκε σε δέντρο απόφασης. Με βάση το δέντρο απόφασης που προέκυψε από την εξόρυξη των διαθέσιµων δεδοµένων, δηµιουργήθηκε µία εφαρµογή που κατηγοριοποιεί τους υποψήφιους προς δανειοδότηση πελάτες µιας τράπεζας, προκειµένου να αντιµετωπιστεί το πρόβληµα της έγκαιρης, επιτυχούς και αξιόπιστης αξιολόγησης των πελατών ενός χρηµατοπιστωτικού ιδρύµατος κατά τη διαδικασία έγκρισης δανείου. Η ΠΕΡΙΠΤΩΣΗ ΧΟΡΗΓΗΣΗΣ ΤΡΑΠΕΖΙΚΩΝ ΑΝΕΙΩΝ III

4 A R I S T O T L E U N I V E R S I T Y O F T H E S S A L O N I K I FACULTY OF SCIENCES INTERDEPARTMENTAL PROGRAM OF PROSTGRAGUATE STUDIES INFORMATICS AND MANAGEMENT M A S T E R T H E S I S DATA MINING IN ACCOUNTING- FINANCE THE CASE OF BANK LOAN GRANTING MARIANTHI ZIOGKOU EXAMINATION COMMITTEE SUPERVISOR: CHARALAMBOS SPATHIS, ASSOCIATE PROFESSOR ΜEMBERS: DIMITRIOS KOYSENIDIS, ASSISTANT PROFESSOR IOANNIS STAMELOS ASSOCIATE PROFESSOR THESSALONIKI 2012 Η ΠΕΡΙΠΤΩΣΗ ΧΟΡΗΓΗΣΗΣ ΤΡΑΠΕΖΙΚΩΝ ΑΝΕΙΩΝ IV

5 A B S T R A C T The information society in which we live is characterized by a huge volume of diverse and complex data, whose management is no longer possible with the traditional methods. A popular and effective way to manage these data and extract knowledge from huge databases is the Data Mining. This specific scientific field is applied in many areas of accounting-finance. This research studies the relationship between Data Mining and Accounting-Finance in order to determine whether the data mining methods can utilize accounting-financial data and extract useful knowledge. The survey attempts to extract knowledge from the database of a group of foreign banks, using the appropriate data mining software. Models were created based on data mining techniques and then it is showed by comparing them that the best performance is achieved by the model which was based on a decision tree. Based on the decision tree, resulting from the extraction of the available data, we created an application that categorizes the prospective customers of a bank that have applied for a loan, in order to address the problem of the successful and reliable client evaluation in the process of a loan approval in time. Η ΠΕΡΙΠΤΩΣΗ ΧΟΡΗΓΗΣΗΣ ΤΡΑΠΕΖΙΚΩΝ ΑΝΕΙΩΝ V

6 Ε Υ Χ Α Ρ Ι Σ Τ Ι Ε Σ Στο σηµείο αυτό, θα ήθελα να ευχαριστήσω θερµά τον επιβλέποντα της παρούσας διπλωµατικής εργασίας, κ. Χαράλαµπο Σπαθή, Αναπληρωτή Καθηγητή του τµήµατος Οικονοµικών του Αριστοτελείου Πανεπιστηµίου Θεσσαλονίκης, για την εµπιστοσύνη που έδειξε στο πρόσωπό µου και για τη συνεχή παιδαγωγική καθοδήγηση, την ενθάρρυνση, τις γνώσεις και την εµπειρία που πρόσφερε καθ όλη τη διάρκεια εκπόνησης αυτής της διπλωµατικής εργασίας. Επίσης, οφείλω ένα µεγάλο ευχαριστώ σε όλα τα µέλη της οικογένειάς µου, που µου συµπαραστάθηκαν και µε στήριξαν ψυχολογικά µε την υποµονή, την κατανόηση και την αγάπη τους. Κυρίως όµως θα ήθελα να ευχαριστήσω τους γονείς µου. Για όλα όσα µου πρόσφεραν και συνεχίζουν να µου προσφέρουν τους αφιερώνω την εργασία αυτή, ως ελάχιστο δείγµα ευγνωµοσύνης. Τέλος, θα ήθελα να ευχαριστήσω όλους τους φίλους µου που µε στήριξαν σε αυτήν την προσπάθειά µου. Ιδιαίτερα θερµές ευχαριστίες θα ήθελα να εκφράσω από τα βάθη της καρδιάς µου στον πολύ καλό µου φίλο Νικόλαο Μαντά για την πολύτιµη βοήθειά του, τη συνεχή υποστήριξή του και την αµέριστη συµπαράστασή του καθ όλη τη διάρκεια εκπόνησης της διπλωµατικής µου εργασίας. Μάρτιος 2012 Ζιώγκου Μαριάνθη Η ΠΕΡΙΠΤΩΣΗ ΧΟΡΗΓΗΣΗΣ ΤΡΑΠΕΖΙΚΩΝ ΑΝΕΙΩΝ VI

7 ΠΕΡΙΕΧΟΜΕΝΑ Π Ε Ρ Ι Ε Χ Ο Μ Ε Ν Α ΚΕΦΑΛΑΙΟ 1: ΕΙΣΑΓΩΓΗ ΚΕΦΑΛΑΙΟ 2: ΕΞΟΡΥΞΗ ΓΝΩΣΗΣ ΕΞΟΡΥΞΗ Ε ΟΜΕΝΩΝ ΚΑΙ ΑΝΑΚΑΛΥΨΗ ΓΝΩΣΗΣ ΙΑ ΙΚΑΣΙΑ ΑΝΑΚΑΛΥΨΗΣ ΓΝΩΣΗΣ Η ΤΕΧΝΙΚΗ DATA MINING ΤΑ ΣΤΑ ΙΑ ΤΗΣ ΙΑ ΙΚΑΣΙΑΣ DATA MINING ΜΕΘΟ ΟΙ ΤΗΣ TΕΧΝΙΚΗΣ DATA MINING ΤΑΞΙΝΟΜΗΣΗ (CLASSIFICATION) ΟΜΑ ΟΠΟΙΗΣΗ (CLUSTERING) ΣΥΣΧΕΤΙΣΗ (ASSOCIATION) ΜΕΘΟ ΟΙ ΤΑΞΙΝΟΜΗΣΗΣ ΕΝΤΡΑ ΑΠΟΦΑΣΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ ΙΚΤΥΑ BAYES ΠΡΟΒΛΗΜΑΤΑ ΣΤΗΝ ΕΞΟΡΥΞΗ ΓΝΩΣΗΣ ΕΦΑΡΜΟΓΕΣ ΑΝΑΚΑΛΥΨΗΣ ΓΝΩΣΗΣ MARKETING ΙΑΤΡΙΚΗ ΚΑΙ ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΧΡΗΜΑΤΟΟΙΚΟΝΟΜΙΚΗ ΑΣΦΑΛΕΙΑ ΑΘΛΗΤΙΣΜΟΣ ΠΑΓΚΟΣΜΙΟΣ ΙΣΤΟΣ ΚΕΦΑΛΑΙΟ 3: ΕΞΟΡΥΞΗ ΓΝΩΣΗΣ ΣΤΗ ΛΟΓΙΣΤΙΚΗ-ΧΡΗΜΑΤΟΟΙΚΟΝΟΜΙΚΗ ΠΕΡΙΟΧΕΣ ΕΦΑΡΜΟΓΗΣ ΚΑΙ ΕΙ ΙΚΕΣ ΕΡΕΥΝΗΤΙΚΕΣ ΜΕΛΕΤΕΣ ΠΡΟΒΛΕΨΗ ΠΤΩΧΕΥΣΗΣ Η ΠΕΡΙΠΤΩΣΗ ΧΟΡΗΓΗΣΗΣ ΤΡΑΠΕΖΙΚΩΝ ΑΝΕΙΩΝ VII

8 ΠΕΡΙΕΧΟΜΕΝΑ ΟΜΑΛΗ ΛΕΙΤΟΥΡΓΙΑ ΚΑΙ ΗΜΟΣΙΟΝΟΜΙΚΟΣ ΚΙΝ ΥΝΟΣ ΠΡΟΒΛΕΨΗ ΑΠΑΤΗΣ ΠΡΟΒΛΕΨΗ ΕΤΑΙΡΙΚΗΣ ΕΠΙ ΟΣΗΣ ΕΚΤΙΜΗΣΗ ΠΙΣΤΩΤΙΚΟΥ ΚΙΝ ΥΝΟΥ ΠΡΟΒΛΕΨΗ ΕΞΑΓΟΡΑΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΗΜΟΦΙΛΗ ΛΟΓΙΣΜΙΚΑ ΕΞΟΡΥΞΗΣ ΓΝΩΣΗΣ ΑΠΟ ΛΟΓΙΣΤΙΚΑ Ε ΟΜΕΝΑ ANGOSS SOFTWARE SAS ENTERPRISE MINER SPSS THINK ENTERPRISE DATA MINER VISCOVERY DATA MINING SUITE CLEMENTINE MICROSOFT SQL SERVER 2008 (ANALYSIS SERVICES) WEKA ΚΕΦΑΛΑΙΟ 4: ΕΦΑΡΜΟΓΗ ΣΕ ΠΡΑΓΜΑΤΙΚΑ Ε ΟΜΕΝΑ ΜΕΘΟ ΟΛΟΓΙΑ ΕΡΕΥΝΑΣ ΚΑΙ ΑΠΟΤΕΛΕΣΜΑΤΑ ΟΡΙΟΘΕΤΗΣΗ ΤΟΥ ΠΡΟΒΛΗΜΑΤΟΣ ΠΕΡΙΓΡΑΦΗ Ε ΟΜΕΝΩΝ ΕΠΙΛΟΓΗ Ε ΟΜΕΝΩΝ ΠΡΟΕΠΕΞΕΡΓΑΣΙΑ Ε ΟΜΕΝΩΝ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ Ε ΟΜΕΝΩΝ ΕΞΟΡΥΞΗ Ε ΟΜΕΝΩΝ ΑΠΟΤΕΛΕΣΜΑΤΑ-ΕΡΜΗΝΕΙΑ ΚΑΙ ΑΞΙΟΛΟΓΗΣΗ ΚΕΦΑΛΑΙΟ 5: ΥΛΟΠΟΙΗΣΗ ΕΦΑΡΜΟΓΗΣ ΧΟΡΗΓΗΣΗΣ ΑΝΕΙΩΝ ΚΕΦΑΛΑΙΟ 6: ΣΥΜΠΕΡΑΣΜΑΤΑ ΠΑΡΑΡΤΗΜΑ I: ΑΝΑΦΟΡEΣ ΠΑΡΑΡΤΗΜΑ II: ΑΚΡΩΝΥΜΑ ΠΑΡΑΡΤΗΜΑ III: ΓΛΩΣΣΑΡΙΟ ΠΑΡΑΡΤΗΜΑ IV: ΕΥΡΕΤΗΡΙΟ Η ΠΕΡΙΠΤΩΣΗ ΧΟΡΗΓΗΣΗΣ ΤΡΑΠΕΖΙΚΩΝ ΑΝΕΙΩΝ VIII

9 ΛΙΣΤΑ ΣΧΗΜΑΤΩΝ Λ Ι Σ Τ Α Σ Χ Η Μ ΑΤ Ω Ν ΕΙΚΟΝΑ 1: ΤΑ ΒΑΣΙΚΑ ΣΤΑ ΙΑ ΣΤΗ ΙΑ ΙΚΑΣΙΑΣ ΑΝΑΚΑΛΥΨΗΣ ΓΝΩΣΗΣ ΕΙΚΟΝΑ 2: ΤΟ ΠΕΡΙΒΑΛΛΟΝ ΤΟΥ KNOWLEDGE SEEKER ΕΙΚΟΝΑ 3: ΤΟ ΠΕΡΙΒΑΛΛΟΝ ΤΟΥ KNOWLEDGE STUDIO ΕΙΚΟΝΑ 4: ΤΟ ΠΕΡΙΒΑΛΛΟΝ ΤΟΥ SAS ENTERPRISE MINER ΕΙΚΟΝΑ 5: ΤΟ ΠΕΡΙΒΑΛΛΟΝ ΤΟΥ SPSS ΕΙΚΟΝΑ 6: ΤΟ ΠΕΡΙΒΑΛΛΟΝ ΤΟΥ SPSS CLASSIFICATION TREES ΕΙΚΟΝΑ 7: ΤΟ ΠΕΡΙΒΑΛΛΟΝ ΤΟΥ THINK ENTERPRISE DATA MINER ΕΙΚΟΝΑ 8: ΤΟ ΠΕΡΙΒΑΛΛΟΝ ΤΟΥ VISCOVERY DATA MINING SUITE ΕΙΚΟΝΑ 9: ΤΟ ΠΕΡΙΒΑΛΛΟΝ ΤΟΥ CLEMENTINE ΕΙΚΟΝΑ 10: ΤΟ ΠΕΡΙΒΑΛΛΟΝ ΤΟΥ ANALYSIS SERVICES ΕΙΚΟΝΑ 11: ΤΟ ΠΕΡΙΒΑΛΛΟΝ ΤΟΥ WEKA ΕΙΚΟΝΑ 12 : ΤΟ ΕΡΩΤΗΜΑ ΣΤΗ ΒΑΣΗ Ε ΟΜΕΝΩΝ ΓΙΑ ΤΗ ΣΥΝ ΕΣΗ ΤΩΝ ΠΙΝΑΚΩΝ «LOAN», «ACCOUNT» ΚΑΙ «DEMOGRAPHIC DATA» ΕΙΚΟΝΑ 13: ΙΑΓΡΑΜΜΑ ΣΥΧΝΟΤΗΤΩΝ ΤΗΣ ΜΕΤΑΒΛΗΤΗΣ «STATUS» ΕΙΚΟΝΑ 14: ΙΑΓΡΑΜΜΑ ΣΥΧΝΟΤΗΤΩΝ ΤΗΣ ΜΕΤΑΒΛΗΤΗΣ «STATUS_NEW» ΕΙΚΟΝΑ 15: ΣΥΣΧΕΤΙΣΗ ΤΗΣ ΜΕΤΑΒΛΗΤΗΣ «STATUS_NEW» ΜΕ ΤΙΣ ΜΕΤΑΒΛΗΤΕΣ «DURATION», «PAYMENTS» ΚΑΙ «AMOUNT» ΕΙΚΟΝΑ 16: Η ΜΕΤΑΒΛΗΤΗ ΚΛΕΙ Ι «ACCOUNT_ID» ΚΑΙ Η ΜΕΤΑΒΛΗΤΗ ΣΤΟΧΟΣ «STATUS_NEW» ΤΟΥ ΜΟΝΤΕΛΟΥ ΕΙΚΟΝΑ 17: ΟΙ ΜΕΤΑΒΛΗΤΕΣ ΠΟΥ ΠΡΟΤΕΙΝΕΙ Ο BUSINESS INTELLIGENCE ΑΠΟ ΤΟΝ ΠΙΝΑΚΑ DEMOGRAPHIC DATA ΕΙΚΟΝΑ 18: ΤΟ ΣΥΝΟΛΟ ΤΩΝ ΕΙΣΑΓΟΜΕΝΩΝ ΜΕΤΑΒΛΗΤΩΝ ΕΙΚΟΝΑ 19: ΙΑΚΡΙΤΟΠΟΙΗΣΗ ΤΩΝ ΣΥΝΕΧΩΝ ΜΕΤΑΒΛΗΤΩΝ ΕΙΚΟΝΑ 20: ΟΙ ΜΕΘΟ ΟΙ ΚΑΙ ΤΑ ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ ΠΟΥ ΧΡΗΣΙΜΟΠΟΙΗΘΗΚΑΝ ΕΙΚΟΝΑ 21: ΤΟ LIFT CHART ΚΑΙ ΤΟ MINING LEGEND ΤΟΥ SQL SERVER BUSINESS INTELLIGENCE ΕΙΚΟΝΑ 22: ΤΟ ΠΡΩΤΟ ΠΑΡΑΘΥΡΟ ΤΗΣ ΕΦΑΡΜΟΓΗΣ ΕΙΚΟΝΑ 23: ΤΟ ΠΑΡΑΘΥΡΟ ΤΗΣ ΕΦΑΡΜΟΓΗΣ ΓΙΑ ΤΗ ΙΑΧΕΙΡΙΣΗ ΠΕΡΙΟΧΩΝ ΕΙΚΟΝΑ 24: Η ΚΑΤΑΧΩΡΗΣΗ ΠΕΡΙΟΧΗΣ ΣΤΗΝ ΕΦΑΡΜΟΓΗ ΕΙΚΟΝΑ 25: ΤΟ ΠΑΡΑΘΥΡΟ ΤΗΣ ΕΦΑΡΜΟΓΗΣ ΓΙΑ ΤΗ ΙΑΧΕΙΡΙΣΗ ΠΕΛΑΤΩΝ ΕΙΚΟΝΑ 26: Η ΚΑΤΑΧΩΡΗΣΗ ΠΕΡΙΟΧΗΣ ΣΤΗΝ ΕΦΑΡΜΟΓΗ ΕΙΚΟΝΑ 27: ΤΟ ΠΑΡΑΘΥΡΟ ΤΗΣ ΕΦΑΡΜΟΓΗΣ ΓΙΑ ΤΗΝ ΚΑΤΑΧΩΡΗΣΗ ΤΗΣ ΑΙΤΗΣΗΣ ΑΝΕΙΟ ΟΤΗΣΗΣ ΕΙΚΟΝΑ 28: ΤΟ ΜΗΝΥΜΑ ΤΗΣ ΕΦΑΡΜΟΓΗΣ ΣΤΗΝ ΠΕΡΙΠΤΩΣΗ ΤΗΣ ΕΓΚΡΙΣΗΣ ΑΝΕΙΟΥ ΕΙΚΟΝΑ 29: ΤΟ ΜΗΝΥΜΑ ΤΗΣ ΕΦΑΡΜΟΓΗΣ ΣΤΗΝ ΠΕΡΙΠΤΩΣΗ ΜΗ ΕΓΚΡΙΣΗΣ ΑΝΕΙΟΥ Η ΠΕΡΙΠΤΩΣΗ ΧΟΡΗΓΗΣΗΣ ΤΡΑΠΕΖΙΚΩΝ ΑΝΕΙΩΝ IX

10 ΛΙΣΤΑ ΠΙΝΑΚΩΝ Λ Ι Σ Τ Α Π Ι Ν Α Κ Ω Ν ΠΙΝΑΚΑΣ 1: ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ ΤΟΥ ΠΙΝΑΚΑ CLIENT ΠΙΝΑΚΑΣ 2: ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ ΤΟΥ ΠΙΝΑΚΑ ACCOUNT ΠΙΝΑΚΑΣ 3: ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ ΤΟΥ ΠΙΝΑΚΑ LOAN ΠΙΝΑΚΑΣ 4: ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ ΤΟΥ ΠΙΝΑΚΑ CREDIT CARD ΠΙΝΑΚΑΣ 5: ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ ΤΟΥ ΠΙΝΑΚΑ DISPOSITION ΠΙΝΑΚΑΣ 6:ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ ΤΟΥ ΠΙΝΑΚΑ PERMANENT ORDER ΠΙΝΑΚΑΣ 7:ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ ΤΟΥ ΠΙΝΑΚΑ DEMOGRAPHIC DATA ΠΙΝΑΚΑΣ 8: ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ ΤΟΥ ΠΙΝΑΚΑ TRANSACTIONS ΠΙΝΑΚΑΣ 9: ΟΙ ΜΕΤΑΒΛΗΤΕΣ ΠΟΥ ΠΡΟΤΕΙΝΕΙ Ο BUSINESS INTELLIGENCE ΑΠΟ ΤΟΝ ΠΙΝΑΚΑ DEMOGRAPHIC DATA ΠΙΝΑΚΑΣ 10: ΣΥΣΧΕΤΙΣΗ ΤΗΣ ΜΕΤΑΒΛΗΤΗΣ «Α4= NO. OF INHABITANTS» ΜΕ ΤΙΣ «Α5= NO. OF MUNICIPALITIES WITH INHABITANTS < 499» ΚΑΙ «Α6= NO. OF MUNICIPALITIES WITH INHABITANTS » ΠΙΝΑΚΑΣ 11: ΟΙ ΜΕΤΑΒΛΗΤΕΣ ΠΟΥ ΧΡΗΣΙΜΟΠΟΙΟΥΝΤΑΙ ΣΤΑ ΜΟΝΤΕΛΑ ΠΙΝΑΚΑΣ 12: ΒΑΣΙΚΑ ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ ΤΩΝ ΑΝΕΞΑΡΤΗΤΩΝ ΜΕΤΑΒΛΗΤΩΝ ΠΙΝΑΚΑΣ 13: ΤΟ ΣΥΝΟΛΟ ΤΩΝ ΜΕΤΑΒΛΗΤΩΝ ΠΟΥ ΙΑΚΡΙΤΟΠΟΙΗΘΗΚΑΝ ΠΙΝΑΚΑΣ 14: ΟΙ ΜΕΘΟ ΟΙ ΚΑΙ ΤΑ ΧΑΡΑΚΤΗΡΙΣΤΙΚΑ ΠΟΥ ΧΡΗΣΙΜΟΠΟΙΗΘΗΚΑΝ ΠΙΝΑΚΑΣ 15: ΤΑ ΑΠΟΤΕΛΕΣΜΑΤΑ ΤΩΝ ΜΟΝΤΕΛΩΝ ΤΩΝ ΤΡΙΩΝ ΜΕΘΟ ΩΝ ΠΙΝΑΚΑΣ 16: Ο CLASSIFICATION MATRIX ΤΟΥ SQL SERVER BUSINESS INTELLIGENCE ΜΕ ΤΑ ΑΠΟΤΕΛΕΣΜΑΤΑ ΠΙΝΑΚΑΣ 17: ΣΥΓΚΕΝΤΡΩΤΙΚΑ ΑΠΟΤΕΛΕΣΜΑΤΑ Η ΠΕΡΙΠΤΩΣΗ ΧΟΡΗΓΗΣΗΣ ΤΡΑΠΕΖΙΚΩΝ ΑΝΕΙΩΝ X

11 ΚΕΦΑΛΑΙΟ 1: Εισαγωγή Κ Ε Φ Α Λ Α Ι Ο 1 : Ε Ι Σ Α Γ Ω Γ Η Η ΠΕΡΙΠΤΩΣΗ ΧΟΡΗΓΗΣΗΣ ΤΡΑΠΕΖΙΚΩΝ ΑΝΕΙΩΝ 11

12 ΚΕΦΑΛΑΙΟ 1: Εισαγωγή ΕΙΣΑΓΩΓΗ Η σηµερινή εποχή χαρακτηρίζεται από µία πρωτοφανή έκρηξη δεδοµένων, καθιστώντας επιτακτική την ανάγκη για επεξεργασία, ερµηνεία και αξιολόγηση αυτών των δεδοµένων. Κι αυτό γιατί ανάµεσα σε αυτόν τον όγκο δεδοµένων υπάρχουν κρυµµένες πληροφορίες, που πολλές φορές είναι στρατηγικής σηµασίας, η επεξεργασία των οποίων είναι αδύνατη από τον άνθρωπο χωρίς τη συνδροµή της τεχνολογίας. Η ανάγκη αυτή έχει προσελκύσει την προσοχή των ερευνητών από διάφορες περιοχές, όπως είναι η τεχνητή νοηµοσύνη, η στατιστική, οι αποθήκες δεδοµένων, τα έµπειρα συστήµατα και η οπτικοποίηση δεδοµένων, µε αποτέλεσµα να δηµιουργηθεί ένας νέος ερευνητικός τοµέας, γνωστός ως Εξόρυξη εδοµένων (Data Mining). Η εργασία αυτή υλοποιήθηκε προκειµένου να διερευνηθεί η σχέση µεταξύ της Εξόρυξης εδοµένων και της Λογιστικής-Χρηµατοοικονοµικής Ανάλυσης και να διαπιστωθεί κατά πόσο οι µέθοδοι Εξόρυξης εδοµένων µπορούν να αξιοποιήσουν λογιστικά-χρηµατοοικονοµικά δεδοµένα και να εξάγουν χρήσιµα συµπεράσµατα και γνώση. Στόχος της διπλωµατικής εργασίας είναι η παροχή ερευνητικών αποδείξεων και η εξαγωγή συµπερασµάτων σχετικά µε το πόσο αποτελεσµατική µπορεί να είναι η χρήση τεχνικών Εξόρυξης εδοµένων στη Λογιστική-Χρηµατοοικονοµική. Σε αυτά τα πλαίσια γίνεται µια προσπάθεια ανακάλυψης πολύτιµης γνώσης που κρύβεται πίσω από τα στοιχεία των πελατών µίας βάσης δεδοµένων ενός οµίλου τραπεζών του εξωτερικού. Συγκεκριµένα, µε τη χρήση εργαλείων εξόρυξης δεδοµένων επιδιώκεται η αντιµετώπιση ενός πραγµατικού προβλήµατος, της έγκαιρης, επιτυχούς και αξιόπιστης αξιολόγησης των πελατών ενός χρηµατοπιστωτικού ιδρύµατος κατά τη διαδικασία έγκρισης δανείου. Με αυτόν τον τρόπο επιχειρείται η ελαχιστοποίηση του κινδύνου αθέτησης των υποχρεώσεων των δανειζόµενων, η µείωση του ρίσκου που αναλαµβάνουν τα χρηµατοπιστωτικά ιδρύµατα από την χορήγηση δανείων και κατ επέκταση η αντιµετώπιση του πιστωτικού κινδύνου. Η παρούσα εργασία δοµείται σε κεφάλαια ως εξής: Στο Κεφάλαιο 1 αναφέρονται συνοπτικά κάποια γενικά εισαγωγικά στοιχεία για την εργασία και παρουσιάζεται η δοµή της. Η ΠΕΡΙΠΤΩΣΗ ΧΟΡΗΓΗΣΗΣ ΤΡΑΠΕΖΙΚΩΝ ΑΝΕΙΩΝ 12

13 ΚΕΦΑΛΑΙΟ 1: Εισαγωγή Στο Κεφάλαιο 2 εστιάζουµε στον κλάδο της εξόρυξης γνώσης και κατ επέκταση στην ανακάλυψη γνώσης. Αρχικά, αναλύουµε τη σχέση της εξόρυξης δεδοµένων και της ανακάλυψης γνώσης και έπειτα εστιάζουµε στη διαδικασία ανακάλυψης γνώσης αναλύοντας τα στάδια της διαδικασίας που ακολουθείται. Σηµαντικό κοµµάτι αυτής της διαδικασίας είναι η εξόρυξη δεδοµένων, γι αυτό και επικεντρωνόµαστε στα στάδια της εξόρυξης δεδοµένων καθώς και στις µεθόδους της τεχνικής αυτής. Ιδιαίτερη αναφορά γίνεται για την ταξινόµηση, αναλύοντας τις πιο σηµαντικές µεθόδους της ταξινόµησης, οι οποίες χρησιµοποιήθηκαν και στα πλαίσια της έρευνας που πραγµατοποιήσαµε µε πραγµατικά δεδοµένα ενός οµίλου τραπεζών του εξωτερικού που είχαµε στη διάθεσή µας. Στη συνέχεια αναφέρουµε τα προβλήµατα που προκύπτουν στη διαδικασία εξόρυξης γνώσης, ενώ στο τέλος του κεφαλαίου παραθέτουµε παραδείγµατα εφαρµογών της ανακάλυψης γνώσης σε διάφορους τοµείς. Στο Κεφάλαιο 3 επικεντρωνόµαστε πια στην εξόρυξη γνώσης στη λογιστικήχρηµατοοικονοµική παραθέτοντας την εκτενή ανασκόπηση της σχετικής βιβλιογραφίας. Συγκεκριµένα, έπειτα από συστηµατική µελέτη ειδικών επιστηµονικών ερευνών, αναλύουµε παραδείγµατα και εφαρµογές της εξόρυξης γνώσης σε διάφορους τοµείς της λογιστικής-χρηµατοοικονοµικής. Στη συνέχεια του κεφαλαίου παρουσιάζουµε τα πιο δηµοφιλή λογισµικά εξόρυξης γνώσης από λογιστικά δεδοµένα, εξετάζοντας το κάθε ένα από αυτά χωριστά. Στο Κεφάλαιο 4 αναλύεται το πλαίσιο της έρευνας στο οποίο πραγµατοποιήθηκε η διπλωµατική εργασία. Αρχικά, οριοθετείται το πρόβληµα που υπάρχει, το οποίο αποτέλεσε και την αφορµή για την πραγµατοποίηση της παρούσας διπλωµατικής εργασίας. Στη συνέχεια του κεφαλαίου γίνεται η περιγραφή των δεδοµένων που έχουµε στη διάθεσή µας και της βάσης δεδοµένων που θα χρησιµοποιήσουµε για την εξόρυξη δεδοµένων. Έπειτα αναλύεται η εφαρµογή των σταδίων της διαδικασίας ανακάλυψης γνώσης που ακολουθήθηκε, έτσι όπως περιγράφτηκαν σε θεωρητικό επίπεδο στο κεφάλαιο 2. Συγκεκριµένα, αναλύονται εκτενώς το στάδιο της επιλογής δεδοµένων, της προεπεξεργασίας δεδοµένων, του µετασχηµατισµού δεδοµένων και της εξόρυξης δεδοµένων, ενώ στο τέλος του κεφαλαίου παρουσιάζονται, ερµηνεύονται και αξιολογούνται τα αποτελέσµατα που προέκυψαν από την εξόρυξη δεδοµένων. Η ΠΕΡΙΠΤΩΣΗ ΧΟΡΗΓΗΣΗΣ ΤΡΑΠΕΖΙΚΩΝ ΑΝΕΙΩΝ 13

14 ΚΕΦΑΛΑΙΟ 1: Εισαγωγή Στο Κεφάλαιο 5 παρουσιάζεται η εφαρµογή που υλοποιήθηκε για τη χορήγηση τραπεζικών δανείων. Στο Κεφάλαιο 6 παρουσιάζονται τα συµπεράσµατα της έρευνας που πραγµατοποιήθηκε και προτείνονται κάποιες κατευθύνσεις για περαιτέρω έρευνα. Στο Παράρτηµα I παρουσιάζονται αλφαβητικά η βιβλιογραφία και οι δικτυακοί τόποι που αναφέρονται στην εργασία. Στο Παράρτηµα IΙ παρουσιάζονται τα ακρώνυµα τα οποία χρησιµοποιούνται σε αυτήν την εργασία για τη διευκόλυνση του αναγνώστη. Στο Παράρτηµα IIΙ παρουσιάζεται το γλωσσάριο ξενικών όρων οι οποίοι χρησιµοποιούνται σε αυτήν την εργασία για τη διευκόλυνση του αναγνώστη. Η ΠΕΡΙΠΤΩΣΗ ΧΟΡΗΓΗΣΗΣ ΤΡΑΠΕΖΙΚΩΝ ΑΝΕΙΩΝ 14

15 ΚΕΦΑΛΑΙΟ 2: Εξόρυξη Γνώσης Κ Ε Φ Α Λ Α Ι Ο 2 : Ε Ξ Ο Ρ Υ Ξ Η Γ Ν Ω Σ Η Σ Η ΠΕΡΙΠΤΩΣΗ ΧΟΡΗΓΗΣΗΣ ΤΡΑΠΕΖΙΚΩΝ ΑΝΕΙΩΝ 15

16 ΚΕΦΑΛΑΙΟ 2: Εξόρυξη Γνώσης ΕΞΟΡΥΞΗ ΓΝΩΣΗΣ Η κοινωνία της πληροφορίας στην οποία ζούµε χαρακτηρίζεται από τεράστιο όγκο ποικίλων και πολύπλοκων δεδοµένων, η διαχείριση των οποίων δεν είναι πλέον εφικτή µε τους µέχρι τώρα παραδοσιακούς τρόπους. Έτσι, ερευνητές διαφόρων επιστηµονικών κλάδων, στα πλαίσια της διαρκούς προσπάθειας για εύρεση δυναµικών και όλο και πιο αποτελεσµατικών εργαλείων διαχείρισης, πολλών και διαφορετικής φύσης, δεδοµένων, επιχείρησαν να ενώσουν τα αντικείµενα του ενδιαφέροντός τους. Αποτέλεσµα της συνεργασίας αυτής ήταν η εφαρµογή διαφόρων επιστηµονικών κλάδων στο πεδίο της Εξόρυξης εδοµένων, µε τη χρήση µεθοδολογιών και αλγορίθµων Ανακάλυψης Γνώσης. 2.1 ΕΞΟΡΥΞΗ Ε ΟΜΕΝΩΝ ΚΑΙ ΑΝΑΚΑΛΥΨΗ ΓΝΩΣΗΣ Σύµφωνα µε τους Tan et al (2005), η Εξόρυξη εδοµένων χρησιµοποιεί έννοιες όπως δειγµατοληψία, εκτίµηση και έλεγχος υποθέσεων από τη Στατιστική, καθώς και εφαρµογές όπως αναζήτηση αλγορίθµων, τεχνικές δηµιουργίας υποδειγµάτων, θεωρίες τεχνητής νοηµοσύνης, αναγνώρισης προτύπων και µηχανικής εκµάθησης. Επιπλέον, υπάρχουν αρκετοί άλλοι τοµείς των επιστηµών που στήριξαν την πρόοδο της Εξόρυξης εδοµένων, όπως για παράδειγµα, η τεχνολογία των βάσεων δεδοµένων. Τέλος, τεχνικές υψηλής απόδοσης από υπολογιστικής πλευράς και σχετικές µε την ταξινόµηση παρέχουν βοήθεια σε σχέση µε τη διαχείριση του µεγέθους και της συλλογής των τεράστιων συνόλων δεδοµένων. Φυσικά, όλη αυτή η διαδικασία έχει νόηµα εφόσον η µετατροπή των δεδοµένων σε πληροφορία οδηγεί στη µετατροπή της πληροφορίας σε γνώση, όταν δηλαδή προκύπτει σαν αποτέλεσµα η ανακάλυψη γνώσης. Στο σηµείο αυτό θα πρέπει να επισηµάνουµε ότι ο όρος «εξόρυξη δεδοµένων» (Data Mining) δεν ταυτίζεται µε τον όρο «ανακάλυψη γνώσης σε βάσεις δεδοµένων» (Knowledge Discovery in Databases - KDD). Πολλές φορές οι δύο όροι λανθασµένα συγχέονται, γι αυτό κρίνεται σκόπιµο να τους διευκρινίσουµε. Η ανακάλυψη γνώσης σε βάσεις δεδοµένων (KDD) αναφέρεται σε ένα σύνολο βηµάτων, ενώ η εξόρυξη δεδοµένων αποτελεί ένα από τα βήµατα αυτής της διαδικασίας. Για να γίνει πιο σαφής η διάκριση των δύο εννοιών παρατίθενται οι ορισµοί σύµφωνα µε τους Fayyad et al (1996). Η ΠΕΡΙΠΤΩΣΗ ΧΟΡΗΓΗΣΗΣ ΤΡΑΠΕΖΙΚΩΝ ΑΝΕΙΩΝ 16

17 ΚΕΦΑΛΑΙΟ 2: Εξόρυξη Γνώσης Η ανακάλυψη γνώσης σε βάσεις δεδοµένων είναι µία ντετερµινιστική διαδικασία αναγνώρισης έγκυρων, καινοτόµων, ενδεχοµένως χρήσιµων και εν τέλει κατανοητών προτύπων στα δεδοµένα. Παρακάτω εξετάζονται αναλυτικότερα οι όροι που εµφανίζονται στον ορισµό: εδοµένα: Οντότητες ή συσχετίσεις του πραγµατικού κόσµου (π.χ. εγγραφές συναλλαγών τραπέζης, supermarket κλπ). Πρότυπο: Έκφραση σε µία γλώσσα, που χαρακτηρίζει ένα υποσύνολο των δεδοµένων (π.χ. ένας κανόνας). Εγκυρότητα: Το πρότυπο είναι συνεπές σε νέα δεδοµένα. Πιθανή χρησιµότητα: Να µπορεί να χρησιµοποιηθεί για κάποιο σκοπό (π.χ. λήψη αποφάσεων). Τελικά κατανοητό: Κατανοητό, ώστε να είναι χρήσιµο. Η εξόρυξη δεδοµένων αποτελεί ένα στάδιο της διαδικασίας ανακάλυψης γνώσης σε βάσεις δεδοµένων. Συνήθως, περιλαµβάνει την επαναλαµβανόµενη εφαρµογή ειδικών και εξειδικευµένων αλγορίθµων εξόρυξης και κάτω από αποδεκτούς περιορισµούς υπολογιστικής αποδοτικότητας, παράγει µια συγκεκριµένη απαρίθµηση προτύπων στα δεδοµένα. Ενδιαφέρεται κυρίως για τις µεθοδολογίες και τεχνικές εξαγωγής προτύπων ή περιγραφές δεδοµένων από µεγάλες ποσότητες δεδοµένων. Ο µεγάλος όγκος αυτών των δεδοµένων είναι αποθηκευµένος σε βάσεις δεδοµένων, αποθήκες δεδοµένων, το διαδίκτυο ή άλλες περιοχές αποθήκευσης πληροφορίας. 2.2 ΙΑ ΙΚΑΣΙΑ ΑΝΑΚΑΛΥΨΗΣ ΓΝΩΣΗΣ Η ανακάλυψη γνώσης (KDD) είναι µία αυτοµατοποιηµένη διαδικασία, µέσω της οποίας γίνεται προσπάθεια διερευνητικής ανάλυσης και µοντελοποίησης τεράστιων αποθηκών δεδοµένων. Πρόκειται για µια συγκροτηµένη µεθοδολογία αναγνώρισης έγκυρων και πρωτότυπων προτύπων µέσα από πολύ µεγάλους και περίπλοκους πίνακες δεδοµένων, µε στόχο τα πρότυπα που θα προκύψουν να είναι χρήσιµα και κατανοητά (Σταυλιώτης, 2009). Η ΠΕΡΙΠΤΩΣΗ ΧΟΡΗΓΗΣΗΣ ΤΡΑΠΕΖΙΚΩΝ ΑΝΕΙΩΝ 17

18 ΚΕΦΑΛΑΙΟ 2: Εξόρυξη Γνώσης Αναφέρθηκε ήδη στην προηγούµενη ενότητα ο γενικός ορισµός της διαδικασίας KDD. Η ονοµασία αυτή της KDD χρησιµοποιείται από το 1989, όταν πραγµατοποιήθηκε και το πρώτο συνέδριο KDD, µε στόχο να φανεί ότι η γνώση είναι το τελικό προϊόν µιας ανακάλυψης καθοδηγούµενης από τα δεδοµένα (Piatetsky- Shapiro, 1991). Θα πρέπει να επισηµάνουµε ότι αυτή η σύνθετη διαδικασία της ανακάλυψης γνώσης από βάσεις δεδοµένων εξαρτάται άµεσα από το είδος των δεδοµένων που διατίθενται προς εξόρυξη. Οι Han et al (2001) διακρίνουν τα παρακάτω είδη: Σχεσιακές βάσεις δεδοµένων (relational databases) Αποθήκες δεδοµένων (data warehouses) Βάσεις δεδοµένων συναλλαγών (transactional databases) Αντικειµενοστρεφείς βάσεις δεδοµένων (object-oriented databases) Αντικειµενοσχεσιακές βάσεις δεδοµένων (object-relational databases) Χωρικές βάσεις δεδοµένων (spatial databases) Χρονικές βάσεις δεδοµένων (temporal and time series databases) Βάσεις δεδοµένων πολυµέσων και κειµένων (multimedia and text databases) Ετερογενείς και ιστορικές βάσεις δεδοµένων (heterogeneous and legacy databases) εδοµένα του παγκόσµιου ιστού (World Wide Web) Η KDD είναι θα λέγαµε µία αλληλεπιδραστική και επαναληπτική διαδικασία, η οποία περιλαµβάνει πολλά βήµατα, καθώς και πολλές αποφάσεις που πρέπει να ληφθούν από το χρήστη. Αφετηρία της είναι η κατανόηση του τοµέα στον οποίο θα εφαρµοστεί και ο προσδιορισµός του στόχου της. Επίσης, κρίνεται αναγκαίο ο ειδικός επί των θεµάτων ανακάλυψης γνώσης να συνεργαστεί µε τον ειδικό του τοµέα, ώστε το πρόβληµα να καθοριστεί µε αρκετή ακρίβεια, τα αποτελέσµατα να είναι µετρήσιµα και να είναι δυνατή η εφαρµογή τους. Τα επιµέρους στάδια της διαδικασίας ανακάλυψης γνώσης, απεικονίζονται στην Εικόνα 1, ενώ περιγράφονται αναλυτικότερα στη συνέχεια (Βλαχάβας et al, 2005). Η ΠΕΡΙΠΤΩΣΗ ΧΟΡΗΓΗΣΗΣ ΤΡΑΠΕΖΙΚΩΝ ΑΝΕΙΩΝ 18

19 ΚΕΦΑΛΑΙΟ 2: Εξόρυξη Γνώσης Επιλογή Καθαρισµός και Μετασχηµατισµός Εξόρυξη προ-επεξεργασία γνώσης Ερµηνεία - Αξιολόγηση... εδοµένα Επιλεγµένο Υποσύνολο Προεπεξεργασµένα εδοµένα Μετασχηµατισµένα εδοµένα Πρότυπα Γνώση Εικόνα 1: Τα βασικά στάδια στη διαδικασίας Ανακάλυψης Γνώσης (Πηγή: Βλαχάβας et al, 2005) Επιλογή Υπάρχουν διαφορετικά είδη αποθηκευµένης πληροφορίας που µπορούν να χρησιµοποιηθούν στην εξόρυξη γνώσης. Αφού κατανοηθεί το πεδίο εφαρµογής, ακολουθεί η οργάνωση και η φάση της επιλογής, που αφορά τη δηµιουργία ενός συνόλου δεδοµένων (data set) πάνω στο οποίο θα εφαρµοστούν οι αλγόριθµοι ανακάλυψης γνώσης. Στο συγκεκριµένο βήµα πραγµατοποιείται προσδιορισµός του συνόλου δεδοµένων (µεταβλητές, δείγµατα δεδοµένων) και των σχετικών γνωρισµάτων που µας ενδιαφέρουν. Καθαρισµός και προεπεξεργασία Πολλές φορές, όταν τα δεδοµένα δε συγκεντρώνονται οργανωµένα, είναι δυνατό να υπάρξουν αρκετά προβλήµατα. Αυτό το βήµα περιλαµβάνει βασικές διαδικασίες, όπως η αφαίρεση του θορύβου ή των παράτυπων παρατηρήσεων, η απόφαση σχετικά µε τη διαχείριση των ελλιπών τιµών κ.ά. Η προεπεξεργασία των δεδοµένων καταναλώνει πολύ χρόνο και απαιτεί ιδιαίτερη προσοχή γιατί στοιχεία που πιθανόν αρχικά να θεωρηθούν θόρυβος, ενδέχεται στη συνέχεια να αποδειχθούν πολύ σηµαντικά. Η ΠΕΡΙΠΤΩΣΗ ΧΟΡΗΓΗΣΗΣ ΤΡΑΠΕΖΙΚΩΝ ΑΝΕΙΩΝ 19

20 ΚΕΦΑΛΑΙΟ 2: Εξόρυξη Γνώσης Μετασχηµατισµός Στο στάδιο αυτό τα δεδοµένα µετατρέπονται σε κατάλληλη µορφή για το επόµενο στάδιο της εξόρυξης. Ο µετασχηµατισµός των δεδοµένων µπορεί να περιλαµβάνει µεθόδους µείωσης των διαστάσεων ή του αριθµού των υπό εξέταση µεταβλητών, την οµοιόµορφη ενοποίηση της πληροφορίας και διακριτοποίηση. ιακριτοποίηση είναι η διαδικασία µετασχηµατισµού ενός χαρακτηριστικού που παίρνει (συνεχείς) αριθµητικές τιµές, σε ένα πεπερασµένο σύνολο διακριτών διαστηµάτων. Η διαδικασία αυτή απαιτείται είτε γιατί ο αλγόριθµος δεν µπορεί να χειριστεί αριθµητικά δεδοµένα είτε γιατί δεν τα χειρίζεται σε ικανοποιητικό βαθµό. Εξόρυξη γνώσης Στο στάδιο αυτό καθορίζονται οι στόχοι της διαδικασίας KDD και οι µέθοδοι που θα χρησιµοποιηθούν για την επίτευξή τους. Αυτό περιλαµβάνει την επιλογή του κατάλληλου µοντέλου των παραµέτρων και των καταλληλότερων αλγορίθµων που θα χρησιµοποιηθούν. Πρόκειται για το κυρίως υπολογιστικό κοµµάτι, στο οποίο γίνεται ουσιαστική ανακάλυψη γνώσης από δεδοµένα. Ερµηνεία και Αξιολόγηση Η γνώση που προκύπτει µπορεί να µην παρουσιάζει κάτι νέο ή ενδιαφέρον. Στο στάδιο αυτό γίνεται ερµηνεία και αξιολόγησή της βάσει κάποιων µέτρων. Στη διαδικασία αυτή συµβάλλουν οι γραφικές παραστάσεις των αποτελεσµάτων ή ακόµη και των ίδιων των δεδοµένων. Πολλές φορές, η KDD διαδικασία µπορεί να περιλαµβάνει πολλές επαναλήψεις και βρόγχους µεταξύ οποιονδήποτε από τα παραπάνω βήµατα (Βαζιργιάννης et al, 2003) 2.3 Η ΤΕΧΝΙΚΗ DATA MINING Η διαδικασία Data Mining (DM), αποδίδεται στα ελληνικά µε τον όρο «Εξόρυξη εδοµένων» και συνίσταται σε µία σειρά από τεχνικές που βασίζονται σε ανάπτυξη αλγορίθµων και είναι χρήσιµες σε πολλούς και διαφορετικούς κλάδους όπως η Η ΠΕΡΙΠΤΩΣΗ ΧΟΡΗΓΗΣΗΣ ΤΡΑΠΕΖΙΚΩΝ ΑΝΕΙΩΝ 20

21 ΚΕΦΑΛΑΙΟ 2: Εξόρυξη Γνώσης οικονοµία, η δηµογραφία, η µετεωρολογία, η γεωλογία, η βιοστατιστική, η ιατρική, το µάρκετινγκ και πολλοί άλλοι. Ένας από τους ορισµούς του Data Mining στη βιβλιογραφία είναι ο ακόλουθος : «Εξόρυξη εδοµένων είναι η σύνθετη διαδικασία εξαγωγής συγκεκριµένης, προηγουµένως άγνωστης και δυνητικά ωφέλιµης, γνώσης από δεδοµένα» (Τσακαλίδης et al, 2003). Προσεγγίζοντας τον ορισµό από τη σκοπιά της διαχείρισης επιχειρηµατικών πόρων (Enterprise resource planning -ERP), «το Data Mining θεωρείται ως η στατιστική και λογική ανάλυση εκτεταµένων συνόλων από δεδοµένα συναλλαγών και εργασιών για τον εντοπισµό επαναλαµβανόµενων µοτίβων ή τάσεων που µπορούν να βοηθήσουν στη λήψη αποφάσεων» (Fayyad et al, 1996). Κατόπιν εκτενούς ανασκόπησης της βιβλιογραφίας διαπιστώθηκε πως έχουν δοθεί πολλοί ορισµοί και πως υπάρχουν αντικρουόµενες απόψεις γύρω από το ποιος θα µπορούσε να είναι ένας σαφής και περιεκτικός ορισµός για την Εξόρυξη εδοµένων. Ωστόσο, ένας αξιόλογος ορισµός σύµφωνα µε τους Hand et al (2001) είναι ο εξής: «Εξόρυξη εδοµένων είναι η ανάλυση (συχνά µεγάλων) παρατηρούµενων συνόλων δεδοµένων, έτσι ώστε να βρεθούν µη παρατηρηθείσες σχέσεις και να συνοψιστούν τα δεδοµένα µε νέους τρόπους οι οποίοι να είναι κατανοητοί και χρήσιµοι στον κάτοχο των δεδοµένων». Ο παραπάνω ορισµός, αναφέρεται σε παρατηρούµενα δεδοµένα ακριβώς για να τονίσει τη διαφορά της Εξόρυξης εδοµένων µε την κλασική στατιστική και τα πειραµατικά δεδοµένα. Τα δεδοµένα σε µια εφαρµογή Εξόρυξης εδοµένων προέρχονται από την απλή καταγραφή ιδιοτήτων και όχι από την προσεκτική επιλογή τους µέσω ενός πειράµατος. Συχνά, ο στόχος αυτής της συλλογής των δεδοµένων είναι άλλος από αυτόν της ανάλυσής τους, όπως τα δεδοµένα δανεισµού από µια πανεπιστηµιακή βιβλιοθήκη, τα οποία διατηρούνται για να µπορεί να έχει η βιβλιοθήκη ένα αρχείο µε την τρέχουσα κατάσταση των βιβλίων της. Εποµένως, η συλλογή των δεδοµένων ενδέχεται να µη διέπεται από µια στρατηγική και η καταγραφή τους να έγινε επειδή αυτά τα στοιχεία ήταν ευκολότερο να καταγραφούν ή ακόµη η επιλογή της καταγραφής τους να έγινε τυχαία. Γενικά, ο όρος Data Mining αναφέρεται σε υψηλού επιπέδου εφαρµογές, µεθόδους και παρόµοια εργαλεία, που χρησιµοποιούνται για να παρουσιάσουν και να αναλύσουν δεδοµένα σε πεδία λήψης αποφάσεων. Η βασική ιδέα πίσω από τον όρο Data Mining είναι η ανεύρεση εκείνης της µη µηδενικής λύσης η οποία δίνει τη Η ΠΕΡΙΠΤΩΣΗ ΧΟΡΗΓΗΣΗΣ ΤΡΑΠΕΖΙΚΩΝ ΑΝΕΙΩΝ 21

22 ΚΕΦΑΛΑΙΟ 2: Εξόρυξη Γνώσης δυνατότητα εξαγωγής χρήσιµων και ουσιαστικών κανόνων σε δεδοµένα (Fayyad et al, 1996). Η όλη διαδικασία βασίζεται στη χρησιµοποίηση αλγορίθµων οι οποίοι αναζητούν κανόνες µεταξύ των µεταβλητών των δεδοµένων, και έπειτα καταχωρούν τα δεδοµένα σε νέες βάσεις δεδοµένων. Από τεχνική σκοπιά οι αλγόριθµοι αυτοί είναι τα συστατικά της διαδικασίας, η οποία βρίσκει συσχετισµούς ή κανόνες µέσα από τεράστιες βάσεις αποθηκευµένων δεδοµένων. Oι περισσότεροι αλγόριθµοι και τεχνικές που χρησιµοποιούνται προέρχονται από διάφορα πεδία επιστηµών, όπως για παράδειγµα της Μηχανικής Μάθησης, της Αναγνώρισης Κανόνων, των Βάσεων εδοµένων, της Στατιστικής, της Τεχνητής Νοηµοσύνης και των Έµπειρων Συστηµάτων. Η βάση όλων των παραπάνω είναι η απόσπαση κανόνων που περιέχουν γνώση, µέσα από πλήθος δεδοµένων. Αξίζει να αναφέρουµε ότι η διαδικασία Data Mining αναφέρεται συχνά και ως Πληροφοριακή Τεχνολογία (Computerized Technology), η οποία χρησιµοποιεί πολύπλοκους αλγόριθµους που δηµιουργούν κανόνες και σχέσεις µέσα σε τεράστιες βάσεις δεδοµένων, αναλύοντάς τες, µε σκοπό τη λήψη στρατηγικών αποφάσεων. Οι κυριότεροι στόχοι των τεχνικών Data Mining είναι η Πρόβλεψη (Prediction) και η Περιγραφή (Description) (Fayyad et al, 1996). Η Πρόβλεψη, που αποτελεί και το σηµαντικότερο είδος DM, χρησιµοποιεί υπάρχουσες µεταβλητές στις βάσεις δεδοµένων ώστε να προβλέπει άγνωστες ή µελλοντικές αξίες ενδιαφέροντος. Από την άλλη µεριά, η Περιγραφή επικεντρώνεται στο να βρίσκει κανόνες περιγράφοντας δεδοµένα (Mercer, 2003). 2.4 ΤΑ ΣΤΑ ΙΑ ΤΗΣ ΙΑ ΙΚΑΣΙΑΣ DATA MINING Για την επιτυχή διεκπεραίωση της διαδικασίας Εξόρυξης Γνώσης απαιτείται η εκτέλεση µιας σειράς βηµάτων. Στη συνέχεια θα παραθέσουµε και θα αναλύσουµε τα βήµατα τα οποία ακολουθούνται για τη διαδικασία Εξόρυξης δεδοµένων (Fayyad et al, 1996): 1. Αναζήτηση και Εξερεύνηση των δεδοµένων Το πρώτο στάδιο περιλαµβάνει την προετοιµασία των δεδοµένων, µιας και οι βάσεις δεδοµένων που διαχειρίζονται πραγµατικά δεδοµένα είναι ευαίσθητες σε θόρυβο, Η ΠΕΡΙΠΤΩΣΗ ΧΟΡΗΓΗΣΗΣ ΤΡΑΠΕΖΙΚΩΝ ΑΝΕΙΩΝ 22

23 ΚΕΦΑΛΑΙΟ 2: Εξόρυξη Γνώσης έχουν ασυνεπή δεδοµένα και πολλές φορές ελλιπή στοιχεία. Γι αυτό και τις περισσότερες φορές κρίνεται απαραίτητο τα δεδοµένα να υφίστανται κάποια επεξεργασία πριν την προσπάθεια εξόρυξης χρήσιµων αποτελεσµάτων, µε στόχο τη συνεισφορά στη βελτίωση της ποιότητας των διαθέσιµων δεδοµένων, στα οποία επιθυµούµε να εφαρµόσουµε µεθόδους Εξόρυξης εδοµένων (Han et al, 2001). Στα πλαίσια αυτής της επεξεργασίας πραγµατοποιείται συνήθως καθαρισµός από πιθανούς θορύβους που υπάρχουν µέσα στα δεδοµένα καθώς και µετασχηµατισµός αυτών. Έπειτα, επιλέγονται τα κατάλληλα υποσύνολα των εγγραφών και καθορίζονται οµάδες δεδοµένων µε µεγάλους αριθµούς µεταβλητών και πεδίων, διεξάγοντας µία επιλογή χαρακτηριστικών. Ανάλογα µε τη φύση του προβλήµατος αυτό το στάδιο µπορεί να περιλαµβάνει µία απλή επιλογή από µεθόδους πρόβλεψης για ένα µοντέλο ανάλυσης, ώστε να βγάλει κάποια συµπεράσµατα χρησιµοποιώντας µία µεγάλη ποικιλία από στατιστικές µεθόδους. Με αυτόν τον τρόπο γίνεται αναγνώριση των πιο σχετικών µεταβλητών και εξαλείφεται η πολυπλοκότητα από το επόµενο στάδιο της διαδικασίας. 2. ηµιουργία του κατάλληλου µοντέλου πρόβλεψης Στο στάδιο αυτό πραγµατοποιείται η επεξεργασία πολλών και ποικίλων µοντέλων και επιλέγεται εκείνο που βασίζεται στη βέλτιστη απόδοση της πρόβλεψης. Μπορεί να φαίνεται ότι πρόκειται για κάτι απλό, ωστόσο υπάρχουν φορές που αποτελεί µία πολύπλοκη και δύσκολη διαδικασία. Στόχος µας είναι να µπορούµε, µε το ίδιο σύνολο δεδοµένων, να χρησιµοποιήσουµε διαφορετικά µοντέλα, ώστε να καθίσταται δυνατή η σύγκριση της απόδοσης. Έτσι, έχουµε µια πιο ολοκληρωµένη εικόνα και µπορούµε να επιλέγουµε κάθε φορά την καλύτερη δυνατή µέθοδο. 3. Ανάπτυξη Έχοντας επιλέξει στο προηγούµενο βήµα το καλύτερο µοντέλο, σε αυτό το στάδιο της διαδικασίας χρησιµοποιούµε το µοντέλο που επιλέχθηκε και το εφαρµόζουµε σε νέα δεδοµένα, ώστε να παράγει προβλέψεις ή να εκτιµήσει το νέο αποτέλεσµα, εξάγοντας στην ουσία νέους κανόνες. Η ΠΕΡΙΠΤΩΣΗ ΧΟΡΗΓΗΣΗΣ ΤΡΑΠΕΖΙΚΩΝ ΑΝΕΙΩΝ 23

24 ΚΕΦΑΛΑΙΟ 2: Εξόρυξη Γνώσης 2.5 ΜΕΘΟ ΟΙ ΤΗΣ TΕΧΝΙΚΗΣ DATA MINING Ο όρος µέθοδοι της εξόρυξης δεδοµένων αντιπροσωπεύει ένα µεγάλο αριθµό από αλγορίθµους, µοντέλα και τεχνικές που προέρχονται από το συνδυασµό της στατιστικής, της µηχανικής µάθησης, των βάσεων δεδοµένων και της οπτικοποίησης. Οι τεχνικές αυτές χρησιµοποιούνται ανάλογα µε τη φύση του προβλήµατος και διακρίνονται σε δύο βασικές κατηγορίες, στη µάθηση µε επίβλεψη και στη µάθηση χωρίς επίβλεψη (Βλαχάβας et al, 2005). Μάθηση µε επίβλεψη Στη µάθηση µε επίβλεψη το σύστηµα καλείται να «µάθει» µια έννοια ή συνάρτηση από ένα σύνολο δεδοµένων, η οποία αποτελεί περιγραφή ενός µοντέλου. Ονοµάζεται έτσι επειδή θεωρείται ότι υπάρχει κάποιος «επιβλέπων», ο οποίος παρέχει τη σωστή τιµή εξόδου της συνάρτησης, για τα δεδοµένα που εξετάζονται. Η συνάρτηση που καλείται να «µάθει» επαγωγικά το σύστηµα ονοµάζεται συνάρτηση στόχος (target function) και αποτελεί έκφραση του µοντέλου που περιγράφει τα δεδοµένα. Η συνάρτηση στόχος χρησιµοποιείται για την πρόβλεψη της τιµής µιας µεταβλητής, που ονοµάζεται εξαρτηµένη µεταβλητή, βάσει των τιµών ενός συνόλου µεταβλητών, που ονοµάζονται ανεξάρτητες µεταβλητές ή χαρακτηριστικά. Το σύνολο των διαφορετικών δυνατών τιµών εισόδου της συνάρτησης, δηλαδή το πεδίο ορισµού της, ονοµάζεται σύνολο των περιπτώσεων ή στιγµιοτύπων. Κάθε περίπτωση περιγράφεται από ένα σύνολο χαρακτηριστικών. Ένα υποσύνολο του συνόλου των περιπτώσεων για τα οποία γνωρίζουµε την τιµή της εξαρτηµένης µεταβλητής, ονοµάζεται σύνολο δεδοµένων εκπαίδευσης. Στη µάθηση µε επίβλεψη διακρίνονται δύο είδη προβληµάτων, τα προβλήµατα ταξινόµησης και τα προβλήµατα παλινδρόµησης. Η ταξινόµηση (classification) αφορά στη δηµιουργία µοντέλων πρόβλεψης διακριτών τάξεων, ενώ η παλινδρόµηση (regression) αφορά στη δηµιουργία µοντέλων πρόβλεψης αριθµητικών τιµών. Οι κυριότερες τεχνικές µηχανικής µάθησης µε επίβλεψη είναι τα δέντρα ταξινόµησης ή απόφασης, τα νευρωνικά δίκτυα, η γραµµική παρεµβολή, η µάθηση κανόνων, και η µάθηση κατά Bayes. Η ΠΕΡΙΠΤΩΣΗ ΧΟΡΗΓΗΣΗΣ ΤΡΑΠΕΖΙΚΩΝ ΑΝΕΙΩΝ 24

25 ΚΕΦΑΛΑΙΟ 2: Εξόρυξη Γνώσης Μάθηση χωρίς επίβλεψη Αντιθέτως, στη µάθηση χωρίς επίβλεψη το σύστηµα πρέπει µόνο του να ανακαλύψει συσχετίσεις ή οµάδες σε ένα σύνολο δεδοµένων, δηµιουργώντας πρότυπα, χωρίς να είναι γνωστό αν υπάρχουν, πόσα είναι και ποια είναι. Εποµένως το σύστηµα έχει ως στόχο να ανακαλύψει συσχετίσεις από τα δεδοµένα, βασιζόµενο µόνο στις ιδιότητές τους. Σαν αποτέλεσµα προκύπτουν πρότυπα (περιγραφές), κάθε ένα από τα οποία περιγράφει ένα µέρος από τα δεδοµένα. Παραδείγµατα προτύπων πληροφόρησης είναι οι κανόνες συσχέτισης (association rules) και οι οµάδες (clusters), οι οποίες προκύπτουν από τη διαδικασία της οµαδοποίησης (clustering). Αρκετές από τις µεθόδους που ανήκουν στις δύο παραπάνω κατηγορίες έχουν εφαρµοστεί για την εξέταση οικονοµικών στοιχείων. Στη συνέχεια θα αναλύσουµε τη µέθοδο της ταξινόµησης, της οµαδοποίησης και της συσχέτισης που είναι και οι πιο δηµοφιλείς Ταξινόµηση (Classification) Η Ταξινόµηση είναι µία ιδιαίτερα αποτελεσµατική και δηµοφιλής µέθοδος µάθησης µε επίβλεψη. Βασίζεται κατά κύριο λόγο στην εξέταση των χαρακτηριστικών ενός αντικειµένου, σύµφωνα µε τα οποία κατηγοριοποιείται σε ένα προκαθορισµένο σύνολο κλάσεων. Η βασική εργασία της ταξινόµησης είναι η δηµιουργία ενός µοντέλου το οποίο θα χρησιµοποιείται για να κατηγοριοποιεί δεδοµένα που δεν έχουµε ήδη κατηγοριοποιήσει. Στις περισσότερες περιπτώσεις υπάρχει ένας περιορισµένος αριθµός προκαθορισµένων κατηγοριών και στόχος είναι η ανάθεση κάθε αντικειµένου στην κατάλληλη κατηγορία. Οι αλγόριθµοι ταξινόµησης εφαρµόζονται δηλαδή σε δεδοµένα τα οποία έχουν προταξινοµηθεί σε συγκεκριµένες κλάσεις µε στόχο την εξαγωγή κανόνων οι οποίοι αργότερα µπορεί να χρησιµοποιηθούν για ταξινόµηση νέων δεδοµένων στις ίδιες κλάσεις. Ένα σύνολο εξαγόµενων κανόνων ονοµάζεται ταξινοµητής (classifier). Η ταξινόµηση είναι µία διαδικασία, η οποία αρχικά χρειάζεται ένα σύνολο δεδοµένων εκπαίδευσης ώστε να µπορέσει να αναγνωρίσει τα ιδιαίτερα χαρακτηριστικά κάθε κλάσης και έπειτα να ταξινοµήσει τα νέα αντικείµενα µε βάση τις τιµές τους στα συγκεκριµένα χαρακτηριστικά. Η ΠΕΡΙΠΤΩΣΗ ΧΟΡΗΓΗΣΗΣ ΤΡΑΠΕΖΙΚΩΝ ΑΝΕΙΩΝ 25

26 ΚΕΦΑΛΑΙΟ 2: Εξόρυξη Γνώσης Ουσιαστικά σε έναν αλγόριθµο ταξινόµησης δίνουµε ως είσοδο ένα σύνολο δεδοµένων που περιγράφουν το αντικείµενο. Στη συνέχεια ο αλγόριθµος έχει την ικανότητα να κατανοεί τους κανόνες σύµφωνα µε τους οποίους τα δεδοµένα είναι ταξινοµηµένα και µε βάση τους συγκεκριµένους κανόνες µπορεί και ταξινοµεί τα νέα δεδοµένα. (Βουτσινάς, 2003). Ανάλογα µε το είδος του ταξινοµητή που παράγουν οι αλγόριθµοι ταξινόµησης, µπορούµε να τους διακρίνουµε σε δύο βασικές κατηγορίες: στους αλγόριθµους που παράγουν δένδρα αποφάσεων και στους αλγόριθµους που παράγουν λίστες αποφάσεων. Οι αλγόριθµοι που παράγουν δένδρα αποφάσεων αποτελούν την πιο παλιά µορφή της τεχνικής Data Mining και ακολουθούν συνήθως αναλυτική προσέγγιση (top-down), δηµιουργώντας δηλαδή το δένδρο από τη ρίζα και προχωρώντας προς τα κάτω. Αντίθετα, οι αλγόριθµοι που παράγουν λίστες αποφάσεων είναι µία σχετικά νέα µορφή αλγορίθµων και έχουν τη µορφή λογικών κανόνων οι οποίοι εξάγουν ανάλογα συµπεράσµατα. Οι µέθοδοι της ταξινόµησης χρησιµοποιούνται πολύ συχνά για την εξέταση οικονοµικών στοιχείων. Γι αυτό και σε επόµενη ενότητα θα επικεντρωθούµε στις µεθόδους ταξινόµησης, αναλύοντας τις πιο δηµοφιλείς από αυτές Οµαδοποίηση (Clustering) Μία άλλη εξίσου βασική µέθοδος είναι η Οµαδοποίηση (Clustering). Η τεχνική της οµαδοποίησης χωρίζει ένα σύνολο εγγραφών σε οµάδες µε τέτοιο τρόπο ώστε οι εγγραφές που ανήκουν στην ίδια οµάδα να µοιάζουν όσο το δυνατόν περισσότερο µε βάση κάποια προκαθορισµένα κριτήρια, καθώς επίσης στοιχεία που ανήκουν σε διαφορετικές οµάδες να διαφέρουν όσο το δυνατόν περισσότερο. Πρόκειται ουσιαστικά για µία τεχνική η οποία χωρίζει έναν ετερογενή πληθυσµό σε ένα σύνολο περισσότερο ετερογενών οµάδων. Η διαφορά της οµαδοποίησης από την ταξινόµηση είναι ότι η οµαδοποίηση δε βασίζεται σε προκαθορισµένες κατηγορίες. (Berry et al, 1996). Στην ταξινόµηση, ο πληθυσµός διαιρείται σε κατηγορίες αναθέτοντας κάθε στοιχείο ή εγγραφή σε µια προκαθορισµένη κατηγορία. Η ταξινόµηση γίνεται µε βάση ένα µοντέλο που Η ΠΕΡΙΠΤΩΣΗ ΧΟΡΗΓΗΣΗΣ ΤΡΑΠΕΖΙΚΩΝ ΑΝΕΙΩΝ 26

27 ΚΕΦΑΛΑΙΟ 2: Εξόρυξη Γνώσης αναπτύσσεται µέσω της εκπαίδευσής του µε παραδείγµατα που έχουν κατηγοριοποιηθεί εκ των προτέρων. Αντιθέτως, στην οµαδοποίηση δεν υπάρχουν προκαθορισµένες κατηγορίες. Σύµφωνα µε τους Han et al (2001) οι τρεις βασικές κατηγορίες αλγορίθµων οµαδοποίησης είναι οι εξής: Μέθοδοι διαχωρισµού (Partitioning methods): Οι συγκεκριµένες µέθοδοι, από ένα δεδοµένο αρχικό σύνολο n αντικειµένων, δηµιουργούν k οµάδες µε κάθε οµάδα να αντιπροσωπεύει ένα cluster και να ικανοποιούνται οι εξής δύο συνθήκες: 1) κάθε cluster να περιέχει τουλάχιστον ένα αντικείµενο και 2) κάθε αντικείµενο να ανήκει σε ένα µόνο cluster. Ιεραρχικές µέθοδοι (Hierarchical methods): Πρόκειται για µεθόδους που διασπούν το αρχικό σύνολο δεδοµένων δηµιουργώντας µια ιεραρχική δοµή από οµάδες και διακρίνονται ανάλογα µε τον τρόπο που γίνεται η διάσπαση, σε συσσωρευτικούς ή διαιρετικούς. Μέθοδοι βασισµένες σε µοντέλα (Model based methods): Υποθέτουν ότι κάθε οµάδα περιγράφεται από ένα µαθηµατικό µοντέλο και εντοπίζουν τα αντικείµενα που ανήκουν σε κάθε οµάδα, ώστε να ικανοποιούν το αντίστοιχο µοντέλο. Πολύ συχνά, οι τεχνικές οµαδοποίησης αυτής της κατηγορίας χρησιµοποιούν στατιστικές µεθόδους ή νευρωνικά δίκτυα. Η οµαδοποίηση έχει χρησιµοποιηθεί σε πολλά πεδία εφαρµογών, όπως βιολογία, ιατρική, ανθρωπολογία, µάρκετινγκ και οικονοµικά. Για παράδειγµα, για τις επιχειρήσεις είναι ιδιαίτερα σηµαντικό να οµαδοποιούν τους πελάτες τους σε συγκεκριµένες κατηγορίες. Με αυτήν την κατηγοριοποίηση µπορούν να αξιολογούν ένα νέο πελάτη, ανάλογα µε την κατηγορία στην οποία κατατάσσεται καθώς και να προσδιορίζουν τα χαρακτηριστικά των πελατών που αποφέρουν σηµαντικό κέρδος στην επιχείρηση. Έτσι, η εταιρεία µπορεί σκόπιµα να προσανατολίσει τη στρατηγική της στην εξειδικευµένη εξυπηρέτηση ορισµένων πελατειακών οµάδων. Απαραίτητη προϋπόθεση για να γίνει η επιλογή του κατάλληλου αλγορίθµου είναι η καλή µελέτη των δεδοµένων που θα χρησιµοποιηθούν για τον προσδιορισµό του κριτηρίου οµοιότητας των εγγραφών µίας οµάδας. Η ΠΕΡΙΠΤΩΣΗ ΧΟΡΗΓΗΣΗΣ ΤΡΑΠΕΖΙΚΩΝ ΑΝΕΙΩΝ 27

28 ΚΕΦΑΛΑΙΟ 2: Εξόρυξη Γνώσης Συσχέτιση (Association) Η συσχέτιση παρουσιάζει µεγάλο ενδιαφέρον γιατί µέσω των κανόνων της καθίσταται δυνατή η έκφραση χρήσιµων πληροφοριών τις οποίες οι τελικοί χρήστες µπορούν εύκολα να κατανοήσουν. Πρόκειται για προτάσεις της µορφής {X 1,,X n } {Y 1,,Y n }, που σηµαίνει ότι αν ισχύουν όλα τα X 1,,X n τότε είναι πιθανό να ισχύουν και τα Y 1,,Y n. Ωστόσο, για να έχει σηµασία η αναφορά σε έναν τέτοιο κανόνα, θα πρέπει να συνοδεύεται από κάποια ποσοτικά µεγέθη που να µετρούν την ποιότητα των κανόνων συσχέτισης. Τέτοια µεγέθη, είναι η υποστήριξη (support) και η εµπιστοσύνη (confidence) που ορίζονται ως εξής (Βλαχάβας et al, 2005): Υποστήριξη (support) ή κάλυψη (coverage): εκφράζει την πιθανότητα να βρεθεί µία εγγραφή που ικανοποιεί τα Χ και Υ στη βάση δεδοµένων και ισούται µε το λόγο του συνόλου των εγγραφών που περιέχουν όλα τα Χ και Υ, προς το σύνολο όλων των εγγραφών. Εµπιστοσύνη (confidence) ή ακρίβεια (accuracy): εκφράζει την πιθανότητα να βρεθεί το Υ σε µία εγγραφή που περιέχει όλα τα Χ και ισούται µε το λόγο των εγγραφών που περιέχουν όλα τα Χ και Υ, προς το συνολικό αριθµό των εγγραφών που περιέχουν τα Χ. Ποιοτικά, η εµπιστοσύνη καθορίζει το πόσο ισχυρός είναι ο κανόνας συσχέτισης που εντοπίστηκε, ενώ η υποστήριξη καθορίζει το πόσο σηµαντικός είναι. Οι κανόνες συσχέτισης σε σύγκριση µε τις άλλες µεθόδους παρουσιάζουν αρκετά πλεονεκτήµατα. Ένα από αυτά είναι ότι προσπαθούν να ανταπεξέλθουν σε πραγµατικά προβλήµατα, όπως είναι ο θόρυβος και το µεγάλο µέγεθος των δεδοµένων, σε αντίθεση µε άλλες µεθόδους όπου η εκπαίδευση είναι σηµαντικό να γίνεται σε δεδοµένα χωρίς θόρυβο και σε προσεκτικά επιλεγµένα δεδοµένα. Επίσης, ανάλογα µε την εφαρµογή έχουν την ικανότητα να επιτυγχάνουν υψηλή απόδοση σε τοµείς όπως η ταχύτητα σε πολύ µεγάλο όγκο δεδοµένων, η επεκτασιµότητα και ο χειρισµός σύνθετων τύπων δεδοµένων. Τέλος, οι κανόνες αυτοί είναι πιο κατανοητοί από διάφορες άλλες µορφές αναπαράστασης της γνώσης. Ωστόσο, το βασικό µειονέκτηµα των κανόνων συσχέτισης είναι η δυσκολία στην επιλογή εκείνων των κανόνων που έχουν πρακτική αξία και παρουσιάζουν το µεγαλύτερο ενδιαφέρον. Συνήθως, η εµπιστοσύνη και η υποστήριξη δεν είναι αρκετές Η ΠΕΡΙΠΤΩΣΗ ΧΟΡΗΓΗΣΗΣ ΤΡΑΠΕΖΙΚΩΝ ΑΝΕΙΩΝ 28

29 ΚΕΦΑΛΑΙΟ 2: Εξόρυξη Γνώσης µετρικές, ώστε να ελαττωθεί ικανοποιητικά το σύνολο των κανόνων συσχέτισης, αφήνοντας µόνο τους έγκυρους, πρωτότυπους και ενδιαφέροντες κανόνες, χωρίς τον κίνδυνο να χαθούν κάποιοι σηµαντικοί ή να προκύψει ένα τεράστιο σύνολο ασήµαντων κανόνων. Για την ανακάλυψη των κανόνων συσχέτισης, χρησιµοποιείται η ιδιότητα της µονοτονίας (monotonicity property) ή αλλιώς ιδιότητα a priori, σύµφωνα µε την οποία αν ένα σύνολο αντικειµένων είναι συχνό, τότε και όλα τα υποσύνολά του είναι επίσης συχνά. Τέλος, οι κανόνες συσχέτισης βρίσκουν εφαρµογή κυρίως στο µάρκετινγκ, τη διαφήµιση και τα τηλεπικοινωνιακά δίκτυα. 2.6 ΜΕΘΟ ΟΙ ΤΑΞΙΝΟΜΗΣΗΣ Σε προηγούµενη ενότητα (2.5.1) αναλύσαµε την ταξινόµηση ως µία από τις πιο σηµαντικές µεθόδους µάθησης µε επίβλεψη. Σε αυτήν την ενότητα θα αναφερθούµε στις µεθόδους ταξινόµησης, µιας και η ταξινόµηση είναι µία από τις πιο δηµοφιλείς και συχνά χρησιµοποιούµενες µεθόδους στην εξέταση χρηµατοοικονοµικών στοιχείων. Οι πιο γνωστές µέθοδοι ταξινόµησης είναι τα δέντρα ταξινόµησης ή απόφασης (Classification or Decision Trees), τα νευρωνικά δίκτυα (Neural Networks- ΝΝ), η µάθηση κατά Bayes, η ταξινόµηση κοντινότερων γειτόνων (Nearest Neighbor) και η µάθηση εννοιών (Concept Learning). Στα πλαίσια της έρευνας που θα πραγµατοποιήσουµε στη συνέχεια θα χρησιµοποιήσουµε τις τρεις πρώτες µεθόδους ταξινόµησης που αναφέραµε παραπάνω, γι αυτό και κρίνεται σκόπιµο να αναφερθούµε εκτενέστερα στη συνέχεια στα δέντρα ταξινόµησης, στα νευρωνικά δίκτυα και στα δίκτυα Bayes έντρα Απόφασης Τα έντρα Απόφασης είναι µια από τις πιο αναγνωρισµένες µεθόδους κατηγοριοποίησης και έχουν εφαρµοστεί αποτελεσµατικά σε διάφορους τοµείς, όπως διάγνωση ιατρικών περιστατικών, αξιολόγηση ρίσκου αποδοχής αίτησης για δάνειο και πιστωτική κάρτα, πρόβλεψη συµπεριφοράς καταναλωτή, κτλ. Η ΠΕΡΙΠΤΩΣΗ ΧΟΡΗΓΗΣΗΣ ΤΡΑΠΕΖΙΚΩΝ ΑΝΕΙΩΝ 29

30 ΚΕΦΑΛΑΙΟ 2: Εξόρυξη Γνώσης Το αποτέλεσµά τους είναι µία δενδροειδής δοµή που µε γραφικό τρόπο περιγράφει τα δεδοµένα και εναλλακτικά, για τη βελτίωση της αναγνωρισιµότητάς του, µπορεί να αναπαρασταθεί και ως σύνολο κανόνων if-then, που ονοµάζονται κανόνες ταξινόµησης (classification rules). Κάθε κόµβος στο δέντρο ορίζει µία συνθήκη ελέγχου της τιµής κάποιου χαρακτηριστικού των περιπτώσεων και κάθε κλαδί που φεύγει από τον κόµβο αυτό αντιστοιχεί σε µια διαφορετική διακριτή τιµή του χαρακτηριστικού αυτού. Μια περίπτωση ταξινοµείται αρχίζοντας από τη ρίζα και ακολουθώντας τα κλαδιά του δέντρου προς κάποιο φύλλο, το οποίο περιέχει και µια διακριτή τιµή της κατηγορίας. Σε κάθε κόµβο ελέγχεται η τιµή της περίπτωσης για το χαρακτηριστικό του κόµβου και ακολουθείται το αντίστοιχο κλαδί. Η αναπαράσταση που δηµιουργείται από τα δέντρα απόφασης είναι µια διάζευξη που αποτελείται από συζεύξεις περιορισµών στις τιµές των χαρακτηριστικών. Τα δέντρο συνολικά εκφράζει τη διάζευξη αυτών των συζεύξεων, αφού αποτελείται από όλα τα εναλλακτικά µονοπάτια. (Βλαχάβας et al, 2005) Τα δέντρα απόφασης χρησιµοποιούνται για να προβλέψουν µε κάποιο βαθµό ακρίβειας την τιµή της µεταβλητής που µοντελοποιούν µε βάση τις τιµές των θεωρούµενων ανεξάρτητων µεταβλητών. Αφού δηµιουργηθεί το δένδρο, µπορεί να προβλέψει την κλάση νέων, άγνωστων παρατηρήσεων. Για να κατηγοριοποιήσει µια νέα παρατήρηση, το ένδρο απόφασης ελέγχει τις τιµές των γνωρισµάτων σύµφωνα µε τους κόµβους και ακολουθεί µια πορεία από τη ρίζα του δένδρου µέχρι κάποιο φύλλο, όπου και λαµβάνεται η απόφαση κατηγοριοποίησης. Ένα σηµαντικό πλεονέκτηµα των δέντρων απόφασης είναι η ευκολία µε την οποία ερµηνεύονται. Έχουν προταθεί διάφοροι αλγόριθµοι δηµιουργίας ένδρου απόφασης µε πιο διαδεδοµένο τον ID3 (Iterative Dichotomiser 3) καθώς και τις µετεξελίξεις του, όπως ο αλγόριθµος C4.5 ή J48 και η εµπορική εκδοχή του C5.0. Στη συνέχεια παρουσιάζεται η βασική ακολουθία βηµάτων του ID3, η οποία είναι η εξής (Κύρκος, 2007) : ηµιουργείται ένας αρχικός κόµβος που αντιπροσωπεύει ολόκληρο το δείγµα. Εάν όλες οι παρατηρήσεις του δείγµατος ανήκουν στην ίδια κλάση, τότε ο κόµβος µετατρέπεται σε φύλλο. Η ΠΕΡΙΠΤΩΣΗ ΧΟΡΗΓΗΣΗΣ ΤΡΑΠΕΖΙΚΩΝ ΑΝΕΙΩΝ 30

31 ΚΕΦΑΛΑΙΟ 2: Εξόρυξη Γνώσης ιαφορετικά επιλέγεται το γνώρισµα που βέλτιστα διαχωρίζει τις παρατηρήσεις του δείγµατος ανάλογα µε την κλάση που ανήκουν. ηµιουργούνται κλάδοι που διαχωρίζουν τις παρατηρήσεις του δείγµατος ανάλογα µε τις τιµές που έχουν στο επιλεγµένο γνώρισµα του προηγούµενου βήµατος. Η διαδικασία επαναλαµβάνεται για κάθε ένα από τα υποσύνολα του δείγµατος που δηµιουργήθηκαν από τους κλάδους του προηγούµενου βήµατος. Η επανάληψη τερµατίζεται όταν ικανοποιηθεί τουλάχιστον µία από τις επόµενες συνθήκες εξόδου: Όλες οι παρατηρήσεις ενός κόµβου ανήκουν στην ίδια κλάση εν υπάρχουν άλλα γνωρίσµατα για το διαχωρισµό του δείγµατος, ή εν υπάρχουν παρατηρήσεις που να ανήκουν στο υποσύνολο του δείγµατος που ορίζει ο κλάδος Στους αλγορίθµους της οικογένειας του ID3 η επιλογή του γνωρίσµατος A που διαχωρίζει βέλτιστα το δείγµα S γίνεται µε τη χρήση ενός µέτρου που καλείται κέρδος πληροφορίας (Information Gain G(S,A)), το οποίο αναπαριστά τη µείωση της εντροπίας του συνόλου εκπαίδευσης S αν επιλεγεί ως παράµετρος διαχωρισµού η µεταβλητή Α. Όταν µειώνεται η πληροφοριακή εντροπία, αυξάνεται η πυκνότητα πληροφορίας και άρα η περιγραφή γίνεται περισσότερο συµπαγής. Το κέρδος πληροφορίας δίνεται από τη σχέση: G(S,A)= E(S)- ( ) ( ), όπου: Ε(S) είναι η εντροπία πληροφορίας του υπό εξέταση κόµβου, Α είναι η ανεξάρτητη µεταβλητή, µε τιµές Values(A), βάσει της οποίας επιχειρείται ο επόµενος διαχωρισµός, u είναι µία από τις δυνατές τιµές του Α, Su είναι το πλήθος των εγγραφών µε Α=u, και E(Su) είναι η εντροπία πληροφορίας του υπό εξέταση κόµβου ως προς την τιµή Α=u. Η εντροπία της πληροφορίας (information entropy) είναι ένας από τους πιο διαδεδοµένους µηχανισµούς διαχωρισµού και επιλέγει εκείνη την ανεξάρτητη Η ΠΕΡΙΠΤΩΣΗ ΧΟΡΗΓΗΣΗΣ ΤΡΑΠΕΖΙΚΩΝ ΑΝΕΙΩΝ 31

32 ΚΕΦΑΛΑΙΟ 2: Εξόρυξη Γνώσης µεταβλητή που οδηγεί σε περισσότερο συµπαγές δέντρο. Η τιµή της εντροπίας της πληροφορίας δίνεται από τη σχέση: Ε(S)= -p + * log 2 (p + ) p * log 2 (p - ), Όπου: S είναι το σύνολο των δεδοµένων εκπαίδευσης στο στάδιο (κόµβο) του διαχωρισµού, p + είναι το κλάσµα των θετικών παραδειγµάτων του S και p είναι το κλάσµα των αρνητικών παραδειγµάτων του S. Γενικότερα για c διαφορετικές κατηγορίες, η εντροπία ορίζεται από τη σχέση E(S)= - 2( ), όπου p i είναι το ποσοστό των παραδειγµάτων του S που ανήκουν στην κατηγορία i. Η εντροπία της πληροφορίας µετρά ουσιαστικά την ανοµοιογένεια που υπάρχει στο S αναφορικά µε την υπό εξέταση εξαρτηµένη µεταβλητή και έχει τις ρίζες της στη θεωρία πληροφοριών. Στην περίπτωση που έχουµε δύο κατηγορίες, η τιµή της είναι 0 αν όλα τα µέλη του S ανήκουν στην ίδια κατηγορία και 1 αν τα µισά µέλη ανήκουν στη µια και τα άλλα µισά στην άλλη κατηγορία. Σε όλους δε τους υπολογισµούς, θεωρούµε την ποσότητα 0 log 2 (0) ίση µε µηδέν. Στην ουσία, το κέρδος πληροφορίας είναι η εντροπία των παραδειγµάτων µετά το διαχωρισµό τους σύµφωνα µε την τιµή του χαρακτηριστικού Α και αποτελείται από το άθροισµα της εντροπίας για το κάθε σύνολο που προκύπτει µετά το διαχωρισµό. (Βλαχάβας et al, 2005) Νευρωνικά ίκτυα Τα Τεχνητά Νευρωνικά ίκτυα-τν (Artificial Neural Networks-ΑΝΝ) ή πιο απλά Νευρωνικά ίκτυα παρέχουν έναν εύκολο τρόπο για την εκµάθηση αριθµητικών και διανυσµατικών συναρτήσεων ορισµένων σε συνεχή ή διακριτά µεγέθη. Χρησιµοποιούνται τόσο για την παλινδρόµηση όσο και για την ταξινόµηση. (Βλαχάβας, 2005) Το νευρωνικό δίκτυο είναι ένα δίκτυο από απλούς υπολογιστικούς κόµβους (νευρώνες), διασυνδεδεµένους µεταξύ τους. Είναι εµπνευσµένο από το Κεντρικό Η ΠΕΡΙΠΤΩΣΗ ΧΟΡΗΓΗΣΗΣ ΤΡΑΠΕΖΙΚΩΝ ΑΝΕΙΩΝ 32

33 ΚΕΦΑΛΑΙΟ 2: Εξόρυξη Γνώσης Νευρικό Σύστηµα, το οποίο προσπαθεί να προσοµοιώσει. Οι νευρώνες είναι τα δοµικά στοιχεία του δικτύου. Κάθε τέτοιος κόµβος δέχεται ένα σύνολο αριθµητικών εισόδων από διαφορετικές πηγές (είτε από άλλους νευρώνες, είτε από το περιβάλλον), επιτελεί έναν υπολογισµό µε βάση αυτές τις εισόδους και παράγει µία έξοδο. Η εν λόγω έξοδος είτε κατευθύνεται στο περιβάλλον, είτε τροφοδοτείται ως είσοδος σε άλλους νευρώνες του δικτύου. Υπάρχουν τρεις τύποι νευρώνων: οι νευρώνες εισόδου, οι νευρώνες εξόδου και οι υπολογιστικοί νευρώνες ή κρυµµένοι νευρώνες. Οι νευρώνες εισόδου δεν επιτελούν κανέναν υπολογισµό, µεσολαβούν απλώς ανάµεσα στις περιβαλλοντικές εισόδους του δικτύου και στους υπολογιστικούς νευρώνες. Οι νευρώνες εξόδου διοχετεύουν στο περιβάλλον τις τελικές αριθµητικές εξόδους του δικτύου. Οι υπολογιστικοί νευρώνες πολλαπλασιάζουν κάθε είσοδό τους µε το αντίστοιχο βάρος και υπολογίζουν το ολικό άθροισµα των γινοµένων. Το άθροισµα αυτό τροφοδοτείται ως όρισµα στη συνάρτηση ενεργοποίησης, την οποία υλοποιεί εσωτερικά κάθε κόµβος. Η τιµή που λαµβάνει η συνάρτηση για το εν λόγω όρισµα είναι και η έξοδος του νευρώνα για τις τρέχουσες εισόδους και βάρη. Τα Νευρωνικά δίκτυα είναι µια τεχνική ισχυρά καθοδηγούµενη από τα δεδοµένα. Αυτό σηµαίνει ότι τα Νευρωνικά ίκτυα δεν επιβάλουν αυθαίρετες υποθέσεις και ότι τα µοντέλα τους πηγάζουν από την επεξεργασία των δεδοµένων. Το κύριο χαρακτηριστικό των νευρωνικών δικτύων είναι η εγγενής ικανότητα µάθησης. Ως µάθηση µπορεί να οριστεί η σταδιακή βελτίωση της ικανότητας του δικτύου να επιλύει κάποιο πρόβληµα (π.χ. η σταδιακή προσέγγιση µίας συνάρτησης). Η µάθηση επιτυγχάνεται µέσω της εκπαίδευσης, µίας επαναληπτικής διαδικασίας σταδιακής προσαρµογής των παραµέτρων του δικτύου (συνήθως των βαρών και της πόλωσής του) σε τιµές κατάλληλες, ώστε να επιλύεται µε επαρκή επιτυχία το προς εξέταση πρόβληµα. Για την εκπαίδευση ενός Νευρωνικού ικτύου τυπικά απαιτείται ένα δείγµα εκπαίδευσης και ένα δείγµα ελέγχου. Το δείγµα εκπαίδευσης χρησιµοποιείται για τον καθορισµό των βαρών των συνδέσεων. Το δείγµα ελέγχου χρησιµοποιείται για την εκτίµηση της επίδοσης του µοντέλου. Αφού ένα δίκτυο εκπαιδευτεί, οι παράµετροί του συνήθως «παγώνουν» στις κατάλληλες τιµές και από εκεί κι έπειτα είναι σε λειτουργική κατάσταση. Το ζητούµενο είναι το λειτουργικό δίκτυο να χαρακτηρίζεται από µία ικανότητα Η ΠΕΡΙΠΤΩΣΗ ΧΟΡΗΓΗΣΗΣ ΤΡΑΠΕΖΙΚΩΝ ΑΝΕΙΩΝ 33

34 ΚΕΦΑΛΑΙΟ 2: Εξόρυξη Γνώσης γενίκευσης: αυτό σηµαίνει πως δίνει ορθές εξόδους για νέες εισόδους και διαφορετικές από αυτές µε τις οποίες εκπαιδεύτηκε. Ένα µεγάλο πλεονέκτηµα των Νευρωνικών ικτύων είναι η ανοχή που παρουσιάζουν σε δεδοµένα εκπαίδευσης µε θόρυβο, δηλαδή δεδοµένα που µπορεί να έχουν και λανθασµένες τιµές. Ωστόσο, µειονέκτηµά τους αποτελεί η αδυναµία τους να εξηγήσουν ποιοτικά τη γνώση που µοντελοποιούν ίκτυα Bayes Τα ίκτυα Bayes είναι ισχυρά εργαλεία για αναπαράσταση γνώσης και για εξαγωγή συµπερασµάτων σε συνθήκες αβεβαιότητας. Αρχικά δε θεωρούνταν εργαλεία κατηγοριοποίησης, αργότερα όµως ανακαλύφθηκε ότι µια απλουστευµένη εκδοχή των ικτύων Bayes, οι Αφελείς (Naive) Μπαϋεσιανοί κατηγοριοποιητές, έχουν αυξηµένες δυνατότητες κατηγοριοποίησης, συγκρίσιµες µε αυτές των Νευρωνικών ικτύων και των ένδρων Αποφάσεων. Σήµερα τα Μπαϋεσιανά ίκτυα Πίστης (Bayesian Belief Networks - ΒΒΝ), µια βελτιωµένη εκδοχή των ικτύων Bayes, θεωρούνται ισχυροί στατιστικοί κατηγοριοποιητές που υπολογίζουν την πιθανότητα να ανήκει µια παρατήρηση σε κάποια κλάση. (Κύρκος, 2007) Ένα BBN αποτελείται από ένα άκυκλο γράφηµα και από ένα σύνολο πινάκων µε υπό συνθήκη πιθανότητες. Κάθε κόµβος του γραφήµατος αναπαριστά µία ιδιότητα, ενώ κάθε βέλος αναπαριστά µία εξάρτηση. (Kirkos et al, 2007β). Αν υπάρχει βέλος από µία ιδιότητα Α προς µία ιδιότητα Β, τότε η Β ονοµάζεται απόγονος της Α. Σε ένα ΒΒΝ, µία ιδιότητα είναι ανεξάρτητη όλων των ιδιοτήτων των οποίων δεν είναι απόγονος. Τα ΒΒΝ διαθέτουν πολλά πλεονεκτήµατα. Τα δίκτυα αυτά δηµιουργούν ένα µοντέλο για την κατανοµή πιθανοτήτων για ένα πρόβληµα. Έτσι, είναι θα λέγαµε ιδιαίτερα κατάλληλα για περιπτώσεις όπου υπάρχουν σύνθετες εξαρτήσεις µεταξύ της µεταβλητής της κλάσης και των µεταβλητών εισόδου, ή και µεταξύ των ίδιων µεταβλητών εισόδου. Ο γράφος που δηµιουργείται οπτικοποιεί τις σχέσεις µεταξύ της κλάσης και των µεταβλητών εισόδου. Έτσι, τα ΒΒΝ είναι εύκολα κατανοητά από τους ανθρώπους. Τα Μπαϋεσιανά ίκτυα Πίστης µπορούν να χειριστούν και αριθµητικές και ονοµαστικές µεταβλητές και µπορούν γενικότερα να επιτύχουν υψηλούς ρυθµούς ακρίβειας. Ωστόσο, ένα σηµαντικό µειονέκτηµα των ΒΒΝ είναι το Η ΠΕΡΙΠΤΩΣΗ ΧΟΡΗΓΗΣΗΣ ΤΡΑΠΕΖΙΚΩΝ ΑΝΕΙΩΝ 34

35 ΚΕΦΑΛΑΙΟ 2: Εξόρυξη Γνώσης γεγονός ότι δεν υπάρχει ένας καθιερωµένος τρόπος εξαγωγής του γράφου από τα δεδοµένα. 2.7 ΠΡΟΒΛΗΜΑΤΑ ΣΤΗΝ ΕΞΟΡΥΞΗ ΓΝΩΣΗΣ Τα εργαλεία εξόρυξης γνώσης, βασίζονται στην παροχή δεδοµένων εισόδου από βάσεις δεδοµένων, οι οποίες τείνουν να είναι δυναµικές, µεγάλου µεγέθους, ελλιπείς και να περιέχουν θόρυβο. Επιπλέον προβλήµατα, προκύπτουν από το πόσο σχετική και επαρκής είναι η αποθηκευµένη πληροφορία. Έτσι, τα σηµαντικότερα προβλήµατα που υπεισέρχονται στην εξόρυξη γνώσης από βάσεις δεδοµένων σύµφωνα µε τους Βλαχάβα et al (2005) είναι τα εξής: Ακατάλληλα εδοµένα Οι βάσεις δεδοµένων, δεν είναι πάντοτε σχεδιασµένες για ανακάλυψη γνώσης και µερικές φορές τα πεδία που θα οδηγούσαν σε σηµαντικές ανακαλύψεις όχι µόνο λείπουν, αλλά και δεν είναι δυνατό να συλλεχθούν από το χρήστη. Υπάρχουν δύο τρόποι αντιµετώπισης του παραπάνω προβλήµατος: η κατασκευή κανόνων, εφόσον όλα τα σχετικά χαρακτηριστικά είναι γνωστά (deterministic rules) ή εναλλακτικά, η κατασκευή κανόνων που κατηγοριοποιούν τα αντικείµενα σε κλάσεις µε βάση κάποια πιθανότητα (probabilistic rules).. Θόρυβος Με τον όρο θόρυβο (noise), ονοµάζουµε είτε την τυχαία αλλοίωση τιµών, είτε την παρείσφρηση αντικειµένων µε τυχαίες τιµές. Συχνά, τα πεδία ενός πίνακα βάσης δεδοµένων µπορεί να προέρχονται από µετρήσεις ή από υποκειµενικές κρίσεις µε αποτέλεσµα να υπάρχουν καταχωρηµένες λανθασµένες τιµές. Αποτέλεσµα των παραπάνω είναι τα θορυβώδη αντικείµενα να µην ακολουθούν τα πρότυπα των υπολοίπων, δυσχεραίνοντας το έργο της εξόρυξής τους. Συνήθως, για την αφαίρεση του θορύβου ακολουθούνται τεχνικές επεξεργασίας σήµατος. Ελλιπή εδοµένα Σε πραγµατικά σύνολα δεδοµένων, είναι συχνό φαινόµενο κάποια αντικείµενα να περιέχουν ελλιπή δεδοµένα (missing data), δηλαδή χαρακτηριστικά µε άγνωστη τιµή. Ελλιπή δεδοµένα, προκύπτουν εξαιτίας διαφόρων αιτιών. Για παράδειγµα, κάποιο Η ΠΕΡΙΠΤΩΣΗ ΧΟΡΗΓΗΣΗΣ ΤΡΑΠΕΖΙΚΩΝ ΑΝΕΙΩΝ 35

36 ΚΕΦΑΛΑΙΟ 2: Εξόρυξη Γνώσης µέγεθος µπορεί να µη µετρήθηκε, κάποια ερώτηση να µην απαντήθηκε, κάποια τιµή να διαγράφηκε κτλ. Για την αντιµετώπιση του προβλήµατος των ελλιπών δεδοµένων, µπορούµε να καταφύγουµε στη διαγραφή αντικειµένων µε ελλιπή δεδοµένα, προσέχοντας όµως ο αριθµός αυτών των αντικειµένων να µην είναι µεγάλος, ώστε να θεωρείται αντιπροσωπευτικό το σύνολο δεδοµένων που προκύπτει. Επίσης, προκειµένου τα ελλιπή δεδοµένα να µη µετατρέπονται σε θόρυβο, µπορούµε µε τη χρήση διαφόρων τεχνικών εκτίµησης, να τα συµπληρώσουµε. Τέλος, σε περίπτωση που δεν είναι εφικτή κάποια από τις παραπάνω λύσεις, θα µπορούσαµε να διατηρήσουµε τα ελλιπή δεδοµένα, χρησιµοποιώντας κάποιο αλγόριθµο εξόρυξης που υποστηρίζει την ύπαρξη ελλιπών δεδοµένων. Ωστόσο, οποιοδήποτε από τους παραπάνω τρόπους και αν επιλέξουµε, είναι σχεδόν σίγουρο ότι η ποιότητα του αποτελέσµατος θα επηρεαστεί από τα ελλιπή δεδοµένα. είγµατα Η λήψη ενός δείγµατος από τη βάση δεδοµένων µε σκοπό τη χρήση του για εξόρυξη γνώσης, απαιτεί µεγάλη προσοχή και εφαρµογή κατάλληλων τεχνικών ώστε να είναι πλήρως αντιπροσωπευτικό. Η δειγµατοληψία αποτελεί την πιο συνηθισµένη πρακτική, αφού οι πραγµατικές βάσεις δεδοµένων έχουν τεράστιο αριθµό εγγραφών και οι αλγόριθµοι που χρησιµοποιούνται απαιτούν τα δεδοµένα εκπαίδευσης να βρίσκονται στην κύρια µνήµη. Αυτό όµως δεν είναι εφικτό λόγω του περιορισµένου µεγέθους της. Αραιά εδοµένα Στην εξόρυξη γνώσης από βάσεις δεδοµένων ο χώρος αναζήτησης ορίζεται από το δυναµοσύνολο των συνόλων στα οποία ορίζονται τα πεδία. Υπάρχουν αρκετές περιπτώσεις, όπου τα διαθέσιµα δεδοµένα δεν επαρκούν και καλύπτουν ένα µικρό ποσοστό του χώρου αναζήτησης. Τα δεδοµένα αυτά ονοµάζονται αραιά δεδοµένα (sparse data) και είναι υπεύθυνα για τη δηµιουργία προβληµάτων κατά την ανακάλυψη γνώσης. Μέγεθος Βάσης εδοµένων Πλέον, οι βάσεις µε εκατοντάδες πεδία και εκατοµµύρια εγγραφές, αποτελούν σύνηθες φαινόµενο. Το γεγονός αυτό, δηµιουργεί τεράστια προβλήµατα στη Η ΠΕΡΙΠΤΩΣΗ ΧΟΡΗΓΗΣΗΣ ΤΡΑΠΕΖΙΚΩΝ ΑΝΕΙΩΝ 36

37 ΚΕΦΑΛΑΙΟ 2: Εξόρυξη Γνώσης διαχείριση τόσο των ίδιων των δεδοµένων, όσο και των ενδιάµεσων αποτελεσµάτων που προκύπτουν κατά την επεξεργασία τους. Η εκτέλεση του αλγορίθµου για την εξόρυξη γνώσης και τον έλεγχο της ποιότητας των αποτελεσµάτων µετατρέπεται σε χρονοβόρα διαδικασία. Πολλές φορές, σε µία βάση δεδοµένων, δεν υπάρχει µόνο ένας µεγάλος αριθµός εγγραφών, αλλά και ένας µεγάλος αριθµός πεδίων (χαρακτηριστικών). Ένα σύνολο δεδοµένων πολλών πεδίων, µπορεί να οδηγεί στην ακρίβεια της παραγόµενης πληροφορίας, εντούτοις αυξάνει υπερβολικά το χώρο αναζήτησης του προβλήµατος. Επιπρόσθετα, αυξάνει τις πιθανότητες ο αλγόριθµος εξόρυξης γνώσης να βρει πρότυπα που δεν είναι έγκυρα. Τέλος, τα ιεραρχικά δοµηµένα χαρακτηριστικά και οι σύνθετες συσχετίσεις µεταξύ τους απαιτούν αλγορίθµους που να έχουν την ικανότητα να χειριστούν αποτελεσµατικά τέτοιες πληροφορίες. Οι περισσότεροι έως τώρα αλγόριθµοι εξόρυξης γνώσης έχουν σχεδιαστεί για απλά χαρακτηριστικά. Ενηµέρωση της Βάσης εδοµένων Οι βάσεις δεδοµένων είναι δυναµικές. Αυτό σηµαίνει, ότι οι µεταβλητές που µετρούνται σε µία δεδοµένη βάση, µπορεί να τροποποιηθούν, να διαγραφούν ή να αυξηθούν µε νέες µετρήσεις κατά την πάροδο του χρόνου. Έτσι, η ανάγκη για έναν περιοδικό έλεγχο της εγκυρότητας των αποτελεσµάτων, είναι επιτακτική. Για την αντιµετώπιση του προβλήµατος, απαιτούνται αλγόριθµοι σταδιακής εξόρυξης σε δεδοµένα (incremental data mining), που θα λαµβάνουν υπόψη τους την πληροφορία των νέων εγγραφών τη στιγµή που γίνονται διαθέσιµες, χωρίς να απαιτείται η επανάληψη της διαδικασίας από την αρχή για το σύνολο των εγγραφών. 2.8 ΕΦΑΡΜΟΓΕΣ ΑΝΑΚΑΛΥΨΗΣ ΓΝΩΣΗΣ Τυπικά µεγέθη του όγκου δεδοµένων στα οποία εφαρµόζονται διαδικασίες ανακάλυψης γνώσεις είναι δεκάδες GBytes, αποτελούµενες από εκατοµµύρια εγγραφές. Οι τεχνικές εξόρυξης δεδοµένων και γενικότερα οι τεχνικές ανακάλυψης γνώσης χρησιµοποιούνται ευρέως σε πολλούς τοµείς (Ramageri, 2010). Στη συνέχεια θα παρουσιάσουµε τις βασικές περιοχές εφαρµογής του τοµέα της ανακάλυψης γνώσης. Η ΠΕΡΙΠΤΩΣΗ ΧΟΡΗΓΗΣΗΣ ΤΡΑΠΕΖΙΚΩΝ ΑΝΕΙΩΝ 37

38 ΚΕΦΑΛΑΙΟ 2: Εξόρυξη Γνώσης Marketing ιάφορες εταιρείες εκµεταλλεύονται την ανακάλυψη γνώσης σε βάσεις δεδοµένων µε στόχο την αύξηση του αγοραστικού τους κοινού, τη διατήρηση των «καλών» τους πελατών και κατ επέκταση την αύξηση των κερδών τους. Με τη χρήση διαφόρων τεχνικών Data Mining, όπως για παράδειγµα κανόνες ταξινόµησης ή και οµαδοποίησης, δίνεται η δυνατότητα στις εταιρείες να κατατάσσουν τους πελάτες τους ανάλογα µε τα προσωπικά τους στοιχεία και την προηγούµενη συµπεριφορά τους σε «καλούς», «µέτριους» και «κακούς». Έτσι, δίνεται η δυνατότητα στις εταιρείες να εντοπίζουν τους πελάτες που είναι πιθανό να ενδιαφερθούν για ένα νέο προϊόν, σύµφωνα µε τις αγοραστικές τους συνήθειες, και να επιλέγουν το ανάλογο αγοραστικό κοινό µε το οποίο συναλλάσσονται και στο οποίο εστιάζουν την πολιτική της εταιρείας. Με τον τρόπο αυτό, µπορεί να προγραµµατιστεί ανάλογα και η επόµενη διαφηµιστική εκστρατεία της εταιρείας. Ένας πωλητής για παράδειγµα µπορεί να χρησιµοποιήσει δεδοµένα συναλλαγών πελατών του για να µάθει το αγοραστικό ιστορικό τους και στη συνέχεια να το εκµεταλλευτεί, προωθώντας τους µε κατάλληλο τρόπο διάφορα προϊόντα. Χαρακτηριστικό παράδειγµα αποτελεί η εταιρεία Body Shop, η οποία χρησιµοποιεί τεχνικές Data Mining προκειµένου να καταφέρει να αυξήσει την αποτελεσµατικότητα των παραγγελιών µέσω του ηλεκτρονικού ταχυδροµείου. Τα διοικητικά στελέχη προσπαθούν να µειώσουν το κόστος αποστολής διαφηµιστικών καταλόγων, εστιάζοντας κυρίως σε πελάτες οι οποίοι θεωρούνται κερδοφόροι. Επιπλέον, µε την εξόρυξη δηµογραφικών δεδοµένων από διάφορες φόρµες σχολίων και κάρτες εγγύησης διαφόρων πελατών, ένας πωλητής θα µπορούσε να δηµιουργήσει δελεαστικές προσφορές που να έχουν ως στόχο συγκεκριµένη µερίδα πελατών. Ακόµα, εταιρείες πιστωτικών καρτών προτείνουν προϊόντα στους πελάτες τους, ανάλογα µε τις προηγούµενες αγορές που έχουν πραγµατοποιήσει. Χαρακτηριστικό είναι το παράδειγµα της τράπεζας της Αµερικής (Bank of America), η οποία χρησιµοποιεί το Data Mining προκειµένου να εντοπίσει ποια προϊόντα προτιµούν συγκεκριµένοι πελάτες τους, προκειµένου να τους προσφέρουν το σωστό πακέτο προϊόντων και υπηρεσιών που θα ανταποκρίνεται καλύτερα στις ανάγκες τους (Roiger et al, 2003). Η ΠΕΡΙΠΤΩΣΗ ΧΟΡΗΓΗΣΗΣ ΤΡΑΠΕΖΙΚΩΝ ΑΝΕΙΩΝ 38

39 ΚΕΦΑΛΑΙΟ 2: Εξόρυξη Γνώσης Επίσης, εταιρείες κινητής τηλεφωνίας θέλουν να προβλέψουν ποιοι από τους συνδροµητές τους, δε θα ανανεώσουν τη συνδροµή τους, ώστε ενδεχοµένως να τους κάνουν κάποια περισσότερο ελκυστική προσφορά (Edelstein, 1999). Τέλος, αλυσίδες super market προβαίνουν σε συνεχή περισυλλογή δεδοµένων από τους πελάτες τους. Στη συνέχεια χρησιµοποιούν τα δεδοµένα αυτά για να αναγνωρίσουν αγοραστικά µοτίβα πελατών και να ανακαλύψουν νέες ευκαιρίες που σχετίζονται µε την προώθηση διαφόρων προϊόντων και τις προσφορές Ιατρική και Βιοπληροφορική Στη σύγχρονη εποχή, η ανακάλυψη γνώσης σε βάσεις δεδοµένων χρησιµοποιείται ευρέως στους τοµείς της ιατρικής και βιοπληροφορικής. Στην ιατρική πολλά σύγχρονα εργαστήρια προσπαθούν να συσχετίσουν ασθένειες µε συµπτώµατα και διάφορα χαρακτηριστικά ασθενών, όπως ο τόπος διαµονής, οι διατροφικές συνήθειες, το ιστορικό ασθενειών κτλ. Με τον τρόπο αυτό, καθίσταται δυνατή η ανακάλυψη νέων φαρµάκων και αποτελεσµατικότερων χειρουργικών επεµβάσεων. Χαρακτηριστικό είναι το παράδειγµα της Merck-Medco, η οποία χρησιµοποιεί τεχνικές εξόρυξης δεδοµένων προκειµένου να ανακαλύψει λιγότερο ακριβές, αλλά εξίσου αποτελεσµατικές αγωγές για ορισµένους τύπους ασθενών (Roiger et al, 2003). Η εφαρµογή τεχνικών εξόρυξης γνώσης στον τοµέα της υγείας µπορεί να καταλήξει σε πολύτιµα συµπεράσµατα, όπως διαπίστωσαν οι Kaur et al (2006) έπειτα από τη µελέτη περίπτωσης που πραγµατοποίησαν, χρησιµοποιώντας τεχνικές εξόρυξης δεδοµένων βασισµένες στην ταξινόµηση, σε ένα µεγάλο σύνολο ιατρικών δεδοµένων αποτελούµενο από διαβητικούς ασθενείς. Τη σηµαντική συµβολή του data mining στον τοµέα της υγείας επιβεβαίωσαν και οι Srinivas et al (2010) οι οποίοι παρουσίασαν έξυπνες και αποτελεσµατικές µεθόδους πρόβλεψης καρδιακής προσβολής χρησιµοποιώντας τεχνικές εξόρυξης δεδοµένων. Με το συγκεκριµένο ιατρικό θέµα ασχολήθηκαν πρόσφατα και οι Soni et al (2011) οι οποίοι στη µελέτη τους παρουσίασαν µία επισκόπηση της παρούσας κατάστασης και σύγκριναν τεχνικές εξόρυξης γνώσης έπειτα από πειράµατα που πραγµατοποίησαν µε το ίδιο σύνολο δεδοµένων Η ΠΕΡΙΠΤΩΣΗ ΧΟΡΗΓΗΣΗΣ ΤΡΑΠΕΖΙΚΩΝ ΑΝΕΙΩΝ 39

40 ΚΕΦΑΛΑΙΟ 2: Εξόρυξη Γνώσης Στον τοµέα της Βιοπληροφορικής η εξόρυξη γνώσης παρουσιάζει µεγάλο ενδιαφέρον µιας και µέσω αυτής µπορούµε να εντοπίσουµε οµάδες γονιδίων που συµπεριφέρονται όµοια όταν εκτίθενται στους ίδιους παράγοντες, κάτι που βοηθά στην κατανόηση της λειτουργίας τους. Επίσης, οι επιστήµονες προσπαθούν να εξετάσουν τον τρόπο µε τον οποίο οι αλλαγές στην αλυσίδα του ανθρώπινου DNA επηρεάζουν τη διαφορετικότητα των ατόµων και την εκδήλωση διαφόρων ασθενειών. Αυτό είναι πολύ σηµαντικό για τη βελτίωση της διάγνωσης, την αποφυγή και τη θεραπεία ασθενειών Χρηµατοοικονοµική Στην επιστήµη των οικονοµικών, τεχνικές της µεθόδου Εξόρυξης εδοµένων, χρησιµοποιούνται από οικονοµικούς αναλυτές για τη λήψη στρατηγικών αποφάσεων στο ανάλογο κάθε φορά οικονοµικό πεδίο. Οι Kovalerchuk et al (2005) σε σχετικό τους σύγγραµµα αναλύουν µοντέλα εξόρυξης δεδοµένων και σχολιάζουν την πρακτική εφαρµογή τους στον τοµέα των χρηµατοοικονοµικών. Κάποια από τα χαρακτηριστικά τους παραδείγµατα σχετίζονται µε τη χρήση νευρωνικών δικτύων για τη διαχείριση χαρτοφυλακίου και την ανακάλυψη συστηµάτων ξεπλύµατος χρηµάτων µε τη χρήση κανόνων απόφασης. Ένας από τους τοµείς των χρηµατοοικονοµικών στον οποίο βρίσκουν εφαρµογή οι τεχνικές εξόρυξης δεδοµένων είναι εκτός των άλλων και το χρηµατιστήριο, παρέχοντας µ αυτόν τον τρόπο χρήσιµες πληροφορίες για επενδυτικές αποφάσεις (Langdell, 2002). Μία πρόσφατη επισκόπηση εκείνων των τεχνικών εξόρυξης δεδοµένων που βρίσκουν εφαρµογή στο χρηµατιστήριο παρουσιάζεται στην έρευνα των Hajizadeh et al (2010), η οποία επικεντρώνεται κυρίως στις εφαρµογές των κατάλληλων αλγορίθµων. Με την εφαρµογή του data mining στον ίδιο τοµέα ασχολήθηκαν και οι Tjung et al (2010), οι οποίοι σύγκριναν 2 µεθόδους, τη µέθοδο των ελαχίστων τετραγώνων (Ordinary Least Squares-OLS) και τα Νευρωνικά ίκτυα (Neural Network), προκειµένου να εντοπίσουν εκείνο το µοντέλο που θα µπορεί να προβλέψει καλύτερα τις αλλαγές στις τιµές των µετοχών. Τα αποτελέσµατα της έρευνάς τους επιβεβαίωσαν τη σηµαντική συµβολή του data mining στην πρόβλεψη χρηµατοοικονοµικών στοιχείων και κατέδειξαν ως πιο κατάλληλη τη χρήση Νευρωνικών δικτύων. Η ΠΕΡΙΠΤΩΣΗ ΧΟΡΗΓΗΣΗΣ ΤΡΑΠΕΖΙΚΩΝ ΑΝΕΙΩΝ 40

41 ΚΕΦΑΛΑΙΟ 2: Εξόρυξη Γνώσης Οι τεχνικές εξόρυξης δεδοµένων βρίσκουν εφαρµογή και στον τοµέα της ελεγκτικής. Χαρακτηριστική είναι η περίπτωση των Kirkos et al (2010), οι οποίοι χρησιµοποίησαν τρεις τεχνικές, τα δέντρα απόφασης, τα νευρωνικά δίκτυα τύπου πολυεπίπεδου perceptron (Μultilayer Perceptron MLP) και τη µέθοδο των k- κοντινότερων γειτόνων, για να προτείνουν µοντέλα ικανά να ταξινοµήσουν την κατηγορία του ορισθέντος ελεγκτή. Οι συγγραφείς σύγκριναν αυτές τις τρεις µεθόδους µε την ευρέως χρησιµοποιούµενη µέθοδο της λογιστικής παλινδρόµησης. Τα αποτελέσµατα έδειξαν ότι οι τα δέντρα απόφασης παρουσιάζουν καλύτερη απόδοση έναντι των άλλων µεθόδων, καθώς επίσης τα δέντρα απόφασης µαζί µε τα νευρωνικά δίκτυα τύπου πολυεπίπεδου perceptron (Μultilayer Perceptron MLP) υπερτερούν έναντι της λογιστικής παλινδρόµησης Ασφάλεια Η εξόρυξη δεδοµένων και κατ επέκταση η ανακάλυψη γνώσης είναι ένα ισχυρό εργαλείο και στον τοµέα της ασφάλειας. Στην έρευνα των Chen et al (2004) παρουσιάζεται ένα γενικό πλαίσιο σχετικά µε την εφαρµογή τεχνικών ανακάλυψης γνώσης για την αντιµετώπιση διαφόρων ειδών εγκληµάτων και παρουσιάζονται σχετικά παραδείγµατα. Σύµφωνα µε τους συγγραφείς, η συµβολή των τεχνικών αυτών είναι ιδιαίτερα σηµαντική µιας και µέσω αυτών µειώνονται οι πιθανότητες λάθους και αυξάνεται η αποτελεσµατικότητα στον εντοπισµό εγκληµάτων. Ένα ενδεικτικό παράδειγµα αποτελεί η εφαρµογή µεθόδων εξόρυξης δεδοµένων από εταιρείες πιστωτικών καρτών για την ανίχνευση παράνοµης χρήσης των υπηρεσιών τους. Πολλές εταιρείες µε διάφορου είδους προϊόντα και υπηρεσίες αντιµετωπίζουν τέτοιου είδους προβλήµατα. Χαρακτηριστικό παράδειγµα αποτελεί η γνωστή εταιρεία τηλεπικοινωνιών Bell Atlantic, η οποία χρηµατοδότησε µία µελέτη περίπτωσης για την ανάπτυξη ενός προσαρµοστικού συστήµατος εξόρυξης δεδοµένων για την ανίχνευση απάτης σχετικά µε την παράνοµη αντιγραφή και χρήση κινητών τηλεφώνων, η οποία προκαλούσε δυσαρέσκεια στους πελάτες και πολλά έξοδα για τους παρόχους κινητής τηλεφωνίας. (Klosgen et al, 2002). Η εξόρυξη δεδοµένων έχει εφαρµοστεί µε επιτυχία από ελεγκτικές και ασφαλιστικές εταιρείες για την πρόληψη και αποφυγή διαφόρων τύπων απάτης. Από την αναγνώριση κακόβουλων ενεργειών σε συναλλαγές, µπορεί κανείς να αντιληφθεί Η ΠΕΡΙΠΤΩΣΗ ΧΟΡΗΓΗΣΗΣ ΤΡΑΠΕΖΙΚΩΝ ΑΝΕΙΩΝ 41

42 ΚΕΦΑΛΑΙΟ 2: Εξόρυξη Γνώσης συναλλαγές που µπορεί να σχετίζονται µε παραποιήσεις οικονοµικών καταστάσεων ή άλλου είδους απάτες (Kirkos et al, 2007) Αθλητισµός Η ανακάλυψη γνώσης έχει διεισδύσει και στον τοµέα των αθλητικών γεγονότων. Για παράδειγµα, ο Εθνικός Σύνδεσµος Καλαθοσφαίρισης της Αµερικής (National Basketball Association - NBA) χρησιµοποιεί µία εφαρµογή η οποία συλλέγει στατιστικά δεδοµένα και εικόνες καταγεγραµµένες από καλαθοσφαιρικούς αγώνες για να αναλύσει τις κινήσεις των παιχτών, βοηθώντας τους προπονητές στην επιλογή κατάλληλων παιχτών και στρατηγικών. Η πολύτιµη αυτή εφαρµογή βασίζεται στην εξόρυξη δεδοµένων και λύνει τα χέρια των ιθυνόντων στα τµήµατα scouting των οµάδων (Bhandari et al, 1997). Επίσης, εφαρµογές που βασίζονται σε τεχνικές εξόρυξης δεδοµένων εφαρµόζονται και από τα ποδοσφαιρικά τµήµατα διαφόρων οµάδων. Συγκεκριµένα, οι οµάδες στην προσπάθειά τους να εντάξουν στο δυναµικό τους παίκτες που διαθέτουν ένα σύνολο επιθυµητών χαρακτηριστικών (τεχνικά χαρακτηριστικά, αγωνιστική θέση, τιµή, κτλ.), κάνουν χρήση εφαρµογών ανακάλυψης γνώσης. Οι εφαρµογές αυτές κατηγοριοποιούν το σύνολο των πιθανών µεταγραφικών στόχων σε κατηγορίες ή δηµιουργούν από αυτούς οµάδες παικτών µε κοινά χαρακτηριστικά. Έπειτα, τα τεχνικά επιτελεία των εκάστοτε οµάδων καλούνται να πάρουν τις τελικές αποφάσεις για τις µεταγραφικές τους κινήσεις Παγκόσµιος Ιστός Ο τεράστιος όγκος πληροφοριών που υπάρχει διαθέσιµος στο διαδίκτυο σε συνδυασµό µε την ελεύθερη πρόσβαση σε αυτό, λειτουργούν εποικοδοµητικά στην εφαρµογή τεχνικών ανακάλυψης γνώσης στο διαδίκτυο. Το πιο δηµοφιλές παράδειγµα είναι η Google. Για να γίνει πιο κατανοητή η σηµαντικότητα της συνεισφοράς αυτής θα πρέπει να αντιληφθούµε πως ο όγκος της πληροφορίας που υπάρχει µέχρι τώρα στο διαδίκτυο είναι αδύνατο να µετρηθεί µε ακρίβεια. Η ΠΕΡΙΠΤΩΣΗ ΧΟΡΗΓΗΣΗΣ ΤΡΑΠΕΖΙΚΩΝ ΑΝΕΙΩΝ 42

43 ΚΕΦΑΛΑΙΟ 2: Εξόρυξη Γνώσης Η Google και γενικά ο τοµέας της ανακάλυψης γνώσης στο ιαδίκτυο έχουν σήµερα τεράστια επιτυχία γιατί έχουν εκπληρώσει δυο σηµαντικούς στόχους. Πρώτον, µπορούν να κάνουν αναζήτηση σε υπέρογκα δεδοµένα µέσα σε πολύ σύντοµο χρόνο και δεύτερον, µπορούν να επιστρέψουν σε κάθε ερώτηµα τα πρώτα αποτελέσµατα που είναι πιο χρήσιµα. Έτσι, ο χρήστης λαµβάνει γρήγορα και εύκολα µόνο τις ουσιώδεις πληροφορίες που χρειάζεται. Ένα άλλο κοµµάτι του διαδικτύου, στο οποίο εφαρµόζονται τεχνικές ανακάλυψης γνώσης είναι τα διαδικτυακά κοινωνικά δίκτυα (Social Network Sites - SNS). Χαρακτηριστικά παραδείγµατα των SNS είναι το Facebook και το Hi5, τα οποία έγιναν δηµοφιλή, γιατί επιτρέπουν στους χρήστες να µοιράζουν εύκολα περιεχόµενο. Περιλαµβάνουν gigabytes από δεδοµένα τα οποία µπορούν να υποστούν εξόρυξη. Τα SNS συγκεντρώνουν πληροφορίες από τις κοινωνικές επαφές των χρηστών, κατασκευάζουν ένα διασυνδεδεµένο κοινωνικό δίκτυο και προτείνουν άλλα άτοµα στους χρήστες βασιζόµενα σε κοινούς φίλους (Symeonidis et al, 2010). Η ΠΕΡΙΠΤΩΣΗ ΧΟΡΗΓΗΣΗΣ ΤΡΑΠΕΖΙΚΩΝ ΑΝΕΙΩΝ 43

44 ΚΕΦΑΛΑΙΟ 3: Εξόρυξη Γνώσης στη Λογιστική-Χρηµατοοικονοµική Κ Ε Φ Α Λ Α Ι Ο 3 : Ε Ξ Ο Ρ Υ Ξ Η Γ Ν Ω Σ Η Σ Σ Τ Η Λ Ο Γ Ι Σ Τ Ι Κ Η - Χ Ρ Η Μ ΑΤ Ο Ο Ι Κ Ο Ν Ο Μ Ι Κ Η Η ΠΕΡΙΠΤΩΣΗ ΧΟΡΗΓΗΣΗΣ ΤΡΑΠΕΖΙΚΩΝ ΑΝΕΙΩΝ 44

45 ΚΕΦΑΛΑΙΟ 3: Εξόρυξη Γνώσης στη Λογιστική-Χρηµατοοικονοµική ΕΞΟΡΥΞΗ ΓΝΩΣΗΣ ΣΤΗ ΛΟΓΙΣΤΙΚΗ - ΧΡΗΜΑΤΟΟΙΚΟΝΟΜΙΚΗ Η εξόρυξη γνώσης βρίσκει εφαρµογή σε πολλούς τοµείς της λογιστικήςχρηµατοοικονοµικής. Μάλιστα αξίζει να αναφέρουµε ότι αυτή η νέα ερευνητική περιοχή έγινε πολύ γρήγορα δηµοφιλής στον κόσµο των επιχειρήσεων και συγκέντρωσε την προσοχή και το ενδιαφέρον τους σε πολύ µεγαλύτερο επίπεδο από ότι η στατιστική ανάλυση, την οποία χρησιµοποιούσαν κατά κόρον για πολλά χρόνια. Ο βασικότερος λόγος για τον οποίο η εξόρυξη γνώσης είναι τόσο δηµοφιλής στις επιχειρήσεις είναι το πραγµατικά µεγάλο οικονοµικό όφελος που εξασφαλίζει (Jessen et al, 2001). Πρόκειται ουσιαστικά για έναν αναδυόµενο τοµέα στη Λογιστική- Χρηµατοοικονοµική µε οφέλη τόσο για τις επιχειρήσεις και τους επαγγελµατίες, όσο και για τους ακαδηµαϊκούς ερευνητές. Η Πρόβλεψη του χρηµατιστηρίου, της συναλλαγµατικής ισοτιµίας, των τραπεζικών πτωχεύσεων, η κατανόηση και διαχείριση του χρηµατοοικονοµικού κινδύνου, των προθεσµιακών συναλλαγών, της πιστοληπτικής αξιολόγησης, της διαχείρισης δανείων, του προφίλ των πελατών της τράπεζας, και οι αναλύσεις του «ξεπλύµατος» χρηµάτων είναι βασικές οικονοµικές εργασίες της εξόρυξης γνώσης. (Kovalerchuk et al, 2005) 3.1 ΠΕΡΙΟΧΕΣ ΕΦΑΡΜΟΓΗΣ ΚΑΙ ΕΙ ΙΚΕΣ ΕΡΕΥΝΗΤΙΚΕΣ ΜΕΛΕΤΕΣ Ένας από τους δηµοφιλείς τοµείς εφαρµογής της εξόρυξης δεδοµένων είναι όπως έχουµε ήδη αναφέρει η Λογιστική-Χρηµατοοικονοµική. Τα χρηµατοοικονοµικά στοιχεία συλλέγονται από πολλούς οργανισµούς όπως τράπεζες, χρηµατιστηριακές αρχές, φορολογικές αρχές, µεγάλα λογιστικά γραφεία, ελεγκτές εξειδικευµένων βάσεων δεδοµένων κλπ και σε ορισµένες περιπτώσεις είναι διαθέσιµα στο κοινό. Τα εργαλεία εξόρυξης δεδοµένων έχουν καταστεί πολύ σηµαντικά για λογιστικά και χρηµατοοικονοµικά δεδοµένα. Η ταξινόµησή τους και οι ικανότητες πρόβλεψής τους, τούς δίνουν τη δυνατότητα να µπορούν να χρησιµοποιηθούν για την πρόβλεψη πτώχευσης, την πρόβλεψη οµαλής λειτουργίας και δηµοσιονοµικού ελέγχου, την ανίχνευση της απάτης, την πρόβλεψη των εταιρικών επιδόσεων, την Η ΠΕΡΙΠΤΩΣΗ ΧΟΡΗΓΗΣΗΣ ΤΡΑΠΕΖΙΚΩΝ ΑΝΕΙΩΝ 45

46 ΚΕΦΑΛΑΙΟ 3: Εξόρυξη Γνώσης στη Λογιστική-Χρηµατοοικονοµική εκτίµηση πιστωτικού κινδύνου και την πρόβλεψη εξαγοράς επιχειρήσεων. Όλα τα παραπάνω αναπτύσσονται στη συνέχεια Πρόβλεψη Πτώχευσης Υπάρχουν πολλοί ορισµοί σχετικά µε την πτώχευση καθώς και διαφορετικές ερµηνείες σχετικά µε την πραγµατική της έννοια. Πολλοί πιστεύουν πως στην περίπτωση που µία επιχείρηση ή οικονοµικός οργανισµός πτωχεύει, καταλήγει σε κατάρρευση και διάλυση, κάτι το οποίο δεν ισχύει πάντα. Γενικότερα, υπάρχουν δύο είδη πτώχευσης, η Οικονοµική πτώχευση (Economic failure) και η Χρηµατοοικονοµική πτώχευση (Financial failure) ( ούµπος et al, 2001). Μιλώντας για οικονοµική πτώχευση, εννοούµε την περίπτωση κατά την οποία τα έσοδα µιας επιχείρησης δεν καλύπτουν το κόστος. Μπορεί ακόµα να σηµαίνει πως τα κέρδη ενός οργανισµού ως ποσοστό του ιστορικού κόστους των επενδύσεων είναι µικρότερα από το κόστος των κεφαλαίων της. Τέλος, µπορεί να σηµαίνει ότι οι πραγµατικές αποδόσεις υστερούν σε σχέση µε τις αναµενόµενες. Στην περίπτωση της χρηµατοοικονοµικής πτώχευσης η επιχείρηση δεν µπορεί να αντιµετωπίσει τις τρέχουσες υποχρεώσεις της µόλις καταστούν αυτές απαιτητές, παρά το γεγονός ότι τα συνολικά επενδυόµενα κεφάλαιά της µπορεί να υπερβαίνουν τις συνολικές της υποχρεώσεις. Αυτό το φαινόµενο είναι γνωστό και ως τεχνική αδυναµία πληρωµών. Ειδικότερα πάντως, µία επιχείρηση θεωρείται χρεοκοπηµένη ή σε πτώχευση όταν οι συνολικές της υποχρεώσεις υπερβαίνουν µια «λογική» αποτίµηση του ενεργητικού της, δηλαδή η «πραγµατική» καθαρή θέση της επιχείρησης είναι αρνητική. Η πρόβλεψη πτώχευσης φαίνεται να είναι το πιο δηµοφιλές θέµα εφαρµογής των τεχνικών εξόρυξης δεδοµένων για οικονοµικά στοιχεία. Η εταιρική πτώχευση προκαλεί οικονοµικές ζηµιές για τη διαχείριση, τους επενδυτές, τους πιστωτές και τους εργαζοµένους και, επίσης, έχει κοινωνικό κόστος. Για τους παραπάνω λόγους, η πρόβλεψη πτώχευσης είναι ένα σηµαντικό ζήτηµα στα οικονοµικά. Η πρόβλεψη πτώχευσης χρησιµοποιώντας καταστάσεις χρηµατοοικονοµικών δεδοµένων πηγάζει από το έργο του Altman το Ο Altman υποστηρίζει ότι η αποτυχία των επιχειρήσεων είναι µια µακρόχρονη διαδικασία και ότι οι καταστάσεις οικονοµικών στοιχείων θα πρέπει να περιλαµβάνουν προειδοποιητικά σήµατα για την Η ΠΕΡΙΠΤΩΣΗ ΧΟΡΗΓΗΣΗΣ ΤΡΑΠΕΖΙΚΩΝ ΑΝΕΙΩΝ 46

47 ΚΕΦΑΛΑΙΟ 3: Εξόρυξη Γνώσης στη Λογιστική-Χρηµατοοικονοµική επικείµενη πτώχευση. Με την εφαρµογή τεχνικών πολλαπλών διακριτών αναλύσεων (Multiple Discriminant Analysis Techniques), ο Altman ανέπτυξε ένα µοντέλο για την πρόβλεψη πτώχευσης (Altman, 1968). Βασισµένοι στο έργο του Altman, πολλοί ερευνητές ανέπτυξαν εναλλακτικά µοντέλα χρησιµοποιώντας στατιστικές τεχνικές. Τα τελευταία χρόνια έρευνας, έχει καταβληθεί προσπάθεια για τη δηµιουργία µοντέλων που χρησιµοποιούν τεχνικές εξόρυξης δεδοµένων. Στη συνέχεια θα παρουσιάσουµε επιλεκτικά κάποιες από αυτές τις αξιόλογες προσπάθειες. Οι Dimitras et al. (1998) εφάρµοσαν τη µέθοδο των Τραχέων Συνόλων (Rough Sets) για να προβλέψουν περιπτώσεις πτώχευσης. Η επιλογή των µεταβλητών εισόδου έγινε από ένα στέλεχος πιστώσεων µιας ελληνικής τράπεζας. Οι επιδόσεις υπολογίστηκαν µε χρήση δείγµατος επικύρωσης και συγκρίθηκαν µε τις επιδόσεις των στατιστικών µεθόδων της Ανάλυσης ιάκρισης και της Ανάλυσης Logit. Η σύγκριση κατέδειξε ότι το µοντέλο της µεθόδου των Τραχέων Συνόλων πέτυχε υψηλότερο ρυθµό ακρίβειας από τις άλλες µεθόδους, οι επιδόσεις όµως ήταν αρκετά χαµηλές, σε ποσοστό περίπου 60%. Οι Konno et al (2000) εφάρµοσαν τη µέθοδο Ηµι-καθορισµένου Προγραµµατισµού (Semi-Definite Programming) για να προβλέψουν τις περιπτώσεις πτώχευσης και για να εκτιµήσουν την πιστοληπτική ικανότητα επιχειρήσεων. Ως µεταβλητές εισόδου χρησιµοποιήθηκαν 6 χρηµατοοικονοµικοί αριθµοδείκτες που βρέθηκαν σηµαντικοί σε προηγούµενες έρευνες. Το δείγµα που χρησιµοποιήθηκε ήταν µη σταθµισµένο και περιείχε µόλις 7 χρεοκοπηµένες εταιρείες σε σύνολο 455 παρατηρήσεων. Εφαρµόσθηκαν 3 διαφορετικές εκδοχές της µεθόδου, ενώ δεν έγινε σύγκριση µε άλλες µεθόδους. Για την εκτίµηση των επιδόσεων δεν εφαρµόστηκε κάποια µέθοδος επικύρωσης, ενώ οι ρυθµοί ακρίβειας ξεπέρασαν το 91%. Οι Lin et al (2001) προσπάθησαν να προβλέψουν την εταιρική χρεοκοπία χρησιµοποιώντας τέσσερις διαφορετικές µεθόδους. ύο από τις µεθόδους είναι στατιστικές ( ιακριτή Ανάλυση - Discriminant Analysis και Λογιστική Παλινδρόµηση - Logistic Regression), ενώ οι άλλες δύο µέθοδοι είναι τεχνικές µηχανικής µάθησης ( έντρα Αποφάσεων C5.0 - Decision Trees C5.0 και Νευρωνικά ίκτυα - Neural Networks). Επιπλέον, πρότειναν και µία πρόσθετη υβριδική µέθοδο που συµψήφιζε τις προβλέψεις των προηγούµενων µεθόδων. Επικύρωση των µοντέλων έγινε µε διάσπαση του δείγµατος σε δείγµα εκπαίδευσης και δείγµα επικύρωσης. Συγκεκριµένα, το δείγµα τους περιελάµβανε στοιχεία από Η ΠΕΡΙΠΤΩΣΗ ΧΟΡΗΓΗΣΗΣ ΤΡΑΠΕΖΙΚΩΝ ΑΝΕΙΩΝ 47

48 ΚΕΦΑΛΑΙΟ 3: Εξόρυξη Γνώσης στη Λογιστική-Χρηµατοοικονοµική εταιρείες του Ηνωµένου Βασιλείου. Οι 690 µη αποτυχηµένες εταιρείες και οι 106 αποτυχηµένες εταιρείες χρησιµοποιήθηκαν για εκπαίδευση, από τις οποίες 289 µη αποτυχηµένες εταιρείες και 48 αποτυχηµένες εταιρείες χρησιµοποιήθηκαν για δοκιµή. εν έγινε καµία προσπάθεια να ταιριάξουν οι αποτυχηµένες και οι µη αποτυχηµένες εταιρείες. Για µεταβλητές εισόδου επιλέχθηκαν 37 χρηµατοοικονοµικοί δείκτες που προήλθαν από τον ισολογισµό και τις καταστάσεις λογαριασµών. ύο χαρακτηριστικές µέθοδοι επιλογής έχουν ασχοληθεί µε τη µείωση των µεταβλητών εισόδου σε 4, χρησιµοποιώντας την ανθρώπινη κρίση, και σε 15 µε τη χρήση της ANOVA. Γενικότερα, οι µέθοδοι µηχανικής µάθησης πέτυχαν υψηλότερες επιδόσεις από τις στατιστικές µεθόδους και κυµάνθηκαν περίπου στο 88%, ενώ οριακά καλύτερες επιδόσεις πέτυχε το υβριδικό µοντέλο. Οι Shin et al (2002) πρότειναν ένα µοντέλο που βασίζεται στους γενετικούς αλγορίθµους. Οι συγγραφείς τόνισαν το γεγονός ότι σε αντίθεση µε τα νευρωνικά δίκτυα, οι γενετικοί αλγόριθµοι µπορούν να παράγουν κατανοητούς κανόνες. Οι γενετικοί αλγόριθµοι εφαρµόστηκαν για να βρεθούν τα όρια για µία ή περισσότερες µεταβλητές, πάνω ή κάτω από τα οποία µια εταιρεία θεωρείται επικίνδυνη. Το µοντέλο χρησιµοποίησε µια δοµή κανόνα που περιέχει 5 συνθήκες. Οι συνθήκες αυτές συνδυάστηκαν µε τη λογική πύλη ΚΑΙ (AND). Το σύνολο των στοιχείων περιείχε 264 αποτυχηµένες και 264 µη αποτυχηµένες επιχειρήσεις, ενώ 9 οικονοµικοί δείκτες έχουν επιλεγεί ως µεταβλητές εισόδου. Το 90% του δείγµατος χρησιµοποιήθηκε για εκπαίδευση και το 10% για επιβεβαίωση. Η αναφερόµενη γενική επίδοση ήταν περίπου 80%. Οι Kim et al (2003) ανέπτυξαν ένα ποιοτικό µοντέλο, στόχος του οποίου ήταν η δηµιουργία κανόνων πρόβλεψης µε βάση τη γνώµη ειδικών στελεχών µιας τράπεζας. Οι εµπειρογνώµονες που συµµετείχαν εργάστηκαν µε υποκειµενική γνώση αξιολογώντας τα ποιοτικά και ποσοτικά στοιχεία. Το µοντέλο χρησιµοποίησε µια µέθοδο γενετικού αλγορίθµου. Προκειµένου να προβλέψουν την πτώχευση, οι εµπειρογνώµονες αξιολόγησαν 6 µείζονες παράγοντες κινδύνου. Στο µοντέλο ένα χρωµόσωµα περιείχε 6 τµήµατα που αντιπροσώπευαν µια κατηγοριοποίηση της επιχείρησης σύµφωνα µε τους 6 παράγοντες κινδύνου. Ένα 7ο τµήµα στο χρωµόσωµα χαρακτήριζε την επιχείρηση ως χρεοκοπηµένη ή µη χρεοκοπηµένη. Τα δεδοµένα του δείγµατος προέρχονταν από 772 εταιρείες, εκ των οποίων οι µισές είχαν κηρύξει πτώχευση. Οι εµπειρογνώµονες αξιολόγησαν τους 6 παράγοντες κινδύνου Η ΠΕΡΙΠΤΩΣΗ ΧΟΡΗΓΗΣΗΣ ΤΡΑΠΕΖΙΚΩΝ ΑΝΕΙΩΝ 48

49 ΚΕΦΑΛΑΙΟ 3: Εξόρυξη Γνώσης στη Λογιστική-Χρηµατοοικονοµική για αυτές τις εταιρείες. Η εξέλιξη της γενετικής διαδικασίας εξήγαγε 11 κανόνες για την πτώχευση. Οι κανόνες που προέκυψαν από τους γενετικούς αλγορίθµους αναφέρεται ότι έχουν καλύτερη ακρίβεια πρόβλεψης από τα νευρωνικά δίκτυα και την επαγωγική µάθηση. Οι Park et al (2002) σε µια µελέτη συλλογιστικής βασισµένη σε περιπτώσεις ανέπτυξαν ένα µοντέλο για την πρόβλεψη πτώχευσης. Ουσιαστικά πρότειναν µια βελτίωση της µεθόδου των k-πλησιέστερων Γειτόνων (k-νearest Νeighbors - k-nn), εισάγοντας βάρη στον υπολογισµό της συνάρτησης απόστασης. Τα βάρη υπολογίστηκαν χρησιµοποιώντας τη µέθοδο αναλυτικής ιεραρχικής διαδικασίας (Analytic Hierarchy Process - AHP). Το δείγµα περιλάµβανε 1072 αποτυχηµένες και 1072 µη αποτυχηµένες επιχειρήσεις. Για είσοδο επιλέχθηκαν 13 οικονοµικές και 15 µη οικονοµικές µεταβλητές. Η µέθοδος συγκρίθηκε µε µεθόδους k-πλησιέστερων Γειτόνων και συγκεκριµένα την απλή k-nn, τη logit k-nn και τη regression k-nn. Ο ρυθµός ακρίβειας που σηµείωσε η µέθοδος είναι 83%, ποσοστό υψηλότερο από τα αντίστοιχα των τριών άλλων παραλλαγών της k-nn. Οι Tung et al (2004) ασχολήθηκαν µε ένα υβριδικό µοντέλο ενσωµατώνοντας νευρωνικά δίκτυα και ασαφή συστήµατα, προκειµένου να προβλέψουν την πτώχευση τραπεζών. Το µοντέλο, που ονοµάστηκε «Γενική Αυτό-οργάνωση Ασαφών Νευρωνικών ικτύων» (Generic Self-organizing Fuzzy Neural Network), είναι ένας βασικός κανόνας, που αποτελείται από ασαφείς κανόνες If-Then, ο οποίος µπορεί να αυτορυθµίζει τις παραµέτρους των ασαφών κανόνων χρησιµοποιώντας αλγορίθµους µάθησης που προέρχονται από τα νευρωνικά δίκτυα. Το κύριο πλεονέκτηµα των ασαφών νευρωνικών δικτύων είναι σύµφωνα µε τους συγγραφείς η ικανότητά του να µοντελοποιεί ένα πρόβληµα µε τη χρήση ενός γλωσσικού µοντέλου υψηλού επιπέδου, το οποίο είναι εύκολα κατανοητό. Το µοντέλο εφαρµόστηκε για την πρόβλεψη τραπεζικών χρεοκοπιών. Tο δείγµα ήταν ισορροπηµένο να περιλαµβάνει ίσο αριθµό αποτυχηµένων και µη αποτυχηµένων τραπεζών. Οι µεταβλητές εισόδου ήταν 9 οικονοµικές µεταβλητές, οι οποίες έχουν αποδειχθεί σηµαντικές σε προηγούµενες µελέτες. Καταλήγοντας, αξίζει να αναφέρουµε ότι η πρόβλεψη χρεοκοπίας είναι η πιο δηµοφιλής δραστηριότητα της εξόρυξης γνώσης στον τοµέα των χρηµατοοικονοµικών, καθώς επίσης τα νευρωνικά δίκτυα είναι η πιο δηµοφιλής µέθοδος, σύµφωνα µε την εξαιρετική επισκόπηση που διεξήγαγαν στην έρευνά τους Η ΠΕΡΙΠΤΩΣΗ ΧΟΡΗΓΗΣΗΣ ΤΡΑΠΕΖΙΚΩΝ ΑΝΕΙΩΝ 49

50 ΚΕΦΑΛΑΙΟ 3: Εξόρυξη Γνώσης στη Λογιστική-Χρηµατοοικονοµική οι Kirkos et al (2004) σχετικά µε τις εφαρµογές της εξόρυξης γνώσης στον τοµέα των οικονοµικών και της λογιστικής Οµαλή Λειτουργία Και ηµοσιονοµικός Κίνδυνος Η εκτίµηση της κατάστασης οµαλής λειτουργίας δεν είναι εύκολο έργο. Μελέτες αναφέρουν ότι µόνο ένα σχετικά µικρό ποσοστό αποτυχηµένων επιχειρήσεων έχει τα προσόντα για µία συνεχιζόµενη δραστηριότητα (Koh, 2004). Για τη διευκόλυνση του έργου των ελεγκτών σχετικά µε την έκθεση οµαλής λειτουργίας, έχουν προταθεί στατιστικές και τεχνικές µηχανικής µάθησης (Kirkos et al, 2004). Οι Konno et al (2000) πρότειναν µια µέθοδο για την αξιολόγηση των επιχειρήσεων χρησιµοποιώντας τεχνικές µαθηµατικού προγραµµατισµού. Χρησιµοποιήθηκαν τρεις εναλλακτικές λύσεις βασισµένες στις διακρίσεις µε υπερεπίπεδα (hyperplane), στις διακρίσεις µε τετραγωνική επιφάνεια και στις διακρίσεις µε ελλειπτική επιφάνεια. Ως µεταβλητές εισόδου χρησιµοποιήθηκαν 6 χρηµατοοικονοµικοί δείκτες που προέρχονται από οικονοµικές καταστάσεις. Τα δεδοµένα προέρχονταν από δείγµα 455 επιχειρήσεων και η µέθοδος υπολόγισε µια βαθµολογία για κάθε επιχείρηση. Οι Tan et al (2001) βασίστηκαν σε µια προηγούµενη µελέτη του Tan και προσπάθησαν να προβλέψουν το δηµοσιονοµικό κίνδυνο για τις πιστωτικές ενώσεις της Αυστραλίας χρησιµοποιώντας νευρωνικά δίκτυα. Στην προηγούµενη µελέτη του, ο Tan χρησιµοποίησε τριµηνιαία οικονοµικά στοιχεία και προσπάθησε να προβλέψει τον κίνδυνο σε τριµηνιαία βάση. Οι Tan και Dihardjo βελτίωσαν τη µέθοδο µε την εισαγωγή της έννοιας «πρόωρος ανιχνευτής». Όταν το µοντέλο προβλέπει ότι η πιστωτική ένωση θα συντριφθεί σε ένα συγκεκριµένο τρίµηνο και η ένωση πράγµατι συντρίβεται σε ένα επόµενο τρίµηνο, το πολύ σε τέσσερα τρίµηνα, το τρίµηνο χαρακτηρίζεται ως «πρόωρος ανιχνευτής». Αυτή η βελτιωµένη µέθοδος παρουσιάζει καλύτερες επιδόσεις σε σχέση µε την προηγούµενη. Χρησιµοποιήθηκαν 13 χρηµατοοικονοµικοί δείκτες ως µεταβλητές εισόδου και ένα δείγµα 2144 παρατηρήσεων. Τα αποτελέσµατα συγκρίθηκαν µε εκείνα του µοντέλου Probit και διαπιστώθηκε ότι ήταν οριακά καλύτερα. Ο Koh (2004) σύγκρινε τις µεθόδους νευρωνικών δικτύων, δέντρων αποφάσεων και λογιστικής παλινδρόµησης σε µια µελέτη πρόβλεψης οµαλής Η ΠΕΡΙΠΤΩΣΗ ΧΟΡΗΓΗΣΗΣ ΤΡΑΠΕΖΙΚΩΝ ΑΝΕΙΩΝ 50

51 ΚΕΦΑΛΑΙΟ 3: Εξόρυξη Γνώσης στη Λογιστική-Χρηµατοοικονοµική λειτουργίας. Το δείγµα των δεδοµένων του περιείχε 165 επιχειρήσεις που λειτουργούσαν οµαλά και 165 που δεν λειτουργούσαν οµαλά. Επιλέχθηκαν 6 χρηµατοοικονοµικοί δείκτες που χρησιµοποιήθηκαν ως µεταβλητές εισόδου. Ο Koh αναφέρει ότι τα δέντρα αποφάσεων είχαν καλύτερες επιδόσεις από τις άλλες δύο µεθόδους Πρόβλεψη Απάτης Όταν τα στοιχεία µιας οικονοµικής δήλωσης περιέχουν παραποιήσεις και δεν αναπαριστούν την πραγµατικότητα, τότε αναφερόµαστε σε απάτη. Με τις απάτες που διαπράττονται από διευθυντικά στελέχη µε παραποιηµένες οικονοµικές καταστάσεις ασχολείται η διαχείριση της απάτης, η οποία σχετίζεται µε τις φορολογικές αρχές, τους µετόχους και τους πιστωτές. Τα τελευταία χρόνια παρουσιάζεται έντονο το φαινόµενο πρακτικών εξαπάτησης από τις διοικήσεις επιχειρήσεων. Χαρακτηριστική είναι η περίπτωση της ENRON, του ενεργειακού κολοσσού που αποτέλεσε ένα από τα µεγαλύτερα οικονοµικά και χρηµατιστηριακά σκάνδαλα στην ιστορία των ΗΠΑ. Σύµφωνα µε µελέτες, η διοικητική απάτη στις ΗΠΑ κοστίζει 400 δις δολάρια σε ετήσια βάση (Wells, 1997). Οι Green et al (1997) ανέπτυξαν ένα µοντέλο για τον εντοπισµό απάτης, χρησιµοποιώντας Νευρωνικά ίκτυα. Το διάνυσµα εισόδου αποτελούνταν από 5 αριθµοδείκτες και 3 λογαριασµούς που επιλέχθηκαν µε βάση προηγούµενες εργασίες. Τα αποτελέσµατα που προέκυψαν από τη συγκεκριµένη έρευνα, αποδεικνύουν την ικανότητα των Νευρωνικών ικτύων να ανιχνεύσουν τις περιπτώσεις απάτης. Επίσης, οι Fanning et al (1998) προκειµένου να προβλέψουν περιπτώσεις παραποίησης χρηµατοοικονοµικών καταστάσεων, εφάρµοσαν τη µέθοδο των Νευρωνικών ικτύων. Οι µεταβλητές εισόδου επιλέχθηκαν µε χρήση των µεθόδων της Μονοµεταβλητής και Πολυµεταβλητής Ανάλυσης (Univariate - Multivariate Analysis), ενώ η µέτρηση των επιδόσεων έγινε µε χρήση δείγµατος επικύρωσης. Το µοντέλο Νευρωνικού ικτύου συγκρίθηκε µε τις µεθόδους της Γραµµικής και Τετραγωνικής Ανάλυσης ιάκρισης (Linear - Quadratic Discriminant Analysis) καθώς και µε τη µέθοδο Logit. Σύµφωνα µε τα αποτελέσµατα των ερευνητών, το Νευρωνικό ίκτυο είχε καλύτερη επίδοση από τις άλλες τρεις µεθόδους, πετυχαίνοντας ακρίβεια σε ποσοστό 63%. Η ΠΕΡΙΠΤΩΣΗ ΧΟΡΗΓΗΣΗΣ ΤΡΑΠΕΖΙΚΩΝ ΑΝΕΙΩΝ 51

52 ΚΕΦΑΛΑΙΟ 3: Εξόρυξη Γνώσης στη Λογιστική-Χρηµατοοικονοµική Ο Spathis (2002) χρησιµοποιώντας δηµοσιευµένα στοιχεία ανέπτυξε δύο µοντέλα για τον εντοπισµό παραποιηµένων οικονοµικών καταστάσεων. Οι µεταβλητές εισόδου για το πρώτο µοντέλο περιλαµβάνουν 9 χρηµατοοικονοµικούς δείκτες. Για το δεύτερο µοντέλο προστέθηκε η z-score ως µεταβλητή για να συµβαδίσει η σχέση µεταξύ του δηµοσιονοµικού κινδύνου και του χειρισµού του δηµοσιονοµικού δελτίου. Το δείγµα δεδοµένων που χρησιµοποιήθηκε αποτελούνταν από 38 επιχειρήσεις µε παραποιηµένες οικονοµικές καταστάσεις και 38 επιχειρήσεις χωρίς παραποιηµένες οικονοµικές καταστάσεις, ενώ χρησιµοποιούµενη µέθοδος ήταν η λογιστική παλινδρόµηση. Τα αποτελέσµατα απέδειξαν ότι τα µοντέλα λειτουργούν αποτελεσµατικά για τον εντοπισµό παραποιηµένων οικονοµικών καταστάσεων και θα µπορούσαν να αποδειχθούν χρήσιµα για ελεγκτές, τόσο για τον εσωτερικό όσο και για τον εξωτερικό έλεγχο, για τη φορολογία και για το τραπεζικό σύστηµα. Οι Kirkos et al (2007) προκειµένου να εντοπίσουν παραποιηµένες χρηµατοοικονοµικές καταστάσεις, συνέκριναν τρεις διαφορετικές µεθόδους Εξόρυξης εδοµένων. Οι µέθοδοι που χρησιµοποιήθηκαν ήταν τα Νευρωνικά ίκτυα, τα ένδρα Αποφάσεων και τα Μπαϋεσιανά ίκτυα Πίστης (Bayesian Belief Networks BBN). Η επιλογή των µεταβλητών εισόδου έγινε µε χρήση της µεθόδου της Ανάλυσης ιασποράς µε έναν παράγοντα (one-way ANOVA) και η επικύρωση των µοντέλων µε τη µέθοδο επικύρωσης 10 τµηµάτων. Το Μπαϋεσιανό ίκτυο Πίστης σηµείωσε τις υψηλότερες επιδόσεις. Αξίζει να σηµειώσουµε ότι σηµαντικοί παράγοντες που σχετίζονται µε την παραποίηση των χρηµατοοικονοµικών καταστάσεων είναι, σύµφωνα µε την έρευνα, η οικονοµική δυσπραγία και η κερδοφορία. Οι Apparao et al (2009) έπειτα από τη µελέτη 23 προηγούµενων ερευνών, παρουσίασαν την τρέχουσα κατάσταση σχετικά µε την ανίχνευση οικονοµικής απάτης προκειµένου να ταξινοµηθούν και να γίνουν κατανοητοί οι διάφοροι συνδυασµοί των τεχνικών ανίχνευσης τέτοιου είδους απάτης καθώς και οι αλγόριθµοι εξόρυξης δεδοµένων. Το γενικό πλαίσιο που πρότειναν οι συγγραφείς διευκολύνει την αξιολόγηση των διαφορετικών χαρακτηριστικών των αλγορίθµων ανίχνευσης απάτης σύµφωνα µε κάποια κριτήρια αξιολόγησης. Επίσης, ενδιαφέρουσα είναι και η διερευνητική µελέτη που διεξήγαγαν οι Debreceny et al (2010) σχετικά µε την εφαρµογή τεχνικών εξόρυξης γνώσης σε ηµερολογιακές εγγραφές για την ανίχνευση απάτης. Για τις ανάγκες της έρευνας, Η ΠΕΡΙΠΤΩΣΗ ΧΟΡΗΓΗΣΗΣ ΤΡΑΠΕΖΙΚΩΝ ΑΝΕΙΩΝ 52

53 ΚΕΦΑΛΑΙΟ 3: Εξόρυξη Γνώσης στη Λογιστική-Χρηµατοοικονοµική χρησιµοποιήθηκαν δεδοµένα ηµερολογιακών εγγραφών από 29 διαφορετικούς οργανισµούς. Σύµφωνα µε τους συγγραφείς, υπάρχουν σαφείς ενδείξεις της σηµασίας των ηµερολογιακών εγγραφών κατά τη διεξαγωγή χρηµατοοικονοµικής απάτης την τελευταία δεκαετία, µε χαρακτηριστικό παράδειγµα την διαβόητη απάτη του τηλεπικοινωνιακού κολοσσού των ΗΠΑ, της WorldCom, την οποία πραγµατοποίησαν υψηλόβαθµα στελέχη της. Η παραπάνω έρευνα αποτελεί σηµαντικό κοµµάτι της βιβλιογραφίας όσον αφορά την ανάλυση δεδοµένων, την εξόρυξη δεδοµένων και την ανίχνευση απάτης σε ηµερολογιακές εγγραφές. Τέλος, αξιοσηµείωτη είναι και η έρευνα των Spathis et al (2002), οι οποίοι εξέτασαν την αποτελεσµατικότητα µιας καινοτόµου µεθόδου ταξινόµησης για τον εντοπισµό επιχειρήσεων που εκδίδουν παραποιηµένες οικονοµικές καταστάσεις και για τον προσδιορισµό παραγόντων που σχετίζονται µε αυτές. Η µέθοδος βασίζεται σε πολυκριτήρια ανάλυση αποφάσεων (Multicriteria Decision Aid - MCDA) και στην εφαρµογή της µεθόδου ταξινόµησης UTADIS (Utilites Additives Discriminantes). Για τις ανάγκες της έρευνας χρησιµοποιήθηκε ένα δείγµα από 76 ελληνικές επιχειρήσεις, 38 µε παραποιηµένες οικονοµικές καταστάσεις και 38 µε µη παραποιηµένες οικονοµικές καταστάσεις, καθώς και δέκα χρηµατοοικονοµικοί δείκτες. Οι µεταβλητές που επιλέχθηκαν από τις παραπάνω τεχνικές ως πιθανοί δείκτες για τον εντοπισµό παραποιηµένων οικονοµικών καταστάσεων είναι οι εξής: ο δείκτης συνολικού χρέους προς το σύνολο του ενεργητικού, τα αποθέµατα προς τις πωλήσεις, το καθαρό κέρδος προς τις πωλήσεις και οι πωλήσεις προς το σύνολο του ενεργητικού. Χρησιµοποιήθηκε επίσης η µέθοδος jackknife για την επικύρωση του µοντέλου και για τη σύγκριση του µοντέλου µε τις πολυπαραγοντικές στατιστικές τεχνικές της Ανάλυσης ιάκρισης (Discriminant Analysis) και της Ανάλυσης Logit (Logit Analysis). Τα αποτελέσµατα της έρευνας κατέδειξαν πως η προτεινόµενη µεθοδολογία MCDA υπερτερεί των παραδοσιακών στατιστικών τεχνικών που χρησιµοποιούνται ευρέως για τον εντοπισµό παραποιηµένων οικονοµικών καταστάσεων, γι αυτό η χρήση της προτείνεται για την αξιολόγηση του κινδύνου απάτης Πρόβλεψη Εταιρικής Επίδοσης Οι Back et al (2001) ανέπτυξαν δύο µοντέλα για να οµαδοποιήσουν εταιρείες ανάλογα µε την επίδοσή τους. Και στα δύο µοντέλα χρησιµοποιήθηκαν χάρτες που Η ΠΕΡΙΠΤΩΣΗ ΧΟΡΗΓΗΣΗΣ ΤΡΑΠΕΖΙΚΩΝ ΑΝΕΙΩΝ 53

54 ΚΕΦΑΛΑΙΟ 3: Εξόρυξη Γνώσης στη Λογιστική-Χρηµατοοικονοµική αυτο-οργανώνονται. Το πρώτο µοντέλο χειρίστηκε οικονοµικά στοιχεία 160 εταιρειών. Χρησιµοποιώντας τεχνικές εξόρυξης κειµένου, το δεύτερο µοντέλο ανέλυσε την ετήσια εταιρική έκθεση των διευθυνόντων συµβούλων. Οι συγγραφείς κατέληξαν στο συµπέρασµα ότι υπάρχουν διαφορές µεταξύ των αποτελεσµάτων οµαδοποίησης των δύο µεθόδων. Η Lam (2004) προκειµένου να προβλέψει την επίδοση επιχειρήσεων µε τη µορφή µερισµάτων χρησιµοποίησε Νευρωνικά ίκτυα µε Ανάστροφη Μετάδοση. Στα πλαίσια της έρευνας, αναπτύχθηκαν ποικίλα µοντέλα, µε διαφορετικό διάνυσµα εισόδου, διαφορετικά δείγµατα και διαφορετικές αρχιτεκτονικές. Με βάση προηγούµενες εργασίες, επιλέχθηκαν χρηµατοοικονοµικοί αριθµοδείκτες και µακροοικονοµικές µεταβλητές ως ανεξάρτητες µεταβλητές, ενώ η επίδοση των µοντέλων µετρήθηκε µε χρήση του δείγµατος ελέγχου. Στη συνέχεια, εφαρµόστηκε µέθοδος εξαγωγής κανόνων από το Νευρωνικό ίκτυο και µάλιστα οι κανόνες σηµείωσαν υψηλότερες επιδόσεις σε σχέση µε το ίδιο το Νευρωνικό ίκτυο. Οι Kloptchenko et al (2004) συνέχισαν τις προαναφερθέντες ερευνητικές προσπάθειες των Back et al (2001), χρησιµοποιώντας αυτό-οργανούµενες απεικονίσεις, προκειµένου να δηµιουργήσουν δέσµες επιχειρήσεων επεξεργαζόµενοι οικονοµικά στοιχεία και τις ετήσιες εκθέσεις των διευθυνόντων συµβούλων των επιχειρήσεων. Από τα δύο µοντέλα που αναπτύχθηκαν, το ένα ανέλυσε τους χρηµατοοικονοµικούς δείκτες και το άλλο τις εκθέσεις των ιευθυνόντων Συµβούλων. Σε αυτή τη µελέτη χρησιµοποιήθηκε µια διαφορετική µέθοδος για την ανάλυση των εκθέσεων, η Prototype - Matching Text Clustering. Με τη σύγκριση των αποτελεσµάτων των ποιοτικών και ποσοτικών µεθόδων, οι συγγραφείς κατέληξαν στο συµπέρασµα ότι τα κείµενα εκθέσεων τείνουν να προβλέψουν τις αλλαγές στην οικονοµική κατάσταση πριν από τις αλλαγές που επηρεάζουν άµεσα τους χρηµατοοικονοµικούς δείκτες Εκτίµηση Πιστωτικού Κινδύνου Ως πιστωτικός κίνδυνος µίας επιχείρησης αναφέρεται ο κίνδυνος που προκύπτει από την ανεπαρκή ανταπόκριση της επιχείρησης προς την εκπλήρωση των υποχρεώσεών της προς τους πιστωτές της ( ούµπος, 2001). Η ανεπαρκής αυτή ανταπόκριση της επιχείρησης αναφέρεται στην καθυστερηµένη αποπληρωµή των υποχρεώσεών της, καθώς επίσης και σε περιπτώσεις όπου αποφεύγεται η αποπληρωµή τους. Κάθε µία Η ΠΕΡΙΠΤΩΣΗ ΧΟΡΗΓΗΣΗΣ ΤΡΑΠΕΖΙΚΩΝ ΑΝΕΙΩΝ 54

55 ΚΕΦΑΛΑΙΟ 3: Εξόρυξη Γνώσης στη Λογιστική-Χρηµατοοικονοµική από τις περιπτώσεις αυτές µπορεί να οφείλεται είτε στην αδυναµία της επιχείρησης να ανταπεξέλθει και να καλύψει τις υποχρεώσεις της (όπως είναι η πτώχευση), είτε στην ηθεληµένη αποφυγή αντιµετώπισης των υποχρεώσεων που έχει ο οργανισµός. Το έργο της ανάλυσης πιστωτικού κινδύνου γίνεται πιο απαιτητικό, λόγω του αυξηµένου αριθµού των πτωχεύσεων και των ανταγωνιστικών προσφορών των πιστωτών. Οι τεχνικές εξόρυξης δεδοµένων έχουν εφαρµοστεί για να διευκολυνθεί η εκτίµηση του πιστωτικού κινδύνου. Στην έρευνά τους οι Arminger et al (1997) χρησιµοποίησαν δεδοµένα από µια µεγάλη Τράπεζα της Γερµανίας για όλα τα δάνεια που δόθηκαν σε πελάτες την χρονιά εφαρµόζοντας 3 τεχνικές εξόρυξης δεδοµένων (Logistic Discrimination, Classification Trees και Feedforward Networks). Το αρχικό σύνολο των δεδοµένων αριθµεί περιπτώσεις πελατών και µάλιστα για τη δηµιουργία του δέντρου απόφασης το δείγµα χωρίστηκε σε 3 κατηγορίες: Training sample: 2684 περιπτώσεις, Cross Validation sample: 2734 περιπτώσεις και Test Sample: 2745 περιπτώσεις. Τα αποτελέσµατα έδειξαν ότι ελάχιστα καλύτερη επίδοση είχε η λογιστική παλινδρόµηση, ωστόσο αξιόλογη ήταν και η περίπτωση της τεχνικής του δέντρου ταξινόµησης. Μάλιστα για τη δηµιουργία του δέντρου χρησιµοποιήθηκαν συνολικά 6 χαρακτηριστικά: το φύλο, η ηµεροµηνία έναρξης επαγγέλµατος, το έτος γέννησης, η κατοχή αυτοκινήτου, η κατοχή τηλεφώνου και η οικογενειακή κατάσταση, ενώ για την καλύτερη πρόβλεψη της συµπεριφοράς ενός δανειζόµενου χρησιµοποιήθηκε η εξαρτώµενη µεταβλητή. Πρόκειται για µία δυαδική µεταβλητή η οποία παίρνει την τιµή 1 αν δε θα υπάρχει κανένα πρόβληµα κατά την αποπληρωµή όλου του δανείου, ενώ αντίθετα παίρνει την τιµή 0 όταν σύµφωνα πάντα µε την πρόβλεψη θα συµβεί το αντίθετο. Επίσης, στην έρευνα των Yobas et al (2000), οι µελετητές σύγκριναν τη γραµµική ανάλυση, τα νευρωνικά δίκτυα, τους γενετικούς αλγορίθµους και τα δέντρα απόφασης όσον αφορά τη διάκριση ανάµεσα σε «καλούς» και «αργούς» πελάτες σχετικά µε την πληρωµή τραπεζικών λογαριασµών πιστωτικής κάρτας. Στα πλαίσια της έρευνας δηµιουργήθηκαν µοντέλα πρόβλεψης µε εξελιγµένες τεχνικές εξόρυξης δεδοµένων και χρησιµοποιήθηκαν δεδοµένα από ανθρώπους που είχαν πιστωτική κάρτα και το ιστορικό των συναλλαγών τους ήταν γνωστό. Σε περίπτωση που κάποιος από αυτούς είχε χάσει µια ή περισσότερες πληρωµές για την εξόφληση του χρέους του, τότε χαρακτηριζόταν ως slow, αλλιώς ως good. Ένας πελάτης Η ΠΕΡΙΠΤΩΣΗ ΧΟΡΗΓΗΣΗΣ ΤΡΑΠΕΖΙΚΩΝ ΑΝΕΙΩΝ 55

56 ΚΕΦΑΛΑΙΟ 3: Εξόρυξη Γνώσης στη Λογιστική-Χρηµατοοικονοµική χαρακτηρίζονταν κακοπληρωτής αν αδυνατούσε να πληρώσει 3 ή περισσότερες δόσεις. Έπειτα από τη σύγκριση των µοντέλων που δηµιουργήθηκαν, τα αποτελέσµατα ανέδειξαν καλύτερη τη µέθοδο της γραµµικής ανάλυσης συγκριτικά µε τις υπόλοιπες µεθόδους. Οι Huang et al (2004) εκτέλεσαν ανάλυση πιστωτικών επιτοκίων χρησιµοποιώντας µηχανές υποστήριξης διανυσµάτων (Support Vector Machines - SVM), µια τεχνική µηχανικής µάθησης. Χρησιµοποιήθηκαν δύο σύνολα δεδοµένων, το ένα περιείχε 74 κορεάτικες εταιρείες και το άλλο 265 επιχειρήσεις των ΗΠΑ. Για τα δύο σύνολα δεδοµένων είχαν καθοριστεί 5 κατηγορίες κατάταξης. ηµιουργήθηκαν δύο µοντέλα για το σύνολο των κορεάτικων δεδοµένων και δύο για το σύνολο δεδοµένων των ΗΠΑ, που το καθένα είχε διαφορετικό διάνυσµα εισόδου. Οι µηχανές υποστήριξης διανυσµάτων και τα νευρωνικά δίκτυα χρησιµοποιήθηκαν για την πρόβλεψη αξιολόγησης των πιστωτικών επιτοκίων. Οι συγγραφείς διαπίστωσαν ότι οι SVM είχαν καλύτερες επιδόσεις σε τρία από τα τέσσερα µοντέλα από ότι τα Νευρωνικά δίκτυα. Ο Mues et al (2004) χρησιµοποίησαν διαγράµµατα αποφάσεων για την οπτικοποίηση των κανόνων αξιολόγησης πιστωτικού κινδύνου. Τα διαγράµµατα αποφάσεων πλεονεκτούν, σε σχέση µε τα δέντρα αποφάσεων, καθώς αποφεύγουν την επανάληψη των ισοµορφικών υποδέντρων. Χρησιµοποιήθηκαν δύο σύνολα δεδοµένων, ένα που περιέχει στοιχεία της Γερµανίας και ένα άλλο που περιέχει στοιχεία της Ισπανίας. Για την εκτέλεση της ταξινόµησης χρησιµοποιήθηκε ένα νευρωνικό δίκτυο. Οι µέθοδοι εξαγωγής κανόνα, Neurorule και Trepan, εφαρµόστηκαν για να εξαχθούν κανόνες από το δίκτυο. Επιπλέον, χρησιµοποιήθηκαν οι C4.5 κανόνες και η µέθοδος γραφηµάτων απόφασης αγνοώντας την εντροπία (Entropy-based Oblivious Decision Graphs) για να παράγουν δέντρα αποφάσεων και κανόνες. Οι επιδόσεις των Neurorule και Trepan ήταν συγκρίσιµες µε την απόδοση των νευρωνικών δικτύων και ανώτερες της απόδοσης των άλλων µεθόδων. Τέλος, οι κανόνες εµφανίσθηκαν στη µορφή των διαγραµµάτων απόφασης. Ακόµη, αξίζει να αναφέρουµε και την έρευνα των Satchidananda et al (2006) οι οποίοι αξιολόγησαν και σύγκριναν τα δέντρα απόφασης και τη λογιστική παλινδρόµηση για την ανάλυση βαθµολόγησης πιστοληπτικής ικανότητας και τον κίνδυνο αθέτησης αγροτικών δανείων. Το σύνολο δεδοµένων που χρησιµοποιήθηκε περιελάµβανε αρχικά 25 µεταβλητές από τις οποίες χρησιµοποιήθηκαν τελικά οι 19. Η ΠΕΡΙΠΤΩΣΗ ΧΟΡΗΓΗΣΗΣ ΤΡΑΠΕΖΙΚΩΝ ΑΝΕΙΩΝ 56

57 ΚΕΦΑΛΑΙΟ 3: Εξόρυξη Γνώσης στη Λογιστική-Χρηµατοοικονοµική Η αξιολόγηση έγινε µε την εξέταση των επιδόσεων όσον αφορά την ακρίβεια ταξινόµησης και την πολυπλοκότητα των εκπαιδευµένων ταξινοµητών. Από τα αποτελέσµατα της έρευνας διαπιστώθηκε πως τα δέντρα απόφασης παρουσιάζουν καλύτερη επίδοση. Στην έρευνα των Gouvêa et al (2007), χρησιµοποιήθηκε το ίδιο σύνολο δεδοµένων για την ανάπτυξη τριών µοντέλων βαθµολόγησης της πιστοληπτικής ικανότητας. Στόχος της έρευνας ήταν να µπορέσουν οι συγγραφείς να προτείνουν ένα µοντέλο για την ταξινόµηση των πελατών των χρηµατοπιστωτικών οργανισµών. Οι τεχνικές που χρησιµοποιήθηκαν ήταν η λογιστική παλινδρόµηση, τα νευρωνικά δίκτυα και οι γενετικοί αλγόριθµοι. Έπειτα από τη σύγκριση των τριών µοντέλων, διαπιστώθηκε ότι η λογιστική παλινδρόµηση εµφάνισε λίγο καλύτερα αποτελέσµατα συγκριτικά µε τις άλλες δύο τεχνικές. Ενδιαφέρουσα είναι και η έρευνα του Bastos (2008), ο οποίος χρησιµοποίησε ενισχυµένα δέντρα απόφασης για τη δηµιουργία ενός µοντέλου βαθµολόγησης πιστοληπτικής ικανότητας (credit scoring model). Τα ενισχυµένα δέντρα απόφασης είναι µία ισχυρή τεχνική µάθησης που συγκεντρώνει διάφορα δέντρα απόφασης τα οποία σχηµατίζουν έναν ταξινοµητή µε βάση τις επιλογές των επιµέρους δέντρων απόφασης. Προκειµένου να αξιολογηθεί η απόδοση των ενισχυµένων δέντρων απόφασης χρησιµοποιήθηκαν δύο δηµόσια διαθέσιµα κατάλληλα σύνολα δεδοµένων. Στα πλαίσια της συγκεκριµένης έρευνας έγινε σύγκριση της επίδοσης των ενισχυµένων δέντρων απόφασης µε τις επιδόσεις δύο εναλλακτικών τεχνικών εξόρυξης δεδοµένων, µε ένα Νευρωνικό ίκτυο τύπου πολυεπίπεδου perceptron (Μultilayer Perceptron MLP) και µε τη µέθοδο των Μηχανών ιανυσµάτων Υποστήριξης (Support Vector Machines). Τα αποτελέσµατα της έρευνας έδειξαν πως τα ενισχυµένα δέντρα απόφασης είναι µία ανταγωνιστική εναλλακτική τεχνική για την εφαρµογή προτύπων βαθµολόγησης της πιστοληπτικής ικανότητας, συγκριτικά µε τις άλλες δύο τεχνικές που εξετάστηκαν, καθώς επίσης πως πρόκειται για µία τεχνική που παρέχει έναν κοµψό τρόπο για να ταξινοµεί τα πιο σηµαντικά χαρακτηριστικά που φανερώνουν την πιθανότητα αθέτησης. Η ΠΕΡΙΠΤΩΣΗ ΧΟΡΗΓΗΣΗΣ ΤΡΑΠΕΖΙΚΩΝ ΑΝΕΙΩΝ 57

58 ΚΕΦΑΛΑΙΟ 3: Εξόρυξη Γνώσης στη Λογιστική-Χρηµατοοικονοµική Πρόβλεψη Εξαγοράς Επιχειρήσεων Η εξαγορά και συγχώνευση επιχειρήσεων χαρακτηρίζεται από µεγάλο βαθµό αβεβαιότητας λόγω συγκρουόµενων συµφερόντων των µετόχων, των διοικητικών στελεχών, των πιστωτών και των εργαζοµένων. Σε περίπτωση µάλιστα που υπάρχουν πολλοί ενδιαφερόµενοι, η δυναµική γίνεται ακόµα πιο σύνθετη. Ερευνητικές µελέτες έχουν διερευνήσει τις αιτίες και τα αποτελέσµατα των συγχωνεύσεων και των εξαγορών. Η αναγνώριση των επιχειρήσεων που είναι υποψήφιες για εξαγορά ή συγχώνευση ενδιαφέρει πλήθος φορέων όπως εταιρείες συµµετοχών, τράπεζες και κυβερνητικούς φορείς. Η δηµιουργία µοντέλων πρόβλεψης εξαγορών αποτελεί πλέον ένα ενεργό ερευνητικό πεδίο. (Κύρκος, 2007). Οι Ragothaman et al (2003) εφάρµοσαν τη µέθοδο της Επαγωγής σε εξαιρετικά µεγάλες βάσεις δεδοµένων προκειµένου να δηµιουργήσουν επαγωγικούς κανόνων της µορφής If-Then, οι οποίοι περιγράφουν τις περιπτώσεις εξαγορών. Ως µεταβλητές εισόδου χρησιµοποιήθηκαν χρηµατοοικονοµικοί αριθµοδείκτες, οι οποίοι επιλέχθηκαν µε βάση προηγούµενες µελέτες, και για τη µέτρηση των επιδόσεων χρησιµοποιήθηκε δείγµα επικύρωσης. Το µοντέλο επαγωγικών κανόνων συγκρίθηκε µε τις µεθόδους Logit και Πολλαπλή Ανάλυση ιάκρισης. Σύµφωνα µε τα αποτελέσµατα το µοντέλο επαγωγικών κανόνων προέβλεψε µε επιτυχία το 81,3% των περιπτώσεων εξαγοράς και το 65,6% των περιπτώσεων µη εξαγοράς. Αξίζει να αναφέρουµε ότι το µοντέλο της µεθόδου Πολλαπλή Ανάλυση ιάκρισης ενώ σηµείωσε ίδιο ποσοστό ακρίβειας για τις περιπτώσεις εξαγοράς, στις περιπτώσεις µη εξαγοράς το ποσοστό ήταν σηµαντικά µικρότερο. Τέλος, οι επιδόσεις που σηµείωσε το µοντέλο Logit ήταν χαµηλότερες σε σχέση και µε τα άλλα δύο µοντέλα. Οι Doumpos et al (2004) προκειµένου να προβλέψουν τις επιχειρήσεις που έγιναν στόχοι εξαγοράς, χρησιµοποίησαν την πολυκριτηριακή µέθοδο UTADIS (Utilities Additives Discriminantes). Για την επιλογή των µεταβλητών εισόδου εφαρµόστηκε η στατιστική µέθοδος t-test και για την εκτίµηση της ικανότητας πρόβλεψης της µεθόδου έγινε εφαρµογή της σε στοιχεία προηγούµενων χρήσεων. Η µέθοδος συγκρίθηκε µε τις µεθόδους της Ανάλυσης ιάκρισης, της Λογιστικής Παλινδρόµησης και των Νευρωνικών ικτύων. Σύµφωνα µε τα αποτελέσµατα της έρευνας, η µέθοδος UTADIS σηµείωσε επιδόσεις, συγκρίσιµες µε το Νευρωνικό ίκτυο και ανώτερες από την Ανάλυση ιάκρισης και τη Λογιστική Παλινδρόµηση. Η ΠΕΡΙΠΤΩΣΗ ΧΟΡΗΓΗΣΗΣ ΤΡΑΠΕΖΙΚΩΝ ΑΝΕΙΩΝ 58

59 ΚΕΦΑΛΑΙΟ 3: Εξόρυξη Γνώσης στη Λογιστική-Χρηµατοοικονοµική 3.2 ΗΜΟΦΙΛΗ ΛΟΓΙΣΜΙΚΑ ΕΞΟΡΥΞΗΣ ΓΝΩΣΗΣ ΑΠΟ ΛΟΓΙΣΤΙΚΑ Ε ΟΜΕΝΑ Στη διαδικασία Εξόρυξης γνώσης σηµαντική είναι η συµβολή των εργαλείων λογισµικού που χρησιµοποιούνται. Στην ενότητα αυτή παρουσιάζονται συνοπτικά τα δηµοφιλέστερα λογισµικά εξόρυξης δεδοµένων που υπάρχουν σήµερα στην αγορά και σχετίζονται µε χρηµατοοικονοµικά δεδοµένα Angoss Software Η εταιρεία Angoss Software διαθέτει τα λογισµικά Knowledge SEEKER και Knowledge STUDIO. Το Knowledge SEEKER είναι ένα ισχυρό εργαλείο εξόρυξης δεδοµένων, του οποίου τα βασικά χαρακτηριστικά είναι η οπτικοποίηση δεδοµένων (data visualization) και η χρήση δέντρων απόφασης (decision trees). Το Knowledge SEEKER θεωρείται φιλικό προς το χρήστη και είναι ευρέως γνωστό στον τοµέα του Marketing, των πωλήσεων και των συναρτήσεων ρίσκου µε χρηµατοοικονοµικά στοιχεία (Angoss). Εικόνα 2: Το περιβάλλον του Knowledge SEEKER Το Knowledge STUDIO είναι µια πιο προχωρηµένη σουίτα εξόρυξης δεδοµένων και πρόβλεψης για όλες τις φάσεις ενός µοντέλου. Μέσα σε ένα οπτικό περιβάλλον υψηλής αποδοτικότητας προσφέρονται λύσεις όπως δέντρα απόφασης, γραµµική και λογιστική παλινδρόµηση (linear and logistical regression), νευρωνικά δίκτυα (neutral networks), και οµαδοποίηση (clustering). Η ΠΕΡΙΠΤΩΣΗ ΧΟΡΗΓΗΣΗΣ ΤΡΑΠΕΖΙΚΩΝ ΑΝΕΙΩΝ 59

60 ΚΕΦΑΛΑΙΟ 3: Εξόρυξη Γνώσης στη Λογιστική-Χρηµατοοικονοµική Εικόνα 3: Το περιβάλλον του Knowledge STUDIO SAS Enterprise Miner H εταιρία SAS δραστηριοποιείται έντονα στη δηµιουργία προϊόντων εξόρυξης γνώσης και παρέχει ένα πλούσιο σύνολο στατιστικών λειτουργιών που χρησιµοποιούνται για όλα τα είδη της ανάλυσης στοιχείων. Ένα δηµοφιλές προϊόν της είναι και ο SAS Enterprise Miner, ο οποίος δηµιουργήθηκε το 1997 (SAS). Πρόκειται για ένα λογισµικό το οποίο απλοποιεί τη διαδικασία εξόρυξης δεδοµένων, δηµιουργώντας προβλέψεις και περιγραφικά µοντέλα που βασίζονται στην ανάλυση τεράστιων ποσοτήτων δεδοµένων µιας επιχείρησης. Παρέχει στο χρήστη ένα γραφικό περιβάλλον ροής για δηµιουργία µοντέλων και έχει ένα σύνολο δηµοφιλών αλγορίθµων εξόρυξης δεδοµένων, συµπεριλαµβανοµένων αλγορίθµων κατασκευής δέντρων αποφάσεων, εκπαίδευσης νευρωνικών δικτύων, εύρεσης κανόνων συσχέτισης, παλινδρόµησης κ.ά. Ο SAS Enterprise Miner προσφέρει ένα πλούσιο και εύκολο στη χρήση σύνολο ολοκληρωµένων δυνατοτήτων για τη δηµιουργία και την ανταλλαγή ιδεών που µπορεί να χρησιµοποιηθεί στη λήψη αποφάσεων. Η ΠΕΡΙΠΤΩΣΗ ΧΟΡΗΓΗΣΗΣ ΤΡΑΠΕΖΙΚΩΝ ΑΝΕΙΩΝ 60

61 ΚΕΦΑΛΑΙΟ 3: Εξόρυξη Γνώσης στη Λογιστική-Χρηµατοοικονοµική Εικόνα 4: Το περιβάλλον του SAS Enterprise Miner Στα πλαίσια µιας άκρως ανταγωνιστικής κοινωνίας, οι σηµερινές εταιρείες χρησιµοποιούν το συγκεκριµένο λογισµικό εξόρυξης δεδοµένων για την ανίχνευση της απάτης, την ελαχιστοποίηση των κινδύνων, την πρόβλεψη των απαιτήσεων σε πόρους καθώς και για τις διάφορες εκστρατείες Μάρκετινγκ SPSS Πρόκειται για ένα στατιστικό πακέτο το οποίο παρέχει µία ολοκληρωµένη λύση που καλύπτει όλα τα στάδια της αναλυτικής διαδικασίας: σχεδιασµό της έρευνας, συλλογή δεδοµένων, πρόσβαση στα δεδοµένα, διαχείριση και προετοιµασία των δεδοµένων, ανάλυση, παραγωγή εκθέσεων αποτελεσµάτων και διανοµή τους. Το SPSSπεριλαµβάνει διάφορα εργαλεία εξόρυξης δεδοµένων που σχετίζονται κυρίως µε την οµαδοποίηση (Clustering) και την κατηγοριοποίηση (Classification). Υπάρχει ένα βασικό αναλυτικό εργαλείο (SPSS Base) που µπορεί να επεκταθεί εύκολα µε πρόσθετα (add - on) τµήµατα που ενσωµατώνονται στο βασικό πακέτο (SPSS). Η ΠΕΡΙΠΤΩΣΗ ΧΟΡΗΓΗΣΗΣ ΤΡΑΠΕΖΙΚΩΝ ΑΝΕΙΩΝ 61

62 ΚΕΦΑΛΑΙΟ 3: Εξόρυξη Γνώσης στη Λογιστική-Χρηµατοοικονοµική Εικόνα 5: Το περιβάλλον του SPSS Με το πρόσθετο τµήµα SPSS Classification Trees µπορεί κανείς να δηµιουργήσει µοντέλα δέντρων αποφάσεων κατευθείαν µέσα από το SPSS. Το SPSS Classification Trees περιλαµβάνει τέσσερις ισχυρούς και δοκιµασµένους αλγόριθµους µοντέλων δέντρων αποφάσεων. Εικόνα 6: Το περιβάλλον του SPSS Classification Trees Η ΠΕΡΙΠΤΩΣΗ ΧΟΡΗΓΗΣΗΣ ΤΡΑΠΕΖΙΚΩΝ ΑΝΕΙΩΝ 62

63 ΚΕΦΑΛΑΙΟ 3: Εξόρυξη Γνώσης στη Λογιστική-Χρηµατοοικονοµική Τα µοντέλα που αναπτύσσονται παρουσιάζονται γραφικά µε απλά δενδρογράµµατα κάνοντας εύκολη την κατανόηση των σχέσεων που αναδεικνύονται. Χρησιµοποιούνται συχνά για τις ανάγκες του µάρκετινγκ, για την κατηγοριοποίηση των αιτούντων πελατών σε οµάδες πιστωτικού κινδύνου κ.ά Think Enterprise Data Miner Το Think Enterprise Data Miner είναι προϊόν της εταιρείας ThinkAnalytics. Πρόκειται για µία πλατφόρµα που ενσωµατώνει αρκετές τεχνικές εξόρυξης δεδοµένων µε τέτοιο τρόπο ώστε να παρέχει στους χρήστες έξυπνους τρόπους ανάλυσης. Εικόνα 7: Το περιβάλλον του Think Enterprise Data Miner Μία εκτενής βιβλιοθήκη από διάφορα υποσυστήµατα (modules) παρέχεται ώστε να υποστηριχθεί µια πλήρη διαδικασία ανακάλυψης της γνώσης, από την επιλογή δεδοµένων, τον µετασχηµατισµό και την επεξεργασία έως την εξόρυξη δεδοµένων και την οπτικοποίησή τους. Ανακάλυψη γνώσης και τεχνικές εξόρυξης δεδοµένων χρησιµοποιούνται για τον εντοπισµό και την αξιοποίηση χρήσιµων µοτίβων (patterns) σε ένα τεράστιο όγκο δεδοµένων. Το συγκεκριµένο λογισµικό έχει την ικανότητα να επεξεργάζεται τεράστιες ποσότητες δεδοµένων και να παρέχει σε πραγµατικό χρόνο (real time) τις απαντήσεις, εξαλείφοντας τα προβλήµατα Η ΠΕΡΙΠΤΩΣΗ ΧΟΡΗΓΗΣΗΣ ΤΡΑΠΕΖΙΚΩΝ ΑΝΕΙΩΝ 63

64 ΚΕΦΑΛΑΙΟ 3: Εξόρυξη Γνώσης στη Λογιστική-Χρηµατοοικονοµική επιδόσεων που αντιµετωπίζουν τα παραδοσιακά προϊόντα εξόρυξης δεδοµένων. (ThinkAnalytics) Viscovery Data Mining Suite Το Viscovery Data Mining Suite είναι ένα λογισµικό το οποίο παρέχει προγνωστική ανάλυση και εξόρυξη δεδοµένων που αποσκοπούν στη συνολική αντιµετώπιση των αναγκών των επιχειρήσεων και των χρηστών (Viscovery). Εικόνα 8: Το περιβάλλον του Viscovery Data Mining Suite Οι ροές εργασιών (Workflows) υποστηρίζουν την παραγωγή υψηλής απόδοσης µοντέλων πρόβλεψης πραγµατικού χρόνου και ενηµερώνονται αυτόµατα. Η σουίτα αυτή δίνει τη δυνατότητα να εξεταστούν πολύπλοκα δεδοµένα, να αναγνωριστούν οι µεταξύ τους σχέσεις, να δηµιουργηθούν µοντέλα βαθµολόγησης, να καθοριστούν target groups και να ληφθούν αποφάσεις χωρίς να είναι κανείς ειδικός σε θέµατα στατιστικής. Το Viscovery Data Mining Suite αποτελείται από διάφορα υποσυστήµατα Clementine Το Clementine αναπτύχθηκε αρχικά από την εταιρία Integral Solutions Ltd (ISL) και το 1998 εξαγοράστηκε από την SPSS και ενσωµατώθηκε στη γκάµα στατιστικών προϊόντων που ήδη κατείχε. Η ΠΕΡΙΠΤΩΣΗ ΧΟΡΗΓΗΣΗΣ ΤΡΑΠΕΖΙΚΩΝ ΑΝΕΙΩΝ 64

65 ΚΕΦΑΛΑΙΟ 3: Εξόρυξη Γνώσης στη Λογιστική-Χρηµατοοικονοµική Το Clementine ήταν το πρώτο λογισµικό το οποίο ενσωµάτωσε τη µηχανική µάθηση και την εισήγαγε στα λογισµικά του Business Intelligence - ΒΙ. Το συγκεκριµένο λογισµικό παρέχει ένα εύχρηστο περιβάλλον προς οποιονδήποτε χρήστη, στο οποίο είναι εµφανή τα δεδοµένα, οι στατιστικές αναλύσεις των δεδοµένων και οι αλγόριθµοι που χρησιµοποιεί. Εκτός από το φιλικό περιβάλλον που προσφέρει το πρόγραµµα, στα βασικότερα πλεονεκτήµατα του Clementine είναι και η ικανότητα αλληλεπίδρασης που δίνεται στο χρήστη µέσα στο περιβάλλον. Εικόνα 9: Το περιβάλλον του Clementine Το παραθυρικό περιβάλλον του λογισµικού δίνει µια αίσθηση οικειότητας στον τελικό χρήστη και κάνει πιο γρήγορη την εξοικείωσή του µε τα εργαλεία της εφαρµογής. Το Clementine ακολουθεί πλήρως το επιχειρησιακό µοντέλο προτυποποίησης της διαδικασίας εξόρυξης δεδοµένων, το οποίο αναπτύχθηκε το 1996, γνωστό ως CRISP-DM (Cross-Industry Standard Process for Data Mining). Επίσης, περιλαµβάνει διάφορες τεχνικές µηχανικής µάθησης και µοντελοποίησης, οι οποίες Η ΠΕΡΙΠΤΩΣΗ ΧΟΡΗΓΗΣΗΣ ΤΡΑΠΕΖΙΚΩΝ ΑΝΕΙΩΝ 65

66 ΚΕΦΑΛΑΙΟ 3: Εξόρυξη Γνώσης στη Λογιστική-Χρηµατοοικονοµική µπορούν να οµαδοποιηθούν κατά προσέγγιση, σύµφωνα µε τους τύπους προβληµάτων τους οποίους και προορίζονται να λύσουν. Έτσι υπάρχουν τα µοντέλα πρόβλεψης, τα µοντέλα οµαδοποίησης, τα µοντέλα διαλογής και οι κανόνες συσχέτισης. Παρέχει στους dataminers και στους analysts γρήγορη πρόσβαση στα δεδοµένα, αποτελεσµατική προετοιµασία των δεδοµένων, δυνατότητα ανάπτυξης µοντέλων πρόβλεψης, άµεση σύγκριση των αποτελεσµάτων της µοντελοποίησης και διανοµή των µοντέλων ή της διαδικασίας στο επιχειρηµατικό περιβάλλον Microsoft SQL Server 2008 (Analysis Services) Ο Microsoft SQL Server 2008 είναι ένα σύστηµα διαχείρισης βάσεων δεδοµένων (Database Management System) που έχει αναπτυχθεί και προωθείται από τη Microsoft. Η Microsoft ήταν µία από τις πρώτες εταιρείες που συµπεριέλαβε τα χαρακτηριστικά γνωρίσµατα εξόρυξης δεδοµένων σε µια σχεσιακή βάση εδοµένων. Ο Microsoft SQL Server 2008 περιλαµβάνει µια σειρά πρόσθετων υπηρεσιών οι οποίες, αν και δεν είναι απαραίτητες για τη λειτουργία του συστήµατος βάσης δεδοµένων, παρέχουν υπηρεσίες προστιθέµενης αξίας πάνω από το κεντρικό σύστηµα διαχείρισης βάσης δεδοµένων. Η υπηρεσία Analysis Services υποστηρίζει ειδικές βάσεις δεδοµένων (ονοµάζονται κύβοι OLAP) για την ανάλυση χώρων αποθήκευσης δεδοµένων. Εκτός από τις υπηρεσίες και την υποδοµή για υποστήριξη κύβων και εφαρµογών OLAP, η υπηρεσία Analysis Services περιέχει επίσης δυνατότητες για δηµιουργία εφαρµογών εξόρυξης δεδοµένων, οι οποίες βοηθούν τους εργαζοµένους να εντοπίζουν κρυφές συσχετίσεις και µοτίβα σε δεδοµένα. Η ΠΕΡΙΠΤΩΣΗ ΧΟΡΗΓΗΣΗΣ ΤΡΑΠΕΖΙΚΩΝ ΑΝΕΙΩΝ 66

67 ΚΕΦΑΛΑΙΟ 3: Εξόρυξη Γνώσης στη Λογιστική-Χρηµατοοικονοµική Εικόνα 10: Το περιβάλλον του Analysis Services Τα µοντέλα εξόρυξης (Mining models) που µπορεί να αναπτύξει κανείς µε το Analysis Services είναι οι Κανόνες συσχέτισης (Association rules), η Οµαδοποίηση (Clustering), τα έντρα απόφασης (Decision trees), η Γραµµική παλινδρόµηση (Linear Regression), η Λογιστική παλινδρόµηση (Logistic regression), τα Νευρωνικά δίκτυα (Neural Networks), οι Χρονοσειρές (Time series) και τα πιθανοκρατικά µοντέλα Bayes (Naive Bayes) WEKA Το WEKA είναι ένα λογισµικό ανοιχτού κώδικα (Open Source), το οποίο δηµιουργήθηκε το 1994 από µία οµάδα καθηγητών και φοιτητών του Πανεπιστηµίου του Waikato στη Νέα Ζηλανδία, και είναι ελεύθερα διαθέσιµο. Παρέχει ποικιλία αλγορίθµων για εξόρυξη γνώσης και µηχανική µάθηση, ενώ µπορούν να υλοποιηθούν νέοι αλγόριθµοι και να ενσωµατωθούν εύκολα στο σύστηµα. Είναι ένα πολύ εύχρηστο λογισµικό ακόµα και για ανθρώπους που δεν είναι ειδικοί σε θέµατα εξόρυξης γνώσης και είναι ενηµερωµένο µέχρι και σήµερα µε όλους τους αλγόριθµους που υπάρχουν στην ερευνητική βιβλιογραφία. Η ΠΕΡΙΠΤΩΣΗ ΧΟΡΗΓΗΣΗΣ ΤΡΑΠΕΖΙΚΩΝ ΑΝΕΙΩΝ 67

68 ΚΕΦΑΛΑΙΟ 3: Εξόρυξη Γνώσης στη Λογιστική-Χρηµατοοικονοµική Όλα τα εργαλεία του WEKA: φίλτρα, κατηγοριοποιητές, ταξινοµητές, συσχετιστές κλπ µπορούν να παρουσιαστούν γραφικά µε δισδιάστατα γραφήµατα. Με βάση τις γραφικές αναπαραστάσεις των επιλεγµένων δεδοµένων, δοκιµάζεται και προβλέπεται η απόδοση των εναλλακτικών µοντέλων που θα επιλεγούν να χρησιµοποιηθούν τελικά για τη διαµόρφωση της «κρυµµένης» γνώσης (WEKA). Εικόνα 11: Το περιβάλλον του WEKA Η ΠΕΡΙΠΤΩΣΗ ΧΟΡΗΓΗΣΗΣ ΤΡΑΠΕΖΙΚΩΝ ΑΝΕΙΩΝ 68

69 ΚΕΦΑΛΑΙΟ 4: Εφαρµογή σε Πραγµατικά εδοµένα Μεθοδολογία Ερευνας και Αποτελέσµατα Κ Ε Φ Α Λ Α Ι Ο 4 : Ε Φ Α Ρ Μ Ο Γ Η Π Ρ Α Γ Μ ΑΤ Ι Κ Α Σ Ε Ε Ο Μ Ε Ν Α Μ Ε Θ Ο Ο Λ Ο Γ Ι Α Ε Ρ Ε Υ Ν Α Σ Κ Α Ι Α Π Ο Τ Ε Λ Ε Σ Μ ΑΤ Α Η ΠΕΡΙΠΤΩΣΗ ΧΟΡΗΓΗΣΗΣ ΤΡΑΠΕΖΙΚΩΝ ΑΝΕΙΩΝ 69

70 ΚΕΦΑΛΑΙΟ 4: Εφαρµογή σε Πραγµατικά εδοµένα Μεθοδολογία Ερευνας και Αποτελέσµατα ΕΦΑΡΜΟΓΗ ΣΕ ΠΡΑΓΜΑΤΙΚΑ Ε ΟΜΕΝΑ- ΜΕΘΟ ΟΛΟΓΙΑ ΕΡΕΥΝΑΣ ΚΑΙ ΑΠΟΤΕΛΕΣΜΑΤΑ Ένα χρηµατοπιστωτικό ίδρυµα, το οποίο λειτουργεί στο πλαίσιο της οικονοµίας της αγοράς, υπάρχει πιθανότητα να υποστεί οικονοµικές ζηµιές εξαιτίας της εµφάνισης ενός κινδύνου. Τα χρηµατοπιστωτικά ιδρύµατα αντιµετωπίζουν διαφορετικούς κινδύνους ανάλογα µε τα χαρακτηριστικά του καθενός και οι συναλλαγές αυτών ενέχουν αυξηµένους κινδύνους µείωσης ή απώλειας του αρχικού επενδυµένου κεφαλαίου ή και πολλαπλασίου του. Ένας από τους πιο σηµαντικούς κινδύνους που αντιµετωπίζουν συχνά οι τράπεζες είναι ο Πιστωτικός κίνδυνος. Ο πιστωτικός κίνδυνος είναι άµεσα συνδεδεµένος µε τη φύση των δραστηριοτήτων µιας τράπεζας και ορίζεται ως ο κίνδυνος αθέτησης των υποχρεώσεων των πιστούχων της. Αυτό είναι ιδιαίτερα δυσάρεστο φαινόµενο για µια τράπεζα, καθώς µπορεί να δηµιουργήσει σηµαντικές ζηµιές και επιδείνωση των οικονοµικών της µεγεθών και µάλιστα κάτω από ορισµένες προϋποθέσεις, µπορεί να υπάρξει πρόβληµα για τη ίδια την ύπαρξή της. Γι αυτό και στο σηµερινό µακροοικονοµικό περιβάλλον, όπου οι συνθήκες της αγοράς αλλάζουν συνεχώς, η λήψη σηµαντικών και πολύπλοκων αποφάσεων για την αύξηση των κερδών από τις τραπεζικές συναλλαγές και παράλληλα τη µείωση των κινδύνων απώλειας κεφαλαίων και του ρίσκου από τις συναλλαγές αυτές, αποτελεί σηµαντικό παράγοντα για τη σταθερότητα του χρηµατοπιστωτικού ιδρύµατος. Συνεπώς, η µέτρηση, η πρόβλεψη και η αντιµετώπιση του πιστωτικού κινδύνου είναι θα λέγαµε ζωτικής σηµασίας για τα τραπεζικά ιδρύµατα. Τα εργαλεία εφαρµογών του Data Mining µπορούν να παρέχουν πολλές και αξιόπιστες πληροφορίες σε θέµατα σχεδιασµού, πρόβλεψης και λήψης απόφασης. Ένα από τα πιο δηµοφιλή λογισµικά για Data Mining είναι ο Microsoft SQL Server 2008 (Business Intelligence). Πρόκειται για ένα αξιόπιστο λογισµικό το οποίο µπορεί να προσφέρει πολύτιµες πληροφορίες σε ένα χρηµατοπιστωτικό ίδρυµα προκειµένου να λάβει σηµαντικές αποφάσεις για την πραγµατοποίηση συναλλαγών. Ένας κλάδος στον οποίο µπορεί να συµβάλει µε καθοριστικό τρόπο το συγκεκριµένο λογισµικό είναι η απόφαση της τράπεζας για το αν πρέπει να δανειοδοτήσει πελάτες της, βασιζόµενο σε διάφορα διαθέσιµα χαρακτηριστικά για τους εν λόγω πελάτες καθώς και σε στοιχεία από παλαιότερες συναλλαγές τους µε Η ΠΕΡΙΠΤΩΣΗ ΧΟΡΗΓΗΣΗΣ ΤΡΑΠΕΖΙΚΩΝ ΑΝΕΙΩΝ 70

71 ΚΕΦΑΛΑΙΟ 4: Εφαρµογή σε Πραγµατικά εδοµένα Μεθοδολογία Ερευνας και Αποτελέσµατα την τράπεζα. Σηµαντικό είναι επίσης το γεγονός ότι λειτουργεί και ως ένα σύγχρονο εργαλείο σχεδιασµού, µιας και µας δίνει τη δυνατότητα να εντοπίσουµε τους «καλούς» πελάτες της τράπεζας και να τους προσφέρουµε νέα τραπεζικά προϊόντα, που θα ανταποκρίνονται στις ανάγκες τους. Στο συγκεκριµένο κεφάλαιο θα περιγράψουµε αναλυτικά τη διαδικασία που θα ακολουθήσουµε προκειµένου να ανακαλύψουµε πολύτιµη γνώση που κρύβεται πίσω από τα στοιχεία των πελατών µίας βάσης δεδοµένων ενός οµίλου τραπεζών του εξωτερικού, και συγκεκριµένα της Τσεχίας. 4.1 ΟΡΙΟΘΕΤΗΣΗ ΤΟΥ ΠΡΟΒΛΗΜΑΤΟΣ Ο δανεισµός αποτελεί τη σηµαντικότερη λειτουργία των εµπορικών τραπεζών. Μια καλά σχεδιασµένη πολιτική δανεισµού είναι ουσιαστική για την επιτυχή εκτέλεση της πιστωτικής πολιτικής µιας τράπεζας, για την απόκτηση υψηλής απόδοσης και για την ελαχιστοποίηση του κινδύνου που προέρχεται από την πιστωτική επέκταση. Παρά το διαχωρισµό των πελατών της τράπεζας, ανάλογα µε το προϊόν και τον κλάδο, την αγορά του προϊόντος και άλλους παράγοντες, οι εµπορικές τράπεζες έχουν ατελή πληροφόρηση σχετικά µε τον κίνδυνο που απορρέει από αυτούς στους οποίους δανείζουν καθώς και για τη θέση τους στις πιστωτικές αγορές. Οι όροι ενός δανείου δεν περιλαµβάνουν µόνο το επιτόκιο που επιβάλλεται, αλλά επίσης και το µέγεθος των καταθέσεων που συχνά απαιτεί η τράπεζα να διατηρεί ο δανειζόµενος µε αυτή, στο πρόγραµµα εξόφλησης του δανείου και στις εγγυήσεις. Η επίδραση της αβεβαιότητας είναι ιδιαίτερα σηµαντική για τις τράπεζες, λόγω του κινδύνου της αθέτησης για τα τραπεζικά δάνεια, της µεταβλητότητας της ζήτησης για δάνεια, και της έλλειψης συνέπειας των δανειζόµενων ως προς τις υποχρεώσεις τους προς την τράπεζα. Γι αυτό και οι τράπεζες αναζητούν συνεχώς αποτελεσµατικούς τρόπους µείωσης του κινδύνου που ενέχει η χορήγηση δανείων. Θέλοντας λοιπόν να µειώσουν το ρίσκο που αναλαµβάνουν από τη µέρα χορήγησης του δανείου µέχρι τη µέρα της αποπληρωµής του, χρησιµοποιούν συστήµατα λήψης αποφάσεων και εργαλεία εξόρυξης δεδοµένων µε σκοπό την ελαχιστοποίηση του κινδύνου αθέτησης των υποχρεώσεων των δανειζόµενων. Η ΠΕΡΙΠΤΩΣΗ ΧΟΡΗΓΗΣΗΣ ΤΡΑΠΕΖΙΚΩΝ ΑΝΕΙΩΝ 71

72 ΚΕΦΑΛΑΙΟ 4: Εφαρµογή σε Πραγµατικά εδοµένα Μεθοδολογία Ερευνας και Αποτελέσµατα Στη συνέχεια της διπλωµατικής εργασίας θα γίνει µία προσπάθεια αντιµετώπισης του παραπάνω προβλήµατος, µε τη χρήση των τραπεζικών δεδοµένων που έχουµε στη διάθεσή µας, την επιλογή των κατάλληλων µεταβλητών και µε την εφαρµογή των κατάλληλων µεθόδων εξόρυξης δεδοµένων, έπειτα από εκτενή βιβλιογραφική ανασκόπηση. Πιο συγκεκριµένα, στόχος µας είναι να υλοποιήσουµε µία εφαρµογή που θα βασίζεται σε ένα µοντέλο το οποίο, βάσει παραµέτρων, θα κατηγοριοποιεί τους πελάτες και εµφανίζει σαν αποτέλεσµα αν πρέπει ή όχι να χορηγηθεί δάνειο από µια τράπεζα σε κάποιον πελάτη. Προκειµένου να µπορέσουµε να επιτύχουµε το στόχο µας, θα πρέπει να εντοπίσουµε ποια είναι η καλύτερη και πιο κατάλληλη µέθοδος εξόρυξης δεδοµένων για την παραπάνω εφαρµογή. Αυτό όµως δεν αρκεί, µιας και θα πρέπει επίσης να διερευνήσουµε ποιες είναι οι µεταβλητές που θα πρέπει να εισάγουµε στο µοντέλο µας. Η επιλογή των µεταβλητών είναι σηµαντική διαδικασία µιας και θα πρέπει να επιλεγούν µόνο εκείνες που θεωρούνται περισσότερο σηµαντικές για τη λήψη απόφασης της έγκρισης ή µη του δανείου, προκειµένου να µειώσουµε την πολυπλοκότητα, διατηρώντας παράλληλα την απόδοση σε υψηλό επίπεδο. Η παρούσα διπλωµατική εργασία καλείται να δώσει σαφείς και αξιόπιστες απαντήσεις σε όλα τα παραπάνω ερωτήµατα. Αρχικά, κρίνεται σκόπιµη η περιγραφή των δεδοµένων που έχουµε στη διάθεσή µας καθώς και η περιγραφή της βάσης δεδοµένων που θα χρησιµοποιήσουµε για την εξόρυξη δεδοµένων. Πριν τη διαδικασία όµως της εξόρυξης δεδοµένων, κρίνεται απαραίτητη η διαδικασία της Επιλογής εδοµένων, της Προεπεξεργασίας και του Μετασχηµατισµού των εδοµένων, βήµατα τα οποία περιγράφηκαν στο Κεφάλαιο 2 και συγκεκριµένα στην ενότητα 2.2. Στη συνέχεια του κεφαλαίου αυτού θα γίνει εφαρµογή των παραπάνω βηµάτων στα διαθέσιµα πραγµατικά δεδοµένα. 4.2 ΠΕΡΙΓΡΑΦΗ Ε ΟΜΕΝΩΝ Τα δεδοµένα που χρησιµοποιήσαµε προέρχονται από έναν όµιλο τραπεζών του εξωτερικού και συγκεκριµένα της Τσεχίας. Τα δεδοµένα αυτά είναι δηµοσιευµένα στο διαδίκτυο. Συγκεκριµένα, είναι διαθέσιµα στην ιστοσελίδα (PKDD 99 Discovery Challenge). Η ΠΕΡΙΠΤΩΣΗ ΧΟΡΗΓΗΣΗΣ ΤΡΑΠΕΖΙΚΩΝ ΑΝΕΙΩΝ 72

73 ΚΕΦΑΛΑΙΟ 4: Εφαρµογή σε Πραγµατικά εδοµένα Μεθοδολογία Ερευνας και Αποτελέσµατα Τη βάση δεδοµένων µας απαρτίζουν οχτώ πίνακες, κάθε ένας από τους οποίους περιέχει κάποια χαρακτηριστικά που αφορούν το λογαριασµό ενός πελάτη. Κάθε λογαριασµός πελάτη αποτελείται από στατικά, αλλά και από δυναµικά χαρακτηριστικά. Στους πίνακες account, client, loan, credit card, disposition, permanent order και demographic data περιέχονται τα στατικά χαρακτηριστικά, ενώ στον πίνακα transactions περιέχονται τα δυναµικά χαρακτηριστικά. Να τονίσουµε ότι οι οντότητες client και account σχετίζονται µεταξύ τους µέσω του πίνακα disposition. Η οντότητα demographic data περιέχει δηµογραφικά στοιχεία των περιοχών από όπου προέρχονται οι πελάτες της τράπεζας, όπως για παράδειγµα τον πληθυσµό της περιοχής και το µέσο όρο του µηνιαίου µισθού της περιοχής. Ακόµη, οι οντότητες loan και credit card αντιπροσωπεύουν τις υπηρεσίες που παρέχει η τράπεζα στους πελάτες της. Κάθε λογαριασµός πελάτη µπορεί να διαχειρίζεται από έναν ή και περισσότερους πελάτες, όπως επίσης κάθε πελάτης µπορεί να διαχειριστεί έναν ή και περισσότερους λογαριασµούς. Αξίζει να σηµειώσουµε ότι κάθε λογαριασµός πελάτη µπορεί να εµπεριέχει ένα µόνο δάνειο, ενώ αντιθέτως µπορεί να περιλαµβάνει µία ή και περισσότερες πιστωτικές κάρτες. Τα εν λόγω δεδοµένα υπήρχαν µέσα σε οχτώ αρχεία, έχοντας ονόµατα αντίστοιχα των πινάκων που περιελάµβαναν, και ήταν σε µορφή.asc. Προκειµένου να µπορέσουµε να τα χρησιµοποιήσουµε µε τον κατάλληλο τρόπο, τα εισάγαµε στο πρόγραµµα Microsoft SQL Server Περιγραφή Βάσης εδοµένων Οι πίνακες που απαρτίζουν τη βάση δεδοµένων µας είναι όπως έχουµε ήδη πει οχτώ. Οι πίνακες αυτοί αποτελούν και τις συσχετίσεις των δεδοµένων µεταξύ της οντότητας client και account. Παρακάτω ακολουθεί µία περιγραφή των σχέσεων αυτών και των χαρακτηριστικών που περικλείει η κάθε σχέση ξεχωριστά. Η ΠΕΡΙΠΤΩΣΗ ΧΟΡΗΓΗΣΗΣ ΤΡΑΠΕΖΙΚΩΝ ΑΝΕΙΩΝ 73

74 ΚΕΦΑΛΑΙΟ 4: Εφαρµογή σε Πραγµατικά εδοµένα Μεθοδολογία Ερευνας και Αποτελέσµατα Πίνακας client Ο συγκεκριµένος πίνακας περιλαµβάνει εγγραφές και κάθε εγγραφή περιγράφει τα χαρακτηριστικά ενός πελάτη της τράπεζας. Item Meaning Remark client_id client identifier birth number birthday and sex The number is in the form YYMMDD for men, The number is in the form YYMM+50DD for women, where YYMMDD is the date of birth District_id Address of the client Πίνακας 1: Χαρακτηριστικά του πίνακα client Πίνακας account Ο πίνακας account περιλαµβάνει εγγραφές. Κάθε µία εγγραφή από αυτές περιγράφει τα στατικά χαρακτηριστικά του λογαριασµού ενός πελάτη. Item Meaning Remark account_id district_id identification of the account location of the branch date date of creating of the account In the form YYMMDD frequency frequency of issuance of statements POPLATEK MESICNE stands for monthly issuance POPLATEK TYDNE stands for weekly issuance POPLATEK PO OBRATU stands for issuance after transaction Πίνακας 2: Χαρακτηριστικά του πίνακα account Η ΠΕΡΙΠΤΩΣΗ ΧΟΡΗΓΗΣΗΣ ΤΡΑΠΕΖΙΚΩΝ ΑΝΕΙΩΝ 74

75 ΚΕΦΑΛΑΙΟ 4: Εφαρµογή σε Πραγµατικά εδοµένα Μεθοδολογία Ερευνας και Αποτελέσµατα Πίνακας loan Ο πίνακας loan περιλαµβάνει 682 εγγραφές. Κάθε εγγραφή περιγράφει τα χαρακτηριστικά στοιχεία ενός δανείου που εκδόθηκε από έναν συγκεκριµένο λογαριασµό. Όπως έχουµε ήδη τονίσει ένας λογαριασµός µπορεί να περιλαµβάνει ένα µόνο δάνειο. Item Meaning Remark loan_id account_id date amount duration payments status record identifier identification of the account date when the loan was granted amount of money duration of the loan monthly payments status of paying off the loan In the form YYMMDD A stands for contract finished, no problems, B stands for contract finished, loan not payed, C stands for running contract, OK so far, D stands for running contract, client in debt Πίνακας 3: Χαρακτηριστικά του πίνακα loan Πίνακας credit card, Ο συγκεκριµένος πίνακας περιέχει 892 εγγραφές, κάθε µία από τις οποίες περιγράφει τα χαρακτηριστικά µιας πιστωτικής κάρτας που εκδόθηκε από έναν λογαριασµό. Ένας λογαριασµός όµως, σε αντίθεση µε τα δάνεια, µπορεί να περιλαµβάνει περισσότερες από µία πιστωτικές κάρτες. Η ΠΕΡΙΠΤΩΣΗ ΧΟΡΗΓΗΣΗΣ ΤΡΑΠΕΖΙΚΩΝ ΑΝΕΙΩΝ 75

76 ΚΕΦΑΛΑΙΟ 4: Εφαρµογή σε Πραγµατικά εδοµένα Μεθοδολογία Ερευνας και Αποτελέσµατα Item Meaning Remark card_id disp_id record identifier disposition to an account type type of card possible values are junior, classic, gold issued issue date in the form YYMMDD Πίνακας 4: Χαρακτηριστικά του πίνακα credit card Πίνακας disposition Ο πίνακας αυτός αποτελείται από εγγραφές. Κάθε εγγραφή του πίνακα συνδέει έναν πελάτη µε έναν ή και περισσότερους λογαριασµούς, µιας και όπως έχουµε ήδη πει ένας πελάτης µπορεί να έχει πολλούς λογαριασµούς. Item Meaning Remark disp_id client_id account_id Record identifier Identification of a client Identification of an account type Type of disposition (owner/user) Only owner can issue permanent orders and ask for a loan Πίνακας 5: Χαρακτηριστικά του πίνακα disposition Πίνακας permanent order Ο συγκεκριµένος πίνακας αποτελείται από εγγραφές κάθε µία από τις οποίες περιγράφει τον τρόπο µε τον οποίο εξοφλεί ο πελάτης τις οφειλές του προς την τράπεζα. Εποµένως, ο πίνακας αυτός χρησιµοποιείται µόνο για πελάτες που έχουν οφειλές προς την τράπεζα. Η ΠΕΡΙΠΤΩΣΗ ΧΟΡΗΓΗΣΗΣ ΤΡΑΠΕΖΙΚΩΝ ΑΝΕΙΩΝ 76

77 ΚΕΦΑΛΑΙΟ 4: Εφαρµογή σε Πραγµατικά εδοµένα Μεθοδολογία Ερευνας και Αποτελέσµατα Item Meaning Remark order_id account_id record identifier account of the recipient bank_to bank of the recipient each bank has unique two-letter code account_to amount account of the recipient debited amount K_symbol characterization of the payment POJISTNE stands for insurance payment SIPO stands for household payment LEASING stands for leasing UVER stands for loan payment Πίνακας 6:Χαρακτηριστικά του πίνακα permanent order Πίνακας demographic data Ο συγκεκριµένος πίνακας αποτελείται από 77 εγγραφές, κάθε µία από τις οποίες περιγράφει τα δηµογραφικά χαρακτηριστικά της περιοχής από όπου προέρχονται οι πελάτες της τράπεζας. Item A1 = district_id A2 A3 A4 Meaning district code district name region no. of inhabitants A5 no. of municipalities with inhabitants < 499 A6 no. of municipalities with inhabitants A7 no. of municipalities with inhabitants A8 no. of municipalities with inhabitants > Η ΠΕΡΙΠΤΩΣΗ ΧΟΡΗΓΗΣΗΣ ΤΡΑΠΕΖΙΚΩΝ ΑΝΕΙΩΝ 77

78 ΚΕΦΑΛΑΙΟ 4: Εφαρµογή σε Πραγµατικά εδοµένα Μεθοδολογία Ερευνας και Αποτελέσµατα A9 A10 A11 no. of cities ratio of urban inhabitants average salary A12 unemployment rate 95 A13 unemployment rate 96 A14 no. of entrepreneurs per 1000 inhabitants A15 no. of commited crimes 95 A16 no. of commited crimes 96 Πίνακας 7:Χαρακτηριστικά του πίνακα demographic data Πίνακας transactions Πρόκειται για τον πίνακα που περιλαµβάνει τις περισσότερες εγγραφές. Συγκεκριµένα, ο πίνακας transactions αποτελείται από εγγραφές, κάθε µία από τις οποίες περιγράφει τα χαρακτηριστικά µίας και µόνο συναλλαγής που πραγµατοποιείται από ένα συγκεκριµένο λογαριασµό. Item Meaning Remark trans_id account_id record identifier account, the transation deals with date date of transaction in the form YYMMDD type +/- transaction PRIJEM stands for credit VYDAJ stands for withdrawal operation mode of transaction VYBER KARTOU credit card withdrawal VKLAD credit in cash PREVOD Z UCTU collection from another Η ΠΕΡΙΠΤΩΣΗ ΧΟΡΗΓΗΣΗΣ ΤΡΑΠΕΖΙΚΩΝ ΑΝΕΙΩΝ 78

79 ΚΕΦΑΛΑΙΟ 4: Εφαρµογή σε Πραγµατικά εδοµένα Μεθοδολογία Ερευνας και Αποτελέσµατα bank VYBER withdrawal in cash PREVOD NA UCET remittance to another bank amount balance amount of money balance after K_symbol transaction characterization of the transaction POJISTNE stands for insurrance payment SLUZBY stands for payment for statement UROK stands for interest credited SANKC.UROK sanction interest if negative balance SIPO stands for household DUCHOD stands for old-age pension UVER stands for loan payment bank bank of the partner each bank has unique two-letter code account account of the partner Πίνακας 8: Χαρακτηριστικά του πίνακα transactions 4.3 ΕΠΙΛΟΓΗ Ε ΟΜΕΝΩΝ Στη βάση δεδοµένων που δηµιουργήθηκε από τράπεζες της Τσεχίας, υπάρχουν οι συναλλαγές που πραγµατοποιήθηκαν µεταξύ των πελατών της τράπεζας και των υποκαταστηµάτων της, σε χρονικό διάστηµα έξι χρόνων. Σε αυτές τις συναλλαγές περιλαµβάνονται οι απλές κινήσεις λογαριασµών, οι πληρωµές δανείων, πιστωτικών καρτών καθώς και άλλων οφειλών προς την τράπεζα. Η ΠΕΡΙΠΤΩΣΗ ΧΟΡΗΓΗΣΗΣ ΤΡΑΠΕΖΙΚΩΝ ΑΝΕΙΩΝ 79

80 ΚΕΦΑΛΑΙΟ 4: Εφαρµογή σε Πραγµατικά εδοµένα Μεθοδολογία Ερευνας και Αποτελέσµατα Στη βάση δεδοµένων του τραπεζικού οργανισµού υπάρχουν καταγεγραµµένοι πελάτες, από τους οποίους έχουν δηµιουργηθεί λογαριασµοί και έχουν εκδοθεί 682 δάνεια. Επίσης στη βάση δεδοµένων υπάρχει και ο πίνακας µε τις συναλλαγές αποπληρωµής οφειλών, ο οποίος εκτός από τις οφειλές για τα δάνεια περιλαµβάνει και τις συναλλαγές αποπληρωµής άλλων οφειλών, όπως για παράδειγµα για πιστωτικές κάρτες. Έτσι, αρχικά περιορίσαµε το µεγάλο όγκο δεδοµένων µας, κρατώντας µόνο τις εγγραφές που µας ήταν χρήσιµες. Συγκεκριµένα, κρατήσαµε µόνο τις 682 εγγραφές που σχετίζονταν µε τη λήψη δανείων ώστε να εστιάσουµε στις περιπτώσεις που αφορούν τη δανειοδότηση προκειµένου να καταλήξουµε σε πιο ακριβή αποτελέσµατα. Mε τη χρήση του σχετικού ερωτήµατος συνδέσαµε τους πίνακες «loan», «account» και «demographic data» και επικεντρωθήκαµε µόνο στις περιπτώσεις που κάποιος λογαριασµός ήταν συνδεδεµένος µε κάποιο δάνειο. Εικόνα 12 : Το ερώτηµα στη βάση δεδοµένων για τη σύνδεση των πινάκων «loan», «account» και «demographic data» 4.4 ΠΡΟΕΠΕΞΕΡΓΑΣΙΑ Ε ΟΜΕΝΩΝ Έπειτα από την επιλογή των κατάλληλων δεδοµένων πραγµατοποιήσαµε έλεγχο των πινάκων για τυχόν κενά ή λάθη, όπως επίσης και για το ενδεχόµενο διπλών εγγραφών. Στο βήµα αυτό διαπιστώσαµε ότι στις µεταβλητές «Α12 = unemployment rate 95» και «Α15 = no. of commited crimes 95» λείπανε οχτώ τιµές, γι αυτό και αφαιρέσαµε τις συγκεκριµένες εγγραφές προκειµένου να µην επηρεαστούν τα αποτελέσµατα από αυτά τα κενά. Έτσι, µείνανε τελικά 674 εγγραφές. Η ΠΕΡΙΠΤΩΣΗ ΧΟΡΗΓΗΣΗΣ ΤΡΑΠΕΖΙΚΩΝ ΑΝΕΙΩΝ 80

81 ΚΕΦΑΛΑΙΟ 4: Εφαρµογή σε Πραγµατικά εδοµένα Μεθοδολογία Ερευνας και Αποτελέσµατα 4.5 ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΣ Ε ΟΜΕΝΩΝ Στο στάδιο αυτό πραγµατοποιούνται οι κατάλληλοι µετασχηµατισµοί των δεδοµένων προκειµένου να διευκολυνθεί η διαδικασία της εξόρυξης γνώσης. Από τον πίνακα που προέκυψε µε τις παραπάνω 674 εγγραφές παρατηρήσαµε ότι: τα δάνεια µε την ένδειξη «Α» στο χαρακτηριστικό «status», δηλαδή τα δάνεια που έχουν αποπληρωθεί πλήρως χωρίς να δηµιουργήσουν κανένα πρόβληµα, ανέρχονται σε 201. τα δάνεια µε την ένδειξη «Β» στο χαρακτηριστικό «status», δηλαδή τα δάνεια των οποίων η περίοδος αποπληρωµής έχει λήξει και τα δάνεια έχουν µείνει ανεξόφλητα, ανέρχονται σε 31 τα δάνεια µε την ένδειξη «C» στο χαρακτηριστικό «status», δηλαδή τα δάνεια τα οποία βρίσκονταν σε εξέλιξη την εξεταζόµενη περίοδο και οι πελάτες πλήρωναν τακτικά τις δόσεις τους χωρίς καθυστερήσεις και άλλου είδους προβλήµατα, ανέρχονται σε 399 και τέλος, τα δάνεια µε την ένδειξη «D» στο χαρακτηριστικό «status»,δηλαδή τα δάνεια τα οποία βρίσκονταν σε εξέλιξη την εξεταζόµενη περίοδο, αλλά οι πελάτες καθυστερούν να πληρώσουν και παρατηρούνται ληξιπρόθεσµες οφειλές, ανέρχονται σε 43. Οι παραπάνω τέσσερις κατηγορίες απεικονίζονται στο γράφηµα που ακολουθεί. Η ΠΕΡΙΠΤΩΣΗ ΧΟΡΗΓΗΣΗΣ ΤΡΑΠΕΖΙΚΩΝ ΑΝΕΙΩΝ 81

82 ΚΕΦΑΛΑΙΟ 4: Εφαρµογή σε Πραγµατικά εδοµένα Μεθοδολογία Ερευνας και Αποτελέσµατα Εικόνα 13: ιάγραµµα συχνοτήτων της µεταβλητής «status» Θεωρώντας τους πελάτες της κατηγορίας «Α» και «C» συνεπείς ως προς τις υποχρεώσεις τους στην τράπεζα και κατά συνέπεια επιθυµητούς και φερέγγυους πελάτες, θα τους ονοµάζουµε από και πέρα ως «καλούς» πελάτες. Αντίστοιχα, θεωρώντας τους πελάτες της κατηγορίας «B» και «D» ασυνεπείς για την τράπεζα και κατ επέκταση ανεπιθύµητους, θα τους ονοµάζουµε από και πέρα ως «κακούς» πελάτες. Για το σκοπό αυτό δηµιουργήσαµε µία νέα µεταβλητή µε το όνοµα «status_new», η οποία διαχωρίζει το σύνολο των πελατών σε δύο κατηγορίες. Ο διαχωρισµός αυτός απεικονίζεται στο παρακάτω γράφηµα. Η ΠΕΡΙΠΤΩΣΗ ΧΟΡΗΓΗΣΗΣ ΤΡΑΠΕΖΙΚΩΝ ΑΝΕΙΩΝ 82

83 ΚΕΦΑΛΑΙΟ 4: Εφαρµογή σε Πραγµατικά εδοµένα Μεθοδολογία Ερευνας και Αποτελέσµατα Εικόνα 14: ιάγραµµα συχνοτήτων της µεταβλητής «status_new» Μετά το νέο διαχωρισµό, από το σύνολο των διαθέσιµων πελατών οι 600 χαρακτηρίζονται ως «καλοί», ενώ οι 74 χαρακτηρίζονται ως «κακοί». Περίπου δηλαδή το 11% των περιπτώσεων δανειοδότησης δηµιουργούν προβλήµατα και καταλήγουν στη δηµιουργία χρέους έναντι της τράπεζας. Το ποσοστό αυτό είναι αρκετά υψηλό και αυξάνει πολύ το ρίσκο που αναλαµβάνει η τράπεζα. Επίσης, στα δεδοµένα µας συµπεριλαµβάνονταν δύο µεταβλητές, οι «Α12 = unemployment rate 95» και «Α13 = unemployment rate 96» οι οποίες αντιστοιχούσαν στο δείκτη ανεργίας της περιοχής του δανειζόµενου για δύο συνεχή έτη. Έτσι, στα πλαίσια του µετασχηµατισµού, µετατρέψαµε τις δύο µεταβλητές σε µία, υπολογίζοντας το µέσο όρο των αντίστοιχων τιµών. Έτσι, δηµιουργήσαµε µία νέα µεταβλητή µε το όνοµα «unemployment_rate», η οποία αντιστοιχεί στο δείκτη ανεργίας της διετίας. Η ΠΕΡΙΠΤΩΣΗ ΧΟΡΗΓΗΣΗΣ ΤΡΑΠΕΖΙΚΩΝ ΑΝΕΙΩΝ 83

Δείτε περισσότερα