ΕΦΑΡΜΟΓΗ ΤΕΧΝΙΚΩΝ ΕΞΟΡΥΞΗΣ ΓΝΩΣΗΣ ΣΕ ΟΙΚΟΝΟΜΙΚΑ Ε ΟΜΕΝΑ

Transcript

1 ΕΦΑΡΜΟΓΗ ΤΕΧΝΙΚΩΝ ΕΞΟΡΥΞΗΣ ΓΝΩΣΗΣ ΣΕ ΟΙΚΟΝΟΜΙΚΑ Ε ΟΜΕΝΑ Μεταπτυχιακή Εργασία ΓΕΩΡΓΙΟΣ Ν. ΡΑΥΤΟΠΟΥΛΟΣ Επιβλέπων: ΚΑΘΗΓΗΤΗΣ ΠΑΝΑΓΙΩΤΗΣ ΠΙΝΤΕΛΑΣ Ιανουάριος 2012 ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΜΑΘΗΜΑΤΙΚΩΝ ΤΟΜΕΑΣ ΥΠΟΛΟΓΙΣΤΙΚΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΕΡΓΑΣΤΗΡΙΟ ΕΚΠΑΙ ΕΥΤΙΚΟΥ ΛΟΓΙΣΜΙΚΟΥ (ESD Lab) -Σελίδα 1 -

2 Τριµελής Εξεταστική Επιτροπή Παναγιώτης Πιντέλας, Καθηγητής του Τµήµατος Μαθηµατικών του Πανεπιστηµίου Πατρών (Επιβλέπων) Όµηρος Ράγγος, Επίκουρος Καθηγητής του Τµήµατος Μαθηµατικών του Πανεπιστηµίου Πατρών ηµήτριος Τζελεπης, Επίκουρος Καθηγητής του Τµήµατος Οικονοµικων του Πανεπιστηµίου Πατρών -Σελίδα 2 -

3 Ευχαριστίες Θα ήθελα να ευχαριστήσω τον επιβλέποντα καθηγητή µου, κ. Παναγιώτη Πιντέλα για την ευκαιρία που µου έδωσε να ασχοληθώ µε ένα τόσο ενδιαφέρον και σύγχρονο θέµα. καθώς και για την καθοδήγηση και βοήθεια που µου παρείχε στη διάρκεια εκπόνησης της εργασίας. Τον κ. ηµήτριο Τζελεπη επίκουρο καθηγητή και µέλος της τριµελούς εξεταστικής επιτροπής επειδή µε εξυπηρέτησε όποτε χρειάστηκα την βοήθεια του, καθώς και τον κ. Οµηρο Ραγγο επίκουρο καθηγητή και µέλος της τριµελούς επιτροπής. Τέλος θα ήθελα να ευχαριστήσω ιδιαίτερα τον λέκτορα κ. Σωτήρη Κωτσιαντή για την καθοριστική και ουσιαστική συµβολή και αµέριστη βοήθειά του στην εκπόνηση της εργασίας καθώς και για την άριστη συνεργασία που είχαµε. Πάτρα, Ιανουάριος 2012 Γεώργιος Ν. Ραυτοπουλος -Σελίδα 3 -

4 Πρόλογος Εισαγωγή Συστήµατα υποστήριξης αποφάσεων και επιχειρήσεις Εργαλεία επιχειρηµατικής νοηµοσύνης Βάσεις δεδοµένων και συστήµατα υποστήριξης αποφάσεων Εξόρυξη Γνώσης Στόχοι και αποτελέσµατα ιαδικασία εξόρυξης γνώσης Τεχνικές Εξόρυξης Γνώσης Κατηγοριοποίηση Συσταδοποίηση Κανόνες Συσχέτισης Πρότυπα Ακολουθιών Παλινδρόµηση Αλγόριθµοι κατηγοριοποίησης στην εξόρυξη γνώσης ίκτυα Bayes έντρα Αποφάσεων Κανόνες ταξινόµησης Νευρωνικά δίκτυα Μηχανές διανυσµάτων υποστήριξης Μάθηση βασισµένη στα στιγµιότυπα Εξόρυξη γνώσης σε οικονοµικές εφαρµογές Πιστωτικές κάρτες ιαδικασία έκδοσης πιστωτικής κάρτας Επιχειρηµατικές πιστωτικές κάρτες και συστήµατα έκδοσης δανείων σε τρίτους Επαγγελµατικές χρηµατοδοτήσεις Είδη πίστωσης ανεισµός και αξιολόγηση της πιστοληπτικής ικανότητας των επιχειρήσεων Χρηµατοδοτήσεις από ανοιχτό αλληλόχρεο λογαριασµό Χρηµατοδοτήσεις παγίου εξοπλισµού και επαγγελµατικής στέγης Κεφάλαια κίνησης Προσωπική χρηµατοδότηση Καταναλωτικά δάνεια Στεγαστικά δάνεια Είδη και παρερχόµενες εγγυήσεις στεγαστικών δανείων Αξιολόγηση των αλγορίθµων εξόρυξης γνώσης για την έγκριση δανειοδότησης Αλγόριθµοι εξόρυξης γνώσης Σύγκριση αλγορίθµων κατασκευής δέντρων απόφασης Σύγκριση αλγορίθµων παραγωγής κανόνων ταξινόµησης Σύγκριση οκνηρών αλγορίθµων µάθησης Σύγκριση αλγορίθµων νευρωνικών δικτύων Σύγκριση αλγορίθµων κατασκευής Μπεϋζιανών δικτύων Σύγκριση αλγορίθµων αφελών Μπεϋζιανών αλγορίθµων Σύγκριση πολυωνυµικών πυρήνων SVMs Συνδυασµός αποφάσεων διαφορετικών ταξινοµητών Σελίδα 4 -

5 7.1 Προτεινόµενη µέθοδος επιλεκτικής ψηφοφορίας Παρουσίαση του προτεινόµενου εργαλείου Εισαγωγή εδοµένα εκµάθησης ΕΠΙΛΟΓΟΣ...94 ΒΙΒΛΙΟΓΡΑΦΙΑ - ΑΝΑΦΟΡΕΣ Σελίδα 5 -

6 Πρόλογος Στις επιχειρήσεις συγκεντρώνονται πληροφορίες σχετικά µε τις αγοραστικές συνήθειες των πελατών τους. Αυτό επιτυγχάνεται µε τη βοήθεια των Συστηµάτων Υποστήριξης Αποφάσεων (Σ.Υ.Α) που αποτελούν το πιο σηµαντικό κοµάτι του επιχειρηµατικού πληροφοριακού συστήµατος. Τα Σ.Υ.Α παρέχουν χρήσιµες πληροφορίες στα στελέχη έτσι, ώστε οι τελευταίοι να λάβουν τις κατάλληλες αποφάσεις. Σ.Υ.Α µπορούν να χρησιµοποιούν και οι τράπεζες π.χ για την έγκριση δανείων. Με τον όρο Επιχειρηµατική Νοηµοσύνη (Ε.Ν) εννοούµε την λειτουργία που έχει ως σκοπό την τροφοδοσία των τοµέων σχετικών µε την λήψη αποφάσεων µε δεδοµένα που αναφέρονται σε συναλλαγές πελατών, κινήσεις ανταγωνιστών κτλ. Η Ε.Ν είναι η καρδιά των Συστηµάτων Υποστήριξης Αποφάσεων. Η διαδικασία που έχει ως στόχο να εφαρµόζει µεθόδους ανάλυσης σ ένα µεγάλο όγκο πληροφοριών ονοµάζεται εξόρυξη γνώσης. Η παρούσα εργασία έχει ως στόχο να αξιολογήσει και να επιλέξει τον καταλληλότερο αλγόριθµο εξόρυξης γνώσης για χρήση σε οικονοµικά δεδοµένα και να αναλύσει πληρέστερα το παράδειγµα των δανειοδοτήσεων [37]. Οι αλγόριθµοι που αξιολογούνται χρησιµοποιούν στοιχεία όπως το εισόδηµα, ιδιοκτησία κατοικίας, ηλικία, πιστωτική ιστορία κλπ. Στην συνεχεία, παρουσιάζουµε έναν αλγόριθµο µάθησης την επιλεκτική ψηφοφορία, για την αυτοµατοποιηµένη έγκριση δανειοδότησης πελατών τον οποίο υλοποιούµε και ουσιαστικά αποτελεί ένα βοηθητικό εργαλείο στην υπηρεσία ενός τραπεζικού στελέχους για την έκδοση δανειοδότησης. -Σελίδα 6 -

7 1. Εισαγωγή Τα Συστήµατα Υποστήριξης Αποφάσεων (Σ.Υ.Α) βοηθούν τα στελέχη για να λαµβάνουν βραχυπρόθεσµες ή µακροπρόθεσµες αποφάσεις. Ο ρόλος τους είναι συµβουλευτικός και υποστηρικτικός. Στο παρελθόν η λήψη αποφάσεων απαιτούσε πολύ χρόνο και κόπο, αφού απασχολούσε πολλά άτοµα. Βασίζονταν στην χειροκίνητη συλλογή των δεδοµένων και στην αξιολόγηση των εκθέσεων (reports). Τότε τα Πληροφοριακά Συστήµατα δεν είχαν τις σηµερινές δυνατότητες. Αντιλαµβανόµαστε ότι στο σύγχρονο επιχειρηµατικό περιβάλλον οι ταχύτητες στην λήψη των αποφάσεων πρέπει να είναι αρκετά πιο γρήγορες από ότι στο παρελθόν. Τα Σ.Υ.Α χρησιµοποιούν σύγχρονες τεχνολογίες και εκείνα τα εργαλεία ώστε οι πληροφορίες να παρουσιάζονται µε σαφή, περιληπτικό και έγκαιρο τρόπο. Στις µέρες µας οι πληροφορίες βρίσκονται σε βάσεις δεδοµένων, στις οποίες έχουν πρόσβαση όλα τα τµήµατα της επιχείρησης κάθε χρονική στιγµή. Τα Σ.Υ.Α έχουν διαφορετικές δυνατότητες επεξεργασίας των δεδοµένων, µε αποτέλεσµα να χρησιµοποιούνται τρεις τύποι Σ.Υ.Α. Αυτοί είναι: Κατευθυνόµενα από µοντέλο (model-driven). Είναι ολοκληρωµένα συστήµατα που µπορούν να εκτελούν what-if σενάρια καθώς και άλλων τύπων ανάλυσης. Κατευθυνόµενα από τα δεδοµένα (data-driven). Επιτρέπεται στο χρήστη να αναλύει και να εξηγεί την χρήσιµη πληροφορία από µεγάλες βάσεις δεδοµένων. Εξόρυξης Γνώσης (data mining). Από µεγάλες βάσεις δεδοµένων βρίσκονται κάποιες σχέσεις µεταξύ κρυµµένων τυποποιηµένων προτύπων (patterns) έτσι, ώστε να εξάγονται χρήσιµοι κανόνες για την πρόβλεψη µελλοντικών συµπεριφορών. Η εξόρυξη γνώσης από δεδοµένα αποτελεί τα τελευταία χρόνια ένα εντελώς αυτόνοµο πεδίο έρευνας, καθώς µε τις τεχνικές της µπορεί να -Σελίδα 7 -

8 βοηθήσει τα στελέχη των επιχειρήσεων να ανακαλύψουν τη χρήσιµη πληροφορία σε µικρό χρονικό διάστηµα και µε µεγάλη λεπτοµέρεια. Επίσης δίνουν τη δυνατότητα της πρόγνωσης του αποτελέσµατος µιας µελλοντικής διεργασίας. Πολλοί θεωρούν την εξόρυξη γνώσης (Data Mining) σαν συνώνυµο ενός άλλου πολύ γνωστού και διαδεδοµένου όρου, αναφορικά µε αυτόν της ανακάλυψη γνώσης από βάσεις δεδοµένων (Knowledge Discovery in Databases KDD). Εναλλακτικά, άλλοι βλέπουν την εξόρυξη γνώσης σαν ένα βασικό βήµα στην διαδικασία της ανακάλυψης γνώσης από βάσεις δεδοµένων. Η δεύτερη αυτή θεώρηση είναι και η πιο ακριβής κατά τη γνώµη µας, και είναι και αυτή που θα χρησιµοποιήσαµε στην παρούσα εργασία. Για να διαφοροποιούµε την ανακάλυψη γνώσης από την εξορυξη γνωσης θα χρησιµοποιούµε από εδώ και στο εξής τον όρο εξόρυξη δεδοµένων όταν αναφερόµαστε στο Data Mining. Η ανακάλυψη γνώσης σαν διαδικασία αποτελείται ουσιαστικά από µια επαναληπτική ακολουθία των παρακάτω βηµάτων: 1. Καθαρισµός δεδοµένων (data cleaning), όπου ουσιαστικά αποµακρύνουµε τον θόρυβο και ακατάλληλα δεδοµένα. 2. Ενοποίηση δεδοµένων (data integration), όπου πιθανώς να έχουµε πολλαπλές πηγές δεδοµένων οι οποίες θα πρέπει να συνδυαστούν. 3. Επιλογή δεδοµένων (data selection), όπου δεδοµένα σχετικά µε την διαδικασία της ανάλυσης µας θα πρέπει να επιλεχθούν και να ανακτηθούν από τη βάση µας. 4. Μετατροπή δεδοµένων (data transformation), όπου τα δεδοµένα µας θα πρέπει να µετατραπούν σε µια ενιαία µορφή κατάλληλη προς επεξεργασία. 5. Εξόρυξη δεδοµένων (Data Mining), µια ουσιαστική διαδικασία όπου εφαρµόζονται ευφυείς µέθοδοι προκειµένου να εξαγάγουµε µοτίβα πρότυπα από τα δεδοµένα µας. 6. Αξιολόγηση µοτίβων (Pattern evaluation), η διαδικασία κατά την οποία αναγνωρίζουµε και ξεχωρίζουµε τα πραγµατικά ενδιαφέροντα µοτίβα µε χρήση µετρικών ενδιαφέροντος (interestingness measures) -Σελίδα 8 -

9 7. Αναπαράσταση γνώσης (knowledge presentation), όπου εφαρµόζουµε τεχνικές οπτικοποίησης και αναπαράστασης γνώσης προκειµένου να παρουσιάσουµε καλύτερα την εξαγόµενη γνώση στους χρήστες. Οι κυριότεροι αλγόριθµοι εξόρυξης δεδοµένων αναφέρονται παρακάτω: ένδρα απόφασης: οµές δένδρων που αναπαριστούν σύνολα απόφασης. Αυτές οι αποφάσεις γεννούν κανόνες για την ταξινόµηση ενός συνόλου δεδοµένων. Νευρωνικά δίκτυα: Μη γραµικά, προφητικά και µπορούν να εκπαιδευτούν. Μοιάζουν στη δοµή στα βιολογικά νευρωνικά δίκτυα. Γενετικοί αλγόριθµοι: Τεχνικές βελτιστοποίησης που χρησιµοποιούν διαδικασίες όπως γενετικοί συνδυασµοί, µµετάλλαξη. Επαγωγή κανόνα: Η εξαγωγή χρήσιµων, και µε στατιστική σηµασία, if-then κανόνων από τα δεδοµένα. -Σελίδα 9 -

10 2. Συστήµατα υποστήριξης αποφάσεων και επιχειρήσεις Στις εταιρίες τον πιο σηµαντικό ρόλο στη δοµή των πληροφοριακών συστηµάτων έχουν τα Σ.Υ.Α. Και τούτο διότι βοηθούν στην συλλογή, την συντήρηση και την ανάλυση µεγάλων ποσοτήτων πληροφοριών. Παράλληλα αυτές οι διαδικασίες χρειάζονται οργανωτικές ικανότητες, κόστος και τεχνικές δεξιότητες. Σχήµα 2.1 Η εικόνα µιας οποιασδήποτε επιχείρησης-ο ρόλος των OLTP,ΣΥΑ Στο σχήµα 2.1 εµφανίζεται ένας κύκλος, στον οποίο οι καθηµερινές συναλλαγές φτιάχνουν στοιχεία που τροφοδοτούν τα Σ.Υ.Α. Οι αποφάσεις που λαµβάνονται, µετά από την συµβολή των υπηρεσιών των Σ.Υ.Α, οδηγούν σε αλλαγές των δεδοµένων και ο κύκλος ανατροφοδοτείται. Τα OLTP (On Line Transaction Processing Systems) συστήµατα δίνουν στις εταιρίες την δυνατότητα να συγκεντρώνουν πληροφορίες για τις καθηµερινές πωλήσεις τους. Πιο συγκεκριµένα ενεργοποιούν επαναληπτικές και δοµηµένες -Σελίδα 10 -

11 διαδικασίες επεξεργασίας δεδοµένων π.χ τραπεζικές συναλλαγές. Έτσι τα στελέχη χρησιµοποιούν το σύνολο των πληροφοριών, που καθηµερινά συγκεντρώνονται σε µια περιοχή από πολλά ανεξάρτητα σηµεία, για να αποφασίσουν µια νέα πορεία. Ο κύκλος επαναλαµβάνεται αφού και µετά τις όποιες αλλαγές θα συνεχιστούν οι συναλλαγές µε τους πελάτες κ.ο.κ. Εποµένως αντιλαµβανόµαστε ότι ένα Σ.Υ.Α για ένα στέλεχος µιας τράπεζας που ενδιαφέρεται για τους ρυθµούς χορήγησης δανείων είναι διαφορετικό σε σχέση µ ένα σύστηµα που χρειάζεται ένα ταξιδιωτικό γραφείο το οποίο ψάχνει τα φθηνότερα ξενοδοχεία µιας περιοχής. Η διαδικασία µε την οποία ένας οργανισµός µπορεί να εκµεταλλευτεί τα δεδοµένα του παρουσιάζεται στις παρακάτω παραγράφους. 2.1 Επιχειρηµατική Νοηµοσύνη Η Ε.Ν ενώνει τις διαφορετικές λειτουργίες της εξερεύνησης, πρόσβασης και ανάλυσης των πληροφοριών. Με αυτόν τον τρόπο επιτυγχάνεται η µετατροπή των διασκορπισµένων δεδοµένων σε χρήσιµη γνώση για την επιτυχηµένη λήψη επιχειρηµατικών αποφάσεων. Οι διαθέσιµες πληροφορίες χρησιµοποιούνται από τους ανθρώπους που λαµβάνουν τις αποφάσεις. Τέτοιοι µπορεί να είναι ο διευθυντής του τµήµατος µάρκετινγκ προϊόντων σε µια εταιρία καλλυντικών, ο διευθυντής µιας κλινικής ή µιας εταιρείας τηλεπικοινωνιών. Οι αυξανόµενες απαιτήσεις των πελατών και οι αλµατώδεις τεχνολογικές αλλαγές απαιτούν τη βελτίωση στην απόδοση µιας εταιρείας. Με αποτέλεσµα οι κρίσιµες αποφάσεις πρέπει να λαµβάνονται σε µικρότερο χρονικό διάστηµα και να βασίζονται σε αξιόπιστες πληροφορίες. Αυτή η προσπάθεια υποστηρίζεται σηµαντικά από την λειτουργία της Επιχειρηµατικής Νοηµοσύνης, η οποία τροφοδοτεί το προσωπικό µιας εταιρείας µε τα πλέον ακριβή και ενήµερα στοιχεία. Η Ε.Ν χρησιµοποιεί τα δεδοµένα ενός οργανισµού και το απαραίτητο λογισµικό για την ανάλυση των πληροφοριών έτσι, ώστε να ανακαλύπτει πρότυπα και να δίνει τις σωστές απαντήσεις σ -Σελίδα 11 -

12 επιχειρηµατικές ερωτήσεις. Καταλαβαίνουµε ότι η Ε.Ν µπορεί να αποτελεί σηµαντικό πλεονέκτηµα για κάθε εταιρεία. Σε όσες εταιρείες λειτουργεί η Ε.Ν υπάρχουν βάσεις δεδοµένων µε στοιχεία για τους πελάτες τους, το προσωπικό τους, τα προϊόντα τους και τα τµήµατα τους. Όµως οι πληροφορίες αυτές βρίσκονται σε διαφορετικές τοποθεσίες και η ανάκτηση τους είναι αρκετά επίπονη και χρονοβόρα. Η Ε.Ν έχει τον µηχανισµό για την γρήγορη ενοποίηση αυτών των δεδοµένων, µε αποτέλεσµα να επιτυγχάνεται η ανάλυση τους, οι σωστές αναφορές και τελικά η υποστήριξη των αποφάσεων από τα στελέχη της εταιρείας. Οι εφαρµογές της Ε.Ν βελτιώνουν την λειτουργικότητα και δηµιουργούν τις προϋποθέσεις για κέρδη. Ενώ το πλήθος των δεδοµένων οδήγησε µερικές επιχειρήσεις στην δηµιουργία αυτόνοµων επιχειρησιακών µονάδων που ως σκοπό έχουν την τροφοδότηση της διοίκησης ή άλλων τοµέων σχετικούς µε την λήψη αποφάσεων, µε πληροφορίες σχετικές µε πελάτες, ανταγωνιστές κλπ. Οι υπέρ-ανταγωνιστικές αγορές, οι αυξανόµενες απαιτήσεις των πελατών, οι ραγδαίες τεχνολογικές αλλαγές και η αλµατώδης ανάπτυξη των επιχειρήσεων προκαλούν το ενδιαφέρον πολλών βιοµηχανικών τοµέων. Για να είναι δυνατή η βελτίωση της απόδοσης της εταιρίας και η ικανοποίηση των απαιτήσεων των πελατών θα πρέπει να αξιοποιηθούν καλύτερα οι κρίσιµες επιχειρηµατικές πληροφορίες και µάλιστα ταχύτερα από ότι οι ανταγωνιστές. Αυτό εξηγεί γιατί η Επιχειρηµατική Νοηµοσύνη αποτελεί το στρατηγικό πλεονέκτηµα για κάθε οργανισµό. 2.2 Εργαλεία επιχειρηµατικής νοηµοσύνης Οι εφαρµογές Ε.Ν προσφέρουν τον µηχανισµό της απλής και γρήγορης ενοποίησης επιχειρηµατικών στοιχείων από ανόµοιες πηγές ώστε να είναι δυνατός ο διαµοιρασµός πληροφοριών στο εσωτερικό της εταιρίας µεταξύ υπαλλήλων αλλά και στο εξωτερικό µε πελάτες, προµηθευτές. Με αυτό τον τρόπο µπορούµε να χρησιµοποιήσουµε αποτελεσµατικά τα δεδοµένα για ανάλυση, αναφορές ή για υποστήριξη αποφάσεων ώστε να βελτιώσουµε την λειτουργικότητα και για να χτίσουµε πιο επικερδής πελατειακές σχέσεις. -Σελίδα 12 -

13 Υπάρχει κατάλληλο λογισµικό που επιτρέπει την παρακολούθηση και χρήση µεγάλων ποσοτήτων δεδοµένων. Tα εργαλεία της Ε.Ν διακρίνονται στους τρεις παρακάτω τύπους. Λογισµικό Πολυδιάστατης Ανάλυσης γνωστό και ως OLAP (On- Line Analytical Processing).Παρέχει στον χρήστη την δυνατότητα να κοιτάζει τα δεδοµένα από διαφορετικές οπτικές γωνίες. Εργαλεία ερωτήσεων (queries) Το πρόγραµµα που δίνει στον χρήστη την δυνατότητα να κάνει ερωτήσεις σχετικά µε τις τυποποιηµένες µορφές των δεδοµένων. Εργαλεία Εξόρυξης Γνώσης Λογισµικό που αναζητάει σηµαντικές τυποποιηµένες µορφές ή συσχετισµούς µεταξύ των δεδοµένων. -Σελίδα 13 -

14 2.3 Βάσεις δεδοµένων και συστήµατα υποστήριξης αποφάσεων Οι νέες τεχνολογίες στην περιοχή των Σ.Υ.Α εµφανιστήκαν στις αρχές της δεκαετίας του 1990 και αποτελούνται κυρίως από τα εξής τρία εργαλεία: α) τις αποθήκες δεδοµένων, β) την επεξεργασία των δεδοµένων σε πραγµατικό χρόνο (OLAP) και γ) την εξόρυξη γνώσης [30]. Στον επόµενο πίνακα βλέπουµε τα κυριότερα τεχνολογικά βήµατα κάθε εποχής. Εξελικτικό βήµα Επιχειρηµατική Ερώτηση Βοηθητικές Τεχνολογίες Κατασκευαστές προϊόντων Χαρακτηριστικά Συλλογή εδοµένων (1960) «Ποια ήταν τα συνολικά µου έσοδα τα τελευταία 5 χρόνια;» Υπολογιστές, ταινίες, δισκέτες IBM, CDC Αναδροµική, στατική ανάκτηση δεδοµένων Πρόσβαση σε δεδοµένα (1980) «Ποιες ήταν οι πωλήσεις µου στην Πάτρα τον τελευταίο Μάρτιο;» Σχεδιαστικές βάσεις δεδοµένων (RDBMS), γλώσσα SQL, ODBC Oracle, Sybase, Informix, IBM, Microsoft Αναδροµική, δυναµική ανάκτηση δεδοµένων σε επίπεδο εγγραφής Αποθήκες εδοµένων & Υποστήριξη Αποφάσεων (1990) «Ποιες ήταν οι πωλήσεις µου στην Πάτρα τον τελευταίο Μάρτιο; Βάση αυτών παίρνω αποφάσεις για την Αθήνα» Επεξεργασία σε πραγµατικό χρόνο (OLAP), πολυδιάστατες βάσεις δεδοµένων, αποθήκες δεδοµένων Pilot, Comshare, Arbor, Cognos, Microstrategy Αναδροµική, δυναµική ανάκτηση δεδοµένων σε πολλαπλά επίπεδα Εξόρυξη γνώσης (Ανερχόµενος τοµέας σήµερα) «Ποιες είναι οι πιθανές πωλήσεις του επόµενου µήνα στην Αθήνα;» Ανεπτυγµένοι αλγόριθµοι, πολυεπεξεργαστικά υπολογιστικά συστήµατα, µεγάλες βάσεις δεδοµένων Pilot, Lockheed, IBM, SGI Προφητική ανάκτηση πληροφορίας Πίνακας 2.1 Στις επόµενες παραγράφους θα προσπαθήσουµε να δείξουµε πως τα Σ.Υ.Α στηρίζονται στις τεχνολογίες που αναφέρονται στις δυο τελευταίες κατηγορίες. Για να καταλάβουµε πόσο σηµαντικές είναι οι τεχνικές της εξόρυξης γνώσης ας αναφερθούµε σ ένα παράδειγµα. Έστω µια εταιρεία που κατασκευάζει ποδήλατα. Αυτή πουλάει τα προϊόντα της είτε µέσω ενός -Σελίδα 14 -

15 δικτύου µεταπωλητών ή απευθείας η ίδια στους ενδιαφεροµένους. Οι κρίσιµες πληροφορίες για το τµήµα µάρκετινγκ της εταιρείας είναι οι εξής: τις συνολικές πωλήσεις σε ποδήλατα στην Ναύπακτο τον τελευταίο µήνα ανά προϊόν παραγωγής. τις έξι µεγαλύτερες αυξήσεις σε πωλήσεις στην κατηγορία νέων προϊόντων τα τρία τελευταία χρόνια. τις πόλεις µε τον µεγαλύτερο αναµενόµενο αριθµό πελατών. Συνειδητοποιούµε ότι οι απαντήσεις χρειάζονται ένα διαφορετικό τρόπο διαχώρισης των δεδοµένων απ ότι µια απλή αναφορά των στοιχείων που έχει η εταιρεία έτσι, ώστε να ανακαλυφθούν πληροφορίες που είναι κρυµµένες. Αφού ο σκοπός είναι να απαντηθούν σύνθετες ερωτήσεις, µια επιχείρηση πρέπει να προχωρήσει στις παρακάτω ενέργειες: Εφαρµογή OLAP πράξεων ηµιουργία αποθήκης δεδοµένων Εφαρµογή αλγορίθµων εξόρυξης γνώσης πάνω στην αποθήκη δεδοµένων Αποθήκη δεδοµένων (data warehouse) : Η αποθήκη δεδοµένων είναι µια έννοια ευρύτερη από την βάση δεδοµένων. Περιλαµβάνει συσωρευµένες πληροφορίες από τις επιµέρους βάσεις δεδοµένων της εταιρείας και το µέγεθος της φτάνει τα gigabytes ή ακόµα και terabytes. Παράλληλα τα στοιχεία που περιέχει µια αποθήκη δεδοµένων αποτελούν δοµηµένες πληροφορίες και όχι απλές εγγραφές. Μια αποθήκη δεδοµένων µπορεί να συντηρηθεί ξεχωριστά από τις βάσεις δεδοµένων, αφού έχει διαφορετικές εφαρµογές ανάλυσης από τις τελευταίες. Αξιοσηµείωτο είναι το γεγονός ότι η κατασκευή µιας αποθήκης δεδοµένων µπορεί να κρατήσει αρκετά χρόνια. Οι οργανισµοί φτιάχνουν data marts για συγκεκριµένα τµήµατα τους και αυτά µαζί αποτελούν την αποθήκη δεδοµένων. Μπορεί να έχουν ένα data mart για το λογιστήριο, άλλο για το τµήµα µάρκετινγκ περιλαµβάνοντας το καθένα συγκεκριµένες πληροφορίες για το κάθε τµήµα. Εκτός των άλλων σηµαντική παράµετρος για την απόδοση µιας αποθήκης δεδοµένων αποτελεί ο τρόπος -Σελίδα 15 -

16 υλοποίησης της, δηλαδή αν βασίζεται στο σχεσιακό µοντέλο (ROLAP) ή στο πολυδιάστατο µοντέλο (MOLAP). OLAP : Μια αποθήκη δεδοµένων περιέχει συγκεντρωτικά και ιστορικά δεδοµένα που µε την Συνεχή Αναλυτική Επεξεργασία (On-Line Analytical Processing OLAP) τους, δίνει χρήσιµες πληροφορίες για την λήψη των αποφάσεων. Η ραγδαία εξέλιξη και ανάπτυξη της συνεχούς αναλυτικής διαδικασίας (OLAP) εξηγείται λόγω της ανάγκης για γρήγορη ανάλυση µεγάλων ποσοτήτων δεδοµένων. Τα εργαλεία που χρησιµοποιούνται στην OLAP δίνουν περισσότερες δυνατότητες σε σύγκριση µε τις αναφορές(reports) και τις απλές ερωτήσεις. Εποµένως τα στελέχη των επιχειρήσεων έχουν πρόσβαση σε πολλές πληροφορίες, οι οποίες τους βοηθούν στην λύση των προβληµάτων τους. Ο χρήστης µε την βοήθεια των πολλαπλών ερωτήσεων του τύπου what-if αναλύει και µοντελοποιεί το σενάριο του. Η ανάγκη για πολυδιάστατη παρουσίαση των στοιχείων κάνει τις εφαρµογές OLAP να αποτελούν την βάση για την ανάλυση και τον υπολογισµό των δεδοµένων. Άρα οι αποθήκες δεδοµένων αντλούν τις πληροφορίες τους από τις πολυδιάστατες βάσεις δεδοµένων. Εξόρυξη Γνώσης: Αφού έχουµε κατασκευάσει µια αποθήκη δεδοµένων και έχουµε αξιοποιήσει την τεχνολογία OLAP, µπορούµε να εξελιχθούµε περισσότερο και να προσπαθήσουµε να ανακαλύψουµε την κρυµµένη πληροφορία της αποθήκης δεδοµένων µε την βοήθεια εξελιγµένων αλγορίθµων. Πλέον οι σύγχρονοι αναλυτές χρησιµοποιούν την εξόρυξη γνώσης σε µια αποθήκη δεδοµένων. Μαθαίνοντας άγνωστα πρότυπα καταλαβαίνουµε καλύτερα πως ένα Σ.Υ.Α µπορεί να βασιστεί σε µια αποθήκη δεδοµένων αποτελούµενη από αρκετά data marts. Οι πληροφορίες της δεν είναι τίποτα άλλο παρά στοιχεία που προέρχονται από τις βάσεις δεδοµένων της επιχείρησης ή ακόµη και από εξωτερικές πηγές όπως το διαδίκτυο. Η αποθήκη δεδοµένων έχει την δυνατότητα να εφαρµόσει OLAP πράξεις αλλά και την εξορυξη γνώσης. Πιο συγκεκριµένα στην συνέχεια θα αναφερθούµε σε -Σελίδα 16 -

17 θέµατα σχεδίασης και εισαγωγής στοιχείων σε µια αποθήκη δεδοµένων. Θα δούµε αλγορίθµους εξόρυξης γνώσης οι οποίοι δείχνουν τις σχέσεις και τις εξαρτήσεις που δεν φαίνονται, και θα παρουσιάσουµε εφαρµογές OLAP πράξεων σε µια αποθήκη δεδοµένων µε σκοπό την υποστήριξη των αποφάσεων. -Σελίδα 17 -

18 3. Εξόρυξη Γνώσης Αφού αναφερθήκαµε σε τεχνολογίες της αποθήκης δεδοµένων, και πως αυτές πρωταγωνιστούν στο χώρο της υποστήριξης αποφάσεων, είναι αναγκαίο να δούµε και τις κατηγορίες αποφάσεων που υποστηρίζει η εξόρυξη γνώσης. Και τούτο διότι τα στελέχη ενός οργανισµού, που παίρνουν τις αποφάσεις, χρειάζονται στη διάθεση τους πληροφορίες και απαντήσεις που δεν µπορούν να δοθούν από τις τεχνολογίες που αναλύθηκαν. Η εξόρυξη γνώσης βοηθά τις σύγχρονες εταιρίες να εστιάζουν στα πιο σηµαντικά στοιχεία από τις αποθήκες δεδοµένων τους. Με άλλα λόγια είναι η διαδικασία εφαρµογής µεθόδων ανάλυσης σε µεγάλο όγκο δεδοµένων. Ο χρήστης των εργαλείων εξόρυξης µπορεί να προβλέψει µελλοντικές συµπεριφορές και συνήθειες, ώστε οι εταιρίες να παίρνουν επιτυχηµένες αποφάσεις. Το πλεονέκτηµα αυτών των εργαλείων είναι ότι δίνουν απαντήσεις σε επιχειρηµατικές ερωτήσεις σε πολύ σύντοµο χρονικό διάστηµα, και ταυτόχρονα δεν χρειάζονται πολύ χρόνο ανάλυσης. Συνειδητοποιούµε ότι οι τεχνικές εξόρυξης γνώσης αναπτύσσονται γρήγορα, δίχως αλλαγές στην υποδοµή και µε µοναδικό στόχο την αξιοποίηση των επεξεργασµένων δεδοµένων [24]. 3.1 Στόχοι και αποτελέσµατα Οι µέθοδοι εξόρυξης γνώσης στοχεύουν στην ανακάλυψη στοιχειών που θα είναι χρήσιµα για τους οργανισµούς. Πληροφορίες για τυποποιηµένες µορφές όπως << ο πελάτης που θα ψωνίσει περισσότερο από δυο φορές σε περίοδο εκπτώσεων είναι πιθανό να αγοράσει τουλάχιστον µια φορά κατά την διάρκεια των Χριστουγέννων>> είτε για συσχετίσεις π.χ << όταν ένας πελάτης αγοράζει dvd player τότε αγοράζει και κάποια άλλη ηλεκτρονική συσκευή>> µπορεί να αποτελέσουν καθοριστικούς παράγοντες για την λήψη αποφάσεων όσον αφορά τη λειτουργία µιας εµπορικής επιχείρησης. Και αυτό επειδή µπορεί να ληφθούν αποφάσεις σχετικά µε το ωράριο, το ύψος και τη διάρκεια των εκπτώσεων, ακόµη και για την τοποθέτηση των προϊόντων µέσα στα καταστήµατα. Παράλληλα τέτοιου είδους πληροφορίες χρησιµοποιούνται για -Σελίδα 18 -

19 τον προγραµµατισµό χρήσης πρόσθετων αποθηκευτικών χώρων ή και για τον σχεδιασµό διαφορετικών στρατηγικών µάρκετινγκ. Τα στελέχη της επιχείρησης, που είναι υπεύθυνα για την λήψη των αποφάσεων εκµεταλλεύονται τις δυνατότητες της εξόρυξης γνώσης και µετατρέπουν τις γνώσεις σε επιτυχή αποτελέσµατα. Με αυτόν τον τρόπο οι αρχές της επιχειρηµατικής νοηµοσύνης, που είναι η κεντρική ιδέα των Σ.Υ.Α, εφαρµόζονται και δίνουν σηµαντικά οφέλη. Παρακάτω αναλύονται οι στόχοι της εξόρυξης γνώσης. Πρόβλεψη συµπεριφορών και τάσεων: Η προσπάθεια πρόβλεψης µελλοντικών συµπεριφορών για να ληφθούν αποφάσεις που να µεγιστοποιούν το κέρδος και να προλαµβάνουν δυσάρεστες καταστάσεις. Τα αποτελέσµατα της εξόρυξης είναι πληροφορίες σχετικές µε το ύψος των πωλησεων ενός καταστήµατος για µια συγκεκριµένη χρονική περίοδο, αλλά και αν το κλείσιµο µιας γραµµής παραγωγής θα είχε θετική επίδραση στις πωλήσεις. Συγχρόνως σε επιστηµονικό επίπεδο, η µελέτη παλαιότερων σεισµικών φαινόµενων ίσως να οδηγούσε στην πρόβλεψη σεισµικής δραστηριότητας. Αναγνώριση. Οι τυποποιηµένες µορφές των δεδοµένων χρησιµοποιούνται για να δείξουν την ύπαρξη µιας δραστηριότητας ή ενός γεγονότος, π.χ οι εισβολείς κατά την διάρκεια του σπασίµατος ενός συστήµατος ασφαλείας αναγνωρίζονται από τα αρχεία που προσπέλασαν, τον χρόνο που απασχόλησαν την CPU, τα προγράµατα που εκτέλεσαν κλπ. Ταξινόµηση. Η εξόρυξη γνώσης διαχωρίζει τα στοιχεία, µε αποτέλεσµα να προκύπτουν διαφορετικές κατηγορίες ή κλάσεις. π.χ οι πελάτες ενός super-market είναι δυνατόν να χωριστούν σε παρορµητικούς, πιστούς κανονικούς, σπάνιους και σε φίλους των εκπτώσεων-προσφορών. Κατά την ανάλυση των πωλησεων αυτή η κατηγοριοποίηση χρησιµοποιείται για να ληφθούν αποφάσεις, ώστε να προσελκυστούν περισσότεροι πελάτες. Βελτιστοποίηση. Μεταξύ των άλλων σκοπός της εξορυξης γνώσης είναι η βέλτιστη χρήση κάποιων πόρων κάτω από περιορισµούς. -Σελίδα 19 -

20 Τέτοιοι πόροι µπορεί να είναι ο χρόνος, ο χώρος, το χρήµα και η µεγιστοποίηση κάποιων µεγεθών, όπως είναι τα κέρδη είτε οι πωλήσεις. Σε αυτή την περίπτωση η εξόρυξη γνώσης έχει κοινά σηµεία µε την επιχειρησιακή έρευνα. 3.3 ιαδικασία εξόρυξης γνώσης Η τεχνική που εφαρµόζεται για να µάθουµε από την εξορυξη γνώσης πληροφορίες που δεν γνωρίζουµε ή που θα συµβούν στο µέλλον ονοµάζεται µοντελοποίηση. ηλαδή η κατασκευή ενός µοντέλου για µια κατάσταση που γνωρίζουµε την απάντηση και στη συνέχεια η εφαρµογή του σε µια άλλη που δεν ξέρουµε [11]. Για παράδειγµα, αν αναζητούσαµε µια βυθισµένη ισπανική γαλέρα στην ανοικτή θάλασσα το πρώτο πράγµα που ίσως σκεφτόµασταν θα ήταν να ερευνήσουµε όλες τις περασµένες περιπτώσεις εύρεσης ισπανικών θησαυρών από άλλους. Ίσως λοιπόν να παρατηρούσαµε ότι αυτά τα πλοία στην πλειονότητα τους βρέθηκαν στις ακτές Βερµούδα και ότι υπήρχαν κάποιες βέβαιες πορείες που ακολουθούσαν οι καπετάνιοι των πλοίων αυτών εκείνη την εποχή. Αυτές οι οµοιότητες σηµειώνονται και κτίζεται ένα µοντέλο που περιλαµβάνει τα χαρακτηριστικά που είναι κοινά στις τοποθεσίες αυτών των βυθισµένων θησαυρών. Με αυτό το µοντέλο αρχίζει το ψάξιµο σε περιοχές που δείχνει αυτό ότι είναι πιθανό να υπήρξε µια παρόµοια κατάσταση στο παρελθόν [15]. Αν το µοντέλο είναι καλό ο θησαυρός θα βρεθεί. Η σκέψη κτισίµατος µοντέλων από τους ανθρώπους υπήρχε αρκετό καιρό πριν από την τεχνολογία της εξόρυξης γνώσης. Η διαδικασία που ακολουθείται είναι να φορτώνονται οι υπολογιστές µε στοιχεία για πολλές καταστάσεις ενώ µια απάντηση είναι γνωστή. Έπειτα το λογισµικό εξόρυξης γνώσης τρέχει πάνω σε αυτό τα δεδοµένα και διαλέγει τα πιο χαρακτηριστικά που θα συµπεριληφθούν στο µοντέλο. Όταν τελειώσει η κατασκευή του µοντέλου είναι δυνατό να χρησιµοποιηθεί σε παρόµοιες καταστάσεις που δεν γνωρίζουµε την απάντηση [25]. -Σελίδα 20 -

21 Εξορυξη Γνώσης = Μοντελοποίηση 1) Είµαστε γνώστες µιας κατάστασης 2) Φτιάχνουµε πάνω σε αυτή ένα µοντέλο 3) Το εφαρµόζουµε σε µια άλλη κατάσταση που δεν γνωρίζουµε Σχήµα 3.1. Η φιλοσοφία της εξόρυξης γνώσης. Για παράδειγµα ας υποθέσουµε ότι βρισκόµαστε στη θέση του διευθυντή µάρκετινγκ µιας εταιρίας τηλεπικοινωνιών και θέλουµε να αποκτήσουµε µερικούς πελάτες που κάνουν τηλεφωνήµατα µεγάλων αποστάσεων. Βρισκόµαστε δηλαδή αντιµέτωποι µε ένα πρόβληµα απόφασης, σε ποιους να απευθυνθούµε. Θα µπορούσαµε να ταχυδροµήσουµε µε τυχαίο τρόπο κουπόνια στο γενικό πληθυσµό όπως θα µπορούσαµε να ταξιδεύουµε στις θάλασσες ψάχνοντας για βυθισµένους θησαυρούς. Πάντως σε καµιά από τις δυο περιπτώσεις δεν θα είχαµε τα επιθυµητά αποτελέσµατα. Αντί αυτού θα µπορούσαµε να χρησιµοποιήσουµε την εµπειρία της εταιρίας που βρίσκεται αποθηκευµένη στις βάσεις δεδοµένων και να κτίσουµε ένα µοντέλο. Ο διευθυντής µάρκετινγκ έχει πρόσβαση σε πολλές πληροφορίες σχετικές µε τους πελάτες: την ηλικία τους, το φύλο τους, το αν είναι καλοί πληρωτές, το πόσα τηλεφωνήµατα µεγάλων αποστάσεων κάνουν. Το πρόβληµα είναι ότι δεν γνωρίζουµε πόσο πολύ θα κάνουν χρήση τηλεφωνηµάτων σε αποµακρυσµένες περιοχές. Επειδή θέλουµε αυτούς που κάνουν πολλά τέτοια τηλεφωνήµατα µπορούµε να το πετύχουµε αυτό κτίζοντας ένα µοντέλο. Ένα απλό µοντέλο που θα ταίριαζε σε µια τηλεπικοινωνιακή εταιρία είναι το παρακάτω: 98% των πελατών που έχουν λογαριασµό µεγαλύτερο από 6000 ευρώ το χρόνο δαπανούν περισσότερα -Σελίδα 21 -

22 από 80 ευρώ το µήνα για τηλεφωνήµατα σε µακρινές περιοχές Αυτό το µοντέλο θα µπορούσε να εφαρµοστεί στα δεδοµένα των πιθανών πελατών και να δοθεί απάντηση στο πρόβληµα απόφασης. Αφού γίνει αυτό θα ξέρει σε ποιους να απευθυνθεί η εταιρία. Η εξόρυξη γνώσης µε άλλα λόγια είναι µια επέκταση της στατιστικής µε κάποια στοιχεία τεχνητής νοηµοσύνης και µηχανικής µάθησης(machine learning). Η εξόρυξη γνώσης είναι µια τεχνολογία και όπως και η στατιστική δεν αποτελεί επιχειρηµατική λύση. Είναι µόνο µια τεχνολογία. Π.χ Αν από έναν κατάλογο εµπόρων λιανικής πώλησης πρέπει να αποφασιστεί ποιοι από αυτούς να ενηµερωθούν για ένα νέο προϊόν. Η εξορυξη γνώσης αναζητά την πληροφορία που βρίσκεται µέσα στις βάσεις δεδοµένων προηγούµενων συναλλαγών µε τους πελάτες καθώς και σε χαρακτηριστικά αυτών, όπως αν ανταποκρίθηκαν στο παρελθόν, η ηλικία τους, η διεύθυνση τους κλπ. Το λογισµικό της εξόρυξης γνώσης χρησιµοποιεί αυτά τα στοιχεία για να κατασκευάσει ένα µοντέλο συµπεριφοράς του πελάτη. Αυτό θα χρησιµοποιηθεί για να προβλεφθεί ποιοι πελάτες θα ανταποκριθούν στο νέο προϊόν. Εποµένως ένα στέλεχος του τµήµατος marketing µπορεί να επιλέξει τους πιθανούς πελάτες. Αντιλαµβανόµαστε ότι το λογισµικό της εταιρείας έχει την δυνατότητα να τροφοδοτεί τα κατάλληλα <<σηµεία επαφής>>(web servers, τηλεφωνικά κέντρα, s κλπ) µε τις αποφάσεις έτσι ώστε οι πελάτες να παίρνουν τα στοιχεία-πληροφορίες. Στις επόµενες παραγράφους θα αναφερθούµε σε τεχνικά ζητήµατα των Σ.Υ.Α για να σχηµατίσει ο αναγνώστης µια ολοκληρωµένη εικόνα των θεµάτων που πραγµατεύεται η παρούσα εργασία. Ειδικότερα θα αναλύσουµε τα στάδια που µεσολαβούν µέχρι να είναι δυνατή η ερµηνεία και η ανάλυση των αποτελεσµάτων. Άρα η ανακάλυψη γνώσης η διαδικασία καθορισµού και επίτευξης ενός σκοπού µέσω επαναληπτικής εξόρυξης γνώσης αποτελείται από τα εξής τρία στάδια: Προετοιµασία των δεδοµένων, Υλοποίηση και αποτίµηση του µοντέλου και Ανάπτυξη του µοντέλου -Σελίδα 22 -

23 Αρχικά ο αναλυτής προετοιµάζει ένα σύνολο στοιχείων για να κτιστεί ένα σωστό µοντέλο στις επόµενες φάσεις. Στοχεύοντας τις αναγκαίες πληροφορίες για µια επιχείρηση, ένα σωστό µοντέλο θα προβλέπει τι πιθανότητα υπάρχει ο πελάτης να αγοράσει προϊόντα από έναν νέο κατάλογο. Οι προβλέψεις βασίζονται σε παράγοντες που επιδρούν τις αγορές των πελατών και γι αυτό ένα µοντέλο συνόλου δεδοµένων θα έπρεπε να περιέχει όλους τους πελάτες που ανταποκρίθηκαν σε καταλόγους µέσω ταχυδροµείων, s κλπ τα τελευταία 4 χρόνια, τα 8 πιο ακριβά προϊόντα που αγόρασε κάθε πελάτης, τις δηµογραφικές πληροφορίες τους, και στοιχεία για τους καταλόγους που έγιναν οι αγορές. Συνειδητοποιούµε ότι πολύπλοκες ερωτήσεις µε µεγάλες απαντήσεις περιλαµβάνονται στην προετοιµασία των δεδοµένων. Για παράδειγµα για την εταιρία που αναφερθήκαµε προηγουµένως, η προετοιµασία του µοντέλου έχει συνδέσεις(joins) µεταξύ του πίνακα πωλησεων και του πίνακα πελατών, καθώς και για τον προσδιορισµό των 8 κορυφαίων προϊόντων για κάθε πελάτη. Εποµένως η αποτελεσµατική επεξεργασία ερωτήσεων υποστήριξης αποφάσεων σχετίζονται µε το περιβάλλον της εξόρυξης γνώσης. Η εξόρυξη γνώσης περιλαµβάνει την επαναληπτική κατασκευή µοντέλων πάνω σε ένα σύνολο δεδοµένων που έχει προετοιµαστεί και εν συνεχεία στην ανάπτυξη ενός ή περισσοτέρων µοντέλων. Εκτός των άλλων οι αναλυτέςειδικοί εργάζονται µε επαναληπτικό τρόπο σε δείγµατα συνόλων δεδοµένων, επειδή το κτίσιµο των µοντέλων σε µεγάλα σύνολα δεδοµένων είναι αρκετά ακριβό. Ο αναλυτής κατασκευάζει το µοντέλο πάνω στο σύνολο δεδοµένων, αφού όµως πρώτα έχει αποφασιστεί ποιο µοντέλο θα χρησιµοποιηθεί. Στη φάση της υλοποίησης εντοπίζονται οι τυποποιηµένες µορφές που ορίζουν ένα χαρακτηριστικό-στόχος (target attribute). Αν και µερικές κλάσεις µοντέλων εξόρυξης γνώσης συµβάλλουν σηµαντικά στην πρόβλεψη τόσο κρυφών χαρακτηριστικών όσο και φανερά -Σελίδα 23 -

24 καθορισµένων, κρίνονται αναγκαία, για την επιλογή του µοντέλου τα χαρακτηριστικά της ακρίβειας και της αποτελεσµατικότητας του αλγορίθµου κατασκευής του µοντέλου σε µεγάλα σύνολα δεδοµένων. Αξιοπρόσεκτο είναι το γεγονός ότι από στατιστικής πλευράς η ακρίβεια των περισσότερων µοντέλων βελτιώνεται µε το πλήθος των δεδοµένων που χρησιµοποιούνται. 3.4 Τεχνικές Εξόρυξης Γνώσης Οι βασικοί στόχοι της εξόρυξης γνώσης όπως αναφέραµε και στην εισαγωγή είναι η εφαρµογή τεχνικών πρόβλεψης (prediction) και περιγραφής (description) σε µεγάλες βάσεις δεδοµένων [38]. Ποιο συγκεκριµένα: Η πρόβλεψη περιλαµβάνει την χρήση µερικών µεταβλητών ή χαρακτηριστικών µιας βάσης δεδοµένων για την πρόβλεψη άγνωστων ή µελλοντικών τιµών χρήσιµων µεταβλητών. Με άλλα λόγια, οι διαδικασίες πρόβλεψης της εξόρυξης γνώσης (predictive data mining tasks), προσπαθούν να κάνουν εκτιµήσεις βγάζοντας συµπεράσµατα από τα διαθέσιµα δεδοµένα. Η περιγραφή επικεντρώνεται στην ανακάλυψη προτύπων και αναπαριστά τα δεδοµένα µιας πολύπλοκης βάσης δεδοµένων µε όσο το δυνατό πιο κατανοητό και αξιοποιήσιµο τρόπο. Με άλλα λόγια, οι περιγραφικές διαδικασίες της εξόρυξης γνώσης (descriptive data mining tasks) περιγράφουν τις γενικές ιδιότητες των υπαρχόντων διαθέσιµων δεδοµένων. Αν και τα όρια µεταξύ της πρόβλεψης και της περιγραφής δεν είναι απολύτως ξεκάθαρα (µερικά από τα πρότυπα πρόβλεψης µπορούν να είναι περιγραφικά, στο βαθµό που είναι κατανοητά και αντίστροφα), η διάκριση είναι χρήσιµη για την κατανόηση του γενικού στόχου ανακάλυψης. Η σχετική σηµασία της πρόβλεψης και της περιγραφής για συγκεκριµένες εφαρµογές εξόρυξης, µπορεί να ποικίλει αρκετά. -Σελίδα 24 -

25 Για να επιτύχουµε τους παραπάνω στόχους της εξόρυξης γνώσης µπορούµε να εφαρµόσουµε διάφορες τεχνικές, µερικές από τις οποίες είναι οι εξής: Κατηγοριοποίησης Συσταδοποίησης Κανόνες συσχέτισης Πρότυπα ακολουθιών Παλινδρόµηση έντρα απόφασης Στην συνέχεια αναλύουµε τις ποιο πάνω κατηγορίες τεχνικών ανακάλυψης γνώσης Κατηγοριοποίηση Η κατηγοριοποίηση (classification) αποτελεί µια από τις βασικές εργασίες (tasks) εξόρυξης γνώσης. Βασίζεται στην εξέταση των χαρακτηριστικών ενός νέου αντικειµένου το οποίο µε βάση τα χαρακτηριστικά αυτά αντιστοιχίζεται σε ένα προκαθορισµένο σύνολο κλάσεων χρησιµοποιώντας µεθόδους µάθησης µε επίβλεψη (supervised learning methods). Οι τεχνικές της κατηγοριοποίησης χρησιµοποιούν κατά κανόνα ένα σύνολο εκπαίδευσης (training set), όπου όλα τα αντικείµενα είναι ήδη συνδεδεµένα µε γνωστές κλάσεις. Ο αλγόριθµος ταξινόµησης «µαθαίνει» από αυτό το σύνολο, χρησιµοποιώντας την µάθηση αυτή για την κατασκευή ενός µοντέλου. Το µοντέλο αυτό στην συνέχεια ταξινοµεί νέα αντικείµενα στις κατάλληλες κλάσεις [39]. Άρα µπορούµε να πούµε ότι η κατηγοριοποίηση µαθαίνει σε µία λειτουργία να χαρτογραφεί (ταξινοµεί) ένα στοιχείο δεδοµένων σε µία από τις διάφορες προκαθορισµένες κατηγορίες. Παραδείγµατα µεθόδων ταξινόµησης, οι οποίες χρησιµοποιούνται ως τµήµα των εφαρµογών της ανακάλυψης -Σελίδα 25 -

26 γνώσης, περιλαµβάνουν την ταξινόµηση των τάσεων στις χρηµατοοικονοµικές αγορές και τον αυτοµατοποιηµένο προσδιορισµό των αντικειµένων ενδιαφέροντος για τις µεγάλες βάσεις δεδοµένων. Η Εικόνα 1.2 παρουσιάζει έναν απλό διαχωρισµό των στοιχείων δανείου σε δύο περιοχές κατηγοριών. Η τράπεζα πιθανώς να θελήσει να χρησιµοποιήσει τις περιοχές ταξινόµησης για να αποφασίσει, εάν θα δοθεί δάνειο ή όχι, στους µελλοντικούς υποψηφίους. Εικόνα 1.2 Ένα απλό γραµµικό όριο κατηγοριοποίησης για το σύνολο των στοιχείων δανείου Η διαµορφωµένη περιοχή δείχνει την κατηγορία, όχι δάνειο Η εργασία της κατηγοριοποίησης χαρακτηρίζεται από έναν καλά καθορισµένο ορισµό των κατηγοριών και το σύνολο που χρησιµοποιείται για την εκπαίδευση του µοντέλου αποτελείται από προ-κατηγοριοποιηµένα παραδείγµατα. Η βασική εργασία είναι να δηµιουργηθεί ένα µοντέλο το οποίο θα µπορούσε να εφαρµοστεί για να κατηγοριοποιήσει δεδοµένα που δεν έχουν ακόµα κατηγοριοποιηθεί (να ανατεθεί σε κάποια από τις κατηγορίες). Στις περισσότερες περιπτώσεις, υπάρχει ένα περιορισµένος αριθµός κατηγοριών και εµείς θα πρέπει να αναθέσουµε κάθε εγγραφή στην κατάλληλη κατηγορία. Για αυτό το σκοπό χρησιµοποιούνται κάποιες τεχνικές, τις οποίες µπορούµε να κατατάξουµε σε δύο κατηγορίες. Η πρώτη χρησιµοποιεί δέντρα απόφασης (decision trees) και η δεύτερη νευρωνικά δίκτυα (neural networks). -Σελίδα 26 -

27 Οι ποιο γνωστές µέθοδοι κατηγοριοποίησης είναι τα δέντρα απόφασης (Decision Trees), η µάθηση κατά Bayes, η κατηγοριοποίηση κοντινότερων γειτόνων (Nearest neighbor), τα νευρωνικά δίκτυα (Neaural Networks). Περισσότερα για αυτήν την τεχνική θα δούµε στο επόµενο κεφάλαιο, όπου και θα δούµε αναλυτικά τους περισσότερους αλγόριθµους αυτής της κατηγορίας τόσο από θεωρητικής άποψης όσο και από την πλευρά της εφαρµογής τους στο πεδίο της εκπαίδευσης Συσταδοποίηση Η συσταδοποίηση ή οµαδοποίηση (clustering) είναι ένας κοινός περιγραφικός στόχος, όπου κάποιος επιδιώκει να προσδιορίσει ένα πεπερασµένο σύνολο κατηγοριών ή οµάδων (clusters) για να περιγράψει τα δεδοµένα [38]. ιακρίνονται τρεις βασικές κατηγορίες µεθόδων clustering: Μέθοδοι διαχωρισµού (partitioning methods): δηµιουργoύν k οµάδες από ένα δεδοµένο αρχικό σύνολο n αντικειµένων µε κάθε οµάδα να αντιπροσωπεύει ένα cluster και να ικανοποιούνται οι εξής δύο συνθήκες: (α) κάθε cluster περιέχει τουλάχιστον ένα αντικείµενο και (β) κάθε αντικείµενο ανήκει σε ένα µόνο cluster. Ιεραρχικές µέθοδοι (hierarchical methods): διασπούν το αρχικό σύνολο δεδοµένων δηµιουργώντας µια ιεραρχική δοµή από clusters και διακρίνονται σε agglomerative (bottom-up) ή divisive (top-down) ανάλογα µε τον τρόπο που γίνεται η διάσπαση. Μέθοδοι βασισµένες σε µοντέλα (model-based methods): υποθέτουν ότι καθένα από τα clusters περιγράφεται από ένα µαθηµατικό µοντέλο και εντοπίζουν τα αντικείµενα που ανήκουν σε κάθε cluster, ώστε να ικανοποιούν το αντίστοιχο µοντέλο. Πολύ συχνά, οι τεχνικές clustering αυτής Αυτό που διαφοροποιεί τη συσταδοποίηση από την κατηγοριοποίηση είναι ότι η συσταδοποίηση δε βασίζεται σε προκαθορισµένες κατηγορίες. Στην -Σελίδα 27 -

28 κατηγοριοποίηση, ο πληθυσµός διαιρείται σε κατηγορίες αναθέτοντας κάθε στοιχείο ή εγγραφή σε µια προκαθορισµένη κατηγορία µε βάση ένα µοντέλο που αναπτύσσεται µέσω της εκπαίδευσης του µε παραδείγµατα που έχουν κατηγοριοποιηθεί εκ των προτέρων. Όπως και στην κατηγοριοποίηση έτσι και στη συσταδοποίηση υπάρχουν πολλές εφαρµογές. Για παράδειγµα, ας θεωρήσουµε πως έχουµε διαθέσιµα τα δεδοµένα πελατών µιας εταιρίας πωλήσεων. Χρησιµοποιώντας τεχνικές συσταδοποίησης, µπορούµε να βρούµε τον καταµερισµό των πελατών και της αγοράς, π.χ. µπορούµε να δούµε ποιοι πελάτες αγοράζουν για την οικογένεια τους και ποιοι για τον εαυτό τους ή ποιοι έχουν µεγάλο εισόδηµα και ποιοι όχι. Άλλο παραδείγµατα των εφαρµογών συσταδοποίησης σε ένα πλαίσιο ανακάλυψης γνώσης, περιλαµβάνουν την ανακάλυψη οµοιογενών υποσυνόλων πληθυσµού για τους καταναλωτές που υπάρχουν στις βάσεις δεδοµένων του τοµέα του µάρκετινγκ και τον προσδιορισµό των υποκατηγοριών των φασµάτων µε χρήση υπέρυθρων µετρήσεων του ουρανού. Η Εικόνα 3.3 παρουσιάζει µία πιθανή οµαδοποίηση του συνόλου των δεδοµένων δανείου, σε τρεις συστάδες. Αξίζει να σηµειωθεί ότι οι συστάδες επικαλύπτονται, επιτρέποντας στα σηµεία των δεδοµένων να ανήκουν σε περισσότερες από µία συστάδες. Οι αρχικές ετικέτες κατηγορίας (που υποδεικνύονται από τα x και τα ο στα προηγούµενα σχήµατα) έχουν αντικατασταθεί από τα +, για να δείξουν ότι η ιδιότητα µέλους κατηγορίας δεν θεωρείται πλέον γνωστή. -Σελίδα 28 -

29 Εικόνα 3.3 Μία απλή συσταδοποίηση του συνόλου δεδοµένων δανείου σε τρεις συστάδες Σηµειώστε ότι οι αρχικές ετικέτες αντικαθίστανται από τα Κανόνες Συσχέτισης Η εξαγωγή κανόνων συσχέτισης (association rules) θεωρείται µια από τις σηµαντικότερες διεργασίες εξόρυξης γνώσης. Έχει προσελκύσει µεγάλο ενδιαφέρον γιατί παρέχουν έναν συνοπτικό τρόπο για να εκφραστούν οι ενδεχοµένως χρήσιµες πληροφορίες που γίνονται εύκολα κατανοητές από τους τελικούς χρήστες. Οι κανόνες συσχέτισης ανακαλύπτουν κρυµµένες «συσχετίσεις» µεταξύ των γνωρισµάτων ενός συνόλου των δεδοµένων. Αυτοί οι συσχετισµοί παρουσιάζονται στην ακόλουθη µορφή Α Β όπου το Α και το Β αναφέρονται στα σύνολα γνωρισµάτων που υπάρχουν στα υπό ανάλυση δεδοµένα. Οι κανόνες συσχέτισης χρησιµοποιούνται για τον υπολογισµό της πιθανότητας να συµβεί το Β, µε δεδοµένο το ότι συνέβη το Α. Η επιλογή ενός κανόνα συσχέτισης και η αποτίµησή του ως ενδιαφέροντα εξαρτάται από τις τιµές των µεγεθών support (συχνότητα εµφάνισης του itemset AUB στην αρχική συλλογή) και confidence (την υπο-συνθήκη προβλεψιµότητα του Β µε δεδοµένο το Α). Ο πλέον δηµοφιλής αλγόριθµος για την ανακάλυψη κανόνων συσχέτισης είναι ο Apriori [38]. -Σελίδα 29 -

30 3.4.4 Πρότυπα Ακολουθιών Η εξόρυξη πρότυπων ακολουθιών (sequential patterns) είναι η εξόρυξη των συχνά εµφανιζόµενων προτύπων σχετικών µε το χρόνο ή άλλες ακολουθίες. Οι περισσότερες µελέτες στα πρότυπα ακολουθιών επικεντρώνονται στα συµβολικά πρότυπα. Ο χρήστης εδώ µπορεί να προσδιορίσει τους περιορισµούς στα είδη των προτύπων ακολουθιών που εξάγονται µε την παροχή των προσχεδίων προτύπων (template patterns) υπό µορφή σειριακών επεισοδίων, παράλληλων επεισοδίων ή κανονικών εκφράσεων. Παραδείγµατα προτύπων ακολουθιών έχουµε στην καθηµερινή µας ζωή όπως τα κείµενα, οι µουσικές νότες, τα δεδοµένα του καιρού και οι ακολουθίες του DNA Παλινδρόµηση Η παλινδρόµηση (regression) είναι η παλαιότερη και η πλέον γνωστή στατιστική τεχνική που υλοποιείται εντός των πλαισίων της εξόρυξης γνώσης και εχει εφαρµογή τόσο στην στατιστική όσο και στα νευρωνικά δίκτυα. Κύριος σκοπός εδώ είναι η πρόβλεψη της τιµής µιας µεταβλητής µελετώντας τις τιµές που είχε στο παρελθόν. Συγκεκριµένα η παλινδρόµηση, χρησιµοποιώντας µια βάση αριθµητικών δεδοµένων, αναπτύσσει µια µαθηµατική σχέση που ταιριάζει στα δεδοµένα αυτά. Στην συνέχεια, η µαθηµατική αυτή σχέση χρησιµοποιείται για την πρόβλεψη µελλοντικής συµπεριφοράς, εφαρµόζοντας σε αυτήν νέα αριθµητικά δεδοµένα. Ο βασικός περιορισµός της συγκεκριµένης τεχνικής είναι ότι εφαρµόζεται καλά µόνο σε συνεχή ποσοτικά δεδοµένα (όπως π.χ. βάρος, ταχύτητα ή ηλικία). Αντίθετα, η παλινδρόµηση δεν λειτουργεί καλά µε κατηγορικά δεδοµένα [38]. Η Εικόνα 3.4 δείχνει το αποτέλεσµα της απλής γραµµικής παλινδρόµησης, όπου το συνολικό χρέος εγκαθίσταται ως γραµµική λειτουργία του εισοδήµατος. Το παρακάτω γράφηµα είναι φτωχό, επειδή µόνο ένας αδύναµος συσχετισµός υπάρχει µεταξύ των δύο µεταβλητών. -Σελίδα 30 -

31 Εικόνα 3.4 Μία απλή γραµµική παλινδρόµηση για το σύνολο δεδοµένων δανείου. -Σελίδα 31 -

32 4. Αλγόριθµοι κατηγοριοποίησης στην εξόρυξη γνώσης Τα µοντέλα ταξινόµησης είναι προφητικά [14]. Μπορούν να προβλέψουν αν µια νέα πλειάδα ανήκει σε ένα από τα σύνολα των κλάσεων-στόχων. Κάνοντας εφαρµογή πάνω στον κατάλογο µιας εταιρίας για παράδειγµα, ένα µοντέλο ταξινόµησης θα µπορούσε να προσδιορίσει, βασιζόµενο σε παλιότερες συµπεριφορές, αν υπάρχει πιθανότητα να αγοράσει κάποιος πελάτης από τον κατάλογο αυτό. Τα δέντρα αποφάσεων και τα µοντέλα του Bayes αποτελούν δυο δηµοφιλείς τύπους µοντέλων ταξινόµησης. Οι αναλυτές χρησιµοποιούν τα λεγόµενα βασισµένα στους κανόνες (rulebased) µοντέλα για να εξερευνήσουν αν για παράδειγµα η αγορά ενός καθορισµένου συνόλου προϊόντων υποδηµάτων είναι ενδεικτική, µε κάποιο βαθµό εµπιστοσύνης, της αγοράς κάποιου άλλου προϊόντος. 4.1 ίκτυα Bayes Η Μάθηση κατά Bayes αποτελεί µια ιδιαίτερα δηµοφιλή προσέγγιση για την επαγωγική κατασκευή ταξινοµητών, αφενός διότι εκπορεύεται από τον οικείο χώρο του Πιθανοτικού Λογισµού, αφετέρου διότι έχει επιδείξει σηµαντικά αποτελέσµατα σε ένα ευρύτατο φάσµα εφαρµογών [1]. Η λειτουργία αυτής της κατηγορίας αλγορίθµων στηρίζεται στην υπόθεση ότι η υπό εκµάθηση έννοια σχετίζεται άµεσα µε την κατανοµή των πιθανοτήτων που παρουσιάζουν τα στιγµιότυπα του προβλήµατος αναφορικά µε την κλάση στην οποία ανήκουν. Ως βασικότερα πλεονεκτήµατα της προσέγγισης αυτής µπορούµε να αναφέρουµε [8]: Τη δυνατότητα αξιολόγησης των υποθέσεων στις οποίες καταλήγει ο αλγόριθµος µάθησης, µέσω της συσχέτισης ενός βαθµού εµπιστοσύνης της ορθότητάς τους, που αντιστοιχεί στην υπολογισθείσα πιθανότητα να είναι συνεπείς µε την πλειοψηφία των παρατηρούµενων δεδοµένων. Το χαρακτηριστικό αυτό συνεισφέρει στην παραγωγή εύρωστων µοντέλων, που εξασφαλίζουν ότι η αλήθεια µιας υπόθεσης δεν αµφισβητείται από -Σελίδα 32 -

33 µεµονωµένες περιπτώσεις στιγµιοτυπων για τις οποίες η υπόθεση κρίνεται ασυνεπής. Τη συµβολή της στη βαθύτερη κατανόηση και ανάλυση αλγορίθµων µάθησης οι οποίοι δε χειρίζονται απ ευθείας πιθανότητες. Ένα χαρακτηριστικό παράδειγµα της ιδιότητας αυτής αποτελεί η µελέτη της επαγωγικής προδιάθεσης (inductive bias) ενός αλγορίθµου, του συνόλου των υποθέσεων δηλαδή στις οποίες στηρίζεται ο αλγόριθµος, ώστε να παράγει ένα µοντέλο ικανό να γενικεύει τις υποθέσεις στις οποίες κατέληξε κατά το χειρισµό άγνωστων στιγµιότυπων. Την παροχή ενός µέτρου σύγκρισης έναντι άλλων µεθόδων Μ.Μ., καθώς οι αλγόριθµοι της κατηγορίας αυτής εγγυώνται τη βέλτιστη επίλυση ενός προβλήµατος, δεδοµένου ενός συνόλου υποθέσεων που απλοποιούν την κατασκευή του µοντέλου. Το δίκτυο Bayes µπορεί να οριστεί ως ένα ζεύγος (G,p) όπου G=(V, E) είναι ένας κατευθυνόµενος άκυκλος γράφος (directed acyclic graph-dag) του οποίου οι κόµβοι αναπαριστούν τυχαίες µεταβλητές και οι σύνδεσµοι αντιπροσωπεύουν τις αιτιολογικές επιδράσεις µεταξύ των µεταβλητών και p µια διακριτή συνάρτηση πιθανότητας. Η ισχύς της επίδρασης αναπαρίσταται από δεσµευµένες πιθανότητες. Στον γράφο αυτό οι µεταβλητές είναι υπό συνθήκη ανεξάρτητες από αυτές µε τις οποίες δεν ενώνονται, δεδοµένων των γονιών τους. Η παρακάτω εικόνα παρουσιάζει ένα απλό αλλά τυπικό δίκτυο Bayes. Περιγράφει τις αιτιολογικές σχέσεις ανάµεσα στην εποχή του έτους (Χ 1 ), εάν βρέχει (Χ 2 ) κατά την διάρκεια της εποχής, αν υπάρχει αυτόµατο πότισµα (Χ 3 ), αν το πεζοδρόµιο είναι βρεγµένο (Χ 4 ) και τέλος αν το πεζοδρόµιο γλιστράει (Χ 5 ). Όλες οι µεταβλητές στο δίκτυο αυτό είναι δίτιµες 0/1(true/false), εκτός από την πρώτη που παίρνει 4 τιµές (άνοιξη-καλοκαίριφθινόπωρο-χειµώνας). Εδώ η απουσία µια απευθείας σύνδεσης ανάµεσα στις Χ 1 και Χ 5 µας δείχνει ότι η επιρροή της µεταβλητότητας των εποχών στο εάν -Σελίδα 33 -

34 γλιστράει το πεζοδρόµιο, επιτυγχάνεται δια µεσολαβήσεως άλλων παραγόντων (π.χ. από το εάν είναι υγρό το πεζοδρόµιο). Χ1 SEASON SPRINKLER Χ3 Χ2 RAIN Χ4 WET Χ5 SLIPPERY Σχήµα 4.1 Τυπικό δίκτυο Bayes Όπως δείχνει αυτό το παράδειγµα, ένα δίκτυο Bayes αποτελεί ένα µοντέλο του περιβάλλοντος. Στην πραγµατικότητα προσοµοιώνει τον αιτιολογικό µηχανισµό που λειτουργεί στο περιβάλλον και έτσι επιτρέπει στον ερευνητή να δώσει απάντηση σε µια σειρά ερωτηµάτων όπως: Έχοντας παρατηρήσει το Α, τι µπορούµε να περιµένουµε για το Β ; ή Τι θα συµβεί εάν επέµβουµε στο περιβάλλον;. Απαντήσεις σε ερωτήσεις του πρώτου είδους βασίζονται µόνο στις πιθανότητες ενώ προκειµένου να απαντήσουµε σε ερωτήσεις του δευτέρου είδους πρέπει να βασιστούµε σε αιτιολογικές γνώσεις που περιέχει το δίκτυο. Και για τα δυο τις πληροφορίες τις παίρνουµε από το δίκτυο Bayes. Το πιο σηµαντικό χαρακτηριστικό που έχουν τα δίκτυα Bayes, είναι η ικανότητα τους να αναπαριστούν και να ανταποκρίνονται στις διάφορες αλλαγές της διαµόρφωσης. Κάθε τοπική αλλαγή στη διαµόρφωση του υπό µελέτη περιβάλλοντος, µπορεί να µεταφραστεί σε µια ισοµορφική αναδιαµόρφωση της τοπολογίας του δικτύου. Για παράδειγµα, για να -Σελίδα 34 -

35 αναπαραστήσουµε ένα πεζοδρόµιο καλυµµένο µε τέντα, απλώς διαγράφουµε την γραµµή που συνδέει την βροχή(χ 2 ) µε το υγρό πεζοδρόµιο(χ 3 ). εδοµένου ενός DAG G και µιας από κοινού κατανοµής P των διακριτών µεταβλητών X 1, X 2 X 3, X 4, X 5 λέµε ότι το G αντιπροσωπεύει την P µόνο εάν υπάρχει µια 1-1 σχέση µεταξύ των µεταβλητών Χ και των κόµβων του G, έτσι n X 1, X 5 = i= 1 ώστε το P να παίρνει την εξής µορφή: P( X X, X, ) ( P( X i pa i )) Όπου pa i (γονείς) είναι οι κοµβόι που βρίσκονται στο αµέσως προηγούµενο επίπεδο από την µεταβλητή Χ και συνδέονται µε αυτήν, στο δίκτυο G. Για το συγκεκριµένο παράδειγµα που µελετάµε : P( X X X, X, ) =P( X ) *P(X 2 X 1 )*P(X 3 1, X 5 X 1 )*P(X 4 X 2,X 3 )*P(X 5 X 4 ) 1 ηλαδή µε δεδοµένους τους γονείς της, κάθε µεταβλητή Χ i είναι ανεξάρτητη από όλες τις άλλες µεταβλητές που προηγούνται από αυτήν { X 1, X 2,..., X i 1 ) \ pa i. Αυτού του είδους οι ανεξαρτησίες καλούνται Μαρκοβιανές γιατί εκφράζουν τις Μαρκοβιανές συνθήκες για τις µεταβάσεις µεταξύ των καταστάσεων: Κάθε κατάσταση είναι ανεξάρτητη από το παρελθόν, δεδοµένης της αµέσως προηγούµενης κατάστασης. Έστω το δίκτυο:. -Σελίδα 35 -

36 P(B)=0.95 P(L)=0.7 L p(g B)=0.95 p(g ~B)=0.1 B p(m B,L)=0.9 p(m B,~L)=0.05 p(m ~B,L)=0 p(m ~B,~L)=0 G M Σχήµα 4.2 Όπως συµπεραίνουµε από το σχήµα: P(G,B,M,L)=P(G B)*P(M B,L)*P(B)*P(L). Ο κανόνας της αλυσίδας θα µας έδινε: P(G,B,M,L)=P(G B,M,L)*P(M B,L)*P(B L)*P(L). Παρατηρούµε λοιπόν ότι ενώ µε την απλή εφαρµογή του νόµου της αλυσίδας θα απαιτούνταν 16 υπολογισµοί διαφόρων πιθανοτήτων, µε το δίκτυο Bayes απαιτούνται µόνο 8. Αυτό µας επιτρέπει όπως καταλαβαίνουµε γρηγορότερο υπολογισµό της από κοινού πυκνότητας πιθανότητας και προβλήµατα που µέχρι πρότινος ήταν NP τώρα µπορούν να λυθούν σε λιγότερο χρόνο. Ο αφελής ταξινοµητής Bayes είναι η απλούστερη µορφή του Bayesian δικτύου [13]. Αυτό το δίκτυο υποθέτει ότι κάθε χαρακτηριστικό (κάθε διακλάδωση του δικτύου)είναι ανεξάρτητο από τα υπόλοιπα χαρακτηριστικά, µε δεδοµένη την κατάσταση της τάξης των χαρακτηριστικών(την αρχή). Έτσι το ανεξάρτητο µοντέλο (αφελής Bayes) είναι βασισµένο στον υπολογισµό: -Σελίδα 36 -

37 R= P( i / X ) = P( j / X ) P( i) P( x / i) P( j) P( x / j) = P( i) P( j) P( x / i) P( x / j) Συγκρίνοντας αυτές τις δύο πιθανότητες, η µεγαλύτερη πιθανότητα δηλώνει την τιµή της αξίας της τάξης που είναι η πιο πιθανή να είναι η πραγµατική τιµή (αν R>1: προβλέπεται i, αν όχι j). Η υπόθεση της ανεξαρτησίας είναι καθαρά σχεδόν πάντα λάθος και γι αυτό το λόγο ο αφελής ταξινοµητής Bayes είναι συνήθως λιγότερο ακριβής απ ότι άλλοι περισσότερο περίπλοκοι αλγόριθµοι µάθησης (όπως τα Νευρωνικά δίκτυα). Ωστόσο οι Domingos & Pazzani [40] παρουσίασαν µια µακροσκελής σύγκριση του αφελή ταξινοµητή Bayes µε σύγχρονους αλγόριθµους και βρήκαν ότι µερικές φορές είναι ανώτερος από τους άλλους αλγόριθµους εκµάθησης ακόµα και σε σειρά δεδοµένων µε εξαρτηµένες µεταβλητές. Το µεγάλο πλεονέκτηµα του αφελή ταξινοµητή Bayes είναι ο µικρός υπολογιστικός του χρόνος για εκπαίδευση. 4.2 έντρα Αποφάσεων Τα ένδρα Αποφάσεων (Decision Trees) είναι πολύ ισχυρά και δηµοφιλή εργαλεία για ταξινόµηση και πρόβλεψη [26]. Τα ένδρα Αποφάσεων αντιπροσωπεύουν κανόνες, οι οποίοι µπορούν εύκολα να διατυπωθούν σε φυσική γλώσσα ώστε να είναι εύκολα κατανοητοί από τους ανθρώπους ή να διατυπωθούν σε µία γλώσσα προσπέλασης βάσεων δεδοµένων π.χ. σε SQL. Υπάρχει µια πληθώρα αλγορίθµων που αναλαµβάνουν να φτιάξουν ένδρα Αποφάσεων, όπως : CART (Classification and Regression Trees), CHAID (CHi-squared Automation Interaction Detection), C4.5 [31]. Γενικά ένα ένδρο Απόφασης αντιπροσωπεύει µια σειρά από ΙF THEN κανόνες που συνδυάζονται µεταξύ τους από τη ρίζα του δένδρου προς τα φύλλα. Οι κόµβοι του δέντρου χαρακτηρίζονται µε τα ονόµατα των -Σελίδα 37 -

38 χαρακτηριστικών, οι ακµές ονοµάζονται µε τις δυνατές τιµές που µπορεί να πάρει ένα χαρακτηριστικό και τα φύλλα µε τις διάφορες κλάσεις. Τα αντικείµενα ταξινοµούνται ακολουθώντας ένα µονοπάτι που οδηγεί προς τα κάτω στο δέντρο, λαµβάνοντας τις ακµές που αντιστοιχούν στις τιµές των χαρακτηριστικών ενός αντικειµένου. Μία εγγραφή εισέρχεται στο δέντρο από τον κόµβο της κορυφής. Στην ρίζα, εφαρµόζεται έλεγχος για να καθορισθεί ποιο κόµβο παιδί θα ακολουθήσει στην συνέχεια η εγγραφή. Υπάρχουν διάφοροι αλγόριθµοι για την επιλογή του αρχικού ελέγχου, αλλά ο στόχος είναι πάντα ο ίδιος, δηλαδή, να επιλέξουµε τον έλεγχο ο οποίος διαχωρίζει καλύτερα τις τελικές κλάσεις. Η επεξεργασία αυτή επαναλαµβάνεται µέχρι η εγγραφή να φτάσει στο κόµβο φύλλο. Όλες οι εγγραφές οι οποίες καταλήγουν σε ένα συγκεκριµένο φύλλο ταξινοµούνται µε τον ίδιο τρόπο. Υπάρχει ένα µοναδικό µονοπάτι που οδηγεί από την ρίζα σε κάθε φύλλο. Το µονοπάτι αυτό είναι µία έκφραση του κανόνα που χρησιµοποιείται για να ταξινοµήσουµε τις εγγραφές. Πολλά διαφορετικά φύλλα µπορούν να οδηγούν στην ίδια ταξινόµηση, αλλά κάθε φύλλο κάνει την ταξινόµηση αυτή για διαφορετικό λόγο. Για παράδειγµα, σε ένα δέντρο το οποίο ταξινοµεί φρούτα και λαχανικά µε βάση το χρώµα, οι τελικοί κόµβοι του δέντρου απόφασης για τα µήλα, ντοµάτες και κεράσια θα πρέπει όλα να προβλέπουν "κόκκινο", παρά τον διαφορετικό βαθµό πίστης καθώς υπάρχουν πράσινα µήλα και µαύρα κεράσια. Στο σχήµα 4.3. παρουσιάζεται ένα παράδειγµα αντικειµένων το οποίο περιγράφει τον καιρό σε µία δεδοµένη στιγµή. Κάποια αντικείµενα τα οποία είναι θετικά παραδείγµατα δηλώνονται ως P και άλλα τα οποία είναι αρνητικά δηλώνονται ως Ν. Η ταξινόµηση στην περίπτωση αυτή είναι η κατασκευή ενός δέντρου το οποίο µπορεί να χρησιµοποιηθεί για να ταξινοµήσει τα αντικείµενα µε σωστό τρόπο. -Σελίδα 38 -

39 overlook sunny overcast rain hummidity P rainy high normal true false N P N P Σχήµα 4.3. έντρα Αποφάσεων Στα θετικά σηµεία της µεθόδου αυτής συγκαταλέγονται: Η ευρωστία που επιδεικνύει αναφορικά µε το θόρυβο που ενδέχεται να παρουσιαστεί στα δεδοµένα που απαρτίζουν το χώρο του προβλήµατος. Η ανοχή στην απουσία τιµών (missing values), σε κάποια χαρακτηριστικά του σώµατος εκπαίδευσης. Η χρήση ακόµα και συνεχών (µη διακριτών) χαρακτηριστικών και η προσέγγιση µη διακριτών συναρτήσεων στόχου, µέσω εξειδικευµένων τεχνικών που αναλαµβάνουν τη διακριτοποίησή τους (discretization), τη διαδικασία δηλαδή της µετατροπής συνεχών αριθµητικών χαρακτηριστικών σε κατηγορικά. Η δυνατότητα µεταφοράς του παραγόµενου µοντέλου από δένδρο απόφασης σε ένα σύνολο κανόνων συµπερασµού (if then rules), προς διευκόλυνση της κατανόησής του. Το δέντρο γεννάται µε την επαναλαµβανόµενη διάσπαση του δοσµένου συνόλου δεδοµένων σύµφωνα µε τις διάφορες ανεξάρτητες µεταβλητές. Η -Σελίδα 39 -

40 σειρά µε την οποία χρησιµοποιούνται οι ανεξάρτητες µεταβλητές στη δόµηση του δέντρου εξαρτάται από το µέτρο ταξινόµησης της κάθε ανεξάρτητης µεταβλητής. Ο αλγόριθµος σταµατά όταν φτάσει σε κόµβο από τον οποίο δεν είναι δυνατό να ξεκινήσει µία νέα διάσπαση. Τότε ο κόµβος αυτός δεν έχει παιδιά και αποτελεί φύλλο του δέντρου. Στη περίπτωση δηµιουργίας δέντρου ταξινόµησης όταν η εξαρτηµένη µεταβλητή της ανάλυσής µας είναι διακριτή η επιλογή της ανεξάρτητης µεταβλητής σε κάθε επίπεδο στάδιο δόµησης του δέντρου, γίνεται σύµφωνα µε την πληροφορία που περιέχεται σε κάθε ανεξάρτητη µεταβλητή σε σχέση πάντα µε την διακριτή εξαρτηµένη µεταβλητή. Αυτή η περιεχόµενη πληροφορία µετράται µε βάση την τιµή της εντροπίας (entropy) της κάθε ανεξάρτητης µεταβλητής, µε τη µέγιστη πληροφορία να αντιστοιχεί στην ελάχιστη τιµή εντροπίας. Σε κάθε νέα διάσπαση επιλέγεται η ανεξάρτητη τυχαία µεταβλητή µε τη µικρότερη τιµή εντροπίας. Η ανεξάρτητη αυτή µεταβλητή µε τη µικρότερη εντροπία παρουσιάζει την αµέσως µεγαλύτερη συσχέτιση µε την εξαρτηµένη µεταβλητή. Η εντροπία υπολογίζεται µε βάση τον ακόλουθο τύπο: c f 2 ij c j= 1 Entropy= P cij Ln P cij i= 1 R j= 1 ( ) ( ( )) Όπου c είναι ο αριθµός των τιµών της εξαρτηµένης µεταβλητής που έχουν προκύψει, f είναι η συχνότητα της τιµής j της εξαρτηµένης µεταβλητής στο κλαδί i, R είναι ο συνολικός αριθµός εγγραφών (παρατηρήσεων) και στα δύο κλαδιά και το P(c ij ) δίνεται από την ακόλουθη σχέση: P ( c ) ij = c f k= 1 ij f k j -Σελίδα 40 -

41 Ο αλγόριθµος δηµιουργίας του δέντρου σταµατά όταν δεν είναι δυνατή η παραγωγή δύο νέων κλαδιών που το καθένα να περιέχει αριθµό εγγραφών ίσο ή µεγαλύτερο από έναν ελάχιστο αριθµό παρατηρήσεων σε κάθε κλαδί, τον οποίο έχει καθορίσει ο χρήστης στην αρχή της διαδικασίας. 4.3 Κανόνες ταξινόµησης Τα δέντρα απόφασης µπορούν να µεταφραστούν σε ένα σύνολο κανόνων µε τη δηµιουργία ενός ξεχωριστού κανόνα για κάθε πορεία από τη ρίζα σ ένα φύλλο στο δέντρο [31]. Εντούτοις οι κανόνες µπορούν επίσης να προκληθούν άµεσα από τα στοιχεία κατάρτισης χρησιµοποιώντας ποικίλους αλγόριθµους βασισµένους στους κανόνες. Ο Furnkranz [16] παρέχει µια άριστη επισκόπηση της υπάρχουσας εργασίας σε µεθόδους βασισµένες στον κανόνα. Οι κανόνες ταξινόµησης αντιπροσωπεύουν κάθε κατηγορία από την διαζευκτική κανονική µορφή (DNF). Ο στόχος είναι να κατασκευαστεί το µικρότερο σύνολο κανόνων που είναι σύµφωνο µε τα στοιχεία κατάρτισης. Ένας µεγάλος αριθµός κανόνων είναι συνήθως ένα σηµάδι που ο αλγόριθµος εκµάθησης προσπαθεί να θυµηθεί το σύνολο κατάρτισης, αντί να ανακαλύπτει τις υποθέσεις που το κυβερνούν. Η διαφορά µεταξύ αλγορίθµων για την εκµάθηση κανόνων και αλγόριθµο για τα δέντρα απόφασης είναι ότι τα τελευταία αξιολογούν τη µέση ποιότητα ενός αριθµού από ασυνάρτητα σύνολα(ένα για κάθε τιµή του χαρακτηριστικού γνωρίσµατος που εξετάζεται), ενώ οι αλγόριθµοι κανόνων αξιολογούν µόνο την ποιότητα του συνόλου περιπτώσεων που καλύπτεται από τον υποψήφιο κανονα. Ο RIPPER είναι ένας πολύ γνωστός αλγόριθµος βασισµένος σε κανόνες [41]. ιαµορφώνει τους κανόνες µέσω µιας διαδικασίας της επαναλαµβανόµενης ανάπτυξης και περικοπής. Κατά τη διάρκεια της αυξανόµενης φάσης οι κανόνες γίνονται πιο περιοριστικοί προκειµένου να -Σελίδα 41 -

42 ταιριάζουν µε τα στοιχεία κατάρτισης όσο το δυνατόν περισσότερο. Κατά τη διάρκεια της φάσης περικοπής, οι κανόνες γίνονται λιγότερο περιοριστικοί για να αποφύγουν την υπερβολή, η οποία µπορεί να προκαλέσει την κακή απόδοση στις απαρατήρητες περιπτώσεις. Η µέθοδος που χρησιµοποιείται στο RIPPER είναι η λειτουργία κέρδους πληροφοριών. Το RIPPER χειρίζεται πολλαπλές κατηγορίες ταξινοµώντας αυτές από τις λιγότερο στις περισσότερο επικρατούσες και έπειτα µε τη µεταχείριση κάθε µιας µε τη σειρά ως πρόβληµα δύο-κατηγοριών. Υπάρχουν πολυάριθµοι άλλοι αλγόριθµοι εκµάθησης βασισµένοι στους κανόνες. Ο Furnkranz [16] αναφέρεται στους περισσότερους από αυτούς. Ο αλγόριθµος PART διαµορφώνει κανόνες από τµήµατα των δέντρων απόφασης σε µία προσπάθεια να αποφευχθεί η υπερβολική περικοπή. Μόλις χτιστεί ένα επί µέρους δέντρο, ένας ενιαίος κανόνας εξάγεται από αυτό [38]. Για τη µάθηση του συνόλου κανόνων έχουν επίσης χρησιµοποιηθεί γενετικοί αλγόριθµοι (GAs). O GABIL [12] χρησιµοποίησε τον γενετικό αλγόριθµο για να µάθει τις δυαδικές έννοιες που αναπαρίσταντο από ένα διαζευκτικό σύνολο όλων των κανόνων και βρέθηκε για να είναι συγκρίσιµο σε γενικευµένη ακρίβεια µε τον αλγόριθµο εκµάθησης C4.5. δέντρων απόφασης. Υποθέτοντας δύο δυαδικά χαρακτηριστικά γνωρίσµατα Χ1, Χ2 και η δυαδική αξία στόχων C, η αντιπροσώπευση κανόνων στα χρωµοσώµατα είναι: Εάν X1=σωστό X2=λάθος ΤΟΤΕc=σωστό ΑΝ X1=λάθος X2=σωστό ΤΟΤΕ c=λάθος Σηµειώστε ότι υπάρχει µια σταθερή αντιπροσώπευση σειράς µήκους χρωµοσωµάτων για κάθε κανόνα. Ο στόχος του γενετικού αλγορίθµου είναι να βρεθούν καλά χρωµοσώµατα. Η καλή ποιότητα ενός χρωµοσώµατος αντιπροσωπεύεται στο GA από µια λειτουργία, η οποία ονοµάζεται λειτουργία ικανότητας [12]. Για το στόχο ταξινόµησης, η λειτουργία ικανότητας σηµειώνει χαρακτηριστικά την ακρίβεια ταξινόµησης του κανόνα πάνω σ ένα σύνολο παρεχόµενων περιπτώσεων κατάρτισης. Στην καρδιά του αλγόριθµου υπάρχουν διαδικασίες, που παίρνουν τον πληθυσµό στη σηµερινή γενιά και -Σελίδα 42 -

43 παράγουν τον πληθυσµό στο επόµενο βήµα κατά τέτοιο τρόπο ώστε η γενική ικανότητα του πληθυσµού αυξάνεται. Αυτές οι λειτουργίες επαναλαµβάνονται έως ότου ικανοποιείται κάποιο κριτήριο διακοπής, όπως ένας ορισµένος αριθµός χρωµοσωµάτων επεξεργάστηκε ή ένα χρωµόσωµα ορισµένης ποιότητας έχει παραχθεί. Τρεις διαδικασίες παίρνουν τον πληθυσµό στην γενιά t και παράγουν το νέο πληθυσµό στην γενιά t + 1: επιλογή, διασταύρωση, µετάλλαξη [12]. 4.4 Νευρωνικά δίκτυα Τα νευρωνικά δίκτυα αποτελούν µία πολύ δυνατή, γενικού σκοπού τεχνική η οποία µπορεί να εφαρµοστεί για πρόβλεψη (prediction), ταξινόµηση (classification) και οµαδοποίηση (clustering) [2].Η εµφάνιση των νευρωνικών δικτύων έχει σαν στόχο να γεφυρώσει το κενό µεταξύ των υπολογιστών και του ανθρώπινου µυαλού. Οι άνθρωποι µπορούν να εξάγουν συµπεράσµατα µε βάση την εµπειρία τους ενώ οι υπολογιστές βασίζονται σε συγκεκριµένες οδηγίες. Τα νευρωνικά δίκτυα στοχεύουν στο να µειώσουν αυτό το κενό. Όταν χρησιµοποιούνται σε καλά ορισµένο περιβάλλον, η ικανότητα τους να παράγουν και να µαθαίνουν από τα δεδοµένα, µιµείται την ικανότητα των ανθρώπων να µαθαίνουν από τις εµπειρίες τους. Αυτή η ικανότητα είναι χρήσιµη για την εξόρυξη γνώσης (data mining) κάνοντας συγχρόνως τα νευρωνικά δίκτυα µία σηµαντική περιοχή για έρευνα, υποσχόµενα νέα και καλύτερα αποτελέσµατα στο µέλλον. Τα νευρωνικά δίκτυα είναι µία προσέγγιση ανάπτυξης και εκτίµησης µαθηµατικών δοµών µε την δυνατότητα να µαθαίνουν. Οι µέθοδοι αυτοί είναι αποτελέσµατα ακαδηµαϊκών ερευνών µε στόχο την µοντελοποίηση συστηµάτων µάθησης. Τα νευρωνικά δίκτυα έχουν την ικανότητα να εξάγουν κάποιο συµπέρασµα από πολύπλοκα ή µη ακριβή δεδοµένα και µπορούν να χρησιµοποιηθούν για να εξάγουν πρότυπα και να προσδιορίζουν τάσεις οι οποίες είναι πολύπλοκες για να προσδιοριστούν από ανθρώπους ή από άλλες υπολογιστικές τεχνικές [27]. Ένα εκπαιδευµένο νευρωνικό δίκτυο µπορεί να αντιµετωπιστεί ως ένας "ειδικός" για την κατηγορία της -Σελίδα 43 -

44 πληροφορίας που του δόθηκε να αναλύσει [3]. Έτσι µπορεί να χρησιµοποιηθεί για να κάνει κάποιες προβλέψεις, όταν προκύψουν κάποιες νέες περιπτώσεις. Τα νευρωνικά δίκτυα χρησιµοποιούν ένα σύνολο από στοιχεία επεξεργασίας (κόµβους) ανάλογους µε τους νευρώνες στο ανθρώπινο µυαλό. Τα στοιχεία αυτά διασυνδέονται µεταξύ τους σε ένα δίκτυο το οποίο µπορεί να αναγνωρίζει πρότυπα µέσα σε ένα σύνολο δεδοµένων µόλις αυτά παρουσιαστούν µέσα στα δεδοµένα, δηλαδή το δίκτυο µπορεί να µαθαίνει από την εµπειρία όπως ακριβώς κάνουν και οι άνθρωποι. Αυτό διακρίνει τα νευρωνικά δίκτυα από τα παραδοσιακά προγράµµατα υπολογιστών, τα οποία απλά ακολουθούν οδηγίες σύµφωνα µε µία καλά ορισµένη σειρά. Η δοµή των νευρωνικών δικτύων είναι ανάλογη µε αυτή του σχήµατος 4.4. Επίπεδο εισόδου Κρυφό επίπεδο Επίπεδο εξόδου Χ1 Χ2 Ζ1 Χ3 Ζ2 Χ4 Χ5 Σχήµα 4.4 οµή ενός νευρωνικού δικτύου. Το αριστερό επίπεδο αναπαριστά το επίπεδο εισόδου, στην περίπτωση του σχήµατος έχουµε πέντε εισόδους µε ετικέτες Χ1, Χ2,, Χ5. Το µεσαίο επίπεδο είναι αυτό που καλείται κρυφό επίπεδο (hidden level), το οποίο έχει µεταβλητό αριθµό κόµβων. Το µεσαίο επίπεδο είναι και αυτό που εκτελεί το µεγαλύτερο µέρος της εργασίας του δικτύου. Το επίπεδο εξόδου (επίπεδο στα δεξιά) έχει δύο κόµβους στο παράδειγµά µας Ζ1 και Ζ2, οι οποίες -Σελίδα 44 -

45 αναπαριστούν τις τιµές εξόδου που προσπαθούµε να προσδιορίσουµε από τις εισόδους. Για παράδειγµα, µπορεί µε την βοήθεια ενός κατάλληλα εκπαιδευµένου δικτύου να προβλέψουµε τις πωλήσεις (έξοδος) βασιζόµενοι στις παλιές πωλήσεις, την τιµή και την εποχή (είσοδοι). Τα τεχνητά νευρωνικά δίκτυα διακρίνονται για την ικανότητά τους να προσεγγίζουν τόσο διακριτές όσο και συνεχείς, πραγµατικές, ακόµα και διανυσµατικές συναρτήσεις στόχου, για την ευρωστία τους όσον αφορά την παρείσφρηση θορύβου στα δεδοµένα εκπαίδευσης, καθώς και για την ταχύτητά τους κατά την ταξινόµηση άγνωστων στιγµιότυπων. Απαιτούν ωστόσο µεγάλους χρόνους εκπαίδευσης, ενώ τις περισσότερες φορές το εξαγόµενο µοντέλο δεν παρέχεται σε µορφή εύκολα κατανοητή. Μονόδροµα δίκτυα (feed-forward) Η µονόδροµη αρχιτεκτονική δικτύων επιτρέπει στα σήµατα να κινούνται προς την µια κατεύθυνση, από τη είσοδο στην έξοδο. εν υπάρχουν αµφίδροµες καταστάσεις (loops), παραδείγµατος χάρη το αποτέλεσµα ενός επιπέδου δεν επηρεάζει το ίδιο το επίπεδο. Η µορφή αυτή των νευρωνικών δικτύων χρησιµοποιείται αρκετά στην αναγνώριση µοντέλων και συχνά τη συναντάµε και ως από πάνω προς τα κάτω ή από κάτω προς τα πάνω διαδικασία. Αµφίδροµα δίκτυα Στα αµφίδροµα δίκτυα τα σήµατα ταξιδεύουν και προς τις δυο κατευθύνσεις. Τα αµφίδροµα δίκτυα είναι αρκετά ισχυρά αλλά και περίπλοκα. Χαρακτηρίζονται από τη διαρκή τους εξέλιξη µέχρι να φτάσουν σε κάποια κατάσταση ισορροπίας. Αυτή η κατάσταση διατηρείται ως ότου νέα δεδοµένα προστεθούν όποτε το δίκτυο αναζητεί µια νέα κατάσταση ισορροπίας. Κόµβοι Νευρωνικού ικτύου Τα νευρωνικά δίκτυα, όπως προαναφέραµε, αποτελούνται από βασικές µονάδες (κόµβους) που σχεδιάζονται για να µοντελοποιήσουν την συµπεριφορά των βιολογικών νευρώνων (σχήµα 4.5). Κάθε κόµβος στο µεσαίο επίπεδο είναι πλήρως συνδεδεµένος µε τις εισόδους, γεγονός που σηµαίνει ότι το κρυφό πεδίο βασίζεται σε όλες τις εισόδους τις οποίες και -Σελίδα 45 -

46 συνδυάζει στις τιµές εξόδου. Ο συνδυασµός αυτός καλείται συνάρτηση ενεργοποίησης του κόµβου. Η συνάρτηση ενεργοποίησης έχει δύο µέρη. Το πρώτο µέρος είναι η συνάρτηση σύνδεσης (combination function) η οποία συνδυάζει όλες τις εισόδους σε µία απλή τιµή. Κάθε είσοδος έχει το δικό της βάρος. Η πιο κοινή συνάρτηση σύνδεσης είναι το άθροισµα όλων των εισόδων πολλαπλασιασµένων µε το αντίστοιχο βάρος τους(χ 1 *W 1 + X 2 *W X N *W N ). Σε ορισµένες περιπτώσεις είναι χρήσιµες άλλες συναρτήσεις και περιλαµβάνουν το µέγιστο των εισόδων πολλαπλασιασµένων µε το βάρος τους, το ελάχιστο, ή το λογικό AND ή OR των τιµών. Ωστόσο, η συνάρτηση που βασίζεται στο άθροισµα των εισόδων πολλαπλασιασµένων µε τα βάρη τους δουλεύει καλύτερα στην πράξη. Το δεύτερο µέρος της συνάρτησης ενεργοποίησης είναι η συνάρτηση µεταφοράς (transfer function), η οποία µεταφέρει την τιµή της συνάρτησης σύνδεσης στην έξοδο. Υπάρχουν τρία είδη συναρτήσεων µεταφοράς: η σιγµοειδής, γραµµική και η συνάρτηση υπερβολικής εφαπτοµένης (hyperbolic tangent). Η γραµµική συνάρτηση έχει περιορισµένη πρακτική σηµασία αντίθετα µε τις άλλες δύο (µη γραµµικές συναρτήσεις) οι οποίες παρουσιάζουν µη γραµµική συµπεριφορά. Χ 1 Συνάρτηση Σύνδεσης Συνάρτηση Μεταφοράς Χ 2 W 1 W 2 έξοδος Είσοδος Χ 3 W 3 Σ W 4 Χ 4 W 5 Χ 5 Σχήµα 4.5 Η µονάδα επεξεργασίας (κόµβος) του νευρωνικού δικτύου -Σελίδα 46 -

47 Σε κάθε περιοχή του χάρτη συσχέτισης το δίκτυο αποθηκεύει τις σχέσεις µεταξύ των σχεδίων µε ακρίβεια ώστε κάθε µονάδα να έχει ξεχωριστή σηµασία. Αυτός ο τύπος της διαδικασίας εκπαίδευσης είναι κατάλληλος για ανακάλυψη χαρακτηριστικών και αναπαράσταση γνώσης. Κάθε νευρωνικό δίκτυο έχει την γνώση του αποθηκευµένη στα βάρη σύνδεσης. Μεταβάλλοντας την αποθηκευµένη γνώση του δικτύου µεταβάλλονται και οι τιµές των βαρών βάσει µιας εµπειρικής συνάρτησης. Οι πληροφορίες για τα βάρη του νευρωνικού δικτύου αποθηκεύονται σε ένα πίνακα W. Η εκπαίδευση είναι ο προσδιορισµός των βαρών. Ακολουθούν οι πιο αποδοτικοί τρόποι εκπαίδευσης για τις δυο µεγάλες κατηγόριες νευρωνικών δικτύων που είναι: Τα συγκεκριµένα δίκτυα στα οποία τα βάρη δεν µπορούν να αλλάξουν, δηλαδή dw/dt=0. Στα περισσότερα δίκτυα τα βάρη είναι συγκεκριµένα και αφορούν ένα συγκεκριµένο πρόβληµα. Προσαρµοσµένα δίκτυα που είναι ικανά να αλλάζουν τα βάρη τους (dw/dt 0) Παραδείγµατα εκπαίδευσης υπό επιτήρησης περιλαµβάνουν εκµάθηση εντοπισµού λαθών και διόρθωσης και στοχαστική εκµάθηση. Ένα σηµαντικό θέµα που αφορά την εκπαίδευση υπό επιτήρηση είναι το πρόβληµα σύγκλισης του λάθους ανάµεσα στο επιθυµητό και υπολογιζόµενο. Ο σκοπός είναι να καθορίσουµε ένα σύνολο βαρών το οποίο ελαχιστοποιεί το λάθος. Μια αρκετά γνωστή µέθοδος η οποία είναι κοινή σε πολλά παραδείγµατα εκπαίδευσης είναι η σύγκλιση του ελάχιστου µέσου τετράγωνου. Λέµε ότι ένα νευρωνικό δίκτυο εκπαιδεύεται off line όταν η φάση εκπαίδευσης και η φάση λειτουργίας είναι ξεχωριστές. ένα νευρωνικό δίκτυο εκπαιδεύεται on line αν µαθαίνει και λειτουργεί ταυτόχρονα. Συνήθως, η υπό επιτήρηση εκπαίδευση γίνεται off line ενώ η εκπαίδευση χωρίς επιτήρηση γίνεται on line. -Σελίδα 47 -

48 Συνάρτηση µεταφοράς Η συµπεριφορά ενός νευρωνικού δικτύου βασίζεται και στα βάρη και στη συνάρτηση εισόδου-εξόδου (συνάρτηση µεταφοράς) η οποία συγκεκριµενοποιείται για τις µονάδες. Αυτή η συνάρτηση χωρίζεται στις παρακάτω πληροφορίες. Γραµµική Οριακή Σιγµοειδείς Για τις γραµµικές µονάδες η δραστηριότητα εξόδου είναι ανάλογη της συνολικής εξόδου των βαρών. Για τις οριακές µονάδες η έξοδος είναι τοποθετηµένοι σε ένα από τα δυο επίπεδα και εξετάζει αν η γενική έξοδος είναι µεγαλύτερη ή µικρότερη από µια οριακή τιµή. Για σιγµοειδείς µονάδες η έξοδος ποικίλει συνεχώς αλλά όχι γραµµική καθώς η είσοδος αλλάζει. Οι σιγµοειδείς µονάδες µοιάζουν περισσότερο µε τους ανθρώπινους νευρώνες από ότι οι γραµµικές ή οι οριακές µονάδες αλλά και οι τρεις πρέπει να θεωρηθούν ως διαδικασίες προσέγγισης. Για να φτιάξουµε ένα νευρωνικό δίκτυο το οποίο να κάνει κάποιες συγκεκριµένες εργασίες πρέπει να επιλέξουµε µε πιο τρόπο οι µονάδες θα είναι συνδεδεµένες µεταξύ τους και να υπολογίσουµε τα βάρη της σύνδεσης ορθά. Οι συνδέσεις καθορίζουν το κατά πόσο είναι δυνατό η µια µονάδα να επηρεάζει την άλλη. Τα βάρη προσδιορίζουν το µέγεθος της επιρροής. Για να µάθουµε σε ένα δίκτυο τριών επιπέδων να κάνει µια συγκεκριµένη εργασία µπορούµε να χρησιµοποιήσουµε την εξής διαδικασία [28]: 1. παρουσιάζουµε στο δίκτυο παραδείγµατα εκπαίδευσης και την επιθυµητή έξοδο για τις µονάδες εξόδου. 2. εξετάζουµε πόσο η πραγµατική έξοδος του δικτύου ταιριάζει µε την επιθυµητή έξοδο. 3. αλλάζουµε το βάρος κάθε σύνδεσης έτσι ώστε το δίκτυο να παράγει µια καλύτερη προσέγγιση της επιθυµητής εξόδου. -Σελίδα 48 -

49 4.5 Μηχανές διανυσµάτων υποστήριξης Ας προσδιορίσουµε τα δεδοµένα µας µε {x i,y i }, i=1,,k,y i {-1, 1} και x i R d. Έστω ότι έχουµε κάποια υπερεπίπεδα που διαχωρίζουν τα θετικά από τα αρνητικά παραδείγµατα Τα σηµεία x τα οποία βρίσκονται στο υπερεπίπεδο ικανοποιούν την εξίσωση wx +b = 0 όπου w το κανονικό υπερεπίπεδο, b / w η κάθετη απόσταση του υπερεπιπέδου από την αρχή και w η ευκλείδεια νόρµα [7]. Έστω d + και d - η ελάχιστη απόσταση του υπερεπιπέδου διαχώρισης και του πλησιέστερου θετικού ή αρνητικού παραδείγµατος αντίστοιχα. Για τη γραµµική διαχωρίσιµη περίπτωση ο SV αλγόριθµος αναζητά τα υπερεπίπεδα µε τη µεγαλύτερη απόσταση(margin). Το παραπάνω παίρνει την εξής µορφή προβλήµατος [10]: Έστω ότι όλα τα δεδοµένα εκπαίδευσης ικανοποιούν τους παρακάτω περιορισµούς x i w+b +1 για y i =+1 (1) x i w+b 1 για y i = 1 (2) τα οποία µπορούν να συνδυαστούν σε ένα σύνολο ανισώσεων y i (x ι w+b) 1 0 i (3). Tώρα ας θεωρήσουµε τα σηµεία που ορίζονται από την (1). Αυτά τα σηµεία βρίσκονται στο υπερεπίπεδο Η 1 x i w+b = +1 µε κανονικό w και κάθετη απόσταση από την αρχή b-1 / w.ανάλογα τα σηµεία που ικανοποιούν την (2) βρίσκονται στο υπερεπίπεδο Η 2 x i w+b = 1, µε κανονικό w και κάθετη απόσταση από την αρχή ίση µε b 1 / w.έτσι d +,d =1/ w και το margin είναι απλά 2/ w. Σηµειώνουµε δε ότι τα Η 1, Η 2 είναι προφανώς παράλληλα και ότι πλέον είναι πολύ εύκολο να βρούµε ένα ζεύγος από υπερεπίπεδα που δίνει τη maximum (margin) απόσταση µε την ελαχιστοποίηση το w 2, υπό τους περιορισµούς (3). Όπως θα περίµενε κανείς η λύση µιας τυπικής περίπτωσης σε δύο διαστάσεις έχει τη µορφή που παρουσιάζεται στο (σχήµα 4.6).Τα σηµεία µάθησης για τα οποία η ανισότητα (2) ισχύει και η αφαίρεση των οποίων θα αλλάξει τη λύση που βρίσκουµε καλούνται Support Vectors -Σελίδα 49 -

50 (διανύσµατα υποστήριξης) και παρουσιάζονται στο(σχήµα 4.6) µέσα σε κύκλους. Τώρα θα αντιµετωπίσουµε το πρόβληµα µε τη βοήθεια των πολλαπλασιαστών Lagrange [36]. Εισάγουµε τους θετικούς πολλαπλασιαστές Lagrange α i µε i= 1,,k έναν δηλαδή για κάθε ένα από τους περιορισµούς του (3).Εδώ θα ήταν πολύ χρήσιµο να θυµηθούµε τον κανόνα, πως οι περιορισµοί της µορφής c i 0 οι εξισώσεις των περιορισµών πολλαπλασιάζονται µε θετικούς πολλαπλασιαστές Lagrange και αφαιρούµενοι από την αντικειµενική συνάρτηση σχηµατίζουµε τη Lagrangian (λαγκρανζιανή). Σχήµα 4.6 Αντίστοιχα για ισοτικούς περιορισµούς οι πολλαπλασιαστές Lagrange δε περιορίζονται Έτσι παίρνουµε τη Lagrangian L p 1/2 w 2 k i= 1 α i y i (x i w+b )+ k i= 1 α i (4) -Σελίδα 50 -

51 Τώρα πρέπει να ελαχιστοποιήσουµε την L p ως προς τα w, b και αυτοµάτως να απαιτήσουµε οι παράγωγοι ως προς όλα τα α i να εξαφανίζονται φυσικά πάντα από τους περιορισµούς α i 0 i. Ουσιαστικά καταλήξαµε σε ένα πρόβληµα κυρτού τετραγωνικού προγραµατισµού αφού η αντικειµενική µας συνάρτηση είναι κυρτή και τα σηµεία τα οποία ικανοποιούν τους περιορισµούς αποτελούν και αυτά κυρτό σύνολο [17]. Αυτό µας οδηγεί στο συµπέρασµα ότι µπορούµε ισοδυνάµως να λύσουµε το εξής δυϊκό πρόβληµα : Μεγιστοποίησε το L p υπό τον περιορισµό το gradient του L p να χάνεται και α i 0.Αυτή η συγκεκριµένη αναδιατύπωση του προβλήµατος καλείται και δυϊκό WOLVE. Απαιτώντας το L p να εξαφανίζεται k έχω w= i= 1 α i y i x i (5) k i= 1 α i y i =0 (6) Αφού αυτοί είναι ισοτικοί περιορισµοί στο δυϊκό, µπορούµε να αντικαταστήσουµε στην εξίσωση (4) και να πάρουµε L D = i α i 1/2 i, j α i α j y i y j x i x j (7) Ο SMO είναι ένας πρόσφατος αλγόριθµος για τη SVM, που προτάθηκε από τον Platt [29]. Ο Platt χωρίζει το µεγάλο πρόβληµα σε µικρά υπό προβλήµατα κάτω από ορισµένες συνθήκες και λύνει κάθε υπό πρόβληµα χωριστά. 4.6 Μάθηση βασισµένη στα στιγµιότυπα Οι βασισµένες στα στιγµιότυπα (instance-based, για συντοµία IB) µέθοδοι µάθησης έχουν µια θεµελιώδη διαφορά από τις άλλες µεθόδους µάθησης που έχουν αναπτυχθεί: δεν κατασκευάζουν ένα γενικό ρητά διατυπωµένο µοντέλο που προσεγγίζει τη συνάρτηση-στόχο καθολικά. Το µόνο που κάνουν στη φάση της µάθησης είναι να αποθηκεύουν τα δεδοµένα εκπαίδευσης, γι αυτό είναι γνωστές και ως µέθοδοι βασισµένες στη µνήµη (memory-based) [4]. Η -Σελίδα 51 -

52 γενίκευση πέρα από τα παρατηρηθέντα δεδοµένα γίνεται κάθε φορά που εµφανίζεται ένα νέο στιγµιότυπο προς κατάταξη. Τότε, ένα σύνολο από σχετιζόµενα µε αυτό γνωστά στιγµιότυπα ανακαλείται από τη µνήµη και χρησιµοποιείται για την κατάταξη του νέου στιγµιότυπου. Έτσι, αυτό που συµβαίνει ουσιαστικά είναι να παρέχεται µια τοπική προσέγγιση στη συνάρτηση-στόχο αντί µίας καθολικής [4]. Το κύριο πλεονέκτηµα των IB µεθόδων είναι πως µπορούν να προσεγγίσουν πολύ καλύτερα από άλλες µεθόδους τη συνάρτηση-στόχο αν αυτή είναι πολύπλοκη καθολικά, αλλά µπορεί να περιγραφεί ως µια συλλογή λιγότερο σύνθετων τοπικών προσεγγίσεων. Το κύριο µειονέκτηµα τους είναι πως το υπολογιστικό κόστος κατά την ταξινόµηση νέων στιγµιότυπων µπορεί να είναι πολύ υψηλό. Ο λόγος είναι πως σχεδόν όλοι οι υπολογισµοί λαµβάνουν χώρα τότε και όχι κατά τη φάση εκπαίδευσης. Η ΙΒ µάθηση αναφέρεται και ως οκνηρή µάθηση (lazy learning), ακριβώς για το λόγο ότι αναβάλει τους υπολογισµούς µέχρι την αίτηση για κατάταξη ενός νέου στιγµιότυπου (query). Έτσι, ένα σηµαντικό πρακτικό ζήτηµα είναι η ανάπτυξη τεχνικών αποδοτικής ευρετηριοποίησης των στιγµιότυπων εκπαίδευσης, για να µειωθεί ο χρόνος ανάκτησης τους κατά τη φάση κατάταξης. Από τα παραπάνω, γίνεται αντιληπτό ότι οι αλγόριθµοι της κατηγορίας αυτής δεν κατασκευάζουν ένα καθολικό µµοντέλο που να αναπαριστά τη γνώση που απέκτησαν από τα δεδοµένα της εκπαίδευσης, αλλά ο προσδιορισµός της συνάρτησης στόχου γίνεται τοπικά, µε κάθε ταξινόµηση ενός άγνωστου στιγµιότυπου, αντλώντας πληροφορίες από τα χαρακτηριστικά της οµάδας στιγµιότυπων µε τα οποία συγγενεύει. Αυτή ακριβώς η διαφοροποίηση της συγκεκριµένης κατηγορίας αλγορίθµων αποτελεί ένα από τα σηµαντικότερα πλεονεκτήµατα και συνάµα µειονεκτήµατά τους. Ο τοπικός προσδιορισµός της συνάρτησης στόχου κατά την ταξινόµηση κάθε στιγµιότυπου κρίνεται επιθυµητός όταν µια συνάρτηση στόχου, καθολικά συνεπής µε το σώµα εκπαίδευσης, είναι ιδιαίτερα περίπλοκη. Ωστόσο, η µεταφορά του προσδιορισµού της συνάρτησης στόχου στο στάδιο της λήψης της απόφασης έχει ως αποτέλεσµα την αύξηση του κόστους ταξινόµησης νέων στιγµιότυπων, τόσο ως προς τον χρόνο που απαιτείται όσο και ως προς -Σελίδα 52 -

53 την υπολογιστική πολυπλοκότητα. Ο παράγοντας αυτός µπορεί σε κάποιο βαθµό να αντισταθµισθεί χρησιµοποιώντας τεχνικές ευρετηριοποίησης των στιγµιότυπων εκπαίδευσης. Σηµαντικό χαρακτηριστικό επίσης για την αποτελεσµατικότητα των αλγορίθµων αυτών αποτελεί η επιλογή της συνάρτησης απόστασης, αλλά και των χαρακτηριστικών εκείνων που θα χρησιµοποιηθούν κατά την εύρεση της οµάδας συγγενών στιγµιότυπων, καθώς ενδέχεται ένα µµικρό υποσύνολο των χαρακτηριστικών να είναι αρκετό, ενώ η χρήση περισσοτέρων να κριθεί επιζήµια για την ικανότητα γενίκευσης της µεθόδου. Τέλος, οι εν λόγω αλγόριθµοι χαρακτηρίζονται εν γένει για την αστάθειά τους στην ύπαρξη θορύβου στα δεδοµένα εκπαίδευσης. Ο αλγόριθµος ταξινόµησης µε βάση τους k κοντινότερους γείτονες (k- Nearest Neighbor Algorithm k-nn) είναι η πιο βασική ΙΒ µέθοδος µάθησης. Η κεντρική ιδέα είναι πως η τιµή της συνάρτησης-στόχου για ένα νέο στιγµιότυπο βασίζεται αποκλειστικά και µόνο στις αντίστοιχες τιµές των k πιο κοντινών του στιγµιότυπου εκπαίδευσης, τα οποία αποτελούν τους γείτονές του. Τρία ζητήµατα πρέπει να αποφασιστούν προκειµένου να καθοριστεί πλήρως ο αλγόριθµος: Ο ορισµός της απόστασης µεταξύ δύο στιγµιότυπων, δηλαδή µιας µετρικής πάνω στο χώρο των στιγµιότυπων (instance space), που θα εκφράζει την εγγύτητα, ή αλλιώς την οµοιότητα µεταξύ των στιγµιότυπων. Ο τρόπος συνδυασµού των τιµών των k κοντινότερων γειτόνων. Η τιµή του k. Για το πρώτο ζήτηµα, υπάρχουν πολλές εναλλακτικές επιλογές. Η απόφαση εξαρτάται από τα ειδικά χαρακτηριστικά του χώρου στιγµιότυπων του προβλήµατος. Ιδιαίτερη σηµασία έχει το αν στην αναπαράσταση των στιγµιότυπων περιλαµβάνονται αριθµητικά ή συµβολικά χαρακτηριστικά. Στον παραδοσιακό k-nn αλγόριθµο, στον οποίο τα στιγµιότυπα θεωρούνται πως ανήκουν στον n-διάστατο χώρο Rn, µια µετρική που υιοθετείται συχνά είναι η γνωστή Ευκλείδεια απόσταση. Πολυάριθµες άλλες µετρικές έχουν παρουσιαστεί. Οι περισσότερες απ αυτές παρουσιάζονται στον πίνακα Σελίδα 53 -

54 Minkowsky: D (x,y)=( m ι= 1 χ i y i r 1/ ) r m Euclidean: D (x,y)= 2 x y ) 1/ 2 i i i= 1 Manhattan: D (x,y)= m i 1 x i y i Camberra: D (x,y)= m x x i= 1 + i i y y i i Chebychev: D (x,y)= m max i=1 x i y i Kendall s Rank Correlation: m i 1 2 D(x,y)=1- sign( ) sign( ) i j m( m 1) i j i= j j= 1 x x y y Πίνακας 4.1 Προσεγγίσεις για να καθορίσεις την απόσταση µεταξύ των περιπτώσεων (x και y) Επίσης γενική είναι η προσέγγιση της βελτιστοποίησης παραµέτρων µέσω της χρησιµοποίησης του ίδιου του αλγορίθµου µάθησης ως µέσο για την αξιολόγηση της απόδοσης, η οποία αναφέρεται ως προσέγγιση περιτυλίγµατος (wrapper approach). Ο k-nn είναι ένας πολύ αποτελεσµατικός αλγόριθµος µάθησης, τόσο για αριθµητικά όσο και για συµβολικά δεδοµένα, ιδιαίτερα όταν γίνεται µε αποτίµηση χαρακτηριστικών και γειτόνων. Είναι ανθεκτικός σε θορυβώδη στιγµιότυπα εκπαίδευσης, ειδικά για µεγαλύτερες τιµές του k, καθώς τα αποµονωµένα λανθασµένα δεδοµένα απορροφώνται κατά τον υπολογισµό του µέσου όρου. Η επαγωγική κλίση του k-nn είναι η υπόθεση πως η τιµή της συνάρτησης-στόχου ενός στιγµιότυπου είναι παρόµοια µε αυτή των γειτονικών του. Ένα πρακτικό θέµα κατά την εφαρµογή του k-nn, όπως αναφέρθηκε και παραπάνω για τις IB µεθόδους γενικότερα, είναι η αποδοτική ευρετηριοποίηση των στιγµιότυπων στη µνήµη. Σε µια απλή υλοποίηση, η υπολογιστική πολυπλοκότητα για την κατάταξη ενός νέου στιγµιότυπου είναι ανάλογη του αριθµού των στιγµιότυπων εκπαίδευσης, αφού χρειάζεται να -Σελίδα 54 -

55 υπολογιστεί η απόσταση του νέου µε κάθε στιγµιότυπο εκπαίδευσης, για να επιλεχθούν στη συνέχεια τα k κοντινότερα. Κάτι τέτοιο έχει υψηλότατο κόστος για µεγάλα σύνολα δεδοµένων. Για το λόγο αυτό έχουν αναπτυχθεί διάφορες µέθοδοι ευρετηριοποίησης, όπως τα k-d δέντρα (k-d trees) [38], που σκοπό έχουν τον πιο γρήγορο εντοπισµό των κοντινότερων γειτόνων µε κάποιο επιπλέον κόστος στη µνήµη. Στην συνέχεια η εργασία επικεντρώνεται στις εφαρµογές των οικονοµικών δεδοµένων, που µπορούν να εφαρµοστούν οι αλγόριθµοι της Μηχανικής Μάθησης. Τέτοιες εφαρµογές µπορεί να είναι τα καταναλωτικά, στεγαστικά, επαγγελµατικά δάνεια και οι πιστωτικές κάρτες. -Σελίδα 55 -

56 5. Εξόρυξη γνώσης σε οικονοµικές εφαρµογές Η εξορυξη γνώσης µπορεί να χρησιµοποιηθεί σ ένα πλήθος οικονοµικών εφαρµογών [5], [20], [22], [32]. 5.1 Πιστωτικές κάρτες Οι πιστωτικές κάρτες χρησιµοποιούνται στην αγορά, ως ένα συµπληρωµατικό µέσο, για την ολοκλήρωση ενός µεγάλου µέρους των συναλλαγών των καταναλωτών. Χαρακτηρίζονται και σαν πλαστικό χρήµα. Αν και στις ηλεκτρονικές δραστηριότητες και συναλλαγές µπορεί να εµφανιστούν προβλήµατα, οι πιστωτικές κάρτες παρέχουν ασφάλεια Επιπρόσθετα δεν απαιτούν τη µεταφορά µετρητών, χρησιµεύουν για αγορές αγαθών, των οποίων η εξόφληση µπορεί να γίνει µε δόσεις. Ενώ ταυτόχρονα µπορούν να καλύψουν και ανάγκες ανάληψης µετρητών. Αντιλαµβανόµαστε ότι οι τράπεζες, για να τις χορηγήσουν, εξετάζουν κάποια κριτήρια αξιολόγησης. Πιο συγκεκριµένα λαµβάνουν υπόψη κυρίως το ατοµικό εισόδηµα, όπως αυτό εµφανίζεται στο εκκαθαριστικό σηµείωµα της εφορίας και ταυτόχρονα αν υπάρχουν ή µη δυσµενή στοιχεία στο σύστηµα << Τειρεσίας >>. Μεταξύ των άλλων εξετάζουν το επάγγελµα των αιτούντων, αν είναι µόνιµοι κάτοικοι της Ελλάδας, καθώς και αν η µορφή απασχόλησης τους είναι ολική ή µερική. Σηµαντικό ρόλο κατέχει και το χρονικό διάστηµα που εργάζονται, δηλαδή αν οι αιτούντες εργάζονται µόνο λίγους µήνες ή αρκετά έτη. Ο υποψήφιος κάτοχος πιστωτικής κάρτας είναι αναγκαίο να συµπληρώσει την ειδική αίτηση για την χορήγηση της, η οποία αποτελεί και την σύµβαση του µε την τράπεζα, στην περίπτωση που εγκριθεί το αίτηµα του. Αξιοσηµείωτο είναι ότι η τράπεζα ανάλογα µε τα κριτήρια της, µπορεί να χορηγήσει απλή ή χρυσή κάρτα. Καταλαβαίνουµε πως η χρυσή κάρτα απευθύνεται σε άτοµα µε υψηλά εισοδήµατα και υψηλή πιστοληπτική ικανότητα. Παράλληλα είναι φυσιολογικό στις περιπτώσεις καλών πελατών, δηλαδή σε πελάτες που δεν παρουσιάζουν αρνητικά στοιχεία στο σύστηµα << Τειρεσίας>>, µε ικανοποιητικό δηλωθέν εισόδηµα, και που εξοφλούν έγκαιρα τις δόσεις τους, οι τράπεζες να αναπροσαρµόζουν άµεσα την αύξηση των πιστωτικών ορίων των καρτών. -Σελίδα 56 -

57 Πάντως είναι απαραίτητο να αναφέρουµε, σύµφωνα µε έρευνα, ότι ένας από τους σηµαντικότερους λόγους που δεν έχει αναπτυχθεί ιδιαίτερα στην χώρα µας η χρήση των πιστωτικών καρτών οφείλεται στο τραπεζικό σύστηµα, που δεν έχει τελειοποιήσει τους µηχανισµούς εξακρίβωσης της πιστοληπτικής ικανότητας των δανειζόµενων. Αυτό το κενό µπορεί να καλύψει η εξόρυξη γνώσης [33] ιαδικασία έκδοσης πιστωτικής κάρτας Ο υποψήφιος κάτοχος πιστωτικής κάρτας ζητάει από την εκδότρια τράπεζα, που έχει λογαριασµό την έκδοση µιας κάρτας VISA ή MASTERCARD. Αυτό συµβαίνει διότι η κάρτα που εκδίδεται από την ελληνική τράπεζα πρέπει να είναι συνδεδεµένη µε κάποιον από τους παγκόσµιους οργανισµούς πιστωτικών καρτών, για να δίνεται ταυτόχρονα η δυνατότητα στον κάτοχο της να µπορεί να την χρησιµοποιεί παντού σε παγκόσµια κλίµακα Η κάρτα εκδίδεται στο όνοµα του πελάτη και οι συναλλαγές χρεώνονται σε έναν ανοιχτό λογαριασµό, στον οποίο έχει καθοριστεί το πιστωτικό όριο. Αντιλαµβανόµαστε ότι το πιστωτικό όριο εξαρτάται από την οικονοµική επιφάνεια του πελάτη, καθώς και από την πολιτική της τράπεζας που εκδίδει την πιστωτική κάρτα. Ο τρόπος που θα την χρησιµοποιεί ο κάτοχος της µπορεί να την µετατρέψει σε χρήσιµο εργαλείο. Άρα ο χρήστης της δεν πρέπει να υπερβαίνει το πιστωτικό όριο που του δίνει η τράπεζα και συγχρόνως θα πρέπει να εξοφλεί ολόκληρο το οφειλοµενο ποσό έτσι, ώστε να µην χρεώνεται µε υπέρµετρους τόκους καθυστέρησης. Υπάρχουν πολλά εµπορικά καταστήµατα που προσφέρουν στους κατόχους των πιστωτικών καρτών τη δυνατότητα εξόφλησης σε αρκετές άτοκες δόσεις. Εποµένως όποιος προτιµά αυτόν τον τρόπο για να κάνει τις αγορές του εξασφαλίζει µια άτοκη πίστωση. Εκτός των άλλων είναι απαραίτητο να γνωρίζουµε ότι οι πιστωτικές κάρτες έχουν όλες τις συναλλακτικές δυνατότητες µε τις ΚΜ, ενώ οι αναλήψεις ορίζονται έως κάποιο συγκεκριµένο όριο, µέσα από συµφωνία µε την τράπεζα. Συνήθως υπάρχει και άτοκη περίοδος χάριτος για αναλήψεις, µέχρι 60 ηµέρες. Βεβαίως ορισµένες τράπεζες δίνουν τη δυνατότητα στον πελάτη τους για ανάληψη µετρητών προκαταβολικά, σε περιπτώσεις εκτάκτου -Σελίδα 57 -

58 ανάγκης, αλλά και την έκδοση κάρτας και σε µέλη της οικογένειας εντός του εγκεκριµένου ποσού Επίσης διαφοροποιούνται από τα προσωπικά καταναλωτικά δάνεια ως προς τα επιτόκια δανεισµού, ενώ συνοδεύονται µε διάφορες παροχές όπως ειδικά προγράµµατα εκπτώσεων, ταξιδιωτική ασφάλιση και δώρα. Στην απευκταία περίπτωση που ο χρήστης της πιστωτικής κάρτας δεν µπορεί να εργαστεί λόγω ατυχήµατος είτε ασθένειας τότε διευκολύνεται στην αποπληρωµή της ελάχιστης µηνιαίας καταβολής του.. Ο λογαριασµός του κατόχου της πιστώνεται µε το 10% της συνολικής οφειλής κάθε µήνα, και παράλληλα η πίστωση της ελάχιστης µηνιαίας καταβολής συνεχίζεται για το χρονικό διάστηµα που αυτός δεν µπορεί να εργαστεί, µε µέγιστο χρονικό όριο τους 10 µήνες Επιχειρηµατικές πιστωτικές κάρτες και συστήµατα έκδοσης δανείων σε τρίτους Ιδιαίτερο ενδιαφέρον έχουν οι επιχειρηµατικές πιστωτικές κάρτες ή διαφορετικά co-branding credit cards. Οι co-branded πιστωτικές κάρτες εκδίδονται από µεγάλα εµπορικά καταστήµατα, ασφαλιστικές εταιρίες ή επιχειρήσεις σε συνεργασία µε τράπεζες και απευθύνονται σε εξειδικευµένες οµάδες καταναλωτών. Σίγουρα και τα τρία µέρη, δηλαδή η επιχείρηση, η τράπεζα, ο καταναλωτής έχουν την δυνατότητα να κερδίσουν. Και τούτο διότι οι καταναλωτές µπορούν να λαµβάνουν περισσότερες προσθετές παροχές, όπως εκπτώσεις, µε το ίδιο σχεδόν ή και µικρότερο επιτόκιο από αυτό των κυρίως πιστωτικών καρτών, οι επιχειρήσεις µεγαλώνουν τον κύκλο της πελατείας τους και αυξάνουν τα έσοδα τους, εξυπηρετούν και προσέχουν καλύτερα τους πελάτες τους και οι τράπεζες γιατί αυξάνουν το πελατολόγιο τους άρα και τον τζίρο των καρτών. Στο εξωτερικό οι επιχειρηµατικές πιστωτικές κάρτες κυκλοφορούν αρκετά χρόνια και φυσιολογικά είναι αρκετά διαδεδοµένες. Η πρώτη εµφάνιση τέτοιας πιστωτικής κάρτας στην Ελλάδα έγινε το 1995 από την Εθνική ασφαλιστική σε συνεργασία µε την Mastercard. Παρέχοντας ταυτόχρονα και ασφαλιστική κάλυψη στους κατόχους της. Στις µέρες µας κυκλοφορούν -Σελίδα 58 -

59 αρκετές τέτοιες κάρτες σε συνεργασία πολυκαταστηµάτων, ποδοσφαιρικών οµάδων, ασφαλιστικών εταιρειών και άλλων επιχειρήσεων προσφέροντας αρκετές διευκολύνσεις. Μεταξύ των άλλων, στις συνεργασίες κάθε µέρος αναλαµβάνει µια συγκεκριµένη ευθύνη ανάλογα µε την ιδιότητα που κατέχει. Εποµένως στην περίπτωση των ΕΠΚ, η τράπεζα αναλαµβάνει τον πιστοληπτικό έλεγχο των υποψηφίων κατοχών, την πίστωση, τη χρέωση και οτιδήποτε σχετίζεται µε την έκδοση και τη διαχείριση της κάρτας. Η εµπορική επιχείρηση από την πλευρά της είναι υπεύθυνη για την προώθηση και την πώληση της κάρτας. Αξιοπρόσεχτο είναι το γεγονός ότι στην παραγωγή νέων δανείων από τις τράπεζες η συµµετοχή των δικτύων λιανικών πωλησεων ενισχύεται σε σηµαντικό βαθµό. Με αποτέλεσµα το ένα τρίτο των καταναλωτικών δανείων που δίνουν οι τράπεζες να πωλείται µέσα από τις εµπορικές αλυσίδες καταστηµάτων. Αντιλαµβανόµαστε ότι τα περιθώρια για ανάπτυξη αυτής της αγοράς είναι µεγάλα, αν λάβουµε και υπόψη πως επεκτείνεται µε ρυθµό τρεις φορές περίπου πιο γρήγορα από το µέσο όρο στην Ευρώπη Αξίζει επίσης να σηµειωθεί ότι οι εξελίξεις στην ενιαία αγορά πληρωµών της ευρωζώνης ανοίγει το δίαυλο στις ίδιες τις επιχειρήσεις να εκδίδουν κάρτες πληρωµών δίχως τη µεσολάβηση των τραπεζών. Κάτι που σηµαίνει ότι µπορούν να προχωρήσουν σε αυτό το βήµα εταιρίες πετρελαίου ή και σουπερµάρκετ Επαγγελµατικές χρηµατοδοτήσεις Είδη πίστωσης Υπολογίζεται ότι τουλάχιστον µια στις τρεις µικροµεσαίες επιχειρήσεις καταφεύγει στο τραπεζικό σύστηµα για χρηµατοδότηση, αν και έχουν αναπτυχθεί σύγχρονοι χρηµατοδοτικοί µηχανισµοί για νέες επιχειρήσεις τα τελευταία χρόνια. Οι τράπεζες δίνουν δυο ειδών δάνεια προς τις επιχειρήσεις, α) τα µακροπρόθεσµα και β) τα κεφαλαίου κίνησης. Πιο συγκεκριµένα τα δάνεια κεφαλαίου κίνησης στοχεύουν στη βελτίωση της ρευστότητας της επιχείρησης και είναι µικρής διάρκειας. Από την άλλη πλευρά -Σελίδα 59 -

60 στα µακροπρόθεσµα περιλαµβάνονται τα δάνεια επαγγελµατικού εξοπλισµού, που καλύπτουν τις ανάγκες εξοπλισµού της επιχείρησης (µηχανήµατα, µέσα µεταφοράς) και τα δάνεια εγκατάστασης, τα οποία καλύπτουν την ανάγκη απόκτησης επαγγελµατικής στέγης Εκτός των άλλων πρέπει να τονίσουµε ένα σηµαντικό χαρακτηριστικό των τραπεζικών δανείων. Και τούτο είναι η λογική των εµπραγµάτων ασφαλειών. Αυτό σηµαίνει ότι οι τράπεζες δανείζουν µόνο σε όσους έχουν κάποιο περιουσιακό στοιχείο, το οποίο θα χρησιµοποιηθεί ως εγγυησή για την εξόφληση ολόκληρου ή µέρους του δανείου στην περίπτωση που ο δανειολήπτης δεν ανταποκριθεί στις υποχρεώσεις του. Στην περίπτωση που ο επιχειρηµατίας θέλει να ξεκινήσει µια προσπάθεια δίχως να έχει προσωπική περιουσία είναι αναγκαία η ύπαρξη ενός τρίτου προσώπου που να εγγυηθεί την δική του περιουσία. Συνειδητοποιούµε ότι οι διαφορετικές κατηγορίες πίστωσης είναι αρκετές και δύσκολα κατηγοριοποιούνται σε µικρότερες οµάδες. Η διαφορετικότητα των τραπεζικών προϊόντων έγκειται άλλοτε στο χρόνο διάρκειας είτε στην σταθερότητα των δόσεων, άλλοτε από το επιτόκιο είτε στα ενέχυρα ανταλλάγµατα και τον σκοπό του δανείου Ωστόσο είναι απαραίτητο να αναφέρουµε ότι ο ενδιαφερόµενος δανειολήπτης είναι ορθό να εξετάσει τις δυνατότητες χρηµατοδότησης του δανείου του µε σταθερό ή κυµαινόµενο επιτόκιο, ανάλογα µε την εξέλιξη του πληθωρισµού, των επιτοκίων και των υπόλοιπων οικονοµικών µεγεθών. Πάντως το επιτόκιο αποπληρωµής του µακροπρόθεσµου δανείου είναι στις περισσότερες περιπτώσεις χαµηλότερο, από το αντίστοιχο επιτόκιο αποπληρωµής του δανείου κεφαλαίου κίνησης, εξαιτίας της µεγαλύτερης διάρκειας αποπληρωµής του ανεισµός και αξιολόγηση της πιστοληπτικής ικανότητας των επιχειρήσεων Οι τράπεζες από το 2008 εφαρµόζουν το αναθεωρηµένο πλαίσιο κεφαλαιακής επάρκειας, το οποίο τις υποχρεώνει να πραγµατοποιούν πιο λεπτοµερή αξιολόγηση στην πιστοληπτική ικανότητα των επιχειρήσεων, για τη χορήγηση δανείων σε αυτές. Εξαιτίας αυτού του πλαισίου δηµιουργήθηκε η -Σελίδα 60 -

61 επιτακτική ανάγκη για αυξηµένες οργανωτικές προσαρµογές των επιχειρήσεων. Ταυτόχρονα ο σηµαντικότερος σκοπός του προγράµµατος είναι η διευκόλυνση στην πρόσβαση, καθώς και η ενίσχυση της µικροµεσαίας επιχείρησης από την τραπεζική χρηµατοδότηση µε πολύ καλυτέρους όρους. Σύµφωνα βεβαίως µε τις απαιτήσεις του νέου οικονοµικού περιβάλλοντος και ειδικά ως προς την αξιολόγηση της πιστοληπτικής ικανότητας της. Εποµένως, ως στόχοι του πλαισίου µπορεί να θεωρηθούν οι εξής: α)µε µεθοδικότητα ο επιχειρηµατίας να παρακολουθεί και να καταλαβαίνει τις παραµέτρους που επηρεάζουν την πιστοληπτική ικανότητα της επιχείρησης του, β) ο δανειολήπτης να παρέχει τεκµηριωµένη και έγκαιρη πληροφόρηση κατά την διάρκεια χορήγησης του δανείου, γ) ότι ο συνεπής πιστούχος, στην εξυπηρέτηση των δανειακών του υποχρεώσεων, µπορεί να επιβραβευθεί µε µειωµένες κεφαλαιακές απαιτήσεις από την τράπεζα και δ) ο επιχειρηµατίας να γίνει αποτελεσµατικότερος στην διαχείριση της δυναµικής προοπτικής της πιστοληπτικής ικανότητας της επιχείρησης του Χρηµατοδοτήσεις από ανοιχτό αλληλόχρεο λογαριασµό Οι πιο σηµαντικές µορφές χρηµατοδότησης επιχειρήσεων είναι είτε από δάνεια είτε µέσω ανοιχτού αλληλόχρεου λογαριασµού. Στις µέρες µας ο τελευταίος αποτελεί την πιο διαδεδοµένη µορφή τραπεζικής χρηµατοδότησης προς τις επιχειρήσεις. Αυτό που διαµορφώνεται από την σύµβαση του ανοιχτού λογαριασµού είναι το όριο των χρηµατοδοτήσεων που χορηγούνται, αλλά και ο χρόνος επιστροφής των χρηµατοδοτήσεων. Από την σχετική σύµβαση το προκαθορισµένο ανώτατο ύψος χρηµατοδότησης δεν επιτρέπεται να υπερβεί. Το όριο µπορεί να ξεπεραστεί δικαιολογηµένα κατά τη διάρκεια του καταλογισµού των τόκων, ο οποίος γίνεται 4 φορές το χρόνο. Αξιοσηµείωτο είναι ότι η υπέρβαση αυτή µπορεί να είναι µόνο προσωρινή. Οι βραχυπρόθεσµες ανάγκες των επιχειρήσεων που προκύπτουν, είτε από την παραγωγική διαδικασία, είτε για κεφάλαιο κίνησης καλύπτονται από το αυξοµειούµενο υπόλοιπο του λογαριασµού. Ειδικότερα στην σύµβαση πιστώσεως ανοιχτού λογαριασµού προβλέπεται ότι ο χρηµατοδοτούµενος και η τράπεζα θα έχουν σειρά µεταβαλλόµενων συναλλαγών σε ποσά χρέωσης ή -Σελίδα 61 -

62 πίστωσης, οι οποίες ενσωµατώνονται σε ενιαίο λογαριασµό και χάνουν την ατοµικότητα τους. Η διάρκεια αυτών των χρηµατοδοτήσεων δεν πρέπει να υπερβαίνει τη διάρκεια του παραγωγικού συναλλακτικού κυκλώµατος της επιχείρησης που δανείζεται Παράλληλα η ανακύκλωση του λογαριασµού πραγµατοποιείται ανάλογα µε το παραγωγικό συναλλακτικό κύκλωµα της επιχείρησης, επειδή ο λογαριασµός δεν έχει τακτή λήξη. Από την άλλη πλευρά, στην περίπτωση που ο ανοικτός λογαριασµός κλείσει απαιτείται το υπόλοιπο του αν υπάρχει, και επ ουδενι οι χωριστές χορηγήσεις. Η τράπεζα καθορίζει το όριο, ανάλογα µε το µέγεθος της επιχείρησης, µέχρι το οποίο µπορεί ο χρηµατοδοτούµενος να αντλήσει κεφαλαία. Η άντληση µπορεί να γίνεται καθηµερινά µε χρέωση και καταβολή µε πίστωση, ενώ οι τόκοι καταβάλλονται στο τέλος κάθε τριµήνου. Όµως η έννοια της ανακύκλωσης και του ορίου των χορηγουµένων πιστώσεων, µε βάση το παραγωγικό συναλλακτικό κύκλωµα, δηµιουργεί και υποχρεώσεις στις τράπεζες και στις επιχειρήσεις. Οι σηµαντικότερες αναφέρονται παρακάτω: Α) Η ανακύκλωση δηµιουργεί στις τράπεζες την ανάγκη για αυξηµένες προβλέψεις µε την χρήση αλγόριθµων εξόρυξης γνώσης. Και τούτο διότι αν η επιστροφή των χρηµατοδοτήσεων δεν επιτευχθεί στο συγκεκριµένο διάστηµα, που αναφέρεται στην σύµβαση, λαµβάνεται ως καθυστέρηση. Είναι απαραίτητο να επισηµανθεί ότι δεν υπολογίζεται στην περίπτωση αυτή αν οι τόκοι πληρώνονται κανονικά Β) Οι αρµόδιοι υπάλληλοι των τραπεζών προέβαιναν σε λογιστικές εγγραφές πίστωσης και χρέωσης των λογαριασµών έτσι, ώστε να φαίνεται ότι οι χρηµατοδοτήσεις επιστράφηκαν και επαναχορηγηθήκαν. Σίγουρα αυτό γινόταν στο παρελθόν στη λογική να βοηθηθούν οι πιστούχοι επιχειρήσεις που είχαν ταµειακή δυσχέρεια Γ) Το όριο θεωρείται από τις εποπτικές αρχές ως δυνητικό άνοιγµα, δίχως να έχει σχέση µε το υπόλοιπο του. Εποµένως λαµβάνεται υπόψη ως βάση για τον υπολογισµό µεγάλων χρηµατοδοτικών ανοιγµάτων Τα προαναφερθέντα προβλήµατα έχουν οδηγήσει τις τράπεζες να εγκρίνουν χαµηλά όρια, ενώ ταυτόχρονα καταργούν σταδιακά, είτε επιµηκύνουν τον χρόνο ανακύκλωσης.. Με αυτούς τους τρόπους αποφεύγουν τα ανοίγµατα -Σελίδα 62 -

63 5.2.4 Χρηµατοδοτήσεις παγίου εξοπλισµού και επαγγελµατικής στέγης Γενικά τα δάνεια για την επαγγελµατική στέγη µοιάζουν µε τα αντίστοιχα στεγαστικά δάνεια για την απόκτηση κατοικίας. Αυτό σηµαίνει ότι η διάρκεια τους µπορεί να κυµανθεί από 3 έως 30 χρόνια, παράλληλα τα επιτόκια διαµορφώνονται ανάλογα µε τον δανειολήπτη και την τράπεζα. Συνήθως κυµαίνονται από 5.50% έως 9.50%, ενώ το ποσοστό χρηµατοδότησης είναι πιθανόν να φτάσει έως το 100% της αξίας του ακινήτου ή των εργασιών ανακαίνισης και ανέγερσης. Είναι απαραίτητο να επισηµάνουµε ότι ορισµένες τράπεζες επιτρέπουν στους νέους επιχειρηµατίες να πληρώνουν µικρότερες δόσεις ή µόνο τους τόκους για χρονικό διάστηµα έως και 2 χρόνια. Επίσης οι τράπεζες επιβαρύνουν µε έξοδα τα χρηµατοδοτικά αυτά προϊόντα µέχρι 1%. Οι χρηµατοδοτήσεις παγίου εξοπλισµού περιλαµβάνει δάνεια, που µπορούν να χρησιµοποιηθούν για τον εξοπλισµό µιας νέας επιχείρησης είτε για την ανανέωση µιας ήδη υπάρχουσας επιχείρησης. Λέγοντας την έκφραση πάγιος εξοπλισµός εννοούµε τον εξοπλισµό οποιασδήποτε µορφής, δηλαδή έπιπλα, αυτοκίνητα, µηχανήµατα κλπ. Η χρηµατοδότηση από τις τράπεζες φθάνει έως και το 100% της επένδυσης. Όµως η εκταµίευση των χρηµάτων εξαρτάται από την εξέλιξη των αγορών και την προσκόµιση των αντιστοίχων τιµολογίων του αγορασθέντος εξοπλισµού. Συνειδητοποιούµε ότι τα χρήµατα δίνονται σταδιακά ή και εφάπαξ. Επιπρόσθετα η διάρκεια για την αποπληρωµή αυτού του είδους δανείων φθάνει έως και τα 15 χρόνια. Το επιτόκιο µπορεί να είναι κυµαινόµενο ή σταθερό, και ανάλογα µε την τράπεζα κυµαίνεται από 6% έως και 10%.Σε λίγες περιπτώσεις πελατών µπορεί να εφαρµοστεί το βασικό επιτόκιο προσαυξανόµενο µε κάποιο περιθώριο. Αυτό εξαρτάται από τις εγγυησείς που παρέχει ο δανειολήπτης Κεφάλαια κίνησης Με τα ανοιχτά η ανακυκλωµένα δάνεια παρέχεται µια γραµµή χρηµατοδότησης από τις τράπεζες, για την κάλυψη των λειτουργικών -Σελίδα 63 -

64 αναγκών των µικροµεσαίων επιχειρήσεων και των ελεύθερων επαγγελµατιών. Πιο συγκεκριµένα στα ανοιχτά δάνεια οι τράπεζες δίνουν ένα πιστωτικό όριο στον χρηµατοδοτούµενο µέχρι το οποίο αυτός µπορεί να δανείζεται. Ο πιστούχος έχει το δικαίωµα να εξοφλήσει ένα µέρος ή το σύνολο της οφειλής του, ενώ ταυτόχρονα, σε περίπτωση ανάγκης, µπορεί να επαναδανειζεται έως το χορηγούµενο όριο του. Αντιλαµβανόµαστε ότι δεν είναι αναγκαίο ο δανειολήπτης να επιστρέφει σε συγκεκριµένο χρονικό διάστηµα το κεφάλαιο που χρησιµοποίησε. Τα περισσότερα προγράµµατα έχουν προσαρµοστεί στις ανάγκες των επιχειρήσεων, όπως των εποχικών, δηλαδή των καταστηµάτων εστίασης σε τουριστικές περιοχές είτε των µικρών ξενοδοχειακών και τουριστικών µονάδων, µε αποτέλεσµα οι τόκοι να καταβάλλονται στις περιόδους που αυτές οι επιχειρήσεις έχουν έσοδα. Βεβαίως οι επαγγελµατίες µε συγκεκριµένα έσοδα έχουν την δυνατότητα να πληρώνουν τις δόσεις τους σε συγκεκριµένες προθεσµίες, ώστε γνωρίζοντας εκ των προτέρων τις δόσεις τους να µπορούν να κάνουν καλύτερο προγραµµατισµό. Εξαιτίας του υψηλού ανταγωνισµού µεταξύ των τραπεζών, υπάρχουν τράπεζες που χρηµατοδοτούν για κεφάλαιο κίνησης έως και 100% του τζίρου της επιχείρησης. Από την άλλη πλευρά υπάρχουν και τράπεζες, στις οποίες το ποσοστό χρηµατοδότησης τους δεν ξεπερνά το 50% του τζίρου της επιχείρησης Προσωπική χρηµατοδότηση Καταναλωτικά δάνεια Με τον όρο καταναλωτικό δάνειο εννοούµε οποιοδήποτε δάνειο χορηγείται σε ένα άτοµο για µια προσωπική του δαπάνη, εκτός από την αγορά ακίνητης περιουσίας ή χρεογράφων. Τα περισσότερα, αυτού του είδους, δάνεια χωρίζονται σε βραχυπρόθεσµα και µεσοπρόθεσµα, ενώ ταυτόχρονα αποτελούν το 15% των συνολικών δανείων των τραπεζών. Μεταξύ των άλλων, τα καταναλωτικά δάνεια αποπληρώνονται µε δόσεις, σε προκαθορισµένα χρονικά διαστήµατα π.χ µηνιαίως. Άρα ο δανειολήπτης αποπληρώνει, εντός ενός προγραµµατισµένου και προσυµφωνηµένου -Σελίδα 64 -

65 χρονοδιαγράµµατος, τους τόκους και το κεφαλαίο. Αντιλαµβανόµαστε ότι τα πιο πολλά δάνεια δηµιουργούν µια προβλέψιµη ταµειακή εισροή στην χορηγούσα τράπεζα. Είναι αξιοσηµείωτο να αναφέρουµε ότι σηµαντικό µέρος των καταναλωτικών δανείων διοχετεύεται στην χορήγηση πίστωσης στις πιστωτικές κάρτες. Τα έξοδα διαχείρισης των δανείων µέσα από την χρηµατοδότηση των υπολοίπων των πιστωτικών καρτών είναι υψηλά σε σύγκριση µε τον απόλυτο αριθµό αυτών των υπολοίπων. Παράλληλα τα δάνεια µέσω των πιστωτικών καρτών εµφανίζουν τον µεγαλύτερο αριθµό µη εκπλήρωσης των υποχρεώσεων τους. Εποµένως εµπεριέχουν µεγαλύτερο πιστωτικό κίνδυνο σε σχέση µε τα υπόλοιπα δάνεια. Ο δανειολήπτης επιβάλλεται να εξετάζει το ύψος της δόσης του δανείου, αλλά και το ποσοστό του επιτοκίου. Υπάρχουν έξοδα που συνδέονται µε το συνάπτοµενο δάνειο, όπως µε την αξιολόγηση του δανειακού ζητήµατος, τα οποία αυξάνουν την επιβάρυνση από το δάνειο. Ιδιαίτερη προσοχή πρέπει να δίνεται και στα παρακάτω έξοδα, τα οποία προκύπτουν από την έγκριση του καταναλωτικού δανείου. Αρχικά τα έξοδα νοµικού ελέγχου, έξοδα εγγραφής προσηµείωσης υποθήκης και τα έξοδα υποθηκοφυλακείου. Επίσης επιβαρύνσεις που συνδέονται µε την πρόωρη µερική ή ολική αποπληρωµή του δανείου, αλλά και από τις ενεχυριάσεις οµολόγων είτε καταθέσεων ή µετοχών και επίδοσης των αντίστοιχων συµβάσεων. Στην διαδικασία αξιολόγησης του δανειακού αιτήµατος επιλέγονται κυρίως ιδιώτες που τηρούν λογαριασµούς µισθοδοσίας στην τράπεζα. Ενώ ταυτόχρονα εξετάζεται το διαθέσιµο εισόδηµα και η φερεγγυότητα του υποψηφίου δανειολήπτη. Ας µην ξεχνάµε άλλωστε ότι τα καταναλωτικά δάνεια έχουν υψηλότερο επιτόκιο από τα στεγαστικά και τα επιχειρηµατικά, λόγω της έλλειψης εξασφαλίσεων από την πλευρά της τράπεζας. Τούτο απαιτεί καλύτερες προβλέψεις µέσω εξόρυξης γνώσης από τις εποπτικές αρχές για την περίπτωση µη οµαλής εξυπηρέτησης αυτών των δανείων [23]. -Σελίδα 65 -

66 5.4 Στεγαστικά δάνεια Είδη και παρερχόµενες εγγυήσεις στεγαστικών δανείων Ο υποψήφιος δανειολήπτης µπορεί να καταλήξει στην απόφαση να λάβει στεγαστικό δάνειο, όταν δεν κατέχει ιδιόκτητη κατοικία και το ύψος της δόσης του δανείου είναι µικρότερο ή ίσο µε το καταβαλλόµενο ενοίκιο. Αν και αντιλαµβανόµαστε, ότι ακόµα και στην περίπτωση που η δόση του στεγαστικού δανείου είναι υψηλότερη από το ενοίκιο, υπάρχει το όφελος της απόκτησης ιδιόκτητης κατοικίας µετά το χρονικό διάστηµα αποπληρωµής του δανείου. Γενικά µε τον όρο στεγαστικό δάνειο εννοούµε την πίστωση που χορηγείται σε καταναλωτή για την απόκτηση ή την διαµόρφωση ιδιωτικού ακινήτου, του οποίου είναι ιδιοκτήτης ή σκοπεύει να το αγοράσει Εποµένως τα ζητούµενα στεγαστικά δάνεια κατηγοριοποιούνται ανάλογα µε τον σκοπό τους. Οι σηµαντικότερες κατηγορίες είναι οι εξής : α) για απόκτηση κυριας ή δευτερεύουσας κατοικίας ή εξοχικής κατοικίας, β) για αγορά οικοπέδου, γ) για επισκευή ή ανέγερση κατοικίας και δ) για αγορά ή επισκευή ή ανέγερση επαγγελµατικής στέγης, όπως γραφείο, ιατρείο, κατάστηµα. Παράλληλα είναι εφικτή η χρήση των ακινήτων για ιδιόχρηση ή εκµετάλλευση, δηλαδή για ενοικίαση σε τρίτους και από το εισπραττόµενο µηνιαίο ενοίκιο να αποπληρώνεται η δόση του δανείου. Επιπρόσθετα η απόδοση και η χρήση των δανείων για επισκευή ή ανέγερση ή αποπεράτωση επαγγελµατικής στέγης, κυριας κατοικίας, δευτερεύουσας ή και εξοχικής κατοικίας γίνεται τµηµατικά εξαρτώµενη από την πρόοδο των εργασιών στο ακίνητο που χρηµατοδοτείται. Συνειδητοποιούµε ότι ο έλεγχος στην πορεία των εργασιών αποτελεί απαραίτητη προϋπόθεση για να αποδίδεται και να αποδεσµεύεται σταδιακά το δάνειο στον δανειολήπτη. Η αναγκαία αυτοψία πραγµατοποιείται από την τεχνική υπηρεσία της τράπεζας. Σύµφωνα µε έρευνες που έχουν γίνει στην χώρα µας, διαπιστώνεται ότι οι Έλληνες προτιµούν τις οικονοµίες τους είτε να τις αποταµιεύουν σε καταθέσεις ταµιευτηρίου είτε να τις επενδύουν σε ακίνητα. Πιο συγκεκριµένα το ποσοστό ιδιοκατοίκησης ανέρχεται σε 74%, ενώ ταυτόχρονα σήµερα υπάρχουν περίπου κενές κατοικίες. Τα κριτήρια που λαµβάνονται -Σελίδα 66 -

67 υπόψη για την εξέταση µιας αίτησης στεγαστικού δανείου είναι τα ίδια µε αυτά των καταναλωτικών δανείων. Τα δικαιολογητικά που ζητούνται συνήθως από τον δανειολήπτη για την εξέταση µιας αίτησης στεγαστικού δανείου είναι τα παρακάτω: α) το εκκαθαριστικό σηµείωµα της εφορίας, β) οι αποδείξεις µισθοδοσίας για τους µισθωτούς και οι φορολογικές δηλώσεις Ε3 και Ε5 για τους ελεύθερους επαγγελµατίες. Επιπλέον κρίνεται ως υποχρεωτική η προσκόµιση και του προϋπολογισµού εργασιών για το ακίνητο ελεγµένο και θεωρηµένο από αρχιτέκτονα ή µηχανικό της προτίµησης του πιστωτή, στην περίπτωση που το στεγαστικό δάνειο είναι για την επισκευή ή ανέγερση ή αποπεράτωση του ακινήτου. Στην περίπτωση έγκρισης του αιτήµατος χορήγησης του στεγαστικού δανείου, ακολουθεί ο νοµικός έλεγχος του τίτλου ιδιοκτησίας του ακινήτου και η αυτοψία της τεχνικής υπηρεσίας της τράπεζας για τον ακριβή προσδιορισµό της αξίας του ακινήτου. Η προσκόµιση κτηµατογραφικου αποσπασµατος επιβάλλεται εκτός από την τράπεζα να γίνει και στο Μονοµελές Πρωτοδικείο. Και τούτο επειδή είναι αδύνατη η εγγραφή προσηµείωσης υποθήκης σε ακίνητο που δεν έχει λάβει τον κωδικό αριθµό Εθνικού Κτηµατολογίου έτσι, ώστε µπορεί να θεωρηθεί ως ακίνητο που η θέση του δεν εντοπίζεται. Συµπερασµατικά ο δανειολήπτης απαιτείται να προσκοµίσει τον τίτλο ιδιοκτησίας του ακινήτου, την οικοδοµική άδεια το τοπογραφικό διάγραµµα, κατόψεις του ακινήτου και διάγραµµα κάλυψης, αλλά και το κτηµατογραφικο αποσπασµα, δηλαδή ότι το ακίνητο έχει συµπεριληφθεί στο Εθνικό Κτηµατολόγιο. Τα ίδια δικαιολογητικά θα απαιτηθούν και για τον εγγυητή, εφόσον απαιτηθεί η ύπαρξη του. Οι δόσεις των στεγαστικών δανείων συνήθως πρέπει να καταβάλλονται µηνιαία, ενώ ο δανειολήπτης επιβαρύνεται και µε το κόστος της υποχρεωτικής ασφάλισης του υπέγγυου ακινήτου, για να καλυφθούν οι κίνδυνοι από πυρκαγιά και σεισµό. Επίσης το ασφαλιζοµενο κεφάλαιο είναι ίσο µε την αξία κατασκευής του ακινήτου. Ο δανειολήπτης, κατά την σύναψη του στεγαστικού δανείου, πρέπει να υπολογίζει και την δαπάνη των ασφαλίστρων για την ασφάλεια ζωής του ίδιου ίση µε το ύψος του χορηγούµενου δανείου. Επιπλέον ο υποψήφιος λήπτης του δανείου είναι απαραίτητο να εξετάσει το επιτόκιο του δανείου. Αυτό σηµαίνει ότι πρέπει να υπολογίσει τις µηνιαίες δόσεις µε σταθερό ή κυµαινόµενο επιτόκιο. Εκτός των άλλων πρέπει να εξετάσει τα έξοδα α) για τα ασφαλιστήρια συµβόλαια, β) για -Σελίδα 67 -

68 την τεχνική υπηρεσία, γ) για την νοµική υπηρεσία, δ) για την εγγραφή στο Εθνικό Κτηµατολόγιο, ε) για την εξέταση του αιτήµατος του, καθώς και για την εγγραφή προσοµοίωσης υποθήκης. Η τράπεζα, µε την αυτοψία της τεχνικής της υπηρεσίας και την χρήση αλγόριθµων εξόρυξης γνώσης αξιολογεί και µαθαίνει την αξία του ακινήτου. Επίσης εξετάζει πόσο εύκολα µπορεί να ρευστοποιήθει η να εκποιηθεί, στην περίπτωση που χρειαστεί να προχωρήσει στον πλειστηριασµό του µελλοντικά Βασικό κριτήριο, το οποίο λαµβάνεται είναι η αξία του ακινήτου να υπερβαίνει το ύψος της εγγραφής της προσηµείωσης υποθήκης. Γενικά το µέγιστο ύψος του στεγαστικού δανείου, που θα χορηγηθεί, κυµαίνεται σε ένα ποσοστό 70% - 80% επί της αξίας του υπεγγύου ακινήτου. Όµως η προσηµείωση της υποθήκης εγγράφεται για ποσό που υπερβαίνει το ύψος του χορηγούµενου δανείου κατά 120% - 130%, µε αποτέλεσµα να διασφαλίζονται οι τόκοι και ταυτόχρονα τυχόν άλλα έξοδα του δανείου. Εποµένως, αν η αξία του ακινήτου που θα εγγραφεί προσηµείωση υποθήκης υπολογίζεται στις Ευρώ, τότε το µέγιστο ύψος του δανείου µπορεί να κυµανθεί από Ευρώ έως Ευρώ. Ενώ η εγγραφή της προσηµείωσης που απαιτείται θα είναι από Ευρώ έως Ευρώ για δάνειο Ευρώ και Ευρώ έως Ευρώ για δάνειο Ευρώ. Βεβαίως αναφερόµαστε ότι το ακίνητο είναι νόµιµα οικοδοµηµενο. Αν υπάρχουν διαφόρων µορφών διεκδικήσεις ή και κατάσχεση του ακινήτου τότε η τράπεζα θα απαιτήσει την ολική εξάλειψη τους. Ιδιαίτερη σηµασία δίνεται στο ιδιοκτησιακό καθεστώς του υπεγγύου ακινήτου, επειδή απαιτείται η πλήρη κυριότητα του να ανήκει στον δανειολήπτη ή και στον εγγυητή. Στις περιπτώσεις που υπάρχουν περισσότεροι δικαιούχοι, όπως π,χ συµβαίνει συνήθως στις γονικές παροχές, τότε λαµβάνονται οι προσωπικές εγγυησεις όλων των ενεχοµένων. Επιπρόσθετα στα ακίνητα που υπάρχει ζήτηµα χρησικτησίας, δύσκολα αυτά γίνονται δεκτά για εγγραφή προσηµείωσης υποθήκης από τις τράπεζες. Τέλος στα επισκευαστικά δάνεια παρατηρείται ότι αρκετές φορές εξυπηρετούνται ανάγκες των δανειοληπτών και γενικότεροι σκοποί καταναλωτικού χαρακτήρα. Συνειδητοποιούµε ότι, τα εργαλεία τεχνικών εξόρυξης γνώσης σε οικονοµικές εφαρµογές στοχεύουν να βοηθήσουν και να ωφελήσουν τους υπεύθυνους χορήγησης τραπεζικών προϊόντων. Από την µια πλευρά οι -Σελίδα 68 -

69 τράπεζες µπορούν να δηµιουργήσουν ένα σύστηµα που θα είναι σε θέση να αξιολογεί και να προβλέπει µε πολύ µεγάλη ακρίβεια τη δανειοληπτική συµπεριφορά του πιστούχου. Να αναγνωρίζει στοιχεία τα οποία είναι σηµάδια επιτυχούς ή όχι συνεργασίας. Παράλληλα ο υποψήφιος χρήστης θα έχει τη δυνατότητα να επιλέξει µε βάση τις ανάγκες του, µέσα από ένα ευρύ σύνολο εξελιγµένων ποιοτικά προϊόντων που θα περιορίζουν στο ελάχιστο την πιθανότητα να µην είναι συνεπής στις υποχρεώσεις του. Στο επόµενο κεφάλαιο επικεντρώνουµε τη µελέτη µας στην υλοποίηση και αξιολόγηση των τεχνικών εξόρυξης γνώσης, για την έγκριση δανειοδότησης. -Σελίδα 69 -

70 6. Αξιολόγηση των αλγορίθµων εξόρυξης γνώσης για την έγκριση δανειοδότησης Σε αυτό το κεφάλαιο θα συγκρίνουµε διάφορους αλγορίθµους, ως προς την ακρίβεια τους, για την έγκριση δανειοδότησης εάν οι υποψήφιοι χρήστες πιστωτικών καρτών θα είναι καλοί ή όχι στις υποχρεώσεις τους. Τα δεδοµένα µας είναι στοιχεία των αιτούντων, όπως η ηλικία, το εισόδηµα, η πιστωτική ιστορία, η ιδιοκτησία κατοικίας κλπ. Είναι αναγκαίο να αναφέρουµε ότι η αξιολόγηση των αλγορίθµων θα γίνει µε το ελεύθερο εργαλείο ανοικτού κώδικα WEKA (Waikato Environment for Knowledge Analysis) [38]. Ειδικότερα αυτό είναι ένα περιβάλλον ανάπτυξης εφαρµογών και αλγορίθµων Μηχανικής Μάθησης κατασκευασµένο σε Java. Το WEKA αναπτύχθηκε από το πανεπιστήµιο του Waikato. Συµπεριλαµβάνει δε υλοποιήσεις από αρκετούς γνωστούς αλγορίθµους εξόρυξης γνώσης, και ταυτόχρονα οι ενσωµατωµένες επιλογές του µας βοηθούν στη µέτρηση της ακρίβειας αυτών. Το γραφικό περιβάλλον του διευκολύνει την πρόσβαση σε αυτές τις δυνατότητες. Εκτός των άλλων το Weka προσφέρει και προεπεξεργασια των δεδοµένων, κατηγοριοποίηση, οπτικοποιηση και επιλογή χαρακτηριστικών. Οι τεχνικές αυτού του εργαλείου βασίζονται στην προϋπόθεση ότι τα δεδοµένα βρίσκονται σε κάποιο αρχείο, όπου η κάθε εγγραφή προσδιορίζεται από συγκεκριµένο αριθµό γνωρισµάτων, δηλαδή ονοµαστικές µεταβλητές, αριθµητικές µεταβλητές, ενώ συγχρόνως µπορεί να έχει τη δυνατότητα πρόσβασης και σε SQL databases. Στην συνέχεια θα κατασκευάσουµε ένα πρωτότυπο λογισµικό εργαλείο, το οποίο θα υλοποιεί τον αλγόριθµο που δίνει τα καλυτέρα αποτελέσµατα στα πειράµατα µας και θα κατηγοριοποιεί τους υποψήφιους χρήστες πιστωτικών καρτών σε << Καλούς>> ή << Κακούς>>. Στην συνέχεια θα κατασκευάσουµε ένα πρότυπο εργαλείο για την έγκριση δανειοδότησης. 6.1 Αλγόριθµοι εξόρυξης γνώσης Τα δεδοµένα (credit.g) αντιπροσωπεύουν τα στοιχεία 1000 αιτωντων στο παρελθόν για έγκριση δανειοδότησης [6]. Πρόκειται για ελεύθερα -Σελίδα 70 -

71 διαθέσιµα δεδοµένα. Ο υποψήφιος χρήστης της έχει χαρακτηριστεί ως καλός ή κακός πιστωτής. Τα χαρακτηριστικά των δεδοµένων µας φαίνονται στον πίνακα 6.1. Α/Α Όνοµ. Μεταβλητής Περιγραφή Τύπος Μεταβλητής Κωδ. Περιγραφής 1 CHK_ACCT Κατάσταση ελέγχου λογ/µού Κατηγορηµα- τικός 0:<0 DM 1:0<= <DM 2:=>200DM 3: µη ελενχόµενος λογ/µος 2 DURATION ιάρκεια πίστωσης µήνες σε Αριθµητικός 3 HISTORY Ιστορικό πίστωσης Κατηγορηµατικός 0: δεν έχουν παρθεί πιστώσεις 2:όλες οι πιστώσεις σ αυτή την τράπεζα έχουν πληρωθεί 3:καθυστερήσει στην εξόφληση στο παρελθόν 4:κρίσιµος λογ/µος 5 CREDIT AMOUNT Ποσό πίστωσης Αριθµητικός 6 SAVINGS STATUS Μέση ισορροπία σε αποταµιευτικούς λογ/µους 4 PURPOSE Αιτία πίστωσης Κατηγορηµατικός Κατηγορηµατικός 0:<100DM 1:100<= <500 DM 2:500<= <1000DM 3:=> 1000 DM 4: άγνωστος/µη αποθεµατικός -Σελίδα 71 -

72 7 EMPLOYMENT Παρούσα εργασία Κατηγορηµατικός λογ/µος 0: άνεργος 1:< 1 χρόνο 2:1<= <4 χρόνο 3:4<= <7 χρόνια 4: >= 7 χρόνια 8 INSTALLMENT Ποσοστό δόσης Αριθµητικός 0:όχι, 1:ναι COMMITMENT επί %στο διατιθέµενο εισόδηµα 9 PERSONAL Κατηγορηµα- STATUS τικός 10 OTHER PARTIES Η αίτηση έχει και δεύτερο αιτούντα 11 RESIDENCE SINCE Αριθµητικός 12 PROPERTY MAGNITUTE 13 AGE Ηλικία σε χρόνια Αριθµητικός 14 OTHER_ PAYMENT PLANS Ο αιτών έχει και άλλα πιστωτικά σχέδια Κατηγορηµατικός Κατηγορηµατικός Κατηγορηµατικός 15 HOUSING Κατηγορηµατικός 16 EXISTING_CREDITS Αριθµός από Αριθµητικός υπάρχουσες πιστώσεις στην τράπεζα 17 JOB Φύση της Κατηγορηµα- 0:άνεργος/ δουλείας τικός ανειδίκευτος/ όχι -Σελίδα 72 -

73 µόνιµος 1: ανειδίκευτος/ µόνιµος 2:ειδικευµένος/ µόνιµος 3:στέλεχος/ ελευθ. Επαγγελµατίας/ υψηλών προσόντων εργαζόµενος/ αξιωµατούχος 18 NUM_ DEPENDENTS Αριθµός ατόµων από τα οποία εξαρτάται η µονιµοποίηση Αριθµητικός 19 OWN TELEPHONE Ο αιτών έχει αριθµό τηλεφώνου στο όνοµά του/ της 20 FOREIGN WORKER Αλλοδαπός εργοδότης 21 CLASS Το ποσοστό πίστωσης είναι καλό υαδικός υαδικός υαδικός 0:όχι, 1:ναι 0:όχι, 1:ναι 0:όχι, 1:ναι Πίνακας 6.1 Μεταβλητές που καθορίζουν την πιστωτική ικανότητα του υποψηφίου Οι αλγόριθµοι που θα συγκρίνουµε και έπειτα θα χρησιµοποιήσουµε για την κατασκευή του εργαλείου µας ανήκουν στις πιο διαδεδοµένες τεχνικές. Αυτές είναι τα δέντρα απόφασης (Decision Trees), οι κανόνες ταξινόµησης (Rule-based Classification), τα τεχνητά νευρωνικά δίκτυα (Neural Networks), -Σελίδα 73 -

74 οι αλγόριθµοι στατιστικής κατηγοριοποίησης (Naïve Bayes), οι µηχανές διανυσµάτων υποστήριξης (SVM Support Vector Machines) και η µάθηση βασισµένη σε στιγµιότυπα (Instance-Based Learning).Σε αυτή τη φάση της εργασίας έγιναν οι µετρήσεις και τα πειράµατα. Πιο συγκεκριµένα κάνουµε σύγκριση µεταξύ διάφορων αλγορίθµων της κάθε κατηγορίας, για να δούµε ποιος αλγόριθµος δίνει τη µεγαλύτερη ακρίβεια Σύγκριση αλγορίθµων κατασκευής δέντρων απόφασης Σε αυτό το υποκεφάλαιο παραθέτουµε την σύγκριση των πιο γνωστών αλγορίθµων δένδρων αποφάσεων. Υπάρχει µια πληθώρα αλγορίθµων που αναλαµβάνουν να φτιάξουν δένδρα αποφάσεων. Ο αλγόριθµος Decision stump [42] είναι στην ουσία ένα εκφυλισµένο δέντρο απόφασης. Ένα µόνο χαρακτηριστικό χρησιµοποιείται για την ταξινόµηση. Ο αλγόριθµος NBTree [43] χτίζει ένα δέντρο απόφασης µε την διαφορά ότι στα φύλλα του δέντρου δεν αποδίδεται η τιµή ταξινόµησης αλλά εκπαιδεύεται ένας απλός Μπεϋζιανός ταξινοµητής. Ο αλγόριθµος RandomTree [44] χτίζει ένα δέντρο απόφασης χωρίς κλάδεµα διαλέγοντας τυχαία σε κάθε βήµα την µεταβλητή κόµβο. Ο αλγόριθµος LMT [45] χτίζει ένα δέντρο απόφασης µε την διαφορά ότι στα φύλλα του δέντρου δεν αποδίδεται η τιµή ταξινόµησης αλλά χρησιµοποιείται λογιστική παλινδρόµηση. εδοµένα C4.5 RandomTree NBTree LMT Decision stump Credit_g Πίνακας 6.2. Σύγκριση αλγορίθµων κατασκευής δέντρων απόφασης Σύγκριση αλγορίθµων παραγωγής κανόνων ταξινόµησης Επίσης σε αυτό το υποκεφάλαιο παραθέτουµε την σύγκριση των πιο γνωστών αλγορίθµων παραγωγής κανόνων ταξινόµησης. εδοµένα OneR PART RIPPER Ridor credit-g Πίνακας 6.3. Σύγκριση αλγορίθµων δηµιουργίας κανόνων -Σελίδα 74 -

75 6.2.3 Σύγκριση οκνηρών αλγορίθµων µάθησης Η παράµετρος που πρέπει να διερευνηθεί ως προς την επίδρασή της στην απόδοση του ταξινοµητή είναι το k. Γενικά, η τιµή του k, πέραν από τη µεγάλη σηµασία που έχει η επιλογή του για διαφορετικά σενάρια και η οποία εξηγείται επαρκώς διαισθητικά, εξαρτάται και από τη διαστασιµότητα κατά τρόπο µη ερµηνεύσιµο. Βάσει των πειραµάτων µας, ο αλγόριθµος LBR σε ορισµένες περιπτώσεις δίνει καλύτερα αποτελέσµατα από τους υπολοίπους αλλά χρειάζεται περισσότερο χρόνο κατά την ταξινόµηση αφού είναι υβριδικός. Συνοπτικά, ο k-nn είναι ένας πολύ αποτελεσµατικός αλγόριθµος µάθησης, τόσο για αριθµητικά όσο και για συµβολικά δεδοµένα, ιδιαίτερα όταν γίνεται µε αποτίµηση χαρακτηριστικών και γειτόνων. Είναι ανθεκτικός σε θορυβώδη στιγµιότυπα εκπαίδευσης, ειδικά για µεγαλύτερες τιµές του k, καθώς τα αποµονωµένα λανθασµένα δεδοµένα απορροφώνται κατά τον υπολογισµό του µέσου όρου. εδοµένα 1NN LBR NNge 3NN 5NN Kstar credit-g 70,74 73,56 70,56 72,82 72,65 69,47 Πίνακας 6.4. Σύγκριση οκνηρών αλγορίθµων µάθησης Σύγκριση αλγορίθµων νευρωνικών δικτύων Παράλληλα στο συγκεκριµένο υποκεφάλαιο αναφέρουµε την σύγκριση των πιο συχνά χρησιµοποιούµενων αλγορίθµων νευρωνικών δικτύων. Οι αλγόριθµοι Voted Perceptron και Winnow εφαρµόζονται απευθείας µόνο σε προβλήµατα δυο κλάσεων. Για την εκπαίδευση των νευρωνικών δικτύων µε τον αλγόριθµο ΒΡ χρησιµοποιήσαµε ένα κρυφό επίπεδο. εδοµένα Winnow Voted Perceptron BP credit-g Πίνακας 6.5. Σύγκριση αλγορίθµων µάθησης νευρωνικών δικτύων -Σελίδα 75 -

76 6.2.5 Σύγκριση αλγορίθµων κατασκευής Μπεϋζιανών δικτύων Σε αυτή την παράγραφο παραθέτουµε την σύγκριση των γνωστών τεχνικών δηµιουργίας Μπεϋζιανών. Έχουµε χρησιµοποιήσει: α) την προσέγγιση του ολικού σκορ (βαθµολογία), β) την προσέγγιση του ολικού σκορ µε τοπικές αλλαγές, γ) την περιοριστική προσέγγιση. Ολικό Περιοριστική εδοµένα Τοπικό σκορ σκορ προσέγγιση credit-g Πίνακας 6.6. Σύγκριση αλγορίθµων κατασκευής Μπεϋζιανών δικτύων Σύγκριση αλγορίθµων αφελών Μπεϋζιανών αλγορίθµων Επιπρόσθετα στο συγκεκριµένο υποκεφάλαιο παραθέτουµε την σύγκριση των γνωστών αφελών Μπεϋζιανών αλγορίθµων. Έχουµε χρησιµοποιήσει για το αφελή ταξινοµητή µε την αντιµετώπιση των συνεχών χαρακτηριστικών µε: α) την κανονική κατανοµή, β) την διακριτοποίηση, γ) των κανονικών πυρήνων. Οι Επίσης, εξετάστηκε η ακρίβεια του αλγόριθµου AODE [46] που εκπαιδεύει µια οµάδα µπεϋζιανών ταξινοµητών χρησιµοποιώντας ένα υποσύνολο των δεδοµένων εκπαίδευσης για τον καθένα. Ο συνδυασµός των µοντέλων µέσω της ψηφοφορίας αποδίδει καλύτερα από τους υπόλοιπους εξεταζόµενους αλγόριθµους αλλά ανεβάζει παράλληλα το υπολογιστικό κόστος. -Σελίδα 76 -

77 εδοµένα NB (κανονική κατανοµή) NB (µε διακριτοποίηση) AODE credit-g NaiveBayes (κανονικοί πυρήνες) Πίνακας 1.7. Σύγκριση απλοϊκών ταξινοµητών Μπέυζ Σύγκριση πολυωνυµικών πυρήνων SVMs Ο SMO είναι ένας πρόσφατος αλγόριθµος για τα SVMs, που προτάθηκε από τον Platt [29]. Ο Platt χωρίζει το µεγάλο πρόβληµα ΚΚΤ σε µικρά υπό προβλήµατα κάτω από ορισµένες συνθήκες και λύνει κάθε υπό πρόβληµα χωριστά. Χρησιµοποιήσαµε τον αλγόριθµο SMO για τις συγκρίσεις µας µε p=1, p=2, p=3 στον πολυωνυµικό πυρήνα που περιγράψαµε σε προηγούµενη ενότητα. εδοµένα Πολυωνυµικός πυρήνας 1 ης τάξης Πολυωνυµικός πυρήνας 2 ης τάξης Πολυωνυµικός πυρήνας 3 ης τάξης credit-g Πίνακας 6.8. Σύγκριση πολυωνυµικών πυρήνων -Σελίδα 77 -

78 7. Συνδυασµός αποφάσεων διαφορετικών ταξινοµητών Στο συνδυασµό διαφορετικών αλγορίθµων, διάφοροι όροι έχουν αναφερθεί ως επιθυµητές ιδιότητες για τους ταξινοµητές που συνδυάζονται, µεταξύ αυτών είναι η ορθογωνιότητα (orthogonality), η συµπληρωµατικότητα και η ανεξαρτησία [9]. Η ορθογωνιότητα χρησιµοποιείται για να δείξει την τάση των ταξινοµητών να λαµβάνουν διαφορετικές αποφάσεις. Είναι γεγονός ότι οι διαφορετικοί ταξινοµητές έχουν διαφορετικά µεταξύ τους δυνατά και αδύνατα σηµεία, και κατά συνέπεια ο συνδυασµός τους µπορεί να έχει συµπληρωµατική επίδραση (συµπληροµατικότητα). Εντούτοις, πρέπει να αναγνωριστεί ότι δυο αυτοί όροι στερούνται ακριβή τρόπο µέτρησης. Η ανεξαρτησία γίνεται καλύτερα κατανοητή, λόγω της συχνής της χρήσης στη θεωρία πιθανοτήτων. Όσον αφορά τον τρόπο συνδυασµού των αποφάσεων των ταξινοµητών, ο πιο απλός κανόνας είναι η πλειοψηφική ψηφοφορία (majority voting), κατά την οποία επιλέγεται η κλάση που προβλέπει η πλειοψηφία των ταξινοµητών (βλέπε Εικόνα 7.2) [19]. Μια βελτίωση αυτού του σχήµατος είναι δυνατή αν κάθε ταξινοµητής δίνει στην έξοδό του την εµπιστοσύνη (confidence) του ως προς τις αποφάσεις του, οπότε εκλέγεται η κλάση που κέρδισε τη µέγιστη µέση εµπιστοσύνη [21]. Ταξινοµητής 1 y 1 (n) Είσοδος x(n) Ταξινοµητής 2 y 2 (n) Ψηφοφορία Έξοδος Ταξινοµητής L y L (n) Εικόνα 7.2 Η γραφική αναπαράσταση της ψηφοφορίας των ταξινοµητών Άλλες τεχνικές συνδυασµού αποφάσεων ταξινοµητών εκτιµούν το βάρος κάθε ταξινοµητή στην επιτροπή, ανάλογα µε την αποτελεσµατικότητά -Σελίδα 78 -

79 του στο σύνολο δεδοµένων επικύρωσης [18]. Αυτά τα βάρη χρησιµοποιούνται στη συνέχεια, π.χ. µέσω γραµµικού συνδυασµού, για την πρόβλεψη της κλάσης από την επιτροπή. Μία ακόµα πολιτική είναι να επιλέγεται δυναµικά, ανά στιγµιότυπο προς κατάταξη, o ταξινοµητής εκείνος ο οποίος είχε την καλύτερη επίδοση στα Ν στιγµιότυπα επικύρωσης που συγγενεύουν περισσότερο µε το άγνωστο και αυτός να αποφασίζει (dynamic classifier selection). Οι δύο προηγούµενες ιδέες µπορούν να συνδυαστούν, έτσι ώστε να λαµβάνονται υπόψη όλοι οι ταξινοµητές, αλλά η απόφασή τους να µετράει µε βάση την αποτελεσµατικότητά τους στα Ν στιγµιότυπα επικύρωσης που µοιάζουν περισσότερο µε το άγνωστο (adaptive classifier combination). Μια ακόµα µέθοδος συνδυασµού αποφάσεων διαφορετικών ταξινοµητών είναι η λεγόµενη συσσωρευµένη γενίκευση (stacked generalization), που βασίζεται σε µια διεπίπεδη ιεραρχία ταξινοµητών χρησιµοποιώντας ένα υψηλού επιπέδου µοντέλο (ταξινοµητή) για να συνδυάσει χαµηλότερου επιπέδου µοντέλα µε σκοπό την επίτευξη µεγαλύτερης ακρίβειας πρόβλεψης. Αναλυτικότερα, η γενική ιδέα της µεθόδου έχει ως εξής: δύο ή περισσότεροι αλγόριθµοι µάθησης εκπαιδεύονται αρχικά σε ένα πλήθος από υποσύνολα των αρχικών δεδοµένων, παράγοντας αντίστοιχο αριθµό µοντέλων. Στη συνέχεια, κάθε στιγµιότυπο από τα αρχικά δεδοµένα αντιστοιχίζεται σε ένα νέο, το οποίο αναπαριστά την πρόβλεψη κάθε µοντέλου για το αρχικό στιγµιότυπο, καθώς και την πραγµατική τιµή της συνάρτησης-στόχου (βλέπε Εικόνα 7.3). Στο βήµα αυτό πρέπει να εξασφαλιστεί πως τα µοντέλα δηµιουργούνται από σύνολα εκπαίδευσης που δεν περιλαµβάνουν το στιγµιότυπο που αναπαρίσταται (για το οποίο δηλαδή κάνουν πρόβλεψη), ακριβώς όπως ισχύει στη διασταυρωµένη επικύρωση. -Σελίδα 79 -

80 BΤ 1 0 παράδειγµ α 1 BΤ 2 BΤ n 1 1 Μετα-παράδειγµα παράδειγµα 1 BΤ 1 BΤ 2 BΤ n Κλάσ η 1 Εικόνα 7.3 Η κατασκευή των µετα-δεδοµένων Εν συνεχεία, τα νέα δεδοµένα σχηµατίζουν ένα νέο πρόβληµα µάθησης, και στο δεύτερο βήµα της µεθόδου ένας αλγόριθµος µάθησης καλείται να το λύσει, παράγοντας το µοντέλο του δεύτερου επιπέδου (βλέπε Εικόνα 7.4). Σύµφωνα µε την ορολογία του Wolpert [47], τα αρχικά δεδοµένα και τα µοντέλα που κατασκευάζονται για αυτά στο πρώτο βήµα αναφέρονται ως δεδοµένα επιπέδου-0 και µοντέλα επιπέδου-0, αντίστοιχα, ενώ τα νέα δεδοµένα που προέρχονται από τις προβλέψεις των µοντέλων επιπέδου-0 και ο αλγόριθµος µάθησης που καλείται στο δεύτερο βήµα αναφέρονται αντίστοιχα ως δεδοµένα επιπέδου-1 και ταξινοµητής επιπέδου-1. Σχηµατικά, τα µοντέλα επιπέδου-0 µπορούν να θεωρηθούν ως τα απλά µέλη της επιτροπής ταξινοµητών, ενώ το µοντέλο που κατασκευάζεται από τα δεδοµένα επιπέδου-1 αντιστοιχεί στον πρόεδρο της επιτροπής, ο οποίος εκπαιδεύεται πάνω στις προβλέψεις των µελών για κάθε στιγµιότυπο. Στη φάση της κατάταξης ενός νέου στιγµιότυπου, κάθε µέλος κάνει ανεξάρτητα την πρόβλεψή του και στη συνέχεια ο πρόεδρος παίρνει την τελική απόφαση, λαµβάνοντας υπόψη τις γνώµες των µελών σύµφωνα µε το µοντέλο που έχει κατασκευαστεί. Εφόσον ο πρόεδρος της επιτροπής χρειάζεται να εκπαιδευθεί πάνω στις κρίσεις των µελών, το σύνολο εκπαίδευσης πρέπει να χωριστεί σε ένα τµήµα εκπαίδευσης των µελών και ένα τµήµα εξέτασης των µελών (επικύρωσης). Αν αυτός ο διαµερισµός γίνει µία µόνο φορά, ο πρόεδρος θα έχει στη διάθεση του µόνο τις προβλέψεις των µελών στο σύνολο -Σελίδα 80 -

81 επικύρωσης, δηλαδή ένα υποσύνολο των διαθέσιµων δεδοµένων. Με τη διασταυρωµένη επικύρωση όµως, διαφορετικοί ταξινοµητές επιπέδου-0 (µέλη) εκπαιδεύονται πάνω σε διαφορετικά υποσύνολα των αρχικών δεδοµένων και εξετάζονται στα υπόλοιπα, έτσι ώστε τελικά ο πρόεδρος να αποκτήσει το ίδιο πλήθος δεδοµένων µε τα αρχικά. Μετα-ταξινοµητής Μετα-παράδειγµα BΤ 1 BΤ 2 BΤ n Κλάση παράδειγµα παράδειγµα Εικόνα 7.4 Η εκπαίδευση του µετα-ταξινοµητή Μερικές από τις επιλογές που είναι κρίσιµες για την αποτελεσµατικότητα της συσσωρευµένης γενίκευσης είναι [48]: i) Οι αλγόριθµοι µάθησης για την κατασκευή των µελών. ii) Ο αλγόριθµος µάθησης για την κατασκευή του προέδρου. iii) Το πλήθος των µελών. iv) Η αναπαράσταση των δεδοµένων επιπέδου-1. Θεωρητικά, οποιοσδήποτε αλγόριθµος µάθησης µπορεί να χρησιµοποιηθεί στα (i) και (ii), και πράγµατι έχουν δοκιµαστεί διάφοροι γνωστοί αλγόριθµοι χωρίς να προκύψουν ξεκάθαρα συµπεράσµατα. Ως προς το (iii), δεν έχει βρεθεί ο βέλτιστος αριθµός αν και πολλοί ταξινοµητές επιβαρύνουν τον χρόνο εκπαίδευσης. Ως προς το (iv), πέραν από την περίπτωση που περιγράφηκε παραπάνω, κατά την οποία τα δεδοµένα επιπέδου-1 είναι απλά οι προβλέψεις των µελών, µία άλλη επιλογή είναι δυνατή αν τα µέλη βγάζουν ως έξοδο το βαθµό εµπιστοσύνης τους για την κατάταξη του στιγµιότυπου σε κάθε µία από τις κλάσεις. Σε αυτή την περίπτωση, τα δεδοµένα του επιπέδου-1 µπορούν να αποτελούνται από το βαθµό εµπιστοσύνης που δίνει το κάθε µέλος σε κάθε µία κλάση. -Σελίδα 81 -

82 Μια άλλη µέθοδος που µοιάζει µε την συσσωρευµένη γενίκευση είναι αυτή της βαθµολόγησης (grading) [49]. Ένας ταξινοµητής επιπέδου-1 εκπαιδεύεται για προβλέπει ποιους ταξινοµητές επιπέδου-0 να εµπιστεύεται κατά τον συνδυασµό των αποφάσεων. Ο ταξινοµητής επιπέδου-1 χρησιµοποιεί εκτός από τα δεδοµένα εισόδου για είσοδο και ένα µεταχαρακτηριστικό που του υποδεικνύει αν ο ταξινοµητής επιπέδου-0 ήταν σωστός ή όχι στην ταξινόµηση του συγκεκριµένου παραδείγµατος. Μόνο οι ταξινοµητές επιπέδου-0 που προβλέπει ο ταξινοµητής επιπέδου-1 ότι κάνουν σωστή πρόβλεψη συµµετέχουν στην τελική ψηφοφορία. Αν και, ή ίσως επειδή, πολλές µέθοδοι δηµιουργίας οµάδων ταξινοµητών έχουν προταθεί, δεν υπάρχει µέχρι σήµερα καµία σαφής εικόνα ποια µέθοδος είναι καλύτερη [34], [35]. Αυτό µας ώθησε στην δηµιουργία δική µας νέα µέθοδο συνδυασµού των αποφάσεων διαφορετικών ταξινοµητών. 7.1 Προτεινόµενη µέθοδος επιλεκτικής ψηφοφορίας Είναι αναµενόµενο ότι όταν ένας ταξινοµητής δεν αποδίδει καθόλου καλά σε ένα συγκεκριµένο πρόβληµα τότε επηρεάζει αρνητικά την συνολική απόφαση της οµάδας των ταξινοµητών [50]. Γι αυτό το λόγο σκεφτήκαµε να χρησιµοποιήσουµε επιλεκτική ψηφοφορία κατά την οποία οι ταξινοµητές που έχουν στατιστικά χειρότερη ακρίβεια πρόγνωσης δεν θα παίρνουν µέρος στην τελική ψηφοφορία. Τα πειράµατα της µελέτης µας απέδειξαν ότι η επιλεκτική ψηφοφορία δίνει καλύτερα αποτελέσµατα από την απλή πλειοψηφική ψηφοφορία αλλά και άλλες πιο περίπλοκες µεθόδους όπως η συσσωρευµένη γενίκευση. Η προτεινόµενη µέθοδος επιλεκτικής ψηφοφορίας (selective voting) αποτελείται από έξι βήµατα: Από το αρχικό σύνολο δεδοµένων επιλέγεται τυχαία περίπου το 50% των δεδοµένων εκπαίδευσης Το νέο σύνολο δεδοµένων διαιρείται τυχαία σε τρία ίσα µέρη Τα δύο τρίτα των δεδοµένων χρησιµοποιούνται για την εκπαίδευση των αλγορίθµων και το υπόλοιπο ένα τρίτο είναι το σύνολο ελέγχου. Η διαδικασία επαναλαµβάνεται 3 φορές -Σελίδα 82 -

83 Από τα αποτέλεσµα των τριών πειραµάτων υπολογίζουµε το µέσο όρο της ακρίβειας Οι αλγόριθµοι που έχουν στατιστικά χειρότερη ακρίβεια (σύµφωνα µε την δοκιµή τ µε p<0.05) από τον ακριβέστερο αλγόριθµο δεν χρησιµοποιούνται στην οµάδα Οι υπόλοιποι αλγόριθµοι αφού εκπαιδευτούν στο σύνολο των δεδοµένων εκπαίδευσης εν συνεχεία αποτελούν την οµάδα των ταξινοµητών που αποφασίζει χρησιµοποιώντας την απλή ψηφοφορία. Σχηµατικά, η διαδικασία ταξινόµησης περιλαµβάνει δύο φάσεις: (1) φάση εκπαίδευσης και (2) φάση εφαρµογής (βλέπε Εικόνα 7.4). Κατά τη διάρκεια της φάσης εκπαίδευσης, κάθε ταξινοµητής βάσης (ταξινοµητές h1... hn) εκπαιδεύεται. Για την ταξινόµηση νέων παραδειγµάτων οι αντίστοιχες ταξινοµήσεις των ταξινοµητών βάσης συνδυάζονται µε την εκλεκτική ψηφοφορία h* = F(h1, h2..., hn) για να παραγάγουν την τελική ταξινόµηση του παραδείγµατος (y*). εδοµένα εκπαίδευσης Ταξινοµητής 1 Ταξινοµητής N Φάση εκπαίδευσης h 1 h 2 h 3 (x,?) h* = Selecting Voting Rule(h 1,, h n ) Φάση εφαρµογής (x, y*) Εικόνα 7.4 Η γραφική αναπαράσταση της επιλεκτικής ψηφοφορίας Σαν αλγόριθµους βάσης χρησιµοποιήσαµε µε την προτεινόµενη µέθοδο έναν αλγόριθµο ανά κατηγορία µεθόδων µηχανικής µάθησης: Τον ΝΒ ως εκπρόσωπο των Μπεϋζιανών αλγορίθµων Τον C4.5 ως εκπρόσωπο των δέντρων αποφάσεων Τον 3NN ως εκπρόσωπο των οκνηρών αλγορίθµων Τον BP ως εκπρόσωπο των Νευρωνικών ικτύων -Σελίδα 83 -

84 Τον SMO ως εκπρόσωπο των µηχανών διανυσµάτων υποστήριξης Τον RIPPER ως εκπρόσωπο των κανόνων ταξινόµησης Στο πρώτο µας πείραµα αξιολογήσαµε την απόδοση της προτεινόµενης τεχνικής σε σχέση µε κάθε αλγόριθµο βάσης. Για τα πειράµατα χρησιµοποιήθηκε η τεχνική της στρωµατοποιηµένης διασταυρωµένης επικύρωσης δέκα σηµείων (ten-fold stratified cross validation), προκειµένου να προσεγγιστεί κατά το δυνατόν η πραγµατική απόδοση των αλγορίθµων. Τα τελικά αποτελέσµατα προέκυψαν από το µέσο όρο των δέκα επιµέρους αποτελεσµάτων. Η µέθοδος ελέγχου που χρησιµοποιήθηκε ήταν η κατά ζεύγη δοκιµή-t (p<0.05). εδοµένα Selective Voting C4.5 3NN NB BP SMO RIPPER credit-g * * * Πίνακας 7.1 Σύγκριση της επιλεκτικής ψηφοφορίας µε όλους τους αλγόριθµους βάσης Επίσης, συγκρίναµε την προτεινόµενη µέθοδο χρησιµοποιώντας τους ίδιους αλγόριθµους βάσης µε άλλες τεχνικές συνδυασµού ταξινοµητών όπως: Ψηφοφορία (voting) Βαθµολόγησης (grading) Συσσωρευµένης γενίκευσης (stacking) χρησιµοποιώντας την µία φορά τον αλγόριθµο MLR ως αλγόριθµο µετα-µάθησης όπως πρότειναν στην εργασία τους οι [51] και την άλλη τον αλγόριθµο M5 (έναν αλγόριθµο παλινδρόµησης που βασίζεται στα δέντρα αποφάσεων) όπως πρότειναν στην εργασία τους οι [52]. Την απλή µέθοδο της τριπλής διασταυρωµένης επιλογής (BestCV) [38]. Συνοψίζοντας, η απόδοση της προτεινόµενης τεχνικής είναι πιο ακριβής από τις άλλες γνωστές τεχνικές δηµιουργίας οµάδας ταξινοµητών, αν και χρησιµοποιεί λιγότερο χρόνο για εκπαίδευση. Η εκλεκτική ψηφοφορία µπορεί να επιτύχει µια αύξηση στην ακρίβεια ταξινόµησης 2% σε σχέση µε την απλή ψηφοφορία. Επίσης, η µέση σχετική βελτίωση της ακρίβειας της -Σελίδα 84 -

85 προτεινόµενης µεθοδολογίας είναι από 1% έως 4% σε σχέση µε τις υπόλοιπες µεθόδους. εδοµένα Selective voting Grading Stacking Stacking BestCV voting (MLR) (Μ5 ) credit-g Πίνακας 7.2 Σύγκριση της προτεινόµενης µεθόδου µε άλλες οµάδες ταξινοµητών Σε αυτό το σηµείο πρέπει να τονιστεί ότι η µείωση των µεγάλων συνόλων δεδοµένων σε συµπαγέστερα αντιπροσωπευτικά υποσύνολα, διατηρώντας την ίδια εκµεταλλεύσιµη γνώση, θα µπορούσε να επιταχύνει την διαδικασία µάθησης και να µειώσει τις απαιτήσεις για αποθήκευση. Η δειγµατοληψία είναι γενικά αποδεκτή από την στατιστική κοινότητα, η οποία παρατηρεί ότι "µια προσεγµένη µέθοδος που λειτουργεί σε ένα υποσύνολο των στοιχείων µπορεί στην πραγµατικότητα να παρέχει ανώτερη ακρίβεια από µια λιγότερο προσεγµένη µέθοδο χρησιµοποιώντας ολόκληρη τη βάση δεδοµένων" [53]. Στην πράξη, καθώς το πλήθος των δεδοµένων αυξάνεται, το ποσοστό αύξησης στην ακρίβεια επιβραδύνεται, διαµορφώνοντας την καµπύλη µάθησης (learning curve) (βλέπε Εικόνα 7.5). Αν η δειγµατοληψία είναι αποτελεσµατική εξαρτάται από το πόσο εντυπωσιακά το ποσοστό αύξησης επιβραδύνεται. Ακρίβεια εδοµένα εκπαίδευσης Εικόνα 7.5 Καµπύλη µάθησης -Σελίδα 85 -

86 Είναι ενδιαφέρον ότι τα αποτελέσµατά µας δείχνουν ότι η προτεινόµενη µέθοδος παραγάγει καλά αποτελέσµατα όσον αφορά την καµπύλη µάθησης. Από ένα σύνολο δεδοµένων µεγέθους n, απλά επιλέγουµε t τυχαίες περιπτώσεις (ένα ποσοστό των περιπτώσεων n) από το σύνολο δεδοµένων χωρίς επανατοποθέτηση. Έπειτα αυτές οι t περιπτώσεις χρησιµοποιούνται για την εκπαίδευσης της οµάδας των ταξινοµητών µας. Στις τελευταίες σειρές του Πίνακα 7.3 κάποιος µπορεί να δει τα συγκεντρωτικά αποτελέσµατα χρησιµοποιώντας διαφορετικά υποσύνολα των δεδοµένων εκπαίδευσης για τον προτεινόµενο αλγόριθµο (χρησιµοποιώντας το 33% και το 50% των περιπτώσεων του κάθε συνόλου δεδοµένων). Πρέπει να σηµειωθεί ότι η απόδοση της προτεινόµενης µεθόδου χρησιµοποιώντας το 33% του συνόλου δεδοµένων είναι συγκρίσιµη µε την απόδοση των ταξινοµητών βάσης χρησιµοποιώντας το σύνολο των δεδοµένων. Κατά συνέπεια, εκµεταλλευόµενη την δυνατότητα λειτουργίας µε λιγότερα δεδοµένα και την παράλληλη ή κατανεµηµένη εκτέλεση (ένας αλγόριθµος βάσης ανά µηχανή) η επιλεκτική ψηφοφορία µπορεί να αυξήσει την ταχύτητα ενός συστήµατος µάθησης χωρίς απώλειες στην ακρίβεια ταξινόµησης. Είναι σαφές ότι η αναζήτηση του βέλτιστου ποσοστού δειγµατοληψίας του συνόλου δεδοµένων πρέπει να λάβει υπόψη της όχι µόνο τις ιδιότητες (meta-characterizations) του συνόλου των δεδοµένων αλλά και τις προτιµήσεις του χρήστη όσον αφορά τα κριτήρια απόδοσης όπως το χρόνο εκπαίδευσης, την ακρίβεια και το µέγεθος του παραγόµενου µοντέλου. Περισσότερη έρευνα χρειάζεται προς αυτήν την κατεύθυνση. εδοµένα Selective Voting (100%) Selective Voting (33%) Selective Voting (50%) credit-g Πίνακας 7.3 Εκτέλεση της µεθόδου επιλεκτικής ψηφοφορίας σε υποσύνολα των δεδοµένων -Σελίδα 86 -

87 7.2 Παρουσίαση του προτεινόµενου εργαλείου Εισαγωγή Σε αυτό το υποκεφάλαιο της εργασίας προσπαθούµε να κατασκευάσουµε ένα λογισµικό εργαλείο υποστήριξης για την έγκριση πιστωτικών καρτών. Είναι απαραίτητο να σηµειώσουµε, ότι στη δική µας υλοποίηση χρησιµοποιούµε έτοιµες κλάσεις που βρίσκονται στο εργαλείο WEKA έτσι, ώστε να επιτυγχάνεται η εισαγωγή των δεδοµένων εδοµένα εκµάθησης Τα δεδοµένα που χρησιµοποιούµε για την παραγωγή των κανόνων στην εφαρµογή µας είναι αυτά που αναφέραµε στην παράγραφο 6.1, δηλαδή αυτά που βρίσκονται στο αρχείο credit.g. Η εφαρµογή µας διαβάζει τα δεδοµένα εκπαίδευσης, αλλά και τα χαρακτηριστικά του µοντέλου από ένα Arff (Attribute-relation file format) αρχείο και τα εµφανίζει στην οθόνη. Στη δική µας περίπτωση τα δεδοµένα είναι έτοιµα, όµως ο οποιοσδήποτε έχει τη δυνατότητα να δηµιουργήσει το δικό του arrf. αρχείο µε την απλή µετατροπή ενός csv. αρχείου. Η ύπαρξη ενός arrf αρχείου είναι αναγκαία, διότι η εφαρµογή µας βασίζεται σε κλάσεις του WEKA και είναι η µοναδική µορφή αρχείου που µπορεί να επεξεργαστεί. Στο επόµενο βήµα το λογισµικό µας κάνοντας χρήση του πρωτότυπου αλγορίθµου της επιλεκτικής ψηφοφορίας, που επιλέξαµε να χρησιµοποιήσουµε, δηµιουργεί το µοντέλο πρόγνωσης. Εποµένως, ξεκινώντας την εφαρµογή µας βλέπουµε την αρχική οθόνη (Εικόνα 7.6). Σε αυτό το στάδιο το εργαλείο µας δίνει την επιλογή να εισάγουµε τα δεδοµένα εκπαίδευσης, µέσα από ένα Arrf αρχείο, µε σκοπό να κατασκευάσει το µοντέλο που θα κάνει την πρόγνωση για την έγκριση των πιστωτικών καρτών. Αλλά ταυτόχρονα και τη δυνατότητα να τερµατίσουµε την εφαρµογή επιλέγοντας Quit. -Σελίδα 87 -

88 Εικόνα 7.6 Αρχική οθόνη του εργαλείου Επιλέγοντας τη δυνατότητα Load Arrf, ανοίγει το παράθυρο από το οποίο θα διαλέξουµε το Arrf αρχείο, το οποίο θέλουµε να φορτώσουµε. Ειδικότερα επιλέγοντας το αρχείο credit-g.arrf θα εµφανιστεί στην οθόνη η Εικόνα 7.7. Το εργαλείο µας έχει διαβάσει τις µεταβλητές πρόγνωσης και στην συνέχεια περιµένει να συµπληρώσουµε τα κενά πεδία, ώστε να προχωρήσει στην πρόβλεψη για τον υποψήφιο δανειολήπτη. -Σελίδα 88 -

89 Εικόνα 7.7 Φόρτωση αρχείου δεδοµένων Επιπρόσθετα για κάθε µεταβλητή που ο χρηστής πρέπει να θέσει µια τιµή υπάρχει το αντίστοιχο πεδίο εισαγωγής, αν η τιµή είναι συνεχής, ενώ στην περίπτωση που η τιµή είναι διακριτή υπάρχει ένα combo box το οποίο παρέχει τις δυνατές επιλογές, Εικόνα Σελίδα 89 -

90 Εικόνα 7.8 Η διεπαφή του εργαλείου πριν την πρόγνωση Συµπληρώνοντας τα στοιχεία που απαιτούνται και πατώντας το κουµπί(predict value) το εργαλείο µας λέει την πρόγνωση για τον υποψήφιο δανειολήπτη. Στα παραδείγµατα που ακολουθούν ο ένας υποψήφιος -Σελίδα 90 -

Δείτε περισσότερα