ΣΥΓΚΡΙΣΗ ΝΟΗΜΟΝΩΝ ΜΕΘΟ ΟΛΟΓΙΩΝ ΓΙΑ ΤΗ ΜΟΝΤΕΛΟΠΟΙΗΣΗ ΤΟΥ ΠΡΟΒΛΗΜΑΤΟΣ ΤΟΥ ΠΙΣΤΟΛΗΠΤΙΚΟΥ ΚΙΝ ΥΝΟΥ ΣΕ ΤΡΑΠΕΖΙΚΟΥΣ ΟΡΓΑΝΙΣΜΟΥΣ

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "ΣΥΓΚΡΙΣΗ ΝΟΗΜΟΝΩΝ ΜΕΘΟ ΟΛΟΓΙΩΝ ΓΙΑ ΤΗ ΜΟΝΤΕΛΟΠΟΙΗΣΗ ΤΟΥ ΠΡΟΒΛΗΜΑΤΟΣ ΤΟΥ ΠΙΣΤΟΛΗΠΤΙΚΟΥ ΚΙΝ ΥΝΟΥ ΣΕ ΤΡΑΠΕΖΙΚΟΥΣ ΟΡΓΑΝΙΣΜΟΥΣ"

Transcript

1 ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΙΟΙΚΗΣΗΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥ ΩΝ ΟΙΚΟΝΟΜΙΚΗ ΚΑΙ ΙΟΙΚΗΣΗ ΓΙΑ ΜΗΧΑΝΙΚΟΥΣ (ΠΜΣ Ο. Ι.Μ.) ΣΥΓΚΡΙΣΗ ΝΟΗΜΟΝΩΝ ΜΕΘΟ ΟΛΟΓΙΩΝ ΓΙΑ ΤΗ ΜΟΝΤΕΛΟΠΟΙΗΣΗ ΤΟΥ ΠΡΟΒΛΗΜΑΤΟΣ ΤΟΥ ΠΙΣΤΟΛΗΠΤΙΚΟΥ ΚΙΝ ΥΝΟΥ ΣΕ ΤΡΑΠΕΖΙΚΟΥΣ ΟΡΓΑΝΙΣΜΟΥΣ Η ΠΕΡΙΠΤΩΣΗ ΤΩΝ ΚΑΤΑΝΑΛΩΤΙΚΩΝ ΑΝΕΙΩΝ ΕΙΣΗΓΗΤΡΙΑ: Αικατερίνη Γιαλούρη ΕΠΙΒΛΕΠΩΝ ΚΑΘΗΓΗΤΗΣ: Γεώργιος ούνιας ΧΙΟΣ, 2010

2 η εργασία αυτή είναι αφιερωµένη, στο σύζυγο µου ηµήτρη µε πολλή αγάπη για την αµέριστη συµπαράσταση και την υποµονή του

3 Ευχαριστίες Θα ήθελα να ευχαριστήσω τον επιβλέποντα Καθηγητή µου κ. Γεώργιο ούνια για τη συνεργασία µας και την πολύτιµη βοήθεια που µου πρόσφερε. Αισθάνοµαι τυχερή και είµαι ευγνώµων για την ηθική και υλική συµπαράσταση που µου πρόσφερε όλη η οικογένεια µου και ιδιαιτέρα η µητέρα µου Ευτυχία. Ευχαριστώ το φίλο µου Ευθύµιο Τζιώρτζη, ο οποίος είναι και ο λόγος που ξεκίνησα και ολοκλήρωσα το Μεταπτυχιακό αυτό Πρόγραµµα. Επίσης, τους κ.κ Ισίδωρο Καραµαούνα, πρώην συνάδελφο και φίλο, Αλέξη Καρίβαλη, ιευθυντή καταστήµατος της Εµπορικής Τράπεζας, Βασίλη Βασιλειάδη, Υποψήφιο ιδάκτορα του ΤΜΟ, το φίλο Σέργιο Λάλα για την υποµονή και τη βοήθειά του, την κ. Έφη Τσαγκάρη συνάδελφο µου. Την κ. έσποινα Μονογιούδη, Προϊσταµένη Γραµµατείας του ΤΜΟ για τη θερµή παρότρυνσή της. Τους αγαπηµένους φίλους ηµήτριο Σαλιάρη, Ασπασία Χαβιάρα και Φλωρεντία Παππά για την ηθική συµπαράσταση, και τέλος την φίλη Μαρία Ελευθεριάδου για όλα όσα έκανε και συνεχίζει να κάνει για µένα.

4 ΠΕΡΙΕΧΟΜΕΝΑ ΠΕΡΙΛΗΨΗ..8 ΕΙΣΑΓΩΓΗ...10 ΚΕΦΑΛΑΙΟ 1 Ο Πιστοδοτική Πολιτική Ελληνικών Τραπεζικών Οργανισµων Η Σηµασία της ύπαρξης Πιστοδοτικής Πολιτικής ιαχείρηση του Χαρτοφυλακιου Πιστωτική Ανάγκη και Μέσα Κάλυψης της Ικανότητα Επιλογής Κινδύνου Εγκριση και ιαχείριση Πιστοδοτήσεων Χρηµατοδοτικά Προβλήµατα.19 ΚΕΦΑΛΑΙΟ 2 Ο...21 ιαχείρηση του Πιστωτικού Κινδύνου Πιστωτικός Κίνδυνος Εργαλεία ιαχείρισης Πιστωτικού Κινδύνου ΚΕΦΑΛΑΙΟ 3 Ο Τεχνητή Νοηµοσύνη Τεχνητή Νοηµοσύνη Νευρωνικά ίκτυα Μηχανική Μάθηση Εµπειρικά Συστήµατα Ασαφής Λογική Πολυκριτήρια Ανάλυση Μηχανές ιανυσµάτων Υποστήριξης Γενετικοί Αλγόριθµοι Γενετικός Προγραµµατισµος

5 ΚΕΦΑΛΑΙΟ 4 Ο...37 Χρήση του WEKA και συλλογή και επεξήγηση των δεδοµένων Τι είναι το πρόγραµµα WEKA και πως λειτουργεί Συλλογή των δεδοµένων και επεξήγηση των µεταβλητών µας ΚΕΦΑΛΑΙΟ 5 Ο Παρουσίαση των αποτελεσµάτων ΑΛΓΟΡΙΘΜΟΙ ΒΑΥΕS Αλγόριθµος Bayes Net Αλγόριθµος Naive Bayes Αλγόριθµος Naive Bayes Simple Αλγόριθµος Naive Bayes Updateable ΣΥΝΑΡΤΗΣΕΙΣ «FUNCTIONS» Λογιστική Παλινδρόµηση - Logistic Regression Αλγόριθµος Multilayer Perceptron Νευρωνικό δίκτυο - RBF Network Απλή Λογιστική Παλινδρόµηση - Simple Logistic Regression Aλγόριθµος Ελαχίστης ιαδοχικής Βελτιστοποίησης SMO ΑΛΓΟΡΙΘΜΟΙ ΑΦΕΛΟΥΣ ΤΑΞΙΝΟΜΗΣΗΣ (LAZY) Αλγόριθµος ΙB Αλγόριθµος ΙBK Αλγόριθµος Kstar ΑΛΓΟΡΙΘΜΟΙ ΜΕΤΑΜΑΘΗΣΗΣ - «ΜΕΤΑ» Αλγόριθµος «AdaBoostM1» Aλγόριθµος Ταξινόµησης Επιλεγµένων Χαρακτηριστικών «ASC» Αλγόριθµος «Bagging» Αλγόριθµος Ταξινόµησης Μέσω Παλινδρόµησης «Classification Via Regression» Αλγόριθµος Επιλογής Παραµέτρων «CV Parameter Selection» Αλγόριθµος «Dagging» Αλγόριθµος «Decorate»

6 5.4.8 Αλγόριθµος «END» Αλγόριθµος Επιλογής Συνόλου - «Ensemble Selection» Αλγόριθµος «Filtered Classifier» Αλγόριθµος «Grading» Αλγόριθµος «LogitBoost» Αλγόριθµος «MultiBoostAB» Αλγόριθµος «Multi Class Classifier» Αλγόριθµος «MultiScheme» Αλγόριθµος «Ordinal Class Classifier» Αλγόριθµος «Raced Incremental Logit Boost» Αλγόριθµος «Random Committee» Αλγόριθµος «Random Sub Space» Αλγόριθµος «Stacking» Αλγόριθµος «Vote» ΕΝ ΡΙΚΟΙ ΑΛΓΟΡΙΘΜΟΙ «TREES» Αλγόριθµος «BF trees» Αλγόριθµος «J48» ένδρα Λογιστικών Μοντέλων - «LMT» ένδρα «Naive Bayes» Αλγόριθµος «Random Forest» Αλγόριθµος «Simple Cart» Αλγόριθµος «Random Tree» Αλγόριθµος «REPTree» ΑΛΓΟΡΙΘΜΟΙ ΕΞΑΓΩΓΗΣ ΚΑΝΟΝΩΝ «RULES» Αλγόριθµος «Conjunctive Rule» Αλγόριθµος «JRip» Αλγόριθµος «NNge» Αλγόριθµος «OneR» Αλγόριθµος «PART» Αλγόριθµος «Ridor» Ο αλγόριθµος µηδενικού κανόνα ZeroR ΣΥΓΚΕΝΤΡΩΤΙΚΑ ΑΠΟΤΕΛΕΣΜΑΤΑ.140 6

7 ΚΕΦΑΛΑΙΟ 6 Ο Συµπεράσµατα Εργασίας Εξαγόµενοι Κανόνες ΒΙΒΛΙΟΓΡΑΦΙΑ ΠΑΡΑΡΤΗΜΑ Α

8 ΠΕΡΙΛΗΨΗ Η παρούσα διπλωµατική εργασία πραγµατεύεται µία από τις µεγαλύτερες κατηγορίες χρηµατοοικονοµικών κινδύνων, αυτή του πιστοληπτικού κινδύνου που µπορεί να αντιµετωπίσει ένας Τραπεζικός Οργανισµός. Απαιτήθηκε, λοιπόν, η πρόβλεψη, η αντιµετώπιση, η παρακολούθηση, η διαχείρισή του, καθώς και η µοντελοποίηση του προβλήµατος, ώστε να διευκολυνθούν οι υπεύθυνοι λειτουργοί των Τραπεζικών Οργανισµών, που ασχολούνται καθηµερινά µε πιστωτικά προϊόντα που ενέχουν τέτοιου είδους κίνδυνο. Έχουµε συλλέξει και χρησιµοποιήσει δεδοµένα που αφορούν καταναλωτικά δάνεια, τα οποία ζητούνται καθηµερινά από ιδιώτες Η ανάλυση και επεξεργασία των δεδοµένων έχει γίνει µε ένα ιδιαίτερα προηγµένο εργαλείο τεχνητής νοηµοσύνης το πρόγραµµα WEKA 3.5.5, το οποίο αναπτύχθηκε στο Πανεπιστήµιο Waikato της Νέας Ζηλανδίας από τους ερευνητές Eibe Frank, Len Trigg και Mark Hall. Επίσης, έχει γίνει εφαρµογή µεθοδολογίας αξιολόγησης µέσω επαναλαµβανόµενων δοκιµών σε άγνωστα δεδοµένα (cross validation), καθώς και αξιολογήσεις νέων άγνωστων δεδοµένων (holdout) για τη µελέτη της απόδοσης των αλγορίθµων. Το κύριο κριτήριο για την ανάλυση της απόδοσης και αξιοπιστίας των αλγορίθµων, εξάλλου, συνίσταται στη µελέτη των ποσοστών εσφαλµένης ταξινόµησης περιπτώσεων που υπολογίζονται για κάθε προσέγγιση. Έχει, επίσης, χρησιµοποιηθεί η µέθοδος των µηχανών διανυσµάτων υποστήριξης (support vector machines - SVM), ο αλγόριθµος see5/c5.0 και ένα Νευρωνικό ( ίκτυο Neural Network -ΝΝ) όπως θα δούµε στο ΠΑΡΑΡΤΗΜΑ Α. Εκεί συγκρίνουµε και τα αποτελέσµατα και των τριών µεθόδων που πραγµατοποιήθηκαν. Πολύ βασική για εµάς είναι η έρευνα που έχει γίνει κατά τη διάρκεια των τελευταίων ετών -κυρίως την δεκαετία του 70- για τη διαχείριση και καταπολέµηση του πιστοληπτικού κινδύνου από ξένους ερευνητές, όπως είναι ο Edward Altman. Tο µοντέλο του παρατίθεται αναλυτικά στο δεύτερο κεφάλαιο της εργασία µας. Επιγραµµατικά αναφερόµαστε και σε άλλα µοντέλα ξένων ερευνητών, όπως π.χ. είναι του Merton, και έχουν χρησιµοποιηθεί για την επίλυση του προβλήµατος που µας απασχολεί. Ο σκοπός της εργασίας µας είναι η εκτίµηση της απόδοσης διαφορετικών αλγορίθµων µηχανικής µάθησης στο θέµα της πρόβλεψης του πιστοληπτικού 8

9 κινδύνου στους Τραπεζικούς Οργανισµούς. Αυτό αποτελεί και το πρακτικό µέρος της εργασίας µας. Στο θεωρητικό µέρος θα δούµε την πιστοδοτική πολιτική που διέπει το Ελληνικό Τραπεζικό Σύστηµα, τη διαχείριση των κινδύνων στην καταναλωτική πίστη, τι είναι η Τεχνητή Νοηµοσύνη και το πρόγραµµα WEKA πιο αναλυτικά. Έχουµε, επίσης, διερευνήσει θέµατα, όπως την αξία, την κατανοησιµότητα και την αξιοπιστία των αποτελεσµάτων, µε τη βοήθεια των ειδικών του χώρου εφαρµογής, δηλαδή υπευθύνων του καταστήµατος εφαρµογής στον τοµέα των ιδιωτικών καταναλωτικών δανείων και τέλος, παραθέτουµε αναλυτικά τα συµπεράσµατα µας. 9

10 ΕΙΣΑΓΩΓΗ Οι συνθήκες άσκησης των πιστοδοτήσεων είναι ασταθείς και µη δεδοµένες, αφού είναι άµεσα συνυφασµένες µε τις διαρκώς µεταβαλλόµενες παραγωγικές δραστηριότητες, όπως δηλαδή είναι οι δοµικές µεταβολές αγοράς, οι επισφαλείς θέσεις και οι συνθήκες εργασίας, οι αµοιβές, ο πληθωρισµός, η ανεργία και άλλα. Έτσι λοιπόν, η τεχνική της χορήγησης των πιστώσεων µέσα σε ένα τόσο ρευστό περιβάλλον δεν µπορεί να είναι πάντοτε η ίδια. Το πλαίσιο χορήγησης των πιστώσεων αναδιαµορφώνεται ανάλογα µε τις παραπάνω µεταβαλλόµενες συνθήκες συναλλαγών. Σήµερα που το ελληνικό τραπεζικό σύστηµα αποκτά όλο και περισσότερο µια διεθνοποιηµένη προοπτική -απελευθέρωση αγορών, ταχύτατη αύξηση της κυκλοφορίας των αγορών, εφαρµογή νέων τεχνολογιών ιδιαίτερα στον κλάδο της πληροφορικής- ο προορισµός των πιστωτικών ιδρυµάτων είναι ιδιαίτερα σύνθετος και πολυσχιδής. Οι στόχοι των πιστωτικών ιδρυµάτων πρέπει να περικλείουν δυναµική, αφού είναι σίγουρο πια ότι ο ρόλος τους είναι ιδιαίτερα σηµαντικός. Ο Τραπεζικός Οργανισµός ως θεσµοθετηµένος µεσολαβητής µεταξύ του πιστοδότη και του πιστολήπτη-οφειλέτη αποτελεί αναπτυξιακό µοχλό που συντελεί στην αναπτυξιακή διαδικασία σε επίπεδο εθνικής οικονοµίας αλλά και σε επίπεδο επιµέρους επιχειρηµατικών κλάδων, ο οποίος βέβαια επιδιώκει τη µεγιστοποίηση των κερδών του, µέσα από τις ιδιωτικές επενδύσεις, χωρίς αυτό να σηµαίνει ότι η κοινωνική ευαισθησία είναι τελείως απούσα. Πολύ σηµαντικός είναι ο ρόλος του υπεύθυνου λειτουργού της Τράπεζας που ασχολείται µε τις πιστοδοτήσεις. Η διορατικότητα του τον βοηθάει να αξιολογεί και να κρίνει την πιστοληπτική ικανότητα του δανειολήπτη. Η ιδιαίτερη τεχνική αυτή δεν µπορεί να βασίζεται µόνο στις προσωπικές ικανότητες ή την εµπειρία που διαθέτει ο εκάστοτε λειτουργός, αλλά απαραίτητες είναι και οι ειδικές γνώσεις. Η τεχνική των πιστοδοτήσεων συνεχώς εξελίσσεται µε την εφαρµογή νέων µεθοδολογιών, αλγοριθµικών µοντέλων που σκοπό έχουν να εξασφαλίσουν µε αποτελεσµατικότερο, πληρέστερο, αντικειµενικότερο τρόπο την παρακολούθηση και εκτίµηση κάθε διαχειριστικής εργασίας, στην προκειµένη περίπτωση την παρακολούθηση και εκτίµηση κάθε πιστοδοτικού αιτήµατος. Η σηµερινή τεχνική των πιστοδοτήσεων του Τραπεζικού Οργανισµού προσδιορίζεται από ένα σύστηµα στο οποίο βρίσκονται αποτυπωµένες οι πηγές στοιχείων και πληροφόρησης, η µεθόδευση της µελέτης και αξιολόγησης του απαιτούµενου υλικού, 10

11 η εκτίµηση και η κάλυψη των πιστωτικών κινδύνων, η τεχνική της εκτίµησης της παραγωγικής εκτίµησης των πιστώσεων, η αξιολόγηση των επιδράσεων που δέχεται ο πιστοδοτούµενος οργανισµός από το περιβάλλον µέσα στο οποίο δραστηριοποιείται ο ίδιος. Η σηµασία όλων των παραπάνω είναι τεράστια και αυτό αναλύεται στο πρώτο κεφάλαιο της εργασίας µας. εδοµένου ότι το φαινόµενο του πιστοληπτικού κινδύνου αποτελεί έναν από τους κυριότερους και σηµαντικότερους κινδύνους για τα χρηµατοπιστωτικά ιδρύµατα, απαιτήθηκε η πρόβλεψη, αντιµετώπιση, παρακολούθηση και διαχείρισή του. Από τη δεκαετία του περίοδος κατά την οποία έκαναν την εµφάνισή τους νέοι κίνδυνοι εξ αιτίας των νέων συνθηκών που διαµορφώθηκαν στην χρηµατοπιστωτική αγορά, όπως η µεταβλητότητα των παγκόσµιων αγορών χρήµατος και κεφαλαίου, η ελεύθερη διακίνηση κεφαλαίων και αγαθών κ.λπ.- ως σήµερα χρησιµοποιήθηκαν και χρησιµοποιούνται ποικίλες µέθοδοι. Γενικά στη βιβλιογραφία υπάρχουν αρκετές έρευνες γύρω από το πρόβληµα του πιστοληπτικού κινδύνου, για παράδειγµα ο Edward Altman το 1968, το 1974 ο Merton, οι εταιρείες Moody s και KMV που ασχολήθηκαν και ανέπτυξαν µοντέλο των Vasikek-Kealhofer, οι οποίοι µε τη σειρά τους είχαν βασιστεί στη µεθοδολογία των Black-Scholes και του Merton, επίσης, το 1997 η εταιρεία J.P.MORGAN ασχολήθηκε και εξέλιξε µοντέλα που βοηθούν στην επίλυση προβληµάτων πιστοληπτικού κινδύνου. Στο πλαίσιο της παρούσας εργασίας κυρίως επιδιώκουµε να παρουσιάσουµε την ανάγκη διερεύνησης της πρόβλεψης του πιστοληπτικού κινδύνου από τους Τραπεζικούς Οργανισµούς. Για τη µοντελοποίηση του προβλήµατος έχουµε συλλέξει και χρησιµοποιήσει δεδοµένα που αφορούν καταναλωτικά δάνεια, τα οποία ζητούνται καθηµερινά από ιδιώτες, µε διαφορετικά προσωπικά στοιχεία, όπως επάγγελµα, εισόδηµα, ηλικία, φύλο κ.λπ. από συγκεκριµένο κατάστηµα του Νοµού Χίου. Στο τέταρτο κεφάλαιο θα δούµε αναλυτικά όλες τις µεταβλητές του προβλήµατος µας και γιατί επιλέξαµε τις συγκεκριµένες, πάντα µε τη βοήθεια του υπεύθυνου λειτουργού της Τράπεζας. Η ανάλυση και επεξεργασία των δεδοµένων έχει γίνει µε ένα ιδιαίτερα προηγµένο εργαλείο τεχνητής νοηµοσύνης το πρόγραµµα WEKA 3.5.5, το οποίο αναπτύχθηκε στο Πανεπιστήµιο Waikato της Νέας Ζηλανδίας από τους ερευνητές Eibe Frank, Len Trigg και Mark Hall και θα δούµε αναλυτικά τη λειτουργία του στο τέταρτο κεφάλαιο της εργασίας µας.. Αυτό θα µας βοηθήσει στην πραγµατοποίηση διαφόρων αλγοριθµικών προσεγγίσεων µε στόχο τη συγκριτική αναζήτηση του καλύτερου µοντέλου πρόβλεψης του πιστοληπτικού κινδύνου. 11

12 Μελετήσαµε διακόσιους είκοσι (220) φακέλους ιδιωτών, εβδοµήντα τέσσερεις (74) από τους οποίους έχουν απορριφθεί και οι υπόλοιποι εκατό σαράντα έξι(146) έχουν γίνει δεκτοί από το τοπικό υποκατάστηµα Τραπεζικού Οργανισµού. Πιο συγκεκριµένα έχει γίνει εφαρµογή µεθοδολογίας αξιολόγησης µέσω επαναλαµβανόµενων δοκιµών σε άγνωστα δεδοµένα (cross validation), καθώς και αξιολογήσεις νέων άγνωστων δεδοµένων (holdout) για τη µελέτη της απόδοσης των αλγορίθµων. Το κύριο κριτήριο για την ανάλυση της απόδοσης και αξιοπιστίας των αλγορίθµων, εξάλλου, συνίσταται στη µελέτη των ποσοστών εσφαλµένης ταξινόµησης περιπτώσεων που υπολογίζονται για κάθε προσέγγιση. Στο πέµπτο κεφάλαιο αναλύουµε ένα-ένα αλγόριθµο, πώς αυτός λειτουργεί και αν είναι κατάλληλος για τη λύση του προβλήµατός µας. Σκοπός της παρούσας διπλωµατικής εργασίας είναι η εκτίµηση της απόδοσης διαφορετικών αλγορίθµων µηχανικής µάθησης στο θέµα της πρόβλεψης του πιστοληπτικού κινδύνου στους Τραπεζικούς Οργανισµούς. Οι αλγόριθµοι, όπως έχουµε προαναφέρει, έχουν υλοποιηθεί στο πρόγραµµα WEKA σε περιβάλλον προγραµµατισµού Java και χρησιµοποιούν πληθώρα µεθοδολογικών προσεγγίσεων από τον χώρο της τεχνητής νοηµοσύνης, όπως λ.χ. νευρωνικά δίκτυα, επαγωγικά δένδρα αποφάσεων, παραγωγή κανόνων απόφασης, γραµµική ή µη γραµµική παλινδρόµηση κ.ά.. Θα δούµε, αναλυτικά, τι είναι η Τεχνητή Νοηµοσύνη, τα Νευρωνικά ίκτυα, η Μηχανική Μάθηση, τα Έµπειρα Συστήµατα, η Ασαφής Λογική, η Πολυκριτήρια Ανάλυση, οι Μηχανές ιανυσµάτων Υποστήριξης, οι Γενετικοί Αλγόριθµοι, και ο Γενετικός Προγραµµατισµός στο τρίτο κεφάλαιο της εργασίας µας. Τέλος, στο έκτο κεφάλαιό µας αναλύουµε τους εξαγόµενους κανόνες που δηµιουργήθηκαν κατά τη διάρκεια του πρακτικού µέρους της εργασίας µας, ώστε να γίνουν πιο κατανοητά τα συµπεράσµατα που αποκοµίσαµε χρησιµοποιώντας το πρόγραµµα WEKA Οι κανόνες αυτοί χωρίζονται σε δύο κατηγορίες: α) η σύµβαση να έχει θετική τύχη, να γίνει δηλαδή το αίτηµα δεκτό από τον υπεύθυνο λειτουργό και β) η αρνητική τύχη σύµβασης, δηλαδή να µην γίνει δεκτό το αίτηµα. 12

13 ΚΕΦΑΛΑΙΟ 1 Ο Πιστοδοτική Πολιτική Ελληνικών Τραπεζικών Οργανισµών 1.1 Η σηµασία της ύπαρξης πιστοδοτικής πολιτικής Ένας Τραπεζικός Οργανισµός πρέπει να διαχειρίζεται το χαρτοφυλάκιο των χορηγήσεων του έτσι ώστε να εγγυάται τη ρευστότητα των καταθέσεων του, την κάλυψη των δαπανών λειτουργίας του και την κατοχύρωση της παραγωγικότητας των κοινωνικών πόρων που έχουν επενδυθεί σε αυτόν. Κατά συνέπεια οφείλει να αξιολογεί και να προκαθορίζει τους αποδεκτούς για τον οργανισµό κινδύνους, οι οποίοι πρέπει να είναι ανάλογοι µε τους χρηµατοοικονοµικούς πόρους και τις πιστοδοτικές του ικανότητες. Η ανάληψη κινδύνων αποτελεί ουσιαστικά το µεγαλύτερο µέρος της διαχείρισης των περιουσιακών στοιχείων του οργανισµού. Η υπεύθυνη διαχείριση των πόρων της οικονοµίας είναι ο στόχος που θα ορίσει την πολιτική του χαρτοφυλακίου και την ρευστότητα µέσα στον Τραπεζικό Οργανισµό. Τα δάνεια που χορηγούνται από τους Τραπεζικούς Οργανισµούς ποικίλουν ανάλογα µε τις κατηγορίες των δανειοληπτών, το χρόνο, τη µορφή, τις διαφοροποιήσεις των αγορών και τους όρους µε τους οποίους έχουν συµφωνηθεί. Κάθε δάνειο διαφέρει τόσο στη ρευστότητα όσο και στην ανάληψη κινδύνου. Στόχος των Τραπεζικών Οργανισµών είναι να υπάρχει όσο το δυνατόν θετική εξέλιξη των δανείων και κατά συνέπεια εξασφάλιση της ρευστότητας. Οι υπεύθυνοι των χορηγήσεων, σύµφωνα πάντα µε την πολιτική πιστοδοτήσεων του οργανισµού, έχουν σαν βασικό τους σκοπό να επιτυγχάνονται: οι στόχοι των εσόδων του οργανισµού, η κάλυψη των παραγωγικών πιστωτικών αναγκών του, η τήρηση των πιστωτικών κανόνων των Νοµισµατικών και λοιπών Αρχών της πολιτείας, η διαφύλαξη των πιστοδοτικών αρχών, η συγκράτηση των κινδύνων σε λογικά και αποδεκτά πλαίσια η ελαχιστοποίηση των ζηµιών και η αξιολόγηση των ευκαιριών για νέες εργασίες (ΕΜΠΟΡΙΚΗ ΤΡΑΠΕΖΑ, 1986) 13

14 Η επίτευξη των παραπάνω στόχων θα πρέπει να αποτελεί βασικό σκοπό, έτσι ώστε το µέγεθος των εργασιών χορηγήσεων να βρίσκεται σε ισορροπία µε την ποιότητά τους. Τα κέρδη από µια συναλλαγή θεωρούνται δευτερεύουσας σηµασίας σε σχέση µε την εξασφάλιση της αποπληρωµής του δανείου στο χρόνο που έχει συµφωνηθεί. Και αυτό γιατί η µη αποπληρωµή του δανείου συνεπάγεται τη µη είσπραξη της απόδοσής του. 1.2 ιαχείριση του χαρτοφυλακίου Το χαρτοφυλάκιο ενός Τραπεζικού Οργανισµού επιβάλλεται να διαφοροποιείται κατά το είδος κινδύνου, το δανειολήπτη, το αντικείµενο της επιχειρηµατικής δραστηριότητας και τη γεωγραφική εγκατάσταση των δανειοληπτών. Βασικό καθήκον των υπευθύνων λειτουργών για τις πιστοδοτήσεις σε κάθε αγορά είναι η εφαρµογή της ευρύτερης αρχής του καταµερισµού των κινδύνων. Ανάλογα, λοιπόν, µε την ποιότητα του κινδύνου της γεωγραφικής περιοχής του δανειολήπτη θα πρέπει να προσδιορίζεται και το ύψος του δανείου. Η γεωγραφική κατανοµή των κινδύνων ισχύει τόσο στην Ελλάδα όσο και στο εξωτερικό. Έχουν καθοριστεί, από αρµόδιες µονάδες, συνολικά όρια ανά γεωγραφική περιοχή και χώρα και όρια για κάθε είδος κινδύνου και αποτελούν οδηγό για τους υπεύθυνους λειτουργούς του Τραπεζικού Οργανισµού. Τα δάνεια χορηγούνται σε επιχειρήσεις ή και σε άτοµα, διαπραγµατεύονται, επίσης, από άτοµα. Για το λόγο αυτό σηµαντικό ρόλο παίζει ο χαρακτήρας του δανειολήπτη και συγκεκριµένα: το ήθος του η ακεραιότητά του ο επαγγελµατισµός του Τα παραπάνω αποτελούν στοιχεία που θα πρέπει να συνάδουν µε την πολιτική του Τραπεζικού Οργανισµού. Για την περαιτέρω ανάπτυξη του χαρτοφυλακίου του Τραπεζικού Οργανισµού θα πρέπει να ληφθεί υπόψη το επίπεδο ρευστότητας, το οποίο µε τη σειρά του είναι άµεσα εξαρτώµενο από τα µεγέθη των καταθέσεων και των κεφαλαίων της Τράπεζας. (ΕΜΠΟΡΙΚΗ ΤΡΑΠΕΖΑ, 1986). 14

15 Οι συνεχώς µεταβαλλόµενες συνθήκες, δηλαδή η οικονοµική συγκυρία, καθώς και άλλοι εξωτερικοί και εσωτερικοί παράγοντες, επιδρούν στο σύνολο των πιστοδοτήσεων της Τράπεζας. Το ύψος και το µέγεθος των χορηγήσεων που θα επιδιωχθούν από τον Τραπεζικό Οργανισµό αποτελεί ευθύνη των µονάδων πελατείας, οι οποίες λειτουργούν και λαµβάνουν αποφάσεις βάσει του ετήσιου προϋπολογισµού της τράπεζας, που συντάσσεται στα πλαίσια των αναπτυξιακών κατευθύνσεων της οικονοµίας. 1.3 Πιστωτική ανάγκη και µέσα κάλυψή της Οι Εµπορικές Τράπεζες στην Ελλάδα αποτελούν τον ακρογωνιαίο λίθο της οικονοµικής δραστηριότητας, καθώς είναι η βασική πηγή χρηµατοδότησης. Η πιστοδοτική δραστηριότητα των Εµπορικών Τραπεζών διαδραµατίζει σπουδαίο ρόλο στην ανάπτυξη της χώρας και θα πρέπει να οργανώνεται µε τέτοιον τρόπο ώστε να αποφεύγεται να λειτουργούν οι Εµπορικές Τράπεζες ως «χρηµατοδότες της τελευταίας στιγµής». Η σύνθεση των υποχρεώσεων της τράπεζας βασικά αποτελείται από βραχυπρόθεσµες καταθέσεις. Το ύψος και το είδος των χρηµατοδοτήσεων θα πρέπει να ακολουθεί τις ανάγκες του πελάτη, οι οποίες σε πολλές περιπτώσεις ξεκινούν µε βραχυπρόθεσµα τραπεζικά κεφάλαια, φτάνουν, όµως, σε µια µακροπρόθεσµη λύση. Για να προχωρήσει ένας Τραπεζικός Οργανισµός στη δανειοδότηση µιας επιχείρησης ή ενός ιδιώτη θα πρέπει να εξετάσει όλα τα απαιτούµενα στοιχεία που αφορούν τον δανειολήπτη, µε σκοπό την αποφυγή ενδεχόµενων κινδύνων. Κατά κύριο λόγο θα πρέπει να ερευνηθεί η πραγµατική πιστωτική ανάγκη του πελάτη, έτσι ώστε να εξασφαλιστεί η αποπληρωµή του δανείου. Ο υπεύθυνος λειτουργός οφείλει να ερευνά σε βάθος τις πραγµατικές ανάγκες του δανειζόµενου, όσον αφορά το ποσό, το σκοπό, το χρόνο, µε στόχο την αποφυγή πιστοδοτικού κινδύνου. Η αποπληρωµή του δανείου εξασφαλίζεται µε δύο τρόπους: α. από τα έσοδα της λειτουργίας που χρηµατοδοτήθηκε ή από τη συνολική δραστηριότητα του πελάτη (εφόσον υπάρχουν τα µέσα παραγωγής) β. από τα περιουσιακά στοιχεία της επιχείρησης (ήδη υπάρχοντα) 15

16 Τα παραπάνω στοιχεία θα πρέπει να βασίζονται σε αληθινές εκτιµήσεις, έτσι ώστε να διασφαλίζεται η εξυπηρέτηση των χορηγήσεων. Η τήρηση των κανόνων των Νοµισµατικών Αρχών αποτελεί απαραίτητη υποχρέωση της Τράπεζας, ώστε να ικανοποιούνται µε τη σειρά τους τα τραπεζικά κριτήρια χορήγησης των πιστώσεων (ΕΜΠΟΡΙΚΗ ΤΡΑΠΕΖΑ, 1986). 1.4 Ικανότητα επιλογής του κινδύνου Ο επικεφαλής κάθε διοικητικής µονάδας του Τραπεζικού Οργανισµού είτε αυτό είναι κατάστηµα, περιφέρεια ή κεντρική µονάδα είναι υπεύθυνος για τα προγράµµατα χορηγήσεων και θα πρέπει να γνωρίζει και να τηρεί προϋποθέσεις και όρους. Γι αυτό το λόγο οι υπεύθυνοι στα επίπεδα αυτά είναι υποχρεωµένοι να τηρούν πρόγραµµα στόχων κάλυψης κάθε αγοράς και να διαχωρίζουν τους δανειολήπτες σε επιθυµητούς και µη για τον Τραπεζικό Οργανισµό. Οι όροι χρηµατοδότησης θα πρέπει να καθορίζονται µε σαφήνεια, έτσι ώστε να είναι κατανοητή από τους αρµόδιους η σχέση κινδύνου και απόδοσης της χορήγησης και η τελευταία να διατηρείται σε ικανοποιητικό επίπεδο. Θα πρέπει, επίσης, να εποπτεύονται το µέγεθος και η εξέλιξη της χρηµατοδοτικής δραστηριότητας. Αυτά συντελούνται εφόσον η εµπειρία των υπευθύνων λειτουργών των πιστοδοτήσεων βρίσκεται στο σωστό επίπεδο. Επιπλέον, οι επικεφαλής φροντίζουν να µην υπάρχουν κενά ή µειονεκτήµατα κατά τη διαδικασία της πιστοδότησης, καθώς επίσης ο αριθµός των ατόµων που ασχολούνται µε τον τοµέα αυτό να ανταπεξέρχεται στις απαιτήσεις του όγκου των εργασιών. Κατανοώντας βασικές αρχές της πιστοδοτικής πολιτικής, δεν θα πρέπει να χορηγείται δάνειο εάν δεν έχουµε αποκοµίσει σαφή εικόνα του δανειζόµενου και της δραστηριότητάς του και αν ο υπεύθυνος λειτουργός στερείται σχετικής εµπειρίας. 1.5 Έγκριση και διαχείριση πιστοδοτήσεων πιστωτικά όρια εγκριτικές αρµοδιότητες Η πιστοδοτική πολιτική ενός Τραπεζικού οργανισµού καθορίζεται από το «Σύστηµα Πιστοδοτήσεων» του. Καθώς η νοµοθεσία για τις Τράπεζες θέτει ως ανώτατη 16

17 πιστωτική επέκταση στον ίδιο δανειολήπτη το ένα πέµπτο των κεφαλαίων του οργανισµού (ΕΜΠΟΡΙΚΗ ΤΡΑΠΕΖΑ, 1986). Είναι σαφές ότι η περαιτέρω επέκταση των χορηγήσεων δεν αποτελεί στόχο του. Αντίθετα γίνεται αντιληπτό ότι µε τον τρόπο αυτό αποφεύγεται η συγκέντρωση κινδύνων στους ίδιους δανειολήπτες. Η έγκριση των εκάστοτε πιστοδοτήσεων πραγµατοποιείται ύστερα από εισήγηση των υπεύθυνων λειτουργών, η οποία εξετάζεται από τη Μονάδα Εποπτείας Πίστεως. Αυτή ελέγχει την αρτιότητα και τη συµφωνία µε τους κανόνες των νοµισµατικών αρχών των αιτουµένων πιστοδοτήσεων. Η όλη διαδικασία στοχεύει στο να εφαρµόζεται µια ενιαία πιστοδοτική πολιτική σε ολόκληρο τον οργανισµό. Υπευθυνότητα λειτουργών Το στέλεχος το οποίο θα αναλάβει την άσκηση της εργασίας του λειτουργού των πιστοδοτήσεων θα πρέπει να έχει άριστη γνώση της δανειακής συναλλαγής, καθώς επίσης να είναι επαρκώς ενηµερωµένος/η σχετικά µε το δανειζόµενο. Θα πρέπει να είναι σε θέση να αξιολογεί τους κινδύνους που συνεπάγεται η σύναψη δανείου µε το συγκεκριµένο άτοµο. Αυτό θα επιτευχθεί ύστερα από τη διεξοδική διερεύνηση, από τουλάχιστον δύο διαφορετικές πηγές, της δυνατότητας αποπληρωµής του δανείου από τον εν λόγω δανειολήπτη. Τέλος, το στέλεχος που αναλαµβάνει τις πιστοδοτήσεις πρέπει να µην µένει µόνο στις κατευθυντήριες γραµµές, όπως αυτές ορίζονται από το «Σύστηµα Πιστοδοτήσεων», αλλά χρησιµοποιώντας την κοινή λογική και σωστή κρίση να προβαίνει υπεύθυνα στην εκτίµηση των πιθανών κινδύνων που ενέχει η συγκεκριµένη συναλλαγή, συµβουλευόµενο και τους υπόλοιπους συνεργάτες του. Σηµαντικό ρόλο παίζει η εκτίµηση της οικονοµικής συγκυρίας, καθώς επίσης και η παρακολούθηση της συµπεριφοράς των ανταγωνιστών. Η αξιολόγηση του λειτουργού και ο χαρακτηρισµός του ως «ικανοποιητικός» θα πρέπει να αποτελεί κανόνα για την εύρυθµη και προσοδοφόρα λειτουργία του οργανισµού. ιαφορετικά, οι επιπτώσεις για τον οργανισµό θα είναι αρνητικές όσον αφορά στην πιστοδοτική του λειτουργία και στα αποτελέσµατα χορηγήσεων. Παρακολούθηση εξυπηρέτηση πιστοδοτήσεων Ο υπεύθυνος λειτουργίας ή το στέλεχος χορηγήσεων είναι υποχρεωµένο να γνωρίζει αρκετά καλά όλους τους κλάδους της οικονοµίας, να είναι διορατικός και 17

18 προνοητικός, καθώς επίσης να είναι σε θέση να διαχειρίζεται τον πιστωτικό κίνδυνο και να τον προλαµβάνει. Επίσης, να ξεχωρίζει µεταξύ επιχειρήσεων ποιες είναι παραγωγικές, ώστε να συµβάλλουν θετικά στην οικονοµία και τόσο η ρευστότητα όσο και η απόδοση τους να βρίσκονται σε επίπεδο ικανοποιητικό για το σύνθετο τραπεζικό κριτήριο. Ο υπεύθυνος λειτουργός είναι υποχρεωµένος να παρακολουθεί συχνά τις προβληµατικές πιστοδοτήσεις και να τις ταξινοµεί. Όσο καλός και να είναι κάποιος στον τοµέα των δανείων δεν θα πρέπει να ξεχνά τις αρνητικές πιθανές καταλήξεις τους. Ο Τραπεζικός Οργανισµός είναι υποχρεωµένος να γνωρίζει το σκοπό για τον οποίο θα δοθεί το δάνειο, είτε είναι βραχυπρόθεσµο ή µακροπρόθεσµο είτε µε κάλυψη ή χωρίς. Σίγουρα, χρηµατοδοτήσεις µε σκοπό τη δηµιουργία κυκλοφορούντων στοιχείων προτιµούνται λόγω της απόδοσης υψηλής ρευστότητας. Οι χρηµατοδοτήσεις αυτές έχουν µεγαλύτερο ρίσκο, γιατί όταν η ρευστότητά τους µειωθεί θα πρέπει η αποπληρωµή τους να γίνει από µη κυκλοφορούντα στοιχεία και θα πρέπει να παραταθούν τα χρονικά τους όρια (ΕΜΠΟΡΙΚΗ ΤΡΑΠΕΖΑ, 1986). Η Τράπεζα και ο δανειολήπτης συµφωνούν ένα πρόγραµµα όρων αποπληρωµής του δανείου που να είναι πραγµατοποιήσιµο. Θα πρέπει να παρακολουθείται και να ελέγχεται συχνά, ώστε να µην αποκλίνει από το συµφωνηθέν. Είναι σηµαντικός και ο έλεγχος ως προς την ικανοποιητική υλοποίηση του σκοπού για τον οποίο δόθηκαν οι χορηγήσεις, ώστε να είµαστε σίγουροι για την έγκαιρη και δυνατή αποπληρωµή τους. Τύποι πιστοδοτήσεων Οι πιστοδοτήσεις ταξινοµούνται στις παρακάτω κατηγορίες και θα πρέπει να πληρούν τις συνθήκες σωστής χρηµατοδότησης και να ικανοποιούν τα κριτήρια χορηγήσεων της Τράπεζας. Ειδικότερα : (α) Οι βραχυπρόθεσµες και µακροπρόθεσµες στο εµπόριο και στη µεταποίηση, µε ή χωρίς ειδική κάλυψη. (β) Τα καταναλωτικά δάνεια. (γ) Τα δάνεια σε γεωργικές επιχειρήσεις. (δ) Οι πιστώσεις σε κρατικές επιχειρήσεις και οργανισµούς. (ε) Οι χρηµατοδοτήσεις που γίνονται µε ενεχυρίαση απαιτήσεων και αποθεµάτων. (στ) Η χρηµατοδότηση έργων είναι ένας τοµέας που απαιτεί µεγάλη πείρα. (ζ) Η χρηµατοδότηση εισαγωγών και εξαγωγών. 18

19 1.6 Χρηµατοδοτικά προβλήµατα Οι αιτίες και τα χαρακτηριστικά που προκαλούν προβλήµατα στις πιστοδοτήσεις µπορούν να ταξινοµηθούν στις εξής οµάδες: πιστώσεις που χορηγήθηκαν χωρίς να τηρηθούν σωστά τα βασικά πιστωτικά κριτήρια. Λόγω του ανταγωνισµού οι υπεύθυνοι λειτουργοί γίνονται πιο ελαστικοί ως προς τους πιστοδοτικούς κανόνες και δεν αναγνωρίζουν τους πιθανούς οικονοµικούς κινδύνους. στελέχη που είναι υπεύθυνα για τις χορηγήσεις δεν είναι αρκετά και συγχρόνως δεν έχουν την εµπειρία και πιθανόν την εκπαίδευση, ώστε να ανταπεξέλθουν στον ανταγωνισµό των πιστωτικών αγορών. προβλήµατα που προήλθαν από την ελλιπή τήρηση των πιστωτικών διαδικασιών. οριακά δάνεια που εξελίχθηκαν σε προβληµατικά. µη επαρκής παρακολούθηση της επέκτασης των περιουσιακών στοιχείων εξάρτηση της αποπληρωµής από συνεχιζόµενη οικονοµική ανάπτυξη και αύξηση κερδών. αποτυχία του δανειστή να κατανοήσει πλήρως και να εκτιµήσει σωστά τις διοικητικές ικανότητες του δανειολήπτη σε ό,τι αφορά την πραγµατοποίηση των προβλεπόµενων αποτελεσµάτων. η µη εξισορρόπηση των ικανοτήτων παραγωγής και πωλήσεων µε τις αντίστοιχες οικονοµικής διαχείρισης και προγραµµατισµού. περιπτώσεις κατά τις οποίες ο υπεύθυνος λειτουργός ταυτίζει το µέγεθος και την πολυπλοκότητα µιας επιχείρησης µε την αξιοπιστία της. η απαιτητικότητα και η έλλειψη συνεργασίας από τη µεριά του οφειλέτη. οι µεταβολές στην έµφαση και τους στόχους µιας επιχείρησης. οι µεταβολές των οικονοµικών συνθηκών. Η υπερβολική στήριξη σε ενέχυρα που αποδεικνύονται µη ρευστοποιήσιµα. ο όγκος των εργασιών, που ανταποκρίνεται στα πιστωτικά κριτήρια, δεν έχει τα κατάλληλα µέσα για την διαχείρισή του (ΕΜΠΟΡΙΚΗ ΤΡΑΠΕΖΑ, 1986). 19

20 Συµπερασµατικά πρέπει να πούµε ότι τα ανεπαρκή δάνεια γίνονται συνήθως σε περιόδους ευµάρειας. Όταν λοιπόν η πιστωτική αγορά είναι σε ύφεση θα πρέπει τα στελέχη των χορηγήσεων να ενεργούν µε περίσκεψη και σύνεση και να εκµεταλλεύονται τότε τις ευκαιρίες των πιστοδοτήσεων. Είναι σηµαντικό στο σηµείο αυτό να αναφέρουµε ότι στις µέρες µας το ποσοστό χορηγήσεων έχει µειωθεί αρκετά λόγω της αυστηροποίησης του συστήµατος και ανέρχεται σε ποσοστό 50%, ενώ πριν 3 χρόνια περίπου ανερχόταν στο 65%. Βέβαια θα πρέπει να ληφθεί υπόψη και το γεγονός ότι και ο αριθµός των νέων αιτήσεων χορήγησης δανείων έχει µειωθεί κατά 30%. Οι προαναφερόµενες πληροφορίες µας µεταφέρθηκαν από τον υπεύθυνο λειτουργό του Τραπεζικού Οργανισµού που συνεργαστήκαµε στο πλαίσιο της διπλωµατικής µας εργασίας. 20

21 ΚΕΦΑΛΑΙΟ 2 Ο ιαχείριση του Πιστωτικού Κινδύνου Η καταναλωτική πίστη τα τελευταία χρόνια είναι ένας από τους πιο κερδοφόρους τραπεζικούς τοµείς. Προκειµένου να εξυπηρετηθούν οι καταναλωτικές συνήθειες του µέσου ανθρώπου, συχνά τον οδηγούν σε συµφωνία για την αγορά κάποιου πιστωτικού προϊόντος από ένα Τραπεζικό Οργανισµό. Το προϊόν αυτό χαρακτηρίζεται από µια µικρού χρονικού διαστήµατος σχέση µεταξύ πελάτη και Τράπεζας σε αντίθεση µε άλλα τραπεζικά προϊόντα. Ο ανταγωνισµός των Τραπεζικών Οργανισµών δηµιουργεί όλο και περισσότερα προϊόντα καταναλωτικής πίστης, τα οποία φαίνονται να είναι σε όφελος του πελάτη. Το χαρακτηριστικό των προϊόντων αυτών είναι τα υψηλά κέρδη αλλά και η υψηλή επικινδυνότητα. Για το λόγο αυτό η Τράπεζα πρέπει να διαχειρίζεται σωστά τους κινδύνους, ώστε να αποτελέσουν πηγή εσόδων και να αποφύγει τις ζηµίες. Άλλωστε, απώτερος σκοπός µιας Τράπεζας είναι η µεγιστοποίηση του κέρδους. 2.1 Πιστωτικός Κίνδυνος Οι χορηγήσεις στην καταναλωτική πίστη, σε όποια µορφή και αν βρίσκονται, κρύβουν πιστωτικό κίνδυνο, ο τραπεζικός οργανισµός δηλαδή να µην εισπράξει το ποσό, που έχει συµφωνηθεί, από τον πελάτη, αφού ο τελευταίος θα έχει παραβεί τους όρους της συµφωνίας. Η πιθανότητα µη αποπληρωµής του δανείου από τον δανειζόµενο εκφράζει τον πιστωτικό κίνδυνο. Η τράπεζα έχει την δυνατότητα µε τη χρήση µοντέλων βαθµολόγησης πιστοληπτικής ικανότητας να µετρήσει τον κίνδυνο που υπάρχει µε την έγκριση του δανείου. Κάθε τράπεζα εγκρίνει ή απορρίπτει δάνειο σύµφωνα µε το µέγεθος του κινδύνου που θέλει και µπορεί να αναλάβει. Τρείς είναι οι βασικές ενέργειες κατά τις οποίες εντοπίζεται ο πιστωτικός κίνδυνος: η αξιολόγηση των αιτήσεων για να σιγουρευτεί ο τραπεζικός οργανισµός αν ο δανειολήπτης έχει την κατάλληλη πιστοληπτική ικανότητα ή όχι. η επιλογή των ατόµων βάσει κριτηρίων που θα επιτρέπουν σωστή διαχείριση του κινδύνου αυξήσεις πιστωτικών ορίων και ανανεώσεις πιστωτικών καρτών. (Αδρακτάς, Αναγνωστόπουλος, 2004) 21

22 2.2 Εργαλεία ιαχείρισης Πιστωτικού Κινδύνου Μοντέλα βαθµολόγησης πιστοληπτικής ικανότητας, βάσει στοιχείων (application credit scoring models): Τα εν λόγω µοντέλα χρησιµοποιούνται προκειµένου να εκτιµηθεί η επιθυµία αποπληρωµής (willingness to pay). Στηρίζονται σε στατιστικά µοντέλα, τα οποία συσχετίζουν στοιχεία µε την παρατηρούµενη συµπεριφορά αποπληρωµών. Χρησιµοποιούνται κυρίως για νέους δανειολήπτες, όταν δεν υπάρχουν άλλα στοιχεία για να εκτιµηθεί η πιστοληπτική ικανότητα του αιτούντος. Ονοµάζονται και αλλιώς παραµετρικές τεχνικές, οι οποίες περιλαµβάνουν στατιστικές και οικονοµετρικές µεθόδους και αποτελούν τον «παραδοσιακό» τρόπο αντιµετώπισης του προβλήµατος. Τέτοια µοντέλα, σύµφωνα µε τους ερευνητές (Ζοπουνίδης, Λεµονάκης, 2009) είναι: Α. Τα µοντέλα γραµµικής πιθανότητας: τέτοιου τύπου µοντέλα χρησιµοποιούν δεδοµένα πιστοληπτικής συµπεριφοράς παλαιοτέρων δανείων ιδιωτών για να ερµηνεύσουν τη συνέπεια και τη συµπεριφορά του πιστούχου. Τα συγκεκριµένα µοντέλα έχουν σαν κύρια ιδέα το διαχωρισµό των παλαιών δανείων που παρουσίαζαν επισφάλειες (Zi=1) και εκείνα που εξυπηρετήθηκαν κανονικά (Ζi =0). Το µοντέλο γραµµικής παλινδρόµησης µας δίνει την εξής συνάρτηση: Z = α1x1 + α2x αnxn Όπου Ζ = µια διακριτή µεταβλητή που παίρνει τιµές 1, όταν ο πιστούχους αθετεί τις υποχρεώσεις του και 0 όταν ο πιστούχος ανταποκρίνεται στης υποχρεώσεις του. Το α είναι οι προκαθορισµένοι συντελεστές βαρύτητας και το χ οι χρηµατοοικονοµικοί δείκτες που επιλέχθηκαν. Β. Το µοντέλο LOGIT: είναι µοντέλο που περιορίζει το εκτιµώµενο διάστηµα της πιθανότητας ασυνέπειας να κυµαίνεται από 0 µέχρι 1. Εδώ χρησιµοποιείται η λογαριθµική κατανοµή και η λογιστική εκτίµηση υποθέτει ότι η πιθανότητα ασυνέπειας καθορίζεται από την συνάρτηση 22

23 F(Ζ) = 1 / (1 e Z) όπου Ζ = το Ζ-score του πιστούχου και e η βάση του Νεπερίου λογαρίθµου. Όταν το F(Z) παίρνει ψηλές τιµές τότε τείνει στο 1 και όταν το F(Z) παίρνει χαµηλές τιµές τότε τείνει στο 0. Γ. Το µοντέλο PROBIT: είναι η εναλλακτική προσέγγιση στο µοντέλο LOGIT και χρησιµοποιεί την αθροιστική κανονική κατανοµή για τη σχέση F(Z). Έχει ως µέσο το 0 και µοναδιαία διακύµανση. Κι εδώ το οριακό αποτέλεσµα για κάθε µεταβλητή δεν είναι σταθερό. Εξαρτάται από την αξία του F(Z), το οποίο εξαρτάται από τις τιµές των επεξηγηµατικών µεταβλητών. Έχει παρόµοια αποτελέσµατα µε την LOGIT, όµως τα άκρα τους είναι διαφορετικά όταν το δείγµα δεν είναι ισοσκελισµένο.. Το µοντέλο διακριτικής ανάλυσης ( Discriminant Analysis ): είναι τεχνική ταξινόµησης των πιστούχων σε δύο κατηγορίες, ανάλογα µε τα χαρακτηριστικά κάθε κατηγορίας ( π.χ. σε επισφαλείς και µη επισφαλείς δανειολήπτες). Ο κανόνας που θέλουµε να προσδιοριστεί από το δείγµα µας είναι εκείνος που θα προσδίδει τη µεγαλύτερη δυνατή διάκριση σε νέα δείγµατα. Η µεγιστοποίηση των διακυµάνσεων µεταξύ των δύο κατηγοριών και ταυτόχρονα η ελαχιστοποίηση των διακυµάνσεων µέσα σε κάθε κατηγορία ξεχωριστά είναι κριτήριο εκτίµησης. Αφού υπολογιστεί το Z-score όλων των πιστούχων, κατατάσσονται µε αύξουσα σειρά και επιλέγεται το σηµείο διαχωρισµού (cut-off point), το οποίο διακρίνει καλύτερα τις δύο κατηγορίες, συνήθως το µέσο Ζ των µέσων Z-scores της κάθε κατηγορίας. Για κάθε νέο πιστούχο υπολογίζεται το Z-score και ανάλογα ταξινοµείται στην κατάλληλη κατηγορία. Είναι σηµαντικό να αναφέρουµε εδώ ότι ο Edward Altman χρησιµοποίησε τη στατιστική τεχνική της διακριτικής ανάλυσης για την πρόβλεψη των πτωχεύσεων το 1968 (Altman, 2000). Ήταν τότε βοηθός καθηγητής των οικονοµικών στο NEW YORK UNIVERSITY κι εκεί ανέπτυξε ένα µοντέλο πολλών µεταβλητών για την πρόγνωση των πτωχεύσεων, το Z-score. Το µοντέλο αυτό έδινε την δυνατότητα σε µια επιχείρηση να ξέρει αν θα πτωχεύσει ή όχι το αργότερο µέσα σε δύο χρόνια. Πολλοί ερευνητές αφιέρωσαν χρόνο σε προσπάθειες βελτίωσής του. Το 1977, οι 23

24 Altman Haldeman & Narayanan κατασκεύασαν ένα βελτιωµένο µοντέλο στηριζόµενοι στο αρχικό Z-score, το οποίο ονοµάστηκε ZETA Model. Πιο αναλυτικά ο Altman επέλεξε δείγµα από 33 βιοµηχανικές επιχειρήσεις µε χρηµατοοικονοµικά προβλήµατα και 33 επιχειρήσεις του ίδιου τοµέα χωρίς χρηµατοοικονοµικά προβλήµατα. οκίµασε την προβλεπτική ικανότητα 22 χρηµατοοικονοµικών δεικτών και µόνο οι 5 βρέθηκαν ικανοί να ερµηνεύσουν τη χρεοκοπία που επακολούθησε. Αν και η φόρµουλα του Altman δέχτηκε επικρίσεις, χρησιµοποιείται εδώ και είκοσι πέντε χρόνια σε πολλούς οικονοµικούς τοµείς εκτός από τη πρόβλεψη πτώχευσης µιας εταιρίας, προβλέπει και για την πορεία µιας µετοχής, οµολόγου, παραγώγου και άλλων. Ο Edward Altman χρησιµοποίησε τη γραµµική συνάρτηση: Ζ = 0,012*x1 + 0,014*x2+ 0,033*x3 + 0,006*x4 + 0,999*x5 Όπου: Ζ = το Z-score του πιστούχου x1 = Κεφάλαιο κίνησης / Σύνολο ενεργητικού x2 = Παρακρατηθέντα κέρδη / Σύνολο ενεργητικού x3 = Κέρδη προ φόρων και τόκων / Σύνολο ενεργητικού x4 = Αγοραία τιµή µετοχών / Λογιστική αξία υποχρεώσεων x5 = Πωλήσεις / Σύνολο ενεργητικού Οι εταιρίες που εµφανίζονται µε Ζ > 2,99 κατατάσσονται στις υγιείς επιχειρήσεις χωρίς σφάλµα ταξινόµησης, ενώ οι εταιρίες µε Ζ < 1,81 χαρακτηρίζονται προβληµατικές. Η περιοχή 1,81 < Ζ < 2,99 ορίστηκε ως «περιοχή άγνοιας» (zone-of-ignorance), για τις τιµές Ζ οι οποίες εµφανίζουν σφάλµατα ταξινόµησης. Ως σηµείο διαχωρισµού (cut off score) ορίστηκε η τιµή 2,675 ως η καταλληλότερη, αργότερα όµως σε µελέτες του 1999 συµπεραίνει ότι το σηµείο 1,81 είναι πιο ρεαλιστικό από το 2, Αργότερα ο Altman (1983) τροποποίησε τη µεταβλητή x4 αντικαθιστώντας την Αγοραία τιµή µετοχών (Market value of equity) µε τη Λογιστική αξία των ιδίων κεφαλαίων (Book value of equity). H νέα συνάρτηση είχε ως εξής: Ζ = 0,717*x1 + 0,847*x2 + 3,107*x3 + 0,420*x4 + 0,998*x5 Στο τροποποιηµένο Ζ score το σηµείο διαχωρισµού είναι η τιµή 1,23, ενώ το διάστηµα 1,23 έως 2,90 είναι η γκρι ζώνη ή περιοχή άγνοιας. Το µοντέλο Zeta model αναπτύχθηκε µε σκοπό να συµπεριληφθούν όλα τα νεότερα διαθέσιµα στοιχεία ( ) για την πτώχευση των επιχειρήσεων. Το νέο 24

25 δείγµα που χρησιµοποιήθηκε περιλάµβανε εταιρίες µε µέσο ύψος ενεργητικού 100 εκατ. δολάρια, δύο χρόνια πριν από την πτώχευση τους, οι οποίες δεν ήταν µόνο βιοµηχανικές επιχειρήσεις, αλλά και εµπορικές. Το νέο µοντέλο αποδείχτηκε ότι µπορούσε να ταξινοµήσει σωστά τις εταιρίες που πτώχευσαν, χρησιµοποιώντας στοιχεία έως και 5 χρόνια πριν από την πτώχευση. Οι µεταβλητές που χρησιµοποιήθηκαν ήταν οι εξής : x1 = Αποδοτικότητα ενεργητικού x2 = Σταθερότητα κερδοφορίας x3 = ιαχείριση χρέους x4 = Σωρευτική κερδοφορία x5 = Ρευστότητα x6 = Κεφαλαιοποίηση x7 = Μέγεθος Ως σηµείο διαχωρισµού ορίζεται το -0,337, το οποίο ανάλογα µε τις γενικότερες συνθήκες και την κρίση του αναλυτή µπορεί να µεταβληθεί. Πλεονέκτηµα του Zeta έναντι του Z-score είναι τα καλύτερα αποτελέσµατα που δίνει, ιδίως, όσο αποµακρυνόµαστε από τη στιγµή της πτώχευσης. Σε αυτό το σηµείο θα αναφέρουµε τα κυριότερα µοντέλα για τη βαθµολόγηση της πιστοληπτικής ικανότητας των δανειοληπτών που χρησιµοποιούνται σε διεθνές επίπεδο είναι τα εξής έξι (Ζοπουνίδης, Λεµονάκης, 2009): Α. το µοντέλο του Merton Β. Moodys KMV MODEL Γ. Μοντέλα πιστωτικής διαβάθµισης. Μαρκοβιανά µοντέλα Ε. Credit Metrics Στ. Μοντέλα πυκνότητας Μοντέλα βαθµολόγησης συµπεριφοράς (behavior scoring models): Είναι αρκετά ισχυρά εργαλεία εκτίµησης του πιστωτικού κινδύνου και η κατασκευή τους στηρίζεται σε στατιστικά µοντέλα, τα οποία συσχετίζουν στοιχεία συµπεριφοράς ή άλλων στατιστικών στοιχείων του πελάτη (π.χ. χρόνος παρουσίας στο χαρτοφυλάκιο, τρόπος χρήσης της κάρτας κ.λπ.) µε το υπό µελέτη χαρακτηριστικό που επιθυµούµαι να προβλέψουµε (π.χ. την πιθανότητα αποχώρησης από το χαρτοφυλάκιο ή την 25

26 πιθανότητα αθέτησης µιας πληρωµής τους επόµενους 6 µήνες). Τα εν λόγω µοντέλα χρησιµοποιούνται για την εκτίµηση της πιστοληπτικής ικανότητας υφιστάµενων πελατών. Τα µοντέλα αυτά µε ακρίβεια προβλέπουν τη µελλοντική συµπεριφορά ενός πελάτη ή µιας οµάδας πελατών (σε ένα δεδοµένο χρονικό διάστηµα). Η διαδικασία αυτή δίνει τη δυνατότητα στους τραπεζικούς οργανισµούς να κατατάσσουν σε διάφορες κατηγορίες (segments) τους πελάτες τους. Η σηµασία των µοντέλων αυτών είναι τεράστια για τα σηµερινά τραπεζικά στελέχη που καλούνται να παρακολουθούν το βαθµό έκθεσης του χαρτοφυλακίου τους στον πιστωτικό κίνδυνο, αλλά και να διαχειρίζονται τα κεφάλαια που αναλογούν στον προϋπολογισµό του τµήµατός τους µε το βέλτιστο δυνατό τρόπο. Στα πλεονεκτήµατα των µεθόδων αυτών συγκαταλέγονται: o η ταχύτητα, οι αποφάσεις απαιτούν ελάχιστους χρόνους o η αµεροληψία, τα ίδια κριτήρια εφαρµόζονται για όλους τους δανειολήπτες o η συνέπεια, η σχετική βαρύτητα των κριτηρίων παραµένει σταθερή o ο άµεσος έλεγχος της πιστοδοτικής πολιτικής o ο περιορισµός των κινδύνων. Η ισχύς των µεθοδολογιών αυτών µπορεί να επηρεαστεί αρνητικά από την κακή ποιότητα των δεδοµένων, καθώς και από τη µεροληψία δειγµατοληψίας. Με τη σταδιακή µείωση των περιθωρίων κέρδους γίνεται πιο επιτακτική η ανάγκη για την πλήρη αξιοποίηση των credit & behavioural scoring µεθοδολογιών που θα συντελέσουν στην ορθολογική ανάπτυξη των δανειακών χαρτοφυλακίων των τραπεζικών ιδρυµάτων. Η παρακολούθηση των πιστωτικών κινδύνων εκτείνεται σε όλα τα στάδια της πιστωτικής πολιτικής µιας τράπεζας, από την προσέλκυση πελατών έως και την ανάκτηση απαιτήσεων σε οριστική καθυστέρηση. Εποµένως, βρίσκεται σε άµεση συνάρτηση µε τµήµατα των τραπεζικών ιδρυµάτων, όπως αυτά του Marketing, της εξυπηρέτησης πελατών, της είσπραξης καθυστερηµένων απαιτήσεων. Κρίσιµο σηµείο στη διαχείριση των πιστωτικών κινδύνων και γενικότερα στις εργασίες της καταναλωτικής πίστης αποτελεί η ύπαρξη οργανωµένων πελατοκεντρικών βάσεων δεδοµένων, που θα είναι σε θέση να υποστηρίξουν τις όποιες αποφάσεις. Εσωτερικό σύστηµα διαβαθµίσεως πελατών (grading system) Το σύστηµα αυτό µε τη βοήθεια συγκεκριµένων κριτήριων κατατάσσουν τους πελάτες σε συγκεκριµένες κατηγορίες επικινδυνότητας. 26

27 Αναζήτηση οικονοµικών στοιχείων του αιτούντα από βάσεις δεδοµένων. Με αυτόν τον τρόπο µπορεί κάθε τραπεζικός οργανισµός να ξέρει τη θέση του πελάτη του στην αγορά τη συγκεκριµένη στιγµή, καθώς και τα τυχόν δυσµενή οικονοµικά του στοιχεία. Άλλοι τρόποι,ώστε να µπορέσει ο τραπεζικός οργανισµός να µειώσει τον πιστωτικό κίνδυνο, είναι η εξασφάλιση του δανείου είτε µε τη λήψη εγγυητή είτε µε προκαταβολή, αφού βέβαια υποβληθεί η αίτηση του πελάτη (Αδρακτάς, Αναγνωστόπουλος, 2004). 27

28 ΚΕΦΑΛΑΙΟ 3 ο Τεχνητή Νοηµοσύνη 3.1 Τεχνητή Νοηµοσύνη Οι αλγόριθµοι τα τελευταία χρόνια χρησιµοποιούνται όλο και περισσότερο εξαιτίας της εισβολής των ηλεκτρονικών υπολογιστών στην καθηµερινότητά µας. Βοηθούν τον άνθρωπο στην προσπάθειά του να αναπτύξει τους ηλεκτρονικούς υπολογιστές σε επίπεδο ανθρώπινου εγκεφάλου, έτσι ώστε να λειτουργούν µε τον ίδιο τρόπο. υστυχώς όµως δεν έχει ακόµα επιτευχθεί ο στόχος αυτός µε αποτέλεσµα να µην υπάρχουν µηχανές, οι οποίες να µπορούν να επικοινωνήσουν µε τον άνθρωπο, ανταλλάσοντας πληροφορίες και µαθαίνοντας από τα λάθη τους, όπως ακριβώς θα έκανε ένα νοήµων ον. Η περιοχή έρευνας που ασχολείται µε αυτά τα προβλήµατα ονοµάζεται Τεχνητή Νοηµοσύνη (Artificial Intelligence) και ορίζεται ως η µελέτη των τεχνικών που η εφαρµογή τους θα επιτρέψει σε έναν υπολογιστή να συµπεριφέρεται, όπως ο ανθρώπινος εγκέφαλος. Οι µη-παραµετρικές τεχνικές αυτές χαρακτηρίζονται από αυξηµένη ευελιξία, καθώς µπορούν να προσαρµόζονται ανάλογα µε το δείγµα, είτε ως γραµµικά είτε ως µη γραµµικά υποδείγµατα ταξινόµησης. Οι σηµαντικότερες από τις τεχνικές αυτές είναι οι εξής έξι (Ζοπουνίδης, Λεµονάκης, 2009): Νευρωνικά ίκτυα (Neural Networks) Τα Νευρωνικά ίκτυα (Γιαλκέτση, 2005) ή Τεχνητά Νευρωνικά ίκτυα είναι ένας κλάδος της τεχνητής νοηµοσύνης και αποτελούν µια επιστηµονική προσπάθεια προσοµοίωσης του τρόπου λειτουργίας του ανθρώπινου εγκεφάλου όταν αυτός επεξεργάζεται διάφορα ερεθίσµατα, τα οποία λαµβάνει µέσω των αισθητήρων του ανθρώπινου σώµατος. Έχουν την ικανότητα να εκτελούν υπολογισµούς µε µαζικό παράλληλο τρόπο και η αρχιτεκτονική τους βασίζεται στην αρχιτεκτονική των Βιολογικών Νευρωνικών ικτύων, καθώς χρησιµοποιούν δοµές και διαδικασίες που µιµούνται τις αντίστοιχες του ανθρώπινου εγκέφαλου. Ένα τυπικό Νευρωνικό ίκτυο απαρτίζεται από: 28

29 o Ένα επίπεδο εισόδου, το οποίο αποτελείται από «κόµβους», ένα για κάθε κριτήριο, o Ένα επίπεδο εξόδου, το οποίο αποτελείται από ένα αριθµό κόµβων, ο οποίος όταν το νευρωνικό δίκτυο χρησιµοποιείται ως τεχνική ταξινόµησης, είναι ίσος µε τις κατηγορίες ταξινόµησης (π.χ. συνεπείς και ασυνεπείς δανειολήπτες) και o Μία σειρά ενδιάµεσων επιπέδων που και αυτά µε τη σειρά τους αποτελούνται από κόµβους εδοµένων των πλεονεκτηµάτων τους πολλές φορές µας δίνουν καλύτερα αποτελέσµατα από τις στατιστικές ή τις οικονοµετρικές τεχνικές, ιδιαίτερα όταν η πολυπλοκότητα του προβλήµατος αυξάνει (όταν υπάρχει µεγάλος αριθµός κατηγοριών πιστωτικού κινδύνου και κριτηρίων αξιολόγησης). Η αποτελεσµατικότητα των νευρωνικών δικτύων ως εναλλακτικής τεχνικής ταξινόµησης έναντι των παραµετρικών τεχνικών αµφισβητείται, εξαιτίας συγκεκριµένων µειονεκτηµάτων τους (π.χ. η βασική συνάρτηση προσεγγίζεται, αλλά δεν γίνεται γνωστή, είναι δύσκολη η επεξήγηση των σχέσεων που χαρακτηρίζουν τις παραµέτρους των δικτύων και η συµβολή τους στο εξαγόµενο αποτέλεσµα, συνεπάγονται υψηλό υπολογιστικό φόρτο). Μάθηση των Τεχνητών Νευρωνικών ικτύων Πολύ σηµαντικό είναι να γνωρίζουµε περισσότερα πράγµατα για τη µάθηση των Τεχνητών Νευρωνικών ικτύων και τα πλεονεκτήµατα τους. Ένα ΤΝ αναπτύσσεται για να αναγνωρίζει πρότυπα και να ταξινοµεί δεδοµένα. Για να λειτουργήσει, µε αυτό τον τρόπο, απαιτείται πρώτα η εκπαίδευσή του. Η µάθηση των ΤΝ προσοµοιάζει αυτή του ανθρώπινου εγκεφάλου. ηλαδή, τα ΤΝ µαθαίνουν, τροφοδοτώντας τα µε παραδείγµατα. Αφού λοιπόν στο ΤΝ δοθεί µια σειρά από σήµατα εισόδων και των αντίστοιχων εξόδων και διερευνηθούν τα βάρη (είναι οι άγνωστοι παράµετροι που εκτιµώνται µέσω µιας διαδικασίας εκπαίδευσης) που συνδέουν τους νευρώνες επιτυγχάνεται η ελαχιστοποίηση του σφάλµατος ανάµεσα στην πραγµατική έξοδο του δικτύου και σε αυτήν που αναµένεται. 29

30 Χρησιµοποιώντας τους αλγόριθµους ή αλλιώς «κανόνες µάθησης» τροφοδοτούµε το δίκτυο µε το πρότυπο εισόδων-εξόδων, κατά τη διάρκεια της µάθησης, έτσι ώστε για κάθε διάνυσµα εισόδου να έχουµε το αντίστοιχο διάνυσµα εξόδου. Ο δηµοφιλέστερος από αυτούς είναι ο αλγόριθµος της προς τα πίσω διάδοσης σφάλµατος (backpropagation algorithm). Κάθε πλήρης προβολή του συνόλου εκπαίδευσης καλείται εποχή. Ο στόχος είναι να υπάρξει σταθεροποίηση των βαρών και σύγκλιση του αθροίσµατος των τετραγωνικών σφαλµάτων στη διάρκεια διαδοχικών εποχών. Αφού ολοκληρωθεί η εκπαίδευση του ΤΝ είναι έτοιµο να χρησιµοποιηθεί στη λύση παρόµοιων προβληµάτων, αφού κατέχει τη γνώση βασικών αρχών της λύσης τους. Η λειτουργία της ανάκλησης αποτελεί µια ακόµα λειτουργία των ΤΝ κατά την οποία γίνεται ο υπολογισµός ενός διανύσµατος εξόδου για συγκεκριµένο διάνυσµα εισόδου και συγκεκριµένες τιµές βαρών. Πλεονεκτήµατα των Τεχνητών Νευρωνικών ικτύων Τα πλεονεκτήµατα των ΤΝ συνοψίζονται στα εξής: Παράγουν αποτελέσµατα από πολύπλοκα δεδοµένα που τόσο ο άνθρωπος µε την παρατήρηση όσο και άλλες υπολογιστικές τεχνικές αδυνατούν να προβλέψουν. Εξάγουν πρότυπα και ανιχνεύουν τάσεις Έχουν τη δυνατότητα προσαρµοσµένης µάθησης Αυτοοργανώνονται Λειτουργούν σε πραγµατικό χρόνο. Έχουν τη δυνατότητα να λειτουργούν και µετά από τυχόν σφάλµα στο νευρωνικό δίκτυο Μηχανική Μάθηση (machine learning) Στη µηχανική µάθηση χρησιµοποιούνται µηχανισµοί, όπως αυτοί των δένδρων αποφάσεις (decision trees). Με συγκεκριµένους κανόνες ένα δένδρο απόφασης διαµορφώνεται και αυτό θα οδηγήσει στην ταξινόµηση των δανειοληπτών. Κάθε κόµβος του δένδρου περιλαµβάνει ποιοτικά και κυρίως ποσοτικά κριτήρια 30

31 αξιολόγησης, τα οποία ελέγχονται από τις συνθήκες που βρίσκονται στα «κλαδιά» του δένδρου, ενώ οι κατηγορίες ταξινόµησης βρίσκονται στα «φύλλα» του. Αναλυτικότερα τα δένδρα απόφασης ανήκουν στην κατηγορία της επαγωγικής µάθησης, η οποία περιλαµβάνει χαµηλού επιπέδου πληροφορίες. Ένα δέντρο αποφάσεων είναι µια ιεραρχηµένη συλλογή σύνθετων διαζευκτικών προτάσεων, οι οποίες αποτελούνται από ένα σύνολο λογικών συζεύξεων που αναφέρονται σε τιµές χαρακτηριστικών συγκεκριµένων παραδειγµάτων. Η σηµαντικότερη πρόταση σε κάθε σύζευξη είναι η πρώτη και ορίζεται ως «ρίζα» του δένδρου. Κάθε µονοπάτι που ξεκινάει από τη ρίζα του δένδρου καταλήγει σε ένα κόµβο - φύλλο, το οποίο περιέχει και ένα λογικό συµπέρασµα. Σε κάθε περίπτωση, όποιες και εάν είναι οι τιµές των χαρακτηριστικών των δεδοµένων εισόδου, ο δρόµος που ακολουθείται από τη ρίζα του δένδρου µέχρι σε ένα φύλλο είναι µοναδικός. Το κυριότερο µέτρο απόδοσης του χαρακτηριστικού είναι η εντροπία του, η τιµή της εκφράζει το µέγεθος της διατάραξης του συνόλου εκπαίδευσης. Η µείωση της εντροπίας φανερώνει τη µορφή τάξης που αρχίζει να επικρατεί στο σύνολο. Ο σκοπός των δέντρων απόφασης είναι η τιµή της εντροπίας να µειωθεί κατά τη διάρκεια της διαδροµής ή αλλιώς µονοπάτι που ακολουθείτε από τη ρίζα ως τα φύλλα τους Η µεθοδολογία των δένδρων απόφασης είναι µια γενική µη παραµετρική τεχνική, ικανή να παράγει ταξινοµητές, προκειµένου να εκτιµήσει νέες, άγνωστες καταστάσεις ή να αποκαλύψει τους µηχανισµούς που χαρακτηρίζουν ένα πρόβληµα. ένδρα Ταξινόµησης και Παλινδρόµησης Classification and Regression Trees (CART). Η τεχνική CART (Breiman, 1984) βασίζεται στους αλγόριθµους αναδροµικής διαφοροποίησης (recursive partitioning algorithms) και παράγει ένα δένδρο παλινδρόµησης, εφόσον η εξαρτηµένη µεταβλητή είναι συνεχής ή ένα δένδρο ταξινόµησης, εφόσον αυτή είναι διακριτή. Η µέθοδος αυτή µπορεί να διαχειρίζεται ποιοτικές µεταβλητές αλλά και δεδοµένα µε περίπλοκες δοµές και καταλήγει στη δηµιουργία ενός κατανοητού υποδείγµατος. Τα πλεονεκτήµατα των τεχνικών που χρησιµοποιούνται στην µηχανική µάθηση είναι τα εξής δύο: Η επεξεργασία ποιοτικών δεδοµένων Η κατανοητή µορφή του αναπτυσσόµενου υποδείγµατος. 31

32 Έµπειρα Συστήµατα ( Expert Systems ) Τα Έµπειρα Συστήµατα αποτελούν το πιο γνωστό πεδίο εφαρµογής της τεχνητής νοηµοσύνης. Είναι µοντέλα που µπορούν να συµπεριλάβουν τόσο ποσοτικούς όσο και ποιοτικούς παράγοντες και έχουν ως σκοπό την υλοποίηση συστηµάτων υπολογιστών µε δυνατότητες αυτόµατης επεξεργασίας των δεδοµένων ενός προβλήµατος και την εξαγωγή συγκεκριµένων συµπερασµάτων για την αποτελεσµατική επίλυση αυτού του προβλήµατος. Χρησιµοποιούν προγραµµατιστικές µεθόδους της Τεχνητής Νοηµοσύνης σε συνδυασµό µε τις γνώσεις εµπειρογνωµόνων σε ειδικά θέµατα. Στον τραπεζικό χώρο εφαρµόζονται από τις αρχές της δεκαετίας του 90 για την εκτίµηση της πιστοληπτικής ικανότητας των δανειοληπτών. Σε συνδυασµό µε άλλες τεχνικές, όπως π.χ. τα νευρωνικά δίκτυα ή την ασαφή λογική δίνουν καλύτερα αποτελέσµατα. Ένα Έµπειρο Σύστηµα για να είναι επιτυχηµένο πρέπει να έχει τις ακόλουθες ιδιότητες: α) Να έχει υψηλού βαθµού εµπειρία, πράγµα που καθιστά το σύστηµα αποτελεσµατικό από πλευράς κόστους. β) Να είναι προβλέψιµο στη µοντελοποίηση, δηλαδή να έχει την ικανότητα να ενεργεί αποτελεσµατικά στην επεξεργασία πληροφοριών ή στο µοντέλο επίλυσης προβληµάτων, εφαρµόζοντας τεχνικές προσθήκης νέων κανόνων ή µετασχηµατισµού των υπαρχόντων. γ) Να έχει την ιδιότητα της θεσµικής µνήµης, σύµφωνα µε την οποία η νοοτροπία, η στρατηγική και το στυλ της οµάδας που χρησιµοποιήθηκε για τη κατασκευή του Εµπειρικού Συστήµατος να διατηρούνται σε κάθε παραγόµενη απόφαση που λαµβάνει το σύστηµα. δ) Τέλος, να έχουν χαρακτήρα εκπαιδευτικό, ώστε να µπορούν να εκπαιδεύουν εύκολα τα στελέχη προσωπικού των επιχειρήσεων Ασαφής Λογική (Fuzzy Logic) Η θεωρία αυτή παρέχει τα κατάλληλα µέσα για τη µοντελοποίηση, αναπαράσταση και αντιµετώπιση προβληµάτων λήψης αποφάσεων στα οποία ενυπάρχει κάποιος βαθµός ασάφειας. Η ασάφεια (Βουµβουλάκης, 2003) είναι µια έννοια που σχετίζεται µε την ποσοτικοποίηση της ποιοτικής πληροφορίας και οφείλεται κυρίως σε µη 32

33 ακριβή δεδοµένα. Το πρόβληµα έγκειται στην αντίληψη που υπάρχει για τους λεκτικούς προσδιορισµούς και έτσι δηµιουργήθηκε η ανάγκη ανάπτυξης συστηµάτων, όπου θα µπορούν να επιλύουν τέτοια προβλήµατα ασάφειας. Η ασαφής λογική είναι µια µαθηµατικοποιηµένη θεωρία συνόλων κατάλληλη για ασαφείς ποσότητες, δηλαδή για ποσότητες που δεν γίνονται εύκολα αντιληπτές, ούτε είναι καλά διαχωρισµένες και περιγράψιµες µε όρους κατανοµής πιθανότητας. Η γνώση που λαµβάνει ένας υπολογιστής για να συµπεριφερθεί έξυπνα αναπαρίσταται µε τη µορφή κανόνων και γεγονότων. Στην πράξη, όµως, οι κανόνες και τα γεγονότα δεν παίρνουν πάντα την τιµή 0 ή 1, αλλά ισχύουν µε πιθανότητες. Το γεγονός αυτό οδήγησε στην ανάπτυξη µιας σύγχρονης µαθηµατικής λογικής, που αποτελεί επέκταση της απλής άλγεβρας και ονοµάζεται Ασαφής Λογική (Fuzzy Logic). Η Ασαφής Λογική εισάγει στο λογικό προγραµµατισµό τις µη ακέραιες λογικές τιµές που ανήκουν στο διάστηµα [0,1] και ορίζει τελεστές για το συνδυασµό τους Πολυκριτήρια Ανάλυση (Multicriteria Analysis) Η συγκεκριµένη τεχνική µας δείχνει τα στάδια που χρησιµοποιούνται για την ανάπτυξη ενός µοντέλου και είναι τα εξής: Ο καθορισµός του αντικειµένου της απόφασης Ο καθορισµός µιας συνεπούς οικογένειας κριτηρίων Η ανάπτυξη του υποδείγµατος σύνθεσης κριτηρίων και Η υποστήριξη της απόφασης. Η χρήση µιας από τις παρακάτω προσεγγίσεις πολυκριτήριων δίνει τη δυνατότητα της επίλυσης προβληµάτων ταξινόµησης πιστοδοτούµενων επιχειρήσεων σε συνεπείς και µη, κατάταξης των πιστούχων ως προς τον πιστωτικό κίνδυνο µε αντίστοιχη της πιθανότητας αθέτησης, αλλά και των λοιπών προσδιοριστικών παραµέτρων του. Τέτοιες προσεγγίσεις είναι: Ο πολυκριτήριος µαθηµατικός προγραµµατισµός (multiobjective mathematical programming), Η πολυκριτήρια θεωρία χρησιµότητας (outranking relations) Η αναλυτική συνθετική προσέγγιση (preference disaggregation approach) Η µέθοδος UTADIS 33

34 Και η µέθοδος MHDIS, η οποία βασίζεται στην ταξινόµηση των εναλλακτικών δραστηριοτήτων, όπου τα χαρακτηριστικά που περιγράφουν την κάθε εξεταζόµενη εναλλακτική δραστηριότητα έχουν τη µορφή κριτηρίων αξιολόγησης Μηχανές ιανυσµάτων Υποστήριξης (Support Vector Machines-SVM) Η µέθοδος αυτή βοηθάει στην επίλυση των προβληµάτων ταξινόµησης. Αντικείµενό της είναι η δηµιουργία µιας «βέλτιστης γραµµικής διαχωριστικής υπερεπιφάνειας» και έχει τη µορφή f(x)= wx + b, η οποία µεγιστοποιεί την απόσταση µεταξύ των δύο κατηγοριών. Όπου w το διάνυσµα των συντελεστών των µεταβλητών, χ το διάνυσµα των µεταβλητών και β µια σταθερά. Στο παράρτηµα µας έχουµε χρησιµοποιήσει την µέθοδο αυτή και παραθέτουµε τα αποτελέσµατα µας. ύο ακόµα περιοχές έρευνας πολύ σηµαντικές για την Τεχνητή Νοηµοσύνη είναι οι Γενετικοί Αλγόριθµοι και ο Γενετικός Προγραµµατισµός. 3.2Γενετικοί Αλγόριθµοι (Genetic Algorithms) Οι γενετικοί αλγόριθµοι (Καρµανιόλα & Κότσι, 2004) αποτελούν κατά κάποιο τρόπο συνέχιση της εξελικτικής θεωρίας του αρβίνου και των νόµων του Μέντελ, αφού είναι ουσιαστικά διαδικασίες αναζήτησης που βασίζονται στη φυσική εξέλιξη και επιλογή. Όπως ακριβώς στη φύση έτσι και στους γενετικούς αλγόριθµους εφαρµόζεται µια διαδικασία επιλογής, η οποία αποβαίνει στην επιβίωση του βέλτιστου. Η δυνατότητα των γενετικών αλγορίθµων να επιλύουν σύνθετα ηλεκτροµαγνητικά προβλήµατα αποτελεί το µεγαλύτερο πλεονέκτηµά τους. Επίσης, οι γενετικοί αλγόριθµοι: Μπορούν να λύνουν δύσκολα προβλήµατα γρήγορα και αξιόπιστα. Μπορούν να συνεργάζονται µε τα υπάρχοντα µοντέλα και συστήµατα. Μπορούν να επεκταθούν και να εξελιχθούν ανάλογα µε την περίσταση. Μπορούν να συµµετέχουν σε υβριδικές µορφές µε άλλες µεθόδους. 34

35 Μπορούν να χρησιµοποιηθούν στην οικονοµία, στο σχεδιασµό µηχανών, στην επίλυση µαθηµατικών εξισώσεων, στην εκπαίδευση Νευρωνικών ικτύων και σε πολλούς άλλους τοµείς. εν απαιτούν περιορισµούς στις συναρτήσεις που επεξεργάζονται. εν ενδιαφέρονται για την πληροφορία που επεξεργάζονται. Η αντικειµενική συνάρτηση αποτελεί το µοναδικό τρόπο επικοινωνίας του µε το περιβάλλον. Ανεξάρτητα από το πρόβληµα η επιτυχία είναι δεδοµένη. Έχουν από τη φύση τους το στοιχείο του παραλληλισµού. Επιτυγχάνουν το βέλτιστο συνδυασµό εξερεύνησης και εκµετάλλευσης, πράγµα που τους κάνει ιδιαίτερα αποδοτικούς και ελκυστικούς. Μπορούν να εκµεταλλευτούν τα πλεονεκτήµατα των παράλληλων µηχανών, αφού λόγω της φύσης τους, εύκολα µπορούν να δεχτούν παράλληλη υλοποίηση. 3.3 Γενετικός Προγραµµατισµός (Genetic Programming) Ο γενετικός προγραµµατισµός (Βλαχάβας, 2002) αποτελεί ειδική περίπτωση των γενετικών αλγορίθµων. Στοχεύει στο να δηµιουργούνται αυτόµατα προγράµµατα υπολογιστών που αναπαριστώνται µε δένδρα, τα δένδρα συντακτικής ανάλυσης του προγράµµατος. Σε αυτά ο κάθε κόµβος δένδρου αναπαριστά την κλήση συνάρτησης και τα ορίσµατά της δίνονται µε τους κόµβους απογόνους. Για να χρησιµοποιηθεί ο γενετικός προγραµµατισµός στη λύση ενός προβλήµατος ορίζονται αρχικά όλες οι συναρτήσεις και τα τερµατικά σύµβολα που θα χρησιµοποιηθούν. Κατόπιν δηµιουργείται ένας πληθυσµός υποψηφίων λύσεων που αποτελούν τα δένδρα. Ο γενετικός αλγόριθµος θα επιλέξει κάποια δέντρα µετά από αναζήτηση και η τιµή που θα δώσει θα είναι ο αριθµός των επιτυχηµένων δοκιµών. Τα επαναληπτικά εκτελεστικά βήµατα του γενετικού προγραµµατισµού συντελούν στη δηµιουργία ενός νέου πληθυσµού, ο οποίος αποτελεί µετατροπή ενός τυχαίου παραγόµενου πληθυσµού. Οι λειτουργίες που απαιτούνται για τη µετατροπή αυτή εφαρµόζονται σε επιλεγµένα άτοµα του πληθυσµού, και είναι βασισµένες στην καταλληλότητα. Τα εκτελεστικά αυτά βήµατα του γενετικού προγραµµατισµού περιλαµβάνουν τις παρακάτω λειτουργίες: 35

36 Αναπαραγωγή συνίσταται σε µια τεχνική αντιγραφής των επιλεγµένων ατοµικών προγραµµάτων σε νέους πληθυσµούς. ιασταύρωση είναι η τεχνική που εφαρµόζεται ατοµικά σε έναν κόµβο και τον µετατρέπει σε έναν άλλο κόµβο διαφορετικού πληθυσµού. Μετάλλαξη είναι η τεχνική που επηρεάζει το δένδρο αλλάζοντας ολόκληρο τον κόµβο που περιέχει την πληροφορία. 36

37 ΚΕΦΑΛΑΙΟ 4 o Το Πρόγραµµα WEKA, Συλλογή κι Επεξήγηση των εδοµένων. 4.1 Τι είναι το πρόγραµµα WEKA και πως λειτουργεί Το πρόγραµµα WEKA αναπτύχθηκε στο Πανεπιστήµιο Waikato της Νέας Ζηλανδίας από τους ερευνητές Eibe Frank, Len Trigg και Mark Hall και η ονοµασία του δόθηκε από τα ακρώνυµα Waikato Environment for Knowlegde Analysis. Το σύµβολο τού προγράµµατος είναι ένα ενδηµικό πουλί, χωρίς φτερά που ονοµάζεται weka και βρίσκεται µόνο στο νησί της Νέας Ζηλανδίας. Το WEKA περιλαµβάνει µια συλλογή από αλγορίθµους µηχανικής µάθησης (machine learning) για την εξόρυξη δεδοµένων (data mining) και είναι γραµµένο σε γλώσσα προγραµµατισµού Java. Αποτελεί ένα εργαλείο χρήσιµο τόσο για πειράµατα όσο και για ενσωµάτωση µηχανισµών µηχανικής µάθησης σε καθηµερινές εφαρµογές. Το πρόγραµµα WEKA παρέχει µια ενιαία διάταξη σε πολλούς διαφορετικούς αλγορίθµους µάθησης µαζί µε εργαλεία προ- και µετά- διαδικασίας δεδοµένων και µεθόδους για αξιολόγηση των αποτελεσµάτων της κάθε βάσης δεδοµένων. Σε αυτό το πρόγραµµα εµπεριέχονται εργαλεία ταξινόµησης (classification), παλινδρόµησης (regression), οµαδοποίησης (clustering), κανόνων συνάφειας (association rules), επιλογής χαρακτηριστικών (attribute selection) και απεικόνισης (visualization). Το WEKA χρησιµοποιείται όχι µόνο από τους ερευνητές µηχανικής µάθησης και τους επιστήµονες, αλλά επίσης και για εκπαιδευτικούς σκοπούς. Παρέχει εφαρµογές των αλγορίθµων εκµάθησης που µπορούν να εφαρµοστούν εύκολα στα δεδοµένα µας. Επίσης, περιλαµβάνονται αρκετά εργαλεία για τη µετατροπή των δεδοµένων, όπως οι αλγόριθµοι διακριτοποίησης (discretization). Μας δίνει, επίσης, τη δυνατότητα να προ-επεξεργαστούµε τα δεδοµένα µας, να επαναλάβουµε τη διαδικασία µάθησης και να αναλύσουµε τα αποτελέσµατα του ταξινοµητή χωρίς να δηµιουργήσουµε κανένα κώδικα προγραµµατισµού. Τα δεδοµένα της εργασίας θα πρέπει να µετατραπούν σε διάταξη αρχείου ARFF (το οποίο είναι ένα πρότυπο αναπαράστασης των δεδοµένων που αποτελείται από ανεξάρτητες, µη κανονικές προτάσεις και δεν υπάρχουν σχέσεις µεταξύ των 37

38 προτάσεων), ώστε να µπορούν να εισαχθούν στο πρόγραµµα και στη συνέχεια να τα επεξεργαστεί και να µας δώσει τα αποτελέσµατα-κανόνες που θα χρησιµοποιήσουµε για να εξάγουµε τα πιο αξιόπιστα συµπεράσµατα. Το WEKA αποτελείται από τις παρακάτω βασικές διασυνδέσεις: Explorer (Εξερευνητής) Experimenter (Πειραµατιστής) Knowledge Flow (Ροή γνώσης) Simple Command Line Interface SCLI (Απλή διασύνδεση εντολών) Java Interface ( ιασύνδεση σε περιβάλλον Java) Το πρόγραµµα έχει διάφορες χρήσεις: 1. την εφαρµογή µεθόδου µηχανικής µάθησης σε ένα σύνολο δεδοµένων και η ανάλυση των αποτελεσµάτων της. Χρησιµοποιώντας τα µοντέλα µηχανικής µάθησης µπορούµε να παράγουµε προβλέψεις για νέες περιπτώσεις που θα προκύψουν. Αυτή η λειτουργία επιτυγχάνεται µέσω της γραφικής διασύνδεσης που ονοµάζεται Explorer και δίνει πρόσβαση σε όλες τις εγκαταστάσεις του προγράµµατος. 2. η διασύνδεση Knowledge Flow που µας επιτρέπει να σχεδιάσουµε τις διατάξεις για τη ροή της διαδικασίας των δεδοµένων. ηλαδή, µπορούµε να αναπαραστήσουµε αλγορίθµους εκµάθησης και πηγές δεδοµένων ενώνοντάς τα µεταξύ τους σε όποια διάταξη θέλουµε µε το να εισάγουµε γραµµές και να δηµιουργούµε κουτιά. 3. η εφαρµογή διαφόρων µοντέλων εκµάθησης µας δίνει τη δυνατότητα να συγκρίνουµε τις εκτελέσεις τους, ώστε να επιλέξουµε το καλύτερο µοντέλο πρόβλεψης. Αυτή η διαδικασία επιτυγχάνεται µε τη διασύνδεση Experimenter και µας βοηθάει να απαντήσουµε σε µια βασική ερώτηση όταν εφαρµόζουµε τις τεχνικές ταξινόµησης και παλινδρόµησης, αυτήν της αναζήτησης της βέλτιστης µεθόδου και των βέλτιστων τιµών για το δεδοµένο πρόβληµα. Τα µοντέλα µάθησης ονοµάζονται ταξινοµητές και το πρόγραµµα µας επιτρέπει να διαλέξουµε όποιον ταξινοµητή επιθυµούµε. 4. η διασύνδεση Simple CLI αποτελεί τον χώρο όπου µπορούµε να εισάγουµε γραµµές εντολών σε πρόγραµµα Java, ώστε να µπορεί το πρόγραµµα WEKA να τρέξει και να εκτελέσει τον νέο κώδικα προγραµµατισµού. 38

39 Η διασύνδεση explorer είναι η πιο εύχρηστη διασύνδεση και θα την χρησιµοποιήσουµε στο κύριο µέρος της εργασίας για να πραγµατοποιήσουµε τις ζητούµενες προβλέψεις. Αποτελείται από τις εξής επιλογές: προ-επεξεργασία (preprocess), ταξινόµηση (classify), συσχέτιση (associate), επιλογή χαρακτηριστικών (select attributes) και απεικόνιση (visualize). Preprocessing: είναι η διαδικασία µε την οποία προετοιµάζουµε τα δεδοµένα που θέλουµε να αναλύσουµε, τα οποία βρίσκονται κυρίως στη ARFF µορφή. Τα εργαλεία της διαδικασίας αυτής ονοµάζονται φίλτρα (filters) και χρησιµοποιούνται για τη µετατροπή των δεδοµένων µε διάφορες µεθόδους. Classification: είναι η διαδικασία εύρεσης της κλάσης στην οποία ανήκει το κάθε παράδειγµα. ηλαδή, η διαδικασία αυτή εκπαιδεύει τους αλγορίθµους µηχανικής µάθησης, ώστε να εκτελέσουν τις λειτουργίες ταξινόµησης ή παλινδρόµησης. Η συγκεκριµένη επιλογή περιλαµβάνει εργαλεία που ονοµάζονται ταξινοµητές (classifiers) και αποτελούν µοντέλα πρόβλεψης αριθµητικών ή συµβολικών ποσοτήτων. Εδώ εξάγονται τα αποτελέσµατα, τα οποία χρειάζονται περαιτέρω ανάλυση και άρα το βήµα αυτό αποτελεί το σηµαντικότερο µέρος της εργασίας. Clustering: Αντιστοιχεί στη διαδικασία οµαδοποίησης των περιπτώσεων σε κλάσεις σε περίπτωση που δεν έχει προηγηθεί ταξινόµηση. Association: είναι η διαδικασία εύρεσης κανόνων και συσχετίσεων µεταξύ των χαρακτηριστικών και στη συνέχεια γίνεται αξιολόγηση αυτών. Visualization: ονοµάζουµε τη διαδικασία απεικόνισης και αλληλεπίδρασης των δεδοµένων σε διάφορα δισδιάστατα γραφήµατα. 4.2 Συλλογή των δεδοµένων και επεξήγηση των µεταβλητών µας. Η χρηµατοδότηση των ιδιωτών για τις καταναλωτικές τους ανάγκες δεν είναι σύνθετη, όπως των επιχειρήσεων. Τα βασικά χαρακτηριστικά της είναι το οικογενειακό εισόδηµα, η ηλικία, η οικογενειακή κατάσταση, η µόνιµη διαµονή, η επαγγελµατική απασχόληση, η συνεργασία µε την τράπεζα και η ύπαρξη ακίνητης περιουσίας. Βάσει αυτών των χαρακτηριστικών θα γίνει και η αξιολόγηση από τον υπάλληλο της τράπεζας για να αποφασίσει αν θα δοθεί ένα προσωπικό δάνειο, ένα καταναλωτικό δάνειο ή µία πιστωτική κάρτα.. 39

40 Μετά από αρκετές συναντήσεις µε τον υπεύθυνο καταναλωτικών δανείων τραπεζικού καταστήµατος του νησιού µας, καταφέραµε να συλλέξουµε 220 αιτήσεις καταναλωτικών δανείων, µε αρκετή δυσκολία, καθότι υφίσταται το απόρρητο των προσωπικών δεδοµένων. Έπειτα από εκτενείς συζητήσεις, καταλήξαµε στις µεταβλητές που θεωρήσαµε τις σηµαντικότερες (βάσει και των παραπάνω χαρακτηριστικών) για να αποδώσει το δείγµα µας όσο το δυνατόν καλύτερα και το αποτέλεσµα µας να είναι αξιόπιστο. Αυτές είναι οι εξής δεκαεννέα (19) : Οικογενειακή κατάσταση 1. χωρισµένος, χήρος, άλλη περίπτωση 2. άγαµος 3. έγγαµος στην πρώτη περίπτωση ο χωρισµένος δανειολήπτης θεωρείται από τον υπεύθυνο λειτουργό αφερέγγυος χαρακτήρας λόγω του ότι µπορεί να έχει κάποια οικονοµική επιβάρυνση µε διατροφή παιδιού ή άλλες τέτοιου τύπου υποχρεώσεις, και αυτό να συνεπάγεται ασυνέπεια στις δόσεις του δανείου του. Όταν αναφερόµαστε σε χήρα/ο πελάτη θα µπορούσαµε να πούµε ότι έχει την εύνοια του λειτουργού, ανάλογα πάντα µε την περίπτωση, και να του χορηγηθεί το δάνειο µε κρίση καθαρά υποκειµενική. Στις µικρές κοινωνίες όλα έχουν διαφορετική ερµηνεία ακόµα και ο θάνατος και κάτω από ποιες συνθήκες πραγµατοποιήθηκε π.χ. φυσιολογικά αίτια, ατύχηµα, δυστύχηµα και άλλα. Σε πελάτη που χαρακτηρίζεται «άλλη περίπτωση», για παράδειγµα συµβίωση µε σύζυγο που έχει ανήλικα παιδιά και δεν εργάζεται ή ακόµη και δήλωση ψευδών στοιχείων από τον πελάτη, θα έχουµε αρνητική εξέλιξη της αίτησης αφού η αποπληρωµή του δάνειου δεν µπορεί να θεωρηθεί εξασφαλισµένη. Οικογενειακό εισόδηµα (ποσά σε ευρώ) Είναι πάντα καλύτερο να έχει και ο/η σύζυγος ένα καλό εισόδηµα ώστε και η αίτηση του πελάτη να έχει καλύτερη τύχη. Ατοµικό εισόδηµα (ποσά σε ευρώ) Ένας σίγουρος και σταθερός µισθός είναι πάντα καλύτερος από έναν περιοδικό µισθό. Είναι πολύ σηµαντικό να γνωρίζει η τράπεζα το ύψος του ατοµικού εισοδήµατος του πελάτη, γιατί αυτό καθορίζει και την τελική δόση του δανείου, αν και εφόσον εγκριθεί. Επάγγελµα 1. άνεργοι, οικιακά, φοιτητές 2. ατοµική επιχείρηση, βιοτέχνης 40

41 3. έµπορος 4. τεχνικοί, αγρότες, ναυτικοί 5. ιδιωτικοί υπάλληλοι 6. µηχανικοί του δηµοσίου, δηµόσιοι υπάλληλοι, συνταξιούχοι, στρατιωτικοί 7. διδάσκαλοι, καθηγητές, γιατροί, δικηγόροι Στην πρώτη περίπτωση και οι τρεις οµάδες δεν έχουν εισόδηµα. Στη δεύτερη περίπτωση έχουµε τα άτοµα που είναι ιδιοκτήτες ατοµικών επιχειρήσεων και προσκοµίζουν στην τράπεζα οικονοµικά στοιχεία µε την απόδοση της επιχείρησης τους, σύµφωνα µε τα οποία θα δοθεί ή όχι η έγκριση του δανείου. Ο βιοτέχνης συνήθως είναι και αυτός ιδιόκτητης ατοµικής επιχείρησης, που έχει σαν ιδιαίτερο χαρακτηριστικό την µεταποιητική διαδικασία στη λειτουργία, και κατά συνέπεια αποτελεί και εν δυνάµει πελάτη για την Τράπεζα για δάνεια επιχειρηµατικής µορφής. Με την έννοια του εµπόρου, θεωρούµε τους ιδιώτες που ασκούν εµπορική δραστηριότητα χωρίς συγκεκριµένη έδρα και αυστηρό περιορισµό στα προϊόντα που εµπορεύονται. Στο νοµό µας πχ, ένας χονδρέµπορος προϊόντων τοπικού ενδιαφέροντος (ελαιόλαδο, µαστίχη, εσπεριδοειδή), θεωρείται κατ αρχήν ευκατάστατος, άρα και καλός δανειολήπτης για την Τράπεζα. Οι τεχνικοί, οι αγρότες και οι ναυτικοί συνήθως τα εισοδήµατα που δηλώνουν είναι πλασµατικά δεδοµένου ότι δεν είναι σταθερά αλλά περιοδικά και καθορίζονται από τις ιδιαιτερότητες της εργασίας τους. Για παράδειγµα οι ναυτικοί πολλές φορές καταθέτουν υψηλή φορολογική δήλωση µε π.χ ευρώ το χρόνο όταν ταξιδεύουν, ενώ αν µια χρονιά δεν ταξιδέψουν µπορεί να δηλώσουν ακόµα και ευρώ ή και λιγότερα για ένα χρόνο. εν είναι σταθερή η µισθοδοσία τους, θα λέγαµε ότι είναι περιοδική. Πολλές φορές ο Τραπεζικός Οργανισµός ζητάει στοιχεία για τα τελευταία τρία(3) έτη στον πελάτη αυτής της κατηγορίας ή ακόµα και περισσότερα οικονοµικά στοιχεία ώστε να καθίσταται ευκολότερη η εκτίµηση της πραγµατικής οικονοµικής κατάστασης του υποψήφιου πελάτη. Οι ιδιωτικοί υπάλληλοι έχουν σταθερό µισθό, όµως αντιµετωπίζουν την αβεβαιότητα, καθότι δεν µπορούν να είναι σίγουροι για το εργασιακό µέλλον τους.. 41

42 Οι µηχανικοί του δηµοσίου, δηµόσιοι υπάλληλοι, συνταξιούχοι, στρατιωτικοί είναι οι οµάδες µε την πιο σίγουρη πηγή εισοδήµατος και η φορολογική τους δήλωση αποτυπώνει πλήρως την οικονοµική τους κατάσταση. Οι οµάδες των δασκάλων, καθηγητών, γιατρών και δικηγόρων που έχουν και υψηλό και σίγουρο εισόδηµα αλλά και πολλαπλάσιο µη δηλωµένο, αποτελούν για τον υπεύθυνο χορηγητή της Τράπεζας τις πιο σίγουρες για έγκριση χορήγησης του δανείου. Σαν συµπέρασµα θα λέγαµε ότι η πιθανότητα έγκρισης για χορήγηση δανείου, αυξάνεται όσο ανεβαίνουµε από την οµάδα 1, στην οµάδα 7. Ηλικία 1. <18, > Είναι λογικό ο κάθε Τραπεζικός Οργανισµός να έχει καθορίσει την µέγιστη επιτρεπτή ηλικία για την χορήγηση δανείου, σίγουρα λοιπόν δεν θα έδινε δάνειο σε έναν ανήλικο και σε άτοµο που ξεπερνάει την ηλικία των εξήντα πέντε ετών. Στη δεύτερη κατηγορία έχουµε άτοµα που είναι εξαρτηµένα οικονοµικά από τους γονείς, όπως οι φοιτητές και όσοι υπηρετούν την πατρίδα. Στις ηλικίες είναι άτοµα που τώρα προσπαθούν να ξεκινήσουν την επαγγελµατική σταδιοδροµία τους και εδώ ο υπάλληλος θέλει να δώσει δάνειο και να βοηθήσει τον πελάτη αυτής της κατηγορίας, δεν παύει όµως να έχει και τις επιφυλάξεις του. Η πιο ώριµη και σίγουρη για την Τράπεζα ηλικιακή κατηγορία, είναι αυτή των Εδώ ο υπάλληλος προσπαθεί να προωθήσει όλα τα προϊόντα που ο Τραπεζικός Οργανισµός διαθέτει χωρίς βεβαίως να µειώνεται η εγρήγορση και η προσοχή στην διαδικασία χορήγησης, ώστε να ελαχιστοποιείται ο πιστοληπτικός κίνδυνος. Στην τελευταία κατηγορία έχουµε τις ηλικίες 50-65, όπου είµαστε αρκετά επιφυλακτικοί κι αυτό γιατί τα προβλήµατα υγείας είναι πολύ συχνά και πολλές φορές έχουµε παραδείγµατα οικονοµικής αδυναµίας, σίγουρα όµως αυτήν την κατηγορία θα την προτιµήσει ο υπεύθυνος λειτουργός από εκείνην των

43 Κατοικία 1. ενοικίαση 2. πατρικό / συζύγου 3. ιδιόκτητο Ακίνητη περιουσία 1. µη ύπαρξη 2. υπαρκτή, δεν παρέχει εισόδηµα 3. υπαρκτή, παρέχει εισόδηµα η ακίνητη περιουσία µας δίνει την δυνατότητα να προσηµειώσουµε το συγκεκριµένο ακίνητο ώστε να χορηγήσουµε το δάνειο, κάνοντας χρήση εµπράγµατων εξασφαλίσεων. Κατοχή πιστωτικών καρτών 1. µη κατοχή 2. κατοχή αποκτάµε ιστορικό φερεγγυότητας του πελάτη γνωρίζοντας αν έχει ή δεν έχει πιστωτική κάρτα και παρακολουθώντας την κίνηση των λογαριασµών των καρτών του. Σχέση του πελάτη µε την Τράπεζα 1. νέος, άγνωστος δανειολήπτης 2. γνωστός, µέτριος 3. γνωστός, συνεπής (καλός) η σχέση του πελάτη µε το κατάστηµα της Τράπεζας, στην µικρή κοινωνία του νησιού µας είναι πολύ σηµαντική. Στην πρώτη περίπτωση θα είµαστε επιφυλακτικοί να χορηγήσουµε δάνειο, αλλά ποτέ αρνητικοί. Στην δεύτερη περίπτωση του γνωστού αλλά µέτριου πελάτη ο υπάλληλος θα χρησιµοποιήσει και το υποκειµενικό κριτήριο στην αξιολόγηση του αιτήµατος. Στην τρίτη περίπτωση είµαστε σίγουροι για τον πελάτη µας και φυσικά χωρίς επιφύλαξη θα του δοθεί η έγκριση. Ποσό δανείου σε ευρώ Είδος δόσεων δανείου 1. ανισόποσες 2. ισόποσες 43

44 στη πρώτη περίπτωση πολλοί πελάτες π.χ. ναυτικοί σε περίοδο που ταξιδεύουν ζητούν οι δόσεις να είναι µεγάλες και συχνές, όταν σταµατήσουν ζητούν να µικρύνουν οι δόσεις και να δίνονται σε µεγαλύτερο χρονικό διάστηµα. Αυτό µπορεί να γίνει πάντα σε συµφωνία µεταξύ του υπαλλήλου και του πελάτη. Υπάρχουν και περιπτώσεις που στην αρχή δίνουν τη δόση του δάνειου κανονικά όπως έχει συµφωνηθεί, στην συνέχεια µεγαλώνουν το διάστηµα µεταξύ των δόσεων και καταλήγουν να φεύγουν από το νησί και να µην αποπληρώνουν το δάνειο τους ποτέ. Η δεύτερη περίπτωση είναι γνωστό ότι σε συγκεκριµένη ηµεροµηνία θα δίνεται και το συγκεκριµένο ποσό από τον πελάτη, µέχρι και την αποπληρωµή του δανείου. ιάρκεια δανείου σε µήνες, το χρονικό διάστηµα που είναι υποχρεωµένος ο δανειολήπτης να αποπληρώσει το δάνειο του. Ύπαρξη εγγυητή 1. µη ύπαρξη 2. ύπαρξη αφορά το εισόδηµα του πελάτη και αν αυτός έχει εγγυητή προστίθεται το εισόδηµα του δεύτερου στον πρώτο και έχει περισσότερες πιθανότητες να του χορηγηθεί δάνειο. Εισόδηµα του εγγυητή σε ευρώ Υπάρχουν φορές που οι εγγυητές ξεπερνάνε τους δύο σε αριθµό, συνήθως βέβαια είναι συγγενικά πρόσωπα όπως π.χ. µητέρα, πατέρας, αδέρφια κ.α. και κατά συνέπεια αυξάνεται το δηλούµενο εισόδηµα. Κατοχή αυτοκινήτου (Ι.Χ.) 1. µη κατοχή 2. κατοχή το αυτοκίνητο θεωρείται περιουσιακό στοιχείο του πελάτη και αν αυτό έχει αγοραστεί µε χορήγηση, µας δίνει πολλά στοιχεία για την σχέση του πελάτη µε την Τράπεζα. Κυβισµός αυτοκινήτου 1. <1000 κ.ε κ.ε. 3. >1600 κ.ε. Μας δίνει στοιχεία για τον πελάτη κι αν κρύβει εισοδήµατα. 44

45 Παλαιότητα αυτοκινήτου 1. >15 έτη έτη έτη έτη 5. < 1 έτος Μας φανερώνει στοιχεία για την πρόσφατη οικονοµική κατάσταση του πελάτη. Ασφάλεια ζωής 1. µη ύπαρξη 2. ύπαρξη όταν υπάρχει ασφάλεια η Τράπεζα χορηγεί πιο εύκολα το δάνειο στον πελάτη. Τέλος, το σηµαντικότερο από όλα τα παραπάνω και η ισχυρή µεταβλητή µας, είναι η τύχη της σύµβασης 1. κακή, δεν εγκρίθηκε 2. πολύ καλή, εγκρίθηκε. 45

46 ΚΕΦΑΛΑΙΟ 5 Ο Παρουσίαση Αποτελεσµάτων Αφού λοιπόν συλλέξαµε τα δεδοµένα µας και ορίσαµε τις µεταβλητές µας τις µετατρέψαµε σε ARFF µορφή, ώστε να είναι έτοιµες να εισαχθούν στο πρόγραµµα WEKA και να αρχίσουµε την πρακτική του εφαρµογή. Στην συνέχεια θα δούµε αναλυτικά τα αποτελέσµατα από τη χρήση κάθε αλγορίθµου του συγκεκριµένου προγράµµατος ανάλογα και µε τις παραµέτρους που χρησιµοποιήθηκαν κατά την εφαρµογή. Η σειρά που ακολουθούν οι αλγόριθµοι είναι πάντα σύµφωνη µε τη σειρά που πραγµατοποιήθηκαν οι δοκιµές µας στο πρόγραµµα WEKA. Παραθέτουµε εικόνες από τις παραµέτρους που χρησιµοποιήθηκαν σε κάθε περίπτωση, και φυσικά πίνακες των αποτελεσµάτων που στο περιεχόµενο τους βλέπουµε πώς λειτούργησε ο αλγόριθµος κατά τη δοκιµή πειραµάτων των δέκα(10), πέντε( 5) ή δύο(2) fold cross validation. Στο τέλος του κεφαλαίου, όλες οι κατηγορίες των αλγορίθµων που αναλύονται, παρουσιάζονται σε ένα συγκεντρωτικό πίνακα 5.1 ΑΛΓΟΡΙΘΜΟΙ BAYES Μια κατηγορία αλγορίθµων που χρησιµοποιήθηκαν στο πρόγραµµα είναι οι αλγόριθµοι Bayes. Ένα δίκτυο Bayes είναι µια αναπαράσταση µιας δοµής δεδοµένων για πλήρεις συνδυασµένες κατανοµές πιθανοτήτων. Στη βιβλιογραφία βρίσκουµε πολλές λεπτοµερείς αναφορές στο δίκτυο Bayes (όπως για παράδειγµα Τρογκάνης, 2006 και άλλοι). Πάνω σε αυτά τα δίκτυα βασίζονται οι αλγόριθµοι Bayes που χρησιµοποιήθηκαν στο πρόγραµµα και αναλύονται παρακάτω Αλγόριθµος Bayes Net Ένας από τους αλγορίθµους που βασίζονται στα δίκτυα Bayes είναι ο «Bayes Net», µε την προϋπόθεση ότι στο αρχείο δεδοµένων υπάρχουν αριθµητικά και ονοµαστικά χαρακτηριστικά, ενώ δεν υπάρχουν ελλιπείς τιµές. Για την επίτευξη του 46

47 στόχου µας εφαρµόσθηκαν διάφοροι αλγόριθµοι εκτίµησης, όπως για παράδειγµα ο Κ2 (Cooper and Herskovits, 1992) και το επαυξηµένο δένδρο του δικτύου Bayes που ονοµάζεται ΤΑΝ - Tree Augmented Naïve Bayes (Friedman, 1997). Ο αλγόριθµος Κ2 δείχνει τον µεγαλύτερο αριθµό γονέων για ένα σύνολο κόµβων, ενώ ο αλγόριθµος ΤΑΝ προσθέτει ένα δεύτερο γονέα σε κάθε κόµβο εκτός από τον κόµβο ταξινόµησης. Στην παρακάτω εικόνα βλέπουµε πώς επιλέγουµε τις παραµέτρους που χρησιµοποιεί ο αλγόριθµος «Bayes net». Ακολουθεί ανάλυση των παραµέτρων αυτών. Εικόνα: Ανοικτές παράµετροι για τον αλγόριθµο Bayes Net BIFFile: Χρησιµοποιείται για να προσδιορίσει ένα δίκτυο που αποθηκεύεται σε µορφή BIF XML (extensible Markup Language). Debug: Στην παράµετρο αυτή εάν θέσουµε την επιλογή αληθής, ο ταξινοµητής µπορεί να εξάγει πρόσθετες πληροφορίες. Στην ουσία, αυτή η επιλογή δεν επιφέρει καµία επίδραση στα αποτελέσµατα και συνήθως δεν τη χρησιµοποιούµε. Estimator: Χρησιµοποιείται για να επιλέξει τη µέθοδο για τον υπολογισµό της κατανοµής πιθανότητας. Search Algorithm: Χρησιµοποιείται για να γίνει επιλογή µιας δοµής αλγορίθµων µάθησης. 47

48 UseADTree: Η παράµετρος αυτή καθορίζει την ταχύτητα µάθησης των αλγορίθµων. Στην περίπτωση που επιλέγουµε να είναι γρήγορη η διαδικασία, µπορεί να δηµιουργηθεί πρόβληµα στον αλγόριθµο, λόγω απαιτήσεων σε µνήµη. Στον παρακάτω πίνακα µπορούµε να δούµε τις διαφορετικές επιλογές των παραµέτρων που χρησιµοποιήθηκαν, καθώς και τα αποτελέσµατα τους, µετά τη χρήση της µεθόδου αξιολόγησης µέσω επαναλαµβανόµενης δοκιµής για δέκα, πέντε και δύο φορές σε άγνωστα δεδοµένα (10, 5 και 2 folds cross validation). Search Algorithms Modification Πινάκας αποτελεσµάτων για τον αλγόριθµο Bayes Net ΑΚΡΙΒΕΙΑ ΤΑΞΙΝΟΜΗΣΗΣ ΜΕΤΑΒΟΛΗ ΠΑΡΑΜΕΤΡΩΝ 10 Fold Cross 5 Fold Cross 2 Fold Cross Προεπιλεγµένες Ρυθµίσεις 63.18% 64.54% 62.62% BMAestimator 64.09% 65.90% 66.36% Ηill % 62.72% 62.72% Climber LAGDHill- Climper 58.63% 62.72% 62.72% Repeated 58.63% 62.72% 62.72% Hill- Climper TabuSearch 61.81% 63.63% 64.54% TAN 62.72% 60.90% 61.36% CISearch Algorithm 63.18% 64.54% 62.72% Παρατηρούµε ότι µεταβολές στις ανοικτές παραµέτρους µπορούν να επιφέρουν µεταβολές στην ακρίβεια του µοντέλου. Πιο συγκεκριµένα, χρησιµοποιώντας τον 48

49 BMA εκτιµητή αντί για τον προεπιλεγµένο (Simple Estimator) παρουσιάστηκε αύξηση στην ακρίβεια του µοντέλου κατά ένα µικρό ποσοστό. Όσον αφορά τις διαφορές µεθόδους για αναζήτηση δοµών δικτύων φάνηκε να έχουν µικρή και τυχαία επίδραση στα αποτελέσµατα µας. Το καλύτερο αποτέλεσµα πάντως επετεύχθη µε 2 fold cross validation, όπως φαίνεται από τον παραπάνω πινάκα Αλγόριθµος Naive Bayes Ο αλγόριθµος «Naive Bayes» (George H. John & Pat Langley, 1995) βασίζεται στους κανόνες του Bayes. Εφαρµόζει τη θεωρία των πιθανοτήτων (και θεώρηµα Bayes) για την ταξινόµηση των δεδοµένων του µοντέλου. Με απλά λόγια ο συγκεκριµένος αλγόριθµος υποθέτει ότι η παρουσία (ή απουσία) ενός συγκεκριµένου χαρακτηριστικού µιας ταξινόµησης δεν σχετίζεται µε την παρουσία (ή απουσία) οποιουδήποτε άλλου χαρακτηριστικού. Παρά την απλότητα του ο αλγόριθµος Naive Bayes έχει λειτουργήσει πολύ καλά σε αρκετά σύνθετα παραδείγµατα σε πραγµατικό περιβάλλον. Στην παρακάτω εικόνα βλέπουµε πώς επιλέγουµε τις παραµέτρους που χρησιµοποιεί ο αλγόριθµος Naive Bayes. Ακολουθεί ανάλυση των παραµέτρων αυτών. Εικόνα: Ανοικτές παράµετροι για τον αλγόριθµο Naive Bayes 49

50 Debug: Στην παράµετρο αυτή εάν θέσουµε την επιλογή αληθής, ο ταξινοµητής µπορεί να εξάγει πρόσθετες πληροφορίες. UseKernelEstimator: Χρησιµοποιεί έναν κεντρικό εκτιµητή για τα αριθµητικά χαρακτηριστικά. UseSupervisedDiscretization: Χρησιµοποιεί τη µέθοδο supervised discretization, για να µετατρέψει τα αριθµητικά χαρακτηριστικά σε ονοµαστικά. Στον παρακάτω πίνακα µπορούµε να δούµε τις διαφορετικές επιλογές των παραµέτρων που χρησιµοποιήθηκαν, καθώς και τα αποτελέσµατα τους, µετά τη χρήση της µεθόδου αξιολόγησης µέσω επαναλαµβανόµενης δοκιµής για δέκα, πέντε και δύο φορές σε άγνωστα δεδοµένα (10, 5 και 2 folds cross validation). Πινάκας αποτελεσµάτων για τον αλγόριθµο Naive Bayes ΑΚΡΙΒΕΙΑ ΤΑΞΙΝΟΜΗΣΗΣ ΜΕΤΑΒΟΛΗ 10 Fold Cross 5 Fold Cross 2 Fold Cross ΠΑΡΑΜΕΤΡΩΝ Προεπιλεγµένες ρυθµίσεις 60.90% 61.36% 58.18% UseKernelEstimator: true 64.09% 64.54% 59.09% Χρήση της UseSupervisedDiscretization 63.63% 64.54% 61.81% Παρατηρήσαµε, όσον αφορά τις ανοικτές παραµέτρους ότι η χρήση του κεντρικού εκτιµητή «KernelEstimator» βελτίωσε αρκετά την ακρίβεια, ειδικά όταν κάναµε 10 fold cross validation. Αύξηση της ακρίβειας παρατηρήθηκε και µε την χρήση της µεθόδου «supervised discretization». Ο αλγόριθµος γενικά, είχε αρκετά καλή απόδοση, όσον αφορά την ακρίβεια και καλή απόδοση όσον αφορά την χρονική εκτέλεση. 50

51 5.1.3 Αλγόριθµος Naive Bayes Simple Ο ταξινοµητής «Naive Bayes Simple» (Richard Duda & Peter Hart, 1973) δηµιουργεί µοντέλα ταξινόµησης που βασίζονται στον τύπο του Bayes και τα αριθµητικά χαρακτηριστικά µοντελοποιούνται µέσω µιας κανονικής κατανοµής. Όπως βλέπουµε παρακάτω, η µονή ανοικτή παράµετρος του αλγορίθµου είναι η «debug», η όποια δεν επηρεάζει την ακρίβεια του ταξινοµητή. Εικόνα: Ανοικτές παράµετροι για τον αλγόριθµο Naïve Bayes Simple Εποµένως µε τη χρήση αυτού του αλγορίθµου έχουµε µόνο ένα αποτέλεσµα για την κάθε δοκιµή, όπως φαίνεται στον παρακάτω πίνακα. Πινάκας αποτελεσµάτων για τον αλγόριθµο Naive Bayes Simple 10 Fold Cross 5 Fold Cross 2 Fold Cross 59.54% 60.90% 58.18% Ο αλγόριθµος πέτυχε µέτρια ακρίβεια σε σχέση µε τον προηγούµενο. Καλύτερο πάντως στην περίπτωση αυτή αποδείχτηκε το 5 fold cross validation. 51

52 5.1.4 Αλγόριθµος Naive Bayes Updateable Ο αλγόριθµος «Naive Bayes Updateable» (George H. John & Pat Langley, 1995) αποτελεί επιπλέον έκδοση του αλγορίθµου Naïve Bayes και υποβάλλει σε λειτουργία µια περίπτωση του µοντέλου τη φορά. Χρησιµοποιεί εκτιµητές ταξινόµησης, όπως τον κεντρικό εκτιµητή (kernel estimator) αλλά όχι τον εκτιµητή διακεκριτοποίησης (discretization estimator). Στην παρακάτω εικόνα βλέπουµε πώς επιλέγουµε τις παραµέτρους που χρησιµοποιεί ο αλγόριθµος «Naive Bayes Updateable». Ακολουθεί ανάλυση των παραµέτρων αυτών. Εικόνα: Ανοικτές παράµετροι για τον αλγόριθµο Naïve Bayes Updateable Debug: Στην παράµετρο αυτή εάν θέσουµε την επιλογή αληθής, ο ταξινοµητής µπορεί να εξάγει πρόσθετες πληροφορίες. UseKernelEstimator: Χρησιµοποιεί έναν κεντρικό εκτιµητή για τα αριθµητικά χαρακτηριστικά αντί για χρήση κανονικής κατανοµής. UseSupervisedDiscretization: Χρησιµοποιεί τη µέθοδο supervised discretization, για µετατροπή των αριθµητικών χαρακτηριστικών σε ονοµαστικά. Στον παρακάτω πίνακα µπορούµε να δούµε τις διαφορετικές επιλογές των παραµέτρων που χρησιµοποιήθηκαν, καθώς και τα αποτελέσµατα τους, µετά τη 52

53 χρήση της µεθόδου αξιολόγησης µέσω επαναλαµβανόµενης δοκιµής για δέκα, πέντε και δύο φορές σε άγνωστα δεδοµένα (10, 5 και 2 folds cross validation). Πινάκας αποτελεσµάτων για τον αλγόριθµο Naive Bayes Updateable ΑΚΡΙΒΕΙΑ ΤΑΞΙΝΟΜΗΣΗΣ ΜΕΤΑΒΟΛΗ ΠΑΡΑΜΕΤΡΩΝ 10 Fold Cross 5 Fold Cross 2 Fold Cross Προεπιλεγµένες ρυθµίσεις 60.90% 61.36% 58.18% Χρήση της 64.09% 64.54% 59.09% UseKernelEstimator Οι επιδόσεις του αλγόριθµου αυτού ήταν όµοιες µε του προηγούµενου, όπως άλλωστε και ο βασικός τρόπος λειτουργίας του. Βέβαια, η χρήση της παραµέτρου «UseKernelEstimator» βελτίωσε την ακρίβεια του µοντέλου. 5.2 Συναρτήσεις «functions» Σε αυτήν την κατηγορία των αλγορίθµων µάθησης, που ονοµάζεται «Συναρτήσεις», περιλαµβάνεται µια ανάµεικτη οµάδα ταξινοµητών που µπορούν να γραφτούν ως µαθηµατικές εξισώσεις µε φυσικό τρόπο. Οι άλλοι µέθοδοι, όπως τα δένδρα αποφάσεων και οι κανόνες, δεν µπορούν να το κάνουν αυτό µε εξαίρεση αποτελεί ο αλγόριθµος «Naïve Bayes». 53

54 5.2.1 Λογιστική Παλινδρόµηση - Logistic Regression O αλγόριθµος αυτός (Cessie & Houwelingen, 1992) κατασκευάζει και χρησιµοποιεί ένα γραµµικό πρότυπο λογιστικής παλινδρόµησης µε τη βοήθεια του εκτιµητή «ridge estimator», που είναι ένας εκτιµητής ακραίων τιµών. Στην παρακάτω εικόνα βλέπουµε πώς επιλέγουµε τις παραµέτρους που χρησιµοποιεί η λογιστική παλινδρόµηση. Ακολουθεί ανάλυση των παραµέτρων αυτών. Εικόνα: Ανοικτές παράµετροι για τον αλγόριθµο Logistic Debug: Στην παράµετρο αυτή εάν θέσουµε την επιλογή αληθής, ο ταξινοµητής µπορεί να εξάγει πρόσθετες πληροφορίες MaxIts: Ορίζει το µέγιστο αριθµό των επαναλήψεων. Ridge: Χρησιµοποιείται για να ορίσουµε τον εκτιµητή ακραίων τιµών στη λογαριθµική πιθανότητα. Με τη χρήση αυτού του αλγορίθµου έχουµε µόνο ένα αποτέλεσµα για την κάθε δοκιµή, όπως φαίνεται στον παρακάτω πίνακα 54

55 Πινάκας αποτελεσµάτων για τον αλγόριθµο Logistic ΑΚΡΙΒΕΙΑ ΤΑΞΙΝΟΜΗΣΗΣ ΜΕΤΑΒΟΛΗ ΠΑΡΑΜΕΤΡΩΝ 10 Fold Cross 5 Fold Cross 2 Fold Cross Προεπιλεγµένες ρυθµίσεις 60.90% 59.54% 59.54% Η µέθοδος αυτή πέτυχε µέτρια αποτελέσµατα όσον αφορά το θέµα της ακρίβειας ταξινόµησης, αλλά σε πάρα πολύ καλό χρόνο. Το 10 fold cross validation στην περίπτωση αυτή έδωσε το καλύτερο αποτέλεσµα Αλγόριθµος Multilayer Perceptron Ο αλγόριθµος µηχανικής µάθησης «Multilayer Perceptron» (MLP) του Bishop είναι ένα πολυεπίπεδο νευρωνικό δίκτυο το οποίο εκπαιδεύεται µε τη χρήση της µεθόδου backpropagation (ακριβής αλγόριθµος πρόβλεψης ταξινόµησης ο οποίος προσδιορίζει το κατάλληλο βάρος για τις συνδέσεις του δικτύου βασισµένος σε perceptron κανόνες) για την ταξινόµηση των εγγραφών. Το δίκτυο αυτό µπορεί να δηµιουργηθεί µε το χέρι ή από έναν αλγόριθµο ή και τα δύο και µπορεί να ελέγχεται και να τροποποιείται κατά τη διάρκεια της εκπαίδευσης. Στην παρακάτω εικόνα βλέπουµε πώς επιλέγουµε τις παραµέτρους που χρησιµοποιεί ο αλγόριθµος «Multilayer Perceptron». Ακολουθεί ανάλυση των παραµέτρων αυτών. 55

56 Εικόνα: Ανοικτές παράµετροι για τον αλγόριθµο Multilayer Perceptron Gui: Καθορίζει τη χρήση γραφικού περιβάλλοντος. Autobuit: Προσθέτει και ενώνει τα κρυµµένα επίπεδα του δικτύου. Decay: Προκαλεί τη µείωση του ρυθµού εκπαίδευσης. Επίσης, διαιρεί το αρχικό ποσοστό µάθησης µε την «epoch number», έτσι ώστε να προσδιορίσει ποιος θα πρέπει να είναι ο κατάλληλος ρυθµός µάθησης και να µπορεί να δηµιουργηθεί ένα πιο αποδοτικό δίκτυο. HiddenLayers: Προσδιορίζει τα κρυµµένα επίπεδα του νευρωνικού δικτύου. Αυτό γίνεται από έναν κατάλογο θετικών ακέραιων αριθµών «η» από τα γράµµατα a,i,o,t για κάθε κρυµµένο επίπεδο και από πόσους κόµβους το επίπεδο αποτελείται. 56

57 Ισχύουν τα εξής: a = (αριθµός χαρακτηριστικών + αριθµός κλάσεων)/ 2. i = αριθµός χαρακτηριστικών. o = αριθµός κλάσεων. t = (αριθµός χαρακτηριστικών + αριθµός κλάσεων). LearningRate: είχνει το βήµα µάθησης για τον «backpropagation» αλγόριθµο. Το πεδίο τιµών είναι από 0 έως 1. Momentum: Ορίζει τον ρυθµό ταχύτητας που εφαρµόζεται στα βάρη κατά τη διάρκεια της ενηµέρωσης για τον «backpropagation» αλγόριθµο. Το πεδίο τιµών είναι από 0 έως 1. NominalToBinaryFilter: Προεπεξεργάζεται τα δεδοµένα µε τη χρήση φίλτρου µε σκοπό να βελτιώσει την απόδοση εάν υπάρχουν ονοµαστικά χαρακτηριστικά στα δεδοµένα. NormalizeAttributes: Εξοµαλύνει τα χαρακτηριστικά µε σκοπό να βελτιωθεί η εκτέλεση του δικτύου. Η παράµετρος αυτή εξοµαλύνει και τα ονοµαστικά χαρακτηριστικά, εφόσον έχουν επεξεργαστεί προηγουµένως από την παράµετρο «NominalToBinaryFilter» NormalizeNumericClass: Με την παράµετρο αυτή εξοµαλύνεται µια κλάση εάν είναι αριθµητική µε σκοπό πάλι τη βελτίωση της απόδοσης του δικτύου. RandomSeed: Ορίζει τον σπόρο που θα χρησιµοποιηθεί από τον αλγόριθµο έτσι ώστε να ρυθµιστεί η γεννήτρια τυχαίων αριθµών. Να σηµειωθεί ότι οι τυχαίοι αριθµοί χρησιµοποιούνται για τον καθορισµό των αρχικών βαρών των συνδέσεων µεταξύ των κόµβων και για ανακάτεµα των δεδοµένων εκπαίδευσης. Reset: Επιτρέπει στο δίκτυο να ξαναρχίσει χρησιµοποιώντας χαµηλότερο ρυθµό εκπαίδευσης TrainingTime: Καθορίζει τον αριθµό των επαναλήψεων που θα πραγµατοποιηθεί η εκπαίδευση. SetSize: Θέτει το ποσοστό του συνόλου των δεδοµένων που θα χρησιµοποιηθούν ως σετ εκτίµησης. Η εκπαίδευση θα συνεχιστεί έως ότου παρατηρηθεί ότι το σφάλµα του σετ εκτίµησης έχει γίνει χειρότερο ή εάν ο χρόνος εκπαίδευσης έχει εξαντληθεί. Η τιµή 0 δηλώνει ότι κανένα σετ εκτίµησης δε θα χρησιµοποιηθεί. Threshold: Χρησιµοποιείται για να τερµατιστεί η validation testing, δηλαδή η δόκιµη της µεθόδου αξιολόγησης. Η τιµή που θα επιλεχθεί δείχνει πόσες 57

58 φορές στη σειρά το σφάλµα του σετ εκτίµησης µπορεί να χειροτερέψει, έως ότου η εκπαίδευση τερµατιστεί. Στον παρακάτω πίνακα µπορούµε να δούµε τις διαφορετικές επιλογές των παραµέτρων που χρησιµοποιήθηκαν, καθώς και τα αποτελέσµατα τους, µετά τη χρήση της µεθόδου αξιολόγησης µέσω επαναλαµβανόµενης δοκιµής για δέκα, πέντε και δύο φορές σε άγνωστα δεδοµένα (10, 5 και 2 folds cross validation). Πίνακας αποτελεσµάτων για τον αλγόριθµο Multilayer Perceptron ΑΚΡΙΒΕΙΑ ΤΑΞΙΝΟΜΗΣΗΣ ΜΕΤΑΒΟΛΗ 10 Fold Cross 5 Fold Cross 2 Fold Cross ΠΑΡΑΜΕΤΡΩΝ Προεπιλεγµένες ρυθµίσεις 61.36% 58.20% 62.27% Learning rate = % 59.10% 59.10% Normalize attributes = false 55.10% 56.83% 50.45% Training Time = % 58.20% 61.82% O αλγόριθµος αυτός αποτελεί έναν αρκετά ακριβή ταξινοµητή. Μοναδικά µειονεκτήµατα είναι ο πολύ µεγάλος χρόνος εκτέλεσης και ο δυσνόητος νευρώνας που εξάγει. Αξίζει να αναφέρουµε ότι πολλές φορές το πρόγραµµα δεν εξήγαγε γραφικά το νευρώνα. Αυτό οφειλόταν στη πολυπλοκότητα του νευρώνα. Όσον αφορά τις παραµέτρους του αλγορίθµου αυτές ήταν αρκετές και οι περισσότερες ήταν ρυθµισµένες έτσι ώστε ο αλγόριθµος να αποδίδει όσο καλύτερα γίνεται. Επίσης, στην περίπτωση αυτή το 2 fold cross validation απέδωσε ελάχιστα καλύτερα Νευρωνικό δίκτυο - RBF Network Ο αλγόριθµος «RBFNetwork» είναι ένα δίκτυο που εφαρµόζει µια γκαουσιανή, ακτινικής διάταξης συνάρτηση. Αυτή προέρχεται από τα κέντρα και πλάτη των κρυµµένων ενοτήτων, χρησιµοποιώντας τον «k-mean» και συνδυάζοντας τα 58

59 αποτελέσµατα που προκύπτουν από τα κρυµµένα επίπεδα, µε τη χρήση της λογιστικής παλινδρόµησης αν η κλάση είναι ονοµαστική και της γραµµικής παλινδρόµησης εάν η κλάση είναι αριθµητική. Ο αλγόριθµος αυτός έχει δυο στρώµατα, χωρίς το στρώµα εισαγωγής, και διαφέρει από τον «Multilayer Perceptron» στο ότι οι κρυµµένες µονάδες εκτελούν τους υπολογισµούς. Κάθε κρυµµένη µονάδα αντιπροσωπεύει, ουσιαστικά, ένα ιδιαίτερο σηµείο στο διάστηµα εισαγωγής, και τα αποτελέσµατα, για µια δεδοµένη περίπτωση, εξαρτώνται από την απόσταση µεταξύ του σηµείου και της περίπτωσης, η οποία αποτελεί ένα άλλο σηµείο. ιαισθητικά, τα πιο κοντινά σηµεία έχουν ισχυρότερη ενεργοποίηση. Αυτό επιτυγχάνεται µε τη χρησιµοποίηση µιας µη γραµµικής συνάρτησης µετασχηµατισµού για να µετατρέψει την απόσταση σε ένα µέτρο «οµοιότητας». Μια γκαουσιανή συνάρτηση ενεργοποίησης µε σχήµα καµπάνας, το πλάτος της οποίας µπορεί να είναι διαφορετικό για κάθε κρυµµένη µονάδα, χρησιµοποιείται, συνήθως, για το λόγο αυτό. Οι κρυµµένες µονάδες καλούνται RBFs επειδή τα σηµεία του διαστήµατος περίπτωσης για τα οποία µια δεδοµένη κρυµµένη µονάδα παράγει τον ίδιο τύπο ενεργοποίησης που είναι µια υπέρ-σφαίρα η µια υπέρέλλειψη (σε ένα Multilayer Perceptron ο τύπος είναι υπέρ-επίπεδο). Το επίπεδο παραγωγής ενός δικτύου RBF είναι το ίδιο µε αυτό του Multilayer Perceptron: παίρνει ένα γραµµικό συνδυασµό των αποτελεσµάτων των κρυµµένων µονάδων και διοχετεύεται µέσω της σιγµοειδούς συνάρτησης. Οι παράµετροι από τις οποίες ένα τέτοιο δίκτυο µαθαίνει είναι: Τα κέντρα και τα πλάτη του RBFs Τα βάρη που χρησιµοποιούνται για να διαµορφώσουν το γραµµικό συνδυασµό των αποτελεσµάτων που αποκτήθηκαν από το κρυµµένο επίπεδο. Ένα σηµαντικό πλεονέκτηµα σε σχέση µε τον Multilayer Perceptron είναι ότι το πρώτο σύνολο παραµέτρων µπορεί να καθοριστεί ανεξάρτητα από το δεύτερο σύνολο και επίσης, παράγονται ακριβείς ταξινοµητές. Ένας τρόπος για να προσδιοριστεί το πρώτο σύνολο παραµέτρων είναι να χρησιµοποιηθεί η οµαδοποίηση, χωρίς να εξεταστεί η κατηγορία κλάσης των περιπτώσεων εκπαίδευσης. Το δεύτερο σύνολο παραµέτρων ορίζεται κρατώντας τις πρώτες παραµέτρους σταθερές. Αυτό περιλαµβάνει την εκµάθηση ενός γραµµικού 59

60 προτύπου που χρησιµοποιεί µια από τις τεχνικές που έχουµε συζητήσει (π.χ. γραµµική ή λογιστική παλινδρόµηση). Ένα µειονέκτηµα των RBFNetwork είναι ότι δίνουν σε κάθε χαρακτηριστικό το ίδιο βάρος, επειδή όλα τα χαρακτηριστικά αντιµετωπίζονται εξίσου στον υπολογισµό απόστασης. Ως εκ τούτου, τα δίκτυα αυτά δεν µπορούν να ασχοληθούν αποτελεσµατικά µε άσχετα χαρακτηριστικά, σε αντίθεση µε τα «Multilayer Perceptron». Παρακάτω παρουσιάζονται και αναλύονται οι ανοικτές παράµετροι του αλγορίθµου. Εικόνα: Ανοικτές παράµετροι για τον αλγόριθµο RBF Network ClusteringSeed: Ορίζει τον σπόρο που θα χρησιµοποιηθεί από τον αλγόριθµο έτσι ώστε να ρυθµιστεί η γεννήτρια τυχαίων αριθµών. MaxIts: Ορίζει τον µέγιστο αριθµό των επαναλήψεων που θα πραγµατοποιήσει η λογιστική παλινδρόµηση. MinStdDev: Θέτει την ελάχιστη τυπική απόκλιση για τα clusters. NumClusters: Ορίζει τον αριθµό των clusters που παράγονται για τον k-mean. Ridge: Θέτουµε τις ανώτατες τιµές για την λογιστική ή την γραµµική παλινδρόµηση. 60

61 Στον παρακάτω πίνακα µπορούµε να δούµε τις διαφορετικές επιλογές των παραµέτρων που χρησιµοποιήθηκαν, καθώς και τα αποτελέσµατα τους, µετά τη χρήση της µεθόδου αξιολόγησης µέσω επαναλαµβανόµενης δοκιµής για δέκα, πέντε και δύο φορές σε άγνωστα δεδοµένα (10, 5 και 2 folds cross validation). Πινάκας αποτελεσµάτων για τον αλγόριθµο RBF Network ΜΕΤΑΒΟΛΗ ΑΚΡΙΒΕΙΑ ΤΑΞΙΝΟΜΗΣΗΣ ΠΑΡΑΜΕΤΡΩΝ 10 Fold Cross 5 Fold Cross 2 Fold Cross Προεπιλεγµένες 62.30% 59.10% 64,10% ρυθµίσεις % 58.63% 58,63% NumClusters % 58.63% 64.10% % 60.01% 65,45% % 60.45% 65,45% Πραγµατοποιώντας διάφορα πειράµατα, παρατηρήσαµε ότι αυτή είναι µια µέθοδος, η όποια επιτυγχάνει αξιόλογα αποτελέσµατα συγκριτικά µε τις άλλες µεθόδους. Αποτελεί µια από τις πιο γρήγορες στην κατηγορία της µέθοδο, αλλά συγκρινόµενη µε άλλες κατηγορίες µπορεί να θεωρηθεί σχετικά αργή. Όσον αφορά την µεταβολή των «folds» στη διαδικασία του Cross φαίνεται ότι τα καλύτερα αποτελέσµατα δόθηκαν µε 2 folds. Τέλος, ένα σηµαντικό µειονέκτηµα για τη µέθοδο είναι ότι δεν εξάγει κάποιο σχηµατικό αποτέλεσµα που θα µπορούσε να βοηθήσει στο να βγουν κάποια ευκολότερα συµπεράσµατα υπό την µορφή κανόνων Απλή Λογιστική Παλινδρόµηση - Simple Logistic Regression Ο αλγόριθµος «Simple Logistic» (Niels Landwehr.,2005) κατασκευάζει γραµµικά λογιστικά µοντέλα παλινδρόµησης. Η µέθοδος «LogitBoost» µαζί µε συναρτήσεις απλής παλινδρόµησης χρησιµοποιούνται ως βασικοί αλγόριθµοι 61

62 µάθησης για τα µοντέλα. Ο ιδανικός αριθµός επαναλήψεων του «LogitBoost» που θα πραγµατοποιηθούν, προκύπτει από τη διαδικασία του cross validation, γεγονός το όποιο οδηγεί σε αυτόµατη επιλογή χαρακτηριστικών. Παρακάτω αναλύουµε τις παραµέτρους του αλγορίθµου. Εικόνα: Ανοικτές παράµετροι για τον αλγόριθµο Simple Logistic ErrorOnPropabilities: Χρησιµοποιείται ως µέτρο σφάλµατος όταν καθορίζεται ο καλύτερος αριθµός των επαναλήψεων του LoogitBoost. Εάν χρησιµοποιηθεί, επιλέγεται ο αριθµός των προαναφερθέντων επαναλήψεων, ο οποίος µειώνει το µέσο τετραγωνικό σφάλµα, είτε για την περίπτωση της εκπαίδευσης είτε για το «crossvalidation», ανάλογα µε το εάν χρησιµοποιείται η παράµετρος UseCross. HeuristicStop: Εάν στην παράµετρο αυτή τεθεί θετική τιµή, τότε είναι ενεργοποιηµένη η πρόωρη διακοπή, κατά τη διάρκεια που γίνεται cross- validation στις επαναλήψεις του LogitBoost. Πρακτικά αυτό σηµαίνει ότι η µέθοδος LogitBoost σταµατά εάν δε παρατηρηθεί σφάλµα στην τελευταία επανάληψη. Συνιστάται να χρησιµοποιείται αυτή η παράµετρος διότι συνήθως αυξάνει την ταχύτητα. 62

63 MaxBoostingInterations: Καθορίζει τον µέγιστο αριθµό των επαναλήψεων του «LogitBoost». Προεπιλεγµένη τιµή είναι η τιµή 500. Ανάλογα µε το µέγεθος των δεδοµένων µικρότερες ή µεγαλύτερες τιµές µπορούν να δοκιµαστούν. NumBoostingInterations: Καθορίζει έναν σταθερό αριθµό επαναλήψεων για τον LogitBoost. Εάν τεθεί θετική τιµή τότε αυτός καθορίζει τον αριθµό των επαναλήψεων που θα πραγµατοποιηθούν. Εάν τεθεί αρνητική τιµή τότε ο αριθµός των επαναλήψεων προκύπτει από τη διαδικασία του cross validation ή εφαρµόζεται ένα άλλο κριτήριο τερµατισµού στο σύνολο δεδοµένων της εκπαίδευσης. UseAic: Χρησιµοποιείται εναλλακτικά για να καθορίσει το πότε θα σταµατήσουν οι επαναλήψεις του LogitBoost. UseCross: Καθορίζει εάν θα χρησιµοποιηθεί η µέθοδος cross validation στις επαναλήψεις του LogitBoost ή όχι. Εάν δε χρησιµοποιηθεί η παράµετρος αυτή τότε ο αριθµός των επαναλήψεων χρησιµοποιείται για να µειωθεί το σφάλµα εκπαίδευσης. WeightTrimBeta: Καθορίζει την τιµή beta για το βάρος του τµήµατος της µεθόδου LogitBoost. Θέτοντας την τιµή 0 δεν χρησιµοποιείται βάρος τµήµατος. Στον παρακάτω πίνακα µπορούµε να δούµε τις διαφορετικές επιλογές των παραµέτρων που χρησιµοποιήθηκαν, καθώς και τα αποτελέσµατα τους, µετά τη χρήση της µεθόδου αξιολόγησης µέσω επαναλαµβανόµενης δοκιµής για δέκα, πέντε και δύο φορές σε άγνωστα δεδοµένα (10, 5 και 2 folds cross validation). Πινάκας αποτελεσµάτων για τον αλγόριθµο Simple Logistic ΜΕΤΑΒΟΛΗ ΑΚΡΙΒΕΙΑ ΤΑΞΙΝΟΜΗΣΗΣ ΠΑΡΑΜΕΤΡΩΝ 10 Fold Cross 5 Fold Cross 2 Fold Cross Προεπιλεγµένες 64.10% 60.45% 64.54% ρυθµίσεις ErrorOnPropabilities: 61.36% 63.18% 60.45% True Use Aic; True 62.72% 62.72% 63.65% Use Crossvalidation: False 62,27% 62,27% 62,27% 63

64 Μετά από διαφόρους πειραµατισµούς καταλήξαµε στο συµπέρασµα ότι τυχόν µεταβολές στις ανοικτές παραµέτρους του αλγορίθµου, όπως για παράδειγµα χρήση του κριτηρίου Aic ή του LogitBoost, όπως και η χρήση του ErrorOnPropabilities δεν προκαλούσαν µεγάλες αυξοµειώσεις στην ακρίβεια του µοντέλου. Ο ταξινοµητής αυτός αποδίδει αρκετά καλά, µε ακρίβειες πολύ κοντινές στον «multilayer perceptron», επιτυγχάνοντας τις µάλιστα σε πολύ πιο µικρό χρονικό διάστηµα Aλγόριθµος Ελαχίστης ιαδοχικής Βελτιστοποίησης SMO Ο αλγόριθµος «SMO» (Sequential Minimal Optimization) του John Platt εφαρµόζει τον αλγόριθµο διαδοχικής ελαχίστης βελτιστοποίησης για την εκπαίδευση ενός «support vector» ταξινοµητή χρησιµοποιώντας γκαουσιανούς ή πολυονυµικούς πυρήνες (Platt 1998 & Keerthi et al.,2001). Η µέθοδος αυτή αντικαθιστά όλες τις ελλιπείς τιµές και µετατρέπει όλα τα ονοµαστικά χαρακτηριστικά σε δυαδικά. Επίσης, εξοµαλύνει όλα τα χαρακτηριστικά και οι συντελεστές των αποτελεσµάτων είναι βασισµένοι στα οµαλοποιηµένα στοιχεία και όχι στα αρχικά. Τα προβλήµατα πολλών κλάσεων επιλύονται, χρησιµοποιώντας ταξινόµηση ανά ζευγάρια. Επίσης, στην περίπτωση προβληµάτων πολλών κλάσεων για τις προβλεπόµενες πιθανότητες χρησιµοποιείται η µέθοδος «Hastie & Tibshiranis pairwise coupling method». Παρακάτω αναλύονται οι ανοικτές παράµετροι του αλγορίθµου. 64

65 Εικόνα: Ανοικτές παράµετροι για τον αλγόριθµο SMO BuiltLogisticmodels: Χρησιµοποιείται εάν θέλουµε να εφαρµόσουµε µια λογιστική µέθοδο στα αποτελέσµατα. C: Αποτελεί την περίπλοκη συνεχή παράµετρο C. Αυθαίρετα έχουµε χρησιµοποιήσει την τιµή 1. ChecksTurnedOff: Χρησιµοποιείται για να διακόψει τη χρονική διάρκεια. Πρέπει να χρησιµοποιείται µε επιφυλακτικότητα. Epsilon: Χρησιµοποιείται για τη στρογγυλοποίηση των σφαλµάτων. Η προεπιλεγµένη τιµή δε συνιστάται να αλλαχτεί. FilterType: Καθορίζει το εάν τα δεδοµένα θα υποστούν κάποια τροποποίηση και ποια θα είναι αυτή. Υπάρχουν 3 επιλογές: Normalize (κανονικοποίηση) Standardize (τυποποίηση) 65

66 Νο Normalize/Standardize (δηλαδή καµιά επιλογή) Kernel: Καθορίζει το ποιος πυρήνας θα χρησιµοποιηθεί. ίδονται κάποιες επιλογές σε πυρήνες, όπως οι πυρήνες PolyKernel, NormalizedPolyKernel, RBFkernel, StringKernel, MIPolykernel. NumFolds: Ορίζει τον αριθµό των Folds για την µέθοδο cross validation. RandomSeed: Ορίζει τον σπόρο που θα χρησιµοποιηθεί από τον αλγόριθµο έτσι ώστε να ρυθµιστεί η γεννήτρια τυχαίων αριθµών. ToleranceParameter: Αποτελεί την παράµετρο ανοχής και δεν θα πρέπει να αλλαχτεί. Στον παρακάτω πίνακα µπορούµε να δούµε τις διαφορετικές επιλογές των παραµέτρων που χρησιµοποιήθηκαν, καθώς και τα αποτελέσµατα τους, µετά τη χρήση της µεθόδου αξιολόγησης µέσω επαναλαµβανόµενης δοκιµής για δέκα, πέντε και δύο φορές σε άγνωστα δεδοµένα (10, 5 και 2 folds cross validation). Πινάκας αποτελεσµάτων για τον αλγόριθµο SMO ΑΚΡΙΒΕΙΑ ΤΑΞΙΝΟΜΗΣΗΣ ΜΕΤΑΒΟΛΗ ΠΑΡΑΜΕΤΡΩΝ 10 Fold Cross 5 Fold Cross 2 Fold Cross Προεπιλεγµένες ρυθµίσεις 58.63% 61.36% 62.27% Built Logistic Models: True 57.52% 60.90% 63.18% Normalize Training 58.63% 61.36% 62.27% FilterType Data Standardize 62.27% 62.75% 59.54% Training Data Normalized 63.20% 63.18% 65.45% Kernel Polykernel RBFKernel 66.36% 66.36% 66.36% Τα αποτελέσµατα από κάποια πειράµατα, όπως µε την τροποποίηση των δεδοµένων ή την αλλαγή του πυρήνα, που πραγµατοποιήθηκαν, φαίνονται παραπάνω. Ο ταξινοµητής αυτός ήταν από τους πιο γρήγορους στην κατηγορία επιτυγχάνοντας 66

67 αξιόλογες ακρίβειες. Παρατηρήθηκε τυχαία µεταβολή των µοντέλων σε µεταβολές ανοικτών παραµέτρων και η χρήση RBF kernel βελτίωσε αρκετά την ακρίβεια (ανεξάρτητα από τον αριθµό των folds). 5.3 Αλγόριθµοι αφελούς ταξινόµησης (LAZY) Η κατηγορία των αλγορίθµων µάθησης Lazy αποθηκεύουν τις εγγραφές εκπαίδευσης και δεν πραγµατοποιούν καµία εργασία µέχρι τη στιγµή της ταξινόµησης (γι αυτό ονοµάζονται τεµπέληδες αλγόριθµοι) Αλγόριθµος ΙB1 O «IB1» (Aha & Kibler, 1991) είναι ένας αλγόριθµος βασισµένος στα παραδείγµατα. Χρησιµοποιεί την ευκλείδεια απόσταση για να βρει τα παραδείγµατα εκπαίδευσης που βρίσκονται πιο κοντά στα δεδοµένα έλεγχου και προβλέπει την ίδια κλάση µε αυτή του παραδείγµατος εκπαίδευσης. Εάν υπάρχουν περισσότερα του ενός παραδείγµατα µε την ίδια ελάχιστη απόσταση τότε επιλέγεται το πρώτο κατά σειρά που θα βρεθεί. Όπως βλέπουµε παρακάτω, η µονή ανοικτή παράµετρος του αλγορίθµου είναι η «debug», η όποια δεν επηρεάζει την ακρίβεια του ταξινοµητή. Εικόνα: Ανοικτές παράµετροι για τον αλγόριθµο IB1 67

68 Με τη χρήση αυτού του αλγορίθµου έχουµε µόνο ένα αποτέλεσµα για την κάθε δοκιµή, όπως φαίνεται στον παρακάτω πίνακα Πινάκας αποτελεσµάτων για τον αλγόριθµο IB1 10 Fold Cross 5 Fold Cross 2 Fold Cross 57.72% 57.25% 59.10% H µέθοδος αυτή είχε µέτρια απόδοση και το καλύτερο αποτέλεσµα δόθηκε όταν εφαρµόσαµε 2-fold Cross Αλγόριθµος ΙBK Ο αλγόριθµος «IBK» (Aha & Kibler, 1991) είναι ένας αλγόριθµος κ- πλησιέστερων γειτόνων, δηλαδή βασισµένος στην µέθοδο «k-nearest neighbors». Μπορεί να επιλέξει την κατάλληλη τιµή για το k µέσω της διαδικασίας των επαναλαµβανόµενων δοκιµών (cross validation). Οι προβλέψεις των περισσότερων του ενός γειτόνων µπορούν να σταθµίζονται σύµφωνα µε τις αποστάσεις τους από τα παραδείγµατα δοκιµής. ύο διαφορετικές µορφές γειτόνων, των LinearNN και KDTree, εφαρµόζονται για την µετατροπή της απόστασης σε βάρος. Επίσης, όταν προστίθενται νέα παραδείγµατα εκπαίδευσης τα παλιά αποµακρύνονται, έτσι ώστε να διατηρηθεί ο αριθµός των παραδειγµάτων εκπαίδευσης. Παρακάτω αναλύουµε τις ανοικτές παραµέτρους του αλγορίθµου. 68

69 Εικόνα: Ανοικτές παράµετροι για τον αλγόριθµο IBK ΚNN: Χρησιµοποιείται για να επιλέξουµε τον αριθµό γειτόνων που θα χρησιµοποιηθούν. CrossValidate: Καθορίζει το εάν θα χρησιµοποιηθεί η µέθοδος των επαναλαµβανόµενων δοκιµών (cross validation) για να επιλέξουµε τον κατάλληλο αριθµό των γειτόνων. DistanceWeighting: Ορίζει τη µέθοδο που θα χρησιµοποιηθεί για distance weighting. ίδοντα τρεις επιλογές: No Distance Weighting (Μη χρήση της παραµέτρου) Weight by 1/Distance (Το βάρος των γειτόνων, χρησιµοποιώντας το αντίστροφο της απόστασης τους ) Weight by 1-Distance (βάρος των γειτόνων, χρησιµοποιώντας το ένα µείον την απόσταση τους) Mean Squared: Χρησιµοποιείται εάν θέλουµε το µέσο τετραγωνικό σφάλµα αντί του απόλυτου µέσου σφάλµατος, όταν πραγµατοποιείται η µέθοδος cross validation για προβλήµατα παλινδρόµησης. 69

70 NearestNeighbourSearchAlgorithm: Καθορίζει τη µέθοδο αναζήτησης του πλησιέστερου γείτονα. ίδονται δυο επιλογές. Οι «LinearNN» και «KDTree». WindowSize: Καθορίζει τον µέγιστο αριθµό παραδειγµάτων που επιτρέπονται στη φάση της εκπαίδευσης. Εάν προστεθούν παραδείγµατα πάνω από αυτή την τιµή, τότε αυτοµάτως θα αφαιρεθούν τα παλιά. Θέτοντας την τιµή 0 δεν περιορίζουµε τον αριθµό παραδειγµάτων και αφήνουµε τον αλγόριθµο να αποφασίσει για την καταλληλότερη τιµή. Στον παρακάτω πίνακα µπορούµε να δούµε τις διαφορετικές επιλογές των παραµέτρων που χρησιµοποιήθηκαν, καθώς και τα αποτελέσµατα τους, µετά τη χρήση της µεθόδου αξιολόγησης µέσω επαναλαµβανόµενης δοκιµής για δέκα, πέντε και δύο φορές σε άγνωστα δεδοµένα (10, 5 και 2 folds cross validation). Πινάκας αποτελεσµάτων για τον αλγόριθµο IBK ΑΚΡΙΒΕΙΑ ΤΑΞΙΝΟΜΗΣΗΣ 10 Fold Cross ΜΕΤΑΒΟΛΗ ΠΑΡΑΜΕΤΡΩΝ 5 Fold Cross 2 Fold Cross Προεπιλεγµένες Τιµές 57.27% 57.25% 59.10% DistanceWeighting: weight by 57.27% 57.25% 59.10% 1/distance Cross-Validate: True 57.27% 57.25% 59.10% Στην αρχή, η µέθοδος αυτή δεν παρέχει και κάποιο ευνόητο, σχηµατικό αποτέλεσµα, το οποίο θα την έκανε επιπλέον κατανοητή. Ύστερα όµως από την εφαρµογή διαφόρων πειραµάτων είδαµε ότι καµιά ανοικτή παράµετρος δεν επηρεάζει ιδιαίτερα το µοντέλο. 70

71 5.3.3 Αλγόριθµος Kstar O «KStar» (John., 1995) είναι ένας ταξινοµητής «instance-based» (βασισµένος στα παραδείγµατα), στον όποιο ένα παράδειγµα ελέγχου βασίζεται στην κλάση των παραδειγµάτων εκπαίδευσης που είναι όµοια σε αυτό, πράγµα το οποίο καθορίζεται από την συνάρτηση «similarity function». Ο αλγόριθµος αυτός διαφέρει από τους υπόλοιπους «instance-based» ταξινοµητές στο γεγονός ότι χρησιµοποιεί µια συνάρτηση απόστασης βασισµένη στην εντροπία. Παρακάτω αναλύουµε τις παραµέτρους του αλγορίθµου. Εικόνα: Ανοικτές παράµετροι για τον αλγόριθµο KStar EntropicAutoBlend: Καθορίζει το εάν θα χρησιµοποιηθεί η εντροπία που είναι βασισµένη στο δείγµα µας. GlobalBlend: Αναφέρεται στο σφαιρικό µίγµα και οι τιµές της κυµαίνονται από το 0 έως το 100. Εµείς έχουµε επιλέξει αυθαίρετα τη τιµή 20. Missing mode: Καθορίζει τον τρόπο που θα χειριστεί ο αλγόριθµος τις ελλιπείς τιµές (missing values). Υπάρχουν οι εξής επιλογές: Ignore the instances with missing values (αγνοεί τα παραδείγµατα ΜΜΕ ελλιπείς τιµές) 71

72 Treat missing values as maximally different (χειριζόµαστε τις ελλιπείς τιµές ως µέγιστες τιµές) Normalize over the attributes (πραγµατοποιείται εξοµάλυνση βάση των υπολοίπων χαρακτηριστικών) Average column entropy curves (υπολογίζει τον µέσο ορό των καµπύλων εντροπίας) Στον παρακάτω πίνακα µπορούµε να δούµε τις διαφορετικές επιλογές των παραµέτρων που χρησιµοποιήθηκαν, καθώς και τα αποτελέσµατα τους, µετά τη χρήση της µεθόδου αξιολόγησης µέσω επαναλαµβανόµενης δοκιµής για δέκα, πέντε και δύο φορές σε άγνωστα δεδοµένα (10, 5 και 2 folds cross validation). Πινάκας αποτελεσµάτων για τον αλγόριθµο KStar ΑΚΡΙΒΕΙΑ ΤΑΞΙΝΟΜΗΣΗΣ ΜΕΤΑΒΟΛΗ ΠΑΡΑΜΕΤΡΩΝ 10 Fold Cross 5 Fold Cross 2 Fold Cross Προεπιλεγµένες Τιµές 60.45% 59.10% 58.20% Normalize over 59.10% 57.72% 57.72% the attributes Treat missing 60.90% 59.54% 58.63% MissingModes values as maximally different Ignore the instances with missing values 63.63% 63.20% 61.36% 72

73 Η µέθοδος αυτή πετυχαίνει αξιόλογες ακρίβειες. Βέβαια και εδώ δεν παρέχεται αποτέλεσµα µε τη µορφή κανόνων. Παρόλα αυτά το 10-fold Cross φάνηκε να αποδίδει αρκετά καλά σε σχέση µε τα 2 και 5-fold Cross. 5.4 Αλγόριθµοι µεταµάθησης - «ΜΕΤΑ» (Metalearning) Οι αλγόριθµοι της κατηγορίας µετα-µάθησης έχουν την ικανότητα να µετατρέπουν τους ταξινοµητές σε πιο δυναµικούς και ισχυρούς αλγορίθµους µάθησης. Αυτό επιτυγχάνεται µε τις παραµέτρους που περιέχουν οι αλγόριθµοι, όπου ο ένας προσδιορίζει τον βασικό ταξινοµητή και οι άλλοι καθορίζουν τον αριθµό των επαναλήψεων για τους αλγορίθµους όπως bagging και boosting ή ορίζουν έναν αρχικό σπόρο για την παραγωγή του τυχαίου αριθµού από την γεννήτρια Αλγόριθµος «AdaBoostM1» Ο αλγόριθµος «AdaBoostM1» (Freund & Schappire,1996) είναι ένας αλγόριθµος που βασίζεται στη µέθοδο «boosting». ίνεται η πιθανότητα επιλογής ενός ταξινοµητή και σε ορισµένα προβλήµατα ο αλγόριθµος µπορεί να βοηθήσει τον ταξινοµητή να βελτιώσει την απόδοση του. Πολλές φορές όµως ο αλγόριθµος µπορεί να υποπέσει στην «παγίδα» της υπερπροσαρµογής. Η χρήση αυτού του αλγόριθµου µπορεί να επιταχύνει την λειτουργία της µε τον προσδιορισµό της κατώτερης τιµής του βάρους, ενώ µερικές φορές συµβαίνει υπερπροσαρµογή. Να σηµειωθεί ο ότι αλγόριθµος µάθησης µπορεί να χειριστεί µόνο ονοµαστικής κλάσης προβλήµατα. (Τα βάρη είναι οι άγνωστοι παράµετροι που εκτιµώνται µέσω µιας διαδικασίας εκπαίδευσης, όπως έχουµε δει και στην θεωρία µας στην µάθηση των ΤΝ.) Παρακάτω αναλύουµε τις ανοικτές παραµέτρους του αλγορίθµου. 73

74 Εικόνα: Ανοικτές παράµετροι για τον αλγόριθµο AdaBoostM1 Classifier: Καθορίζει τον βασικό ταξινοµητή που θα χρησιµοποιηθεί. NumIterations: Καθορίζει τον αριθµό των επαναλήψεων που θα πραγµατοποιηθούν. Seed: Καθορίζει τον τυχαίο αριθµό που θα χρησιµοποιηθεί σαν σπόρος στη γεννήτρια τυχαίων αριθµών. UseResampling: όταν θέλουµε να χρησιµοποιήσουµε την δειγµατοληψία σε αντίθεση µε τα βάρη. Στην περίπτωση του προβλήµατος µας δεν χρησιµοποιείται. WeightTreshold: Καθορίζει το κατώφλι κατώτερη τιµή που παίρνει βάρους που χρησιµοποιείται. Στον παρακάτω πίνακα µπορούµε να δούµε τις διαφορετικές επιλογές των παραµέτρων που χρησιµοποιήθηκαν, καθώς και τα αποτελέσµατα τους, µετά τη χρήση της µεθόδου αξιολόγησης µέσω επαναλαµβανόµενης δοκιµής για δέκα, πέντε και δύο φορές σε άγνωστα δεδοµένα (10, 5 και 2 folds cross validation). 74

75 Πινάκας αποτελεσµάτων για τον αλγόριθµο AdaBoostM1 ΑΚΡΙΒΕΙΑ ΤΑΞΙΝΟΜΗΣΗΣ ΜΕΤΑΒΟΛΗ ΠΑΡΑΜΕΤΡΩΝ 10 Fold Cross 5 Fold Cross 2 Fold Cross Προεπιλεγµένες 62.27% 62.72% 68.18% Ρυθµίσεις Use resampling: true 64.54% 63.63% 60.10% Classifier: J % 62.72% 63.18% Στα πειράµατα που πραγµατοποιήθηκαν δοκιµάσαµε πολλούς ταξινοµητές, ισχυρούς και αδύναµους και παρατηρήσαµε ελάχιστη βελτίωση της ακρίβειας και αύξηση του χρόνου εκτέλεσης. Τονίζουµε ότι η AdaBoostM1 δεν αποτελεί έναν κανονικό ταξινοµητή, αλλά µέθοδο για βελτίωση της επίδοσης ταξινοµητών (Michael Kearns, 1988). Τέλος, δοκιµάσαµε και την παράµετρο «UseResampling», η οποία είχε ελαφρώς θετική επίδραση στην ακρίβεια του µοντέλου Aλγόριθµος Ταξινόµησης Επιλεγµένων Χαρακτηριστικών «ASC» Ο αλγόριθµος «AttributeSelectedClassifier» έχει την ιδιότητα να επιλέγει χαρακτηριστικά, ελαττώνοντας τις διαστάσεις των δεδοµένων πριν αυτά σταλούν στον ταξινοµητή. Αυτό µπορεί σε ορισµένα προβλήµατα να βελτιώσει την απόδοση του βασικού ταξινοµητή. Παρακάτω παρουσιάζονται οι ανοικτές παράµετροι του αλγορίθµου. 75

76 Εικόνα: Ανοικτές παράµετροι για τον αλγόριθµο AttributeSelectedClassifier Classifier: Καθορίζει τον βασικό ταξινοµητή που θα χρησιµοποιηθεί. Evaluator: Καθορίζει τον εκτιµητή που θα χρησιµοποιηθεί κατά τη διάρκεια επιλογής χαρακτηριστικού πριν το ξεκίνηµα της ταξινόµησης. Search: Καθορίζει τη µέθοδο που θα χρησιµοποιηθεί κατά τη διάρκεια επιλογής χαρακτηριστικού πριν το ξεκίνηµα της ταξινόµησης. Στον παρακάτω πίνακα µπορούµε να δούµε τις διαφορετικές επιλογές των παραµέτρων που χρησιµοποιήθηκαν, καθώς και τα αποτελέσµατα τους, µετά τη χρήση της µεθόδου αξιολόγησης µέσω επαναλαµβανόµενης δοκιµής για δέκα, πέντε και δύο φορές σε άγνωστα δεδοµένα (10, 5 και 2 folds cross validation). 76

77 Πινάκας αποτελεσµάτων για τον αλγόριθµο Attribute Selected Classifier ΑΚΡΙΒΕΙΑ ΤΑΞΙΝΟΜΗΣΗΣ ΜΕΤΑΒΟΛΗ ΠΑΡΑΜΕΤΡΩΝ 10 Fold Cross 5 Fold Cross 2 Fold Cross Προεπιλεγµένες Ρυθµίσεις 63.65% 63.20% 66.36% Rank Search 63.65% 63.20% 66.36% Search: Genetic Search 63.65% 63.20% 66.36% Evaluator: GreedyStepwise 63.65% 63.20% 66.36% WrapperSubEval 66.36% 66.36% 66.36% ConsistencySubEval 61.36% 62.72% 66.36% ClassifierSubsetEval 66.36% 66.36% 66.36% Παραθέτουµε παραπάνω τα αποτελέσµατα µε βασικό ταξινοµητή τον J48. Μετά από πολλά πειράµατα παρατηρήθηκε ότι µπορεί να βελτιώσει ελάχιστα τις επιδόσεις του βασικού ταξινοµητή. Όµως, θα πρέπει να σηµειωθεί ότι αρκετές µέθοδοι δεν ήταν δυνατό να τρέξουν. Μεταβολές που πραγµατοποιήθηκαν στη µέθοδο και στον εκτιµητή που θα χρησιµοποιηθούν κατά τη διάρκεια επιλογής χαρακτηριστικών, φάνηκε να επηρεάζουν σε µικρό βαθµό την ακρίβεια του µοντέλου, όπως φαίνεται παραπάνω Αλγόριθµος «Bagging» Ο αλγόριθµος «Bagging» (Breiman,2001) χρησιµοποιεί έναν ταξινοµητή για να µειώσει τη διασπορά. Η µέθοδος αυτή µπορεί να λειτουργήσει για ταξινόµηση και για παλινδρόµηση, κάτι το οποίο εξαρτάται από τον ταξινοµητή που θα χρησιµοποιηθεί. Στην περίπτωση της ταξινόµησης οι προβλέψεις προκύπτουν από το µέσο όρο των πιθανοτήτων εκτίµησης και όχι από την ψηφοφορία. Παρακάτω παρουσιάζονται και αναλύονται οι ανοικτές παράµετροι του αλγορίθµου. 77

78 Εικόνα: Ανοικτές παράµετροι για τον αλγόριθµο Bagging BagSizePercent: Καθορίζει το µέγεθος του κάθε «bag» ως ποσοστό του µεγέθους των δεδοµένων εκπαίδευσης. CalcOutOfBag: Καθορίζει το εάν θα υπολογιστεί το out-of-bag error. Classifier: Καθορίζει τον βασικό ταξινοµητή που θα χρησιµοποιηθεί. NumIterations: Καθορίζει τον αριθµό των επαναλήψεων που θα πραγµατοποιηθούν Seed: Καθορίζει τον τυχαίο αριθµό που θα χρησιµοποιηθεί σαν σπόρος στη γεννήτρια τυχαίων αριθµών. Στον παρακάτω πίνακα µπορούµε να δούµε τις διαφορετικές επιλογές των παραµέτρων που χρησιµοποιήθηκαν, καθώς και τα αποτελέσµατα τους, µετά τη χρήση της µεθόδου αξιολόγησης µέσω επαναλαµβανόµενης δοκιµής για δέκα, πέντε και δύο φορές σε άγνωστα δεδοµένα (10, 5 και 2 folds cross validation). 78

79 Πινάκας αποτελεσµάτων για τον αλγόριθµο Bagging ΑΚΡΙΒΕΙΑ ΤΑΞΙΝΟΜΗΣΗΣ ΜΕΤΑΒΟΛΗ ΠΑΡΑΜΕΤΡΩΝ 10 Fold Cross 5 Fold Cross 2 Fold Cross Προεπιλεγµένες Ρυθµίσεις 62.72% 63.65% 65.90% CalcOutOfBag: True 62.72% 63.65% 65.90% Random 62.20% 63.20% 60.90% Classifier: Tree Simple Cart 60.45% 61.81% 65.00% REP Tree 62.72% 63.65% 65.90% Η µέθοδος αυτή εφαρµόστηκε σε διάφορους ταξινοµητές. Τα αποτελέσµατα στην ακρίβεια µερικών από αυτών φαίνονται παραπάνω. Να σηµειωθεί ότι αρκετοί αλγόριθµοι σε αυτή τη µέθοδο παρουσίαζαν πρόβληµα κατά την εκτέλεση. Η µέθοδος φάνηκε να βελτιώνει λίγο την ακρίβεια του βασικού ταξινοµητή. Επίσης, οι ανοικτές παράµετροι επέφεραν ελάχιστες και τυχαίες αλλαγές στο µοντέλο. Τέλος, η παράµετρος που καθορίζει το «out-of-bag error» δε φάνηκε να επηρεάζει την ακρίβεια του µοντέλου Αλγόριθµος Ταξινόµησης Μέσω Παλινδρόµησης «Classification Via Regression» Ο αλγόριθµος «Classification Via Regression» (Frank., 1998) κάνει ταξινόµηση χρησιµοποιώντας την µέθοδο της παλινδρόµησης, µετατρέποντας την κλάση σε δυαδική και δηµιουργώντας ένα παλινδροµικό µοντέλο για κάθε τιµή της κλάσης. Στην περίπτωση αυτή καθορίζουµε µόνο µία ανοιχτή παράµετρο. 79

80 Εικόνα: Ανοικτές παράµετροι για τον αλγόριθµο Classification Via Regression Classifier: Καθορίζει τον βασικό ταξινοµητή που θα χρησιµοποιηθεί. Στον παρακάτω πίνακα µπορούµε να δούµε τις διαφορετικές επιλογές των παραµέτρων που χρησιµοποιήθηκαν, καθώς και τα αποτελέσµατα τους, µετά τη χρήση της µεθόδου αξιολόγησης µέσω επαναλαµβανόµενης δοκιµής για δέκα, πέντε και δύο φορές σε άγνωστα δεδοµένα (10, 5 και 2 folds cross validation). Πινάκας αποτελεσµάτων για τον αλγόριθµο Classification Via Regression ΑΚΡΙΒΕΙΑ ΤΑΞΙΝΟΜΗΣΗΣ ΜΕΤΑΒΟΛΗ ΠΑΡΑΜΕΤΡΩΝ 10 Fold Cross 5 Fold Cross 2 Fold Cross Προεπιλεγµένες Ρυθµίσεις 64.10% 65.10% 57.72% REPTree 65.45% 66.36% 67.27% Με τη χρήση του αλγορίθµου «classification via regression» τρέξαµε δυο δενδρικούς ταξινοµητές. Ο REPTree παρουσίασε µια µικρή αύξηση ακρίβειας σε σχέση µε τον αµιγή ταξινοµητή. Οι υπόλοιποι δενδρικοί ταξινοµητές µπορούσαν να τρέξουν λόγω της φύσης των δεδοµένων. Επίσης, καταφέραµε µέσω αυτής της µεθόδου να τρέξουµε τον ταξινοµητή MP5, ο οποίος δεν έτρεχε σαν αµιγής ταξινοµητής και σηµείωσε αρκετά καλή επίδοση µε 10 fold cross validation. 80

81 5.4.5 Αλγόριθµος Επιλογής Παραµέτρων «CV Parameter Selection» Ο αλγόριθµος «CV Parameter Selection» (Kohavi, 1995) έχει την ικανότητα να βελτιώνει τη διαδικασία της ταξινόµησης χρησιµοποιώντας τη µέθοδο crossvalidation για να επιλέξει τις παραµέτρους της κάθε ταξινόµησης. Για κάθε παράµετρο δίνουµε µια σειρά συµβόλων που περιλαµβάνουν τα κατώτερα και ανώτερα όριά της και τον επιθυµητό αριθµό αύξησης. Παρουσιάζονται παρακάτω οι επιλογές του αλγορίθµου. Εικόνα: Ανοικτές παράµετροι για τον αλγόριθµο CVParameter Selection CVParameters: Καθορίζει τις παραµέτρους, οι οποίες πρόκειται να χρησιµοποιηθούν κατά τη διαδικασία του cross-validation. Να αναφέρουµε ότι η µορφή για κάθε εντολή πρέπει να είναι ως εξής: Για την παράµετρο P από το 1 έως το 10 µε αύξηση κατά 1 γράφεται ως εξής. « ». Classifier: Καθορίζει τον βασικό ταξινοµητή που θα χρησιµοποιηθεί. NumFolds: Ορίζει τον αριθµό των Folds για την µέθοδο cross validation. Seed: Καθορίζει τον τυχαίο αριθµό που θα χρησιµοποιηθεί σαν σπόρος στη γεννήτρια τυχαίων αριθµών. 81

82 Στον παρακάτω πίνακα µπορούµε να δούµε τις διαφορετικές επιλογές των παραµέτρων που χρησιµοποιήθηκαν, καθώς και τα αποτελέσµατα τους, µετά τη χρήση της µεθόδου αξιολόγησης µέσω επαναλαµβανόµενης δοκιµής για δέκα, πέντε και δύο φορές σε άγνωστα δεδοµένα (10, 5 και 2 folds cross validation). Πινάκας αποτελεσµάτων για τον αλγόριθµο CV Parameter Selection ΑΚΡΙΒΕΙΑ ΤΑΞΙΝΟΜΗΣΗΣ ΜΕΤΑΒΟΛΗ ΠΑΡΑΜΕΤΡΩΝ 10 Fold Cross 5 Fold Cross 2 Fold Cross ZeroR 66.36% 66.36% 66.36% Bayes Net 63.20% 64.54% 62.72% PART 59.10% 63.65% 60.45% BFTree 65.10% 65.90% 66.36% JRip 66.81% 60.45% 63.65% J % 64.10% 60.90% OneR 59.54% 61.81% 64.54% Παραθέτουµε κάποια ενδεικτικά αποτελέσµατα στον παραπάνω πινάκα. Μετά από αρκετά πειράµατα παρατηρήσαµε ότι η µέθοδος δεν επέφερε κάποια ουσιαστική αλλαγή στην επίδοση του κάθε µοντέλου. Επίσης, οι υπόλοιπες ανοικτές παράµετροι επέφεραν µικρές και τυχαίες αλλαγές στα µοντέλα Αλγόριθµος «Dagging» Ο ταξινοµητής «Dagging» (Ting & Witten, 1997) δηµιουργεί έναν αριθµό από δεδοµένα και κατόπιν τροφοδοτεί µε κάθε τµήµα από αυτά τον βασικό ταξινοµητή και οι προβλέψεις προκύπτουν µέσω της πλειονότητας των ψήφων. Αποτελεί µια χρήσιµη µέθοδο για τους βασικούς ταξινοµητές που έχουν πολύ µεγάλο χρόνο εκτέλεσης. Παρακάτω παρουσιάζουµε τις ανοικτές παραµέτρους του αλγορίθµου. 82

83 Εικόνα: Ανοικτές παράµετροι για τον αλγόριθµο Dagging NumFolds: Ορίζει τον αριθµό των Folds για την µέθοδο cross validation. Classifier: Καθορίζει τον βασικό ταξινοµητή που θα χρησιµοποιηθεί. Seed: Καθορίζει τον τυχαίο αριθµό που θα χρησιµοποιηθεί σαν σπόρος στη γεννήτρια τυχαίων αριθµών. Verbose: Καθορίζει εάν θα εξαρθούν κάποιες επιπλέον πληροφορίες κατά την κατασκευή του µοντέλου. Στον παρακάτω πίνακα µπορούµε να δούµε τις διαφορετικές επιλογές των παραµέτρων που χρησιµοποιήθηκαν, καθώς και τα αποτελέσµατα τους, µετά τη χρήση της µεθόδου αξιολόγησης µέσω επαναλαµβανόµενης δοκιµής για δέκα, πέντε και δύο φορές σε άγνωστα δεδοµένα (10, 5 και 2 folds cross validation). 83

84 Πινάκας αποτελεσµάτων για τον αλγόριθµο Dagging ΑΚΡΙΒΕΙΑ ΤΑΞΙΝΟΜΗΣΗΣ ΜΕΤΑΒΟΛΗ 10 Fold Cross 5 Fold Cross 2 Fold Cross ΠΑΡΑΜΕΤΡΩΝ Προεπιλεγµένες 61.36% 63.65% 65.00% Ρυθµίσεις Simple 66.81% 64.54% 61.36% Logistic Classifier: RBFNetwork 66.81% 67.27% 64.54% J % 67.40% 65.10% Παρατηρούµε ότι ο αλγόριθµος αυτός έδωσε πολύ καλά αποτελέσµατα σε θέµα ακρίβειας, χάνοντας βέβαια λίγο σε χρονική εκτέλεση. Καλύτερα αποτελέσµατα πήραµε µε 5 fold cross validation και βασικό ταξινοµητή τον J48 του οποίου η απόδοση βελτιώθηκε Αλγόριθµος «Decorate» O αλγόριθµος «Decorate» (Melville & Mooney, 2005) αποτελεί έναν αλγόριθµο, ο όποιος κατασκευάζει διαφόρους ταξινοµητές χρησιµοποιώντας ειδικά κατασκευασµένα παραδείγµατα εκπαίδευσης. Αναλυτικά πειράµατα έχουν δείξει ότι αυτή η µέθοδος είναι αρκετά πιο ακριβής σε σχέση µε τον βασικό ταξινοµητή και τις µεθόδους Bagging και Random Forest. O Decorate µπορεί να επιτύχει µεγαλύτερη ακρίβεια σε µικρά, συνήθως, σετ δεδοµένων σε σχέση µε τη µέθοδο Boosting, αλλά και σε µεγαλύτερα σετ δεδοµένων µπορεί να σηµειώσει αξιόλογη ακρίβεια. Μία παράµετρος της µεθόδου είναι ο αριθµός των τεχνητών παραδειγµάτων ο οποίος χρησιµοποιείται ως ποσοστό των δεδοµένων εκπαίδευσης. Μία άλλη παράµετρος είναι ο επιθυµητός αριθµός των ταξινοµητών στο σύνολο, παρόλο που η εκτέλεση µπορεί να τερµατιστεί πρόωρα επειδή ο αριθµός επαναλήψεων µπορεί να σταµατήσει. 84

85 Τα µεγαλύτερα σύνολα συνήθως παράγουν πιο ακριβή µοντέλα αλλά είναι πιο σύνθετα και έχουν µεγαλύτερη διάρκεια εκπαίδευσης. Στην παρακάτω εικόνα βλέπουµε πώς επιλέγουµε τις παραµέτρους που χρησιµοποιεί ο αλγόριθµος «Decorate». Ακολουθεί ανάλυση των ανοικτών παραµέτρων. Εικόνα: Ανοικτές παράµετροι για τον αλγόριθµο Decorate ArtificialSize: Καθορίζει τον αριθµό των τεχνητών παραδειγµάτων που θα χρησιµοποιηθούν κατά τη διάρκεια της εκπαίδευσης. Υψηλές τιµές µπορούν να αυξήσουν το επίπεδο ποικιλοµορφίας. Classifier: Καθορίζει τον βασικό ταξινοµητή που θα χρησιµοποιηθεί. DesiredSize: Καθορίζει τον επιθυµητό αριθµό ταξινοµητών στο δείγµα. Ο αλγόριθµος µπορεί να τερµατιστεί προτού επιτευχθεί το µέγεθος που έχουµε επιλέξει. Αυτό εξαρτάται από την τιµή της παραµέτρου NumIterations. Συνήθως, τα µεγάλα µεγέθη δείγµατος οδηγούν σε πιο ακριβή µοντέλα, µε τίµηµα την αύξηση της πολυπλοκότητας και του χρόνου εκτέλεσης του µοντέλου. NumIterations: Καθορίζει τον αριθµό των επαναλήψεων που θα πραγµατοποιηθούν. Κάθε επανάληψη δηµιουργεί έναν ταξινοµητή, αλλά δε τον προσθέτει απαραίτητα 85

86 στο δείγµα. Η λειτουργία του ολοκληρώνεται όταν επιτευχτεί το επιθυµητό µέγεθος που έχει οριστεί από την παράµετρο DesiredSize. Seed: Καθορίζει τον τυχαίο αριθµό που θα χρησιµοποιηθεί σαν σπόρος στη γεννήτρια τυχαίων αριθµών. Στον παρακάτω πίνακα µπορούµε να δούµε τις διαφορετικές επιλογές των παραµέτρων που χρησιµοποιήθηκαν, καθώς και τα αποτελέσµατα τους, µετά τη χρήση της µεθόδου αξιολόγησης µέσω επαναλαµβανόµενης δοκιµής για δέκα, πέντε και δύο φορές σε άγνωστα δεδοµένα (10, 5 και 2 folds cross validation). Πινάκας αποτελεσµάτων για τον αλγόριθµο Decorate ΑΚΡΙΒΕΙΑ ΤΑΞΙΝΟΜΗΣΗΣ ΜΕΤΑΒΟΛΗ ΠΑΡΑΜΕΤΡΩΝ 10 Fold Cross 5 Fold Cross 2 Fold Cross Προεπιλεγµένες ρυθµίσεις 57.72% 58.63% 60.90% REPTree 63.18% 65.45% 63.45% Classifiers: ADTree 60.10% 59.54% 60.45% Random Forest 60.10% 59.15% 66.36% Όσον αφορά τις ανοικτές παραµέτρους παρατηρήσαµε ότι γενικά δεν επηρεάζουν ιδιαίτερα την ακρίβεια του µοντέλου µας. Όµως, µετά από πολλά πειράµατα παρατηρήσαµε ότι η µέθοδος αυτή αυξάνει αρκετά τον χρόνο εκτέλεσης και παράλληλα αυξάνει λίγο την ακρίβεια σε ορισµένες περιπτώσεις Αλγόριθµος «END» O αλγόριθµος «END» (Dong., 2005) αποτελεί έναν ταξινοµητή, ο οποίος χρησιµοποιείται για τον χειρισµό δεδοµένων που αποτελούνται από πολλαπλές κλάσεις και µε τη βοήθεια ταξινοµητών δυο κλάσεων δηµιουργούν ένα σύνολο από εµφωλιασµένες διχοτοµήσεις. 86

87 Παρακάτω αναλύονται οι επιλογές του αλγορίθµου αυτού. Εικόνα: Ανοικτές παράµετροι του αλγόριθµου End Classifier: Καθορίζει τον βασικό ταξινοµητή που θα χρησιµοποιηθεί. NumIterations: Καθορίζει τον αριθµό των επαναλήψεων που θα πραγµατοποιηθούν. Seed: Καθορίζει τον τυχαίο αριθµό που θα χρησιµοποιηθεί σαν σπόρος στη γεννήτρια τυχαίων αριθµών. Στον παρακάτω πίνακα µπορούµε να δούµε τις διαφορετικές επιλογές των παραµέτρων που χρησιµοποιήθηκαν, καθώς και τα αποτελέσµατα τους, µετά τη χρήση της µεθόδου αξιολόγησης µέσω επαναλαµβανόµενης δοκιµής για δέκα, πέντε και δύο φορές σε άγνωστα δεδοµένα (10, 5 και 2 folds cross validation). 87

88 Πινάκας αποτελεσµάτων για τον αλγόριθµο End ΑΚΡΙΒΕΙΑ ΤΑΞΙΝΟΜΗΣΗΣ ΜΕΤΑΒΟΛΗ ΠΑΡΑΜΕΤΡΩΝ 10 Fold Cross 5 Fold Cross 2 Fold Cross Προεπιλεγµένες ρυθµίσεις 61.81% 64.10% 60.90% (ND Classifier) ClassBalanceND 61.81% 64.10% 60.90% Classifier DatanearBalanceND 61.81% 64.10% 60.90% Οι µονοί ταξινοµητές που µπορούσαν να τρέξουν µε αυτή τη µέθοδο ήταν οι ND Classifier, ClassBalanceND, DatanearBalanceND, τα αποτελέσµατα των οποίων φαίνονται παραπάνω. Μετά από τα πειράµατα που πραγµατοποιήθηκαν στον αλγόριθµο αυτό καταλήξαµε στο συµπέρασµα ότι αποτελεί έναν µέτρια γρήγορο και µέτρια ακριβή ταξινοµητή, ο οποίος δεν εξάγει σαφείς κανόνες Αλγόριθµος Επιλογής Συνόλου - «Ensemble Selection» Ο αλγόριθµος «Ensemble Selection» (Caruana, 2004) συνδυάζει διαφόρους ταξινοµητές, χρησιµοποιώντας την µέθοδο επιλογής συνόλου (ensemble selection). Οι παράµετροι του αλγορίθµου φαίνονται παρακάτω. 88

89 Εικόνα: Ανοικτές παράµετροι για τον αλγόριθµο Ensemble Selection Algorithm: Καθορίζεται ο αλγόριθµος που θα χρησιµοποιηθεί για τη βελτίωση του δείγµατος. Προεπιλεγµένη µέθοδος είναι η «Forward Selection» (προς τα εµπρός επιλογή) ενώ υπάρχουν ακόµα και οι επιλογές «Backward Selection» (προς τα πίσω επιλογή), «Forward & Backward Selection» (αµφίδροµη επιλογή), «Best Model» (επιλογή του καλύτερου µοντέλου) και «Built Library Only» (επιλογή από τη βιβλιοθήκη). GreedySortInitialisation: Χρησιµοποιείται εάν θέλουµε να σταµατήσει η αρχικοποίηση. 89

90 HillClimbInterations: Καθορίζει τον αριθµό των «hillclimb» επαναλήψεων (βρίσκει υποθετικές λύσεις στο πρόβληµα µας και µε µικρές αλλαγές κάθε φορά βρίσκει την καλύτερη και εκεί σταµατάει, αυτό βεβαία το αποτέλεσµα δεν είναι πάντα το καλύτερο για το πρόβληµα που µας ενδιαφέρει) για τον συγκεκριµένο αλγόριθµο. Αυθαίρετα έχουµε επιλέξει την τιµή των 100 επαναλήψεων. HillClimbMetric: Καθορίζει το µέτρο που χρησιµοποιείται για τη βελτίωση του επιλεγµένου δείγµατος. Προεπιλογή αποτελεί το µετρό RMSE ενώ υπάρχουν και τα µέτρα «Accuracy» (ακριβείας), µέτρο ROC, µέτρο Precision (ορθότητας), Recall (ανάκλησης), µέτρο Fscore και All Metrics. Library: Αποτελεί µια βιβλιοθήκη µοντέλων. ModelRatio: Καθορίζει το ποσοστό των µοντέλων που τυχαία επιλέγονται για να χρησιµοποιηθούν σε κάθε επανάληψη. NumFolds: Ορίζει τον αριθµό των Folds για τη µέθοδο cross validation. NumModelBags: Καθορίζει τον αριθµό των model bags που θα χρησιµοποιηθούν. Replacement: Καθορίζει το εάν θα χρησιµοποιηθούν πάνω από µια φορά τα µοντέλα µιας βιβλιοθήκης σε ένα δείγµα. SortInitializationRatio: Καθορίζει το ποσοστό των µοντέλων που χρησιµοποιούνται για την αρχικοποίηση. Ratio: Καθορίζει το ποσοστό των δεδοµένων εκπαίδευσης που θα παρακρατηθεί για την αξιολόγηση. VerboseOutput: Χρησιµοποιείται εάν θέλουµε τα µέτρα να τυπώνονται για κάθε µοντέλο. WorkingDirectory: Ορίζει το directory όπου αποθηκεύονται τα µοντέλα εκπαίδευσης. Στον παρακάτω πίνακα µπορούµε να δούµε τις διαφορετικές επιλογές των παραµέτρων που χρησιµοποιήθηκαν, καθώς και τα αποτελέσµατα τους, µετά τη χρήση της µεθόδου αξιολόγησης µέσω επαναλαµβανόµενης δοκιµής για δέκα, πέντε και δύο φορές σε άγνωστα δεδοµένα (10, 5 και 2 folds cross validation). 90

91 Πινάκας αποτελεσµάτων για τον αλγόριθµο Ensemble Selection ΑΚΡΙΒΕΙΑ ΤΑΞΙΝΟΜΗΣΗΣ ΜΕΤΑΒΟΛΗ ΠΑΡΑΜΕΤΡΩΝ 10 Fold Cross 5 Fold Cross 2 Fold Cross Προεπιλεγµένες Ρυθµίσεις 64.09% 65.45% 66.36% Backwards Elimination 64.09% 65.45% 66.36% Forward Selection & Backwards 65.45% 52.72% 66.81% Elimination Best Model 65.90% 65.45% 66.36% Optimize with Accuracy 63.18% 65.45% 66.36% Optimize with ROC 60.10% 56.36% 56.36% Optimize with Precision 60.10% 60.45% 66.36% Optimize with Recall 66.36% 66.36% 66.36% Optimize with Fscore 65.10% 65.45% 66.36% Optimize with All Metrics 63.18% 65.45% 66.36% Replacement: False 63.18% 65.45% 66.36% Vebrose Output: True 63.18% 65.45% 66.36% Εδώ παρατηρήσαµε σχετικά µεγάλο χρόνο εκτέλεσης, αλλά αρκετά καλές επιδόσεις, ειδικά µε 2 fold cross validation Αλγόριθµος «Filtered Classifier» Ο αλγόριθµος «Filtered Classifier» τρέχει έναν αυθαίρετο ταξινοµητή πάνω σε δεδοµένα που έχουν επιλεχθεί µε τυχαίο τρόπο. Η δοµή του φίλτρου βασίζεται αποκλειστικά στα δεδοµένα εκπαίδευσης και στα παραδείγµατα δοκιµής. Παρουσιάζονται παρακάτω οι παράµετροι του αλγορίθµου. 91

92 Εικόνα: Ανοικτές παράµετροι για τον αλγόριθµο Filtered Classifier Classifier: Καθορίζει τον βασικό ταξινοµητή που θα χρησιµοποιηθεί. Filter: Καθορίζει το φίλτρο που θα χρησιµοποιηθεί. ίδονται διάφορα φίλτρα, όπως τα, «Add Classification», «AttributeSelection», «ClassOrder», «Discretize», «NominalToBinary», «PLSFilter», «Resample», «SpreadSubSample», «StratifiedRemoveFolds». Στον παρακάτω πίνακα µπορούµε να δούµε τις διαφορετικές επιλογές των παραµέτρων που χρησιµοποιήθηκαν, καθώς και τα αποτελέσµατα τους, µετά τη χρήση της µεθόδου αξιολόγησης µέσω επαναλαµβανόµενης δοκιµής για δέκα, πέντε και δύο φορές σε άγνωστα δεδοµένα (10, 5 και 2 folds cross validation). 92

93 Πινάκας αποτελεσµάτων για τον αλγόριθµο Filtered Classifier ΑΚΡΙΒΕΙΑ ΤΑΞΙΝΟΜΗΣΗΣ ΜΕΤΑΒΟΛΗ ΠΑΡΑΜΕΤΡΩΝ 10 Fold Cross 5 Fold Cross 2 Fold Cross Προεπιλεγµένες Ρυθµίσεις 60.45% 60.00% 63.20% Class Order 61.81% 64.10% 60.90% Nominal to Binary 60.45% 62.72% 57.72% Attribute Selection 63.63% 63.20% 66.36% Resample 60.90% 55.00% 59.10% SpreadSubSample 61.81% 64.10% 60.90% Εδώ, παραθέτουµε ενδεικτικά τα αποτελέσµατα που έγιναν για τα πειράµατα µε τον αλγόριθµο J48. οκιµάσαµε το πώς οι ανοικτές παράµετροι που προσφέρει µπορούν να βελτιώσουν τις επιδόσεις του αλγόριθµου. οκιµάσαµε διάφορους αλγόριθµους και τα αποτελέσµατα ήταν πολύ κοντά µε τους αµιγείς αλγόριθµους Αλγόριθµος «Grading» Στον αλγόριθµο «Grading» (Seewald & Fuemkranz, 2001) οι είσοδοι στον ταξινοµητή αποτελούν προβλέψεις που έχουν σηµειωθεί ως σωστές ή ως λανθασµένες. Για κάθε βασικό ταξινοµητή ένας αλγόριθµος µαθαίνει αυτές τις προβλέψεις. Παρακάτω παρουσιάζονται οι ανοικτές παράµετροι του αλγορίθµου. 93

94 Εικόνα: Ανοικτές παράµετροι για τον αλγόριθµο Grading Classifier: Καθορίζει τον βασικό ταξινοµητή που θα χρησιµοποιηθεί. Metaclassifier: Καθορίζει τον αλγόριθµο µεταµάθησης που θα χρησιµοποιηθεί. NumFolds: Ορίζει τον αριθµό των Folds για την µέθοδο cross validation. Seed: Καθορίζει τον τυχαίο αριθµό που θα χρησιµοποιηθεί σαν σπόρος στη γεννήτρια τυχαίων αριθµών. Στον παρακάτω πίνακα µπορούµε να δούµε τις διαφορετικές επιλογές των παραµέτρων που χρησιµοποιήθηκαν, καθώς και τα αποτελέσµατα τους, µετά τη χρήση της µεθόδου αξιολόγησης µέσω επαναλαµβανόµενης δοκιµής για δέκα, πέντε και δύο φορές σε άγνωστα δεδοµένα (10, 5 και 2 folds cross validation). Πίνακας αποτελεσµάτων για τον αλγόριθµο Grading ΜΕΤΑΒΟΛΗ ΑΚΡΙΒΕΙΑ ΤΑΞΙΝΟΜΗΣΗΣ ΠΑΡΑΜΕΤΡΩΝ 10 Fold Cross 5 Fold Cross 2 Fold Cross ZeroR 66.36% 66.36% 66.36% J % 66.36% 66.36% LMT 66.36% 66.36% 66.36% 94

95 Παρατηρούµε ότι η ακρίβεια ταξινόµησης παραµένει αµετάβλητη Αλγόριθµος «LogitBoost» Ο αλγόριθµος LogitBoost (Friedman, 1998) αποτελεί έναν γνωστό αλγόριθµο. Πιο συγκεκριµένα ο αλγόριθµος αυτός εκτελεί επιπρόσθετη λογιστική παλινδρόµηση. Παρόµοια µε τον ταξινοµητή AdaBoostM1 υπάρχει και εδώ δυνατότητα επιτάχυνσης της εκτέλεσης της ταξινόµησης, προσδιορίζοντας ένα κατώφλι για το επιλεγµένο βάρος. Παρέχεται, επίσης, και µια παράµετρος που βοηθά στην αποφυγή του φαινοµένου της υπερπροσαρµογής. Παρακάτω παρουσιάζονται οι ανοικτές παράµετροι του αλγορίθµου. Εικόνα: Ανοικτές παράµετροι για τον αλγόριθµο LogitBoost 95

96 Classifier: Καθορίζει τον βασικό ταξινοµητή που θα χρησιµοποιηθεί. LikelihoodThreshold: Καθορίζει το κατώφλι που χρησιµοποιείται για την βελτίωση της πιθανότητας. NumFolds: Ορίζει τον αριθµό των Folds για την εσωτερική cross validation µέθοδο που θα πραγµατοποιηθεί. Η προεπιλεγµένη τιµή 0 ορίζει ότι δε θα πραγµατοποιηθεί cross validation. NumIterations: Καθορίζει τον αριθµό των επαναλήψεων που θα πραγµατοποιηθούν. Shrinkage: Καθορίζει την τιµή συρρίκνωσης περιορισµός των παραµέτρων. Καλό είναι να χρησιµοποιηθεί µικρή τιµή, έτσι ώστε να αποφευχθεί το φαινόµενο της υπερπροσαρµογής. Στην περίπτωση µας χρησιµοποιούµε τη τιµή 1 NumRuns: Καθορίζει τον αριθµό των επαναλήψεων για την εσωτερική cross validation. UseResampling: Χρησιµοποιείται όταν θέλουµε να χρησιµοποιήσουµε τη δειγµατοληψία σε αντίθεση µε τα βάρη. Στην περίπτωση του προβλήµατος µας δεν χρησιµοποιείται. WeightTreshold: Καθορίζει το κατώφλι βάρους (προτείνεται µείωση στην τιµή 50 για να επιταχυνθεί η διαδικασία µάθησης) Στον παρακάτω πίνακα µπορούµε να δούµε τις διαφορετικές επιλογές των παραµέτρων που χρησιµοποιήθηκαν, καθώς και τα αποτελέσµατα τους, µετά τη χρήση της µεθόδου αξιολόγησης µέσω επαναλαµβανόµενης δοκιµής για δέκα, πέντε και δύο φορές σε άγνωστα δεδοµένα (10, 5 και 2 folds cross validation). Πινάκας αποτελεσµάτων για τον αλγόριθµο LogitBoost ΑΚΡΙΒΕΙΑ ΤΑΞΙΝΟΜΗΣΗΣ ΜΕΤΑΒΟΛΗ ΠΑΡΑΜΕΤΡΩΝ 10 Fold Cross 5Fold Cross 2 Fold Cross Προεπιλεγµένες 60.90% 61.36% 58.63% Ρυθµίσεις UseResampling: True 64.10% 63.68% 59.55% Shrinkage= % 65.45% 64.10% NumRuns= % 65.45% 64.10% 96

97 Αρχικά να σηµειώσουµε ότι πολλοί άλλοι ταξινοµητές δεν έτρεχαν, λόγω αδυναµίας χειρισµού αριθµητικών δεδοµένων. Μετά από αρκετά πειράµατα που έγιναν µε τη µέθοδο αυτή, χρησιµοποιώντας ως βασικό ταξινοµητή τον «decision stump» είδαµε ότι αποτελεί µια µέθοδο που µπορεί να αυξήσει την ακρίβεια ενός ταξινοµητή Αλγόριθµος «MultiBoostAB» Ο αλγόριθµος «MultiBoostAB» (Geoffrey & Webb, 2000) βασίζεται στον δηµοφιλή αλγόριθµο «AdaBoost». O MultiBoostAB µπορεί να θεωρηθεί ως συνδυασµός του AdaBoost µε τη µέθοδο Βagging και µπορεί να πετύχει σηµαντική µείωση της διακύµανσης, συνδυάζοντας τα δυνατά σηµεία και από τους δυο προαναφερθέντες αλγόριθµους. Χρησιµοποιώντας τον C4.5 ως βασικό αλγόριθµο µάθησης, η µέθοδος multi boosting µπορεί να βοηθήσει τη λήψη αποφάσεων µε το µικρότερο σφάλµα. Παρακάτω παρουσιάζονται οι ανοικτές παράµετροι του αλγορίθµου Εικόνα: Ανοικτές παράµετροι για τον αλγόριθµο MultiBoostAB 97

98 Classifier: Καθορίζει τον βασικό ταξινοµητή που θα χρησιµοποιηθεί. NumIterations: Καθορίζει τον αριθµό των επαναλήψεων που θα πραγµατοποιηθούν. NumSubCmtys: Καθορίζει κατά προσέγγιση, τον αριθµό των «subcommittees» για τη λήψη αποφάσεων. Στην περίπτωση µας χρησιµοποιούµε τη τιµή 3 UseResampling: Χρησιµοποιείται όταν θέλουµε να χρησιµοποιήσουµε τη δειγµατοληψία σε αντίθεση µε τα βάρη. WeightTreshold: Καθορίζει το κατώφλι βάρους για το επιλεγµένο βάρος. Στον παρακάτω πίνακα µπορούµε να δούµε τις διαφορετικές επιλογές των παραµέτρων που χρησιµοποιήθηκαν, καθώς και τα αποτελέσµατα τους, µετά τη χρήση της µεθόδου αξιολόγησης µέσω επαναλαµβανόµενης δοκιµής για δέκα, πέντε και δύο φορές σε άγνωστα δεδοµένα (10, 5 και 2 folds cross validation). Πινάκας αποτελεσµάτων για τον αλγόριθµο MultiBoostAB ΑΚΡΙΒΕΙΑ ΤΑΞΙΝΟΜΗΣΗΣ ΜΕΤΑΒΟΛΗ ΠΑΡΑΜΕΤΡΩΝ 10 Fold Cross 5 Fold Cross 2 Fold Cross Προεπιλεγµένες Ρυθµίσεις 64.10% 65.00% 61.36% (decision stump) Προεπιλεγµένες 61.36% 56.81% 57.72% ADTree Ρυθµίσεις UseResampling: 62.27% 60.45% 61.81% True Προεπιλεγµένες 59.10% 57.27% 63.63% BFTree Ρυθµίσεις UseResampling: True 59.10% 57.27% 63.63% Στον παραπάνω πίνακα παραθέσαµε κάποια από τα πειράµατα που έγιναν µε τη µέθοδο αυτή, η οποία δεν είχε σηµαντική επίδραση στους περισσότερους ταξινοµητές σε σχέση µε ενδεχόµενη βελτίωση της ακρίβειας ταξινόµησης. Επίσης, 98

99 αύξανε την χρονική εκτέλεση του χρησιµοποιούµενου αλγορίθµου. Επιπλέον, οι ανοικτές παράµετροι επηρέαζαν ελάχιστα την ακρίβεια και µε τυχαίο τρόπο Αλγόριθµος «Multi Class Classifier» Αυτός ο αλγόριθµος µπορεί να χειριστεί προβλήµατα, τα όποια αφορούν πολλαπλές κλάσεις, µε ταξινοµητές δυο κλάσεων, χρησιµοποιώντας κάποια από τις µεθόδους από την παράµετρο «method», η οποία θα παρουσιαστεί παρακάτω σε συνδυασµό µε τις υπόλοιπες παραµέτρους. Ο αλγόριθµος αυτός έχει την ικανότητα να εξάγει διορθωµένα λάθη στα αποτελέσµατα για την αύξηση της ακρίβειας. Παρακάτω παρουσιάζονται οι ανοικτές παράµετροι του αλγορίθµου Εικόνα: Ανοικτές παράµετροι για τον αλγόριθµο Multi Class Classifier Classifier: Καθορίζει τον βασικό ταξινοµητή που θα χρησιµοποιηθεί. Method: Καθορίζει τη µέθοδο που θα χρησιµοποιηθεί για τη µετατροπή των προβληµάτων πολλών κλάσεων, σε προβλήµατα δυο κλάσεων. ίδονται οι επιλογές: «1-against-all», «random correction code», «exhaustive correction code», «1-against- 1». 99

100 RandomWidthFactor: Καθορίζει το εύρος του πολλαπλασιαστή όταν χρησιµοποιούνται τυχαίοι κώδικες. Ο αριθµός από τους κώδικες που παράγονται, πολλαπλασιάζονται µε τον αριθµό των κλάσεων, εδώ χρησιµοποιούµε τη τιµή 2. Seed: Καθορίζει τον τυχαίο αριθµό που θα χρησιµοποιηθεί σαν σπόρος στη γεννήτρια τυχαίων αριθµών. Στον παρακάτω πίνακα µπορούµε να δούµε τις διαφορετικές επιλογές των παραµέτρων που χρησιµοποιήθηκαν, καθώς και τα αποτελέσµατα τους, µετά τη χρήση της µεθόδου αξιολόγησης µέσω επαναλαµβανόµενης δοκιµής για δέκα, πέντε και δύο φορές σε άγνωστα δεδοµένα (10, 5 και 2 folds cross validation). Πινάκας αποτελεσµάτων για τον αλγόριθµο Multi Class Classifier ΑΚΡΙΒΕΙΑ ΤΑΞΙΝΟΜΗΣΗΣ ΜΕΤΑΒΟΛΗ 10 Fold Cross 5 Fold Cross 2 Fold Cross ΠΑΡΑΜΕΤΡΩΝ Προεπιλεγµένες Ρυθµίσεις 60.90% 59.54% 59.54% Random Correction Code 60.90% 59.54% 59.54% Exhaustive Correction Code 60.90% 59.54% 59.54% 1-against % 59.54% 59.54% Παρατηρήσαµε µείωση του χρόνου εκτέλεσης ταξινοµητή, αλλά και αύξηση της ακρίβειας σε σχέση µε τον αµιγή ταξινοµητή Αλγόριθµος «MultiScheme» O αλγόριθµος «MultiScheme» έχει την ικανότητα να επιλέγει τον καλύτερο ταξινοµητή, µέσα από ένα σύνολο υποψήφιων ταξινοµητών, µέσω της διαδικασίας του «cross validation» που γίνεται στα δεδοµένα εκπαίδευσης. Η απόδοση µετράται από ένα ποσοστό ακρίβειας ή από το µέσο τετραγωνικό σφάλµα. Η παράµετρος που καθορίζει τον αριθµό των επαναλήψεων επιλέγεται από τον χρήστη. 100

101 Παρουσιάζονται παρακάτω οι παράµετροι του αλγορίθµου. Εικόνα: Ανοικτές παράµετροι του αλγόριθµου MultiScheme Classifier: Καθορίζει τον βασικό ταξινοµητή που θα χρησιµοποιηθεί. Seed: Καθορίζει τον τυχαίο αριθµό που θα χρησιµοποιηθεί σαν σπόρος στη γεννήτρια τυχαίων αριθµών. NumFolds: Ορίζει τον αριθµό των Folds για την εσωτερική cross validation µέθοδο που θα πραγµατοποιηθεί. Η προεπιλεγµένη τιµή 0 ορίζει ότι δε θα πραγµατοποιηθεί cross validation. Στον παρακάτω πίνακα µπορούµε να δούµε τις διαφορετικές επιλογές των παραµέτρων που χρησιµοποιήθηκαν, καθώς και τα αποτελέσµατα τους, µετά τη χρήση της µεθόδου αξιολόγησης µέσω επαναλαµβανόµενης δοκιµής για δέκα, πέντε και δύο φορές σε άγνωστα δεδοµένα (10, 5 και 2 folds cross validation). Πινάκας αποτελεσµάτων για τον αλγόριθµο MultiScheme ΑΚΡΙΒΕΙΑ ΤΑΞΙΝΟΜΗΣΗΣ ΜΕΤΑΒΟΛΗ ΠΑΡΑΜΕΤΡΩΝ 10 Fold Cross 5 Fold Cross 2 Fold Cross Προεπιλεγµένες ρυθµίσεις 66.36% 66.36% 66.36% BFtree 65.00% 65.90% 66.36% J % 64.10% 60.90% 101

102 Παρατηρήσαµε ότι όσον αφορά την χρήση ενός ταξινοµητή η µέθοδος δεν προσφέρει κάποια ιδιαίτερη βελτίωση, αλλά όταν γίνεται συνδυασµός δυο ή περισσότερων ταξινοµητών γίνεται επιλογή του καλύτερου. Παραθέσαµε παραπάνω ενδεικτικά κάποια αποτελέσµατα Αλγόριθµος «Ordinal Class Classifier» O «Ordinal Class Classifier» (Eibe Frank & Mark Hall, 2001), αποτελεί έναν αλγόριθµο, ο οποίος εφαρµόζει τυπικούς αλγόριθµους ταξινόµησης σε προβλήµατα ταξινόµησης. Στην παρακάτω εικόνα φαίνονται οι ανοικτές παράµετροι του αλγορίθµου. Ουσιαστικά η µονή επιλογή που παρέχεται είναι η επιλογή ταξινοµητή. Εικόνα: Ανοικτές παράµετροι για τον αλγόριθµο OrdinalClassClassifier Στον παρακάτω πίνακα µπορούµε να δούµε τις διαφορετικές επιλογές των παραµέτρων που χρησιµοποιήθηκαν, καθώς και τα αποτελέσµατα τους, µετά τη χρήση της µεθόδου αξιολόγησης µέσω επαναλαµβανόµενης δοκιµής για δέκα, πέντε και δύο φορές σε άγνωστα δεδοµένα (10, 5 και 2 folds cross validation). 102

103 Πινάκας αποτελεσµάτων για τον αλγόριθµο Ordinal Class Classifier ΑΚΡΙΒΕΙΑ ΤΑΞΙΝΟΜΗΣΗΣ ΜΕΤΑΒΟΛΗ ΠΑΡΑΜΕΤΡΩΝ 10 Fold Cross 5 Fold Cross 2 Fold Cross J % 64.09% 60.90% Decision Stump 65.45% 65.45% 61.36% Simple Cart 65.00% 65.90% 66.36% Παραθέτουµε, ενδεικτικά, ορισµένα πειράµατα από τη µέθοδο στον παραπάνω πινάκα. Μετά από διάφορα πειράµατα, όσον αφορά τις ακρίβειες διαφόρων ταξινοµητών δεν παρατηρηθήκαν µεγάλες αποκλίσεις και πολλές φορές η µέθοδος προκαλούσε µείωση της ακρίβειας Αλγόριθµος «Raced Incremental Logit Boost» O αλγόριθµος Raced Incremental Logit Boost (Frank, 2002) έχει την ικανότητα να εκπαιδεύεται σταδιακά σε µεγάλα σετ δεδοµένων µε το να τρέχει χρησιµοποιώντας τη µέθοδο «Logit Boost». Το µέγεθος της παρτίδας ξεκινά από ένα δεδοµένο ελάχιστο αριθµό και διπλασιάζεται µέχρι να φτάσει στο µέγιστο. Συνοψίζοντας, αναφέρουµε ότι η µέθοδος αυτή ενδείκνυται για µεγάλα πλήθη δεδοµένων. Παρουσιάζονται παρακάτω οι παράµετροι του αλγορίθµου 103

104 Εικόνα: Ανοικτές παράµετροι για τον αλγόριθµο Raced Incremental Logit Boost Classifier: Καθορίζει τον βασικό ταξινοµητή που θα χρησιµοποιηθεί. MaxChunkSize: Καθορίζει το µέγιστο αριθµό των παραδειγµάτων, τα οποία θα χρησιµοποιήσει ο βασικός ταξινοµητής για την εκπαίδευσή του. Το µέγεθος της παρτίδας που θα χρησιµοποιηθεί ξεκινά µε τον αριθµό που έχουµε επιλέξει στην παράµετρο «MinChunkSize» και διπλασιάζεται, έως ότου να γίνει ο αριθµός ίσος µε την τιµή που έχει τεθεί στην παράµετρο «MaxChunkSize». MinChunkSize: Καθορίζει τον ελάχιστο αριθµό των παραδειγµάτων, τα όποια θα χρησιµοποιήσει ο βασικός ταξινοµητής για την εκπαίδευσή του. PrunningType: Καθορίζει τη µέθοδο που θα επιλεχθεί για τη διαδικασία του κλαδέµατος. ίδονται οι επιλογές «no pruning» και «log likelihood pruning», η οποία απορρίπτει τα νέα µοντέλα εάν έχουν αρνητική επίδραση στα δεδοµένα µας. ChunkSize: Καθορίζει τον αριθµό των παραδειγµάτων που κατακρατούνται για αξιολόγηση (τα οποία δεσµεύονται από την αρχή της διαδικασίας, οπότε η διαδικασία εκµάθησης δεν ξεκινά εάν δεν χρησιµοποιηθούν αυτά τα παραδείγµατα). 104

105 Seed: Καθορίζει τον τυχαίο αριθµό που θα χρησιµοποιηθεί σαν σπόρος στη γεννήτρια τυχαίων αριθµών. Στον παρακάτω πίνακα µπορούµε να δούµε τις διαφορετικές επιλογές των παραµέτρων που χρησιµοποιήθηκαν, καθώς και τα αποτελέσµατα τους, µετά τη χρήση της µεθόδου αξιολόγησης µέσω επαναλαµβανόµενης δοκιµής για δέκα, πέντε και δύο φορές σε άγνωστα δεδοµένα (10, 5 και 2 folds cross validation). Πινάκας αποτελεσµάτων για τον αλγόριθµο Raced Incremental Logit Boost ΑΚΡΙΒΕΙΑ ΤΑΞΙΝΟΜΗΣΗΣ 10 Fold Cross 5 Fold Cross 2 Fold Cross Προεπιλεγµένες 66.36% 66.36% 66.36% ρυθµίσεις No prunning 66.36% 66.36% 66.36% Use Resapmling: True 66.36% 66.36% 66.36% H µέθοδος όµως ενδείκνυται για πολύ µεγάλα σετ δεδοµένων. Στο παρόν πρόβληµα που το σετ δεδοµένων είναι πολύ µικρό, δεν υπήρξε καµιά αλλαγή στην ακρίβεια ή την ταχύτητα του µοντέλου Αλγόριθµος «Random Committee» O αλγόριθµος ταξινόµησης «Random Committee» αποτελεί έναν αλγόριθµο, ο οποίος δηµιουργεί ένα σύνολο από βασικούς τυχαίους ταξινοµητές, που προκύπτουν από διαφορετικούς σπόρους τυχαίων αριθµών. Ο µέσος όρος των προβλέψεων του κάθε ταξινοµητή αποτελεί την τελική πρόβλεψη. Παρακάτω παρουσιάζονται οι παράµετροι του αλγόριθµου. 105

106 Εικόνα: Ανοικτές παράµετροι για τον αλγόριθµο Random Committee Classifier: Καθορίζει τον βασικό ταξινοµητή που θα χρησιµοποιηθεί. NumIterations: Καθορίζει τον αριθµό των επαναλήψεων που θα πραγµατοποιηθούν. Seed: Καθορίζει τον τυχαίο αριθµό που θα χρησιµοποιηθεί σαν σπόρος στη γεννήτρια τυχαίων αριθµών. Στον παρακάτω πίνακα µπορούµε να δούµε τις διαφορετικές επιλογές των παραµέτρων που χρησιµοποιήθηκαν, καθώς και τα αποτελέσµατα τους, µετά τη χρήση της µεθόδου αξιολόγησης µέσω επαναλαµβανόµενης δοκιµής για δέκα, πέντε και δύο φορές σε άγνωστα δεδοµένα (10, 5 και 2 folds cross validation). Πινάκας αποτελεσµάτων για τον αλγόριθµο Random Committee ΜΕΤΑΒΟΛΗ ΑΚΡΙΒΕΙΑ ΤΑΞΙΝΟΜΗΣΗΣ ΠΑΡΑΜΕΤΡΩΝ 10 Fold Cross 5 Fold Cross 2 Fold Cross Προεπιλεγµένες 60.00% 60.00% 66.36% Ρυθµίσεις Random Forest 61.36% 62.27% 65.45% 106

107 Οι ακρίβειες που παρατηρηθήκαν για τη µέθοδο αυτή ήταν µέτριες. Πάντως, αυτή η µέθοδος µπορούσε να δουλέψει µόνο για τις µεθόδους «Random Tree» και «Random Forest». Βέβαια, βοήθησε τον ταξινοµητή «Random Tree» να βελτιώσει αρκετά την ακρίβειά του Αλγόριθµος «Random Sub Space» O αλγόριθµος Random Sub Space (Tim Kam Ho, 1998) κατασκευάζει ένα δένδρο απόφασης του βασικού ταξινοµητή ο οποίος διατηρεί υψηλή ακρίβεια στα δεδοµένα εκπαίδευσης και βελτιώνει την ακρίβεια στα πιο σύνθετα δεδοµένα. Ο ταξινοµητής αποτελείται από πολλαπλά δένδρα, συστηµατικά κατασκευασµένα από τυχαία επιλογή δεδοµένων. Παρακάτω παρουσιάζονται οι παράµετροι του αλγορίθµου. Εικόνα: Ανοικτές παράµετροι για τον αλγόριθµο RandomSubSpace Classifier: Καθορίζει τον βασικό ταξινοµητή που θα χρησιµοποιηθεί. NumIterations: Καθορίζει τον αριθµό των επαναλήψεων που θα πραγµατοποιηθούν. 107

108 Seed: Καθορίζει τον τυχαίο αριθµό που θα χρησιµοποιηθεί σαν σπόρος στη γεννήτρια τυχαίων αριθµών. SubSpaceSize: Καθορίζει το µέγεθος του κάθε υποσύνολου. Εάν η τιµή είναι µικρότερη της µονάδας, τότε σηµαίνει ότι χρησιµοποιείται ένα ποσοστό των χαρακτηριστικών, διαφορετικά χρησιµοποιείται ο απόλυτος αριθµός των χαρακτηριστικών. Στον παρακάτω πίνακα µπορούµε να δούµε τις διαφορετικές επιλογές των παραµέτρων που χρησιµοποιήθηκαν, καθώς και τα αποτελέσµατα τους, µετά τη χρήση της µεθόδου αξιολόγησης µέσω επαναλαµβανόµενης δοκιµής για δέκα, πέντε και δύο φορές σε άγνωστα δεδοµένα (10, 5 και 2 folds cross validation). Πινάκας αποτελεσµάτων για τον αλγόριθµο Random Sub Space ΜΕΤΑΒΟΛΗ ΑΚΡΙΒΕΙΑ ΤΑΞΙΝΟΜΗΣΗΣ ΠΑΡΑΜΕΤΡΩΝ 10 Fold Cross 5 Fold Cross 2 Fold Cross Προεπιλεγµένες 65.90% 65.00% 67.27% Ρυθµίσεις J % 62.30% 63.20% ΑDTree 62.30% 61.40% 63.63% Παραθέτουµε ενδεικτικά και ένα πινάκα µε κάποια πειράµατα µε τη µέθοδο αυτή. Παρατηρήσαµε ότι πιθανόν η µέθοδος αυτή βελτίωσε την ακρίβεια ορισµένων ταξινοµητών και µείωσε την ακρίβεια κάποιων άλλων Αλγόριθµος «Stacking» Ο αλγόριθµος «Stacking» (David & Wolpert, 1992) συνδυάζει ταξινοµητές, χρησιµοποιώντας τη µέθοδο «stacking» για τα προβλήµατα ταξινόµησης και παλινδρόµησης. Παρακάτω παρουσιάζουµε τις ανοικτές παραµέτρους του αλγορίθµου. 108

109 Εικόνα: Ανοικτές παράµετροι για τον αλγόριθµο Stacking Classifier: Καθορίζει τον βασικό ταξινοµητή που θα χρησιµοποιηθεί. NumFolds: Ορίζει τον αριθµό των Folds για την εσωτερική cross validation µέθοδο που θα πραγµατοποιηθεί. Η προεπιλεγµένη τιµή 0 ορίζει ότι δε θα πραγµατοποιηθεί cross validation. Metaclassifier: Καθορίζει τον αλγόριθµο µεταµάθησης που θα χρησιµοποιηθεί. Seed: Καθορίζει τον τυχαίο αριθµό που θα χρησιµοποιηθεί σαν σπόρος στη γεννήτρια τυχαίων αριθµών. Στον παρακάτω πίνακα µπορούµε να δούµε τις διαφορετικές επιλογές των παραµέτρων που χρησιµοποιήθηκαν, καθώς και τα αποτελέσµατα τους, µετά τη χρήση της µεθόδου αξιολόγησης µέσω επαναλαµβανόµενης δοκιµής για δέκα, πέντε και δύο φορές σε άγνωστα δεδοµένα (10, 5 και 2 folds cross validation). 109

110 Πινάκας αποτελεσµάτων για τον αλγόριθµο Stacking ΜΕΤΑΒΟΛΗ ΑΚΡΙΒΕΙΑ ΤΑΞΙΝΟΜΗΣΗΣ ΠΑΡΑΜΕΤΡΩΝ 10 Fold Cross 5 Fold Cross 3 Fold Cross Προεπιλεγµένες 66.36% 66.36% 66.36% Ρυθµίσεις J % 66.36% 66.36% ADTree 66.36% 66.36% 66.36%. Παραθέτουµε ενδεικτικά τρία από τα πειράµατα που κάναµε. Με βασικό ταξινοµητή τον ZeroR και διαφόρους άλλους µετά-ταξινοµητές το αποτέλεσµα παρέµεινε αµετάβλητο Αλγόριθµος «Vote» Ο αλγόριθµος «Vote» (Ludmila Kuncheva, 2004) αποτελεί µια βασική µέθοδο για το συνδυασµό ταξινοµητών, χρησιµοποιώντας µέσους όρους των πιθανοτήτων εκτίµησης για την ταξινόµηση ή µε αριθµητικές προβλέψεις για την παλινδρόµηση. Οι παράµετροι που προσφέρει ο αλγόριθµος είναι: α. η επιλογή ταξινοµητών και β. η επιλογή συνδυασµών κανόνων που χρησιµοποιούνται. Πιο συγκεκριµένα αυτή η παράµετρος µας δίνει τις επιλογές που περιγράφονται παρακάτω. 110

111 Εικόνα: Ανοικτές παράµετροι για τον αλγόριθµο Vote Combination Rules: Καθορίζει την επιλογή συνδυασµών κανόνων που χρησιµοποιούνται µε τις επιλογές: Average Of Probabilities (Μέσος Όρος πιθανοτήτων) Product Of Probabilities (Παραγωγή πιθανοτήτων) Majority Voting (Πλειοψηφία πληροφορίας) Minimum Probability (Ελάχιστη πιθανότητα) Maximum Probability (Μεγίστη πιθανότητα) Median ( ιάµεσος) Στον παρακάτω πίνακα µπορούµε να δούµε τις διαφορετικές επιλογές των παραµέτρων που χρησιµοποιήθηκαν, καθώς και τα αποτελέσµατα τους, µετά τη χρήση της µεθόδου αξιολόγησης µέσω επαναλαµβανόµενης δοκιµής για δέκα, πέντε και δύο φορές σε άγνωστα δεδοµένα (10, 5 και 2 folds cross validation). Πινάκας αποτελεσµάτων για τον αλγόριθµο Vote ΑΚΡΙΒΕΙΑ ΤΑΞΙΝΟΜΗΣΗΣ ΜΕΤΑΒΟΛΗ ΠΑΡΑΜΕΤΡΩΝ 10 Fold Cross 5 Fold Cross 2 Fold Cross Προεπιλεγµένες ρυθµίσεις 66.36% 66.36% 66.36% Product of Probabilities 66.36% 66.36% 66.36% Majority Voting 66.36% 66.36% 66.36% Minimum Probability 66.36% 66.36% 66.36% Maximum Probability 66.36% 66.36% 66.36% Παραθέτουµε ενδεικτικά κάποια πειράµατα που πραγµατοποιήθηκαν για αυτή τη µέθοδο. Η µέθοδος αυτή δε φάνηκε να επηρεάζει τα αποτελέσµατα, µεταβάλλοντας τις ανοικτές παραµέτρους. 111

112 5.5 ενδρικοί αλγόριθµοι «TREES» Η ιδιότητα που έχουν οι αλγόριθµοι αυτής της κατηγορία είναι ότι παρουσιάζουν τα αποτελέσµατά τους ως δέντρα Αλγόριθµος «BF trees» Ο αλγόριθµος «BF Trees» (Haijan Shi,2007) χρησιµοποιεί δυαδικό καταµερισµό για τα αριθµητικά και ονοµαστικά χαρακτηριστικά Παρακάτω φαίνονται οι παράµετροι που χρησιµοποιούνται στη συγκεκριµένη µέθοδο, οι οποίες επεξηγούνται. Εικόνα: Ανοικτές παράµετροι για τον αλγόριθµο BF Trees 112

113 Heuristic: Επιλέγουµε αυτή την παράµετρο, εάν θέλουµε να χρησιµοποιηθεί η ευρετική µέθοδος για το δυαδικό διαµερισµό των ονοµαστικών χαρακτηριστικών. Min Num Obj: Στην παράµετρο αυτή θέτουµε τον ελάχιστο αριθµό παραδειγµάτων στους τερµατικούς κόµβους. Num Folds Pruning: Στην παράµετρο αυτή επιλέγουµε τον αριθµό των επαναλήψεων εσωτερικά της µεθόδου αξιολόγησης, µέσω επαναλαµβανόµενων δοκιµών σε άγνωστα δεδοµένα. Pruning Strategy: Εδώ, επιλεγούµε τη στρατηγική κλαδέµατος. Η προεπιλεγµένη είναι η εκ των υστέρων κλάδεµα (post pruning). Εκτός από αυτή, υπάρχουν άλλες δυο επιλογές, και είναι οι εξής : όχι κλάδεµα (no pruning) και η εκ των πρότερων κλάδεµα (pre pruning) Size per: Εδώ, επιλέγουµε το ποσοστό του µεγέθους των δεδοµένων εκπαίδευσης. Το εύρος τιµών είναι από 0 έως 1. Use Error Rate: Επιλέγουµε αυτή την παράµετρο, εάν θέλουµε το ποσοστό σφάλµατος να χρησιµοποιείται ως εκτιµητής σφάλµατος. Εάν δεν την επιλέξουµε, τότε χρησιµοποιείται το µέσο τετραγωνικό σφάλµα. Use gini: Η παράµετρος αυτή χρησιµοποιείται εάν ο δείκτης Gini, που χρησιµοποιείται για το κριτήριο διαµερισµού, είναι αληθής. ιαφορετικά χρησιµοποιείται η πληροφορία. Use One Se: Στην παράµετρο αυτή χρησιµοποιείται ο «1 SE» κανόνας, έτσι ώστε να δηµιουργηθεί απόφαση. Στον παρακάτω πίνακα µπορούµε να δούµε τις διαφορετικές επιλογές των παραµέτρων που χρησιµοποιήθηκαν, καθώς και τα αποτελέσµατα τους, µετά τη χρήση της µεθόδου αξιολόγησης µέσω επαναλαµβανόµενης δοκιµής για δέκα, πέντε και δύο φορές σε άγνωστα δεδοµένα (10, 5 και 2 folds cross validation). 113

114 Πινάκας αποτελεσµάτων για τον αλγόριθµο BF Trees ΑΚΡΙΒΕΙΑ ΤΑΞΙΝΟΜΗΣΗΣ ΜΕΤΑΒΟΛΗ ΠΑΡΑΜΕΤΡΩΝ 10 Fold Cross 5 Fold Cross 2 Fold Cross προεπιλεγµένες τιµές 66.81% 65.90% 63.63% MinNumObj= % 64.54% 65.45% MinNumObj MinNumObj= % 66.81% 66.36% pruning Unpruned 59.10% 54.10% 60.90% strategy Pre-Pruning 66.81% 66.81% 66.36% UseErrorRate: false 65.45% 66.81% 66.36% UseGini : false 67.27% 66.81% 66.36% UseOneSE : true 66.36% 66.36% 66.36% O ταξινοµητής BFTree αποτελεί έναν αλγόριθµο που δίνει αρκετά ακριβή αποτελέσµατα. Στον παραπάνω πινάκα παρατηρούµε τις αλλαγές στην ακρίβεια του µοντέλου που προήλθαν από κάποια δοκιµαστικά τρεξίµατα που έγιναν από µεταβολές παραµέτρων του ταξινοµητή. Όσον αφορά το κλάδεµα του δένδρου, παρατηρούµε ότι η στρατηγική «Pre-Pruning» είναι η πιο αποδοτική, µε µικρή διαφορά από την προεπιλεγµένη. Συνολικά καλύτερο αποτέλεσµα πήραµε µε 10 fold cross-validation Αλγόριθµος «J48» Ο αλγόριθµος ταξινόµησης «J48» (Ross Quinlan,1993) δηµιουργεί ένα δένδρο που βασίζεται στον αλγόριθµο C4.5, το όποιο µπορεί να είναι είτε κλαδεµένο είτε ολόκληρο. Παρακάτω φαίνονται οι παράµετροι που χρησιµοποιεί ο αλγόριθµος, οι οποίες αναλύονται εκτενώς. 114

115 Εικόνα: Ανοικτές παράµετροι για τον αλγόριθµο J48 Binary Splits: Η παράµετρος αυτή χρησιµοποιείται στην περίπτωση που επιθυµούµε να χρησιµοποιηθεί διάδικος καταµερισµός στα nominal attributes όταν κατασκευάζεται το δένδρο. Confidence Factor: Η παράµετρος αυτή δείχνει τον παράγοντα εµπιστοσύνης που χρησιµοποιείται κατά τη διαδικασία του pruning (κλαδέµατος). Μελέτες δείχνουν ότι η προεπιλεγµένη τιµή 0.25 δουλεύει καλά στις περισσότερες των περιπτώσεων. Εάν µικρύνουµε την τιµή αυτή, θα προκαλέσουµε ένα πιο δραστικό κλάδεµα. MinNumObj: Η παράµετρος αυτή δείχνει τον ελάχιστο αριθµό παραδειγµάτων που πρέπει να υπάρχει, έτσι ώστε να δηµιουργηθεί φύλλο. Η µεταβολή της τιµής αυτής µπορεί να δηµιουργήσει πιο γενικά ή πιο εξειδικευµένα δένδρα. Συγκεκριµένα, όσο µεγαλύτερη η τιµή τόσο πιο γενικό το δένδρο και όσο µικρότερη είναι η τιµή τόσο πιο εξειδικευµένο είναι το δένδρο. 115

116 Reduced Error Pruning: Η παράµετρος αυτή χρησιµοποιείται εάν θέλουµε να χρησιµοποιηθεί για κλάδεµα η µέθοδος Reduced Error Pruning, αντί για την προεπιλεγµένη που είναι η C4.5 pruning. Save Instance Data: Η παράµετρος αυτή χρησιµοποιείται εάν θέλουµε να σωθούν τα training data (δεδοµένα εκπαίδευσης). Seed: Ο σπόρος χρησιµοποιείται για την τυχαιοποίηση των δεδοµένων όταν χρησιµοποιείται η ελάττωση σφάλµατος «κλαδέµατος». Η τιµή του σπόρου είναι 1. Sub Tree Raising: Η παράµετρος αυτή δείχνει την µια εκ των δυο µεθόδων που χρησιµοποιούνται για post-pruning (εκ των υστέρων κλάδεµα). Η άλλη µέθοδος είναι η «subtree replacement». είχνει, δηλαδή, εάν θα ακολουθείται η µέθοδος αυτή κατά το κλάδεµα του δένδρου. Unpruned: Η παράµετρος αυτή δείχνει εάν τελικά θα πραγµατοποιηθεί κλάδεµα. Use Laplace: Η παράµετρος αυτή χρησιµοποιείται εάν θέλουµε τα µετρά των φύλλων να οµαλοποιηθούν µε βάση το κριτήριο του Laplace. Στον παρακάτω πίνακα µπορούµε να δούµε τις διαφορετικές επιλογές των παραµέτρων που χρησιµοποιήθηκαν, καθώς και τα αποτελέσµατα τους, µετά τη χρήση της µεθόδου αξιολόγησης µέσω επαναλαµβανόµενης δοκιµής για δέκα, πέντε και δύο φορές σε άγνωστα δεδοµένα (10, 5 και 2 folds cross validation). Πινάκας αποτελεσµάτων για τον αλγόριθµο J48 ΑΚΡΙΒΕΙΑ ΤΑΞΙΝΟΜΗΣΗΣ ΜΕΤΑΒΟΛΗ ΠΑΡΑΜΕΤΡΩΝ 10 Fold Cross 5 Fold Cross 2 Fold Cross προεπιλεγµένες τιµές 61.81% 64.10% 60.90% Binary Splits: True 57.27% 60.10% 61.81% Reduced Error Prunning: True 59.54% 60.10% 62.27% SubTreeRaising: False 57.72% 60.10% 65.90% Unpruned: True 58.18% 58.63% 63.63% UseLaplace: True 57.27% 60.10% 61.81% 116

117 Ξεκινώντας το σχολιασµό για αυτόν τον ταξινοµητή, πρέπει να αναφέρουµε ότι έχει ένα µεγάλο πλεονέκτηµα, αυτό της εξαγωγής δένδρου απόφασης. Στον παραπάνω πινάκα παρατηρούνται οι αλλαγές που έγιναν µεταβαλλόντας τις παραµέτρους του. Ο ταξινοµητής J48 βασίζεται στον αλγόριθµο C4.5. Ο ταξινοµητής αυτός, λοιπόν, είχε αρκετά καλή επίδοση σε θέµα ακρίβειας και πολύ µεγάλη ταχύτητα εκτέλεσης. Γενικά φάνηκε, ωστόσο, ότι µεταβολές στις ανοικτές παραµέτρους έτειναν να µειώνουν την ακρίβεια του µοντέλου. Επίσης, να αναφέρουµε ότι η χρήση των παραµέτρων «Binary splits=true», «Unpruned», «SubTreeRaising=False» και «Use Laplace» έτειναν να µειώνουν αισθητά την ακρίβεια του µοντέλου. Τέλος, να τονίσουµε ότι ισχυρές µεταβλητές του ήταν οι εξής τρεις : «Οικογενειακό Εισόδηµα», «Είδος όσεων» και το «Εισόδηµα εγγυητή», όπως πρόεκυψαν από το εξαγόµενο δένδρο απόφασης ένδρα Λογιστικών Μοντέλων - «LMT» O αλγόριθµος «LMT» (Landwehr, 2005) χρησιµοποιείται για προβλήµατα ταξινόµησης και χρησιµοποιεί λογιστική παλινδρόµηση αντί για γραµµική παλινδρόµηση. Αυτός ο αλγόριθµος µπορεί να χειριστεί δυαδικές µεταβλητές και µεταβλητές µε πολλαπλές τάξεις, αριθµητικά και ονοµαστικά χαρακτηριστικά, και ελλιπείς τιµές. Παρακάτω παρουσιάζονται οι ανοικτές παράµετροι του αλγορίθµου. 117

118 Εικόνα: Ανοικτές παράµετροι για τον αλγόριθµο LMT ConvertNominal: Μετατρέπει όλα τα ονοµαστικά χαρακτηριστικά σε δυαδικά πριν την κατασκευή του δένδρου. Αυτό σηµαίνει ότι όλα τα τµήµατα στο τελικό δένδρο θα είναι δυαδικά. Στο πρόβληµα µας δεν χρησιµοποιούµε αυτή την επιλογή. ErrorOnPropabilities: Ελαχιστοποιεί το σφάλµα των πιθανοτήτων αντί για το σφάλµα της λανθασµένης ταξινόµησης όταν γίνεται «cross-validation» στις επαναλήψεις του «Logitboοst». Εάν επιλεχθεί τότε ο αριθµός των «LogitBoost» επαναλήψεων επιλέγεται για την ελαχιστοποίηση του µέσου τετραγωνικού σφάλµατος. FastRegression: Βοηθά στην αποφυγή του cross- validation σε κάθε κόµβο µε σκοπό την εξοικονόµηση χρόνου. Χρησιµοποιεί ευρετικές µεθόδους, που αφού γίνει το cross-validation σε ένα κόµβο, η τιµή που προκύπτει χρησιµοποιείται και στους υπόλοιπους. MinNumInstances: Θέτει τον ελάχιστο αριθµό παραδειγµάτων που χρησιµοποιούνται σε κάθε κόµβο για να γίνει διαµερισµός. 118

119 NumBoostinInterations: θέτει ένα συγκεκριµένο αριθµό επαναλήψεων για τον «LogitBoost». Εάν είναι θετική, τότε ορίζεται ένας συγκεκριµένος αριθµός επαναλήψεων, που ακολουθείται σε όλο το δένδρο. Εάν είναι αρνητικός, τότε ο αριθµός αυτός ακολουθεί τη µέθοδο «cross-validation». SplitOnResiduals: Ορίζει εάν θα χρησιµοποιηθεί το κριτήριο τµηµατοποίησης βασισµένου στα residuals του «LogitBoost». UseAic: Ορίζει πότε θα σταµατήσουν οι επαναλήψεις του LogitBoost. Στον παρακάτω πίνακα µπορούµε να δούµε τις διαφορετικές επιλογές των παραµέτρων που χρησιµοποιήθηκαν, καθώς και τα αποτελέσµατα τους, µετά τη χρήση της µεθόδου αξιολόγησης µέσω επαναλαµβανόµενης δοκιµής για δέκα, πέντε και δύο φορές σε άγνωστα δεδοµένα (10, 5 και 2 folds cross validation). Πινάκας αποτελεσµάτων για τον αλγόριθµο LMT ΑΚΡΙΒΕΙΑ ΤΑΞΙΝΟΜΗΣΗΣ ΜΕΤΑΒΟΛΗ ΠΑΡΑΜΕΤΡΩΝ 10 Fold Cross 5 Fold Cross Validatio 2 Fold Cross n Προεπιλεγµένες τιµές 64.10% 59.54% 64.54% ConvertNominal: true 64.10% 60.45% 64.54% erroronpropabilities: true 57.72% 61.36% 56.36% FastRegression: true 58.63% 61.36% 57.27% SplitOnResiduals: true 61.81% 60.45% 56.81% UseAic: true 64.54% 58.18% 60.90% Παρατήσαµε ότι η αλλαγή των µεταβλητών «erroronpropabilities» και «SplitOnResiduals» από false σε true έκαναν τον αλγόριθµο πιο αργό κατά την εκτέλεση και µείωσαν την ακρίβεια του µοντέλου Ο αλγόριθµος LMT, πάντως, σηµείωσε αρκετά αξιόλογη ακρίβεια ταξινόµησης στην κατηγορία των δένδρων, αλλά και γενικά, σε σχέση µε όλους τους ταξινοµητές του WEKA, µε µοναδικά µειονεκτήµατα τον µεγάλο χρόνο εκτέλεσης και την µη δυνατότητα εξαγωγής δένδρου. Ελάχιστα καλύτερα αποτελέσµατα έδωσε το 2-fold cross validation. 119

120 5.5.4 ένδρα «Naive Bayes» O δενδρικός αλγόριθµος «NB tree» (Ron Kohavi, 1996) αποτελεί ένα υβριδικό µοντέλο µεταξύ δένδρων απόφασης και του αλγόριθµου «Naïve Bayes». ηµιουργεί δένδρα που τα φύλλα τους βασίζονται σε «Naïve Bayes» ταξινοµητές. Κατά τη διάρκεια της κατασκευής του δένδρου, η µέθοδος αξιολόγησης µέσω δοκιµών σε άγνωστα δεδοµένα (cross validation) χρησιµοποιείται για να αποφασίσει αν κάποιος κόµβος θα πρέπει να χωριστεί επιπλέον ή αν πρέπει να χρησιµοποιηθεί ένα Naïve Bayes µοντέλο. Η µοναδική παράµετρος που χρησιµοποιείται είναι η διερεύνηση σφαλµάτων. Εικόνα: Ανοικτές παράµετροι για τον αλγόριθµο NB tree Ο ταξινοµητής ΝΒTree δεν προσέφερε δυνατότητες στην αλλαγή ανοικτών παραµέτρων, πλην της debug, η οποία όµως δεν επιφέρει γενικά αλλαγές στην επίδοση ενός αλγόριθµου, διότι ο ρόλος της είναι να εξαχθούν στην οθόνη κάποιες επιπλέον πληροφορίες σχετικά µε την εκτέλεση του ταξινοµητή. Εποµένως µε τη χρήση αυτού του αλγορίθµου έχουµε µόνο ένα αποτέλεσµα για την κάθε δοκιµή, όπως φαίνεται στον παρακάτω πίνακα. 120

121 Πινάκας αποτελεσµάτων για τον αλγόριθµο NB tree 10 Fold Cross 5 Fold Cross 2 Fold Cross 57.27% 62.27% 64.10% Παρατηρήσαµε εδώ µέτριες επιδόσεις µε καλύτερα αποτελέσµατα κατά την χρήση 2 fold cross validation Αλγόριθµος «Random Forest» Ο αλγόριθµος ταξινόµησης «Random Forest» (Breiman, 2001) κατασκευάζει τυχαία δάση µε την µέθοδο «bagging» από ένα σύνολο τυχαίων δένδρων. Οι ανοικτές παράµετροι είναι οι κάτωθι. Εικόνα: Ανοικτές παράµετροι για τον αλγόριθµο Random Forest Debug: Αν είναι αληθές, τότε ο ταξινοµητής µπορεί να εµφανίσει επιπλέον πληροφορίες. 121

122 MaxDepth: καθορίζει το µέγιστο βάθος του δένδρου. NumFeatures: Καθορίζει τον αριθµό των χαρακτηριστικών που θα χρησιµοποιηθούν στην τυχαία επιλογή. NumTrees: Καθορίζει τον αριθµό των δένδρων που θα δηµιουργηθούν. Seed: Ο σπόρος χρησιµοποιείται για την τυχαιοποίηση των δεδοµένων όταν χρησιµοποιείται η ελάττωση σφάλµατος «κλαδέµατος». Η τιµή του σπόρου είναι 1. Στον παρακάτω πίνακα µπορούµε να δούµε τις διαφορετικές επιλογές των παραµέτρων που χρησιµοποιήθηκαν, καθώς και τα αποτελέσµατα τους, µετά τη χρήση της µεθόδου αξιολόγησης µέσω επαναλαµβανόµενης δοκιµής για δέκα, πέντε και δύο φορές σε άγνωστα δεδοµένα (10, 5 και 2 folds cross validation). Πινάκας αποτελεσµάτων για τον αλγόριθµο Random Forest ΑΚΡΙΒΕΙΑ ΤΑΞΙΝΟΜΗΣΗΣ ΜΕΤΑΒΟΛΗ ΠΑΡΑΜΕΤΡΩΝ 10 Fold Cross 5 Fold Cross 2 Fold Cross Προεπιλεγµένες τιµές 60.90% 59.10% 62.27% NumFeatures % 60.10% 62.27% NumTrees= % 60.90% 61.81% Seed= % 63.63% 61.36% Ο ταξινοµητής αυτός είχε µέτρια απόδοση όσον αφορά τον χρόνο εκτέλεσης και την ακρίβεια ταξινόµησης. Παρατηρήθηκε, όµως, ότι η µείωση των παραγοµένων δένδρων µείωσε την ακρίβεια του ταξινοµητή. Και εδώ το 2 fold cross validation έδωσε λίγο καλυτέρα αποτελέσµατα Αλγόριθµος «Simple Cart» 122

123 Ο αλγόριθµος «Simple Cart» (Breiman, 1984) χρησιµοποιεί δένδρα ταξινόµησης και παλινδρόµησης. Η τεχνική CART έχει αναφερθεί αναλυτικά σε προηγούµενο κεφάλαιο (3.1.2). Παρακάτω παρουσιάζονται οι παράµετροι του αλγορίθµου. Εικόνα: Ανοικτές παράµετροι του αλγόριθµου Simple Cart Debug: Αν είναι αληθές, τότε ο ταξινοµητής µπορεί να εµφανίσει επιπλέον πληροφορίες. Heuristic: Επιλέγουµε αυτή την παράµετρο εάν θέλουµε να χρησιµοποιηθεί η ευρετική ερευνά για το δυαδικό διαµερισµό των ονοµαστικών χαρακτηριστικών. MinNumObj: Η παράµετρος αυτή δείχνει τον ελάχιστο αριθµό παραδειγµάτων που πρέπει να υπάρχει, έτσι ώστε να δηµιουργηθεί φύλλο. Η µεταβολή της τιµής αυτής µπορεί να δηµιουργήσει πιο γενικά ή πιο εξειδικευµένα δένδρα. Συγκεκριµένα, όσο µεγαλύτερη η τιµή τόσο πιο γενικό το δένδρο και όσο µικρότερη είναι η τιµή τόσο πιο εξειδικευµένο είναι το δένδρο. 123

124 NumFoldsPruning: Στην παράµετρο αυτή επιλέγουµε τον αριθµό των επαναλήψεων εσωτερικά της µεθόδου αξιολόγησης, µέσω επαναλαµβανόµενων δοκιµών σε άγνωστα δεδοµένα. Seed: Ο σπόρος χρησιµοποιείται για την τυχαιοποίηση των δεδοµένων όταν χρησιµοποιείται η ελάττωση σφάλµατος «κλαδέµατος». Η τιµή του σπόρου είναι 1. SizePer: Εδώ, επιλέγουµε το ποσοστό του µεγέθους των δεδοµένων εκπαίδευσης. Το εύρος τιµών είναι από 0 έως 1. UseOneSe: Στην παράµετρο αυτή χρησιµοποιείται ο «1SE» κανόνας, έτσι ώστε να δηµιουργηθεί απόφαση. UsePrune: Καθορίζει εάν θα χρησιµοποιηθεί κλάδεµα. Στον παρακάτω πίνακα µπορούµε να δούµε τις διαφορετικές επιλογές των παραµέτρων που χρησιµοποιήθηκαν, καθώς και τα αποτελέσµατα τους, µετά τη χρήση της µεθόδου αξιολόγησης µέσω επαναλαµβανόµενης δοκιµής για δέκα, πέντε και δύο φορές σε άγνωστα δεδοµένα (10, 5 και 2 folds cross validation). Πινάκας αποτελεσµάτων για τον αλγόριθµο Simple Cart ΑΚΡΙΒΕΙΑ ΤΑΞΙΝΟΜΗΣΗΣ ΜΕΤΑΒΟΛΗ ΠΑΡΑΜΕΤΡΩΝ 10 Fold Cross 5 Fold Cross 2 Fold Cross Προεπιλεγµένες τιµές 65.00% 65.90% 66.36% Heuristics: false 65.00% 65.90% 66.36% MinNumObj= % 65.00% 66.36% NumFoldsPruning= % 65.90% 66.36% SιzePer = % 65.90% 66.36% UseOneSe=true 64.00% 65.90% 66.36% UsePrune: False 59.10% 54.10% 60.90% Όσον αφορά τα πειράµατα που έγιναν, µεταβάλλοντας τις παραµέτρους, οι περισσότερες δεν επηρέασαν σχεδόν καθόλου την ακρίβεια του µοντέλου. Ο 124

125 ταξινοµητής αυτός, πάντως, είχε πολύ καλή απόδοση στο πρόβληµα αυτό. Όσον αφορά τον χρόνο εκτέλεσης ήταν µέτριος στην κατηγορία των δένδρων. Επίσης, παρατηρήθηκε σηµαντική πτώση στην ακρίβεια, όταν µεταβάλαµε την παράµετρο «UsePrune» σε False, δηλαδή να µη γίνει κλάδεµα. Αρνητική επίδραση φάνηκε να έχει στον ταξινοµητή και η χρήση κανόνων one SE για το κλάδεµα Αλγόριθµος «Random Tree» Ο αλγόριθµος «Random Tree» δηµιουργεί ένα δένδρο που επιλέγει «k» τυχαία χαρακτηριστικά σε κάθε κόµβο. Να σηµειωθεί ότι δεν πραγµατοποιείται κλάδεµα. Παρακάτω παρουσιάζονται οι ανοιχτοί παράµετροι του αλγορίθµου. Εικόνα: Ανοικτές παράµετροι για τον αλγόριθµο Random Tree KValue: Kαθορίζει τον αριθµό των τυχαία επιλεγοµένων χαρακτηριστικών. MaxDepth: Kαθορίζει το µέγιστο βάθος του δένδρου. Seed: Ο σπόρος χρησιµοποιείται για την τυχαιοποίηση των δεδοµένων όταν χρησιµοποιείται η ελάττωση σφάλµατος «κλαδέµατος». Η τιµή του σπόρου είναι 1. MinNum: Καθορίζει το ελάχιστο συνολικό βάρος των παραδειγµάτων σε ένα φύλλο. 125

126 Στον παρακάτω πίνακα µπορούµε να δούµε τις διαφορετικές επιλογές των παραµέτρων που χρησιµοποιήθηκαν, καθώς και τα αποτελέσµατα τους, µετά τη χρήση της µεθόδου αξιολόγησης µέσω επαναλαµβανόµενης δοκιµής για δέκα, πέντε και δύο φορές σε άγνωστα δεδοµένα (10, 5 και 2 folds cross validation). Πινάκας αποτελεσµάτων για τον αλγόριθµο Random Tree ΑΚΡΙΒΕΙΑ ΤΑΞΙΝΟΜΗΣΗΣ ΜΕΤΑΒΟΛΗ ΠΑΡΑΜΕΤΡΩΝ 10 Fold Cross 5 Fold Cross 2 Fold Cross Προεπιλεγµένες τιµές 59.10% 55.00% 54.54% K-Value= % 61.81% 48.53% Seed= % 53.63% 62.27% Στην περίπτωση αυτή καλύτερα αποτελέσµατα ταξινόµησης δόθηκαν µε την χρήση 2 Fold Cross και seed=0.5 Γενικά, ο ταξινοµητής είχε αξιόλογη απόδοση στην ταχύτητα εκτέλεσης, αλλά όχι και στο θέµα της ακρίβειας. Πέτυχε ποσοστά αρκετά χαµηλά σε σχέση µε τους περισσότερους ταξινοµητές της κατηγορίας του, αλλά και σε σχέση µε άλλους από άλλες κατηγορίες Αλγόριθµος «REPTree» Η µέθοδος «REPTrees» κατασκευάζει ένα δένδρο απόφασης ή παλινδρόµησης, χρησιµοποιώντας πληροφορίες της µορφής κέρδος ή διακύµανση (gain ή variance) αντίστοιχα και κάνει κλάδεµα στο δένδρο χρησιµοποιώντας το µειωµένο σφάλµα περικοπής (reduced error pruning), έχει ως πλεονέκτηµα τη βελτιωµένη ταχύτητα κατασκευής δένδρων. Παρακάτω παρουσιάζονται οι παράµετροι του αλγορίθµου. 126

127 Εικόνα: Ανοικτές παράµετροι για τον αλγόριθµο REPTrees MaxDepth: είχνει το µέγιστο βάθος του δένδρου. MinNum: είχνει το ελάχιστο συνολικό βάρος των παραδειγµάτων σε ένα φύλλο. MinVarianceProb: Καθορίζει το ελάχιστο ποσοστό της διακύµανσης σε όλα τα δεδοµένα που πρέπει να βρίσκονται σε έναν κόµβο, έτσι ώστε να διαχωρίσουν για να εκτελέσουν παλινδροµικά δένδρα. NoPruning: Καθορίζει εάν θα πραγµατοποιηθεί το κλάδεµα. NumFolds: Καθορίζει το ποσό των δεδοµένων που θα χρησιµοποιηθεί για κλάδεµα. Το ένα fold χρησιµοποιείται για το κλάδεµα και τα υπόλοιπα για την ανάπτυξη των κανόνων. Στον παρακάτω πίνακα µπορούµε να δούµε τις διαφορετικές επιλογές των παραµέτρων που χρησιµοποιήθηκαν, καθώς και τα αποτελέσµατα τους, µετά τη χρήση της µεθόδου αξιολόγησης µέσω επαναλαµβανόµενης δοκιµής για δέκα, πέντε και δύο φορές σε άγνωστα δεδοµένα (10, 5 και 2 folds cross validation). 127

128 Πινάκας αποτελεσµάτων για τον αλγόριθµο REPTrees ΑΚΡΙΒΕΙΑ ΤΑΞΙΝΟΜΗΣΗΣ ΜΕΤΑΒΟΛΗ ΠΑΡΑΜΕΤΡΩΝ 10 Fold Cross 5 Fold Cross 2 Fold Cross Προεπιλεγµένες τιµές 65.45% 65.00% 66.36% max depth= % 65.00% 66.36% no pruning: true 59.54% 60.90% 62.27% NumFolds= % 60.90% 62.27% Εδώ παρατηρήσαµε, επίσης, αξιόλογες ακρίβειες ταξινόµησης. Ο REPTree, επίσης, είναι ένας ταξινοµητής, ο όποιος σηµείωσε αρκετά µεγάλη ταχύτητα εκτέλεσης. Οι ανοικτές παράµετροι, πάντως, δεν φάνηκε να επηρεάζουν πολύ το µοντέλο, εκτός από δύο, τις «nopruning» και «numfolds», οι οποίες επηρέασαν αρκετά την ακρίβεια του µοντέλου. 5.6 Αλγόριθµοι Εξαγωγής Κανόνων «RULES» Στην κατηγορία αυτή ανήκουν αλγόριθµοι µάθησης, οι οποίοι δηµιουργούν κανόνες αποφάσεων και οι τελευταίοι παρουσιάζονται ως αποτελέσµατα στην πειραµατική εφαρµογή των αλγορίθµων Αλγόριθµος «Conjunctive Rule» Ο αλγόριθµος αυτός εφαρµόζει έναν απλό κανόνα, ο οποίος µπορεί να κάνει προβλέψεις για αριθµητικές και ονοµαστικές κλάσεις. Ένας κανόνας αποτελείται από προγονούς και την αξία της κλάσης για την ταξινόµηση ή παλινδρόµηση. Σε αυτή την περίπτωση η συνέπεια είναι η διανοµή των διαθέσιµων κατηγοριών στο σύνολο των διαθέσιµων δεδοµένων (ή ο µέσος για αριθµητικά δεδοµένα). Ο αλγόριθµος αυτός επιλέγει έναν πρόγονο, υπολογίζοντας το information gain του κάθε προγονού και 128

129 κλαδεύει τον παραγόµενο κανόνα, χρησιµοποιώντας τη µέθοδο reduced error pruning ή τη µέθοδο pre pruning. Για την ταξινόµηση, οι πληροφορίες ενός προγονού είναι ο σταθµισµένος µέσος Όρος των εντροπιών των στοιχείων που καλύπτονται, όπως και αυτών που δεν καλύπτονται από τον κανόνα. Για την παλινδρόµηση, οι πληροφορίες είναι ο σταθµισµένος µέσος Όρος των µέσων τετραγωνικών σφαλµάτων των στοιχείων που καλύπτονται, όπως και αυτών που δεν καλύπτονται από τον κανόνα, οµοίως. Παρακάτω παρουσιάζονται οι παράµετροι του αλγορίθµου. Εικόνα: Ανοικτές παράµετροι για τον αλγόριθµο Conjunctive Rule Exclusive: Χρησιµοποιείται εάν θέλουµε να χρησιµοποιούνται αποκλειστικές εκφράσεις για το διαχωρισµό των ονοµαστικών χαρακτηριστικών. Folds: Προσδιορίζει το ποσό των δεόµενων που χρησιµοποιούνται για κλάδεµα. Το ένα fold χρησιµοποιείται για κλάδεµα και τα υπόλοιπα για ανάπτυξη των κανόνων. MinΝο: Καθορίζει το ελάχιστο δυνατό συνολικό βάρος των παραδειγµάτων σε ένα κανόνα. NumAntds: Χρησιµοποιείται για να ορίσει τον αριθµό των προγονών που επιτρέπονται σε έναν κανόνα, εάν χρησιµοποιείται η τακτική pre-pruning. Εάν στην παράµετρο αυτή τεθεί τιµή διαφορετική του -1, τότε θα χρησιµοποιηθεί η τακτική 129

130 κλαδέµατος pre-pruning, διαφορετικά θα χρησιµοποιηθεί η τεχνική reduced error pruning. Στον παρακάτω πίνακα µπορούµε να δούµε τις διαφορετικές επιλογές των παραµέτρων που χρησιµοποιήθηκαν, καθώς και τα αποτελέσµατα τους, µετά τη χρήση της µεθόδου αξιολόγησης µέσω επαναλαµβανόµενης δοκιµής για δέκα, πέντε και δύο φορές σε άγνωστα δεδοµένα (10, 5 και 2 folds cross validation). Πινάκας αποτελεσµάτων για τον αλγόριθµο Conjunctive Rule ΑΚΡΙΒΕΙΑ ΤΑΞΙΝΟΜΗΣΗΣ ΜΕΤΑΒΟΛΗ 10 Fold Cross 5 Fold Cross 2 Fold Cross ΠΑΡΑΜΕΤΡΩΝ Προεπιλεγµένες Ρυθµίσεις 66.36% 66.81% 66.36% Exclusive: True 66.36% 66.81% 66.36% MinNo= % 66.36% 66.36% Seed= % 66.36% 66.36% Aπό τους παραπάνω πινάκες παρατηρούµε ότι η µέθοδος αυτή πέτυχε υψηλά ποσοστά ακριβούς ταξινόµησης για το συγκεκριµένο πάντα πρόβληµα. Οι µεταβολές των παραµέτρων, πάντως, δεν βοήθησαν στο να σηµειωθεί κάποια αξιόλογη αύξηση της ακριβείας. Επίσης, στα 2,5,10 fold Cross validation τα αποτελέσµατα ήταν πολύ κοντινά Αλγόριθµος «JRip» Αυτός ο αλγόριθµος εφαρµόζει τη µέθοδο «RIPPER», (Repeated Incremental Pruning to Produce Error Prediction) (William W.Cohen,1995) και συµπεριλαµβάνει ευρετικές βελτιστοποιήσεις από σύνολα κανόνων. Αποτελείται από 4 βασικά στάδια. Φάση κατασκευής, Φάση επέκτασης, Φάση κλαδέµατος και Φάση βελτιστοποίησης. Παρακάτω παρουσιάζονται οι παράµετροι του αλγορίθµου. 130

131 Εικόνα: Ανοικτές παράµετροι για τον αλγόριθµο JRip Debug: Αν είναι αληθές, τότε ο ταξινοµητής µπορεί να εµφανίσει επιπλέον πληροφορίες. Folds: Προσδιορίζει το ποσό των δεόµενων που χρησιµοποιούνται για κλάδεµα. Το ένα fold χρησιµοποιείται για κλάδεµα και τα υπόλοιπα για ανάπτυξη των κανόνων. MinΝο: Καθορίζει το ελάχιστο δυνατό συνολικό βάρος των παραδειγµάτων σε ένα κανόνα Optimizations: Καθορίζει τον αριθµό των optimization runs (επαναλήψεων βελτιστοποίησης). Seed: Ο σπόρος χρησιµοποιείται για την τυχαιοποίηση των δεδοµένων όταν χρησιµοποιείται η ελάττωση σφάλµατος «κλαδέµατος». Η τιµή του σπόρου είναι 1. Στον παρακάτω πίνακα µπορούµε να δούµε τις διαφορετικές επιλογές των παραµέτρων που χρησιµοποιήθηκαν, καθώς και τα αποτελέσµατα τους, µετά τη χρήση της µεθόδου αξιολόγησης µέσω επαναλαµβανόµενης δοκιµής για δέκα, πέντε και δύο φορές σε άγνωστα δεδοµένα (10, 5 και 2 folds cross validation). 131

132 Πινάκας αποτελεσµάτων του αλγόριθµου JRip ΑΚΡΙΒΕΙΑ ΤΑΞΙΝΟΜΗΣΗΣ ΜΕΤΑΒΟΛΗ ΠΑΡΑΜΕΤΡΩΝ 10 Fold Cross 5 Fold Cross 2 Fold Cross Προεπιλεγµένες Ρυθµίσεις 66.81% 65.45% 63.63% CheckErrorRate: False 60.90% 67.72% 59.54% UsePruning: false 61.81% 63.18% 59.10% Optimizations = % 65.45% 70.10% Παρατηρούµε, µε βάση τον παραπάνω πίνακα, ότι ο JRip αποτελεί έναν πολύ ακριβή ταξινοµητή, ο όποιος είναι, επίσης, και αρκετά γρήγορος. Ορίζοντας τα τρεξίµατα βελτίωσης σε 10, παρατήσαµε και τη µεγαλύτερη ακρίβεια ταξινόµησης. Σε συνδυασµό µε 2 fold Cross η ακρίβεια εκτινάχθηκε στο 70%! Αλγόριθµος «NNge» Ο αλγόριθµος «NNge (Brent,1995) είναι µια «k nearest neighbor» µέθοδος, η οποία παράγει κανόνες της µορφής «if-then», χρησιµοποιώντας µη εµφωλιασµένα γενικευµένα υποδείγµατα. Παρακάτω αναλύουµε τις ανοικτές παραµέτρους του αλγορίθµου. 132

133 Εικόνα: Ανοικτές παράµετροι για τον αλγόριθµο NNge NumAttempsOfGeneOption: Θέτει τον αριθµό των προσπαθειών για γενίκευση NumFoldersMIOption: Θέτει τον αριθµό των πληροφοριών για τις κοινές πληροφορίες. Στον παρακάτω πίνακα µπορούµε να δούµε τις διαφορετικές επιλογές των παραµέτρων που χρησιµοποιήθηκαν, καθώς και τα αποτελέσµατα τους, µετά τη χρήση της µεθόδου αξιολόγησης µέσω επαναλαµβανόµενης δοκιµής για δέκα, πέντε και δύο φορές σε άγνωστα δεδοµένα (10, 5 και 2 folds cross validation). Πινάκας αποτελεσµάτων για τον αλγόριθµο NNge ΑΚΡΙΒΕΙΑ ΤΑΞΙΝΟΜΗΣΗΣ ΜΕΤΑΒΟΛΗ ΠΑΡΑΜΕΤΡΩΝ 10 Fold Cross 5 Fold Cross 2 Fold Cross Προεπιλεγµένες Ρυθµίσεις 61.81% 65.10% 57.27% NumAttemptsOfGeneOption 60.90% 59.54% 60.10% =3 NumFoldersMIOption= % 64.10% 60.90% 133

134 Όσον αφορά τις παραµέτρους, στη συγκεκριµένη µέθοδο, δεν υπήρξε µεγάλη µεταβολή στην ακρίβεια του µοντέλου. Πάντως, η παράµετρος «NumAttemptsOfGeneOption» έδωσε τη βέλτιστη ακρίβεια για την τιµή 10. Να σηµειωθεί ότι οι µεταβολές των παραµέτρων ήταν τυχαίες. Γενικά, ο ταξινοµητής NNge χαρακτηρίζεται από µεγάλη ταχύτητα εκτέλεσης. Όσον αφορά το θέµα της ακρίβειας είχαµε ικανοποιητικά αποτελέσµατα. Να σηµειωθεί ότι ο αλγόριθµος παρόλα ταύτα δεν παράγει σαφείς κανόνες Αλγόριθµος «OneR» Ο αλγόριθµος ταξινόµησης κανόνων τύπου OneR (Holte, 1993) χρησιµοποιεί το ελάχιστο σφάλµα χαρακτηριστικού για την πρόβλεψη, επίσης υπολογίζει την πιο σηµαντική ιδιότητα στο σύνολο των δεδοµένων και κατόπιν κατασκευάζει ένα σύνολο κανόνων για κάθε κλάση της εξαρτηµένης µεταβλητής. Παρακάτω αναλύουµε την ανοικτή παράµετρο του αλγορίθµου. Εικόνα: Ανοικτές παράµετροι για τον αλγόριθµο OneR MinBucketSize: χρησιµοποιείται εδώ η παράµετρος της ελάχιστης ποσότητας µεγέθους για την διακριτοποίηση των αριθµητικών χαρακτηριστικών (Min Bucket Size) και έχουµε επιλέξει τη τιµή

135 Παρακάτω παρουσιάζονται τα αποτελέσµατα από την χρήση του συγκεκριµένου αλγόριθµου. Πινάκας αποτελεσµάτων για τον αλγόριθµο OneR ΜΕΤΑΒΟΛΗ ΠΑΡΑΜΕΤΡΩΝ 10 Fold Cross 5 Fold Cross 2 Fold Cross Προεπιλεγµένες Ρυθµίσεις 61.81% 61.81% 65.90% Debug: True 61.81% 61.81% 65.90% Ο ταξινοµητής OneR δεν προσφέρει πολλές παραµέτρους που θα µπορούσαν να βελτιώσουν την απόδοση του. Βέβαια, αποτελεί έναν γρήγορο ταξινοµητή, ο οποίος παράγει µέτριας ακρίβειας αποτελέσµατα. Επιπροσθέτως, δεν εξάγει σαφείς κανόνες Αλγόριθµος «PART» Αυτός ο αλγόριθµος (Eibe & Witten,1998) κατασκευάζει µια λίστα απόφασης. Βασίζεται στην αρχή «διαίρει και βασίλευε» και στην ουσία φτιάχνει ένα δένδρο C4.5 αλλά σε µορφή κανόνων, όπου κάνει κανόνες τα καλυτέρα φύλλα. Ένας κανόνας αποκόπτεται µόνο όταν όλα τα συµπεράσµατά του είναι γνωστά. Παρακάτω αναλύουµε τις ανοικτές παραµέτρους του αλγορίθµου. 135

136 Εικόνα: Ανοικτές παράµετροι για τον αλγόριθµο PART Binary Splits: Η παράµετρος αυτή χρησιµοποιείται, εάν επιθυµούµε να χρησιµοποιηθεί διάδικος καταµερισµός στα nominal attributes, όταν κατασκευάζεται το δένδρο. Confidence Factor: Η παράµετρος αυτή δείχνει τον παράγοντα εµπιστοσύνης που χρησιµοποιείται κατά τη διαδικασία του pruning (κλαδέµατος). Μελέτες δείχνουν ότι η προεπιλεγµένη τιµή 0.25 δουλεύει καλά στις περισσότερες των περιπτώσεων. Εάν µικρύνουµε την τιµή αυτή, θα προκαλέσουµε ένα πιο δραστικό κλάδεµα. MinNumObj: Η παράµετρος αυτή δείχνει τον ελάχιστο αριθµό παραδειγµάτων που πρέπει να υπάρχει, έτσι ώστε να δηµιουργηθεί φύλλο. Η µεταβολή της τιµής αυτής µπορεί να δηµιουργήσει πιο γενικά ή πιο εξειδικευµένα δένδρα. Συγκεκριµένα, όσο µεγαλύτερη η τιµή τόσο πιο γενικό το δένδρο και όσο µικρότερη είναι η τιµή τόσο πιο εξειδικευµένο είναι το δένδρο. Reduced Error Pruning: Η παράµετρος αυτή χρησιµοποιείται, εάν θέλουµε να χρησιµοποιηθεί για κλάδεµα η µέθοδος Reduced Error Pruning, αντί για την προεπιλεγµένη που είναι η C4.5 pruning. 136

137 Seed: Η παράµετρος αυτή χρησιµοποιείται, εφόσον χρησιµοποιούµε τη µέθοδο reduced error pruning, που περιγράφηκε παραπάνω για ανακάτεµα των δεδοµένων. Unpruned: Η παράµετρος αυτή δείχνει εάν τελικά θα πραγµατοποιηθεί κλάδεµα. Στον παρακάτω πίνακα µπορούµε να δούµε τις διαφορετικές επιλογές των παραµέτρων που χρησιµοποιήθηκαν, καθώς και τα αποτελέσµατα τους, µετά τη χρήση της µεθόδου αξιολόγησης µέσω επαναλαµβανόµενης δοκιµής για δέκα, πέντε και δύο φορές σε άγνωστα δεδοµένα (10, 5 και 2 folds cross validation). Πινάκας αποτελεσµάτων για τον αλγόριθµο PART ΑΚΡΙΒΕΙΑ ΤΑΞΙΝΟΜΗΣΗΣ ΜΕΤΑΒΟΛΗ ΠΑΡΑΜΕΤΡΩΝ 10 Fold Cross 5 Fold Cross 2 Fold Cross Προεπιλεγµένες Ρυθµίσεις 59.10% 63.63% 60.45% BinarySplits: True 57.72% 59.45% 59.10% MinNumObj= % 59.10% 65.90% ReducedErrorPruning: True 56.36% 56.36% 55.45% Unpruned: True 58.18% 59.54% 55.10% Καταρχήν πρέπει να τονίσουµε ότι ο ταξινοµητής PART µπορεί να παράγει σαφείς κανόνες. Όσον αφορά τις ανοικτές παραµέτρους, οι περισσότερες φάνηκε να µη συµβάλλουν θετικά στην αύξηση της ακρίβειας του µοντέλου. Εκτός βέβαια από την MinNumObj που αφορά τον ελάχιστο αριθµό παραδειγµάτων που πρέπει να υπάρχει, προκειµένου να δηµιουργηθεί ένα φύλλο. Όσον αφορά το cross validation, καλύτερα αποτελέσµατα πήραµε και εδώ µε 2 fold cross validation Αλγόριθµος «Ridor» Ο αλγόριθµος «Ridor» (Gaines & Compton, 1995) παράγει πρώτα έναν κανόνα και έπειτα τις εξαιρέσεις για τον κανόνα αυτόν µε το λιγότερο ποσοστό σφάλµατος. Μετά παράγει την καλύτερη εξαίρεση από κάθε εξαίρεση και επαναλαµβάνει αυτή τη διαδικασία έως ότου βρει την πιο καλή και απλή εξαίρεση. ηλαδή, εκτελεί µια 137

138 επέκταση δένδρου µε εξαιρέσεις. Οι εξαιρέσεις είναι ένα σύνολο κανόνων που προβλέπουν κλάσεις πλην της προεπιλεγµένης. Να σηµειωθεί ότι χρησιµοποιείσαι η µέθοδος IREP για να παραγάγει τις εξαιρέσεις. Παρακάτω αναλύουµε τις ανοικτές παραµέτρους του αλγορίθµου Εικόνα: Ανοικτές παράµετροι για τον αλγόριθµο Ridor Folds: Προσδιορίζει το ποσό των δεδοµένων που χρησιµοποιούνται για κλάδεµα. Το ένα fold χρησιµοποιείται για κλάδεµα και τα υπόλοιπα για ανάπτυξη των κανόνων. MinNο: Καθορίζει το ελάχιστο δυνατό συνολικό βάρος των παραδειγµάτων σε ένα κανόνα. Majority Class: Επιλέγεται εάν θέλουµε η κλάση που έχει την πλειοψηφία να χρησιµοποιείται σαν προεπιλογή. Shuffle: Προσδιορίζει ποσό συχνά τα δεδοµένα αναδιατάσσονται προτού επιδεχθεί ένας κανόνας. Εάν είναι µεγαλύτερο του 1 τότε ένας κανόνας χρησιµοποιείται πολλές φορές και ο πιο ακριβής κανόνας επιλέγεται. WholeDataError: Χρησιµοποιείται εάν θέλουµε η αξία του κανόνα να υπολογιστεί βασισµένη σε όλα τα δεδοµένα ή µόνο στα δεδοµένα που καλύπτονται από τον κανόνα. 138

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΟΙΚΟΝΟΜΙΚΗ ΚΑΙ ΔΙΟΙΚΗΣΗ ΓΙΑ ΜΗΧΑΝΙΚΟΥΣ (ΠΜΣ Ο.ΔΙ.Μ.) ΜΟΝΤΕΛΟΠΟΙΗΣΗ ΤΗΣ ΑΠΟΦΑΣΗΣ

Διαβάστε περισσότερα

Δηµοσιοποιήσεις σύµφωνα µε το Παράρτηµα 1 της Απόφασης 9/459/2007 της Επιτροπής Κεφαλαιαγοράς, όπως τροποποιήθηκε µε την Απόφαση 9/572/23.12.

Δηµοσιοποιήσεις σύµφωνα µε το Παράρτηµα 1 της Απόφασης 9/459/2007 της Επιτροπής Κεφαλαιαγοράς, όπως τροποποιήθηκε µε την Απόφαση 9/572/23.12. Δηµοσιοποιήσεις σύµφωνα µε το Παράρτηµα 1 της Απόφασης 9/459/2007 της Επιτροπής Κεφαλαιαγοράς, όπως τροποποιήθηκε µε την Απόφαση 9/572/23.12.2010 και την Απόφαση 26/606/22.12.2011 της Επιτροπής Κεφαλαιαγοράς

Διαβάστε περισσότερα

Ο Μ Ι Λ Ο Σ A T E b a n k - ΑΠΟΤΕΛΕΣΜΑΤΑ 9ΜΗΝΟΥ 2009

Ο Μ Ι Λ Ο Σ A T E b a n k - ΑΠΟΤΕΛΕΣΜΑΤΑ 9ΜΗΝΟΥ 2009 Ο Μ Ι Λ Ο Σ A T E b a n k - ΑΠΟΤΕΛΕΣΜΑΤΑ 9ΜΗΝΟΥ 2009 Καθαρά Κέρδη Ομίλου: 82,4 εκ. (-1,6%, σε επαναλαμβανόμενη βάση +6,4%), Τράπεζας: 96,3 εκ. (+46,7%), με περαιτέρω βελτίωση της προ προβλέψεων οργανικής

Διαβάστε περισσότερα

Βασικά σημεία διάλεξης. λογιστική. Χρηματοοικονομική λογιστική (ΧΛ) ιοικητική Λογιστική. Λογιστική και Χρηματοοικονομική (Π.Μ.Σ.)

Βασικά σημεία διάλεξης. λογιστική. Χρηματοοικονομική λογιστική (ΧΛ) ιοικητική Λογιστική. Λογιστική και Χρηματοοικονομική (Π.Μ.Σ.) Λογιστική και Χρηματοοικονομική (Π.Μ.Σ.) ιοικητική Λογιστική Εισαγωγή στη διοικητική λογιστική Βασικά σημεία διάλεξης Τι είναι η διοικητική λογιστική Ο ρόλος του διοικητικού ού λογιστή Χρηματοοικονομική

Διαβάστε περισσότερα

Πραγματοποιείται με την κατάταξη των στοιχείων κατά κατηγορίες για μια σειρά ετών. Η σύγκριση των στοιχείων με παρελθόντα στοιχεία αυξάνει την

Πραγματοποιείται με την κατάταξη των στοιχείων κατά κατηγορίες για μια σειρά ετών. Η σύγκριση των στοιχείων με παρελθόντα στοιχεία αυξάνει την Πραγματοποιείται με την κατάταξη των στοιχείων κατά κατηγορίες για μια σειρά ετών. Η σύγκριση των στοιχείων με παρελθόντα στοιχεία αυξάνει την χρησιμότητα και εμφανίζει την φύση και τις τάσεις των τρεχουσών

Διαβάστε περισσότερα

ΡΕΥΣΤΟΤΗΤΑ ΕΠΙΧΕΙΡΗΣΕΩΝ ΓΕΝΙΚΗ ΡΕΥΣΤΟΤΗΤΑ, ΔΕΙΚΤΗΣ & ΑΞΙΟΛΟΓΗΣΗ. Περιεχόμενα

ΡΕΥΣΤΟΤΗΤΑ ΕΠΙΧΕΙΡΗΣΕΩΝ ΓΕΝΙΚΗ ΡΕΥΣΤΟΤΗΤΑ, ΔΕΙΚΤΗΣ & ΑΞΙΟΛΟΓΗΣΗ. Περιεχόμενα Specisoft www.specisoft.gr ΡΕΥΣΤΟΤΗΤΑ ΕΠΙΧΕΙΡΗΣΕΩΝ ΓΕΝΙΚΗ ΡΕΥΣΤΟΤΗΤΑ, ΔΕΙΚΤΗΣ & ΑΞΙΟΛΟΓΗΣΗ Περιεχόμενα Η Ρευστότητα των Επιχειρήσεων Διακρίσεις Ρευστότητας Προβλήματα κατά τον Προσδιορισμό της Ρευστότητας

Διαβάστε περισσότερα

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R, Επίκουρος Καθηγητής, Τομέας Μαθηματικών, Σχολή Εφαρμοσμένων Μαθηματικών και Φυσικών Επιστημών, Εθνικό Μετσόβιο Πολυτεχνείο. Περιεχόμενα Εισαγωγή στο

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση ΚΕΦΑΛΑΙΟ 18 18 Μηχανική Μάθηση Ένα φυσικό ή τεχνητό σύστηµα επεξεργασίας πληροφορίας συµπεριλαµβανοµένων εκείνων µε δυνατότητες αντίληψης, µάθησης, συλλογισµού, λήψης απόφασης, επικοινωνίας και δράσης

Διαβάστε περισσότερα

ΟΙΚΟΝΟΜΙΚΑ ΑΠΟΤΕΛΕΣΜΑΤΑ Περιόδου από 1 ης Ιανουαρίου 2011 έως 31 ης Μαρτίου 2011

ΟΙΚΟΝΟΜΙΚΑ ΑΠΟΤΕΛΕΣΜΑΤΑ Περιόδου από 1 ης Ιανουαρίου 2011 έως 31 ης Μαρτίου 2011 ΟΙΚΟΝΟΜΙΚΑ ΑΠΟΤΕΛΕΣΜΑΤΑ Περιόδου από 1 ης Ιανουαρίου 2011 έως 31 ης Μαρτίου 2011 «Η συνεχιζόμενη οικονομική ύφεση, η οποία πλήττει την Ελληνική κοινωνία έχει συρρικνώσει σημαντικά το σύνολο της δραστηριότητας

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 13 «Η ΚΑΤΑΝΟΗΣΗ ΤΩΝ ΕΠΙΤΟΚΙΩΝ ΚΑΙ ΤΗΣ ΝΟΜΙΣΜΑΤΙΚΗΣ ΠΟΛΙΤΙΚΗΣ» DERMOT McALEESE: «Οικονομική για Επιχειρησιακές Σπουδές»

ΚΕΦΑΛΑΙΟ 13 «Η ΚΑΤΑΝΟΗΣΗ ΤΩΝ ΕΠΙΤΟΚΙΩΝ ΚΑΙ ΤΗΣ ΝΟΜΙΣΜΑΤΙΚΗΣ ΠΟΛΙΤΙΚΗΣ» DERMOT McALEESE: «Οικονομική για Επιχειρησιακές Σπουδές» ΠΑΝΤΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΟΙΝΩΝΙΚΩΝ& ΠΟΛΙΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ Π.Μ.Σ: ΔΙΕΘΝΩΝ & ΕΥΡΩΠΑΪΚΩΝ ΣΠΟΥΔΩΝ ΚΑΤΕΥΘΥΝΣΗ: ΔΙΕΘΝΗΣ ΠΟΛΙΤΙΚΗ ΟΙΚΟΝΟΜΙΑ ΜΑΘΗΜΑ: «ΓΕΩΠΟΛΙΤΙΚΗ ΤΩΝ ΚΕΦΑΛΑΙΑΓΟΡΩΝ» ΔΙΔΑΣΚΩΝ: AΝΑΣΤΑΣΙΟΣ ΜΑΣΤΡΟΓΙΑΝΝΗΣ

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 14 ΜΕΤΡΗΣΗ ΠΙΣΤΩΤΙΚΟΥ ΚΙΝΔΥΝΟΥ. Υποδείγματα Κινδύνου Πτώχευσης (Default Risk Models)

ΚΕΦΑΛΑΙΟ 14 ΜΕΤΡΗΣΗ ΠΙΣΤΩΤΙΚΟΥ ΚΙΝΔΥΝΟΥ. Υποδείγματα Κινδύνου Πτώχευσης (Default Risk Models) ΚΕΦΑΛΑΙΟ 14 ΜΕΤΡΗΣΗ ΠΙΣΤΩΤΙΚΟΥ ΚΙΝΔΥΝΟΥ Υποδείγματα Κινδύνου Πτώχευσης (Default Risk Models) Ποιοτικά υποδείγματα (Qualitative Models) ή expert systems Υποδείγματα μέτρησης πιστοληπτικής ικανότητας (Credit

Διαβάστε περισσότερα

Αναγνώριση Κινδύνων. Στα επόµενα σενάρια αναγνωρίστε πιο από τα παρακάτω είδη κινδύνου δηµιουργείται για την Τράπεζα (µε τον πιο «προφανή» τρόπο)

Αναγνώριση Κινδύνων. Στα επόµενα σενάρια αναγνωρίστε πιο από τα παρακάτω είδη κινδύνου δηµιουργείται για την Τράπεζα (µε τον πιο «προφανή» τρόπο) Άσκηση Αναγνώριση Κινδύνων Αναγνώριση Κινδύνων Στα επόµενα σενάρια αναγνωρίστε πιο από τα παρακάτω είδη κινδύνου δηµιουργείται για την Τράπεζα (µε τον πιο «προφανή» τρόπο) Πιστωτικός κίνδυνος Κίνδυνος

Διαβάστε περισσότερα

Business Plan. Ένα επιχειρηµατικό πρόγραµµα περιλαµβάνει απαραίτητα τις ακόλουθες ενότητες:

Business Plan. Ένα επιχειρηµατικό πρόγραµµα περιλαµβάνει απαραίτητα τις ακόλουθες ενότητες: Business Plan Το επιχειρηµατικό πλάνο αποτελεί το πρώτο και µερικές φορές το µοναδικό έγγαφο κείµενο που παρουσιάζει ολοκληρωµένα την επενδυτική πρόταση, γι' αυτό πρέπει να είναι ρεαλιστικό και εφικτό,

Διαβάστε περισσότερα

ΕΚΤΙΜΗΣΗ ΤΩΝ ΠΑΡΑΓΟΝΤΩΝ ΠΟΥ ΕΠΙ ΡΟΥΝ ΣΤΗ ΧΡΗΣΗ ΤΩΝ ΥΠΗΡΕΣΙΩΝ ΤΟΥ ΗΛΕΚΤΡΟΝΙΚΟΥ ΕΜΠΟΡΙΟΥ

ΕΚΤΙΜΗΣΗ ΤΩΝ ΠΑΡΑΓΟΝΤΩΝ ΠΟΥ ΕΠΙ ΡΟΥΝ ΣΤΗ ΧΡΗΣΗ ΤΩΝ ΥΠΗΡΕΣΙΩΝ ΤΟΥ ΗΛΕΚΤΡΟΝΙΚΟΥ ΕΜΠΟΡΙΟΥ ΕΚΤΙΜΗΣΗ ΤΩΝ ΠΑΡΑΓΟΝΤΩΝ ΠΟΥ ΕΠΙ ΡΟΥΝ ΣΤΗ ΧΡΗΣΗ ΤΩΝ ΥΠΗΡΕΣΙΩΝ ΤΟΥ ΗΛΕΚΤΡΟΝΙΚΟΥ ΕΜΠΟΡΙΟΥ 1 ΕΙΣΑΓΩΓΗ Με την ολοένα και ταχύτερη ανάπτυξη των τεχνολογιών και των επικοινωνιών και ιδίως τη ραγδαία, τα τελευταία

Διαβάστε περισσότερα

Μεθοδολογία κατάρτισης της νέας σειράς επιτοκίων τραπεζικών καταθέσεων και δανείων

Μεθοδολογία κατάρτισης της νέας σειράς επιτοκίων τραπεζικών καταθέσεων και δανείων Μεθοδολογία κατάρτισης της νέας σειράς επιτοκίων τραπεζικών καταθέσεων και δανείων Η Τράπεζα της Ελλάδος (ΤτΕ), εφαρµόζοντας την Π /ΤΕ 2496/28.5.2002, άρχισε από το Σεπτέµβριο του 2002 να συγκεντρώνει

Διαβάστε περισσότερα

ΚΕΝΤΡΙΚΗ ΤΡΑΠΕΖΑ ΤΗΣ ΚΥΠΡΟΥ

ΚΕΝΤΡΙΚΗ ΤΡΑΠΕΖΑ ΤΗΣ ΚΥΠΡΟΥ ΚΕΝΤΡΙΚΗ ΤΡΑΠΕΖΑ ΤΗΣ ΚΥΠΡΟΥ Σύστηµα Αξιολόγησης Κινδύνων Στα πλαίσια της πρακτικής εφαρµογής της ιαδικασίας Εποπτικής Εξέτασης και Αξιολόγησης (SREP), όπως προκύπτει από την οδηγία της Ευρωπαϊκής Ένωσης

Διαβάστε περισσότερα

4.3. Γραµµικοί ταξινοµητές

4.3. Γραµµικοί ταξινοµητές Γραµµικοί ταξινοµητές Γραµµικός ταξινοµητής είναι ένα σύστηµα ταξινόµησης που χρησιµοποιεί γραµµικές διακριτικές συναρτήσεις Οι ταξινοµητές αυτοί αναπαρίστανται συχνά µε οµάδες κόµβων εντός των οποίων

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΠΙΣΤΩΤΙΚΩΝ ΚΙΝΔΥΝΩΝ ΚΑΙ ΠΡΟΒΛΗΜΑΤΙΚΩΝ ΔΑΝΕΙΩΝ

ΔΙΑΧΕΙΡΙΣΗ ΠΙΣΤΩΤΙΚΩΝ ΚΙΝΔΥΝΩΝ ΚΑΙ ΠΡΟΒΛΗΜΑΤΙΚΩΝ ΔΑΝΕΙΩΝ ΔΙΑΧΕΙΡΙΣΗ ΠΙΣΤΩΤΙΚΩΝ ΚΙΝΔΥΝΩΝ ΚΑΙ ΠΡΟΒΛΗΜΑΤΙΚΩΝ ΔΑΝΕΙΩΝ Σεμινάριο ενημέρωσης 22-25 Ιουνίου 2009 Οι πιστοδοτήσεις των τραπεζών, από την φύση τους, είναι εκτεθειμένες σε πλήθος κινδύνων που απορρέουν από

Διαβάστε περισσότερα

ΔΙΟΙΚΗΣΗ ΠΑΡΑΓΩΓΗΣ. ΕΝΟΤΗΤΑ 4η ΠΡΟΒΛΕΨΗ ΖΗΤΗΣΗΣ

ΔΙΟΙΚΗΣΗ ΠΑΡΑΓΩΓΗΣ. ΕΝΟΤΗΤΑ 4η ΠΡΟΒΛΕΨΗ ΖΗΤΗΣΗΣ ΤΕΙ ΚΡΗΤΗΣ ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΔΙΟΙΚΗΣΗ ΠΑΡΑΓΩΓΗΣ ΕΝΟΤΗΤΑ 4η ΠΡΟΒΛΕΨΗ ΖΗΤΗΣΗΣ ΓΙΑΝΝΗΣ ΦΑΝΟΥΡΓΙΑΚΗΣ ΕΠΙΣΤΗΜΟΝΙΚΟΣ ΣΥΝΕΡΓΑΤΗΣ ΤΕΙ ΚΡΗΤΗΣ ΔΟΜΗ ΠΑΡΟΥΣΙΑΣΗΣ 1. Εισαγωγή

Διαβάστε περισσότερα

ΠΡΟΚΑΤΑΡΚΤΙΚΑ ΑΠΟΤΕΛΕΣΜΑΤΑ ΟΜΙΛΟΥ Για το έτος που έληξε στις 31 εκεµβρίου 2010 ΕΠΕΞΗΓΗΜΑΤΙΚΗ ΚΑΤΑΣΤΑΣΗ

ΠΡΟΚΑΤΑΡΚΤΙΚΑ ΑΠΟΤΕΛΕΣΜΑΤΑ ΟΜΙΛΟΥ Για το έτος που έληξε στις 31 εκεµβρίου 2010 ΕΠΕΞΗΓΗΜΑΤΙΚΗ ΚΑΤΑΣΤΑΣΗ ΠΡΟΚΑΤΑΡΚΤΙΚΑ ΑΠΟΤΕΛΕΣΜΑΤΑ ΟΜΙΛΟΥ Για το έτος που έληξε στις 31 εκεµβρίου 2010 25 Φεβρουαρίου 2011 1. ΣΥΝΟΨΗ ΑΠΟΤΕΛΕΣΜΑΤΩΝ Βασικά oικονοµικά στοιχεία εκ-10 εκ-09 Μεταβολή '000 '000 % Σύνολο καθαρών εσόδων

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΠΙΣΤΩΤΙΚΟΥ ΚΙΝΔΥΝΟΥ

ΔΙΑΧΕΙΡΙΣΗ ΠΙΣΤΩΤΙΚΟΥ ΚΙΝΔΥΝΟΥ ΔΙΑΧΕΙΡΙΣΗ ΠΙΣΤΩΤΙΚΟΥ ΚΙΝΔΥΝΟΥ ΠΕΡΙΓΡΑΦΗ ΕΝΟΤΗΤΑΣ V Η διαχείριση του Πιστωτικού Κινδύνου αποτελεί μια από τις κυρίαρχες αρμοδιότητες κάθε Πιστωτικού Ιδρύματος ενώ επηρεάζει σημαντικά και τον τρόπο άσκησης

Διαβάστε περισσότερα

Απαντήστε όλες τις ερωτήσεις. ιάρκεια εξετάσεων: Μια ώρα και 30 λεπτά Ονοµατεπώνυµο φοιτητού/τριας;... Αρ. Μητρ.:...

Απαντήστε όλες τις ερωτήσεις. ιάρκεια εξετάσεων: Μια ώρα και 30 λεπτά Ονοµατεπώνυµο φοιτητού/τριας;... Αρ. Μητρ.:... ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΤΜΗΜΑ ΛΟΓΙΣΤΙΚΗΣ & ΧΡΗΜΑΤΟΟΙΚΟΝΟΜΙΚΗΣ ΕΞΕΤΑΣΤΙΚΗ ΠΕΡΙΟ ΟΣ: ΙΟΥΝΙΟΣ 2004 ΜΑΘΗΜΑ: ΤΡΑΠΕΖΙΚΗ ΙΟΙΚΗΤΙΚΗ ΑΝ. ΚΑΘΗΓΗΤΗΣ: Α.ΝΟΥΛΑΣ Απαντήστε όλες τις ερωτήσεις. ιάρκεια εξετάσεων: Μια

Διαβάστε περισσότερα

ΕΞΕΛΙΞΗ ΤΗΣ ΠΙΣΤΟΛΗΠΤΙΚΗΣ ΙΚΑΝΟΤΗΤΑΣ ΕΛΛΗΝΙΚΩΝ ΑΕ & ΕΠΕ ΕΠΙΧΕΙΡΗΣΕΩΝ 2004-2006

ΕΞΕΛΙΞΗ ΤΗΣ ΠΙΣΤΟΛΗΠΤΙΚΗΣ ΙΚΑΝΟΤΗΤΑΣ ΕΛΛΗΝΙΚΩΝ ΑΕ & ΕΠΕ ΕΠΙΧΕΙΡΗΣΕΩΝ 2004-2006 ΕΞΕΛΙΞΗ ΤΗΣ ΠΙΣΤΟΛΗΠΤΙΚΗΣ ΙΚΑΝΟΤΗΤΑΣ ΤΩΝ ΕΛΛΗΝΙΚΩΝ ΑΕ & ΕΠΕ ΕΠΙΧΕΙΡΗΣΕΩΝ 2004-2006 ΜΑΪΟΣ 2007 ICAP ΑΕ ΕΡΕΥΝΩΝ & ΕΠΕΝ ΥΣΕΩΝ ΣΥΜΒΟΥΛΟΙ ΕΠΙΧΕΙΡΗΣΕΩΝ Τοµέας Επιχειρηµατικής Πληροφόρησης Παπαδιαµαντοπούλου

Διαβάστε περισσότερα

3 χρή η ρ μ. Εισαγωγή στην ανάλυση με τη χρήση αριθμοδεικτών. Στην διαστρωματική ή κάθετη ανάλυση περιλαμβάνονται η κατάρτιση της χρηματοοικονομικής

3 χρή η ρ μ. Εισαγωγή στην ανάλυση με τη χρήση αριθμοδεικτών. Στην διαστρωματική ή κάθετη ανάλυση περιλαμβάνονται η κατάρτιση της χρηματοοικονομικής Εισαγωγή στην ανάλυση με τη χρήση αριθμοδεικτών 3 χρή η ρ μ Στην διαστρωματική ή κάθετη ανάλυση περιλαμβάνονται η κατάρτιση της χρηματοοικονομικής κατάστασης «κοινού μεγέθους» και ο υπολογισμός διαφόρων

Διαβάστε περισσότερα

Χρηματοοικονομική ανάλυση των ΜΜΕ

Χρηματοοικονομική ανάλυση των ΜΜΕ Χρηματοοικονομική ανάλυση των ΜΜΕ Ανάλυση λογιστικών καταστάσεων Ένας από τους σκοπούς της χρηματοοικονομικής επιστήμης αποτελεί η αξιολόγηση και αξιοποίηση των στοιχείων που έχουν συγκεντρωθεί και καταγραφεί

Διαβάστε περισσότερα

Αποτελέσματα Ομίλου Εθνικής Τράπεζας

Αποτελέσματα Ομίλου Εθνικής Τράπεζας Αποτελέσματα Ομίλου Εθνικής Τράπεζας A Εξάμηνο 2008 Αθήνα, 28 Αυγούστου 2008 σε εκατ. Α 6μηνο 2008 Α 6μηνο 2007 Δ Καθαρά κέρδη μετόχων ΕΤΕ * 835 724 +15% Καθαρά κέρδη από εγχώριες δραστηριότητες 510 478

Διαβάστε περισσότερα

2 ο Κεφάλαιο ΑΝΑΛΥΣΗ ΜΟΧΛΕΥΣΗΣ

2 ο Κεφάλαιο ΑΝΑΛΥΣΗ ΜΟΧΛΕΥΣΗΣ Σηµειώσεις στο Μάθηµα Ειδικά Θέµατα Χρηµατοδοτικής Διοίκησης. Π. Φ. Διαµάντης Α.Α.Δράκος 2 ο Κεφάλαιο ΑΝΑΛΥΣΗ ΜΟΧΛΕΥΣΗΣ 1. ΕΙΣΑΓΩΓΙΚΑ. Η Ανάλυση της Μόχλευσης εξετάζει τον τρόπο µε τον οποίο µεταβολές

Διαβάστε περισσότερα

Επιτόκια Προθεσμιακών Καταθέσεων 31/12/12 31/03/13 30/06/13 30/09/13 31/12/13 Ετήσια. μεταβολή σε μονάδες βάσης Τριμηνιαία μεταβολή

Επιτόκια Προθεσμιακών Καταθέσεων 31/12/12 31/03/13 30/06/13 30/09/13 31/12/13 Ετήσια. μεταβολή σε μονάδες βάσης Τριμηνιαία μεταβολή Ετήσια Αποτελέσματα Ομίλου GENIKI Bank Παρά τη δύσκολη οικονομική συγκυρία το και ένα χρόνο μετά την επιτυχή ένταξή της στον Όμιλο της Τράπεζας Πειραιώς, η GENIKI Bank βελτίωσε σταδιακά το λειτουργικό

Διαβάστε περισσότερα

ΠΑΡΑΡΤΗΜΑ 1. Αξιολόγηση των µακροοικονοµικών επιπτώσεων του ΚΠΣ III

ΠΑΡΑΡΤΗΜΑ 1. Αξιολόγηση των µακροοικονοµικών επιπτώσεων του ΚΠΣ III ΠΑΡΑΡΤΗΜΑΤΑ 152 ΠΑΡΑΡΤΗΜΑ 1 Αξιολόγηση των µακροοικονοµικών επιπτώσεων του ΚΠΣ III Η εκ των προτέρων αξιολόγηση των µακροοικονοµικών επιπτώσεων του 3 ου ΚΠΣ µπορεί να πραγµατοποιηθεί µε τρόπους οι οποίοι

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΠΙΣΤΩΤΙΚΩΝ ΚΙΝΔΥΝΩΝ ΚΑΙ ΠΡΟΒΛΗΜΑΤΙΚΩΝ ΔΑΝΕΙΩΝ

ΔΙΑΧΕΙΡΙΣΗ ΠΙΣΤΩΤΙΚΩΝ ΚΙΝΔΥΝΩΝ ΚΑΙ ΠΡΟΒΛΗΜΑΤΙΚΩΝ ΔΑΝΕΙΩΝ ΔΙΑΧΕΙΡΙΣΗ ΠΙΣΤΩΤΙΚΩΝ ΚΙΝΔΥΝΩΝ ΚΑΙ ΠΡΟΒΛΗΜΑΤΙΚΩΝ ΔΑΝΕΙΩΝ Σεμινάριο ενημέρωσης 27 30 Σεπτεμβρίου 2010 Οι πιστοδοτήσεις των τραπεζών είναι από τη φύση τους εκτεθειμένες σε πλήθος κινδύνων που απορρέουν από

Διαβάστε περισσότερα

ΠΡΟΓΡΑΜΜΑ ΔΙΑΣΥΝΟΡΙΑΚΗΣ ΣΥΝΕΡΓΑΣΙΑΣ "ΕΛΛΑΔΑ - ΚΥΠΡΟΣ 2007-2013" ΚΡΙΤΗΡΙΑ ΕΠΙΛΟΓΗΣ ΕΡΓΩΝ

ΠΡΟΓΡΑΜΜΑ ΔΙΑΣΥΝΟΡΙΑΚΗΣ ΣΥΝΕΡΓΑΣΙΑΣ ΕΛΛΑΔΑ - ΚΥΠΡΟΣ 2007-2013 ΚΡΙΤΗΡΙΑ ΕΠΙΛΟΓΗΣ ΕΡΓΩΝ ΠΡΟΓΡΑΜΜΑ ΔΙΑΣΥΝΟΡΙΑΚΗΣ ΣΥΝΕΡΓΑΣΙΑΣ "ΕΛΛΑΔΑ - ΚΥΠΡΟΣ 2007-2013" ΚΡΙΤΗΡΙΑ ΕΠΙΛΟΓΗΣ ΕΡΓΩΝ Τα ακόλουθα κριτήρια επιλογής έργων θα χρησιμοποιηθούν για την αξιολόγηση των προτάσεων που θα υποβληθούν στο πλαίσιο

Διαβάστε περισσότερα

ΠΙΣΤΩΤΙΚΗ ΚΟΥΛΤΟΥΡΑ ΧΡΗΜΑΤΟΠΙΣΤΩΤΙΚΩΝ ΟΡΓΑΝΙΣΜΩΝ

ΠΙΣΤΩΤΙΚΗ ΚΟΥΛΤΟΥΡΑ ΧΡΗΜΑΤΟΠΙΣΤΩΤΙΚΩΝ ΟΡΓΑΝΙΣΜΩΝ ΠΙΣΤΩΤΙΚΗ ΚΟΥΛΤΟΥΡΑ ΧΡΗΜΑΤΟΠΙΣΤΩΤΙΚΩΝ ΟΡΓΑΝΙΣΜΩΝ ΠΕΡΙΓΡΑΦΗ ΕΝΟΤΗΤΑΣ ΙV Η έννοια της Πιστωτικής Κουλτούρας στην τραπεζική αγορά προσδιορίζει σε μεγάλο βαθμό τη φιλοσοφία ενός Τραπεζικού Οργανισμού. Η ενότητα

Διαβάστε περισσότερα

Hellastat: Μειώνεται σταδιακά ο βαθμός φερεγγυότητας των ελληνικών επιχειρήσεων

Hellastat: Μειώνεται σταδιακά ο βαθμός φερεγγυότητας των ελληνικών επιχειρήσεων Hellastat: Μειώνεται σταδιακά ο βαθμός φερεγγυότητας των ελληνικών επιχειρήσεων Μειώνεται σταδιακά ο βαθμός φερεγγυότητας των ελληνικών επιχειρήσεων, ενώ ασφαλέστερες εμφανίζονται οι μεγάλες επιχειρήσεις.

Διαβάστε περισσότερα

Στρατηγικές και διαδικασίες των τραπεζών και εσωτερική επιθεώρησή τους.

Στρατηγικές και διαδικασίες των τραπεζών και εσωτερική επιθεώρησή τους. Στρατηγικές και διαδικασίες των τραπεζών και εσωτερική επιθεώρησή τους. 19Α. (1) Οι τράπεζες διαθέτουν αξιόπιστες, αποτελεσματικές και πλήρεις στρατηγικές και διαδικασίες για την αξιολόγηση και τη διατήρηση

Διαβάστε περισσότερα

Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500

Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500 Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500 Πληθυσμός Δείγμα Δείγμα Δείγμα Ο ρόλος της Οικονομετρίας Οικονομική Θεωρία Διατύπωση της

Διαβάστε περισσότερα

Αποτελέσματα Ομίλου ΕΤΕ: α τρίμηνο 2012

Αποτελέσματα Ομίλου ΕΤΕ: α τρίμηνο 2012 Αποτελέσματα Ομίλου ΕΤΕ: α τρίμηνο 2012 Κεφαλαιακή Επάρκεια: Ο συνολικός δείκτης κεφαλαιακής επάρκειας διαμορφώνεται στο 8,1% μετά την καταβολή από το Ταμείο Χρηματοπιστωτικής Σταθερότητας κεφαλαιακής

Διαβάστε περισσότερα

ΟΜΙΛΟΣ ΕΛΛΗΝΙΚΗΣ ΤΡΑΠΕΖΑΣ ΑΠΟΤΕΛΕΣΜΑΤΑ ΓΙΑ ΤΗΝ ΕΞΑΜΗΝΙΑ ΠΟΥ ΕΛΗΞΕ ΣΤΙΣ 30 ΙΟΥΝΙΟΥ 2008 ΕΠΕΞΗΓΗΜΑΤΙΚΗ ΚΑΤΑΣΤΑΣΗ

ΟΜΙΛΟΣ ΕΛΛΗΝΙΚΗΣ ΤΡΑΠΕΖΑΣ ΑΠΟΤΕΛΕΣΜΑΤΑ ΓΙΑ ΤΗΝ ΕΞΑΜΗΝΙΑ ΠΟΥ ΕΛΗΞΕ ΣΤΙΣ 30 ΙΟΥΝΙΟΥ 2008 ΕΠΕΞΗΓΗΜΑΤΙΚΗ ΚΑΤΑΣΤΑΣΗ ΣΥΝΟΨΗ ΑΠΟΤΕΛΕΣΜΑΤΩΝ Βασικά oικονοµικά στοιχεία Ιουν-08 Ιουν-07 Μεταβολή '000 '000 % Σύνολο καθαρών εσόδων 149.660 163.075 (8%) Σύνολο εξόδων 78.363 77.649 1% Μερίδιο από συνδεδεµένη εταιρεία -- 1.575

Διαβάστε περισσότερα

Αποτελέσματα Α Τριμήνου 2012

Αποτελέσματα Α Τριμήνου 2012 Αποτελέσματα Α Τριμήνου 2012 Ανακεφαλαιοποίηση 4δισ. από το Ταμείο Χρηματοπιστωτικής Σταθερότητας με το Δείκτη Συνολικής Κεφαλαιακής Επάρκειας να διαμορφώνεται στο 9,0% και αντίστοιχη βελτίωση της ρευστότητας

Διαβάστε περισσότερα

ΔΙΕΘΝΗ ΤΡΑΠΕΖΙΚΑ ΘΕΜΑΤΑ

ΔΙΕΘΝΗ ΤΡΑΠΕΖΙΚΑ ΘΕΜΑΤΑ Ενότητα 6: Διαχείριση Διεθνούς Δραστηριότητας Τραπεζών Μιχαλόπουλος Γεώργιος Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό υλικό, όπως εικόνες,

Διαβάστε περισσότερα

ALPHA BANK CYPRUS LTD

ALPHA BANK CYPRUS LTD ALPHA BANK CYPRUS LTD ΗΜΟΣΙΟΠΟΙΗΣΕΙΣ ΜΕ ΒΑΣΗ ΤΟΝ ΠΥΛΩΝΑ 3 ΤΟΥ ΣΥΜΦΩΝΟΥ ΤΗΣ ΒΑΣΙΛΕΙΑΣ ΙΙ ΕΤΟΣ 2009 ΑΠΡΙΛΗΣ 2010 ΠΕΡΙΕΧΟΜΕΝΑ 1. ΕΙΣΑΓΩΓΗ... 2 2. ΠΛΑΙΣΙΟ ΙΑΧΕΙΡΙΣΗΣ ΚΙΝ ΥΝΩΝ... 3 3. ΚΕΦΑΛΑΙΑΚΗ ΒΑΣΗ... 4 4.

Διαβάστε περισσότερα

[ΓΙΩΡΓΟΣ ΚΑΜΑΡΙΝΟΣ - ΟΙΚΟΝΟΜΟΛΟΓΟΣ] ΠΡΟΤΕΙΝΟΜΕΝΟ ΤΕΣΤ ΣΤΟ ΚΕΦΑΛΑΙΟ 1 ΑΡΧΕΣ ΟΡΓΑΝΩΣΗΣ & ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΟΜΑΔΑ Α

[ΓΙΩΡΓΟΣ ΚΑΜΑΡΙΝΟΣ - ΟΙΚΟΝΟΜΟΛΟΓΟΣ] ΠΡΟΤΕΙΝΟΜΕΝΟ ΤΕΣΤ ΣΤΟ ΚΕΦΑΛΑΙΟ 1 ΑΡΧΕΣ ΟΡΓΑΝΩΣΗΣ & ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΟΜΑΔΑ Α ΠΡΟΤΕΙΝΟΜΕΝΟ ΤΕΣΤ ΣΤΟ ΚΕΦΑΛΑΙΟ 1 ΑΡΧΕΣ ΟΡΓΑΝΩΣΗΣ & ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΟΜΑΔΑ Α Στις παρακάτω προτάσεις, από Α.1. μέχρι και Α.5, να γράψετε στο τετράδιό σας τον αριθμό της καθεμιάς και δίπλα του την

Διαβάστε περισσότερα

ΕΚΘΕΣΗ ΔΙΑΧΕΙΡΙΣΗΣ ΤΟΥ ΔΙΟΙΚΗΤΙΚΟΥ ΣΥΜΒΟΥΛΙΟΥ της «ΚΛΩΣΤΑΙ ΠΕΤΑΛΟΥΔΑΣ Α.Ε.Β.Ε»

ΕΚΘΕΣΗ ΔΙΑΧΕΙΡΙΣΗΣ ΤΟΥ ΔΙΟΙΚΗΤΙΚΟΥ ΣΥΜΒΟΥΛΙΟΥ της «ΚΛΩΣΤΑΙ ΠΕΤΑΛΟΥΔΑΣ Α.Ε.Β.Ε» ΕΚΘΕΣΗ ΔΙΑΧΕΙΡΙΣΗΣ ΤΟΥ ΔΙΟΙΚΗΤΙΚΟΥ ΣΥΜΒΟΥΛΙΟΥ της «ΚΛΩΣΤΑΙ ΠΕΤΑΛΟΥΔΑΣ Α.Ε.Β.Ε» ΓΙΑ ΤΗΝ ΧΡΗΣΗ 2014 (58 η ΕΤΑΙΡΙΚΗ ΧΡΗΣΗ), ΑΠΟ 1/1/2014 31/12/2014 προς την Τακτική Γενική Συνέλευση των Μετόχων Κύριοι Μέτοχοι,

Διαβάστε περισσότερα

Αποτελέσματα Α Τριμήνου 2013

Αποτελέσματα Α Τριμήνου 2013 Αποτελέσματα Α Τριμήνου 2013 Η άμεση και πλήρης ανακεφαλαιοποίηση της Eurobank από το Ταμείο Χρηματοπιστωτικής Σταθερότητας κατά 5,8δισ. αποκαθιστά την κεφαλαιακή βάση της Τράπεζας με pro-forma δείκτη

Διαβάστε περισσότερα

ΕΚΘΕΣΗ ΔΙΑΧΕΙΡΙΣΗΣ ΤΟΥ ΔΙΟΙΚΗΤΙΚΟΥ ΣΥΜΒΟΥΛΙΟΥ ΓΙΑ ΤΗΝ ΕΒΔΟΜΗ ΕΤΑΙΡΙΚΗ ΧΡΗΣΗ ( 1.1.2007 31.12.2007)

ΕΚΘΕΣΗ ΔΙΑΧΕΙΡΙΣΗΣ ΤΟΥ ΔΙΟΙΚΗΤΙΚΟΥ ΣΥΜΒΟΥΛΙΟΥ ΓΙΑ ΤΗΝ ΕΒΔΟΜΗ ΕΤΑΙΡΙΚΗ ΧΡΗΣΗ ( 1.1.2007 31.12.2007) ΕΚΘΕΣΗ ΔΙΑΧΕΙΡΙΣΗΣ ΤΟΥ ΔΙΟΙΚΗΤΙΚΟΥ ΣΥΜΒΟΥΛΙΟΥ ΓΙΑ ΤΗΝ ΕΒΔΟΜΗ ΕΤΑΙΡΙΚΗ ΧΡΗΣΗ ( 1.1.2007 31.12.2007) www.eakaa.gr 1 Κύριοι Μέτοχοι, Σύμφωνα με το Άρθρο 43α, παραγρ.3 του Κ.Ν. 2190/1920, όπως αυτό τροποποιήθηκε

Διαβάστε περισσότερα

Από όσο γνωρίζω, είναι η πρώτη φορά που οι βιβλιοθήκες των Τραπεζών οργανώνουν τέτοιου είδους συνάντηση.

Από όσο γνωρίζω, είναι η πρώτη φορά που οι βιβλιοθήκες των Τραπεζών οργανώνουν τέτοιου είδους συνάντηση. 1 Κύριε καθηγητά, αξιότιµοι, κα Μουγίου, κυρίες και κύριοι, Με µεγάλη χαρά σας καλωσορίζω στην Τράπεζα της Ελλάδος, στη σηµερινή σηµαντική ηµερίδα που διοργανώθηκε από τις βιβλιοθήκες των Τραπεζών Ελλάδος,

Διαβάστε περισσότερα

«Στρατηγικό μάνατζμεντ εν καιρώ κρίσης και ολοκληρωμένη στρατηγική μάρκετινγκ χαμηλού κόστους.»

«Στρατηγικό μάνατζμεντ εν καιρώ κρίσης και ολοκληρωμένη στρατηγική μάρκετινγκ χαμηλού κόστους.» «Στρατηγικό μάνατζμεντ εν καιρώ κρίσης και ολοκληρωμένη στρατηγική μάρκετινγκ χαμηλού κόστους.» Ονοματεπώνυμο: Πιπικάκης Γεώργιος Σειρά: 9 Επιβλέπων Καθηγητής: Κριτσωτάκης Γεώργιος Δεκέμβριος 2012 Σκοπός

Διαβάστε περισσότερα

Αρνητικοί ρυθμοί ανάπτυξης

Αρνητικοί ρυθμοί ανάπτυξης Αρνητικοί ρυθμοί ανάπτυξης Εξέλιξη στο ΑΕΠ (%) 5,1 3,6-1,9 1,3 0,5-2,4-3,9-8,7 2007 2008 2009 2010 2011 2012 2013F 2014F Πηγή: Ευρωπαϊκή Κεντρική Τράπεζα 2 Υψηλή ανεργία Ανεργία (%) 15,5 16,9 11,9 4,0

Διαβάστε περισσότερα

Χρηµατοοικονοµικά Αποτελέσµατα Έτους 2013 GENIKI Bank Μέλος του Οµίλου Τράπεζας Πειραιώς

Χρηµατοοικονοµικά Αποτελέσµατα Έτους 2013 GENIKI Bank Μέλος του Οµίλου Τράπεζας Πειραιώς Χρηµατοοικονοµικά Αποτελέσµατα Έτους 2013 GENIKI Bank Μέλος του Οµίλου Τράπεζας Πειραιώς - Περαιτέρω Ενίσχυση των Υψηλών Χρηµατοοικονοµικών εικτών και Θωράκιση του Ισολογισµού - Βελτίωση του Λειτουργικού

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΕΡΓΑΛΕΙΑ ΙΟΙΚΗΣΗΣ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥ ΩΝ ΜΑΘΗΜΑ: ΙΟΙΚΗΣΗ ΕΠΙΧΕΙΡΗΣΕΩΝ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΕΡΓΑΛΕΙΑ ΙΟΙΚΗΣΗΣ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥ ΩΝ ΜΑΘΗΜΑ: ΙΟΙΚΗΣΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥ ΩΝ ΙΟΙΚΗΣΗ ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ ΜΑΘΗΜΑ: ΙΟΙΚΗΣΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΡΓΑΛΕΙΑ ΙΟΙΚΗΣΗΣ ιδάσκων:

Διαβάστε περισσότερα

ΚΑΤΑΡΤΙΣΗ & ΑΞΙΟΛΟΓΗΣΗ ΕΠΕΝΔΥΤΙΚΩΝ ΣΧΕΔΙΩΝ & ΠΡΟΓΡΑΜΜΑΤΩΝ ΚΕΦΑΛΑΙΟ ΕΚΤΟ

ΚΑΤΑΡΤΙΣΗ & ΑΞΙΟΛΟΓΗΣΗ ΕΠΕΝΔΥΤΙΚΩΝ ΣΧΕΔΙΩΝ & ΠΡΟΓΡΑΜΜΑΤΩΝ ΚΕΦΑΛΑΙΟ ΕΚΤΟ ΚΑΤΑΡΤΙΣΗ & ΑΞΙΟΛΟΓΗΣΗ ΕΠΕΝΔΥΤΙΚΩΝ ΣΧΕΔΙΩΝ & ΠΡΟΓΡΑΜΜΑΤΩΝ ΚΕΦΑΛΑΙΟ ΕΚΤΟ ΠΑΡΟΥΣΙΑΣΗ ΕΦΑΡΜΟΓΗΣ ΑΞΙΟΛΟΓΗΣΗΣ ΕΠΕΝΔΥΤΙΚΩΝ ΣΧΕΔΙΩΝ: ΜΕΛΕΤΗ ΑΞΙΟΛΟΓΗΣΗΣ ΕΠΕΝΔΥΣΗΣ ΕΠΙΧΕΙΡΗΣΗΣ Εισαγωγή Στο παρόν κεφάλαιο θα γίνει

Διαβάστε περισσότερα

ΧΡΗΜΑΤΟΟΙΚΟΝΟΜΙΚΟΙ ΕΙΚΤΕΣ

ΧΡΗΜΑΤΟΟΙΚΟΝΟΜΙΚΟΙ ΕΙΚΤΕΣ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥ ΩΝ ΙΟΙΚΗΣΗ ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ ΜΑΘΗΜΑ: ΛΕΙΤΟΥΡΓΙΕΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΧΡΗΜΑΤΟΟΙΚΟΝΟΜΙΚΟΙ ΕΙΚΤΕΣ

Διαβάστε περισσότερα

Κύριοι Μέτοχοι, 1. Γενικά Πληροφοριακά Στοιχεία :

Κύριοι Μέτοχοι, 1. Γενικά Πληροφοριακά Στοιχεία : ΕΚΘΕΣΗ ΔΙΑΧΕΙΡΙΣΗΣ ΤΟΥ ΔΙΟΙΚΗΤΙΚΟΥ ΣΥΜΒΟΥΛΙΟΥ ΤΗΣ ΕΤΑΙΡΙΑΣ «ΒΙΟΤΡΟΣ ΒΙΟΜΗΧΑΝΙΑ ΤΡΟΦΙΜΩΝ ΣΚΕΥΑΣΜΑΤΩΝ ΚΑΙ ΕΠΕΞΕΡΓΑΣΙΑΣ ΓΑΛΑΚΤΟΣ Α.Β.Ε.Ε.»ΠΡΟΣ ΤΗΝ ΤΑΚΤΙΚΗ ΓΕΝΙΚΗ ΣΥΝΕΛΕΥΣΗ ΤΩΝ ΜΕΤΟΧΩΝ ΓΙΑ ΤΑ ΠΕΠΡΑΓΜΕΝΑ ΤΗΣ

Διαβάστε περισσότερα

Αποτελέσματα Ομίλου ΕΤΕ: Q1.15

Αποτελέσματα Ομίλου ΕΤΕ: Q1.15 Αποτελέσματα Ομίλου ΕΤΕ: Q1.15 Επαρκής ρευστότητα και ισχυροποίηση του ισολογισμού Επαρκής ρευστότητα παρά τις δυσμενείς συνθήκες Δάνεια προς καταθέσεις στο 104% σε επίπεδο Ομίλου και 95% στην Ελλάδα Τρέχουσα

Διαβάστε περισσότερα

Q&A. Γιατί να ενταχθώ σε ένα δίκτυο;

Q&A. Γιατί να ενταχθώ σε ένα δίκτυο; Q & A 1 2 Γιατί να ενταχθώ σε ένα δίκτυο; Το νέο ανταγωνιστικό πεδίο, η νέα καταναλωτική συμπεριφορά και συνολικά το νέο τοπίο δημιουργεί ασφυκτική πίεση στις ανεξάρτητες επιχειρήσεις, που δραστηριοποιούνται

Διαβάστε περισσότερα

Οι λειτουργίες του. ιδακτικοί στόχοι. χρήµατος. Αναφορά των ιδιοτήτων του. Αναφορά στα είδη του χρήµατος. Κατανόηση της λειτουργίας του

Οι λειτουργίες του. ιδακτικοί στόχοι. χρήµατος. Αναφορά των ιδιοτήτων του. Αναφορά στα είδη του χρήµατος. Κατανόηση της λειτουργίας του Χρήµα ιδακτικοί στόχοι Κατανόηση της λειτουργίας του χρήµατος. Αναφορά των ιδιοτήτων του. Αναφορά στα είδη του χρήµατος. Κατανόηση της λειτουργίας του τραπεζικού συστήµατος σε µια οικονοµία. Οι λειτουργίες

Διαβάστε περισσότερα

Κατάσταση Λογαριασμού Αποτελεσμάτων για το έτος που έληξε στις 31 Δεκεμβρίου 2005

Κατάσταση Λογαριασμού Αποτελεσμάτων για το έτος που έληξε στις 31 Δεκεμβρίου 2005 Κατάσταση Λογαριασμού Αποτελεσμάτων για το έτος που έληξε στις 31 Δεκεμβρίου 2005 31.12.2005 31.12.2004 Διαφοροποίηση σε % έτους 2005 έναντι του έτους 2004 % Κύκλος εργασιών 15.018.396 14.827.278 1% Καθαρά

Διαβάστε περισσότερα

Εταιρείες Πληροφορικής και Τηλεπικοινωνιών

Εταιρείες Πληροφορικής και Τηλεπικοινωνιών Μέρος 13 Εταιρείες Πληροφορικής και Τηλεπικοινωνιών Ανάπτυξη νέων προϊόντων-υπηρεσιών 13.1.1 Χρηµατοδότηση λειτουργίας Έρευνας & Ανάπτυξης (Ε&Α): A. εν υπάρχει προϋπολογισµός για Ε&Α. Η λειτουργία της

Διαβάστε περισσότερα

Α) ΒΑΣΙΚΕΣ ΤΑΣΕΙΣ ΠΟΥ ΕΠΗΡΕΑΖΟΥΝ ΤΙΣ ΕΠΕΝΔΥΣΕΙΣ

Α) ΒΑΣΙΚΕΣ ΤΑΣΕΙΣ ΠΟΥ ΕΠΗΡΕΑΖΟΥΝ ΤΙΣ ΕΠΕΝΔΥΣΕΙΣ ΔΗΜΟΣΙΟΝΟΜΙΚΕΣ ΠΟΛΙΤΙΚΕΣ ΛΙΤΟΤΗΤΑΣ Μελέτη του ΔΝΤ για 17 χώρες του ΟΑΣΑ επισημαίνει ότι για κάθε ποσοστιαία μονάδα αύξησης του πρωτογενούς πλεονάσματος, το ΑΕΠ μειώνεται κατά 2 ποσοστιαίες μονάδες και

Διαβάστε περισσότερα

Επιτροπή Διαχειρίσεως Κινδύνων (Risk Management Committee) Κανονισμός Λειτουργίας

Επιτροπή Διαχειρίσεως Κινδύνων (Risk Management Committee) Κανονισμός Λειτουργίας Επιτροπή Διαχειρίσεως Κινδύνων (Risk Management Committee) Κανονισμός Λειτουργίας Σεπτέμβριος 2013 Κανονισμός Επιτροπής Διαχειρίσεως Κινδύνων (Risk Management Committee) Προοίμιο Το Διοικητικό Συμβούλιο,

Διαβάστε περισσότερα

Οργάνωση και Διοίκηση Πωλήσεων

Οργάνωση και Διοίκηση Πωλήσεων Οργάνωση και Διοίκηση Πωλήσεων Ενότητα 4: Η ΠΡΟΒΛΕΨΗ ΠΩΛΗΣΕΩΝ Αθανασιάδης Αναστάσιος Τμήμα Εφαρμογών Πληροφορικής στη Διοίκηση και Οικονομία Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες

Διαβάστε περισσότερα

Πρόγραµµα Σπουδών: ΤΡΑΠΕΖΙΚΗ

Πρόγραµµα Σπουδών: ΤΡΑΠΕΖΙΚΗ 1 Πρόγραµµα Σπουδών: ΤΡΑΠΕΖΙΚΗ Θεµατική Ενότητα: ΤΡΑ-61 Στρατηγική Τραπεζών ΘΕΜΑ 1 (20%) A. Η επιλογή της προσθήκης µιας µετοχής σε ένα διαφοροποιηµένο χαρτοφυλάκιο, ενδέχεται να µεταβάλλει αφενός την

Διαβάστε περισσότερα

Ανάλυση και Αξιολόγηση Επιχειρησιακής Στρατηγικής

Ανάλυση και Αξιολόγηση Επιχειρησιακής Στρατηγικής Ανάλυση και Αξιολόγηση Επιχειρησιακής Στρατηγικής Το πεπρωµένο δεν είναι θέµα τύχης, είναι θέµα επιλογής. W.J. Bryan. Αξιολόγηση Επιχειρησιακής Στρατηγικής Σε έντονα διαφοροποιηµένους οµίλους ή οργανισµούς

Διαβάστε περισσότερα

Τι ενδιαφέρει τον ιδιώτη

Τι ενδιαφέρει τον ιδιώτη ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΠΜΣ «Επιστήµη και Τεχνολογία Υδατικών Πόρων» Οικονοµικά του Περιβάλλοντος και των Υδατικών Πόρων Αξιολόγηση επενδύσεων Τι ενδιαφέρει τον ιδιώτη Πόσα χρήµατα θα επενδύσω; Πότε

Διαβάστε περισσότερα

ΕΤΑΙΡΙΚΗ ΠΑΡΟΥΣΙΑΣΗ 2014

ΕΤΑΙΡΙΚΗ ΠΑΡΟΥΣΙΑΣΗ 2014 ΕΤΑΙΡΙΚΗ ΠΑΡΟΥΣΙΑΣΗ 2014 Εταιρική ταυτότητα Η INFOTRUST ΜΕΣΙΤΕΣ ΑΣΦΑΛΕΙΩΝ ιδρύθηκε το Μάιο του 1998 στη Θεσσαλονίκη. Σε μικρό χρονικό διάστημα οι στρατηγικές και μεθοδικές κινήσεις των δύο εταίρων, του

Διαβάστε περισσότερα

ΟΔΗΓΙΕΣ ΣΥΜΠΛΗΡΩΣΗΣ ΤΩΝ ΥΠΟΔΕΙΓΜΑΤΩΝ Γ02Α ΚΑΙ Γ02Β: ΥΠΟΛΟΓΙΣΜΟΣ ΚΕΦΑΛΑΙΑΚΩΝ ΑΠΑΙΤΗΣΕΩΝ ΕΝΑΝΤΙ ΤΟΥ ΠΙΣΤΩΤΙΚΟΥ ΚΙΝΔΥΝΟΥ

ΟΔΗΓΙΕΣ ΣΥΜΠΛΗΡΩΣΗΣ ΤΩΝ ΥΠΟΔΕΙΓΜΑΤΩΝ Γ02Α ΚΑΙ Γ02Β: ΥΠΟΛΟΓΙΣΜΟΣ ΚΕΦΑΛΑΙΑΚΩΝ ΑΠΑΙΤΗΣΕΩΝ ΕΝΑΝΤΙ ΤΟΥ ΠΙΣΤΩΤΙΚΟΥ ΚΙΝΔΥΝΟΥ ΟΔΗΓΙΕΣ ΣΥΜΠΛΗΡΩΣΗΣ ΤΩΝ ΥΠΟΔΕΙΓΜΑΤΩΝ Γ02Α ΚΑΙ Γ02Β: ΥΠΟΛΟΓΙΣΜΟΣ ΚΕΦΑΛΑΙΑΚΩΝ ΑΠΑΙΤΗΣΕΩΝ ΕΝΑΝΤΙ ΤΟΥ ΠΙΣΤΩΤΙΚΟΥ ΚΙΝΔΥΝΟΥ Η σκίαση αφορά τις γραμμές οι οποίες δεν θα συμπληρώνονται από τα πιστωτικά ιδρύματα.

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥ ΩΝ ΙΟΙΚΗΣΗ ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ ιδάσκοντες: ΜΑΘΗΜΑ: Οικονοµικές, Εµπορικές και Παραγωγικές

Διαβάστε περισσότερα