ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΙΟΙΚΗΣΗΣ ΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΙΟΙΚΗΣΗΣ ΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ"

Transcript

1 ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΙΟΙΚΗΣΗΣ ΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ ΜΟΝΤΕΛΟΠΟΙΗΣΗ ΠΡΟΒΛΕΨΗΣ ΠΤΩΧΕΥΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΜΕ ΧΡΗΣΗ ΜΕΘΟ ΩΝ ΤΕΧΝΗΤΗΣ ΝΟΗΜΟΣΥΝΗΣ Αικατερίνη Καλονάκη ΕΠΙΒΛΕΠΩΝ ΚΑΘΗΓΗΤΗΣ: Γεώργιος ούνιας ΧΙΟΣ 2007

2 2

3 Σον πατέρα µου Εµµανουήλ και στην ξαδέρφη µου Ελευθερία που «έφυγαν» νωρίς 3

4 Ευχαριστίες Θα ήθελα να ευχαριστήσω τον επιβλέποντα καθηγητή µου κ. Γεώργιο ούνια για την συνεργασία µας και την πολύτιµη βοήθεια που µου πρόσφερε. Επίσης, είµαι ευγνώµων στην οικογένειά µου για την ηθική και υλική συµπαράσταση. Τέλος, ευχαριστώ τους φίλους µου για την ηθική υποστήριξη. ΠΕΡΙΕΧΟΜΕΝΑ 4

5 ΠΕΡΙΛΗΨΗ...9 ΚΕΦΑΛΑΙΟ 1 Ο...10 ΕΙΣΑΓΩΓΗ...10 ΚΕΦΑΛΑΙΟ 2 Ο...11 ΠΡΟΒΛΕΨΗ ΠΤΩΧΕΥΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ Εισαγωγή Ορισµοί Το πρόβληµα της Πτώχευσης Περιγραφή χρησιµοποιούµενων µοντέλων πρόβλεψης Ανάλυση ιαφοροποίησης (Discriminant Analysis) Μοντέλα υπό Συνθήκη Πιθανοτήτων (Conditional Probability Models) Στατιστικές Προσεγγίσεις Μιας Μεταβλητής (Univariate Statistical Methods) Ανάλυση Επιβίωσης (Survival Analysis) Αλγόριθµος Αναδροµικής Τµηµατοποίησης (Recursive Partitioning Algorithm) Μαθηµατικός Προγραµµατισµός (Mathematical Programming) Μέθοδος Ασαφώς Προσδιορισµένων Συνόλων (Rough Set Method) ΚΕΦΑΛΑΙΟ 3 Ο...19 ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ Εισαγωγή Νευρωνικά ίκτυα Ορισµός Πώς λειτουργεί ο ανθρώπινος εγκέφαλος Από τους Βιολογικούς στους Τεχνητούς νευρώνες Τεχνητά Νευρωνικά ίκτυα (ΤΝ ) Μάθηση των ΤΝ Πλεονεκτήµατα των ΤΝ Γενετικοί Αλγόριθµοι Εισαγωγή - Ορισµός Βασικές Έννοιες Λειτουργία Γενετικών Αλγορίθµων Πλεονεκτήµατα Γενετικών Αλγορίθµων Γενετικός Προγραµµατισµός Έµπειρα Συστήµατα Εισαγωγή Ορισµός Ιδιότητες ενός ΕΣ Εφαρµογές των ΕΣ Ασαφή Συστήµατα Εισαγωγή Ορισµός Πλεονεκτήµατα Ασαφούς Λογικής ένδρα Αποφάσεων...28 ΚΕΦΑΛΑΙΟ 4 Ο...30 ΤΟ ΠΡΟΓΡΑΜΜΑ WEKA Εισαγωγή Το Περιβάλλον WEKA και η χρήση του

6 4.2.1 Εξερευνητής (Explorer) Μεθοδολογία Πρόβλεψης Πτώχευσης Εισαγωγή Μέθοδος Εκπαίδευσης και Ελέγχου (Training and Testing) Μέθοδος αξιολόγησης Cross - Validation εδοµένα εισόδου για το πρόβληµα της πτώχευσης ΚΕΦΑΛΑΙΟ 5 Ο...35 ΠΕΙΡΑΜΑΤΙΚΗ ΕΦΑΡΜΟΓΗ ΚΑΙ ΑΠΟΤΕΛΕΣΜΑΤΑ Προετοιµασία δεδοµένων Μέτρα Αξιολόγησης Κ-Στατιστικό µέγεθος Μέσο απόλυτο σφάλµα Μέσο τετραγωνικό σφάλµα Σχετικό απόλυτο σφάλµα Σχετικό τετραγωνικό σφάλµα Πίνακας ταξινόµησης επιδόσεων πρόβλεψης Ακρίβεια Ορθότητα Ανάκληση Μέτρο-F Καµπύλη ROC Κατηγορία αλγορίθµων Bayes Ανάλυση του αλγορίθµου Bayes Net Ανάλυση του αλγορίθµου Naïve Bayes Ανάλυση του αλγορίθµου Naive Bayes Simple Ανάλυση του αλγορίθµου Naive Bayes Updateable Σύγκριση αποτελεσµάτων των µεθόδων της κατηγορίας Bayes Κατηγορία αλγορίθµων Συναρτήσεις (Functions) Ανάλυση του λογιστικού (Logistic) αλγορίθµου Ανάλυση του αλγορίθµου Multilayer Perceptron Ανάλυση του αλγορίθµου RBF Network Ανάλυση του απλού λογιστικού αλγορίθµου (Simple Logistic) Ανάλυση του αλγορίθµου της διαδοχικής ελάχιστης βελτιστοποίησης (SMO) Ανάλυση του αλγορίθµου Voted Perceptron Σύγκριση αποτελεσµάτων των µεθόδων της κατηγορίας Συναρτήσεις Κατηγορία αλγορίθµων Lazy Ανάλυση του αλγορίθµου IB Ανάλυση του αλγορίθµου IBk Ανάλυση του αλγορίθµου KStar Ανάλυση του αλγορίθµου της Τοπικής Σταθµισµένης Εκµάθησης (LWL) Σύγκριση αποτελεσµάτων των µεθόδων της κατηγορίας Lazy Κατηγορία αλγορίθµων µετα-µάθησης (Metalearning) Ανάλυση του αλγορίθµου Ada Boost M Ανάλυση του ταξινοµητή επιλεγµένων χαρακτηριστικών (Attribute Selected Classifier) Ανάλυση του αλγορίθµου Bagging Ανάλυση του αλγορίθµου ταξινόµησης µέσω παλινδρόµησης (Classification Via Regression) Ανάλυση του αλγορίθµου επιλογής παραµέτρου CV (CVPS) Ανάλυση του αλγορίθµου Dagging Ανάλυση του αλγορίθµου Decorate

7 5.6.8 Ανάλυση του αλγορίθµου END Ανάλυση του αλγορίθµου Ensemble Selection Ανάλυση του αλγορίθµου Filtered Classifier Ανάλυση του αλγορίθµου ιεράρχησης (Grading) Ανάλυση του αλγορίθµου Logistic Boost Ανάλυση του αλγορίθµου Multi Boost AB Ανάλυση του ταξινοµητή πολλαπλής κλάσης (Multi Class Classifier) Ανάλυση του αλγορίθµου Multi Scheme Ανάλυση του ταξινοµητή Ordinal Class Ανάλυση του αλγορίθµου Raced Incremental Logit Boost (RILB) Ανάλυση του αλγορίθµου Random Committee Ανάλυση του αλγορίθµου Random Sub Space Ανάλυση του αλγορίθµου Stacking Ανάλυση του αλγορίθµου Stacking C Ανάλυση του αλγορίθµου Threshold Selector Ανάλυση του αλγορίθµου Vote Σύγκριση αποτελεσµάτων των µεθόδων µετα-µάθησης (Metalearning) ιάφοροι άλλοι αλγόριθµοι (Miscellaneous) Ανάλυση του αλγορίθµου Hyper Pipes Ανάλυση του αλγορίθµου Voting Feature Intervals (VFI) Σύγκριση αποτελεσµάτων των διάφορων άλλων αλγορίθµων (Miscellaneous) Κατηγορία αλγορίθµων ένδρα (Trees) Ανάλυση του αλγορίθµου ADTree Ανάλυση του αλγορίθµου BFTree Ανάλυση του αλγορίθµου Decision Stump Ανάλυση του αλγορίθµου δένδρων τύπου J Ανάλυση του αλγορίθµου δένδρων λογιστικών µοντέλων (LMT) Ανάλυση του αλγορίθµου ένδρων Naïve Bayes (NBTree) Ανάλυση του αλγορίθµου Random Forest Ανάλυση του αλγορίθµου Random Tree Ανάλυση του αλγορίθµου δένδρων τύπου REP (REPTree) Ανάλυση του αλγορίθµου δένδρων τύπου απλού CART (Simple Cart) Ανάλυση του αλγορίθµου ταξινόµησης µέσω χρήστη (User Classifier) Σύγκριση αποτελεσµάτων διαφόρων µεθόδων επαγωγικών δένδρων απόφασης Κατηγορία αλγορίθµων Κανόνες Ανάλυση του αλγορίθµου Συνδετικός Κανόνας (Conjunctive Rule) Ανάλυση του αλγορίθµου κανόνων τύπου JRip Ανάλυση του αλγορίθµου Nnge Ανάλυση του αλγορίθµου κανόνων τύπου OneR Ανάλυση του αλγορίθµου κανόνων τύπου PART Ανάλυση του αλγορίθµου κανόνων εξαίρεσης (Ridor) Ανάλυση του αλγορίθµου µηδενικού κανόνα (ZeroR) Σύγκριση αποτελεσµάτων των διαφορετικών µεθόδων παραγωγής επαγωγικών κανόνων ΚΕΦΑΛΑΙΟ 6 Ο ΣΥΜΠΕΡΑΣΜΑΤΑ ΜΕΛΕΤΗΣ Ανάλυση Τελικά συµπεράσµατα ΒΙΒΛΙΟΓΡΑΦΙΑ ΠΑΡΑΡΤΗΜΑ Α

8 ΠΑΡΑΡΤΗΜΑ Β ΠΑΡΑΡΤΗΜΑ Γ

9 ΠΕΡΙΛΗΨΗ Το αντικείµενο της παρούσας διπλωµατικής εργασίας είναι η συγκριτική επίλυση του προβλήµατος της πτώχευσης µε τη χρήση µεθόδων τεχνητής νοηµοσύνης και η εύρεση του καλύτερου µοντέλου πρόβλεψης για το πρόβληµα αυτό, καθώς και η παραγωγή αξιόπιστων και χρήσιµων λύσεων για τους ειδικούς που ασχολούνται µε την πτώχευση. Η ανάλυση αυτή γίνεται µε τη βοήθεια του προγράµµατος WEKA που αναπτύχθηκε στο Πανεπιστήµιο Waikato της Νέας Ζηλανδίας από τους ερευνητές Eibe Frank, Len Trigg και Mark Hall. Στο πρόγραµµα WEKA υπάρχουν αρκετοί αλγόριθµοι εκµάθησης σε γλώσσα προγραµµατισµού Java από τους οποίους εµείς χρησιµοποιήσαµε τους 57 για το πρόβληµα της πτώχευσης. Το σύνολο των δεδοµένων µας αποτελείται από 118 επιχειρήσεις από τις οποίες οι µισές είναι πτωχευµένες και οι υπόλοιπες µη πτωχευµένες. Γενικά στη βιβλιογραφία υπάρχουν αρκετές έρευνες γύρω από το πρόβληµα της πτώχευσης χρησιµοποιώντας διάφορες τεχνικές πρόβλεψης που βασίζονται στην στατιστική (π.χ. ανάλυση διαφοροποίησης, µοντέλα υπό συνθήκη πιθανοτήτων, στατιστικές προσεγγίσεις µιας µεταβλητής, ανάλυση επιβίωσης, αλγόριθµος αναδροµικής τµηµατοποίησης, µαθηµατικός προγραµµατισµός, µέθοδος ασαφώς προσδιορισµένων συνόλων κ.α.) ή στην τεχνητή υπολογιστική νοηµοσύνη (π.χ. νευρωνικά δίκτυα, γενετικοί αλγόριθµοι, γενετικός προγραµµατισµός, έµπειρα συστήµατα, ασαφή συστήµατα, δένδρα αποφάσεων κ.α.). Στην παρούσα µελέτη χρησιµοποιούνται µέθοδοι τεχνητής νοηµοσύνης για την ανάλυση και εύρεση του καλύτερου αλγορίθµου µηχανικής µάθησης για το συγκεκριµένο πρόβληµα της πτώχευσης. Επίσης, χρησιµοποιήσαµε τη µεθοδολογία αξιολόγησης µέσω επαναλαµβανόµενων δοκιµών σε άγνωστα δεδοµένα (cross validation) καθώς και τη µεθοδολογία αξιολόγησης των νέων άγνωστων δεδοµένων (holdout) για την µελέτη της απόδοσης των αλγορίθµων. Σηµαντικό κριτήριο για την ανάλυση της απόδοσης και αξιοπιστίας των αλγορίθµων εξάλλου, αποτελούν τα ποσοστά σφάλµατος της ταξινόµησης που υπολογίζονται για κάθε προσέγγιση. Τέλος, οι µεταβλητές που προκύπτουν ως βασικές (π.χ. συχνότερα εµφανιζόµενες ή ιεραρχικά σπουδαιότερες κτλ.) για την πρόβλεψη της πτώχευσης αναλύονται και από την οπτική γωνία του αποφασίζοντα εντός των συναφών οικονοµικών οργανισµών (π.χ. τράπεζες) ώστε να γίνει κατανοητό το πρόβληµα της πτώχευσης και να ληφθούν κατάλληλα µέτρα για να αποτραπεί ο ενδεχόµενος κίνδυνος της χρεοκοπίας. 9

10 Εισαγωγή ΜΟΝΤΕΛΟΠΟΙΗΣΗ ΠΡΟΒΛΕΨΗΣ ΠΤΩΧΕΥΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΚΕΦΑΛΑΙΟ 1 Ο Σκοπός της παρούσας διπλωµατικής εργασίας είναι η εκτίµηση της απόδοσης διαφορετικών αλγορίθµων µηχανικής µάθησης στο θέµα της πρόβλεψης της πτώχευσης των επιχειρήσεων. Οι αλγόριθµοι έχουν υλοποιηθεί στο πρόγραµµα WEKA σε περιβάλλον προγραµµατισµού Java και χρησιµοποιούν πληθώρα µεθοδολογικών προσεγγίσεων από τον χώρο της τεχνητής νοηµοσύνης όπως λ.χ. νευρωνικά δίκτυα, επαγωγικά δένδρα αποφάσεων, παραγωγή κανόνων απόφασης, γραµµική ή µη γραµµική παλινδρόµηση κ.α.. Το πρόγραµµα WEKA αναπτύχθηκε στο Πανεπιστήµιο Waikato της Νέας Ζηλανδίας από τους ερευνητές Eibe Frank, Len Trigg και Mark Hall. Η κύρια µεθοδολογία που χρησιµοποιήθηκε για την ανάλυση των αλγορίθµων στο σύνολο των δεδοµένων µας ήταν η αξιολόγηση µέσω επαναλαµβανόµενων δοκιµών σε άγνωστα δεδοµένα (cross validation). Για τους πιο αποδοτικούς αλγορίθµους έγινε και µια περαιτέρω ανάλυση µε τη µεθοδολογία αξιολόγησης των νέων άγνωστων δεδοµένων (holdout) ώστε να αποκτήσουµε µια γενική εικόνα της απόδοσης και αξιοπιστίας των βασικών αλγορίθµων και να γίνει σύγκριση µε ανάλογα αποτελέσµατα που υπάρχουν στη βιβλιογραφία για το συγκεκριµένο πρόβληµα της πτώχευσης. Στη συνέχεια γίνεται σύγκριση µεταξύ των αποτελεσµάτων και των επιδόσεων αυτών των επιλεγµένων αλγορίθµων ταξινόµησης που εφαρµόσαµε ώστε να προκύψουν τα καλύτερα µοντέλα πρόβλεψης για το πρόβληµα της πτώχευσης. Είναι σηµαντικό αυτά τα µοντέλα να παρέχουν και αξιόπιστα κριτήρια ταξινόµησης σύµφωνα µε τα οποία να προκύπτουν οι πιο βασικές µεταβλητές για την πρόβλεψη της πτώχευσης. Τέλος, γίνεται ανάλυση των βασικών µεταβλητών που προκύπτουν σε χρηµατοοικονοµικό επίπεδο ώστε να γίνεται κατανοητό το πρόβληµα της πτώχευσης που αποτελεί σηµαντικό επιστηµονικό πεδίο και προβληµατίζει όσους ασχολούνται µε τις οικονοµικές επιστήµες. Η παρούσα διπλωµατική εργασία αποτελείται από έξι κεφάλαια. Στο Κεφάλαιο 2 γίνεται µια σύντοµη περιγραφή του προβλήµατος της πτώχευσης και αναφέρονται τα πιο γνωστά µοντέλα πρόβλεψης που έχουν είδη υλοποιηθεί για το πρόβληµα αυτό. Στο Κεφάλαιο 3 περιγράφονται συνοπτικά οι συναφείς µεθοδολογίες στο πεδίο της τεχνητής νοηµοσύνης. Στο Κεφάλαιο 4 παρουσιάζεται το πρόγραµµα WEKA που χρησιµοποιούµε, οι βασικές λειτουργίες του, ο τρόπος χρήσης του και το περιβάλλον λειτουργίας του. Στο Κεφάλαιο 5 παρατίθενται τα αποτελέσµατα από την πειραµατική εφαρµογή του συνόλου των δεδοµένων µε τη χρήση του προγράµµατος, καθώς και η ανάλυση της απόδοσης και αξιοπιστίας του κάθε αλγορίθµου. Τέλος, στο Κεφάλαιο 6 γίνονται οι συγκρίσεις των καλύτερων µοντέλων πρόβλεψης και παρουσιάζονται τα τελικά συµπεράσµατα για τις βασικές µεταβλητές πρόβλεψης της πτώχευσης σε χρηµατοοικονοµικό επίπεδο. 10

11 ΚΕΦΑΛΑΙΟ 2 Ο Πρόβλεψη Πτώχευσης Επιχειρήσεων 2.1 Εισαγωγή Η πρόβλεψη της πτώχευσης των επιχειρήσεων αποτελεί ένα επιστηµονικό πεδίο που έχει απασχολήσει συστηµατικά τους ερευνητές των οικονοµικών επιστηµών. Τις τελευταίες τέσσερις δεκαετίες αρκετές επιστηµονικές έρευνες έχουν πραγµατοποιηθεί ώστε να δηµιουργηθεί το καλύτερο µοντέλο πρόβλεψης πτώχευσης των επιχειρήσεων σύµφωνα µε τα διαθέσιµα δεδοµένα και τις κατάλληλες στατιστικές τεχνικές. Βέβαια υπάρχουν διάφοροι παράγοντες που επηρεάζουν την αποτελεσµατικότητα των µοντέλων, όπως, για παράδειγµα, αν η µελέτη αναφέρεται σε διαφορετικές χρονικές περιόδους, σε διαφορετικές χώρες και επιχειρήσεις. Επίσης, ένας άλλος παράγοντας µπορεί να είναι το διαφορετικό θεωρητικό υπόβαθρο στο οποίο βασίζονται οι µελετητές Ορισµοί Υπάρχουν διάφοροι ορισµοί στη βιβλιογραφία για την πτώχευση. Εστιάζοντας στην οικονοµική πλευρά µπορούµε γενικά να ορίσουµε ότι πτώχευση είναι η κατάσταση όπου η επιχείρηση δεν µπορεί να εξοφλήσει τις υποχρεώσεις της (δανειστές, κατόχους µετοχών, προµηθευτές, πληρωτέοι λογαριασµοί, κα.). Επίσης, ένας άλλος ορισµός που έχει διατυπωθεί για την πτώχευση είναι όταν το κόστος της εταιρείας δεν καλύπτεται από το σύνολο των εσόδων ή όταν η εταιρεία είναι αδύναµη να αντιµετωπίσει τις τρέχουσες υποχρεώσεις της. Εποµένως, σύµφωνα µε τα παραπάνω η συνέχιση των εταιρικών λειτουργιών καθίσταται αδύνατη. Σηµαντικοί ερευνητές έχουν δώσει τους δικούς τους ορισµούς για την πτώχευση. Έτσι σύµφωνα µε τον Altman (1993) πτώχευση έχουµε όταν το πραγµατοποιούµενο ποσοστό απόδοσης του επενδυµένου κεφαλαίου είναι σε σηµαντικό βαθµό χαµηλότερο σε σχέση µε τους συχνούς ρυθµούς απόδοσης παρόµοιων επενδύσεων. Επίσης, ο Beaver (1966) όρισε την πτώχευση ως την περίπτωση που λαµβάνει χώρα ένα από τα ακόλουθα γεγονότα: νοµική πτώχευση, αδυναµία εξόφλησης οµολογιακού δανείου, τραπεζικό άνοιγµα, ή αδυναµία καταβολής µερίσµατος προνοµιούχων µετοχών. Ο Deakin (1972) θεωρεί ότι οι πτωχευµένες εταιρείες είτε πτώχευσαν βάση νοµικών διαδικασιών είτε προέκυψαν ασυνεπείς στην ικανοποίηση των υποχρεώσεών τους ή ρευστοποιήθηκαν (εκκαθαρίστηκαν). Τέλος, στη βιβλιογραφία βρίσκουµε και άλλους ορισµούς από τους Edmister (1972), Blum (1974), Appetiti (1984), Micha (1984) κ.α Το πρόβληµα της Πτώχευσης Είναι, λοιπόν, εµφανές το πόσο σηµαντικό ρόλο διαδραµατίζει η πρόβλεψη πτώχευσης των επιχειρήσεων για τους ιδιοκτήτες, µετόχους, επενδυτές, διαχειριστές, πιστωτές, πελάτες, για το εργατικό δυναµικό, την κοινωνία και το κράτος, ακόµα και για το άµεσο ανταγωνιστικό περιβάλλον. Όσον αφορά τους πιστωτές και τους προµηθευτές είναι σηµαντικό να γνωρίζουν την πορεία και την κατάσταση της εταιρείας ώστε να εξασφαλίσουν µια συνεργασία χωρίς προβλήµατα. Επίσης, τα µοντέλα πρόβλεψης είναι χρήσιµα στους µετόχους και επενδυτές για να µπορούν να αξιολογήσουν την εταιρεία µε την οποία συνεργάζονται και στην οποία έχουν επενδύσει. Το εργατικό δυναµικό της εταιρείας έχει κάθε λόγο να είναι γνώστης της κατάστασης της επιχείρησης στην οποία εργάζεται, καθώς µια ενδεχόµενη καταστροφή της εταιρίας θα επηρέαζε άµεσα και τους εργαζόµενους. Επιπλέον, οι διαχειριστές έχουν ανάγκη τα µοντέλα πρόβλεψης ώστε να µπορούν να χειριστούν και να αποτρέψουν την κατάσταση σε περίπτωση επερχόµενης αποτυχίας. Ακόµα και οι πελάτες που υποστηρίζουν ένα προϊόν, επιδιώκουν να γνωρίζουν αν θα είναι σε θέση και στο µέλλον να το αποκτούν. Όσο για τις επιχειρήσεις παραγωγής ανταγωνιστικών προϊόντων, θέλουν να είναι ενήµεροι της θέσης µιας επιχείρησης ώστε σε περίπτωση δυσκολιών να αξιοποιήσουν θετικά τα συγκριτικά τους πλεονεκτήµατα, αποκτώντας το µερίδιο των πελατών της προβληµατικής εταιρείας. Τέλος, η κοινωνία και το κράτος ενδιαφέρονται άµεσα για την πορεία µιας επιχείρησης καθώς η κατάρρευση εταιρειών απειλεί την οικονοµική ανάπτυξη της χώρας, αυξάνει το ποσοστό ανεργίας και αποδυναµώνει την κοινωνική ευηµερία. Συµπερασµατικά, η πτώχευση των επιχειρήσεων αποτελεί παγκόσµιο φαινόµενο αφού ο αριθµός των πτωχευµένων επιχειρήσεων για κάθε χώρα είναι σηµαντικός και αποτελεί δείκτης της οικονοµικής 11

12 ανάπτυξης και ευρωστίας µιας χώρας. Για το λόγο αυτό, τα τελευταία χρόνια πολλοί πανεπιστηµιακοί ερευνητές και επαγγελµατίες έχουν ασχοληθεί µε το αντικείµενο της πρόβλεψης της πτώχευσης. Εποµένως, αρκετά µοντέλα πρόβλεψης έχουν δηµιουργηθεί για την επίλυση των προβληµάτων πτώχευσης. Γενικά, υπάρχουν δύο βασικές κατηγορίες µεθόδων που αναπτύχθηκαν για αυτό το θέµα. Η πρώτη κατηγορία βασίζεται στις στατιστικές τεχνικές, όπως η ανάλυση παλινδρόµησης (regression analysis), η ανάλυση συσχετισµού (correlation analysis), η ανάλυση διαφοροποίησης (discriminant analysis), µοντέλα υπό συνθήκη πιθανοτήτων (conditional probability models), στατιστικές προσεγγίσεις µιας µεταβλητής (univariate statistical methods), ανάλυση επιβίωσης (survival analysis), αλγόριθµος αναδροµικής διαφοροποίησης (recursive partitioning algorithm), µαθηµατικός προγραµµατισµός (mathematical programming), ασαφή δεδοµένα (rough set), etc. Στη δεύτερη κατηγορία ανήκουν οι µέθοδοι της τεχνητής (υπολογιστικής) νοηµοσύνης, όπως τα επαγωγικά δέντρα αποφάσεων (decision trees), τα τεχνητά νευρωνικά δίκτυα (artificial neural networks), οι γενετικοί αλγόριθµοι (genetic algorithms), τα ασαφή συστήµατα (fuzzy systems), κ.α. Στην παρούσα εργασία επικεντρωνόµαστε στη δεύτερη κατηγορία, ενώ παρακάτω παρουσιάζουµε επιγραµµατικά τις βασικότερες µεθόδους των στατιστικών τεχνικών. 2.2 Περιγραφή χρησιµοποιούµενων µοντέλων πρόβλεψης Στην παρούσα υπό-ενότητα αναλύουµε εν συντοµία τις βασικότερες µεθόδους της πρώτης κατηγορίας που βασίζονται στις στατιστικές τεχνικές (Balcaen & Ooghe, 2004). Όπως θα παρατηρήσουµε παρακάτω έχουν αναπτυχθεί αρκετές µέθοδοι και µοντέλα για την ταξινόµηση των εταιρειών σε πτωχευµένες ή µη εταιρείες. Οι βασικότερες µέθοδοι που απασχόλησαν τους περισσότερους αναλυτές είναι οι ακόλουθες: Ανάλυση ιαφοροποίησης (Discriminant Analysis) Η ανάλυση διαφοροποίησης (DA) (Dimitras et al., 1996) αποτελεί το κυριότερο µοντέλο των πολυµεταβλητών στατιστικών µεθόδων για το διαχωρισµό των πτωχευµένων και µη επιχειρήσεων. Ο Altman (1968) ήταν ο πρώτος που πρότεινε τη µέθοδο DA για την επίλυση του προβλήµατος της πρόβλεψης πτώχευσης των επιχειρήσεων. Οι µεταβλητές της µεθόδου DA είναι γραµµικά σχετιζόµενες και για την ανάλυση αυτής της µεθόδου αρχικά βρίσκουµε τους χρηµατοοικονοµικούς δείκτες (µεταβλητές) για κάθε επιχείρηση του δείγµατός µας. Στη συνέχεια, υπολογίζουµε για κάθε επιχείρηση τη τιµή µιας νέας µεταβλητής Ζ, η οποία προκύπτει από το γραµµικό συνδυασµό των αρχικών δεικτών. Εποµένως η συνάρτηση ταξινόµησης δίνει ένα σκορ Ζ σε κάθε επιχείρηση σύµφωνα µε την παρακάτω εξίσωση. Z i = a 0+ a1xi1+ a 2 xi 2+ a 3xi 3+ + a nxin (2.1) όπου Ζi είναι το σκορ διάκρισης για την επιχείρηση i xi1, xi 2, xi 3,..., x in είναι οι n χρηµατοοικονοµικοί δείκτες (µεταβλητές) για την επιχείρηση i, και a 0, a1, a 2, a 3,..., a n είναι οι συντελεστές διαφοροποίησης. Το επόµενο βήµα είναι ο υπολογισµός της οριακής τιµής (cut off) µε τη χρήση της κατάλληλης εκ των προτέρων πιθανότητας. Τέλος, γίνεται ο διαχωρισµός των πτωχευµένων και µη επιχειρήσεων χρησιµοποιώντας την οριακή τιµή µαζί µε τη συνάρτηση ταξινόµησης. Εποµένως, για κάθε επιχείρηση του δείγµατος αν η τιµή Ζ που έχουµε υπολογίσει είναι µικρότερη από την οριακή τιµή, τότε η εταιρία χαρακτηρίζεται ως πτωχευµένη. Στην αντίθετη περίπτωση η εταιρία χαρακτηρίζεται ως µη πτωχευµένη. Παρόλο που η µέθοδος DA χρησιµοποιείται ευρέως, έχουν αναφερθεί κάποια µειονεκτήµατα στην εφαρµογή της από τον Eisenbeis (1977) τα οποία και παρατίθενται παρακάτω. 1) γίνεται παραβίαση της υπόθεσης της πολυµεταβλητής κατανοµής του δείγµατος 2) γίνεται χρήση της γραµµικής DA σε περιπτώσεις που θα έπρεπε να χρησιµοποιηθεί η τετραγωνική, εφόσον οι διακυµάνσεις των οµάδων δεν είναι ίσες 3) υπάρχει υπόνοια παρερµηνείας της σηµαντικότητας των ανεξάρτητων µεταβλητών του δείγµατος 4) λαµβάνει χώρα µείωση διαστάσεων 5) είναι µη σαφής ορισµός των οµάδων 6) δεν φαίνεται να είναι κατάλληλη η επιλογή των εκ των προτέρων πιθανοτήτων και / ή του κόστους των λανθασµένων ταξινοµήσεων των εταιρειών 12

13 7) υπάρχουν προβλήµατα κατά τον υπολογισµό των λανθασµένων ταξινοµήσεων ως ποσοστό για την εκτίµηση της αξιοπιστίας των υποδειγµάτων Μοντέλα υπό Συνθήκη Πιθανοτήτων (Conditional Probability Models) Η κατηγορία µοντέλων υπό συνθήκη πιθανοτήτων (CPM) (Dimitras et al., 1996) περιλαµβάνει τις επί µέρους µεθόδους όπως το λογιστικό υπόδειγµα πιθανότητας (logit analysis - LA), το κανονικό υπόδειγµα πιθανότητας (probit analysis - PA) και το γραµµικό υπόδειγµα πιθανότητας (linear probability modeling - LPM) και υπολογίζει την πιθανότητα πτώχευσης µιας επιχείρησης σύµφωνα µε τα χαρακτηριστικά της. Αυτές οι µέθοδοι βασίζονται σε µια συγκεκριµένη υπόθεση που αναφέρεται στην κατανοµή πιθανότητας. Έτσι για τη µέθοδο LA υποθέτουµε µια αθροιστική λογιστική κατανοµή πιθανότητας, για τη µέθοδο PA υποθέτουµε µια κανονική αθροιστική κατανοµή και για τη LPM µέθοδο η σχέση µεταξύ των µεταβλητών και της πιθανότητας πτώχευσης υποθέτουµε ότι είναι γραµµική. Ο Ohlson (1980) ήταν ο πρώτος που χρησιµοποίησε τη µέθοδο LA στους οικονοµικούς δείκτες της εταιρείας για τη πρόβλεψη της πτώχευσης και µπορούµε να πούµε ότι είναι η πιο διαδεδοµένη µέθοδος αυτής της κατηγορίας. Εποµένως, η πιθανότητα µιας επιχείρησης i να πτωχεύσει, δίνεται από το διάνυσµα της µεταβλητής Xi, που είναι: P( Xi, aˆ ) = F( a+ ax ˆ i) ɶ (2.2) όπου είναι η αθροιστική λογιστική συνάρτηση: 1 F( aɶ+ ax ˆ i) = 1 + ɶ ( a ax ˆ i) e + (2.3) Οι τιµές που εξάγει η µέθοδος αυτή βρίσκονται ανάµεσα στο µηδέν και στο ένα και κατηγοριοποιούν τις επιχειρήσεις ως πτωχευµένες ή µη, χρησιµοποιώντας µια οριακή τιµή ως πιθανότητα, στην προσπάθεια ελαχιστοποίησης των σφαλµάτων τύπου Ι και ΙΙ. Ένα άλλο χαρακτηριστικό της µεθόδου είναι ότι οι συντελεστές της µπορούν να ερµηνεύσουν τη κάθε ανεξάρτητη µεταβλητή χωριστά για την επεξήγηση της εκτιµώµενης πιθανότητας πτώχευσης. Επίσης, η LA µέθοδος εφαρµόζεται κυρίως για ποιοτικές µεταβλητές που κατηγοριοποιούνται και χρησιµοποιούνται σε αυτή τη περίπτωση εικονικές µεταβλητές. Τέλος, η µη γραµµικότητα της λογιστικής συνάρτησης υποδηλώνει ότι εάν µια επιχείρηση είναι αρκετά αδύναµη, τότε πρέπει να δοκιµάσουµε βελτίωση των µεταβλητών ώστε να εξισορροπήσουµε την οικονοµική υγεία της επιχείρησης. Εκτός από τα παραπάνω πλεονεκτήµατα η µέθοδος LA έχει και µερικά σοβαρά µειονεκτήµατα. Πρώτον, η µέθοδος είναι αρκετά ευαίσθητη στο πρόβληµα της πολυγραµµικότητας. Οι υψηλά συσχετιζόµενες µεταβλητές πρέπει να αποφευχθούν πράγµα δύσκολο γιατί η µέθοδος αυτή χρησιµοποιεί οικονοµικούς δείκτες που συχνά έχουν τον ίδιο αριθµητή ή παρονοµαστή. εύτερον, η µέθοδος είναι επίσης, πολύ ευαίσθητη στις τιµές που αποκλίνουν πολύ από το µέσο όρο και στις ελλιπείς τιµές. Τέλος, παρόλο που για τη µέθοδο LA δεν είναι απαραίτητη η υπόθεση κανονικής κατανοµής των µεταβλητών, υπάρχουν ενδείξεις ότι είναι ευαίσθητη στην µη κανονικότητα. Εποµένως, πριν τη διαδικασία εκτίµησης, τα δεδοµένα πρέπει πρώτα να µετατραπούν ή να διαγραφούν ώστε να προσεγγίζουν ή να βελτιώνονται προς την κανονικότητα. Στη συνέχεια προχωρούµε στη µέθοδο PA την οποία πρώτος εφάρµοσε ο Zmijewski (1984) και διαπιστώνουµε ότι είναι παρόµοια µε την µέθοδο LA µε κύρια διαφορά στον υπολογισµό της πιθανότητας της πτώχευσης. Εποµένως, και εδώ η πιθανότητα µιας επιχείρησης i να πτωχεύσει, δίνεται από το διάνυσµα της µεταβλητής Χi, που είναι: P( Xi, aˆ ) = F( a+ ax ˆ i) ɶ (2.4) όπου F ( aɶ + ax ˆ i) είναι η αθροιστική συνάρτηση της τυπικής κανονικής κατανοµής: 13

14 a+ axi ˆ 1 F( a+ ax ) = ɶ e dz 1 (2 π) 2 2 z 2 ɶ ˆ i (2.5) όπου Ζ είναι µια τυχαία µεταβλητή που κατανέµεται κανονικά µε µέσο µηδέν και διακύµανση µονάδα, ενώ οι τιµές της πιθανότητας και εδώ όπως και στην µέθοδο LA κυµαίνονται στο διάστηµα µηδέν έως ένα. Όµως, παρ όλες τις οµοιότητες των δύο υποδειγµάτων, το υπόδειγµα PA χρησιµοποιείται λιγότερο από το LA γιατί η ανάλυσή του απαιτεί πολύ περισσότερους υπολογισµούς. Τέλος, το υπόδειγµα LPM για τη πρόβλεψη της πτώχευσης επιχειρήσεων έχει προταθεί λεπτοµερώς από τον Gujarati (1988). Στην ουσία πρόκειται για την εφαρµογή της ανάλυσης παλινδρόµησης και συγκεκριµένα τη µέθοδο των ελαχίστων τετραγώνων. Η εξαρτηµένη µεταβλητή του υποδείγµατος είναι διχοτοµική, δηλαδή παίρνει την τιµή ένα για υγιείς εταιρείες και τη τιµή µηδέν για προβληµατικές εταιρείες. Το υπόδειγµα θέτει ως υπόθεση ότι η πιθανότητα να ανήκει µια επιχείρηση σε µια συγκεκριµένη οµάδα είναι γραµµική συνάρτηση των χαρακτηριστικών της. Το µοντέλο έχει την ακόλουθη µορφή: Pi= a 0+ a1xi1+ a 2xi 2+ a3xi3+ + anxin (2.6) όπου a 0, a1,, an είναι οι εκτιµήτριες ελαχίστων τετραγώνων, και xi1, xi 2, xi 3,..., x in είναι οι n ανεξάρτητες µεταβλητές για την i εταιρεία. Το γραµµικό υπόδειγµα πιθανότητας χαρακτηρίζεται από σοβαρά στατιστικά και ερµηνευτικά προβλήµατα. Οι όροι σφαλµάτων είναι ετεροσκεδαστικοί, η κατανοµή τους δεν είναι κανονική και οι διασπορές τους δεν είναι ίσες. Επίσης, εφόσον το µοντέλο λαµβάνει την ερµηνεία των προβλεπόµενων τιµών του Piως πιθανότητες, δηµιουργείται πρόβληµα όταν η προβλεπόµενη τιµή κυµαίνεται εκτός του συνόλου τιµών [0,1] Στατιστικές Προσεγγίσεις Μιας Μεταβλητής (Univariate Statistical Methods) Οι µονοδιάστατες στατιστικές προσεγγίσεις (US) (Dimitras et al., 1996) ήταν από τις πρωταρχικές µεθόδους που χρησιµοποιήθηκαν για το διαχωρισµό µεταξύ υγιών και προβληµατικών εταιρειών. Ο Beaver (1966) ήταν ο πρώτος που εφάρµοσε αυτή τη µέθοδο για τη πρόβλεψη της πτώχευσης των επιχειρήσεων µε τη χρήση χρηµατοοικονοµικών δεικτών. Μερικοί δείκτες που χρησιµοποίησαν οι ερευνητές και χαρακτηρίζονται από υψηλή ικανότητα διαφοροποίησης ήταν οι ακόλουθοι: Καθαρά Κέρδη / Καθαρή Θέση Κυκλοφορούν Ενεργητικό / Βραχυπρόθεσµες Υποχρεώσεις Καθαρή Θέση / Σύνολο Υποχρεώσεων Κεφάλαιο Κίνησης / Σύνολο Ενεργητικού Σύµφωνα µε τη µεθοδολογία του µοντέλου, για τον διαχωρισµό της εταιρείας, υπολογίζεται µια οριακή τιµή η οποία θεωρείται εκείνη η αριθµητική τιµή της µεταβλητής που επιφέρει ελαχιστοποίηση των λαθών κατά την ταξινόµηση. Εάν η αξία του δείκτη µιας εταιρείας είναι κάτω από τη τιµή-όριο, τότε η εταιρεία κατηγοριοποιείται ως πτωχευµένη, ενώ εάν είναι πάνω από τη τιµή-όριο, τότε η εταιρεία κατηγοριοποιείται ως µη πτωχευµένη. Το βασικό πλεονέκτηµα της µεθόδου US είναι η απλότητα στην εφαρµογή της όπου δεν απαιτείται γνώση στατιστικής. Όσον αφορά τα µειονεκτήµατα υπάρχουν µερικά σηµαντικά. Πρώτον, η δηµιουργία λανθασµένης πρόβλεψης µε βάση ενός µόνο δείκτη, εφόσον το πρόβληµα της ταξινόµησης είναι σύνθετο και απαιτείται η συνεισφορά περισσοτέρων δεικτών για ορθολογική πρόβλεψη. εύτερον, η δυσκολία στην εκτίµηση της σηµαντικότητας του κάθε δείκτη χωριστά, εφόσον οι περισσότερες µεταβλητές είναι µεταξύ τους υψηλά συσχετισµένες. Τέλος, η δυσκολία διατήρησης της αναλογικότητας που η µέθοδος υποθέτει ότι υπάρχει µεταξύ των δύο µεταβλητών εκ των οποίων υπολογίζεται ο δείκτης Ανάλυση Επιβίωσης (Survival Analysis) Η ανάλυση επιβίωσης (SA) (Dimitras et al., 1996) εφαρµόστηκε από διάφορους ερευνητές στο πρόβληµα της πρόβλεψης της πτώχευσης των επιχειρήσεων χρησιµοποιώντας δεδοµένα µέχρι και πέντε έτη πριν την αποτυχία. Αρχικά, είχε εφαρµοστεί σε άλλους επιστηµονικούς τοµείς, όπως στο χώρο της ιατρικής και της βιοχηµείας µε σκοπό την διάκριση διαφόρων οµάδων πληθυσµού σε µια ή 14

15 περισσότερες κατηγορίες. Ο Lane et al. (1986) θεωρείται ο πρωτοπόρος στην εφαρµογή αυτής της µεθόδου στον τραπεζικό χώρο. Στην µέθοδο SA οι οµάδες των πτωχευµένων και µη επιχειρήσεων αντιµετωπίζονται ως οµάδες που προέρχονται από τον ίδιο πληθυσµό, µε την οµάδα των αποτυχηµένων εταιρειών να αφορά κάποια πιο ειδική περίπτωση. Το όλο ζήτηµα της µεθόδου βρίσκεται στη µέτρηση του κινδύνου πτώχευσης που αντιµετωπίζει η κάθε επιχείρηση. Ο κίνδυνος αυτός υπολογίζεται σε σχέση µε τον αναµενόµενο χρόνο επιβίωσης µιας εταιρείας. Αν οριστεί ως Τ ο χρόνος στον οποίο µια επιχείρηση αποτυγχάνει, τότε η συνάρτηση επιβίωσης της εταιρείας S(t) δίνει την πιθανότητα του χρόνου Τ να είναι µεγαλύτερος από την τιµή t. Αν η πιθανότητα µιας επιχείρησης i να αποτύχει πριν την έλευση του χρόνου t συµβολίζεται ως F(t) και παρακάτω έχουµε την ακόλουθη συνάρτηση: F(t) = 1 - S(t) (2.7) Η συνάρτηση κινδύνου h(t) της επιχείρησης δίνεται από την παρακάτω σχέση: και f ( t) S ( t) h( t) = = (2.8) S( t) S( t) h( t x) h 0 exp( x aˆ ) = (2.9) όπου x είναι το διάνυσµα των µεταβλητών (χαρακτηριστικών) της επιχείρησης, και â είναι το διάνυσµα των συντελεστών της συνάρτησης. Το διάνυσµα των συντελεστών â, υπολογίζεται, όπως και στο λογιστικό και κανονικό υπόδειγµα πιθανότητας, µε την στατιστική τεχνική της µέγιστης πιθανοφάνειας. Παράλληλα, το µη παραµετρικό µέρος της συνάρτησης h0( t ) υπολογίζεται θέτοντας για x = 0. Εποµένως, η τελική µορφή της συνάρτησης επιβίωσης S( t x ) της εταιρείας είναι η ακόλουθη: S( t x) S ( t)exp( a x) = 0 ˆ (2.10) όπου η συνάρτηση S 0( t ) υπολογίζεται από την παρακάτω σχέση: S t h u du t 0( ) = exp 0 ( ) 0 (2.11) Η µέθοδος SA θεωρείται µια ηµιπαραµετρική µέθοδος λόγω της ύπαρξης του µη παραµετρικού µέρους h0( t ) που είναι ανεξάρτητο της κατανοµής που ακολουθούν οι µεταβλητές της συνάρτησης επιβίωσης, γεγονός που επιτρέπει στην µέθοδο να ξεπερνά πολλά από τα µειονεκτήµατα των αµιγών παραµετρικών µεθόδων. Μελέτες έχουν δείξει ότι η µέθοδος SA έχει παρόµοια αποτελέσµατα και αρκετά αξιόπιστα µε αυτά των µεθόδων της διακριτικής ανάλυσης κα του λογιστικού υποδείγµατος πιθανότητας. Παρόλα αυτά, δεν έχει χρησιµοποιηθεί πολλές φορές στο πρόβληµα της πτώχευσης των επιχειρήσεων και µπορούµε να πούµε ότι η χρήση της δεν είναι αρκετά διαδεδοµένη Αλγόριθµος Αναδροµικής Τµηµατοποίησης (Recursive Partitioning Algorithm) Ο αλγόριθµος αναδροµικής τµηµατοποίησης (RPA) (Dimitras et al., 1996) αποτελεί µια µη παραµετρική µέθοδο που εφαρµόστηκε για πρώτη φορά από τον Frydman et al. (1985) για την πρόβλεψη της πτώχευσης των επιχειρήσεων. Αλλά δεν είναι ευρέως χρησιµοποιούµενη για το πρόβληµα αυτό. Σύµφωνα µε τη µέθοδο RPA δηµιουργείται ένα δυαδικό δέντρο ταξινόµησης µε βάση την αναγνώριση προτύπων. Ανάλογα µε το δείγµα των επιχειρήσεων και τα χρηµατοοικονοµικά τους χαρακτηριστικά οι εταιρείες κατατάσσονται σε µια από τις δύο οµάδες και ταυτόχρονα γίνεται εµφανές 15

16 το κόστος από την λανθασµένη κατάταξη των εταιρειών (σφάλµα τύπου Ι και ΙΙ). Σε κάθε κόµβο του δέντρου βρίσκεται το σύνολο των χαρακτηριστικών για τις δύο οµάδες επιχειρήσεων. Το σύνολο αυτό διαιρείται σε άλλα δύο υποσύνολα στην βάση κάποιου κανόνα τµηµατοποίησης. Στην συνέχεια τα δύο αυτά υποσύνολα υποδιαιρούνται σε δύο επόµενα υποσύνολα ξανά στην βάση κάποιου κανόνα απόφασης και η διαδικασία επαναλαµβάνεται έως ότου δεν υπάρχουν άλλοι κανόνες τµηµατοποίησης. Όταν συµβεί αυτό η διαδικασία διακλάδωσης του δέντρου περατώνεται και οι κόµβοι που δηµιουργούνται ονοµάζονται τερµατικοί. Ένας κόµβος γίνεται τερµατικός ανάλογα µε το κριτήριο της ελάττωσης του κινδύνου εσφαλµένης ταξινόµησης. Οι κανόνες απόφασης έχουν, τις περισσότερες φορές, µονοµεταβλητή µορφή, µε την έννοια ότι αφορούν έναν χρηµατοοικονοµικό δείκτη και παίρνουν την µορφή µιας ποσοτικής τιµής-ορίου. Αυτή η τιµή καθορίζεται έτσι ώστε να ελαχιστοποιούνται τα σφάλµατα ταξινόµησης και το κόστος τους. Έτσι, ορίζεται ο κίνδυνος εσφαλµένης ταξινόµησης R( t) σε κάθε κόµβο t σύµφωνα µε τον ακόλουθο τύπο: 1 n2( t) n1( t) R ( t ) ( C 21 C 12) P 1 P 2 P ( t ) N 2 N 1 = + (2.12) Όπου: N 1, N 2 είναι το σύνολο των επιχειρήσεων της κάθε οµάδας (πτωχευµένων και µη αντίστοιχα), n1( t ), n2( t ) είναι ο αριθµός των επιχειρήσεων της κάθε οµάδας του κόµβου t, C 21 είναι το κόστος από την λανθασµένη ταξινόµηση µιας επιχείρησης στην οµάδα 1 ενώ ανήκει στην οµάδα 2, C 12 είναι το κόστος από την λανθασµένη ταξινόµηση µιας επιχείρησης στην οµάδα 2 ενώ ανήκει στην οµάδα 1, P 1, P 2 είναι η εκ των προτέρων πιθανότητα για µια επιχείρηση να ανήκει στην οµάδα 1 ή 2, P( t ) είναι η πιθανότητα µιας επιχείρησης να ταξινοµηθεί στον κόµβο t. Τα αποτελέσµατα της RPA µεθόδου ως προς την πρόβλεψη της εταιρικής αποτυχίας ήταν αρκετά ικανοποιητικά. Η ευκολία που παρέχει η µέθοδος στον λήπτη αποφάσεων είναι η ικανότητά της να επεξηγεί την ταξινόµηση κάθε επιχείρησης σε µια από τις δύο κατηγορίες. Ο αποφασίζων αυτό που έχει να κάνει είναι να ταξινοµήσει το σύνολο του δείγµατος σε κατηγορίες κινδύνου. Από την άλλη µεριά, όµως, υφίσταται και ένας αριθµός δυσκολιών που οδήγησαν αρκετούς ερευνητές στην άσκηση κριτικής κατά της µεθόδου. Η RPA µέθοδος αποτελεί µια εµπρόσθια διαδικασία επιλογής. Αυτό σηµαίνει ότι, κατά την διαδικασία ανάπτυξης του δέντρου, η µέθοδος µπορεί να συνυπολογίσει πάνω από µια φορά κάποιο κανόνα απόφασης που είχε χρησιµοποιηθεί προηγουµένως. Συµπερασµατικά, είναι πιθανό να παρουσιαστεί κάποιος κανόνας τµηµατοποίησης µε χρήση του ίδιου χρηµατοοικονοµικού δείκτη και διαφορετική τιµή. Ταυτόχρονα, έχει σχολιαστεί αρνητικά η πιθανότητα εµφάνισης του φαινοµένου της υπερπροσαρµογής (overfitting). Πρόκειται, δηλαδή, για υπερπροσαρµογή της µεθόδου στα δεδοµένα, γεγονός που οδηγεί σε ανάπτυξη δέντρων στα οποία κάθε κόµβος ταξινοµεί αποκλειστικά µια επιχείρηση Μαθηµατικός Προγραµµατισµός (Mathematical Programming) Ο µαθηµατικός προγραµµατισµός (MP) (Dimitras et al., 1996) αποτελεί µια εναλλακτική µέθοδο εκτίµησης του κινδύνου πτώχευσης των επιχειρήσεων. Οι ερευνητές Freed και Glover (1981) πρότειναν την εφαρµογή διακριτών µεθόδων γραµµικού προγραµµατισµού στα προβλήµατα ελαχιστοποίηση του αθροίσµατος των αποστάσεων και ελαχιστοποίηση της µέγιστης απόστασης, ενώ οι ερευνητές Bajgier και Hill (1982) χρησιµοποιούν αυτές τις µεθόδους για το πρόβληµα της ελαχιστοποίησης των σφαλµάτων ταξινόµησης. Ανάµεσα στα πλεονεκτήµατα της µεθόδου, που θεωρείται και το βασικότερο, είναι η έλλειψη στατιστικών υποθέσεων για κανονικότητα. Πολλοί ερευνητές προέβησαν στην σύγκριση του MP µε την ανάλυση διαφοροποίησης και προσκόµισαν µεγαλύτερη ακρίβεια ταξινόµησης και πιο ικανοποιητικά αποτελέσµατα σε σχέση µε την ανάλυση διαφοροποίησης. Για την ανάλυση της µεθόδου, η µέθοδος δηµιουργεί ένα σχήµα της µορφής: Ax = b (2.13) 16

17 Υπάρχει ένα δεδοµένο σύνολο Aiαπό n αντικείµενα (επιχειρήσεις) που περιγράφονται από ένα διάνυσµα µεταβλητών x (χρηµατοοικονοµικών δεικτών). Επίσης, οι δύο κατηγορίες οµάδων (πτωχευµένες και µη) συµβολίζονται από G1 και G2 αντίστοιχα. Η µέθοδος αναζητά έναν γραµµικό µετασχηµατισµό του x και ένα σηµείο b (οριακό σηµείο) ώστε να επιτευχθεί ο στόχος που είναι η ελαχιστοποίηση του αθροίσµατος των σταθµισµένων παραβιάσεων του οριακού σηµείου. Συγκεκριµένα, ισχύει η παρακάτω µοντελοποίηση: min n n p ia i q id i (2.14) i= 1 i= 1 υπό τους ακόλουθους περιορισµούς: Όπου: Aix+ di b+ ai, Ai G1 Aix+ di b+ ai, Ai G2 b+ xi= M a i είναι ο βαθµός κατά τον οποίο η εκάστοτε επιχείρηση A i παραβιάζει το σηµείο b (οριακό σηµείο), d i είναι η απόσταση µεταξύ της A i και του σηµείου b και p i, qiτα βάρη των a i και diαντίστοιχα, και Ο τελευταίος περιορισµός ονοµάζεται περιορισµός κανονικοποίησης (normalization constraint). Για τα πρόσηµα του διανύσµατος των µεταβλητών x και του οριακού σηµείου b δεν υπάρχει κανένας περιορισµός, ωστόσο για την απόσταση d και τον βαθµό παραβίασης του b ισχύουν di, a i 0. Ο µαθηµατικός προγραµµατισµός δεν αποτελεί µέθοδο που έχει εφαρµοστεί σε µεγάλο αριθµό περιπτώσεων. Η έλλειψη ευρείας χρήσης της µεθόδου δεν αφήνει µεγάλα περιθώρια κριτικής της. Σε πολλές περιπτώσεις οι ερευνητές έχουν παροµοιάσει την µέθοδο µε την διακριτική ανάλυση, τονίζοντας οµοιότητες και στις δύο µεθόδους. Και οι δύο προσφέρουν συναρτήσεις που συνήθως είναι δύσκολο να κατανοήσουν οι λήπτες αποφάσεων Μέθοδος Ασαφώς Προσδιορισµένων Συνόλων (Rough Set Method) Τελειώνοντας την συνοπτική περιγραφή των µεθόδων, η µέθοδος των ασαφώς προσδιορισµένων συνόλων (rough set) (Dimitras et al., 1999) χρησιµοποιείται για να περιγράψει εξαρτήσεις µεταξύ χαρακτηριστικών, για να αξιολογήσει τη σπουδαιότητα των χαρακτηριστικών και για να χρησιµοποιήσει ευµετάβλητα δεδοµένα. Αυτή η µέθοδος προτάθηκε αρχικά από τον Pawlak (1982) για την πρόβλεψη της πτώχευσης των επιχειρήσεων. Γενικά είναι αποδεκτό ότι ένα πρόβληµα απόφασης µπορεί να περιγραφεί από: C= c1, c2,..., ck που ονοµάζεται ιδιότητα Ένα πεπερασµένο σύνολο παραµέτρων { } κατάστασης, και Ένα πεπερασµένο σύνολο παραµέτρων D { d 1, d 2,..., dp} απόφασης, και ορίζονται ως: V = V c i C C ci = που ονοµάζεται ιδιότητα για τις ιδιότητες κατάστασης (2.15) V για τις ιδιότητες απόφασης (2.16) = V dj D D dj 17

18 Η λύση του προβλήµατος απόφασης για την εξεταζόµενη µέθοδο παρουσιάζεται σύµφωνα µε τη δοµή του παρακάτω πίνακα Πίνακας 2.2.1: Απόφαση για τη µέθοδο Rough Set Αριθµός Κανόνα 1... Ν Ιδιότητα Κατάστασης c 1 j u 1 c1... N c1 u... c 1 u c j u... N cj... Ιδιότητα Απόφασης c k d 1 d j u 1 ck... N ck u u 1 d1... N d1 u... u 1 dj... N dj u... d k u 1 dk... N dk u Όπως φαίνεται, ο παραπάνω πίνακας περιλαµβάνει κανόνες απόφασης οι οποίοι εµφανίζονται ως συνδυασµός µε τις βασικές συνθήκες. Εποµένως, για την j-ή απόφαση έχουµε: { } if ( 1) ( 2) ( ) 1 j & 2 j j c= uc c = uc &...& ck= uck {( 1) ( ) ( )} 1 j &...& j &...& j d l d p l dp then d = u d= u d = u (2.17) Εποµένως, σύµφωνα µε την παραπάνω προσέγγιση του προβλήµατος της πρόσληψης γνώσης, αυτό µπορεί να περιοριστεί σε πρόβληµα γενίκευσης όλων των κανόνων απόφασης σύµφωνα µε τον παραπάνω τύπο (2.17). Η µέθοδος των ασαφώς προσδιορισµένων συνόλων (rough set) παράγει αρκετά ικανοποιητικά αποτελέσµατα. Τα αποτελέσµατα αυτά είναι γενικά καλύτερα από αυτά που λαµβάνονται από την κλασική µέθοδο της ανάλυσης διαφοροποίησης και από το λογιστικό υπόδειγµα πιθανότητας. Τέλος, συγκρίνοντας µε τις υπόλοιπες µεθόδους, η ανάλυση ασαφών συνόλων προσφέρει τα παρακάτω πλεονεκτήµατα: αποκαλύπτει σηµαντικά γεγονότα που κρύβονται πίσω από τα δεδοµένα και εκφράζονται στη γλώσσα των κανόνων απόφασης αποδέχεται τα ποιοτικά και ποσοτικά χαρακτηριστικά και καθορίζει τη σχέση τους προσεγγιστικά στην ταξινόµηση µπορεί να συνεισφέρει την ελαχιστοποίηση στο χρόνο και κόστος για τη διαδικασία της λήψης αποφάσεων προσφέρει διαφάνεια στις αποφάσεις ταξινόµησης λαµβάνει υπ όψη της το γνωστικό υπόβαθρο του λήπτη απόφασης µπορεί να ενσωµατωθεί σε ένα ολοκληρωµένο σύστηµα DSS (Decision Support System) για την αξιολόγηση της συλλογικής εκτέλεσης και τη βιωσιµότητα. 18

19 Τεχνητή Νοηµοσύνη ΚΕΦΑΛΑΙΟ 3 ο 3.1 Εισαγωγή Κατά τη διάρκεια των τελευταίων δεκαετιών παρατηρείται ένα αυξανόµενο ενδιαφέρον σε αλγορίθµους οι οποίοι βασίζονται σε αναλογίες µε τις φυσικές διαδικασίες ή τη φυσική νοηµοσύνη. Οι νέες τεχνολογικές δυνατότητες στο χώρο των ηλεκτρονικών υπολογιστών έδωσαν στους αλγορίθµους αυτούς πρακτικό ενδιαφέρον. Η γεφύρωση του χάσµατος ανάµεσα στον άνθρωπο και στις µηχανές αποτελεί τον µεγαλύτερο στόχο της Επιστήµης των Υπολογιστών. Όµως, ακόµη και σήµερα, αν και ο συγκεκριµένος χώρος έχει εµφανίσει αλµατώδη ανάπτυξη, δεν έχει καταφέρει να παρουσιάσει ηλεκτρονικούς υπολογιστές απαλλαγµένους από τα κλασσικά µειονεκτήµατα µιας µηχανής. Έτσι, εκτός από ελάχιστες εξαιρέσεις, δεν υπάρχουν σήµερα µηχανές που να είναι σε θέση να επικοινωνήσουν µε τον άνθρωπο σε φυσική γλώσσα, να απαντούν σε ερωτήσεις για διάφορα συγκεκριµένα προβλήµατα ή να αποκτούν εµπειρίες και να µαθαίνουν από τις αποτυχίες και τα λάθη τους. Η περιοχή έρευνας που ασχολείται µε αυτού του είδους τα προβλήµατα ονοµάζεται Τεχνητή Νοηµοσύνη (Artificial Intelligence). Εποµένως, ορίζουµε ότι Τεχνητή Νοηµοσύνη (ΤΝ) ονοµάζεται η µελέτη των τεχνικών και των διεργασιών που δίνουν σε έναν υπολογιστή τη δυνατότητα να αποκτά διανοητικές ικανότητες, ανάλογες µε αυτές που διαθέτει ο ανθρώπινος εγκέφαλος. Η ΤΝ έχει ως κύριο στόχο της να γίνει ο υπολογιστής πιο «έξυπνος» και κατ' επέκταση πιο χρήσιµος, αφού θα είναι σε θέση να ανταποκρίνεται πολύ καλύτερα στις ανάγκες και τις επιθυµίες του ανθρώπου. Οι περιοχές έρευνας της ΤΝ που συγκεντρώνουν το µεγαλύτερο ενδιαφέρον σήµερα είναι οι εξής: Νευρωνικά ίκτυα (Neural Networks) Γενετικοί Αλγόριθµοι (Genetic Algorithms) Γενετικός Προγραµµατισµός (Genetic Programming) Έµπειρα Συστήµατα (Expert Systems) Ασαφή Συστήµατα (Fuzzy Systems) ένδρα Αποφάσεων (Decision Trees) 3.2 Νευρωνικά ίκτυα Ορισµός Τα Νευρωνικά ίκτυα (Ν ) (Γιαλκέτση, 2005) είναι ένας κλάδος της τεχνητής νοηµοσύνης και αποτελούν µια επιστηµονική προσπάθεια µοντελοποίησης της λειτουργίας των νευρώνων του ανθρώπινου εγκεφάλου. Έχουν την ικανότητα να εκτελούν υπολογισµούς µε µαζικό παράλληλο τρόπο και η αρχιτεκτονική τους βασίζεται στην αρχιτεκτονική των Βιολογικών Νευρωνικών ικτύων καθώς χρησιµοποιούν δοµές και διαδικασίες που µιµούνται τις αντίστοιχες του ανθρώπινου εγκέφαλου Πώς λειτουργεί ο ανθρώπινος εγκέφαλος Μετά την εφεύρεση του ηλεκτρονικού µικροσκοπίου µπορέσαµε να διερευνήσουµε την εσωτερική δοµή των βιολογικών νευρικών κυττάρων µε µεγάλη ακρίβεια. Εποµένως, µπορούµε πλέον να επισηµάνουµε ότι η δοµική µονάδα του εγκεφάλου είναι ο νευρώνας όπως φαίνεται στο παρακάτω σχήµα

20 Σχήµα 3.2.1: Αναπαράσταση βιολογικού νευρώνα (Πάνου, 2003) Όπως βλέπουµε από το σχήµα, ο βιολογικός νευρώνας αποτελείται από το σώµα από το οποίο εξέρχονται κάποιες επεκτάσεις σαν ρίζες που ονοµάζονται δενδρίτες οι οποίοι λειτουργούν ως λήπτες σηµάτων από τους γειτονικούς νευρώνες (σηµεία εισόδου). Ένα επίµηκες σωληνοειδές και λεπτό νεύρο, ο άξονας, αποτελεί την έξοδο του νευρώνα και µεταδίδει τη δραστηριότητά του σε άλλα κύτταρα ή µυϊκές ίνες. Τέλος, η ένωση του άξονα µε έναν άλλο νευρώνα ονοµάζεται σύναψη και κατά τη σύναψη δηµιουργείται ένα απειροελάχιστο κενό. Στον ανθρώπινο εγκέφαλο, η ικανότητα µάθησης και µνήµης που αυτός παρουσιάζει, οφείλεται στην ικανότητα των συνάψεων να µεταβάλλουν την αγωγιµότητά τους. Όταν ένας νευρώνας δεχθεί είσοδο διέγερσης που ξεπερνά κάποια τιµή κατωφλίου, στέλνει έναν παλµό ηλεκτρικής δραστηριότητας µέσω του άξονά του και το σήµα διαδίδεται προς άλλους νευρώνες Από τους Βιολογικούς στους Τεχνητούς νευρώνες Ο τεχνητός νευρώνας είναι ένα υπολογιστικό µοντέλο τα µέρη του οποίου µπορεί να αντιστοιχιστούν άµεσα µε αυτά του βιολογικού νευρώνα όπως φαίνεται στο παρακάτω σχήµα Έξοδος Σχήµα 3.2.2: Μοντέλο τεχνητού νευρώνα (Γιαλκέτση, 2005) 20

21 Ένας τεχνητός νευρώνας δέχεται κάποια σήµατα εισόδου Χ1, Χ2,, Χn (είτε από πραγµατικά δεδοµένα εισόδου, είτε από εξόδους από άλλους νευρώνες του νευρωνικού δικτύου) τα οποία, σε αντίθεση µε τους ηλεκτρικούς παλµούς του εγκεφάλου, αντιστοιχούν σε συνεχείς µεταβλητές. Κάθε τέτοιο σήµα εισόδου µεταβάλλεται από ένα µέτρο ισχύος που ονοµάζεται βάρος Wi (weight) ο ρόλος του οποίου είναι αντίστοιχος της σύναψης του βιολογικού εγκεφάλου. Στη συνέχεια ο νευρώνας αθροίζει τα γινόµενα βάρους και τιµής εισόδου για κάθε είσοδο. Η τιµή βάρους µπορεί να είναι θετική ή αρνητική, σε αντιστοιχία µε την επιταχυντική ή επιβραδυντική λειτουργία της σύναψης. Το σώµα του τεχνητού νευρώνα χωρίζεται σε δύο µέρη, τον αθροιστή (Σ) ο οποίος προσθέτει τα επηρεασµένα από τα βάρη σήµατα εισόδου και παράγει την ποσότητα S, και τη συνάρτηση ενεργοποίησης ή κατωφλίου, ένα µη γραµµικό φίλτρο το οποίο διαµορφώνει την τελική τιµή του σήµατος εξόδου y, σε συνάρτηση µε την ποσότητα S Τεχνητά Νευρωνικά ίκτυα (ΤΝ ) Είναι γνωστό ότι οι συµβατικοί Η/Υ πλεονεκτούν των ανθρώπων στην ταχύτητα εκτέλεσης των πράξεων. Από την άλλη µεριά οι Η/Υ εµφανίζονται να είναι ακατάλληλοι για την επεξεργασία δεδοµένων τα οποία δεν είναι ακριβή, δεν είναι πλήρη ή έχουν «θόρυβο». Αυτήν την δυσκολία κατάφερε να την αλλάξει, εν µέρει, η έρευνα στο χώρο των ΤΝ, η οποία µπόρεσε να πραγµατοποιήσει δύσκολες εργασίες, όπου η πραγµατοποίησή τους µέχρι τότε αποτελούσε µοναδικό προνόµιο του ανθρώπου. Εποµένως, ορίζουµε ότι τα ΤΝ είναι µοντέλα επεξεργασίας πληροφοριών και δεδοµένων και αποτελούνται από ένα πλήθος τεχνητών νευρώνων οργανωµένων σε δοµές παρόµοιες µε αυτές του ανθρώπινου εγκεφάλου. Επίσης, µπορούµε να ορίσουµε ότι τα µοντέλα των ΤΝ είναι αλγόριθµοι γνωστικών διαδικασιών, όπως η µάθηση και η βελτιστοποίηση, τα οποία βασίζονται σε έννοιες οι οποίες προέρχονται από την έρευνα της φύσης του ανθρώπινου εγκεφάλου. Κάθε νευρώνας του δικτύου εκτελεί µια σχετικά απλή εργασία: δέχεται τις εισόδους των γειτονικών νευρώνων και τις χρησιµοποιεί για να υπολογίσει το σήµα εξόδου το οποίο διαδίδεται σε άλλους νευρώνες. Εκτός αυτής της επεξεργασίας κάθε νευρώνας εκτελεί και µία άλλη εργασία, εκείνη της προσαρµογής των βαρών. Το σύστηµα είναι από φύση παράλληλο, µε την έννοια ότι πολλοί νευρώνες µπορούν να εκτελούν τους υπολογισµούς τους ταυτόχρονα. Στο παρακάτω σχήµα παρατηρούµε ότι οι τεχνητοί νευρώνες είναι οργανωµένοι σε µια σειρά από στρώµατα ή επίπεδα. Το πρώτο από αυτά τα επίπεδα ονοµάζεται επίπεδο εισόδου το οποίο δέχεται δεδοµένα. Τα ενδιάµεσα ή κρυφά επίπεδα διατηρούν τα δεδοµένα µέσα στο ΤΝ και το τελευταίο επίπεδο, το επίπεδο εξόδου, στέλνει τα δεδοµένα έξω από το ΤΝ. Χ1 Υ1 Χ2... Χn.... Επίπεδο Εισόδου... 1 ο Κρυµµένο Επίπεδο... 2 ο Κρυµµένο Επίπεδο... Επίπεδο Εξόδου Υn Σχήµα 3.2.3: Γενικό µοντέλο ΤΝ µε δυο κρυφά επίπεδα (Berg, 2005) 21

22 3.2.5 Μάθηση των ΤΝ Ένα Τεχνητό Νευρωνικό ίκτυο δηµιουργείται για µια συγκεκριµένη εφαρµογή, όπως αναγνώριση προτύπων ή ταξινόµηση δεδοµένων, µέσω µιας διαδικασίας µάθησης. Εποµένως, για να χρησιµοποιηθεί ένα ΤΝ πρέπει πρώτα να εκπαιδευτεί για να µάθει. Τα νευρωνικά δίκτυα µαθαίνουν µέσα από παραδείγµατα, µε τρόπο δηλαδή παρόµοιο µ αυτόν που µαθαίνει ο άνθρωπος. Η ιδέα είναι να τροφοδοτηθεί το δίκτυο µε µια σειρά από σήµατα εισόδων και τις αντίστοιχες εξόδους που θέλουµε να προκύπτουν ως αποτέλεσµα αυτών των εισόδων. Tα βάρη που συνδέουν τους νευρώνες προσαρµόζονται κατά τη διαδικασία της µάθησης έτσι ώστε να ελαχιστοποιείται το σφάλµα ανάµεσα στην πραγµατική έξοδο του δικτύου και την αντίστοιχη επιθυµητή. Κατά τη µάθηση τροφοδοτούµε συνεχώς το δίκτυο µε το πρότυπο εισόδων εξόδων µε τη βοήθεια αλγορίθµων που είναι γνωστοί ως κανόνες µάθησης ώστε για συγκεκριµένο διάνυσµα εισόδου να παραχθεί συγκεκριµένο διάνυσµα εξόδου. Κάθε πλήρης προβολή του συνόλου εκπαίδευσης καλείται εποχή (epoch). Η εκπαίδευση του δικτύου γίνεται µέσα από διαδοχικές εποχές µέχρι να σταθεροποιηθούν τα βάρη και να συγκλίνει το άθροισµα των τετραγωνικών σφαλµάτων. Εποµένως, το ΤΝ µπορεί να µάθει τις βασικές αρχές της λύσης και να χρησιµοποιηθεί στην λύση παρόµοιων αλλά νέων προβληµάτων. Υπάρχουν τρία είδη µάθησης των ΤΝ : Μάθηση µε επίβλεψη (supervised learning), κατά την οποία το ΤΝ εκπαιδεύεται µε συγκεκριµένες εισόδους και επιθυµητές εξόδους οι οποίες ταιριάζουν µε τις εισόδους. Αυτά τα ζεύγη εισόδων-εξόδων δίνονται από τον άνθρωπο ή από το σύστηµα το οποίο περιέχει το Τεχνητό Νευρωνικό ίκτυο Βαθµολογηµένη µάθηση (graded learning), όπου η έξοδος χαρακτηρίζεται ως «καλή» ή «κακή» µε βάση µια αριθµητική κλίµακα και τα βάρη αναπροσαρµόζονται µε βάση αυτό το χαρακτηρισµό. Μάθηση χωρίς επίβλεψη (unsupervised learning), όπου µια µονάδα εξόδου εκπαιδεύεται να ανταποκρίνεται σε οµάδες προτύπων που υπάρχουν στην είσοδο. Αντίθετα από την επιβλεπόµενη εκµάθηση, εδώ δεν υπάρχουν εκ των προτέρων καθορισµένα σύνολα κατηγοριών στα οποία θα ταξινοµηθούν τα πρότυπα. Εδώ το σύστηµα πρέπει να αναπτύξει την δικιά του αναπαράσταση των ερεθισµάτων εισόδου. Εκτός από τη λειτουργία της µάθησης, τα ΤΝ µπορούν να εκτελέσουν και τη λειτουργία της ανάκλησης η οποία είναι η διαδικασία του υπολογισµού ενός διανύσµατος εξόδου για συγκεκριµένο διάνυσµα εισόδου και τιµές βαρών. Τέλος, υπάρχουν διάφοροι αλγόριθµοι µε τους οποίους επιτυγχάνουµε την εκπαίδευση ενός νευρωνικού δικτύου. Ο δηµοφιλέστερος από αυτούς είναι ο αλγόριθµος της προς τα πίσω διάδοσης σφάλµατος (backpropagation algorithm) (βλέπε Παράρτηµα Β) Πλεονεκτήµατα των ΤΝ Τα Νευρωνικά ίκτυα έχουν την ικανότητα να παραγάγουν αποτελέσµατα από πολύπλοκα ή ηµιακριβή δεδοµένα, µπορούν να χρησιµοποιηθούν για να εξαγάγουν πρότυπα και να ανιχνεύσουν τάσεις που είναι αρκετά περίπλοκες για να προβλεφθούν είτε µε άλλες υπολογιστικές τεχνικές είτε από την ανθρώπινη παρατήρηση και εµπειρία. Άλλα πλεονεκτήµατα των ΤΝ περιλαµβάνουν: Την δυνατότητα της προσαρµοσµένης µάθησης: Είναι η ικανότητα των Τεχνητών Νευρωνικών ικτύων να µαθαίνουν πώς να εκτελούν εργασίες βασιζόµενα πάνω σε δεδοµένα που έχουν δοθεί για την εκπαίδευσή τους ή από αρχική εµπειρία. Την δυνατότητα της αυτοοργάνωσης: Ένα ΤΝ µπορεί να δηµιουργήσει την δική του οργάνωση ή αναπαράσταση των πληροφοριών που λαµβάνει κατά τη διάρκεια του χρόνου εκπαίδευσης Την δυνατότητα λειτουργίας σε πραγµατικό χρόνο: Οι υπολογισµοί των ΤΝ µπορούν να εκτελεστούν παράλληλα, ενώ ειδικό hardware σχεδιάζεται και κατασκευάζεται προκειµένου να εκµεταλλευτεί αυτή τους την δυνατότητα. Την δυνατότητα ανοχής σφαλµάτων: Η κακή λειτουργία ή η καταστροφή ενός νευρώνα οδηγεί στην αντίστοιχη µείωση της απόδοσης των λειτουργιών του. Εντούτοις, µερικές ιδιότητες του δικτύου µπορούν να διατηρηθούν ακόµα και µετά από σηµαντική ζηµία που ο νευρώνας µπορεί να έχει υποστεί αφού η πληροφορία που εσωκλείουν δεν είναι εντοπισµένη σε συγκεκριµένο σηµείο αλλά είναι διάχυτη σε όλο το δίκτυο. 22

23 3.3 Γενετικοί Αλγόριθµοι Εισαγωγή - Ορισµός Τα τελευταία χρόνια, έχει παρατηρηθεί ένα συνεχώς αυξανόµενο ενδιαφέρον για ανάπτυξη συστηµάτων επίλυσης προβληµάτων βασισµένων στις αρχές της Γενετικής Εξέλιξης και της Κληρονοµικότητας. Τα µειονεκτήµατα των κλασσικών µεθόδων αναζήτησης και βελτιστοποίησης, ήταν η βασική αιτία που ώθησε τους επιστήµονες σ' αυτήν την αναζήτηση. Οι γενετικοί αλγόριθµοι (Καρµανιόλα & Κότσι, 2004) αποτελούν δυναµικές, στοχαστικές διαδικασίες αναζήτησης βασισµένες στη φυσική επιλογή και εξέλιξη, θεωρία που ανέπτυξαν ο αρβίνος και ο Μέντελ. Στους γενετικούς αλγόριθµους ένα σύνολο πληθυσµού από πιθανές λύσεις οδηγείται σταδιακά στη βέλτιστη λύση µε την εφαρµογή της αρχής της επιβίωσης του βέλτιστου. Μέσω µιας κατάλληλης διαδικασίας επιλογής καθορίζονται τα χαρακτηριστικά των γενεών που πρόκειται να διατηρηθούν, ώστε σταδιακά µε συνδυασµό και µετάλλαξη αυτών να οδηγηθούµε στην καλύτερη δυνατή λύση. Οι απόγονοι παρουσιάζουν µικρές διαφοροποιήσεις από τους προγόνους τους. Ενώ συνήθως υπερισχύουν αυτοί που συγκεντρώνουν τα καλύτερα χαρακτηριστικά. Το µεγάλο πλεονέκτηµα των γενετικών αλγορίθµων είναι ότι έχουν τη δυνατότητα να επιλύσουν σύνθετα ηλεκτροµαγνητικά προβλήµατα. Οι κυριότερες εφαρµογές των γενετικών αλγορίθµων είναι: εύρεση µέγιστης τιµής αριθµητικών συναρτήσεων επεξεργασία εικόνων συνδυαστική βελτιστοποίηση 1 σχεδίαση µηχανική µάθηση Βασικές Έννοιες Γονίδια και χρωµοσώµατα: Το γονίδιο, όπως συµβαίνει και στη φύση, αποτελεί το βασικό δοµικό στοιχείο στη µέθοδο βελτιστοποίησης µε τη χρήση γενετικών αλγόριθµων. Τα γονίδια αποτελούν την κωδικοποιηµένη παράσταση των παραµέτρων βελτιστοποίησης ενώ τα χρωµοσώµατα περιέχουν το σύνολο των γονιδίων. Τα χρωµοσώµατα µπορούν να κωδικοποιηθούν ως ακολουθίες δυαδικών ή πραγµατικών αριθµών ή συνδυασµό και των δύο. Πληθυσµοί και γενιές: Στη βελτιστοποίηση µε τη µέθοδο των γενετικών αλγορίθµων ο πληθυσµός είναι ένα σύνολο από πιθανές λύσεις σε µορφή χρωµοσωµάτων. Χρησιµοποιείται από τον γενετικό αλγόριθµο για την εύρεση της βέλτιστης λύσης. Οι επαναλήψεις κατά τη βελτιστοποίηση ονοµάζονται γενιές. Η αναπαραγωγή η οποία αποτελείται από την επιλογή, τον επιχιασµό και τη µετάλλαξη συνεχίζεται, έως ότου να δηµιουργηθεί µία νέα γενιά η οποία θα αντικαταστήσει την προηγούµενη. Τα χρωµοσώµατα της εκάστοτε γενιάς µε τα καλύτερα χαρακτηριστικά, θα παράγουν περισσότερα αντίγραφά τους στην επόµενη γενιά µε αποτέλεσµα µία γενική µετατόπιση του πληθυσµού προς την βέλτιστη λύση. Η διαδικασία ολοκληρώνεται είτε θέτοντας ένα όριο του καλύτερου ατόµου που παράγεται από τη διαδικασία ή καθορίζοντας ένα µέγιστο αριθµό γενεών. Γονείς: Έπειτα από την διαδικασία αρχικοποίησης του πληθυσµού, όπου δηµιουργείται η πρώτη γενιά, επιλέγονται µε πιθανοτικά κριτήρια και σταθµισµένα από την συνάρτηση κόστους, ζευγάρια χρωµοσωµάτων από τον πληθυσµό τα οποία ονοµάζονται γονείς. Παιδιά: Οι απόγονοι δηµιουργούνται από την εφαρµογή στοχαστικών τελεστών στο επιλεγµένο ζεύγος γονέων, όπως ο επιχιασµός και η µετάλλαξη. Ο επιχιασµός (crossover) αφορά την τυχαία επιλογή του σηµείου του χρωµοσώµατος όπου θα γίνει η αντιστοίχηση και η συνένωση του γενετικού υλικού των δύο γονέων. Αποτέλεσµα του επιχιασµού είναι τα δύο παιδιά να φέρουν χαρακτηριστικά και των δύο γονέων. Υπάρχουν και άλλοι τελεστές επανασύνδεσης, ο επιχιασµός όµως είναι ο σηµαντικότερος. Η µετάλλαξη (muation) αλλάζει την τιµή ενός τυχαία επιλεγµένου γονιδίου του χρωµοσώµατος και αποτελεί ένα µηχανισµό ο οποίος διασφαλίζει ότι η επιλογή δεν συγκλίνει πρώιµα σε ένα τοπικό µέγιστο. Επίσης διευρύνει την περιοχή αναζήτησης, καθώς εισάγει γενετικό υλικό το οποίο δεν υπάρχει στην προηγούµενη γενιά, ούτε είναι δυνατόν να προκύψει από τον τελεστή επιχιασµού. Η µετάλλαξη είναι περιορισµένης σηµασίας σε σχέση µε τον επιχιασµό. Συνάρτηση Καταλληλότητας: Η αντικειµενική συνάρτηση η οποία καθορίζει τον στόχο βελτιστοποίησης, ονοµάζεται συνάρτηση καταλληλότητας. Η συνάρτηση αυτή αναθέτει µία τιµή σε κάθε χρωµόσωµα του πληθυσµού. Η τιµή αυτή αποτελεί κριτήριο για το πόσο ικανοποιητική είναι η συγκεκριµένη λύση που αντιπροσωπεύει το κάθε χρωµόσωµα. 1 Πρόκειται για το κλασικό πρόβληµα κατανοµής πόρων σε δραστηριότητες, µε σκοπό τη µεγιστοποίηση του οφέλους ή την ελάττωση του κόστους. 23

24 3.3.3 Λειτουργία Γενετικών Αλγορίθµων Οι γενετικοί αλγόριθµοι µοντελοποιούν τις φυσικές διεργασίες, όπως την επιλογή, τη διασταύρωση, τη µετάλλαξη, τη µετανάστευση, την τοπικότητα και τη γειτνίαση. Η διαδικασία βελτιστοποίησης µε τη χρήση γενετικών αλγόριθµων, περιλαµβάνει την τυχαία επιλογή λύσεων µε τη µορφή ενός αρχικού πληθυσµού χρωµοσωµάτων (γενιά) και την εξέλιξη τους στην βέλτιστη λύση υπό την επίδραση της συνάρτησης καταλληλότητας όπως παρουσιάζεται στο παρακάτω σχήµα Με την έναρξη του αλγόριθµου, ένας αριθµός από µέλη (του πληθυσµού) αρχικοποιούνται τυχαία. Η αντικειµενική συνάρτηση κατόπιν υπολογίζεται για κάθε µέλος. Η πρώτη (αρχική) γενιά έχει παραχθεί. Αν το κριτήριο βελτιστοποίησης δεν έχει επιτευχθεί από την πρώτη γενιά (πράγµα σχεδόν βέβαιο να συµβεί), µία καινούργια γενιά αρχίζει να παράγεται: µέλη του πληθυσµού επιλέγονται σύµφωνα µε τη προσαρµογή τους για να παράγουν απογόνους. Οι γονείς διασταυρώνονται για να παράγουν τους απογόνους. Όλοι οι απόγονοι θα µεταλλαχθούν µε µία συγκεκριµένη πιθανότητα. Η προσαρµογή όλων των απογόνων κατόπιν υπολογίζεται. Οι απόγονοι εισέρχονται στον πληθυσµό αντικαθιστώντας τους γονείς, παράγοντας έτσι την επόµενη γενιά. Ο κύκλος αυτός επαναλαµβάνεται µέχρι το κριτήριο της βελτιστοποίησης να επιτευχθεί. Αρχικοποίηση και Αξιολόγηση Πληθυσµού Τερµατισµός Αναζήτησης Ναι Όχι Επιλογή Βάση της Καταλληλότητας ιασταύρωση και Μετάλλαξη Αξιολόγηση νέου Πληθυσµού Τελική λύση Σχήµα 3.3.1: ιάγραµµα ροής απλού γενετικού αλγορίθµου Εποµένως, σύµφωνα µε το παραπάνω σχήµα τα βασικά στάδια ενός απλού γενετικού αλγορίθµου είναι: Αρχικοποίηση: Στο βήµα αυτό ο αρχικός πληθυσµός των χρωµοσωµάτων δηµιουργείται είτε τυχαία µε τη χρήση µιας γεννήτριας τυχαίων αριθµών, είτε διαταράσσοντας ένα χρωµόσωµα εισόδου. Επίσης, τα βάρη των νευρωνικών δικτύων που προκύπτουν επιλέγονται τυχαία (µε οµοιόµορφη κατανοµή) στο διάστηµα [ελάχιστη τιµή, µέγιστη τιµή]. Ο τρόπος µε τον οποίο γίνεται η αρχικοποίηση δεν θεωρείται κρίσιµος, καθώς ο αρχικός πληθυσµός εξελίσσεται και εκτείνεται σε ένα µεγάλο εύρος τιµών των υπό βελτιστοποίηση µεταβλητών. Αξιολόγηση: Στο δεύτερο βήµα υπολογίζεται η καταλληλότητα. Ο στόχος της συνάρτησης καταλληλότητας είναι να υπολογισθεί αριθµητικά η συµπεριφορά του χρωµοσώµατος και να αξιολογηθεί η ποιότητά του. Το πιο κρίσιµο βήµα είναι η επιλογή της συνάρτησης καταλληλότητας. Επιλογή: Το τρίτο βήµα είναι το αυτό της φυσικής επιλογής. Στο βήµα αυτό, τα χρωµοσώµατα µε τη µεγαλύτερη βαθµολογία καταλληλότητας τοποθετούνται µία ή περισσότερες φορές σε ένα υποσύνολο ζευγαρώµατος µε τρόπο περίπου τυχαίο. ηλαδή όσο πιο κατάλληλο είναι ένα χρωµόσωµα τόσες 24

25 περισσότερες φορές ενδέχεται να επιλεγεί για αναπαραγωγή. Τα χρωµοσώµατα µε χαµηλή βαθµολογία καταλληλότητας αποµακρύνονται από τον πληθυσµό ιασταύρωση: Στο τέταρτο βήµα οι λύσεις του ενδιάµεσου πληθυσµού ανασυνδυάζονται για την παραγωγή του επόµενου πληθυσµού µε χρήση τελεστών που προσοµοιώνουν αντίστοιχους γενετικούς µηχανισµούς. Η διασταύρωση είναι η ανταλλαγή γενετικού υλικού ανάµεσα σε δύο χρωµοσώµατα µε σκοπό την παραγωγή δύο νέων χρωµοσωµάτων που να φέρουν τα χαρακτηριστικά και των δύο αρχικών χρωµοσωµάτων. Τα δύο χρωµοσώµατα που πρόκειται να διασταυρωθούν επιλέγονται τυχαία (βάσει του µηχανισµού της επιλογής). Η µέθοδος που επιλέγεται για την διασταύρωση εξαρτάται και από τον τρόπο κωδικοποίησης των χρωµοσωµάτων. Η διασταύρωση µεταξύ δύο καλών λύσεων µπορεί να µην αποφέρει πάντα µία εξίσου καλή ή καλύτερη λύση. Ωστόσο, όταν οι γονείς είναι καλοί, η πιθανότητα το παιδί που θα γεννηθεί να είναι καλό είναι υψηλή. Εάν ο απόγονος δεν είναι καλός, έχει µεγάλη πιθανότητα να αποµακρυνθεί στην επόµενη γενιά κατά τη διάρκεια της επιλογής. Η διασταύρωση, ανάλογα από τον τρόπο υλοποίησης του αλγορίθµου, µπορεί να παράγει έναν απόγονο ή δύο απογόνους. Μετάλλαξη: Στο πέµπτο βήµα πραγµατοποιείται αλλαγή των γονιδίων σε µία τυχαία επιληφθείσα θέση ενός χρωµοσώµατος. Η µετάλλαξη µπορεί να αφορά πρόσθεση, παράληψη, αντικατάσταση ή ανταλλαγή σηµείου (µπορούν ακόµη να γίνουν και τα τέσσερα µαζί). Ωστόσο, µερικοί απόγονοι µπορεί και να µην υποστούν µετάλλαξη. Η διασταύρωση, αν και αποτελεί το βασικό µηχανισµό αναζήτησης νέων λύσεων, δεν είναι ωστόσο σε θέση να παράγει πληροφορία που δεν υπάρχει ήδη µέσα στον πληθυσµό. Ο τελεστής της µετάλλαξης καλύπτει αυτήν την ανάγκη εισάγοντας νέα πληροφορία στους απογόνους. Αντικατάσταση: Στο τελευταίο βήµα έχουµε την αντικατάσταση της προηγούµενης γενιάς µε την νέα πιο βελτιωµένη λύση που έχουµε βρει µέχρι αυτό το σηµείο Πλεονεκτήµατα Γενετικών Αλγορίθµων Η χρήση των ΓΑ σε διάφορες εφαρµογές είναι ελκυστική για αρκετούς λόγους. Οι κυριότεροι είναι οι εξής : Μπορούν να λύσουν δύσκολα προβλήµατα γρήγορα και αξιόπιστα. Επίσης η µεγάλη αποδοτικότητα των ΓΑ αποτελεί σηµαντικό λόγο χρήσης αυτών. Μπορούν εύκολα να συνεργαστούν µε τα υπάρχοντα µοντέλα και συστήµατα. Οι ΓΑ προσφέρουν το σηµαντικό πλεονέκτηµα της χρήσης τους µε προσθετικό τρόπο στα µοντέλα που χρησιµοποιούνται σήµερα, χωρίς την επανασχεδίασή τους. Μπορούν εύκολα να συνεργαστούν µε τον υπάρχοντα κώδικα, χωρίς µεγάλο κόπο. Είναι εύκολα επεκτάσιµοι και εξελίξιµοι. Οι ΓΑ δεν αντιστέκονται σε αλλαγές, επεκτάσεις και µετεξελίξεις, ανάλογα µε την κρίση του σχεδιαστή. Μπορούν να συµµετέχουν σε υβριδικές µορφές µε άλλες µεθόδους. Σε περιπτώσεις όπου άλλοι µέθοδοι έχουν πολύ υψηλή αποδοτικότητα, υπάρχει η δυνατότητα χρησιµοποίησης ενός υβριδικού σχήµατος ΓΑ µε αυτή τη µέθοδο. Αυτό είναι αποτέλεσµα της µεγάλης ευελιξίας των ΓΑ. Εφαρµόζονται σε πολύ περισσότερα πεδία από κάθε άλλη µέθοδο. Αυτό συµβαίνει λόγω της ελευθερία στην επιλογή των κριτηρίων που καθορίζουν την επιλογή µέσα στο τεχνικό περιβάλλον. Έτσι, ΓΑ µπορούν να χρησιµοποιηθούν στην οικονοµία, στο σχεδιασµό µηχανών, στην επίλυση µαθηµατικών εξισώσεων, στην εκπαίδευση Νευρωνικών ικτύων και σε πολλούς άλλους τοµείς. εν απαιτούν περιορισµούς στις συναρτήσεις που επεξεργάζονται. Ο κύριος λόγος που καθιστά τις παραδοσιακές µεθόδους δύσκαµπτες και ακατάλληλες για πολλά προβλήµατα είναι η απαίτησή τους για ύπαρξη περιορισµών, όπως ύπαρξη παραγώγων, συνέχεια, όχι "θορυβώδεις" συναρτήσεις κ.λ.π. Τέτοιου είδους ιδιότητες είναι αδιάφορες για τους ΓΑ πράγµα που τους κάνει κατάλληλους για µεγάλο φάσµα προβληµάτων. Η υπό εξέταση πληροφορία δεν ενδιαφέρει τον ΓΑ. Η µόνη "επικοινωνία" του ΓΑ µε το περιβάλλον του είναι η αντικειµενική συνάρτηση. Αυτό εγγυάται την επιτυχία του ανεξάρτητα από την σηµασία του προβλήµατος. Έχουν από τη φύση τους το στοιχείο του παραλληλισµού. Οι ΓΑ σε κάθε τους βήµα επεξεργάζονται µεγάλες ποσότητες πληροφορίας, αφού κάθε άτοµο θεωρείται αντιπρόσωπος πολλών άλλων. Είναι η µόνη µέθοδος που κάνει ταυτόχρονα εξερεύνηση του χώρου αναζήτησης και εκµετάλλευση της ήδη επεξεργασµένης πληροφορίας. Ο συνδυασµός αυτός σπάνια συναντάται σε οποιαδήποτε άλλη µέθοδο. Οι ΓΑ επιτυγχάνουν το βέλτιστο συνδυασµό 25

26 εξερεύνησης και εκµετάλλευσης, πράγµα που τους κάνει ιδιαίτερα αποδοτικούς και ελκυστικούς. Τέλος, επιδέχονται παράλληλη υλοποίηση. Οι ΓΑ µπορούν να εκµεταλλευτούν τα πλεονεκτήµατα των παράλληλων µηχανών, αφού λόγω της φύσης τους, εύκολα µπορούν να δεχτούν παράλληλη υλοποίηση. Το χαρακτηριστικό αυτό αυξάνει ακόµη περισσότερο την απόδοσή τους, ενώ σπάνια συναντάται σε ανταγωνιστικές µεθόδους. 3.4 Γενετικός Προγραµµατισµός Ο γενετικός προγραµµατισµός (ΓΠ) (Βλαχάβας 2002) αποτελεί ειδική περίπτωση των γενετικών αλγορίθµων. Εδώ, ο στόχος είναι η αυτόµατη δηµιουργία προγραµµάτων υπολογιστών όπου αναπαριστώνται µε δένδρα τα οποία ονοµάζονται δένδρα συντακτικής ανάλυσης του προγράµµατος. Κάθε κλήση συνάρτησης αναπαρίσταται µε έναν κόµβο του δένδρου και τα ορίσµατά της µε τους κόµβους απογόνους όπως φαίνεται στο παρακάτω παράδειγµα. Σχήµα 3.4.1: ένδρο συντακτικής ανάλυσης (Βλαχάβας 2002) Για την εκτέλεση ενός προβλήµατος µε χρήση ΓΠ πρέπει πρώτα να οριστούν όλες οι συναρτήσεις που θα χρησιµοποιηθούν καθώς και τα τερµατικά σύµβολα. Στη συνέχεια δηµιουργείται ένας πληθυσµός υποψηφίων λύσεων που αποτελούν τα δένδρα. Ο αλγόριθµος του ΓΠ εκτελεί µια εξελικτική αναζήτηση στο χώρο επιλέγοντας κάθε φορά κάποια από τα δένδρα και η τιµή που επιστρέφει είναι ο αριθµός των επιτυχηµένων δοκιµών. Ο ΓΠ ξεκινά από έναν τυχαία παραγόµενο πληθυσµό και µε επαναληπτικά εκτελεστικά βήµατα αυτός ο πληθυσµός µετατρέπεται σε έναν καινούριο. Οι λειτουργίες που απαιτούνται για την µετατροπή αυτή εφαρµόζονται σε επιλεγµένα άτοµα του πληθυσµού βασισµένες στην καταλληλότητα. Τα εκτελεστικά αυτά βήµατα του ΓΠ περιλαµβάνουν τις παρακάτω λειτουργίες: Αναπαραγωγή είναι µια τεχνική όπου αντιγράφει τα επιλεγµένα ατοµικά προγράµµατα σε νέο πληθυσµό. ιασταύρωση είναι µια άλλη τεχνική όπου εφαρµόζεται ατοµικά σε έναν κόµβο και τον αλλάζει µε έναν άλλο κόµβο διαφορετικού πληθυσµού. Με αυτόν τον τρόπο το τελικό δένδρο είναι τελείως διαφορετικό από το αρχικό αφού µε την αλλαγή του κόµβου αλλάζει και το κλαδί του δέντρου. Μετάλλαξη είναι µια τελευταία τεχνική όπου επηρεάζει το δένδρο αλλάζοντας ολόκληρο τον κόµβο που περιέχει την πληροφορία. 3.5 Έµπειρα Συστήµατα Εισαγωγή Ορισµός Τα Έµπειρα Συστήµατα (ΕΣ) είναι ευρετικά µοντέλα που µπορούν να συµπεριλάβουν τόσο ποσοτικούς όσο και ποιοτικούς παράγοντες και έχουν ως σκοπό την υλοποίηση συστηµάτων υπολογιστών µε δυνατότητες αυτόµατης επεξεργασίας των δεδοµένων ενός προβλήµατος και την 26

27 εξαγωγή συγκεκριµένων συµπερασµάτων για την αποτελεσµατική επίλυση αυτού του προβλήµατος. Χρησιµοποιούν προγραµµατιστικές µεθόδους της ΤΝ σε συνδυασµό µε τις γνώσεις εµπειρογνωµόνων σε ειδικά θέµατα Ιδιότητες ενός ΕΣ Ένα ΕΣ για να είναι επιτυχηµένο πρέπει να έχει τις ακόλουθες ιδιότητες: Να έχει υψηλού βαθµού εµπειρία πράγµα που καθιστά το σύστηµα αποτελεσµατικό από πλευράς κόστους. Να είναι προβλέψιµο στη µοντελοποίηση, δηλαδή να έχει την ικανότητα να ενεργεί αποτελεσµατικά στην επεξεργασία πληροφοριών ή στο µοντέλο επίλυσης προβληµάτων εφαρµόζοντας τεχνικές προσθήκης νέων κανόνων ή µετασχηµατισµού των υπαρχόντων. Να έχει την ιδιότητα της θεσµικής µνήµης σύµφωνα µε την οποία η νοοτροπία, η στρατηγική και το στυλ της οµάδας που χρησιµοποιήθηκε για τη κατασκευή του ΕΣ να διατηρούνται σε κάθε παραγόµενη απόφαση που λαµβάνει το σύστηµα. Τέλος, να έχουν χαρακτήρα εκπαιδευτικό ώστε να µπορούν να εκπαιδεύουν εύκολα τα στελέχη προσωπικού των επιχειρήσεων Εφαρµογές των ΕΣ Τα ΕΣ έχουν ερµηνευτικά καθήκοντα καθώς επίσης και καθήκοντα πρόγνωσης και διάγνωσης. Το πεδίο εφαρµογής τους είναι ευρύ και αποτελείται κυρίως από: Χηµεία Η/Υ Ηλεκτρονικά Μηχανολογία Γεωλογία Στρατιωτική Έρευνα Ιατρική 3.6 Ασαφή Συστήµατα Εισαγωγή Ορισµός Οι προσπάθειες που γίνονται για την αυτοµατοποίηση διαφόρων εκφράσεων της ανθρώπινης δραστηριότητας, από τη διάγνωση ενός ασθενούς µέχρι και τις διαδικασίες χειρισµού µιας µονάδας παραγωγής ενέργειας, χαρακτηρίζονται έντονα από το διαφορετικό τρόπο µε τον οποίο σκέφτονται και κρίνουν οι άνθρωποι. Η ασάφεια (Βουµβουλάκης, 2003) είναι µια έννοια που σχετίζεται µε την ποσοτικοποίηση της ποιοτικής πληροφορίας και οφείλεται κυρίως σε µη ακριβή δεδοµένα. Ουσιαστικά πρόκειται για ένα χαρακτηριστικό της αναπαράστασης των διαφόρων «αντικειµένων» σ ένα περιβάλλον συµβόλων και γενικά µια ιδιότητα των µοντέλων και της γλώσσας. Το πρόβληµα έγκειται στην αντίληψη που υπάρχει για τους λεκτικούς προσδιορισµούς και έτσι δηµιουργήθηκε η ανάγκη ανάπτυξης συστηµάτων όπου θα µπορούν να επιλύουν τέτοια προβλήµατα ασάφειας. Η γνώση που λαµβάνει ένας υπολογιστής για να συµπεριφερθεί έξυπνα αναπαρίσταται µε τη µορφή κανόνων και γεγονότων. Στην πράξη όµως, οι κανόνες και τα γεγονότα δεν παίρνουν πάντα την τιµή 0 ή 1, αλλά ισχύουν µε πιθανότητες. Το γεγονός αυτό οδήγησε στην ανάπτυξη µιας σύγχρονης µαθηµατικής λογικής, που αποτελεί επέκταση της απλής άλγεβρας και ονοµάζεται Ασαφής Λογική (Fuzzy Logic). Η Ασαφής Λογική εισάγει στο λογικό προγραµµατισµό τις µη ακέραιες λογικές τιµές που ανήκουν στο διάστηµα [0,1] και ορίζει τελεστές για το συνδυασµό τους. Εποµένως, µπορούµε να ορίσουµε ότι η ασαφή λογική είναι µια µαθηµατικοποιηµένη θεωρία συνόλων κατάλληλη για ασαφείς ποσότητες, δηλαδή για ποσότητες που δεν είναι ευδιάκριτες, καλά διαχωρισµένες και που δεν είναι περιγράψιµες µε όρους κατανοµής πιθανότητας. Επίσης, αυτός ο τύπος τεχνητής νοηµοσύνης αποτελεί το καταλληλότερο εργαλείο για την αντιµετώπιση συγκεκριµένων τύπων δεδοµένης ανακρίβειας στην ανάλυση αποφάσεων. Συνεπώς, τα συστήµατα που αναπαριστούν τη γνώση και την ανθρώπινη λογική µε βάση την Ασαφή Λογική, ονοµάζονται Ασαφή Συστήµατα (Fuzzy Systems) και η βασική δοµή τους παρουσιάζεται στο παρακάτω σχήµα

28 Η µαθηµατική θεµελίωση της ασαφούς λογικής βασίζεται στη θεωρία των ασαφών συνόλων 2 η οποία µπορεί να θεωρηθεί σαν µια γενίκευση της κλασικής θεωρίας συνόλων. Με τη θεωρία των ασαφών συνόλων και της ασαφούς λογικής βρίσκουµε χρήσιµες και αποδοτικές λύσεις σε δύσκολα πρακτικά προβλήµατα, για τα οποία δεν έχουµε ακριβείς µαθηµατικές περιγραφές και µοντέλα. Το γεγονός αυτής της αβεβαιότητας και ανακρίβειας διατυπώθηκε από τον Zadeh ως µια αρχή, την οποία ονόµασε αρχή του ασυµβίβαστου. Η αρχή του ασυµβίβαστου λέει ότι: «Καθώς η πολυπλοκότητα ενός συστήµατος αυξάνει, η ικανότητά µας να προβαίνουµε σε ακριβείς και σηµαντικές δηλώσεις για τη συµπεριφορά του µειώνεται, µέχρις ότου φτάσουµε σε ένα όριο (κατώφλι) πέρα από το οποίο ακρίβεια και σηµαντικότητα (ή σχετικότητα) καθίστανται σχεδόν αµοιβαίως αποκλειόµενα χαρακτηριστικά». Ο τρόπος αντιµετώπισης του ασυµβίβαστου αυτού µε τη θεωρία των ασαφών συνόλων είναι να παραστήσουµε τη συγκεχυµένη, αόριστη και µη ακριβή γνώση του ανθρώπου άµεσα, χωρίς τη µεσολάβηση κάποιας τεχνητής παράστασης, όπως είναι π.χ. ένας ακριβής µαθηµατικός τύπος. Σχήµα 3.6.1: Βασική δοµή Ασαφούς Συστήµατος Πλεονεκτήµατα Ασαφούς Λογικής Τα κύρια πλεονεκτήµατα της Ασαφούς Λογικής είναι τα παρακάτω: Ευκολία κατανόησης της λογικής σχεδιασµού Ευελιξία σχεδιασµού Ανοχή σε ανακριβή δεδοµένα Ικανότητα εκµετάλλευσης της γνώσης των ειδηµόνων Ευκολία στην συνεργασία µε άλλες τεχνικές και δηµιουργία υβριδικών σχηµάτων Χρήση της «φυσικής» γλώσσας του ανθρώπου. 3.7 ένδρα Αποφάσεων Για την επίλυση προβληµάτων λήψης απόφασης, εκτός από τους παραπάνω µεθόδους, µπορούµε να χρησιµοποιήσουµε και τα δένδρα αποφάσεων (Σεµιτέκου, 2005). Τα δένδρα απόφασης ανήκουν στην κατηγορία της επαγωγικής µάθησης η οποία περιλαµβάνει χαµηλού επιπέδου πληροφορίες. Σε µαθηµατικούς όρους ένα δέντρο αποφάσεων είναι µια ιεραρχηµένη συλλογή σύνθετων διαζευκτικών προτάσεων οι οποίες αποτελούνται από ένα σύνολο λογικών συζεύξεων που αναφέρονται σε τιµές χαρακτηριστικών συγκεκριµένων παραδειγµάτων. Η σηµαντικότερη πρόταση σε κάθε σύζευξη είναι η πρώτη και ορίζεται ως «ρίζα» του δένδρου. Κάθε µονοπάτι το οποίο ξεκινάει από τη ρίζα του δένδρου καταλήγει σε ένα κόµβο - φύλλο, το οποίο περιέχει και ένα λογικό συµπέρασµα / πρόγνωση. Σε κάθε περίπτωση, όποιες και εάν είναι οι τιµές των χαρακτηριστικών των δεδοµένων εισόδου, ο δρόµος που ακολουθείται από τη ρίζα του δένδρου µέχρι σε ένα φύλλο είναι µοναδικός.η µεθοδολογία των δένδρων απόφασης είναι µια γενική µη παραµετρική τεχνική, ικανή να παράγει ταξινοµητές, προκειµένου να εκτιµήσει νέες, άγνωστες καταστάσεις, ή να αποκαλύψει τους µηχανισµούς που χαρακτηρίζουν ένα πρόβληµα. Έχουν εφαρµοστεί: Σε Ιατρική / Φαρµακολογία Για Οικονοµική Ανάλυση Στη Μοριακή Βιολογία Στην Ανάπτυξη Λογισµικού 2 Ασαφή σύνολα είναι εκείνα τα σύνολα που δεν έχουν ένα ορισµένο τρόπο συµµετοχής σε µια οµάδα, αλλά επιτρέπουν τα στοιχεία να έχουν βαθµούς συµµετοχής π.χ. µεταξύ του 0 και του 1. 28

29 Στη Γεωργία και Στη Βιοµηχανικά Συστήµατα Ελέγχου. Ένα δένδρο απόφασης (decision tree) είναι µια ιεραρχηµένη συλλογή σύνθετων διαζευκτικών προτάσεων οι οποίες αποτελούνται από ένα σύνολο λογικών συζεύξεων που αναφέρονται σε τιµές χαρακτηριστικών συγκεκριµένων παραδειγµάτων. Η σηµαντικότερη πρόταση σε κάθε σύζευξη είναι η πρώτη και ορίζεται ως «ρίζα» του δένδρου. Κάθε µονοπάτι το οποίο ξεκινάει από τη ρίζα του δένδρου καταλήγει σε ένα κόµβο - φύλλο, το οποίο περιέχει και ένα λογικό συµπέρασµα / πρόγνωση. Σε κάθε περίπτωση, όποιες και εάν είναι οι τιµές των χαρακτηριστικών των δεδοµένων εισόδου, ο δρόµος που ακολουθείται από τη ρίζα του δένδρου µέχρι σε ένα φύλλο είναι µοναδικός. Στο παρακάτω σχήµα έχουµε ένα παράδειγµα µιας κατηγορίας του δένδρου απόφασης όπου τα αντικείµενα αποθηκεύονται σε κόµβους του δένδρου και το δένδρο είναι οργανωµένο κατά τέτοιο τρόπο ώστε για κάθε αντικείµενο x, Το κλειδί κάθε κόµβου στο αριστερό υπόδενδρο του x είναι µικρότερο του κλειδιού του x. Το κλειδί κάθε στο δεξιό υπόδενδρο του x είναι µεγαλύτερο του κλειδιού του x. Σχήµα 3.7.1: υαδικού ένδρου Αναζήτησης 29

30 Το Πρόγραµµα WEKA ΚΕΦΑΛΑΙΟ 4 ο 4.1 Εισαγωγή Είναι πλέον γνωστό ότι οι µέθοδοι µηχανικής µάθησης είναι αρκετά σηµαντικές για την έρευνα που αναπτύσσεται στο χώρο της επιστήµης των υπολογιστών, παρέχοντας προγράµµατα αυτόµατης ανάγνωσης του περιεχοµένου δεδοµένων. Ο στόχος των µεθόδων αυτών είναι η αναζήτηση των πληροφοριών που είναι πιο σηµαντικές ώστε να βοηθήσουν στην πρόβλεψη ή στην λήψη αποφάσεων µε ακρίβεια και ταχύτητα. Το πρόγραµµα WEKA αναπτύχθηκε στο Πανεπιστήµιο Waikato της Νέας Ζηλανδίας από τους ερευνητές Eibe Frank, Len Trigg και Mark Hall και η ονοµασία του δόθηκε από τα ακρώνυµα W(aikato) E(nvironment) for K(nowlegde) A(nalysis). Το σύµβολο του προγράµµατος είναι ένα ενδηµικό, χωρίς φτερά πουλί που ονοµάζεται weka και βρίσκεται µόνο στο νησί της Νέας Ζηλανδίας. Εικόνα 4.1.1: Το πουλί weka Το WEKA περιλαµβάνει µια συλλογή από αλγορίθµους µηχανικής µάθησης (machine learning) για την εξόρυξη δεδοµένων (data mining) 3 και είναι γραµµένο σε γλώσσα προγραµµατισµού Java. Αποτελεί ένα εργαλείο χρήσιµο τόσο για πειράµατα, όσο και για ενσωµάτωση µηχανισµών µηχανικής µάθησης σε καθηµερινές εφαρµογές. Παρέχει µια ενιαία διάταξη σε πολλούς διαφορετικούς αλγορίθµους µάθησης 4 µαζί µε εργαλεία προκαι µετά- διαδικασίας δεδοµένων και µεθόδους για αξιολόγηση των αποτελεσµάτων της κάθε βάσης δεδοµένων. Επίσης, εµπεριέχονται εργαλεία ταξινόµησης (classification), παλινδρόµησης (regression), οµαδοποίησης (clustering), κανόνων συνάφειας (association rules), επιλογής χαρακτηριστικών (attribute selection) και απεικόνισης (visualization). Το WEKA χρησιµοποιείται όχι µόνο από τους ερευνητές µηχανικής µάθησης και τους επιστήµονες, αλλά επίσης και για εκπαιδευτικούς σκοπούς. 4.2 Το Περιβάλλον WEKA και η χρήση του Το πρόγραµµα WEKA παρέχει εφαρµογές των αλγορίθµων εκµάθησης που µπορούν να εφαρµοστούν εύκολα στα δεδοµένα µας. Επίσης, περιλαµβάνονται αρκετά εργαλεία για την µετατροπή των δεδοµένων, όπως οι αλγόριθµοι διακριτοποίησης (discretization 5 ). Ακόµα µπορούµε να προ- 3 Data mining ορίζεται ως η διαδικασία ανακάλυψης υποδειγµάτων των δεδοµένων µε αυτόµατο τρόπο έτσι ώστε τα υποδείγµατα να είναι εποικοδοµητικά και να επιφέρουν (οικονοµικά) πλεονεκτήµατα. 4 Μάθηση έχουµε όταν παρατηρούµε αλλαγή στη συµπεριφορά των αλγορίθµων µε τέτοιο τρόπο ώστε να εκτελούνται καλύτερα στο µέλλον. 5 Μερικοί αλγόριθµοι περιέχουν µόνο ονοµαστικά χαρακτηριστικά και δεν µπορούν να µετρηθούν στην αριθµητική κλίµακα. Για να χρησιµοποιηθούν στα γενικά δεδοµένα πρέπει πρώτα τα αριθµητικά χαρακτηριστικά να µετατραπούν σε ένα µικρό αριθµό διακεκριµένων κλιµακίων. 30

31 επεξεργαστούµε τα δεδοµένα µας, να επαναλάβουµε τη διαδικασία µάθησης και να αναλύσουµε τα αποτελέσµατα του ταξινοµητή χωρίς να δηµιουργήσουµε κανένα κώδικα προγραµµατισµού. Γνωρίζοντας τα δεδοµένα ως ένα ενιαίο µέρος της εργασίας, όλοι οι αλγόριθµοι λαµβάνουν τα δεδοµένα εισαγωγής σε διάταξη ARFF 6 που µπορούν να διαβαστούν από ένα αρχείο ή να δηµιουργηθούν από µια βάση δεδοµένων. Το WEKA αποτελείται από τις παρακάτω βασικές διασυνδέσεις: Explorer (Εξερευνητής) Experimenter (Πειραµατιστής) Knowledge Flow (Ροή γνώσης) Simple Command Line Interface SCLI (Απλή διασύνδεση εντολών) Java Interface ( ιασύνδεση σε περιβάλλον Java) Το πρόγραµµα έχει διάφορες χρήσεις. Μια πρώτη χρήση είναι η εφαρµογή µιας µεθόδου µηχανικής µάθησης σε ένα σύνολο δεδοµένων και η ανάλυση των αποτελεσµάτων της. Χρησιµοποιώντας τα µοντέλα µηχανικής µάθησης µπορούµε να παράγουµε προβλέψεις για νέες περιπτώσεις που θα προκύψουν. Αυτή η λειτουργία επιτυγχάνεται µέσω της γραφικής διασύνδεσης που ονοµάζεται Explorer και δίνει πρόσβαση σε όλες τις εγκαταστάσεις του προγράµµατος. Μια άλλη χρήση γίνεται µέσω της διασύνδεσης Knowledge Flow και µας επιτρέπει να σχεδιάσουµε τις διατάξεις για τη ροή της διαδικασίας των δεδοµένων. ηλαδή µπορούµε να αναπαραστήσουµε αλγορίθµους εκµάθησης και πηγές δεδοµένων ενώνοντάς τα µεταξύ τους σε όποια διάταξη θέλουµε µε το να τραβάµε γραµµές και να δηµιουργούµε κουτιά. Τέλος, µια τρίτη χρήση είναι να εφαρµόσουµε διάφορα µοντέλα εκµάθησης και να συγκρίνουµε τις εκτελέσεις τους ώστε να επιλέξουµε το καλύτερο µοντέλο πρόβλεψης. Αυτή η διαδικασία επιτυγχάνεται µε τη διασύνδεση Experimenter και µας βοηθάει να απαντήσουµε σε µια βασική ερώτηση όταν εφαρµόζουµε τις τεχνικές ταξινόµησης και παλινδρόµησης, αυτήν της αναζήτησης της βέλτιστης µεθόδου και των βέλτιστων τιµών για το δεδοµένο πρόβληµα. Εποµένως, παρέχεται ένα περιβάλλον που επιτρέπει στους χρήστες του προγράµµατος να συγκρίνουν µια ποικιλία από τεχνικές µάθησης. Τα µοντέλα µάθησης ονοµάζονται ταξινοµητές και το πρόγραµµα µας επιτρέπει να διαλέξουµε όποιον ταξινοµητή επιθυµούµε. Όσον αφορά τη διασύνδεση Simple CLI, αυτή αποτελεί τον χώρο όπου µπορούµε να εισάγουνε γραµµές εντολών σε πρόγραµµα Java ώστε να µπορεί το πρόγραµµα WEKA να τρέξει και να εκτελέσει τον νέο κώδικα προγραµµατισµού Εξερευνητής (Explorer) Η διασύνδεση explorer είναι η πιο εύχρηστη διασύνδεση και θα την χρησιµοποιήσουµε στο κύριο µέρος της εργασίας για να πραγµατοποιήσουµε τις ζητούµενες προβλέψεις. Αποτελείται από έξι επιλογές: προ-επεξεργασία (preprocess), ταξινόµηση (classify), συσχέτιση (associate), επιλογή χαρακτηριστικών (select attributes) και απεικόνιση (visualize). Preprocessing: είναι η διαδικασία όπου προετοιµάζουµε τα δεδοµένα που θέλουµε να αναλύσουµε τα οποία βρίσκονται κυρίως στη ARFF µορφή. Τα εργαλεία της διαδικασίας αυτής ονοµάζονται φίλτρα (filters) τα οποία χρησιµοποιούνται για τη µετατροπή των δεδοµένων µε διάφορες µεθόδους. Classification: είναι η διαδικασία εύρεσης της κλάσης στην οποία ανήκει το κάθε παράδειγµα. ηλαδή η διαδικασία αυτή εκπαιδεύει τους αλγορίθµους µηχανικής µάθησης ώστε να εκτελέσουν τις λειτουργίες ταξινόµησης ή παλινδρόµησης. Η συγκεκριµένη επιλογή περιλαµβάνει εργαλεία που ονοµάζονται ταξινοµητές (classifiers) και αποτελούν µοντέλα πρόβλεψης αριθµητικών ή συµβολικών ποσοτήτων. Εδώ εξάγονται τα αποτελέσµατα τα οποία χρειάζονται περαιτέρω ανάλυση και άρα το βήµα αυτό αποτελεί το σηµαντικότερο µέρος της εργασίας. Clustering: Αντιστοιχεί στην διαδικασία οµαδοποίησης των περιπτώσεων σε κλάσεις σε περίπτωση όπου δεν έχει προηγηθεί ταξινόµηση. Association: είναι η διαδικασία εύρεσης κανόνων και συσχετίσεων µεταξύ των χαρακτηριστικών και στη συνέχεια γίνεται αξιολόγηση αυτών. Visualization: ονοµάζουµε τη διαδικασία απεικόνισης και αλληλεπίδρασης των δεδοµένων σε διάφορα δισδιάστατα γραφήµατα. 6 Το ARFF αρχείο είναι ένα πρότυπο αναπαράστασης των δεδοµένων που αποτελείται από ανεξάρτητες, µη κανονικές προτάσεις και δεν υπάρχουν σχέσεις µεταξύ των προτάσεων. 31

32 4.3 Μεθοδολογία Πρόβλεψης Πτώχευσης Εισαγωγή Το πρόβληµα της πτώχευσης απασχολεί τους περισσότερους επιχειρηµατίες και επενδυτές. Η ανακάλυψη µιας µεθόδου πρόβλεψης για το αν µια επιχείρηση πτωχεύσει ή όχι αποτελεί πρόοδο ζωτικής σηµασίας. Μια τέτοια πρόβλεψη παρακινεί τους επιχειρηµατίες να ενεργήσουν κατάλληλα ώστε να αποτρέψουν την ενδεχόµενη πτώχευση ή να διατηρήσουν την υγιή κατάσταση της εταιρίας τους. Υπάρχουν αρκετοί αλγόριθµοι µηχανικής µάθησης για την πρόβλεψη που περιέχονται στο πρόγραµµα και που θα αναλύσουµε στη συνέχεια. Όµως, ένα πρώτο σηµαντικό βήµα στη µεθοδολογία πρόβλεψης (Witten & Frank 2005) είναι η αξιολόγηση και αξιοπιστία των αποτελεσµάτων καθώς επίσης και η ερµηνεία των αποτελεσµάτων στο πρόβληµα της πτώχευσης. Η εύρεση της καταλληλότερης µεθόδου πραγµατοποιείται µε την σύγκριση των διάφορων αυτών µεθόδων σύµφωνα µε κάποια κριτήρια αξιολόγησης. Στην πειραµατική µας µελέτη τα δεδοµένα µας είναι περιορισµένα (περίπου 118) και γι αυτό το λόγο θα χρησιµοποιήσουµε µια τεχνική που ονοµάζεται cross validation, δηλαδή αξιολόγηση της πρόβλεψης µέσω επαναλαµβανόµενων δοκιµών σε άγνωστα δεδοµένα ώστε τα αποτελέσµατα που θα προκύψουν να είναι πιο ακριβείς Μέθοδος Εκπαίδευσης και Ελέγχου (Training and Testing) Στη µεθοδολογία εκπαίδευση και ελέγχου, αυτό που µας ενδιαφέρει κυρίως είναι η επιµέτρηση της ικανότητας πρόβλεψης πάνω σε νέα ή άγνωστα δεδοµένα. Για να πραγµατοποιηθεί αυτό, λαµβάνουµε ένα µεγάλο µέρος από τα δεδοµένα µας (περίπου το 70%) για την εκπαίδευση του αλγορίθµου, τα λεγόµενα δεδοµένα εκπαίδευσης (training data) που στην περίπτωσή µας αποτελούνται από 80 περιστατικά πτωχευµένων και µη πτωχευµένων επιχειρήσεων. Στη συνέχεια ελέγχουµε την ακρίβεια του µοντέλου στα υπόλοιπα δεδοµένα (30%) στην περίπτωση µας σε 38 (άγνωστα για την πειραµατική διαδικασία) δεδοµένα, τα οποία ονοµάζονται δεδοµένα δοκιµής (test data). Έτσι, µε αυτόν τον τρόπο εκτιµούµε κατά πόσο καλή ή όχι ήταν ή πρόβλεψη ταξινόµησης των νέων δεδοµένων σύµφωνα µε τα δεδοµένα εκπαίδευσης για τον συγκεκριµένο αλγόριθµο εκµάθησης. Αυτή η µέθοδος ονοµάζεται holdout, δηλαδή µέθοδος αξιολόγησης της πρόβλεψης µε τη χρήση νέων άγνωστων δεδοµένων και υποθέτουµε ότι τα δεδοµένα εκπαίδευσης και τα δεδοµένα δοκιµής αποτελούν ανεξάρτητα δείγµατα Μέθοδος αξιολόγησης Cross - Validation Η µέθοδος αξιολόγησης µέσω επαναλαµβανόµενων δοκιµών σε άγνωστα δεδοµένα (cross validation) αποτελεί µια άλλη πολύ καλή µέθοδο εκτίµησης της πρόβλεψης των νέων δεδοµένων κυρίως όταν αυτά είναι περιορισµένα. Σύµφωνα µε αυτή τη διαδικασία έχουµε την ικανότητα να επιλέξουµε την πιο κατάλληλη µέθοδο πρόβλεψης που έχει µεγαλύτερη προβλεπτική αξία. Οι προϋποθέσεις που χρειάζονται για αυτή τη µέθοδο είναι ότι από το σύνολο των δεδοµένων πρέπει τα τυχαία δείγµατα (δεδοµένα εκπαίδευση και δοκιµής) να είναι αντιπροσωπευτικά και µε σωστές αναλογίες. Εποµένως, η διαδικασία της µεθόδου cross validation είναι ως εξής: Χωρίζουµε τα δεδοµένα µας σε k τυχαία υποσύνολα του ίδιου µεγέθους και στη συνέχεια χρησιµοποιούµε το ένα υποσύνολο ως δεδοµένα δοκιµής και τα υπόλοιπα ως δεδοµένα εκπαίδευσης. Εκτελούµε τη διαδικασία k φορές και το ποσοστό σφάλµατος των διάφορων επαναλήψεων αποτελεί το µέσο όρο του ολικού ποσοστού σφάλµατος. Αυτή η επαναληπτική διαδικασία ονοµάζεται k-fold cross-validation και για το πρόβληµα της πτώχευσης θα χρησιµοποιήσουµε για k την τιµή δέκα, δηλαδή θα έχουµε τη µέθοδο 10-fold cross-validation. Φυσικά υπάρχουν και άλλες µέθοδοι εκτίµησης των αλγορίθµων πρόβλεψης αλλά δε θα τις χρησιµοποιήσουµε στην παρούσα εργασία. Οι κυριότερες µέθοδοι είναι οι leave-one-out (βλέπε παράρτηµα Β) και bootstrap (βλέπε παράρτηµα Β) εδοµένα εισόδου για το πρόβληµα της πτώχευσης Για το πρόβληµα της πτώχευσης που θα ασχοληθούµε έχουµε κάποια δεδοµένα τα οποία χρησιµοποιούνται για την εύρεση της καταλληλότερης µεθόδου πρόβλεψης των πτωχευµένων (status=2) και µη πτωχευµένων (status=1) επιχειρήσεων. Όπως φαίνεται στους πίνακες Π.Α.1 και Π.Α.2 του παραρτήµατος Α, οι µισές επιχειρήσεις έχουν πτωχεύσει και οι άλλες µισές είναι υγιείς. Τα παραδείγµατα αυτά αποτελούνται από 12 αριθµητικά χαρακτηριστικά, δηλαδή τους χρηµατοοικονοµικούς δείκτες και την ταξινόµηση (status). 32

33 Πιο συγκεκριµένα, τα δεδοµένα που χρησιµοποιούµε στην ανάλυση της αποδοτικότητας των επιλεγµένων αλγορίθµων αποκτήθηκαν από έναν µεγάλο αριθµό Ελληνικών επιχειρήσεων οι οποίες πτώχευσαν κατά τη διάρκεια των ετών (Dimitras et al., 1999). Απ αυτό το σύνολο των πτωχευµένων επιχειρήσεων, οι 40 επιχειρήσεις που επιλέξαµε ανήκουν σε 13 διαφορετικές βιοµηχανίες µε το κριτήριο ότι λειτουργούσαν για τουλάχιστον πέντε χρόνια και άρα υπάρχουν διαθέσιµα δεδοµένα προς επεξεργασία. Ο αριθµός των επιχειρήσεων για κάθε βιοµηχανία παρατίθεται στον παρακάτω πίνακα Σε συνδυασµό µε τις 40 πτωχευµένες επιχειρήσεις επιλέξαµε επιπλέον άλλες 40 µη πτωχευµένες επιχειρήσεις από τις ίδιες βιοµηχανίες και το σύνολό τους αποτελούν τα δεδοµένα εκπαίδευσης. Πίνακας 4.3.1: Αριθµός πτωχευµένων επιχειρήσεων για κάθε βιοµηχανία που αποτελούν το δείγµα εκπαίδευσης Βιοµηχανία Αριθµός Επιχειρήσεων Τροφίµων 2 Υφασµάτων 12 Ένδυσης & Υπόδησης 3 Ξυλείας 1 Χαρτοποιία 1 Τύπου & Εκδόσεων 2 Πλαστικών 2 Χηµικών 2 Μη Μεταλλικών Ορυκτών 6 Μεταλλουργικές 2 Μεταλλικών Αντικειµένων 3 Μέσων Μεταφοράς 1 ιάφορες 3 Σύνολο 40 Εκτός από το παραπάνω δείγµα εκπαίδευσης, βασισµένοι στην ίδια λογική, έχουµε επιλέξει και ένα σύνολο δεδοµένων δοκιµής από 19 πτωχευµένες και 19 µη πτωχευµένες επιχειρήσεις από διάφορες βιοµηχανίες όπως παρουσιάζονται στον παρακάτω πίνακα Πίνακας : Αριθµός πτωχευµένων επιχειρήσεων για κάθε βιοµηχανία που αποτελούν το δείγµα δοκιµής Βιοµηχανία Αριθµός Επιχειρήσεων Τροφίµων 1 Υφασµάτων 7 Ένδυσης & Υπόδησης 2 Ξυλείας 1 Πλαστικών 1 Χηµικών 2 Μη Μεταλλικών Ορυκτών 1 Μεταλλικών Αντικειµένων 3 Μέσων Μεταφοράς 1 Σύνολο 19 Όσον αφορά τα 12 αριθµητικά χαρακτηριστικά, που αποτελούν τις µεταβλητές του προβλήµατος, µπορούµε να τα ερµηνεύσουµε µε χρηµατοοικονοµικούς δείκτες όπου κάνουν την ανάλυση του προβλήµατος της πτώχευσης πιο κατανοητή και προσιτή. Εποµένως, για τις συγκεκριµένες µεταβλητές έχουµε τις παρακάτω χρηµατοοικονοµικές ερµηνείες: Χ1 = Καθαρά Κέρδη / Μεικτά Κέρδη Χ2 = Μεικτά Κέρδη / Σύνολο Ενεργητικού Χ3 = Καθαρά Κέρδη / Σύνολο Ενεργητικού Χ4 = Καθαρές Κέρδη / Καθαρά Αξία Χ10 = Κυκλοφορούν Ενεργητικό / Βραχυπρόθεσµες Υποχρεώσεις Χ11 = ιαθέσιµα / Βραχυπρόθεσµες Υποχρεώσεις Χ16 = Σύνολο Υποχρεώσεων / Σύνολο Ενεργητικού Χ17 = Ίδια Κεφάλαια / (Ίδια Κεφάλαια + Μακροπρόθεσµες Υποχρεώσεις) Χ21 = Ίδια Κεφάλαια / Καθαρό Πάγιο Ενεργητικό 33

34 Χ22 = Αποθέµατα / Κεφάλαιο Κίνησης Χ25 = Βραχυπρόθεσµες Υποχρεώσεις / Σύνολο Ενεργητικού Χ27 = Κεφάλαιο Κίνησης / Ίδια Κεφάλαια Αυτές οι µεταβλητές επιλέχθηκαν γιατί αντιπροσωπεύουν καλά και τις τρεις κατηγορίες που προτείνονται από τον Courtis (1978), αυτές οι κατηγορίες είναι η κερδοφορία, η διοικητική απόδοση και το ποσοστό αξιοπιστίας. Γενικεύοντας, το πρόβληµα της πτώχευσης είναι να ανακαλύψουµε ποια χαρακτηριστικά, δηλαδή ποιοι χρηµατοοικονοµικοί δείκτες µιας επιχείρησης είναι αυτοί που καθορίζουν για το αν η επιχείρηση πρόκειται να πτωχεύσει ή όχι. Έτσι, οι αλγόριθµοι µηχανικής µάθησης µας βοηθάνε στην επίλυση του προβλήµατος αυτού έχοντας την ικανότητα να κάνουν πρόβλεψη σε νέα δεδοµένα που θα προκύψουν. Στη συνέχεια της µελέτης θα συγκρίνουµε τις διάφορες µεθόδους µεταξύ τους ώστε να επιλέξουµε εκείνη που µας δίνει τα καλύτερα αποτελέσµατα πρόβλεψης. Υπάρχουν αρκετά µέτρα σύγκρισης που µας βοηθούν σ αυτή την επιλογή, ένα από αυτά είναι το ποσοστό σφάλµατος το οποίο είναι και το πιο σηµαντικό, επίσης διάφορα στατιστικά αποτελέσµατα αποτελούν κριτήρια αξιολόγησης της µεθόδου πρόβλεψης. 34

35 ΚΕΦΑΛΑΙΟ 5 ο Πειραµατική εφαρµογή και αποτελέσµατα 5.1 Προετοιµασία δεδοµένων Συχνά είναι χρήσιµη η ύπαρξη ενός µηχανισµού αυτόµατης ταξινόµησης εγγραφών σε διάφορα επιστηµονικά πεδία (ιατρική, φυσική, οικονοµικά κ.α.). Για την ανάλυση των αποτελεσµάτων που εξάγουν οι αλγόριθµοι µηχανικής µάθησης που χρησιµοποιούµε πρέπει πρώτα να προετοιµάσουµε τα δεδοµένα εκπαίδευσης και δοκιµής στο πρόγραµµα WEKA µέσω µιας διαδικασίας προεργασίας που περιλαµβάνεται στην επιλογή preprocess του προγράµµατος. Στη συνέχεια µέσω της επιλογής ταξινόµησης (classify) χρησιµοποιούµε τους αλγορίθµους εκµάθησης ώστε να εξάγουµε τα αποτελέσµατα πρόβλεψης. Παρακάτω παρουσιάζουµε αναλυτικά όλους τους αλγορίθµους µηχανικής µάθησης για το σύνολο των δεδοµένων µας, καθώς επίσης και τα αποτελέσµατα που παράγει κάθε ταξινοµητής. 5.2 Μέτρα Αξιολόγησης Η απόδοση του αλγορίθµου µηχανικής µάθησης φαίνεται από τα αποτελέσµατα που εµφανίζονται στην έξοδο του αλγορίθµου. Τα αποτελέσµατα αυτά περιέχουν µέτρα αξιολόγησης της απόδοσης (Καλαπανίδας, 2003) και αξιοπιστίας της αντίστοιχης µεθόδου εκµάθησης και αναλύονται παρακάτω Κ-Στατιστικό µέγεθος Το µέγεθος Κ-στατιστική (Kappa statistic) χρησιµοποιείται για τη µέτρηση της συµβατότητας ανάµεσα στην προβλεπόµενη και την παρατηρούµενη ταξινόµηση των δεδοµένων και ορίζεται από την παρακάτω αναλογία: Όταν το µέγεθος αυτό πάρει τιµή +1 σηµαίνει ότι η προβλεπόµενη και πραγµατική τιµή είναι τέλεια θετικά συσχετισµένες, ενώ αν πάρει τιµή 0 σηµαίνει ότι δεν υπάρχει γραµµική σχέση, τέλος, όταν η τιµή αυτή είναι -1 τότε έχουµε τέλεια αρνητική συσχέτιση. Εποµένως, συµπεραίνουµε ότι αν αυτό το στατιστικό µέγεθος πάρει τιµή µεγαλύτερη από 0.5 τότε η συσχέτιση µεταξύ προβλεπόµενης και παρατηρούµενης τιµής είναι αρκετά µεγάλη για τον αλγόριθµο που µελετάµε Μέσο απόλυτο σφάλµα Σύµφωνα µε το δεύτερο στατιστικό µέγεθος, αυτό είναι το µέσο απόλυτο σφάλµα πρόβλεψης (mean absolute error) και ορίζεται ως ο µέσος όρος των ατοµικών σφαλµάτων χωρίς να λάβουµε υπόψη µας τη σηµασία αυτών. Όλα τα µεγέθη των σφαλµάτων συµπεριφέρονται οµαλά σύµφωνα µε το µέγεθός τους Μέσο τετραγωνικό σφάλµα Στη συνέχεια έχουµε το πιο γνωστό µέτρο σφάλµατος, το µέσο τετραγωνικό σφάλµα (root mean squared error) όπου ορίζεται ως: ro o t m ea n sq u a red erro r= ( p 1 a 1 ) ( p n a n) 2 2 n (5.2.3) 35

36 Έχει χαρακτηριστεί ότι είναι το πιο εύχρηστο µέτρο σφάλµατος και γι αυτό το λόγο χρησιµοποιείται ευρέως Σχετικό απόλυτο σφάλµα Επίσης, ένα άλλο στατιστικό µέγεθος είναι και το σχετικό απόλυτο σφάλµα (relative absolute error) το οποίο συγκρίνει αυτό το σφάλµα µε το αντίστοιχο µέσο σφάλµα πρόβλεψης και ορίζεται ως: Στις περιπτώσεις των σχετικών σφαλµάτων, τα λάθη εξοµαλύνονται µε το σφάλµα της απλής πρόβλεψης Σχετικό τετραγωνικό σφάλµα Το τελευταίο στατιστικό µέγεθος για τη µέτρηση σφαλµάτων είναι το σχετικό τετραγωνικό σφάλµα (root relative squared error) το οποίο αποτελεί τη τετραγωνική ρίζα του σφάλµατος σε σύγκριση µε το µέσο σφάλµα πρόβλεψης και ορίζεται ως: Γενικά, µια ολοκληρωµένη ερµηνεία των παραπάνω αποτελεσµάτων είναι ότι µια καλή πρόβλεψη προκύπτει όταν ο συντελεστής συσχέτισης είναι όσο το δυνατόν µεγαλύτερος και τα σφάλµατα είναι όσο το δυνατόν µικρότερα. Αυτά τα µέτρα χρησιµοποιούνται για την σύγκριση των αποτελεσµάτων πρόβλεψης Πίνακας ταξινόµησης επιδόσεων πρόβλεψης Στη συνέχεια η ανάλυση που ακολουθεί έχει να κάνει µε την αξιολόγηση των αποτελεσµάτων πρόβλεψης (Τρογκάνης, 2006). Η αξιολόγηση αυτή αναπαριστάται από τον παρακάτω πίνακα ταξινόµησης επιδόσεων πρόβλεψης (Confusion Matrix) ο οποίος εµφανίζεται πάντα στο τέλος της εξόδου των αλγορίθµων. Πίνακας 5.2.1: Πίνακας ταξινόµησης επιδόσεων πρόβλεψης Positive Class Negative Class Classified as Positive TP FP Classified as Negative FN TN Εποµένως, σύµφωνα µε τον παραπάνω πίνακα 5.2.1, αυτός αναπαριστά τις τέσσερις δυνατές πιθανότητες µιας δυαδικής ταξινόµησης. Στην κύρια διαγώνιο του πίνακα οι συµβολισµοί TP (True Positive) και TN (True Negative) αντιστοιχούν στις περιπτώσεις ορθής ταξινόµησης ενός θετικού παραδείγµατος στην κλάση των θετικών και ενός αρνητικού στην κλάση των αρνητικών. Οι άλλες δύο περιπτώσεις αναφέρονται σε εσφαλµένες ταξινοµήσεις, που συµµετέχουν στον υπολογισµό του συνολικού σφάλµατος του ταξινοµητή. Η περίπτωση FN (False Negative), που αντιστοιχεί στην εσφαλµένη ταξινόµηση ενός θετικού παραδείγµατος ως αρνητικό, αναφέρεται στη βιβλιογραφία ως Σφάλµα Τύπου Ι (Error Type I). Η αντίθετη περίπτωση FP (False Positive) αποτελεί το Σφάλµα Τύπου ΙΙ (Error Type IΙ). Ας σηµειωθεί επίσης ότι το άθροισµα TP + FN ισούται µε το σύνολο των θετικών παραδειγµάτων που χρησιµοποιήθηκαν κατά τον έλεγχο του ταξινοµητή, και κατ' επέκταση το FP + TN µε το πλήθος των αρνητικών που είτε ταξινοµήθηκαν σωστά είτε εσφαλµένα Ακρίβεια 36

37 Ως ακρίβεια (accuracy) (Berg, 2005) ορίζουµε την αναλογία όλων των προβλέψεων που ήταν σωστές. Για το πρόβληµα ταξινόµησης δύο κλάσεων, η ποσότητα εκφράζεται µε την βοήθεια του πλήθους των σωστών και εσφαλµένων ταξινοµήσεων ενός συστήµατος ως εξής: a ccu ra cy= T P+ T N T P+ T N+ F P+ F N (5.2.6) Ορθότητα Ως ορθότητα (precision) ορίζουµε τη δεσµευµένη πιθανότητα ταύτισης της κλάσης που προβλέπει ένας ταξινοµητής για ένα παράδειγµα µε την πραγµατική του κλάση. Εποµένως, για το πρόβληµα ταξινόµησης δύο κλάσεων έχουµε: precision P = TP TP+ FP (5.2.7) p recisio n N = T N T N+ F N (5.2.8) Ανάκληση Ως ανάκληση (recall) ορίζουµε τη δεσµευµένη πιθανότητα αν µια εγγραφή ανήκει σε µια κλάση, αυτή να αναγνωριστεί σωστά από τον ταξινοµητή. Για το πρόβληµα ταξινόµησης δύο κλάσεων έχουµε: reca ll P T P = T P+ F N (5.2.9) re c a ll N = T N T N + F P (5.2.10) Μέτρο-F Στην πράξη τα µέτρα της ορθότητας και της ανάκλησης δεν µπορούν να εκτιµηθούν χωριστά, καθώς παρέχουν µια αλληλοσυµπληρούµενη εικόνα της αποτελεσµατικότητας ενός ταξινοµητή. Ένα µέτρο που τα συνδυάζει είναι η συνάρτηση F-Measure η οποία χρησιµοποιείται για πληροφορίες επανόρθωσης και ορίζεται ως: F measure= 2 recall precision recall+ precision (5.2.11) Το µέτρο αυτό παρουσιάζει παρόµοια συµπεριφορά µε τα δύο παραπάνω µέτρα, παίρνει δηλαδή µεγάλη τιµή όταν η ορθότητα και η ανάκληση είναι υψηλές, ενώ µικρή τιµή όταν µία από τις δύο είναι µικρή Καµπύλη ROC Η καµπύλη ROC (Receiver Operating Characteristic) είναι η γραφική παράσταση του ρυθµού των σωστών ταξινοµήσεων των θετικών παραδειγµάτων (true positive rate ή recall), ως προς το ρυθµό των εσφαλµένων ταξινοµήσεων των θετικών παραδειγµάτων (false positive rate). Η καµπύλη ROC αποτελεί ένα δισδιάστατο µέτρο αξιολόγησης ενός ταξινοµητή, ενώ ένα άλλο µέτρο αξιολόγησης που χρησιµοποιείται πιο συχνά είναι το εµβαδόν κάτω από την καµπύλη (area under curve AUC). Όταν το εµβαδό είναι ίσο µε 1 τότε ο ταξινοµητής επιτυγχάνει τέλεια ακρίβεια, αν το κατώφλι απόφασης επιλεχθεί σωστά, ενώ ένας ταξινοµητής που ταξινοµεί τα δεδοµένα τυχαία έχει AUC ίσο µε 0,5. Η παρακάτω εικόνα δείχνει την καµπύλη ROC της µεθόδου Bayes δικτύου για την κλάση 1. 37

38 Εικόνα 5.2.1: ιάγραµµα ROC Area της µεθόδου Bayes δικτύου 5.3 Κατηγορία αλγορίθµων Bayes Ένα δίκτυο Bayes (Τρογκάνης, 2006) είναι µια αναπαράσταση µιας δοµής δεδοµένων για πλήρεις συνδυασµένες κατανοµές πιθανοτήτων. Ένα δίκτυο Bayes για ένα σύνολο από = 1,..., n αποτελείται από µια δοµή δικτύου S η οποία υποδηλώνει το σύνολο µεταβλητές X { X X} των εξαρτήσεων µεταξύ των µεταβλητών X και από ένα σύνολο P από τοπικές κατανοµές πιθανοτήτων συσχετιζόµενες µε κάθε µια µεταβλητή. Γενικά ο κανόνας του Bayes δείχνει την πιθανότητα ενός γεγονότος Η δεδοµένου ότι θα συµβεί το γεγονός Ε, δηλαδή έχουµε την παρακάτω πιθανότητα: P[ E H] P[ H] P[ H E] = (5.3.1) P[ E] Όπου P[ H ] είναι η εκ των προτέρων (a priori) πιθανότητα του Η, δηλαδή η πιθανότητα του γεγονότος Η προτού γίνει γνωστό το δεδοµένο Ε, και [ ] P H E είναι η εκ των υστέρων (a posteriori) πιθανότητα του Η, δηλαδή η πιθανότητα του γεγονότος Η αφότου γίνει γνωστό το δεδοµένο Ε Ανάλυση του αλγορίθµου Bayes Net Ο αλγόριθµος Bayes Net έχει την ιδιότητα να µαθαίνει από τα Bayesian δίκτυα υπό την υπόθεση ότι υπάρχουν εκτός από αριθµητικά και ονοµαστικά χαρακτηριστικά ενώ δεν υπάρχουν ελλιπείς τιµές. Υπάρχουν δύο διαφορετικοί αλγόριθµοι για την εκτίµηση της υποθετικής πιθανότητας του δικτύου οι οποίοι είναι ο Κ2 (Cooper and Herskovits, 1992) και το επαυξηµένο δένδρο του δικτύου Bayes που ονοµάζεται ΤΑΝ (Tree Augmented Naïve Bayes). Ο αλγόριθµος Κ2 δείχνει τον µεγαλύτερο αριθµό γονέων για ένα σύνολο κόµβων, έτσι στο παράδειγµα της πτώχευσης έχουµε δηλώσει ότι Κ2 ισούται µε ένα. Ο αλγόριθµος ΤΑΝ (Friedman et al., 1997) προσθέτει ένα δεύτερο γονέα σε κάθε κόµβο εκτός από τον κόµβο ταξινόµησης. Στην περίπτωσή µας χρησιµοποιούµε τον Κ2 αλγόριθµο. Oι παράµετροι που χρησιµοποιεί ο αλγόριθµος Bayes Net φαίνονται στην εικόνα

39 Εικόνα 5.3.1: Παράµετροι του αλγορίθµου Bayes Net Η παράµετρος BIFFile µπορεί να χρησιµοποιηθεί για να προσδιορίσει ένα δίκτυο Bayes που αποθηκεύεται στο αρχείο σε µορφή BIF XML (extensible Markup Language). Στην παράµετρο διερεύνησης σφαλµάτων (debug) εάν θέσουµε την επιλογή αληθής, ο ταξινοµητής µπορεί να εξάγει πρόσθετες πληροφορίες. Στην ουσία, αυτή η επιλογή δεν επιφέρει καµία επίδραση στα αποτελέσµατα και συνήθως δεν τη χρησιµοποιούµε. Η παράµετρος αλγόριθµος αναζήτησης (Search Algorithm) µπορεί να χρησιµοποιηθεί για να επιλέξουµε µια δοµή αλγορίθµων µάθησης και να προσδιορίσουµε τις επιλογές της. Εδώ χρησιµοποιούµε τον αλγόριθµο Κ2 όπως περιγράψαµε παραπάνω. Η παράµετρος εκτιµητής (estimator) µπορεί να χρησιµοποιηθεί για να επιλέξει τη µέθοδο για τον υπολογισµό της υποθετικής κατανοµής πιθανότητας. Εµείς έχουµε επιλέξει τον απλό εκτιµητή (Simple Estimator). Η αλλαγή της παραµέτρου χρήση δέντρων της µορφής AD (use ADTrees) καθιστά τους αλγορίθµους εκµάθησης πιο αργούς. Εξ ορισµού, χρησιµοποιείται η επιλογή τις παραµέτρου αυτής. Χρησιµοποιώντας τον αλγόριθµο Bayes Net µε τις παραπάνω παραµέτρους εισάγουµε τα δεδοµένα µας για την εκπαίδευση του αλγορίθµου και βλέπουµε τα αποτελέσµατα στην εικόνα Στη συνέχεια χρησιµοποιούµε την µέθοδο αξιολόγησης µέσω επαναλαµβανόµενης δοκιµής για δέκα φορές σε άγνωστα δεδοµένα (10 folds cross validation). Έτσι, τα αποτελέσµατα που προκύπτουν είναι αναµενόµενο να έχουν µεγαλύτερο σφάλµα ταξινόµησης απ αυτά που προκύπτουν κατά την εκπαίδευση του αλγορίθµου. Σύµφωνα µε την παρακάτω εικόνα υπάρχουν κάποια στατιστικά αποτελέσµατα που δείχνουν την αποδοτικότητα και αξιοπιστία της µεθόδου πρόβλεψης και στη συνέχεια υπάρχουν κάποια µέτρα που φανερώνουν κατά πόσο ακριβής είναι ο χρησιµοποιούµενος αλγόριθµος εκµάθησης στη πρόβλεψη της πτώχευσης ή µη των επιχειρήσεων. Εικόνα 5.3.2: Αποτελέσµατα του αλγορίθµου Bayes Net κατά την εκπαίδευσή του 39

40 Στον παρακάτω πίνακα παρουσιάζονται τα στατιστικά αποτελέσµατα της µεθόδου, η πρώτη στήλη περιγράφει το στατιστικό µέγεθος, η δεύτερη στήλη δείχνει τα αποτελέσµατα που προκύπτουν από την εκπαίδευση και η τρίτη δείχνει τα αποτελέσµατα που παρουσιάζονται χρησιµοποιώντας την µέθοδο αξιολόγησης µέσω δέκα επαναλαµβανόµενων δοκιµών σε άγνωστα δεδοµένα (10-fold crossvalidation). Από αυτά τα µεγέθη µπορούµε να βγάλουµε κάποια συµπεράσµατα για την αποδοτικότητα του αλγορίθµου. Πίνακας 5.3.1: Στατιστικά αποτελέσµατα για τον αλγόριθµο Bayes Net Μέθοδος αξιολόγησης µέσω Εκπαίδευση επαναλαµβανόµενης δοκιµής Σωστή ταξινόµηση εγγραφών % % Εσφαλµένη ταξινόµηση εγγραφών % % K-στατιστικό µέγεθος Μέσο απόλυτο σφάλµα Μέσο τετραγωνικό σφάλµα Σχετικό απόλυτο σφάλµα % % Σχετικό τετραγωνικό σφάλµα % % Όπως συµπεραίνουµε από τα αποτελέσµατα, η µέθοδος µετά την εκπαίδευσή της έχει προβλέψει σωστά τις 108 περιπτώσεις από τις 118 ενώ οι λάθος προβλέψεις είναι 10 από τις οποίες οι 6 ανήκουν στις µη πτωχευµένες επιχειρήσεις και οι 4 στις πτωχευµένες. ηλαδή το ποσοστό σωστής πρόβλεψης είναι % ποσοστό αρκετά ικανοποιητικό για την αποδοτικότητα του αλγορίθµου. Σύµφωνα µε το K-στατιστικό µέγεθος, αυτό έχει τιµή και άρα διαπιστώνουµε ότι η συµβατότητα προβλεπόµενης και παρατηρούµενης ταξινόµησης είναι αρκετά µεγάλη. Για τα υπόλοιπα στατιστικά µεγέθη σφάλµατος παρατηρούµε ότι αυτά είναι αρκετά µικρά και άρα η αποδοτικότητα της µεθόδου είναι ικανοποιητική. Μετά τη χρήση της µεθόδου αξιολόγησης µέσω επαναλαµβανόµενων διαδικασιών διαπιστώνουµε ότι ο αλγόριθµος έχει µικρότερη αποδοτικότατα. Παρατηρούµε ότι η εσφαλµένη ταξινόµηση και τα ποσοστά σφάλµατος είναι λίγο µεγαλύτερα, πιο συγκεκριµένα ο αλγόριθµος έχει ταξινοµήσει λανθασµένα 14 παραδείγµατα (9 για την κλάση 1 και 5 για την 2). Εποµένως, το συµπέρασµα που βγάζουµε είναι ότι η µέθοδος για αυτά τα δεδοµένα είναι αρκετά αποδοτική κυρίως για την ταξινόµηση των πτωχευµένων επιχειρήσεων (κλάση 2). Στη συνέχεια, για την ακρίβεια και αξιοπιστία της µεθόδου παρουσιάζουµε τα αποτελέσµατα του πίνακα Πίνακας 5.3.2: Αποτελέσµατα ακρίβειας του αλγορίθµου Bayes Net Ποσοστό TP Ποσοστό Περιοχή Ορθότητα Μέτρο-F -Ανάκληση FP ROC Κλάση Εκπαίδευση (µη πτώχευση) (πτώχευση) Μέθοδος (µη πτώχευση) αξιολόγησης (πτώχευση) Εποµένως, σύµφωνα µε τα παραπάνω αποτελέσµατα διαπιστώνουµε ότι η µέθοδος είναι αρκετά ακριβής κυρίως για την πρόβλεψη των πτωχευµένων επιχειρήσεων. Στη συνέχεια της ανάλυσης των αποτελεσµάτων, ο αλγόριθµος µας παρέχει κάποιες πληροφορίες µε τη µορφή κατανοµής πιθανοτήτων, όπως φαίνεται στην εικόνα 5.3.3, ώστε να µπορούµε να εντοπίσουµε τις κρίσιµες µεταβλητές για την πρόβλεψη της πτώχευσης. 40

41 Εικόνα 5.3.3: Κατανοµή Πιθανοτήτων του αλγορίθµου Bayes Net Ο πίνακας συγκεντρώνει τα αποτελέσµατα της παραπάνω εικόνας για την κατανοµή των πιθανοτήτων της κάθε µεταβλητής των δεδοµένων του προβλήµατος. Πίνακας 5.3.3: Κατανοµή Πιθανοτήτων του αλγορίθµου Bayes Net Μεταβλητή Όρια - ιάστηµα Πιθανότητες Πιθανότητες µη πτώχευσης πτώχευσης (-, ] Χ1 ( , ] ( , + ) Χ2 (-, ] ( , + ) Χ3 (-, ] ( , + ) Χ4 (-, ] ( , + ) Χ10 (-, ] ( , + ) Χ11 (-, ] ( , + ) Χ16 (-, 0,677595] ( , + ) Χ17 (-, ] ( , + ) Χ21 (-, ] (0.8465, + ) Χ22 (-, ] (-0.015, + ) Χ25 (-, ] (0.4162, + ) (-, ] Χ27 ( , ] ( , + ) Όπως βλέπουµε από τον παραπάνω πίνακα κατανοµής πιθανοτήτων οι κρίσιµες µεταβλητές για τις µη πτωχευµένες επιχειρήσεις είναι οι Χ1, Χ4 και Χ17 ενώ για τις πτωχευµένες επιχειρήσεις είναι οι Χ3, Χ10 και Χ425 λόγω υψηλών πιθανοτήτων. Έτσι, συµπεραίνουµε ότι όταν η µεταβλητή Χ1 βρίσκεται στο διάστηµα τιµών ( , ] τότε έχουµε µεγάλη πιθανότητα (0.851) η επιχείρηση να µη πτωχεύσει. Το ίδιο ισχύει και για τις µεταβλητές Χ4 και Χ17 στα διαστήµατα τιµών ( , + ) και ( , + ) µε πιθανότητες και αντίστοιχα. Όµοια έχουµε και για τις πτωχευµένες επιχειρήσεις µε τις αντίστοιχες κρίσιµες µεταβλητές Χ3, Χ10 και Χ425 στα διαστήµατα τιµών (-, ], (-, ] και (0.4162, + ) µε πιθανότητες 0.892, και αντίστοιχα. Η Χ17 είναι η πιο κρίσιµη µεταβλητή απ όλες αφού έχει την µεγαλύτερη πιθανότητα για την κλάση των µη πτωχευµένων επιχειρήσεων. Εποµένως, ο πιο σηµαντικός χρηµατοοικονοµικός δείκτης είναι ο Χ17 ο οποίος αποτελεί τον αριθµοδείκτη οικονοµικής µοχλεύσεως και ισούται µε τα ίδια κεφάλαια προς το σύνολο των απασχολούµενων κεφαλαίων. Ο δείκτης Χ4 ορίζεται ως τα καθαρά κέρδη προς τα ίδια κεφάλαια και 41

42 δείχνει την απόδοση των ιδίων κεφαλαίων µετά τους φόρους. Ο δείκτης Χ1 ορίζεται ως τα καθαρά κέρδη προς τα µεικτά κέρδη και προσδιορίζει την φορολογική επιβάρυνση. Ο δείκτης Χ3 ορίζεται ως τα καθαρά κέρδη προς το σύνολο ενεργητικού και δείχνει την απόδοση του συνολικού ενεργητικού µετά τους φόρους. Ο δείκτης Χ10 ορίζεται ως το κυκλοφορούν ενεργητικό προς τις βραχυπρόθεσµες υποχρεώσεις και προσδιορίζει την γενική ρευστότητα της επιχείρησης. Τέλος, ο δείκτης Χ25 ορίζεται ως τις βραχυπρόθεσµες υποχρεώσεις προς το σύνολο ενεργητικού Ανάλυση του αλγορίθµου Naïve Bayes Ο αλγόριθµος εκµάθησης Naïve Bayes (George H. John & Pat Langley, 1995) βασίζεται στους κανόνες του Bayes και εφαρµόζει τη θεωρία των πιθανοτήτων για την ταξινόµηση των δεδοµένων του υποδείγµατος. Χρησιµοποιώντας την απλοϊκή υπόθεση ότι τα δεδοµένα διαχωρίζονται σε ανεξάρτητα τµήµατα, έχουµε την παρακάτω εξίσωση πιθανότητας: [ ] P H E [ 1 ] [ 2 ]... [ n ] [ ] P[ E] P E H P E H P E H P H = (5.3.2) Όπου το δεδοµένο Ε είναι το υπόδειγµα, και το γεγονός Η είναι η τιµή της τάξης για το υπόδειγµα. Συνήθης υπόθεση: τα χαρακτηριστικά έχουν κανονική ή γκαουσσιανή κατανοµή πιθανότητας (λαµβάνοντας υπόψη την κλάση). Η συνάρτηση πυκνότητας πιθανότητας για την κανονική κατανοµή καθορίζεται από δύο παραµέτρους: Μέση τιµή µ: µ n 1 = x i (5.3.3) n i= 1 Τυπική απόκλιση σ: σ ( x ) 2 i µ n 1 = n (5.3.4) 1 i= 1 Εποµένως η συνάρτηση πυκνότητας f(x) είναι: f ( x) ( x µ ) σ = e (5.3.5) 2πσ Στην εικόνα παρουσιάζουµε τις παραµέτρους που χρησιµοποιεί ο εξεταζόµενος αλγόριθµος Naïve Bayes. 42

43 Εικόνα 5.3.4: Παράµετροι του αλγορίθµου Naïve Bayes Η παράµετρος Use Kernel Estimator χρησιµοποιεί έναν κεντρικό εκτιµητή για τα αριθµητικά χαρακτηριστικά αντί της χρήσης της κανονικής κατανοµής. Η επιλογή Use Supervised Discretization χρησιµοποιεί την παρατηρούµενη διακεκριµενοποιήση για να µετατρέψει τα αριθµητικά χαρακτηριστικά σε ονοµαστικά. Τα στατιστικά αποτελέσµατα των δεδοµένων µε τη χρήση του αλγορίθµου Naïve Bayes παρουσιάζονται στον παρακάτω πίνακα Από αυτόν τον πίνακα µπορούµε να εξάγουµε συµπεράσµατα για την απόδοση του συγκεκριµένου αλγορίθµου εκµάθησης. Πίνακας 5.3.4: Στατιστικά αποτελέσµατα για τον αλγόριθµο Naïve Bayes Μέθοδος αξιολόγησης µέσω Εκπαίδευση επαναλαµβανόµενης δοκιµής Σωστή ταξινόµηση εγγραφών % % Εσφαλµένη ταξινόµηση εγγραφών % % K-στατιστικό µέγεθος Μέσο απόλυτο σφάλµα Μέσο τετραγωνικό σφάλµα Σχετικό απόλυτο σφάλµα % % Σχετικό τετραγωνικό σφάλµα % % Όπως βλέπουµε από τον παραπάνω πίνακα η απόδοση του αλγορίθµου δεν είναι και τόσο καλή αφού τα ποσοστά σφάλµατος για την ταξινόµηση είναι αρκετά µεγάλα. Στην περίπτωση της εκπαίδευσης του αλγορίθµου οι 42 από τις 118 εγγραφές έχουν ταξινοµηθεί λάθος από τις οποίες οι 4 αντιστοιχούν στις µη πτωχευµένες επιχειρήσεις ενώ οι υπόλοιπες 38 στις πτωχευµένες. Όταν χρησιµοποιούµε την µέθοδο αξιολόγησης µέσω επαναλαµβανόµενης δοκιµής οι λανθασµένες ταξινοµήσεις είναι 44 (5 για τις µη πτωχευµένες και 39 για τις πτωχευµένες). Όσον αφορά τα ποσοστά συσχέτισης είναι κάτω από το όριο (0.5), άρα οι προβλεπόµενες και πραγµατικές ταξινοµήσεις είναι ασυσχέτιστες. Εποµένως, διαπιστώνουµε ότι έχουµε αρκετά ακριβή ταξινόµηση για τις µη πτωχευµένες επιχειρήσεις σε αντίθεση µε τις πτωχευµένες όπου τα σφάλµατα είναι µεγαλύτερα. Αυτό φαίνεται και από τον παρακάτω πίνακα όπου παραθέτουµε τα αποτελέσµατα των δεικτών ακρίβειας για την κάθε κλάση της κάθε µεθόδου. 43

44 Πίνακας 5.3.5: Αποτελέσµατα ακρίβειας του αλγορίθµου Naïve Bayes Ποσοστό TP Ποσοστό Περιοχή Ορθότητα Μέτρο-F -Ανάκληση FP ROC Κλάση Εκπαίδευση (µη πτώχευση) (πτώχευση) Μέθοδος (µη πτώχευση) αξιολόγησης (πτώχευση) Όσον αφορά τις κρίσιµες µεταβλητές αυτές µπορούµε να τις εντοπίσουµε από τα αποτελέσµατα του πίνακα όπου παρουσιάζει τις µέσες τιµές και την τυπική απόκλιση της κάθε µεταβλητής της κάθε κλάσης. Πίνακας 5.3.6: Στατιστικά στοιχεία της κανονικής κατανοµής του αλγορίθµου Naïve Bayes Κλάση 1(µη πτώχευση) Κλάση 2 (πτώχευση) Μεταβλητή Μέση τιµή Τυπική απόκλιση Μέση τιµή Τυπική απόκλιση Χ Χ Χ Χ Χ Χ Χ Χ Χ Χ Χ Χ Όπως βλέπουµε από τον παραπάνω πίνακα διαπιστώνουµε ότι οι κρίσιµες µεταβλητές για την πρόβλεψη της µη πτώχευσης των επιχειρήσεων είναι η Χ3, Χ2 και η Χ16 αφού αυτές έχουν τη µικρότερη τυπική απόκλιση. Αυτό σηµαίνει ότι οι κρίσιµες µεταβλητές είναι συγκεντρωµένες σε µικρό πεδίο τιµών µε µέση τιµή για τη Χ3, για την Χ2 και για τη Χ16 και άρα συµπεραίνουµε ότι αν οι µεταβλητές αυτές τείνουν στις συγκεκριµένες τιµές τότε µπορούµε να πούµε ότι η επιχείρηση δεν θα πτωχεύσει. Οµοίως, έχουµε για τις πτωχευµένες επιχειρήσεις τις κρίσιµες µεταβλητές Χ2, Χ3 και Χ25 οι οποίες συγκεντρώνονται σε µικρό πεδίο τιµών µε µέση τιµή , και αντίστοιχα. Έτσι, έχουµε ένα κριτήριο µε βάση το πεδίο τιµών για την πρόβλεψη της πτώχευσης. Τέλος, η µεταβλητή Χ3 αποτελεί την πιο σηµαντική µεταβλητή για την πρόβλεψη της µη πτώχευσης των επιχειρήσεων αφού έχει την µικρότερη τυπική απόκλιση. Αυτή η µεταβλητή αποτελεί τον αριθµοδείκτη ταχύτητας κυκλοφορίας ενεργητικού και ισούται µε τις καθαρές πωλήσεις προς το σύνολο ενεργητικού. Ο δείκτης Χ2 ορίζεται ως τα µεικτά κέρδη προς το σύνολο ενεργητικού και φανερώνει την απόδοση των επενδυµένων κεφαλαίων. Ο δείκτης Χ16 ορίζεται ως το σύνολο των υποχρεώσεων προς το σύνολο ενεργητικού και τέλος, ο δείκτης Χ25 ορίζεται ως τις βραχυπρόθεσµες υποχρεώσεις προς το σύνολο ενεργητικού Ανάλυση του αλγορίθµου Naive Bayes Simple Αυτός ο αλγόριθµος Naive Bayes Simple (Richard Duda & Peter Hart, 1973) αποτελεί απλή εφαρµογή του αλγορίθµου Naive Bayes και χρησιµοποιεί την κανονική κατανοµή για να µοντελοποιήσει τα αριθµητικά χαρακτηριστικά. Η µόνη παράµετρος που χρησιµοποιεί ο αλγόριθµος αυτός είναι η διερεύνηση σφαλµάτων η οποία δεν επιφέρει καµία διαφορά στα αποτελέσµατα. Παρακάτω παρουσιάζουµε τον πίνακα µε τα στατιστικά αποτελέσµατα του αλγορίθµου µάθησης Naive Bayes Simple για το σύνολο των δεδοµένων µας ώστε να αξιολογήσουµε τη µέθοδο όσον αφορά την απόδοση και αξιοπιστία. 44

45 Πίνακας 5.3.7: Στατιστικά αποτελέσµατα για τον αλγόριθµο Naive Bayes Simple Εκπαίδευση Μέθοδος αξιολόγησης µέσω επαναλαµβανόµενης δοκιµής Σωστή ταξινόµηση εγγραφών % % Εσφαλµένη ταξινόµηση εγγραφών % % K-στατιστικό µέγεθος Μέσο απόλυτο σφάλµα Μέσο τετραγωνικό σφάλµα Σχετικό απόλυτο σφάλµα % % Σχετικό τετραγωνικό σφάλµα % % Παρατηρώντας τον παραπάνω πίνακα συµπεραίνουµε ότι η µέθοδος αυτή κυµαίνεται στα ίδια περίπου επίπεδα αποδοτικότητας µε την προηγούµενη (Naive Bayes) αφού έχουν σχεδόν τα ίδια ποσοστά σφάλµατος ταξινόµησης. Από τις 118 περιπτώσεις οι 42 ταξινοµήθηκαν λάθος κατά την εκπαίδευση του αλγορίθµου από τις οποίες οι 5 αντιστοιχούν στις µη πτωχευµένες επιχειρήσεις και οι 37 στις πτωχευµένες. Με τη χρήση της µεθόδου αξιολόγησης µέσω επαναλαµβανόµενης δοκιµής οι λανθασµένες ταξινοµήσεις αυξήθηκαν στις 43 (6 για την κλάση 1 και 37 για την 2). Εποµένως, η µέθοδος αυτή δεν είναι και τόσο αποδοτική, ενώ η ακρίβεια πρόβλεψης των µη πτωχευµένων επιχειρήσεων είναι µεγαλύτερη σε σχέση µε αυτή των πτωχευµένων και αυτό φαίνεται από τον παρακάτω πίνακας Πίνακας 5.3.8: Αποτελέσµατα ακρίβειας του αλγορίθµου Naive Bayes Simple Ποσοστό TP Ποσοστό Περιοχή Ορθότητα Μέτρο-F -Ανάκληση FP ROC Κλάση Εκπαίδευση (µη πτώχευση) (πτώχευση) Μέθοδος (µη πτώχευση) αξιολόγησης (πτώχευση) Όπως ο προηγούµενος αλγόριθµος έτσι και αυτός µας δίνει πληροφορίες για την κρίσιµη µεταβλητή µε τη µορφή της τυπικής απόκλισης. Έτσι, ο παρακάτω πίνακας µας παρουσιάζει τα στατιστικά στοιχεία της κανονικής κατανοµής για όλες τις µεταβλητές του δείγµατός µας ώστε να εντοπίσουµε την βασική µεταβλητή για την πρόβλεψη της πτώχευσης. Πίνακας 5.3.9: Στατιστικά στοιχεία της κανονικής κατανοµής του αλγορίθµου Naive Bayes Simple Κλάση 1 (µη πτώχευση) Κλάση 2 (πτώχευση) Μεταβλητή Μέση τιµή Τυπική απόκλιση Μέση τιµή Τυπική απόκλιση Χ Χ Χ Χ Χ Χ Χ Χ Χ Χ Χ Χ

46 Όπως φαίνεται από τον παραπάνω πίνακα αποτελεσµάτων οι κρίσιµες µεταβλητές για την πρόβλεψη της πτώχευσης είναι οι Χ2, Χ3 και Χ16 και για τις δύο κλάσεις επιχειρήσεων (πτωχευµένες και µη). Εποµένως, αν η µεταβλητή Χ3 τείνει στην τιµή τότε µπορούµε να πούµε ότι η επιχείρηση δε θα πτωχεύσει ενώ αν τείνει στην τιµή τότε υπάρχει µεγάλη πιθανότητα να πτωχεύσει. Οµοίως, ισχύει και για τις άλλες µεταβλητές µε τις αντίστοιχες µέσες τιµές τους. Είναι προφανές ότι και σ αυτόν τον αλγόριθµο, όπως και στον προηγούµενο, η πιο σηµαντική µεταβλητή είναι η Χ3 η οποία αποτελεί τον αριθµοδείκτη ταχύτητας κυκλοφορίας ενεργητικού και άρα τα περιουσιακά στοιχεία µε τις καθαρές πωλήσεις έχουν σηµαντικό ρόλο για την πρόβλεψη της πτώχευσης. Ο δείκτης Χ2 ισούται µε τα µεικτά κέρδη προς το σύνολο ενεργητικού και ο δείκτης Χ16 ορίζεται ως το σύνολο των υποχρεώσεων προς το σύνολο ενεργητικού Ανάλυση του αλγορίθµου Naive Bayes Updateable Ο τελευταίος αλγόριθµος της κατηγορίας Bayes είναι ο Naive Bayes Updateable (George H. John & Pat Langley 1995) ο οποίος αποτελεί µία πρόσθετη έκδοση του αλγορίθµου Naive Bayes και υποβάλει σε λειτουργία µια περίπτωση του δείγµατος τη φορά. Χρησιµοποιεί εκτιµητές ταξινόµησης όπως τον κεντρικό εκτιµητή (kernel estimator) αλλά όχι τον εκτιµητή διακεκριτοποίησης (discretization estimator). Η παρακάτω εικόνα µας δείχνει τις παραµέτρους που χρησιµοποιεί ο συγκεκριµένος αλγόριθµος οι οποίοι είναι ακριβώς ίδιοι µε αυτές του αλγορίθµου Naive Bayes που αναφέραµε και αναλύσαµε παραπάνω. Εικόνα 5.3.5: Παράµετροι του αλγορίθµου Naive Bayes Updateable Ακολουθούµε για άλλη µια φορά τη διαδικασία που περιγράψαµε και στις παραπάνω µεθοδολογίες, έτσι, για την ανάλυση των αποτελεσµάτων της αποδοτικότητας και αξιοπιστίας του αλγορίθµου ταξινόµησης για το σύνολο των δεδοµένων µας παρουσιάζουµε τον πίνακα Πίνακας 5.3.9: Στατιστικά αποτελέσµατα για τον αλγόριθµο Naive Bayes Updateable Εκπαίδευση Μέθοδος αξιολόγησης µέσω επαναλαµβανόµενης δοκιµής Σωστή ταξινόµηση εγγραφών % % Εσφαλµένη ταξινόµηση εγγραφών % % K-στατιστικό µέγεθος Μέσο απόλυτο σφάλµα Μέσο τετραγωνικό σφάλµα Σχετικό απόλυτο σφάλµα % % Σχετικό τετραγωνικό σφάλµα % % 46

47 Εποµένως, παρατηρούµε από τον παραπάνω πίνακα ότι έχει αρκετές οµοιότητες µε τον πίνακα του αλγορίθµου Naïve Bayes Simple και άρα τα συµπεράσµατα θα είναι παρόµοια µ αυτόν. Έτσι µπορούµε να πούµε ότι ούτε αυτή η µέθοδος είναι αποδοτική αφού έχει µεγάλα ποσοστά σφάλµατος. Πιο συγκεκριµένα έχουµε 42 εσφαλµένες ταξινοµήσεις από τις 118 όπου οι 4 αντιστοιχούν στις µη πτωχευµένες επιχειρήσεις και 38 στις πτωχευµένες. Ενώ, µε τη χρήση της µεθόδου αξιολόγησης επαναλαµβανόµενων δοκιµών (cross validation) η αποδοτικότητα πέφτει ακόµα περισσότερο αφού οι λανθασµένες ταξινοµήσεις αυξήθηκαν κατά 2 (5 για την κλάση 1 και 39 για την 2). Εποµένως, και εδώ η ταξινόµηση είναι πιο ακριβείς για τις µη πτωχευµένες επιχειρήσεις µιας και τα σφάλµατα ταξινόµησης είναι λιγότερα σε σχέση µε τις πτωχευµένες και αυτό φαίνεται από τον παρακάτω πίνακα Πίνακας : Αποτελέσµατα ακρίβειας του αλγορίθµου Naive Bayes Updateable Ποσοστό TP -Ανάκληση Ποσοστό FP Ορθότητα Μέτρο-F Περιοχή ROC Κλάση Εκπαίδευση (µη πτώχευση) (πτώχευση) Μέθοδος (µη πτώχευση) αξιολόγησης (πτώχευση) Όσον αφορά τις κρίσιµες µεταβλητές παρατηρούµε ότι ο αλγόριθµος αυτός µας παρέχει ακριβώς τις ίδιες πληροφορίες µε αυτές του Naive Bayes όπως φαίνεται στον πίνακα ηλαδή παίρνουµε τις ίδιες µέσες τιµές και τυπικές αποκλίσεις για όλες τις µεταβλητές µε αυτές του αναφερόµενου αλγορίθµου. Εποµένως, οι κρίσιµες µεταβλητές για τις µη πτωχευµένες επιχειρήσεις είναι οι Χ2, Χ3 και Χ16 ενώ για τις πτωχευµένες επιχειρήσεις οι κρίσιµες µεταβλητές είναι οι Χ2, Χ3 και Χ Σύγκριση αποτελεσµάτων των µεθόδων της κατηγορίας Bayes Έχοντας ολοκληρώσει την ανάλυση των αποτελεσµάτων των αλγορίθµων της κατηγορίας Bayes για την πρόβλεψη της ταξινόµησης των επιχειρήσεων σε πτωχευµένες ή µη, στη συνέχεια θα συγκρίνουµε αυτές τις µεθόδους ώστε να βρούµε ποια από αυτές είναι πιο κατάλληλη για το σύνολο των δεδοµένων µας. Εποµένως, ο πίνακας δείχνει τα αποτελέσµατα των σφαλµάτων ταξινόµησης του συνόλου των δεδοµένων µας κατά την εφαρµογή της µεθόδου αξιολόγησης για όλες τις µεθόδους Bayes ώστε να συγκρίνουµε ποια από αυτές είναι η πιο κατάλληλη. Πίνακας : Μέτρα σφάλµατος για τα Bayes µοντέλα πρόβλεψης Εσφαλµένη Μέσο Μέσο ταξινόµηση απόλυτο τετραγωνικό εγγραφών σφάλµα σφάλµα Σχετικό απόλυτο σφάλµα Σχετικό τετραγωνικό σφάλµα Bayes Net % % % Naïve Bayes % % % Naïve Bayes Simple Naïve Bayes Updateable % % % % % % Άρα, συγκρίνοντας τις µεθόδους της Bayes κατηγορίας σύµφωνα µε τα αποτελέσµατα που φαίνονται στον παραπάνω πίνακα συµπεραίνουµε ότι ο αλγόριθµος Bayes Net αποτελεί την πιο κατάλληλη µέθοδο µε µεγάλη διαφορά σε σχέση µε τις άλλες µεθόδους αφού όλα τα µέτρα σφάλµατος είναι αρκετά µικρότερα. Οι υπόλοιπες µέθοδοι έχουν σχεδόν τα ίδια ποσοστά σφάλµατος και είναι σχετικά µεγάλα. Για την καλύτερη µέθοδο η κρίσιµη µεταβλητή πρόβλεψης πτώχευσης είναι η Χ17 αλλά όλες οι υπόλοιπες µέθοδοι της κατηγορίας αυτής παρουσιάζουν την Χ3 ως κρίσιµη µεταβλητή. Στη συνέχεια θα κάνουµε µια επιπλέον ανάλυση για την καλύτερη µέθοδο που στην περίπτωσή µας είναι η Bayes Net. Την µεθοδολογία που θα χρησιµοποιήσουµε την περιγράψαµε στην παράγραφο και ονοµάζεται µέθοδος αξιολόγησης των νέων άγνωστων δεδοµένων (holdout). Τα δεδοµένα εκπαίδευσης (80) τα χρησιµοποιούµε για την εκπαίδευση του αλγορίθµου και τα υπόλοιπα 38 που 47

48 αποτελούν τα δεδοµένα δοκιµής αποτελούν νέες περιπτώσεις και θέλουµε να δούµε κατά πόσο καλά δουλεύει ο αλγόριθµος σε νέα δεδοµένα. Έτσι, ο παρακάτω πίνακας µας δείχνει τα αποτελέσµατα αποδοτικότητας και ακρίβειας για τον αλγόριθµο Bayes Net της συγκεκριµένης µεθοδολογίας. Πίνακας : Στατιστικά αποτελέσµατα για τον αλγόριθµο Bayes Net Εκπαίδευση Μέθοδος αξιολόγησης νέων άγνωστων δεδοµένων Σωστή ταξινόµηση εγγραφών 97.5 % % Εσφαλµένη ταξινόµηση εγγραφών 2.5 % % K-στατιστικό µέγεθος Μέσο απόλυτο σφάλµα Μέσο τετραγωνικό σφάλµα Σχετικό απόλυτο σφάλµα % % Σχετικό τετραγωνικό σφάλµα % % Εποµένως, όπως βλέπουµε από τον παραπάνω πίνακα διαπιστώνουµε ότι η απόδοση για τα νέα δεδοµένα έχει µειωθεί αρκετά αφού τα ποσοστά σφάλµατος είναι µεγαλύτερα σε σύγκριση µε την προηγούµενη µεθοδολογία (cross validation). Στην εκπαίδευση του αλγορίθµου έγιναν 2 λανθασµένες ταξινοµήσεις (µια για κάθε κλάση) ενώ, µε τη χρήση της µεθόδου αξιολόγησης νέων δεδοµένων έχουµε 13 (8 για την κλάση 1 και 5 για την 2) λανθασµένες ταξινοµήσεις από τις 38. Άρα συµπεραίνουµε ότι και σ αυτή τη µεθοδολογία έχουµε πιο ακριβή πρόβλεψη για τις πτωχευµένες επιχειρήσεις όπως φαίνεται στον παρακάτω πίνακα Πίνακας : Αποτελέσµατα ακρίβειας για τον αλγόριθµο Bayes ίκτυο Ποσοστό TP Ποσοστό Περιοχή Ορθότητα Μέτρο-F -Ανάκληση FP ROC Κλάση Εκπαίδευση (µη πτώχευση) (πτώχευση) Μέθοδος (µη πτώχευση) αξιολόγησης (πτώχευση) 5.4 Κατηγορία αλγορίθµων Συναρτήσεις (Functions) Η κατηγορία των αλγορίθµων µάθησης που ονοµάζεται Συναρτήσεις περιλαµβάνει µια ανάµεικτη οµάδα ταξινοµητών που µπορούν να γραφτούν ως µαθηµατικές εξισώσεις µε φυσικό τρόπο. Οι άλλοι µέθοδοι, όπως τα δένδρα αποφάσεων και οι κανόνες, δεν µπορούν να το κάνουν αυτό (εξαίρεση αποτελεί ο αλγόριθµος Naïve Bayes ο οποίος αποτελείται από έναν απλό µαθηµατικό τύπο). Τρεις αλγόριθµοι από την κατηγορία αυτή εφαρµόζουν γραµµική παλινδρόµηση (βλέπε παράρτηµα Β) Ανάλυση του λογιστικού (Logistic) αλγορίθµου Ο λογιστικός αλγόριθµος µάθησης (Cessie & Houwelingen, 1992) δηµιουργεί και χρησιµοποιεί ένα γραµµικό λογιστικό πρότυπο παλινδρόµησης µε τη βοήθεια ενός ακριβή εκτιµητή ακραίων τιµών (ridge estimator). Υπάρχουν κάποιες τροποποιήσεις των παραµέτρων όπου: Εάν υπάρχουν k κλάσεις για n περιπτώσεις µε m χαρακτηριστικά, η παράµετρος Β-µήτρα που υπολογίζεται θα είναι µια m*(k-1) µήτρα. Η πιθανότητα για την κατηγορία j µε εξαίρεση την τελευταία κλάση θα είναι: 48

49 (( ) ) ( ) ( ) ( ) ( ) Pj Xi = exp XiBj sum j 1... k 1 exp Xi Bj = + 1 (5.4.1) Η πιθανότητα της τελευταίας κλάσης είναι: (( ) ) ( sum j ( k ) Pj( Xi) ) sum j ( k ) ( Xi Bj) 1 = = 1 = exp + 1 (5.4.2) Η (αρνητική) πολυωνυµηκή λογαριθµική πιθανότητα (log-likelihood) είναι: [ 1... ] L= sum i= n { sum j= 1... ( k 1) ( Y ln( ( ))) ( 1 ( 1... ( 1) )) ln( ( 1) ( ))} ij P j X i + sum j= k Y ij sum j= k P j X i ( B 2) + ridge ɵ (5.4.3.) Προκειµένου να βρεθεί η Β-µήτρα για την οποία το L ελαχιστοποιείται, µια Quasi-Newton µέθοδος (βλέπε παράρτηµα Β) χρησιµοποιείται στην αναζήτηση των βελτιστοποιηµένων τιµών των m*(k-1) µεταβλητών. Παρατηρούµε ότι προτού να χρησιµοποιήσουµε τη διαδικασία βελτιστοποίησης «συµπιέζουµε» τη Β-µήτρα σε ένα m *(k-1) διάνυσµα. Σε περίπτωση που υπάρχουν ελλιπείς τιµές, αυτές αντικαθιστούνται µε τη χρήση ενός φίλτρου αντικατάστασης (Replace Missing Values Filter) και τα ονοµαστικά χαρακτηριστικά µετασχηµατίζονται σε αριθµητικά χρησιµοποιώντας ένα αντίστοιχο φίλτρο µετατροπής (Nominal To Binary Filter). Η παρακάτω εικόνα παρουσιάζει τις παραµέτρους που χρησιµοποιούνται στη εξεταζόµενη µέθοδο. Εικόνα 5.4.1: Παράµετροι του λογιστικού αλγορίθµου Η παράµετρος Max Its χρησιµοποιείται για να επιλέξουµε το µέγιστο αριθµό επαναλήψεων (ως προεπιλογή έχουµε την τιµή -1 δηλαδή δεν γίνεται καµία επανάληψη). Η παράµετρος Ridge χρησιµοποιείται για να επιλέξουµε τον εκτιµητή ακραίων τιµών στην λογαριθµική πιθανότητα. Ακολουθώντας ακριβώς την ίδια διαδικασία όπως κάναµε µε την Bayes κατηγορία αλγορίθµων έτσι και εδώ έχουµε τον πίνακα ο οποίος περιέχει στατιστικά αποτελέσµατα ώστε να βγάλουµε κάποια συµπεράσµατα για τον λογιστικό αλγόριθµο όσον αφορά την απόδοση και αξιοπιστία. 49

50 Πίνακας 5.4.1: Στατιστικά αποτελέσµατα για τον λογιστικό αλγόριθµο Εκπαίδευση Μέθοδος αξιολόγησης µέσω επαναλαµβανόµενης δοκιµής Σωστή ταξινόµηση εγγραφών % % Εσφαλµένη ταξινόµηση εγγραφών % % K-στατιστικό µέγεθος Μέσο απόλυτο σφάλµα Μέσο τετραγωνικό σφάλµα Σχετικό απόλυτο σφάλµα % % Σχετικό τετραγωνικό σφάλµα % % Εποµένως, σύµφωνα µε τον παραπάνω πίνακα παρατηρούµε ότι τα ποσοστά σφάλµατος είναι σε µέτρια επίπεδα πράγµα που δείχνει ότι η απόδοση και αξιοπιστία της µεθόδου κυµαίνεται σε µέτρια επίπεδα. Στην εκπαίδευση του αλγορίθµου έχουµε 17 λανθασµένες ταξινοµήσεις από τις 118 όπου οι 11 αντιστοιχούν στις µη πτωχευµένες επιχειρήσεις ενώ οι υπόλοιπες 6 στις πτωχευµένες. Χρησιµοποιώντας την µεθοδολογία αξιολόγησης µέσω επαναλαµβανόµενης δοκιµής (cross validation) οι λανθασµένες ταξινοµήσεις αυξήθηκαν κατά 8 (13 για την κλάση 1 και 12 για την 2). Εποµένως, παρατηρούµε ότι έχουµε πιο ακριβή ταξινόµηση για τις πτωχευµένες επιχειρήσεις όπως µπορούµε να δούµε και από τον παρακάτω πίνακα Πίνακας 5.4.2: Αποτελέσµατα ακρίβειας τον Λογιστικό αλγόριθµο Ποσοστό TP - Ποσοστό Περιοχή Ορθότητα Μέτρο-F Ανάκληση FP ROC Κλάση Εκπαίδευση (µη πτώχευση) (πτώχευση) Μέθοδος (µη πτώχευση) αξιολόγησης (πτώχευση) Επίσης, ο συγκεκριµένος αλγόριθµος µας παρέχει κάποιες επιπλέον πληροφορίες οι οποίες είναι χρήσιµες για τον εντοπισµό των κρίσιµων µεταβλητών για την πρόβλεψη της πτώχευσης. Αυτές οι πληροφορίες παρουσιάζονται στον πίνακα Πίνακας 5.4.3: Συντελεστές µεταβλητών για τον εντοπισµό της κρίσιµης µεταβλητής Μεταβλητές Συντελεστής Παράδοξα Ποσοστά Χ Χ Χ Χ Χ Χ Χ Χ Χ Χ Χ Χ Εποµένως, σύµφωνα µε τον παραπάνω πίνακα διαπιστώνουµε ότι οι βασικές µεταβλητές είναι ο Χ3 και ακολουθεί ο Χ25 µε κριτήριο τη µεγαλύτερη τιµή των συντελεστών όπου οι συγκεκριµένες µεταβλητές έχουν τις τιµές και αντίστοιχα, ενώ για τις τιµές των παράδοξων ποσοστών δεν µπορούµε να βγάλουµε κάποιο γενικό συµπέρασµα. Η µεταβλητή Χ3 αποτελεί τον αριθµοδείκτη ταχύτητας κυκλοφορίας ενεργητικού και άρα τα περιουσιακά στοιχεία µε τις καθαρές πωλήσεις έχουν 50

51 σηµαντικό ρόλο για την πρόβλεψη της πτώχευσης. Ενώ, ο χρηµατοοικονοµικός δείκτης Χ25 ορίζεται ως τις βραχυπρόθεσµες υποχρεώσεις προς το σύνολο ενεργητικού Ανάλυση του αλγορίθµου Multilayer Perceptron Ο αλγόριθµος µηχανικής µάθησης Multilayer Perceptron (MLP) του Bishop είναι ένα πολυεπίπεδο νευρωνικό δίκτυο το οποίο εκπαιδεύεται µε τη χρήση της µεθόδου backpropagation 7 (βλέπε παράρτηµα Β) για την ταξινόµηση των εγγραφών. Το δίκτυο αυτό µπορεί να δηµιουργηθεί µε το χέρι ή από έναν αλγόριθµο ή και τα δύο και µπορεί να ελέγχεται και να τροποποιείται κατά τη διάρκεια της εκπαίδευσης. Οι κόµβοι του δικτύου έχουν όλοι σιγµοειδή µορφής (εκτός και αν η κλάση είναι αριθµητική οπότε σ αυτή την περίπτωση οι παραγόµενοι κόµβοι γίνονται γραµµικής µορφής). Το multilayer perceptron είναι ένα από τα δηµοφιλέστερα νευρωνικά δίκτυα, αφού χρησιµοποιείται πολύ συχνά. Η βασική συστατική του µονάδα είναι το perceptron (αισθητήρας) (βλέπε παράρτηµα Β). To perceptron είναι µια υπολογιστική µονάδα η οποία παίρνει το γραµµικό συνδυασµό των εισόδων της και µέσω της συνάρτησης ενεργοποίησης (activation function) παράγει την έξοδό της. Η έξοδος, εποµένως, ενός perceptron θα δίδεται από την παρακάτω µαθηµατική σχέση: o= f w x b n i i (5.4.4) i= 1 όπου: ο x i w i b f είναι η έξοδος είναι οι είσοδοι είναι τα βάρη των νευρώνων είναι ο συντελεστής πόλωσης είναι η συνάρτηση ενεργοποίησης. Η µορφή της συνάρτησης ενεργοποίησης παίζει σηµαντικό ρόλο και πρέπει να επιλεγεί κατάλληλα ανάλογα µε το πρόβληµα που αντιµετωπίζουµε κάθε φορά. Υπάρχουν διάφορες µορφές που συνήθως παίρνει η συνάρτηση ενεργοποίησης όπως γραµµική, βηµατική, λογαριθµική, υπερβολική εφαπτοµένη. Ένα perceptron ενός επιπέδου είναι προφανώς ακατάλληλο για καταστάσεις µε πολλές κλάσεις και µη γραµµικά όρια διαχωρισµού, αυτό υπήρξε και το κίνητρο για την ανακάλυψη των δικτύων πολλών επιπέδων από perceptrons. Τα επίπεδα νευρώνων σε αυτά τα δίκτυα είναι πλήρως συνδεδεµένα, αλλά απουσιάζουν οι συνδέσεις µεταξύ των νευρώνων του ίδιου επιπέδου. Τα δίκτυα MLP χρησιµοποιούν επιτηρούµενη εκπαίδευση, υλοποιηµένη σε δύο φάσεις. Στην προωθούµενη φάση, υπολογίζεται η έξοδος της ζώνης εξόδου του δικτύου. Στην καθυστερηµένη (backward) φάση τα βάρη ρυθµίζονται ώστε να µειώσουν το λάθος ανάµεσα στις παρατηρούµενες και στις επιθυµητές εξόδους. Το δίκτυο µπορεί να ιδωθεί σαν µια µη γραµµική αντιστοιχία εισόδων-εξόδων, και η εκπαιδευτική διαδικασία σαν µια συνάρτηση προσαρµογής σε ένα ορισµένο σύνολο δεδοµένων. Ένα MLP παρουσιάζεται αποδοτικό στην παρεµβολή, καθώς οι συνεχείς συναρτήσεις ενεργοποίησης παράγουν συνεχείς συναρτήσεις εξόδου. Επίσης επειδή η διαδικασία εκµάθησης έχει να κάνει µε ψάξιµο σε ένα σύνθετο χώρο, είναι συχνά χρονοβόρα. Τα MLP έχουν εφαρµοστεί σε πολλές περιπτώσεις, από απλή ταξινόµηση, προσέγγιση συναρτήσεων, µέχρι αναγνώριση φωνής και αναγνώριση στόχου (σε στρατιωτικές εφαρµογές). Λόγω της διάδοσής τους στην επιστηµονική κοινότητα, πολλές είναι και οι εφαρµογές σε προβλήµατα της περιβαλλοντικής πληροφορικής. Η παρακάτω εικόνα παρουσιάζει τις παραµέτρους που χρησιµοποιήθηκαν στον συγκεκριµένο αλγόριθµο. 7 Backpropagation είναι ένας ακριβής αλγόριθµος πρόβλεψης ταξινόµησης ο οποίος προσδιορίζει το κατάλληλο βάρος για τις συνδέσεις του δικτύου βασισµένος σε perceptron κανόνες. 51

52 Εικόνα 5.4.2: Παράµετροι του αλγορίθµου Multilayer Perceptron Η παράµετρος GUI (Graphical User Interface) παρουσιάζει µια διεπαφή όπου προκαλεί διακοπή και αλλαγή του νευρωνικού δικτύου κατά τη διάρκεια της εκπαίδευσης. Η παράµετρος Auto Build προσθέτει και συνδέει τα κρυµµένα επίπεδα του δικτύου. Η παράµετρος εποχή (Decay) προκαλεί τη µείωση του ρυθµού εκπαίδευσης. Επίσης, διαιρεί το αρχικό ποσοστό µάθησης µε τον αριθµό εποχής (αυθαίρετα χρησιµοποιούµε 500) ώστε να προσδιορίσει ποιο θα είναι το τρέχον ποσοστό εκµάθησης και αυτό µπορεί να δηµιουργήσει ένα πιο αποδοτικό δίκτυο. Η παράµετρος κρυµµένα επίπεδα (Hidden Layers) προσδιορίζει τα κρυµµένα επίπεδα του νευρωνικού δικτύου από έναν κατάλογο θετικών ακεραίων αριθµών ή από τα γράµµατα a, i, o, t για κάθε κρυµµένο επίπεδο και από πόσους κόµβους το κάθε επίπεδο αποτελείται. Όπου: a = (αριθµός χαρακτηριστικών + αριθµός κλάσεων) / 2 i = αριθµός χαρακτηριστικών o = αριθµός κλάσεων t = (αριθµός χαρακτηριστικών + αριθµός κλάσεων) Σε περίπτωση όπου δεν υπάρχουν κρυµµένα επίπεδα τότε τοποθετούµε την επιλογή 0, στην περίπτωσή µας αυθαίρετα έχουµε επιλέξει την επιλογή a. Η παράµετρος ποσοστό µάθησης (Learning Rate) δείχνει το ποσοστό µάθησης για τον backpropagation αλγόριθµο (βλέπε παράρτηµα Β). Η τιµή πρέπει να είναι ανάµεσα στο 0 και στο 1 και έτσι επιλέγουµε αυθαίρετα την τιµή 0.3. Η παράµετρος Momentum ορίζει τον ρυθµό ταχύτητας που εφαρµόζεται στα βάρη κατά τη διάρκεια της ενηµέρωσης για τον backpropagation αλγόριθµο (βλέπε παράρτηµα Β). Και σ αυτή την παράµετρο το πεδίο τιµών κυµαίνεται ανάµεσα στο 0 και στο 1 και αυθαίρετα επιλέγουµε την τιµή 0.2. Με την παράµετρο φίλτρο µετατροπής αριθµητικών σε δυαδικών χαρακτηριστικών (Nominal To Binary Filter) προ-επεξεργαζόµαστε τα παραδείγµατα µε τη χρήση του φίλτρου (filter) όπου µπορεί να βελτιώσει την εκτέλεση του αλγορίθµου εάν υπάρχουν ονοµαστικά χαρακτηριστικά στα δεδοµένα. Με την παράµετρο εξοµάλυνση χαρακτηριστικών (Normalize Attributes) εξοµαλύνονται τα χαρακτηριστικά ώστε να επιφέρει τη βελτίωση της εκτέλεσης του δικτύου. Αυτή η παράµετρος εξοµαλύνει κα τα ονοµαστικά χαρακτηριστικά (αφού έχουν πρώτα «περάσει» από το προηγούµενο 52

53 φίλτρο αν βρίσκεται σε λειτουργία). Έτσι οι τιµές των ονοµαστικών χαρακτηριστικών βρίσκονται ανάµεσα στο -1 και στο1. Με την παράµετρο εξοµάλυνση αριθµητικής κλάσης (Normalize Numeric Class) εξοµαλύνεται η αριθµητική κλάση ώστε να βελτιωθεί η εκτέλεση του δικτύου. Και σ αυτή την παράµετρο οι τιµές βρίσκονται ανάµεσα στο -1 και στο 1. Με την παράµετρο τυχαίο σπόρο (Random Seed) ορίζουµε τον σπόρο που θα χρησιµοποιήσει ο αλγόριθµος ώστε να ρυθµιστεί η γεννήτρια τυχαίου αριθµού. Οι τυχαίοι αριθµοί χρησιµοποιούνται για τον καθορισµό των αρχικών βαρών των συνδέσεων µεταξύ των κόµβων. Η τιµή του σπόρου πρέπει να είναι µη αρνητική (τιµή >= 0) και ως προεπιλογή έχουµε την τιµή 0. Η παράµετρος επανατοποθέτηση (Reset) επιτρέπει στο δίκτυο την επανατοποθέτησή του µε ένα µικρότερο ρυθµό εκµάθησης και ξεκινάει πάλι την εκπαίδευση. Αυτή η επιλογή είναι διαθέσιµη µόνο όταν η επιλογή GUI δεν χρησιµοποιείται. Η παράµετρος χρόνος εκπαίδευσης (Training Time) αποτελεί τον αριθµό εποχής για την εκπαίδευση, εδώ χρησιµοποιούµε την προεπιλεγµένη τιµή 500. Η παράµετρος µέγεθος του συνόλου αξιολόγησης (Validation Set Size) δείχνει το µέγεθος του συνόλου δεδοµένων που χρησιµοποιούν την µέθοδο αξιολόγησης µέσω επαναλαµβανόµενης δοκιµής σε άγνωστα δεδοµένα (η εκπαίδευση θα συνεχιστεί έως ότου παρατηρηθεί ότι το σφάλµα του συνόλου έχει γίνει χειρότερο ή όταν ο χρόνος εκπαίδευσης τερµατιστεί). Εάν θέσουµε την τιµή µηδέν, τότε κανένα τέτοιο σύνολο δε θα χρησιµοποιηθεί. Τέλος, η παράµετρος κατώφλι αξιολόγησης (Validation Threshold) χρησιµοποιείται για να ολοκληρωθεί η δοκιµή της µεθόδου αξιολόγησης. Η τιµή που επιλέγουµε (αυθαίρετα έχουµε επιλέξει 20) δείχνει πόσες φορές σε µια σειρά σφαλµάτων του συνόλου δεδοµένων για αξιολόγηση µπορεί να χειροτερέψει πριν ολοκληρωθεί η εκπαίδευση. Το πεδίο τιµών είναι το σύνολο των θετικών αριθµών. Για την ανάλυση της απόδοσης και αξιοπιστίας του συγκεκριµένου αλγορίθµου παρουσιάζουµε τον πίνακα για το σύνολο των δεδοµένων µας. Πίνακας 5.4.4: Στατιστικά αποτελέσµατα για τον αλγορίθµου Multilayer Perceptron Εκπαίδευση Μέθοδος αξιολόγησης µέσω επαναλαµβανόµενης δοκιµής Σωστή ταξινόµηση εγγραφών % % Εσφαλµένη ταξινόµηση εγγραφών % % K-στατιστικό µέγεθος Μέσο απόλυτο σφάλµα Μέσο τετραγωνικό σφάλµα Σχετικό απόλυτο σφάλµα % % Σχετικό τετραγωνικό σφάλµα % % Σύµφωνα µε τον δεδοµένο πίνακα παρατηρούµε ότι η µέθοδος δεν είναι και τόσο ικανοποιητική και αξιόπιστη αφού τα ποσοστά σφάλµατος είναι σχετικά µεγάλα. Κατά την εκπαίδευση του αλγορίθµου είχαµε 17 λάθη ταξινόµησης από τα 118 όπου τα 15 ανήκαν στις µη πτωχευµένες επιχειρήσεις και τα 2 στις πτωχευµένες ενώ, µε τη χρήση της µεθόδου αξιολόγησης µέσω επαναλαµβανόµενης δοκιµής (cross validation) τα λάθη αυξήθηκαν κατά 11 (16 για την κλάση 1 και 12 για την 2). Εποµένως, ο αλγόριθµος Multilayer Perceptron παρέχει µέτρια ακρίβεια πρόβλεψης και για τις δύο κλάσει επιχειρήσεων όπως µπορούµε να δούµε και από τον παρακάτω πίνακα Πίνακας 5.4.5: Αποτελέσµατα ακρίβειας του αλγορίθµου Multilayer Perceptron Ποσοστό TP Ποσοστό Περιοχή Ορθότητα Μέτρο-F -Ανάκληση FP ROC Κλάση Εκπαίδευση (µη πτώχευση) (πτώχευση) Μέθοδος (µη πτώχευση) αξιολόγησης (πτώχευση) 53

54 Κατά την εκτέλεση του αλγορίθµου παρουσιάζεται το MLP δίκτυο όπως αναφέραµε παραπάνω και έτσι για τα δικά µας δεδοµένα το δίκτυο αυτό φαίνεται στην παρακάτω εικόνα Εικόνα 5.4.3: MLP δίκτυο για τα δεδοµένα µας Όπως βλέπουµε από την παραπάνω εικόνα το δίκτυό µας αποτελείται από 12 µεταβλητές που αποτελούν τις εισόδους, από 7 κόµβους και από δύο εξόδους (πτώχευση = 1 και µη πτώχευση = 2). Στον παρακάτω πίνακα παρουσιάζονται τα βάρη των µεταβλητών για κάθε κόµβο και εποµένως µπορούµε να εντοπίσουµε την κρίσιµη µεταβλητή για την πρόβλεψη της πτώχευσης. Ο κόµβος 1 αποτελεί τον πιο κρίσιµο κόµβο για τη πρόβλεψη της µη πτώχευσης µε βάρος ενώ, ο κόµβος 6 αποτελεί τον αντίστοιχο κρίσιµο κόµβο για την πρόβλεψη της πτώχευσης µε βάρος 4.958, σύµφωνα µε τα αποτελέσµατα που προσφέρει ο συγκεκριµένος αλγόριθµος. Πίνακας 5.4.6: Βάρη µεταβλητών του MLP δικτύου Μεταβλητή Κόµβος1 Κόµβος2 Κόµβος3 Κόµβος4 Κόµβος5 Κόµβος6 Κόµβος7 Χ Χ Χ Χ Χ Χ Χ Χ Χ Χ Χ Χ Όπως βλέπουµε από τον παραπάνω πίνακα για τον κόµβο 1 (ο οποίος είναι κρίσιµος για την πρόβλεψη της µη πτώχευσης) η πιο κρίσιµη µεταβλητή είναι η Χ3 και ακολουθεί η Χ10 µε βάρη και αντίστοιχα. Για τον κόµβο 6 (κρίσιµος κόµβος για την πρόβλεψη της πτώχευσης) η πιο κρίσιµη µεταβλητή είναι η Χ11 και ακολουθεί η Χ21. Όµοια, έχουµε και για τους υπόλοιπους κόµβους µε τις αντίστοιχες κρίσιµες µεταβλητές τους. Η πιο κρίσιµη απ όλες τις µεταβλητές είναι η Χ3 αφού έχει το µεγαλύτερο βάρος και βρίσκεται στον κόµβο αυξηµένης βαρύτητας. Αυτή η µεταβλητή αποτελεί τον αριθµοδείκτη ταχύτητας κυκλοφορίας ενεργητικού και άρα τα περιουσιακά στοιχεία µε τις καθαρές πωλήσεις έχουν σηµαντικό ρόλο για την πρόβλεψη της πτώχευσης. Ο χρηµατοοικονοµικός δείκτης Χ10 ορίζεται ως το κυκλοφορούν ενεργητικό προς τις βραχυπρόθεσµες υποχρεώσεις και προσδιορίζει τη γενική ρευστότητα της επιχείρησης. 54

55 5.4.3 Ανάλυση του αλγορίθµου RBF Network Ο αλγόριθµος RBF Network (radial basis function network) του Bishop είναι ένα δίκτυο που εφαρµόζει µια γκαουσιανή ακτινικής διάταξης συνάρτηση. Αυτή προέρχεται από τα κέντρα και πλάτη των κρυµµένων ενοτήτων χρησιµοποιώντας τον k-µέσο και συνδυάζοντας τα αποτελέσµατα που βγαίνουν από τα κρυµµένα επίπεδα χρησιµοποιώντας τη λογιστική παλινδρόµηση αν η κλάση είναι ονοµαστική και τη γραµµική παλινδρόµηση αν η κλάση είναι αριθµητική. Ο αλγόριθµος αυτός έχει δύο στρώµατα, χωρίς το στρώµα εισαγωγής, και διαφέρει από τον προηγούµενο αλγόριθµο στο ότι οι κρυµµένες µονάδες εκτελούν τους υπολογισµούς. Κάθε κρυµµένη µονάδα αντιπροσωπεύει ουσιαστικά ένα ιδιαίτερο σηµείο στο διάστηµα εισαγωγής, και τα αποτελέσµατα ή η ενεργοποίηση, για µια δεδοµένη περίπτωση εξαρτάται από την απόσταση µεταξύ του σηµείου και της περίπτωσης, η οποία αποτελεί ένα άλλο σηµείο. ιαισθητικά, τα πιο κοντινά σηµεία έχουν ισχυρότερη ενεργοποίηση. Αυτό επιτυγχάνεται µε τη χρησιµοποίηση µιας µη γραµµικής συνάρτησης µετασχηµατισµού για να µετατρέψει την απόσταση σε ένα µέτρο οµοιότητας. Μια γκαουσσιανή συνάρτηση ενεργοποίησης µε σχήµα καµπάνας, το πλάτος της οποίας µπορεί να είναι διαφορετικό για κάθε κρυµµένη µονάδα, χρησιµοποιείται συνήθως για αυτόν το λόγο. Οι κρυµµένες µονάδες καλούνται RBFs επειδή τα σηµεία του διαστήµατος περίπτωσης για τα οποία µια δεδοµένη κρυµµένη µονάδα παράγει τον ίδιο τύπο ενεργοποίησης που είναι µια υπερ-σφαίρα ή µια υπερ-έλλειψη. (Σε έναν Multilayer Perceptron, ο τύπος είναι υπερ-επίπεδο.) Το επίπεδο παραγωγής ενός δικτύου RBF είναι το ίδιο µε αυτό µε αυτό του Multilayer Perceptron: παίρνει έναν γραµµικό συνδυασµό των αποτελεσµάτων των κρυµµένων µονάδων και διοχετεύεται µέσω της σιγµοειδής συνάρτησης. Οι παράµετροι από τις οποίες ένα τέτοιο δίκτυο µαθαίνει είναι (α) τα κέντρα και τα πλάτη του RBFs και (β) τα βάρη που χρησιµοποιούνται για να διαµορφώσουν το γραµµικό συνδυασµό των αποτελεσµάτων που αποκτήθηκαν από το κρυµµένο επίπεδο. Ένα σηµαντικό πλεονέκτηµα σε σύγκριση µε τον αλγόριθµο Multilayer Perceptron είναι ότι το πρώτο σύνολο παραµέτρων µπορεί να καθοριστεί ανεξάρτητα από το δεύτερο σύνολο και επίσης παράγονται ακριβείς ταξινοµητές. Ένας τρόπος για να προσδιοριστεί το πρώτο σύνολο παραµέτρων είναι να χρησιµοποιηθεί η οµαδοποίηση, χωρίς να εξεταστεί η κατηγορία κλάσης των περιπτώσεων εκπαίδευσης. Το δεύτερο σύνολο παραµέτρων ορίζεται κρατώντας τις πρώτες παραµέτρους σταθερές. Αυτό περιλαµβάνει την εκµάθηση ενός γραµµικού προτύπου που χρησιµοποιεί µια από τις τεχνικές που έχουµε συζητήσει (π.χ., γραµµική ή λογιστική παλινδρόµηση). Ένα µειονέκτηµα των RBF Network είναι ότι δίνουν σε κάθε χαρακτηριστικό το ίδιο βάρος επειδή όλα τα χαρακτηριστικά αντιµετωπίζονται εξίσου στον υπολογισµό απόστασης. Ως εκ τούτου τα δίκτυα αυτά δεν µπορούν να ασχοληθούν αποτελεσµατικά µε άσχετα χαρακτηριστικά - σε αντίθεση µε τα Multilayer Perceptron. Στην παρακάτω εικόνα παρουσιάζονται οι παράµετροι που χρησιµοποιήθηκαν από τον εξεταζόµενο αλγόριθµο. Εικόνα 5.4.4: Παράµετροι του αλγορίθµου RBF Network Με την παράµετρο Clustering Seed θέτουµε ένα τυχαίο σπόρο ο οποίος χρησιµοποιείται από το k- µέσο. Ως προεπιλογή έχουµε την τιµή 1. 55

56 Η παράµετρος Max Its χρησιµοποιείται για να θέσουµε τον µέγιστο αριθµό επαναλήψεων (αυθαίρετα έχουµε χρησιµοποιήσει τον αριθµό -1 δηλ η παράµετρος αυτή δεν χρησιµοποιείται) για την εκτέλεση της λογιστικής παλινδρόµησης. Αυτή η παράµετρος εφαρµόζεται µόνο σε διακεκριµένης κλάσης προβλήµατα. Η παράµετρος Min Std Dev χρησιµοποιείται για να θέσουµε την ελάχιστη σταθερή απόκλιση για τις συστάδες. Ως προεπιλογή έχουµε τον αριθµό 0.1. Στην Num Clusters παράµετρο ορίζουµε τον αριθµό των συστάδων (έχουµε επιλέξει 2) που παράγονται για τον k-µέσο. Τέλος, στην παράµετρο Ridge θέτουµε την τιµή των ανώτατων σηµείων για τη λογιστική ή τη γραµµική παλινδρόµηση. Ο παρακάτω πίνακας δείχνει κατά πόσο η συγκεκριµένη µέθοδος είναι αποδοτική και ακριβής για τα δεδοµένα δείγµατα. Πίνακας 5.4.7: Στατιστικά αποτελέσµατα για τον αλγόριθµο RBF Network Εκπαίδευση Μέθοδος αξιολόγησης µέσω επαναλαµβανόµενης δοκιµής Σωστή ταξινόµηση εγγραφών % % Εσφαλµένη ταξινόµηση εγγραφών % % K-στατιστικό µέγεθος Μέσο απόλυτο σφάλµα Μέσο τετραγωνικό σφάλµα Σχετικό απόλυτο σφάλµα % % Σχετικό τετραγωνικό σφάλµα % % Εποµένως, παρατηρούµε ότι η µέθοδος δεν είναι και τόσο αποδοτική αφού τα ποσοστά σφάλµατος είναι σχετικά µεγάλα. Στην εκπαίδευση του αλγορίθµου προέκυψαν 39 λάθη ταξινόµησης από τις 118 ταξινοµήσεις όπου τα 3 ανήκουν στις µη πτωχευµένες επιχειρήσεις και τα 36 στις πτωχευµένες. Χρησιµοποιώντας την µέθοδο αξιολόγησης µέσω επαναλαµβανόµενης δοκιµής (cross validation) τα λάθη ταξινόµησης αυξήθηκαν κατά 3 (13 για την κλάση 1 και 29 για την 2). Άρα, ο αλγόριθµος αυτός είναι λιγότερο αποδοτικός και µας δίνει λιγότερο ακριβή ταξινόµηση για τις πτωχευµένες επιχειρήσεις και αυτό το διαπιστώνουµε από τον παρακάτω πίνακα Πίνακας 5.4.8: Αποτελέσµατα ακρίβειας του αλγορίθµου RBF Network Ποσοστό TP Ποσοστό Περιοχή Ορθότητα Μέτρο-F -Ανάκληση FP ROC Κλάση Εκπαίδευση (µη πτώχευση) (πτώχευση) Μέθοδος (µη πτώχευση) αξιολόγησης (πτώχευση) Όσον αφορά τις κρίσιµες µεταβλητές, αυτές δεν µπορούµε να τις εντοπίσουµε γιατί ο αλγόριθµος δεν µας προσφέρει επαρκεί στοιχεία για την εύρεση αυτών Ανάλυση του απλού λογιστικού αλγορίθµου (Simple Logistic) Ο απλός λογιστικός αλγόριθµος (Niels Landwehr et al., 2005) κατασκευάζει γραµµικά λογιστικά µοντέλα παλινδρόµησης µε την χρήση Logit Boost και απλών συναρτήσεων παλινδρόµησης όπως οι βασικοί αλγόριθµοι µάθησης και προσδιορίζει πόσες επαναλήψεις χρειάζονται για την εκτέλεση της µεθόδου αξιολόγησης µέσω επαναλαµβανόµενων δοκιµών σε άγνωστα δεδοµένα. Στην παρακάτω εικόνα φαίνονται οι παράµετροι που χρησιµοποιήθηκαν κατά τον πειραµατισµό από τον απλό λογιστικό αλγόριθµο. 56

57 Εικόνα 5.4.5: Παράµετροι του Απλού Λογιστικού αλγορίθµου Η παράµετρος Error On Probabilities χρησιµοποιεί το σφάλµα των πιθανοτήτων ως µέτρο σφάλµατος όταν προσδιορίζεται ο καταλληλότερος αριθµός των Logit Boost επαναλήψεων. Στην περίπτωση που επιλεχθεί αυτή η παράµετρος, ο αριθµός των Logit Boost επαναλήψεων ελαχιστοποιεί τη τετραγωνική ρίζα του µέσου σφάλµατος (είτε για την περίπτωση της εκπαίδευσης του αλγορίθµου ή στην µέθοδο εκτίµησης µέσω επαναλαµβανόµενων δοκιµών όπου εξαρτάται από την παράµετρο Use Cross Validation (έχουµε επιλέξει να µη χρησιµοποιείται αυτή η παράµετρος). Στην παράµετρο Heuristic Stop έχουµε πρόωρη διακοπή της Logit Boost µεθόδου σε περίπτωση που αυτή παίρνει θετική τιµή. Αυτό σηµαίνει ότι η µέθοδος Logit Boost σταµατάει όταν δεν παρατηρείται σφάλµα στην τελευταία επανάληψη. Μια κατάλληλη τιµή γι αυτή την παράµετρο είναι η 50 που χρησιµοποιούµε στην περίπτωσή µας. Στην παράµετρο Max Boosting Iterations θέτουµε τον µεγαλύτερο αριθµό επαναλήψεων για την Logit Boost µέθοδο. Όσο περισσότερα δεδοµένα έχουµε, τόσο µεγαλύτερη πρέπει να είναι η τιµή για καλύτερα αποτελέσµατα. Εµείς έχουµε επιλέξει αυθαίρετα την τιµή 500. Στην παράµετρο Num Boosting Iterations θέτουµε ένα σταθερό αριθµό επαναλήψεων της Logit Boost µεθόδου. Αν αυτός ο αριθµός είναι µη αρνητικός, τότε έχουµε τόσες επαναλήψεις της µεθόδου όσες αναγράφονται στην επιλογή αυτή. Αν ο αριθµός αυτός είναι αρνητικός, τότε εκτελείται η µέθοδος αξιολόγησης µέσω επαναλαµβανόµενων δοκιµών σε άγνωστα δεδοµένα (cross validation) ή δεν εφαρµόζεται αυτή η παράµετρος (εξαρτάται από την επιλογή της παραµέτρους Use Cross Validation). Εµείς έχουµε επιλέξει την τιµή µηδέν, δηλαδή η µέθοδος Logit Boost δεν θα εκτελεστεί καµία φορά. Η παράµετρος Use AIC χρησιµοποιείται ώστε να προσδιοριστεί πότε θα σταµατήσει η επανάληψη της µεθόδου λογιστικής Boost, δηλαδή ποιος είναι ο καλύτερος αριθµός επαναλήψεων. Εµείς δεν χρησιµοποιούµε αυτήν την επιλογή. Στην παράµετρο Use Cross Validation επιλέγουµε αν θα χρησιµοποιηθεί η µέθοδος αξιολόγησης µέσω επαναλαµβανόµενων δοκιµών σε άγνωστα δεδοµένα (cross validation), στις επαναλήψεις της Logit Boost µεθόδου ή όχι. Στην περίπτωση που δεν επιλεχθεί αυτή η παράµετρος, ο αριθµός επαναλήψεων χρησιµοποιείται ώστε να ελαχιστοποιηθεί το σφάλµα εκπαίδευσης (τα σφάλµατα ταξινόµησης ή σφάλµατα στις πιθανότητες εξαρτώνται από την παράµετρο Error On Probabilities). Στην περίπτωσή µας χρησιµοποιούµε αυτήν την επιλογή. Στην παράµετρο Weight Trim Beta θέτουµε την τιµή βήτα για το βάρος του τµήµατος της Logit Boost µεθόδου. Με την τιµή µηδέν (όπου έχουµε ως προεπιλογή) δεν χρησιµοποιείται βάρος τµήµατος. Η απόδοση της µεθόδου φαίνεται στον πίνακα για το σύνολο των δεδοµένων µας. 57

58 Πίνακας 5.4.9: Στατιστικά αποτελέσµατα για τον απλό λογιστικό αλγόριθµο Εκπαίδευση Μέθοδος αξιολόγησης µέσω επαναλαµβανόµενης δοκιµής Σωστή ταξινόµηση εγγραφών % % Εσφαλµένη ταξινόµηση εγγραφών % % K-στατιστικό µέγεθος Μέσο απόλυτο σφάλµα Μέσο τετραγωνικό σφάλµα Σχετικό απόλυτο σφάλµα % % Σχετικό τετραγωνικό σφάλµα % % Εποµένως, παρατηρούµε ότι η µεθοδολογία είναι αρκετά αποδοτική γιατί τα ποσοστά σφαλµάτων είναι σχετικά µικρά. Πιο συγκεκριµένα, στην εκπαίδευση του αλγορίθµου είχαµε 17 λάθη ταξινόµησης από τις 118 ταξινοµήσεις όπου τα 8 ανήκαν στις µη πτωχευµένες επιχειρήσεις ενώ τα 9 στις πτωχευµένες. Με τη χρήση της µεθόδου αξιολόγησης µέσω επαναλαµβανόµενων δοκιµών σε άγνωστα δεδοµένα τα σφάλµατα ταξινόµησης αυξήθηκαν κατά 3 (9 για την κλάση 1 και 11 για την 2). Άρα, συµπεραίνουµε ότι ο αλγόριθµος αυτός είναι αρκετά αποδοτικός και ακριβής και για τις δύο κλάσεις επιχειρήσεων όπως φαίνεται και στον παρακάτω πίνακα Πίνακας : Αποτελέσµατα ακρίβειας του απλού λογιστικού αλγορίθµου Ποσοστό TP Ποσοστό Περιοχή Ορθότητα Μέτρο-F -Ανάκληση FP ROC Κλάση Εκπαίδευση (µη πτώχευση) (πτώχευση) Μέθοδος (µη πτώχευση) αξιολόγησης (πτώχευση) Επίσης, ο αλγόριθµος αυτός µας παρέχει κάποιες επιπλέον πληροφορίες από τις οποίες µπορούµε να εντοπίσουµε τις κρίσιµες µεταβλητές. Class 0: Class 1: [X3]* [X16]*(-2.98) [X3]*(-13.59) + [X16]*2.98 Εποµένως, διαπιστώνουµε από τα παραπάνω αποτελέσµατα ότι οι κρίσιµες µεταβλητές είναι οι Χ3 και Χ16 για τα δεδοµένα µας. Όπως έχουµε είδη αναφέρει η µεταβλητή Χ3 αποτελεί τον αριθµοδείκτη ταχύτητας κυκλοφορίας ενεργητικού και άρα τα περιουσιακά στοιχεία µε τις καθαρές πωλήσεις έχουν σηµαντικό ρόλο για την πρόβλεψη της πτώχευσης. Όσον αφορά την µεταβλητή Χ16 αυτή ισούται µε το σύνολο των υποχρεώσεων προς το σύνολο ενεργητικού. Άρα βλέπουµε ότι και οι δύο σηµαντικοί δείκτες έχουν στον παρονοµαστή τους το σύνολο ενεργητικού εποµένως τα περιουσιακά στοιχεία έχουν καθοριστικό ρόλο για την πρόβλεψη της πτώχευσης Ανάλυση του αλγορίθµου της διαδοχικής ελάχιστης βελτιστοποίησης (SMO) Ο αλγόριθµος της διαδοχικής ελάχιστης βελτιστοποίησης-smo (sequential minimal optimization) εφαρµόζει τον διαδοχικό αλγόριθµο ελάχιστης βελτιστοποίησης για την εκπαίδευση ενός support vector classifier χρησιµοποιώντας πολυωνυµικούς ή γκαουσιανούς πυρήνες (Platt, 1998 & Keerthi et al., 2001). Αυτή η εφαρµογή αντικαθιστά συνολικά όλες τις ελλιπείς τιµές και µετασχηµατίζει τα ονοµαστικά χαρακτηριστικά σε δυαδικά. Εξοµαλύνει επίσης όλα τα χαρακτηριστικά, σ αυτή την περίπτωση οι συντελεστές των αποτελεσµάτων είναι βασισµένοι στα οµαλοποιηµένα στοιχεία και όχι στα αρχικά στοιχεία - αυτό είναι σηµαντικό για την ερµηνεία του ταξινοµητή. Τα πολλαπλής κλάσης προβλήµατα λύνονται χρησιµοποιώντας ταξινόµηση ανά ζευγάρια, δηλαδή 1-εναντίον-1 (pairwise) 58

59 (Hastie & Tibshirani, 1998). Για βελτιωµένη ταχύτητα πρέπει να µη χρησιµοποιηθεί η εξοµάλυνση κατά τη λειτουργία του αλγορίθµου. Στην παρακάτω εικόνα παρουσιάζονται οι παράµετροι που χρησιµοποιήθηκαν κατά τον πειραµατισµό από τον αλγόριθµο SMO. Εικόνα 5.4.6: Παράµετροι του αλγορίθµου SMO Η παράµετρος Build Logistic Models χρησιµοποιείται εάν θέλουµε να εφαρµόσουµε τη λογιστική µέθοδο στα αποτελέσµατα (για πιο κατάλληλες εκτιµήσεις πιθανότητας). Στο παράδειγµά µας δεν χρησιµοποιούµε αυτή την παράµετρο. Η παράµετρος C αποτελεί την περίπλοκη συνεχή παράµετρο C. Αυθαίρετα έχουµε χρησιµοποιήσει την τιµή 1. Η παράµετρος Checks Turned Off διακόπτει την χρονική κατανάλωση και χρησιµοποιείται µε επιφυλακτικότητα. Η παράµετρος Epsilon χρησιµοποιείται για την στρογγυλοποίηση των σφαλµάτων. Ως προεπιλογή έχουµε την 1.0Ε-12. Η παράµετρος Filter Type προσδιορίζει αν και πως µετατρέπονται τα δεδοµένα. Έχουµε τις επιλογές τυποποίησης (standardize), κανονικοποίησης (normalize) την οποία χρησιµοποιούµε και καµία επιλογή. Με την παράµετρο πυρήνας (Kernel) επιλέγουµε ποιόν «πυρήνα» θέλουµε να χρησιµοποιήσουµε. Οι επιλογές που υπάρχουν είναι ο κανονικοποιηµένος πολλαπλός πυρήνας (Normalized Poly Kernel), ο πολλαπλός πυρήνας (Poly Kernel τον οποίο χρησιµοποιούµε στην περίπτωσή µας), ο πυρήνας τύπου RBF (RBFKernel) και ο πυρήνας χαρακτήρων (String Kernel). Ο αριθµός που χρησιµοποιούµε δείχνει τον αριθµό των κρυµµένων πυρήνων. Η παράµετρος Num Folds δείχνει τον αριθµό των επαναλήψεων της µεθόδου αξιολόγησης µέσω επαναλαµβανόµενων δοκιµών σε άγνωστα δεδοµένα (cross validation) που χρησιµοποιείται για την παραγωγή των δεδοµένων εκπαίδευσης στο λογιστικό µοντέλο. Εδώ επιλέγουµε την τιµή -1 όπου δείχνει ότι δεν χρησιµοποιούµε αυτή τη µέθοδο. Με την παράµετρο Random Seed επιλέγουµε έναν αριθµό ο οποίος αποτελεί τον τυχαίο σπόρο για την µέθοδο αξιολόγησης µέσω επαναλαµβανόµενων δοκιµών σε άγνωστα δεδοµένα. Ως προεπιλογή έχουµε την τιµή 1. Η τελευταία παράµετρος Tolerance Parameter αποτελεί την παράµετρο ανοχής και έχουµε επιλέξει την τιµή όπου δεν πρέπει να αλλαχθεί. Ο παρακάτω πίνακας µας πληροφορεί για την απόδοση και ακρίβεια ταξινόµησης της µεθόδου που χρησιµοποιήσαµε στην πειραµατική εφαρµογή. 59

60 Πίνακας : Στατιστικά αποτελέσµατα για τον αλγόριθµο SMO Εκπαίδευση Μέθοδος αξιολόγησης µέσω επαναλαµβανόµενης δοκιµής Σωστή ταξινόµηση εγγραφών % % Εσφαλµένη ταξινόµηση εγγραφών % % K-στατιστικό µέγεθος Μέσο απόλυτο σφάλµα Μέσο τετραγωνικό σφάλµα Σχετικό απόλυτο σφάλµα % % Σχετικό τετραγωνικό σφάλµα % % Όπως βλέπουµε από τον πίνακα, η απόδοση του αλγορίθµου κυµαίνεται σε µέτρια επίπεδα. Στην εκπαίδευση του αλγορίθµου είχαµε 26 λάθη ταξινόµησης από τις 118 ταξινοµήσεις όπου τα 9 ανήκαν στις µη πτωχευµένες επιχειρήσεις και τα 17 στις πτωχευµένες. Μετά τη χρήση της µεθόδου αξιολόγησης µέσω επαναλαµβανόµενων δοκιµών σε άγνωστα δεδοµένα (cross validation) τα σφάλµατα ταξινόµησης αυξήθηκαν κατά 6 (συνολικά 32) από τα οποία και τα 6 ανήκαν στις πτωχευµένες επιχειρήσεις. Εποµένως, συµπεραίνουµε ότι έχουµε πιο ακριβή ταξινόµηση για τις µη πτωχευµένες επιχειρήσεις όπως φαίνεται και από τον παρακάτω πίνακα Πίνακας : Αποτελέσµατα ακρίβειας του αλγορίθµου SMO Ποσοστό TP Ποσοστό Περιοχή Ορθότητα Μέτρο-F -Ανάκληση FP ROC Κλάση Εκπαίδευση (µη πτώχευση) (πτώχευση) Μέθοδος (µη πτώχευση) αξιολόγησης (πτώχευση) Όσον αφορά τις κρίσιµες µεταβλητές, αυτές µπορούµε να τις εντοπίσουµε από τα επιπλέον στοιχεία που παρέχει ο συγκεκριµένος αλγόριθµος. Εποµένως, στον πίνακα παρουσιάζονται τα αποτελέσµατα όπου δείχνουν τα βάρη των χαρακτηριστικών για το σύνολο των δεδοµένων µας. Πίνακας : Βάρη µεταβλητών χρησιµοποιώντας γραµµικό πυρήνα Μεταβλητές Βάρη Χ Χ Χ Χ Χ Χ Χ Χ Χ Χ Χ Χ Όπως βλέπουµε από τον παραπάνω πίνακα παρατηρούµε ότι οι πιο κρίσιµες µεταβλητές εµφανίζονται να είναι η Χ16 και ακολουθεί η Χ25 λαµβάνοντας υπ όψιν τα βάρη των µεταβλητών. Έτσι, η πιο βασική µεταβλητή Χ16 ορίζεται ως το σύνολο υποχρεώσεων προς το σύνολο ενεργητικού. Η επόµενη κρίσιµη µεταβλητή Χ25 ορίζεται χρηµατοοικονοµικά ως το πηλίκο των βραχυπρόθεσµων υποχρεώσεων προς το σύνολο ενεργητικού. ηλαδή βλέπουµε ότι οι υποχρεώσεις και τα περιουσιακά στοιχεία της επιχείρησης επιδρούν έντονα στο πρόβληµα της πτώχευσης. 60

61 5.4.6 Ανάλυση του αλγορίθµου Voted Perceptron Ο αλγόριθµος Voted Perceptron (Freund & Schapire, 1998) λειτουργεί σχεδόν όπως ο αλγόριθµος support vector. Αποτελεί τον αριθµό των ψήφων που αντιστοιχούν σε κάθε διάνυσµα βάρους και προκύπτει από την ορθότητα αυτών και µετριέται ως τον αριθµό επιτυχίας των προσπαθειών µετά την έναρξη. Συνολικά αντικαθιστά όλες τις ελλιπείς τιµές, και µετασχηµατίζει τα ονοµαστικά χαρακτηριστικά σε δυαδικά. Στην παρακάτω εικόνα παρουσιάζονται οι παράµετροι που χρησιµοποιήθηκαν κατά την πειραµατική εφαρµογή του εξεταζόµενου αλγορίθµου. Εικόνα 5.4.7: Παράµετροι του αλγορίθµου Voted Perceptron Η παράµετρος Exponent αποτελεί τον δείκτη για τον πολυωνυµικό πυρήνα. Ως προεπιλογή έχουµε την τιµή 1 για αυτή την παράµετρο. Η παράµετρος Max K δηλώνει τον µέγιστο αριθµό µετατροπών του perceptron. Αυθαίρετα έχουµε ορίσει την τιµή Η παράµετρος αριθµός επαναλήψεων (Νum Iterations) αποτελεί τον αριθµό των επαναλήψεων που πρόκειται να εκτελεστούν για τον αλγόριθµο αυτό. Έχουµε επιλέξει την τιµή 1. Η τελευταία παράµετρος σπόρος (Seed) αποτελεί τον σπόρο για την παραγωγή του τυχαίου αριθµού από την γεννήτρια. Έχουµε επιλέξει την τιµή 1. Από τον παρακάτω πίνακα παίρνουµε πληροφορίες για την απόδοση, αξιοπιστία και ακρίβεια της ταξινόµησης του αλγορίθµου. Πίνακας : Στατιστικά αποτελέσµατα για τον αλγόριθµο Voted Perceptron Εκπαίδευση Μέθοδος αξιολόγησης µέσω επαναλαµβανόµενης δοκιµής Σωστή ταξινόµηση εγγραφών % % Εσφαλµένη ταξινόµηση εγγραφών % % K-στατιστικό µέγεθος Μέσο απόλυτο σφάλµα Μέσο τετραγωνικό σφάλµα Σχετικό απόλυτο σφάλµα % % Σχετικό τετραγωνικό σφάλµα % % Εποµένως, όπως παρατηρούµε από τον παραπάνω πίνακα τα αποτελέσµατα είναι παράδοξα και τελείως διαφορετικά µεταξύ των αποτελεσµάτων της εκπαίδευσης και αυτών µε τη χρήση της µεθόδου 61

62 αξιολόγησης µέσω επαναλαµβανόµενων δοκιµών σε άγνωστα δεδοµένα (cross validation). ηλαδή, τα σφάλµατα ταξινόµησης µετά την εκπαίδευση είναι αρκετά (67) από τα οποία τα 53 ανήκουν στις µη πτωχευµένες επιχειρήσεις και τα υπόλοιπα 14 στις πτωχευµένες. Ενώ, µετά την εφαρµογή της αναφερόµενης µεθόδου εκτίµησης παρατηρούµε τα λάθη ταξινόµησης να µειώνονται κατά 20 (22 για την κλάση 1 και 25 για την 2). Άρα, για τα πρώτα αποτελέσµατα µπορούµε να πούµε ότι η ακρίβεια ταξινόµησης είναι µεγαλύτερη για τις πτωχευµένες επιχειρήσεις ενώ για τα δεύτερα αποτελέσµατα ισχύει το αντίθετο και αυτό φαίνεται από τον παρακάτω πίνακα ακρίβειας. Συµπεραίνουµε λοιπόν ότι η µέθοδος αυτή δεν είναι αποδοτική. Πίνακας : Αποτελέσµατα ακρίβειας του αλγορίθµου Voted Perceptron Ποσοστό TP Ποσοστό Περιοχή Ορθότητα Μέτρο-F -Ανάκληση FP ROC Κλάση Εκπαίδευση (µη πτώχευση) (πτώχευση) Μέθοδος (µη πτώχευση) αξιολόγησης (πτώχευση) Τέλος, οι κρίσιµες µεταβλητές των δεδοµένων δεν είναι ευδιάκριτες για την συγκεκριµένη µέθοδο αφού ο αλγόριθµος δεν παρέχει επιπλέον πληροφορίες που να αφορούν τις µεταβλητές Σύγκριση αποτελεσµάτων των µεθόδων της κατηγορίας Συναρτήσεις Τελειώνοντας την ανάλυση των µεθόδων της κατηγορίες Συναρτήσεις, κάνουµε µια σύγκριση µεταξύ αυτών ώστε να δούµε ποια είναι πιο αποδοτική και άρα πιο κατάλληλη µέθοδο για την πρόβλεψη των πτωχευµένων επιχειρήσεων στο σύνολο των δεδοµένων µας. Ο πίνακας συγκρίνει τις µεθόδους αυτές χρησιµοποιώντας τα ποσοστά σφάλµατος που αποτελούν τα πιο σηµαντικά µέτρα για την απόδοση των µεθόδων. Πίνακας : Μέτρα σφάλµατος για τα µοντέλα πρόβλεψης της κατηγορίας Συναρτήσεις Εσφαλµένη Μέσο Μέσο Σχετικό ταξινόµηση απόλυτο τετραγωνικό απόλυτο εγγραφών σφάλµα σφάλµα σφάλµα Σχετικό τετραγωνικό σφάλµα Λογιστικός % % % Multilayer Perceptron % % % RBF Network % % % Απλός Λογιστικός % % % SMO % % % Voted Perceptron % % % Εποµένως, όπως βλέπουµε από τον παραπάνω πίνακα είναι φανερό ότι ο απλός λογιστικός αλγόριθµος είναι ο πιο αποδοτικός. Εποµένως, η πιο κρίσιµη µεταβλητή για αυτή την κατηγορία αλγορίθµων είναι η Χ3 όπου αποτελεί τον αριθµοδείκτη ταχύτητας κυκλοφορίας ενεργητικού και άρα τα περιουσιακά στοιχεία µε τις καθαρές πωλήσεις έχουν σηµαντικό ρόλο για την πρόβλεψη της πτώχευσης. Στη συνέχεια, θα εφαρµόσουµε την µεθοδολογία αξιολόγησης των νέων άγνωστων δεδοµένων µόνο για τον καλύτερο αλγόριθµο που είναι ο απλός λογιστικός. Εποµένως, ο παρακάτω πίνακας δείχνει την αποδοτικότητα και αξιοπιστία ταξινόµησης του συγκεκριµένου αλγορίθµου. 62

63 Πίνακας : Στατιστικά αποτελέσµατα για τον απλός λογιστικός αλγόριθµο Εκπαίδευση Μέθοδος αξιολόγησης νέων άγνωστων δεδοµένων Σωστή ταξινόµηση εγγραφών 90 % % Εσφαλµένη ταξινόµηση εγγραφών 10 % % K-στατιστικό µέγεθος Μέσο απόλυτο σφάλµα Μέσο τετραγωνικό σφάλµα Σχετικό απόλυτο σφάλµα % % Σχετικό τετραγωνικό σφάλµα % % Εποµένως, όπως βλέπουµε από τον παραπάνω πίνακα παρατηρούµε ότι µε αυτή τη µεθοδολογία τα αποτελέσµατα δεν είναι ικανοποιητικά όσον αφορά την απόδοση και αξιοπιστία ταξινόµησης του αλγορίθµου. Συγκεκριµένα, για τα δεδοµένα εκπαίδευσης τα λάθη ταξινόµησης ήταν 8 από τις 80 ταξινοµήσεις όπου το 1 ανήκε στις µη πτωχευµένες επιχειρήσεις και τα 7 στις πτωχευµένες. Μετά την εφαρµογή της αξιολόγησης των νέων άγνωστων δεδοµένων τα σφάλµατα ταξινόµησης ήταν 16 από τις 32 ταξινοµήσεις (5 για την κλάση 1 και 11 για την 2). Άρα, συµπεραίνουµε µ αυτή τη µεθοδολογία ότι ο συγκεκριµένος αλγόριθµος δεν είναι αποδοτικός και η ακρίβεια στην ταξινόµηση είναι µεγαλύτερη για τις µη πτωχευµένες επιχειρήσεις σε αντίθεση µε τις πτωχευµένες όπως µπορούµε να δούµε και από τον παρακάτω πίνακα Πίνακας : Αποτελέσµατα ακρίβειας του απλού λογιστικού αλγόριθµου Ποσοστό TP Ποσοστό Περιοχή Ορθότητα Μέτρο-F -Ανάκληση FP ROC Κλάση Εκπαίδευση (µη πτώχευση) (πτώχευση) Μέθοδος (µη πτώχευση) αξιολόγησης (πτώχευση) 5.5 Κατηγορία αλγορίθµων Lazy Η κατηγορία των αλγορίθµων µάθησης Lazy αποθηκεύουν τις εγγραφές εκπαίδευσης και δεν πραγµατοποιούν καµία εργασία µέχρι τη στιγµή της ταξινόµησης (γι αυτό ονοµάζονται τεµπέληδες αλγόριθµοι) Ανάλυση του αλγορίθµου IB1 Ο αλγόριθµος IB1 (Aha & Kibler, 1991) είναι ένας σηµαντικός αλγόριθµος βασισµένος στα παραδείγµατα (instance-based - βλέπε παράρτηµα Β) ο οποίος ανακαλύπτει τα παραδείγµατα εκπαίδευσης που βρίσκονται πιο κοντά στην κανονικοποιηµένη ευκλείδεια απόσταση του δεδοµένου παραδείγµατος δοκιµής και προβλέπει την ίδια κλάση µε αυτή του παραδείγµατος εκπαίδευσης. Εάν µερικά παραδείγµατα χαρακτηρίζονται ως τα πιο κοντινά, το πρώτο παράδειγµα που βρίσκεται χρησιµοποιείται. Στην ουσία ο αλγόριθµος αυτός αποτελεί τον ταξινοµητή πλησιέστερου γείτονα. Η µόνη παράµετρος που χρησιµοποιεί αυτός ο αλγόριθµος είναι η διερεύνηση σφαλµάτων. Ο παρακάτω πίνακας παρουσιάζει τα αποτελέσµατα του αλγορίθµου ώστε να δούµε την απόδοση και αξιοπιστία του εξεταζόµενου αλγορίθµου καθώς και την ακρίβεια της ταξινόµησης. 63

64 Πίνακας 5.5.1: Στατιστικά αποτελέσµατα για τον αλγόριθµο IB1 Εκπαίδευση Μέθοδος αξιολόγησης µέσω επαναλαµβανόµενης δοκιµής Σωστή ταξινόµηση εγγραφών 100 % % Εσφαλµένη ταξινόµηση εγγραφών 0 % % K-στατιστικό µέγεθος Μέσο απόλυτο σφάλµα Μέσο τετραγωνικό σφάλµα Σχετικό απόλυτο σφάλµα 0 % % Σχετικό τετραγωνικό σφάλµα 0 % % Όπως βλέπουµε από τον παραπάνω πίνακα διαπιστώνουµε ότι η εκπαίδευση του αλγορίθµου δεν παρέχει κανένα σφάλµα ταξινόµησης, όµως, µε την εφαρµογή της µεθόδου αξιολόγησης µέσω επαναλαµβανόµενων δοκιµών σε άγνωστα δεδοµένα (cross validation) η απόδοση του αλγορίθµου πέφτει αρκετά αφού έχουµε µεγάλα ποσοστά σφάλµατος. Πιο συγκεκριµένα έχουµε 37 λανθασµένες ταξινοµήσεις από τις 118 ταξινοµήσεις όπου οι 17 ανήκουν στις µη πτωχευµένες επιχειρήσεις και οι 20 στις πτωχευµένες. Άρα η ακρίβεια ταξινόµησης είναι µεγαλύτερη για τις µη πτωχευµένες επιχειρήσεις και αυτό φαίνεται από τον παρακάτω πίνακα ακρίβειας. Πίνακας 5.5.2: Αποτελέσµατα ακρίβειας του IB1 αλγορίθµου Ποσοστό TP Ποσοστό Περιοχή Ορθότητα Μέτρο-F -Ανάκληση FP ROC Κλάση Εκπαίδευση (µη πτώχευση) (πτώχευση) Μέθοδος (µη πτώχευση) αξιολόγησης (πτώχευση) Τέλος, όσον αφορά τις κρίσιµες µεταβλητές δεν µπορούµε να τις εντοπίσουµε αφού ο αλγόριθµος δεν µας παρέχει κανένα στοιχείο για αυτές Ανάλυση του αλγορίθµου IBk Ο αλγόριθµος IBk (Aha & Kibler, 1991) είναι ένας κ-πλησιέστερων γειτόνων ταξινοµητής (knearest-neighbor), ο οποίος χρησιµοποιεί το ίδιο µέτρο απόστασης όπως τον προηγούµενο. Στο παράδειγµα της πτώχευσης, ως κ χρησιµοποιούµε τον αριθµό 1 ο οποίος αποτελεί τον αριθµό των πλησιέστερων γειτόνων. Οι προβλέψεις των περισσότερων του ενός γειτόνων µπορούν να σταθµίζονται σύµφωνα µε τις αποστάσεις τους από τα παραδείγµατα δοκιµής και δύο διαφορετικές µορφές γειτόνων, (KDTree και LinearNN) εφαρµόζονται για την µετατροπή της απόστασης σε βάρος. Ο αριθµός των παραδειγµάτων εκπαίδευσης του ταξινοµητή µπορούν να περιοριστούν από την επιλογή του παραθύρου παραµέτρων (εικόνα 5.5.1), ενώ όταν προσθέτονται νέα παραδείγµατα εκπαίδευσης, τα παλιά αποµακρύνονται ώστε να διατηρηθεί ο αριθµός των παραδειγµάτων εκπαίδευσης. Παρακάτω παρουσιάζουµε την εικόνα η οποία περιέχει τις παραµέτρους του συγκεκριµένου αλγόριθµου. 64

65 Εικόνα 5.5.1: Παράµετροι του αλγορίθµου IBk Με την παράµετρο ΚΝΝ επιλέγουµε τον αριθµό των γειτόνων που πρόκειται να χρησιµοποιήσουµε στην ταξινόµησης. Έχουµε επιλέξει µόνο έναν γείτονα. Η παράµετρος Cross Validate χρησιµοποιείται αν θέλουµε ή όχι να χρησιµοποιήσουµε την µέθοδο αξιολόγησης µέσω επαναλαµβανόµενων δοκιµών σε άγνωστα δεδοµένα για να επιλέξουµε την καλύτερη κ τιµή. Στο παράδειγµά µας δεν χρησιµοποιείται αυτή η παράµετρος. Η παράµετρος Distance Weighting λαµβάνει τη σταθµισµένη απόσταση για την µέθοδο που χρησιµοποιούµε. Έχουµε τρεις επιλογές, η µια είναι το βάρος των γειτόνων χρησιµοποιώντας το ανάστροφο της απόστασής τους (weight by / distance), η δεύτερη είναι το βάρος των γειτόνων χρησιµοποιώντας το ένα µείον την απόστασή τους (weight by 1-distance) και η τρίτη είναι η µη χρήση του βάρους απόστασης (no distance weighting) την οποία χρησιµοποιούµε στο παράδειγµά µας. Τις δύο πρώτες επιλογές τις χρησιµοποιούµε όταν το κ είναι µεγαλύτερο του 1. Η παράµετρος Mean Squared επιλέγεται εάν θέλουµε να χρησιµοποιήσουµε το τετραγωνικής ρίζας µέσο σφάλµα αντί του απόλυτου µέσου σφάλµατος όταν εκτελείται η µέθοδος αξιολόγησης µέσω επαναλαµβανόµενων δοκιµών σε άγνωστα δεδοµένα για τα προβλήµατα παλινδρόµησης. Εµείς δεν χρησιµοποιούµε αυτήν την επιλογή. Με την παράµετρο αλγόριθµος αναζήτησης πλησιέστερου γείτονα (Nearest Neighbor Search Algorithm) επιλέγουµε τον αλγόριθµο που ψάχνει τον πλησιέστερο γείτονα. Έχουµε δύο επιλογές, την KDTree και την LinearNN την οποία χρησιµοποιούµε. Η τελευταία παράµετρος Window Size λαµβάνει το µεγαλύτερο αριθµό παραδειγµάτων που επιτρέπονται για την εκπαίδευση. Η πρόσθεση νέων παραδειγµάτων πάνω από αυτή τη τιµή θα προκαλέσει την αποµάκρυνση των παλιών. Η τιµή µηδέν, την οποία χρησιµοποιούµε εδώ, δείχνει ότι δεν υπάρχει κανένας περιορισµός για τα παραδείγµατα εκπαίδευσης. Στον παρακάτω πίνακα παρουσιάζονται τα αποτελέσµατα του εξεταζόµενου αλγορίθµου ώστε να δούµε αν είναι αποδοτικός και αν η ταξινόµηση είναι ακριβής. 65

66 Πίνακας 5.5.3: Στατιστικά αποτελέσµατα για τον αλγόριθµο IBk Εκπαίδευση Μέθοδος αξιολόγησης µέσω επαναλαµβανόµενης δοκιµής Σωστή ταξινόµηση εγγραφών 100 % % Εσφαλµένη ταξινόµηση εγγραφών 0 % % K-στατιστικό µέγεθος Μέσο απόλυτο σφάλµα Μέσο τετραγωνικό σφάλµα Σχετικό απόλυτο σφάλµα % % Σχετικό τετραγωνικό σφάλµα % % Εποµένως, σύµφωνα µε τον παραπάνω πίνακα διαπιστώνουµε ότι ο αλγόριθµος εκπαιδεύεται αρκετά καλά αφού τα ποσοστά σφάλµατος είναι µηδενικά, δηλαδή δεν έχουµε καµία λανθασµένη ταξινόµηση. Με τη χρήση της µεθόδου αξιολόγησης µέσω επαναλαµβανόµενων δοκιµών σε άγνωστα δεδοµένα (cross validation) η απόδοση του αλγορίθµου πέφτει αρκετά γιατί έχουµε µεγάλα ποσοστά σφάλµατος, πιο συγκεκριµένα έχουµε 37 λάθη ταξινόµησης από τις 118 ταξινοµήσεις όπου τα 17 αντιστοιχούν στις µη πτωχευµένες επιχειρήσεις και τα 20 στις πτωχευµένες. Άρα, όπως φαίνεται και από τον παρακάτω πίνακα έχουµε πιο ακριβή ταξινόµηση για τις µη πτωχευµένες επιχειρήσεις. Πίνακας 5.5.4: Αποτελέσµατα ακρίβειας του αλγορίθµου IBk Ποσοστό TP Ποσοστό Περιοχή Ορθότητα Μέτρο-F -Ανάκληση FP ROC Κλάση Εκπαίδευση (µη πτώχευση) (πτώχευση) Μέθοδος (µη πτώχευση) αξιολόγησης (πτώχευση) Τέλος, και σ αυτήν τη µέθοδο δεν παρέχονται επιπλέον στοιχεία για τον εντοπισµό των κρίσιµων µεταβλητών για την πρόβλεψη της πτώχευσης Ανάλυση του αλγορίθµου KStar Ο αλγόριθµος KStar (Jogn et al., 1995) είναι µια πλησιέστερου-γείτονα µέθοδος µε µια γενικευµένη συνάρτηση απόστασης βασισµένη σε µετασχηµατισµούς. Το K* είναι ένας ταξινοµητής βασισµένος στα παραδείγµατα (instance-based), ο οποίος αποτελεί την κλάση ενός παραδείγµατος δοκιµής και είναι βασισµένος στην κατηγορία εκείνων των παραδειγµάτων εκπαίδευσης που είναι παρόµοια µε αυτόν. ιαφέρει από άλλους αλγόριθµους που είναι βασισµένοι στα παραδείγµατα (instance-based) δεδοµένου ότι χρησιµοποιεί µια εντροπία-βασισµένη στη συνάρτηση απόστασης. Παρακάτω παρουσιάζουµε την εικόνα που περιέχει τις παραµέτρους που χρησιµοποιεί στην πειραµατική εφαρµογή ο εξεταζόµενος αλγόριθµος. 66

67 Εικόνα 5.5.2: Παράµετροι του αλγορίθµου KStar Η παράµετρος Entropic Auto Blend επιλέγεται εάν θέλουµε να χρησιµοποιηθεί η εντροπία βασισµένη στο δείγµα. Εµείς δεν χρησιµοποιούµε αυτή την παράµετρο. Η παράµετρος Global Blend αναφέρεται στο σφαιρικό µίγµα και οι τιµές της κυµαίνονται από το 0 έως το 100. Εµείς έχουµε επιλέξει αυθαίρετα τη τιµή 20. Με την παράµετρο Missing Mode προσδιορίζεται πώς οι ελλιπείς τιµές των χαρακτηριστικών µεταχειρίζονται. Έχουµε τέσσερις επιλογές: α) αγνοούµε τα παραδείγµατα µε ελλιπείς τιµές (ignore the instances with missing values), β) χειριζόµαστε τις ελλιπείς τιµές ως µέγιστες τιµές (treat missing values as maximally different), γ) εξοµαλύνουµε τα χαρακτηριστικά (normalize over the attributes) και δ) υπολογίζουµε τον µέσο όρο των καµπυλών εντροπίας (average column entropy curves) την οποία χρησιµοποιούµε στην περίπτωσή µας. Στη συνέχεια, για την ανάλυση της µεθόδου, ο παρακάτω πίνακας µας πληροφορεί για την απόδοση και αξιοπιστία του αλγορίθµου καθώς και την ακρίβεια ταξινόµησης. Πίνακας 5.5.5: Στατιστικά αποτελέσµατα για τον αλγόριθµο KStar Εκπαίδευση Μέθοδος αξιολόγησης µέσω επαναλαµβανόµενης δοκιµής Σωστή ταξινόµηση εγγραφών 100 % % Εσφαλµένη ταξινόµηση εγγραφών 0 % % K-στατιστικό µέγεθος Μέσο απόλυτο σφάλµα Μέσο τετραγωνικό σφάλµα Σχετικό απόλυτο σφάλµα 0 % % Σχετικό τετραγωνικό σφάλµα 0 % % Εποµένως, διαπιστώνουµε ότι η εκπαίδευση του αλγορίθµου είναι αρκετά αποδοτική γιατί τα ποσοστά σφάλµατος είναι µηδενικά, δηλαδή δεν έχουµε κανένα σφάλµα ταξινόµησης. Μετά την εφαρµογή της µεθόδου αξιολόγησης µέσω επαναλαµβανόµενων δοκιµών σε άγνωστα δεδοµένα (cross validation) τα ποσοστά σφάλµατος είναι αρκετά µεγάλα, δηλαδή έχουµε 36 λάθη ταξινόµησης από τα οποία τα µισά ανήκουν στις µη πτωχευµένες επιχειρήσεις και τα υπόλοιπα στις πτωχευµένες. Άρα, όπως διαπιστώνουµε και από τον παρακάτω πίνακα η ταξινόµησης δεν είναι και τόσο ακριβής και για τις δύο κλάσεις των επιχειρήσεων. 67

68 Πίνακας 5.5.6: Αποτελέσµατα ακρίβειας του αλγορίθµου KStar Ποσοστό TP Ποσοστό Περιοχή Ορθότητα Μέτρο-F -Ανάκληση FP ROC Κλάση Εκπαίδευση (µη πτώχευση) (πτώχευση) Μέθοδος (µη πτώχευση) αξιολόγησης (πτώχευση) Τέλος, όσον αφορά τις κρίσιµες µεταβλητές δεν µπορούµε να τις εντοπίσουµε αφού ο αλγόριθµος δεν παρέχει επαρκεί στοιχεία που να αφορούν τις µεταβλητές Ανάλυση του αλγορίθµου της Τοπικής Σταθµισµένης Εκµάθησης (LWL) Ο αλγόριθµος της Τοπικής Σταθµισµένης Εκµάθησης-LWL (locally weighted learning) (Atkeson et al., 1992) καθορίζει τα βάρη χρησιµοποιώντας µια µέθοδο βασισµένη στο παράδειγµα (instance-based) και δηµιουργεί ένα ταξινοµητή από τα βάρη των παραδειγµάτων. Ο ταξινοµητής µπορεί να επιλεχθεί από το παράθυρο παραµέτρων και µία καλή επιλογή είναι η µέθοδος του Naïve Bayes (Eibe et al,. 2003) για προβλήµατα ταξινόµησης και η µέθοδος γραµµικής παλινδρόµησης για προβλήµατα παλινδρόµησης. Στην παρακάτω εικόνα φαίνονται αναλυτικά όλοι οι παράµετροι του αλγορίθµου. Εικόνα 5.5.3: Παράµετροι του αλγορίθµου LWL Η παράµετρος KNN δείχνει πόσοι γείτονες χρησιµοποιούνται για να ορίσουν το εύρος της συνάρτησης βάρους. Εµείς έχουµε επιλέξει όλους τους γείτονες αφού η τιµή (-1) είναι αρνητική. (Όταν η τιµή είναι <=0 τότε σηµαίνει ότι χρησιµοποιούµε όλους τους γείτονες). Η παράµετρος ταξινοµητής (Classifier) αποτελεί τον βασικό ταξινοµητή που χρησιµοποιείται. Εµείς έχουµε επιλέξει αυθαίρετα τον ταξινοµητή Decision Stump. Με την παράµετρο αλγόριθµος αναζήτησης του πλησιέστερου γείτονα (Nearest Neighbour Search Algorithm) επιλέγουµε τον αλγόριθµο εύρεσης του πλησιέστερου γείτονα. Αυθαίρετα έχουµε επιλέξει τον LinearNN αλγόριθµο. Υπάρχει και ο KDTree αλγόριθµος προς επιλογή. Η παράµετρος σταθµισµένος πυρήνας (Weighting Kernel) προσδιορίζει το αντιστάθµισµα της συνάρτησης που χρησιµοποιείται και έχουµε έξη επιλογές: 0 = Linear (την οποία έχουµε επιλέξει) 1 = Epanechnikov 2 = Tricube 3 = Inverse 4 = Gaussian 5 = Constant Στη συνέχεια παρουσιάζουµε παρακάτω τον πίνακα όπου παίρνουµε πληροφορίες για την απόδοση και αξιοπιστία του εξεταζόµενου αλγορίθµου καθώς και την ακρίβεια της ταξινόµησης. 68

69 Πίνακας 5.5.7: Στατιστικά αποτελέσµατα για τον αλγόριθµο LWL Εκπαίδευση Μέθοδος αξιολόγησης µέσω επαναλαµβανόµενης δοκιµής Σωστή ταξινόµηση εγγραφών % % Εσφαλµένη ταξινόµηση εγγραφών % % K-στατιστικό µέγεθος Μέσο απόλυτο σφάλµα Μέσο τετραγωνικό σφάλµα Σχετικό απόλυτο σφάλµα % % Σχετικό τετραγωνικό σφάλµα % % Σύµφωνα µε τον παραπάνω πίνακα παρατηρούµε ότι η µέθοδος είναι αρκετά αποδοτική και κατά την εκπαίδευση και µετά την εφαρµογή της µεθόδου αξιολόγησης µέσω επαναλαµβανόµενων δοκιµών σε άγνωστα δεδοµένα (cross validation) αφού τα ποσοστά σφάλµατος είναι αρκετά µικρά. Συγκεκριµένα, στην εκπαίδευση του αλγορίθµου είχαµε 17 λάθη ταξινόµησης (11 για την κλάση 1 και 6 για την 2), ενώ, µε τη χρήση της αναφερόµενης µεθόδου τα σφάλµατα ταξινόµησης αυξήθηκαν κατά 2, ένα για κάθε κλάση. Εποµένως, η ταξινόµηση είναι σχετικά ακριβής κυρίως για τις πτωχευµένες επιχειρήσεις όπως φαίνεται και από τον παρακάτω πίνακα ακρίβειας. Πίνακας 5.5.8: Αποτελέσµατα ακρίβειας του αλγορίθµου LWL Ποσοστό TP Ποσοστό Περιοχή Ορθότητα Μέτρο-F -Ανάκληση FP ROC Κλάση Εκπαίδευση (µη πτώχευση) (πτώχευση) Μέθοδος (µη πτώχευση) αξιολόγησης (πτώχευση) Τέλος, και αυτός ο αλγόριθµος δεν µας δίνει στα αποτελέσµατα που εξάγει επιπλέον πληροφορίες ώστε να εντοπίσουµε την κρίσιµη µεταβλητή για την πρόβλεψη της πτώχευσης Σύγκριση αποτελεσµάτων των µεθόδων της κατηγορίας Lazy Ολοκληρώνοντας την ανάλυση των αλγορίθµων της κατηγορίας Lazy, στη συνέχεια συγκρίνουµε τις µεθόδους αυτής της κατηγορίας ώστε να διακρίνουµε την πιο κατάλληλη µέθοδο για το πρόβληµα της πτώχευσης. Έτσι, ο παρακάτω πίνακας χρησιµοποιεί τα µέτρα σφάλµατος για την σύγκριση των αλγορίθµων. Πίνακας 5.5.9: Μέτρα σφάλµατος για τα µοντέλα πρόβλεψης Lazy Εσφαλµένη Μέσο Μέσο ταξινόµηση απόλυτο τετραγωνικό εγγραφών σφάλµα σφάλµα Σχετικό απόλυτο σφάλµα Σχετικό τετραγωνικό σφάλµα IB % % % IBk % % % KStar % % % LWL % % % Εποµένως, σύµφωνα µε τον παραπάνω πίνακα διαπιστώνουµε ότι ο αλγόριθµος LWL είναι ο καλύτερος αφού όλα τα ποσοστά σφάλµατος είναι µικρότερα από τους υπόλοιπους αλγορίθµους. Παρατηρούµε ότι καµία µέθοδος της κατηγορίας αυτής δεν παρέχει επιπλέον πληροφορίες για τον εντοπισµό των κρίσιµων µεταβλητών της πρόβλεψης της πτώχευσης. Στη συνέχεια, θα αναλύσουµε 69

70 τον συγκεκριµένο αλγόριθµο µε την µέθοδο αξιολόγησης των νέων άγνωστων δεδοµένων (holdout). Έτσι, από τον παρακάτω πίνακας βλέπουµε την απόδοση και αξιοπιστία του αλγορίθµου. Πίνακας : Στατιστικά αποτελέσµατα για τον αλγόριθµο LWL Εκπαίδευση Μέθοδος αξιολόγησης νέων άγνωστων δοκιµής Σωστή ταξινόµηση εγγραφών 95 % % Εσφαλµένη ταξινόµηση εγγραφών 5 % % K-στατιστικό µέγεθος Μέσο απόλυτο σφάλµα Μέσο τετραγωνικό σφάλµα Σχετικό απόλυτο σφάλµα % % Σχετικό τετραγωνικό σφάλµα % % Από τον παραπάνω πίνακα παρατηρούµε ότι η εκπαίδευση του αλγορίθµου είναι αρκετά αποδοτική. Μετά την εφαρµογή της µεθόδου αξιολόγησης των νέων άγνωστων δεδοµένων (holdout) φαίνεται να µας δίνει λιγότερο ικανοποιητικά αποτελέσµατα από την προηγούµενη µέθοδο αξιολόγησης (cross validation) αφού τα ποσοστά σφάλµατος είναι αρκετά µεγάλα. Συγκεκριµένα έχουµε 14 λανθασµένες ταξινοµήσεις από τις 38 ταξινοµήσεις (10 για την κλάση 1 και 4 για την 2), άρα έχουµε πιο ακριβή ταξινόµηση για τις πτωχευµένες επιχειρήσεις σε αντίθεση µε τις µη πτωχευµένες, όπως φαίνεται και από τον παρακάτω πίνακα Πίνακας : Αποτελέσµατα ακρίβειας του αλγορίθµου LWL Ποσοστό TP Ποσοστό Περιοχή Ορθότητα Μέτρο-F -Ανάκληση FP ROC Κλάση Εκπαίδευση (µη πτώχευση) (πτώχευση) Μέθοδος (µη πτώχευση) αξιολόγησης (πτώχευση) 5.6 Κατηγορία αλγορίθµων µετα-µάθησης (Metalearning) Οι αλγόριθµοι της κατηγορίας µετα-µάθησης έχουν την ικανότητα να µετατρέπουν τους ταξινοµητές σε πιο δυναµικούς και ισχυρούς αλγορίθµους µάθησης. Αυτό επιτυγχάνεται µε τις παραµέτρους που περιέχουν οι αλγόριθµοι, όπου ο ένας προσδιορίζει τον βασικό ταξινοµητή και οι άλλοι καθορίζουν τον αριθµό των επαναλήψεων για τους αλγορίθµους όπως bagging (βλέπε παράρτηµα Β) και boosting (βλέπε παράρτηµα Β) ή ορίζουν έναν αρχικό σπόρο για την παραγωγή του τυχαίου αριθµού από την γεννήτρια Ανάλυση του αλγορίθµου Ada Boost M1 Η µέθοδος Ada Boost M1 (Freund & Schapire, 1996) εφαρµόζει τον boosting αλγόριθµο (βλέπε παράρτηµα B). Αυτή µπορεί να επιταχύνει την λειτουργία της µε τον προσδιορισµό ενός κατωφλίου για το τµηµατοποιηµένο βάρος, ενώ µερικές φορές συµβαίνει υπερπροσαρµογή. Επίσης, ο εξεταζόµενος αλγόριθµος µάθησης µπορεί να χειριστεί µόνο ονοµαστικής κλάσης προβλήµατα. Τέλος, χρησιµοποιεί επαναλαµβανόµενα δείγµατα σε περίπτωση που ο βασικός ταξινοµητής που έχουµε επιλέξει δεν µπορεί να χειριστεί παραδείγµατα που χρησιµοποιούν βάρη. Παρακάτω παρουσιάζουµε την εικόνα όπου δείχνει τις παραµέτρους που χρησιµοποιεί κατά την πειραµατική εφαρµογή ο εξεταζόµενος αλγόριθµος. 70

71 Εικόνα 5.6.1: Παράµετροι του αλγορίθµου Ada Boost M1 Με την παράµετρο ταξινοµητής (Classifier) επιλέγουµε τον βασικό ταξινοµητή που θέλουµε να χρησιµοποιήσουµε. Στην περίπτωσή µας έχουµε επιλέξει τον Decision Stump. Με την παράµετρο Num Iterations επιλέγουµε τον αριθµό των επαναλήψεων που θέλουµε να εκτελεστούν. Αυθαίρετα έχουµε χρησιµοποιήσει την τιµή 10. Στην παράµετρο σπόρος (Seed) επιλέγουµε έναν τυχαίο αριθµό ο οποίος χρησιµοποιείται ως σπόρος στην γεννήτρια αριθµών. Εδώ, έχουµε επιλέξει την τιµή 1. Η παράµετρος Use Resampling επιλέγεται όταν θέλουµε να χρησιµοποιήσουµε δειγµατοληψία σε αντίθεση µε τα βάρη. Εµείς δεν χρησιµοποιούµε αυτήν την παράµετρο. Για την τελευταία παράµετρος, Weight Threshold, επιλέγουµε το κατώφλι βάρους για το τµηµατοποιηµένο βάρος. Στην περίπτωσή µας έχουµε επιλέξει την τιµή 100. Στη συνέχεια, για την ερµηνεία της απόδοσης και αξιοπιστίας του αλγορίθµου παρουσιάζουµε τον παρακάτω πίνακα Πίνακας 5.6.1: Στατιστικά αποτελέσµατα για τον αλγόριθµο Ada Boost M1 Εκπαίδευση Μέθοδος αξιολόγησης µέσω επαναλαµβανόµενης δοκιµής Σωστή ταξινόµηση εγγραφών % % Εσφαλµένη ταξινόµηση εγγραφών % % K-στατιστικό µέγεθος Μέσο απόλυτο σφάλµα Μέσο τετραγωνικό σφάλµα Σχετικό απόλυτο σφάλµα % % Σχετικό τετραγωνικό σφάλµα % % Όπως παρατηρούµε από τον παραπάνω πίνακα, η συγκεκριµένη µέθοδος είναι αρκετά αποδοτική αφού τα ποσοστά σφάλµατος είναι πολύ µικρά. Συγκεκριµένα στην εκπαίδευση του αλγορίθµου είχαµε 13 λανθασµένες ταξινοµήσεις από τις 118 ταξινοµήσεις όπου οι 9 ανήκαν στις µη πτωχευµένες επιχειρήσεις και οι 4 στις πτωχευµένες, ενώ, µε την εφαρµογή της µεθόδου αξιολόγησης µέσω επαναλαµβανόµενων δοκιµών σε άγνωστα δεδοµένα (cross validation) οι λανθασµένες ταξινοµήσεις αυξήθηκαν κατά 5 (11 για την κλάση 1 και 7 για την 2). Εποµένως, διαπιστώνουµε ότι έχουµε πιο ακριβείς ταξινοµήσεις για τις πτωχευµένες επιχειρήσεις και αυτό φαίνεται από τον παρακάτω πίνακα

72 Πίνακας 5.6.2: Αποτελέσµατα ακρίβειας του αλγορίθµου Ada Boost M1 Ποσοστό TP Ποσοστό Περιοχή Ορθότητα Μέτρο-F -Ανάκληση FP ROC Κλάση Εκπαίδευση (µη πτώχευση) (πτώχευση) Μέθοδος (µη πτώχευση) αξιολόγησης (πτώχευση) Σε αυτή τη µέθοδο έχουµε κάποιες επιπλέον πληροφορίες που αφορούν τις µεταβλητές των δεδοµένων µας και έτσι µπορούµε να διακρίνουµε τις κρίσιµες µεταβλητές για την πρόβλεψη της πτώχευσης. Ο παρακάτω πίνακας µας δίνει αυτές τις πληροφορίες µε τη µορφή διαστηµάτων που ανήκει η κάθε µεταβλητή, την κατανοµή αυτών και το αντίστοιχο βάρος. Πίνακας 5.6.3: Βασικές µεταβλητές πρόβλεψης της µεθόδου Ada Boost M1 Μεταβλητή ιάστηµα Τάξη Κατανοµή Βάρος <= > Χ3 <= > <= > Χ16 <= > <= > Χ27 <= > <= > Χ11 <= > Χ10 <= > <= > Στον παραπάνω πίνακα βλέπουµε τις 10 επαναλήψεις που είχαµε επιλέξει στην επιλογή των παραµέτρων και πια κρίσιµη µεταβλητή αντιστοιχεί στην κάθε επανάληψη µε τα αντίστοιχα βάρη. Έτσι, έχουµε τις κρίσιµες µεταβλητές Χ3, και Χ27. Από αυτές επιλέγουµε την Χ3 ως την πιο βασική αφού έχει το µεγαλύτερο βάρος (1.78) και όταν αυτή είναι µικρότερη ή ίση µε τη τιµή τότε υπάρχει µεγάλη πιθανότητα η επιχείρηση να πτωχεύσει, ενώ, όταν είναι µεγαλύτερη από αυτή τη τιµή τότε µπορούµε να προβλέψουµε ότι δε θα πτωχεύσει. Η µεταβλητή Χ3 αποτελεί τον αριθµοδείκτη ταχύτητας κυκλοφορίας ενεργητικού και άρα τα περιουσιακά στοιχεία µε τις καθαρές πωλήσεις έχουν σηµαντικό ρόλο για την πρόβλεψη της πτώχευσης. Ενώ, η µεταβλητή Χ27 ορίζεται ως το κεφάλαιο κίνησης προς τα ίδια κεφάλαια. Έτσι, παρατηρούµε ότι τα ίδια κεφάλαια και το σύνολο ενεργητικού αποτελούν βασικά στοιχεία για το πρόβληµα της πτώχευσης Ανάλυση του ταξινοµητή επιλεγµένων χαρακτηριστικών (Attribute Selected Classifier) Ο ταξινοµητής επιλεγµένων χαρακτηριστικών της κατηγορίας αλγορίθµων µετα-µάθησης, έχει την ιδιότητα να επιλέγει χαρακτηριστικά ελαττώνοντας τις διαστάσεις των δεδοµένων πριν «τρέξουν» στον ταξινοµητή (σελ 290). Με αυτόν τον τρόπο βελτιώνεται η λειτουργία του βασικού ταξινοµητή. Οι παράµετροι που χρησιµοποιούνται στον εξεταζόµενο αλγόριθµο φαίνονται στην παρακάτω εικόνα

73 Εικόνα 5.6.2: Παράµετροι του ταξινοµητή επιλεγµένων χαρακτηριστικών Ως βασικό ταξινοµητή που θέλουµε να χρησιµοποιήσουµε επιλέγουµε τον J48. Ως µέθοδο αναζήτησης χρησιµοποιούµε τη µέθοδο πρώτο καλύτερο χαρακτηριστικό (Best First) πριν το ξεκίνηµα της ταξινόµησης. Ως εκτιµητή που θέλουµε να χρησιµοποιήσουµε επιλέγουµε τον CfsSubsetEval. Αυτός ο εκτιµητής χρησιµοποιείται κατά τη διάρκεια της επιλογής του χαρακτηριστικού πριν το ξεκίνηµα της ταξινόµησης. Παρακάτω ακολουθεί η ανάλυση της απόδοσης και αξιοπιστίας του αλγορίθµου καθώς και η ακρίβεια ταξινόµησης παρουσιάζοντας τον πίνακα Πίνακας 5.6.4: Στατιστικά αποτελέσµατα για τον ταξινοµητή επιλεγµένων χαρακτηριστικών Εκπαίδευση Μέθοδος αξιολόγησης µέσω επαναλαµβανόµενης δοκιµής Σωστή ταξινόµηση εγγραφών % % Εσφαλµένη ταξινόµηση εγγραφών % % K-στατιστικό µέγεθος Μέσο απόλυτο σφάλµα Μέσο τετραγωνικό σφάλµα Σχετικό απόλυτο σφάλµα % % Σχετικό τετραγωνικό σφάλµα % % Παρατηρώντας τον παραπάνω πίνακα συµπεραίνουµε ότι η συγκεκριµένη µέθοδος είναι αρκετά αποδοτική αφού τα ποσοστά σφάλµατος είναι αρκετά µικρά. Στην εκπαίδευση του αλγορίθµου είχαµε 15 λάθη ταξινόµησης από τις 118 περιπτώσεις όπου τα 12 ανήκαν στις µη πτωχευµένες επιχειρήσεις και τα 3 στις πτωχευµένες. Με τη χρήση της µεθόδου αξιολόγησης µέσω επαναλαµβανόµενων δοκιµών σε άγνωστα δεδοµένα (cross validation) τα λάθη ταξινόµησης αυξήθηκαν κατά 5 όπου και τα 5 ανήκαν στην κατηγορία των πτωχευµένων επιχειρήσεων. Εποµένως, συµπεραίνουµε ότι η µέθοδος είναι αρκετά αποδοτική και ακριβής στις ταξινοµήσεις της κυρίως για τις πτωχευµένες επιχειρήσεις όπως µπορούµε να παρατηρήσουµε από τον παρακάτω πίνακα

74 Πίνακας 5.6.5: Αποτελέσµατα ακρίβειας του ταξινοµητής επιλεγµένων χαρακτηριστικών Ποσοστό Ποσοστό Περιοχή TP - Ορθότητα Μέτρο-F FP ROC Ανάκληση Κλάση Εκπαίδευση (µη πτώχευση) (πτώχευση) Μέθοδος (µη πτώχευση) αξιολόγησης (πτώχευση) Για αυτή τη µέθοδο έχουµε κάποιες επιπλέον πληροφορίες για τις µεταβλητές των δεδοµένων µας ώστε να διακρίνουµε πια από αυτές είναι η πιο κρίσιµη. Εποµένως, ο ταξινοµητής επιλεγµένων χαρακτηριστικών επιλέγει τις Χ1, Χ2, Χ3, Χ4, Χ10, Χ16, Χ17 και Χ27 µεταβλητές ενώ το παρακάτω σχήµα µας δείχνει ένα «κλαδεµένο» δένδρο της µορφής J48. Παρατηρούµε ότι το δένδρο αυτό αποτελείται από τρία φύλλα και έχει µέγεθος πέντε. Επίσης, µας πληροφορεί ότι η µεταβλητή Χ3 είναι η πιο κρίσιµη για την πρόβλεψη της πτώχευσης γιατί βρίσκεται στη ρίζα του δένδρου και ακολουθεί η µεταβλητή Χ2. Όταν η Χ3 πάρει τιµή ίση ή µικρότερη από την τότε προβλέπεται ότι η επιχείρηση θα πτωχεύσει και ανάλογα έχουµε και για τα άλλα κλαδιά του δέντρου. Μέσα στις παρενθέσεις οι αριθµοί δείχνουν πόσα παραδείγµατα ταξινοµήθηκαν σε κάποια κατηγορία και από αυτά πόσα ταξινοµήθηκα λάθος, για παράδειγµα από τις 64 εγγραφές που ταξινοµήθηκαν ως πτωχευµένες (κλάση 2) οι 11 ταξινοµήθηκαν λάθος. Σχήµα 5.6.1: ένδρο τύπου J48 του ταξινοµητή επιλεγµένων χαρακτηριστικών Τέλος, όσον αφορά την χρηµατοοικονοµική ανάλυση των κρίσιµων µεταβλητών, η Χ3 αποτελεί τον αριθµοδείκτη ταχύτητας κυκλοφορίας ενεργητικού, ενώ, η Χ2 αποτελεί τον αριθµοδείκτη µεικτά κέρδη προς σύνολο ενεργητικού. Εποµένως, τα περιουσιακά στοιχεία µε τα κέρδη έχουν σηµαντικό ρόλο για την πρόβλεψη της πτώχευσης Ανάλυση του αλγορίθµου Bagging Ο αλγόριθµος Bagging (Breiman, 2001) εξασφαλίζει ένα ταξινοµητή για να µειώσει τη διασπορά (316). Αυτή η εφαρµογή λειτουργεί στην ταξινόµηση και παλινδρόµηση, και εξαρτάται από τον βασικό αλγόριθµο µάθησης. Στην περίπτωση της ταξινόµησης, οι προβλέψεις προκύπτουν από το µέσο όρο των πιθανοτήτων εκτίµησης και όχι µε την ψηφοφορία. Μια παράµετρος αυτού του αλγορίθµου είναι το µέγεθος των «σάκων» (bags) ως ποσοστό των δεδοµένων εκπαίδευσης. Μια άλλη παράµετρος είναι η επιλογή για το αν χρειάζεται να υπολογιστεί το out-of-bag σφάλµα, το οποίο δίνει το µέσο σφάλµα από το σύνολο των δεδοµένων. Στη συνέχεια παρουσιάζονται αναλυτικά οι παράµετροι του εξεταζόµενου αλγορίθµου όπως φαίνεται στην παρακάτω εικόνα

75 Εικόνα 5.6.3: Παράµετροι του αλγορίθµου Bagging Με την παράµετρο Βag Size Percent επιλέγουµε το µέγεθος του κάθε «σάκου» ως ποσοστό του µεγέθους των δεδοµένων εκπαίδευσης. Ως προεπιλογή έχουµε την τιµή 100. Η παράµετρος Calc Out Of Bag επιλέγεται εάν θέλουµε να υπολογίζεται το out-of-bag σφάλµα. Εµείς δεν χρησιµοποιούµε αυτήν την επιλογή. Ως ταξινοµητή έχουµε επιλέξει τον βασικό αλγόριθµο REPTree και έχουµε επιλέξει να εκτελεστούν 10 επαναλήψεις του αλγορίθµου. Τέλος, η τιµή του σπόρου γεννήτριας τυχαίου αριθµού είναι 1. Για την ανάλυση της απόδοσης και ακρίβειας ταξινόµησης του αλγορίθµου παρουσιάζουµε τον παρακάτω πίνακα Πίνακας 5.6.6: Στατιστικά αποτελέσµατα για τον αλγόριθµο Bagging Εκπαίδευση Μέθοδος αξιολόγησης µέσω επαναλαµβανόµενης δοκιµής Σωστή ταξινόµηση εγγραφών % % Εσφαλµένη ταξινόµηση εγγραφών % % K-στατιστικό µέγεθος Μέσο απόλυτο σφάλµα Μέσο τετραγωνικό σφάλµα Σχετικό απόλυτο σφάλµα % % Σχετικό τετραγωνικό σφάλµα % % Εποµένως, σύµφωνα µε τον παραπάνω πίνακα διαπιστώνουµε ότι ο αλγόριθµος έχει µεγάλη απόδοση λόγω των µικρών ποσοστών σφάλµατος. Στην εκπαίδευση του αλγορίθµου είχαµε 16 λάθη ταξινόµησης από τις 118 περιπτώσεις (12 για την κλάση 1 και 4 για την 2), µετά τη χρήση της µεθόδου αξιολόγησης µέσω επαναλαµβανόµενων δοκιµών σε άγνωστα δεδοµένα (cross validation) τα λάθη αυτά αυξήθηκαν κατά 2, δηλαδή έχουµε συνολικά 14 εσφαλµένες ταξινοµήσεις από τις οποίες οι 10 ανήκουν στις µη πτωχευµένες επιχειρήσεις (παρατηρούµε µείωση σε σχέση µε την εκπαίδευση) και οι 8 στις πτωχευµένες. Άρα, η ακρίβεια της ταξινόµησης είναι µεγαλύτερη για τις πτωχευµένες επιχειρήσεις και αυτό µπορούµε να το διαπιστώσουµε και από τον παρακάτω πίνακα

76 Πίνακας 5.6.7: Αποτελέσµατα ακρίβειας του αλγορίθµου Bagging Ποσοστό TP Ποσοστό Περιοχή Ορθότητα Μέτρο-F -Ανάκληση FP ROC Κλάση Εκπαίδευση (µη πτώχευση) (πτώχευση) Μέθοδος (µη πτώχευση) αξιολόγησης (πτώχευση) Τώρα, όσον αφορά τις κρίσιµες µεταβλητές, αυτές µπορούµε να τις εντοπίσουµε από τα επιπλέον αποτελέσµατα που εξάγει ο αλγόριθµος µε τη µορφή δένδρων του τύπου REP. Υπάρχουν 10 τέτοια δένδρα γιατί εµείς επιλέξαµε (µέσω παραµέτρων) να εκτελέσει ο αλγόριθµος δέκα επαναλήψεις και από αυτά θα διαλέξουµε το καλύτερο για το πρόβληµα της πτώχευσης. Εποµένως, παρακάτω παρουσιάζουµε τα 10 δένδρα τύπου REP. <0.02 Χ3 >=0.02 <0.78 Χ16 >=0.78 1(31/0) [16/1] <0.61 Χ27 >=0.61 2(29/0) [14/0] <-0.04 Χ1 >= (4/0) [0/0] <0.11 Χ2 >=0.11 1(6/0) [7/3] 1(3/0) [1/0] 2(5/0) [2/0] Σχήµα 5.6.2: Πρώτο δένδρο τύπου REP του αλγορίθµου Bagging Όπως βλέπουµε από το παραπάνω σχήµα το δένδρο έχει µέγεθος 11 και οι κρίσιµες µεταβλητές είναι οι Χ3, Χ16, Χ27, Χ1 και Χ2 κατά σειρά σηµαντικότητας. Στο φύλλο που καταλήγει κάθε κόµβος βλέπουµε την κλάση που ταξινοµείται όταν η µεταβλητή λάβει κάποια τιµή και επίσης, υπάρχουν αριθµοί µέσα σε παρενθέσεις και αγκύλες. Οι αριθµοί µέσα στις παρενθέσεις δείχνουν πόσες λανθασµένες ταξινοµήσεις έγιναν για την αναγραφόµενη κλάση, ενώ οι αριθµοί µέσα στις αγκύλες δείχνουν πόσα λάθη ταξινόµησης έγιναν για την αντίθετη κλάση. Εποµένως, συνολικά έγιναν 4 λανθασµένες ταξινοµήσεις στο σύνολο των προβλέψεων όπου και οι τέσσερις ανήκουν στις πτωχευµένες επιχειρήσεις. Όσον αφορά την πιο βασική µεταβλητή, αυτή είναι η Χ3 αφού βρίσκεται στη ρίζα του δέντρου και σε χρηµατοοικονοµική ανάλυση αυτή αποτελεί τον αριθµοδείκτη ταχύτητας κυκλοφορίας ενεργητικού. <0.17 Χ2 >=0.17 2(32/2) [19/4] <-0.04 Χ1 >= (7/1) [4/1] 1(39/4) [17/3] Σχήµα 5.6.3: εύτερο δένδρο τύπου REP του αλγορίθµου Bagging 76

77 Το παραπάνω δένδρο τύπου REP που φαίνεται στο σχήµα έχει µέγεθος 5 και αποτελείται από τις κρίσιµες µεταβλητές Χ2 και Χ1. Το ποσοστό εσφαλµένης ταξινόµησης είναι 15 από τις 118 περιπτώσεις όπου οι 9 ανήκουν στις µη πτωχευµένες επιχειρήσεις και οι 6 στις πτωχευµένες. Η µεταβλητή Χ2 που βρίσκεται στη ρίζα του δένδρου αποτελεί την πιο βασική µεταβλητή και ορίζεται χρηµατοοικονοµικά ως τα µεικτά κέρδη προς το σύνολο ενεργητικού. Χ3 <0.07 >=0.07 <0.64 Χ16 >=0.64 1(20/0) [10/0] 1(13/3) [6/1] <1.87 Χ16 >=1.87 <0.83 Χ16 >=0.83 1(2/0) [2/2] <0.11 Χ1 >=0.11 2(19/0) [11/1] 2(19/2) [8/1] 1(5/1) [3/0] Σχήµα 5.6.4: Τρίτο δένδρο τύπου REP του αλγορίθµου Bagging Στο παραπάνω σχήµα βλέπουµε το τρίτο δένδρο τύπου REP το οποίο έχει µέγεθος 11 και αποτελείται από τις κρίσιµες µεταβλητές Χ3, Χ16 και Χ1. Το συνολικό σφάλµα ταξινόµησης είναι 11 από τα 118 όπου οι 6 λανθασµένες ταξινοµήσεις ανήκουν στις µη πτωχευµένες επιχειρήσεις και οι 5 στις πτωχευµένες. Η πιο βασική µεταβλητή είναι η Χ3 αφού βρίσκεται στην ρίζα του δένδρου και αποτελεί τον αριθµοδείκτη ταχύτητας κυκλοφορίας ενεργητικού. Χ3 <0.01 >=0.01 2(46/8) [23/4] <0.15 Χ2 >=0.15 <0.18 Χ1 >=0.18 1(27/0) [16/1] 1(3/0) [0/0] 2(2/0) [1/0] Σχήµα 5.6.5: Τέταρτο δένδρο τύπου REP του αλγορίθµου Bagging Συνεχίζοντας µε το τέταρτο δένδρο τύπου REP του σχήµατος βλέπουµε ότι αυτό έχει µέγεθος 7 και οι κρίσιµες µεταβλητές του είναι οι Χ3, Χ2 και Χ1. Το συνολικό σφάλµα ταξινόµησης είναι 13 από τις 118 περιπτώσεις όπου οι 4 λανθασµένες ταξινοµήσεις ανήκουν στις µη πτωχευµένες επιχειρήσεις και οι 9 στις πτωχευµένες. Η πιο βασική µεταβλητή είναι πάλι η Χ3 η οποία αποτελεί τον αριθµοδείκτη ταχύτητας κυκλοφορίας ενεργητικού. 77

78 Χ3 <0.04 2(52/11) [31/9] >=0.04 1(26/1) [9/0] Σχήµα 5.6.6: Πέµπτο δένδρο τύπου REP του αλγορίθµου Bagging Για το δένδρο του σχήµατος µπορούµε να πούµε ότι έχει µέγεθος 3 και η µοναδική κρίσιµη µεταβλητή είναι για άλλη µια φορά η Χ3 η οποία αποτελεί τον αριθµοδείκτη ταχύτητας κυκλοφορίας ενεργητικού. Το συνολικό σφάλµα ταξινόµησης είναι 21 από τις 118 εγγραφές όπου οι 10 λανθασµένες ταξινοµήσεις ανήκουν στις µη πτωχευµένες επιχειρήσεις και οι 11 στις πτωχευµένες. Χ3 <0.04 >=0.04 <0.77 Χ16 >=0.77 1(28/0) [16/1] <0.17 Χ2 >=0.17 2(26/1) [13/1] 2(15/4) [6/1] 1(9/2) [5/1] Σχήµα 5.6.7: Έκτο δένδρο τύπου REP του αλγορίθµου Bagging Επίσης, για το έκτο δένδρο του σχήµατος βλέπουµε ότι αυτό έχει µέγεθος 7 και οι κρίσιµες µεταβλητές που το αποτελούν είναι οι Χ3, Χ16 και Χ2. Το συνολικό σφάλµα ταξινόµησης είναι 11 από τις 118 περιπτώσεις όπου οι 4 λανθασµένες ταξινοµήσεις ανήκουν στις µη πτωχευµένες επιχειρήσεις και οι 7 στις πτωχευµένες. Χ3 <0.01 2(37/3) [20/6] >=0.01 1(41/3) [20/5] Σχήµα 5.6.8: Έβδοµο δένδρο τύπου REP του αλγορίθµου Bagging Συνεχίζουµε για το έβδοµο δένδρο του σχήµατος το οποίο έχει µέγεθος 3 και αποτελείται από την µοναδική κρίσιµη µεταβλητή την Χ3. Όσο για το σύνολο εσφαλµένης ταξινόµησης, αυτό είναι 17 στις 118 περιπτώσεις όπου οι 8 λανθασµένες ταξινοµήσεις ανήκουν στις πτωχευµένες επιχειρήσεις και οι 9 στις µη πτωχευµένες. Το όγδοο δένδρο είναι ακριβώς ίδιο µε αυτό του σχήµατος αλλά διαφέρει στην ταξινόµηση. Εποµένως, το συνολικό σφάλµα ταξινόµησης είναι 18 στις 118 περιπτώσεις όπου οι 8 εσφαλµένες ταξινοµήσεις ανήκουν στις πτωχευµένες επιχειρήσεις και οι 10 στις µη πτωχευµένες. Επίσης, το ένατο δένδρο είναι ακριβώς το ίδιο µε αυτό του σχήµατος αλλά διαφέρει στην κατανοµή των λανθασµένων ταξινοµήσεων, έτσι έχουµε πάλι 21 λανθασµένες ταξινοµήσεις αλλά οι 7 ανήκουν στις µη πτωχευµένες επιχειρήσεις και οι 14 στις πτωχευµένες. 78

79 Χ4 < (33/5) [17/0] >= (45/10) [23/2] Σχήµα 5.6.9: έκατο δένδρο τύπου REP του αλγορίθµου Bagging Το τελευταίο δένδρο απεικονίζεται στο σχήµα το οποίο έχει και αυτό µέγεθος 3 αλλά η κρίσιµη µεταβλητή του είναι η Χ4 η οποία ορίζεται χρηµατοοικονοµικά ως τις καθαρές πωλήσεις προς τα ίδια κεφάλαια. Το συνολικό σφάλµα ταξινόµησης είναι 17 από τις 118 περιπτώσεις όπου οι 10 ανήκουν στις µη πτωχευµένες επιχειρήσεις και οι 7 στις πτωχευµένες. Εποµένως, συµπεραίνουµε ότι το πρώτο δένδρο του σχήµατος έχει τις λιγότερες εσφαλµένες ταξινοµήσεις, δηλαδή τέσσερις, και αποτελείται από τις κρίσιµες µεταβλητές Χ3, Χ16, Χ27, Χ1 και Χ2. Επίσης, παρατηρούµε ότι στη ρίζα των περισσότερων δένδρων (8 από τα 10) βρίσκεται η µεταβλητή Χ3. Άρα η πιο σηµαντική µεταβλητή είναι η Χ3 αφού βρίσκεται στη ρίζα του δένδρου και αποτελεί τον αριθµοδείκτη ταχύτητας κυκλοφορίας ενεργητικού και άρα τα περιουσιακά στοιχεία µε τις καθαρές πωλήσεις έχουν σηµαντικό ρόλο για την πρόβλεψη της πτώχευσης Ανάλυση του αλγορίθµου ταξινόµησης µέσω παλινδρόµησης (Classification Via Regression) Συνεχίζοντας για την κατηγορία µετα-µάθησης, ο αλγόριθµος ταξινόµησης µέσω παλινδρόµησης (Frank et al., 1998) εκτελεί την λειτουργία της ταξινόµησης χρησιµοποιώντας τη µέθοδο της παλινδρόµησης µετατρέποντας την κλάση σε δυαδική µορφή και δηµιουργώντας ένα παλινδροµικό µοντέλο για κάθε τιµή της κλάσης. Στην παρακάτω εικόνα φαίνονται οι παράµετροι του συγκεκριµένου αλγορίθµου όπου ως ταξινοµητή επιλέγουµε τον βασικό αλγόριθµο M5P. Εικόνα 5.6.4: Παράµετροι του αλγορίθµου ταξινόµησης µέσω παλινδρόµησης Η ανάλυση της αποδοτικότητας, αξιοπιστίας και ακρίβειας ταξινόµησης του εξεταζόµενου αλγορίθµου γίνεται παρακάτω µε τη βοήθεια του πίνακα

80 Πίνακας 5.6.8: Στατιστικά αποτελέσµατα για τον αλγόριθµο ταξινόµησης µέσω παλινδρόµησης Εκπαίδευση Μέθοδος αξιολόγησης µέσω επαναλαµβανόµενης δοκιµής Σωστή ταξινόµηση εγγραφών % % Εσφαλµένη ταξινόµηση εγγραφών % % K-στατιστικό µέγεθος Μέσο απόλυτο σφάλµα Μέσο τετραγωνικό σφάλµα Σχετικό απόλυτο σφάλµα % % Σχετικό τετραγωνικό σφάλµα % % Όπως παρατηρούµε από τον παραπάνω πίνακα διαπιστώνουµε ότι η απόδοση του αλγορίθµου κυµαίνεται σε µέτρια επίπεδα αφού τα ποσοστά σφάλµατος δεν είναι και τόσο σχετικά µικρά. Πιο συγκεκριµένα, στην εκπαίδευσή του είχαµε 18 σφάλµατα ταξινόµησης από τις 118 περιπτώσεις που τα 13 ανήκουν στις µη πτωχευµένες επιχειρήσεις και τα 5 στις πτωχευµένες. Με τη χρήση της µεθόδου αξιολόγησης µέσω επαναλαµβανόµενων δοκιµών σε άγνωστα δεδοµένα (cross validation) τα λάθη ταξινόµησης αυξήθηκαν κατά 6 (15 για την κλάση 1 και 9 για την 2). Εποµένως, συµπεραίνουµε ότι η ακρίβεια της ταξινόµησης είναι µεγαλύτερη στις πτωχευµένες επιχειρήσεις και αυτό φαίνεται από τον παρακάτω πίνακα Πίνακας 5.6.9: Αποτελέσµατα ακρίβειας του αλγορίθµου ταξινόµησης µέσω παλινδρόµησης Ποσοστό TP Ποσοστό Περιοχή Ορθότητα Μέτρο-F -Ανάκληση FP ROC Κλάση Εκπαίδευση (µη πτώχευση) (πτώχευση) Μέθοδος (µη πτώχευση) αξιολόγησης (πτώχευση) Συνεχίζοντας για τις κρίσιµες µεταβλητές, η µέθοδος µας παρέχει κάποιες επιπλέον πληροφορίες ώστε να µπορούµε να τις εντοπίσουµε. Οι πληροφορίες αυτές βρίσκονται στη µορφή δένδρων τύπου M5P και στη µορφή της γραµµικής µοντελοποίησης (LM). Έτσι παρακάτω παρουσιάζουµε το πρώτο δένδρο τύπου M5P µε τους LM κανόνες για τις µη πτωχευµένες επιχειρήσεις. Χ3 <= 0.07 Χ17 <= > > 0.07 LM3 31/0% LM1 30/35.901% LM2 57/87.608% Σχήµα : ένδρο τύπου M5P του αλγορίθµου ταξινόµησης µέσω παλινδρόµησης για τις µη πτωχευµένες επιχειρήσεις Εποµένως, όπως βλέπουµε στο σχήµα το δένδρο έχει µέγεθος 5 και οι κρίσιµες µεταβλητές του είναι οι Χ3 και Χ17 για τις µη πτωχευµένες επιχειρήσεις. Επίσης, αποτελείται από τρεις γραµµικούς κανόνες µοντελοποίησης τους οποίους αναλύουµε παρακάτω και τέλος, στα φύλλα του δένδρου αναγράφονται τα ποσοστά εσφαλµένης ταξινόµησης. Οι κανόνες γραµµικής παλινδρόµησης είναι οι εξής: 80

81 LM1: Status? = 0.072*X *X *X *X LM2: Status? = 0.072*X *X *X *X LM3: Status? = *X *X *X *X Όπως βλέπουµε από τους παραπάνω κανόνες, αυτοί περιέχουν τις κρίσιµες µεταβλητές Χ2, Χ3, Χ16 και Χ17. Όσον αφορά την πρόβλεψη των πτωχευµένων επιχειρήσεων έχουµε το ίδιο ακριβώς δένδρο µε αυτό του σχήµατος αλλά διαφέρουν οι κανόνες της γραµµική παλινδρόµησης ως προς τα πρόσηµα των συντελεστών (έχουµε εναλλαγή προσήµων). Άρα, από τις κρίσιµες µεταβλητές Χ2, Χ3, Χ16 και Χ17 η πιο βασική από αυτές είναι η Χ3 αφού βρίσκεται στη ρίζα του δέντρο και αποτελεί τον αριθµοδείκτη ταχύτητας κυκλοφορίας ενεργητικού. Παρατηρώντας όλες τις κρίσιµες µεταβλητές διαπιστώνουµε ότι βασικό ρόλο για την πρόβλεψη της πτώχευσης επιχειρήσεων αποτελούν τα περιουσιακά στοιχεία, τα κέρδη και οι υποχρεώσεις της συγκεκριµένης επιχείρησης Ανάλυση του αλγορίθµου επιλογής παραµέτρου CV (CVPS) Ο αλγόριθµος µάθησης CVPS (Kohavi, 1995) βελτιώνει την εκτέλεση της ταξινόµησης χρησιµοποιώντας τη µέθοδο αξιολόγησης µέσω επαναλαµβανόµενων δοκιµών σε άγνωστα δεδοµένα (cross-validation) για να επιλέξει τις παραµέτρους της κάθε ταξινόµησης. Για κάθε παράµετρο δίνουµε µια σειρά συµβόλων που περιλαµβάνουν τα κατώτερα και ανώτερα όριά της και τον επιθυµητό αριθµό αύξησης. Στην παρακάτω εικόνα παρουσιάζονται οι παράµετροι που χρησιµοποιούνται κατά την πειραµατική εφαρµογή του εξεταζόµενου αλγορίθµου. Εικόνα 5.6.5: Παράµετροι του αλγορίθµου CVPS Στην παράµετρο CVParameters θέτουµε τις παραµέτρους οι οποίες πρόκειται να χρησιµοποιηθούν στην µέθοδο αξιολόγησης µέσω επαναλαµβανόµενων δοκιµών σε άγνωστα δεδοµένα (cross validation). Η µορφή για κάθε εντολή πρέπει να είναι όπως το ακόλουθο παράδειγµα: για την παράµετρο Ρ από το 1 (µικρότερο όριο) έως το 10 (µεγαλύτερο όριο) µε αύξηση κατά 1 (αριθµός αύξησης) γράφεται ως: Ρ Τις υπόλοιπες παραµέτρους τις έχουµε ξανασυζητήσει πιο πάνω, έτσι, έχουµε επιλέξει τον βασικό αλγόριθµο ταξινόµησης να είναι ο ZeroR, επίσης, επιλέξαµε η µέθοδος αξιολόγησης µέσω επαναλαµβανόµενων δοκιµών σε άγνωστα δεδοµένα να εκτελεστεί 10 φορές και, τέλος, ο σπόρος της γεννήτριας τυχαίου αριθµού διαλέξαµε να έχει τιµή 1. Για άλλη µια φορά η ανάλυση της απόδοσης, της αξιοπιστίας και της ακρίβειας ταξινόµησης του συγκεκριµένου αλγορίθµου παρουσιάζεται στον παρακάτω πίνακα

82 Πίνακας : Στατιστικά αποτελέσµατα για τον αλγόριθµο CVPS Εκπαίδευση Μέθοδος αξιολόγησης µέσω επαναλαµβανόµενης δοκιµής Σωστή ταξινόµηση εγγραφών 50 % % Εσφαλµένη ταξινόµηση εγγραφών 50 % % K-στατιστικό µέγεθος Μέσο απόλυτο σφάλµα Μέσο τετραγωνικό σφάλµα Σχετικό απόλυτο σφάλµα 100 % 100 % Σχετικό τετραγωνικό σφάλµα 100 % 100 % Άρα, από τον παραπάνω πίνακα παρατηρούµε ότι η µέθοδος δεν είναι αποδοτική αφού τα ποσοστά σφάλµατος είναι αρκετά µεγάλα. Πιο συγκεκριµένα, στην εκπαίδευση του αλγορίθµου είχαµε 59 σφάλµατα ταξινόµησης από τις 118 περιπτώσεις και όλα ανήκουν στις πτωχευµένες επιχειρήσεις. Με τη χρήση της µεθόδου αξιολόγησης µέσω επαναλαµβανόµενων δοκιµών σε άγνωστα δεδοµένα (cross validation) τα λάθη ταξινόµησης αυξήθηκαν κατά 1 (6 για την κλάση 1 και 54 για την 2). Εποµένως, συµπεραίνουµε ότι η ακρίβεια ταξινόµησης για τις µη πτωχευµένες επιχειρήσεις είναι αρκετά καλή σε αντίθεση µε τις πτωχευµένες που είναι µηδαµινή. Αυτό το διαπιστώνουµε και από τον παρακάτω πίνακα Πίνακας : Αποτελέσµατα ακρίβειας του αλγορίθµου CVPS Ποσοστό TP Ποσοστό Περιοχή Ορθότητα Μέτρο-F -Ανάκληση FP ROC Κλάση Εκπαίδευση (µη πτώχευση) (πτώχευση) Μέθοδος (µη πτώχευση) αξιολόγησης (πτώχευση) Τέλος, η µέθοδος αυτή δεν παρέχει επιπλέον πληροφορίες που να αφορούν τις µεταβλητές και άρα δεν µπορούµε να διακρίνουµε τις κρίσιµες µεταβλητές για την πρόβλεψη της πτώχευσης Ανάλυση του αλγορίθµου Dagging Ο ταξινοµητής Dagging (Ting & Witten 1997) της µετα-µάθησης κατηγορίας αλγορίθµων δηµιουργεί έναν αριθµό τµηµατοποιηµένων δεδοµένων και τροφοδοτεί κάθε τµήµα από αυτά στον βασικό ταξινοµητή και οι προβλέψεις προκύπτουν µέσω της πλειονότητας των ψήφων. Αυτή η µέθοδος είναι χρήσιµη για τους βασικούς ταξινοµητές αλλά δεν πλεονεκτούν ως προς τον χρόνο εκτέλεσης κυρίως όταν υπάρχουν πολλά δεδοµένα. Η παρακάτω εικόνα δείχνει τις παραµέτρους που χρησιµοποιεί αυτός ο αλγόριθµος. 82

83 Εικόνα 5.6.6: Παράµετροι του αλγορίθµου Dagging Όπως βλέπουµε από την παραπάνω εικόνα έχουµε επιλέξει ως ταξινοµητή τον βασικό αλγόριθµο SMO, στη συνέχει επιλέγουµε να εκτελέσει η µέθοδος αξιολόγησης µέσω επαναλαµβανόµενων δοκιµών σε άγνωστα δεδοµένα δέκα επαναλήψεις και ο σπόρος για την γεννήτρια τυχαίου αριθµού διαλέγουµε να έχει την τιµή 1. Η τελευταία παράµετρος Verbose επιλέγεται όταν θέλουµε να εξάγει η µέθοδος κάποιες επιπλέον πληροφορίες κατά τη διάρκεια του τρεξίµατος. Εµείς δεν την επιλέγουµε αυτήν τη παράµετρο. Όπως συνήθως, παρακάτω παρουσιάζουµε την ανάλυση του αλγορίθµου ως προς την απόδοση, αξιοπιστία και ακρίβεια της ταξινόµησης. Πίνακας : Στατιστικά αποτελέσµατα για τον αλγόριθµο Dagging Εκπαίδευση Μέθοδος αξιολόγησης µέσω επαναλαµβανόµενης δοκιµής Σωστή ταξινόµηση εγγραφών % % Εσφαλµένη ταξινόµηση εγγραφών % % K-στατιστικό µέγεθος Μέσο απόλυτο σφάλµα Μέσο τετραγωνικό σφάλµα Σχετικό απόλυτο σφάλµα % % Σχετικό τετραγωνικό σφάλµα % % Όπως φαίνεται από τον παραπάνω πίνακα η απόδοση της µεθόδου δεν είναι και τόσο αποδοτική αφού τα ποσοστά σφάλµατος δεν είναι µικρά. Πιο συγκεκριµένα, στην εκπαίδευση του αλγορίθµου τα λάθη ταξινόµησης ήταν 41 από τις 118 περιπτώσεις όπου τα 3 ανήκουν στις µη πτωχευµένες επιχειρήσεις και τα 38 στις πτωχευµένες. Με τη χρήση της µεθόδου αξιολόγησης µέσω επαναλαµβανόµενων δοκιµών σε άγνωστα δεδοµένα (cross validation) τα λάθη ταξινόµησης µειώθηκαν κατά 1 (9 για την κλάση 1 και 31 για την 2) πράγµα µη αναµενόµενο. Εποµένως, συµπεραίνουµε ότι η ακρίβεια της ταξινόµησης είναι µεγαλύτερη για τις µη πτωχευµένες επιχειρήσεις ενώ, για τις πτωχευµένες η ακρίβεια αυτή είναι πολύ µικρή όπως µπορούµε να διαπιστώσουµε και από τον παρακάτω πίνακα

84 Πίνακας : Αποτελέσµατα ακρίβειας του αλγορίθµου Dagging Ποσοστό TP Ποσοστό Περιοχή Ορθότητα Μέτρο-F -Ανάκληση FP ROC Κλάση Εκπαίδευση (µη πτώχευση) (πτώχευση) Μέθοδος (µη πτώχευση) αξιολόγησης (πτώχευση) Τέλος, ούτε σε αυτήν τη µέθοδο µπορούµε να εντοπίσουµε τις κρίσιµες µεταβλητές για την πρόβλεψη της πτώχευσης. Αυτό συµβαίνει γιατί ο αλγόριθµος δεν εξάγει επιπλέον αποτελέσµατα που να αφορούν τις µεταβλητές Ανάλυση του αλγορίθµου Decorate Ο αλγόριθµος Decorate (Melvill & Mooney, 2004) δηµιουργεί διάφορους ταξινοµητές µε τη χρησιµοποίηση ειδικά κατασκευασµένων τεχνητών παραδειγµάτων εκπαίδευσης. Η χρησιµοποιούµενη τεχνική έχει αποδειχτεί ότι είναι πιο ακριβής από τον βασικό ταξινοµητή, τον αλγόριθµο bagging και τον αλγόριθµο Random Forest. Επίσης, λαµβάνει υψηλότερη ακρίβεια από την µέθοδο boosting σε µικρά σύνολα δεδοµένων εκπαίδευσης. Μία παράµετρος της µεθόδου είναι ο αριθµός των τεχνητών παραδειγµάτων ο οποίος χρησιµοποιείται ως ποσοστό των δεδοµένων εκπαίδευσης. Μία άλλη παράµετρος είναι ο επιθυµητός αριθµός των ταξινοµητών στο σύνολο, παρόλο που η εκτέλεση µπορεί να τερµατιστεί πρόωρα επειδή ο αριθµός επαναλήψεων µπορεί να σταµατήσει. Τα µεγαλύτερα σύνολα συνήθως παράγουν πιο ακριβή µοντέλα αλλά είναι πιο σύνθετα και έχουν µεγαλύτερη διάρκεια εκπαίδευσης. Πιο αναλυτικά, στην παρακάτω εικόνα φαίνονται οι παράµετροι που χρησιµοποιεί ο εξεταζόµενος αλγόριθµος. Εικόνα 5.6.7: Παράµετροι του αλγορίθµου Decorate Η παράµετρος Artificial Size προσδιορίζει τον αριθµό των τεχνητών παραδειγµάτων τα οποία χρησιµοποιούνται κατά τη διάρκεια της εκπαίδευσης. Οι υψηλές τιµές µπορούν να αυξήσουν το σύνολο της ποικιλοµορφίας. Η παράµετρος Desired Size δείχνει τον επιθυµητό αριθµό των ταξινοµητών στο δείγµα µας. Ο αλγόριθµος µπορεί να τερµατίσει την λειτουργία του πριν επιτευχθεί το µέγεθος που έχουµε επιλέξει (στην περίπτωσή µας είναι 10 το µέγεθος). Αυτό εξαρτάται από την τιµή που παίρνει η παράµετρος Num Iterations. Τα µεγάλα µεγέθη δείγµατος συνήθως οδηγούν σε ποιο ακριβή µοντέλα, αλλά αυξάνουν τον χρόνο εκπαίδευσης και την πολυπλοκότητα του µοντέλου. Στην παράµετρο Νum Iterations επιλέγουµε τον µέγιστο αριθµό επαναλήψεων που εκτελεί ο αλγόριθµος. Κάθε επανάληψη παράγει έναν ταξινοµητή, αλλά δεν είναι αναγκαίο να τον προσθέσει στο δείγµα. Η λειτουργία του αλγορίθµου σταµατάει όταν επιτευχθεί το επιθυµητό µέγεθος που έχουµε 84

85 επιλέξει να είναι 10. Αυτή η παράµετρος θα έπρεπε να έχει τιµή µεγαλύτερη αντί ίση µε την τιµή της παραµέτρου Desired Size (εµείς επιλέξαµε να είναι ίση, δηλαδή 10). Τέλος, έχουµε επιλέξει ως βασικό ταξινοµητή τον αλγόριθµο J48 ενώ ο σπόρος της γεννήτριας τυχαίου αριθµού έχει για άλλη µια φορά την τιµή 1. Συνεχίζοντας, παρακάτω αναλύουµε την απόδοση, την αξιοπιστία και ακρίβεια της ταξινόµησης του αλγορίθµου που εξετάζουµε. Πίνακας : Στατιστικά αποτελέσµατα για τον αλγόριθµο Decorate Εκπαίδευση Μέθοδος αξιολόγησης µέσω επαναλαµβανόµενης δοκιµής Σωστή ταξινόµηση εγγραφών % % Εσφαλµένη ταξινόµηση εγγραφών % % K-στατιστικό µέγεθος Μέσο απόλυτο σφάλµα Μέσο τετραγωνικό σφάλµα Σχετικό απόλυτο σφάλµα % % Σχετικό τετραγωνικό σφάλµα % % Όπως βλέπουµε από τον πίνακα η µέθοδος Decorate είναι αρκετά αποδοτική αφού τα ποσοστά σφάλµατος είναι σχετικά µικρά. Πιο συγκεκριµένα στην εκπαίδευση του αλγορίθµου είχαµε 6 εσφαλµένες ταξινοµήσεις από τις 118 περιπτώσεις όπου οι 4 ανήκουν στις µη πτωχευµένες επιχειρήσεις και οι 2 στις πτωχευµένες. Με τη χρήση της µεθόδου αξιολόγησης µέσω επαναλαµβανόµενων δοκιµών σε άγνωστα δεδοµένα (cross validation) οι εσφαλµένες ταξινοµήσεις αυξήθηκαν κατά 15 (11 για την κλάση 1 και 10 για την 2). Συνοψίζοντας, η ακρίβεια ταξινόµησης είναι αρκετά ακριβής και για τις δύο κλάσεις των επιχειρήσεων όπως µπορούµε να διαπιστώσουµε και από τον παρακάτω πίνακα Πίνακας : Αποτελέσµατα ακρίβειας του αλγορίθµου Decorate Ποσοστό TP Ποσοστό Περιοχή Ορθότητα Μέτρο-F -Ανάκληση FP ROC Κλάση Εκπαίδευση (µη πτώχευση) (πτώχευση) Μέθοδος (µη πτώχευση) αξιολόγησης (πτώχευση) Επιπλέον, ο αλγόριθµος αυτός προσφέρει κάποιες πληροφορίες που αφορούν τις µεταβλητές των δειγµάτων µας ώστε να µπορούµε να εντοπίσουµε τις κρίσιµες µεταβλητές για την πρόβλεψη της πτώχευσης. Αυτές οι πληροφορίες βρίσκονται στη µορφή «κλαδεµένου» δένδρου τύπου J48 και αποτελούν τέσσερις ταξινοµητές στο δείγµα µας, δηλαδή έχουµε τέσσερα τέτοια δένδρα τα οποία φαίνονται παρακάτω (κανονικά θα είχαµε δέκα τέτοια δέντρα αλλά προφανώς ο αλγόριθµος διέκοψε τις επαναλήψεις του πρόωρα). Το πρώτο δένδρο τύπου J48 έχει ακριβώς την ίδια µορφή του σχήµατος µε τους αντίστοιχους σχολιασµούς, δηλαδή έχουµε τις κρίσιµες µεταβλητές Χ3 και Χ2. Ενώ, το συνολικό σφάλµα ταξινόµησης είναι 15 (3 για την κλάση 1 και 12 για την 2), άρα το δένδρο αυτό αποτελεί ένα αρκετά ακριβή κριτήριο για την πρόβλεψη (κυρίως) της µη πτώχευσης. Το δεύτερο δένδρο τύπου J48 είναι το ακόλουθο: 85

86 Σχήµα : εύτερο δένδρο τύπου J48 του αλγορίθµου Decorate Όπως βλέπουµε, το παραπάνω δένδρο του σχήµατος έχει µέγεθος 41 και αποτελείται από 21 φύλλα. Σχεδόν όλες οι µεταβλητές περιέχονται σε αυτό το δένδρο αλλά η πιο κρίσιµη είναι η Χ4 γιατί βρίσκεται στη ρίζα του δένδρου και ορίζεται ως τις καθαρές πωλήσεις προς τα ίδια κεφάλαια και αµέσως µετά ακολουθεί η µεταβλητή Χ16 η οποία ορίζεται ως το σύνολο των υποχρεώσεων προς το σύνολο ενεργητικού. Επίσης, το σφάλµα ταξινόµησης σε αυτό το δένδρο είναι 28 περιπτώσεις από τις οποίες οι 27 ανήκουν στις µη πτωχευµένες επιχειρήσεις και η 1 στις πτωχευµένες. Άρα, αυτό το δένδρο αποτελεί καλό κριτήριο για την πρόβλεψη της πτώχευσης. Ένας σηµαντικός κανόνας που προκύπτει από το παραπάνω δένδρο είναι ότι εάν η µεταβλητή Χ4 πάρει τιµή µικρότερη ή ίση µε τότε η ταξινόµηση είναι πτώχευση και έχουµε 16 τέτοιες περιπτώσεις. Ενώ, ένας άλλος εξίσου σηµαντικός κανόνας µε 25 περιπτώσεις να ταξινοµούνται στην κλάση της µη πτώχευσης είναι ο εξής: Αν Χ4> και Χ16 <= και Χ25 <= τότε η ταξινόµηση είναι της κλάσης 1 (µη πτώχευση). Τέλος, ένας χρήσιµος κανόνας είναι και ο παρακάτω ο οποίος ταξινοµεί 26 περιπτώσεις από τις οποίες µόνο οι 2 είναι λανθασµένα ταξινοµηµένες. Αν Χ4> και Χ16 <= και Χ25 > και Χ16 > τότε η ταξινόµηση είναι της κλάσης 1 (µη πτώχευση). Στο παρακάτω σχήµα παρατηρούµε το τρίτο δένδρο τύπου J48: 86

87 Σχήµα : Τρίτο δένδρο τύπου J48 του αλγορίθµου Decorate Το παραπάνω δένδρο του σχήµατος έχει µέγεθος 51 και αποτελείται από 26 φύλλα. Οι περισσότερες µεταβλητές περιέχονται στο δένδρο αυτό αλλά η πιο κρίσιµη µεταβλητή είναι η Χ4 αφού βρίσκεται στην ρίζα του δένδρου και έχει οριστεί παραπάνω, αµέσως µετά ακολουθεί η µεταβλητή Χ22 η οποία ορίζεται ως τα αποθέµατα προς το κεφάλαιο κίνησης. Τα σφάλµατα ταξινόµησης είναι 13 (αρκετά µικρό ποσοστό) από τα οποία τα 2 ανήκουν στις µη πτωχευµένες επιχειρήσεις και τα 11 στις πτωχευµένες. Εποµένως, συµπεραίνουµε ότι αυτό το δένδρο αποτελεί ένα αρκετά αξιόπιστο κριτήριο πρόβλεψης κυρίως για την µη πτώχευση των επιχειρήσεων. Το τέταρτο και τελευταίο J48 δένδρο βρίσκεται στο παρακάτω σχήµα : Σχήµα : Τέταρτο δένδρο τύπου J48 του αλγορίθµου Decorate Για το τελευταίο δένδρο του σχήµατος µπορούµε να πούµε ότι έχει µέγεθος 27 και αποτελείται από 14 φύλλα. Η κρίσιµη µεταβλητή φαίνεται να είναι η Χ16 η οποία ορίζεται ως το 87

88 σύνολο των υποχρεώσεων προς το σύνολο ενεργητικού. Ενώ οι αµέσως επόµενες είναι οι η Χ10 η οποία ορίζεται ως το κυκλοφορούν ενεργητικό προς τις βραχυπρόθεσµες υποχρεώσεις και η Χ4 που ορίζεται ως τις καθαρές πωλήσεις προς τα ίδια κεφάλαια. Το συνολικό σφάλµα ταξινόµησης εδώ είναι 35 όπου οι 7 λανθασµένες ταξινοµήσεις ανήκουν στις µη πτωχευµένες επιχειρήσεις και οι 28 στις πτωχευµένες. Άρα, αυτό το δένδρο είναι σχετικά καλό κριτήριο πρόβλεψης κυρίως για τις µη πτωχευµένες επιχειρήσεις αλλά µπορούν να προκύψουν περίπλοκοι κανόνες για την ταξινόµηση των περιπτώσεων. Συνοψίζοντας, το τρίτο δένδρο της µορφής J48 είναι το πιο αξιόπιστο για το πρόβληµα της πτώχευσης αφού έχει τα λιγότερα λάθη ταξινόµησης (συγκεκριµένα 13). Ένα άλλο κριτήριο επιλογής του καλύτερου δένδρου είναι αυτό που παρέχει τους καλύτερους και πιο κατάλληλους κανόνες ταξινόµησης και το τρίτο δέντρο προσφέρει αρκετά καλούς κανόνες. Άρα η κρίσιµη µεταβλητή φαίνεται να είναι η Χ4 η οποία αποτελεί τον χρηµατοοικονοµικό δείκτη καθαρές πωλήσεις προς ίδια κεφάλαια. Εποµένως, τα κέρδη και τα περιουσιακά στοιχεία της επιχείρησης αποτελούν σηµαντικοί δείκτες για την πρόβλεψη της πτώχευσης Ανάλυση του αλγορίθµου END Ο αλγόριθµος END (Dong et al., 2005) είναι ένας ταξινοµητής µετα-µάθησης και χρησιµοποιείται για τον χειρισµό των δεδοµένων που αποτελούνται από πολλαπλές κλάσεις και µαζί µε ταξινοµητές δύο κλάσεων δηµιουργούν ένα σύνολο από φωλιασµένες διχοτοµήσεις. Όπως βλέπουµε από την παρακάτω εικόνα για τις παραµέτρους του συγκεκριµένου αλγορίθµου, ο βασικός ταξινοµητής που έχουµε επιλέξει είναι ο ND και έχουµε διαλέξει να εκτελέσει ο αλγόριθµος 10 επαναλήψεις. Τέλος, ο σπόρος της γεννήτριας τυχαίου αριθµού έχει τιµή 1. Εικόνα 5.6.8: Παράµετροι του αλγορίθµου END Παρακάτω έχουµε την ανάλυση της απόδοσης και αξιοπιστίας του αλγορίθµου καθώς και την ακρίβεια της ταξινόµησης. Πίνακας : Στατιστικά αποτελέσµατα για τον αλγόριθµο END Εκπαίδευση Μέθοδος αξιολόγησης µέσω επαναλαµβανόµενης δοκιµής Σωστή ταξινόµηση εγγραφών % % Εσφαλµένη ταξινόµηση εγγραφών % % K-στατιστικό µέγεθος Μέσο απόλυτο σφάλµα Μέσο τετραγωνικό σφάλµα Σχετικό απόλυτο σφάλµα % % Σχετικό τετραγωνικό σφάλµα % % 88

89 Από τον παραπάνω πίνακα παρατηρούµε ότι η µέθοδος αυτή είναι µέτριας απόδοσης αφού τα ποσοστά σφάλµατος δεν είναι ιδιαίτερα µεγάλα. Πιο συγκεκριµένα, στην εκπαίδευση του αλγορίθµου είχαµε 15 σφάλµατα ταξινόµησης από τις 118 περιπτώσεις όπου τα 12 ανήκουν στις µη πτωχευµένες επιχειρήσεις και τα 3 στις πτωχευµένες, ενώ, µετά την εφαρµογή της µεθόδου αξιολόγησης µέσω επαναλαµβανόµενων δοκιµών σε άγνωστα δεδοµένα (cross validation) τα λάθη ταξινόµησης αυξήθηκαν κατά 8 (16 για την κλάση 1 και 7 για την 2) Εποµένως, η ταξινόµηση είναι πιο ακριβής για τις πτωχευµένες επιχειρήσεις και αυτό φαίνεται από τον παρακάτω πίνακα Πίνακας : Αποτελέσµατα ακρίβειας του αλγορίθµου END Ποσοστό TP Ποσοστό Περιοχή Ορθότητα Μέτρο-F -Ανάκληση FP ROC Κλάση Εκπαίδευση (µη πτώχευση) (πτώχευση) Μέθοδος (µη πτώχευση) αξιολόγησης (πτώχευση) Τέλος, όσον αφορά τον εντοπισµό των κρίσιµων µεταβλητών για την πρόβλεψη της πτώχευσης, αυτός ο αλγόριθµος δεν παρέχει κάποιες πληροφορίες που να αφορούν τις µεταβλητές και άρα δεν µπορούµε να πούµε τίποτα για αυτές Ανάλυση του αλγορίθµου Ensemble Selection Στη συνέχεια, η µέθοδος Ensemble Selection (Caruana et al., 2004) συνδυάζει διάφορους ταξινοµητές χρησιµοποιώντας τη µέθοδο επιλογής συνόλου (Ensemble Selection method). Συγκεκριµένα, οι παράµετροι που χρησιµοποιούνται στον εξεταζόµενο αλγόριθµο φαίνονται στην παρακάτω εικόνα Εικόνα 5.6.9: Παράµετροι του αλγορίθµου Ensemble Selection 89

90 Με την παράµετρο Algorithm επιλέγουµε τον αλγόριθµο που θέλουµε να χρησιµοποιήσουµε για την βελτίωση του δείγµατος. Εµείς έχουµε χρησιµοποιήσει την προς τα µπρος επιλογή (Forward Selection) και υπάρχουν επιπλέον οι επιλογές προς τα πίσω επιλογή (Backward Selection), η αµφίδροµη επιλογή (Forward and Backward Selection), η επιλογή του καλύτερου µοντέλου (Best model) και η επιλογή από την βιβλιοθήκη (Build Library Only). Χρησιµοποιούµε την παράµετρο Greedy Sort Initialization εάν θέλουµε να σταµατήσει η αρχικοποίηση. Η παράµετρος Hillclimb Iterations δείχνει τον αριθµό των hillclimb επαναλήψεων για τον συγκεκριµένο αλγόριθµο. Αυθαίρετα έχουµε επιλέξει την τιµή των 100 επαναλήψεων. Στην παράµετρο Hillclimb Metric επιλέγουµε το µέτρο που χρησιµοποιείται για την βελτίωση του επιλεγµένου δείγµατος. Έχουµε επιλέξει το µέτρο RMSE επίσης υπάρχουν και τα µέτρα ακρίβειας (Accuracy), µέτρο ROC, ορθότητας (precision), ανάκλησης (recall), µέτρο-f (fscore) και όλα τα µέτρα (all metrics). Στην παράµετρο Library επιλέγουµε το µοντέλο που θέλουµε να χρησιµοποιήσουµε από µια λίστα που περιέχει όλα τα µοντέλα. Εµείς δεν έχουµε επιλέξει κανένα µοντέλο. Στην παράµετρο Model Ratio επιλέγουµε το ποσοστό των µοντέλων όπου τυχαία επιλέγονται να χρησιµοποιηθούν σε κάθε επανάληψη. Αυθαίρετα έχουµε επιλέξει την τιµή 0.5. Η παράµετρος Num Folds δείχνει τον αριθµό των επαναλήψεων της µεθόδου αξιολόγησης µέσω επαναλαµβανόµενων δοκιµών σε άγνωστα δεδοµένα. Αυθαίρετα έχουµε επιλέξει την τιµή 1. Η παράµετρος Num Model Bags δείχνει τον αριθµό των model bags που χρησιµοποιούνται στον αλγόριθµο αυτό. Εµείς έχουµε επιλέξει την τιµή 10. Η παράµετρος αντικατάσταση (Replacement) χρησιµοποιείται εάν θέλουµε να συµπεριληφθούν στα µοντέλα της βιβλιοθήκης περισσότερα του ενός µοντέλου σε ένα σύνολο. Στην παράµετρο Sort Initialization Rate επιλέγουµε το ποσοστό των µοντέλων που χρησιµοποιούνται για την αρχικοποίηση. Αυθαίρετα έχουµε επιλέξει την τιµή 1. Στην παράµετρο Validation Ratio επιλέγουµε το ποσοστό των δεδοµένων εκπαίδευσης που παρακρατείται για την αξιολόγηση. Έχουµε επιλέξει το ποσοστό Η παράµετρος Verbose Output χρησιµοποιείται εάν θέλουµε τα µέτρα να τυπώνονται για κάθε µοντέλο. Εµείς δεν χρησιµοποιούµε αυτήν την παράµετρο. Η τελευταία παράµετρος Working Directory δείχνει τον κατάλογο εργασίας για το δείγµα όπου τα µοντέλα εκπαίδευσης αποθηκεύονται. Ο κατάλογος του παραδείγµατός µας είναι ο Ensemble-1. Παρακάτω για άλλη µια φορά αναλύουµε την απόδοση και ακρίβεια ταξινόµησης του συγκεκριµένου αλγορίθµου. Πίνακας : Στατιστικά αποτελέσµατα για τον αλγόριθµο Ensemble Selection Εκπαίδευση Μέθοδος αξιολόγησης µέσω επαναλαµβανόµενης δοκιµής Σωστή ταξινόµηση εγγραφών % % Εσφαλµένη ταξινόµηση εγγραφών % % K-στατιστικό µέγεθος Μέσο απόλυτο σφάλµα Μέσο τετραγωνικό σφάλµα Σχετικό απόλυτο σφάλµα % % Σχετικό τετραγωνικό σφάλµα % % Στον παραπάνω πίνακα παρατηρούµε ότι η µέθοδος είναι σχετικά αποδοτική αφού τα ποσοστά σφάλµατος κυµαίνονται σε µέτρια επίπεδα. Συγκεκριµένα, στην εκπαίδευση του αλγορίθµου τα λάθη ταξινόµησης είναι 18 από τα οποία τα 12 ανήκουν στις µη πτωχευµένες επιχειρήσεις και τα 6 στις πτωχευµένες. Με την εφαρµογή της µεθόδου αξιολόγησης µέσω επαναλαµβανόµενων δοκιµών σε άγνωστα δεδοµένα (cross validation) τα λάθη ταξινόµησης αυξήθηκαν κατά 5 (13 για την κλάση 1 και 10 για την 2). 90

91 Εποµένως, συµπεραίνουµε ότι η µέθοδος είναι αρκετά αξιόπιστή κυρίως για τις πτωχευµένες επιχειρήσεις και αυτό φαίνεται από τον παρακάτω πίνακα Πίνακας : Αποτελέσµατα ακρίβειας του αλγορίθµου Ensemble Selection Ποσοστό TP Ποσοστό Περιοχή Ορθότητα Μέτρο-F -Ανάκληση FP ROC Κλάση Εκπαίδευση (µη πτώχευση) (πτώχευση) Μέθοδος (µη πτώχευση) αξιολόγησης (πτώχευση) Τέλος, ούτε σε αυτή τη µέθοδο µπορούµε να διακρίνουµε τις κρίσιµες µεταβλητές για την πρόβλεψη της πτώχευσης γιατί ο αλγόριθµος δεν παρέχει επιπλέον πληροφορίες που να αφορούν τις µεταβλητές Ανάλυση του αλγορίθµου Filtered Classifier Ο αλγόριθµος Filtered Classifier έχει την ιδιότητα να εκτελεί έναν αυθαίρετο ταξινοµητή σε φιλτραρισµένα αυθαίρετα δεδοµένα. Η δοµή του φίλτρου βασίζεται αποκλειστικά στα δεδοµένα εκπαίδευσης και στα παραδείγµατα δοκιµής. Όπως βλέπουµε από την παρακάτω εικόνα έχουµε διαλέξει τον ταξινοµητή J48 και το φίλτρο διακριτοποίησης των δεδοµένων (Discretize). Εικόνα : Παράµετροι του αλγορίθµου Filtered Classifier Στον παρακάτω πίνακα φαίνονται τα αποτελέσµατα του αλγορίθµου από τα οποία βγάζουµε το συµπέρασµα για την απόδοση και αξιοπιστία της µεθόδου. Πίνακας : Στατιστικά αποτελέσµατα για του αλγορίθµου Filtered Classifier Εκπαίδευση Μέθοδος αξιολόγησης µέσω επαναλαµβανόµενης δοκιµής Σωστή ταξινόµηση εγγραφών % % Εσφαλµένη ταξινόµηση εγγραφών % % K-στατιστικό µέγεθος Μέσο απόλυτο σφάλµα Μέσο τετραγωνικό σφάλµα Σχετικό απόλυτο σφάλµα % % Σχετικό τετραγωνικό σφάλµα % % 91

92 Εποµένως, βλέπουµε ότι η µέθοδος είναι σχετικά αποδοτική αφού τα ποσοστά σφάλµατος κυµαίνονται σε µέτρια επίπεδα. Πιο συγκεκριµένα, στην εκπαίδευση του αλγορίθµου είχαµε 11 λανθασµένες ταξινοµήσεις από τις 118 περιπτώσεις όπου οι 7 ανήκουν στις µη πτωχευµένες επιχειρήσεις και οι 4 στις πτωχευµένες. Μετά την εφαρµογή της µεθόδου αξιολόγησης µέσω επαναλαµβανόµενης δοκιµής σε άγνωστα δεδοµένων (cross validation) τα σφάλµατα ταξινόµησης είναι 22 (12 για την κλάση 1 και 10 για την 2). Άρα, διαπιστώνουµε ότι η µέθοδος είναι αρκετά αξιόπιστη κυρίως για τις πτωχευµένες επιχειρήσεις και αυτό φαίνεται από τον παρακάτω πίνακα Πίνακας : Αποτελέσµατα ακρίβειας του αλγορίθµου Filtered Classifier Ποσοστό TP Ποσοστό Περιοχή Ορθότητα Μέτρο-F -Ανάκληση FP ROC Κλάση Εκπαίδευση (µη πτώχευση) (πτώχευση) Μέθοδος (µη πτώχευση) αξιολόγησης (πτώχευση) Επίσης, για τα δεδοµένα µας ο συγκεκριµένος αλγόριθµος µας παρέχει επιπλέον πληροφορίες που αφορούν τις κρίσιµες µεταβλητές. Αυτές οι πληροφορίες βρίσκονται στη µορφή δένδρου τύπου J48 το οποίο απεικονίζεται στο σχήµα Το δένδρο αυτό µας πληροφορεί ότι η µεταβλητή Χ3 είναι η πιο βασική µεταβλητή γιατί βρίσκεται στη ρίζα του δένδρου και αµέσως µετά ακολουθούν η µεταβλητή Χ16 που ορίζεται ως το σύνολο των υποχρεώσεων προς το σύνολο ενεργητικού και η µεταβλητή Χ2 η οποία ορίζεται ως τα µεικτά κέρδη προς το σύνολο ενεργητικού. Το σύνολο των εσφαλµένων ταξινοµήσεων είναι 11 από τις οποίες οι 4 ανήκουν στις µη πτωχευµένες επιχειρήσεις και οι 7 στις πτωχευµένες. Εποµένως, το δέντρο αυτό αποτελεί ένα πολύ καλό και αξιόπιστο κριτήριο για την πρόβλεψη της µη πτώχευσης. ύο σηµαντικοί κανόνες που προκύπτουν από το παρακάτω δέντρο για την ταξινόµηση των περιπτώσεων είναι οι εξής: Αν Χ3<= και Χ16> τότε η ταξινόµηση είναι της κλάσης 2 (πτώχευση) Αν Χ3> και Χ2> τότε η ταξινόµηση είναι της κλάσης 1 (µη πτώχευση) Σχήµα : ένδρο τύπου J48 του αλγορίθµου Filtered Classifier Για την κρίσιµη µεταβλητή Χ3 µπορούµε να πούµε ότι αποτελεί τον αριθµοδείκτη ταχύτητας κυκλοφορίας ενεργητικού και άρα τα περιουσιακά στοιχεία µε τις καθαρές πωλήσεις καθώς και οι υποχρεώσεις της επιχείρησης έχουν σηµαντικό ρόλο για την πρόβλεψη της πτώχευσης Ανάλυση του αλγορίθµου ιεράρχησης (Grading) Στον αλγόριθµο ιεράρχησης (Seewald & Fuemkranz, 2001), οι είσοδοι στον µετ-µάθησης ταξινοµητή αποτελούν θεµελιώδεις προβλέψεις που έχουν σηµειωθεί ως σωστές ή λανθασµένες. Για κάθε θεµελιώδη ταξινοµητή, ένας µετα-µάθησης αλγόριθµος µαθαίνει αυτές τις προβλέψεις. Οι παράµετροι που χρησιµοποιούνται στον εξεταζόµενο αλγόριθµο φαίνονται στην παρακάτω εικόνα

93 Εικόνα : Παράµετροι του αλγορίθµου ιεράρχησης Όπως βλέπουµε από την παραπάνω εικόνα η παράµετρος Meta Classifier χρησιµοποιεί τον αλγόριθµο ZeroR. Επίσης, έχουµε επιλέξει η µέθοδος αξιολόγησης µέσω επαναλαµβανόµενων δοκιµών σε άγνωστα δεδοµένα (cross validation) να κάνει 10 επαναλήψεις και τέλος, η τιµή του σπόρου της γεννήτριας τυχαίου αριθµού είναι 1. Παρακάτω αναλύουµε την απόδοση, αξιοπιστία και ακρίβεια ταξινόµησης του συγκεκριµένου αλγορίθµου. Πίνακας : Στατιστικά αποτελέσµατα για τον αλγόριθµο ιεράρχησης Εκπαίδευση Μέθοδος αξιολόγησης µέσω επαναλαµβανόµενης δοκιµής Σωστή ταξινόµηση εγγραφών 50 % % Εσφαλµένη ταξινόµηση εγγραφών 50 % % K-στατιστικό µέγεθος Μέσο απόλυτο σφάλµα Μέσο τετραγωνικό σφάλµα Σχετικό απόλυτο σφάλµα 100 % % Σχετικό τετραγωνικό σφάλµα % % Από τον πίνακα παρατηρούµε ότι η µέθοδος δεν είναι αποδοτική γιατί τα ποσοστά σφάλµατος είναι αρκετά µεγάλα. Πιο συγκεκριµένα, στην εκπαίδευση του αλγορίθµου τα λάθη ταξινόµησης ήταν 59 από τις 118 περιπτώσεις όπου όλα τα λάθη ανήκουν στις πτωχευµένες επιχειρήσεις. Μετά την εφαρµογή της µεθόδου αξιολόγησης επαναλαµβανόµενων δοκιµών σε άγνωστα δεδοµένα (cross validation) τα λάθη ταξινόµησης αυξήθηκαν κατά ένα (6 για την κλάση 1 και 54 για την 2). Εποµένως, συµπεραίνουµε ότι η ακρίβεια ταξινόµησης είναι πολύ µεγάλη στις µη πτωχευµένες επιχειρήσεις αλλά στις πτωχευµένες η ακρίβεια είναι µηδαµινή. Αυτά µπορούµε να τα διαπιστώσουµε και από τον παρακάτω πίνακα Πίνακας : Αποτελέσµατα ακρίβειας του αλγορίθµου ιεράρχησης Ποσοστό TP Ποσοστό Περιοχή Ορθότητα Μέτρο-F -Ανάκληση FP ROC Κλάση Εκπαίδευση (µη πτώχευση) (πτώχευση) Μέθοδος (µη πτώχευση) αξιολόγησης (πτώχευση) 93

94 Όσον αφορά τις κρίσιµες µεταβλητές για την πρόβλεψη της πτώχευσης δεν µπορούµε να τις εντοπίσουµε γιατί ο αλγόριθµος δεν παρέχει πληροφορίες που να αφορούν τις µεταβλητές Ανάλυση του αλγορίθµου Logistic Boost Για τον αλγόριθµο Logistic Boost (Friedman et al., 1998) έχουµε να πούµε ότι εκτελεί επιπρόσθετη λογιστική παλινδρόµηση (βλέπε παράρτηµα Β). Όπως συµβαίνει µε τον ταξινοµητή Ada Boost M1, και εδώ η µέθοδος µπορεί να επιταχύνει την εκτέλεση της ταξινόµησης µε τον προσδιορισµό ενός κατωφλίου για το τµηµατοποιηµένο βάρος. Υπάρχει µια παράµετρος συρρίκνωσης η οποία επιλέγεται για την αποφυγή της υπερπροσαρµογής. Τέλος, αυτή η µέθοδος µπορεί να χειριστεί πολλαπλής κλάσης προβλήµατα. Στην παρακάτω εικόνα παρουσιάζουµε τις παραµέτρους που χρησιµοποιούνται κατά την πειραµατική εφαρµογή από τον εξεταζόµενο αλγόριθµο. Εικόνα : Παράµετροι του αλγορίθµου Logistic Boost Η παράµετρος Likelihood Threshold δείχνει το κατώφλι που χρησιµοποιούµε για την βελτίωση της πιθανότητας. Εµείς έχουµε επιλέξει την τιµή Η παράµετρος Num Runs δείχνει πόσες φορές τρέχει εσωτερικά η µέθοδος αξιολόγησης µέσω επαναλαµβανόµενων δοκιµών σε άγνωστα δεδοµένα. Έχουµε επιλέξει αυθαίρετα την τιµή 1. Στην παράµετρο Shrinkage επιλέγουµε τη τιµή συρρίκνωσης της παραµέτρου (χρησιµοποιούµε µικρή τιµή όπως 0.1 για να ελαττωθεί η υπερπροσαρµογή). Εµείς έχουµε επιλέξει την τιµή 1. Στη συνέχεια, η παράµετρος Use Resampling χρησιµοποιείται όταν θέλουµε να χρησιµοποιηθεί τη δειγµατοληψία αντί το βάρος. Εδώ δεν χρησιµοποιούµε αυτή την παράµετρο. Η παράµετρος Weight Threshold δείχνει το κατώφλι βάρους για το τµηµατοποιηµένο βάρος. Εµείς έχουµε επιλέξει την τιµή 100. Επίσης, ως βασικό ταξινοµητή έχουµε επιλέξει τον αλγόριθµο Decision Stump και την τιµή 10 που δηλώνει ότι ο αλγόριθµος θα κάνει 10 επαναλήψεις. Στην περίπτωση της µεθόδου αξιολόγησης µέσω επαναλαµβανόµενων δοκιµών σε άγνωστα δεδοµένα έχουµε επιλέξει να µην κάνει καµία επανάληψη, δηλαδή δεν χρησιµοποιούµε την µέθοδο αυτή και τέλος, ο σπόρος για την γεννήτρια τυχαίου αριθµού έχει τιµή 1. Στη συνέχεια αναλύουµε την απόδοση, την αξιοπιστία και την ακρίβεια ταξινόµησης του συγκεκριµένου αλγορίθµου. 94

95 Πίνακας : Στατιστικά αποτελέσµατα για τον αλγόριθµο Logistic Boost Εκπαίδευση Μέθοδος αξιολόγησης µέσω επαναλαµβανόµενης δοκιµής Σωστή ταξινόµηση εγγραφών % % Εσφαλµένη ταξινόµηση εγγραφών % % K-στατιστικό µέγεθος Μέσο απόλυτο σφάλµα Μέσο τετραγωνικό σφάλµα Σχετικό απόλυτο σφάλµα % % Σχετικό τετραγωνικό σφάλµα % % Από τον παραπάνω πίνακα παρατηρούµε ότι η µέθοδος είναι αποδοτική αφού τα ποσοστά σφάλµατος είναι σχετικά µικρά. Πιο συγκεκριµένα, στην εκπαίδευση του αλγορίθµου είχαµε 8 λάθη ταξινόµησης από τις 118 περιπτώσεις όπου τα 5 ανήκουν στις µη πτωχευµένες επιχειρήσεις και τα 3 στις πτωχευµένες. Μετά την εφαρµογή της µεθόδου αξιολόγησης µέσω επαναλαµβανόµενων δοκιµών σε άγνωστα δεδοµένα.(cross validation) τα λάθη ταξινόµησης αυξήθηκαν κατά 13 (13 για την κλάση 1 και 8 για την 2). Εποµένως, διαπιστώνουµε ότι η µέθοδος είναι αρκετά αξιόπιστη και ακριβής κυρίως για τις πτωχευµένες επιχειρήσεις και αυτό το βλέπουµε και από τον παρακάτω πίνακα Πίνακας : Αποτελέσµατα ακρίβειας του αλγορίθµου Logistic Boost Ποσοστό TP Ποσοστό Περιοχή Ορθότητα Μέτρο-F -Ανάκληση FP ROC Κλάση Εκπαίδευση (µη πτώχευση) (πτώχευση) Μέθοδος (µη πτώχευση) αξιολόγησης (πτώχευση) Για αυτή τη µεθοδολογία παρέχονται κάποιες επιπλέον πληροφορίες που αφορούν τις κρίσιµες µεταβλητές για την πρόβλεψη της πτώχευσης. Οι πληροφορίες αυτές βρίσκονται στη µορφή Decision Stump και έχουν γίνει δέκα επαναλήψεις όπως επιλέξαµε εµείς και συνοψίζονται στον παρακάτω πίνακα Πίνακας : Βασικές µεταβλητές πρόβλεψης της µεθόδου Logistic Boost Μεταβλητή ιάστηµα Κλάση Βάρος <= Χ3 > <= > Χ16 <= > Χ27 <= > <= Χ10 > <= > Χ11 <= > Χ17 <= >

96 Πίνακας : Βασικές µεταβλητές πρόβλεψης της µεθόδου Logistic Boost Χ17 <= > <= > Σύµφωνα µε τον παραπάνω πίνακα οι κρίσιµες µεταβλητές είναι οι Χ3, Χ16, Χ27, Χ10, Χ11 και Χ17 αλλά η πιο βασική από αυτές είναι η Χ10 γιατί έχει το µεγαλύτερο βάρος και αντιστοιχεί στην κλάση των µη πτωχευµένων επιχειρήσεων. Για την κλάση των πτωχευµένων επιχειρήσεων η πιο κρίσιµη µεταβλητή είναι η Χ11 λόγω βάρους και ορίζεται ως το κυκλοφορούν ενεργητικό µείον τα αποθέµατα προς τις βραχυπρόθεσµες υποχρεώσεις. Εποµένως, η πιο βασική µεταβλητή Χ10 αποτελεί τον χρηµατοοικονοµικό δείκτη κυκλοφορούν ενεργητικό προς βραχυπρόθεσµες υποχρεώσεις, άρα αυτά τα χρηµατοοικονοµικά στοιχεία έχουν σηµαντικό ρόλο για την πρόβλεψη της πτώχευσης Ανάλυση του αλγορίθµου Multi Boost AB Ο αλγόριθµος ταξινόµησης Multi Boost AB (Geoffrey & Webb, 2000) συνδυάζει τη µέθοδο boosting µε την εναλλακτική bagging µέθοδο για να αποφευχθεί η υπερπροσαρµογή. Ο αλγόριθµος αυτός είναι µια επέκταση της ιδιαίτερα επιτυχής τεχνικής Ada Boost για την διαδικασία της λήψης απόφασης. Μπορεί να αντιµετωπίσει τη µεροληψία και τη µείωση της διακύµανσης όπου αποτελείται η Ada Boost µέθοδο. Τέλος, χρησιµοποιώντας τον βασικό αλγόριθµο µάθησης C4.5, η µέθοδος Multi Boost AB δηλώνεται για να παραγάγει τις επιθυµητές απόφασης µε το χαµηλότερο σφάλµα. Η παρακάτω εικόνα παρουσιάζει τις παραµέτρους που χρησιµοποιούνται στον εξεταζόµενο αλγόριθµο κατά την πειραµατική εφαρµογή. Εικόνα : Παράµετροι του Multi Boost AB αλγορίθµου Με την παράµετρο Num Sub Cmtys θέτουµε τον κατά προσέγγιση αριθµό των Subcommittee για την λήψη αποφάσεων. Εµείς έχουµε επιλέξει τη τιµή 3 για αυτή τη παράµετρο. Τις υπόλοιπες παραµέτρους τις έχουµε συζητήσει και στον προηγούµενο αλγόριθµο. Ενώ παρακάτω γίνεται ανάλυση για την απόδοση και αξιοπιστία της εξεταζόµενης µεθόδου και την ακρίβεια ταξινόµησης. 96

97 Πίνακας : Στατιστικά αποτελέσµατα για τον αλγόριθµο Multi Boost AB Εκπαίδευση Μέθοδος αξιολόγησης µέσω επαναλαµβανόµενης δοκιµής Σωστή ταξινόµηση εγγραφών % % Εσφαλµένη ταξινόµηση εγγραφών % % K-στατιστικό µέγεθος Μέσο απόλυτο σφάλµα Μέσο τετραγωνικό σφάλµα Σχετικό απόλυτο σφάλµα % % Σχετικό τετραγωνικό σφάλµα % % Από τον παραπάνω πίνακα διαπιστώνουµε ότι η µέθοδος που χρησιµοποιείται είναι αποδοτική γιατί τα ποσοστά σφάλµατος είναι σχετικά µικρά. Πιο συγκεκριµένα, τα λάθη ταξινόµησης στην εκπαίδευση του αλγορίθµου είναι 17 από τις 118 περιπτώσεις όπου τα 11 ανήκουν στις µη πτωχευµένες επιχειρήσεις και τα 6 στις πτωχευµένες. Με την εφαρµογή της µεθόδου αξιολόγησης µέσω επαναλαµβανόµενων δοκιµών σε νέα δεδοµένα (cross validation) τα λάθη ταξινόµησης αυξήθηκαν κατά 3 (12 για την κλάση 1 και 8 για την 2). Εποµένως, συµπεραίνουµε ότι η µέθοδος εξάγει ακριβή αποτελέσµατα κυρίως για τις πτωχευµένες επιχειρήσεις και αυτό φαίνεται από τον παρακάτω πίνακα Πίνακας : Αποτελέσµατα ακρίβειας του αλγορίθµου Multi Boost AB Ποσοστό TP Ποσοστό Περιοχή Ορθότητα Μέτρο-F -Ανάκληση FP ROC Κλάση Εκπαίδευση (µη πτώχευση) (πτώχευση) Μέθοδος (µη πτώχευση) αξιολόγησης (πτώχευση) Και αυτή η µεθοδολογία µας παρέχει επιπλέον πληροφορίες που αφορούν τις κρίσιµες µεταβλητές ταξινόµησης και βρίσκονται στη µορφή Decision Stump όπως ακριβώς και στον προηγούµενο αλγόριθµο, αλλά έχουµε επιπλέον και την κατανοµή των µεταβλητών αυτών. Εποµένως, στον πίνακα παρουσιάζονται οι πληροφορίες αυτές αναλυτικά και για τις δέκα επαναλήψεις. Πίνακας : Βασικές µεταβλητές πρόβλεψης της µεθόδου Multi Boost AB Μεταβλητή ιάστηµα Τάξη Κατανοµή Βάρος <= > <= > Χ3 <= > <= > <= > <= > Χ16 <= > <= >

98 Πίνακας : Βασικές µεταβλητές πρόβλεψης της µεθόδου Multi Boost AB Χ27 <= > <= Χ11 > Εποµένως, όπως βλέπουµε από τον παραπάνω πίνακα οι κρίσιµες µεταβλητές είναι οι Χ3, Χ16, Χ27 και Χ11 από τις οποίες η πιο βασική είναι η Χ3 γιατί έχει το µεγαλύτερο βάρος (1.81). Άρα, η µεταβλητή Χ3 αποτελεί τον αριθµοδείκτη ταχύτητας κυκλοφορίας ενεργητικού και άρα τα περιουσιακά στοιχεία µε τις καθαρές πωλήσεις έχουν σηµαντικό ρόλο για την πρόβλεψη της πτώχευσης Ανάλυση του ταξινοµητή πολλαπλής κλάσης (Multi Class Classifier) Αυτός ο µετα-µάθησης αλγόριθµος, δηλαδή ο ταξινοµητής πολλαπλής κλάσης χειρίζεται προβλήµατα που αφορούν πολλαπλές κλάσεις µε ταξινοµητές δύο κλάσεων χρησιµοποιώντας κάποια από τις µεθόδους που επιλέγουµε από την αντίστοιχη παράµετρο. Ο αλγόριθµος αυτός έχει την ικανότητα να εξάγει διορθωµένα λάθη στα αποτελέσµατα για την αύξηση της ακρίβειας. Τέλος, η παρακάτω εικόνα δείχνει τις παραµέτρους που χρησιµοποιούνται στην εξεταζόµενη µέθοδο. Εικόνα : Παράµετροι του ταξινοµητή πολλαπλής κλάσης Στην παράµετρο Method επιλέγουµε τη µέθοδο που χρησιµοποιείται για την µετατροπή των προβληµάτων πολλαπλής κλάσεως σε προβλήµατα δύο κλάσεων. Οι µέθοδοι που υπάρχουν είναι οι εξής: Ένας εναντίων όλων (1-against-all) (την οποία χρησιµοποιούµε) Τυχαίοι κωδικού (random codes) Πλήρης κώδικας (exhaustive code) Ένας εναντίων ενός (1-against-1) Στην παράµετρο Random Width Factor επιλέγουµε το εύρος του πολλαπλασιαστή όταν χρησιµοποιούνται τυχαίοι κωδικοί. Ο αριθµός των κωδικών που παράγεται πολλαπλασιάζεται µε τον αριθµό των κλάσεων. Εµείς έχουµε επιλέξει αυθαίρετα την τιµή 2. Τέλος, έχουµε χρησιµοποιήσει ως βασικό ταξινοµητή τον Λογιστικό αλγόριθµο. Παρακάτω, αναλύουµε την απόδοση και αξιοπιστία του εξεταζόµενου αλγορίθµου καθώς και την ακρίβεια της ταξινόµησης. 98

99 Πίνακας : Στατιστικά αποτελέσµατα για τον ταξινοµητή πολλαπλής κλάσης Εκπαίδευση Μέθοδος αξιολόγησης µέσω επαναλαµβανόµενης δοκιµής Σωστή ταξινόµηση εγγραφών % % Εσφαλµένη ταξινόµηση εγγραφών % % K-στατιστικό µέγεθος Μέσο απόλυτο σφάλµα Μέσο τετραγωνικό σφάλµα Σχετικό απόλυτο σφάλµα % % Σχετικό τετραγωνικό σφάλµα % % Από τον παραπάνω πίνακα συµπεραίνουµε ότι η µέθοδος δεν είναι και τόσο αποδοτική γιατί τα ποσοστά σφάλµατος είναι σχετικά µεγάλα. Πιο συγκεκριµένα, µε την εκπαίδευση του αλγορίθµου είχαµε 17 λάθη ταξινόµησης από τις 118 περιπτώσεις όπου τα 11 ανήκουν στις µη πτωχευµένες επιχειρήσεις και τα 6 στις πτωχευµένες. Μετά την εφαρµογή της µεθόδου αξιολόγησης µέσω επαναλαµβανόµενων δοκιµών σε άγνωστα δεδοµένα (cross validation) τα λάθη ταξινόµησης αυξήθηκαν κατά 8 (13 για την κλάση 1 και 12 για την 2). Εποµένως, διαπιστώνουµε ότι η µέθοδος είναι λίγο αξιόπιστη και εξάγει κάπως ακριβή αποτελέσµατα και για τις δύο κλάσεις επιχειρήσεων και αυτό φαίνεται από τον παρακάτω πίνακα Πίνακας : Αποτελέσµατα ακρίβειας του ταξινοµητή πολλαπλής κλάσης Ποσοστό TP Ποσοστό Περιοχή Ορθότητα Μέτρο-F -Ανάκληση FP ROC Κλάση Εκπαίδευση (µη πτώχευση) (πτώχευση) Μέθοδος (µη πτώχευση) αξιολόγησης (πτώχευση) Επιπλέον, η µεθοδολογία αυτή µας παρέχει και κάποιες πληροφορίες για τις µεταβλητές των δειγµάτων µας. Αυτές οι πληροφορίες αναγράφονται στον πίνακα του λογιστικού αλγορίθµου αφού είναι ακριβώς ίδιες µε αυτές του ταξινοµητή πολλαπλής κλάσης. Άρα σύµφωνα µε αυτές τις πληροφορίες µπορούµε να εξάγουµε το συµπέρασµα για το ποιες από αυτές τις µεταβλητές αποτελούν τις κρίσιµες µεταβλητές για την πρόβλεψη της πτώχευσης των επιχειρήσεων και είναι ακριβώς ίδιες µε αυτές του λογιστικού αλγορίθµου. ηλαδή η κρίσιµη µεταβλητή είναι η Χ3 η οποία αποτελεί τον αριθµοδείκτη ταχύτητας κυκλοφορίας ενεργητικού και άρα τα περιουσιακά στοιχεία µε τις καθαρές πωλήσεις έχουν σηµαντικό ρόλο για την πρόβλεψη της πτώχευσης Ανάλυση του αλγορίθµου Multi Scheme Η µέθοδος Multi Scheme έχει την ιδιότητα να επιλέγει τον καλύτερο ταξινοµητή από ένα σύνολο υποψηφίων ταξινοµητών χρησιµοποιώντας τη µέθοδο αξιολόγησης µέσω επαναλαµβανόµενων δοκιµών σε άγνωστα δεδοµένα και η εκτέλεση µετριέται από ένα ποσοστό ακρίβειας (ταξινόµηση) ή από το τετραγωνικό µέσο σφάλµα (παλινδρόµηση). Ο αριθµός των επαναλήψεων αποτελεί µια παράµετρο που επιλέγεται από τον χρήστη. Πιο συγκεκριµένα για τις παραµέτρους που χρησιµοποιούνται παρουσιάζουµε παρακάτω την εικόνα

100 Εικόνα : Παράµετροι του αλγορίθµου Multi Scheme Τις παραπάνω παραµέτρους τις έχουµε εξηγήσει αρκετές φορές σε άλλους αλγορίθµους. Τώρα συνεχίσουµε µε την ανάλυση της απόδοσης και αξιοπιστίας του αλγορίθµου καθώς και την ακρίβεια της ταξινόµησης. Πίνακας : Στατιστικά αποτελέσµατα για τον αλγόριθµο Multi Scheme Εκπαίδευση Μέθοδος αξιολόγησης µέσω επαναλαµβανόµενης δοκιµής Σωστή ταξινόµηση εγγραφών 50 % % Εσφαλµένη ταξινόµηση εγγραφών 50 % % K-στατιστικό µέγεθος Μέσο απόλυτο σφάλµα Μέσο τετραγωνικό σφάλµα Σχετικό απόλυτο σφάλµα 100 % 100 % Σχετικό τετραγωνικό σφάλµα 100 % 100 % Όπως βλέπουµε από τον παραπάνω πίνακα για την απόδοση της µεθοδολογίας, διαπιστώνουµε ότι η απόδοση είναι αρκετά χαµηλή αφού τα ποσοστά σφάλµατος είναι µεγάλα. Πιο συγκεκριµένα, στην εκπαίδευση του αλγορίθµου είχαµε 59 λανθασµένες ταξινοµήσεις από τις 118 περιπτώσεις, δηλαδή οι µισές ήταν λάθος και όλες ανήκουν στις πτωχευµένες επιχειρήσεις. Μετά την εφαρµογή της µεθόδου αξιολόγησης µέσω επαναλαµβανόµενων δοκιµών σε άγνωστα δεδοµένα (cross validation) οι λανθασµένες ταξινοµήσεις αυξήθηκαν κατά µια (6 για την κλάση 1 και 54 για την 2). Εποµένως, συµπεραίνουµε ότι η ακρίβεια της ταξινόµησης είναι αρκετά υψηλή για τις µη πτωχευµένες επιχειρήσεις ενώ µηδαµινή για τις πτωχευµένες. Αυτά φαίνονται και από τον παρακάτω πίνακα Πίνακας : Αποτελέσµατα ακρίβειας του αλγορίθµου Multi Scheme Ποσοστό TP Ποσοστό Περιοχή Ορθότητα Μέτρο-F -Ανάκληση FP ROC Κλάση Εκπαίδευση (µη πτώχευση) (πτώχευση) Μέθοδος (µη πτώχευση) αξιολόγησης (πτώχευση) Τέλος, σε αυτή την µεθοδολογία δεν προκύπτουν πληροφορίες που να αφορούν τις µεταβλητές και άρα δεν µπορούµε να εντοπίσουµε τις κρίσιµες µεταβλητές για την πρόβλεψη της πτώχευσης. 100

101 Ανάλυση του ταξινοµητή Ordinal Class Ο ταξινοµητής Ordinal Class (Eibe Frank & Mark Hall 2001) για την ταξινόµηση έχει το χαρακτηριστικό να εφαρµόζει πρότυπους αλγορίθµους ταξινόµησης στα τακτικά προβλήµατα ταξινόµησης. Η παραπάνω εικόνα δείχνει τις παραµέτρους που χρησιµοποιούνται από τον συγκεκριµένο αλγόριθµο κατά την πειραµατική εφαρµογή. Εποµένως, παρατηρούµε ότι ο βασικός ταξινοµητής που χρησιµοποιείται είναι ο αλγόριθµος J48. Εικόνα : Παράµετροι του ταξινοµητή Ordinal Class Παρακάτω αναλύουµε την απόδοση και ακρίβεια ταξινόµησης για τον συγκεκριµένο αλγόριθµο. Πίνακας : Στατιστικά αποτελέσµατα για τον ταξινοµητή Ordinal Class Εκπαίδευση Μέθοδος αξιολόγησης µέσω επαναλαµβανόµενης δοκιµής Σωστή ταξινόµηση εγγραφών % % Εσφαλµένη ταξινόµηση εγγραφών % % K-στατιστικό µέγεθος Μέσο απόλυτο σφάλµα Μέσο τετραγωνικό σφάλµα Σχετικό απόλυτο σφάλµα % % Σχετικό τετραγωνικό σφάλµα % % Ο πίνακας δείχνει ότι η απόδοση της µεθόδου κυµαίνεται σε µεσαία επίπεδα γιατί τα ποσοστά σφάλµατος δεν είναι και τόσο µικρά. Πιο συγκεκριµένα, στην εκπαίδευση του αλγορίθµου είχαµε 15 λάθη ταξινόµησης από τις 118 περιπτώσεις όπου τα 12 ανήκουν στις µη πτωχευµένες επιχειρήσεις και τα 3 στις πτωχευµένες. Μετά την εφαρµογή της µεθόδου αξιολόγησης µέσω επαναλαµβανόµενων δοκιµών σε άγνωστα δεδοµένα (cross validation) τα λάθη ταξινόµησης αυξήθηκαν κατά 8 (16 για την κλάση 1 και 7 για την 2). Εποµένως, συµπεραίνουµε ότι η ακρίβεια ταξινόµησης για αυτή τη µέθοδο είναι σχετικά καλή κυρίως για τις πτωχευµένες επιχειρήσεις. Αυτό φαίνεται από τον παρακάτω πίνακα Πίνακας : Αποτελέσµατα ακρίβειας του ταξινοµητής Ordinal Class Ποσοστό TP Ποσοστό Περιοχή Ορθότητα Μέτρο-F -Ανάκληση FP ROC Κλάση Εκπαίδευση (µη πτώχευση) (πτώχευση) Μέθοδος (µη πτώχευση) αξιολόγησης (πτώχευση) 101

102 Επίσης, η συγκεκριµένη µεθοδολογία έχει κάποια επιπλέον πληροφορίες για τις µεταβλητές των δειγµάτων µας. Οι πληροφορίες απεικονίζονται στο σχήµα µε το δένδρο της µορφής J48 του ταξινοµητή επιλεγµένων χαρακτηριστικών µιας και το δένδρο που µας παρέχει ο ταξινοµητής Ordinal Class είναι ακριβώς το ίδιο µε αυτό του αναφερόµενου αλγορίθµου. Εποµένως, η Χ3 µεταβλητή αποτελεί την κρίσιµη µεταβλητή και ως χρηµατοοικονοµικός δείκτης αποτελεί τον αριθµοδείκτη ταχύτητας κυκλοφορίας ενεργητικού και άρα τα περιουσιακά στοιχεία µε τις καθαρές πωλήσεις έχουν σηµαντικό ρόλο για την πρόβλεψη της πτώχευσης Ανάλυση του αλγορίθµου Raced Incremental Logit Boost (RILB) Ο αλγόριθµος Raced Incremental Logit Boost (RILB) (Frank et al., 2002) έχει την ιδιότητα να µαθαίνει από τον αλγόριθµο Logistic Boost και επεξεργάζεται τα δεδοµένα σε αυξητικές παρτίδες. Το µέγεθος της παρτίδας ξεκινάει από έναν δεδοµένο ελάχιστο αριθµό και διπλασιάζεται µέχρι να φτάσει στον µέγιστο. Αυτή η µέθοδος είναι χρήσιµη για µεγάλο πλήθος δεδοµένων. Στην παρακάτω εικόνα παρουσιάζουµε τις παραµέτρους που χρησιµοποιεί ο εξεταζόµενος αλγόριθµος και στη συνέχεια τις αναλύουµε. Εικόνα : Παράµετροι του αλγορίθµου RILB Με την παράµετρος Max Chunk Size δηλώνουµε τον µέγιστο αριθµό παραδειγµάτων µε τα οποία εκπαιδεύεται ο βασικός αλγόριθµος. Το µέγεθος της παρτίδας που χρησιµοποιείται ξεκινάει από τον ελάχιστο αριθµό που έχουµε επιλέξει στην παράµετρο Min Chunk Size και αυξάνεται µε διπλάσιο ρυθµό τόσες φορές όσες ο αριθµός να φτάσει (µικρότερος ή ίσος) το µέγιστο αριθµό που έχουµε επιλέξει σ αυτή τη παράµετρο. Εµείς έχουµε τοποθετήσει αυθαίρετα την τιµή Η παράµετρος Min Chunk Size δείχνει τον ελάχιστο αριθµό παραδειγµάτων για την εκπαίδευση του βασικού αλγορίθµου. Εµείς έχουµε επιλέξει αυτή η παράµετρος να έχει τιµή 500. Με την παράµετρο Pruning Type επιλέγουµε τη µέθοδο «κλαδέµατος» που χρησιµοποιείται σε κάθε επιτροπή. Η λογαριθµική πιθανότητα «κλαδέµατος» (Log likelihood pruning) που χρησιµοποιούµε εδώ, απορρίπτει τα νέα µοντέλα εάν αυτά έχουν αρνητική επίδραση στα δεδοµένα µας. Με τη χρήσει της παραµέτρου Use Resampling αναγκάζεται να χρησιµοποιηθεί δειγµατοληψία στα δεδοµένα αντί τη χρήση του βάρους για τον βασικό ταξινοµητή. Η µέθοδος δειγµατοληψίας χρησιµοποιείται πάντα όταν ο βασικός ταξινοµητής δεν µπορεί να χειριστεί το βάρος των παραδειγµάτων. Εµείς δεν χρησιµοποιούµε αυτή τη παράµετρο. Η τελευταία παράµετρος, η Validation Chunk Size, καθορίζει τον αριθµό των παραδειγµάτων που διατηρούνται για την µέθοδο αξιολόγησης. Αυτά τα παραδείγµατα λαµβάνονται από το ξεκίνηµα της διαδικασίας. Εποµένως, η εκµάθηση δεν ξεκινάει µέχρι να καταναλωθούν πρώτα αυτά τα παραδείγµατα. Η τιµή που έχουµε επιλέξει σ αυτή τη παράµετρο είναι Τα αποτελέσµατα της µεθόδου είναι ακριβώς τα ίδια αυτά του αλγορίθµου Multi Scheme για το σύνολο των δεδοµένων µας και παρουσιάζονται στους πίνακες και Εποµένως, τα 102

103 συµπεράσµατα και η ανάλυση των αποτελεσµάτων αυτών είναι ακριβώς τα ίδια µε αυτά της προαναφερόµενης µεθόδου. ηλαδή η µέθοδος δεν είναι αποδοτική. Ενώ, τέλος, για τις κρίσιµες µεταβλητές για την πρόβλεψη της πτώχευσης, ούτε αυτός ο αλγόριθµος δεν µας παρέχει πληροφορίες στα αποτελέσµατά του που να αφορούν τις µεταβλητές Ανάλυση του αλγορίθµου Random Committee Ο αλγόριθµος ταξινόµησης Random Committee είναι αρκετά απλός. ηµιουργεί ένα σύνολο από βασικούς τυχαίους ταξινοµητές οι οποίοι προκύπτουν από διαφορετικούς σπόρους τυχαίων αριθµών αλλά τα δεδοµένα είναι ίδια. Η τελική πρόβλεψη αποτελείται από τον µέσο όρο των προβλέψεων του κάθε ταξινοµητή. Η παρακάτω εικόνα δείχνει τις παραµέτρους που χρησιµοποιούνται στον συγκεκριµένο αλγόριθµο. Έτσι, ο βασικός ταξινοµητής που χρησιµοποιείται είναι ο Random Tree και κάνει δέκα επαναλήψεις. Τέλος, ο σπόρος της γεννήτριας τυχαίου αριθµού έχει την τιµή 1. Εικόνα : Παράµετροι του αλγορίθµου Random Committee Παρακάτω, αναλύουµε την απόδοση, αξιοπιστία και ακρίβεια της ταξινόµησης του συγκεκριµένου αλγορίθµου. Πίνακας : Στατιστικά αποτελέσµατα για τον αλγόριθµο Random Committee Εκπαίδευση Μέθοδος αξιολόγησης µέσω επαναλαµβανόµενης δοκιµής Σωστή ταξινόµηση εγγραφών 100 % % Εσφαλµένη ταξινόµηση εγγραφών 0 % % K-στατιστικό µέγεθος Μέσο απόλυτο σφάλµα Μέσο τετραγωνικό σφάλµα Σχετικό απόλυτο σφάλµα 0 % % Σχετικό τετραγωνικό σφάλµα 0 % % Όπως βλέπουµε από τον πίνακα η µέθοδος είναι πολύ αποδοτική κυρίως στην εκπαίδευση του αλγορίθµου όπου δεν έχουµε κανένα σφάλµα ταξινόµησης. Μετά την εφαρµογή της µεθόδου αξιολόγησης µέσω επαναλαµβανόµενων δοκιµών σε άγνωστα δεδοµένα (cross validation) τα σφάλµατα ταξινόµησης ήταν 17 από τα οποία τα 9 ανήκουν στις µη πτωχευµένες επιχειρήσεις και τα 8 στις πτωχευµένες. Εποµένως, η ακρίβεια ταξινόµησης της µεθόδου είναι πολύ καλή και για τις δύο κλάσεις (πτωχευµένες και µη επιχειρήσεις). Αυτό φαίνεται και από τον παρακάτω πίνακα

104 Πίνακας : Αποτελέσµατα ακρίβειας του αλγορίθµου Random Committee Ποσοστό TP Ποσοστό Περιοχή Ορθότητα Μέτρο-F -Ανάκληση FP ROC Κλάση Εκπαίδευση (µη πτώχευση) (πτώχευση) Μέθοδος (µη πτώχευση) αξιολόγησης (πτώχευση) Επίσης, έχουµε κάποιες επιπλέον πληροφορίες για τις µεταβλητές των δειγµάτων σε µορφή τυχαίων δένδρων (Random Tree) και δείχνουν ποιες µεταβλητές ταξινόµησης είναι σηµαντικές. Το χαρακτηριστικό αυτών των δένδρων είναι ότι από όλες τις προβλέψεις ταξινόµησης καµία δεν είναι λανθασµένη. Εποµένως, παρακάτω παρουσιάζουµε τα τυχαία δέντρα που είναι δέκα, όσες και οι επαναλήψεις του αλγορίθµου που επιλέξαµε. Σχήµα : Πρώτο τυχαίο δένδρο του αλγορίθµου Random Committee Το πρώτο τυχαίο δένδρο φαίνεται στο σχήµα και έχει µέγεθος 47. Παρατηρούµε ότι η πιο κρίσιµη µεταβλητή είναι η Χ3 γιατί βρίσκεται στη ρίζα του δένδρου και αποτελεί τον αριθµοδείκτη ταχύτητας κυκλοφορίας ενεργητικού, ενώ οι αµέσως επόµενες είναι η Χ22 που ορίζεται ως τα αποθέµατα προς κεφάλαιο κίνησης και η Χ16 η οποία ορίζεται ως το σύνολο υποχρεώσεων προς το σύνολο ενεργητικού. Ένας πολύ καλός και απλός κανόνας που προκύπτει από το παραπάνω δένδρο και ταξινοµεί σωστά 27 περιπτώσεις είναι ο εξής: Αν Χ3>=0.01 και Χ16<0.6 τότε η ταξινόµηση είναι της κλάσης 1 (µη πτώχευση) Επίσης, ο παρακάτω κανόνας είναι λίγο πιο περίπλοκος αλλά αποτελεί σηµαντικό κανόνα ταξινόµησης ο οποίος ταξινοµεί σωστά 23 περιπτώσεις. Αν Χ3<0.01 και Χ22<-0.09 και Χ10<0.86 τότε η ταξινόµηση είναι της κλάσης 2 (πτώχευση) 104

105 Σχήµα : εύτερο τυχαίο δένδρο του αλγορίθµου Random Committee Το παραπάνω δένδρο του σχήµατος έχει µέγεθος 45. Η πιο κρίσιµη µεταβλητή για την πρόβλεψη της πτώχευσης είναι η Χ1 γιατί βρίσκεται στη ρίζα του δένδρου και ορίζεται ως οι καθαρές πωλήσεις προς τα µεικτά κέρδη, ενώ, οι αµέσως επόµενες είναι η Χ27 που ορίζεται ως το κεφάλαιο κίνησης προς τα ίδια κεφάλαια και η Χ3 η οποία έχει οριστεί χρηµατοοικονοµικά παραπάνω. Και σ αυτό το δένδρο προκύπτουν δύο απλοί αλλά σηµαντικοί κανόνες ταξινόµησης που είναι οι εξής: Αν Χ1>=0.03 και Χ3>=0.07 τότε η ταξινόµηση είναι της κλάσης 1 (µη πτώχευση) και ταξινοµεί σωστά 31 περιπτώσεις. Αν Χ1<0.03 και Χ27>=0.49 τότε η ταξινόµηση είναι της κλάσης 2 (πτώχευση) και ταξινοµεί σωστά 17 περιπτώσεις. Επίσης, υπάρχουν και άλλοι πολύ καλοί κανόνες ταξινόµησης αλλά είναι πιο περίπλοκοι. 105

106 Σχήµα : Τρίτο τυχαίο δένδρο του αλγορίθµου Random Committee Στο παραπάνω σχήµα φαίνεται το τρίτο τυχαίο δένδρο το οποίο έχει µέγεθος 55. Σ αυτό το δένδρο η πιο βασική µεταβλητή είναι η Χ3 γιατί βρίσκεται στη ρίζα του δένδρου και την ορίσαµε παραπάνω, αµέσως µετά ακολουθούν η µεταβλητή Χ10 η οποία ορίζεται ως το κυκλοφορούν ενεργητικό προς τις βραχυπρόθεσµες υποχρεώσεις και η Χ16 η οποία έχει οριστεί στο πρώτο τυχαίο δένδρο. Ένας πολύ καλός και απλός κανόνας που ταξινοµεί σωστά 27 περιπτώσεις είναι ο εξής: Αν Χ3>=0.01 και Χ16<0.6 τότε η ταξινόµηση είναι της κλάσης 1 (µη πτώχευση). Αυτός ο κανόνας είναι ακριβώς ίδιος µε αυτόν του πρώτου τυχαίου δένδρου του σχήµατος Ένας άλλος σηµαντικός κανόνας αλλά πιο περίπλοκος ο οποίος ταξινοµεί 23 περιπτώσεις είναι ο εξής: Αν Χ3<0.01 και Χ10<1.45 και Χ16>=0.78 και Χ22<-0.09 τότε η ταξινόµηση είναι της κλάσης 2 (πτώχευση). 106

107 Σχήµα : Τέταρτο τυχαίο δένδρο του αλγορίθµου Random Committee Όπως βλέπουµε από το παραπάνω σχήµα το τυχαίο δένδρο έχει µέγεθος 53 και η πιο βασική µεταβλητή για την πρόβλεψη της πτώχευσης είναι η Χ4 όπου βρίσκεται στη ρίζα του δένδρου και ορίζεται ως τις καθαρές πωλήσεις προς τα ίδια κεφάλαια, οι αµέσως επόµενες κρίσιµες µεταβλητές είναι η Χ1 η οποία ορίζεται ως τις καθαρές πωλήσεις προς τα µεικτά κέρδη και η Χ10 η οποία ορίζεται παραπάνω. Ένας πολύ καλός κανόνας που προκύπτει από το παραπάνω δένδρο και ταξινοµεί σωστά 29 περιπτώσεις είναι ο εξής: Αν Χ4>=-0.05 και Χ10>=1.42 και Χ17>=0.36 τότε η ταξινόµηση είναι της κλάσης 1(µη πτώχευση). 107

108 Σχήµα : Πέµπτο τυχαίο δένδρο του αλγορίθµου Random Committee Από το παραπάνω τυχαίο δένδρο του σχήµατος παρατηρούµε ότι το δένδρο αυτό έχει µέγεθος 53 και η πιο κρίσιµη µεταβλητή είναι η Χ1 που βρίσκεται στη ρίζα του δένδρου και έχει οριστεί παραπάνω, οι αµέσως επόµενες κρίσιµες µεταβλητές για την πρόβλεψη της πτώχευσης είναι η Χ25 η οποία ορίζεται ως τις βραχυπρόθεσµες υποχρεώσεις προς το σύνολο ενεργητικού και η Χ3 η οποία έχει οριστεί παραπάνω. Ένα πρώτος καλός και απλός κανόνας που προκύπτει από το παραπάνω δένδρο µε 27 σωστές ταξινοµήσεις είναι ίδιος µε αυτόν του τρίτου τυχαίου δέντρου στο σχήµα Επίσης, από το παραπάνω δέντρο προκύπτει ένας άλλος σηµαντικός κανόνας που ταξινοµεί σωστά 23 περιπτώσεις και είναι ο εξής: Αν Χ1<0.03 και Χ25>=0.76 και Χ25<1.91 τότε η ταξινόµηση είναι της κλάσης 2 (πτώχευση). 108

109 Σχήµα : Έκτο τυχαίο δένδρο του αλγορίθµου Random Committee Όπως βλέπουµε από το παραπάνω σχήµα το τυχαίο δένδρο έχει µέγεθος 67 και η µεταβλητή Χ25 αποτελεί την κρίσιµη µεταβλητή γιατί βρίσκεται στη ρίζα του δένδρου και έχει οριστεί παραπάνω, ενώ οι αµέσως επόµενες κρίσιµες µεταβλητές τα ίδια κεφάλαια προς τα ίδια κεφάλαια συν τις µακροπρόθεσµες υποχρεώσεις για την πρόβλεψη της πτώχευσης είναι η Χ4 και Χ17 η οποία ορίζεται ως. Ο πιο σηµαντικός κανόνας που προκύπτει από το παραπάνω δένδρο µε 13 σωστές ταξινοµήσεις είναι ο εξής: Αν Χ25>=0.42 και Χ17<0.32 και Χ22<-0.09 τότε η ταξινόµηση είναι της κλάσης 2 (πτώχευση). 109

110 Σχήµα : Έβδοµο τυχαίο δένδρο του αλγορίθµου Random Committee Στο παραπάνω σχήµα το τυχαίο δένδρο έχει µέγεθος 61 και στην ρίζα βρίσκεται η µεταβλητή Χ2 η οποία αποτελεί την βασικότερη µεταβλητή για την πρόβλεψη της πτώχευσης και ορίζεται ως τα µεικτά κέρδη προς το σύνολο ενεργητικού. Οι αµέσως επόµενες κρίσιµες µεταβλητές είναι η Χ10 η οποία έχει οριστεί πιο πάνω και η Χ21 η οποία ορίζεται ως τα ίδια κεφάλαια προς το καθαρό πάγιο ενεργητικό. Ένας πολύ καλός κανόνας ο οποίος προκύπτει από το παραπάνω δένδρο και ταξινοµεί σωστά 36 περιπτώσεις είναι ο εξής: Αν Χ2>=0.17 και Χ21>=0.41 και Χ11>=0.59 και Χ1>0.1 τότε η ταξινόµηση είναι της κλάσης 1 (µη πτώχευση) 110

111 Σχήµα : Όγδοο τυχαίο δένδρο του αλγορίθµου Random Committee Συνεχίζοντας την ανάλυση, το παραπάνω τυχαίο δένδρο του σχήµατος έχει µέγεθος 65 και η µεταβλητή Χ22 βρίσκεται στη ρίζα του δένδρου και άρα αποτελεί την βασικότερη µεταβλητή για την πρόβλεψη της πτώχευσης και έχει οριστεί παραπάνω. Οι αµέσως επόµενες κρίσιµες µεταβλητές του συγκεκριµένου δένδρου είναι η Χ2 όπου έχει οριστεί στο παραπάνω δένδρο και Χ11 η οποία ορίζεται ως το κυκλοφορούν ενεργητικό µείον τα αποθέµατα προς τις βραχυπρόθεσµες υποχρεώσεις. Ο πιο σηµαντικός κανόνας ο οποίος προκύπτει από τον παραπάνω δένδρο και ταξινοµεί σωστά 27 περιπτώσεις είναι ο εξής: Αν Χ22>=-0.02 και Χ11>=0.41 και Χ11>=63 και Χ3>=-0.01 και Χ3>=0.07 τότε η ταξινόµηση είναι της κλάσης 1 (µη πτώχευση) 111

112 Σχήµα : Ένατο τυχαίο δένδρο του αλγορίθµου Random Committee Για το τυχαίο δένδρο του σχήµατος µπορούµε να πούµε ότι αυτό έχει µέγεθος 49 και η πιο βασική µεταβλητή είναι η Χ3 γιατί βρίσκεται στη ρίζα του δένδρου. Οι αµέσως επόµενες κρίσιµες µεταβλητές για την πρόβλεψη της πτώχευσης είναι η Χ17 και η Χ11. Οι µεταβλητές αυτές έχουν οριστεί χρηµατοοικονοµικά στις παραπάνω αναλύσεις των δένδρων. Οι πιο σηµαντικοί κανόνες ταξινόµησης που προκύπτουν από το παραπάνω δένδρο είναι οι εξής: Αν Χ3<0.01 και Χ17<0.43 και Χ1>=-3.82 τότε η ταξινόµηση είναι της κλάσης 2 (πτώχευση) και ταξινοµεί σωστά 22 περιπτώσεις. Αν Χ3<0.01 και Χ17>=0.43 και Χ16>=0.78 τότε η ταξινόµηση είναι της κλάσης 2 (πτώχευση) και ταξινοµεί σωστά 13 περιπτώσεις. Αν Χ3>=0.01 και Χ11>=0.26 και Χ22<2.17 και Χ22<0.86 και Χ27<0.87 τότε η ταξινόµηση είναι της κλάσης 1 (µη πτώχευση) και ταξινοµεί σωστά 20 περιπτώσεις. 112

113 Σχήµα : έκατο τυχαίο δένδρο του αλγορίθµου Random Committee Το τελευταίο τυχαίο δένδρο που είναι και το µεγαλύτερο µε µέγεθος 71 φαίνεται στο σχήµα Η µεταβλητή Χ2 βρίσκεται στη ρίζα του δένδρου και άρα αποτελεί την πιο βασική µεταβλητή για την πρόβλεψη της πτώχευσης και οι αµέσως επόµενες κρίσιµες µεταβλητές είναι η Χ22 και Χ11. Η µεταβλητές αυτές έχουν οριστεί σε παραπάνω αναλύσεις των τυχαίων δένδρων. Ο πιο σηµαντικός κανόνας που προκύπτει από το παραπάνω δένδρο και ταξινοµεί σωστά 15 περιπτώσεις είναι ο εξής: Αν Χ2<0.17 και Χ22>=-4.34 και Χ27>=0.65 τότε η ταξινόµηση είναι της κλάσης 2 (πτώχευση). Από τα δέκα παραπάνω τυχαία δένδρα που προέκυψαν, εµείς θα επιλέξουµε εκείνο που προσφέρει τους πιο σηµαντικούς κανόνες µε τις περισσότερες σωστές ταξινοµήσεις. Εποµένως, το πιο σηµαντικό τυχαίο δένδρο είναι αυτό του σχήµατος µε µέγεθος 61 και κρίσιµη µεταβλητή τη Χ2 η οποία ορίζεται ως τα µεικτά κέρδη προς το σύνολο ενεργητικού. Το δέντρο αυτό προσφέρει έναν πολύ σηµαντικό κανόνα µε 36 σωστές ταξινοµήσεις για την κλάση των µη πτωχευµένων επιχειρήσεων Ανάλυση του αλγορίθµου Random Sub Space Ο αλγόριθµος Random Sub Space (Tim Kam Ho, 1998) κατασκευάζει ένα δένδρο απόφασης του βασικού ταξινοµητή ο οποίος διατηρεί υψηλή ακρίβεια στα δεδοµένα εκπαίδευσης και βελτιώνει τη γενικευµένη ακρίβεια στα πιο περίπλοκα δεδοµένα. Ο ταξινοµητής περιέχει πολλαπλά δένδρα κατασκευασµένα συστηµατικά από ψευδοτυχαία επιλογή υποσυνόλων των συστατικών του διανύσµατος. Η παρακάτω εικόνα δείχνει τις παραµέτρους που χρησιµοποιούνται στην πειραµατική εφαρµογή από τον εξεταζόµενο αλγόριθµο. 113

114 Εικόνα : Παράµετροι του αλγορίθµου Random Sub Space Η παράµετρος Sub Space Size δείχνει το µέγεθος του κάθε υποσυνόλου. Εάν η τιµή είναι µικρότερη της µονάδας τότε σηµαίνει ότι χρησιµοποιούµε ένα ποσοστό των χαρακτηριστικών, ενώ εάν είναι µεγαλύτερη της µονάδας τότε δείχνει τον απόλυτο αριθµό των χαρακτηριστικών που χρησιµοποιείται. Εµείς αυθαίρετα έχουµε επιλέξει την τιµή 0.5 όπου δείχνει το ποσοστό των χαρακτηριστικών που χρησιµοποιείται. Στη συνέχεια, οι υπόλοιπες παράµετροι έχουν ξανασυζητηθεί και δείχνουν ότι ο αλγόριθµος REPTree αποτελεί τον βασικό ταξινοµητή και εκτελεί δέκα επαναλήψεις. Τέλος, η τιµή του σπόρου της γεννήτριας τυχαίου αριθµού είναι µονάδα. Παρακάτω, αναλύουµε την απόδοση, αξιοπιστία και ακρίβεια της ταξινόµησης του αλγορίθµου Random Sub Space. Πίνακας : Στατιστικά αποτελέσµατα για του αλγορίθµου Random Sub Space Εκπαίδευση Μέθοδος αξιολόγησης µέσω επαναλαµβανόµενης δοκιµής Σωστή ταξινόµηση εγγραφών % % Εσφαλµένη ταξινόµηση εγγραφών % % K-στατιστικό µέγεθος Μέσο απόλυτο σφάλµα Μέσο τετραγωνικό σφάλµα Σχετικό απόλυτο σφάλµα % % Σχετικό τετραγωνικό σφάλµα % % Καθώς παρατηρούµε τον πίνακα διαπιστώνουµε ότι η µέθοδος είναι αποδοτική γιατί τα ποσοστά σφάλµατος είναι σχετικά µικρά. Πιο συγκεκριµένα, στην εκπαίδευση του αλγορίθµου είχαµε 18 λανθασµένες ταξινοµήσεις από τις 118 περιπτώσεις όπου οι 12 ανήκουν στις µη πτωχευµένες επιχειρήσεις και οι 6 στις πτωχευµένες. Μετά την εφαρµογή της µεθόδου αξιολόγησης µέσω επαναλαµβανόµενων δοκιµών σε άγνωστα δεδοµένα (cross validation) οι εσφαλµένες ταξινοµήσεις αυξήθηκαν κατά 4 (12 για την κλάση 1 και 10 για την 2). Εποµένως, η µέθοδος είναι αρκετά αξιόπιστη και η ακρίβεια στην ταξινόµηση είναι µεγάλη κυρίως για τις πτωχευµένες επιχειρήσεις όπως φαίνεται και από τον παρακάτω πίνακα

115 Πίνακας : Αποτελέσµατα ακρίβειας του αλγορίθµου Random Sub Space Ποσοστό TP Ποσοστό Περιοχή Ορθότητα Μέτρο-F -Ανάκληση FP ROC Κλάση Εκπαίδευση (µη πτώχευση) (πτώχευση) Μέθοδος (µη πτώχευση) αξιολόγησης (πτώχευση) Τέλος, ο εξεταζόµενος αλγόριθµος παρέχει κάποιες επιπλέον πληροφορίες για τις µεταβλητές των δειγµάτων που είναι σηµαντικές για την ταξινόµηση. Αυτές οι πληροφορίες βρίσκονται σε µορφή δένδρου τύπου REP και επειδή έχουµε επιλέξει να εκτελέσει ο αλγόριθµος δέκα επαναλήψεις θα έχουµε δέκα τέτοια δένδρα τα οποία φαίνονται παρακάτω. Σχήµα : Πρώτο δένδρο τύπου REP του αλγορίθµου Random Sub Space Όπως βλέπουµε στο σχήµα το πρώτο δένδρο έχει µέγεθος 7 και αποτελείται από τις κρίσιµες µεταβλητές Χ4, Χ17 και Χ10 όπου η Χ4 είναι η πιο βασική για την πρόβλεψη της πτώχευσης γιατί βρίσκεται στη ρίζα του δένδρου η οποία ορίζεται ως τις καθαρές πωλήσεις προς τα ίδια κεφάλαια. Τα σφάλµατα ταξινόµησης είναι 16 στο σύνολο των 118 ταξινοµήσεων από τα οποία τα 10 ανήκουν στις µη πτωχευµένες επιχειρήσεις και τα 6 στις πτωχευµένες. Άρα αυτό το δένδρο αποτελεί αξιόπιστο κριτήριο για την ταξινόµηση κυρίως για τις πτωχευµένες επιχειρήσεις. Σχήµα : εύτερο δένδρο τύπου REP του αλγορίθµου Random Sub Space Το παραπάνω δένδρο του σχήµατος έχει µέγεθος 5 και αποτελείται από τις κρίσιµες µεταβλητές Χ17 και Χ1, όπου η Χ17 είναι η πιο βασική στο πρόβληµα της πτώχευσης γιατί βρίσκεται στη ρίζα του δένδρου και ορίζεται ως τα ίδια κεφάλαια προς τα ίδια κεφάλαια συν τις µακροπρόθεσµες υποχρεώσεις. Τα λάθη ταξινόµησης είναι 18 τα οποία είναι εξίσου κατανεµηµένα και στις δύο κλάσης. 115

116 Σχήµα : Τρίτο δένδρο τύπου REP του αλγορίθµου Random Sub Space Όπως, βλέπουµε από το σχήµα το τρίτο δένδρο έχει µέγεθος 3 και αποτελείται από µια και πιο βασική µεταβλητή τη Χ3 η οποία αποτελεί τον αριθµοδείκτη ταχύτητας κυκλοφορίας ενεργητικού. Οι λανθασµένες ταξινοµήσεις είναι 18 οι οποίες είναι εξίσου κατανεµηµένες και στις δύο κλάσεις. Το τέταρτο και πέµπτο δένδρο τύπου REP έχουν ακριβώς την ίδια µορφή µε το προηγούµενο του σχήµατος αλλά µε µια µικρή διαφορά στην κατανοµή των σφαλµάτων ταξινόµησης. Σχήµα : Έκτο δένδρο τύπου REP του αλγορίθµου Random Sub Space Όπως βλέπουµε το δένδρο του σχήµατος παρατηρούµε ότι αυτό έχει µέγεθος 7 και αποτελείται από τις κρίσιµες µεταβλητές Χ1, Χ21 και Χ2 από τις οποίες η Χ1 είναι η πιο βασική µεταβλητή για την πρόβλεψη της πτώχευσης γιατί βρίσκεται στη ρίζα του δένδρου και ορίζεται ως τις καθαρές πωλήσεις προς τα µεικτά κέρδη. Τα λάθη της ταξινόµησης είναι 14 από τα οποία τα 6 ανήκουν στις µη πτωχευµένες επιχειρήσεις και τα υπόλοιπα 8 στις πτωχευµένες. Άρα, διαπιστώνουµε ότι αυτό το δέντρο αποτελεί ένα αξιόπιστο κριτήριο για το πρόβληµα της πτώχευσης κυρίως για τις µη πτωχευµένες επιχειρήσεις. Σχήµα : Έβδοµο δένδρο τύπου REP του αλγορίθµου Random Sub Space Συνεχίζοντας την ανάλυσή µας, στο σχήµα βλέπουµε το έβδοµο δένδρο τύπου REP το οποίο έχει µέγεθος 7 και αποτελείται από τις κρίσιµες µεταβλητές Χ4, Χ16 και Χ10 από τις οποίες η Χ4 είναι η πιο βασική για την πρόβλεψη της πτώχευσης και έχει οριστεί παραπάνω. Τα σφάλµατα ταξινόµησης εδώ είναι 9 από τα οποία τα 3 ανήκουν στις µη πτωχευµένες επιχειρήσεις και τα 6 στις πτωχευµένες. Εποµένως, το δένδρο αυτό αποτελεί ένα πολύ αξιόπιστο κριτήριο για την πρόβλεψη κυρίως της µη 116

117 πτώχευσης. Επίσης, το όγδοο και ένατο δένδρο έχει ακριβώς την ίδια µορφή µε αυτό του σχήµατος αλλά µε κάποια διαφορά στην κατανοµή της λανθασµένης ταξινόµησης. Σχήµα : έκατο δένδρο τύπου REP του αλγορίθµου Random Sub Space Το τελευταίο REPtree δένδρο φαίνεται στο σχήµα και έχει µέγεθος 11. Αποτελείται από τις κρίσιµες µεταβλητές Χ17, Χ2, Χ16, Χ2 και Χ22 από τις οποίες η Χ17 είναι η πιο βασική για την πρόβλεψη της πτώχευσης γιατί βρίσκεται στη ρίζα του δένδρου και ορίζεται ως τα ίδια κεφάλαια προς τα ίδια κεφάλαια συν τις µακροπρόθεσµες υποχρεώσεις. Τα σφάλµατα ταξινόµησης είναι 23 από τα οποία τα 10 ανήκουν στις µη πτωχευµένες επιχειρήσεις και τα 13 στις πτωχευµένες. Απ όλα αυτά τα δένδρα εµείς επιλέγουµε το έβδοµο του σχήµατος γιατί έχει τα λιγότερα σφάλµατα ταξινόµησης. Εποµένως, η πιο κρίσιµη µεταβλητή είναι η Χ4 η οποία ως χρηµατοοικονοµικός δείκτης ερµηνεύεται ως καθαρές πωλήσεις προς ίδια κεφάλαια δηλαδή τα κέρδη και τα περιουσιακά στοιχεία της επιχείρησης έχουν σηµαντικό ρόλο για την πρόβλεψη της πτώχευσης Ανάλυση του αλγορίθµου Stacking Ο αλγόριθµος Stacking (David & Wopert, 1992) έχει την ιδιότητα να συνδυάζει ταξινοµητές χρησιµοποιώντας τη µέθοδο Stacking (βλέπε παράρτηµα Β) για τα προβλήµατα ταξινόµησης και παλινδρόµησης. Ως παράµετροι επιλέγουµε τους βασικούς ταξινοµητές, τους αλγορίθµους µετα- µάθησης και τον αριθµό επαναλήψεων της µεθόδου αξιολόγησης µέσω επαναλαµβανόµενων δοκιµών σε άγνωστα δεδοµένα όπως φαίνεται στην παρακάτω εικόνα. Εικόνα : Παράµετροι του αλγορίθµου Stacking 117

118 Τα αποτελέσµατα της εξεταζόµενης µεθόδου είναι ακριβώς τα ίδια µε αυτά του αλγορίθµου Multi Sceme και παρουσιάζονται στους πίνακες και Εποµένως, τα συµπεράσµατα και η ανάλυση των αποτελεσµάτων αυτών είναι ακριβώς τα ίδια µε αυτά της προαναφερόµενης µεθόδου, ενώ δεν υπάρχουν πληροφορίες για τον εντοπισµό των κρίσιµων µεταβλητών. Άρα, η µέθοδος αυτή δεν είναι και τόσο αποτελεσµατική και ούτε ακριβείς στην ταξινόµηση των παραδειγµάτων Ανάλυση του αλγορίθµου Stacking C Ο αλγόριθµος Stacking C (Seewald, 2002) αποτελεί µια πιο αποδοτική εκδοχή της µεθόδου Stacking (βλέπε παράρτηµα Β). Σε αυτή τη περίπτωση ο αλγόριθµος µετα-µάθησης πρέπει να έχει αριθµητικό σχέδιο πρόβλεψης. Στην παρακάτω εικόνα παρουσιάζονται οι παράµετροι που είναι ακριβώς ίδιες όπως στην προηγούµενη µέθοδο αλλά µε τη διαφορά ότι έχουµε επιλέξει τον αλγόριθµο γραµµικής παλινδρόµησης ως αλγόριθµος µετα-µάθησης. Εικόνα : Παράµετροι του αλγορίθµου Stacking C Για την ανάλυση των αποτελεσµάτων δεν έχουµε να σηµειώσουµε τίποτα διαφορετικό από την προηγούµενη µέθοδο Stacking αφού τα αποτελέσµατα είναι ακριβώς τα ίδια. Έτσι, η απόδοση και η ακρίβεια των αποτελεσµάτων φαίνονται στους πίνακες και , ενώ δεν µπορούµε να εντοπίσουµε ούτε εδώ τις κρίσιµες µεταβλητές για την πρόβλεψη της πτώχευσης Ανάλυση του αλγορίθµου Threshold Selector Η µέθοδος Threshold Selector έχει την ιδιότητα να βελτιώνει το µέτρο µέτρο-f µε την επιλογή ενός µεσαίου σηµείου του κατωφλίου από τα αποτελέσµατα πιθανότητας της ταξινόµησης. Οι πιθανότητες που προέρχονται από τον αλγόριθµο µάθησης βρίσκονται στο διάστηµα [0,1]. Αυτός ο αλγόριθµος µπορεί να εφαρµοστεί σε προβλήµατα πολλαπλών κλάσεων µε τον προσδιορισµό της τιµής της κλάσης για την οποία γίνεται η βελτιστοποίηση. Στην παρακάτω εικόνα βλέπουµε τις παραµέτρους που χρησιµοποιούνται στον εξεταζόµενο αλγόριθµο. 118

119 Εικόνα : Παράµετροι του αλγορίθµου Threshold Selector Στην παράµετρο Designed Class θέτουµε την τιµή της κλάσης για την οποία εκτελείται η βελτιστοποίηση. Οι επιλογές είναι: Πρώτη τιµή κλάσης (First class value) εύτερη τιµή κλάσης (Second class value) Ελάχιστη τιµή κλάσης (Least class value) Πιο συχνή τιµή κλάσης (Most frequent class value) Τιµή κλάσης χαρακτηρισµένη ως yes, 1, pos(itive) (Class value named: yes, pos(itive), 1 ). Εµείς έχουµε επιλέξει την τελευταία επιλογή. Στην παράµετρο Evaluation Mode θέτουµε τη µέθοδο που χρησιµοποιείται για να προσδιοριστεί το κατώφλι. Οι επιλογές είναι: Ολόκληρο το σύνολο εκπαίδευσης (Entire training set) Απλή επανάληψη αξιολόγησης (Single runed fold) (την οποία χρησιµοποιούµε) Επανάληψη N φορές τη µέθοδο της αξιολόγησης (N-Fold cross validation) Με την παράµετρο Μeasure επιλέγουµε το µέτρο που χρησιµοποιείται για την αξιολόγηση. Εµείς έχουµε επιλέξει το µέτρο-f και υπάρχουν επίσης τα µέτρα ακρίβειας, TRUE_POS, TRUE_NEG, TP_ποσοστό, ορθότητα και ανάκλησης. Με την παράµετρο Num X Val Folds θέτουµε τον αριθµό των επαναλήψεων της µεθόδου αξιολόγησης µέσω επαναλαµβανόµενων δοκιµών σε άγνωστα δεδοµένα. Αυτός ο αριθµός µειώνεται αυτόµατα εάν δεν υπάρχουν επαρκεί θετικά παραδείγµατα. Τέλος, µε την παράµετρο Range Correction θέτουµε το ποσοστό της πρόβλεψης που θα διορθωθεί κατά την εκτέλεση. Οι επιλογές είναι κανένα ποσοστό διόρθωσης την οποία χρησιµοποιούµε και η επιλογή διόρθωση βασισµένη στην µέγιστη / ελάχιστη παρατήρηση. Παρακάτω αναλύουµε την απόδοση και την ακρίβεια της ταξινόµησης για τον συγκεκριµένο αλγόριθµο. 119

120 Πίνακας : Στατιστικά αποτελέσµατα για του αλγορίθµου Threshold Selector Εκπαίδευση Μέθοδος αξιολόγησης µέσω επαναλαµβανόµενης δοκιµής Σωστή ταξινόµηση εγγραφών % % Εσφαλµένη ταξινόµηση εγγραφών % % K-στατιστικό µέγεθος Μέσο απόλυτο σφάλµα Μέσο τετραγωνικό σφάλµα Σχετικό απόλυτο σφάλµα 43.8 % % Σχετικό τετραγωνικό σφάλµα % % Όπως βλέπουµε από τον πίνακα η απόδοση της µεθόδου δεν είναι και τόσο ικανοποιητική. Τα λάθη ταξινόµησης στην εκπαίδευση του αλγορίθµου είναι 20 από τις 118 περιπτώσεις που το 1 ανήκει στις µη πτωχευµένες επιχειρήσεις και τα 19 στις πτωχευµένες. Μετά την εφαρµογή της µεθόδου αξιολόγησης µέσω επαναλαµβανόµενων δοκιµών σε άγνωστα δεδοµένα (cross validation) τα λάθη ταξινόµησης αυξήθηκαν κατά 10 (16 για την κλάση 1 και 14 για την 2). Εποµένως, η ακρίβεια της µεθόδου είναι εξίσου καλή και για τις δύο κλάσει επιχειρήσεων. Αυτό το διαπιστώνουµε και από τον παρακάτω πίνακα Πίνακας : Αποτελέσµατα ακρίβειας του αλγορίθµου Threshold Selector Ποσοστό TP Ποσοστό Περιοχή Ορθότητα Μέτρο-F -Ανάκληση FP ROC Κλάση Εκπαίδευση (µη πτώχευση) (πτώχευση) Μέθοδος (µη πτώχευση) αξιολόγησης (πτώχευση) Επίσης, ο εξεταζόµενος αλγόριθµος µας παρέχει κάποιες επιπλέον πληροφορίες για τις µεταβλητές των δειγµάτων µας ώστε να µπορούµε να εντοπίσουµε τις κρίσιµες µεταβλητές για την πρόβλεψη της πτώχευσης. Αυτές οι πληροφορίες είναι ακριβώς ίδιες µε αυτές του λογιστικού αλγορίθµου και παρουσιάζονται στον πίνακα Εποµένως, τα συµπεράσµατα είναι ακριβώς τα ίδια, δηλαδή η κρίσιµη µεταβλητή είναι η Χ3 η οποία αποτελεί τον αριθµοδείκτη ταχύτητας κυκλοφορίας ενεργητικού και άρα τα περιουσιακά στοιχεία µε τις καθαρές πωλήσεις έχουν σηµαντικό ρόλο για την πρόβλεψη της πτώχευσης Ανάλυση του αλγορίθµου Vote Ο αλγόριθµος ταξινόµησης Vote (Ludmila & Kuncheva, 2004) παρέχει µια βασική µέθοδο για τον συνδυασµό ταξινοµητών µε τη χρήση των µέσων όρων των πιθανοτήτων εκτίµησης (ταξινόµηση) ή µε τις αριθµητικές προβλέψεις (παλινδρόµηση). Οι παράµετροι που χρησιµοποιούνται σε αυτόν τον αλγόριθµο φαίνονται στην παρακάτω εικόνα όπου µε την παράµετρο Combination Rule επιλέγουµε τους συνδυασµούς των κανόνων που χρησιµοποιούνται. Οι επιλογές είναι: Μέσος όρος πιθανοτήτων (Average of Probabilities) (την οποία χρησιµοποιούµε) Παραγωγή πιθανοτήτων (Product of Probabilities) Πλειοψηφία ψηφοφορίας (Majority Voting) Ελάχιστη πιθανότητα (Minimum Probability) Μέγιστη πιθανότητα (Maximum Probability) ιάµεσος (Median) 120

121 Εικόνα : Παράµετροι του αλγορίθµου Vote Για την ανάλυση των αποτελεσµάτων της µεθόδου παρατηρούµε ότι τα αποτελέσµατα αυτά είναι ακριβώς τα ίδια µε της µεθόδου Multi Scheme για το σύνολο των δεδοµένων µας. Στους πίνακες και παρουσιάζονται αυτά τα αποτελέσµατα και άρα τα συµπεράσµατα και η ανάλυσή τους είναι ακριβώς ίδια µε αυτά της προαναφερόµενης µεθόδου. Και εδώ είναι φυσικό ότι δεν µπορούµε να εντοπίσουµε τις κρίσιµες µεταβλητές για την πρόβλεψη της πτώχευσης Σύγκριση αποτελεσµάτων των µεθόδων µετα-µάθησης (Metalearning) Τελειώνοντας την ανάλυση των µεθόδων µετα-µάθησης, κάνουµε µια σύγκριση µεταξύ αυτών ώστε να δούµε ποια είναι πιο αποδοτική και άρα πιο κατάλληλη µέθοδο για την πρόβλεψη των πτωχευµένων και µη επιχειρήσεων στο σύνολο των δεδοµένων µας. Ο πίνακας συγκρίνει τους αλγορίθµους µετα-µάθησης χρησιµοποιώντας τα ποσοστά σφάλµατος που αποτελούν τα πιο σηµαντικά µέτρα για την απόδοση των µεθόδων. Πίνακας : Μέτρα σφάλµατος για τα µοντέλα πρόβλεψης µε χρήση µετα-µάθησης Εσφαλµένη ταξινόµηση εγγραφών Μέσο απόλυτο σφάλµα Μέσο τετραγωνικό σφάλµα Σχετικό απόλυτο σφάλµα Σχετικό τετραγωνικό σφάλµα Ada Boost M % % % Ταξινοµητής Επιλεγµένων % % % Χαρακτηριστικών Bagging % % % Ταξινόµησης µέσω Παλινδρόµησης % % % CVPS % % 100 % Dagging % % % Decorate % % % END % % % Ensemble Selection % % % Filtered Classifier % % % Ιεράρχησης % % % Logistic Boost % % % Multi Boost AB % % % Ταξινοµητής Πολλαπλής Κλάσης % % % Multi Scheme % % 100 % Ταξινοµητής Ordinal Class % % % RILB % % 100 % RandomCommittee % % % Random Sub Space % % % Sracking % % 100 % Sracking C % % 100 % Threshold Selector % % % Voted % % 100 % 121

122 Εποµένως, όπως βλέπουµε από τον παραπάνω πίνακα είναι φανερό ότι ο αλγόριθµος Random Committee είναι o πιο αποδοτικός και αξιόπιστος αφού έχει τα µικρότερα ποσοστά σφάλµατος και ακολουθεί αµέσως µετά ο αλγόριθµος Ada Boost M1. Οι κρίσιµες µεταβλητές που αντιστοιχούν στους πιο σηµαντικούς αλγορίθµους είναι η Χ1 για τον Random Committee η οποία ορίζεται ως τις καθαρές πωλήσεις προς τα µεικτά κέρδη, ενώ για τον αλγόριθµο Ada Boost M1 η κρίσιµη µεταβλητή είναι η Χ3 η οποία αποτελεί τον αριθµοδείκτη ταχύτητας κυκλοφορίας ενεργητικού. ηλαδή τα κέρδη και τα περιουσιακά στοιχεία έχουν σηµαντικό ρόλο για την πρόβλεψη της πτώχευσης. Στη συνέχεια θα αναλύσουµε τον καλύτερο αλγόριθµο που είναι ο Random Committee µε την µέθοδο αξιολόγησης των νέων άγνωστων δεδοµένων (holdout). Έτσι, από τον παρακάτω πίνακας βλέπουµε την απόδοση και αξιοπιστία του αλγορίθµου. Πίνακας : Στατιστικά αποτελέσµατα για του αλγορίθµου Random Committee Εκπαίδευση Μέθοδος αξιολόγησης νέων άγνωστων δεδοµένων Σωστή ταξινόµηση εγγραφών 100 % % Εσφαλµένη ταξινόµηση εγγραφών 0 % % K-στατιστικό µέγεθος Μέσο απόλυτο σφάλµα Μέσο τετραγωνικό σφάλµα Σχετικό απόλυτο σφάλµα 100 % % Σχετικό τετραγωνικό σφάλµα 100 % % Εποµένως, παρατηρούµε ότι ενώ στην εκπαίδευση του αλγορίθµου η απόδοσή του είναι άριστη µε µηδενικά ποσοστά σφάλµατος, µε την εφαρµογή της µεθόδου αξιολόγησης των νέων άγνωστων δεδοµένων (holdout) η απόδοση έπεσε σηµαντικά αφού τα µέτρα σφάλµατος είναι µεγάλα, πιο συγκεκριµένα έχουµε 11 λανθασµένες ταξινοµήσεις από τις 38 (6 για την κλάση 1 και 5 για την 2). Άρα και η αξιοπιστία της µεθόδου έχει µειωθεί και αυτό φαίνεται από τον παρακάτω πίνακα Πίνακας : Αποτελέσµατα ακρίβειας του αλγορίθµου Random Committee Ποσοστό TP Ποσοστό Περιοχή Ορθότητα Μέτρο-F -Ανάκληση FP ROC Κλάση Εκπαίδευση (µη πτώχευση) (πτώχευση) Μέθοδος (µη πτώχευση) αξιολόγησης (πτώχευση) Τέλος, θα κάνουµε την ίδια ανάλυση και για τον δεύτερο σηµαντικό αλγόριθµο της κατηγορίας µετα- µάθησης, τον Ada Boost M1. 122

123 Πίνακας : Στατιστικά αποτελέσµατα για του αλγορίθµου Ada Boost M1 Εκπαίδευση Μέθοδος αξιολόγησης νέων άγνωστων δεδοµένων Σωστή ταξινόµηση εγγραφών 97.5 % % Εσφαλµένη ταξινόµηση εγγραφών 2.5 % % K-στατιστικό µέγεθος Μέσο απόλυτο σφάλµα Μέσο τετραγωνικό σφάλµα Σχετικό απόλυτο σφάλµα % % Σχετικό τετραγωνικό σφάλµα % % Εποµένως, παρατηρώντας τον παραπάνω πίνακα διαπιστώνουµε ακριβώς το ίδιο µε την προηγούµενη µέθοδο, δηλαδή η απόδοση της µεθόδου µειώνεται αρκετά µετά την εφαρµογή της µεθόδου αξιολόγησης των νέων άγνωστων δεδοµένων (holdout). Η ακρίβεια της ταξινόµησης και αυτή έχει µειωθεί, πιο συγκεκριµένα έχουµε 13 λάθη ταξινόµησης από τα 38 που τα 9 ανήκουν στις µη πτωχευµένες επιχειρήσεις και τα 4 στις πτωχευµένες. Αυτά µπορούµε να τα διαπιστώσουµε και από τον παρακάτω πίνακα Πίνακας : Αποτελέσµατα ακρίβειας του αλγορίθµου Ada Boost M1 Ποσοστό TP Ποσοστό Περιοχή Ορθότητα Μέτρο-F -Ανάκληση FP ROC Κλάση Εκπαίδευση (µη πτώχευση) (πτώχευση) Μέθοδος (µη πτώχευση) αξιολόγησης (πτώχευση) 5.7 ιάφοροι άλλοι αλγόριθµοι (Miscellaneous) Η συγκεκριµένη κατηγορία αλγορίθµων περιλαµβάνει δύο απλούς ταξινοµητές όπου περιγράφονται και αναλύονται παρακάτω Ανάλυση του αλγορίθµου Hyper Pipes Ο αλγόριθµος µάθησης Hyper Pipes χρησιµοποιείται για διακεκριµένα προβλήµατα ταξινόµησης, καταγράφει τη γκάµα των τιµών που παρατηρούνται από τα δεδοµένα εκπαίδευσης για κάθε χαρακτηριστικό και κατηγορία και υπολογίζει ποια σύνολα περιέχουν τις τιµές των χαρακτηριστικών σε µια δοκιµή, επιλέγοντας την κατηγορία µε το µεγαλύτερο αριθµό των σωστών συνόλων. Ο αλγόριθµος αυτός είναι εξαιρετικά απλός και έχει το πλεονέκτηµα να εκτελεί τις λειτουργίες του αρκετά γρήγορα. Η µοναδική παράµετρο που έχει η µέθοδος αυτή και είναι η διερεύνηση σφαλµάτων. Στη συνέχεια ακολουθεί η ανάλυση της εξεταζόµενης µεθόδου, η αξιοπιστία και η ακρίβεια ταξινόµησης των περιπτώσεων. 123

124 Πίνακας 5.7.1: Στατιστικά αποτελέσµατα για τον αλγόριθµο Hyper Pipes Εκπαίδευση Μέθοδος αξιολόγησης µέσω επαναλαµβανόµενης δοκιµής Σωστή ταξινόµηση εγγραφών % % Εσφαλµένη ταξινόµηση εγγραφών % % K-στατιστικό µέγεθος Μέσο απόλυτο σφάλµα Μέσο τετραγωνικό σφάλµα Σχετικό απόλυτο σφάλµα % % Σχετικό τετραγωνικό σφάλµα % % Σύµφωνα µε τον πίνακα διαπιστώνουµε ότι η απόδοση της µεθόδου δεν είναι αποδοτική γιατί τα ποσοστά σφάλµατος είναι αρκετά µεγάλα. Πιο συγκεκριµένα, στην εκπαίδευση του αλγορίθµου είχαµε 30 λανθασµένες ταξινοµήσεις από τις 118 περιπτώσεις όπου και οι 30 ανήκουν στις πτωχευµένες επιχειρήσεις, ενώ µετά την εφαρµογή της µεθόδου αξιολόγησης µέσω επαναλαµβανόµενων δοκιµών σε άγνωστα δεδοµένα (cross validation) τα σφάλµατα ταξινόµησης αυξήθηκαν κατά 4 (3 για την κλάση 1 και 31 για την 2). Εποµένως, η µέθοδος αυτή είναι αρκετά ακριβής για τις πτωχευµένες επιχειρήσεις σε αντίθεση µε τις µη πτωχευµένες, όπως µπορούµε να διαπιστώσουµε και από τον παρακάτω πίνακα Πίνακας 5.7.2: Αποτελέσµατα ακρίβειας του αλγορίθµου Hyper Pipes Ποσοστό TP Ποσοστό Περιοχή Ορθότητα Μέτρο-F -Ανάκληση FP ROC Κλάση Εκπαίδευση (µη πτώχευση) (πτώχευση) Μέθοδος (µη πτώχευση) αξιολόγησης (πτώχευση) Τέλος, δεν µπορούµε να διακρίνουµε ποιες µεταβλητές είναι κρίσιµες για την πρόβλεψη της πτώχευσης γιατί δεν εξάγει ο αλγόριθµος πληροφορίες που να αφορούν αυτές Ανάλυση του αλγορίθµου Voting Feature Intervals (VFI) Ο αλγόριθµος VFI (voting feature intervals) (Demiroz & Guvenir, 1997) κατασκευάζει διαστήµατα γύρω από την κάθε κλάση µε διακριτοποίηση των αριθµητικών χαρακτηριστικών και µε χρήση των διαστηµάτων σηµείου για κάθε ονοµαστικό χαρακτηριστικό. Καταγράφει τον αριθµό των κλάσεων για κάθε διάστηµα του κάθε χαρακτηριστικού, και ταξινοµεί τα παραδείγµατα δοκιµής µε τη µέθοδο της ψηφοφορίας. Αυτή η µέθοδος είναι γρηγορότερη από την Naïve Bayes αλλά πιο αργή από την Hyper Pipes. Στην παρακάτω εικόνα φαίνονται οι παράµετροι που χρησιµοποιούνται στον συγκεκριµένο αλγόριθµο. 124

125 Εικόνα 5.7.1: Παράµετροι του αλγορίθµου VFI Η παράµετρος Bias δείχνει τη δύναµη της µεροληψίας προς τα πιο βέβαια χαρακτηριστικά. Εµείς έχουµε επιλέξει αυθαίρετα την τιµή 0.6. Με την παράµετρο Weight By Confidence επιλέγουµε τα διαστήµατα των βαρών των χαρακτηριστικών µε κριτήριο τη βεβαιότητα. Παρακάτω αναλύουµε την απόδοση και την αξιοπιστία της µεθόδου καθώς και την ακρίβεια στις ταξινοµήσεις των παραδειγµάτων. Πίνακας 5.7.3: Στατιστικά αποτελέσµατα για τον αλγόριθµο VFI Εκπαίδευση Μέθοδος αξιολόγησης µέσω επαναλαµβανόµενης δοκιµής Σωστή ταξινόµηση εγγραφών % % Εσφαλµένη ταξινόµηση εγγραφών % % K-στατιστικό µέγεθος Μέσο απόλυτο σφάλµα Μέσο τετραγωνικό σφάλµα Σχετικό απόλυτο σφάλµα % % Σχετικό τετραγωνικό σφάλµα % % Ο πίνακας µας πληροφορεί ότι η απόδοση της µεθόδου δεν είναι και τόσο αποδοτική γιατί τα ποσοστά σφάλµατος είναι σχετικά µεγάλα. Πιο συγκεκριµένα, στην εκπαίδευση του αλγορίθµου είχαµε 33 λανθασµένες ταξινοµήσεις από τις 118 περιπτώσεις όπου οι 3 ανήκουν στις µη πτωχευµένες και οι 30 στις πτωχευµένες. Μετά την εφαρµογή της µεθόδου αξιολόγησης µέσω επαναλαµβανόµενων δοκιµών σε άγνωστα δεδοµένα (cross validation) οι λανθασµένες ταξινοµήσεις αυξήθηκαν κατά 8 (15 για την κλάση 1 και 26 για την 2). Εποµένως, συµπεραίνουµε ότι η µέθοδος δεν είναι και τόσο αξιόπιστη κυρίως για την πρόβλεψη των πτωχευµένων επιχειρήσεων όπως µπορούµε να διακρίνουµε από τον παρακάτω πίνακα Πίνακας 5.7.4: Αποτελέσµατα ακρίβειας του αλγορίθµου VFI Ποσοστό TP Ποσοστό Περιοχή Ορθότητα Μέτρο-F -Ανάκληση FP ROC Κλάση Εκπαίδευση (µη πτώχευση) (πτώχευση) Μέθοδος (µη πτώχευση) αξιολόγησης (πτώχευση) 125

126 Για τις κρίσιµες µεταβλητές δεν µπορούµε να προσθέσουµε τίποτα γιατί ο αλγόριθµος δεν παρέχει αποτελέσµατα που να αφορούν τις µεταβλητές και άρα δεν µπορούµε να εντοπίσουµε ποιες είναι οι πιο βασικές για την πρόβλεψη της πτώχευσης Σύγκριση αποτελεσµάτων των διάφορων άλλων αλγορίθµων (Miscellaneous) Συνεχίζοντας την ανάλυση των µεθόδων της συγκεκριµένης κατηγορίας παρακάτω κάνουµε µια σύγκριση µεταξύ αυτών ώστε να δούµε ποια είναι πιο αποδοτική και άρα πιο κατάλληλη µέθοδος για την πρόβλεψη των πτωχευµένων επιχειρήσεων στο σύνολο των δεδοµένων µας. Παρατηρώντας τα ποσοστά σφάλµατος και για τις δύο µεθόδους της κατηγορίας αυτής, τα οποία αποτελούν σηµαντικό κριτήριο σύγκρισης, διαπιστώνουµε ότι και οι δύο αλγόριθµοι έχουν σηµαντικά µεγάλα ποσοστά σφάλµατος, ο αλγόριθµος Hyper Pipes έχει µικρότερες τιµές σφαλµάτων και άρα είναι πιο αποδοτικός. Παρακάτω, αναλύουµε αυτόν τον αλγόριθµο χρησιµοποιώντας τη µέθοδο αξιολόγησης των νέων άγνωστων δεδοµένων (holdout). Πίνακας 5.7.5: Στατιστικά αποτελέσµατα για τον αλγόριθµο Hyper Pipes Εκπαίδευση Μέθοδος αξιολόγησης νέων άγνωστων δεδοµένων Σωστή ταξινόµηση εγγραφών 92.5 % % Εσφαλµένη ταξινόµηση εγγραφών 7.5 % % K-στατιστικό µέγεθος Μέσο απόλυτο σφάλµα Μέσο τετραγωνικό σφάλµα Σχετικό απόλυτο σφάλµα % % Σχετικό τετραγωνικό σφάλµα % % Σύµφωνα µε τον παραπάνω πίνακα διαπιστώνουµε ότι µε την εφαρµογή της αναφερόµενης µεθόδου (holdout) η απόδοση του αλγορίθµου ελαττώνεται σηµαντικά αφού τα ποσοστά σφάλµατος αυξάνονται, πιο συγκεκριµένα οι λανθασµένες ταξινοµήσεις είναι 11 από τις 36 περιπτώσεις (6 για την κλάση 1 και 5 για την 2). Άρα, η ακρίβεια και αξιοπιστία του αλγορίθµου µειώνεται και αυτό φαίνεται από τον παρακάτω πίνακα Πίνακας 5.7.6: Αποτελέσµατα ακρίβειας του αλγορίθµου Hyper Pipes Ποσοστό TP Ποσοστό Περιοχή Ορθότητα Μέτρο-F -Ανάκληση FP ROC Κλάση Εκπαίδευση (µη πτώχευση) (πτώχευση) Μέθοδος (µη πτώχευση) αξιολόγησης (πτώχευση) Τέλος, καµία από τις µεθόδους της κατηγορίας αυτής δεν παρέχει αποτελέσµατα που να αφορούν τις µεταβλητές για τον εντοπισµό των κρίσιµων µεταβλητών για την πρόβλεψη της πτώχευσης. 5.8 Κατηγορία αλγορίθµων ένδρα (Trees) Οι αλγόριθµοι µάθησης της συγκεκριµένης κατηγορίας έχουν την ιδιότητα να κατασκευάζουν διάφορα δένδρα ως απεικονίσεις των αποτελεσµάτων Ανάλυση του αλγορίθµου ADTree Η µέθοδος ADTree (alternating decision tree) (Freund & Mason, 1999) κατασκευάζει ένα εναλλακτικό δένδρο απόφασης χρησιµοποιώντας τη µέθοδο Boosting (βλέπε παράρτηµα Β). Αυτή η έκδοση του αλγορίθµου είναι βελτιωµένη στα προβλήµατα δύο κλάσεων. Ο αριθµός των Boosting 126

127 επαναλήψεων αποτελεί παράµετρος που επιλέγουµε για να ταιριάξουµε τα δεδοµένα µας και για την επιθυµητή πολυπλοκότητα-ακρίβεια αυτών. Κάθε επανάληψη προσθέτει τρεις κόµβους στο δένδρο (ένα τµηµατοποιηµένο και δύο κόµβους πρόβλεψης) εκτός και αν οι κόµβοι µπορούν να συγχωνευθούν. Στην παρακάτω εικόνα φαίνονται όλοι οι παράµετροι που χρησιµοποιούνται στον αλγόριθµο αυτό. Εικόνα 5.8.1: Παράµετροι του αλγορίθµου ADTree Στην παράµετρο Νum Of Boosting Iterations επιλέγουµε τον αριθµό των boosting επαναλήψεων. Όσες περισσότερες επαναλήψεις εκτελούνται, τόσο µεγαλύτερα δένδρα προκύπτουν, συνήθως πιο ακριβή, αλλά αυξάνεται ο ρυθµός µάθησης. Εµείς αυθαίρετα επιλέξαµε την τιµή των 10 επαναλήψεων. Στην παράµετρο Random seed θέτουµε έναν τυχαίο σπόρο ο οποίος χρησιµοποιείται για την τυχαία έρευνα. Αυθαίρετα έχουµε επιλέξει την τιµή µηδέν σ αυτή τη παράµετρο. Η παράµετρος Save Instance Data χρησιµοποιείται όταν θέλουµε το δένδρο να αποθηκεύσει δεδοµένα παραδειγµάτων, το µοντέλο µπορεί να απορροφήσει περισσότερη µνήµη αν χρειαστεί. Αν µας επιτρέπεται, µπορούµε να δούµε τα παραδείγµατα στους κόµβους πρόβλεψης όταν απεικονίζεται το δένδρο. Εµείς δεν χρησιµοποιούµε αυτή τη παράµετρο. Στην τελευταία παράµετρο, την Search Path, επιλέγουµε το είδος της έρευνας η οποία εκτελείται όταν κατασκευάζεται το δένδρο. Έτσι, εµείς έχουµε επιλέξει αυθαίρετα την επιλογή Expand all paths η οποία εκτελεί µια εξονυχιστική έρευνα. Μια άλλη µέθοδος έρευνας είναι η Heuristic η οποία δεν εγγυάται ότι θα βρει µια βελτιωµένη λύση αλλά είναι πολύ γρήγορη. Η επιλογή Expand the heaviest path ψάχνει το µονοπάτι µε το πιο µεγάλο βάρος των παραδειγµάτων. Στη συνέχεια, η επιλογή Expand the best z-pure path ψάχνει το µονοπάτι που προσδιορίζεται µε τον καλύτερο z-pure εκτιµητή. Τέλος, η επιλογή Expand a random path αποτελεί την γρηγορότερη µέθοδο η οποία απλά ψάχνει ένα µοναδικό τυχαίο µονοπάτι για κάθε παράδειγµα. Παρακάτω αναλύουµε την απόδοση και αξιολόγηση της εξεταζόµενης µεθόδου καθώς και την ακρίβεια της ταξινόµησης. Πίνακας:5.8.1: Στατιστικά αποτελέσµατα για τον αλγόριθµο ADTree Εκπαίδευση Μέθοδος αξιολόγησης µέσω επαναλαµβανόµενης δοκιµής Σωστή ταξινόµηση εγγραφών % % Εσφαλµένη ταξινόµηση εγγραφών % % K-στατιστικό µέγεθος Μέσο απόλυτο σφάλµα Μέσο τετραγωνικό σφάλµα Σχετικό απόλυτο σφάλµα % % Σχετικό τετραγωνικό σφάλµα % % 127

128 Από τον πίνακα διαπιστώνουµε ότι η απόδοση της συγκεκριµένης µεθόδου δεν είναι ικανοποιητική αφού τα ποσοστά σφάλµατος δεν είναι µικρά. Πιο συγκεκριµένα, στην εκπαίδευση του αλγορίθµου είχαµε 7 λανθασµένες ταξινοµήσεις από τις 118 περιπτώσεις όπου οι 3 ανήκουν στις µη πτωχευµένες επιχειρήσεις και οι 4 στις πτωχευµένες. Μετά την εφαρµογή της µεθόδου αξιολόγησης µέσω επαναλαµβανόµενων δοκιµών σε άγνωστα δεδοµένα (cross validation) τα σφάλµατα ταξινόµησης αυξήθηκαν κατά 17 (12 για κάθε κλάση). Εποµένως, συµπεραίνουµε ότι η αξιοπιστία και ακρίβεια της µεθόδου είναι εξίσου µέτριας απόδοσης και για της δύο κλάσει επιχειρήσεων όπως µπορούµε να δούµε και από τον παρακάτω πίνακα Πίνακας 5.8.2: Αποτελέσµατα ακρίβειας του αλγορίθµου ADTree Ποσοστό TP Ποσοστό Περιοχή Ορθότητα Μέτρο-F -Ανάκληση FP ROC Κλάση Εκπαίδευση (µη πτώχευση) (πτώχευση) Μέθοδος (µη πτώχευση) αξιολόγησης (πτώχευση) Η µεθοδολογία αυτή µας παρέχει κάποιες επιπλέον πληροφορίες για την ταξινόµηση των επιχειρήσεων που αφορούν τις µεταβλητές από τις οποίες µπορούµε να εντοπίσουµε τις κρίσιµες. Οι πληροφορίες αυτές απεικονίζονται µε τη µορφή δένδρων τύπου AD και φαίνεται στο παρακάτω σχήµα Σχήµα 5.8.1: ένδρο της µορφής AD Όπως βλέπουµε από την παραπάνω εικόνα, το δένδρο αυτό έχει µέγεθος 31 και φύλα 21 και ξεκινάει από έναν κόµβο απόφασης. Αυτός ο κόµβος µας πληροφορεί ότι η τάξη 1 (µη πτωχευµένες επιχειρήσεις) αντιστοιχούν σε αρνητικές τιµές, ενώ η τάξη 2 (πτωχευµένες επιχειρήσεις) αντιστοιχούν σε θετικές τιµές. Εποµένως, παίρνοντας ως παράδειγµα ένα τυχαίο κλαδί του δένδρου, µπορούµε να το ερµηνεύσουµε ως εξής: Αν Χ3 >= και Χ3 < 0.07 τότε η ταξινόµηση είναι της κλάσης 1 (µη πτώχευση) Αυτό το αποτέλεσµα προκύπτει από τις τιµές που αντιστοιχούν στις µεταβλητές. ηλαδή για την Χ3 >= αντιστοιχεί η τιµή και για την Χ3 < 0.07 αντιστοιχεί η τιµή 0.41, το άθροισµα των τιµών αυτών είναι µια αρνητική τιµή όπου αντιστοιχεί, όπως είπαµε στην αρχική απόφαση, ότι η 128

129 ταξινόµηση είναι της κλάσεως 1. Με αυτόν τον τρόπο µπορούµε να αναλύσουµε όλα τα κλαδιά του δένδρου. Τις πληροφορίες που παίρνουµε για τις µεταβλητές είναι ότι οι Χ3, Χ10, Χ27 και Χ2 αποτελούν τις κρίσιµες µεταβλητές για την πρόβλεψη της πτώχευσης, αλλά η πιο βασική απ όλες είναι η Χ2 γιατί αποτελείται από 9 συγχωνευµένους κόµβους. Εποµένως, η Χ2 ως χρηµατοοκονοµικός δείκτης ορίζεται ως τα µεικτά κέρδη προς το σύνολο ενεργητικού, δηλαδή τα κέρδη και τα περιουσιακά στοιχεία έχουν σηµαντικό ρόλο για την πρόβλεψη της πτώχευσης Ανάλυση του αλγορίθµου BFTree Ο αλγόριθµος BFTree (Haijan Shi, 2007) δηµιουργεί το πρώτο καλύτερο δένδρο αποφάσεων. Αυτός ο ταξινοµητής χρησιµοποιεί δυαδικό διαµερισµό για τα αριθµητικά και ονοµαστικά χαρακτηριστικά. Η µέθοδος κλασµατική (fractional) χρησιµοποιείται για τις ελλιπείς τιµές. Στην παρακάτω εικόνα παρουσιάζονται οι παράµετροι που χρησιµοποιούνται στη συγκεκριµένη µέθοδο για την πειραµατική εφαρµογή. Εικόνα 5.8.2: Παράµετροι του αλγορίθµου BFTree Η παράµετρος Heuristic επιλέγεται εάν θέλουµε να χρησιµοποιηθεί η ευρετική έρευνα για τον δυαδικό διαµερισµό των ονοµαστικών χαρακτηριστικών. Στην παράµετρο Min Num Obj θέτουµε τον ελάχιστο αριθµό παραδειγµάτων στους τερµατικούς κόµβους. Εµείς έχουµε επιλέξει αυθαίρετα την τιµή 2. Στην παράµετρο Num Folds Pruning επιλέγουµε τον αριθµό των επαναλήψεων εσωτερικά της µεθόδου αξιολόγησης µέσω επαναλαµβανόµενων δοκιµών σε άγνωστα δεδοµένα. Εδώ έχουµε επιλέξει αυθαίρετα την τιµή 5. Στην παράµετρο Pruning Strategy επιλέγουµε τη στρατηγική «κλαδέµατος». Έχουµε επιλέξει την εκ τον υστέρων «κλάδεµα» (Post-pruning) και υπάρχουν επιπλέον οι επιλογές όχι «κλάδεµα» (Un-pruned) και εκ τον προτέρων «κλάδεµα» (Pre-pruning). Στην παράµετρο Size Per επιλέγουµε το ποσοστό του µεγέθους των δεδοµένων εκπαίδευσης και παίρνει τιµές από τον µηδέν έως το ένα. Εµείς έχουµε επιλέξει την τιµή ένα. Η παράµετρος Use Error Rate επιλέγεται εάν θέλουµε το ποσοστό σφάλµατος να χρησιµοποιείται ως εκτιµητής σφάλµατος. Εάν δεν επιλεχθεί αυτή η παράµετρος τότε χρησιµοποιείται το µέσο τετραγωνικό σφάλµα. Η παράµετρος Use Gini χρησιµοποιείται εάν ο δείκτης Gini που χρησιµοποιείται για το κριτήριο διαµερισµού είναι αληθής, διαφορετικά χρησιµοποιείται η πληροφορία. 129

130 Τέλος, στην παράµετρο Use One SE χρησιµοποιείται ο 1 SE κανόνας για να δηµιουργηθεί τµηµατοποιηµένη απόφαση. Εµείς δεν χρησιµοποιούµε αυτή την παράµετρο. Στη συνέχεια αναλύουµε την απόδοση και αξιοπιστία του αλγορίθµου καθώς και την ακρίβεια της ταξινόµησης παραδειγµάτων. Πίνακας 5.8.3: Στατιστικά αποτελέσµατα για τον αλγόριθµο BFTree Εκπαίδευση Μέθοδος αξιολόγησης µέσω επαναλαµβανόµενης δοκιµής Σωστή ταξινόµηση εγγραφών % % Εσφαλµένη ταξινόµηση εγγραφών % % K-στατιστικό µέγεθος Μέσο απόλυτο σφάλµα Μέσο τετραγωνικό σφάλµα Σχετικό απόλυτο σφάλµα % % Σχετικό τετραγωνικό σφάλµα % % Σύµφωνα µε τον πίνακα 5.8.3, συµπεραίνουµε ότι η συγκεκριµένη µέθοδος είναι αρκετά αποδοτική αφού τα ποσοστά σφάλµατος είναι µικρά. Με την εκπαίδευση του αλγορίθµου τα λάθη ταξινόµησης ήταν 14 από τις 118 περιπτώσεις όπου τα 5 ανήκουν στις µη πτωχευµένες επιχειρήσεις και τα 9 στις πτωχευµένες. Μετά την εφαρµογή της µεθόδου αξιολόγησης µέσω επαναλαµβανόµενων δοκιµών σε άγνωστα δεδοµένα (cross validation) τα λάθη ταξινόµησης αυξήθηκαν κατά 6 (11 για την κλάση 1 και 9 για την 2). Εποµένως, συµπεραίνουµε ότι η αξιοπιστία της µεθόδου είναι αρκετά καλή και µπορούµε να το διαπιστώσουµε από τον παρακάτω πίνακα Πίνακας 5.8.4: Αποτελέσµατα ακρίβειας του αλγορίθµου BFTree Ποσοστό TP Ποσοστό Περιοχή Ορθότητα Μέτρο-F -Ανάκληση FP ROC Κλάση Εκπαίδευση (µη πτώχευση) (πτώχευση) Μέθοδος (µη πτώχευση) αξιολόγησης (πτώχευση) Τέλος, στο παρακάτω σχήµα παρουσιάζουµε το πρώτο καλύτερο δένδρο αποφάσεων από το οποίο µπορούµε να πάρουµε πληροφορίες για τις κρίσιµες µεταβλητές του προβλήµατος της πτώχευσης. Σχήµα 5.8.2: Πρώτο Καλύτερο ένδρο Αποφάσεων Εποµένως, σύµφωνα µε το παραπάνω δένδρο µπορούµε να πούµε ότι αυτό έχει µέγεθος 5 και αποτελείται από 3 φύλλα. Επίσης, έχουµε 14 εσφαλµένες ταξινοµήσεις από τις οποίες οι 9 ανήκουν στις µη πτωχευµένες επιχειρήσεις και οι 5 στις πτωχευµένες. 130

131 Τέλος, παρατηρούµε ότι οι κρίσιµες µεταβλητές για την πρόβλεψη της πτώχευσης είναι η Χ3 που βρίσκεται στη ρίζα του δένδρου και άρα είναι η πιο σηµαντική και στη συνέχεια είναι η Χ16. Η µεταβλητή Χ3 αποτελεί τον αριθµοδείκτη ταχύτητας κυκλοφορίας ενεργητικού ενώ η Χ16 ορίζεται ως το σύνολο των υποχρεώσεων προς το σύνολο ενεργητικού και άρα τα περιουσιακά στοιχεία µε τις καθαρές πωλήσεις και τις υποχρεώσεις έχουν σηµαντικό ρόλο για την πρόβλεψη της πτώχευσης Ανάλυση του αλγορίθµου Decision Stump Ο αλγόριθµος Decision Stump (Καλαπανίδας, 2003) είναι µία ειδική περίπτωση δένδρου απόφασης. Περιέχει µόνο ένα επίπεδο από το δένδρο, δηλαδή µόνο ένα κόµβο ελέγχου και δύο φύλλα, εποµένως, µπορεί να προβλέψει µόνο δύο κλάσεις της εξαρτηµένης µεταβλητής. Είναι σχεδιασµένος για να χρησιµοποιείται σε συνδυασµό µε τη µέθοδο boosting (βλέπε παράρτηµα Β) και αντιµετωπίζει τις ελλιπείς τιµές ως ξεχωριστές τιµές και επεκτείνεται από το δένδρο ένα τρίτο κλαδί για αυτές τις τιµές. Θεωρείται αποτελεσµατικός σε προβλήµατα δύο κλάσεων, παρόλη την απλότητα του µοντέλου που κατασκευάζει. Τέλος, χρησιµοποιεί στην πειραµατική εφαρµογή µόνο µια παράµετρος, την διερεύνηση σφαλµάτων. Στη συνέχεια γίνεται ανάλυση του αλγόριθµου στην απόδοση και αξιοπιστία καθώς και στην ακρίβεια της ταξινόµησης. Πίνακας 5.8.5: Στατιστικά αποτελέσµατα για τον αλγόριθµο Decision Stump Εκπαίδευση Μέθοδος αξιολόγησης µέσω επαναλαµβανόµενης δοκιµής Σωστή ταξινόµηση εγγραφών % % Εσφαλµένη ταξινόµηση εγγραφών % % K-στατιστικό µέγεθος Μέσο απόλυτο σφάλµα Μέσο τετραγωνικό σφάλµα Σχετικό απόλυτο σφάλµα % % Σχετικό τετραγωνικό σφάλµα % % Από τον πίνακα διαπιστώνουµε ότι η µέθοδος είναι αρκετά αποδοτική αφού τα ποσοστά σφάλµατος είναι σχετικά µικρά. Πιο συγκεκριµένα στην εκπαίδευση του αλγορίθµου είχαµε 17 λανθασµένες ταξινοµήσεις από τις 118 περιπτώσεις όπου οι 11 ανήκουν στις µη πτωχευµένες επιχειρήσεις και οι 6 στις πτωχευµένες. Μετά την εφαρµογή της µεθόδου αξιολόγησης µέσω επαναλαµβανόµενων δοκιµών σε άγνωστα δεδοµένα (cross validation) οι εσφαλµένες ταξινοµήσεις αυξήθηκαν κατά 2 (12 για την κλάση 1 και 7 για την 2). Εποµένως, συµπεραίνουµε ότι η ακρίβεια της ταξινόµησης είναι αρκετά µεγάλη κυρίως για τις πτωχευµένες επιχειρήσεις όπως φαίνεται και από τον παρακάτω πίνακα Πίνακας 5.8.6: Αποτελέσµατα ακρίβειας του αλγορίθµου Decision Stump Ποσοστό TP Ποσοστό Περιοχή Ορθότητα Μέτρο-F -Ανάκληση FP ROC Κλάση Εκπαίδευση (µη πτώχευση) (πτώχευση) Μέθοδος (µη πτώχευση) αξιολόγησης (πτώχευση) Επίσης, η συγκεκριµένη µεθοδολογία µας παρέχει πληροφορίες που αφορούν τις µεταβλητές των δειγµάτων και έτσι µπορούµε να εντοπίσουµε τις κρίσιµες µεταβλητές για το πρόβληµα της πτώχευσης. Αυτές οι πληροφορίες βρίσκονται στη µορφή Decision Stump, δηλαδή είναι δυαδικό δένδρο απόφασης και απεικονίζεται στην παρακάτω εικόνα

132 Σχήµα 5.8.3: Decision Stump - υαδικό δένδρο απόφασης Εποµένως, σύµφωνα µε το παραπάνω δυαδικό δένδρο η µεταβλητή Χ3 έχει κρίσιµο ρόλο για την πρόβλεψη της πτώχευσης. Η κατανοµή για την κλάση 2 (πτωχευµένες επιχειρήσεις) είναι και για την κλάση 1 (µη πτωχευµένες επιχειρήσεις) είναι Άρα, για την κρίσιµη µεταβλητή Χ3 µπορούµε να πούµε ότι αποτελεί τον αριθµοδείκτη ταχύτητας κυκλοφορίας ενεργητικού και άρα τα περιουσιακά στοιχεία µε τις καθαρές πωλήσεις έχουν σηµαντικό ρόλο για την πρόβλεψη της πτώχευσης Ανάλυση του αλγορίθµου δένδρων τύπου J48 Ο αλγόριθµος ταξινόµησης δένδρων τύπου J48 (Ross Quinlan, 1993) δηµιουργεί ένα C4.5 δένδρο («κλαδεµένο» ή ολόκληρο). Παρακάτω φαίνεται η εικόνα η οποία δείχνει τις παραµέτρους που χρησιµοποιεί κατά την πειραµατική εφαρµογή ο εξεταζόµενος αλγόριθµος. Εικόνα 5.8.3: Παράµετροι του αλγορίθµου δένδρων τύπου J48 Η παράµετρος Binary Splits χρησιµοποιείται εάν θέλουµε να χρησιµοποιηθεί δυαδικός διαµερισµός στα ονοµαστικά χαρακτηριστικά όταν κατασκευάζονται δένδρα. Εµείς δεν χρησιµοποιούµε αυτή τη παράµετρο. Η παράµετρος Confidence Factor αποτελεί τον παράγοντα εµπιστοσύνης ο οποίος χρησιµοποιείται για «κλάδεµα» (µικρότερες τιµές επιφέρει περισσότερο κλάδεµα). Αυθαίρετα έχουµε επιλέξει την τιµή Η παράµετρος Min Num Obj δείχνει τον ελάχιστο αριθµό παραδειγµάτων σε κάθε φύλλο. Εµείς έχουµε επιλέξει την τιµή

133 Η παράµετρος Num Folds προσδιορίζει το ποσό των δεδοµένων που χρησιµοποιούνται για την ελάττωση του σφάλµατος «κλαδέµατος». Η µια επανάληψη χρησιµοποιείται για «κλάδεµα», οι υπόλοιπες για την ανάπτυξη του δένδρου. Έχουµε επιλέξει αυθαίρετα την τιµή 3. Η παράµετρος Reduced Error Pruning επιλέγεται όταν θέλουµε να χρησιµοποιηθεί η ελάττωση σφάλµατος «κλαδέµατος» αντί για το C4.5 κλαδεµένο δένδρο. Εµείς δεν χρησιµοποιούµε αυτή τη παράµετρο. Η παράµετρος Save Instance Data επιλέγεται όταν θέλουµε να αποθηκεύσουµε τα δεδοµένα εκπαίδευσης για απεικόνιση. Εδώ δεν χρησιµοποιείται αυτή η παράµετρος. Στην παράµετρο Seed, ο σπόρος χρησιµοποιείται για την τυχαιοποίηση των δεδοµένων όταν χρησιµοποιείται η ελάττωση σφάλµατος «κλαδέµατος». Η τιµή του σπόρου είναι 1. Η παράµετρος Subtree Raising επιλέγεται εάν θέλουµε να λαµβάνεται υπ όψιν η λειτουργία της ανάπτυξης του υπό-δενδρου κατά το «κλάδεµα». Η παράµετρος Unpruned επιλέγεται εάν θέλουµε να εκτελεστεί το «κλάδεµα». Εµείς δεν χρησιµοποιούµε αυτή την επιλογή. Τέλος, η παράµετρος Use Laplace χρησιµοποιείται όταν θέλουµε τα µέτρα των φύλλων να είναι οµαλοποιηµένα µε βάση του κριτηρίου Laplace. Ούτε αυτή η επιλογή χρησιµοποιείται σε αυτό το παράδειγµα. Στη συνέχεια ακολουθεί ανάλυση της απόδοσης και αξιοπιστίας του αλγορίθµου καθώς και της ακρίβειας ταξινόµησης. Πίνακας 5.8.7: Στατιστικά αποτελέσµατα για τον αλγόριθµο δένδρων τύπου J48 Εκπαίδευση Μέθοδος αξιολόγησης µέσω επαναλαµβανόµενης δοκιµής Σωστή ταξινόµηση εγγραφών % % Εσφαλµένη ταξινόµηση εγγραφών % % K-στατιστικό µέγεθος Μέσο απόλυτο σφάλµα Μέσο τετραγωνικό σφάλµα Σχετικό απόλυτο σφάλµα % % Σχετικό τετραγωνικό σφάλµα % % Παρατηρώντας τον παραπάνω πίνακα διαπιστώνουµε ότι η µέθοδος είναι κάπως αποδοτική αφού τα ποσοστά σφάλµατος είναι σχετικά µικρά. Πιο συγκεκριµένα, στην εκπαίδευση του αλγορίθµου είχαµε 15 λανθασµένες ταξινοµήσεις από τις 118 περιπτώσεις όπου οι 12 ανήκουν στις µη πτωχευµένες επιχειρήσεις και οι 3 στις πτωχευµένες. Μετά την εφαρµογή της µεθόδου αξιολόγησης µέσω επαναλαµβανόµενων δοκιµών σε άγνωστα δεδοµένα (cross validation) οι εσφαλµένες ταξινοµήσεις αυξήθηκαν κατά 8 (16 για την κλάση 1 και 7 για την 2). Εποµένως, η ακρίβεια της ταξινόµησης είναι σχετικά µεγάλη κυρίως για τις πτωχευµένες επιχειρήσεις όπως µπορούµε να δούµε και από τον παρακάτω πίνακα Πίνακας 5.8.8: Αποτελέσµατα ακρίβειας του αλγορίθµου δένδρων τύπου J48 Ποσοστό TP Ποσοστό Περιοχή Ορθότητα Μέτρο-F -Ανάκληση FP ROC Κλάση Εκπαίδευση (µη πτώχευση) (πτώχευση) Μέθοδος (µη πτώχευση) αξιολόγησης (πτώχευση) Τέλος, η µεθοδολογία αυτή παρέχει κάποια επιπλέον πληροφορίες που αφορούν τις κρίσιµες µεταβλητές για την πρόβλεψη της πτώχευσης και απεικονίζονται µε την µορφή «κλαδεµένων» δένδρων τύπου J48. Εποµένως, το δένδρο αυτό φαίνεται στο σχήµα του ταξινοµητή επιλεγµένων χαρακτηριστικών. Τα αποτελέσµατα και συµπεράσµατα για τις βασικές µεταβλητές είναι ακριβώς τα 133

134 ίδια µε αυτά της προαναφερόµενης µεθόδου. ηλαδή η Χ3 είναι η πιο κρίσιµη µεταβλητή και ακολουθεί η Χ2. Όσον αφορά την χρηµατοοικονοµική ανάλυση των κρίσιµων µεταβλητών, η Χ3 αποτελεί τον αριθµοδείκτη ταχύτητας κυκλοφορίας ενεργητικού, ενώ, η Χ2 αποτελεί τον αριθµοδείκτη µεικτά κέρδη προς σύνολο ενεργητικού. Εποµένως, τα περιουσιακά στοιχεία µε τα κέρδη έχουν σηµαντικό ρόλο για την πρόβλεψη της πτώχευσης Ανάλυση του αλγορίθµου δένδρων λογιστικών µοντέλων (LMT) Η µέθοδος δένδρων λογιστικών µοντέλων (LMT) (logistic model trees) (Landwehr et al., 2005) κατασκευάζει λογιστικά µοντέλα δένδρων. Αυτός ο αλγόριθµος µπορεί να χειριστεί δυαδικές µεταβλητές και µεταβλητές µε πολλαπλές τάξεις, αριθµητικά και ονοµαστικά χαρακτηριστικά, και ελλιπείς τιµές. Αυτά τα δένδρα ταξινόµησης περιέχουν λογιστικές παλινδροµικές συναρτήσεις στα φύλλα τους. Η παρακάτω εικόνα δείχνει τις παραµέτρους που χρησιµοποιεί ο συγκεκριµένος αλγόριθµος κατά την πειραµατική εφαρµογή του. Εικόνα 5.8.4: Παράµετροι του αλγορίθµου LMT Η παράµετρος Convert Nominal µετατρέπει όλα τα ονοµαστικά χαρακτηριστικά σε δυαδικά πριν τη κατασκευή του δένδρου. Αυτό σηµαίνει ότι όλα τα τµήµατα στο τελικό δένδρο θα είναι δυαδικά. Εµείς δεν χρησιµοποιούµε αυτή την επιλογή. Η παράµετρος Error On Probabilities ελαχιστοποιεί το σφάλµα των πιθανοτήτων αντί για το σφάλµα ταξινόµησης. Όταν επιλέγουµε αυτή τη παράµετρο, ο αριθµός των Logistic Boost επαναλήψεων επιλέγεται για την ελαχιστοποίηση του µέσου τετραγωνικού σφάλµατος. Ούτε αυτή τη παράµετρο χρησιµοποιούµε. Στην παράµετρο Fast Regression όταν χρησιµοποιείται η συνάρτηση λογιστικής παλινδρόµησης σε έναν κόµβο, ο LMT πρέπει να προσδιορίσει τον αριθµό των Logistic Boost επαναλήψεων που θα εκτελεστούν. Στην παράµετρο Min Num Instances θέτουµε τον ελάχιστο αριθµό παραδειγµάτων που περιλαµβάνονται σε κάθε κόµβο για διαµερισµό. Αυθαίρετα έχουµε επιλέξει την τιµή 15. Στην παράµετρο Num Boosting Iterations θέτουµε έναν σταθερό αριθµό επαναλήψεων για τον Logistic Boost. Εάν η τιµή είναι αρνητική τότε ο αριθµός αυτός διαχωρίζεται µε τη µέθοδο αξιολόγησης µέσω δοκιµών σε άγνωστα δεδοµένα. Εµείς επιλέξαµε την τιµή -1. Στην παράµετρο Split On Residuals θέτουµε το κριτήριο τµηµατοποίησης βασισµένο στα υπολείµµατα των Logistic Boost. Η παράµετρος UseAIC χρησιµοποιείται ώστε να προσδιοριστεί πότε να σταµατήσουν οι επαναλήψεις του Logistic Boost. Εµείς δεν χρησιµοποιούµε αυτή την επιλογή. 134

135 Τέλος, στην παράµετρο Weight Time Beta θέτουµε τη βήτα τιµή που χρησιµοποιείται για το βάρος του τµήµατος του Logistic Boost. Ούτε αυτή η παράµετρος χρησιµοποιείται εδώ. Στη συνέχεια γίνεται ανάλυση της απόδοσης και αξιοπιστίας του αλγορίθµου καθώς και της ακρίβειας της ταξινόµησης. Πίνακας 5.8.9: Στατιστικά αποτελέσµατα για του αλγορίθµου LMT Εκπαίδευση Μέθοδος αξιολόγησης µέσω επαναλαµβανόµενης δοκιµής Σωστή ταξινόµηση εγγραφών % % Εσφαλµένη ταξινόµηση εγγραφών % % K-στατιστικό µέγεθος Μέσο απόλυτο σφάλµα Μέσο τετραγωνικό σφάλµα Σχετικό απόλυτο σφάλµα % % Σχετικό τετραγωνικό σφάλµα % % Ο πίνακας µας πληροφορεί ότι η απόδοση της µεθόδου είναι αρκετά ικανοποιητική αφού τα ποσοστά σφάλµατος είναι µικρά. Πιο συγκεκριµένα, στην εκπαίδευση του αλγορίθµου τα λάθη ταξινόµησης ήταν 17 από τις 118 περιπτώσεις όπου τα 8 ανήκουν στις µη πτωχευµένες επιχειρήσεις και τα 9 στις πτωχευµένες. Μετά τη χρήση της µεθόδου αξιολόγησης µέσω δοκιµών σε άγνωστα δεδοµένα (cross validation) τα λάθη αυξήθηκαν κατά 2 (8 για την κλάση 1 και 11 για την 2). Εποµένως, συµπεραίνουµε ότι η ακρίβεια της πρόβλεψης είναι αρκετά καλή κυρίως για τις µη πτωχευµένες επιχειρήσεις και αυτό µπορούµε να το διαπιστώσουµε από τον παρακάτω πίνακα Πίνακας : Αποτελέσµατα ακρίβειας του αλγορίθµου LMT Ποσοστό TP Ποσοστό Περιοχή Ορθότητα Μέτρο-F -Ανάκληση FP ROC Κλάση Εκπαίδευση (µη πτώχευση) (πτώχευση) Μέθοδος (µη πτώχευση) αξιολόγησης (πτώχευση) Η µεθοδολογία αυτή µας παρέχει κάποιες επιπλέον πληροφορίες που αφορούν τις µεταβλητές και απεικονίζονται µε τη µορφή LMT, δηλαδή µε τη µορφή δένδρων που χρησιµοποιούν λογιστικά µοντέλα όπως φαίνονται παρακάτω. LM_1: 5/5 (118) Class 0: Class 1: [X3]* [X16]*(-2.98) [X3]*(-13.59) + [X16]*2.98 Τα παραπάνω λογιστικά µοντέλα τα έχουµε ξανασυναντήσει ακριβώς ίδια και στον απλό λογιστικό αλγόριθµο µε τη διαφορά ότι δεν περιέχονται στα φύλλα των δένδρων όπως γίνεται στην συγκεκριµένη περίπτωση του αλγορίθµου LMT. Άρα, από τα παραπάνω αποτελέσµατα διαπιστώνουµε ότι οι κρίσιµες µεταβλητές είναι η Χ3 και Χ16, όπου η Χ3 είναι η πιο βασική γιατί έχει µεγαλύτερο συντελεστή. Όπως µπορούµε να δούµε, έχουµε µόνο ένα λογιστικό µοντέλο για το οποίο ισχύουν οι 5 από τις 118 περιπτώσεις. Η χρηµατοοικονοµική ανάλυση των βασικών µεταβλητών είναι ότι η Χ3 αποτελεί τον αριθµοδείκτη ταχύτητας κυκλοφορίας ενεργητικού, ενώ, η Χ16 αποτελεί τον αριθµοδείκτη σύνολο των υποχρεώσεων προς σύνολο ενεργητικού. Εποµένως, τα περιουσιακά στοιχεία µε τα κέρδη και τις υποχρεώσεις έχουν σηµαντικό ρόλο για την πρόβλεψη της πτώχευσης. 135

136 5.8.6 Ανάλυση του αλγορίθµου ένδρων Naïve Bayes (NBTree) Ο αλγόριθµος ταξινόµησης ένδρων Naïve Bayes (NBTree) (Kohavi, 1996) αποτελεί ένα υβρίδιο µεταξύ των δένδρων αποφάσεων και της µεθόδου Naïve Bayes. ηµιουργεί δένδρα όπου τα φύλλα τους είναι Naïve Bayes ταξινοµητές. Κατά τη διάρκεια της κατασκευής του δένδρου, η µέθοδος αξιολόγησης µέσω δοκιµών σε άγνωστα δεδοµένα (cross validation) χρησιµοποιείται για να αποφασίσει αν κάποιος κόµβος θα πρέπει να χωριστεί επιπλέον ή αν πρέπει να χρησιµοποιηθεί ένα Naïve Bayes µοντέλο. Η µοναδική παράµετρος που χρησιµοποιείται είναι η διερεύνηση σφαλµάτων. Παρακάτω αναλύουµε την απόδοση και αξιοπιστία του εξεταζόµενου αλγορίθµου καθώς και την ακρίβεια της ταξινόµησης. Πίνακας : Στατιστικά αποτελέσµατα για τον αλγόριθµο NBTree Εκπαίδευση Μέθοδος αξιολόγησης µέσω επαναλαµβανόµενης δοκιµής Σωστή ταξινόµηση εγγραφών % % Εσφαλµένη ταξινόµηση εγγραφών % % K-στατιστικό µέγεθος Μέσο απόλυτο σφάλµα Μέσο τετραγωνικό σφάλµα Σχετικό απόλυτο σφάλµα % % Σχετικό τετραγωνικό σφάλµα % % Από τον παραπάνω πίνακα συµπεραίνουµε ότι η µέθοδος αυτή δεν είναι αποδοτική αφού τα σφάλµατα ταξινόµησης είναι µεγάλα. Πιο συγκεκριµένα, στην εκπαίδευση του αλγορίθµου είχαµε 6 λανθασµένες ταξινοµήσεις από τις 118 περιπτώσεις όπου οι 4 ανήκουν στις µη πτωχευµένες επιχειρήσεις και οι 2 στις πτωχευµένες. Μετά την εφαρµογή της µεθόδου αξιολόγησης µέσω δοκιµών σε άγνωστα δεδοµένα (cross validation) τα σφάλµατα ταξινόµησης αυξήθηκαν αρκετά, δηλαδή έχουµε 26 (16 για την κλάση 1 και 10 για την 2). Εποµένως, συµπεραίνουµε ότι η ακρίβεια της ταξινόµησης δεν είναι σχετικά µεγάλη κυρίως για τις µη πτωχευµένες επιχειρήσεις όπως µπορούµε να διακρίνουµε και από τον παρακάτω πίνακα Πίνακας : Αποτελέσµατα ακρίβειας του αλγορίθµου NBTree Ποσοστό TP Ποσοστό Περιοχή Ορθότητα Μέτρο-F -Ανάκληση FP ROC Κλάση Εκπαίδευση (µη πτώχευση) (πτώχευση) Μέθοδος (µη πτώχευση) αξιολόγησης (πτώχευση) Επίσης, η µέθοδος αυτή µας προσφέρει κάποιες επιπλέον πληροφορίες για τις µεταβλητές µε τη µορφή δένδρα τύπου Naïve Bayes όπως φαίνεται στο παρακάτω σχήµα

137 Σχήµα 5.8.4: ένδρο τύπου Naïve Bayes Τα συµπεράσµατα που εξάγουµε είναι ότι το δένδρο αυτό έχει µέγεθος 7 και αποτελείται από 4 φύλλα. Οι κρίσιµες µεταβλητές για την πρόβλεψη της πτώχευσης είναι η Χ11, η Χ16 και η Χ1 από τις οποίες η Χ11 αποτελεί την πιο βασική µεταβλητή γιατί βρίσκεται στη ρίζα του δένδρου. Όπως βλέπουµε, τα κλαδιά του δένδρου καταλήγουν σε Naïve Bayes µοντέλα, έτσι, για το πρώτο φύλλο το η εκ των προτέρων πιθανότητα για την κλάση 1 (µη πτώχευση) είναι 0.75 ενώ για την κλάση 2 (πτώχευση) είναι Συνεχίζοντας για τα υπόλοιπα φύλλα του δένδρου, στο δεύτερο φύλλο η εκ των προτέρων πιθανότητα για την κλάση 1 είναι 0.14 για το τρίτο 0.19 και για το τελευταίο Η χρηµατοοικονοµική ανάλυση της πιο σηµαντικής µεταβλητής για την πρόβλεψη της πτώχευσης που είναι η Χ11 είναι ότι αυτή αποτελεί τον δείκτη κυκλοφορούν ενεργητικό µείον τα αποθέµατα προς τις βραχυπρόθεσµες υποχρεώσεις. ηλαδή τα τρέχον περιουσιακά στοιχεία και οι υποχρεώσεις της επιχείρησης έχουν σηµαντικό ρόλο στο πρόβληµα της πτώχευσης Ανάλυση του αλγορίθµου Random Forest Ο αλγόριθµος ταξινόµησης Random Forest (Breiman, 2001) κατασκευάζει τυχαία δάση µε την µέθοδο bagging (βλέπε παράρτηµα B) από ένα σύνολο τυχαίων δένδρων. Στην παρακάτω εικόνα φαίνονται οι παράµετροι που χρησιµοποιούνται στον εξεταζόµενο αλγόριθµο κατά την πειραµατική εφαρµογή του. Εικόνα 5.8.5: Παράµετροι του αλγορίθµου Random Forest Στην παράµετρο Max Depth επιλέγουµε το µέγιστο βάθος των δένδρων, εµείς έχουµε επιλέξει την τιµή µηδέν που δηλώνει απεριόριστο βάθος. Η παράµετρος Num Features δείχνει τον αριθµό των χαρακτηριστικών που χρησιµοποιούνται µε τυχαία επιλογή. Αυθαίρετα έχουµε επιλέξει την τιµή 0. Τέλος, η παράµετρος Num Trees δείχνει τον αριθµό των δένδρων που παράγονται. Εδώ έχουµε επιλέξει την τιµή 10. Στη συνέχεια αναλύουµε την απόδοση της µεθόδου και την ακρίβεια της ταξινόµησης. 137

138 Πίνακας : Στατιστικά αποτελέσµατα για του αλγορίθµου Random Forest Εκπαίδευση Μέθοδος αξιολόγησης µέσω επαναλαµβανόµενης δοκιµής Σωστή ταξινόµηση εγγραφών % % Εσφαλµένη ταξινόµηση εγγραφών % % K-στατιστικό µέγεθος Μέσο απόλυτο σφάλµα Μέσο τετραγωνικό σφάλµα Σχετικό απόλυτο σφάλµα 10 % % Σχετικό τετραγωνικό σφάλµα % % Ο παραπάνω πίνακας µας πληροφορεί ότι η µέθοδος είναι αρκετά αποδοτική κυρίως κατά την εκπαίδευση του αλγορίθµου όπου έχουµε ένα µόνο λάθος ταξινόµησης από τις 118 περιπτώσεις και αντιστοιχεί στις πτωχευµένες επιχειρήσεις. Μετά την εφαρµογή της µεθόδου αξιολόγησης µέσω δοκιµών σε άγνωστα δεδοµένα (cross validation) τα λάθη αυξήθηκαν σε 20 (10 για κάθε κλάση). Εποµένως, συµπεραίνουµε ότι η ακρίβεια της ταξινόµησης είναι αρκετά µεγάλη και για τις δύο κλάσεις όπως µπορούµε να διαπιστώσουµε και από τον παρακάτω πίνακα Πίνακας : Αποτελέσµατα ακρίβειας τον αλγόριθµο Random Forest Ποσοστό TP Ποσοστό Περιοχή Ορθότητα Μέτρο-F -Ανάκληση FP ROC Κλάση Εκπαίδευση (µη πτώχευση) (πτώχευση) Μέθοδος (µη πτώχευση) αξιολόγησης (πτώχευση) Τέλος, η µέθοδος αυτή δεν παρέχει επιπλέον πληροφορίες που να αφορούν τις µεταβλητές ώστε να µπορούµε να διακρίνουµε ποιες από αυτές αποτελούν κρίσιµες µεταβλητές για την πρόβλεψη της πτώχευσης Ανάλυση του αλγορίθµου Random Tree Ο αλγόριθµος ταξινόµησης Random Tree κατασκευάζει τυχαία δένδρα και βασίζεται σε ένα δεδοµένο αριθµό k τυχαίων χαρακτηριστικών για τον κάθε κόµβο. Στην παρακάτω εικόνα φαίνονται οι παράµετροι που χρησιµοποιεί ο εξεταζόµενος αλγόριθµος κατά την πειραµατική εφαρµογή του. Εικόνα 5.8.6: Παράµετροι του αλγορίθµου Random Tree 138

139 Στην παράµετρο K Value θέτουµε τον αριθµό των χαρακτηριστικών που επιλέγονται τυχαία. Εµείς έχουµε επιλέξει την τιµή 1. Η παράµετρος Max Depth δηλώνει το µέγιστο βάθος του δένδρου. Εµείς έχουµε επιλέξει απεριόριστο βάθος. Η παράµετρος Min Num δείχνει το ελάχιστο συνολικό βάρος των παραδειγµάτων σε ένα φύλλο του δένδρου. Την τιµή που έχουµε επιλέξει σ αυτή τη παράµετρο είναι µονάδα. Παρακάτω γίνεται η ανάλυση του συγκεκριµένου αλγορίθµου σύµφωνα µε την απόδοση και αξιοπιστία καθώς και την ακρίβεια ταξινόµησης. Πίνακας : Στατιστικά αποτελέσµατα για τον αλγόριθµο Random Tree Εκπαίδευση Μέθοδος αξιολόγησης µέσω επαναλαµβανόµενης δοκιµής Σωστή ταξινόµηση εγγραφών 100 % % Εσφαλµένη ταξινόµηση εγγραφών 0 % % K-στατιστικό µέγεθος Μέσο απόλυτο σφάλµα Μέσο τετραγωνικό σφάλµα Σχετικό απόλυτο σφάλµα 0 % % Σχετικό τετραγωνικό σφάλµα 0 % % Όπως φαίνεται από τον πίνακα διαπιστώνουµε ότι κατά την εκπαίδευση του αλγορίθµου η απόδοση της µεθόδου είναι πολύ καλή και δεν υπάρχει κανένα σφάλµα ταξινόµησης από τις 118 περιπτώσεις. Αντίθετα, µετά την εφαρµογή της µεθόδου αξιολόγησης µέσω δοκιµών σε άγνωστα δεδοµένα (cross validation) η απόδοση έχει πέσει σηµαντικά µε 33 λανθασµένες ταξινοµήσεις από τις οποίες οι 18 ανήκουν στις µη πτωχευµένες επιχειρήσεις και οι 15 στις πτωχευµένες. Όσον αφορά την ακρίβεια της ταξινόµησης και για των δύο κλάσεων επιχειρήσεων φαίνεται στον παρακάτω πίνακα , όπου η ακρίβεια αυτή είναι µικρή και για τις δύο κλάσεις επιχειρήσεων. Πίνακας : Αποτελέσµατα ακρίβειας του αλγορίθµου Random Tree Ποσοστό TP Ποσοστό Περιοχή Ορθότητα Μέτρο-F -Ανάκληση FP ROC Κλάση Εκπαίδευση (µη πτώχευση) (πτώχευση) Μέθοδος (µη πτώχευση) αξιολόγησης (πτώχευση) Αυτή η µέθοδος µας προσφέρει επιπλέον πληροφορίες οι οποίες αφορούν τις µεταβλητές των δειγµάτων µας για τον εντοπισµό της κρίσιµης µεταβλητής για την πρόβλεψη της πτώχευσης. Οι πληροφορίες αυτές έχουν τη µορφή τυχαίου δένδρου το οποίο απεικονίζεται στο παρακάτω σχήµα

140 Σχήµα 5.8.5: Τυχαίο ένδρο Εποµένως, σύµφωνα µε το παραπάνω δένδρο βλέπουµε ότι αυτό έχει µέγεθος 53 και στην ρίζα του βρίσκεται η µεταβλητή Χ21 η οποία αποτελεί την πιο βασική µεταβλητή για την πρόβλεψη της πτώχευσης. Οι αµέσως επόµενες κρίσιµες µεταβλητές είναι οι Χ10 και Χ17. Άρα, η Χ21 αποτελεί τον χρηµατοοικονοµικό δείκτη ίδια κεφάλαιο προς καθαρό πάγιο ενεργητικό, έτσι τα περιουσιακά στοιχεία µιας επιχείρησης έχουν σηµαντικό ρόλο στο πρόβληµα της πτώχευσης Ανάλυση του αλγορίθµου δένδρων τύπου REP (REPTree) Η µέθοδος δένδρων τύπου REP (REPTree) κατασκευάζει ένα δένδρο απόφασης ή ένα παλινδροµικό δένδρο χρησιµοποιώντας πληροφορίες τις µορφής κέρδος / διακύµανση και «κλαδεύει» το δένδρο χρησιµοποιώντας το µειωµένο σφάλµα περικοπής και έχει ως πλεονέκτηµα τη βελτιωµένη ταχύτητα κατασκευής δένδρων. Στην παρακάτω εικόνα παρουσιάζονται οι παράµετροι που χρησιµοποιούνται στην µέθοδο αυτή. Εικόνα 5.8.7: Παράµετροι του αλγορίθµου REPTree 140

141 Η παράµετρος Μax Depth δείχνει το µέγιστο βάθος του δένδρου. Εµείς έχουµε επιλέξει την τιµή -1 όπου δηλώνει ότι δεν υπάρχει κανένας περιορισµός. Η παράµετρος Μin Num δείχνει το ελάχιστο συνολικό βάρος των παραδειγµάτων σε ένα φύλλο δένδρου. Αυθαίρετα έχουµε επιλέξει την τιµή 2. Στην παράµετρο Μin Variance Prop επιλέγουµε το ελάχιστο ποσοστό της διακύµανσης σε όλα τα δεδοµένα που πρέπει να βρίσκονται σε έναν κόµβο ώστε να διαµεριστούν για να εκτελεστούν τα παλινδροµικά δένδρα. Το ποσοστό που έχουµε επιλέξει έχει τιµή Η παράµετρος Νo Pruning επιλέγεται σε περίπτωση που θέλουµε να εκτελεστεί το «κλάδεµα». Εµείς δεν επιλέγουµε αυτή τη παράµετρο. Τέλος, η παράµετρος Num Folds προσδιορίζει το ποσό των δεδοµένων που χρησιµοποιούνται για το «κλάδεµα». Η µια επανάληψη χρησιµοποιείται για την το «κλάδεµα», οι υπόλοιπες για την ανάπτυξη των κανόνων. Παρακάτω αναλύουµε την απόδοση και αξιοπιστία του εξεταζόµενου αλγορίθµου και την ακρίβεια της ταξινόµησης. Πίνακας : Στατιστικά αποτελέσµατα για τον αλγόριθµο REPTree Εκπαίδευση Μέθοδος αξιολόγησης µέσω επαναλαµβανόµενης δοκιµής Σωστή ταξινόµηση εγγραφών % % Εσφαλµένη ταξινόµηση εγγραφών % % K-στατιστικό µέγεθος Μέσο απόλυτο σφάλµα Μέσο τετραγωνικό σφάλµα Σχετικό απόλυτο σφάλµα % % Σχετικό τετραγωνικό σφάλµα % % Όπως βλέπουµε από τον πίνακα διαπιστώνουµε ότι η απόδοση της µεθόδου κυµαίνεται σε µέτρια επίπεδα λόγω των ποσοστών σφαλµάτων. Στην εκπαίδευση του αλγορίθµου είχαµε 18 λανθασµένες ταξινοµήσεις από τις 118 περιπτώσεις όπου οι 12 ανήκουν στις µη πτωχευµένες επιχειρήσεις και οι 6 στις πτωχευµένες. Μετά την εφαρµογή της µεθόδου αξιολόγησης µέσω δοκιµών σε άγνωστα δεδοµένα (cross validation) οι λανθασµένες ταξινοµήσεις αυξήθηκαν κατά 6 (14 για την κλάση 1 και 10 για την 2). Εποµένως, όπως µπορούµε να διαπιστώσουµε και από τον παρακάτω πίνακα έχουµε µεγαλύτερη ακρίβεια πρόβλεψης για τις πτωχευµένες επιχειρήσεις. Πίνακας : Αποτελέσµατα ακρίβειας του αλγορίθµου REPTree Ποσοστό TP Ποσοστό Περιοχή Ορθότητα Μέτρο-F -Ανάκληση FP ROC Κλάση Εκπαίδευση (µη πτώχευση) (πτώχευση) Μέθοδος (µη πτώχευση) αξιολόγησης (πτώχευση) Η µέθοδος αυτή µας παρέχει επιπλέον πληροφορίες που αφορούν τις µεταβλητές για την ταξινόµηση και εµφανίζονται µε τη µορφή δένδρου τύπου REP όπως παρουσιάζεται στο παρακάτω σχήµα Σχήµα 5.8.6: έντρο τύπου REP 141

142 Όπως βλέπουµε από το παραπάνω σχήµα το δένδρο αυτό έχει µέγεθος τρία και αποτελείται από την µοναδική και κρίσιµη µεταβλητή Χ3. Τα λάθη ταξινόµησης είναι 18 από τα οποία τα µισά αντιστοιχούν στην κλάση 1 και τα υπόλοιπα στην 2, άρα αυτό το δένδρο αποτελεί αξιόπιστο κριτήριο για το πρόβληµα της πτώχευσης. Η Χ3 αποτελεί τον αριθµοδείκτη ταχύτητας κυκλοφορίας ενεργητικού και άρα τα περιουσιακά στοιχεία µε τα κέρδη έχουν σηµαντικό ρόλο για την πρόβλεψη της πτώχευσης Ανάλυση του αλγορίθµου δένδρων τύπου απλού CART (Simple Cart) Ένας άλλος τύπος δένδρων απόφασης αρκετά διαδεδοµένος στη στατιστική επιστήµη είναι τα δένδρα τύπου CART (Simple Cart) (Breiman et al., 1984), δηλαδή δένδρα ταξινόµησης και παλινδρόµησης. Ο στόχος στην κατασκευή τέτοιου τύπου δένδρων είναι να προβλεφθούν οι τιµές της εξαρτηµένης µεταβλητής y = (y1,, yn)t που εξηγούνται από το σύνολο των p ιδιοτήτων Xnxp = (x1,, xn). Το δείγµα των δεδοµένων L = {(yi, xi), i=1,, n} τεµαχίζεται από µία σειρά δυαδικών διαιρέσεων, σε ένα σύνολο από τερµατικούς κόµβους (φύλλα). Οι τεµαχισµοί εδώ αποφασίζονται µετά από επανειληµµένες συνθήκες ανισότητας των ιδιοτήτων. Η κύρια διαφοροποίηση των δένδρων τύπου CART σε σχέση µε τους υπόλοιπους τύπους δένδρων βρίσκεται στο κριτήριο τεµαχισµού, το οποίο βασίζεται στην µεγιστοποίηση σε κάθε τεµαχισµό της ανοµοιογένειας ανά κόµβο. Πριν τον τεµαχισµό η ανοµοιογένεια του κόµβου t ορίζεται ως απόκλιση D(t): ( ) 2 (5.8.1) ( yi, xi) t () = i () D t y y t όπου y() t η µέση τιµή της µεταβλητής y για τις περιπτώσεις-παραδείγµατα που εµπίπτουν στον κόµβο t. Μετά τον τεµαχισµό τα παραδείγµατα στον κόµβο t µοιράζονται ανάµεσα στις δύο διαιρέσεις t L και t R. Η αντίστοιχη ανοµοιογένεια στις δύο διαιρέσεις του δέντρου θα είναι: ( ) 2 (5.8.2) ( yi, xi) tl ( L) = i ( L) D t y y t και ( ) 2 (5.8.3) ( yi, xi) tr ( R) = i ( R) D t y y t Ανάµεσα στο σύνολο των S πιθανών δυαδικών τεµαχισµών το καλύτερο από αυτά s* είναι αυτό που παρουσιάζει την µεγαλύτερη διαφορά ανάµεσα στην ανοµοιογένεια πριν και µετά τον τεµαχισµό: s S s S ( ) D( s*, t) = max D( s, t) = max D() t D( tl) + D( tr) (5.8.4) Από τη στιγµή που ο κόµβος s έχει καθοριστεί σαν φύλλο Μ, ο αλγόριθµος αποδίδει στο φύλλο σαν εκτίµηση της y την µέση τιµή y των παραδειγµάτων που αντιστοιχούν σε αυτό: () y t 1 = yi (5.8.5) n t ( yi, xi) t () Τα δένδρα τύπου CART έχουν εφαρµοστεί αρκετές φορές σε προβλήµατα της περιβαλλοντικής πληροφορικής. Η παρακάτω εικόνα δείχνει τις παραµέτρους που χρησιµοποιεί ο εξεταζόµενος αλγόριθµος κατά την πειραµατική εφαρµογή του. 142

143 Εικόνα 5.8.8: Παράµετροι του αλγορίθµου Simple Cart Η παράµετρος Ηeuristic χρησιµοποιείται εάν θέλουµε να χρησιµοποιηθεί η ευρετική έρευνα για τον δυαδικό διαµερισµό των ονοµαστικών χαρακτηριστικών σε προβλήµατα πολλαπλής κλάσεως. Η παράµετρος Μin Num Obj δείχνει τον ελάχιστο αριθµό παρατηρήσεων σε έναν τερµατικό κόµβο. Έχουµε επιλέξει την τιµή 2. Στην παράµετρο Νum Folds Pruning επιλέγουµε τον αριθµό των επαναλήψεων στο εσωτερικό της µεθόδου αξιολόγησης µέσω δοκιµών σε άγνωστα δεδοµένα (cross validation). Αυθαίρετα έχουµε επιλέξει την τιµή 5. Η παράµετρος Size Per δείχνει το ποσοστό του µεγέθους των δεδοµένων εκπαίδευσης. Εµείς έχουµε επιλέξει όλο το µέγεθος των δεδοµένων. Η παράµετρος Use One SE χρησιµοποιεί τον 1SE κανόνα για την κατασκευή «κλαδεµένων» δένδρων απόφασης. Εµείς δεν επιλέγουµε αυτή τη παράµετρο. Τέλος, η παράµετρος Use Prune χρησιµοποιεί το ελάχιστο κόστος - πολυπλοκότητα του «κλαδέµατος» Παρακάτω, αναλύουµε την απόδοση, αξιοπιστία και την ακρίβεια στην ταξινόµηση για την συγκεκριµένη µέθοδο. Πίνακας : Στατιστικά αποτελέσµατα για τον αλγόριθµο Simple Cart Εκπαίδευση Μέθοδος αξιολόγησης µέσω επαναλαµβανόµενης δοκιµής Σωστή ταξινόµηση εγγραφών % % Εσφαλµένη ταξινόµηση εγγραφών % % K-στατιστικό µέγεθος Μέσο απόλυτο σφάλµα Μέσο τετραγωνικό σφάλµα Σχετικό απόλυτο σφάλµα % % Σχετικό τετραγωνικό σφάλµα % % Σύµφωνα µε τον πίνακα διαπιστώνουµε ότι η µέθοδος είναι αρκετά αποδοτική αφού τα ποσοστά σφάλµατος είναι σχετικά µικρά. Πιο συγκεκριµένα, στην εκπαίδευση του αλγορίθµου είχαµε 17 λανθασµένες ταξινοµήσεις από τις 118 περιπτώσεις όπου οι 11 ανήκουν στις µη πτωχευµένες 143

144 επιχειρήσεις και οι 6 στις πτωχευµένες. Μετά την εφαρµογή της µεθόδου αξιολόγησης µέσω δοκιµών σε άγνωστα δεδοµένα (cross validation) οι λανθασµένες ταξινοµήσεις αυξήθηκαν στις 19 (10 για την κλάση 1 και 9 για την 2). Όπως µπορούµε να διαπιστώσουµε και από τον παρακάτω πίνακα η ακρίβεια της ταξινόµησης είναι αρκετά µεγάλη και για τις δύο κλάσεις επιχειρήσεων. Πίνακας : Αποτελέσµατα ακρίβειας του αλγορίθµου Simple Cart Ποσοστό TP Ποσοστό Περιοχή Ορθότητα Μέτρο-F -Ανάκληση FP ROC Κλάση Εκπαίδευση (µη πτώχευση) (πτώχευση) Μέθοδος (µη πτώχευση) αξιολόγησης (πτώχευση) Η µέθοδος αυτή παρέχει ως αποτέλεσµα ένα δένδρο τύπου CART από το οποίο µπορούµε να βγάλουµε συµπεράσµατα για το ποια µεταβλητή είναι κρίσιµη για την πρόβλεψη της πτώχευσης. Αυτό το δένδρο απεικονίζεται στο παρακάτω σχήµα Σχήµα : ένδρο τύπου CART Εποµένως, σύµφωνα µε το παραπάνω δένδρο, αυτό έχει µέγεθος τρία και αποτελείται από την µοναδική κρίσιµη µεταβλητή Χ3. Οι λανθασµένες ταξινοµήσεις είναι 17 από τις οποίες οι 11 αντιστοιχούν στις πτωχευµένες επιχειρήσεις και οι 6 στις µη πτωχευµένες. Η κρίσιµη µεταβλητή Χ3 αποτελεί τον αριθµοδείκτη ταχύτητας κυκλοφορίας ενεργητικού και άρα τα περιουσιακά στοιχεία µε τα κέρδη έχουν σηµαντικό ρόλο για την πρόβλεψη της πτώχευσης Ανάλυση του αλγορίθµου ταξινόµησης µέσω χρήστη (User Classifier) Ο αλγόριθµος ταξινόµησης µέσω χρήστη (Witten et al., 2001) έχει την ιδιότητα να επιτρέπει στους χρήστες να κατασκευάζουν τα δικά τους δένδρα απόφασης. Η µοναδική παράµετρος που χρησιµοποιεί η µέθοδος αυτή είναι η διερεύνηση σφαλµάτων. Παρακάτω, γίνεται η ανάλυση της απόδοσης και αξιοπιστίας του αλγορίθµου καθώς επίσης και της ακρίβεια ταξινόµησης. Πίνακας : Στατιστικά αποτελέσµατα για τον αλγόριθµο ταξινόµησης µέσω χρήστη Εκπαίδευση Μέθοδος αξιολόγησης µέσω επαναλαµβανόµενης δοκιµής Σωστή ταξινόµηση εγγραφών 50 % % Εσφαλµένη ταξινόµηση εγγραφών 50 % % K-στατιστικό µέγεθος Μέσο απόλυτο σφάλµα Μέσο τετραγωνικό σφάλµα Σχετικό απόλυτο σφάλµα 100 % % Σχετικό τετραγωνικό σφάλµα 100 % % Τέλος, για τον συγκεκριµένο αλγόριθµο, ο πίνακας µας πληροφορεί ότι η απόδοση της µεθόδου είναι αρκετά χαµηλή αφού τα ποσοστά σφάλµατος είναι µεγάλα. Πιο συγκεκριµένα, στην 144

145 εκπαίδευση του αλγορίθµου είχαµε 59 λανθασµένες ταξινοµήσεις από τις 118 περιπτώσεις όπου όλες ανήκουν στις πτωχευµένες επιχειρήσεις. Μετά την εφαρµογή της µεθόδου αξιολόγησης µέσω δοκιµών σε άγνωστα δεδοµένα (cross validation) οι εσφαλµένες ταξινοµήσεις αυξήθηκαν στις 60 (6 για την κλάση 1 και 54 για την 2). Εποµένως, συµπεραίνουµε ότι η ακρίβεια της ταξινόµησης είναι πολύ µεγάλη για τις µη πτωχευµένες επιχειρήσεις ενώ σχεδόν µηδαµινή για τις πτωχευµένες όπως µπορούµε να διαπιστώσουµε και από τον παρακάτω πίνακα Πίνακας : Αποτελέσµατα ακρίβειας του αλγορίθµου ταξινόµησης µέσω χρήστη Ποσοστό TP Ποσοστό Περιοχή Ορθότητα Μέτρο-F -Ανάκληση FP ROC Κλάση Εκπαίδευση (µη πτώχευση) (πτώχευση) Μέθοδος (µη πτώχευση) αξιολόγησης (πτώχευση) Τέλος, η εξεταζόµενη µέθοδος δεν παρέχει κάποιες επιπλέον πληροφορίες που να αφορούν τις µεταβλητές και έτσι να µπορούµε να εντοπίσουµε ποιες απ αυτές είναι κρίσιµες για την πρόβλεψη της πτώχευσης Σύγκριση αποτελεσµάτων διαφόρων µεθόδων επαγωγικών δένδρων απόφασης Τελειώνοντας την ανάλυση των µεθόδων της κατηγορίας ένδρα, κάνουµε µια σύγκριση µεταξύ αυτών ώστε να δούµε ποια είναι η πιο αποδοτική και άρα η πιο κατάλληλη µέθοδο για την πρόβλεψη των πτωχευµένων επιχειρήσεων στο σύνολο των δεδοµένων µας. Έτσι χρησιµοποιούµε τα ποσοστά σφάλµατος ως το πιο σηµαντικό µέτρο σύγκρισης και στον παρακάτω πίνακα φαίνονται τα αποτελέσµατα για όλες τις µεθόδους. Πίνακας : Μέτρα σφάλµατος για τα µοντέλα πρόβλεψης έντρα Εσφαλµένη Μέσο Μέσο απόλυτο ταξινόµηση τετραγωνικό σφάλµα εγγραφών σφάλµα Σχετικό απόλυτο σφάλµα Σχετικό τετραγωνικό σφάλµα ADTree % % % BFTree % % % Decision Stump % % % ένδρων Τύπου % % % J48 LMT % % % NBTree % % % Random Forest % % % Random Tree % % % REPTree % % % Simple Cart % % % Ταξινόµησης µέσω Χρήστη % % % Εποµένως, όπως βλέπουµε από τον παραπάνω πίνακα είναι φανερό ότι η µέθοδος Decision Stump είναι η πιο αποδοτική αφού όλα τα ποσοστά σφάλµατός της είναι µικρότερα από τις άλλες µεθόδους. Σύµφωνα µε την αποδοτικότερη µέθοδο αυτή, η κρίσιµη µεταβλητή δεν έχει εντοπιστεί. Στη συνέχεια, θα εφαρµόσουµε τη µέθοδο αξιολόγησης των νέων άγνωστων δεδοµένων (holdout) για την καλύτερη µέθοδο που προέκυψε από την κατηγορία αλγορίθµων ένδρα. Έτσι, παρακάτω γίνεται η ανάλυση της απόδοσης και αξιοπιστίας του αλγορίθµου Decision Stump µε τη συγκεκριµένη µεθοδολογία. 145

146 Πίνακας : Στατιστικά αποτελέσµατα για τον αλγόριθµο Decision Stump Εκπαίδευση Μέθοδος αξιολόγησης νέων άγνωστων δεδοµένων Σωστή ταξινόµηση εγγραφών 95 % % Εσφαλµένη ταξινόµηση εγγραφών 5 % % K-στατιστικό µέγεθος Μέσο απόλυτο σφάλµα Μέσο τετραγωνικό σφάλµα Σχετικό απόλυτο σφάλµα 19 % % Σχετικό τετραγωνικό σφάλµα % % Όπως βλέπουµε από τον παραπάνω πίνακα διαπιστώνουµε ότι ενώ στην εκπαίδευση του αλγορίθµου η απόδοση είναι πολύ ικανοποιητική, µετά την εφαρµογή της µεθόδου αξιολόγησης των νέων άγνωστων δεδοµένων (holdout) η απόδοση πέφτει αρκετά αφού οι λανθασµένες ταξινοµήσεις είναι 14 από τις 38 ταξινοµήσεις (10 για την κλάση 1 και 4 για την 2). Εποµένως, συµπεραίνουµε ότι η ακρίβεια της ταξινόµησης είναι σχετικά µικρή και για τις δύο κλάσεις επιχειρήσεων, όπως µπορούµε να δούµε από τον παρακάτω πίνακα Πίνακας : Αποτελέσµατα ακρίβειας του αλγορίθµου Decision Stump Ποσοστό TP Ποσοστό Περιοχή Ορθότητα Μέτρο-F -Ανάκληση FP ROC Κλάση Εκπαίδευση (µη πτώχευση) (πτώχευση) Μέθοδος (µη πτώχευση) αξιολόγησης (πτώχευση) 5.9 Κατηγορία αλγορίθµων Κανόνες Οι αλγόριθµοι µάθησης της κατηγορίας κανόνων έχουν την ιδιότητα να δηµιουργούν κανόνες αποφάσεων και παρουσιάζονται ως αποτελέσµατα στην πειραµατική εφαρµογή του κάθε αλγορίθµου Ανάλυση του αλγορίθµου Συνδετικός Κανόνας (Conjunctive Rule) Ο αλγόριθµος ταξινόµησης Συνδετικός Κανόνας (Conjunctive Rule) εφαρµόζει έναν ενιαίο συνδετικό αρχάριο κανόνα για τις αριθµητικές και ονοµαστικές κατηγορίας. Ένας κανόνας αποτελείται από τους προγόνους και τη συνέπεια (αξία κατηγορίας) για την ταξινόµηση / παλινδρόµηση. Σε αυτήν την περίπτωση, η συνέπεια είναι η διανοµή των διαθέσιµων κατηγοριών (ή ο µέσος για αριθµητικές τιµές) στο σύνολο δεδοµένων. Για την ταξινόµηση, οι πληροφορίες του ενός προγόνου είναι ο σταθµισµένος µέσος όρος των εντροπιών των στοιχείων που καλύπτονται και που δεν καλύπτονται από τον κανόνα. Για την παλινδρόµηση, οι πληροφορίες είναι ο σταθµισµένος µέσος όρος των µέσων τετραγωνικών σφαλµάτων των στοιχείων που καλύπτονται και που δεν καλύπτονται από τον κανόνα. Στην παρακάτω εικόνα φαίνονται οι παράµετροι που χρησιµοποιεί από τον εξεταζόµενο αλγόριθµο κατά την πειραµατική εφαρµογή του. 146

147 Εικόνα 5.9.1: Παράµετροι του αλγορίθµου Συνδετικός Κανόνας Η παράµετρος Exclusive χρησιµοποιείται εάν θέλουµε να περιέχονται αποκλειστικές εκφράσεις για τον διαχωρισµό των ονοµαστικών χαρακτηριστικών. Εµείς δεν χρησιµοποιούµε αυτή την παράµετρο. Η παράµετρος Fold προσδιορίζει το ποσό των δεδοµένων που χρησιµοποιούνται για τµηµατοποίηση. Η µια επανάληψη χρησιµοποιείται για τµηµατοποίηση, οι υπόλοιπες για την ανάπτυξη των κανόνων. Έχουµε επιλέξει την τιµή 3. Η παράµετρος Min No δείχνει το ελάχιστο συνολικό βάρος των παραδειγµάτων σε έναν κανόνα. Έχουµε επιλέξει την τιµή 2. Τέλος, στην παράµετρο Num Antds θέτουµε τον αριθµό των προγόνων που επιτρέπονται στον κανόνα εάν η προ-τµηµατοποίηση χρησιµοποιείται. Εάν αυτή η τιµή δεν είναι -1 (στην περίπτωσή µας είναι -1), τότε η προ-τµηµατοποίηση χρησιµοποιείται, διαφορετικά ο κανόνας χρησιµοποιεί µειωµένο σφάλµα τµηµατοποίησης. Παρακάτω παρουσιάζουµε την ανάλυση της απόδοσης, της αξιοπιστίας και της ακρίβειας της ταξινόµησης που προκύπτουν από τον συγκεκριµένο αλγόριθµο. Πίνακας 5.9.1: Στατιστικά αποτελέσµατα για τον αλγόριθµο Συνδετικός Κανόνας Εκπαίδευση Μέθοδος αξιολόγησης µέσω επαναλαµβανόµενης δοκιµής Σωστή ταξινόµηση εγγραφών % % Εσφαλµένη ταξινόµηση εγγραφών % % K-στατιστικό µέγεθος Μέσο απόλυτο σφάλµα Μέσο τετραγωνικό σφάλµα Σχετικό απόλυτο σφάλµα % % Σχετικό τετραγωνικό σφάλµα % % Σύµφωνα µε τον πίνακα διαπιστώνουµε ότι η απόδοση της µεθόδου δεν είναι και τόσο αποδοτική λόγω των σχετικά µεγάλων ποσοστών σφαλµάτων. Πιο συγκεκριµένα, στην εκπαίδευση του αλγορίθµου είχαµε 18 λανθασµένες ταξινοµήσεις από τις 118 περιπτώσεις όπου οι 11 ανήκουν στις µη πτωχευµένες επιχειρήσεις και οι 7 στις πτωχευµένες. Μετά την εφαρµογή της µεθόδου αξιολόγησης µέσω δοκιµών σε άγνωστα δεδοµένα (cross validation) τα λάθη ταξινόµησης αυξήθηκαν κατά 10 (21 για την κλάση 1 και 7 για την 2). 147

148 Εποµένως, συµπεραίνουµε ότι η ακρίβεια της ταξινόµησης είναι σχετικά καλή κυρίως για τις πτωχευµένες επιχειρήσεις σε αντίθεση µε τις µη πτωχευµένες όπως µπορούµε να δούµε και από τον παρακάτω πίνακα Πίνακας 5.9.2: Αποτελέσµατα ακρίβειας του αλγορίθµου Συνδετικός Κανόνας Ποσοστό TP Ποσοστό Περιοχή Ορθότητα Μέτρο-F -Ανάκληση FP ROC Κλάση Εκπαίδευση (µη πτώχευση) (πτώχευση) Μέθοδος (µη πτώχευση) αξιολόγησης (πτώχευση) Επίσης, ο αλγόριθµος αυτός παρέχει κάποιες επιπλέον πληροφορίες για τις µεταβλητές των δεδοµένων µας οι οποίες αποτελούν τις κρίσιµες µεταβλητές για την πρόβλεψη της πτώχευσης και βρίσκονται στην µορφή συνδετικών κανόνων όπως φαίνεται παρακάτω. (Χ3 > ) status? = 1 Ο συγκεκριµένος κανόνας ερµηνεύεται ότι αν η µεταβλητή Χ3, η οποία αποτελεί την βασική µεταβλητή, πάρει τιµή µεγαλύτερη από τη τότε έχουµε την κατηγορία 1 (µη πτωχευµένες επιχειρήσεις). Στην αντίθετη περίπτωση η ταξινόµηση είναι της τάξης 2 δηλαδή πτωχευµένες επιχειρήσεις. Η κατανοµή για τις µη πτωχευµένες επιχειρήσεις είναι ενώ για τις πτωχευµένες είναι Εποµένως, όπως έχουµε ξανά αναφέρει και πιο πάνω, η κρίσιµη µεταβλητή Χ3 αποτελεί τον αριθµοδείκτη ταχύτητας κυκλοφορίας ενεργητικού και άρα τα περιουσιακά στοιχεία µε τα κέρδη έχουν σηµαντικό ρόλο για την πρόβλεψη της πτώχευσης Ανάλυση του αλγορίθµου κανόνων τύπου JRip Ο αλγόριθµος κανόνων τύπου JRip εφαρµόζει τη µέθοδο RIPPER (repeated incremental pruning to produce error reduction) (Cohen, 1995), συµπεριλαµβάνοντας ευριστικές βελτιστοποιήσεις από σύνολα κανόνων. Η παρακάτω εικόνα δείχνει τις παραµέτρους που χρησιµοποιούνται από τον εξεταζόµενο αλγόριθµο κατά την πειραµατική εφαρµογή του. Εικόνα 5.9.2: Παράµετροι του αλγορίθµου κανόνων τύπου JRip Στην παράµετρο Οptimizations επιλέγεται ο αριθµός των βελτιωµένων κανόνων. Εµείς έχουµε επιλέξει την τιµή

149 Οι υπόλοιπες παράµετροι έχουν ξανά συζητηθεί αρκετές φορές σε άλλες µεθόδους. Στη συνέχεια γίνεται ανάλυση της απόδοσης και αξιοπιστίας του αλγορίθµου καθώς και της ακρίβειας της ταξινόµησης. Πίνακας 5.9.3: Στατιστικά αποτελέσµατα για του αλγορίθµου κανόνων τύπου JRip Εκπαίδευση Μέθοδος αξιολόγησης µέσω επαναλαµβανόµενης δοκιµής Σωστή ταξινόµηση εγγραφών % % Εσφαλµένη ταξινόµηση εγγραφών % % K-στατιστικό µέγεθος Μέσο απόλυτο σφάλµα Μέσο τετραγωνικό σφάλµα Σχετικό απόλυτο σφάλµα % % Σχετικό τετραγωνικό σφάλµα % % Όπως βλέπουµε από τον πίνακα συµπεραίνουµε ότι η µέθοδος είναι αρκετά αποδοτική. Τα λάθη ταξινόµησης στην εκπαίδευση του αλγορίθµου είναι 17 από τις 118 περιπτώσεις όπου τα 11 ανήκουν στις µη πτωχευµένες επιχειρήσεις και τα 6 στις πτωχευµένες. Μετά την εφαρµογή της µεθόδου αξιολόγησης µέσω δοκιµών σε άγνωστα δεδοµένα (cross validation) τα λάθη ταξινόµησης αυξήθηκαν σε 20 (10 για κάθε κλάση). Εποµένως, συµπεραίνουµε ότι η µέθοδος προσφέρει αρκετά ακριβείς ταξινοµήσεις και για τις δύο κλάσεις επιχειρήσεων όπως µπορούµε να διαπιστώσουµε και από τον παρακάτω πίνακα Πίνακας 5.9.4: Αποτελέσµατα ακρίβειας της µεθόδου κανόνων τύπου JRip Ποσοστό TP Ποσοστό Περιοχή Ορθότητα Μέτρο-F -Ανάκληση FP ROC Κλάση Εκπαίδευση (µη πτώχευση) (πτώχευση) Μέθοδος (µη πτώχευση) αξιολόγησης (πτώχευση) Επιπλέον, η µέθοδος αυτή παρέχει κάποιες πληροφορίες για τις βασικές µεταβλητές που βρίσκονται µε τη µορφή κανόνων τύπου JRip όπως βλέπουµε παρακάτω. (Χ3 >= ) status? = 1 (54/6) status? =2 (64/11) Σύµφωνα µε τους παραπάνω κανόνες µπορούµε να πούµε ότι η Χ3 αποτελεί την κρίσιµη µεταβλητή και αν πάρει τιµή µεγαλύτερη ή ίση µε τότε η ταξινόµηση είναι 1 (µη πτώχευση) όπου από τις 54 εγγραφές οι 6 είναι ταξινοµηµένες λάθος. Στην αντίθετη περίπτωση έχουµε ταξινόµηση 2 µε ποσοστό σφάλµατος 11 στις 64 ταξινοµήσεις. Εποµένως, για την κρίσιµη µεταβλητή Χ3 µπορούµε να πούµε ότι αυτή αποτελεί τον αριθµοδείκτη ταχύτητας κυκλοφορίας ενεργητικού και άρα τα περιουσιακά στοιχεία µε τα κέρδη έχουν σηµαντικό ρόλο για την πρόβλεψη της πτώχευσης Ανάλυση του αλγορίθµου Nnge Ο αλγόριθµος ταξινόµησης Nnge (Brent, 1995) είναι µια πλησιέστερου-γείτονα µέθοδος για την παραγωγή κανόνων (της µορφής αν - τότε) χρησιµοποιώντας µη φωλιασµένα γενικευµένα υποδείγµατα. Στην παρακάτω εικόνα φαίνονται οι παράµετροι που χρησιµοποιούνται από την εξεταζόµενη µέθοδο κατά την πειραµατική εφαρµογή της. 149

150 Εικόνα 5.9.3: Παράµετροι του αλγορίθµου Nnge Στην παράµετρο Νum Attempts Of Option επιλέγουµε τον αριθµό των προσπαθειών για την γενίκευση. Αυθαίρετα έχουµε επιλέξει την τιµή 5. Στην παράµετρο Νum Folders MI Option επιλέγουµε τον αριθµό των επαναλήψεων για τις κοινές πληροφορίες. Και εδώ έχουµε επιλέξει την τιµή 5. Παρακάτω αναλύουµε την απόδοση, την αξιοπιστία και ακρίβεια της ταξινόµησης του συγκεκριµένου αλγορίθµου. Πίνακας 5.9.5: Στατιστικά αποτελέσµατα για τον αλγόριθµο Nnge Εκπαίδευση Μέθοδος αξιολόγησης µέσω επαναλαµβανόµενης δοκιµής Σωστή ταξινόµηση εγγραφών 100 % % Εσφαλµένη ταξινόµηση εγγραφών 0 % % K-στατιστικό µέγεθος Μέσο απόλυτο σφάλµα Μέσο τετραγωνικό σφάλµα Σχετικό απόλυτο σφάλµα 0 % % Σχετικό τετραγωνικό σφάλµα 0 % % Όπως βλέπουµε από τον παραπάνω πίνακα η µέθοδος δεν είναι αποδοτική λόγω µεγάλων ποσοστών σφαλµάτων. Έτσι, στην εκπαίδευση του αλγορίθµου δεν προκύπτει κανένα λάθος ταξινόµησης, όµως µετά την εφαρµογή της µεθόδου αξιολόγησης µέσω δοκιµών σε άγνωστα δεδοµένα (cross validation) τα λάθη ταξινόµησης αυξήθηκαν κατά 27 από τα οποία τα 13 ανήκουν στις µη πτωχευµένες επιχειρήσεις και τα 14 στις πτωχευµένες. Εποµένως, συµπεραίνουµε ότι η ακρίβεια της ταξινόµησης είναι µέτρια και για τις δύο κλάσεις επιχειρήσεων όπως µπορούµε να διαπιστώσουµε και από τον παρακάτω πίνακα Πίνακας 5.9.6: Αποτελέσµατα ακρίβειας του αλγορίθµου Nnge Ποσοστό TP Ποσοστό Περιοχή Ορθότητα Μέτρο-F -Ανάκληση FP ROC Κλάση Εκπαίδευση (µη πτώχευση) (πτώχευση) Μέθοδος (µη πτώχευση) αξιολόγησης (πτώχευση) 150

151 Επίσης, για αυτήν τη µέθοδο έχουµε κάποιες επιπλέον πληροφορίες που αφορούν τις µεταβλητές των δεδοµένων και είναι στη µορφή Nnge. Στον παρακάτω πίνακα αναφέρουµε τα βάρη που αντιστοιχούν σε κάθε µεταβλητή έτσι όπως προκύπτουν από τον συγκεκριµένο αλγόριθµο. Πίνακας 5.9.7: Ταξινόµηση των δεδοµένων σύµφωνα µε τα βάρη των µεταβλητών Μεταβλητές Βάρη Χ Χ Χ Χ Χ Χ Χ Χ Χ Χ Χ Χ Εποµένως, σύµφωνα µε τον παραπάνω πίνακα η πιο κρίσιµη µεταβλητή για την πρόβλεψη της πτώχευσης είναι η Χ3 γιατί έχει το µεγαλύτερο βάρος απ όλες ( ), η αµέσως επόµενη κρίσιµη µεταβλητή είναι η Χ16. Άρα, σε χρηµατοοικονοµική ανάλυση η Χ3 αποτελεί τον αριθµοδείκτη ταχύτητας κυκλοφορίας ενεργητικού και άρα τα περιουσιακά στοιχεία µε τα κέρδη έχουν σηµαντικό ρόλο για την πρόβλεψη της πτώχευσης Ανάλυση του αλγορίθµου κανόνων τύπου OneR Ο αλγόριθµος ταξινόµησης κανόνων τύπου OneR (Holte, 1993) χρησιµοποιεί το ελάχιστο σφάλµα χαρακτηριστικού για την πρόβλεψη και υπολογίζει την πιο σηµαντική ιδιότητα στο σύνολο των δεδοµένων και κατόπιν κατασκευάζει ένα σύνολο κανόνων για κάθε κλάση της εξαρτηµένης µεταβλητής που στο αριστερό τους µέρος βρίσκεται εκείνη η υπολογισµένη ιδιότητα. Μπορεί να θεωρηθεί ειδική περίπτωση δέντρου απόφασης ενός επιπέδου. Τέλος, αποτελείται από µια παράµετρο, την ελάχιστη ποσότητα µεγέθους για την διακριτοποίηση των αριθµητικών χαρακτηριστικών (Min Bucket Size) όπως φαίνεται στην παρακάτω εικόνα και έχουµε επιλέξει την τιµή 6 για αυτή τη παράµετρο. Εικόνα 5.9.4: Παράµετροι του αλγορίθµου κανόνων τύπου OneR Στη συνέχει αναλύουµε την απόδοση, την αξιοπιστία και ακρίβεια ταξινόµησης του συγκεκριµένου αλγορίθµου. 151

152 Πίνακας 5.9.8: Στατιστικά αποτελέσµατα για τον αλγόριθµο κανόνων τύπου OneR Εκπαίδευση Μέθοδος αξιολόγησης µέσω επαναλαµβανόµενης δοκιµής Σωστή ταξινόµηση εγγραφών % % Εσφαλµένη ταξινόµηση εγγραφών % % K-στατιστικό µέγεθος Μέσο απόλυτο σφάλµα Μέσο τετραγωνικό σφάλµα Σχετικό απόλυτο σφάλµα % % Σχετικό τετραγωνικό σφάλµα % % Όπως βλέπουµε από τον πίνακα η µέθοδος είναι αρκετά ικανοποιητική στην απόδοση. Τα λάθη ταξινόµησης στην εκπαίδευση του αλγορίθµου είναι 16 από τις 118 περιπτώσεις όπου τα 9 ανήκουν στις µη πτωχευµένες επιχειρήσεις και τα 7 στις πτωχευµένες. Μετά την εφαρµογή της µεθόδου αξιολόγησης µέσω δοκιµών σε άγνωστα δεδοµένα (cross validation) οι εσφαλµένες ταξινοµήσεις αυξήθηκαν σε 20 (11 για την κλάση 1 και 9 για την 2). Εποµένως, όπως µπορούµε να δούµε και από τον παρακάτω πίνακα η ακρίβεια ταξινόµησης της µεθόδου είναι αρκετά καλή και για τις δύο κλάσει επιχειρήσεων. Πίνακας 5.9.9: Αποτελέσµατα ακρίβειας του αλγορίθµου κανόνων τύπου OneR Ποσοστό TP Ποσοστό Περιοχή Ορθότητα Μέτρο-F -Ανάκληση FP ROC Κλάση Εκπαίδευση (µη πτώχευση) (πτώχευση) Μέθοδος (µη πτώχευση) αξιολόγησης (πτώχευση) Τέλος, η µέθοδος αυτή µας προσφέρει πληροφορίες που αφορούν τις κρίσιµες µεταβλητές για την πρόβλεψη της πτώχευσης. Αυτές οι πληροφορίες έχουν τη µορφή κανόνων τύπου OneR και αναφέρονται παρακάτω. Χ1: < < >= Αυτοί οι κανόνες µας πληροφορούν ότι όταν η µεταβλητή Χ1 πάρει τους παραπάνω περιορισµούς τότε προκύπτει η αντίστοιχη ταξινόµηση µε ποσοστό επιτυχίας 102 στις 118 ταξινοµήσεις. Εποµένως, η χρηµατοοικονοµική ανάλυση της µεταβλητής Χ1 είναι ότι αυτή ορίζεται ως τις καθαρές πωλήσεις προς τα µεικτά κέρδη, δηλαδή τα κέρδη έχουν σηµαντικό ρόλο στο πρόβληµα της πτώχευσης Ανάλυση του αλγορίθµου κανόνων τύπου PART Ο αλγόριθµος ταξινόµησης κανόνων τύπου PART (Eibe & Witten, 1998) παράγει απεριόριστη λίστα απόφασης χρησιµοποιώντας µια βασική µέθοδο διαχωρισµού. Κατασκευάζει επιµέρους δένδρα απόφασης για την απόκτηση ενός κανόνα. Ένας κανόνας αποκόπτεται µόνο όταν όλα τα συµπεράσµατά του είναι γνωστά. Οι παράµετροι που χρησιµοποιούνται από τον εξεταζόµενο αλγόριθµο κατά την πειραµατική εφαρµογή του φαίνονται στην παρακάτω εικόνα

153 Εικόνα 5.9.5: Παράµετροι του αλγορίθµου κανόνων τύπου PART Η παράµετρος Binary Splits χρησιµοποιείται όταν θέλουµε να χρησιµοποιήσουµε δυαδικό διαµερισµό σε ονοµαστικά χαρακτηριστικά κατά την κατασκευή των τµηµάτων των δένδρων. Εδώ δεν χρησιµοποιείται αυτή η παράµετρος. Ο παράγοντας εµπιστοσύνης έχει τιµή 0.25 ενώ χρησιµοποιούµε 2 παραδείγµατα σε κάθε κανόνα. Τέλος, δεν χρησιµοποιούµε την παράµετρο Unpruned αλλά ούτε και την Reduced Error Pruning. Παρακάτω αναλύουµε την απόδοση και αξιοπιστία της µεθόδου καθώς και την ακρίβεια της ταξινόµησης. Πίνακας : Στατιστικά αποτελέσµατα για τον αλγόριθµο κανόνων τύπου PART Εκπαίδευση Μέθοδος αξιολόγησης µέσω επαναλαµβανόµενης δοκιµής Σωστή ταξινόµηση εγγραφών % % Εσφαλµένη ταξινόµηση εγγραφών % % K-στατιστικό µέγεθος Μέσο απόλυτο σφάλµα Μέσο τετραγωνικό σφάλµα Σχετικό απόλυτο σφάλµα % % Σχετικό τετραγωνικό σφάλµα % % Παρατηρώντας τον πίνακα διαπιστώνουµε ότι η µέθοδος είναι αρκετά αποδοτική. Στην εκπαίδευση του αλγορίθµου οι λανθασµένες ταξινοµήσεις ήταν 15 από τις 118 περιπτώσεις όπου οι 12 ανήκουν στις µη πτωχευµένες επιχειρήσεις και οι 3 στις πτωχευµένες. Μετά την εφαρµογή της µεθόδου αξιολόγησης µέσω δοκιµών σε άγνωστα δεδοµένα (cross validation) οι λανθασµένες ταξινοµήσεις αυξήθηκαν σε 20 ( 13 για την κλάση 1 και 7 για την 2). Εποµένως, συµπεραίνουµε ότι οι ταξινοµήσεις είναι αρκετά ακριβείς για τις πτωχευµένες επιχειρήσεις όπως µπορούµε να δούµε και από τον παρακάτω πίνακα

154 Πίνακας : Αποτελέσµατα ακρίβειας του αλγορίθµου κανόνων τύπου PART Ποσοστό TP Ποσοστό Περιοχή Ορθότητα Μέτρο-F -Ανάκληση FP ROC Κλάση Εκπαίδευση (µη πτώχευση) (πτώχευση) Μέθοδος (µη πτώχευση) αξιολόγησης (πτώχευση) Επίσης, η µεθοδολογία αυτή µας προσφέρει επιπλέον πληροφορίες που αφορούν τις βασικές µεταβλητές των δεδοµένων µας και είναι στη µορφή κανόνων απόφασης τύπου PART και φαίνονται παρακάτω. Χ3 > AND Χ2> :1 (50/3) :2 (68/12) Όπου συµπεραίνουµε ότι η µεταβλητή Χ3 και η Χ2 είναι βασικές για την πρόβλεψη της πτώχευσης και όταν παίρνουν τιµής µεγαλύτερες από και αντίστοιχα τότε προβλέπεται µη πτώχευση της επιχείρησης µε ποσοστό λάθους 3 στις 50 ταξινοµήσεις. Σε αντίθετη περίπτωση έχουµε πτώχευση µε ποσοστό σφάλµατος 12 από τις 68 ταξινοµήσεις. Χρηµατοοικονοµικά η µεταβλητή Χ3 αποτελεί τον αριθµοδείκτη ταχύτητας κυκλοφορίας ενεργητικού και η Χ2 ορίζεται ως τα µεικτά κέρδη προς το σύνολο ενεργητικού και άρα τα περιουσιακά στοιχεία µε τα κέρδη έχουν σηµαντικό ρόλο για την πρόβλεψη της πτώχευσης Ανάλυση του αλγορίθµου κανόνων εξαίρεσης (Ridor) Ο αλγόριθµος ταξινόµησης κανόνων εξαίρεσης (Gaines & Compton, 1995) παράγει πρώτα έναν κανόνα προεπιλογής και έπειτα τις εξαιρέσεις για τον κανόνα προεπιλογής µε το λιγότερο (σταθµισµένο) ποσοστό σφάλµατος. Κατόπιν παράγει τις «καλύτερες» εξαιρέσεις για κάθε εξαίρεση και επαναλαµβάνει αυτή τη διαδικασία µέχρι να βρει την καλύτερη και πιο απλή εξαίρεση. Κατά συνέπεια εκτελεί µια επέκταση δένδρου µε εξαιρέσεις. Οι εξαιρέσεις είναι ένα σύνολο κανόνων που προβλέπουν τις κατηγορίες εκτός από την προεπιλογή. Η µέθοδος IREP χρησιµοποιείται για να παραγάγει τις εξαιρέσεις. Στην παρακάτω εικόνα φαίνονται οι παράµετροι που χρησιµοποιούνται από τον εξεταζόµενο αλγόριθµο κατά την πειραµατική εφαρµογή του. Εικόνα 5.9.6: Παράµετροι του αλγορίθµου κανόνων εξαίρεσης 154

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση ΚΕΦΑΛΑΙΟ 18 18 Μηχανική Μάθηση Ένα φυσικό ή τεχνητό σύστηµα επεξεργασίας πληροφορίας συµπεριλαµβανοµένων εκείνων µε δυνατότητες αντίληψης, µάθησης, συλλογισµού, λήψης απόφασης, επικοινωνίας και δράσης

Διαβάστε περισσότερα

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων Εισηγητής: ρ Ηλίας Ζαφειρόπουλος Εισαγωγή Ιατρικά δεδοµένα: Συλλογή Οργάνωση Αξιοποίηση Data Mining ιαχείριση εδοµένων Εκπαίδευση

Διαβάστε περισσότερα

4.3. Γραµµικοί ταξινοµητές

4.3. Γραµµικοί ταξινοµητές Γραµµικοί ταξινοµητές Γραµµικός ταξινοµητής είναι ένα σύστηµα ταξινόµησης που χρησιµοποιεί γραµµικές διακριτικές συναρτήσεις Οι ταξινοµητές αυτοί αναπαρίστανται συχνά µε οµάδες κόµβων εντός των οποίων

Διαβάστε περισσότερα

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή Τµήµα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών ΗΜΜΥ 795: ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ Ακαδηµαϊκό έτος 2010-11 Χειµερινό Εξάµηνο Τελική εξέταση Τρίτη, 21 εκεµβρίου 2010,

Διαβάστε περισσότερα

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος Χιωτίδης Γεώργιος Τμήμα Λογιστικής και Χρηματοοικονομικής Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ ΘΕΜΑ 1 ο (2.5 µονάδες) ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ Τελικές εξετάσεις 21 Σεπτεµβρίου 2004 ιάρκεια: 3 ώρες Το παρακάτω σύνολο

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΜΣΕ ΣΤΗΝ ΕΦΑΡΜΟΣΜΕΝΗ ΠΛΗΡΟΦΟΡΙΚΗ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ ΚΑΙ ΕΞΕΛΙΚΤΙΚΟΙ ΑΛΓΟΡΙΘΜΟΙ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΜΣΕ ΣΤΗΝ ΕΦΑΡΜΟΣΜΕΝΗ ΠΛΗΡΟΦΟΡΙΚΗ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ ΚΑΙ ΕΞΕΛΙΚΤΙΚΟΙ ΑΛΓΟΡΙΘΜΟΙ ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΠΜΣΕ ΣΤΗΝ ΕΦΑΡΜΟΣΜΕΝΗ ΠΛΗΡΟΦΟΡΙΚΗ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ ΚΑΙ ΕΞΕΛΙΚΤΙΚΟΙ ΑΛΓΟΡΙΘΜΟΙ ΟΜΑ Α ΑΣΚΗΣΕΩΝ ΑΣΚΗΣΗ Στην εικόνα παρακάτω φαίνεται ένα νευρωνικό

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ ΘΕΜΑ ο (2.5 µονάδες) ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ Τελικές εξετάσεις Παρασκευή 9 Ιανουαρίου 2007 5:00-8:00 εδοµένου ότι η

Διαβάστε περισσότερα

Αναγνώριση Προτύπων Ι

Αναγνώριση Προτύπων Ι Αναγνώριση Προτύπων Ι Ενότητα 1: Μέθοδοι Αναγνώρισης Προτύπων Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται

Διαβάστε περισσότερα

Το μοντέλο Perceptron

Το μοντέλο Perceptron Το μοντέλο Perceptron Αποτελείται από έναν μόνο νευρώνα McCulloch-Pitts w j x x 1, x2,..., w x T 1 1 x 2 w 2 Σ u x n f(u) Άνυσμα Εισόδου s i x j x n w n -θ w w 1, w2,..., w n T Άνυσμα Βαρών 1 Το μοντέλο

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ ΘΕΜΑ ο (2.5 µονάδες) ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ Τελικές εξετάσεις 26 Ιανουαρίου 2004 ιάρκεια: 2 ώρες (9:00-:00) Στην παρακάτω

Διαβάστε περισσότερα

Πληροφοριακά Συστήματα Διοίκησης

Πληροφοριακά Συστήματα Διοίκησης Πληροφοριακά Συστήματα Διοίκησης Τρεις αλγόριθμοι μηχανικής μάθησης ΠΜΣ Λογιστική Χρηματοοικονομική και Διοικητική Επιστήμη ΤΕΙ Ηπείρου @ 2018 Μηχανική μάθηση αναγνώριση προτύπων Η αναγνώριση προτύπων

Διαβάστε περισσότερα

Είδη Μεταβλητών. κλίµακα µέτρησης

Είδη Μεταβλητών. κλίµακα µέτρησης ΠΕΡΙΕΧΟΜΕΝΑ Κεφάλαιο 1 Εισαγωγικές Έννοιες 19 1.1 1.2 1.3 1.4 1.5 1.6 1.7 Η Μεταβλητότητα Η Στατιστική Ανάλυση Η Στατιστική και οι Εφαρµοσµένες Επιστήµες Στατιστικός Πληθυσµός και Δείγµα Το στατιστικό

Διαβάστε περισσότερα

Αναγνώριση Προτύπων Ι

Αναγνώριση Προτύπων Ι Αναγνώριση Προτύπων Ι Ενότητα 3: Στοχαστικά Συστήματα Αν. Καθηγητής Δερματάς Ευάγγελος Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες

Διαβάστε περισσότερα

Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500

Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500 Εισόδημα Κατανάλωση 1500 500 1600 600 1300 450 1100 400 600 250 700 275 900 300 800 352 850 400 1100 500 Πληθυσμός Δείγμα Δείγμα Δείγμα Ο ρόλος της Οικονομετρίας Οικονομική Θεωρία Διατύπωση της

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ ΘΕΜΑ ο 2.5 µονάδες ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ Τελικές εξετάσεις 2 Οκτωβρίου 23 ιάρκεια: 2 ώρες Έστω το παρακάτω γραµµικώς

Διαβάστε περισσότερα

οµή δικτύου ΣΧΗΜΑ 8.1

οµή δικτύου ΣΧΗΜΑ 8.1 8. ίκτυα Kohonen Το µοντέλο αυτό των δικτύων προτάθηκε το 1984 από τον Kοhonen, και αφορά διαδικασία εκµάθησης χωρίς επίβλεψη, δηλαδή δεν δίδεται καµία εξωτερική επέµβαση σχετικά µε τους στόχους που πρέπει

Διαβάστε περισσότερα

Τ.Ε.Ι. ΑΝΑΤΟΛΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΚΑΙ ΘΡΑΚΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΓΡΑΜΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ

Τ.Ε.Ι. ΑΝΑΤΟΛΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΚΑΙ ΘΡΑΚΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΓΡΑΜΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ Τ.Ε.Ι. ΑΝΑΤΟΛΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΚΑΙ ΘΡΑΚΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΓΡΑΜΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΕΙΣΗΓΗΤΗΣ: Δρ. Ιωάννης Σ. Τουρτούρας Μηχανικός Παραγωγής & Διοίκησης Δ.Π.Θ. Χρηματοδότηση Το παρόν εκπαιδευτικό

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ ΘΕΜΑ ο 2.5 µονάδες ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ Τελικές εξετάσεις 2 Σεπτεµβρίου 2005 5:00-8:00 Σχεδιάστε έναν αισθητήρα ercetro

Διαβάστε περισσότερα

1.4 Λύσεις αντιστρόφων προβλημάτων.

1.4 Λύσεις αντιστρόφων προβλημάτων. .4 Λύσεις αντιστρόφων προβλημάτων. Ο τρόπος παρουσίασης της λύσης ενός αντίστροφου προβλήµατος µπορεί να διαφέρει ανάλογα µε τη «φιλοσοφία» επίλυσης που ακολουθείται και τη δυνατότητα παροχής πρόσθετης

Διαβάστε περισσότερα

Στο στάδιο ανάλυσης των αποτελεσµάτων: ανάλυση ευαισθησίας της λύσης, προσδιορισµός της σύγκρουσης των κριτηρίων.

Στο στάδιο ανάλυσης των αποτελεσµάτων: ανάλυση ευαισθησίας της λύσης, προσδιορισµός της σύγκρουσης των κριτηρίων. ΠΕΡΙΛΗΨΗ Η τεχνική αυτή έκθεση περιλαµβάνει αναλυτική περιγραφή των εναλλακτικών µεθόδων πολυκριτηριακής ανάλυσης που εξετάσθηκαν µε στόχο να επιλεγεί η µέθοδος εκείνη η οποία είναι η πιο κατάλληλη για

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ Ακαδ. Έτος 07-08 Διδάσκων: Βασίλης ΚΟΥΤΡΑΣ Επικ. Καθηγητής v.koutras@fme.aegea.gr Τηλ: 7035468 Θα μελετήσουμε

Διαβάστε περισσότερα

Περιεχόμενα. Πρόλογος... 13

Περιεχόμενα. Πρόλογος... 13 Περιεχόμενα Πρόλογος... 3 Κεφάλαιο : Εισαγωγή... 9. Είδη των προβλημάτων λήψης αποφάσεων... 9.2 Το πρόβλημα της ταξινόμησης και η σημασία του... 24.3 Γενικό περίγραμμα των μεθοδολογιών ταξινόμησης... 29.4

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ Ακαδ. Έτος 06-07 Διδάσκων: Βασίλης ΚΟΥΤΡΑΣ Επικ. Καθηγητής v.koutra@fme.aegea.gr Τηλ: 7035468 Θα μελετήσουμε

Διαβάστε περισσότερα

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

ΠΑΡΟΥΣΙΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ ο Κεφάλαιο: Στατιστική ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΚΑΙ ΟΡΙΣΜΟΙ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ Πληθυσμός: Λέγεται ένα σύνολο στοιχείων που θέλουμε να εξετάσουμε με ένα ή περισσότερα χαρακτηριστικά. Μεταβλητές X: Ονομάζονται

Διαβάστε περισσότερα

Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα. Τεχνητά Νευρωνικά Δίκτυα (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα Τεχνητή Νοημοσύνη (Artificial Intelligence) Ανάπτυξη μεθόδων και τεχνολογιών για την επίλυση προβλημάτων στα οποία ο άνθρωπος υπερέχει (?) του υπολογιστή Συλλογισμοί

Διαβάστε περισσότερα

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων»

Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων» Τμήμα Πληροφορικής και Τηλεπικοινωνιών Πρόγραμμα Μεταπτυχιακών Σπουδών Διπλωματική Εργασία: «Συγκριτική Μελέτη Μηχανισμών Εκτίμησης Ελλιπούς Πληροφορίας σε Ασύρματα Δίκτυα Αισθητήρων» Αργυροπούλου Αιμιλία

Διαβάστε περισσότερα

Διακριτικές Συναρτήσεις

Διακριτικές Συναρτήσεις Διακριτικές Συναρτήσεις Δρ. Δηµήτριος Τσέλιος Επίκουρος Καθηγητής ΤΕΙ Θεσσαλίας Τµήµα Διοίκησης Επιχειρήσεων Θερµικός χάρτης των XYZ ξενοδοχείων σε σχέση µε τη γεωγραφική περιοχή τους P. Adamopoulos New

Διαβάστε περισσότερα

iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος

iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος iii ΠΕΡΙΕΧΟΜΕΝΑ Πρόλογος xi 1 Αντικείμενα των Πιθανοτήτων και της Στατιστικής 1 1.1 Πιθανοτικά Πρότυπα και Αντικείμενο των Πιθανοτήτων, 1 1.2 Αντικείμενο της Στατιστικής, 3 1.3 Ο Ρόλος των Πιθανοτήτων

Διαβάστε περισσότερα

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ Σ ΤΑΤ Ι Σ Τ Ι Κ Η i ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ Κατανομή Δειγματοληψίας του Δειγματικού Μέσου Ο Δειγματικός Μέσος X είναι μια Τυχαία Μεταβλητή. Καθώς η επιλογή και χρήση διαφορετικών δειγμάτων από έναν

Διαβάστε περισσότερα

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D.

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D. Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D. Μη γραμμικός προγραμματισμός: μέθοδοι μονοδιάστατης ελαχιστοποίησης Πανεπιστήμιο Θεσσαλίας Σχολή Θετικών Επιστημών ΤμήμαΠληροφορικής Διάλεξη 6 η /2017 Τι παρουσιάστηκε

Διαβάστε περισσότερα

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification

ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ. Data Mining - Classification ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Data Mining - Classification Data Mining Ανακάλυψη προτύπων σε μεγάλο όγκο δεδομένων. Σαν πεδίο περιλαμβάνει κλάσεις εργασιών: Anomaly Detection:

Διαβάστε περισσότερα

Πρόλογος... xv. Κεφάλαιο 1. Εισαγωγικές Έννοιες... 1

Πρόλογος... xv. Κεφάλαιο 1. Εισαγωγικές Έννοιες... 1 Πρόλογος... xv Κεφάλαιο 1. Εισαγωγικές Έννοιες... 1 1.1.Ιστορική Αναδρομή... 1 1.2.Βασικές Έννοιες... 5 1.3.Πλαίσιο ειγματοληψίας (Sampling Frame)... 9 1.4.Κατηγορίες Ιατρικών Μελετών.... 11 1.4.1.Πειραµατικές

Διαβάστε περισσότερα

PROJECT ΣΤΟ ΜΑΘΗΜΑ ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΕΥΡΕΤΙΚΕΣ ΜΕΘΟ ΟΥΣ

PROJECT ΣΤΟ ΜΑΘΗΜΑ ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΕΥΡΕΤΙΚΕΣ ΜΕΘΟ ΟΥΣ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΗΣ PROJECT ΣΤΟ ΜΑΘΗΜΑ ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΕΥΡΕΤΙΚΕΣ ΜΕΘΟ ΟΥΣ ΜΕΡΟΣ ΤΡΙΤΟ Πολίτη Όλγα Α.Μ. 4528 Εξάµηνο 8ο Υπεύθυνος Καθηγητής Λυκοθανάσης

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ ΘΕΜΑ ο 2.5 µονάδες ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ Τελικές εξετάσεις 7 Ιανουαρίου 2005 ιάρκεια εξέτασης: 5:00-8:00 Έστω ότι

Διαβάστε περισσότερα

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D.

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D. Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D. Μη γραμμικός προγραμματισμός: βελτιστοποίηση χωρίς περιορισμούς Πανεπιστήμιο Θεσσαλίας Σχολή Θετικών Επιστημών ΤμήμαΠληροφορικής Διάλεξη 7-8 η /2017 Τι παρουσιάστηκε

Διαβάστε περισσότερα

ΕΙΣΑΓΩΓΗ σ. 2 Α. ΕΡΕΥΝΑ ΚΑΙ ΕΠΕΞΕΡΓΑΣΙΑ Ε ΟΜΕΝΩΝ 2

ΕΙΣΑΓΩΓΗ σ. 2 Α. ΕΡΕΥΝΑ ΚΑΙ ΕΠΕΞΕΡΓΑΣΙΑ Ε ΟΜΕΝΩΝ 2 1 Π Ε Ρ Ι Ε Χ Ο Μ Ε Ν Α ΕΙΣΑΓΩΓΗ σ. 2 Α. ΕΡΕΥΝΑ ΚΑΙ ΕΠΕΞΕΡΓΑΣΙΑ Ε ΟΜΕΝΩΝ 2 Β. ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΚΑΙ ΕΡΕΥΝΑ 1. Γενικά Έννοιες.. 2 2. Πρακτικός Οδηγός Ανάλυσης εδοµένων.. 4 α. Οδηγός Λύσεων στο πλαίσιο

Διαβάστε περισσότερα

Πληροφορική 2. Τεχνητή νοημοσύνη

Πληροφορική 2. Τεχνητή νοημοσύνη Πληροφορική 2 Τεχνητή νοημοσύνη 1 2 Τι είναι τεχνητή νοημοσύνη; Τεχνητή νοημοσύνη (AI=Artificial Intelligence) είναι η μελέτη προγραμματισμένων συστημάτων τα οποία μπορούν να προσομοιώνουν μέχρι κάποιο

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη. 18η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Τεχνητή Νοημοσύνη. 18η διάλεξη ( ) Ίων Ανδρουτσόπουλος. Τεχνητή Νοημοσύνη 18η διάλεξη (2016-17) Ίων Ανδρουτσόπουλος http://www.aueb.gr/users/ion/ 1 Οι διαφάνειες αυτής της διάλεξης βασίζονται: στο βιβλίο Machine Learning του T. Mitchell, McGraw- Hill, 1997,

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ Ακαδ. Έτος 06-07 Διδάσκων: Βασίλης ΚΟΥΤΡΑΣ Λέκτορας v.koutras@fme.aegea.gr Τηλ: 7035468 Εκτίμηση Διαστήματος

Διαβάστε περισσότερα

Μάθηση και Γενίκευση. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Μάθηση και Γενίκευση. Τεχνητά Νευρωνικά Δίκτυα (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων Μάθηση και Γενίκευση Το Πολυεπίπεδο Perceptron (MultiLayer Perceptron (MLP)) Έστω σύνολο εκπαίδευσης D={(x n,t n )}, n=1,,n. x n =(x n1,, x nd ) T, t n =(t n1,, t np ) T Θα πρέπει το MLP να έχει d νευρώνες

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ ΘΕΜΑ 1 ο (2,5 µονάδες) ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ Τελικές εξετάσεις Πέµπτη 19 Ιουνίου 2008 11:00-14:00 Έστω το παρακάτω

Διαβάστε περισσότερα

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv

Σ ΤΑΤ Ι Σ Τ Ι Κ Η. Statisticum collegium iv Σ ΤΑΤ Ι Σ Τ Ι Κ Η i Statisticum collegium iv Στατιστική Συμπερασματολογία Ι Σημειακές Εκτιμήσεις Διαστήματα Εμπιστοσύνης Στατιστική Συμπερασματολογία (Statistical Inference) Το πεδίο της Στατιστικής Συμπερασματολογία,

Διαβάστε περισσότερα

Μεθοδολογίες παρεµβολής σε DTM.

Μεθοδολογίες παρεµβολής σε DTM. Μάθηµα : Αλγοριθµικές Βάσεις στη Γεωπληροφορική ιδάσκων : Συµεών Κατσουγιαννόπουλος Μεθοδολογίες παρεµβολής σε DTM.. Μέθοδοι παρεµβολής. Η παρεµβολή σε ψηφιακό µοντέλο εδάφους (DTM) είναι η διαδικασία

Διαβάστε περισσότερα

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων Ι Σύνολο- Περιεχόμενο Μαθήματος

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων Ι Σύνολο- Περιεχόμενο Μαθήματος Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων Ι Σύνολο- Περιεχόμενο Μαθήματος Χιωτίδης Γεώργιος Τμήμα Λογιστικής και Χρηματοοικονομικής Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης

Διαβάστε περισσότερα

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η.

Κεφάλαιο 20. Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Κεφάλαιο 20 Ανακάλυψη Γνώσης σε Βάσεις δεδοµένων Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Σακελλαρίου Τεχνητή Νοηµοσύνη, B' Έκδοση - 1 - Ανακάλυψη Γνώσης σε

Διαβάστε περισσότερα

ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΘΕΜΑ ο (.5 µονάδες) ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ Τελικές εξετάσεις Πέµπτη 7 Ιανουαρίου 8 5:-8: Σχεδιάστε έναν αισθητήρα (perceptron)

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΕΡΓΑΛΕΙΑ ΙΟΙΚΗΣΗΣ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥ ΩΝ ΜΑΘΗΜΑ: ΙΟΙΚΗΣΗ ΕΠΙΧΕΙΡΗΣΕΩΝ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΕΡΓΑΛΕΙΑ ΙΟΙΚΗΣΗΣ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥ ΩΝ ΜΑΘΗΜΑ: ΙΟΙΚΗΣΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥ ΩΝ ΙΟΙΚΗΣΗ ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ ΜΑΘΗΜΑ: ΙΟΙΚΗΣΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΡΓΑΛΕΙΑ ΙΟΙΚΗΣΗΣ ιδάσκων:

Διαβάστε περισσότερα

Ενότητα 1: Εισαγωγή. ΤΕΙ Στερεάς Ελλάδας. Τμήμα Φυσικοθεραπείας. Προπτυχιακό Πρόγραμμα. Μάθημα: Βιοστατιστική-Οικονομία της υγείας Εξάμηνο: Ε (5 ο )

Ενότητα 1: Εισαγωγή. ΤΕΙ Στερεάς Ελλάδας. Τμήμα Φυσικοθεραπείας. Προπτυχιακό Πρόγραμμα. Μάθημα: Βιοστατιστική-Οικονομία της υγείας Εξάμηνο: Ε (5 ο ) ΤΕΙ Στερεάς Ελλάδας Τμήμα Φυσικοθεραπείας Προπτυχιακό Πρόγραμμα Μάθημα: Βιοστατιστική-Οικονομία της υγείας Εξάμηνο: Ε (5 ο ) Ενότητα 1: Εισαγωγή Δρ. Χρήστος Γενιτσαρόπουλος Λαμία, 2017 1.1. Σκοπός και

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ ΘΕΜΑ ο (2.5 µονάδες) ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ Τελικές εξετάσεις 25 Αυγούστου 26 :-4: Κατασκευάστε έναν αισθητήρα (perceptron)

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ Ακαδ. Έτος 08-09 Διδάσκων: Βασίλης ΚΟΥΤΡΑΣ Επικ. Καθηγητής v.koutras@fme.aegea.gr Τηλ: 7035468 Εκτίμηση Διαστήματος

Διαβάστε περισσότερα

ΕΥΦΥΗΣ ΕΛΕΓΧΟΣ. Ενότητα #12: Εισαγωγή στα Nευρωνικά Δίκτυα. Αναστάσιος Ντούνης Τμήμα Μηχανικών Αυτοματισμού Τ.Ε.

ΕΥΦΥΗΣ ΕΛΕΓΧΟΣ. Ενότητα #12: Εισαγωγή στα Nευρωνικά Δίκτυα. Αναστάσιος Ντούνης Τμήμα Μηχανικών Αυτοματισμού Τ.Ε. ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα ΕΥΦΥΗΣ ΕΛΕΓΧΟΣ Ενότητα #12: Εισαγωγή στα Nευρωνικά Δίκτυα Αναστάσιος Ντούνης Τμήμα Μηχανικών Αυτοματισμού Τ.Ε. Άδειες Χρήσης Το

Διαβάστε περισσότερα

Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ. Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ»

Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ. Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ» Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ» 2 ΔΥΝΑΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ Προβλήματα ελάχιστης συνεκτικότητας δικτύου Το πρόβλημα της ελάχιστης

Διαβάστε περισσότερα

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ Tel.: +30 2310998051, Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Σχολή Θετικών Επιστημών Τμήμα Φυσικής 541 24 Θεσσαλονίκη Καθηγητής Γεώργιος Θεοδώρου Ιστοσελίδα: http://users.auth.gr/theodoru ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

Διαβάστε περισσότερα

ΑΡΙΘΜΗΤΙΚΕΣ ΤΕΧΝΙΚΕΣ ΥΠΟΛΟΓΙΣΜΟΥ ΤΗΣ ΑΞΙΟΠΙΣΤΙΑΣ ΣΥΣΤΗΜΑΤΩΝ

ΑΡΙΘΜΗΤΙΚΕΣ ΤΕΧΝΙΚΕΣ ΥΠΟΛΟΓΙΣΜΟΥ ΤΗΣ ΑΞΙΟΠΙΣΤΙΑΣ ΣΥΣΤΗΜΑΤΩΝ ΑΡΙΘΜΗΤΙΚΕΣ ΤΕΧΝΙΚΕΣ ΥΠΟΛΟΓΙΣΜΟΥ ΤΗΣ ΑΞΙΟΠΙΣΤΙΑΣ ΣΥΣΤΗΜΑΤΩΝ Συστήµατα µε στοιχεία συνδεδεµένα σε σειρά Με χρήση των αποτελεσµάτων από τα διαγράµµατα Markov, είναι δυνατόν να δηµιουργούνται ισοδύναµα διαγράµµατα

Διαβάστε περισσότερα

Βασικές αρχές εκπαίδευσης ΤΝΔ: το perceptron. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Βασικές αρχές εκπαίδευσης ΤΝΔ: το perceptron. Τεχνητά Νευρωνικά Δίκτυα (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων Βασικές αρχές εκπαίδευσης ΤΝΔ: το perceptron Βιολογικός Νευρώνας Δενδρίτες, που αποτελούν τις γραμμές εισόδου των ερεθισμάτων (βιολογικών σημάτων) Σώμα, στο οποίο γίνεται η συσσώρευση των ερεθισμάτων και

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη. 5η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Τεχνητή Νοημοσύνη. 5η διάλεξη ( ) Ίων Ανδρουτσόπουλος. Τεχνητή Νοημοσύνη 5η διάλεξη (2017-18) Ίων Ανδρουτσόπουλος http://www.aueb.gr/users/ion/ 1 Οι διαφάνειες αυτής της διάλεξης βασίζονται στα βιβλία Τεχνητή Νοημοσύνη των Βλαχάβα κ.ά., 3η έκδοση, Β. Γκιούρδας

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 2 ΑΝΑΣΚΟΠΗΣΗ ΑΠΑΡΑΙΤΗΤΩΝ ΓΝΩΣΕΩΝ: ΕΚΤΙΜΗΤΕΣ

ΚΕΦΑΛΑΙΟ 2 ΑΝΑΣΚΟΠΗΣΗ ΑΠΑΡΑΙΤΗΤΩΝ ΓΝΩΣΕΩΝ: ΕΚΤΙΜΗΤΕΣ ΚΕΦΑΛΑΙΟ ΑΝΑΣΚΟΠΗΣΗ ΑΠΑΡΑΙΤΗΤΩΝ ΓΝΩΣΕΩΝ: ΕΚΤΙΜΗΤΕΣ Ως γνωστό δείγμα είναι ένα σύνολο παρατηρήσεων από ένα πληθυσμό. Αν ο πληθυσμός αυτός θεωρηθεί μονοδιάστατος τότε μπορεί να εκφρασθεί με τη συνάρτηση

Διαβάστε περισσότερα

Εξέταση Φεβρουαρίου (2011/12) στο Μάθηµα: Γεωργικός Πειραµατισµός. Ζήτηµα 1 ο (2 µονάδες) Για κάθε λανθασµένη απάντηση δεν λαµβάνεται υπόψη µία σωστή

Εξέταση Φεβρουαρίου (2011/12) στο Μάθηµα: Γεωργικός Πειραµατισµός. Ζήτηµα 1 ο (2 µονάδες) Για κάθε λανθασµένη απάντηση δεν λαµβάνεται υπόψη µία σωστή Σειρά Β Εξέταση Φεβρουαρίου (0/) στο Μάθηµα: Γεωργικός Πειραµατισµός Θεσσαλονίκη: 4/0/0 Επώνυµο Όνοµα Αρ. Μητρώου Κατεύθυνση Ζήτηµα ο ( µονάδες) Για κάθε λανθασµένη απάντηση δεν λαµβάνεται υπόψη µία σωστή

Διαβάστε περισσότερα

Δρ. Βασίλειος Γ. Καμπουρλάζος Δρ. Ανέστης Γ. Χατζημιχαηλίδης

Δρ. Βασίλειος Γ. Καμπουρλάζος Δρ. Ανέστης Γ. Χατζημιχαηλίδης Μάθημα 4 ο Δρ. Ανέστης Γ. Χατζημιχαηλίδης Τμήμα Μηχανικών Πληροφορικής Τ.Ε. ΤΕΙ Ανατολικής Μακεδονίας και Θράκης 2016-2017 Διευρυμένη Υπολογιστική Νοημοσύνη (ΥΝ) Επεκτάσεις της Κλασικής ΥΝ. Μεθοδολογίες

Διαβάστε περισσότερα

Είδη Μεταβλητών Κλίμακα Μέτρησης Οι τεχνικές της Περιγραφικής στατιστικής ανάλογα με την κλίμακα μέτρησης Οι τελεστές Π και Σ

Είδη Μεταβλητών Κλίμακα Μέτρησης Οι τεχνικές της Περιγραφικής στατιστικής ανάλογα με την κλίμακα μέτρησης Οι τελεστές Π και Σ ΠΕΡΙΕΧΟΜΕΝΑ ΚΕΦΑΛΑΙΟ 1 Εισαγωγικές Έννοιες 19 1.1 1.2 1.3 1.4 1.5 1.6 1.7 Η Μεταβλητότητα Η Στατιστική Ανάλυση Η Στατιστική και οι Εφαρμοσμένες Επιστήμες Στατιστικός Πληθυσμός και Δείγμα Το στατιστικό

Διαβάστε περισσότερα

J-GANNO. Σύντοµη αναφορά στους κύριους στόχους σχεδίασης και τα βασικά χαρακτηριστικά του πακέτου (προέκδοση 0.9Β, Φεβ.1998) Χάρης Γεωργίου

J-GANNO. Σύντοµη αναφορά στους κύριους στόχους σχεδίασης και τα βασικά χαρακτηριστικά του πακέτου (προέκδοση 0.9Β, Φεβ.1998) Χάρης Γεωργίου J-GANNO ΓΕΝΙΚΕΥΜΕΝΟ ΠΑΚΕΤΟ ΥΛΟΠΟΙΗΣΗΣ ΤΕΧΝΗΤΩΝ ΝΕΥΡΩΝΙΚΩΝ ΙΚΤΥΩΝ ΣΤΗ ΓΛΩΣΣΑ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ JAVA Σύντοµη αναφορά στους κύριους στόχους σχεδίασης και τα βασικά χαρακτηριστικά του πακέτου (προέκδοση 0.9Β,

Διαβάστε περισσότερα

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΕΧΝΟΛΟΓΙΑΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ Τεχνικές κατασκευής δένδρων επιθεµάτων πολύ µεγάλου µεγέθους και χρήσης

Διαβάστε περισσότερα

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams Αλέκα Σεληνιωτάκη Ηράκλειο, 26/06/12 aseliniotaki@csd.uoc.gr ΑΜ: 703 1. Περίληψη Συνεισφοράς

Διαβάστε περισσότερα

Απλή Γραμμική Παλινδρόμηση και Συσχέτιση 19/5/2017

Απλή Γραμμική Παλινδρόμηση και Συσχέτιση 19/5/2017 Απλή Γραμμική Παλινδρόμηση και Συσχέτιση 2 Εισαγωγή Η ανάλυση παλινδρόμησης περιλαμβάνει το σύνολο των μεθόδων της στατιστικής που αναφέρονται σε ποσοτικές σχέσεις μεταξύ μεταβλητών Πρότυπα παλινδρόμησης

Διαβάστε περισσότερα

Πρακτική µε στοιχεία στατιστικής ανάλυσης

Πρακτική µε στοιχεία στατιστικής ανάλυσης Πρακτική µε στοιχεία στατιστικής ανάλυσης 1. Για να υπολογίσουµε µια ποσότητα q = x 2 y xy 2, µετρήσαµε τα µεγέθη x και y και βρήκαµε x = 3.0 ± 0.1και y = 2.0 ± 0.1. Να βρεθεί η ποσότητα q και η αβεβαιότητά

Διαβάστε περισσότερα

Ανάλυση Κινδύνου & Υποδείγματα Πτώχευσης. Αντώνιος Πανουσιάδης Επιβλέπων καθηγητής: Αθανάσιος Νούλας

Ανάλυση Κινδύνου & Υποδείγματα Πτώχευσης. Αντώνιος Πανουσιάδης Επιβλέπων καθηγητής: Αθανάσιος Νούλας Ανάλυση Κινδύνου & Υποδείγματα Πτώχευσης Αντώνιος Πανουσιάδης Επιβλέπων καθηγητής: Αθανάσιος Νούλας Στόχοι Διπλωματικής Εργασίας I. Ανάλυση βασικών επιχειρηματικών κινδύνων II. Ανάλυση κλασσικών υποδειγμάτων

Διαβάστε περισσότερα

Αριθμητική εύρεση ριζών μη γραμμικών εξισώσεων

Αριθμητική εύρεση ριζών μη γραμμικών εξισώσεων Αριθμητική εύρεση ριζών μη γραμμικών εξισώσεων Με τον όρο μη γραμμικές εξισώσεις εννοούμε εξισώσεις της μορφής: f( ) 0 που προέρχονται από συναρτήσεις f () που είναι μη γραμμικές ως προς. Περιέχουν δηλαδή

Διαβάστε περισσότερα

Απλή Γραμμική Παλινδρόμηση I

Απλή Γραμμική Παλινδρόμηση I Απλή Γραμμική Παλινδρόμηση I. Εισαγωγή Έστω ότι θέλουμε να ερευνήσουμε εμπειρικά τη σχέση που υπάρχει ανάμεσα στις δαπάνες κατανάλωσης και στο διαθέσιμο εισόδημα, των οικογενειών. Σύμφωνα με την Κεϋνσιανή

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ ΘΕΜΑ 1 ο (2,5 μονάδες) ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ Τελικές εξετάσεις Πέμπτη 21 Ιουνίου 2012 16:30-19:30 Υποθέστε ότι θέλουμε

Διαβάστε περισσότερα

Kalman Filter Γιατί ο όρος φίλτρο;

Kalman Filter Γιατί ο όρος φίλτρο; Kalman Filter Γιατί ο όρος φίλτρο; Συνήθως ο όρος φίλτρο υποδηλώνει µια διαδικασία αποµάκρυνσης µη επιθυµητών στοιχείων Απότολατινικόόροfelt : το υλικό για το φιλτράρισµα υγρών Στη εποχή των ραδιολυχνίων:

Διαβάστε περισσότερα

Έλεγχος υποθέσεων και διαστήματα εμπιστοσύνης

Έλεγχος υποθέσεων και διαστήματα εμπιστοσύνης 1 Έλεγχος υποθέσεων και διαστήματα εμπιστοσύνης Όπως γνωρίζουμε από προηγούμενα κεφάλαια, στόχος των περισσότερων στατιστικών αναλύσεων, είναι η έγκυρη γενίκευση των συμπερασμάτων, που προέρχονται από

Διαβάστε περισσότερα

Τυπικά θέματα εξετάσεων. ΠΡΟΣΟΧΗ: Οι ερωτήσεις που παρατίθενται ΔΕΝ καλύπτουν την πλήρη ύλη του μαθήματος και παρέχονται απλά ενδεικτικά

Τυπικά θέματα εξετάσεων. ΠΡΟΣΟΧΗ: Οι ερωτήσεις που παρατίθενται ΔΕΝ καλύπτουν την πλήρη ύλη του μαθήματος και παρέχονται απλά ενδεικτικά ΤΕΙ Κεντρικής Μακεδονίας Τμήμα Μηχανικών Πληροφορικής ΤΕ Μεταπτυχιακό Πρόγραμμα Τηλεπικοινωνιών & Πληροφορικής Μάθημα : 204a Υπολογιστική Ευφυία Μηχανική Μάθηση Καθηγητής : Σπύρος Καζαρλής Ενότηα : Εξελικτική

Διαβάστε περισσότερα

Γραµµικοί Ταξινοµητές

Γραµµικοί Ταξινοµητές ΚΕΣ 3: Αναγνώριση Προτύπων και Ανάλυση Εικόνας KEΣ 3 Αναγνώριση Προτύπων και Ανάλυση Εικόνας Γραµµικοί Ταξινοµητές ΤµήµαΕπιστήµης και Τεχνολογίας Τηλεπικοινωνιών Πανεπιστήµιο Πελοποννήσου 7 Ncolas sapatsouls

Διαβάστε περισσότερα

ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΠΑΡΑΓΩΓΗΣ ΚΑΙ ΙΟΙΚΗΣΗΣ

ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΠΑΡΑΓΩΓΗΣ ΚΑΙ ΙΟΙΚΗΣΗΣ ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΠΑΡΑΓΩΓΗΣ ΚΑΙ ΙΟΙΚΗΣΗΣ ιπλωµατική εργασία µε θέµα: ΣΥΓΚΡΙΤΙΚΗ ΠΕΙΡΑΜΑΤΙΚΗ ΑΝΑΛΥΣΗ ΜΕΘΟ ΩΝ ΤΑΞΙΝΌΜΗΣΗΣ ΣΕ ΙΑΚΡΙΤΑ Ε ΟΜΕΝΑ ΣΦΑΤΚΙ ΗΣ ΙΩΑΝΝΗΣ Επιβλέπων Καθηγητής: ούµπος

Διαβάστε περισσότερα

Πολλαπλή παλινδρόµηση. Μάθηµα 3 ο

Πολλαπλή παλινδρόµηση. Μάθηµα 3 ο Πολλαπλή παλινδρόµηση Μάθηµα 3 ο Πολλαπλή παλινδρόµηση (Multivariate regression ) Η συµπεριφορά των περισσότερων οικονοµικών µεταβλητών είναι συνάρτηση όχι µιας αλλά πολλών µεταβλητών Y = f ( X, X 2, X

Διαβάστε περισσότερα

Β Γραφικές παραστάσεις - Πρώτο γράφημα Σχεδιάζοντας το μήκος της σανίδας συναρτήσει των φάσεων της σελήνης μπορείτε να δείτε αν υπάρχει κάποιος συσχετισμός μεταξύ των μεγεθών. Ο συνήθης τρόπος γραφικής

Διαβάστε περισσότερα

Κύρια σημεία. Η έννοια του μοντέλου. Έρευνα στην εφαρμοσμένη Στατιστική. ΈρευναστηΜαθηματικήΣτατιστική. Αντικείμενο της Μαθηματικής Στατιστικής

Κύρια σημεία. Η έννοια του μοντέλου. Έρευνα στην εφαρμοσμένη Στατιστική. ΈρευναστηΜαθηματικήΣτατιστική. Αντικείμενο της Μαθηματικής Στατιστικής Κύρια σημεία Ερευνητική Μεθοδολογία και Μαθηματική Στατιστική Απόστολος Μπουρνέτας Τμήμα Μαθηματικών ΕΚΠΑ Αναζήτηση ερευνητικού θέματος Εισαγωγή στην έρευνα Ολοκλήρωση ερευνητικής εργασίας Ο ρόλος των

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΧΩΡΟΤΑΞΙΑΣ, ΠΟΛΕΟΔΟΜΙΑΣ ΚΑΙ ΠΕΡΙΦΕΡΕΙΑΚΗΣ ΑΝΑΠΤΥΞΗΣ ΠΜΣ «ΕΠΑ» και «ΝΕΚΑ» ΜΕΘΟΔΟΙ ΕΡΥΕΝΑΣ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΧΩΡΟΤΑΞΙΑΣ, ΠΟΛΕΟΔΟΜΙΑΣ ΚΑΙ ΠΕΡΙΦΕΡΕΙΑΚΗΣ ΑΝΑΠΤΥΞΗΣ ΠΜΣ «ΕΠΑ» και «ΝΕΚΑ» ΜΕΘΟΔΟΙ ΕΡΥΕΝΑΣ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΧΩΡΟΤΑΞΙΑΣ, ΠΟΛΕΟΔΟΜΙΑΣ ΚΑΙ ΠΕΡΙΦΕΡΕΙΑΚΗΣ ΑΝΑΠΤΥΞΗΣ ΠΜΣ «ΕΠΑ» και «ΝΕΚΑ» ΜΕΘΟΔΟΙ ΕΡΥΕΝΑΣ Εισαγωγή: 3 η Άσκηση: 15/12/2016 Για την ανάλυση της σημασίας

Διαβάστε περισσότερα

ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ

ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ Ε Θ Ν Ι Κ Ο Μ Ε Τ Σ Ο Β Ι Ο Π Ο Λ Υ Τ Ε Χ Ν Ε Ι Ο ΣΧΟΛΗ ΕΦΑΡΜΟΣΜΕΝΩΝ ΜΑΘΗΜΑΤΙΚΩΝ & ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΔΠΜΣ: ΕΦΑΡΜΟΣΜΕΝΕΣ ΜΑΘΗΜΑΤΙΚΕΣ ΕΠΙΣΤΗΜΕΣ ΑΛΓΟΡΙΘΜΟΙ ΕΞΟΡΥΞΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΤΕΛΙΚΗ ΕΡΓΑΣΙΑ ΟΝΟΜΑΤΕΠΩΝΥΜΟ:

Διαβάστε περισσότερα

Λίγα λόγια για τους συγγραφείς 16 Πρόλογος 17

Λίγα λόγια για τους συγγραφείς 16 Πρόλογος 17 Περιεχόμενα Λίγα λόγια για τους συγγραφείς 16 Πρόλογος 17 1 Εισαγωγή 21 1.1 Γιατί χρησιμοποιούμε τη στατιστική; 21 1.2 Τι είναι η στατιστική; 22 1.3 Περισσότερα για την επαγωγική στατιστική 23 1.4 Τρεις

Διαβάστε περισσότερα

Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Μάθημα: Στατιστική II Διάλεξη 1 η : Εισαγωγή-Επανάληψη βασικών εννοιών Εβδομάδα 1 η : ,

Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Μάθημα: Στατιστική II Διάλεξη 1 η : Εισαγωγή-Επανάληψη βασικών εννοιών Εβδομάδα 1 η : , Τμήμα Διοίκησης Επιχειρήσεων (Γρεβενά) Μάθημα: Στατιστική II Διάλεξη 1 η : Εισαγωγή-Επανάληψη βασικών εννοιών Εβδομάδα 1 η :1-0-017, 3-0-017 Διδάσκουσα: Κοντογιάννη Αριστούλα Σκοπός του μαθήματος Η παρουσίαση

Διαβάστε περισσότερα

ΣΥΓΚΡΙΣΗ ΝΟΗΜΟΝΩΝ ΜΕΘΟ ΟΛΟΓΙΩΝ ΓΙΑ ΤΗ ΜΟΝΤΕΛΟΠΟΙΗΣΗ ΤΟΥ ΠΡΟΒΛΗΜΑΤΟΣ ΤΟΥ ΠΙΣΤΟΛΗΠΤΙΚΟΥ ΚΙΝ ΥΝΟΥ ΣΕ ΤΡΑΠΕΖΙΚΟΥΣ ΟΡΓΑΝΙΣΜΟΥΣ

ΣΥΓΚΡΙΣΗ ΝΟΗΜΟΝΩΝ ΜΕΘΟ ΟΛΟΓΙΩΝ ΓΙΑ ΤΗ ΜΟΝΤΕΛΟΠΟΙΗΣΗ ΤΟΥ ΠΡΟΒΛΗΜΑΤΟΣ ΤΟΥ ΠΙΣΤΟΛΗΠΤΙΚΟΥ ΚΙΝ ΥΝΟΥ ΣΕ ΤΡΑΠΕΖΙΚΟΥΣ ΟΡΓΑΝΙΣΜΟΥΣ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΙΟΙΚΗΣΗΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥ ΩΝ ΟΙΚΟΝΟΜΙΚΗ ΚΑΙ ΙΟΙΚΗΣΗ ΓΙΑ ΜΗΧΑΝΙΚΟΥΣ (ΠΜΣ Ο. Ι.Μ.) ΣΥΓΚΡΙΣΗ ΝΟΗΜΟΝΩΝ ΜΕΘΟ ΟΛΟΓΙΩΝ

Διαβάστε περισσότερα

ΕΛΕΓΧΟΣ ΠΑΡΑΓΩΓΙΚΩΝ ΔΙΕΡΓΑΣΙΩΝ

ΕΛΕΓΧΟΣ ΠΑΡΑΓΩΓΙΚΩΝ ΔΙΕΡΓΑΣΙΩΝ ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα ΕΛΕΓΧΟΣ ΠΑΡΑΓΩΓΙΚΩΝ ΔΙΕΡΓΑΣΙΩΝ Ενότητα: Αναγνώριση Διεργασίας - Προσαρμοστικός Έλεγχος (Process Identification) Αλαφοδήμος Κωνσταντίνος

Διαβάστε περισσότερα

ΑΚΕΡΑΙΟΣ ΓΡΑΜΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ

ΑΚΕΡΑΙΟΣ ΓΡΑΜΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΑΚΕΡΑΙΟΣ ΓΡΑΜΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ Ολοκληρωμένη μαθηματική τεχνική βελτιστοποίησης Ευρύτατο φάσμα εφαρμογών Εισαγωγή ακέραιων/λογικών/βοηθητικών μεταβλητών Δυνατότητα γραμμικοποίησης με 0-1 μεταβλητές

Διαβάστε περισσότερα

z = c 1 x 1 + c 2 x c n x n

z = c 1 x 1 + c 2 x c n x n Τεχνολογικό Εκπαιδευτικό Ιδρυμα Κεντρικής Μακεδονίας - Σέρρες Τμήμα Μηχανικών Πληροφορικής Γραμμικός Προγραμματισμός & Βελτιστοποίηση Δρ. Δημήτρης Βαρσάμης Καθηγητής Εφαρμογών Δρ. Δημήτρης Βαρσάμης Μάρτιος

Διαβάστε περισσότερα

Μοντέλο Perceptron πολλών στρωμάτων Multi Layer Perceptron (MLP)

Μοντέλο Perceptron πολλών στρωμάτων Multi Layer Perceptron (MLP) Μοντέλο Perceptron πολλών στρωμάτων Multi Layer Perceptron (MLP) x -0,5 a x x 2 0 0 0 0 - -0,5 y y 0 0 x 2 -,5 a 2 θ η τιμή κατωφλίου Μία λύση του προβλήματος XOR Multi Layer Perceptron (MLP) x -0,5 Μία

Διαβάστε περισσότερα

Κεφ. 6Β: Συνήθεις διαφορικές εξισώσεις (ΣΔΕ) - προβλήματα αρχικών τιμών

Κεφ. 6Β: Συνήθεις διαφορικές εξισώσεις (ΣΔΕ) - προβλήματα αρχικών τιμών Κεφ. 6Β: Συνήθεις διαφορικές εξισώσεις (ΣΔΕ) - προβλήματα αρχικών τιμών. Εισαγωγή (ορισμός προβλήματος, αριθμητική ολοκλήρωση ΣΔΕ, αντικατάσταση ΣΔΕ τάξης n με n εξισώσεις ης τάξης). Μέθοδος Euler 3. Μέθοδοι

Διαβάστε περισσότερα

ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Τμήμα Τραπεζικής & Χρηματοοικονομικής

ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Τμήμα Τραπεζικής & Χρηματοοικονομικής ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Μεταπτυχιακό Τμήμα Τραπεζικής & Χρηματοοικονομικής Πολλαπλό Γραμμικό Υπόδειγμα Παλινδρόμησης Τα υποδείγματα του απλού γραμμικού υποδείγματος της παλινδρόμησης (simple linear regression

Διαβάστε περισσότερα

Ασκήσεις μελέτης της 19 ης διάλεξης

Ασκήσεις μελέτης της 19 ης διάλεξης Οικονομικό Πανεπιστήμιο Αθηνών, Τμήμα Πληροφορικής Μάθημα: Τεχνητή Νοημοσύνη, 2016 17 Διδάσκων: Ι. Ανδρουτσόπουλος Ασκήσεις μελέτης της 19 ης διάλεξης 19.1. Δείξτε ότι το Perceptron με (α) συνάρτηση ενεργοποίησης

Διαβάστε περισσότερα

Σύγχρονα συστήµατα προβλέψεων και µοντελοποίησης. Τµήµα Στατιστικής και Αναλογιστικών Χρηµατοοικονοµικών Μαθηµατικών

Σύγχρονα συστήµατα προβλέψεων και µοντελοποίησης. Τµήµα Στατιστικής και Αναλογιστικών Χρηµατοοικονοµικών Μαθηµατικών Σύγχρονα συστήµατα προβλέψεων και µοντελοποίησης Τµήµα Στατιστικής και Αναλογιστικών Χρηµατοοικονοµικών Μαθηµατικών 2 Εργαλεία διαχείρισης Για κάθε µελλοντική εξέλιξη και απόφαση, η πρόβλεψη αποτελεί το

Διαβάστε περισσότερα

Συνήθεις διαφορικές εξισώσεις προβλήματα οριακών τιμών

Συνήθεις διαφορικές εξισώσεις προβλήματα οριακών τιμών Συνήθεις διαφορικές εξισώσεις προβλήματα οριακών τιμών Οι παρούσες σημειώσεις αποτελούν βοήθημα στο μάθημα Αριθμητικές Μέθοδοι του 5 ου εξαμήνου του ΤΜΜ ημήτρης Βαλουγεώργης Καθηγητής Εργαστήριο Φυσικών

Διαβάστε περισσότερα

Συσχέτιση μεταξύ δύο συνόλων δεδομένων

Συσχέτιση μεταξύ δύο συνόλων δεδομένων Διαγράμματα διασποράς (scattergrams) Συσχέτιση μεταξύ δύο συνόλων δεδομένων Η οπτική απεικόνιση δύο συνόλων δεδομένων μπορεί να αποκαλύψει με παραστατικό τρόπο πιθανές τάσεις και μεταξύ τους συσχετίσεις,

Διαβάστε περισσότερα

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R, Επίκουρος Καθηγητής, Τομέας Μαθηματικών, Σχολή Εφαρμοσμένων Μαθηματικών και Φυσικών Επιστημών, Εθνικό Μετσόβιο Πολυτεχνείο. Περιεχόμενα Εισαγωγή στο

Διαβάστε περισσότερα

ΤΟΠΟΓΡΑΦΙΚΑ ΔΙΚΤΥΑ ΚΑΙ ΥΠΟΛΟΓΙΣΜΟΙ ΑΝΑΣΚΟΠΗΣΗ ΘΕΩΡΙΑΣ ΣΥΝΟΡΘΩΣΕΩΝ

ΤΟΠΟΓΡΑΦΙΚΑ ΔΙΚΤΥΑ ΚΑΙ ΥΠΟΛΟΓΙΣΜΟΙ ΑΝΑΣΚΟΠΗΣΗ ΘΕΩΡΙΑΣ ΣΥΝΟΡΘΩΣΕΩΝ ΤΟΠΟΓΡΑΦΙΚΑ ΔΙΚΤΥΑ ΚΑΙ ΥΠΟΛΟΓΙΣΜΟΙ ΑΝΑΣΚΟΠΗΣΗ ΘΕΩΡΙΑΣ ΣΥΝΟΡΘΩΣΕΩΝ Βασίλης Δ. Ανδριτσάνος Δρ. Αγρονόμος - Τοπογράφος Μηχανικός ΑΠΘ Επίκουρος Καθηγητής ΤΕΙ Αθήνας 3ο εξάμηνο http://eclass.teiath.gr Παρουσιάσεις,

Διαβάστε περισσότερα

τρόπος για να εμπεδωθεί η θεωρία. Για την επίλυση των παραδειγμάτων χρησιμοποιούνται στατιστικά πακέτα, ώστε να είναι δυνατή η ανάλυση μεγάλου όγκου

τρόπος για να εμπεδωθεί η θεωρία. Για την επίλυση των παραδειγμάτων χρησιμοποιούνται στατιστικά πακέτα, ώστε να είναι δυνατή η ανάλυση μεγάλου όγκου ΠΡΟΛΟΓΟΣ Η γραμμική παλινδρόμηση χρησιμοποιείται για την μελέτη των σχέσεων μεταξύ μετρήσιμων μεταβλητών. Γενικότερα, η γραμμική στατιστική συμπερασματολογία αποτελεί ένα ευρύ πεδίο της στατιστικής ανάλυσης

Διαβάστε περισσότερα

HMY 795: Αναγνώριση Προτύπων. Διαλέξεις 15-16

HMY 795: Αναγνώριση Προτύπων. Διαλέξεις 15-16 HMY 795: Αναγνώριση Προτύπων Διαλέξεις 15-16 Νευρωνικά Δίκτυα(Neural Networks) Fisher s linear discriminant: Μείωση διαστάσεων (dimensionality reduction) y Τ =w x s + s =w S w 2 2 Τ 1 2 W ( ) 2 2 ( ) m2

Διαβάστε περισσότερα

Ιεραρχική αναλυση αποφασεων Analytic hierarchy process (AHP)

Ιεραρχική αναλυση αποφασεων Analytic hierarchy process (AHP) Ιεραρχική αναλυση αποφασεων Analytic hierarchy process (AHP) Εισαγωγή Παρουσιάστηκε από τον Thomas L. Saaty τη δεκαετία του 70 Μεθοδολογία που εφαρμόζεται στην περιοχή των Multicriteria Problems Δίνει

Διαβάστε περισσότερα

3η Ενότητα Προβλέψεις

3η Ενότητα Προβλέψεις ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ Μονάδα Προβλέψεων & Στρατηγικής Forecasting & Strategy Unit Τεχνικές Προβλέψεων 3η Ενότητα Προβλέψεις (Μέρος 4 ο ) http://www.fsu.gr

Διαβάστε περισσότερα

Η ΙΣΧΥΣ ΕΝΟΣ ΕΛΕΓΧΟΥ. (Power of a Test) ΚΕΦΑΛΑΙΟ 21

Η ΙΣΧΥΣ ΕΝΟΣ ΕΛΕΓΧΟΥ. (Power of a Test) ΚΕΦΑΛΑΙΟ 21 ΚΕΦΑΛΑΙΟ 21 Η ΙΣΧΥΣ ΕΝΟΣ ΕΛΕΓΧΟΥ (Power of a Test) Όπως είδαμε προηγουμένως, στον Στατιστικό Έλεγχο Υποθέσεων, ορίζουμε δύο είδη πιθανών λαθών (κινδύνων) που μπορεί να συμβούν όταν παίρνουμε αποφάσεις

Διαβάστε περισσότερα