ΔΥΝΑΜΙΚΟΣ ΑΡΘΡΩΤΟΣ ΝΕΥΡΟΑΣΑΦΗΣ

Transcript

1 ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ & ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΗΛΕΚΤΡΟΝΙΚΗΣ & ΥΠΟΛΟΓΙΣΤΩΝ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ ΚΟΥΡΟΥΣ ΝΙΚΟΛΑΟΣ ΔΥΝΑΜΙΚΟΣ ΑΡΘΡΩΤΟΣ ΝΕΥΡΟΑΣΑΦΗΣ ΤΑΞΙΝΟΜΗΤΗΣ Επιβλέπων: ΘΕΟΧΑΡΗΣ ΙΩΑΝΝΗΣ ΚΑΘΗΓΗΤΗΣ Θεσσαλονίκη Καλοκαίρι 2012

2 Αφιερούται στον πατέρα μου Σπύρο Να ρωτάς για τα πάντα, να μαθαίνεις κάτι, να μην απαντάς τίποτα. Ευριπίδης 2

3 ΠΕΡΙΛΗΨΗ Η εργασία αυτή πραγματεύεται την υλοποίηση ενός αρθρωτού νευροασαφούς ταξινομητή που εμπεριέχει μια δυναμική αρχιτεκτονική ανάθεσης πόρων συνδυαζόμενων με στόχο τη βελτίωση της απόδοσης σε περιοχές χαμηλής ακρίβειας. Ο ταξινομητής αποτελείται από μία κύρια μονάδα και έναν αριθμό υπομονάδων. Ο γνωστός αλγόριθμος δέντρων ταξινόμησης και παλινδρόμησης (CART) υιοθετείται ως μια γρήγορη προεπεξεργασία του προσδιορισμού δομής, διαιρώντας το χώρο εισόδου σε περιοχές υψηλής και χαμηλής βεβαιότητας, που κάθε μια αντιπροσωπεύει έναν κύριο ασαφή κανόνα. Οι κύριοι ασαφείς κανόνες χρησιμοποιούν ένα ελάχιστο σύνολο χαρακτηριστικών και αντιστοιχίζονται στην κύρια νευροασαφή μονάδα. Εντούτοις, τα δείγματα που ανήκουν σε έναν κανόνα με χαμηλή βεβαιότητα διασπώνται περαιτέρω σε ένα υποσύνολο από δευτερεύοντες κανόνες που χρησιμοποιούν ένα εκτεταμένο σύνολο χαρακτηριστικών. Κάθε τέτοιο υποσύνολο αντιστοιχίζεται σε μια εξειδικευμένη υπομονάδα που ενεργοποιείται μόνο αν ένα δείγμα περιέρχεται στην αντίστοιχη περιοχή χαμηλής βεβαιότητας. Με άλλα λόγια, δημιουργούμε κανόνες της μορφής «Εάν Τότε- εάν» (if then if ), όπου το πρώτο IF αφορά την κύρια μονάδα και τον αρχικό κανόνα, ενώ το δεύτερο IF αφορά την αντίστοιχη υπομονάδα και το σύνολο των δευτερευόντων κανόνων (ή υποκανόνων). Αυτό το μοντέλο δυναμικής ανάθεσης πόρων βελτιστοποιείται μέσω μιας επιβλεπόμενης διαδικασίας εκμάθησης. Τα πειράματα σε τυπικά σύνολα ταξινόμησης συγκριτικής μέτρησης επιδόσεων αποδεικνύουν ότι αυτή η αρχιτεκτονική όχι μόνο μειώνει την πολυπλοκότητα και το υπολογιστικό κόστος, το οποίο είναι ο αρχικός στόχος μας, αλλά επιπλέον προσφέρει γρήγορη και ακριβή επεξεργασία κατά τη διάρκεια της λειτουργίας σε πραγματικό χρόνο. Επιπλέον, κατέχει ορισμένες ιδιότητες που το καθιστούν ιδανικό για τις εφαρμογές υπολογιστικής νοημοσύνης πολλών διαστάσεων, ειδικά εκείνες που υιοθετούν προφίλ χρηστών ή απαιτούν μερική επανεκπαίδευση. 3

4 ABSTRACT This work deals with the implementation of a modular neurofuzzy classifier including a dynamic architecture of allocating its resources and combining them so as to improve the efficiency in regions of low classification accuracy. The classifier involves a main module and a number of submodules. The well-known classification and regression trees (CART) algorithm is employed as a fast preprocess of structure identification, which divides the input space into high certainty and low certainty regions, each representing a primary fuzzy rule. These primary fuzzy rules use a minimum set of attributes and are mapped onto the main neuro-fuzzy module. However, the patterns belonging to a low certainty primary rule get further split into a subset of secondary rules that use an exted set of attributes. Each such rule subset is mapped onto an expert-submodule, which gets activated only when a pattern falls into the respective low certainty region. In other words, we create a rule form of if then if conditional statement, where the first IF concerns the main module and the primary rule, while the second IF concerns the respective submodule and the secondary rule set. This dynamic resource-allocating model is optimized through a supervised learning procedure. Experiments in benchmark classification tasks prove that this architecture not only does reduce complexity and computational cost, which is its primary goal, but also offers fast and accurate processing during real-time operation. Moreover, it holds certain properties that make it ideal for soft computing applications of high dimension, especially those that adopt user-profiles or require partial re-training. 4

5 ΕΥΧΑΡΙΣΤΙΕΣ Θα ήθελα να ευχαριστήσω τον καθηγητή μου για την δυνατότητα που μου έδωσε να πραγματοποιήσω την παρούσα εργασία καθώς και για την εμπιστοσύνη που μου έδειξε σε όλα τα στάδια της διπλωματικής. Οι καίριες παρατηρήσεις του και οι επί της ουσίας απαντήσεις του στις ερωτήσεις που προέκυπταν συνέβαλαν στην ευκολότερη κατανόηση και στην ορθή αντιμετώπιση των θεμάτων αυτής της εργασίας. Κουρούς Νικόλαος 5

6 ΠΡΟΛΟΓΟΣ Η παρούσα διπλωματική εργασία ασχολείται με την κατασκευή ενός προγράμματος που θα έχει το ρόλο ενός ταξινομητή. Η ταξινόμηση δεδομένων νοείται ως η ορθή κατηγοριοποίηση δεδομένων στην κλάση που αντιστοιχεί στο καθένα. Θα μπορούσαμε να δούμε τον ταξινομητή ως μία συνάρτηση- ή διαφορετικά ως ένα σύστημα- που δέχεται ως είσοδο δεδομένα (το κάθε δεδομένο μπορεί να αποτελείται από μία ή περισσότερες μεταβλητές) και στην έξοδο δίνει την κλάση ή αλλιώς την τιμή της συνάρτησης. Η εργασία βασίζεται πάνω σε μια δημοσιευμένη εργασία των Περτσελάκη και Σταφυλοπάτη [1], όπου περιγράφεται εξονυχιστικά η σύλληψη, η δομή και η φιλοσοφία του συστήματος χωρίς, ωστόσο, να γίνεται καμιά αναφορά στον τρόπο υλοποίησης, δηλαδή στη γλώσσα προγραμματισμού, διότι σκοπός της είναι φυσικά η παρουσίαση της ιδέας, μιας καινοτόμου ιδέας, και όχι της υλοποίησης. Έτσι, επέλεξα ως γλώσσα προγραμματισμού το MatLab, χάρη της τριβής μου με αυτό, της απλής λογικής του και της ευκολίας σύνταξης προγραμμάτων, αλλά και του πλήθους έτοιμων συναρτήσεων πινάκων που εμπεριέχει και κυριολεκτικά «λύνουν» τα χέρια του προγραμματιστή. Σκοπός της παρούσας εργασίας είναι η μελέτη του συστήματος αλλά και η παρουσίασή του όσο πιο κατανοητά γίνεται στον επίδοξο αναγνώστη ώστε να μπορέσει να κατανοήσει τo paper [1] με πολύ λιγότερη προσπάθεια αλλά και να δει πώς λειτουργεί στη πράξη τρέχοντας το πρόγραμμα σε MatLab που υλοποιεί τον ταξινομητή. Η δομή της εργασίας έχει χαρακτήρα εκπαιδευτικό και θα μπορούσαμε να τη χαρακτηρίσουμε ως μια «σπουδή» στις έννοιες και τεχνικές της ασαφούς λογικής και των νευρωνικών δικτύων και αυτή νομίζω εν τέλει ότι είναι και η χρησιμότητά της. 6

7 ΠΕΡΙΕΧΟΜΕΝΑ Ι. ΕΙΣΑΓΩΓΗ Ι.1 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΣΤΟΙΧΕΙΑ ΜΕΘΟΔΟΛΟΓΙΑΣ ΑΣΑΦΟΥΣ ΣΥΜΠΕΡΑΣΜΟΥ 1.1 ΣΤΟΙΧΕΙΑ ΜΕΘΟΔΟΛΟΓΙΑΣ ΑΣΑΦΟΥΣ ΣΥΜΠΕΡΑΣΜΟΥ Ο ασαφής κανόνας Ασαφής συμπερασμός του στοιχειώδους ασαφούς τμήματος ενός κανόνα Ασαφής συμπερασμός συστ. με περισσότερους. του ενός ασαφείς κανόνες ΕΞΑΓΩΓΗ ΚΑΝΟΝΩΝ ΑΠΟ ΑΡΙΘΜΗΤΙΚΑ ΔΕΔΟΜΕΝΑ Εισαγωγή Τύποι διαμερισμού του χώρου των εισόδων ΕΚΠΑΙΔΕΥΣΗ ΤΟΥ ΣΥΣΤΗΜΑΤΟΣ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ 2.1 ΕΙΣΑΓΩΓΙΚΟ ΣΗΜΕΙΩΜΑ ΒΑΣΙΚΑ ΣΤΟΙΧΕΙΑ ΜΟΝΤΕΛΟ ΤΕΧΝΗΤΟΥ ΝΕΥΡΩΝΙΟΥ (ΝΕΥΡΩΝΑΣ) ΑΡΧΙΤΕΚΤΟΝΙΚΕΣ ΝΕΡΩΝΙΚΩΝ ΔΙΚΤΥΩΝ ΜΑΘΗΣΗ ΝΕΡΩΝΙΚΩΝ ΔΙΚΤΥΩΝ ΝΕΥΡΟΑΣΑΦΗ ΣΥΣΤΗΜΑΤΑ 3.1 ΥΒΡΙΔΙΚΑ ΣΥΣΤΗΜΑΤΑ ΥΠΟΛΟΓΙΣΤΙΚΗΣ ΝΟΗΜΟΣΥΝΗΣ Νευροασαφή Συστήματα Νευρωνικά Μέρη ενός Ασαφούς Συστήματος Τεχνικές Εκτίμησης Σφάλματος Ταξινόμησης ΜΟΝΤΕΛΟΠΟΙΗΣΗ ΝΕΥΡΟΑΣΑΦΩΝ ΣΥΣΤΗΜΑΤΩΝ ΚΑΙ ΠΡΟΣΔΙΟΡΙΣΜΟΣ ΔΟΜΗΣ Νευροασαφή συστήματα γινομένου ΓΝΩΣΤΑ ΝΕΥΡΟΑΣΑΦΗ ΣΥΣΤΗΜΑΤΑ Εισαγωγή Εκπαίδευση στα Νευροασαφή Συστήματα Γνωστά Νευροασαφή Συστήματα Αρχιτεκτονική Συστήματος ANFIS Αλγόριθμος Εκπαίδευσης Συστήματος ANFIS Αρχιτεκτονική Συστήματος HyFIS Αλγόριθμος Εκπαίδευσης Συστήματος HyFIS Αρχιτεκτονική Συστήματος SuPFuNIS Αλγόριθμος Εκπαίδευσης Συστήματος SuPFuNIS ΣΥΣΤΗΜΑ MoDFuNC 4.1 ΔΟΜΗ ΤΟΥ ΣΥΣΤΗΜΑΤΟΣ

8 4.2 ΛΕΙΤΟΥΡΓΙΑ ΤΗΣ ΜΕΘΟΔΟΥ ΤΟΠΟΛΟΓΙΑ ΤΟΥ ΣΥΣΤΗΜΑΤΟΣ ΑΝΑΛΥΤΙΚΗ ΠΕΡΙΓΡΑΦΗ ΚΑΘΕ ΣΤΑΔΙΟΥ ΠΕΙΡΑΜΑΤΙΚΑ ΑΠΟΤΕΛΕΣΜΑΤΑ 5.1 Iris Ionosphere Pima Indians Wisconsin Breast Cancer Vehicle Συγκεντρωτικοί πίνακες αποτελεσμάτων Αξιολόγηση της μεθόδου Μελλοντικές επεκτάσεις Επίλογος ΠΑΡΑΡΤΗΜΑ Ι CART I.1 ΕΙΣΑΓΩΓΗ I.2 ΔΕΝΔΡΑ ΑΠΟΦΑΣΗΣ Ι.3 ΑΛΓΟΡΙΘΜΟΣ CART ΓΙΑ ΤΗΝ ΚΑΤΑΣΚΕΥΗ ΤΟΥ ΔΕΝΤΡΟΥ Ι.3.1 Μεγάλωμα (ανάπτυξη) του δέντρου Ι.3.2 Κλάδεμα του δέντρου ΠΑΡΑΡΤΗΜΑ ΙI FCM II.1 ΕΙΣΑΓΩΓΗ ΙΙ.2 Ο ΑΛΓΟΡΙΘΜΟΣ Κ-ΜΕΣΩΝ ΙΙ.3 Ο ΑΛΓΟΡΙΘΜΟΣ Κ-ΑΣΑΦΩΝ ΜΕΣΩΝ (FUZZY C-MEANS) ΠΑΡΑΡΤΗΜΑ ΙΙΙ Κώδικας MATLAB III.1 ΠΕΡΙΓΡΑΦΗ ΤΩΝ ΑΡΧΕΙΩΝ ΙΙΙ.2 ΚΩΔΙΚΑΣ ΓΛΩΣΣΑΡΙΟ ΒΙΒΛΙΟΦΡΑΦΙΑ

9 Ι. ΕΙΣΑΓΩΓΗ Ι.1 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ Ταξινόμηση Υποθέστε ότι έχουμε ένα σετ δεδομένων που περιέχει μετρήσεις από πολλές μεταβλητές που χαρακτηρίζουν άτομα ανήκοντα σε διάφορες κατηγορίες. Αν δοθούν μετρήσεις για επιπλέον άτομα θα μπορούσαμε να αποφανθούμε για την κατηγορία του καθενός ; Αυτό είναι το πρόβλημα της ταξινόμησης. Η ταξινόμηση συνδέεται στενά με τη θεωρία αποφάσεων. Κεντρική μέριμνα της θεωρίας αποφάσεων είναι να δημιουργήσει έναν κανόνα απόφασης, δηλαδή να θέσει ένα όριο βάσει του οποίου θα γίνεται ο διαχωρισμός, ούτως ώστε να ελαχιστοποιήσει το κόστος που σχετίζεται με την απόφαση και αναφέρεται στα σφάλματα εξόδου του συστήματός μας. Η ταξινόμηση δεδομένων είναι ίσως το πιο σημαντικό παρακλάδι της θεωρίας αποφάσεων. Μοντελοποίηση Ο ταξινομητής που πραγματευόμαστε μπορεί να εκληφθεί ως ένα νευροασαφές μοντέλο. Ένα μοντέλο προσπαθεί να μοντελοποιήσει μια συνάρτηση που αδυνατούμε να βρούμε σε αναλυτική μορφή. Ένα νευροασαφές μοντέλο στοχεύει να κατασκευάσει ένα ασαφές σύστημα συμπερασμού ικανό να προβλέπει και να εξηγεί τη συμπεριφορά ενός άγνωστου συστήματος που περιγράφεται από ένα σετ δοκιμαστικών δεδομένων. Έτσι η διαδικασία της μοντελοποίησης μπορεί να περιγραφεί ως μια διαδικασία αναγνώρισης συστήματος που περιλαμβάνει δύο κύρια στάδια:

10 Εισαγωγή 1. Αναγνώριση παραμέτρων, που ασχολείται με την προσαρμογή των παραμέτρων του συστήματος, όπως οι συναρτήσεις συμμετοχής, οι γραμμικοί συντελεστές, τα βάρη του τμήματος υπόθεσης (antecedent) καθώς και αυτά του τμήματος συμπερασμού (consequent weights). 2. Αναγνώριση της δομής του συστήματος, που σχετίζεται με την εύρεση ενός βολικού αριθμού κανόνων, μια μέθοδο επιλογής μεταβλητών εισόδου (ή αλλιώς «χαρακτηριστικών» στα προβλήματα ταξινόμησης), δηλαδή αν στην ταξινόμηση θα συμμετέχουν όλες οι μεταβλητές εισόδου, και μια κατάλληλη διαμέριση του χώρου εισόδου. Νευροασαφή Συστήματα Νευρο... Δεν υπάρχει αμφιβολία ότι ένα από τα πιο σύνθετα και παράξενα συστήματα του ανθρώπινου οργανισμού είναι το νευρικό σύστημα, υπεύθυνο για τη συμπεριφορά και για τις αντιδράσεις κάθε βιολογικού οργανισμού στα ερεθίσματα του περιβάλλοντός του. Αυτά ακριβώς τα βιολογικά νευρωνικά δίκτυα και την υπολογιστική τους ικανότητα επιδιώκουν να μοντελοποιήσουν τα τεχνητά νευρωνικά δίκτυα (ΤΝΔ), με στόχο τη μάθηση και την αποτύπωση της γνώσης, όπως συμβαίνει και με τους βιολογικούς οργανισμούς. Τα τεχνητά νευρωνικά δίκτυα, για να μπορέσουν να αποτυπώσουν την επιθυμητή γνώση, έχουν ανάγκη από εκπαίδευση, από μια διαδικασία μάθησης, η οποία θα επιβλέπεται από έναν ειδικό, ώστε να μπορέσουν να χρησιμοποιηθούν στην επίλυση προβλημάτων. Βασικό εμπόδιο στην καθολική αποδοχή των τεχνητών νευρωνικών δικτύων είναι η αδιαφάνεια που περιβάλλει τη διαδικασία λήψης μιας απόφασης, η ανικανότητά τους δηλαδή να εξηγήσουν στο χρήστη με τρόπο κατανοητό πώς απέκτησαν τη συγκεκριμένη γνώση, πώς οδηγήθηκαν στη συγκεκριμένη απόφαση, ποιες οι συνθήκες που επικρατούν και πώς εκτελούνται οι διάφορες διεργασίες στο εσωτερικό τους....ασαφή Το 1965, ο L. Zadeh θεμελίωσε ένα νέο τρόπο περιγραφής και αποτύπωσης της γνώσης με τη θεωρία του περί «ασαφών συνόλων» [7]. Πίσω από τη θεωρία αυτή, που είναι γνωστή και ως ασαφής λογική, βρίσκεται η ίδια η ανθρώπινη συμπεριφορά, καθώς η 10

11 Εισαγωγή «ασάφεια» είναι μια πολύ συνηθισμένη έννοια που εμπεριέχεται σε πολλές ανθρώπινες δραστηριότητες, αλλά και στην περιγραφή πολλών εννοιών και ποσοτήτων. Τα συστήματα απόφασης ή ελέγχου που λειτουργούν σε ένα περιβάλλον αβεβαιότητας και στηρίζονται στη θεωρία της ασαφούς λογικής, λέγονται ασαφή συστήματα και έχουν βρει ποικίλες εφαρμογές στην ιατρική, στον αυτόματο έλεγχο, αλλά και στην κατασκευή σύγχρονων «έξυπνων» ηλεκτρικών συσκευών. Η γενική αρχιτεκτονική των ασαφών συστημάτων περιλαμβάνει τέσσερις μονάδες επεξεργασίας: 1. μια μονάδα ασαφοποίησης, η οποία μετατρέπει τα δεδομένα εισόδου σε ασαφή σύνολα, 2. μια βάση ασαφών κανόνων της μορφής ΕΑΝ- ΤΟΤΕ (ασαφής βάση γνώσης), 3. μια μέθοδο συμπερασμού που εξάγει τα ασαφή συμπεράσματα, και 4. μια μονάδα αποασαφοποίησης, η οποία μετατρέπει τα ασαφή συμπεράσματα σε σαφείς αριθμητικές τιμές. Για να κατασκευαστεί όμως ένα ασαφές σύστημα είναι αναγκαία η ύπαρξη ενός εμπειρογνώμονα που θα δημιουργήσει ένα σύνολο ασαφών κανόνων για το συγκεκριμένο πρόβλημα. Λόγω της δυσκολίας αυτής της αναγκαίας συνθήκης, τα ασαφή συστήματα πολύ σύντομα μετά τη γέννησή τους, αναζήτησαν τρόπους να εξάγουν τη γνώση μέσα από τα δεδομένα του προβλήματος. Η απάντηση σε αυτά τα προβλήματα, ήρθε με τον υβριδικό συνδυασμό των δυο παραπάνω μαθηματικών μοντέλων, που εκμεταλλεύεται τα πλεονεκτήματα των νευρωνικών δικτύων και της ασαφούς συλλογιστικής, ενώ παράλληλα στοχεύει στην εξάλειψη των μειονεκτημάτων τους. Έτσι, τα νευροασαφή συστήματα διαθέτουν την ικανότητα να χρησιμοποιούν ασαφή γνώση με κατανοητή μορφή από τα δεδομένα (κανόνες ΕΑΝ-ΤΟΤΕ), προσαρμόζοντας τις παραμέτρους τους στο σύστημα και εξαλείφοντας την ανάγκη εισαγωγής έτοιμης γνώσης από ειδικούς. Για την ικανότητά τους αυτή χαρακτηρίζονται προσαρμοστικά. Τα σύγχρονα προσαρμοστικά νευροασαφή συστήματα απεικονίζονται συνήθως ως πολυστρωματικά δίκτυα πρώσο-τροφοδότησης (multi-layered feed forward networks), όπου τα βάρη των συνάψεων και οι συναρτήσεις ενεργοποίησης διαφέρουν από τα κοινά νευρωνικά δίκτυα. Συγκεκριμένα, θεωρούμε ότι ένα προσαρμοστικό νευροασαφές σύστημα διέπεται από τις παρακάτω αρχές: 11

12 Εισαγωγή Ως νευροασαφές σύστημα ορίζεται το ασαφές σύστημα που χρησιμοποιεί έναν αλγόριθμο μάθησης, ο οποίος προέρχεται από ή βασίζεται στη θεωρία των νευρωνικών δικτύων. Προσπαθεί να προσεγγίσει μια άγνωστη συνάρτηση Ν διαστάσεων, η οποία ορίζεται ως ένα βαθμό από τα δεδομένα. Ένα νευροασαφές σύστημα μπορεί να αποδοθεί ως ένα δίκτυο πρώσο-τροφοδότησης με 3 επίπεδα. Το πρώτο επίπεδο αντιπροσωπεύει τις μεταβλητές εισόδου, το μεσαίο (κρυφό) επίπεδο αντιπροσωπεύει τους ασαφείς κανόνες, και το τρίτο επίπεδο συμβολίζει τοις μεταβλητές εξόδου. Τα ασαφή σύνολα (fuzzy sets) κωδικοποιούνται ως ασαφή βάρη συνάψεων χρησιμοποιώντας μια από τις γνωστές συναρτήσεις συμμετοχής (π.χ. τριγωνική, τραπεζοειδής, γκαουσιανή κλπ.) Ένα νευροασαφές σύστημα είναι ικανό κάθε στιγμή (δηλαδή πριν, κατά τη διάρκεια και μετά την εκπαίδευση), να μεταφραστεί ως ένα σύνολο ασαφών κανόνων, με δομή και παραμέτρους που έχουν φυσική και νοηματική υπόσταση. Επιπλέον, είναι δυνατό να δημιουργηθεί ένα σύστημα απευθείας από τα δεδομένα ή να αρχικοποιηθεί με βάση αυτά με τη μορφή ασαφών κανόνων «εάν- τότε». Αυτό γίνεται και στην εργασία μας. Ένα νευροασαφές σύστημα επιδεικνύει την ικανότητα να προσαρμόζεται τόσο σε αριθμητικά όσο και σε γλωσσικά περιβάλλοντα. Πληθώρα τέτοιων συνεργαζόμενων μοντέλων έχουν προταθεί στη βιβλιογραφία και περιλαμβάνουν περιπτώσεις για: προσεγγιστική συλλογιστική, εξαγωγή συμπερασμάτων και έλεγχο [8,9,10], ταξινόμηση [11,12], παραγωγή γνώσης από αριθμητικά δεδομένα[13] και απλοποίηση ή περιορισμό των κανόνων[14,15]. Σε γενικές γραμμές, οι μέθοδοι ανάπτυξης προσαρμοστικών νευροασαφών μοντέλων παρουσιάζουν κάποια κοινά σημεία τα οποία προέρχονται από την επιθυμία: 1. Να διοχετεύσουμε γνώση οδηγούμενη από δεδομένα σε μια αρχιτεκτονική δικτύου για την υλοποίηση ταχείας εκμάθησης. 2. Να σχεδιάσουμε τον κατάλληλο μηχανισμό σύνθεσης και συγκέντρωσης στοιχείων που να μπορεί ταυτόχρονα να χειρίζεται αριθμητικά και γλωσσικά χαρακτηριστικά, έτσι ώστε να παράγει ορθά συμπεράσματα. 3. Να συμπεριλάβουμε μια διαδικασία προσαρμογής των κανόνων μέσω της εκπαίδευσης από τα δεδομένα. 4. Να εξάγουμε και να μεταφράζουμε την εκπαιδευμένη γνώση σαν μια βάση κατανοητών κανόνων. 12

13 1 ΣΤΟΙΧΕΙΑ ΜΕΘΟΔΟΛΟΓΙΑΣ ΑΣΑΦΟΥΣ ΣΥΜΠΕΡΑΣΜΟΥ 1.1 ΣΤΟΙΧΕΙΑ ΜΕΘΟΔΟΛΟΓΙΑΣ ΑΣΑΦΟΥΣ ΣΥΜΠΕΡΑΣΜΟΥ Ο ασαφής κανόνας Εννοιολογικά, ο ασαφής κανόνας είναι ένας μηχανισμός αναπαράστασης της γνώσης, ο οποίος προσιδιάζει στον ανθρώπινο τρόπο σκέψης. Τα ασαφή σύνολα που εκφράζουν λεκτικούς όρους συνδυάζονται μεταξύ τους και δημιουργούν ασαφείς κανόνες που αναπαριστούν τη γνώση που έχουμε για το σύστημα. Ένας ασαφής κανόνας αποτελείται από δύο βασικά μέρη: α) το τμήμα υπόθεσης (premise part ) και β) το τμήμα απόδοσης η απόφασης (consequent part ). Ένας απλός κανόνας είναι της μορφής: If x is A then y is B (1.1) Το τμήμα «if x is A» είναι το τμήμα υπόθεσης και το τμήμα «then y is B» το τμήμα απόφασης ή συμπεράσματος. Τα Α και Β είναι ασαφή σύνολα, x είναι η τιμή μιας μεταβλητής εισόδου, η οποία ασαφοποιείται (fuzzyfication), δηλαδή αποκτά ένα βαθμό

14 Κεφ.1 Ασαφής συμπερασμός 1.1 Μεθοδολογία ασαφούς συμπερασμού συμμετοχής στο ασαφές σύνολο Α και y είναι η έξοδος του συστήματος, που εκφράζει την απόφαση του κανόνα και παρέχεται από το μηχανισμό του συμπεράσματος (inference ) σε ασαφή μορφή. Στη συνέχεια το ασαφές συμπέρασμα αποασαφοποιείται µε το μηχανισμό της αποασαφοποίησης (defuzzyfication ), και προκύπτει µια αριθμητική (crisp) τιμή που είναι το τελικό αριθμητικό συμπέρασμα που μπορεί να χειριστεί η υπολογιστική μηχανή ή ένα αισθητήριο. Η (1.1) εκφράζει έναν κανόνα του οποίου η έξοδος είναι ένα ασαφές σύνολο και ονομάζεται κανόνας τύπου mamdani προς τιμήν του Ebrahim Mamdani που ήταν από τους πρώτους που εφήρμοσε την ασαφή λογική για να κατασκευάσει ένα ασαφές σύστημα αυτομάτου έλεγχου της ταχύτητας μιας ατμομηχανής. Όμως ένας κανόνας μπορεί να πάρει διάφορες μορφές εκτός από αυτή της (1.1). Άλλοι κύριοι χαρακτηριστικοί τύποι κανόνων είναι της μορφής: If x is A then y is c (1.2) όπου το c είναι αριθμός ή υπό άλλο πρίσμα- crisp ασαφές σύνολο και: If x is A then y is c0+c1 x (1.3) όπου c0, c1 R. Η σχέση (1.2) προτάθηκε από τους Sugeno- Takagi και η επέκτασή της (1.3) από τους Takagi-Sugeno-Kang. O ασαφής κανόνας (1.3) είναι ένας από τους κυριότερους τύπους ασαφούς κανόνα και χρησιμοποιείται ευρύτατα σε εφαρμογές ανάπτυξης ασαφών συστημάτων. Είναι γνωστός ως κανόνας T-S-K από τα αρχικά των ερευνητών Takagi- Sugeno-Kang. Για περισσότερες από µία εισόδους x 1, x 2,..., x n οι κανόνες επεκτείνονται στις αντίστοιχες μορφές: if x 1 is A 1 and x 2 is A 2 and...x n is A n Then y is B (1.4) Φυσικά μπορούμε να έχουμε και περισσότερες από µία εξόδους. Φαίνεται όμως εύκολα ότι ένας τέτοιος κανόνας μπορεί να διασπαστεί σε περισσότερους από ένα κανόνες μιας εξόδου. 14

15 Κεφ.1 Ασαφής συμπερασμός 1.1 Μεθοδολογία ασαφούς συμπερασμού Ασαφής συμπερασμός του στοιχειώδους ασαφούς συστήματος ενός κανόνα Το βασικό ζητούμενο είναι ο τρόπος λειτουργίας του ασαφούς κανόνα. Για ευκολία θα θεωρήσουμε ένα ασαφές σύστημα µε ένα κανόνα. Ο τρόπος λειτουργίας του κανόνα διασπάται σε τρεις μεγάλες φάσεις: Α) Ασαφοποίηση (fuzzification ) Β) Ασαφής συνεπαγωγή (fuzzy implication ) C) Αποασαφοποίηση (defuzzyfication ) Για να καταλάβουμε καλύτερα τις φάσεις αυτές μπορούμε να παρακολουθήσουμε τις αναγκαιότητες που εξυπηρετούν. Ας θυμηθούμε λοιπόν ότι η ασαφής λογική δημιουργήθηκε για να βοηθήσει τις υπολογιστικές μηχανές να χειριστούν λεκτικούς όρους. Οι λεκτικοί αυτοί όροι ( μικρό-μέτριο κ.τ.λ.) αποθηκεύονται στη μνήμη του υπολογιστή υπό μορφή συναρτήσεων συμμετοχής µ Α1, µ Α2,..., µ Αn που εκφράζουν τα αντίστοιχα ασαφή σύνολα A 1, A 2,..., A n. Ας υποθέσουμε επίσης ότι έχουμε ένα φυσικό σύστημα µε x 1, x 2,..., x n εισόδους και µια έξοδο y, η λειτουργία του οποίου διέπεται από ένα κανόνα της μορφής (1.4). Για απλότητα ας θεωρήσουμε ότι θέλουμε να κατασκευάσουμε ένα ευφυές σύστημα το οποίο να φρενάρει ένα αυτοκίνητο (ελεγκτής πέδησης), θέτοντας έναν κανόνα που ο οδηγός έχει αποκτήσει από την εμπειρία του. Έστω ότι επιλέγουμε δύο εισόδους x 1 = u (ταχύτητα αυτοκινήτου) και x 2 = d (απόσταση από ένα εμπόδιο.) Εικ 1.1 Το σύστημα της πέδησης του αυτοκινήτου µε δύο εισόδους Η έξοδος του κανόνα είναι y = F (δύναμη πέδησης στο φρένο). Ο ειδικός διατυπώνει τον εξής κανόνα: 15

16 Κεφ.1 Ασαφής συμπερασμός 1.1 Μεθοδολογία ασαφούς συμπερασμού Αν η ταχύτητα είναι μεγάλη και η απόσταση μικρή τότε δύναμη πέδησης μεγάλη. (1.5) Ας δούμε πως µέσω της ασαφούς λογικής θα δώσουμε στον υπολογιστή να καταλάβει, τι θα µας απαντήσει και πως θα συνεννοηθούμε τελικά. Ο σχεδιαστής του εκλεκτή θα πρέπει να επιτελέσει τα ακόλουθα βήματα: 1. Λεκτικός διαμερισμός των εισόδων : Θα πρέπει δηλαδή να αναπαραστήσει τις μεταβλητές εισόδου και εξόδου µε λεκτικούς όρους. Ένας διαμερισμός των εισόδων και των εξόδων φαίνεται στα σχήματα (Εικ.1.2 έως 1.4). Εικ.1.2 Διαμερισμός της Εισόδου Ταχύτητα σε λεκτικούς όρους Εικ.1.3 Διαμερισμός της εξόδου Απόσταση σε λεκτικούς όρους 16

17 Κεφ.1 Ασαφής συμπερασμός 1.1 Μεθοδολογία ασαφούς συμπερασμού Εικ.1.4 Διαμερισμός της εξόδου Δύναμη πέδησης σε λεκτικούς όρους Ο αριθμός των λεκτικών όρων που θα διαμερίσουν µια μεταβλητή, η μορφή και οι ακριβείς τους θέσεις καθορίζονται από το σχεδιαστή του συστήματος και αποτελούν ακόμα και σήμερα ένα από τα ποιο κρίσιμα και ενεργά πεδία έρευνας στον τομέα των ασαφών συστημάτων. Επίσης δεν είναι απαραίτητο όλα τα ασαφή σύνολα να είναι ίδιου τύπου. Στο συγκεκριμένο παράδειγμα επιλέγονται γενικευμένες τραπεζοειδείς τόσο για την είσοδο όσο και για την έξοδο. 2. Διατύπωση των κανόνων : Έχοντας διαμερίσει τις εισόδους και τις εξόδους, τα ασαφή σύνολα μπορούν να αποθηκευτούν στον υπολογιστή υπό μορφή συναρτήσεων. Στη συνέχεια διατυπώνονται οι κανόνες. Στην περίπτωσή µας έχουμε έναν κανόνα (σχέση 1.5). Επιλέγοντας τα αντίστοιχα ασαφή σύνολα από κάθε μεταβλητή ο κανόνας μπορεί να παρασταθεί γραφικά στην Εικ.1.5. Εικ.1.5 Γραφική απεικόνιση του ασαφούς κανόνα 3. Καθορισμός του τύπου της ασαφούς συνεπαγωγής (fuzzy implication) : Για να κατανοήσουμε τις παραμέτρους της ασαφούς συνεπαγωγής θα πρέπει πρώτα να κατανοήσουμε το μηχανισμό της, δηλαδή τον τρόπο µε τον οποίο λειτουργεί ο κανόνας. Ας υποθέσουμε λοιπόν ότι κατασκευάζεται το ασαφές σύστημα της πέδησης του αυτοκινήτου µε τον ένα κανόνα που απεικονίζεται στην Εικ.1.5. Οι αισθητήρες που 17

18 Κεφ.1 Ασαφής συμπερασμός 1.1 Μεθοδολογία ασαφούς συμπερασμού μετρούν την απόσταση και την ταχύτητα του αυτοκινήτου δίνουν ταχύτητα = 70 km/h και απόσταση 30 m. Οι τιμές αυτές εισάγονται στο ασαφές σύστημα και ασαφοποιούνται. Δηλαδή η ταχύτητα των 70 km/h είναι μεγάλη µε βαθμό βεβαιότητας 0.4 και η απόσταση των 30 m είναι μικρή µε βαθμό βεβαιότητας 0.2. Το ερώτημα είναι: πως θα ενεργοποιηθεί ο κανόνας που δίνεται στην Εικ.1.5 για δώσει αποτέλεσμα; Ο κανόνας λέει: Αν η ταχύτητα είναι μεγάλη (είναι µε βεβαιότητα 0.4 ) και η απόσταση μικρή (είναι µε βεβαιότητα 0.2) τότε δύναμη πέδησης μεγάλη Προφανώς θα πρέπει να βρούμε ένα τρόπο να υλοποιήσουμε το και (and) και το τότε (then). Ο τρόπος µε τον οποίο υλοποιείται αριθμητικά το και καθορίζεται από τον τύπο του ασαφούς συμπερασμού. Υπάρχουν διάφοροι τρόποι υλοποίησης του AND, αλλά οι κυριότεροι είναι µε τον τελεστή MIN και µε τον τελεστή product. O τελεστής MIN λαμβάνει το μικρότερο από τους βαθμούς συμμετοχής και παράγει το λεγόμενο βαθμό εκπλήρωσης (degree of fulfillment ) του κανόνα. Ο τελεστής του γινομένου υπολογίζει το βαθμό εκπλήρωσης του κανόνα ως το αριθμητικό γινόμενο των βαθμών συμμετοχής των ασαφοποιημένων τιμών. Στην περίπτωσή µας, αν εφαρμοστεί το ΜΙΝ ο κανόνας έχει βαθμό εκπλήρωσης 0.2. Αν εφαρμοστεί το γινόμενο ο κανόνας έχει βαθμό εκπλήρωσης Εννοιολογικά ο βαθμός εκπλήρωσης του κανόνα εκφράζει τη βαρύτητα που έχει το αποτέλεσμα του κανόνα. Η βαρύτητα αυτή εκφράζεται (για συστήματα mamdani) µε το αντίστοιχο α -cut του ασαφούς συνόλου που εκφράζει το αποτέλεσμα του κανόνα. Συνεπώς αν είναι w ο βαθμός εκπλήρωσης του κανόνα, το αποτέλεσμα της εφαρμογής του είναι το α -cut ασαφές σύνολο της εξόδου του µε α = w. Στην Εικ.1.6 παριστάνεται γραφικά ο μηχανισμός του ασαφούς συμπερασμού για τις τιμές ταχύτητα = 70 και απόσταση = 30. Το αποτέλεσμα είναι το σκιασμένο ασαφές σύνολο της εξόδου. Εικ.1.6 Γραφική παράσταση του ασαφούς συμπερασμού. 18

19 Κεφ.1 Ασαφής συμπερασμός 1.1 Μεθοδολογία ασαφούς συμπερασμού Παρατηρώντας το αποτέλεσμα του κανόνα βλέπουμε ότι αυτό εκφράζεται από ένα υποκανονικό ασαφές σύνολο. Το γεγονός ότι είναι υποκανονικό δεν µας πειράζει καθόλου. Το ερώτημα όμως είναι το πώς θα αξιοποιηθεί από το μηχανισμό που θα ασκήσει την πίεση στο φρένο. Το μηχανικό σύστημα που θα ασκήσει την πίεση καταλαβαίνει µόνο σαφείς αριθμητικές τιμές και όχι ασαφείς όρους. Στο σημείο αυτό αναφέρεται το τελικό βήμα της σχεδίασης. 4. Μέθοδος αποασαφοποίησης (defuzzyfication ). Η διαδικασία της αποασαφοποίησης είναι αντίθετη αυτής της ασαφοποίησης και παράγει µια αυστηρά αριθμητική τιμή (crisp τιμή) από ένα ασαφές σύνολο. Είναι δηλαδή µια απεικόνιση, η οποία απεικονίζει ένα ασαφές σύνολο σε ένα πραγματικό αριθμό. Υπάρχουν διάφορες μέθοδοι αποασαφοποίησης. Ενδεικτικά αναφέρονται κάποιες: I. Αποασαφοποίηση κεντρικής τιμής (centroid defuzzyfication or Center Of Area - COA ) : Σύμφωνα µε αυτή την πολύ διαδεδομένη μέθοδο, υπολογίζεται το κέντρο βάρους της κατανομής του ασαφούς συνόλου, που δίνεται από τη σχέση: (1.6) Ο υπολογισμός της κεντρικής τιμής της σκιασμένης επιφάνειας του ασαφούς συνόλου της εξόδου δίνει τον πραγματικό αριθμό 83. Αυτή είναι και η τιμή, η οποία θα δοθεί στο μηχανικό σύστημα το οποίο θα πιέσει το φρένο. Αν δηλαδή η δύναμη πέδησης μετριέται π.χ. σε Ν τότε στο φρένο θα πρέπει να ασκηθεί δύναμη 83 Ν. II. Αποασαφοποίηση μέσου όρου των μεγίστων (mean of maxima - mom) : Σύμφωνα µε τη μέθοδο αυτή, υπολογίζεται ο μέσος όρος των μέγιστων τιμών του ασαφούς συνόλου της εξόδου. Υπενθυμίζεται για πολλοστή φορά ότι το ασαφές σύνολο το οποίο αποασαφοποιείται είναι η σκιασμένη περιοχή της εξόδου του κανόνα ( Εικ.1.6). Σύμφωνα µε τη μέθοδο αυτή λαμβάνονται οι τιμές του πεδίου ορισμού που έχουν το μεγαλύτερο βαθμό συμμετοχής και υπολογίζεται η μέση τιμή τους. Η εφαρμογή της μεθόδου mom στο παράδειγμα που εξετάζουμε δίνει αποτέλεσμα 86.5 Ν. III. Αποασαφοποίηση άθροισης των μεγίστων (sum of maxima - som) : Η μέθοδος αυτή 19

20 Κεφ.1 Ασαφής συμπερασμός 1.1 Μεθοδολογία ασαφούς συμπερασμού υπολογίζει το άθροισμα των μέγιστων τιμών Ασαφής συμπερασμός συστήματος µε περισσότερους του ενός ασαφείς κανόνες. Τα περισσότερα ασαφή συστήματα εμπλέκουν περισσότερους του ενός κανόνες. Στο παράδειγμα της πέδησης του αυτοκινήτου μπορούμε να προσθέσουμε περισσότερους κανόνες και να δημιουργήσουμε τη λεγόμενη βάση κανόνων (rule base). Έστω λοιπόν ότι δημιουργούμε την ακόλουθη βάση που αποτελείται από τρεις κανόνες: R1 : Αν ταχύτητα μεγάλη και απόσταση μικρή τότε δύναμη πέδησης μεγάλη R 2 : Αν ταχύτητα μεγάλη και απόσταση μέτρια τότε δύναμη πέδησης μέτρια R 3 : Αν ταχύτητα μέτρια και απόσταση μέτρια τότε δύναμη πέδησης μέτρια Εικ.1.7 Λεκτική διατύπωση τριών κανόνων Για το σχεδιασμό του συστήματος θα πρέπει να ακολουθήσουμε τα βήματα της προηγούμενης παραγράφου. Συνεπώς: 1. Λεκτικός διαμερισμός των εισόδων: όπως και στην προηγούμενη παράγραφο (Εικ ) 2. Διατύπωση των κανόνων : Φαίνονται στην άνω εικόνα 3. Καθορισμός του τύπου της ασαφούς συνεπαγωγής ( fuzzy implication). Επιλέγουμε ΜΙΝ. 4. Αποασαφοποίηση : Επιλέγουμε αποασαφοποίηση κεντρικής τιμής (COA). Στο σημείο αυτό απαιτείται ένα ακόμα σημαντικότατο βήμα στο σχεδιασμό μετά το βήμα 3 και πριν το βήμα 4, το βήμα της ασαφούς συνάθροισης των κανόνων (fuzzy aggregation). Για να κατανοήσουμε το βήμα αυτό ας παραστήσουμε γραφικά τους τρείς κανόνες και ας παρακολουθήσουμε τη λειτουργία τους. Με δεδομένο το λεκτικό 20

21 Κεφ.1 Ασαφής συμπερασμός 1.1 Μεθοδολογία ασαφούς συμπερασμού διαμερισμό των εισόδων και της εξόδου επιλέγουμε τα κατάλληλα ασαφή σύνολα, οπότε οι κανόνες της Εικ.1.7 απεικονίζονται γραφικά στην Εικ.1.8. Εικ.1.8 Ασαφές σύστημα τριών κανόνων Για τιμές εισόδου [70,30] παρατηρούμε πώς ασαφοποιούνται οι τιμές, πώς ενεργοποιείται κάθε κανόνας και τα αντίστοιχα α-cuts που δημιουργούνται στις εξόδους κάθε κανόνα. Ενδιαφέρον παρουσιάζει το γεγονός ότι στην διατύπωση των κανόνων (Εικ.1.7), οι κανόνες 2 και 3 έχουν το ίδιο τμήμα απόφασης. Παρατηρούμε όμως ότι για συγκεκριμένες τιμές (Εικ.1.8) τα συμπεράσματα των κανόνων 2 και 3 είναι διαφορετικά Γ ασαφή σύνολα (σκιασμένες περιοχές) γεγονός που οφείλεται στο διαφορετικό βαθμό εκπλήρωσης κάθε κανόνα για τις ίδιες τιμές εισόδου. Άρα λοιπόν για ταχύτητα=70 km/h και απόσταση =30 m, οι κανόνες ενεργοποιούνται και κάθε ένας προτείνει το δικό του ασαφές συμπέρασμα. Ο κανόνας 1 προτείνει το ασαφές σύνολο Α (σκιασμένη περιοχή), ο κανόνας 2 προτείνει το Β (σκιασμένη περιοχή) και ο κανόνας 3 προτείνει το ασαφές σύνολο Γ (σκιασμένη περιοχή). Ενώ στην προηγούμενη παράγραφο είχαμε ένα ασαφές συμπέρασμα το οποίο αποασαφοποιήσαμε, εδώ έχουμε τρία ασαφή συμπεράσματα. Τα τρία αυτά συμπεράσματα θα πρέπει να τα συνθέσουμε καταρχήν σε ένα ασαφές συμπέρασμα. Ο μηχανισμός που υλοποιεί αυτή τη σύνθεση ονομάζεται ασαφής συνάθροιση των κανόνων (fuzzy aggregation ). Υλοποιείται µε διάφορους τρόπους, ο βασικότερος των οποίων είναι µε την εφαρμογή του τελεστή ΜΑΧ. Εφαρμόζοντας τον τελεστή ΜΑΧ στα ασαφή σύνολα Α, Β, Γ, προκύπτει το ασαφές σύνολο. Στη συνέχεια το ασαφές αυτό σύνολο αποασαφοποιείται µε εφαρμογή μιας μεθόδου αποασαφοποίησης (π.χ. κεντρικής τιμής) και 21

22 Κεφ.1 Ασαφής συμπερασμός 1.2 Εξαγωγή κανόνων από αριθμητικά δεδομένα προκύπτει η τελική πραγματική τιμή που είναι το αποτέλεσμα του συστήματος των τριών κανόνων. Άρα Είσοδος: {ταχύτητα=70 km/h, Απόσταση =30 m} Έξοδος: {Δύναμη πέδησης 52.2 Ν}. Ο μηχανισμός του ασαφούς συμπερασμού μπορεί να παρασταθεί γραφικά στο παρακάτω διάγραμμα ροής: Εικόνα 1.9 Διάγραμμα ροής του Ασαφούς Συμπερασμού 1.2 ΕΞΑΓΩΓΗ ΚΑΝΟΝΩΝ ΑΠΟ ΑΡΙΘΜΗΤΙΚΑ ΔΕΔΟΜΕΝΑ Εισαγωγή Στα προηγούμενα παραδείγματα διατυπώσαμε κανόνες που προέκυψαν από την εμπειρία ενός ειδικού. Συχνά, όμως, το σύστημα που θέλουμε να μοντελοποιήσουμε ή να ελέγξουμε αντιμετωπίζεται ως «μαύρο κουτί» και η πληροφορία για τη λειτουργία του είναι διαθέσιμη υπό μορφήν ζευγών δεδομένων εισόδου-εξόδου που εκφράζουν διέγερση- απόκριση αντίστοιχα. Ο σχεδιαστής του συστήματος πρέπει να αναγνωρίσει τον αριθμό και τη θέση των κανόνων από τα δεδομένα. Το πρόβλημα αυτό είναι γνωστό στη βιβλιογραφία ως προσδιορισμός δομής (structure identification) και αποτελεί ένα από το ποιο ενεργά πεδία έρευνας στον τομέα των ασαφών συστημάτων. 22

23 Κεφ.1 Ασαφής συμπερασμός 1.2 Εξαγωγή κανόνων από αριθμητικά δεδομένα Οι Sugeno-Yasukava συστηματοποίησαν το πρόβλημα του προσδιορισμού δομής στο διάγραμμα της Εικ.1.10, υποστηρίζοντας μάλιστα ότι η σημαντικότητα του κάθε βήματος είναι αντίστοιχα 100:10:1 για τύπο Ι:ΙΙ:[Αναγνώριση παραμέτρων]. Ο τύπος Ι σχετίζεται µε τον προσδιορισμό των εισόδων του συστήματος. Ο τύπος Ια παριστάνει την επιλογή των εισόδων που επιδρούν στο σύστημα και ο µόνος τρόπος επιλογής είναι διαισθητικός. Η επιλογή αυτή καταλήγει σε ένα σύνολο υποψηφίων εισόδων που σύμφωνα µε τη γνώση του ειδικού επηρεάζουν τη λειτουργία του συστήματος. Από αυτό το σύνολο κάποιες είσοδοι μπορεί να µην επιδρούν σημαντικά οπότε πρέπει να αφαιρεθούν. Στη βιβλιογραφία έχουν αναπτυχθεί μέθοδοι που µε δεδομένο το σύνολο των υποψηφίων εισόδων υπολογίζουν ένα υποσύνολο από εισόδους που επιδρούν σημαντικά στην έξοδο του συστήματος. Ο προσδιορισμός του υποσυνόλου αυτού είναι ο προσδιορισμός δομής τύπου Ιβ. Εικ.1.10 Το πρόβλημα του προσδιορισμού δομής του ασαφούς συστήματος Με δεδομένο το υποσύνολο των σημαντικών εισόδων ακολουθεί ο διαμερισμός τους σε λεκτικούς όρους (τύπος ΙΙ). Μετά το διαμερισμό των εισόδων (τύπος ΙΙβ) πρέπει να καθοριστεί ο αριθμός των κανόνων (τύπος ΙΙα) και οι ακριβείς τους θέσεις (αναγνώριση των παραμέτρων), που καθορίζονται από τον προσδιορισμό των παραμέτρων που εκφράζουν τη θέση και το πλάτος κάθε εμπλεκόμενου ασαφούς συνόλου (π.χ. προκειμένου για Γκαουσιανές συναρτήσεις συμμετοχής πρέπει να καθοριστεί η μέση τιμή 23

24 Κεφ.1 Ασαφής συμπερασμός 1.2 Εξαγωγή κανόνων από αριθμητικά δεδομένα m και η τυπική απόκλιση σ στον τύπο της συνάρτησης e ( xm) 2 κάθε μιας). Ο υπολογισμός των παραμέτρων ονομάζεται συχνά και εκπαίδευση του ασαφούς συστήματος και επιτυγχάνεται µε μεθόδους µη γραμμικής βελτιστοποίησης, όπως γενετικούς η γενικότερα εξελικτικούς αλγόριθμους, μεθόδους κλίσης όπως Back- Propagation, Levenberg Marquardt, κ.τ.λ. Όσον αφορά τον αριθμό των κανόνων, µια μεγάλη ομάδα μεθόδων της βιβλιογραφίας στηρίζεται σε μεθόδους ομαδοποίησης δεδομένων (clustering ) Τύποι διαμερισμού του χώρου των εισόδων Υπάρχουν τρεις τύποι διαμερισμού του χώρου των εισόδων : Διαμερισμός τύπου πλέγματος : Σύμφωνα µε το διαμερισμό αυτό κάθε ασαφής μεταβλητή εισόδου x i / i = 1,2,...m, όπου m ο αριθμός των εισόδων του μοντέλου, διαμερίζεται σε ένα προκαθορισμένο αριθμό p i από λεκτικούς όρους. Αν X ~ i είναι το σύνολο των λεκτικών όρων που διαμερίζουν ασαφώς την x i, τότε ο χώρος των εισόδων διαμερίζεται m σε i1 p i ασαφείς υποπεριοχές. Οι ασαφείς αυτές υποπεριοχές σχηματίζονται µε όλους τους δυνατούς συνδυασμούς των λεκτικών όρων που εκφράζονται από το καρτεσιανό ~ γινόμενο X 1 X ~ X ~ m. Η αντιμετώπιση αυτή έχει το βασικό μειονέκτημα ότι ο αριθμός των υποπεριοχών που σχηματίζονται αυξάνεται εκθετικά µε τον αριθμό των διαστάσεων. Διαμερισμός τύπου δένδρου : Ο διαμερισμός αυτός που θα τον χρησιμοποιήσουμε και εμείς στην εργασία μας δημιουργεί µια ιεραρχική δομή (Hierarchical structure ), σύμφωνα µε την οποία η πρώτη μεταβλητή εισόδου εξετάζεται µε ένα σύνολο από κριτήρια για το αν θα πρέπει να διαιρεθεί σε δύο ασαφείς υποπεριοχές. Κάθε ασαφής υποπεριοχή εξετάζεται ως προς την επόμενη μεταβλητή για το αν θα πρέπει να διαιρεθεί σε υποπεριοχές κ.τ.λ. Ο αλγόριθμος συνεχίζεται αναδρομικά μέχρι την εξέταση όλων των μεταβλητών. Μία μέθοδος για το σχηματισμό του δέντρου είναι ο αλγόριθμος CART, που περιγράφεται στο Παράρτημα Ι. Το μειονέκτημα αυτής της αντιμετώπισης είναι ότι το 24

25 Κεφ.1 Ασαφής συμπερασμός 1.2 Εξαγωγή κανόνων από αριθμητικά δεδομένα δένδρο που δημιουργείται από την αναδρομική διαδικασία αυξάνει απαγορευτικά σε μέγεθος, δημιουργώντας μεγάλο αριθμό από υποπεριοχές. Από την άλλη, ο αριθμός των υποπεριοχών που δημιουργούνται είναι φυσικά αρκετά μικρότερος από τον αριθμό που δημιουργείται από το διαμερισμό τύπου πλέγματος. Επίσης, μειονέκτημα του διαμερισμού αυτού είναι η δημιουργία υποπεριοχών χωρίς δεδομένα, άρα κανόνων µε χαμηλό πληροφοριακό περιεχόμενο και τέλος, οι μεταβλητές εξετάζονται µία προς µία, γεγονός που μπορεί να οδηγήσει το διαμερισμό σε λύσεις υποβέλτιστες. Διαμερισμός διανεμημένου τύπου : Σύμφωνα µε τον διαμερισμό αυτό, κάθε υποπεριοχή του χώρου των εισόδων καλύπτεται ανεξάρτητα από τις άλλες υποπεριοχές. Η κάλυψη αυτή των υποπεριοχών οδηγείται από τα δεδομένα του συνόλου δεδομένων εισόδου- εξόδου που είναι διαθέσιμα. Ο τύπος αυτός είναι περισσότερο ευέλικτος από τους προηγούμενους και μπορεί να διαμερίσει το χώρο των εισόδων σε περιορισμένο αριθμό υποπεριοχών ανεξάρτητα από τον αριθμό των εισόδων. Κάθε υποπεριοχή είναι ανεξάρτητη από τις άλλες και έχει τη δυνατότητα να καλύψει µόνο εκείνες τις περιοχές του χώρου που είναι απαραίτητο να καλυφτούν. Η αντιμετώπιση αυτή δεν παρουσιάζει το μειονέκτημα της «κατάρας των διαστάσεων» (curse of dimensionality ). Κάθε διαμερισμός πρέπει να ικανοποιεί ένα σύνολο από κριτήρια τα οποία καθορίζουν την ποιότητα του. Στην Εικ.1.11 απεικονίζονται οι τρεις τύποι διαμερισμού του χώρου των εισόδων. Εικ.1.11 Οι τρεις τύποι διαμερισμού του χώρου των εισόδων. (a) Διαμερισμός τύπου πλέγματος, (b) Διαμερισμός τύπου δένδρου και (c) Διαμερισμός διανεμημένου τύπου Στη συνέχεια δίνεται ένα παράδειγμα προσδιορισμού της δομής ενός ασαφούς συστήματος από αριθμητικά δεδομένα που βασίζεται σε διαμερισμό του χώρου των εισόδων διανεμημένου τύπου. 25

26 Κεφ.1 Ασαφής συμπερασμός 1.2 Εξαγωγή κανόνων από αριθμητικά δεδομένα Παράδειγμα 1: Προσδιορισμός δομής ασαφούς συστήματος από αριθμητικά δεδομένα Πρόβλημα - Για την αξιολόγηση των φοιτητών σε γραπτές εξετάσεις λαμβάνεται υπόψη εκτός από το βαθμό που έγραψε ένας φοιτητής και η δυσκολία του εξεταζόμενου θέματος. Ο βαθμός που γράφει ένας φοιτητής κυμαίνεται στο εύρος [0,10] και η δυσκολία του εξεταζόμενου θέματος στο εύρος [10,100]. Ενδεικτικές τιμές φαίνονται στον παρακάτω πίνακα: Πίνακας 1.1: Προδιαγραφές μοντέλου εξέτασης Να σχεδιαστεί ένα ασαφές σύστημα το οποίο να αποφασίζει για την τελική βαθμολογία ενός φοιτητή. Αντιμετώπιση - Προφανώς θα πρέπει να προσδιορίσουμε τη δομή του συστήματος. Θεωρώντας ότι και οι δύο είσοδοι είναι σημαντικές θα ασχοληθούμε µόνο µε τον προσδιορισμό δομής τύπου ΙΙβ δηλαδή τον προσδιορισμό του αριθμού των κανόνων και το διαμερισμό των εισόδων και της εξόδου. Αν ακολουθήσουμε τη φιλοσοφία της ομαδοποίησης των δεδομένων (clustering ) ο στόχος µας είναι να ομαδοποιήσουμε τα δεδομένα. Εργαζόμαστε λοιπόν ως εξής: Στο χώρο των εισόδων x 1 x 2 και στο χώρο της εξόδου y απεικονίζονται τα δεδομένα υπό μορφήν διαγράμματος διασποράς (scatter plot ). Εικ.1.12 Διάγραμμα διασποράς των δεδομένων στο χώρο εισόδων και εξόδου 26

27 Κεφ.1 Ασαφής συμπερασμός 1.2 Εξαγωγή κανόνων από αριθμητικά δεδομένα Διακρίνουμε δύο ομάδες δεδομένων. Η µία είναι για μικρό x 1 και μέτριο προς μεγάλο x 2 οπότε η έξοδος είναι μέτρια. Η άλλη είναι για μεγάλο x 1 και μέτριο x 2 οπότε η έξοδος είναι μεγάλη. Παρατηρούμε λοιπόν ότι ή φιλοσοφία του συστήματος διακρίνεται από δύο ασαφείς κανόνες: R1: Αν ο βαθμός δυσκολίας είναι μικρός και ο βαθμός που γράφει ο φοιτητής είναι μέτριος προς μεγάλος, τότε ο τελικός βαθμός του είναι μέτριος. R2: Αν ο βαθμός δυσκολίας είναι πολύ μεγάλος και ο βαθμός που γράφει ο φοιτητής είναι μέτριος, τότε ο τελικός βαθμός του είναι μεγάλος. Στο παρακάτω σχήμα παριστάνεται και γραφικά η ομαδοποίηση Εικ.1.13 Γραφική παράσταση της ομαδοποίησης των δεδομένων Εικ.1.14 Τοποθέτηση των ασαφών συνόλων διαμερισμού των εισόδων και της εξόδου. Χρειαζόμαστε λοιπόν δύο κανόνες για να περιγράψουμε το σύστημα και κατά µια έννοια έχουμε επιτύχει και την εξαγωγή γνώσης (knowledge extraction ) από τα δεδομένα υπό μορφήν λεκτικών κανόνων (rule extraction ). Το επόμενο βήμα είναι να 27

28 Κεφ.1 Ασαφής συμπερασμός 1.2 Εξαγωγή κανόνων από αριθμητικά δεδομένα γίνει ο διαμερισμός των εισόδων και της εξόδου. Η διαδικασία αυτή μπορεί να γίνει και πάλι γραφιστικά. Η είσοδος x 1 θα διαμεριστεί σε δύο ασαφείς όρους, μικρό και πολύ μεγάλο. Η είσοδος x 2 θα διαμεριστεί σε µια περιοχή που εκφράζει το λεκτικό όρο μέτριο προς μεγάλο. Περίεργο; Καθόλου! Τα δεδομένα που έχουμε περιγράφονται έτσι. Αν είχαμε περισσότερα δεδομένα πιθανόν να είχαμε και περισσότερους κανόνες. Η έξοδος θα διαμεριστεί σε δύο λεκτικούς όρους, μέτρια και μεγάλη. Ας δούμε τώρα πώς θα τοποθετήσουμε τα ασαφή σύνολα που αντιστοιχούν στους ασαφείς όρους. Ας υποθέσουμε ότι θέλουμε να χρησιμοποιήσουμε Γκαουσιανές συναρτήσεις συμμετοχής για να περιγράψουμε τα ασαφή σύνολα. Οι συναρτήσεις αυτές δίνονται ως γνωστόν από τη σχέση: (1.7) Στην Εικ.1.15 παρουσιάζεται η φυσική ερμηνεία των παραμέτρων της συνάρτησης συμμετοχής. Η παράμετρος m καθορίζει τη θέση της ενώ η παράμετρος σ το πλάτος, που εκφράζει την ασάφεια του ασαφούς συνόλου. Εικ.1.15 Παράμετροι Γκαουσιανής Με δεδομένο ένα σύνολο σημείων είναι προφανές ότι το κέντρο m θα προκύψει από το µέσο όρο των προβολών των σημείων που ανήκουν σε µια ομάδα στον αντίστοιχο άξονα. Η παράμετρος σ μπορεί να προκύψει υπολογίζοντας την τυπική απόκλιση της κατανομής. Η τυπική απόκλιση εκφράζει το πόσο συγκεντρωμένα είναι τα σημεία γύρω από τη μέση τιμή. Αν τα σημεία είναι πολύ συγκεντρωμένα, η τυπική απόκλιση είναι μικρή άρα και το ασαφές σύνολο στενό. Αφού το σ, δηλ. η τυπική απόκλιση, είναι ένα μέτρο της ασάφειας, το αποτέλεσμα είναι λογικό γιατί η ασάφεια σε αυτά τα δεδομένα είναι μικρή. Αντίθετα, αν τα σημεία παρουσιάζουν μεγάλη διασπορά, η τυπική απόκλιση 28

29 Κεφ.1 Ασαφής συμπερασμός 1.2 Εξαγωγή κανόνων από αριθμητικά δεδομένα είναι μεγάλη και το ασαφές σύνολο πλατύ, δηλαδή εμπεριέχει μεγάλη ασάφεια. Μια άλλη φιλοσοφία είναι να τοποθετήσουμε τη συνάρτηση συμμετοχής στο µέσο όρο της κατανομής και το πλάτος να το καθορίσουμε έτσι ώστε όλα τα σημεία που ανήκουν στην αντίστοιχη ομάδα να έχουν βαθμό συμμετοχής μεγαλύτερο από ένα όριο, π.χ Αυτό σημαίνει ότι τα σημεία πού ανήκουν στο αντίστοιχο ασαφές σύνολο, όταν ασαφοποιηθούν, θα περιγράφονται από αυτό µε βαθμό βεβαιότητας τουλάχιστον 0.5. Με βάση τα παραπάνω τοποθετούμε τις συναρτήσεις συμμετοχής σε κάθε άξονα και διαμερίζουμε τις μεταβλητές εισόδου και εξόδου. Στη συνέχεια ακολουθεί η κατασκευή των κανόνων επιλέγοντας τους αντίστοιχους λεκτικούς όρους από κάθε μεταβλητή. Η διαδικασία αυτή αναφέρεται στη βιβλιογραφία και ως «απόδοση συντεταγμένων στους κανόνες» (rule coordination). Δημιουργούνται οι εξής κανόνες µε βάση την Εικ.1.14: Όταν έχουμε δύο εισόδους και δεδομένα τα οποία είναι ομαδοποιημένα σε καθαρές ομάδες τότε τα πράγματα είναι εύκολα. Στην πράξη όμως αυτό συμβαίνει πολύ σπάνια. Συνήθως έχουμε να αντιμετωπίσουμε προβλήματα µε 10 ή και 50 εισόδους όπου δεν υπάρχει εποπτεία και τα δεδομένα δεν είναι ομαδοποιημένα σε καθαρά clusters. Για το λόγο αυτό έχει αναπτυχθεί πληθώρα μεθόδων ομαδοποίησης, µε κυριότερους εκπρόσωπου τις μεθόδους C-means, Fuzzy C means (FCM), k-nearest clustering, subtractive clustering κ.τ.λ. Ειδικά ο αλγόριθμος του FCM περιγράφεται αναλυτικά στο παράστημα ΙΙ γιατί τον χρησιμοποιούμε και εμείς κατά το στάδιο της ομαδοποίησης. Το βασικό μειονέκτημα αυτής της φιλοσοφίας είναι ότι ομαδοποιεί δεδομένα στην είσοδο τα οποία είναι γειτονικά μεταξύ τους, χωρίς να την ενδιαφέρει τι γίνεται στην έξοδο. Για το λόγο αυτό πολλές φορές οδηγούν σε κανόνες που δεν είναι αντιπροσωπευτικοί. Ένας αλγόριθμος που αξιοποιεί και την πληροφορία της εξόδου προτάθηκε από τον Witold Pedrycz και είναι ο c-fcm (conditional FCM). 29

30 Κεφ.1 Ασαφής συμπερασμός 1.3 Εκπαίδευση του συστήματος 1.3 ΕΚΠΑΙΔΕΥΣΗ ΤΟΥ ΣΥΣΤΗMΑΤΟΣ Το ασαφές σύστημα που προκύπτει από τη διαδικασία που είδαμε στα προηγούμενα παρέχει ένα αρχικό ασαφές μοντέλο για το οποίο έχουν καθοριστεί ο αριθμός των κανόνων και η αρχική τους θέση. Αν δημιουργήσουμε το ασαφές σύστημα µε τον τρόπο αυτό και εισάγουμε τις τιμές εισόδου των προδιαγραφών του πίνακα (Πίνακας 1.1), θα παρατηρήσουμε ότι µας δίνουν αποκλίσεις από τις επιθυμητές τιμές που μπορεί να είναι και µη αποδεκτές. Αν μετακινήσουμε λίγο τα ασαφή σύνολα στην είσοδο και την έξοδο θα δούμε ότι η κατάσταση μπορεί να βελτιωθεί. Η τελευταία φάση λοιπόν στο σχεδιασμό του συστήματος είναι ο ακριβής προσδιορισμός των παραμέτρων του, δηλαδή των κέντρων και των αποκλίσεων των ασαφών συνόλων ώστε να προσαρμοστεί όσο το δυνατόν πιο πιστά στις δοθείσες προδιαγραφές. Η προσαρμογή αυτή, που ονομάζεται εκπαίδευση του συστήματος, πραγματοποιείται µε μεθόδους µη γραμμικής βελτιστοποίησης. Εξέχουσα θέση ανάμεσα σε αυτές κατέχουν οι γενετικοί αλγόριθμοι, οι οποίοι αρχικά χρησιμοποιήθηκαν ως αλγόριθμοι προσδιορισμού των παραμέτρων προκαθορισμένων δομών ασαφών συστημάτων. Στις μεθόδους αυτές αναγνωρίστηκε η ικανότητα των γενετικών αλγορίθμων σε σχέση µε άλλες μεθόδους βελτιστοποίησης (π.χ. μεθόδους κλίσης όπως Back-Propagation) να απεγκλωβίζονται από τοπικά βέλτιστα. Το γεγονός αυτό οφείλεται στο ότι οι γενετικοί κατανέμουν τη διαδικασία της διερεύνησης σε όλο το χώρο λύσεων διερευνώντας παράλληλα και τελείως διαφορετικές μεταξύ τους περιοχές. Η ιδιότητα τους αυτή βέβαια είναι ευλογία και κατάρα ταυτόχρονα όταν χρησιμοποιούνται για εκπαίδευση, διότι ενώ εντοπίζουν σχετικά γρήγορα την περιοχή που βρίσκεται η βέλτιστη λύση δυσκολεύονται να την προσδιορίσουν ακριβώς, αφού η διερεύνηση είναι κατανεμημένη και σε άλλες περιοχές του χώρου λύσεων. Για το σκοπό αυτό οι γενετικοί εφοδιάζονται µε ειδικούς τελεστές που συγκεντρώνουν η ανακατανέμουν δυναμικά τη διαδικασία της διερεύνησης κατά τη διάρκεια της εξελικτικής διαδικασίας µε στόχο την επιτάχυνση της εύρεσης λύσης. Ιδιαίτερη σημασία κατά τη διάρκεια της εκπαίδευσης έχει το φαινόμενο της υπερεκπαίδευσης (overtrainning ). Όταν ένα σύστημα υπερεκπαιδευτεί τότε προσεγγίζει ακριβώς τις δεδομένες προδιαγραφές για τις οποίες εκπαιδεύεται, υστερεί όμως σημαντικά στις ικανότητες γενίκευσης (generalization). Αν δηλαδή στην είσοδο του έρθει µια τιμή που δεν ανήκει στα δεδομένα εκπαίδευσης, το σύστημα θα δώσει εντελώς λανθασμένη έξοδο. Όταν ένα σύστημα υπερεκπαιδευτεί αποστηθίζει τα δεδομένα εκπαίδευσης και δεν 30

31 Κεφ.1 Ασαφής συμπερασμός 1.3 Εκπαίδευση του συστήματος μαθαίνει τη δυναμική (ή τη συνάρτηση με άλλα λόγια) που διέπει τα δεδομένα, συνεπώς λειτουργεί ως μνήμη και είναι άχρηστο. Το πρόβλημα αυτό αντιμετωπίζεται συνήθως διασπώντας το σύνολο εκπαίδευσης σε δύο υποσύνολα. Το σύστημα εκπαιδεύεται χρησιμοποιώντας τα δεδομένα του ενός συνόλου (σύνολο εκπαίδευσης) και η συμπεριφορά του ελέγχεται και στα δύο υποσύνολα (εκπαίδευσης και ελέγχου). Ο στόχος είναι η προσαρμογή των παραμέτρων έτσι ώστε το σύστημα να προσεγγίζει ικανοποιητικά τα δεδομένα και των δύο συνόλων. Ένας εμπειρικός σχεδιαστικός κανόνας για την αποφυγή του φαινομένου είναι: ο αριθμός των προσαρμοζόμενων παραμέτρων του συστήματος πρέπει να είναι το πολύ ο μισός από τον αριθμό των δεδομένων. 31

32 2 ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ 2.1 ΕΙΣΑΓΩΓΙΚΟ ΣΗΜΕΙΩΜΑ Ο ανθρώπινος εγκέφαλος αποτελεί µια πηγή φυσικής νοημοσύνης και έναν ισχυρά παράλληλο υπολογιστή. Ο εγκέφαλος επεξεργάζεται ελλιπείς πληροφορίες οι οποίες συλλέγονται από τους μηχανισμούς της αντίληψης, µε εξαιρετικά υψηλούς ρυθμούς. Τα νευρικά κύτταρα λειτουργούν σε ταχύτητες περίπου 10 6 φορές χαμηλότερες από τις σύγχρονες ηλεκτρονικές πύλες, αλλά παρόλα αυτά ο εγκέφαλος επεξεργάζεται ακουστικές και οπτικές πληροφορίες πολύ ταχύτερα από ότι οι σύγχρονοι υπολογιστές λόγω της παραλληλοποίησης. Εμπνευσμένοι από τα βιολογικά νευρικά συστήματα, πολλοί ερευνητές εξερευνούν την περιοχή των τεχνητών νευρωνικών δικτύων, µια καινοτόμο µη αλγοριθμική προσέγγιση στο πρόβλημα της επεξεργασίας της πληροφορίας. Ο εγκέφαλος μοντελοποιείται ως ένα µη γραμμικό δυναμικό σύστημα συνεχούς χρόνου µε ποικίλες αρχιτεκτονικές διασύνδεσης, το οποίο αναμένεται να μιμείται τους μηχανισμούς του εγκεφάλου και να προσεγγίζει ευφυή συμπεριφορά. Οι διασυνδέσεις υλοποιούνται ως κατανεμημένες αναπαραστάσεις µε την μορφή βαρών μεταξύ ενός μεγάλου αριθμού διασυνδεδεμένων νευρώνων. Η περιοχή των νευρωνικών δικτύων εγκαινιάζεται µε την εργασία των Mc Culloh και Pitts οι οποίοι μελέτησαν το μοντέλο του βασικού κυττάρου του ανθρώπινου εγκεφάλου. Το μοντέλο αυτό αποτελείται από μεταβλητές αντιστάσεις και αθροιστικούς ενισχυτές οι οποίοι αναπαριστούν τα συναπτικά βάρη που συνδέουν τους νευρώνες μεταξύ τους. Αργότερα ο Rosenblatt ανέπτυξε την έννοια του Perceptron ως µια νέα λύση στο πρόβλημα της αναγνώρισης προτύπων και απέδειξε το

33 Κεφ.2 Νευρωνικά Δίκτυα 2.2 Βασικά στοιχεία αντίστοιχο θεώρημα σύγκλισης του αλγορίθμου μάθησης του Perceptron. Στην συνέχεια οι Widrow και Hoff θεμελίωσαν τον αλγόριθμο μάθησης μέσων ελαχίστων τετραγώνων, τον οποίο χρησιμοποίησαν στο μοντέλο Adaline. Από τους Werbos, Parker και Rumelhart εισάγεται η ιδέα του δικτύου Backpropagation. Κατά την διάρκεια της δεκαετίας του 80 υπάρχει αναζωπύρωση της έρευνας γύρω από το αντικείμενο των νευρωνικών δικτύων. Έτσι ο Hopfield αναπτύσσει τα νευρωνικά δίκτυα Hopfield και χρησιμοποιεί την ιδέα της συνάρτησης ενέργειας για την ανάλυσή τους. Ακολούθως εισάγεται η διαδικασία της προσομοιωμένης ανόπτησης (simulated annealing) για την επίλυση προβλημάτων βελτιστοποίησης. Οι Broomhead και Lowe μελετούν εκτενώς τα νευρωνικά δίκτυα ακτινικών συναρτήσεων βάσης. Στον πίνακα που ακολουθεί εμφανίζονται τα κυριότερα μοντέλα νευρωνικών δικτύων καθώς και οι ερευνητές που τα ανέπτυξαν. Έτος Νευρωνικό Δίκτυο Ερευνητές 1942 Νευρώνιο Mc Culloh / Pitts Mc Culloh, Pitts 1957 Perceptro Rosenblatt 1960 Adaline / Madaline Widrow 1974 Backpropagation (BP) Werbos, Parker, Rumelhart 1978 Neocognitron Fukushima 1980 Adaptive Resonance Theory Kohonen 1980 Self Organizing Map Kohonen 1982 Νευρωνικό Δίκτυο Hopfield 1985 Μηχανή Boltzmann Hinton, Sejnowsky 1988 Κυτταρικό Νευρωνικό Chua,Yang 1988 ίκτυα Radial Basis Broohead, Lowe Τα νευρωνικά δίκτυα έχουν φθάσει σε ένα υψηλό επίπεδο ανάπτυξης και θα συνεχίσουν να αναπτύσσονται προς διάφορες κατευθύνσεις συνδυαζόμενα µε τα ασαφή συστήματα αλλά και µε άλλες τεχνικές ανάλυσης και σχεδίασης ευφυών συστημάτων. 2.2 ΒΑΣΙΚΑ ΣΤΟΙΧΕΙΑ Τα νευρωνικά δίκτυα (Ν ) εκτελούν υπο-συμβολική επεξεργασία πληροφορίας η οποία βασίζεται σε μοντέλα του ανθρωπίνου εγκεφάλου τα οποία 33

34 Κεφ.2 Νευρωνικά Δίκτυα 2.2 Βασικά στοιχεία εμπνέονται από την βιολογία και τη νευροφυσιολογία. Για τη χρήση των μοντέλων αυτού του είδους διατίθενται μέθοδοι που υλοποιούν πολύπλοκες συναρτήσεις και λειτουργίες. Για την εφαρμογή τους δεν απαιτείται ρητή γνώση σε αντίθεση µε ό,τι ισχύει κατά την εφαρμογή συμβολικών μεθόδων της τεχνητής νοημοσύνης. Στην υποσυμβολική προσέγγιση δεν δίνεται η υπό εξέταση σχέση ρητά αλλά κωδικοποιείται στη δομή ενός νευρωνικού δικτύου. Ορισμοί 1. Τα νευρωνικά δίκτυα είναι συστήματα μεγάλης κλίμακας τα οποία περιέχουν ένα μεγάλο αριθμό µη γραμμικών επεξεργαστών ειδικού τύπου οι οποίοι καλούνται νευρώνια. Κάθε Ν χαρακτηρίζεται από µια κατάσταση, ένα σύνολο εισόδων µε βάρη που προέρχονται από άλλα νευρώνια και µια εξίσωση η οποία περιγράφει τη δυναμική λειτουργία του Ν. Τα βάρη του Ν ανανεώνονται µέσω μιας διαδικασίας μάθησης (εκπαίδευσης) η οποία πραγματοποιείται µε την ελαχιστοποίηση κάποιας συνάρτησης κόστους (σφάλματος) ανανεώνοντας ακολουθιακά τα βάρη. Οι βέλτιστες τιμές των βαρών αποθηκεύονται (ως τιμές των διασυνδέσεων μεταξύ των νευρωνίων) και χρησιμοποιούνται κατά την εκτέλεση της εργασίας για την οποία προορίζεται το Ν. 2. Κατά έναν ισοδύναμο ορισμό, ένα Ν είναι µια αρχιτεκτονική δομή αποτελούμενη από ένα πλήθος διασυνδεδεμένων μονάδων (νευρώνια). Κάθε μονάδα χαρακτηρίζεται από εισόδους και εξόδους και υλοποιεί τοπικά έναν απλό υπολογισμό. Κάθε σύνδεση μεταξύ δυο μονάδων χαρακτηρίζεται από µια τιμή βάρους. Οι τιμές των βαρών των συνδέσεων αποτελούν την γνώση που είναι αποθηκευμένη στο δίκτυο και καθορίζουν την λειτουργικότητά του. Η έξοδος κάθε μονάδας καθορίζεται από τον τύπο της μονάδας, την διασύνδεση µε τις υπόλοιπες μονάδες και πιθανώς κάποιες εξωτερικές εισόδους. Πέρα από µια πιθανή δεδομένη (εκ κατασκευής) λειτουργική ικανότητα ενός δικτύου, συνήθως ένα δίκτυο αναπτύσσει µια συνολική λειτουργικότητα µέσω μιας μορφής εκπαίδευσης. Η συνολική λειτουργικότητα ενός Ν καθορίζεται από: την τοπολογία του δικτύου, τα χαρακτηριστικά των νευρώνων, τη μέθοδο εκπαίδευσης τα δεδομένα µε τα οποία γίνεται η εκπαίδευση. 34

35 Κεφ.2 Νευρωνικά Δίκτυα 2.3 Μοντέλο τεχνητού νευρωνίου Συχνά, ο υπολογισμός που εκτελεί κάθε νευρώνιο είναι απλός και κοινός για όλα τα νευρώνια. Επειδή οι νευρώνες λειτουργούν παράλληλα (ταυτόχρονα) και ο αριθμός τους μπορεί να είναι πολύ μεγάλος, τα Ν αποτελούν χαρακτηριστικό παράδειγμα παράλληλου μαζικού υπολογισμού. Τα νευρωνικά δίκτυα είναι κατάλληλα για προβλήματα στα οποία ο συνήθης υπολογισμός δεν είναι αποδοτικός ή δεν γίνεται να υλοποιηθεί αναλυτικά. Τα σημαντικότερα χαρακτηριστικά των νευρωνικών δικτύων που τα διαφοροποιούν από άλλα ευφυή συστήματα είναι η δυνατότητα μάθησης (learning) και προσαρμογής (adaptation) σε διαφορετικούς χώρους προβλημάτων. 2.3 ΜΟΝΤΕΛΟ ΤΕΧΝΗΤΟΥ ΝΕΥΡΩΝΙΟΥ (ΝΕΥΡΩΝΑΣ) Το μοντέλο αυτό στηρίζεται στο μοντέλο Mc Culloh και Pitts και έχει την μορφή της Εικ.2.1. Εικ.2.1 Μοντέλο τεχνητού νευρωνικού δικτύου Παρατηρούμε ότι ο νευρώνας είναι µια θεμελιακή μονάδα επεξεργασίας πληροφορίας η οποία αποτελείται από τρία συστατικά στοιχεία: α) Ένα σύνολο κλάδων διασύνδεσης (συνάψεων). β) Έναν κόμβο άθροισης. γ) Μια συνάρτηση ενεργοποίησης. Κάθε κλάδος διασύνδεσης έχει ένα βάρος (weight - w i ) το οποίο είναι θετικό εάν η σύναψη είναι διεγερτικού τύπου (excitatory) και αρνητικό εάν η σύναψη είναι απαγορευτικού τύπου (inhibitory). Ο κόμβος άθροισης αθροίζει τα σήματα εισόδου πολλαπλασιαζόμενα 35

36 Κεφ.2 Νευρωνικά Δίκτυα 2.4 Αρχιτεκτονικές νευρωνικών δικτύων µε τα αντίστοιχα βάρη των συνάψεων. Συνεπώς ο κόμβος άθροισης είναι µια μονάδα γραμμικού συνδυασμού. Η συνάρτηση ενεργοποίησης f (squashing function) περιορίζει το επιτρεπτό πλάτος του σήματος εξόδου σε κάποια πεπερασμένη τιμή (συνήθως στα κανονικοποιημένα διαστήματα [0,1] ή [-1,1] ). Τέλος, το μοντέλο του νευρωνίου περιέχει επίσης ένα κατώφλι θ που εφαρμόζεται εξωτερικά και πρακτικά υποβιβάζει την καθαρή είσοδο στην συνάρτηση ενεργοποίησης. Συνεπώς η περιγραφή του νευρώνα γίνεται από τις παρακάτω εξισώσεις: n u wi xi i1 y f ( u ), 0, όπου xi (i =1, 2,,n) είναι τα σήματα εισόδου, wi (i = 1,2,..,n) είναι τα συναπτικά βάρη του νευρωνίου, u είναι η έξοδος του γραμμικού συνδυαστή, θ είναι το κατώφλι, f είναι η συνάρτηση ενεργοποίησης και y είναι το σήμα εξόδου του νευρωνίου. Σε γενικές γραμμές η συνάρτηση ενεργοποίησης μπορεί να έχει µια από τις παρακάτω μορφές, όπως φαίνεται στην Εικ.2.2: Συνάρτηση κατωφλίου Κατά τμήματα γραμμική συνάρτηση Συνεχής σιγμοειδής συνάρτηση Εικ.2.2 Συνήθεις συναρτήσεις ενεργοποίησης 2.4 ΑΡΧΙΤΕΚΤΟΝΙΚΕΣ ΝΕΥΡΩΝΙΚΩΝ ΔΙΚΤΥΩΝ Η αρχιτεκτονική των νευρωνικών δικτύων αφορά την τοπολογική διάταξη αλλά και την μεθοδολογία δόμησης πολλαπλών νευρωνίων. Τα χαρακτηριστικά που καθορίζουν την αρχιτεκτονική ενός Ν είναι το πλήθος των στρωμάτων (layers) και οι συνδέσεις 36

37 Κεφ.2 Νευρωνικά Δίκτυα 2.4 Αρχιτεκτονικές νευρωνικών δικτύων ανάμεσα στους νευρώνες. Ένα επιπρόσθετο χαρακτηριστικό το οποίο σχετίζεται µε άμεσο τρόπο µε τον τρόπο δόμησης των νευρωνίων είναι ο αλγόριθμος μάθησης που χρησιμοποιείται για την εκπαίδευση του νευρωνικού δικτύου. ΝΔ Πρώσο-τροφοδότησης: Τα νευρωνικά δίκτυα πρώσο-τροφοδότησης αποτελούνται από νευρώνια οργανωμένα σε στρώματα. Περιλαμβάνουν ένα στρώμα εισόδου από κόμβους πηγής (source nodes) το οποίο προβάλλεται πάνω σε ένα στρώμα νευρωνίων εξόδου (output nodes) αλλά όχι αντίστροφα. Το Ν αυτό καλείται νευρωνικό δίκτυο πρώσο-τροφοδότησης ενός μοναδικού στρώματος, όπου το μοναδικό στρώμα είναι το στρώμα νευρωνίων εξόδου. Στην γενική περίπτωση, ένα Ν πρώσοτροφοδότησης περιέχει ένα ή περισσότερα Εικ.2.3 Μονοστρωματικό Ν κρυμμένα-ενδιάμεσα στρώματα των οποίων οι πρώσο-τροφοδότησης. υπολογιστικοί κόμβοι (hidden nodes) παρεμβαίνουν μεταξύ των εξωτερικών εισόδων και των εξόδων του νευρωνικού δικτύου. Στα δίκτυα αυτά, τα οποία ονομάζονται πολυστρωματικά Ν πρώσο-τροφοδότησης (Εικ.2.4), τα στοιχεία του διανύσματος εισόδου στους κόμβους εισόδου εισέρχονται στο πρώτο κρυμμένο στρώμα υπολογιστικών κόμβων. Ομοίως, οι έξοδοι του πρώτου κρυμμένου στρώματος εισέρχονται, ως είσοδοι πλέον, στους κόμβους του δεύτερου κρυμμένου στρώματος. Αυτή η διαδικασία συνεχίζει μέχρι το τελικό στρώμα κόμβων, οι οποίοι δίνουν την συνολική απόκριση στα πρότυπα εισόδου. Τέλος αξίζει να σημειωθεί ότι ένα νευρωνικό δίκτυο ονομάζεται πλήρως διασυνδεδεμένο εάν κάθε κόμβος οποιουδήποτε στρώματος συνδέεται µε όλους τους κόμβους του γειτονικού προς τα εμπρός στρώματος. Εάν αυτό δεν ισχύει, δηλαδή εάν λείπουν µια ή περισσότερες συναπτικές συνδέσεις τότε το νευρωνικό δίκτυο καλείται Ν μερικά διασυνδεδεμένο. Ν Ανατροφοδότησης: Εάν ένα Ν περιέχει τουλάχιστον ένα βρόχο ανατροφοδότησης ο οποίος ανακυκλώνει πληροφορία µέσω του ιδίου ή προηγούμενων στρωμάτων, τότε το Ν καλείται αναδρομικό νευρωνικό δίκτυο. Εάν το Ν είναι ευσταθές, πιθανόν να ταλαντωθεί για κάποιο χρονικό διάστημα προτού φθάσει σε µια 37

38 Κεφ.2 Νευρωνικά Δίκτυα 2.5 Μάθηση νευρωνικών δικτύων σταθερή κατάσταση στην οποία οι ενεργοποιήσεις των νευρώνων θα σταματήσουν να αλλάζουν µε αποτέλεσμα να παραχθεί µια σταθερή έξοδος. Διαφορετικά, εάν το Ν είναι ασταθές οι ταλαντώσεις θα συνεχίσουν αδιάκοπα. Συνεπώς η εκπαίδευση του εν λόγω αναδρομικού Ν σκοπό έχει την εύρεση των συναπτικών βαρών που του επιτρέπουν να σταθεροποιηθεί στις επιθυμητές τιμές εξόδου. Εικ.2.4 Πολυστρωματικό Ν πρώσο-τροφοδότησης (μερικώς διασυνδεδεμένο) Εικ.2.5 Πολυστρωματικό Ν ανατροφοδότησης 2.5 ΜΑΘΗΣΗ ΝΕΥΡΩΝΙΚΩΝ ΔΙΚΤΥΩΝ Η ιδιότητα της προσαρμογής των Ν σε μεταβαλλόμενους χώρους προβλημάτων σχετίζεται µε την ικανότητα μάθησής τους. Η μάθηση είναι µια θεμελιακή ικανότητα των νευρωνικών δικτύων η οποία τους παρέχει την ικανότητα να μαθαίνουν από το περιβάλλον τους και να βελτιώνουν τη συμπεριφορά τους µε το πέρασμα του χρόνου. Ειδικότερα στα Ν, η μάθηση αναφέρεται στην διεργασία επίτευξης μιας επιθυμητής συμπεριφοράς µέσω ενημέρωσης των τιμών των συναπτικών βαρών. Έτσι ένα Ν μαθαίνει για το περιβάλλον του µέσω μιας επαναληπτικής διαδικασίας ανανέωσης των συναπτικών βαρών και κατωφλίων. Σε γενικές γραμμές μπορεί να λεχθεί ότι αλγόριθμος μάθησης είναι κάθε προκαθορισμένο σύνολο καλά ορισμένων κανόνων επίλυσης του προβλήματος εκπαίδευσης του νευρωνικού δικτύου. Κάθε αλγόριθμος μάθησης προσφέρει έναν δικό του τρόπο προσαρμογής των συναπτικών βαρών. Γενικά υπάρχουν πολλοί αλγόριθμοι μάθησης στα Ν, καθένας από τους οποίους παρουσιάζει πλεονεκτήματα αλλά και 38

39 Κεφ.2 Νευρωνικά Δίκτυα 2.5 Μάθηση νευρωνικών δικτύων μειονεκτήματα. Τα προβλήματα μάθησης τα οποία επιλύουν οι αντίστοιχοι αλγόριθμοι εξαρτώνται και από το περιβάλλον στο οποίο εργάζεται κάθε Ν. Έτσι διαφορετικά μοντέλα του περιβάλλοντος οδηγούν σε διαφορετικά μοντέλα εκπαίδευσης: Επιβλεπόμενη (ενεργή) μάθηση. Ενισχυτική μάθηση. Μη επιβλεπόμενη (αυτό- οργανούμενη) μάθηση. Επιβλεπόμενη Μάθηση: Σχηματικά η δομή της επιβλεπόμενης μάθησης παρουσιάζεται στην συνέχεια. Παρατηρείται ότι στην επιβλεπόμενη μάθηση συνυπάρχουν δυο βασικές συνιστώσες, το σύστημα εκμάθησης και ο «δάσκαλος». Εικ.2.6 Δομή της επιβλεπόμενης μάθησης Το κύριο χαρακτηριστικό της επιβλεπόμενης μάθησης είναι η ύπαρξη του εξωτερικού δασκάλου ο οποίος µε βάση την γνώση που είναι αποθηκευμένη σε αυτόν είναι σε θέση να διδάξει στο σύστημα μάθησης τις επιθυμητές εξόδους για το σύνολο εισόδων εκπαίδευσης. Όταν ο δάσκαλος και το Ν λαμβάνουν ένα διάνυσμα εισόδου εκπαίδευσης, ο δάσκαλος δίνει στο νευρωνικό δίκτυο µια επιθυμητή έξοδο η οποία αναπαριστά την βέλτιστη δράση που πρέπει να εμφανίζει το Ν. Οι παράμετροι του Ν ανανεώνονται βάσει του διανύσματος εκπαίδευσης και του διανύσματος σφάλματος (δηλαδή της διαφοράς πραγματικής y και επιθυμητής y d απόκρισης του δικτύου). Ορίζοντας µια συνάρτηση κόστους της μορφής 1 J ( w) E y( t) yd ( t)

40 Κεφ.2 Νευρωνικά Δίκτυα 2.5 Μάθηση νευρωνικών δικτύων όπου w είναι το διάνυσμα των προς επιλογή ελεύθερων παραμέτρων του συστήματος μάθησης (δηλαδή του Ν ), η ανανέωση των παραμέτρων παίρνει την μορφή του αλγορίθμου διόρθωσης σφάλματος. Η σταδιακή ανανέωση των παραμέτρων κάνει τελικά το Ν μάθησης να μιμείται την δεδομένη επιθυμητή συμπεριφορά. Δύο περιπτώσεις αλγορίθμων επιβλεπόμενης μάθησης είναι ο αλγόριθμος ελαχίστου μέσου τετραγώνου και η γενίκευσή του που είναι γνωστή ως αλγόριθμος ανάστροφης διάδοσης. Ενισχυτική Μάθηση: Σε αυτή την περίπτωση το Ν τροφοδοτείται και πάλι µε δείγματα εισόδου αλλά δεν τροφοδοτείται µε τις επιθυμητές αποκρίσεις σε αυτές τις εισόδους. Εδώ χρησιμοποιείται ένα συνολικό μέτρο της επάρκειας της προκύπτουσας απόκρισης το οποίο μπορεί να οδηγήσει το νευρωνικό δίκτυο στην επιθυμητή συμπεριφορά. Το μέτρο αυτό είναι γνωστό ως ενισχυτικό σήμα (reinforcement signal) και ανατροφοδοτείται στο Ν έτσι ώστε να επιβραβεύσει τις ορθές συμπεριφορές και να τιμωρήσει τις λανθασμένες. Η ενισχυτική μάθηση διακρίνεται σε συσχετιστική και µη συσχετιστική ενισχυτική μάθηση. Στην πρώτη περίπτωση το περιβάλλον τροφοδοτεί πέρα από το ενισχυτικό σήμα και άλλες μορφές πληροφορίας από τις οποίες το Ν πρέπει να αποτυπώσει µια απεικόνιση συσχέτισης αιτίου-αποτελέσματος. Στην δεύτερη περίπτωση η μόνη πληροφορία που δίδεται από το περιβάλλον είναι το ενισχυτικό σήμα και ο προορισμός του Ν είναι να επιλέξει µια μοναδική βέλτιστη ενέργεια. Επιγραμματικά η ενισχυτική μάθηση λειτουργεί ως εξής: 1) Το Ν υπολογίζει τις εξόδους που παράγονται από την τρέχουσα είσοδο µε τις παρούσες τιμές των βαρών. 2) Το σύστημα αξιολογεί την έξοδο και το ενισχυτικό σήμα τροφοδοτείται στο δίκτυο. 3) Τα βάρη ανανεώνονται µε βάση το ενισχυτικό σήμα, αυξάνοντας τις τιμές των βαρών που συνέβαλλαν σε ορθή συμπεριφορά ή μειώνοντας τις τιμές των βαρών που προκάλεσαν αποκλίνουσα συμπεριφορά. 4) Το νευρωνικό δίκτυο ψάχνει να βρει ένα σύνολο βαρών τα οποία να τείνουν να αποφύγουν αρνητικά ενισχυτικά σήματα. Η βασική διαφορά ανάμεσα στην ενισχυτική και την επιβλεπόμενη μάθηση είναι 40

41 Κεφ.2 Νευρωνικά Δίκτυα 2.5 Μάθηση νευρωνικών δικτύων ότι στην ενισχυτική μάθηση το σύστημα μάθησης βελτιώνεται χρησιμοποιώντας ένα κριτήριο συμπεριφοράς οι τιμές του οποίου δίνονται από το περιβάλλον, ενώ στην επιβλεπόμενη μάθηση το κριτήριο συμπεριφοράς (συνάρτηση σφάλματος) καθορίζεται εσωτερικά µε βάση τις επιθυμητές αποκρίσεις. Μη Επιβλεπόμενη Μάθηση: Σε αυτό τον τύπο μάθησης, που καλείται αυτόοργανούμενη μάθηση, δεν χρησιμοποιείται εξωτερικός δάσκαλος ούτε µια βάση γνώσης για να επιβλέψει την εκπαίδευση του Ν. Το µόνο στοιχείο που μπορεί να χρησιμοποιηθεί για την υλοποίηση της εκπαίδευσης είναι τα διανύσματα εισόδου. Ένα σύστημα µη επιβλεπόμενης μάθησης εξελίσσεται µε τέτοιο τρόπο ώστε να εξάγει χαρακτηριστικά ή κανονικότητες από τα παρουσιαζόμενα πρότυπα, χωρίς ωστόσο να έχει την πληροφορία για το ποιες έξοδοι ή ποιες κατηγορίες συσχετίζονται µε τα χαρακτηριστικά εισόδου. Με άλλα λόγια το σύστημα μάθησης εντοπίζει ή κατηγοριοποιεί τα διανύσματα εισόδου χωρίς καμία εκ των προτέρων πληροφόρηση από το περιβάλλον. Εξ αιτίας αυτών η µη επιβλεπόμενη μάθηση συχνά χρησιμοποιείται σε προβλήματα ομαδοποίησης, εξαγωγής εσωτερικών χαρακτηριστικών και ανίχνευσης συμμετριών. Τα νευρωνικά δίκτυα µη επιβλεπόμενης μάθησης εκπαιδεύονται έτσι ώστε να αποκρίνονται σε διαφορετικά διανύσματα εισόδου µε διαφορετικά τμήματα του δικτύου. Το Ν εκπαιδεύεται µε τέτοιο τρόπο ώστε να αυξάνει την πυροδότηση του σε συχνά εμφανιζόμενες εισόδους, γι αυτό και συχνά ονομάζεται εκτιμητής πιθανοτήτων (probability estimator). Κατά αυτό τον τρόπο το νευρωνικό δίκτυο αναπτύσσει συγκεκριμένες εσωτερικές αναπαραστάσεις οι οποίες κωδικοποιούν τα διάφορα διανύσματα εισόδου. 41

42 3 ΝΕΥΡΟΑΣΑΦΗ ΣΥΣΤΗΜΑΤΑ 3.1 ΥΒΡΙΔΙΚΑ ΣΥΣΤΗΜΑΤΑ ΥΠΟΛΟΓΙΣΤΙΚΗΣ ΝΟΗΜΟΣΥΝΗΣ Η Υπολογιστική Νοημοσύνη (ΥΝ) είναι η περιοχή της πληροφορικής, η οποία περιλαμβάνει υπολογισμούς και συλλογιστική υπό συνθήκες ανακρίβειας, αβεβαιότητας και μερικής αλήθειας και πετυχαίνει σταθερότητα και χαμηλό κόστος λύσεων. Τα τρία βασικά συστατικά πεδία της: Νευρωνικά Δίκτυα (Ν ), Ασαφής Συλλογιστική (ΑΣ) και Γενετικοί Αλγόριθμοι (ΓΑ) έχουν το καθένα ιδιαίτερες ιδιότητες και πλεονεκτήματα [18]. Συγκεκριμένα: Τα Ν επιτρέπουν στο σύστημα να μαθαίνει Η ΑΣ επιτρέπει την εμφύτευση στο σύστημα εμπειρικής γνώσης Οι ΓΑ καθιστούν το σύστημα ικανό να αυτό -βελτιώνεται Συνδυάζοντας τα συστατικά αυτά πεδία μπορούμε να σχεδιάσουμε και να κατασκευάσουμε υβριδικά (μικτά) συστήματα ΥΝ ικανά να επιλύουν µε υψηλή απόδοση πολύπλοκα πρακτικά προβλήματα. Τα υβριδικά συστήματα ΥΝ συνδυάζουν τις ιδιότητες καθενός πεδίου και παρακάμπτουν τους περιορισμούς ή τα μειονεκτήματα τους. Οι υβριδικές τεχνικές οδηγούν στην πραγματοποίηση ευφυών συστημάτων τα οποία βρίσκουν ποικίλες εφαρμογές. Οι τέσσερις δυνατοί συνδυασμοί των Ν, ΑΣ και ΓΑ για την ανάπτυξη υβριδικών τεχνικών και συστημάτων ΥΝ φαίνονται στο ακόλουθο σχήμα:

43 Κεφ.3 Νευροασαφή Συστήματα 3.1 Υβριδικά συστήματα ΥΝ Εικ.3.1 Υβριδικά συστήματα υπολογιστικής νοημοσύνης όπου ΝΑΣ: Νευρο - ασαφή συστήματα ΝΓΣ: Νευρό - γενετικά συστήματα ΑΓΣ: Ασαφο - γενετικά συστήματα ΝΑΓΣ: Νευρο ασαφο - γενετικά συστήματα Τα Ν χρησιμοποιούνται στα ΝΑΣ για να μάθουν τις συναρτήσεις συμμετοχής ή / και να καθορίζουν τη δομή των ασαφών συστημάτων. Οι ΓΑ χρησιμοποιούνται στα ΑΓΣ για την αναζήτηση μιας βέλτιστης δομής και ακολούθως για τη ρύθμιση των παραμέτρων. Αντίστροφα, η ασαφής λογική μπορεί να χρησιμοποιηθεί για τη βελτίωση της συμπεριφοράς των ΓΑ. Οι γενετικοί αλγόριθμοι χρησιμοποιούνται στα ΝΓΣ για την αυτοματοποίηση της σχεδίασης νευρωνικών δικτύων µέσω της γενετικής εκπαίδευσης ή της επιλογής της τοπολογίας αυτών ή µέσω της βέλτιστης επιλογής των παραμέτρων μάθησης. Τέλος, συνδυάζοντας κατά ποικίλους τρόπους τα Ν, την ΑΣ και τους ΓΑ μπορούμε να σχεδιάσουμε νευρο-ασαφή- γενετικά συστήματα (ΝΑΓΣ) τα οποία συγκεντρώνουν τα πλεονεκτήματα και τις ιδιότητες όλων αυτών µε στόχο τη βελτιστοποίηση της απόδοσης τους Νευροασαφή Συστήματα Τα αμιγή συστήματα ασαφούς συλλογιστικής έχουν τα εξής δύο 43

44 Κεφ.3 Νευροασαφή Συστήματα 3.1 Υβριδικά συστήματα ΥΝ μειονεκτήματα: Δεν διαθέτουν µια συγκεκριμένη μέθοδο για τον προσδιορισμό των συναρτήσεων συμμετοχής Δεν διαθέτουν µια συνιστώσα μάθησης ή προσαρμοστικότητας. Τα παραπάνω μειονεκτήματα εξαλείφονται αν χρησιμοποιηθούν νευρωνικά δίκτυα για την καθοδήγηση της ασαφούς συλλογιστικής. Πραγματικά, τα Ν μπορούν να εκπαιδευθούν να επιλέγουν τις συναρτήσεις συμμετοχής (δηλαδή τα ασαφή σύνολα) κατά αυτόματο τρόπο, όπως επίσης και να επιλέγουν τον αριθμό ή / και τη μορφή των ασαφών κανόνων. Αυτό ακριβώς γίνεται και στην εργασία μας. Για το σκοπό αυτό έχουν αναπτυχθεί ποικίλες τεχνικές µε σχετικές διακυμάνσεις στη γενικότητα, απλότητα και εφαρμοστικότητα τους. Ιδιαίτερη σημασία έχει το γεγονός ότι τόσο τα Ν όσο και η ΑΣ χαρακτηρίζονται από αυξημένο βαθμό παραλληλίας. Εικ.3.2 Ταξινόμηση των έμπειρων, ασαφών και νευρωνικών συστημάτων Στην εικόνα φαίνεται η θέση των ασαφών και των νευρωνικών συστημάτων σύμφωνα µε την ταξινόμηση ως προς το πλαίσιο της γνώσης (συμβολικό, αριθμητικό) και του τύπου της (δομημένου ή µη), από το οποίο προκύπτει η μεγάλη ποικιλία συνδυασμών ασαφών και νευρωνικών συστημάτων. Στην υλοποίηση των ασαφών συστημάτων τα Ν μπορούν να βρουν εφαρμογή στους εξής τομείς: 1. Υπολογισμός των συναρτήσεων συμμετοχής 2. Ασαφοποίηση των εισόδων 3. Υλοποίηση συναρτήσεων συμμετοχής 4. Συνδυασμός συναρτήσεων συμμετοχής 5. Αποασαφοποίηση των ασαφών ποσοτήτων ώστε να έχουμε αριθμητικές εξόδους 44

45 Κεφ.3 Νευροασαφή Συστήματα 3.1 Υβριδικά συστήματα ΥΝ Εικ.3.3 Διάφορες υλοποιήσεις ασαφών νευρωνικών δικτύων Νευρωνικά Μέρη ενός Ασαφούς Συστήματος Τα ασαφή συστήματα μπορούν να υλοποιηθούν χρησιμοποιώντας πολυεπίπεδα δίκτυα πρόσθιας τροφοδότησης όπου κάθε επίπεδο υλοποιεί τους υπολογισμούς που απαιτούνται σε κάθε στάδιο ενός ασαφούς συστήματος. 1. Το πρώτο επίπεδο υπολογίζει τις συναρτήσεις συμμετοχής (ασαφοποίηση) 2. Το δεύτερο επίπεδο υλοποιεί και συνδυάζει τους ασαφείς κανόνες χρησιμοποιώντας την συνάρτηση ελαχίστου ή έναν αντίστοιχο τελεστή συσσώρευσης. 3. Το τρίτο επίπεδο συνδυάζει τις ασαφείς τιμές που προκύπτουν χρησιμοποιώντας τη συνάρτηση μεγίστου ή έναν αντίστοιχο τελεστή άθροισης. 4. Το επίπεδο εξόδου υλοποιεί την αποασαφοποίηση. Υπάρχουν και άλλες παραλλαγές. Στόχος της απεικόνισης ενός ασαφούς συστήματος σε ένα Ν είναι η χρήση αλγορίθμων εκπαίδευσης για τον καθορισμό των παραμέτρων συμμετοχής µε χρήση δεδομένων εκπαίδευσης. Επειδή οι συναρτήσεις ελαχίστου και μεγίστου δεν είναι παραγωγίσιμες, μια λύση που 45

46 Κεφ.3 Νευροασαφή Συστήματα 3.2 Μοντελοποίηση και προσδιορισμός δομής ακολουθείται συχνά είναι η προσέγγισή τους µε παραγωγίσιμες συναρτήσεις Τεχνικές Εκτίμησης Σφάλματος Ταξινόμησης Από τη στιγμή που η αξιολόγηση ενός ταξινομητή θα πρέπει να γίνεται µε βάση την επίδοσή του στην ταξινόμηση άγνωστων δεδομένων, η στρατηγική που χρησιμοποιείται για την εκτίμηση του σφάλματος ταξινόμησης κάποιας μεθόδου διαιρεί το σύνολο των διαθέσιμων προτύπων σε δύο τμήματα: στο σύνολο εκπαίδευσης (training set) που χρησιμοποιείται για την κατασκευή του ταξινομητή και στο σύνολο ελέγχου (test set) που χρησιμοποιείται για τον υπολογισμό του σφάλματος γενίκευσης. Οι τεχνικές εκτίμησης σφάλματος διαφέρουν μεταξύ τους κυρίως στον τρόπο που γίνεται η διάσπαση των δεδομένων στα δύο σύνολα. Θα πρέπει να σημειωθεί ότι οι τεχνικές αυτές δεν μπορούν να χρησιμοποιηθούν για την αξιολόγηση ενός συγκεκριμένου ταξινομητή (ενός συγκεκριμένου συνόλου παραμέτρων), διότι βασίζονται στην κατασκευή πολλών ταξινομητών (πολλών συνόλων παραμέτρων) για την εκτίμηση σφάλματος. Οι λόγοι για τους οποίους χρησιμοποιούνται είναι: α) για τη σύγκριση διαφορετικών τεχνικών β) για τη μελέτη της επίδρασης των διαφόρων χαρακτηριστικών εισόδου στο σφάλμα ταξινόμησης γ) για την μελέτη της επίδρασης του αριθμού των παραμέτρων στο σφάλμα γενίκευσης, όταν χρησιμοποιείται συγκεκριμένο μοντέλο. 3.2 ΜΟΝΤΕΛΟΠΟΙΗΣΗ ΝΕΥΡΟΑΣΑΦΩΝ ΣΥΣΤΗΜΑΤΩΝ ΚΑΙ ΠΡΟΣΔΙΟΡΙΣΜΟΣ ΔΟΜΗΣ. Η μοντελοποίηση νευροασαφών συστημάτων αποτελεί ένα σημαντικό τμήμα του πεδίου της υβριδικής υπολογιστικής νοημοσύνης. Σκοπός της είναι η κατασκευή ενός μηχανισμού λήψης αποφάσεων που είναι ικανός να προβλέπει και να εξηγεί τη συμπεριφορά ενός άγνωστου συστήματος, το οποίο περιγράφεται με ένα σύνολο από δεδομένα. Ο προσδιορισμός ενός νευροασαφούς συστήματος, αποτελείται βασικά από δύο κύρια στάδια: το στάδιο του προσδιορισμού δομής και το στάδιο του προσδιορισμού παραμέτρων [17]. 46

47 Κεφ.3 Νευροασαφή Συστήματα 3.2 Μοντελοποίηση και προσδιορισμός δομής Ο προσδιορισμός δομής (Structure Identification) περιλαμβάνει τον καθορισμό των μεταβλητών εισόδου και εξόδου, του αριθμού κανόνων στη βάση γνώσης, αλλά και τον ορισμό των σχέσεων και συνδέσεων μεταξύ όλων των μεταβλητών του συστήματος. Επιπλέον, μέσω του προσδιορισμού δομής, μπορεί να προκύψει μια αρχική εκτίμηση των συναρτήσεων συμμετοχής που συνιστούν τα βάρη εισόδου και εξόδου, το οποίο συμβάλλει όχι μόνο στην καλύτερη απόδοση του συστήματος, αλλά και στην επιτάχυνση της εκπαίδευσής του [3]. Ο προσδιορισμός παραμέτρων από την άλλη (Parameter Identification) σχετίζεται με τη ρύθμιση, συνήθως μέσω εκπαίδευσης, των ελεύθερων παραμέτρων του συστήματος, όπως είναι οι συναρτήσεις συμμετοχής και τα βάρη εισόδου και εξόδου (antecedentconsequent weights). Επικρατέστερη τεχνική σήμερα για τη ρύθμιση των παραμέτρων ενός προσαρμοστικού νευροασαφούς μοντέλου είναι αυτή της επιβλεπόμενης μάθησης με τη χρήση της μεθόδου ανάστροφης διάδοσης (back propagation) που βασίζεται στην ελαχιστοποίηση του τετραγώνου του σφάλματος, ενώ ως εναλλακτικές λύσεις εμφανίζονται ο κανόνας Widrow-Hoff και το φίλτρο Kalman [17]. Η επιλογή γενετικών αλγορίθμων για τη ρύθμιση των παραμέτρων αποτελεί επίσης μια αρκετά διαδεδομένη, αλλά και αρκετά χρονοβόρα τεχνική. Για τον προσδιορισμό δομής δεν υφίσταται κάποια γενική και κυρίαρχη μεθοδολογία. Τα πιο σημαντικά από τα προβλήματα που παρουσιάζονται είναι η εύρεση του βέλτιστου αριθμού κανόνων και η «κατάρα των διαστάσεων» (curse of dimensionality). Το τελευταίο αναφέρεται στο φαινόμενο κατά το οποίο, ενώ η διάσταση του προβλήματος αυξάνεται γραμμικά, ο αριθμός των κρυφών κόμβων του δικτύου που απαιτούνται για την επίλυσή του αυξάνεται εκθετικά Νευροασαφή συστήματα γινομένου Τα νευροασαφή συστήματα γινομένου είναι ασαφή μοντέλα που χρησιμοποιούν το αλγεβρικό γινόμενο ως τελεστή συσσώρευσης (aggregation operator) των δράσεων σε έναν κόμβο κανόνα, αντί του τελεστή ελαχίστου (min) που συναντάται πιο συχνά στη βιβλιογραφία [9]. Ο τελεστής συσσώρευσης αποτελεί τη διεργασία συλλογισμού (implication process) ενός κανόνα ΕΑΝ-ΤΟΤΕ, ή αλλιώς τη συνάρτηση ενεργοποίησής του (activation function). 47

48 Κεφ.3 Νευροασαφή Συστήματα 3.3 Γνωστά νευροασαφή συστήματα Η χρήση του γινομένου ως συνάρτηση ενεργοποίησης παρουσιάζει συγκεκριμένα πλεονεκτήματα. Το βασικότερο από αυτά, είναι πως η συνάρτηση γινομένου είναι συνεχής, διαφορίσιμη, συμμετρική και ομαλή, στοιχεία που επιτρέπουν την εκπαίδευση του δικτύου με χρήση του αλγορίθμου ανάστροφης διάδοσης για τη ρύθμιση των παραμέτρων του συστήματος. Αντίθετα με τον πιο συνηθισμένο τελεστή ελαχίστου, το γινόμενο δεν αγνοεί την πληροφορία που αφορά τη διάσταση του προβλήματος και μπορεί να εκτιμήσει καλύτερα την ισχύ των χαρακτηριστικών εισόδου. Επίσης, για ένα μεγάλο εύρος διασποράς, ο τελεστής γινομένου, είναι ικανός να διακρίνει τις εισόδους που είναι όμοιες με το διάνυσμα βαρών και αυτές που είναι ανόμοιες. Με άλλα λόγια, ο τελεστής γινομένου εμφανίζεται ως πιο ευαίσθητος στις διαφορές των προτύπων από άλλους τελεστές. Η συνάρτηση γινομένου χαρακτηρίζεται και από ένα μειονέκτημα. Δεδομένου πως το γινόμενο αποτελείται από παράγοντες των οποίων το πλήθος είναι όσο η διάσταση του προβλήματος και θεωρώντας πως ο κάθε παράγοντας λαμβάνει, λόγω κανονικοποίησης, τιμές μεταξύ μηδέν και ένα, σε προβλήματα μεγάλης διάστασης το γινόμενο παράγει τιμές πολύ κοντά στο μηδέν. Θεωρητικά, δεδομένου ότι αναφερόμαστε σε υπολογιστική νοημοσύνη, υπάρχει ένας πεπερασμένος αριθμός παραγόντων πάνω από τον οποίο, το γινόμενο σε μια υπολογιστική μηχανή μηδενίζεται αφού η υποδιαστολή υπερχειλίζει. Επομένως τα νευροασαφή συστήματα γινομένου έχουν ένα άνω όριο διάστασης που μπορούν να χειριστούν με ασφάλεια. Μια λύση σε αυτό το φαινόμενο είναι η κανονικοποίηση των τιμών ενεργοποίησης ως προς το άθροισμά τους. 3.3 ΓΝΩΣΤΑ ΝΕΥΡΟΑΣΑΦΗ ΣΥΣΤΗΜΑΤΑ Εισαγωγή Στα προηγούμενα κεφάλαια εξετάσαμε δύο περιοχές της υπολογιστικής νοημοσύνης. Τα ασαφή συστήματα συλλογισμού και τα νευρωνικά δίκτυα. Ο συνδυασμός αυτών των δύο οδήγησε στη δημιουργία ενός συστήματος ικανού να εκπαιδεύεται και να έχει υψηλού επιπέδου συλλογιστικές ικανότητες. Το μοντέλο αυτό ονομάζεται νευροασαφές σύστημα συλλογισμού και για τους λόγους αυτούς αποτελεί ένα ιδανικό εργαλείο για την μοντελοποίηση ασαφώς ορισμένων δυναμικών/ χαοτικών συστημάτων. Η πιο ουσιαστική δυνατότητα ενός νευροασαφούς συστήματος είναι η δυνατότητα που παρέχει να εφαρμόζει 48

49 Κεφ.3 Νευροασαφή Συστήματα 3.3 Γνωστά νευροασαφή συστήματα αλγορίθμους μάθησης για νευρωνικά δίκτυα έτσι ώστε να προσαρμόζονται οι παράμετροι του ασαφούς συστήματος συλλογισμού. Στη διεθνή βιβλιογραφία υπάρχει σημαντικός αριθμός δημοσιεύσεων που ασχολείται με την εκμετάλλευση των αλγορίθμων εκπαίδευσης ΝΔ από ασαφή συστήματα. Τα προταθέντα νευροασαφή μοντέλα συνδυάζουν τα πλεονεκτήματα των δύο αυτών συστημάτων. Η γρήγορη και ακριβής μάθηση, οι άριστες δυνατότητες γενίκευσης, η ευκολία στην σημασιολογική κατανόηση των ασαφών κανόνων που χρησιμοποιούν και η δυνατότητα που παρέχουν να χειρίζονται τόσο δεδομένα όσο και γνώση ειδικού (expert knowledge) για το πρόβλημα, είναι μερικά μόνο από τα χαρακτηριστικά τους που τα καθιστούν ιδανικά για εφαρμογή σε πληθώρα επιστημονικών περιοχών. Έχει προταθεί μεγάλος αριθμός νευροασαφών μοντέλων τα οποία διαφέρουν μεταξύ τους στην αρχιτεκτονική και στην ασαφή συλλογιστική διαδικασία που ακολουθούν (π.χ. κανόνες ΕΑΝ-TOTE ή Takagi-Sugeno συλλογιστική). Σ' αυτό το κεφάλαιο θα εξετάσουμε μερικά από τα χαρακτηριστικά παραδείγματα νευροασαφών μοντέλων που συναντώνται στη βιβλιογραφία αφού πρώτα παρουσιάσουμε συνοπτικά την διαδικασία μάθησης σε αυτά Εκπαίδευση στα Νευροασαφή Συστήματα Στα νευροασαφή συστήματα δύο βασικοί τύποι εκπαίδευσης απαιτούνται. Αλγόριθμοι δομικής μάθησης για την εύρεση των κατάλληλων ασαφών κανόνων και αλγόριθμοι για την σωστή ρύθμιση των παραμέτρων του δικτύου και των συναρτήσεων συμμετοχής. Υπάρχουν αρκετοί τρόποι με τους οποίους οι δύο αυτές διαδικασίες εκπαίδευσης μπορούν να συνδυαστούν σε ένα νευροασαφές σύστημα. Ο πιο συνηθισμένος είναι η ακολουθιακή εφαρμογή τους. Αρχικά χρησιμοποιείται η δομική μάθηση για την εύρεση των ασαφών κανόνων που καθορίζουν και τη δομή του συστήματος ενώ στη συνέχεια οι παράμετροι ανανεώνονται μέσω των αλγορίθμων βελτιστοποίησης. Σε μερικές περιπτώσεις η δομή του μοντέλου (ασαφείς κανόνες) ή οι παράμετροι (συναρτήσεις συμμετοχής, βάρη) καθορίζονται από ειδικούς. Αν συμβαίνει κάτι τέτοιο χρησιμοποιούνται μόνο αλγόριθμοι βελτιστοποίησης ή δομική μάθηση αντίστοιχα. Η αναγνώριση και εν συνεχεία η εξαγωγή των ασαφών κανόνων μέσα από ένα σύνολο δεδομένων είναι ένα από τα σημαντικότερα προβλήματα που συναντώνται κατά το σχεδιασμό ενός ασαφούς συστήματος συλλογισμού. Ακριβείς κανόνες οδηγούν σε 49

50 Κεφ.3 Νευροασαφή Συστήματα 3.3 Γνωστά νευροασαφή συστήματα γρήγορες και πάνω απ' όλα αξιόπιστες διαδικασίες μάθησης. Η εξαγωγή ασαφών κανόνων από αριθμητικά δεδομένα αποτελείται από δύο διακριτές διαδικασίες. Αρχικά γίνεται μια διαμέριση του χώρου εισόδου ή/ και εξόδου και στη συνέχεια αντιστοιχούμε έναν ασαφή κανόνα σε κάθε ασαφή υποχώρο. Αν υποθέσουμε ότι έχουμε τους ασαφείς κανόνες που μοντελοποιούν το σύστημα και έχουμε πάρει την αντίστοιχη δομή, το νευροασαφές μοντέλο χρησιμοποιεί αλγόριθμους εκπαίδευσης παραμέτρων (βελτιστοποίησης), όμοιους με αυτούς που παρουσιάσαμε στην εκπαίδευση νευρωνικών δικτύων, για τη σωστή προσαρμογή των βαρών και των συναρτήσεων συμμετοχής. Και εδώ όπως και στα ΝΔ στόχος είναι η ελαχιστοποίηση μιας συνάρτησης σφάλματος Γνωστά Νευροασαφή Συστήματα Παρακάτω θα παρουσιάσουμε τα νευροασαφή συστήματα ANFIS, HyFIS και SuPFuNIS εν συντομία. Θα εξετάσουμε μόνο την αρχιτεκτονική τους και θα αναφερθούμε σύντομα και στον τρόπο εκπαίδευσής τους χωρίς όμως να παρουσιάσουμε αναλυτικά τις εξισώσεις ανανέωσης βαρών για κάθε μοντέλο. Θα επικεντρωθούμε περισσότερο στο μοντέλο SuPFuNIS που είναι το σύστημα εκείνο πάνω στο οποίο βασίστηκε η ανάπτυξη του μοντέλου μας. Σε όλα τα παρακάτω μοντέλα, για λόγους ομοιομορφίας η είσοδος ενός κόμβου i του l στρώματος θα συμβολίζεται με τελική έξοδος του δικτύου θα συμβολίζεται και με (l ) a i και η αντίστοιχη έξοδος με y j. (l ) s i. Η ANFIS: Adaptive Neuro-Fuzzy Inference System Το σύστημα ANFIS (Adaptive Neuro-Fuzzy Inference System) είναι ένα από τα πρώτα που προτάθηκαν και εμπνευστής του είναι ο J.S.Jang. Κύριο χαρακτηριστικό του είναι ότι χρησιμοποιεί ασαφή συλλογιστική Takagi - Sugeno. Παραμένει ακόμα και σήμερα ένα από τα πλέον αποδοτικά και αξιόπιστα νευροασαφή συστήματα και βρίσκει εφαρμογές σε πληθώρα περιοχών. 50

51 Κεφ.3 Νευροασαφή Συστήματα 3.3 Γνωστά νευροασαφή συστήματα Αρχιτεκτονική Συστήματος ANFIS Για λόγους ευκολίας υποθέτουμε ότι το σύστημα έχει δύο μόνο εισόδους χ,y και μια έξοδο ζ. Ακόμα θεωρούμε ότι αντιστοιχεί σε ένα πρώτης τάξεως σύστημα ασαφούς συλλογιστικής Sugeno με δύο μόνο κανόνες της μορφής Στο παρακάτω σχήμα φαίνεται η αρχιτεκτονική του μοντέλου ANFIS που αντιστοιχεί στο σύστημα ασαφούς συλλογιστικής το οποίο μόλις περιγράψαμε Εικ.3.4 Αρχιτεκτονική νευροασαφούς μοντέλου ΑΝΦΙΣ ισοδυνάμου με σύστημα ασαφούς συλλογιστικής Sugeno δύο εισόδων-δύο κανόνων Το ΑΝΦΙΣ αποτελείται από πέντε στρώματα. Ακολουθεί η περιγραφή των κόμβων του δικτύου και οι εξισώσεις εξόδου κάθε στρώματος. Στρώμα 1: Κάθε κόμβος i δέχεται σαν είσοδο τις μεταβλητές x, y και έχει συνάρτηση ενεργοποίησης (3.1) όπου A j, B j γλωσσικές μεταβλητές που αντιστοιχούν σ' αυτό τον κόμβο με αντίστοιχες συναρτήσεις συμμετοχής μ Α j (x), μ B j (x). Ουσιαστικά δηλαδή οι έξοδοι αυτού του στρώματος είναι ο βαθμός συμμετοχής σε κάποιο ασαφές σύνολο που καθορίζει το βαθμό στον οποίο η εκάστοτε είσοδος ικανοποιεί τον αντίστοιχο κανόνα. Η συνάρτηση 51

52 Κεφ.3 Νευροασαφή Συστήματα 3.3 Γνωστά νευροασαφή συστήματα συμμετοχής μπορεί να είναι οποιαδήποτε (πχ. τριγωνική, γκαουσιανή, τραπεζοειδής κτλ). Κατά την εκπαίδευση οι παράμετροι της συνάρτησης αυτής προσαρμόζονται. Στρώμα 2: Γενικά περιλαμβάνει n κόμβους, όπου n ο αριθμός των κανόνων. Κάθε κόμβος αυτού του στρώματος (κόμβοι Π) δίνει σαν έξοδο το γινόμενο όλων των εισόδων του. (3.2) Οι συνδέσεις ανάμεσα στα δύο πρώτα στρώματα γίνονται με βάση τους ασαφείς κανόνες στους οποίους βασίζεται το ANFIS. Οι έξοδοι του δεύτερου επιπέδου αντιστοιχούν στο βαθμό ενεργοποίησης ασαφών κανόνων. Αντί για το γινόμενο θα μπορούσε να χρησιμοποιηθεί οποιοσδήποτε τελεστής t-connorm. Στρώμα 3: Αποτελείται από τόσους κόμβους όσοι και οι κόμβοι του δεύτερου στρώματος. Οι κόμβοι αυτοί, που ονομάζονται κόμβοι N, υπολογίζουν το λόγο ανάμεσα στο βαθμό ενεργοποίησης του κανόνα στον οποίο αντιστοιχούν ως προς το άθροισμα των βαθμών ενεργοποίησης όλων των κανόνων. (3.3) Στρώμα 4: Κάθε κόμβος του επιπέδου αυτού δίνει έξοδο (3.4) όπου w i ο κανονικοποιημένος βαθμός ενεργοποίησης του κανόνα i (έξοδος τρίτου στρώματος) και { p i, q i, r i } οι παράμετροι του κόμβου που ανανεώνονται κατά την διαδικασία εκπαίδευσης. Στρώμα 5: Ο μοναδικός κόμβος σ' αυτό το επίπεδο ονομάζεται κόμβος Σ και υπολογίζει τη συνολική έξοδο του νευροασαφούς συστήματος ANFIS (3.5) 52

53 Κεφ.3 Νευροασαφή Συστήματα 3.3 Γνωστά νευροασαφή συστήματα Πρόκειται για ένα δίκτυο με προσαρμοζόμενες παραμέτρους το οποίο είναι ισοδύναμο με ένα σύστημα ασαφούς συλλογιστικής Sugeno Αλγόριθμος Εκπαίδευσης Συστήματος ANFIS Όπως είδαμε οι παράμετροι του ANFIS που μπορούν να μεταβληθούν κατά τη μάθηση είναι οι παράμετροι των μη γραμμικών κόμβων του πρώτου στρώματος και οι παράμετροι των γραμμικών κόμβων του τετάρτου στρώματος. Αν S το σύνολο των παραμέτρων τότε S = S 1 U S 2 (3.6) όπου S 1 το σύνολο των μη γραμμικών και S 2 το σύνολο των γραμμικών παραμέτρων. Για την εκπαίδευση του δικτύου χρησιμοποιούμε έναν υβριδικό αλγόριθμο ο οποίος χωρίζεται σε δύο μέρη και χοντρικά λειτουργεί ως εξής: Διάδοση προς τα εμπρός Οι μη γραμμικές παράμετροι παραμένουν σταθερές και το δίκτυο παράγει εξόδους μέχρι το τέταρτο στρώμα όπου οι γραμμικές παράμετροι προσδιορίζονται από την μέθοδο των ελαχίστων τετραγώνων. Διάδοση προς τα πίσω Τα σήματα σφάλματος (η διαφορά της πραγματικής από την επιθυμητή έξοδο) διαδίδονται προς τα πίσω χωρίς αλλαγή των γραμμικών παραμέτρων. Οι μη γραμμικές ανανεώνονται με βάση τον αλγόριθμο της απότομης καθόδου. Το ANFIS συγκλίνει γρηγορότερα από τα συνηθισμένα νευρωνικά δίκτυα. Εκτός αυτού μπορούμε να εκφράσουμε με γλωσσικούς όρους τους ασαφείς κανόνες στους οποίους κατέληξε και χρησιμοποιεί για την εξαγωγή συμπερασμάτων. Αυτό θυμίζουμε ότι δεν συμβαίνει με τα ΝΔ τα οποία έχουν τη λογική του μαύρου κουτιού και δεν μπορούμε να αποκωδικοποιήσουμε την πληροφορία που βρίσκεται κρυμμένη μέσα στα συναπτικά βάρη. HyFIS: Hybrid Fuzzy Inference System Το HyFIS προτάθηκε από τους Kim και Kasabov και είναι ένα πολυστρωματικό νευροασαφές σύστημα. Το κύριο χαρακτηριστικό του είναι ότι εφαρμόζει και τις δύο κατηγορίες εκπαίδευσης (δομική και ρύθμισης παραμέτρων). 53

54 Κεφ.3 Νευροασαφή Συστήματα 3.3 Γνωστά νευροασαφή συστήματα Αρχιτεκτονική Συστήματος HyFIS Η τοπολογική δομή του HyFIS φαίνεται στο παρακάτω σχήμα: Εικ.3.4 Δομή νευροασαφούς συστήματος HyFIS Οι κόμβοι κάθε στρώματος έχουν και διαφορετική λειτουργία η οποία επεξηγείται παρακάτω. Για παράδειγμα οι κόμβοι των στρωμάτων 2, 4 αντιστοιχούν στις συναρτήσεις συμμετοχής που εκφράζουν τις γλωσσικές μεταβλητές εισόδου/εξόδου. Στο προηγούμενο σχήμα θεωρήσαμε τα ασαφή σύνολα, μεγάλος (L), μεσαίος (Μ) και μικρός (S). Στρώμα 1: Είναι κόμβοι εισόδου που το μόνο που κάνουν είναι να μεταδίδουν τις αριθμητικές εισόδους που αντιστοιχούν σε κάποια γλωσσική μεταβλητή στο δεύτερο στρώμα. Κάθε κόμβος του πρώτου στρώματος συνδέεται μόνο με εκείνους του δεύτερου που αντιστοιχούν σε γλωσσικές τιμές της εν λόγω γλωσσικής μεταβλητής. (3.7) Στρώμα 2: Οι κόμβοι του στρώματος αυτού δρουν σαν συναρτήσεις συμμετοχής και αντιστοιχούν σε τιμές γλωσσικών μεταβλητών. Οι είσοδοι περνούν από το πρώτο στρώμα στους κόμβους του δεύτερου και αυτοί υπολογίζουν τους βαθμούς συμμετοχής. Χρησιμοποιούνται Gaussian συναρτήσεις συμμετοχής, οπότε 54

55 Κεφ.3 Νευροασαφή Συστήματα 3.3 Γνωστά νευροασαφή συστήματα όπου c, σ οι παράμετροι οι οποίες ανανεώνονται κατά τη διάρκεια της εκπαίδευσης. (3.8) Στρώμα 3: Κάθε κόμβος του τρίτου στρώματος αντιστοιχεί σε μια ΕΑΝ υπόθεση ενός ασαφούς κανόνα. Τα βάρη των συνδέσεων είναι μοναδιαία. Έξοδος είναι η εφαρμογή του τελεστή ΚΑΙ στις εισόδους. όπου (3.9) (3) Ii το σύνολο των κόμβων του στρώματος 2 που συνδέονται με τον κόμβο i του στρώματος 3. Στρώμα 4: Κάθε κόμβος του τέταρτου στρώματος αντιστοιχεί σ' ένα συμπέρασμα ΤΟΤΕ ενός κανόνα και εφαρμόζει τον τελεστή Ή στις εισόδους του. Τα στρώματα 3, 4 είναι πλήρως συνδεδεμένα μεταξύ τους. Κάθε κόμβος αντιστοιχεί σε μια γλωσσική τιμή της μεταβλητής εξόδου και η έξοδός του δείχνει το βαθμό στον οποίο όλοι οι ασαφείς κανόνες δίνουν σαν συμπέρασμα την γλωσσική αυτή τιμή. Τα βάρη w ik των συνδέσεων μεταξύ ενός κόμβου i του τέταρτου επιπέδου και ενός κόμβου k του τρίτου, αντιστοιχούν στον βαθμό σημαντικότητας του αντίστοιχου κανόνα για την συγκεκριμένη έξοδο. Αρχικά τα βάρη αυτά επιλέγονται τυχαία στο διάστημα [-1,+1]. Η έξοδος των κόμβων του στρώματος αυτού είναι (3.10) όπου I i (4) το σύνολο των κόμβων του στρώματος 3 που συνδέονται με τον κόμβο i του στρώματος 4. Κάθε κανόνας ενεργοποιείται σε βαθμό που ισούται με το τετράγωνο του βάρους της αντίστοιχης σύνδεσης. Στρώμα 5: Το στρώμα αυτό αντιστοιχεί στις μεταβλητές εξόδου του HyFIS. Οι κόμβοι χρησιμοποιούνται για την αποασαφοποίηση των ασαφών συμπερασμάτων του προηγούμενου στρώματος. Χρησιμοποιείται είτε η μέθοδος κέντρου βάρους (COG, Centre Of Gravity) είτε η μέθοδος κέντρου περιοχής (COA, Centre Of Area). Αν υποθέσουμε ότι χρησιμοποιούμε τη μέθοδο κέντρου περιοχής η έξοδος είναι 55

56 Κεφ.3 Νευροασαφή Συστήματα 3.3 Γνωστά νευροασαφή συστήματα (3.11) (5) όπου I i TO σύνολο των κόμβων του στρώματος 4 που συνδέονται με τον κόμβο i του στρώματος 5 και c ik, σ ik είναι αντίστοιχα το κέντρο και το εύρος της συνάρτησης συμμετοχής της γλωσσικής τιμής εξόδου που αντιστοιχεί στον k κόμβο του τετάρτου στρώματος. Τα βάρη των συνδέσεων ανάμεσα στα δύο τελευταία στρώματα είναι μοναδιαία. Έτσι τα μόνα βάρη που μεταβάλλονται κατά τη μάθηση είναι αυτά ανάμεσα στα στρώματα 3 και Αλγόριθμος Εκπαίδευσης Συστήματος HyFIS Η εκπαίδευση του νευροασαφούς συστήματος HyFIS αποτελείται από δύο φάσεις. Κατά τη διάρκεια της πρώτης χρησιμοποιούνται τεχνικές για την εξαγωγή των ασαφών κανόνων από αριθμητικά δεδομένα. Μετά την παραγωγή των κανόνων αυτών από ζευγάρια εισόδων-επιθυμητών εξόδων, μπορούμε να καθορίσουμε τη δομή του HyFIS. Στη συνέχεια το δίκτυο μπαίνει στη δεύτερη φάση εκπαίδευσης, όπου προσαρμόζονται οι παράμετροι των συναρτήσεων συμμετοχής και τα βάρη των συνδέσεων μεταξύ των στρωμάτων 3 και 4. Πρόκειται για μια διαδικασία επιβλεπόμενης μάθησης που βασίζεται στον αλγόριθμο της μεγίστης κλίσης. Έστω d i η επιθυμητή έξοδος του κόμβου i του πέμπτου στρώματος για ένα διάνυσμα εισόδου X = { x 1, x 2,..., x p }. Σκοπός είναι η ελαχιστοποίηση της συνάρτησης σφάλματος (3.12) όπου q ο αριθμός των κόμβων του πέμπτου στρώματος. Αξίζει να σημειωθεί ότι υπολογίζεται το σφάλμα για όλα τα πρότυπα εκπαίδευσης και έπειτα γίνεται η ανανέωση. Αν α μία παράμετρος του δικτύου που ανανεώνεται κατά τη μάθηση (είτε παράμετρος συνάρτησης συμμετοχής είτε βάρος) τότε ο κανόνας ανανέωσης που χρησιμοποιούμε στο HyFIS βασίζεται στον αλγόριθμο μεγίστης κλίσης και είναι 56

57 Κεφ.3 Νευροασαφή Συστήματα 3.3 Γνωστά νευροασαφή συστήματα E a( t 1) a( t) (3.13) a όπου η>0 ο ρυθμός μάθησης. SuPFuNIS: Subsethood-Product Fuzzy Neural Inference System Τo SuPFuNIS είναι ένα εξαιρετικά ενδιαφέρον νευροασαφές μοντέλο, το οποίο περιλαμβάνει τρία μόνο διασυνδεδεμένα στρώματα, όπως φαίνεται και στο παρακάτω σχήμα. Εικ.3.6 Δομή νευροασαφούς συστήματος SuPFuNIS Το SuPFuNIS διαφέρει σημαντικά από τα υπόλοιπα νευροασαφή μοντέλα, αλλά αυτό δεν το εμποδίζει να παρουσιάζει πολύ καλά αποτελέσματα. Οι κύριες διαφορές είναι οι εξής: 1. Χρησιμοποιούνται ρυθμιζόμενοι ασαφοποιητές εισόδου οι οποίοι ασαφοποιούν τα εισερχόμενα αριθμητικά δεδομένα μετατρέποντάς τα σε μια Gaussian συνάρτηση συμμετοχής ρυθμιζόμενου πλάτους. 2. Όλη η πληροφορία που συναντάται στο δίκτυο είναι σε ασαφή μορφή. Για το λόγο αυτό το μοντέλο χρησιμοποιεί έναν μηχανισμό σύνθεσης που στηρίζεται σ' ένα μέτρο αμοιβαίας επικάλυψης. 57

58 Κεφ.3 Νευροασαφή Συστήματα 3.3 Γνωστά νευροασαφή συστήματα 3. Το μοντέλο συναθροίζει τις δραστηριότητες σε κάθε κόμβο-κανόνα με τη χρήση ενός ασαφούς γινομένου. 4. Η έξοδος προκύπτει μετά την εφαρμογή χωρικής αποασαφοποίησης. Ακολουθεί αναλυτική περιγραφή της αρχιτεκτονικής του SuPFuNIS και μια αναφορά στη διαδικασία εκπαίδευσης που χρησιμοποιεί Αρχιτεκτονική Συστήματος SuPFuNIS Θα θεωρήσουμε το γενικό μοντέλο της Εικ.3.6 που περιλαμβάνει n κόμβους εισόδου, q κρυφούς κόμβους (κόμβους κανόνων) και p κόμβους εξόδου. Κάθε κρυφός κόμβος αντιστοιχεί σ' έναν ασαφή κανόνα της μορφής ΕΑΝ x 1 είναι Α 1 και x 2 είναι Α 2 ΤΌΤΕ y είναι Β (3.14) όπου Α 1, Α 2 ασαφή σύνολα ορισμένα στο διάστημα εισόδου και Β στο διάστημα εξόδου. Στρώμα 1: Το διάνυσμα εισόδου X = {x 1.x x n } μπορεί να περιέχει και αριθμητικές και γλωσσικές τιμές. Για το λόγο αυτό το στρώμα εισόδου αποτελείται από δύο ειδών κόμβους. Στους γλωσσικούς κόμβους εισέρχονται οι πιθανές γλωσσικές τιμές του διανύσματος εισόδου, οι οποίες καθορίζονται από μια Gaussian συνάρτηση συμμετοχής κέντρου x c i και πλάτους x σ i. Αυτή είναι και η έξοδος των γλωσσικών κόμβων καθώς δεν συμβαίνει καμία επεξεργασία της εισόδου δηλαδή (3.15) όπου Ι (1) ling το σύνολο των γλωσσικών κόμβων του πρώτου επιπέδου. Οι αριθμητικοί κόμβοι εκτελούν ασαφοποίηση της αριθμητικής τιμής εισόδου χρησιμοποιώντας Gaussian συναρτήσεις συμμετοχής. Συγκεκριμένα η τιμή εισόδου είναι το κέντρο της Γκαουσιανής x c i ενώ το πλάτος x σ i είναι μια ρυθμιζόμενη παράμετρος. Έτσι αν x i η αριθμητική είσοδος, τότε όπου Ι (1) num το σύνολο των γλωσσικών κόμβων του πρώτου επιπέδου. (3.16) 58

59 Κεφ.3 Νευροασαφή Συστήματα 3.3 Γνωστά νευροασαφή συστήματα Προσυναπτικά Βάρη: Η σύνδεση ανάμεσα σ' έναν κόμβο εισόδου i και έναν κρυφό κόμβο j χαρακτηρίζεται από ένα προσυναπτικό βάρος w ij που χαρακτηρίζεται από το κέντρο c w ij και το πλάτος wij μιας Gaussian συνάρτησης συμμετοχής. (3.17) Το βάρος αυτό είναι ουσιαστικά η ασαφής απεικόνιση τμήματος του αριστερού μέρους του ασαφούς κανόνα j. Αμοιβαία Σχέση Εγκλεισμού: Τόσο οι έξοδοι του στρώματος εισόδου όσο και τα προσυναπτικά βάρη είναι ασαφή σύνολα. Πρέπει με κάποιο τρόπο να ποσοτικοποιηθεί η σχέση ανάμεσα στα δύο αυτά ασαφή σύνολα. Στο μοντέλο SuPFuNIS χρησιμοποιείται το μέτρο της αμοιβαίας σχέσης εγκλεισμού (mutual subset-hood) το οποίο έχει τιμές στο διάστημα [0, 1] και ουσιαστικά δίνει το ποσοστό επικάλυψης μεταξύ των δύο ασαφών συνόλων. Η αμοιβαία σχέση (1) εγκλεισμού E ij μεταξύ της εξόδου του κόμβου i, s i =(x c i, x σ i ) και του ασαφούς βάρους w ij = (w c ij, w σ ij) δίνεται από τη σχέση (3.18) όπου C( ) το μέτρο (Cardinality) ενός ασαφούς συνόλου. Για να γίνει περισσότερο κατανοητή η έννοια της αμοιβαίας σχέσης εγκλεισμού στο παρακάτω σχήμα φαίνονται δύο Gaussian συναρτήσεις συμμετοχής και η περιοχή επικάλυψης. Εικ.3.7 Ποσοστό επικάλυψης δύο Γκαουσιανών συναρτήσεων συμμετοχής. Στρώμα 2: Σε κάθε κρυφό κόμβο j, που αντιστοιχεί όπως είπαμε σε έναν κανόνα, εισέρχεται το διάνυσμα των αμοιβαίων σχέσεων εγκλεισμού E j = (Ε 1 j,..., E nj ). Η ενεργοποίηση ενός κανόνα αναμένεται να εκφράζει το βαθμό ομοιότητας ανάμεσα σ' ένα διάνυσμα εισόδου X = ( x 1,...x n ) και το διάνυσμα προσυναπτικών βαρών w j = 59

60 Κεφ.3 Νευροασαφή Συστήματα 3.3 Γνωστά νευροασαφή συστήματα ( w 1 j,..., w nj ). Κάθε αμοιβαία σχέση εγκλεισμού E ij του διανύσματος E εκφράζει την ομοιότητα ανάμεσα στα δύο συγκεκριμένα ασαφή σύνολα οπότε είναι λογικό να χρησιμοποιήσουμε τον τελεστή γινομένου ο οποίος παράγει την ενεργοποίηση z j του κόμβου j (3.19) Μετασυναπτικά Βάρη: Η σύνδεση ανάμεσα σ' έναν κρυφό κόμβο j και έναν κόμβο εξόδου k χαρακτηρίζεται από ένα μετασυναπτικό βάρος u jk που αντιστοιχεί στο κέντρο u c jk και το πλάτος u σ jk μιας Gaussian συνάρτησης συμμετοχής. (3.20) Το βάρος αυτό είναι η ασαφής απεικόνιση τμήματος του δεξιού μέρους του ασαφούς κανόνα j. Στρώμα 3: Αφού έχουμε υπολογίσει τους βαθμούς ενεργοποίησης όλων των κανόνων, τα σήματα z j προχωράνε στο στρώμα εξόδου όπου γίνεται η αποασαφοποίηση. Χρησιμοποιείται η μέθοδος απο-ασαφοποίησης χωρικού κέντρου βάρους (volume based centroid defuzzification), η οποία για την έξοδο y k εκφράζεται από τον γενικό τύπο (3.21) όπου με V jk συμβολίζουμε τον όγκο των μετασυναπτικών ασαφών συνόλων βάρους, οι οποίοι στην περίπτωσή μας είναι u jk. Αν θεωρήσουμε τα βάρη ξ jk μοναδιαία τότε έχουμε τον απλούστερο τύπο (3.22) 60

61 Κεφ.3 Νευροασαφή Συστήματα 3.3 Γνωστά νευροασαφή συστήματα Ουσιαστικά κατά τη διαδικασία της αποασαφοποίησης υπολογίζεται ένα σταθμισμένο άθροισμα των κέντρων των μετασυναπτικών βαρών. Έτσι το αποτέλεσμα είναι πιο κοντά στο μετασυναπτικό βάρος του κανόνα με την μεγαλύτερη ενεργοποίηση Αλγόριθμος Εκπαίδευσης Συστήματος SuPFuNIS Ένα τετραγωνικό κριτήριο σφάλματος χρησιμοποιείται κατά τη διαδικασία εκπαίδευσης του SuPFuNIS που είναι κατά τα γνωστά (3.23) όπου d k (t) η επιθυμητή και y k (t) η πραγματική έξοδος του κόμβου k του στρώματος εξόδου. Το σφάλμα αποτιμάται για όλους τους p κόμβους εξόδου. Παρατηρούμε ότι το SuPFuNIS ακολουθεί εκπαίδευση γραμμής (on-line learning) δηλαδή οι παράμετροι του συστήματος ανανεώνονται μετά την εμφάνιση κάθε προτύπου. Οι ελεύθερες παράμετροι του συστήματος, δηλαδή εκείνες που ανανεώνονται κατά τη μάθηση είναι τα πλάτη των Γκαουσιανών ασαφοποιητών εισόδου x σ i, τα κέντρα και οι διασπορές των προσυναπτικών w c ij, w σ ij και μετασυναπτικών u c jk, u σ jk βαρών. Η εξίσωση ανανέωσης βαρών είναι (3.24) όπου r αντιστοιχεί σε μια ελεύθερη παράμετρο, η είναι ο ρυθμός μάθησης (learning rate), α η παράμετρος της ορμής και Δr(t 1) = r(t) r(t 1). 61

62 4 Σύστημα MoDFuNC 4.1 ΔΟΜΗ ΤΟΥ ΣΥΣΤΗΜΑΤΟΣ Η δομή του συστήματος περιλαμβάνει 3 ευδιάκριτα τμήματα: 1. Μια πρώτη χονδρική προσέγγιση της διαμέρισης του χώρου εισόδου γίνεται με χρήση του αλγορίθμου CART (Classification And Regression Trees) που χρησιμοποιεί τα δυαδικά δέντρα απόφασης για να χωρίσει τα δεδομένα σε κλάσεις. 2. Ο κάθε τερματικός κόμβος ή φύλλο του δέντρου ομαδοποιείται ως μια κλάση και αποτελεί έναν κανόνα (primary rule). Από τα δεδομένα που ανήκουν σε κάθε φύλλο φτιάχνουμε μια γκαουσιανή συνάρτηση συμμετοχής που αντιστοιχεί σε αυτόν τον κανόνα. 3. Όσοι κανόνες έχουν χαμηλά ποσοστά επιτυχίας στην ταξινόμηση του CART, διασπώνται σε υποκανόνες (secondary rules ή subrules) με στόχο την αύξηση της ακρίβειας. Ακολουθεί σχηματικά η δομή του συστήματος:

63 Κεφ.4 Σύστημα MoDFuNC 4.2 Λειτουργία της μεθόδου Εικ.4.1 Δομή του MoDFuNC 4.2 ΛΕΙΤΟΥΡΓΙΑ ΤΗΣ ΜΕΘΟΔΟΥ Η βασική ιδέα και το κίνητρο της προτεινόμενης μεθοδολογίας μπορεί να περιγραφεί μέσω ενός απλού παραδείγματος του ανθρωπίνου τρόπου σκέψης για την επίλυση ενός καθημερινού προβλήματος και συγκεκριμένα για την κατασκευή ενός παζλ με πολλά κομμάτια. Αυτό που οι περισσότεροι από εμάς κάνουν ως πρώτο βήμα είναι να σχηματίσουν πρωτίστως τα ακριανά κομμάτια που σχηματίζουν το εξωτερικό περίγραμμα της εικόνας, το πλαίσιο. Αλλά πως το πετυχαίνουμε αυτό; Διαλέγοντας λίγους αρχικούς κανόνες με τους οποίους και ξεκινούμε, δηλαδή το σχήμα του κομματιού να είναι ίσιο από τη μια τουλάχιστον μεριά, τα χρώματα να ταιριάζουν με αυτά του πλαισίου και τα γειτονικά τμήματα να συνταιριάζονται. Καθώς προχωράμε προς το εσωτερικό του παζλ, η πολυπλοκότητα αυξάνεται και οι λεπτομέρειες κάθε κομματιού παίζουν πολύ πιο σημαντικό ρόλο απ ότι το σχήμα από μόνο του. Χρειαζόμαστε συνεπώς περισσότερο σύνθετους κανόνες που εκμεταλλεύονται όλα τα διαθέσιμα χαρακτηριστικά ή μεταβλητές εισόδου- ούτως ώστε να 63

64 Κεφ.4 Σύστημα MoDFuNC 4.3 Τοπολογία του συστήματος αντιμετωπίσουν καλύτερα το νέο υποπρόβλημα και να μας βοηθήσουν έτσι να ολοκληρώσουμε την εικόνα. Στο τέλος, ολοκληρώνοντας το πρώτο παζλ, ο εγκέφαλος δημιουργεί μια αρθρωτή δομή κανόνων που αναλύει το κυρίως πρόβλημα σε υποπροβλήματα. Ορισμένα υποπροβλήματα απαιτούν ένα μικρό σετ χαρακτηριστικών ενώ κάποια άλλα όλα τα διαθέσιμα χαρακτηριστικά, ειδικά όταν η πολυπλοκότητα των σχημάτων και η επικάλυψη των χρωμάτων αυξάνονται. Η προαναφερθείσα μεθοδολογία συλλογισμού είναι αυτή ακριβώς που η προσέγγισή μας φιλοδοξεί να εξομοιώσει μέσω μιας τεχνικής δυναμικής επιλογής χαρακτηριστικών σε συνδυασμό με πολλαπλές νευροασαφείς υπομονάδες. 4.3 ΤΟΠΟΛΟΓΙΑ ΤΟΥ ΣΥΣΤΗΜΑΤΟΣ Το προτεινόμενο μοντέλο, που ονομάζεται MoDFuNC (Modular Dynamic Fuzzy Neural Classifier), είναι ο συγκερασμός: α. μιας αρχικής διαμέρισης του χώρου εισόδου βασισμένης στον αλγόριθμό CART, με αποτέλεσμα τη δημιουργία της δομής του συστήματος. β. Ενός νευροασαφή ταξινομητή που υλοποιεί αυτή τη δομή με ένα κύριο δίκτυο και έναν αριθμό από υποδίκτυα και επιτρέπει τη λεπτομερή ρύθμιση των ελεύθερων παραμέτρων του κάθε δικτύου ξεχωριστά μέσω επιβλεπόμενης εκπαίδευσης. γ. Η έξοδος του συστήματος προκύπτει από το συνδυασμό κανόνων του κυρίως δικτύου και του προσωρινά ενεργοποιημένου υποδικτύου - εάν υπάρχει τέτοιο. Σε διαφορετική περίπτωση, ο υπολογισμός της εξόδου γίνεται απευθείας μέσω του κυρίως δικτύου. Ενδεικτικά η τοπολογία του συστήματος φαίνεται στο ακόλουθο σχήμα: 64

65 Κεφ.4 Σύστημα MoDFuNC 4.3 Τοπολογία του συστήματος Εικ.4.2 Αξιοποίηση ενός υποδικτύου για τη βελτίωση των δυνατοτήτων του συστήματος Συνοπτικά, τα βήματα της μεθόδου είναι τα εξής: Κατασκευή του συστήματος ΒΗΜΑ 1 Κανονικοποίησε τα δεδομένα και εκτέλεσε τον CART για να χωρίσεις στο χώρο εισόδου σε περιοχές. ΒΗΜΑ 2 Μετέτρεψε τις περιοχές αυτές σε ομάδες (clusters) από τις οποίες θα προκύψουν ασαφείς συναρτήσεις συμμετοχής Γκαουσιανής μορφής (Gaussian membership functions). M αυτόν τον τρόπο θα δημιουργηθεί το σετ των κύριων κανόνων χρησιμοποιώντας ένα ελάχιστο σετ χαρακτηριστικών επιλεγμένων από το δέντρο. ΒΗΜΑ 3 Χώρισε το σετ των κυρίων κανόνων σε κανόνες μεγάλης και μικρής ακριβείας σύμφωνα με ένα κατώφλι ακριβείας. ΒΗΜΑ 4 Χώρισε κάθε κανόνα χαμηλής ακριβείας (Low Confidence Primary Rule LCP Rule) σε x δευτερεύοντες κανόνες ( ή υποκανόνες) με χρήση του FCM. 65

66 Κεφ.4 Σύστημα MoDFuNC 4.4 Αναλυτική περιγραφή ΒΗΜΑ 5 Αντιστοίχισε τους κύριους κανόνες και χαρακτηριστικά (δηλαδή μεταβλητές εισόδου) στο κυρίως δίκτυο, ενώ τους δευτερεύοντες κανόνες και χαρακτηριστικά σε ξεχωριστά υποδίκτυα, ένα για κάθε κανόνα χαμηλής ακριβείας. Επαναληπτική εκπαίδευση ΒΗΜΑ 6 Εκπαίδευσε τα δημιουργηθέντα δίκτυα ξεχωριστά (δηλαδή το καθένα με τα δεδομένα που του αντιστοιχούν) χρησιμοποιώντας τη μέθοδο μεγίστης κλίσης με οπισθοδιάδοση σφάλματος (Back Propagation) για να βελτιώσεις την απόδοση. ΒΗΜΑ 7 Ενοποίησε τα εκπαιδευμένα δίκτυα ώστε να δημιουργηθεί το τελικό σύστημα και εκπαίδευσε τη βαρύνουσα παράμετρο (expertise parameter) ώστε να ελέγξεις και να βελτιώσεις τη συνεργασία του δικτύου με τα υποδίκτυα. 4.4 ΑΝΑΛΥΤΙΚΗ ΠΕΡΙΓΡΑΦΗ ΚΑΘΕ ΣΤΑΔΙΟΥ 1. Αναγνώριση δομής συστήματος βασισμένη στα δέντρα απόφασης Αρχικά κανονικοποιούμε την είσοδο στο [0,1], δηλαδή απεικονίζουμε κάθε μεταβλητή εισόδου σε αυτό το διάστημα, ώστε όλες να έχουν το ίδιο πεδίο τιμών. Αυτό εξυπηρετεί την καλύτερη απεικόνιση των χαρακτηριστικών αλλά και τη δυνατότητα επιβολής κοινών περιορισμών στην τιμή, για παράδειγμα, της μέγιστης τυπικής απόκλισης. Επίσης η κανονικοποίηση είναι χρήσιμη για την ομαλή και προβλέψιμη λειτουργία του συστήματος. Στην Εικ.4.3 φαίνεται η διαδικασία της κανονικοποίησης μιας μεταβλητής e στη μεταβλητή x. Εικ.4.3 Κανονικοποίηση μεταβλητής 66

67 Κεφ.4 Σύστημα MoDFuNC 4.4 Αναλυτική περιγραφή Έστω ότι μεταβλητή μετασχηματισμού είναι η e και κανονικοποιημένη η x. Τότε x e e e e min. max min Κατόπιν, χρησιμοποιώντας τον CART κατασκευάζουμε το ταξινομικό δέντρο. Ως κριτήριο διαχωρισμού εφαρμόζουμε το Twoing rule, που είναι το καταλληλότερο για πραγματικές εφαρμογές και προβλήματα με πολλές κλάσεις. Βέβαια, το κριτήριο πολυπλοκότητας που προκύπτει οδηγεί σε ισχυρό κλάδεμα, κάτι που προκαλεί τη δημιουργία μικρότερων σε μέγεθος αλλά και σε ακρίβεια δέντρων. Αυτό όμως είναι επιθυμητό στη μεθοδολογία μας γιατί οι κανόνες που θα προκύψουν από το δέντρο θα ρυθμιστούν αργότερα. Η συνθήκη τερματισμού στη φάση ανάπτυξης ικανοποιείται όταν είτε όλα τα δεδομένα ενός φύλλου ανήκουν στην ίδια κλάση είτε φτάσουμε στο ελάχιστο κατώφλι διαχωρισμού (minimum splitting threshold-mst). Τo MST είναι ένας αριθμός Ν που δηλώνει ότι οι ανομοιογενείς κόμβοι πρέπει να έχουν Ν και παραπάνω δεδομένα ώστε να διασπαστούν περεταίρω. Διαφορετικά θεωρούνται τερματικοί. Η αναγνώριση δομής περιλαμβάνει δύο διαδοχικές φάσεις: α) Τη δημιουργία της βάσης των κύριων κανόνων που υλοποιείται στη κύρια λειτουργική μονάδα (main module). β) Τη δημιουργία της δευτερεύουσας βάσης κανόνων, που σχηματίζει τις υπομονάδες (submodules). Το δεύτερο μέρος είναι και η καινοτομία της μεθόδου. 1.1 Φάση 1: δημιουργία της βάσης των κύριων κανόνων Όταν το δέντρο έχει πλέον σχηματιστεί, θεωρούμε ότι κάθε μονοπάτι που οδηγεί σε φύλλο αναπαριστά έναν κανόνα. Στην Εικ.4.4 φαίνεται ένα παράδειγμα με το δυαδικό δέντρο που προέκυψε μετά την εκτέλεση του αλγορίθμου CART με MST=10 επάνω σε ένα τυχαίο σύνολο 40 δισδιάστατων δειγμάτων που ανήκουν σε δύο κλάσεις (μπλε και κόκκινη). Επίσης φαίνεται και η αρίθμηση κάθε φύλλου-κανόνα. 67

68 Κεφ.4 Σύστημα MoDFuNC 4.4 Αναλυτική περιγραφή Εικ.4.4 Δυαδικό δέντρο ταξινόμησης Στην Εικ.4.5 φαίνονται τα δείγματα στον καρτεσιανό χώρο. Χωρίζονται με γραμμές ακριβώς στα σημεία που υποδεικνύει ο CART, ο οποίος θεωρεί ότι με αυτό τον διαχωρισμό πετυχαίνουμε την καλύτερη δυνατή ταξινόμηση των συγκεκριμένων δειγμάτων υπό τον περιορισμό να είναι δενδρικού τύπου. Εικ.4.5 Διαμερισμός του χώρου εισόδου από τον CART Κάθε περιοχή αντιστοιχεί σε ένα φύλλο-κανόνα, σύμφωνα με την αρίθμηση της Εικ.4.6. Ωστόσο, οι κανόνες αυτοί χωρίζουν το χώρο εισόδου σε αμοιβαίως αποκλειόμενες 68

69 Κεφ.4 Σύστημα MoDFuNC 4.4 Αναλυτική περιγραφή περιοχές, γι αυτό και θα πρέπει να τους μετατρέψουμε σε μορφή συμβατή με τις βασικές αρχές της νευροασαφούς μοντελοποίησης. Εικ.4.6 Κάθε κανόνας αντιστοιχεί σε έναν υποχώρο με διαφορετικό χρώμα Για να γίνει κάτι τέτοιο, μετατρέπουμε κάθε ορθογώνιο κομμάτι σε ένα υπερελλειψοειδές με διάσταση ίδια με αυτή του δέντρου. Αντίθετα με τη διάσταση του προβλήματος, η διάσταση του δέντρου αναφέρεται στα χαρακτηριστικά εκείνα που έχουν επιλεγεί από το δέντρο ως σχετικά με τη λύση. Είναι όλα αυτά που συμμετέχουν σε οποιοδήποτε κλάδο του δέντρου και θα καλούνται εφεξής κύρια χαρακτηριστικά (primary attributes). Αν υποθέσουμε ότι η διάσταση του συνόλου δεδομένων είναι Ν, τότε ο αριθμός των κύριων χαρακτηριστικών είναι πάντα Μ Ν. Μάλιστα δε, σε ένα πρόβλημα πολλών διαστάσεων συνήθως το Μ είναι κατά πολύ μικρότερο του Ν. Τα εναπομείναντα Ν-Μ χαρακτηριστικά θα τα αποκαλούμε δευτερεύοντα (secondary attributes). Συνεπώς, εάν Q είναι ο αριθμός των τερματικών κόμβων, ορίζουμε ένα cluster C j (j=1:q) με κέντρο c j =[c ij ] και διασπορά σ j =[σ ij ] (i=1:m). Το κέντρο c j είναι η μέση τιμή όλων των δειγμάτων που ανήκουν στο cluster C j, ενώ η διασπορά σ j αντιπροσωπεύει την αντίστοιχη τυπική τους απόκλιση. Με αυτές τις παραμέτρους φτιάχνουμε μια Γκαουσιανή συνάρτηση συμμετοχής για κάθε τερματικό κόμβο. Στην Εικ.4.7 απεικονίζονται, με άλλο χρώμα για κάθε κανόνα, οι συναρτήσεις συμμετοχής του για κάθε άξονα. Οι δύο αυτές συναρτήσεις είναι το premise part του κανόνα και η κλάση του αντίστοιχου υποχώρου είναι το consequent. Σε αυτό το παράδειγμα που έχει μικρή διάσταση dim=2, τα κύρια 69

70 Κεφ.4 Σύστημα MoDFuNC 4.4 Αναλυτική περιγραφή χαρακτηριστικά ταυτίζονται με τα δευτερεύοντα (Μ=Ν=2), δηλαδή το δέντρο χρησιμοποιεί όλες τις μεταβλητές εισόδου για να κάνει τη διάσπαση. Εικ. 4.7 Δημιουργία Gauss MFs για την εξαγωγή των κύριων κανόνων Τα clusters (ασαφείς κανόνες) που παράγονται από αυτή τη διαδικασία συνθέτουν το σετ των κύριων κανόνων, που περιλαμβάνει μόνο κύρια χαρακτηριστικά. Ακολούθως διαχωρίζουμε τους κανόνες σε δύο κατηγορίες: Υψηλής αξιοπιστίας (High Confidence Primary ή HCP rules) και Χαμηλής αξιοπιστίας ( Low Confidence Primary ή LCP rules). 1.2 Φάση 2: σχηματισμός υπομονάδων από τους LCP rules Κατά τη δεύτερη φάση, αρχικά εξαλείφουμε τους κανόνες που προήλθαν από clusters με έναν σχετικά πολύ μικρό αριθμό δειγμάτων (συνήθως ένα ή δύο αλλά αυτό μπορεί να αλλάξει ανάλογα με το μέγεθος του dataset), καθώς θεωρούμε τα δείγματα αυτά ως μη περιέχοντα πληροφορία. Στο επόμενο βήμα, ξεχωρίζουμε τους κανόνες που παρουσιάζουν χαμηλή ταξινομική ακρίβεια από αυτούς με υψηλή, σύμφωνα με ένα κριτήριο εμπιστοσύνης. Αφού ο CART ακολουθεί επιβλεπόμενη διαδικασία εκπαίδευσης, μπορούμε να αποκτήσουμε μια εκτίμηση της ακρίβειας κάθε κανόνα. Το κριτήριο που θα χρησιμοποιήσουμε είναι η διαφορά μεταξύ των δύο υψηλότερων τιμών. Ας πάρουμε τα 70

71 Κεφ.4 Σύστημα MoDFuNC 4.4 Αναλυτική περιγραφή δείγματα που ανήκουν στον τερματικό κόμβο j. Τo Y win1 εκφράζει το ποσοστό των δειγμάτων που ανήκουν στην κλάση με τα περισσότερα δείγματα που αποτελεί συγχρόνως και την ετικέτα του κόμβου, ενώ το Y win2 την αντίστοιχη τιμή για την κλάση με την αμέσως μεγαλύτερη συμμετοχή. Με άλλα λόγια (4.1) όπου το p c1 δηλώνει τον αριθμό των δειγμάτων που ανήκουν στη νικήτρια κλάση c1 του κόμβου j, το p c2 τον αριθμό δειγμάτων της δεύτερης στο πλήθος κλάσης, c2, και το p τον αριθμό όλων των δειγμάτων που ανήκουν στον κόμβο j. Πολλαπλασιάζουμε τη διαφορά αυτών των τιμών με Y win1 ώστε να δοθεί μεγαλύτερη βαρύτητα στην καθαρότητα της κλάσης. Έτσι, η τελική μορφή του κριτηρίου εμπιστοσύνης Cf (confidence factor) για τον κόμβο j είναι (4.2) Δεδομένου ότι τα ποσοστά φράσσονται στο [0,1], έπεται ότι και ο Cf φράσσεται στο ίδιο διάστημα. Χρησιμοποιώντας μια κατάλληλη τιμή κατωφλίου για το κριτήριο εμπιστοσύνης, διαιρούμε τους κύριους κανόνες σε δύο κατηγορίες, σ αυτούς που βρίσκονται πάνω απ αυτό (HCP rules) και σε όσους βρίσκονται από κάτω (LCP rules). Οι τελευταίοι περιέχουν δείγματα που ανήκουν σε πλείονες της μίας κλάσεις με κοντινά ποσοστά. Με άλλα λόγια, έχουμε διαιρέσει το χώρο εισόδου σε υποπεριοχές, που καθεμιά τη χαρακτηρίζει ένας βαθμός εμπιστοσύνης. Στην περίπτωσή μας, το κατώφλι επιλέγεται εμπειρικά με βάση την επίδοση του δέντρου, δηλαδή όσο πιο καλή ταξινόμηση κάνει τόσο ανεβάζουμε το κατώφλι του Cf. Ωστόσο, θα μπορούσε κάποιος να αυτοματοποιήσει αυτή την επιλογή επιλέγοντας μια τιμή ακριβώς κάτω από το μέσο όρο της τιμής εμπιστοσύνης όλων των φύλλων του δέντρου ως το κατάλληλο κατώφλι. Ο επόμενος στόχος μας είναι να εκμεταλλευτούμε όλη τη διαθέσιμη πληροφορία για τις περιοχές χαμηλής αξιοπιστίας. Για να γίνει αυτό, χρησιμοποιούμε τον αλγόριθμο του FCM (fuzzy C-means). O FCM ομαδοποιεί τα δείγματα ενός LCP κανόνα σε c subclusters για κάθε ξεχωριστή κλάση που ενυπάρχει σε αυτό τον κανόνα, με το c να το επιλέγουμε ανάλογα με το πλήθος των δειγμάτων του κανόνα με ευριστικό τρόπο. Έτσι, αν έχουμε για παράδειγμα 3 κλάσεις και θέσουμε c =4, θα δημιουργηθούν 3x4=12 subclusters. Κάθε subcluster είναι στην πραγματικότητα ένας νέος υποκανόνας που κάνει χρήση όλων των χαρακτηριστικών, κύριων και δευτερευόντων, σε αντίθεση με το γονικό 71

72 Κεφ.4 Σύστημα MoDFuNC 4.4 Αναλυτική περιγραφή του cluster που ορίζεται μόνο από τα κύρια. Δηλαδή, τα νέα subclusters ορίζουν μία επιπλέον, εξειδικευμένη υπομονάδα που χρησιμοποιεί όλες τις μεταβλητές εισόδου του προβλήματος. Αν όμως ο LCP κανόνας δεν περιέχει πολλά δείγματα, τότε δεν χρησιμοποιούμε τον FCM αλλά κάνουμε το εξής: Χωρίζουμε τα δείγματα στις κλάσεις τους και αρχικά εξαλείφουμε όσες έχουν πολύ λίγα δείγματα μέσα στον κανόνα (συνήθως ένα ή δύο ή και περισσότερα σε μεγάλα προβλήματα). Για κάθε κλάση, βρίσκουμε τη μέση τιμή και τη διασπορά όπως γινόταν με τους κύριους κανόνες και έτσι φτιάχνουμε έναν υποκανόνα για κάθε κλάση, ενώ ο FCM παράγει για κάθε κλάση τόσους κανόνες όσα και τα subclusters που δημιουργεί. Τα παραπάνω φαίνονται στην Εικ.4.8, όπου μετά από τον υπολογισμό του Cf προέκυψε ότι οι κανόνες 2,4,5 είναι χαμηλής αξιοπιστίας (LCP rules). Αντιθέτως, ο 1 ος κανόνας περιέχει 15 δείγματα μιας κλάσης και μόνο 1 της άλλης, ενώ ο 3 ος είναι τελείως καθαρός, περιέχει μόνο κόκκινα δείγματα. Εφαρμόζοντας τη μεθοδολογία για τον κανόνα 2, ορίζουμε τον ελάχιστο αριθμό δειγμάτων ίσο με 3 και τον ελάχιστο αριθμό δειγμάτων για FCM ίσο με 10. Χωρίζουμε τα δείγματα στις κλάσεις τους, οπότε έχουμε δύο ομάδες, και εξαλείψουμε την κόκκινη κλάση γιατί έχει 1< 3 δείγμα. Ανακατασκευάζουμε την Γκαουσιανή του κανόνα με τον κλασικό τρόπο εύρεσης μέσης τιμής-τυπικής απόκλισης από τα εναπομείναντα δείγματα και παίρνουμε τη διακεκομμένη gauss MF. Μαζί απεικονίζεται και η αρχική ΜF. Παρατηρούμε ότι η νέα συνάρτηση συμμετοχής έχει μετατοπιστεί ελαφρώς προς τα δεξιά γιατί έφυγε η πόλωση από το κόκκινο δείγμα. Τα ίδια ισχύουν και για τον 3 ο κανόνα, όπου αυτή τη φορά απαλείφουμε τα 2 μπλε δείγματα γιατί 2< 3. Στον 5 ο κανόνα, τα δείγματα όλων των κλάσεων είναι αρκετά για να τα αγνοήσουμε αλλά όχι τόσα για να κάνουμε FCM, οπότε τα χωρίζουμε σε δύο κλάσεις και έτσι έχουμε πετύχει καλύτερη αναλυτικότητα απ ότι αν είχαμε μόνο τον κύριο κανόνα. 72

73 Κεφ.4 Σύστημα MoDFuNC 4.4 Αναλυτική περιγραφή Εικ.4.8 Δημιουργία νέων κανόνων στις περιοχές χαμηλής αξιοπιστίας Αν κάναμε FCM θα παίρναμε δύο υποομάδες για κάθε κλάση, από τις οποίες θα προέκυπταν τέσσερις συνολικά κανόνες (Εικ.4.9). Μ αυτό τον τρόπο θα πετυχαίναμε ακόμη καλύτερη αναλυτικότητα, αλλά για τόσο λίγα δεδομένα το όφελος είναι μικρότερο από το υπολογιστικό κόστος και επιπλέον υπάρχει κίνδυνος το στένεμα των MFs να αφήνει απέξω νεοεισερχόμενα δεδομένα. Εικ.4.9 Σύγκριση απλών υποκανόνων (πάνω) με κανόνες από FCM (κάτω)- zoom στον 5 ο κανόνα 73

74 Κεφ.4 Σύστημα MoDFuNC 4.4 Αναλυτική περιγραφή Η εργασία [1] στην οποία βασίζεται η μέθοδος χρησιμοποιεί αντί του FCM τον c- FCM (conditional Fuzzy c-means) αλλά εμείς υιοθετήσαμε τον απλό FCM είτε την απλή ανάλυση σε κλάσεις αν τα δεδομένα είναι λίγα, όπως περιγράφηκε παραπάνω, κι αυτό γιατί ο ευριστικός αυτός συνδυασμός είναι απλούστερος και δίνει παρόμοια αποτελέσματα. Αυτό είναι και το μόνο σημείο που η μέθοδός μας διαφοροποιείται από την [1]. Όσον αφορά τον FCM, τα κέντρα του c i είναι και τα κέντρα των Γκαουσιανών συναρτήσεων συμμετοχής, ενώ η τυπική απόκλιση δίνεται από τον τύπο 1, i N 2 ( xk ci ) uik N k 1 όπου το i αναφέρεται στο i-στο subcluster που δημιουργεί ο FCM, U είναι ο πίνακας συμμετοχής και k=1:ν το πλήθος των δειγμάτων της συγκεκριμένης κλάσης πάνω στην οποία τρέχουμε τον αλγόριθμο. Εναλλακτικά, κάποιος μπορεί είτε να επιλέξει έναν άλλο clustering αλγόριθμο είτε να συνεχίσει με την ανάπτυξη ενός νέου δέντρου για τα δείγματα που ανήκουν στο συγκεκριμένο τερματικό κόμβο. Το τελευταίο προσφέρει το πλεονέκτημα της επιλογής χαρακτηριστικών, και έτσι ο αριθμός τους μπορεί να ποικίλει από το ένα submodule στο άλλο, αλλά μειώνει τις ικανότητες γενίκευσης του συστήματος. 2. Αρχιτεκτονική και λειτουργία του συστήματος Η μεθοδολογία του συστήματός μας ακολουθεί το παράδειγμα του SuPFuNIS [22], σε ό,τι αφορά το βασικό μηχανισμό συμπερασμού, ο οποίος έχει προσαρμοστεί κατάλληλα στην προτεινόμενη αρθρωτή προσέγγιση. Πρέπει να ξεκαθαριστεί, όμως, ότι αντίθετα από το SuPFuNIS, το MoDFuNC είναι ένα αρθρωτό σύστημα, το οποίο χρησιμοποιεί δυναμικά τους πόρους του (κανόνες και χαρακτηριστικά, και συνεπώς βάρη), και ως τέτοιο, πρέπει να αντιμετωπιστεί κατά τρόπο αρκετά διαφορετικό όσον αφορά την επιλογή, το συνδυασμό και την ενεργοποίηση του κατάλληλου πόρου ανά πάσα στιγμή. Μια γενική επισκόπηση του συστήματος παρουσιάζεται στην Εικ

75 Κεφ.4 Σύστημα MoDFuNC 4.4 Αναλυτική περιγραφή Εικ.4.10 Γενική επισκόπηση του συστήματος Με δυο λέξεις, η κύρια μονάδα (main module) είναι αρμόδια για τη γενική λειτουργία, δηλαδή την παραλαβή του διανύσματος εισόδου Χ και τον σχηματισμό της διανυσματικής επίσης εξόδου Υ. Ο παρατηρητής (observer), όπως το όνομά του υπονοεί, παρατηρεί τη συσσώρευση δραστηριότητας των κύριων κανόνων και ενεργοποιεί τον καταλύτη (catalyst) όποτε ένας LCP κανόνας πυροδοτείται περισσότερο ανάμεσα σε όλους. Τότε ο καταλύτης αντικαθιστά τον κανόνα αυτόν με την αντίστοιχη υπομονάδα και το στρώμα εξόδου υπολογίζει την τιμή εξόδου του συνδυασμένου δικτύου. Το προτεινόμενο μοντέλο ενσωματώνει απευθείας ασαφείς κανόνες της μορφής IF x i is A j i THEN y k is B j k ( i 1: M; j 1: Q; k 1: K), αλλά δέχεται επίσης εκτεταμένους κανόνες, τους δευτερεύοντες κανόνες, της μορφής IF x i is A ( i' 1: N; j i THEN IF x is j' 1: Q'; ), i A j' i' THEN y k is B j' k όπου τα Μ και Ν δηλώνουν τον αριθμό των κύριων και των ολικών (κύριων συν δευτερευόντων) χαρακτηριστικών αντίστοιχα, ενώ Q είναι ο αριθμός των κύριων κανόνων, Q ο αριθμός των δευτερευόντων και Κ ο αριθμός των εξόδων. Τα Α και Β είναι ασαφή σύνολα ορισμένα στο χώρο εισόδου και εξόδου, αντίστοιχα, και αναπαρίστανται από Γκαουσιανές συναρτήσεις συμμετοχής με παραμέτρους τη μέση τιμή και την τυπική απόκλιση, όπως είπαμε προηγουμένως. Αυτή η αναπαράσταση των ασαφών κανόνων είναι 75

76 Κεφ.4 Σύστημα MoDFuNC 4.4 Αναλυτική περιγραφή ένας καταλυτικός παράγων για την ευρωστία και την προσαρμοστικότητα του συστήματος. Το διάνυσμα εισόδου Χ (ή Χ ) μπορεί να δεχτεί είτε λεκτικές είτε αριθμητικές τιμές. Στην εργασία αυτή θα ασχοληθούμε μόνο με αριθμητικές εισόδους. Από τη νευρωνική του σκοπιά, το ασαφές σήμα μεταφέρεται από την αριθμητική είσοδο i στον κόμβο-κανόνα j μέσω ασαφών βαρών που αντιστοιχούν στα προσυναπτικά βάρη, όπως φαίνεται και στην Εικ.4.2. Στην πραγματικότητα, τα βάρη αυτά δεν είναι παρά η τιμή που δίνει η i-στη είσοδος στην αντίστοιχη συνάρτηση συμμετοχής. Τα ασαφή βάρη- ή αλλιώς οι γκαουσιανές συναρτήσεις συμμετοχής του τμήματος υπόθεσης- μοντελοποιούνται με ένα κέντρο c w ij και μια τυπική απόκλιση w ij. Έτσι, οι παράμετροι των γκαουσιανών ασαφών συνόλων είναι w ij = ( w, w ). Κατά πανομοιότυπο τρόπο, τα μετασυναπτικά ασαφή βάρη c ij ij (consequent fuzzy weights) από τον κόμβο-κανόνα j στον κόμβο εξόδου k είναι jk c (, ). Στην περίπτωση που είχαμε ασαφείς εισόδους που παριστάνονται με ένα jk jk ασαφές σύνολο, θα χρειαζόταν να υπολογίσουμε την αμοιβαία επικάλυψή τους με τη συνάρτηση συμμετοχής, αλλά δεν θα ασχοληθούμε με κάτι τέτοιο. Η συνάθροιση δραστηριότητας που πυροδοτεί τον κόμβο-κανόνα j είναι ο συνδυασμός όλων των βαρών των συνδέσμων που αρχίζουν από κάθε είσοδο και καταλήγουν στον κόμβο αυτόν. Ο βαθμός ενεργοποίησης (firing) z j (0,1 ] του κανόνα j για ένα Μ-διάστατο δίκτυο είναι ο τελεστής του αλγεβρικού γινομένου (4.3) που επελέγη γιατί επιτρέπει στο μοντέλο να εκπαιδευτεί με τη μέθοδο μεγίστης κλίσης χάρη στη διαφορισιμότητά του. Το ασαφές γινόμενο παρουσιάζει επίσης τις ακόλουθες καλές ιδιότητες: είναι φραγμένο ανάμεσα στο μηδέν και στο ένα αυξάνεται μονότονα είναι συνεχές είναι συμμετρικό για έναν συγκεκριμένο κόμβο-κανόνα είναι γραμμικό 76

77 Κεφ.4 Σύστημα MoDFuNC 4.4 Αναλυτική περιγραφή Η έξοδος y k για τις Κ κλάσεις προκύπτει από την τυπική, βασισμένη στο όγκο αποασαφοποίηση κέντρου βάρους που η γενική της έκφραση είναι (4.4) όπου R είναι ο αριθμός των κόμβων-κανόνων. Ο όγκος V jk είναι στην περίπτωσή μας η επιφάνεια των μετασυναπτικών ασαφών βαρών και έτσι V jk = jk. Τα βάρη ξ jk βαρύνουν το z j, και τα παίρνουμε μονάδα στην εργασία μας. Η έξοδος y k βασικά υπολογίζει ένα κυρτό σύνολο των κέντρων των μετασυναπτικών βαρών. Στη μεθεπόμενη παράγραφο περιγράφεται πιο λεπτομερώς η εκτίμηση της εξόδου και το πώς το z j κλιμακώνεται πριν από τον υπολογισμό της τιμής του σήματος εξόδου, ούτως ώστε να μπορούμε να συνδυάσουμε πολλαπλά δίκτυα. 2.1 Συγκρίνοντας τη συνάθροιση δραστηριότητας για το σχηματισμό μιας δυναμικής δομής Μια εξειδικευμένη υπομονάδα ενεργοποιείται όταν η τιμή πυροδότησης ενός LCP κανόνα, πολλαπλασιασμένη με μια βαρύνουσα παράμετρο expertise (T), γίνεται μεγαλύτερη ανάμεσα σε όλους τους κύριους κανόνες. Όταν συμβεί αυτό, ο καταλύτης επιλέγει την κατάλληλη υπομονάδα και την αντικαθιστά με αυτήν τον LCP κανόνα της κύριας μονάδας, όπως απεικονίζεται στην Εικ.4.2. Ο παρατηρητής εισάγει μια νέα ευριστική παράμετρο, την Expertise, που ενισχύει εκείνους τους κανόνες χαμηλής αξιοπιστίας που δείχνουν να υπολειτουργούν σε σχέση με τους υψηλής αξιοπιστίας ή κύριους. Σκοπός της να δίνει μια ποινή στους κανόνες εκείνους που «κερδίζουν» πιο συχνά (αναπτύσσοντας κάτι σαν «ένοχη συνείδηση») ώστε να εξισορροπήσει κατά το δυνατόν τις πυροδοτήσεις όλων των κανόνων. Συγκεκριμένα, η Expertise παράμετρος εφαρμόζεται στα firings κάθε κύριου κανόνα, επιδιώκοντας να ενισχύσει τους LCP κανόνες και να αποδυναμώσει τους HCP, ώστε οι πρώτοι να πυροδοτούνται περισσότερο από τους άλλους τόσο συχνά όσο αναμένεται. Αυτό είναι βασικό, γιατί χωρίς μια τέτοια ενισχυτική παράμετρο οι κύριοι κανόνες όταν εκπαιδευτούν καλύπτουν το σύνολο σχεδόν των δεδομένων, παραγκωνίζοντας τους LCP και 77

78 Κεφ.4 Σύστημα MoDFuNC 4.4 Αναλυτική περιγραφή εμποδίζοντας τη συμμετοχή τους. Η αρχική έκφραση της Expertise, που παίρνει τιμές στο [0,1] δίνεται από τη σχέση (4.5) όπου p j είναι ο αριθμός των δειγμάτων που ανήκουν στο j-οστό cluster και P είναι ο συνολικός αριθμός δειγμάτων του συνόλου δεδομένων. Η τιμή της παραμέτρου θα προσαρμοστεί κατά τη φάση της εκπαίδευσης. Πρέπει να παρατηρήσουμε πως η παράμετρος εφαρμόζεται μόνο κατά τη σύγκριση μεταξύ των κανόνων και δεν συμμετέχει στη διαδικασία υπολογισμού της εξόδου, ούτως ώστε να μην προκαλέσει παραμορφώσεις στις τιμές της εξόδου. 2.2 Συνδυάζοντας τη συνάθροιση δραστηριότητας των αρθρωτών υπομονάδων με την κύρια μονάδα για τον υπολογισμό της εξόδου Η διαδικασία ενοποίησης πολλών συστημάτων ταξινόμησης και η παραγωγή ακολούθως μιας συνδυασμένης εξόδου είναι μια πολύπλοκη διαδικασία διότι εσωτερικά χρησιμοποιείται η ασαφής συλλογιστική. Σε αυτό το πλαίσιο, έπρεπε να επιλεγεί ένας τέτοιος τελεστής συνάθροισης στην κάθε έξοδο που να είναι διαφορίσιμος ώστε να μπορούμε να χρησιμοποιήσουμε τη μέθοδο μεγίστης κλίσης και να μην προσθέτει επιπλέον παραμέτρους που περιπλέκουν ακόμη περισσότερο τα πράγματα. Με βάση αυτές τις απαιτήσεις, το αλγεβρικό γινόμενο αποδείχθηκε το καλύτερο από άποψη απόδοσης, σταθερότητας και οικονομίας στις παραμέτρους. Οπότε και στο τμήμα υπόθεσης και στο τμήμα συμπερασμού επιλέχθηκε το αλγεβρικό γινόμενο, που έχει την επιπλέον ιδιότητα ότι δεν αγνοεί την πληροφορία που αφορά τη διάσταση της εισόδου και παρέχει καλύτερη εκτίμηση της συνδυασμένης πυροδότησης από τις μεταβλητές που περιλαμβάνει. Μολαταύτα, εξαιτίας της αρθρωτής φύσης του MoDFuNC, χρειάστηκε να αντιμετωπίσουμε το εξής πρόβλημα. Η συσσώρευση δραστηριότητας ενός κόμβου-κανόνα με L εισόδους να τον πυροδοτούν δεν μπορεί να συγκριθεί απευθείας με αυτή ενός άλλου κόμβου με L εισόδους, ειδικά όταν το L είναι πολύ μεγαλύτερο ή πολύ μικρότερο του L, γνωρίζοντας ότι κάθε παράγοντας του γινομένου παίρνει τιμές ανάμεσα στο μηδέν και στο ένα. Στην περίπτωσή μας, όπου συγκρίνεται η συνάθροιση δραστηριότητας διαφορετικών δομών δικτύων, αυτό ισχύει και έτσι η τάξη της τιμής του γινομένου μπορεί να διαφέρει 78

79 Κεφ.4 Σύστημα MoDFuNC 4.4 Αναλυτική περιγραφή τόσο που οποιαδήποτε σύγκριση να είναι παράλογη. Επιπλέον, κανονικοποίηση οποιασδήποτε μορφής των πυροδοτήσεων όλων μαζί των κανόνων απορρίπτεται για τον ίδιο ακριβώς λόγο. Έτσι, αναγκαστήκαμε να δράσουμε με έναν απλό και ταυτόχρονα αποτελεσματικό τρόπο, εφαρμόζοντας μια διαδικασία κλιμάκωσης του τελεστή αλγεβρικού γινομένου. Ας θεωρήσουμε το διάνυσμα των αλγεβρικών γινομένων Ζ που δίνουν όλοι οι Q κανόνες ενός δεδομένου συστήματος. Διαιρούμε το Ζ με το μέγιστο στοιχείο του και αποκτούμε έτσι ένα νέο κανονικοποιημένο διάνυσμα Z. Αυτή η κανονικοποίηση δεν επηρεάζει την έξοδο όταν έχουμε ένα μόνο σύστημα. Αν όμως υπάρχει και ένα ακόμη με Q κανόνες και ένα κανονικοποιημένο διάνυσμα Z και Z αντιστοίχως, μπορούμε να συνδυάσουμε τα διανύσματα Z σαν να προέρχονταν από το ίδιο δίκτυο, καθώς και τα δύο κλιμακώθηκαν στη μονάδα. Με άλλα λόγια, συνδυάζουμε τα δύο διανύσματα σε ένα, που για λόγους απλότητας παριστάνουμε ως Z, και υπολογίζουμε την έξοδο σαν να είχαμε μόνο ένα δίκτυο με Q + Q κανόνες. Βέβαια, στη συγκεκριμένη περίπτωση ο LCP κανόνας αντικαθίσταται από τους αντίστοιχους υποκανόνες και έτσι το νέο δυναμικό δίκτυο έχει Q Q1κανόνες. Κατά συνέπεια, η έκφραση για την έξοδο y k του συστήματος παίρνει την ακόλουθη μορφή (που προκύπτει από την (4.4) ): y p k R( p) z j j1 R( p) j1 z j c jk jk jk (4.6) όπου R(p) είναι ο συνολικός αριθμός των κανόνων που επηρεάζουν το αποτέλεσμα για ένα δοθέν δείγμα p, αριθμός που μπορεί να ποικίλει ανάλογα με την υπομονάδα που ενεργοποιεί το συγκεκριμένο δείγμα. Σε μια δεδομένη στιγμή, το R μπορεί είτε να ισούται με τον αριθμό των κύριων κανόνων, δηλ. R = Q, αν η κύρια μονάδα λειτουργεί μόνη της, είτε με το άθροισμα των κύριων και των κατάλληλων δευτερευόντων κανόνων μείον έναν, δηλ. R Q Q1, αν ενεργοποιηθεί μία υπομονάδα και έχει αντικαταστήσει έναν LCP κανόνα. Στην τελευταία περίπτωση, η μέγιστη πυροδότηση ή, με άλλα λόγια η τιμή που κυρίως επηρεάζει το αποτέλεσμα, αναγκάζεται να προέλθει από την υπομονάδα, αφού ο LCP κανόνας απομακρύνεται και η μόνη μεταβλητή με μοναδιαία τιμή ανήκει σε έναν υποκανόνα. 79

80 Κεφ.4 Σύστημα MoDFuNC 4.4 Αναλυτική περιγραφή Συμπερασματικά, καταφέραμε να συνδυάσουμε επιτυχώς τη συσσώρευση δραστηριότητας δύο διαφορετικών συστημάτων γινομένου και ταυτοχρόνως να διευρύνουμε την αξιοπιστία των υποδικτύων όταν ενεργοποιούνται. Βασιζόμενος στην ίδια αρχή, κάποιος ίσως προτιμούσε να υπολογίσει την έξοδο με χρήση μόνο του υποδικτύου, αλλά αυτό αποδείχθηκε ότι παράγει ένα συνολικό δίκτυο με μικρότερες δυνατότητες γενίκευσης. 3. Επιβλεπόμενη μάθηση στο MoDFuNC Η διαδικασία εκμάθησης στην προσέγγισή μας περιλαμβάνει δύο διαδοχικά στάδια. Κατά τη διάρκεια του πρώτου σταδίου, τα δίκτυα του MoDFuNC, δηλαδή το κυρίως δίκτυο και τα υποδίκτυα, εκπαιδεύονται χωριστά, ενώ κατά τη διάρκεια του δεύτερου σταδίου, όλα τα δίκτυα συνδυάζονται στο τελικό μοντέλο και εκπαιδεύεται η παράμετρος expertise, προκειμένου να εξασφαλιστεί ομαλή λειτουργία και συμβατότητα μεταξύ των διάφορων συστατικών του δικτύου. 3.1 Ξεχωριστή εκπαίδευση των δικτύων Δεδομένου ότι θεωρούμε τα εξειδικευμένα υποδίκτυα ως ειδικευμένους ταξινομητές σε μια περιοχή του χώρου εισόδου με υψηλή αβεβαιότητα, εκπαιδεύουμε καθένα χωριστά χρησιμοποιώντας μόνο εκείνα τα δείγματα εκπαίδευσης που ανήκουν στην αντίστοιχη περιοχή του χώρου εισόδου. Τα υπόλοιπα δείγματα, που δεν ανήκουν σε καμία περιοχή χαμηλής αξιοπιστίας, είναι υπεύθυνα για την εκπαίδευση του κυρίως δικτύου. Κάθε δίκτυο εκπαιδεύεται με επιβλεπόμενη εκμάθηση χρησιμοποιώντας τη μέθοδο μεγίστης κλίσης καθόδου. Αυτό υπονοεί την επαναληπτική παρουσίαση ενός συνόλου ζευγών εισόδουεξόδου, που προέρχονται από το σύνολο εκπαίδευσης. Η έξοδος του μοντέλου συγκρίνεται με την επιθυμητή για να προκύψει το σφάλμα, και τα βάρη των δικτύων τροποποιούνται βάσει του κριτηρίου ελαχιστοποίησης του τετραγωνικού σφάλματος. Το τετραγωνικό σφάλμα e(t) κατά την επανάληψη t υπολογίζεται με τον συνήθη τρόπο: 80

81 Κεφ.4 Σύστημα MoDFuNC 4.4 Αναλυτική περιγραφή όπου d k (t) είναι η επιθυμητή έξοδος και y k (t) η αποασαφοποιημένη έξοδος στον κόμβο k που δίνεται από την (4.6). Για ένα μονήρες δίκτυο με ένα σταθερό αριθμό εισόδων και κόμβων-κανόνων, η έκφραση για το y k (t) μπορεί να απλοποιηθεί, καθώς δεν συναθροίζεται με άλλα υποδίκτυα: y ( t) k R( t) z j j1 R( t) j1 z j c jk jk jk R z j j1 R j 1 z j c jk jk jk (4.7) Το σφάλμα υπολογίζεται και για τις Κ εξόδους και αθροίζεται, για ένα συγκεκριμένο δείγμα x(t).οι ελεύθερες παράμετροι του δικτύου, για την ακρίβεια τα κέντρα και η τυπική απόκλιση των προ- και μετα- συναπτικών βαρών, αλλάζουν βάσει επαναληπτικών εξισώσεων με γενική μορφή : (4.8) όπου η είναι ο ρυθμός μάθησης, α η παράμετρος της ορμής και u ( t 1) u( t) u( t 1). Το t είναι ο αύξων αριθμός της ανανέωσης που λέγεται και εποχή (epoch). Μια σημαντική σημείωση είναι ότι, όταν εκπαιδεύουμε το κυρίως δίκτυο, επιτρέπουμε στους κανόνες LCP να συμμετέχουν, ακόμα κι αν δεν τους αντιστοιχεί κανένα δεδομένο. Εντούτοις, δεν ανανεώνουμε τα προσυναπτικά βάρη τους, επειδή οποιαδήποτε προσπάθεια να εκπαιδευτεί πλήρως το κύριο δίκτυο συμπεριλαμβανομένων των κανόνων LCP οδηγεί στη συρρίκνωση των τελευταίων σε μεγάλο βαθμό. Αυτό είναι μια λογική συνέπεια, δεδομένου ότι οι κανόνες HCP κυριαρχούν πάνω στους κανόνες LCP για την πλειοψηφία των δειγμάτων που παρουσιάζονται στο στρώμα εισόδου. Ως εκ τούτου, επιλέγουμε να κρατήσουμε τις περιοχές χαμηλής αξιοπιστίας στατικές και να εκπαιδεύσουμε μόνο τα μετασυναπτικά βάρη των κανόνων LCP κατά τη φάση αυτή της εκπαίδευσης. Για να το αντισταθμίσουμε αυτό, βελτιστοποιούμε την παράμετρο expertise κατά τη διάρκεια της επόμενης φάσης της διαδικασίας εκμάθησης. 81

82 Κεφ.4 Σύστημα MoDFuNC 4.4 Αναλυτική περιγραφή Υπολογισμός των μερικών παραγώγων για την εκπαίδευση Πολύ σημαντική για την εύρεση των μερικών παραγώγων είναι η παραγώγιση αλυσίδας. Όταν ψάχνουμε για παράδειγμα τη μερική παράγωγο του σφάλματος ως προς το κέντρο ενός προσυναπτικού βάρους ( e c w ij ), δεν μπορεί να υπολογιστεί απευθείας διότι τα e και w δεν σχετίζονται άμεσα μέσα από κάποια εξίσωση. Για να την υπολογίσουμε, πρέπει να περάσουμε πρώτα από τους ενδιάμεσους κόμβους, όπως ενδεικτικά δείχνουν τα πορτοκαλί βέλη στο ακόλουθο σχήμα: Εικ.4.11 Λογική της προς-τα-πίσω εύρεσης του σφάλματος με κανόνα αλυσίδας Όμως αυτό δεν είναι τίποτε άλλο από τον κανόνα της αλυσίδας: e w c ij e y 1 y z 1 j z E j ij E w ij c ij.... Τώρα, για τις επιμέρους μερικές παραγώγους υπάρχουν εξισώσεις να υπολογιστούν, αφού πχ για την πρώτη 1 e 2 K k 1 ( d k y k ) 2, για τη δεύτερη y k R z j j1 R j1 j c jk z jk jk κτλ. Από αυτό τον προς τα πίσω υπολογισμό του σφάλματος πήρε και το όνομά της η μέθοδος, η γνωστή Back Propagation ή Οπισθοδιάδοσης Λάθους. 82

83 Κεφ.4 Σύστημα MoDFuNC 4.4 Αναλυτική περιγραφή 83 Θεωρούμε ότι το δοθέν δίκτυο αποτελείται από Ν εισόδους, Κ εξόδους και Q ενδιάμεσους κόμβους-κανόνες. Για τη μερική παράγωγο του σφάλματος ως προς τα κέντρα των μετασυναπτικών βαρών έχουμε (4.9) όπου N i ij z j 1 και E ij είναι ο βαθμός πυροδότησης του j κανόνα από την i είσοδο. Απόδειξη: ) ( ) ( ) ( II z z y I y d e R j jk j R j jk c jk j k K k k k Q q qk q jk j k k c jk ii i Q q qk q jk j II c jk k k k k k k k K k k k I k c jk k k ί ό c jk z z y d e III ii z z y i y d y y d y y d y e III y y e e 1 ) ( ) ( 1 ) ( 2 * 1 2 ) ( ) ( ) ( ) ( ) ( ) ( ) ( 2 1 ) ( 2 1 ) ( *διότι για όλες τις εξόδους η μερική αυτή παράγωγος είναι μηδέν, εκτός από μία, την k - οστή. Η μερική παράγωγος του σφάλματος ως προς την τυπική απόκλιση των μετασυναπτικών βαρών είναι

84 Κεφ.4 Σύστημα MoDFuNC 4.4 Αναλυτική περιγραφή 84 (4.10) Απόδειξη: ) ( ) ( ) ( ) ( ) ( ) ( ) ( Q q qk q j Q q qk c qk q Q q qk q c jk j k k II jk k k k i jk k k jk z z z z z y d y y d y y e e Οι μερικές παράγωγοι ως προς το κέντρο και την τυπ. απόκλιση των προσυναπτικών βαρών απαιτούν εκτεταμένη χρήση του κανόνα παραγώγισης αλυσίδας για την εύρεσή τους και είναι κάπως πιο πολύπλοκες στον υπολογισμό. Συγκεκριμένα, οι δύο αυτές μερικές παράγωγοι είναι (4.11) (4.12) Απόδειξη: c w ij e. Εδώ πρέπει να υπολογιστεί το σφάλμα από όλες τις εξόδους ί ό c ij K K c ij c ij K k c ij k k ό ώ c ij K k k k I c ij w y d w y d w y d w y d w y d w e ) ( ) ( ) ( 2 1 ) ( 2 1 ) ( 2 1 ) ( 2 1

85 Κεφ.4 Σύστημα MoDFuNC 4.4 Αναλυτική περιγραφή 85 (4.13) ) ( ) ( ) ( ) ( c ij ij ij j j K K k k k c ij ij ij j j K K K K c ij ij ij j j c ij ij ij j j w E E z z y y d w E E z z y y y d w E E z z y y y d w E E z z y y y d w ij e. Κατά πανομοιότυπο τρόπο ισούται με ij ij ij j j K K k k k w E E z z y y d 1 ) ( (4.14) Τώρα αρκεί να υπολογιστούν οι επιμέρους μερικές παράγωγοι που εμφανίζονται στις δύο σχέσεις: (4.15) Απόδειξη: D z z y ί R j jk j R j jk c jk j II k ) ( 1 1 ) (

86 Κεφ.4 Σύστημα MoDFuNC 4.4 Αναλυτική περιγραφή y z k j c jk D ώ ά jk N D D jk c jk D N jk D 2 jk c jk jk yk jk D D c jk jk D N jk 2 2 D D ( y ) jk c jk D k ( y ) jk Q q1 c jk z q qk k (4.16) Το E ij ουσιαστικά δηλώνει το βαθμό πυροδότησης της Γκαουσιανής συνάρτησης συμμετοχής του j κανόνα ως προς την i είσοδο. Απόδειξη: z j E ij N E n1 E ij nj N n1 ni E nj E w ij ij Αφού οι είσοδοι είναι αριθμητικές (crisp) τιμές, το Ε δεν είναι παρά η έκφραση της Γκαουσιανής συνάρτησης: ( x i c 2 wij ) 2 ij ) 2( w (4.17) E ij e Συνήθως δεν υπάρχει το δυάρι στον παρονομαστή του εκθετικού, αλλά επειδή αυτή την εκδοχή χρησιμοποιεί το MatLab, πήραμε αυτή. 86

87 Κεφ.4 Σύστημα MoDFuNC 4.4 Αναλυτική περιγραφή Εύρεση: E w (4.17) ij ij e ( x 2 ( c 2 i wij ) 2 wij ) ( x i w c ij ) 2 1 2( wij ) 2 e ( x c 2 i wij ) 2 ij ) 2 ( w ( x i w c ij ) 2 2 2( wij ) 3 ( x i w ( w ) c 2 ij 3 ij ) e ( x 2 ( c 2 i wij ) 2 wij ) (4.18) E ij c ij w Εύρεση: E ij w c ij (4.17) c 2 ( xi w ) c ij ( x ) 2 i wij 2( wij ) ( w ij ) 2 e ( 4.19) Πρέπει να τονιστεί ότι οι μερικές αυτές παράγωγοι υπολογίζονται με μια διαδικασία παρουσίασης όλων των δειγμάτων και το τελικό αποτέλεσμα προκύπτει για κάθε εποχή από το μέσο όρο. Υπολογίζεται δηλαδή η μερική παράγωγος για κάθε δεδομένο αλλά η τελική τιμή της που θα μπει στην εξίσωση ανανέωσης προκύπτει από τη μέση τιμή των μερικών παραγώγων όλων των δειγμάτων. Αυτό το είδος της εκπαίδευσης ονομάζεται Μαζική εκπαίδευση (Batch training) σε αντιδιαστολή με την online εκπαίδευση όπου παρουσιάζονται ένα-ένα τα δείγματα. 3.2 Εκπαιδεύοντας την παράμετρο expertise Μόλις εκπαιδευθούν ανεξάρτητα όλα τα υποδίκτυα, συνδυάζονται στο τελικό μοντέλο και εκτελείται μια τελική διαδικασία batch training με το συνολικό αριθμό των δειγμάτων. Με αυτήν την διαδικασία στοχεύουμε να εκπαιδεύσουμε με ακρίβεια την παράμετρο expertise (στα ελληνικά παράμετρος πείρας), έτσι ώστε το γενικό σύστημα να 87

88 Κεφ.4 Σύστημα MoDFuNC 4.4 Αναλυτική περιγραφή μπορεί να λειτουργήσει κατάλληλα. Εάν αυτή η διαδικασία παραλειφθεί, είναι πολύ πιθανό ότι μερικά ή όλα τα υποδίκτυα δεν θα ενεργοποιηθούν ποτέ. Αυτό συμβαίνει επειδή οι κανόνες HCP αντιστοιχούν συνήθως στα μεγαλύτερα clusters και υποσκελίζουν τους κανόνες LCP σε όλες τις περιπτώσεις. Η εξίσωση ανανέωσης της expertise T κατά την εποχή t παίρνει την ακόλουθη μορφή: (4.20) όπου T j (0) είναι η αρχική τιμή της παραμέτρου όπως δίνεται στην (4.5), ενώ a j (t) είναι το τρέχον ποσοστό της μέγιστης δραστηριότητας για τον κανόνα j, ήτοι (4.21) όπου P j οι φορές, καθώς παρουσιάζονταν τα δεδομένα, που ο κανόνας j είχε τη μέγιστη πυροδότηση εν συγκρίσει με τους υπόλοιπους κύριους κανόνες κατά τη διάρκεια ολοκλήρου της εποχής. Η διαδικασία τρέχει επαναληπτικά ώσπου το T συγκλίνει στην αναμενόμενη τιμή για όλους τους κανόνες. Η σύγκλιση αυτή μπορεί να δειχθεί ως εξής: Tj( t) (4.5) Tj( t) Tj( t 1) ( 4.22) T a t p j p j( t) j(0) j( ) (4.21) 1 P P Το p j P είναι ο αριθμός των δειγμάτων που ανήκουν στο cluster j προς τον αριθμό όλων των δειγμάτων του συνόλου δεδομένων. Από την άλλη, p j ( t) P είναι οι φορές ο κανόνας j είχε τη μέγιστη πυροδότηση προς των αριθμό όλων των δειγμάτων πάλι. Αν αυτά τα δύο κλάσματα ήταν ίσα, δηλαδή αν τα δεδομένα που δημιουργούν τη συνάρτηση συμμετοχής την πυροδοτούσαν πάντα περισσότερο από τις άλλες πέριξ, ο παρονομαστής θα ήταν μονάδα και T ( t 1) T ( t) οπότε η τιμή του Τα θα έμενε αναλλοίωτη. Αυτό όμως δεν j j συμβαίνει πάντα, καθώς πολλές φορές για τους LCP κανόνες ισχύει P p j > p j ( t) P, οπότε ο παρονομαστής της (4.22) είναι μικρότερος της μονάδας και άρα η τιμή του Τ j στην επόμενη εποχή θα είναι μεγαλύτερη από την τρέχουσα για τον j-κανόνα. Αφού το Τ βαρύνει τα firings, αυτό μπορεί να κατανοηθεί σαν αύξηση του βαθμού συμμετοχής του 88

89 Κεφ.4 Σύστημα MoDFuNC 4.4 Αναλυτική περιγραφή δείγματος στη συνάρτηση συμμετοχής του κανόνα, δηλαδή είτε σαν μια εικονική μετακίνηση του δείγματος προς το κέντρο της MF είτε σαν να αυξάνεται το πλάτος της, όπως φαίνεται και στην Εικ Τα αντίθετα ισχύουν για τους υπόλοιπους κανόνες, που το Τ τους αποδυναμώνει με το πέρασμα των εποχών. Κάποια στιγμή, λοιπόν, τόσο οι LCP όσο και οι HCP κανόνες, θα φτάσουν σε ένα οριακό σημείο όπου p j p j ( ) = Pt P, συνεπώς T ( t 1) T ( t) και σε αυτή την τιμή του Τ θα συγκλίνουν, δηλαδή θα πάψουν να j j μεταβάλλονται καθώς αυξάνονται οι εποχές. Εικ.4.12 Τυχαίο σύνολο δεδομένων με μία μόνο μεταβλητή στον x άξονα. Με κόκκινο ο LCP κανόνας 89

90 5 ΠΕΙΡΑΜΑΤΙΚΑ ΑΠΟΤΕΛΕΣΜΑΤΑ Για την αξιολόγηση της μεθόδου χρησιμοποιήσαμε 5 δοκιμαστικά σύνολα δεδομένων (benchmark datasets) από το UCI Repository. Τα datasets αυτά δοκιμάζονται κατά κόρον σε διεθνές επίπεδο και αποτελούν ένα μέτρο σύγκρισης της επίδοσης των διαφόρων ταξινομητών. Επελέγησαν τα πολύ γνωστά Iris Ionosphere Pima Indians Breast Cancer Vehicle Ο πίνακας 5.1 δίνει μια συνοπτική περιγραφή κάθε συνόλου. Όνομα Ποσοστό δεδομ. # Δεδομένων # Χαρακτηριστικών ελέγχου επί του (εκπαίδ. ελέγχ.) συνόλου (%) Κλάσεις Iris 150 (117-33) 22 % 4 3 Ionosphere 351 (264-87) 25 % 34 2 Pima Indians 768 ( ) 25 % 8 2 Breast Cancer 699 ( ) 25 % 9 2 Vehicle 846 ( ) 28 % 18 4 Πίνακας 5.1 Σύνοψη των δοκιμαστικών συνόλων Θα ασχοληθούμε ενδελεχώς με το Iris, κάνοντας παράλληλα μια λεπτομερή επίδειξη της μεθόδου όσον αφορά το δομικό της κομμάτι, αλλά και με το Ionosphere όσον αφορά τη διαδικασία εκπαίδευσής του και τη χρήση των υπομονάδων, γιατί το Iris είχε πολύ λίγα

91 Κεφ.5 Πειραματικά αποτελέσματα 5.1 Iris δείγματα για να βγάλουμε συμπεράσματα σε αυτό τον τομέα. Στα υπόλοιπα datasets θα είμαστε πολύ πιο σύντομοι. Ακολουθούν στο τέλος τα αποτελέσματα συγκεντρωμένα σε πίνακες. 5.1 Iris Περιγραφή Το σύνολο δεδομένων iris αποτελείται από 150 δείγματα τα οποία ανήκουν σε 3 κατηγορίες. Σε κάθε κατηγορία αντιστοιχούν 50 δείγματα. Κάθε κλάση είναι γραμμικώς διαχωρίσιμη από τις άλλες δυο, οι οποίες δεν είναι γραμμικώς διαχωρίσιμες μεταξύ τους, και αναφέρεται σε ένα είδος του φυτού iris, δηλαδή σε ένα από τα Iris Setosa, Iris Versicolor, Iris Virginica. Κάθε δείγμα αποτελείται από 4 αριθμητικά χαρακτηριστικά. Τα Εικ.5.1 Το φυτό IRIS χαρακτηριστικά είναι το μήκος σεπάλου SL (sepal length), το πλάτος σεπάλου SW (sepal width), το μήκος από τα πέταλα PL (petal length) και το αντίστοιχο πλάτος PW (petal width). Όπως φαίνεται και στη διπλανή εικόνα, το σέπαλο προστατεύει το πέταλο του άνθους, βρίσκεται εξωτερικά από αυτό και έχει μεγαλύτερες διαστάσεις. Φάση 1: Προσδιορισμός δομής Χωρίζουμε τα 150 δείγματα σε 22% δεδομένα ελέγχου (testing data) και 78% δεδομένα εκπαίδευσης (training data), δηλαδή έχουμε 117 δείγματα εκπαίδευσης και 33 δείγματα για έλεγχο. Τα δείγματα εκπαίδευσης απεικονίζονται στην Εικ.5.2, με διαφορετικό χρώμα για κάθε κλάση. Αρχικά θέτουμε MST=10 και τρέχουμε τον CART που μας δίνει το δέντρο της Εικ.5.3. Όσο μικρότερο MST τόσο περισσότερα δυνητικά και τα φύλλα του δέντρου, οπότε όταν βλέπουμε ότι το σύστημα δεν ταξινομεί καλά μπορούμε να μειώσουμε λίγο το MST και να κερδίσουμε έτσι σε αναλυτικότητα. Παρατηρούμε ότι ο αλγόριθμος επέλεξε μόνο τις μεταβλητές x 3 και x 4, δηλ. τις Petal Length και Petal width, αντίστοιχα, ως 91

92 Κεφ.5 Πειραματικά αποτελέσματα 5.1 Iris χρήσιμες για το διαμερισμό. Αυτές καλούνται και κύριες μεταβλητές (primary attributes). Το δέντρο έχει 4 φύλλα και άρα διασπά το χώρο εισόδου σε 4 υποπεριοχές (Εικ.5.4). Κατόπιν παίρνουμε τα δείγματα που ανήκουν σε κάθε φύλλο, βρίσκουμε μέση τιμή και τυπική απόκλιση αυτών, και με αυτές τις παραμέτρους κατασκευάζουμε μια Γκαουσιανή συνάρτηση για κάθε φύλλο και για κάθε άξονα, όπως παρουσιάζει η Εικ.5.2. Συγκεκριμένα, φαίνονται οι συναρτήσεις συμμετοχής (MFs) που «κάθονται» πάνω στις υποπεριοχές του CART, με τις μπλε, κόκκινη και μαύρη να αντιστοιχούν στους κύριους κανόνες (γι αυτό και αντιστοιχούν σε αμιγείς ή σχεδόν αμιγείς κλάσεις) ενώ η ροζ αντιστοιχεί στον μοναδικό κανόνα χαμηλής αξιοπιστίας (LCP rule) που περιέχει πέντε δείγματα - 2 versicolor και 3 virginica. PL Εικ.5.2 Σύνολο δεδομένων εκπαίδευσης Iris και οι κανόνες που σχηματίζονται Οι MFs αυτές σχεδιάζονται υπό κλίμακα (κανονικά το μέγιστό τους είναι στη μονάδα) και ένα ζεύγος του ιδίου χρώματος σχηματίζει έναν κανόνα, πχ. IF PL is A 3 AND PW is A 4 THEN y1 1 y2 0 y3 0 [' setosa '] [' versicolor [' virginica '] ' ] 92

93 Κεφ.5 Πειραματικά αποτελέσματα 5.1 Iris Εφόσον ο 4 ος κανόνας είναι LCP θα πρέπει να τον αναλύσουμε περαιτέρω. Έχουμε ορίσει ως κατώφλι σημαντικών δειγμάτων το 2 και κατώφλι για FCM το 10, οπότε τα δύο versicolor φεύγουν και από τα 3 virginica που μένουν σχηματίζουμε μια νέα Γκαουσιανή υπολογίζοντας τη μέση τιμή και την διασπορά τους. Η νέα αυτή MF φαίνεται στην Εικ.5.2 με διακεκομμένη ροζ γραμμή (είναι πιο χαμηλή απλά για λόγους καλύτερης παρουσίασης) και βλέπουμε ότι έχει μετατοπιστεί προς τα δεξιά γιατί δεν υπάρχει πλέον η πόλωση των δύο άλλων δειγμάτων. Τα ίδια ισχύουν και για τον y-άξονα. Εικ.5.3 Το δέντρο απόφασης για το Iris με χρήση του CART Εικ.5.4 Οι υποπεριοχές που δημιουργεί ο CART 93

94 Κεφ.5 Πειραματικά αποτελέσματα 5.1 Iris Παρατηρούμε πως ο CART δημιουργεί μια πιο χονδροειδή διαμέριση του χώρου εισόδου, αφού πχ. όλα τα δείγματα που θα ανήκουν στη γαλάζια περιοχή θα τα ταξινομεί ως setosa, ενώ οι ασαφείς κανόνες είναι πιο ακριβείς. Φάση 2: Εκπαίδευση Έχοντας πλέον αρχικοποιήσει το δίκτυο, ήρθε η ώρα να το εκπαιδεύσουμε. Στην Eικ.5.5 βλέπουμε πώς μετακινούνται τα antecedent parts των κύριων αλλά και του δευτερεύοντος κανόνα στον άξονα χ (το ίδιο συμβαίνει και στον y), για 50 εποχές εκπαίδευσης των κύριων κανόνων και 100 του δευτερεύοντα. Με διακεκομμένη οι MFs μετά από την εκπαίδευση. Παρατηρούμε ότι η εκπαίδευση έχει αφήσει σχεδόν ανέπαφο τον καθαρό κανόνα (μπλε) διότι δεν χρειάστηκε αλλαγές αφού ταξινομεί ορθά, ενώ αύξησε την επικάλυψη των κανόνων 2 και 3 γιατί αυτό βοηθάει στην ορθή ταξινόμηση των δειγμάτων που βρίσκονται στο μέσον (στη ράχη των δύο «βουνών») Εικ.5.5 Εκπαίδευση του τμήματος υπόθεσης Θέλοντας να δούμε ξεκάθαρα πώς λειτουργεί η εκπαίδευση στο τμήμα υπόθεσης, θέσαμε ως τυπική απόκλιση την τετραγωνική ρίζα της αρχικής για κάθε κύριο κανόνα, με αποτέλεσμα να αυξηθούν οι τιμές γιατί ήταν φυσικά μικρότερες της μονάδας. Μ αυτό 94

95 Κεφ.5 Πειραματικά αποτελέσματα 5.1 Iris τον τρόπο το πλάτος των Γκαουσιανών συναρτήσεων συμμετοχής αυξήθηκε και κάθε Γκαουσιανή εκτεινόταν πλέον σχεδόν σε όλο το χώρο εισόδου στον x άξονα (τα ίδια ισχύουν και για τον y), όπως φαίνεται και στην Εικ.5.6. Μετά από 200 εποχές εκπαίδευσης του κυρίως δικτύου απεικονίζονται οι νέες MFs με διακεκομμένη. Είναι ξεκάθαρο ότι η εκπαίδευση στένεψε τις MFs για να ανταποκρίνονται καλύτερα στις περιοχές που κατέχουν, εκτός από την μπλε MF του κανόνα 1, που ταξινομεί αλάνθαστα καθώς ξεχωρίζει πολύ από τις άλλες, οπότε δεν την μετακίνησε. Βλέπουμε ακόμη ότι αυτή η ενέργεια έχει αυξήσει πολύ και το αρχικό σφάλμα (Εικ.5.7, σφάλμα στην εποχή 0), που ξεκινά και πέφτει περίπου από το 18, ενώ αν δεν πειράξουμε τις τυπικές αποκλίσεις εκκινεί γύρω από το 7. Είναι φανερό ότι αυτή η αύξηση στην τυπική απόκλιση των κανόνων μείωσε την ακρίβεια ταξινόμησης του συστήματος. Τα ίδια ισχύουν και για το υποδίκτυο αλλά είναι δύσκολο να τα παρατηρήσουμε λόγω των λίγων δειγμάτων που εμπλέκονται στην εκπαίδευσή του. Εικ.5.6 Πλάτυνση των συναρτήσεων συμμετοχής του τμήματος υπόθεσης του κυρίως δικτύου και ακόλουθο στένεμα από τη διαδικασία της εκπαίδευσης 95

96 Error Κεφ.5 Πειραματικά αποτελέσματα 5.1 Iris 19 X: 1 Y: Main module training epochs Εικ.5.7 Αύξηση του αρχικού σφάλματος κατά την πλάτυνση των συναρτήσεων συμμετοχής του τμήματος υπόθεσης Ακολούθως βλέπουμε τη μετατόπιση που υφίστανται οι Γκαουσιανές συναρτήσεις της εξόδου. Έχουμε 3 εξόδους, μία για κάθε κλάση, που βγάζουν μονάδα στην κλάση που ο ταξινομητής θεωρεί ότι ανήκει η είσοδος και μηδέν στις άλλες. Κάθε έξοδος έχει δύο MFs, μία με κέντρο γύρω στη μονάδα για τους κανόνες που πυροδοτούν αυτή την κλάση και μία μηδενική για τους υπόλοιπους κανόνες. Οι συναρτήσεις αρχικοποιούνται τυχαία με μέση τιμή κοντά στο μηδέν και στο ένα αντίστοιχα και μια μικρή τυχαία τυπική απόκλιση. Ακολούθως φαίνονται οι αρχικές MFs εξόδου για κάθε κλάση και η μεταβολή τους μετά από 50 εποχές. Ειδικά στο τρίτο σχήμα απεικονίζεται η σταδιακή μεταβολή για περισσότερες εποχές. Από τα τρία αυτά σχήματα φαίνεται ότι η εκπαίδευση τείνει να στείλει προς τα άκρα τα κέντρα των συναρτήσεων συμμετοχής. Μετατοπίζει δηλαδή τις συναρτήσεις συμμετοχής της εξόδου προς τη σωστή κατεύθυνση, το μηδέν ή το ένα αντίστοιχα και έτσι πετυχαίνει καλύτερο διαχωρισμό στην έξοδο. 96

97 Κεφ.5 Πειραματικά αποτελέσματα 5.1 Iris Εικ.5.8 Εκπαίδευση του τμήματος συμπερασμού 97

98 Error Κεφ.5 Πειραματικά αποτελέσματα 5.1 Iris Η εικόνα που ακολουθεί δείχνει πώς το σφάλμα μειώνεται κατά την εκπαίδευση του κυρίως δικτύου. Παρατηρούμε ότι γύρω στις 300 εποχές η μείωση του σφάλματος επιβραδύνεται και αυτό σχεδόν οριζοντιοποιείται. Αν τώρα επιχειρήσουμε να εκπαιδεύσουμε το υποδίκτυο θα δούμε το σφάλμα του να αυξάνεται, κάτι που δείχνει ότι έχει υπερεκπαιδευτεί. Τίθεται λοιπόν το ερώτημα πώς συμβαίνει αυτό, από τη στιγμή που δεν το έχουμε εκπαιδεύσει καθόλου. Η απάντηση είναι ότι η εκπαίδευση του κυρίως δικτύου επηρεάζει το υποδίκτυο και αντίστροφα, αφού έχουν κοινές τις συναρτήσεις συμμετοχής της εξόδου. Οι 300 εποχές εκπαίδευσης είναι τόσο πολλές που οδήγησαν σε υπερεκπαίδευση και το υποδίκτυο. Αν εκπαιδεύσουμε μόνο το υποδίκτυο κι όχι το κύριο, παρατηρούμε ότι το σφάλμα φθίνει συνεχώς, με μικρό όμως ρυθμό. Αναρωτώμενοι πού σταματά, εκπαιδεύσαμε το υποδίκτυο έως ότου αυτό συνέβη στις 950 περίπου εποχές, ενώ μετά το σφάλμα άρχισε να αυξάνεται. 7 Main Module Training epochs Εικ.5.9 Μείωση σφάλματος του κυρίως δικτύου 98

99 Error Error Error Κεφ.5 Πειραματικά αποτελέσματα 5.1 Iris 1.46 Secondary Module Training epochs (α) (β) Secondary Module Training Epochs Secondary Module Training Epochs epochs (γ) Εικ.5.10 Μείωση σφάλματος του υποδικτύου epochs (δ) Αξίζει να σημειώσουμε ότι αν εκπαιδεύσουμε το υποδίκτυο μετά από 30 μόνο εποχές εκπαίδευσης του κυρίως δικτύου, το σφάλμα του πέφτει πιο ομαλά και ελαχιστοποιείται σε λιγότερες εποχές, όπως χαρακτηριστικά φαίνεται στην Εικ

100 Κεφ.5 Πειραματικά αποτελέσματα 5.1 Iris Secondary Module training after Main Module Training Εικ.5.11 Μείωση σφάλματος υποδικτύου κατόπιν σύντομης εκπαίδευσης του κυρίως δικτύου Όσον αφορά την έννοια της υπερεκπαίδευσης, εδώ τη χρησιμοποιούμε ως τις συνθήκες που οδηγούν στην αύξηση του σφάλματος εκπαίδευσης και όχι σφάλματος ελέγχου. Και αυτό γιατί η υπέρμετρη εκπαίδευση μπορεί να οδηγήσει σε αύξηση του σφάλματος εκπαίδευσης, όπως δείχνει η Εικ.5.10 (δ). Βέβαια, αυτή η αύξηση είναι πολύ μικρή και παρατηρείται μόνο στο υποδίκτυο επειδή εκπαιδεύεται με λίγα δείγματα, ενώ στο κύριο δίκτυο το σφάλμα μειώνεται συνεχώς, έστω και ελάχιστα. Παρατηρείται, ακόμη, ότι η εκπαίδευση του υποδικτύου αυξάνει ξανά το σφάλμα του κυρίως δικτύου και το αντίστροφο. Για παράδειγμα, σε μία εκτέλεση το σφάλμα στο κύριο δίκτυο από 4,4 βρέθηκε στο 4,65 επειδή μεσολάβησε η εκπαίδευση του υποδικτύου. Αυτό οφείλεται στην αλλαγή των παραμέτρων των MFs συμπερασμού, οι οποίες είναι κοινές για όλα τα δίκτυα και το καθένα τις προσαρμόζει στα δικά του δείγματα. 100

101 Κεφ.5 Πειραματικά αποτελέσματα 5.1 Iris Εικ.5.12 Δεδομένα ελέγχου Τέλος, εφαρμόζουμε και το τελικό Batch Training για την παράμετρο Τ. Έχοντας πλέον τελειώσει και με την εκπαίδευση, εισάγουμε τα δεδομένα ελέγχου (Εικ.5.12), οπότε και πήραμε ακρίβεια ταξινόμησης Train data Test data Μόνο CART 97,44 96,97 Πλήρες σύστημα 96,58 96,97 Πίνακας 5.2 Ταξινομική ακρίβεια για το Iris Τα αποτελέσματα αυτά τα πήραμε μετά από 50 εποχές εκπαίδευσης του κυρίως δικτύου και 100 του υποδικτύου. Κατά τις πολυάριθμες δοκιμές καταλήξαμε στο συμπέρασμα ότι για να γενικεύει το κύριο δίκτυο καλά χρειάζονται περίπου τόσες εποχές, ενώ για το υποδίκτυο η εκπαίδευση σταματά όταν το σφάλμα του τείνει να οριζοντιοποιηθεί, γιατί αν τη συνεχίσουμε το σφάλμα θα αρχίσει να αυξάνει. Για το κυρίως δίκτυο δεν υπάρχει τέτοιος κίνδυνος, εδώ ο κίνδυνος είναι η υπερεκπαίδευση που οδηγεί σε λανθασμένη ταξινόμηση τα δείγματα ελέγχου. Το γεγονός ότι η ακρίβεια για τα δεδομένα ελέγχου είναι μεγαλύτερη από αυτή των δεδομένων εκπαίδευσης είναι επιθυμητό, γιατί τα testing data είναι το πραγματικό μέτρο του σφάλματος και δείχνει ότι το δίκτυο γενικεύει καλά. 101

102 Κεφ.5 Πειραματικά αποτελέσματα 5.2 Ionosphere Βλέπουμε ότι ήδη ο CART κάνει καλή ταξινόμηση, εφάμιλλη του συστήματός μας, αυτό όμως συμβαίνει επειδή βολεύει αυτό το σύνολο δεδομένων. Διαφορετικά ο CART είναι υποδεέστερος. Παρατηρούμε ακόμη ότι μετά την εκπαίδευση της Τ μειώνεται κατά πολύ η ποσοστιαία ενεργοποίηση των υποδικτύων, όπως φαίνεται στους συγκεντρωτικούς πίνακες, πλην όμως σε γενικές γραμμές και το σφάλμα μειώνεται, τόσο στην εκπαίδευση όσο και στον έλεγχο. Γενικά τα τμήματα υπόθεσης των υποδικτύων είναι τοποθετημένα σε μη καθαρές περιοχές και η μερική αναστολή της ενεργοποίησής τους βελτιώνει την απόδοση. 5.2 Ionosphere Περιγραφή Το σύνολο δεδομένων περιλαμβάνει 351 δείγματα τα οποία ανήκουν σε 2 κατηγορίες. Στην πρώτη ανήκουν 225 δείγματα ενώ στη δεύτερη 126 δείγματα. Το κάθε δείγμα αποτελείται από 34 χαρακτηριστικά. Τα δεδομένα αυτά συλλέχθηκαν με ραντάρ από σύστημα που εξέπεμπε ηλεκτρομαγνητικά κύματα προς την ιονόσφαιρα. Οι στόχοι ήταν ελεύθερα ηλεκτρόνια στην ιονόσφαιρα. Οι «καλές» επιστροφές ραντάρ είναι εκείνες που παρουσιάζουν στοιχεία κάποιου τύπου δομής στην ιονόσφαιρα, ενώ οι «κακές» επιστροφές είναι εκείνες που δεν παρουσιάζουν. Το πείραμα δηλαδή αναζητά την ύπαρξη κάποιου τύπου μορφής στην ιονόσφαιρα. Έχουμε κατά συνέπεια ένα δυαδικό πρόβλημα ταξινόμησης με δύο κλάσεις, good (g) και bad (b). Εκπαίδευση Κατά τη φάση της εκπαίδευσης διαπιστώσαμε ότι την εκπαίδευση του κυρίως δικτύου έπρεπε να τη σταματήσουμε σχετικά νωρίς, πριν οριζοντιοποιηθεί το σφάλμα, γιατί από κάποιο σημείο και έπειτα το σύστημα δεν γενίκευε καλά, ενώ τα υποδίκτυα βελτίωναν συνεχώς την ακρίβεια καθώς εκπαιδεύονταν και η εκπαίδευσή τους σταμάτησε μετά από πολλές εποχές, μόλις το σφάλμα άρχισε να αυξάνεται αντί να μειώνεται. Βλέπουμε δηλαδή ότι το κυρίως δίκτυο κρατάει το «βάρος» της συμπεριφοράς του συστήματος, κάτι λογικό αφού σε αυτό εμπίπτουν τα περισσότερα δείγματα. Τα δύο 102

103 Κεφ.5 Πειραματικά αποτελέσματα 5.2 Ionosphere υποδίκτυα (ή αλλιώς υπομονάδες) που δημιουργήθηκαν ενεργοποιούνται σπανίως αλλά η εκπαίδευσή τους παραδόξως βελτιώνει πολύ την επίδοση του ολικού δικτύου. Αυτό συμβαίνει διότι η εκπαίδευση των υποδικτύων επηρεάζει τις Γκαουσιανές MFs της εξόδου, οι οποίες είναι κοινές για όλα τα εμπλεκόμενα δίκτυα. Υπό αυτή την έννοια, τα υποδίκτυα στο συγκεκριμένο παράδειγμα χρησιμεύουν περισσότερο όταν εκπαιδεύονται παρά όταν ενεργοποιούνται κατά τη φάση του ελέγχου. Όσον αφορά την εκπαίδευση του Τ, η μορφή της εξίσωσης ανανέωσής του είναι τέτοια που πριμοδοτεί κάποιους κανόνες σε βάρος άλλων αλλά οι πρώτοι δεν είναι απαραιτήτως χαμηλής αξιοπιστίας (LCP). Γενικά το Τ έτσι όπως εκπαιδεύεται δεν είναι εύρωστο, δηλαδή αν ο παρονομαστής στην (4.20) είναι λίγο μεγαλύτερος της μονάδας το Τ θα μειώνεται ενώ αν είναι λίγο μικρότερος θα αυξάνεται και υπάρχει περίπτωση αυτό να συνεχιστεί μέχρι τη σύγκλιση. Όμως θα έπρεπε η αντιμετώπιση αυτών των δύο περιπτώσεων να είναι περίπου η ίδια. Έτσι, σε αυτό τουλάχιστον το σύνολο δεδομένων, η εκπαίδευση του Τ μείωσε την ενεργοποίηση των υπομονάδων, αλλά όχι την ακρίβεια ελέγχου. Κάτι τελευταίο που αξίζει να επισημανθεί είναι ότι υπάρχει περίπτωση, όπως φαίνεται και στην Εικ.5.14, το σφάλμα του ενός υποδικτύου μετά το πέρας πολλών εποχών να αρχίσει να πέφτει ενώ του άλλου να ανεβαίνει. Αυτό μπορεί να συμβεί αφού τα δύο δίκτυα είναι ανεξάρτητα και εκπαιδεύονται με το δικό τους σύνολο δειγμάτων έκαστο. Σε αυτή τη φάση σταματήσαμε την εκπαίδευση και των δύο, αλλά κάποιος θα μπορούσε να προσπαθήσει να μειώσει και άλλο το σφάλμα στο δεύτερο υποδίκτυο. Επίσης, αυτό συμβαίνει κυρίως όταν εκπαιδεύουμε τα υποδίκτυα μετά το κύριο δίκτυο και οφείλεται στην υπερεκπαίδευση, γιατί κατά τη εκπαίδευση του κυρίως δικτύου εκπαιδεύονται και τα υποδίκτυα και αντίστροφα, αφού όπως προαναφέρθηκε το τμήμα συμπερασμού είναι κοινό για όλα. Αντιθέτως, αν εκπαιδεύσουμε πρώτα τα υποδίκτυα, το σφάλμα τους πέφτει και μάλιστα πιο ομαλά. Και εδώ αν εκπαιδεύσουμε πρώτα το κυρίως δίκτυο και ύστερα τα υποδίκτυα θα δούμε ότι το σφάλμα του πρώτου έχει αυξηθεί. 103

104 Error Κεφ.5 Πειραματικά αποτελέσματα 5.2 Ionosphere 35 Ionosphere Main Module training epochs Εικ.5.13 Μείωση σφάλματος του κυρίως δικτύου Σφάλμα υποδικτύων ως προς τις εποχές submodule 1 submodule submodule 2 submodule Εικ.5.14 Εκπαίδευση υποδικτύων μετά το κυρίως δίκτυο Εικ.5.15 Εκπαιδεύοντας πρώτα τα υποδίκτυα 104

105 Κεφ.5 Πειραματικά αποτελέσματα 5.3 Pima Indians 5.3 Pima Indians Περιγραφή Το συγκεκριμένο σύνολο δεδομένων αποτελείται από 768 πρότυπα, με 8 χαρακτηριστικά εισόδου το καθένα, τα οποία κατατάσσονται σε 2 κατηγορίες. Στην πρώτη κατηγορία περιέχονται 500 πρότυπα, ενώ η δεύτερη αποτελείται από 268 πρότυπα. Το κάθε δείγμα αφορά διάφορα χαρακτηριστικά ιατρικού ενδιαφέροντος (αριθμός κυήσεων, πίεση, επίπεδα γλυκόζης, δείκτης μάζας σώματος, ηλικία κ.ά.) που παρουσιάζουν γυναίκες έως 21 ετών κοινής καταγωγής από τους Ινδιάνους Pima και η κατηγοριοποίηση κατατάσσει κάθε υποκείμενο ανάλογα με το αν έχει διαβήτη ή όχι. Πρόθεση είναι να φανεί η εξάρτηση του διαβήτη από τις μεταβλητές εισόδου. Εκπαίδευση Κατά την εκπαίδευση των υποδικτύων διαπιστώσαμε πως με η=0,005 κάποια υποδίκτυα μείωσαν το σφάλμα εκπαίδευσης ενώ κάποια άλλα το αύξησαν, ενώ όλα είχαν περίπου τον ίδιο αριθμό δειγμάτων εκπαίδευσης (τα οποία χρησιμοποιήθηκαν και για το σχηματισμό των υποδικτύων). Γι αυτό και επιλέξαμε τελικά η=0,001 και με αυτή την τιμή όλα τα υποδίκτυα έριξαν το σφάλμα τους. Από αυτό φαίνεται ότι κάθε υποδίκτυο έχει τις δικές του ιδιαιτερότητες και ο κατάλληλος ρυθμός μάθησης δεν εξαρτάται μόνο από το πλήθος των δειγμάτων εκπαίδευσης. Επειδή αυτό το σύνολο περιείχε πολλά δεδομένα, δοκιμάσαμε ο FCM να δημιουργεί 4 subclusters ανά κλάση αντί για 2 στα μικρότερα δοκιμαστικά σύνολα. Το αποτέλεσμα ήταν να πετύχουμε περίπου 0,5% καλύτερη ακρίβεια ταξινόμησης αλλά αυτό δεν είναι ασφαλές συμπέρασμα γιατί εμπίπτει στη στατιστική διακύμανση, αφού σε κάθε εκτέλεση του πειράματος χωρίζουμε τα δεδομένα σε δύο τυχαία σύνολα. Γενικά παρατηρήσαμε ότι ήδη τα δύο subclusters δίνουν μια καλή αναλυτικότητα στο χωρισμό του χώρου εισόδου και τα επιπλέον δεν προσδίδουν εμφανή οφέλη. Τέλος, αν και δεν ασχολούμαστε με την ερμηνεία των αποτελεσμάτων που δίνει η ταξινόμηση παρά μόνο με την προσπάθεια για ορθή ταξινόμηση, βλέπουμε ότι ο CART χρησιμοποιεί όλα τα χαρακτηριστικά εισόδου για την κατασκευή του δέντρου, κάτι που σημαίνει πως σωστά επελέγησαν προς μελέτη αυτά τα συγκεκριμένα χαρακτηριστικά από τους ερευνητές, αφού όλα καθορίζουν το αν ένα άτομο θα εμφανίσει διαβήτη ή όχι. 105

106 Κεφ.5 Πειραματικά αποτελέσματα 5.4 Breast Cancer Βλέπουμε, ακόμη, ότι ένας γιατρός μπορεί να δώσει στον ταξινομητή τα δεδομένα ενός ασθενούς (πίεση, ηλικία κτλ) και να δει κατευθείαν στην έξοδο αν ο ασθενής είναι σε ομάδα υψηλού κινδύνου εμφάνισης διαβήτη χωρίς να εξετάζει μία προς μία τις τιμές της πίεσης, της γλυκόζης, της ηλικίας κτλ. γιατί πολύ απλά είναι αδύνατον να βρει τη σχέση που συνδέει όλα αυτά με την εμφάνιση διαβήτη. Ο ταξινομητής υλοποιεί αυτή τη σχέση (συνάρτηση) και βοηθά την ιατρική πρόβλεψη. Αν υπήρχε ένας σχεδόν άριστος ταξινομητής που να έκανε αυτή τη δουλειά θα καθιερωνόταν ως διαγνωστική μέθοδος και θα έσωζε πολλούς υποψήφιους διαβητικούς. Για να γίνει αυτό χρειάζεται αφενός η σωστή αρχιτεκτονική προς αυτή την κατεύθυνση κινείται και η εργασία μας αλλά και πολύ περισσότερα δείγματα για να εκπαιδευτεί ώστε να δίνει αξιόπιστα αποτελέσματα σε βαθμό τέτοιο που απαιτεί η διαχείριση της ανθρώπινης ζωής. 5.4 Wisconsin Breast Cancer Περιγραφή Το σύνολο δεδομένων αποτελείται από 699 δείγματα με 9 χαρακτηριστικά εισόδου το καθένα, που περιγράφουν τη φυσιολογία των κυττάρων, βάσει των οποίων τα δείγματα κατατάσσονται σε 2 κατηγορίες. Στην πρώτη κατηγορία αντιστοιχούν 458 δείγματα ενώ στη δεύτερη 241 δείγματα. Το κάθε δείγμα αφορά τα χαρακτηριστικά του όγκου που παρουσιάζει μία ασθενής και η κατηγοριοποίηση κατατάσσει αυτό τον όγκο σε καλοήθη ή κακοήθη αντίστοιχα. Εκπαίδευση Σε αυτό το σύνολο παρατηρούμε ότι η χρήση των υποδικτύων έριξε οριακά την ακρίβεια ταξινόμησης (Πίνακας 5.4), ωστόσο αυτό εξαρτάται από τα δεδομένα ελέγχου, που είναι ένα τυχαίο υποσύνολο όλων των δειγμάτων. 106

107 Κεφ.5 Πειραματικά αποτελέσματα 5.5 Vehicle 5.5 Vehicle Περιγραφή Το σύνολο Vehicle προέρχεται από το ινστιτούτο Turing της Γλασκώβης και περιλαμβάνει 846 σιλουέτες οχημάτων υπό διάφορες γωνίες, οι οποίες χωρίζονται σε 4 κατηγορίες: OPEL, SAAB, BUS, VAN. Η κάθε σιλουέτα περιγράφεται από 18 χαρακτηριστικά. Σκοπός είναι να ταξινομηθεί μια δεδομένη σιλουέτα σε έναν από τέσσερις τύπους οχημάτων, χρησιμοποιώντας το σύνολο χαρακτηριστικών που εξάγονται από αυτή. Εκπαίδευση Το Vehicle είναι το πιο απαιτητικό σύνολο διότι περιέχει πολλά χαρακτηριστικά και τέσσερις κλάσεις. Επιπλέον, η εκπαίδευσή του είναι χρονοβόρα. Η χρήση των υποδικτύων βελτίωσε ελαφρά την απόδοση και έτσι φάνηκε ότι τα υποδίκτυα αυξάνουν την ακρίβεια ταξινόμησης ιδίως στα μεγάλα σύνολα δεδομένων, κάτι λογικό γιατί σε αυτά θα βρεθούν αρκετά δείγματα για να ενεργοποιήσουν τους υποκανόνες. Οπότε και η εκπαίδευση του Τ, που συνήθως περιορίζει την πυροδότηση των υποδικτύων, ήταν πιο περιορισμένη σε σχέση με τα υπόλοιπα σύνολα δεδομένων. Επίσης παρατηρήσαμε ότι τα υποδίκτυα με λίγα δείγματα είναι πιο επιρρεπή στο να αυξάνουν το σφάλμα σε σχέση με τα υπόλοιπα, κρατώντας σε όλα κοινό το ρυθμό μάθησης. 107

108 Κεφ.5 Πειραματικά αποτελέσματα 5.6 Πίνακες αποτελεσμάτων 5.6 Συγκεντρωτικοί πίνακες αποτελεσμάτων Σύνολο δεδομένων Μεταβλητές εισόδου κύριες-(όλες) Κύριοι κανόνες HCP Δευτερεύοντες κανόνες LCP MST Κατώφλι του Cf Ακρίβεια εκπαίδευσης (%) Ακρίβεια ελέγχου (%) Ενεργοποίηση υπομονάδων στα δεδομένα ελέγχου (%) Iris 2 (4) ,51 96,58 96,97 3,03 Ionosphere 8 (34) ,51 92,42 93,10 3,44 Pima Indians 8 (8) ,29 80,20 23,43 Breast Cancer 5 (9) ,71 96,19 97,70 5,74 Vehicle 17 (18) ,51 72,13 67,37 30,93 Πίνακας 5.3 Πειραματικά αποτελέσματα Σύνολο δεδομένων Πλήθος κανόνων CART MoDFuNC (υποδίκτυα OFF) MoDFuNC (υποδίκτυα ON) Iris 4 96,97 93,93 96,97 Ionosphere 9 88, ,10 Pima Indians 22 74,48 78,64 80,20 Breast Cancer 7 97,13 98,27 97,70 Vehicle 39 66,95 66,10 67,37 Πίνακας 5.4 Σύγκριση της ακρίβειας ελέγχου (%) σε σχέση με τα επιμέρους τμήματα Σύνολο δεδομένων ρυθμός μάθησης n (κύριο δίκτυο) ρυθμός μάθησης n (υποδίκτυα) παράμετρος ορμής a Iris 0,01 0,001 0,001 Ionosphere 0,01 0,01 0,001 Pima Indians 0,01 0,001 0,001 Breast Cancer 0,01 0,001 0,001 Vehicle 0,01 0,001 0,001 Πίνακας 5.5 Παράμετροι εκπαίδευσης 108

109 Κεφ.5 Πειραματικά αποτελέσματα 5.7 Αξιολόγηση της μεθόδου 5.7 Αξιολόγηση της μεθόδου Η μέθοδος παρέχει μια δυναμική και ευέλικτη ανάθεση των πόρων του συστήματος. Έτσι, η ιδέα των υπομονάδων αυξάνει την ακρίβεια στις περιοχές του χώρου εισόδου που τη χρειαζόμαστε και μειώνει το υπολογιστικό κόστος. Πετυχαίνει εφάμιλλη ή καλύτερη ταξινόμηση σε σχέση με άλλα συστήματα, όπως τον «πατέρα» του το SuPFuNIS, αλλά σε μικρότερο χρόνο και εμφανίζει καλύτερη επίδοση από το γονικό του δέντρο. Η χρήση όλων των διαθέσιμων χαρακτηριστικών στα υποδίκτυα βελτιώνει την ακρίβεια της μεθόδου αλλά δεν δημιουργεί μεγάλο επιπλέον υπολογιστικό κόστος. Αυτό γίνεται ιδιαίτερα σημαντικό στα προβλήματα με πολλά χαρακτηριστικά διότι τα υποδίκτυα ενεργοποιούνται μόνο στα δείγματα εκείνα που εμπίπτουν στις αντίστοιχες περιοχές χαμηλής ακριβείας, που είναι λίγα εν σχέσει με τα υπόλοιπα. Συγκεκριμένα, η χρήση των υποδικτύων, δηλαδή το ποσοστό του χρόνου που καταναλώνονταν οι μέγιστοι δυνατοί πόροι, είναι κάτω του 35% για όλα τα πειράματα, που σημαίνει πως πάνω από το 65 % του χρόνου λειτουργίας το σύστημα λειτουργεί με το ελάχιστο υπολογιστικό κόστος. Ακόμη, η δομή του επιτρέπει τη γρήγορη εκπαίδευσή του. Η χρήση του CART αρχικοποιεί πολύ καλά τους κανόνες και έπειτα η εκπαίδευση τους ρυθμίζει όσο χρειάζεται. Μ αυτό τον τρόπο δημιουργούμε ένα εύρωστο δίκτυο που δεν χρειάζεται πολλή εκπαίδευση. Γενικά η εκπαίδευση του κυρίως δικτύου, που είναι και η πιο χρονοβόρα, ήταν εποχές για τα περισσότερα σύνολα δεδομένων. Φάνηκε ακόμη ότι η χρήση των υποδικτύων επιταχύνει την εκπαίδευση και αυτό απεδείχθη πιο σημαντικό από την πρόσθετη αναλυτικότητα που προσδίδουν στο σύστημα. Από τα παραπάνω συνάγεται το συμπέρασμα ότι το σύστημα τόσο κατά τη φάση της εκπαίδευσής του όσο και κατά τη λειτουργία του είναι γρήγορο σε σχέση με την ακρίβεια ταξινόμησης που επιτυγχάνει. Όσον αφορά την εκπαίδευση, είναι καλύτερα να εκπαιδεύουμε με μικρό ρυθμό μάθησης και για περισσότερες εποχές παρά να αυξάνουμε το ρυθμό για να επιταχύνουμε την εκπαίδευση, γιατί ο μεγάλος ρυθμός μάθησης μπορεί να προκαλέσει ταλαντώσεις στο σφάλμα των υποδικτύων και να μειώσει τις δυνατότητες γενίκευσης του κυρίως δικτύου. Η εκπαίδευση του Τ μείωσε την πυροδότηση των υποδικτύων και έτσι ουσιαστικά κατάφερε το αντίθετο από αυτό που επεδίωκε, χωρίς ωστόσο αυτό να οδηγεί γενικά σε μείωση της ακρίβειας. Σε κάποιες περιπτώσεις η σύγκλιση του Τ αργεί πολύ και εκτός 109

110 Κεφ.5 Πειραματικά αποτελέσματα 5.7 Αξιολόγηση της μεθόδου αυτού πριμοδοτεί υπέρμετρα κάποιους κανόνες, γι αυτό και η εκπαίδευση της παραμέτρου αυτής πρέπει να γίνεται με φειδώ. Ένα άλλο αρνητικό στοιχείο είναι ότι ο CART δημιουργεί συχνά φύλλα με ελάχιστα δείγματα που οδηγούν σε υποδίκτυα χαμηλού πληροφοριακού περιεχομένου, ενώ από την άλλη αν δημιουργήσουμε πιο μικρό υποδένδρο χάνουμε σε αναλυτικότητα και αποχαιρετούμε το σημαντικό πλεονέκτημα της καλής αρχικοποίησης. Όσον αφορά την υλοποίηση του συστήματος σε hardware, η αρθρωτή δομή του επιτρέπει την επιλεκτική χρήση των πόρων του ανάλογα με την εφαρμογή και τις δυνατότητες του υπολογιστή. Αν για παράδειγμα ο υπολογιστής είναι αδύναμος μπορούμε να απενεργοποιήσουμε τελείως τα υποδίκτυα. Ένα άλλο πλεονέκτημα είναι ότι η εκπαίδευση του συστήματος έχει και αυτή αρθρωτή δομή, αφού μπορούμε να εκπαιδεύσουμε ανεξάρτητα τα υποδίκτυα και το κυρίως δίκτυο. Αυτό μπορεί να βοηθήσει στην παραλληλοποίηση της εκπαίδευσης ή στην επιλεκτική εκπαίδευση ορισμένων μόνο δικτύων. 110

111 Κεφ.5 Πειραματικά αποτελέσματα 5.8 Μελλοντικές επεκτάσεις 5.8 Μελλοντικές επεκτάσεις Στις μελλοντικές επεκτάσεις της παρούσας υλοποίησης θα μπορούσαν να περικλείονται βελτιστοποιήσεις όπως αποδοτικότεροι αλγόριθμοι εκπαίδευσης (π.χ. Levenberg-Marquardt), καθώς και μια ενδελεχής μελέτη του FCM. Όσον αφορά το τελευταίο, το πρόγραμμα θα μπορούσε να ελέγχει τη διασπορά στο σύνολο των δεδομένων πάνω στα οποία πρόκειται να κάνει FCM και αν είναι μικρή να μην κάνει. Θα μπορούσε ακόμη να ελέγχει και τη θέση των υπολοίπων κλάσεων εντός του συνόλου και αν διαπιστώνει ότι για παράδειγμα η μία βρίσκεται μέσα στην άλλη, να αυξάνει τον αριθμό των subclusters. Ακόμη, μπορούμε να χρησιμοποιήσουμε διαφορετικό ρυθμό μάθησης σε κάθε υποδίκτυο κι αυτό γιατί σε κάποιες περιπτώσεις ο ρυθμός μάθησης ήταν ικανοποιητικός για ένα υποδίκτυο αλλά ανέβαζε το σφάλμα κάποιου άλλου. Μια άλλη ενδιαφέρουσα ιδέα είναι να δημιουργηθούν κύριοι κανόνες που χρησιμοποιούν μόνο τις μεταβλητές διακλάδωσης που οδηγούν στα αντίστοιχα φύλλα του δέντρου και όχι όλες τις κύριες μεταβλητές που επιλέγει ο CART. Το ερώτημα εδώ είναι κατά πόσον η μείωση της ακρίβειας αντισταθμίζεται από το μικρότερο υπολογιστικό κόστος. Χρήσιμο επίσης είναι να σταματά η εκπαίδευση μόλις το σφάλμα ελέγχου αρχίζει να αυξάνεται ή μετά από λίγο, ώστε να διακόπτεται η εκπαίδευση στο κατάλληλο σημείο και να πετυχαίνουμε καλή γενίκευση. Τέλος, θα μπορούσαμε να αυτοματοποιήσουμε τη διαδικασία επιλογής του κριτηρίου εμπιστοσύνης, κάτι που αναφέρουμε και στην περιγραφή της μεθόδου, επιλέγοντας μια τιμή λίγο κάτω από το μέσο όρο της τιμής εμπιστοσύνης όλων των φύλλων του δέντρου ως το κατάλληλο κατώφλι. Σε κάθε περίπτωση, όμως, οι επεκτάσεις που μπορούν να γίνουν πρέπει να λαμβάνουν πάντα υπ όψιν τη διατήρηση του βασικού πλεονεκτήματος της αρθρωτής δομής και της ταχείας εκπαίδευσης. 111

112 Κεφ.5 Πειραματικά αποτελέσματα 5.9 Επίλογος 5.9 Επίλογος Το νευροασαφές σύστημα MoDFuNC απεδείχθη ένας πολύ καλός ταξινομητής που χρησιμοποιεί δυναμικά τους πόρους του για να συνδυάσει ακρίβεια και ταχύτητα. Η αρθρωτή δομή του μειώνει το υπολογιστικό κόστος, ενώ η φιλοσοφία του που πρεσβεύει «χρήση της πληροφορίας μόνο εκεί όπου χρειάζεται» είναι ιδανική για τα σύγχρονα προβλήματα με τον τεράστιο όγκο δεδομένων σε πολλά επιστημονικά πεδία, όπως αυτά των Βάσεων Δεδομένων, της Βιοπληροφορικής και της Ψηφιακής επεξεργασίας εικόνας. 112

113 ΠΑΡΑΡΤΗΜΑ I CART Ι.1 ΕΙΣΑΓΩΓΗ Ο αλγόριθμος CART (Classification And Regression Trees Algorithm) εισάγει μια γρήγορη και ισχυρή μέθοδο για την επίλυση του προβλήματος της αναγνώρισης συστήματος, που στην ασαφή μοντελοποίηση περιλαμβάνει τα εξής ζητήματα: επιλογή μόνο των μεταβλητών εισόδου που παρέχουν πληροφορία τη δημιουργία μιας αρχικής αρχιτεκτονικής που περιέχει 1. διαχωρισμό του χώρου εισόδου 2. τον αριθμό των συναρτήσεων συμμετοχής για κάθε είσοδο 3. τον αριθμό των ασαφών κανόνων 4. τα τμήματα υπόθεσης (premise ή antecedent parts) 5. τα τμήματα συμπερασμού (consequent ή conclusion parts) την επιλογή των παραμέτρων αρχικοποίησης των συναρτήσεων συμμετοχής Συγκεκριμένα, κατασκευάζει έναν δενδροειδή διαμερισμό του χώρου εισόδου που απαλείφει το πρόβλημα της «κατάρας των διαστάσεων», ότι δηλαδή ο αριθμός των κανόνων αυξάνει εκθετικά με τον αριθμό των εισόδων, πρόβλημα που ενυπάρχει στο διαχωρισμό πλέγματος (grid partitioning). Ι.2 ΔΕΝΔΡΑ ΑΠΟΦΑΣΗΣ Ένα δέντρο απόφασης χωρίζει το χώρο εισόδου (επίσης γνωστό ως χώρο των χαρακτηριστικών) ενός dataset σε αμοιβαίως αποκλειόμενες περιοχές, σε κάθε μια από τις οποίες αντιστοιχίζει μια ετικέτα ή μια τιμή. Ο μηχανισμός είναι ευδιάκριτος διότι μπορούμε να ακολουθήσουμε μια δενδρική δομή εύκολα και να εξηγήσουμε πώς παίρνεται μιαν απόφαση. Γι αυτό και η μέθοδος δέντρων απόφασης έχει χρησιμοποιηθεί

114 ΠΑΡΑΡΤΗΜΑ Ι CART κατά κόρον στα πεδία της μηχανικής μάθησης, έμπειρων συστημάτων και πολυμεταβλητής ανάλυσης. Ίσως μάλιστα να είναι και η πιο καλά ανεπτυγμένη τεχνική για τη δημιουργία κανόνων από ένα σύνολο δειγμάτων. Ορισμοί Ένα δέντρο απόφασης είναι μια δενδροειδής μορφή αποτελούμενη από εσωτερικούς και εξωτερικούς κόμβους συνδεδεμένους με κλαδιά. Ένας εσωτερικός κόμβος είναι μια μονάδα λήψης αποφάσεων που υπολογίζει μια συνάρτηση απόφασης για να αποφασίσει ποιον θυγατρικό κόμβο να επισκεφτεί μετά. Αντιθέτως, ένας εξωτερικός κόμβος γνωστός και ως τερματικός κόμβος ή φύλλοδεν έχει θυγατρικούς κόμβους και χαρακτηρίζεται με μια ετικέτα ή τιμή που περιγράφει τα δεδομένα που οδήγησαν σε αυτόν. Γενικά, ένα δέντρο απόφασης το μεταχειριζόμαστε ως εξής. Πρωτίστως, του παρουσιάζουμε ένα διάνυσμα εισόδων στον αρχικό κόμβο η κόμβο-ρίζα. Ανάλογα με το αποτέλεσμα μιας συνάρτησης απόφασης που χρησιμοποιεί ένας εσωτερικός κόμβος, θα μας οδηγήσει σε έναν από τους θυγατρικούς κόμβους του έως ότου φθάσουμε σε ένα τερματικό κόμβο και είτε μια τιμή είτε μια ετικέτα αποδοθεί στο συγκεκριμένο διάνυσμα εισόδου. Δυαδικά δένδρα Στην περίπτωση ενός δυαδικού δέντρου απόφασης, κάθε εσωτερικός κόμβος έχει ακριβώς δύο θυγατρικούς και έτσι η συνάρτηση απόφασης μπορεί πάντα να ερμηνευθεί ως Σωστό-Λάθος. Απ όλα τα δέντρα απόφασης, τα δυαδικά είναι αυτά που χρησιμοποιούνται περισσότερο εξαιτίας της απλότητας αλλά και της ενδελεχούς γνώσης των ιδιοτήτων τους. Τα δυαδικά δένδρα για προβλήματα ταξινόμησης καλούνται συχνά ταξινομικά δέντρα και κάθε τερματικός κόμβος περιέχει μια ετικέτα που υποδηλώνει την εκτιμώμενη κλάση ενός διανύσματος εισόδου. Με την ίδια συλλογιστική, τα δέντρα απόφασης που χρησιμοποιούνται σε προβλήματα εκτίμησης συνάρτησης ονομάζονται παλινδρομικά δέντρα και οι ετικέτες των τερματικών τους κόμβων μπορεί να είναι σταθερές ή εξισώσεις που δηλώνουν την εκτιμώμενη τιμή εξόδου ενός δοσμένου διανύσματος εισόδου. Η Εικ.1 (α) απεικονίζει ένα τυπικό δυαδικό ταξινομικό κέντρο με δύο αριθμητικές εισόδους x και y και μια λεκτική έξοδο z. Το άξιο προσοχής είναι ότι το δέντρο χωρίζει το χώρο εισόδου σε τέσσερις μη επικαλυπτόμενες ορθογώνιες περιοχές, κάθε μια εκ των οποίων αντιστοιχεί σε μια ετικέτα f i που αναπαριστά την εκτιμώμενη έξοδο, όπως φαίνεται και στην Εικ.1 (β). 114

115 ΠΑΡΑΡΤΗΜΑ Ι CART Παρατηρείστε ότι κάθε τερματικός κόμβος έχει ένα μοναδικό μονοπάτι που αρχίζει με τον κόμβο ρίζα και τελειώνει στον τερματικό κόμβο. Το μονοπάτι αντιστοιχεί σε έναν κανόνα απόφασης που είναι ουσιαστικά η τομή (ΚΑΙ) πολλών συνθηκών ελέγχου. Είναι σημαντικό να κατανοήσουμε ότι για κάθε ένα δεδομένο διάνυσμα εισόδου, ένα και μόνο ένα μονοπάτι θα ακολουθηθεί. Εικ.1 (α) Δυαδικό δέντρο απόφασης και (β) ο διαμερισμός του χώρου εισόδου του Συμβολισμοί Πριν από την περιγραφή του CART θα εισάγουμε μερικούς χρήσιμους συμβολισμούς. Ένα τυπικό δυαδικό δέντρο, σαν κι αυτό της Εικ.2 (α), συχνά συμβολίζεται με Τ, με κόμβορίζα t 1. Ένας εσωτερικός κόμβος του Τ συμβολίζεται με t και το υποδένδρο με ρίζα τον t συμβολίζεται με Τ t, όπως φαίνεται και στην Εικ.2 (α), όπου t=t 3. Χρησιμοποιούμε το T ~ για να δηλώσουμε το σύνολο των τερματικών κόμβων σε ένα δέντρο Τ. Ο αριθμός των τερματικών κόμβων είναι ~ T (και ίσος με πέντε στην περίπτωση της Εικ.2. Προκύπτει εύκολα ότι σε ένα πλήρες δυαδικό δέντρο, όπου δηλαδή κάθε κόμβος έχει μηδέν ή δύο θυγατρικούς, ο αριθμός των τερματικών κόμβων είναι πάντα ένας παραπάνω από τον αριθμό των εσωτερικών. 115

116 ΠΑΡΑΡΤΗΜΑ Ι CART Εικ.2 (α) Ένα τυπικό δέντρο Τ με κόμβο-ρίζα t 1 και υποδένδρο (β) Τ-T, το δέντρο μετά τον εκφυλισμό του υποδέντρου t 3 T t 3 T t 3 στον τερματικό κόμβο t 3 Ένα παράδειγμα ψαλιδισμού είναι να εκφυλιστεί το υποδένδρο T t 3 της εικόνας σε έναν τερματικό κόμβο. Το δέντρο που προκύπτει συμβολίζεται με T- υποσύνολο του αρχικού. T t 3 και είναι ένα I.3 ΑΛΓΟΡΙΘΜΟΣ CART ΓΙΑ ΤΗΝ ΚΑΤΑΣΚΕΥΗ ΤΟΥ ΔΕΝΤΡΟΥ H χρήση ταξινομικών δέντρων ξεκινά από το AID (Automatic Interaction Detection), ένα πρόγραμμα των Morgan και Sonquist. Μέθοδοι για δημιουργία δένδρων απόφασης από δεδομένα γνωστές και ως «αναδρομικός μερισμός του χώρου» - έχουν από τότε γίνει ένα ενεργό πεδίο έρευνας στην τεχνητή νοημοσύνη, ιδιαιτέρως στη μηχανική μάθηση και στη στατιστική, κυρίως στον τομέα της ανάλυσης πολλών μεταβλητών. Παρόμοια προβλήματα αντιμετωπίστηκαν από τους στατιστικολόγους περίπου την ίδια εποχή και η πιο γνωστή εργασία δημοσιεύτηκε από τους Breiman et al. [19] στη μονογραφία τους με τίτλο «Classification And Regression Trees». Γι αυτό και η μεθοδολογία τους αναφέρεται ως ο αλγόριθμος CART, που εντάσσεται στο επιστημονικό πεδίο της στατιστικής. Ακολουθεί μια συνοπτική παρουσίαση του αλγορίθμου που επικεντρώνεται σε δυαδικά μόνο δέντρα, γιατί αυτά μας ενδιαφέρουν. Η γνώση αυτή θα χρησιμεύσει ως υπόβαθρο για να κατανοήσουμε πώς από τον διαχωρισμό του χώρου που κάνει ο CART φτιάχνουμε τους κανόνες του νευροασαφούς μας συστήματος. 116

117 ΠΑΡΑΡΤΗΜΑ Ι CART Για να κατασκευάσει ένα κατάλληλο δένδρο απόφασης, ο CART πρώτα αναπτύσσει το δέντρο διεξοδικά βασιζόμενος σε ένα σύνολο δειγμάτων ( ή δεδομένα εκπαίδευσης) και μετά «κλαδεύει» το δέντρο προς τα πίσω με βάση μια αρχή ελαχιστοποίησης της πολυπλοκότητάς του. Το αποτέλεσμα είναι μια σειρά από δέντρα με ποικίλα μεγέθη. Το τελικό δέντρο που θα επιλεγεί είναι αυτό που επιτυγχάνει καλύτερη επίδοση στην εξέταση ενός ανεξάρτητου συνόλου δεδομένων ελέγχου. Συνοπτικά, η μεθοδολογία περιλαμβάνει δύο στάδια: 1) Μεγάλωμα του δένδρου 2) Κλάδεμα Ι.3.1 Μεγάλωμα (ανάπτυξη) του δέντρου Ο CART αναπτύσσει ένα δέντρο απόφασης δημιουργώντας μια διαδοχή από διαχωριστικά (ή όρια εναλλαγής) που χωρίζουν τα δεδομένα εκπαίδευσης σε υποσύνολα. Αρχίζοντας από τον κόμβο-ρίζα που περιέχει όλα τα δεδομένα εκπαίδευσης, διεξάγεται μια εξονυχιστική έρευνα για να βρεθεί εκείνη η τιμή διαχωρισμού που ελαχιστοποιεί ένα μέτρο του λάθους (ή συνάρτηση κόστους). Όταν βρεθεί το διαχωριστικό, το σύνολο των δεδομένων διαμοιράζεται σε δύο ξεχωριστά υποσύνολα, σύμφωνα με την τιμή διαχωρισμού. Τα υποσύνολα παριστάνονται με δύο θυγατρικούς κόμβους που ξεκινούν από τη ρίζα, και η αυτή μέθοδος εφαρμόζεται και σε αυτούς. Η αναδρομική διαδικασία τερματίζεται είτε όταν το μέτρο του λάθους σε έναν κόμβο πέσει κάτω από ένα όριο ανοχής, είτε όταν η μείωση του λάθους που προκύπτει από επιπλέον διαχωρισμό του κόμβου δεν υπερβαίνει ένα κατώφλι. Ταξινομικά δέντρα Τα δέντρα ταξινόμησης χρησιμοποιούνται για την επίλυση αντιστοιχών προβλημάτων, όπου τα χαρακτηριστικά ενός αντικειμένου χρησιμοποιούνται για να καθορίσουν την κλάση όπου ανήκει. Για το μεγάλωμα του δέντρου χρειαζόμαστε ένα μέτρο του λάθους Ε(t) που ποσοτικοποιεί την επίδοση ενός κόμβου t ως προς την ικανότητά του να διαχωρίζει δεδομένα διαφορετικών κλάσεων. Το μέτρο του λάθους για δέντρα ταξινόμησης αναφέρεται συχνά ως «συνάρτηση ανομοιογένειας» (impurity function). Για έναν δεδομένο κόμβο (ή ισοδύναμα για συγκεκριμένο σύνολο δεδομένων) πρέπει να ισούται με μηδέν όταν όλα τα δεδομένα ανήκουν στην ίδια κλάση και να μεγιστοποιείται όταν τα δεδομένα κατανέμονται ομοιόμορφα σε όλες τις πιθανές κλάσεις. 117

118 ΠΑΡΑΡΤΗΜΑ Ι CART Ένας αυστηρός ορισμός της συνάρτησης ανομοιογένειας για ένα πρόβλημα J κλάσεων είναι ο εξής: Ορισμός 1. Συνάρτηση ανομοιογένειας για προβλήματα J κλάσεων Η συνάρτηση ανομοιογένειας φ είναι μια συνάρτηση J μεταβλητών που αντιστοιχίζει τα ορίσματα εισόδου της p 1, p 2,, p J, με J p j j1 =1 σε έναν μη αρνητικό πραγματικό αριθμό ούτως ώστε (,,..., ) J J J = maximum και φ (1,0,0,...,0) = φ(0,1,0,...,0) = φ(0,0,0,...,1) = 0 Τα ορίσματα εισόδου p j, j=1:j, είναι η πιθανότητα ότι ένα δεδομένο στον κόμβο ανήκει στην κλάση j. Συνεπώς, η συνάρτηση ανομοιογένειας για δεδομένο κόμβο μεγιστοποιείται όταν όλες οι κλάσεις είναι ισόποσα αναμεμιγμένες στον κόμβο, και ελαχιστοποιείται όταν ο κόμβος περιέχει δεδομένα μιας μόνο κλάσης. Χρησιμοποιώντας λοιπόν τη συνάρτηση ανομοιογένειας φ, το μέτρο της «καθαρότητας» ενός κόμβου t είναι E(t)= φ (p 1, p 2,, p J ), όπου p j είναι τα ποσοστά των περιπτώσεων στον κόμβο που ανήκουν στην κλάση j. Όμοια, το μέτρο καθαρότητας ολοκλήρου του δέντρου είναι Ε(T)= E ( t όπου ) t T ~ ~ T είναι το σύνολο των τερματικών κόμβων του δέντρου Τ. Τρεις είναι οι πιο γνωστές συναρτήσεις ανομοιογένειας: 1. Συνάρτηση εντροπίας: e( p1,..., pj ) p j lnp j J j1 2. Gini index: g( p1,..., pj ) pi p j 1 i j J j1 p 2 j 3. Twoing rule: pl p 4 r j p ( t ) p j l j ( tr) 2 Όσον αφορά τον Twoing rule, τα p t ) και p t ) είναι οι πιθανότητες ένα δείγμα να j ( l ανήκει στην κλάση j, δοθέντος ότι τα δεδομένα προέρχονται από τον αριστερό και τον δεξή θυγατρικό κόμβο, αντίστοιχα, και p l και p r είναι τα ποσοστά των δειγμάτων που j ( r 118

119 ΠΑΡΑΡΤΗΜΑ Ι CART διακλαδίζονται αριστερά και δεξιά αντίστοιχα. Ο Twoing rule είναι και αυτός που χρησιμοποιούμε στην εργασία. J p j j1 Καθώς 1 και 0 1 j, οι συναρτήσεις είναι πάντοτε θετικές εκτός αν μία p j από τις πιθανότητες p j είναι μονάδα και όλες οι άλλες μηδέν. Επιπλέον, και οι τρεις εμφανίζουν μέγιστο όταν p j 1 j. J Δοθείσης μιας συνάρτησης ανομοιογένειας για τον υπολογισμό του κόστους ενός κόμβου, η ρουτίνα ανάπτυξης του δέντρου προσπαθεί να βρει έναν βέλτιστο τρόπο να χωρίσει τα δείγματα στον κόμβο ούτως ώστε η μείωση του κόστους να είναι μέγιστη. Για δυαδικό δέντρο, η αλλαγή στην ομοιογένεια λόγο της διάσπασης είναι E s, t) E( t) p E( t ) p E( t ), ( l l r r όπου t είναι ο κόμβος που διασπάται, Ε(t) είναι η ομοιογένειά του, Ε(t l ) και Ε(t r ) είναι οι συναρτήσεις ανομοιογένειας του αριστερού και δεξιού θυγατρικού κόμβου και τέλος p l και p r τα ποσοστά των δειγμάτων που διακλαδίζονται αριστερά και δεξιά αντίστοιχα. Χρησιμοποιώντας συμβολική αναπαράσταση, θα μπορούσαμε να πούμε ότι η ρουτίνα ανάπτυξης του δέντρου προσπαθεί να βρει ένα σημείο διάσπασης s * για τον κόμβο t 1 τέτοιο που η διάσπαση να επιφέρει τη μέγιστη μείωση στη συνάρτηση ανομοιογένειας: * E s, t ) max E( s, t ) ( 1 1 ss όπου S είναι το σύνολο όλων των δυνατών τρόπων διαχωρισμού των δειγμάτων στον κόμβο t 1. Χρησιμοποιώντας το βέλτιστο s *, o t 1 διαχωρίζεται στους t 2 και t 3 και η ίδια διαδικασία αναζήτησης για το καλύτερο t 3 ξεχωριστά, και συνεχίζει έτσι αναπτύσσοντας το δέντρο. ss επαναλαμβάνεται σε αμφότερους τους t 2 και Μέχρι τώρα κάναμε τη σιωπηλή παραδοχή ότι οι είσοδοι ή τα χαρακτηριστικά του συνόλου δεδομένων είναι αριθμητικά ή μπορούν να εκφραστούν ως αριθμοί. Παραδείγματα τέτοιου είδους μεταβλητών περιλαμβάνουν θερμοκρασίες, ύψη, μήκη κτλ. Στα δυαδικά δέντρα, μια τυπική διάσπαση (ή ερώτηση) για μια αριθμητική μεταβλητή x παίρνει τη μορφή: Is x s i? 119

120 ΠΑΡΑΡΤΗΜΑ Ι CART Συνήθως, η τιμή διαχωρισμού s i είναι ο μέσος όρος δύο δειγμάτων της x που είναι γειτονικά όσον αφορά τις συντεταγμένες τους κατά x και μόνον. Για ένα σύνολο δεδομένων μεγέθους Μ, ο αριθμός των υποψήφιων τιμών διάσπασης αριθμητική μεταβλητή είναι μικρότερος ή ίσος με Μ-1. για μια Για κατηγορικές (ή ισοδύναμα λεκτικές) μεταβλητές ή για σύνολα δεδομένων που έχουν ως τιμές ετικέτες οι οποίες δεν μπορούν να μπουν στη σειρά, η ανάπτυξη ενός δέντρου είναι και πάλι εφικτή, με τη διαφορά ότι η ερώτηση για τη διάσπαση πλέον γίνεται Is x in? S 1 Το σύνολο S 1 είναι ένα μη κενό υποσύνολο του S, του συνόλου δηλαδή όλων των λεκτικών τιμών της x. Γενικώς, μία κατηγορική μεταβλητή x με k δυνατές ετικέτες έχει (2 k 2)/2=2 k 1 1 υποψήφιες τιμές διάσπασης. Παράδειγμα 1. Διάσπαση κόμβων για τα δέντρα ταξινόμησης Υποθέστε ότι θέλουμε να διασπάσουμε έναν κόμβο t που περιέχει 5 σημεία δεδομένων με 2 χαρακτηριστικά x και y, όπως φαίνεται στην Εικ.3, όπου τα δεδομένα από τις κλάσεις 1 και 2 αναπαριστάνονται από σταυρούς και κύκλους, αντίστοιχα. Προφανώς, υπάρχουν 8 δυνατές (πιθανές) διασπάσεις, που αναπαριστάνονται από το s i στην Εικ.3. Αν επιλέξουμε την συνάρτηση εντροπίας ως μέτρο σφάλματος, η καθαρότητα για αυτόν τον κόμβο είναι: Ε Τώρα πρέπει να αξιολογήσουμε την αλλαγή της ομοιογένειας για κάθε διάσπαση. Για παράδειγμα για τη διάσπαση s 2 έχουμε: Ε Ε Επομένως, η αλλαγή της ομοιογένειας λόγω της διάσπασης s 2 είναι: 120

121 ΠΑΡΑΡΤΗΜΑ Ι CART ΔΕ Ε Ε Ε Προφανώς, αυτή δεν είναι ιδιαίτερα αποτελεσματική διάσπαση. Ακολουθώντας την ίδια διαδικασία, μπορούμε να πάρουμε μία λίστα με τις επιδόσεις όλων των διασπάσεων: ΔΕ ΔΕ ΔΕ ΔΕ ΔΕ ΔΕ ΔΕ Επομένως, η καλύτερη διάσπαση είναι η s 6, η οποία διαχωρίζει τα δεδομένα πιο αποτελεσματικά και οδηγεί την ανομοιογένεια στο 0. Εικ.3 Διάσπαση κόμβων σε δέντρα ταξινόμησης Συμπερασματικά, ο στόχος της ανάπτυξης είτε ενός ταξινομικού είτε ενός αναδρομικού δέντρου είναι ο ίδιος: Να διασπαστούν οι κόμβοι (ή ισοδύναμα να διαμεριστεί ο χώρος εισόδου) αναδρομικά και έτσι να ελαχιστοποιηθεί ένα λογικό δοθέν μέτρο του σφάλματος. Ι.3.2 Κλάδεμα του δέντρου Το δέντρο που παράγει η προηγούμενη διαδικασία είναι συχνά πολύ μεγάλο και πολωμένο στα δεδομένα εκπαίδευσης. Έτσι, εμφανίζει έναν απαράδεκτα υψηλό βαθμό ακρίβειας στο να δίνει τις αναμενόμενες εξόδους από τα δεδομένα εκπαίδευσης. Με άλλα λόγια, ίσως 121

122 ΠΑΡΑΡΤΗΜΑ Ι CART αντιμετωπίσουμε το γνωστό πρόβλημα της υπερεκπαίδευσης και της υπερεξειδίκευσης στα δεδομένα εκπαίδευσης, ενώ το δέντρο δεν θα γενικεύει καλά σε νέα, άγνωστα δεδομένα. Υπάρχουν διάφορες μέθοδοι για την εύρεση του μεγέθους του δέντρου που δίνει την καλύτερη εκτίμηση του πραγματικού μέτρου του λάθους. Μία από τις πιο αποτελεσματικές βασίζεται στην αρχή της ελαχιστοποίησης του συνδυασμού κόστουςπολυπλοκότητας (minimum cost-complexity) ή αλλιώς αφαίρεση του πιο αδύναμου υποδένδρου. Το πρώτο βήμα είναι να μεγαλώσουμε ένα πλήρως ανεπτυγμένο δέντρο T max που έχει ένα αρκετά χαμηλό μέτρο λάθους όσον αφορά τα δεδομένα εκπαίδευσης. Όμως συνήθως ένα τέτοιο δέντρο είναι πολύ μεγάλο και θέλουμε να το κλαδέψουμε προς τα πίσω με κάποιο συνεπή τρόπο, βρίσκοντας το πιο αδύναμο υποδέντρο του. Αυτό μπορεί να βρεθεί αν πάρουμε τόσο την τιμή του σφάλματος εκπαίδευσης όσο και τον αριθμό των τερματικών κόμβων, που θεωρούνται ένα μέτρο της πολυπλοκότητας του δέντρου. Ορισμός 2. Μέτρο κόστους-πολυπλοκότητας (Cost-complexity measure) Για οποιοδήποτε υποδέντρο max, ορίζουμε την πολυπλοκότητά του με ~ T, δηλ. τον αριθμό των τερματικών κόμβων του Τ. Τότε το μέτρο κόστους-πολυπλοκότητας (costcomplexity measure) E α (Τ) ορίζεται εκ της ( T ) E( T ) a T, ~ όπου α είναι μία παράμετρος πολυπλοκότητας που βαρύνει στο κόστος της πολυπλοκότητας του δέντρου. Έτσι, η Ε α (Τ) είναι ένας γραμμικός συνδυασμός του κόστους (από το σφάλμα) του δέντρου και της πολυπλοκότητάς του. Για κάθε τιμή του α μπορούμε να βρούμε ένα ελαχιστοποιούν το μέτρο κόστουςπολυπλοκότητας υποδέντρο Τ(α) για δεδομένο α: ( T( a)) min E ( T). T T max a Εάν Τ(α) είναι το ελάχιστο υποδέντρο για μια δεδομένη τιμή του α, τότε εξακολουθεί να έχει αυτή την ιδιότητα καθώς το α αυξάνεται, έως ένα σημείο καμπής α όπου ένα νέο δέντρο Τ(α ) γίνεται το νέο ελάχιστο δέντρο. Ας υποθέσουμε ότι το Τ max έχει L τερματικούς κόμβους. Η ιδέα του προοδευτικού προς τα πάνω κλαδέματος είναι να βρούμε 122

123 ΠΑΡΑΡΤΗΜΑ Ι CART μια ακολουθία ολοένα και μικρότερων δέντρων Τ L, T L-1, T L-2,,T 1 που ικανοποιούν τη σχέση t 1 T1 T2... TL 2 TL 1 TL Tmax, όπου το Τ i έχει i τερματικούς κόμβους. Κάθε T i-1 προκύπτει από το T i ως το πρώτο ελάχιστο υποδέντρο κόστους-πολυπλοκότητας, καθώς το α αυξάνεται από το μηδέν. Για την εύρεση του επόμενου ελαχίστου δέντρου για ένα δέντρο Τ, κάνουμε το εξής: Για κάθε εσωτερικό κόμβο t του Τ, πρώτα βρίσκουμε μια τιμή για το α που κάνει το Τ-Τ t το επόμενο ελάχιστο δέντρο. Αυτή η τιμή α t είναι ίση με το λόγο της μεταβολής του μέτρου σφάλματος προς τη μεταβολή του αριθμού τερματικών κόμβων πριν και μετά το κλάδεμα: E( t) E( Tt ) t. ~ T 1 t Και τότε διαλέγουμε εκείνο τον εσωτερικό κόμβο με το μικρότερο α t ως τον κόμβο που θα απαλειφθεί. Επομένως, ένας κύκλος κλαδέματος περιλαμβάνει τα εξής στάδια: 1. Υπολογισμό του α t για κάθε εσωτερικό κόμβο t στο T i 2. Εύρεση του μικρότερου α t και επιλογή του Τ-Τ t ως του επόμενου ελάχιστου δέντρου. Αυτή η διαδικασία επαναλαμβάνεται έως ότου το δέντρο περιέχει μόνο τον κόμβο-ρίζα. Η Εικ.2 δείχνει ακριβώς ένα παράδειγμα κλαδέματος, εκφυλίζοντας το υποδένδρο Tt σε έναν 3 τερματικό κόμβο. Το νέο δέντρο Τ-T t είναι υποσύνολο του αρχικού. Επαναλαμβάνοντας 3 αυτή τη διαδικασία, μπορεί να αποκτηθεί μια σειρά από υποψήφια δέντρα συρρικνώνοντας κάθε πιο αδύναμο υποδένδρο διαδοχικά, και κάθε συρρίκνωση καταλήγει στην ελάχιστη αύξηση του α καθώς αυτό αυξάνεται προς το επόμενο ελάχιστο δέντρο. Το πρόβλημα είναι πλέον να επιλέξουμε ένα από αυτά τα υποψήφια δέντρα ως αυτό με το βέλτιστο μέγεθος. Υπάρχουν δύο γενικές μέθοδοι που το κάνουν αυτό: 1. Χρήση ενός ανεξάρτητου συνόλου δεδομένων ελέγχου και 2. Με cross-validation ( διασταυρούμενη επαλήθευση) Η πρώτη είναι υπολογιστικά απλούστερη, αλλά η δεύτερη χρησιμοποιεί αποτελεσματικότερα όλα τα διαθέσιμα δεδομένα. Εάν χρησιμοποιήσουμε την πρώτη, απλά 123

124 ΠΑΡΑΡΤΗΜΑ Ι CART επιλέγουμε το δέντρο με το μικρότερο σφάλμα ελέγχου. Η δεύτερη είναι πιο πολύπλοκη και ο αναγνώστης παραπέμπεται στη μονογραφία του CART [1] για την ενδελεχή της ανάλυση. Η Εικ.4 είναι τυπικό δείγμα του σφάλματος του δέντρου εν σχέσει με τα μεγέθη των υποψήφιων δέντρων Τ 1, Τ 2,..., Τ L,με L=20, που ευρέθησαν με την προηγούμενη διαδικασία του κλαδέματος. Εικ.4 Απεικόνιση του σφάλματος ως προς το μέγεθος του δέντρου. Το άλμα από το T 8 στο Τ 6 υποδηλώνει ότι το υποδέντρο που απαλείφθηκε από το Τ 8 είχε περισσότερους από δύο τερματικούς κόμβους Όσο η πολυπλοκότητα του δέντρου (δηλ. ο αριθμός των τερματικών κόμβων του) αυξάνεται, τόσο το σφάλμα εκπαίδευσης φθίνει, φτάνοντας στο μηδέν όταν το δέντρο αναπτυχθεί πλήρως. Αντίθετα, το σφάλμα ελέγχου μειώνεται στην αρχή, φτάνει σε ένα ελάχιστο και μετά αυξάνει βαθμιαία εξαιτίας της εξειδίκευσης του δέντρου στα δεδομένα εκπαίδευσης. Όταν δεν υπάρχει καμιά εκ προοιμίου (a priori) πληροφορία, συνήθως θεωρούμε το σφάλμα ελέγχου ως μια σωστή μη πολωμένη εκτιμήτρια του πραγματικού σφάλματος και θεωρούμε ότι το αντίστοιχο δέντρο έχει το βέλτιστο μέγεθος. 124

125 ΠΑΡΑΡΤΗΜΑ IΙ FCM ΙΙ.1 ΕΙΣΑΓΩΓΗ Στο παρόν παράρτημα παρουσιάζουμε τον αλγόριθμο ασαφούς ομαδοποίησης που χρησιμοποιήθηκε για τη διαμέριση των υποδικτύων σε επιπλέον κανόνες, τόσους όσα και τα subclusters, τις ομάδες δηλαδή που δημιουργεί ο FCM. Πριν από αυτόν αναφέρεται ο αλγόριθμος Κ-μέσων (Κ-means) που εντάσσει κάθε πρότυπο σε ένα και μόνο ένα subcluster (hard partitioning). ΙΙ.2 Ο ΑΛΓΟΡΙΘΜΟΣ K-ΜΕΣΩΝ Ο αλγόριθμος των k-μέσων αποδίδει το κάθε πρότυπο στην ομάδα της οποίας το κέντρο βρίσκεται πλησιέστερα σε αυτό. Ως κέντρο κάθε ομάδας θεωρείται ο μέσος όρος των στοιχείων που ανήκουν σε αυτή (δηλαδή οι συντεταγμένες του είναι ο αριθμητικός μέσος όλων των στοιχείων της ομάδας για κάθε διάσταση). Ο αλγόριθμος λειτουργεί ως εξής : Επιλέγονται με τυχαίο τρόπο k ομάδες και υπολογίζονται τα κέντρα τους (ή επιλέγονται απ ευθείας k τυχαία σημεία ως κέντρα) Κάθε σημείο του συνόλου δεδομένων αποδίδεται στην ομάδα που αντιστοιχεί στο πλησιέστερο κέντρο Επαναϋπολογίζονται τα νέα κέντρα Η διαδικασία επαναλαμβάνεται μέχρι τα κέντρα να σταθεροποιηθούν (ή να ικανοποιηθεί κάποιο άλλο κριτήριο σύγκλισης) Το κύριο πλεονέκτημα αυτού του αλγορίθμου είναι η απλότητα και η ταχύτητα, που κάνουν εύκολη την εφαρμογή του σε μεγάλα σύνολα δεδομένων. Ωστόσο δεν δίνει σταθερά τα ίδια αποτελέσματα με κάθε τρέξιμο. Αντίθετα, το τελικό αποτέλεσμα

126 ΠΑΡΑΡΤΗΜΑ ΙI FCM επηρεάζεται σημαντικά από την (τυχαία) αρχικοποίηση. Επιπλέον, ο αλγόριθμος μεγιστοποιεί την μέση απόσταση μεταξύ των ομάδων (και ελαχιστοποιεί τη μέση απόσταση μεταξύ των στοιχείων της ίδιας ομάδας), αλλά δεν εξασφαλίζει ότι η λύση που δίνεται δεν είναι απλά ένα τοπικό ακρότατο. II.3 Ο ΑΛΓΟΡΙΘΜΟΣ Κ-ΑΣΑΦΩΝ ΜΕΣΩΝ FCM (FUZZY C-MEANS) Ο FCM, γνωστός και με το όνομα fuzzy ΙSODATA, είναι ένας αλγόριθμος ομαδοποίησης δεδομένων σύμφωνα με τον οποίο, κάθε σημείο του χώρου ανήκει σε μία ομάδα κατά έναν βαθμό, ο οποίος καθορίζεται από μία συνάρτηση συμμετοχής. Ο FCM διαμερίζει ένα σύνολο από n διανύσματα x i,i=1:n σε c ασαφή σύνολα και καθορίζει ένα κέντρο σε κάθε ομάδα δεδομένων, τέτοιο ώστε να ελαχιστοποιείται μία αντικειμενική συνάρτηση που εκφράζει ένα μέτρο ανομοιότητας. Συγκεκριμένα, ο αλγόριθμος εφαρμόζει μια ασαφή διαμέριση κατά τέτοιο τρόπο, ώστε κάθε σημείο του χώρου να μπορεί να ανήκει σε περισσότερες από μία ομάδες, με το βαθμό συμμετοχής του στην καθεμία να καθορίζεται από συναρτήσεις συμμετοχής, οι οποίες λαμβάνουν τιμές στο [0,1]. Αυτή είναι και η κύρια διαφορά του FCM από τον «απλό» αλγόριθμο Κ-ασαφών μέσων, ο οποίος κατατάσσει «αυστηρά» κάθε σημείο με τέτοιο τρόπο, ώστε είτε να ανήκει σε μία ομάδα είτε όχι. Οι προκύπτουσες ομάδες ορίζονται από έναν c n πίνακα συμμετοχής U, όπου το στοιχείο u ij λαμβάνει τιμές στο [0,1] αναλόγως με τη συμμετοχή του σημείου x j στην ομάδα i. Ώστε το u ij υποδηλώνει τη δυνατότητα το x να ανήκει στη συγκεκριμένη ομάδα. Επιπλέον, η κανονικοποίηση των δεδομένων επιβάλλει ότι το άθροισμα των βαθμών συμμετοχής για το σύνολο των δεδομένων πρέπει να ισούται πάντα με τη μονάδα : c i1 u ij 1, j 1: n Η αντικειμενική συνάρτηση του FCM είναι η ακόλουθη : 126

127 ΠΑΡΑΡΤΗΜΑ ΙI FCM όπου ci είναι το κέντρο της ασαφούς ομάδας i, d ij είναι η ευκλείδεια απόσταση μεταξύ του i-οστού κέντρου και του j-οστού σημείου του χώρου και m είναι ένας εκθέτης στάθμισης που λαμβάνει τιμές στο (1, ). Ελαχιστοποίηση Οι αναγκαίες συνθήκες για να ελαχιστοποιείται η αντικειμενική συνάρτηση καθορίζονται από μία νέα αντικειμενική συνάρτηση όπου λj, j =1,...,n είναι οι πολλαπλασιαστές Lagrange για τις n συνθήκες στην παραπάνω εξίσωση. Παραγωγίζοντας την παραπάνω ως προς τα ορίσματα εισόδου, οι αναγκαίες συνθήκες για να ελαχιστοποιείται η J είναι : (1) και (2) Δηλαδή το κέντρο μίας ομάδας υπολογίζεται ως ο μέσος όρος όλων των στοιχείων του συνόλου δεδομένων, πολλαπλασιασμένου καθενός με το βαθμό στον οποίο ανήκει στη συγκεκριμένη ομάδα, εξίσ. (1), ενώ ο βαθμός στον οποίο ένα στοιχείο ανήκει σε μία ομάδα υπολογίζεται από την εξίσ. (2) και σχετίζεται και με την απόστασή του από τις άλλες ομάδες. Ο FCM είναι απλά ένας επαναληπτικός αλγόριθμος για τον υπολογισμό των δύο παραπάνω συνθηκών και συνοψίζεται στα εξής απλά βήματα[3] : Αλγόριθμος FCM: 1. Αρχικοποίηση του πίνακα συμμετοχής U με τυχαίες τιμές μεταξύ 0 και 1, τέτοιες ώστε να ικανοποιείται η εξίσωση u c i1 2. Υπολογισμός των c ασαφών κέντρων ci από την ij 1, j 1: n και καθορισμός του c { 2,3,..., n 1}. 127

128 ΠΑΡΑΡΤΗΜΑ ΙI FCM 3. Υπολογισμός ενός νέου U μέσω του υπολογισμού του u ij από την 4. Υπολογισμός της συνάρτησης κόστους J. Τερματισμός εάν είτε είναι κάτω από μία καθορισμένη τιμή ευαισθησίας, είτε η βελτίωση από την προηγούμενη επανάληψη είναι κάτω από ένα συγκεκριμένο κατώφλι. Συνέχιση από το βήμα 2. Μπορούν επίσης να αρχικοποιηθούν πρώτα τα κέντρα των ομάδων και μετά να συνεχισθεί η επαναληπτική διαδικασία. Καθώς το m πλησιάζει το 1, στην πλησιέστερη στο κέντρο ομάδα αποδίδεται πολύ μεγαλύτερος συντελεστής από ότι στις υπόλοιπες και η συμπεριφορά του αλγορίθμου προσεγγίζει αυτή του αλγορίθμου k-μέσων. Σύγκλιση του FCM Ο αλγόριθμος καταφέρνει να μεγιστοποιήσει τη μέση απόσταση μεταξύ των ομάδων και ταυτόχρονα να ελαχιστοποιήσει τη μέση απόσταση μεταξύ των στοιχείων της ίδιας ομάδας. Ωστόσο, παρουσιάζει τα ίδια προβλήματα με τον αλγόριθμο k-μέσων. Συγκεκριμένα, τα μέγιστα και τα ελάχιστα είναι τοπικά και τα αποτελέσματα εξαρτώνται σημαντικά από την αρχικοποίηση που γίνεται. Γενικά, δεν είναι ξεκάθαρο ότι ο FCM θα συγκλίνει σε κάποιο τοπικό ελάχιστο της αντικειμενικής συνάρτησης J. Όμως αποδεικνύεται ότι η αντικειμενική συνάρτηση θα φθίνει ή θα μένει σταθερή με το πέρας των επαναλήψεων. Μια αναλυτική εκπαιδευτικού χαρακτήρα περιγραφή της λειτουργίας του αλγορίθμου δίνεται στην [2], σελ

129 ΠΑΡΑΡΤΗΜΑ IΙΙ Κώδικας MATLAB ΙΙΙ.1 ΠΕΡΙΓΡΑΦΗ ΤΩΝ ΑΡΧΕΙΩΝ Ο ταξινομητής περιλαμβάνει αρκετά αρχεία command files (ή script m-files). Τα αρχεία αυτά δεν έχουν ορίσματα (μεταβλητές εισόδου και εξόδου), χρησιμοποιούνται για την αυτόματη εκτέλεση εργασιών και χρησιμοποιούν μεταβλητές του χώρου εργασίας του MatLab ή φτιάχνουν δικές τους, οι οποίες παραμένουν ενεργές στο τρέχον Workspace και μετά την εκτέλεσή τους. Ακολουθεί μια συνοπτική περιγραφή κάθε αρχείου: MoDFuNC.m: Το αρχείο αυτό υλοποιεί το σύστημα ενοποιώντας όλα τα επιμέρους στοιχεία του και μπορεί να τα τρέξει είτε ακολουθιακά είτε και με διαφορετική σειρά. Περιέχει όλες τις παραμέτρους που μεταβάλλουμε κατά τις δοκιμές και χρειάζονται στα υπόλοιπα αρχεία. dataloader.m: Φορτώνει το κατάλληλο dataset, κάνει κανονικοποίηση τις τιμές του στο [0,1] και το χωρίζει σε δεδομένα εκπαίδευσης και ελέγχου σε ποσοστό που ορίζουμε. A_cart.m: Εφαρμόζει τον αλγόριθμο CART. B_syst.m: Είναι βασικό για το σύστημα, καθώς υπολογίζει από τα δεδομένα τις παραμέτρους των Γκαουσιανών συναρτήσεων συμμετοχής (MFs) του τμήματος υπόθεσης, τόσο για τους κύριους όσο και για τους δευτερεύοντες κανόνες. Ακόμη, αρχικοποιεί τυχαία τις επίσης Γκαουσιανές MFs στην έξοδο. main_train.m: Υλοποιεί την εκπαίδευση του κυρίως δικτύου και στο τέλος κατασκευάζει ένα διάγραμμα που απεικονίζει την πτώση του σφάλματος με το πέρασμα των εποχών.

130 Παράρτημα ΙΙΙ Κώδικας MATLAB main_defuzz.m: Υπολογίζει την πυροδότηση των κύριων κανόνων και εκτελεί αποασαφοποίηση για τις ανάγκες της εκπαίδευσης. secondary_train.m: Υλοποιεί την εκπαίδευση των υποδικτύων και στο τέλος κατασκευάζει και αυτό ένα διάγραμμα σφάλματος εποχών. secondary_defuzz.m: Υπολογίζει την πυροδότηση των δευτερευόντων κανόνων και εκτελεί αποασαφοποίηση κατά τη φάση της εκπαίδευσης των υποδικτύων. Defuzzyfier.m: O Deffuzyfier υλοποιεί τη λειτουργία του συστήματος. Δέχεται μια είσοδο και παράγει το διάνυσμα εξόδου που αποτελείται από τόσα στοιχεία όσες και οι κλάσεις του προβλήματος. expertise_train.m: Υλοποιεί την εκπαίδευση της παραμέτρου Τ. evaluator.m: Καλεί τον Defuzzyfier για να υπολογίσει την ακρίβεια ταξινόμησης θεωρώντας ότι η είσοδος ταξινομείται στην κλάση εκείνη που έδωσε τη μεγαλύτερη έξοδο ανάμεσα σε όλες τις εξόδους. Επίσης υπολογίζει και την ταξινομική ακρίβεια του CART στα ίδια δεδομένα για λόγους σύγκρισης. ΙΙΙ.2 ΚΩΔΙΚΑΣ MoDFuNC.m clear all; close all hidden; clc % Clear everything %% Data insertion and splitting submod_enabled=1; submod_activation=0; % Enable submodules % Submodule s activation indicator % 1--> Iris 2--> Ionosphere # [Sample Datasets] % 3--> Pima Indians 4--> Breast Cancer 5--> Vehicle dataset_indicator=1; test_percentage=0.22 dataloader %% CART split_criterion='twoing'; MST=10; minleaf=2; % #PARAMS % it is the outliers A_cart %% System Construction & FCM conf_level=0.51; % #PARAMS 130

131 Παράρτημα ΙΙΙ Κώδικας MATLAB sec_attrib=size(meas,2); fcm_outliers=2; fcm_patterns=10; num_of_clusters=2; sigma_abs_min=0.1; larger=1; B_syst %% Main module training num_of_epochs=50; n=0.01; a=0.001; main_train %% Secondary modules' training num_of_epochs=100; n=0.001; a=0.001; submodules=nonzeros(lcp)'; for sub_index=1:length(submodules) % if there is no submodule it doesn't get into 'for' loop submodule=submodules(sub_index); figure(sub_index+1) secondary_train %% Expertise training num_of_epochs=30; if T_init_flag T_init=T; expertise_train %% Error computations testflag=0; submod_enabled=1; %choose dataset to examine: 0 for trainset and 1 for testset % dis/enable submodules evaluator dataloader.m % PARAMETERS NEEDED % test_percentage % dataset_indicator % ~~~ Load the proper Dataset if dataset_indicator==1 load fisheriris elseif dataset_indicator==2 load ionosphere.mat meas=x; species=y; 131

132 Παράρτημα ΙΙΙ Κώδικας MATLAB elseif dataset_indicator==3 load pima.txt; meas=pima(:,1:-1); pima_class = pima(:,); for i=1:length(pima) if pima_class(i)==0 species{i}='0'; else species{i}='1'; elseif dataset_indicator==4 load cancer_dataset meas=cancerinputs'; for i=1:length(meas) if cancertargets(:,i)==[1;0] species{i}='1'; else species{i}='0'; elseif dataset_indicator==5 load vehicle meas=vehicle; species=cartypes; % ~~~ Normalization into interval [0 1] minmeas=min(meas); maxmeas=max(meas); num_of_columns = size(meas,2); for j=1:num_of_columns; if minmeas(j)==maxmeas(j) % if there is an unvariating variable put zeros meas(:,j)=zeros(size(meas,1),1); else meas(:,j)=(meas(:,j) - minmeas(:,j)) / (maxmeas(:,j) - minmeas(:,j)); % ~~~ Seperate in train and data sets yt = species; cv = cvpartition(yt,'holdout',test_percentage); idx = test(cv); idt = training(cv); testcount=1; traincount=1; for i=1:length(species) if idx(i)==1 testset(testcount,:)=meas(i,:); testspecies(testcount)=species(i); testcount=testcount+1; else trainset(traincount,:)=meas(i,:); trainspecies(traincount)=species(i); traincount=traincount+1; testspecies=testspecies'; 132

133 Παράρτημα ΙΙΙ Κώδικας MATLAB trainspecies=trainspecies'; % ~~~ we need this formalization: input presented as 'meas' and output as 'species' clear meas species meas=trainset; species=trainspecies; A_cart.m % ~~~ find unique classes not_ordered_classes=unique (species); N=length(species); count=1; % ~~~ find unique classes but in order they appear in 'species' for i=1:n if i==1 % init classes(count)=species(i); flag_class=0; for j=1:count if strcmp(char(species(i)),char(classes(j))) flag_class=1; if ~flag_class count=count+1; classes(count)=species(i); if count==length(not_ordered_classes) break % ~~~ create a species table but with numbers for i=1:length(classes) count(i)=i; for i=1:n for j=1:length(classes) if strcmp(char(species(i)),char(classes(j))) species_num(i)=count(j); species_num=species_num'; %% CART t1 = classregtree(meas,species,'splitcriterion',split_criterion,... 'minparent',mst,'minleaf',minleaf); view(t1) [yfit,nodes] = eval(t1,meas); leafs=unique(nodes); 133

134 Παράρτημα ΙΙΙ Κώδικας MATLAB % ~~~Find the patterns corresponding to each node for i=1:length(leafs) count=1; for j=1:length(nodes) if nodes(j)==leafs(i) Gin{i}(count,:)=meas(j,:); Gout{i}(count)=species(j); Gdata{i}(count)=j; % which data belong to the i leaf count=count+1; % ~~~Expertise init for i=1:length(leafs) probab=length(gdata{i})/n; T(i)=1-probab; T_init_flag=1; % needed during expertise training % ~~~Find confidence values possib = classprob(t1,leafs); sortedpossib=sort(possib,2,'desc'); Cf=(sortedPossib(:,1)-sortedPossib(:,2)).*sortedPossib(:,1); % ~~~Find leaf classes [c1,c2]=max(possib,[],2); leaf_classes=classes(c2(:))'; % ~~~Trim the vars of classes to only the primary attributes % ~~~and put them into Gin_prim [v,num]=cutvar(t1); num=unique(num); prim_attrib=nonzeros(num); for i=1:length(leafs) Gin_prim{i}=Gin{i}(:,prim_attrib); B_syst.m clear G_sec % Fuzzy system % FOR PRIM. RULES % ~~~Find σ & mean according to paper [1] symbolization for i=1:length(leafs) sigma(:,i)=std(gin_prim{i})'; c(:,i)=mean(gin_prim{i})'; % ~~~Compute output mfs for i=1:length(classes) c0 = ( )*rand; % random number in [ ] sig0=0.1 + ( )*rand; % random number in [ ] c1 = ( )*rand ; % random number in [ ] sig1=0.1 + ( )*rand ; % random number in [ ] MFout{i}(1,:)= [sig0 c0 ]; MFout{i}(2,:)= [sig1 c1]; % ~~~Compute output rule table 134

135 Παράρτημα ΙΙΙ Κώδικας MATLAB conseq_prim=zeros(length(classes),length(leafs)); for i=1:length(leafs) for j=1:length(classes) if strcmp(char(leaf_classes(i)),char(classes(j))) conseq_prim(j,i)=1; % FOR LCP RULES G_sec_flag=0; % ~~~ Split the lcp leaf patterns per class for i=1:length(leafs) if Cf(i)<conf_level LCP(i)=i; G_sec_flag=1; classes_in_leaf=unique(gout{i}); % which classes the leaf has for j=1:length(classes_in_leaf) flag=0; count=0; for r=1:length(classes) if strcmp(char(classes_in_leaf(j)),char(classes(r))) class_indexing=r; for k=1:length(gout{i}) % compare each pattern's class with that of index j if strcmp(char(classes_in_leaf(j)),char(gout{i}(k))) count=count+1; G_sec{i,j}(count,:)=Gin{i}(k,:); % G_sec is the result classifying=class_indexing*ones(count,1); G_sec{i,j}=[G_sec{i,j} classifying]; % add class indicator as a fifth variable if ~G_sec_flag LCP=zeros(1,length(leafs)); if G_sec_flag % FCM [nodes2,classes2]=size(g_sec); G_sec_flag=0; % we don't know yet if C_sec & Sigma_sec will be created for i=1:nodes2 for j=1:classes2 patternum=size(g_sec{i,j},1); if ~isempty(g_sec{i,j}) && (patternum >= fcm_patterns) G_sec_flag=1; [center,u] = fcm(g_sec{i,j}(:,1:-1), num_of_clusters); C_sec{j,i}=center'; for k=1:sec_attrib for m=1:num_of_clusters temp_vector=( G_sec{i,j}(:,k) - C_sec{j,i}(k,m) ).^2; Sigma_sec{j,i}(k,m)=mean( temp_vector.* U(m,:)' ); 135

136 Παράρτημα ΙΙΙ Κώδικας MATLAB elseif (patternum < fcm_patterns) && patternum > fcm_outliers G_sec_flag=1; C_sec{j,i}=mean(G_sec{i,j}(:,1:-1))'; Sigma_sec{j,i}=std(G_sec{i,j}(:,1:-1))'; % conventional mean & std if ~isempty(g_sec{i,j}) % class indexes G_sec_out{j,i}=G_sec{i,j}(1,); % ~~~Convert zero sigma values into a small value [d1 d2]=size(sigma); % PRIM. RULE sigma for i=1:d1 for j=1:d2 if sigma(i,j) < sigma_abs_min sigma(i,j)=sigma_abs_min; if G_sec_flag % SECOND. RULE sigma [nodes2,classes2]=size(sigma_sec); for i=1:nodes2 for j=1:classes2 [d1 d2]=size(sigma_sec{i,j}); for m=1:d1 for r=1:d2 if Sigma_sec{i,j}(m,r) < sigma_abs_min Sigma_sec{i,j}(m,r)=sigma_abs_min; % Modify sigma to better fit the subclusters sigma=sigma.^larger; % PRIM. RULE sigma if G_sec_flag % SECOND. RULE sigma for i=1:nodes2 for j=1:classes2 if ~isempty(sigma_sec{i,j}) Sigma_sec{i,j}(:,:)=Sigma_sec{i,j}(:,:).^larger; 136

137 Παράρτημα ΙΙΙ Κώδικας MATLAB main_train.m % prepare the data flag=0; for i4=1:length(leafs) cons=find(lcp==i4); if isempty(cons) if flag==0 % Gdata init train_set_prim=gdata{i4}; flag=1; else train_set_prim=[train_set_prim Gdata{i4}]; % for storing 2 previous values that momentum needs % ========================================= d1=length(prim_attrib); d2=length(leafs); d3=length(classes); preval_wc_1 =zeros(d1,d2); % for andascedent preval_wc_2 =zeros(d1,d2); preval_wsig_1 =zeros(d1,d2); preval_wsig_2 =zeros(d1,d2); preval_c_1 =zeros(d2,d3); % for consequent preval_c_2 =zeros(d2,d3); preval_sig_1 =zeros(d2,d3); preval_sig_2=zeros(d2,d3); % ========================================= eyeclass=eye(length(classes)); N=length(train_set_prim); error=zeros(n,1); error_batch=zeros(num_of_epochs,1); % init % init tic for epoch=1:num_of_epochs % tic-toc for counting time elapsed %~~~~~~~~~~~~~~~~~~~~~~~~~CONSEQUENT TRAINING~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ for j4=1:length(leafs) for k4=1:length(classes) sum_batch_c=0; sum_batch_sig=0; for data=1:n %N=num_of_patterns dedomeno=train_set_prim(data); main_defuzz d=eyeclass(:,species_num(dedomeno)); %~~~~pd_c {Partial Derivative as by c) eq. (11) of paper[1] pdu_c=- (d(k4)-y(k4)) * premise_prim(j4) * MFout{k4}(conseq_prim(k4,j4)+1,1); sum_denom=0; for q=1:length(premise_prim) sum_denom=sum_denom + premise_prim(q)*mfout{k4}(conseq_prim(k4,q)+1,1); if sum_denom % to prevent division by zero pdu_c=pdu_c/sum_denom; else pdu_c=0; 137

138 Παράρτημα ΙΙΙ Κώδικας MATLAB sum_batch_c=sum_batch_c+pdu_c ; %~~~~pd_sig {Partial Derivative as by sig) eq. (12) sum_nom1=0; sum_nom2=0; for q=1:length(premise_prim) sum_nom1=sum_nom1 + premise_prim(q)*mfout{k4}(conseq_prim(k4,q)+1,1); sum_nom2=sum_nom2 + premise_prim(q)*mfout{k4}(conseq_prim(k4,q)+1,2)*mfout{k4}(conseq_prim(k4,q)+1,1); if sum_nom1 fraction=premise_prim(j4) * (MFout{k4}(conseq_prim(k4,j4)+1,2) * sum_nom1 - sum_nom2) / ((sum_nom1)^2); else fraction=0; pdu_sig=- (d(k4)-y(k4)) * fraction; sum_batch_sig=sum_batch_sig+pdu_sig ; % C batch Error pdu_c_batch=sum_batch_c/n; val=mfout{k4}(conseq_prim(k4,j4)+1,2); preval_c_2(j4,k4)=preval_c_1(j4,k4); preval_c_1(j4,k4)=val; dut_1=preval_c_1(j4,k4) - preval_c_2(j4,k4); u=val - n*pdu_c_batch + a*dut_1; % if u>1.1 u=1.1; elseif u<- 0.1 % c delimiter u=-0.1; % MFout{k4}(conseq_prim(k4,j4)+1,2)=u; % Sigma batch Error pdu_sig_batch=sum_batch_sig/n; val=mfout{k4}(conseq_prim(k4,j4)+1,1); preval_sig_2(j4,k4)=preval_sig_1(j4,k4); preval_sig_1(j4,k4)=val; dut_1=preval_sig_1(j4,k4) - preval_sig_2(j4,k4); u=val - n*pdu_sig_batch + a*dut_1; % if u>0.5 u=0.5 elseif u< 0.1 % sigma delimiter u= 0.1 % MFout{k4}(conseq_prim(k4,j4)+1,1)=u; %~~~~~~~~~~~~~~~~~~~~~~~~~~~~ANTECEDENT TRAINING~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ for i4=1:length(prim_attrib) for j4=1:length(leafs) 138

139 Παράρτημα ΙΙΙ Κώδικας MATLAB sum_batch_c=0; sum_batch_sig=0; for data=1:n %N=num_of_patterns dedomeno=train_set_prim(data); main_defuzz d=eyeclass(:,species_num(dedomeno)); pdw_c=0; pdw_sig=0; for k4=1:length(classes) err_def= - (d(k4)-y(k4)); % θy_k / θz_j eq.(16) nom=mfout{k4}(conseq_prim(k4,j4)+1,1) * (MFout{k4}(conseq_prim(k4,j4)+1,2) - y(k4)); denom=0; for q=1:length(premise_prim) denom=denom + premise_prim(q) * MFout{k4}(conseq_prim(k4,q)+1,1); pdy_k=nom / denom; % θz_j/θe_ij eq.(17) pdz_j=1; for i_inner=1:length(prim_attrib) if i_inner ~= i4 pdz_j=pdz_j*gaussmf(meas_prim(dedomeno,i_inner), [sigma(i_inner,j4) c(i_inner,j4)]); % θe_ij / θw_ij (deferenciate the Gaussian function) ekt=- (meas_prim(dedomeno,i4) - c(i4,j4))^2 / (2*sigma(i4,j4)^2) ; pde_c= (meas_prim(dedomeno,i4) - c(i4,j4)) / sigma(i4,j4)^2 * exp(ekt); pde_sig=(meas_prim(dedomeno,i4) - c(i4,j4))^2 / sigma(i4,j4)^3 * exp(ekt); pdw_c=pdw_c + err_def * pdy_k * pdz_j * pde_c ; pdw_sig=pdw_sig + err_def * pdy_k * pdz_j * pde_sig ; sum_batch_c=sum_batch_c + pdw_c; sum_batch_sig=sum_batch_sig + pdw_sig; % C batch Error pdw_c_batch=sum_batch_c/n; val=c(i4,j4); preval_wc_2(i4,j4)=preval_wc_1(i4,j4); preval_wc_1(i4,j4)=val; dut_1=preval_wc_1(i4,j4)-preval_wc_2(i4,j4); u=val - n*pdw_c_batch + a*dut_1; % if u>1.1 u=1.1; elseif u<- 0.1 % c delimiter u=- 0.1; % if isempty(find(lcp==j4)) % don't update antecedent part of LCP rules c(i4,j4)=u; % Sigma batch Error pdw_sig_batch=sum_batch_sig/n; val=sigma(i4,j4); 139

140 Παράρτημα ΙΙΙ Κώδικας MATLAB preval_wsig_2(i4,j4)=preval_wsig_1(i4,j4); preval_wsig_1(i4,j4)=val; dut_1=preval_wsig_1(i4,j4)-preval_wsig_2(i4,j4); u=val - n*pdw_sig_batch + a*dut_1; % if u>0.5 u=0.5 elseif u< 0.09 % sigma delimiter u= 0.09 % if isempty(find(lcp==j4)) % don't update antecedent part of LCP rules sigma(i4,j4)=u; % for plot the error accum_error=0; for i4=1:n % plot error per epoch dedomeno=train_set_prim(i4); realval=eyeclass(:,species_num(dedomeno)); Defuzzyfier error(i4)=0.5*sum((y-realval').^2); accum_error=accum_error+error(i4); error_batch(epoch)=accum_error; epoch toc minutes=floor(toc/60) % minutes elapsed for main module training plot(error_batch) main_defuzz.m % PARAMETERS % dedomeno % ONLY MAIN MODULE PARTICIPATES meas_prim=meas(:,prim_attrib); % keep only prim.attributes of meas % ~~~ Compute premise firings premise_prim=ones(1,length(leafs)); % initialisation for i=1:length(leafs) for j=1:length(prim_attrib) premise_prim(i)=premise_prim(i)*gaussmf(meas_prim(dedomeno,j), [sigma(j,i) c(j,i)]); % ~~~ defuzzyfication 140

141 Παράρτημα ΙΙΙ Κώδικας MATLAB [rows, columns]=size(conseq_prim); for i=1:rows nominator=0; denominator=0; for j=1:columns nominator=nominator+premise_prim(j)*mfout{i}(conseq_prim(i,j)+1,2)*mfout{i}(conseq_prim(i,j)+1,1); denominator=denominator+premise_prim(j)*mfout{i}(conseq_prim(i,j)+1,1); if denominator % in order to prevent division by zero y(i)=nominator/denominator; else y(i)=0; secondary_train.m % PARAMETERS NEEDED % submodule train_set_sec=gdata{submodule}; % ~~~ Submodule system init dedomeno=train_set_sec(1); secondary_defuzz % ~~~~~~~~~~~~~~~~~~~~~~ % ~~~ for storing 2 previous values that momentum needs % ========================================== d1=sec_attrib; d2=size(premise_sec,2); d3=length(classes); preval_wc_1 =zeros(d1,d2); % for andascedent preval_wc_2 =zeros(d1,d2); preval_wsig_1 =zeros(d1,d2); preval_wsig_2 =zeros(d1,d2); preval_c_1 =zeros(d2,d3); % for consequent preval_c_2 =zeros(d2,d3); preval_sig_1 =zeros(d2,d3); preval_sig_2=zeros(d2,d3); % ========================================== eyeclass=eye(length(classes)); N=length(train_set_sec); error=zeros(n,1); error_batch=zeros(num_of_epochs,1); %init %init tic for epoch=1:num_of_epochs %~~~~~~~~~~~~~~~~~~~~~~~~~CONSEQUENT TRAINING~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ for j5=1:size(premise_sec,2) for k5=1:length(classes) sum_batch_c=0; sum_batch_sig=0; 141

142 Παράρτημα ΙΙΙ Κώδικας MATLAB for data=1:n %N=num_of_patterns dedomeno=train_set_sec(data); secondary_defuzz d=eyeclass(:,species_num(dedomeno)); %~~~~pd_c {Partial Derivative as by c) pdu_c=- (d(k5) - y(k5)) * premise_sec(j5) * MFout{k5}(conseq_sec(k5,j5)+1,1); sum_denom=0; for q=1:size(premise_sec,2) sum_denom=sum_denom + premise_sec(q) * MFout{k5}(conseq_sec(k5,q)+1,1); if sum_denom pdu_c=pdu_c/sum_denom; else pdu_c=0; sum_batch_c=sum_batch_c + pdu_c ; %~~~~pd_sig {Partial Derivative as by sig) sum_nom1=0; sum_nom2=0; for q=1:size(premise_sec,2) sum_nom1=sum_nom1+premise_sec(q)*mfout{k5}(conseq_sec(k5,q)+1,1); sum_nom2=sum_nom2+premise_sec(q)*mfout{k5}(conseq_sec(k5,q)+1,2)*mfout{k5}(conseq_sec(k5,q)+1,1); if sum_nom1 fraction=premise_sec(j5) * (MFout{k5}(conseq_sec(k5,j5)+1,2) * sum_nom1 - sum_nom2) / ((sum_nom1)^2); else fraction=0; pdu_sig= - (d(k5) - y(k5)) * fraction; sum_batch_sig=sum_batch_sig + pdu_sig ; % C batch Error pdu_c_batch=sum_batch_c/n; val=mfout{k5}(conseq_sec(k5,j5)+1,2); preval_c_2(j5,k5)=preval_c_1(j5,k5); preval_c_1(j5,k5)=val; dut_1=preval_c_1(j5,k5)-preval_c_2(j5,k5); u=val - n*pdu_c_batch + a*dut_1; % if u>1.1 u=1.1; elseif u<- 0.1 % c delimiter u=-0.1; % MFout{k5}(conseq_sec(k5,j5)+1,2)=u; % Sigma batch Error pdu_sig_batch=sum_batch_sig/n; val=mfout{k5}(conseq_sec(k5,j5)+1,1); preval_sig_2(j5,k5)=preval_sig_1(j5,k5); preval_sig_1(j5,k5)=val; dut_1=preval_sig_1(j5,k5) - preval_sig_2(j5,k5); u=val - n*pdu_sig_batch + a*dut_1; % 142

143 Παράρτημα ΙΙΙ Κώδικας MATLAB if u>0.5 u=0.5 elseif u< 0.1 % sigma delimiter u= 0.1 % MFout{k5}(conseq_sec(k5,j5)+1,1)=u; %~~~~~~~~~~~~~~~~~~~~~~~~~~~~ANTECEDENT TRAINING~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ for i5=1:sec_attrib columncounter=1; cellcounter=1; for j5=1:size(premise_sec,2) % keyval=c_sec{cellcounter, submodule}; [drill1 drill2 ] =size(keyval); while isempty(keyval) cellcounter=cellcounter+1; columncounter=1; keyval=c_sec{cellcounter, submodule}; [drill1 drill2 ] =size(keyval); if (columncounter > drill2) cellcounter=cellcounter+1; columncounter=1; % sum_batch_c=0; sum_batch_sig=0; for data=1:n %N=num_of_patterns dedomeno=train_set_sec(data); secondary_defuzz d=eyeclass(:,species_num(dedomeno)); pdw_c=0; pdw_sig=0; for k5=1:length(classes) err_def=-(d(k5)-y(k5)); % θy_k / θz_j nom=mfout{k5}(conseq_sec(k5,j5)+1,1) * (MFout{k5}(conseq_sec(k5,j5)+1,2) - y(k5)); denom=0; for q=1:size(premise_sec,2) denom=denom + premise_sec(q) * MFout{k5}(conseq_sec(k5,q)+1,1); pdy_k=nom / denom; sigmatec= Sigma_sec{cellCounter,submodule}(i5,columnCounter); ctec= C_sec{cellCounter,submodule}(i5,columnCounter); % θz_j/θe_ij eq.(17) pdz_j=1; for i_inner=1:sec_attrib if i_inner ~= i5 pdz_j=pdz_j*gaussmf(meas(dedomeno,i_inner), [Sigma_sec{cellCounter,submodule}(i_inner,columnCounter) C_sec{cellCounter,submodule}(i_inner,columnCounter)]); 143

144 Παράρτημα ΙΙΙ Κώδικας MATLAB % θe_ij / θw_ij (2 equations) ekt=- (meas(dedomeno,i5) - ctec)^2 / (2*sigmatec^2) ; pde_c= (meas(dedomeno,i5) - ctec) / sigmatec^2 * exp(ekt); pde_sig=(meas(dedomeno,i5) - ctec)^2 / sigmatec^3 * exp(ekt); pdw_c = pdw_c + err_def * pdy_k * pdz_j * pde_c ; pdw_sig = pdw_sig + err_def * pdy_k * pdz_j * pde_sig ; sum_batch_c=sum_batch_c + pdw_c; sum_batch_sig=sum_batch_sig + pdw_sig; % C batch Error pdw_c_batch=sum_batch_c/n; val=ctec; preval_wc_2(i5,j5)= preval_wc_1(i5,j5); preval_wc_1(i5,j5)= val; dut_1=preval_wc_1(i5,j5) - preval_wc_2(i5,j5); u=val - n*pdw_c_batch + a*dut_1; % if u>1.1 u=1.1; elseif u<- 0.1 % c delimiter u=-0.1; % C_sec{cellCounter,submodule}(i5,columnCounter)= u; % Sigma batch Error pdw_sig_batch=sum_batch_sig/n; val=sigmatec; preval_wsig_2(i5,j5)= preval_wsig_1(i5,j5); preval_wsig_1(i5,j5)= val; dut_1=preval_wsig_1(i5,j5) - preval_wsig_2(i5,j5); u=val - n*pdw_sig_batch + a*dut_1; % if u< 0.02 u= 0.02 % sigma delimiter % Sigma_sec{cellCounter,submodule}(i5,columnCounter)= u; % columncounter= columncounter+1; % % for plot the error accum_error=0; for i5=1:n % plot error per epoch dedomeno=train_set_sec(i5); realval=eyeclass(:,species_num(dedomeno)); Defuzzyfier error(i5)=0.5*sum((y-realval').^2); accum_error=accum_error+error(i5); 144

145 Παράρτημα ΙΙΙ Κώδικας MATLAB error_batch(epoch)=accum_error; epoch toc plot(error_batch) secondary_defuzz.m % PARAMETERS NEEDED %dedomeno; %submodule; clear premise_sec conseq_sec premise_sec_new conseq_sec_new premise_index % ~~~Compute secondary (premise_sec) firings % ~~~Observer~~~~~~~ catalyst=1; I1=submodule; %~~~~~~~~~~~~~~~~~~ if catalyst [C_sec_rows,C_sec_cols]=size(C_sec); count=0; j=i1 ; for i=1:c_sec_rows % only the group of subrules of this specific leaf if ~isempty(c_sec{i,j}) count=count+1; [internal_rows,internal_cols]=size(c_sec{i,j}); for k=1:internal_cols flag=0; for w=1:internal_rows if flag==0 % initialisation premise_sec(k,count)=gaussmf(meas(dedomeno,w), [Sigma_sec{i,j}(w,k) C_sec{i,j}(w,k)]); premise_index(k,count)=1; flag=1; else premise_sec(k,count)=premise_sec(k,count)*gaussmf(meas(dedomeno,w), [Sigma_sec{i,j}(w,k) C_sec{i,j}(w,k)]); premise_index(k,count)=1; % ~~~Compute output rule table (conseq_sec) outfeed=eye(length(classes)); class_num=g_sec{j,i}(1,); conseq_sec(:,count)=outfeed(:,class_num); % transform to typical form [siz1,siz2]=size(premise_sec); count=1; for j=1:siz2 for i=1:siz1 %recognize class from fisrt data, last column 145

146 Παράρτημα ΙΙΙ Κώδικας MATLAB if premise_index(i,j) ~=0 premise_sec_new(count)=premise_sec(i,j); conseq_sec_new(:,count)=conseq_sec(:,j); count=count+1; premise_sec=premise_sec_new; conseq_sec=conseq_sec_new; % ~~~ defuzzyfication [rows, columns]=size(conseq_sec); for i=1:rows % only primary rules nominator=0; denominator=0; for j=1:columns nominator=nominator+premise_sec(j)*mfout{i}(conseq_sec(i,j)+1,2)*mfout{i}(conseq_sec(i,j)+1,1); denominator=denominator+premise_sec(j)*mfout{i}(conseq_sec(i,j)+1,1); if denominator y(i)=nominator/denominator; else y(i)=0; Deffuzyfier.m % PARAMETERS NEEDED %dedomeno=134 %meas species species_num clear premise_sec_d conseq_sec_d premise_sec_normalized_d % to be correct flag_empty=0; % FOR PRIM. RULES % ~~~Keep only prim.attributes of meas meas_prim=meas(:,prim_attrib); % ~~~Compute premise firings premise_prim=ones(1,length(leafs)); % initialisation for i=1:length(leafs) for j=1:length(prim_attrib) premise_prim(i)=premise_prim(i)*gaussmf(meas_prim(dedomeno,j), [sigma(j,i) c(j,i)]); % ~~~ Involve expertise concept for i=1:length(leafs) premise_primt(i) = T(i) * premise_prim(i); % FOR SECOND. RULES % ~~~Compute secondary (premise_sec_d) firings [C1,I1]=max(premise_primT); % ~~~Observer~~~~~~~ 146

147 Παράρτημα ΙΙΙ Κώδικας MATLAB if find(lcp==i1) & submod_enabled catalyst=1; else catalyst=0; %~~~~~~~~~~~~~~~~~~ if I1==35 catalyst=0; if catalyst submod_activation=submod_activation+1; [C_sec_rows,C_sec_cols]=size(C_sec); count=0; j=i1 ; for i=1:c_sec_rows % only this spesific group of subrules of one leaf if ~isempty(c_sec{i,j}) flag_empty=1; count=count+1; [internal_rows,internal_cols]=size(c_sec{i,j}); for k=1:internal_cols flag=0; for w=1:internal_rows if flag==0 % initialisation premise_sec_d(k,count)=gaussmf(meas(dedomeno,w), [Sigma_sec{i,j}(w,k) C_sec{i,j}(w,k)]); flag=1; else premise_sec_d(k,count)=premise_sec_d(k,count)*gaussmf(meas(dedomeno,w), [Sigma_sec{i,j}(w,k) C_sec{i,j}(w,k)]); % ~~~Compute output rule table (conseq_sec_d) outfeed=eye(length(classes)); class_num=g_sec{j,i}(1,); %recognize class from fisrt data, last column conseq_sec_d(:,count)=outfeed(:,class_num); if ~flag_empty catalyst=0; % there is an LCP rule but it has not created subrules % defuzzyfication eq.(7) premise_prim_normalized=premise_prim/c1; [rows, columns]=size(conseq_prim); if catalyst C2=max(max(premise_sec_d)); premise_sec_normalized_d=premise_sec_d/c2; [dim1,dim2]=size(premise_sec_normalized_d); for i=1:rows % i means constant output nominator=0; denominator=0; for j=1:columns % primary part if j~= I1 nominator=nominator+premise_prim_normalized(j)*mfout{i}(conseq_prim(i,j)+1,2)*mfout{i}(conseq _prim(i,j)+1,1); denominator=denominator+premise_prim_normalized(j)*mfout{i}(conseq_prim(i,j)+1,1); 147

148 Παράρτημα ΙΙΙ Κώδικας MATLAB else for u1=1:dim1 % secondary part for u2=1:dim2 nominator=nominator+premise_sec_normalized_d(u1,u2)*mfout{i}(conseq_sec_d(i,u2)+1,2)*mfou t{i}(conseq_sec_d(i,u2)+1,1); denominator=denominator+premise_sec_normalized_d(u1,u2)*mfout{i}(conseq_sec_d(i,u2)+1,1); if denominator y(i)=nominator/denominator; else y(i)=0; for i=1:rows % only primary rules nominator=0; denominator=0; for j=1:columns nominator=nominator+premise_prim(j)*mfout{i}(conseq_prim(i,j)+1,2)*mfout{i}(conseq_prim(i,j)+1,1); denominator=denominator+premise_prim(j)*mfout{i}(conseq_prim(i,j)+1,1); if denominator y(i)=nominator/denominator; else y(i)=0; expertise_train.m T_init_flag=0; % to preserve the initial value of T N=length(species); for epoch=1:num_of_epochs for i6=1:length(leafs) a_t(i6)=0; for i6=1:n dedomeno=i6; Defuzzyfier a_t(i1)=a_t(i1)+1; a_t = a_t/n; for i6=1:length(leafs) T(i6)=T(i6)/(T_init(i6)+a_T(i6)); % eq.(18) epoch 148

149 Παράρτημα ΙΙΙ Κώδικας MATLAB evaluator.m submod_activation=0; clear meas species species_num count if testflag meas=testset; species=testspecies; TN=length(testset); else meas=trainset; species=trainspecies; TN=length(trainset); % ~~~ recreate species_num from its ashes for i=1:length(classes) count(i)=i; N=length(species); for i=1:n for j=1:length(classes) if strcmp(char(species(i)),char(classes(j))) species_num(i)=count(j); species_num=species_num'; % ~~~ find test error after training eyeclass=eye(length(classes)); accum_error=0; for iss=1:tn realval=eyeclass(:,species_num(iss)); Defuzzyfier pinakio(iss,:)=y; % to keep the defuzzyfied values erroraki(iss)=0.5*sum((y-realval').^2); accum_error=accum_error+erroraki(iss); accum_error % ~~~ MAX evaluator for finding accuracy maxrow = max(pinakio,[],2); [ds1 ds2]=size(pinakio); for i=1:ds1 for j=1:ds2 if pinakio(i,j)==maxrow(i) pinakio(i,j)=1; else pinakio(i,j)=0; 149

150 Παράρτημα ΙΙΙ Κώδικας MATLAB hit=0; for iss=1:tn if pinakio(iss,:)==eyeclass(species_num(iss),:) hit=hit+1; accuracy_percent=100 * hit / TN submod_activation_percent=100*submod_activation/tn; % Compute CART accuracy on test data sfit = eval(t1,testset); pct=mean(strcmp(sfit,testspecies))*100; % CART accuracy percent 150

151 Γλωσσάριο ΓΛΩΣΣΑΡΙΟ Αλγόριθμος απότομης καθόδου ή μεγίστης κλίσης ή deep descent algorithm : Τεχνική εύρεσης ελαχίστων μιας συνάρτησης που χρησιμοποιείται σε προβλήματα ελαχιστοποίησης βασισμένη στις μερικές παραγώγους. Δείγματα ή πρότυπα: Τα δεδομένα που παρουσιάζουμε στον ταξινομητή είτε για εκπαίδευση είτε για έλεγχο. Διασπορά ή τυπική απόκλιση: Μέτρο της απόκλισης των τιμών μιας μεταβλητής γύρω από τη μέση τιμή που ισούται με 1 2 ( ti x) /i=1: ν ο αύξων αριθμός του δείγματος i i1 δειγμάτων. t και x η μέση τιμή των Κανονικά διασπορά καλείται το τετράγωνο της τυπικής απόκλισης, δηλαδή η «διακύμανση», αλλά στην εργασία μας με τη λέξη διασπορά εννοούμε την τυπική απόκλιση. Τόσο η διακύμανση όσο και η τυπική απόκλιση καλούνται «μέτρα διασποράς» και πρέπει να παρατηρήσουμε ότι καλό είναι να μη χρησιμοποιείται η λέξη «διασπορά» ούτε για τη διακύμανση ούτε για την τυπική απόκλιση, προς αποφυγήν παρερμηνειών. Υπομονάδα ή υποδίκτυο ή submodule: Σύνολο κανόνων προερχόμενων από φύλλο χαμηλής αξιοπιστίας που χρησιμοποιεί όλα τα διαθέσιμα χαρακτηριστικά εισόδου. Χαρακτηριστικά ή features: Μεταβλητές εισόδου ενός προβλήματος ταξινόμησης. 151

152 Βιβλιογραφία ΒΙΒΛΙΟΓΡΑΦΙΑ [1] M. Pertselakis, A. Stafylopatis. Dynamic modular fuzzy neural classifier with treebased structure identification. Neurocomputing 71 (2008), [2] L. X. Wang. A Course in Fuzzy Systems and Control. International Edition, Prentice-Hall, 1997 [3] J. S. R. Jang, C. T. Sun, and E. Mizutani. Neuro Fuzzy and Soft Computing. Englewood Cliffs, NJ: Prentice-Hall, [4] Ναταλί- Μαρία Θ. Ραουζαίου. Διαχείριση Δομής Νευροασαφών Συστημάτων με Ανάλυση Ευαισθησίας. Διπλωματική εργασία, ΕΜΠ 2008 [5] Κώστας Α. Τσιώλης, Χρήστος Ι.Φερλές. Ασύρµατη Κατανεµηµένη Υλοποίηση Νευρο- Ασαφούς Συστήµατος Ταξινόµησης (Wireless Distributed Implementation of Fuzzy Neural Classification System). Διπλωματική εργασία, ΕΜΠ 2003 [6] Στέλιος Παπαδάκης, Παναγιώτης Αδαμίδης. Ασαφή Συστήματα Θεωρία και Εργαστηριακές Ασκήσεις. Τμήμα Πληροφορικής, Τ.Ε.Ι Θεσσαλονίκης 2004 [7] Zadeh, L. A. Fuzzy sets. Information & Control 8 (1965),

Δείτε περισσότερα