ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα ΕΥΦΥΗΣ ΕΛΕΓΧΟΣ Ενότητα #8: Βελτιστοποίηση Συστημάτων Ασαφούς Λογικής Αναστάσιος Ντούνης Τμήμα Μηχανικών Αυτοματισμού Τ.Ε.
Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό υλικό, όπως εικόνες, που υπόκειται σε άλλου τύπου άδειας χρήσης, η άδεια χρήσης αναφέρεται ρητώς. 2
Χρηματοδότηση Το παρόν εκπαιδευτικό υλικό έχει αναπτυχθεί στα πλαίσια του εκπαιδευτικού έργου του διδάσκοντα. Το έργο «Ανοικτά Ακαδημαϊκά Μαθήματα στο Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα» έχει χρηματοδοτήσει μόνο την αναδιαμόρφωση του εκπαιδευτικού υλικού. Το έργο υλοποιείται στο πλαίσιο του Επιχειρησιακού Προγράμματος «Εκπαίδευση και Δια Βίου Μάθηση» και συγχρηματοδοτείται από την Ευρωπαϊκή Ένωση (Ευρωπαϊκό Κοινωνικό Ταμείο) και από εθνικούς πόρους. 3
Σκοποί ενότητας Αλγόριθμος βελτιστοποίησης με τη μέθοδο GD (Gradient Descent) Ασαφές σύστημα ως νευρωνικό δίκτυο Βελτιστοποίηση των παραμέτρων του ασαφούς συστήματος- Αλγόριθμος Μέθοδος υπολογισμού αρχικών τιμών των παραμέτρων 4
Περιεχόμενα ενότητας Εισαγωγή Αλγόριθμος βελτιστοποίησης με τη μέθοδο GD (Gradient Descent) Ασαφές σύστημα ως νευρωνικό δίκτυο Βελτιστοποίηση των παραμέτρων του ασαφούς συστήματος- Αλγόριθμος Μέθοδος υπολογισμού αρχικών τιμών των παραμέτρων Ασκήσεις 5
Εισαγωγή
Εισαγωγή (1) Τα νευρωνικά δίκτυα επιχειρούν να μιμηθούν τους μηχανισμούς του ανθρώπινου μυαλού σε βιολογικό επίπεδο, ενώ τα ασαφή συστήματα επιδιώκουν να αναπαραστήσουν τους μηχανισμούς της ανθρώπινης σκέψης. Ένα εκπαιδευμένο νευρωνικό δίκτυο ενσωματώνει τη γνώση στη δομή και στα βάρη των συνδέσεων, ενώ σ ένα ασαφές σύστημα η γνώση αναπαρίσταται με γλωσσικούς κανόνες. Η επεξεργασία των δεδομένων στα ασαφή συστήματα επιτυγχάνεται με συνεπαγωγές, ενώ στα νευρωνικά δίκτυα με αριθμητικές τεχνικές. Η γνώση στα ασαφή συστήματα δημιουργείται από εμπειρογνώμονες, ενώ η γνώση στα νευρωνικά δίκτυα προέρχεται μέσω αριθμητικών παραδειγμάτων και κωδικοποιείται στα βάρη του δικτύου. 7
Εισαγωγή (2) Ο μηχανισμός συμπεράσματος στα ασαφή συστήματα είναι πλήρως κατανοητός και διάφανος, ενώ αντίθετα στο νευρωνικό ελεγκτή ο μηχανισμός αυτός λειτουργεί χωρίς διαφάνεια σαν ένα μαύρο κουτί. Ο συνδυασμός ασαφούς λογικής και νευρωνικών δικτύων δημιουργεί τα νευρο-ασαφή συστήματα. Στα συστήματα αυτά ενσωματώνονται οι τεχνικές μάθησης των νευρωνικών δικτύων και οι τεχνικές συλλογισμού της ασαφούς λογικής. Τα νευρο-ασαφή συστήματα χρησιμοποιούν συνδυαστικά γνώση και αριθμητικά δεδομένα με στόχο έναν ευέλικτο εύκαμπτο σύστημα. 8
Αλγόριθμος βελτιστοποίησης με τη μέθοδο GD (Gradient Descent)
Περιγραφή του αλγορίθμου βελτιστοποίησης με τη μέθοδο της μείωσης της κλίσης (1) Η μείωση της κλίσης Gradient Descent) είναι ένας αλγόριθμος βελτιστοποίησης. Για να υπολογίσουμε το τοπικό ελάχιστο μιας συνάρτησης χρησιμοποιούμε τον αλγόριθμο GD Η μέθοδος GD είναι επίσης γνωστή και ως μέθοδος της απότομης κλίσης (steepest descent). Η GD βελτιστοποίηση έχει οδηγήσει σε έναν από τους περισσότερο γνωστούς αλγόριθμους μάθησης, τον αλγόριθμο της οπισθοδρομικής διάδοσης (back propagation) 10
Περιγραφή του αλγορίθμου βελτιστοποίησης με τη μέθοδο της μείωσης της κλίσης (2) Η μέθοδος GD βασίζεται στην παρατήρηση ότι εάν μια πραγματική συνάρτηση είναι διαφορίσημη σε ένα σημεία α τότε η τιμή της f(x) μειώνεται γρήγορα εάν απομακρυνόμαστε από το σημείο α στην κατεύθυνση της αρνητικής κλίσης της f(x) στο α, ff(αα). Δηλαδή, bb = aa λλ ff(aa) Όπου λ ένα αρκετά μικρός θετικός αριθμός και ff(αα) ff(bb). Με αυτό το δεδομένο μπορούμε να ξεκινήσουμε από το σημείο xx 0 για να υπολογίσουμε το τοπικό ελάχιστο της f. Δηλαδή, xx nn+1 = xx nn λλ nn ff(xx nn ) 11
Περιγραφή του αλγορίθμου βελτιστοποίησης με τη μέθοδο της μείωσης της κλίσης (3) Και ff(xx 0 ) ff(xx 1 ) ff(xx 2 ) Έτσι ευελπιστούμε η ακολουθία xx nn να συγκλίνει στο επιθυμητό τοπικό ελάχιστο. Η τιμή του μεγέθους του βήματος λ, που ονομάζεται και ρυθμός μάθησης στη θεωρία των νευρωνικών δικτύων, μπορεί να αλλάζει σε κάθε επανάληψη (iteration). Μια επανάληψη μάθησης ονομάζεται εποχή (epoch). 12
Περιγραφή του αλγορίθμου βελτιστοποίησης με τη μέθοδο της μείωσης της κλίσης (4) Ας υποθέσουμε ότι επιλέγουμε για ελαχιστοποίηση το τετραγωνικό σφάλμα E με παράμετρο βελτιστοποίησης την w. Αυτό μπορεί να επιτευχθεί χρησιμοποιώντας τη μέθοδο GD, δηλαδή σε κάθε επανάληψη το σφάλμα να μειώνεται γρήγορα όσο το δυνατόν μετακινούμενο προς την κατεύθυνση της αρνητικής κλίσης της Ε. Η αυξητική αλλαγή της μεταβλητής w δίνεται από τον τύπο: ΔΔww(nn) = ww(nn + 1) ww(nn) = λλ ww(nn) Στο σχήμα 1, που ακολουθεί, φαίνεται η λειτουργία του αλγόριθμου GD για την ελαχιστοποίηση της συνάρτηση του σφάλματος Ε. 13
Περιγραφή του αλγορίθμου βελτιστοποίησης με τη μέθοδο της μείωσης της κλίσης (5) Σχήμα 1. Επιφάνεια σφάλματος. Μέθοδος GD για τον εντοπισμό του ελαχίστου της συνάρτηση σφάλματος. 14
Επιλογή της δομής του συστήματος ασαφούς λογικής
Επιλογή της δομής του συστήματος ασαφούς λογικής (1) Για τη δομή του ασαφούς συστήματος επιλέγεται ο μηχανισμός συμπεράσματος με γινόμενο, μονότιμο ασαφοποιητή, αποασαφοποιητή COA και γκαουσιανές συναρτήσεις συμμετοχής. Η μαθηματική έκφραση του ασαφούς συστήματος είναι: με ff(xx) = MM nn ll=1 zz ll ( ii=1 μμ ll ΑΑii (xx ii )) MM nn ( μμ ll ΑΑii (xx ii ) ll=1 ii=1 ) μμ ll ΑΑii (xx ii ) = exp [ 1 2 (xx ii xx ii ll ll ) 2 ] σσ ii 16
Επιλογή της δομής του συστήματος ασαφούς λογικής (2) όπου Μ εκφράζει τον αριθμό των ασαφών κανόνων, το n είναι ο αριθμός των εισόδων του ελεγκτή, το μμ ΑΑ είναι η συνάρτηση συμμετοχής των γλωσσικών μεταβλητών των εισόδων και το z είναι το κέντρο του ασαφούς συνόλου του συμπεράσματος του κανόνα δηλαδή το σημείο στο οποίο η συνάρτηση συμμετοχής έχει βαθμό συμμετοχής μονάδα. Ο αριθμός των κανόνων είναι προκαθορισμένος και zz ll, xx ii ll και σσ ii ll είναι οι ελεύθερες παράμετροι προς βελτιστοποίηση. Ο σχεδιασμός του ασαφούς συστήματος τώρα ουσιαστικά είναι ο καθορισμός αυτών των παραμέτρων. 17
Επιλογή της δομής του συστήματος ασαφούς λογικής (3) Εάν συμβολίσουμε την πυροδότηση του κάθε κανόνα με τον nn τύπο ww ll = μμ ΑΑii ll (xxii ) τότε σε πιο απλοποιημένη μαθηματική μορφή το σύστημα ασαφούς λογικής γράφεται: ff = MM ll=1 zzll ww ll MM = aa bb ii=1 ll=1 ww ll Παρατηρώντας τον τελευταίο συναρτησιακό τύπο διαπιστώνουμε ότι αυτό μπορεί να παρουσιαστεί με ένα πρόσθιο δίκτυο τριών στρωμάτων, όπως φαίνεται στο Σχήμα 2. 18
Επιλογή της δομής του συστήματος ασαφούς λογικής (4) Σχήμα 2. Παρουσίαση του ασαφούς συστήματος με μορφή νευρωνικού δικτύου. 19
Βελτιστοποίηση των παραμέτρων με τη μέθοδο GD
Βελτιστοποίηση των παραμέτρων με τη μέθοδο GD (1) Το ασαφές σύστημα είναι εφοδιασμένο με τους κανόνες που έχουν προκύψει από τα δεδομένα εισόδου/εξόδου. Για να ρυθμίσουμε τις παραμέτρους zz ll, xx ll ll ii, σσ ii ορίζουμε μια συνάρτηση κόστους του σφάλματος e με στόχο την ελαχιστοποίησή της για κάθε ζευγάρι δεδομένων. ee = 1 [ff dd]2 2 Με την εφαρμογή της μεθόδου GD οι παράμετροι υπολογίζονται από τους παρακάτω τύπους: zz ll (kk + 1) = zz ll (kk) λλ zz ll kk xx ii ll (kk + 1) = xx ii ll (kk) λλ xx ii ll kk σσ ii ll (kk + 1) = σσ ii ll (kk) λλ σσ ii ll kk 21
Βελτιστοποίηση των παραμέτρων με τη μέθοδο GD (2) Για να υπολογίσουμε τις παραγώγους της συνάρτησης του σφάλματος e πρέπει να γνωρίζουμε την παρακάτω βασική ιδιότητα των παραγώγων. Έστω η παρακάτω συνάρτηση: ff(zz, ww) = MM ll=1 zzll ww ll MM ll=1 ww ll = zz1 ww 1 + zz 2 ww 2 + + zz MM ww MM ww 1 + ww 2 + + ww MM = (zzll ) TT ww ll MM ll=1 ww ll τότε Ιδιότητα 1: (zz, ww) zz ll = wwll MM ll=1 ww ll 22
Υπολογισμός μερικών παραγώγων
Υπολογισμός μερικών παραγώγων (1) 1. Υπολογισμός της μερικής παραγώγου και βάσει της ιδιότητας 1 έχουμε: Τελικά 1 ee ( = 2 [ff dd]2 ) zzll zz ll = (ff dd) zz ll ee wwll = (ff dd) = (ff dd) zzll zzll bb ee zz ll zz ll (κκ + 1) = zz ll (ff dd) (κκ) λλ ww ll (1) bb 24
Υπολογισμός μερικών παραγώγων (2) 2. Υπολογισμός της μερικής παραγώγου ee ll xx = ( 1 2 [ff dd]2 ) ll ii xx ii = (ff dd) xx ii ll Εφαρμόζοντας τον κανόνα της αλυσίδας υπολογίζουμε την ποσότητα ll xx = ww ll ii ww ll ll xx ii ee xx ii ll ww ll = (zzll ) TT ww ll MM ll=1 ww ll ww ll = = zzll MM ll=1 ww ll (zz ll ) TT ww ll MM ( ww ll [(zz ll ) TT ww ll ] ww ll ww ll ll=1 ) 2 MM ll=1 (zz ll ) TT ww ll ( MM ll=1 wwll ) ww ll MM ( ll=1 ww ll ) 2 25
Υπολογισμός μερικών παραγώγων (3) Οπότε ww ll = zzll (zzll ) TT ww ll MM ll=1 ww ll 1 MM ll=1 ww ll = (zz ll ff) 1 MM ll=1 ww ll = zzll ff bb 26
Υπολογισμός μερικών παραγώγων (4) Επομένως Οπότε nn ww ll ll = ee xx ii ii=1 ff xx ii ll = (zzll ff) ll 1 2 (xx ii xx ii ) 2 σσ ii ll 1 MM ll=1 ww ll (xx ii xx ii ll ) σσ ii ll ww ll (xx ii xx ii ll ) (σσ ii ll ) 2 1 σσll = (xxii xx ii wwll (σσ ll ii ii ) 2 ll ) Άρα Τελικά ee xx ii ll = (ff dd)(zzll ff) = ff dd bb xx ll ii (κκ + 1) = xx ll (ff dd) ii (κκ) λλ bb 1 MM ll=1 ww ll (zz ll ff)ww ll (xx ii xx ii ll ) σσ ii ll 2 ww ll (xx ii xx ii ll ) σσ ii ll 2 (zz ll (kk) ff) ww ll (xx ii xx ii ll (kk)) σσ ii ll (kk) 2 (2) 27
Υπολογισμός μερικών παραγώγων (5) 3. Υπολογισμός της μερικής παραγώγου ee σσ ii ll = (ff dd) ff σσ ii ll Εφαρμόζουμε τον κανόνα της αλυσίδας και έχουμε ee σσ ii ll ww ll σσ ii ll ff σσ ii ll = ff ww ll ww ll σσ ii ll ff ww ll = zzll ff bb nn = ee ii=1 ll 1 2 (xx ii xx ii ) 2 σσ ii ll (xx ii xx ii ll ) σσ ii ll (xxii xx ii (σσ ll ii ) 2 ll ) = wwll (xx ii xx ii (σσ ll ii ) 3 ll ) 2 28
Υπολογισμός μερικών παραγώγων (6) Τελικά σσ ii ll (κκ + 1) = σσ ii ll (κκ) λλ(ff dd) zzll (kk) ff bb ww ll (xx ii xx ll ii (kk)) 2 σσ ll 3 (3) ii (kk) 29
Αλγόριθμος εκπαίδευσης του ασαφούς συστήματος
Αλγόριθμος εκπαίδευσης του ασαφούς συστήματος (1) 1 ο βήμα: Καθορισμός της δομής και τω αρχικών τιμών των παραμέτρων. Οι αρχικές τιμές των παραμέτρων μπορούν να καθοριστούν σύμφωνα με γλωσσικούς κανόνες από εμπειρογνώμονες ή η επιλογή να γίνει με τέτοιο τρόπο ώστε οι συναρτήσεις συμμετοχής να καλύπτουν ομοιόμορφα τους χώρους της εισόδου και της εξόδου. Ο τρόπος επιλογής των αρχικών τιμών εξαρτάται κυρίως από το πρόβλημα που αντιμετωπίζεται. 31
Αλγόριθμος εκπαίδευσης του ασαφούς συστήματος (2) 2 ο βήμα: Εφαρμόζεται τα πρώτο δεδομένο στην είσοδο του ασαφούς συστήματος και υπολογίζεται η έξοδος από τα τρία επίπεδα (Σχήμα 2). Δηλαδή υπολογίζονται οι ποσότητες: nn ww ll = μμ ll ΑΑii(xxii ) = ee 1 2 ii=1 MM aa = zz ll (kk)ww ll ll=1 nn ii=1 ; ; ff = aa bb ll (xx ii xx ii (κκ)) 2 σσ ll ii (κκ) MM bb = ww ll ll=1 32
Αλγόριθμος εκπαίδευσης του ασαφούς συστήματος (3) 3 ο βήμα. Ενημέρωση των παραμέτρων. Χρησιμοποιώντας τον αλγόριθμο εκπαίδευσης (εξισώσεις 1,2,3) ενημερώνονται οι παράμετροι zz ll (kk + 1), xx ll ii (kk + 1) κκκκκκ σσ ll ii (kk + 1) 4 ο βήμα. Επαναλαμβάνονται τα βήματα 2 και 3 με k=k+1 μέχρι το σφάλμα ff dd να γίνει μικρότερο από ένα προκαθορισμένο μικρό αριθμό ή έναν προκαθορισμένο αριθμό επαναλήψεων κ. 33
Αλγόριθμος εκπαίδευσης του ασαφούς συστήματος (4) 5 ο βήμα. Επαναλαμβάνονται τα βήματα 2 έως 4 με το επόμενο ζευγάρι δεδομένων. 6 ο βήμα. Επαναλαμβάνονται τα βήματα 2 έως 5 μέχρι το ασαφές σύστημα να δουλεύει ικανοποιητικά. Για προβλήματα αναγνώρισης προτύπων όπου το σύνολο των δεδομένων εισόδου/εξόδου είναι γνωστά το 6 ο βήμα είναι εφικτό. Για on-line προβλήματα ελέγχου και δυναμική αναγνώριση συστημάτων το βήμα αυτό δεν είναι εφικτό επειδή το ζεύγος εισόδου/εξόδου σε πραγματικό χρόνο παρέχεται ένα-ένα. 34
Αλγόριθμος εκπαίδευσης του ασαφούς συστήματος (5) Για τον αλγόριθμο βελτιστοποίησης GD η επιλογή των αρχικών τιμών των παραμέτρων είναι κρίσιμη για τη σύγκλιση του αλγορίθμου στη βέλτιστη λύση. Διαφορετικά ο αλγόριθμος μπορεί να δώσει μια μη βέλτιστη λύση (τοπικό ελάχιστο) ή μπορεί και να αποκλίνει. Επειδή οι παράμετροι έχουν σαφώς φυσικό περιεχόμενο μπορεί να γίνει μια καλή επιλογή αρχικών τιμών. Η παράμετρος zz ll είναι το κέντρο των ασαφών συνόλων στο συμπερασματικό μέρος τω ασαφών κανόνων. Οι παράμετροι xx ii ll και σσ ii ll είναι τα κέντρα και τα εύροι των γκαουσιανών ασαφών συνόλων στο υποθετικό μέρος των ασαφών κανόνων. 35
Μέθοδος υπολογισμού αρχικών τιμών των παραμέτρων z, x, σ
Μέθοδος υπολογισμού αρχικών τιμών των παραμέτρων z, x, σ (1) Ας υποθέσουμε ότι διαθέτουμε Ν ζεύγη εσόδων/εξόδων (xx pp, dd pp ) όπου pp = 1,2,, NN και xx RR nn.. Έστω ότι επιλέγουμε ένα κλάσμα των δεδομένων για να δημιουργήσουμε τους Κ (Κ=N/m) κανόνες του ασαφούς συστήματος. Ταξινομούμε τα δεδομένα κατά αύξουσα σειρά dd ii dd ii+1, ii = 1,2,, NN 1, δηλαδή [ xx 1, dd 1, xx 2, dd 2,, xx NN, dd NN ]. Τότε η επιλογή των αρχικών τιμών των παραμέτρων mm των Κ κανόνων γίνεται ως εξής: zz ll (0) = 1 mm ddrr+(ll 1)mm, ll = 1,2,, KK rr=1 mm xx ii ll (0) = 1 mm xx iirr+(ll 1)mm, ll = 1,2,, nn rr=1 37
Μέθοδος υπολογισμού αρχικών τιμών των παραμέτρων z, x, σ (2) Επιλέγουμε οπότε και xx ii (mmmmmm) = max (xx 1 ii, xx 2 ii,, xx NN ii ) xx ii (mmmmmm) = min (xx 1 ii, xx 2 ii,, xx NN ii ) σσ ll ii (0) = xx ii(mmmmmm) xx ii (mmmmmm), ll = 1,2,, KK κκκκκκ ii = 1,2,, nn ΚΚ 38
Αριθμητικό παράδειγμα
Αριθμητικό παράδειγμα (1) Έστω τέσσερα αριθμητικά δεδομένα εισόδου-εξόδου τα οποία είναι ταξινομημένα κατά αύξουσα σειρά. Επιλέγουμε το m=2 και έτσι δημιουργούμε 2 κανόνες. Εάν xx 1 1 είναι AA 1 1 και xx 2 1 είναι AA 2 1 Τότε y είναι zz 1 Εάν xx 1 2 είναι AA 1 2 και xx 2 2 είναι AA 2 2 Τότε y είναι zz 2 Επομένως πρέπει να καθοριστούν οι αρχικές τιμές των παραμέτρων των ασαφών συνόλων. Δεδομένα 1o (2,3;1.5), 2o (1,4;17), 3o (5,2;27), 4o (0.5, 6;37) 40
Αριθμητικό παράδειγμα (2) Για όλους τους κανόνες ισχύουν: xx 1 (mmmmmm) = (2,1,5,0.5) = 5, xx 1 (mmmmmm) = (2,1,5,0.5) = 0.5 Και xx 2 (mmmmmm) = (3,4,2,6) = 6, xx 2 (mmmmmm) = (3,4,2,6) = 2 Αρχικές τιμές του 1ου κανόνα zz 1 (0) = dd1 + dd 2 2 xx 1 1 (0) = xx 1 1 2 + xx 1 2 15 + 17 = = 16 2 = 2 + 1 = 1.5, xx 1 2 2 (0) = xx 2 1 2 + xx 2 2 Αρχικές τιμές του 2ου κανόνα = 3 + 4 2 zz 2 (0) = dd3 + dd 4 = 64 2 2 = 32 xx 2 1 (0) = xx 1 3 4 + xx 1 = 5 + 0.5 = 2.75, xx 2 2 2 2 (0) = xx 2 3 4 + xx 2 2 = 3.5 = 2 + 6 2 = 4 41
Ασκήσεις
Ασκήσεις (1) 1. Η διαφορική πληροφορία των παραμετροποιημένων συναρτήσεων συμμετοχής παίζει σημαντικό ρόλο στη διαδικασία εκπαίδευσης των ασαφών συστημάτων. Να βρεθούν οι παράγωγοι,,, για την τριγωνική συνάρτηση συμμετοχής με τύπο AA xx = 1 2 xx aa όπου α το κέντρο του bb τριγώνου με βαθμό συμμετοχής «1» και b είναι το εύρος της βάσης του τριγώνου. Να βρεθούν οι παράγωγοι,,, για τη συνάρτηση 1 συμμετοχής bell με τύπο bbbbbbbb xx, aa, bb, cc = 1+ xx cc aa Να βρεθούν οι παράγωγοι,,, για τη γκαουσιανή συνάρτηση συμμετοχής με τύπο gggggggggggggggg xx, σσ, cc = exp ( 1 2 [xx cc 2bb σσ ]2 ) 43
Ασκήσεις (2) 2. Εάν θεωρήσουμε ότι τα σαφή σύνολα εκφράζονται από τριγωνικές συναρτήσεις (Άσκηση 1.α) να εφαρμοστεί η μέθοδος GD και να βρεθούν οι αναδρομικοί τύποι ενημέρωσης των παραμέτρων α και b. 44
Τέλος Ενότητας