ΑΛΓΟΡΙΘΜΟΣ ΕΝΙΣΧΥΤΙΚΗΣ ΜΑΘΗΣΗΣ ΓΙΑ ΤΗ ΡΥΘΜΙΣΗ ΔΙΕΡΓΑΣΙΩΝ ΜΕ ΚΑΤΑΣΚΕΥΗ ΝΕΥΡΩΝΙΚΩΝ ΔΙΚΤΥΩΝ ΑΚΤΙΝΙΚΗΣ ΣΥΝΑΡΤΗΣΗΣ ΒΑΣΗΣ ΣΕ ΠΡΑΓΜΑΤΙΚΟ ΧΡΟΝΟ

Σχετικά έγγραφα
ΕΛΕΓΧΟΣ ΠΑΡΑΓΩΓΙΚΩΝ ΔΙΕΡΓΑΣΙΩΝ

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος

Ψηφιακός Έλεγχος. 6 η διάλεξη Σχεδίαση στο χώρο κατάστασης. Ψηφιακός Έλεγχος 1

Αναγνώριση Προτύπων Ι

ΔΙΚΤΥO RBF. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Στοχαστικές Στρατηγικές

Μέθοδοι πολυδιάστατης ελαχιστοποίησης

ΕΛΕΓΧΟΣ ΒΙΟΜΗΧΑΝΙΚΩΝ ΔΙΕΡΓΑΣΙΩΝ ΚΕΦΑΛΑΙΟ 4 ΚΕΦΑΛΑΙΟ 5. ΑΝΑΓΝΩΡΙΣΗ ΔΙΕΡΓΑΣΙΑΣ ΠΡΟΣΑΡΜΟΣΤΙΚΟΣ ΕΛΕΓΧΟΣ (Process Identifications)

Μάθηση και Γενίκευση. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

ΚΕΦΑΛΑΙΟ 3. Περιγραφή της Μεθόδου ΠΕΡΙΓΡΑΦΗ ΤΗΣ ΜΕΘΟΔΟΥ

ΕΥΦΥΗΣ ΕΛΕΓΧΟΣ. Ενότητα #12: Εισαγωγή στα Nευρωνικά Δίκτυα. Αναστάσιος Ντούνης Τμήμα Μηχανικών Αυτοματισμού Τ.Ε.

ΕΛΕΓΧΟΣ ΠΑΡΑΓΩΓΙΚΩΝ ΔΙΕΡΓΑΣΙΩΝ

ΠΡΟΣΑΡΜΟΣΤΙΚΟΣ ΕΛΕΓΧΟΣ ΡΟΜΠΟΤΙΚΟΥ ΒΡΑΧΙΟΝΑ ΜΕ ΕΞΑΣΦΑΛΙΣΗ ΠΡΟΚΑΘΟΡΙΣΜΕΝΗΣ ΕΠΙΔΟΣΗΣ ΣΤΟ ΣΦΑΛΜΑ ΠΑΡΑΚΟΛΟΥΘΗΣΗΣ ΤΡΟΧΙΑΣ ΣΤΙΣ ΑΡΘΡΩΣΕΙΣ.

Πανεπιστήμιο Πατρών Τμήμα Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών. Διάλεξη 13

ΣΤΟΧΑΣΤΙΚΕΣ ΔΙΕΡΓΑΣΙΕΣ & ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ Αίθουσα Νέα Κτίρια ΣΗΜΜΥ Ε.Μ.Π.

Αριθμητική Ανάλυση και Εφαρμογές

Δρ. Βασίλειος Γ. Καμπουρλάζος Δρ. Ανέστης Γ. Χατζημιχαηλίδης

Μέθοδοι μονοδιάστατης ελαχιστοποίησης

ΠΕΙΡΑΜΑΤΙΚΕΣ ΠΡΟΣΟΜΟΙΩΣΕΙΣ ΚΕΦΑΛΑΙΟ 4. είναι η πραγματική απόκριση του j δεδομένου (εκπαίδευσης ή ελέγχου) και y ˆ j

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D.

Το μοντέλο Perceptron

ΔΙΑΧΕΙΡΙΣΗ ΥΔΑΤΙΚΩΝ ΠΟΡΩΝ

Το µαθηµατικό µοντέλο του Υδρονοµέα

Μέθοδοι μονοδιάστατης ελαχιστοποίησης

Ασκήσεις Φροντιστηρίου «Υπολογιστική Νοημοσύνη Ι» 4 o Φροντιστήριο

4. ΚΕΦΑΛΑΙΟ ΕΦΑΡΜΟΓΕΣ ΤΟΥ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΥ FOURIER

ΦΙΛΤΡΟ KALMAN ΔΙΑΚΡΙΤΟΥ ΧΡΟΝΟΥ

Μοντέλο Perceptron πολλών στρωμάτων Multi Layer Perceptron (MLP)

E [ -x ^2 z] = E[x z]

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

Μοντελοποίηση Προσομοίωση

Στοχαστικές Μέθοδοι στους Υδατικούς Πόρους Φασματική ανάλυση χρονοσειρών

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D.

Βασικές αρχές εκπαίδευσης ΤΝΔ: το perceptron. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Διαχείριση Εφοδιαστικής Αλυσίδας ΙΙ

Εθνικό Μετσόβιο Πολυτεχνείο Τομέας Υδατικών Πόρων και Περιβάλλοντος. Διαχείριση Υδατικών Πόρων

Γραμμικός Προγραμματισμός Μέθοδος Simplex

ΜΟΝΤΕΛΟΠΟΙΗΣΗ ΔΙΑΚΡΙΤΩΝ ΕΝΑΛΛΑΚΤΙΚΩΝ ΣΕ ΠΡΟΒΛΗΜΑΤΑ ΣΧΕΔΙΑΣΜΟΥ ΚΑΙ ΣΥΝΘΕΣΗΣ ΔΙΕΡΓΑΣΙΩΝ

ΑΝΑΠΤΥΞΗ ΜΕΘΟ ΟΛΟΓΙΑΣ ΕΚΠΑΙ ΕΥΣΗΣ ΝΕΥΡΩΝΙΚΩΝ ΙΚΤΥΩΝ ΓΙΑ ΜΟΝΤΕΛΟΠΟΙΗΣΗ ΜΗ ΓΡΑΜΜΙΚΩΝ ΣΥΣΤΗΜΑΤΩΝ ΜΕ ΕΦΑΡΜΟΓΗ ΣΤΗΝ ΠΡΟΒΛΕΨΗ ΤΟΥ ΕΙΚΤΗ ΙΑΘΛΑΣΗΣ ΥΛΙΚΩΝ

Συστήματα Αυτόματου Ελέγχου

E[ (x- ) ]= trace[(x-x)(x- ) ]

ΕΛΕΓΧΟΣ ΒΙΟΜΗΧΑΝΙΚΩΝ ΔΙΕΡΓΑΣΙΩΝ ΚΕΦΑΛΑΙΟ 4 ΚΕΦΑΛΑΙΟ 4 ΠΡΟΣΑΡΜΟΣΤΙΚΟΣ ΚΑΙ ΣΥΜΠΕΡΑΣΜΑΤΙΚΟΣ ΕΛΕΓΧΟΣ

Εθνικό Μετσόβιο Πολυτεχνείο Τομέας Υδατικών Πόρων και Περιβάλλοντος. Τεχνολογία Συστημάτων Υδατικών Πόρων

MATLAB. Εισαγωγή στο SIMULINK. Μονάδα Αυτόματης Ρύθμισης και Πληροφορικής

ΠΡΟΒΛΗΜΑΤΑ ΜΕΤΑΦΟΡΑΣ

ΕΝΟΤΗΤΑ III ΒΑΣΙΚΕΣ ΜΕΘΟ ΟΙ ΑΝΑΛΥΣΗΣ

3 η ΕΝΟΤΗΤΑ ΜΗ ΓΡΑΜΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΕΝΟΣ ΚΡΙΤΗΡΙΟΥ

Ανάπτυξη και δηµιουργία µοντέλων προσοµοίωσης ροής και µεταφοράς µάζας υπογείων υδάτων σε καρστικούς υδροφορείς µε χρήση θεωρίας νευρωνικών δικτύων

ΕΥΦΥΗΣ ΕΛΕΓΧΟΣ. Ενότητα #8: Βελτιστοποίηση Συστημάτων Ασαφούς Λογικής. Αναστάσιος Ντούνης Τμήμα Μηχανικών Αυτοματισμού Τ.Ε.

Γραφική Λύση & Πρότυπη Μορφή Μαθηματικού Μοντέλου

Πληροφοριακά Συστήματα Διοίκησης

z = c 1 x 1 + c 2 x c n x n

Αριθμητική Ανάλυση και Εφαρμογές

Εισαγωγή στην υδροπληροφορική και βελτιστοποίηση συστημάτων υδατικών πόρων

Επιχειρησιακή Έρευνα. Εισαγωγική Διάλεξη

ΚΕΦΑΛΑΙΟ Μηχανική Μάθηση

Η Βασική Δομή Συστημάτων Ελέγχου Κίνησης

ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

6. Στατιστικές μέθοδοι εκπαίδευσης

Συνήθεις διαφορικές εξισώσεις προβλήματα οριακών τιμών

Πανεπιστήµιο Κύπρου Πολυτεχνική Σχολή

Στοχαστικές Στρατηγικές

ΒΑΣΙΚΑ ΣΤΟΙΧΕΙΑ ΘΕΩΡΙΑΣ ΤΗΣ ΜΕΘΟΔΟΥ SIMPLEX

Συστήματα Αυτόματου Ελέγχου

Εκπαίδευση ΤΝΔ με ελαχιστοποίηση του τετραγωνικού σφάλματος εκπαίδευσης. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν.

Εισαγωγή στα Τεχνητά Νευρωνικά Δίκτυα. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Η μέθοδος Simplex. Γεωργία Φουτσιτζή-Γκόγκος Χρήστος ΤΕΙ Ηπείρου Επιχειρησιακή Έρευνα. Τμήμα Μηχανικών Πληροφορικής ΤΕ

3. O ΑΛΓΟΡΙΘΜΟΣ ΤΟΥ PERCEPTRON

Φ. Δογάνης I. Bafumba Χ. Σαρίμβεης. Εθνικό Μετσόβιο Πολυτεχνείο Σχολή Χημικών Μηχανικών Μονάδα Αυτόματης Ρύθμισης και Πληροφορικής

καθ. Βασίλης Μάγκλαρης

Αριθμητική Ανάλυση & Εφαρμογές

ΑΝΤΑΓΩΝΙΣΤΙΚΗ ΜΑΘΗΣΗ ΔΙΚΤΥA LVQ και SOM. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Μία μέθοδος προσομοίωσης ψηφιακών κυκλωμάτων Εξελικτικής Υπολογιστικής

ΣΥΣΤHΜΑΤΑ ΑΠΟΦAΣΕΩΝ ΣΤΗΝ ΠΑΡΑΓΩΓH

Κινητά Δίκτυα Επικοινωνιών. Συμπληρωματικό υλικό. Προσαρμοστική Ισοστάθμιση Καναλιού

min f(x) x R n b j - g j (x) = s j - b j = 0 g j (x) + s j = 0 - b j ) min L(x, s, λ) x R n λ, s R m L x i = 1, 2,, n (1) m L(x, s, λ) = f(x) +

Μέρος V. Ανάλυση Παλινδρόμηση (Regression Analysis)

Βελτιστοποίηση εναλλακτών θερμότητας

ΓΡΑΜΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ με το EXCEL

ΠΛΗ513 - Αυτόνομοι Πράκτορες Αναφορά Εργασίας

y(k) + a 1 y(k 1) = b 1 u(k 1), (1) website:

Το Πολυεπίπεδο Perceptron. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Παρουσίαση 2 η : Αρχές εκτίμησης παραμέτρων Μέρος 1 ο

Κεφ. 7: Συνήθεις διαφορικές εξισώσεις (ΣΔΕ) - προβλήματα αρχικών τιμών

Υποθέστε ότι ο ρυθμός ροής από ένα ακροφύσιο είναι γραμμική συνάρτηση της διαφοράς στάθμης στα δύο άκρα του ακροφυσίου.

4.4 Βάσεις Δεδομένων με πολλές Μεταβλητές

Αριθμητική Ανάλυση και Εφαρμογές

Τεχνικές Μείωσης Διαστάσεων. Ειδικά θέματα ψηφιακής επεξεργασίας σήματος και εικόνας Σ. Φωτόπουλος- Α. Μακεδόνας

Βιομηχανικοί Ελεγκτές

Ενότητα 3: ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ ΚΑΙ ΑΛΓΟΡΙΘΜΟΙ

Θεωρία Παιγνίων και Αποφάσεων. Ενότητα 5: Εύρεση σημείων ισορροπίας σε παίγνια μηδενικού αθροίσματος. Ε. Μαρκάκης. Επικ. Καθηγητής

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

Εισαγωγή στα Προσαρµοστικά Συστήµατα

Εισαγωγή στην Επιστήμη του Ηλεκτρολόγου Μηχανικού (και στην Τεχνολογία Υπολογιστών;)

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R

Τμήμα Μηχανικών Πληροφορικής ΤΕ Η μέθοδος Simplex. Γκόγκος Χρήστος ΤΕΙ Ηπείρου Επιχειρησιακή Έρευνα. τελευταία ενημέρωση: 19/01/2017

Κύρια σημεία. Η έννοια του μοντέλου. Έρευνα στην εφαρμοσμένη Στατιστική. ΈρευναστηΜαθηματικήΣτατιστική. Αντικείμενο της Μαθηματικής Στατιστικής

Σέργιος Θεοδωρίδης Κωνσταντίνος Κουτρούμπας. Version 2

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα ΣΗΜΑΤΑ & ΣΥΣΤΗΜΑΤΑ

Transcript:

ΑΛΓΟΡΙΘΜΟΣ ΕΝΙΣΧΥΤΙΚΗΣ ΜΑΘΗΣΗΣ ΓΙΑ ΤΗ ΡΥΘΜΙΣΗ ΔΙΕΡΓΑΣΙΩΝ ΜΕ ΚΑΤΑΣΚΕΥΗ ΝΕΥΡΩΝΙΚΩΝ ΔΙΚΤΥΩΝ ΑΚΤΙΝΙΚΗΣ ΣΥΝΑΡΤΗΣΗΣ ΒΑΣΗΣ ΣΕ ΠΡΑΓΜΑΤΙΚΟ ΧΡΟΝΟ Παναγιώτης Πετσαγκουράκης 1, Ευαγγελία Χονδροδήμα 1, Αλέξανδρος Αλεξανδρίδης 2, Χαράλαμπος Σαρίμβεης 1 1 Σχολή Χημικών Μηχανικών, Εθνικό Μετσόβιο Πολυτεχνείο 2 Τμήμα Ηλεκτρονικών Μηχανικών Τ.Ε., Σχολή Τεχνολογικών Εφαρμογών, ΤΕΙ Αθήνας ΠΕΡΙΛΗΨΗ Η ενισχυτική μάθηση είναι μια οικογένεια τεχνικών στην επιστήμη των υπολογιστών, με κύριο χαρακτηριστικό το ότι το σύστημα εκπαιδεύεται μέσω της άμεσης αλληλεπίδρασης με το περιβάλλον. Ειδικότερα, οι μεθοδολογίες «ενέργειας-κριτικής» (actor-critic) έχουν ξεχωριστές και ανεξάρτητες δομές μνήμης για την αναπαράσταση της στρατηγικής των κινήσεων και της συνάρτησης κόστους. Στη παρούσα εργασία πραγματοποιήθηκε κατασκευή και ενημέρωση σε πραγματικό χρόνο τόσο του δικτύου ενέργειας όσο και του δικτύου κριτικής του συστήματος ρύθμισης με την εκπαίδευση νευρωνικών δικτύων αρχιτεκτονικής ακτινικής συνάρτησης βάσης (RBF neural network). Το σημαντικό πλεονέκτημα της προτεινόμενης μεθοδολογίας, σε σχέση με άλλες μεθόδους που έχουν προταθεί στη βιβλιογραφία, είναι ότι επιτρέπει την πλήρη κατασκευή και αναπροσαρμογή των δικτύων σε πραγματικό χρόνο. 1. ΕΙΣΑΓΩΓΗ Μία από τις πιο ενδιαφέρουσες τεχνικές μηχανικής μάθησης είναι αυτή της ενισχυτικής μάθησης και ειδικότερα οι μεθοδολογίες «ενέργειας-κριτικής» (actor-critic). Οι μεθοδολογίες αυτές έχουν ξεχωριστές και ανεξάρτητες δομές μνήμης. Η πρώτη χρησιμοποιείται για την επιλογή των ενεργειών και η δεύτερη για την αξιολόγησή τους. Ανάμεσα στις πολλές εφαρμογές της, η ενισχυτική μάθηση έχει χρησιμοποιηθεί για το σχεδιασμό ρυθμιστών για μη γραμμικά συστήματα και διεργασίες [1]. Τα νευρωνικά δίκτυα είναι ένα σύνολο από ισχυρά μαθηματικά εργαλεία [2], τα οποία προσομοιώνουν τον τρόπο που ο ανθρώπινος εγκέφαλος επεξεργάζεται πληροφορίες και μαθαίνει. Τα νευρωνικά δίκτυα έχουν την ικανότητα να εντοπίζουν και να μαθαίνουν πολύπλοκες και μη γραμμικές συσχετίσεις, χωρίς να απαιτείται εκ των προτέρων καμία γνώση του συστήματος αλλά με βάση μόνο δεδομένα εισόδου-εξόδου. H ενισχυτική μάθηση σε συνδυασμό με τα νευρωνικά δίκτυα έχει χρησιμοποιηθεί ευρέως στη ρύθμιση μη γραμμικών συστημάτων [3, 4]. Στη βιβλιογραφία υπάρχουν πολλές μέθοδοι οι οποίες βασίζονται σε νευρωνικά δίκτυα προς τα εμπρός τροφοδότησης [3]. Οι εν λόγω μέθοδοι επιλέγουν τυχαία, πριν ξεκινήσει η αλληλεπίδραση, τον αριθμό των νευρώνων και τις συνάψεις της κρυφής στοιβάδας, οι οποίες δε μεταβάλλονται κατά τη διαδικασία μάθησης. Σε πραγματικό χρόνο ενημερώνονται μόνο οι συνδέσεις ανάμεσα στην κρυφή στοιβάδα και τη στοιβάδα εξόδου. Στην παρούσα εργασία παρουσιάζεται μία πρωτότυπη μεθοδολογία ρύθμισης «ενέργειας-κριτικής», στην οποία νευρωνικά δίκτυα ακτινικής συνάρτησης βάσης (RBF neural networks) χρησιμοποιούνται για την κατασκευή και την ενημέρωση σε πραγματικό χρόνο τόσο του δικτύου ενέργειας όσο και του δικτύου κριτικής του συστήματος ρύθμισης. Το πρώτο δίκτυο προσεγγίζει τη μη γραμμική δυναμική του συστήματος και παράγει ένα μέρος της ρυθμιστικής δράσης, ενώ το δεύτερο δίκτυο προσεγγίζει τη συνάρτηση κόστους με στόχο να ανανεώσει τα βάρη του νευρωνικού δικτύου ενέργειας. Η εκπαίδευση των δύο νευρωνικών δικτύων γίνεται με την μέθοδο των ασαφών μέσων (Fuzzy Means FM) [5], και συγκεκριμένα την online έκδοση του αλγορίθμου [6], που επιτρέπει (με βάση πληροφορίες που λαμβάνονται από το περιβάλλον) την πλήρη κατασκευή και αναπροσαρμογή των δικτύων σε πραγματικό χρόνο, συμπεριλαμβανομένης της ίδιας της δομής των δικτύων, δηλαδή του πλήθους των νευρώνων της κρυφής στοιβάδας, αλλά και των κέντρων των συναρτήσεων ενεργοποίησης. Η προτεινόμενη μεθοδολογία εφαρμόστηκε σε ένα μη γραμμικό μη αφινικό (non-affine) δυναμικό σύστημα και σε ένα παράδειγμα μη γραμμικού αντιδραστήρα. Η δομή της παρούσας εργασίας είναι η ακόλουθη. Στο κεφάλαιο 2 γίνεται εισαγωγή στην ενισχυτική μάθηση. Στο κεφάλαιο 3 παρουσιάζονται τα νευρωνικά δίκτυα ακτινικής βάσης και οι μεθοδολογίες FM [5] και online FM [6]. Στο κεφάλαιο 4 παρουσιάζεται η προτεινόμενη μεθοδολογία αυτόματης ρύθμισης με βάση προσαρμοστικά νευρωνικά δίκτυα ακτινικής βάσης. Στο κεφάλαιο 5 γίνεται εφαρμογή της μεθοδολογίας σε δύο προβλήματα και, τέλος, ακολουθούν τα συμπεράσματα. 2. ΕΝΙΣΧΥΤΙΚΗ ΜΑΘΗΣΗ Η ενισχυτική μάθηση είναι ένα πρόβλημα μάθησης συμπεριφοράς. Σε αντίθεση με την επιβλεπόμενη μάθηση όπου χρειάζονται εξαρχής δεδομένα εισόδου εξόδου, η παρούσα μέθοδος χρησιμοποιεί την αλληλεπίδραση ενός κριτή-πράκτορα με το περιβάλλον του [2]. Συγκεκριμένα ο κριτής προσπαθεί να πετύχει έναν συγκεκριμένο

στόχο, συνήθως τη βελτιστοποίηση μιας συνάρτησης κόστους, ενώ συνυπάρχουν αβεβαιότητες [7]. Το γεγονός αυτό, συνυπολογίζοντας ότι πολλές φορές είναι πολύ δύσκολο να συγκεντρωθεί ο κατάλληλος αριθμός δεδομένων εισόδου-εξόδου, καθιστά την ενισχυτική μάθηση ιδιαίτερα ελκυστική. Η σύγχρονη προσέγγιση της ενισχυτικής μάθησης βασίζεται στον Δυναμικό προγραμματισμό [2], για την επιλογή της πορείας μιας σειράς ενεργειών. Ο δυναμικός προγραμματισμός είναι μία υπολογιστική μέθοδος η οποία εφαρμόζεται όταν πρόκειται να ληφθεί μία σύνθετη απόφαση, η οποία προκύπτει από τη σύνθεση επιμέρους αποφάσεων που αλληλεξαρτώνται. Η αλληλεξάρτηση μπορεί να προκύψει επειδή οι αποφάσεις είτε παρουσιάζουν κάποια χρονική διαδοχή (όπως στην περίπτωση αναζήτησης της συντομότερης διαδρομής), είτε συνδέονται με κοινούς περιορισμούς (όπως στην περίπτωση κατανομής περιορισμένων πόρων μεταξύ ανταγωνιστικών δραστηριοτήτων). Πατέρας του δυναμικού προγραμματισμού θεωρείται ο Richard Bellman. Η τεχνική του δυναμικού προγραμματισμού εδράζεται σε μια πολύ απλή ιδέα, που είναι γνωστή ως αρχή του βέλτιστου αποτελέσματος κατά Bellman, σύμφωνα με την οποία μια βέλτιστη πολιτική (συνολική επιλογή λειτουργιών ελέγχου) έχει την ιδιότητα ότι, όποια και αν είναι η αρχική κατάσταση και η αρχική απόφαση, οι υπόλοιπες αποφάσεις πρέπει να συνιστούν μια βέλτιστη πολιτική ξεκινώντας από την κατάσταση που προκύπτει μετά από την πρώτη απόφαση [8]. 3. ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ RBF Τα νευρωνικά δίκτυα RBF αποτελούν μία ξεχωριστή αρχιτεκτονική νευρωνικών δικτύων λόγω των διαφορών στη δομή, στην λειτουργία και στον τρόπο εκπαίδευσής τους, σε σχέση με τις άλλες αρχιτεκτονικές δικτύων. Ένα δίκτυο RBF αποτελείται από τρεις στοιβάδες όπως φαίνεται στο σχήμα 1. Η στοιβάδα εισόδου μεταφέρει την πληροφορία των Ν μεταβλητών εισόδου στην κρυφή στοιβάδα. Οι L κόμβοι της κρυφής στοιβάδας εκτελούν έναν μη γραμμικό μετασχηματισμό από τον χώρο εισόδου στον χώρο εξόδου. Κάθε κόμβος της κρυφής στοιβάδας συνδέεται με ένα κέντρο και παράγει μία έξοδο η οποία σταθμίζεται και τροφοδοτεί τη στοιβάδα εξόδου. Οι νευρώνες της στοιβάδας εξόδου λειτουργούν ως μονάδες άθροισης των εισερχόμενων σημάτων. Η διαδικασία εκπαίδευσης των δικτύων RBF διακρίνεται σε δύο στάδια. Στο πρώτο στάδιο καθορίζονται οι παράμετροι των συναρτήσεων βάσης της κρυφής στοιβάδας. Στο δεύτερο στάδιο υπολογίζονται τα συναπτικά βάρη ανάμεσα στους νευρώνες της κρυφής στοιβάδας και στους νευρώνες της στοιβάδας εξόδου χρησιμοποιώντας τη μέθοδο της γραμμικής παλινδόμησης [9]. 3.α. ΑΛΓΟΡΙΘΜΟΣ FUZZY MEANS Το κρίσιμο σημείο στον σχεδιασμό ενός νευρωνικού δικτύου RBF είναι η επιλογή των θέσεων και του πλήθους των κέντρων της κρυφής στοιβάδας. Η πιο δημοφιλής μεθοδολογία είναι ο αλγόριθμος k-means [10] που παρουσιάζει όμως δύο βασικά μειονεκτήματα: Δεν επιλέγει αυτόματα τον κατάλληλο αριθμό κέντρων των νευρώνων της κρυφής στοιβάδας και απαιτεί μεγάλους υπολογιστικούς χρόνους. Προκειμένου να αντιμετωπιστούν τα παραπάνω προβλήματα προτάθηκε ο αλγόριθμος των ασαφών μέσων (Fuzzy Means FM) [5]. Ο αλγόριθμος FM δεν απαιτεί τον εκ των προτέρων καθορισμό του πλήθους των κόμβων της κρυφής στοιβάδας, αφού για δεδομένο αριθμό ασαφών συνόλων ο αλγόριθμος υπολογίζει μόνος του τη διάσταση της κρυφής στοιβάδας. Ακόμη, ο αλγόριθμος χρειάζεται μόνο ένα πέρασμα από τα δεδομένα εκπαίδευσης, με αποτέλεσμα να μειώνεται δραστικά ο υπολογιστικός χρόνος για την εκπαίδευση του δικτύου, ενώ η μέθοδος έχει επαναληψιμότητα, αφού δεν εμπλέκεται η αρχική τυχαία επιλογή των κέντρων. Ο αλγόριθμος FM διαμερίζει το χώρο κάθε μεταβλητής εισόδου σε ίσο αριθμό μονοδιάστατων τριγωνικών ασαφών συνόλων s. Αποτέλεσμα αυτής της διαμέρισης είναι η δημιουργία ενός συνόλου πολυδιάστατων ασαφών υπόχωρων, όπου ο καθένας από αυτούς είναι υποψήφιος για να γίνει κέντρο του δικτύου RBF. Το τελικό σύνολο των κέντρων της κρυφής στοιβάδας το συγκροτούν μόνο οι επιλεγμένοι ασαφείς υπόχωροι, οι οποίοι επιλέγονται έτσι ώστε να υπάρχει τουλάχιστον ένας ασαφής υπόχωρος που να ορίζει ένα μη μηδενικό πολυδιάστατο βαθμό σε κάθε διάνυσμα εισόδου. Η επιλογή είναι βασισμένη στην ιδέα της πολυδιάστατης συνάρτησης συμμετοχής [11], η οποία καθορίζει μια υπερ-σφαίρα στον χώρο των μεταβλητών εισόδου. Ο αντικειμενικός στόχος του αλγόριθμου FM είναι να επιλέξει ένα υποσύνολο των ασαφών υπόχωρων ως κέντρα RBF έτσι ώστε όλα τα δεδομένα εκπαίδευσης να καλύπτονται από μία τουλάχιστον υπερ-σφαίρα. Ο αλγόριθμος FM παρουσιάζεται λεπτομερώς στην εργασία [5]. 3.β. ΑΛΓΟΡΙΘΜΟΣ ONLINE FUZZY MEANS Οι Alexandridis et.al. [6] παρουσίασαν μία προσαρμοστική έκδοση της μεθοδολογίας FM, τον αλγόριθμο Online FM. Ο αλγόριθμος Online FM, δίνει την δυνατότητα στο νευρωνικό δίκτυο RBF να προσαρμόζει σε πραγματικό Σχήμα 1. Δομή δικτύου RBF.

χρόνο τις παραμέτρους του. Ο αλγόριθμος ξεκινά με μηδέν κόμβους στην κρυφή στοιβάδα και χτίζει σταδιακά το μοντέλο χρησιμοποιώντας τα διαθέσιμα νέα δεδομένα. Προφανώς, οι προβλέψεις του μοντέλου στα αρχικά βήματα δεν είναι ακριβείς, αλλά η ικανότητα πρόβλεψης του δικτύου βελτιώνεται σταδιακά, καθώς είναι διαθέσιμα όλο και περισσότερα δεδομένα. Ο αλγόριθμος Online FM βασίζεται στην ασαφή διαμέριση του χώρου εισόδου, όπως και ο αρχικός αλγόριθμος FM. Η μέθοδος λαμβάνει υπόψιν όλα τα κέντρα των ασαφών υπόχωρων ως υποψήφια για την συγκρότηση της κρυφής στοιβάδας του δικτύου. Ωστόσο, μεταξύ όλων των υποψηφίων κέντρων, ο αλγόριθμος με δυναμικό τρόπο εντοπίζει και επιλέγει μόνο το υποσύνολο των ασαφών υπόχωρων που βρίσκονται κοντά στα δεδομένα εισόδου. Σε κάθε χρονική στιγμή, ο αριθμός των επιλεγμένων ασαφών υπόχωρων είναι ίσος με τον αριθμό των νευρώνων της κρυφής στοιβάδας και τα κέντρα των επιλεγμένων υπόχωρων συμπίπτουν με τα κέντρα των κρυφών νευρώνων. Ως εκ τούτου, ένα πλήρες εκπαιδευμένο μοντέλο RBF είναι διαθέσιμο σε οποιαδήποτε χρονική στιγμή. Το μοντέλο RBF, αρχικά χρησιμοποιείται για την πρόβλεψη της μελλοντικής συμπεριφοράς των μεταβλητών εξόδου και στη συνέχεια ενημερώνεται βάσει του προτεινόμενου αλγορίθμου. Ο αλγόριθμος Online FM δίνει την δυνατότητα στο δίκτυο RBF να εξελίσσεται με βάση δύο επίπεδα προσαρμογής, συγκεκριμένα: α ) Προσαρμογή των συνανπτικών βαρών μεταξύ των νευρώνων της κρυφής στοιβάδας και της στοιβάδας εξόδου. β ) Προσαρμογή της δομής της κρυφής στοιβάδας με βάση την ασαφή διαμέριση του χώρου εισόδου. Λόγω της τοπικής προσέγγισης που χρησιμοποιούν τα δίκτυα RBF, το πρώτο επίπεδο προσαρμογής μπορεί να μην είναι επαρκές, όταν ένα νέο δεδομένο δεν καλύπτεται επαρκώς από τα υπάρχοντα κέντρα. Προκειμένου να αντιμετωπιστεί αυτή η περίπτωση, ο αλγόριθμος χρησιμοποιεί το δεύτερο επίπεδο προσαρμογής, όπου προστίθενται νέοι κρυφοί νευρώνες, οι οποίοι περιγράφουν τα δεδομένα που βρίσκονται εκτός της περιοχής που καλύπτεται από τα υπάρχοντα κέντρα. Δεδομένου ότι η συνεχής προσθήκη κρυφών νερώνων μπορεί να οδηγήσει σε μεγάλες αλλαγές στη δομή του δικτύου και σε αύξηση της υπολογιστικής πολυπλοκότητας, ο αλγόριθμος διαγράφει τους νευρώνες της κρυφής στοιβάδας που καθίστανται περιττοί. Μόλις εισαχθεί το πρώτο δεδομένο εισόδου στο μοντέλο, ο αλγόριθμος καθορίζει τον ασαφή υπόχωρο που είναι πιο κοντά σε αυτό το δεδομένο βάσει της σχετικής Ευκλείδειας απόστασης [11]. Το κέντρο αυτού του υπόχωρου γίνεται το κέντρο του πρώτου κρυφού νευρώνα. Μόλις προσδιοριστεί ο πρώτος κρυφός κόμβος, ο αλγόριθμος θέτει σε εφαρμογή δύο δυναμικούς πίνακες, οι οποίοι χρησιμοποιούνται για την αποθήκευση σημαντικών πληροφοριών και συγκεκριμένα τους πίνακες τοποθεσίας κέντρων (Center Location Matrix - CLM) και το διάνυσμα ιστορικού ενεργοποίησης (Activation History Vector - AHV). Ο πίνακας CLM περιέχει τα κέντρα των νευρώνων της κρυφής στοιβάδας σε κάθε χρονική στιγμή και οι διάστασεις του είναι LxN. Το μέγεθος του πίνακα AHV είναι ίσο με τον αριθμό των επιλεγμένων κέντρων του νευρωνικού δικτύου L και περιέχει την τελευταία χρονική στιγμή που ο κάθε ασαφής υπόχωρος ενεργοποιήθηκε από κάποιο δεδομένο για τελευταία φορά. Όταν ένα νέο δεδομένο εισόδου γίνεται διαθέσιμο, ο αλγόριθμος αρχικά ελέγχει αν καλύπτεται από ένα ήδη επιλεγμένο ασαφή υπόχωρο. Στην αντίθετη περίπτωση, προστίθεται ένας νέος νευρώνας στην κρυφή στοιβάδα. Αυτό επιτυγχάνεται επιλέγοντας τον ασαφή υπόχωρο, ο οποίος βάσει της Ευκλείδειας σχετικής απόστασης είναι πιο κοντά στο διάνυσμα εισόδου και τοποθετόντας το κέντρο του νέου κρυφού κόμβου, στο κέντρο του επιλεγμένου υπόχωρου. Στην περίπτωση αυτή, το νέο κέντρο προστίθεται στον πίνακα CLM και ο πίνακας AHV ανανεώνεται. Αν ο αλγόριθμος αποφασίσει ότι δεν χρειάζεται νέος κρυφός κόμβος, τότε ελέγχει εάν ένας υπάρχων κρυφός νευρώνας δεν έχει ανατεθεί πρόσφατα σε ένα διάνυσμα εισόδου. Αν αυτό ισχύει, ο κρυφός κόμβος διαγράφεται και ο αντίστοιχος ασαφής υπόχωρος αφαιρείται από τους επιλεγμένους υπόχωρους. Με τον τρόπο αυτό, ο αλγόριθμος διατηρεί έναν αριθμό κρυφών νευρώνων, οι οποίοι είναι επαρκείς για να περιγράψουν το σύστημα, αλλά και η δομή του δικτύου διατηρείται εντός ενός λογικού μεγέθους. Σε περίπτωση που προστεθεί ή διαγραφεί ένα κέντρο, τα συναπτικά βάρη μεταξύ της κρυφής στοιβάδας και της στοιβάδας εξόδου θα πρέπει να υπολογιστούν εκ νέου. Αυτό επιτυγχάνεται με τη χρήση ενός κινούμενου χρονικού παραθύρου, όπου αποθηκεύεται ένας αριθμός από παλαιά δεδομένα εισόδου-εξόδου. Τα συναπτικά βάρη υπολογίζονται με γραμμική παλινδρόμηση των εξόδων της κρυφής στοιβάδας στις πραγματικές εξόδους του συστήματος[6]. 4. ΜΕΘΟΔΟΛΟΓΙΑ ΡΥΘΜΙΣΗΣ ΜΗ ΓΡΑΜΜΙΚΩΝ ΣΥΣΤΗΜΑΤΩΝ ΜΕ ΕΝΙΣΧΥΤΙΚΗ ΜΑΘΗΣΗ Η μεθοδολογία ρύθμισης μη γραμμικών συστημάτων με ενισχυτική μάθηση (reinforcement learning) βασίζεται σε δύο νευρωνικά δίκτυα που αλληλοεπιδρούν μεταξύ τους με τρόπο «ενέργειας-κριτικής». Το πρώτο δίκτυο, επονομαζόμενο και ως ενέργειας (actor), προσεγγίζει το μη γραμμικό κομμάτι του νόμου ελέγχου, παράγοντας έτσι ένα μέρος της ρυθμιστικής δράσης. Το δεύτερο δίκτυο, το οποίο ονομάζεται κριτής (critic), προσεγγίζει τη συνάρτηση κόστους με σκοπό να ανανεώνει τα βάρη του δικτύου ενέργειας. Το σύστημα σε κάθε χρονική στιγμή k, αναπροσαρμόζει τα νευρωνικά δίκτυα, σύμφωνα με τα δεδομένα που έχει λάβει τις προηγούμενες χρονικές στιγμές και τις τιμές της μεταβλητής εξόδου που λαμβάνει την παρούσα χρονική στιγμή. Το σύστημα το οποίο θα πρέπει να ρυθμιστεί είναι διακριτό, μη γραμμικό και περιγράφεται από τις ακόλουθες εξισώσεις: x(k + 1) = F(x(k), u(k)) + d(k) y(k) = x 1 (k) (1)

όπου x(k) = [x 1 (k) x 2 (k) x n (k)] εr n οι μεταβλητές κατάστασης, u(k)εr η μεταβλητή εισόδου, d(k) εr n η τυχαία διαταραχή που περιορίζεται από μια θετική τιμή d M με d i (k) < d M, F(x(k), u(k)) = [F 1 (x(k), u(k)) F 2 (x(k), u(k)) F n (x(k), u(k))]εr n μη γραμμική συνάρτηση, με F i (0,0) = 0, n y(k) η μεταβλητή εξόδου του συστήματος. Tη χρονική στιγμή k οι επιθυμητές τιμές της μεταβλητής εξόδου για την παρούσα αλλά και για της επόμενες χρονικές στιγμές συμβολίζονται με y d (k + i) και το σφάλμα ανάμεσα στην επιθυμητή τιμή και τη μεταβλητή εξόδου είναι e i (k) = y d (k + i) y(k + i) (2) Στην περίπτωση όπου ισχύει F i (x(k), u(k)) = x i+1 (k) για κάθε τιμή του i από 0 έως n 1 τότε ισχύει ότι y d (k + i) y(k + i) = y d (k + i) x 1 (k + i) = y d (k + i) x 2 (k + i 1) = y d (k + i) x id (k + i (i 1)) = y d (k + i) x (i+1) (k) (3) 4.α ΣΧΕΔΙΑΣΜΟΣ ΡΥΘΜΙΣΤΗ Η σχέση που περιγράφει τη συμπεριφορά της μεταβλητής εξόδου μπορεί να περιγραφεί από μια εξίσωση της μορφής: y(m + k) = F m = au(k) + f(x(k), u(k)) + d(k) (4) Η μετατροπή της εξίσωσης σε αυτή τη μορφή είναι απαραίτητη για τη συνέχεια του σχεδιασμού, ενώ το m λαμβάνει την τιμή n όταν ισχύει η περίπτωση (3), ενώ διαφορετικά η τιμή είναι 1. Έτσι, πλέον, μπορεί να ορισθεί το σήμα εισόδου ως: u(k) = 1 α (u s(k) u a (k)) (5) με u s (k) συμβολίζεται ο ρυθμιστής ανατροφοδότησης που έχει ως στόχο να κάνει ευσταθή τη γραμμικοποιημένη μορφή του σφάλματος, ενώ με u a (k) συμβολίζεται ο προσαρμοστικός ρυθμιστής που σκοπεύει να προσεγγίσει την συνάρτηση f(x, u). Σύμφωνα με τα παραπάνω, η εξίσωση (4) με βάση την εξίσωση (5) μπορεί να γραφεί ως εξής: y(m + k) = u s (k) u a (k) + f(x(k), u(k)) + d(k) (6) Άρα, επειδή το u a προσεγγίζει την f ισχύει: u a (k) = f (x(k), u(k)) (7) Ενώ το u s (k) ορίζεται ως εξής u s (k) = y d (k + m) + λ e(k) (8) με e(k) = [e 0 (k) e m 1 (k)]. Οι τιμές του λ επιλέγονται έτσι ώστε να είναι το σύστημα ευσταθές και άρα, βρίσκονται εντός του μοναδιαίου κύκλου ( z m + λ 1 z m 1 + + λ m = 0). Πλέον μπορεί προκύψει εύκολα [3]: e(k + 1) = A e(k) + B (f (x(k), u(k)) f(x(k), u(k)) d(k)) (9) 0 1 0 0 με A = ( ) και B = ( ) λ m λ m 1 λ 1 1 Είναι προφανές ότι αν υπάρχει u a τέτοιο ώστε f (x(k), u(k)) f(x(k), u(k)) = 0 αγνοώντας τη διαταραχή, τότε το σύστημα μετατρέπεται σε γραμμικό, και μάλιστα ευσταθές αφού οι τιμές του λ έχουν επιλεγεί ώστε ο πίνακας Α να είναι ευσταθής. Χρησιμοποιώντας το θεώρημα των πεπλεγμένων συναρτήσεων μπορεί να προκύψει το συμπέρασμα ότι υπάρχει u a τέτοιο ώστε να ικανοποιούνται τα παραπάνω [12]. 4.β ΜΑΘΗΣΗ ΝΕΥΡΩΝΙΚΩΝ ΔΙΚΤΥΩΝ ΣΕ ΠΡΑΓΜΑΤΙΚΟ ΧΡΟΝΟ - ΔΙΚΤΥΟ ΚΡΙΤΗΣ

Σε αυτή την ενότητα αρχικά ορίζεται η συνάρτηση κόστους J R [12], όπως περιγράφεται από την παρακάτω εξίσωση: J(k) = τ Ν pr(e(k + 1)) + τ N p 1 r(e(k + 2)) + τ k+1 r(e(k + N p )) (10) όπου r αποτελεί μια βοηθητική συνάρτηση όπου αναδεικνύει αν η επίδοση είναι καλή ή όχι και Ν p ο ορίζοντας ρύθμισης. Η συνάρτηση αυτή ορίζεται ως: r(k) = { 0, λ e(k) < ε 1, λ e(k) > ε (11) όπου 0 < τ 1 και ε αποτελούν μεταβλητές σχεδιασμού. Από την εξίσωση (10) προκύπτει η εξίσωση Bellman: Έτσι, το σφάλμα πρόβλεψης προσδιορίζεται ως εξής: J(k) = τ J(k 1) τ Ν p 1 r(e(k)) (12) e c (k) = J (k) (τ J (k 1) τ Ν p 1 r(e(k)) (13) όπου J (k) η έξοδος του δικτύου κριτή. Στην παρούσα εργασία εφαρμόστηκαν νευρωνικά δίκτυα RBF και συγκεκριμένα χρησιμοποιήθηκε ως συνάρτηση ενεργοποίησης η συνάρτηση Gauss, άρα το δίκτυο κριτής περιγράφεται από την παρακάτω εξίσωση: Όπου: rbf c (x(k)) = [g c1 (x(k)), g c2 (x(k)),, g clc (k)(x(k))] J (k) = w ct (k) g c (x(k)) (14) g ci (x(k)) = exp ( x(k) c ci (k) 2 ), i = 1,, L σ ci (k) c (k), L c (k) είναι το πλήθος των νευρώνων της κρυφής στοιβάδας τη χρονική στιγμή k και c ci (k), σ ci (k) αποτελούν το κέντρο και το πλάτος του νευρώνα i, αντίστοιχα. Στόχος της εκπαίδευσης του δικτύου είναι η ελαχιστοποίηση του σφάλματος: Η ελαχιστοποίηση γίνεται μέσω της μεθόδου gradient decent όπου: E c (k) = 1 2 e c T (k)e c (k) (15) E w c(k + 1) = w c(k) l c (k) = w c(k) E c l c (k) e c (k) w c (k) c e c (k) J (k) J (k) w c(k) (16) με 0 < l c < 1 να είναι ο ρυθμός μάθησης. Με βάση την παραπάνω εξίσωση προκύπτει ότι: w c(k + 1) = w c(k) l c g c (x(k))[j (k) (τ J (k 1) τ Ν p 1 r(e(k)))] (17) Η παραπάνω διαδικασία μάθησης χρησιμοποιείται όταν η δομή του νευρωνικού δικτύου (δηλαδή το πλήθος των νευρώνων της εσωτερικής στοιβάδας) παραμένει σταθερή, ωστόσο η προτεινόμενη μεθοδολογία επιτρέπει τη μεταβολή της δομής, σύμφωνα με τη μέθοδο που παρουσιάζεται στην ενότητα 3β. Θα πρέπει να τονισθεί ότι η αρχικοποίηση της μεθοδολογίας θεωρεί ότι δεν υπάρχει καμία γνώση για το σύστημα, επομένως ξεκινάει με μηδέν νευρώνες στην κρυφή στοιβάδα και η δομή του δικτύου κατασκευάζεται σταδιακά με τη συλλογή πληροφοριών από το σύστημα κατά τη δυναμική λειτουργία του. Σε περίπτωση που υπάρξει αλλαγή της δομής, η διαδικασία επικαιροποίησης των βαρών διαφοροποιείται από τη μέθοδο που παρουσιάζεται στην ενότητα 3β και ακολουθούνται δύο διαφορετικές τακτικές ανάλογα με το αν το πρόβλημα είναι παρακολούθησης τροχιάς (tracking trajectory) ή αλλαγής της επιθυμητής τιμής : Στην πρώτη περίπτωση, τα βάρη αναπροσαρμόζονται στα ιστορικά δεδομένα με τη μέθοδο της γραμμικής παλινδρόμησης, όπως αυτή παρουσιάζεται στην ενότητα 3β, και στη συνέχεια αν έχει διαγραφεί νευρώνας της κρυφής στοιβάδας, εφαρμόζεται επιπλέον η μέθοδος gradient decent. Στη δεύτερη περίπτωση, η εκπαίδευση συνεχίζεται με τη μέθοδο gradient decent, ενώ όταν προστίθεται νευρώνας, αυτός αποκτά αρχικά βάρος σύνδεσης με τη στοιβάδα εξόδου, που αντιστοιχεί στο αμέσως προηγούμενο κέντρο που προστέθηκε στο δίκτυο. Στη μεθοδολογία που παρουσιάζεται, αποτελούν παραμέτρους σχεδιασμού, η χρονική στιγμή N d, όπου από εκεί και πέρα επιτρέπεται η δυνατότητα αφαίρεσης νευρώνων της κρυφής στοιβάδας, η χρονική στιγμή N max στην

οποία σταματούν οι μεταβολές στη δομή των δικτύων και το πλήθος των ιστορικών δεδομένων N s που αποθηκεύονται στη περίπτωση που εφαρμόζονται ελάχιστα τετράγωνα. Επίσης χρειάζεται να επιλεχθεί και ο αριθμός των ασαφών υποχώρων, s, που ορίζονται σε κάθε μεταβλητή εισόδου. 4.γ ΜΑΘΗΣΗ ΝΕΥΡΩΝΙΚΩΝ ΔΙΚΤΥΩΝ ΣΕ ΠΡΑΓΜΑΤΙΚΟ ΧΡΟΝΟ - ΔΙΚΤΥΟ ΕΝΕΡΓΕΙΑΣ Θεωρώντας ότι το σφάλμα του δικτύου είναι e a (k) = J (k) J d (k) + f (x(k), u(k)) f(x(k), u(k)), με J d (k) = 0, και επειδή το νευρωνικό δίκτυο έχει ως έξοδο τη προσέγγιση της f ισχύει ότι: Όπου z(k) = [x(k), u s (k)] T g a (z(k)) = [g a1 (z(k)), g a2 (z(k)),, g ala (k)(z(k))] f (k) = w at (k)g a (z(k)) (18) g ai (z(k)) = exp ( z(k) c ai (k) 2 ), i = 1,, L σ ai (k) a (k), L a (k) είναι το πλήθος των νευρώνων της κρυφής στοιβάδας τη χρονική στιγμή k και c ai (k), σ ai (k) αποτελούν το κέντρο και το πλάτος του νευρώνα i, αντίστοιχα. Στόχος είναι και πάλι η ελαχιστοποίηση του σφάλματος: Άρα θεωρώντας f = f f, έχουμε: E α (k) = 1 2 e α T (k)e α (k) (19) E w α(k + 1) = w α(k) l α (k) = w α(k) E α l α (k) e α (k) w α (k) α e α (k) f (k) f (k) w a(k) (20) με 0 < l α < 1 να αποτελεί τον ρυθμό μάθησης. Άρα: w α(k + 1) = w α(k) l α g α (z(k))[w ct (k)g c (x(k)) + f ] (21) με f = B T (e(k + 1) A e(k) + d). Ωστόσο η διαταραχή d κατά βάση είναι άγνωστη και θεωρείται 0 για τη διαδικασία της μάθησης. Άρα: w α(k + 1) = w α(k) l α g α (z(k))[w ct (k)g c (x(k)) + B T (e(k + 1) A e(k))] (22) ενώ η γενική διαδικασία μάθησης όταν δηλαδή δεν παραμένουν τα κέντρα σταθερά είναι ίδια με αυτή του προηγούμενου δικτύου. 5. ΑΠΟΤΕΛΕΣΜΑΤΑ Η προτεινόμενη μεθοδολογία εφαρμόστηκε με επιτυχία σε δύο περιπτώσεις. Η πρώτη περίπτωση αφορά σε ένα πρόβλημα, το οποίο μελετήθηκε από τους X. Yang et al. [12]: x 1 (k + 1) = x 2 (k) x 2 (k + 1) = x 1 (k)x 2 (k)(x 1 (k)+2.5) 1+x 1 (k) 2 +x 2 (k) 2 + u(k) + 0.1u(k) 3 + d(k) (23) όπου u(k) η μεταβλητή εκ χειρισμού και d(k) = 0.1cos (0.001k) η εξωτερική διαταραχή. Σε αυτό το πρόβλημα ο στόχος είναι να ακολουθηθεί η τροχιά: y d (k) = 0.6 sin ( πk 265 ) (24) Οι παράμετροι σχεδιασμού που επιλέχθηκαν για το σύστημα είναι λ 1=1, λ 2=0.25, Ν d=300, N s=300, N max=350, s=10, α=2, l c=0.1, l α=0.1. Σημειώνεται ότι και για τα δύο νευρωνικά δίκτυα χρησιμοποιήθηκαν οι ίδιες τιμές των παραμέτρων, με το σύστημα να ξεκινά από την αρχική κατάσταση x 1 (0) = 0.5, x 2 (0) = 0.5. Στο σχήμα 2 παρουσιάζεται η απόκριση του συστήματος, ενώ στο σχήμα 3 παρουσιάζεται το σφάλμα της πρώτης μεταβλητής κατάστασης. Είναι προφανές ότι το σύστημα ακολουθεί με μεγάλη επιτυχία την τροχιά, και το σφάλμα είναι σημαντικό μόνο στα πρώτα βήματα της διαδικασίας. Επίσης, στο σχήμα 4 παρουσιάζεται η εξέλιξη του πλήθους των κέντρων των δύο δικτύων, και είναι φανερό ότι δεν χρειάζονται παραπάνω από 8 κέντρα για να υπάρχει ικανοποιητική απόκριση.

Σχήμα 2. Η πορεία της μεταβλητής εξόδου και της επιθυμητής τιμής σε συνάρτηση με το χρόνο 0.8 0.6 0.4 y y d 0.2 y 0-0.2-0.4-0.6 0 200 400 600 800 1000 1200 1400 1600 1800 2000 k Η δεύτερη περίπτωση, στην οποία εφαρμόστηκε η προτεινόμενη μεθοδολογία, αφορά σε ένα πρόβλημα ρύθμισης του ενδιάμεσου προϊόντος που παράγεται από έναν αντιδραστήρα CSTR. Στον αντιδραστήρα εισέρχονται με διαφορετικές ροές το ενδιάμεσο προϊόν (Β) και το αντιδρών (Α), ενώ η μεταβλητή εκ χειρισμού είναι η ογκομετρική παροχή του Β, με τις τιμές των παραμέτρων των ισοζυγίων να φαίνονται στη συνέχεια. Σημειώνεται ότι το Β συμμετέχει στη κινητική της παραγωγής του. Τα ισοζύγια μάζας φαίνονται στην παρακάτω εξίσωση: dc B (t) dt dc A (t) dt = k 1 c A (t)c B (t) 1+c B (t) = k 1 c A (t)c B (t) 1+c B (t) (Q B (t)+q A )c A (t) + Q Ac A0 V V k 2 c B (t) (Q B (t)+q A )c B (t) + Q B(t)c B0 V V (25) Τα παραπάνω ισοζύγια καταστρώθηκαν σε συνεχή χρόνο, και για αυτό πραγματοποιείται διακριτοποίηση με τη μέθοδο zero order hold με χρόνο δειγματοληψίας 0.1. Οι σταθερές τιμές στις παραπάνω εξισώσεις είναι k 1=0.5 sec -1, k 2=1 sec -1, Q A=10 L/sec, C A0=5 mol/l, C B0=10 mol/l, V = 1 L ενώ αρχικά οι συγκεντρώσεις στον αντιδραστήρα είναι C A(0)=0 mol/l, C B(0)=5 mol/l. Σε αυτό το πρόβλημα γίνεται αλλαγή των επιθυμητών τιμών, ενώ οι τιμές σχεδιασμού είναι λ 1=0.7, Ν d=300, N max=1200, s=10, α=2, l c=0.1, l α=0.1. Παρατηρείται ότι η Σχήμα 3. Περίπτωση 1 - το σφάλμα της απόκρισης της πρώτης μεταβλητής. Σχήμα 4. Περίπτωση 1- Εξέλιξη του πλήθους των κέντρων των δύο δικτύων. 8 7 6 L actor L critic 5 L 4 3 2 Σχήμα 5: Περίπτωση 2 - η απόκριση της συγκέντρωσης του Β 1 0 200 400 600 800 1000 1200 1400 1600 1800 2000 k

Σχήμα 5: Περίπτωση 2 - η απόκριση της συγκέντρωσης του Β. 1 0.8 C B C B set point C B (mol/l) 0.6 0.4 0.2 0 0 200 400 600 800 1000 1200 k Σχήμα 6: Περίπτωση 2- Εξέλιξη του πλήθους των κέντρων των δύο δικτύων. 5 4.5 4 L actor L critic 3.5 L 3 2.5 2 1.5 1 0 200 400 600 800 1000 1200 k εκπαίδευση του δικτύου (εύρεση των κέντρων), διαρκεί όσο και η προσομοίωση, καθώς συνεχώς αλλάζουν οι επιθυμητές τιμές εξόδου. Στο σχήμα 5 φαίνεται η απόκριση της συγκέντρωσης του Β, που ακολουθεί με πολύ μικρές αποκλίσεις όλες τις μεταβολές στην επιθυμητή τιμή. Στο σχήμα 6 παρουσιάζεται η εξέλιξη του πλήθους των νευρώνων των δύο δικτύων και, όπως και στην προηγούμενη περίπτωση, έτσι και εδώ δεν απαιτείται μεγάλος αριθμός κέντρων. 6. ΣΥΜΠΕΡΑΣΜΑΤΑ Από τα παραδείγματα προκύπτει ότι η προτεινόμενη μεθοδολογία επιτυγχάνει να οδηγήσει τις ρυθμιζόμενες μεταβλητές στις επιθυμετές τιμές, παρά το γεγονός ότι δεν υπάρχει αρχικά καμία γνώση για το σύστημα. Σημαντικές αποκλίσεις παρατηρούνται μόνο στους αρχικούς χρόνους αφού στα αρχικά στάδια τα δύο νευρωνικά δίκτυα αποκτούν γνώση για τη δυναμική συπεριφορά του συστήματος και προσαρμόζονται με σκοπό το βέλτιστο αποτέλεσμα. Το σημαντικό πλεονέκτημα της μεθοδολογίας είναι ότι επιτρέπει την πλήρη αναπροσαρμογή των δικτύων με βάση τις πληροφορίες που συλλέγονται κατά τη διάρκεια λειτουργίας της σε αντίθεση με άλλες μεθοδολογίες που έχουν προταθεί στη βιβλιογραφία, οι οποίες αναπροσαρμόζουν μόνο τα βάρη που συνδέουν την κρυφή στοιβάδα με τη στοιβάδα εξόδου. 7. ΒΙΒΛΙΟΓΡΑΦΙΑ [1] H. Shah, M. Gopal, Asia-Pac. J. Chem. Eng., vol. 6, pp. 138-146, 2011. [2] S. Haykin, "Neural Networks and Learning Machines", 3rd ed. Upper Saddle River, NJ: Prentice Hall, 2009. [3] Q. Yang, S. Jagannathan, IEEE Trans. Syst. Man Cybern. Part B Cybern., vol. 42, pp. 377-390, 2012. [4] M. Mithra-Noel, B. J. Pandian, Appl. Soft Comput., vol. 23, pp. 444-451, 2014. [5] H. Sarimveis, A. Alexandridis, G. Tsekouras, G. Bafas, Ind. Eng. Chem. Res., vol. 41, pp. 751-759, 2002. [6] A. Alexandridis, H. Sarimveis, G. Bafas, Neural Networks, vol. 16, pp. 1003-1017, 2003. [7] R. Sutton, A. Barto, "Reinforcement Learning: An Introduction", 2 ed.: The MIT Press, 2012. [8] D. Bertsekas, "Dynamic Programming and Optimal Control", 3 ed. vol. I: Athena Scientific, 2005. [9] J. A.Leonard, M. A. Kramer, IEEE Contr. Syst., vol. 11, pp. 31-38, 1991. [10] J. Moody, C. Darken, Neural Comput., vol. 2, pp. 281-294, 1989. [11] J. Nie, IEEE Trans. Fuzzy Syst., vol. 5, pp. 304-311, 1997. [12] X. Yang, D. Liu, D. Wang, Q. Wei, Neural Networks, vol. 55, pp. 30-41, 2014.