ΣΤΟΧΑΣΤΙΚΕΣ ΔΙΕΡΓΑΣΙΕΣ & ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ Αίθουσα Νέα Κτίρια ΣΗΜΜΥ Ε.Μ.Π.

Σχετικά έγγραφα
καθ. Βασίλης Μάγκλαρης

ΣΤΟΧΑΣΤΙΚΕΣ ΔΙΕΡΓΑΣΙΕΣ & ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ Αίθουσα Νέα Κτίρια ΣΗΜΜΥ Ε.Μ.Π.

ΔΙΑΧΕΙΡΙΣΗ ΔΙΚΤΥΩΝ Δρομολόγηση στο Internet (II) Αλγόριθμοι Distance Vector (Bellman) Αλγόριθμοι Link State (Dijkstra)

Β. Μάγκλαρης.

Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ. Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ»

ΕΚΠ 413 / ΕΚΠ 606 Αυτόνοµοι (Ροµ οτικοί) Πράκτορες

ΠΛΗ513 - Αυτόνομοι Πράκτορες Αναφορά Εργασίας

ΣΤΟΧΑΣΤΙΚΕΣ ΔΙΕΡΓΑΣΙΕΣ & ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ

Μελέτη και Υλοποίηση Ελεγκτών Ρομποτικών Συστημάτων με χρήση Αλγορίθμων Ενισχυτικής Μάθησης

ΔΙΑΧΕΙΡΙΣΗ ΥΔΑΤΙΚΩΝ ΠΟΡΩΝ

ΔΙΑΧΕΙΡΙΣΗ ΔΙΚΤΥΩΝ Δρομολόγηση στο Internet Αλγόριθμοι Distance Vector (Bellman) Αλγόριθμοι Link State (Dijkstra)

ΣΥΣΤΗΜΑΤΑ ΑΝΑΜΟΝΗΣ Queuing Systems

ΣΤΟΧΑΣΤΙΚΕΣ ΔΙΕΡΓΑΣΙΕΣ & ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D.

ΣΥΣΤΗΜΑΤΑ ΑΝΑΜΟΝΗΣ Queuing Systems Επισκόπηση Γνώσεων Πιθανοτήτων (2/2) Διαδικασία Γεννήσεων Θανάτων Η Ουρά Μ/Μ/1

ΣΤΟΧΑΣΤΙΚΕΣ ΔΙΕΡΓΑΣΙΕΣ & ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ Αίθουσα Νέα Κτίρια ΣΗΜΜΥ Ε.Μ.Π. Ανάλυση Κυρίων Συνιστωσών (Principal-Component Analysis, PCA)

8 η ιάλεξη: σε δίκτυα δεδομένων

ΣΤΟΧΑΣΤΙΚΕΣ ΔΙΕΡΓΑΣΙΕΣ & ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ Αίθουσα Νέα Κτίρια ΣΗΜΜΥ Ε.Μ.Π.

Β. Μάγκλαρης.

Αλγοριθμικές Τεχνικές. Brute Force. Διαίρει και Βασίλευε. Παράδειγμα MergeSort. Παράδειγμα. Τεχνικές Σχεδιασμού Αλγορίθμων

ΔΙΑΧΕΙΡΙΣΗ ΔΙΚΤΥΩΝ Δρομολόγηση Επιπέδου 3 στο Internet (IGP, BGP) Β. Μάγκλαρης

Αλγοριθμικές Τεχνικές

ΑΡΙΘΜΗΤΙΚΕΣ ΜΕΘΟΔΟΙ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ

Q 12. c 3 Q 23. h 12 + h 23 + h 31 = 0 (6)

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D.

Υλοποίηση Δικτυακών Υποδομών και Υπηρεσιών: Δρομολόγηση

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D.

Σχεδιασμός επέκτασης του συστήματος ηλεκτροπαραγωγής με τη χρήση Πολυκριτηριακού Γραμμικού Προγραμματισμού

Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων

ΔΙΑΧΕΙΡΙΣΗ ΔΙΚΤΥΩΝ Αλγόριθμοι Δρομολόγησης στο Internet (I)

Αναγνώριση Προτύπων Ι

Αλγόριθμοι και Πολυπλοκότητα

Διαχείριση Εφοδιαστικής Αλυσίδας ΙΙ

Βελτιστοποίηση Ελεγκτών MDP µε τη χρήση τροχιών Μέγιστης Πιθανότητας

Συνήθεις διαφορικές εξισώσεις προβλήματα οριακών τιμών

Βέλτιστος Έλεγχος Συστημάτων

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

6 η ΕΝΟΤΗΤΑ ΔΥΝΑΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ

Αλγόριθµοι. Παράδειγµα. ιαίρει και Βασίλευε. Παράδειγµα MergeSort. Τεχνικές Σχεδιασµού Αλγορίθµων

ΣΥΣΤΗΜΑΤΑ ΑΝΑΜΟΝΗΣ Queuing Systems Εισαγωγή (2/2) Επισκόπηση Γνώσεων Πιθανοτήτων (1/2)

Ανάπτυξη και δηµιουργία µοντέλων προσοµοίωσης ροής και µεταφοράς µάζας υπογείων υδάτων σε καρστικούς υδροφορείς µε χρήση θεωρίας νευρωνικών δικτύων

Σχεδίαση Αλγορίθμων - Τμήμα Πληροφορικής ΑΠΘ -4ο εξάμηνο 1

ΣΥΣΤΗΜΑΤΑ ΑΝΑΜΟΝΗΣ Queuing Systems

Αλγόριθμοι - Τμήμα Πληροφορικής ΑΠΘ -4ο εξάμηνο 1

ΑΛΓΟΡΙΘΜΙΚΕΣ ΜΕΘΟΔΟΙ ΒΕΛΤΙΣΤΟΠΟΙΗΣΗΣ

Στοχαστικές Στρατηγικές. διαδρομής (1)

Μέθοδοι μονοδιάστατης ελαχιστοποίησης

Μέθοδοι πολυδιάστατης ελαχιστοποίησης

Αυτόνομη Πλοήγηση Θαλάσσιας Ρομποτικής Πλατφόρμας με χρήση Μεθόδων Ενισχυτικής Μάθησης. Κωνσταντίνο Τζιορτζιώτη

ΕΚΠ 413 / ΕΚΠ 606 Αυτόνοµοι (Ροµ οτικοί) Πράκτορες

ΣΥΣΤΗΜΑΤΑ ΑΝΑΜΟΝΗΣ Queuing Systems

Μέθοδοι μονοδιάστατης ελαχιστοποίησης

Markov. Γ. Κορίλη, Αλυσίδες. Αλυσίδες Markov

Δομές Δεδομένων και Αλγόριθμοι

ΣΥΣΤΗΜΑΤΑ ΑΝΑΜΟΝΗΣ Queuing Systems Εισαγωγή

On line αλγόριθμοι δρομολόγησης για στοχαστικά δίκτυα σε πραγματικό χρόνο

Αναγνώριση Προτύπων Ι

Παρουσίαση 2 η : Αρχές εκτίμησης παραμέτρων Μέρος 1 ο

ΣΥΣΤΗΜΑΤΑ ΑΝΑΜΟΝΗΣ Queuing Systems

ΣΥΣΤΗΜΑΤΑ ΑΝΑΜΟΝΗΣ Queuing Systems Άσκηση Προσομοίωσης Στατιστικές Εξόδου Ουράς Μ/Μ/1 - Θεώρημα Burke Ανοικτά Δίκτυα Ουρών Μ/Μ/1 - Θεώρημα Jackson

Προσεγγιστικοί Αλγόριθμοι

ΣΤΟΧΑΣΤΙΚΑ ΣΥΣΤΗΜΑΤΑ & ΕΠΙΚΟΙΝΩΝΙΕΣ 1o Τμήμα (Α - Κ): Αμφιθέατρο 3, Νέα Κτίρια ΣΗΜΜΥ Θεωρία Πιθανοτήτων & Στοχαστικές Ανελίξεις - 3

ΕΙΣΑΓΩΓΗ ΣΤΗ ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΣΥΣΤΗΜΑΤΩΝ

Βασικές έννοιες δρομολόγησης και χρήση εργαλείων παρακολούθησης της δρομολόγησης του Διαδικτύου (2 η άσκηση)

ΠΛΗ 513-Αυτόνομοι Πράκτορες Χειμερινό εξάμηνο 2012 Εφαρμογή αλγορίθμων ενισχυτικής μάθησης στο παιχνίδι Βlackjack. Χλης Νικόλαος-Κοσμάς

ΕΦΑΡΜΟΓΗ Q-LEARNING ΣΕ GRID WORLD ΚΑΙ ΕΞΥΠΝΟΣ ΧΕΙΡΙΣΜΟΣ ΤΟΥ LEARNING RATE ΛΑΘΙΩΤΑΚΗΣ ΑΡΗΣ ΑΥΤΟΝΟΜΟΙ ΠΡΑΚΤΟΡΕΣ

Θέματα Εφαρμογών Βάσεων Δεδομένων: Ιδιωτικότητα Δεδομένων

ΣΤΟΧΑΣΤΙΚΑ ΣΥΣΤΗΜΑΤΑ & ΕΠΙΚΟΙΝΩΝΙΕΣ 1o Τμήμα (Α - Κ): Αμφιθέατρο 4, Νέα Κτίρια ΣΗΜΜΥ Θεωρία Πιθανοτήτων & Στοχαστικές Ανελίξεις - 4

Τα περισσότερα προβλήματα βελτιστοποίησης είναι με περιορισμούς, αλλά οι μέθοδοι επίλυσης χωρίς περιορισμούς έχουν γενικό ενδιαφέρον.

Εκπαίδευση ΤΝΔ με ελαχιστοποίηση του τετραγωνικού σφάλματος εκπαίδευσης. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν.

ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ. Ενότητα 5: Παραδείγματα. Ρεφανίδης Ιωάννης Τμήμα Εφαρμοσμένης Πληροφορικής

5269: Υπολογιστικές Μέθοδοι για Μηχανικούς. Εύρεση Ριζών.

Το μοντέλο Perceptron

Αριθμητικές Μέθοδοι σε Προγραμματιστικό Περιβάλλον

ΕΚΠ 413 / ΕΚΠ 606 Αυτόνοµοι (Ροµ οτικοί) Πράκτορες

Ασκήσεις Φροντιστηρίου «Υπολογιστική Νοημοσύνη Ι» 4 o Φροντιστήριο

Προσεγγιστικοί Αλγόριθμοι

Μοντελοποίηση προβληµάτων

Δίκτυα Επικοινωνιών ΙΙ: Δρομολόγηση

Τεχνικές Εκτίμησης Υπολογιστικών Συστημάτων 1ο Σετ Ασκήσεων - Λύσεις

5269: Υπολογιστικές Μέθοδοι για Μηχανικούς Συστήματα Γραμμικών Αλγεβρικών Εξισώσεων

5269: Υπολογιστικές Μέθοδοι για Μηχανικούς Συστήματα Γραμμικών Αλγεβρικών Εξισώσεων

ΕΥΦΥΗΣ ΕΛΕΓΧΟΣ. Ενότητα #8: Βελτιστοποίηση Συστημάτων Ασαφούς Λογικής. Αναστάσιος Ντούνης Τμήμα Μηχανικών Αυτοματισμού Τ.Ε.

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΕΚΠ 413 / ΕΚΠ 606 Αυτόνοµοι (Ροµ οτικοί) Πράκτορες

Υδρονοµέας Σύστηµα υποστήριξης της διαχείρισης υδατικών πόρων

Αριθμητική Ανάλυση & Εφαρμογές

4.4 Το πρόβλημα του ελάχιστου ζευγνύοντος δένδρου

Στοχαστικές Στρατηγικές

2. Επίλυση μη Γραμμικών Εξισώσεων

Outline. 6 Edit Distance

3 η ΕΝΟΤΗΤΑ ΜΗ ΓΡΑΜΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΕΝΟΣ ΚΡΙΤΗΡΙΟΥ

Διαδικασίες Markov Υπενθύμιση

Μοντελοποίηση και βελτίωση της ανθρώπινης ικανότητας σε παιχνίδια στρατηγικής

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Πολυτεχνείο Κρήτης Σχολή Ηλεκτρονικών Μηχανικών Και Μηχανικών Η/Υ. ΠΛΗ 513 Αυτόνομοι Πράκτορες

Οι Εξελικτικοί Αλγόριθμοι (ΕΑ) είναι καθολικοί στοχαστικοί αλγόριθμοι βελτιστοποίησης, εμπνευσμένοι από τις βασικές αρχές της φυσικής εξέλιξης.

ΕΙΣΑΓΩΓΗ ΣΤΗ ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΣΥΣΤΗΜΑΤΩΝ

Σχολή Μηχανολόγων Μηχανικών ΕΜΠ 4 ο Εξάμηνο ΑΡΙΘΜΗΤΙΚΗ ΑΝΑΛΥΣΗ. Πρώτη Ενότητα Αριθμητική Επίλυση Μη-Γραμμικών Εξισώσεων

ΤΕΧΝΟΛΟΓΙΑ ΛΟΓΙΣΜΙΚΟΥ Ι

Transcript:

ΣΤΟΧΑΣΤΙΚΕΣ ΔΙΕΡΓΑΣΙΕΣ & ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ Αίθουσα 005 - Νέα Κτίρια ΣΗΜΜΥ Ε.Μ.Π. Δυναμικός Προγραμματισμός με Μεθόδους Monte Carlo: 1. Μάθηση Χρονικών Διαφορών (Temporal-Difference Learning) 2. Στοχαστικός Αλγόριθμος Q-Learning καθ. Βασίλης Μάγκλαρης maglaris@netmode.ntua.gr www.netmode.ntua.gr Πέμπτη 16/5/2019

Αλγόριθμος Policy Iteration (1/2) (Επανάληψη) Ορισμός Q-factor Έστω χρονοσταθερή πολιτική π = {μ, μ, } που οδηγεί σε γνωστά costs-to-go J μ i, i X (καταστάσεις του περιβάλλοντος) με αποφάσεις του agent a = μ(i) A i Για κάθε ζεύγος i, a στο υπό εξέταση βήμα και πολιτική για τα υπολειπόμενα βήματα π = {μ, μ, } ορίζω τους Q-factors σαν μέτρο κατάταξης εναλλακτικών άμεσων αποφάσεων a A i του agent Q μ i, a c i, a + γ p ij (a) J μ j Μια πολιτική π = {μ, μ, } ικανοποιεί τις συνθήκες απληστίας (greedy conditions) σε σχέση με τα costs-to-go J μ i όταν Q μ i, μ(i) = min Q μ i, a Μια πολιτική π = {μ, μ, } είναι βέλτιστη αν ικανοποιεί τις συνθήκες απληστίας (greedy conditions) του δυναμικού προγραμματισμού: Q μ i, μ (i) = min Q μ i, a Σημείωση: Όταν τα άμεσα αναμενόμενα κόστη c i, a αντικαθίστανται από rewards r i, a, τα costs-to-go J μ i αποκαλούνται Value Functions V μ i και έχουμε κατ αντιστοιχία: j=1 Q μ i, a r i, a + γ j=1 p ij (a) V μ j και Q μ i, μ (i) = max Q μ i, a

Αλγόριθμος Policy Iteration (2/2) (Επανάληψη) Αλγόριθμος Reinforcement Learning (Αρχιτεκτονική Actor Critic) Επαναλήψεις n = 1,2, από δύο βήματα μέχρι σύγκλισης πολιτικής π n = π n+1 Βήμα 1. Policy Evaluation (ο critic αναλύει τις αποφάσεις του agent): Με βάση την παρούσα πολιτική π n = {μ n, μ n, } υπολογίζονται τα costs-to-go J μ n i = c i, a + γ j=1 p ij (a) J μ n j για i = 1,2,, και οι Q-factors Q μ n i, a = c i, a + γ j=1 p ij (a) J μ n j για i = 1,2,, και a A i Βήμα 2. Policy Improvement (ο actor καθοδηγεί τις αποφάσεις του agent): Η πολιτική π n βελτιώνεται σε π n+1 μέσω της μ n+1 i = arg min Q μ n i, a για i = 1,2,, arg min f(x): Η τιμή της x που οδηγεί την f(x) σε ελάχιστο x Ο αλγόριθμος συγκλίνει σε βέλτιστη πολιτική σε πεπερασμένα βήματα n λόγω πεπερασμένου πλήθους καταστάσεων και επιλογών αποφάσεων

Value Iteration Algorithm (Επανάληψη) Εκτίμηση των Συναρτήσεων Cost-to-Go μέσω Διαδοχικών Προσεγγίσεων J n i J n+1 i Εκκίνηση με αυθαίρετες τιμές J 0 i i Επαναλήψεις n n + 1 μέχρι ανεκτή σύγκλιση (θεωρητικά n ) μέσω σχέσεων backup: J n+1 i = min c i, a + γ p ij (a) a A j=1 J n j για i = 1,2,, (από εξισώσεις Bellman) i Τελικός υπολογισμός των βέλτιστων Costs-to-Go J i = lim J n i, Q i, a = c i, a + γ p ij (a) n j=1 J j και προσδιορισμός της βέλτιστης πολιτικής μ i = arg min Q i, a για i = 1,2,, Ο αλγόριθμος Value Iteration συνήθως συγκλίνει ικανοποιητικά και θεωρείται αποτελεσματικότερος του Policy Iteration καθώς αποφεύγει υπολογισμούς όλων των Costs-to-Go J μ n i σε κάθε βήμα

Παράδειγμα Δυναμικού Προγραμματισμού: Βελτιστοποίηση Δρομολόγησης (Επανάληψη) Εύρεση Δρόμων Ελάχιστου Κόστους από Κόμβο A σε Κόμβο J μέσω του μονοκατευθυντικού γράφου όπως στο σχήμα με κατεύθυνση γραμμών Δ Α Ενδεικτικό κόστος γραμμών: A B: 2, B A: B F: 4, F B: Ενδεικτικό κόστος δρόμου: Δρόμος {A, B, F, I, J, Q}: 2 + 4 + 3 + 4 = 13 Κατάσταση Περιβάλλοντος: Κόμβος σε παρούσα διερεύνηση {A, B,, J} Αποφάσεις Agent: Επόμενος κόμβος για διερεύνηση {up, down, staight} Αναδρομικός Yπολογισμός Q-Factors: Q H, down = 3 Q I, up = 4 Q E, staight = 1 + 3 = 4 Q E, down = 4 + 4 = 8 Q F, up = 6 + 3 = 9 Q F, down = 3 + 4 = 7.. Κατεύθυνση Γραμμών Δ Α Βέλτιστοι Δρόμοι Κόστους 11: A, C, E, H, J, A, D, E, H, J, {A, D, F, I, J} Αλγόριθμοι Δυναμικού Προγραμματισμού Bellman-Ford στηρίζουν την δρομολόγηση Border Gateway Protocols (BGP) ανάμεσα στα ~62,000 Αυτόνομα Συστήματα (Autonomous Systems, AS) στο Internet (~750,000 γνωστά δίκτυα)

Δυναμικός Προγραμματισμός με Προσέγγιση Monte Carlo ΦΑΣΗ ΕΝΙΣΧΥΤΙΚΗΣ ΜΑΘΗΣΗΣ Με βάση το μοντέλο Δυναμικού Προγραμματισμού του συστήματος (Markov Decision Process) αξιολογούνται αποφάσεις του agent a = μ(i) A i για όλες τις καταστάσεις του περιβάλλοντος i X, i = 1,2,, οι οποίες επηρεάζουν τη εξέλιξη του συστήματος (i, a) j με πιθανότητες p ij (a) και τα αναμενόμενα κόστη c i, a = j=1 p ij (a)g i, a, j Οι εναλλακτικές πολιτικές π = {μ, μ, } συγκρίνονται ως προς τα αναμενόμενα μακροπρόθεσμα costs-to-go J μ i μέσω επιλογής απόφασης a στην παρούσα κατάσταση i που βελτιώνει (μειώνει) τους συντελεστές κόστους απόφασης Q μ i, a Q i, a Q i, a = min Q μ i, a = min c i, a + γ p ij (a) J μ j Oι συντελεστές συνυπολογίζουν αναδρομικά: (1) Τα g i, a, j, άμεσα κόστη μετάβασης i j με επιλογή απόφασης a από τον agent, (2) το αναμενόμενο κόστος εναλλακτικής άμεσης απόφασης i a αν ο agent συνεχίσει προς τα υπόλοιπα βήματα με μ Ο agent ανανεώνει Lookup Table για όλες τις καταστάσεις του περιβάλλοντος i X και της απόφασης του a = μ(i) A i μέχρι τη σύγκλιση σε βέλτιστη πολιτική π = {μ, μ, } Οι καταχωρήσεις σε lookup tables έχουν απαιτήσεις σε μνήμη ανάλογες με τον αριθμό καταστάσεων του περιβάλλοντος ΦΑΣΗ ΕΦΑΡΜΟΓΗΣ ΤΗΣ ΒΕΛΤΙΣΤΗΣ ΠΟΛΙΤΙΚΗΣ Ο agent καθοδηγεί το περιβάλλον επιβάλλοντας ενέργειες για τις καταστάσεις του βάση του Lookup Table στον οποίο συνέκλινε η Φάση Ενισχυτικής Μάθησης j=1

Δυναμικός Προγραμματισμός με Προσέγγιση Monte Carlo Οι δύο αλγόριθμοι Δυναμικού Προγραμματισμού (Value Iteration & Policy Iteration) προαπαιτούν γνώση των πιθανοτήτων μεταβάσεων p ij (a) και του άμεσα αναμενόμενου κόστους κατάστασης c i, a = j=1 p ij (a)g i, a, j εκτιμώμενου με βάση τα γνωστά g i, μ i, j = g(i, a, j) (άμεσα κόστη μετάβασης i j με απόφαση a). Η απόφαση μ i = a του agent ορίζεται μονοσήμαντα για την κατάσταση i g(i, a, j) g(i, j) Οι απευθείας προσεγγιστικές μέθοδοι (Direct Approximate Dynamic Programming Methods) εκτιμούν τις πιθανότητες μετάβασης και τα αναμενόμενα κόστη μεταβάσεων - αποφάσεων μακροπρόθεσμων πολιτικών με προσομοιώσεις Monte Carlo Ενσωματώνονται στη Φάση Ενισχυτικής Μάθησης των δύο αλγορίθμων Δυναμικού Προγραμματισμού με τις εξής παραλλαγές: Value Iteration Temporal-Difference TD(0) Learning Policy Iteration Q-Learning Γενική Μεθοδολογία - Απαιτήσεις Οι προσομοιώσεις Monte Carlo δημιουργούν σενάρια πολλαπλών πιθανών τροχιών (system trajectories) της εξέλιξης του Markov Decision Process Οι τιμές συναρτήσεων cost-to-go J i ανανεώνονται σε κάθε προσομοίωση με προσθήκη του (γνωστού) άμεσου (observed) κόστους μετάβασης g(i, j) σε επισκέψεις προσομοιωμένης τροχιάς μεταβάσεων από κατάσταση i προς κατάσταση j Οι μέθοδοι Monte Carlo απαιτούν γνώση της δομής του περιβάλλοντος, διαχειρήσιμο αριθμό καταστάσεων και σημαντικό αριθμό από trajectories για καλές εκτιμήσεις

Προσεγγιστικός Αλγόριθμος TD(0) Learning Value Iteration Temporal-Difference TD(0) Learning Εξισώσεις Bellman υπολογισμού costs-to-go από i n στο βήμα n <, τελική κατάσταση i = 0: n 1 J μ i n = E g i n, i n+1 + γj μ i n+1 = E γ k g i n+k, i n+k+1 k=0, n = 0,1,, 1 Με επανειλημμένες προσομοιώσεις Monte Carlo δημιουργούμε trajectories του συστήματος σύμφωνα με μια πολιτική (on-policy) και μαθαίνουμε τα J μ i n μέσω Robbins-Monroe Successive Approximations που διορθώνουν εκτιμήσεις τιμών τους (updates) κατά την επίσκεψη της κατάστασης i n με συντελεστή μάθησης (learning rate) η n : J μ i n J μ i n + η n g i n, i n+1 + γj μ i n+1 J μ i n = J μ i n + η n d n Το σφάλμα d n g i n, i n+1 + γj μ i n+1 J μ i n, n = 0,1,, 1 ονομάζεται χρονική διαφορά (Temporal Difference, TD) στο βήμα n και οδηγεί τα J μ i n προς τη σύγκλιση Εναλλακτικός αλγόριθμος update προκύπτει από την μακρόχρονη επαναληπτική σχέση: J μ i n J μ n 1 i n + η n k=0 γ k g i n+k, i n+k+1 J μ i n = J μ n 1 i n + η n k=0 γ k d n+k με αρχικές συνθήκες J μ i n = 0, τελικά κόστη J μ i = 0 και learning rate η n = 1 n Tα costs-to-go εκτιμώνται σαν μέσοι όροι σε μεγάλο αριθμό επαναλήψεων προσομοιώσεων με πάρα πολλές επισκέψεις T καταστάσεων i n στο βήμα n κάποιου trajectory : n 1 k=0 J μ i n = E γ k g i n+k, i n+k+1 1 T n 1 k=0 T c i n όπου c i n γ k g i n+k, i n+k+1

Προσεγγιστικός Αλγόριθμος Q-Learning (1/2) Policy Iteration Q-Learning Προσδιορισμός πολιτικής βέλτιστης συμπεριφοράς (off-policy behavior generation) μέσω διερεύνησης (exploration) όλων των εναλλακτικών αποφάσεων στο παρόν βήμα για εκμετάλλευση (exploitation) σεναρίων greedy αποφάσεων Δυναμικού Προγραμματισμού Ορίζουμε s n i n, a n, j n, g n για μεταβάσεις i n j n = i n+1 στο βήμα n με απόφαση a n και άμεσο κόστος μετάβασης g n = g(i n, a n, j n ) Με βάση παρατηρήσεις δειγμάτων s n και αποφάσεις greedy ο αλγόριθμος Q-Learning οδηγεί το σύστημα στη μάθηση βέλτιστης πολιτικής κατά προσέγγιση του policy iteration Προϋπόθεση: Η i n πρέπει να είναι fully observable Σύνοψη Εννοιών Δυναμικού Προγραμματισμού Βέλτιστα Cost-to-Go (Bellman): J i = min c i, a + γ p ij J (j) a A j=1, i = 1,2,, i Ορισμός Q-Factors: Q i, a c i, a + γ j=1 p ij a J(j) Ορισμός Άμεσου Αναμενόμενου Κόστους: c i, a j=1 p ij g i, a, j Ορισμός Βέλτιστων Q-Factors: Q i, a = j=1 p ij (a) g i, a, j + γ min Q (j, b) b A j Σημείωση: Ορισμοί on-policy, off-policy H on-policy εκτιμά το συνολικό κόστος σε κάθε βήμα συνυπολογίζοντας την απόφαση του παρόντος βήματος της υπό αξιολόγηση πολιτικής (π.χ. TD(0)-Learning) Η off-policy συγκρίνει εναλλακτικές αποφάσεις στο παρόν βήμα με δεδομένες τις μελλοντικές αποφάσεις της υπό αξιολόγηση πολιτικής και επιλέγει με απληστία την απόφαση που μειώνει το αναμενόμενο κόστος στην παρούσα κατάσταση (π.χ. Q-Learning)

Αλγόριθμος Υπολογισμού Q i, a με Successive Approximations (Robins-Monro) Q i, a 1 η Q i, a + η j=1 p ij (a) g i, a, j + γ min b A j Q(j, b) για i, a Από τα Q i, a προσδιορίζεται ο πίνακας βέλτιστης πολιτικής π με αντιστοίχηση μ* i = arg min Q i, a για i = 1,2,, Στοχαστική Παραλλαγή Αν οι p ij (a) δεν είναι διαθέσιμες ο αλγόριθμος βασίζεται σε Monte Carlo trajectories: Στην επανάληψη n με J n j Προσεγγιστικός Αλγόριθμος Q-Learning (2/2) Policy Iteration Q-Learning = min b A j Q n j, b : Q n+1 i, a 1 η n Q n i, a + η n [g i, a, j + γj n (j)] για i, a = i n, a n Q n+1 i, a Q n i, a για i, a i n, a n Στο όριο Q i, a = lim n Q n i, a Η learning parameter η n είναι φθίνουσα ως προς n, π.χ. η n = α β + n με α, β θετικά