καθ. Βασίλης Μάγκλαρης

Σχετικά έγγραφα
ΣΤΟΧΑΣΤΙΚΕΣ ΔΙΕΡΓΑΣΙΕΣ & ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ Αίθουσα Νέα Κτίρια ΣΗΜΜΥ Ε.Μ.Π.

ΣΤΟΧΑΣΤΙΚΕΣ ΔΙΕΡΓΑΣΙΕΣ & ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ Αίθουσα Νέα Κτίρια ΣΗΜΜΥ Ε.Μ.Π.

ΕΚΠ 413 / ΕΚΠ 606 Αυτόνοµοι (Ροµ οτικοί) Πράκτορες

ΣΤΟΧΑΣΤΙΚΕΣ ΔΙΕΡΓΑΣΙΕΣ & ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ

ΔΙΑΧΕΙΡΙΣΗ ΔΙΚΤΥΩΝ Δρομολόγηση στο Internet (II) Αλγόριθμοι Distance Vector (Bellman) Αλγόριθμοι Link State (Dijkstra)

Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ. Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ»

Αλγοριθμικές Τεχνικές

Αλγοριθμικές Τεχνικές. Brute Force. Διαίρει και Βασίλευε. Παράδειγμα MergeSort. Παράδειγμα. Τεχνικές Σχεδιασμού Αλγορίθμων

Αλγόριθµοι. Παράδειγµα. ιαίρει και Βασίλευε. Παράδειγµα MergeSort. Τεχνικές Σχεδιασµού Αλγορίθµων

ΠΛΗ513 - Αυτόνομοι Πράκτορες Αναφορά Εργασίας

Θέματα Εφαρμογών Βάσεων Δεδομένων: Ιδιωτικότητα Δεδομένων

Μελέτη και Υλοποίηση Ελεγκτών Ρομποτικών Συστημάτων με χρήση Αλγορίθμων Ενισχυτικής Μάθησης

Β. Μάγκλαρης.

6 η ΕΝΟΤΗΤΑ ΔΥΝΑΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ

2 η ΕΝΟΤΗΤΑ ΑΚΕΡΑΙΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ

Εθνικό Μετσόβιο Πολυτεχνείο Τομέας Υδατικών Πόρων και Περιβάλλοντος. Διαχείριση Υδατικών Πόρων

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D.

Διαχείριση Εφοδιαστικής Αλυσίδας ΙΙ

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος

Εθνικό Μετσόβιο Πολυτεχνείο Τομέας Υδατικών Πόρων και Περιβάλλοντος. Τεχνολογία Συστημάτων Υδατικών Πόρων

ΕΚΠ 413 / ΕΚΠ 606 Αυτόνοµοι (Ροµ οτικοί) Πράκτορες

Τεχνικές Εκτίμησης Υπολογιστικών Συστημάτων 1ο Σετ Ασκήσεων - Λύσεις

Ακέραιος Γραμμικός Προγραμματισμός

ΣΥΣΤΗΜΑΤΑ ΑΝΑΜΟΝΗΣ Queuing Systems Επισκόπηση Γνώσεων Πιθανοτήτων (2/2) Διαδικασία Γεννήσεων Θανάτων Η Ουρά Μ/Μ/1

On line αλγόριθμοι δρομολόγησης για στοχαστικά δίκτυα σε πραγματικό χρόνο

Τα περισσότερα προβλήματα βελτιστοποίησης είναι με περιορισμούς, αλλά οι μέθοδοι επίλυσης χωρίς περιορισμούς έχουν γενικό ενδιαφέρον.

ΣΥΣΤΗΜΑΤΑ ΑΝΑΜΟΝΗΣ Queuing Systems

Ακέραιος Γραμμικός Προγραμματισμός

ΣΤΟΧΑΣΤΙΚΑ ΣΥΣΤΗΜΑΤΑ & ΕΠΙΚΟΙΝΩΝΙΕΣ 1o Τμήμα (Α - Κ): Αμφιθέατρο 3, Νέα Κτίρια ΣΗΜΜΥ Θεωρία Πιθανοτήτων & Στοχαστικές Ανελίξεις - 3

ΓΡΑΜΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΚΑΙ ΜΕΘΟΔΟΣ SIMPLEX, διαλ. 3. Ανωτάτη Σχολή Παιδαγωγικής και Τεχνολογικής Εκπαίδευσης 29/4/2017

Βέλτιστος Έλεγχος Συστημάτων

ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ. Ενότητα 5: Παραδείγματα. Ρεφανίδης Ιωάννης Τμήμα Εφαρμοσμένης Πληροφορικής

Μέθοδοι πολυδιάστατης ελαχιστοποίησης

ΣΤΟΧΑΣΤΙΚΕΣ ΔΙΕΡΓΑΣΙΕΣ & ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ Αίθουσα Νέα Κτίρια ΣΗΜΜΥ Ε.Μ.Π.

Συστήματα Παραγωγής ΠΑΡΑΔΕΙΓΜΑ ΓΡΑΜΜΙΚΟΥ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ

Αριθμητική Ανάλυση και Εφαρμογές

ΔΥΝΑΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ

ΑΛΓΟΡΙΘΜΙΚΕΣ ΜΕΘΟΔΟΙ ΒΕΛΤΙΣΤΟΠΟΙΗΣΗΣ

ΣΥΣΤΗΜΑΤΑ ΑΝΑΜΟΝΗΣ Queuing Systems

Ακέραιος Γραμμικός Προγραμματισμός

Στοχαστικές Στρατηγικές

ΜΕΘΟΔΟΙ ΑΕΡΟΔΥΝΑΜΙΚΗΣ

ΕΠΙΧΕΙΡΗΣΙΑΚΗ ΕΡΕΥΝΑ ΙΙ

Αναγνώριση Προτύπων Ι

Δυναμικός Προγραμματισμός

Ειδικά θέματα Αλγορίθμων και Δομών Δεδομένων (ΠΛΕ073) Απαντήσεις 1 ου Σετ Ασκήσεων

Δυναμικός Προγραμματισμός

ΔΙΑΧΕΙΡΙΣΗ ΥΔΑΤΙΚΩΝ ΠΟΡΩΝ

Βελτιστοποίηση κατανομής πόρων συντήρησης οδοστρωμάτων Πανεπιστήμιο Πατρών - Πολυτεχνική Σχολή Τμήμα Πολιτικών Μηχανικών

ΣΥΣΤΗΜΑΤΑ ΑΝΑΜΟΝΗΣ Queuing Systems

Αλγόριθμοι και Πολυπλοκότητα

Επιχειρησιακή Έρευνα

ΣΥΣΤΗΜΑΤΑ ΑΝΑΜΟΝΗΣ Queuing Systems Μοντέλα Ουρών Markov και Εφαρμογές:

Βασική Εφικτή Λύση. Βασική Εφικτή Λύση

ΣΤΟΧΑΣΤΙΚΑ ΣΥΣΤΗΜΑΤΑ & ΕΠΙΚΟΙΝΩΝΙΕΣ 1o Τμήμα (Α - Κ): Αμφιθέατρο 4, Νέα Κτίρια ΣΗΜΜΥ Θεωρία Πιθανοτήτων & Στοχαστικές Ανελίξεις - 3

Μη γράφετε στο πίσω μέρος της σελίδας

ΣΥΣΤΗΜΑΤΑ ΑΝΑΜΟΝΗΣ Queuing Systems

Επιχειρησιακή Έρευνα I

(S k R n ) (C k R m )

ΣΥΣΤΗΜΑΤΑ ΑΝΑΜΟΝΗΣ Queuing Systems Εκθετική Κατανομή, Στοχαστικές Ανελίξεις Διαδικασίες Απαρίθμησης, Κατανομή Poisson

ΣΤΟΧΑΣΤΙΚΕΣ ΔΙΕΡΓΑΣΙΕΣ & ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ Αίθουσα Νέα Κτίρια ΣΗΜΜΥ Ε.Μ.Π. Ανάλυση Κυρίων Συνιστωσών (Principal-Component Analysis, PCA)

Δυναμικός Προγραμματισμός

Β. Μάγκλαρης.

ΓΡΑΜΜΙΚΟΣ & ΔΙΚΤΥΑΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ

Σχεδιασμός επέκτασης του συστήματος ηλεκτροπαραγωγής με τη χρήση Πολυκριτηριακού Γραμμικού Προγραμματισμού

ΑΡΙΘΜΗΤΙΚΕΣ ΜΕΘΟΔΟΙ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ

5 η ΕΝΟΤΗΤΑ ΠΟΛΥΚΡΙΤΗΡΙΑΚΟΣ ΜΗ ΓΡΑΜΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ

ΣΥΣΤΗΜΑΤΑ ΑΝΑΜΟΝΗΣ Queuing Systems

ΣΥΣΤΗΜΑΤΑ ΑΝΑΜΟΝΗΣ Queuing Systems

Μοντελοποίηση προβληµάτων

Προβλήματα Μεταφορών (Transportation)

Προσεγγιστικοί Αλγόριθμοι

Αναγνώριση Προτύπων Ι

ΣΥΣΤΗΜΑΤΑ ΑΝΑΜΟΝΗΣ Queuing Systems Διαδικασίες Γεννήσεων - Θανάτων Εξισώσεις Ισορροπίας - Ουρές Μ/Μ/1, M/M/1/N Προσομοίωση Ουράς Μ/Μ/1/Ν

ΑΚΕΡΑΙΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ & ΣΥΝΔΥΑΣΤΙΚΗ ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΚΕΦΑΛΑΙΟ 1

3 η ΕΝΟΤΗΤΑ ΜΗ ΓΡΑΜΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΕΝΟΣ ΚΡΙΤΗΡΙΟΥ

Μέθοδοι Βελτιστοποίησης

Σχεδίαση Αλγορίθμων - Τμήμα Πληροφορικής ΑΠΘ -4ο εξάμηνο 1

Αλγόριθµοι και Πολυπλοκότητα

ΣΥΣΤΗΜΑΤΑ ΑΝΑΜΟΝΗΣ Queuing Systems Διαδικασίες Birth-Death, Ουρές Markov:

Αλγόριθμοι - Τμήμα Πληροφορικής ΑΠΘ -4ο εξάμηνο 1

ΣΤΟΧΑΣΤΙΚΑ ΣΥΣΤΗΜΑΤΑ & ΕΠΙΚΟΙΝΩΝΙΕΣ 1o Τμήμα (Α - Κ): Αμφιθέατρο 4, Νέα Κτίρια ΣΗΜΜΥ Θεωρία Πιθανοτήτων & Στοχαστικές Ανελίξεις - 2

Συστήματα Markov Ένα σύστημα Markov διαγράμματος μετάβασης καταστάσεων

ΣΤΟΧΑΣΤΙΚΑ ΣΥΣΤΗΜΑΤΑ & ΕΠΙΚΟΙΝΩΝΙΕΣ 1o Τμήμα (Α - Κ): Αμφιθέατρο 4, Νέα Κτίρια ΣΗΜΜΥ Θεωρία Πιθανοτήτων & Στοχαστικές Ανελίξεις - 4

Μοντελοποίηση, Ανάλυση και Σχεδιασμός Στοχαστικών Συστημάτων

ΣΥΣΤΗΜΑΤΑ ΑΝΑΜΟΝΗΣ Queuing Systems

Markov. Γ. Κορίλη, Αλυσίδες. Αλυσίδες Markov

Αλγόριθμοι και πολυπλοκότητα Δυναμικός Προγραμματισμός

Τεχνικές Σχεδιασμού Αλγορίθμων

ΣΤΟΧΑΣΤΙΚΕΣ ΔΙΕΡΓΑΣΙΕΣ & ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D.

Γραμμικός Προγραμματισμός Μέθοδος Simplex

ΔΥΝΑΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ

EΦΑΡΜΟΓΕΣ ΤΗΣ ΨΗΦΙΑΚΗΣ ΕΠΕΞΕΡΓΑΣΙΑΣ ΣΗΜΑΤΩΝ. Γραµµική Εκτίµηση Τυχαίων Σηµάτων

ΕΥΦΥΗΣ ΕΛΕΓΧΟΣ. Ενότητα #8: Βελτιστοποίηση Συστημάτων Ασαφούς Λογικής. Αναστάσιος Ντούνης Τμήμα Μηχανικών Αυτοματισμού Τ.Ε.

Συστήματα Ελέγχου με Μικροϋπολογιστές (h9p://courseware.mech.ntua.gr/ml23259/)

ΕΙΣΑΓΩΓΗ ΣΤΗ ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΣΥΣΤΗΜΑΤΩΝ

min f(x) x R n b j - g j (x) = s j - b j = 0 g j (x) + s j = 0 - b j ) min L(x, s, λ) x R n λ, s R m L x i = 1, 2,, n (1) m L(x, s, λ) = f(x) +

Σχεδίαση και Ανάλυση Αλγορίθμων Ενότητα 10: ΤΕΧΝΙΚΕΣ ΣΧΕΔΙΑΣΜΟΥ ΚΑΙ ΑΝΑΛΥΣΗΣ ΑΛΓΟΡΙΘΜΩΝ ΓΙΑ ΠΡΟΒΛΗΜΑΤΑ ΜΕ ΑΠΑΓΟΡΕΥΤΙΚΟ ΑΡΙΘΜΟ ΠΕΡΙΠΤΩΣΕΩΝ

Στοχαστικές Στρατηγικές

Transcript:

ΣΤΟΧΑΣΤΙΚΕΣ ΔΙΕΡΓΑΣΙΕΣ & ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ Αίθουσα 005 - Νέα Κτίρια ΣΗΜΜΥ Ε.Μ.Π. Ενισχυτική Μάθηση - Δυναμικός Προγραμματισμός: 1. Markov Decision Processes 2. Bellman s Optimality Criterion 3. Αλγόριθμος Policy Iteration 4. Αλγόριθμος Value Iteration καθ. Βασίλης Μάγκλαρης maglaris@netmode.ntua.gr www.netmode.ntua.gr Πέμπτη 9/5/2019

Reinforcement Learning - Markov Decision Processes Reinforcement Learning Αποφάσεις (actions) από εξωτερικό agent σε ορίζοντα N βημάτων που επηρεάζουν την εξέλιξη καταστάσεων (states) στοχαστικού περιβάλλοντος και το συνεπαγόμενο κόστος Έμφαση σε σχεδιασμό πολιτικής (policy) σαν ζεύγη καταστάσεων αποφάσεων (states actions) από τον agent για μέσο - μακροπρόθεσμο στόχο κόστους/οφέλους Κύρια εργαλεία βελτιστοποίησης: Δυναμικός προγραμματισμός (Dynamic Programming) και στοχαστικές διαδικασίες αποφάσεων Markov Decision Processes

Reinforcement Learning - Markov Decision Processes (1/2) Ορισμοί Markov Decision Processes Πεπερασμένος Δειγματικός Χώρος X διακριτών καταστάσεων (states) περιβάλλοντος σε διακριτές χρονικές στιγμές (βήματα) n = 0,1, N: Τυχαία μεταβλητή X n X που λαμβάνει τιμές X n = i Πεπερασμένος Δειγματικός Χώρος A i διακριτών αποφάσεων (actions) που ορίζει ο agent όταν το περιβάλλον βρίσκεται στη κατάσταση X n = i: Τυχαία μεταβλητή A n A i απόφασης στο n, με τιμές a ik όταν X n = i Μεταβάσεις Markov p ij (a) από κατάσταση περιβάλλοντος i σε κατάσταση j υπό την επήρεια της απόφασης του agent a στα διακριτά βήματα n = 0,1, N p ij a = P X n+1 = j X n = i, A n = a, p ij a 0, ι p ij a = 1 Άμεσο κόστος (observed cost) του agent στο βήμα n όταν παίρνει απόφαση a ik που οδηγεί σε μετάβαση (X n = i) (X n+1 = j): g i, a ik, j και με απόσβεση γ n g i, a ik, j με συντελεστή 0 γ < 1 (discount factor) Αν γ = 0 ο agent δεν ενδιαφέρεται για μελλοντικές επιπτώσεις αποφάσεών του (myopic) Όσο γ 1 οι αποφάσεις του agent καθορίζονται σημαντικά από μελλοντικές επιπτώσεις Πολιτική (policy): π = {μ 0, μ 1,, μ n, } όπου μ n συνάρτηση που στο βήμα n απεικονίζει την κατάσταση του περιβάλλοντος X n = i στις αποφάσεις A n = a του agent μ n (i) A i για όλες τις καταστάσεις i X (π admissible policies) Αν μ n i = μ i = a ανεξάρτητα από το βήμα n η πολιτική π είναι χρονοσταθερή (stationary) και οι μεταβάσεις p ij a ορίζουν αλυσίδα Markov (X n = i) (X n+1 = j)

Reinforcement Learning - Markov Decision Processes (2/2) Ορισμοί Βελτιστοποίησης Δυναμικού Προγραμματισμού Το συνολικό κόστος αθροίζεται σε πεπερασμένα βήματα (Finite-Horizon) ή απεριόριστα (Infinite-Horizon) από τα άμεσα κόστη των μεταβάσεων Markov X n X n+1 λόγω μ n (X n ): g X n, μ n (X n ), X n+1 Το συνολικό αναμενόμενο κόστος σε απεριόριστο ορίζοντα λόγω πολιτικής π = {μ 0, μ 1,, μ n, } με αρχική κατάσταση X 0 = i και απόσβεση γ (Total Discounted Expected Cost-to-Go over Infinite Horizon) είναι: J π i = E γ n g X n, μ n (X n ), X n+1 X 0 = i n=0 Ζητείται πολιτική π ελαχιστοποίησης του J π i : J i = min J π i Η ανωτέρω πολιτική π είναι άπληστη (greedy) με την έννοια του ότι ο agent επιλέγει αποφάσεις που ελαχιστοποιούν το Expected Cost-to-Go J π i από την αρχική κατάσταση X 0 = i αδιαφορώντας για πιθανές αρνητικές συνέπειες που μπορεί να έχουν μελλοντικά π Αν η πολιτική περιορίζεται σε χρονοσταθερές αποφάσεις π = {μ, μ, } τότε J π i και το τελικό ζητούμενο είναι η βέλτιστη συνάρτηση μ(x n ) που ελαχιστοποιεί τα J μ i = J i για όλες τις αρχικές καταστάσεις X 0 = i J μ i Σημείωση: Εναλλακτικά με το κριτήριο Total Discounted Expected Cost-to-Go μπορεί να οριστεί κριτήριο χωρίς απόσβεση π.χ. Expected Average Cost ανά βήμα σε Infinite Horizon (Sheldon Ross, Applied Probability Models with Optimization, Dover, 1992)

Principle of Optimality (Bellman 1957) Finite Horizon Problem Έστω διαδικασία αποφάσεων Markov σε ορίζοντα πεπερασμένων βημάτων n K με κόστη g n X n, μ n (X n ), X n+1 γ n g X n, μ n (X n ), X n+1, n < K και κόστος τερματικής κατάστασης g K (X K ) γ K g(x K ). Μια βέλτιστη πολιτική π = {μ 0, μ 1, μ 2,, μ K 1 } οδηγεί το περιβάλλον στη κατάσταση X n μετά από n βήματα. Τότε η περικομμένη (truncated) πολιτική {μ n, μ n+1,, μ K 1 } είναι βέλτιστη για την υπολειπόμενη διαδικασία {X n+1, X n+2,, X K } με κατάσταση εκκίνησης X n. Το υπολειπόμενο αναμενόμενο κόστος (Expected Cost-to-Go) είναι: K 1 J n X n = E g K X K + g k X k, μ k (X k ), X k+1 k=n X n } Προσδιορισμός Βέλτιστης Πολιτικής π = {μ 0, μ 1, μ 2,, μ K 1 1. Εύρεση βέλτιστης πολιτικής μ K 1 για το τελικό βήμα X K 1 X K 2. Για τα δύο τελικά βήματα X K 2 X K 1 X K εύρεση της μ K 2 με αναλλοίωτη την μ K 1 3. Επανάληψη μέχρι το βήμα n = 0 και προσδιορισμός της μ 0 που συμπληρώνει την π Αλγόριθμος Δυναμικού Προγραμματισμού 1. Εκκίνηση με J K X K = g K (X K ) για όλες τις τελικές καταστάσεις X K 2. Υπολογισμός των J n X n για όλες τις καταστάσεις X n με τον Αναδρομικό Τύπο άπληστων (greedy) αποφάσεων: J n X n = min E g n X n, μ n (X n ), X n+1 X n για n = K 1, K 2,, 1, 0 μ n 3. Τελικός προσδιορισμός των J 0 X 0 για όλες τις αρχικές καταστάσεις X 0 και της βέλτιστης π = {μ 0, μ 1,, μ K 1 } των αποφάσεων μ n που ελαχιστοποιούν τον αναδρομικό τύπο

Optimality Equation Infinite Horizon Problem Έστω διαδικασία αποφάσεων Markov με άπειρο ορίζοντα εξέλιξης, πεπερασμένες καταστάσεις X n {1,2,, N}, κόστη g n X n, μ n (X n ), X n+1 γ n g X n, μ n (X n ), X n+1 με απόσβεση 0 < γ < 1 και αρχική κατάσταση X 0. Ζητείται η βέλτιστη πολιτική ανάμεσα σε χρονοσταθερές πολιτικές π = {μ, μ, } ελάχιστο Expected Cost over Infinite Horizon. Με επαναδιατύπωση του Αναδρομικού Τύπου Δυναμικού Προγραμματισμού και αναστροφή της χρονικής εξέλιξης σε n = 0,1, 2, έχουμε για πεπερασμένο ορίζοντα K: J n+1 X 0 = min E g X 0, μ(x 0 ), X 1 + γj n (X 1 ) X 0 και αρχική συνθήκη J 0 X, X μ Για άπειρο ορίζοντας η βέλτιστη πολιτική δίνει κόστη J i = lim J K (i), i = X 0 K J i = min E g i, μ(i), X 1 + γj (X 1 ) X 0 = i μ Ορίζουμε το άμεσο αναμενόμενο κόστος κατάστασης X 0 = i με πολιτική μ X 0 X 1 = j: c i, μ i E g i, μ i, X 1 = j X 0 = i = p ij g i, μ i, j Η βέλτιστη πολιτική δίνει αναμενόμενο κόστος στο 1o βήμα E J X 1 X 0 = i = j=1 p ij J (j) Τελικά προκύπτουν N εξισώσεις βελτιστοποίησης (Bellman s Optimality Equations): J i = min c i, μ i + γ p ij J (j) μ N j=1 N j=1, i = 1,2,, N Από την επίλυση των N εξισώσεων προκύπτουν τα βέλτιστα αναμενόμενα κόστη από την X 0 = i με απόσβεση σε άπειρο ορίζοντα και η βέλτιστη πολιτική j = μ(i). Αλγοριθμικά, η βέλτιστη πολιτική ανιχνεύεται με τους βασικούς αλγορίθμους Policy & Value Iteration N

Αλγόριθμος Policy Iteration (1/2) Ορισμός Q-factor Έστω χρονοσταθερή πολιτική π = {μ, μ, } που οδηγεί σε γνωστά costs-to-go J μ i, i X (καταστάσεις του περιβάλλοντος) με αποφάσεις του agent a = μ(i) A i Για κάθε ζεύγος i, a στο υπό εξέταση βήμα και πολιτική για τα υπολειπόμενα βήματα π = {μ, μ, } ορίζω τους Q-factors σαν μέτρο κατάταξης εναλλακτικών άμεσων αποφάσεων a A i του agent Q μ i, a c i, a + γ p ij (a) J μ j Μια πολιτική π = {μ, μ, } ικανοποιεί τις συνθήκες απληστίας (greedy conditions) σε σχέση με τα costs-to-go J μ i όταν Q μ i, μ(i) = min Q μ i, a a A i Μια πολιτική π = {μ, μ, } είναι βέλτιστη αν ικανοποιεί τις συνθήκες απληστίας (greedy conditions) του δυναμικού προγραμματισμού: Q μ i, μ (i) = min Q μ i, a a A i Σημείωση: Όταν τα άμεσα αναμενόμενα κόστη c i, a αντικαθίστανται από rewards r i, a, τα costs-to-go J μ i αποκαλούνται Value Functions V μ i και έχουμε κατ αντιστοιχία: N j=1 Q μ N i, a r i, a + γ j=1 p ij (a) V μ j και Q μ i, μ (i) = max Q μ a A i i, a

Αλγόριθμος Policy Iteration (2/2) Αλγόριθμος Reinforcement Learning (Αρχιτεκτονική Actor Critic) Επαναλήψεις n = 1,2, από δύο βήματα μέχρι σύγκλισης πολιτικής π n = π n+1 Βήμα 1. Policy Evaluation (ο critic αναλύει τις αποφάσεις του agent): Με βάση την παρούσα πολιτική π n = {μ n, μ n, } υπολογίζονται τα costs-to-go J μ n N i = c i, a + γ j=1 p ij (a) J μ n j για i = 1,2,, N και οι Q-factors Q μ n N i, a = c i, a + γ j=1 p ij (a) J μ n j για i = 1,2,, N και a A i Βήμα 2. Policy Improvement (ο actor καθοδηγεί τις αποφάσεις του agent): Η πολιτική π n βελτιώνεται σε π n+1 μέσω της μ n+1 i = arg min Q μ n i, a για i = 1,2,, N a A i arg min f(x): Η τιμή της x που οδηγεί την f(x) σε ελάχιστο x Ο αλγόριθμος συγκλίνει σε βέλτιστη πολιτική σε πεπερασμένα βήματα n λόγω πεπερασμένου πλήθους καταστάσεων N και επιλογών αποφάσεων

Value Iteration Algorithm Εκτίμηση των Συναρτήσεων Cost-to-Go μέσω Διαδοχικών Προσεγγίσεων J n i J n+1 i Εκκίνηση με αυθαίρετες τιμές J 0 i i Επαναλήψεις n n + 1 μέχρι ανεκτή σύγκλιση (θεωρητικά n ) μέσω σχέσεων backup: N J n+1 i = min c i, a + γ p ij (a) a A j=1 J n j για i = 1,2,, N (από εξισώσεις Bellman) i Τελικός υπολογισμός των βέλτιστων Costs-to-Go J i = lim J n i, Q N i, a = c i, a + γ p ij (a) n j=1 J j και προσδιορισμός της βέλτιστης πολιτικής μ i = arg min Q i, a για i = 1,2,, N a A i Ο αλγόριθμος Value Iteration συνήθως συγκλίνει ικανοποιητικά και θεωρείται αποτελεσματικότερος του Policy Iteration καθώς αποφεύγει υπολογισμούς όλων των Costs-to-Go J μ n i σε κάθε βήμα

Παράδειγμα Δυναμικού Προγραμματισμού: Βελτιστοποίηση Δρομολόγησης Εύρεση Δρόμων Ελάχιστου Κόστους από Κόμβο A σε Κόμβο J μέσω του μονοκατευθυντικού γράφου όπως στο σχήμα με κατεύθυνση γραμμών Δ Α Ενδεικτικό κόστος γραμμών: A B: 2, B A: B F: 4, F B: Ενδεικτικό κόστος δρόμου: Δρόμος {A, B, F, I, J, Q}: 2 + 4 + 3 + 4 = 13 Κατάσταση Περιβάλλοντος: Κόμβος σε παρούσα διερεύνηση {A, B,, J} Αποφάσεις Agent: Επόμενος κόμβος για διερεύνηση {up, down, staight} Αναδρομικός Yπολογισμός Q-Factors: Q H, down = 3 Q I, up = 4 Q E, staight = 1 + 3 = 4 Q E, down = 4 + 4 = 8 Q F, up = 6 + 3 = 9 Q F, down = 3 + 4 = 7.. Κατεύθυνση Γραμμών Δ Α Βέλτιστοι Δρόμοι Κόστους 11: A, C, E, H, J, A, D, E, H, J, {A, D, F, I, J} Αλγόριθμοι Δυναμικού Προγραμματισμού Bellman-Ford στηρίζουν την δρομολόγηση Border Gateway Protocols (BGP) ανάμεσα στα ~62,000 Αυτόνομα Συστήματα (Autonomous Systems, AS) στο Internet (~750,000 γνωστά δίκτυα)