ΕΚΠ 413 / ΕΚΠ 606 Αυτόνοµοι (Ροµ οτικοί) Πράκτορες

ΕΚΠ 413 / ΕΚΠ 606 Αυτόνοµοι (Ροµ οτικοί) Πράκτορες Λήψη Α οφάσεων υ ό Αβεβαιότητα Decision Making under Uncertainty Τµήµα Ηλεκτρονικών Μηχανικών και Μηχανικών Υ ολογιστών Πολυτεχνείο Κρήτης

Ε ανάληψη Εντο ισµός προβλήµατα εντοπισµού χαρακτηριστικά Αλγόριθµοι Markov localization Grid localization Gaussian localization Monte-Carlo localization Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 2

Σήµερα Λήψη α οφάσεων ακολουθιακά προβλήµατα αποφάσεων Μαρκωβιανές διεργασίες απόφασης Βέλτιστες ολιτικές επανάληψη αξιών επανάληψη πολιτικών Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 3

Ακολουθιακά Προβλήµατα Α οφάσεων Sequential Decision Problems

Decision Making Action State Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 5

Decision Making under Uncertainty? How can I balance on a bicycle? How can I walk using any number of legs? How can I play and win a game? How can I maximize the throughput of a network of machines? How can I control a power grid to satisfy customer demands? Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 6

Planning or Learning? Planning Action Learning Action? State Known Model State Unknown Model Uncertainty in the process Uncertainty in the process and about the process Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 7

Στοχαστικό εριβάλλον Παράδειγµα πιθανότητα επίτευξης του στόχου από την ακολουθία [Ε άνω, Ε άνω, εξιά, εξιά, εξιά] 0,8 5 +0,1 4 0,8, =0,32776 Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 8

Βέλτιστες Πολιτικές Βέλτιστη ολιτική, * R(s)=-0.04 Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 9

Βέλτιστη Συµ εριφορά Πε ερασµένος ορίζοντας µη στάσιµες πολιτικές Ά ειρος ορίζοντας στάσιµες πολιτικές Στάσιµες ροτιµήσεις προσθετικές ανταµοιβές U h ([s 0, s 1, s 2 ]) = R(s 0 ) + R(s 1 ) + R(s 2 ) + ανταµοιβές µε έκπτωση U h ([s 0, s 1, s 2 ]) = R(s 0 ) + γr(s 1 ) + γ 2 R(s 2 ) + Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 10

Markov Decision Process (MDP) MDP (S, A, P, R, γ, D) S: state space of the process A: action space of the process P: transition model, P(s a, s) R: reward function, R(s, a) γ: discount factor, 0 < γ 1 D: initial state distribution Markov property next state and reward are independent of history Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 11

MDPs Episodes Expected total discounted reward Optimization goal Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 12

Policies Deterministic policy Stochastic policy Expected total discounted reward Optimal policy Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 13

Example: Recycling Robot Sutton and Barto, 1998 Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 14

Value Functions State Value Function V State-Action Value Function Q Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 15

Bellman Equation for Q a linear system with unknowns Q can be solved directly or iteratively Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 16

Greedy Policy Improvement Improved (greedy) policy over V Improved (greedy) policy over Q Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 17

Bellman Optimality Equation a non-linear system with unknowns Q can be solved iteratively Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 18

Ε ανάληψη Αξιών Value Ιteration

Value Iteration Algorithm Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 20

Παράδειγµα γ=1 και R(s)=-0,04 για τις µη-τερµατικές καταστάσεις επαλήθευση, για s=(1,1): U(1, 1) = -0,04 +γ max{0,8u(1, 2) + 0,1U(2, 1) + 0,1U(1, 1), 0,9U(1, 1) + 0,1U(1, 2) 0,9U(1, 1) + 0,1U(2, 1) 0,8U(2, 1) + 0,1U(1, 2) + 0,1U(1, 1) } Καλύτερη ενέργεια η µετακίνηση στο (1,2) Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 21

Παράδειγµα γ=1, R(s)=-0,04 Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 22

Ε ανάληψη Πολιτικών Policy iteration

Policy Iteration Algorithm Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 24

Policy Iteration Algorithm Value Function Q π Policy Evaluation (Critic) Policy Improvement (Actor) Model Policy π Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 25

Μελέτη Σύγγραµµα Κεφάλαιο 17 Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 26