ΕΚΠ 413 / ΕΚΠ 606 Αυτόνοµοι (Ροµ οτικοί) Πράκτορες

Σχετικά έγγραφα
ΕΚΠ 413 / ΕΚΠ 606 Αυτόνοµοι (Ροµ οτικοί) Πράκτορες

ΕΚΠ 413 / ΕΚΠ 606 Αυτόνοµοι (Ροµ οτικοί) Πράκτορες

ΕΚΠ 413 / ΕΚΠ 606 Αυτόνοµοι (Ροµ οτικοί) Πράκτορες

καθ. Βασίλης Μάγκλαρης

Μελέτη και Υλοποίηση Ελεγκτών Ρομποτικών Συστημάτων με χρήση Αλγορίθμων Ενισχυτικής Μάθησης

ΠΛΗ513 - Αυτόνομοι Πράκτορες Αναφορά Εργασίας

ΣΤΟΧΑΣΤΙΚΕΣ ΔΙΕΡΓΑΣΙΕΣ & ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ Αίθουσα Νέα Κτίρια ΣΗΜΜΥ Ε.Μ.Π.

ΕΦΑΡΜΟΓΗ Q-LEARNING ΣΕ GRID WORLD ΚΑΙ ΕΞΥΠΝΟΣ ΧΕΙΡΙΣΜΟΣ ΤΟΥ LEARNING RATE ΛΑΘΙΩΤΑΚΗΣ ΑΡΗΣ ΑΥΤΟΝΟΜΟΙ ΠΡΑΚΤΟΡΕΣ

2). V (s) = R(s) + γ max T (s, a, s )V (s ) (3)

ΕΚΠ 413 / ΕΚΠ 606 Αυτόνοµοι (Ροµ οτικοί) Πράκτορες

Ε ανάληψη. Παιχνίδια παιχνίδια ως αναζήτηση. Βέλτιστες στρατηγικές στρατηγική minimax. Βελτιώσεις κλάδεµα α-β

ΕΚΠ 413 / ΕΚΠ 606 Αυτόνοµοι (Ροµ οτικοί) Πράκτορες

Applying Markov Decision Processes to Role-playing Game

ΕΚΠ 413 / ΕΚΠ 606 Αυτόνοµοι (Ροµ οτικοί) Πράκτορες

ΠΛΗ 405 Τεχνητή Νοηµοσύνη

Reinforcement Learning

Ε ανάληψη. Ορισµοί της Τεχνητής Νοηµοσύνης (ΤΝ) Καταβολές. Ιστορική αναδροµή. Πράκτορες. Περιβάλλοντα. κριτήρια νοηµοσύνης

ΕΚΠ 413 / ΕΚΠ 606 Υ ολογισµός µε Πράκτορες στο ιαδίκτυο

ΕΚΠ 413 / ΕΚΠ 606 Αυτόνοµοι (Ροµ οτικοί) Πράκτορες

ΠΛΗ 405 Τεχνητή Νοηµοσύνη Ε ανάληψη. πεπερασµένα χρονικά περιθώρια ανά κίνηση. απευθείας αξιολόγηση σε ενδιάµεσους κόµβους

General Models & Inapproximability Overview. Influence Maximization σε Social Networks

ΠΛΗ 405 Τεχνητή Νοηµοσύνη

ΕΚΠ 413 / ΕΚΠ 606 Αυτόνοµοι (Ροµ οτικοί) Πράκτορες

ΕΚΠ 413 / ΕΚΠ 606 Αυτόνοµοι (Ροµ οτικοί) Πράκτορες

Systems with unlimited supply of work: MCQN with infinite virtual buffers A Push Pull multiclass system

5.4 The Poisson Distribution.


ΠΛΗ 405 Τεχνητή Νοηµοσύνη Ε ανάληψη. δοµή δεδοµένων για κατασκευή ευρετικών συναρτήσεων Ο αλγόριθµος GraphPlan

ΣΤΟΧΑΣΤΙΚΕΣ ΔΙΕΡΓΑΣΙΕΣ & ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ Αίθουσα Νέα Κτίρια ΣΗΜΜΥ Ε.Μ.Π.

ΠΛΗ 405 Τεχνητή Νοηµοσύνη

255 (log-normal distribution) 83, 106, 239 (malus) 26 - (Belgian BMS, Markovian presentation) 32 (median premium calculation principle) 186 À / Á (goo

MOTORCAR INSURANCE I

Introduction to the ML Estimation of ARMA processes

Πολυτεχνείο Κρήτης Σχολή Ηλεκτρονικών Μηχανικών Και Μηχανικών Η/Υ. ΠΛΗ 513 Αυτόνομοι Πράκτορες

Bayesian modeling of inseparable space-time variation in disease risk

ΠΛΗ 405 Τεχνητή Νοηµοσύνη

Figure A.2: MPC and MPCP Age Profiles (estimating ρ, ρ = 2, φ = 0.03)..

ΠΛΗ 405 Τεχνητή Νοηµοσύνη

ΑΛΓΟΡΙΘΜΟΙ Άνοιξη I. ΜΗΛΗΣ

ΕΝΙΣΧΥΤΙΚΗ ΜΑΘΗΣΗ ΡΟΜΠΟΤΙΚΟΥ ΕΛΕΓΧΟΥ ΜΕΣΩ ΠΙΘΑΝΟΤΙΚΟΥ ΣΥΜΠΕΡΑΣΜΟΥ

Jesse Maassen and Mark Lundstrom Purdue University November 25, 2013

6.3 Forecasting ARMA processes

Απόκριση σε Μοναδιαία Ωστική Δύναμη (Unit Impulse) Απόκριση σε Δυνάμεις Αυθαίρετα Μεταβαλλόμενες με το Χρόνο. Απόστολος Σ.

ΜΕΡΙΚΑ ΠΑΡΑΤΗΡΗΣΙΜΕΣ ΑΛΥΣΙΔΕΣ ΜΑΡΚΟΒΙΑΝΗΣ ΑΠΟΦΑΣΗΣ ΜΕ ΟΜΟΙΟΜΟΡΦΗ ΚΑΤΑΝΟΜΗ ΜΗΝΥΜΑΤΩΝ

Αυτόνομη Πλοήγηση Θαλάσσιας Ρομποτικής Πλατφόρμας με χρήση Μεθόδων Ενισχυτικής Μάθησης. Κωνσταντίνο Τζιορτζιώτη

Dynamic Recognition on a Budget

ΕΘΝΙΚΗ ΣΧΟΛΗ ΗΜΟΣΙΑΣ ΙΟΙΚΗΣΗΣ

ΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 19/5/2007

Reinforcement Learning Competition Invasive Species Domain - αυτόνομοι Πράκτορες Γιώργος Κεχαγιάς

ES440/ES911: CFD. Chapter 5. Solution of Linear Equation Systems

ΠΛΗ 405 Τεχνητή Νοηµοσύνη

ΠΛΗ 513-Αυτόνομοι Πράκτορες Χειμερινό εξάμηνο 2012 Εφαρμογή αλγορίθμων ενισχυτικής μάθησης στο παιχνίδι Βlackjack. Χλης Νικόλαος-Κοσμάς

Ε ανάληψη. Α ληροφόρητη αναζήτηση

ΠΛΗ 405 Τεχνητή Νοηµοσύνη

Μελέτη και Υλοποίηση Ελεγκτών Ρομποτικών Συστημάτων με χρήση Αλγορίθμων Ενισχυτικής Μάθησης

A Bonus-Malus System as a Markov Set-Chain. Małgorzata Niemiec Warsaw School of Economics Institute of Econometrics

FSM Toolkit Exercises

Bayesian statistics. DS GA 1002 Probability and Statistics for Data Science.

Problem Set 9 Solutions. θ + 1. θ 2 + cotθ ( ) sinθ e iφ is an eigenfunction of the ˆ L 2 operator. / θ 2. φ 2. sin 2 θ φ 2. ( ) = e iφ. = e iφ cosθ.

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ. Ψηφιακή Οικονομία. Διάλεξη 9η: Basics of Game Theory Mαρίνα Μπιτσάκη Τμήμα Επιστήμης Υπολογιστών

27/2/2013

Προσομοίωση Βιομηχανικής Παραγωγής & Επιχειρήσεων

Problem Set 3: Solutions

Αυτόνομη Πλοήγηση Ρομποτικών Συστημάτων με Τεχνικές Ενισχυτικής Μάθησης

Written Examination. Antennas and Propagation (AA ) April 26, 2017.

ΔΙΠΛΩΜΑΣΙΚΗ ΕΡΓΑΙΑ. του φοιτητή του Σμήματοσ Ηλεκτρολόγων Μηχανικών και. Σεχνολογίασ Τπολογιςτών τησ Πολυτεχνικήσ χολήσ του. Πανεπιςτημίου Πατρών

Πανεπιστήμιο Δυτικής Μακεδονίας. Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών. Τεχνητή Νοημοσύνη. Ενότητα 2: Αναζήτηση (Search)

ΕΚΠ 413 / ΕΚΠ 606 Αυτόνοµοι (Ροµ οτικοί) Πράκτορες

Πολυτεχνείο Κρήτης Τμήμα ΗΜΜΥ Χειμερινό Εξάμηνο Intelligence Lab. Αυτόνομοι Πράκτορες. Κουσανάκης Βασίλης

Nov Journal of Zhengzhou University Engineering Science Vol. 36 No FCM. A doi /j. issn

Ε ανάληψη. Καταβολές. Ιστορική αναδροµή. Πράκτορες. Περιβάλλοντα. συνεισφορά άλλων επιστηµών στην ΤΝ σήµερα

Reminders: linear functions

Monetary Policy Design in the Basic New Keynesian Model

On line αλγόριθμοι δρομολόγησης για στοχαστικά δίκτυα σε πραγματικό χρόνο

Statistical Inference I Locally most powerful tests

ΕΚΠ 413 / ΕΚΠ 606 Αυτόνοµοι (Ροµ οτικοί) Πράκτορες

Numerical Analysis FMN011

Fractional Colorings and Zykov Products of graphs

y = f(x)+ffl x 2.2 x 2X f(x) x x p T (x) = 1 Z T exp( f(x)=t ) (2) x 1 exp Z T Z T = X x2x exp( f(x)=t ) (3) Z T T > 0 T 0 x p T (x) x f(x) (MAP = Max

Υλοποίηση localization στα Nao robots

Phys460.nb Solution for the t-dependent Schrodinger s equation How did we find the solution? (not required)

Αυτόνομοι Πράκτορες(ΠΛΗ513)

ΗΜΥ 210 ΣΧΕΔΙΑΣΜΟΣ ΨΗΦΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ. Χειµερινό Εξάµηνο 2016 ΔΙΑΛΕΞΗ 13: Διαδικασία Σχεδιασµού Ακολουθιακών Κυκλωµάτων (Κεφάλαιο 6.

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ. Ψηφιακή Οικονομία. Διάλεξη 7η: Consumer Behavior Mαρίνα Μπιτσάκη Τμήμα Επιστήμης Υπολογιστών

Διπλωματική Εργασία του φοιτητή του Τμήματος Ηλεκτρολόγων Μηχανικών και Τεχνολογίας Υπολογιστών της Πολυτεχνικής Σχολής του Πανεπιστημίου Πατρών

Assalamu `alaikum wr. wb.

ΠΛΗ 405 Τεχνητή Νοηµοσύνη Ε ανάληψη. Προβλήµατα ικανο οίησης εριορισµών ορισµός και χαρακτηριστικά

ΗΜΥ 220: ΣΗΜΑΤΑ ΚΑΙ ΣΥΣΤΗΜΑΤΑ Ι Ακαδημαϊκό έτος Εαρινό Εξάμηνο Κατ οίκον εργασία αρ. 2

ΕΥΧΑΡΙΣΤΙΕΣ. Θεσσαλονίκη, Δεκέμβριος Κώστας Δόσιος

CORDIC Background (4A)

5. Choice under Uncertainty

Επιχειρησιακή Έρευνα ΕΜΠ - Τοµέας Προγραµµατισµού & ιαχείρισης Τεχνικών Έργων

HY380 Αλγόριθμοι και πολυπλοκότητα Hard Problems

Αυτόνομοι Πράκτορες. Εργασία εξαμήνου. Value Iteration και Q- Learning για Peg Solitaire

Κεφάλαιο 8. NP και Υπολογιστική Δυσεπιλυσιµότητα. Χρησιµοποιήθηκε υλικό από τις αγγλικές διαφάνειες του Kevin Wayne.

Τεχνική Έκθεση Συνοπτική παρουσίαση... 3

Βελτιστοποίηση Ελεγκτών MDP µε τη χρήση τροχιών Μέγιστης Πιθανότητας

ΔΙΟΙΚΗΣΗ ΔΙΕΘΝΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ

Ψηφιακή Οικονομία. Διάλεξη 11η: Markets and Strategic Interaction in Networks Mαρίνα Μπιτσάκη Τμήμα Επιστήμης Υπολογιστών

Γραµµικός Προγραµµατισµός (ΓΠ)

Transcript:

ΕΚΠ 413 / ΕΚΠ 606 Αυτόνοµοι (Ροµ οτικοί) Πράκτορες Λήψη Α οφάσεων υ ό Αβεβαιότητα Decision Making under Uncertainty Τµήµα Ηλεκτρονικών Μηχανικών και Μηχανικών Υ ολογιστών Πολυτεχνείο Κρήτης

Ε ανάληψη Εντο ισµός προβλήµατα εντοπισµού χαρακτηριστικά Αλγόριθµοι Markov localization Grid localization Gaussian localization Monte-Carlo localization Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 2

Σήµερα Λήψη α οφάσεων ακολουθιακά προβλήµατα αποφάσεων Μαρκωβιανές διεργασίες απόφασης Βέλτιστες ολιτικές επανάληψη αξιών επανάληψη πολιτικών Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 3

Ακολουθιακά Προβλήµατα Α οφάσεων Sequential Decision Problems

Decision Making Action State Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 5

Decision Making under Uncertainty? How can I balance on a bicycle? How can I walk using any number of legs? How can I play and win a game? How can I maximize the throughput of a network of machines? How can I control a power grid to satisfy customer demands? Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 6

Planning or Learning? Planning Action Learning Action? State Known Model State Unknown Model Uncertainty in the process Uncertainty in the process and about the process Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 7

Στοχαστικό εριβάλλον Παράδειγµα πιθανότητα επίτευξης του στόχου από την ακολουθία [Ε άνω, Ε άνω, εξιά, εξιά, εξιά] 0,8 5 +0,1 4 0,8, =0,32776 Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 8

Βέλτιστες Πολιτικές Βέλτιστη ολιτική, * R(s)=-0.04 Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 9

Βέλτιστη Συµ εριφορά Πε ερασµένος ορίζοντας µη στάσιµες πολιτικές Ά ειρος ορίζοντας στάσιµες πολιτικές Στάσιµες ροτιµήσεις προσθετικές ανταµοιβές U h ([s 0, s 1, s 2 ]) = R(s 0 ) + R(s 1 ) + R(s 2 ) + ανταµοιβές µε έκπτωση U h ([s 0, s 1, s 2 ]) = R(s 0 ) + γr(s 1 ) + γ 2 R(s 2 ) + Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 10

Markov Decision Process (MDP) MDP (S, A, P, R, γ, D) S: state space of the process A: action space of the process P: transition model, P(s a, s) R: reward function, R(s, a) γ: discount factor, 0 < γ 1 D: initial state distribution Markov property next state and reward are independent of history Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 11

MDPs Episodes Expected total discounted reward Optimization goal Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 12

Policies Deterministic policy Stochastic policy Expected total discounted reward Optimal policy Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 13

Example: Recycling Robot Sutton and Barto, 1998 Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 14

Value Functions State Value Function V State-Action Value Function Q Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 15

Bellman Equation for Q a linear system with unknowns Q can be solved directly or iteratively Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 16

Greedy Policy Improvement Improved (greedy) policy over V Improved (greedy) policy over Q Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 17

Bellman Optimality Equation a non-linear system with unknowns Q can be solved iteratively Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 18

Ε ανάληψη Αξιών Value Ιteration

Value Iteration Algorithm Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 20

Παράδειγµα γ=1 και R(s)=-0,04 για τις µη-τερµατικές καταστάσεις επαλήθευση, για s=(1,1): U(1, 1) = -0,04 +γ max{0,8u(1, 2) + 0,1U(2, 1) + 0,1U(1, 1), 0,9U(1, 1) + 0,1U(1, 2) 0,9U(1, 1) + 0,1U(2, 1) 0,8U(2, 1) + 0,1U(1, 2) + 0,1U(1, 1) } Καλύτερη ενέργεια η µετακίνηση στο (1,2) Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 21

Παράδειγµα γ=1, R(s)=-0,04 Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 22

Ε ανάληψη Πολιτικών Policy iteration

Policy Iteration Algorithm Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 24

Policy Iteration Algorithm Value Function Q π Policy Evaluation (Critic) Policy Improvement (Actor) Model Policy π Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 25

Μελέτη Σύγγραµµα Κεφάλαιο 17 Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 26