ΕΚΠ 413 / ΕΚΠ 606 Αυτόνοµοι (Ροµ οτικοί) Πράκτορες

ΕΚΠ 413 / ΕΚΠ 606 Αυτόνοµοι (Ροµ οτικοί) Πράκτορες Μερική Παρατηρησιµότητα Θεωρία Παιγνίων Τµήµα Ηλεκτρονικών Μηχανικών και Μηχανικών Υ ολογιστών Πολυτεχνείο Κρήτης

Ε ανάληψη Reinforcement Learning (RL) problems and approaches Prediction temporal difference learning least-squares temporal difference (LSTD) learning Control Q-learning least-squares policy iteration (LSPI) Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 2

Σήµερα Μερική αρατηρησιµότητα POMDPs βέλτιστες πολιτικές µετατροπή σε MDP Θεωρία αιγνίων στρατηγικές ισορροπίες Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 3

Μερική Παρατηρησιµότητα Partial Observability

Μερικώς Παρατηρήσιµα Περιβάλλοντα Partial Observability ο πράκτορας δεν γνωρίζει ακριβώς σε ποια κατάσταση βρίσκεται το τι θα κάνει εξαρτάται από το τι ιστεύει για το που βρίσκεται Παράδειγµα Αρχική κατανοµή πιθανότητας Μετά από 5 κινήσεις αριστερά Μετά από 5 κινήσεις επάνω Μετά από 5 κινήσεις δεξιά Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 5

Partially Observable MDP POMDP (S, B, A, O, P, R, γ, D) S: state space of the process B: observation space of the process A: action space of the process O: observation model, O(o s) P: transition model, P(s a, s) R: reward function, R(s) γ: discount factor, 0 < γ 1 D: initial state distribution Markov property next state, observation, reward are independent of history Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 6

Κατάσταση Πε οίθησης Belief State b πιθανοτική κατανοµή πάνω στο χώρο καταστάσεων b(s): πιθανότητα που αποδίδεται στην κατάσταση s από την b αρχική κατάσταση πεποίθησης b 0 Ενηµέρωση υπολογισµός καταστάσεων πεποίθησης = φιλτράρισµα ( s ) = ao( s', o) T( s, a s) b( s) b, s Παράδειγµα b =,,,,,,,,, 0, 0 1 1 1 1 1 1 1 1 1 0 9 9 9 9 9 9 9 9 9 Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 7

Πράκτορας POMDP Βέλτιστη ολιτική η βέλτιστη ενέργεια εξαρτάται από την τρέχουσα κατάσταση πεποίθησης βέλτιστη πολιτική *(b) [ όχι *(s) όπως στην περίπτωση MDP ] απεικόνιση από το (συνεχή) χώρο πεποιθήσεων στο χώρο ενεργειών Κύκλος λειτουργίας εκτέλεσε την ενέργεια α = *(b) διάβασε την παρατήρηση ο ενηµέρωσε την πεποίθηση b σύµφωνα µε την παρατήρηση o επανάλαβε Παρατήρηση µε δεδοµένη την a, γίνεται µετάβαση σε νέα b, ανάλογα µε την o Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 8

Μετατρο ή POMDP σε MDP Μετατρο ή συνάρτηση µετάβασης µεταξύ καταστάσεων πεποίθησης = P( b ' o, a, b) O( s ', o) o s ' s ( ) ( ) τ ( b, a, b ') T s, a, s b s συνάρτηση ανταµοιβής ως προς τις καταστάσεις πεποίθησης ρ ( b) b( s) R( s) = s MDP (b(s),a,τ,ρ,γ,d) στο χώρο των καταστάσεων πεποίθησης! Ε ίλυση η ε ίλυση ενός POMDP στο χώρο καταστάσεων ανάγεται σε ε ίλυση ενός MDP στο χώρο των καταστάσεων ε οίθησης πρόβληµα: συνεχής χώρος καταστάσεων πεποίθησης Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 9

Παράδειγµα Αρχική ε οίθηση οµοιόµορφη στις 9 καταστάσεις Βέλτιστη ολιτική απλή ακολουθία, λόγω έλλειψης παρατηρήσεων [Αριστερά, Ε άνω, Ε άνω, εξιά, Ε άνω, Ε άνω, εξιά, Ε άνω, Ε άνω, εξιά, Ε άνω, εξιά, Ε άνω, εξιά, Ε άνω, ] πιθανότητα επιτυχίας 86,6%, αναµενόµενη χρησιµότητα 0,38 Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 10

Θεωρία Παιγνίων Game Theory

Παίγνιο Two Finger Morra απλοποίηση του inspection game Παίκτες δύο παίκτες Ε (even), Ο (odd) Ενέργειες κάθε παίκτης µπορεί να παίξει ένα ή δύο οι παίκτες παίζουν ταυτόχρονα Πίνακας α ολαβών (payoff matrix) Ε\Ο ένα δύο ένα E= +2, O= 2 E= 3, O= +3 δύο E= 3, O= +3 E= +4, O= 4 Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 12

Ορολογία Παιγνίων Αµιγής στρατηγική (pure strategy) αιτιοκρατική πολιτική, µία ενέργεια σε κάθε κατάσταση Μικτή στρατηγική (mixed strategy) τυχαιοποιηµένη πολιτική, πιθανοτική κατανοµή στις ενέργειες Προφίλ στρατηγικών (strategy profile) µία ανάθεση µίας στρατηγικής σε κάθε παίκτη Α οτέλεσµα (outcome) η αριθµητική τιµή του παιχνιδιού για κάθε παίκτη Λύση αιγνίου (game solution) προφίλ στρατηγικών όπου κάθε παίκτης υιοθετεί ορθολογική στρατηγική ερώτηµα: πώς προσδιορίζεται η έννοια «ορθολογική»; Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 13

Το ίληµµα των Φυλακισµένων (Prisoner s Dilemma) Βασίλης: οµολογία Βασίλης: άρνηση Αλίκη: οµολογία A= 5, B= 5 A= 0, B= 10 Αλίκη: άρνηση A= 10, B= 0 A= 1, B= 1 Συλλογισµός εάν ο Βασίλης οµολογήσει... εάν ο Βασίλης αρνηθεί... στρατηγική: «οµολογία» αποτέλεσµα: (-5, -5)! Παράδοξο η στρατηγική «άρνηση» έχει αποτέλεσµα (-1,-1) είναι επιτρεπτή, αλλά απίθανη επιλογή! Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 14

Στρατηγικές και Α οτελέσµατα Κυρίαρχη στρατηγική (dominant strategy) ισχυρή κυριαρχία (strong domination) η στρατηγική s για το παίκτη p κυριαρχεί ισχυρά επί της s, εάν η s έχει καλύτερο αποτέλεσµα από την s για κάθε στρατηγική των άλλων παικτών ασθενής κυριαρχία (weak domination) η στρατηγική s για το παίκτη p κυριαρχεί ασθενώς επί της s, εάν η s έχει καλύτερο αποτέλεσµα από την s σε ένα τουλάχιστον προφίλ στρατηγικών και δεν είναι χειρότερη σε κανένα άλλο προφίλ Σχέσεις µεταξύ α οτελεσµάτων κυριαρχία κατά Pareto (Pareto domination) ένα αποτέλεσµα a κυριαρχεί κατά Pareto έναντι κάποιου άλλου a όταν όλοι οι παίκτες προτιµούν το a από το a Pareto βέλτιστο (Pareto optimality) εάν δεν υπάρχει άλλο αποτέλεσµα που προτιµούν οι παίκτες Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 15

Ισορρο ίες Ισορρο ία (equilibrium) όταν κανένας παίκτης δεν µπορεί να επωφεληθεί από την αλλαγή στρατηγικών, εφόσον οι άλλοι διατηρούν τη στρατηγική τους τοπικό βέλτιστο στο χώρο των πολιτικών Ισορρο ία κυρίαρχων στρατηγικών όταν κάθε παίκτης υιοθετεί µια κυρίαρχη στρατηγική δεν υπάρχει τέτοια ισορροπία σε όλα τα παιχνίδια Nash equilibrium σε κάθε παιχνίδι υπάρχει τουλάχιστον ένα σηµείο ισορροπίας Nash περιλαµβάνει και την περίπτωση µικτών στρατηγικών υπάρχουν ισορροπίες, ακόµα και χωρίς κυρίαρχες στρατηγικές αποδείχθηκε από τον John Forbes Nash, Jr (1924 -...) Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 16

Παράδειγµα Best: dvd Best: cd Acme: dvd A= 9, B= 9 A= 3, B= 1 Acme: cd A= 4, B= 1 A= 5, B= 5 Ισορρο ίες Nash (dvd, dvd) και (cd, cd) ερώτηµα: ποια από τις δύο θα επιλέξουν; «απάντηση»: επιλογή της βέλτιστης λύσης κατά Pareto (dvd, dvd) Λύση ανάγκη για συντονισµό/διαπραγµάτευση ενέργειες επικοινωνίας µεταξύ πρακτόρων παιχνίδια συντονισµού (coordination games) Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 17

Μελέτη Σύγγραµµα Ενότητες 17.4 και 17.6 Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 18