ΕΚΠ 413 / ΕΚΠ 606 Αυτόνοµοι (Ροµ οτικοί) Πράκτορες Θεωρία Παιγνίων Μαρκωβιανά Παιχνίδια Τµήµα Ηλεκτρονικών Μηχανικών και Μηχανικών Υ ολογιστών Πολυτεχνείο Κρήτης
Ε ανάληψη Μερική αρατηρησιµότητα POMDPs βέλτιστες πολιτικές µετατροπή σε MDP Θεωρία αιγνίων στρατηγικές ισορροπίες Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 2
Σήµερα Στρατηγικές MaxiMin παιχνίδια µηδενικού αθροίσµατος αλγόριθµος µαθηµατικού προγραµµατισµού Παιχνίδια µη µηδενικού αθροίσµατος επαναλαµβανόµενα Μαρκωβιανά αιχνίδια µοντελοποίηση σχεδιασµός µάθηση Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 3
Στρατηγικές MaxiMin MaxiMin Strategies
Παιχνίδια Μηδενικού Αθροίσµατος Ε\Ο ένα δύο ένα E= +2, O= 2 E= 3, O= +3 δύο E= 3, O= +3 E= +4, O= 4 Zero-Sum Games οι απολαβές σε κάθε περίπτωση έχουν άθροισµα ίσο µε 0 συµµετρικότητα: αρκεί να εξεταστούν οι απολαβές ενός παίκτη παίκτες: µεγιστοποιητής και ελαχιστοποιητής γενικότερα, παιχνίδια σταθερού αθροίσµατος MaxiMin (von Neumann, 1928) µέθοδος εύρεσης βέλτιστης µικτής στρατηγικής για zero-sum Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 5
Παράδειγµα MaxiMin Συλλογιστική αν ο ένας παίκτης αποκαλύψει τη στρατηγική του πριν παίξει ο άλλος; από αµιγείς στρατηγικές: χρησιµότητα παιχνιδιού 3 U +2 αν ο 1ος παίκτης παίζει µικτή στρατηγική, τι γίνεται; ο 2ος παίκτης παίζοντας αµιγή στρατηγική δεν µπορεί να χάσει! 2ος παίκτης: αµιγείς στρατηγικές [ένα] ή [δύο] u ένα ή u δύο 2ος παίκτης: µικτή στρατηγική [p: ένα, 1-p: δύο] pu ένα +(1-p)u δύο Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 6
Παράδειγµα MaxiMin 1ος αίκτης µικτή στρατηγική παραµετροποιηµένη επιλογή (p,q) 2ος αίκτης αµιγής στρατηγική Ο: ένα, αν p<7/12, αλλιώς δύο E: ένα, αν q>7/12, αλλιώς δύο Bέλτιστη ε ιλογή 1ος παίκτης E: p=7/12 1ος παίκτης Ο: q=7/12 ισορροπία maximin (και Nash) Χρησιµότητα αιχνιδιού U = 1/12 (προτιµότερος ο Ο) Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 7
MaxiMin Θεώρηµα von Neumann όλα τα παιχνίδια µηδενικού αθροίσµατος µε δύο παίκτες έχουν ισορροπία maximin όταν επιτρέπονται µικτές στρατηγικές κάθε ισορροπία Nash είναι ένα σηµείο maximin και για τους δύο Γενικός αλγόριθµος n δυνατές ενέργειες για κάθε παίκτη µικτή στρατηγική: σηµείο στις n διαστάσεις καµπύλες χρησιµότητας: υπερεπίπεδα (hyperplanes), όχι ευθείες απαλοιφή των κυριαρχούµενων αµιγών στρατηγικών 2ου παίκτη βέλτιστη επιλογή: µέγιστο σηµείο τοµής υπερεπιπέδων πρόβληµα γραµµικού προγραµµατισµού (linear programming) Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 8
Βέλτιστη Στρατηγική MaxiMin MaxiMin µικτή στρατηγική [7/12: ένα, 5/12: δύο] (µεγιστοποιητής) κοινή γνώση και για τους δύο ορθολογικό να υιοθετήσουν και οι δύο την ίδια στρατηγική αναµενόµενη χρησιµότητα για Ε: U=-1/12 συντηρητική στρατηγική Παράδοξο έστω ότι ο ένας µόνο παίκτης αλλάζει σε αµιγή στρατηγική η αναµενόµενη χρησιµότητα παραµένει U=-1/12 η µονοµερής αλλαγή δεν επηρεάζει αρνητικά τη χρησιµότητα αν ο άλλος παίκτης το ξέρει µπορεί να το εκµεταλλευτεί Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 9
Παιχνίδια Games
Παιχνίδια Μη Μηδενικού Αθροίσµατος Βέλτιστη στρατηγική µικτή στρατηγική ισορροπία Nash Αλγόριθµος απαρίθµηση δυνατών υποσυνόλων ενεργειών για µικτές στρατηγικές προφίλ στρατηγικών µε 1, 2, 3, 4,... το πολύ ενέργειες εκθετικός αριθµός συνδυασµών για κάθε προφίλ στρατηγικών, έλεγχος για ισορροπία πρόβληµα µαθηµατικού προγραµµατισµού για 2 παίκτες: γραµµικός προγραµµατισµός για 3 ή περισσότερους παίκτες: µη γραµµικός προγραµµατισµός Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 11
Ε αναλαµβανόµενα Παιχνίδια Repeated Games πεπερασµένες επαναλήψεις ενός παιχνιδιού ίδιες διαθέσιµες επιλογές σε κάθε επανάληψη γνωστό το ιστορικό των προηγούµενων αποφάσεων προσθετικές απολαβές από όλες τις επαναλήψεις Πλήθος ε αναλήψεων γνωστό πλήθος επαναλήψεων άγνωστο γνωστό πλήθος επαναλήψεων άπειρες επαναλήψεις Στρατηγικές διαρκής τιµωρία (perpetual punishment) µία σου και µία µου (tit for tat) Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 12
Ε αναλαµβανόµενα Παιχνίδια Α \Β οµολογία άρνηση οµολογία A= 5, B= 5 A= 10, B= 0 άρνηση A= 0, B= 10 A= 1, B= 1 100 γύρους ισορροπία κυρίαρχης στρατηγικής [οµολογία, οµολογία] αναµενόµενες απολαβές: -500 99% ε όµενος γύρος στρατηγική: άρνηση, εκτός κι αν ο άλλος έχει επιλέξει οµολογία απολαβές: -100, όσο δεν επιλέξει κανείς οµολογία, αλλιώς 999 στρατηγική: άρνηση, αναπαραγωγή προηγούµενης επιλογής του άλλου Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 13
Μαρκωβιανά Παιχνίδια Markov Games
Zero-Sum Markov Games Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 15
MiniMax Optimality Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 16
Bellman Equation for MGs Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 17
Bellman Optimality Equation for MGs Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 18
MiniMax (Greedy) Policy over Q Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 19
[Littman, 1994] ΕΚΠ 413/606 Αυτόνοµοι Πράκτορες 2007 Example: RPS Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 20
Planning in MGs Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 21
Μάθηση σε Μαρκωβιανά Παίγνια Learning in Markov Games
MiniMaxQ Learning [Littman, 1994] Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 23
Linear ApproximationArchitectures Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 24
Implied MiniMax Policy Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 25
LSTDQ for Zero-Sum MGs Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 26
LSPI for Zero-Sum MGs Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 27
Simplified Soccer Game Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 28
Learning Parameters Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 29
4x4 Soccer against Optimal Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 30
8x8 Soccer against Benchmark Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 31
Generalization to 40x40 Soccer Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 32
Router-Server Flow Control Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 33
Learning Parameters Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 34
Results Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 35
Μελέτη Σύγγραµµα Ενότητα 17.6 Άρθρα M. Littman, Markov Games as a Framework for Multi-Agent Reinforcement Learning, International Conference on Machine Learning, 1994. M. Lagoudakis and Ronald Parr, Value Function Approximation in Zero-Sum Markov Games, Uncertainty in Artificial Intelligence, 2002. Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 36