ΕΚΠ 413 / ΕΚΠ 606 Αυτόνοµοι (Ροµ οτικοί) Πράκτορες



Σχετικά έγγραφα
ΕΚΠ 413 / ΕΚΠ 606 Αυτόνοµοι (Ροµ οτικοί) Πράκτορες

ΕΚΠ 413 / ΕΚΠ 606 Αυτόνοµοι (Ροµ οτικοί) Πράκτορες

ΘΕΩΡΙΑ ΠΑΙΓΝΙΩΝ. Ενότητα 9: Απείρως επαναλαμβανόμενα παίγνια. Ρεφανίδης Ιωάννης Τμήμα Εφαρμοσμένης Πληροφορικής

Ε ανάληψη. Προβλήµατα ικανο οίησης εριορισµών. ορισµός και χαρακτηριστικά Ε ίλυση ροβληµάτων ικανο οίησης εριορισµών

Λήψη απόφασης σε πολυπρακτορικό περιβάλλον. Θεωρία Παιγνίων

10/3/17. Μικροοικονομική. Κεφάλαιο 29 Θεωρία παιγνίων. Μια σύγχρονη προσέγγιση. Εφαρµογές της θεωρίας παιγνίων. Τι είναι τα παίγνια;

δημιουργία: επεξεργασία: Ν.Τσάντας

Διάλεξη 7. Θεωρία παιγνίων VA 28, 29

Μικτές Στρατηγικές σε Παίγνια και σημεία Ισορροπίας Nash. Τµήµα Μηχανικών Πληροφορικής και Υπολογιστών 1

ΕΠΙΧΕΙΡΗΣΙΑΚΑ ΠΑΙΓΝΙΑ ΕΡΓΑΣΤΗΡΙΟ ΜΑΘΗΜΑ ΤΕΤΑΡΤΟ ΠΑΙΓΝΙΑ ΜΗ ΕΝΙΚΟΥ ΑΘΡΟΙΣΜΑΤΟΣ ΑΚΑ ΗΜΑΙΚΟ ΕΤΟΣ

HAL R. VARIAN. Μικροοικονομική. Μια σύγχρονη προσέγγιση. 3 η έκδοση

ΠΛΗ 513-Αυτόνομοι Πράκτορες Χειμερινό εξάμηνο 2012 Εφαρμογή αλγορίθμων ενισχυτικής μάθησης στο παιχνίδι Βlackjack. Χλης Νικόλαος-Κοσμάς

Θεωρία Παιγνίων και Αποφάσεων. Ενότητα 5: Εύρεση σημείων ισορροπίας σε παίγνια μηδενικού αθροίσματος. Ε. Μαρκάκης. Επικ. Καθηγητής

ΠΛΗ 405 Τεχνητή Νοηµοσύνη Ε ανάληψη. Προβλήµατα ικανο οίησης εριορισµών ορισµός και χαρακτηριστικά

Πακέτο Επιχειρησιακή Έρευνα #02 ==============================================================

ΕΚΠ 413 / ΕΚΠ 606 Αυτόνοµοι (Ροµ οτικοί) Πράκτορες

Θεωρία Παιγνίων και Αποφάσεων. Ενότητα 3: Παίγνια με περισσότερους παίκτες και μέθοδοι απλοποίησης παιγνίων. Ε. Μαρκάκης. Επικ.

καθ. Βασίλης Μάγκλαρης

Θεωρία Παιγνίων και Αποφάσεων. Ενότητα 2: Έννοιες λύσεων σε παίγνια κανονικής μορφής. Ε. Μαρκάκης. Επικ. Καθηγητής

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ Θεωρία Παιγνίων και Αποφάσεων Διδάσκων: Ε. Μαρκάκης, Εαρινό εξάμηνο 2015

Θεωρία Παιγνίων Δρ. Τασσόπουλος Ιωάννης

Β. Βασιλειάδης Αν. Καθηγητής. Επιχειρησιακή Ερευνα Διάλεξη 6 η - Θεωρεία Παιγνίων

Θεωρία Παιγνίων και Αποφάσεων. Ενότητα 4: Μεικτές Στρατηγικές. Ε. Μαρκάκης. Επικ. Καθηγητής

ΘΕΩΡΙΑ ΤΩΝ ΠΑΙΓΝΙΩΝ I.


Πρόλογος. 1 Εισαγωγή Θεωρία Παιγνίων υό Λόγια για το Αντικείµενο Μερικά Ιστορικά Στοιχεία Ενα Παράδοξο Παιχνίδι...

Κυριαρχία και μεικτές στρατηγικές Μεικτές στρατηγικές και κυριαρχία Είδαμε ότι μια στρατηγική του παίκτη i είναι κυριαρχούμενη, αν υπάρχει κάποια άλλη

Ε ανάληψη. Παιχνίδια παιχνίδια ως αναζήτηση. Βέλτιστες στρατηγικές στρατηγική minimax. Βελτιώσεις κλάδεµα α-β

Ασκήσεις. Ιωάννα Καντζάβελου. Τµήµα Μηχανικών Πληροφορικής και Υπολογιστών 1

Θεωρία Παιγνίων Δρ. Τασσόπουλος Ιωάννης

Μοντέλα των Cournotκαι Bertrand

ΠΛΗ513 - Αυτόνομοι Πράκτορες Αναφορά Εργασίας

Α2 Β2 Γ2 2 Α1 1,0 5,-1-1,-2 9,-2 Β1 2,1-2,0 0,2 0,-1 Γ1 0,3 14,2 2,1 8,1 1 1,2 0,1 3,0-1,0

Βασικές Έννοιες Θεωρίας Παιγνίων

Μελέτη πάνω στην εφαρμογή της θεωρίας παιγνίων σε θέματα πολεμικών τακτικών και στρατηγικής.

Πληροφοριακά Συστήματα Διοίκησης (ΜΒΑ) Ενότητα 9: Λύσεις παιγνίων δύο παικτών

- Παράδειγμα 2. Εκτέλεση Πέναλτι ή Κορώνα-Γράμματα (Heads or Tails) - Ένας ποδοσφαιριστής ετοιμάζεται να εκτελέσει ένα πέναλτι, το οποίο προσπαθεί να

Notes. Notes. Notes. Notes Ε 10,10 0,3 Λ 3,0 2,2

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΘΕΩΡΙΑ ΠΑΙΓΝΙΩΝ

Αλγοριθμική Θεωρία Παιγνίων

ΕΠΙΧΕΙΡΗΣΙΑΚΑ ΠΑΙΓΝΙΑ ΕΡΓΑΣΤΗΡΙΟ ΜΑΘΗΜΑ ΤΡΙΤΟ-ΙΣΟΡΡΟΠΙΑ ΚΑΤΑ NASH ΑΚΑΔΗΜΑΙΚΟ ΕΤΟΣ

Εκτεταμένα Παίγνια (Extensive Games)

ΘΕΩΡΙΑ ΠΑΙΓΝΙΩΝ. Ενότητα 2: Ισορροπία Nash. Ρεφανίδης Ιωάννης Τμήμα Εφαρμοσμένης Πληροφορικής

Περιεχόμενα. 1. Ανάλυση ευαισθησίας. (1) Ανάλυση ευαισθησίας (2) Δυϊκό πρόβλημα (κανονική μορφή) (3) Δυαδικός προγραμματισμός (4) Ανάλυση αποφάσεων

ΘΕΩΡΙΑ ΠΑΙΓΝΙΩΝ. Ενότητα 4: Η τραγωδία των κοινών. Ρεφανίδης Ιωάννης Τμήμα Εφαρμοσμένης Πληροφορικής

ΑΣΚΗΣΗ 1 Βρείτε την ισορροπία των ακόλουθων παιγνίων απαλείφοντας διαδοχικά τις κυριαρχούµενες στρατηγικές.

ΘΕΩΡΙΑ ΠΑΙΓΝΙΩΝ. Ενότητα 8: Πεπερασμένα επαναλαμβανόμενα παίγνια. Ρεφανίδης Ιωάννης Τμήμα Εφαρμοσμένης Πληροφορικής

Αλγοριθμική Θεωρία Παιγνίων: Εισαγωγή και Βασικές Έννοιες

ΘΕΩΡΙΑ ΠΑΙΓΝΙΩΝ. Βfi 1 2 Αfl 1 1, 2 0, 1 2 2, 1 1, 0

Τεχνητή Νοημοσύνη. 6η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

ΠΛΗ 405 Τεχνητή Νοηµοσύνη

Τ.Ε.Ι. ΚΑΒΑΛΑΣ ΤΜΗΜΑ ΔΙΑΧΕΙΡΙΣΗΣ ΠΛΗΡΟΦΟΡΙΩΝ «ΘΕΩΡΙΑ ΠΑΙΓΝΙΩΝ» Του σπουδαστή ΚΑΡΑΜΙΓΚΟΥ ΘΕΜΙΣΤΟΚΛΗ

16 Η θεωρία παιγνίων

Notes. Notes. Notes Σ -1,-1-9,0 Π 0,-9-6,-6. Notes Σ Π

Κεφάλαιο 29 Θεωρία παιγνίων

ΑΛΓΟΡΙΘΜΙΚΗ ΘΕΩΡΙΑ ΠΑΙΓΝΙΩΝ Πανεπιστήµιο Αθηνών Εαρινό Εξάµηνο 2007 ιδάσκων : Ηλίας Κουτσουπιάς

Συνδυαστικά Παίγνια. ιαµόρφωση Παιγνίων. Θέµατα σε Πάιγνια Μηδενικού Αθροίσµατος


ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΘΕΩΡΙΑ ΠΑΙΓΝΙΩΝ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΘΕΩΡΙΑ ΠΑΙΓΝΙΩΝ

Δεύτερο πακέτο ασκήσεων

ΕΚΠ 413 / ΕΚΠ 606 Αυτόνοµοι (Ροµ οτικοί) Πράκτορες

Θεωρία Παιγνίων Δρ. Τασσόπουλος Ιωάννης

Κεφάλαιο 2ο (α) Αµιγείς Στρατηγικές (β) Μεικτές Στρατηγικές (α) Αµιγείς Στρατηγικές. Επαναλαµβάνουµε:

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΘΕΩΡΙΑ ΠΑΙΓΝΙΩΝ

ΕΚΠ 413 / ΕΚΠ 606 Αυτόνοµοι (Ροµ οτικοί) Πράκτορες

ΠΛΗ 405 Τεχνητή Νοηµοσύνη Ε ανάληψη. πεπερασµένα χρονικά περιθώρια ανά κίνηση. απευθείας αξιολόγηση σε ενδιάµεσους κόµβους

Βασικές Έννοιες Θεωρίας Παιγνίων

ΕΚΠ 413 / ΕΚΠ 606 Αυτόνοµοι (Ροµ οτικοί) Πράκτορες

ΣΤΟΧΑΣΤΙΚΕΣ ΔΙΕΡΓΑΣΙΕΣ & ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ Αίθουσα Νέα Κτίρια ΣΗΜΜΥ Ε.Μ.Π.

ΕΠΙΧΕΙΡΗΣΙΑΚΑ ΠΑΙΓΝΙΑ ΕΡΓΑΣΤΗΡΙΟ ΜΑΘΗΜΑ ΕΥΤΕΡΟ- ΚΥΡΙΑΡΧΟΥΜΕΝΗ ΣΤΡΑΤΗΓΙΚΗ- PRISONER S DILLEMA ΑΚΑ ΗΜΑΙΚΟ ΕΤΟΣ

ΠΛΗ 405 Τεχνητή Νοηµοσύνη

ΑΣΚΗΣΗ 1 ΑΣΚΗΣΗ 2 ΑΣΚΗΣΗ 3

ΠΛΗ 405 Τεχνητή Νοηµοσύνη

Περιεχόμενα Πρόλογος 5ης αναθεωρημένης έκδοσης ΚΕΦΆΛΆΙΟ 1 Ο ρόλος της επιχειρησιακής έρευνας στη λήψη αποφάσεων ΚΕΦΆΛΆΙΟ 2.

2. ΘΕΩΡΙΑ ΠΑΙΓΝΙΩΝ

Ακέραιος Γραμμικός Προγραμματισμός

Ανταγωνιστική Ανάθεση Πόρων και Παίγνια Συμφόρησης

ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

Επίλυση Προβλημάτων 1

Κοινωνικά Δίκτυα Θεωρία Παιγνίων

Θεωρία Παιγνίων Δρ. Τασσόπουλος Ιωάννης

Ακέραιος Γραμμικός Προγραμματισμός

Βασικές Έννοιες Θεωρίας Παιγνίων

ΕΠΙΧΕΙΡΗΣΙΑΚΑ ΠΑΙΓΝΙΑ ΕΡΓΑΣΤΗΡΙΟ ΜΑΘΗΜΑ ΠΕΜΠΤΟ ΥΝΑΜΙΚΑ ΠΑΙΓΝΙΑ ΠΛΗΡΟΥΣ ΠΛΗΡΟΦΟΡΗΣΗΣ ΑΚΑ ΗΜΑΙΚΟ ΕΤΟΣ

Θεωρία Παιγνίων και Αποφάσεων

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ Θεωρία Παιγνίων και Αποφάσεων Διδάσκων: Ε. Μαρκάκης, Εαρινό εξάμηνο 2015

ΚΕΦΑΛΑΙΟ 4 Η ΑΡΧΗ ΕΓΚΛΕΙΣΜΟΥ ΑΠΟΚΛΕΙΣΜΟΥ

2). V (s) = R(s) + γ max T (s, a, s )V (s ) (3)

Κεφάλαιο 7ο. max(p 1 c)(α bp 1 +dp 2 )

ΠΛΗ 405 Τεχνητή Νοηµοσύνη Ε ανάληψη. δοµή δεδοµένων για κατασκευή ευρετικών συναρτήσεων Ο αλγόριθµος GraphPlan

Κεφάλαιο 5 R (2, 3) R (3, 0)

Ε Π Ι Χ Ε Ι Ρ Η Σ Ι Α Κ Η Ε Ρ Ε Υ Ν Α

A 2 B 2 Γ 2. u 1 (A 1, A 2 ) = 3 > 1 = u 1 (B 1, A 2 ) u 1 (A 1, Γ 2 ) = 1 > 0 = u 1 (B 1, Γ 2 ) A 2 B 2

ΕΚΠ 413 / ΕΚΠ 606 Υ ολογισµός µε Πράκτορες στο ιαδίκτυο

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής

( ) ΘΕΜΑ 1 κανονική κατανομή

Evolutionary Equilibrium

ΜΑΘΗΜΑΤΙΚΗ ΠΡΟΤΥΠΟΠΟΙΗΣΗ ΣΤΙΣ ΣΥΓΧΡΟΝΕΣ ΤΕΧΝΟΛΟΓΙΕΣ ΚΑΙ ΣΤΗΝ ΟΙΚΟΝΟΜΙΑ

ΟΙΚΟΝΟΜΙΚΗ ΤΗΣ ΒΙΟΜΗΧΑΝΙΚΗΣ ΟΡΓΑΝΩΣΗΣ

Transcript:

ΕΚΠ 413 / ΕΚΠ 606 Αυτόνοµοι (Ροµ οτικοί) Πράκτορες Θεωρία Παιγνίων Μαρκωβιανά Παιχνίδια Τµήµα Ηλεκτρονικών Μηχανικών και Μηχανικών Υ ολογιστών Πολυτεχνείο Κρήτης

Ε ανάληψη Μερική αρατηρησιµότητα POMDPs βέλτιστες πολιτικές µετατροπή σε MDP Θεωρία αιγνίων στρατηγικές ισορροπίες Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 2

Σήµερα Στρατηγικές MaxiMin παιχνίδια µηδενικού αθροίσµατος αλγόριθµος µαθηµατικού προγραµµατισµού Παιχνίδια µη µηδενικού αθροίσµατος επαναλαµβανόµενα Μαρκωβιανά αιχνίδια µοντελοποίηση σχεδιασµός µάθηση Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 3

Στρατηγικές MaxiMin MaxiMin Strategies

Παιχνίδια Μηδενικού Αθροίσµατος Ε\Ο ένα δύο ένα E= +2, O= 2 E= 3, O= +3 δύο E= 3, O= +3 E= +4, O= 4 Zero-Sum Games οι απολαβές σε κάθε περίπτωση έχουν άθροισµα ίσο µε 0 συµµετρικότητα: αρκεί να εξεταστούν οι απολαβές ενός παίκτη παίκτες: µεγιστοποιητής και ελαχιστοποιητής γενικότερα, παιχνίδια σταθερού αθροίσµατος MaxiMin (von Neumann, 1928) µέθοδος εύρεσης βέλτιστης µικτής στρατηγικής για zero-sum Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 5

Παράδειγµα MaxiMin Συλλογιστική αν ο ένας παίκτης αποκαλύψει τη στρατηγική του πριν παίξει ο άλλος; από αµιγείς στρατηγικές: χρησιµότητα παιχνιδιού 3 U +2 αν ο 1ος παίκτης παίζει µικτή στρατηγική, τι γίνεται; ο 2ος παίκτης παίζοντας αµιγή στρατηγική δεν µπορεί να χάσει! 2ος παίκτης: αµιγείς στρατηγικές [ένα] ή [δύο] u ένα ή u δύο 2ος παίκτης: µικτή στρατηγική [p: ένα, 1-p: δύο] pu ένα +(1-p)u δύο Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 6

Παράδειγµα MaxiMin 1ος αίκτης µικτή στρατηγική παραµετροποιηµένη επιλογή (p,q) 2ος αίκτης αµιγής στρατηγική Ο: ένα, αν p<7/12, αλλιώς δύο E: ένα, αν q>7/12, αλλιώς δύο Bέλτιστη ε ιλογή 1ος παίκτης E: p=7/12 1ος παίκτης Ο: q=7/12 ισορροπία maximin (και Nash) Χρησιµότητα αιχνιδιού U = 1/12 (προτιµότερος ο Ο) Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 7

MaxiMin Θεώρηµα von Neumann όλα τα παιχνίδια µηδενικού αθροίσµατος µε δύο παίκτες έχουν ισορροπία maximin όταν επιτρέπονται µικτές στρατηγικές κάθε ισορροπία Nash είναι ένα σηµείο maximin και για τους δύο Γενικός αλγόριθµος n δυνατές ενέργειες για κάθε παίκτη µικτή στρατηγική: σηµείο στις n διαστάσεις καµπύλες χρησιµότητας: υπερεπίπεδα (hyperplanes), όχι ευθείες απαλοιφή των κυριαρχούµενων αµιγών στρατηγικών 2ου παίκτη βέλτιστη επιλογή: µέγιστο σηµείο τοµής υπερεπιπέδων πρόβληµα γραµµικού προγραµµατισµού (linear programming) Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 8

Βέλτιστη Στρατηγική MaxiMin MaxiMin µικτή στρατηγική [7/12: ένα, 5/12: δύο] (µεγιστοποιητής) κοινή γνώση και για τους δύο ορθολογικό να υιοθετήσουν και οι δύο την ίδια στρατηγική αναµενόµενη χρησιµότητα για Ε: U=-1/12 συντηρητική στρατηγική Παράδοξο έστω ότι ο ένας µόνο παίκτης αλλάζει σε αµιγή στρατηγική η αναµενόµενη χρησιµότητα παραµένει U=-1/12 η µονοµερής αλλαγή δεν επηρεάζει αρνητικά τη χρησιµότητα αν ο άλλος παίκτης το ξέρει µπορεί να το εκµεταλλευτεί Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 9

Παιχνίδια Games

Παιχνίδια Μη Μηδενικού Αθροίσµατος Βέλτιστη στρατηγική µικτή στρατηγική ισορροπία Nash Αλγόριθµος απαρίθµηση δυνατών υποσυνόλων ενεργειών για µικτές στρατηγικές προφίλ στρατηγικών µε 1, 2, 3, 4,... το πολύ ενέργειες εκθετικός αριθµός συνδυασµών για κάθε προφίλ στρατηγικών, έλεγχος για ισορροπία πρόβληµα µαθηµατικού προγραµµατισµού για 2 παίκτες: γραµµικός προγραµµατισµός για 3 ή περισσότερους παίκτες: µη γραµµικός προγραµµατισµός Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 11

Ε αναλαµβανόµενα Παιχνίδια Repeated Games πεπερασµένες επαναλήψεις ενός παιχνιδιού ίδιες διαθέσιµες επιλογές σε κάθε επανάληψη γνωστό το ιστορικό των προηγούµενων αποφάσεων προσθετικές απολαβές από όλες τις επαναλήψεις Πλήθος ε αναλήψεων γνωστό πλήθος επαναλήψεων άγνωστο γνωστό πλήθος επαναλήψεων άπειρες επαναλήψεις Στρατηγικές διαρκής τιµωρία (perpetual punishment) µία σου και µία µου (tit for tat) Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 12

Ε αναλαµβανόµενα Παιχνίδια Α \Β οµολογία άρνηση οµολογία A= 5, B= 5 A= 10, B= 0 άρνηση A= 0, B= 10 A= 1, B= 1 100 γύρους ισορροπία κυρίαρχης στρατηγικής [οµολογία, οµολογία] αναµενόµενες απολαβές: -500 99% ε όµενος γύρος στρατηγική: άρνηση, εκτός κι αν ο άλλος έχει επιλέξει οµολογία απολαβές: -100, όσο δεν επιλέξει κανείς οµολογία, αλλιώς 999 στρατηγική: άρνηση, αναπαραγωγή προηγούµενης επιλογής του άλλου Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 13

Μαρκωβιανά Παιχνίδια Markov Games

Zero-Sum Markov Games Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 15

MiniMax Optimality Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 16

Bellman Equation for MGs Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 17

Bellman Optimality Equation for MGs Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 18

MiniMax (Greedy) Policy over Q Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 19

[Littman, 1994] ΕΚΠ 413/606 Αυτόνοµοι Πράκτορες 2007 Example: RPS Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 20

Planning in MGs Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 21

Μάθηση σε Μαρκωβιανά Παίγνια Learning in Markov Games

MiniMaxQ Learning [Littman, 1994] Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 23

Linear ApproximationArchitectures Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 24

Implied MiniMax Policy Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 25

LSTDQ for Zero-Sum MGs Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 26

LSPI for Zero-Sum MGs Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 27

Simplified Soccer Game Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 28

Learning Parameters Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 29

4x4 Soccer against Optimal Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 30

8x8 Soccer against Benchmark Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 31

Generalization to 40x40 Soccer Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 32

Router-Server Flow Control Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 33

Learning Parameters Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 34

Results Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 35

Μελέτη Σύγγραµµα Ενότητα 17.6 Άρθρα M. Littman, Markov Games as a Framework for Multi-Agent Reinforcement Learning, International Conference on Machine Learning, 1994. M. Lagoudakis and Ronald Parr, Value Function Approximation in Zero-Sum Markov Games, Uncertainty in Artificial Intelligence, 2002. Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 36