Θεωρία Παιγνίων και Αποφάσεων. Ενότητα 4: Μεικτές Στρατηγικές. Ε. Μαρκάκης. Επικ. Καθηγητής

Θεωρία Παιγνίων και Αποφάσεων Ενότητα 4: Μεικτές Στρατηγικές Ε. Μαρκάκης Επικ. Καθηγητής

Μεικτές στρατηγικές σε παίγνια 2

Σημεία ισορροπίας: Ύπαρξη Δεν έχουν όλα τα παίγνια σημείο ισορροπίας Π.χ. Το Matching Pennies, το Πέτρα-Ψαλίδι-Χαρτί Τι θα αποτελούσε μια καλή λύση σε τέτοια παίγνια? 3

Παράδειγμα χωρίς σημεία ισορροπίας: Matching Pennies H T H T 1, -1-1, 1-1, 1 1, -1 Σε κάθε προφίλ, κάποιος παίκτης έχει κίνητρο να αλλάξει Δεν υπάρχει κανένα σημείο ισορροπίας! 4

Παράδειγμα χωρίς σημεία ισορροπίας: Matching Pennies H T H T 1, -1-1, 1-1, 1 1, -1 Πώς θα επιλέγαμε στρατηγική σε ένα τέτοιο παίγνιο στην πράξη? Μάλλον τυχαία! (όπως και στο Π-Ψ-Χ) 5

Matching Pennies: Πιθανοτικές ½ ½ H T 1/2 1/2 H T (1, -1) (-1, 1) (-1, 1) (1, -1) στρατηγικές Κύρια ιδέα: Ας επιτρέψουμε στους παίκτες να επιλέγουν πιθανοτικά τις στρατηγικές τους Π.χ. Έστω ότι και οι 2 παίκτες αποφασίζουν να επιλέξουν H με πιθ/τα 1/2 T με πιθ/τα 1/2 Τότε κάθε έκβαση είναι ισοπίθανη με πιθ/τα ¼ Για τον π. 1: P[να κερδίσω] = P[να χάσω] = ½ Μέση ωφέλεια = 0 Ομοίως για τον π. 2 6

Matching Pennies: Πιθανοτικές H T 1/2 1/2 H T (1, -1) (-1, 1) (-1, 1) (1, -1) στρατηγικές Έχει κίνητρο ο π. 1 να αλλάξει αυτή τη στρατηγική, δεδομένης της στρατηγικής του π.2? Αν ο π. 1 επιλέξει H, οι πιθανές εκβάσεις είναι: (H, H) με πιθ/τα 1/2 (+1 για π. 1) (H, T) με πιθ/τα 1/2 (-1 για π. 1) Αν ο π. 1 επιλέξει T, οι πιθανές εκβάσεις είναι: (T, H) με πιθ/τα 1/2 (-1 για π. 1) (T, T) με πιθ/τα 1/2 (+1 για π. 1) Και στις 2 περιπτώσεις, μέση ωφέλεια π. 1 = 0 7

Matching Pennies: Πιθανοτικές H T 1/2 1/2 H T (1, -1) (-1, 1) (-1, 1) (1, -1) στρατηγικές Αν ο π. 1 επιλέξει να παίξει H με πιθ/τα p, και T με πιθ/τα 1-p, οι εκβάσεις θα είναι: (H, H) με πιθ/τα p/2, (T, H) με πιθ/τα (1-p)/2, (H, T) με πιθ/τα p/2, (T, T) με πιθ/τα (1-p)/2 Ωφέλεια π. 1 = (+1) [p/2 + (1-p)/2] + (-1) [p/2 + (1-p)/2] = 0 8

Επιλογή στρατηγικών Συνοψίζοντας: Έστω ότι ο π. 2 επιλέγει πιθανοτικά με βάση την ομοιόμορφη κατανομή (H με πιθ/τα 1/2, T με πιθ/τα 1/2) Πώς πρέπει να παίξει ο π. 1? Κάθε στρατηγική του π. 1 δίνει την ίδια μέση ωφέλεια Όμως, αν παίξει ντετερμινιστικά H, δημιουργείται κίνητρο στον αντίπαλο να παίζει T και να κερδίζει πάντα Το ίδιο αν παίξει ντετερμινιστικά T Αν ο π. 1 παίξει πιθανοτικά, επιλέγοντας π.χ. Η με πιθ/τα p < 1/2, ο π. 2 έχει κίνητρο να επιλέξει και αυτός H, και να κερδίζει με μεγαλύτερη πιθανότητα Τελικό συμπέρασμα: Η μόνη λογική επιλογή για τον π. 1 είναι να επιλέξει και αυτός την ομοιόμορφη κατανομή 9

Μεικτές στρατηγικές Ορισμός: Μια μεικτή στρατηγική (mixed strategy) ενός παίκτη είναι μια κατανομή πιθανότητας πάνω στο σύνολο των διαθέσιμων επιλογών του Αν S = {s 1, s 2,..., s n ) οι διαθέσιμες στρατηγικές ενός παίκτη, μια μεικτή στρατηγική είναι ένα διάνυσμα της μορφής p = (p 1,..., p n ), όπου p i 0 για i=1,..., n, και p 1 +... + p n = 1 p i = πιθανότητα να επιλέξει ο παίκτης την i-οστή στρατηγική του Θα το γράφουμε και ως: p i = p(s i ) = πιθ/τα να επιλεγεί η s i Matching pennies: Η ομοιόμορφη κατανομή γράφεται ως p = (1/2, 1/2) ή p(h) = p(t) = ½ 10

Μεικτές στρατηγικές Πότε έχουν νόημα οι μεικτές στρατηγικές? Όταν το παίγνιο παίζεται επαναλαμβανόμενα Ή όταν μας ενδιαφέρει ως κριτήριο είτε η μέση ωφέλεια είτε κάποια άλλη συνάρτηση που παίρνει υπόψη τις πιθανότητες Μπορούμε να σκεφτόμαστε ότι ο παίκτης επιλέγει να ρίξει ένα νόμισμα για να αποφασίσει τι θα παίξει Εναλλακτική θεώρηση μεικτών στρατηγικών: κάθε παίκτης του παιγνιου εκπροσωπείται από διαφορετικά μέλη ενός πληθυσμού Π.χ. Στο Survivor, π. 1 = Μαχητές, π. 2 = Διάσημοι Η επίδοση στην ταχύτητα του π. 1 εξαρτάται από το ποιος εκπροσωπεί τους Μαχητές σε κάθε γύρο Στην απόφαση «να τρέξω ή να πάω αργά» οι Μαχητές παίζουν μια μεικτή στρατηγική, όπου ένα ποσοστό των παικτών είναι αργοί Ομοίως στην εκτέλεση πεναλτυ: η ομάδα εκπροσωπείται από παίκτες Η συνολική στρατηγική της ομάδας είναι μια κατανομή πιθανότητας πάνω στους πιθανούς τρόπους εκτέλεσης 11

Αμιγείς και μεικτές στρατηγικές Στο εξής, οι αρχικές διαθέσιμες επιλογές θα αναφέρονται ως αμιγείς στρατηγικές Για 2 παίκτες με S 1 = {s 1, s 2,..., s n } και S 2 = {t 1, t 2,..., t m } O π. 1 έχει n αμιγείς στρατηγικές Ο π. 2 έχει m αμιγείς στρατηγικές Κάθε αμιγής μπορεί να αναπαρασταθεί και σαν μεικτή που δίνει πιθανότητα 1 μόνο σε μια επιλογή Π.χ. η αμιγής στρατηγική s 1 γράφεται και σαν την μεικτή (1, 0, 0,..., 0) Η στρατηγική s i αντιστοιχεί στην μεικτή e i = (0, 0,..., 1, 0,..., 0) Με 1 στην θέση i Συχνά θα απεικονίζουμε την i-οστή αμιγή στρατηγική με το μοναδιαίο διάνυσμα e i 12

Ωφέλειες με μεικτές στρατηγικές Έστω ότι οι παίκτες έχουν διαλέξει μεικτές στρατηγικές σε ένα παίγνιο Πώς σκέφτεται κάθε παίκτης για την ωφέλειά του? Όπως και στη θεωρία αποφάσεων, κάθε παίκτης πλέον ενδιαφέρεται να μεγιστοποιήσει την μέση ωφέλειά του 13

Μέση ωφέλεια (για 2 παίκτες) Έστω ένα n x m παίγνιο Αμιγείς στρατηγικές π. 1: S 1 = {s 1, s 2,..., s n } Αμιγείς στρατηγικές π. 2: S 2 = {t 1, t 2,..., t m } Έστω p = (p 1,..., p n ) μια μεικτή στρατηγική του π. 1 και q = (q 1,..., q m ) μια μεικτή στρατηγική του π. 2 Μέση ωφέλεια του π. 1: Ομοίως για τον π. 2 (όπου u 1 βάλτε u 2 ) 14

B S B S 2, 1 0, 0 0, 0 1, 2 Παράδειγμα Έστω p = (4/5, 1/5), q = (1/2, 1/2) u 1 (p, q) = 4/5 x 1/2 x 2 + 1/5 x 1/2 x 1 = 0.9 u 2 (p, q) = 4/5 x 1/2 x 1 + 1/5 x 1/2 x 2 = 0.6 Πότε μπορούμε να έχουμε ισορροπία με μεικτές στρατηγικές? 15

Σημεία ισορροπίας με μεικτές στρατηγικές Ορισμός: Ένα προφίλ μεικτών στρατηγικών (p, q) είναι σημείο ισορροπίας κατά Nash αν u 1 (p, q) u 1 (p, q) για κάθε άλλη μεικτή στρατηγική p του π. 1 u 2 (p, q) u 2 (p, q ) για κάθε άλλη μεικτή στρατηγική q του π. 2 Θα πρέπει κανένας παίκτης να μην έχει κίνητρο μονομερώς να αλλάξει σε κάποια άλλη μεικτή στρατηγική Πώς ελέγχουμε αν ένα προφίλ είναι σημείο ισορροπίας? Άπειρες το πλήθος μεικτές στρατηγικές! 16

Σημεία ισορροπίας με μεικτές στρατηγικές Π.χ. στο Matching pennies: πώς θα ελέγξουμε αν το προφίλ ((1/2, 1/2), (1/2, 1/2)) είναι σημείο ισορροπίας? Με βάση τον ορισμό, πρέπει να ελέγξουμε όλες τις πιθανές αλλαγές (devia ons) κάθε παίκτη: 1. Στρατηγικές (p, 1-p) για τον π. 1, για κάθε p [0, 1] 2. Στρατηγικές (q, 1-q) για τον π. 2, για κάθε q [0, 1] Γενικά ανέφικτο να ελέγξουμε άπειρο πλήθος από μονομερείς αλλαγές! 17

Σημεία ισορροπίας με μεικτές στρατηγικές Υπάρχει πιο εύκολος τρόπος? Παρατήρηση: Μια μεικτή στρατηγική γράφεται σαν κυρτός συνδυασμός (convex combina on) από αμιγείς στρατηγικές: Αν p = (p 1,..., p n ), τότε p = p 1 (1, 0,, 0) + p 2 (0, 1, 0,, 0) + + p n (0,, 0, 1) Έστω ότι σε ένα προφίλ, ένας παίκτης έχει κίνητρο να επιλέξει μια μεικτή στρατηγική p που του δίνει μεγαλύτερη ωφέλεια Τότε θα υπάρχει και κάποια αμιγής στρατηγική που θα του δίνει μεγαλύτερη ωφέλεια! 18

Σημεία ισορροπίας με μεικτές στρατηγικές Πόρισμα: Αρκεί να ελέγξουμε μόνο αποκλίσεις σε αμιγείς στρατηγικές Ισοδύναμος ορισμός: Ένα προφίλ μεικτών στρατηγικών (p, q) είναι σημείο ισορροπίας κατά Nash αν u 1 (p, q) u 1 (e i, q) για κάθε αμιγή στρατηγική e i του π. 1 u 2 (p, q) u 2 (p, e j ) για κάθε αμιγή στρατηγική e j του π. 2 Πρέπει να ισχύουν ταυτόχρονα n+m ανισότητες, όπως και στα σημεία ισορροπίας με αμιγείς στρατηγικές 19

Παράδειγμα B S B S 2, 1 0, 0 0, 0 1, 2 Στο Bach-or-Stravinsky, έστω p = (4/5, 1/5), q = (1/2, 1/2) u 1 (p, q) = 4/5 x 1/2 x 2 + 1/5 x 1/2 x 1 = 0.9 u 2 (p, q) = 4/5 x 1/2 x 1 + 1/5 x 1/2 x 2 = 0.6 Για να δούμε αν το προφίλ (p, q) είναι σημείο ισορροπίας, πρέπει να επαληθεύσουμε τις ανισότητες u 1 (p, q) u 1 (B, q) u 1 (p, q) u 1 (S, q) u 2 (p, q) u 2 (p, B) u 2 (p, q) u 2 (p, S) Είναι το (p, q) σημείο ισορροπίας? 20

Ορισμοί για παίγνια n παικτών Όλοι οι ορισμοί με μεικτές στρατηγικές γενικεύονται εύκολα όταν έχουμε περισσότερους από 2 παίκτες Έστω n παίκτες Και έστω S i = σύνολο αμιγών στρατηγικών του π. i, i = 1,..., n Συνάρτηση ωφέλειας π. i: u i : S 1 x... x S n R Έστω p 1,..., p m μεικτές στρατηγικές των παικτών Δηλαδή για κάθε i = 1,..., n, η p i είναι μια κατανομή πιθανότητας στο S i Τότε μέση ωφέλεια π. i = 21

Σημεία ισορροπίας για παίγνια n παικτών Ορισμός: Ένα προφίλ p = (p 1,..., p n ) είναι σημείο ισορροπίας με μεικτές στρατηγικές αν για κάθε παίκτη i και κάθε αμιγή στρατηγική e i του π. i, ισχύει ότι u i (p) u i (e i, p -i ) Όπως και στα παίγνια 2 παικτών, αρκεί να ελέγξουμε μόνο αποκλίσεις σε αμιγείς στρατηγικές 22

Σημεία ισορροπίας: Υπενθύμιση Ζητήματα που είχαμε αναγνωρίσει ως προβληματικά για τα σημεία ισορροπίας με αμιγείς στρατηγικές: 1. Δεν έχουν όλα τα παίγνια σημείο ισορροπίας 2. Στα παίγνια όπου υπάρχει σημείο ισορροπίας, δεν είναι πάντα μοναδικό Κάποια παίγνια μπορεί να έχουν πολλά σημεία ισορροπίας 3. Δεν παρέχουν απαραίτητα όλα τα σημεία ισορροπίας την ίδια ωφέλεια - Ούτε στον καθε παίκτη χωριστά, αλλά ούτε και αθροιστικά 23

Σημεία ισορροπίας με μεικτές στρατηγικές Θεώρημα [Nash 1951]: Κάθε πεπερασμένο παίγνιο έχει τουλάχιστον ένα σημείο ισορροπίας Πόρισμα: αν ένα παίγνιο δεν έχει σημείο ισορροπίας με αμιγείς στρατηγικές, τότε σίγουρα θα έχει τουλάχιστον ένα σημείο ισορροπίας με μεικτές στρατηγικές Ένα από τα σημαντικότερα θεωρήματα της θεωρίας παιγνίων Το θεώρημα του Nash, αντιμετωπίζει επιτυχώς το πρώτο από τα 3 ζητήματα Επιτρέποντας πιθανοτικές στρατηγικές, η ύπαρξη είναι πλέον εγγυημένη 24

Παραδείγματα Στο δίλημμα του φυλακισμένου, και στο Bach-or-Stravinsky, υπάρχει ήδη σημείο ισορροπίας με αμιγείς στρατηγικές Το θεώρημα του Nash εδώ δεν προσθέτει κάποια πληροφορία. Ίσως υπάρχουν και επιπλέον σημεία ισορροπίας με μεικτές στρατηγικές, ίσως όχι Matching-Pennies: εδώ το θεώρημα του Nash εγγυάται ότι υπάρχει ισορροπία με μεικτές στρατηγικές Το προφίλ που είδαμε: ((1/2, 1/2), (1/2, 1/2)) Για το Πέτρα-Ψαλίδι-Χαρτί? 25