- Παράδειγμα. Εκτέλεση Πέναλτι ή Κορώνα-Γράμματα (Heads or Tails) - Ένας ποδοσφαιριστής ετοιμάζεται να εκτελέσει ένα πέναλτι, το οποίο προσπαθεί να αποκρούσει ένας τερματοφύλακας. - Αν οι δύο παίκτες επιλέξουν την ίδια γωνία (δηλαδή ο εκτελεστής σουτάρει στην αριστερή γωνία και ο τερματοφύλακας πέσει στην αριστερή γωνία ή ο εκτελεστής σουτάρει στη δεξιά γωνία και ο τερματοφύλακας πέσει στη δεξιά γωνία), τότε ο τερματοφύλακας αποκρούει το πέναλτι, οπότε η απόδοση του τερματοφύλακα είναι και η απόδοση του εκτελεστή είναι -. - Αν οι δύο παίκτες επιλέξουν διαφορετικές γωνίες (δηλαδή ο εκτελεστής σουτάρει στην αριστερή γωνία και ο τερματοφύλακας πέσει στη δεξιά γωνία ή ο εκτελεστής σουτάρει στη δεξιά γωνία και ο τερματοφύλακας πέσει στην αριστερή γωνία), τότε ο εκτελεστής πετυχαίνει γκολ, οπότε η απόδοση του τερματοφύλακα είναι - και η απόδοση του εκτελεστή είναι.
- Αυτή η κατάσταση στρατηγικής αλληλεπίδρασης περιγράφεται από ένα παίγνιο δύο παικτών, όπου: Οπαίκτης είναι ο εκτελεστής του πέναλτι και ο παίκτης είναι ο τερματοφύλακας. Κάθε παίκτης έχει στη διάθεσή του δύο στρατηγικές: να επιλέξει την αριστερή γωνία (Left L) ή να επιλέξει τη δεξιά γωνία (Right R). O χώρος στρατηγικών για κάθε παίκτη i=, είναι: S = S = { L, R} Οι αποδόσεις ( u των παικτών παριστάνονται από τον, u) παρακάτω πίνακα αποδόσεων (payoff matrix): Παίκτης (Τερματοφύλακας) L R Παίκτης (Εκτελεστής) L R (-,) (,-) (,-) (-,)
- Δηλαδή, οι συναρτήσεις απόδοσης u( s, s), u( s, s) των παικτών παίρνουντιςεξήςτιμές: u( L, L) =, u( L, R) =, u( R, L) =, u( R, R) = u ( L, L) =, u ( L, R) =, u ( R, L) =, u ( R, R) = - Για να υπολογίσουμε την ισορροπία(ή τις ισορροπίες) κατά Nash του παιγνίου, ακολουθούμε τη μεθοδολογία που περιγράφτηκε παραπάνω. Βήμα. Βρίσκουμε την άριστη αντίδραση κάθε παίκτη σε κάθε διαθέσιμη στρατηγική του άλλου παίκτη και την παριστάνουμε με το αντίστοιχο βέλος ιδίου συμφέροντος. Παίκτης Παίκτης L L R R 3
Άριστες Αντιδράσεις Παίκτη - Αν ο παίκτης επιλέξει L, τότε η άριστη αντίδραση του παίκτη είναι να επιλέξει L, διότι: u ( L, L) = > u ( L, R) = - Αν ο παίκτης επιλέξει R, τότε η άριστη αντίδραση του παίκτη είναι να επιλέξει R, διότι: u ( R, R) = > u ( R, L) = Άριστες Αντιδράσεις Παίκτη - Αν ο παίκτης επιλέξει L, τότε η άριστη αντίδραση του παίκτη είναι να επιλέξει R, διότι: u ( R, L) = > u ( L, L) = - Αν ο παίκτης επιλέξει R, τότε η άριστη αντίδραση του παίκτη είναι να επιλέξει L, διότι: u ( L, R) = > u ( R, R) = 4
( s, s ) Βήμα. Ένας συνδυασμός στρατηγικών είναι μια ισορροπία κατά Nash εάν τα βέλη ιδίου συμφέροντος των παικτών σχηματίζουν κλειστό κύκλωμα στον συγκεκριμένο συνδυασμό. Δεν υπάρχει ισορροπία κατά Nash στο συγκεκριμένο παίγνιο. - Παρατήρηση. Εφόσον δεν υπάρχει ισορροπία κατά Nash, δεν υπάρχει ούτε ισορροπία σε κυρίαρχες στρατηγικές. - Πράγματι, μπορούμε να ελέγξουμε αν υπάρχει ισορροπία σε κυρίαρχες στρατηγικές ακολουθώντας τη μεθοδολογία που περιγράφτηκε παραπάνω. Βήμα. Βρίσκουμε την άριστη αντίδραση κάθε παίκτη σε κάθε διαθέσιμη στρατηγική του άλλου παίκτη και την παριστάνουμε με το αντίστοιχο βέλος ιδίου συμφέροντος (βλ. σελ. 3). Βήμα. (i) Ελέγχουμε αν υπάρχει κυρίαρχη στρατηγική για τον παίκτη. s - Μια στρατηγική είναι κυρίαρχη στρατηγική για τον παίκτη αν όλα τα βέλη ιδίου συμφέροντος του παίκτη καταλήγουν στη στρατηγική Δεν υπάρχει κυρίαρχη στρατηγική για τον παίκτη (διότι το ένα βέλος ιδίου συμφέροντος του παίκτη καταλήγει στη στρατηγική L ενώ το άλλο βέλος καταλήγει στη στρατηγική R). s. 5
(ii) Ελέγχουμε αν υπάρχει κυρίαρχη στρατηγική για τον παίκτη. - Μια στρατηγική s είναι κυρίαρχη στρατηγική για τον παίκτη αν όλαταβέληιδίουσυμφέροντοςτουπαίκτη καταλήγουν στη στρατηγική s. Δεν υπάρχει κυρίαρχη στρατηγική για τον παίκτη (διότι το ένα βέλος ιδίου συμφέροντος του παίκτη καταλήγει στη στρατηγική L ενώ το άλλο βέλος καταλήγει στη στρατηγική R). - Άρα, δεν υπάρχει ισορροπία σε κυρίαρχες στρατηγικές στο συγκεκριμένο παίγνιο. - Γενικά: Τα παίγνια στα οποία υπάρχει αρκετά μεγάλος αριθμός διαθέσιμων στρατηγικών για κάθε παίκτη προσφέρουν αρκετή ευελιξία ώστε να εξασφαλίζεται η ύπαρξη τουλάχιστον μίας ισορροπίας κατά Nash. - Τέτοιου είδους παίγνια κατατάσσονται σε δύο γενικές κατηγορίες. (Π) Παίγνια όπου η στρατηγική που επιλέγει κάθε παίκτης είναι μια συνεχής μεταβλητή και, επομένως, ο χώρος στρατηγικής είναι ένα συνεχές διάστημα. 6
- Παράδειγμα. Οι παίκτες, είναι δύο επιχειρήσεις που επιλέγουν την τιμή (p i ) στην οποία θα πουλήσουν το προϊόν τους, οπότε: s = p [0, + ) i i - Για τη συγκεκριμένη κατηγορία παιγνίων, ισχύει το παρακάτω θεώρημα. - Θεώρημα. Έστω ένα παίγνιο n παικτών. Αν: (i) O χώρος στρατηγικών S i είναι ένα μη κενό, κυρτό και συμπαγές (κλειστό και φραγμένο) σύνολο για κάθε i=,,n, και (ii) Η συνάρτηση απόδοσης u i (s,,s n ) είναι συνεχής ως προς (s,,s n ) και οιονεί κοίλη ως προς s i για κάθε i=,,n, τότε υπάρχει ισορροπία κατά Nash στο παίγνιο G. G = { S,..., S ; u,..., u } n (Π) Παίγνια όπου οι παίκτες μπορούν να χρησιμοποιήσουν μικτές στρατηγικές. G = { S,..., S ; u,..., u } - Ορισμός. Έστω ένα παίγνιο n παικτών, όπου S = { s,..., s } n i i ik είναι ο χώρος στρατηγικών για τον παίκτη i=,,n. Τότε, κάθε στρατηγική sij Si (όπου j=,,k) ονομάζεται αμιγής στρατηγική 7 (pure strategy) του παίκτη i. n n
- Δηλαδή: Οι αμιγείς στρατηγικές ενός παίκτη είναι οι διαφορετικές ενέργειες που μπορεί να επιλέξει ο συγκεκριμένος παίκτης (τα στοιχεία του χώρου στρατηγικών του). - Παράδειγμα. Στο παίγνιο της εκτέλεσης πέναλτι, οι αμιγείς στρατηγικές κάθε παίκτη είναι οι L και R, ενώ στο δίλημμα του φυλακισμένου οι αμιγείς στρατηγικές κάθε παίκτη είναι οι C και D. - Ορισμός. Έστω ένα παίγνιο n παικτών n n, όπου Si = { si,..., sik} είναι ο χώρος στρατηγικών για τον παίκτη i=,,n. Τότε, μια μικτή στρατηγική (mixed strategy) για τον παίκτη i είναι μια κατανομή πιθανότητας ( p επί των αμιγών στρατηγικών του i,..., pik) παίκτη i, όπου p ij είναι η πιθανότητα με την οποία ο παίκτης i επιλέγει την αμιγή στρατηγική s ij (για j=,,k) και G = { S,..., S ; u,..., u } - Δηλαδή: Κάθε παίκτης i επιλέγει την πιθανότητα (p ij ) με την οποία θα ακολουθήσει κάθε αμιγή στρατηγική (s ij ). - Παρατήρηση. Στην περίπτωση αυτή, οι επιλεγόμενες στρατηγικές (p ij ) είναι συνεχείς μεταβλητές και, επομένως, προσφέρουν αρκετή ευελιξία που εξασφαλίζει την ύπαρξη ισορροπίας κατά Nash, η οποία ονομάζεται 8 ισορροπία κατά Nash σε μικτές στρατηγικές. k j= p ij =.
Μεθοδολογία Υπολογισμού Ισορροπίας κατά Nash σε Μικτές Στρατηγικές - Παράδειγμα (συνέχεια). Για να υπολογίσουμε την ισορροπία κατά Nash σε μικτές στρατηγικές στο παίγνιο της εκτέλεσης πέναλτι, ακολουθούμε την παρακάτω μεθοδολογία. Βήμα. Ορίζουμε την πιθανότητα με την οποία κάθε παίκτης, επιλέγει κάθε αμιγή στρατηγική του. - Έστω p η πιθανότητα με την οποία ο παίκτης επιλέγει L και (-p ) η πιθανότητα με την οποία ο παίκτης επιλέγει R. H μικτήστρατηγικήτουπαίκτη είναι ( p,-p ) καιορίζεταιπλήρως από την πιθανότητα p. - Έστω p η πιθανότητα με την οποία ο παίκτης επιλέγει L και (-p ) η πιθανότητα με την οποία ο παίκτης επιλέγει R. H μικτήστρατηγικήτουπαίκτη είναι ( p,-p ) καιορίζεταιπλήρως από την πιθανότητα p. 9
- Οι πιθανότητες με τις οποίες επιλέγονται οι διάφοροι συνδυασμοί αμιγών στρατηγικών παριστάνονται στον παρακάτω πίνακα. Παίκτης (Τερματοφύλακας) L R Παίκτης (Εκτελεστής) L R p p p (-p ) (-p )p (-p )(-p ) Βήμα. Υπολογίζουμε την αναμενόμενη απόδοση των παικτών, ως συνάρτηση των πιθανοτήτων p, p. -H αναμενόμενη απόδοση του παίκτη είναι: V ( p, p ) = p p u ( L, L) + p ( p ) u ( L, R) + ( p ) p u ( R, L) + + ( p )( p ) u ( R, R) = p + p 4 p p -H αναμενόμενη απόδοση του παίκτη είναι: V( p, p) = ppu( LL, ) + p( p) u( LR, ) + ( p) pu( RL, ) + + ( p )( p ) u ( R, R) = p p + 4 p p 0
Βήμα 3. Λύνουμε το πρόβλημα μεγιστοποίησης της αναμενόμενης απόδοσης για κάθε παίκτη και βρίσκουμε τις συναρτήσεις άριστης αντίδρασης των παικτών,. Παίκτης - Οπαίκτης επιλέγει την πιθανότητα p (δηλαδή τη μικτή στρατηγική του) κατά τρόπο ώστε να μεγιστοποιεί την αναμενόμενη απόδοσή του, θεωρώντας δεδομένη την πιθανότητα p (δηλαδή θεωρώντας δεδομένη τη μικτή στρατηγική του παίκτη ): max V ( p, p ) = p + p 4 p p { p } st.. 0 p (VMP ) -H λύση του VMP είναι: p( p ) =, αν p < / οτιδήποτε [0,], αν p = / () 0, αν p > /
- Ησυνάρτηση p (p ) (δηλαδήηλύσητουvmp ) δείχνει την άριστη αντίδραση του παίκτη σε κάθε μικτή στρατηγική (p ) του παίκτη και ονομάζεται συνάρτηση άριστης αντίδρασης (best response function) ή καμπύλη αντίδρασης (reaction curve) του παίκτη. Παίκτης - Οπαίκτης επιλέγει την πιθανότητα p (δηλαδή τη μικτή στρατηγική του) κατά τρόπο ώστε να μεγιστοποιεί την αναμενόμενη απόδοσή του, θεωρώντας δεδομένη την πιθανότητα p (δηλαδή θεωρώντας δεδομένη τη μικτή στρατηγική του παίκτη ): max V ( p, p ) = p p + 4 p p { p } st.. 0 p -H λύση του VMP είναι: p( p ) = 0, αν p < / (VMP ) οτιδήποτε [0,], αν p = /, αν p > / ()
- Ησυνάρτηση p (p ) (δηλαδήηλύσητουvmp ) δείχνει την άριστη αντίδραση του παίκτη σε κάθε μικτή στρατηγική (p ) του παίκτη και ονομάζεται συνάρτηση άριστης αντίδρασης (best response function) ή καμπύλη αντίδρασης (reaction curve) του παίκτη. p p (p ) p (p ) p = / E 0 p = / Βήμα 4. Ένας συνδυασμός πιθανοτήτων είναι μια ισορροπία κατά Nash σε μικτές στρατηγικές (Nash Equilibrium in Mixed Strategies NEMS) αν η στρατηγική p αποτελεί την άριστη αντίδραση του παίκτη στη στρατηγική p του παίκτη και η στρατηγική p αποτελεί την άριστη αντίδραση του παίκτη στη στρατηγική του παίκτη : 3 p p ( p, p )
V ( p, p ) V ( p, p ), p [0,] V ( p, p ) V ( p, p ), p [0,] - Για να προσδιορίσουμε αλγεβρικά την ισορροπία κατά Nash σε μικτές στρατηγικές ( p, p), λύνουμε ως προς p,p το σύστημα εξισώσεων: p = p( p) p = p ( p ) όπου οι p (p ), p (p ) δίνονται από τις () και (), αντίστοιχα. Ισορροπία κατά Nash σε μικτές στρατηγικές: ( p, p ) = (/,/) - Η ισορροπία κατά Nash σε μικτές στρατηγικές προσδιορίζεται διαγραμματικά από το σημείο τομής (σημείο Ε) των καμπυλών αντίδρασης των παικτών,. - Δηλαδή: Οπαίκτης επιλέγει L με πιθανότητα p =/ και R με πιθανότητα -p =/, ενώ ο παίκτης επιλέγει L με πιθανότητα p =/ και R με πιθανότητα -p =/. 4
- Οι αναμενόμενες αποδόσεις των παικτών, σε ισορροπία είναι: ( V, V ) = (0,0) - Παρατήρηση (Ερμηνεία Μικτών Στρατηγικών). Η μικτή στρατηγική ( p = /) του παίκτη αντανακλά την αβεβαιότητα του παίκτη σχετικά με την αμιγή στρατηγική που θα επιλέξει ο παίκτης. (δηλαδή ο παίκτης πιστεύει ότι ο παίκτης είναι εξίσου πιθανό να επιλέξει L όσο και να επιλέξει R) H επιλογή του παίκτη μπορεί να εξαρτάται από κάποιον ιδιοσυγκρασιακό παράγοντα (π.χ. από ένα όνειρο που είδε το προηγούμενο βράδυ), τον οποίο αγνοεί ο παίκτης. Από την άποψη του παίκτη, η επιλογή του παίκτη είναι αβέβαιη (τυχαία), μολονότιοίδιοςοπαίκτης ακολουθεί μια καθορισμένη (ντετερμινιστική) στρατηγική. - Γενικά: Η μικτή στρατηγική κάθε παίκτη i εκφράζει την αβεβαιότητα των άλλων παικτών σχετικά με την επιλογή του παίκτη i. 5
- Παρατήρηση. Η μικτή στρατηγική p = ταυτίζεται με την αμιγή στρατηγική L του παίκτη. (ο παίκτης επιλέγει L με πιθανότητα και R με πιθανότητα 0) Η μικτή στρατηγική παίκτη. Η μικτή στρατηγική παίκτη. Η μικτή στρατηγική παίκτη. p = 0 p = p = 0 ταυτίζεται με την αμιγή στρατηγική R του ταυτίζεται με την αμιγή στρατηγική L του ταυτίζεται με την αμιγή στρατηγική R του - Γενικά: Οι αμιγείς στρατηγικές των παικτών είναι απλώς ειδικές (ακραίες) περιπτώσεις μικτών στρατηγικών. - Στο Δίλημμα του Φυλακισμένου [βλ. Week 0 ( of ), σελ. 4], έχουμε βρει ότι η ισορροπία κατά Nash σε αμιγείς στρατηγικές είναι: ( s, s ) = ( D, D) - Αυτή η ισορροπία μπορεί να εκφραστεί επίσης ως ισορροπία κατά Nash σε μικτές στρατηγικές: ( p, p ) = (0,0) (όπου p i είναι η πιθανότητα με την οποία ο παίκτης i=, επιλέγει C) 6
- Άρα: Κάθε ισορροπία κατά Nash σε αμιγείς στρατηγικές είναι απλώς μια ειδική (ακραία) περίπτωση ισορροπίας κατά Nash σε μικτές στρατηγικές. Ύπαρξη Ισορροπίας κατά Nash σε μικτές Στρατηγικές - Ορισμός. Ένα παίγνιο n παικτών ονομάζεται πεπερασμένο (finite) αν οι χώροι στρατηγικών S i όλων των παικτών i=,,n έχουν πεπερασμένο πλήθος στοιχείων (δηλαδή αν το πλήθος των αμιγών στρατηγικών που έχει στη διάθεσή του κάθε παίκτης είναι πεπερασμένο). Θεώρημα (Nash, 950). Κάθε πεπερασμένο παίγνιο n παικτών G = { S,..., Sn; u,..., un} έχει τουλάχιστον μία ισορροπία κατά Nash σε μικτές στρατηγικές. - Η απόδειξη βασίζεται στο θεώρημα του σταθερού σημείου (Brouwer s Fixed Point Theorem) και παραλείπεται (βλ. Gibbons, R. 99, A Primer in Game Theory, Κεφάλαιο.3.B). 7
Αξιολόγηση Ισορροπίας (L,R) (R,L) V NEMS :( V, V ) = (0,0) - 0 V - (L,L) (R,R) - Ο συνδυασμός (αναμενόμενων) χρησιμοτήτων ισορροπίας είναι: ( V, V ) = (0,0) Στο συγκεκριμένο παράδειγμα, ηισορροπίαnash σε μικτές στρατηγικές ( p, p ) = (0,0) είναι άριστη κατά Pareto, διότι δεν υπάρχει άλλος εφικτός συνδυασμός χρησιμοτήτων που να ωφελεί ταυτόχρονα και τους δύο παίκτες (σεσχέσημετοσυνδυασμόισορροπίας). 8
- Παρατήρηση. Γνωρίζουμε: V ( p, p ) = p + p 4p p V ( p, p ) = p p + 4p p i Για p = p = /, είναι: V ( p, p ) = 0 p [0,] i Για p = p = /, είναι: V ( p, p ) = 0 p [0,] - Δηλαδή: Αν ο παίκτης πιστεύει ότι ο παίκτης θα επιλέξει τη μικτή στρατηγική ισορροπίας ( p = /), τότε ο παίκτης είναι αδιάφορος αν θα επιλέξει τη δική του μικτή στρατηγική ισορροπίας ( p ή = /) οποιαδήποτε άλλη μικτή (ή αμιγή) στρατηγική. Δεν υπάρχει κάποιος πειστικός λόγος για τον οποίο ο παίκτης θα επιλέξει τη μικτή στρατηγική ισορροπίας ( p = /). - Όμοια: Αν ο παίκτης πιστεύει ότι ο παίκτης θα επιλέξει τη μικτή στρατηγική ισορροπίας ( p, τότε ο παίκτης είναι αδιάφορος αν = /) θα επιλέξει τη δική του μικτή στρατηγική ισορροπίας ( p ή = /) οποιαδήποτε άλλη μικτή (ή αμιγή) στρατηγική. Δεν υπάρχει κάποιος πειστικός λόγος για τον οποίο ο παίκτης θα επιλέξει τη μικτή στρατηγική ισορροπίας ( p = /). 9
- Άρα: Η ισορροπία κατά Nash σε μικτές στρατηγικές δεν αποτελεί ιδιαίτερα πειστική πρόβλεψη για το αποτέλεσμα του παιγνίου. - Παράδειγμα 3. Η Μάχη των Φύλων (Battle of the Sexes) - Ένας άνδρας και μια γυναίκα είναι πολύ αγαπημένοι και θέλουν να περάσουν το απόγευμα μαζί. - Η δραστηριότητα που προτιμά ο άνδρας είναι να παρακολουθήσει έναν ποδοσφαιρικό αγώνα στο γήπεδο, ενώ η δραστηριότητα που προτιμά η γυναίκα είναι να παρακολουθήσει μια συναυλία κλασικής μουσικής στη Λυρική Σκηνή. - Αν ο άνδρας και η γυναίκα πάνε μαζί στο γήπεδο, τότε έχουν και οι δύο θετική απόδοση επειδή βρίσκονται μαζί, αλλά η απόδοση του άνδρα (δύο μονάδες) είναι μεγαλύτερη από την απόδοση της γυναίκας (μία μονάδα) διότι η γυναίκα δεν αγαπάει το ποδόσφαιρο. - Αν ο άνδρας και η γυναίκα πάνε μαζί στη συναυλία, τότε έχουν και οι δύο θετική απόδοση επειδή βρίσκονται μαζί, αλλά η απόδοση της γυναίκας (δύο μονάδες) είναι μεγαλύτερη από την απόδοση του άνδρα 0 (μία μονάδα) διότι ο άνδρας δεν αγαπάει την κλασική μουσική.
- Αν ο άνδρας και η γυναίκα πάνε σε διαφορετικά μέρη, τότε είναι και οι δύο δυστυχισμένοι (έχουν μηδενική απόδοση) επειδή χωρίσανε. - Αυτή η κατάσταση στρατηγικής αλληλεπίδρασης περιγράφεται από ένα παίγνιο δύο παικτών, όπου: Οπαίκτης είναιοάνδρας καιοπαίκτης είναι η γυναίκα. Κάθεπαίκτηςέχειστηδιάθεσήτουδύοστρατηγικές: να πάει στον ποδοσφαιρικό αγώνα (Football F) ή να πάει στη συναυλία (Concert C). O χώρος στρατηγικών για κάθε παίκτη i=, είναι: S = S = { F, C} Οι αποδόσεις ( u, u) των παικτών παριστάνονται από τον παρακάτω πίνακα αποδόσεων (payoff matrix): Παίκτης (Γυναίκα) F C Παίκτης (Άνδρας) F C (,) (0,0) (0,0) (,)
- Δηλαδή, οι συναρτήσεις απόδοσης u( s, s), u( s, s) των παικτών παίρνουντιςεξήςτιμές: u( F, F) =, u( F, C) = 0, u( C, F) = 0, u( C, C) = u ( F, F) =, u ( F, C) = 0, u ( C, F) = 0, u ( C, C) = - Για να υπολογίσουμε την ισορροπία(ή τις ισορροπίες) κατά Nash σε αμιγείς στρατηγικές, ακολουθούμε τη συνήθη μεθοδολογία. Βήμα. Βρίσκουμε την άριστη αντίδραση κάθε παίκτη σε κάθε διαθέσιμη στρατηγική του άλλου παίκτη και την παριστάνουμε με το αντίστοιχο βέλος ιδίου συμφέροντος. Παίκτης Παίκτης F F C C
Άριστες Αντιδράσεις Παίκτη - Αν ο παίκτης επιλέξει F, τότε η άριστη αντίδραση του παίκτη είναι να επιλέξει F, διότι: u ( F, F) = > u ( F, C) = 0 - Αν ο παίκτης επιλέξει C, τότε η άριστη αντίδραση του παίκτη είναι να επιλέξει C, διότι: u ( C, C) = > u ( C, F) = 0 Άριστες Αντιδράσεις Παίκτη - Αν ο παίκτης επιλέξει F, τότε η άριστη αντίδραση του παίκτη είναι να επιλέξει F, διότι: u ( F, F) = > u ( C, F) = 0 - Αν ο παίκτης επιλέξει C, τότε η άριστη αντίδραση του παίκτη είναι να επιλέξει C, διότι: u ( C, C) = > u ( F, C) = 0 3
Βήμα. Ένας συνδυασμός στρατηγικών ( s, s) είναι μια ισορροπία κατά Nash σε αμιγείς στρατηγικές εάν τα βέλη ιδίου συμφέροντος των παικτών σχηματίζουν κλειστό κύκλωμα στον συγκεκριμένο συνδυασμό. Υπάρχουν δύο ισορροπίες κατά Nash σε αμιγείς στρατηγικές: (i) ( s, s) = ( F, F), οπότε οι χρησιμότητες ισορροπίας είναι u u = (ii)( s, s ) = ( C, C), οπότε οι χρησιμότητες ισορροπίας είναι ( u, u ) = (,) (, ) (,) - Ελέγχουμε αν υπάρχει ισορροπία σε κυρίαρχες στρατηγικές, σύμφωνα με τη συνήθη μεθοδολογία. Βήμα. Βρίσκουμε την άριστη αντίδραση κάθε παίκτη σε κάθε διαθέσιμη στρατηγική του άλλου παίκτη και την παριστάνουμε με το αντίστοιχο βέλος ιδίου συμφέροντος (βλ. σελ. ). Βήμα. (i) Ελέγχουμε αν υπάρχει κυρίαρχη στρατηγική για τον παίκτη. s - Μια στρατηγική είναι κυρίαρχη στρατηγική για τον παίκτη αν όλα τα βέλη ιδίου συμφέροντος του παίκτη καταλήγουν στη στρατηγική Δεν υπάρχει κυρίαρχη στρατηγική για τον παίκτη (διότι το ένα βέλος ιδίου συμφέροντος του παίκτη καταλήγει στη στρατηγική F ενώ το άλλο βέλος καταλήγει στη στρατηγική C). s. 4
(ii) Ελέγχουμε αν υπάρχει κυρίαρχη στρατηγική για τον παίκτη. s - Μια στρατηγική είναι κυρίαρχη στρατηγική για τον παίκτη αν όλα τα βέλη ιδίου συμφέροντος του παίκτη καταλήγουν στη στρατηγική Δεν υπάρχει κυρίαρχη στρατηγική για τον παίκτη (διότι το ένα βέλος ιδίου συμφέροντος του παίκτη καταλήγει στη στρατηγική F ενώ το άλλο βέλος καταλήγει στη στρατηγική C). - Άρα, δεν υπάρχει ισορροπία σε κυρίαρχες στρατηγικές στο συγκεκριμένο παίγνιο. - Υπολογίζουμε την ισορροπία (ή τις ισορροπίες) κατά Nash σε μικτές στρατηγικές, σύμφωνα με τη μεθοδολογία που περιγράφτηκε παραπάνω. Βήμα. Ορίζουμε την πιθανότητα με την οποία κάθε παίκτης, επιλέγει κάθε αμιγή στρατηγική του. - Έστω p η πιθανότητα με την οποία ο παίκτης επιλέγει F και (-p ) η πιθανότητα με την οποία ο παίκτης επιλέγει C. H μικτήστρατηγικήτουπαίκτη είναι ( p,-p ) καιορίζεταιπλήρως από την πιθανότητα p 5. s.
- Έστω p η πιθανότητα με την οποία ο παίκτης επιλέγει F και (-p ) η πιθανότητα με την οποία ο παίκτης επιλέγει C. H μικτήστρατηγικήτουπαίκτη είναι ( p,-p ) καιορίζεταιπλήρως από την πιθανότητα p. - Οι πιθανότητες με τις οποίες επιλέγονται οι διάφοροι συνδυασμοί αμιγών στρατηγικών παριστάνονται στον παρακάτω πίνακα. F Παίκτης (Γυναίκα) C Παίκτης (Άνδρας) F C p p p (-p ) (-p )p (-p )(-p ) Βήμα. Υπολογίζουμε την αναμενόμενη απόδοση των παικτών, ως συνάρτηση των πιθανοτήτων p, p. -H αναμενόμενη απόδοση του παίκτη είναι: 6
V( p, p) = ppu( F, F) + p( p) u( F, C) + ( p) pu( C, F) + + ( p )( p ) u ( C, C) = p + 3 p p p -H αναμενόμενη απόδοση του παίκτη είναι: V ( p, p ) = p p u ( F, F) + p ( p ) u ( F, C) + ( p ) p u ( C, F) + + ( p )( p ) u ( C, C) = p + 3 p p p Βήμα 3. Λύνουμε το πρόβλημα μεγιστοποίησης της αναμενόμενης απόδοσης για κάθε παίκτη και παίρνουμε τις συναρτήσεις άριστης αντίδρασης των παικτών,. Παίκτης - Οπαίκτης επιλέγει την πιθανότητα p (δηλαδή τη μικτή στρατηγική του) κατά τρόπο ώστε να μεγιστοποιεί την αναμενόμενη απόδοσή του, θεωρώντας δεδομένη την πιθανότητα p (δηλαδή θεωρώντας δεδομένη τη μικτή στρατηγική του παίκτη ): max V ( p, p ) = p + 3p p p { p } st.. 0 p (VMP ) 7
-H λύση του VMP είναι: p( p ) = 0, αν p < /3 οτιδήποτε [0,], αν p = /3, αν p > /3 (Συνάρτηση άριστης αντίδρασης του παίκτη ) Παίκτης (3) - Οπαίκτης επιλέγει την πιθανότητα p (δηλαδή τη μικτή στρατηγική του) κατά τρόπο ώστε να μεγιστοποιεί την αναμενόμενη απόδοσή του, θεωρώντας δεδομένη την πιθανότητα p (δηλαδή θεωρώντας δεδομένη τη μικτή στρατηγική του παίκτη ): max V ( p, p ) = p + 3p p p { p } st.. 0 p (VMP ) 8
-H λύση του VMP είναι: p( p ) = 0, αν p < /3 οτιδήποτε [0,], αν p = /3, αν p > /3 (Συνάρτηση άριστης αντίδρασης του παίκτη ) (4) p p (p ) p = /3 E 3 E p (p ) E 0 p = /3 p 9
( p, p ) Βήμα 4. Ένας συνδυασμός πιθανοτήτων είναι μια ισορροπία κατά Nash σε μικτές στρατηγικές (Nash Equilibrium in Mixed Strategies NEMS) αν η στρατηγική p αποτελεί την άριστη αντίδραση του παίκτη στη στρατηγική p του παίκτη και η στρατηγική p αποτελεί την άριστη αντίδραση του παίκτη στη στρατηγική του παίκτη. - Για να προσδιορίσουμε αλγεβρικά την ισορροπία (ή τις ισορροπίες) κατά Nash σε μικτές στρατηγικές ( p, p), λύνουμε ως προς p,p το σύστημα εξισώσεων: p = p ( p ) p = p ( p ) όπου οι p (p ), p (p ) δίνονται από τις (3) και (4), αντίστοιχα. - Οι ισορροπίες κατά Nash σε μικτές στρατηγικές προσδιορίζονται διαγραμματικά από τα σημεία τομής των καμπυλών αντίδρασης των παικτών,. Υπάρχουν τρεις ισορροπίες κατά Nash σε μικτές στρατηγικές: ( p, p ) = (,) (i) : Σημείο Ε p 30
- Η συγκεκριμένη ισορροπία κατά Nash σε μικτές στρατηγικές ταυτίζεται με την ισορροπία σε αμιγείς στρατηγικές - Στην περίπτωση αυτή, οι αναμενόμενες αποδόσεις των παικτών, σε ισορροπία είναι: ( V, V ) = (,) ( p, p ) = (0,0) (ii) : Σημείο Ε ( s, s ) = ( F, F). - Η συγκεκριμένη ισορροπία κατά Nash σε μικτές στρατηγικές ταυτίζεται με την ισορροπία σε αμιγείς στρατηγικές ( s, s ) = ( C, C). - Στην περίπτωση αυτή, οι αναμενόμενες αποδόσεις των παικτών, σε ισορροπία είναι: ( V, V ) = (,) (iii) : Σημείο Ε 3 ( p, p ) = (/3,/3) - Στην περίπτωση αυτή, οι αναμενόμενες αποδόσεις των παικτών, σε ισορροπία είναι: ( V, V ) = (/3,/3) 3
Αξιολόγηση Ισορροπίας V E (F,F) (C,F) (F,C) E 3 /3 0 /3 E (C,C) V - Στο συγκεκριμένο παράδειγμα, οι δύο ισορροπίες Nash σε αμιγείς στρατηγικές (F,F) [σημείο Ε ] και (C,C) [σημείο Ε ] είναι άριστες κατά Pareto, διότι δεν υπάρχει άλλος εφικτός συνδυασμός χρησιμοτήτων που να ωφελεί ταυτόχρονα και τους δύο παίκτες (σε σχέσημετοσυνδυασμόισορροπίαςε ήσεσχέσημετοσυνδυασμό ισορροπίας Ε ). 3
- Αντίθετα, η ισορροπία Nash σε μικτές στρατηγικές ( p, p ) = (/3,/3) [σημείο E 3 ] δεν είναι άριστη κατά Pareto, διότι υπάρχει δυνατότητα μετακίνησης από το σημείο Ε 3 σε άλλον εφικτό συνδυασμό (στο συνδυασμό Ε ή στο συνδυασμό Ε ) κατά τρόπο ώστε να ωφελούνται ταυτόχρονα και οι δύο παίκτες. - Άρα: Στο συγκεκριμένο παράδειγμα, οι ισορροπίες Nash σε αμιγείς στρατηγικές (F,F) και (C,C) είναι ανώτερες κατά Pareto από την ισορροπία Nash σε μικτές στρατηγικές ( p, p ) = (/3,/3). 33