Θεωρία Παιγνίων και Αποφάσεων Ενότητα 2: Έννοιες λύσεων σε παίγνια κανονικής μορφής Ε. Μαρκάκης Επικ. Καθηγητής
Λύσεις παιγνίων 2
Επιλέγοντας στρατηγική... Δεδομένου ενός παιγνίου, τι στρατηγική πρέπει να επιλέξει κάθε παίκτης? Υπενθύμιση: υποθέτουμε ότι κάθε παίκτης γνωρίζει τις προτιμήσεις του άλλου παίκτη αλλά όχι το τι θα επιλέξει Το θεμελιώδες ερώτημα της θεωρίας παιγνίων Δεν υπάρχει πάντα ξεκάθαρη απάντηση Πρέπει να ληφθεί υπόψη ο τρόπος σκέψης του άλλου παίκτη 3
Prisoner s Dilemma: The Raaonal Outcome Ας επανέλθουμε στο δίλημμα του φυλακισμένου Συλλογισμός του π. 1: Αν ο π. 2 δεν ομολογήσει, με συμφέρει να ομολογήσω Αν ο π. 2 ομολογήσει, με συμφέρει να ομολογήσω Ομοίως για τον π. 2 3, 3 0, 4 4, 0 1, 1 Αποτέλεσμα: θα ομολογήσουν και οι 2 και θα πάνε φυλακή 3 χρόνια και οι 2 Παρατήρηση: Αν είχαν διαλέξει και οι 2 να μην ομολογήσουν, θα πήγαιναν μόνο ένα χρόνο φυλακή και θα είχαν καλύτερη ωφέλεια C D C D 4
Κυρίαρχες στρατηγικές Ιδανικά θα θέλαμε μια στρατηγική που να δίνει το καλύτερο αποτέλεσμα ανεξαρτήτως του τι διαλέγει ο άλλος παίκτης Ορισμός: Μια στρατηγική s i του π. 1 ονομάζεται κυρίαρχη (dominant) αν u 1 (s i, t j ) u 1 (s, t j ) για κάθε στρατηγική s S 1 και για κάθε στρατηγική t j S 2 Ομοίως για τον π. 2, μια στρατηγική t j είναι κυρίαρχη αν u 2 (s i, t j ) u 2 (s i, t ) για κάθε στρατηγική t S 2 και για κάθε στρατηγική s i S 1 5
Κυρίαρχες στρατηγικές Ακόμα καλύτερα: Ορισμός: Μια στρατηγική s i του π. 1 ονομάζεται αυστηρά κυρίαρχη (strictly dominant) αν u 1 (s i, t j ) > u 1 (s, t j ) για κάθε στρατηγική s S 1 και για κάθε στρατηγική t j S 2 Ομοίως για τον π. 2 Στο δίλημμα του φυλακισμένου η στρατηγική D (ομολογώ) είναι αυστηρά κυρίαρχη Παρατηρήσεις: Μπορεί να υπάρχουν περισσότερες από μια κυρίαρχες στρατηγικές για έναν παίκτη, αν δίνουν την ίδια ωφέλεια σε όλα τα προφίλ Κάθε παίκτης μπορεί να έχει το πολύ μια αυστηρά κυρίαρχη στρατηγική Μια αυστηρά κυρίαρχη στρατηγική είναι και κυρίαρχη 6
Ύπαρξη κυρίαρχων στρατηγικών Λίγα παίγνια έχουν κυρίαρχες στρατηγικές Στο Bach-or-Stravinsky π.χ. δεν υπάρχει: Η στρατηγική B δεν είναι κυρίαρχη για τον π. 1: Αν ο π. 2 διαλέξει S, συμφέρει τον π. 1 να διαλέξει S Η στρατηγική S επίσης δεν είναι κυρίαρχη: Αν ο π. 2 διαλέξει Β, συμφέρει τον π. 1 να διαλέξει Β Ουτε και στα υπόλοιπα παραδείγματα υπάρχουν κυρίαρχες στρατηγικές B S B S (2, 1) (0, 0) (0, 0) (1, 2) 7
Επιλογή στρατηγικών Παραμένει το ερώτημα για το πώς πρέπει να επιλέξουν στρατηγική οι παίκτες, όταν δεν υπάρχουν κυρίαρχες στρατηγικές Model of raaonal choice: θεωρούμε ότι αν ένας παίκτης ξέρει ή έχει κάποια πεποίθηση για την επιλογή του άλλου, τότε θα διαλέξει την στρατηγική που μεγιστοποιεί την ωφέλειά του Έστω ότι κάποιος προτείνει στους 2 παίκτες το προφίλ (s, t) Πότε θα ήταν πρόθυμοι οι 2 παίκτες να παίξουν σύμφωνα με αυτό? Για να είναι σύφωνος ο π. 1 θα πρέπει u 1 (s, t) u 1 (s, t) για κάθε άλλη στρατηγική s του π. 1 Για να είναι σύμφωνος ο π. 2 θα πρέπει u 2 (s, t) u 2 (s, t ) για κάθε στρατηγική t του π. 2 8
Σημεία ισορροπίας κατά Nash (Nash Equilibrium) Ορισμός (Nash 1950): Ένα προφίλ στρατηγικών (s, t) είναι σημείο ισορροπίας κατά Nash (Nash equilibrium), αν κανένας παίκτης δεν έχει κίνητρο να αλλάξει από μόνος του την στρατηγική του, βλέποντας την επιλογή του άλλου παίκτη Δηλαδή πρέπει να ισχύουν ταυτόχρονα οι συνθήκες: 1. u 1 (s, t) u 1 (s, t) για κάθε στρατηγική s S 1 2. u 2 (s, t) u 2 (s, t ) για κάθε στρατηγική t S 2 9
Σχηματικά: t (, ) (, ) (x 1, ) (, ) (, ) (, ) (, ) (x 2, ) (, ) (, ) (, ) (, ) (x 3, ) (, ) (, ) s (,y 1 ) (,y 2 ) (x, y) (,y 4 ) (,y 5 ) (, ) (, ) (x 5, ) (, ) (, ) Για να είναι το προφίλ (s, t) σημείο ισορροπίας: Το x πρέπει να είναι μεγαλύτερο ή ίσο από όλα τα x i στην στήλη t Το y πρέπει να είναι μεγαλύτερο ή ίσο από όλα τα y j στην στήλη s 10
Σημεία ισορροπίας κατά Nash (Nash Equilibrium) Ιδιότητες και παρατηρήσεις Τα σημεία ισορροπίας αποτελούν «σταθερά» σημεία του παιγνίου Κάθε παίκτης σκέφτεται ότι αν ο άλλος παίκτης δεν αλλάξει, τότε ούτε και ο ίδιος θέλει να αλλάξει Δηλαδή, κανένας παίκτης δεν «μετανιώνει» για την επιλογή του σε ένα σημείο ισορροπίας (s, t) Αν παιχτεί το προφίλ (s, t), ο π. 1 βλέπει ότι έπραξε το καλύτερο δυνατό απέναντι στην στρατηγική t του π. 2, Ομοίως, ο π. 2 βλέπει ότι έπραξε το καλύτερο δυνατό απέναντι στην στρατηγική s του π. 1 Προσοχή: Αν ταυτόχρονα αλλάξουν και οι 2, τότε μπορεί να υπάρχουν καλύτερες εκβάσεις 11
Παραδείγματα εύρεσης σημείων ισορροπίας σε παίγνια 12
Παράδειγμα 1: Prisoner s Dilemma Σε μικρά παίγνια, μπορούμε να εξετάσουμε όλα τα προφίλ (C, C): και οι 2 παίκτες έχουν κίνητρο C να αλλάξουν στρατηγικη (C, D): Έχει κινητρο ο π. 1 C (D, C): Έχει κίνητρο ο π. 2 (D, D): Κανένας δεν έχει κίνητρο D 3, 3 0, 4 4, 0 1, 1 Αποτέλεσμα: Το προφίλ (D, D) είναι το μοναδικό σημείο ισορροπίας του παιγνίου Θυμηθείτε ότι η στρατηγική D είναι κυρίαρχη και για τους 2 παίκτες Πόρισμα: Αν η s είναι μια κυρίαρχη στρατηγική του π. 1, και η t είναι μια κυρίαρχη στρατηγική του π. 2, τότε το προφίλ (s, t) είναι σημείο ισορροπίας κατά Nash D 13
Παράδειγμα 2: Bach or Stravinsky (BoS) B S B S 2, 1 0, 0 0, 0 1, 2 2 σημεία ισορροπίας: (Β, Β) και (S, S) Και τα 2 παράγουν την ίδια συνολική ωφέλεια (3 μονάδες) Κάθε παίκτης όμως προτιμά διαφορετικό σημείο ισορροπίας 14
Παράδειγμα 2α: Παίγνια συντονισμού Παραλλαγή του Bach or Stravinsky B S B S 2, 2 0, 0 0, 0 1, 1 Πάλι 2 σημεία ισορροπίας: (Β, Β) και (S, S) Τωρα όμως το (B, B) είναι προτιμότερο και για τους 2 παίκτες Παρ όλα αυτά, στο προφίλ (S, S) κανένας παίκτης δεν έχει κίνητρο να αλλάξει Θα πρέπει να αλλάξουν και οι 2 για να οδηγηθούν σε καλύτερη κατάσταση από το (S, S) 15
Παράδειγμα 3: The Hawk-Dove game 2, 2 0, 4 4, 0-1, -1 Η πιο δίκαιη λύση (D, D) δεν είναι σημείο ισορροπίας 2 σημεία ισορροπίας: (D, H), (H, D) Το παίγνιο ισορροπεί μόνο όταν ο ένας πληθυσμός επικρατήσει έναντι του άλλου 16
Παράδειγμα 4: Matching Pennies H T H T 1, -1-1, 1-1, 1 1, -1 Σε κάθε προφίλ, κάποιος παίκτης έχει κίνητρο να αλλάξει Δεν υπάρχει κανένα σημείο ισορροπίας! 17
Παράδειγμα 4α: Πέτρα-Ψαλίδι-Χαρτί Π Ψ Χ Π Ψ Χ 0, 0 1, -1-1, 1-1, 1 0, 0 1, -1 1, -1-1, 1 0, 0 Ομοίως με το Matching Pennies, δεν υπάρχει κανένα σημείο ισορροπίας! 18
Αυστηρά σημεία ισορροπίας Σε κάποια παίγνια, μπορούμε να ικανοποιήσουμε μια πιο αυστηρή παραλλαγή του αρχικού ορισμού Ορισμός: Ένα προφίλ στρατηγικών (s, t) είναι αυστηρό σημείο ισορροπίας κατά Nash (strict Nash equilibrium), αν η ωφέλεια κάθε παίκτη γίνεται αυστηρά μικρότερη όταν αλλάζει την στρατηγική του Δηλαδή πρέπει να ισχύουν ταυτόχρονα οι συνθήκες: 1. u 1 (s, t) > u 1 (s, t) για κάθε στρατηγική s S 1, s s 2. u 2 (s, t) > u 2 (s, t ) για κάθε στρατηγική t S 2, t t Καθε αυστηρό σημείο ισορροπίας είναι και σημείο ισορροπίας αλλά όχι το αντίθετο 19
Σημεία ισορροπίας: Ανακεφαλαίωση 1. Δεν έχουν όλα τα παίγνια σημείο ισορροπίας 2. Στα παίγνια που υπάρχει σημείο ισορροπίας, δεν είναι πάντα μοναδικό Κάποια παίγνια μπορεί να έχουν πολλά σημεία ισορροπίας 3. Δεν παρέχουν απαραίτητα όλα τα σημεία ισορροπίας την ίδια ωφέλεια - Ούτε στον καθε παίκτη χωριστά, αλλά ούτε και αθροιστικά 20
Συναρτήσεις βέλτιστης απόκρισης Ένας εναλλακτικός τρόπος ορισμού σημείων ισορροπίας Δεδομένης μια στρατηγικής του π. 2, για τον π. 1 υπάρχουν μια ή περισσότερες επιλογές που μεγιστοποιούν την ωφέλειά του Συνάρτηση βέλτιστης απόκρισης του π.1: B 1 (t j ) = {s S 1 : u 1 (s, t j ) u 1 (s, t j ) για κάθε s S 1 } Για κάθε t j S 2, τo B 1 (t j ) είναι ένα σύνολο στρατηγικών Αν δεν υπάρχουν ισοβαθμίες, τότε τo B 1 (t j ) θα αποτελείται μόνο από ένα στοιχείο (η βέλτιστη απόκριση είναι μοναδική) Ομοίως ορίζεται η συνάρτηση για τον π. 2 B 2 (s i ) = {t S 2 : u 2 (s i, t) u 2 (s i, t ) για κάθε t S 2 } 21
Παράδειγμα L C R T M B 2, 5 3, 3 6, 3 2, 7 4, 5 2, 7 1, 4 5, 4 2, 1 B 1 (L) = {T, M} B 1 (C) = {B} B 1 (R) = {T} B 2 (T) = {L} B 2 (M) = {L, R} B 2 (B) = {L, C} 22
Σημεία ισορροπίας και βέλτιστες αποκρίσεις Αρχικός ορισμός: Ένα προφίλ στρατηγικών (s, t) είναι σημείο ισορροπίας κατά Nash, αν κανένας παίκτης δεν έχει κίνητρο να αλλάξει μονομερώς την στρατηγική του, βλέποντας την επιλογή του άλλου παίκτη Εναλλακτικός ορισμός: Το προφίλ (s, t) είναι σημείο ισορροπίας αν η s είναι βέλτιστη απόκριση της t, και η t είναι βέλτιστη απόκριση της s: s B 1 (t) και t B 2 (s) 23
Πίσω στο παράδειγμα L C R T M B * 2, 5 3, 3 6, 3 * * * * 2, 7 4, 5 2, 7 * * * 1, 4 5, 4 2, 1 * B 1 (L) = {T, M}, B 1 (C) = {B}, B 1 (R) = {T} B 2 (T) = {L}, B 2 (M) = {L, R}, B 2 (B) = {L, C} Τα προφίλ {T, L}, {M, L} και {B, C} είναι τα μόνα σημεία ισορροπίας 24
Γενικός αλγόριθμος για την εύρεση όλων των σημείων ισορροπίας! Για τον π. 1 Για κάθε επιλογή t j του π. 2 Βρες το B 1 (t j ) [για ευκολία βαλτε * στις ωφέλειες που αντιστοιχούν σε βέλτιστη απόκριση]! Για τον π. 2 Για κάθε επιλογή s i του π. 1 Βρες το B 2 (s i ) [για ευκολία βαλτε * στις ωφέλειες που αντιστοιχούν σε βέλτιστη απόκριση]! Τα προφίλ που έχουν * και στις 2 ωφέλειες είναι τα σημεία ισορροπίας του παιγνίου! Π.χ. Σε ενα n x n παίγνιο, μπορούμε να βρούμε όλα τα σημεία ισορροπίας σε χρόνο O(n 2 ) 25
Άσκηση Χρησιμοποιώντας τις συναρτήσεις βέλτιστης απόκρισης, βρείτε τα σημεία ισορροπίας στο παρακάτω παίγνιο t 1 t 2 t 3 s 1 s 2 s 3 1, 2 2, 1 1, 0 2, 1 0, 1 0, 0 0, 1 0, 0 1, 2 26
Άπειρα παίγνια Τι κανουμε αν σε ένα παίγνιο κάποιος παίκτης έχει άπειρο αριθμό διαθέσιμων στρατηγικών Παραδείγματα στρατηγικών που είναι άπειρες το πλήθος: Πόσο χρόνο να διαθέσω στην εκπόνηση μιας εργασίας? Τι ποσό να προσφέρω σε μια δημοπρασία? Τι ποσό να επενδύσω στο χρηματιστήριο? Σε ποια τοποθεσία να εγκαινιάσω ένα νέο μαγαζί μιας αλυσίδας καταστημάτων? Δεν μπορούμε να έχουμε αναπαράσταση με μορφή πινάκων 27
Άπειρα παίγνια Θα δούμε 2 ενδεικτικά παραδείγματα του βιβλίου Παραλλαγή του joint project game Ολιγοπώλιο Cournot Οι συναρτήσεις βέλτιστης απόκρισης είναι πολύ χρήσιμες σε τέτοιες περιπτώσεις για την εύρεση των σημείων ισορροπίας 28