ΘΕΩΡΙΑ ΠΑΙΓΝΙΩΝ Παίγνιο: Συμμετέχουν τουλάχιστον δύο παίκτες με τουλάχιστον δύο στρατηγικές ο καθένας και αντίθετα συμφέροντα. Το αποτέλεσμα για κάθε παίκτη καθορίζεται από τις συνδυασμένες επιλογές όλων των παικτών και δίνεται από τον πίνακα αποτελεσμάτων του παιγνίου (reward ή pay off matrix). Παράδειγμα : Κυρίαρχη στρατηγική (2 παίκτες, 2 στρατηγικές ο καθένας) Βfi 2 Αfl, 2 0, 2 2,, 0 Το ζευγάρι στοιχείων (α ij, β ij ) του πίνακα δείχνει το αποτέλεσμα του παιγνίου για τον Α(α ij ) και το αποτέλεσμα του παιγνίου για τον Β(β ij ) όταν ο Α παίζει τη στρατηγική του i και ο Β τη στρατηγική του j. r (A i,b j ) = (a ij,b ij ) Για τα συγκεκριμένα αριθμητικά στοιχεία το παιχνίδι αυτό παρουσιάζει αυτό που λέγεται κυρίαρχη στρατηγική. Ο Α είναι καλύτερα όταν ακολουθεί τη στρατηγική του 2, ανεξάρτητα από το τι παίζει ο Β, και ο Β είναι καλύτερα όταν ακολουθεί (παίζει) τη στρατηγική του ανεξάρτητα από το τι κάνει ο Α. Έτσι η κυρίαρχη στρατηγική είναι η (A2,B) με r (A2,B) = (2,). Παράδειγμα 2: Σημείο ισορροπίας κατά Nash (2 παίκτες, 2 στρατηγικές) Βfi 2 Αfl 2, 0, 2 0, 0, 2 Εάν και οι δύο παίκτες βρεθούν στο ισορροπίας κατά Nash αυτό κανένας από τους δύο δεν έχει κίνητρο να αλλάξει μόνον αυτός τη στρατηγική του. Ένα παιχνίδι μπορεί να έχει περισσότερα από ένα τέτοια σημεία.
ΘΕΩΡΙΑ ΠΑΙΓΝΙΩΝ σελ. 2/8 Τέτοια σημεία στο παίγνιο του παραδείγματος είναι το (Α,Β) και το (Α2,Β2) με r (A,B) = (2,) και r (A2,B2) = (,2). Παράδειγμα 3: Παίγνιο χωρίς ισορροπία κατά Nash σε καθαρές στρατηγικές Βfi 2 Αfl 0, 0 0, 2, 0, 3 Παράδειγμα : Το δίλημμα του κρατούμενου Βfi Ομολογία Άρνηση Αfl Ομολογία 3, 3 0, 6 Άρνηση 6, 0, Παίγνια 2 παικτών σταθερού αθροίσματος Το κέρδος όλων των παικτών για κάθε δυνατό συνδυασμό στρατηγικών τους έχει σταθερό άρθροισμα. Τα συμφέροντα των παικτών στην περίπτωση αυτή είναι διαμετρικά αντίθετα. Το παιχνίδι μπορεί να παρασταθεί μόνο από τα κέρδη (αποτελέσματα) του Α. Όταν ο Α μεγιστοποιεί το δικό του κέρδος τότε ελαχιστοποιεί του Β και αντίστροφα όταν ο Β ελαχιστοποιεί το κέρδος του Α τότε μεγιστοποιεί το δικό του. Πίνακας κερδών του Α Βfi 2 n Αfl α α n 2 m α m α mn
ΘΕΩΡΙΑ ΠΑΙΓΝΙΩΝ σελ. 3/8 α ij είναι το κέρδος του Α όταν ο Α παίζει την i στρατηγική και ο Β την j στρατηγική. Ο Α έχει m δυνατές και ο Β n δυνατές στρατηγικές. Λογική συντηρητικής συμπεριφοράς Ο Α επιδιώκει να κάνει την χειρότερη δυνατή περίπτωσή του όσο πιο ευνοϊκή γίνεται. Έτσι μεγιστοποιεί το κατοχυρωμένο του κέρδος. Αυτό το επιτυγχάνει διαλέγοντας το μέγιστο των ελαχίστων των γραμμών (max min). Ο Β επιδιώκει να κάνει την πιο ευνοϊκή περίπτωση του Α όσο χειρότερη γίνεται. Έτσι προσπαθεί να ελαχιστοποιήσει την χειρότερη γι αυτόν εκδοχή σε κάθε περίπτωση. Επιλέγει, συνεπώς το ελάχιστο των μέγιστων των στηλών (min max). α α n ε α κt α κj ελάχιστα γραμμών Έστω: α κj = max {ε,, ε m } α m α mn ε m μ α lt μ n μέγιστα στηλών το μέγιστο των ελαχίστων των γραμμών max min, και α lt = min {μ,, μ n } Ισχύει: το ελάχιστο των μεγίστων των γραμμών min max. α lt α κt α κj Άρα: max min min max
ΘΕΩΡΙΑ ΠΑΙΓΝΙΩΝ σελ. /8 Παράδειγμα: Βfi Αfl 8 8 2 2 5 6 6 5 3 5 7 3 8 8 7 Στο παράδειγμα max min = max {2,5,3} = 5 min max = min {8,8,7} = 7 Ο Α παίζοντας 2 εξασφαλίζει κέρδος 5 (το μέγιστο εξασφαλισμένο κέρδος). Ο Β παίζοντας 3 περιορίζει τον Α σε κέρδος το πολύ 7. Προφανώς ο Α δεν μπορεί να εξασφαλίσει μεγαλύτερο κέρδος από αυτό στο οποίο με βεβαιότητα του έχει περιορίσει ο Β. Στην πράξη εάν ο Α παίξει 2 και ο Β 3, ο Α θα κερδίσει 6 (κάτι μεταξύ 5 και 7). Και ο Α και ο Β αισθάνονται ότι υπάρχει κενό μεταξύ 5 και 7 που μπορούν να εκμεταλλευθούν. Μικτές στρατηγικές Βfi Αfl x α α n 2 m x m α m α mn Έστω ότι ο Α παίζει τις m στρατηγικές του με πιθανότητα x,, x m αντίστοιχα. 0 xi x m i= i =
ΘΕΩΡΙΑ ΠΑΙΓΝΙΩΝ σελ. 5/8 Τότε το προσδοκώμενο κέρδος του Α απέναντι στη στρατηγική του Β είναι: Ε = x α + x 2 α 2 + + x m α m και ανάλογα απέναντι στις στρατηγικές 2,, n του Β: Ε 2 = x α 2 + x 2 α 22 + + x m α m2 Ε n = x α n + + x m α mn Ο Α θέλει να επιλέξει τα x,, x m έτσι ώστε να μεγιστοποιήσει το ελάχιστο από τα Ε,, Ε n (max min). Έστω: V = min {Ε,, Ε i } Τότε ο Α έχει να λύσει το πρόβλημα: max V όταν V E i i =,, n ή το πρόβλημα: (Π) όταν max V α x + + α m x m V 0 α 2 x + + α m2 x m V 0 α n x + + α mn x m V 0 x + x 2 + + x m = x,, x m 0 Όμοια ο Β μπορεί να παίξει τις n στρατηγικές του με πιθανότητες y,, y n αντίστοιχα. 0 yi y n i= Τότε το προσδοκώμενο κέρδος του A απέναντι στη στρατηγική του A είναι αντίστοιχα: i = Ζ = α y + α 2 y 2 + + α n y n Ζ m = α m y + + α mn y n
ΘΕΩΡΙΑ ΠΑΙΓΝΙΩΝ σελ. 6/8 Ο B θέλει να προσδιορίσει τα y,, y m έτσι ώστε να ελαχιστοποιείται το μέγιστο από τα Ζ,, Ζ n (min max). Πρέπει λοιπόν να λύσει το πρόβλημα: ή το πρόβλημα: (Π2) όταν min W W = max {Z,, Z m } min W α y + α 2 y 2 + + α n x m W 0 α m y + + α mn y n W 0 y + y 2 + + y n = y,, y n 0 Τα προβλήματα (Π) και (Π2) είναι δυικά μεταξύ τους και επομένως: max V = min W Αυτό σημαίνει ότι το κενό που υπήρχε μεταξύ max min σε καθαρές στρατηγικές γεφυρώνεται και επομένως ότι κανείς από τους δύο παίκτες δεν μπορεί να επιτύχει κάτι καλύτερο. Άρα οι δύο παίκτες βρίσκονται σε σημείο ισορροπίας. Παράδειγμα: Βfi y y 2 Αfl x 5 x 2 3 6 3 5 6 O παίκτης Α έχει να λύσει το πρόβλημα: (Π) max V όταν 5x + 3x 2 V 0 x + 6x 2 V 0 x + x 2 = x 0, x 2 0 V ελεύθερο
ΘΕΩΡΙΑ ΠΑΙΓΝΙΩΝ σελ. 7/8 O παίκτης Β έχει να λύσει το πρόβλημα: (Π2) min W όταν 5y + y 2 W 0 3y + 6y 2 W 0 y + y 2 = y 0, y 2 0 W ελεύθερο Τα προβλήματα (Π) και (Π2) αποτελούν ένα ζευγάρι δυικών προβλημάτων. Το (Π) διαδοχικά γράφεται θέτοντας x = p, x 2 = p max V ή max V ή max V 5p + 3( p) V 0 2p V 3 2p V s = 3 p + 6( p) V 0 2p V 6 2p V s 2 = 6 0 p 0 p 0 p Επαλήθευση της άριστης λύσης ως προς βασικές μεταβλητές p, V: 0 p V [ 3 6 ] 2 2 2 2 yα s c s = 2 0 3 8 s 0, s 2 0 yα s2 c s2 = 2 0 Άρα η λύση είναι άριστη και επαληθεύει τον περιορισμό p.
ΘΕΩΡΙΑ ΠΑΙΓΝΙΩΝ σελ. 8/8 Aντίστοιχα το (Π2) διαδοχικά γράφεται θέτοντας y = q, y 2 = q min W ή min W q W 3q W 6 q W + t = 3q W + t 2 = 6 0 q 0 q t 0, t 2 0 Επαλήθευση της άριστης λύσης ως προς βασικές μεταβλητές q, W: 0 q W [ 6 ] 3 3 yα t c t = yα t2 c t2 = 3 0 0 2 8 Άρα έχουμε άριστη λύση, η οποία επαληθεύει τον περιορισμό q. Στο παράδειγμα παρατηρούμε ότι: Σε καθαρές στρατηγικές: max min = α 2 = min max = α = 5 8 Σε μικτές στρατηγικές: max V = min W = =,5. max min < min max