Θεωρία Παιγνίων και Αποφάσεων

Θεωρία Παιγνίων και Αποφάσεων Ε. Μαρκάκης Επικ. Καθηγητής

Τι είναι η Θεωρία Παιγνίων? Quote από το βιβλίο του Osborne: Game Theory aims to help us understand situawons in which decision makers interact Στόχοι: Μαθηματικά μοντέλα για να περιγράψουμε τον τρόπο που αλληλεπιδρούν μεταξύ τους οι διαφορετικές οντότητες Πρόβλεψη (δεδομένου ενός μοντέλου) για το πώς θα αποφάσιζε ένας ra-onal decision maker Decision-makers: άνθρωποι, robot, computer programs, εταιρείες, πολιτικά κόμματα, κτλ Ra-onal: κάθε παίκτης έχει προτιμήσεις ως προς τις πιθανές εκβάσεις και επιλέγει μια απόφαση που θα οδηγήσει στην καλύτερη δυνατή έκβαση σύμφωνα με τις προτιμήσεις του 2

Γιατί Θεωρία Παιγνίων? Για να κατανοήσουμε καλύτερα τη συμπεριφορά των υπόλοιπων παικτών σε μια στρατηγική κατάσταση Για να κατανοήσουμε πότε χρειάζεται να αλλάξουμε τη δική μας συμπεριφορά/απόφαση ώστε να έχουμε μεγαλύτερη ωφέλεια Warning: THIS COURSE WILL CHANGE YOUR LIFE! 3

Λίγη ιστορία Πρώτες ιδέες: Μοντέλα για τον ανταγωνισμό μεταξύ εταιρειών: Cournot (1838), Bertrand (1883) 0-sum games: τέλος 19 ου αιώνα (Zermelo), και αρχές 20 ου (Borel) Το θεώρημα minmax για 0-sum games: von Neumann, 1928 Τα θεμέλια και το 1 ο βιβλίο: Theory of Games and Economic Behavior, von Neumann and Morgenstern, 1944 Η έννοια του σημείου ισορροπίας (Nash equilibrium): Nash, 1950 Παίγνια διαδοχικών κινήσεων και παίγνια κατά Bayes (Selten, 1965 και Harsanyi 1967) Βραβείο Νόμπελ Οικονομικών 1994: Harsanyi, Nash, Selten Πεδία εφαρμογών: Μικρο-οικονομική θεωρία Πολιτικές επιστήμες Εξελικτική Βιολογία Επιστήμη Υπολογιστών... 4

Τι ειναι ένα παίγνιο? Μοντέλα Παιγνίων Οποιαδήποτε διαδικασία όπου Υπάρχουν 2 αποφασίζοντες Η τελική έκβαση και η ωφέλεια κάθε παίκτη καθορίζονται από τις επιλογές όλων των παικτών Παραδείγματα: επιτραπέζια παιχνίδια, δημοπρασίες, εκλογές, δρομολόγηση δικτύων,... 5

Μοντέλα Παιγνίων Κατηγορίες Συνεργατικά ή μη συνεργατικά Διαδοχικών ή ταυτόχρονων κινήσεων Επαναλαμβανόμενα ή μη Άπειρα ή πεπερασμένα Πλήρους ή ελλιπούς πληροφόρησης 6

Παίγνια σε κανονική μορφή (Normal-Form Games) 7

Παίγνια σε κανονική μορφή Το μεγαλύτερο μέρος του μαθήματος επικεντρώνεται σε παίγνια που είναι: Μη συνεργατικά Οι παίκτες δεν επικοινωνούν ή δεν σχηματίζουν συνασπισμούς μεταξύ τους Πλήρους πληροφόρησης Οι παίκτες γνωρίζουν τις προτιμήσεις των άλλων παικτών (όχι ομως την απόφαση που θα πάρουν) Ταυτόχρονων κινήσεων Οι παίκτες δεν αποφασίζουν απαραίτητα ταυτόχρονα αλλά τη στιγμή που κάθε παίκτης κάνει την επιλογή του, δεν γνωρίζει και δεν μπορεί να παρατηρήσει την επιλογή των άλλων παικτών 8

Παίγνια σε κανονική μορφή Ορισμός: Ένα παίγνιο σε κανονική μορφή αποτελείται από ένα σύνολο παικτών N = {1, 2,..., n} Για κάθε παίκτη i, ένα σύνολο διαθέσιμων στρατηγικών S i Για κάθε παίκτη i, μια συνάρτηση ωφέλειας u i : S 1 x... x S n R Προφίλ στρατηγικών: Κάθε διάνυσμα της μορφής (s 1,..., s n ), με s i S i Κάθε προφίλ αντιστοιχεί σε μια έκβαση του παιγνίου Η συνάρτηση ωφέλειας περιγράφει το όφελος που αποκομίζει ένας παίκτης από την τελική έκβαση 9

Παίγνια 2 παικτών σε κανονική μορφή Έστω ένα παίγνιο 2 παικτών με πεπερασμένα σύνολα στρατηγικών Ν = {1, 2} S 1 = {s 1,..., s n } S 2 = {t 1,..., t m } Συναρτήσεις ωφέλειας: u 1 : S 1 x S 2 R, u 2 : S 1 x S 2 R Πιθανά προφίλ στρατηγικών: (s 1, t 1 ), (s 1, t 2 ), (s 1, t 3 ),..., (s 1, t m ), (s 2, t 1 ), (s 2, t 2 ), (s 2, t 3 ),..., (s 2, t m ),... (s n, t 1 ), (s n, t 2 ), (s n, t 3 ),..., (s n, t m ), 10

Παίγνια 2 παικτών σε κανονική μορφή Η συνάρτηση ωφέλειας κάθε παίκτη ουσιαστικά αντιστοιχεί σε έναν n x m πίνακα Σκεφτείτε ότι ο παίκτης 1 πρέπει να επιλέξει μια γραμμή Και ο παίκτης 2 πρέπει να επιλέξει μια στήλη Ένα πεπερασμένο παίγνιο 2 παικτών σε κανονική μορφή ορίζεται από ένα ζεύγος n x m πινάκων (Α, Β) όπου: A ij = u 1 (s i, t j ), B ij = u 2 (s i, t j ) Ο παίκτης 1 αναφέρεται και ως παίκτης γραμμών (row player) Ο παίκτης 2 αναφέρεται και ως παίκτης στηλών (column player) 11

Παίγνια 2 παικτών σε κανονική μορφή Αναπαράσταση με μορφή πινάκων: Για συντομία, γράφουμε τις τιμές από τους πίνακες Α, Β μαζί u 1 (s 1, t 1 ), u 2 (s 1, t 1 )...,......,......,... u 1 (s 1, t m ), u 2 (s 1, t m ) u 1 (s 2, t 1 ), u 2 (s 2, t 1 )...,......,......,......,... u 1 (s i, t j ), u 2 (s i, t j )...,......,......,......,......,......,......,......,......,... u 1 (s n, t m ), u 2 (s n, t m ) 12

Παίγνια 2 παικτών σε κανονική μορφή Εναλλακτική αναπαράσταση: Θα μπορούσαμε να χρησιμοποιήσουμε μια διάταξη των εκβάσεων ως προς τις προτιμήσεις του κάθε παίκτη > 1 : διάταξη του παίκτη 1 > 2 : διάταξη του παίκτη 2 Π.χ. (s 1, t 2 ) > 1 (s 2, t 3 ) σημαίνει ότι ο παίκτης 1 προτιμά την έκβαση που προκύπτει από το προφίλ (s 1, t 2 ) από την έκβαση του προφίλ (s 2, t 3 ) Πιθανό θέμα: ισοπαλίες στην ωφέλεια διαφορετικών προφίλ 13

Μερικά βασικά παραδείγματα παιγνίων 14

Παράδειγμα 1: Prisoner s Dilemma Δύο ύποπτοι ανακρίνονται σε ξεχωριστά δωμάτια για ένα έγκλημα που έχουν διαπράξει Αν δεν ομολογήσουν για το έγκλημα, η αστυνομία έχει στοιχεία για να τους καταδικάσει για ένα πλημέλημα (1 χρόνο φυλακή και οι 2) Αν ομολογήσουν και οι 2, πάνε φυλακή για 3 χρόνια και οι 2 Αν ομολογήσει μόνο ο ένας από τους 2, τότε αυτός αφήνεται ελεύθερος, και ο άλλος πάει φυλακή 4 χρόνια Οι 2 ύποπτοι δεν μπορούν να επικοινωνήσουν κατά τη διάρκεια της ανάκρισης 15

Παράδειγμα 1: Prisoner s Dilemma Παίκτες N = {1, 2} Διαθέσιμες στρατηγικές: S 1 = S 2 = {Δεν ομολογώ (C), Ομολογώ (D)} Πιθανές εκβάσεις (C, C) = 1 χρόνο φυλακή και οι 2 (C, D) = 4 χρόνια ο π.1, ελεύθερος ο π. 2 (D, C) = ελεύθερος ο π.1, 4 χρόνια ο π. 2 (D, D) = 3 χρόνια και οι 2 16

Παράδειγμα 1: Prisoner s Dilemma Προτιμήσεις παικτών: Για τον παίκτη 1: (D, C) > 1 (C, C) > 1 (D, D) > 1 (C, D) Για τον παίκτη 2: (C, D) > 2 (C, C) > 2 (D, D) > 2 (D, C) Αναπαράσταση σε μορφή πινάκων: Υπάρχουν πολλοί ισοδύναμοι τρόποι Αρκεί οι ωφέλειες που θα επιλέξουμε να είναι συνεπείς ως προς τη διάταξη του κάθε παίκτη Π.χ. Μπορούμε να επιλέξουμε u 1 (C, C) = 3, u 2 (C, C) = 3 u 1 (C, D) = 0, u 2 (C, D) = 4 u 1 (D, C) = 4, u 2 (D, C) = 0 u 1 (D, D) = 1, u 2 (D, D) = 1 17

Prisoner s Dilemma: Αναπαράσταση σε μορφή πινάκων C D C D 3, 3 0, 4 4, 0 1, 1 Δεν θα μπορούσαμε να χρησιμοποιήσουμε τον παρακάτω πίνακα: 3, 3 2, 4 4, 0 1, 1 εδώ u 1 (C, D) > u 1 (D, D) 18

Prisoner s Dilemma Ένα από τα πρώτα παίγνια που μελετήθηκαν Εκτενή πειράματα Το παίγνιο εκφράζει ένα από τα πιο θεμελιώδη διλήμματα για 2 παίκτες: Να συνεργαστούν ή όχι? Το δίλημμα εμφανίζεται σε αρκετά σενάρια και εφαρμογές: Joint project game Duopoly model Arms race 19

The Joint Project Game Δύο φοιτητές έχουν να κάνουν μια εργασία Αν ένας από τους 2 δουλέψει καλά, η εργασία θα είναι επιτυχής Κάθε φοιτητής Θέλει να είναι επιτυχής η εργασία Προτιμά να μην προσπαθήσει Δεν θέλει να τον εκμεταλλευθεί ο συνεργάτης του (και να δουλέψει μόνο αυτός για την εργασία) Στρατηγικές: S 1 = S 2 = {Δουλεύω (W), Τεμπελιάζω(L)} Προτιμήσεις π. 1: (L, W) > 1 (L, L) > 1 (W, W) > 1 (W, L) Ανάλογα και για τον π.2 Το παίγνιο είναι ισοδύναμο με το δίλημμα του φυλακισμένου! 20

The Duopoly Model Δύο εταιρείες παράγουν ένα προϊόν παρόμοιας ποιότητας Η κάθεμια θέλει να αποφασίσει αν θα θέσει υψηλή ή χαμηλή τιμή Κάθε εταιρεία προτιμά να θέσει η ίδια χαμηλή τιμή και ο ανταγωνιστής υψηλή τιμή Στρατηγικές: S 1 = S 2 = {Υψηλή τιμή (H), Χαμηλή τιμή (L)} Προτιμήσεις π. 1: (L, H) > 1 (L, L) > 1 (H, H) > 1 (H, L) Το παίγνιο και πάλι είναι ισοδύναμο με το δίλημμα του φυλακισμένου! 21

Arms Race Επίκαιρο στην αρχή του ψυχρού πολέμου Δύο χώρες (σκεφτείτε Αμερική και Ρωσία μετά το τέλος του Β παγκοσμίου πολέμου) θέλουν να αποφασίσουν αν θα αναπτύξουν νέα πυρηνικά όπλα Κάθε χώρα φυσικά προτιμά να αναπτύξει η ίδια πυρηνικά και να μην αναπτύξει η άλλη χώρα Στρατηγικές: S 1 = S 2 = {Δεν αναπτύσσω πυρηνικά όπλα, αναπτύσσω πυρηνικά} Και πάλι οι προτιμήσεις είναι όπως στο δίλημμα του φυλακισμένου 22

Παράδειγμα 2: Bach or Stravinsky (BoS) vs Δύο παίκτες, ένας άντρας, μια γυναίκα Δύο κονσέρτα κλασικής μουσικής, ένα αφιερωμένο στον Bach, και ένα για τον Stravinsky Ο άντρας προτιμά τον Bach, η γυναίκα προτιμά τον Stravinsky Και ο άντρας και η γυναίκα προτιμούν να πάνε κάπου μαζί, αντί να πάει ο καθένας μόνος του Το δίλημα εδώ δεν είναι αν θα συνεργαστούν οι 2 παίκτες, αλλά σε ποια συναυλία θα πάνε 23

Παράδειγμα 2: Bach or Stravinsky (BoS) B S B S 2, 1 0, 0 0, 0 1, 2! Είναι αποδεκτή οποιαδήποτε αναπαράσταση στην οποία u 1 (Β, Β) > u 1 (S, S) u 1 (S, S) > u 1 (S, B), u 1 (S, S) > u 1 (B, S) Αντίστοιχα και για τον π. 2 Είναι αδιάφορο (για την ώρα) αν τα u 1 (Β, S) και u 1 (S, B) είναι ίσα ή όχι, αρκεί να είναι μικρότερα του u 1 (S, S)! Το παίγνιο είναι γνωστό και ως Ba le of the Sexes 24

Παράδειγμα 3: The Hawk-Dove game vs Παράδειγμα από Εξελικτική Θεωρία Παιγνίων (EvoluWonary Game Theory) Δύο πληθυσμοί ζώων σε ένα δάσος ανακαλύπτουν παράλληλα μια νέα πεδιάδα, με αρκετή διαθέσιμη τροφή Οι 2 πληθυσμοί μπορούν να μοιραστούν την πεδιάδα χωρίς να επιτεθούν ο ένας στον άλλο Εναλλακτικά, κάθε πληθυσμός μπορεί να επιλέξει να επιτεθεί στον άλλο πληθυσμό και να μην τον αφήσει να παραμείνει στην πεδιάδα 25

Παράδειγμα 3: The Hawk-Dove game (2, 2) (0, 4) (4, 0) (-1, -1) S 1 = S 2 = {Φιλικός (D), Επιθετικός (H)} Εδώ είναι αποδεκτή οποιαδήποτε αναπαράσταση στην οποία u 1 (H, D) > u 1 (D, D) > u 1 (D, H) > u 1 (H, H) Παραλλαγές και γενικέυσεις του παιγνίου αυτού βοηθάνε στην κατανόηση για την εξέλιξη των πληθυσμών 26

Παράδειγμα 4: Matching Pennies vs Δύο παίκτες κρατούν ένα νόμισμα ο καθένας Καθένας πρέπει να αποφασίσει αν θα δείξει κορώνα ή γράμματα του δικού του νομίσματος Ο παίκτης 1 ευνοείται αν και οι 2 δείξουν το ίδιο Ο παίκτης 2 ευνοείται αν δείξουν διαφορετικές όψεις Γνωστό και ως penalty-kick game Παίκτες: τερματοφύλακας, επιθετικός επιλογές: σε ποια πλευρά θα πέσει ο τερματοφύλακας, σε ποια πλευρά θα σουτάρει ο επιθετικός Ο τερματοφύλακας ευνοείται αν πέσει στην ίδια πλευρά που σούταρε ο επιθετικός Ο επιθετικός ευνοείται αν διαλέξει αντίθετη πλευρά από τον τερματοφύλακα 27

Παράδειγμα 4: Matching Pennies H T H T 1, -1-1, 1-1, 1 1, -1 S 1 = S 2 = {Κορώνα (H), Γράμματα (T)} Το παίγνιο είναι παράδειγμα παιγνίων μηδενικού αθροίσματος, διότι u 1 (s, t) + u 2 (s, t) = 0, για κάθε προφίλ (s, t) 28

Παράδειγμα 4: Matching Pennies Μια επέκταση του Matching Pennies είναι το Πέτρα- Ψαλίδι-Χαρτί S 1 = S 2 = {Πέτρα (Π), Ψαλίδι (Ψ), Χαρτί (Χ)} Είναι και αυτό παίγνιο μηδενικού αθροίσματος Π Ψ Χ Π Ψ Χ 0, 0 1, -1-1, 1-1, 1 0, 0 1, -1 1, -1-1, 1 0, 0 29

Παράδειγμα 5: Δημοπρασίες Έστω ότι δύο παίκτες συμμετέχουν σε μια δημοπρασία με κλειστούς φακέλους, για ένα αγαθό Κάθε παίκτης γράφει την προσφορά του για το αγαθό χωρίς να γνωρίζει τι έχει προσφέρει ο άλλος Ο π. 1 μπορεί να προσφέρει μέχρι 40 ευρώ, και ο π. 2 έως 25 ευρώ Οι προσφορές πρέπει να είναι πολλαπλάσια του 5 Το αγαθό έχει αξία V και για τους 2 παίκτες Δημοπρασία 1 ης τιμής: όποιος κερδίσει πληρώνει αυτό που δήλωσε Σε ισοβαθμία δεν κερδίζει κανένας 30

Παράδειγμα 5: Δημοπρασίες 0 5 10 15 20 25 0 5 10 15 20 25 30 35 40 0, 0 0, V-5 0, V-10 0, V-15 0, V-20 0, V-25 V-5, 0 0, 0 0, V-10 0, V-15...,......,... V-10, 0 V-10, 0 0, 0 V-15, 0...,......,......,......,......,......,... V-40, 0 V-40, 0 31