Παύλος Στ. Εφραιµίδης Τοµέας Λογισµικού και Ανάπτυξης Εφαρµογών Τµήµα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών
Ισορροπία Nash αγνές στρατηγικές µικτές στρατηγικές Κυρίαρχες στρατηγικές Rationalizability Pareto Optimality Correlated Equilibrium 2
Ισορροπία Nash ισορροπία Nash µε αγνές στρατηγικές: Μπορεί να µην υπάρχει, όπως για παράδειγµα στο παιχνίδι Πέτρα-Ψαλίδι-Χαρτί ισορροπία Nash µε µικτές στρατηγικές: Ο Nash απέδειξε ότι κάθε πεπερασµένο παίγνιο έχει τουλάχιστον 1 µεικτή ισορροπία Nash 3
Κυρίαρχες Στρατηγικές κυρίαρχη στρατηγική (dominant strategy) η αγνή στρατηγική s i είναι αυστηρά κυριαρχούµενη για τον παίκτη i εάν υπάρχει στρατηγική: σ i Σ i :u i (σ i,s -i )>u i (s i,s -i ) για κάθε s -i η αγνή στρατηγική s i είναι ασθενώς κυριαρχούµενη για τον παίκτη i εάν υπάρχει στρατηγική: σ i Σ i :u i (σ i,s -i ) u i (s i,s -i ) για κάθε s -i και υπάρχει ένα τουλάχιστον s -i : σ i Σ i :u i (σ i,s -i )>u i (s i,s -i ) 4
Παράδειγµα Το δίληµµα του κρατούµενου Υπάρχει κυρίαρχη στρατηγική; Ποια είναι και γιατί; 5
Το δίληµµα του κρατούµενου B Συνεργάζεται µε τις αρχές (Προδίδει) B εν συνεργάζεται A Συνεργάζεται µε τις 3, 3 0, 4 αρχές (Προδίδει) A εν συνεργάζεται 4, 0 1, 1 Τα έτη φυλάκισης για κάθε παίκτη για κάθε πιθανή εκδοχή του παιγνίου. 6
αποδοτικότητα Pareto pareto efficiency 7
pareto efficiency pareto improvement: αλλαγή που βελτιώνει την απόδοση ενός τουλάχιστον παίκτη χωρίς να µειώνεται η απόδοση κανενός άλλου. µια κατάσταση είναι pareto optimal ή pareto efficient εάν δεν υπάρχει βελτίωση pareto το pareto optimum ονοµάζεται και strong Pareto optimum (SPO) υπάρχει και η έννοια του weak Pareto optimum (WPO): µια κατάσταση για την οποία δεν υπάρχει βελτίωση που να βελτιώνει την απόδοση όλων ανεξαιρέτως των παικτών Το SPO προφανώς είναι πιο ισχυρό από το WPO µε την έννοια ότι µια κατάσταση SPO είναι και WPO ενώ το αντίστροφο δεν ισχύει απαραίτητα. 8
Pareto curve or Pareto frontier Note: Images taken from the corresponding wikipedia entry (2012) 9
correlated equilibrium 10
παράδειγµα διασταύρωση διασταύρωση δρόµων µε πολύ κακή (έστω ότι είναι µηδενική) ορατότητα για την άλλη κατεύθυνση και φωτεινούς σηµατοδότες δύο αυτοκίνητα φτάνουν στη διασταύρωση, ένα από κάθε κατεύθυνση κάθε οδηγός αποφασίζει εάν θα σταµατήσει ή θα περάσει µε ταχύτητα να λάβει υπόψη (κάθε οδηγός) την ένδειξη του φωτεινού σηµατοδότη; αφύλακτη διάβαση φωτεινός σηµατοδότης ενηµερώνει ότι θα έρθει τρένο ένα αυτοκίνητο που φτάνει εκείνη τη στιγµή να σταµατήσει; το τρένο, να σταµατήσει; έχει λόγο; 11
correlated equilibrium correlated equilibrium: ένα solution concept το οποίο αποτελεί γενίκευση της ισορροπίας Nash correlated equilibrium το παρουσίασε ο µαθηµατικός Robert Aumann (1974) η ιδέα είναι ότι κάθε παίκτης δέχεται ένα σήµα (signal) και µετά αποφασίζει για την κίνησή του µια στρατηγική του παίκτη σε αυτή την περίπτωση απλά συνδέει µε κάθε σήµα την κατάλληλη ενέργεια εάν κανένας παίκτης δεν επιθυµεί να διαφοροποιηθεί από την ενέργεια που του υποδεικνύει το σήµα (µε την υπόθεση ότι και οι υπόλοιποι παίκτες θα ακολουθήσουν το σήµα) τότε έχουµε ένα correlated equilibrium 12
το παίγνιο chicken δύο άτοµα προκαλούν ο ένας τον άλλο ο καθένας µπορεί είτε να τολµήσει είτε να υποχωρήσει έκβαση εάν ο ένας υποχωρήσει, τότε ο άλλος θα έβγαινε κερδισµένος εάν τολµούσε εάν πάλι ο ένας τολµήσει, τότε είναι καλύτερα ο άλλος να έχει υποχωρήσει D C D 0,0 7,2 C 2,7 6,6 εποµένως: και οι δύο θέλουν να τολµήσουν όµως µόνο µε την ελπίδα ότι ο άλλος θα υποχωρήσει τα σηµεία ισορροπίας Nash του παιγνίου: (D, C) (C, D) ((1/3 D, 2/3 C), (1/3 D, 2/3 C)): Απόδοση 14/3 για κάθε παίκτη 13
το παίγνιο chicken (συνέχεια) έστω ότι µία εξωτερική οντότητα τραβάει τυχαία µία από 3 κάρτες (C, C), (D, C), and (C, D), και ενηµερώνει κάθε παίκτη ξεχωριστά µόνο για τη δική του κίνηση έστω ότι η σύσταση προς έναν παίκτη είναι να παίξει D. Τι να κάνει; θα παίξει D για να κερδίσει 7 έστω ότι η σύσταση είναι C. Τι να κάνει; σε αυτή την περίπτωση, η σύσταση προς τον άλλο παίκτη είναι είτε C είτε D εάν ο παίκτης υπακούσει και παίξει C έχει αναµενόµενο κέρδος: 2(1/2) + 6(1/2) = 4 εάν ο παίκτης τολµήσει και παίξει D έχει αναµενόµενο κέρδος: 0(1/2) + 7(1/2) = 3.5 εποµένως κανένας παίκτης δεν έχει κίνητρο να διαφοροποιηθεί από την υπόδειξη (θεωρώντας ότι ο άλλος παίκτης θα υπακούσει) και για το λόγο αυτό έχουµε correlated equilibrium. σηµαντικό: το αναµενόµενο όφελος κάθε παίκτη στο παραπάνω correlated equilibrium είναι 7(1/3) + 2(1/3) + 6(1/3) = 5 14
evolutionary equilibrium στο εξελικτικά παίγνια (evolutionary games) υπάρχει η έννοια του evolutionary equilibrium είναι ουσιαστικά ένα µία ισορροπία Nash µε ένα επιπλέον κριτήριο εξασφαλίζει ότι η σύνθεση του πληθυσµού σε ένα εξελικτικό παίγνιο παραµένει σταθερή από γενιά σε γενιά θα εξετάσουµε την έννοια αυτή σε διάλεξη για τα εξελικτικά παίγνια 15
trembling hand θεωρούµε ότι κάθε παίκτης µπορεί, έστω µε πολύ µικρή πιθανότητα, να κάνει λάθος στην επιλογή του και να επιλέξει µια τυχαία στρατηγική/κίνηση ο όρος trembling hand δηλώνει ακριβώς αυτό, ότι κάθε κίνηση είναι πιθανή, έστω και µε πολύ µικρή πιθανότητα υπάρχουν αντίστοιχες έννοιες ισορροπίας Nash για αυτή την περίπτωση (δεν θα τις εξετάσουµε) 16
subgame perfect equilibrium αφορά παίγνια σε εκτεταµένη µορφή (extensive game) a subgame perfect Nash equilibrium is an equilibrium such that players' strategies constitute a Nash equilibrium in every subgame of the original game. it may be found by backward induction first, one determines the optimal strategy of the player who makes the last move of the game then, the optimal action of the next-to-last moving player is determined taking the last player's action as given the process continues in this way backwards in time until all players' actions have been determined. subgame perfect equilibria eliminate noncredible threats. 17
games with incomplete information Bayesian perfect equilibrium αφορά παίγνια µε ελλιπή πληροφορία (incomplete information games) 18
games with no prior probability ex post equilibrium robust-optimization equilibrium safety-level equilibrium minimax-regret equilibrium competitive ratio equilibrium 19
cooperative games παίγνια στα οποία οι παίκτες µπορούν να σχηµατίσουν οποιαδήποτε οµάδα τους συµφέρει core: προφίλ της οµάδας όλων των παικτών, για τα οποία δεν έχει καµία πιθανή οµάδα συµφέρον να αποσπαστεί και να ακολουθήσει δική της στρατηγική Shapley value: δίνει µια έννοια λύσης για το πρόβληµα της κατανοµής των κερδών µεταξύ µιας οµάδας παικτών σε ένα coalitional game 20
Πηγές - Αναφορές Best response functions: Εισαγωγή στη Θεωρία Παιγνίων, Ενότητα 2.8 Pareto efficiency: Εισαγωγή στη Θεωρία Παιγνίων, Ενότητα 16.3 Wikipedia entry: Pareto efficiency Correlated equilibrium: Evolutionary Stable Strategies: Subgame Perfect Equilibrium: http://www.gametheory.net/dictionary/subgameperfect.html Shapley value: http://en.wikipedia.org/wiki/shapley_value 21