Γενικοί Ορισμοί Η Θεωρία Παιγνίων (game theory) εξετάζει δραστηριότητες στις οποίες το αποτέλεσμα της απόφασης ενός ατόμου εξαρτάται όχι μόνο από τον τρόπο με τον οποίο επιλέγει ανάμεσα από διάφορες εναλλακτικές λύσεις αλλά και από τις επιλογές που κάνουν άλλα άτομα με τα οποία αλληλεπιδρά. Ένα Παίγνιο (game) ορίζεται ως μια δραστηριότητα με τα ακόλουθα τρία χαρακτηριστικά: 1. Υπάρχει ένα σύνολο από συμμετέχοντες στους οποίους αναφερόμαστε ως παίκτες. 2. Κάθε παίκτης διαθέτει ένα σύνολο από επιλογές για το πως θα συμπεριφερθεί. Κάθε στοιχείο αυτού του συνόλου αποτελεί μια πιθανή στρατηγική (strategy) για τον συγκεκριμένο παίκτη. 3. Για καθεμία επιλογή στρατηγικής κάθε παίκτης λαμβάνει μια ανταμοιβή (payoff) η οποία μπορεί να εξαρτάται από τις στρατηγικές που επιλέγουν όλοι οι παίκτες που συμμετέχουν στο συγκεκριμένο παίγνιο. Στη γενική περίπτωση οι ανταμοιβές εκφράζονται ως αριθμοί και υποθέτουμε ότι κάθε παίκτης προτιμά να μεγιστοποιήσει την ανταμοιβή που λαμβάνει. Δοθέντων ενός συνόλου παικτών, ενός συνόλου στρατηγικών για καθέναν από αυτούς και ενός συνόλου αποζημιώσεων συνδεδεμένων με την εφαρμογή μίας από τις διαθέσιμες στρατηγικές για κάθε παίκτη, η Θεωρία Παιγνίων επιδιώκει να αναλύσει τον τρόπο με τον οποίο οι παίκτες επιλέγουν στρατηγικές κατά την εκτέλεση του παιγνίου. Για τις ανάγκες του μαθήματος θεωρούμε ότι η ανάλυση βασίζεται στις ακόλουθες υποθέσεις: 1. Η ανταμοιβή αποτιμά πλήρως όλες τις επιδιώξεις του παίκτη σε κάθε στρατηγική 2. Κάθε πάικτης έχει πλήρη γνώση της δομής του παιγνίου. Αυτό σημαίνει ότι κάθε παίκτης γνωρίζει όλες τις στρατηγικές που έχει διαθέσιμες και την ανταμοιβή που λαμβάνει με την εφαρμογή οποιασδήποτε από αυτές όπως και όλους τους υπόλοιπους παίκτες, τις διαθέσιμες στρατηγικές τους και τις αντίστοιχες ανταμοιβές τους. 3. Κάθε παίκτης επιλέγει μια στρατηγική με σκοπό να μεγιστοποιήσει την ανταμοιβή του. Η επιλογή του βασίζεται στην αντίληψη που έχει για τις στρατηγικές που χρησιμοποιούν οι υπόλοιποι παίκτες. Χαρακτηρίζουμε μια τέτοια συμπεριφορά ως ορθολογική. Επομένως η έννοια της ορθολογικής συμπεριφοράς εμπεριέχει την επιδίωξη κάθε παίκτη να βελτιστοποιήσει την ανταμοιβή που λαμβάνει και τη δυνατότητα που έχει να επιλέξει με επιτυχία μια οποιαδήποτε στρατηγική. Όταν ένας παίκτης διαθέτει μια στρατηγική η οποία είναι αυστηρά καλύτερη από όλες τις στρατηγικές που είναι διαθέσιμες σε αυτόν (δηλαδή η ανταμοιβή που προσφέρει είναι μεγαλύτερη από όλες τις άλλες πιθανές ανταμοιβές) τότε αυτή αποτελεί μια αυστηρά κυρίαρχη στρατηγική. Αν ένας παίκτης διαθέτει μια αυστηρά κυρίαρχη στρατηγική σε ένα παίγνιο τότε είναι υποχρεωμένος να την εφαρμόσει ώστε η συμπεριφορά του να παραμείνει ορθολογική. Το Δίλημμα του Φυλακισμένου
Υποθέτουμε ότι δύο ύποπτοι έχουν συλληφθεί και ανακρίνονται από την αστυνομία σε διαφορετικά γραφεία επειδή υπάρχουν βάσιμες ενδείξεις ότι έχουν διαπράξει από κοινού μια διάρρηξη αλλά οι ενδείξεις που είναι διαθέσιμες δεν επαρκούν για την απαγγελία μίας τέτοιας κατηγορίας σε οποιονδήποτε από τους δύο. Επειδή όμως και οι δύο ύποπτοι προέβαλαν αντίσταση κατά τη σύλληψη τους μπορεί να τους απαγγελθεί η κατηγορία της αντίστασης κατά της αρχής που επιφέρει μικρότερη τιμωρία από αυτήν της διάρρηξης και συνεπάγεται φυλάκιση ενός έτους. Σε καθέναν από τους υπόπτους ο ανακριτής λέει τα ακόλουθα: «Αν ομολογήσεις την από κοινού διάρρηξη και ο συνεργός σου δεν ομολογήσει κάτι τέτοιο τότε θα σε απελευθερώσουμε και ο συνεργός σου θα κατηγορηθεί για τη διάρρηξη με βάση την δική σου ομολογία. Σε αυτή την περίπτωση ο συνεργός σου θα καταδικαστεί σε φυλάκιση 10 ετών. Αν και οι δύο ομολογήσετε την διάρρηξη τότε και οι δύο θα καταδικαστείτε για αυτήν και σε αυτή την περίπτωση η ποινή που θα επιβληθεί σε καθέναν από εσάς θα είναι 4ετή φυλάκιση λόγω της ομολογίας σας. Τέλος αν κανένας από τους δυό σας δεν ομολογήσει τότε δεν μπορούμε να απαγγείλουμε την κατηγορία της διάρρηξης σε κανέναν από εσας και θα τιμωρηθείτε με μονοετή φυλάκιση για αντίσταση κατά της αρχής. Η ίδια πρόταση έχει γίνει και στον συνεργό σου. Δέχεσαι να ομολογήσεις ή όχι;» Μπορούμε να θεωρήσουμε ότι το συγκεκριμένο σενάριο αποτελεί ένα παίγνιο στο οποίο συμμετέχουν ως παίκτες οι δύο ύποπτοι (Υ1 & Υ2). Καθένας από αυτούς έχει στη διάθεση του δύο στρατηγικές: Ομολογία (Ο) και Όχι-Ομολογία (ΝΟ). Θεωρούμε ότι η ανταμοιβή που λαμβάνει κάθε ύποπτος για την εφαρμογή μίας στρατηγικής περιγράφεται από την ποινή φυλάκισης που θα του επιβληθεί σε κάθε περίπτωση και επειδή μια φυλάκιση είναι αρνητικό γεγονός η ανταμοιβή θα είναι αρνητικός αριθμός. Η δομή του παιγνίου συνοψίζεται στον Πίνακα 1 ο οποίος, για παράδειγμα, αναφέρει ότι αν ο Υ1 ομολογήσει και ο Υ2 δεν ομολογήσει τότε ο Υ1 θα λάβει μηδέν χρόνο φυλάκισης ενώ ο Υ2 θα φυλακιστεί για 10 χρόνια. Μια αναπαράσταση ενός παιγνίου όπως ο Πίνακας 1, στην οποία καταγράφονται όλοι οι παίκτες, οι στρατηγικές τους και οι ανταμοιβές τους ονομάζεται κανονική μορφή (normal form) του παιγνίου. Y1 Y2 Στρατηγικές O NO O -4,-4 0,-10 NO -10,0-1,-1 Πίνακας 1: Η δομή για το δίλημμα του φυλακισμένου. Στηριζόμενοι στον Πίνακα 1 ποια είναι η στρατηγική που θα πρέπει να ακολουθήσει ο Υ1; Αν ο Υ2 αποφασίσει να μην ομολογήσει (ΝΟ) τότε η ανταμοιβή του Υ1 θα είναι 0 στην περίπτωση που ομολογήσει και -1 διαφορετικά. Άρα όταν ο Υ2 δεν ομολογήσει το καλύτερο που έχει να κάνει ο Υ1 θα είναι να ομολογήσει. Αν πάλι ο Υ2 ομολογήσει (Ο) τότε ο Υ1 θα λάβει -1 στην περίπτωση που ομολογήσει και αυτός και -10 στην περίπτωση που δεν ομολογήσει. Άρα όταν ο Υ2 ομολογήσει το καλύτερο που έχει να κάνει ο Υ1 θα είναι να ομολογήσει και αυτός. Επομένως, ανεξάρτητα από το τι θα κάνει ο Υ2, ο Υ1 λαμβάνει την μέγιστη ανταμοιβή όταν θα ομολογήσει και επομένως η στρατηγική Ο αποτελεί για τον Υ1 μια αυστηρά κυρίαρχη στρατηγική. Για λόγους συμμετρίας η στρατηγική Ο είναι μια αυστηρά κυρίαρχη στρατηγική και για τον Υ2. Επόμένως η ορθολογική απόφαση για καθέναν από τους Υ1 και Υ2 θα είναι να ομολογήσουν και οι δύο παρόλο που υπάρχει μια κατάσταση (ΝΟ, ΝΟ) στην οποία αν και οι δύο δεν ομολογούσαν θα λάμβαναν τη μέγιστη ανταμοιβή (0, 0). Δυστυχώς όμως για αυτούς αυτή η κατάσταση δεν είναι εφικτή. Το συγκεκριμένο παίγνιο έχει χρησιμοποιηθεί σε αρκετές περιπτώσεις με χαρακτηριστικότερο παράδειγμα τον ανταγωνισμό εξοπλισμών μεταξύ κρατών. Σε αυτή την περίπτωση, για παράδειγμα, μπορούμε να υποθέσουμε ότι δύο κράτη, Α και Β, έχουν τη δυνατότητα να επεκτείνουν το οπλοστάσιο τους (στρατηγική Ε) ώστε να αντιμετωπίσουν μια
πιθανή σύρραξη μεταξύ τους ή όχι (στρατηγική Ν). Αν ένα μόνο από τα δύο, έστω το Α, εφαρμόσει τη στρατηγική Ε και επεκτείνει το οπλοστάσιο του τότε αποκτά ένα πλεονέκτημα σε σχέση με το Β. Έστω ότι η σχέση αυτή αποτυπώνεται σε μια ανταμοιβή ίση με 4 για το Α και 1 με το Β. Αν πάλι κανένα από τα δύο κράτη δεν επεκτείνει το οπλοστάσιο του τότε η ανταμοιβή για το καθένα θα είναι ίση, έστω (3, 3), ενώ αν αποφασίσουν και τα δύο να το επεκτείνουν τότε η ανταμοιβή τους θα είναι πάλι ίση αλλά μικρότερη από την προηγούμενη περίπτωση, έστω (2, 2), δεδομένου ότι η επέκταση του οπλοστασίου θα τους στερήσει πόρους για την αντιμετώπιση άλλων προβλημάτων που πιθανόν να έχουν. Ο Πίνακας 2 συνοψίζει τη δομή του παιγνίου σε αυτή την περίπτωση. Α Β Στρατηγικές Ε Ν Ε 2,2 4,1 Ν 1,4 3,3 Πίνακας 2: Η δομή για τον ανταγωνισμό εξοπλισμών. Δυστυχώς όπως και στο σενάριο με τους φυλακισμένους ή αυστηρά κυρίαρχη στρατηγική για καθένα από τα Α και Β σύμφωνα με τον Πίνακα 2 είναι η Ε με ανταμοιβή ίση με 2 για το καθένα ενώ αν και τα δύο κράτη αποφάσιζαν να υλοποιήσουν την Ν θα είχαν μεγαλύτερο όφελος (ανταμοιβή ίση με 3 για το καθένα). Βέλτιστη Απάντηση και Κυρίαρχες Στρατηγικές Η έννοια της βέλτιστης απάντησης (best response) σε ένα παίγνιο αναφέρεται στην καλύτερη επιλογή ενός παίκτη όταν πιστεύουμε ότι ο άλλος παίκτης θα ακολουθήσει μια συγκεκριμένη στρατηγική. Έστω ότι υπάρχουν δύο παίκτες 1 και 2 και F είναι η στρατηγική που επιλέγει ο 1 ενώ S είναι η στρατηγική που επιλέγει ο 2. Τότε υπάρχει ένα κελί (F, S) στον πίνακα του παιγνίου που αντιστοιχεί στις συγκεκριμένες επιλογές. Συμβολίζουμε με P1(F, S) και P2(F, S) τις ανταμοιβές που λαμβάνουν οι παίκτες 1 και 2 αντίστοιχα σύμφωνα με το συγκεκριμένο κελί. Η στρατηγική F για τον παίκτη 1 ορίζεται ως μια βέλτιστη απάντηση για τη στρατηγική S του παίκτη 2 αν η F καταλήγει σε μια ανταμοιβή που είναι τουλάχιστον εξίσου καλή με οποιαδήποτε άλλη στρατηγική που μπορεί να εφαρμόσει ο 1 έναντι της S, δηλαδή: P1(Κ, S) P1(F, S) για οποιαδήποτε στρατηγική Κ του παίκτη 1 τέτοια ώστε Κ F Αν για την F ισχύει ότι: P1(Κ, S) < P1(F, S) για οποιαδήποτε στρατηγική Κ του παίκτη 1 τέτοια ώστε Κ F τότε η F αποτελεί μια αυστηρά βέλτιστη απάντηση του παίκτη 1 απέναντι στην S του 2. Ορίζουμε ότι μια στρατηγική για τον παίκτη 1 είναι κυρίαρχη (dominant) όταν αποτελεί την βέλτιστη απάντηση απέναντι σε όλες τις στρατηγικές του παίκτη 2. Μια στρατηγική του παίκτη 1 είναι αυστηρά κυρίαρχη (strictly dominant) όταν αποτελεί την αυστηρά βέλτιστη απάντηση του παίκτη 1 απέναντι σε όλες τις στρατηγικές του παίκτη 2. Ισορροπία κατά Nash Σε ένα παίγνιο είναι πιθανό κανένας από τους παίκτες να μην διαθέτει μια αυστηρά κυρίαρχη στρατηγική και επομένως το κριτήριο της ορθολογικότητας δεν διευκολύνει την επιλογή κάποιας στρατηγικής. Σε αυτές τις περιπτώσεις η έννοια της ισορροπίας κατά Nash μας βοηθά να προβλέψουμε την έκβαση του παιγνίου. Πιο συγκεκριμένα, σε ένα παίγνιο με δύο παίκτες, 1 και 2, ορίζουμε ότι μια στρατηγική F για τον παίκτη 1 και μια στρατηγική S για τον παίκτη 2 βρίσκονται σε ισορροπία κατά Nash (Nash equilibrium) όταν η F αποτελεί μια
βέλτιστη απάντηση στην S και το αντίστροφο. Αν οι δύο παίκτες επιλέξουν ένα τέτοιο ζευγάρι στρατηγικών τότε κανένας από τους δυο τους δεν έχει συμφέρον να μεταβάλλει την στρατηγική του όταν ο άλλος παίκτης δεν προβεί σε κάτι τέτοιο, επομένως οι δύο στρατηγικές βρίσκονται σε ισορροπία. Για να εξηγήσουμε γιατί συμβαίνει αυτό αξίζει να εξετάσουμε την περίπτωση κατά την οποία οι δύο παίκτες επιλέγουν ένα ζευγάρι στρατηγικών οι οποίες δεν βρίσκονται σε ισορροπία κατά Nash. Στην περίπτωση αυτή τουλάχιστον ένας από τους δύο παίκτες θα έχει συμφέρον να μεταβάλλει τη στρατηγική του και να διαλέξει μια στρατηγική που αποτελεί βέλτιστη απάντηση στην επιλογή του άλλου παίκτη. Επομένως σε ένα παίγνιο η ισορροπία κατά Nash εμφανίζεται όταν υπάρχει μια ισορροπία ανάμεσα στην πεποίθηση που έχει ο κάθε παίκτης για τη στρατηγική που θα χρησιμοποιήσει ο άλλος. Αν ο παίκτης 1 πιστεύει ότι ο παίκτης 2 θα επιλέξει μια στρατηγική που οδηγεί σε ισορροπία κατά Nash τότε και αυτός δεν έχει λόγο να μην επιλέξει την αντίστοιχη στρατηγική που οδηγεί σε μια τέτοια ισορροπία. Για παράδειγμα, έστω ότι υπάρχουν δύο εταιρείες λογισμικού Π1 και Π2 οι οποίες θέλουν να υποβάλουν προσφορές για την ανάπτυξη εφαρμογών σε τρεις πιθανές εταιρείες A, B και C. Κάθε εταιρεία λογισμικού μπορεί να επιλέξει ως στρατηγική να υποβάλει προσφορά σε μία μόνο από τις τρεις αυτές εταιρείες. Η έκβαση του παιγνίου σε καθεμία από τις πιθανές επιλογές στρατηγικής καθορίζεται από τους ακόλουθους κανόνες: Αν οι Π1 και Π2 επιλέξουν να υποβάλουν προσφορές στην Α τότε αυτή θα μοιράσει τις εφαρμογές ισομερώς σε καθεμία τους. Υποθέτουμε ότι η Π1 είναι αρκετά μικρή και δεν είναι σε θέση να υποβάλει προσφορά μόνη της σε κάποια εταιρεία. Αν μόνο η Π2 υποβάλει προσφορά σε μια από τις Β και C τότε θα πετύχει να πάρει τη δουλειά. Αν οι Π1 και Π2 υποβάλουν από κοινού προσφορές σε μια από τις B και C τότε αυτές θα μοιράσουν ισομερώς τις εφαρμογές στις Π1 και Π2. Οι Π1 και Π2 θα πρέπει να συνεργαστούν για να υποβάλουν προσφορά στην Α. Το ποσό που έχει προϋπολογίσει ότι χρειάζεται η Α για τις εφαρμογές της είναι μεγαλύτερο από το άθροισμα του ποσού που προϋπολόγισαν οι B και C. Έστω ότι το μέγεθος του ποσού για την Α είναι 8 ενώ το συνολικό μέγεθος των εφαρμογών για καθεμία από τις B και C είναι 2. Ο Πίνακας 3 περιγράφει τη δομή του συγκεκριμένου παιγνίου. Π1 Π2 Στρατηγικές A B C A 4,4 0,2 0,2 B 0,0 1,1 0,2 C 0,0 0,2 1,1 Πίνακας 3: Η δομή για το σενάριο των εταιρειών λογισμικού. Από τον Πίνακα 3 προκύπτει ότι δεν υπάρχει μια κυρίαρχη στρατηγική για καμία από τις Π1 και Π2. Καθεμία από τις Π1 και Π2 διαθέτει μια βέλτιστη απάντηση στην εφαρμογή μίας στρατηγικής από την άλλη εταιρεία. Για παράδειγμα αν η Π2 επιλέξει Α τότε η Α αποτελεί μία βέλτιστη απάντηση για την Π1. Παρατηρούμε επίσης ότι αν η Π1 επιλέξει Α και η Π2 επιλέξει και αυτή Α τότε η Α αποτελεί μια βέλτιστη απάντηση για καθεμία από τις Π1 και Π2. Επομένως η επιλογή (Α, Α) αποτελεί ένα σημείο ισορροπίας κατά Nash και εξετάζοντας τον Πίνακα 3 η συγκεκριμένη επιλογή αποτελεί και το μοναδικό σημείο ισορροπίας κατά Nash για το συγκεκριμένο παίγνιο αφού δεν υπάρχει κάποιο άλλο ζευγάρι στρατηγικών για το οποίο η μια στρατηγική να αποτελεί βέλτιστη απάντηση για την άλλη και αντίστροφα.
Πολλαπλά Σημεία Ισορροπίας Εκτός από τα παίγνια με ένα σημείο ισορροπίας είναι δυνατή η κατασκευή παιγνίων με περισσότερα από ένα τέτοια σημεία. Στην περίπτωση αυτή είναι δύσκολο να γίνει μια πρόβλεψη της στρατηγικής που θα ακολουθήσει κάθε παίκτης. Ένα παράδειγμα τέτοιων παιγνίων αποτελούν τα παίγνια συγχρονισμού. Σε ένα παίγνιο συγχρονισμού (coordination game) οι παίκτες θα πρέπει να συγχρονιστούν στην επιλογή της ίδιας στρατηγικής. Παράδειγμα ενός τέτοιου παιγνίου αποτελεί το Κυνήγι του Ελαφιού (Stag Hunt Game) με το ακόλουθο σενάριο: «Δύο άτομα έχουν πάει για κυνήγι. Αν συνεργαστούν μεταξύ τους μπορούν να σκοτώσουν ένα ελάφι (το οποίο θα τους δώσει και τη μεγαλύτερη ανταμοιβή) ενώ αν δεν συνεργαστούν τότε καθένας από αυτούς μπορεί να σκοτώσει έναν λαγό. Αν οποιοσδήποτε από τους δύο προσπαθήσει να σκοτώσει μόνος του ένα ελάφι τότε δεν θα τα καταφέρει και ο άλλος θα μπορεί να σκοτώσει έναν λαγό.» Επομένως σε αυτό το παίγνιο υπάρχουν δύο παίκτες (οι δύο κυνηγοί Κ1 & Κ2) και καθένας από αυτούς διαθέτει δύο πιθανές στρατηγικές: να κυνηγήσει ελάφι (Ε) ή λαγό (Λ). Ο Πίνακας 4 αποτυπώνει τη δομή του παιγνίου. Κ2 Στρατηγικές Ε Λ Κ1 Ε 4,4 0,3 Λ 3,0 3,3 Πίνακας 4: Η δομή για το κυνήγι του ελαφιού. Μελετώντας τον Πίνακα 4 παρατηρούμε ότι κανένας από τους δύο παίκτες δε διαθέτει μια αυστηρά κυρίαρχη στρατηγική. Επιπλέον υπάρχουν δύο σημεία ισορροπίας κατά Nash: τα (Ε, Ε) και (Λ, Λ) επειδή αν κάθε παίκτης πιστεύει ότι ο άλλος παίκτης θα ακολουθήσει μια συγκεκριμένη στρατηγική τότε τον συμφέρει να επιλέξει και αυτός την ίδια στρατηγική ουσιαστικά δηλαδή να συνεργαστεί με τον άλλον. Επίσης, ένα ενδιαφέρον χαρακτηριστικό του συγκεκριμένου παιγνίου αποτελεί το γεγονός ότι αν οι δύο παίκτες δεν συνεργαστούν τότε όποιος εφαρμόσει τη στρατηγική που δυνητικά μπορεί να του δώσει τη μέγιστη ανταμοιβή (δηλ. την Ε) θα τιμωρηθεί περισσότερο από αυτόν που θα διαλέξει την άλλη στρατηγική ο οποίος και δε θα τιμωρηθεί καθόλου. Ένα εναλλακτικό παίγνιο που ανήκει στην κατηγορία των παιγνίων συγχρονισμού ονομάζεται Η Μάχη των Φύλων (Battle of the Sexes) και χρησιμοποιεί το ακόλουθο σενάριο: «Ένα ζευγάρι θέλει να κανονίσει τη σαββατιάτικη έξοδο του. Ο άνδρας (Α) προτιμά να παρακολουθήσουν μαζί έναν αγώνα μπάσκετ (στρατηγική Μ) ενώ η γυναίκα (F) προτιμά να πάνε στην όπερα (στρατηγική Ο).» Ο Πίνακας 5 περιγράφει την δομή για το συγκεκριμένο πάιγνιο. Α F Στρατηγικές Μ Ο Μ 4,3 0,0 Ο 0,0 3,4 Πίνακας 5: Η δομή για την μάχη των φύλων.
Από τον Πίνακα 5 προκύπτει ότι υπάρχουν δύο σημεία ισορροπίας (Μ. Μ) και (Ο, Ο) τα οποία όμως δεν προσφέρουν την ίδια ανταμοιβή σε καθέναν από τους παίκτες και επομένως δεν είναι ξεκάθαρο ποιο από τα δύο θα πρέπει να επιλέξουν ώστε να υπάρξει κάποιου είδους δικαιοσύνη στην τελική τους απόφαση, Το παίγνιο του Γερακιού και του Περιστεριού (Hawk and Dove game) αποτελεί ένα παράδειγμα στο οποίο οι παίκτες θα πρέπει να αποφύγουν τον συγχρονισμό στις στρατηγικές τους. Το παίγνιο στηρίζεται στο ακόλουθο σενάριο: «Δύο ζώα, Ζ1 και Ζ2, ανταγωνίζονται για τον τρόπο με τον οποίο θα μοιράσουν ένα κομμάτι τροφής. Καθένα από τα ζώα μπορεί να επιλέξει να συμπεριφερθεί επιθετικά (η στρατηγική του γερακιού Γ) ή παθητικά (η στρατηγική του περιστεριού Π). Αν και τα δύο ζώα επιλέξουν τη στρατηγική Π τότε μοιράζονται ισομερώς την τροφή και καθένα λαμβάνει μια ανταμοιβή ίση με 3. Αν δεν επιλέξουν την ίδια στρατηγική τότε το ζώο που επιλέγει την Γ παίρνει το μεγαλύτερο μέρος της τροφής με ανταμοιβή ίση με 5 ενώ το άλλο λαμβάνει ανταμοιβή ίση με 1. Αν και τα δύο ζώα επιλέξουν την στρατηγική Γ τότε καταστρέφουν την τροφή τους και καθένα λαμβάνει μηδενική ανταμοιβή.» Ζ1 Ζ2 Στρατηγικές Γ Π Γ 0,0 5,1 Π 1,5 3,3 Πίνακας 6: Η δομή για το γεράκι και το περιστέρι. Το παίγνιο έχει δύο σημεία ισορροπίας, (Π, Γ) και (Γ, Π), και δεν μπορούμε εκ των προτέρων να προβλέψουμε ποιο από τα δύο θα επιλεγεί. Το συγκεκριμένο παίγνιο έχει εφαρμοστεί σε αρκετές περιπτώσεις σχετικές με την εξωτερική πολιτική χωρών (π.χ. Βόρεια και Νότια Κορέα ή Ινδία Πακιστάν). Μικτές Στρατηγικές Υπάρχουν παίγνια στα οποία δεν υφίστανται σημεία ισορροπίας. Σε τέτοιες περιπτώσεις η επιλογή της στρατηγικής που θα πρέπει να ακολουθήσει κάθε παίκτης βασίζεται σε πιθανοτικά κριτήρια. Η απλούστερη κατηγορία παιγνίων τα οποία έχουν τα συγκεκριμένα χαρακτηριστικά είναι γνωστή ως παίγνια επίθεσης-άμυνας (attack-defence games). Στην περίπτωση αυτή κάποιος από τους παίκτες μπορεί να επιλέξει μεταξύ δύο στρατηγικών επίθεσης ενώ ο έτερος παίκτης έχει στη διάθεση του μία στρατηγική άμυνας για καθεμία από τις στρατηγικές επίθεσης. Αν ο αμυνόμενος επιλέξει τη σωστή στρατηγική άμυνας στη στρατηγική του επιτιθέμενου τότε λαμβάνει τη μεγαλύτερη ανταμοιβή από τους δυο, διαφορετικά η ανταμοιβή του επιτιθέμενου είναι μεγαλύτερη. Το παίγνιο του Ταιριάσματος Νομισμάτων (Matching Pennies) αποτελεί ένα απλό και δημοφιλές παράδειγμα παιγνίου επίθεσης-άμυνας. Στην περίπτωση αυτή υπάρχουν δύο παίκτες (Π1 & Π2) οι οποίοι επιλέγουν να εμφανίσουν μία από τις δύο όψεις (κορώναγράμματα) του νομίσματος που ο καθένας κρατά στα χέρια του. Σε περίπτωση που και οι δύο εμφανίσουν την ίδια όψη τότε ο Π2 παίρνει το νόμισμα του Π1 ενώ χάνει το δικό του σε κάθε άλλη περίπτωση (βλ. Πίνακα 7). Π2
Π1 Στρατηγικές Κ Γ Κ -1, 1 1, -1 Γ 1, -1-1, 1 Πίνακας 7: Η δομή για το ταίριασμα νομισμάτων. Σύμφωνα με τον Πίνακα 7 στο συγκεκριμένο παίγνιο δεν υπάρχει κανένα σημείο ισορροπίας επειδή για κάθε ζεύγος στρατηγικών κάποιος από τους δύο παίκτες λαμβάνει μεγαλύτερη ανταμοιβή αν μεταβάλλει τη στρατηγική του. Επίσης στο συγκεκριμένο παίγνιο το άθροισμα των αποζημιώσεων για τις στρατηγικές που εφαρμόζονται σε κάποιο σημείο είναι πάντα μηδενικό. Για το λόγο αυτό το παίγνιο αυτό χαρακτηρίζεται ως παίγνιο μηδενικού αθροίσματος (zero-sum game). Διαισθητικά, κάθε παίκτης έχει συμφέρον να μην επιτρέψει στον αντίπαλο του να προβλέψει την στρατηγική που θα εφαρμόσει και επομένως κάθε παίκτης θα πρέπει να επιλέξει μια στρατηγική χρησιμοποιώντας μια πιθανοτική εκτίμηση της συμπεριφοράς του αντιπάλου του. Πιο συγκεκριμένα έστω ότι κάθε παίκτης επιλέγει τη στρατηγική Κ με μια πιθανότητα p για τον Π1 και q για τον Π2. Τότε η πιθανότητα ο Π1 ή ο Π2 να επιλέξουν τη στρατηγική Γ είναι αντίστοιχα 1-p και 1-q. Ως αποτέλεσμα κάθε παίκτης δεν έχει στη διάθεση του μόνο δυο στρατηγικές αλλά ένα άπειρο σύνολο ανάλογα με τις τιμές των p και q, όπου p, q ϵ [0, 1]. Καθεμία από αυτές τις στρατηγικές αποτελεί μια μικτή στρατηγική δεδομένου ότι εκφράζει μια μίξη μεταξύ των Κ και Γ. Μια στρατηγική που αντιστοιχεί σε τιμές για τα p ή q ίση με το 0 ή το 1 χαρακτηρίζεται ως καθαρή. Για παράδειγμα, για να υπολογίσουμε την αναμενόμενη ανταμοιβή που παρέχει στον Π1 η εφαρμογή της καθαρής στρατηγικής Κ (p=1) υποθέτουμε ότι στην περίπτωση αυτή o Π2 επιλέγει μια μικτή στρατηγική με πιθανότητα q και άρα η αναμενόμενη ανταμοιβή για τον Π1 (α(π1, K)) θα είναι: α(π1, K) = (-1)q + 1(1-q) = 1-2q Με ανάλογο τρόπο αν ο Π1 εφαρμόσει την καθαρή στρατηγική Γ (p=0) και ο Π2 επιλέξει μια μικτή στρατηγική με πιθανότητα q τότε η αναμενόμενη ανταμοιβή για τον Π1 (α(π1, Γ)) θα είναι: α(π1, Γ) = 1q + (-1)(1-q) = 2q-1 Στο σημείο αυτό υποθέτουμε ότι κάθε παίκτης επιδιώκει να μεγιστοποιήσει την αναμενόμενη ανταμοιβή που λαμβάνει από την εφαρμογή μίας μικτής στρατηγικής. Επομένως στην εκδοχή της μικτής στρατηγικής για το συγκεκριμένο παίγνιο οι στρατηγικές αντιστοιχούν στις πιθανότητες, p και q, που υπάρχουν ο κάθε παίκτης να χρησιμοποιήσει τη στρατηγική Κ και οι ανταμοιβές είναι οι αναμενόμενες ανταμοιβές που προκύπτουν από τους 4 πιθανούς συνδυασμούς μεταξύ των Κ και Γ, δηλαδή (Κ, Κ), (Κ, Γ), (Γ, Κ) και (Γ, Γ). Το ερώτημα είναι αν στην περίπτωση των μικτών στρατηγικών υπάρχουν στο παίγνιο σημεία ισορροπίας κατά Nash. Αν υπάρχουν τέτοια σημεία ισορροπίας τότε όπως προκύπτει από τον Πίνακα 7 αυτά δεν περιλαμβάνουν την επιλογή καθαρών στρατηγικών από οποιονδήποτε από τους παίκτες. Υπενθυμίζοντας ότι για να ανήκουν δύο στρατηγικές σε ένα σημείο ισορροπίας κατά Nash καθεμία θα πρέπει να αποτελεί μια βέλτιστη απάντηση στην άλλη, ας προσπαθήσουμε να υπολογίσουμε ποια θα είναι η βέλτιστη απάντηση του Π1 σε μια στρατηγική q του Π2. Αν ο Π1 επιλέξει την Κ τότε η αναμενόμενη ανταμοιβή του θα είναι α(π1, Κ) ενώ αν επιλέξει την Γ αυτή θα είναι α(π1, Γ). Αν α(π1, Κ) α(π1, Γ)
τότε κάποια από τις καθαρές στρατηγικές Κ ή Γ θα είναι η μοναδική βέλτιστη απάντηση στην στρατηγική του Π2 και επομένως επειδή οποιαδήποτε από τις καθαρές στρατηγικές δεν μπορεί να συμμετέχει σε σημείο ισορροπίας η ανισότητα δεν μπορεί να ισχύει. Επομένως σε ένα σημείο ισορροπίας κατά Nash θα πρέπει να ισχύει ότι: α(π1, Κ) = α(π1, Γ) 1 2q = 2q 1 q = ½ Λόγω συμμετρίας η ανάλυση του σημείου ισορροπίας από την πλευρά του Π2 όταν ο Π1 επιλέγει μια στρατηγική p θα καταλήξει σε p = 1/2. Επομένως το σημείο (p, q) = (½, ½) αποτελεί ένα σημείο ισορροπίας κατά Nash στο παίγνιο του ταιριάσματος νομισμάτων όταν χρησιμοποιούνται μικτές στρατηγικές. Διαισθητικά το συγκεκριμένο σημείο οδηγεί σε ισορροπία επειδή επιτρέπει στους δύο παίκτες να είναι αδιάφοροι στην επιλογή της στρατηγικής που θα εφαρμόσει ο αντίπαλος τους. Διαφορετικά αν για παράδειγμα ο Π1 πιστεύει ότι ο Π2 θα εφαρμόσει τη στρατηγική Κ περισσότερες από τις μισές φορές (q > ½) τότε θα πρέπει να επιλέξει τη στρατηγική Γ οδηγώντας τον Π2 να αποφύγει την εφαρμογή της Κ σε περισσότερες από τις μισές φορές. Πιο γενικά, παίγνια με μικτές στρατηγικές έχουν σημεία ισορροπίας σε σημεία τα οποία εξασφαλίζουν ότι οι παίκτες είναι αδιάφοροι στις επιλογές στρατηγικής που κάνουν οι συμπαίκτες τους. Βελτιστοποίηση κατά Pareto Σύμφωνα με τον ορισμό της η ισορροπία κατά Nash επιτυγχάνεται όταν ο κάθε παίκτης χρησιμοποιήσει μια στρατηγική που αποτελεί μια βέλτιστη απάντηση απέναντι στις στρατηγικές όλων των υπολοίπων παικτών. Για να πετύχει κάτι τέτοιο κάθε παίκτης σκέφτεται με βάση το ατομικό του συμφέρον. Αυτό έχει ως αποτέλεσμα η έκβαση του παιγνίου να μην είναι κατ ανάγκη η βέλτιστη για το σύνολο των παικτών. Ο ορισμός της βελτιστοποίησης κατά Pareto επιχειρεί να εισάγει την έννοια μιας κοινωνικά επωφελούς έκβασης ενός παιγνίου. Πιο συγκεκριμένα, λέμε ότι μια επιλογή στρατηγικών, μια για κάθε παίκτη, είναι βέλτιστη κατά Pareto όταν δεν υπάρχει μία διαφορετική επιλογή στρατηγικών στην οποία όλοι οι παίκτες λαμβάνουν ανταμοιβές τουλάχιστον το ίδιο υψηλές και ένας παίκτης λαμβάνει μια ανταμοιβή η οποία είναι υψηλότερη. Για παράδειγμα στο παίγνιο Κυνήγι του Ελαφιού (βλ. Πίνακα 4) το σημείο (Ε, Ε) αποτελεί μια βέλτιστη κατά Pareto επιλογή στρατηγικής. Ένας τρόπος για να αντιληφθούμε την ελκυστικότητα του συγκεκριμένου ορισμού είναι να φανταστούμε μια επιλογή στρατηγικών Σ που δεν είναι βέλτιστη κατά Pareto. Σε αυτή την περίπτωση θα υπάρχει μια διαφορετική επιλογή στρατηγικών, έστω Ρ, η οποία θα είναι το ίδιο καλή για όλους τους παίκτες ενώ για έναν από αυτούς θα είναι καλύτερη από την Σ. Αν οι παίκτες μπορούσαν να καταλήξουν σε μια δεσμευτική συμφωνία μεταξύ τους προφανώς θα επέλεγαν την Ρ αντί της Σ. Μια επιλογή στρατηγικών που είναι βέλτιστη κατά Pareto δεν αποτελεί κατ ανάγκη και σημείο ισορροπίας κατά Nash. Για παράδειγμα το σημείο ισορροπίας κατά Nash στο δίλημμα του φυλακισμένου δεν είναι βέλτιστο κατά Pareto. Βέλτιστες κατά Pareto στρατηγικές είναι όμως όλες οι υπόλοιπες! Κοινωνική Βελτιστοποίηση Μια επιλογή στρατηγικών χαρακτηρίζεται ως κοινωνικά βελτιστοποιημένη (socially optimal) όταν το άθροισμα των αποζημιώσεων που λαμβάνουν οι παίκτες σε αυτήν είναι το μέγιστο μεταξύ όλων των πιθανών επιλογών στρατηγικών.
Επιλογές στρατηγικών που είναι κοινωνικά βελτιστοποιημένες είναι και βέλτιστες κατά Pareto το αντίστροφο όμως δεν ισχύει πάντα. Για παράδειγμα στο παίγνιο του Πίνακα 4 το σημείο (Ε, Ε) αποτελεί μια κοινωνικά βελτιστοποιημένη επιλογή στρατηγικών και παράλληλα είναι βέλτιστο κατά Pareto. Στο δίλημμα του φυλακισμένου οι στρατηγικές (Ο, ΝΟ) και (ΝΟ, Ο) είναι βέλτιστες κατά Pareto αλλά όχι κοινωνικά βελτιστοποιημένες. Δυναμικά Παίγνια Τα παίγνια που εξετάσαμε μέχρι τώρα είναι στιγμιαία, δηλαδή οι παίκτες επιλέγουν ταυτόχρονα τη στρατηγική που θα ακολουθήσουν και στη συνέχεια λαμβάνουν τις ανταμοιβές τους ανάλογα με τις συνολικές επιλογές τους. Όμως σε αρκετά παίγνια οι επιλογές στρατηγικής γίνονται σε στάδια: κάποιοι παίκτες επιλέγουν πρώτοι στρατηγικές, οι υπόλοιποι παρατηρούν τις επιλογές που έγιναν και αποφασίζουν και αυτοί με τη σειρά τους για τις στρατηγικές που θα εφαρμόσουν κ.ο.κ. Τέτοιου είδους παίγνια χαρακτηρίζονται ως δυναμικά (dynamic). Για παράδειγμα στην κατηγορία των δυναμικών παιγνίων ανήκουν το σκάκι, αρκετά παιχνίδια με τράπουλα ή διάφορες διαδικασίες διαπραγματεύσεων. Τα δυναμικά παίγνια αναπαριστώνται χρησιμοποιώντας μια επεκταμένη μορφή (extended form) στην οποία καταγράφεται ποιος από τους παίκτες και πότε αποφασίζει για την εφαρμογή μιας στρατηγικής, ποιες στρατηγικές μπορούν να εφαρμόσουν όταν είναι η σειρά τους να αποφασίσουν και ποια είναι η ανταμοιβή τους στο τέλος του παιγνίου. Ως παράδειγμα ενός δυναμικού παιγνίου ας υποθέσουμε ότι έχουμε δύο εταιρείες λογισμικού Ε1 και Ε2. Έστω ότι η Ε2 ασχολείται με την ανάπτυξη εφαρμογών σε κοινωνικά δίκτυα και κατέχει δεσπόζουσα θέση στη συγκεκριμένη αγορά ενώ η Ε1 ασχολείται με εφαρμογές πολυμέσων αλλά θέλει να επεκταθεί και στην αγορά των κοινωνικών δικτύων. Αναφερόμαστε στο παίγνιο ως Είσοδος σε μια Νέα Αγορά (market entry game). Η πρώτη επιλογή στο παίγνιο ανήκει στην Ε1 η οποία αποφασίζει αν θα εισέλθει ή όχι στην αγορά των κοινωνικών δικτύων. Αν η Ε1 αποφασίσει να μην εισέλθει τότε το παίγνιο τερματίζεται, η Ε1 λαμβάνει μηδενική ανταμοιβή ενώ η Ε2 λαμβάνει την ανταμοιβή που αντιστοιχεί στη δεσπόζουσα θέση της (έστω 2). Αν η Ε1 αποφασίσει να εισέλθει τότε η Ε2 έχει δυο επιλογές: είτε να συνεργαστεί με την Ε1 οπότε και οι δύο μοιράζονται την αγορά ισομερώς και λαμβάνουν ανταμοιβή ίση με 1 είτε να κινηθεί εναντίον της Ε1 αρχίζοντας έναν πόλεμο τιμών με την Ε1. Στην τελευταία περίπτωση οι Ε1 και Ε2 λαμβάνουν αρνητική ανταμοιβή ίση με -1. Η δομή του παιγνίου αναπαρίσταται ως ένα δέντρο (game tree) στην Εικόνα 1. Σύμφωνα με την Εικόνα 1 αν η Ε1 αποφασίσει να εισέλθει στην αγορά τότε η Ε2 θα πρέπει να επιλέξει να συνεργαστεί μαζί της δεδομένου ότι διαφορετικά θα λάβει αρνητική ανταμοιβή. Άρα επειδή στην περίπτωση συνεργασίας η ανταμοιβή της Ε1 είναι 1 ενώ σε περίπτωση κατά την οποία η Ε1 αποφασίζει να μην εισέλθει στην αγορά η ανταμοιβή της είναι μικρότερη (0) η Ε1 θα πρέπει να επιλέξει να εισέλθει στην αγορά και στη συνέχεια η Ε2 θα πρέπει να αποφασίσει να συνεργαστεί μαζί της.
Η Ε1 απέχει E1 Η Ε1 μπαίνει E2 0 2 Η Ε2 συνεργάζεται 1 1 Η Ε2 αντιδρά -1-1 Εξελικτικά Παίγνια Εικόνα 1: Το δέντρο για το παίγνιο Είσοδος σε μια Νέα Αγορά. Η εξελικτική θεωρία παιγνίων (evolutionary game theory) βασίζεται στην παρατήρηση ότι η συμπεριφορά πολλών οργανισμών στη φύση περιλαμβάνει την αλληλεπίδραση τους με άλλους οργανισμούς και η επιβίωση καθενός εξ αυτών στηρίζεται στον τρόπο με τον οποίο αλληλεπιδρά με τους άλλους. Επομένως η αρμοστικότητα (fitness) ενός οργανισμού, δηλαδή η ικανότητα του να παράγει απογόνους και να αυξάνει έτσι την αντιπροσώπευση του στον πληθυσμό, δεν μπορεί να εκτιμηθεί ξεχωριστά αλλά θα πρέπει να υπολογιστεί στο πλαίσιο του πληθυσμού μέσα στον οποίο ζει. Αποτέλεσμα αυτής της παρατήρησης είναι ότι η συμπεριφορά ενός οργανισμού μπορεί να αναλυθεί στα πλαίσια της θεωρίας παιγνίων αν θεωρήσουμε ότι τα γονιδιακά καθορισμένα χαρακτηριστικά και τα είδη συμπεριφοράς ενός οργανισμού αντιστοιχούν στις στρατηγικές του ενώ η αρμοστικότητα του αντιστοιχεί στην ανταμοιβή που λαμβάνει και εξαρτάται απο τα γονιδιακά χαρακτηριστικά και τα είδη συμπεριφοράς (δηλαδή τις στρατηγικές) των οργανισμών με τους οποίους έρχεται σε επαφή. Για παράδειγμα, ας υποθέσουμε ότι υπάρχει ένα είδος σκαθαριού στη φύση η αρμοστικότητα του οποίου εξαρτάται από την ικανότητα του να βρίσκει τροφή και να αξιοποιεί τις θρεπτικές ουσίες που αυτή προσφέρει. Τα συγκεκριμένα σκαθάρια συγκεντρώνονται σε πηγές τροφής και καθένα προσπαθεί να καταναλώσει όση περισσότερη τροφή μπορεί. Ας υποθέσουμε επίσης ότι λόγω μιας γενετικής μετάλλαξης εμφανίζονται στον πληθυσμό σκαθάρια τα οποία έχουν μεγαλύτερες διαστάσεις από τα ήδη προϋπάρχοντα. Επομένως ο πληθυσμός των σκαθαριών αποτελείται τώρα από δύο είδη: τα μεγάλα (Μ) και τα μικρά (Ν) σκαθάρια. Το μειονέκτημα των μεγάλων σκαθαριών είναι ότι λόγω του μεγαλύτερου σώματος τους έχουν πιο απαιτητικό μεταβολισμό και επομένως χρειάζονται περισσότερη τροφή από τα μικρότερα. Τα πλεονέκτημα τους είναι ότι λόγω πάλι των μεγάλων σωματικών τους διαστάσεων σε περιπτώσεις κατά τις οποίες μια ποσότητα τροφής διεκδικείται από ένα μεγάλο και ένα μικρό σκαθάρι το μεγάλο καταφέρνει να πάρει το μεγαλύτερο μέρος της τροφής. Ο Πίνακας 8 αναπαριστά το συγκεκριμένο σενάριο σε κανονική μορφή, όπου Σ1 και Σ2 είναι δύο σκαθάρια τα οποία διεκδικούν μια ποσότητα τροφής. Όταν ανήκουν στο ίδιο είδος η τροφή μοιράζεται ισομερώς ανάμεσα τους. Σε κάθε περίπτωση και λόγω του διαφορετικού μεταβολισμού τους τα μεγάλα (Μ) σκαθάρια λαμβάνουν αναλογικά μικρότερη ανταμοιβή από τα μικρά (Ν) λόγω του απαιτητικότερου μεταβολισμού τους. Σ1 Σ2 Στρατηγικές Μ Ν Μ 3, 3 8, 1
Ν 1, 8 5, 5 Πίνακας 8: Η δομή για τα δύο είδη σκαθαριών. Μια σημαντική διαφορά μεταξύ του συγκεκριμένου παιγνίου και όσων εξετάσαμε μέχρι τώρα είναι ότι στο τρέχων παίγνιο κάθε παίκτης (σκαθάρι) δεν έχει επιλογή σχετικά με ποια στρατηγική θα ακολουθήσει καθώς αυτές είναι γενετικά προσδιορισμένες. Επομένως η έννοια της ισορροπίας κατά Nash δεν μπορεί να εφαρμοστεί στην συγκεκριμένη περίπτωση, όπως και στα εξελικτικά παίγνια γενικότερα, καθώς οι επιλογές των παικτών είναι εκ των προτέρων καθορισμένες. Στα εξελικτικά παίγνια σημεία ισορροπίας εμφανίζονται με την πάροδο του χρόνου και εκδηλώνονται ως μεταβολές στη σύνθεση του πληθυσμού. Πιο συγκεκριμένα, στα εξελικτικά παίγνια αναφερόμαστε σε εξελικτικά σταθερές στρατηγικές (evolutionary stable strategies), δηλαδή γενετικά προσδιορισμένες στρατηγικές οι οποίες εδραιώνονται μόλις κυριαρχήσουν σε έναν πληθυσμό. Στο παράδειγμα των σκαθαριών που εξετάζουμε η αρμοστικότητα κάθε σκαθαριού εξαρτάται από το μέσο όρο των ανταμοιβών που λαμβάνει κατά την αλληλεπίδραση του με ένα άλλο σκαθάρι. Σε αυτή την περίπτωση ορίζουμε ως εξελικτικά σταθερή μια στρατηγική η οποία όταν εφαρμόζεται από ολόκληρο τον πληθυσμό ενός είδους οδηγεί στην εξαφάνιση, μετά από ορισμένες γενιές, οποιοδήποτε μικρό σύνολο από εισβολείς οι οποίοι χρησιμοποιούν μια διαφορετική στρατηγική. Σχηματοποιώντας την παραπάνω συλλογιστική ως ένα παίγνιο ορίζουμε την αρμοστικότητα ενός οργανισμού στον πληθυσμό ως την αναμενόμενη ανταμοιβή που λαμβάνει κατά την αλληλεπίδραση του με ένα τυχαίο άλλο μέλος του πληθυσμού. Επιπλέον λέμε ότι μια στρατηγική Τ εισβάλει στην στρατηγική S στο επίπεδο x, όπου x ένας μικρός θετικός αριθμός όταν υπάρχει ένα x ποσοστό του πληθυσμού που εφαρμόζει την T ενώ το υπόλοιπο 1-x εφαρμόζει την S. Τέλος χαρακτηρίζουμε μια στρατηγική S ως εξελικτικά σταθερή όταν υπάρχει ένας μικρός θετικός αριθμός y τέτοιος ώστε για κάθε στρατηγική Τ που εισβάλει στην S στο επίπεδο x με x < y να ισχύει ότι η αρμοστικότητα των οργανισμών που χρησιμοποιούν την S να είναι αυστηρά μεγαλύτερη από την αρμοστικότητα όσων εφαρμόζουν την Τ. Στο παράδειγμα των σκαθαριών που χρησιμοποιούμε θα εξετάσουμε αν η στρατηγική N είναι εξελικτικά σταθερή όταν εισβάλει η Μ. Υποθέτουμε λοιπόν ότι για ένα μικρό θετικό x, το x τμήμα του πληθυσμού χρησιμοποιεί την Μ ενώ το 1-x χρησιμοποιεί την Ν. Κάτω από αυτές τις προϋποθέσεις η αναμενόμενη ανταμοιβή α(ν) για ένα μικρό σκαθάρι είναι 5 όταν συναντά ένα άλλο μικρό σκαθάρι με πιθανότητα 1-x και 1 όταν με πιθανότητα x συναντά ένα μεγάλο σκαθάρι: α(ν) = 5(1-x) +1x = 5 4x Η αναμενόμενη ανταμοιβή α(μ) για ένα μεγάλο σκαθάρι είναι 8 όταν συναντά ένα μικρό σκαθάρι με πιθανότητα 1-x και 3 όταν συναντά ένα μεγάλο με πιθανότητα x, άρα: α(μ) = 8(1-x) +3x = 8 5x Παρατηρώ ότι για μικρά x (0 < x < 1) θα έχω ότι α(μ) > α(ν) και επομένως η Ν δεν μπορεί να είναι εξελικτικά σταθερή. Ας εξετάσουμε τώρα αν η M είναι εξελικτικά σταθερή όταν εισβάλει η Ν. Υποθέτουμε λοιπόν ότι για ένα μικρό θετικό x, το x τμήμα του πληθυσμού χρησιμοποιεί την Ν ενώ το 1-x χρησιμοποιεί την Μ. Κάτω από αυτές τις προϋποθέσεις η αναμενόμενη ανταμοιβή α(ν) για ένα μικρό σκαθάρι είναι 5 όταν συναντά ένα άλλο μικρό σκαθάρι με πιθανότητα x και 1 όταν με πιθανότητα 1-x συναντά ένα μεγάλο σκαθάρι: α(ν) = 5x +1(1-x) = 1 + 4x
Η αναμενόμενη ανταμοιβή α(μ) για ένα μεγάλο σκαθάρι είναι 8 όταν συναντά ένα μικρό σκαθάρι με πιθανότητα x και 3 όταν συναντά ένα μεγάλο με πιθανότητα 1-x, άρα: α(μ) = 8x + 3(1-x) = 3 + 5x Παρατηρώ ότι για όλα τα x > 0 θα έχω ότι α(μ) > α(ν) και επομένως η Μ είναι σε αυτή την περίπτωση εξελικτικά σταθερή.