Παιγνιακά Μοντέλα Σύγκρουσης και Συνεργασίας

Επίκουρος Καθηγητής Ιωάννης Παραβάντης Τµήµα ιεθνών και Ευρωπαϊκών Σπουδών ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ Μάρτιος 2010 Παιγνιακά Μοντέλα Σύγκρουσης και Συνεργασίας 1. Εισαγωγή Στο παρόν φυλλάδιο παριστάνουµε περιπτώσεις σύγκρουσης (conflict) και συνεργασίας (cooperation) µε παίγνια ταυτόχρονων κινήσεων (simultaneous move games) δυο παικτών. 2. Μέθοδος βέλτιστης απόκρισης Η ανάλυση των παιγνίων ταυτόχρονων κινήσεων γίνεται µε την µέθοδο της βέλτιστης απόκρισης (best response). Στη µέθοδο αυτή υπογραµµίζουµε την βέλτιστη απόκριση του ενός παίκτη σε όλες τις δυνατές στρατηγικές του άλλου παίκτη. Υποθέτουµε ότι οι παίκτες συµπεριφέρονται ορθολογικά (rational behavior), γεγονός που σηµαίνει ότι επιλέγουν κινήσεις που εξασφαλίζουν την µέγιστη ανταµοιβή (payoff) τους. H εφαρµογή της ευρετικής (heuristic) µεθόδου της βέλτιστης απόκρισης µπορεί, µεταξύ άλλων, να δώσει ισορροπία επικρατουσών στρατηγικών (όταν όλες οι ανταµοιβές µιας στρατηγικής αποτελούν βέλτιστες αποκρίσεις) ισορροπία Nash (όταν οι ανταµοιβές ενός κελιού είναι βέλτιστες αποκρίσεις). 2.1. Ισορροπία επικρατουσών στρατηγικών υο εταιρείες συνεργάζονται σε ένα έργο και εξετάζουν δυο επιλογές να επενδύσουν πόρους στο έργο να µην επενδύσουν σχεδόν καθόλου πόρους στου έργου, ουσιαστικά δηλαδή να είναι «κοπανατζήδες» και να αφήσουν την άλλη εταιρεία να κάνει τη δουλειά. Microquip επένδυση πόρων επένδυση πόρων Omnisoft αποχή 5, 5 2, 3 αποχή 3, 2 1, 1 Η ισορροπία κυρίαρχων στρατηγικών, {επένδυση πόρων, επένδυση πόρων }, είναι και η επιθυµητή λύση! ηλαδή η ισορροπία κυρίαρχων στρατηγικών ταυτίζεται µε την λεγόµενη συνεργατική λύση (cooperative solution). 1

Αυτό δεν συµβαίνει πάντα, όπως θα δούµε στο επόµενο παίγνιο. 2.1.1. Κοινωνικά διλήµµατα υο γείτονες εξετάζουν εναλλακτικούς τρόπους διάθεσης των απορριµµάτων τους: απόρριψη δίπλα στο φράκτη του γείτονα συλλογή και αποκοµιδή µε φορτηγό. House Garbage Dump Οι ανταµοιβές (payoffs) εκφράζονται σε χιλιάδες US$. Όπου χρειάζεται, καταφεύγουµε σε έµµεση εκτίµηση, π.χ. ύψος ενοικίου. απόρριψη Smith συλλογή µε φορτηγό απόρριψη 4000, 4000 5000, 3500 Jones συλλογή µε φορτηγό 3500, 5000 4500, 4500 Βλέπουµε ότι η απόρριψη (dump) είναι πάντα βέλτιστη απόκριση, ανεξάρτητα από το τι θα επιλέξει ο άλλος παίκτης. Συνεπώς η απόρριψη είναι κυρίαρχη ή δεσπόζουσα ή επικρατούσα στρατηγική (dominant strategy). Η συλλογή µε φορτηγό κυριαρχείται (dominated strategy) από την απόρριψη. Η έκβαση (outcome) {απόρριψη, απόρριψη} είναι η ισορροπία κυρίαρχων στρατηγικών (dominant strategy equilibrium). Το παίγνιο αυτό είναι παίγνιο κοινωνικού διλήµµατος (social dilemma), όπως και το δίληµµα των φυλακισµένων (prisoner s dilemma). Σε παίγνια κοινωνικών διληµµάτων, η ισορροπία κυρίαρχων στρατηγικών είναι χειρότερη για τους παίκτες από εκβάσεις στις οποίες οδηγούν άλλες στρατηγικές (nonequilibrium strategies). ηλαδή, η ισορροπία κυρίαρχων στρατηγικών είναι το πρόβληµα! 2

Στο ανωτέρω παίγνιο οι παίκτες θα προτιµούσαν την έκβαση {συλλογή µε φορτηγό, συλλογή µε φορτηγό}! Μια τέτοια έκβαση, που προκύπτει µε τη συνεργασία των παικτών (cooperative solution), µπορεί να εξασφαλιστεί µε µια συµφωνία (agreement) ή ένα συµβόλαιο (contract) που να µπορεί να εφαρµοστεί (enforceable), εάν χρειαστεί και µε προσφυγή στα δικαστήρια! Συµπερασµατικά, σε παίγνια κοινωνικών διληµµάτων υπάρχει ισορροπία κυρίαρχων στρατηγικών και η ισορροπία αυτή είναι διαφορετική από τη συνεργατική λύση! 2.2. Ισορροπία Nash υο ακαδηµαϊκοί πρόκειται να γράψουν από ένα βιβλίο Θεωρίας Παιγνίων ο καθένας. Μπορούν να επιλέξουν ανάµεσα σε µικρού µεγέθους βιβλίο (400 σελίδες) µεσαίου µεγέθους βιβλίο (600 σελίδες) µεγάλου µεγέθους βιβλίο (800 σελίδες). ρ Boingboing 400 600 800 Καθηγητής Heffalump 400 600 800 45, 45 15, 50 10, 40 50, 15 40, 40 15, 45 40, 10 45, 15 35, 35 Σηµείο ισορροπίας Nash είναι το κάτω δεξιά κελί στο οποίο και οι δυο ανταµοιβές είναι υπογραµµισµένες, {800, 800 }, που έχει ανταµοιβές {35, 35}. Το κελί που αποτελεί σηµείο ισορροπίας κατά Nash έχει την εξής ενδιαφέρουσα ιδιότητα: κανείς από τους δυο παίκτες δεν µπορεί να αλλάξει στρατηγική προκειµένου να αυξήσει την ανταµοιβή του χωρίς να µειωθεί η ανταµοιβή του άλλου παίκτη! Αξίζει να σηµειώσουµε ότι το ανωτέρω παίγνιο έχει συνεργατική λύση (cooperative solution) στο πάνω αριστερά κελί, {400, 400 }, όπου κάθε παίκτης λαµβάνει ανταµοιβή 45, που είναι µεγαλύτερη από το 35 της ισορροπίας Nash. Αν και έχει στοιχεία κοινωνικού διλήµµατος, το παίγνιο αυτό δεν είναι κοινωνικό δίληµµα γιατί δεν έχει ισορροπία κυρίαρχων στρατηγικών. 2.2.1. Πολλαπλά σηµεία ισορροπίας Nash υο σταθµοί, ο WIRD και ο KOOL, επιθυµούν να επιλέξουν είδος εκποµπής από 3 εναλλακτικά: µουσική ροκ (rock), µουσική country ή ειδήσεις, σχόλια κλπ (talk). Στον επόµενο πίνακα φαίνονται οι ανταµοιβές τους σε ποσοστό της αγοράς που αναµένεται να τους ακούει. Με υπογράµµιση των βέλτιστων αποκρίσεων προκύπτει κάτι ενδιαφέρον: υπάρχουν δυο σηµεία ισορροπίας Nash! 3

WIRD rock country talk rock 35, 35 50, 40 80, 10 KOOL country 40, 50 20, 20 40, 10 talk 10, 80 10, 40 5, 5 Προσοχή στο εξής σηµείο: το γεγονός ότι υπάρχουν δυο ισορροπίες Nash δεν σηµαίνει ότι κάθε παίκτης θα είναι το ίδιο καλά και στα δυο σηµεία ισορροπίας! Αντίθετα, βλέπουµε ότι ο σταθµός που παίζει rock θα έχει µεγαλύτερο µερίδιο της αγοράς (50) από τον σταθµό που παίζει country (40). Παρόλα αυτά, και τα δυο σηµεία ισορροπίας Nash αποτελούν βέλτιστες αποκρίσεις και για τους δυο παίκτες (ακόµα και αυτό που παίζει country), εποµένως δεν µπορεί κάποιος µονοµερώς να αλλάξει τη στρατηγική του χωρίς να µειωθεί η ανταµοιβή του άλλου παίκτη. Η ύπαρξη πολλαπλών σηµείων ισορροπίας Nash θεωρείται αδυναµία της έννοιας. Για τον λόγο αυτό έχουν γίνει διάφορες προσπάθειες αποσαφήνισης και βελτίωσης (refining) της έννοιας της ισορροπίας Nash. Μια τέτοια εµπλέκει την έννοια του εστιακού σηµείου ισορροπίας (focal point) που οφείλεται στον Thomas Schelling. Η χρήση αυτής της έννοιας θα µπορούσε να µας βγάλει από το αδιέξοδο των δυο σηµείων ισορροπίας στο παίγνιο των ραδιοφωνικών σταθµών. Για παράδειγµα, εάν ο σταθµός KOOL παίζει µουσική ροκ για πολλά χρόνια ενώ ο WIRD δεν έχει παίξει στο παρελθόν, το σηµείο ισορροπίας Nash {rock, country} θα αποτελούσε και εστιακό σηµείο ή σηµείο Schelling, δηλαδή θα φαινόταν προφανές και θα επιλεγόταν από τους παίκτες. Χωρίς όµως βοήθεια από τέτοιες έννοιες, η ύπαρξη πολλαπλών σηµείων ισορροπίας Nash συχνά παραµένει ένα άλυτο πρόβληµα. 2.2.2. Ανταµοιβή ή ρίσκο; ύο φίλοι πηγαίνουν εκδροµή στο βουνό µε το τζιπ τους. Στον δρόµο συναντούν ένα κορµό. Για να τον βγάλουν από τη µέση πρέπει να σπρώξουν και οι δυο. Εάν δεν σπρώξει κανείς ο κορµός θα µετακινηθεί ελάχιστα. Εάν σπρώξει µόνο ο ένας, θα τραυµατιστεί και ο άλλος θα πρέπει να τον πάει στο νοσοκοµείο. Το παίγνιο αυτό είναι παίγνιο απόλυτου συντονισµού (pure coordination) και οι ανταµοιβές απεικονίζονται στον επόµενο πίνακα. 4

Jim σπρώξε µη σπρώξεις Karl σπρώξε 5, 5-10, 0 µη σπρώξεις 0, -10 1, 1 Η ανάλυση βέλτιστης απόκρισης δείχνει ότι υπάρχουν δυο σηµεία ισορροπίας Nash, το πάνω αριστερά και το κάτω δεξιά. Το πάνω αριστερά σηµείο ισορροπίας Nash είναι κυρίαρχο ως προς τις ανταµοιβές (payoff dominant). Το κάτω δεξιά σηµείο ισορροπίας Nash είναι κυρίαρχο ως προς το ρίσκο (risk dominant) Παίκτες που τους αρέσει το ρίσκο (risk prone) θα προτιµούσαν το πάνω αριστερά κελί. Παίκτες που προτιµούν να αποφεύγουν το ρίσκο (risk averse) θα προτιµούσαν το κάτω δεξιά κελί. Εσείς τι θα επιλέγατε; 3. Συµπεράσµατα Ο McCain (2004) από τον οποίο δανειστήκαµε τα ανωτέρω παραδείγµατα, εξάγει τα ακόλουθα χρήσιµα συµπεράσµατα για τις κυρίαρχες στρατηγικές: Μια κυρίαρχη στρατηγική (dominant strategy) αποτελεί την καλύτερη απόκριση (best response) ότι στρατηγική και αν επιλέξει ο άλλος παίκτης. Συνεπώς, ένας ορθολογικός (rational) παίκτης πάντα επιλέγει µια κυρίαρχη στρατηγική (εφόσον τη διαθέτει). Αν και οι δύο παίκτες έχουν κυρίαρχες στρατηγικές, τότε τις επιλέγουν και έχουµε ισορροπία κυρίαρχων στρατηγικών (dominant strategy equilibrium). Αν υπάρχει τέτοιου είδους ισορροπία, αποτελεί ισχυρή και πειστική έννοια µη συνεργατικής (noncooperative) λύσης ενός παιγνίου. Ωστόσο, δεν υπάρχουν πάντα κυρίαρχες στρατηγικές. Η έννοια της ισορροπίας Nash είναι γενικότερη της έννοιας της ισορροπίας κυρίαρχων στρατηγικών: κάθε ισορροπία κυρίαρχων στρατηγικών είναι ισορροπία Nash αλλά δεν είναι όλες οι ισορροπίες Nash και ισορροπίες κυρίαρχων στρατηγικών! Σε επόµενο φυλλάδιο θα εφαρµόσουµε τις έννοιες που διδαχθήκαµε στα παίγνιο των παγκόσµιων περιβαλλοντικών διαπραγµατεύσεων. Βιβλιογραφία McCain, R.A. (2004): Game Theory: A Non-Technical Introduction to the Analysis of Strategy, Thomson South-Western. Schelling, T. (1980): The Strategy of Conflict, Harvard University. 5