Θεωρία Παιγνίων Γιάννης Ρεφανίδης 1 Γενικά Web site: http://macedonia.uom.gr/~yrefanid/courses/gametheory/ Συγγράμματα: (Σ1) Μια εισαγωγή στη Θεωρία Παιγνίων (μετάφραση), Martin J. Osborne, Κλειδάριθμoς, 2010. (Σ2) Θεωρία Παιγνίων, Βαρουφάκης Γιάννης, Εκδόσεις Gutenberg, 2007. Επιπρόσθετη βιβλιογραφία: (ΕΣ1) Strategies and Games, Theory and Practice. Prajit K. Dutta. HB144.D88, 1999. Σημειώσεις και διαφάνειες του διδάσκοντα. Προαιρετικές εργασίες θα δοθούν κατά τη διάρκεια του εξαμήνου. 2 1
Εισαγωγή Η Θεωρία Παιγνίων εστιάζει στην αλληλεξάρτηση των αποφάσεων ομάδων ανθρώπων, όπου η απόφαση καθενός επηρεάζει τους υπόλοιπους. Κανένας άνθρωπος δεν είναι μόνος του Μερικά από τα ερωτήματα που τίθενται σε τέτοιες καταστάσεις είναι τα ακόλουθα: Τι ενέργειες μπορεί να εκτελέσει κάθε άνθρωπος. Ποια είναι τα αποτελέσματα αυτών των ενεργειών. Είναι τα αποτελέσματα θετικά για όλους τους ανθρώπους; Τι μπορεί να "μαντέψει" κάθε άνθρωπος για τις ενέργειες των υπολοίπων; Παίζει ρόλο εάν οι άνθρωποι αλληλεπιδρούν περισσότερες από μία φορές; Πώς επηρεάζει η γνώση για τα ιδιαίτερα χαρακτηριστικά άλλων ανθρώπων; 3 Ορισμός Η θεωρία παιγνίων είναι ένας συστηματικός τρόπος διερεύνησης των παρακάτω στοιχείων: Ομάδα (group): Σε κάθε παιχνίδι υπάρχουν περισσότερα από ένα άτομα που λαμβάνουν αποφάσεις (decision makers). Κάθε τέτοιο άτομο ονομάζεται παίκτης (player). Αλληλεπίδραση (Interaction): Οι "κινήσεις" καθενός παίκτη επηρεάζουν τους υπολοίπους. Στρατηγική σκοπιμότητα (strategic): Κάθε παίκτης επιλέγει τις ενέργειές του με βάση την ερμηνεία των αλληλεπιδράσεων. Ορθολογικότητα (rationality): Η ενέργεια που επιλέγει να εκτελέσει κάθε παίκτης είναι η καλύτερη δυνατή για αυτόν. 4 2
Παράδειγμα: Παιχνίδι Γνώσεων (1/6) Έστω ένα τηλεοπτικό παιχνίδι γνώσεων. Λίγο πριν από το τέλος του παιχνιδιού έχουμε κερδίσει ένα ποσό Α 1 και πρέπει να στοιχηματίσουμε ένα ποσό Β 1 <Α 1 για μια τελευταία ερώτηση (την οποία δεν γνωρίζουμε ακόμη). Εάν απαντήσουμε σωστά, το ποσό Β 1 προστίθεται στο Α 1, αλλιώς αφαιρείται. Έστω Ν συνολικά οι παίκτες, κάθε ένας από τους οποίους κερδίζει μέχρι στιγμής ποσό A i και καλείται να στοιχηματίσει ποσό B i <A i. 5 Παράδειγμα: Παιχνίδι Γνώσεων (2/6) Μετά την ολοκλήρωση των ερωτήσεων, ο παίκτης που έχει συγκεντρώσει το μεγαλύτερο ποσό A i +B i κερδίζει και παίρνει τα χρήματά του, ενώ οι υπόλοιποι δεν παίρνουν τίποτα. Το ερώτημα που τίθεται είναι το εξής: Ποιο πρέπει να είναι το ποσό Bi για κάθε παίκτη i, έτσι ώστε να μεγιστοποιήσει την πιθανότητα να φύγει νικητής και μάλιστα με όσο το δυνατόν περισσότερα χρήματα; 6 3
Παράδειγμα: Παιχνίδι Γνώσεων (3/6) Το πρόβλημα έχει όλα τα χαρακτηριστικά των προβλημάτων που εξετάσει η θεωρία παιγνίων: Υπάρχει μια ομάδα ανθρώπων. Οι επιμέρους αποφάσεις τους επηρεάζουν ολόκληρη την ομάδα. Για κάθε παίκτη υπάρχουν αποφάσεις που δεν έχουν ειδικό νόημα, οπότε δεν χρειάζεται να τις εξετάσει καν. Προφανώς κάθε παίκτης θα αποφασίσει με τέτοιον τρόπο, ώστε να μεγιστοποιήσει (κατά την εκτίμησή του) την πιθανότητα να κερδίσει το παιχνίδι. 7 Παράδειγμα: Παιχνίδι Γνώσεων (4/6) Για παράδειγμα, έστω ότι εμείς κερδίζουμε μέχρι στιγμής 10.000 και ο μοναδικός μας αντίπαλος 7.500. Εάν στοιχηματίσουμε 5.001 εξασφαλίζουμε ότι, στην περίπτωση που απαντήσουμε σωστά, θα είμαστε σίγουρα οι νικητές, ανεξαρτήτως τι θα απαντήσει ο αντίπαλος. Ωστόσο, το ίδιο στοίχημα μας οδηγεί στο να χάσουμε, εάν ο αντίπαλος στοιχηματίσει λιγότερα από 2.500 (ακόμη και αν απαντήσει λάθος). Θα μπορούσαμε να μην στοιχηματίσουμε τίποτα, οπότε σε αυτή την περίπτωση εξασφαλίζουμε ότι θα κερδίσουμε στην περίπτωση που ο αντίπαλος στοιχηματίσει λιγότερα από 2.500, ακόμη και αν απαντήσει σωστά. 8 4
Παράδειγμα: Παιχνίδι Γνώσεων (5/6) (συνέχεια...) Φυσικά πάντα υπάρχει το ενδεχόμενο και για τους δύο παίκτες να στοιχηματίσουν όλα τα κέρδη τους, ελπίζοντας ταυτόχρονα να τα διπλασιάσουν και να κερδίσουν το παιχνίδι. Οι παραπάνω είναι μερικές από τις κινήσεις που έχουν ιδιαίτερη στρατηγική σκοπιμότητα στο συγκεκριμένο παιχνίδι. 9 Παράδειγμα: Παιχνίδι Γνώσεων (6/6) Το τι θα πράξει ο κάθε παίκτης εξαρτάται από τη γνώση που έχει για τις δυνατότητές του και τις δυνατότητες του αντιπάλου. Με άλλα λόγια, κάθε παίκτης προσπαθεί να μαντέψει την απόφαση και τις δυνατότητες του αντιπάλου του και, λαμβάνοντας υπόψη και τις δικές του ικανότητες, αποφασίζει τη δική του βέλτιστη κίνηση (ορθολογικότητα). 10 5
Παραδείγματα από την καθημερινή ζωή (1/2) Συμμετοχή σε μια ομαδική εργασία: Μια ομάδα φοιτητών έχει αναλάβει ένα project. Εάν ένας φοιτητής δεν εργάζεται αρκετά, κάποιος άλλος πρέπει να εργαστεί περισσότερο (αλληλεπίδραση). Κάθε φοιτητής πρέπει να αποφασίσει αν και σε ποια ομάδα θα μπει (εκτιμώντας τις δυνατότητες των συμφοιτητών του). Η ορθολογικότητα έχει να κάνει με την απόφαση του χρόνου που θα αφιερωθεί στην εργασία σε σχέση με τον βαθμό που αναμένεται να πάρουν οι φοιτητές. 11 Παραδείγματα από την καθημερινή ζωή (2/2) Τυχαίος έλεγχος για αναβολικά: Κάθε αθλητής πρέπει να αποφασίσει αν θα χρησιμοποιήσει ή όχι αναβολικές ουσίες. Εάν χρησιμοποιήσει, αυξάνει τις πιθανότητές του να κερδίσει, ταυτόχρονα όμως ρισκάρει να ανιχνευθεί και να αποβληθεί από σχετικές διοργανώσεις για μεγάλο χρονικό διάστημα, καθώς επίσης και να θέσει σε κίνδυνο την υγεία του. Εάν δεν χρησιμοποιήσει, μειώνει τις πιθανότητές του να διακριθεί, εφόσον άλλοι αθλητές χρησιμοποιήσουν και δεν ανακαλυφθούν. 12 6
Παραδείγματα από την οικονομία (1/3) Επένδυση σε έρευνα και ανάπτυξη για τις φαρμακευτικές εταιρείες: Κάθε φαρμακευτική εταιρεία επενδύει ένα ποσό στην ανάπτυξη νέων φαρμάκων. Η πρώτη εταιρεία που αναπτύσσει ένα φάρμακο έχει το δικαίωμα να το εκμεταλλεύεται αποκλειστικά για κάποια χρόνια (αλληλεπίδραση). Οι εταιρείες λοιπόν πρέπει να αποφασίσουν πού θα διοχετεύσουν τους πόρους τους για έρευνα, πώς θα τιμολογήσουν τα νέα φάρμακα, πώς θα μειώσουν το ρίσκο κατά την ανάπτυξη ενός νέου φαρμάκου κλπ. Οι αποφάσεις αυτές λαμβάνονται βάσει συμπερασμάτων για τις αντίστοιχες αποφάσεις των ανταγωνιστριών εταιρειών. 13 Παραδείγματα από την οικονομία (2/3) Δημοπρασίες κρατικών ομολόγων: Ανά τακτά χρονικά διαστήματα οι διάφορες κυβερνήσεις εκδίδουν κρατικά ομόλογα. Οι συμμετέχοντες είναι οι μεγάλες τράπεζες, οι οποίες στη συνέχεια μεταπωλούν τα ομόλογα στους πελάτες τους (π.χ. ομολογιακά αμοιβαία κεφάλαια). Η αλληλεπίδραση έχει να κάνει με το ότι ο μεγάλος ανταγωνισμός ανεβάζει τις τιμές. Η ορθολογικότητα έχει να κάνει με την εξισορρόπηση του ποσού που προσφέρει κάθε τράπεζα για να πάρει κάποια ομόλογα και της πιθανότητας να μην πάρει 14 7
Παραδείγματα από την οικονομία (3/3) Νόμος για την πτώχευση στις ΗΠΑ: Στις ΗΠΑ, όταν μια εταιρεία κηρύξει πτώχευση, τα περιουσιακά της στοιχεία δεν μπορούν πλέον να δεσμευθούν από ανεξάρτητους πιστωτές, αλλά προστατεύονται από το νόμο μέχρι η εταιρεία και οι πιστωτές να καταλήξουν σε κάποια συμφωνία διαμοιρασμού των. Φυσικά οι πιστωτές μπορούν να διεκδικήσουν τα χρέη τους δικαστικά πριν η εταιρεία κηρύξει πτώχευση, ωστόσο σε αυτή την περίπτωση διακινδυνεύουν να κηρύξει τελικά η εταιρεία πτώχευση και να χάσουν τα χρήματά τους. Κάθε πιστωτής πρέπει να εκτιμήσει τη μελλοντική πορεία της εταιρείας καθώς και το πόσο υπομονετικοί μπορεί να είναι οι υπόλοιποι πιστωτές, ώστε να αποφασίσει αν θα διεκδικήσει τα χρήματά του δικαστικά ή αν θα περιμένει. 15 Άλλα παραδείγματα (1/2) Συμπεριφορά των ζώων: Τα ζώα ανταγωνίζονται για δυσεύρετους πόρους όπως τροφή, περιοχή κλπ. Οι παίκτες είναι όλα τα ζώα που έχουν βλέψη για τον ίδιο πόρο. Σε τέτοιες περιπτώσεις, τα ζώα έχουν δύο δυνατότητες: Να μείνουν και να πολεμήσουν για τον πόρο ή να φύγουν. Έχει διαπιστωθεί ότι η συμπεριφορά των ζώων σε καταστάσεις ανταγωνισμού είναι ορθολογική. 16 8
Άλλα παραδείγματα (2/2) Ψηφοφορίες. Χρήση των φυσικών πόρων. Συμπεριφορά στρατιωτών στον πρώτο παγκόσμιο πόλεμο. Καθορισμός τιμών πετρελαίου από τον OPEC. 17 Τι δεν είναι παιχνίδι; Καταστάσεις όπου υπάρχει μόνο ένας παίκτης: Απόφαση σχετικά με το αν θα πάω θέατρο ή κινηματογράφο απόψε. Καταστάσεις όπου υπάρχουν πάρα πολλοί παίκτες, έτσι ώστε η επίδραση της απόφασης του ενός παίκτη στο σύνολο να είναι αμελητέα. Απόφαση σχετικά με το αν θα αγοράσω 10 μετοχές του ΟΤΕ. 18 9
Ιστορική αναδρομή 19 Ιστορική αναδρομή (1/5) 1838: Ο Γάλλος οικονομολόγος Augustin Cournot ανέλυσε ολιγοπωλιακές καταστάσεις με τρόπο παρόμοιο με τις σύγχρονες μεθόδους της θεωρίας παιγνίων (μοντέλο Cournot). 1881: Ο Άγγλος οικονομολόγος Francis Edgeworth ασχολήθηκε με την εφαρμογή των μαθηματικών στις κοινωνικές επιστήμες. 1913: Ο Γερμανός μαθηματικός Ernest Zermelo απέδειξε ότι το σκάκι έχει λύση από οποιαδήποτε κατάσταση 20 10
Ιστορική αναδρομή (2/5) 1928: Ο John von Neumann απέδειξε ότι μια σημαντική κατηγορία παιχνιδιών, τα παιχνίδια μηδενικού αθροίσματος, έχουν πάντα λύση. 1944: Οι John von Neumann και Oskar Morgenstern εξέδωσαν το βιβλίο "Theory of Games & Economic Behavior", όπου: Όρισαν αξιωματικά την θεωρία της χρησιμότητας (utility theory) Ανέλυσαν διεξοδικά τις βέλτιστες λύσεις στα παιχνίδια μηδενικού αθροίσματος. Εισήγαγαν μια νέα κατηγορία παιχνιδιών, τα συνεργατικά παιχνίδια (cooperative games). 21 Ιστορική αναδρομή (3/5) 1950: Ο John Nash εισήγαγε την έννοια της ισορροπίας, η οποία είναι η πιο ευρέως χρησιμοποιούμενη έννοια στη σύγχρονη θεωρία παιγνίων. Ισορροπία Nash (Nash equilibrium) Η έννοια της ισορροπίας Nash εφαρμόζεται και στα παιχνίδια μη-μηδενικού αθροίσματος. Η εργασία του Nash μπορεί να θεωρηθεί ότι αποτελεί επέκταση της εργασίας του Cournot. Μοιράστηκε το βραβείο Nobel στα οικονομικά το 1994. Με απλά λόγια: Ισορροπία Nash σε ένα παιχνίδι είναι μια κατάσταση από την οποία δεν συμφέρει κανέναν παίκτη να ξεφύγει μεμονωμένα. 22 11
Ιστορική αναδρομή (4/5) 1965, 1975: Ο Reinhard Selten γενίκευσε τις ιδέες του Nash στα δυναμικά παιχνίδια, δηλαδή σε παιχνίδια που εξελίσσονται στην πορεία του χρόνου. 1967-1968: Ο John Harsanyi γενίκευσε τις ιδέες του Nash σε παιχνίδια μη-πλήρους πληροφόρησης σχετικά με τις προτιμήσεις και τις αποφάσεις των άλλων παικτών. Οι Selten και Harsanyi μοιράστηκαν, μαζί με τον John Nash, το βραβείο Nobel στα οικονομικά το 1994. 23 Ιστορική αναδρομή (5/5) Ρίξτε μια ματιά στη διεύθυνση: http://cepa.newschool.edu/het/schools/game.htm για μια σύντομη ιστορική αναδρομή σχετική με τη θεωρία παιγνίων, καθώς και βιογραφικά των ανθρώπων που υπήρξαν συντελεστές στην πρόοδό της. 24 12
Τα παιχνίδια Nim και Marienbad 25 Σενάριο Υπάρχουν δύο σωροί από σπίρτα και δύο παίκτες, Α και Β, οι οποίοι παίζουν εναλλάξ (ξεκινά ο Α). Σε μια "κίνηση", κάθε παίκτης μπορεί να αφαιρέσει όσα σπίρτα θέλει από έναν από τους σωρούς. Στο παιχνίδι Nim, ο παίκτης που αφαιρεί το τελευταίο σπίρτο κερδίζει. Στο παιχνίδι Marienbad, ο παίκτης που αφαιρεί το τελευταίο σπίρτο χάνει. Μας ενδιαφέρει να βρούμε αν υπάρχει μια στρατηγική για κάθε παίκτη, η οποία να κερδίζει πάντα. 26 13
Ανάλυση του Nim Έστω ότι οι δύο σωροί είναι ισορροπημένοι (έχουν τον ίδιο αριθμό σπίρτων). Σε αυτή την περίπτωση ο παίκτης Β μπορεί να κερδίζει πάντα, αρκεί να "αντιγράφει" τις κινήσεις του παίκτη Α σε διαφορετικό όμως σωρό. Παρόμοια, αν οι δύο σωροί δεν είναι ισορροπημένοι, τότε ο παίκτης Α έχει την εξής νικηφόρα στρατηγική: Πρώτα αφαιρεί μερικά σπίρτα από τον σωρό που έχει τα περισσότερα, ώστε οι δύο σωροί να ισορροπήσουν. Στη συνέχεια εφαρμόζει την στρατηγική για ισορροπημένους σωρούς, όντας τώρα δεύτερος παίκτης! 27 "Αποδείξεις" για το σπίτι Στο Nim με τρεις σωρούς: εάν οι δύο τουλάχιστον έχουν ίδιο αριθμό σπίρτων, ο παίκτης Α έχει νικηφόρα στρατηγική. εάν η αρχική κατανομή έχει μία από τις μορφές (3,2,p), (3,1,p) ή (1,2,p), με p>3, τότε ο Α έχει νικηφόρα στρατηγική. Στο Marienbad με δύο σωρούς: εάν η αρχική κατανομή είναι (1,1), κερδίζει ο Α. εάν η αρχική κατανομή είναι (n,n), n>1, ο Β έχει νικηφόρα στρατηγική. εάν η αρχική κατανομή είναι (m,n), m n, ο Α έχει νικηφόρα στρατηγική. 28 14
Ψηφοφορία σε επιτροπή 29 Σενάριο (1/2) Έστω ότι υπάρχουν 2 εναλλακτικές προτάσεις, Α και Β, και τρεις ψηφοφόροι. Υπάρχουν τρεις περιπτώσεις: Ή να εγκριθεί η πρόταση Α, ή η πρόταση Β ή τέλος καμία από τις δύο (περίπτωση Ν). Η ψηφοφορία οργανώνεται ως εξής: Πρώτα γίνεται ψηφοφορία μεταξύ των προτάσεων Α και Β. Στη συνέχεια, η πρόταση που θα προκριθεί τίθεται σε ψηφοφορία με την περίπτωση Ν. 30 15
Σενάριο (2/2) Έστω ότι οι προτιμήσεις των τριών ψηφοφόρων είναι οι εξής: Ψηφοφόρος 1: Α>Ν>Β Ψηφοφόρος 2: Β>Α>Ν Ψηφοφόρος 3: Ν>Α>Β Εάν ψηφίσουν όλοι βάσει των προτιμήσεών τους, τότε θα κερδίσει και στις δύο ψηφοφορίες η πρόταση Α. 31 Ανάλυση (1/2) Ψηφοφόρος 1: Α>Ν>Β Ψηφοφόρος 2: Β>Α>Ν Ψηφοφόρος 3: Ν>Α>Β Το αποτέλεσμα Α όμως δεν ευχαριστεί τον ψηφοφόρο 3, ο οποίος θα προτιμούσε να μην ψηφιστεί καμία πρόταση. Θα μπορούσε όμως να επιτύχει το δικό του επιθυμητό αποτέλεσμα, απλά ψηφίζοντας Β στην πρώτη ψηφοφορία. Συνειδητοποιώντας όμως αυτό το ενδεχόμενο ο ψηφοφόρος 2, θα μπορούσε και αυτός με τη σειρά του να ψηφίσει Α στην πρώτη ψηφοφορία, ώστε τελικά να περάσει η πρόταση Α στον δεύτερο γύρο! 32 16
Ανάλυση (2/2) Ψηφοφόρος 1: Α>Ν>Β Ψηφοφόρος 2: Β>Α>Ν Ψηφοφόρος 3: Ν>Α>Β Μια πιο συστηματική ανάλυση ξεκινά από το δεύτερο γύρο, όπου όλοι ψηφίζουν ειλικρινά. Εάν στον δεύτερο γύρο έχει περάσει η πρόταση Α, τότε αυτή κερδίζει την πρόταση Ν. Εάν στον δεύτερο γύρο περάσει η πρόταση Β, τότε κερδίζει η πρόταση Ν. Άρα ουσιαστικά στον πρώτο γύρο η ψηφοφορία είναι μεταξύ Α και Ν (αντί για Β) και με βάση αυτή τη λογική ψηφίζουν οι ψηφοφόροι. 33 Συμπέρασμα Το παράδειγμα της ψηφοφορίας κάνει φανερή την ανάγκη για "στρατηγικές" επιλογές, δηλαδή επιλογές οι οποίες λαμβάνουν υπόψη τις πιθανές επιλογές των αντιπάλων παικτών. Το σενάριο έχει ομοιότητες (μεταξύ άλλων) με την ψηφοφορία στις δημοτικές/νομαρχιακές εκλογές, η οποία γίνεται σε δύο γύρους. 34 17
Prisoners' Dilemma Το δίλημμα των φυλακισμένων 35 Σενάριο (1/2) Δύο φυλακισμένοι, Α και Β, κρατούνται ως ύποπτοι για ένα έγκλημα. Ο ανακριτής μιλάει και στους δύο ξεχωριστά και προσπαθεί να τους πείσει να ομολογήσουν. Υπάρχουν τα παρακάτω ενδεχόμενα: Να ομολογήσουν και οι δύο. Να μην ομολογήσει κανένας. Να ομολογήσει μόνο ο Α. Να ομολογήσει μόνο ο Β. 36 18
Σενάριο (2/2) Στον παρακάτω πίνακα φαίνονται οι ποινές των δύο φυλακισμένων για κάθε μία από τις τέσσερις περιπτώσεις: Α \ Β Ομολογεί Δεν ομολογεί Ομολογεί 5, 5 0, 15 Δεν ομολογεί 15, 0 1, 1 37 Ανάλυση Αν το δούμε συνολικά, το συμφερότερο και για τους δύο μαζί είναι να μην ομολογήσουν. Ωστόσο, αν π.χ. ο Β πιστεύει ότι ο Α δεν θα ομολογήσει, τότε τον Β τον συμφέρει να ομολογήσει. Το ίδιο ισχύει ανάλογα για τον Α. Γενικότερα, για κάθε επιλογή του Α, τον Β τον συμφέρει να ομολογήσει!! Τελικά ομολογούν και οι δύο. 38 19
Σχόλια Το παιχνίδι με τους φυλακισμένους δεν είναι μηδενικού αθροίσματος. Υπάρχουν περιπτώσεις όπου και οι δύο παίκτες κερδίζουν, π.χ. όταν δεν ομολογήσουν. Έχει εφαρμογές στην καθημερινή ζωή: Κούρσα εξοπλισμών μεταξύ δύο κρατών. Η επιλογή δύο αντιμαχόμενων μερών σε μια αμφισβήτηση σχετικά με το αν θα χρησιμοποιήσουν δικηγόρους ή/και θα καταφύγουν στα δικαστήρια για να λύσουν για την αντιδικία τους. 39 Κανονική μορφή αναπαράστασης παιχνιδιών 40 20
Κανονική μορφή αναπαράστασης Η κανονική ή στρατηγική (normal ή strategic) μορφή αναπαράστασης παιχνιδιών χρησιμοποιεί πίνακες (όπως είδαμε στο δίλημμα των φυλακισμένων). Οι επικεφαλίδες των γραμμών και των στηλών του πίνακα ονομάζονται "στρατηγικές" (strategies) των παικτών. Στα κελιά των πινάκων υπάρχουν αριθμοί που δηλώνουν το όφελος (ή κέρδος ή απολαβή) κάθε παίκτη για κάθε συνδυασμό στρατηγικών. 41 Σημειογραφία Το πλήθος των παικτών το συμβολίζουμε με Ν. Έναν τυχαίο παίκτη τον συμβολίζουμε με i. Μια τυχαία στρατηγική του παίκτη i την συμβολίζουμε με s i. Εάν θέλουμε να αναφερθούμε σε περισσότερες στρατηγικές του παίκτη i, χρησιμοποιούμε συμβολισμούς όπως s i *, s i ', s i # κλπ. Ένα σύνολο στρατηγικών για όλους τους άλλους παίκτες εκτός του i το συμβολίζουμε με s -i. Η συνάρτηση απολαβής (payoff function) του παίκτη i συμβολίζεται με u i. π.χ. u i (s 1, s 2,..., s N ) ή u i (s i, s -i ) 42 21
Συνάρτηση απολαβής Συνηθίζεται οι μεγαλύτερες τιμές τις συνάρτησης απολαβής να θεωρούνται καλύτερες. Σε περίπτωση που σε κάποιο πρόβλημα συμβαίνει το αντίθετο, όπως π.χ. στο δίλημμα των φυλακισμένων, μπορεί να οριστεί μια νέα συνάρτηση απολαβής με αφαίρεση των αρχικών τιμών από κάποια σταθερά. Β Ο ΔΟ Β Ο ΔΟ Α Α Ο 5,5 0,15 Ο 10,10 15,0 ΔΟ 15,0 1,1 ΔΟ 0,15 14,14 43 Παιχνίδια με περισσότερους από δύο παίκτες (1/3) Όταν σε ένα παιχνίδι υπάρχουν περισσότεροι από δύο παίκτες, η αναπαράσταση του παιχνιδιού με έναν πίνακα καθίσταται προβληματική. Έστω ότι τρεις εταιρείες, Α, Β και Γ, πρέπει να επιλέξουν να αναπτύξουν ένα από δύο ενδεχόμενα προϊόντα, Χ και Υ. Η διαθέσιμη αγορά για κάθε προϊόν είναι 6 μονάδες και αυτή κατανέμεται ισόποσα στις εταιρείες που αποφασίζουν να αναπτύξουν το προϊόν. Η κανονική μορφή αναπαράστασης του παιχνιδιού χρειάζεται δύο πίνακες, έναν για κάθε στρατηγική της εταιρείας Γ, όπως φαίνεται στην επόμενη διαφάνεια. 44 22
Παιχνίδια με περισσότερους από δύο παίκτες (2/3) Β Χ Υ Β Χ Υ Α Α Χ 2,2,2 3,6,3 Χ 3,3,6 6,3,3 Υ 6,3,3 3,3,6 Υ 3,6,3 2,2,2 Στρατηγική εταιρείας Γ: Χ Στρατηγική εταιρείας Γ: Υ 45 Παιχνίδια με περισσότερους από δύο παίκτες (3/3) Εναλλακτικά, το παιχνίδι μπορεί να περιγραφεί παραθέτοντας όλους τους συνδυασμούς στρατηγικών των παικτών, μαζί με τις αντίστοιχες απολαβές: ΧΧΧ=2,2,2 ΥΧΧ=6,3,3 ΧΥΧ=3,6,3 ΥΥΧ=3,3,6 ΧΧΥ=3,3,6 ΥΧΥ=3,6,3 ΧΥΥ=6,3,3 ΥΥΥ=2,2,2 46 23
Κυριαρχία στρατηγικών 47 Κυριαρχία Μια στρατηγική s i * λέγεται ότι κυριαρχεί (dominates) μιας στρατηγικής s i#, όταν ισχύει: s -i : u i (s i *, s -i )>u i (s i#,s -i ) Με άλλα λόγια, μια στρατηγική s i * κυριαρχεί μιας στρατηγικής s i#, εάν για όλους τους συνδυασμούς στρατηγικών των άλλων παικτών η στρατηγική s i * έχει μεγαλύτερη απολαβή σε σχέση με την s i#. Η στρατηγική s # i χαρακτηρίζεται ως κυριαρχούμενη στρατηγική (dominated strategy). 48 24
Κυρίαρχη στρατηγική Μια στρατηγική s i * για τον παίκτη i λέγεται κυρίαρχη στρατηγική (dominant strategy), εάν ισχύει: s i s i *, s -i : u i (s i *, s -i )>u i (s i,s -i ) Με άλλα λόγια, μια στρατηγική s i * είναι κυρίαρχη στρατηγική, εάν για όλους τους συνδυασμούς στρατηγικών των άλλων παικτών η στρατηγική αυτή έχει τη μεγαλύτερη απολαβή σε σχέση με τις εναλλακτικές στρατηγικές του παίκτη i. Σε μια τέτοια περίπτωση, όλες οι εναλλακτικές στρατηγικές του παίκτη i είναι κυριαρχούμενες. 49 Παράδειγμα (1/2) Έστω το δίλημμα των φυλακισμένων: Α Β Ο ΔΟ Ο 10,10 15,0 ΔΟ 0,15 14,14 Η στρατηγική Ο είναι κυρίαρχη για τον παίκτη Α (φυσικά και για τον Β) γιατί: u Α (O,O)>u Α (ΔΟ,Ο) u Α (O,ΔO)>u Α (ΔΟ,ΔΟ) 50 25
Παράδειγμα (2/2) Προφανώς ένας παίκτης που έχει κυρίαρχη στρατηγική, την ακολουθεί. Όταν κάθε παίκτης έχει μια κυρίαρχη στρατηγική, τότε το παιχνίδι έχει λύση κυρίαρχης στρατηγικής. Δεν υπάρχουν πάντα κυρίαρχες στρατηγικές για κάθε παίκτη. Είναι δυνατόν να μην έχει κανένας παίκτης κυρίαρχη στρατηγική, να έχουν μερικοί μόνο παίκτες ή τέλος να έχουν όλοι οι παίκτες. 51 Παιχνίδι: Η μάχη των φύλων Ένας άνδρας και μια γυναίκα πρέπει να αποφασίσουν σχετικά με το αν θα πάνε στο γήπεδο ή στην όπερα. Ο άνδρας προτιμά το γήπεδο ενώ η γυναίκα την όπερα, ωστόσο και οι δύο προτιμούν να πάνε κάπου μαζί αντί για χώρια Το παιχνίδι δεν έχει κυρίαρχη στρατηγική: Γ Γήπεδο Όπερα Α Γήπεδο 3,1 0,0 Όπερα 0,0 1,3 52 26
Ασθενής κυριαρχία Μια στρατηγική s i * λέγεται ότι κυριαρχεί ασθενώς (weakly dominates) μιας στρατηγικής s i#, όταν ισχύει: s -i : u i (s i *, s -i ) u i (s i#,s -i ) και s -i ': u i (s i *, s -i ')>u i (s i#,s -i ') Με άλλα λόγια, μια στρατηγική s i * κυριαρχεί ασθενώς μιας στρατηγικής s i#, εάν για όλους τους συνδυασμούς στρατηγικών των άλλων παικτών η στρατηγική s i * έχει ίση ή μεγαλύτερη απολαβή σε σχέση με την s i#, ενώ υπάρχει τουλάχιστον ένας συνδυασμός στρατηγικών των άλλων παικτών s -i ', για τον οποίο η s i * αποφέρει μεγαλύτερη απολαβή από την s i#. Η στρατηγική s # i χαρακτηρίζεται ως ασθενώς κυριαρχούμενη στρατηγική (weakly dominated strategy). 53 Ασθενώς κυρίαρχη στρατηγική Μια στρατηγική s i * για τον παίκτη i λέγεται ασθενώς κυρίαρχη στρατηγική (weakly dominant strategy), εάν ισχύει: s i s i *, s -i, : u i (s i *, s -i ) u i (s i,s -i ) και s i s i *, s -i ', u i (s i *, s -i ')>u i (s i,s -i ') Με άλλα λόγια, μια στρατηγική s i * είναι ασθενώς κυρίαρχη στρατηγική, εάν για κάθε μία από τις εναλλακτικές στρατηγικές του παίκτη i η s i * έχει τουλάχιστον ίση απολαβή για όλους τους συνδυασμούς στρατηγικών των υπολοίπων παικτών και καλύτερη απολαβή για τουλάχιστον έναν συνδυασμό στρατηγικών των υπολοίπων παικτών. Σε μια τέτοια περίπτωση, όλες οι εναλλακτικές στρατηγικές του παίκτη i είναι ασθενώς κυριαρχούμενες. 54 27
Παράδειγμα Έστω το παρακάτω υποθετικό παιχνίδι: Α Β Left Right Top 7, 3 5, 3 Bottom 7, 0 3, -1 Παίκτης Α: Η στρατηγική Top κυριαρχεί ασθενώς της Bottom. Παίκτης Β: Η στρατηγική Left κυριαρχεί ασθενώς της Right. 55 Παράδειγμα: Κοινόχρηστοι χώροι (1/5) Έστω δύο ένοικοι μιας κατοικίας, Α και Β, οι οποίοι πρέπει να αφιερώσουν τον ελεύθερό τους χρόνο για καθαριότητα των κοινόχρηστων χώρων. Όσο περισσότερο χρόνο αφιερώσουν συνολικά, τόσο πιο καθαροί θα είναι οι κοινόχρηστοι χώροι. Φυσικά, κάθε ένοικος προτιμά να ασχοληθεί με την καθαριότητα ο έταιρος ένοικος. Κάθε ένοικος έχει να επιλέξει μεταξύ του να αφιερώσει 0, 1, 2, 3 ή 4 ώρες για την καθαριότητα. 56 28
Παράδειγμα: Κοινόχρηστοι χώροι (2/5) x Εάν x είναι οι ώρες που αφιερώνει ο Α και y οι ώρες που αφιερώνει ο Β. Έστω ότι το όφελος για κάθε έναν από τους ενοίκους είναι αντίστοιχα: sqrt(x+y)-x sqrt(x+y)-y Ακολουθεί ο πίνακας του παιχνιδιού: y 0 1 2 3 4 0 0.0, 0.0 1.0, 0.0 1.4, -0.6 1.7, -1.3 2.0, -2.0 1 0.0, 1.0 0.4, 0.4 0.7, -0.3 1.0, -1.0 1.2, -1.8 2-0.6, 1.4-0.3, 0.7 0.0, 0.0 0.2, -0.8 0.4, -1.5 3-1.3, 1.7-1.0, 1.0-0.8, 0.2-0.5, -0.5-0.3, -1.3 4-2.0, 2.0-1.8, 1.2-1.5, 0.4-1.3, -0.3-1.2, -1.2 57 Παράδειγμα: Κοινόχρηστοι χώροι (3/5) Παρατηρώντας τις στρατηγικές του ενοίκου Α (αριστερή στήλη), βλέπουμε ότι η στρατηγική 0 κυριαρχεί ασθενώς της στρατηγικής 1 και ισχυρώς όλων των υπολοίπων στρατηγικών. Άρα η στρατηγική 0 είναι μια ασθενώς κυρίαρχη στρατηγική για τον ένοικο Α. Αντίστοιχα προκύπτουν για τις στρατηγικές του ενοίκου Β (επάνω γραμμή). 58 29
Παράδειγμα: Κοινόχρηστοι χώροι (4/5) Έστω ότι οι απολαβές των δύο ενοίκων δίνονται από τις παρακάτω σχέσεις: 2*sqrt(x+y)-x 2*sqrt(x+y)-y Στον πίνακα φαίνεται το νέο όφελος του ένοικου Α: x y 0 1 2 3 4 0 0.0, 0.0 2.0, 1.0 2.8, 0.8 3.5, 0.5 4.0, 0.0 1 1.0, 2.0 1.8, 1.8 2.5, 1.5 3.0, 1.0 3.5, 0.5 2 0.8, 2.8 1.5, 2.5 2.0, 2.0 2.5, 1.5 2.9, 0.9 3 0.5, 3.5 1.0, 3.0 1.5, 2.5 1.9, 1.9 2.3, 1.3 4 0.0, 4.0 0.5, 3.5 0.9, 2.9 1.3, 2.3 1.7, 1.7 59 Παράδειγμα: Κοινόχρηστοι χώροι (5/5) Με την τροποποιημένη συνάρτηση απολαβής δεν υπάρχει καμία κυρίαρχη στρατηγική για κανέναν παίκτη. 60 30
Επιλυσιμότητα κυριαρχίας 61 Γενικά Εάν υπάρχει κυρίαρχη στρατηγική για κάποιον παίκτη, τότε αυτή επιλέγεται. Εάν δεν υπάρχει κυρίαρχη στρατηγική: Εάν υπάρχουν κυριαρχούμενες στρατηγικές, τότε αυτές αγνοούνται. Η επιλογή θα γίνει μεταξύ των μη-κυριαρχούμενων στρατηγικών. Πάντα υπάρχει τουλάχιστον μία μη-κυριαρχούμενη στρατηγική. 62 31
Επαναλαμβανόμενη απαλοιφή κυριαρχούμενων στρατηγικών Εάν δεν υπάρχει κυρίαρχη στρατηγική, τότε μια καλή αρχή είναι να απαλείψουμε τις κυριαρχούμενες στρατηγικές. Η απαλοιφή κυριαρχούμενων στρατηγικών μπορεί να οδηγήσει στη δημιουργία νέων κυριαρχούμενων στρατηγικών, οι οποίες με τη σειρά τους θα απαλειφθούν και αυτές. Η διαδικασία αυτή ονομάζεται επαναλαμβανόμενη απαλοιφή κυριαρχούμενων στρατηγικών Iterated Elimination of Dominated Strategies, IEDS. 63 Παράδειγμα: Ανταγωνισμός τιμών (1/3) Έστω δύο εταιρείες σε μια δυοπωλιακή (duopoly) αγορά, οι οποίες παράγουν ακριβώς το ίδιο προϊόν. Κάθε εταιρεία μπορεί να τιμολογήσει το προϊόν της με μια από τρεις εναλλακτικές τιμές. Η εταιρεία που τιμολογεί φθηνότερα κερδίζει ολόκληρη την αγορά. Σε περίπτωση ίσης τιμολόγησης, η αγορά μοιράζεται εξίσου. 64 32
Παράδειγμα: Ανταγωνισμός τιμών (2/3) Παρακάτω φαίνεται ο πίνακας του παιχνιδιού: Β Α Υψηλή Μεσαία Χαμηλή Υψηλή 6,6 0,10 0,8 Μεσαία 10,0 5,5 0,8 Χαμηλή 8,0 8,0 4,4 Η στρατηγική "Υψηλή" κυριαρχείται από τη στρατηγική "Μεσαία" και για τους δύο παίκτες, οπότε απαλείφεται. 65 Παράδειγμα: Ανταγωνισμός τιμών (3/3) Β Α Μεσαία Χαμηλή Μεσαία 5,5 0,8 Χαμηλή 8,0 4,4 Στη συνέχεια, η στρατηγική "Μεσαία" κυριαρχείται από τη στρατηγική "Χαμηλή" (κάτι που δεν συνέβαινε εξαρχής!) οπότε απαλείφεται. Β Α Χαμηλή Χαμηλή 4,4 66 33
Παράδειγμα: Ψηφοφορία (1/4) Ψηφοφόρος 1: Α>Ν>Β Ψηφοφόρος 2: Β>Α>Ν Ψηφοφόρος 3: Ν>Α>Β Έστω το πρόβλημα της ψηφοφορίας με τις δύο προτάσεις και τους τρεις ψηφοφόρους. Κάθε στρατηγική ενός ψηφοφόρου τρία μέρη: Τι θα ψηφίσει στον πρώτο γύρο Τι θα ψηφίσει στον δεύτερο γύρο εάν περάσει η πρόταση Α. Τι θα ψηφίσει στον δεύτερο γύρο εάν περάσει η πρόταση Β. Για παράδειγμα, μια τέτοια στρατηγική είναι η ΑΑΝ. Συνολικά κάθε ψηφοφόρος έχει 8 διαθέσιμες στρατηγικές. 67 Παράδειγμα: Ψηφοφορία (2/4) Ψηφοφόρος 1: Α>Ν>Β Ψηφοφόρος 2: Β>Α>Ν Ψηφοφόρος 3: Ν>Α>Β Έχουμε ήδη εξηγήσει ότι στον δεύτερο γύρο "συμφέρει" κάθε ψηφοφόρο να ψηφίσει ειλικρινά. Έτσι, για τον ψηφοφόρο 1: Η στρατηγική ΑΑΝ κυριαρχεί επί των ΑΝΝ, ΑΝΒ και ΑΑΒ. Η στρατηγική ΒΑΝ κυριαρχεί επί των ΒΝΝ, ΒΝΒ και ΒΑΒ. Θα μπορούσαμε να κατασκευάσουμε πίνακες 8x8 για να το διαπιστώσουμε. Παρόμοια, για τον ψηφοφόρο 2: Η στρατηγική ΑΑΒ κυριαρχεί επί των ΑΝΒ, ΑΑΝ και ΑΝΝ. Η στρατηγική ΒΑΒ κυριαρχεί επί των ΒΝΒ, ΒΑΝ και ΒΝΝ. Τέλος, για τον ψηφοφόρο 3: Η στρατηγική ΑΝΝ κυριαρχεί επί των ΑΑΝ, ΑΝΒ και ΑΑΒ. Η στρατηγική ΒΝΝ κυριαρχεί επί των ΒΑΝ, ΒΝΒ και ΒΑΒ. 68 34
Παράδειγμα: Ψηφοφορία (3/4) Ψηφοφόρος 1: Α>Ν>Β Ψηφοφόρος 2: Β>Α>Ν Ψηφοφόρος 3: Ν>Α>Β Μπορούμε πλέον να γράψουμε την κανονική μορφή του παιχνιδιού, με τις στρατηγικές που έμειναν, ως εξής: Ψ2 Ψ1 ΑΑΒ ΒΑΒ ΑΑΝ 1,0,0 1,0,0 ΒΑΝ 1,0,0 0,-1,1 Ψ2 Ψ1 ΑΑΒ ΒΑΒ ΑΑΝ 1,0,0 0,-1,1 ΒΑΝ 0,-1,1 0,-1,1 Ψ3: ΑΝΝ Ψ3: ΒΝΝ 69 Παράδειγμα: Ψηφοφορία (4/4) Ψηφοφόρος 1: Α>Ν>Β Ψηφοφόρος 2: Β>Α>Ν Ψηφοφόρος 3: Ν>Α>Β Βλέπουμε από τους πίνακες ότι: Για τον ψηφοφόρο 1, η ΑΑΝ κυριαρχεί της ΒΑΝ. Για τον ψηφοφόρο 2, η ΑΑΒ κυριαρχεί της ΒΑΒ. Για τον ψηφοφόρο 3, η ΒΝΝ κυριαρχεί της ΑΝΝ. Άρα η λύση του προβλήματος είναι η: (ΑΑΝ, ΑΑΒ, ΒΝΝ) Η λύση αυτή είναι η ίδια που βρήκαμε και στη διαφάνεια 33. 70 35
Επίπεδα ορθολογικότητας (1/3) Η μέθοδος της επαναλαμβανόμενης απαλοιφής κυριαρχούμενων στρατηγικών βασίζεται στις εξής δύο παραδοχές: Κάθε παίκτης είναι λογικός και άρα δεν θα επιλέξει μια κυριαρχούμενη στρατηγική. Κάθε παίκτης γνωρίζει ότι και οι υπόλοιποι παίκτες είναι λογικοί και άρα δεν θα παίξουν τις δικές τους κυριαρχούμενες στρατηγικές. Κάθε παίκτης γνωρίζει ότι οι υπόλοιποι παίκτες γνωρίζουν ότι ο ίδιος είναι ορθολογικός. Κάθε παίκτης γνωρίζει ότι οι υπόλοιποι παίκτες γνωρίζουν ότι αυτός γνωρίζει ότι οι υπόλοιποι παίκτες είναι ορθολογικοί. 71 Επίπεδα ορθολογικότητας (2/3) Η επαναλαμβανόμενη απαλοιφή κυριαρχούμενων στρατηγικών γίνεται επικίνδυνη, όταν υπάρχουν πολλοί "γύροι" απαλοιφής. Ο κίνδυνος προέρχεται από τον γεγονός ότι κάποιος παίκτης μπορεί να μην εντοπίσει μια κυριαρχούμενη στρατηγική ή να απαλείψει μια μη-κυριαρχούμενη στρατηγική! Έστω το παρακάτω παιχνίδι: Α Β Left Center Right Top 4,5 1,6 5,6 Middle 3,5 2,5 5,4 Bottom 2,5 2,0 7,0 72 36
Επίπεδα ορθολογικότητας (3/3) Μετά από επαναλαμβανόμενες απαλοιφές καταλήγουμε στην λύση (Middle, Center). Με αυτή τη λύση ο παίκτης Β εξασφαλίζει όφελος 5, κάτι όμως που θα το εξασφάλιζε απλά επιλέγοντας την κίνηση Left. Επιπλέον ρισκάρει να έχει όφελος μόνο 0! Α Β Left Center Right Top 4,5 1,6 5,6 Middle 3,5 2,5 5,4 Bottom 2,5 2,0 7,0 73 Σειρά των απαλοιφών (1/3) Όταν η απαλοιφή γίνεται βάσει ασθενώς κυριαρχούμενων στρατηγικών, η σειρά των απαλοιφών έχει σημασία. Έστω το παρακάτω παιχνίδι: Β Left Right Α Top 0,0 0,1 Bottom 1,0 0,0 Εάν απαλείψουμε ταυτόχρονα και για τους δύο παίκτες τις κυριαρχούμενες στρατηγικές, καταλήγουμε στη λύση (Bottom, Right). 74 37
Σειρά των απαλοιφών (2/3) Εάν ωστόσο εφαρμόσουμε την απαλοιφή πρώτα για τον παίκτη Α και μετά για τον Β, τότε: Απαλείφουμε την Top, οπότε ο Β δεν έχει καμία κυριαρχούμενη στρατηγική πλέον! Α Β Left Right Top 0,0 0,1 Bottom 1,0 0,0 Εάν, μάλιστα, ξεκινήσει πρώτα ο Β να κάνει απαλοιφές, τότε θα καταλήξουμε σε τρίτο αποτέλεσμα! 75 Σειρά των απαλοιφών (3/3) Συμπεράσματα: Η απαλοιφή ασθενώς κυριαρχούμενων στρατηγικών μπορεί να οδηγήσει σε διαφορετικά αποτελέσματα ανάλογα με τη σειρά με την οποία γίνονται οι απαλοιφές για κάθε παίκτη. Ως σωστή σειρά θεωρείται η ταυτόχρονη απαλοιφή για όλους τους παίκτες σε κάθε γύρο. Εάν εκτελέσουμε απαλοιφή μόνο των ισχυρώς κυριαρχούμενων στρατηγικών, η σειρά της απαλοιφής δεν παίζει ρόλο. 76 38
Ύπαρξη λύσης Δεν καταλήγουμε πάντα σε μοναδική λύση με τη μέθοδο IEDS. Πολλά προβλήματα δεν έχουν καθόλου κυριαρχούμενες στρατηγικές (π.χ. η μάχη των φύλων). Άλλα προβλήματα έχουν μερικές μόνο κυριαρχούμενες στρατηγικές, μετά την απαλοιφή των οποίων απομένουν αρκετές άλλες στρατηγικές που δεν απαλείφονται. 77 Ισορροπία Nash 78 39
Γενικά (1/2) Έστω δύο παίκτες, Α και Β. Ας υποθέσουμε ότι δεν υπάρχει καμία κυρίαρχη ούτε κυριαρχούμενη στρατηγική, για κανέναν παίκτη. Ωστόσο, ας υποθέσουμε ότι o Α "μαντεύει" ποια στρατηγική θα επιλέξει ο αντίπαλος, έστω s Β *. Τότε προφανώς θα επιλέξει εκείνη από τις δικές του στρατηγικές, έστω s Α *, η οποία είναι η καλύτερη απάντηση στην s Β *. 79 Γενικά (2/2) Ας υποθέσουμε τώρα ότι ο Β καταλαβαίνει ποια στρατηγική σκοπεύει να επιλέξει ο Α και δεν αλλάζει τη στρατηγική του s Β *. Δηλαδή συμβαίνει και η s Β * να είναι για τον Β η καλύτερη απάντηση στην s Α *. Το ζεύγος στρατηγικών (s Α *, s Β *) αποτελεί μια ισορροπία Nash. 80 40
Ισορροπία Nash Μια στρατηγική s i * είναι η καλύτερη απάντηση (best response) σε ένα διάνυσμα στρατηγικών των άλλων παικτών s -i *, εάν ισχύει: s i, u i (s i *, s -i *)u i (s i, s -i *) Ένας συνδυασμός στρατηγικών s*=(s 1 *, s 2 *,..., s N *) αποτελεί μια ισορροπία Nash, εάν: i, s i, u i (s i *, s -i *) u i (s i, s -i *) Με άλλα λόγια, ένα διάνυσμα στρατηγικών s* αποτελεί ισορροπία Nash, εάν κάθε στρατηγική s i * αποτελεί την καλύτερη απάντηση στο συνδυασμό στρατηγικών των άλλων παικτών s -i *. 81 Παράδειγμα Έστω το παράδειγμα της μάχης των φύλων (διαφάνεια 52). Γ Γήπεδο Όπερα Α Γήπεδο 3,1 0,0 Όπερα 0,0 1,3 Το παιχνίδι δεν έχει κυρίαρχες στρατηγικές. Ωστόσο έχει δύο ισορροπίες Nash: (Γήπεδο, Γήπεδο) (Όπερα, Όπερα) 82 41
Ύπαρξη / Μοναδικότητα ισορροπιών Nash Υπάρχουν παιχνίδια που έχουν περισσότερες από μια ισορροπίες Nash. Ωστόσο υπάρχουν και παιχνίδια που δεν έχουν κανένα σημείο ισορροπίας Nash. Για παράδειγμα, έστω το παιχνίδι "μονά-ζυγά": Β Α 0 1 0 1,0 0,1 1 0,1 1,0 83 Παρατηρήσεις (1/2) Μπορούμε να φανταστούμε τις καταστάσεις ισορροπίας Nash ως "συνταγές" παιξίματος. Κάποιος δίνει στους παίκτες τη "συνταγή" πριν αυτοί παίξουν και κανένας παίκτης δεν "τολμά" να παίξει διαφορετικά. Στην περίπτωση περισσοτέρων του ενός σημείων ισορροπίας Nash, η επιλογή ενός από όλους τους παίκτες προϋποθέτει κάποιας μορφής προσυνεννόηση μεταξύ τους. 84 42
Παρατηρήσεις (2/2) Εάν υποθέσουμε ένα παιχνίδι το οποίο: Έχει περισσότερα του ενός σημεία ισορροπίας Nash Το παιχνίδι επαναλαμβάνεται για πολλούς γύρους Οι παίκτες δεν έχουν δυνατότητα συνεννόησης Στον πρώτο γύρο οι παίκτες επιλέγουν τις στρατηγικές τους, οι οποίες δεν οδηγούν σε σημείο ισορροπίας. Σε κάθε έναν από τους επόμενους γύρους κάποιοι παίκτες αλλάζουν τις στρατηγικές τους. Υπάρχει μεγάλη πιθανότητα μετά από μερικούς γύρους οι παίκτες να καταλήξουν σε σημείο ισορροπίας. Εκλογές, πελατεία καταστημάτων κλπ. 85 Σύγκριση των διαφόρων ειδών λύσης Εάν υπάρχει λύση κυρίαρχων στρατηγικών, τότε η λύση αυτή: Είναι η μοναδική λύση IEDS Είναι το μοναδικό σημείο ισορροπίας Nash. Εάν ένας παίκτης έχει κυρίαρχη στρατηγική, τότε κάθε λύση IEDS και κάθε σημείο ισορροπίας Nash περιλαμβάνει αυτή τη στρατηγική για τον συγκεκριμένο παίκτη. Κάθε λύση IEDS είναι και σημείο ισορροπίας Nash. Υπάρχουν σημεία ισορροπίας Nash, τα οποία δεν είναι λύσεις IEDS. Η μάχη των φύλων. 86 43
Παράδειγμα: Το δίλημμα των φυλακισμένων Όπως έχουμε δει, το παιχνίδι αυτό έχει μια λύση κυρίαρχων στρατηγικών, την (Ομολογεί, Ομολογεί). Η λύση αυτή είναι και το μοναδικό σημείο ισορροπίας Nash. Α Β Ο ΔΟ Ο 10,10 15,0 ΔΟ 0,15 14,14 87 (Antoine Augustin Cournot, 1838) Εφαρμογή: Δυοπώλιο Cournot 88 44
Τιμή (P) Περιγραφή προβλήματος (1/3) Δύο εταιρείες ανταγωνίζονται στην αγορά παράγοντας το ίδιο ακριβώς προϊόν. Έστω ότι η καμπύλη ζήτησης είναι η εξής: Q=α-βP όπου: Q: ποσότητα που πουλά η εταιρεία P: τιμή της εταιρείας ανά μονάδα προϊόντος α, β>0 σταθερές Εάν θέσουμε a=α/β και b=1/β, τότε η παραπάνω σχέση γράφεται: P=a-bQ 89 Περιγραφή προβλήματος (2/3) a Ποσότητα (Q) a/b 90 45
Περιγραφή προβλήματος (3/3) Ισχύει Q=Q 1 +Q 2. Η τιμή πώλησης των προϊόντων είναι κοινή για τις δύο εταιρείες και καθορίζεται από την αγορά. Το κόστος παραγωγής ανά μονάδα προϊόντος είναι c 1 και c 2 αντίστοιχα και ανεξάρτητο από το όγκο της παραγωγής. Το ερώτημα που τίθεται για κάθε μια εταιρεία ξεχωριστά είναι: Ποια είναι η ιδανική ποσότητα παραγωγής, δηλαδή αυτή που μεγιστοποιεί το κέρδος της εταιρείας; 91 Ανάλυση του προβλήματος (1/9) Θα εξετάσουμε το πρόβλημα από την πλευρά της εταιρείας 1. Έστω ότι η εταιρεία 2 παράγει ποσότητα Q 2#. Ποια ποσότητα πρέπει να παράγει η εταιρεία 1, ώστε να μεγιστοποιήσει το κέρδος της; Η τιμή του προϊόντος, όταν η συνολική ποσότητα είναι Q 1 +Q # 2 είναι: P=a-b(Q 1 +Q 2# ) Τα έσοδα λοιπόν της εταιρείας 1 είναι: P Q 1 =(a-b(q 1 +Q 2# )) Q 1 Το κόστος παραγωγής για την εταιρεία 1 είναι: c Q 1 92 46
Ανάλυση του προβλήματος (2/9) Άρα το κέρδος για την εταιρεία 1 είναι: (a-b(q 1 +Q 2# )-c) Q 1 Πρέπει λοιπόν να μεγιστοποιήσουμε την παραπάνω ποσότητα. Πρόκειται για ένα πολυώνυμο δευτέρου βαθμού ως προς Q 1, το οποίο μεγιστοποιείται για την τιμή: Q * 1 a c bq 2b # 2 93 Ανάλυση του προβλήματος (3/9) Για παράδειγμα, εάν a=10, b=1, c=1 και Q 2# =5, τότε προκύπτει ότι: # * a c bq2 Q1 2b 10 115 2 21 94 47
Ανάλυση του προβλήματος (4/9) Προφανώς πρέπει να ισχύει Q 1 *>0. Ορίζουμε λοιπόν τη συνάρτηση Q 1 =R 1 (Q 2 ), η οποία μας δίνει την καλύτερη απάντηση (best response) της εταιρείας 1 σε κάθε πιθανή παραγωγή της εταιρείας 2, ως εξής: a c bq2 R b 1( Q2 ) 2 0,, εάν Q εάν Q 2 2 a c b a c b 95 Ανάλυση του προβλήματος (5/9) Η γραφική παράσταση της R 1 (Q 2 ) φαίνεται στο παρακάτω σχήμα: 96 48
Ανάλυση του προβλήματος (6/9) Με παρόμοιο συλλογισμό προκύπτει η συνάρτηση καλύτερης απάντησης για την εταιρεία 2: a c bq1 a c, εάν Q1 R b b 2( Q1 ) 2 a c 0, εάν Q1 b 97 Ανάλυση του προβλήματος (7/9) Παρακάτω φαίνονται οι δύο συναρτήσεις καλύτερης απάντησης, σχεδιασμένες στο ίδιο διάγραμμα: 98 49
Ανάλυση του προβλήματος (8/9) Το σημείο τομής των δύο καμπύλων αποτελεί σημείο ισορροπίας Nash! Έστω (Q 1 *, Q 2 *) οι συντεταγμένες του. Ισχύει: Q 1 *=R 1 (Q 2 *) Q 2 *=R 2 (Q 1 *) Το συγκεκριμένο παιχνίδι δεν έχει κανένα άλλο σημείο ισορροπίας Nash. 99 Ανάλυση του προβλήματος (9/9) Τελικά, το σημείο ισορροπίας Nash έχει τα παρακάτω χαρακτηριστικά: * * a c Q1 Q2 3b 1 2 P a c 3 3 ( a c) Gain1 Gain2 9b Για a=10, b=c=1, προκύπτει Q 1 *=Q 2 *=3, P=4 και Gain 1 =Gain 2 =9. 2 100 50
Επίλυση με IEDS (1/5) 101 Επίλυση με IEDS (2/5) 102 51
Επίλυση με IEDS (3/5) 103 Επίλυση με IEDS (4/5) 104 52
Επίλυση με IEDS (5/5) 105 Καρτέλ σε δυοπωλιακή αγορά 106 53
Το πρόβλημα Έστω ότι οι δύο εταιρείες λειτουργούν ως καρτέλ, δηλαδή προσπαθούν να μεγιστοποιήσουν το συνολικό κέρδος (και όχι η κάθε μια το δικό της επιμέρους κέρδος). Πρέπει λοιπόν να βρεθεί η συνολική παραγωγή Q, για την οποία μεγιστοποιείται το συνολικό κέρδος. Μετά, εάν θεωρήσουμε ότι οι δύο εταιρείες είναι ισοδύναμες (π.χ. κοινό κόστος παραγωγής) θα ισχύει:q 1 **=Q 2 **=Q/2. 107 Ανάλυση του προβλήματος (1/2) Έστω Q η συνολική ποσότητα παραγωγής. Το συνολικό κέρδος για τις δύο εταιρείες είναι: Gain=(a-b Q-c) Q Η παραπάνω συνάρτηση μεγιστοποιείται για Q**=(a-c)/(2b) Άρα οι επιμέρους παραγωγές των δύο εταιρειών είναι: Q ** 1 Q ** 2 Q 2 ** a c 4b 108 54
Ανάλυση του προβλήματος (2/2) Για την παραπάνω παραγωγή προκύπτουν τα εξής: a c P 2 Gain 1 Gain 2 ( a c) 8b 2 Για a=10, b=c=1, προκύπτει Q 1 **=Q 2 **=2.25, P=5.5 και Gain 1 =Gain 2 =10.125. Οι αντίστοιχες τιμές για το σημείο ισορροπίας Nash ήταν Q 1 *=Q 2 *=3, P=4 και Gain 1 =Gain 2 =9. 109 Παρατηρήσεις (1/3) Το παράδειγμα με το καρτέλ είναι παρόμοιο με το δίλημμα των φυλακισμένων. Εάν οι φυλακισμένοι λειτουργήσουν ως καρτέλ, θα μπορούσαν να προσυνεννοηθούν να μην ομολογήσουν και έτσι να τους επιβληθούν μικρότερες ποινές από ότι αν ομολογήσουν και οι δύο. Ωστόσο, η λύση που μεγιστοποιεί το συνολικό όφελος δεν είναι σημείο ισορροπίας Nash. 110 55
Παρατηρήσεις (2/3) Έτσι, κάθε εταιρεία (όπως και κάθε φυλακισμένος) έχει την τάση να εξαπατήσει την άλλη, ώστε να μεγιστοποιήσει τα οφέλη της. Εάν μια εταιρεία αθετήσει τη συμφωνία του καρτέλ και παράγει διαφορετική (μεγαλύτερη) ποσότητα, αυξάνει τα δικά της κέρδη κατά ένα ποσό, αλλά μειώνει τα κέρδη της άλλης εταιρείας κατά ένα ακόμη μεγαλύτερο ποσό. Τελικά και οι δύο εταιρείες θα λειτουργήσουν με βάση τη μεγιστοποίηση του δικού τους "ατομικού" κέρδους και γρήγορα θα καταλήξουν στο σημείο ισορροπίας Nash. Στο επόμενο διάγραμμα φαίνεται η τοποθέτηση της λύσηςκαρτέλ σε σχέση με το σημείο ισορροπίας Nash. 111 Παρατηρήσεις (3/3) 112 56
Μελέτη περίπτωσης: OPEC (1/4) Ο OPEC (Organization of Petroleum Exporting Countries) αποτελείται από τις περισσότερες πετρελαιοπαραγωγές χώρες της Μέσης Ανατολής, της Αφρικής και της Λατινικής Αμερικής. Δεν περιλαμβάνει τις ευρωπαϊκές χώρες (Μεγάλη Βρετανία, Νορβηγία, Ολλανδία), την Ρωσία και τις ΗΠΑ. Οι χώρες αυτές αποφασίζουν από κοινού τις ποσότητες που θα παράγουν. Αν θεωρήσουμε λοιπόν ότι έχουμε δύο ομάδες χωρών, τα μέλη και τα μη-μέλη του OPEC, ενώ η τιμή του πετρελαίου είναι περίπου κοινή, έχουμε το πρόβλημα της δυοπωλιακής αγοράς. 113 Μελέτη περίπτωσης: OPEC (2/4) Έστω Q O και Q N οι ημερήσιες παραγωγές (σε εκατομμύρια βαρέλια) των χωρών εντός και εκτός OPEC αντίστοιχα. Έστω ότι η τιμή καθορίζεται από την παρακάτω σχέση: Q N 65 O Q P 3 Έστω ότι το κόστος παραγωγής ανά βαρέλι είναι κατά μέσο όρο 5$ για τις χώρες του OPEC και 10$ για τις χώρες εκτός OPEC. 114 57
Μελέτη περίπτωσης: OPEC (3/4) Οι συναρτήσεις καλύτερης απάντησης για τις δύο ομάδες χωρών προκύπτουν ως εξής: R O R N Τελικά προκύπτουν οι εξής τιμές: Q O =65, Q N =50, P=26.6$ Gain O =1.408 Gain N = 833 180 QN ( QN ), εάν QN 180. 2 165 QO ( QO ), εάν QO 165. 2 115 Μελέτη περίπτωσης: OPEC (4/4) Εάν ο OPEC διευρυνόταν και με τις υπόλοιπες χώρες, θα μπορούσαν να αυξήσουν περισσότερο τα συνολικά τους κέρδη. Το πρόβλημα που προκύπτει σε περιπτώσεις καρτέλ με διαφορετικό κόστος παραγωγής για τα διάφορα συμμετέχοντα μέρη είναι ότι η λύση που μεγιστοποιεί την συνολική απόδοση του καρτέλ προβλέπει ότι όλη η παραγωγή θα παραχθεί από το μέρος εκείνο με το χαμηλότερο κόστος παραγωγής! (αποδείξτε το...) Προφανώς κάτι τέτοιο δεν συμφέρει καθόλου τα μέρη με υψηλό κόστος παραγωγής. 116 58
Γενίκευση σε πολλές εταιρείες (1/2) Έστω ότι έχουμε Ν ίδιες εταιρείες που κατασκευάζουν και πωλούν το ίδιο προϊόν στην ίδια αγορά. Q=Q 1 +Q 2 +...+Q N P=a-bQ Η συνάρτηση καλύτερης απάντησης για την εταιρεία 1 είναι η εξής: Το σημείο ισορροπίας Nash είναι: N a c bqi i2 R1 ( Q2, Q3,..., QN ) 2b Q * a c i ( N 1 ) b 117 Γενίκευση σε πολλές εταιρείες (2/2) Η συνολική ποσότητα είναι Ν Q 1 * και τελικά η τιμή είναι: P a N c N 1 N 1 Παρατηρούμε ότι όσο αυξάνει ο αριθμός των εταιρειών σε ολιγοπωλιακές αγορές (χωρίς καρτέλ), τόσο η τιμή τείνει προς το κόστος παραγωγής! 118 59
The commons tragedy Η τραγωδία των κοινών 119 Γενικά Η έννοια της ισορροπίας Nash και η μελέτη ολιγοπωλιακών αγορών μπορεί να εφαρμοστεί στη μελέτη της τραγωδίας ή του προβλήματος των κοινών (the commons tragedy). Ως κοινά θεωρούνται οι πόροι ή τα αγαθά τα οποία: είναι προσβάσιμα σε όλους η διαθεσιμότητα τους (τωρινή ή/και μελλοντική) μειώνεται με τη χρήση. Το πρόβλημα έγκειται στην υπερβολική χρήση των κοινόχρηστων πόρων: Το όφελος από την υπερβολική χρήση κατευθύνεται σε λίγους. Το κόστος από την υπερβολική χρήση μοιράζεται σε όλους! 120 60
Παραδείγματα Κυνηγοί και θηράματα Φαινόμενο του θερμοκηπίου. Εταιρείες, έθνη κλπ δεν μειώνουν τις εκπομπές τους σε διοξείδιο του άνθρακα. Χρήση των modem του πανεπιστημίου. Διαφημίσεις (πινακίδες στους δρόμους, spam e-mails κλπ). 121 Ένα απλό μοντέλο (1/5) Έστω δύο παίκτες, Α και Β, και ένας κοινόχρηστος πόρος μεγέθους y>0. Σε κάθε χρονική περίοδο (π.χ. κάθε μέρα) κάθε παίκτης μπορεί να καταναλώσει μια μη-αρνητική ποσότητα του πόρου, c A ή c B, έτσι ώστε c A +c B y. Εάν η συνολική ζήτηση είναι μεγαλύτερη από τη διαθέσιμη ποσότητα, αυτή μοιράζεται στους παίκτες, αλλιώς κάθε παίκτης λαμβάνει όσο ζήτησε. Για απλοποίηση θεωρούμε ότι το παιχνίδι διαρκεί δύο χρονικές περιόδους. 122 61
Ένα απλό μοντέλο (2/5) Έστω ότι το όφελος για κάθε παίκτη από την κατανάλωση ποσότητας c σε μια μέρα ισούται με: u(c)=log(c) 123 Ένα απλό μοντέλο (3/5) Έστω ότι την πρώτη περίοδο κάθε παίκτης κατανάλωσε c A και c B ποσότητες αντίστοιχα. Την δεύτερη (και τελευταία) περίοδο κάθε παίκτης θα προσπαθήσει να καταναλώσει το μέγιστο της υπόλοιπης ποσότητας, η οποία είναι y-c A -c B. Έτσι, τη δεύτερη περίοδο κάθε παίκτης θα καταναλώσει: y c A c B 2 Το ερώτημα λοιπόν είναι ποιες πρέπει να είναι οι ποσότητες c A και c B. 124 62
Ένα απλό μοντέλο (4/5) Θα υπολογίσουμε για τον παίκτη Α ποια είναι η καλύτερή του απάντηση για μια τυχαία κατανάλωση c B του παίκτη Β στον πρώτο γύρο. Έστω λοιπόν ότι ο παίκτης Α καταναλώνει c A στον πρώτο γύρο. Το αναμενόμενο συνολικό του όφελος (και για τους δύο γύρους) είναι: log c A y ca c log 2 Η παραπάνω ποσότητα μεγιστοποιείται για: c A R A y cb ( cb) 2 B 125 Ένα απλό μοντέλο (5/5) Με παρόμοιο συλλογισμό βρίσκουμε ότι η καλύτερη επιλογή του παίκτη Β στον πρώτο γύρο είναι: c B R B y ca ( ca) 2 Ο συνδυασμός εκείνος, c A * και c B *, που αντιστοιχεί στο σημείο ισορροπίας Nash, καθώς και τα αντίστοιχα κέρδη είναι: * * y ca cb 3 * * y y B log log 3 6 126 63
Βέλτιστη λύση Η λύση που βρέθηκε με βάση το σημείο ισορροπίας Nash δεν είναι η βέλτιστη. Ας θεωρήσουμε ως βέλτιστη εκείνη τη λύση που μεγιστοποιεί το συνολικό όφελος για το σύνολο των παικτών και το σύνολο των περιόδων: η οποία μεγιστοποιείται για: y ca c 2log 2 # log log B ca cb c # # y A cb 4 y # 4log 4 127 Παρατηρήσεις (1/2) Στο σημείο ισορροπίας Nash είδαμε ότι οι παίκτες υπερκαταναλώνουν στην πρώτη περίοδο, με αποτέλεσμα να μην υπάρχει επαρκής ποσότητα στη δεύτερη. Κάθε παίκτης ξεχωριστά δεν διακινδυνεύει να καταναλώσει λιγότερο στον πρώτο γύρο, γιατί η ποσότητα που θα περισσέψει θα μοιραστεί στο δεύτερο γύρο και στους δύο παίκτες. Αντίθετα, η βέλτιστη λύση βασίζεται στη συμφωνία (τύπου "καρτέλ") όλων των εμπλεκόμενων μερών για λογική κατανάλωση ανά περίοδο. 128 64
Παρατηρήσεις (2/2) Τα αποτελέσματα που προέκυψαν οφείλονται κατά κύριο λόγο στη μορφή της συνάρτησης χρησιμότητας (utility function), η οποία ήταν κοίλη (concave). Τα ίδια αποτελέσματα θα προέκυπταν για οποιαδήποτε κοίλη συνάρτηση. Εάν η συνάρτηση ήταν γραμμική, δεν θα είχε σημασία σε ποια περίοδο γίνεται η κατανάλωση. Εάν τέλος η συνάρτηση ήταν κυρτή, τότε θα ήταν προτιμότερο όλη η κατανάλωση να γίνει σε μια περίοδο. 129 Πολλοί παίκτες (1/2) Εάν έχουμε περισσότερους παίκτες, έστω Ν, η κατάσταση χειροτερεύει: Εάν ένας παίκτης αφήσει μια μονάδα για επόμενη περίοδο, θα μπορέσει να διεκδικήσει μόνο το 1/Ν αυτής. Με παρόμοιο τρόπο αποδεικνύεται ότι στο σημείο ισορροπίας Nash κάθε παίκτης καταναλώνει στην πρώτη περίοδο: c 1 c 2... c y N 1 με συνολική κατανάλωση για την πρώτη περίοδο: N c N y N 1 130 65
Πολλοί παίκτες (2/2) Το συνολικό όφελος σε αυτή την περίπτωση είναι: * 2 y log N( N 1) 2 Αντίθετα, εάν υπολογιστούν τα ίδια μεγέθη με στόχο τη βελτιστοποίηση της συνολικής χρησιμότητας, προκύπτει: c # 1 c # 2... c # N y 2 N # 2 y N log 4 N 2 131 Ιδιωτικοποίηση Μια πιθανή λύση στο πρόβλημα των κοινών είναι αυτό της ιδιωτικοποίησής τους. Για παράδειγμα, στις μέρες μας οι περισσότερες εκτάσεις γης είναι ιδιωτικές, οπότε δεν υπάρχει ανταγωνισμός για τη χρήση τους (π.χ. ως βοσκοτόπους). Ωστόσο η ιδιωτικοποίηση ακυρώνει εντελώς την έννοια των κοινών πόρων, αφού αυτοί παύουν πλέον να είναι κοινοί. Επιπλέον, δεν είναι εφαρμόσιμοι σε πόρους όπως η ατμόσφαιρα κλπ. 132 66
Επιβολή τελών και όριο χρηστών Μια δεύτερη προσέγγιση είναι η επιβολή τελών χρήσης στους κοινόχρηστους πόρους (π.χ. το νερό). Είναι η πιο συνηθισμένη προσέγγιση αντιμετώπισης του προβλήματος. Ζητούμενο είναι να βρεθεί εκείνο το τέλος χρήσης, ούτε πολύ χαμηλό, ούτε πολύ υψηλό, το οποίο θα οδηγήσει σε κανονική χρήση του πόρου. Ένας συνηθισμένος τρόπος χρέωσης προβλέπει μεταβολή του τέλους χρήσης ανάλογα με την ζήτηση (π.χ. ζήτηση νερού το χειμώνα και το καλοκαίρι). Εναλλακτικά μπορεί να τεθεί ένα άνω όριο στο πλήθος των ταυτόχρονων χρηστών του πόρου. 133 Utility and Expected Utility Χρησιμότητα και Αναμενόμενη χρησιμότητα 134 67
Σχέσεις προτίμησης Μια σχέση προτίμησης (preference relation) είναι μια διμελής σχέση μεταξύ διαφόρων στρατηγικών, τέτοια ώστε: a b το αποτέλεσμα a είναι τουλάχιστον εξίσου καλό με το αποτέλεσμα b Η σχέση πρέπει να έχει τις παρακάτω ιδιότητες: Πληρότητα (completeness): Για κάθε ζεύγος αποτελεσμάτων a και b, θα πρέπει να ισχύει είτε a b ή b a. Μεταβατικότητα (transitivity): Εάν ισχύει a b και b c, τότε πρέπει να ισχύει και a c. Μπορούν να οριστούν οι παρακάτω σχέσεις: a b (a b) (b a) a b (a b) (b a) 135 Χρησιμότητα Θα θέλαμε να αντιστοιχούμε έναν αριθμό σε κάθε αποτέλεσμα και απλά να συγκρίνουμε αριθμούς. Ο αριθμός αυτός ονομάζεται χρησιμότητα (utility). Για παράδειγμα, έστω πέντε αποτελέσματα, (a,b,c,d,e), για τα οποία ισχύει: b d a c e Θα μπορούσαμε να κάνουμε την αντιστοίχηση: (a,b,c,d,e) (3,4,2,4,1) Η παραπάνω αντιστοίχηση χρησιμοτήτων είναι συνεπής (consistent) με τις προτιμήσεις μας. Προφανώς υπάρχουν άπειρες συνεπείς αντιστοιχήσεις χρησιμότητας. Κάθε μονότονη συνάρτηση της παραπάνω αντιστοίχησης. 136 68
Αποφάσεις υπό αβεβαιότητα (1/3) Υπάρχουν περιπτώσεις όπου το αποτέλεσμα μιας στρατηγικής είναι αβέβαιο. Εάν αποφασίσω να πάω κινηματογράφο, υπάρχει πιθανότητα.7 να βρω εισιτήριο και.3 να μην βρω. Εάν παρακολουθήσω το μεταπτυχιακό Α, υπάρχει πιθανότητα.8 να βρω δουλειά και.2 να μην βρω. Σε αυτές τις περιπτώσεις, για να αξιολογήσουμε το αποτέλεσμα των αποφάσεών μας, πρέπει αυτές να έχουν αντιστοιχηθεί σε χρησιμότητες. Μια κατανομή πιθανοτήτων επάνω σε ένα σύνολο πιθανών αποτελεσμάτων ονομάζεται λοταρία (lottery). 137 Αποφάσεις υπό αβεβαιότητα (2/3) Έστω δύο αποφάσεις: Πάω κινηματογράφο (0.7 να βρω εισιτήριο) Πάω θέατρο (0.5 να βρω εισιτήριο) Έστω 10 η αξία που δίνω στην παρακολούθηση ενός έργου στον κινηματογράφο, 20 η αξία που δίνω στην παρακολούθηση ενός θεατρικού έργου και 0 η αξία του να μην παρακολουθήσω τίποτα. Θεωρώ ότι δεν λαμβάνω υπόψη την τιμή του εισιτηρίου. Πρέπει να βρω τρόπο να αντιστοιχήσω χρησιμότητες στα αποτελέσματα των δύο αποφάσεων. 138 69
Αποφάσεις υπό αβεβαιότητα (3/3) Θεώρημα αναμενόμενης χρησιμότητας (Expected Utility Theorem, von Neumann - Morgenstern): Μια συνάρτηση χρησιμότητας πάνω σε ένα σύνολο από λοταρίες μπορεί να γραφεί ως η αναμενόμενη χρησιμότητα των διαφόρων ενδεχομένων που συνθέτουν τη λοταρία. Όταν αρχίζουμε και συνδυάζουμε χρησιμότητες διαφορετικών αποτελεσμάτων για να υπολογίσουμε χρησιμότητες σύνθετων καταστάσεων, παίζει σημαντικό ρόλο ο τρόπος με τον οποίο έχουμε αποδώσει τις χρησιμότητες στα επιμέρους αποτελέσματα. 139 Το παράδοξο της Αγίας Πετρούπολης (1/3) Έστω το εξής παιχνίδι: "Ρίχνουμε" ένα κέρμα πολλές φορές. Έστω k η πρώτη φορά κατά την οποία το αποτέλεσμα είναι "γράμματα". Τότε κερδίζουμε 2 k. Ποιο είναι το αναμενόμενο κέρδος για αυτό το παιχνίδι; Πόσα θα ήμασταν διατεθειμένοι να ρισκάρουμε για να παίξουμε στο παιχνίδι αυτό; Το αναμενόμενο κέρδος είναι: 1 k 2 k k1 2 k1 1 Προφανώς κανείς δεν θα ρίσκαρε ένα μεγάλο ποσό για να παίξει σε αυτό το παιχνίδι! 140 70
Το παράδοξο της Αγίας Πετρούπολης (2/3) Το παράδοξο πρωτοαναφέρθηκε το 1725 στην ακαδημία της Αγίας Πετρούπολης, από τον Nicollas Bernoulli. Ο πρώτος που ανέφερε μια "λύση" στο παράδοξο είναι ο Daniel Bernoulli, αδελφός του Nicollas. Η κεντρική ιδέα της λύσης είναι η εξής: Η χρησιμότητα ενός χρηματικού ποσού (γενικότερα ενός αγαθού) δεν είναι ανάλογη της ποσότητάς του. Με άλλα λόγια, διπλάσιο χρηματικό ποσό δεν μας δίνει διπλάσια χαρά. Το πρόβλημα λοιπόν έγκειται στην αντιστοίχηση της ποσότητας των υλικών αγαθών με τη χρησιμότητα που αυτά έχουν για μας. 141 Αποστροφή ρίσκου (1/4) Έστω δύο λοταρίες, Α και Β, στις οποίες ρίχνουμε ένα κέρμα και αναλόγως το αποτέλεσμα: Λοταρία Α: Εάν έρθουν γράμματα κερδίζουμε 1, εάν έρθει κορώνα χάνουμε 1. Λοταρία Β: Εάν έρθουν γράμματα κερδίζουμε 5, εάν έρθει κορώνα χάνουμε 5. Οι περισσότεροι άνθρωποι θα επέλεγαν να συμμετάσχουν στην Α αντί στην Β (ακόμη περισσότεροι επίσης θα επέλεγαν να μην "παίξουν" καθόλου!). Οι δύο λοταρίες έχουν την ίδια αναμενόμενη απόδοση, δηλαδή 0. Ωστόσο έχουν διαφορετικές αναμενόμενες χρησιμότητες. 142 71
Αποστροφή ρίσκου (2/4) Έστω u(-5), u(-1), u(1) και u(5) οι χρησιμότητες των διαφόρων αποτελεσμάτων. Το γεγονός ότι οι περισσότεροι άνθρωποι επιλέγουν την Α από την Β δηλώνει ότι: ½[u(1)+u(-1)]>½[u(5)+u(-5)] ή ισοδύναμα: u(5)-u(1)<u(-1)-u(-5) Κάτι τέτοιο μπορεί να συμβεί εάν η συνάρτηση χρησιμότητας έχει τη μορφή που φαίνεται στην επόμενη διαφάνεια. 143 Αποστροφή ρίσκου (3/4) 144 72
Αποστροφή ρίσκου (4/4) Στην προηγούμενη διαφάνεια: Το σημείο Ν αντιστοιχεί στην αναμενόμενη χρησιμότητα του να μην παίξουμε καθόλου. Το σημείο Α αντιστοιχεί στην αναμενόμενη χρησιμότητα του να επιλέξουμε το παιχνίδι Α. Το σημείο Β αντιστοιχεί στην αναμενόμενη χρησιμότητα του να επιλέξουμε το παιχνίδι Β. Βλέπουμε ότι μεγαλύτερη χρησιμότητα αντιστοιχεί στο σημείο Ν, μετά στο Α και μετά στο Β. Τα παραπάνω αποτελέσματα προέκυψαν εξαιτίας της ειδικής μορφής της συνάρτησης χρησιμότητας, η οποία είναι κοίλη (concave). Ισχύουν για όλες τις κοίλες συναρτήσεις. 145 Το παράδοξο της Αγίας Πετρούπολης (3/3) Εάν στο παράδοξο της Αγίας Πετρούπολης ορίσουμε μια κοίλη συνάρτηση χρησιμότητας, π.χ. u(x)=log(x+c), τότε η αναμενόμενη χρησιμότητα από το παιχνίδι είναι: k1 1 k 2 log(2 k c) Άρα ο παίκτης πρέπει να βρει ποιο είναι το μέγιστο ποσό -K που θα διακινδύνευε να χάσει, έτσι ώστε η αναμενόμενη χρησιμότητα να είναι μεγαλύτερη του μηδέν. 146 73
Μη-κοίλες συναρτήσεις Σε περίπτωση που η συνάρτηση χρησιμότητας ήταν γραμμική, δηλαδή u(x)=a x, τότε λοταρίες σαν τις Α και Β είναι ίσης προτίμησης. Μικρά τμήματα μιας κοίλης συνάρτησης χρησιμότητας μπορούν να θεωρηθούν γραμμικά. Εφαρμογή σε τυχερά παιχνίδια Σε περίπτωση που η συνάρτηση χρησιμότητας ήταν κυρτή (convex), τότε θα προτιμούσαμε το παιχνίδι Β! 147 Mixed strategies Μικτές στρατηγικές 148 74
Γενικά Έστω η μάχη των φύλων. Κάθε παίκτης έχει δύο διαθέσιμες στρατηγικές, Γήπεδο ή Όπερα. Ωστόσο υπάρχει (τουλάχιστον) μια ακόμη στρατηγική: "Στρίβουμε" ένα κέρμα και αν έρθει "γράμματα" πάμε στο γήπεδο, εάν έρθει "κορώνα" πάμε στην όπερα. Η τελευταία στρατηγική ονομάζεται μικτή στρατηγική (mixed strategy) και μεταφράζεται σε 50% πιθανότητα να επιλέξει ο παίκτης το Γήπεδο και 50% πιθανότητα να επιλέξει την Όπερα. Υπάρχουν άπειρες μικτές στρατηγικές, ανάλογα με τις πιθανότητες που δίνουμε στις διάφορες επιλογές. 149 Ορισμός Έστω ότι ένας παίκτης έχει Μ καθαρές (pure) στρατηγικές, s 1, s 2,..., s M. Μια μικτή στρατηγική για αυτόν τον παίκτη είναι μια κατανομή πιθανότητας επί των καθαρών στρατηγικών του: (p 1, p 2,..., p M ), έτσι ώστε p 1 +p 2 +...+p M =1. Η αξιολόγηση της αναμενόμενης χρησιμότητας μιας μικτής στρατηγικής γίνεται αθροίζοντας τα γινόμενα των (αναμενόμενων) αποτελεσμάτων των επιμέρους στρατηγικών επί τις αντίστοιχες πιθανότητες. 150 75
Παράδειγμα Παρακάτω φαίνεται το παιχνίδι της μάχης των φύλων, με μια επιπλέον στρατηγική για κάθε παίκτη: Γ Α Γήπεδο Όπερα 0.5-0.5 Γήπεδο 3,1 0,0 1.5, 0.5 Όπερα 0,0 1,3 0.5, 1.5 0.5-0.5 1.5, 0.5 0.5, 1.5 1, 1 151 Καλύτερη απάντηση με μικτές στρατηγικές (1/2) Έστω μια μικτή στρατηγική s m που αποτελείται από τρεις καθαρές στρατηγικές, s i1, s i2 και s i3, με πιθανότητες p 1, p 2 και p 3. Έστω ότι οι αντίπαλοι εφαρμόζουν συνολικά τη στρατηγική s -i. Τότε το όφελος για τον παίκτη i είναι: u(s m,s -i )=p 1 u(s i1,s -i )+ p 2 u(s i2,s -i )+ p 3 u(s i3,s -i ) Ας υποθέσουμε ότι u(s i1,s -i )>u(s i2,s -i )>u(s i3,s -i ). Τότε θα συνέφερε τον παίκτη i να παίξει την καθαρή στρατηγική s i1, αντί της μικτής στρατηγικής m! 152 76
Καλύτερη απάντηση με μικτές στρατηγικές (2/2) Για να είναι λοιπόν μια μικτή στρατηγική m η καλύτερη απάντηση σε έναν συνδυασμό στρατηγικών s -i των υπολοίπων παικτών, θα πρέπει κάθε επιμέρους καθαρή στρατηγική της μικτής στρατηγικής να είναι από μόνη της επίσης η καλύτερη απάντηση. Δηλαδή u(s m,s -i )=u(s i1,s -i )=u(s i2,s -i )=u(s i3,s -i ) Σε αυτή την περίπτωση, κάθε συνδυασμός (p 1 ',p 2 ',p 3 ') των επιμέρους στρατηγικών είναι καλύτερη απάντηση στο συνδυασμό στρατηγικών s -i. 153 Μικτές στρατηγικές και ισορροπία Nash (1/5) Έστω το παιχνίδι "μονά-ζυγά", στο οποίο δεν υπάρχει κανένα σημείο ισορροπίας Nash. Ας υποθέσουμε ότι ο παίκτης Α επιλέγει να παίζει '0' με πιθανότητα p. Εάν ο παίκτης Β παίξει καθαρά '0', τότε το αναμενόμενο όφελός του είναι: Εu Β ('0')=p 0+(1-p) 1=1-p Παρόμοια, εάν ο παίκτης Β παίξει καθαρά '1', το αναμενόμενο όφελός του είναι: Εu Β ('1')=p 1+(1-p) 0=p Προφανώς ισχύει: Εu Β ('0')>Εu Β ('1') (1-p)>p p< ½ Β Α 0 1 0 1,0 0,1 1 0,1 1,0 154 77
Μικτές στρατηγικές και ισορροπία Nash (2/5) Β Α 0 1 0 1,0 0,1 1 0,1 1,0 Εάν p= ½, τότε ο παίκτης Β μπορεί να επιλέξει οποιαδήποτε στρατηγική, είτε την '0', είτε την 1, είτε ακόμη οποιαδήποτε μικτή στρατηγική από αυτές τις δύο. Άρα, μεταξύ άλλων, η μικτή στρατηγική (0.5, 0.5) για τον παίκτη Β, είναι καλύτερη απάντηση στην μικτή στρατηγική (0.5,0.5) του παίκτη Α. Με παρόμοιο συλλογισμό μπορεί να βρεθεί ότι ισχύει και το ακριβώς αντίστροφο για τους δύο παίκτες. Στο επόμενο διάγραμμα με q συμβολίζεται η πιθανότητα με την οποία ο παίκτης Β επιλέγει '0'. 155 Μικτές στρατηγικές και ισορροπία Nash (3/5) Β Α 0 1 0 1,0 0,1 1 0,1 1,0 Οι γραφικές παραστάσεις καλύτερης απάντησης για τους δύο παίκτες είναι οι εξής: q q=r B (p) 1 ½ p=r A (q) 0 ½ 1 p 156 78
Μικτές στρατηγικές και ισορροπία Nash (4/5) Β Α 0 1 0 1,0 0,1 1 0,1 1,0 Άρα το ζεύγος στρατηγικών (0.5, 0.5) (0.5, 0.5) αποτελεί σημείο ισορροπίας Nash, διότι: Κανένας παίκτης δεν έχει λόγο να ξεφύγει από το σημείο αυτό, γιατί δεν πρόκειται να κερδίσει άμεσα. Οποιοσδήποτε παίκτης ξεφύγει από αυτό το σημείο δίνει τη δυνατότητα στον άλλο παίκτη να το εκμεταλλευτεί. Για παράδειγμα, εάν στα "μονά-ζυγά" κάποιος παίκτης δείχνει για πολλή ώρα προτίμηση σε ένα από τα δύο νούμερα, δίνει τη δυνατότητα στον άλλο παίκτη να κερδίσει μερικούς "πόντους". 157 Μικτές στρατηγικές και ισορροπία Nash (5/5) Όλα τα παιχνίδια έχουν τουλάχιστον ένα σημείο ισορροπίας Nash στις μικτές στρατηγικές. Δεν έχουν ωστόσο όλα τα παιχνίδια σημείο ισορροπίας Nash στις καθαρές στρατηγικές, όπως είδαμε στο παιχνίδι "μονάζυγά". Το σημείο ισορροπίας Nash στις μικτές στρατηγικές έχει διαφορετική ερμηνεία: Ένας παίκτης δεν "φεύγει" από αυτό, γιατί: δεν θα κερδίσει άμεσα μπορεί να χάσει μελλοντικά Αντίθετα, στα σημεία καθαρής ισορροπίας, ένας παίκτης δεν φεύγει γιατί θα χάσει άμεσα. 158 79
Παράδειγμα: Τένις (1/5) Έστω δύο παίκτες που παίζουν τένις, Α και Β. Κάθε φορά που είναι η σειρά του Α να χτυπήσει την μπάλα, πρέπει να επιλέξει εάν θα σημαδέψει το εμπρός ή το πίσω μέρος του γηπέδου του Β. Αντίστοιχα, ο Β πρέπει να αποφασίσει αν θα τοποθετηθεί στο εμπρός ή στο πίσω μέρος του χώρου του. Η πιθανότητα για τον Α να έχει ένα επιτυχημένο χτύπημα αυξάνει όταν "ξεγελάσει" τον Β. Στον πίνακα που ακολουθεί θεωρούμε ως όφελος κάθε παίκτη την (εκατοστιαία) πιθανότητα να κερδίσει τον γύρο ανάλογα με τις επιλογές και των δύο παικτών. 159 Παράδειγμα: Τένις (2/5) Α Β (q) Εμπρός (1-q) Πίσω (p) Εμπρός 30,70 80, 20 (1-p) Πίσω 70, 30 40, 60 Εάν ο παίκτης Α επιλέγει πάντα 'Εμπρός', τότε ο παίκτης Β μπορεί και αυτός με τη σειρά του να επιλέγει πάντα 'Εμπρός' κερδίζοντας στο 70% των περιπτώσεων. Έστω p και q οι πιθανότητες με τις οποίες ο Α και ο Β επιλέγουν 'Εμπρός' αντίστοιχα. Για να μειώσει τη δυνατότητα πρόβλεψης του Β, ο Α επιλέγει την πιθανότητα p με τέτοιο τρόπο ώστε να είναι ισοδύναμες για τον Β οι δύο αποφάσεις του: Eu B (Εμπρός)=p 70+(1-p) 30 Eu B (Πίσω)=p 20+(1-p) 60 Eu B (Εμπρός)=Eu B (Πίσω) p=0.375 160 80
Παράδειγμα: Τένις (3/5) Α Β (q) Εμπρός (1-q) Πίσω (p) Εμπρός 30,70 80,20 (1-p) Πίσω 70,30 40,60 Παρόμοια, ο παίκτης Β επιλέγει την πιθανότητα q με τέτοιο τρόπο ώστε να είναι ισοδύναμες για τον A οι δύο αποφάσεις του: Eu A (Εμπρός)=q 30+(1-q) 80 Eu A (Πίσω)=q 70+(1-q) 40 Eu A (Εμπρός)=Eu B (Πίσω) q=0.5 Άρα το ζεύγος στρατηγικών (0.375, 0.625) για τον Α και (0.5, 0.5) για τον Β αποτελούν σημείο ισορροπίας Nash. 161 Παράδειγμα: Τένις (4/5) Α Β (q) Εμπρός (1-q) Πίσω (p) Εμπρός 30,70 80,20 (1-p) Πίσω 70,30 40,60 Τα αναμενόμενα κέρδη των δύο παικτών στο σημείο αυτό είναι: Eu A =p Eu A (Εμπρός)+(1-p) Eu A (Πίσω) = 0.375 55+0.615 55=55 Eu B =q Eu B (Εμπρός)+(1-q) Eu B (Πίσω) = 0.5 45+0.5 45=45 Το ίδιο αποτέλεσμα (όσον αφορά τις τελευταίες πράξεις) προκύπτει και από τους τύπους που δίνουν είτε το Eu A (Εμπρός) ή το Eu A (Πίσω) για τον Α, και παρόμοια για τον Β. Αυτό οφείλεται στο ότι στο σημείο ισορροπίας η μικτή στρατηγική που ακολουθεί κάθε παίκτης έχει τα ίδια αναμενόμενα οφέλη με κάθε επιμέρους καθαρή στρατηγική, με την προϋπόθεση ότι ο αντίπαλος δεν θα αλλάξει τη δική του μικτή στρατηγική. 162 81
Παράδειγμα: Τένις (5/5) Α Β (q) Εμπρός (1-q) Πίσω (p) Εμπρός 30,70 80,20 (1-p) Πίσω 70,30 40,60 Ας υποθέσουμε ότι ένας παίκτης αλλάζει τη μικτή στρατηγική του, π.χ. ο Α επιλέγει p=0.5. Σε αυτή την περίπτωση ο Β μπορεί να τροποποιήσει τη δική του στρατηγική ώστε να μεγιστοποιήσει το δικό του όφελος. Πράγματι, για p=0.5, ισχύει για τον Β: Eu B (Εμπρός)=0.5 70 + 0.5 30 = 50 Eu B (Πίσω)=0.5 20 + 0.5 60 = 40 Ο Β λοιπόν επιλέγει να παίζει συνέχεια "Εμπρός", ανεβάζοντας το αναμενόμενο όφελός του σε 50 (και αντίστοιχα μειώνοντας το αναμενόμενο όφελος του Α). 163 Παρατηρήσεις (1/2) Τα παραδείγματα που προηγήθηκαν είχαν ένα κοινό χαρακτηριστικό: Αφορούσαν παιχνίδια μηδενικού (ή σταθερού) αθροίσματος. Στα παιχνίδια αυτά όταν ο ένας παίκτης κερδίζει κάποιο ποσό τότε ο άλλος χάνει το ίδιο ποσό. Ανταγωνιστικά παιχνίδια (competitive games) Στα σημεία αυτά, το σημείο μικτής ισορροπίας Nash μοιάζει αρκετά με τα αντίστοιχα σημεία καθαρής ισορροπίας Nash, αφού οποιοσδήποτε παίκτης ξεφύγει από αυτό κινδυνεύει να χάσει. 164 82
Παρατηρήσεις (2/2) Ωστόσο, υπάρχουν παιχνίδια μη-σταθερού αθροίσματος, όπως η μάχη των δύο φύλων, στα οποία εάν ο ένας παίκτης αντιληφθεί τι προτίθεται να κάνει ο άλλος, μπορεί να το εκμεταλλευτεί για κοινό όφελος! Τέτοια παιχνίδια ονομάζονται συνεργατικά (cooperative). ΠΡΟΣΟΧΗ: Δεν είναι όλα τα παιχνίδια μη-σταθερού αθροίσματος συνεργατικά. Στα παιχνίδια αυτά ορίζεται και πάλι η έννοια της μικτής ισορροπίας Nash, ωστόσο έχει διαφορετική ερμηνεία. 165 Παράδειγμα: Η μάχη των φύλων (1/3) Έστω το γνωστό παράδειγμα της μάχης των φύλων, το οποίο έχει δύο σημεία καθαρής ισορροπίας Nash. Θα ελέγξουμε εάν υπάρχουν σημεία μικτής ισορροπίας. Έστω ότι ο Α επιλέγει 'Γήπεδο' με πιθανότητα p και 'Όπερα' με πιθανότητα 1-p. Το αναμενόμενο όφελος της Γ για τις δύο καθαρές στρατηγικές της είναι: Εu Γ ('Γήπεδο')=p 1+(1-p) 0 = p Εu Γ ('Όπερα')=p 0+(1-p) 3 = 3-3 p Γ Α Γήπεδο Όπερα Γήπεδο 3,1 0,0 Όπερα 0,0 1,3 166 83
Παράδειγμα: Η μάχη των φύλων (2/3) Ισχύει: Εu Γ ('Γήπεδο') > Εu Γ ('Όπερα') p > 3-3p p > ¾. Άρα: Γ Α Γήπεδο Όπερα Γήπεδο 3,1 0,0 Όπερα 0,0 1,3 αν p > ¾ συμφέρει τη γυναίκα να επιλέγει πάντα 'Γήπεδο'. αν p < ¾ συμφέρει τη γυναίκα να επιλέγει πάντα 'Όπερα'. αν p = ¾ συμφέρει τη γυναίκα εξίσου να επιλέγει είτε 'Γήπεδο είτε 'Όπερα' είτε τέλος οποιονδήποτε συνδυασμό αυτών. Για p= ¾ το αναμενόμενο όφελος της Γ είναι Εu Γ =¾. Παρόμοια για τον άντρα, εάν η γυναίκα επιλέγει 'Όπερα' με πιθανότητα (1-q)=¾, τότε αυτός μπορεί να επιλέξει οποιαδήποτε στρατηγική (καθαρή ή μικτή) ως καλύτερη απάντηση. 167 Παράδειγμα: Η μάχη των φύλων (3/3) Γ Α Γήπεδο Όπερα Γήπεδο 3,1 0,0 Όπερα 0,0 1,3 Άρα, ο συνδυασμός μικτών στρατηγικών (¾,¼)-(¼,¾) αποτελεί σημείο ισορροπίας Nash. Στο σημείο αυτό το αναμενόμενο όφελος κάθε παίκτη είναι ίσο με Εu A =Eu Γ =¾. Εάν οι παίκτες ξεφύγουν από το σημείο ισορροπίας Nash, το πιο πιθανό είναι να αυξηθεί το αναμενόμενο όφελος και για τους δύο! Για παράδειγμα, για p=q=1/2 έχουμε: Εu A = ½ ½ 3 + ½ ½ 0 + ½ ½ 0 + ½ ½ 1 = 1 Εu Γ = ½ ½ 1 + ½ ½ 0 + ½ ½ 0 + ½ ½ 3 = 1 Ωστόσο μπορεί και να μειωθεί (μηδενισθεί), εάν π.χ. επιλέξουν {p=1,q=0} ή {p=0,q=1}. 168 84
Παρατηρήσεις Το παιχνίδι της μάχης των δύο φύλων είναι συνεργατικό (και όχι ανταγωνιστικό). Σε τέτοια παιχνίδια μας ενδιαφέρει ο αντίπαλος να μάθει τη στρατηγική που πρόκειται να εφαρμόσουμε, γιατί μπορεί να την αξιοποιήσει για κοινό όφελος. Το σημείο μικτής ισορροπίας Nash είναι το σημείο απόλυτης έλλειψης πληροφόρησης για τις προθέσεις του αντιπάλου. Το σημείο μικτής ισορροπίας Nash μας εξασφαλίζει ένα ελάχιστο αναμενόμενο όφελος, ανεξάρτητα από το τι θα επιλέξει να κάνει ο αντίπαλος. Για παράδειγμα, εάν ο άντρας επέλεγε τη στρατηγική (1/2,1/2), τότε η γυναίκα μπορούσε να επιλέξει τη στρατηγική (0,1), με αναμενόμενο όφελος για τον άνδρα 0,5 και για τη γυναίκα 1,5. 169 Συμμετρικά παιχνίδια και μικτές ισορροπίες 170 85
Συμμετρικά παιχνίδια Ένα παιχνίδι μεταξύ δύο παικτών Α και Β ονομάζεται συμμετρικό (symmetric game) όταν: Όλοι οι παίκτες έχουν τις ίδιες διαθέσιμες στρατηγικές. Για κάθε ζεύγος στρατηγικών s 1, s 2, ισχύει: u A (s 1,s 2 )=u B (s 2,s 1 ) (στις παρενθέσεις η πρώτη στρατηγική αναφέρεται πάντα στον Α και η δεύτερη στον Β). Ένα σημείο ισορροπίας Nash ονομάζεται συμμετρικό (symmetric equilibrium) εάν όλοι οι παίκτες έχουν επιλέξει την ίδια στρατηγική σε αυτό. 171 Το παιχνίδι των δειλών (1/2) Έστω ότι δύο παίκτες πρέπει να αποφασίσουν εάν θα πολεμήσουν ή όχι. Εάν πολεμήσουν (Π), οι ζημιές είναι μεγάλες και για τους δύο. Εάν πολεμήσει μόνο ο ένας, τότε αυτός έχει μεγάλο κέρδος ενώ ο δεύτερος έχει ζημιές (αλλά μικρότερες από ότι αν πολεμούσε). Εάν δεν πολεμήσει (ΔΠ) κανένας έχουν ισοδύναμες ακόμη μικρότερες ζημιές. Β Α Π ΔΠ Π -1, -1 10,0 ΔΠ 0,10 5,5 172 86
Το παιχνίδι των δειλών (2/2) Το παιχνίδι έχει δύο σημεία καθαρής ισορροπίας Nash, τα (Π,ΔΠ) και (ΔΠ,Π). Θα ελέγξουμε εάν έχει σημείο μικτής ισορροπίας. Έστω p και q οι πιθανότητες κάθε παίκτης να επιλέξει Π. Ο Α επιλέγει το p έτσι ώστε να ισχύει: Eu B (Π)=Eu B (ΔΠ) p (-1)+(1-p) 10=p 0+(1-p) 5 p= 5/6 Παρόμοια βρίσκουμε ότι q=5/6. Β Α Π ΔΠ Π -1, -1 10,0 ΔΠ 0,10 5,5 Άρα ο συνδυασμός στρατηγικών (5/6,1/6)-(5/6,1/6) είναι σημείο μικτής (συμμετρικής) ισορροπίας Nash. Στο σημείο αυτό το αναμενόμενο όφελος κάθε παίκτη είναι 5/6. 173 Συμμετρικές ισορροπίες Οι συμμετρικές ισορροπίες έχουν μια ιδιαίτερη θέση μεταξύ των διαφόρων ισορροπιών. Υπάρχει η άποψη ότι εάν όλοι οι παίκτες είναι ίδιοι, τότε γιατί να επιλέξουν διαφορετικές στρατηγικές. Με βάση αυτό το σκεπτικό, κάθε παίκτης έχει το φόβο πως ό,τι και αν επιλέξει ο ίδιος, το ίδιο ακριβώς θα επιλέξει και ο αντίπαλος, μιας και οι δυο σκέφτονται με τον ίδιο ακριβώς τρόπο. Υπό αυτή την έννοια, οι συμμετρικές ισορροπίες είναι οι πιο "λογικές" ισορροπίες σε περίπτωση συμμετρικών παιχνιδιών. 174 87
Παρατήρηση Γ Α Γήπεδο Όπερα Γήπεδο 3,1 0,0 Όπερα 0,0 1,3 Το παιχνίδι της μάχης των φύλων, όπως παρουσιάστηκε, δεν είναι συμμετρικό. Ωστόσο μπορεί να μετασχηματισθεί σε συμμετρικό εάν αλλάξουμε τα ονόματα των ενεργειών σε Best και Worst, υπονοώντας την πρώτη προτίμηση για κάθε παίκτη. Προφανώς σε αυτή την περίπτωση, το Best για τον Α είναι το Γήπεδο και για την Γ η Όπερα. Έτσι ο πίνακας του παιχνιδιού γίνεται: Γ Α Best Worst Best 0,0 3,1 Worst 1,3 0,0 175 Natural Monopoly Μελέτη περίπτωσης: Φυσικό μονοπώλιο 176 88
Γενικά Μια αγορά χαρακτηρίζεται ως φυσικό μονοπώλιο όταν οι εξωτερικές συνθήκες (τεχνολογικές, ζήτηση κλπ) είναι τέτοιες που δεν υπάρχει χώρος για περισσότερες από μια εταιρείες. Φυσικά μονοπώλια μπορούν να προκύψουν όταν: Το κόστος παραγωγής μειώνεται με την ποσότητα. Όταν υπάρχουν ελάχιστες ποσότητες παραγωγής. Όταν η αγορά είναι μικρή. Παραδείγματα: Microsoft Boeing 177 Ένα απλό μοντέλο Έστω δύο εταιρείες σε μια αγορά φυσικό μονοπώλιο: Κάθε χρόνο που οι δύο εταιρείες παραμένουν στην αγορά χάνουν c. Εάν μια εταιρεία αποσυρθεί, η άλλη εταιρεία κερδίζει ετησίως π (έστω π>c), ενώ αυτή που αποσύρθηκε δεν έχει κέρδη/ζημίες. Έστω ότι κάθε εταιρεία έχει τις επιλογές να αποσυρθεί φέτος (year0), του χρόνου (year1) ή τον μεθεπόμενο χρόνο (year2). A\B year0 year1 year2 year0 0,0 0,π 0, 2π year1 π,0 -c, -c -c, π-c year2 2π,0 π-c, -c -2c, -2c 178 89
Ανάλυση (1/3) A\B year0 year1 year2 year0 0,0 0,π 0, 2π year1 π,0 -c, -c -c, π-c year2 2π,0 π-c, -c -2c, -2c Υπάρχουν δύο σημεία καθαρής ισορροπίας Nash, τα year2- year0 και year0-year2. Πρόκειται για μη-συμμετρικές ισορροπίες. Θα προσπαθήσουμε να βρούμε ένα σημείο συμμετρικής ισορροπίας (προφανώς μικτής πλέον). Έστω p Α, q Α και (1-p Α -q Α ) η πιθανότητα με την οποία ο παίκτης Α επιλέγει τις στρατηγικές year0, year1 και year2. Τα αναμενόμενα οφέλη για τις διάφορες στρατηγικές του παίκτη Β είναι: Eu B (year0)=p Α 0+q Α 0+(1-p Α -q Α ) 0=0 Eu B (year1)=p Α π+q Α (-c)+(1-p Α -q Α ) (-c)=p Α π+(1-p Α ) (-c) Eu B (year2)=p Α 2π+q Α (π-c)+(1-p Α -q Α ) (-2c) 179 Ανάλυση (2/3) year2 2π,0 π-c, -c -2c, -2c Τα p Α και q Α θα επιλεγούν από την εταιρεία Α με τέτοιο τρόπο ώστε: Eu B (year0)=eu B (year1)=eu B (year2) Λύνοντας το σύστημα των εξισώσεων (2x2) προκύπτει: p Α =c/(π+c) q Α =0 1-p A -q A =π/(π+c) Ακριβώς τα ίδια αποτελέσματα θα προέκυπταν και για την εταιρεία Β. p B =c/(π+c) q B =0 1-p B -q B =π/(π+c) A\B year0 year1 year2 year0 0,0 0,π 0, 2π year1 π,0 -c, -c -c, π-c 180 90
Ανάλυση (3/3) A\B year0 year1 year2 year0 0,0 0,π 0, 2π year1 π,0 -c, -c -c, π-c year2 2π,0 π-c, -c -2c, -2c Άρα, το σημείο μικτής (συμμετρικής) ισορροπίας Nash δεν περιλαμβάνει τη στρατηγική year1 για καμία εταιρεία! Κάθε εταιρεία λοιπόν πρέπει ανεξάρτητα να αποφασίσει αν θα εξέλθει της αγοράς εξαρχής ή μετά από 2 χρόνια. Το παράδειγμα μπορεί να γενικευθεί σε περισσότερες χρονικές περιόδους. Προσοχή: Το παράδειγμα υποθέτει ότι κάθε εταιρεία λαμβάνει την απόφαση της στην αρχή της περιόδου και δεν μπορεί να την αλλάξει ενδιάμεσα. 181 Extensive form games Εκτατική μορφή παιχνιδιών 182 91
Γενικά Πολλά παιχνίδια περιλαμβάνουν διαδοχικές (μηταυτόχρονες) αποφάσεις των παικτών. Κάθε παίκτης αποφασίζει γνωρίζοντας συνήθως τις αποφάσεις όλων των παικτών που προηγήθηκαν. Σκάκι Τέτοια παιχνίδια λέγονται δυναμικά (dynamic) ή ακολουθιακά (sequential). Τα δυναμικά παιχνίδια συνηθίζεται να παριστάνονται στην εκτατική μορφή αναπαράστασης (extensive form). 183 Παράδειγμα: Εισιτήρια θεάτρου (1/2) Δύο θεατρόφιλοι, Α και Β, πρέπει να αποφασίσουν ποιο μέσο μεταφοράς θα χρησιμοποιήσουν για να πάνε στο θέατρο: Τ(αξί) Μ(ετρό) Λ(εωφορείο) Στο θέατρο έχει απομείνει ακριβώς ένα εισιτήριο, το οποίο θα το πάρει ο πρώτος που θα φθάσει. Το Τ είναι γρηγορότερο από το Μ, το οποίο είναι γρηγορότερο από το Λ. Ο Α αναχωρεί πριν από τον Β. Για να προλάβει ο Β πρέπει να χρησιμοποιήσει γρηγορότερο μέσο μεταφοράς. 184 92
Παράδειγμα: Εισιτήρια θεάτρου (2/2) Τ Μ Παίκτης Α Λ Παίκτης Β Τ Μ Λ Τ Μ Λ Τ Μ Λ u 1 (True,Τ), u 2 (False,Τ) u 1 (True,Τ), u 2 (False,Μ) u 1 (True,Τ), u 2 (False,Λ) u 1 (False,Μ), u 2 (True,Τ) u 1 (True,Μ), u 2 (False,Μ) u 1 (True,Μ), u 2 (False,Λ) u 1 (False,Λ), u 2 (True,Τ) u 1 (False,Λ), u 2 (True,Μ) u 1 (True,Λ), u 2 (False,Λ) 185 Παρατηρήσεις Το δένδρο της προηγούμενης διαφάνειας ονομάζεται δένδρο του παιχνιδιού (game tree) Οι εσωτερικοί κόμβοι του δένδρου ονομάζονται κόμβοι απόφασης (decision nodes). Τα φύλλα (τερματικοί κόμβοι) του δένδρου αναγράφουν το αντίστοιχο όφελος κάθε παίκτη. Ένας παίκτης μπορεί να εμφανίζεται στο δένδρο περισσότερες από μία φορές. Ένα παιχνίδι μπορεί να περιλαμβάνει περισσότερους από δύο παίκτες. 186 93
Σύνολα πληροφόρησης (1/3) Είναι δυνατόν ένας παίκτης να αποφασίζει τη στρατηγική του χωρίς να γνωρίζει αποφάσεις άλλων παικτών που προηγήθηκαν. Για παράδειγμα, στο παιχνίδι με τα εισιτήρια, ο παίκτης Β που ξεκινά δεύτερος από το σπίτι του, δεν γνωρίζει ποιο μέσο μεταφοράς επέλεξε ο παίκτης Α. Σε τέτοιες περιπτώσεις, όπου δηλαδή μια απόφαση δεν γίνεται γνωστή σε άλλους παίκτες, τα παιδιά του αντίστοιχου κόμβου απόφασης εμφανίζονται ως ένας μεγάλος οβάλ κόμβος που ονομάζεται σύνολο πληροφόρησης (information set). 187 Σύνολα πληροφόρησης (2/3) Τ Τ Μ Λ Μ Παίκτης Α Παίκτης Β Τ Μ Λ Λ Τ Μ Λ 188 94
Σύνολα πληροφόρησης (3/3) Παιχνίδια στα οποία δεν υπάρχουν σύνολα πληροφόρησης ονομάζονται παιχνίδια πλήρους πληροφόρησης (perfect information games). Στα παιχνίδια πλήρους πληροφόρησης κάθε παίκτης γνωρίζει όλες τις προηγούμενες αποφάσεις των αντιπάλων του. Τα υπόλοιπα παιχνίδια ονομάζονται παιχνίδια μη-πλήρους πληροφόρησης (imperfect information games). 189 Στρατηγικές Μια στρατηγική είναι ένα πλήρες, υπό προϋποθέσεις πλάνο ενεργειών. Πρέπει να καλύπτει όλες τις περιπτώσεις του παιχνιδιού (πριν ξεκινήσει το παιχνίδι). Πρέπει να περιλαμβάνει μια απόφαση για κάθε κόμβο απόφασης που αφορά τον παίκτη. Στο παιχνίδι με τα εισιτήρια, ο παίκτης Α έχει 3 στρατηγικές. Τ, Μ, Λ Ο παίκτης Β έχει 3 3 =27 στρατηγικές, τρεις για κάθε μία από τις στρατηγικές του παίκτη Α. ΤΤΤ, ΤΤΜ, ΤΤΛ, ΤΛΤ, ΤΛΜ, ΤΛΛ,..., ΛΛΛ 190 95
Εκτατική και στρατηγική μορφή παιχνιδιών (1/2) Έχοντας καταγράψει τις διάφορες στρατηγικές των δύο παικτών, μπορούμε να περιγράψουμε το παιχνίδι στην στρατηγική μορφή: Β Α ΤΤΤ ΤΤΜ... ΛΛΛ Τ Μ Λ u 1 (True, T), u 2 (False, T) u 1 (False, M), u 2 (True, T) u 1 (False, Λ), u 2 (True, T) u 1 (True, T), u 2 (False, T) u 1 (False, M), u 2 (True, T) u 1 (False, Λ), u 2 (True, Μ)... u 1 (True, T), u 2 (False, Λ)... u 1 (True, Μ), u 2 (False, Λ)... u 1 (True, Λ), u 2 (False, Λ) 191 Εκτατική και στρατηγική μορφή παιχνιδιών (2/2) Ισχύει και το αντίστροφο: Κάθε παιχνίδι σε στρατηγική μορφή μπορεί να γραφεί σε εκτατική, χρησιμοποιώντας σύνολα πληροφόρησης. O Α O ΔO Β ΔO O ΔO 192 96
Μικτές στρατηγικές Κάθε παίκτης μπορεί να έχει μικτές στρατηγικές, όπως ακριβώς και στη στρατηγική μορφή των παιχνιδιών. Μια μικτή στρατηγική είναι μία κατανομή πιθανοτήτων επάνω στις καθαρές στρατηγικές του παίκτη. 193 Παράδειγμα: Coke-Pepsi (1/9) Έστω ότι η Coca-Cole (Coke) πρέπει να αποφασίσει εάν θα εισέλθει ή όχι στην αγορά της πρώην Σοβιετικής Ένωσης, την οποία μέχρι τώρα ελέγχει η Pepsi. Υπάρχουν λοιπόν δύο επιλογές για την Coke, Μ(έσα) και Ε(ξω). Εάν η Coke αποφασίσει να εισέλθει, η Pepsi έχει δύο επιλογές, να Α(ντιδράσει) έντονα και να Σ(υμβιβαστεί). Pepsi A -2,-1 Coke M Σ 1,2 E 0, 5 194 97
Προς τα πίσω επαγωγή Η μέθοδος της προς τα πίσω επαγωγής (backward induction) επιχειρεί να προβλέψει τι θα επιλέξει κάθε παίκτης σε κάθε κόμβο απόφασης. Η κεντρική ιδέα είναι ότι κάθε παίκτης επιλέγει σε κάθε κόμβο την επιλογή εκείνη που του δίνει το καλύτερο αποτέλεσμα από το σημείο εκείνο και πέρα. Οι υπολογισμοί γίνονται ξεκινώντας από τους τελευταίους κόμβους απόφασης και προχωρώντας προς τα πίσω μέχρι τη ρίζα. 195 Παράδειγμα: Coke-Pepsi (2/9) Το δένδρο απόφασης έχει δύο κόμβους απόφασης, έναν για την Coke στην αρχή και έναν για την Pepsi στη συνέχεια. Έστω ότι έχει έρθει η ώρα της Pepsi να αποφασίσει. Αυτή θα επιλέξει Σ, μιας και σε αυτή την περίπτωση το όφελος της είναι 2 (αντί για -1). Το αντίστοιχο όφελος της Coke θα είναι 1. Pepsi A -2,-1 Coke M Σ 1,2 E 0, 5 196 98
Παράδειγμα: Coke-Pepsi (3/9) Η Coke, εκτελώντας τους ίδιους συλλογισμούς, αντιλαμβάνεται ότι εάν επιλέξει να εισέλθει στην αγορά η Pepsi δεν θα αντιδράσει και άρα το τελικό όφελος της Coke θα είναι 1. Αντίθετα, εάν δεν εισέλθει στην αγορά, το τελικό όφελός της θα είναι 0. Έτσι τελικά αποφασίζει να εισέλθει στην αγορά. -2,-1 Pepsi A 1,2 Coke M 1,2 Σ 1,2 E 0, 5 197 Παράδειγμα: Coke-Pepsi (4/9) Στο ίδιο αποτέλεσμα θα καταλήγαμε εάν διερευνούσαμε την στρατηγική μορφή του παιχνιδιού. Pepsi Coke Α Σ Μ -2,-1 1,2 Ε 0,5 Ο συνδυασμός στρατηγικών (Μ,Σ) αποτελεί σημείο ισορροπίας Nash. Το ίδιο ισχύει και για το συνδυασμό στρατηγικών (Ε,Α). Ωστόσο, με δεδομένο ότι πρώτη αποφασίζει η Coke, έχει κάθε λόγο να οδηγήσει το παιχνίδι στο σημείο (Μ,Σ). 198 99
Παράδειγμα: Coke-Pepsi (5/9) Επεκτείνουμε το παράδειγμα ως εξής: Αφού η Coke εισέλθει στην αγορά, ανεξαρτήτως της επιλογής της Pepsi, η Coke μπορεί και αυτή με τη σειρά της να ακολουθήσει μια επιθετική πολιτική, δηλαδή να Α(ντιδράσει), ή να ακολουθήσει μια ήρεμη πολιτική, δηλαδή να Σ(υμβιβαστεί). Coke A -2, -1 Pepsi A Σ -3, 1 Coke M E 0, 5 Σ A Σ 0, -3 1, 2 199 Παράδειγμα: Coke-Pepsi (6/9) Το δένδρο τώρα έχει τέσσερις κόμβους απόφασης, τρεις για την Coke και έναν για την Pepsi. Οι κόμβοι απόφασης του τελευταίου επιπέδου αφορούν την Coke. Οι αποφάσεις της Coke λαμβάνονται βάσει του οφέλους της στα διάφορα φύλλα του δένδρου: Coke A -2, -1 Pepsi A -2, -1 Σ -3, 1 Coke M E 0, 5 Σ 1, 2 A Σ 0, -3 1, 2 200 100
Παράδειγμα: Coke-Pepsi (7/9) Στη συνέχεια, η Pepsi αποφασίζει εάν θα αντιδράσει ή θα συμβιβαστεί βάσει της αναμενόμενης εξέλιξης του παιχνιδιού σε κάθε μια περίπτωση: Coke A -2, -1 Pepsi A -2, -1 Σ -3, 1 Coke M E 1, 2 0, 5 Σ 1, 2 A Σ 0, -3 1, 2 201 Παράδειγμα: Coke-Pepsi (8/9) Τελικά, η Coke αποφασίζει στη ρίζα του δένδρου να εισέλθει στην αγορά. Η τελική κατάληξη του παιχνιδιού είναι (1,2). Coke A -2, -1 Pepsi A -2, -1 Σ -3, 1 1, 2 Coke M E 1, 2 0, 5 Σ 1, 2 A Σ 0, -3 1, 2 Πλέον η Coke έχει το μεγαλύτερο μερίδιο στην αγορά των χωρών της Ανατολικής Ευρώπης. 202 101
Παράδειγμα: Coke-Pepsi (9/9) Στον πίνακα φαίνεται η στρατηγική μορφή αναπαράστασης του παιχνιδιού. Pepsi Τα δύο κελιά με πορτοκαλί φόντο Coke Α Σ αποτελούν σημείο ισορροπίας ΜΑΑ -2,-1 0,-3 Nash. ΜΑΣ -2,-1 1,2 Ουσιαστικά πρόκειται για το ίδιο σημείο, το οποίο αποτελεί ΜΣΑ -3,1 0,-3 και τη λύση που βρήκαμε ΜΣΣ -3,1 1,2 με τη μέθοδος της προς τα πίσω Ο 0,5 0,5 επαγωγής. Ωστόσο, η στρατηγική ΜΑΣ πλεονεκτεί έναντι της ΜΣΣ, γιατί χειρίζεται καλύτερα την περίπτωση που η Pepsi αποφασίσει να αντιδράσει. 203 Ο ρόλος της δέσμευσης (1/4) Είναι κοινή πεποίθηση ότι το να έχουμε πολλές επιλογές είναι καλύτερο από το να έχουμε λίγες. Ωστόσο κάτι τέτοιο μπορεί να είναι επιζήμιο σε παιχνίδια με αντιπάλους, όταν οι αντίπαλοι γνωρίζουν τις επιλογές μας. Έστω για παράδειγμα το παιχνίδι Coke-Pepsi με 2 επιπέδων, όπου το τελικό αποτέλεσμα ήταν (1,2). Coke M Pepsi 1,2 A -2,-1 1,2 Σ 1,2 E 0, 5 204 102
Ο ρόλος της δέσμευσης (2/4) Ας θεωρήσουμε ότι η Pepsi έχει μόνο μια επιλογή, να αντιδράσει εφόσον η Coke αποφασίσει να εισέλθει στην αγορά. -2,-1 Pepsi A 0, 5 Coke M -2,-1 E 0, 5 Γνωρίζοντάς το αυτό η Coke αποφασίζει να μην εισέλθει στην αγορά, με αποτέλεσμα το τελικό όφελος να είναι (0,5), δηλαδή πολύ καλύτερο για την Pepsi! 205 Ο ρόλος της δέσμευσης (3/4) Παρόμοια, έστω το παιχνίδι τριών επιπέδων, όπου το τελικό αποτέλεσμα ήταν (1,2). Έστω τώρα ότι η Coke έχει μόνο μια επιλογή στο τελευταίο επίπεδο, να αντιδράσει: Coke A -2, -1 Pepsi A Σ -3, 1 Coke M E 0, 5 Σ A Σ 0, -3 1, 2 206 103
Ο ρόλος της δέσμευσης (4/4) Τελικά, όπως φαίνεται στο σχήμα, η Coke αποφασίζει να μην εισέλθει στην αγορά, και το τελικό όφελος διαμορφώνεται σε (0,5), ωφελώντας την Pepsi. Coke A -2, -1 Pepsi A -2, -1 Σ -3, 1 Coke 0, 5 M E -2, -1 0, 5 Σ 0, -3 A Σ 0, -3 1, 2 207 Παρατηρήσεις Θεώρημα του Kuhn (και του Zermelo): Κάθε παιχνίδι πλήρους πληροφόρησης με πεπερασμένο αριθμό κόμβων απόφασης έχει μία λύση με τη μέθοδο της προς τα πίσω επαγωγής. Η λύση αυτή είναι μοναδική αν για κάθε παίκτη δεν υπάρχουν φύλλα με το ίδιο όφελος. Η μέθοδος της προς τα πίσω επαγωγής στα παιχνίδια σε εκτατική μορφή είναι το αντίστοιχο της επαναλαμβανόμενης απαλοιφής κυριαρχούμενων στρατηγικών (IEDS) στα παιχνίδια στην στρατηγική μορφή. 208 104
Research & Development (R&D) Μελέτη περίπτωσης: Έρευνα και Ανάπτυξη 209 Γενικά Η οικονομική ανάπτυξη τα τελευταία 250 χρόνια βασίζεται κατά κύριο λόγο στην επιστημονική έρευνα και ανάπτυξη νέων προϊόντων. Πληροφορική Τηλεπικοινωνίες Φαρμακευτική Βιοτεχνολογία Η έρευνα κατά κύριο λόγο χρηματοδοτείται από μεγάλες πολυεθνικές εταιρείες. Στην ιδανική περίπτωση τα αποτέλεσμα των ερευνών θα έπρεπε να ήταν κοινό αγαθό (public good). Η έρευνα κοστίζει. 210 105
Πατέντες Οι πατέντες (patents) κατοχυρώνουν δικαιώματα εκμετάλλευσης για τις εταιρείες που αναπτύσσουν νέα προϊόντα. Ο πρώτος που θα αναπτύξει/κατοχυρώσει ένα προϊόν παίρνει τα πάντα! Είναι στρατηγικής σημασίας για κάθε εταιρεία να αποφασίσει: Πού θα κατευθύνει τους πόρους της για έρευνα Με τι ρυθμό θα χρηματοδοτήσει την έρευνα Πότε πρέπει να αποχωρήσει από την ανάπτυξη ενός νέου προϊόντος. 211 Μοντέλο Έστω 2 εταιρείες, Α και Β, που διαγωνίζονται για την ανάπτυξη μιας πατέντας για κάποια υπηρεσία (π.χ. τηλεόραση υψηλής ευκρίνειας). Κάνουμε τις εξής παραδοχές: Η απόσταση από τον επιθυμητό στόχο είναι μετρήσιμη. Ορίζουμε αυθαίρετη μονάδα μέτρησης τα βήματα (steps). Κάθε εταιρεία μπορεί να προχωρήσει 1, 2 ή 3 βήματα σε μια χρονική περίοδο με αντίστοιχο κόστος 2, 7 και 15 μονάδες. Η εμπειρία δείχνει ότι διπλάσια επένδυση σε έρευνα δεν αποφέρει διπλάσια αποτελέσματα... Η εταιρεία που θα φθάσει πρώτη στον στόχο κερδίζει την πατέντα, η αξία της οποίας είναι 20 μονάδες. Η δεύτερη εταιρεία δεν κερδίζει τίποτα. Θεωρούμε ότι οι δύο εταιρείες λαμβάνουν αποφάσεις εναλλάξ, γνωρίζοντας πάντα τις προηγούμενες αποφάσεις του 212 αντιπάλου τους (παιχνίδι πλήρους πληροφόρησης). 106
Λειτουργία καρτέλ Τι θα συνέβαινε αν οι δύο εταιρείες αποφάσιζαν να συνεννοηθούν: Η έρευνα θα διεξαγόταν από μια μόνο εταιρεία. Η έρευνα θα διεξαγόταν με τον πλέον αργό ρυθμό, δηλαδή ένα βήμα ανά χρονική περίοδο. Η έρευνα θα διεξαγόταν από την εταιρεία που είναι πιο κοντά στον στόχο. Γενικά, η λειτουργία καρτέλ μειώνει τις επενδύσεις σε έρευνα και ανάπτυξη, σε αντίθεση με τον ανταγωνισμό που τις αυξάνει κατακόρυφα. 213 Ανάλυση (1/13) Θα αναλύσουμε το πρόβλημα χρησιμοποιώντας την προς τα πίσω επαγωγή. Για την ανάλυση θα χρησιμοποιήσουμε έναν διδιάστατο χώρο καταστάσεων, του οποίου οι συντεταγμένες αντιστοιχούν στην απόσταση (σε βήματα) κάθε εταιρείας από την ολοκλήρωση της έρευνας/ανάπτυξης: Η οριζόντια γραμμή είναι η γραμμή τερματισμού της εταιρείας Α. Η κατακόρυφη γραμμή είναι η γραμμή τερματισμού της εταιρείας Β. Θα χρησιμοποιούμε τα γράμματα a και b για να δηλώσουμε την απόσταση της εταιρείας Α και της εταιρείας Β αντίστοιχα από τις σχετικές γραμμές τερματισμού. 214 107
Ανάλυση (2/13) b=4 Τέλος Α Άξονας Β a=3 (3,4) Τέλος Β Άξονας Α 215 Ανάλυση (3/13) Ας υποθέσουμε ότι το παιχνίδι είναι στην κατάσταση (1,b) και είναι σειρά του παίκτη Α να παίξει. Προφανώς ο παίκτης Α τελειώνει το παιχνίδι με μία κίνηση. Ο παίκτης κερδίζει την πατέντα αξίας 20, ενώ χάνει 2 μονάδες λόγω της κίνησης, άρα το κέρδος του είναι 18. Παρόμοια, εάν το παιχνίδι είναι στην κατάσταση (a,1) και είναι σειρά της εταιρείας Β να παίξει, αυτή τερματίζει το παιχνίδι και κερδίζει την πατέντα. ΠΡΟΣΟΧΗ: Στο σημείο αυτό δεν μας ενδιαφέρει πόσα έχει ξοδέψει στο παρελθόν κάθε εταιρεία. Η απόφαση που λαμβάνεται αφορά το μέλλον, σαν να ξεκινούσε τώρα το παιχνίδι. 216 108
Ανάλυση (4/13) Ας υποθέσουμε ότι βρισκόμαστε στην κατάσταση (2,1) ή (3,1) και είναι σειρά της εταιρείας Α να παίξει. Η εταιρεία Α ολοκληρώνει το παιχνίδι σε μία κίνηση, κερδίζοντας αντίστοιχα 20-7=13 ή 20-15=5. Αν δεν το κάνει, στο επόμενο βήμα η εταιρεία Β θα τελειώσει το παιχνίδι, οπότε το κέρδος για την Α θα είναι μηδέν. Φυσικά το ίδιο ισχύει για την εταιρεία Β, εάν το παιχνίδι είναι σε μια από τις καταστάσεις (1,2) ή (1,3) και είναι σειρά της Β να παίξει. 217 Ανάλυση (5/13) Με παρόμοιο τρόπο, εάν η τρέχουσα κατάσταση είναι η (2,2), οποιαδήποτε εταιρεία είναι σειρά της να κινηθεί θα επιλέξει να τερματίσει το παιχνίδι άμεσα, κερδίζοντας 20-7=13. Πράγματι, αν π.χ. είναι σειρά της Α και αυτή επιλέξει να κινηθεί ένα βήμα προς την κατάσταση (1,2) με κόστος για την Α 2 μονάδες, τότε η Β θα τερματίσει το παιχνίδι κερδίζοντας 13 μονάδες, όπως είδαμε! Με παρόμοιο τρόπο βρίσκεται ότι εάν η τρέχουσα κατάσταση είναι η (3,2) και είναι σειρά της Α να κινηθεί, θα τερματίσει το παιχνίδι. Παρόμοια εάν η τρέχουσα κατάσταση είναι η (2,3) και είναι η σειρά της Β. Τέλος, εάν η τρέχουσα κατάσταση είναι η (3,3), όποια εταιρεία κινείται πρώτη θα τερματίσει το παιχνίδι! 218 109
Ανάλυση (6/13) Από τα παραπάνω προκύπτει ότι εάν το παιχνίδι βρίσκεται στην περιοχή a 3 και b 3, οποιαδήποτε εταιρεία έχει την πρώτη κίνηση θα τερματίσει το παιχνίδι. Η περιοχή αυτή ονομάζεται πρώτη ζώνη πυροδότησης (trigger zone I). Θα χρησιμοποιήσουμε τα συμπεράσματα που βγάλαμε για την πρώτη περιοχή πυροδότησης για να δούμε τι γίνεται στις άμεσα γειτονικές περιοχές. Η προσέγγισή μας στο πρόγραμμα είναι ουσιαστικά η προς τα πίσω επαγωγή. 219 Ανάλυση (7/13) Άξονας Β Τέλος Α Πρώτη περιοχή πυροδότησης (3,3) Τέλος Β Άξονας Α 220 110
Ανάλυση (8/13) Τι γίνεται εάν βρισκόμαστε στην κατάσταση (4,3) και είναι σειρά της εταιρείας Α να κινηθεί; Η εταιρεία Α μπορεί να κινηθεί 1, 2 ή 3 βήματα, με κόστος 2, 7 και 15 αντίστοιχα. Ωστόσο, σε κάθε περίπτωση η εταιρεία Β θα κερδίσει την πατέντα. Άρα είναι καλύτερα για την εταιρεία Α να μην κινηθεί καθόλου, δηλαδή να εγκαταλείψει! Το ίδιο συμπέρασμα προκύπτει εάν το παιχνίδι βρίσκεται στις καταστάσεις (4,2), (4,1), (5,3), (5,2) και (5,1). Εάν η εταιρεία Α εγκαταλείψει, τότε η εταιρεία Β θα προχωρήσει με μικρά βήματα μέχρι τη γραμμή τερματισμού της. 221 Ανάλυση (9/13) Γενικά, εάν είναι a>3 και b 3 και είναι σειρά της Α, τότε πρέπει να εγκαταλείψει. Το σύνολο των θέσεων b 3 ονομάζεται Πρώτη ζώνη ασφαλείας για την Β (Safety Zone I for B). Προφανώς, μιας και το παιχνίδι είναι συμμετρικό, υπάρχει η αντίστοιχη πρώτη ζώνη ασφαλείας για την Α, η οποία ορίζεται για a 3 και b>3. 222 111
Ανάλυση (10/13) Τέλος Α Άξονας Β Πρώτη ζώνη ασφαλείας για την Α Πρώτη περιοχή πυροδότησης (3,3) Τέλος Β Πρώτη ζώνη ασφαλείας για την Β Άξονας Α 223 Ανάλυση (11/13) Ας υποθέσουμε ότι είμαστε στην κατάσταση (4,4) και είναι σειρά της Α. Η Α μπορεί με ένα βήμα (κόστους 2) να μπει στην πρώτη ζώνη ασφαλείας της. Στη συνέχεια η Β εγκαταλείπει. Τέλος η Α, με τρία ακόμη απλά βήματα τερματίζει. Το όφελος της Α είναι 20-4x2=12 Εάν η Α δεν μπει στη ζώνη ασφαλείας της, τότε θα μπει η Β και θα πρέπει η Α να εγκαταλείψει. Παρόμοια, η Α θα επιχειρήσει να μπει στην πρώτη ζώνη ασφαλείας της από την (5,4), με αναμενόμενο κέρδος 7. Η Α δεν θα επιχειρήσει να μπει στη ζώνη ασφαλείας της από τη θέση (6,4), μιας και τότε το αναμενόμενο κέρδος της θα ήταν -1. 224 112
Ανάλυση (12/13) Άρα, υπάρχει μια δεύτερη ζώνη πυροδότησης (Trigger Zone II), για 3<a 5 και 3<b 5, από την οποία κάθε εταιρεία έχει δυνατότητα να κερδίσει. Παρόμοια, υπάρχουν δεύτερες ζώνες ασφαλείας: Για την Α, για 3<a 5 και b>5. Για την Β, για 3<b 5 και a>5. Αν συνεχίσουμε με τον ίδιο τρόπο, καταλήγουμε στο σχήμα που φαίνεται στο επόμενο διάγραμμα. 225 Ανάλυση (13/13) Τέλος Α Άξονας Β (10,10) Δεύτερη ζώνη ασφαλείας για την Α Τρίτη ζώνη ασφαλείας για την Α (9,9) (8,8) Πρώτη ζώνη ασφαλείας για την Α (7,7) (5,5) Δεύτερη Τρίτη ζώνη ζώνη ασφαλείας ασφαλείας για την Β για την Β (3,3) Πρώτη ζώνη ασφαλείας για την Β Άξονας Α Τέλος Β Πρώτη περιοχή πυροδότησης Δεύτερη περιοχή πυροδότησης Τρίτη περιοχή πυροδότησης 226 113
Παρατηρήσεις (1/2) Στην ανάλυση που προηγήθηκε, κάθε εταιρεία σε κάθε βήμα δεν λαμβάνει υπόψη τα έξοδα που έχει κάνει μέχρι εκείνη τη στιγμή, παρά μόνο τα αναμενόμενα έσοδα/έξοδα από εκεί και πέρα. Η ίδια ανάλυση μπορεί να γίνει και για μη-συμμετρικές εταιρείες. Εάν μια εταιρεία έχει μικρότερα κόστη έρευνας και ανάπτυξης, οι ζώνες της είναι πλατύτερες. Και πάλι θα δούμε ότι όσο απομακρυνόμαστε από την αρχή των αξόνων, τα πλάτη των ζωνών μικραίνουν. Όσο μεγαλύτερη είναι η αξία της πατέντας, τόσο μεγαλύτερα είναι τα πλάτη των ζωνών. 227 Παρατηρήσεις (2/2) Εάν υπάρχει αβεβαιότητα για το αποτέλεσμα της έρευνας και ανάπτυξης, τότε οι εταιρείες παραμένουν στον ανταγωνισμό περισσότερο. Εάν μια εταιρεία έχει προτίμηση για γρήγορο κέρδος, μπορεί να αποφασίσει να προχωρήσει γρηγορότερα, ακόμη και αν δεν υπάρχει ανταγωνισμός. Η εθνική πολιτική σε θέματα επιδότησης της έρευνας παίζει πολύ σημαντικό ρόλο, ιδιαίτερα στον ανταγωνισμό μεταξύ επιχειρήσεων από διαφορετικά κράτη / ομάδες κρατών. Π.χ. Ευρωπαϊκά και εθνικά προγράμματα. 228 114
Subgame Perfect Nash Equilibrium Τέλεια ισορροπία Nash για υποπαίγνια 229 Γενικά Η έννοια της τέλειας ισορροπίας Nash για υποπαίγνια αφορά παιχνίδια μη-πλήρους πληροφόρησης σε εκτατική μορφή. Η μη-πλήρης πληροφόρηση δηλώνεται με την ύπαρξη συνόλων πληροφόρησης. Coke A -2, -1 Pepsi A Σ -3, 1 Coke M E 0, 5 Σ A Σ 0, -3 1, 2 230 115
Κόμβοι απόφασης Η ύπαρξη συνόλων πληροφόρησης μειώνει το πλήθος των κόμβων απόφασης για τους παίκτες. Πράγματι, στο τροποποιημένο παιχνίδι Coke-Pepsi, η Coke έχει πλέον 2 κόμβους απόφασης, αντί των τριών που είχε στο παιχνίδι πλήρους πληροφόρησης. Άρα, κάθε στρατηγική της Coke θα πρέπει να έχει δύο σκέλη: Εάν θα εισέλθει στην αγορά ή όχι. Σε περίπτωση που εισέλθει στην αγορά, εάν θα αντιδράσει δυναμικά ή όχι (χωρίς να γνωρίζει τι αποφάσισε να κάνει η Pepsi). 231 Υποπαίγνια Ένα υποπαίγνιο (subgame) είναι ένα υπο-δένδρο του αρχικού δένδρου του παιχνιδιού, το οποίο ξεκινά με έναν απλό κόμβο απόφασης. Ένα υποπαίγνιο δεν μπορεί να ξεκινά από ένα σύνολο πληροφόρησης. Το τροποποιημένο παιχνίδι Coke-Pepsi έχει δύο υποπαίγνια: Το συνολικό παιχνίδι Το παιχνίδι που προκύπτει μετά την απόφαση της Coke να εισέλθει στην αγορά. Σε ένα παιχνίδι πλήρους πληροφόρησης, κάθε κόμβος απόφασης είναι η ρίζα ενός υποπαίγνιου. 232 116
Τέλεια ισορροπία Nash για υποπαίγνια Έστω s μια στρατηγική για το συνολικό παιχνίδι και g ένα υποδένδρο του αρχικού δένδρου του παιχνιδιού. Συμβολίζουμε με s(g) το κομμάτι εκείνο της στρατηγικής s που αφορά το υποπαίγνιο g. Δύο στρατηγικές s 1 και s 2 (για δύο παίκτες Α και Β) αποτελούν τέλεια ισορροπία Nash ενός παιχνιδιού σε εκτατική μορφή, εάν για κάθε υποπαίγνιο g του αρχικού παιχνιδιού οι στρατηγικές s 1 (g) και s 2 (g) αποτελούν επίσης τέλεια ισορροπία Nash. Η αναζήτηση των στρατηγικών αυτών γίνεται με τη μέθοδο της προς τα πίσω επαγωγής. Ο παραπάνω ορισμός της ισορροπίας Nash αντανακλά το γεγονός ότι κάθε παίκτης σε κάθε βήμα επιλέγει την καλύτερη δυνατή κίνηση για τον εαυτό του, λαμβάνοντας υπόψη ότι το ίδιο ακριβώς θα κάνει και ο αντίπαλος. 233 Coke-Pepsi (1/3) Ξεκινούμε να υπολογίζουμε ισορροπίες Nash σε υποπαίγνια, ξεκινώντας από τα «τελευταία» χρονικά. Στο τρέχον παράδειγμα, το τελευταίο υποπαίγνιο είναι αυτό που ξεκινά μετά την απόφαση της Coke να εισέλθει. Η ανάλυση του υποπαίγνιου θα γίνει σε στρατηγική μορφή αναπαράστασης. Coke A -2, -1 Pepsi A Σ -3, 1 Coke M E 0, 5 Σ A Σ 0, -3 1, 2 234 117
Coke-Pepsi (2/3) Από τον πίνακα της στρατηγικής μορφής του υποπαίγνιου φαίνεται ότι υπάρχουν δύο σημεία ισορροπίας Nash: (Α,Α) με όφελος (-2,-1) (Σ,Σ) με όφελος (1,2) Pepsi Coke Α Σ Α -2,-1 0,-3 Σ -3,1 1,2 Το (Σ,Σ) είναι καλύτερο και για τις δύο εταιρείες, οπότε αναμένεται να επιλεγεί. Άρα το αναμενόμενο αποτέλεσμα ολόκληρου του υποπαιγνίου είναι (1,2). A -2, -1 Coke Coke M E Pepsi 1, 2 0, 5 Σ A Σ A Σ -3, 1 0, -3 1, 2 235 Coke-Pepsi (3/3) Η Coke λοιπόν, υπολογίζοντας ότι αν επιλέξει να εισέλθει στην αγορά, το αναμενόμενο αποτέλεσμα θα είναι (1,2), επιλέγει να εισέλθει. 1, 2 Coke M E Pepsi 1, 2 0, 5 Σ A Coke A Σ A Σ -2, -1-3, 1 0, -3 1, 2 236 118
Δίλημμα των φυλακισμένων (1/5) Θεωρούμε μια παραλλαγή του διλήμματος των φυλακισμένων, όπου το παιχνίδι επαναλαμβάνεται δύο φορές. Στο τέλος του πρώτου γύρου οι αποφάσεις που πήραν οι δύο παίκτες (στον πρώτο γύρο) γίνονται γνωστές και στους δύο. Το συνολικό όφελος κάθε παίκτη είναι το άθροισμα από τους δύο επιμέρους γύρους. Το συνολικό παιχνίδι έχει πέντε υποπαίγνια: Τέσσερα που αφορούν τον δεύτερο γύρο, για τα διάφορα αποτελέσματα του πρώτου γύρου. Το συνολικό παιχνίδι. 237 Δίλημμα των φυλακισμένων (2/5) Β Α Ο ΔΟ Ο 5, 5 0, 15 ΔΟ 15, 0 1, 1 Α Ο ΔΟ Β ΔΟ Ο ΔΟ Ο Ο ΔΟ Ο ΔΟ Ο ΔΟ Ο ΔΟ Α Ο ΔΟ Ο ΔΟ Ο ΔΟ Ο ΔΟ Ο ΔΟ Ο Ο ΔΟ Ο ΔΟ Β ΔΟ 10,10 5,20 20,5 6,6 5,20 0,30 15,15 1,16 20,5 15,15 30,0 16,1 6,6 1,16 16,1 2,2 238 119
Δίλημμα των φυλακισμένων (3/5) Τα τέσσερα υποπαίγνια του δεύτερου γύρου έχουν όλα από μία λύση, που αντιστοιχεί σε όλα τα παιχνίδια στο συνδυασμό στρατηγικών (Ο,Ο): Ο 10,10 10,10 Ο ΔΟ 5,20 Ο Ο 20,5 ΔΟ ΔΟ 6,6 Ο 5,20 Ο 5,20 Ο ΔΟ ΔΟ 0,30 Ο 15,15 ΔΟ Α ΔΟ Ο 1,16 20,5 Ο ΔΟ 20,5 ΔΟ 15,15 Ο ΔΟ Ο 30,0 ΔΟ 16,1 Ο ΔΟ 6,6 Β 6,6 Ο ΔΟ 1,16 ΔΟ Ο ΔΟ 16,1 2,2 Α Β 239 Δίλημμα των φυλακισμένων (4/5) Για τον πρώτο γύρο έχουμε πλέον να λύσουμε το παρακάτω παιχνίδι: Β Α Ο ΔΟ Το παιχνίδι αυτό έχει μία λύση, το σημείο ισορροπίας Nash (Ο,Ο) με τελικό όφελος (10,10). Άρα τελικά οι στρατηγικές που επιλέγουν οι δύο παίκτες είναι: Α: OOOOO Β: OOOOO Ο 10, 10 5, 20 ΔΟ 20,5 6,6 240 120
Δίλημμα των φυλακισμένων (5/5) 10,10 Α Ο ΔΟ Β Ο ΔΟ Ο ΔΟ Ο 10,10 ΔΟ 5,20 Ο ΔΟ 20,5 Ο ΔΟ 6,6 Ο ΔΟ Α Ο ΔΟ Ο ΔΟ Ο ΔΟ Ο ΔΟ Ο ΔΟ Ο Ο ΔΟ Ο ΔΟ Β ΔΟ 10,10 5,20 20,5 6,6 5,20 0,30 15,15 1,16 20,5 15,15 30,0 16,1 6,6 1,16 16,1 2,2 241 Παρατήρηση Η κεντρική ιδέα της τέλειας ισορροπίας Nash για υποπαίγνια είναι: «ό,τι έγινε, έγινε» Δηλαδή, από κάθε σημείο του δένδρου, ανεξαρτήτως τι προηγήθηκε, κάθε παίκτης επιλέγει την καλύτερη για αυτό επιλογή, θεωρώντας ότι το ίδιο θα πράξουν και οι αντίπαλοι. Ωστόσο η παραπάνω αρχή είναι ιδιαίτερα αυστηρή: Εάν ένας αντίπαλος στις προηγούμενες αποφάσεις τους δεν ήταν λογικός (δεν επέλεξε δηλαδή σύμφωνα με τα σημεία ισορροπίας Nash), τότε πώς μπορούμε να είμαστε βέβαιοι ότι θα το κάνει στις επόμενες; 242 121
Repeated Games Επαναλαμβανόμενα παιχνίδια 243 Γενικά (1/2) Επαναλαμβανόμενα παιχνίδια: Παιχνίδια που παίζονται αυτούσια για πολλούς γύρους. Πεπερασμένων γύρων (Finitely repeated games) Απείρων γύρων (Infinitely repeated games) Η συμπεριφορά των παικτών όταν ένα παιχνίδι επαναλαμβάνεται πολλές φορές είναι εντελώς διαφορετική από όταν το παιχνίδι παίζεται μόνο μια φορά. Εάν οι παίκτες πιστέψουν ότι η «καλή» συμπεριφορά τους θα ανταμειφθεί στο μέλλον, ή ισοδύναμα ότι η «κακή» συμπεριφορά τους θα τιμωρηθεί στο μέλλον, ωθούνται να είναι πιο «ομαδικοί» στο παιχνίδι τους. Οι απειλές για τιμωρία και η αναμονή για ανταμοιβή πρέπει να είναι αξιόπιστες (credible). Η έννοια της αμοιβαιότητας (reciprocity) είναι αυτή που διακρίνει τα επαναλαμβανόμενα παιχνίδια. 244 122
Γενικά (2/2) Κάθε επανάληψη του παιχνιδιού ονομάζεται γύρος (stage). Κάθε γύρος είναι συνήθως ένα παιχνίδι σε στρατηγική μορφή. Στην αρχή του παιχνιδιού οι παίκτες έχουν τη δυνατότητα να «συζητήσουν» και να συναποφασίσουν τις στρατηγικές τους. Μετά από κάθε γύρο οι παίκτες ενημερώνονται για τις «κινήσεις» των αντιπάλων. 245 Παραδείγματα: ΔΦ σε 2 γύρους Once repeated prisoners dilemma Α Ο ΔΟ Β Ο ΔΟ Ο ΔΟ Ο ΔΟ Ο ΔΟ Ο ΔΟ Ο ΔΟ Α Ο ΔΟ Ο ΔΟ Ο ΔΟ Ο ΔΟ Ο ΔΟ Ο Ο ΔΟ Ο ΔΟ Β ΔΟ 10,10 5,20 20,5 6,6 5,20 0,30 15,15 1,16 20,5 15,15 30,0 16,1 6,6 1,16 16,1 2,2 246 123
Παραδείγματα: Τροποποιημένο ΔΦ Έστω ότι κάθε φυλακισμένος έχει μια ακόμη επιλογή, να ομολογήσει μερικώς (ΜΟ). Β Α Ο ΜΟ ΔΟ Ο 5, 5 3, 7 0, 15 ΜΟ 7, 3 3, 3 2, 8 ΔΟ 15, 0 8, 2 1, 1 Το παιχνίδι γύρου έχει δύο σημεία ισορροπίας Nash, το (Ο,Ο) και το (ΜΟ, ΜΟ). Η ισορροπία στο σημείο (ΜΟ,ΜΟ) βασίζεται στο γεγονός ότι μολονότι ένας παίκτης, π.χ. o Α, μπορεί να ομολογήσει και να μετακινήσει το παιχνίδι στο σημείο (Ο, ΜΟ) με αποτέλεσμα (3,7), δεν θα το κάνει γιατί δεν έχει να κερδίσει κάτι. Θεωρούμε δηλαδή ότι μεταξύ ισοδύναμων επιλογών για έναν παίκτη, αυτός θα επιλέξει εκείνη που είναι καλύτερη για τον αντίπαλο. 247 Παραδείγματα: Άπειρα επαναλαμβανόμενο ΔΦ Μια τελευταία παραλλαγή του παιχνιδιού ΔΦ είναι η άπειρη επανάληψη της απλής εκδοχής του. Σε αυτή την περίπτωση, όπως και σε όλα τα άπειρα παιχνίδια, θεωρείται ότι το όφελος για τον παίκτη i από την επανάληψη j, u ij, μειώνεται κατά τον παράγοντα δ j, όπου 0<δ<1. U i j u j0 Ο παράγοντας δ επιδέχεται διάφορες ερμηνείες, ανάλογα με το παιχνίδι, όπως πιθανότητα επανάληψης του παιχνιδιού, αποπληθωρισμό μελλοντικών κερδών κλπ. ij 248 124
Παράδειγμα: Δημοπρασίες ομολόγων Ανά τακτά χρονικά διαστήματα μια κυβέρνηση ανακοινώνει τη δημοπράτηση κρατικών ομολόγων. Πελάτες της κυβέρνησης είναι συνήθως οι τράπεζες. Κάθε ενδιαφερόμενο ίδρυμα υποβάλλει μια προσφορά αγοράς για συγκεκριμένη ποσότητα και τιμή. Το παιχνίδι είναι σαφώς επαναλαμβανόμενο. Μπορεί να θεωρηθεί πεπερασμένων γύρων, υπό την έννοια ότι τα στελέχη των τραπεζών που λαμβάνουν τις αποφάσεις ενδιαφέρονται για τον ισολογισμό του έτους, άρα το παιχνίδι ολοκληρώνεται με το τέλος του έτους. 249 Παράδειγμα: OPEC Στην αγορά πετρελαίου παίζεται ένα παιχνίδι μεταξύ των πετρελαιοπαραγωγών χωρών. Κάθε χώρα, ή ομάδα χωρών, αποφασίζει την ποσότητα που θα παράγει (π.χ. ανά μήνα) Το παιχνίδι είναι επαναλαμβανόμενο. Θα μελετηθεί ως απείρως επαναλαμβανόμενο, υπό την έννοια ότι δεν υπάρχει σαφής χρονικός ορίζοντας (π.χ. ανά έτος) που να προσδιορίζει τις αποφάσεις των διαφόρων παικτών. 250 125
Παρατήρηση Η διάκριση των επαναλαμβανόμενων παιχνιδιών σε πεπερασμένων και απείρων πολλές φορές είναι υποκειμενική. Ένα παιχνίδι πεπερασμένου, αλλά αρκετά μεγάλου, αριθμού γύρων μπορεί να μελετηθεί/εξηγηθεί καλύτερα ως άπειρο παιχνίδι. Από την άλλη, αν θεωρήσουμε ότι η ζωή του καθενός είναι πεπερασμένη, θα έπρεπε όλα τα παιχνίδια να μελετούνται ως πεπερασμένα. 251 Finitely repeated games Πεπερασμένα επαναλαμβανόμενα παιχνίδια 252 126
ΔΦ σε 2 γύρους Έστω το απλό ΔΦ με επανάληψη σε δύο γύρους. Το συνολικό όφελος (ποινή στην προκειμένη περίπτωση) για κάθε παίκτη είναι το άθροισμα του οφέλους σε κάθε γύρο. Στον δεύτερο γύρο, ο οποίος είναι και ο τελευταίος, κάθε παίκτης επιλέγει την καλύτερη για αυτόν κίνηση, δηλαδή να ομολογήσει, η οποία είναι το γνωστό σημείο ισορροπίας Nash του παιχνιδιού. Η απόφαση αυτή είναι ανεξάρτητη από το τι επέλεξαν οι παίκτες στον πρώτο γύρο! Με δεδομένο λοιπόν ότι η απόφαση του πρώτου γύρου δεν πρόκειται να επηρεάσει την απόφαση των παικτών στον δεύτερο γύρο, οι παίκτες επιλέγουν να ομολογήσουν και στον πρώτο γύρο! 253 Γενίκευση Το αποτέλεσμα για το ΔΦ σε 2 γύρους μπορεί να γενικευτεί και για το ΔΦ σε 3 γύρους: Η επιλογή των παικτών στους 2 τελευταίους γύρους είναι να ομολογήσουν, ανεξάρτητα από το τι προηγήθηκε στον πρώτο γύρο. Άρα στον πρώτο γύρο δεν έχουν καλύτερη επιλογή από το να ομολογήσουν επίσης. Το αποτέλεσμα γενικεύεται (θεωρητικά) και για οποιονδήποτε αριθμό επαναλήψεων. Πρόταση: Οποιοδήποτε επαναλαμβανόμενο παιχνίδι, για το οποίο το παιχνίδι γύρου έχει ένα μόνο σημείο ισορροπίας Nash, έχει επίσης ένα μόνο σημείο τέλειας ισορροπίας Nash υποπαιγνίων. 254 127
Στρατηγικές στα επαναλαμβανόμενα παιχνίδια Η έννοια της στρατηγικής στα επαναλαμβανόμενα παιχνίδια πρέπει να καλύπτει όλα τα πιθανά ενδεχόμενα του παιχνιδιού. Για παράδειγμα, στο ΔΦ σε 2 γύρους, κάθε παίκτης έχει να πάρει μια απόφαση για τον πρώτο γύρο και 1 απόφαση στον δεύτερο γύρο για κάθε μία από τις δύο πιθανές αποφάσεις του άλλου παίκτη στον πρώτο γύρο. Με δεδομένο ότι ο κάθε παίκτης έχει 2 βασικές στρατηγικές (Ο και ΔΟ) για το παιχνίδι γύρου, το σύνολο των στρατηγικών του για το παιχνίδι των 2 γύρων είναι 2 3 =8. Σε παιχνίδι ΔΦ τριών γύρων, το σύνολο των στρατηγικών κάθε παίκτη είναι 2 5 =32. 255 Τροποποιημένο ΔΦ (1/7) Β Α Ο ΜΟ ΔΟ Ο 5, 5 3, 7 0, 15 ΜΟ 7, 3 3, 3 2, 8 ΔΟ 15, 0 8, 2 1, 1 Υπάρχει μεγάλη διαφορά μεταξύ των επαναλαμβανόμενων παιχνιδιών όπου το παιχνίδι γύρου έχει ένα μόνο σημείο ισορροπίας και των παιχνιδιών όπου το παιχνίδι γύρου έχει περισσότερα σημεία ισορροπίας. Έστω ότι το ΤΔΦ παίζεται δύο φορές: Στην δεύτερη επανάληψη οι δύο παίκτες μπορεί να επιλέξουν (κατόπιν συνεννόησης) ένα από τα δύο σημεία ισορροπίας. Εφόσον επιλέξουν ένα από τα δύο σημεία, δεν έχουν λόγο να «εξαπατήσουν» ο ένας τον άλλο, γιατί δεν πρόκειται να κερδίσουν περισσότερο. Κάθε παίκτης μπορεί να επιλέξει την απόφασή του στον δεύτερο γύρο βάσει των κινήσεων που προηγήθηκαν στον πρώτο γύρο. 256 128
Τροποποιημένο ΔΦ (2/7) ΔΟ 15, 0 8, 2 1, 1 Έστω ότι οι δύο παίκτες συμφωνούν, πριν ξεκινήσει το παιχνίδι, στα εξής: Στον πρώτο γύρο θα επιλέξουν και οι δύο ΔΟ. Στον δεύτερο γύρο, εφόσον τηρήσουν την «υπόσχεσή» τους, θα επιλέξουν και οι δύο ΜΟ, ειδάλλως θα επιλέξουν και οι δύο Ο. Εάν και οι δύο παίκτες τηρήσουν τη συμφωνία τους, τότε η συνολική ποινή τους μετά την ολοκλήρωση των δύο γύρων θα είναι 1+3=4 για τον καθένα. Εάν κάποιος παίκτης, π.χ. ο Α, στον πρώτο γύρο επιλέξει Ο, τότε το τελικό αποτέλεσμα για τους δύο παίκτες θα είναι: Α: 0+5=5 Β: 15+5=20 Β Α Ο ΜΟ ΔΟ Ο 5, 5 3, 7 0, 15 ΜΟ 7, 3 3, 3 2, 8 Ο παραπάνω συνδυασμός στρατηγικών για τους δύο παίκτες αποτελεί σημείο τέλειας ισορροπίας Nash για υποπαίγνια. 257 Τροποποιημένο ΔΦ (3/7) Η στρατηγική: ΔΟ στον πρώτο γύρο και ΜΟ στον δεύτερο, ή Ο εφόσον δεν τηρηθεί η συμφωνία για τον πρώτο γύρο αποτελεί σημείο ισορροπίας μόνο όταν ισχύει: u Α (ΔΟ,ΔΟ)+u Α (ΜΟ,ΜΟ)<u Α (Ο,ΔΟ)+u Α (Ο,Ο) u Β (ΔΟ,ΔΟ)+u Β (ΜΟ,ΜΟ)<u Β (ΔΟ,Ο)+u Β (Ο,Ο) Β Α Ο ΜΟ ΔΟ Ο 5, 5 3, 7 0, 15 ΜΟ 7, 3 3, 3 2, 8 ΔΟ 15, 0 8, 2 1, 1 Δηλαδή, όταν κανέναν παίκτη δεν τον συμφέρει να αθετήσει μονομερώς τη συμφωνία! Παρατηρούμε επίσης ότι μια τέλεια ισορροπία υποπαιγνίου μπορεί να περιλαμβάνει για κάποιους γύρους συνδυασμούς στρατηγικών που δεν είναι σημεία ισορροπίας του απλού παιχνιδιού. Ένας παίκτης λοιπόν είναι διατεθειμένος να θυσιάσει βραχυπρόθεσμα οφέλη (εξαπατώντας τον άλλο παίκτη) προκειμένου να μην χάσει τα μακροπρόθεσμα. 258 129
Τροποποιημένο ΔΦ (4/7) Ο συνδυασμός στρατηγικών: Β Α Ο ΜΟ ΔΟ Ο 5, 5 3, 7 0, 15 ΜΟ 7, 3 3, 3 2, 8 ΔΟ 15, 0 8, 2 1, 1 Και οι δύο παίκτες επιλέγουν ΔΟ και στους δύο γύρους. Αν κάποιος παίκτης αθετήσει τη συμφωνία στον πρώτο γύρο, τότε οι δύο παίκτες επιλέγουν Ο στον δεύτερο γύρο. δεν είναι σημείο ισορροπίας, γιατί κάθε παίκτης μπορεί να αθετήσει τη συμφωνία στον τελευταίο γύρο, χωρίς να ζημιωθεί. ΠΡΟΣΟΧΗ: Το γεγονός ότι οι δύο παίκτες συνεργάζονται για να βρουν ένα συνδυασμό στρατηγικών, δεν σημαίνει ότι το παιχνίδι είναι παιχνίδι συνεργασίας. Πράγματι: Κάθε παίκτης ενδιαφέρεται για το προσωπικό του κέρδος μόνο. Κάθε παίκτης δεν αθετεί τη συμφωνία (εφόσον προκύψει μια τέτοια), επειδή δεν τον συμφέρει να το κάνει μονομερώς (και όχι επειδή «σέβεται» το λόγο του...). 259 Τροποποιημένο ΔΦ (5/7) Β Α Ο ΜΟ ΔΟ Ο 5, 5 3, 7 0, 15 ΜΟ 7, 3 3, 3 2, 8 ΔΟ 15, 0 8, 2 1, 1 Υπάρχουν και άλλα σημεία ισορροπίας για το παιχνίδι των δύο γύρων: Οι δυο παίκτες επιλέγουν (Ο,Ο) και στους δύο γύρους. Η συνολική ποινή των δύο παικτών σε αυτή την περίπτωση είναι 5+5=10. Οποιοσδήποτε παίκτης αθετήσει τη συμφωνία ζημιώνεται, προς όφελος του άλλου. Γενικά ισχύει το εξής: Ένα σημείο τέλειας ισορροπίας Nash υποπαιγνίων στα πεπερασμένα επαναλαμβανόμενα παιχνίδια είναι η επιλογή σε κάθε γύρο ενός σημείου ισορροπίας Nash (όχι απαραίτητα πάντα του ίδιου) του παιχνιδιού γύρου. 260 130
Τροποποιημένο ΔΦ (6/7) ΔΟ 15, 0 8, 2 1, 1 Έστω ότι το παιχνίδι επαναλαμβάνεται για Τ γύρους. Μια τέλεια ισορροπία υποπαιγνίων είναι η εξής: Οι παίκτες επιλέγουν σε όλους τους γύρους (ΔΟ, ΔΟ), εκτός από τον τελευταίο, όπου επιλέγουν (ΜΟ, ΜΟ). Εάν σε κάποιο γύρο η συμφωνία σπάσει, τότε οι παίκτες συνεχίζουν με (Ο,Ο) μέχρι τέλους. Η αναμενόμενη ποινή για κάθε παίκτη είναι: (Τ-1) 1+3=Τ+2 Εάν στον γύρο t<t κάποιος παίκτης, π.χ. ο Α, σπάσει τη συμφωνία επιλέγοντας να ομολογήσει, τότε η συνολική ποινή και για τους δύο παίκτες θα είναι: Α: (t-1) 1+0+(T-t) 5=5 T-4 t-1=t+4 (T-t)-1 > T+2 Β Α Ο ΜΟ ΔΟ Ο 5, 5 3, 7 0, 15 ΜΟ 7, 3 3, 3 2, 8 Β: (t-1) 1+15+(T-t) 5=5 T-4 t+14=t+4 (T-t)+14 > T+2 261 Τροποποιημένο ΔΦ (7/7) ΔΟ 15, 0 8, 2 1, 1 Υπάρχουν και παράξενες ισορροπίες υποπαιγνίων. Έστω η παρακάτω συμφωνία για παιχνίδι Τ γύρων: Οι παίκτες συμφωνούν στον πρώτο γύρο να επιλέξουν (Ο, ΔΟ) και σε όλους τους επόμενους γύρους (ΜΟ,ΜΟ). Εάν σε κάποιο γύρο η συμφωνία σπάσει, οι παίκτες συνεχίζουν με (Ο,Ο) μέχρι τέλους. Η συνολική ποινή των δύο παικτών από την παραπάνω συμφωνία είναι: Α: 0+3 (T-1)=3 (T-1), Β: 15+(Τ-1) 3 Έστω ότι ο Β σπάει τη συμφωνία εξαρχής, επιλέγοντας να ομολογήσει στον πρώτο γύρο. Οι ποινές τότε γίνονται: Α: Τ 5, Β: Τ 5 Β Α Ο ΜΟ ΔΟ Ο 5, 5 3, 7 0, 15 ΜΟ 7, 3 3, 3 2, 8 Σε περίπτωση που Τ 5> 15+(Τ-1) 3 ή ισοδύναμα Τ>6, δεν συμφέρει τον Β να σπάσει μονομερώς τη συμφωνία. 262 131
Παρατηρήσεις Παρατηρούμε ότι ένα επαναλαμβανόμενο παιχνίδι μπορεί να έχει πολλούς συνδυασμούς στρατηγικών που αποτελούν ισορροπία για ολόκληρο το παιχνίδι. Πολλοί μάλιστα συνδυασμοί φαίνονται παράλογοι. Εάν υπάρχει κάποιος συνδυασμός στρατηγικών που συμφέρει και τους δύο παίκτες, τότε μπορούν να τον επιλέξουν. Ειδάλλως οι παίκτες πρέπει να βρουν τρόπο να συμφωνήσουν σε έναν συνδυασμό στρατηγικών που ενδεχομένως να είναι περισσότερο ωφέλιμος για τον ένα από τους δύο. Ανάλογο είναι το παιχνίδι της μάχης των φύλων. Στην τελική απόφαση παίζει ρόλο η ισχύς του κάθε παίκτη. 263 Μελέτη περίπτωσης: Δημοπρασία ομολόγων (1/8) Έστω ότι η κεντρική τράπεζα εκδίδει κάθε φορά τον ίδιο αριθμό ομολόγων, έστω 100. Έστω ότι υπάρχουν δύο μόνο παίκτες, Α και Β. Κάθε παίκτης μπορεί να ζητήσει 50 ή 75 ομόλογα. Κάθε παίκτης μπορεί να προσφέρει μια χαμηλή (low) ή μια υψηλή τιμή για τα ομόλογα που ζητά. Σε περίπτωση που ο ένας παίκτης προσφέρει υψηλή τιμή ενώ ο άλλος χαμηλή, πρώτα ικανοποιείται πλήρως η ζήτηση του παίκτη που ζήτησε σε υψηλή τιμή. Σε περίπτωση που και οι δύο παίκτες προσφέρουν την ίδια τιμή, τα 100 ομόλογα μοιράζονται στους δύο παίκτες ανάλογα με την ποσότητα που ζήτησε ο καθένας τους. Για παράδειγμα, εάν ο ένας παίκτης ζήτησε 75 ομόλογα και ο άλλος 50, οι δύο παίκτες θα πάρουν από 60 και 40 αντίστοιχα. 264 132
Μελέτη περίπτωσης: Δημοπρασία ομολόγων (2/8) Θεωρούμε ότι οι παίκτες μπορούν και μεταπωλούν όλα τα ομόλογα που αγόρασαν από την κεντρική τράπεζα. Το κέρδος ανά ομόλογο εξαρτάται από την τιμή αγοράς και είναι u low και u high. Προφανώς ισχύει u low >u high. Η κεντρική τράπεζα έχει δύο τρόπους να καθορίσει την τιμή πώλησης: Μοναδική τιμή: Καθορίζεται ως κοινή τιμή πώλησης για όλους τους παίκτες η τιμή εκείνη στην οποία καλύπτεται ακριβώς όλη η ζήτηση. Πολλαπλές τιμές: Κάθε παίκτης αγοράζει στην τιμή στην οποία έκανε προσφορά, μέχρι τον παίκτη στον οποίο εξαντλούνται τα προς πώληση ομόλογα. Θα προσπαθήσουμε να απαντήσουμε στο ερώτημα: Ποια πολιτική από τις δυο παραπάνω συμφέρει περισσότερο την κεντρική τράπεζα. 265 Μελέτη περίπτωσης: Δημοπρασία ομολόγων (3/8) Έστω ο πίνακας μιας δημοπρασίας με μοναδική τιμή πώλησης: Β Α 50, high 75, high 50, low 75, low 50, high 50u h,50u h 40u h,60u h 50u l,50u l 50u l,50u l 75, high 60u h,40u h 50u h,50u h 75u l,25u l 75u l,25u l 50, low 50u l,50u l 25u l,75u l 50u l,50u l 40u l,60u l 75, low 50u l,50u l 25u l,75u l 60u l,40u l 50u l,50u l Από τον παραπάνω πίνακα φαίνεται ότι οι πολιτικές ζήτησης 50 ομολόγων κυριαρχούνται πλήρως από αυτές των 75 ομολόγων. Άρα οι εταιρείες επιλέγουν πάντα να ζητήσουν 75 ομόλογα. 266 133
Μελέτη περίπτωσης: Δημοπρασία ομολόγων (4/8) Έστω ο πίνακας μιας δημοπρασίας με πολλαπλές τιμές πώλησης: Β Α 50, high 75, high 50, low 75, low 50, high 50u h,50u h 40u h,60u h 50u h,50u l 50u h,50u l 75, high 60u h,40u h 50u h,50u h 75u h,25u l 75u h,25u l 50, low 50u l,50u h 25u l,75u h 50u l,50u l 40u l,60u l 75, low 50u l,50u h 25u l,75u h 60u l,40u l 50u l,50u l Και σε αυτή την περίπτωση φαίνεται ότι οι πολιτικές ζήτησης 50 ομολόγων κυριαρχούνται πλήρως από αυτές των 75 ομολόγων. Άρα σε όλες τις περιπτώσεις οι εταιρείες επιλέγουν να ζητήσουν 75 ομόλογα. 267 Μελέτη περίπτωσης: Δημοπρασία ομολόγων (5/8) Μπορούμε λοιπόν να απλοποιήσουμε τους πίνακες ως εξής: Μοναδική τιμή Β Α 75, high 75, low 75, high 50u h,50u h 75u l,25u l 75, low 25u l,75u l 50u l,50u l Πολλαπλές τιμές Β Α 75, high 75, low 75, high 50u h,50u h 75u h,25u l 75, low 25u l,75u h 50u l,50u l 268 134
Μελέτη περίπτωσης: Δημοπρασία ομολόγων (6/8) Έστω 50u h >25u l. Τότε στην περίπτωση της μοναδικής τιμής υπάρχει κυρίαρχη στρατηγική, η (high,high). Β Α 75, high 75, low 75, high 50u h,50u h 75u l,25u l 75, low 25u l,75u l 50u l,50u l Στην περίπτωση πολλαπλής τιμής όμως, υπάρχει μια δεύτερη ισορροπία, (low,low), εάν ισχύει 50u l >75u h. Β Α 75, high 75, low 75, high 50u h,50u h 75u h,25u l 75, low 25u l,75u h 50u l,50u l 269 100u h >50u l >75u h Μελέτη περίπτωσης: Δημοπρασία ομολόγων (7/8) Έστω 50u h <25u l. Τότε στην περίπτωση της μοναδικής τιμής υπάρχουν δύο σημεία καθαρής ισορροπίας, τα οποία οι δύο παίκτες μπορούν να επιλέγουν εναλλάξ. Β Α 75, high 75, low 75, high 50u h,50u h 75u l,25u l 75, low 25u l,75u l 50u l,50u l Στην περίπτωση πολλαπλής τιμής όμως, υπάρχει κυρίαρχη στρατηγική: Β Α 75, high 75, low 75, high 50u h,50u h 75u h,25u l 270 75, low 25u l,75u h 50u l,50u l 135
Μελέτη περίπτωσης: Δημοπρασία ομολόγων (8/8) Συμφέρει λοιπόν την κεντρική τράπεζα να επιλέγει τη στρατηγική της μοναδικής τιμής: Εάν ισχύει 50u h >25u l, τότε η στρατηγική μοναδικής τιμής έχει κυρίαρχη στρατηγική την (high, high), σε αντίθεση με την στρατηγική πολλαπλών τιμών, η οποία, υπό προϋποθέσεις, έχει δύο σημεία ισορροπίας Nash, με αποτέλεσμα να δίνει τη δυνατότητα στους παίκτες να συνεννοηθούν για χαμηλή τιμή. Εάν ισχύει 50u h <25u l,τότε και οι δύο στρατηγικές της τράπεζας δίνουν χαμηλή τιμή ως αποτέλεσμα. Το «παράξενο» εκ πρώτης όψεως γεγονός έχει την εξήγηση ότι η μέθοδος των πολλαπλών τιμών αποθαρρύνει γενικά τους παίκτες να προσφέρουν υψηλά ποσά. 271 Infinitely repeated games Απείρως επαναλαμβανόμενα παιχνίδια 272 136
Γενικά (1/2) Όταν ένα παιχνίδι επαναλαμβάνεται άπειρες φορές, δεν μπορούμε να θεωρήσουμε ως συνολικό όφελος το άθροισμα για τα επί μέρους παιχνίδια. Υπάρχουν διάφοροι τρόποι αντιμετώπισης των απειροαθροισμάτων, όπως: Μέσος όρος Προεξόφληση μελλοντικών αποδόσεων Θα χρησιμοποιήσουμε την τελευταία μέθοδο, σύμφωνα με την οποία: Υπάρχει ένας παράγοντας προεξόφλησης (discount factor) δ<1. Η σημερινή αξία μιας απόδοσης u t τη χρονική στιγμή t είναι δ t u t. Αν θεωρήσουμε σταθερή μέση απόδοση u σε κάθε χρονική στιγμή, η συνολική απόδοση του παιχνιδιού είναι: t t u u u u 273 t0 t0 1 Γενικά (2/2) Ο παράγοντας προεξόφλησης μπορεί να ερμηνευτεί με πολλούς τρόπους: Εάν το όφελος είναι χρηματικές αποδόσεις, τότε ο παράγοντας προεξόφλησης μπορεί να θεωρηθεί ότι σχετίζεται με το επιτόκιο της τράπεζας. Εάν δεν είναι γνωστό το πλήθος των επαναλήψεων του παιχνιδιού, ο παράγοντας προεξόφλησης είναι η πιθανότητα που δίνουμε κάθε φορά στο να υπάρξει ακόμη μια επανάληψη. Γενικότερα ένας παίκτης προτιμά μια άμεση απόδοση έναντι μιας μελλοντικής απόδοσης. 274 137
Στρατηγική ενεργοποίησης (1/5) Έστω το παιχνίδι ΔΦ (στην απλή του μορφή, με αποδόσεις τέτοιες ώστε μεγαλύτεροι αριθμοί να είναι καλύτεροι) το οποίο παίζεται απείρως επαναλαμβανόμενα. Έστω το παρακάτω ζεύγος στρατηγικών: Οι παίκτες συμφωνούν να παίξουν (ΔΟ, ΔΟ) για πάντα. Εάν όμως κάποιος παίκτης ομολογήσει, στο εξής και οι δύο θα επιλέγουν Ο για πάντα. Η παραπάνω στρατηγική (κοινή και για τους δύο παίκτες) ονομάζεται στρατηγική ενεργοποίησης (trigger strategy). Η στρατηγική χωρίζεται σε δύο μέρη: Στο μέρος πρώτο, όπου κανείς παίκτης δεν ομολογεί, κάθε παίκτης ενδεχομένως θα είχε την τάση να ομολογήσει. Στο δεύτερο μέρος, όπου και οι δύο παίκτες ομολογούν, κανείς παίκτης δεν έχει την τάση (από μόνος του) να μην-ομολογήσει. 275 Στρατηγική ενεργοποίησης (2/5) Β Α Ο ΔΟ Ο 10, 10 15, 0 ΔΟ 0, 15 14 14 Έστω ότι ύστερα από t-1 γύρους, όπου οι δύο παίκτες τήρησαν τη συμφωνία, είμαστε στην επανάληψη t. Έστω ότι ένας παίκτης, π.χ. ο Α, σκέφτεται να ομολογήσει. Το γεγονός ότι έχουν προηγηθεί t-1 γύροι δεν αλλάζει ουσιαστικά σε τίποτα τη συμπεριφορά των παικτών στον t-1 γύρο. Το παιχνίδι που ξεκινά στον t γύρο είναι ίδιο με αυτό που ξεκίνησε στον πρώτο γύρο, εφόσον οι παίκτες τηρούν τη συμφωνία. Το άμεσο όφελός του θα είναι δ t 15 (αντί για δ t 14 αν τηρούσε τη συμφωνία). Το όφελός του από τους επόμενους γύρους θα είναι: t 1 1 10 1 Προσοχή: Μεγαλύτερες αποδόσεις θεωρούνται 276 καλύτερες. 138
Στρατηγική ενεργοποίησης (3/5) Β Α Ο ΔΟ Ο 10, 10 15, 0 ΔΟ 0, 15 14 14 Εάν δεν έσπαγε τη συμφωνία, τότε το όφελός του για τους επόμενους (άπειρους) γύρους θα ήταν: t 1 14 1 Θα συνέφερε τον Α να σπάσει τη συμφωνία, εάν ίσχυε: t 1 t t 14 15 1 ή 1 5 1 1 10 1 277 Στρατηγική ενεργοποίησης (4/5) Β Α Ο ΔΟ Ο 10, 10 15, 0 ΔΟ 0, 15 14 14 Άρα, για δ>1/5 δεν συμφέρει κανέναν παίκτη να σπάσει τη συμφωνία. Σε αυτή την περίπτωση, η στρατηγική ενεργοποίησης είναι σημείο ισορροπίας, αφού κανείς παίκτης δεν τολμά να την αλλάξει μεμονωμένα! Γενικότερα, η στρατηγική ενεργοποίησης επιβραβεύει την καλή συμπεριφορά ή, ισοδύναμα, τιμωρεί την κακή συμπεριφορά, όταν ο παράγοντας προεξόφλησης τείνει στη μονάδα, όσο δηλαδή αυξάνει η βαρύτητα του μέλλοντος. Αντίστοιχη συμπεριφορά δεν υπάρχει στα πεπερασμένα παιχνίδια, γιατί το μέλλον είναι πεπερασμένο. 278 139
Στρατηγική ενεργοποίησης (5/5) Β Α Ο ΔΟ Ο 10, 10 15, 0 ΔΟ 0, 15 14 14 Η στρατηγική ενεργοποίησης που είδαμε δεν είναι η μοναδική. Μια παραλλαγή της θα μπορούσε να είναι η εξής: Αρχικά οι παίκτες παίζουν εναλλάξ (Ο,ΔΟ) και (ΔΟ,Ο). Εάν κάποια στιγμή ένας παίκτης αθετήσει τη συμφωνία, στη συνέχεια και οι δύο παίκτες παίζουν (Ο,Ο) για πάντα. Η παραπάνω στρατηγική βέβαια δεν αποτελεί σημείο ισορροπίας Nash, μιας και οι παίκτες κερδίζουν κατά μέσο όρο 7.5 ανά γύρο, λιγότερο από ότι κερδίζουν στο σημείο ισορροπίας Nash. Ανάλογα με τις επιμέρους αποδόσεις του παιχνιδιού γύρου, κάποια εκ των δύο στρατηγικών ενεργοποίησης που είδαμε (στην προκειμένη περίπτωση η πρώτη) έχει καλύτερη συνολική απόδοση. 279 Επιεικής στρατηγική Β Α Ο ΔΟ Ο 10, 10 15, 0 ΔΟ 0, 15 14 14 Η επιεικής στρατηγική είναι παραλλαγή της στρατηγικής ενεργοποίησης: Η «τιμωρία» λήγει μετά από κάποιον αριθμό γύρων. Οι παίκτες συμφωνούν να παίξουν (ΔΟ, ΔΟ) για πάντα. Εάν όμως κάποιος παίκτης ομολογήσει, ο άλλος παίκτης επιλέξει Ο για τους επόμενους Τ γύρους. Για να αποτελεί η παραπάνω στρατηγική σημείο ισορροπίας, πρέπει να επιλέξουμε το Τ με τέτοιο τρόπο ώστε κανέναν παίκτη να μην τον συμφέρει να αθετήσει τη συμφωνία. Μετά από (αρκετές...) πράξεις βρίσκεται η αναγκαία συνθήκη για να αποτελεί η παραπάνω στρατηγική σημείο ισορροπίας. 280 140
Το κοινό θεώρημα (1/2) Το ερώτημα που τίθεται για τα απείρως επαναλαμβανόμενα παιχνίδια είναι το εξής: Πόσοι (και ποιοι) είναι εκείνοι οι συνδυασμοί στρατηγικών που οδηγούν σε ισορροπία; Η απάντηση είναι: Πάρα πολλοί. Θα αποδείξουμε για το ΔΦ. Ορίζουμε ως κύκλο συμπεριφοράς μια ακολουθία γύρων, όπου οι δύο παίκτες για Τ 1 γύρους επιλέγουν (ΔΟ, ΔΟ), στη συνέχεια για Τ 2 γύρους επιλέγουν (Ο,Ο), στη συνέχεια για Τ 3 γύρους επιλέγουν (Ο,ΔΟ) και τέλος για Τ 4 γύρους επιλέγουν (Ο,ΔΟ). Πρέπει να ισχύει T=Τ 1 +Τ 2 +Τ 3 +Τ 4 >0 281 Το κοινό θεώρημα (2/2) Ένας κύκλος συμπεριφοράς χαρακτηρίζεται ατομικά λογικός (individually rational) εάν το όφελος για κάθε έναν από τους δύο παίκτες για όλο τον κύκλο είναι μεγαλύτερο ή ίσο από ό,τι αν επέλεγαν συνέχεια (Ο,Ο). Το κοινό θεώρημα (folk theorem): Από κάθε ατομικά λογικό κύκλο μπορεί να κατασκευαστεί μια τέλεια ισορροπία υποπαιγνίου, εάν συνδυάσουμε τον κύκλο με την στρατηγική ενεργοποίησης και έναν συντελεστή προεξόφλησης κοντά στη μονάδα. Φυσικά ο συντελεστής προεξόφλησης είναι μια «φυσική σταθερά» του προβλήματος και δεν είναι στο χέρι μας να τον επηρεάσουμε. Όσο πιο κοντά στη μονάδα είναι ο συντελεστής προεξόφλησης, τόσο περισσότερους συνδυασμούς στρατηγικών που να αποτελούν ισορροπία μπορούμε να κατασκευάσουμε. Αν λάβουμε υπόψη και την επιεική στρατηγική, οι συνδυασμοί μπορεί να γίνουν άπειροι. 282 141
National Association of Securities Dealers Automated Quotation system www.nasdaq.com Μελέτη περίπτωσης: NASDAQ 283 Γενικά (1/2) Η χρηματιστηριακή αγορά του NASDAQ διαφέρει από άλλες αγορές ως προς τη λειτουργία της: Είναι ηλεκτρονική. Σε αντίθεση με το NYSE, όπου κάθε μετοχή έχει έναν διαπραγματευτή (market maker, dealer), στον NASDAQ κάθε μετοχή έχει πολλούς διαπραγματευτές (από 10 μέχρι 50, ανάλογα με τη μετοχή). Στον NYSE οι διαπραγματευτές απλά δέχονται εντολές αγοράς και πώλησης για συγκεκριμένες ποσότητες και τιμές, και απλά εκκαθαρίζουν την αγορά της μετοχής. Στον NASDAQ οι διαπραγματευτές θέτουν οι ίδιοι τις τιμές αγοράς και πώλησης. Οι πελάτες δεν έχουν δικαίωμα καθορισμού τιμής, παρά μόνο να αγοράσουν στην τιμή που καθορίζουν οι διαπραγματευτές. Επιτρεπτές τιμές για τους διαπραγματευτές είναι τα πολλαπλάσια του 1/8$. 284 142
Γενικά (2/2) Προφανώς η τιμή αγοράς για τους πελάτες (ask price) είναι μεγαλύτερη από την τιμή πώλησης για τους πελάτες (bid price). Η διαφορά των δύο τιμών ονομάζεται άνοιγμα (spread). Οι πελάτες αγοράζουν πάντα στην μικρότερη τιμή αγοράς και πωλούν πάντα στη μεγαλύτερη τιμή πώλησης. Οι διαπραγματευτές ανταγωνίζονται μεταξύ τους, και όχι με τους πελάτες. Η κατάσταση αυτή ίσχυε μέχρι το 1996. 285 Επικρίσεις (1/4) Το 1994, οι ακαδημαϊκοί William Christie και Paul Schultz δημοσίευσαν την παρακάτω εργασία: Why do NASDAQ Market-Makers Avoid Odd-Eighth Quotes, Journal of Finance, vol. 49, pp. 1813-1840. Στην εργασία κατηγορούσαν τους διαπραγματευτές ότι σκοπίμως απέφευγαν να χρησιμοποιούν ως τιμές αγοράς/πώλησης τιμές που είναι περιττά πολλαπλάσια του 1/8. Η επιμονή τους να χρησιμοποιούν ως τιμές μόνο τα άρτια πολλαπλάσια του 1/8 είχε ως αποτέλεσμα να υπάρχει άνοιγμα τουλάχιστον ¼ $ για τις μετοχές και σε πολλές περιπτώσεις ½ $. Χαρακτηριστικά, βρήκαν ότι 10% των μετοχών είχε άνοιγμα 1/8$, 39% είχε ¼$, 5% είχε 3/8$ και 33% είχε ½$. Έτσι οι επενδυτές επιβαρύνονταν περισσότερο ενώ οι διαπραγματευτές αύξαναν τα κέρδη τους. 286 143
Επικρίσεις (2/4) Οι συγκεκριμένοι ακαδημαϊκοί κατηγόρησαν τους διαπραγματευτές για συνωμοτική (collusive) τακτική. Κατηγόρησαν ακόμη το NASDAQ ότι ευνοούσε την τιμωρία όσων διαπραγματευτών παρέβαιναν τη συμφωνία. Φυσικά, οι συγγραφείς επεσήμαναν τον κίνδυνο της σταδιακής απομάκρυνσης των επενδυτών από την αγορά, εάν διαπιστώσουν ότι υπερχρεώνονται. Μερικούς μήνες αργότερα οι συγγραφείς (μαζί και με τον Jeffrey Harris) δημοσίευσαν μια ακόμη εργασία με τίτλο: Why Did NASDAQ Market Makers Stop Avoiding Odd-Eighth Quotes?, Journal of Finance, vol. 49, pp. 1841-1860. 287 Επικρίσεις (3/4) Τα ποσά που προκύπτουν από την παραπάνω υπερχρέωση μπορεί να είναι τεράστια. Στο NASDAQ διακινούνταν 650 εκατομμύρια μετοχές ημερησίως. Μια επιπλέον χρέωση 1/8$ είχε ως αποτέλεσμα συνολική χρέωση (και άρα κέρδη για τις εταιρείες) 80 εκατομμύρια δολάρια. 288 144
Επικρίσεις (4/4) Η αντίδραση του NASDAQ ήταν να συστήσει μια εντυπωσιακή επιτροπή ακαδημαϊκών η οποία κλήθηκε να μελετήσει το φαινόμενο. Η επιτροπή κατέληξε στο ότι δεν είναι δυνατόν να προκύψει συνωμοσία για τους ακόλουθους λόγους: Ο αριθμός των διαπραγματευτών είναι μεγάλος. Εάν δεν ήταν μεγάλος ο αριθμός των διαπραγματευτών, θα μεγάλωνε μιας και νέοι διαπραγματευτές θα εισέρχονταν στην αγορά. Πράγματι, για να γίνει κάποιος διαπραγματευτής στον NASDAQ χρειάζεται κεφάλαιο 10.000$ (σε αντίθεση με τον NYSE όπου χρειάζεται περίπου 300.000$). 289 Μοντέλο (1/3) Το παιχνίδι γύρου είναι η ταυτόχρονη αποστολή μιας τιμής αγοράς (ask price) και μιας τιμής πώλησης (bid price) από κάθε διαπραγματευτή. Η αποστολή αυτή γίνεται κάθε ώρα. Έστω Ν οι διαπραγματευτές για μια συγκεκριμένη μετοχή και a i και b i αντίστοιχα η τιμή αγοράς και πώλησης του καθενός. Η καλύτερη τιμή αγοράς είναι η μικρότερη: a=min i a i Η καλύτερη τιμή πώλησης είναι η μεγαλύτερη: b=max i b i Το άνοιγμα (spread) ισούται με a-b. Οι τιμές a και b λέγονται επίσης και έσω τιμή αγοράς (inside ask) και έσω τιμή πώλησης (inside bid) αντίστοιχα. 290 145
Μοντέλο (2/3) Έστω v η πραγματική αξία μιας μετοχής. Δεν μας ενδιαφέρει ο τρόπος με τον οποίο μπορεί αυτή να εκτιμηθεί. Ας υποθέσουμε ότι η καμπύλη ζήτησης, για την τιμή αγοράς a είναι: D(a)=120-40a και η καμπύλη προσφοράς για πώληση στην τιμή b είναι: S(b)=-80+40b Θεωρούμε ότι τα a και b είναι σε δολάρια, ενώ τα D(a), S(b) σε 10.000 μετοχές. Το συνολικό κέρδος (για όλους τους διαπραγματευτές) σε μια χρονική περίοδο προκύπτει από τις αγοροπωλησίες σε σχέση με την πραγματική αξία της μετοχής και είναι: U=(a-v)D(a)+(v-b)S(b) 291 Μοντέλο (3/3) Η πραγματική αξία της μετοχής είναι αυτή για την οποία εξισώνονται η προσφορά και η ζήτηση: D(a)=S(b) 120-40v=-80+40v 200=80v v=2.5$ Για την τιμή αυτή, η προσφορά και η ζήτηση γίνονται: D(a)=S(b)=20 (x10.000) μετοχές ανά ώρα. Είναι προφανές ότι θέτοντας a i =b i =v=2.5$ έχουμε ένα σημείο ισορροπίας (για κάθε γύρο ξεχωριστά αλλά και για το σύνολό τους). Στο σημείο αυτό προφανώς το κέρδος των διαπραγματευτών είναι μηδενικό, άρα έχουν κάθε λόγο να προσπαθήσουν να την αποφύγουν. Η ισορροπία αυτή μπορεί να λειτουργήσει ως απειλή τιμωρίας ώστε όλοι οι διαπραγματευτές να τηρήσουν την όποια 292 συμφωνία κάνουν στο απείρως επαναλαμβανόμενο παιχνίδι της διαπραγμάτευσης της μετοχής. 146
Στρατηγική ενεργοποίησης (1/3) Εάν οι διαπραγματευτές αποφασίσουν να συνεργαστούν πλήρως για να μεγιστοποιήσουν τα συνολικά τους κέρδη, τότε θα προσπαθήσουν να μεγιστοποιήσουν την παρακάτω ποσότητα: U=Max a (120-40a) (a-2.5)+max b (-80+40b) (2.5-b) Μετά από μερικές πράξεις βρίσκεται ότι a*=2.75$ και b*=2.25$. Άρα το ιδανικό άνοιγμα είναι 0.5$ ή 4*1/8$. Με τις παραπάνω τιμές, στο τέλος κάθε γύρου οι διαπραγματευτές κερδίζουν συνολικά 50.000$. Κάθε ένας από αυτούς κερδίζει 50.000/Ν. 293 Στρατηγική ενεργοποίησης (2/3) Έστω ότι κάποιος από τους διαπραγματευτές αθετεί τη συμφωνία και ανακοινώνει τιμές b=2.375 και a=2.625. Το συνολικό κέρδος του επόμενου γύρου θα είναι: (120-40a) (a-2.5)+ (-80+40b) (2.5-b)=37.500$ Το όφελος αυτό θα το πάρει όλο ο παίκτης που αθέτησε τη συμφωνία. Στη συνέχεια όμως όλοι οι παίκτες θα οδηγηθούν στην ισορροπία Nash, με μηδενικό κέρδος πλέον. Για να συμφέρει λοιπόν έναν παίκτη να αθετήσει τη συμφωνία θα πρέπει να ισχύει: 50.000 37.500 ή ισοδύναμα N(1 ) N(1 ) 4 3 294 147
Στρατηγική ενεργοποίησης (3/3) Από την αναγκαία συνθήκη για διατήρηση της συμφωνίας Ν(1-δ)<4/3 προκύπτει ότι: Όσο περισσότεροι είναι οι παίκτες, τόσο δυσκολότερο είναι να διατηρηθεί η συμφωνία. Το μέγιστο πλήθος των παικτών εξαρτάται από το δ. Τίθεται λοιπόν το θέμα ποια είναι η τιμή του δ! Εάν το δ εκφράζει την πιθανότητα να συνεχίσει το παιχνίδι, τότε δ=1 (είναι σχεδόν απίθανο να σταματήσει το παιχνίδι). Εάν το δ εκφράζει την τωρινή αξία εσόδων που θα έρθουν σε μια ώρα, τότε και πάλι το δ είναι σχεδόν 1. Ακόμη και για 50 διαπραγματευτές ανά μετοχή, η συμφωνία θα μπορούσε να διατηρηθεί εάν ίσχυε δ>0.973 (κάτι που είναι πολύ πιθανό). Από την άλλη, για 20 παίκτες και δ=0.999 προκύπτουν ετήσια έσοδα για κάθε παίκτη περίπου 2.500.000$. 295 Ηπιότερες στρατηγικές (1/2) Μια εναλλακτική, πιο ήπια στρατηγική για όλους τους παίκτες θα μπορούσε να είναι η εξής: Αρχικά όλοι επιλέγουν a i =2,75 και b i =2,25. Εάν κάποιος παίκτης αθετήσει τη συμφωνία, τότε όλοι μεταβαίνουν στις τιμές a i =2,625 και b i =2,375$. Η παραπάνω στρατηγική αποτελεί σημείο ισορροπίας. Αν εκτελέσουμε παρόμοια ανάλυση καταλήγουμε ότι η παραπάνω απειλή είναι πειστική εάν ισχύει: 50.000 37.500 37.500 N(1 ) N(1 ) ή ισοδύναμα N(1 ) 4 3 1 3 296 148
Ηπιότερες στρατηγικές (2/2) Όπως ήταν αναμενόμενο, τώρα είναι δυσκολότερο να διατηρηθεί η συμφωνία. Ωστόσο και πάλι η συμφωνία μπορεί να τηρηθεί από αρκετά περισσότερους παίκτες. Για παράδειγμα, για Ν=11 προκύπτει δ>0.97. Για δ=0.99, προκύπτει ότι Ν<33. Φυσικά υπάρχουν ακόμη πιο ήπιες στρατηγικές, όπως περιορισμένη χρονικά τιμωρία, οι οποίες όμως τελικά μπορούν να διατηρηθούν από ακόμη λιγότερους παίκτες. 297 Παρατήρηση Στην ανάλυση που προηγήθηκε, όταν ένας διαπραγματευτής αθετεί τη συμφωνία, υποφέρουν όλοι. Βέβαια δεν θα μπορούσαν να κάνουν αλλιώς, γιατί τότε ο «κακός» διαπραγματευτής θα συνέχιζε να αθετεί τη συμφωνία προς όφελός του. Οι διαπραγματευτές θα προτιμούσαν να τιμωρηθεί μόνο αυτός που αθέτησε την συμφωνία, π.χ. εξωθώντας τον σε έξοδο από την αγορά. Μια τέτοια τακτική ισοδυναμεί με στρατηγική ενεργοποίησης και απαιτεί ειδικές συνθήκες. Ωστόσο, η ανάλυση που προηγήθηκε ισχύει πλήρως για όποιον σκέφτεται να αθετήσει τη συμφωνία. 298 149
Προτίμηση εντολών (1/2) Οι πολίτες που επιθυμούν να αγοράσουν/πουλήσουν μετοχές δεν απευθύνονται απευθείας στους διαπραγματευτές αλλά στους διαμεσολαβητές (brokers). Ένας διαμεσολαβητής δέχεται εντολές αγοράς/πώλησης από τους πελάτες του και τις προωθεί στους διαπραγματευτές. Το NASDAQ επέτρεπε στους διαμεσολαβητές να προωθήσουν τις εντολές όχι μόνο στον διαπραγματευτή που έχει τις «καλύτερες» τιμές, αλλά σε οποιονδήποτε από τους διαπραγματευτές. Για παράδειγμα, έστω ότι ο διαπραγματευτής Α δίνει τιμή αγοράς 2,625$ και ο Β 2,75$. Ένας διαμεσολαβητής μπορεί να προωθήσει μια εντολή αγοράς στον Β και ο Β να την εκτελέσει προς 2,625$. Το γεγονός αυτό ονομάζεται προτίμηση των εντολών (order preferencing). 299 Προτίμηση εντολών (2/2) Το αποτέλεσμα είναι το εξής: Ένας διαπραγματευτής που έχει τις καλύτερες τιμές, δεν απορροφά κατ ανάγκη και τον μεγαλύτερο όγκο συναλλαγών. Είναι δυνατόν μάλιστα να τιμωρηθεί μη-λαμβάνοντας καθόλου εντολές! Ακόμη και αν δεν συνωμοτήσουν οι διαμεσολαβητές με τους υπόλοιπους διαπραγματευτές, αυτό το οποίο θα συμβεί είναι το εξής: Ο διαπραγματευτής που αθέτησε τη συμφωνία βελτιώνοντας τις τιμές, στον επόμενο γύρο θα λάβει το ίδιο μερίδιο της αγοράς που λάμβανε πριν τις βελτιώσει, με μικρότερο όμως τώρα κέρδος (λόγω μικρότερου ανοίγματος τιμών). Φυσικά το ίδιο θα πάθουν και οι υπόλοιποι. Άρα δεν έχει κανέναν απολύτως λόγο να αθετήσει τη συμφωνία! 300 150
Μεγάλοι και μικροί διαπραγματευτές (1/2) Ας υποθέσουμε ότι στην αγορά υπάρχουν Ν μεγάλοι και Μ μικροί διαπραγματευτές και ότι, μέσω της προτίμησης των εντολών, οι μεγάλοι απολαμβάνουν διπλάσια εισροή από τους μικρούς. 250.000 Κέρδημεγάλων (2 N M )(1 ) 50.000 Κέρδημικρών (2 N M )(1 ) Θεωρώντας μια στρατηγική ενεργοποίησης, για να αθετήσει ένας διαπραγματευτής τη συμφωνία πρέπει να ισχύει: 250.000 37.500 ή (2 N M )(1 ) 50.000 37.500 (2 N M )(1 ) 301 Μεγάλοι και μικροί διαπραγματευτές (2/2) Οι μικροί διαπραγματευτές είναι ο αδύναμος κρίκος της όποιας συμφωνίας. Εάν τηρήσουν τη συμφωνία, κερδίζουν πολύ λιγότερα από τους μεγάλους. Εάν σπάσουν τη συμφωνία, ελαχιστοποιούν τα μελλοντικά τους έσοδα. Τα πράγματα είναι ακόμη χειρότερα εάν θεωρήσουμε ότι ο λόγος απορρόφησης εντολών των μεγάλων έναντι των μικρών διαπραγματευτών είναι πολύ μεγαλύτερος από 2. Αυτή είναι μια εξήγηση γιατί δεν παρατηρείται είσοδος νέων παικτών στην αγορά. Η ίδια εξήγηση ισχύει και για πολλές άλλες αγορές, όχι κατ ανάγκη χρηματιστηριακές. 302 151
Επίλογος Μετά την δημοσιότητα που πήρε το θέμα το 1994, ακολούθησε δικαστική έρευνα, η οποία αποφάνθηκε ότι όντως υπήρχε συνεννόηση μεταξύ των διαπραγματευτών. Το αποτέλεσμα της δικαστικής έρευνας βασίστηκε όχι στην ανάλυση που προηγήθηκε, αλλά στο γεγονός ότι υπήρχαν αποδεικτικά στοιχεία (κασέτες) που να στοιχειοθετούν την κατηγορία. Το αποτέλεσμα ήταν να πιεστεί το NASDAQ να λάβει μέτρα ώστε να κάνει δυσκολότερη την επίτευξη τέτοιων συμφωνιών στο μέλλον. Το ποιο σημαντικό μέτρο που πάρθηκε (1997) τότε ήταν ότι οι εντολές που καταθέτουν οι πελάτες έχουν συγκεκριμένη τιμή και ότι αυτές γίνονται δεκτές μόνο από όσους διαπραγματευτές διαθέτουν τις τιμές. 303 Organization of Petroleum Exporting Countries Μελέτη περίπτωσης: OPEC 304 152
Ιστορικά στοιχεία (1/3) Στο πρώτο μισό του 20ου αιώνα, οι κύριοι παραγωγοί πετρελαίου ήταν οι ΗΠΑ, η Βενεζουέλα και λίγο αργότερα η Σοβιετική Ένωση. Πετρέλαιο ανακαλύφθηκε στις χώρες του κόλπου μόλις στη δεκαετία του 50. Την ίδια περίοδο, πολλές μη-δυτικές χώρες είχαν εκχωρήσει τα δικαιώματα εκμετάλλευσης των κοιτασμάτων τους σε δυτικές εταιρείες (Αγγλικές, Γαλλικές, Αμερικάνικες κλπ). Anglo-Persian Oil company Arabian-American Oil Company (ARAMCO) Οι περισσότερες από αυτές τις συμφωνίες εκχώρησης τερματίστηκαν στις δεκαετίες του 40 και του 50. 305 Ιστορικά στοιχεία (2/3) Τα σημαντικά γεγονότα που συνέβησαν την περίοδο κατά και μετά τον 2ο παγκόσμιο πόλεμο ήταν τα εξής: Ανακαλύφθηκαν μεγάλα κοιτάσματα στη Μέση Ανατολή. Αυξήθηκε η παραγωγή του Ιράν και του Ιράκ. Η βιομηχανική έκρηξη στις ΗΠΑ, αμέσως μετά τον πόλεμο. Η ΗΠΑ μετατράπηκαν από καθαρά εξαγωγική χώρα σε κυρίως εισαγωγική. Το 1970, 60% των αναγκών τους καλύπτονταν από εισαγωγές. Στα μέσα της δεκαετίας του 60, η Μέση Ανατολή είχε γίνει η κύρια περιοχή παραγωγής πετρελαίου παγκοσμίως. 306 153
Ιστορικά στοιχεία (3/3) Μπορούμε να διαχωρίσουμε την ιστορία των τιμών του πετρελαίου σε 4 φάσεις: Φάση 1, μέχρι το 1960: Οι τιμές ήταν χαμηλές και σταθερές. Για παράδειγμα, το βαρέλι κόστιζε 1,25$ το 1950 και 1,75$ το 1960. Φάση 2, 1960 μέχρι Οκτώβριο 1973: Οι τιμές ήταν χαμηλές, με ανοδικές όμως τάσεις.έφτασαν στα μέσα του 1973 τα 5$. Φάση 3, Οκτώβριος 1973 έως 1979: Οι τιμές ήταν υψηλές και σταθερές. Μόνο τους τελευταίους μήνες του 1973 η τιμή ανέβηκε στα 17$ και παρέμεινε σε αυτά τα επίπεδα μέχρι τα τέλη της δεκαετίας. Φάση 4, 1980 και μετά: Οι τιμές χαμήλωσαν και ήταν ασταθείς. Για παράδειγμα, το 1982 είχαμε 30$ και στις αρχές του 1990 μόλις 10$. Στη δεκαετία του 1990 οι τιμές κυμαίνονται γύρω στα 25$ το βαρέλι. 307 Η ίδρυση του OPEC Θα μελετήσουμε την ιστορία του OPEC, χρησιμοποιώντας ως εργαλείο τα απείρως επαναλαμβανόμενα παιχνίδια. Ο OPEC ιδρύθηκε τον Σεπτέμβριο του 1960, ύστερα από δεκαετείς διεργασίες και επίμονες πιέσεις της Σαουδικής Αραβίας, του Ιράν και της Βενεζουέλας. Περιλαμβάνει 13 χώρες: Χώρες του Κόλπου, Αφρικανικές χώρες (Λιβύη, Νιγηρία), Ασιατικές χώρες (π.χ. Ινδονησία). Δεν περιλαμβάνει δυτικές χώρες και χώρες της πρώην Σοβιετικής Ένωσης. 308 154
Μοντέλο (1/4) Η παγκόσμια αγορά πετρελαίου έχει τη μορφή μιας αγοράς Cournot: Οι παραγωγοί αποφασίζουν ανά τακτά χρονικά διαστήματα (π.χ. κάθε μήνα) ποια ποσότητα θα παράγουν στο προσεχές μέλλον. Η συνολική διαθεσιμότητα πετρελαίου, σε συνδυασμό με τη παγκόσμια ζήτηση καθορίζουν την τιμή. Οι συναλλαγές γίνονται κυρίως μέσω των: International Petroleum Exchange (IPE), με έδρα το Λονδίνο (www.ipe.uk.com) New York Mercantile Exchange (NYMEX), με έδρα τη Νέα Υόρκη (www.nymex.com) Ο OPEC καθορίζει αναλογίες παραγωγής για τις χώρες-μέλη του, με στόχο να αυξήσει τα συνολικά κέρδη τους. 309 Μοντέλο (2/4) Θα θεωρήσουμε ότι ο OPEC αποτελείται από δύο μόνο χώρες, την Σαουδική Αραβία (SA) και την Βενεζουέλα (VA). Η SA είναι μια από τις μεγαλύτερες χώρες του OPEC, ενώ η VA από τις μικρές, αναφορικά με την παραγωγή τους. Θεωρούμε ότι κάθε χώρα έχει δύο επίπεδα παραγωγής, το υψηλό (H) και το χαμηλό (L). Θα συμβολίζουμε με Q τις ποσότητες παραγωγής της SA και με q τις αντίστοιχες ποσότητες της VA. Έστω ότι η αντιστοιχία των επιπέδων αυτών είναι: Q H =10 mbd (million barrels per day) Q L =8 mbd q H =7 mbd q L =5 mbd Οι συνδυασμοί των παραπάνω επιμέρους παραγωγών οδηγούν σε τρεις περιπτώσεις συνολικής παραγωγής 17mbd, 15mbd και 13mbd. 310 155
Μοντέλο (3/4) Όσον αφορά τη ζήτηση, έστω ότι υπάρχουν δύο επίπεδα: Υψηλό επίπεδο ζήτησης: P=44,5-1,5 (Q+q) Χαμηλό επίπεδο ζήτησης: P=22,5-0,5 (Q+q) Οι τιμές βαρελιού για τους τρεις συνδυασμούς συνολικής παραγωγής και τα 2 επίπεδα ζήτησης διαμορφώνονται ως εξής: Ζήτηση Συνολική παραγωγή Υψηλή Χαμηλή 17 mbd 19$ 14$ 15 mbd 22$ 15$ 13 mbd 25$ 16$ 311 Μοντέλο (4/4) Έστω ότι το κόστος παραγωγής ενός βαρελιού είναι 5$. Προκύπτουν οι παρακάτω πίνακες παιχνιδιού γύρου, ανάλογα με το επίπεδο ζήτησης (οι αριθμοί εκφράζουν εκατομμύρια δολάρια ανά ημέρα): VA SA q L q H Q L 160, 100 136, 119 Q H 170, 85 140, 98 Υψηλή ζήτηση VA SA q L q H Q L 88, 55 80, 70 Q H 100, 50 90, 63 Χαμηλή ζήτηση 312 156
VA Φάση 1 SA q L q H Q L 88, 55 80, 70 Q H 100, 50 90, 63 Στην πρώτη φάση (περίοδος πριν το 1960) η παγκόσμια ζήτηση ήταν ακόμη μικρή. Υπάρχει κυρίαρχη στρατηγική και για τις δύο χώρες, να παράγουν σε μέγιστη ποσότητα, με επιμέρους όφελος (90,63). Ο συνδυασμός (Q H,q H ) μεγιστοποιεί και το συνολικό κέρδος των δύο χωρών. Η SA έχει τη δυνατότητα να επιτύχει όφελος ίσο με 100, εάν η VA επιλέξει να παράγει q L. Ωστόσο σε αυτή την περίπτωση το κέρδος της VA μειώνεται κατά 13, λιγότερο από την αύξηση του κέρδους της SA. Άρα κατά την Φάση 1, οι δύο χώρες, χωρίς συνεννόηση μεταξύ τους, απλά παράγουν το μέγιστο δυνατό για αυτές. Δεν υπήρχε ανάγκη δημιουργίας του OPEC. 313 Φάση 2 (1/5) Η Φάση 2, από το 1960 μέχρι τον Οκτώβριο του 1973, χαρακτηρίζεται από συνεχόμενη αύξηση της ζήτησης, με αρκετές όμως διακυμάνσεις. Θεωρούμε ότι σε κάθε περίοδο υπάρχει πιθανότητα p να έχουμε υψηλή ζήτηση και (1-p) να έχουμε χαμηλή. Σε περίπτωση υψηλής ζήτησης έχουμε μια κατάσταση ανάλογη με το πρόβλημα ΔΦ: Τα συνολικά κέρδη μεγιστοποιούνται με (Q L, q L ), ωστόσο υπάρχουν κυρίαρχες στρατηγικές που οδηγούν στη λύση (Q H, q H ). VA SA q L q H Q L 160, 100 136, 119 Q H 170, 85 140, 98 314 157
Φάση 2 (2/5) Κατά την περίοδο έγιναν οι πρώτες προσπάθειες από τις χώρες του OPEC για επίτευξη συμφωνίας στις ποσότητες παραγωγής. Έστω ότι οι δύο χώρες συμφωνούν να παράγουν υψηλή ποσότητα όταν η ζήτηση είναι χαμηλή και χαμηλή ποσότητα όταν η ζήτηση είναι υψηλή. Σε περίπτωση που μια χώρα σπάσει τη συμφωνία, στο εξής και οι δύο θα παράγουν υψηλές ποσότητες. Μια χώρα μπορεί να σπάσει τη συμφωνία μόνο σε περίοδο υψηλής ζήτησης, παράγοντας αντίστοιχα μεγάλη ποσότητα. Το αναμενόμενο κέρδος για τις δύο χώρες ανά ημέρα είναι: u SA p160 (1 p) 90 u VA p100 (1 p) 63 315 Φάση 2 (3/5) Το μακροπρόθεσμο αναμενόμενο όφελος για κάθε χώρα είναι: U U SA VA usa p 160 (1 p) 90 1 1 uva p 100 (1 p) 63 1 1 Θα εξετάσουμε την πιθανότητα μια χώρα να σπάσει τη συμφωνία σε περίοδο υψηλής ζήτησης. 316 158
Φάση 2 (4/5) Έστω η SA σε περίοδο υψηλής ζήτησης σπάει τη συμφωνία, με άμεσο όφελος 170 (αντί για 160). Το αποτέλεσμα θα είναι ότι σε όλες τις επόμενες περιόδους και οι δύο χώρες θα παράγουν υψηλά. Έτσι, το συνολικό όφελος της SA θα είναι: ' p140 (1 p) 90 U SA 170 1 Για να συμφέρει την SA να σπάσει τη συμφωνία θα πρέπει να ισχύει: p140 (1 p) 90 p160 (1 p) 90 170 160 1 1 ή τελικά: 1 1 2 p 317 Φάση 2 (5/5) Βλέπουμε ότι όσο μεγαλύτερο είναι το p, όσο δηλαδή πιο σίγουρο είναι ότι η αυξημένη ζήτηση θα διατηρηθεί, τόσο πιο ανθεκτική είναι η συμφωνία. Για p=1, προκύπτει δ>0.33, ενώ για p=0 προκύπτει δ=1. Εάν κάνουμε την ίδια ακριβώς ανάλυση για την VA, καταλήγουμε στη σχέση: 19 19 2 p Για p=1 προκύπτει δ>0.9, ενώ για p=0 προκύπτει δ=1. Όσο μεγαλύτερο είναι το p, τόσο ευκολότερη είναι η διατήρηση της συμφωνίας. Για τις μικρότερες χώρες του OPEC, η διατήρηση της συμφωνίας είναι πολύ δυσκολότερη, ακόμη και σε περιόδους υψηλής ζήτησης. 318 159
Συμπεράσματα Στη Φάση 2, η τιμή του p ήταν χαμηλή. Αυτό εξηγεί το γεγονός ότι οι μεγάλες πετρελαιοπαραγωγές χώρες (Σαουδική Αραβία, Ιράν) επέμεναν στην σύσταση του OPEC, σε αντίθεση με τις μικρές χώρες, που έφεραν τις περισσότερες αντιρρήσεις. Στην Φάση 3, η τιμή του p ήταν συνεχώς κοντά στο 1. Η φάση αυτή είναι η καλύτερη στην ιστορία λειτουργίας του OPEC. Στη Φάση 4 εμφανίστηκε πάλι μεγάλη διακύμανση στην ζήτηση του πετρελαίου (η τιμή του p έπεσε κάτω από την μονάδα). Προβλήματα εμφανίστηκαν και πάλι όπως: Η αποχώρηση του Εκουαδόρ από τον OPEC το 1992. Οι κρυφές/γνωστές παραβάσεις των αναλογιών από τις μικρές χώρες (π.χ. Βενεζουέλα). 319 Dynamic Games Δυναμικά παιχνίδια: Εφαρμογή στο πρόβλημα των κοινών 320 160
Γενικά Χαρακτηρίζουμε ως δυναμικά (dynamic games) εκείνα τα επαναλαμβανόμενα παιχνίδια, όπου το παιχνίδι γύρου μεταβάλλεται. Στο παράδειγμα με τον OPEC, μελετήσαμε φάσεις όπου το περιβάλλον του παιχνιδιού (game environment), δηλαδή η εξωτερική ζήτηση, δεν ήταν σταθερό. Παρόμοια, στον NASDAQ θα μπορούσαμε να θεωρήσουμε ότι ο αριθμός των διαπραγματευτών μεταβάλλεται. Στις δημοπρασίες ομολόγων θα μπορούσαμε να θεωρήσουμε ότι η προσφερόμενη από την κεντρική τράπεζα ποσότητα δεν είναι πάντα η ίδια. Τα δυναμικά παιχνίδια είναι ο κανόνας και όχι η εξαίρεση. Θα μελετήσουμε ως δυναμικό επαναλαμβανόμενο παιχνίδι το πρόβλημα των κοινών (the commons problem). 321 Το πρόβλημα των κοινών: Μοντέλο (1/4) Στο πρόβλημα των κοινών το περιβάλλον του παιχνιδιού τη χρονική στιγμή t καθορίζεται από τη διαθεσιμότητα του κοινού πόρου y t. y t 0 Θεωρούμε και πάλι δύο παίκτες (Ν=2). Έστω c it η κατανάλωση του παίκτη i τη χρονική στιγμή t. Προφανώς c 1t +c 2t y t Έστω x t =y t -(c 1t +c 2t ) το ποσό που απομένει μετά την κατανάλωση τη χρονική στιγμή t. Θα θεωρήσουμε ότι ο κοινός πόρος είναι ανανεώσιμος (renewable resource), δηλαδή ισχύει y t+1 >x t. 322 161
Το πρόβλημα των κοινών: Μοντέλο (2/4) Ορίζουμε ως u it =logc it τη χρησιμότητα από την κατανάλωση ποσότητας c it τη χρονική στιγμή t. 323 Το πρόβλημα των κοινών: Μοντέλο (3/4) Ορίζουμε ως y t+1 =10 sqrt(x t ) τη διαθεσιμότητα του πόρου τη χρονική στιγμή t+1. 324 162
Το πρόβλημα των κοινών: Μοντέλο (4/4) Το παραπάνω μοντέλο προτάθηκε για πρώτη φορά στην εργασία: David Levhari and Leonard Mirman, The Great Fish War: A Solution using Cournot-Nash Equilibrium, Bell Journal of Economics, vol. 11, pp. 322-334, 1980. Οι ερωτήσεις που θα προσπαθήσουμε να απαντήσουμε είναι: Πώς εξελίσσεται το y t ; Υπάρχει κάποια τιμή του y t η οποία παραμένει σταθερή. Ποια είναι η κοινωνικά βέλτιστη τιμή του y t ; 325 Κοινωνικά βέλτιστη λύση (1/5) Θα προσπαθήσουμε να βρούμε εκείνη την κατανάλωση για τους δύο παίκτες που μεγιστοποιεί το συνολικό τους όφελος. Έστω ότι το παιχνίδι παίζεται για δύο μόνο γύρους. Στον δεύτερο γύρο υπάρχει διαθέσιμη ποσότητα y 2. Αφού είναι ο τελευταίος γύρος, οι δύο παίκτες θα καταναλώσουν όλη τη διαθέσιμη ποσότητα: c 12 +c 22 =y 2 Πρέπει να μεγιστοποιήσουμε την ποσότητα: u 12 +u 22 =log(c 12 )+log(y 2 -c 12 ) Μηδενίζοντας την πρώτη παράγωγο βρίσκουμε εύκολα ότι το μέγιστο επιτυγχάνεται για c 12 =c 22 =y 2 /2. Το συνολικό όφελος όταν απομένει ένας γύρος και η τρέχουσα ποσότητα είναι y: U 1 =U 1 (y)=log(y/2)+log(y/2)=2logy-2log2 326 163
Κοινωνικά βέλτιστη λύση (2/5) Το επόμενο βήμα είναι να υπολογίσουμε την κατανάλωση c 11 και c 21 κατά τον πρώτο γύρο, ώστε να μεγιστοποιηθεί το συνολικό όφελος (για τους δύο γύρους). Πρέπει να μεγιστοποιηθεί η ποσότητα: u 11 +u 21 +δ(u 12 +u 22 )= log(c 11 )+log(c 21 )+δ U 1 (10 (y 1 -c 11 -c 21 ) 0.5 )= log(c 11 )+log(c 21 )+δ (2log(10 (y 1 -c 11 -c 21 ) 0.5 )-2log2)= log(c 11 )+log(c 21 )+δ log(y 1 -c 11 -c 21 )+δ log25 Μηδενίζοντας τις παραγώγους για c 11 και c 21 βρίσκουμε τελικά: c 11 =c 21 =y 1 /(2+δ) Παρατηρούμε ότι η παραπάνω κατανάλωση προβλέπει να απομείνει κάτι για την επόμενη περίοδο, εφόσον δ>0. Για δ=1 προβλέπει κατανάλωση ίση με y 1 /3 ανά παίκτη. Θυμηθείτε ότι στην περίπτωση μη-ανανεώσιμου πόρου είχαμε υπολογίσει ότι η κοινωνικά βέλτιστη κατανάλωση ήταν y 1 /4 στον πρώτο γύρο. 327 Κοινωνικά βέλτιστη λύση (3/5) Το συνολικό μέγιστο όφελος, όταν απομένουν 2 γύροι και η τρέχουσα ποσότητα είναι y, είναι: U 2 (y)= log(y/3)+log(y/3)+δ log(y-y/3-y/3)+δ log25= 2log(y)+δ log(y)+δ log25-2 log3-δ log3 Έστω τώρα ότι το παιχνίδι έχει τρεις γύρους. Η ποσότητα που πρέπει να μεγιστοποιηθεί είναι η: log(c 11 )+log(c 21 )+δ U 2 (10(y 1 -c 11 -c 21 ) 0.5 ). Μετά από πράξεις προκύπτει ότι η βέλτιστη κατανάλωση στην πρώτη περίοδο είναι: c 11 =c 21 =y 1 /[2 (1+δ/2+δ 2 /4)]. 328 164
Κοινωνικά βέλτιστη λύση (4/5) Παρατηρούμε τα εξής: Όταν απομένει ένας γύρος, η βέλτιστη κατανάλωση είναι c 1 =c 2 =y/2. Όταν απομένουν δύο γύροι, η βέλτιστη κατανάλωση στον πρώτο από τους δύο γύρους είναι c 1 =c 2 = y/(2+δ) = y/[2 (1+δ/2)]. Όταν απομένουν τρεις γύροι, η βέλτιστη κατανάλωση στον πρώτο από τους τρεις γύρους είναι c 1 =c 2 = y/[2 (1+δ/2+δ 2 /4)]. Μπορούμε να εικάσουμε ότι όταν απομένουν άπειροι γύροι, η κοινωνικά βέλτιστη κατανάλωση στον πρώτο από αυτούς τους γύρους (αλλά και σε κάθε γύρο!) είναι: c 1 =c 2 = y/[2 (1+δ/2+δ 2 /4+δ 3 /8+...)] = y (2-δ)/4. Η ποσότητα που επενδύεται στο μέλλον είναι: x t =y δ/2 329 Κοινωνικά βέλτιστη λύση (5/5) Έστω x t =y t δ/2 η ποσότητα που απομένει τη χρονική στιγμή t. Στην επόμενη χρονική στιγμή η διαθέσιμη ποσότητα θα είναι: y t+1 =10 (x t ) 0.5 =10 (y t δ/2) 0.5 Εάν θέσουμε y t+1 =y t καταλήγουμε ότι y t =50δ. Για παράδειγμα, για δ=0.8 παίρνουμε y t =40. Η διαθεσιμότητα αυτή του πόρου είναι διατηρήσιμη. Στο σημείο αυτό, η ποσότητα που καταναλώνουν σε κάθε περίοδο οι δύο παίκτες είναι ακριβώς όση αναπαράγεται από μόνη της. 330 165
Ισορροπία Nash (1/5) Θα εκτελέσουμε τους ίδιους υπολογισμούς για την περίπτωση που οι δύο παίκτες λειτουργούν μονομερώς. Υποθέτουμε καταρχήν ότι υπάρχουν δύο μόνο γύροι. Έστω ότι στον δεύτερο γύρο η διαθέσιμη ποσότητα είναι y 2. Είναι προφανές ότι, αφού πρόκειται για τον τελευταίο γύρο, κάθε παίκτης θα επιδιώξει το μέγιστο, με αποτέλεσμα να μοιραστούν τη διαθέσιμη ποσότητα: c 12 =c 22 =y 2 /2 Το όφελος κάθε παίκτη είναι u 12 =u 22 =log(y 2 /2). 331 Ισορροπία Nash (2/5) Έστω τώρα ότι είμαστε στον πρώτο από τους δύο γύρους. Για τυχαία κατανάλωση c 21 του παίκτη 2, ο παίκτης 1 πρέπει να μεγιστοποιήσει την ποσότητα: u 11 +δu 12 =log(c 11 )+δ log(10 (y 1 -c 11 -c 21 ) 0.5 /2)= log(c 11 )+δ/2 log(y 1 -c 11 -c 21 )+δ/2 log5 Προκύπτει ότι η βέλτιστη κατανάλωση του παίκτη 1 στον πρώτο γύρο, ως συνάρτηση της κατανάλωσης του παίκτη 2 στον πρώτο γύρο, είναι: c 11 * = b 1 (c 21 ) = (y 1 -c 21 )/(1+δ/2) Παρόμοια προκύπτει για τον παίκτη 2: c 21 * = b 2 (c 11 ) = (y 1 -c 11 )/(1+δ/2) Οι παραπάνω σχέσεις αποτελούν συναρτήσεις καλύτερης απόκρισης (best response function). 332 166
Ισορροπία Nash (3/5) Το σημείο ισορροπίας Nash είναι αυτό για το οποίο ισχύει c 11 *=b 1 (c 21 *) και c 21 *=b 2 (c 11 *) ταυτόχρονα. Βρίσκεται εύκολα ότι αυτό ισχύει για: c 11 *=c 21 *=y 1 /(2+δ/2) Γενικεύοντας: Αν σε παιχνίδι δύο γύρων με αρχική ποσότητα y οι δύο παίκτες αποφασίζουν μονομερώς, στον πρώτο γύρο θα πρέπει να καταναλώσουν ποσότητα c=y/(2+δ/2) ο καθένας. Το αναμενόμενο κέρδος για τον καθένα είναι: U 2 (y)=log(y/(2+δ/2)) + δ/2 log(y-c-c)+δ/2 log5=...= (1+δ/2) log(y) + δ/2 log(5 δ/(4+δ))-log(2+δ/2) 333 Ισορροπία Nash (4/5) Έστω ότι το παιχνίδι διαρκεί τρεις γύρους. Η αρχική ποσότητα είναι y και στον πρώτο γύρο ο παίκτης 2 καταναλώνει c 12. Ο παίκτης 1 πρέπει να μεγιστοποιήσει την ποσότητα: u 11 +δ U 2 (y-c 11 -c 12 )= log(c 11 )+δ[(1+δ/2) log(y-c 11 -c 12 )+δ/2 log(5 δ/(4+δ))- log(2+δ/2)] Με παρόμοιους υπολογισμούς όπως και στην περίπτωση των δύο γύρων προκύπτει ότι το σημείο ισορροπίας είναι για: c 11 =c 21 =y/(2+δ/2+δ 2 /4) Επαγωγικά συμπεραίνουμε ότι σε παιχνίδι άπειρων γύρων, η καλύτερη μονομερής κατανάλωση στον πρώτο γύρο (αλλά και σε κάθε έναν από τους υπόλοιπους) είναι: c(y)=y (2-δ)/(4-δ) 334 167
Ισορροπία Nash (5/5) Έστω ότι σε κάποιον γύρο η αρχική ποσότητα είναι y t. Η ποσότητα που θα απομείνει μετά την κατανάλωση είναι: x t =y t -2 c(y t )=y t -2y t (1-δ/2)/(2-δ/2)=...=y t δ/(4-δ) Η διαθέσιμη ποσότητα τη χρονική στιγμή t+1 θα είναι: y t+1 =10x t 0.5 =10 (y t δ/(4-δ)) 0.5 Εάν θέσουμε y t+1 =y t παίρνουμε: y t+1 =y t =100 δ/(4-δ) Για παράδειγμα, για δ=0.8 παίρνουμε y t =25. 335 Παρατηρήσεις Η γενική παρατήρηση είναι ότι η μονομερής κατανάλωση οδηγεί σε υπερκατανάλωση: Στην περίπτωση συνεργασίας, η κατανάλωση είναι y (2-δ)/4. Στην μονομερή κατανάλωση, η κατανάλωση είναι y (2-δ)/(4-δ) Είναι προφανές ότι η δεύτερη κατανάλωση είναι μεγαλύτερη. Παρόμοια, τα διατηρήσιμα αποθέματα, όπου δηλαδή η κατανάλωση θα είναι όση και η φυσική αναπαραγωγή, είναι μεγαλύτερα στην περίπτωση συνεργασίας από την περίπτωση μονομερούς κατανάλωσης: Στην περίπτωση συνεργασίας, τα διατηρήσιμα αποθέματα είναι 50δ. Στην μονομερή κατανάλωση, τα διατηρήσιμα αποθέματα είναι 100 δ/(4-δ). Είναι εύκολο να δειχθεί ότι 50δ>100 δ/(4-δ) για 0 δ 1. 336 168
Moral Hazard and Incentives Theory Ηθικός κίνδυνος και θεωρίες κινήτρων 337 Γενικά Ο όρος «ηθικός κίνδυνος» εμφανίστηκε στις ασφάλειες και αφορά το γεγονός ότι ένας άνθρωπος που έχει ασφαλιστική κάλυψη έχει μειωμένα κίνητρα για να προστατέψει το ασφαλισμένο αντικείμενο σε σχέση με κάποιον που δεν έχει ασφαλιστική κάλυψη. Γενικά υπάρχουν συνήθειες που οι ασφαλισμένοι προτιμούν να υιοθετούν, ενώ οι ασφαλιστικές εταιρείες θα προτιμούσαν να αποφεύγουν. Σε κάθε περίπτωση είναι δύσκολο για την ασφαλιστική εταιρεία να αποδείξει ότι ο πελάτης δεν πήρε όλες τις αναγκαίες προφυλάξεις. 338 169
Παραδείγματα Ιδιοκτήτης-Διευθυντής: Σε μια μεγάλη εταιρεία, η σχέση μεταξύ του ιδιοκτήτη και του διευθυντή. Ο ιδιοκτήτης πρέπει να δώσει κίνητρα στον διευθυντή για να εργαστεί σκληρά. Πελάτης-Παροχέας Υπηρεσίας: Η σχέση μεταξύ ενός πελάτη και ενός γιατρού, δικηγόρου κλπ. Ο πελάτης πρέπει να δώσει κίνητρα στον παροχέα της υπηρεσίας, ώστε να αποδώσει το καλύτερο δυνατό. Εταιρεία-Πωλητής: Η εταιρεία πρέπει να δώσει κίνητρα στον πωλητή ώστε να φέρει περισσότερες παραγγελίες. Σε όλες τις παραπάνω περιπτώσεις το κοινό χαρακτηριστικό είναι ότι ο εντολέας (principal) δεν μπορεί να ελέγξει τον εντολοδόχο για το αν εκτελεί σωστά τα καθήκοντά του. 339 Μοντέλο (1/3) Θα θεωρήσουμε το παράδειγμα του ιδιοκτήτη και του διευθυντή μιας εταιρείας. Ο ιδιοκτήτης προσφέρει στον διευθυντή ένα πακέτο αποδοχών. Στη συνέχεια ο διευθυντής αποφασίζει εάν θα καταβάλει μεγάλη ή μικρή προσπάθεια e H και e L, για effort high και effort low αντίστοιχα. Οι ενέργειες του διευθυντή δεν είναι παρατηρήσιμες από τον ιδιοκτήτη. Υπάρχουν τρία πιθανά αποτελέσματα, όσον αφορά την κερδοφορία της εταιρείας: good (g), medium (m) και bad (b), με g>m>b 340 170
Μοντέλο (2/3) Ο καθορισμός της κερδοφορίας της εταιρείας είναι στοχαστικός και εξαρτάται από την προσπάθεια του διευθυντή: Για προσπάθεια e H έχουμε: P(g)=0.6, P(m)=0.3, P(b)=0.1. Για προσπάθεια e L έχουμε: P(g)=0.1, P(m)=0.3, P(b)=0.6. Ο ιδιοκτήτης πληρώνει τον διευθυντή ανάλογα με το αποτέλεσμα: Για κέρδη g, m ή b οι αποδοχές είναι w g, w m ή w b αντίστοιχα. Προφανώς w g w m w b Τα καθαρά κέρδη του ιδιοκτήτη σε κάθε περίπτωση είναι g- w g, m-w m και b-w b αντίστοιχα. Ο ιδιοκτήτης ενδιαφέρεται μόνο για τα καθαρά κέρδη του. 341 Μοντέλο (3/3) Το όφελος του διευθυντή είναι συνάρτηση των οικονομικών του απολαβών και της προσπάθειας που κατέβαλλε. Έστω u(w g ), u(w m ) και u(w b ) το όφελος από τις απολαβές. Έστω d H και d L το κόστος για τα δύο επίπεδα προσπάθειας. Το συνολικό όφελος ισούται με u(w i )-d j, i=g,m,b και j=h,l. Θεωρούμε ότι η συνάρτηση u είναι μια αύξουσα κοίλη συνάρτηση: Ο διευθυντής προφανώς προτιμά περισσότερα από λιγότερα χρήματα, αλλά γενικά αποφεύγει το ρίσκο. Σε διάφορα σημεία παρακάτω θα χρησιμοποιήσουμε τις παρακάτω τιμές, για να πάρουμε συγκεκριμένα αποτελέσματα: u(w)=2 w 0.5, d H =10, d L =4, g=200, m=100, b=50. 342 171
Καθαρός μισθός Έστω ότι ο ιδιοκτήτης δίνει στον διευθυντή έναν καθαρό μισθό, ανεξάρτητα από την κερδοφορία της επιχείρησης: w=w g =w m =w b Το όφελος του διευθυντή για τα δύο επίπεδα προσπάθειας είναι: e H : u(w)-d H e L : u(w)-d L Με δεδομένο ότι d H >d L, είναι προφανές ότι ο διευθυντής θα καταβάλλει λίγη προσπάθεια. 343 Ενοικίαση εταιρείας Το αντίθετο άκρο είναι η ενοικίαση του ονόματος της εταιρείας (franchising), έναντι συγκεκριμένου τιμήματος, ανεξαρτήτως κερδών. Έστω f το ενοίκιο. Τότε το χρηματικό κέρδος του διευθυντή, ανάλογα με τα κέρδη της εταιρείας, είναι: w g =g-f, w m =m-f και w b =b-f Ανάλογα με την προσπάθεια που θα καταβάλλει ο διευθυντής, το αναμενόμενο όφελός του γίνεται: e H : 0.6 u(g-f)+0.3 u(m-f)+0.1 u(b-f)-d H e L : 0.1 u(g-f)+0.3 u(m-f)+0.6 u(b-f)-d L Δεν είναι πλέον προφανές ποια περίπτωση συμφέρει περισσότερο τον διευθυντή. 344 172
Μισθός και μπόνους Στις δύο προηγούμενες περιπτώσεις, το ρίσκο επιβαρύνει πλήρως είτε τον ιδιοκτήτη, είτε τον διευθυντή. Μια ενδιάμεση κατάσταση είναι αυτή για την οποία ισχύει: w g >w m >w b και w g -w b <g-b και w m -w b <m-b Το αναμενόμενο όφελος του διευθυντή, ανάλογα με την προσπάθειά του, είναι: e H : 0.6 u(w g )+0.3 u(w m )+0.1 u(w b )-d H e L : 0.1 u(w g )+0.3 u(w m )+0.6 u(w b )-d L Εύκολα προκύπτει ότι ο διευθυντής θα καταβάλλει μεγάλη προσπάθεια εάν: 0.5 [u(w g )-u(w b )] d H -d L 345 Μισθός ανάλογα με την προσπάθεια Έστω ότι ο ιδιοκτήτης μπορεί να μετρά την προσπάθεια του διευθυντή, e H και e L, και να τον ανταμείβει αντίστοιχα με w H και w L. Ο διευθυντής θα καταβάλλει μεγάλη προσπάθεια μόνο εάν ισχύει: u(w H )-d H u(w L )-d L Προφανώς ισχύει u(w L )-d L 0 και u(w Η )-d Η 0. Από τις παραπάνω σχέσεις προκύπτει ότι οι ελάχιστες ανταμοιβές για τον διευθυντή είναι: w L 4 w H 25 346 173
Επιλογή κινήτρων: Απουσία ηθικού κινδύνου (1/2) Στη συνέχεια θα εξετάσουμε ποιο σχήμα κινήτρων συμφέρει τον ιδιοκτήτη. Έστω ότι ο ιδιοκτήτης μπορεί και καταγράφει την προσπάθεια του διευθυντή και τον ανταμείβει βάσει της προσπάθειας (w H και w L αντίστοιχα). Ανάλογα με την προσπάθεια που θα καταβάλλει ο διευθυντής, το αναμενόμενο κέρδος για τον ιδιοκτήτη είναι: e H : 0.6 g+0.3 m+0.1 b-w H e L : 0.1 g+0.3 m+0.6 b-w L Ο ιδιοκτήτης θα επέλεγε αυτό το σχήμα, ελπίζοντας ότι ο διευθυντής θα καταβάλλει μεγάλη προσπάθεια, εάν ισχύει: 0.5 (g-b) w H -w L Για τις τιμές g=200, b=50, w H =25 και w L =4 η τελευταία σχέση ισχύει. 347 Επιλογή κινήτρων: Απουσία ηθικού κινδύνου (2/2) Θέτοντας ο ιδιοκτήτης τιμή w H >25 και w L =4 επιτυγχάνει το παρακάτω κέρδος. 0.6 g+0.3 m+0.1 b-w H = 0.6 200+0.3 100+0.1 50-25 = 130 348 174
Επιλογή κινήτρων: Ηθικός κίνδυνος (1/5) Στην περίπτωση ύπαρξης ηθικού κινδύνου, ο ιδιοκτήτης έχει να επιλέξει μεταξύ τριών πολιτικών: Σταθερός μισθός Ενοικίαση εταιρείας Μισθός και μπόνους Εάν ο ιδιοκτήτης επιλέξει έναν σταθερό μισθό, τότε είναι σίγουρο ότι ο διευθυντής θα καταβάλλει μικρή προσπάθεια, e L. Εάν θεωρήσουμε ότι ο διευθυντής δεν έχει δυνατότητα να βρει καλύτερη δουλειά, ωστόσο έχει τη δυνατότητα να παραιτηθεί από την τρέχουσα, ο ελάχιστος μισθός που μπορεί να δεχθεί είναι τέτοιος ώστε: u(w)-d L >0 349 Επιλογή κινήτρων: Ηθικός κίνδυνος (2/5) Για τα νούμερα του παραδείγματος, προκύπτει ότι: 2 w 0.5 >4 ή w>4 Το αναμενόμενο όφελος του ιδιοκτήτη θα είναι: 0.1 g+0.3 m+0.6 b-w=0.1 200+0.3 100+0.6 50-4=76 Εάν ο ιδιοκτήτης επιλέξει να ενοικιάσει την εταιρεία, τότε το όφελός του θα είναι ένα σταθερό ενοίκιο f. Με δεδομένη τη συνάρτηση οφέλους u(w)=2 w 0.5, η οποία δεν ορίζεται για αρνητικά w, προκύπτει ότι f 50. Εάν ισχύει f>50, τότε ο διευθυντής ρισκάρει να βγει χαμένος στην περίπτωση που, ανεξαρτήτως των προσπαθειών του, τα έσοδα της εταιρείας είναι κακά (b=50). 350 175
Επιλογή κινήτρων: Ηθικός κίνδυνος (3/5) Έστω ότι ο ιδιοκτήτης επιλέγει να δώσει στον διευθυντή μισθό και μπόνους, δηλαδή: w g >w m >w b, όμως w g -w b <g-b και w m -w b <m-b Το αναμενόμενο κέρδος για τον ιδιοκτήτη, ανάλογα με την προσπάθεια που θα καταβάλλει ο διευθυντής, είναι: e H : 0.6 (g-w g )+0.3 (m-w m )+0.1 (b-w b ) e L : 0.1 (g-w g )+0.3 (m-w m )+0.6 (b-w b ) Ο ιδιοκτήτης θα επέλεγε ένα τέτοιο σχήμα μόνο στην περίπτωση που: g-b w g -w b 351 Επιλογή κινήτρων: Ηθικός κίνδυνος (4/5) Έχουμε δει ότι ο διευθυντής θα καταβάλλει μεγαλύτερη προσπάθεια εάν ισχύει: 0.5 [u(w g )-u(w b )] d H -d L Θεωρώντας ότι το ελάχιστο w b είναι ίσο με 4 (περίπτωση καθαρού μισθού) προκύπτει ότι w g >=64. Για τις παραπάνω τιμές ισχύει η σχέση: g-b w g -w b ή 200-50 64-4 ή 150 60 Άρα ο ιδιοκτήτης μπορεί να προσφέρει στον διευθυντή μισθό w g =64. Το w m δεν εμφανίζεται πουθενά στις σχέσεις, επειδή η πιθανότητα για μεσαία κέρδη είναι η ίδια, ανεξάρτητα της προσπάθειας του διευθυντή. Άρα ο ιδιοκτήτης μπορεί να θέσει w m =w b. 352 176
Επιλογή κινήτρων: Ηθικός κίνδυνος (5/5) Έστω λοιπόν ότι ο ιδιοκτήτης επιλέγει w g =64, w m =w b =4. Ο διευθυντής θα επιλέξει να καταβάλλει μεγάλη προσπάθεια, οπότε τα αναμενόμενα κέρδη για τον ιδιοκτήτη είναι: 0.6 (g-w g )+0.3 (m-w m )+0.1 (b-w b ) = 0.6 (200-64)+0.3 (100-4)+0.1 (50-4) = 0.6 136+0.3 96+0.1 46 = 115 Βλέπουμε λοιπόν ότι στο συγκεκριμένο παράδειγμα, η καλύτερη πολιτική σε περίπτωση ύπαρξης ηθικού κινδύνου, είναι η χρήση βασικού μισθού και μπόνους. Ωστόσο, το κέρδος μεγιστοποιείται για τον ιδιοκτήτη στην περίπτωση έλλειψης ηθικού κινδύνου. 353 Παρατηρήσεις (1/2) Το «κλειδί» στην ανάλυση που προηγήθηκε και στα αποτελέσματα που προέκυψαν ήταν η μορφή της συνάρτησης οφέλους των δύο παικτών. Για τον διευθυντή, η συνάρτηση απόδοσης ήταν μια κοίλη συνάρτηση των αποδοχών του. Ο διευθυντής δεν έδινε διπλάσια αξία σε διπλάσιες αποδοχές, ούτε ήταν διατεθειμένος να ρισκάρει για αυτές. Μάλιστα δεν είναι διατεθειμένος να ρισκάρει ούτε το ελάχιστο την περίπτωση να έχει αρνητικά έσοδα. Για τον ιδιοκτήτη, η συνάρτηση οφέλους ταυτίζεται με τις αποδοχές, πρόκειται λοιπόν για γραμμική συνάρτηση. Ο ιδιοκτήτης δίνει διπλάσια αξία σε διπλάσια έσοδα. Επίσης είναι ουδέτερος μεταξύ του να ρισκάρει ή μη τα έσοδά του (αρκεί φυσικά πάντα τα αναμενόμενα έσοδα να είναι τα ίδια). Γενικά, αυτό που πρέπει να ισχύει είναι ο ιδιοκτήτης να φοβάται το ρίσκο λιγότερο από τον διευθυντή. 354 177
Παρατηρήσεις (2/2) Το μοντέλο που παρουσιάστηκε μπορεί να επεκταθεί σε περισσότερα από ένα επίπεδα κερδοφορίας για την εταιρεία. Εάν έχουμε n επίπεδα κερδοφορίας, τότε χρειάζεται να οριστούν n επίπεδα μισθών. Μπορούμε να έχουμε περισσότερα από 2 επίπεδα προσπάθειας για τον διευθυντή. Γενικά δεν ισχύει ότι ο ιδιοκτήτης προσπαθεί πάντα να πείσει τον διευθυντή να καταβάλλει το μέγιστο των προσπαθειών του. Εξαρτάται από τα αναμενόμενα κέρδη και τα μπόνους που πρέπει να πάρει ο διευθυντής για να καταβάλλει αυξημένη προσπάθεια. 355 Games with Incomplete Information Παιχνίδια με ελλιπή πληροφόρηση 356 178
Γενικά Ως παιχνίδια με ελλιπή πληροφόρηση ορίζονται αυτά στα οποία δεν είναι γνωστές σε όλους τους παίκτες όλες οι παράμετροι του παιχνιδιού, όπως: Ποιοι/πόσοι είναι οι άλλοι παίκτες Ποιες είναι οι διαθέσιμες στρατηγικές στους άλλους παίκτες. Ποιες είναι οι αποδόσεις των διάφορων στρατηγικών για τους άλλους παίκτες. κλπ 357 Παράδειγμα: Διαπραγμάτευση Ι (1/2) Έστω δύο μέρη, Α και Β, τα οποία βρίσκονται σε μια κατάσταση αντιπαράθεσης. Δύο χώρες, εργοδότης και εργαζόμενοι, δύο οδηγοί στο δρόμο, δύο συνάδελφοι κλπ Κάθε παίκτης μπορεί να επιλέξει είτε μια σκληρή (Σ), είτε μια μετριοπαθή (Μ) αντιμετώπιση. Ο παίκτης Α είναι ιδιαίτερα άκαμπτος. Έστω ότι υπάρχει αβεβαιότητα για το χαρακτήρα του παίκτη Β, εάν δηλαδή είναι άκαμπτος ή ήπιος. Έχουμε δύο πίνακες παιχνιδιού, έναν για κάθε τύπο του Β: Β Α Σ Μ Σ 1,1 3,0 Μ 0,3 2,2 Άκαμπτος Β Β Α Σ Μ Σ 1,0 3,1 Μ 0,2 2,3 Ήπιος Β 358 179
Παράδειγμα: Διαπραγμάτευση Ι (2/2) Στο παράδειγμα αυτό τα πράγματα είναι απλά: Ο παίκτης Α έχει κυρίαρχη στρατηγική την Σ, ανεξάρτητα από την στάση του παίκτη Β. Ο παίκτης Β έχει κυρίαρχη στρατηγική την Σ στον πρώτο πίνακα και την Μ στο δεύτερο. Οι παραπάνω στρατηγικές μπορούν να επιλεγούν από τους παίκτες με βεβαιότητα και αποτελούν τη λύση του προβλήματος. Β Α Σ Μ Σ 1,1 3,0 Μ 0,3 2,2 Άκαμπτος Β Β Α Σ Μ Σ 1,0 3,1 Μ 0,2 2,3 Ήπιος Β 359 Παράδειγμα: Διαπραγμάτευση ΙΙ (1/3) Μια παραλλαγή του προηγούμενου παραδείγματος είναι όταν το ένα μέρος θα ήθελε να προσαρμόσει τη συμπεριφορά του βάσει της συμπεριφοράς του άλλου μέρους. Για παράδειγμα, έστω σε μια διαπραγμάτευση εργοδότη/εργαζομένων (Α/Β αντίστοιχα στους παρακάτω πίνακες), ο εργοδότης θα ήθελε να επιβραβεύσει μια ήπια στάση των εργαζομένων δίνοντας τους μια μεγαλύτερη αύξηση, όχι όμως μια άκαμπτη στάση. Β Α Σ Μ Σ 1,1 3,0 Μ 0,3 2,2 Άκαμπτος Β Β Α Σ Μ Σ 0,0 2,1 Μ 1,2 3,3 Ήπιος Β 360 180
Παράδειγμα: Διαπραγμάτευση ΙΙ (2/3) Στο παράδειγμα αυτό οι κυρίαρχες στρατηγικές για τον παίκτη Β είναι οι ίδιες, Σ για την πρώτη περίπτωση και Μ για την δεύτερη. Ο παίκτης Α πλέον έχει και αυτός διαφορετικές κυρίαρχες στρατηγικές, Σ για την πρώτη περίπτωση και Μ για τη δεύτερη. Το πρόβλημα για τον Α είναι ότι δεν γνωρίζει εξαρχής σε ποια από τις δύο περιπτώσεις βρισκόμαστε! Β Α Σ Μ Σ 1,1 3,0 Μ 0,3 2,2 Άκαμπτος Β Β Α Σ Μ Σ 0,0 2,1 Μ 1,2 3,3 Ήπιος Β 361 Παράδειγμα: Διαπραγμάτευση ΙΙ (3/3) Έστω ότι ο Α θεωρεί πως κατά 90% ο Β θα είναι άκαμπτος και κατά 10% θα είναι ήπιος. Εάν επιλέξει Σ, το αναμενόμενο όφελός του είναι: 0.9 1+0.1 2=1.1 Εάν επιλέξει Μ, το αναμενόμενο όφελός του είναι: 0.9 0+0.1 3=0.3 Άρα τον συμφέρει να επιλέξει Σ. Στο συγκεκριμένο παράδειγμα βρίσκουμε εύκολα ότι αν ο Β είναι άκαμπτος με πιθανότητα μεγαλύτερη από 50%, ο Α επιλέγει Σ. Β Α Σ Μ Σ 1,1 3,0 Μ 0,3 2,2 Άκαμπτος Β Β Α Σ Μ Σ 0,0 2,1 Μ 1,2 3,3 Ήπιος Β 362 181
Παράδειγμα: Μάχη των φύλων (1/2) Έστω το γνωστό παιχνίδι της μάχης των φύλων, όπου ο άντρας και η γυναίκα πρέπει να αποφασίσουν αν θα πάνε στην Όπερα ή στο Γήπεδο. Ο άντρας προτιμά να πάει μαζί με τη γυναίκα του. Έστω ότι δεν είναι γνωστό στον άντρα εάν η γυναίκα του προτιμά να πάει μαζί με τον άντρα της κάπου ή χώρια. Γ Α Γήπεδο Όπερα Γήπεδο 3,1 0,0 Όπερα 0,0 1,3 Γυναίκα προτιμά μαζί Γ Α Γήπεδο Όπερα Γήπεδο 3,0 0,3 Όπερα 0,1 1,0 Γυναίκα προτιμά χώρια 363 Παράδειγμα: Μάχη των φύλων (2/2) Ο πληροφορημένος παίκτης (η γυναίκα) δεν έχει κάποια κυρίαρχη στρατηγική σε καμία από τις δύο περιπτώσεις. Άρα, μολονότι γνωρίζει ποιος είναι ο σωστός πίνακας παιχνιδιού, δεν της είναι ξεκάθαρο τι να επιλέξει. Τα πράγματα είναι ακόμη χειρότερα για τον άνδρα, ο οποίος, εκτός από το ότι δεν έχει καμία κυρίαρχη στρατηγική σε κανένα παιχνίδι, δεν γνωρίζει καν ποιος είναι ο σωστός πίνακας παιχνιδιού! Θα αναλύσουμε το παιχνίδι στις επόμενες διαφάνειες. Γ Α Γήπεδο Όπερα Γήπεδο 3,1 0,0 Όπερα 0,0 1,3 Γυναίκα προτιμά μαζί Γ Α Γήπεδο Όπερα Γήπεδο 3,0 0,3 Όπερα 0,1 1,0 Γυναίκα προτιμά χώρια 364 182
Παρατήρηση Στα παραδείγματα που προηγήθηκαν θεωρήσαμε αβεβαιότητα για τον ένα από τους δύο παίκτες. Στην πραγματικότητα μπορεί να υπάρχει αβεβαιότητα και για τους δύο. Σε αυτή την περίπτωση μπορεί να έχουμε τόσους πίνακες παιχνιδιού, όσοι είναι οι δυνατοί συνδυασμοί ενδεχόμενων καταστάσεων των δύο παικτών. ΠΡΟΣΟΧΗ: Θεωρούμε ότι το πλήθος των δυνατών διαφορετικών καταστάσεων κάθε παίκτη είναι πεπερασμένο. 365 Ισορροπία Bayes-Nash (1/4) Για το παιχνίδι της μάχης των φύλων με ελλιπή πληροφόρηση κάνουμε τις εξής παραδοχές: Η γυναίκα γνωρίζει ποιος είναι ο σωστός πίνακας του παιχνιδιού. Ο άνδρας δεν γνωρίζει τον τύπο της γυναίκας του, ωστόσο γνωρίζει την πιθανότητα ρ ο πίνακας του παιχνιδιού να είναι ο πρώτος (η γυναίκα του τον αγαπά). Άρα η πιθανότητα ο σωστός πίνακας του παιχνιδιού να είναι ο δεύτερος είναι 1-ρ. Και η γυναίκα γνωρίζει την τιμή του ρ. 366 183
Ισορροπία Bayes-Nash (2/4) Μετατρέπουμε το παιχνίδι σε εκτατική μορφή, θεωρώντας ότι ένας τρίτος παίκτης, η φύση, επιλέγει στην αρχή τον τύπο της γυναίκας. Φύση Τύπος 1 Τύπος 2 Γυναίκα Γ Ο Γ Άνδρας Γ Ο Γ Ο Γ Ο 3,1 0,0 0,0 1,3 3,0 0,1 ΠΡΟΣΟΧΗ: Τα πρώτα νούμερα αντιστοιχούν στον άνδρα Ο Γ 0,3 Ο 1,0 367 Ισορροπία Bayes-Nash (3/4) Στο συγκεκριμένο παιχνίδι ο άνδρας έχει έναν κόμβο απόφασης, άρα πρέπει να λάβει μία απόφαση: Οι καθαρές στρατηγικές του άνδρα είναι οι Γ και Ο. Μια μικτή στρατηγική του άνδρα μπορεί να παρασταθεί με την πιθανότητα λ να επιλέξει Γ (άρα η πιθανότητα να επιλέξει Ο είναι 1-λ). Η γυναίκα έχει δύο κόμβους απόφασης, άρα έχει να λάβει δύο αποφάσεις: Οι καθαρές στρατηγικές της γυναίκας είναι οι (Γ,Γ), (Γ,Ο), (Ο,Γ) και (Ο,Ο). Μια μικτή στρατηγική για τη γυναίκα αποτελείται από ένα ζεύγος πιθανοτήτων (μ 1, μ 2 ), όπου μ i είναι η πιθανότητα η γυναίκα να επιλέξει Γ όταν ο τύπος της είναι i, i=1,2. Οι καθαρές στρατηγικές της γυναίκας αντιστοιχούν στις μικτές στρατηγικές (1,1), (1,0), (0,1) και (0,0). 368 184
Ισορροπία Bayes-Nash (4/4) Μια ισορροπία Bayes-Nash για το συγκεκριμένο παιχνίδι είναι ένας συνδυασμός πιθανοτήτων (λ, μ 1, μ 2 ), τέτοιος ώστε κάθε παίκτης (και κάθε τύπος παίκτη) επιλέγει την καλύτερη απάντηση στην επιλογή του άλλου παίκτη: Η πιθανότητα μ 1 μεγιστοποιεί το αναμενόμενο όφελος της γυναίκας τύπου 1, όταν ο άνδρας επιλέγει Γ με πιθανότητα λ. Η πιθανότητα μ 2 μεγιστοποιεί το αναμενόμενο όφελος της γυναίκας τύπου 2, όταν ο άνδρας επιλέγει Γ με πιθανότητα λ. Η πιθανότητα λ μεγιστοποιεί το αναμενόμενο όφελος του άνδρα, ο οποίος πιστεύει ότι η γυναίκα είναι τύπου 1 με πιθανότητα ρ και επιλέγει Γ με πιθανότητα μ 1, ενώ είναι τύπου 2 με πιθανότητα 1-ρ και επιλέγει Γ με πιθανότητα μ 2. Στις επόμενες διαφάνειες θα βρούμε κάποια σημεία ισορροπίας Bayes-Nash με καθαρές και με μικτές στρατηγικές. 369 Ισορροπίες καθαρών στρατηγικών (1/3) Έστω ότι ο άνδρας αποφασίζει Γ (δηλαδή λ=1). Η καλύτερη απάντηση της γυναίκας τύπου 1 είναι επίσης Γ (μ 1 =1) και της γυναίκας τύπου 2 είναι Ο (μ 2 =0). Θα ελέγξουμε πότε η επιλογή Γ του άνδρα είναι η καλύτερη απάντηση στις επιλογές (Γ,Ο) ή ισοδύναμα (1,0), της γυναίκας. Επιλέγοντας Γ ο άνδρας έχει αναμενόμενο όφελος: 3 ρ+0 (1-ρ)=3ρ Αν επέλεγε Ο, θα είχε αναμενόμενο όφελος: 0 ρ+1 (1-ρ)=1-ρ Γ Α Γήπεδο Όπερα Γήπεδο 3,1 0,0 Όπερα 0,0 1,3 Γυναίκα προτιμά μαζί Γ Α Γήπεδο Όπερα Γήπεδο 3,0 0,3 Όπερα 0,1 1,0 Γυναίκα προτιμά χώρια 370 185
Ισορροπίες καθαρών στρατηγικών (2/3) Η επιλογή Γ για τον άνδρα είναι λοιπόν καλύτερη απάντηση στην επιλογή (Γ,Ο) της γυναίκας, όταν 3 ρ 1-ρ ή ισοδύναμα ρ 0.25. Άρα, για ρ 0.25, ο συνδυασμός (Γ,(Γ,Ο)), ή με πιθανότητες (λ=1, μ 1 =1, μ 2 =0) είναι σημείο ισορροπίας κατά Bayes- Nash, με καθαρές στρατηγικές. Παρόμοια μπορούμε να βρούμε ότι για ρ 0.75 υπάρχει το σημείο ισορροπίας (Ο, (Ο,Γ)) ή (λ=0, μ 1 =0, μ 2 =1). Δεν υπάρχει κανένα άλλο σημείο ισορροπίας με καθαρές στρατηγικές! Γ Α Γήπεδο Όπερα Γήπεδο 3,1 0,0 Όπερα 0,0 1,3 Γυναίκα προτιμά μαζί Γ Α Γήπεδο Όπερα Γήπεδο 3,0 0,3 Όπερα 0,1 1,0 Γυναίκα προτιμά χώρια 371 Ισορροπίες καθαρών στρατηγικών (3/3) Συνοψίζοντας: Για ρ>0.75 υπάρχουν δύο σημεία ισορροπίας με καθαρές στρατηγικές, τα (Γ, (Γ,Ο)) και (Ο, (Ο,Γ)). Για 0.25<ρ<0.75 υπάρχει μόνο ένα σημείο ισορροπίας με καθαρές στρατηγικές, το (Γ, (Γ,Ο)). Για ρ<0.25 δεν υπάρχει κανένα σημείο ισορροπίας με καθαρές στρατηγικές. 372 186
Ισορροπίες μικτών στρατηγικών (1/7) Είναι προφανές ότι υπάρχουν και ισορροπίες μικτών στρατηγικών, ακόμη και για ρ<0.25. Για παράδειγμα, έστω ρ=0. Τότε είναι σίγουρο ότι η γυναίκα είναι τύπου 2, οπότε ισχύει μόνο ο δεύτερος πίνακας του παιχνιδιού. Γ Α Γήπεδο Όπερα Γήπεδο 3,0 0,3 Όπερα 0,1 1,0 Γυναίκα προτιμά χώρια Το παιχνίδι τώρα μοιάζει με το «μονά-ζυγά», το οποίο έχει ισορροπία Nash με μικτές στρατηγικές. Πράγματι, για λ=0.25 και μ 2 =0.25, οι δύο παίκτες είναι αδιάφοροι για την επιλογή του αντιπάλου. 373 Ισορροπίες μικτών στρατηγικών (2/7) Έστω ότι ρ>0. Ας υποθέσουμε ότι ο άνδρας επιλέγει Γ με πιθανότητα λ. Εάν η γυναίκα τύπου 1 επιλέξει Γ, τότε το αναμενόμενο όφελός της είναι: λ 1+(1-λ) 0=λ Εάν η γυναίκα τύπου 1 επιλέξει Ο, το αναμενόμενο όφελός της είναι: λ 0+(1-λ) 3=(1-λ) 3 Προφανώς η γυναίκα θα επιλέξει αυτό που τη συμφέρει περισσότερο, εκτός εάν λ=3 (1-λ) ή λ=0.75, οπότε μπορεί να επιλέξει οποιαδήποτε μικτή στρατηγική. Γ Α Γήπεδο Όπερα Γήπεδο 3,1 0,0 Όπερα 0,0 1,3 Γυναίκα προτιμά μαζί Γ Α Γήπεδο Όπερα Γήπεδο 3,0 0,3 Όπερα 0,1 1,0 Γυναίκα προτιμά χώρια 374 187
Ισορροπίες μικτών στρατηγικών (3/7) Παρόμοια: Εάν η γυναίκα τύπου 2 επιλέξει Γ, τότε το αναμενόμενο όφελός της είναι: λ 0+(1-λ) 1=1-λ Εάν η γυναίκα τύπου 2 επιλέξει Ο, το αναμενόμενο όφελός της είναι: λ 3+(1-λ) 0=3λ Προφανώς η γυναίκα θα επιλέξει αυτό που τη συμφέρει περισσότερο, εκτός εάν 1-λ=3λ ή λ=0.25, οπότε μπορεί να επιλέξει οποιαδήποτε μικτή στρατηγική. Γ Α Γήπεδο Όπερα Γήπεδο 3,1 0,0 Όπερα 0,0 1,3 Γυναίκα προτιμά μαζί Γ Α Γήπεδο Όπερα Γήπεδο 3,0 0,3 Όπερα 0,1 1,0 Γυναίκα προτιμά χώρια 375 Ισορροπίες μικτών στρατηγικών (4/7) Ας δούμε τώρα το πρόβλημα από την πλευρά του άνδρα. Έστω ότι η γυναίκα επιλέγει τη μικτή στρατηγική (μ 1,μ 2 ). Εάν ο άνδρας επιλέξει Γ, το αναμενόμενο όφελός του είναι: ρ μ 1 3+(1-ρ) μ 2 3 Εάν ο άνδρας επιλέξει Ο, το αναμενόμενο όφελός του είναι: ρ (1-μ 1 ) 1+(1-ρ) (1-μ 2 ) 1 Ο άνδρας θα επιλέξει Γ ή Ο, ανάλογα με το ποια από τις παραπάνω δύο εκφράσεις δίνει μεγαλύτερο όφελος. Στην ειδική περίπτωση που οι δύο παρακάνω εκφράσεις είναι ίσες, ο άνδρας μπορεί να επιλέξει μικτές στρατηγικές. Γ Α Γήπεδο Όπερα Γήπεδο 3,1 0,0 Όπερα 0,0 1,3 Γυναίκα προτιμά μαζί Γ Α Γήπεδο Όπερα Γήπεδο 3,0 0,3 Όπερα 0,1 1,0 Γυναίκα προτιμά χώρια 376 188
Ισορροπίες μικτών στρατηγικών (5/7) Ας προσπαθήσουμε να βρούμε μια μικτή ισορροπία: Έστω ότι ο άνδρας επιλέγει λ=0.75. Τότε η γυναίκα τύπου 1 μπορεί να επιλέξει οποιαδήποτε μικτή στρατηγική, δηλαδή οποιοδήποτε μ 1. Ωστόσο η γυναίκα τύπου 2 θα επιλέξει υποχρεωτικά Ο (μ 2 =0). Ο άντρας μπορεί να επιλέξει μικτή στρατηγική μόνο όταν: ρ μ 1 3+(1-ρ) μ 2 3=ρ (1-μ 1 ) 1+(1-ρ) (1-μ 2 ) 1 ή ισοδύναμα (αφού μ 2 =0) μ 1 =1/(4ρ) για ρ 0.25 Για παράδειγμα, για ρ=0.5 έχουμε την μικτή ισορροπία: (λ=0.75, μ 1 =0.5, μ 2 =0) 377 Ισορροπίες μικτών στρατηγικών (6/7) Παρόμοια: Έστω ότι ο άνδρας επιλέγει λ=0.25. Τότε η γυναίκα τύπου 1 θα επιλέξει υποχρεωτικά Ο, δηλαδή μ 1 =0. Από την άλλη, η γυναίκα τύπου 2 μπορεί να επιλέξει οποιαδήποτε στρατηγική. Ο άντρας μπορεί να επιλέξει μικτή στρατηγική μόνο όταν: ρ μ 1 3+(1-ρ) μ 2 3=ρ (1-μ 1 ) 1+(1-ρ) (1-μ 2 ) 1 ή ισοδύναμα (αφού μ 1 =0) μ 2 =1/(4-4ρ) για ρ 0.75 Για παράδειγμα, για ρ=0.2 έχουμε την μικτή ισορροπία: (λ=0.25, μ 1 =0, μ 2 =0.3125) 378 189
Ισορροπίες μικτών στρατηγικών (7/7) Τα αποτελέσματα που βρήκαμε δεν είναι γενικά, αλλά αφορούν μόνο το συγκεκριμένο παράδειγμα. Η γενικότερη προσέγγιση που ακολουθήθηκε μπορεί ωστόσο να εφαρμοστεί σε οποιοδήποτε ανάλογο παράδειγμα. Συμπερασματικά: Οι πληροφορημένοι παίκτες (η γυναίκα στο συγκεκριμένο παράδειγμα) επιλέγουν τη στρατηγική τους όπως στα παιχνίδια πλήρους πληροφόρησης. Πρέπει να επιλέξουν μια στρατηγική για κάθε τύπο παιχνιδιού. Οι μη πληροφορημένοι παίκτες ουσιαστικά καλούνται να αντιμετωπίσουν μικτές στρατηγικές, όπου οι πιθανότητες καθορίζονται από τη συχνότητα εμφάνισης των διαφόρων τύπων παίκτη. 379 Παράδειγμα: Μάχη των φύλων ΙΙ (1/4) Στο παράδειγμα που είδαμε είχαμε ελλιπή πληροφόρηση μόνο όσον αφορά τον τύπο της γυναίκας. Θα δείξουμε πώς η προσέγγιση γενικεύεται όταν υπάρχει ελλιπή πληροφόρηση και για τον τύπο του άνδρα. Έστω ότι υπάρχουν δύο τύποι άνδρα: ο αισιόδοξος (τύπος 1), που θεωρεί ότι η πιθανότητα η γυναίκα να επιθυμεί κοινή έξοδο είναι ρ 1. ο απαισιόδοξος (τύπος 2), που θεωρεί ότι η πιθανότητα η γυναίκα να επιθυμεί κοινή έξοδο είναι ρ 2, όπου 0<ρ 2 <ρ 1 <1. ΠΡΟΣΟΧΗ: Οι δύο διαφορετικοί τύποι άνδρα δεν έχουν να κάνουν με τη συνάρτηση οφέλους (όπως συμβαίνει με τη γυναίκα). Τέλος η γυναίκα γνωρίζει ότι η πιθανότητα ο άντρας της να είναι αισιόδοξος είναι q. Και ο άντρας γνωρίζει αυτή τη γνώση της γυναίκας. 380 190
Παράδειγμα: Μάχη των φύλων ΙΙ (2/4) Μια στρατηγική της γυναίκας αποτελείται, όπως και πριν, από δύο επιλογές, για τους δύο τύπους της γυναίκας. Οι καθαρές στρατηγικές της γυναίκας είναι οι (Γ,Γ), (Γ,Ο), (Ο,Γ) και (Ο,Ο). Οι μικτές στρατηγικές της γυναίκας είναι όλα τα ζεύγη (μ 1,μ 2 ), όπου μ i η πιθανότητα με την οποία η γυναίκα τύπου i επιλέγει Γ. Τώρα όμως και μια στρατηγική του άντρα αποτελείται από δύο μέρη, ένα για κάθε τύπο του άντρα. Οι καθαρές στρατηγικές του άντρα είναι οι (Γ,Γ), (Γ,Ο), (Ο,Γ) και (Ο,Ο). Οι μικτές στρατηγικές του άντρα είναι όλα τα ζεύγη (λ 1,λ 2 ), όπου λ i η πιθανότητα με την οποία ο άντρας τύπου i επιλέγει Γ. 381 Παράδειγμα: Μάχη των φύλων ΙΙ (3/4) Μια ισορροπίας Bayes-Nash είναι μια τετράδα: ((λ 1,λ 2 ), (μ 1,μ 2 )) τέτοια ώστε κάθε τύπος παίκτη να έχει επιλέξει μια βέλτιστη αναμενόμενη απάντηση στις επιλογές όλων των διαφόρων τύπων του αντιπάλου. Για παράδειγμα: η πιθανότητα μ 1 μεγιστοποιεί το αναμενόμενο όφελος της γυναίκας τύπου 1, όταν ο άνδρας τύπου j επιλέγει Γ με πιθανότητα λ j και η πιθανότητα ο άνδρας να είναι τύπου 1 είναι q. η πιθανότητα λ 1 μεγιστοποιεί το αναμενόμενο όφελος του άνδρα τύπου 1, όταν η γυναίκα τύπου i επιλέγει Γ με πιθανότητα μ i και η πιθανότητα η γυναίκα να είναι τύπου 1 είναι ρ 1. 382 191
Παράδειγμα: Μάχη των φύλων ΙΙ (4/4) Παρακάτω φαίνεται η εκτατική μορφή του παιχνιδιού, με πρώτο παίκτη τη φύση να αποφασίζει για τους τύπους των δύο παικτών. Φύση Τύπος 2 Γυναίκα Γ Τύπος 1 Ο Τύπος 1 Γ Ο Γ Ο Γ Ο Άντρας Τύπος 2 Γ Ο Γ Ο Γ Ο Γ Ο Γ Ο Γ Ο Γ Ο Γ Ο 3,0 0,1 0,3 1,0 3,1 0,0 0,0 1,3 3,1 0,0 0,0 1,3 3,0 0,1 0,3 1,0 ΠΡΟΣΟΧΗ: Τα πρώτα νούμερα αντιστοιχούν στον άνδρα 383 Γενίκευση (1/2) Το γενικότερο πλαίσιο που πρότεινε ο Harsanyi (1967, 1968) για τη μελέτη των παιχνιδιών ελλιπούς πληροφόρησης έχει ως εξής: Έστω ότι έχουμε δύο παίκτες. Έστω ότι υπάρχουν Μ διαφορετικοί τύποι για τον παίκτη 1, οι ψ 1, ψ 2,..., ψ Μ. Έστω ότι υπάρχουν L διαφορετικοί τύποι για τον παίκτη 2, οι θ 1, θ 2,..., θ L. Θεωρούμε ότι στην αρχή κανένας παίκτης δεν γνωρίζει τους τύπους των παικτών (ούτε του εαυτού του δηλαδή). Στην αρχή του παιχνιδιού η «φύση» αποφασίζει για τον τύπο κάθε παίκτη, έστω (ψ j, θ i ). Κάθε παίκτης μαθαίνει το δικό του τύπο, όχι όμως του αντιπάλου. 384 192
Γενίκευση (2/2) Ο παίκτης 1, αφού «πληροφορηθεί» τον τύπο του ψ j, επιλέγει μια στρατηγική που μεγιστοποιεί το αναμενόμενο όφελός του, βάσει της εκτίμησής του για τις πιθανότητες εμφάνισης των διαφόρων τύπων του παίκτη 2. Παρόμοια, ο παίκτης 2, αφού «πληροφορηθεί» τον τύπο του θ i, επιλέγει μια στρατηγική που μεγιστοποιεί το αναμενόμενο όφελός του, βάσει της εκτίμησής του για τις πιθανότητες εμφάνισης των διαφόρων τύπων του παίκτη 1. ΠΡΟΣΟΧΗ: Διαφορετικοί τύποι του ίδιου παίκτη μπορεί να έχουν διαφορετικές εκτιμήσεις για τη συχνότητα εμφάνισης των διαφόρων τύπων του άλλου παίκτη, όπως είδαμε στη μάχη των φύλων ΙΙ. Ωστόσο, όλες οι εκτιμήσεις είναι γνωστές και στους δύο παίκτες! Εάν μπορέσουμε να βρούμε ένα σύνολο στρατηγικών, μία για κάθε τύπο παίκτη, που να είναι καλύτερες απαντήσεις στις επιλογές των αντιπάλων, τότε έχουμε βρει ένα σημείο 385 ισορροπίας Bayes-Nash Εξαρτημένες πιθανότητες (1/2) Προσοχή χρειάζεται όταν οι διάφορες κατανομές πιθανοτήτων είναι εξαρτημένες μεταξύ τους. Για παράδειγμα, στη μάχη των δύο φύλων ΙΙ, η πιθανότητα εμφάνισης του ενός τύπου συζύγου εξαρτάται από τον τύπο του άλλου συζύγου. Για παράδειγμα, η πιθανότητα εμφάνισης μιας γυναίκας που επιθυμεί κοινή έξοδο εξαρτάται από τον τύπο του άντρα (αισιόδοξος ή απαισιόδοξος). Με δεδομένο όμως ότι οι δύο παίκτες έχουν κοινή γνώση για τις πιθανότητες, η ανεξάρτητη πιθανότητα εμφάνισης ενός αισιόδοξου άντρα, q, τροποποιείται όταν γνωρίζουμε τι τύπος γυναίκας εμφανίστηκε. 386 193
Εξαρτημένες πιθανότητες (2/2) Οι εκ των προτέρων ανεξάρτητες πιθανότητες εμφάνισης των διαφόρων συνδυασμών τύπων παικτών είναι οι παρακάτω: Άνδρας Γυναίκα θ 1 Μαζί θ 2 Χώρια ψ 1, αισιόδοξος q ρ 1 q (1-ρ 1 ) ψ 2, απαισιόδοξος (1-q) ρ 2 (1-q) (1-ρ 2 ) Μια γυναίκα τύπου 1 λοιπόν (θ 1 ) θεωρεί ότι η εξαρτημένη πιθανότητα ο άντρας της να είναι αισιόδοξος είναι: q 1 q ( 1 q) 1 Παρόμοια, ένας αισιόδοξος άντρας θεωρεί ότι η πιθανότητα η γυναίκα του να επιθυμεί κοινή έξοδο είναι: q 1 1 q q (1 ) 1 1 2 387 Ισορροπίες καθαρών στρατηγικών (1/6) Θα ελέγξουμε τώρα αν και πότε το σημείο ((Γ,Ο),(Γ,Ο)), ή με πιθανότητες το σημείο (λ 1 =1, λ 2 =0, μ 1 =1, μ 2 =0), αποτελεί σημείο ισορροπίας Bayes-Nash. Εάν ο άνδρας τύπου 1 (αισιόδοξος) επιλέξει Γ, το αναμενόμενο όφελός του είναι: ρ 1 3+(1-ρ 1 ) 0=3 ρ 1 Εάν ο άνδρας τύπου 1 επιλέξει Ο, το αναμενόμενο όφελός του είναι: ρ 1 0+(1-ρ 1 ) 1=1-ρ 1 Ο άντρας τύπου 1 επιλέγει λοιπόν Γ ως καλύτερη απάντηση στις επιλογές (Γ,Ο) της γυναίκας, όταν 3ρ 1 1-ρ 1 ή ρ 1 0.25. Γ Α Γήπεδο Όπερα Γήπεδο 3,1 0,0 Όπερα 0,0 1,3 Γυναίκα προτιμά μαζί Γ Α Γήπεδο Όπερα Γήπεδο 3,0 0,3 Όπερα 0,1 1,0 Γυναίκα προτιμά χώρια 388 194
Ισορροπίες καθαρών στρατηγικών (2/6) Εάν ο άνδρας τύπου 2 (απαισιόδοξος) επιλέξει Γ, το αναμενόμενο όφελός του είναι: ρ 2 3+(1-ρ 2 ) 0=3 ρ 2 Εάν ο άνδρας τύπου 2 επιλέξει Ο, το αναμενόμενο όφελός του είναι: ρ 2 0+(1-ρ 2 ) 1=1-ρ 2 Ο άντρας τύπου 2 επιλέγει λοιπόν Ο ως καλύτερη απάντηση στις επιλογές (Γ,Ο) της γυναίκας, όταν 3ρ 2 1-ρ 2 ή ρ 2 0.25. Γ Α Γήπεδο Όπερα Γήπεδο 3,1 0,0 Όπερα 0,0 1,3 Γυναίκα προτιμά μαζί Γ Α Γήπεδο Όπερα Γήπεδο 3,0 0,3 Όπερα 0,1 1,0 Γυναίκα προτιμά χώρια 389 Ισορροπίες καθαρών στρατηγικών (3/6) Για τη γυναίκα τύπου 1, οι πιθανότητες να έχει έναν αισιόδοξο και έναν απαισιόδοξο άντρα αντίστοιχα είναι: q 11 q 1 q ( 1 q) 1 2 q 21 (1 q) 2 q (1 q) 1 2 Για τη γυναίκα τύπου 2, οι πιθανότητες να έχει έναν αισιόδοξο και έναν απαισιόδοξο άντρα αντίστοιχα είναι: q 12 q (1 1) q (1 ) (1 q) (1 ) 1 2 q 22 (1 q) (1 2) (1 q) (1 q) (1 ) 1 2 390 195
Ισορροπίες καθαρών στρατηγικών (4/6) Εάν η γυναίκα τύπου 1 επιλέξει Γ, το αναμενόμενο όφελός της είναι: q 11 1+q 21 0=q 11 Εάν η γυναίκα τύπου 1 επιλέξει O, το αναμενόμενο όφελός της είναι: q 11 0+q 21 3=3 q 21 Η γυναίκα τύπου 1 επιλέγει λοιπόν Γ ως καλύτερη απάντηση στις επιλογές (Γ,Ο) του άνδρα, όταν q 11 3 q 21 ή τελικά q ρ 1 3 ρ 2 (1-q). Γ Α Γήπεδο Όπερα Γήπεδο 3,1 0,0 Όπερα 0,0 1,3 Γυναίκα προτιμά μαζί Γ Α Γήπεδο Όπερα Γήπεδο 3,0 0,3 Όπερα 0,1 1,0 Γυναίκα προτιμά χώρια 391 Ισορροπίες καθαρών στρατηγικών (5/6) Τέλος εάν η γυναίκα τύπου 2 επιλέξει Γ, το αναμενόμενο όφελός της είναι: q 12 0+q 22 1=q 22 Εάν η γυναίκα τύπου 2 επιλέξει O, το αναμενόμενο όφελός της είναι: q 12 3+q 22 0=3 q 12 Η γυναίκα τύπου 2 επιλέγει λοιπόν Ο ως καλύτερη απάντηση στις επιλογές (Γ,Ο) του άνδρα, όταν q 22 3 q 12 ή τελικά 3 q (1-ρ 1 )>=(1-q) (1-ρ 2 ). Γ Α Γήπεδο Όπερα Γήπεδο 3,1 0,0 Όπερα 0,0 1,3 Γυναίκα προτιμά μαζί Γ Α Γήπεδο Όπερα Γήπεδο 3,0 0,3 Όπερα 0,1 1,0 Γυναίκα προτιμά χώρια 392 196
Ισορροπίες καθαρών στρατηγικών (6/6) Βρήκαμε τελικά ότι για να είναι σημείο ισορροπίας Bayes- Nash το (Γ,Ο,Γ,Ο) πρέπει να ισχύουν οι ανισότητες: ρ 1 0.25 ρ 2 0.25 q ρ 1 3 ρ 2 (1-q) 3 q (1-ρ 1 )>=(1-q) (1-ρ 2 ) Για παράδειγμα, για ρ 1 =0.8, ρ 2 =0.2, οι δύο τελευταίες ανισότητες γίνονται: q 0.43 q 0.58 Άρα, για ρ 1 =0.8, ρ 2 =0.2 και q=0.7 το σημείο (Γ,Ο,Γ,Ο) είναι σημείο ισορροπίας Bayes-Nash. Για να βρούμε το σύνολο των τιμών (q,ρ 1,ρ 2 ) για τις οποίες το παραπάνω σημείο είναι σημείο ισορροπίας, θα έπρεπε να κάνουμε ένα διάγραμμα στο χώρο. 393 Κυριαρχία στρατηγικών (1/5) Στα παιχνίδια πλήρους πληροφόρησης είδαμε την έννοια της κυριαρχίας στρατηγικών. Ειδικότερα: Εάν υπάρχει κυρίαρχη στρατηγική, ένας παίκτης παίζει πάντα αυτή. Εάν υπάρχουν κυριαρχούμενες στρατηγικές, αυτές δεν επιλέγονται πότε από τους παίκτες. Η έννοια της κυριαρχίας ορίζεται και για τα παιχνίδια ελλιπούς πληροφόρησης. Σε παιχνίδι με δύο παίκτες, μια στρατηγική s 1 κυριαρχεί έναντι μιας στρατηγικής s 2 ενός παίκτη, εάν για κάθε συνδυασμό στρατηγικών όλων των τύπων του αντιπάλου του η s 1 δίνει μεγαλύτερο αναμενόμενο όφελος από την s 2. Ανάλογα για παιχνίδια με περισσότερους από δύο παίκτες. 394 197
Κυριαρχία στρατηγικών (2/5) Έστω το παιχνίδι της Διαπραγμάτευσης Ι (ο παίκτης Α είναι πάντα άκαμπτος). Στο παιχνίδι αυτό ο παίκτης Α δεν γνωρίζει τον τύπο του Β. Οι στρατηγικές του Α είναι δύο, οι Σ και Μ. Οι στρατηγικές του Β είναι τέσσερις, οι (Σ,Σ), (Σ,Μ), (Μ,Σ) και (Μ,Μ). Η στρατηγική Σ του Α κυριαρχεί έναντι της Μ πάντα. Παρόμοια, η στρατηγική (Σ,Μ) του Β κυριαρχεί έναντι των υπολοίπων πάντα. Β Α Σ Μ Σ 1,1 3,0 Μ 0,3 2,2 Άκαμπτος Β Β Α Σ Μ Σ 1,0 3,1 Μ 0,2 2,3 Ήπιος Β 395 Κυριαρχία στρατηγικών (3/5) Στο παιχνίδι της διαπραγμάτευσης ΙΙ, ο παίκτης Α θα ήθελε να ακολουθήσει παρόμοια τακτική με τον Β (σκληρή ή μετριοπαθή). Ο παίκτης Α πρέπει να αποφασίσει ωστόσο τι τακτική θα ακολουθήσει πριν βεβαιωθεί για την τακτική του Β. Οι στρατηγικές του Α είναι οι Σ και Μ. Οι στρατηγικές του Β είναι οι (Σ,Σ), (Σ,Μ), (Μ,Σ), (Μ,Μ). Β Α Σ Μ Σ 1,1 3,0 Μ 0,3 2,2 Άκαμπτος Β Β Α Σ Μ Σ 0,0 2,1 Μ 1,2 3,3 Ήπιος Β 396 198
Κυριαρχία στρατηγικών (4/5) Θα ελέγξουμε αν και πότε η στρατηγική Σ του Α κυριαρχεί της Μ. Θα πρέπει για κάθε στρατηγική του Β να έχει μεγαλύτερο αναμενόμενο όφελος. Απέναντι στην (Σ,Σ) του Β, οι στρατηγικές Σ και Μ του Α έχουν αναμενόμενο όφελος: Σ: ρ*1+(1-ρ)*0=ρ Μ: ρ*0+(1-ρ)*1=1-ρ Θα πρέπει ρ 1-ρ ή ρ 0.5 Το ίδιο αποτέλεσμα προκύπτει και για τις υπόλοιπες τρεις στρατηγικές του Β. Άρα για ρ 0.5, η Σ κυριαρχεί επί της Μ για τον Α (και αντίστροφα για ρ<0.5). Προφανώς κυρίαρχη στρατηγική του Β είναι η (Σ,Μ). Β Α Σ Μ Σ 1,1 3,0 Μ 0,3 2,2 Άκαμπτος Β Β Α Σ Μ Σ 0,0 2,1 Μ 1,2 3,3 Ήπιος Β 397 Κυριαρχία στρατηγικών (5/5) Τέλος, στα παιχνίδια με ελλιπή πληροφόρηση μπορεί να εφαρμοστεί και η επαναλαμβανόμενη απαλοιφή κυριαρχούμενων στρατηγικών (Iterated Elimination of Dominated Strategy, IEDS). Ο παίκτης Α μπορεί να μην έχει αρχικά καμία κυριαρχούμενη στρατηγική, ύστερα όμως από την απαλοιφή κυριαρχούμενων στρατηγικών του Β μπορεί να αποκτήσει και ο Α. Η διαδικασία αυτή μπορεί να επαναληφθεί για πολλούς κύκλους! 398 199
Μελέτη περίπτωσης: Δυοπώλιο Cournot με ελλιπή πληροφόρηση 399 Σύνοψη (1/3) Έχουμε δει την περίπτωση του δυοπωλίου Cournot, όπου δυο εταιρείες, 1 και 2, παράγουν ισοδύναμα προϊόντα. Οι ποσότητες παραγωγής των δύο εταιρειών είναι Q 1 και Q 2. Η τιμή πώλησης του προϊόντος είναι: P=a-b(Q 1 +Q 2 ), a>0, b>0. Το κόστος παραγωγής ανά μονάδα προϊόντος είναι κοινό για τις δύο εταιρείες και ίσο με c. Έχουμε δει ότι η συνάρτηση καλύτερης απάντησης της εταιρείας i σε παραγωγή Q j της εταιρείας j, όπου i j, είναι: a c bq R b i ( Q j ) 2 0, j a c, εάν Q j b a c εάν Q j b 400 200
Σύνοψη (2/3) Το σημείο ισορροπίας Nash είναι ένα σημείο (Q 1 *, Q 2 *), για το οποίο ισχύει: Q 1 *=R 1 (Q 2 *) Q 2 *=R 2 (Q 1 *) Έχουμε δείξει ότι στο σημείο αυτό ισχύουν: * * a c Q1 Q2 3b 1 2 P a c 3 3 ( a c) 1 2 9b 2 401 Σύνοψη (3/3) Στο διάγραμμα φαίνονται οι συναρτήσεις καλύτερης απάντησης στο ίδιο διάγραμμα. Η τομή τους είναι το σημείο ισορροπίας. 402 201
Δυοπώλιο με ελλιπή πληροφόρηση Έστω τώρα ότι υπάρχει αβεβαιότητα στην εταιρεία 1 σχετικά με το κόστος παραγωγής της εταιρείας 2. Το κόστος παραγωγής της εταιρείας 1 είναι c. Το κόστος παραγωγής της εταιρείας 2 είναι c+ε. Την ακριβή τιμή του ε τη γνωρίζει μόνο η εταιρεία 2. Θεωρούμε ότι η απόκλιση ε έχει γνωστή κατανομή με μέση τιμή όμως 0: Ε(ε)=0 Θέλουμε να δούμε πώς μεταβάλλονται οι παραγωγές των δύο εταιρειών και τα κέρδη τους, ανάλογα με την τιμή του ε. Επίσης θέλουμε να δούμε αν και πότε συμφέρει την εταιρεία 2 να φανερώσει το κόστος παραγωγής της. 403 Ανάλυση (1/3) Για την εταιρεία 2 (με γνωστό κόστος παραγωγής c+ε) η συνάρτηση καλύτερης απάντησης βρίσκεται ότι είναι: Q ( ) R a ( c ) bq1 a ( c ), εάν Q1 ( Q 2b b 1) a ( c ) 0, εάν Q1 b 2 2 Μπορούμε μάλιστα να παρατηρήσουμε ότι ισχύει: R 0 Q1 ) R2 ( Q ) 2b 2 ( 1 Επίσης παρατηρούμε ότι ΕQ 2 (ε)=q 2 (0), δηλαδή η αναμενόμενη παραγωγή της εταιρείας 2 ως καλύτερη απάντηση στην παραγωγή της εταιρείας 1 είναι αυτή που θα ήταν αν ε=0. 404 202
Ανάλυση (2/3) Η εταιρεία 1 δεν γνωρίζει ποια είναι η παραγωγή της εταιρείας 2. Εάν η παραγωγή της εταιρείας 2 είναι Q 2 (ε), τότε το κέρδος της εταιρείας 1 για παραγωγή Q 1 είναι: π 1 (Q 1,ε)=[a-b (Q 1 +Q 2 (ε))-c] Q 1 Λόγω της αβεβαιότητας, η εταιρεία 1 επιθυμεί να μεγιστοποιήσει το αναμενόμενο κέρδος της, το οποίο είναι: Επ 1 (Q 1,ε)=[a-b (Q 1 +ΕQ 2 (ε))-c] Q 1 Όμως ΕQ 2 (ε) =Q 2 (0), άρα το αναμενόμενο κέρδος της 1 είναι αυτό που θα είχε αν το κόστος της 2 ήταν c. Τελικά η καλύτερη απάντηση της 1 είναι: a c bq2 (0) a c, εάν Q2 (0) Q R Q 2b b 1 1( 2( )) a c 0, εάν Q2 (0) b 405 Ανάλυση (3/3) Ένα σημείο ισορροπίας Bayes-Nash, Q 1 *, Q 2 *(ε), θα πρέπει να έχει τις ιδιότητες: Q 1 *=R 1 (Q 2 *(ε)) Q 2 *(ε)=r 2ε (Q 1 *) Μετά από λίγες πράξεις προκύπτει το αποτέλεσμα: Q * 1 a c, 3b Η τιμή που θα διαμορφωθεί στην αγορά είναι: P Τα κέρδη των δύο εταιρειών είναι: a c Q2 ( ) 3b 2b (0)) P 2 * * * * * * ( ) a b( Q1 Q2 ( )) a b( Q 1 Q2 * ( ) ( P 1 * c) Q 2 * 1, * ( ) ( P 2 * c )( Q 2 * 2 2 (0) ) 2b Η τιμή για ε=0 406 203
Συμπεράσματα Η παραγωγή της 1 δεν αλλάζει. Για θετικό ε: Η παραγωγή της 2 μειώνεται. Η τιμή πώλησης αυξάνεται. Τα κέρδη της 1 αυξάνονται. Τα κέρδη της 2 μειώνονται. Το ακριβώς αντίθετα συμπεράσματα προκύπτουν για αρνητικό ε. 407 Λύση με πλήρη πληροφόρηση (1/2) Τι θα γινόταν εάν η εταιρεία 1 γνώριζε την τιμή του ε; Οι συναρτήσεις καλύτερης απάντησης είναι οι: Q ( ) R a ( c ) bq1 a ( c ), εάν Q1 ( Q 2b b 1) a ( c ) 0, εάν Q1 b 2 2 a c bq2 ( ) a c, εάν Q2 ( ) Q R Q 2b b 1 1( 2( )) a c 0, εάν Q2 ( ) b Η μόνη διαφορά στις παραπάνω συναρτήσεις (σε σχέση με την περίπτωση ελλιπούς πληροφόρησης της εταιρείας 1) είναι ότι η καλύτερη απάντηση της 1 υπολογίζεται βάσει της πραγματικής παραγωγής Q 2 (ε) της εταιρείας 2 (και όχι της αναμενόμενης Q 2 (0). 408 204
Λύση με πλήρη πληροφόρηση (2/2) Το σημείο ισορροπίας Nash είναι πλέον το Q 1# (ε), Q 2# (ε): # a c # a c 2 Q1 ( ), Q2 ( ) 3b 3b 3b 3b Η τιμή και τα κέρδη των εταιρειών διαμορφώνονται ως: P P* 3 # ( ) ( P 1 # ( ) ( P 2 * * * c)( Q1 ) 3 3b 2 * 2 c)( Q2 ) 3 3b 409 Συμπεράσματα Εάν η εταιρεία 1 γνωρίζει την τιμή του ε, τότε για ε>0: Η εταιρεία 1 αυξάνει την παραγωγή της. Η εταιρεία 2 μειώνει την παραγωγή της, και μάλιστα περισσότερο από όσο θα την μείωνε αν η 1 δεν γνώριζε την τιμή του ε. Η τιμή είναι και πάλι αυξημένη σε σχέση με την τιμή για ε=0, αλλά λιγότερο από όταν η 1 δεν γνώριζε την τιμή του ε. Τα κέρδη της εταιρείας 1 είναι ελαφρώς αυξημένα. Τα κέρδη της εταιρείας 2 είναι σαφώς χαμηλότερα. Άρα, εάν ε>0, δεν συμφέρει στην εταιρεία 2 να φανερώσει το κόστος παραγωγής της. Ανάλογα (αλλά αντίθετα) συμπεράσματα προκύπτουν όταν ε<0. Μάλιστα, εάν ε<0, συμφέρει την εταιρεία 2 να φανερώσει το κόστος παραγωγής της στους αντιπάλους. Συμπέρασμα: Εάν μια εταιρεία δεν φανερώνει το κόστος παραγωγής της, μάλλον αυτό είναι μεγάλο! 410 205
Mechanism design Σχεδίαση μηχανισμών 411 Εισαγωγή Η σχεδίαση μηχανισμών αφορά τη δημιουργία παιχνιδιών για να παίξουν κάποιοι παίκτες με τέτοιο τρόπο, ώστε να μεγιστοποιηθεί το όφελος αυτού που σχεδιάζει/διοργανώνει το παιχνίδι. Οι παίκτες και οι προτιμήσεις τους είναι δεδομένες. Ο σχεδιαστής καθορίζει τις διαθέσιμες ενέργειες στους παίκτες και το αποτέλεσμα τους για κάθε συνδυασμό τους. ΠΡΟΣΟΧΗ: Οι παίκτες δεν είναι υποχρεωμένοι να παίξουν! Στο παιχνίδι οι παίκτες θα επιλέξουν ένα σημείο ισορροπίας. 412 206
Παράδειγμα: Το πρόβλημα των κοινών Η κυβέρνηση θα μπορούσε να θέσει τους κανόνες χρήσης των κοινών πόρων ως εξής: Εκδοχή 1: Στην αρχή κάθε χρόνου η κυβέρνηση εκχωρεί το αποκλειστικό δικαίωμα χρήσης του πόρου για έναν χρόνο, στον ενδιαφερόμενο που θα κάνει την καλύτερη προσφορά. Εκδοχή 2: Η κυβέρνηση, κατόπιν πλειοδοτικού διαγωνισμού, εκχωρεί το δικαίωμα χρήσης του κοινόχρηστου πόρου για πάντα στον ενδιαφερόμενο που θα πλειοδοτήσει. Ιδιωτικοποίηση Εκδοχή 3: Η κυβέρνηση επιτρέπει σε κάθε ενδιαφερόμενο να χρησιμοποιεί τον πόρο, θέτει όμως ένα τέλος χρήσης ανάλογο με τον βαθμό χρήσης. Κάθε μία από τις παραπάνω εκδοχές θα έχει ένα διαφορετικό όφελος για την κυβέρνηση, και άρα πρέπει να βρει αυτή που τη συμφέρει περισσότερο. 413 Παράδειγμα: Δημοπρασία με έναν παίκτη (1/2) Έστω ότι ένας οίκος ενδιαφέρεται να πουλήσει ένα πανάκριβο έργο τέχνης και υπάρχει μόνο ένας που θα μπορούσε να το αγοράσει. Το πρόβλημα είναι ότι ο οίκος δεν γνωρίζει πόσα χρήματα θα ήταν διατεθειμένος ο αγοραστής να πληρώσει. Έστω ότι υπάρχουν δύο ενδεχόμενα: Ο αγοραστής να είναι φανατικός λάτρης της τέχνης και άρα είναι διατεθειμένος να πληρώσει ένα μεγάλο ποσό. Ο αγοραστής είναι απλός θαυμαστής και άρα είναι διατεθειμένος να πληρώσει ένα σημαντικά μικρότερο ποσό. 414 207
Παράδειγμα: Δημοπρασία με έναν παίκτη (2/2) Μερικές εκδοχές για το πώς θα μπορούσε να διοργανωθεί η δημοπρασία είναι οι εξής: Εκδοχή 1: Ο οίκος θέτει μια μεγάλη τιμή, που μόνο ένας φανατικός λάτρης θα ήταν διατεθειμένος να τη δεχτεί. Εκδοχή 2: Ο οίκος θέτει μια μικρότερη τιμή, που θα μπορούσε να τη δεχτεί και ένας απλός θαυμαστής. Όχι όμως και ένας κοινός άνθρωπος... Εκδοχή 3: Ο οίκος θέτει δύο τιμές, μια μεγάλη και μια μικρή. Η μεγάλη τιμή εγγυάται ότι ο ενδιαφερόμενος θα πάρει το έργο σίγουρα, ενώ η μικρή επιτρέπει στον οίκο, με κάποια γνωστή πιθανότητα, να αποσύρει το έργο από τη δημοπρασία. 415 Παράδειγμα: Δημοπρασία με πολλούς παίκτες Έστω ότι ο οίκος θέτει το έργο σε ανοικτή δημοπρασία. Προφανώς ο οίκος θέλει να πουλήσει το έργο στον ενδιαφερόμενο που είναι διατεθειμένος να δώσει το μεγαλύτερο ποσό και για όλο το ποσό αυτό. Από την άλλη όμως, κανείς υποψήφιος αγοραστής δεν θέλει να αποκαλύψει το ποσό που είναι διατεθειμένος να πληρώσει, ελπίζοντας να αγοράσει το έργο σε χαμηλότερη τιμή. Μερικές από τις δυνατές εκδοχές είναι οι εξής: Εκδοχή 1: Οι ενδιαφερόμενοι κάνουν τις προσφορές τους και το έργο κατοχυρώνεται σε αυτόν που θα υποβάλλει την μεγαλύτερη προσφορά και για την τιμή αυτή (first-price auction). Εκδοχή 2: Οι ενδιαφερόμενοι κάνουν τις προσφορές τους και το έργο κατοχυρώνεται σε αυτόν που θα κάνει την μεγαλύτερη προσφορά, για την τιμή όμως της αμέσως επόμενης προσφοράς (second-price auction). 416 208
Δημοπρασία με έναν αγοραστή 417 Περιγραφή Θα εξετάσουμε αναλυτικά το παράδειγμα της δημοπρασίας με έναν παίκτη, για τον οποίο δεν είναι γνωστή η αξία που δίνει στο έργο. Έστω θ η αξία για έναν φανατικό λάτρη και μ η αξία για έναν απλό θαυμαστή. θ>μ>0 ΠΡΟΣΟΧΗ: Για απλοποίηση εκφράζουμε την ωφέλεια κάθε παίκτη σε χρηματικά ποσά. Έστω ρ η πιθανότητα ο αγοραστής να είναι φανατικός λάτρης. Θα εξετάσουμε πώς θα έπρεπε ο οίκος να πουλήσει το έργο στον υποψήφιο αγοραστή. 418 209
Περίπτωση γνωστού αγοραστή Εάν ο οίκος γνώριζε ότι ο αγοραστής είναι φανατικός λάτρης, θα έθετε την τιμή πώλησης σε θ. Παρόμοια, εάν ο οίκος γνώριζε ότι ο αγοραστής είναι απλός θαυμαστής, θα έθετε την τιμή πώλησης σε μ. Για να είναι σίγουρος ότι ο αγοραστής θα δεχθεί την προσφορά, κανονικά θα έπρεπε να θέσει την τιμή πώλησης ελαφρώς κάτω από τις τιμές θ και μ. Εάν λοιπόν ο οίκος έχει τρόπο να «μαντέψει» τον τύπο του αγοραστή, το αναμενόμενο κέρδος του (πριν μαντέψει...) είναι: π max =ρ θ+(1-ρ) μ Το παραπάνω αναμενόμενο κέρδος είναι το μέγιστο που μπορεί να πετύχει ο οίκος. 419 Ερώτηση στον αγοραστή Μια «θεωρητική» εκδοχή θα ήταν να ρωτηθεί ο αγοραστής εάν είναι φανατικός λάτρης ή απλός θαυμαστής. Ανάλογα με την απάντησή του η τιμή πώλησης θα τεθεί σε θ ή μ αντίστοιχα. Ο αγοραστής γνωρίζοντας αυτή τη συνέπεια δεν έχει κανέναν λόγο να ομολογήσει ότι είναι φανατικός λάτρης (εάν είναι), ώστε σε κάθε περίπτωση να πληρώσει μόνο μ. μ<π max 420 210
Μία τιμή Μια άλλη εκδοχή θα ήταν να τεθεί μία μόνο τιμή. Η μόνη «λογική» τιμή που θα μπορούσε να ελκύσει και τους δύο παίκτες είναι η μ. Σε αυτή την περίπτωση, τα έσοδα του οίκου είναι μ, ενώ το κέρδος του αγοραστή είναι θ-μ ή 0, ανάλογα με τον τύπο του. Εάν ο οίκος θέσει σταθερή τιμή μεγαλύτερη από μ, τότε αυτή θα πρέπει να είναι θ. Σε αυτή την περίπτωση, μόνο ο φανατικός λάτρης θα αγοράσει το έργο, με αναμενόμενα έσοδα για τον οίκο ρ θ ( <π max ). 421 Συνδυασμός τιμών (1/2) Ο οίκος μπορεί να προτείνει δύο τιμές, μια υψηλή p (p θ) στην οποία η συναλλαγή είναι εξασφαλισμένη, και μια χαμηλή q (q<p, q μ), στην οποία η πιθανότητα να πραγματοποιηθεί η συναλλαγή είναι Q. Ένας φανατικός λάτρης θα επιλέξει τη βέβαιη επιλογή, εάν ισχύει: p Qq (θ-p) Q(θ-q) ή ισοδύναμα: 1 Q Παρόμοια, ένας απλός θαυμαστής θα επέλεγε την αβέβαιη περίπτωση εάν: p Qq Q(μ-q) μ-p ή ισοδύναμα: 1 Q Τελικά, για να επιλέγει ένας φανατικός λάτρης την βέβαιη περίπτωση και ένας απλός θαυμαστής την αβέβαιη, πρέπει: p Qq 1 Q 422 211
Συνδυασμός τιμών (2/2) Η τελευταία ανισότητα ονομάζεται περιορισμός συμβατότητας κινήτρων (incentive-compatibility constraint). Κάθε παίκτης επιλέγει την επιλογή που «σχεδιάστηκε» για αυτόν. Φυσικά πρέπει να ισχύουν και οι ανισότητες: θ p, μ q Οι παραπάνω ανισότητες ονομάζονται περιορισμοί ατομικής ορθολογικότητας (individual-rationality constraint). Εάν ισχύουν όλοι οι παραπάνω περιορισμοί, τότε τα αναμενόμενα έσοδα του οίκου είναι: Επ=ρ p+(1-ρ) Q q Το πρόβλημα σχεδίασης μηχανισμού αναδιατυπώνεται πλέον ως εξής: Βρείτε τα p, q και Q τα οποία πληρούν τους παραπάνω περιορισμούς και μεγιστοποιούν τα αναμενόμενα έσοδα του 423 οίκου. Ανάλυση (1/3) p Qq Από τον περιορισμό και μετά από λίγες πράξεις προκύπτει ότι θ>p. 1 Q Πράγματι: p Qq Q p Qq 1Q οπότε με δεδομένο ότι θ>q, άρα θq<-qq προκύπτει ότι θ>p. Άρα ο περιορισμός αυτός αρκεί για να ικανοποιήσουμε και τον περιορισμό της ατομικής ορθολογικότητας για την περίπτωση του φανατικού λάτρη. Με δεδομένο ότι όσο αυξάνει το p αυξάνει και η ποσότητα μπορούμε να αυξήσουμε το p έως ότου συμβεί: p Qq 1 Q Έτσι μεγιστοποιούμε τα κέρδη, χωρίς να διακινδυνεύουμε να 424 αποσυρθεί ο φανατικός λάτρης της τέχνης! p Qq 1 Q 212
Ανάλυση (2/3) Από την άλλη, είναι εύκολο να δούμε ότι η χαμηλή τιμή q μπορεί να αυξηθεί μέχρι την τιμή μ, χωρίς να παραβιάζει κανέναν περιορισμό. Πράγματι, αν μ=q τότε ο περιορισμός p Qq 1 Q εκφυλίζεται στον p>μ που προφανώς ισχύει. p Qq Τέλος από τις σχέσεις q=μ και προκύπτει: 1 Q p Q ( 1Q) 425 Ανάλυση (3/3) Αντικαθιστώντας στην σχέση που μας δίνει το αναμενόμενο κέρδος του οίκου: Επ=ρ p+(1-ρ) Q q βρίσκουμε: Επ=Qμ+(1-Q)ρθ Στην παραπάνω σχέση η μόνη παράμετρος είναι η Q, ενώ όλοι οι περιορισμοί ικανοποιούνται. Η παραπάνω σχέση είναι γραμμική, άρα δεν έχει ακρότατο! Ωστόσο, με δεδομένο ότι 0 Q 1, μπορούμε να βρούμε ακρότατα για Q=0 και για Q=1 : Εάν μ<ρθ, τότε το μέγιστο είναι για Q=0. Σε αυτή την περίπτωση ουσιαστικά ο οίκος αρνείται να πουλήσει στον απλό θαυμαστή (και άρα p=θ). Εάν μ>ρθ, τότε το μέγιστο είναι για Q=1. Σε αυτή την περίπτωση ο οίκος πουλά και στους δύο, στην τιμή p=q=μ. 426 213
Συμπεράσματα Είδαμε τελικά ότι τα κέρδη του οίκου μεγιστοποιούνται όταν δεν υπάρχει αβεβαιότητα (Q=0 ή Q=1). Άρα ο μηχανισμός που σχεδιάσαμε αποδείχθηκε ισοδύναμος ενός μηχανισμού με σταθερή τιμή, είτε θ ή μ, ανάλογα με τη σχέση των ποσοτήτων μ και ρθ. Ο μηχανισμός συνδυασμού δύο τιμών, εφόσον αυτές πληρούν τους δύο περιορισμούς, έχει και μια ακόμη ιδιότητα: Οι παίκτες δεν έχουν πλέον λόγο να κρύβουν τον τύπο τους. Μπορούν να τον ανακοινώσουν στον οίκο και βάσει του τύπου τους να επιλέξουν μια από τις δύο επιλογές. Ένας τέτοιες μηχανισμός, που έχει ξεχωριστές επιλογές ειδικά σχεδιασμένες για διαφορετικούς τύπους παικτών, ονομάζεται μηχανισμός άμεσης αποκάλυψης. direct revelation mechanism 427 Revelation principle Αρχή της αποκάλυψης 428 214
Παιχνίδια ενός παίκτη (1/3) Έστω ότι έχουμε έναν μόνο παίκτη με δύο τύπους, θ και μ. Έστω ρ η πιθανότητα να είναι τύπου θ. Ένας μηχανισμός είναι ένα σύνολο κανόνων (το παιχνίδι) που καθορίζει ποιες ενέργειες μπορεί να εκτελέσει ο παίκτης. Αυτό το οποίο είναι δεδομένο εξαρχής είναι η συνάρτηση απολαβής του παίκτη, η οποία καθορίζει το όφελός του ανάλογα με τον τύπο του και τη στρατηγική που επιλέγει. Για παράδειγμα, με π(s,θ) συμβολίζουμε το όφελος του παίκτη εάν ο τύπος του είναι θ και επιλέξει τη στρατηγική s. Έστω ότι για ένα συγκεκριμένο μηχανισμό υπάρχουν μια στρατηγική s θ για τον τύπο θ του παίκτη και μια στρατηγική s μ για τον τύπο μ του παίκτη, έτσι ώστε: π(s θ,θ) π(s,θ) για κάθε s π(s μ,μ) π(s,μ) για κάθε s Το σύνολο στρατηγικών s θ, s μ ονομάζεται συμβατό με τα κίνητρα (incentive compatible). 429 Παιχνίδια ενός παίκτη (2/3) Με άλλα λόγια, οι στρατηγικές s θ και s μ είναι κυρίαρχες για τους αντίστοιχους τύπους παίκτη. Επειδή ωστόσο κανείς παίκτης δεν μπορεί να εξαναγκαστεί να παίξει ένα παιχνίδι, για τις στρατηγικές αυτές θα πρέπει επίσης να ισχύει: π(s θ,θ) π 0 π(s μ,μ) π 0 όπου π 0 το όφελος από το να μην συμμετάσχει καθόλου ο παίκτης στο παιχνίδι. Οι τελευταίες ανισότητες ονομάζονται περιορισμοί ατομικής ορθολογικότητας (individual-rationality constraints). Ο σχεδιαστής μηχανισμών λοιπόν πρέπει να βρει έναν μηχανισμό που να διαθέτει συμβατό με τα κίνητρα σύνολο στρατηγικών και να πληρεί τους περιορισμούς ατομικής ορθολογικότητας, τέτοιο ώστε να μεγιστοποιείται το αναμενόμενο όφελος του σχεδιαστή. 430 215
Παιχνίδια ενός παίκτη (3/3) Στη σχεδίαση μηχανισμών για παιχνίδια ενός παίκτη αποδεικνύεται το εξής: Για οποιοδήποτε μηχανισμό και μια ανάθεση στρατηγικών για τους διάφορους τύπους του παίκτη η οποία είναι συμβατή με τα κίνητρα και ατομικά ορθολογική, μπορεί να κατασκευαστεί ένας μηχανισμός που βασίζεται απλά στην αποκάλυψη εκ μέρους του παίκτη του τύπου του και ο οποίος παράγει την ίδια ακριβώς αντιστοίχηση όταν οι παίκτες λένε την αλήθεια. Έτσι ο σχεδιαστής μηχανισμών μπορεί να ασχοληθεί μόνο με μηχανισμούς άμεσης αποκάλυψης. Η παραπάνω αρχή ονομάζεται αρχή της αποκάλυψης για παιχνίδια ενός παίκτη (revelation principle Ι). 431 Παιχνίδια με πολλούς παίκτες (1/2) Έστω ότι έχουμε δύο παίκτες, κάθε ένας από τους οποίους μπορεί να είναι τύπου θ ή τύπου μ. Έστω ρ η πιθανότητα για κάθε παίκτη να είναι τύπου θ. Έστω ένα σύνολο στρατηγικών (s 1θ,s 1μ,s 2θ,s 2μ ) το οποίο αποτελεί σημείο ισορροπίας Bayes-Nash, δηλαδή: Η στρατηγική s 1θ μεγιστοποιεί το αναμενόμενο όφελος του παίκτη 1 τύπου θ, εάν ο αντίπαλος επιλέγει, ανάλογα με τον τύπο του, s 2θ και s 2μ αντίστοιχα. Παρόμοια ισχύουν για τις s 1μ, s 2θ και s 2μ. Έστω λοιπόν ο παρακάτω μηχανισμός άμεσης αποκάλυψης: Κάθε παίκτης φανερώνει τον τύπο του (πριν μάθει τον τύπο του αντιπάλου) και το παιχνίδι οδηγείται στην αντίστοιχη ισορροπία. Είναι φανερό ότι στον παραπάνω μηχανισμό άμεσης αποκάλυψης, κανείς παίκτης δεν έχει λόγο να πει ψέματα! 432 216
Παιχνίδια με πολλούς παίκτες (2/2) Ισχύει λοιπόν το εξής: Για οποιοδήποτε μηχανισμό και για οποιοδήποτε σημείο ισορροπίας Bayes-Nash αυτού του μηχανισμού, μπορεί να κατασκευαστεί ένας μηχανισμός άμεσης αποκάλυψης ο οποίος παράγει την βέλτιστη αντιστοίχηση ενεργειών για τους παίκτες όταν αυτοί λένε την αλήθεια. Έτσι ο σχεδιαστής μηχανισμών μπορεί να ασχοληθεί μόνο με μηχανισμούς άμεσης αποκάλυψης. Η παραπάνω αρχή ονομάζεται αρχή της αποκάλυψης για παιχνίδια πολλών παικτών (revelation principle ΙΙ). 433 Παράδειγμα: Πώληση μεταβλητής ποσότητας (1/8) Έστω ότι μια εταιρεία μπορεί να πουλά μεταβλητές ποσότητες ενός προϊόντος σε υποψήφιους αγοραστές. Για παράδειγμα, δημοπρασίες ομολόγων Έστω ότι υπάρχουν δύο τύποι αγοραστών, A και B. Μια ποσότητα Q έχει αξία για τον τύπο A ίση με 2 (10 Q-Q 2 ). Η ίδια ποσότητα έχει αξία για τον τύπο B ίση με (10 Q-Q 2 ). Το κόστος παραγωγής ανά μονάδα για την εταιρεία είναι 2. Έστω ρ η πιθανότητα ένας αγοραστής να είναι τύπου A. Άρα η πιθανότητα να είναι τύπου B είναι 1-ρ. Η εταιρεία πρέπει να βρει ποια ποσότητα θα πουλήσει σε κάθε αγοραστή και σε ποια τιμή. 434 217
Παράδειγμα: Πώληση μεταβλητής ποσότητας (2/8) Έστω ότι η εταιρεία γνωρίζει τον τύπο του αγοραστή. Εάν αυτός είναι A, τότε η εταιρεία θα πουλήσει το προϊόν στην μέγιστη δυνατή τιμή, η οποία είναι 2 (10 Q-Q 2 ) Το κέρδος της εταιρείας σε αυτή την περίπτωση είναι: 2 (10 Q-Q 2 )-2Q Το κέρδος μεγιστοποιείται για Q=4.5. Για την ποσότητα αυτή η τιμή πώλησης (για το σύνολο της ποσότητας) είναι P A =49.5 και το κέρδος 40.5. Εκτελώντας παρόμοιους υπολογισμούς για την περίπτωση ενός γνωστού παίκτη τύπου Β βρίσκουμε ότι: Η εταιρεία θα πουλήσει ποσότητα q=4 στην τιμή P B =24 με κέρδος για την εταιρεία 16. 435 Παράδειγμα: Πώληση μεταβλητής ποσότητας (3/8) Η εταιρεία θα μπορούσε να αντιμετωπίσει όλους τους αγοραστές σαν να ήταν τύπου Β, θέτοντας Q=q=4 και P=P B =24. Το κέρδος της εταιρείας ανά αγοραστή θα είναι 16. Μια άλλη επιλογή είναι η εταιρεία να αγνοήσει τους αγοραστές τύπου Β και να θεωρήσει ότι όλοι οι αγοραστές είναι τύπου Α, θέτοντας ως μόνη επιλογή την Q=4.5 και P=P A =49.5. Το αναμενόμενο κέρδος της εταιρείας σε αυτή την περίπτωση είναι ρ 40.5. Θα προσπαθήσουμε να βρούμε μια ενδιάμεση κατάσταση, όπου η εταιρεία να πουλά και στους δύο τύπους αγοραστών. 436 218
Παράδειγμα: Πώληση μεταβλητής ποσότητας (4/8) Με βάση την αρχή της αποκάλυψης, γνωρίζουμε ότι μπορούμε να αναζητήσουμε μόνο μηχανισμούς άμεσης αποκάλυψης όπου: Ο παίκτης θα δηλώνει τον τύπο του. Εάν ο τύπος του είναι Α, θα παίρνει ποσότητα Q στην τιμή Μ. Εάν ο τύπος του είναι Β, θα παίρνει ποσότητα q στην τιμή m. Προφανώς Q>q και M>m. Οι περιορισμοί συμβατότητας κινήτρων μας λένε ότι: 2 (10 Q-Q 2 )-M 2 (10 q-q 2 )-m (10 q-q 2 )-m (10 Q-Q 2 )-M Οι περιορισμοί ατομικής ορθολογικότητας μας λένε ότι: 2 (10 Q-Q 2 )-M 0 (10 q-q 2 )-m 0 437 Παράδειγμα: Πώληση μεταβλητής ποσότητας (5/8) Το αναμενόμενο κέρδος της εταιρείας είναι: ρ (Μ-2 Q)+(1-ρ) (m-2 q) Από τους δύο περιορισμούς ατομικής ορθολογικότητας: 2 (10 Q-Q 2 )-M 0 (10 q-q 2 )-m 0 τουλάχιστον σε έναν πρέπει να ισχύει η ισότητα. Πράγματι, αν και για τους δύο ισχύει το >0, τότε μπορούμε να αυξήσουμε λίγο το m και λίγο το Μ, προσέχοντας να μην παραβιάσουμε τους περιορισμούς συμβατότητας κινήτρων, αυξάνοντας έτσι τα αναμενόμενα κέρδη της εταιρείας. Με δεδομένο ότι: 2 (10 Q-Q 2 )-M 2 (10 q-q 2 )-m (10 q-q 2 )-m είναι φανερό ότι τελικά πρέπει να ισχύει: (10 q-q 2 )-m=0 438 219
Παράδειγμα: Πώληση μεταβλητής ποσότητας (6/8) Επίσης, μπορούμε να δούμε ότι ο πρώτος περιορισμός συμβατότητας κινήτρων: 2 (10 Q-Q 2 )-M 2 (10 q-q 2 )-m πρέπει να ισχύει με ισότητα. Αν δεν ισχύει η ισότητα, τότε η εταιρεία μπορεί να αυξήσει το Μ, αυξάνοντας τα κέρδη της, χωρίς να κινδυνεύει να αλλάξει ο παίκτης τύπου Α την επιλογή του. Άρα: 2 (10 Q-Q 2 )-M=2 (10 q-q 2 )-m Αντικαθιστώντας, βάσει των δύο εξισώσεων που βρήκαμε, τα Μ και m στο αναμενόμενο κέρδος της εταιρείας, αυτό γίνεται: ρ (18 Q-2 Q 2 )+(1-2 ρ) (10 q-q 2 )-(1-ρ) 2 q 439 Παράδειγμα: Πώληση μεταβλητής ποσότητας (7/8) Από τη μορφή που έχει η σχέση για το αναμενόμενο κέρδος, παρατηρούμε ότι αυτό μπορεί να μεγιστοποιηθεί ξεχωριστά για Q και ξεχωριστά για q. Βρίσκουμε λοιπόν ότι αυτό μεγιστοποιείται για: Q=4.5 q=(4-9ρ)/(1-2ρ) Προφανώς, επειδή πρέπει να ισχύει q 0, για τιμές του ρ>4/9 θεωρούμε ότι q=0. 440 220
Παράδειγμα: Πώληση μεταβλητής ποσότητας (8/8) Από τις εξισώσεις που βρήκαμε νωρίτερα προκύπτουν και οι τιμές πώλησης του προϊόντος. Ειδικότερα: Για ρ<=4/9, η εταιρεία πουλά και στους δύο τύπους πελάτη. Στους πελάτες τύπου Β πουλά ποσότητα q=(4-9ρ)/(1-2ρ) στην τιμή m=10q-q 2 (ακριβώς όσο είναι η αξία αυτής ποσότητας για τους πελάτες τύπου Β) Στους πελάτες τύπου Α πουλά ποσότητα Q=4.5 σε τιμή όμως μικρότερη από την αξία αυτής της ποσότητας για τους πελάτες τύπου Α. Για ρ>4/9 η εταιρεία πουλά μόνο στους πελάτες τύπου Α ποσότητα Q=4.5. Μάλιστα σε αυτή την περίπτωση η τιμή πώλησης είναι ίση με την αξία της ποσότητας για τους πελάτες τύπου Α. 441 Παρατηρήσεις Τα αποτελέσματα είναι λογικά. Πράγματι: Όταν υπάρχει η επιλογή Β, ο πελάτης τύπου Α δεν έχει λόγο να πληρώσει για ποσότητα Q τη μέγιστη τιμή, μιας και σε αυτή την περίπτωση το αναμενόμενο όφελός του είναι μηδέν, ενώ αν επιλέξει την μικρότερη ποσότητα με το μικρότερο όμως κόστος θα έχει κάποιο αναμενόμενο θετικό όφελος. Όταν δεν υπάρχει η επιλογή Β, ο πελάτης Α το μόνο που μπορεί να κάνει είναι να αγοράσει στη μέγιστη για αυτόν τιμή. Γενικά, όσο μικρότερη είναι η ποσότητα q, τόσο η τιμή για τον Α πλησιάζει στη μέγιστη για αυτόν. Πραγματικό παράδειγμα: Οι τιμές των επιχειρήσεων σε κανονική περίοδο και σε περίοδο εκπτώσεων. Ένας παίκτης τύπου Β πρέπει να περιμένει μέχρι τις εκπτώσεις, με κίνδυνο μάλιστα να μην βρει το προϊόν που θέλει. 442 221
Auctions Δημοπρασίες 443 Γενικά (1/2) Υπάρχουν δημοπρασίες για σχεδόν κάθε είδος αγαθού που μπορεί να πουληθεί. Έργα τέχνης (Sotheby s, Christie s) Δημοπρασίες κατασχεμένων αυτοκινήτων, σπιτιών κ.λ.π. Δημοπρασίες για δημόσια έργα Δημοπρασίες για εισιτήρια σε αγώνες, παραστάσεις, αεροπορικά εισιτήρια κλπ Δημοπρασίες ομολόγων Μια τυπική δημοπρασία χαρακτηρίζεται από έναν πωλητή και πολλούς υποψήφιους αγοραστές. Ο πωλητής δεν γνωρίζει πόσα είναι διατεθειμένος να πληρώσει κάθε αγοραστής. 444 222
Γενικά (2/2) Ο πωλητής μπορεί να πουλά μόνο μια μονάδα (π.χ. έναν πίνακα ζωγραφικής) ή πολλές μονάδες, όπως π.χ. ένα σύνολο αεροπορικών εισιτηρίων ή τα δωμάτια ενός ξενοδοχείου. Υπάρχουν περιπτώσεις δημοπρασιών όπου ο πωλητής πουλά πολλά διαφορετικά είδη. Η κατάσταση περιπλέκεται περισσότερο εάν οι παίκτες μπορούν να ζητήσουν συνδυασμούς των προϊόντων. Η κατάσταση περιπλέκεται ακόμη περισσότερο εάν οι δημοπρασίες έχουν διαφορετικό χρονικό ορίζοντα λήξης. Υπάρχουν πολλά είδη δημοπρασιών: Τις περισσότερες φορές αυτός που προσφέρει το μεγαλύτερο ποσό κερδίζει τη δημοπρασία. Οι διάφορες δημοπρασίες διαφέρουν κυρίως σε δύο πράγματα: Πώς καθορίζεται η καλύτερη προσφορά. 445 Πόσο πρέπει να πληρώσει αυτός που κερδίζει την δημοπρασία. Δημοπρασίες ανερχόμενων προσφορών Η πιο κοινή δημοπρασία είναι η δημοπρασία ανερχόμενων προσφορών (ascending-bid auction). Αυτή ξεκινά από μια χαμηλή τιμή και κάθε παίκτης μπορεί να αυξήσει την τιμή. Συνήθως υπάρχει ελάχιστο/συγκεκριμένο ποσό/ποσοστό αύξησης. Η δημοπρασία τερματίζει όταν δεν υπάρχει κανείς παίκτης διατεθειμένος να αυξήσει την τιμή. Ο παίκτης που έκανε την τελευταία αύξηση κερδίζει την δημοπρασία και πληρώνει το τελικό ποσό. Sotheby s, δημοπρασίες ακινήτων, Travel.com κλπ Οι δημοπρασίες αυτές λέγονται και Αγγλικές δημοπρασίες (English auctions). 446 223
Δημοπρασίες κατερχόμενων προσφορών Στις δημοπρασίες αυτές ξεκινάμε από μια πολύ υψηλή τιμή και προοδευτικά αυτή ελαττώνεται από τον διοργανωτή της δημοπρασίας. Ο πρώτος παίκτης που θα δεχθεί μια τιμή κερδίζει τη δημοπρασία στην τιμή αυτή. Η δημοπρασία αυτή ονομάζεται Ολλανδική δημοπρασία (Dutch auction). Ο μηχανισμός αυτός χρησιμοποιείται στη μεγαλύτερη παγκοσμίως αγορά χονδρικής πώλησης λουλουδιών στο Άμστερνταμ. 447 Δημοπρασίες σφραγισμένων προσφορών Στις δημοπρασίες σφραγισμένων προσφορών (sealed auctions) οι συμμετέχοντες αποστέλλουν έναν φάκελο με την προσφορά τους στον διοργανωτή. Ο παίκτης με τη μεγαλύτερη προσφορά κερδίζει την δημοπρασία. Υπάρχουν δύο παραλλαγές αυτών των δημοπρασιών: Στις δημοπρασίες πρώτης τιμής (first-price auction) ο παίκτης που κέρδισε πληρώνει το ποσό της δικής του προσφοράς. Στις δημοπρασίες δεύτερης τιμής (second-price auction) ο παίκτης που κέρδισε τη δημοπρασία αλλά πληρώνει το ποσό της δεύτερης μεγαλύτερης προσφοράς. Υπάρχει μεγάλη ομοιότητα μεταξύ της δημοπρασίας ανερχόμενης τιμής και της δημοπρασίας σφραγισμένων προσφορών δεύτερης τιμής. Παρόμοια μεταξύ της δημοπρασίας κατερχόμενης τιμής και της δημοπρασίας σφραγισμένων προσφορών πρώτης τιμής. 448 224
Παραδοχές Στα επόμενα θα θεωρήσουμε την εξής απλή κατάσταση δημοπρασίας: Υπάρχει μία μονάδα ενός προϊόντος για πώληση. Υπάρχουν δύο υποψήφιοι αγοραστές, οι Α και Β. Κάθε ένας έχει δύο δυνατούς διαφορετικούς τύπους, τον τύπο 1 και τον τύπο 2, με ίση πιθανότητα εμφάνισης (ρ=½). Το ανώτερο ποσό που είναι διατεθειμένος να δώσει ένας αγοραστής τύπου 1 είναι θ ενώ για έναν αγοραστή τύπου 2 είναι μ, όπου θ>μ. Εάν το προϊόν πουληθεί στην τιμή p, το όφελος κάθε τύπου παίκτη θα είναι θ-p και μ-p αντίστοιχα. Ο πωλητής ενδιαφέρεται να μεγιστοποιήσει τα κέρδη του. 449 Δημοπρασία δεύτερης τιμής (1/2) Το βασικό χαρακτηριστικό της δημοπρασίας δεύτερης τιμής είναι ότι έχει κυρίαρχη στρατηγική: Κάθε παίκτης προσφέρει το μέγιστο που είναι διατεθειμένος να πληρώσει. Κανείς παίκτης δεν έχει λόγο να προσφέρει είτε λίγο λιγότερα, είτε λίγο περισσότερα. Το παραπάνω αποτέλεσμα είναι γενικό, δεν εξαρτάται από το πλήθος των παικτών, από τους δυνατούς τύπους κάθε παίκτη ούτε από τις πιθανότητες εμφάνισής τους. 450 225
Δημοπρασία δεύτερης τιμής (2/2) Θα εξετάσουμε την πιθανότητα ένας παίκτης να κερδίσει τη δημοπρασία και το αναμενόμενο ποσό που θα πληρώσει. Έστω ένας παίκτης τύπου 1. Αυτός κερδίζει τη δημοπρασία σίγουρα αν ο δεύτερος παίκτης είναι τύπου 2, και με πιθανότητα 50% εάν ο δεύτερος παίκτης είναι και αυτός τύπου 1. Άρα ένας παίκτης τύπου 1 κερδίζει τη δημοπρασία με πιθανότητα: ½ 1 + ½ ½=0.75 Το αναμενόμενο ποσό που θα πληρώσει είναι: ½ μ + ½ ½ θ= ½(μ+θ/2) Το αναμενόμενο κέρδος είναι: 0.75 θ-½(μ+θ/2)=(θ-μ)/2 Παρόμοια, για έναν παίκτη τύπου 2 βρίσκουμε ότι το αναμενόμενο ποσό που θα πληρώσει είναι μ/4 και το αναμενόμενο κέρδος του είναι 0. 451 Δημοπρασία πρώτης τιμής (1/10) Στις δημοπρασίες αυτές δεν υπάρχει κυρίαρχη στρατηγική. Η καλύτερη απάντηση ενός παίκτη εξαρτάται πάντα από την επιλογή του αντιπάλου. Άρα πρέπει να βρούμε σημεία ισορροπίας Bayes-Nash. Μιας και πρόκειται για συμμετρικό παιχνίδι, θα ψάξουμε μόνο για συμμετρικά σημεία ισορροπίας. Έστω p μια στρατηγική για έναν παίκτη τύπου 1 και q μια στρατηγική για παίκτη τύπου 2. Θα ψάξουμε λοιπόν για ισορροπίες της μορφής (p,q,p,q), όπου: p είναι η καλύτερη απάντηση του παίκτη Α τύπου 1, εάν οι δύο τύποι του παίκτη Β επιλέξουν αντίστοιχα (p,q). Παρόμοια για τις άλλες τρεις στρατηγικές του παραπάνω συνδυασμού στρατηγικών. 452 226
Δημοπρασία πρώτης τιμής (2/10) Είναι φανερό ότι σε μια ισορροπία (p,q,p,q) πρέπει να ισχύει q=μ για τους παίκτες τύπου 2. Εάν ένας παίκτης τύπου 2 προσφέρει τιμή q<μ, θα βγει χαμένος εφόσον ο αντίπαλος προσφέρει τιμή q τέτοια ώστε q<q <μ. Άρα η ισορροπία θα πρέπει να είναι της μορφής (p,μ,p,μ). Από την άλλη πλευρά, μπορούμε εύκολα να δούμε για τους παίκτες τύπου 1 ότι πρέπει να ισχύει p<θ. Αν ένας παίκτης τύπου 1 προσφέρει p=θ, το καθαρό όφελός του είναι 0. Αντίθετα αν προσφέρει κάτι λιγότερο από θ, κάθε φορά που ο αντίπαλος είναι τύπου 2, ο παίκτης τύπου 1 θα έχει κάποιο θετικό όφελος. 453 Δημοπρασία πρώτης τιμής (3/10) Προχωρώντας το συλλογισμό μπορούμε να βρούμε ότι ένας παίκτης τύπου 1 πρέπει να επιλέξει μια μικτή στρατηγική, και μάλιστα συνεχούς μορφής (κατανομή πιθανότητας για όλες τις τιμές του p εντός κάποιου διαστήματος). Αν ένας παίκτης, π.χ. ο Α, επιλέξει συγκεκριμένη τιμή για το p, π.χ. p Α =p, τότε ο παίκτης Β θα επιλέξει p Β =p+1, κερδίζοντας περισσότερα. Τότε όμως ο παίκτης A έχει καλύτερη στρατηγική p Α =p+2, κοκ. 454 227
Δημοπρασία πρώτης τιμής (4/10) Έστω ότι η κοινή για τους παίκτες στρατηγική p είναι η εξής: Κάθε παίκτης τύπου 1 επιλέγει μια προσφορά b από ένα διάστημα [b 1,b 2 ]. Συμβολίζουμε με P(bid b) τη σωρευτική πιθανότητα η προσφορά ενός παίκτη να βρίσκεται στο διάστημα [b 1, b] Σε τέτοιες κατανομές πιθανότητας, η πιθανότητα η προσφορά να πάρει μια συγκεκριμένη τιμή, P(bid=b), με δεδομένο ότι το σύνολο των τιμών είναι άπειρο, είναι πάντα 0. Το διάστημα [b 1,b 2 ] και τη συνάρτηση P(bid b) απομένει να τα προσδιορίσουμε. 455 Δημοπρασία πρώτης τιμής (5/10) Μπορούμε εύκολα να βρούμε ότι το αριστερό άκρο του διαστήματος είναι b 1 =μ. Πράγματι, όταν ένας παίκτης τύπου 1 επιλέξει b=b 1, είναι σίγουρο ότι η μόνη περίπτωση να κερδίσει τη δημοπρασία είναι όταν ο αντίπαλός είναι τύπου 2 (μιας και η πιθανότητα ο αντίπαλος να είναι τύπου 1 και να επιλέξει και αυτός b=b 1 είναι μηδέν). Μάλιστα, για να μην μοιραστεί τα κέρδη, σε αυτή την περίπτωση το b μπορεί να θεωρηθεί οριακά λίγο πάνω από το μ, έτσι ώστε ένας παίκτης τύπου 1 που επιλέγει b=b 1 να κερδίζει πάντα έναν αντίπαλο παίκτη τύπου 2. Τα αναμενόμενα κέρδη του παίκτη τύπου 1 στην περίπτωση b=b 1 =μ είναι λοιπόν: 1 ( b, τύπος 1) ( ) 2 456 228
Δημοπρασία πρώτης τιμής (6/10) Γνωρίζουμε όμως ότι για να επιλέξει ένας παίκτης τύπου 1 μικτή στρατηγική, θα πρέπει το αναμενόμενο κέρδος του να είναι το ίδιο για οποιαδήποτε καθαρή στρατηγική και αν επέλεγε. Έστω λοιπόν ότι ο παίκτης Α τύπου 1 επιλέγει καθαρή στρατηγική b[b 1,b 2 ]. Ο παίκτης Β επιλέγει τη μικτή στρατηγική που περιγράψαμε για τον τύπο 1 και q=μ για τον τύπο 2. Ο Α κερδίζει τη δημοπρασία όταν: ο Β είναι τύπου 2, με πιθανότητα ½. ο Β είναι τύπου 1 και η προσφορά που επέλεξε είναι b B <b. Η πιθανότητα να συμβεί αυτό είναι ½ P(b Β b) Άρα το αναμενόμενο όφελος του Α σε αυτή την περίπτωση είναι: 1 1 ( b, τύπος 1) ( b) P( bid b)( b) 2 2 457 Δημοπρασία πρώτης τιμής (7/10) Θα πρέπει λοιπόν να ισχύει: 1 1 1 ( b) P( bid b)( b) ( ) 2 2 2 Λύνοντας την τελευταία σχέση ως προς P(bid b) βρίσκουμε: b P( bid b) b Η μέγιστη τιμή του b, δηλαδή η τιμή b 2, θα είναι αυτή για την οποία ισχύει P(bid b 2 )=1. Λύνοντας ως προς b 2 βρίσκουμε: b2 2 458 229
Δημοπρασία πρώτης τιμής (8/10) Το συμπέρασμα στο οποίο καταλήξαμε είναι το εξής: Σε δημοπρασία πρώτης τιμής με ισοπίθανους παίκτες, υπάρχει σημείο ισορροπίας Bayes-Nash, όπου ο παίκτης τύπου 2 επιλέγει καθαρή στρατηγική ίση με μ, ενώ ο παίκτης τύπου 1 επιλέγει συνεχή μικτή στρατηγική στο διάστημα μεταξύ μ και (θ+μ)/2 με σωρευτική πιθανότητα P(bid<b)=(b-μ)/(θ-b). Το παραπάνω σημείο ισορροπίας Bayes-Nash είναι και το μοναδικό. Στις δύο επόμενες διαφάνειες φαίνονται οι γραφικές παραστάσεις των συναρτήσεων P(bid<b) και p(bid=b) για τυπικές τιμές μ=10 και θ=20. 459 Δημοπρασία πρώτης τιμής (9/10) Σωρευτική πιθανότητα η προσφορά να είναι μικρότερη από μια τιμή b. 460 230
Δημοπρασία πρώτης τιμής (10/10) Κατανομή πιθανότητας p(bid=b). 461 Παρατηρήσεις Παρατηρούμε ότι το αναμενόμενο όφελος για τους δύο τύπους παικτών: Για τον παίκτη τύπου 1 είναι (θ-μ)/2 Για τον παίκτη τύπου 2 είναι 0. είναι το ίδιο και για τις δύο δημοπρασίες (πρώτης και δεύτερης τιμής). Το ίδιο συμβαίνει και με τις πιθανότητες νίκης. Άρα και τα αναμενόμενα έσοδα του διοργανωτή της δημοπρασίας είναι τα ίδια και στους δύο τύπους δημοπρασίας. Για το λόγο αυτό, οι δημοπρασίες πρώτης και δεύτερης τιμής χαρακτηρίζονται ως ισοδύναμες ως προς τα έσοδα (revenue equivalent). 462 231