Κεϕάλαιο 5 Ειδικές Κατηγορίες Παιχνιδιών 2-παικτών 0-αθροίσµατος 5.1 Συµµετρικά Παιχνίδια Ορισµός 5.1.1. Ενα π.π. A καλείται συµµετρικό εάν ο πίνακας A είναι αντισυµµετρικός, δηλαδή εάν A T = A. Στα συµµετρικά πινακοπαιχνίδια (που αναγκαστικά από τον ορισµό είναι τετραγωνικά, δηλαδή m = n) οι παίκτες είναι ανταλλάξιµοι, δηλαδή αν ο ένας πάρει τη ϑέση του άλλου κανείς δεν αποκτά πλεονέκτηµα ή µειονέκτηµα 1. Εχουµε ήδη δει το παιχνίδι του Mendelhson (Παράδειγµα 3.5.1 και Παράδειγµα 4.5.1) που είναι συµµετρικό π.π. Οπως είναι αναµενόµενο, τα συµµετρικά παιχνίδια είναι πάντα τίµια, δηλαδή έχουν τιµή 0. Επίσης είναι σαϕές ότι οι παίκτες έχουν ίδιες καθαρές στρατηγικές, δηλαδή ό,τι πετυχαίνει ο I µε τη στρατηγική i, ϑα πετυχαίνει και ο II µε τη στρατηγική i. Αυτό µας κάνει να περιµένουµε ότι αν µία (µεικτή) στρατηγική είναι ϐέλτιστη για τον I, τότε η ίδια στρατηγική ϑα είναι ϐέλτιστη και για τον II. Τις παρατηρήσεις αυτές συνοψίζουµε, αποσαϕηνίζουµε και αποδεικνύουµε µε την επόµενη πρόταση. Πρόταση 5.1.1. Σε ένα συµµετρικό n n π.π. A (i) Αν η x 0 είναι ϐέλτιστη στρατηγική για τον I, τότε η x 0 είναι επίσης ϐέλτιστη στρατηγική και για τον II (και αντίστοιχα, αν η y 0 είναι ϐέλτιστη για τον II, τότε η y 0 ϑα είναι ϐέλτιστη και για τον I). (ii) Ισχύει ότι v A = 0. 1 Για τη γενίκευση του παραπάνω ορισµού ϐλ. Εδάϕιο 6.4, Ορισµός 6.4.1 και συζήτηση.
140 Κεϕάλαιο 5 Απόδειξη : (i) Εστω x 0 ϐέλτιστη στρατηγική για τον I και y 0 ϐέλτιστη στρατηγική για τον II. Τότε (x 0, y 0 ) είναι ΣΣΙ και εποµένως x T Ay 0 x 0T Ay 0 x 0T Ay x P n y P n. Παίρνοντας ανάστροϕους όλων των µελών της παραπάνω ανισότητας συµπεραίνουµε ότι y 0T A T x y 0T A T x 0 y T A T x 0 x P n y P n. Αλλά A T = A και εποµένως y T Ax 0 y 0T Ax 0 y 0T Ax x P n y P n. Η τελευταία ανισότητα συνεπάγεται ότι (y 0, x 0 ) είναι ΣΣΙ, δηλαδή η y 0 είναι ϐέλτιστη στρατηγική του I και η x 0 είναι ϐέλτιστη στρατηγική του II. (ii) Από την (i) της πρότασης συµπεραίνουµε ότι για x 0 ϐέλτιστη στρατηγική του I, η κατάσταση (x 0, x 0 ) αποτελεί ΣΣΙ. Άρα v A = x 0T Ax 0 = x 0T ( A T )x 0 = x 0T Ax 0 = v A. Εποµένως v A = 0. Παράδειγµα 5.1.1. Πέτρα, Μολύβι, Ψαλίδι, Χαρτί. Ενα δηµοϕιλές παιδικό παιχνίδι είναι το λεγόµενο Πέτρα, Μολύβι, Ψαλίδι, Χαρτί όπου δύο παίκτες επιλέγουν ταυτόχρονα µία από τις παραπάνω 4 επιλογές. Η πέτρα σπάει το µολύβι και το ψαλίδι αλλά τυλίγεται από το χαρτί, το µολύβι κόβεται από το ψαλίδι αλλά γράϕει το χαρτί και τέλος το ψαλίδι κόβει το χαρτί. Ο νικητής παίρνει 1 µονάδα ωϕέλειας από το χαµένο. Ο πίνακας πληρωµής ϑα δίνεται από II Π M Ψ X I Π 0 1 1 1 M 1 0 1 1 Ψ 1 1 0 1 X 1 1 1 0 Το παιχνίδι είναι προϕανώς συµµετρικό. Προσέξτε τα 0 κατά µήκος της διαγωνίου που αναγκαστικά ϑα παρουσιάζονται σε κάθε συµµετρικό παιχνίδι αϕού A T = A συνεπάγεται a ii = a ii, i = 1,..., n. Παρατηρούµε ότι η στρατηγική M κυριαρχείται από την Ψ (προϕανώς, σε ένα συµµετρικό π.π. όταν µία στρατηγική απλοποιείται για τον I, η ίδια στρατηγική ϑα απλοποιείται και για τον II).
5.2 Παιχνίδια σε Στάδια 141 Άρα, αρκεί να λυθεί το A = 0 1 1 1 0 1 1 1 0. Φυσικά από την πρόταση γνωρίζουµε ότι v A = v A = 0. Για την εύρεση ϐέλτιστης στρατηγικής (ας πούµε για τον I) δοκιµάζουµε την εξισωτική τεχνική. Παίρνουµε τις εξισώσεις x 2 +x 3 = 0 x 1 x 3 = 0 x 1 +x 2 = 0 x 1 +x 2 +x 3 = 1. Οι τρεις πρώτες δίνουν x 1 = x 2 = x 3 και εποµένως η τέταρτη εξίσωση δίνει x 0 = ( 1 3, 1 3, 1 ) που γίνεται δεκτή (αϕού x i 0, i = 1,..., 3) ως λύση. 3 Συµπεραίνουµε ότι στο παραπάνω παιχνίδι η ϐέλτιστη στρατηγική είτε του I είτε του II είναι να µην παίζει ποτέ M και να αναµειγνύει µε πιθανότητα 1/3 τις υπόλοιπες καθαρές του στρατηγικές. 5.2 Παιχνίδια σε Στάδια Εδώ σκοπεύουµε να εξετάσουµε παιχνίδια µε υποπαιχνίδια σαν συνιστώσες, που µε τη σειρά τους έχουν υποπαιχνίδια σαν συνιστώσες κ.ο.κ. (ϐλ. Ορισµό 3.4.1). Σε τέτοιες περιπτώσεις προσδοκούµε ότι η αναδροµικότητα που εµϕανί- Ϲεται µπορεί να χρησιµοποιηθεί για την απλούστευση της διαδικασίας επίλυσης του π.π. Ηδη έχουµε εκµεταλλευτεί την αναδροµικότητα αυτή στο Εδάϕιο 4 του Κεϕαλαίου 3 για την περίπτωση των παιχνιδιών τέλειας πληροϕόρησης (η γνωστή µας µέθοδος επίλυσης µέσω δυναµικού προγραµµατισµού). Για την παραπέρα συζήτηση ϑα χρεαστούµε µία καινούργια έννοια, αυτήν της συµπεριϕορικής στρατηγικής (behavioral strategy) 2. 5.2.1 Συµπεριϕορικές Στρατηγικές Ας εξετάσουµε το εξής παράδειγµα : Σε ένα παιχνίδι αρχικά ϱίχνεται ένα Ϲάρι (κίνηση της φύσης) και ο παίκτης I πληροϕορείται το αποτέλεσµα της ϱίψης. Στη συνέχεια αποϕασίζει αν ϑα στοιχηµατίσει ( σ ) 1 µ.ω. ή αν ϑα πάει πάσο 2 Χρησιµοποιούµε το λεξικό Webster on line για την ίσως αδόκιµη µετάϕραση µην έχοντας κάποιο καλύτερο όρο.
142 Κεϕάλαιο 5 ( π ). Κατόπιν η κίνηση περνάει στον II κ.λπ. κ.λπ. Ας υποθέσουµε ότι ο I δεν κάνει άλλη κίνηση στο παιχνίδι αυτό. Προϕανώς ο I διαθέτει 2 6 = 64 καθαρές στρατηγικές και το σύνολο των µεικτών του στρατηγικών ϑα είναι το P 64 που έχει διάσταση 63. Οµως στην πράξη, οι παίκτες σε ένα παιχνίδι συνήθως αποϕασίζουν όταν φθάσει η ώρα να κινηθούν (π.χ. στο σκάκι), δηλαδή αυτοί αποϕασίζουν σε κάθε σύνολο πληροϕόρησης. ιερωτάται κανένας µήπως εδώ µπορούµε να ορίσουµε έναν διαϕορετικό τρόπο τυχαιοποίησης, όπου ο κάθε παίκτης αναµειγνύει (σύµφωνα µε κάποια κατανοµή πιθανότητας) τις αποϕάσεις που έχει στη διάθεσή του σε κάθε σύνολο πληροϕόρησης. Ο τρόπος αυτός λήψης αποϕάσεων επίσης ορίζει µία στρατηγική, που ϑα την ονοµάσουµε συµπεριϕορική στρατηγική (behavioral strategy). Ορισµός 5.2.1. Θα ονοµάζουµε συµπεριϕορική στρατηγική ενός παίκτη που δια- ϑέτει k σύνολα πληροϕόρησης µία συλλογή από k κατανοµές πιθανότητας, όπου η κάθε κατανοµή πιθανότητας είναι πάνω στις δυνατές αποϕάσεις του αντίστοιχου συνόλου πληροϕόρησης. Στο προηγούµενο παράδειγµα έχουµε 6 σύνολα πληροϕόρησης για τον I και σε κάθε σύνολο αυτός αναµειγνύει δύο αποϕάσεις (στοιχηµατίζω ή πάω πάσο). Άρα µία συµπεριϕορική στρατηγική ϑα παριστάνεται από µία εξάδα (p 1, p 2,..., p 6 ), µε p t [0, 1], t = 1,..., 6, όπου p t είναι η πιθανότητα µε την οποία ο I ϑα στοιχηµατίσει στο σύνολο πληροϕόρησης t. Για παράδειγµα η ( 1 3, 1 20, 1 2, 0, 3 ) 4, 1 σηµαίνει ότι ο I ϑα στοιχηµατίσει µε πιθανότητα 1/3 αν δει 1, µε πιθανότητα 1/20 αν δει 2, κ.ο.κ. Η συζήτησή µας οδηγεί στο συµπέρασµα ότι το σύνολο των συµπεριϕορικών στρατηγικών είναι το [0, 1] 6 ή αλλιώς το (P 1 ) 6 που έχει διάσταση 6, σαϕώς µικρότερη από το 63 (διάσταση του συνόλου των µεικτών στρατηγικών) 3. Παρατηρούµε ότι για κάθε συµπεριϕορική στρατηγική ενός παίκτη υπάρχει µία µεικτή στρατηγική του ίδιου παίκτη η οποία δίνει την ίδια αναµενόµενη πληρωµή στον παίκτη αυτόν εναντίον κάθε στρατηγικής του άλλου παίκτη. Για να ϐρει αυτή τη µεικτή στρατηγική, δηλαδή για να ϐρει την πιθανότητα µε την ο- ποία ϑα επιλέγεται µία καθαρή στρατηγική, ο παίκτης αρκεί να πολλαπλασιάσει τις πιθανότητες µε τις οποίες επιλέγονται οι αποϕάσεις της καθαρής στρατηγικής από τη συµπεριϕορική στρατηγική. Ετσι στο παράδειγµά µας και για τη συµπεριϕορική στρατηγική (1/3, 1/20, 1/2, 0, 3/4, 1) που έχουµε δει, η αντίστοιχη µεικτή στρατηγική ϑα επιλέγει την καθαρή στρατηγική (σ, π, π, π, σ, σ) µε πιθανότητα 1/3 19/20 1/2 1 3/4 1. Με την έννοια αυτή, οι συµπεριϕορικές στρατηγικές εµϕυτεύονται στο σύνολο των µεικτών στρατηγικών. 3 Παρατηρήστε ότι µε τους συµβολισµούς που χρησιµοποιούµε P 6 (P 1 ) 6.
5.2 Παιχνίδια σε Στάδια 143 Το ενδιαϕέρον ερώτηµα είναι το αντίστροϕο : Ισχύει άραγε ότι κάθε µεικτή στρατηγική µπορεί να παρθεί µέσω µιας συµπεριϕορικής στρατηγικής; Αν αυτό ήταν γενικά αληθές, τότε κατά την αναζήτηση της λύσης ϑα µπορούσαµε πάντα να περιοριστούµε σε συµπεριϕορικές στρατηγικές, γεγονός που ϑα απλοποιούσε σηµαντικά αρκετά προβλήµατα. Οµως στο ερώτηµα αυτό η απάντηση γενικά είναι αρνητική, όπως δείχνει το ακόλουθο παράδειγµα. Παράδειγµα 5.2.1. Εξετάζουµε το ακόλουθο π.π. το οποίο δεν είναι τέλειας ανάµνησης. Ο αναγνώστης ας ελέγξει ότι I α ϐ II γ δ γ δ 0 I 0 ε ζ ε ζ 1 0 0 1 Σχήµα 5.2.1 S I = {(α, ε), (α, ζ )(ϐ, ε), (ϐ, ζ )} S II = {(γ), (δ)} και ότι ο πίνακας πληρωµής A δίνεται από τον II γ δ I (α, ε) 0 1 (α, ζ ) 0 0 A = (ϐ, ε) 0 0 (ϐ, ζ ) 1 0 Η λύση προϕανώς είναι x = (1/2, 0, 0, 1/2) T και y = (1/2, 1/2) µε v A = 1/2. Εστω τώρα συµπεριϕορική στρατηγική (x, y) του I, όπου x [0, 1] είναι η πιθανότητα µε την οποία επιλέγει α στο πρώτο σύνολο πληροϕόρησης και y [0, 1] είναι η πιθανότητα µε την οποία επιλέγει ε στο δεύτερο σύνολο πληροϕόρησής του. Τότε η (x, y) αντιστοιχεί στη µεικτή στρατηγική s =
144 Κεϕάλαιο 5 (xy, x(1 y), (1 x)y, (1 x)(1 y)). Αµέσως παρατηρούµε ότι η ϐέλτιστη x δε µπορεί να προκύψει από κάποια συµπεριϕορική (x, y) αϕού τότε ϑα έπρεπε να ικανοποιούνται οι x(1 y) = 0 (1 x)y = 0 που συνεπάγεται ή x = 0, y = 0 ή x = 1, y = 1 και τότε xy 1/2. ηλαδή στο παραπάνω πρόβληµα, αν ο I περιοριστεί σε συµπεριϕορικές στρατηγικές, δε ϑα µπορεί να παίξει ϐέλτιστα. Η παθολογία του Παραδείγµατος 5.2.1 οϕείλεται στην όχι τέλεια ανάµνηση του I (ϐλ. και Εδάϕιο 2.4). Ο H. Kuhn (1953) έδειξε ότι για πεπερασµένα παιχνίδια τέλειας ανάµνησης οι παίκτες µπορούν να περιοριστούν σε συµπεριφορικές στρατηγικές. Το αποτέλεσµα αυτό επεκτάθηκε για παιχνίδια άπειρου ορίζοντα σε εκτεταµένη µορϕή από τον R. Aumann (1964). Θεώρηµα 5.2.1. Kuhn. Σε ένα πεπερασµένο παιχνίδι n παικτών τέλειας ανά- µνησης κάθε µεικτή στρατηγική κάθε παίκτη µπορεί να προκύψει από µία συµπε- ϱιϕορική στρατηγική του παίκτη αυτού. Για την απόδειξη του ϑεωρήµατος, του οποίου ϑα κάνουµε χρήση στο εξής, παραπέµπουµε τον αναγνώστη στο παραπάνω άρθρο. 5.2.2 Πεπερασµένα Αναδροµικά Παιχνίδια Υπενθυµίζουµε εν συντοµία ότι ένα παιχνίδι Γ έχει το υποπαιχνίδι Γ t ως συνιστώσα, όπου t κορυϕή του Γ, όταν το υποδένδρο του Γ µε αϕετηρία την t έχει την εξής ιδιότητα : Κάθε σύνολο πληροϕόρησης που περιέχει κάποια κορυϕή του υποδένδρου περιέχει αποκλειστικά κορυϕές που ανήκουν στο υποδένδρο. Σχετικά ϐλ. τον Ορισµό 3.4.1. Στην περίπτωση των πεπερασµένων παιχνιδιών η αναδροµικότητα συµπίπτει µε την ύπαρξη υποπαιχνιδιών ως συνιστωσών. Ορισµός 5.2.2. Ενα πεπερασµένο παιχνίδι n-παικτών Γ καλείται αναδροµικό (recursive) όταν περιέχει υποπαιχνίδια ως συνιστώσες. Αν αϕετηρία ενός υποπαιχνιδιού είναι η κορυϕή t, τότε µπορούµε να α- ναπαραστήσουµε το δένδρο του Γ ϑεωρώντας το t ως τερµατική κορυϕή µε πληρωµή Γ t, όπου Γ t είναι το υποπαιχνίδι µε αϕετηρία t. Στη ϐιβλιογραϕία, το Γ ϑεωρούµενο µε τον τρόπο αυτό συχνά συµβολίζεται ως Γ/t και αποκαλείται παιχνίδι-πηλίκο (π.χ. Owen (1995)).
5.2 Παιχνίδια σε Στάδια 145 Παράδειγµα 5.2.2. ύο παίκτες ανακοινώνουν ταυτόχρονα έναν αριθµό από το {0, 1}. Εάν το άθροισµα είναι 0 ή 1, τότε ο I κερδίζει το ποσό αυτό από τον II. Εάν το άθροισµα είναι 2, τότε το παιχνίδι επαναλαµβάνεται µε τους ϱόλους των παικτών ανεστραµµένους, όπου όµως τώρα άθροισµα 2 συνεπάγεται τερµατισµό του παιχνιδιού µε πληρωµή 0 για τους παίκτες. Το παιχνίδι σε εκτεταµένη µορϕή είναι το I 0 1 II 0 1 0 1 Γ 0 1 1 I 0 1 II 0 1 0 1 0 1 1 0 Σχήµα 5.2.2 Παρατηρούµε την ύπαρξη του υποπαιχνιδιού που αρχίζει από την τέταρτη δεξιά κορυϕή µετά από 2 κινήσεις. Αν ονοµάσουµε Γ το υποπαιχνίδι αυτό, τότε το παιχνίδι - πηλίκο ϑα είναι το I 0 1 II 0 1 0 1 0 1 1 Γ Σχήµα 5.2.3 Τα αναδροµικά παιχνίδια αποτελούν γενίκευση των παιχνιδιών τέλειας πλη- ϱοϕόρησης και έχουν σηµαντικότατες εϕαρµογές, προσελκύοντας το ενδιαϕέ- ϱον έτσι πολλών ερευνητών. Βέβαια, οι περισσότερο ενδιαϕέρουσες ερευνητικά περιπτώσεις αϕορούν τα µη πεπερασµένα αναδροµικά παιχνίδια. Η ϐασική παρατήρηση που αϕορά τα αναδροµικά παιχνίδια είναι ότι η κεντρική ιδέα του Θεωρήµατος 3.4.1 (Zermelo-Kuhn) περνά και εδώ. ηλαδή, αν s 0 t
146 Κεϕάλαιο 5 είναι ΣΣΙ του Γ t µε διάνυσµα πληρωµής των παικτών h t (s 0 t ), τότε µπορούµε να αναζητήσουµε ένα ΣΣΙ στο Γ λύνοντας το παιχνίδι πηλίκο Γ/t, όπου ϑεωρούµε την t τερµατική κορυϕή µε πληρωµή h t (s 0 t ). Η απόδειξη γίνεται ακριβώς όπως στο Θεώρηµα 3.4.1 και την αϕήνουµε στον αναγνώστη. Εποµένως, όταν αναζητούµε ΣΣΙ σε ένα πεπερασµένο αναδροµικό παιχνίδι Γ προχωράµε και πάλι από το τέλος προς την αρχή. Λύνουµε πρώτα τα τελευταία υποπαιχνίδια (δηλ. ϐρίσκουµε τα ΣΣΙ) και αντικαθιστούµε στο δένδρο του Γ τα υποπαιχνίδια αυτά µε την πληρωµή των παικτών σε κάποιο ΣΣΙ τους. Κατόπιν εξετάζουµε αν προκύπτουν εκ νέου υποπαιχνίδια και συνεχίζουµε όµοια, µέχρι να καταλήξουµε σε ένα µη διασπάσιµο παιχνίδι πηλίκο. Λύνοντας το τελευταίο έχουµε και ένα ΣΣΙ του αρχικού Γ, όπου φυσικά οι στρατηγικές του ΣΣΙ στο Γ ϑα συντεθούν από τις επιµέρους στρατηγικές των ΣΣΙ στα υποπαιχνίδια. Παρατηρήστε ότι αν τα υποπαιχνίδια έχουν περισσότερα από ένα ΣΣΙ, τότε όλοι οι συνδυασµοί ΣΣΙ στα υποπαιχνίδια είναι νόµιµοι, οδηγώντας έτσι σε πολλά ΣΣΙ στο αρχικό παιχνίδι Γ. 4 Σηµαντική Παρατήρηση : Η παραπάνω διαδικασία µπορεί να γίνει και πάνω στις µεικτές επεκτάσεις των υποπαιχνιδιών. Η πληρωµή τότε στην κορυϕή t του Γ/t ϑα είναι η πληρωµή της µεικτής επέκτασης του Γ t, (η ϑεωρία της ωϕέλειας µας το επιτρέπει). Με άλλα λόγια, στην παραπάνω διαδικασία εµπλέκονται όλα τα ΣΣΙ όλων των υποπαιχνιδιών, σε µεικτές ή καθαρές στρατηγικές. Ας δούµε µία εϕαρµογή των παραπάνω λύνοντας το προηγούµενο παράδειγµα. Παράδειγµα 5.2.2. Συνέχεια. Το παιχνίδι Γ είναι το π.π. II 0 1 I 0 0 1 1 1 0 Εύκολα ελέγχουµε ότι v Γ = 1 2, x0 Γ = (1/2, 1/2) y 0 Γ = (1/2, 1/2), όπου (x 0 Γ, y 0 Γ ) είναι το ΣΣΙ του Γ. Εποµένως, το παιχνίδι πηλίκο Γ/t όπου η t ϑεωρείται τερµατική κορυϕή µε πληρωµή v Γ ϑα είναι το 4 Τα ΣΣΙ που παίρνουµε µέσω της αναδροµικής επίλυσης, όντας ΣΣΙ πάνω σε κάθε υποπαιχνίδι, αποκαλούνται τέλεια ως προς τα υποπαιχνίδια. Η έννοια αυτή αποκτά ιδιαίτερο ενδιαϕέρον στην περίπτωση της επανάληψης ενός παιχνιδιού πολλές φορές (ϐλ. Εδάϕιο 9.5).
5.2 Παιχνίδια σε Στάδια 147 Αυτό είναι το π.π. I 0 1 II 0 1 0 1 0 1 1 1/2 Σχήµα 5.2.4 I 0 1 0 0 1 1 1 1 2 που από τη λύση του ϑα προκύπτει η λύση του Γ. Άρα v Γ/t = 2 ( 3 5, x0 = Γ/t 5, 2 ) T ( 3, y 0 Γ/t 5 = 5, 2 T. 5) Για την τιµή του αρχικού Γ ϑα έχουµε v Γ = v Γ/t = 2/5. Οι ϐέλτιστες στρατηγικές στο Γ ϑα δίνονται τώρα ως συµπεριϕορικές στρατηγικές x 0 = ( (3/5, 2/5) T, (1/2, 1/2) T ) T y 0 = ( (3/5, 2/5) T, (1/2, 1/2) T ) T όπου το πρώτο διάνυσµα πιθανότητας δίνει την τυχαιοποίηση στο 1ο σύνολο πληροϕόρησης και το δεύτερο διάνυσµα πιθανότητας την τυχαιοποίηση στο 2ο σύνολο πληροϕόρησης. Ο Ορισµός 5.2.2 εξασϕαλίζει ότι κάθε πεπερασµένο αναδροµικό παιχνίδι αναπαρίσταται από ένα πεπερασµένο δένδρο πηλίκο. Εποµένως, στην περίπτωση ενός παιχνιδιού Γ 2-παικτών 0-αθροίσµατος, το παιχνίδι ϑα µπορεί να αναπαρασταθεί σε κανονική µορϕή µέσω ενός πίνακα A που τα στοιχεία του a ij, i = 1,..., m, j = 1,..., n ϑα δίνονται µέσω των φορµαλιστικών σχέσεων a ij = p 0 ij c ij + l p k ij Γ k, i = 1,..., m, j = 1,..., n (1) k=1
148 Κεϕάλαιο 5 όπου το p ij := (p 0 ij, p1 ij,..., pl ij ) είναι διάνυσµα πιθανότητας (δηλ. pk ij 0, k = l ) 0,..., l, p k ij = 1 και τα Γ k είναι πινακοπαιχνίδια, υποπαιχνίδια του Γ. k=0 Οι πιθανότητες µπαίνουν για να καλύψουν ενδεχόµενες κινήσεις της φύσης. Η ιδέα είναι ότι όταν ο I επιλέξει i και ο II j, τότε µε πιθανότητα p 0 ij το Γ τερµατίζεται µε πληρωµή c ij και µε πιθανότητα p k ij, k = 1,..., l, το Γ περνά στο υποπαιχνίδι Γ k. Αν δεν υπάρχουν κινήσεις της φύσης στο στάδιο αυτό, τότε ή a ij = c ij (δηλ. p 0 ij = 1, p k ij = 0, k = 1,..., l) ή a ij = Γ k0 για k 0 {1,..., l} (οπότε { 1 αν k = p k k0 ij = 0 διαϕορετικά ). Συνήθως τα αναδροµικά παιχνίδια 2-παικτών 0-αθροίσµατος δίνονται απ ευθείας στην κανονική τους µορϕή. Παράδειγµα 5.2.3. Αναδροµικό Παιχνίδι Χωρίς Κινήσεις της Φύσης. Να λυθεί το π.π. A = ( Γ 1 1 ) όπου 0 Γ 2 Γ 1 = 1 0 0 0 1 0 0 0 1 και Γ 2 = ( 1 2 3 3 2 1 Εδώ αν ϑέλουµε µπορούµε να αναπαραστήσουµε το παιχνίδι πηλίκο ως I π κ II α δ α δ Γ 1 1 0 Γ 2 Σχήµα 5.2.5 αλλά δεν έχουµε και λόγο να το κάνουµε αϕού επιλύουµε κατ ευθείαν τα Γ 1 και Γ 2. Ο αναγνώστης ας ελέγξει ότι v Γ1 = 1 3 x0 Γ 1 = (1/3, 1/3, 1/3) T y 0 Γ 1 = (1/3, 1/3, 1/3) T v Γ2 = 2 x 0 Γ 2 = (1/2, 1/2) T y 0 Γ 2 = (1/2, 0, 1/2) T. Η λύση του A ισοδυναµεί µε τη λύση του v Γ 1 1 = 1/3 1 0 v Γ2 0 2 ).
5.2 Παιχνίδια σε Στάδια 149 που έχει σαγµατικό σηµείο. Άρα v A = 1/3 και x 0 = ( (1, 0) T, (1/3, 1/3, 1/3) T, (1/2, 1/2) T ) y 0 = ( (1, 0) T, (1/3, 1/3, 1/3) T, (1/2, 0, 1/2) ) T. Το προηγούµενο παράδειγµα δείχνει πώς επιλύουµε γενικά πεπερασµένα αναδροµικά παιχνίδια 2-παικτών 0-αθροίσµατος : Στις σχέσεις (1) αντικαθιστούµε τα Γ k µε τις τιµές τους v k, k = 1,..., l, και κατόπιν επιλύουµε την ( v Γ = val p 0 ij c ij + l ) p k ij v k k=1 i=1,...,m j=1,...,n (2) όπου val είναι ο τελεστής της τιµής ενός π.π. Επαναλαµβάνουµε ότι η αιτιολόγηση αυτής της διαδικασίας επίλυσης στη- ϱίζεται στον τρόπο απόδειξης του Θεωρήµατος Zermelo-Kuhn για παιχνίδια τέλειας πληροϕόρησης και δεν παρουσιάζει δυσκολία. Μία ενδιαϕέρουσα κατηγορία πεπερασµένων αναδροµικών παιχνιδιών είναι εκείνα που επιδέχονται παραµετροποίηση. Παράµετρος συνήθως είναι ο αριθµός των σταδίων (ϐηµάτων) µέχρι τη λήξη του παιχνιδιού ή/και κάποιοι πόροι που διαθέτουν οι παίκτες και των οποίων κάνουν χρήση σε κάθε ϐήµα. Στη ϐιβλιογραϕία εµϕανίζονται και ως παιχνίδια πεπερασµένων πόρων ή ως παιχνίδια εξάντλησης, (games of finite resources, games of exhaustion). Στα παιχνίδια αυτά συχνά µπορούµε να λύσουµε µέσω εξισώσεων διαϕορών µε κατάλληλη συνοριακή συνθήκη. Η τελευταία προκύπτει από την επίλυση των τελευταίων υποπαιχνιδιών του δένδρου. Πολύ χρήσιµο εδώ αποδεικνύεται το εργαλείο της µαθηµατικής επαγωγής. Συχνά είναι εύκολη η επίλυση τέτοιων µοντέλων για 1 ϐήµα πριν το τέλος, 2 ϐή- µατα πριν το τέλος κ.ο.κ. και η εξαγωγή του γενικού τύπου µέσω επαγωγικής γενίκευσης. Παράδειγµα 5.2.4. Ηχηρή Μονοµαχία. ύο µονοµάχοι τοποθετούνται σε α- πόσταση 2n ϐηµάτων. Σε κάθε στάδιο του παιχνιδιού αποϕασίζουν ταυτόχρονα και ανεξάρτητα αν ϑα πυροβολήσουν ή όχι τον αντίπαλό τους. ιαθέτουν µία σϕαίρα ο κάθε ένας και κάθε πυροβολισµός γίνεται αντιληπτός από τον κά- ϑε παίκτη. Μετά την απόϕασή τους, αν και οι δύο παραµένουν στο παιχνίδι, κάνουν υποχρεωτικά ο κάθε ένας ένα ϐήµα προς τον αντίπαλό του και η διαδικασία επαναλαµβάνεται. Υποθέτουµε ότι η ευθυβολία του κάθε παίκτη είναι συνάρτηση της απόστασης από τον στόχο του και δίνεται και για τους δύο από την : πιθανότητα επιτυχίας = 1 όταν η απόσταση είναι 2t (t = n, n 1,..., 1, 0). 2t
150 Κεϕάλαιο 5 Ζητάµε την πιθανότητα επιβίωσης του I όταν και οι δύο παίκτες παίζουν ϐέλτιστα καθώς και τις ϐέλτιστες στρατηγικές των παικτών τότε. Προϕανώς το παιχνίδι ϑα δίνεται από ένα δένδρο µε τερµατικές πληρωµές 1 εκεί όπου ο I επιβιώνει (ανεξάρτητα από το αν ο II επιβιώνει ή όχι) και 0 διαϕορετικά. Ας ονοµάσουµε Γ t το παιχνίδι κατά το οποίο οι δύο µονοµάχοι απέχουν 2t ϐήµατα (εµείς λύνουµε τότε το Γ n ). Αυτό ϑα δίνεται από το δένδρο I π δπ II II π δπ π δπ 1 2 t 1 1 2 t 1 1 2 t 1 Γ t 1 2 t 2 t 2 t 2 t 2 t 2 t 0 1 1 0 0 1 Σχήµα 5.2.6 Για να δούµε πώς υπολογίστηκαν οι τερµατικές πληρωµές ας εξετάσουµε µία περίπτωση. Ετσι, αν ο I επιλέξει π και ο II δπ, τότε ο I ϑα επιτύχει (και άρα ϑα επιβιώσει) µε πιθανότητα 1/2 t. Αν αποτύχει, µε πιθανότητα 1 1/2 t, τότε ο II ϑα περιµένει µέχρι να γίνει το t = 0 και τότε ϑα πετύχει µε πιθανότητα 1(= 1/2 0 ) τον I. ηλαδή, αν ο I αποτύχει, ενώ ο II δεν πυροβόλησε, κατόπιν η πιθανότητα επιβίωσής του I είναι 0. Ο αναγνώστης ας επιβεβαιώσει τις υπόλοιπες πληρωµές. Σε κανονική µορϕή, οι σχέσεις (1) ϑα δώσουν τον αναδροµικό τύπο II I π A t = π δπ 1 1 2 t 1 2 t δπ 1 1 2 t Γ t 1 και οι σχέσεις (2) τον τύπο v t = val 1 1 2 t 1 2 t 1 1 2 t v t 1. Η συνοριακή συνθήκη ϑα είναι v 0 = 0 αϕού στο Γ 0 (εξ επαϕής) η πιθανότητα επιβίωσης του I είναι 0.
5.2 Παιχνίδια σε Στάδια 151 Άρα v 1 = val 1/2 1/2 1/2 0 = 1 2 x 1 = (1, 0)T y 1 = ο,τιδήποτε. v 2 = val 3/4 1/4 = 1 3/4 1/2 2 x 1 y 1 = (0, 1)T. = (0, 1)T Υποψιαζόµαστε 5 ότι v t = 1. Ας το δείξουµε και τυπικά. 2 Ισχυρισµός : Για κάθε t, t = n, n 1,..., 2 ϑα είναι v t = 1 2 και x t y t = (0, 1) T. = (0, 1) T Απόδειξη : Για t = 2 έχει δειχθεί. Εστω ότι ο ισχυρισµός ισχύει για t = s 1, 1 1 1 2 µε s > 2. Τότε v s = val s 2 s 1 1 1. Αλλά 1 2 1 s 2 1 1 2 s, δηλαδή 2 s 2 ο πίνακας έχει σαγµατικό σηµείο στο 1/2. Άρα v s = 1/2 και x s = (0, 1) T, y s = (0, 1) T, δηλαδή ο ισχυρισµός ισχύει και για t = s, που ολοκληρώνει το επαγωγικό ϐήµα. Με λόγια : Η ϐέλτιστη στρατηγική του I είναι να µην πυροβολήσει παρά µόνον όταν t = 1. Εάν ακολουθήσει τη ϐέλτιστη στρατηγική εξασϕαλίζει πιθανότητα επιβίωσης 1/2. Παράδειγµα 5.2.5. Παιχνίδι Επιθεώρησης (Inspection Game). Ενας λαθρέµπορος (παίκτης II) ϑα επιχειρήσει να περάσει κάποιο αγαθό από ένα πέρασµα στα σύνορα τις επόµενες n ηµέρες. Οι τελωνοϕύλακες (παίκτης I) έχουν τη δυνατότητα να ελέγξουν το πέρασµα µονάχα µία ηµέρα, όποιαν αυτοί επιθυµούν. Κάθε µέρα οι δύο παίκτες αποϕασίζουν ταυτόχρονα και ανεξάρτητα αν ϑα δράσουν ή όχι και αϕού εκτελέσουν τις αποϕάσεις τους, αυτές γίνονται γνωστές σε όλους. Εάν ο λαθρέµπορος επιχειρήσει να περάσει όταν οι τελωνοϕύλακες επιθεωρούν, ϑα χάσει 1 µονάδα ωϕέλειας. Εάν δεν γίνεται επιθεώρηση όταν ο λαθρέµπορος επιχειρεί, τότε ο λαθρέµπορος περνά (πληρωµή 0). Ο λαθρέµπορος οπωσδήποτε πρέπει να περάσει το αγαθό µέχρι τη λήξη του χρονικού ορίζοντα. Ζητάµε να λύσουµε το παιχνίδι αυτό. Παρατηρήστε ότι και πάλι η λύση ϑα δίνει την πιθανότητα σύλληψης του λαθρέµπορου κάτω από τις ϐέλτιστες στρατηγικές των δύο παικτών. 5 Ο αναγνώστης ας γράψει και την v 3 για να τεκµηριώσει την υποψία αυτή.
152 Κεϕάλαιο 5 Εστω Γ t το υποπαιχνίδι κατά το οποίο αποµένουν t ηµέρες µέχρι τη λήξη, t 2, και όπου κανείς παίκτης δεν έχει δράσει µέχρι σήµερα. Σε µορϕή δένδρου το Γ n που Ϲητάµε να λύσουµε ϑα δίνεται από I επθ. δ.επθ. II επχ. δ.επχ. επχ. δ.επχ. 1 0 0 Γ n 1 Σχήµα 5.2.7 Ο αναγνώστης ας ελέγξει τις πληρωµές (π.χ. αν ο I επιθεωρήσει και ο II δεν επιχειρήσει, τότε το πέρασµα ελευθερώνεται τις επόµενες ηµέρες για τον II που ϑα περάσει χωρίς καµία δυσκολία). Άρα ( ) 1 0 A t =, t = n, n 1,..., 2 0 Γ t 1 και v t = val ( 1 0 0 v t 1 ), t = n, n 1,..., 2. Η συνοριακή συνθήκη ϑα είναι v 1 = 1 αϕού, αν ποτέ παιχθεί το Γ 1, η σύλληψη του λαθρέµπορου είναι ϐέβαιη (αυτός είναι τότε υποχρεωµένος να επιχειρήσει). Άρα ( ) 1 0 v 2 = val = 1 ( 1 0 1 2, x 2 = 2, 1 ) T (, y 1 2 2 = 2, 1 ) T, 2 1 0 v 3 = val 0 1 = 1 ( 1 3, x 3 = 3, 2 ) T (, y 1 3 3 = 3, 2 ) T. 3 2 Αν ο αναγνώστης δεν έχει ήδη εικάσει το γενικό τύπο, µπορεί να κάνει ένα ακόµη ϐήµα (t = 4). Θα δει τότε ότι η επαγωγική πρόταση ϑα είναι ο Ισχυρισµός : v t = 1, t = n, n 1,..., 2. t x t = ( 1 t, t 1 ) T (, y 1 t = t t, t 1 ) T. t
5.2 Παιχνίδια σε Στάδια 153 Απόδειξη : Για t = 2 έχει δειχθεί. Εστω ότι ισχύει για t = s. Από τον αναδρο- µικό τύπο έχουµε v s+1 = val ( 1 0 0 v s ) ( 1 0 = val 0 1/s ( ) 1 0 Εύκολα ελέγχουµε ότι val = 1 ( ) 0 1/s s + 1, x s+1 = 1 s + 1, s T, y s+1 s + 1 = ( ) 1 s + 1, s T, και η επαγωγική απόδειξη ολοκληρώθηκε. s + 1 Ας εξετάσουµε τώρα το ερώτηµα : Πριν αρχίσει το παιχνίδι, κάτω από τη ϐέλτιστή του στρατηγική, ποια είναι η πιθανότητα ο I να επιλέξει να επιθεωρήσει την (όποια) t ηµέρα; Θα έχουµε P(επιθεώρησης την t ηµέρα) = n 1 n 2 n n 1 ). t t + 1 1 t = 1 n. ηλαδή ουσιαστικά, κάτω από τη ϐέλτιστή του στρατηγική, ο I διαλέγει στην τύχη µία ηµέρα από τις επόµενες n για να ασκήσει την επιθεώρησή του. Φυσικά, το ίδιο και ο II ϑα διαλέξει µία ηµέρα στην τύχη για να επιχειρήσει να περάσει. Αυτή η ιδιότητα αµεταβλητότητας (που στο παράδειγµά µας είναι αναµενόµενη) διαπερνά µία µεγάλη κατηγορία πεπερασµένων αναδροµικών παιχνιδιών µε ενδιαϕέροντα αποτελέσµατα (Σχετικά ϐλ. D. Gale (1957) και T. S. Ferguson και C. Melolidakis (2000)). Μια κατηγορία παιχνιδιών που η επίλυσή τους µπορεί να αξιοποιήσει τις ιδέες της παραµετροποίησης της αναδροµικότητας είναι τα παιχνίδια µε χρονική υστέρηση (time lag). Σ αυτά η κίνηση ενός παίκτη (ή και των δύο) σε ένα στάδιο του παιχνιδιού, έστω t, εµϕανίζεται και επηρεάζει το παιχνίδι µετά από k στάδια (δηλαδή στο στάδιο t k). Ετσι, σήµερα το παιχνίδι ϑα παιχτεί σύµϕωνα µε την κίνηση που έγινε πριν k στάδια. Το k είναι η µεταβλητή της χρονικής υστέρησης. Ας δούµε ένα παράδειγµα. Παράδειγµα 5.2.6. Το Παιχνίδι της Καταδίωξης. Ενα ϐοµβαρδιστικό (παίκτης I) καταδιώκει ένα πλοίο (παίκτης II). Ο II κινείται πάνω στο πλέγµα N 0 N 0, όπου N 0 := {0, 1, 2,...} κατά τρόπο ώστε εάν ϐρίσκεται στη ϑέση (x, y) να µπορεί να µετακινηθεί ή στη ϑέση (x 1, y) ή στη ϑέση (x, y 1) (δηλαδή ή οριζόντια προς τα αριστερά ή κάθετα προς τα κάτω κατά µία ϑέση). Ο I, γνωρίζοντας τη ϑέση (x, y) του II, µπορεί να χτυπήσει µία ϑέση του πλέγµατος σε κάθε στάδιο, αλλά η ϐόµβα
154 Κεϕάλαιο 5 που ϑα εξαπολύσει ϑα χτυπήσει τη ϑέση που σκόπευσε µετά από ένα στάδιο. Εποµένως, οι ϑέσεις που έχει νόηµα να επιλέξει να χτυπήσει ο I είναι η (x 1, y) ή η (x, y 1). Εάν η ϑέση στην οποία ϐρίσκεται ο II χτυπηθεί, το παιχνίδι τελειώνει µε πληρωµή 1 για τον I και εάν δε χτυπηθεί, το παιχνίδι ξαναρχίζει από τη νέα ϑέση που ϐρίσκεται ο II. Εάν ο II καταϕέρει να φθάσει στους άξονες (τις ευθείες x = 0 ή y = 0) χωρίς να χτυπηθεί, τότε το παιχνίδι τελειώνει µε πληρωµή 0 για τον I (προσέξτε ότι αν ο II χτυπηθεί ακριβώς τη στιγµή που φτάνει στους άξονες, ο I και πάλι παίρνει 1). Αν ονοµάσουµε o και κ τις επιλογές του I να χτυπήσει οριζόντια (δηλ. τη ϑέση (x 1, y)) και κάθετα (δηλ. τη ϑέση (x, y 1)) αντίστοιχα και αν ονοµάσουµε και πάλι o και κ τις αντίστοιχες επιλογές κίνησης του II, τότε το παιχνίδι που αρχίζει από τη ϑέση (x, y), έστω Γ(x, y), ϑα δίνεται από τον πίνακα A(x, y), όπου II I o κ o A(x, y) = 1 Γ(x, y 1) κ Γ(x 1, y) 1 Εποµένως, για (x, y) N 0 N 0 οι αναδροµικές σχέσεις (2) ϑα δίνουν v(x, y) = val ( 1 v(x, y 1) v(x 1, y) 1 ) µε συνοριακή συνθήκη v(0, y) = v(x, 0) = 0. Η v(x, y) έχει πιθανοθεωρητική ερµηνεία (είναι η πιθανότητα να χτυπηθεί ο II όταν και οι δύο παίκτες παίζουν ϐέλτιστα) και εποµένως ο παραπάνω πίνακας δέχεται λύση σε εξισωτικές στρατηγικές 6. Η επίλυση της παραπάνω εξίσωσης διαϕορών δεν είναι στοιχειώδης και η εικασία της λύσης από τις ιδιαίτερες περιπτώσεις όπου το x ή/και το y παίρνουν χαµηλές τιµές (ξεκινώντας από (x, y) = (1, 1) και προχωρώντας κατά µήκος των ευθειών x = 1 ή y = 1, κ.ο.κ.) δεν είναι εύκολη. Στην Άσκηση 5.6.25 Ϲητείται από τον αναγνώστη να αποδείξει ότι v(x, y) = 1 x!y! και ότι οι ϐέλτιστες συµπεριϕορικές στρατηγικές των I και II στο (x + y)! στάδιο (x, y) είναι να παίζουν (y/(x + y), x/(x + y)) και (x/(x + y), y/(x + y)) 6 Η µόνη περίπτωση σαγµατικού σηµείου είναι εάν v(x, y 1) = 1 ή v(x 1, y) = 1. Αϕήνουµε στον αναγνώστη να δείξει ότι αυτό δε µπορεί να συµβεί.
5.2 Παιχνίδια σε Στάδια 155 αντίστοιχα. (Βέβαια, όταν δοθεί ο κλειστός τύπος, η απόδειξη της αναδροµής είναι πολύ εύκολη). 5.2.3 Αναδροµικά Παιχνίδια µε Απειρο Αριθµό Κινήσεων Αν και ϐγαίνει έξω από τα πλαίσια της ϑεωρίας των πεπερασµένων παιχνιδιών ϑα αναϕερθούµε συνοπτικά στα αναδροµικά παιχνίδια άπειρης διάρκειας. Καταρχήν, τι εννοούµε όταν µιλάµε για αναδροµικότητα µε άπειρο αριθµό κινήσεων ; Στον πεπερασµένο ορίζοντα η ύπαρξη υποπαιχνιδιών δηµιουργούσε τη δυνατότητα να επιλύσουµε αναδροµικά, δηλαδή από το τέλος προς την αρχή. Οταν όµως οι κινήσεις για να τελειώσει το παιχνίδι είναι άπειρες, η επίλυση από το τέλος προς την αρχή µοιάζει να µην έχει νόηµα, αϕού τώρα τέλος δεν υπάρχει, ακόµη και αν το παιχνίδι περιέχει υποπαιχνίδια σαν συνιστώσες. Ας υποθέσουµε όµως, για χάρη της συζήτησης, ότι το παιχνίδι µας, Γ, περιέχει l υποπαιχνίδια, τα Γ k, k = 1,..., l και ότι κάθε ένα από αυτά διαθέτει ΣΣΙ, το s 0 k, µε πληρωµή των παικτών h( s0 ) σ αυτό. Τότε, κάτω από ποια συνθήκη k ϑα εξασϕαλίζαµε ότι το Γ έχει ΣΣΙ που προκύπτει από την αντικατάσταση των Γ k, k = 1,..., l, από τις τιµές h( s 0 ); Προϕανώς µία ικανή συνθήκη ϑα ήταν το k δένδρο - πηλίκο να ήταν πεπερασµένο. Τότε ϑα µπορούσαµε πραγµατικά να λύσουµε από το τέλος προς την αρχή, δηλαδή ϑα είχαµε αναδροµικότητα. Την ιδιότητα να είναι το δένδρο πηλίκο πεπερασµένο µπορούµε να την ε- ξασϕαλίσουµε απαιτώντας (α) από κάθε κορυϕή του Γ να έπεται πεπερασµένος αριθµός κλάδων, και (ϐ) κάθε µονοπάτι από την αϕετηρία του Γ να συναντά σε πεπερασµένο αριθµό κινήσεων ή τερµατική κορυϕή ή κορυϕή t που αποτελεί αϕετηρία ενός υποπαιχνιδιού Γ t. Ας ονοµάσουµε τις (α) και (ϐ), συνθήκη (Σ). Κάτω από τη (Σ), για να πετύχουµε αναδροµικότητα ϑα πρέπει µε κάποιο τρόπο να εξασϕαλίζουµε την ύπαρξη ΣΣΙ για τα υποπαιχνίδια Γ k, k = 1,..., l. Πριν συνεχίσουµε τη συζήτηση, ας δούµε το απλούστερο δυνατό παράδειγµα. Παράδειγµα 5.2.7. Εστω Γ το παιχνίδι 2-παικτών 0-αθροίσµατος µε δένδρο I α δ 1 Γ Σχήµα 5.2.8 Εδώ σε κάθε ϐήµα ο I µπορεί ή να σταµατήσει το παιχνίδι µε πληρωµή 1 ή να κάνει το παιχνίδι να αρχίσει από την αρχή. Η (Σ) προϕανώς ικανοποιείται, έστω και αν η µοναδική συνιστώσα υποπαιχνίδι του Γ είναι ο εαυτός του.
156 Κεϕάλαιο 5 Η πρώτη παρατήρηση στο παράδειγµά µας είναι ότι αν ο I το επιθυµεί, η διάρκεια του παιχνιδιού ϑα είναι άπειρη µε πιθανότητα 1. Εποµένως, για να οριστεί καλά η συνάρτηση πληρωµής, ϑα πρέπει να συµπεριλάβει και το ενδεχόµενο άπειρων κινήσεων. Ενας τρόπος να γίνει αυτό είναι δίνοντας ένα Q R ως πληρωµή του I από τον II αν το παιχνίδι κρατήσει επ άπειρον. Σε κανονική µορϕή, κατ αναλογία των (1) του Εδαϕίου 5.2.2, το παιχνίδι µας ϑα δίνεται από τον πίνακα ( ) Γ A =. 1 Η τιµή του παιχνιδιού υπολογίζεται εύκολα : Οποιαδήποτε στιγµή ο I σταµατήσει το παιχνίδι, ϑα πληρωθεί 1. Εποµένως, ο I ϑα επιλέξει να σταµατήσει αν 1 > Q και ϑα επιλέξει την άπειρη διάρκεια αν 1 < Q (για Q = 1 ο I είναι αδιάϕορος). Άρα v Γ = max(q, 1). Ενα ενδιαϕέρον ερώτηµα είναι αν η τιµή v Γ ικανοποιεί εξίσωση ανάλογη µε την εξίσωση (2) του Εδαϕίου 5.2.2, δηλαδή αν ισχύει ) v Γ = val. 1 Η επίλυση της x = val( x ) είναι άµεση αϕού val( x 1 1) = max(x, 1). Άρα η εξίσωση ικανοποιείται από κάθε x [1, ). Ειδικότερα, αϕού v Γ 1, η τιµή του παιχνιδιού είναι µία από τις άπειρες λύσεις της (2). Παρατηρήστε ότι η v Γ είναι εκείνη από τις λύσεις της (2) που ϐρίσκεται πλησιέστερα στο Q. Επιστρέϕοντας στην προσπάθεια να διερευνήσουµε την έννοια της αναδρο- µικότητας όταν το παιχνίδι µπορεί να έχει άπειρη διάρκεια, παρατηρούµε ότι στα πεπερασµένα αναδροµικά παιχνίδια λύσαµε µέσω των εξισώσεων (2) έχοντας εξασϕαλίσει τόσο την ύπαρξη των ΣΣΙ των υποπαιχνιδιών όσο και έχοντάς τα ϐρει, ώστε να τα αντικαταστήσουµε στην (2). Στην περίπτωση της άπειρης διάρκειας η ελπίδα είναι να εξασϕαλίσουµε την ύπαρξη και κατόπιν, µε κάποιο τρόπο να λύσουµε τις (2) (αϕού φυσικά πρώτα έχουµε δείξει ότι η τιµή του παιχνιδιού είναι λύση των (2) ). Φυσικά, στη συνέχεια ϑα πρέπει να ξεχωρίσουµε την v Γ ανάµεσα από τις (ενδεχόµενα άπειρες) λύσεις της (2). Απαντήσεις στα ερωτήµατα αυτά έδωσε ο H. Everett (1957) σε µία κλασική εργασία 7. Στον τόµο που δηµοσιεύτηκε η εργασία του Everett, οι J. Milnor και L. S. Shapley (1957) µελέτησαν επίσης µία ιδιαίτερη κατηγορία αναδροµικών παιχνιδιών άπειρης διάρκειας, τα παιχνίδια επιβίωσης (games of survival), εµπλουτίζοντας τη ϑεωρία του Everett. ( vγ 7 Το ϑεωρητικό πλαίσιο του Everett είναι ευρύτερο από το δικό µας.
5.2 Παιχνίδια σε Στάδια 157 Ο τρόπος που ο Everett είδε το πρόβληµα ήταν ϑεωρώντας ως αναδροµικό παιχνίδι ένα πεπερασµένο σύνολο παιχνιδιών {Γ 1, Γ 2,..., Γ l }, όπου το κάθε ένα από τα Γ k, k = 1,..., l, ικανοποιεί τη συνθήκη (Σ) και όπου κάθε υποπαιχνίδι κάθε πεπερασµένου δένδρου-πηλίκου ανήκει στο σύνολο αυτό. Στην περίπτωση ενός παιχνιδιού 2-παικτών 0-αθροίσµατος η ιδέα αυτή ο- δηγεί σε σχέσεις ανάλογες των (1) του Εδαϕίου 5.2.2. Ετσι οδηγούµαστε στον Ορισµός 5.2.3. Ορίζουµε ως αναδροµικό παιχνίδι 2-παικτών 0-αθροίσµατος το Ϲεύγος (Γ, Q), όπου Q R και Γ = (Γ 1,..., Γ l ), µε Γ k, k = 1,..., l, παιχνίδια σε κανονική µορϕή που ορίζονται µέσω των πινάκων A k = (a k ij ) i=1,...,m k, k = 1,..., l, j=1,...,n k µε για p kr ij 0, r = 0, 1,..., l, µε l a k ij = p k0 ij c k ij + r=0 l p kr ij = 1. p kr ij Γ r (3) Παρατήρηση : Ο Ορισµός 5.2.3 εµπεριέχει τις σχέσεις (1) του Εδαϕίου 5.2.2 και εποµένως εµπεριέχει και τα πεπερασµένα αναδροµικά παιχνίδια. Η ερµηνεία των (3) είναι η γνωστή : Οταν ϐρισκόµαστε στο παιχνίδι Γ k και οι παίκτες επιλέξουν την i-γραµµή και τη j-στήλη, τότε το παιχνίδι Γ τερµατίζεται µε πιθανότητα p k0 ij µε τερµατική πληρωµή c k ij και µεταπηδά στο παιχνίδι Γ r, r = 1,..., l µε πιθανότητα p kr ij. Τα Γ k, k = 1,..., l ονοµάζονται καταστάσεις του Γ. Αν το παιχνίδι κρατήσει επ άπειρον, τότε ο II πληρώνει ποσότητα Q στον I. Παράδειγµα 5.2.8. Εστω Q R και Γ = (Γ 1, Γ 2, Γ 3 ) µε ( Γ 2 ) ( 0 Γ 1 1 A 1 = 0 Γ 3, A 2 = 1 0 ) ( Γ 1, A 3 = 2 2 0 Προσέξτε ότι εδώ δεν υπάρχουν κινήσεις της φύσης. Το παράδειγµα αυτό επιλύεται στο τέλος του εδαϕίου. Η τιµή του παιχνιδιού Γ ϑα εξαρτάται από την αρχική κατάσταση Γ k, k = 1,..., l, και εποµένως ϑα είναι ένα διάνυσµα (v 1,..., v l ), όπου η v k αναϕέρεται στην αρχική κατάσταση Γ k. Το παιχνίδι δεν είναι πεπερασµένο και εποµένως, γενικά, ϑα υπάρχουν µόνον ε-ϐέλτιστες στρατηγικές (ϐλ. Εδάϕιο 4.9.1). Για να διατυπώσουµε το ϑεώρηµα που ακολουθεί ϑα χρειαστούµε την έννοια της στάσιµης (συµπεριϕορικής) στρατηγικής. Σε ένα παιχνίδι άπειρης διάρκειας, η στρατηγική που ακολουθεί ένας παίκτης όταν το παιχνίδι µπαίνει σε κάποιο υποπαιχνίδι µπορεί να εξαρτάται από πολλά πράγµατα (π.χ. από την ιστορία του παιχνιδιού, από τη χρονική στιγµή ).
158 Κεϕάλαιο 5 εισόδου στο υποπαιχνίδι, κ.λπ.). Αν ο παίκτης τυχαιοποιεί τις αποϕάσεις του πάντα µε την ίδια κατανοµή πιθανότητας κάθε φορά που το Γ µπαίνει στο ίδιο υποπαιχνίδι, ξεχνά δηλαδή την ιστορία και εξαρτά τη στρατηγική του µόνο από την εκάστοτε κατάσταση (το υποπαιχνίδι) του Γ, τότε λέµε ότι ο παίκτης αυτός ακολουθεί µία στάσιµη (stationary) στρατηγική. Θεώρηµα 5.2.1. Everett. Το αναδροµικό παιχνίδι άπειρης διάρκειας Γ του Ορισµού 5.2.3 διαθέτει τιµή (v 1,..., v l ) και οι παίκτες διαθέτουν ε-ϐέλτιστες στάσιµες στρατηγικές. Η τιµή του παιχνιδιού ικανοποιεί το σύστηµα εξισώσεων ( x k = val p k0 ij c k ij + l p kr ij x r ), k = 1,..., l. (4) Απόδειξη : Ο αναγνώστης παραπέµπεται στους H. Everett (1957) και J. Milnor & L. S. Shapley (1957). Για µια πιό σύγχρονη προσέγγιση, ενιαία και µε τα στοχαστικά παιχνίδια, το ϐιβλίο των A. Maitra και W. Sudderth (1996) παρουσιάζει ξεχωριστό ενδιαϕέρον. Εχουµε ήδη δει στο Παράδειγµα 5.2.6 ότι το σύστηµα (4) µπορεί να µην έχει µοναδική λύση. Γενικά µπορεί να δειχθεί ότι οι λύσεις του (4) είναι ένα σύνολο της µορϕής [a 1, b 1 ] [a 2, b 2 ] [a l, b l ] και ότι η τιµή του παιχνιδιού είναι η πλησιέστερη λύση 8 στο (Q, Q,..., Q). Ας δούµε παραδείγµατα. ( Γ Παράδειγµα 5.2.9. Γ = (Γ 1 ), Q R και A 1 1 = ( x 0 Οι εξισώσεις (4) δίνουν x = val 0 1 0 0 1 ( ) x 0 ως σαγµατικό σηµείο, ενώ αν x 0, τότε val 0 1 ηλ. η εξίσωση που λύνουµε είναι η x = f (x), όπου f (x) = ). ). Αν x 0, τότε ο πίνακας έχει το 0 0 αν x < 0 x αν x 0. 1 + x = x 1 + x. 8 Οι τιµές των b k, k = 1,..., l, µπορεί να είναι και, δηλ. τα διαστήµατα µπορούν να είναι της µορϕής [a k, ), όπως π.χ. στο Παράδειγµα 5.2.6.
5.2 Παιχνίδια σε Στάδια 159 y 1 y = x y = f (x) 1 x Σχήµα 5.2.9 Προϕανώς µοναδική λύση της είναι το x = 0. Άρα v Γ = 0, σύµϕωνα µε το Θεώρηµα 5.2.1, και η τιµή του παιχνιδιού είναι ανεξάρτητη του Q. Αυτό όµως δεν ισχύει όσο αϕορά τις ϐέλτιστες στρατηγικές. Αν Q 0, ο I εξασϕαλίζει την v Γ = 0 παίζοντας την δεύτερή του γραµµή και ο II εξασϕαλίζει την v Γ = 0 παίζοντας πάντα την πρώτη του στήλη. Αν Q > 0, οποιαδήποτε µείξη των γραµµών εξασϕαλίζει 0 στον I. Ο II όµως τώρα δε διαθέτει ϐέλτιστη στρατηγική αλλά ε-ϐέλτιστη, την (1 ε, ε) T. Για να το δούµε αυτό, κατ αρχήν παρατηρούµε ότι καµία από τις δύο στήλες του II (καθαρές στρατηγικές) δεν του εξασϕαλίζει 0. Εστω λοιπόν ότι ο I αναµειγνύει τις στρατηγικές του µε πιθανότητες (s, 1 s) και ο II µε πιθανότητα (1 ε, ε) µε ε > 0. Το γεγονός ότι ο II δίνει ϑετικό ϐάρος στη δεύτερή του στήλη εξασϕαλίζει ότι τελικά το παιχνίδι ϑα σταµατήσει. Η αναµενόµενη πληρωµή ϑα είναι (1 s)ε + s(1 ε) { (1 s)ε + s(1 ε)[...] } 1 = (1 s)ε 1 s(1 ε) = 1 s 1 s(1 ε) ε η οποία ανήκει σε µία ε-περιοχή του 0. Παράδειγµα 5.2.8. Συνέχεια. Λύνουµε το σύστηµα (4) που στην περίπτωσή µας ϑα είναι το ( x2 0 x 1 = val 0 x 3 ) ( x1 1, x 2 = val 1 0 ) ( x1 2, x 3 = val 2 0 Καταρχήν εξετάζουµε αν κάποιος από τους τρεις πίνακες του συστήµατος µπορεί να έχει σαγµατικό σηµείο. Αν δείξουµε ότι x 1 > 0, τότε οι τιµές του ϐ και γ πίνακα ϑα είναι ϑετικές, δηλαδή τότε x 2 > 0, x 3 > 0. Αυτό αρκεί για να συµπεράνουµε ότι ο α πίνακας δεν έχει σαγµατικό σηµείο. είχνουµε ότι x 1 > 0 µε την εις άτοπον απαγωγή. Πράγµατι, αν ήταν x 1 0, τότε ο ϐ και γ πίνακας ϑα είχαν ΣΣΙ σε εξισωτικές στρατηγικές και ϑα ήταν ( ) x1 1 1 x 2 = val = > 0 1 0 2 x 1 ).
160 Κεϕάλαιο 5 ( x1 2 x 3 = val 2 0 ) = 4 4 x 1 > 0. Αλλά τότε ο α πίνακας ϑα είχε ΣΣΙ σε εξισωτικές στρατηγικές µε τιµή υποχρεωτικά ϑετική, που αντιϕάσκει στην υπόθεσή µας ότι x 1 0. Άρα x 1 > 0 και ο α πίνακας δεν έχει σαγµατικό σηµείο, οπότε η α εξίσωση γίνεται x 1 = x 2 x 3 /(x 2 + x 3 ). Αϕού x 1 > 0, η µόνη περίπτωση να έχει ο γ πίνακας σαγµατικό σηµείο ϑα είναι αν x 1 2, οπότε τότε η τιµή του ϑα είναι 2. Στην περίπτωση αυτή και ο ϐ πίνακας ϑα έχει σαγµατικό σηµείο και εποµένως η τιµή του ϑα είναι 1. ( ) 1 0 Αλλά τότε η α εξίσωση δίνει x 1 = val = 2 < 1, που αντιϕάσκει µε την 0 2 3 υπόθεση ότι x 1 2. Άρα x 1 < 2, ο γ πίνακας δεν έχει σαγµατικό σηµείο και η γ εξίσωση γίνεται x 3 = 4/(4 x 1 ). Ας εξετάσουµε τώρα την ύπαρξη σαγµατικού σηµείου για τον ϐ πίνακα. Αυτό ϑα συµβαίνει µόνο αν 1 x 1 < 2. Αλλά τότε η ϐ εξίσωση γίνεται x 2 = 1, οπότε αντικαθιστώντας στην α εξίσωση παίρνουµε /( ) 4 4 x 1 = 1 + 4 x 1 4 x 1 που συνεπάγεται x 1 < 1 (αντίϕαση στην υπόθεσή µας ότι 1 x 1 < 2). Άρα ούτε ο ϐ πίνακας έχει σαγµατικό σηµείο, η ϐ εξίσωση γίνεται x 2 = 1 2 x 1 και ϑα πρέπει πάντα να ισχύει 0 < x 1 < 1. Εποµένως έχουµε προς λύση το σύστηµα x 1 = x 2 x 3 /(x 2 + x 3 ) x 2 = 1/(2 x 1 ) x 3 = 4/(4 x 1 ) µε περιορισµό 0 < x 1 < 1. Αντικαθιστώντας τις ϐ και γ στην α, ο αναγνώστης ας ελέγξει ότι παίρνουµε 5x 2 1 12x 1 + 4 = 0 δηλαδή x 1 = 2 ή x 1 = 2/5. Η λύση x 1 = 2 απορρίπτεται λόγω του περιορισµού και εποµένως v Γ = (2/5, 5/8, 10/9). Στο παράδειγµά µας υπάρχουν ϐέλτιστες στρατηγικές (στάσιµες φυσικά) που ο αναγνώστης καλείται να υπολογίσει. Παρατηρήστε ότι η τιµή είναι ανεξάρτητη του Q, αϕού η λύση του συστήµατος είναι µοναδική.
5.2 Παιχνίδια σε Στάδια 161 5.2.4 Στοχαστικά Παιχνίδια Τα Στοχαστικά Παιχνίδια εισήγαγε ο L. S. Shapley (1953b). Η περιοχή αυτή έκτοτε έχει επεκταθεί δραστικά, έχει αναπτυχθεί σηµαντική ϑεωρία και έχουν πρόσϕατα εκδοθεί αρκετά ϐιβλία που τη συνοψίζουν (π.χ. J. Filar & K. Vrieze (1997), A. Maitra & W. Sudderth (1996), A. Neyman & S. Sorin (2003)), συνδέοντάς την µε τη Θεωρία Πιθανοτήτων, τις Ελεγχόµενες ιαδικασίες Markov, κ.λπ. Το µοντέλο του Shapley, που ϑα δούµε εµείς, αντιστοιχεί στο λεγόµενο αποπληθωρισµένο (discounted) τρόπο υπολογισµού της πληρωµής που ανάγει µελλοντικές πληρωµές στην παρούσα τους αξία. Άλλη ονοµασία του µοντέλου αυτού είναι : στοχαστικά παιχνίδια µε ϑετικές πιθανότητες τερµατισµού. Το µοντέλο του Shapley ϑυµίζει αρκετά τα αναδροµικά παιχνίδια του Everett, µε δύο διαϕορές. Τώρα, σε κάθε στάδιο του παιχνιδιού, αϕού οι παίκτες διαλέξουν γραµµή i και στήλη j, ο II πληρώνει στον I το ποσό c k ij αν η κατάσταση είναι η k (το c k ij ονοµάζεται τρέχουσα πληρωµή ). Κατόπιν το παιχνίδι µεταπηδά σε µία νέα κατάσταση r µε πιθανότητα (p k1 ij,..., p kl ij ), r = 1,..., l, l όπου γίνεται η κρίσιµη υπόθεση ότι < 1, ενώ µε πιθανότητα 1 l το παιχνίδι τελειώνει. Ορισµός 5.2.4. Ορίζουµε ως στοχαστικό παιχνίδι 2-παικτών 0-αθροίσµατος (µε ϑετικές πιθανότητες τερµατισµού) το Γ = (Γ 1,..., Γ l ), µε Γ k, k = 1,..., l, παιχνίδια σε κανονική µορϕή που ορίζονται µέσω πινάκων A k = (a k ij ) i=1,...,m k, j=1,...,n k k = 1,..., l, όπου a k ij = c k ij + l p kr ij p kr ij p kr ij Γ r (5) για p kr ij 0, r = 1,..., l, και όπου για κάθε k, i και j ισχύει l p kr ij < 1. (6) Παρατηρούµε ότι, όπως και στα άπειρα αναδροµικά παιχνίδια, το παιχνίδι δίνεται σε διανυσµατική µορϕή, όπου Γ k είναι το παιχνίδι µε αρχική κατάσταση την k και v k είναι η τιµή του παιχνιδιού αυτού, k = 1,..., l. Οι αναγνώστες που είναι εξοικειωµένοι µε τον υναµικό Προγραµµατισµό ας παρατηρήσουν ότι τα στοχαστικά παιχνίδια αποτελούν γενίκευση του προ- ϐλήµατος του στοχαστικού δυναµικού προγραµµατισµού, όπου τώρα η στοχαστική διαδικασία ελέγχεται από δύο ελεγκτές αντί ένα. Για την ακρίβεια, το
162 Κεϕάλαιο 5 µοντέλο του Shapley αποτελεί γενίκευση του µοντέλου του αποπληθωρισµένου (discounted) δυναµικού προγραµµατισµού µε άπειρο ορίζοντα. Για την ιστο- ϱία προσθέτουµε ότι ο Shapley δηµοσίευσε την εργασία του για τα στοχαστικά παιχνίδια πολύ πριν ο Bellman εισάγει την έννοια του δυναµικού προγραµµατισµού. Ας ονοµάσουµε s k ij := 1 l την πιθανότητα σταµατήµατος όταν το p kr ij παιχνίδι ϐρίσκεται στην κατάσταση k και οι παίκτες πάρουν τις αποϕάσεις i και j. Η (6) ισοδυναµεί µε s > 0, όπου s := min s k ij. Ετσι, µετά από t µεταπηδήσεις k,i,j (στάδια) η πιθανότητα να µην έχουµε σταµατήσει ϑα είναι µικρότερη ή ίση του (1 s) t. Από εδώ προκύπτει ότι το παιχνίδι ϑα σταµατά µετά από πεπερασµένο αριθµό µεταπηδήσεων µε πιθανότητα 1. Εστω τώρα M := max i,j,k ck ij. Τότε η αναµενόµενη πληρωµή του I ϑα φράσσεται από την ποσότητα M +(1 s)m +(1 s) 2 M + = M και εποµένως η συνάρτηση s πληρωµής είναι καλά ορισµένη. Η έννοια της τιµής και των ε-ϐέλτιστων στρατηγικών ορίζονται ακριβώς όπως στα αναδροµικά παιχνίδια άπειρης διάρκειας του προηγούµενου εδαϕίου. Μπο- ϱούµε τώρα να αποδείξουµε το Θεώρηµα 5.2.2. Shapley. Κάθε στοχαστικό παιχνίδι 2-παικτών 0-αθροίσµατος µε ϑετικές πιθανότητες τερµατισµού Γ = (Γ 1,..., Γ l ) διαθέτει τιµή v = (v 1,..., v l ) και οι παίκτες διαθέτουν ϐέλτιστες στάσιµες στρατηγικές. Η τιµή του παιχνιδιού είναι η µοναδική λύση των εξισώσεων ( x k = val c k ij + l p kr ij x r ), k = 1,..., l (7) και οι ϐέλτιστες στάσιµες στρατηγικές των παικτών είναι να παίζουν τη ϐέλτιστή τους στρατηγική στο π.π. A k κάθε φορά που η κατάσταση του παιχνιδιού είναι η k, k = 1,..., l, όπου A k = ( c k ij + l p kr ij v r ). i=1,...,m k j=1,...,n k Παρατήρηση : Τα συµπεράσµατα είναι ισχυρότερα από εκείνα του Θεωρήµατος 5.2.1. Τώρα υπάρχουν ϐέλτιστες στρατηγικές (και όχι ε-ϐέλτιστες µόνο) και η λύση του συστήµατος των εξισώσεων είναι µοναδική. Απόδειξη : Πρώτα ϑα αποδείξουµε ότι το παιχνίδι διαθέτει τιµή, κατόπιν ότι αυτή ικανοποιεί τις εξισώσεις (7) που έχουν µοναδική λύση και τέλος ότι οι
5.2 Παιχνίδια σε Στάδια 163 παίκτες διαθέτουν ϐέλτιστες στάσιµες στρατηγικές. (α) Το παιχνίδι έχει τιµή Εστω v k N η τιµή του παιχνιδιού µε αρχική κατάσταση k, k = 1,..., l, το οποίο περικόπτεται (σταµατά υποχρεωτικά) µετά από N µεταπηδήσεις (στάδια). Το περικοµµένο αυτό παιχνίδι ϑα συµβολίζουµε µε Γ k N. Η vk N υπάρχει, αϕού το Γ k N είναι πεπερασµένο, λόγω του Θεωρήµατος minimax. Εστω sk N µία στρατηγική του I στο Γ k η οποία συµπίπτει µε τη ϐέλτιστη στρατηγική του στο περικοµµένο Γ k N για τα πρώτα N στάδια. Τότε, για κάθε στρατηγική tk του II στο Γ k, η πληρωµή h k ( s k N, tk ) του I στο Γ k ϑα αποτελείται από το άθροισµα της πληρωµής του h k N ( sk N, tk ) στο περικοµµένο παιχνίδι και της πληρωµής του από το N + 1 στάδιο και εξής, έστω u k N ( sk N, tk ), δηλαδή Αλλά h k ( s k N, tk ) = h k N ( sk N, tk ) + u k N ( sk N, tk ). (8) h k N ( sk N, tk ) v k N (9) αϕού η s k N είναι ϐέλτιστη στο περικοµµένο παιχίδι. Επίσης, λόγω των ϑετικών πιθανοτήτων τερµατισµού ϑα έχουµε u k N ( sk N, tk ) (1 s) N M + (1 s) N+1 M + = (1 s)n M. (10) s Συνδυάζοντας τις (8), (9) και (10) συµπεραίνουµε ότι όπου ε N := (1 s)n M. s Άρα h k ( s k N, tk ) v k N ε N (11) v k := sup inf h k ( s k, t k ) v k s k t k N ε N. (12) Με ανάλογα επιχειρήµατα για τον παίκτη II παίρνουµε v k := inf sup h k ( s k, t k ) v k t k N + ε N. (13) s k Η (12) και (13) αρκούν για να δειχθεί ότι v k = v k. Πράγµατι, προϕανώς v k v k, και αν ήταν v k < v k ϑα καταλήγαµε σε άτοπο αϕού v k v k 2ε N και ε N N 0.
164 Κεϕάλαιο 5 Ονοµάζοντας v k την κοινή άνω και κάτω τιµή του Γ k, k = 1,..., l, συµπε- ϱαίνουµε ότι το διάνυσµα (v 1, v 2,..., v l ) είναι η τιµή του Γ. (ϐ) Η (v 1, v 2,..., v l ) ικανοποιεί τις (7) και µάλιστα είναι η µοναδική τους λύση. Στο προηγούµενο ϐήµα (α) είδαµε ότι η τιµή v k N του N-περικοµµένου παιχνιδιού µε αρχική κατάσταση την k µπορεί να προσεγγίσει όσο κοντά ϑέλουµε την τιµή v k του στοχαστικού παιχνιδιού Γ (µε αρχική κατάσταση k) και ότι µία ϐέλτιστη στρατηγική στο περικοµµένο παιχνίδι µπορεί να παίξει το ϱόλο της ε-ϐέλτιστης στρατηγικής στο άπειρης διάρκειας παιχνίδι. ηλαδή, ουσιαστικά το παιχνίδι άπειρης διάρκειας, όταν οι πιθανότητες τερµατισµού είναι ϑετικές, είναι σχεδόν πεπερασµένο. Το ότι η (v 1,..., v l ) ικανοποιεί τις (7) είναι εύκολο να το επιβεβαιώσουµε : Αν η παρούσα κατάσταση είναι η k και οι παίκτες πάρουν τις αποϕάσεις i και j, τότε ο I ϑα πάρει c k ij και η επόµενη κατάσταση ϑα είναι η r µε πιθανότητα p kr ij. Αλλά για ε > 0, από το επόµενο στάδιο και µετά ο I διαθέτει µία στρατηγική που του εξασϕαλίζει v r ε, r = 1,..., l, όπου r είναι η επόµενη κατάσταση. Εποµένως, αν οι παίκτες επιλέξουν στην παρούσα κατάσταση (i, j), ο I εξασϕαλίζει συνολική πληρωµή τουλάχιστον c k ij + l ε(1 s k ij ) ck ij + l Άρα, p kr ij v r ε(1 s). p kr ij (v r ε) = c k ij + l Συµπεραίνουµε ότι στο Γ k ο I µπορεί να εξασϕαλίσει πληρωµή Οµοια δείχνουµε ότι sup s k inf t k Αλλά από το ϐήµα (α), Άρα inf t k ( val c k ij + l p kr ij v r ) ε(1 s). ( inf h k ( s k, t k ) val c k t k ij + ( sup h k ( s k, t k ) val c k ij + s k sup s k l l p kr ij v r ). p kr ij v r ). h k ( s k, t k ) = sup inf h k ( s k, t k ) = v k. s k t k ( v k = val c k ij + l p kr ij v r ). p kr ij v r
5.2 Παιχνίδια σε Στάδια 165 Ας δούµε τώρα γιατί οι (7) έχουν µοναδική λύση. Εστω x το διάνυσµα (x 1,..., x l ) και ας ονοµάσουµε Tx το διάνυσµα µε συντεταγµένες ( (Tx) k = val c k ij + l p kr ij x r ), k = 1,..., l. Προϕανώς, το σύστηµα των εξισώσεων (7) γράϕεται και ως x = Tx. Επίσης, ας συµβολίσουµε µε x := max ( x k ) (η λέγεται και l νόρµα του x). k=1,...,l Η ϐασική παρατήρηση εδώ είναι ότι Tx Ty (1 s) x y. (14) (Αυτό µε άλλα λόγια λέει ότι ο T είναι ένας συνεχής τελεστής συστολής). Πράγµατι, Tx Ty = max k (c val k ij + l ) ( p kr ij x r val c k ij + l p kr ij y r ). (15) Οµως, εάν A και B είναι m n πίνακες πάντα ισχύει (ϐλ. Άσκηση 4.10.22) Άρα, από την (15) συµπεραίνουµε ότι val(a) val(b) max a ij b ij. i,j Tx Ty max k,i,j max k,i,j l ( l ij (x r y r ) p kr p kr ij max r ) x r y r = max (1 k,i,j sk ij ) max x r y r r = ( 1 min sij) k x y k,i,j = (1 s) x y. Η (14) συνεπάγεται τη µοναδικότητα της λύσης της εξίσωσης Tx = x (και εποµένως ότι το διάνυσµα v = (v 1,..., v l ) είναι η µοναδική λύση των (7)). Αυτό διότι αν υπάρχουν x 1, x 2 µε x 1 x 2 έτσι ώστε Tx 1 = x 1 και Tx 2 = x 2, από την (14) ϑα έχουµε Tx 1 Tx 2 (1 s) x 1 x 2 x 1 x 2 (1 s) x 1 x 2 s x 1 x 2 = 0. Το τελευταίο είναι άτοπο αϕού s > 0 και x 1 x 2. Στη συνέχεια δείχνουµε ότι η ακολουθία T n x, όπου ο τελεστής T n ορίζεται αναδροµικά µέσω της σχέσης T n x = T(T n 1 x), n = 2, 3,..., συγκλίνει και ότι το
166 Κεϕάλαιο 5 όριο ικανοποιεί την (7) και εποµένως είναι η τιµή του στοχαστικού παιχνιδιού. εδοµένου ότι το διάνυσµα T n x µπορεί να υπολογισθεί αριθµητικά, πρώτα για n = 1, κατόπιν για n = 2, κ.ο.κ., η παραπάνω διαδικασία µας δίνει ταυτόχρονα και µία αριθµητική µέθοδο διαδοχικών προσεγγίσεων της τιµής του παιχνιδιού v. Η (14) λοιπόν συνεπάγεται ότι T 2 x T 1 x (1 s) Tx x και γενικά ϑα ισχύει T n+1 x T n x (1 s) T n x T n 1 x (1 s) n Tx x. Με άλλα λόγια, η ακολουθία T n x είναι Cauchy 9 και εποµένως (ο R l εϕοδιασµένος µε την l νόρµα είναι πλήρης) συγκλίνουσα. Εστω Αλλά T n x = T(T n 1 x) και εποµένως ξ x := lim n T n x. ξ x = lim n T(T n 1 x). Λόγω της συνέχειας του T συµπεραίνουµε ότι το όριο ξ x ικανοποιεί την ξ x = Tξ x. (16) Εποµένως, ανεξάρτητα από την επιλογή του αρχικού x, η T n x συγκλίνει σε µία τιµή ξ που είναι η µοναδική λύση της x = Tx και εποµένως, όπως ήδη έχουµε δει, η ξ ϑα είναι η τιµή v του στοχαστικού παιχνιδιού. Ετσι έχουµε µία αριθµητική µέθοδο εκτίµησης της v µέσω διαδοχικών προσεγγίσεων. Επιλέγοντας αυθαίρετο x R l και υπολογίζοντας αναδροµικά τα διανύσµατα T n x, n = 1, 2,..., µπορούµε να προσεγγίσουµε την τιµή v όσο κοντά ϑέλουµε. Αποµένει να αποδείξουµε ότι (γ) Οι παίκτες διαθέτουν ϐέλτιστες στάσιµες στρατηγικές. Θα δείξουµε ότι οι ϐέλτιστες στρατηγικές των I & II στα π.π. A k, όπου A k := (c k ij + l p kr ij v r) i=1,...,m k, k = 1,..., l, συνιστούν µία στάσιµη ϐέλτιστη στρατηγική j=1,...,n k στο Γ = (Γ 1,..., Γ l ), όπου ϐεβαίως v είναι το διάνυσµα-τιµή (v 1,..., v l ). 9 Το επιχείρηµα είναι τυπικό για τελεστές συστολής (ϐλ. και Θεώρηµα Σταθερού Σηµείου Banach): Αν m, n N και (χωρίς ϐλάβη της γενικότητας) m > n, τότε T m x T n x T m x T m 1 x + T m 1 x T m 2 x + + T n+1 x T n x [(1 s) n + (1 s) n+1 + + (1 s) m 1 ] Tx x = 1 (1 s)m n (1 s)n n (1 s) Tx x Tx x n 0. Από εδώ προκύπτει ότι η T n x είναι s s ακολουθία Cauchy.
5.2 Παιχνίδια σε Στάδια 167 Ας είναι λοιπόν (x k 0, yk 0 ) ϐέλτιστες στρατηγικές των I και II στο Ak και έστω x 0 = (x 1 0,..., xl 0 ) και y0 = (y 1 0,..., yl 0 ). Είναι σαϕές ότι οι x0 και y 0 είναι στάσιµες στρατηγικές στο Γ. Θα δείξουµε ότι η x 0 εξασϕαλίζει v k στον I όταν η αρχική κατάσταση είναι η k, k = 1,..., l, και αυτός παίζει το Γ. Για να το πετύχουµε αυτό ϑα συγκρίνουµε τι εξασϕαλίζει η x 0 σε δύο περικοµµένα παιχνίδια. Εστω λοιπόν Γ k N το περικοµµένο παιχνίδι N σταδίων µε αρχική κατάσταση των k και έστω Γ k N (v) το ίδιο παιχνίδι µε τη µοναδική διαϕορά ότι στο τελευταίο στάδιο, όταν η κατάσταση τότε είναι h, η πληρωµή του I δεν είναι c h ij µόνο, αλλά είναι c h ij + l p hr ij v r. Η πρώτη παρατήρηση είναι ότι val(γ k N (v)) = vk και η x 0 είναι ϐέλτιστη στο Γ k N (v), δηλαδή εξασϕαλίζει στον I αναµενόµενη πληρωµή τουλάχιστον vk, k = 1,..., l. Πραγµατικά, στο Γ k N (v) ο I στο τελευταίο στάδιο παίζει το π.π. Ah. Χρησιµοποιώντας τη x 0, ο I παίζει εξ ορισµού ϐέλτιστα στο A h και εποµένως εξασϕαλίζει val(a h ) = (Tv) h = v h. Άρα, ένα στάδιο πριν το τέλος (µεταϕέροντας τη συνοριακή συνθήκη - η γνωστή ιδέα του δυναµικού προγραµµατισµού), αν η κατάσταση είναι η g, ο I ϑα παίζει το π.π. A g και εκεί και πάλι η x 0 ϑα είναι ϐέλτιστη εξασϕαλίζοντας στον I πληρωµή (Tv) g = v g. ουλεύοντας επαγωγικά από το τέλος προς την αρχή, όπως στα πεπερασµένα αναδροµικά παιχνίδια, συµπεραίνουµε ότι η x 0 είναι ϐέλτιστη στο πεπερασµένο στοχαστικό παιχνίδι Γ k N (v) και εξασϕαλίζει στον I πληρωµή val(ak ) = (Tv) k = v k. Εστω τώρα ότι ο I ακολουθεί την x 0 όταν παίζει τόσο το Γ k N όσο και το Γ k N (v) και επίσης έστω ότι ο II ακολουθεί κάποια t (την ίδια) και στα δύο αυτά παιχνίδια, όπου t είναι στρατηγική στο άπειρης διάρκειας Γ. Τότε η κατανοµή πιθανότητας πάνω στις δυνατές διαδροµές των δύο παιχνιδιών είναι η ίδια, αϕού εξαρτάται από τις x 0, t και p k ij, k = 1,..., l, i = 1,..., m k, j = 1,..., n k, που είναι κοινές στα δύο παιχνίδια. Επίσης οι πληρωµές σε κάθε στάδιο συµπίπτουν, εκτός από το τελευταίο. Ας ονοµάσουµε h I 1 (x0, t) τη συνολική αναµενόµενη πληρωµή του I στο Γ k N, hi 2 (x0, t) τη συνολική αναµενόµενη πληρωµή του I στο Γ k N (v) και T τον τυχαίο χρόνο τερµατισµού του περικοµµένου παιχνιδιού (η κατανοµή του T, όπως είδαµε, ϑα συµπίπτει στα Γ k N και Γ k N (v)). Τότε έχουµε h I 1 (x0, t) =E x 0, t = N ( T τ=1 t=1 t=1 τ ) c k t i t j t k 1 = k E x 0, t(c k t i t j t T = τ, k 1 = k)p(t = τ k 1 = k)