Extensive Games with Imperfect Information Παύλος Στ. Εφραιµίδης Τοµέας Λογισµικού και Ανάπτυξης Εφαρµογών Τµήµα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών
Εκτεταµένα παίγνια µε ατελή πληροφόρηση Στα εκτεταµένα παίγνια (µε τέλεια πληροφόρηση) κάθε παίκτης όποτε επιλέγει µια ενέργεια είναι πληροφορηµένος σχετικά µε τις ενέργειες που έχουν επιλεγεί προηγουµένως από όλους τους παίκτες Τα εκτεταµένα παίγνια µε ατελή πληροφόρηση γενικεύουν το αρχικό µοντέλο για περιστάσεις όπου οι παίκτες µπορεί να µην έχουν τέλεια πληροφόρηση για τις προηγούµενες ενέργειες των άλλων παικτών. 2
Ορισµός Extensive game with perfect information Παίκτες (players): Τερµατικά ιστορικά (terminal histories): Συνάρτηση παίκτη (player function) Προτιµήσεις (preferences) Extensive game with imperfect information Παίκτες (players): Τερµατικά ιστορικά (terminal histories): Συνάρτηση παίκτη (player function) Μια συνάρτηση για κινήσεις που αποδίδονται στην τύχη Για κάθε παίκτη, µια διαµέριση πληροφοριών (information partition) των ιστορικών που αντιστοιχίζονται σε αυτόν Προτιµήσεις (preferences) 3
Ορισµός Η συνάρτηση για κινήσεις που αποδίδονται στην τύχη αντιστοιχεί σε κάθε ιστορικό µία κατανοµή πιθανοτήτων στις ενέργειες που είναι εφικτές µετά από εκείνο το ιστορικό. Κάθε τέτοια κατανοµή είναι ανεξάρτητη από κάθε άλλη κατανοµή. Η διαµέριση πληροφοριών καθορίζει την πληροφορία που έχει στη διάθεσή του ο παίκτης κάθε φορά που πρέπει να επιλέξει µια ενέργεια. Συγκεκριµένα πριν από κάθε ενέργειά του, ο παίκτης γνωρίζει το σύνολο πληροφόρησης (information set) στο οποίο ανήκει το τρέχον ιστορικό. 4
Bach or Stravinsky Παίκτες (players): Παίκτες Α και Β Τερµατικά ιστορικά (terminal histories): (B, B), (B, S), (S, B) και (S,S) Συνάρτηση παίκτη (player function): P( ) = A, P(B) = P(S) = Β Κινήσεις της τύχης : Καµία. Για κάθε παίκτη, µια διαµέριση πληροφοριών: Παίκτης Α: (ο παίκτης Α παίζει πρώτος) Παίκτης Β: {B,S} (ο παίκτης Β βλέπει το ίδιο σύνολο πληροφόρησης, είτε ο Α επέλεξε B είτε επέλεξε S.) Προτιµήσεις (preferences): Όπως τις έχουµε πει για το κλασικό παιχνίδι Bach or Stravinsky ή Βαµβακάρης ή Τσιτσάνης κτλ. 5
Bach or Stravinsky 6 Η διακεκοµµένη γραµµή µεταξύ των δύο κόµβων δηλώνει ότι ο παίκτης 2 δεν γνωρίζει σε ποιον από τους δύο κόµβους βρίσκεται το παίγνιο. Οι δύο κόµβοι µε ετικέτα 2:1 αποτελούν ένα σύνολο πληροφόρησης.
A simple poker game H Alice τραβάει ένα τυχαίο χαρτί από την τράπουλα. Έστω ότι υπάρχουν high και low χαρτιά. Η πιθανότητα επιλογής κάθε κατηγορίας είναι η ίδια. Μπορεί πχ. τα κόκκινα (κούπες, καρό) να θεωρούνται high και τα µαύρα (µπαστούνι, σπαθί) low. Η Alice µπορεί στη συνέχεια να επιλέξει raise ή fold Εάν επιλέξει fold τελειώνει το παιχνίδι. Εάν επιλέξει raise τότε είναι η σειρά του Bob, οποίος µπορεί να επιλέξει meet ή pass, και µετά τελειώνει το παιχνίδι. 7
A simple poker game 8
A simple poker game 9
στρατηγική Μια (αγνή) στρατηγική ενός παίκτη i σε ένα εκτεταµένο παίγνιο είναι µια συνάρτηση I i που αντιστοιχεί σε κάθε σύνολο πληροφόρησης (information set) του παίκτη i µία ενέργεια A(i). Μια µεικτή στρατηγική είναι µια κατανοµή πιθανοτήτων πάνω στις αγνές στρατηγικές του παίκτη. 10
Belief systems, Behavioral strategy Ένα belief system σε ένα εκτεταµένο παίγνιο είναι µια συνάρτηση που αντιστοιχεί σε κάθε σύνολο πληροφόρησης µία κατανοµή πιθανοτήτων για τα ιστορικά που ανήκουν στο σύνολο πληροφόρησης αυτό. Μια behavioral strategy ενός παίκτη i σε ένα εκτεταµένο παίγνιο είναι µια συνάρτηση που αντιστοιχεί σε κάθε σύνολο πληροφόρησης του i µια κατανοµή πιθανοτήτων για τις ενέργειες A(i), µε την ιδιότητα ότι κάθε κατανοµή πιθανοτήτων είναι ανεξάρτητη από κάθε άλλη κατανοµή. Behavioral strategy vs mixed strategy 11
Behavioral strategies vs. mixed strategies Σε πολλές περιπτώσεις mixed strategies και behavioral strategies είναι ισοδύναµες BoS: Κάθε παίκτης έχει ένα information set και εποµένως µια behavioral strategy είναι µια µοναδική κατανοµή πιθανοτήτων και ταυτίζεται µε την αντίστοιχη mixed strategy 12
Simple card game (από το βιβλίο) Δύο παίκτες, Alice και Bob που ποντάρουν από 1 ο καθένας Η Alice τραβάει ένα τυχαίο χαρτί από την τράπουλα. Έστω ότι υπάρχουν high και low χαρτιά. Η Alice µπορεί στη συνέχεια να επιλέξει see ή raise Εάν επιλέξει see αποκαλύπτει το χαρτί της εάν έχει high παίρνει τα χρήµατα, εάν έχει low παίρνει ο Bob τα χρήµατα, και τελειώνει το παιχνίδι. Εάν επιλέξει raise τότε ποντάρει ακόµα 1 και είναι η σειρά του Bob, οποίος µπορεί να επιλέξει meet (ποντάρει 1, ανοίγουν το χαρτί της Αlice, και µε high κερδίζει η Αλίκη, µε low ο Bob) ή pass (η Αλίκη παίρνει κατευθείαν τα χρήµατα), και µετά τελειώνει το παιχνίδι. 13
Simple Card Game 14
15
Πηγές - Αναφορές An Introduction to Game Theory, Κεφάλαιο 10 Gambit Tutorial: A simple poker game 16