ΕΚΠ 413 / ΕΚΠ 606 Αυτόνοµοι (Ροµ οτικοί) Πράκτορες

Σχετικά έγγραφα
ΕΚΠ 413 / ΕΚΠ 606 Αυτόνοµοι (Ροµ οτικοί) Πράκτορες

ΕΚΠ 413 / ΕΚΠ 606 Αυτόνοµοι (Ροµ οτικοί) Πράκτορες

Λήψη απόφασης σε πολυπρακτορικό περιβάλλον. Θεωρία Παιγνίων

Θεωρία Παιγνίων και Αποφάσεων. Ενότητα 2: Έννοιες λύσεων σε παίγνια κανονικής μορφής. Ε. Μαρκάκης. Επικ. Καθηγητής

Διάλεξη 7. Θεωρία παιγνίων VA 28, 29

Παιγνιακά Μοντέλα Σύγκρουσης και Συνεργασίας

Θεωρία Παιγνίων και Αποφάσεων. Ενότητα 3: Παίγνια με περισσότερους παίκτες και μέθοδοι απλοποίησης παιγνίων. Ε. Μαρκάκης. Επικ.

- Παράδειγμα 2. Εκτέλεση Πέναλτι ή Κορώνα-Γράμματα (Heads or Tails) - Ένας ποδοσφαιριστής ετοιμάζεται να εκτελέσει ένα πέναλτι, το οποίο προσπαθεί να

Βασικές Αρχές της Θεωρίας Παιγνίων

10/3/17. Μικροοικονομική. Κεφάλαιο 29 Θεωρία παιγνίων. Μια σύγχρονη προσέγγιση. Εφαρµογές της θεωρίας παιγνίων. Τι είναι τα παίγνια;

Βασικές Έννοιες Θεωρίας Παιγνίων

Μικτές Στρατηγικές σε Παίγνια και σημεία Ισορροπίας Nash. Τµήµα Μηχανικών Πληροφορικής και Υπολογιστών 1

HAL R. VARIAN. Μικροοικονομική. Μια σύγχρονη προσέγγιση. 3 η έκδοση

ΕΠΙΧΕΙΡΗΣΙΑΚΑ ΠΑΙΓΝΙΑ ΕΡΓΑΣΤΗΡΙΟ ΜΑΘΗΜΑ ΕΥΤΕΡΟ- ΚΥΡΙΑΡΧΟΥΜΕΝΗ ΣΤΡΑΤΗΓΙΚΗ- PRISONER S DILLEMA ΑΚΑ ΗΜΑΙΚΟ ΕΤΟΣ

ΠΜΣ Ενέργειας, Τμήμα ΔΕΣ, ΠαΠει

ΕΚΠ 413 / ΕΚΠ 606 Αυτόνοµοι (Ροµ οτικοί) Πράκτορες

Βασικές Έννοιες Θεωρίας Παιγνίων

ΘΕΩΡΙΑ ΠΑΙΓΝΙΩΝ. Βfi 1 2 Αfl 1 1, 2 0, 1 2 2, 1 1, 0

Notes. Notes. Notes. Notes Ε 10,10 0,3 Λ 3,0 2,2

Βασικές Έννοιες Θεωρίας Παιγνίων

Κυριαρχία και μεικτές στρατηγικές Μεικτές στρατηγικές και κυριαρχία Είδαμε ότι μια στρατηγική του παίκτη i είναι κυριαρχούμενη, αν υπάρχει κάποια άλλη

Evolutionary Equilibrium

Θεωρία Παιγνίων και Αποφάσεων. Ενότητα 4: Μεικτές Στρατηγικές. Ε. Μαρκάκης. Επικ. Καθηγητής

ΕΠΙΧΕΙΡΗΣΙΑΚΑ ΠΑΙΓΝΙΑ ΕΡΓΑΣΤΗΡΙΟ ΜΑΘΗΜΑ ΤΕΤΑΡΤΟ ΠΑΙΓΝΙΑ ΜΗ ΕΝΙΚΟΥ ΑΘΡΟΙΣΜΑΤΟΣ ΑΚΑ ΗΜΑΙΚΟ ΕΤΟΣ

Κεφάλαιο 29 Θεωρία παιγνίων

Κοινωνικά Δίκτυα Θεωρία Παιγνίων

Ένα Παίγνιο (game) ορίζεται ως μια δραστηριότητα με τα ακόλουθα τρία χαρακτηριστικά:

Τμήμα Διεθνών και Ευρωπαϊκών Σπουδών. Ιωάννης Παραβάντης. Επίκουρος Καθηγητής. Απρίλιος 2016

Extensive Games with Imperfect Information

Εκτεταμένα Παίγνια (Extensive Games)

Ασκήσεις. Ιωάννα Καντζάβελου. Τµήµα Μηχανικών Πληροφορικής και Υπολογιστών 1

ΘΕΩΡΙΑ ΠΑΙΓΝΙΩΝ. Ενότητα 9: Απείρως επαναλαμβανόμενα παίγνια. Ρεφανίδης Ιωάννης Τμήμα Εφαρμοσμένης Πληροφορικής

John Nash. Παύλος Στ. Εφραιµίδης. Τοµέας Λογισµικού και Ανάπτυξης Εφαρµογών Τµήµα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών

ΕΚΠ 413 / ΕΚΠ 606 Αυτόνοµοι (Ροµ οτικοί) Πράκτορες

ΕΚΠ 413 / ΕΚΠ 606 Αυτόνοµοι (Ροµ οτικοί) Πράκτορες

ΤΜΗΜΑ ΕΠΙΧΕΙΡΗΜΑΤΙΚΟΥ ΣΧΕΔΙΑΣΜΟΥ & ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ ΤΕΙ ΠΑΤΡΑΣ ΤΕΙ ΠΑΤΡΑΣ ΣΗΜΕΙΩΣΕΙΣ ΜΑΘΗΜΑΤΟΣ ΕΠΙΧΕΙΡΗΣΙΑΚΏΝ ΠΑΙΓΝΙΩΝ- ΠΡΟΓΡΑΜΜΑ GAMBIT

ΘΕΩΡΙΑ ΠΑΙΓΝΙΩΝ. Ενότητα 2: Ισορροπία Nash. Ρεφανίδης Ιωάννης Τμήμα Εφαρμοσμένης Πληροφορικής

Μοντέλα των Cournotκαι Bertrand

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΘΕΩΡΙΑ ΠΑΙΓΝΙΩΝ

Αλγοριθμική Θεωρία Παιγνίων: Εισαγωγή και Βασικές Έννοιες

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ Θεωρία Παιγνίων και Αποφάσεων Διδάσκων: Ε. Μαρκάκης, Εαρινό εξάμηνο 2015

Ε ανάληψη. Ορισµοί της Τεχνητής Νοηµοσύνης (ΤΝ) Καταβολές. Ιστορική αναδροµή. Πράκτορες. Περιβάλλοντα. κριτήρια νοηµοσύνης

δημιουργία: επεξεργασία: Ν.Τσάντας

Αυτόνομοι Πράκτορες. Εργασία εξαμήνου. Value Iteration και Q- Learning για Peg Solitaire

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΘΕΩΡΙΑ ΠΑΙΓΝΙΩΝ

Παίγνιο φυλακισµένων

Αλγοριθμική Θεωρία Παιγνίων

Ε ανάληψη. Παιχνίδια παιχνίδια ως αναζήτηση. Βέλτιστες στρατηγικές στρατηγική minimax. Βελτιώσεις κλάδεµα α-β

Κεφάλαιο 2ο (α) Αµιγείς Στρατηγικές (β) Μεικτές Στρατηγικές (α) Αµιγείς Στρατηγικές. Επαναλαµβάνουµε:

Μικροοικονομική Ι. Ενότητα # 6: Θεωρία παιγνίων Διδάσκων: Πάνος Τσακλόγλου Τμήμα: Διεθνών και Ευρωπαϊκών Οικονομικών Σπουδών


ΕΠΙΧΕΙΡΗΣΙΑΚΑ ΠΑΙΓΝΙΑ ΕΡΓΑΣΤΗΡΙΟ ΜΑΘΗΜΑ ΤΡΙΤΟ-ΙΣΟΡΡΟΠΙΑ ΚΑΤΑ NASH ΑΚΑΔΗΜΑΙΚΟ ΕΤΟΣ

6. Παίγνια αλληλοδιαδοχικών κινήσεων και η αξία του περιορισμού των επιλογών κάποιου ατόμου

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή

ΘΕΩΡΙΑ ΤΩΝ ΠΑΙΓΝΙΩΝ I.

ΕΚΠ 413 / ΕΚΠ 606 Αυτόνοµοι (Ροµ οτικοί) Πράκτορες

ΘΕΩΡΙΑ ΠΑΙΓΝΙΩΝ 1. Κοινά χαρακτηριστικά

ΠΛΗ 405 Τεχνητή Νοηµοσύνη

Κεφάλαιο 4. Στο προηγούµενο κεφάλαιο ορίσαµε την ισορροπία κατά Nash και είδαµε ότι µια ισορροπία

Δεύτερο πακέτο ασκήσεων

Σηματοδοτικά Παίγνια και Τέλεια Μπεϊζιανή Ισορροπία

ΠΛΗ 513-Αυτόνομοι Πράκτορες Χειμερινό εξάμηνο 2012 Εφαρμογή αλγορίθμων ενισχυτικής μάθησης στο παιχνίδι Βlackjack. Χλης Νικόλαος-Κοσμάς

Μικροοικονομική Ανάλυση ΙΙ

2). V (s) = R(s) + γ max T (s, a, s )V (s ) (3)

Θεωρία Παιγνίων και Αποφάσεων

Πιθανοτικός Συμπερασμός: Πού βρίσκομαι στο πλέγμα; [ΠΛΗ 513] Αυτόνομοι πράκτορες - Project Εξαμήνου ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ

Πανεπιστήµιο Πειραιώς Τµήµα Πληροφορικής

ΜΑΘΗΜΑΤΙΚΗ ΠΡΟΤΥΠΟΠΟΙΗΣΗ ΣΤΙΣ ΣΥΓΧΡΟΝΕΣ ΤΕΧΝΟΛΟΓΙΕΣ ΚΑΙ ΣΤΗΝ ΟΙΚΟΝΟΜΙΑ

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ Θεωρία Παιγνίων και Αποφάσεων Διδάσκων: Ε. Μαρκάκης, Εαρινό εξάμηνο 2015

Τ.Ε.Ι. ΚΑΒΑΛΑΣ ΤΜΗΜΑ ΔΙΑΧΕΙΡΙΣΗΣ ΠΛΗΡΟΦΟΡΙΩΝ «ΘΕΩΡΙΑ ΠΑΙΓΝΙΩΝ» Του σπουδαστή ΚΑΡΑΜΙΓΚΟΥ ΘΕΜΙΣΤΟΚΛΗ

Δυσεπίλυτα Προβλήματα σε Γραφήματα και Παίγνια

ΕΚΠ 413 / ΕΚΠ 606 Αυτόνοµοι (Ροµ οτικοί) Πράκτορες

ΘΕΩΡΙΑ ΠΑΙΓΝΙΩΝ. Ενότητα 8: Πεπερασμένα επαναλαμβανόμενα παίγνια. Ρεφανίδης Ιωάννης Τμήμα Εφαρμοσμένης Πληροφορικής

ΘΕΩΡΙΑ ΠΑΙΓΝΙΩΝ. Ενότητα 4: Η τραγωδία των κοινών. Ρεφανίδης Ιωάννης Τμήμα Εφαρμοσμένης Πληροφορικής

Κεφάλαιο 8 ο Τ 3, 1-1, -1 Χ -1, -1 1, 3

A 2 B 2 Γ 2. u 1 (A 1, A 2 ) = 3 > 1 = u 1 (B 1, A 2 ) u 1 (A 1, Γ 2 ) = 1 > 0 = u 1 (B 1, Γ 2 ) A 2 B 2

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ Θεωρία Παιγνίων και Αποφάσεων Διδάσκων: Ε. Μαρκάκης, Εαρινό εξάμηνο 2017

Εισαγωγή στην Οικονομική Ανάλυση

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΘΕΩΡΙΑ ΠΑΙΓΝΙΩΝ

ΕΜΠΕΙΡΙΚΗ ΠΡΟΣΕΓΓΙΣΗ ΤΗΣ NASH ΙΣΟΡΡΟΠΙΑΣ

ΕΦΑΡΜΟΓΗ Q-LEARNING ΣΕ GRID WORLD ΚΑΙ ΕΞΥΠΝΟΣ ΧΕΙΡΙΣΜΟΣ ΤΟΥ LEARNING RATE ΛΑΘΙΩΤΑΚΗΣ ΑΡΗΣ ΑΥΤΟΝΟΜΟΙ ΠΡΑΚΤΟΡΕΣ

Ενημερωτική Διαφοροποίηση Προϊόντος: Ο Ρόλος της Διαφήμισης

Παίγνια Συμφόρησης. ημήτρης Φωτάκης. Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών. Εθνικό Μετσόβιο Πολυτεχνείο

Παραδείγματα Παιγνίων

Ανταγωνιστική Ανάθεση Πόρων και Παίγνια Συμφόρησης

Θεωρία Παιγνίων. Εισαγωγικές έννοιες και Τεχνικές

ΠΛΗ513 - Αυτόνομοι Πράκτορες Αναφορά Εργασίας

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ. Ψηφιακή Οικονομία. Διάλεξη 9η: Basics of Game Theory Mαρίνα Μπιτσάκη Τμήμα Επιστήμης Υπολογιστών

Α2 Β2 Γ2 2 Α1 1,0 5,-1-1,-2 9,-2 Β1 2,1-2,0 0,2 0,-1 Γ1 0,3 14,2 2,1 8,1 1 1,2 0,1 3,0-1,0

Εισαγωγή στη Θεωρία Αποφάσεων. Λήψη απλών αποφάσεων για έναν πράκτορα

Ορισμένες Κατηγορίες Αλγορίθμων

Συνδυαστικά Παίγνια. ιαµόρφωση Παιγνίων. Θέµατα σε Πάιγνια Μηδενικού Αθροίσµατος

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ

ΑΛΓΟΡΙΘΜΙΚΗ ΘΕΩΡΙΑ ΠΑΙΓΝΙΩΝ Πανεπιστήµιο Αθηνών Εαρινό Εξάµηνο 2007 ιδάσκων : Ηλίας Κουτσουπιάς

Μελέτη πάνω στην εφαρμογή της θεωρίας παιγνίων σε θέματα πολεμικών τακτικών και στρατηγικής.

Τεχνητή Νοημοσύνη. 6η διάλεξη ( ) Ίων Ανδρουτσόπουλος.


ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

Ανταγωνιστική Ανάθεση Πόρων και Παίγνια Συμφόρησης

Αλληλεπιδράσεις πρακτόρων. Πώς σχεδιάζουμε κοινωνίες πρακτόρων;

Transcript:

ΕΚΠ 413 / ΕΚΠ 606 Αυτόνοµοι (Ροµ οτικοί) Πράκτορες Μερική Παρατηρησιµότητα Θεωρία Παιγνίων Τµήµα Ηλεκτρονικών Μηχανικών και Μηχανικών Υ ολογιστών Πολυτεχνείο Κρήτης

Ε ανάληψη Reinforcement Learning (RL) problems and approaches Prediction temporal difference learning least-squares temporal difference (LSTD) learning Control Q-learning least-squares policy iteration (LSPI) Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 2

Σήµερα Μερική αρατηρησιµότητα POMDPs βέλτιστες πολιτικές µετατροπή σε MDP Θεωρία αιγνίων στρατηγικές ισορροπίες Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 3

Μερική Παρατηρησιµότητα Partial Observability

Μερικώς Παρατηρήσιµα Περιβάλλοντα Partial Observability ο πράκτορας δεν γνωρίζει ακριβώς σε ποια κατάσταση βρίσκεται το τι θα κάνει εξαρτάται από το τι ιστεύει για το που βρίσκεται Παράδειγµα Αρχική κατανοµή πιθανότητας Μετά από 5 κινήσεις αριστερά Μετά από 5 κινήσεις επάνω Μετά από 5 κινήσεις δεξιά Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 5

Partially Observable MDP POMDP (S, B, A, O, P, R, γ, D) S: state space of the process B: observation space of the process A: action space of the process O: observation model, O(o s) P: transition model, P(s a, s) R: reward function, R(s) γ: discount factor, 0 < γ 1 D: initial state distribution Markov property next state, observation, reward are independent of history Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 6

Κατάσταση Πε οίθησης Belief State b πιθανοτική κατανοµή πάνω στο χώρο καταστάσεων b(s): πιθανότητα που αποδίδεται στην κατάσταση s από την b αρχική κατάσταση πεποίθησης b 0 Ενηµέρωση υπολογισµός καταστάσεων πεποίθησης = φιλτράρισµα ( s ) = ao( s', o) T( s, a s) b( s) b, s Παράδειγµα b =,,,,,,,,, 0, 0 1 1 1 1 1 1 1 1 1 0 9 9 9 9 9 9 9 9 9 Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 7

Πράκτορας POMDP Βέλτιστη ολιτική η βέλτιστη ενέργεια εξαρτάται από την τρέχουσα κατάσταση πεποίθησης βέλτιστη πολιτική *(b) [ όχι *(s) όπως στην περίπτωση MDP ] απεικόνιση από το (συνεχή) χώρο πεποιθήσεων στο χώρο ενεργειών Κύκλος λειτουργίας εκτέλεσε την ενέργεια α = *(b) διάβασε την παρατήρηση ο ενηµέρωσε την πεποίθηση b σύµφωνα µε την παρατήρηση o επανάλαβε Παρατήρηση µε δεδοµένη την a, γίνεται µετάβαση σε νέα b, ανάλογα µε την o Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 8

Μετατρο ή POMDP σε MDP Μετατρο ή συνάρτηση µετάβασης µεταξύ καταστάσεων πεποίθησης = P( b ' o, a, b) O( s ', o) o s ' s ( ) ( ) τ ( b, a, b ') T s, a, s b s συνάρτηση ανταµοιβής ως προς τις καταστάσεις πεποίθησης ρ ( b) b( s) R( s) = s MDP (b(s),a,τ,ρ,γ,d) στο χώρο των καταστάσεων πεποίθησης! Ε ίλυση η ε ίλυση ενός POMDP στο χώρο καταστάσεων ανάγεται σε ε ίλυση ενός MDP στο χώρο των καταστάσεων ε οίθησης πρόβληµα: συνεχής χώρος καταστάσεων πεποίθησης Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 9

Παράδειγµα Αρχική ε οίθηση οµοιόµορφη στις 9 καταστάσεις Βέλτιστη ολιτική απλή ακολουθία, λόγω έλλειψης παρατηρήσεων [Αριστερά, Ε άνω, Ε άνω, εξιά, Ε άνω, Ε άνω, εξιά, Ε άνω, Ε άνω, εξιά, Ε άνω, εξιά, Ε άνω, εξιά, Ε άνω, ] πιθανότητα επιτυχίας 86,6%, αναµενόµενη χρησιµότητα 0,38 Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 10

Θεωρία Παιγνίων Game Theory

Παίγνιο Two Finger Morra απλοποίηση του inspection game Παίκτες δύο παίκτες Ε (even), Ο (odd) Ενέργειες κάθε παίκτης µπορεί να παίξει ένα ή δύο οι παίκτες παίζουν ταυτόχρονα Πίνακας α ολαβών (payoff matrix) Ε\Ο ένα δύο ένα E= +2, O= 2 E= 3, O= +3 δύο E= 3, O= +3 E= +4, O= 4 Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 12

Ορολογία Παιγνίων Αµιγής στρατηγική (pure strategy) αιτιοκρατική πολιτική, µία ενέργεια σε κάθε κατάσταση Μικτή στρατηγική (mixed strategy) τυχαιοποιηµένη πολιτική, πιθανοτική κατανοµή στις ενέργειες Προφίλ στρατηγικών (strategy profile) µία ανάθεση µίας στρατηγικής σε κάθε παίκτη Α οτέλεσµα (outcome) η αριθµητική τιµή του παιχνιδιού για κάθε παίκτη Λύση αιγνίου (game solution) προφίλ στρατηγικών όπου κάθε παίκτης υιοθετεί ορθολογική στρατηγική ερώτηµα: πώς προσδιορίζεται η έννοια «ορθολογική»; Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 13

Το ίληµµα των Φυλακισµένων (Prisoner s Dilemma) Βασίλης: οµολογία Βασίλης: άρνηση Αλίκη: οµολογία A= 5, B= 5 A= 0, B= 10 Αλίκη: άρνηση A= 10, B= 0 A= 1, B= 1 Συλλογισµός εάν ο Βασίλης οµολογήσει... εάν ο Βασίλης αρνηθεί... στρατηγική: «οµολογία» αποτέλεσµα: (-5, -5)! Παράδοξο η στρατηγική «άρνηση» έχει αποτέλεσµα (-1,-1) είναι επιτρεπτή, αλλά απίθανη επιλογή! Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 14

Στρατηγικές και Α οτελέσµατα Κυρίαρχη στρατηγική (dominant strategy) ισχυρή κυριαρχία (strong domination) η στρατηγική s για το παίκτη p κυριαρχεί ισχυρά επί της s, εάν η s έχει καλύτερο αποτέλεσµα από την s για κάθε στρατηγική των άλλων παικτών ασθενής κυριαρχία (weak domination) η στρατηγική s για το παίκτη p κυριαρχεί ασθενώς επί της s, εάν η s έχει καλύτερο αποτέλεσµα από την s σε ένα τουλάχιστον προφίλ στρατηγικών και δεν είναι χειρότερη σε κανένα άλλο προφίλ Σχέσεις µεταξύ α οτελεσµάτων κυριαρχία κατά Pareto (Pareto domination) ένα αποτέλεσµα a κυριαρχεί κατά Pareto έναντι κάποιου άλλου a όταν όλοι οι παίκτες προτιµούν το a από το a Pareto βέλτιστο (Pareto optimality) εάν δεν υπάρχει άλλο αποτέλεσµα που προτιµούν οι παίκτες Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 15

Ισορρο ίες Ισορρο ία (equilibrium) όταν κανένας παίκτης δεν µπορεί να επωφεληθεί από την αλλαγή στρατηγικών, εφόσον οι άλλοι διατηρούν τη στρατηγική τους τοπικό βέλτιστο στο χώρο των πολιτικών Ισορρο ία κυρίαρχων στρατηγικών όταν κάθε παίκτης υιοθετεί µια κυρίαρχη στρατηγική δεν υπάρχει τέτοια ισορροπία σε όλα τα παιχνίδια Nash equilibrium σε κάθε παιχνίδι υπάρχει τουλάχιστον ένα σηµείο ισορροπίας Nash περιλαµβάνει και την περίπτωση µικτών στρατηγικών υπάρχουν ισορροπίες, ακόµα και χωρίς κυρίαρχες στρατηγικές αποδείχθηκε από τον John Forbes Nash, Jr (1924 -...) Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 16

Παράδειγµα Best: dvd Best: cd Acme: dvd A= 9, B= 9 A= 3, B= 1 Acme: cd A= 4, B= 1 A= 5, B= 5 Ισορρο ίες Nash (dvd, dvd) και (cd, cd) ερώτηµα: ποια από τις δύο θα επιλέξουν; «απάντηση»: επιλογή της βέλτιστης λύσης κατά Pareto (dvd, dvd) Λύση ανάγκη για συντονισµό/διαπραγµάτευση ενέργειες επικοινωνίας µεταξύ πρακτόρων παιχνίδια συντονισµού (coordination games) Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 17

Μελέτη Σύγγραµµα Ενότητες 17.4 και 17.6 Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 18