Εισαγωγή στη Θεωρία Αποφάσεων. Λήψη απλών αποφάσεων για έναν πράκτορα

Σχετικά έγγραφα
Θεωρία Λήψης Αποφάσεων

Λήψη απλών αποφάσεων

Λήψη απόφασης σε πολυπρακτορικό περιβάλλον. Θεωρία Παιγνίων

Θεωρία Χρησιμότητας (utility theory) Το κριτήριο της μέσης χρησιμότητας

Κοινωνικά Δίκτυα Κοινωνική Επιλογή

Μελέτη Περίπτωσης : 2.1

ΕΚΠ 413 / ΕΚΠ 606 Αυτόνοµοι (Ροµ οτικοί) Πράκτορες

ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

ΜΙΚΡΟΟΙΚΟΝΟΜΙΚΗ ΘΕΩΡΙΑ ΙΙ

Ηθικός Κίνδυνος. Το βασικό υπόδειγμα. Παρουσιάζεται ένα στοχαστικό πρόβλημα χρηματοδότησης όταν τα αντισυμβαλλόμενα μέρη έχουν συμμετρική πληροφόρηση.

ΜΗ ΓΡΑΜΜΙΚΗ ΠΑΛΙΝΔΡΟΜΙΣΗ

Μηχανική Μάθηση: γιατί;

10 η Διάλεξη. Ενδεικτικές λύσεις ασκήσεων

Αλγεβρικές Παραστάσεις

K15 Ψηφιακή Λογική Σχεδίαση 7-8: Ανάλυση και σύνθεση συνδυαστικών λογικών κυκλωμάτων

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος

Ευφυείς Τεχνολογίες ----Πράκτορες

Ερωτήσεις πολλαπλής επιλογής - Κεφάλαιο 2. Α1. Ο αλγόριθμος είναι απαραίτητος μόνο για την επίλυση προβλημάτων πληροφορικής

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ Θεωρία Παιγνίων και Αποφάσεων Διδάσκων: Ε. Μαρκάκης, Εαρινό εξάμηνο 2015

Ποσοτική Ανάλυση Κινδύνων

Αρχές Οργάνωσης και Διοίκησης Επιχειρήσεων 11:40

Notes. Notes. Notes. Notes

ΕΚΠ 413 / ΕΚΠ 606 Αυτόνοµοι (Ροµ οτικοί) Πράκτορες

Ευφυείς Τεχνολογίες ----Πράκτορες

ΣΥΝΟΠΤΙΚΕΣ ΣΗΜΕΙΩΣΕΙΣ ΣΤΟ ΜΑΘΗΜΑ ΜΑΘΗΜΑΤΙΚΑ Ι.Ι (τεύχος-1-)

Μοντελοποίηση της πλοήγησης των χρηστών στον Παγκόσµιο Ιστό µε χρήση. Κορφιάτης Γιώργος ιπλωµατική Εργασία

Ασκήσεις. Ιωάννα Καντζάβελου. Τµήµα Μηχανικών Πληροφορικής και Υπολογιστών 1

2). V (s) = R(s) + γ max T (s, a, s )V (s ) (3)

Το Υπόδειγμα της Οριακής Τιμολόγησης

Η παρούσα αξία της επένδυσης αν αυτή υλοποιηθεί άµεσα είναι 0 K 0 1 K

Πράκτορες και περιβάλλοντα Λογική PEAS (Performance measure, Environment, Actuators, Sensors) Τύποι περιβάλλοντος Τύποι πρακτόρων

Ασκήσεις μελέτης της 16 ης διάλεξης


Διδάσκοντας με τη βοήθεια λογισμικού υπολογιστικών φύλλων

Κέντρο Συμβουλευτικής & Προσανατολισμού Φλώρινας. 20 ερωτήσεις και απαντήσεις. Πώς να συμπληρώσω το μηχανογραφικό μου;

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ

- Παράδειγμα 2. Εκτέλεση Πέναλτι ή Κορώνα-Γράμματα (Heads or Tails) - Ένας ποδοσφαιριστής ετοιμάζεται να εκτελέσει ένα πέναλτι, το οποίο προσπαθεί να

Κρυπτογραφία. Έλεγχος πρώτων αριθών-παραγοντοποίηση. Διαφάνειες: Άρης Παγουρτζής Πέτρος Ποτίκας

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ Θεωρία Παιγνίων και Αποφάσεων Διδάσκων: Ε. Μαρκάκης, Εαρινό εξάμηνο 2015

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ, ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

ΛΟΓΙΣΜΟΣ ΜΙΑΣ ΜΕΤΑΒΛΗΤΗΣ, ΕΣΠΙ 1

Θεωρητικές Ασκήσεις. ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ. 1 ο Μέρος

ΕΦΑΡΜΟΓΗ Q-LEARNING ΣΕ GRID WORLD ΚΑΙ ΕΞΥΠΝΟΣ ΧΕΙΡΙΣΜΟΣ ΤΟΥ LEARNING RATE ΛΑΘΙΩΤΑΚΗΣ ΑΡΗΣ ΑΥΤΟΝΟΜΟΙ ΠΡΑΚΤΟΡΕΣ

Το πρόγραμμα PROMETHEE. Πολυκριτηριακή διαδικασία λήψης αποφάσεων

ΘΕΩΡΙΑ ΠΑΙΓΝΙΩΝ. Ενότητα 4: Η τραγωδία των κοινών. Ρεφανίδης Ιωάννης Τμήμα Εφαρμοσμένης Πληροφορικής

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΣΤΑΤΙΣΤΙΚΗ ΤΩΝ ΕΠΙΧΕΙΡΗΣΕΩΝ. Κεφάλαιο 6. Πιθανότητες

ΠΛΗ 513-Αυτόνομοι Πράκτορες Χειμερινό εξάμηνο 2012 Εφαρμογή αλγορίθμων ενισχυτικής μάθησης στο παιχνίδι Βlackjack. Χλης Νικόλαος-Κοσμάς

HY213. ΑΡΙΘΜΗΤΙΚΗ ΑΝΑΛΥΣΗ ΕΛΑΧΙΣΤΑ ΤΕΤΡΑΓΩΝΑ AΝΑΛΥΣΗ ΙΔΙΑΖΟΥΣΩΝ ΤΙΜΩΝ

Πίνακας 4.4 Διαστήματα Εμπιστοσύνης. Τιμές που Επίπεδο εμπιστοσύνης. Διάστημα εμπιστοσύνης

Το παράδοξο του St. Petersburg Η θεωρία του καταναλωτή σε περιβάλλον αβεβαιότητας που εξετάσαμε μπόρεσε να δώσει απάντηση σε κάποια ερωτήματα που πριν

ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

ΜΑΘΗΜΑΤΙΚΑ Γ ΓΥΜΝΑΣΙΟΥ

Α Ν Ω Τ Α Τ Ο Σ Υ Μ Β Ο Υ Λ Ι Ο Ε Π Ι Λ Ο Γ Η Σ Π Ρ Ο Σ Ω Π Ι Κ Ο Υ Ε Ρ Ω Τ Η Μ Α Τ Ο Λ Ο Γ Ι Ο

ΕΥΦΥΗΣ ΕΛΕΓΧΟΣ. Ενότητα #11: Ασαφής Αριθμητική. Αναστάσιος Ντούνης Τμήμα Μηχανικών Αυτοματισμού Τ.Ε.

Ατομικές Προτιμήσεις και Συνάρτηση Χρησιμότητας - Έστω x=(x 1,,x n ) ένας καταναλωτικός συνδυασμός, όπου x i η ποσότητα του αγαθού i που καταναλώνει

Πληροφοριακά Συστήματα Διοίκησης. Θεωρία Αποφάσεων

Κωδικοποίηση και Έλεγχος Ορθότητας

Σημείωση:Αν οι συντελεστές είναι 0,9 και 0,4 αντικαθιστουν τους 1,4 και 0,7.

ΑΝΑΛΥΣΗ ΚΑΤΗΓΟΡΙΚΩΝ ΔΕΔΟΜΕΝΩΝ. Σ. ΖΗΜΕΡΑΣ Τμήμα Μαθηματικών Κατεύθυνση Στατιστικής και Αναλογιστικών- Χρηματοοικονομικών Μαθηματικών Σάμος

Διάλεξη 5- Σημειώσεις

Πολυκριτήρια Ανάλυση Αποφάσεων

3. ΛΟΓΙΚΕΣ ΠΡΑΞΕΙΣ & ΛΟΓΙΚΕΣ ΠΥΛΕΣ

ΑΝΑΛΥΣΗ ΕΠΙΧΕΙΡΗΜΑΤΙΚΩΝ ΚΙΝΔΥΝΩΝ

Συστήματα Υποστήριξης Αποφάσεων Διάλεξη Νο2 και 3. Ενισχυτικές διαφάνειες

Α. unsigned int Β. double. Γ. int. unsigned char x = 1; x = x + x ; x = x * x ; x = x ^ x ; printf("%u\n", x); Β. unsigned char

Μικροοικονομία. Ενότητα 4: Θεωρία Χρησιμότητας και Καταναλωτική Συμπεριφορά. Δριτσάκη Χάιδω Τμήμα Λογιστικής και Χρηματοοικονομικής

Κυριαρχία και μεικτές στρατηγικές Μεικτές στρατηγικές και κυριαρχία Είδαμε ότι μια στρατηγική του παίκτη i είναι κυριαρχούμενη, αν υπάρχει κάποια άλλη

Monitor Games BOWLING

Δυσμενής Επιλογή. Το βασικό υπόδειγμα

ΧΡΗΜΑΤΟΟΙΚΟΝΟΜΙΚΗ ΔΙΟΙΚΗΣΗ ΘΕΩΡΙΑ ΚΑΙ ΠΡΑΚΤΙΚΗ

Case 09: Επιλογή Διαφημιστικών Μέσων ΙI ΣΕΝΑΡΙΟ (1)

To 2 ο Θεμελιώδες Θεώρημα Ευημερίας

ΨΗΦΙΑΚΑ ΚΥΚΛΩΜΑΤΑ - ΕΡΓΑΣΤΗΡΙΑΚΗ ΑΣΚΗΣΗ 3

Με βάση τα παραπάνω ορίζουμε την αναμενόμενη χρησιμότητα (expected utility) EU(A) μιας επιλογής A ως εξής:

ΕΝΟΤΗΤΑ 2 ΠΡΟΣΘΕΣΗ ΚΑΙ ΑΦΑΙΡΕΣΗ ΜΕΧΡΙ ΤΟ 100

ΠΛΗ 405 Τεχνητή Νοηµοσύνη Ε ανάληψη. πεπερασµένα χρονικά περιθώρια ανά κίνηση. απευθείας αξιολόγηση σε ενδιάµεσους κόµβους

ΈΡΕΥΝΑ ΜΕΤΑΒΛΗΤΗΣ ΓΕΙΤΟΝΙΑΣ (Variable Neighborhood Search - VNS) VNS) (Variable Neighborhood Search -

Βασικές έννοιες. Χρησιμότητα Πιθανότητα Προσδοκώμενο κέρδος Δένδρα αποφάσεων Ανάλυση ευαισθησίας Πιθανότητα υπό όρους Μεταβλητές κατάστασης

HAL R. VARIAN. Μικροοικονομική. Μια σύγχρονη προσέγγιση. 3 η έκδοση

Μονώνυμα. Βρέντζου Τίνα Φυσικός Μεταπτυχιακός τίτλος: «Σπουδές στην εκπαίδευση» ΜEd

Ευφυείς πράκτορες. Πράκτορες και Περιβάλλοντα

Συνδυαστικά Λογικά Κυκλώματα

ΠΟΛΥΚΡΙΤΗΡΙΑ ΥΠΟΣΤΗΡΙΞΗ ΑΠΟΦΑΣΕΩΝ. Χάρης Δούκας, Πάνος Ξυδώνας, Ιωάννης Ψαρράς

Στατιστική Ι. 6o Αριθμοδείκτες

ΕΡΓΑΣΤΗΡΙΟ ΣΤΑΤΙΣΤΙΚΗΣ

Notes. Notes. Notes. Notes

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

n ίδια n διαφορετικά n n 0 n n n 1 n n n n 0 4

ΕΠΙΛΟΓΗ ΕΠΕΝΔΥΣΕΩΝ ΚΑΤΩ ΑΠΟ ΑΒΕΒΑΙΟΤΗΤΑ. 3.1 Eισαγωγή

ΚΕΦΑΛΑΙΟ 7 ο. Έτσι ο προγραµµατισµός µε τη ΓΛΩΣΣΑ εστιάζεται στην ανάπτυξη του αλγορίθµου και τη µετατροπή του σε σωστό πρόγραµµα.

Κεφάλαιο 4. Λογική Σχεδίαση

Condorcet winner. (1) Αν U j (x) > U j (y) τότε U i (x) > U i (y) και (2) Αν U i (y) > U i (x) τότε U j (y) > U j (x).

ΕΝΟΤΗΤΑ 3 ΠΟΛΛΑΠΛΑΣΙΑΣΜΟΣ ΚΑΙ ΔΙΑΙΡΕΣΗ ΜΕΧΡΙ ΤΟ 20

Ανάλυση Χρόνου, Πόρων & Κόστους

ΛΥΣΕΙΣ ΑΣΚΗΣΕΩΝ: ΘΕΩΡΙΑ ΧΑΡΤΟΦΥΛΑΚΙΟΥ

ΘΕΩΡΙΑ ΑΠΟΘΕΜΑΤΩΝ. Ι. Προσδιοριστικά Μοντέλα αποθεµάτων

ΕΚΠ 413 / ΕΚΠ 606 Αυτόνοµοι (Ροµ οτικοί) Πράκτορες

Θεωρία Λήψης Αποφάσεων

Στο στάδιο ανάλυσης των αποτελεσµάτων: ανάλυση ευαισθησίας της λύσης, προσδιορισµός της σύγκρουσης των κριτηρίων.

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

Transcript:

Εισαγωγή στη Θεωρία Αποφάσεων Λήψη απλών αποφάσεων για έναν πράκτορα

Oρθολογικές αποφάσεις Ένας πράκτορας βασισμένος στη λογική Έχει ένα στόχο (μια κατάσταση περιβάλλοντος που θέλει να πετύχει) Καταστρώνει ένα σχέδιο δράσης (μια ακολουθία ενεργειών) επιλέγοντας στο πλάνο του ενέργειες από το ρεπερτόριό του, με κριτήριο το αν αυτές επιτυγχάνουν ή όχι το στόχο.

Πράκτορες βασισμένοι στη χρησιμότητα πράκτορας κατάσταση αισθητήρες Πώς εξελίσσεται ο κόσμος; Πώς είναι ο κόσμος τώρα; Τί κάνουν οι ενέργειές μου; Πώς θα είναι ο κόσμος αν κάνω την ενέργεια Α; περιβάλλον χρησιμότητα Πόσο καλό θα ήταν αυτό; Στόχοι Ποιά ενέργεια πρέπει να κάνω τώρα; μηχανισμοί δράσης Η κατάσταση του πράκτορα είναι η αναπαράσταση των πιθανοτήτων για όλες τις δυνατές πραγματικές καταστάσεις του κόσμου.

Αβεβαιότητα και ορθολογικές αποφάσεις Πηγές αβεβαιότητας; Κάθε ενέργεια έχει πιθανότητα επιτυχίας και αποτυχίας. Σφάλματα μηχανισμών δράσης, άλλοι πράκτορες Κάθε πλάνο έχει πιθανότητα επιτυχίας και αποτυχίας. Ένας πράκτορας που αποφασίζει υπό αβεβαιότητα πρέπει να έχει προτιμήσεις μεταξύ των αποτελεσμάτων των ενεργειών/πλάνων του. Θεωρία χρησιμοτήτων: πώς αναπαριστάνονται προτιμήσεις και πώς χρησιμοποιείται αυτή η αναπαράσταση στη συλλογιστική ενός πράκτορα; Θεωρία αποφάσεων = θεωρία χρησιμοτήτων + θεωρία πιθανοτήτων Ένας πράκτορας είναι ορθολογικός αν και μόνο αν επιλέγει την ενέργεια που παρέχει την υψηλότερη αναμενόμενη χρησιμότητα (meu)

Θεωρία Προτιμήσεων/χρησιμοτήτων Συνάρτηση χρησιμότητας: Σε κάθε κατάσταση του κόσμου αποδίδεται μια αριθμητική τιμή μέσω της u : S R, η οποία εκφράζει πόσο επιθυμητή είναι η κατάσταση. Η συνάρτηση χρησιμότητας ουσιαστικά εκφράζει τις προτιμήσεις του πράκτορα ανάμεσα στα αποτελέσματα των ενεργειών του. A f B ο πράκτορας προτιμά το Α από το Β αν και μόνο αν u(a) > u(b) A ~ B ο πράκτορας είναι αδιάφορος μεταξύ Α και Β αν και μόνο αν u(a) = u(b) A # B ο πράκτορας προτιμά το Α από το Β ή είναι αδιάφορος Δηλαδή A# B ( A f B ) ( A ~ B ) Αν οι ενέργειες του πράκτορα είναι ντετερμινιστικές, τα Α και Β είναι οι συγκεκριμένες, πλήρως προσδιορισμένες, καταστάσεις περιβάλλοντος που προκαλούνται από τις ενέργειές του.

Μη ντετερμινιστικές ενέργειες: Λοταρίες Στη γενική περίπτωση οι ενέργειες του πράκτορα είναι μη ντετερμινιστικές οπότε τα Α και Β είναι λοταρίες (οι ντετερμινιστικές ενέργειες περιγράφονται επίσης ως λοταρίες που έχουν ένα μόνο αποτέλεσμα). Λοταρία L είναι μια κατανομή πιθανοτήτων { p1,..., pn } ως προς ένα σύνολο αποτελεσμάτων που μπορεί να προκύψουν C,...,C } { 1 n : L = [ p 1,C 1 ; p 2,C 2 ;...; p n,c n ]

Αρχή της μέγιστης αναμενόμενης χρησιμότητας (meu) Έστω Α μια μη-ντετερμινιστική ενέργεια και result i ( A ) οι δυνατές καταστάσεις αποτελέσματος της Α, όπου ο δείκτης i κυμαίνεται μεταξύ των διαφόρων αποτελεσμάτων. Πριν την εκτέλεση της ενέργειας Α ο πράκτορας αποδίδει πιθανότητα P( resulti( A )\ do( A ),E ) σε κάθε αποτέλεσμα, με βάση τις μαρτυρίες Ε που διαθέτει σχετικά με τον κόσμο (η πρόταση do( A ) σημαίνει ότι η ενέργεια Α εκτελείται στην τρέχουσα κατάσταση). Η αναμενόμενη χρησιμότητα (eu) της ενέργειας Α με βάση τις μαρτυρίες Ε είναι eu ( A E ) = P( resulti ( A ) do( A ),E ) u( resulti( A )) i Aναμενόμενη χρησιμότητα λοταρίας Η χρησιμότητα μιας λοταρίας είναι το άθροισμα των γινομένων που προκύπτουν από τον πολλαπλασιασμό της πιθανότητας κάθε αποτελέσματος επί τη χρησιμότητα αυτού του αποτελέσματος: u([ p1,c1;...; p n,cn ]) = piu( Ci ) i

Παράδειγμα Έστω ότι μια διαδικασία απόφασης έχει τέσσερις καταστάσεις {Σ1, Σ2, Σ3, Σ4} με χρησιμότητες +1, 1, 0 και +2 αντίστοιχα. Στις καταστάσεις Σ1 και Σ2 είναι δυνατές τρεις ενέργειες, α, β, και γ. Οι καταστάσεις Σ3 και Σ4 είναι τερματικές. Το μοντέλο μετάβασης προσδιορίζεται από λοταρίες ως εξής: Στην κατάσταση Σ1 ηενέργειαα έχει τα εξής αποτελέσματα [0.5, Σ3; 0.3, Σ2; 0.2, Σ1], ηενέργειαβ έχει τα εξής αποτελέσματα [0.8, Σ1; 0.2, Σ4], και η ενέργεια γ [0.8, Σ3; 0.2, Σ4]. Στην κατάσταση Σ2 ηενέργειαα έχει αποτελέσματα [0.8, Σ4; 0.2, Σ2], η ενέργεια β [0.2, Σ3; 0.8, Σ2] και η ενέργεια γ [0.5, Σ1; 0.5, Σ3]. Ερωτήσεις Τι προτιμήσεις έχει ένας πράκτορας σε αυτό το περιβάλλον; Ποια ενέργεια οφείλει να επιλέξει ένας πράκτορας σε αυτό το περιβάλλον, όταν βρίσκεται στην κατάσταση Σ1, και όταν βρίσκεται στην κατάσταση Σ2.