Στοχαστικές Στρατηγικές

Στοχαστικές Στρατηγικές 3 η ενότητα: Στοχαστικά προβλήματα διαδρομής Μεθοδολογία (2) Τμήμα Μαθηματικών, ΑΠΘ Ακαδημαϊκό έτος 2018-2019 Χειμερινό Εξάμηνο Παπάνα Αγγελική Μεταδιδακτορική ερευνήτρια, ΑΠΘ & Πανεπιστήμιο Μακεδονίας E-mail: angeliki.papana@gmail.com, agpapana@auth.gr Webpage: http://users.auth.gr/agpapana 1

Άσκηση Δίνεται το παρακάτω δικτυωτό. Να βρεθεί με τη μέθοδο του βέλτιστου με επαναπληροφόρηση ελέγχου, το πρόβλημα διαδρομής μέγιστου κέρδους από το σημείο Α ως την ευθεία (β). Μια εντολή εκτελείται με πιθανότητα 0.1. Όταν δίνεται εντολή για διαδρομή που δεν έχει αλλαγές κατεύθυνσης, προστίθεται κόστος 1. Οι τιμές στα τόξα παριστάνουν κέρδος. 2

Βέλτιστη συνάρτηση f(x,y,z)={το μέγιστο αναμενόμενο κέρδος από τον κόμβο (x,y) μέχρι το τέλος, όπου z=0 αν το τελευταίο βήμα προς τον κόμβο (x,y) έγινε προς τα αριστερά z=1 αν το τελευταίο βήμα προς τον κόμβο (x,y) έγινε προς τα δεξιά} z = 1 3

Επαναληπτική σχέση f(x,y,0)= max {p[a(x,y)+f(x+1,y+1,0)-1] + (1-p) [δ(x,y)+f(x+1,y-1,1)], p[δ(x,y)+f(x+1,y-1,1)] + (1-p) [α(x,y)+f(x+1,y+1,0)-1]} f(x,y,1)= max {p[a(x,y)+f(x+1,y+1,0)] + (1-p) [δ(x,y)+f(x+1,y-1,1)-1], p[δ(x,y)+f(x+1,y-1,1)-1] + (1-p) [α(x,y)+f(x+1,y+1,0)]} 4

Οριακές συνθήκες f(2,2,0)=0, f(2,2,1)=0, f(2,0,0)=0, f(2,0,1)=0, f(2,-2,0)=0, f(2,-2,1)=0 Για x=1 f(1,1,0) = max {p[a(1,1)+f(2,2,0)-1] + (1-p) [δ(1,1)+f(2,0,1)], p[δ(1,1)+f(2,0,1)] + (1-p) [α(1,1)+f(2,0,0)-1]} = max {0.1(4+0-1) + 0.9 (5+0), 0.1(5+0) + 0.9 (4+0-1)} = max{4.8, 3.2} = 4.8 f(1,1,1) = δε γίνεται z = 0 (1,1) 5

f(1,-1,1) = max {p[a(1,-1)+f(2,0,0)] + (1-p) [δ(1,-1)+f(2,-2,1)-1], p[δ(1,-1)+f(2,-2,1)-1] + (1-p) [α(1,-1)+f(2,0,0)]} = max {0.1(4+0) + 0.9 (5+0-1), 0.1(5+0-1) + 0.9 (4+0)} = max{4, 4} = 4 f(1,-1,0) = δε γίνεται z = 1 (1,-1) 6

Για x=0 f(0,0,-) = max {p[a(0,0)+f(1,1,0)] + (1-p) [δ(0,0)+f(1,-1,1)], p[δ(0,0)+f(1,-1,1)] + (1-p) [α(0,0)+f(1,1,0)]} = max {0.1(2+4.8) + 0.9 (1+4), 0.1 (1+4) + 0.9 (2+4.8)} = max{5.18, 6.62} = 6.62 Βέλτιστη πολιτική εντολών (0,0) : κίνηση προς δεξιά (1,1): κίνηση προς αριστερά (1,-1): κίνηση προς αριστερά ή δεξιά (0,0) 7

Μέθοδος του ελέγχου ανοιχτού κύκλου Σε αυτήν την μέθοδο οι οδηγίες δίνονται σαν μια ακολουθία. Για παράδειγμα η οδηγία ΑΔ σημαίνει ότι όταν βρίσκεσαι στον κόμβο x, y, πήγαινε προς τα αριστερά και μετά στον επόμενο κόμβο πάνε προς τα δεξιά. Σε ένα πλέγμα δεδομένων της 2, 2 δοθείσας μορφής, υπάρχουν 4 1, 1 4 δυνατές οδηγίες: 2 3 0, 0 2, 0 1) ΑΑ 2) ΑΔ 3) ΔΑ 4) ΔΔ Από αυτές πρέπει να βρούμε ποια είναι η βέλτιστη δυάδα εντολών. 1 1, 1 4 5 2, 2 8

Θεωρούμε ότι η εντολή εκτελείται στο πρώτο βήμα με πιθανότητα p 1 = 0. 2 και στο δεύτερο βήμα με πιθανότητα p 2 = 0. 3. Οι τιμές στα τόξα παριστάνουν κέρδος. Να λυθεί η άσκηση με την μέθοδο ελέγχου ανοιχτού κύκλου. Λύση 9

Ε ΑΑ = p 1 p 2 a 0, 0 + a 1, 1 + p 1 1 p 2 a 0, 0 + δ 1, 1 + 1 p 1 p 2 δ 0, 0 + α 1, 1 + 1 p 1 1 p 2 δ 0, 0 + δ 1, 1 ΑΑ: Δέχομαι τις εντολές στο 1 ο και 2 ο βήμα ΑΔ: Δέχομαι την εντολή στο 1 ο βήμα αλλά όχι στο 2 ο ΔΑ: Δε δέχομαι την εντολή στο 1 ο αλλά τη δέχομαι στο 2 ο βήμα ΔΔ: Δε δέχομαι τις εντολές στο 1 ο και 2 ο βήμα = 0. 2 0. 3 2 + 4 + 0. 2 0. 7 2 + 3 + 0. 8 0. 3 1 + 4 + 0. 8 0. 7 1 + 5 = 5. 62 10

Ε ΑΔ = p 1 p 2 a 0, 0 + δ 1, 1 + p 1 1 p 2 a 0, 0 + α 1, 1 + 1 p 1 p 2 δ 0, 0 + δ 1, 1 + 1 p 1 1 p 2 δ 0, 0 + α 1, 1 ΑΔ: Δέχομαι τις εντολές στο 1 ο και 2 ο βήμα ΑΑ: Δέχομαι την εντολή στο 1 ο βήμα αλλά όχι στο 2 ο ΔΔ: Δε δέχομαι την εντολή στο 1 ο αλλά τη δέχομαι στο 2 ο βήμα ΔΑ: Δε δέχομαι τις εντολές στο 1 ο και 2 ο βήμα = 0. 2 0. 3 2 + 3 + 0. 2 0. 7 2 + 4 + 0. 8 0. 3 1 + 5 + 0. 8 0. 7 1 + 4 = 5. 38 11

Ε ΔΑ = p 1 p 2 δ 0, 0 + α 1, 1 + p 1 1 p 2 δ 0, 0 + δ 1, 1 + 1 p 1 p 2 α 0, 0 + α 1, 1 + 1 p 1 1 p 2 α 0, 0 + δ 1, 1 ΔΑ: Δέχομαι τις εντολές στο 1 ο και 2 ο βήμα ΔΔ: Δέχομαι την εντολή στο 1 ο βήμα αλλά όχι στο 2 ο ΑΑ: Δε δέχομαι την εντολή στο 1 ο αλλά τη δέχομαι στο 2 ο βήμα ΑΔ: Δε δέχομαι τις εντολές στο 1 ο και 2 ο βήμα = 0. 2 0. 3 1 + 4 + 0. 2 0. 7 1 + 5 + 0. 8 0. 3 2 + 4 + 0. 8 0. 7 2 + 3 = 5. 38 12

Ε ΔΔ = p 1 p 2 δ 0, 0 + δ 1, 1 + p 1 1 p 2 δ 0, 0 + α 1, 1 + 1 p 1 p 2 α 0, 0 + δ 1, 1 + 1 p 1 1 p 2 α 0, 0 + α 1, 1 = 0. 2 0. 3 1 + 5 + 0. 2 0. 7 1 + 4 + 0. 8 0. 3 2 + 3 + 0. 8 0. 7 2 + 4 = 5. 62 Άρα με βάση το μέγιστο αναμενόμενο κέρδος: max{ε AA, Ε AΔ, Ε ΔA, Ε ΔΔ } = max{5. 62, 5. 38, 5. 38, 5. 62} = 5. 62 Η βέλτιστη δυάδα εντολών είναι η ΑΑ και η ΔΔ. 13

Να βρεθεί η διασπορά του κέρδους της βέλτιστης πολιτικής ΔΔ. Τι εκφράζει; Το αναμενόμενο κέρδος για το ΔΔ υπολογίστηκε ως εξής: Ε ΔΔ = 0.2 0.3 1 + 5 + 0.2 0.7 1 + 4 + 0.8 0.3 2 + 3 + 0.8 0.7 2 + 4 = 0. 06 6 + 0. 14 5 + 0. 24 5 + 0. 56 6 = 5. 62 14

Η διασπορά του κέρδους της πολιτικής ΔΔ δίνεται ως: σ 2 = 4 (x i x) 2 p i Ε ΔΔ = 0. 06 6 + 0. 14 5 + 0. 24 5 + 0. 56 6 = 5. 62 όπου i=1 x = Ε ΔΔ και x i p i 6 0.06 5 0.14 5 0.24 6 0.56 15

Άρα σ 2 = (6 5.62) 2 0.06 + (5 5.62) 2 0.14 + (5 5.62) 2 0.24 + (6 5.62) 2 0.56 = 0. 2356 Άρα σ = 0.4854 τυπική απόκλιση x i p i 6 0.06 5 0.14 5 0.24 6 0.56 Μας δείχνει μια αναμενόμενη απόκλιση από την μέση τιμή των κερδών που περιμένουμε ακολουθώντας την βέλτιστη πολιτική. 16

Άσκηση Μια εντολή εκτελείται στο πρώτο βήμα με πιθανότητα 0. 2 και στο δεύτερο βήμα με πιθανότητα 0. 3. Για κάθε αλλαγή κατεύθυνσης υπάρχει κόστος 1. Οι τιμές στα τόξα παριστάνουν κέρδος. Να λυθεί η άσκηση με την μέθοδο ελέγχου ανοιχτού κύκλου. Λύση 17

Ε ΑΑ = p 1 p 2 a 0, 0 + a 1, 1 + p 1 1 p 2 a 0, 0 + δ 1, 1 1 + 1 p 1 p 2 δ 0, 0 + α 1, 1 1 + 1 p 1 1 p 2 δ 0, 0 + δ 1, 1 ΑΑ: Δέχομαι τις εντολές στο 1 ο και 2 ο βήμα ΑΔ: Δέχομαι την εντολή στο 1 ο βήμα αλλά όχι στο 2 ο ΔΑ: Δε δέχομαι την εντολή στο 1 ο αλλά τη δέχομαι στο 2 ο βήμα ΔΔ: Δε δέχομαι τις εντολές στο 1 ο και 2 ο βήμα = 0. 2 0. 3 2 + 4 + 0. 2 0. 7 2 + 3 1 + 0. 8 0. 3 1 + 4 1 + 0. 8 0. 7 1 + 5 = 5. 24 18

Ε ΑΔ = p 1 p 2 a 0, 0 + δ 1, 1 + p 1 1 p 2 a 0, 0 + α 1, 1 + 1 p 1 p 2 δ 0, 0 + δ 1, 1 + 1 p 1 1 p 2 δ 0, 0 + α 1, 1 ΑΔ: Δέχομαι τις εντολές στο 1 ο και 2 ο βήμα ΑΑ: Δέχομαι την εντολή στο 1 ο βήμα αλλά όχι στο 2 ο ΔΔ: Δε δέχομαι την εντολή στο 1 ο αλλά τη δέχομαι στο 2 ο βήμα ΔΑ: Δε δέχομαι τις εντολές στο 1 ο και 2 ο βήμα = 0. 2 0. 3 2 + 3 1 + 0. 2 0. 7 2 + 4 + 0. 8 0. 3 1 + 5 + 0. 8 0. 7 1 + 4 1 = 4. 76 19

Ε ΔΑ = p 1 p 2 δ 0, 0 + α 1, 1 1 + p 1 1 p 2 δ 0, 0 + δ 1, 1 + 1 p 1 p 2 α 0, 0 + α 1, 1 + 1 p 1 1 p 2 α 0, 0 + δ 1, 1 1 = 0. 2 0. 3 1 + 4 1 + 0. 2 0. 7 1 + 5 + 0. 8 0. 3 2 + 4 + 0. 8 0. 7 2 + 3 1 = 4. 76 ΔΑ: Δέχομαι τις εντολές στο 1 ο και 2 ο βήμα ΔΔ: Δέχομαι την εντολή στο 1 ο βήμα αλλά όχι στο 2 ο ΑΑ: Δε δέχομαι την εντολή στο 1 ο αλλά τη δέχομαι στο 2 ο βήμα ΑΔ: Δε δέχομαι τις εντολές στο 1 ο και 2 ο βήμα 20

Ε ΔΔ = p 1 p 2 δ 0, 0 + δ 1, 1 + p 1 1 p 2 δ 0, 0 + α 1, 1 + 1 p 1 p 2 α 0, 0 + δ 1, 1 + 1 p 1 1 p 2 α 0, 0 + α 1, 1 = 0. 2 0. 3 1 + 5 + 0. 2 0. 7 1 + 4 1 + 0. 8 0. 3 2 + 3 1 + 0. 8 0. 7 2 + 4 = 5. 24 Άρα max{ε AA, Ε AΔ, Ε ΔA, Ε ΔΔ } = max{5. 24, 4. 76, 4. 76, 5. 24} = 5. 24 Η βέλτιστη δυάδα εντολών είναι η ΑΑ και η ΔΔ. 21

Άσκηση Στο δικτυωτό του σχήματος, οι τιμές στα τόξα παριστάνουν κόστος. Σε κάθε κόμβο, ακολουθείται με πιθανότητα p x, y η οδηγία που δίνεται, διαφορετικά πάμε προς την αντίθετη κατεύθυνση με πιθανότητα q x, y. Να βρεθεί η βέλτιστη πολιτική εντολών με το ελάχιστο αναμενόμενο κόστος με την μέθοδο ανοιχτού κύκλου. p x, y x 0 1 2 y -2 - - ¼ -1 - ¾ - 0 ¾ - ½ 1 - ½ - 2 - - ¾ q x, y x 0 1 2 y -2 - - ¾ -1 - ¼ - 0 ¼ - ½ 1 - ½ - 2 - - ¼ 22

Υπάρχουν 8 δυνατές διαφορετικές οδηγίες: 1) ΑΑΑ, 2) ΑΑΔ, 3) ΑΔΑ, 4) ΔΑΑ, 5) ΑΔΔ, 6) ΔΑΔ, 7) ΔΔΑ, 8) ΔΔΔ Το ελάχιστο αναμενόμενο κόστος για την οδηγία ΑΑΑ είναι: Ε ΑΑA = p 0, 0 p 1, 1 p 2, 2 a 0, 0 + a 1, 1 + a 2, 2 + p 0, 0 p 1, 1 q 2, 2 a 0, 0 + a 1, 1 + δ 2, 2 + p 0, 0 q 1, 1 p 2, 0 a 0, 0 + δ 1, 1 + a 2, 0 + q 0, 0 p 1, 1 p 2, 0 δ 0, 0 + a 1, 1 + a 2, 2 + p 0, 0 q 1, 1 q 2, 0 a 0, 0 + δ 1, 1 + δ 2, 0 + q 0, 0 p 1, 1 q 2, 0 δ 0, 0 + a 1, 1 + δ 2, 0 + q 0, 0 q 1, 1 p 2, 2 δ 0, 0 + δ 1, 1 + a 2, 2 + q 0, 0 q 1, 1 q 2, 2 δ 0, 0 + δ 1, 1 + δ 2, 2 = ΑΑΑ ΑΑΔ ΑΔΑ ΔΑΑ ΑΔΔ ΔΑΔ ΔΔΑ ΔΔΔ 23

Ε ΑΑA = 3 1 3 4 2 4 3 1 1 4 2 4 3 1 1 4 2 2 1 3 1 4 4 2 3 1 1 4 2 2 1 3 1 4 4 2 1 1 1 4 4 4 1 1 3 4 4 4 10 + 12 + 8 + 10 + 12 + 10 + 10 + 4 + 6 + 12 + 2 + 6 + 10 + 4 + 4 + 12 + 2 + 4 + 12 + 13 + 12 + 12 + 13 + 16 = 24. 625 ΑΑΑ ΑΑΔ ΑΔΑ ΔΑΑ ΑΔΔ ΔΑΔ ΔΔΑ ΔΔΔ 24

Ομοίως υπολογίζουμε το αναμενόμενο κόστος για κάθε μία από τις υπόλοιπες 7 δυνατές εντολές. Όταν υπολογίσουμε όλα τα αναμενόμενα κόστη για όλες τις δυνατές εντολές, μπορούμε να αποφασίσουμε για την βέλτιστη σειρά εντολών. Παρατήρηση Τα αναμενόμενα κόστη που προκύπτουν από την μέθοδο ελέγχου ανοιχτού κύκλου είναι μεγαλύτερα συγκριτικά με αυτά που προκύπτουν με την μέθοδο του βέλτιστου με επαναπληροφόρηση ελέγχου, καθώς οι πληροφορίες που έχουμε σε αυτήν την περίπτωση είναι περισσότερες. 25

Μέθοδος του ελέγχου ανοιχτού κύκλου με επαναπληροφόρηση Η μέθοδος αυτή είναι συνδυασμός των δύο προηγούμενων μεθόδων. Στον πρώτο κόμβο εφαρμόζουμε την μέθοδο ελέγχου ανοιχτού κύκλου και έτσι παίρνουμε την πρώτη απόφαση. Στον δεύτερο κόμβο εφαρμόζουμε την μέθοδο ελέγχου ανοιχτού κύκλου για την διαδρομή που απομένει και έτσι παίρνουμε την δεύτερη απόφαση, κ.ο.κ. 26

Μέθοδος του ελέγχου ανοιχτού κύκλου με επαναπληροφόρηση Έστω το παρακάτω δικτυωτό, όπου οι τιμές στα τόξα είναι κέρδος. Θεωρούμε ότι η εντολή εκτελείται στο πρώτο βήμα με πιθανότητα p 1 = 0. 2 και στο δεύτερο βήμα με πιθανότητα p 2 = 0. 3. Λύση Κόμβος (0,0) Υπάρχουν 4 δυνατές οδηγίες από τον αρχικό κόμβο (0,0): 1) ΑΑ 2) ΑΔ 3) ΔΑ 4) ΔΔ 0, 0 2 1 1, 1 1, 1 4 3 4 5 2, 2 2, 0 2, 2 27

Ε ΑΑ = Αναμενόμενο κέρδος p 1 p 2 a 0, 0 + a 1, 1 + p 1 1 p 2 a 0, 0 + δ 1, 1 + 1 p 1 p 2 δ 0, 0 + α 1, 1 + 1 p 1 1 p 2 δ 0, 0 + δ 1, 1 ΑΑ: Δέχομαι τις εντολές στο 1 ο και 2 ο βήμα ΑΔ: Δέχομαι την εντολή στο 1 ο βήμα αλλά όχι στο 2 ο ΔΑ: Δε δέχομαι την εντολή στο 1 ο αλλά τη δέχομαι στο 2 ο βήμα ΔΔ: Δε δέχομαι τις εντολές στο 1 ο και 2 ο βήμα = 0. 2 0. 3 2 + 4 + 0. 2 0. 7 2 + 3 + 0. 8 0. 3 1 + 4 + 0. 8 0. 7 1 + 5 = 5. 62 28

Ε ΑΔ = p 1 p 2 a 0, 0 + δ 1, 1 + p 1 1 p 2 a 0, 0 + α 1, 1 + 1 p 1 p 2 δ 0, 0 + δ 1, 1 + 1 p 1 1 p 2 δ 0, 0 + α 1, 1 ΑΔ: Δέχομαι τις εντολές στο 1 ο και 2 ο βήμα ΑΑ: Δέχομαι την εντολή στο 1 ο βήμα αλλά όχι στο 2 ο ΔΔ: Δε δέχομαι την εντολή στο 1 ο αλλά τη δέχομαι στο 2 ο βήμα ΔΑ: Δε δέχομαι τις εντολές στο 1 ο και 2 ο βήμα = 0. 2 0. 3 2 + 3 + 0. 2 0. 7 2 + 4 + 0. 8 0. 3 1 + 5 + 0. 8 0. 7 1 + 4 = 5. 38 29

Ομοίως υπολογίζουμε Ε ΔΑ = 5. 38, Ε ΔΔ = 5. 62 Για τον κόμβο (1, 1): Ε Α = p 2 a 1, 1 + (1 p 2 )δ 1, 1 = 0. 3 4 + 0. 7 3 = 3. 3 Ε Δ = p 2 δ 1, 1 + (1 p 2 )α 1, 1 = 0. 3 3 + 0. 7 4 = 3. 7 Για τον κόμβο (1, 1): Ε Α = p 2 a 1, 1 + (1 p 2 )δ 1, 1 = 0. 3 4 + 0. 7 5 = 4. 7 Ε Δ = p 2 δ 1, 1 + (1 p 2 )α 1, 1 = 0. 3 5 + 0. 7 4 = 4. 3 30

Για τον κόμβο (0, 0) βρήκαμε: Ε ΑΑ = 5. 62, Ε ΑΔ = 5. 38 Ε ΔΑ = 5. 38, Ε ΔΔ = 5. 62 Άρα οι βέλτιστες εντολές είναι ΑΑ και ΔΔ. Για τον κόμβο (1, 1): Ε Α = 3. 3, Ε Δ = 3. 7 Άρα η βέλτιστη εντολή είναι πάνε δεξιά (Δ). Για τον κόμβο (1, 1): Ε Α = 4. 7, Ε Δ = 4. 3 Άρα η βέλτιστη εντολή είναι πάνε αριστερά (Α). 31

Άσκηση Έστω το παρακάτω δικτυωτό, όπου οι τιμές στα τόξα είναι κόστος. Θεωρούμε ότι η εντολή εκτελείται σε κάθε βήμα με πιθανότητα p = 0. 4. Να βρεθεί η βέλτιστη πολιτική εντολών με την μέθοδο ανοιχτού κύκλου με επαναπληροφόρηση. (2,2) Λύση (0,0) 2 (1,1) 1 2 (2,0) 3 1 (3,1) 3 2 1 (3,-1) (1,-1) 3 (2,-2) 2 32

Κόμβος (0,0): Πιθανές εντολές ΑΑΑ ΑΑΔ ΑΔΑ ΑΔΔ ΔΑΑ ΔΔΑ ΔΑΔ ΔΔΔ Δυνατές εντολές Χ ΑΑΔ ΑΔΑ ΑΔΔ ΔΑΑ ΔΔΑ ΔΑΔ Χ 33

Ε(ΑΑΔ) = p p 1 (a+a+δ) + p (1-p) p (a+δ+δ) + p (1-p) (1-p) (α+δ+α)+ (1-p) p p (δ+a+δ) + (1-p) p (1-p)(δ +α + α) + (1-p) (1-p) 1 (δ+δ+α) = 0.4*0.4*1*(2+1+3) + 0.4*0.6*0.4*(2+2+1) + 0.4*0.6*0.6*(2+2+1)+0.6*0.4*0.4*(3+2+1) + 0.6*0.6*1*(3 +3 +2) + 0.6*0.4*0.6*(3+2+1) =6.48 κ.ο.κ. για όλες τις δυνατές εντολές Πιθανές εντολές ΑΑΑ ΑΑΔ ΑΔΑ ΑΔΔ ΔΑΑ ΔΔΑ ΔΑΔ ΔΔΔ Δυνατές κινήσεις Χ ΑΑΔ ΑΔΑ ΑΔΔ ΔΑΑ ΔΔΑ ΔΑΔ Χ 34

Κόμβος (1,1): Ε(ΑΔ) = p 1 (a+δ) + (1-p) p (δ+δ) + (1-p) (1-p) (δ+α) = 0.4*1*(1+3) + 0.6*0.4*(2+1) + 0.6*0.6*(2+1) =3.4 Ε(ΔΑ) = p p (δ+a) + p (1-p) (δ+δ) + (1-p) 1 (a+δ) = 0.4*0.4*(2+1) + 0.4*0.6*(2+1) + 0.6*1*(1+3) =3.6 Ε(ΔΔ) = p p (δ+δ) + p (1-p) (δ+α) + (1-p) 1 (a+δ) = 0.4*0.4*(2+1) + 0.4*0.6*(2+1) + 0.6*1*(1+3) =3.6 Δυνατές εντολές ΑΑ ΑΔ ΔΑ ΔΔ Δυνατές κινήσεις Χ ΑΔ ΔΑ ΔΔ 35

Κόμβος (1,-1): Ε(ΑΑ) = p p (a+a) + p (1-p) (α+δ) + (1-p) 1 (δ+α) = 0.4*0.4*(2+1) + 0.4*0.6*(2+1)+0.6*1*(3+2) =4.2 Ε(ΑΔ) = p p (a+δ) + p (1-p) (α+α) + (1-p) 1 (δ+α) = 0.4*1*(1+3) + 0.6*0.4*(2+1) + 0.6*0.6*(2+1) =3.4 Ε(ΔΑ) = p 1 (δ+a) + (1-p) p (α+α) + (1-p) (1-p) (a+δ) = 0.4*1*(3+2)+0.6*0.4*(2+1) + 0.6*0.6*(2+1) =3.8 Δυνατές εντολές ΑΑ ΑΔ ΔΑ ΔΔ Δυνατές κινήσεις ΑΑ ΑΔ ΔΑ Χ 36

Κόμβος (2,2): Ε(Α) = 1 δ = 3 Κόμβος (2,0): Ε(Α) = p a + (1-p) δ = 0.4*1+0.6*1 =1 Ε(Δ) = p δ + (1-p) α = 0.4*1 + 0.6*1 =1 Δυνατές εντολές Α Δ Δυνατές εντολές Α Δ Δυνατές κινήσεις Χ Δ Δυνατές κινήσεις Α Δ Κόμβος (2,-2): Ε(Α) = 1 α = 1*2 =2 Δυνατές εντολές Α Δ Δυνατές κινήσεις Α Χ 37

Βιβλιογραφία 1) Π.-Χ. Βασιλείου (2001) Εφαρμοσμένος Μαθηματικός Προγραμματισμός, Εκδόσεις Ζήτη. 2) Π.-Χ. Βασιλείου, Γ. Τσακλίδης, Ν. Τσάντας (1998) Ασκήσεις στην Επιχειρησιακή Έρευνα, Εκδόσεις Ζήτη. 38