Στοχαστικές Στρατηγικές

Στοχαστικές Στρατηγικές 3 η ενότητα: Στοχαστικά προβλήματα διαδρομής Μεθοδολογία (1) Τμήμα Μαθηματικών, ΑΠΘ Ακαδημαϊκό έτος 018-019 Χειμερινό Εξάμηνο Παπάνα Αγγελική Μεταδιδακτορική ερευνήτρια, ΑΠΘ & Πανεπιστήμιο Μακεδονίας E-mail: angeliki.papana@gmail.com, agpapana@auth.gr Webpage: http://users.auth.gr/agpapana 1

Μέθοδοι ελέγχου Έστω ότι έχουμε ένα στοχαστικό πρόβλημα διαδρομής με την έννοια ότι σε κάθε κόμβο υπάρχει αβεβαιότητα για το γεγονός αν ακολουθείται η βέλτιστη διαδρομή παρά την γνώση ποια είναι αυτή. Δηλαδή σε κάθε κόμβο υπάρχει μια πιθανότητα p x, να ακολουθήσουμε την εντολή που μας δόθηκε ως προς τη διαδρομή που πρέπει να ακολουθήσουμε και μια πιθανότητα q x, = 1 p(x, ) να μην την ακολουθήσουμε. Αυτό το γεγονός διαφοροποιεί σε πολλά σημεία και τα κριτήρια με τα οποία θα δοθούν οι λύσεις στο πρόβλημα. π.χ. Έστω ότι θεωρούμε σαν κριτήριο την ελαχιστοποίηση του αναμενόμενου κόστους. Υπάρχουν πολλές πολιτικές για να πραγματοποιηθεί αυτό.

1 η πολιτική: Μέθοδος του βέλτιστου με επαναπληροφόρηση ελέγχου Σε κάθε κόμβο που είναι δεδομένο ότι βρισκόμαστε, βρίσκουμε ποια είναι η διαδρομή με το ελάχιστο αναμενόμενο κόστος. Την στιγμή της απόφασης έχουμε την επιπλέον πληροφορία σε ποιον ακριβώς κόμβο βρισκόμαστε. η πολιτική: Μέθοδος του ελέγχου ανοιχτού κύκλου Βρίσκουμε όλες τις δυνατές διαδρομές και επιλέγουμε εκείνη με το ελάχιστο αναμενόμενο κόστος. 3 η πολιτική: Μέθοδος του ελέγχου ανοιχτού κύκλου με επαναπληροφόρηση Είναι συνδυασμός των δυο πρώτων μεθόδων. Σε κάθε κόμβο, προσδιορίζουμε την βέλτιστη πολιτική με την μέθοδο ελέγχου ανοιχτού κύκλου. 3

Μέθοδος του βέλτιστου με επαναπληροφόρηση ελέγχου Παράδειγμα Να βρεθεί η βέλτιστη πολιτική ώστε να πάμε από το σημείο (0,0) σε οποιοδήποτε σημείο πάνω στην ευθεία Β (x = 3). Θεωρούμε ότι σε κάθε κόμβο υπάρχει πιθανότητα p x, να ακολουθήσει κάποιος τις οδηγίες μας και μια πιθανότητα q x, να ακολουθήσει την αντίθετη διαδρομή. (3,3) 8 (0,0) 6 (3,1) (3,-1) 13 16 (3,-3)

Το πρόβλημα Ποιες πρέπει να είναι οι οδηγίες μας ώστε το αναμενόμενο κόστος να είναι ελάχιστο. Τα p x, και q x, δίνονται. p x, x 0 1 - - - ¼ -1 - ¾ - 0 ¾ - ½ - - ¾ q x, x 0 1 - - - ¾ -1 - ¼ - 0 ¼ - ½ - - ¼ 5

Μέθοδος του βέλτιστου με επαναπληροφόρηση ελέγχου Η βέλτιστη αναμενόμενη συνάρτηση ορίζεται ως: f x, = {Το ελάχιστο αναμενόμενο κόστος από τον κόμβο x, μέχρι την ευθεία Β} Έστω a x, : απόσταση κόμβου x, και x + 1, + 1, δ x, : απόσταση κόμβου x, και x + 1, 1 Αν βρισκόμαστε στον κόμβο x, και δώσουμε οδηγία ότι πρέπει να πάμε στον επόμενο κόμβο, δηλ. στον κόμβο x + 1, + 1 ή στον κόμβο x + 1, 1, τότε το αναμενόμενο κόστος αυτής της απόφασης είναι διαφορετικό και προκύπτει με βάση τον ορισμό της μέσης τιμής. 6

Αν βρισκόμαστε στον κόμβο x, και δώσουμε οδηγία ότι πρέπει να πάμε στον κόμβο x + 1, + 1, τότε το αναμενόμενο κόστος αυτής της απόφασης είναι: p x, a x, + f x + 1, + 1 + q x, δ x, + f x + 1, 1 Αν βρισκόμαστε στον κόμβο x, και δώσουμε οδηγία ότι πρέπει να πάμε στον κόμβο x + 1, 1, τότε το αναμενόμενο κόστος αυτής της απόφασης είναι: p x, δ x, + f x + 1, 1 + q x, α x, + f x + 1, + 1 7

Σύμφωνα με την αρχή της βελτιστοποίησης, οι οδηγίες που πρέπει να δώσουμε στον κόμβο x, πρέπει να είναι τέτοιες ώστε το αναμενόμενο κόστος να είναι ελάχιστο. Επομένως: f x, = min{p x, a x, + f x + 1, + 1 + q x, δ x, + f x + 1, 1, p x, δ x, + f x + 1, 1 + q x, α x, + f x + 1, + 1 } Οριακές συνθήκες f 3,3 = 0, f 3,1 = 0, f 3, 1 = 0, f 3, 3 = 0 Τώρα θα υπολογίσουμε την τιμή της βέλτιστης αναμενόμενης συνάρτησης για όλους τους κόμβους. 8

Για x = f, = min{p, a, + f 3,3 + q, δ, + f 3,1, p, δ, + f 3,1 + q, α, + f 3,3 } x p x, = min{ 3 8 + 0 + 1 + 0, 3 + 0 + 1 8 + 0 } = min 17, 19 0 1 - - - ¼ x = 17 q x, 0 1 - - - ¾ (,) 8 6 (3,3) (3,1) -1 - ¾ - -1 - ¼ - 0 ¾ - ½ - - ¾ 0 ¼ - ½ - - ¼ 13 16 9

Για x = f,0 = min{p,0 a,0 + f 3,1 + q,0 δ,0 + f 3, 1, p,0 δ,0 + f 3, 1 + q,0 α,0 + f 3,1 } = min{ 1 6 + 0 + 1 + 0, 1 + 0 + 1 6 + 0 } = min 5,5 = 5 p x, x 0 1 - - - ¼ q x, x 0 1 - - - ¾ (,0) 8 6 (3,1) -1 - ¾ - -1 - ¼ - 0 ¾ - ½ - - ¾ 0 ¼ - ½ - - ¼ 13 16 (3,-1)

Για x = f, = min{p, a, + f 3, 1 + q, δ, + f 3, 3, p, δ, + f 3, 3 + q, α, + f 3, 1 } = min{ 1 + 0 + 3 16 + 0, 1 16 + 0 + 3 + 0 } = min 15,13 = 13 p x, q x, x 0 1 x 0 1 - - - ¼ - - - ¾ -1 - ¾ - -1 - ¼ - 0 ¾ - ½ 0 ¼ - ½ - - ¾ - - ¼ 13 (,-) 8 6 16 (3,-1) (3,-3) 11

Για x = 1 f 1,1 = min{p 1,1 a 1,1 + f, + q 1,1 δ 1,1 + f,0, p 1,1 δ 1,1 + f,0 + q 1,1 α 1,1 + f, } = min{ 1 17 + + 1 + 5, 1 + 5 + 1 17 + } = min 59, 59 = 59 (,) p x, q x, x 0 1 - - - ¼ -1 - ¾ - 0 ¾ - ½ - - ¾ x 0 1 - - - ¼ -1 - ¼ - 0 ¼ - ½ - - ¼ (1,1) 13 (,0) 8 6 16

Για x = 1 f 1, 1 = min{p 1, 1 a 1, 1 + f,0 + q 1, 1 δ 1, 1 + f,, p 1, 1 δ 1, 1 + f, + q 1, 1 α 1, 1 + f,0 } = min{ 3 + 5 + 1 13 + 13, 3 13 + 13 + 1 + 5 } = min 7, 83 = 7 8 x p x, 0 1 - - - ¼ x q x, 0 1 - - - ¼ (,0) 6-1 - ¾ - -1 - ¼ - 0 ¾ - ½ 0 ¼ - ½ (1,-1) 13 (,-) 16 - - ¾ - - ¼ 13

Για x = 0 f 0,0 = min{p 0,0 a 0,0 + f 1,1 + q 0,0 δ 0,0 + f 1, 1, p 0,0 δ 0,0 + f 1, 1 + q 0,0 α 0,0 + f 1,1 } = min{ 3 59 + + 1 = min 9, = p x, q x, x 0 1 - - - ¼ -1 - ¾ - 0 ¾ - ½ - - ¾ x 0 1 - - - ¼ -1 - ¼ - 0 ¼ - ½ - - ¼ + 7, 3 (0,0) + 7 + 1 (1,1) (1,-1) + 59 } 13 8 6 16 1

Βέλτιστη πολιτική εντολών Στον κόμβο 0,0 το ελάχιστο αναμενόμενο κόστος προκύπτει αν η οδηγίες μας είναι να πάμε στον κόμβο 1, 1. Επειδή όμως μπορεί να μην πάει τελικά στον κόμβο 1, 1, αλλά στον 1, 1, πρέπει να ελέγξουμε και για τους δύο κόμβους ποια είναι η βέλτιστη εντολή κ.ο.κ. 0, 0 κίνηση προς τα δεξιά 1, 1 κίνηση προς δεξιά ή αριστερά 1, 1 κίνηση προς τα αριστερά, κίνηση προς τα αριστερά,0 κίνηση προς τα δεξιά ή αριστερά, κίνηση προς τα δεξιά 15

Άσκηση Δίνουμε από ένα κέντρο διοίκησης εντολές σε ένα κινητό. Η πιθανότητα να γίνει δεκτή η οδηγία κίνησης είναι p. Αν δεν γίνει δεκτή η οδηγία, με πιθανότητα 1 p, μπορεί να ακολουθήσει την αντίθετη διαδρομή με πιθανότητα q ή να παραμείνει στην ίδια θέση με πιθανότητα 1 q και κόστος μ. Να λυθεί το πρόβλημα με την μέθοδο του βέλτιστου με επαναπληροφόρηση ελέγχου για p =, q = 1 και μ = 3. 3 0, 0 1 1, 1 1, 1 3 3,, 0, 16

Ζητείται η βέλτιστη πολιτική εντολών. Εφαρμόζουμε την προς τα πίσω μέθοδο. Βέλτιστη συνάρτηση f x, = {Το ελάχιστο αναμενόμενο κόστος από τον κόμβο x, μέχρι το τέλος} Επαναληπτική σχέση f x, = εντολή κίνησης προς τα αριστερά p a x, + f x + 1, + 1 + 1 p q δ x, + f x + 1, 1 + 1 q (f x, + μ), min{ p δ x, + f x + 1, 1 + (1 p)[q α x, + f x + 1, + 1 + 1 q (f x, + μ)] Οριακές συνθήκες εντολή κίνησης προς τα δεξιά f, = 0, f,0 = 0, f, = 0 17

Για x = 1 f 1,1 = min{p(a 1,1 + f, ) + (1 p)[q δ 1,1 + f,0 + 1 q f 1,1 + μ ], p(δ 1,1 + f,0 ) + 1 p q α 1,1 + f, + 1 q f 1,1 + μ ] = min{ (3 + 0) + 1 3 3 [1 + 0 + 3 f 1,1 + 3 ], ( + 0) + 1 3 3 [1 3 + 0 + 3 = min{ 35 f 1,1 8 f 1,1 +, + } = 8 f 1,1 + f 1,1 = 8 9 f 1,1 + 3 ]} Ομοίως υπολογίζουμε το f 1, 1 p =, q = 1, μ = 3 3 18

f 1, 1 = min{p(a 1, 1 + f,0 ) + (1 p)[q δ 1, 1 + f, + 1 q f 1, 1 + μ ], p(δ 1, 1 + f, ) + 1 p q α 1, 1 + f,0 + 1 q f 1, 1 + μ ] = min{ (3 + 0) + 1 3 3 [1 + 0 + 3 f 1, 1 + 3 ], ( + 0) + 1 3 3 [1 3 + 0 + 3 f 1, 1 = 8 9 p =, q = 1, μ = 3 3 f 1, 1 + 3 ]} 19

Για x = 0 f 0,0 = min{p(a 0,0 + f 1,1 ) + (1 p)[q δ 0,0 + f 1, 1 + 1 q f 0,0 + μ ], p(δ 0,0 + f 1, 1 ) + 1 p q α 0,0 + f 1,1 + 1 q f 0,0 + μ ] = min{ 3 = min{ 7 8 (1 + ) + 1 9 3 [1 + 8 9 19, + f 0,0 f 0,0 + } = 7 + 3 (f 0,0 + 3)), 3 + f 0,0 8 ( + ) + 1 9 3 [1 1 + 8 9 f 0,0 = 7 9 + 3 f 0,0 + 3 ]} Η βέλτιστη πολιτική δίνεται για κάθε κόμβο χωριστά και όχι συνολικά. 0,0 κίνηση προς τα αριστερά 1,1 κίνηση προς τα δεξιά 1, 1 κίνηση προς τα δεξιά p =, q = 1, μ = 3 3 0

Άσκηση Έστω ένα κινητό δέχεται εντολές για να κινείται σε ένα δικτυωτό. Σε κάθε κόμβο, η εντολή να πάμε αριστερά έχει πιθανότητα p 1 να εκτελεστεί. Αν δεν εκτελεστεί (με πιθανότητα 1 p 1 ), τότε είτε πάμε προς τα δεξιά με πιθανότητα q 1 είτε παραμένει στην ίδια θέση με πιθανότητα 1 q 1. Αν η εντολή είναι να πάμε προς τα δεξιά, τότε οι αντίστοιχες πιθανότητες (των p 1, q 1 ) είναι p, q. Για κάθε αλλαγή κατεύθυνσης υπάρχει κόστος k. Να βρεθεί η βέλτιστη πολιτική (βέλτιστες εντολές) με την μέθοδο του βέλτιστου με επαναπληροφόρηση ελέγχου. 1

Βέλτιστη συνάρτηση f x, = {Το ελάχιστο αναμενόμενο κόστος από τον κόμβο x, μέχρι το τέλος, όπου z = 0 αν το τελευταίο βήμα προς τον κόμβο x, έγινε προς τα αριστερά και z = 1 αν έγινε προς τα δεξιά} Επαναληπτική σχέση f x,, 0 = κίνηση προς τα αριστερά p 1 a x, + f x + 1, + 1, 0 + 1 p 1 q 1 δ x, + f x + 1, 1, 1 + k + 1 q 1 f x,, 0, min{ κίνηση προς τα δεξιά p δ x, + f x + 1, 1, 1 + k + 1 p q α x, + f x + 1, + 1, 0 + 1 q f x,, 0, παραμένει στην ίδια θέση εντολή κίνησης προς τα αριστερά εντολή κίνησης προς τα δεξιά z = 0 x, x + 1, + 1 x + 1, 1

Επαναληπτική σχέση f x,, 1 = κίνηση προς τα αριστερά παραμένει στην p 1 a x, + f x + 1, + 1, 0 + k + ίδια θέση 1 p 1 q 1 δ x, + f x + 1, 1, 1 + 1 q 1 f x,, 1, min{ κίνηση προς τα δεξιά p δ x, + f x + 1, 1, 1 + 1 p q α x, + f x + 1, + 1, 0 + k + 1 q f x,, 1, εντολή κίνησης προς τα αριστερά εντολή κίνησης προς τα δεξιά z = 1 x, x + 1, + 1 x + 1, 1 3

Βιβλιογραφία 1) Π.-Χ. Βασιλείου (001) Εφαρμοσμένος Μαθηματικός Προγραμματισμός, Εκδόσεις Ζήτη. ) Π.-Χ. Βασιλείου, Γ. Τσακλίδης, Ν. Τσάντας (1998) Ασκήσεις στην Επιχειρησιακή Έρευνα, Εκδόσεις Ζήτη.