ΚΕΦΑΛΑΙΟ 1: ΣΤΟΧΑΣΤΙΚΟΣ ΥΝΑΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΓΙΑ ΜΟΝΤΕΛΑ ΠΕΠΕΡΑΣΜΕΝΟΥ ΧΡΟΝΙΚΟΥ ΟΡΙΖΟΝΤΑ

Σχετικά έγγραφα
ΤΟ ΠΡΟΒΛΗΜΑ ΤΗΣ ΒΕΛΤΙΣΤΗΣ ΔΡΟΜΟΛΟΓΗΣΗΣ ΕΝΟΣ ΟΧΗΜΑΤΟΣ ΠΟΥ ΔΙΑΝΕΜΕΙ ΕΝΑ ΠΡΟ

ΣΤΟΧΑΣΤΙΚΕΣ ΙΑ ΙΚΑΣΙΕΣ

Ασκήσεις για το µάθηµα «Ανάλυση Ι και Εφαρµογές» (ε) Κάθε συγκλίνουσα ακολουθία άρρητων αριθµών συγκλίνει σε άρρητο αριθµό.

Μάθηµα Θεωρίας Αριθµών Ε.Μ.Ε

Στοχαστικές Στρατηγικές

Markov. Γ. Κορίλη, Αλυσίδες. Αλυσίδες Markov

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥ ΩΝ: ΠΛΗΡΟΦΟΡΙΚΗ ΘΕ: ΜΑΘΗΜΑΤΙΚΑ ΓΙΑ ΤΗΝ ΠΛΗΡΟΦΟΡΙΚΉ Ι (ΠΛΗ 12) ΛΥΣΕΙΣ ΕΡΓΑΣΙΑΣ 3

Ορισµός. (neighboring) καταστάσεων. ηλαδή στην περίπτωση αλυσίδας Markov. 1.2 ιαµόρφωση µοντέλου

Ακρότατα υπό συνθήκη και οι πολλαπλασιαστές του Lagrange

ΜΙΓΑ ΙΚΟΣ ΛΟΓΙΣΜΟΣ ΚΑΙ ΟΛΟΚΛ. ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΙ ΓΡΑΠΤΕΣ ΕΞΕΤΑΣΕΙΣ ΙΑΝΟΥΑΡΙΟΥ 2010 ΛΥΣΕΙΣ ΤΩΝ ΘΕΜΑΤΩΝ. =. Οι πρώτες µερικές u x y

Υπολογισµός διπλών ολοκληρωµάτων µε διαδοχική ολοκλήρωση

ΘΕΩΡΙΑ ΑΡΙΘΜΩΝ. Ασκησεις - Φυλλαδιο 4. ιδασκων: Α. Μπεληγιάννης Ιστοσελιδα Μαθηµατος :

ροµολόγηση πακέτων σε δίκτυα υπολογιστών

Η ΤΕΧΝΗ ΤΟΥ ΙΑΒΑΣΜΑΤΟΣ ΜΕΤΑΞΥ ΤΩΝ ΑΡΙΘΜΩΝ (ΠΑΡΕΜΒΟΛΗ ΚΑΙ ΠΡΟΣΕΓΓΙΣΗ)

Οι κλασσικότερες από αυτές τις προσεγγίσεις βασίζονται σε πολιτικές αναπαραγγελίας, στις οποίες προσδιορίζονται τα εξής δύο μεγέθη:

Αριθµοί Liouville. Ιωάννης Μπαρµπαγιάννης

Άπληστοι Αλγόριθµοι (CLR, κεφάλαιο 17)

ΔΥΝΑΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ

ΘΕΩΡΙΑ ΑΡΙΘΜΩΝ. Λυσεις Ασκησεων - Φυλλαδιο 2

ΘΕΩΡΙΑ ΑΡΙΘΜΩΝ. Λυσεις Ασκησεων - Φυλλαδιο 4

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥ ΩΝ «ΠΛΗΡΟΦΟΡΙΚΗ» ΜΑΘΗΜΑΤΙΚΑ Ι (ΘΕ ΠΛΗ 12) ΕΡΓΑΣΙΑ 4

Σηµειώσεις στις σειρές

ΘΕΩΡΙΑ ΑΡΙΘΜΩΝ Ασκησεις - Φυλλαδιο 4

A2. ΠΑΡΑΓΩΓΟΣ-ΚΛΙΣΗ-ΜΟΝΟΤΟΝΙΑ

ΔΕΟ13 - Επαναληπτικές Εξετάσεις 2010 Λύσεις

ΘΕΩΡΙΑ ΑΡΙΘΜΩΝ Ασκησεις - Φυλλαδιο 4

ΘΕΩΡΙΑ ΑΡΙΘΜΩΝ Ασκησεις - Φυλλαδιο 2

1 Ορισµός ακολουθίας πραγµατικών αριθµών

Υπολογισµός διπλών ολοκληρωµάτων µε διαδοχική ολοκλήρωση

Παράρτηµα 3 Εξισώσεις Διαφορών και Στοχαστικές Διαδικασίες

ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

KΕΦΑΛΑΙΟ 4 AΚΟΛΟΥΘΙΕΣ ΠΡΑΓΜΑΤΙΚΩΝ ΑΡΙΘΜΩΝ

Γ. Κορίλη Αλγόριθµοι ροµολόγησης

Αρµονική Ανάλυση. Ενότητα: Ολοκλήρωµα Lebesgue - Ασκήσεις. Απόστολος Γιαννόπουλος. Τµήµα Μαθηµατικών

2. Στοιχεία Πολυδιάστατων Κατανοµών

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ Τµήµα Επιστήµης Υπολογιστών. HY-317: Εφαρµοσµένες Στοχαστικές ιαδικασίες - Εαρινό Εξάµηνο ιδάσκων : Π.

ΣΕΙΡΕΣ TAYLOR. Στην Ενότητα αυτή θα ασχοληθούµε µε την προσέγγιση συναρτήσεων µέσω πολυωνύµων. Πολυώνυµο είναι κάθε συνάρτηση της µορφής:

ΘΕΩΡΙΑ ΑΡΙΘΜΩΝ Λυσεις Ασκησεων - Φυλλαδιο 1

< 1 για κάθε k N, τότε η σειρά a k συγκλίνει. +, τότε η η σειρά a k αποκλίνει.

ΓΡΑΜΜΙΚΗ ΑΛΓΕΒΡΑ ΙΙ (ΠΕΡΙΤΤΟΙ) Ασκησεις - Φυλλαδιο 5

ΘΕΩΡΙΑ ΑΠΟΘΕΜΑΤΩΝ. Ι. Προσδιοριστικά Μοντέλα αποθεµάτων

Γενικό πλάνο. Μαθηµατικά για Πληροφορική. Παράδειγµα αναδροµικού ορισµού. οµική επαγωγή ΠΑΡΑ ΕΙΓΜΑ. 3ο Μάθηµα

τη µέθοδο της µαθηµατικής επαγωγής για να αποδείξουµε τη Ϲητούµενη ισότητα.

Ανάλυση Δεδοµένων µε χρήση του Στατιστικού Πακέτου R

Μαθηµατικά για Πληροφορική

Κεφάλαιο 2. Παραγοντοποίηση σε Ακέραιες Περιοχές

( ) = inf { (, Ρ) : Ρ διαµέριση του [, ]}

f (x) = l R, τότε f (x 0 ) = l. = lim (0) = lim f(x) = f(x) f(0) = xf (ξ x ). = l. Εστω ε > 0. Αφού lim f (x) = l R, υπάρχει δ > 0

Γραµµικός Προγραµµατισµός - Μέθοδος Simplex

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΘΕΩΡΙΑ ΠΑΙΓΝΙΩΝ

ΚΕΦΑΛΑΙΟ 3: Συνθήκες Αλυσίδων

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

Μέθοδος μέγιστης πιθανοφάνειας

3 Αναδροµή και Επαγωγή

καθ. Βασίλης Μάγκλαρης

PROJECT ΣΤΟ ΜΑΘΗΜΑ ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΕΥΡΕΤΙΚΕΣ ΜΕΘΟ ΟΥΣ

2 o Καλοκαιρινό σχολείο Μαθηµατικών Νάουσα 2008

ΣΗΜΕΙΩΣΕΙΣ ΥΝΑΜΙΚΟΥ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ

Στοχαστικές Ανελίξεις (3) Αγγελική Αλεξίου

1 Το ϑεώρηµα του Rademacher

ΚΕΦΑΛΑΙΟ 2 ΜΗ ΓΡΑΜΜΙΚΕΣ ΕΞΙΣΩΣΕΙΣ

Οι πραγµατικοί αριθµοί

Κεφάλαιο 6. Πεπερασµένα παραγόµενες αβελιανές οµάδες. Z 4 = 1 και Z 2 Z 2.

ΛΥΜΕΝΕΣ ΑΣΚΗΣΕΙΣ ΣΤΙΣ ΣΥΝΑΡΤΗΣΕΙΣ

Βασική Εφικτή Λύση. Βασική Εφικτή Λύση

Υπόδειξη. (α) Άµεσο αφού κάθε υποσύνολο µηδενικού συνόλου είναι µετρήσιµο.

Παράρτηµα Α. Στοιχεία θεωρίας µέτρου και ολοκλήρωσης.

Αλγόριθµοι και Πολυπλοκότητα

Γενικές Παρατηρήσεις. Μη Κανονικές Γλώσσες - Χωρίς Συµφραζόµενα (1) Το Λήµµα της Αντλησης. Χρήση του Λήµµατος Αντλησης.

Συνεκτικά σύνολα. R είναι συνεκτικά σύνολα.

f x = f a + Df a x a + R1 x, a, x U και από τον ορισµό της 1 h f a h f a h a h h a R h a i i j

Ασκήσεις για το µάθηµα «Ανάλυση Ι και Εφαρµογές»

όπου D(f ) = (, 0) (0, + ) = R {0}. Είναι Σχήµα 10: Η γραφική παράσταση της συνάρτησης f (x) = 1/x.

Επιπλέον Ασκήσεις. Μαθηµατική Επαγωγή. ιαιρετότητα. Προβλήµατα ιαιρετότητας.

14 Εφαρµογές των ολοκληρωµάτων

Κρυπτογραφία και Πολυπλοκότητα

ΓΡΑΜΜΙΚΗ ΑΛΓΕΒΡΑ Ι (ΠΕΡΙΤΤΟΙ) Λυσεις Ασκησεων - Φυλλαδιο 2

ιοίκηση Παραγωγής και Υπηρεσιών

Ανοικτά και κλειστά σύνολα

Η προσδοκώµενη χρησιµότητα του κέρδους όταν η πιθανότητα η τιµή του προϊόντος Ρ1 είναι ψ, χ το επίπεδο παραγωγής και c(x) η συνάρτηση κόστους, είναι

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

Αλγόριθµοι και Πολυπλοκότητα

Μαθηµατική Επαγωγή. Ορέστης Τελέλης. Τµήµα Ψηφιακών Συστηµάτων, Πανεπιστήµιο Πειραιώς

Συνεκτικά σύνολα. R είναι συνεκτικά σύνολα.

P (M = n T = t)µe µt dt. λ+µ

Μέθοδος μέγιστης πιθανοφάνειας

2 Αποδείξεις. 2.1 Εξαντλητική µέθοδος. Εκδοση 2005/03/22. Υπάρχουν πολλών ειδών αποδείξεις. Εδώ ϑα δούµε τις πιο κοινές:

Αριθµητική Ολοκλήρωση

ΜΙΓΑ ΙΚΟΣ ΛΟΓΙΣΜΟΣ ΚΑΙ ΟΛΟΚΛ. ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΙ ΓΡΑΠΤΕΣ ΕΞΕΤΑΣΕΙΣ ΣΕΠΤΕΜΒΡΙΟΥ 2010 ΛΥΣΕΙΣ ΤΩΝ ΘΕΜΑΤΩΝ

ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ

ΘΕΑΝΩ ΕΡΙΦΥΛΗ ΜΟΣΧΟΝΑ ΣΥΜΠΛΗΡΩΜΑΤΙΚΕΣ ΣΗΜΕΙΩΣΕΙΣ ΤΟΥ ΜΑΘΗΜΑΤΟΣ ΕΠΙΧΕΙΡΗΣΙΑΚΗ ΕΡΕΥΝΑ

Η ΘΕΩΡΙΑ ΤΗΣ ΕΠΙΧΕΙΡΗΣΗΣ

Κεφάλαιο 6. Εισαγωγή στη µέθοδο πεπερασµένων όγκων επίλυση ελλειπτικών και παραβολικών διαφορικών εξισώσεων

11 Το ολοκλήρωµα Riemann

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

a 1d L(A) = {m 1 a m d a d : m i Z} a 11 a A = M B, B = N A, k=1

ΕΕ728 Προχωρηµένα Θέµατα Θεωρίας Πληροφορίας 12η διάλεξη

Αριθμητική Ανάλυση και Εφαρμογές

MEΤΑΣΧΗΜΑΤΙΣΜΟΙ ΤΗΣ ΜΟΡΦΗΣ Y= g( X1, X2,..., Xn)

Αριθμητική Ανάλυση και Εφαρμογές

Transcript:

ΚΕΦΑΛΑΙΟ : ΣΤΟΧΑΣΤΙΚΟΣ ΥΝΑΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΓΙΑ ΜΟΝΤΕΛΑ ΠΕΠΕΡΑΣΜΕΝΟΥ ΧΡΟΝΙΚΟΥ ΟΡΙΖΟΝΤΑ. Εισαγωγή Στις αρχές του ου αιώνα ο Ρώσος Μαθηµατικός A. A. Markov στην προσπάθειά του να ερµηνεύσει την «αβεβαιότητα» στην εναλλαγή φωνηέντων και συµφώνων γραµµάτων στο ποίηµα «Onegn» του Pushkn εισήγαγε τη θεωρία των Μαρκοβιανών διαδικασιών. Ο Bellman, το 957 εισήγαγε τη θεωρία του δυναµικού προγραµµατισµού. Ανέπτυξε µία αναδροµική διαδικασία η οποία υπολογίζει βέλτιστες τιµές συναρτήσεων κέρδους ή κόστους µέσω µιας κατάλληλης συναρτησιακής εξίσωσης. Ο δυναµικός προγραµµατισµός χρησιµοποιείται σε προβλήµατα πεπερασµένου ή άπειρου χρονικού ορίζοντα στα οποία µία στοχαστική διαδικασία ελέγχεται από µία ακολουθία ενεργειών. Ο κύριος στόχος είναι η εύρεση ενός κανόνα επιλογής των ενεργειών που ελέγχει τη διαδικασία µε το βέλτιστο τρόπο. Οι Μαρκοβιανές διαδικασίες αποφάσεων εισήχθησαν από τον Bellman και ήταν αποτέλεσµα του συνδυασµού της θεωρίας των Μαρκοβιανών διαδικασιών και του δυναµικού προγραµµατισµού. Κατά τη διάρκεια των τελευταίων τεσσάρων δεκαετιών αποτελούν το αντικείµενο της έρευνας πολλών ερευνητών. Έχουν βρει εφαρµογή σε διάφορα πεδία της επιστήµης, όπως για παράδειγµα στην Επιχειρησιακή Έρευνα, στη Βιολογία, στην Οικολογία και στην Πληροφορική. Ειδικότερα, έχουν αποδειχθεί πολύ χρήσιµες σε προβλήµατα βέλτιστου ελέγχου αποθεµάτων, βέλτιστου ελέγχου ουρών αναµονής και βιολογικών πληθυσµών, βέλτιστης συντήρησης και αντικατάστασης µηχανηµάτων, βέλτιστης διαχείρισης δικτύων και τηλεπικοινωνιών. Θερούµε συστήµατα τα οποία εξελίσσονται στην πορεία του χρόνου και έχουν ως κύριο χαρακτηριστικό της εξέλιξής τους, την «τυχαιότητα». Τέτοια συστήµατα καλούνται στοχαστικά δυναµικά συστήµατα (stochastc dynamc systems). Στο παρόν κεφάλαιο θα παρουσιάσουµε βασικά στοιχεία της θεωρίας του στοχαστικού δυναµικού προγραµµατισµού εισάγοντας τις Μαρκοβιανές διαδικασίες αποφάσεων σε διακριτό χρόνο. Θα περιγράψουµε και θα αναλύσουµε διάφορα µοντέλα σε προβλήµατα πεπερασµένου χρονικού ορίζοντα.. Μαρκοβιανές διαδικασίες αποφάσεων σε διακριτό χρόνο Έστω µία στοχαστική διαδικασία X n, n,,,... όπου η τυχαία µεταβλητή X n αναπαριστά την κατάσταση ενός συστήµατος τη χρονική στιγµή n. Το σύνολο των καταστάσεων του συστήµατος είναι πεπερασµένο ή άπειρο αριθµήσιµο. Υποθέτουµε ότι είναι το σύνολο των µη-αρνητικών ακεραίων αριθµών,,,... Το σύστηµα επιθεωρείται τις χρονικές στιγµές t,,,... οι οποίες θεωρούµε ότι ισαπέχουν µεταξύ τους. Η κατάσταση του συστήµατος παρατηρείται σε κάθε χρονική στιγµή επιθεώρησης και µία ενέργεια επιλέγεται από ένα σύνολο εναλλακτικών ενεργειών. Αν υπάρχει ένας σταθερός ακέραιος αριθµός N τέτοιος ώστε οι ενέργειες για τον έλεγχο του συστήµατος να επιλέγονται τις χρονικές στιγµές 7

,,,..., N και η διαδικασία σταµατά τη χρονική στιγµή N, τότε λέµε ότι µελετάµε ένα σύστηµα πεπερασµένου χρονικού ορίζοντα N βηµάτων. ιαφορετικά, αν το σύνολο των χρονικών στιγµών επιλογής ενέργειας είναι άπειρο, λέµε ότι µελετάµε ένα σύστηµα σε άπειρο χρονικό ορίζοντα. Στο παρόν κεφάλαιο, θα περιορίσουµε τη µελέτη µας, σε συστήµατα πεπερασµένου χρονικού ορίζοντα. Έστω ότι παρατηρούµε την εν εξελίξει στοχαστική διαδικασία X n, n,,, K, κατά τις χρονικές στιγµές t, t, K, t N, t N. Έστω ότι σε κάποια χρονική στιγµή επιθεώρησης t, το σύστηµα βρίσκεται στην κατάσταση και η ενέργεια a επιλέγεται από ένα σύνολο εναλλακτικών ενεργειών A (). Υποθέτουµε ότι το σύνολο A () για κάθε κατάσταση είναι πεπερασµένο. Το σύστηµα που περιγράψαµε είναι µία Μαρκοβιανή διαδικασία αποφάσεων σε διακριτό χρόνο (Markov decson process n dscrete tme), αν: (α) Υπάρχει ένα κόστος C (, a) το οποίο εξαρτάται µόνον από την κατάσταση και την ενέργεια a ως οικονοµική συνέπεια της επιλογής της ενέργειας a τη χρονική στιγµή κατά την οποία το σύστηµα βρίσκεται στην κατάσταση. (β) Την επόµενη χρονική στιγµή η κατάσταση του συστήµατος είναι η κατάσταση j µε πιθανότητα p j (a) η οποία εξαρτάται µόνον από την ενέργεια a και τις καταστάσεις και j. Ο όρος «Μαρκοβιανή» δικαιολογείται από το γεγονός ότι το κόστος C (, a) και η πιθανότητα µετάβασης p j (a) εξαρτώνται από το «παρελθόν» της διαδικασίας µόνο µέσω της τρέχουσας κατάστασης της διαδικασίας και της ενέργειας a που επιλέγεται στην κατάσταση. Μία πολιτική π είναι ένας κανόνας µε τον οποίον επιλέγονται οι ενέργειες κατά τις χρονικές στιγµές n,,,... Υπάρχουν διάφορα είδη πολιτικών. Η ταξινόµησή τους εξαρτάται από το αν είναι ή όχι «τυχαιοποιηµένες» καθώς και από το αν εξαρτώνται από την «ιστορία» της διαδικασίας. Με τον όρο «τυχαιοποιηµένη» θεωρούµε εκείνη την πολιτική σύµφωνα µε την οποία, όταν η διαδικασία βρίσκεται στην κατάσταση, µία ενέργεια a επιλέγεται µε πιθανότητα P, a A(), σε κάποια χρονική στιγµή επιλογής των ενεργειών. Ιδιαίτερο ενδιαφέρον, λόγω της απλότητας του ορισµού τους, παρουσιάζουν οι στάσιµες πολιτικές. Μία στάσιµη πολιτική (statonary polcy) είναι µία πολιτική σύµφωνα µε την οποία η επιλογή µιας ενέργειας σε κάθε χρονική στιγµή t,,,... εξαρτάται µόνον από την κατάσταση της διαδικασίας σ αυτή τη χρονική στιγµή. Εποµένως µία στάσιµη πολιτική καθορίζεται πλήρως από µία ακολουθία { },,,,... όπου A() είναι η ενέργεια που επιλέγεται οποτεδήποτε η διαδικασία βρίσκεται στην κατάσταση σε µία χρονική στιγµή επιλογής ενέργειας. Tο πρόβληµα που µας απασχολεί είναι η εύρεση της πολιτικής η οποία, για κάθε αρχική κατάσταση της διαδικασίας, ελαχιστοποιεί µία προκαθορισµένη συνάρτηση κόστους. Η συνάρτηση του κόστους ορίζει το κριτήριο βελτιστοποίησης (optmalty crteron) του προβλήµατος. Τα κριτήρια βελτιστοποίησης τα οποία 8 a

χρησιµοποιούνται πιο συχνά είναι η ελαχιστοποίηση του συνολικού αναµενόµενου (αποπληθωρισµένου) κόστους και η ελαχιστοποίηση του µακροπρόθεσµου αναµενόµενου µέσου κόστους ανά µονάδα χρόνου. Στο επόµενο εδάφιο θα ασχοληθούµε µε µοντέλα πεπερασµένου χρονικού ορίζοντα χρησιµοποιώντας το κριτήριο της ελαχιστοποίησης του συνολικού αναµενόµενου κόστους.. Μοντέλα πεπερασµένου χρονικού ορίζοντα Έστω ότι παρατηρούµε και επιθεωρούµε ένα σύστηµα κατά τις χρονικές στιγµές t, t, K, t N, t N. Υποθέτουµε ότι, αν σε κάποια χρονική στιγµή το σύστηµα βρίσκεται, για παράδειγµα, στην κατάσταση, µπορούµε να επιλέξουµε µία ενέργεια (ή απόφαση) a A() και ότι, υπό την επίδραση αυτής της ενέργειας, η κατάσταση της διαδικασίας την επόµενη χρονική στιγµή επιθεώρησής του είναι η κατάσταση j µε πιθανότητα p j (a). Αυτή η µετάβαση επιφέρει ένα κόστος, η µέση (αναµενόµενη) τιµή του οποίου είναι ίση µε C (, a). Για κάθε κατάσταση, το σύνολο A () των ενεργειών (ή αποφάσεων) θεωρείται πεπερασµένο. Το πρόβληµα που µας ενδιαφέρει είναι να βρούµε την πολιτική, δηλαδή έναν κανόνα επιλογής ενεργειών, που ελαχιστοποιεί το αναµενόµενο κόστος το οποίο λαµβάνεται από τη χρονική στιγµή t µέχρι τη χρονική στιγµή t N. Έστω V (, t), t, K, N, το ελάχιστο κόστος από τη χρονική στιγµή t µέχρι τη χρονική στιγµή N, αν το σύστηµα κατά τη χρονική στιγµή t βρίσκεται στην κατάσταση. Αν t N, προφανώς ισχύει ότι: V (, N). Αν t N, V (, N ) mn C(, a) () a A( ) δηλαδή, τη χρονική στιγµή t N, η βέλτιστη πολιτική επιλέγει εκείνη την ενέργεια που ελαχιστοποιεί το δεξιό µέλος της (). Έστω ότι τη χρονική στιγµή t το σύστηµα βρίσκεται στην κατάσταση και επιλέγεται η ενέργεια a. Τότε λαµβάνουµε ένα κόστος C (, a) και η επόµενη κατάσταση είναι η κατάσταση j µε πιθανότητα p j (a). Το καλύτερο που µπορούµε να πετύχουµε υπό την έννοια του αναµενόµενου κόστους αν τη χρονική στιγµή t επιλέξουµε την ενέργεια a είναι ίσο µε: C (, a) + p ( a) V ( j, t + ). Εφόσον V (, t) είναι ό,τι καλύτερο µπορούµε να πετύχουµε, ισχύει ότι: j j V (, t) mn C(, a) + pj ( a) V ( j, t + ) a A( ) j () 9

Η εξίσωση () είναι γνωστή ως εξίσωση δυναµικού προγραµµατισµού (dynamc programmng euaton) ή εξίσωση βελτιστοποίησης και παρέχει µία µέθοδο για τον υπολογισµό του V (,) αναγωγικά. Καταρχήν υπολογίζουµε την ποσότητα V (, N ) από τη σχέση (). Κατόπιν, θέτοντας t N στην () υπολογίζουµε την ποσότητα V (, N ) και συνεχίζοντας την ίδια διαδικασία N φορές βρίσκουµε την ποσότητα V (,). Η βέλτιστη πολιτική (optmal polcy) είναι η ακόλουθη: Όταν η διαδικασία βρίσκεται τη χρονική στιγµή t N, N, K, στην κατάσταση, τότε επιλέγεται η ενέργεια που µεγιστοποιεί το δεξιό µέλος της (). Ο παραπάνω ισχυρισµός µπορεί να αποδειχθεί µε επαγωγή ως προς t (Βλέπε Βιβλίο [6], σελ. 36, Θεώρηµα 3..). Παρατηρήσεις. () Αντί για αναµενόµενο κόστος C (, a) µπορούµε να έχουµε αναµενόµενο κέρδος R (, a). Σε αυτή την περίπτωση µας ενδιαφέρει η εύρεση της πολιτικής που µεγιστοποιεί το συνολικό αναµενόµενο κέρδος. Τότε η εξίσωση του δυναµικού προγραµµατισµού παίρνει τη µορφή: V (, t) max R(, a) + pj ( a) V ( j, t + ). a A( ) j () Έστω V k (), k, K, N, το ελάχιστο αναµενόµενο κόστος (ή µέγιστο αναµενόµενο κέρδος) αν η διαδικασία βρίσκεται στην κατάσταση και αποµένουν k βήµατα ( k χρονικές περίοδοι) µέχρι τη χρονική στιγµή N. Οι εξισώσεις δυναµικού προγραµµατισµού παίρνουν την εξής µορφή: V k ( ) mn C(, a) + pj ( a) Vk ( j), k, K, N µε V ( ) a A( ) j και V k ( ) max R(, a) + pj ( a) Vk ( j), k, K, N µε V ( ). a A( ) j () Για κάθε κατάσταση, Το σύνολο των ενεργειών A (), µπορεί να είναι άπειρο. (v) Πολλές φορές η «επόµενη κατάσταση» j δεν εξαρτάται από την πιθανότητα p j (a) αλλά από µία συνάρτηση πυκνότητας (. (v) Η εύρεση της βέλτιστης πολιτικής λύνοντας αναγωγικά την εξίσωση του δυναµικού προγραµµατισµού συχνά απαιτεί πολλούς υπολογισµούς. Πολλές φορές όµως µπορούµε να βρούµε µία συγκεκριµένη έκφραση 3

του V (, t) (ή ισοδύναµα του V k ()) ή να δείξουµε χρησιµοποιώντας την εξίσωση του δυναµικού προγραµµατισµού ότι η βέλτιστη πολιτική έχει µία συγκεκριµένη µορφή. (v) Το µοντέλο που περιγράψαµε είναι στοχαστικό. Αν για κάθε κατάσταση και ενέργεια a ισχύει ότι p j ( a) για j j και p j ( a) για µία δεδοµένη κατάσταση j τότε το µοντέλο γίνεται ντετερµινιστικό..3 Παραδείγµατα µοντέλων πεπερασµένου χρονικού ορίζοντα Στο παρόν εδάφιο θα παραθέσουµε µερικά παραδείγµατα µοντέλων πεπερασµένου χρονικού ορίζοντα. Παράδειγµα (Ένα µοντέλο σχετιζόµενο µε ένα τυχερό παιχνίδι). Ένας παίκτης µπορεί να στοιχηµατίσει οποιαδήποτε µη-αρνητική ποσότητα από την περιουσία του και κερδίζει ή χάνει αυτήν την ποσότητα µε πιθανότητες p και p, αντίστοιχα. Ο παίκτης έχει δικαίωµα να στοιχηµατίσει n φορές και ο στόχος του είναι να µεγιστοποιήσει την αναµενόµενη τιµή του λογαρίθµου της τελικής περιουσίας του. Το πρόβληµα είναι η εύρεση της βέλτιστης στρατηγικής (πολιτικής) που πρέπει να ακολουθήσει. Λύση. Έστω V n ( η µέγιστη αναµενόµενη τιµή του λογαρίθµου της τελικής περιουσίας του παίκτη, αν η παρούσα περιουσία του είναι ίση µε x και έχει δικαίωµα να πάρει µέρος σε n στοιχήµατα. Ως ενέργεια του παίκτη θεωρούµε το κλάσµα (ποσοστό) της περιουσίας που στοιχηµατίζει. Η εξίσωση δυναµικού προγραµµατσιµού είναι: Vn ( max[ pvn ( x+ α + Vn ( x α] α µε οριακή συνθήκη: V ( log(. Αν p, τότε V ( log( n και η βέλτιστη στρατηγική (πολιτική) είναι ο παίκτης να στοιχηµατίζει πάντοτε µηδέν ευρώ. Θα δείξουµε τον ισχυρισµό επαγωγικά. Προφανώς για n ισχύει. Έστω ότι V n ( log(. Τότε: V n ( max[ p log( x(+ α)) + log( x( α ))] log( + max[ p log(+ α) + log( α )] (3) α α p α Έστω ( α) p log(+ α) + log( α ). Είναι '( α). Άρα η (α ) είναι φθίνουσα ως ( α )(+ α) προς α στο διάστηµα [, ]. Εποµένως η µέγιστη τιµή της (α ) επιτυγχάνεται όταν α και συνεπώς 3

V n ( log(. Έστω ότι p >. Χρησιµοποιούµε τη σχέση V ( ) log( ) x x και από την (3) για n, έχουµε: V ( log( + max[ p log(+ α) + log( )] (4) α α Αν χρησιµοποιήσουµε Απειροστικό Λογισµό συµπεραίνουµε ότι η µέγιστη τιµή στην (4) επιτυγχάνεται όταν α p. Έτσι V ( C + log( ), όπου C log + p log( p) + log( ). Από την (3) για n, έχουµε: x V ( max[ p log( x+ α + log( x α] + C. α Συγκρίνοντας την παραπάνω εξίσωση µε την (4) βλέπουµε ότι η βέλτιστη ενέργεια που πρέπει να επιλέξει ο παίκτης είναι να στοιχηµατίσει πάλι ( p )% της τελικής περιουσίας του. Προκύπτει ότι: V ( C + log(. Επαγωγικά, µπορεί να δειχτεί ότι: V n ( nc + log(. Η βέλτιστη στρατηγική (πολιτική) που θα πρέπει να ακολουθήσει ο παίκτης είναι να στοιχηµατίζει πάντοτε ( p )% της περιουσίας (αυτής που διαθέτει κάθε φορά). Παράδειγµα (Ένα µοντέλο για την αγορά µιας µετοχής). Έστω κατά την k + k+ k k+ + S k η τιµή µιας συγκεκριµένης µετοχής k οστή µέρα, k. Υποθέτουµε ότι S S + X S X, όπου X,, K είναι ανεξάρτητες και ισόνοµες τυχαίες µεταβλητές µε συνάρτηση πυκνότητας πιθανότητας ( και µε πεπερασµένη µέση τιµή. Θεωρούµε ότι οι τυχαίες µεταβλητές X X,, K είναι επίσης ανεξάρτητες της S, δηλαδή της αρχικής τιµής της µετοχής. Το µοντέλο αυτό είναι γνωστό ως τυχαίος περίπατος για τις τιµές µιας µετοχής. Υποθέτουµε ότι έχουµε τη δυνατότητα να αγοράσουµε τη µετοχή σε µία σταθερή τιµή c και µπορούµε να κάνουµε αυτήν την αγορά οποιαδήποτε µέρα εντός ενός διαστήµατος N ηµερών. εν είναι υποχρεωτικό να αγοράσουµε τη µετοχή αλλά αν την αγοράσουµε όταν η τιµή της είναι s, τότε το κέρδος είναι ίσο µε s c. Ποια πολιτική (στρατηγική) µεγιστοποιεί το αναµενόµενο κέρδος; X 3

Λύση. Έστω V n (s) το µέγιστο αναµενόµενο κέρδος όταν η παρούσα τιµή της µετοχής είναι s και αποµένουν n µέρες για την αγορά της µετοχής. Η εξίσωση δυναµικού προγραµµατισµού είναι: Vn ( s) max s c, Vn ( s+ ( dx, n (5) µε οριακή συνθήκη V ( s) max[ s c, ]. εν υπάρχει τρόπος να βρούµε µία απλή έκφραση για το V n (s). Όµως µπορούµε να δείξουµε ότι το (s) ικανοποιεί µία απλή ιδιότητα που θα µας βοηθήσει να βρούµε τη µορφή της βέλτιστης πολιτικής. V n ΙΣΧΥΡΙΣΜΟΣ: Ισχύει ότι η έκφραση V n ( s) s είναι φθίνουσα ως προς s. Η απόδειξη του ισχυρισµού θα γίνει µε επαγωγή ως προς n. Είναι φανερό ότι η έκφραση φθίνουσα ως προς s. Από την (5) έχουµε: V ( s) s είναι Vn ( s) s max c, [ Vn ( s+ ( s+ ] ( dx+ µ, όπου µ E[ X ] x ( dx. Από την επαγωγική υπόθεση, η έκφραση V n ( s+ ( s+ είναι, για κάθε x, φθίνουσα ως προς s. Εποµένως η έκφραση V n ( s) s είναι φθίνουσα ως προς s. Θεώρηµα. Η βέλτιστη πολιτική έχει την εξής µορφή: Υπάρχει µία αύξουσα ακολουθία s K sn K τέτοια ώστε, αν αποµένουν n µέρες και η παρούσα τιµή της µετοχής είναι s, τότε πρέπει να αγοράσουµε την µετοχή αν και µόνο αν s s n. Απόδειξη. Αν η τιµή της µετοχής είναι s και αποµένουν n µέρες για την αγορά της µετοχής, από την (5), συµπεραίνουµε ότι πρέπει να αγοράσουµε την µετοχή, αν ( s) s c. Έστω s mn{ s : V ( s) s c}. Εφόσον V n 33 V n ( s) s είναι µία φθίνουσα συνάρτηση ως προς s για s sn έχουµε Vn ( s) s Vn ( sn ) sn c. Άρα ( s) s c. Συνεπώς σύµφωνα µε τη βέλτιστη πολιτική πρέπει να αγοράσουµε τη µετοχή αν και V n µόνο αν s s n. Για να δείξουµε ότι η ακολουθία { n} n,, K s είναι αύξουσα ως προς n αρκεί να δείξουµε ότι n n

η έκφραση V n (s) είναι αύξουσα ως προς n. Αυτό ισχύει διότι όσο αυξάνει ο χρονικός ορίζοντας αυξάνει και το αναµενόµενο ολικό κέρδος. Παράδειγµα 3 (Βέλτιστος έλεγχος επιδηµικών διαδικασιών). Έστω ένας πληθυσµός ατόµων τα οποία είναι δυνατόν να προσβληθούν από δύο µεταδοτικές ασθένειες. Υποθέτουµε ότι το συνολικό µέγεθος του πληθυσµού είναι ίσο µε N και ότι το πολύ ένα άτοµο µπορεί να προσβληθεί από µία από τις δύο ασθένειες. Θεωρούµε ότι οι δύο ασθένειες είναι ανταγωνιζόµενες υπό την έννοια ότι αν ένα άτοµο προσβληθεί από την ασθένεια r ( r, ), παραµένει προσβεβληµένο από αυτήν την ασθένεια και δεν µπορεί να προσβληθεί από την άλλη. Η µετάδοση των ασθενειών σταµατά όταν ο συνολικός αριθµός των ατόµων που έχουν προσβληθεί από τις ασθένειες και γίνει ίσος µε N, το οποίο θεωρούµε ότι σχεδόν σίγουρα θα συµβεί σε πεπερασµένο χρόνο. Οι µεταβάσεις της επιδηµικής διαδικασίας είναι: α cx ( x, y) ( x+, y) µε πιθανότητα, α β c x + c y (6) β c y ( x, y) ( x, y+ ) µε πιθανότητα, α β c x + c y (7) όπου, c, c,α, β θετικές σταθερές. Η µεταβλητή x αναπαριστά τον αριθµό των ατόµων που έχουν προσβληθεί από την ασθένεια και η µεταβλητή y αναπαριστά τον αριθµό των ατόµων που έχουν προσβληθεί από την ασθένεια. Στους θετικούς πραγµατικούς αριθµούς α και β µπορούµε να αποδώσουµε τον όρο «µολυσµατική ισχύς» των ασθενειών και, αντίστοιχα, και να τον δικαιολογήσουµε ως εξής. Αν η εξάπλωση µιας µεταδοτικής ασθένειας σε έναν πληθυσµό επιδεκτικών ατόµων εξαρτάται περισσότερο από το κατά πόσο ένα επιδεκτικό άτοµο είναι επιρρεπές στην ασθένεια και λιγότερο από το κατά πόσο ένα άτοµο που έχει προσβληθεί από την ασθένεια µπορεί να τη µεταδώσει στον υπόλοιπο πληθυσµό, τότε ο ρυθµός µε τον οποίο νέα άτοµα θα προσβληθούν από την ασθένεια δεν εξαρτάται ιδιαίτερα από τον αριθµό των ατόµων που ήδη έχουν προσβληθεί από την ασθένεια. Σε αυτή την περίπτωση µπορούµε να θεωρήσουµε ότι η µολυσµατική ισχύς των ασθενειών και είναι µικρή και οι θετικοί πραγµατικοί αριθµοί α και β παίρνουν τιµές κοντά στο µηδέν. Στην αντίθετη περίπτωση κατά την οποία, η µολυσµατική ισχύς των ασθενειών και είναι µεγάλη, µπορούµε να θεωρήσουµε ότι οι παράµετροι α και β παίρνουν τιµές µεγαλύτερες της µονάδας. Σε αυτή την περίπτωση οι επιδηµίες εξαπλώνονται στον πληθυσµό µε πολύ γρήγορους ρυθµούς. 34

Έστω ότι η ασθένεια προξενεί σοβαρά συµπτώµατα σε ένα άτοµο που έχει προσβληθεί από αυτήν και µειώνει την παραγωγικότητά του. Η παρουσία ενός ατόµου που έχει προσβληθεί από την ασθένεια επιφέρει κάποιο κόστος στην κοινωνία το οποίο θεωρούµε ότι είναι σταθερό και ίσο µε τη µονάδα. Υποθέτουµε ότι η ασθένεια, σε σύγκριση µε την ασθένεια, είναι λιγότερο επιβλαβής για ένα άτοµο που έχει προσβληθεί από αυτήν. Θεωρούµε ότι η παρουσία ενός ατόµου που έχει προσβληθεί από την ασθένεια δεν επιφέρει κανένα κόστος στην κοινωνία. Ο έλεγχος της επιδηµικής διαδικασίας σε κάθε χρονική στιγµή µπορεί να πραγµατοποιηθεί µε την επιλογή µιας ενέργειας. Θεωρούµε ότι µία ενέργεια, η οποία µπορεί να ελέγξει τη διαδικασία σε κάθε χρονική στιγµή, είναι ο εµβολιασµός µε την ήπια ασθένεια οποιουδήποτε αριθµού επιδεκτικών ατόµων έχουν αποµείνει στον πληθυσµό και δεν έχουν προσβληθεί από καµία από τις δύο ασθένειες. Θεωρούµε ότι ο εµβολιασµός ενός ατόµου µε την ήπια ασθένεια επιφέρει ένα κόστος το οποίο είναι ίσο µε K >. Μία άλλη ενέργεια η οποία επίσης θεωρούµε ότι µπορεί να ελέγξει την επιδηµική διαδικασία σε κάθε χρονική στιγµή είναι η αποµόνωση κάποιων ή όλων των ατόµων που έχουν προσβληθεί από τη σοβαρή ασθένεια. Υποθέτουµε ότι η αποµόνωση ενός ατόµου που έχει προσβληθεί από τη σοβαρή ασθένεια επιφέρει ένα κόστος το οποίο είναι ίσο µε L >. Μας απασχολεί το πρόβληµα της εύρεσης εκείνης της πολιτικής η οποία, για οποιαδήποτε αρχική κατάσταση της επιδηµικής διαδικασίας, ελαχιστοποιεί το συνολικό αναµενόµενο κόστος. Επειδή η διαδικασία θεωρούµε ότι σταµατά όταν ο συνολικός αριθµός των ατόµων που έχουν προσβληθεί από τις ασθένειες και γίνει ίσος µε N, το πρόβληµα της εύρεσης της βέλτιστης πολιτικής είναι ένα πρόβληµα πεπερασµένου χρονικού ορίζοντα. Η επιδηµική διαδικασία που περιγράψαµε βρίσκει πιθανή εφαρµογή στην περίπτωση της γνωστής ασθένειας του νωτιαίου µυελού, πολιοµυελίτιδας. Η ασθένεια µπορεί να θεωρηθεί ότι είναι η σοβαρή µορφή της πολιοµυελίτιδας ενώ η ασθένεια µπορεί να θεωρηθεί ότι είναι η ήπια µορφή της. Στην επιδηµική διαδικασία µπορεί επίσης να αποδοθεί η ακόλουθη οικολογική ερµηνεία. Θεωρούµε δύο είδη ζωντανών οργανισµών τα οποία αναπτύσσονται σε ένα βιότοπο που έχει µέγιστη χωρητικότητα ίση µε N. Το είδος θεωρούµε ότι είναι ένα παράσιτο, η παρουσία του οποίου είναι βλαβερή. Η παρουσία ενός παρασίτου επιφέρει κάποιο κόστος το οποίο είναι σταθερό και ίσο µε τη µονάδα. Το είδος θεωρούµε ότι είναι ένα ήπιο είδος, η παρουσία του οποίου είναι ακίνδυνη. Η παρουσία ενός ήπιου είδους δεν επιφέρει κανένα κόστος. Θεωρούµε πολιτικές οι οποίες σε κάθε χρονική στιγµή ελέγχουν την ανάπτυξη των ζωντανών οργανισµών στο βιότοπο είτε µε τη σκόπιµη εισαγωγή ήπιων ειδών είτε µε την αποµόνωση ή την αποµάκρυνση από το βιότοπο οποιουδήποτε αριθµού παρασίτων. Η σκόπιµη εισαγωγή ενός ήπιου είδους επιφέρει ένα κόστος ίσο µε K > ενώ η αποµόνωση ή η αποµάκρυνση ενός παρασίτου επιφέρει ένα κόστος ίσο µε L >. Για την επιδηµική διαδικασία θεωρούµε τα παρακάτω δύο προβλήµατα βελτιστοποίησης. 35

Πρόβληµα. Εύρεση εκείνης της πολιτικής η οποία, για οποιαδήποτε αρχική κατάσταση της διαδικασίας, ελαχιστοποιεί το συνολικό αναµενόµενο κόστος, αν η διαδικασία σε κάθε χρονική στιγµή είναι δυνατόν να ελεγχθεί µέσω του εµβολιασµού µε την ήπια ασθένεια οποιουδήποτε αριθµού επιδεκτικών ατόµων έχουν αποµείνει στον πληθυσµό και δεν έχουν προσβληθεί από καµία από τις δύο ασθένειες. Πρόβληµα. Εύρεση εκείνης της πολιτικής η οποία, για οποιαδήποτε αρχική κατάσταση της διαδικασίας, ελαχιστοποιεί το συνολικό αναµενόµενο κόστος, αν η διαδικασία σε κάθε χρονική στιγµή είναι δυνατόν να ελεγχθεί µέσω της αποµόνωσης κανενός ή όλων των ατόµων που έχουν προσβληθεί από τη σοβαρή ασθένεια. Η κατάσταση της διδιάστατης στοχαστικής επιδηµικής διαδικασίας που περιγράψαµε µπορεί να αναπαρασταθεί σε κάθε χρονική στιγµή µε το ζεύγος των µεταβλητών ( x, y), όπου x, y N και < x+ y N. Πρόβληµα. Σε κάθε κατάσταση ( x, y) της διαδικασίας τέτοια ώστε x + y < N µπορούµε να επιλέξουµε µία από τις δύο παρακάτω ενέργειες: () να αφήσουµε τη διαδικασία να µεταβεί στις καταστάσεις ( x+, y) και ( x, y + ), σύµφωνα µε τον τυχαίο περίπατο µε πιθανότητες οι οποίες δίνονται από τις (6), (7) και κόστος ίσο µε και, αντίστοιχα, ή () να εµβολιάσουµε µε την ήπια ασθένεια και µε κόστος ίσο µε K ένα από τα επιδεκτικά άτοµα που έχουν αποµείνει στον πληθυσµό και δεν έχουν προσβληθεί από καµία από τις δύο ασθένειες. Για κάθε κατάσταση ( x, y) της επιδηµικής διαδικασίας, έστω V ( x, y) το ελάχιστο αναµενόµενο κόστος και W ( x, y) το ελάχιστο αναµενόµενο κόστος όταν η διαδικασία πραγµατοποιήσει µία µετάβαση σύµφωνα µε τις πιθανότητες οι οποίες δίνονται από τις (6), (7) και στη συνέχεια υιοθετηθεί η βέλτιστη πολιτική. Επειδή η διαδικασία σταµατά όταν x + y N, η εξίσωση βελτιστοποίησης για το πρόβληµα της ελαχιστοποίησης του συνολικού αναµενόµενου κόστους σε πεπερασµένο χρονικό ορίζοντα, παίρνει την ακόλουθη µορφή: V ( x, y) mn{ K + V ( x, y+ ), W ( x, y)}, < x + y < N, (8) όπου, α β cx c y W ( x, y) [+ V ( x+, y)] + V ( x, y+ ), α β α β c x + c y c x + c y < x + y < N, (9) 36

και V ( x, N, x N. () Όταν η διαδικασία βρίσκεται στην κατάσταση ( x, y) και ισχύει η ανισότητα K + V ( x, y+ ) < W ( x, y), τότε η βέλτιστη πολιτική επιλέγει την ενέργεια (), δηλαδή εµβολιάζει µε την ήπια ασθένεια ένα από τα επιδεκτικά άτοµα που έχουν αποµείνει στον πληθυσµό και δεν έχουν προσβληθεί από καµία από τις δύο ασθένειες. Στην περίπτωση αυτή η διαδικασία µεταβαίνει στην κατάσταση ( x, y + ). Όταν η διαδικασία βρίσκεται στην κατάσταση ( x, y) και ισχύει η ανισότητα W ( x, y) K + V ( x, y+ ), τότε η βέλτιστη πολιτική επιλέγει την ενέργεια (), δηλαδή δεν επεµβαίνει στην εξέλιξη της επιδηµικής διαδικασίας. Οι εξισώσεις (8)-() µας επιτρέπουν να υπολογίσουµε αριθµητικά το ελάχιστο αναµενόµενο κόστος V ( x, y) για κάθε κατάσταση ( x, y) της διαδικασίας για την οποία ισχύει ότι < x + y < N. Επιπλέον προσδιορίζουν την ενέργεια που επιλέγεται από τη βέλτιστη πολιτική για κάθε κατάσταση ( x, y), < x+ y < N. Το ελάχιστο αναµενόµενο κόστος υπολογίζεται διαδοχικά για τις καταστάσεις (, N ), (, N 3),..., ( N,), (, N 3),..., ( N,),..., (,), από τις εξισώσεις (8)-() µε αναδροµικό τρόπο. Ένα αριθµητικό παράδειγµα παρουσιάζεται παρακάτω. Θεωρούµε την περίπτωση κατά την οποία N, K, α, β, c.5, c. Η βέλτιστη πολιτική για αυτές τις τιµές των παραµέτρων παρουσιάζεται στο ακόλουθο Σχήµα, όπου για κάθε κατάσταση ( x, y) της διαδικασίας για την οποία ισχύει ότι < x + y 9, η ενέργεια () αναπαριστάται µε και η ενέργεια () αναπαριστάται µε. Στο σχήµα παρατηρούµε ότι δεν υπάρχει κανένα το οποίο βρίσκεται πάνω από ένα. 37

y 9 8 7 6 5 4 3 3 4 5 6 7 8 9 x Σχήµα. Η βέλτιστη πολιτική όταν N, K, α, β, c, c ) (,,,,.5, ). ( Πολλά αριθµητικά παραδείγµατα για διάφορες τιµές των παραµέτρων παρέχουν ισχυρή ένδειξη ότι η βέλτιστη πολιτική έχει πάντα αυτήν την ιδιότητα. Έτσι οδηγούµαστε στην ακόλουθη εικασία σχετικά µε τη µορφή της βέλτιστης πολιτικής. Εικασία για το Πρόβληµα. Για κάθε ακέραιο αριθµό x, < x < N, υπάρχουν δύο περιπτώσεις. Περίπτωση. Η βέλτιστη πολιτική δεν επεµβαίνει στην εξέλιξη της διαδικασίας σε όλες τις καταστάσεις ( x, y) για τις οποίες ισχύει ότι y < N x. Περίπτωση. Υπάρχει ένας ακέραιος αριθµός y, y < N x, τέτοιος ώστε η βέλτιστη πολιτική επιλέγει την ενέργεια () σε όλες τις καταστάσεις ( x, y) για τις οποίες ισχύει ότι y y και επιλέγει την ενέργεια (), δηλαδή δεν επεµβαίνει στην εξέλιξη της διαδικασίας, σε όλες τις καταστάσεις ( x, y) για τις οποίες ισχύει ότι y < y < N x. Στην Περίπτωση της παραπάνω εικασίας µπορούµε να θεωρήσουµε ότι η βέλτιστη πολιτική είναι µονότονη. Για κάθε κατάσταση ( x, y) της διαδικασίας η κρίσιµη τιµή y χαρακτηρίζει τη µονότονη µορφή της βέλτιστης πολιτικής. Πρόβληµα. Σε κάθε κατάσταση ( x, y) της διαδικασίας τέτοια ώστε x + y < N µπορούµε να επιλέξουµε µία από τις δύο παρακάτω ενέργειες: 38

() να αφήσουµε τη διαδικασία να µεταβεί στις καταστάσεις ( x+, y) και ( x, y + ), σύµφωνα µε τον τυχαίο περίπατο µε πιθανότητες οι οποίες δίνονται από τις (6), (7) και κόστος ίσο µε και, αντίστοιχα, ή () να αποµονώσουµε όλα τα άτοµα που έχουν προσβληθεί από τη σοβαρή ασθένεια µε κόστος ίσο µε Lx. Η εξίσωση βελτιστοποίησης παίρνει τώρα την ακόλουθη µορφή: V ( x, y) mn{ Lx, W ( x, y)}, < x + y < N. () Όταν η διαδικασία βρίσκεται στην κατάσταση ( x, y) και ισχύει η ανισότητα Lx < W ( x, y), τότε η βέλτιστη πολιτική επιλέγει την ενέργεια (), δηλαδή αποµονώνει τα x άτοµα που έχουν προσβληθεί από τη σοβαρή ασθένεια. Στην περίπτωση αυτή η διαδικασία µεταβαίνει στην κατάσταση (, y ). Όταν η διαδικασία βρίσκεται στην κατάσταση ( x, y) και ισχύει η ανισότητα W ( x, y) Lx, τότε η βέλτιστη πολιτική επιλέγει την ενέργεια (), δηλαδή δεν επεµβαίνει στην εξέλιξη της επιδηµικής διαδικασίας. Ένα αριθµητικό παράδειγµα παρουσιάζεται παρακάτω. Θεωρούµε την περίπτωση κατά την οποία N, L.6, α, β.5, c.8, c.. Η βέλτιστη πολιτική για αυτές τις τιµές των παραµέτρων παρουσιάζεται στο ακόλουθο Σχήµα, όπου για κάθε κατάσταση ( x, y) της διαδικασίας για την οποία ισχύει ότι < x + y 9, η ενέργεια () αναπαριστάται µε και η ενέργεια () αναπαριστάται µε. Στο σχήµα παρατηρούµε ότι δεν υπάρχει κανένα το οποίο βρίσκεται δεξιά από ένα. y 9 8 7 6 5 4 3 3 4 5 6 7 8 9 x Σχήµα. Η βέλτιστη πολιτική όταν N, L, α, β, c, c ) (,.6,,.5,.8,.). ( 39

Πολλά αριθµητικά παραδείγµατα για διάφορες τιµές των παραµέτρων παρέχουν ισχυρή ένδειξη ότι η βέλτιστη πολιτική έχει πάντα αυτήν την ιδιότητα. Έτσι οδηγούµαστε στην ακόλουθη εικασία σχετικά µε τη µορφή της βέλτιστης πολιτικής. Εικασία για το Πρόβληµα. Για κάθε ακέραιο αριθµό y, y < N, υπάρχουν δύο περιπτώσεις. Περίπτωση. Η βέλτιστη πολιτική δεν επεµβαίνει στην εξέλιξη της διαδικασίας σε όλες τις καταστάσεις ( x, y) για τις οποίες ισχύει ότι x < N y. Περίπτωση. Υπάρχει ένας ακέραιος αριθµός x, x < N y, τέτοιος ώστε η βέλτιστη πολιτική επιλέγει την ενέργεια () σε όλες τις καταστάσεις ( x, y) για τις οποίες ισχύει ότι x x και επιλέγει την ενέργεια (), δηλαδή δεν επεµβαίνει στην εξέλιξη της διαδικασίας, σε όλες τις καταστάσεις ( x, y) για τις οποίες ισχύει ότι x < x < N y. Στην Περίπτωση της παραπάνω εικασίας µπορούµε να θεωρήσουµε ότι η βέλτιστη πολιτική είναι µονότονη. Για κάθε κατάσταση ( x, y) της διαδικασίας η κρίσιµη τιµή x χαρακτηρίζει τη µονότονη µορφή της βέλτιστης πολιτικής. Παράδειγµα 4 (Βέλτιστη δροµολόγηση ενός οχήµατος). Το πρόβληµα αυτό είναι γνωστό στη βιβλιογραφία ως Sngle Vehcle Routng Problem (SVRP), και προσδιορίζει τη βέλτιστη διαδροµή ενός οχήµατος το οποίο ξεκινά από µία αποθήκη και διανέµει ένα προϊόν σε n πελάτες µε µία προκαθορισµένη σειρά. Έστω ένα σύνολο κορυφών V {, K, n}, όπου η κορυφή αναπαριστά την αποθήκη και οι κορυφές, K, n αντιστοιχούν στους πελάτες. Το σύνολο A {(, + ), ( +,) : V { n}} περιέχει τα τόξα που συνδέουν τους πελάτες κατά µήκος της διαδροµής L n, καθώς επίσης όλους τους πελάτες µε την αποθήκη. Το κόστος της διαδροµής για κάθε τόξο (, j) A είναι ίσο µε c >. Τα κόστη, (, j) A, ικανοποιούν την j c j τριγωνική ανισότητα, δηλαδή ισχύει ότι c < c + c. Το όχηµα πρέπει να εξυπηρετήσει όλους τους j k πελάτες σύµφωνα µε µία προκαθορισµένη σειρά, K, n. Αρχικά, το όχηµα βρίσκεται στην αποθήκη και µετά από την εξυπηρέτηση όλων των πελατών επιστρέφει στην αποθήκη. Έστω,, K, n, η ζήτηση του πελάτη για ένα συγκεκριµένο προϊόν. Θεωρούµε ότι οι απαιτήσεις,, K, n, σε προϊόν του κάθε πελάτη είναι ανεξάρτητες συνεχείς τυχαίες µεταβλητές µε γνωστές συναρτήσεις πυκνότητας (, τέτοιες ώστε (, όταν x Q, όπου Q είναι η χωρητικότητα του οχήµατος. Μετά την εξυπηρέτηση του κάθε πελάτη, το όχηµα έχει δύο επιλογές: (α) να ταξιδέψει προς τον επόµενο πελάτη, ή (β) να επιστρέψει στην αποθήκη για να ανανεώσει το απόθεµά του και να συνεχίσει τη διαδροµή του. Θεωρούµε ότι η ζήτηση κάθε πελάτη γίνεται γνωστή λίγο πριν την εξυπηρέτηση του πελάτη. Το 4 kj d d

πρόβληµα είναι η εύρεση εκείνης της πολιτικής που ελαχιστοποιεί το συνολικό αναµενόµενο κόστος. Ένα ρεαλιστικό παράδειγµα αυτού του µοντέλου µπορεί να είναι η περίπτωση κατά την οποία ένα όχηµα διανέµει πετρέλαιο σε συγκεκριµένα βενζινάδικα. Η ζήτηση σε πετρέλαιο από το κάθε βενζινάδικο µπορεί να θεωρηθεί στοχαστική διότι όταν γίνεται η παραγγελία του πετρελαίου από το κάθε βενζινάδικο δεν είναι γνωστή η ποσότητα του πετρελαίου που θα πουληθεί στους καταναλωτές από το κάθε βενζινάδικο στο χρονικό διάστηµα που µεσολαβεί ανάµεσα στην παραγγελία και στη διανοµή του πετρελαίου από το όχηµα. Έστω V ( ), [, Q], το ελάχιστο συνολικό αναµενόµενο κόστος από τον πελάτη µέχρι το τέλος της διαδροµής, αν ο πελάτης έχει εξυπηρετηθεί και η ποσότητα του προϊόντος που έχει αποµείνει στο όχηµα είναι ίση µε. Αυτή η ποσότητα ικανοποιεί την ακόλουθη εξίσωση του δυναµικού προγραµµατισµού: V ( ) mn{ H ( ), H },, K, n, () όπου, Q, + + [c+, + V+ ( + Q ] + ( dx+ V+ ( + ( dx, H ( ) c (3) και H c Q + c, + + V+ ( Q + ( dx. (4) Η οριακή συνθήκη είναι: V ( ) c, [, Q]. n n Αν H < H ( ), τότε η βέλτιστη απόφαση είναι η επιστροφή του οχήµατος στην αποθήκη έτσι ώστε το όχηµα να ανανεώσει το απόθεµά του και εν συνεχεία να εξυπηρετήσει τον πελάτη +. Αν H ) H, η ( βέλτιστη απόφαση είναι τέτοια ώστε το όχηµα να ταξιδέψει κατευθείαν προς τον επόµενο πελάτη +. Σε αυτήν την περίπτωση, αν η ζήτηση x του πελάτη είναι µεγαλύτερη από, τότε το όχηµα τροφοδοτεί τον πελάτη + µε την ποσότητα, επιστρέφει στην αποθήκη για να ανανεώσει το απόθεµά του και εν συνεχεία επιστρέφει στον πελάτη + για να τον τροφοδοτήσει µε την υπόλοιπη ποσότητα x. Σύµφωνα µε την ακόλουθη Πρόταση, για κάθε πελάτη, n, υπάρχει µία κρίσιµη ποσότητα h τέτοια ώστε, η βέλτιστη απόφαση για το όχηµα είναι να ταξιδέψει κατευθείαν προς τον πελάτη + αν και µόνο αν η 4

ποσότητα που έχει αποµείνει στο όχηµα µετά από την εξυπηρέτηση του πελάτη είναι µεγαλύτερη ή ίση µε h. Το αποτέλεσµα του Λήµµατος που ακολουθεί, θα χρησιµοποιηθεί στην απόδειξη της Πρότασης. Λήµµα. V ( ) V ( Q) + c,, K, n, [, Q]. Απόδειξη. Από τις εξισώσεις () και (4) έχουµε ότι: Q + c, + + V+ ( Q + ( dx. V ( ) c (5) Από τις εξισώσεις (), (3), (4) προκύπτει ότι Q, + + V+ ( Q + ( dx, V ( Q) c (6) διότι τα κόστη c j ικανοποιούν την τριγωνική ανισότητα. Από τις εξισώσεις (5) και (6) έχουµε ότι: V ( ) c + c, + + V ( Q) c, + c + c + c, + + V ( Q) c, + c + V ( Q), όπου η δεύτερη ανισότητα προκύπτει από την τριγωνική ανισότητα. Πρόταση. Έστω ότι H ( ) c, [, Q]. Οι συναρτήσεις H () και V () είναι φθίνουσες ως προς,, K, n. n n Απόδειξη. Θα αποδείξουµε την πρόταση µε επαγωγή ως προς. Για n οι ποσότητες H n () και () είναι σταθερές ως προς. Έστω ότι για n οι ποσότητες H + ( ) και V + ( ) είναι φθίνουσες ως προς. Θα αποδείξουµε ότι οι ποσότητες H () και V () είναι επίσης φθίνουσες ως προς. Έστω Q <. Η διαφορά H ) H ( ) µπορεί να γραφεί ως εξής: ( V n H ( ) H + Q [c +, ( ) + V + ( [c +, + V + Q ] 4 + + ( ( dx + Q ] + ( dx

+ V + ( + ( dx [c+, + V+ ( + Q ] + Q ( V + ( + ( dx V+ ( + ( dx. dx Από την µονοτονία της V + ( ) ως προς, προκύπτει ότι Q Q [ c+, + V+ ( + Q ] + ( dx [c+, + V+ ( + Q ] + και ( dx. V + ( + ( dx V+ ( + ( dx Από τις παραπάνω ανισότητες, συµπεραίνουµε ότι η ανισότητα H ( ) H ( ) ισχύει αν [ c +, + V+ ( + Q V+ ( ] + ( dx. Επίσης, ισχύει ότι [c +, [c + V +, + + V ( + + Q V ( Q) V + ( + ( ] ] + + ( dx ( dx, όπου, η πρώτη ανισότητα προκύπτει από την µονοτονία της V + ( ) και η δεύτερη ανισότητα προκύπτει από το Λήµµα. Συνεπώς, η συνάρτηση H () είναι φθίνουσα ως προς. Από την εξίσωση (), συµπεραίνουµε ότι η συνάρτηση V () είναι φθίνουσα ως προς διότι η H δεν εξαρτάται από την ποσότητα. Η απόδειξη της πρότασης είναι πλήρης. Για κάθε, K, n, ισχύει ότι H ( Q) < H και H ( ) > H, διότι τα κόστη c j ικανοποιούν την τριγωνική ανισότητα. Από την Πρόταση προκύπτει ότι, για κάθε, K, n υπάρχει µία κρίσιµη ποσότητα h (, Q) τέτοια ώστε H h ) H. Η βέλτιστη πολιτική επιλέγει εκείνη την ενέργεια σύµφωνα ( 43

µε την οποία το όχηµα ταξιδεύει κατευθείαν προς τον επόµενο πελάτη +, αν, ενώ αντιθέτως, επιλέγει εκείνη την ενέργεια σύµφωνα µε την οποία το όχηµα επιστρέφει στην αποθήκη για να ανανεώσει το απόθεµά του, αν < h. Οι κρίσιµες ποσότητες h,, K, n, µπορούν να υπολογιστούν, κατά προσέγγιση, διαιρώντας το διάστηµα [, Q ] σε µικρά υπό-διαστήµατα µήκους ξ και υπολογίζοντας αριθµητικά τα ολοκληρώµατα στις εξισώσεις (3) και (4). Το ελάχιστο αναµενόµενο κόστος υπολογίζεται στα σηµεία jξ, j, K, Q / ξ. Ο αλγόριθµος για τον υπολογισµό των κρίσιµων ποσοτήτων παρουσιάζεται παρακάτω. h Αλγόριθµος για τον υπολογισµό των h,, K, n Θέτουµε V ( jξ ) c, j, K, Q / ξ. n n Για n, K, υπολογίζουµε τις ποσότητες V () και V (Q) : V () H c Q / ξ + c, + + V+ ( Q jξ ) + ( jξ ) ξ, j V ( Q) c Q / ξ, j + + V + ( Q jξ ) + ( jξ ) ξ, και για j Q / ξ, Q / ξ, K, υπολογίζουµε την ποσότητα ( jξ ) : H H ( jξ ) c + j r V +, + + Q / ξ r j ( jξ rξ ) [c + +, ( rξ ) ξ, + V + ( jξ + Q rξ )] + ( rξ ) ξ µέχρι να ισχύει H ( jξ ) > V (). Η κρίσιµη ποσότητα h είναι ίση µε ( j + ) ξ, όπου j είναι η µέγιστη τιµή των {, K, Q / ξ } που ικανοποιούν την παραπάνω ανισότητα. Για j, K, jξ, V ( jξ ) V () και για j ( j + ) ξ, K, Q / ξ, V ( jξ ) H ( jξ ). Ένα αριθµητικό παράδειγµα παρουσιάζεται παρακάτω. Υποθέτουµε ότι η χωρητικότητα του οχήµατος είναι Q και ο αριθµός των πελατών είναι n. Οι απαιτήσεις d, K,,, των πελατών είναι ανεξάρτητες συνεχείς τυχαίες µεταβλητές οµοιόµορφα κατανεµηµένες στο διάστηµα [,]. Επιλέγουµε ξ.5 έτσι ώστε το διάστηµα [, Q ] να διαιρείται σε Q / ξ µικρά υπό-διαστήµατα µήκους ξ. Έστω ότι τα κόστη της διαδροµής ανάµεσα στην αποθήκη (κορυφή ) και τις κορυφές K,, είναι: 44

c 5, c, c 5, c, c 8, c, c 7, c, c 8 και c 3.,,,3,4,5,6,7,8,9, Τα κόστη της διαδροµής ανάµεσα στις κορυφές και +,, K, 9 είναι: c 8, c, c 6, c, c 4, c 3, c, c 5 και c 9. Οι κρίσιµες ποσότητες που λαµβάνονται 4,5 5,6 6,7 7,8 8,9 9, από τον αλγόριθµο είναι: h 3.5, h.335, h 3 5.3, h 4 4.445, h 5 3.335, h 6 5.95, h 7 3.5, h 8 3.65 και h 9 5.385.,,3 3,4 Παράδειγµα 5 (Παραγωγή ενός αποδεκτού προϊόντος). Μία εταιρεία έχει λάβει µία παραγγελία για την προµήθεια ενός τεµαχίου κάποιου προϊόντος. Όµως, ο πελάτης έχει υψηλές απαιτήσεις ως προς την ποιότητα και συνεπώς η εταιρεία ίσως πρέπει να κατασκευάσει περισσότερα τεµάχια µέχρι την κατασκευή ενός αποδεκτού τεµαχίου. Η εταιρεία εκτιµά ότι κάθε κατασκευαζόµενο τεµάχιο του προϊόντος είναι αποδεκτό µε πιθανότητα και ελαττωµατικό µε πιθανότητα. Συνεπώς, αν κατασκευαστούν L τεµάχια η πιθανότητα να µην υπάρχει κανένα αποδεκτό είναι ( ) L. Το κόστος παραγωγής ενός τεµαχίου του προϊόντος είναι ευρώ. Το κόστος για το στήσιµο µιας διαδικασίας παραγωγής (set up cost) ισούται µε 3 ευρώ. Αν µία διαδικασία παραγωγής (producton run) δεν δώσει κανένα αποδεκτό τεµάχιο τότε η εταιρεία προχωρά σε µία νέα διαδικασία παραγωγής. Μπορούν να γίνουν το πολύ τρεις διαδικασίες παραγωγής. Αν κανένα αποδεκτό τεµάχιο του προϊόντος δεν έχει παραχθεί µετά το τέλος της τρίτης διαδικασίας παραγωγής η εταιρεία πληρώνει το ποσό των 6 ευρώ ως πρόστιµο. Το πρόβληµα είναι να προσδιοριστεί το πλήθος των κατασκευαζόµενων τεµαχίων του προϊόντος σε κάθε διαδικασία παραγωγής έτσι ώστε να ελαχιστοποιηθεί το αναµενόµενο συνολικό κόστος. Λύση. Έστω η κατάσταση του συστήµατος στην αρχή της t οστής διαδικασίας παραγωγής, t,, 3. Έστω ότι αν δεν έχει παραχθεί κανένα αποδεκτό τεµάχιο και αν έχει παραχθεί τουλάχιστον ένα αποδεκτό τεµάχιο. Προφανώς αν t τότε. Αν κατά την πρώτη διαδικασία παραγωγής δεν παραχθεί κανένα αποδεκτό τεµάχιο, τότε όταν t, ενώ αν κατά την πρώτη διαδικασία παραγωγής παραχθεί τουλάχιστον ένα αποδεκτό τεµάχιο τότε όταν t. Έστω x t ο αριθµός των κατασκευαζοµένων τεµαχίων του προϊόντος κατά την t οστή διαδικασία παραγωγής, t,,3. Έστω V (, t) το ελάχιστο αναµενόµενο κόστος αν βρισκόµαστε στην κατάσταση κατά την t οστή διαδικασία παραγωγής. Προφανώς V (, t), t,3. Έστω K x ) το κόστος για το στήσιµο µιας διαδικασίας παραγωγής αν η ( t εταιρεία κατασκευάζει x t τεµάχια του προϊόντος. Είναι K ( x t ), αν x t και K ( x t ) 3, αν x t >. Η εξίσωση δυναµικού προγραµµατισµού είναι: x t xt V (, t) mn xt + K( xt ) + V (, t + ) + V (, t + ) xt,,, K 45

xt mn ( ) (, ),,,, xt + K xt + V t + x t K t 3,,. V (,4) 6. Η παραπάνω αναδροµική σχέση δίνει τα εξής αριθµητικά αποτελέσµατα: t 3 x 3 3 4 5 V (,3) * x 3 6 9 8 8 8 8 3 ή 4 t x 3 4 V (,) 8 8 7 7 7 * x 7 ή 3 t x 3 4 V (,) 7 7 3 6 4 7 6 8 7 3 7 6 6 4 * x Συνεπώς η βέλτιστη πολιτική παράγει δύο τεµάχια κατά την πρώτη διαδικασία. Αν κανένα δεν είναι αποδεκτό τότε παράγει δύο ή τρία τεµάχια κατά τη δεύτερη διαδιακασία. Αν κανένα δεν είναι αποδεκτό, τότε παράγει τρία ή τέσσερα τεµάχια κατά την τρίτη διαδικασία. Το ελάχιστο συνολικό αναµενόµενο κόστος είναι 675 ευρώ. 46