Ελληνικό Στατιστικό Ινστιτούτο Πρακτικά 17 ου Πανελληνίου Συνεδρίου Στατιστικής (2004), σελ. 127-134 ΕΝΑΣ ΑΛΓΟΡΙΘΜΟΣ ΓΙΑ ΤΟΝ ΒΕΛΤΙΣΤΟ ΕΛΕΓΧΟ ΕΝΟΣ ΠΛΗΘΥΣΜΟΥ ΠΑΡΑΣΙΤΩΝ Θεοδόσης. ηµητράκος Τµήµα Στατιστικής και Αναλογιστικής Ειστήµης, Πανειστήµιο Αιγαίου, Καρλόβασι, 83200, Σάµος. Εαµεινώνδας Γ. Κυριακίδης Τµήµα Μηχανικών Οικονοµίας και ιοίκησης, Πανειστήµιο Αιγαίου, Οδός Φωστίνη 31, 82100, Χίος. ΠΕΡΙΛΗΨΗ Θεωρούµε ένα Μαρκοβιανό µοντέλο αοφάσεων µε άειρο χώρο καταστάσεων για το ρόβληµα του βέλτιστου ελέγχου ενός ληθυσµού αρασίτων. Υοθέτουµε ότι ο ληθυσµός των αρασίτων µορεί να ελεγχθεί µέσω της εισαγωγής ενός αρακτικού στον τόο ου ανατύσσονται. Η αρουσία των αρασίτων ειφέρει κάοιο κόστος. Είσης η εισαγωγή του αρακτικού ειφέρει ένα άλλο κόστος. Ένας αλγόριθµος, ο οοίος βασίζεται στη µέθοδο της Sennott (1997), κατασκευάζεται για τον υολογισµό της ολιτικής ου ελαχιστοοιεί το αναµενόµενο µέσο κόστος. Υάρχει ισχυρή ένδειξη ότι η βέλτιστη ολιτική εισάγει το αρακτικό στον αρασιτικό ληθυσµό όταν το µέγεθος του ληθυσµού είναι µεγαλύτερο ή ίσο µιας κρίσιµης τιµής. 1. ΕΙΣΑΓΩΓΗ Θεωρούµε ένα ληθυσµό αρασίτων ο οοίος ανατύσσεται στοχαστικά σε έναν τόο σύµφωνα µε µια αλή διαδικασία Posson µε ρυθµό v > 0. Υοθέτουµε ότι η αρουσία των αρασίτων ειφέρει ένα κόστος ίσο µε, 0, για κάθε µονάδα χρόνου κατά την οοία το µέγεθος του ληθυσµού είναι ίσο ρος. Είναι λογικό να υοθέσουµε ότι η ακολουθία c } είναι αύξουσα ως ρος και ότι c 0. Ειλέον, θεωρούµε ότι { c 0 = 127
m c καθώς και ότι c A, 1, για κάοιο θετικό ακέραιο m και κάοιο θετικό αριθµό A. Η ανάτυξη του ληθυσµού των αρασίτων µορεί να ελεγχθεί µέσω ενός αρακτικού ου εισάγεται στον τόο µετά αό έναν τυχαίο χρόνο ο οοίος ακολουθεί την εκθετική κατανοµή. Η αρουσία του αρακτικού διακότει αµέσως τις µεταναστεύσεις των αρασίτων. Το αρακτικό έχει τη δυνατότητα να εξοντώνει ένα-ένα τα αράσιτα µε σταθερό ρυθµό σ > 0 µέχρι να µηδενιστεί ο ληθυσµός τους. Ειλέον, υοθέτουµε ότι το αρακτικό µορεί να αοδηµήσει αό τον οικισµό µε ρυθµό θ > 0, ροτού θανατώσει όλα τα αράσιτα. Έχουµε ειλέξει τη µονάδα του χρόνου έτσι ώστε ο ρυθµός µε τον οοίον το αρακτικό εισάγεται στον οικισµό των αρασίτων να είναι ίσος ρος 1. Έτσι, ο χρόνος µέχρι το αρακτικό να εισαχθεί στο αρασιτικό ληθυσµό ακολουθεί την εκθετική κατανοµή µε µέση τιµή 1. Είσης, υοθέτουµε ότι η εισαγωγή του αρακτικού στο ληθυσµό των αρασίτων ειφέρει ένα κόστος ίσο µε k > 0 ανά µονάδα χρόνου και ότι σ > vθ. Έστω και ' οι καταστάσεις της διαδικασίας στις οοίες το µέγεθος του αρασιτικού ληθυσµού είναι ίσο ρος 0 και το αρακτικό αουσιάζει αό τον οικισµό των αρασίτων ή είναι αρόν, αντίστοιχα. Μια στάσιµη ολιτική f ορίζεται αό την ακολουθία { f }, 0, όου f είναι η ενέργεια η οοία ειλέγεται όταν η διαδικασία βρίσκεται στη κατάσταση. Υοθέτουµε ότι f = 1 όταν ειλέγεται η ενέργεια η οοία εισάγει το αρακτικό στον οικισµό και f = 0 διαφορετικά. Όταν υιοθετούµε τη στάσιµη ολιτική f { f }, 0, η ανάτυξη του ληθυσµού των αρασίτων µορεί να εριγραφεί αό µια Μαρκοβιανή αλυσίδα σε συνεχή χρόνο µε χώρο καταστάσεων S = {0,0',1, 1',...} και µε τους αρακάτω ρυθµούς µετάβασης στο διάστηµα ( t, t + δt) : +1 µε ιθανότητα v δt + o( δt), 0, µε ιθανότητα f δt + o( δt), 0, ( 1) µε ιθανότητα σδt + o( δt), 1, µε ιθανότητα θδt + o( δt), 0. Θεωρούµε το ρόβληµα της εύρεσης της ολιτικής ου ελαχιστοοιεί το αναµενόµενο µακρορόθεσµο µέσο κόστος ανά µονάδα χρόνου, ανάµεσα σε όλες τις δυνατές στάσιµες ολιτικές. Οι χρονικές στιγµές στις οοίες λαµβάνεται µια ενέργεια είναι εκείνες κατά τις οοίες ένα αράσιτο µεταναστεύει στο ληθυσµό και εκείνες 128
κατά τις οοίες το αρακτικό αοδηµεί αό τον οικισµό των αρασίτων. Σε ολλά ροβλήµατα Μαρκοβιανών µοντέλων αοφάσεων µορεί να αοδειχθεί ότι η βέλτιστη ολιτική ειλέγει την ενέργεια ελέγχου της διαδικασίας αν και µόνο αν η κατάσταση της διαδικασίας είναι µεγαλύτερη ή ίση µιας κρίσιµης τιµής. Στο µοντέλο µας, η ενέργεια ελέγχου της διαδικασίας είναι η ενέργεια της εισαγωγής του αρακτικού στο αρασιτικό ληθυσµό. Μια τέτοια ολιτική ονοµάζεται µονότονη ολιτική. Στο αρόν ρόβληµα, φαίνεται διαισθητικά λογικό ότι η βέλτιστη ολιτική ανήκει στο σύνολο των µονότονων ολιτικών { P n : n = 0,1, }, όου { P n } είναι η ολιτική ου εισάγει το αρακτικό αν και µόνον αν το ληθυσµιακό µέγεθος των αρασίτων είναι µεγαλύτερο του n ή ισούται µε n. Η µέθοδος των διαδοχικών ροσεγγίσεων (Derman (1970)) καθώς είσης και η τεχνική των Federruen & So (1989) χρησιµοοιούνται συχνά για να αοδειχτεί ότι µια µονότονη ολιτική είναι βέλτιστη. Η τεχνική των Federruen & So είχε εφαρµοστεί αό τον Κυριακίδη (2003) σε µια ειδική ερίτωση του µοντέλου µας στην οοία το αρακτικό έχει τη δυνατότητα να αοδηµήσει αό τον ληθυσµό µόνο όταν έχει εξοντώσει όλα τα αράσιτα. Στο αρόν µοντέλο, φαίνεται δύσκολο να αοδειχθεί ότι η µονότονη ολιτική είναι βέλτιστη χρησιµοοιώντας είτε τη µέθοδο των διαδοχικών ροσεγγίσεων είτε τη τεχνική των Federruen & So. Υάρχει η δυνατότητα όµως να υολογιστεί αριθµητικά η βέλτιστη ολιτική. Ο υολογισµός αυτός µορεί να ειτευχθεί µετατρέοντας το αρχικό Μαρκοβιανό µοντέλο αοφάσεων σε συνεχή χρόνο σε ένα ισοδύναµο Μαρκοβιανό µοντέλο αοφάσεων σε διακριτό χρόνο και εν συνεχεία εφαρµόζοντας τη ροσεγγιστική µέθοδο της Sennott στο µοντέλο διακριτού χρόνου. Βάσει της µεθόδου της Sennott κατασκευάζεται µια ακολουθία η οοία αοτελείται αό Μαρκοβιανά µοντέλα αοφάσεων µε εερασµένο χώρο καταστάσεων έτσι ώστε τα ελάχιστα µέσα κόστη και οι βέλτιστες ολιτικές των µοντέλων της ακολουθίας να συγκλίνουν στο ελάχιστο µέσο κόστος και στην βέλτιστη ολιτική του αρχικού µοντέλου. Στο εόµενο εδάφιο αρουσιάζεται ο τρόος υολογισµού της βέλτιστης ολιτικής και στο εδάφιο 3 εαληθεύονται οι συνθήκες ου εγγυώνται τη σύγκλιση του αλγορίθµου. Εισηµαίνεται ότι το εριεχόµενο της αρούσας εργασίας µε ερισσότερες λετοµέρειες έχει υοβληθεί για δηµοσίευση (βλέε Kyrakds & Dmtrakos (2004)). 2. ΥΠΟΛΟΓΙΣΜΟΣ ΤΗΣ ΒΕΛΤΙΣΤΗΣ ΠΟΛΙΤΙΚΗΣ Μετατρέουµε το Μαρκοβιανό µοντέλο αoφάσεων σε συνεχή χρόνο σε µια ισοδύναµη Μαρκοβιανή διαδικασία αοφάσεων σε διακριτό χρόνο µε τον ίδιο χώρο 129
καταστάσεων S. Αυτό µορεί να ειτευχθεί χρησιµοοιώντας τη τεχνική της οµοιοµορφοοίησης (βλ. σελ. 245, Sennott (1999)). Έστω τ ότι είναι ένας θετικός 1 1 αριθµός τέτοιος ώστε τ < mn{( ν + 1), ( σ + θ ) }. Έστω p j ( a), a {0,1 }, η ιθανότητα η εόµενη κατάσταση της διαδικασίας διακριτού χρόνου να είναι η j δοθέντος ότι η αρούσα κατάσταση της διαδικασίας είναι η και ειλέγεται η ενέργεια a {0,1}. Έστω είσης C (, a) το αναµενόµενο κόστος ενός βήµατος της διαδικασίας. Οι αράµετροι αυτοί υολογίζονται αό τις ακόλουθες εξισώσεις (βλ. σελ. 245, Sennott (1999)) p p (, + 1 a) = τv, 0, a {0, 1}, ( 0) = 1 τν, 0, p (1 = τ, 0, ) p ( 1) = 1 τ ( v + 1), 0, p (0 = τθ, 0, ) p (0 = τσ, 1,,( 1) ) p (0) = 1 τ ( σ + θ ), 1, ' ' p0 0 (0) = 1 τθ, C(,0) = C(,0) = c, 0, (1) C(,1) = c + k. 0. (2) Το αρχικό µοντέλο και το µοντέλο σε διακριτό χρόνο έχουν το ίδιο µέσο κόστος υό τον έλεγχο οοιασδήοτε στάσιµης ολιτικής. Άρα τα δύο µοντέλα έχουν την ίδια βέλτιστη ολιτική. Χρησιµοοιώντας τη ροσεγγιστική µέθοδο της Sennott (1997) θεωρούµε µια ακολουθία Μαρκοβιανών µοντέλων αοφάσεων µε χώρους καταστάσεων G = { 0, 0,1,1,,, }, 1. Οι ιθανότητες µετάβασης ~ pj ( a),, j G, a {0,1 }, σε ένα µοντέλο της ακολουθίας συµίτουν µε τις ιθανότητες µετάβασης p j (a) του µοντέλου µε τον άειρο χώρο καταστάσεων S εκτός αό τις ακόλουθες ιθανότητες: ~ p (0) = τν, ~ (1) = τ ( + 1). p ν Τα αναµενόµενα κόστη µιας µετάβασης C(, a), G, a {0,1 }, σε ένα µοντέλο της ακολουθίας συµίτουν µε αυτά του µοντέλου µε τον άειρο χώρο καταστάσεων. Για 130
τις διάφορες τιµές του = 1, 2,, η βέλτιστη ολιτική και το ελάχιστο µέσο κόστος για κάθε µοντέλο της ακολουθίας υολογίζεται χρησιµοοιώντας τον αλγόριθµο διαδοχικών ροσεγγίσεων (βλ. Κεφ. 3, Tjms (1994)). Αό το Θεώρηµα 2.4 της Sennott (1997) ροκύτει ότι καθώς τα ελάχιστα µέσα κόστη και οι βέλτιστες ολιτικές της ακολουθίας συγκλίνουν στο ελάχιστο µέσο κόστος και σε µια βέλτιστη ολιτική στο µοντέλο µε τον άειρο χώρο καταστάσεων. Κατά την εκτέλεση του αλγορίθµου ο αριθµός αυξάνεται µέχρι η αλλαγή στη τιµή του ελάχιστου µέσου κόστους να είναι ολύ µικρή και η µορφή της βέλτιστης ολιτικής να αραµένει αµετάβλητη. Με βάση ένα λήθος αριθµητικών αραδειγµάτων εικάζουµε ότι η βέλτιστη ολιτική ανήκει στη κατηγορία των µονότονων ολιτικών { : n = 1, 2, }. Αυτό σηµαίνει ότι υάρχει µια κρίσιµη τιµή του µεγέθους του ληθυσµού n * ώστε η βέλτιστη ολιτική να εισάγει το αρακτικό στο αρασιτικό ληθυσµό αν και µόνο αν το µέγεθος του ληθυσµού είναι ίσο ή µεγαλύτερο του n *. Θα αρουσιάσουµε ένα αριθµητικό αράδειγµα. Υοθέτουµε ότι σ = 10, v = 4, θ = 2, c = + 1, 0 και k = 8. P n Πίνακας 1 n * n * 70 6 7.7870 72 5 8.2017 75 4 8.3574 85 3 8.7843 200 3 9.2746 250 3 9.2814 300 3 9.2828 700 3 9.2830 1000 3 9.2830 Στο Πίνακα 1 αραάνω, αρουσιάζουµε τη τιµή του βέλτιστου κρίσιµου σηµείου n * και του ελάχιστου µέσου κόστους n* για τις διάφορες τιµές του στο µοντέλο µε χώρο καταστάσεων G. Παρατηρούµε ότι η τιµή του n * δεν αλλάζει και η τιµή του n* δεν αλλάζει σηµαντικά αν η τιµή του είναι µεγαλύτερη ή ίση του 250. Η βέλτιστη ολιτική για το αρχικό µοντέλο µε τον άειρο χώρο καταστάσεων είναι η ολιτική P 3 µε µέσο κόστος 9.2830. 131
3. Η ΣΥΓΚΛΙΣΗ ΤΟΥ ΑΛΓΟΡΙΘΜΟΥ Με βάση το Θεώρηµα 4.1 της Sennott (1997), στο ρόβληµα µας τα ελάχιστα µέσα κόστη και οι βέλτιστες ολιτικές των εερασµένου χώρου καταστάσεων Μαρκοβιανών µοντέλων αόφασης συγκλίνουν στο ελάχιστο µέσο κόστος και σε µια βέλτιστη ολιτική του µοντέλου µε τον άειρο χώρο καταστάσεων, αν ικανοοιούνται οι ακόλουθες δύο συνθήκες: () Στο µοντέλο µε τον άειρο χώρο καταστάσεων, υάρχει µια στάσιµη ολιτική d και ένας θετικός αριθµός ε έτσι ώστε η ολιτική d να ορίζει µια ανάγωγη θετικά έµµονη αλυσίδα στο S µε εερασµένο µέσο κόστος (d) για οοιαδήοτε αρχική κατάσταση. Είσης, το ακόλουθο σύνολο είναι εερασµένο: D = { S υάρχει a ώστε C(, a) ( d) + ε}. () lm ( ) =, S, και lm f = f, όου f είναι η βέλτιστη ολιτική στο Μαρκοβιανό µοντέλο αόφασης µε τον άειρο χώρο καταστάσεων, f είναι η στάσιµη ολιτική στο Μαρκοβιανό µοντέλο αόφασης µε τον εερασµένο χώρο καταστάσεων έτσι ώστε f )( ) = f ( ), G, (, S, είναι η στάσιµη κατανοµή υό τον έλεγχο της ολιτικής f, ( ), G, είναι η στάσιµη κατανοµή υό τον έλεγχο της ολιτικής f, είναι το µέσο κόστος υό τον έλεγχο της ολιτικής f, f είναι το µέσο κόστος υό τον έλεγχο της ολιτικής f. f Για να αοδείξουµε τη Συνθήκη () ειλέγουµε d = P 0. Χρησιµοοιώντας τις εξισώσεις ισορροίας βρίσκουµε ότι οι στάσιµες ιθανότητες ~ και ~, 0, υό τον έλεγχο της ολιτικής P 0 στη διαδικασία µε τον άειρο χώρο καταστάσεων δίνονται αό τις εξής εκφράσεις: ~ ν ( θ + σ ) θ ( σ νθ ) =, 0, ( 1) σ ν + σ ( θ + 1)( ν + 1) ~ 1 ν ( σ + θ ) = ( 1) σ ν + νθ ( σ νθ ), 2 σ ( θ + 1)( ν + 1) 1, ~ 0 σ νθ =. σ ( θ + 1) 132
Η συνθήκη σ > νθ εγγυάται την ύαρξη της στάσιµης κατανοµής. Η διαδικασία υό τον έλεγχο της P 0 είναι ροφανώς ανάγωγη. Είσης είναι θετικά έµµονη εειδή έχει στάσιµη κατανοµή (βλ. Θεώρηµα 3, σελ. 205, Grmmett & Strzaker (1992)). Το µέσο κόστος 0 υό τον έλεγχο της P 0 για κάθε αρχική κατάσταση δίνεται αό την ακόλουθη σχέση (βλ. σχέση (3.1.3), Tjms (1994)) 0 = ~ + + ~ ( c k) c. = 1 = 1 Οι αραάνω εκφράσεις των ~ ~ m,, 1, και η συνθήκη c A, 1, δίνουν 0 < +. Αό την υόθεση c, καθώς, και τις σχέσεις (1), (2) έεται ότι το σύνολο D = { S υάρχει a ώστε C(, a) 0 + ε} είναι εερασµένο για κάθε ε > 0. Για να αοδείξουµε την Συνθήκη () αρατηρούµε ότι οι εξισώσεις ισορροίας για τις καταστάσεις 0,1,, 1,, 0,, ( 1) είναι οι ίδιες στο S και στο. ιαφέρουν µόνο στη κατάσταση. Αυτό σηµαίνει ότι: ( ) =, G. j j G Αό την αραάνω έκφραση έεται ότι: lm ( ) =, S. Είσης έχουµε, καθώς, ότι: G f = ( ) C(,( f )( )) = G j S j G C(,( f )( )) C(, f ( )) =. f G ABSTRACT An nfnte-state Markov decson model s consdered for the control of a smple mmraton process, whch represents a pest populaton, by the ntroducton of a predator. The cost rate caused by the pests s an ncreasn functon of ther populaton sze and the cost rate of the controlln acton s constant. A sequence of fnte-state truncatons s defned and the optmal averae-cost polcy n the ornal model s found numercally by usn Sennott s (1997) approxmatn sequence method. There s stron numercal evdence that the optmal polcy s of control-lmt form. 133
ΑΝΑΦΟΡΕΣ Derman, C. (1970): Fnte state Markovan decson processes. Academc Press, ew York. Federruen, A. & So, K. C. (1989): Optmal tme to repar a broken server. Advances n Appled Probablty 21, 376-397. Grmmett, G. R. & Strzaker, D. R. (1992): Probablty and random processes (2 nd Edton). Oxford Unversty Press, Oxford. Kyrakds, E. G. (2003): Optmal control of a smple mmraton process throuh the ntroducton of a predator. Probablty n the Enneern and Informatonal Scences 17, 119-135. Κyrakds, E. G. & Dmtrakos, T. D. (2004): Computaton of the optmal polcy for the control of a smple mmraton process throuh the ntroducton of an emratn predator, submtted for publcaton. Sennott, L. I. (1997): The computaton of averae optmal polces n denumerable state Markov decson chans. Advances n Appled Probablty 29, 114-137. Sennott, L. I. (1999): Stochastc dynamc prorammn and the control of queuen systems. Wley, ew York. Tjms, H. C. (1994): Stochastc models: An alorthmc approach. Wley, ew York. 134