ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΣΤΑΤΙΣΤΙΚΗΣ ΚΑΙ ΑΝΑΛΟΓΙΣΤΙΚΩΝ-ΧΡΗΜΑΤΟΟΙΚΟΝΟΜΙΚΩΝ ΜΑΘΗΜΑΤΙΚΩΝ ΒΕΛΤΙΣΤΕΣ ΜΟΝΟΤΟΝΕΣ ΠΟΛΙΤΙΚΕΣ ΣΕ ΠΡΟΒΛΗΜΑΤΑ ΕΛΕΓΧΟΥ ΣΤΟΧΑΣΤΙΚΩΝ ΔΙΑΔΙΚΑΣΙΩΝ Θεοδόσης Δ. Δημητράκος ΔΙΔΑΚΤΟΡΙΚΗ ΔΙΑΤΡΙΒΗ ΣΑΜΟΣ 5
Στους γονείς μου κι στ δέλφι μου Βσιλική κι Κώστ.
ΠΕΡΙΛΗΨΗ Στην προύσ διτριβή μελετώντι διάφορ προβλήμτ βέλτιστου ελέγχου στοχστικών διδικσιών τ οποί μπορούν ν περιγρφούν με κτάλληλ Μρκοβινά ή ημι-μρκοβινά μοντέλ ποφάσεων. Τ προβλήμτ σχετίζοντι με το βέλτιστο έλεγχο μις διδιάσττης επιδημικής διδικσίς με τη βέλτιστη προληπτική συντήρηση ενός συστήμτος πργωγής με τη βέλτιστη επισκευή ή ντικτάστση ενός μηχνήμτος κι με το βέλτιστο έλεγχο ενός πληθυσμού πρσίτων. Ο κύριος στόχος είνι η εύρεση της πολιτικής η οποί γι κάθε ρχική κτάστση της διδικσίς ελχιστοποιεί τη μέση τιμή μις προκθορισμένης συνάρτησης του μελλοντικού κόστους. Σε μερικά προβλήμτ ποδεικνύουμε ότι η βέλτιστη πολιτική είνι μονότονη δηλδή θέτει σε λειτουργί το μηχνισμό ελέγχου της διδικσίς ν κι μόνο ν η κτάστση της διδικσίς π.χ. ριθμός φορέων μις σθένεις βθμός επιδείνωσης ή ηλικί ενός μηχνήμτος πληθυσμικό μέγεθος πρσίτων είνι ίση ή υπερβίνει μί κρίσιμη τιμή. Σε κάποιες περιπτώσεις είνι δυντόν ν βρεθεί η βέλτιστη κρίσιμη τιμή. Σε άλλ προβλήμτ κτσκευάζουμε κτάλληλους λγορίθμους οι οποίοι ποσκοπούν στην εύρεση της βέλτιστης πολιτικής. Σε ορισμένες περιπτώσεις ποδεικνύουμε ότι ο λγόριθμος συγκλίνει στη βέλτιστη πολιτική ενώ σε άλλες περιπτώσεις υπάρχουν ισχυρές ριθμητικές ενδείξεις ότι η τελική πολιτική που δημιουργεί ο λγόριθμος είνι βέλτιστη. 3
ΠΕΡΙΕΧΟΜΕΝΑ ΠΕΡΙΛΗΨΗ 3 ΠΕΡΙΕΧΟΜΕΝΑ 4 ΕΥΧΑΡΙΣΤΙΕΣ 7 ΚΕΦΑΛΑΙΟ. Εισγωγή 8 ΚΕΦΑΛΑΙΟ. Στοιχεί της θεωρίς των Μρκοβινών διδικσιών ποφάσεων. Εισγωγή 4. Μρκοβινές διδικσίες ποφάσεων σε δικριτό χρόνο 5.3 Προβλήμτ πεπερσμένου χρονικού ορίζοντ 7.4 Προβλήμτ άπειρου χρονικού ορίζοντ 8.4. Ελχιστοποίηση συνολικού νμενόμενου ποπληθωρισμένου κόστους 8.4. Ελχιστοποίηση μκροπρόθεσμου νμενόμενου μέσου κόστους νά μονάδ χρόνου.5 Ημι-Μρκοβινές διδικσίες ποφάσεων κι Μρκοβινές διδικσίες ποφάσεων σε συνεχή χρόνο 5.6 Η προσεγγιστική μέθοδος της Seott 3 ΚΕΦΑΛΑΙΟ 3. Βέλτιστος έλεγχος δύο ντγωνιζομένων σθενειών ή ειδών 3. Εισγωγή 33 3. Αλγόριθμοι δυνμικού προγρμμτισμού γι τ Προβλήμτ 3 κι 4 38 3.3 Ντετερμινιστική επιδημική διδικσί 45 3.4 Αβεβιότητ στις τιμές των πρμέτρων 56 ΚΕΦΑΛΑΙΟ 4. Βέλτιστη προληπτική συντήρηση ενός συστήμτος πργωγής 4. Εισγωγή 6 4. Περιγρφή του μοντέλου 64 4
4.3 Η μορφή της βέλτιστης πολιτικής 69 4.4 Στάσιμη επιδείνωση του μηχνισμού 78 4.5 Ένς λγόριθμος ότν οι χρόνοι προληπτικής συντήρησης κι επισκευής κολουθούν τη Γεωμετρική κτνομή 8 4.6 Δύο γενικεύσεις του μοντέλου 9 4.7 Οι χρόνοι προληπτικής συντήρησης κι επισκευής είνι συνεχείς τυχίες μετβλητές 9 4.8 Ένς λγόριθμος ότν οι χρόνοι προληπτικής συντήρησης κι επισκευής είνι συνεχείς τυχίες μετβλητές 97 ΚΕΦΑΛΑΙΟ 5. Ένς λγόριθμος γι τον υπολογισμό της βέλτιστης πολιτικής επισκευής ή ντικτάστσης ενός συστήμτος 5. Εισγωγή 7 5. Κτσκευή του μοντέλου 9 5.3 Ο λγόριθμος 3 5.4 Αριθμητικά πρδείγμτ ΚΕΦΑΛΑΙΟ 6. Υπολογισμός της βέλτιστης πολιτικής γι τον έλεγχο μις σύνθετης διδικσίς μετνάστευσης με την εισγωγή ολοκληρωτικών κτστροφών 6. Εισγωγή 3 6. Η μορφή της βέλτιστης πολιτικής 6 6.3 Η μορφή της συνάρτησης του μέσου κόστους υπό τον έλεγχο μις μονότονης πολιτικής 3 6.4 Ο υπολογισμός της βέλτιστης πολιτικής 48 6.5 Διωνυμικές κτστροφές 57 ΚΕΦΑΛΑΙΟ 7. Υπολογισμός της βέλτιστης πολιτικής γι τον έλεγχο μις πλής διδικσίς μετνάστευσης με την εισγωγή ενός ρπκτικού 7. Εισγωγή 59 7. Ο υπολογισμός της βέλτιστης πολιτικής 6 7.3 Η σύγκλιση του λγορίθμου 65 5
ΠΑΡΑΡΤΗΜΑ 69 ΒΙΒΛΙΟΓΡΑΦΙΑ 79 6
ΕΥΧΑΡΙΣΤΙΕΣ Η προύσ διδκτορική διτριβή εκπονήθηκε στο Τμήμ Σττιστικής κι Ανλογιστικών- Χρημτοοικονομικών Μθημτικών του Πνεπιστημίου Αιγίου. Στο σημείο υτό νιώθω την νάγκη ν εκφράσω τις ευχριστίες μου στους νθρώπους που συνετέλεσν στην πργμτοποίησή της. Ευχριστώ θερμά τον κ. Αθνάσιο Γιννκόπουλο Ανπληρωτή Κθηγητή του Τμήμτος Σττιστικής κι Ανλογιστικών-Χρημτοοικονομικών Μθημτικών του Πνεπιστημίου Αιγίου ο οποίος με τίμησε ποδεχόμενος την επίβλεψη της διτριβής. Θ ήθελ επίσης ν τον ευχριστήσω γι το διρκές ενδιφέρον του κι την υποστήριξή του. Θέλω ν εκφράσω την ευγνωμοσύνη μου στο δάσκλό μου κ. Επμεινώνδ Κυρικίδη Ανπληρωτή Κθηγητή του Τμήμτος Μηχνικών Οικονομίς κι Διοίκησης του Πνεπιστημίου Αιγίου ο οποίος στάθηκε δίπλ μου σε όλ τ στάδι υτής της εργσίς πό την πρότση του θέμτός της μέχρι την προυσίσή της. Χωρίς τις χρήσιμες συμβουλές του τις υποδείξεις του κι τη συνεχή συμπράστσή του θ ήτν δύντον ν ολοκληρωθεί υτή η διτριβή. Θ ήθελ επίσης ν ευχριστήσω τ μέλη της επιτροπής κρίσης της διτριβής που δέχτηκν ν φιερώσουν κάποιο πό τον πολύτιμο χρόνο τους γι την ξιολόγηση της εργσίς. Θέλω ν ευχριστήσω το διδκτικό κι διοικητικό προσωπικό του Τμήμτος Σττιστικής κι Ανλογιστικών-Χρημτοοικονομικών Μθημτικών του Πνεπιστημίου Αιγίου γι τη βοήθει κι την υποστήριξη που μου προσέφερν σε όλη τη διάρκει εκπόνησης της διτριβής. Θ ήτν πράλειψή μου ν μην ευχριστήσω τον κ. Χρήστο Ευθυμιόπουλο μέλος της ερευνητικής ομάδς του Τομέ Αστροφυσικής Αστρονομίς κι Μηχνικής του Τμήμτος Φυσικής του Πνεπιστημίου Αθηνών κθώς κι τον κ. Χρήστο Τσγγάρη που νήκει στο Ειδικό Εργστηρικό Διδκτικό Προσωπικό του Τμήμτος Μθημτικών του Πνεπιστημίου Αιγίου οι οποίοι με βοήθησν στ πρώτ προβλήμτ που συνάντησ στο υπολογιστικό μέρος της εργσίς. Τέλος θ ήθελ ν ευχριστήσω με όλη μου την κρδιά τους γονείς μου την δελφή μου Βσιλική κι τον δελφό μου Κώστ γι την γάπη τους κι τη συμπράστσή τους. Το λιγότερο που μπορώ ν κάνω είνι ν τους φιερώσω υτή τη διτριβή. 7
ΚΕΦΑΛΑΙΟ Εισγωγή Θεωρούμε το πρόβλημ του βέλτιστου ελέγχου μις στοχστικής διδικσίς. Ο έλεγχος της διδικσίς πργμτοποιείτι πό ένν υποτιθέμενο ελεγκτή ο οποίος σε συγκεκριμένες χρονικές στιγμές επιλέγει μί ενέργει πό έν σύνολο ενλλκτικών ενεργειών. Σε κάθε χρονική στιγμή ελέγχου της διδικσίς η επιλογή μις ενέργεις επιφέρει έν κόστος. Μί πολιτική είνι ένς κνόνς σύμφων με τον οποίον επιλέγοντι οι ενέργειες σε κάθε χρονική στιγμή ελέγχου της διδικσίς. Η βέλτιστη πολιτική είνι εκείνη η πολιτική η οποί ελχιστοποιεί μί προκθορισμένη συνάρτηση κόστους γι κάθε ρχική κτάστση της διδικσίς. Το πρόβλημ της εύρεσης της βέλτιστης πολιτικής προυσιάζει ιδιίτερο ενδιφέρον κι εμφνίζετι στη βιβλιογρφί με διάφορες μορφές. Αποτελεί το ντικείμενο έρευνς πολλών ερευνητών σε διάφορ πεδί της επιστήμης όπως γι πράδειγμ στην Επιχειρησική Έρευν στην Οικολογί στη Βιολογί κι στην Πληροφορική. Ειδικότερ η βέλτιστη πολιτική νζητείτι σε προβλήμτ συντήρησης κι ντικτάστσης μηχνημάτων σε προβλήμτ ελέγχου ποθεμάτων σε προβλήμτ ελέγχου ουρών νμονής σε προβλήμτ ελέγχου βιολογικών πληθυσμών κι σε προβλήμτ διχείρισης δικτύων κι τηλεπικοινωνιών. Σε πολλές περιπτώσεις η μθημτική διτύπωση η νάλυση κι η επίλυση του προβλήμτος είνι εφικτή μέσω της κτσκευής ενός κτάλληλου μοντέλου που είνι γνωστό ως Μρκοβινό μοντέλο ποφάσεων. Το Μρκοβινό μοντέλο ποφάσεων επινοήθηκε πό τον Bellma 957 κι είνι έν κτάλληλο μθημτικό μοντέλο που χρησιμοποιείτι συχνά γι την περιγρφή μις στοχστικής διδικσίς η οποί μπορεί ν ελεγχθεί πό μί κολουθί ενεργειών. Σε πολλά προβλήμτ Μρκοβινών μοντέλων ποφάσεων έχει ποδειχθεί ότι η βέλτιστη πολιτική είνι μονότονη δηλδή ο ελεγκτής επεμβίνει στην εξέλιξη της διδικσίς ν κι μόνο ν η κτάστση της διδικσίς π.χ. ο βθμός επιδείνωσης ή η ηλικί ενός μηχνήμτος το πλήθος των πελτών σε μί ουρά νμονής το μέγεθος ενός βιολογικού πληθυσμού είνι μεγλύτερη ή ίση με μί κρίσιμη τιμή βλέπε π.χ. Blackbur 97 Kawa 983 So 99 Douer ad Yechal 994 Va der Duy Schoute ad Vaeste 995 Federgrue ad So 8
989 99 99 Beyam ad Yechal 999 Kyrakds 999a 4. Το γεγονός ότι μί μονότονη πολιτική είνι βέλτιστη επιτχύνει σημντικά τον υπολογισμό της. Ανφέρουμε τις εργσίες των Abakuks 979 Federgrue ad So 989 κι Love et al. στις οποίες σχεδιάστηκν ποδοτικοί λγόριθμοι γι τον υπολογισμό μις βέλτιστης μονότονης πολιτικής. Στην προύσ διτριβή μελετώντι διάφορ προβλήμτ βέλτιστου ελέγχου στοχστικών διδικσιών τ οποί μπορούν ν περιγρφούν με τη χρήση κτάλληλων Μρκοβινών μοντέλων ποφάσεων. Ανζητείτι η βέλτιστη πολιτική κι ποδεικνύετι σε κάποι πό υτά τ προβλήμτ ότι η βέλτιστη πολιτική είνι μονότονη. Σε άλλ προβλήμτ στ οποί φίνετι δύσκολο ν ποδειχθεί ότι η βέλτιστη πολιτική είνι μονότονη κτσκευάζοντι κτάλληλοι λγόριθμοι γι την εύρεση της βέλτιστης πολιτικής. Τ ριθμητικά ποτελέσμτ των λγορίθμων πρέχουν ισχυρή ένδειξη ότι η βέλτιστη πολιτική είνι μονότονη. Στο Κεφάλιο προυσιάζοντι με συνοπτικό τρόπο τ βσικά στοιχεί της θεωρίς των Μρκοβινών μοντέλων ποφάσεων τ περισσότερ των οποίων θ χρησιμοποιηθούν στ επόμεν κεφάλι. Η προυσίση βσίζετι στ διάφορ κριτήρι βελτιστοποίησης που κθορίζοντι πό την επιλογή της συνάρτησης του κόστους. Ιδιίτερη έμφση δίνετι στο κριτήριο της ελχιστοποίησης του μκροπρόθεσμου νμενόμενου μέσου κόστους νά μονάδ χρόνου που χρησιμοποιείτι σε όλ τ κεφάλι της διτριβής εκτός πό το Κεφάλιο 3 στο οποίο χρησιμοποιείτι το κριτήριο της ελχιστοποίησης του συνολικού νμενόμενου κόστους. Στο Κεφάλιο 3 μελετάτι το πρόβλημ του βέλτιστου ελέγχου μις διδιάσττης επιδημικής διδικσίς. Υποτίθετι ότι ένς πληθυσμός τόμων είνι δυντόν ν προσβληθεί πό δύο μετδοτικές σθένειες την σθένει κι την σθένει. Θεωρούμε ότι η σθένει είνι μί σοβρή σθένει κι ότι η σθένει είνι μί ήπι σθένει. Η προυσί ενός τόμου που έχει προσβληθεί πό τη σοβρή σθένει επιφέρει κάποιο κόστος ενώ η προυσί ενός τόμου που έχει προσβληθεί πό την ήπι σθένει δεν επιφέρει κάποιο κόστος. Θεωρούντι πολιτικές οι οποίες εμβολιάζουν με την ήπι σθένει τ επιδεκτικά άτομ που έχουν πομείνει στον πληθυσμό κι δεν έχουν προσβληθεί πό κμί πό τις δύο σθένειες ή πομονώνουν τ άτομ που έχουν προσβληθεί πό τη σοβρή σθένει. Υποτίθετι ότι ο εμβολισμός των επιδεκτικών κι η πομόνωση των προσβληθέντων τόμων επιφέρουν ντίστοιχ κόστη. Γενικεύοντι τ μοντέλ που επινοήθηκν πό τον Kyrakds 995 999c. Ορίζετι μί στοχστική επιδημική διδικσί στην οποί οι ρυθμοί προσβολής εξρτώντι πό μί δύνμη του ριθμού των προσβληθέντων τόμων. Κτσκευάζοντι κτάλληλοι λγόριθμοι 9
του δυνμικού προγρμμτισμού γι τον ριθμητικό υπολογισμό της βέλτιστης πολιτικής. Γι την ντίστοιχη ντετερμινιστική επιδημική διδικσί η μορφή της βέλτιστης πολιτικής ποδεικνύετι νλυτικά σε δύο περιπτώσεις κι συγκρίνετι ριθμητικά με τη βέλτιστη πολιτική της στοχστικής επιδημικής διδικσίς. Επίσης προυσιάζετι μί τροποποίηση της στοχστικής επιδημικής διδικσίς στην οποί θεωρείτι ότι το πηλίκο δύο πρμέτρων είνι μί τυχί μετβλητή που κολουθεί μί γνωστή κτνομή. Η βέλτιστη πολιτική υπολογίζετι ριθμητικά γι την τροποποιημένη διδικσί κι συγκρίνετι με την ντίστοιχη βέλτιστη πολιτική της στοχστικής επιδημικής διδικσίς. Στο Κεφάλιο 4 προτείνετι μί γενίκευση του μοντέλου που επινοήθηκε πό τους Va der Duy Schoute ad Vaeste 995. Υποτίθετι ότι έν σύστημ πργωγής ποτελείτι πό έν μηχνισμό τροφοδοσίς μί μονάδ πργωγής κι ένν ενδιάμεσο ποθηκευτικό χώρο. Ο μηχνισμός τροφοδοτεί τη μονάδ πργωγής με έν κτέργστο υλικό. Στο μοντέλο των Va der Duy Schoute ad Vaeste θεωρείτι ότι η επιδείνωση του μηχνισμού είνι στάσιμη υπό την έννοι ότι οι πιθνότητες μετάβσης εξρτώντι μόνο πό το βθμό επιδείνωσης του μηχνισμού. Στο προτεινόμενο μοντέλο θεωρείτι ότι η επιδείνωση του μηχνισμού δεν είνι στάσιμη διότι εξρτάτι πό το βθμό επιδείνωσης κι πό την ηλικί του μηχνισμού. Υποτίθετι ότι η λειτουργί του μηχνισμού μί προληπτική συντήρησή του ή μί επισκευή του επιφέρουν ντίστοιχ κόστη γι κάθε μονάδ χρόνου κτά την οποί ο μηχνισμός λειτουργεί συντηρείτι προληπτικά ή επισκευάζετι. Υποτίθετι επίσης ότι υπάρχει έν κόστος ποθήκευσης του κτέργστου υλικού στον ποθηκευτικό χώρο κι έν κόστος ότν ο ποθηκευτικός χώρος είνι κενός. Ορίζοντι κτάλληλες συνθήκες οι οποίες φορούν τ κόστη της λειτουργίς τ κόστη της προληπτικής συντήρησης τ κόστη της επισκευής τις πιθνότητες μετάβσης τους νμενόμενους χρόνους της προληπτικής συντήρησης κι τους νμενόμενους χρόνους της επισκευής του μηχνισμού. Αποδεικνύετι νλυτικά ότι η βέλτιστη πολιτική είνι μονότονη διότι γι στθερό περιεχόμενο του ποθηκευτικού χώρου κι στθερή ηλικί του μηχνισμού θέτει σε λειτουργί μί προληπτική συντήρηση ν κι μόνο ν ο βθμός επιδείνωσης του μηχνισμού είνι μεγλύτερος ή ίσος με μί κρίσιμη τιμή. Στην περίπτωση της στάσιμης επιδείνωσης του μηχνισμού επισημίνετι ότι η βέλτιστη πολιτική είνι επίσης μονότονη γι στθερό περιεχόμενο του ποθηκευτικού χώρου. Σχεδιάζετι ένς ποδοτικός λγόριθμος βελτίωσης των πολιτικών γι την περίπτωση υτή ο οποίος πράγει μί κολουθί βελτιωμένων πολιτικών που έχουν τη μονότονη μορφή. Υπάρχει ισχυρή ένδειξη
βάσει ριθμητικών ποτελεσμάτων ότι η τελική πολιτική που πράγει ο λγόριθμος είνι βέλτιστη. Μελετώντι κόμ δύο γενικεύσεις του στάσιμου μοντέλου στις οποίες υπολογίζετι ριθμητικά η βέλτιστη πολιτική. Προυσιάζετι επίσης μί τροποποίηση του στάσιμου μοντέλου στην οποί υποθέτουμε ότι οι πιτούμενοι χρόνοι γι μί προληπτική συντήρηση κι μί επισκευή του μηχνισμού είνι συνεχείς τυχίες μετβλητές. Σχεδιάζετι ένς ποδοτικός λγόριθμος βελτίωσης των πολιτικών γι το τροποποιημένο μοντέλο ο οποίος εφρμόζετι στο σύνολο των μονότονων πολιτικών κι πράγει μί κολουθί βελτιωμένων πολιτικών που έχουν τη μονότονη μορφή. Υπάρχει πάλι ισχυρή ένδειξη ότι η τελική πολιτική που πράγει ο λγόριθμος είνι βέλτιστη. Στο Κεφάλιο 5 μελετάτι έν μοντέλο που επινοήθηκε πό τους Kma et al. 988 κι γενικεύτηκε πό τους Maks ad Jarde 993. Υποτίθετι ότι έν σύστημ επιδεινώνετι με την πάροδο του χρόνου κι ότι η λειτουργί του δικόπτετι εξιτίς ενδεχόμενων βλβών. Υποτίθετι επίσης ότι ότν το σύστημ έχει υποστεί μί βλάβη μπορεί ν επισκευστεί ή ν ντικτστθεί πό έν κινούργιο σύστημ. Η επισκευή κι η ντικτάστση του συστήμτος επιφέρουν ντίστοιχ κόστη. Οι Maks ad Jarde όρισν κτάλληλες συνθήκες οι οποίες φορούν τ κόστη της επισκευής τ κόστη της ντικτάστσης κι το ρυθμό επιδείνωσης του συστήμτος. Απέδειξν ότι η βέλτιστη πολιτική είνι μονότονη διότι ντικθιστά το σύστημ ότν έχει υποστεί την οστή βλάβη ν κι μόνο ν η ηλικί του είνι μεγλύτερη ή ίση με μί κρίσιμη τιμή η οποί εξρτάτι πό τον ριθμό. Σχεδιάζουμε ένν ποδοτικό λγόριθμο βελτίωσης των πολιτικών ο οποίος εφρμόζετι στο σύνολο των μονότονων πολιτικών κι πράγει μί κολουθί βελτιωμένων πολιτικών που έχουν τη μονότονη μορφή. Ο λγόριθμος είνι κτά πολύ τχύτερος ενός πρόμοιου λγορίθμου που νπτύχθηκε πό τους Love et al.. Πολλά ριθμητικά πρδείγμτ πρέχουν ισχυρή ένδειξη ότι ο λγόριθμος συγκλίνει στη βέλτιστη πολιτική. Στο Κεφάλιο 6 επεκτείνετι έν μοντέλο που επινοήθηκε πό τον Ecoomou 3. Ο Ecoomou υπέθεσε ότι ένς πληθυσμός πρσίτων νπτύσσετι στοχστικά σύμφων με μί σύνθετη διδικσί Posso κι μπορεί ν ελεγχθεί πό έν μηχνισμό ο οποίος ότν τίθετι σε λειτουργί κτστρέφει ολοκληρωτικά τον πληθυσμό. Υπέθεσε επίσης ότι ο ρυθμός του κόστους γι τη λειτουργί του μηχνισμού της κτστροφής είνι στθερός κι ότι ο ρυθμός του κόστους που προξενούν τ πράσιτ είνι μί ύξουσ συνάρτηση ως προς το πληθυσμικό τους μέγεθος. Χρησιμοποίησε την τεχνική της ομοιομορφοποίησης βλέπε π.χ. Seott 999
κι πέδειξε ότι ότν τ κόστη είνι άνω φργμέν η βέλτιστη πολιτική είνι μονότονη διότι θέτει σε λειτουργί το μηχνισμό της κτστροφής ν κι μόνο ν το μέγεθος του πληθυσμού των πρσίτων είνι μεγλύτερο ή ίσο με μί κρίσιμη τιμή. Στην προύσ διτριβή χρησιμοποιούμε τη μέθοδο των διδοχικών προσεγγίσεων βλέπε π.χ. Ross 99 κι δίνουμε μί διφορετική πόδειξη του ποτελέσμτος του Ecoomou το οποίο γενικεύετι γι την περίπτωση κτά την οποί τ κόστη δεν είνι άνω φργμέν. Αποδεικνύουμε επίσης ότι το μκροπρόθεσμο νμενόμενο μέσο κόστος νά μονάδ χρόνου υπό τον έλεγχο μις μονότονης πολιτικής είνι μί μονοκόρυφη συνάρτηση ως προς την κρίσιμη τιμή. Το ποτέλεσμ υτό επιτρέπει την εφρμογή δύο ποδοτικών λγορίθμων γι τον ριθμητικό υπολογισμό της βέλτιστης μονότονης πολιτικής δηλδή της μεθόδου της διχοτόμησης κι ενός κτάλληλου λγορίθμου που πράγει βελτιωμένες μονότονες πολιτικές. Προτείνετι επίσης μί μέθοδος γι τον κριβή υπολογισμό των στάσιμων πιθνοτήτων υπό τον έλεγχο μις μονότονης πολιτικής. Επιπλέον μελετάμε έν γενικότερο μοντέλο στο οποίο ότν ο μηχνισμός τίθετι σε λειτουργί προξενεί μί διωνυμική κτστροφή ντί μις ολοκληρωτικής κτστροφής του πληθυσμού των πρσίτων. Κτσκευάζετι ένς κτάλληλος λγόριθμος γι τον ριθμητικό υπολογισμό της βέλτιστης πολιτικής ο οποίος βσίζετι στην προσεγγιστική μέθοδο της Seott 997. Πολλά πρδείγμτ πρέχουν ισχυρή ένδειξη ότι η βέλτιστη πολιτική γι το μοντέλο με τις διωνυμικές κτστροφές είνι επίσης μονότονη. Στο Κεφάλιο 7 προτείνετι μί τροποποίηση του μοντέλου που επινοήθηκε πό τον Kyrakds 3. Ο Kyrakds υπέθεσε ότι ένς πληθυσμός πρσίτων νπτύσσετι στοχστικά σε έν βιότοπο σύμφων με μί πλή διδικσί Posso κι μπορεί ν ελεγχθεί με την εισγωγή ενός ρπκτικού. Υπέθεσε επίσης ότι ο ρυθμός του κόστους γι την εισγωγή του ρπκτικού στο βιότοπο είνι στθερός κι ότι ο ρυθμός του κόστους που προξενούν τ πράσιτ είνι μί ύξουσ συνάρτηση ως προς το πληθυσμικό τους μέγεθος. Θεώρησε ότι το ρπκτικό μπορεί ν ποδημήσει πό το βιότοπο μόνο ότν έχει εξοντώσει όλ τ πράσιτ. Στο προτεινόμενο μοντέλο υποτίθετι ότι το ρπκτικό μπορεί ν ποδημήσει πό το βιότοπο πριν εξοντώσει όλ τ πράσιτ. Κτσκευάζετι ένς κτάλληλος λγόριθμος γι τον ριθμητικό υπολογισμό της βέλτιστης πολιτικής ο οποίος βσίζετι στην προσεγγιστική μέθοδο της Seott 997. Επληθεύοντι οι συνθήκες που εγγυώντι τη σύγκλιση του λγορίθμου στη βέλτιστη πολιτική. Πολλά πρδείγμτ πρέχουν ισχυρή ένδειξη ότι η βέλτιστη πολιτική είνι
μονότονη διότι εισάγει το ρπκτικό στο βιότοπο ν κι μόνο ν το μέγεθος του πληθυσμού των πρσίτων είνι μεγλύτερο ή ίσο με μί κρίσιμη τιμή. Σημειώνετι ότι οι λγόριθμοι της προύσς διτριβής υλοποιήθηκν με χρήση του μθημτικού πκέτου Matlab κι εκτελέστηκν σε υπολογιστή τύπου Acer Aspre 65DLC. 3
ΚΕΦΑΛΑΙΟ Στοιχεί της θεωρίς των Μρκοβινών διδικσιών ποφάσεων. Εισγωγή Στις ρχές του ου ιών ο Ρώσος Μθημτικός A. A. Markov στην προσπάθειά του ν ερμηνεύσει την «βεβιότητ» στην ενλλγή φωνηέντων κι συμφώνων γρμμάτων στο ποίημ «Oeg» του Pushk εισήγγε τη θεωρί των Μρκοβινών διδικσιών. Ο Bellma 957 εισήγγε τη θεωρί του δυνμικού προγρμμτισμού. Ανέπτυξε μί νδρομική διδικσί η οποί υπολογίζει βέλτιστες τιμές συνρτήσεων κέρδους ή κόστους μέσω μις κτάλληλης συνρτησικής εξίσωσης. Ο δυνμικός προγρμμτισμός χρησιμοποιείτι σε προβλήμτ πεπερσμένου ή άπειρου χρονικού ορίζοντ στ οποί μί στοχστική διδικσί ελέγχετι πό μί κολουθί ενεργειών. Ο κύριος στόχος είνι η εύρεση ενός κνόν επιλογής των ενεργειών που ελέγχει τη διδικσί με το βέλτιστο τρόπο. Ο Howard 96 συνδύσε ιδέες του δυνμικού προγρμμτισμού με στοιχεί της θεωρίς των στοχστικών διδικσιών κι κτσκεύσε ένν λγόριθμο βελτίωσης των πολιτικών γι ν υπολογίσει τη βέλτιστη πολιτική σε προβλήμτ ελέγχου διδικσιών σε άπειρο χρονικό ορίζοντ. Οι Μρκοβινές διδικσίες ποφάσεων εισήχθησν πό τον Bellma 957 κι ήτν ποτέλεσμ του συνδυσμού της θεωρίς των Μρκοβινών διδικσιών κι του δυνμικού προγρμμτισμού. Κτά τη διάρκει των τελευτίων τεσσάρων δεκετιών ποτελούν το ντικείμενο έρευνς πολλών ερευνητών. Έχουν βρει εφρμογή σε διάφορ πεδί της επιστήμης όπως γι πράδειγμ στην Επιχειρησική Έρευν στη Βιολογί στην Οικολογί κι στην Πληροφορική. Ειδικότερ έχουν ποδειχθεί πολύ χρήσιμες σε προβλήμτ βέλτιστου ελέγχου ποθεμάτων βέλτιστου ελέγχου ουρών νμονής κι βιολογικών πληθυσμών βέλτιστης συντήρησης κι ντικτάστσης μηχνημάτων βέλτιστης διχείρισης δικτύων κι τηλεπικοινωνιών. Στ βιβλί των Ross 983 99 Puterma 994 Seott 999 κι Bather προυσιάζοντι με λεπτομέρει βσικά ποτελέσμτ της θεωρίς των Μρκοβινών διδικσιών πoφάσεων. Οι λγόριθμοι του δυνμικού προγρμμτισμού κι οι βελτιώσεις 4
τους προυσιάζοντι λεπτομερώς με διάφορες εφρμογές τους στ βιβλί των Puterma 994 Tms 994 κι Heyma ad Sobel 4. Στο πρόν κεφάλιο θ προυσιάσουμε με συνοπτικό τρόπο στοιχεί της θεωρίς των Μρκοβινών διδικσιών ποφάσεων τ περισσότερ των οποίων θ χρησιμοποιηθούν στ επόμεν κεφάλι. Στο Εδάφιο. περιγράφουμε τις Μρκοβινές διδικσίες ποφάσεων σε δικριτό χρόνο κι εισάγουμε βσικές έννοιες. Στ Εδάφι.3 κι.4 νφέρουμε γνωστά ποτελέσμτ γι τ προβλήμτ του πεπερσμένου κι του άπειρου χρονικού ορίζοντ ντίστοιχ. Στο Εδάφιο.5 προυσιάζουμε τις ημι-μρκοβινές διδικσίες ποφάσεων κι μί υποκτηγορί τους τις Μρκοβινές διδικσίες ποφάσεων σε συνεχή χρόνο. Στο Εδάφιο.6 περιγράφουμε με συνοπτικό τρόπο την προσεγγιστική μέθοδο της Seott 997.. Μρκοβινές διδικσίες ποφάσεων σε δικριτό χρόνο Έστω μί στοχστική διδικσί X =... όπου η τυχί μετβλητή X νπριστά την κτάστση ενός συστήμτος τη χρονική στιγμή. Το σύνολο των κτστάσεων του συστήμτος είνι πεπερσμένο ή άπειρο ριθμήσιμο. Χάριν πλότητς στο πρόν κεφάλιο μπορούμε ν υποθέσουμε ότι είνι το σύνολο των μη-ρνητικών κερίων ριθμών... Το σύστημ επιθεωρείτι τις χρονικές στιγμές =... οι οποίες θεωρούμε ότι ισπέχουν μετξύ τους. Η κτάστση του συστήμτος πρτηρείτι σε κάθε χρονική στιγμή επιθεώρησης κι μί ενέργει επιλέγετι πό έν σύνολο ενλλκτικών ενεργειών. Έστω ότι σε κάποι χρονική στιγμή επιθεώρησης το σύστημ βρίσκετι στην κτάστση κι η ενέργει a επιλέγετι πό έν σύνολο ενλλκτικών ενεργειών A. Υποθέτουμε ότι το σύνολο A είνι πεπερσμένο. Το σύστημ που περιγράψμε πρπάνω είνι μί Μρκοβινή διδικσί ποφάσεων σε δικριτό χρόνο ν: Υπάρχει έν κόστος C a το οποίο εξρτάτι μόνον πό την κτάστση κι την ενέργει a ως οικονομική συνέπει της επιλογής της ενέργεις a τη χρονική στιγμή κτά την οποί το σύστημ βρίσκετι στην κτάστση. β Την επόμενη χρονική στιγμή η κτάστση του συστήμτος είνι η κτάστση με πιθνότητ p a η οποί εξρτάτι μόνον πό την ενέργει a κι τις κτστάσεις κι. 5
Ο όρος «Μρκοβινή» δικιολογείτι πό το γεγονός ότι το κόστος C a κι η πιθνότητ μετάβσης p a εξρτώντι πό το «πρελθόν» της διδικσίς μόνο μέσω της τρέχουσς κτάστσης της διδικσίς κι της ενέργεις a που επιλέγετι στην κτάστση. Μί πολιτική π είνι ένς κνόνς με τον οποίον επιλέγοντι οι ενέργειες κτά τις χρονικές στιγμές =... Έστω I το σύνολο όλων των πολιτικών. Υπάρχουν διάφορ είδη πολιτικών βλέπε σελ. του βιβλίου του Puterma 994. Η τξινόμησή τους εξρτάτι πό το ν είνι ή όχι «τυχιοποιημένες» κθώς κι πό το ν εξρτώντι πό την «ιστορί» της διδικσίς. Με τον όρο «τυχιοποιημένη» θεωρούμε εκείνη την πολιτική σύμφων με την οποί ότν η διδικσί βρίσκετι στην κτάστση μί ενέργει a επιλέγετι με πιθνότητ P a a A σε κάποι χρονική στιγμή επιλογής των ενεργειών. Στην προύσ διτριβή θ μς πσχολήσουν οι Μρκοβινές πολιτικές κθώς επίσης κι μί σημντική υποκτηγορί τους οι στάσιμες πολιτικές. Μί Μρκοβινή πολιτική είνι μί πολιτική σύμφων με την οποί η επιλογή μις ενέργεις σε κάθε χρονική στιγμή =... εξρτάτι μόνον πό τη χρονική στιγμή κι πό την κτάστση της διδικσίς σ υτή τη χρονική στιγμή. Μί στάσιμη πολιτική είνι μί πολιτική σύμφων με την οποί η επιλογή μις ενέργεις σε κάθε χρονική στιγμή =... εξρτάτι μόνον πό την κτάστση της διδικσίς σ υτή τη χρονική στιγμή. Επομένως μί στάσιμη πολιτική f κθορίζετι πλήρως πό μί κολουθί { f } =... όπου f A είνι η ενέργει που επιλέγετι οποτεδήποτε η διδικσί βρίσκετι στην κτάστση σε μί χρονική στιγμή επιλογής ενέργεις. Στη γενική του μορφή το πρόβλημ που θ μς πσχολήσει είνι η εύρεση της πολιτικής η οποί γι κάθε ρχική κτάστση της διδικσίς ελχιστοποιεί μί προκθορισμένη συνάρτηση κόστους. Η συνάρτηση του κόστους ορίζει το κριτήριο βελτιστοποίησης του προβλήμτος. Τ κριτήρι βελτιστοποίησης τ οποί χρησιμοποιούντι πιο συχνά είνι η ελχιστοποίηση του συνολικού νμενόμενου ποπληθωρισμένου κόστους κι η ελχιστοποίηση του μκροπρόθεσμου νμενόμενου μέσου κόστους νά μονάδ χρόνου. Επίσης θ μς πσχολήσει το κριτήριο της ελχιστοποίησης του συνολικού νμενόμενου κόστους. 6
Αν υπάρχει ένς στθερός κέριος ριθμός N τέτοιος ώστε οι ενέργειες γι τον έλεγχο μις Μρκοβινής διδικσίς ποφάσεων σε δικριτό χρόνο επιλέγοντι τις χρονικές στιγμές... N κι η διδικσί στμτά τη χρονική στιγμή N τότε το πρόβλημ είνι πεπερσμένου χρονικού ορίζοντ N βημάτων. Διφορετικά ν το σύνολο των χρονικών στιγμών επιλογής ενέργεις είνι άπειρο το πρόβλημ είνι άπειρου χρονικού ορίζοντ..3 Προβλήμτ πεπερσμένου χρονικού ορίζοντ Έστω a η ενέργει που επιλέγετι τη χρονική στιγμή. Το συνολικό νμενόμενο ποπληθωρισμένο κόστος V N π ότν πομένουν N βήμτ μέχρι το τερμτισμό της διδικσίς υπό τον έλεγχο της πολιτικής π δοθέντος ότι η ρχική κτάστση της διδικσίς είνι η κτάστση ορίζετι ως εξής: N = N V N π Eπ C X a + F X N X = = όπου E π νπριστά την υπό-συνθήκη νμενόμενη τιμή δοθέντος ότι η πολιτική π έχει υιοθετηθεί γι τον έλεγχο της διδικσίς. Η συνάρτηση F είνι μί γνωστή μη-ρνητική συνάρτηση κόστους η οποί ορίζετι στο χώρο κτστάσεων της διδικσίς κι ντιπροσωπεύει έν τελικό κόστος F X ότν η διδικσί στμτά τη χρονική στιγμή N. Η N στθερά ] είνι ο ποπληθωριστικός πράγοντς. Γι κάθε κτάστση της διδικσίς η βέλτιστη συνάρτηση V N του νμενόμενου ποπληθωρισμένου κόστους ότν πομένουν N βήμτ μέχρι το τερμτισμό της διδικσίς ορίζετι ως εξής: V N = f V N π. π I Το πρκάτω θεώρημ πρέχει μί εξίσωση που υπολογίζει νδρομικά τη βέλτιστη συνάρτηση γι κάθε κτάστση της διδικσίς. 7
Θεώρημ.. Η ποσότητ V N ικνοποιεί γι κάθε N =... την εξίσωση: = m + V N C a p a V N. a A = όπου V = F. Επιπλέον υπάρχει μί βέλτιστη Μρκοβινή πολιτική η οποί οποτεδήποτε η διδικσί βρίσκετι στην κτάστση επιλέγει εκείνη την ενέργει a που ελχιστοποιεί το δεξιό μέλος της εξίσωσης.. Η εξίσωση. είνι γνωστή ως εξίσωση βελτιστοποίησης γι το πρόβλημ της ελχιστοποίησης του συνολικού νμενόμενου ποπληθωρισμένου κόστους σε πεπερσμένο χρονικό ορίζοντ. Το Θεώρημ. μπορεί ν ποδειχθεί με επγωγή ως προς N κι η πόδειξη βρίσκετι στις σελ. 37-39 του βιβλίου της Seott 999. Στην περίπτωση κτά την οποί ο ποπληθωριστικός πράγοντς είνι ίσος με τη μονάδ έχουμε το πρόβλημ της ελχιστοποίησης του συνολικού νμενόμενου κόστους σε πεπερσμένο χρονικό ορίζοντ. Γι το πρόβλημ υτό οι προνφερθέντες ορισμοί κι το Θεώρημ. ισχύουν ν θέσουμε =..4 Προβλήμτ άπειρου χρονικού ορίζοντ.4. Ελχιστοποίηση συνολικού νμενόμενου ποπληθωρισμένου κόστους Στο πρόν εδάφιο υποθέτουμε ότι ο ποπληθωριστικός πράγοντς είνι γνησίως μικρότερος της μονάδς. Επίσης θεωρούμε ότι υπάρχει ένς θετικός πργμτικός ριθμός M τέτοιος ώστε γι κάθε ενέργει a κι κάθε κτάστση της διδικσίς ισχύει ότι: C a < M. Το συνολικό νμενόμενο ποπληθωρισμένο κόστος V π σε άπειρο χρονικό ορίζοντ υπό τον έλεγχο της πολιτικής π δοθέντος ότι η ρχική κτάστση της διδικσίς είνι η κτάστση ορίζετι ως εξής: 8
V = π Eπ = C X a X =. Οι πρπάνω υποθέσεις εξσφλίζουν ότι: V π <. Γι κάθε κτάστση της διδικσίς η βέλτιστη συνάρτηση V του νμενόμενου ποπληθωρισμένου κόστους σε άπειρο χρονικό ορίζοντ ορίζετι ως εξής: V = f V π. π I Το Θεώρημ. πρέχει μί εξίσωση η οποί ικνοποιείτι πό τη βέλτιστη συνάρτηση V. Θεώρημ.. Η ποσότητ V ικνοποιεί την εξίσωση: = m + V C a p a V.. a A = Επιπλέον υπάρχει μί βέλτιστη στάσιμη πολιτική f f } η οποί οποτεδήποτε η διδικσί βρίσκετι στην κτάστση επιλέγει εκείνη την ενέργει το δεξιό μέλος της εξίσωσης. κι ικνοποιεί τη σχέση V = V f. { a = f που ελχιστοποιεί Η εξίσωση. είνι γνωστή ως εξίσωση βελτιστοποίησης γι το πρόβλημ της ελχιστοποίησης του συνολικού νμενόμενου ποπληθωρισμένου κόστους σε άπειρο χρονικό ορίζοντ. Η πόδειξη του Θεωρήμτος. βρίσκετι στις σελ. κι 4 του βιβλίου του Ross 99. Το Θεώρημ Στθερού Σημείου γι συστολές προσφέρει μί διφορετική προσέγγιση γι τον υπολογισμό της βέλτιστης συνάρτησης V. Με χρήση γνωστών ποτελεσμάτων υτής της θεωρίς βλέπε σελ. 5-8 του βιβλίου του Ross 99 ποδεικνύετι ότι γι κάθε 9
κτάστση της διδικσίς η βέλτιστη συνάρτηση V είνι η μονδική λύση της εξίσωσης βελτιστοποίησης.. Με βάση το πρκάτω θεώρημ υπολογίζουμε γι κάθε κτάστση της διδικσίς τη βέλτιστη συνάρτηση V σε άπειρο χρονικό ορίζοντ μέσω της βέλτιστης συνάρτησης V N ότν πομένουν N βήμτ μέχρι το τερμτισμό της διδικσίς. Η μέθοδος υπολογισμού είνι γνωστή ως μέθοδος των διδοχικών προσεγγίσεων. Θεώρημ.3. Έστω ότι η μη-ρνητική συνάρτηση κόστους F η οποί ορίζετι στο χώρο κτστάσεων της διδικσίς είνι φργμένη. Τότε ισχύει ότι: lm V N V N =. Η πόδειξη του Θεωρήμτος.3 βρίσκετι στη σελ. 8 του βιβλίου του Ross 99. Το θεώρημ είνι ρκετά χρήσιμο κθώς σε πολλές περιπτώσεις μς δίνει τη δυντότητ ν ντιμετωπίσουμε το πρόβλημ του άπειρου χρονικού ορίζοντ μέσω του ντίστοιχου προβλήμτος σε πεπερσμένο χρονικό ορίζοντ. Αποτελέσμτ τ οποί σχετίζοντι με τη βέλτιστη συνάρτηση V σε άπειρο χρονικό ορίζοντ ποδεικνύοντι με τη χρήση του Θεωρήμτος.3 φού πρώτ έχουν ποδειχθεί γι την ντίστοιχη βέλτιστη συνάρτηση V N ότν πομένουν N βήμτ μέχρι το τερμτισμό της διδικσίς. Ο λγόριθμος βελτίωσης των πολιτικών ο λγόριθμος των διδοχικών προσεγγίσεων ο οποίος βσίζετι στο Θεώρημ.3 κι η μέθοδος του γρμμικού προγρμμτισμού ποτελούν τις βσικές υπολογιστικές τεχνικές γι την εύρεση της βέλτιστης στάσιμης πολιτικής στο πρόβλημ της ελχιστοποίησης του συνολικού νμενόμενου ποπληθωρισμένου κόστους σε άπειρο χρονικό ορίζοντ. Στ βιβλί των Puterma 994 Tms 994 κι Heyma ad Sobel 4 προυσιάζοντι νλυτικά υτές οι υπολογιστικές τεχνικές με πολλές ριθμητικές εφρμογές τους..4. Ελχιστοποίηση μκροπρόθεσμου νμενόμενου μέσου κόστους νά μονάδ χρόνου Το μκροπρόθεσμο νμενόμενο μέσο κόστος g π νά μονάδ χρόνου υπό τον έλεγχο της πολιτικής π δοθέντος ότι η ρχική κτάστση της διδικσίς είνι η κτάστση ορίζετι ως εξής:
g π = lmsup E π = C X a X =. Γι κάθε κτάστση της διδικσίς μί πολιτική π * είνι βέλτιστη ν: g π* = m g π. π I Σε ντίθεση με το πρόβλημ της ελχιστοποίησης του συνολικού νμενόμενου ποπληθωρισμένου κόστους στο πρόβλημ της ελχιστοποίησης του μκροπρόθεσμου νμενόμενου μέσου κόστους νά μονάδ χρόνου η ύπρξη μις βέλτιστης πολιτικής δεν είνι βέβιη. Υπάρχουν προβλήμτ ελέγχου μις στοχστικής διδικσίς στ οποί η βέλτιστη πολιτική είτε δεν υπάρχει είτε κι ν κόμη υπάρχει δεν είνι μί στάσιμη πολιτική. Πρδείγμτ τέτοιων περιπτώσεων νφέροντι στις σελ. 4-44 του βιβλίου του Ross 99 κι στις σελ. 8-3 του βιβλίου της Seott 999. Πολλοί ερευνητές έχουν σχοληθεί με το θέμ της κτσκευής κτάλληλων υποθέσεων οι οποίες εξσφλίζουν την ύπρξη μις βέλτιστης στάσιμης πολιτικής. Στο Κεφάλιο 7 του βιβλίου της Seott 999 γίνετι μί νλυτική προυσίση των πρόσφτων ποτελεσμάτων σχετικά με το θέμ υτό με ρκετές νφορές σε προηγούμενες εργσίες. Στο πρόν εδάφιο υποθέτουμε πάλι ότι υπάρχει ένς θετικός πργμτικός ριθμός M τέτοιος ώστε γι κάθε ενέργει a κι κάθε κτάστση της διδικσίς ισχύει ότι: C a < M. Το Θεώρημ.4 πρέχει μί ικνή συνθήκη γι την ύπρξη μις βέλτιστης στάσιμης πολιτικής. Θεώρημ.4. Έστω ότι υπάρχει μί άνω φργμένη κολουθί ριθμών { h } κι μί στθερά g έτσι ώστε: = m + h C a g p a h..3 a A =
Τότε υπάρχει μί βέλτιστη στάσιμη πολιτική f f } η οποί οποτεδήποτε η διδικσί βρίσκετι στην κτάστση επιλέγει εκείνη την ενέργει { a = f που ελχιστοποιεί το δεξιό μέλος της εξίσωσης.3. Επιπλέον η στθερά g είνι ίση με g f. Η εξίσωση.3 είνι γνωστή ως εξίσωση βελτιστοποίησης γι το πρόβλημ της ελχιστοποίησης του μκροπρόθεσμου νμενόμενου μέσου κόστους νά μονάδ χρόνου κι οι τιμές h είνι γνωστές ως οι σχετικές τιμές της βέλτιστης στάσιμης πολιτικής. Η πόδειξη του Θεωρήμτος.4 βρίσκετι στη σελ. 44 του βιβλίου του Ross 99. Γι κάθε κτάστση της διδικσίς το πρκάτω θεώρημ πρέχει μί συνθήκη η οποί εγγυάτι την ύπρξη της κολουθίς των σχετικών τιμών { h } μέσω της βέλτιστης συνάρτησης V. Θεώρημ.5. Έστω ότι γι μί κτάστση της διδικσίς π.χ. γι την κτάστση υπάρχει μί στθερά B τέτοι ώστε: V V < B.4 γι κάθε κι κάθε. Τότε: Υπάρχει μί φργμένη κολουθί ριθμών { h } κι μί στθερά g που ικνοποιούν την εξίσωση βελτιστοποίησης.3. β Υπάρχει μί κολουθί ριθμών { } τέτοι ώστε lm = γι την οποί ισχύει ότι: h = lm{ V V } κι γ lm V = g. Η πόδειξη του Θεωρήμτος.5 βρίσκετι στις σελ. 46-49 του βιβλίου του Ross 99 στο οποίο περιέχοντι επίσης ποτελέσμτ που πρέχουν ικνές συνθήκες τέτοιες ώστε ν ισχύει η νισότητ.4.
Στο πρόβλημ της ελχιστοποίησης του μκροπρόθεσμου νμενόμενου μέσου κόστους νά μονάδ χρόνου η κόλουθη Υπόθεση UC χρειάζετι ν εισχθεί έτσι ώστε ν είνι εφικτός ο υπολογισμός μις βέλτιστης στάσιμης πολιτικής. Υπόθεση UC: Γι κάθε στάσιμη πολιτική f υπάρχει μί κτάστση r η οποί μπορεί ν εξρτάτι πό την πολιτική f τέτοι ώστε ο νμενόμενος χρόνος κι το νμενόμενο κόστος που πιτούντι γι τη μετάβση στην κτάστση r πό οποιδήποτε ρχική κτάστση της διδικσίς υπό τον έλεγχο της πολιτικής f είνι πεπερσμέν. Η Υπόθεση UC εξσφλίζει επίσης ότι το μκροπρόθεσμο νμενόμενο μέσο κόστος νά μονάδ χρόνου οποισδήποτε στάσιμης πολιτικής που υιοθετείτι γι τον έλεγχο της διδικσίς είνι νεξάρτητο της ρχικής κτάστσης της διδικσίς. Όπως στο πρόβλημ της ελχιστοποίησης του συνολικού νμενόμενου ποπληθωρισμένου κόστους έτσι κι στο πρόβλημ της ελχιστοποίησης του μκροπρόθεσμου νμενόμενου μέσου κόστους νά μονάδ χρόνου ο λγόριθμος βελτίωσης των πολιτικών ο λγόριθμος των διδοχικών προσεγγίσεων κι η μέθοδος του γρμμικού προγρμμτισμού συνιστούν τις βσικές υπολογιστικές τεχνικές. Στ βιβλί των Puterma 994 Tms 994 κι Heyma ad Sobel 4 περιέχετι το θεωρητικό υπόβθρο υτών των υπολογιστικών τεχνικών κθώς κι ρκετές εφρμογές τους. Ο λγόριθμος βελτίωσης των πολιτικών βσίζετι στ κόλουθ Θεωρήμτ.6 κι.7 τ οποί με τις ποδείξεις τους βρίσκοντι στις σελ. 9-7 του βιβλίου του Tms 994. Θεώρημ.6. Έστω ότι υπάρχει μί κτάστση r η οποί ικνοποιεί την Υπόθεση UC. Έστω g f το μκροπρόθεσμο νμενόμενο μέσο κόστος νά μονάδ χρόνου υπό τον έλεγχο της στάσιμης πολιτικής f f } κι { h f = K f g T f.5 f 3
όπου T f κι K f είνι ο νμενόμενος χρόνος κι το νμενόμενο κόστος ντίστοιχ που πιτούντι μέχρι η διδικσί ν επιστρέψει στην κτάστση r ν ρχικά βρισκότν στην κτάστση κι η πολιτική f έχει υιοθετηθεί γι τον έλεγχο της διδικσίς. Τότε: Οι ποσότητες h f κι g f είνι η μονδική λύση του κόλουθου συστήμτος των γρμμικών εξισώσεων με γνώστους g κι h : = + h C f g p f h.6 = h r =. Θεώρημ.7. Έστω ότι υπάρχει μί κτάστση r η οποί ικνοποιεί την Υπόθεση UC. Έστω g f κι g ~ τ μκροπρόθεσμ νμενόμεν μέσ κόστη νά μονάδ χρόνου υπό τον έλεγχο f ~ ~ των στάσιμων πολιτικών f f } κι f { } ντίστοιχ. Υποθέτουμε ότι: { f ~ ~ C f g + p f h f h f.7 f = όπου οι ποσότητες h f έχουν οριστεί μέσω της εξίσωσης.5. Τότε: g..8 ~ f g f Το θεώρημ ισχύει κι στην περίπτωση κτά την οποί οι νισότητες.7 κι.8 έχουν ντίθετη φορά. Επίσης η νισότητ.8 ισχύει υστηρά ότν η νισότητ.7 ισχύει υστηρά γι μί τουλάχιστον κτάστση της διδικσίς η οποί είνι έμμονη θετική υπό τον έλεγχο ~ της πολιτικής f. 4
Οι ποσότητες h f όπως έχουν οριστεί στην εξίσωση.5 είνι γνωστές ως οι σχετικές τιμές της πολιτικής f..5 Ημι-Μρκοβινές διδικσίες ποφάσεων κι Μρκοβινές διδικσίες ποφάσεων σε συνεχή χρόνο Σε ντίθεση με το Εδάφιο. στο πρόν εδάφιο θεωρούμε ότι γι τον έλεγχο του συστήμτος οι ενέργειες επιλέγοντι σε τυχίες χρονικές στιγμές. Έστω X η κτάστση του συστήμτος τη χρονική στιγμή κι t το χρονικό διάστημ που μεσολβεί μετξύ των χρονικών στιγμών κι. Υποθέτουμε ότι t κι ότι τη χρονική στιγμή το σύστημ βρίσκετι στην κτάστση στην οποί η ενέργει a επιλέγετι πό έν σύνολο ενλλκτικών ενεργειών A. Το σύστημ είνι μί ημι-μρκοβινή διδικσί ποφάσεων ν: = Την επόμενη χρονική στιγμή η κτάστση του συστήμτος είνι η κτάστση με πιθνότητ p a η οποί εξρτάτι μόνον πό την ενέργει a κι τις κτστάσεις κι. β Δοθέντος ότι την επόμενη χρονική στιγμή η κτάστση του συστήμτος είνι η κτάστση το χρονικό διάστημ που μεσολβεί μέχρι το σύστημ ν μετβεί πό την κτάστση στην κτάστση είνι μί τυχί μετβλητή με συνάρτηση πιθνότητς F a. γ Δοθέντος ότι η μετάβση του συστήμτος πό την κτάστση στην κτάστση διρκεί t χρονικές μονάδες υπάρχει έν άμεσο κόστος ίσο με k a κι έν κόστος ίσο με c a νά μονάδ χρόνου με ποτέλεσμ το συνολικό κόστος ν είνι ίσο με k a + tc a ως οικονομική συνέπει της επιλογής της ενέργεις a τη χρονική στιγμή κτά την οποί το σύστημ βρίσκετι στην κτάστση. Υποθέτουμε ότι γι κάθε ενέργει a κι κάθε κτάστση της διδικσίς το άμεσο κόστος k a κι το κόστος c a νά μονάδ χρόνου είνι φργμέν. Στην προύσ διτριβή οι ημι-μρκοβινές διδικσίες ποφάσεων θ μς πσχολήσουν στο πρόβλημ της ελχιστοποίησης του συνολικού νμενόμενου ποπληθωρισμένου κόστους 5
σε άπειρο χρονικό ορίζοντ κθώς επίσης στο πρόβλημ της ελχιστοποίησης του μκροπρόθεσμου νμενόμενου μέσου κόστους νά μονάδ χρόνου. Δοθέντος ότι η διδικσί βρίσκετι στην κτάστση κι η ενέργει a A επιλέγετι ο νμενόμενος χρόνος T a κι το νμενόμενο ποπληθωρισμένο κόστος C a μέχρι την επόμενη χρονική στιγμή επιλογής ενέργεις ορίζοντι ντίστοιχ ως εξής: T a = p a = tdf t a C a = k a + p a = t c a e s ds df t a όπου > είνι ο ποπληθωριστικός πράγοντς. Ορίζουμε C a C a κι θεωρούμε ότι υπάρχει ένς θετικός πργμτικός ριθμός M τέτοιος ώστε γι κάθε ενέργει a κι κάθε κτάστση της διδικσίς ισχύει ότι: C a < M. Το συνολικό νμενόμενο ποπληθωρισμένο κόστος V N π ότν πομένουν N βήμτ μέχρι το τερμτισμό της διδικσίς το συνολικό νμενόμενο ποπληθωρισμένο κόστος V π σε άπειρο χρονικό ορίζοντ κι το μκροπρόθεσμο νμενόμενο μέσο κόστος g π νά μονάδ χρόνου υπό τον έλεγχο της πολιτικής π δοθέντος ότι η ρχική κτάστση της διδικσίς είνι η κτάστση ορίζοντι ντίστοιχ ως εξής: V N N t t = = = N Eπ + e C X a e F X N X = π = = = t V π Eπ e C X a X = = 6
7. lmsup = = = = = X t E X a X C E g π π π Η ποσότητ N X F ντιπροσωπεύει έν τελικό κόστος ότν η διδικσί στμτά τη χρονική στιγμή N όπου F είνι μί γνωστή μη-ρνητική συνάρτηση κόστους η οποί ορίζετι στο χώρο κτστάσεων της διδικσίς. Στην περίπτωση των ημι-μρκοβινών διδικσιών ποφάσεων τ Θεωρήμτ.-.7 ισχύουν με τις πρκάτω τροποποιήσεις. Γι κάθε κτάστση της διδικσίς η εξίσωση βελτιστοποίησης γι το πρόβλημ της ελχιστοποίησης του συνολικού νμενόμενου ποπληθωρισμένου κόστους ότν πομένουν N βήμτ μέχρι το τερμτισμό της διδικσίς είνι βλέπε σελ. του βιβλίου των Heyma ad Sobel 4:. m + = = t A a a t df N V e a p a C N V β Γι κάθε κτάστση της διδικσίς η εξίσωση βελτιστοποίησης γι το πρόβλημ της ελχιστοποίησης του συνολικού νμενόμενου ποπληθωρισμένου κόστους σε άπειρο χρονικό ορίζοντ είνι βλέπε σελ. 57 του βιβλίου του Ross 99:. m + = = t A a a t df V e a p a C V γ Γι κάθε κτάστση της διδικσίς η εξίσωση βελτιστοποίησης γι το πρόβλημ της ελχιστοποίησης του μκροπρόθεσμου νμενόμενου μέσου κόστους νά μονάδ χρόνου είνι βλέπε σελ. 6 του βιβλίου του Ross 99:
h = m + C a gt a A = p a h. δ Αν ισχύουν οι υποθέσεις του Θεωρήμτος.5 τ ποτελέσμτ β κι γ του θεωρήμτος διμορφώνοντι ως εξής βλέπε σελ. 63 του βιβλίου του Ross 99: Υπάρχει μί κολουθί ριθμών { } τέτοι ώστε lm = γι την οποί ισχύει ότι: h = lm{ V V } κι lm V = g. ε Στις εξισώσεις.6 του Θεωρήμτος.6 η στθερά g ντικθίσττι πό το γινόμενο gt f κι στις νισότητες.7 του Θεωρήμτος.7 η στθερά g f ντικθίσττι πό το ~ γινόμενο g T f. f Γι περισσότερες λεπτομέρειες σχετικά με τις τροποποιήσεις των Θεωρημάτων.6 κι.7 στην περίπτωση των ημι-μρκοβινών διδικσιών ποφάσεων πρπέμπουμε στις σελ. - 3 του βιβλίου του Tms 994. Τ ποτελέσμτ που προυσιάζοντι στο βιβλίο του Ross 99 φορούν την περίπτωση κτά την οποί γι κάθε ενέργει a κι κάθε κτάστση μις ημι-μρκοβινής διδικσίς ποφάσεων τo κόστος C a είνι φργμένο. Στην περίπτωση κτά την οποί γι κάθε ενέργει a κι κάθε κτάστση της διδικσίς το κόστος C a δεν είνι άνω φργμένο κτάλληλες υποθέσεις χρειάζετι ν εισχθούν οι οποίες εγγυώντι την ύπρξη μις βέλτιστης στάσιμης πολιτικής στο πρόβλημ της ελχιστοποίησης του μκροπρόθεσμου νμενόμενου μέσου κόστους νά μονάδ χρόνου. Γι το σκοπό υτό η Seott 989 κτσκεύσε πέντε υποθέσεις. Οι δύο πρώτες υποθέσεις προυσιάζοντι πρκάτω. 8
Υπόθεση : Γι κάθε ενέργει a κι κάθε κτάστση της διδικσίς υπάρχουν δ > κι ε > έτσι ώστε με πιθνότητ τουλάχιστον ε ο χρόνος μετάβσης της διδικσίς πό την κτάστση σε μί οποιδήποτε κτάστση είνι μεγλύτερος πό δ. Υπόθεση : Γι κάθε ενέργει a κι κάθε κτάστση της διδικσίς υπάρχει ένς θετικός πργμτικός ριθμός B τέτοιος ώστε: T a B. Οι υπόλοιπες τρεις υποθέσεις σχετίζοντι με ιδιότητες της βέλτιστης συνάρτησης V. Σε πολλές περιπτώσεις οι υποθέσεις υτές είνι δύσκολο ν ποδειχθούν. Η Seott 989 κτσκεύσε την πρκάτω Συνθήκη SEN η οποί εξσφλίζει την ισχύ υτών των τριών υποθέσεων. Συνθήκη SEN: Έστω S ο χώρος κτστάσεων της διδικσίς κι έστω ότι c = m { c } a a A S. Γι κάθε κτάστση S υπάρχει μί στάσιμη πολιτική f f } υπό τον έλεγχο της οποίς τo μκροπρόθεσμο νμενόμενο μέσο κόστος νά μονάδ χρόνου είνι ίσο με g. Επιπλέον η στάσιμη πολιτική f έχει τις κόλουθες ιδιότητες: { Ιδιότητ : H πολιτική f ορίζει μί νάγωγη περιοδική έμμονη θετική Μρκοβινή λυσίδ στο χώρο κτστάσεων S κι S π f C f < κι π f T f < S όπου π f S είνι η στάσιμη κτνομή της Μρκοβινής λυσίδς υπό τον έλεγχο της πολιτικής f. Ιδιότητ : Υπάρχει ε > κι έν πεπερσμένο υποσύνολο G του χώρου κτστάσεων S τέτοιο ώστε c g + ε γι κάθε κτάστση S G. Επιπλέον γι κάθε κτάστση G ~ ~ ~ ~ υπάρχει μί στάσιμη πολιτική f = { } τέτοι ώστε c < όπου c f νπριστά το f f 9
νμενόμενο κόστος γι την πρώτη μετάβση της διδικσίς πό την κτάστση στην ~ κτάστση υπό τον έλεγχο της πολιτικής f. Μί υποκτηγορί των ημι-μρκοβινών διδικσιών ποφάσεων είνι οι Μρκοβινές διδικσίες ποφάσεων σε συνεχή χρόνο. Σε μί Μρκοβινή διδικσί ποφάσεων σε συνεχή χρόνο το χρονικό διάστημ t που μεσολβεί μετξύ των χρονικών στιγμών κι στις οποίες επιλέγετι μί ενέργει είνι μί τυχί μετβλητή η οποί κολουθεί την Εκθετική κτνομή. Στις περιπτώσεις των ημι-μρκοβινών διδικσιών ποφάσεων κι των Μρκοβινών διδικσιών ποφάσεων σε συνεχή χρόνο η τεχνική της ομοιομορφοποίησης η οποί επινοήθηκε πό τον Schwetzer 97 διμορφώνει κτάλληλ τον λγόριθμο των διδοχικών προσεγγίσεων ώστε ν είνι εφικτός ο υπολογισμός μις βέλτιστης στάσιμης πολιτικής γι το πρόβλημ της ελχιστοποίησης του μκροπρόθεσμου νμενόμενου μέσου κόστους νά μονάδ χρόνου. Η τεχνική της ομοιομορφοποίησης μεττρέπει την ημι-μρκοβινή διδικσί ποφάσεων ή τη Μρκοβινή διδικσί ποφάσεων σε συνεχή χρόνο σε μί ισοδύνμη Μρκοβινή διδικσί ποφάσεων σε δικριτό χρόνο έτσι ώστε υπό τον έλεγχο οποισδήποτε στάσιμης πολιτικής το μκροπρόθεσμο νμενόμενο μέσο κόστος νά μονάδ χρόνου ν είνι το ίδιο στις δύο διδικσίες. Οι δύο διδικσίες έχουν τον ίδιο χώρο κτστάσεων κι γι κάθε κτάστση έχουν τ ίδι σύνολ ενλλκτικών ενεργειών A. Διφέρουν μόνο στ κόστη κι στις πιθνότητες μετάβσης. Έστω ότι υπάρχει ένς ριθμός T τέτοιος ώστε: < T < f T a. Τ κόστη ~ C a a κι οι πιθνότητες μετάβσης ~ p a της ισοδύνμης Μρκοβινής διδικσίς ποφάσεων σε δικριτό χρόνο ορίζοντι ντίστοιχ ως εξής: ~ k a C a = + c a a A T a ~ T p a p T a a = a A 3
~ T p a = a A. T a Η τεχνική της ομοιομορφοποίησης προυσιάζετι λεπτομερώς στις σελ. - του βιβλίου του Tms 994 κι στις σελ. 4-48 του βιβλίου της Seott 999. Στ βιβλί των Ross 99 Puterma 994 Tms 994 Seott 999 κι Heyma ad Sobel 4 προυσιάζοντι οι ημι-μρκοβινές διδικσίες ποφάσεων κι οι Μρκοβινές διδικσίες ποφάσεων σε συνεχή χρόνο. Ανφέροντι διεξοδικά οι υπολογιστικές τεχνικές γι την εύρεση μις βέλτιστης στάσιμης πολιτικής με ρκετά πρδείγμτ..6 Η προσεγγιστική μέθοδος της Seott Ότν ο χώρος κτστάσεων μις διδικσίς είνι άπειρος ο λγόριθμος βελτίωσης των πολιτικών ο λγόριθμος των διδοχικών προσεγγίσεων κι η μέθοδος του γρμμικού προγρμμτισμού δεν είνι δυντόν ν εφρμοστούν γι ν υπολογιστεί μί βέλτιστη στάσιμη πολιτική. Διάφοροι ερευνητές έχουν επινοήσει προσεγγιστικές μεθόδους ώστε ν ντιμετωπίσουν τη δυσκολί στην εύρεση μις βέλτιστης στάσιμης πολιτικής η οποί οφείλετι στον άπειρο χώρο κτστάσεων. Ενδεικτικά νφέρουμε τις εργσίες των Whte 98 κι Thomas ad Stegos 985. Η Seott 997 επινόησε μί προσεγγιστική μέθοδο η οποί υπολογίζει μί βέλτιστη στάσιμη πολιτική στην περίπτωση κτά την οποί μί Μρκοβινή διδικσί ποφάσεων έχει άπειρο χώρο κτστάσεων κι μη-φργμέν κόστη. Η μέθοδος προυσιάζετι νλυτικά γι τ διάφορ κριτήρι βελτιστοποίησης στο βιβλίο της Seott 999. Στο πρόν εδάφιο υποθέτουμε ότι γι κάθε ενέργει a κι κάθε κτάστση της διδικσίς το κόστος C a δεν είνι άνω φργμένο. Η μέθοδος της Seott 997 προυσιάζετι πρκάτω με συνοπτικό τρόπο. Θεωρούμε μί Μρκοβινή διδικσί ποφάσεων με άπειρο χώρο κτστάσεων S η οποί προσεγγίζετι μέσω μις κολουθίς Μρκοβινών διδικσιών ποφάσεων με πεπερσμένο χώρο κτστάσεων G N όπου N κέριος ριθμός τέτοιος ώστε: G N = S. Γι κάθε τιμή του N κάθε κτάστση GN κι κάθε ενέργει N = a τ κόστη C a κι τ σύνολ των 3
ενλλκτικών ενεργειών A κάθε Μρκοβινής διδικσίς ποφάσεων της κολουθίς συμπίπτουν με εκείν της Μρκοβινής διδικσίς ποφάσεων με τον άπειρο χώρο κτστάσεων. Διφέρουν μόνο οι πιθνότητες μετάβσης. Γι τις διάφορες τιμές του N =... ο λγόριθμος των διδοχικών προσεγγίσεων χρησιμοποιείτι γι ν υπολογίσει τη βέλτιστη στάσιμη πολιτική κάθε διδικσίς της κολουθίς. Κτά την εκτέλεση του λγορίθμου ο ριθμός N υξάνετι πίρνει μεγάλες τιμές κι κθώς τείνει στο άπειρο οι βέλτιστες στάσιμες πολιτικές των Μρκοβινών διδικσιών ποφάσεων της κολουθίς συγκλίνουν σε μί βέλτιστη στάσιμη πολιτική της Μρκοβινής διδικσίς ποφάσεων με τον άπειρο χώρο κτστάσεων. Πρέπει ν εισχθούν κτάλληλες συνθήκες οι οποίες εγγυώντι τη σύγκλιση του λγορίθμου των διδοχικών προσεγγίσεων σε μί βέλτιστη στάσιμη πολιτική της Μρκοβινής διδικσίς ποφάσεων με τον άπειρο χώρο κτστάσεων. Στην εργσί κι στο βιβλίο της Seott 997 999 προυσιάζοντι νλυτικά υτές οι συνθήκες με διάφορες εφρμογές της μεθόδου. Στ Εδάφι 6.5 κι 7. της προύσς διτριβής η μέθοδος της Seott 997 εφρμόζετι κτάλληλ σε δύο διφορετικά προβλήμτ βέλτιστου ελέγχου ενός πληθυσμού πρσίτων. 3
ΚΕΦΑΛΑΙΟ 3 Βέλτιστος έλεγχος δύο ντγωνιζομένων σθενειών ή ειδών 3. Εισγωγή Θεωρούμε ένν πληθυσμό τόμων τ οποί είνι δυντόν ν προσβληθούν πό δύο μετδοτικές σθένειες. Υποθέτουμε ότι το συνολικό μέγεθος του πληθυσμού είνι ίσο με N κι ότι σε κάθε χρονική στιγμή t το πολύ έν άτομο μπορεί ν προσβληθεί πό μί πό τις δύο σθένειες. Θεωρούμε ότι οι δύο σθένειες είνι ντγωνιζόμενες υπό την έννοι ότι ν έν άτομο προσβληθεί πό την σθένει r r = πρμένει προσβεβλημένο πό υτήν την σθένει κι δεν μπορεί ν προσβληθεί πό την άλλη. Έστω η διδιάσττη Μρκοβινή διδικσί σε συνεχή χρόνο { X t Y t t }. Οι τυχίες μετβλητές X t κι Y t X t + Y t N νπριστούν την κτάστση της επιδημικής διδικσίς τη χρονική στιγμή t. Η τυχί μετβλητή X t νπριστά τον ριθμό των τόμων που έχουν προσβληθεί πό την σθένει κι η τυχί μετβλητή Y t νπριστά τον ριθμό των τόμων που έχουν προσβληθεί πό την σθένει ντίστοιχ τη χρονική στιγμή t. Υποθέτουμε ότι οι πιθνότητες έν άτομο ν προσβληθεί πό τις σθένειες κι σε έν χρονικό διάστημ t t + δt κθώς δ t δοθέντος ότι X t = x κι Y t = y είνι ίσες με c β N x y δt + o δ κι c y N x y δt + o δ ντίστοιχ όπου c c β. Η x t t > συνάρτηση o είνι τέτοι ώστε o h / h κθώς h. Όλες οι υπόλοιπες μετβάσεις της διδικσίς έχουν πιθνότητ ίση με o δ t κθώς δ t. Η διδικσί στμτά ότν ο συνολικός ριθμός των τόμων που έχουν προσβληθεί πό τις σθένειες κι γίνει ίσος με N το οποίο θεωρούμε ότι σχεδόν σίγουρ θ συμβεί σε πεπερσμένο χρόνο. Οι μετβάσεις του τυχίου περίπτου της επιδημικής διδικσίς βλέπε π.χ. σελ. 68 του βιβλίου του Ross 99 είνι: cx x y x + y με πιθνότητ β c x + c y 3. 33
β c y x y x y + με πιθνότητ. β c x + c y 3. Αν = β = η διδικσί συμπίπτει με την πλή διδιάσττη επιδημική διδικσί την οποί εισήγγν οι Bllard et al. 979. Γενίκευσν την πλή μονοδιάσττη επιδημική διδικσί η οποί επινοήθηκε πό τον Baley 95. Στους θετικούς πργμτικούς ριθμούς κι β μπορούμε ν ποδώσουμε τον όρο «μολυσμτική ισχύς» των σθενειών κι ντίστοιχ κι ν τον δικιολογήσουμε ως εξής. Αν η εξάπλωση μις μετδοτικής σθένεις σε ένν πληθυσμό επιδεκτικών τόμων εξρτάτι περισσότερο πό το κτά πόσο έν επιδεκτικό άτομο είνι επιρρεπές στην σθένει κι λιγότερο πό το κτά πόσο έν άτομο που έχει προσβληθεί πό την σθένει μπορεί ν τη μετδώσει στον υπόλοιπο πληθυσμό τότε ο ρυθμός με τον οποίο νέ άτομ θ προσβληθούν πό την σθένει δεν εξρτάτι ιδιίτερ πό τον ριθμό των τόμων που ήδη έχουν προσβληθεί πό την σθένει. Σε υτή την περίπτωση μπορούμε ν θεωρήσουμε ότι η μολυσμτική ισχύς των σθενειών κι είνι μικρή κι οι θετικοί πργμτικοί ριθμοί κι β πίρνουν τιμές κοντά στο μηδέν. Στην ντίθετη περίπτωση κτά την οποί η μολυσμτική ισχύς των σθενειών κι είνι μεγάλη μπορούμε ν θεωρήσουμε ότι οι πράμετροι κι β πίρνουν τιμές μεγλύτερες της μονάδς. Σε υτή την περίπτωση οι επιδημίες εξπλώνοντι στον πληθυσμό με πολύ γρήγορους ρυθμούς. Η έννοι της μολυσμτικής ισχύος επινοήθηκε πό τον Severo 969 o οποίος γενίκευσε την πλή επιδημική διδικσί κι υπολόγισε τις πιθνότητες μετάβσης της. Στις εργσίες των Sauders 98a b Glesser 988 Ball ad O Nel 993 O Nel 997 κι Clacy 999a b μελετώντι διάφορες επιδημικές διδικσίες στις οποίες ο ρυθμός προσβολής των επιδεκτικών πό μί μετδοτική σθένει δεν είνι στθερός λλά εξρτάτι πό το πλήθος των επιδεκτικών κι των προσβληθέντων τόμων. Υποθέτουμε ότι η σθένει προξενεί σοβρά συμπτώμτ σε έν άτομο που έχει προσβληθεί πό υτήν κι μειώνει την πργωγικότητά του. Η προυσί ενός τόμου που έχει προσβληθεί πό την σθένει επιφέρει κάποιο κόστος στην κοινωνί το οποίο θεωρούμε ότι είνι στθερό κι ίσο με τη μονάδ. Υποθέτουμε ότι η σθένει σε σύγκριση με την σθένει είνι λιγότερο επιβλβής γι έν άτομο που έχει προσβληθεί πό υτήν. Θεωρούμε ότι η 34
προυσί ενός τόμου που έχει προσβληθεί πό την σθένει δεν επιφέρει κνέν κόστος στην κοινωνί. Ο έλεγχος της επιδημικής διδικσίς σε κάθε χρονική στιγμή μπορεί ν πργμτοποιηθεί με την επιλογή μις ενέργεις. Θεωρούμε ότι μί ενέργει η οποί μπορεί ν ελέγξει τη διδικσί σε κάθε χρονική στιγμή είνι ο εμβολισμός με την ήπι σθένει οποιουδήποτε ριθμού επιδεκτικών τόμων έχουν πομείνει στον πληθυσμό κι δεν έχουν προσβληθεί πό κμί πό τις δύο σθένειες. Θεωρούμε ότι ο εμβολισμός ενός τόμου με την ήπι σθένει επιφέρει έν κόστος το οποίο είνι ίσο με K >. Μί άλλη ενέργει η οποί επίσης θεωρούμε ότι μπορεί ν ελέγξει την επιδημική διδικσί σε κάθε χρονική στιγμή είνι η πομόνωση κάποιων ή όλων των τόμων που έχουν προσβληθεί πό τη σοβρή σθένει. Υποθέτουμε ότι η πομόνωση ενός τόμου που έχει προσβληθεί πό τη σοβρή σθένει επιφέρει έν κόστος το οποίο είνι ίσο με L >. Μί πολιτική είνι ένς κνόνς ο οποίος σε κάθε χρονική στιγμή κθορίζει την ενέργει που επιλέγετι γι τον έλεγχο της διδικσίς. Στο πρόν κεφάλιο θ μς πσχολήσει το πρόβλημ της εύρεσης εκείνης της πολιτικής η οποί γι οποιδήποτε ρχική κτάστση της επιδημικής διδικσίς ελχιστοποιεί το συνολικό νμενόμενο κόστος. Επειδή η διδικσί θεωρούμε ότι στμτά ότν ο συνολικός ριθμός των τόμων που έχουν προσβληθεί πό τις σθένειες κι γίνει ίσος με N το πρόβλημ της εύρεσης της βέλτιστης πολιτικής είνι έν πρόβλημ πεπερσμένου χρονικού ορίζοντ. Όπως νφέρετι στην εργσί του Kyrakds 995 η επιδημική διδικσί που περιγράψμε στο πρόν εδάφιο βρίσκει πιθνή εφρμογή στην περίπτωση της γνωστής σθένεις του νωτιίου μυελού πολιομυελίτιδς. Η σθένει μπορεί ν θεωρηθεί ότι είνι η σοβρή μορφή της πολιομυελίτιδς ενώ η σθένει μπορεί ν θεωρηθεί ότι είνι η ήπι μορφή της. Σύμφων με τον Kyrakds 995 στην επιδημική διδικσί μπορεί επίσης ν ποδοθεί η κόλουθη οικολογική ερμηνεί. Θεωρούμε δύο είδη ζωντνών οργνισμών τ οποί νπτύσσοντι σε έν βιότοπο που έχει μέγιστη χωρητικότητ ίση με N. Το είδος θεωρούμε ότι είνι έν πράσιτο η προυσί του οποίου είνι βλβερή. Η προυσί ενός πρσίτου επιφέρει κάποιο κόστος το οποίο είνι στθερό κι ίσο με τη μονάδ. Το είδος θεωρούμε ότι είνι έν ήπιο είδος η προυσί του οποίου είνι κίνδυνη. Η προυσί ενός ήπιου είδους δεν επιφέρει κνέν κόστος. Θεωρούμε πολιτικές οι οποίες σε κάθε χρονική στιγμή ελέγχουν την 35
νάπτυξη των ζωντνών οργνισμών στο βιότοπο είτε με τη σκόπιμη εισγωγή ήπιων ειδών είτε με την πομόνωση ή την πομάκρυνση πό το βιότοπο οποιουδήποτε ριθμού πρσίτων. Η σκόπιμη εισγωγή ενός ήπιου είδους επιφέρει έν κόστος ίσο με K > ενώ η πομόνωση ή η πομάκρυνση ενός πρσίτου επιφέρει έν κόστος ίσο με L >. Γι την επιδημική διδικσί θεωρούμε τ πρκάτω τέσσερ προβλήμτ βελτιστοποίησης. Πρόβλημ. Εύρεση εκείνης της πολιτικής η οποί γι οποιδήποτε ρχική κτάστση της διδικσίς ελχιστοποιεί το συνολικό νμενόμενο κόστος ν η διδικσί σε κάθε χρονική στιγμή είνι δυντόν ν ελεγχθεί μέσω του εμβολισμού με την ήπι σθένει οποιουδήποτε ριθμού επιδεκτικών τόμων έχουν πομείνει στον πληθυσμό κι δεν έχουν προσβληθεί πό κμί πό τις δύο σθένειες. Πρόβλημ. Εύρεση εκείνης της πολιτικής η οποί γι οποιδήποτε ρχική κτάστση της διδικσίς ελχιστοποιεί το συνολικό νμενόμενο κόστος ν η διδικσί σε κάθε χρονική στιγμή είνι δυντόν ν ελεγχθεί μέσω της πομόνωσης οποιουδήποτε ριθμού τόμων που έχουν προσβληθεί πό τη σοβρή σθένει. Πρόβλημ 3. Εύρεση εκείνης της πολιτικής η οποί γι οποιδήποτε ρχική κτάστση της διδικσίς ελχιστοποιεί το συνολικό νμενόμενο κόστος ν η διδικσί σε κάθε χρονική στιγμή είνι δυντόν ν ελεγχθεί μέσω της πομόνωσης κνενός ή όλων των τόμων που έχουν προσβληθεί πό τη σοβρή σθένει. Πρόβλημ 4. Εύρεση εκείνης της πολιτικής η οποί γι οποιδήποτε ρχική κτάστση της διδικσίς ελχιστοποιεί το συνολικό νμενόμενο κόστος ν η διδικσί σε κάθε χρονική στιγμή είνι δυντόν ν ελεγχθεί είτε μέσω του εμβολισμού με την ήπι σθένει οποιουδήποτε ριθμού επιδεκτικών τόμων έχουν πομείνει στον πληθυσμό κι δεν έχουν προσβληθεί πό κμί πό τις δύο σθένειες είτε μέσω της πομόνωσης κνενός ή όλων των τόμων που έχουν προσβληθεί πό τη σοβρή σθένει. Σε δύο προηγούμενες εργσίες του Kyrakds 995 999c κτάλληλοι λγόριθμοι του δυνμικού προγρμμτισμού έχουν κτσκευστεί γι τ Προβλήμτ κι 3 στην περίπτωση 36