ΕΠΙΧΕΙΡΗΣΙΑΚΗ ΕΡΕΥΝΑ ΙΙ

Σχετικά έγγραφα
ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ

Markov. Γ. Κορίλη, Αλυσίδες. Αλυσίδες Markov

ΕΠΙΧΕΙΡΗΣΙΑΚΗ ΕΡΕΥΝΑ ΙΙ

Τεχνικές Εκτίμησης Υπολογιστικών Συστημάτων 1ο Σετ Ασκήσεων - Λύσεις

Μοντελοποίηση, Ανάλυση και Σχεδιασμός Στοχαστικών Συστημάτων

ΣΤΟΧΑΣΤΙΚΕΣ ΔΙΕΡΓΑΣΙΕΣ & ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ

ΔΥΝΑΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ

Στοχαστικές Ανελίξεις (3) Αγγελική Αλεξίου

Μαρκοβιανές Αλυσίδες

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος

Διαχείριση Εφοδιαστικής Αλυσίδας ΙΙ

DEPARTMENT OF STATISTICS

είναι πρόβλημα μεγιστοποίησης όλοι οι περιορισμοί είναι εξισώσεις με μη αρνητικούς του σταθερούς όρους όλες οι μεταβλητές είναι μη αρνητικές

Αριθμητική Ανάλυση και Εφαρμογές

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ Τµήµα Επιστήµης Υπολογιστών. HY-317: Εφαρµοσµένες Στοχαστικές ιαδικασίες - Εαρινό Εξάµηνο ιδάσκων : Π.

p q 0 P =

1 + ρ ρ ρ3. iπ i = Q = λ λ i=0. n=0 tn. n! Qn, t 0

Νικος Χαλιδιας Μαθηματικό Τμήμα κατεύθυνση Στατιστικής και Αναλογιστικών-Χρηματοοικονομικών Μαθηματικών Πανεπιστημιο Αιγαιου

Ορισµός. (neighboring) καταστάσεων. ηλαδή στην περίπτωση αλυσίδας Markov. 1.2 ιαµόρφωση µοντέλου

Οι κλασσικότερες από αυτές τις προσεγγίσεις βασίζονται σε πολιτικές αναπαραγγελίας, στις οποίες προσδιορίζονται τα εξής δύο μεγέθη:

ΑΚΕΡΑΙΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ & ΣΥΝΔΥΑΣΤΙΚΗ ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ ΚΕΦΑΛΑΙΟ 1

P (M = n T = t)µe µt dt. λ+µ

καθ. Βασίλης Μάγκλαρης

Στοχαστικές Ανελίξεις- Φεβρουάριος 2015

Τεχνικές Εκτίμησης Υπολογιστικών Συστημάτων Ενότητα 3: Μοντέλα Θεωρίας Αναμονής

Στοχαστικές Στρατηγικές

Πρόλογος Κατανόηση της εφοδιαστικής αλυσίδας Σχεδιασμός δικτύου εφοδιαστικής αλυσίδας...41

Γραμμικός Προγραμματισμός Μέθοδος Simplex

Το μοντέλο Perceptron

Μοντελοποίηση, Ανάλυση και Σχεδιασμός Στοχαστικών Συστημάτων

ΣΥΣΤΗΜΑΤΑ ΑΝΑΜΟΝΗΣ Queuing Systems

ΣΥΣΤΗΜΑΤΑ ΑΝΑΜΟΝΗΣ Queuing Systems

Προβλήματα Μαρκοβιανών Αλυσίδων

ΠΡΟΒΛΗΜΑΤΑ ΜΕΤΑΦΟΡΑΣ

Στοχαστικές Στρατηγικές

Ακέραιος Γραμμικός Προγραμματισμός

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΔΕΟ13 - Επαναληπτικές Εξετάσεις 2010 Λύσεις

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων Ι Σύνολο- Περιεχόμενο Μαθήματος

Άσκηση 5. Εργοστάσια. Συστήματα Αποφάσεων Εργαστήριο Συστημάτων Αποφάσεων και Διοίκησης

ΣΥΣΤΗΜΑΤΑ ΑΝΑΜΟΝΗΣ Queuing Systems

Θεωρία Δυαδικότητας ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ. Η παρουσίαση προετοιμάστηκε από τον Ν.Α. Παναγιώτου. Επιχειρησιακή Έρευνα

/ / 38

ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΚΑΙ ΕΛΕΓΧΟΣ ΑΠΟΘΕΜΑΤΩΝ. Από το βιβλίο: Κώστογλου, Β. (2015). Επιχειρησιακή Έρευνα. Θεσσαλονίκη: Εκδόσεις Τζιόλα

ΣΥΣΤΗΜΑΤΑ ΑΝΑΜΟΝΗΣ Queuing Systems Εισαγωγή (2/2) Επισκόπηση Γνώσεων Πιθανοτήτων (1/2)

Μοντελοποίηση, Ανάλυση και Σχεδιασμός Στοχαστικών Συστημάτων

ΣΥΣΤΗΜΑΤΑ ΑΝΑΜΟΝΗΣ Queuing Systems Επισκόπηση Γνώσεων Πιθανοτήτων (2/2) Διαδικασία Γεννήσεων Θανάτων Η Ουρά Μ/Μ/1

Ε Π Ι Χ Ε Ι Ρ Η Σ Ι Α Κ Η Ε Ρ Ε Υ Ν Α

ΑΞΙΟΠΙΣΤΙΑ ΚΑΙ ΣΥΝΤΗΡΗΣΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΣΥΣΤΗΜΑΤΩΝ Συμπληρωματικές Σημειώσεις Δημήτριος Παντελής. Pr T T0

Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ. Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ»

ΣΥΣΤΗΜΑΤΑ ΑΝΑΜΟΝΗΣ Queuing Systems

ΣΥΣΤΗΜΑΤΑ ΑΝΑΜΟΝΗΣ Queuing Systems

ΣΥΣΤΗΜΑΤΑ ΑΝΑΜΟΝΗΣ Queuing Systems Διαδικασίες Birth-Death, Ουρές Markov:

Αριθμητική Ανάλυση και Εφαρμογές

Διαδικασίες Markov Υπενθύμιση

Γραμμικός Προγραμματισμός

Μέθοδος μέγιστης πιθανοφάνειας

Στοχαστικές Ανελίξεις- Ιούλιος 2015

Το Πρόβλημα Μεταφοράς

Γραφική Λύση & Πρότυπη Μορφή Μαθηματικού Μοντέλου

Ακέραιος Γραμμικός Προγραμματισμός

Τηλεπικοινωνιακά Συστήματα ΙΙ

Διάλεξη 04: Παραδείγματα Ανάλυσης

ΣΥΣΤΗΜΑΤΑ ΑΝΑΜΟΝΗΣ Queuing Systems

Ασκήσεις 3 ου Κεφαλαίου

ΠΡΟΟΡΙΣΜΟΣ ΑΠΟΘΗΚΕΣ Ζ1 Ζ2 Ζ3 Δ1 1,800 2,100 1,600 Δ2 1, Δ3 1, ,200

Ηρώων Πολυτεχνείου 9, Ζωγράφου, Αθήνα, Τηλ: , Fax: URL

που αντιστοιχεί στον τυχαίο αριθμό 0.6 δίνει ισχύ P Y Να βρεθεί η μεταβλητή k 2.

«ΔΙΑΚΡΙΤΕΣ ΜΑΡΚΟΒΙΑΝΕΣ ΑΛΥΣΙΔΕΣ»

ΔΙΟΙΚΗΣΗ ΤΕΧΝΙΚΩΝ ΕΡΓΩΝ

ΘΕΩΡΙΑ ΑΠΟΘΕΜΑΤΩΝ. Ι. Προσδιοριστικά Μοντέλα αποθεµάτων

Διακριτά Μαθηματικά ΙΙ Χρήστος Νομικός Τμήμα Μηχανικών Η/Υ και Πληροφορικής Πανεπιστήμιο Ιωαννίνων 2018 Χρήστος Νομικός ( Τμήμα Μηχανικών Η/Υ Διακριτά

ΣΥΣΤΗΜΑΤΑ ΑΝΑΜΟΝΗΣ Queuing Systems

Τμήμα Μηχανικών Πληροφορικής ΤΕ Πρόβλημα Μεταφοράς. Γεωργία Φουτσιτζή ΤΕΙ Ηπείρου Επιχειρησιακή Έρευνα

Ανάλυση Χρόνου, Πόρων & Κόστους

Μοντέλα Διαχείρισης Αποθεμάτων

Ονοματεπώνυμο: Ερώτημα: Σύνολο Μονάδες: Βαθμός:

ΕΦΑΡΜΟΓΕΣ ΔΙΟΙΚΗΤΙΚΗΣ ΕΠΙΣΤΗΜΗΣ

Περιεχόμενα Πρόλογος 5ης αναθεωρημένης έκδοσης ΚΕΦΆΛΆΙΟ 1 Ο ρόλος της επιχειρησιακής έρευνας στη λήψη αποφάσεων ΚΕΦΆΛΆΙΟ 2.

Μεταθέσεις και πίνακες μεταθέσεων

y 1 (x) f(x) W (y 1, y 2 )(x) dx,

Επιχειρησιακή Έρευνα I

ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ: Logistics και Συστήματα JIT. Επιβλέπων Καθηγητής :Ιωάννης Κωνσταντάρας Σπουδάστρια :Κοντάρα Δέσποινα

Εισαγωγή στο Γραμμικό Προγραμματισμό

Σε βιομηχανικό περιβάλλον η αποθεματοποίηση γίνεται στις εξής μορφές

Κεφ. 9 Ανάλυση αποφάσεων

ΣΥΣΤΗΜΑΤΑ ΑΝΑΜΟΝΗΣ Queuing Systems Εκθετική Κατανομή, Στοχαστικές Ανελίξεις Διαδικασίες Απαρίθμησης, Κατανομή Poisson

Fermat, 1638, Newton Euler, Lagrange, 1807

ΚΕΦΑΛΑΙΟ 4 Η ΑΡΧΗ ΕΓΚΛΕΙΣΜΟΥ ΑΠΟΚΛΕΙΣΜΟΥ

1 Αριθμητική κινητής υποδιαστολής και σφάλματα στρογγύλευσης

Λυμένες ασκήσεις στα πλαίσια του μαθήματος «Διοίκηση Εφοδιαστικής Αλυσίδας»

Κεφάλαιο 10 Εισαγωγή στην Εκτίμηση

ΓΡΑΜΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ με το EXCEL

ΣΥΣΤΗΜΑΤΑ ΑΝΑΜΟΝΗΣ Queuing Systems Μοντέλα Ουρών Markov και Εφαρμογές:

Συνήθεις διαφορικές εξισώσεις προβλήματα οριακών τιμών

Νικος Χαλιδιας Μαθηματικό Τμήμα κατεύθυνση Στατιστικής και Αναλογιστικών-Χρηματοοικονομικών Μαθηματικών Πανεπιστημιο Αιγαιου

Τμήμα Μηχανικών Πληροφορικής ΤΕ Δυϊκότητα. Γκόγκος Χρήστος ΤΕΙ Ηπείρου Επιχειρησιακή Έρευνα. τελευταία ενημέρωση: 1/12/2016

I. ΜΙΓΑΔΙΚΟΙ ΑΡΙΘΜΟΙ. math-gr

Αναγνώριση Προτύπων Ι

ΕΝΑΣ ΔΙΚΡΙΤΗΡΙΟΣ ΑΛΓΟΡΙΘΜΟΣ SIMPLEX

Transcript:

ΤΜΗΜΑ ΜΗΧΑΝΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΠΑΝΕΠΙΣΤΗΜΙΟ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΕΠΙΧΕΙΡΗΣΙΑΚΗ ΕΡΕΥΝΑ ΙΙ ΠΑΝΕΠΙΣΤΗΜΙΑΚΕΣ ΣΗΜΕΙΩΣΕΙΣ ΣΟΦΙΑ ΠΑΝΑΓΙΩΤΙΔΟΥ ΣΕΠΤΕΜΒΡΙΟΣ 05

ΠΙΝΑΚΑΣ ΠΕΡΙΕΧΟΜΕΝΩΝ ΣΤΟΧΑΣΤΙΚΕΣ ΔΙΑΔΙΚΑΣΙΕΣ.... Στοχαστικές διαδικασίες.... Μαρκοβιανές αλυσίδες διακριτού χρόνου..... Πιθανότητες μετάβασης..... Εξισώσεις Chapma - Kolmogorov.....3 Κατηγορίες καταστάσεων... 6..4 Μακροπρόθεσμη ισορροπία... 8..5 Χρόνος πρώτης διέλευσης... 3..6 Πιθανότητα απορρόφησης... 5..7 Μέση μακροπρόθεσμη ανταμοιβή ανά μονάδα χρόνου... 6.3 Έλεγχος Μαρκοβιανών αλυσίδων διακριτού χρόνου... 0.3. Πεπερασμένος χρονικός ορίζοντας... 0.3. Άπειρος χρονικός ορίζοντας... 5.4 Μαρκοβιανές αλυσίδες συνεχούς χρόνου... 36.4. Πιθανότητες μετάβασης και ρυθμοί μετάβασης... 37.4. Μακροπρόθεσμη ισορροπία... 38 Ασκήσεις... 4 ΟΥΡΕΣ ΑΝΑΜΟΝΗΣ... 53. Γενικά... 53. Δομή και βασικά χαρακτηριστικά των συστημάτων αναμονής... 53.3 Συμβολισμοί και σχέσεις του Little... 55.3. Συμβολισμοί... 55.3. Σχέσεις του Little... 57.4 Ο ρόλος της εκθετικής κατανομής... 58.5 Διαδικασίες γεννήσεων-θανάτων... 6.6 Μαρκοβιανά συστήματα αναμονής... 63.6. Απλά συστήματα αναμονής Μ/Μ/s... 63 i

.6. Συστήματα αναμονής με περιορισμένη χωρητικότητα... 7.6.3 Συστήματα αναμονής με περιορισμένο πληθυσμό... 77.7 Μη Μαρκοβιανά συστήματα αναμονής... 80.7. Συστήματα αναμονής Μ/G/... 80.7. Συστήματα αναμονής Μ/D/... 8.7.3 Συστήματα αναμονής Μ/Er/... 8.8 Συστήματα αναμονής με κανόνες προτεραιότητας... 83.8. Συστήματα χωρίς διακοπή της τρέχουσας εξυπηρέτησης... 84.8. Συστήματα με διακοπή της τρέχουσας εξυπηρέτησης... 88.9 Δίκτυα συστημάτων αναμονής... 9.9. Δίκτυα συστημάτων αναμονής σε σειρά... 93.9. Δίκτυα Jackso... 95.0 Βελτιστοποίηση συστημάτων αναμονής... 99 Ασκήσεις... 0 ii

ΣΤΟΧΑΣΤΙΚΕΣ ΔΙΑΔΙΚΑΣΙΕΣ. Στοχαστικές διαδικασίες Στοχαστική διαδικασία (stochastic process) είναι μια σειρά τυχαίων μεταβλητών X t με παράμετρο τη μεταβλητή t που συμβολίζει το χρόνο t T. Όταν το σύνολο Τ είναι το σύνολο των πραγματικών αριθμών τότε η διαδικασία ονομάζεται συνεχούς χρόνου, ενώ όταν το σύνολο Τ είναι το σύνολο των ακέραιων αριθμών τότε η διαδικασία ονομάζεται διακριτού χρόνου. Για παράδειγμα σε μια διαδικασία συνεχούς χρόνου το Χ t μπορεί να συμβολίζει τον αριθμό των πελατών σε μια εταιρία παροχής υπηρεσιών τη χρονική στιγμή t, ενώ σε μια διαδικασία διακριτού χρόνου το Χ t μπορεί να συμβολίζει το επίπεδο του αποθέματος προϊόντων στο τέλος κάθε ημέρας t. Οι στοχαστικές διαδικασίες χρησιμοποιούνται συνήθως για να περιγράψουν την κατάσταση ή τη συμπεριφορά ενός συστήματος που λειτουργεί για κάποια χρονική περίοδο. Υποθέτουμε ότι η συμπεριφορά του συστήματος περιγράφεται πλήρως από M αμοιβαίως αποκλειόμενες δυνατές καταστάσεις, οι οποίες συμβολίζονται 0,,...,M. Η τυχαία μεταβλητή Χ t αντιπροσωπεύει την κατάσταση του συστήματος τη χρονική στιγμή t και συνεπώς παίρνει τις τιμές 0,,...,M.. Μαρκοβιανές αλυσίδες διακριτού χρόνου Μαρκοβιανές αλυσίδες ονομάζονται οι στοχαστικές διαδικασίες που έχουν τη Μαρκοβιανή ιδιότητα. Συγκεκριμένα, t Μια στοχαστική διαδικασία X έχει τη Μαρκοβιανή ιδιότητα αν και μόνο αν t 0 0 t t t t t P X j X k,x k,...,x k,x i P X j X i για t 0,,... και για κάθε i, j,k 0,k,...,kt. Πρακτικά, η Μαρκοβιανή ιδιότητα σημαίνει ότι η υπό συνθήκη πιθανότητα οποιασδήποτε μελλοντικής κατάστασης εξαρτάται μόνο από την τρέχουσα κατάσταση και είναι ανεξάρτητη από όλες τις προηγούμενες καταστάσεις (έλλειψη μνήμης)... Πιθανότητες μετάβασης Οι υπό συνθήκη πιθανότητες PXt j Xt i μιας Μαρκοβιανής αλυσίδας ονομάζονται πιθανότητες μετάβασης (trasitio probabilities) ενός βήματος. Αν ισχύει

0 P X j X i P X j X i p για κάθε i, j και t,,..., τότε οι πιθανότητες t t ij μετάβασης δε μεταβάλλονται με την πάροδο του χρόνου και ονομάζονται στάσιμες (statioary). Με ανάλογο τρόπο ορίζονται και οι πιθανότητες μετάβασης βημάτων t t 0 ij P X j X i P X j X i p που αντιπροσωπεύουν την υπό συνθήκη πιθανότητα το σύστημα να βρίσκεται στην κατάσταση j μετά από βήματα (χρονικές περιόδους) αν έχει ξεκινήσει από την κατάσταση i. Σημειώνεται ότι 0 ij p 0 για i j. Οι πιθανότητες μετάβασης έχουν τις ακόλουθες ιδιότητες: 0 ij p για i j και ij p 0 για κάθε i, j και 0,,,... M pij για κάθε i και 0 j0,,,... και συνήθως παρατίθενται στο M M την ακόλουθη μορφή: ή για την απλούστερη μορφή: μητρώο πιθανοτήτων μετάβασης P που έχει 0... M 0 p00 p 0... p 0M P p0 p... p M............... M pm0 p M... p MM 0... M 0 p00 p 0... p0m P p0 p... p M............... M pm0 p M... pmm Οι Μαρκοβιανές αλυσίδες με τις οποίες θα ασχοληθούμε στη συνέχεια του κεφαλαίου θα είναι Μαρκοβιανές αλυσίδες με πεπερασμένο αριθμό καταστάσεων και στάσιμες πιθανότητες μετάβασης... Εξισώσεις Chapma - Kolmogorov Οι εξισώσεις Chapma - Kolmogorov παρέχουν τη δυνατότητα υπολογισμού των πιθανοτήτων μετάβασης βημάτων μιας στοχαστικής διαδικασίας:

M m m ij ik kj k 0 p p p για κάθε i, j και 0 m. Οι εξισώσεις Chapma - Kolmogorov πρακτικά περιγράφουν ότι για να μεταβεί η αλυσίδα από την κατάσταση i στην κατάσταση j σε βήματα θα βρεθεί αναγκαστικά σε κάποια κατάσταση k σε m (λιγότερα από ) βήματα. Συνεπώς, οι πιθανότητες μετάβασης υπολογίζονται αθροίζοντας τις πιθανότητες διέλευσης από όλες τις πιθανές καταστάσεις k. Με χρήση των εξισώσεων Chapma - Kolmogorov ουσιαστικά αποδεικνύεται ότι p ij P PP P και P P P... P P P P P P και συνεπώς το μητρώο μετάβασης βημάτων μιας Μαρκοβιανής αλυσίδας μπορεί να υπολογιστεί από τη -ιοστή δύναμη του μητρώου μετάβασης ενός βήματος. Αν είναι γνωστή η κατανομή της πιθανότητας της αρχικής κατάστασης, τότε είναι απλός ο προσδιορισμός των πιθανοτήτων PX j P X 0 i, i 0,,...,M M 0 ij. i0 από τη σχέση P X j P X i p Παράδειγμα. Η εβδομαδιαία ζήτηση ενός προϊόντος, D t, ακολουθεί κατανομή Poisso με μέση τιμή λ τεμάχιο. Αν υπάρχει έλλειψη του προϊόντος τη χρονική στιγμή της ζήτησης η συγκεκριμένη ζήτηση χάνεται (δεν μπορεί να ικανοποιηθεί με καθυστέρηση). Η πολιτική παραγγελιών του καταστήματος είναι η ακόλουθη: στο τέλος κάθε εβδομάδας t ελέγχεται το απόθεμα του συγκεκριμένου προϊόντος Χ t και παραγγέλνονται 3 τεμάχια αν και μόνο αν X 0, τα οποία παραλαμβάνονται και είναι διαθέσιμα νωρίς το πρωί της Δευτέρας οπότε και μπορούν να χρησιμοποιηθούν για να καλύψουν τη ζήτηση της εβδομάδας t. Το αρχικό απόθεμα της πρώτης εβδομάδας είναι X 0 3 τεμάχια του προϊόντος. α) Να οριστούν οι δυνατές καταστάσεις της Μαρκοβιανής αλυσίδας {Χ t } και να καταστρωθεί το στοχαστικό μητρώο P των πιθανοτήτων μετάβασης p ij. β) Να υπολογιστεί η πιθανότητα το τελικό απόθεμα της δεύτερης εβδομάδας να είναι μικρότερο από τεμάχια. α) Οι δυνατές καταστάσεις της Μαρκοβιανής αλυσίδας που περιγράφει τη διαδικασία παραγγελιών και πωλήσεων του συγκεκριμένου προϊόντος είναι οι X 03,,, που αντιπροσωπεύουν τον αριθμό των τεμαχίων του συγκεκριμένου προϊόντος που υπάρχουν σε απόθεμα στο τέλος κάθε εβδομάδας t. t t 3

Η κατάσταση της αλυσίδας στο τέλος της εβδομάδας t περιγράφεται από την τυχαία μεταβλητή X t, η οποία εξαρτάται μόνο από την κατάσταση της αλυσίδας στο τέλος της προηγούμενης εβδομάδας τη σχέση X t και τη ζήτηση της τρέχουσας εβδομάδας t D και δίνεται από X t max 3D t, 0 X t 0 max X t D t, 0 X t 0 για t 0,,,... Εφόσον η κατάσταση της αλυσίδας στο τέλος της εβδομάδας t, X t, δεν εξαρτάται από τις παρελθοντικές καταστάσεις του συστήματος αποθεμάτων του συγκεκριμένου προϊόντος η t στοχαστική διαδικασία X έχει τη Μαρκοβιανή ιδιότητα. Για τον υπολογισμό των πιθανοτήτων μετάβασης p ij της Μαρκοβιανής αλυσίδας απαιτείται ο υπολογισμός των παρακάτω πιθανοτήτων που αφορούν την εβδομαδιαία ζήτηση του συγκεκριμένου προϊόντος D : 0 0 368 P D e, P D0 P D 0 0, 368 0, 63 0 368 P D e, e PD, P D P D 0, 368 0, 368 0, 64 0 84 Άρα το μητρώο των πιθανοτήτων μετάβασης είναι: P D P D 0368, 0368, 084, 0080, 0 3 0 0, 080 0, 84 0, 368 0, 368 P 0, 63 0, 368 0 0 0, 64 0, 368 0, 368 0 3 0, 080 0, 84 0, 368 0, 368 Σημειώνεται ότι οι πιθανότητες μετάβασης της ης και 4ης σειράς είναι ίσες μεταξύ τους διότι όταν το τελικό απόθεμα μιας εβδομάδας είναι 0 ή 3 η επόμενη εβδομάδα ξεκινά πάντα με αρχικό απόθεμα 3 τεμαχίων. β) Ζητείται η πιθανότητα 0 3 30 3 P X X p p όπου οι πιθανότητες ως εξής: 30 p και 3 p υπολογίζονται από τις εξισώσεις Chapma - Kolmogorov 4

3 30 3k k0 30 00 3 0 3 0 33 30 k 0 p p p p p p p p p p p 0, 080 0, 080 0, 84 0, 63 0, 3680, 64 0, 3680, 080 0, 49 3 3 3k k 30 0 3 3 33 3 k 0 p p p p p p p p p p p 0, 080 0, 84 0, 84 0, 368 0, 3680, 368 0, 3680, 84 0, 86 Άρα τελικά 0 30 3 P X X 3 p p 0, 49 0, 86 0, 535. Εναλλακτικά μπορεί να υπολογιστεί το μητρώο μετάβασης βημάτων P 0080, 084, 0368, 0368, 0080, 084, 0368, 0368, 0, 63 0, 368 0 0 0, 63 0, 368 0 0 PP 0, 64 0, 368 0, 368 0 0, 64 0, 368 0, 368 0 0080, 084, 0368, 0368, 0080, 084, 0368, 0368, 0, 49 0, 86 0, 300 0, 65 083, 05, 033, 033, 035, 039, 033, 0097, 0, 49 0, 86 0, 300 0, 65 και να υπολογιστεί η ζητούμενη πιθανότητα όπως και πριν 0 30 3 P X X 3 p p 0, 49 0, 86 0, 535. Παράδειγμα. Σε ένα τυχερό παίγνιο ένας παίκτης διαθέτει και σε κάθε επανάληψη του παιχνιδιού κερδίζει με πιθανότητα p 0 ή χάνει με πιθανότητα p. Το παιχνίδι τελειώνει είτε όταν ο παίκτης συγκεντρώσει 3 είτε όταν χάσει όλα του τα χρήματα. Να οριστούν οι δυνατές καταστάσεις της Μαρκοβιανής αλυσίδας {Χ t } που περιγράφει το συγκεκριμένο παίγνιο και να καταστρωθεί το στοχαστικό μητρώο P των πιθανοτήτων μετάβασης p ij. Το συγκεκριμένο παίγνιο είναι μια Μαρκοβιανή αλυσίδα με καταστάσεις που δηλώνουν το ποσό που ενδέχεται να έχει στην κατοχή του ο παίκτης μετά από κάποια επανάληψη του παιχνιδιού, δηλαδή 0,,, 3. Το μητρώο των πιθανοτήτων μετάβασης ενός βήματος (μιας επανάληψης του παιχνιδιού) είναι το ακόλουθο 5

0 3 0 0 0 0 P p 0 p 0 0 p 0 p 3 0 0 0..3 Κατηγορίες καταστάσεων Μια κατάσταση j ονομάζεται προσιτή (accessible) από μια άλλη κατάσταση i αν και μόνο αν υπάρχει κάποιο για το οποίο ij p 0. Με άλλα λόγια, αν το σύστημα ξεκινήσει από την κατάσταση i είναι εφικτό να εισέλθει κάποια στιγμή στην κατάσταση j. Στο παράδειγμα. παρατηρούμε ότι ij p 0 για κάθε i,j άρα κάθε κατάσταση είναι προσιτή από κάθε άλλη κατάσταση. Στο παράδειγμα. η κατάσταση 3 είναι προσιτή από την κατάσταση, αλλά η κατάσταση δεν είναι προσιτή από την κατάσταση 3. Αν η κατάσταση j είναι προσιτή από την i και η κατάσταση i είναι προσιτή από τη j τότε οι καταστάσεις i και j επικοινωνούν (commuicate). Στο παράδειγμα. όλες οι καταστάσεις επικοινωνούν. Στο παράδειγμα. οι καταστάσεις και 3 δεν επικοινωνούν, ενώ οι καταστάσεις και επικοινωνούν. Γενικά ισχύουν οι εξής ιδιότητες: Κάθε κατάσταση επικοινωνεί με τον εαυτό της. Αν η κατάσταση i επικοινωνεί με την κατάσταση j, τότε και η κατάσταση j επικοινωνεί με την κατάσταση i. Αν η κατάσταση i επικοινωνεί με την κατάσταση j και η κατάσταση j επικοινωνεί με την κατάσταση k, τότε η κατάσταση i επικοινωνεί με την κατάσταση k. Οι δύο πρώτες ιδιότητες προκύπτουν από τον ορισμό της επικοινωνίας ενώ η τρίτη ιδιότητα προκύπτει από τις εξισώσεις Chapma - Kolmogorov. Συνέπεια αυτών είναι ότι όλες οι καταστάσεις μιας αλυσίδας εμπίπτουν σε μία ή περισσότερες κλάσεις έτσι ώστε οι καταστάσεις που επικοινωνούν να ανήκουν στην ίδια κλάση. Σημειώνεται ότι μία κλάση μπορεί να αποτελείται από μία μόνο κατάσταση. Αν σε μία Μαρκοβιανή αλυσίδα όλες οι καταστάσεις επικοινωνούν, δηλαδή υπάρχει μόνο μία κλάση, τότε η αλυσίδα λέγεται αδιαχώριστη (irreducible). 6

Η Μαρκοβιανή αλυσίδα του καταστάσεις επικοινωνούν. παραδείγματος. είναι αδιαχώριστη καθώς όλες της οι Στο παράδειγμα. υπάρχουν 3 κλάσεις: μία κλάση περιέχει την κατάσταση 0, μία κλάση περιέχει τις καταστάσεις και που επικοινωνούν και μία κλάση περιέχει την κατάσταση 3. Μια κατάσταση i ονομάζεται μεταβατική (trasiet) εάν υπάρχει πιθανότητα η αλυσίδα, εφόσον αναχωρήσει από την i να μην επανέλθει ποτέ σε αυτή. Ουσιαστικά, η κατάσταση i είναι μεταβατική αν και μόνο αν υπάρχει μια κατάσταση j η οποία είναι προσιτή από την i αλλά η i δεν είναι προσιτή από την j. Προφανώς, μια Μαρκοβιανή αλυσίδα "επισκέπτεται" μια μεταβατική κατάσταση μόνο για πεπερασμένο αριθμό φορών. Μια κατάσταση i ονομάζεται επανερχόμενη (recurret) εάν είναι βέβαιο ότι η αλυσίδα εφόσον αναχωρήσει από την i θα επανέλθει με βεβαιότητα κάποια στιγμή σε αυτή. Ουσιαστικά, η κατάσταση i είναι επανερχόμενη αν και μόνο αν δεν είναι μεταβατική. Προφανώς, μια ατέρμονη Μαρκοβιανή αλυσίδα "επισκέπτεται" μια επανερχόμενη κατάσταση άπειρες φορές. Μια κατάσταση i ονομάζεται απορροφητική (absorbig) εάν η αλυσίδα, εφόσον επισκεφτεί την κατάσταση i δεν αναχωρεί ποτέ από αυτήν. Ουσιαστικά, η κατάσταση i είναι απορροφητική αν και μόνο αν pii. Η απορροφητική κατάσταση είναι ειδική περίπτωση της επανερχόμενης κατάστασης. Μια αλυσίδα που παραμένει για συνεχόμενα βήματα σε μια κατάσταση i λέμε ότι επιστρέφει στην i. Οι καταστάσεις σε μια κλάση είναι είτε όλες επανερχόμενες είτε όλες μεταβατικές. Επιπλέον, σε μια Μαρκοβιανή αλυσίδα με πεπερασμένο αριθμό καταστάσεων δεν μπορεί όλες οι καταστάσεις να είναι μεταβατικές. Συνεπώς, σε κάθε αδιαχώριστη Μαρκοβιανή αλυσίδα με πεπερασμένο αριθμό καταστάσεων όλες οι καταστάσεις είναι επανερχόμενες. Στο παράδειγμα. όλες οι καταστάσεις είναι επανερχόμενες καθώς η αλυσίδα είναι αδιαχώριστη με πεπερασμένο αριθμό καταστάσεων. Στο παράδειγμα. οι καταστάσεις και είναι μεταβατικές καθώς υπάρχει πιθανότητα η αλυσίδα να μην επιστρέψει ποτέ σε αυτές (αν εισέλθει είτε στην κατάσταση 0 είτε στην κατάσταση 3), ενώ οι καταστάσεις 0 και 3 είναι απορροφητικές καθώς εάν η αλυσίδα εισέλθει σε οποιαδήποτε από αυτές τις δύο καταστάσεις δεν αναχωρεί ποτέ από αυτές. Μια κατάσταση i λέμε ότι έχει περίοδο m όταν ii p 0 για κάθε που δεν είναι ακέραιο πολλαπλάσιο του m και ο m είναι ο μεγαλύτερος ακέραιος με αυτή την ιδιότητα. 7

Στο παράδειγμα. αν η αλυσίδα ξεκινήσει από την κατάσταση, υπάρχει πιθανότητα να επανέλθει σε αυτή την κατάσταση μόνο κατά τα βήματα, 4,...κλπ, οπότε η κατάσταση έχει περίοδο m. Μια κατάσταση που έχει περίοδο λέγεται απεριοδική (aperiodic). Προφανώς, αν υπάρχουν δύο συνεχόμενα βήματα κατά τα οποία η αλυσίδα μπορεί να παραμείνει στην ίδια κατάσταση τότε η κατάσταση αυτή είναι απεριοδική. Οι καταστάσεις σε μια κλάση έχουν όλες την ίδια περίοδο m. Στο παράδειγμα. η κατάσταση έχει επίσης περίοδο m καθώς ανήκει στην ίδια κλάση με την κατάσταση και άρα έχουν την ίδια περίοδο. Σε μια Μαρκοβιανή αλυσίδα με πεπερασμένο αριθμό καταστάσεων, οι επανερχόμενες και απεριοδικές καταστάσεις ονομάζονται εργοδικές (ergodic). Αν όλες οι καταστάσεις μιας Μαρκοβιανής αλυσίδας είναι εργοδικές τότε η Μαρκοβιανή αλυσίδα λέγεται επίσης εργοδική. Στο παράδειγμα. όλες οι καταστάσεις είναι απεριοδικές καθώς pii 0 για κάθε i (η αλυσίδα μπορεί να μείνει δύο συνεχόμενα βήματα στην ίδια κατάσταση). Δεδομένου ότι όλες οι καταστάσεις της αλυσίδας είναι επανερχόμενες και απεριοδικές και ο αριθμός τους είναι πεπερασμένος, όλες οι καταστάσεις είναι εργοδικές και κατά συνέπεια η Μαρκοβιανή αλυσίδα του παραδείγματος. είναι εργοδική...4 Μακροπρόθεσμη ισορροπία Οι αδιαχώριστες εργοδικές Μαρκοβιανές αλυσίδες οδηγούνται μακροπρόθεσμα σε ισορροπία ή αλλιώς σε μόνιμη κατάσταση (steady state). Συγκεκριμένα, αποδεικνύεται ότι κάθε αδιαχώριστη εργοδική Μαρκοβιανή αλυσίδα βρίσκεται μακροπρόθεσμα στην κατάσταση j με πιθανότητα π j η οποία είναι ανεξάρτητη από την αρχική κατάσταση i και ισούται με το όριο π j ij lim p 0. Οι πιθανότητες π j ονομάζονται πιθανότητες μόνιμης κατάστασης (steady state probabilities) της Μαρκοβιανής αλυσίδας και ικανοποιούν το ακόλουθο σύστημα εξισώσεων μόνιμης κατάστασης (steady state equatios) π M π p για j 0,,...,M, j i ij i0 M j0 π. j 8

Το σύστημα εξισώσεων μόνιμης κατάστασης αποτελείται από M εξισώσεις και περιέχει M αγνώστους. Για την επίλυση του συστήματος μία εκ των πρώτων M εξισώσεων μπορεί να διαγραφεί, όχι όμως η τελευταία καθώς τότε το σύστημα γίνεται αόριστο. Ο όρος πιθανότητα μόνιμης κατάστασης χρησιμοποιείται για να εκφράσει το γεγονός ότι η διαδικασία βρίσκεται μακροπρόθεσμα (μετά την παρέλευση μεγάλου αριθμού βημάτων) σε μια κατάσταση j με πιθανότητα που είναι ανεξάρτητη από την αρχική κατάσταση (ή την κατανομή πιθανότητας η διαδικασία να βρίσκεται σε κάθε πιθανή αρχική κατάσταση). Σημειώνεται επίσης ότι η πιθανότητα μόνιμης κατάστασης σε καμία περίπτωση δεν υπονοεί ότι η διαδικασία παραμένει μόνιμα σε κάποια κατάσταση. Τουναντίον, η διαδικασία εξακολουθεί να κάνει μεταβάσεις μεταξύ των καταστάσεων με πιθανότητες μετάβασης p ij που εξακολουθούν να δίνονται από το μητρώο πιθανοτήτων μετάβασης ενός βήματος. Επιπλέον, σημειώνεται ότι οι πιθανότητες μόνιμης κατάστασης π j, δεδομένου ότι εκφράζουν την πιθανότητα η διαδικασία να βρεθεί μακροπρόθεσμα σε κάθε κατάσταση j ανεξάρτητα από την αρχική κατάσταση, μπορούν να υπολογιστούν έμμεσα μέσω του μητρώου μετάβασης ενός (αρκούντως) μεγάλου αριθμού βημάτων. Συγκεκριμένα, σε κάθε αδιαχώριστη εργοδική Μαρκοβιανή αλυσίδα παρατηρείται ότι οι τιμές των πιθανοτήτων μετάβασης κάθε σειράς του μητρώου i για μεγάλες τιμές του τείνουν στην τιμή p ij π j για κάθε j. Συνεπώς όλες οι σειρές ενός μητρώου μετάβασης "πολλών" βημάτων συγκλίνουν μεταξύ τους και καταλήγουν να έχουν τα ίδια στοιχεία, τα οποία είναι ίσα με τις αντίστοιχες πιθανότητες μόνιμης κατάστασης για κάθε j. Παράδειγμα.3 Να υπολογιστούν οι πιθανότητες μόνιμης κατάστασης για το σύστημα διαχείρισης αποθεμάτων του παραδείγματος.. Επιπλέον, να υπολογιστούν το μέσο τελικό απόθεμα και η μέση συχνότητα παραγγελιών του συστήματος μακροπρόθεσμα. Πριν από τον ακριβή υπολογισμό των πιθανοτήτων μόνιμης κατάστασης από το σύστημα εξισώσεων μόνιμης κατάστασης, θα υπολογίσουμε τα μητρώα μετάβασης περισσοτέρων των βημάτων ώστε να παρατηρήσουμε τη σύγκλιση των πιθανοτήτων μετάβασης στις τιμές των πιθανοτήτων μόνιμης κατάστασης. Συγκεκριμένα, έχουμε ήδη υπολογίσει στο παράδειγμα. το μητρώο μετάβασης P 0, 49 0, 86 0, 300 0, 65 083, 05, 033, 033, 0, 35 0, 39 0, 33 0, 097 0, 49 0, 86 0, 300 0, 65 P το οποίο έχει τη μορφή 9

Με αντίστοιχο τρόπο υπολογίζεται το μητρώο μετάβασης 4 βημάτων 0, 49 0, 86 0, 300 0, 650, 49 0, 86 0, 300 0, 65 4 0, 83 0, 5 0, 33 0, 33 0, 83 0, 5 0, 33 0, 33 P P P 0, 35 0, 39 0, 33 0, 097 0, 35 0, 39 0, 33 0, 097 0, 49 0, 86 0, 300 0, 650, 49 0, 86 0, 300 0, 65 0, 89 0, 86 0, 6 0, 64 0, 8 0, 85 0, 67 0, 66 0, 84 0, 83 0, 63 0, 7 0, 89 0, 86 0, 6 0, 64 και το μητρώο μετάβασης 8 βημάτων 089, 086, 06, 064, 089, 086, 06, 064, 8 4 4 0, 8 0, 85 0, 68 0, 66 0, 8 0, 85 0, 68 0, 66 P P P 0, 84 0, 83 0, 63 0, 7 0, 84 0, 83 0, 63 0, 7 089, 086, 06, 064, 089, 086, 06, 064, 0, 86 0, 85 0, 63 0, 66 0, 86 0, 85 0, 63 0, 66 0, 86 0, 85 0, 63 0, 66 0, 86 0, 85 0, 63 0, 66 Στο μητρώο 8 P παρατηρούμε ότι όλες οι σειρές έχουν πλέον την ίδια μορφή και οι πιθανότητες μετάβασης για κάθε j είναι ίσες μεταξύ τους και ανεξάρτητες από την τιμή του i. Πρακτικά, αυτό σημαίνει ότι η πιθανότητα να βρεθεί η διαδικασία στην κατάσταση j μετά από 8 εβδομάδες είναι η ίδια, ανεξάρτητα από την ακριβή τιμή του αρχικού αποθέματος. Συγκεκριμένα, το τελικό απόθεμα της 8ης εβδομάδας θα είναι 0 με πιθανότητα 0,86, με πιθανότητα 0,85, με πιθανότητα 0,63 και 3 με πιθανότητα 0,66. Στις ίδιες τιμές πιθανότητας θα καταλήγαμε και για οποιοδήποτε μητρώο μετάβασης περισσότερων των 8 βημάτων, καθώς η διαδικασία έχει ήδη συγκλίνει στις πιθανότητες μόνιμης κατάστασης. Αναλυτικά, ο ακριβής υπολογισμός των πιθανοτήτων μόνιμης κατάστασης γίνεται μέσω του συστήματος εξισώσεων μόνιμης κατάστασης που έχει την ακόλουθη μορφή π0 π0 p00 π p0 π p0 π3 p30 π π0 p0 π p π p π3 p3 π π0p0 πp πp π3p3 π3 π0 p03 πp3 π p3 π3 p33 0

π0 ππ π3. Αντικαθιστώντας τις τιμές των πιθανοτήτων μετάβασης p ij έχουμε το ακόλουθο σύστημα π 0, 080π 0, 63π 0, 64π 0, 080π 0 0 3 π 0, 84π 0, 368π 0, 368π 0, 84π 0 3 π 0, 368π 0, 368π 0, 368π 0 3 π 0, 368π 0, 368π 3 0 3 π0 ππ π3, από το οποίο μία εκ των 4 πρώτων εξισώσεων διαγράφεται (π.χ. η πρώτη) και επιλύοντάς το προκύπτουν οι ακόλουθες τιμές για τις πιθανότητες μόνιμης κατάστασης, π 0 086, π 0, 85 π 063, π 3 066,, οι οποίες ουσιαστικά ταυτίζονται με τις αντίστοιχες τιμές του μητρώου 8 P. Το μέσο τελικό απόθεμα του συστήματος μακροπρόθεσμα υπολογίζεται από τη σχέση 3 j0 jπ π π 3π, 309 j 3 και άρα ισούται με,309 τεμάχια του συγκεκριμένου προϊόντος. Παραγγελίες γίνονται μόνο όταν το τελικό απόθεμα μιας εβδομάδας είναι 0, άρα με πιθανότητα π 0 086, (μέσος αριθμός παραγγελιών ανά εβδομάδα). Συνεπώς, κατά μέσο όρο γίνεται μία παραγγελία κάθε π 0 0, 86 35, εβδομάδες. Αίροντας την υπόθεση των αδιαχώριστων εργοδικών αλυσίδων ισχύουν τα ακόλουθα για τις πιθανότητες μόνιμης κατάστασης: Αν μια κατάσταση j είναι μεταβατική, τότε αποδεικνύεται ότι lim p ij 0 για κάθε i, που σημαίνει ότι η πιθανότητα μόνιμης κατάστασης των μεταβατικών καταστάσεων είναι 0. Αν μια κατάσταση είναι περιοδική, τότε το όριο lim p ij μπορεί να μην υπάρχει. Αν όμως η αλυσίδα είναι αδιαχώριστη με πεπερασμένο αριθμό καταστάσεων υπάρχει πάντα το όριο κατάστασης. k lim pij π j, όπου οι πιθανότητες j k π ικανοποιούν τις εξισώσεις μόνιμης

Παράδειγμα.4 Να υπολογιστούν οι πιθανότητες μόνιμης κατάστασης για μια διαδικασία που έχει δύο καταστάσεις και το ακόλουθο μητρώο πιθανοτήτων μετάβασης 0 P 0 0 0 Παρατηρούμε ότι αν η διαδικασία ξεκινήσει από την κατάσταση 0 τη χρονική στιγμή 0 θα επανέλθει στην κατάσταση 0 τις χρονικές στιγμές, 4, 6,... κοκ., ενώ θα βρίσκεται στην κατάσταση κατά τις χρονικές στιγμές, 3, 5,... κοκ. (και οι δύο καταστάσεις έχουν περίοδο 00 00 0 m ). Συνεπώς, p για όλες τις ζυγές τιμές του και p για όλες τις μονές τιμές του, οπότε το όριο lim p 00 δεν υπάρχει. Υπάρχει όμως το όριο lim p π 05, k k i0 0 καθώς επίσης και το όριο k lim pi π 05,. k Οι τιμές των π 0 και π θα μπορούσαν να προκύψουν και από την επίλυση του ακόλουθου συστήματος εξισώσεων μόνιμης κατάστασης π0 π0p00 πp0 π π0p0 πp π 0 π, που μετά από αντικατάσταση των πιθανοτήτων μετάβασης p ij γίνεται π π π π 0 π 0 0 π, το οποίο, διαγράφοντας μία εκ των πρώτων εξισώσεων, οδηγεί στη λύση π 0 05, π 05,.

Παρατηρούμε λοιπόν ότι η διαδικασία θα βρίσκεται μακροπρόθεσμα το 50% του χρόνου στην κατάσταση 0 (κατά τις ζυγές χρονικές στιγμές) και το υπόλοιπο 50% του χρόνου στην κατάσταση (κατά τις μονές χρονικές στιγμές)...5 Χρόνος πρώτης διέλευσης Ο αριθμός των βημάτων που κάνει μια διαδικασία για να μεταβεί από μια κατάσταση i σε μια κατάσταση j για πρώτη φορά ονομάζεται χρόνος πρώτης διέλευσης (first passage time) από την κατάσταση i στην κατάσταση j. Αντίστοιχα, ο αριθμός των βημάτων που κάνει μια διαδικασία ξεκινώντας από μια κατάσταση i μέχρι να επιστρέψει στην ίδια κατάσταση για πρώτη φορά ονομάζεται χρόνος πρώτης επαναφοράς στην κατάσταση i. Τόσο ο χρόνος πρώτης διέλευσης όσο και ο χρόνος πρώτης επαναφοράς είναι τυχαίες μεταβλητές με κατανομή πιθανότητας που εξαρτάται από τις πιθανότητες μετάβασης της διαδικασίας. Αν ορίσουμε ij f την πιθανότητα η πρώτη διέλευση από την κατάσταση i στην κατάσταση j να γίνει σε βήματα, τότε ισχύουν οι ακόλουθες αναδρομικές σχέσεις ij f p ij ij pik fkj k j f... ij pik fkj k j f, που μπορούν να χρησιμοποιηθούν για τον υπολογισμό οποιασδήποτε πιθανότητας ij f. Πολλές φορές βέβαια είναι απλούστερος και ταυτοχρόνως πιο χρήσιμος ο υπολογισμός του μέσου χρόνου πρώτης μετάβασης από την κατάσταση i στην κατάσταση j, ο οποίος συμβολίζεται μ ij, και ισούται με μ ij fij ij αν f ij αν f Όταν fij (δηλαδή όταν η κατάσταση j είναι επανερχόμενη), τότε ο μέσος χρόνος πρώτης μετάβασης μ ij ικανοποιεί τη σχέση μ p μ. ij ik kj k j 3

Ουσιαστικά η σχέση αυτή λαμβάνει υπ' όψιν ότι η πρώτη μετάβαση από την κατάσταση i θα είναι είτε απευθείας στην κατάσταση j είτε σε κάποια άλλη κατάσταση k. Στην πρώτη περίπτωση (που εμφανίζεται με πιθανότητα p ij ) ο μέσος χρόνος πρώτης μετάβασης ισούται με. Στη δεύτερη περίπτωση (που εμφανίζεται με πιθανότητα χρόνος πρώτης μετάβασης μ ij ισούται με μkj p ik για k μ ij j) ο μέσος. Συνδυάζοντας τις δύο αυτές περιπτώσεις με τις αντίστοιχες πιθανότητες καταλήγουμε στην προαναφερθείσα σχέση που μπορεί να χρησιμοποιηθεί για τον υπολογισμό του μ ij. Παράδειγμα.5 Για τα δεδομένα του παραδείγματος. και για αρχικό απόθεμα ίσο με 3 τεμάχια του προϊόντος να υπολογιστεί: α) η πιθανότητα η πρώτη παραγγελία να τεθεί στο τέλος της πρώτης εβδομάδας β) η πιθανότητα η πρώτη παραγγελία να τεθεί στο τέλος της δεύτερης εβδομάδας γ) ο μέσος χρόνος μέχρι την πρώτη παραγγελία α) Ζητείται η πιθανότητα 30 f που δίνεται από τη σχέση f30 p 30 0, 080. β) Ζητείται η πιθανότητα 30 f που δίνεται από τη σχέση 30 3k k0 3 0 3 0 33 30 3 0 3 0 33 30 k 0 f p f p f p f p f p p p p p p 0, 84 0, 63 0, 3680, 64 0, 3680, 080 0, 43. γ) Ζητείται ο μέσος χρόνος πρώτης διέλευσης από την κατάσταση 3 στην κατάσταση 0, μ 30, που υπολογίζεται από το ακόλουθο σύστημα εξισώσεων μ p μ p μ p μ 30 3 0 3 0 33 30 μ p μ p μ p μ 0 0 0 3 30 μ p μ p μ p μ, 0 0 0 3 30 το οποίο μετά από αντικατάσταση των τιμών των p ij γίνεται μ 0, 84μ 0, 368μ 0, 368μ 30 0 0 30 μ 0, 368μ 0, 368μ 0 0 0 μ 0, 368μ. 0 0 4

Επίλυση του συστήματος οδηγεί στη λύση μ 0 58, εβδομάδες μ 0 5, εβδομάδες μ 30 350, εβδομάδες, οπότε ο μέσος χρόνος μέχρι την πρώτη παραγγελία ισούται με 3,5 εβδομάδες. Για τον υπολογισμό του ζητούμενου χρόνου μ 30, βέβαια, χρειάστηκε να υπολογιστούν και οι χρόνοι μ 0 και μ 0. Ο μέσος χρόνος πρώτης επαναφοράς μ ii υπολογίζεται απλούστερα μέσω των πιθανοτήτων μόνιμης κατάστασης της διαδικασίας π i από τη σχέση μ ii για κάθε i. π i Στο παράδειγμα., όπου έχουν ήδη υπολογιστεί οι ακόλουθες τιμές για τις πιθανότητες μόνιμης κατάστασης π0 0,86 π 0,85 π 0,63 π3 0,66, οι αντίστοιχοι μέσοι χρόνοι πρώτης επαναφοράς για κάθε κατάσταση είναι (σε εβδομάδες) μ00 3,50 μ 3,5 μ 3,80 μ33 6,0. π π π π 0 3..6 Πιθανότητα απορρόφησης Η πιθανότητα μια διαδικασία που ξεκινάει από την κατάσταση i να μεταβεί κάποια στιγμή σε μια κατάσταση απορρόφησης k ονομάζεται πιθανότητα απορρόφησης στην κατάσταση k δεδομένης της αρχικής κατάστασης i και συμβολίζεται f ik. Προφανώς, σε μια τέτοια περίπτωση μετά τη μετάβαση στην κατάσταση k η διαδικασία παραμένει για πάντα σε αυτή την κατάσταση ( pkk ). Αν υπάρχουν περισσότερες από μία απορροφητικές καταστάσεις σε μια αλυσίδα ενδιαφέρει συνήθως ο υπολογισμός των επιμέρους πιθανοτήτων απορρόφησης. Οι πιθανότητες αυτές μπορούν να υπολογιστούν λύνοντας το ακόλουθο σύστημα εξισώσεων f M p f για κάθε i 0,,...,M, ik ij jk j0 όπου fkk και fik 0 αν η κατάσταση i είναι επανερχόμενη και i k. 5

Παράδειγμα.6 Για τα δεδομένα του παραδείγματος. να υπολογιστεί η πιθανότητα το παιχνίδι να τελειώσει με νίκη του παίκτη δεδομένου ότι αρχικά διαθέτει. Ζητείται η πιθανότητα f 3 που υπολογίζεται από το ακόλουθο σύστημα εξισώσεων f3 p0 f03 p f3 p f3 p3 f33 f3 p0 f03 p f3 p f3 p3 f33, όπου f33 και f03 0 καθώς η κατάσταση 0 είναι επανερχόμενη (απορροφητική) και διαφορετική της κατάστασης 3. Με αντικατάσταση των πιθανοτήτων μετάβασης από το αντίστοιχο μητρώο μετάβασης το σύστημα παίρνει τη μορφή και η επίλυσή του οδηγεί στη λύση f pf 3 3 f p f p 3 3 f 3 p και p p f 3 p. p p Αν για παράδειγμα p τότε f3 3, f3 3...7 Μέση μακροπρόθεσμη ανταμοιβή ανά μονάδα χρόνου Συνήθως, σε μια Μαρκοβιανή αλυσίδα η κατάσταση X t ή η μετάβαση από μια κατάσταση X t i σε μια άλλη κατάσταση X t j συνδέεται με μια ανταμοιβή που μπορεί να αντιστοιχεί είτε σε κάποιο κόστος είτε σε κάποιο κέρδος και συμβολίζεται αντίστοιχα C X t Q ή i C X i,x j Q. Ο υπολογισμός της μέσης ανταμοιβής ανά μονάδα t t ij χρόνου είναι σημαντικός για την οικονομική αποτίμηση του συστήματος που περιγράφεται από τη Μαρκοβιανή αλυσίδα και παρουσιάζεται αναλυτικά στη συνέχεια για διάφορες περιπτώσεις. Πεπερασμένος χρονικός ορίζοντας Η συνολική αναμενόμενη ανταμοιβή μιας διαδικασίας σε βήματα όταν αυτή ξεκινάει από την κατάσταση i συμβολίζεται αναδρομικές εξισώσεις M C i και υπολογίζεται για κάθε i και από τις ακόλουθες, C i p Q C j Q p C j ij ij i ij j0 j0 M 6

όπου M Q E Q p Q είναι η άμεση αναμενόμενη ανταμοιβή (αναμενόμενη i ij ij ij j0 ανταμοιβή του επόμενου βήματος) όταν η διαδικασία βρίσκεται στην κατάσταση i και είναι η ανταμοιβή για τελική κατάσταση j. Η αντίστοιχη αναμενόμενη ανταμοιβή ανά μονάδα χρόνου της διαδικασίας όταν αυτή ξεκινάει από την κατάσταση i συμβολίζεται Άπειρος χρονικός ορίζοντας C i C i και υπολογίζεται από τη σχέση C i. Η μέση μακροπρόθεσμη ανταμοιβή ανά μονάδα χρόνου μιας διαδικασίας, είναι προφανώς ανεξάρτητη της αρχικής και τελικής κατάστασης της διαδικασίας και δίνεται από τη σχέση Χρησιμοποιώντας το γεγονός ότι C lime Q lim E Q ij ij. t t C0 j η προηγούμενη σχέση γίνεται Γενικότερα, αν k ij k lim p π M C lim E Q π Q t i0 ij i i. η X t είναι αδιαχώριστη Μαρκοβιανή αλυσίδα με πεπερασμένο αριθμό καταστάσεων η X t συνδέεται με μια αλληλουχία ανεξάρτητων τυχαίων μεταβλητών t την ίδια κατανομή για κάθε t j D που έχουν για σταθερό ακέραιο m η άμεση ανταμοιβή της διαδικασίας τη χρονική στιγμή t είναι C X t,dt m η σειρά X 0,X,...,X t είναι ανεξάρτητη της Dt m, τότε η μακροπρόθεσμη μέση ανταμοιβή της διαδικασίας ανά μονάδα χρόνου δίνεται από τη σχέση M πiqi όπου Q i E C X t i,d t m i0. 7

Παράδειγμα.7 Υποθέστε ότι η επιχείρηση που διαχειρίζεται το προϊόν του παραδείγματος. υφίσταται ένα κόστος διατήρησης αποθέματος αν στο τέλος κάποιας εβδομάδας υπάρχουν τεμάχια του συγκεκριμένου προϊόντος στην αποθήκη. Συγκεκριμένα, το κόστος που υφίσταται έχει τη μορφή 0 για i 0 για i Qi 8 για i 8 για i 3 Να υπολογιστεί το μέσο μακροπρόθεσμο εβδομαδιαίο κόστος διατήρησης αποθέματος της επιχείρησης. Το μέσο μακροπρόθεσμο εβδομαδιαίο κόστος διατήρησης αποθέματος της επιχείρησης είναι ανεξάρτητο του αρχικού αποθέματος και δίνεται από τη σχέση 3 C πiq i 0, 860 0, 85 0, 638 0, 668 5, 66. i0 Παράδειγμα.8 Υποθέστε ότι στο σύστημα διαχείρισης αποθεμάτων του παραδείγματος. το κόστος παραγγελίας είναι 300, το κόστος διατήρησης ανά μονάδα τελικού αποθέματος (ανά εβδομάδα) είναι 5, η τιμή πώλησης ανά μονάδα προϊόντος είναι 00 και το κόστος έλλειψης ανά μονάδα προϊόντος είναι 30 επιπλέον της απώλειας κέρδους. Να υπολογιστεί το μέσο μακροπρόθεσμο εβδομαδιαίο κέρδος της επιχείρησης. Στην περίπτωση αυτή, το εβδομαδιαίο κέρδος της επιχείρησης εξαρτάται και από τη μετάβαση από μια κατάσταση X t i σε μια άλλη κατάσταση X t j ή πιο συγκεκριμένα και από τη ζήτηση της εβδομάδας Dt. Συνεπώς, το μέσο μακροπρόθεσμο εβδομαδιαίο κέρδος θα υπολογιστεί από τη σχέση M M i i i t t, C π Q π EC X i,d i0 i0 όπου το εβδομαδιαίο κέρδος C X C X t i,d t t i,dt υπολογίζεται ως εξής: t t 00mi D, 3 300 30max D 3, 0 για i 0 00mi D t,x t 30max Dt X t, 0 5 X t για i Το μέσο εβδομαδιαίο κέρδος αν το τελικό απόθεμα της προηγούμενης εβδομάδας είναι X 0 είναι t 8

t 0 t 00 t 3 300 30 t 3 0 Q0 EC X,D E mi D, E max D, 00P D P D 3P D 3 300 t t t 30P D 4 P D 5 3P D 6... t t t, όπου οι πιθανότητες PD d τεμάχιο. Άρα τελικά t δίνονται από την κατανομή Poisso με μέση τιμή Q 0 00 0, 368 0, 84 30, 080 300 30 0, 05 0, 00330, 0005... 05, 368. Με ανάλογο τρόπο υπολογίζεται το μέσο εβδομαδιαίο κέρδος για τις υπόλοιπες τιμές της t t t t Q EC X,D 00E mi D, 30E max D 0, 5 00P D 30P D P D 3 3P D 4... 5 t t t t 000, 63 30 0, 84 0, 0630, 05... 5 0, 388 t t t t Q EC X,D 00E mi D, 30E max D, 0 0 00 P D P D 30P D 3 P D 4... 0 t t t t 00 0, 368 0, 64 30 0, 06 0, 05... 0 66, 63 t t t t Q3 EC X 3,D 00E mi D, 3 30E max D 30, 5 00P Dt P Dt 3P Dt 3 30P D 4 P D 5 3P D 6... 5 t t t 00 0, 368 0, 84 30, 080 30 0, 05 0, 003 30, 0005... 5 79, 633. Άρα το μέσο μακροπρόθεσμο εβδομαδιαίο κέρδος είναι M πiq i 0, 8605, 3680, 850, 388 0, 6366, 63 0, 6679, 633 74, 97. i0 Εναλλακτικά, το μέσο μακροπρόθεσμο εβδομαδιαίο κέρδος μπορεί να υπολογιστεί ως εξής: Το μέσο τελικό απόθεμα του συστήματος μακροπρόθεσμα είναι X t 3 jπ j ππ 3π 3, 309 τεμάχια. j0 9

Το μέσο αρχικό απόθεμα του συστήματος μακροπρόθεσμα είναι 3π π π 3π 67, τεμάχια. 0 3 Άρα οι μέσες εβδομαδιαίες πωλήσεις είναι, 67, 309 0, 858 τεμάχια. Η τιμή αυτή είναι μικρότερη της μέσης εβδομαδιαίας ζήτησης που ισούται με τεμάχιο καθώς μέρος της ζήτησης χάνεται ελλείψει αποθέματος κατά τη χρονική στιγμή εμφάνισης της ζήτησης. Άρα η μέση εβδομαδιαία έλλειψη είναι Συνδυάζοντας όλα τα παραπάνω έχουμε 0, 858 0, 4 τεμάχια. μέσο μέσες μακροπρόθεσμο τιμή κόστος πιθανότητα εβδομαδιαίες εβδομαδιαίο πώλησης παραγγελίας παραγγελίας πωλήσεις κέρδος κόστος μέση κόστος μέσο έλλειψης εβδομαδιαία διατήρησης τελικό αποθέματος έλλειψη αποθέματος απόθεμα 000, 858 3000, 86 300, 4 5, 309 74, 97..3 Έλεγχος Μαρκοβιανών αλυσίδων διακριτού χρόνου Ο έλεγχος των Μαρκοβιανών αλυσίδων διακριτού χρόνου αποσκοπεί στη βελτιστοποίηση της διαδικασίας μέσω της επιλογής κατάλληλων δράσεων ή αλλιώς μέσω της λήψης κατάλληλων αποφάσεων k ( k,,...,k ), οι οποίες επηρεάζουν τόσο τις πιθανότητες μετάβασης pij k όσο και τις άμεσες ανταμοιβές ij Q k της διαδικασίας. Υπάρχουν διάφορες μέθοδοι βελτιστοποίησης της λειτουργίας των Μαρκοβιανών αλυσίδων διακριτού χρόνου οι οποίες παρουσιάζονται αναλυτικά στη συνέχεια για διάφορες περιπτώσεις..3. Πεπερασμένος χρονικός ορίζοντας Στόχος είναι η βελτιστοποίηση (ελαχιστοποίηση ή μεγιστοποίηση) της συνολικής αναμενόμενης ανταμοιβής μιας διαδικασίας σε βήματα. Το πρόβλημα αυτό αντιμετωπίζεται με τη μέθοδο του στοχαστικού Δυναμικού Προγραμματισμού και τη χρήση αναδρομικών εξισώσεων υπολογισμού της συνολικής αναμενόμενης ανταμοιβής της διαδικασίας σε βήματα, C i,k, όταν αυτή ξεκινάει από την κατάσταση i και λαμβάνεται η απόφαση k και 0

όλες οι επόμενες αποφάσεις είναι βέλτιστες. Συγκεκριμένα, για πρόβλημα ελαχιστοποίησης οι αναδρομικές εξισώσεις έχουν τη μορφή M M * * * C i mikci,kmik pijk QijkC j mik Qik pijkc j j0 j0 όπου Q k p kq k M i ij ij j0, είναι η άμεση αναμενόμενη ανταμοιβή (αναμενόμενη ανταμοιβή του επόμενου βήματος) όταν η διαδικασία βρίσκεται στην κατάσταση i και * λαμβάνεται η απόφαση k, ενώ C j είναι η βέλτιστη ανταμοιβή για τελική κατάσταση j. 0 Η αντίστοιχη βέλτιστη αναμενόμενη ανταμοιβή ανά μονάδα χρόνου της διαδικασίας όταν αυτή ξεκινάει από την κατάσταση i συμβολίζεται C * * i * C i C. i και υπολογίζεται από τη σχέση Θεμέλιο του Δυναμικού Προγραμματισμού αποτελεί η αρχή βελτιστοποίησης του Bellma σύμφωνα με την οποία: η βέλτιστη πολιτική (αποφάσεις) για τα επόμενα στάδια δεν εξαρτάται από την πολιτική των προηγούμενων σταδίων. Η διαδικασία βελτιστοποίησης ξεκινά με τον προσδιορισμό των βέλτιστων αποφάσεων για κάθε κατάσταση i στο τελευταίο στάδιο της διαδικασίας ( ) και στη συνέχεια, με δεδομένη τη βέλτιστη πολιτική (απόφαση σε κάθε κατάσταση) του σταδίου προσδιορίζεται η βέλτιστη πολιτική του σταδίου (,,...). Παράδειγμα.9 Η λειτουργία μιας μηχανής χαρακτηρίζεται από 4 καταστάσεις: τέλεια λειτουργία (κατάσταση 0), μικρή δυσλειτουργία (κατάσταση ), σημαντική δυσλειτουργία (κατάσταση ), πλήρης βλάβη (κατάσταση 3). Η μηχανή ελέγχεται στο τέλος κάθε εβδομάδας και ο έλεγχος αποκαλύπτει με ακρίβεια την κατάστασή της. Σύμφωνα με τα διαθέσιμα ιστορικά στοιχεία, το μητρώο πιθανοτήτων μετάβασης p ij από κάθε κατάσταση i στο τέλος μιας εβδομάδας σε οποιαδήποτε κατάσταση j στο τέλος της επόμενης εβδομάδας, εφόσον δεν υπάρξει κάποια βελτιωτική παρέμβαση στη μηχανή, είναι το ακόλουθο 0 3 0 0 7 8 6 6 P 0 34 8 8 0 0 3 0 0 0

Επειδή η κατάσταση 3 είναι απορροφητική, εάν η μηχανή βρεθεί σε αυτή την κατάσταση στο τέλος κάποιας εβδομάδας επισκευάζεται πλήρως (απόφαση k 3) και επανέρχεται με βεβαιότητα στην κατάσταση 0 στο τέλος της επόμενης εβδομάδας με κόστος 6000 (συνολικό κόστος επισκευής και απώλειας παραγωγικού χρόνου). Η πλήρης επισκευή με το ίδιο κόστος μπορεί να επιλεγεί και όταν η μηχανή βρίσκεται στην κατάσταση ή στην κατάσταση, δεδομένου ότι λειτουργία της μηχανής στην κατάσταση ή στην αρχή της επόμενης εβδομάδας συνοδεύεται από μέσο εβδομαδιαίο κόστος παραγωγής ελαττωματικών προϊόντων ίσο με 3000 ή 000, αντίστοιχα. Μια πρόσθετη εναλλακτική απόφαση, η οποία είναι διαθέσιμη μόνο στην κατάσταση είναι η μερική συντήρηση της μηχανής (απόφαση k ) που την επαναφέρει με βεβαιότητα στην κατάσταση στο τέλος της επόμενης εβδομάδας με συνολικό κόστος 4000. Στην κατάσταση 0 δε γίνεται καμία ενέργεια συντήρησης (απόφαση k ), ενώ στην κατάσταση 3 η απόφαση είναι πάντα k 3. Έστω ότι η μηχανή θα λειτουργήσει για 4 συνολικά εβδομάδες και ότι στο τέλος του χρόνου αυτού το αναμενόμενο κόστος θα είναι 0, 000, 4000 ή 6000 ανάλογα με την τελική της κατάσταση, 0,, ή 3, αντίστοιχα. Να προσδιοριστεί η βέλτιστη πολιτική συντήρησης της μηχανής, δηλαδή η βέλτιστη απόφαση στο τέλος κάθε εβδομάδας που η μηχανή θα βρίσκεται στην κατάσταση (k ή 3) ή στην κατάσταση (k ή ή 3). Για τη βέλτιστη πολιτική να υπολογιστεί το αναμενόμενο συνολικό κόστος και το αναμενόμενο εβδομαδιαίο κόστος (συμπεριλαμβανομένου και του τελικού κόστους) αν η μηχανή ξεκινήσει από την κατάσταση 0. Από τα δεδομένα έχουμε * * * * C C C 0 0 0 0 000 0 4000 C0 3 6000, ενώ οι πιθανότητες μετάβασης συναρτήσει των εναλλακτικών αποφάσεων k, Κατάσταση Απόφαση Πιθανότητες μετάβασης pij k, είναι i k pi0 k pi k pi k pi3 k 0 0 78 6 6 0 34 8 8 3 0 0 0 0 0 0 0 0 3 0 0 0 3 3 0 0 0

Από τη σχέση Q k p kq k Κατάσταση 0: M προκύπτουν οι ακόλουθες τιμές i ij ij j0 Q 0 0, Κατάσταση : Κατάσταση : Q 000, Q 3 6000, Q 3000, Q 4000, Q 3 6000, Κατάσταση 3: Q 3 3 6000. Για τον προσδιορισμό της βέλτιστης πολιτικής απαιτείται ο υπολογισμός της συνολικής αναμενόμενης ανταμοιβής της διαδικασίας σε βήματα όταν αυτή ξεκινάει από την κατάσταση i και λαμβάνεται η απόφαση k και όλες οι επόμενες αποφάσεις είναι βέλτιστες, C i,k, από τη σχέση * C i,k Q k p k C j i ij j0 M για κάθε i,k, ξεκινώντας από το τελευταίο στάδιο ( ). Η βέλτιστη απόφαση για κάθε κατάσταση i προκύπτει από τη σχέση M * * C i mikci,k mik Qik pijk C j. j0 Άρα για (αρχή της τέταρτης και τελευταίας εβδομάδας) έχουμε τον ακόλουθο πίνακα i k 0 * C i,k C i 7 0 000 4000 6000 375 375 8 6 6 3 000 000 4000 6000 3750 3750 4 8 8 3 6000 0 6000 3000 4000 6000 8000 4000 000 6000 6000 3 6000 0 6000 6000 3 3 3 6000 0 6000 6000 3 Εν συνεχεία, για (αρχή της τρίτης εβδομάδας) και θεωρώντας ότι στην αρχή της τέταρτης εβδομάδας θα ληφθεί η βέλτιστη απόφαση σε κάθε κατάσταση έχουμε τον ακόλουθο πίνακα * k 3

i k * C i,k C i * k 0 7 0 3750 6000 6000 403, 5 403,5 8 6 6 3 000 3750 6000 6000 53, 5 53,5 4 8 8 3 6000 375 8375 3000 6000 6000 9000 4000 3750 7750 7750 3 6000 375 8375 3 3 6000 375 8375 8375 3 Ομοίως, για 3 (αρχή της δεύτερης εβδομάδας) και θεωρώντας ότι στην αρχή της τρίτης εβδομάδας θα ληφθεί η βέλτιστη απόφαση σε κάθε κατάσταση έχουμε τον ακόλουθο πίνακα i k 3 0 * C i,k C i 7 0 53, 5 7750 8375 5656, 5 5656,5 8 6 6 3 000 53, 5 7750 8375 7000 7000 4 8 8 3 6000 403, 5 003, 5 3000 7750 8375 06, 5 4000 53, 5 93, 5 93,5 3 6000 403, 5 003, 5 3 3 6000 403, 5 003, 5 003,5 3 Τέλος, για 4 (αρχή της πρώτης εβδομάδας) και θεωρώντας ότι στην αρχή της δεύτερης εβδομάδας θα ληφθεί η βέλτιστη απόφαση σε κάθε κατάσταση έχουμε τον ακόλουθο πίνακα i k 4 0 * C i,k C i 7 0 7000 93, 5 003, 5 7333, 98 7333,98 8 6 6 3 000 7000 93, 5 003, 5 8667, 97 8667,97 4 8 8 3 6000 5656, 5 656, 5 3000 93, 5 003, 5 67, 9 4000 7000 000 000 3 6000 5656, 5 656, 5 3 3 6000 5656, 5 656, 5 656,5 3 4 3 4 * k * k

Η βέλτιστη πολιτική συντήρησης, δηλαδή οι βέλτιστες αποφάσεις για κάθε κατάσταση στο τέλος κάθε μιας από τις 4 εβδομάδες, παρουσιάζονται στην τελευταία στήλη των αντίστοιχων πινάκων. Παρατηρήστε ότι η βέλτιστη πολιτική σταθεροποιείται όσο απομακρυνόμαστε από το τέλος του χρονικού ορίζοντα (όσο το μεγαλώνει), καθώς οι τελικές συνθήκες έχουν όλο και μικρότερη επίδραση στο συνολικό οικονομικό αποτέλεσμα. Το αναμενόμενο συνολικό κόστος αν η μηχανή ξεκινήσει στην κατάσταση 0 είναι * C 4 0 7333, 98, ενώ το αντίστοιχο αναμενόμενο εβδομαδιαίο κόστος είναι.3. Άπειρος χρονικός ορίζοντας * * C 4 0 7333, 98 C 4 0 833, 495. 4 4 Στόχος είναι η βελτιστοποίηση (ελαχιστοποίηση ή μεγιστοποίηση) της μέσης αναμενόμενης ανταμοιβής μιας διαδικασίας που λειτουργεί επ' άπειρον. Η βέλτιστη πολιτική (βέλτιστη απόφαση * k ή * d i σε κάθε κατάσταση i) μιας τέτοιας διαδικασίας είναι ανεξάρτητη του αριθμού των βημάτων που απομένουν μέχρι τη λήξη της διαδικασίας, καθώς αυτά είναι θεωρητικά άπειρα, και μπορεί να προσδιοριστεί με χρήση των ακόλουθων μεθόδων: Απαρίθμηση και σύγκριση όλων των εναλλακτικών πολιτικών Μέθοδος γραμμικού προγραμματισμού Αλγόριθμος βελτίωσης πολιτικής Απαρίθμηση και σύγκριση όλων των εναλλακτικών πολιτικών Για κάθε μία από τις δυνατές πολιτικές της διαδικασίας R j d0r j,dr j,...,dm R j προσδιορίζονται οι πιθανότητες μόνιμης κατάστασης i j ανταμοιβές για κάθε κατάσταση i j μακροπρόθεσμη ανταμοιβή από τη σχέση π R και οι αναμενόμενες άμεσες Q R και υπολογίζεται η αντίστοιχη μέση M j i j i j C R π R Q R. i0 Εν συνεχεία, συγκρίνονται οι μέσες αναμενόμενες ανταμοιβές όλων των εναλλακτικών πολιτικών και επιλέγεται η πολιτική με τη βέλτιστη (ελάχιστη ή μέγιστη) μέση αναμενόμενη ανταμοιβή. Προφανώς, η μέθοδος αυτή είναι κατάλληλη μόνο για μικρό αριθμό εναλλακτικών πολιτικών. 5

Παράδειγμα.0 Αν η μηχανή του παραδείγματος.9 πρόκειται να λειτουργεί για πολύ μεγάλο χρονικό διάστημα (πρακτικά άπειρο) να προσδιοριστεί το μακροπρόθεσμο αναμενόμενο εβδομαδιαίο κόστος (αγνοώντας το τελικό κόστος που πρακτικά είναι αμελητέο όταν ) για κάθε μία από τις ακόλουθες πολιτικές και να επιλεγεί η βέλτιστη: Πολιτική R a : k κατάσταση (ή d ), k στην κατάσταση (ή d ) Πολιτική R b : k κατάσταση (ή d ), k στην κατάσταση (ή d ) Πολιτική R c : k κατάσταση (ή d ), k 3 στην κατάσταση (ή d 3) Πολιτική R d : k 3 κατάσταση (ή d 3), k 3 στην κατάσταση (ή d 3) Για τον υπολογισμό του μακροπρόθεσμου μέσου εβδομαδιαίου κόστους της κάθε πολιτικής απαιτείται να προσδιοριστούν οι αντίστοιχες πιθανότητες μόνιμης κατάστασης καθώς επίσης και οι αναμενόμενες άμεσες ανταμοιβές. Τα μητρώα των πιθανοτήτων μετάβασης για κάθε μία από τις 4 εναλλακτικές πολιτικές είναι τα ακόλουθα: P R a P R c 0 3 0 0 7 8 6 6 0 3 4 8 8 0 0 3 0 0 0 0 3 0 0 7 8 6 6 0 3 4 8 8 0 0 0 3 0 0 0 P R b P R d 0 3 0 0 7 8 6 6 0 3 4 8 8 0 0 0 3 0 0 0 0 3 0 0 7 8 6 6 0 0 0 0 0 0 3 0 0 0 Οπότε για την πολιτική R a προκύπτει το ακόλουθο σύστημα εξισώσεων μόνιμης κατάστασης π π 0 3 7 3 π π π 8 4 0 π π π π 6 8 0 π π π π 6 8 3 0 π0 ππ π3 6

με λύση 3 π0 7 π 3 Οι αντίστοιχες αναμενόμενες άμεσες ανταμοιβές είναι π 3 3 π. 3 Q0 0 Q 000 Q 3000 Q3 6000 και συνεπώς το μέσο μακροπρόθεσμο εβδομαδιαίο κόστος της πολιτικής R a είναι 7 CR a 0 000 3000 6000 93, 08. 3 3 3 3 Ομοίως, για την πολιτική R b προκύπτει το ακόλουθο σύστημα εξισώσεων μόνιμης κατάστασης με λύση π0 π π 0 3 7 3 π π π π 8 4 0 π π π 6 8 0 π π π 6 8 3 0 π0 ππ π3 5 5 π 7 Οι αντίστοιχες αναμενόμενες άμεσες ανταμοιβές είναι π 3 π. Q0 0 Q 000 Q 4000 Q3 6000 και συνεπώς το μέσο μακροπρόθεσμο εβδομαδιαίο κόστος της πολιτικής R b είναι 5 CR b 0 000 4000 6000 666, 67. 7 Για την πολιτική R c προκύπτει το ακόλουθο σύστημα εξισώσεων μόνιμης κατάστασης π0 π π3 7 3 π π π 8 4 0 7

π π π 6 8 0 π π π 6 8 3 0 π0 ππ π3 με λύση π0 7 π Οι αντίστοιχες αναμενόμενες άμεσες ανταμοιβές είναι π 3 π. Q0 0 Q 000 Q 6000 Q3 6000 και συνεπώς το μέσο μακροπρόθεσμο εβδομαδιαίο κόστος της πολιτικής R c είναι 7 CR c 0 000 6000 6000 77, 7. Τέλος, για την πολιτική R d προκύπτει το ακόλουθο σύστημα εξισώσεων μόνιμης κατάστασης π0 ππ π3 με λύση π0 π π π 7 π 8 0 π 6 0 π 6 3 0 π0 ππ π3 7 π 6 Οι αντίστοιχες αναμενόμενες άμεσες ανταμοιβές είναι π 3 3 π. 3 Q0 0 Q 6000 Q 6000 Q3 6000 και συνεπώς το μέσο μακροπρόθεσμο εβδομαδιαίο κόστος της πολιτικής R d είναι 7 CRd 0 6000 6000 6000 3000. 6 3 3 8

Άρα η βέλτιστη πολιτική είναι η πολιτική R b με μέσο μακροπρόθεσμο εβδομαδιαίο κόστος 666,67. Στην πολιτική αυτή, άλλωστε, συνέκλινε και η λύση του παραδείγματος.9 για μεγάλες τιμές του. Σε περιπτώσεις που ο αριθμός των εναλλακτικών πολιτικών είναι σχετικά μεγάλος η μέθοδος της απαρίθμησης και σύγκρισης όλων των εναλλακτικών πολιτικών γίνεται αρκετά χρονοβόρα και γι' αυτό χρησιμοποιούνται άλλες μέθοδοι που οδηγούν σε ταχύτερο προσδιορισμό της βέλτιστης πολιτικής. Μέθοδος γραμμικού προγραμματισμού Όπως έχει ήδη αναφερθεί μια πολιτική εκφράζεται από το αντίστοιχο σύνολο των αποφάσεων σε κάθε κατάσταση της διαδικασίας R d0r,dr,...,dm R μια πολιτική θα μπορούσε να περιγραφεί από ένα μητρώο της μορφής. Ισοδύναμα, 0... M... K D0 D 0... D0K D D... D K............ DM D M... DMK όπου κάθε D ( i 0,,...,M και k,,...,k ) είναι μια δυαδική μεταβλητή που παίρνει την ik τιμή αν και μόνο αν η απόφαση k λαμβάνεται στην κατάσταση i, αλλιώς παίρνει την τιμή 0. Κάθε σειρά, λοιπόν, του μητρώου που προσδιορίζει μια πολιτική R περιέχει ακριβώς ένα στοιχείο που ισούται με και όλα τα υπόλοιπα στοιχεία της σειράς είναι 0. Για παράδειγμα, το μητρώο της βέλτιστης πολιτική R b του παραδείγματος.0 έχει τη μορφή 3 0 0 0 PRb 0 0 0 0 3 0 0 που σημαίνει ότι δε γίνεται καμία ενέργεια συντήρησης στις καταστάσεις 0 και, γίνεται μερική συντήρηση στην κατάσταση και πλήρης επιδιόρθωση της μηχανής στην κατάσταση 3. Ουσιαστικά, η μεταβλητή D ik εκφράζει την υπό συνθήκη πιθανότητα να ληφθεί η απόφαση k όταν η διαδικασία βρίσκεται στην κατάσταση i D P απόφαση k κατάσταση i. ik 9

Για τον προσδιορισμό της βέλτιστης πολιτικής με τη μέθοδο του γραμμικού προγραμματισμού ορίζονται οι μεταβλητές y ( i 0,,...,M και k,,...,k ik ) που εκφράζουν την πιθανότητα η διαδικασία να βρεθεί μακροπρόθεσμα στην κατάσταση i και να ληφθεί η απόφαση k y P απόφαση k και κατάσταση i. ik Προφανώς οι μεταβλητές y ik συνδέονται με τις μεταβλητές κατάστασης π i μέσω των σχέσεων D ik και τις πιθανότητες μόνιμης y π D ik i ik π i K y. k ik Λόγω των εξισώσεων μόνιμης κατάστασης της διαδικασίας οι μεταβλητές στους ακόλουθους περιορισμούς y ik υπόκεινται M M K π yik, i i0 i0 k M K M K για κάθε j 0 π π p y y p k j i ij jk ik ij i0 k i0 k,,...,m. Συνοψίζοντας, το γραμμικό πρότυπο, η επίλυση του οποίου οδηγεί στον προσδιορισμό της βέλτιστης πολιτικής, έχει μεταβλητές απόφασης τις μακροπρόθεσμη μέση ανταμοιβή ανά μονάδα χρόνου και περιορισμούς mi/ maxc M K i0 k ik i y ik y Q k, αντικειμενική συνάρτηση τη (i) M K yik, i0 k (ii) K M K yjk yik pij k0 για κάθε j 0 k i0 k,,...,m και (iii) yik 0 για κάθε i 0,,...,M και k,,...,k. Ένας από τους M περιορισμούς (ii) πλεονάζει και διαγράφεται και έτσι έχουμε τελικά M περιορισμούς και KM μεταβλητές απόφασης. 30

Επίλυση του παραπάνω γραμμικού προτύπου οδηγεί στον προσδιορισμό των βέλτιστων τιμών y ik και κατ' επέκταση και των βέλτιστων τιμών D ik μέσω των σχέσεων D ik y π ik i K y k ik y ik. Αποδεικνύεται ότι στη βέλτιστη λύση του παραπάνω γραμμικού προτύπου για κάθε κατάσταση i υπάρχει ακριβώς ένα k για το οποίο ισχύει yik 0 και κατά συνέπεια ακριβώς ένα k για το οποίο ισχύει Dik. Με άλλα λόγια, η βέλτιστη πολιτική είναι καθοριστική (συγκεκριμένη βέλτιστη απόφαση Παράδειγμα. * k σε κάθε κατάσταση i). Να προσδιοριστεί η βέλτιστη πολιτική μεταξύ όλων των εναλλακτικών πολιτικών του παραδείγματος.0 με τη μέθοδο του γραμμικού προγραμματισμού. Λαμβάνοντας υπ' όψιν τις δυνατές εναλλακτικές αποφάσεις σε κάθε κατάσταση ορίζουμε τις μεταβλητές απόφασης y 0, y, y 3, y, y, y 3 και y 33. Οι πιθανότητες μετάβασης, pij k, καθώς και οι αναμενόμενες άμεσες ανταμοιβές, Q k, i συναρτήσει των εναλλακτικών αποφάσεων k είναι Κατάσταση Απόφαση Αναμενόμενη άμεση ανταμοιβή i k Qi k Πιθανότητες μετάβασης pi0 k pi k pi k pi3 k 0 0 0 78 6 6 000 0 34 8 8 3 6000 0 0 0 3000 0 0 4000 0 0 0 3 6000 0 0 0 3 3 6000 0 0 0 Άρα το γραμμικό πρότυπο έχει αντικειμενική συνάρτηση την και περιορισμούς mic 000y 6000y 3000y 4000y 6000y 6000y 3 3 33 y0 y y3 y y y3 y33 3

y y y y 0 3 3 33 0 7 3 y y3 y0 y y 0 8 4 y y y3 y0 y y 0 6 8 y33 y0 y y 0 6 8 και y 0 για κάθε i 03,,, και k 3,,. ik Η βέλτιστη λύση του παραπάνω γραμμικού προτύπου είναι y0, 5 y, 3 0 7 y, y 0, y, y3 0, y33 με ελάχιστη τιμή της αντικειμενικής συνάρτησης 666,67. Προφανώς, η λύση αυτή ταυτίζεται με την πολιτική R b που είχε προκύψει ως βέλτιστη στο παράδειγμα.0. Αλγόριθμος βελτίωσης πολιτικής Ο αλγόριθμος βελτίωσης πολιτικής είναι μια ιδιαίτερα αποτελεσματική μέθοδος προσδιορισμού της βέλτιστης πολιτικής καθώς οδηγεί συνήθως πολύ γρήγορα (μετά από μικρό αριθμό επαναλήψεων της διαδικασίας) στη βέλτιστη λύση ακόμη κι αν ο αριθμός των εναλλακτικών πολιτικών είναι αρκετά μεγάλος. Η ταχύτητα της μεθόδου αυτής για μεγάλα προβλήματα (μεγάλος αριθμός εναλλακτικών πολιτικών) είναι μεγαλύτερη τόσο από αυτή του γραμμικού προγραμματισμού όσο και από αυτή της απαρίθμησης και σύγκρισης όλων των εναλλακτικών πολιτικών. Ο αλγόριθμος βελτίωσης πολιτικής βασίζεται στην ακόλουθη σχέση που ισχύει για κάθε κατάσταση i όταν εφαρμόζεται συγκεκριμένη πολιτική R όπου g R v R Q k p k v R, i i ij j j0 M g R : η μακροπρόθεσμη μέση ανταμοιβή ανά μονάδα χρόνου με την πολιτική R i v R v R j : η επίδραση στη συνολική μέση ανταμοιβή αν η διαδικασία ξεκινήσει από την κατάσταση i έναντι του να ξεκινήσει από την κατάσταση j 3

Τα στάδια-βήματα εκτέλεσης του αλγορίθμου είναι τα ακόλουθα: Αρχικό στάδιο (εφαρμογή για ): Επιλογή μιας αυθαίρετης αρχικής πολιτικής R Επαναληπτικό στάδιο (εφαρμογή για κάθε ): Βήμα : Προσδιορισμός των τιμών g R, i v R για κάθε i 0,,...,M. Με χρήση των τιμών pij k, Q k της πολιτικής R και θέτοντας αυθαίρετα i M 0 v R επιλύεται το σύστημα των M εξισώσεων και προσδιορίζονται οι Βήμα : Βελτίωση πολιτικής Με χρήση των τιμών πολιτική i i ij j j0 M g R v R Q k p k v R για i 0,,...,M i M άγνωστοι g R, v R για i 0,,...,M. i v R της τρέχουσας πολιτικής διαμορφώνεται μια εναλλακτική R, της οποίας οι αποφάσεις di R k για κάθε κατάσταση i 0,,...,M προκύπτουν από τη βελτιστοποίηση (ελαχιστοποίηση ή μεγιστοποίηση) της σχέσης Βήμα 3: Έλεγχος τερματισμού M mi/ max Q k p k v R v R k i ij j i j0 Η διαδικασία τερματίζεται αν η πολιτική R ταυτίζεται με την πολιτική R και η πολιτική αυτή είναι η βέλτιστη. Αλλιώς θέτουμε και επιστρέφουμε στο Βήμα. Ο αλγόριθμος βελτίωσης πολιτικής έχει δύο βασικές ιδιότητες:. g R gr κάθε βήμα). για κάθε και πρόβλημα ελαχιστοποίησης (η πολιτική βελτιώνεται σε. Η βέλτιστη πολιτική προσδιορίζεται σε πεπερασμένο αριθμό βημάτων (ο αλγόριθμος συγκλίνει πάντα). Παράδειγμα. Να προσδιοριστεί η βέλτιστη πολιτική μεταξύ όλων των εναλλακτικών πολιτικών του παραδείγματος.0 με χρήση του αλγορίθμου βελτίωσης πολιτικής και αρχική δοκιμαστική πολιτική την R a. 33

Αρχικό στάδιο: Η αρχική πολιτική είναι η R Ra d R. 3 3 Επαναληπτικό στάδιο για : Βήμα : Προσδιορισμός των τιμών g R, i pij k, Q k της πολιτικής i και προκύπτει η λύση R και θέτοντας 34 με d R d R d R και 0 v R για i 0,, με χρήση των τιμών v R. Επιλύεται το σύστημα 3 0 7 g R v R v R v R 8 6 0 3 g R v R 000 v R v R 4 8 g R v R 3000 v R 6000 g R v R 0 gr, v R, v R, 93 Βήμα : Βελτίωση πολιτικής Με χρήση των τιμών οι αποφάσεις i i 0 4077 65 v R 54. v R διαμορφώνεται μια εναλλακτική πολιτική R, της οποίας d R k για τις καταστάσεις και (στις καταστάσεις 0 και 3 δεν υπάρχουν εναλλακτικές αποφάσεις) προκύπτουν από την ελαχιστοποίηση της σχέσης Για την κατάσταση έχουμε 3 mi/ max Qik pijk v jrvir. j0 k k : Q p v R p v R p v R p v R v R 0 0 3 3 3 000 65 54 65 93 4 8 k 3 : Q 3 p 3v R p 3v R p 3v R p 3v R v R 0 0 3 3 6000 4077 65 4538 και, προφανώς, dr. Για την κατάσταση έχουμε