ΠΛΗ513 - Αυτόνομοι Πράκτορες Αναφορά Εργασίας

Σχετικά έγγραφα
2). V (s) = R(s) + γ max T (s, a, s )V (s ) (3)

ΕΦΑΡΜΟΓΗ Q-LEARNING ΣΕ GRID WORLD ΚΑΙ ΕΞΥΠΝΟΣ ΧΕΙΡΙΣΜΟΣ ΤΟΥ LEARNING RATE ΛΑΘΙΩΤΑΚΗΣ ΑΡΗΣ ΑΥΤΟΝΟΜΟΙ ΠΡΑΚΤΟΡΕΣ

καθ. Βασίλης Μάγκλαρης

ΕΚΠ 413 / ΕΚΠ 606 Αυτόνοµοι (Ροµ οτικοί) Πράκτορες

ΣΤΟΧΑΣΤΙΚΕΣ ΔΙΕΡΓΑΣΙΕΣ & ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ Αίθουσα Νέα Κτίρια ΣΗΜΜΥ Ε.Μ.Π.

ΠΛΗ 513-Αυτόνομοι Πράκτορες Χειμερινό εξάμηνο 2012 Εφαρμογή αλγορίθμων ενισχυτικής μάθησης στο παιχνίδι Βlackjack. Χλης Νικόλαος-Κοσμάς

Τεχνικές Εκτίμησης Υπολογιστικών Συστημάτων 1ο Σετ Ασκήσεων - Λύσεις

Αυτόνομοι Πράκτορες. Εργασία εξαμήνου. Value Iteration και Q- Learning για Peg Solitaire

Πιθανοτικός Συμπερασμός: Πού βρίσκομαι στο πλέγμα; [ΠΛΗ 513] Αυτόνομοι πράκτορες - Project Εξαμήνου ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ

ΜΟΝΤΕΛΟΠΟΙΗΣΗ ΔΙΑΚΡΙΤΩΝ ΕΝΑΛΛΑΚΤΙΚΩΝ ΣΕ ΠΡΟΒΛΗΜΑΤΑ ΣΧΕΔΙΑΣΜΟΥ ΚΑΙ ΣΥΝΘΕΣΗΣ ΔΙΕΡΓΑΣΙΩΝ

Ο Αλγόριθµος της Simplex

ΕΚΠ 413 / ΕΚΠ 606 Αυτόνοµοι (Ροµ οτικοί) Πράκτορες

Χειρισμός προβλημάτων με ποσοστά

Πολυτεχνείο Κρήτης Σχολή Ηλεκτρονικών Μηχανικών Και Μηχανικών Η/Υ. ΠΛΗ 513 Αυτόνομοι Πράκτορες

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος

ΦΙΛΤΡΟ KALMAN ΔΙΑΚΡΙΤΟΥ ΧΡΟΝΟΥ

E[ (x- ) ]= trace[(x-x)(x- ) ]

ΣΗΜΕΙΩΣΕΙΣ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΤΟΥ ΜΑΘΗΜΑΤΟΣ «ΓΛΩΣΣΕΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ»

Εθνικό Μετσόβιο Πολυτεχνείο Τομέας Υδατικών Πόρων και Περιβάλλοντος. Διαχείριση Υδατικών Πόρων

Εθνικό Μετσόβιο Πολυτεχνείο Τομέας Υδατικών Πόρων και Περιβάλλοντος. Τεχνολογία Συστημάτων Υδατικών Πόρων

E [ -x ^2 z] = E[x z]

Αναγνώριση Προτύπων Ι

ΓΡΑΜΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ με το EXCEL

Βασική Εφικτή Λύση. Βασική Εφικτή Λύση

ΣΤΟΧΑΣΤΙΚΕΣ ΔΙΕΡΓΑΣΙΕΣ & ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ Αίθουσα Νέα Κτίρια ΣΗΜΜΥ Ε.Μ.Π.

Περιεχόμενα. 1. Ειδικές συναρτήσεις. 2. Μιγαδικές Συναρτήσεις. 3. Η Έννοια του Τελεστή. Κεφάλαιο - Ενότητα

Στοχαστικές Στρατηγικές

Προσομοίωση Συστημάτων

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

2. Επίλυση μη Γραμμικών Εξισώσεων

Περιεχόμενα. σελ. Πρόλογος 1 ης Έκδοσης... ix Πρόλογος 2 ης Έκδοσης... xi Εισαγωγή... xiii

Συνδυαστική Βελτιστοποίηση Εισαγωγή στον γραμμικό προγραμματισμό (ΓΠ)

ΕΠΙΧΕΙΡΗΣΙΑΚΗ ΕΡΕΥΝΑ ΘΕΩΡΙΑ ΚΑΙ ΕΦΑΡΜΟΓΗ ΤΟΥ ΓΡΑΜΜΙΚΟΥ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ ΣΤΗ ΛΗΨΗ ΑΠΟΦΑΣΕΩΝ (1)

Μαθησιακές δυσκολίες ΙΙ. Παλαιγεωργίου Γιώργος Τμήμα Μηχανικών Ηλεκτρονικών Υπολογιστών Τηλεπικοινωνιών και Δικτύων, Πανεπιστήμιο Θεσσαλίας

ΕΥΦΥΗΣ ΕΛΕΓΧΟΣ. Ενότητα #8: Βελτιστοποίηση Συστημάτων Ασαφούς Λογικής. Αναστάσιος Ντούνης Τμήμα Μηχανικών Αυτοματισμού Τ.Ε.

Υπολογιστικής Σκέψης

Επιχειρησιακή Έρευνα. Εισαγωγική Διάλεξη

Τμήμα Μηχανικών Πληροφορικής ΤΕ Δυϊκότητα. Γκόγκος Χρήστος ΤΕΙ Ηπείρου Επιχειρησιακή Έρευνα. τελευταία ενημέρωση: 1/12/2016

Matrix Algorithms. Παρουσίαση στα πλαίσια του μαθήματος «Παράλληλοι Αλγόριθμοι» Γ. Καούρη Β. Μήτσου

ΕΛΕΓΧΟΣ ΠΑΡΑΓΩΓΙΚΩΝ ΔΙΕΡΓΑΣΙΩΝ

Ανάκληση Πληποφοπίαρ. Διδάζκων Δημήηριος Καηζαρός

Δομές Δεδομένων & Αλγόριθμοι

Matrix Algorithms. Παρουσίαση στα πλαίσια του μαθήματος «Παράλληλοι. Αλγόριθμοι» Γ. Καούρη Β. Μήτσου

Διαδικασίες παραγωγής λογισμικού. Βασικές αρχές Τεχνολογίας Λογισμικού, 8η αγγ. έκδοση

Κεφ. 1: Εισαγωγή στην έννοια του Αλγορίθμου και στον Προγραμματισμό. Η έννοια του προβλήματος

Ε Θ Ν Ι Κ Ο Μ Ε Τ Σ Ο Β Ι Ο Π Ο Λ Υ Τ Ε Χ Ν Ε Ι Ο

ΑΥΤΟΝΟΜΟΙ ΠΡΑΚΤΟΡΕΣ. ΑΝΑΦΟΡΑ ΕΡΓΑΣΙΑΣ Othello-TD Learning. Βόλτσης Βαγγέλης Α.Μ

Επιχειρησιακή Έρευνα I

Μοντελοποίηση Προσομοίωση

ΕΠΙΧΕΙΡΗΣΙΑΚΗ ΕΡΕΥΝΑ ΠΕΡΣΕΦΟΝΗ ΠΟΛΥΧΡΟΝΙΔΟΥ ΤΜΗΜΑ ΛΟΓΙΣΤΙΚΗΣ ΤΕ

6 η ΕΝΟΤΗΤΑ ΔΥΝΑΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ

ΕΡΩΤΗΣΕΙΣ ΓΙΑ ΤΟ ΜΑΘΗΜΑ ΤΟΠΟΓΡΑΦΙΚΑ ΔΙΚΤΥΑ ΚΑΙ ΥΠΟΛΟΓΙΣΜΟΙ 5 ο εξάμηνο

Αυτόνομοι Πράκτορες. Εργασία εξαμήνου. Μάθηση του παιχνιδιού British square με χρήση Temporal Difference(TD) Κωνσταντάκης Γιώργος

ΑΣΚΗΣΗ 2 (powerworld): ΜΟΝΤΕΛΟΠΟΙΗΣΗ & ΠΡΟΣΟΜΟΙΩΣΗ ΛΕΙΤΟΥΡΓΙΑΣ ΕΝΕΡΓΕΙΑΚΟΥ ΣΥΣΤΗΜΑΤΟΣ ΗΛΕΚΤΡΟΠΑΡΑΓΩΓΗΣ 8 ΖΥΓΩΝ ΜΕ ΕΠΙΛΥΣΗ ΡΟΗΣ ΦΟΡΤΙΟΥ.

ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΠΟΛΙΤΙΚΩΝ ΜΗΧΑΝΙΚΩΝ ΤΟΜΕΑΣ ΥΔΡΑΥΛΙΚΗΣ ΚΑΙ ΠΕΡΙΒΑΛΛΟΝΤΙΚΗΣ ΤΕΧΝΙΚΗΣ. Διάλεξη 16: O αλγόριθμος SIMPLE (συνέχεια)

Συστήματα Αυτομάτου Ελέγχου & Ρυθμίσεως Μηχανών (h>p://courseware.mech.ntua.gr/ml23147/)

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ Ακαδημαϊκό έτος B εξάμηνο (εαρινό)

Δυναμικός Προγραμματισμός

ΚΕΦΑΛΑΙΟ 5. Κύκλος Ζωής Εφαρμογών ΕΝΟΤΗΤΑ 2. Εφαρμογές Πληροφορικής. Διδακτικές ενότητες 5.1 Πρόβλημα και υπολογιστής 5.2 Ανάπτυξη εφαρμογών

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D.

4.4 Μετατροπή από μία μορφή δομής επανάληψης σε μία άλλη.

ΕΠΙΣΤΗΜΟΝΙΚΟΙ ΥΠΟΛΟΓΙΣΜΟΙ: Μια ενδιαφέρουσα σταδιοδρομία

ΠΑΝΕΠΙΣΤΗΜΙΟ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΠΑΙΔΑΓΩΓΙΚΟ ΤΜΗΜΑ ΔΗΜΟΤΙΚΗΣ ΕΚΠΑΙΔΕΥΣΗΣ ΦΛΩΡΙΝΑ

Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ. Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ»

Τμήμα Μηχανικών Πληροφορικής ΤΕ Η μέθοδος Simplex. Γκόγκος Χρήστος ΤΕΙ Ηπείρου Επιχειρησιακή Έρευνα. τελευταία ενημέρωση: 19/01/2017

d k 10 k + d k 1 10 k d d = k i=0 d i 10 i.

Εφαρμοσμένη Βελτιστοποίηση

Περιεχόμενα Πρόλογος 5ης αναθεωρημένης έκδοσης ΚΕΦΆΛΆΙΟ 1 Ο ρόλος της επιχειρησιακής έρευνας στη λήψη αποφάσεων ΚΕΦΆΛΆΙΟ 2.

Σκοπός του μαθήματος. Αρχές Φυσικής Μοντελοποίησης

ΕΚΠ 413 / ΕΚΠ 606 Αυτόνοµοι (Ροµ οτικοί) Πράκτορες

Ανάπτυξη εφαρμογών Σχετικά με την εντολή επανάληψης «Για από μέχρι με_βήμα»

ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΚΑΙ ΜΑΘΗΜΑΤΙΚΗ ΔΙΑΤΥΠΩΣΗ, Διαλ. 2. Ανωτάτη Σχολή Παιδαγωγικής και Τεχνολογικής Εκπαίδευσης 8/4/2017

Διάλεξη 1: Βασικές Έννοιες

ΤΕΙ ΚΕΝΤΡΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ

Nao becomes a painter

Μελέτη και Υλοποίηση Ελεγκτών Ρομποτικών Συστημάτων με χρήση Αλγορίθμων Ενισχυτικής Μάθησης

Θέμα 1. με επαυξημένο 0 1 1/ 2. πίνακα. και κλιμακωτή μορφή αυτού

Περιεχόμενα. 1. Ανάλυση ευαισθησίας. (1) Ανάλυση ευαισθησίας (2) Δυϊκό πρόβλημα (κανονική μορφή) (3) Δυαδικός προγραμματισμός (4) Ανάλυση αποφάσεων

Μάθημα Επιλογής 8 ου εξαμήνου

Παιδαγωγικές δραστηριότητες μοντελοποίησης με χρήση ανοικτών υπολογιστικών περιβαλλόντων

ΥΠΟΛΟΓΙΣΤΙΚΕΣ ΤΕΧΝΙΚΕΣ ΓΙΑ ΣΥΣΤΗΜΑΤΑ ΜΕΤΑΔΟΣΗΣ ΠΛΗΡΟΦΟΡΙΑΣ

Θεωρία Παιγνίων και Αποφάσεων. Ενότητα 5: Εύρεση σημείων ισορροπίας σε παίγνια μηδενικού αθροίσματος. Ε. Μαρκάκης. Επικ. Καθηγητής

ΕΛΕΓΧΟΣ ΒΙΟΜΗΧΑΝΙΚΩΝ ΔΙΕΡΓΑΣΙΩΝ ΚΕΦΑΛΑΙΟ 4 ΚΕΦΑΛΑΙΟ 5. ΑΝΑΓΝΩΡΙΣΗ ΔΙΕΡΓΑΣΙΑΣ ΠΡΟΣΑΡΜΟΣΤΙΚΟΣ ΕΛΕΓΧΟΣ (Process Identifications)

ΑΛΓΟΡΙΘΜΟΙ Ενότητα 10

Λήψη αποφάσεων κατά Bayes

Μαθησιακές δυσκολίες ΙΙ. Παλαιγεωργίου Γιώργος Τμήμα Μηχανικών Ηλεκτρονικών Υπολογιστών Τηλεπικοινωνιών και Δικτύων, Πανεπιστήμιο Θεσσαλίας

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

Θέματα Υπολογισμού στον Πολιτισμό

Παρουσίαση 2 η : Αρχές εκτίμησης παραμέτρων Μέρος 1 ο

Προσομοίωση Βιομηχανικής Παραγωγής & Επιχειρήσεων

Ηθικός Κίνδυνος. Το βασικό υπόδειγμα. Παρουσιάζεται ένα στοχαστικό πρόβλημα χρηματοδότησης όταν τα αντισυμβαλλόμενα μέρη έχουν συμμετρική πληροφόρηση.

Λυμένες ασκήσεις στα πλαίσια του μαθήματος «Διοίκηση Εφοδιαστικής Αλυσίδας»

Σχεδίαση Αλγορίθμων - Τμήμα Πληροφορικής ΑΠΘ -4ο εξάμηνο 1

Αλγόριθμοι - Τμήμα Πληροφορικής ΑΠΘ -4ο εξάμηνο 1

ΕΡΓΑΣΤΗΡΙΟ ΗΛΕΚΤΡΟΝΙΚΩΝ ΕΦΑΡΜΟΓΩΝ

Κεφάλαιο 3: Εισαγωγή στους αλγορίθμους - διαγράμματα ροής

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΕΠΑΝΑΛΗΠΤΙΚΟ ΔΙΑΓΩΝΙΣΜΑ ΣΧΟΛΙΚΟΥ ΕΤΟΥΣ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ ΤΜΗΜΑ ΨΗΦΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ «ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ»

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων Ι Σύνολο- Περιεχόμενο Μαθήματος

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

Transcript:

ΠΛΗ513 - Αυτόνομοι Πράκτορες Αναφορά Εργασίας Ομάδα εργασίας: LAB51315282 Φοιτητής: Μάινας Νίκος ΑΦΜ: 2007030088 ΠΕΡΙΓΡΑΦΗ ΙΔΕΑΣ Η ιδέα της εργασίας βασίζεται στην εύρεση της καλύτερης πολιτικής για ένα πράκτορα, ο οποίος τοποθετείται σε ένα Grid World έχοντας ως αποστολή να βρεθεί στο κελί-στόχο που του υποδεικνύεται, αποφεύγοντας παράλληλα την συνάντηση με έναν άλλο πράκτορα που έχει το ρόλο του κυνηγού. Στην ουσία ο πράκτορας προσπαθεί, για κάθε θέση που μπορεί να βρεθεί μέσα στο κόσμο, να υπολογίσει την καλύτερη κίνηση που πρέπει να εκτελέσει, λαμβάνοντας υπόψιν όλες τις πιθανές θέσεις που μπορεί να βρεθεί ο αντίπαλός του καθώς και τις πιθανές ενέργειές του. Για να πραγματοποιηθεί ο υπολογισμός της βέλτιστης πολιτικής εφαρμόζεται ο αλγόριθμος του Value Iteration. Ο αλγόριθμος βασίζεται στην επαναληπτική επίλυση των εξισώσεων βελτιστότητας Bellman, με αποτέλεσμα την εξαγωγή της βέλτιστης πολιτικής με άπληστη βελτίωση. Για την εφαρμογή του αλγορίθμου απαιτείται η μετατροπή του προβλήματος σε Μαρκωβιανή Διεργασία Απόφασης (Markov Decision Process - MDP). Ένα MDP είναι μια διεργασία στοχαστικού ελέγχου διακριτού χρόνου. Παρέχει ένα μαθηματικό πλαίσιο, το οποίο μοντελοποιεί τη λήψη αποφάσεων σε καταστάσεις όπου το αποτέλεσμα είναι μερικώς τυχαίο αλλά και εξαρτάται από ένα πρόγραμμα λήψης αποφάσεων. ΜΟΝΤΕΛΟΠΟΙΗΣΗ ΠΡΟΒΛΗΜΑΤΟΣ Για να μετατραπεί το πρόβλημα, που εξετάζεται, σε MDP πρέπει να καθοριστούν πλήρως οι παράμετροι της διεργασίας. Πιο συγκεκριμένα, ο χώρος καταστάσεων καθορίζεται από τον συνδυασμό όλων των θέσεων που μπορούν να βρεθούν τόσο ο πράκτορας όσο και ο αντίπαλος μέσα στο κόσμο (Σχήμα 1). Αυτό οφείλεται στην κίνηση του αντιπάλου, που κάθε χρονική στιγμή διαμορφώνει διαφορετικά τον κόσμο, επομένως πρέπει να ληφθούν υπόψιν όλες οι περιπτώσεις. Ως τελικές καταστάσεις χαρακτηρίζονται οι καταστάσεις όπου ο πράκτορας βρίσκεται στο κελί-στόχο, καθώς και όλες οι καταστάσεις όπου η θέση του πράκτορα και του αντιπάλου ταυτίζονται μέσα στο κόσμο. 1

Σχήμα 1: Πιθανές θέσεις αντιπάλου Ο χώρος ενεργειών καθορίζεται από το σύνολο των επιτρεπτών κινήσεων που μπορεί να εκτελέσει ο πράκτορας μέσα στον κόσμο. Για το πρόβλημα που μελετάται, οι δυνατές κινήσεις ανήκουν στο σύνολο {FORWARD, BACK, LEFT, RIGHT}. Έπειτα είναι αναγκαίο να οριστεί και το μοντέλο μετάβασης, ο καθορισμός του οποίου είναι πιο σύνθετος. Για την μελέτη του προβλήματος έχει καθοριστεί ότι πρώτα ενεργεί ο πράκτορας και έπειτα ο αντίπαλος. Επομένως σε πρώτη φάση μελετάται το αποτέλεσμα της ενέργειας του πράκτορα και έπειτα του αντιπάλου. Και αυτό διότι πρέπει να συμπεριληφθούν και οι περιπτώσεις όπου η μετάβαση του πράκτορα οδηγεί σε τελική κατάσταση. Σε αυτές τις περιπτώσεις η μετάβαση ζυγίζεται σύμφωνα με το μοντέλο κίνησης του πράκτορα. Για όλες τις άλλες περιπτώσεις πρέπει να ληφθεί υπόψη και η κάθε ενέργεια του αντιπάλου ώστε να προκύψουν νέες καταστάσεις. Αυτές οι μεταβάσεις ζυγίζονται συνδυάζοντας το μοντέλο κίνησης του πράκτορα αλλά και το μοντέλο κίνησης του αντιπάλου. 2

Από την στιγμή που το πρόβλημα έχει εκφραστεί ως MDP μπορεί να εφαρμοστεί ο αλγόριθμος του Value Iteration ώστε να προκύψει η βέλτιστη πολιτική. Ο αλγόριθμος κάνει χρήση της εξίσωσης Βελτιστότητας Bellman V π (s) = max {R(s, α) + γ Π(s s, α)v π (s )} (1) α A s S Όπου α είναι η κάθε ενέργεια, Π(s s, α) είναι το μοντέλο μετάβασης, R(s, α) είναι το μοντέλο ανταμοιβής και γ ο παράγοντας έκπτωσης. Για το πρόβλημα όμως χρησιμοποιείται η εξής παραλλαγή της παραπάνω εξίσωσης V π (s) = R(s) + γ max { Π(s s, α)v π (s )} (2) α A s S 3

ΥΛΟΠΟΙΗΣΗ Η εργασία υλοποιήθηκε στην γλώσσα προγραμματισμού Java, χρησιμοποιώντας το βοηθητικό υλικό GridWorld από την ιστοσελίδα του μαθήματος. Πιο συγκεκριμένα διατηρήθηκε το γραφικό περιβάλλον που παρείχε, ώστε ο χρήστης να μπορεί να συνθέτει διαφορετικούς κόσμους με διαφορετικές παραμέτρους, αλλά και να υπάρχει οπτικοποίηση του αποτελέσματος για δεδομένη κατάσταση. Από εκεί και πέρα ακολουθείται διαφορετική προσέγγιση για την υλοποίηση του αλγορίθμου Value Iteration σε σχέση με την υπάρχουσα υλοποίηση. Επιπλέον έχει καθοριστεί ότι τόσο ο πράκτορας όσο και ο αντίπαλος έχουν το ίδιο σύνολο δυνατών ενεργειών καθώς και το ίδιο μοντέλο κίνησης. Οι βασικότερες μέθοδοι της υλοποίησης είναι: initworldstates(): Πραγματοποιεί τον καθορισμό των καταστάσεων του κόσμου, δηλαδή την εξαγωγή όλων των δυνατών θέσεων που μπορούν να βρεθούν ο πράκτορας και ο αντίπαλος μέσα στον κόσμο που έχει οριστεί. computeutility(): Υπολογίζει το Utility κάθε κατάστασης. Πρώτα υπολογίζει την βέλτιστη ενέργεια του πράκτορα για την κατάσταση αυτή λαμβάνοντας υπόψιν και κάθε πιθανή ενέργεια του αντιπάλου και έπειτα υπολογίζει το Utility της κατάστασης. computestrategy(): Πραγματοποιεί τον έλεγχο σύγκλισης για κάθε κατάσταση ώστε να προκύψει η βέλτιστη πολιτική. ΑΠΟΤΕΛΕΣΜΑΤΑ Με την ολοκλήρωση του αλγορίθμου του Value Iteration προκύπτει και η βέλτιστη πολιτική. Η οπτικοποίηση της οποίας δεν είναι δυνατή λόγω της ύπαρξης του κινούμενου αντιπάλου. Για τον λόγο αυτό όταν ο έλεγχος σύγκλισης στην μέθοδο comptutestrategy() ολοκληρωθεί προκύπτει ένα αρχείο στο οποίο τυπώνεται για κάθε κατάσταση του κόσμου η βέλτιστη ενέργεια που μπορεί να εκτελέσει ο πράκτορας (Σχήμα 3). Επιπλέον κατά την αρχικοποίηση του κόσμου ο χρήστης τοποθετεί τον αντίπαλο σε κάποια θέση, και με την ολοκλήρωση του αλγορίθμου εμφανίζεται στο χρήστη η πολιτική για την δεδομένη κατάσταση του κόσμου (Σχήμα 2). 4

Σχήμα 2: Εμφάνιση βέλτιστης πολιτικής για τη συγκεκριμένη κατάσταση Σχήμα 3: Η βέλτιστη πολιτική όπως καταγράφεται στο αρχείο για κάθε κατάσταση 5

ΣΥΜΠΕΡΑΣΜΑΤΑ Ένα από τα βασικότερα συμπεράσματα που προκύπτει από την μελέτη του συγκεκριμένου προβλήματος είναι η εκθετική αύξηση του χώρου καταστάσεων που προκύπτει. Όπως αναφέρεται και παραπάνω ο χώρος καταστάσεων προκύπτει από τον συνδυασμών όλων των δυνατών θέσεων μεταξύ του πράκτορα και του αντιπάλου του. Επομένως για ένα κόσμο μεγέθους n x m, ο χώρος καταστάσεων θα έχει μέγεθος n 2 x m 2 (υποθέτοντας την μη-ύπαρξη εμποδίων στο κόσμο) (Σχήμα 1). Γίνεται έτσι εύκολα κατανοητό ότι η προσθήκη επιπλέον πρακτόρων στον κόσμο δεν είναι εύκολο να μοντελοποιηθεί και να υπολογιστεί λόγω του μεγάλου αριθμού καταστάσεων που προκύπτει. Εξίσου σημαντικό είναι και ο ακριβής καθορισμός του προβλήματος αλλά και η μετατροπή του σε MDP. Αν δεν περιγραφούν σωστά οι παράμετροι της διεργασίας τότε και τα αποτελέσματα που προκύπτουν δεν είναι αξιόπιστα. 6