2). V (s) = R(s) + γ max T (s, a, s )V (s ) (3)

Σχετικά έγγραφα
ΠΛΗ513 - Αυτόνομοι Πράκτορες Αναφορά Εργασίας

ΕΦΑΡΜΟΓΗ Q-LEARNING ΣΕ GRID WORLD ΚΑΙ ΕΞΥΠΝΟΣ ΧΕΙΡΙΣΜΟΣ ΤΟΥ LEARNING RATE ΛΑΘΙΩΤΑΚΗΣ ΑΡΗΣ ΑΥΤΟΝΟΜΟΙ ΠΡΑΚΤΟΡΕΣ

ΠΛΗ 513-Αυτόνομοι Πράκτορες Χειμερινό εξάμηνο 2012 Εφαρμογή αλγορίθμων ενισχυτικής μάθησης στο παιχνίδι Βlackjack. Χλης Νικόλαος-Κοσμάς

ΕΚΠ 413 / ΕΚΠ 606 Αυτόνοµοι (Ροµ οτικοί) Πράκτορες

Πιθανοτικός Συμπερασμός: Πού βρίσκομαι στο πλέγμα; [ΠΛΗ 513] Αυτόνομοι πράκτορες - Project Εξαμήνου ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ

Αυτόνομοι Πράκτορες Μαριάνος Νίκος Αυτόνομοι Πράκτορες. Χειμερινό Εξάμηνο 2016 Κωδικός Μαθήματος ΠΛΗ513 Πρότζεκτ Μαθήματος

Αυτόνομοι Πράκτορες. Εργασία εξαμήνου. Value Iteration και Q- Learning για Peg Solitaire

Αυτόνομοι Πράκτορες. Xειμερινό Εξάμηνο

Εθνικό Μετσόβιο Πολυτεχνείο Τομέας Υδατικών Πόρων και Περιβάλλοντος. Διαχείριση Υδατικών Πόρων

Η Μηχανική Μάθηση στο Σχολείο: Μια Προσέγγιση για την Εισαγωγή της Ενισχυτικής Μάθησης στην Τάξη

1 Εισαγωγή στις Συνδυαστικές Δημοπρασίες - Combinatorial Auctions

Εθνικό Μετσόβιο Πολυτεχνείο Τομέας Υδατικών Πόρων και Περιβάλλοντος. Τεχνολογία Συστημάτων Υδατικών Πόρων

Εθνικό Μετσόβιο Πολυτεχνείο

ΥΣ02 Τεχνητή Νοημοσύνη Χειμερινό Εξάμηνο

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ

x = r cos φ y = r sin φ

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος

ΕΡΩΤΗΣΕΙΣ ΓΙΑ ΤΟ ΜΑΘΗΜΑ ΤΟΠΟΓΡΑΦΙΚΑ ΔΙΚΤΥΑ ΚΑΙ ΥΠΟΛΟΓΙΣΜΟΙ 5 ο εξάμηνο

Εφαρμοσμένη Βελτιστοποίηση

Απαντήσεις. Θέμα 1 ο. Α. α) v1. Άρα v1

Θεωρία Παιγνίων και Αποφάσεων. Ενότητα 5: Εύρεση σημείων ισορροπίας σε παίγνια μηδενικού αθροίσματος. Ε. Μαρκάκης. Επικ. Καθηγητής

Πανεπιστήμιο Κύπρου Πολυτεχνική Σχολή

ΥΣ02 Τεχνητή Νοημοσύνη Χειμερινό Εξάμηνο

Αυτόνομοι Πράκτορες. Εργασία εξαμήνου. Monte Carlo Localization Simulator. Κάργας Νικόλαος :

ΕΚΠ 413 / ΕΚΠ 606 Αυτόνοµοι (Ροµ οτικοί) Πράκτορες

Αλγόριθμοι και πολυπλοκότητα Διαίρει και Κυρίευε

Αυτόνομοι Πράκτορες. Εργασία εξαμήνου. Μάθηση του παιχνιδιού British square με χρήση Temporal Difference(TD) Κωνσταντάκης Γιώργος

ΠΑΙΧΝΙΔΙ PACMAN 3D ΜΕ ΜΕΘΟΔΟΥΣ ΕΝΙΣΧΗΤΙΚΗΣ ΜΑΘΗΣΗΣ

Παιδαγωγικές δραστηριότητες μοντελοποίησης με χρήση ανοικτών υπολογιστικών περιβαλλόντων

4. ΚΕΦΑΛΑΙΟ ΕΦΑΡΜΟΓΕΣ ΤΟΥ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΥ FOURIER

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΣΧΟΛΗ ΕΠΙΣΤΗΜΩΝ ΤΗΣ ΔΙΟΙΚΗΣΗΣ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΟΙΚΟΝΟΜΙΑΣ ΚΑΙ ΔΙΟΙΚΗΣΗΣ ΣΤΑΤΙΣΤΙΚΗ

Τσάπελη Φανή ΑΜ: Ενισχυτική Μάθηση για το παιχνίδι dots. Τελική Αναφορά

ΕΚΠ 413 / ΕΚΠ 606 Αυτόνοµοι (Ροµ οτικοί) Πράκτορες

Στατιστική Συμπερασματολογία

Τεχνικές Εκτίμησης Υπολογιστικών Συστημάτων 1ο Σετ Ασκήσεων - Λύσεις

Σύνθεση ή σύζευξη ταλαντώσεων;

ΕΛΕΓΧΟΣ ΠΑΡΑΓΩΓΙΚΩΝ ΔΙΕΡΓΑΣΙΩΝ

ΣΗΜΕΙΩΣΕΙΣ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΤΟΥ ΜΑΘΗΜΑΤΟΣ «ΓΛΩΣΣΕΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ»

Αυτόνομοι Πράκτορες. ΝΑΟ Μουσικός

Τμήμα Μηχανικών Πληροφορικής ΤΕ Δυϊκότητα. Γκόγκος Χρήστος ΤΕΙ Ηπείρου Επιχειρησιακή Έρευνα. τελευταία ενημέρωση: 1/12/2016

Λύσεις θεμάτων επαναληπτικών πανελληνίων εξετάσεων 2014 Στο μάθημα: «Μαθηματικά και Στοιχεία Στατιστικής» Γενικής Παιδείας ΗΜΕΡΗΣΙΑ ΓΕ.Λ.

Μέθοδοι Μηχανών Μάθησης για Ευφυή Αναγνώριση και ιάγνωση Ιατρικών εδοµένων

200, δηλαδή : 1 p Y (y) = 0, αλλού

ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ

ΑΝΑΓΝΩΡΙΣΗ ΠΡΟΤΥΠΩΝ. ΕΝΟΤΗΤΑ: Γραμμικές Συναρτήσεις Διάκρισης. ΔΙΔΑΣΚΟΝΤΕΣ: Βλάμος Π. Αυλωνίτης Μ. ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ. Ενότητα 5: Παραδείγματα. Ρεφανίδης Ιωάννης Τμήμα Εφαρμοσμένης Πληροφορικής

Ονοματεπώνυμο: Ερώτημα: Σύνολο Μονάδες: Βαθμός:

ΕΛΕΓΧΟΣ ΒΙΟΜΗΧΑΝΙΚΩΝ ΔΙΕΡΓΑΣΙΩΝ ΚΕΦΑΛΑΙΟ 4 ΚΕΦΑΛΑΙΟ 5. ΑΝΑΓΝΩΡΙΣΗ ΔΙΕΡΓΑΣΙΑΣ ΠΡΟΣΑΡΜΟΣΤΙΚΟΣ ΕΛΕΓΧΟΣ (Process Identifications)

E[ (x- ) ]= trace[(x-x)(x- ) ]

Φροντιστήριο 3. <logo image> Ημερομηνία: Παρασκευή 10/11/2006 Θεματική Ενότητα: Activity Diagrams

Στοχαστικές Στρατηγικές

Ανάλυση αλγορίθμων. Χρόνος εκτέλεσης: Αναμενόμενη περίπτωση. - απαιτεί γνώση της κατανομής εισόδου

ΕΝΟΤΗΤΑ 11β. ΟΜΑΔΕΣ ΕΡΓΟΥ ΑΡΧΗΓΕΣΙΑ ΕΡΓΟΥ. Κατερίνα Αδάμ, Μ. Sc., PhD Eπίκουρος Καθηγήτρια

ΗΥ-217-ΠΙΘΑΝΟΤΗΤΕΣ-ΧΕΙΜΕΡΙΝΟ ΕΞΑΜΗΝΟ 2016 ΔΙΔΑΣΚΩΝ: ΠΑΝΑΓΙΩΤΗΣ ΤΣΑΚΑΛΙΔΗΣ

ETY-202. Εκπομπή και απορρόφηση ακτινοβολίας ETY-202 ΎΛΗ & ΦΩΣ 12. ΎΛΗ & ΦΩΣ. Στέλιος Τζωρτζάκης 21/12/2012

Εισαγωγή στη Θεωρία Αποφάσεων. Λήψη απλών αποφάσεων για έναν πράκτορα

Εισαγωγή στους Ηλεκτρονικούς Υπολογιστές

IV.13 ΔΙΑΦΟΡΙΚΕΣ ΕΞΙΣΩΣΕΙΣ 1 ης ΤΑΞΕΩΣ

Δυναμική Μηχανών I. Διάλεξη 11. Χειμερινό Εξάμηνο 2013 Τμήμα Μηχανολόγων Μηχ., ΕΜΠ

Λογισμός 3. Ενότητα 17: Απόδειξη Θεωρήματος Αντιστροφής. Μιχ. Γ. Μαριάς Τμήμα Μαθηματικών ΑΝΟΙΚΤΑ ΑΚΑ ΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ

Η Έννοια της Πιθανότητας. 1 Βρείτε την πιθανότητα του καθ ενός απ τα παρακάτω ενδεχόμενα:

1 η ΑΣΚΗΣΗ ΣΤΗΝ ΑΡΧΙΤΕΚΤΟΝΙΚΗ ΥΠΟΛΟΓΙΣΤΩΝ. Ακ. έτος , 5ο Εξάμηνο, Σχολή ΗΜ&ΜΥ

Στοχαστικές Στρατηγικές

ΦΙΛΤΡΟ KALMAN ΔΙΑΚΡΙΤΟΥ ΧΡΟΝΟΥ

Στατιστική. Ενότητα 3 η : Χαρακτηριστικά Τυχαίων Μεταβλητών Θεωρητικές Κατανομές Πιθανότητας για Διακριτή Τυχαία Μεταβλητή

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ Τµήµα Επιστήµης Υπολογιστών. HY-217: Πιθανότητες - Χειµερινό Εξάµηνο 2015 ιδάσκων : Π. Τσακαλίδης

MATLAB. Εισαγωγή στο SIMULINK. Μονάδα Αυτόματης Ρύθμισης και Πληροφορικής

1. ΣΤΑΤΙΚΗ ΑΡΙΣΤΟΠΟΙΗΣΗ

Κεφάλαιο 6. Σύγχρονα και ασύγχρονα ακολουθιακά κυκλώματα

Ανάπτυξη Εφαρμογών. (Μονάδες 8) Α2. α. να αναφέρετε ονομαστικά τα κριτήρια που πρέπει απαραίτητα να ικανοποιεί ένας αλγόριθμος.

ΣΗΜΑΤΑ ΚΑΙ ΣΥΣΤΗΜΑΤΑ Ι

ΚΕΦΑΛΑΙΟ 1ο: ΔΙΑΦΟΡΙΚΟΣ ΛΟΓΙΣΜΟΣ ΕΝΟΤΗΤΑ 2: ΜΟΝΟΤΟΝΙΑ - ΑΚΡΟΤΑΤΑ

ΗΥ240: Δομές Δεδομένων Εαρινό Εξάμηνο Ακαδημαϊκό Έτος 2017 Διδάσκουσα: Παναγιώτα Φατούρου Προγραμματιστική Εργασία - 2o Μέρος

Εφαρμόζονται σε προβλήματα στα οποία δεν υπάρχει πληροφορία που να επιτρέπει την αξιολόγηση των καταστάσεων του χώρου αναζήτησης.

Κεφάλαιο 5ο: Ακέραιος προγραμματισμός

Θέμα Α. Θέμα Β. ~ 1/9 ~ Πέτρος Μάρκου. % σχεδιάζουμε το πολύγωνο αθροιστικών σχετικών συχνοτήτων τοις

ΕΝΔΕΙΚΤΙΚΟΙ ΤΡΟΠΟΙ ΣΧΕΔΙΑΣΜΟΥ ΤΗΣ ΔΙΔΑΣΚΑΛΙΑΣ ΤΗΣ ΜΕΛΕΤΗΣ ΠΡΟΣΗΜΟΥ ΤΡΙΩΝΥΜΟΥ.

Συνήθεις Διαφορικές Εξισώσεις Ι Ασκήσεις - 09/11/2017. Άσκηση 1. Να βρεθεί η γενική λύση της διαφορικής εξίσωσης. dy dx = 2y + x 2 y 2 2x

Διάλεξη 14: Δέντρα IV B Δένδρα. Διδάσκων: Παναγιώτης Ανδρέου

ΠΛΕ075: Προηγμένη Σχεδίαση Αλγορίθμων και Δομών Δεδομένων. Λουκάς Γεωργιάδης

Σ ΤΑΤ Ι Σ Τ Ι Κ Η ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

Σειρά Προβλημάτων 5 Λύσεις

Η μέθοδος Simplex. Χρήστος Γκόγκος. Χειμερινό Εξάμηνο ΤΕΙ Ηπείρου

Σφαίρα σε ράγες: Η συνάρτηση Lagrange. Ν. Παναγιωτίδης

ΤΕΙ ΚΕΝΤΡΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΕΠΑΝΑΛΗΠΤΙΚΟ ΔΙΑΓΩΝΙΣΜΑ ΣΧΟΛΙΚΟΥ ΕΤΟΥΣ

Κατ οίκον Εργασία 1 Σκελετοί Λύσεων

FORTRAN και Αντικειμενοστραφής Προγραμματισμός

Θεωρία Πιθανοτήτων & Στατιστική

ΟΙΚΟΛΟΓΙΑ ΤΟΠΙΟΥ. Χειμερινό εξάμηνο

f x και τέσσερα ζευγάρια σημείων

Πανεπιστήμιο Ιωαννίνων Τμήμα Πληροφορικής Δομές Δεδομένων [ΠΛΥ302] Χειμερινό Εξάμηνο 2012

Περιεχόμενα. 1. Ειδικές συναρτήσεις. 2. Μιγαδικές Συναρτήσεις. 3. Η Έννοια του Τελεστή. Κεφάλαιο - Ενότητα

ΕΦΑΠΤΟΜΕΝΗ ΤΗΣ ΓΡΑΦΙΚΗΣ ΠΑΡΑΣΤΑΣΗΣ ΜΙΑΣ ΣΥΝΑΡΤΗΣΗΣ

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΑΝΑΛΥΣΗ ΑΛΓΟΡΙΘΜΩΝ

Αλγόριθμοι και πολυπλοκότητα Η Άπληστη Μέθοδος

Επίλυση προβληµάτων. Περιγραφή προβληµάτων Αλγόριθµοι αναζήτησης Αλγόριθµοι τυφλής αναζήτησης Αλγόριθµοι ευρετικής αναζήτησης

3 ο Μέρος Χαρακτηριστικά τυχαίων μεταβλητών

ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

Περιεχόμενα. σελ. Πρόλογος 1 ης Έκδοσης... ix Πρόλογος 2 ης Έκδοσης... xi Εισαγωγή... xiii

Transcript:

ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΝΙΚΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ Παράδοση: 5 Απριλίου 2012 Μιχελιουδάκης Ευάγγελος 2007030014 ΠΛΗ513: Αυτόνομοι Πράκτορες ΑΝΑΦΟΡΑ ΕΡΓΑΣΙΑΣ Εισαγωγή Η εργασία με τίτλο Grid World με δύο πράκτορες υλοποιήθηκε στα πλαίσια του μαθήματος Αυτόνομοι Πράκτορες στο χειμερινό εξάμηνο 2011-12 και βασίζεται στο κλασικό ακολουθιακό πρόβλημα απόφασης του Grid World, με την διαφορά ότι υπάρχουν δύο πράκτορες στο περιβάλλον αυτό, που συνεργάζονται για να μεγιστοποιήσουν την συνολική χρησιμότητα τους. Κάθε ένας από τους δύο πράκτορες έχει την δική του κατάσταση στόχο και ο συνδυασμός των δύο αποτελεί τερματική κατάσταση, δηλαδή η κατάσταση στόχος του ενός πράκτορα δεν αποτελεί από μόνη της τερματική κατάσταση. Συνεπώς για να τερματίσει η αλληλεπίδραση τους με το περιβάλλον πρέπει να συνεργαστούν ώστε ο καθένας από τους δύο να φτάσει στην κατάσταση στόχο του. Η ιδέα βασίζεται στην μοντελοποίηση του προβλήματος σαν μαρκωβιανή διεργασία απόφασης MDP (Mrkov Desicion Process) και επίλυσης του με τον αλγόριθμο Vlue Itertion ώστε να προκύψει η βέλτιστη πολιτική για έναν δεδομένο κόσμο. Για την επίλυση του προβλήματος χρησιμοποιήθηκε η γλώσσα Jv στην οποία υλοποιήθηκε ο αλγόριθμος Vlue Itertion και δημιουργήθηκε ένα γραφικό περιβάλλον GUI για αλληλεπίδραση με τον χρήση. Περιγραφή Για την επίλυση του προβλήματος και την μοντελοποίηση του σαν μαρκωβιανή διεργασία απόφασης, θεωρήσαμε τους πράκτορες σαν δύο πιόνια του κόσμου όπου ο κάθε συνδυασμός των θέσεων τους είναι μία κατάσταση της MDP, με s 1, s 2 να προσδιορίζουν τις θέσεις τους στον κόσμο. s = [s 1, s 2 ] (1) 1

Σύμφωνα με τον ορισμό αυτό η τερματική κατάσταση θα αποτελείται, όπως ήδη αναφέραμε από τον συνδυασμό των θέσεων που βρίσκονται οι καταστάσεις στόχοι των δύο πρακτόρων. Επιπλέον τερματικές καταστάσεις θεωρούνται όλες εκείνες όπου ο ένας εκ των δύο πρακτόρων βρίσκεται σε τελική αρνητική κατάσταση, ανεξαρτήτως της θέσης του άλλου. Με αυτό τον τρόπο αναγκάζουμε τους δύο πράκτορες να συνεργαστούν για να πετύχουν (Σχήμα 1). Σχήμα 1: Grid World Στην συνέχεια ορίσαμε με αντίστοιχο τρόπο τις επιτρεπτές ενέργειες του κόσμου ως τον κάθε συνδυασμό ενεργειών των δύο πρακτόρων, = [ 1, 2 ] (2) όπου 1, 2 παίρνουν τιμές από ένα σύνολο επιτρεπτών ενεργειών (Forwrd, Left, Right, Bck και Wit) δηλαδή, 1, 2 (F orwrd, Left, Right, Bck, W it) χρησιμοποιώντας τις σχέσεις (1) και (2) το πρόβλημα ανάγεται σε πρόβλημα εύρεσης βέλτιστης πολιτικής ενός πράκτορα με καταστάσεις s και ενέργειες που προσπαθεί να μεγιστοποιήσει την χρησιμότητα του επιλέγοντας τις βέλτιστες ενέργειες για τα δύο ρομπότ του κόσμου. Επιπλέον χρειαζόμαστε και το μοντέλο μετάβασης T (s,, s ) της MDP το οποίο σε αντίθεση με το κλασικό Grid World δεν ταυτίζεται με το μοντέλο κίνησης και είναι αρκετά πιο περίπλοκο. Πιο συγκεκριμένα για την ενέργεια το μοντέλο μετάβασης στο συγκεκριμένο πρόβλημα μπορεί να μας οδηγήσει 2

σε 32 διαφορετικές καταστάσεις αν κανένα από τα δύο ρομπότ δεν εκτελέσει ενέργεια Wit, η οποία δεν συμπεριλαμβάνεται στο μοντέλο κίνησης και επιτυγχάνει με πιθανότητα 1 και σε 4 διαφορετικές αν κάποιο από τα δύο την εκτελέσει, σε αυτό το σημείο να προσθέσουμε ότι δεν θεωρούμε έγκυρη την ενέργεια = [W it, W it] καθώς δεν επηρεάζει τον κόσμο αφού με πιθανότητα 1 τα ρομπότ θα μείνουν στην ίδια θέση και για τον λόγο αυτό δεν υλοποιήθηκε. Ο πράκτορας για να εκτελέσει μια ενέργεια επιλέγει τυχαία ένα από τα δύο ρομπότ του κόσμου, ρίχνοντας ένα νόμισμα, και εκτελεί τις 1, 2 με την ανάλογη σειρά, οπότε η μπορεί να εκτελεστεί ισοπίθανα είτε ως = [ 1, 2 ] είτε ως = [ 2, 1 ]. Συνεπώς σε κάθε περίπτωση αν κανένα από τα δύο ρομπότ δεν εκτελέσει ενέργεια Wit τότε η ενέργεια του πρώτου μπορεί να οδηγήσει σε 4 διαφορετικές καταστάσεις, ζυγισμένες με τις πιθανότητες του μοντέλου κίνησης και κάθε μία από αυτές μπορεί να οδηγήσει σε άλλες 4 από την ενέργεια του δεύτερου ρομπότ, η οποία ζυγίζεται επίσης με το μοντέλο κίνησης (Σχημα 2). Σε περίπτωση που κάποιο από τα δύο ρομπότ εκτελέσει ενέργεια Wit τότε οδηγούμαστε σε συνολικά 8 διαφορετικές καταστάσεις, με αντίστοιχο τρόπο, καθώς η ενέργεια Wit επιτυγχάνει με πιθανότητα 1 (Σχήμα 3). Χρησιμοποιώντας όλα όσα περιγράψαμε πιο πάνω υλοποιήσαμε τον αλγόριθμο Vlue Itertion ο οποίος υπολογίζει την βέλτιστη πολιτική του πράκτορα για κάποιο δεδομένο κόσμο κάνοντας χρήση της εξίσωσης βελτιστώτητας Bellmn, V (s) = R(s) + γ mx T (s,, s )V (s ) (3) s στην οποία η συνάρτηση ανταμοιβής καθώς και ο συντελεστής έκπτωσης παρέχονται σαν παράμετροι από το γραφικό περιβάλλον που υλοποιήθηκε. Το γραφικό περιβάλλον (GUI) παρέχει δυνατότητες δημιουργίας κόσμων και παραμετροποίηση του προβλήματος και του αλγορίθμου καθώς και πληροφορίες σχετικά με την επίλυση του. Επιπλέον παρέχει λειτουργία Animtion για οπτικοποίηση της πολιτικής που υπολογίστηκε για κάποιο δεδομένο κόσμο. Προβλήματα - Συμπεράσματα Μετά τον υπολογισμό της βέλτιστης πολιτικής ένα πρόβλημα που παρουσιάστηκε ήταν η αδυναμία οπτικοποίησης του αποτελέσματος, για τον λόγο αυτό δημιουργήθηκε μια λειτουργία Animtion, την οποία αναφέραμε πιο πάνω, στην οποία για δεδομένες θέσεις των ρομπότ του κόσμου μπορούμε να δούμε την ε- κτέλεση της πολιτικής που υπολογίστηκε. 3

Forth S 1 Forth Left S 2 Right S 3 Bck S 4 Forth S 5 Left Left S 6 Right S 7 ( 1, 2 ) Bck S 8 Forth S 9 Right Left S 10 Right S 11 Bck S 12 Forth S 13 Bck Left S 14 Right S 15 Bck S 16 Forth S 17 Forth Left S 18 Right S 19 Bck S 20 Forth S 21 Left Left S 22 Right S 23 ( 2, 1 ) Bck S 24 Forth S 25 Right Left S 26 Right S 27 Bck S 28 Forth S 29 Bck Left S 30 Right S 31 Bck S 32 Σχήμα 2: Μοντέλο μετάβασης χωρίς Wit 4

Forth Wit S 1 ( 1, 2 ) Left Wit S 2 Right Wit S 3 Bck Wit S 4 Forth S 5 ( 2, 1 ) Wit Left S 6 Right S 7 Bck S 8 Σχήμα 3: Μοντέλο μετάβασης με Wit Επιπλέον πρόβλημα αποτελεί το γεγονός ότι έχουμε εκθετική αύξηση καταστάσεων όσο μεγαλώνει ο κόσμος με αποτέλεσμα να έχουμε μεγάλη πολυπλοκότητα στον υπολογισμό της πολιτικής. Συμπεραίνουμε λοιπόν ότι το πρόβλημα δεν μπορεί να επεκταθεί με τον συγκεκριμένο τρόπο επίλυσης για περισσότερους πράκτορες γιατί θα υπάρχει μεγάλο πρόβλημα στον υπολογισμό λόγο καταστάσεων και ακόμα πιο περίπλοκο μοντέλο μετάβασης της MDP. 5