Reinforcement Learning Competition Invasive Species Domain - αυτόνομοι Πράκτορες Γιώργος Κεχαγιάς

Σχετικά έγγραφα
ΕΦΑΡΜΟΓΗ Q-LEARNING ΣΕ GRID WORLD ΚΑΙ ΕΞΥΠΝΟΣ ΧΕΙΡΙΣΜΟΣ ΤΟΥ LEARNING RATE ΛΑΘΙΩΤΑΚΗΣ ΑΡΗΣ ΑΥΤΟΝΟΜΟΙ ΠΡΑΚΤΟΡΕΣ

ΠΑΙΧΝΙΔΙ PACMAN 3D ΜΕ ΜΕΘΟΔΟΥΣ ΕΝΙΣΧΗΤΙΚΗΣ ΜΑΘΗΣΗΣ

καθ. Βασίλης Μάγκλαρης

ΣΤΟΧΑΣΤΙΚΕΣ ΔΙΕΡΓΑΣΙΕΣ & ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ Αίθουσα Νέα Κτίρια ΣΗΜΜΥ Ε.Μ.Π.

ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ. Ενότητα 5: Παραδείγματα. Ρεφανίδης Ιωάννης Τμήμα Εφαρμοσμένης Πληροφορικής

ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ

ΕΚΠ 413 / ΕΚΠ 606 Αυτόνοµοι (Ροµ οτικοί) Πράκτορες

ΕΚΠ 413 / ΕΚΠ 606 Αυτόνοµοι (Ροµ οτικοί) Πράκτορες

Μέρος Β /Στατιστική. Μέρος Β. Στατιστική. Γεωπονικό Πανεπιστήμιο Αθηνών Εργαστήριο Μαθηματικών&Στατιστικής/Γ. Παπαδόπουλος (

ΠΛΗ 513-Αυτόνομοι Πράκτορες Χειμερινό εξάμηνο 2012 Εφαρμογή αλγορίθμων ενισχυτικής μάθησης στο παιχνίδι Βlackjack. Χλης Νικόλαος-Κοσμάς

ΙΑ ΟΧΙΚΕΣ ΒΕΛΤΙΩΣΕΙΣ

Αυτόνομοι Πράκτορες. Εργασία εξαμήνου. Value Iteration και Q- Learning για Peg Solitaire

Μελέτη και Υλοποίηση Ελεγκτών Ρομποτικών Συστημάτων με χρήση Αλγορίθμων Ενισχυτικής Μάθησης

2). V (s) = R(s) + γ max T (s, a, s )V (s ) (3)

ΑΝΑΣΤΟΧΑΣΜΟΣ 1ης ΔΙΔΑΚΤΙΚΗΣ ΠΑΡΕΜΒΑΣΗΣ

Πολυτεχνείο Κρήτης Σχολή Ηλεκτρονικών Μηχανικών Και Μηχανικών Η/Υ. ΠΛΗ 513 Αυτόνομοι Πράκτορες

ΣΗΜΕΙΩΣΕΙΣ ΤΕΛΙΚΗΣ ΕΡΓΑΣΙΑΣ ΤΟΥ ΜΑΘΗΜΑΤΟΣ «ΓΛΩΣΣΕΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ»

ΕΚΠ 413 / ΕΚΠ 606 Αυτόνοµοι (Ροµ οτικοί) Πράκτορες

ΠΡΑΚΤΙΚΗ ΑΣΚΗΣΗ 2013/14. Μιχαηλίδου Αγγελική Λάλας Γεώργιος

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ Τ Μ Η Μ Α Π Λ Η Ρ Ο Φ Ο Ρ Ι Κ Η Σ

ΣΤΟΧΑΣΤΙΚΕΣ ΔΙΕΡΓΑΣΙΕΣ & ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ Αίθουσα Νέα Κτίρια ΣΗΜΜΥ Ε.Μ.Π.

ΑΥΤΟΝΟΜΟΙ ΠΡΑΚΤΟΡΕΣ. ΑΝΑΦΟΡΑ ΕΡΓΑΣΙΑΣ Othello-TD Learning. Βόλτσης Βαγγέλης Α.Μ

ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ

Λήψη απλών αποφάσεων

Ανάκληση Πληποφοπίαρ. Διδάζκων Δημήηριος Καηζαρός

Υπολογιστικά & Διακριτά Μαθηματικά

Μηχανισμοί Μάθησης και η Χρήση τους στην Επικύρωση της Ποιότητας Νέων Παιγνίων

Άσκηση 3 (ανακοινώθηκε στις 14 Μαΐου 2018, προθεσμία παράδοσης: 8 Ιουνίου 2018, 12 τα μεσάνυχτα).

Συστήματα μνήμης και υποστήριξη μεταφραστή για MPSoC

Μηχανισμοί Μάθησης και η Χρήση τους στην Επικύρωση της Ποιότητας Νέων Παιγνίων

Η Μηχανική Μάθηση στο Σχολείο: Μια Προσέγγιση για την Εισαγωγή της Ενισχυτικής Μάθησης στην Τάξη

Μηχανική Μάθηση: γιατί;

Αυτόνομοι Πράκτορες. Εργασία εξαμήνου. Μάθηση του παιχνιδιού British square με χρήση Temporal Difference(TD) Κωνσταντάκης Γιώργος

Υπολογιστική Νοημοσύνη. Μάθημα 4: Μάθηση στον απλό τεχνητό νευρώνα (2)

ΕΡΓΑΣΙΑ ΣΤΟ ΜΑΘΗΜΑ Λ03Β ΑΛΓΟΡΙΘΜΟΙ ΔΙΚΤΥΩΝ & ΠΟΛΥΠΛΟΚΟΤΗΤΑ ΦΛΕΒΑΡΗΣ 2004

ΚΑΙΝΟΤΟΜΕΣ ΛΥΣΕΙΣ ΕΚΠΑΙΔΕΥΣΗΣ ΚΑΙ ΑΞΙΟΛΟΓΗΣΗΣ ΟΔΗΓΟΣ E-LEARNING

Bubble Hack Οπτικοποίηση του αλγορίθμου ταξινόμησης Bubble Sort στο Scratch


Μαρκοβιανές Αλυσίδες

Δομές Δεδομένων Εργαστηριακή Άσκηση Γκόγκος Νίκος Α.Μ.: 4973 Έτος: 3 ο gkogkos@ceid.upatras.gr. Εισαγωγικά:

Τεχνητή Νοημοσύνη. 2η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

ΠΛΗ513 - Αυτόνομοι Πράκτορες Αναφορά Εργασίας

ΘΕΩΡΙΑ ΠΑΙΓΝΙΩΝ. Ενότητα 9: Απείρως επαναλαμβανόμενα παίγνια. Ρεφανίδης Ιωάννης Τμήμα Εφαρμοσμένης Πληροφορικής

Αυτόνομοι Πράκτορες Μαριάνος Νίκος Αυτόνομοι Πράκτορες. Χειμερινό Εξάμηνο 2016 Κωδικός Μαθήματος ΠΛΗ513 Πρότζεκτ Μαθήματος

ΗΥ562 Προχωρημένα Θέματα Βάσεων Δεδομένων Efficient Query Evaluation over Temporally Correlated Probabilistic Streams

Μοντελοποίηση, Ανάλυση και Σχεδιασμός Στοχαστικών Συστημάτων

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D.

Τεχνητή Νοημοσύνη. 6η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Επίλυση Προβλημάτων και Τεχνικές Αναζήτησης Εισαγωγή

ΒΛΑΣΤΗΣΗ (ΜΑΤΘΑΙΟΥ) !"Τίτλος διερεύνησης: Ποιοι παράγοντες επηρεάζουν το πόσο γρήγορα θα βλαστήσουν τα σπέρματα των οσπρίων.

Επίλυση Προβλημάτων 1

ΣΥΣΤΗΜΑΤΑ ΑΝΑΜΟΝΗΣ Queuing Systems Επισκόπηση Γνώσεων Πιθανοτήτων (2/2) Διαδικασία Γεννήσεων Θανάτων Η Ουρά Μ/Μ/1

Εισαγωγή στη Θεωρία Αποφάσεων. Λήψη απλών αποφάσεων για έναν πράκτορα

Διδακτική Μαθηματικών Ι Ενδεικτικές οδηγίες για τη δραστηριότητα

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ. Δομές Δεδομένων. Ιωάννης Γ. Τόλλης Τμήμα Επιστήμης Υπολογιστών Πανεπιστήμιο Κρήτης

Τίτλος Εργασίας: Εικονογραφήματα. Μάθημα: Εκθετική συνάρτηση. Λυκείου Αγίου Νεοφύτου. Αριθμός μαθητών στην τάξη: 16

Ασκηση 1 [ ] Παράδοση : Τετάρτη , 13:00

ΟΙΚΟΛΟΓΙΑ ΤΟΠΙΟΥ. Χειμερινό εξάμηνο

1η Οµάδα Ασκήσεων. ΑΣΚΗΣΗ 1 (Θεωρία)

Μαθηματικά: Αριθμητική και Άλγεβρα Μάθημα 6 ο, Τμήμα Α. Μέγιστος Κοινός Διαιρέτης (Μ.Κ.Δ.) και Ελάχιστο Κοινό Πολλαπλάσιο (Ε.Κ.Π.)

Προβλήματα Μεταφορών (Transportation)

Τεχνητή Νοημοσύνη. 4η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Δ Ι Α Φ Ο Ρ Ι Κ Ο Σ Λ Ο Γ Ι Σ Μ Ο Σ Πεδίο Ορισμού Συνάρτησης

Γραφικά υπολογιστών Εργαστήριο 9 Κλάσεις στην Python. Σκοπός της 9ης άσκησης είναι να μάθουμε αντικειμενοστρεφή προγραμματισμό στην Python.

ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΔΙΑΧΕΙΡΙΣΗΣ ΚΙΝΔΥΝΟΥ. Συσχέτιση (Correlation) - Copulas

Αλγόριθμος. Αλγόριθμο ονομάζουμε τη σαφή και ακριβή περιγραφή μιας σειράς ξεχωριστών οδηγιών βημάτων με σκοπό την επίλυση ενός προβλήματος.

Network Algorithms and Complexity Παραλληλοποίηση του αλγορίθμου του Prim. Αικατερίνη Κούκιου

ΔΙΔΑΣΚΑΛΙΑ ΤΗΣ ΕΝΝΟΙΑΣ ΤΟΥ ΟΡΙΟΥ ΣΥΝΑΡΤΗΣΗΣ

Το Υπόδειγμα της Οριακής Τιμολόγησης

Ηθικός Κίνδυνος. Το βασικό υπόδειγμα. Παρουσιάζεται ένα στοχαστικό πρόβλημα χρηματοδότησης όταν τα αντισυμβαλλόμενα μέρη έχουν συμμετρική πληροφόρηση.

ΕΡΕΥΝΑ ΚΑΙ ΠΕΙΡΑΜΑΤΙΣΜΟΣ:

ΔΕΣΜΕΥΜΕΝΕΣ Ή ΥΠΟ ΣΥΝΘΗΚΗ ΠΙΘΑΝΟΤΗΤΕΣ

Minimum Spanning Tree: Prim's Algorithm

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΕΠΑΝΑΛΗΠΤΙΚΟ ΔΙΑΓΩΝΙΣΜΑ ΣΧΟΛΙΚΟΥ ΕΤΟΥΣ

Ψηφιακή Επεξεργασία και Ανάλυση Εικόνας. Παρουσίαση Νο. 1. Εισαγωγή

ΣΥΣΤΗΜΑΤΑ ΑΝΑΜΟΝΗΣ Queuing Systems

ΠΡΟΣΟΜΟΙΩΣΗ ΠΑΝΕΛΛΑΔΙΚΩΝ ΕΞΕΤΑΣΕΩΝ Γʹ ΤΑΞΗΣ ΗΜΕΡΗΣΙΟΥ ΓΕΝΙΚΟΥ ΛΥΚΕΙΟΥ ΕΞΕΤΑΖΟΜΕΝΟ ΜΑΘΗΜΑ: ΑΕΠΠ ΤΡΙΤΗ 18 ΑΠΡΙΛΙΟΥ 2017 ΣΥΝΟΛΟ ΣΕΛΙΔΩΝ: ΕΠΤΑ (7)

Δίκτυα Υπολογιστών Ενότητα 9: Dynamic Host Configuration Protocol- DHCP

Να επιλύουμε και να διερευνούμε την εξίσωση αx + β = 0, βάση τη γραφική παράσταση της ευθείας y = ax + β.

Δομές Δεδομένων. Δημήτρης Μιχαήλ. Δέντρα Αναζήτησης. Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο

Πώς μια μάζα αντιλαμβάνεται ότι κάπου υπάρχει μια άλλη και αλληλεπιδρά με αυτή ; Η αλληλεπίδραση μεταξύ μαζών περιγράφεται με την έννοια του πεδίου.

Προγραμματιστικές Ασκήσεις, Φυλλάδιο 1

ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ. Ενότητα 2: Δένδρο αναζήτησης. Ρεφανίδης Ιωάννης Τμήμα Εφαρμοσμένης Πληροφορικής

Συστήματα Αναμονής. Ενότητα 1: Εισαγωγή. Αγγελική Σγώρα Τμήμα Μηχανικών Πληροφορικής ΤΕ

Αυτόνομοι Πράκτορες. ΝΑΟ Μουσικός

Αριθμητικές Προσομοιώσεις του πρότυπου ISING στις Τρεις Διαστάσεις

Πως μπορούν (αλλά και γιατί πρέπει) να συνδυάζονται στην εκπαιδευτική διαδικασία;

Προσομοίωση Βιομηχανικής Παραγωγής & Επιχειρήσεων

Επίλυση Προβλημάτων 1

METROPOLIS. Ένα περιβάλλον σχεδιασμού για ετερογενή συστήματα

Απορρόφηση Αερίων (2)

3.7 Παραδείγματα Μεθόδου Simplex

Το Υπόδειγμα IS-LM. (1) ΗΚαμπύληIS (Ισορροπία στην Αγορά Αγαθών)

1.1. Κινηματική Ομάδα Ε

Τι μαθησιακός τύπος είναι το παιδί σας;

Λυσεις προβλημάτων τελικής φάσης Παγκύπριου Μαθητικού Διαγωνισμού Πληροφορικής 2007

ΔΙΕΡΕΥΝΗΣΗ ΤΩΝ ΕΝΝΟΙΩΝ ΕΝΤΑΣΗ ΚΑΙ ΔΥΝΑΜΙΚΟ ΣΕ ΗΛΕΚΤΡΙΚΟ ΠΕΔΙΟ ΠΟΥ ΔΗΜΙΟΥΡΓΕΙΤΑΙ ΑΠΟ ΔΥΟ ΣΗΜΕΙΑΚΑ ΦΟΡΤΙΑ

ΑΛΓΟΡΙΘΜΙΚΕΣ ΜΕΘΟΔΟΙ ΒΕΛΤΙΣΤΟΠΟΙΗΣΗΣ

Αλγόριθµοι Τύπου Μείωσης Προβλήµατος

Σχεδίαση μαθησιακών δραστηριοτήτων λογιστικά φύλλα υπερμεσικά περιβάλλοντα προσομοιώσεις

Transcript:

Reinforcement Learning Competition Invasive Species Domain - αυτόνομοι Πράκτορες 2015-16 Γιώργος Κεχαγιάς 2010030002 Ορισμός του προβλήματος Η οικονομική και η οικολογική καταστοροφή απο τα Invasive species έχει συνεχόμενη αύξηση σε όλο τον κόσμο. Αυτή η κατάσταση δημιούργησε την ανάγκη για καλές πολιτικές οι οποίες θα διαχειρίζονται τα invasive species. Αυτό το προτεινόμενο πεδίο της ενισχυτικής μάθησης περιλαμβάνει κάποιες απο τις δυσκολίες του να παίρνεις καλές αποφάσεις σε χωρικά πεδία στα οποία μια χωρικά εξαπλώμενη διεργασία πρέπει να ελεγχθεί. Το πεδίο μοντελοποιήται σαν ένα δίκτυο ποταμού στο οποίο υπάρχουν native και invading είδη φυτών. Τα native εξοντώνοντα απο τα invading μειώνονταις την βιοποικιλότητα και παράγοντας μεγάλες ποσότητες νερού. Το πρόβλημα διαχείρησης μορφοποιήται σαν μια διαδικασία Markov (MDP) περιγράφοντας την κατάσταση και την δυναμική ενός δικτύου που είναι κατασκευασμένο σαν δέντρο όπως το κατασκεύασαν στο paper Α neural metapopulation model of biodiversity in river networks. Στο framework, το δίκτυο ποταμού αναπαρηστάται σαν ένας direct graph στον οποίο κάθε edge είναι ενα reach του ποταμού. Κάθε reach περιλαμβάνει H habitats (slots), και καθένα απο αυτά είναι σε μία απο τις τρείς καταστάσεις : empty, occupied by Tamarisk Tree, occupied by native tree. Έτσι το MDP έχει συνολικά 3^RH, όπου R είναι ο αριθμός των reaches (θα μπορούσαμε να βάλουμε και το E απο το edges). Σε κάθε time step για κάθε reach, μια ενέργια διαχείρησης πραγματοποιήται και εφαρμόζεται στα Habitas αυτού του reach. Υπάρχουν τέσσερεις δυνατές ενέργιες που μπορούν να πραγματοποιηθούν. Ο αριθμός των συνολικών ενεργιών για το πρόβλημα μας είναι 4^R, όπου ξανά το R, αποτελεί τον αριθμό των reaches του δικτύου ποταμού. Do nothing : DN Eradicate : Eradicate Tamarisk plants in all habitats in the reach Restore : place Native Plants in all empty slots in the reach Eradicate & Restore : Eradicate Tamarisk and place Native plants in all empty Στα παραπάνω actions τόσο τα actions eradicate, όσο και τα actions restore μπορεί να αποτύχουν στοχαστικά, και τα δύο προηγούμενα έχουν κόστος το οποίο γραμμικά κλιμακόνεται με τον αριθμό τον 'μολυσμένων' slots. Η δυναμική της διαδικασίας ορίζεται απο στοχαστικές μεταβάσεις εξαπλώμενων seeds. Τα δέντρα που επιβιώνουν δημιουργούν νεα seeds τα οποία διασπείρονται σύμφωνα με μια χωρική διαδικασία. Τα seeds που φτάνουν σε έναν empty slot ανταγωνίζονται στοχαστικά για το όποιο απο όλα θα καταλάβει το συγκεκριμένο slot. Επίσης σε κάθε time step, ένα δέντρο μπορεί να πεθάνει με κάποια πιθανότητα. Μεθοδολογία της λύσης μας Για το συγκεκριμένο πρόβλημα υπάρχουν αρκετοί τρόποι να προσεγγίσεις την λύση του. Υπάρχει single agent option, υπάρχει multi agent option, όπως και μια σειρά απο αντίστοιχους αλγορίθμους ενισχυτικής μάθησης οι οποίοι επιτυγχάνουν το στόχο του να μειωθεί το κόστος(βάση των αρχικών

ορισμών κόστους για κάθε ενέργεια και κάθε slot) σε άπειρο ορίζοντα. Εμείς για την συγκεκριμένη εργασία επιλέξαμε να εξάγουμε κάποια βασικά αποτελέσματα απο βασικούς αλγορίθμους που διδαχτήκαμε στο μάθημα των Αυτόνομων Πρακτόρων 2015-16 όπως είναι ο Sarsa(μας απαλλάξαν απο την διαδικασία προγραμματισμού του οι υπεύθυνοι του RL - Competition) και ο Q-Learning φτιάχνοντας και τους αντίστοιχους agents(οι οποίοι είναι αρκετά παρόμοιοι στην προγραμματιστική υλοποίηση). Επίσης κατασκευάσαμε εναν agent που κάνει random κινήσεις βάση των διαθέσιμων κινήσων που μπορούν να γίνουν για μια συγκεκριμένη κατάσταση προκειμένου να δούμε προς κινείται το αποτέλεσμα του κόστους χωρίς κάποια λογική κινήσεων, αλλά περισσότερο ως μέτρο σύγκρισης με τους προηγούμενους δύο αλγόριθμος. Ουσιαστικά πέρα απο το πως δουλεύουν, απαντάμε και πειραματικά στο γιατί δουλεύουν, έχοντας μια απτή και συγκεκριμένη γραφική αναπαράσταση που το πιστοποιεί. Πέρα απο τον random agent ο οποίος δεν έχει κάποιο παραπάνω ενδιαφέρον να περιγράψουμε την λειτουργία και σημασία του πέρα απο όσο γράψαμε παραπάνω, θα επικεντροθούμε στον agent που υλοποιήσαμε τον αλγόριθμο Q-Learning. Σαν πρόβλημα υπάρχουν αρκετές προκλήσεις τις οποίες πρέπει να αντιμετωπίσουμε. Πρώτη και βασική είναι ο μεγάλος αριθμός των πιθανών καταστάσεων οι οποίες γίνονται περισσότερες εκθετικά (3^RH) όπως επίσης και η μεγάλη πολυπλοκότητα και στοχαστικότητα των διαδικασιών που καθορίζουν την δυναμική του περιβάλλοντος. Με την χρήση Q-Learning συγκεκριμένα, έχουμε το πλεονέκτημα οτι μπορούμε να διαχειριστούμε αρκετά καλά προβλήματα με στοχαστικές μεταβάσεις και απολαβές, πράγμα που στο Invasive Species μας είναι παραπάνω απο σημαντικά να έχουμε. Άρα είναι εύκολα κατανοητό για ποιο λόγο η επιλογή του Q-Learning δίνει καλά αποτελέσματα RL. Με την τεχνική Q-Learning εκτιμούμε την ιδανική πολιτική με ανιχνευση του περιβάλλοντος όταν γίνοναι action, εκτιμόντας αποτελεσματικά τον ίδιο αριθμό σετ state-action value function. O κανόνας ενημέρωσης των values των Q τιμών γίνεται σύμφωνα με τον παρακάτω κανόνα : Με τον παραπάνω κανόνα είναι εξασφαλισμένο οτι η ιδανική πολιτική θα βρεθεί αν κάθε σετ stateaction προπελαστεί απείρως συχνά. Αυτή βέβαια η παραδοχή έρχεται με αρκετά μεγάλο υπολογιστικό κόστος καθώς τόσο η ίδια η φύση του προβλήματος όσο και ο κώδικας της πλατφόρμας προσομοίωσης RL-GLUE, δημιουργούν τεράστιο υπολογιστικό κόστος. Με την χρήση ενός μόνο agents για όλα τα reaches, είναι αρκετά δύσκολο να πετύχουμε κάλυψη 100% σε όλες τις καταστάσεις. 'Ισως μια Multi-agent Q-Learning προσέγγιση λύσης να έχει καλύτερα αποτελέσματα, αλλά καλύτερα να το κρατήσουμε απλό για την ώρα. Egreedy Συνάρτηση (def) και Action Selection Όπως είδαμε και στο μάθημα των Αυτόνομων Πρακτόρων φέτος, στην ενισχυτική μάθηση είναι αρκετά σημαντικό να βρεθεί η αναλογία ανάμεσα σε explore και exploit(εξευρεύνηση και εκμετάλλευση). Έχει αποδείχτεί οτι οι προηγούμενες δύο παράμετροι έχουμε τρομερή επίδραση στον τρόπο που γίνεται η μάθηση. Απο την μια η πολύ εξευρεύνιση εμποδίζει την μεγιστοποίηση των short-term απολαβών, καθώς το ρίσκο τις εξερεύνησης μπορεί να δώσει αρνητικές απολαβές απο το περιβάλλον. Απο την άλλη η εκμετάλλευση αβέβαιου περιβάλλοντος εμποδίζει την μεγιστοποίηση των Long-term απολαβών κάθως η επιλογή των action που θα γίνεται μπορεί να μην είναι δανική. Η επιλογή ενός συστήματος το οποίο επιλέγει πάντα το μεγαλύτερο Q-value και άρα το αντίστοιχο action, είναι ενα σύστημα που μπορούμε να το χαρακτηρίσουμε greedy.

Στο δικό μας σύστημα, δεδομένου οτι για τις καταστάσεις που έχουμε επισκευτεί (που είναι αρκετά πολλές) μας συμφέρει μια λογική exploit με spikes explore ανάλογα με την γνωστή απο την βιβλιογραφία πιθανότητα ε. Καθώς τρέχουμε το πρόβλημα για αρκετά μεγάλο αριθμό επαναλήψεων (πάνω απο 1000) και δεδομένου της ποσότητας των states, το exploit μας δίνει το μεγαλύτερο sort-term reward θυσιάζοντας βέβαια αρκετά τa Long-term, αλλά με μια πιθανότητα σε κάθε γύρο, δεν επιλεγουμε action βάση του μεγαλύτερου Q-Value, αλλά διαλέγουμε random ενα action απο αυτά που είναι διαθέσιμα, προκειμένου να δούμε τι διαφορετικό θα μάθουμε για το περιβάλλον που έχουμε. Πειράματα Στο δικό μας σύστημα, δεδομένου οτι για τις καταστάσεις που έχουμε επισκεφτεί (που είναι αρκετά πολλές) μας συμφέρει μια λογική exploit με spikes explore ανάλογα με την γνωστή απο την βιβλιογραφία πιθανότητα ε. Καθώς τρέχουμε το πρόβλημα για αρκετά μεγάλο αριθμό επαναλήψεων (πάνω απο 1000) και δεδομένου της ποσότητας των states, το exploit μας δίνει το μεγαλύτερο sort-term reward θυσιάζοντας βέβαια αρκετά τa Long-term, αλλά με μια πιθανότητα σε κάθε γύρο, δεν επιλεγουμε action βάση του μεγαλύτερου Q-Value, αλλά διαλέγουμε random ενα action απο αυτά που είναι διαθέσιμα, προκειμένου να δούμε τι διαφορετικό θα μάθουμε για το περιβάλλον που έχουμε. Επίσης έγιναν δοκιμές με τροποποιήσεις στα exploration rates, αλλάζοντας την πιθανότητα ε προκειμένου να δούμε την αντίδραση του agent στο περιβάλλον. Το παράξενο εδώ ήταν οτι σε αρκετά απο τα πειράματα, για αλλαγή του ε ε-0.05, στο 33% των περιπτώσεων είχαμε βελτίωση του ρυθμού μάθησης προς το τέλος των πειραμάτων, ενώ για ε ε+0.05, δεν είχαμε την ίδια βελτίωση(πολλές φορές είχαμε και αρνητικό αποτέλεσμα). Μια πιθανή εξήγηση για αυτό ίσως ειναι οτι το σύστημα μάθαινε μια αρκετά καλή πολιτική κάπου στην αρχή των επαναλήψεων και έτσι οι καλές απολαβές ξεκινήσαν απο νωρίς να αποδίδονται.] Στην αλλαγή του discount factor απο 0.9 σε 0.8 όπως ήταν αναμενόμενο είχαμε χειρότερες απολαβές κατα την εξέλιξη των επαναλήψεων. Αλλαγές στο learning rate, και πιο συγκεκριμένα μειώνοντας το, μας έδινε καλύτερα μέση απολαβή. Αυτό είναι κάπως αναμενόμενο καθώς το learning rate επηρεάζει το κατα πόσο μια νέα τιμή παρεμβαίνει στην ήδη υπάρχουσα. Επομένως σε μια ώριμη κατάσταση των Q-Values που δίνουν καλά αποτελέσματα το να αλλάζουν ριζικά τα νεα τα ήδη υπάρχοντα δημιουργεί ενα σχετικά μεγάλο πρόβλημα στην επιτυχία του αλγορίθμου. Συμπεράσματα- Παρατηρήσεις(σύντομα) Συμπερασματικά μπορούμε με σιγουριά να πούμε οτι ο sarsa kai ο q-learning είναι πολύ πιο αποδοτικοί για την επιλογή των actions απο οτι ο random agent. Πέρα όμως απο το προφανές, παρατηρούμε οτι στον q-learning υπάρχει τάση για πολύ μεγαλύτερη μείωση του κόστους απο οτι στον sarsa. Αν και ο sarsa έχει πιο απότομη αύξηση, η οποία όπως παρατηρούμε μέτα απο λίγο ισορροπεί. Ίσως αμα μπορούσαμε να εκτελέσουμε τα πειράματα για περισσότερες επαναλήψεις, να βλέπαμε καλύτερα και οπτικά αυτό που σαν διαπίστωση περιγράφουμε παραπάνω. Επίσης σαν μελλοντική δουλεία θα είχε ενδιαφέρον μια υλοποίηση με multiagent προσέγγιση.

Q-LEARNING ε=0,1 Q-LEARNING ε=0,09

SARSA version1 SARSA version2

random1 random2