ΕΦΑΡΜΟΓΗ Q-LEARNING ΣΕ GRID WORLD ΚΑΙ ΕΞΥΠΝΟΣ ΧΕΙΡΙΣΜΟΣ ΤΟΥ LEARNING RATE ΛΑΘΙΩΤΑΚΗΣ ΑΡΗΣ ΑΥΤΟΝΟΜΟΙ ΠΡΑΚΤΟΡΕΣ 2011-12



Σχετικά έγγραφα
2). V (s) = R(s) + γ max T (s, a, s )V (s ) (3)

ΠΛΗ513 - Αυτόνομοι Πράκτορες Αναφορά Εργασίας

ΠΛΗ 513-Αυτόνομοι Πράκτορες Χειμερινό εξάμηνο 2012 Εφαρμογή αλγορίθμων ενισχυτικής μάθησης στο παιχνίδι Βlackjack. Χλης Νικόλαος-Κοσμάς

Αυτόνομοι Πράκτορες. Εργασία εξαμήνου. Value Iteration και Q- Learning για Peg Solitaire

ΕΚΠ 413 / ΕΚΠ 606 Αυτόνοµοι (Ροµ οτικοί) Πράκτορες

ΑΥΤΟΝΟΜΟΙ ΠΡΑΚΤΟΡΕΣ. ΑΝΑΦΟΡΑ ΕΡΓΑΣΙΑΣ Othello-TD Learning. Βόλτσης Βαγγέλης Α.Μ

Ο Αλγόριθµος της Simplex

ΠΑΙΧΝΙΔΙ PACMAN 3D ΜΕ ΜΕΘΟΔΟΥΣ ΕΝΙΣΧΗΤΙΚΗΣ ΜΑΘΗΣΗΣ

Εργαστήριο 2: Πίνακες

Αυτόνομοι Πράκτορες. Εργασία εξαμήνου. Μάθηση του παιχνιδιού British square με χρήση Temporal Difference(TD) Κωνσταντάκης Γιώργος

ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ. Ενότητα 5: Παραδείγματα. Ρεφανίδης Ιωάννης Τμήμα Εφαρμοσμένης Πληροφορικής

Αριθμητική Λύση Μη Γραμμικών Εξισώσεων Η ΜΕΘΟ ΟΣ ΤΗΣ ΙΧΟΤΟΜΙΣΗΣ 01/25/05 ΜΜΕ 203 ΙΑΛ 2 1

DS - Pacman. 2.1 Η calculatenextpacmanposition... 3

ΠΕΡΙΓΡΑΜΜΑ ΜΑΘΗΜΑΤΟΣ

Προβλήματα, αλγόριθμοι, ψευδοκώδικας

Πολυτεχνείο Κρήτης Σχολή Ηλεκτρονικών Μηχανικών Και Μηχανικών Η/Υ. ΠΛΗ 513 Αυτόνομοι Πράκτορες

Η Μηχανική Μάθηση στο Σχολείο: Μια Προσέγγιση για την Εισαγωγή της Ενισχυτικής Μάθησης στην Τάξη

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ

ΣΤΟΧΑΣΤΙΚΕΣ ΔΙΕΡΓΑΣΙΕΣ & ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ Αίθουσα Νέα Κτίρια ΣΗΜΜΥ Ε.Μ.Π.

ΑΠΑΝΤΗΣΕΙΣ. H διαδικασία ανεύρεσης λογικών λαθών περιλαμβάνει : β- Σωστό. Διαπίστωση του είδους του λάθους γ- Σωστό δ- Λάθος

Reinforcement Learning Competition Invasive Species Domain - αυτόνομοι Πράκτορες Γιώργος Κεχαγιάς

Διδάσκων: Κωνσταντίνος Κώστα Διαφάνειες: Δημήτρης Ζεϊναλιπούρ

Εργαστηριακή Άσκηση 1

Alternative to Balanced Trees, Comms of the ACM, 33(6), June 1990,

Αλγόριθμοι και Πολυπλοκότητα

Κεφάλαιο 9. Έλεγχοι υποθέσεων

Πιθανοτικός Συμπερασμός: Πού βρίσκομαι στο πλέγμα; [ΠΛΗ 513] Αυτόνομοι πράκτορες - Project Εξαμήνου ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ

Πανεπιστήμιο Ιωαννίνων Τμήμα Πληροφορικής Δομές Δεδομένων [ΠΛΥ302] Χειμερινό Εξάμηνο 2012

Αυτόνομοι Πράκτορες Μαριάνος Νίκος Αυτόνομοι Πράκτορες. Χειμερινό Εξάμηνο 2016 Κωδικός Μαθήματος ΠΛΗ513 Πρότζεκτ Μαθήματος

καθ. Βασίλης Μάγκλαρης

ΓΡΑΜΜΙΚΟΣ & ΔΙΚΤΥΑΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ

11/23/2014. Στόχοι. Λογισμικό Υπολογιστή

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D.

Το Παιχνίδι της Αφαίρεσης

Διάλεξη 04: Παραδείγματα Ανάλυσης

Τεχνητή Νοημοσύνη. 6η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Πληροφορική ΙΙ Θεματική Ενότητα 7

Αυτόνομοι Πράκτορες. ΝΑΟ Μουσικός

Σημειώσεις του εργαστηριακού μαθήματος Πληροφορική ΙΙ. Εισαγωγή στην γλώσσα προγραμματισμού

Κεφάλαιο 9. Έλεγχοι υποθέσεων

Πανεπιστήμιο Ιωαννίνων Τμήμα Μηχανικών Η/Υ και Πληροφορικής Δομές Δεδομένων [ΠΛΥ302] Χειμερινό Εξάμηνο 2013

Συστήματα Βιομηχανικών Διεργασιών 6ο εξάμηνο

Διάλεξη 21: Γράφοι IV - Βραχύτερα Μονοπάτια σε Γράφους

ΑΔΙΕΞΟΔΑ. Λειτουργικά Συστήματα Ι. Διδάσκων: Καθ. Κ. Λαμπρινουδάκης ΛΕΙΤΟΥΡΓΙΚΑ ΣΥΣΤΗΜΑΤΑ Ι

PROJECT ΣΤΟ ΜΑΘΗΜΑ "ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΕΥΡΕΤΙΚΕΣ ΜΕΘΟΔΟΥΣ"

Δομές Δεδομένων και Αλγόριθμοι

Κατανεμημένα Συστήματα Ι

Ενδεικτικές Λύσεις 1ου Σετ Ασκήσεων

Μεταγλωττιστές. Δημήτρης Μιχαήλ. Ακ. Έτος Ανοδικές Μέθοδοι Συντακτικής Ανάλυσης. Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο

TEC410 Ανάπτυξη Δικτυακών Τόπων (Δ εξάμηνο)

Κατανεμημένα Συστήματα Ι

Δομές Δεδομένων Ενότητα 2

Κατ οίκον Εργασία 5 Σκελετοί Λύσεων

Προγραμματισμός Ι (ΗΥ120)

ΕΚΠ 413 / ΕΚΠ 606 Αυτόνοµοι (Ροµ οτικοί) Πράκτορες

6. Στατιστικές μέθοδοι εκπαίδευσης

Τεχνικές Προγραμματισμού και Χρήση Λογισμικού Η/Υ στις Κατασκευές

Εντολές Επανάληψης. int sum = 0, i=1; sum += i++ ; sum += i++ ; Η πράξη αυτή θα πρέπει να επαναληφθεί Ν φορές!

Θέματα Προγραμματισμού Η/Υ

Διάλεξη 04: Παραδείγματα Ανάλυσης Πολυπλοκότητας/Ανάλυση Αναδρομικών Αλγόριθμων

ΕΝΟΤΗΤΑ 4 Λήψη Αποφάσεων και Συναρτήσεις Ελέγχου

Τσάπελη Φανή ΑΜ: Ενισχυτική Μάθηση για το παιχνίδι dots. Τελική Αναφορά

Φύλλο εργασίας 3 - Χριστουγεννιάτικα φωτάκια (σταδιακή αύξηση και μείωση φωτεινότητας ενός LED) Το κύκλωμα σε breadboard

Διδάσκων: Κωνσταντίνος Κώστα Διαφάνειες: Δημήτρης Ζεϊναλιπούρ

Υπολογισμός - Εντολές Επανάληψης

ΘΕΜΑ : «Από την ΜicroWorlds Pro στην Python. Μια Βιωματική Διδακτική Πρόταση.»

ΕΠΛ231 Δομές Δεδομένων και Αλγόριθμοι 4. Παραδείγματα Ανάλυσης Πολυπλοκότητας Ανάλυση Αναδρομικών Αλγόριθμων

ΕΠΛ232 Προγραμματιστικές Τεχνικές και Εργαλεία Δυναμική Δέσμευση Μνήμης και Δομές Δεδομένων (Φροντιστήριο)

Προγραμματισμός Ι (ΗΥ120)

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΕΙΡΑΙΩΣ ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΩΝ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ ΤΜΗΜΑ ΨΗΦΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ «ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ»

Ψευδοκώδικας. November 7, 2011

ΓΡΑΜΜΙΚΟΣ & ΔΙΚΤΥΑΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ

Ενότητα: GameMaker Τα βασικά. Δημιουργώντας ένα παιχνίδι µε το GameMaker

ΦΥΛΛΟ ΕΡΓΑΣΙΑΣ ΜΑΘΗΤΗ

3. Γράψτε μία εντολή που να εμφανίζει π.χ. «Πόσα είναι τα κορίτσια του;» και μία που να εμφανίζει: «Τα κορίτσια του Τζειμς Μποντ είναι 4»

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα. Εισαγωγή στον Προγραμματισμό. Ενότητα 8: Συναρτήσεις. Κ.

Διασυνδεδεμένες Δομές. Λίστες. Προγραμματισμός II 1

Εισαγωγή στον Προγραμματισμό (με. τη C)

Συνδυαστική Βελτιστοποίηση Εισαγωγή στον γραμμικό προγραμματισμό (ΓΠ)

General Models & Inapproximability Overview. Influence Maximization σε Social Networks

ΤΕΧΝΙΚΕΣ ΑΝΤΙΚΕΙΜΕΝΟΣΤΡΑΦΟΥΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ. Αντικείμενα με πίνακες. Constructors. Υλοποίηση Στοίβας

ΤΕΧΝΙΚΕΣ ΑΝΤΙΚΕΙΜΕΝΟΣΤΡΑΦΟΥΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ. Κλάσεις και Αντικείμενα

ΑΛΓΟΡΙΘΜΙΚΕΣ ΜΕΘΟΔΟΙ ΒΕΛΤΙΣΤΟΠΟΙΗΣΗΣ

Μηχανές Turing (T.M) I

Διοίκηση Παραγωγής και Υπηρεσιών

Εισαγωγή στην Πληροφορική

Προγραμματισμός Ι (ΗΥ120)

Ασκήσεις μελέτης της 4 ης διάλεξης. ), για οποιοδήποτε μονοπάτι n 1

ΤΕΧΝΙΚΕΣ ΑΝΤΙΚΕΙΜΕΝΟΣΤΡΑΦΟΥΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ. Κλάσεις και Αντικείμενα Μέθοδοι

Θερμοδυναμική - Εργαστήριο

Η Δομή Επανάληψης. Εισαγωγή στην δομή επανάληψης Χρονική διάρκεια: 3 διδακτικές ώρες

ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΕΠΛ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΜΕΘΟΔΩΝ ΕΠΙΛΥΣΗΣ ΠΡΟΒΛΗΜΑΤΩΝ

ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ Η/Υ Ακαδημαϊκό έτος ΤΕΤΡΑΔΙΟ ΕΡΓΑΣΤΗΡΙΟΥ #4

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ. Δομές Δεδομένων. Ιωάννης Γ. Τόλλης Τμήμα Επιστήμης Υπολογιστών Πανεπιστήμιο Κρήτης

Κατανεμημένα Συστήματα Ι

Διδακτική της Πληροφορικής

ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ ΤΜΗΜΑ ΠΟΛΙΤΙΚΩΝ ΜΗΧΑΝΙΚΩΝ ΤΟΜΕΑΣ ΥΔΡΑΥΛΙΚΗΣ ΚΑΙ ΠΕΡΙΒΑΛΛΟΝΤΙΚΗΣ ΤΕΧΝΙΚΗΣ. Διάλεξη 16: O αλγόριθμος SIMPLE (συνέχεια)

ΤΕΧΝΙΚΕΣ ΑΝΤΙΚΕΙΜΕΝΟΣΤΡΑΦΟΥΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ. Δημιουργώντας δικές μας Κλάσεις και Αντικείμενα

ΤΕΧΝΟΛΟΓΙΑ ΛΟΓΙΣΜΙΚΟΥ Ι

Αλγόριθμοι Αναζήτησης

Transcript:

ΕΦΑΡΜΟΓΗ Q-LEARNING ΣΕ GRID WORLD ΚΑΙ ΕΞΥΠΝΟΣ ΧΕΙΡΙΣΜΟΣ ΤΟΥ LEARNING RATE ΛΑΘΙΩΤΑΚΗΣ ΑΡΗΣ ΑΥΤΟΝΟΜΟΙ ΠΡΑΚΤΟΡΕΣ 2011-12

ΣΚΟΠΟΣ ΕΡΓΑΣΙΑΣ Στα πλαίσια του μαθήματος Αυτόνομοι Πράκτορες μας ζητήθηκε να αναπτύξουμε μια εργασία εξαμήνου, με θέμα ελέυθερο γύρο από τα πεδία που κάλυψε το μάθημα. Το δικό μου θέμα ήταν η μελέτη του αλγορίθμου q-learning και η επίδραση του learning rare πάνω σε αυτόν. Σκοπός μου ήταν να χειριστώ τον ρυθμό αυτό για να πετύχω μια καλύτερη προσαρμογή του γενικού αλγόριθμου σε αλλαγές του περιβάλλοντος εφαρμογής του. Και ίσος μια αυτοποιημένη έκδοση χειρισμού. Για να μελετήσω σε μεγαλύτερο βαθμό τη χρήση των αλγορίθμων μάθησης επέλεξα το περιβάλλον του grid world που παρουσιάστηκε στο μάθημα.

Ο ΚΟΣΜΟΣ ΤΟΥ GRID WORLD ΣΤΟ GRID WORLD Ο ΠΡΑΚΤΟΡΑΣ ΕΧΕΙ ΝΑ ΑΝΤΙΜΕΤΩΠΙΣΕΙ ΕΝΑΝ ΚΟΣΜΟ ΠΟΥ ΕΧΕΙ ΑΒΕΒΑΙΟΤΗΤΑ, ΣΥΓΚΡΟΥΣΕΙΣ ΚΑΙ ΑΝΤΑΜΟΙΒΕΣ. Η ΚΙΝΗΣΗ ΤΟΥ ΠΡΑΚΤΟΡΑ ΕΙΝΑΙ ΠΡΟΣ ΤΙΣ 4 ΚΑΤΕΥΘΥΝΣΕΙΣ (4 ΕΝΕΡΓΕΙΕΣ) ΓΥΡΩ ΑΠΟ ΤΗ ΘΕΣΗ ΤΟΥ. ΟΙ ΕΝΕΡΓΕΙΕΣ ΠΕΤΥΧΑΙΝΟΥΝ ΜΕ ΜΙΑ ΑΒΕΒΑΙΟΤΗΤΑ ΠΡΟΣ ΤΗΝ ΚΑΤΕΥΘΥΝΣΗ ΠΟΥ ΕΠΙΛΕΓΕΙ ΝΑ ΚΙΝΗΘΕΙ Ο ΠΡΑΚΤΟΡΑΣ, ΒΑΣΕΙ ΤΩΝ ΠΙΘΑΝΟΤΗΤΩΝ ΠΟΥ ΤΟΥ ΔΙΝΟΥΜΕ ΚΑΙ ΑΝ ΔΕΝ ΥΠΑΡΧΕΙ ΣΥΓΚΡΟΥΣΗ ΜΕ ΤΟΙΧΟ.

0.8 0.1 0.1 0.0 ΣΤΟ ΣΧΗΜΑ ΦΑΙΝΟΝΤΑΙ ΟΙ ΠΙΘΑΝΟΤΗΤΕΣ ΓΙΑ ΤΗΝ ΚΙΝΗΣΗ ΤΟΥ ΠΡΑΚΤΟΡΑ ΓΙΑ ΤΙΣ ΑΝΑΓΚΕΣ ΤΙΣ ΕΡΓΑΣΙΑΣ ΜΟΥ ΠΑΝΩ ΣΤΟΥΣ ΑΛΓΟΡΙΘΜΟΥΣ ΜΑΘΗΣΗΣ ΠΑΡΑΛΛΑΞΑ ΤΟ ΠΕΡΙΒΑΛΛΟΝ ΤΟΥ GRID WORLD ΓΙΑ ΝΑ ΜΠΟΡΕΙ ΝΑ ΑΛΛΑΖΕΙ ΚΑΤΑ ΤΗ ΔΙΑΡΚΕΙΑ ΤΗΣ ΕΚΠΑΙΔΕΥΣΗΣ (ΠΡΟΣΘΗΚΗ ΤΟΙΧΩΝ Η ΤΕΡΜΑΤΙΚΩΝ ΚΑΤΑΣΤΑΣΕΩΝ). ΕΠΙΣΗΣ ΠΡΟΣΘΕΣΑ ΤΗ ΔΥΝΑΤΟΤΗΤΑ ΤΗΣ ΑΠΛΗΣ ΕΠΙΔΕΙΞΗΣ (1 EPISODE) ΤΟΥ ΑΛΓΟΡΙΘΜΟΥ ΑΠΟ ΤΗ ΘΕΣΗ (0,0).

Q-LEARNIΝG ALGORITHM Ο ΑΛΓΟΡΙΘΜΟΣ ΑΥΤΟΣ ΕΙΝΑΙ ΜΙΑ ΤΕΧΝΙΚΗ ΕΝΙΣΧΥΤΙΚΗΣ ΜΑΘΗΣΗΣ, ΠΟΥ ΛΕΙΤΟΥΡΓΕΙ ΕΚΤΙΜΩΝΤΑΣ ΤΗ ΣΥΝΑΡΤΗΣΗ Q(S,A) ΓΙΑ ΝΑ ΜΑΘΕΙ ΜΙΑ ΚΑΛΗ Η ΒΕΛΤΙΣΤΗ ΠΟΛΙΤΙΚΗ ΓΙΑ ΤΟΝ ΚΟΣΜΟ ΤΟΥ ΠΡΑΚΤΟΡΑ ΧΩΡΙΣ ΝΑ ΞΕΡΕΙ ΤΟ ΜΟΝΤΕΛΟ ΤΟΥ ΚΟΣΜΟΥ. ΒΑΣΙΚΗ ΠΡΟΥΠΟΘΕΣΗ ΓΙΑ ΤΗΝ ΕΦΑΡΜΟΓΗ ΤΟΥ ΑΛΓΟΡΙΘΜΟΥ ΕΙΝΑΙ ΝΑ ΜΟΝΤΕΛΟΠΟΙΕΙΤΑΙ Ο ΚΟΣΜΟΣ ΩΣ ΜΑΡΚΩΒΙΑΝΗ ΔΙΕΡΓΑΣΙΑ ΑΠΟΦΑΣΗΣ. ΟΙ ΙΔΙΟΤΗΤΕΣ ΤΟΥ MDP ΕΙΝΑΙ: Η ΕΠΟΜΕΝΗ ΚΑΤΑΣΤΑΣΗ ΕΙΝΑΙ ΑΝΕΞΑΡΤΗΤΗ ΑΠΟ ΤΟ ΙΣΤΟΡΙΚΟ. Η ΑΝΤΑΜΟΙΒΗ ΕΙΝΑΙ ΑΝΕΞΑΡΤΗΤΗ ΑΠΟ ΤΟ ΙΣΤΟΡΙΚΟ.

Q-LEARNIΝG ALGORITHM MDP(S, A, P, R, G, D) --- S: Ο ΚΟΣΜΟΣ ΤΟΥ GRID WORLD --- A: ΟΙ ΚΙΝΗΣΕΙΣ ΠΟΥ ΕΙΝΑΙ ΔΥΝΑΤΕΣ ΓΙΑ ΤΟΝ ΠΡΑΚΤΟΡΑ {NORTH, EAST, SOUTH, WEST} --- P: ΤΟ ΜΟΝΤΕΛΟ ΜΕΤΑΒΑΣΗΣ --- R: ΟΙ ΑΝΤΑΜΟΙΒΕΣ {R= -0.04 ΓΙΑ ΚΑΘΕ ΒΗΜΑ, R= UTILITY ΓΙΑ ΚΑΘΕ ΤΕΡΜΑΤΙΚΗ ΚΑΤΑΣΤΑΣΗ} --- G: ΠΑΡΑΓΟΝΤΑΣ ΕΚΠΤΩΣΗΣ {G=0.9} --- D: ΚΑΤΑΝΟΜΗ ΑΡΧΙΚΗΣ ΚΑΤΑΣΤΑΣΗΣ

Q-LEARNIΝG ALGORITHM Ο ΑΛΓΟΡΙΘΜΟΣ ΤΟΥ Q-LEARNING: --- ΑΡΧΙΚΟΠΟΙΗΣΕ ΤΑ ΒΑΡΗ --- ΓΙΑ ΚΑΘΕ ΕΠΕΙΣΟΔΙΟ ΚΑΝΕ: --- ΔΙΑΛΕΞΕ ΤΥΧΑΙΑ ΑΡΧΙΚΗ ΘΕΣΗ --- DO WHILE (FINAL STAGE): + ΔΙΑΛΕΞΕ ΤΗΝ ΚΑΛΥΤΕΡΗ ΚΙΝΗΣΗ (ACTION) + ΕΞΕΤΑΣΕ ΝΑ ΠΑΣ ΣΕ ΑΥΤΗ (NEXT STAGE) + ΥΠΟΛΟΓΙΣΕ ΤΑ Q + ΥΠΟΛΟΓΙΣΕ ΤΗΝ ΑΒΕΒΑΙΟΤΗΤΑ ΤΟΥ ΚΟΣΜΟΥ + CURRENT_STAGE = NEXT_STAGE

Q-LEARNIΝG ALGORITHM ΓΙΑ ΤΗΝ ΕΠΙΛΟΓΗ ΤΗΣ ΚΑΛΥΤΕΡΗΣ ΚΙΝΗΣΗΣ Η ΣΥΝΑΡΤΗΣΗ ΠΟΥ ΧΡΗΣΙΜΟΠΟΙΩ ΔΙΑΛΕΓΕΙ ΤΥΧΑΙΑ ΠΩΣ ΘΑ ΕΞΕΤΑΣΕΙ ΤΙΣ ΤΙΜΕΣ ΤΩΝ Q ΓΙΑ ΚΑΘΕ ΚΙΝΗΣΗ, ΩΣΤΕ ΝΑ ΑΠΟΦΕΥΧΘΕΙ ΝΑ ΚΑΝΕΙ ΚΥΚΛΟΥΣ ΓΥΡΩ ΑΠΟ ΤΟΝ ΕΑΥΤΟ ΤΟΥ ΓΙΑ ΤΟΝ ΥΠΟΛΟΓΙΣΜΟ ΤΟΥ ΕΠΟΜΕΝΟΥ STAGE ΧΡΗΣΙΜΟΠΟΙΩ ΜΙΑ ΣΥΝΑΡΤΗΣΗ ΠΟΥ ΥΠΟΛΟΓΙΖΕΙ ΑΝ Η ΚΙΝΗΣΗ ΠΟΥ ΕΠΕΛΕΞΑ ΕΙΝΑΙ ΕΝΤΟΣ ΟΡΙΩΝ ΤΟΥ GRID WORLD ΓΙΑ ΤΗΝ ΕΦΑΡΜΟΓΗ ΤΗΣ ΑΒΕΒΑΙΟΤΗΤΑΣ ΥΠΟΛΟΓΙΖΩ ΜΙΑ ΜΕΤΑΒΛΗΤΗ [0,1] ΚΑΙ ΑΝΑΛΟΓΑ ΜΕ ΤΟ ΑΠΟΤΕΛΕΣΜΑ ΑΠΟΝΕΜΩ ΤΙΣ ΠΙΘΑΝΟΤΗΤΕΣ ΑΝΑΛΟΓΑ ΜΕ ΤΑ ΠΟΣΟΣΤΑ ΤΟΥΣ ΑΠΟ ΤΟ 0 ΕΩΣ ΤΟ 1 ΚΑΙ ΟΙ ΚΙΝΗΣΗΣ ΕΝΑΛΛΑΣΟΝΤΑΙ ΔΕΞΙΟΣΤΡΟΦΑ {NORTH>EAST>SOUTH>WEST}

LEARNING RATE - ΠΡΟΣΑΡΜΟΓΗ ΤΟΥ ΡΥΘΜΟΥ ΜΑΘΗΣΗΣ ΣΕ ΑΥΤΟ ΤΟ ΚΟΜΜΑΤΙ ΤΗΣ ΕΡΓΑΣΙΑΣ ΠΡΟΣΠΑΘΗΣΑ ΝΑ ΡΥΘΜΙΣΩ ΤΟ LEARNING RATE ΕΤΣΙ ΩΣΤΕ ΝΑ ΑΝΤΑΠΟΚΡΙΝΕΤΑΙ ΚΑΛΥΤΕΡΑ Ο ΑΛΓΟΡΙΘΜΟΣ ΤΟΥ Q LEARNING ΣΕ ΚΑΠΟΙΑ ΑΛΛΑΓΗ ΤΟΥ ΠΕΡΙΒΑΛΛΟΝΤΟΣ ΚΑΙ ΝΑ ΞΑΝΑ ΔΙΑΜΟΡΦΩΝΕΙ ΤΑ ΒΑΡΗ ΤΟΥ. ΤΑ ΒΑΡΗ ΤΟΥ Q LEARNING ΔΕΝ ΤΑ ΚΑΝΟΝΙΚΟΠΟΙΗΣΑ ΓΙΑ ΝΑ ΚΡΑΤΗΣΩ ΤΗΝ ΕΠΙΡΡΟΗ ΤΩΝ ΤΕΛΙΚΩΝ ΚΑΤΑΣΤΑΣΕΩΝ ΣΕ ΟΛΗ ΤΗ ΔΙΑΡΚΕΙΑ ΤΩΝ ΑΛΛΑΓΩΝ.

LEARNING RATE - ΠΡΟΣΑΡΜΟΓΗ ΤΟΥ ΡΥΘΜΟΥ ΜΑΘΗΣΗΣ Ο ΑΡΧΙΚΟΣ ΚΩΔΙΚΑΣ ΓΙΑ ΑΥΤΗ ΤΗ ΛΕΙΤΟΥΡΓΙΑ ΗΤΑΝ Ο ΕΞΗΣ (ΣΥΝΑΡΤΗΣΗ Α1) for (int k=0; k < epa; k++){ } for (int ep = 0; ep < epb; ep++){ } counter = learn_q(a, g, r); stat[ep][0] = counter; if (maxcounter < counter){ maxcounter = counter; } if ((maxcountera < maxcounter) & (a < 0.9)){ maxcountera = maxcounter; a = a + 0.005; } else if ((maxcountera > maxcounter) & (a > 0.001)){ System.out.println("-max= "+maxcounter); System.out.println("y= "+y_q_learning()); a = a - 0.005; }

LEARNING RATE - ΠΡΟΣΑΡΜΟΓΗ ΤΟΥ ΡΥΘΜΟΥ ΜΑΘΗΣΗΣ ΣΤΗΝ ΣΥΝΕΧΕΙΑ, ΠΡΟΣΠΑΘΗΣΑ ΝΑ ΜΟΝΤΕΛΟΠΟΙΗΣΩ ΤΗ ΔΙΑΔΙΚΑΣΙΑ ΑΥΤΗ ΣΑΝ ΜΙΑ ΜΑΡΚΩΒΙΑΝΗ ΔΙΕΡΓΑΣΙΑ ΑΠΟΦΑΣΗΣ. ΔΥΣΚΟΛΕΥΤΙΚΑ ΣΕ ΑΥΤΗ ΤΗΝ ΠΡΟΣΠΑΘΕΙΑ, ΓΙΑΤΙ ΤΟ LEARNING RATE ΕΙΝΑΙ ΜΙΑ ΣΥΝΕΧΗ ΜΕΤΑΒΛΗΤΗ ΚΑΙ ΤΑ ΚΡΙΤΗΡΙΑ ΓΙΑ ΤΗΝ ΑΠΟΦΑΣΗ ΑΝ Η ΕΠΙΛΟΓΗ ΤΟΥ ΡΥΘΜΟΥ ΕΙΝΑΙ ΚΑΛΗ Η ΒΕΛΤΙΣΤΗ ΕΙΝΑΙ ΔΙΣΔΙΑΚΡΙΤΑ. ΕΝΑ ΠΡΩΤΟ ΚΡΙΤΗΡΙΟ ΠΟΥ ΠΗΡΑ ΗΤΑΝ ΤΟ TEMPORAL DIFFERENCE ΤΩΝ ΤΙΜΩΝ ΤΗΣ Q. ΩΜΟΣ ΣΤΗΝ ΠΡΑΞΗ ΑΥΤΟ ΔΕΝ ΗΤΑΝ ΙΣΧΥΡΟ ΚΡΙΤΗΡΙΟ ΜΕΤΑ ΤΙΣ ΑΛΛΑΓΕΣ ΣΤΟ ΠΕΡΙΒΑΛΛΟΝ. ΣΤΟΥΣ ΑΚΟΛΟΥΘΟΥΣ ΑΛΓΟΡΙΘΜΟΥΣ ΧΡΗΣΙΜΟΠΟΙΗΣΑ ΩΣ ΚΡΙΤΗΡΙΟ ΠΗΡΑ ΤΑ ΒΗΜΑΤΑ ΠΟΥ ΚΑΝΕΙ Ο ΑΛΓΟΡΙΘΜΟΣ ΜΕΧΡΙ ΝΑ ΒΡΕΙ ΤΟ FINAL STAGE (STEPS). ΤΟ ΜΟΝΤΕΛΟ ΓΙΑ ΤΟ ΡΥΘΜΟ ΜΑΘΗΣΗΣ ΕΧΕΙ 3 ΚΑΤΑΣΤΑΣΕΙΣ {LOW, MIDDLE, HIGH} ΚΑΙ 7 ΚΙΝΗΣΕΙΣ (ACTIONS)

LEARNING RATE - ΠΡΟΣΑΡΜΟΓΗ ΤΟΥ ΡΥΘΜΟΥ ΜΑΘΗΣΗΣ ΟΙ ΑΡΧΙΚΟΠΟΙΗΣΗ ΤΩΝ ΤΙΜΩΝ ΓΙΑ ΤΑ ΒΑΡΗ ΤΗΣ ΣΥΝΑΡΤΗΣΗΣ ΤΟΥ ΡΥΘΜΟΥ ΜΑΘΗΣΗΣ ΕΙΝΑΙ ΣΤΙΣ ΤΙΜΕΣ ΠΟΥ ΕΙΝΑΙ ΕΝΔΙΑΜΕΣΑ ΑΠΟ ΤΑ ΟΡΙΑ. A_values[2][4] = (0.001+0.1)/2; A_values[1][3] = 0.1; A_values[2][5] = 0.1; A_values[1][2] = (0.1+0.5)/2; A_values[0][1] = 0.5; A_values[1][6] = 0.5; A_values[0][0] = (0.5+0.9)/2;

LEARNING RATE - ΠΡΟΣΑΡΜΟΓΗ ΤΟΥ ΡΥΘΜΟΥ ΜΑΘΗΣΗΣ ΚΑΙ Η ΤΕΛΙΚΗ ΣΥΝΑΡΤΗΣΗ ΓΙΑ ΤΗΝ ΕΚΠΑΙΔΕΥΣΗ ΠΑΝΩ ΣΤΟ ΡΥΘΜΟ ΜΑΘΗΣΗΣ ΕΙΝΑΙ Η ΕΞΗΣ (ΣΥΝΑΡΤΗΣΗ Α) for (int k=0; k < epa; k++){ maxcounter = -1; r = 0; for (int ep = 0; ep < epb; ep++){ } counter = learn_q(a, g, r); stat[ep][0] = counter; if (maxcounter < counter){ maxcounter = counter; re -= 1; } else{ re += 1; } re = re/epb; action = best_action_a(s, a); next_s_a = next_state_a(s, action, a); compute_a(s, next_s_a, action, a, re); a = A_values[s][action]; } s = next_s_a;

LEARNING RATE - ΠΡΟΣΑΡΜΟΓΗ ΤΟΥ ΡΥΘΜΟΥ ΜΑΘΗΣΗΣ ΤΑ ΒΑΡΗ ΟΠΩΣ ΠΡΟΚΥΠΤΟΥΝ ΜΕΤΑ ΤΗΝ ΕΚΠΑΙΔΕΥΣΗ 0.7 0.5 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.0987542 0.0929187 0.1 0.1 0.5 0.1 0.1 0.1 0.1 0.0367753 0.1 0.1 ΚΑΙ ΤΑ ΒΑΡΗ ΜΕΤΑ ΤΗΝ ΑΛΛΑΓΗ ΤΟΥ ΠΕΡΙΒΑΛΛΟΝΤΟΣ 0.7 0.5 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.0987542 0.0929187 0.1 0.1 0.5 0.1 0.1 0.1 0.1 0.0124257 0.1 0.1

LEARNING RATE - ΠΡΟΣΑΡΜΟΓΗ ΤΟΥ ΡΥΘΜΟΥ ΜΑΘΗΣΗΣ LEARNING RATE ΓΙΑ ΤΗΝ ΣΥΝΑΡΤΗΣΗ Α1 ΜΕΤΑ ΤΗΝ ΑΛΛΑΓΗ ΤΟΥ ΠΕΡΙΒΑΛΛΟΝΤΟΣ

LEARNING RATE - ΠΡΟΣΑΡΜΟΓΗ ΤΟΥ ΡΥΘΜΟΥ ΜΑΘΗΣΗΣ LEARNING RATE ΓΙΑ ΤΗΝ ΣΥΝΑΡΤΗΣΗ Α ΜΕΤΑ ΤΗΝ ΑΛΛΑΓΗ ΤΟΥ ΠΕΡΙΒΑΛΛΟΝΤΟΣ

ΑΠΟΤΕΛΕΣΜΑΤΑ ΚΑΙ ΣΥΜΠΕΡΑΣΜΑΤΑ ΜΕΤΑ ΑΠΟ ΠΟΛΛΕΣ ΦΟΡΕΣ ΠΟΥ ΕΤΡΕΞΑ ΤΟΥΣ ΑΛΓΟΡΙΘΜΟΥΣ ΓΙΑ ΤΗΝ ΠΡΟΣΑΡΜΟΓΗ ΤΟΥ ΡΥΘΜΟΥ ΜΑΘΗΣΗΣ, ΣΥΜΠΕΡΑΝΑ ΟΤΙ ΓΙΑ ΤΗΝ ΚΑΛΗ ΛΕΙΤΟΥΡΓΙΑ ΤΟΥΣ ΧΡΕΙΑΖΟΝΤΑΙ ΣΩΣΤΑ ΚΡΙΤΙΡΙΑ ΓΙΑ ΝΑ ΚΡΙΝΟΥΝ ΤΗΝ ΑΠΟΔΟΣΗ ΕΝΟΣ SET ΕΚΠΑΙΔΕΥΣΗΣ (ΜΕ ΚΑΘΕ SET ΝΑ ΑΠΟΤΕΛΕΙΤΑΙ ΑΠΟ 100000 ΕΠΙΣΟΔΕΙΑ). ΤΑ ΑΠΟΤΕΛΕΣΜΑΤΑ ΣΤΗΝ ΠΡΑΞΗ ΕΙΝΑΙ ΚΑΛΑ ΚΑΙ ΣΕ ΟΠΟΙΑΔΗΠΟΤΕ ΣΤΙΓΜΗ ΜΕΤΑΞΥ ΤΩΝ SET ΕΚΠΑΙΔΕΥΣΗΣ ΕΚΤΕΛΕΣΤΕΙ Η ΣΥΝΑΡΤΗΣΗ ΕΠΙΔΕΙΞΗΣ ΟΔΗΓΕΙ ΜΕ ΚΑΛΟ Η ΒΕΛΤΙΣΤΟ ΜΟΝΟΠΑΤΙ ΣΤΟ FINAL STAGE.

ΑΠΟΤΕΛΕΣΜΑΤΑ ΚΑΙ ΣΥΜΠΕΡΑΣΜΑΤΑ ΣΥΝΑΡΤΗΣΗ Α1

ΑΠΟΤΕΛΕΣΜΑΤΑ ΚΑΙ ΣΥΜΠΕΡΑΣΜΑΤΑ ΣΥΝΑΡΤΗΣΗ Α1 ΜΕΤΑ ΤΗΝ ΑΛΛΑΓΗ ΤΟΥ ΠΕΡΙΒΑΛΛΟΝΤΟΣ

ΑΠΟΤΕΛΕΣΜΑΤΑ ΚΑΙ ΣΥΜΠΕΡΑΣΜΑΤΑ ΣΥΝΑΡΤΗΣΗ Α

ΑΠΟΤΕΛΕΣΜΑΤΑ ΚΑΙ ΣΥΜΠΕΡΑΣΜΑΤΑ ΣΥΝΑΡΤΗΣΗ Α ΜΕΤΑ ΤΗΝ ΑΛΛΑΓΗ ΤΟΥ ΠΕΡΙΒΑΛΛΟΝΤΟΣ