Μηχανισμοί Μάθησης και η Χρήση τους στην Επικύρωση της Ποιότητας Νέων Παιγνίων Γκεζερλής Σπύρος Επιβλέπων Δημήτριος Καλλές Εξεταστική Επιτροπή Δημήτρης Καλλές Λοΐζος Μιχαήλ Αρτίκης Αλέξανδρος
Παρουσίαση Εισαγωγή Ανάπτυξη Παιχνιδιoύ Μηχανική Μάθηση Σχεδίαση & Ανάπτυξη Παιχνίδι Πράκτορας Δοκιμές Συμπεράσματα & Μελλοντική Ανάπτυξη
Εισαγωγή: Αντικείμενο Αντικείμενο Αξιοποίηση υπάρχουσας τεχνογνωσίας και τεχνολογίας πάνω στην χρήση της ενισχυτικής μάθησης για την αυτόματη ανακάλυψη τακτικής
Εισαγωγή: Στόχος Στόχος Σχεδίαση και επικύρωση ιδιοτήτων ένος νέου παιχνιδιού με κύρια συνιστώσα την Ενισχυτική Μάθηση Πλατφόρμα Ανάπτυξης Παιχνιδιών Μηχανισμός Μάθησης Τεχνολογίες Μέθοδοι Πρακτικές Αλγόριθμοι
Εισαγωγή: Μηχανική Λογισμικού MindMapping (Καταγραφή Σκέψης σε Ροή Εργασιών) Online Version Control System (Πλήρες ιστορικό εκδόσεων αρχείων, προγραμμάτων στο σύννεφο) Online Document Collaboration (Επεξεργασία κειμένων στο σύννεφο)
Εισαγωγή: Python Πρόγραμμα Περιγραφή Python Γλώσσα Προγραμματισμού - Σύστημα PyGame Βιβλιοθήκη Ανάπτυξης Γραφικών Παιχνιδιών NumPy Numerical Python - Βιβλιοθήκη αριθμητικών και επιστημονικών εργαλείων NetWorkX Βιβλιοθήκη Python δημιουργίας και διαχείρισης δικτύων γράφων PyGraphViz Βιβλιοθήκη διαχείρισης και απεικόνισης γράφων και δικτύων PyBrain Βιβλιοθήκη Μηχανικής Μάθησης - Περιέχει και RL RL-Glue Διεπαφή προτυποποίησης RL - Περιέχει Python Codec
Ανάπτυξη Παιχνιδιού: Κύκλος Ζωής Τυπικός βρόγχος παιχνιδιού: 1. εκκίνηση 2. αναμονή εντολών 3. ανανέωση 4. και τερματισμός
Ανάπτυξη Παιχνιδιού: Ορισμοί, Κανόνες, Ενέργειες Ορισμοί: Κανόνες: Ενέργειες: 1. 2. 3. 4. 1. Τι επιτρέπεται 2. Τι δεν επιτρέπεται 1. Ενέργειες χρήστη στον αντίπαλο και στο περιβάλλον Περιβάλλον Οντότητες Αντίπαλοι Στόχοι
Μηχανική Μάθηση: RL Ενισχυτική Μάθηση: Ο πράκτορας αισθάνεται το περιβάλλον του, έχει ανάδραση αμοιβής και προσαρμόζει ανάλογα τις πράξεις του. Κατάσταση Ενέργεια Αμοιβή "Αφουγκράζομαι, Σκέπτομαι, Πράττω"
Μηχανική Μάθηση: RL Ενισχυτική Μάθηση: Στοιχεία Περιβάλλον Πολιτική (τρόπος συμπεριφοράς) Συνάρτηση αμοιβής (στόχος προβλήματος) Συνάρτηση αξίας (μακροπρόθεσμός στόχος) Μοντέλο (μιμητής συμπεριφοράς περιβάλλοντος) R Πράκτορας Q: S x A
Παιχνίδι: Σχεδίαση RLTankAttack http://code.google.com/p/rltankattack/ Διαδραστικό γραφικό παιχνίδι αντίταξης δυο (2) παικτών. Πρέπει να εκτελείται σε Python και των βοηθητικών βιβλιοθηκών Μελλοντική φορητότητα σε έξυπνα τηλέφωνα (έγιναν δοκιμές πρωτότυπων σε Android συσκευές με επιτυχία)
Παιχνίδι: Σχεδίαση RLTankAttack - Αντικείμενο Κατάκτηση της καρνάγιου του αντιπάλου Καταπόντιση του αντιπάλου του είτε σε κενό είτε σε στήλη νερού
Παιχνίδι: Σχεδίαση RLTankAttack - Ορισμοί 1. 2. 3. 4. 5. Υπάρχουν 2 πλοία αντίπαλοι Διαστάσεις ΜxN (ΠxY) Η στάθμη κάθε στήλης νερού διαχειρίζεται μέσω των 2 βαλβιδών. Ο αριθμός των βαλβίδων είναι διπλάσιος των στηλών νερού. Μια βαλβίδα ελέγχει την στάθμη σε μια στήλη.
Παιχνίδι: Σχεδίαση RLTankAttack - Ενέργειες 1. Σκάφος a. Πρόσω b. Ανάποδα 2. Βαλβίδα a. Εισροή b. Εκροή
Πράκτορας: Σχεδίαση Πράκτορας Δημιουργός 1. Ανάδραση 2. Ενέργεια 3. Αμοιβή 1. Περιβάλλον 2. Πολιτική
Πράκτορας: Σχεδίαση Δημιουργός Πολιτικής Επαναληπτικός Γεννήτρια τυχαίων κινήσεων
Πράκτορας: Σχεδίαση Πράκτορας Συμπεριφέρεται ως παίκτης (αναμονή σειράς, έλεγχος κίνησης) Ελέγχει γράφο για προϋπαρξη κίνησης Κατά τον τερματισμό του ενημερώνει βάσει του αποτελέσματος τον γράφο
Δοκιμές: Σχεδίαση Δείκτες Ποιότητας Πρόοδος τύπου κίνησης ανά παιχνίδι (Smart vs Random) Αμοιβές ανά παιχνίδι (+1, -1)
Ανάπτυξη: Λογική Στοίβα Οικοσύστημα RLTankAttack Πράκτορας Παιχνίδι Python
Ανάπτυξη: Ροή Επικοινωνίας
Ανάπτυξη: Οντότητες Κλάσσεις Συστήματος Πράκτορας Δοκιμές Παιχνίδι
Δοκιμές: Διαστάσεις Πολιτικής Επαναληπτικός Αλγόριθμος Γεννήτρια Τυχαίων κινήσεων
Δοκιμές: Δείκτες Μάθησης Smart vs Random Αμοιβές ανά παιχνίδι
Συμπεράσματα Βαρύτητα και μεθοδικότητα: Σχεδίαση Τυποποίηση Αρχιτεκτονική
Μελλοντικές Eπεκτάσεις RLTankAttack + RL-Glue Agent -vsagent Agent -vsrandom Agent