Μηχανισμοί Μάθησης και η Χρήση τους στην Επικύρωση της Ποιότητας Νέων Παιγνίων

Μηχανισμοί Μάθησης και η Χρήση τους στην Επικύρωση της Ποιότητας Νέων Παιγνίων Γκεζερλής Σπύρος Επιβλέπων Δημήτριος Καλλές Εξεταστική Επιτροπή Δημήτρης Καλλές Λοΐζος Μιχαήλ Αρτίκης Αλέξανδρος

Παρουσίαση Εισαγωγή Ανάπτυξη Παιχνιδιoύ Μηχανική Μάθηση Σχεδίαση & Ανάπτυξη Παιχνίδι Πράκτορας Δοκιμές Συμπεράσματα & Μελλοντική Ανάπτυξη

Εισαγωγή: Αντικείμενο Αντικείμενο Αξιοποίηση υπάρχουσας τεχνογνωσίας και τεχνολογίας πάνω στην χρήση της ενισχυτικής μάθησης για την αυτόματη ανακάλυψη τακτικής

Εισαγωγή: Στόχος Στόχος Σχεδίαση και επικύρωση ιδιοτήτων ένος νέου παιχνιδιού με κύρια συνιστώσα την Ενισχυτική Μάθηση Πλατφόρμα Ανάπτυξης Παιχνιδιών Μηχανισμός Μάθησης Τεχνολογίες Μέθοδοι Πρακτικές Αλγόριθμοι

Εισαγωγή: Μηχανική Λογισμικού MindMapping (Καταγραφή Σκέψης σε Ροή Εργασιών) Online Version Control System (Πλήρες ιστορικό εκδόσεων αρχείων, προγραμμάτων στο σύννεφο) Online Document Collaboration (Επεξεργασία κειμένων στο σύννεφο)

Εισαγωγή: Python Πρόγραμμα Περιγραφή Python Γλώσσα Προγραμματισμού - Σύστημα PyGame Βιβλιοθήκη Ανάπτυξης Γραφικών Παιχνιδιών NumPy Numerical Python - Βιβλιοθήκη αριθμητικών και επιστημονικών εργαλείων NetWorkX Βιβλιοθήκη Python δημιουργίας και διαχείρισης δικτύων γράφων PyGraphViz Βιβλιοθήκη διαχείρισης και απεικόνισης γράφων και δικτύων PyBrain Βιβλιοθήκη Μηχανικής Μάθησης - Περιέχει και RL RL-Glue Διεπαφή προτυποποίησης RL - Περιέχει Python Codec

Ανάπτυξη Παιχνιδιού: Κύκλος Ζωής Τυπικός βρόγχος παιχνιδιού: 1. εκκίνηση 2. αναμονή εντολών 3. ανανέωση 4. και τερματισμός

Ανάπτυξη Παιχνιδιού: Ορισμοί, Κανόνες, Ενέργειες Ορισμοί: Κανόνες: Ενέργειες: 1. 2. 3. 4. 1. Τι επιτρέπεται 2. Τι δεν επιτρέπεται 1. Ενέργειες χρήστη στον αντίπαλο και στο περιβάλλον Περιβάλλον Οντότητες Αντίπαλοι Στόχοι

Μηχανική Μάθηση: RL Ενισχυτική Μάθηση: Ο πράκτορας αισθάνεται το περιβάλλον του, έχει ανάδραση αμοιβής και προσαρμόζει ανάλογα τις πράξεις του. Κατάσταση Ενέργεια Αμοιβή "Αφουγκράζομαι, Σκέπτομαι, Πράττω"

Μηχανική Μάθηση: RL Ενισχυτική Μάθηση: Στοιχεία Περιβάλλον Πολιτική (τρόπος συμπεριφοράς) Συνάρτηση αμοιβής (στόχος προβλήματος) Συνάρτηση αξίας (μακροπρόθεσμός στόχος) Μοντέλο (μιμητής συμπεριφοράς περιβάλλοντος) R Πράκτορας Q: S x A

Παιχνίδι: Σχεδίαση RLTankAttack http://code.google.com/p/rltankattack/ Διαδραστικό γραφικό παιχνίδι αντίταξης δυο (2) παικτών. Πρέπει να εκτελείται σε Python και των βοηθητικών βιβλιοθηκών Μελλοντική φορητότητα σε έξυπνα τηλέφωνα (έγιναν δοκιμές πρωτότυπων σε Android συσκευές με επιτυχία)

Παιχνίδι: Σχεδίαση RLTankAttack - Αντικείμενο Κατάκτηση της καρνάγιου του αντιπάλου Καταπόντιση του αντιπάλου του είτε σε κενό είτε σε στήλη νερού

Παιχνίδι: Σχεδίαση RLTankAttack - Ορισμοί 1. 2. 3. 4. 5. Υπάρχουν 2 πλοία αντίπαλοι Διαστάσεις ΜxN (ΠxY) Η στάθμη κάθε στήλης νερού διαχειρίζεται μέσω των 2 βαλβιδών. Ο αριθμός των βαλβίδων είναι διπλάσιος των στηλών νερού. Μια βαλβίδα ελέγχει την στάθμη σε μια στήλη.

Παιχνίδι: Σχεδίαση RLTankAttack - Ενέργειες 1. Σκάφος a. Πρόσω b. Ανάποδα 2. Βαλβίδα a. Εισροή b. Εκροή

Πράκτορας: Σχεδίαση Πράκτορας Δημιουργός 1. Ανάδραση 2. Ενέργεια 3. Αμοιβή 1. Περιβάλλον 2. Πολιτική

Πράκτορας: Σχεδίαση Δημιουργός Πολιτικής Επαναληπτικός Γεννήτρια τυχαίων κινήσεων

Πράκτορας: Σχεδίαση Πράκτορας Συμπεριφέρεται ως παίκτης (αναμονή σειράς, έλεγχος κίνησης) Ελέγχει γράφο για προϋπαρξη κίνησης Κατά τον τερματισμό του ενημερώνει βάσει του αποτελέσματος τον γράφο

Δοκιμές: Σχεδίαση Δείκτες Ποιότητας Πρόοδος τύπου κίνησης ανά παιχνίδι (Smart vs Random) Αμοιβές ανά παιχνίδι (+1, -1)

Ανάπτυξη: Λογική Στοίβα Οικοσύστημα RLTankAttack Πράκτορας Παιχνίδι Python

Ανάπτυξη: Ροή Επικοινωνίας

Ανάπτυξη: Οντότητες Κλάσσεις Συστήματος Πράκτορας Δοκιμές Παιχνίδι

Δοκιμές: Διαστάσεις Πολιτικής Επαναληπτικός Αλγόριθμος Γεννήτρια Τυχαίων κινήσεων

Δοκιμές: Δείκτες Μάθησης Smart vs Random Αμοιβές ανά παιχνίδι

Συμπεράσματα Βαρύτητα και μεθοδικότητα: Σχεδίαση Τυποποίηση Αρχιτεκτονική

Μελλοντικές Eπεκτάσεις RLTankAttack + RL-Glue Agent -vsagent Agent -vsrandom Agent