Ενισχυτική Μάθηση και Ηλεκτρονικά Παιχνίδια

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "Ενισχυτική Μάθηση και Ηλεκτρονικά Παιχνίδια"

Transcript

1 ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ Τμήμα Πληροφορικής Μεταπτυχιακό Πρόγραμμα Σπουδών στα Προηγμένα Πληροφοριακά Συστήματα Ενισχυτική Μάθηση και Ηλεκτρονικά Παιχνίδια Μεταπτυχιακή Διατριβή Ιορδάνης Ε. Δαρόγλου Θεσσαλονίκη Σεπτέμβριος 2009

2

3 Στη μητέρα μου, Αικατερίνη Δήμου

4

5 Πρόλογος Τα ηλεκτρονικά παιχνίδια, πέραν της ψυχαχωγικής τους φύσης, αποτελούν τις περισσότερες φορές προσεκτικά μελετημένα μοντέλα του πραγματικού κόσμου. Ως τέτοια, μπορούν να χρησιμοποιηθούν ως πεδία έρευνας και δοκιμών για τις σύγχρονες μεθόδους τεχνητής νοημοσύνης και μηχανικής μάθησης. Η ενισχυτική μάθηση αποτελεί έναν διακριτό κλάδο της μηχανικής μάθησης, που ασχολείται με την σειριακή λήψη αποφάσεων, βάσει ενός ισχυρά θεμελιωμένου θεωρητικού πλαισίου. Η εφαρμογή της ενισχυτικής μάθησης σε προβλήματα που βασίζονται σε ηλεκτρονικά παιχνίδια, φαντάζει ως μια πολύ ενδιαφέρουσα προοπτική, η ο- ποία δεν έχει διερευνηθεί εκτενώς μέχρι σήμερα. Στην παρούσα εργασία, επιχειρείται μια προσέγγιση προς την κατεύθυνση αυτήν, από δύο πλευρές. Από τη μια, παρουσιάζεται η υλοποίηση πρακτόρων για ένα έτοιμο (ήδη υλοποιημένο) πεδίο που βασίζεται στο ηλεκτρονικό παιχνίδι Mario και από την άλλη, παρουσιάζονται κάποια πρώιμα βήματα που αφορούν τη μετατροπή ενός υπάρχοντος παιχνιδιού ανοικτού λογισμικού, του TransballGL, σε πεδίο-πρόβλημα της ενισχυτικής μάθησης. Απώτερος στόχος είναι η διερεύνηση των πιθανών ζητημάτων που μπορούν να προκύψουν κατά την εφαρμογή μεθόδων ενισχυτικής μάθησης σε ηλεκτρονικά παιχνίδια. Θα ήθελα να εκφράσω τις ευχαριστίες μου στον καθηγητή κ. Ιωάννη Βλαχάβα, για την εμπιστοσύνη που μου έδειξε αναθέτοντας μου την εργασία και την αποδοχή του προτεινόμενου θέματος. Επίσης, θα ήθελα να ευχαριστήσω θερμά τους κκ. Γρηγόρη Τσουμάκα, λέκτορα του τμήματος και κ. Ιωάννη Παρτάλα, διδάκτορα του τμήματος, για την υποδειγματική κι ευχάριστη συνεργασία, την υπομονετική αντιμετώπιση και τις συμβουλές που μου παρείχαν. Επιπλέον, θα ήθελα να εκφράσω την ευγνωμοσύνη μου στον Brian Tanner, υ- ποψήφιο διδάκτορα του πανεπιστημίου της Αλμπέρτα, για την πολύτιμη βοήθεια και υποστήριξη που μου παρείχε σε διάφορα ζητήματα που αφορούν την εργασία. Αντίστοιχα, οφείλω την ευγνωμοσύνη μου στον Santiago Ontañón Villar, μεταδιδακτορικό ερευνητή στο Ερευνητικό Ινστιτούτο Τεχνητής Νοημοσύνης της Βαρκελώνης, για την υποστήριξη που μου παρείχε με τις ουσιαστικές κι ενθαρρυντικές επιστολές του. Ακόμη, θα ήθελα να ευχαριστήσω θερμά τον Paul Pluzhnikov της Google, χάρη στην αυθεντία του οποίου, επιλύθηκε ίσως το δυσκολότερο τεχνικής φύσης πρόβλημα που αντιμετωπίστηκε κατά τη διάρκεια της εκπόνησης της διατριβής αυτής. Κλείνοντας, θα ήθελα να ευχαριστήσω την οικογένεια μου και τους φίλους που μου στάθηκαν καθ όλο το διάστημα αυτό. Ειδική μνεία θα ήθελα να κάνω στον αδερφό μου, Βασίλη Δαρόγλου, για την ανεκτίμητη βοήθεια και υποστήριξη που μου παρείχε.

6

7 Περίληψη Τα ηλεκτρονικά παιχνίδια αποτελούν σημαντική πρόκληση για τους επιστήμονες του ευρύτερου γνωστικού πεδίου της Τεχνητής Νοημοσύνης (Μηχανικής Μάθησης) και της Ενισχυτικής Μάθησης συγκεκριμένα. Στην εργασία αυτήν διερευνάται η καταλληλότητα των μεθόδων Ενισχυτικής Μάθησης ως προς την εφαρμογή τους σε περίπλοκα ηλεκτρονικά παιχνίδια. Συγκεκριμένα, παρουσιάζεται η υλοποίηση πρακτόρων ΕΜ για το Infinite Mario, που είναι βασισμένο στο δημοφιλές παιχνίδι πλατφόρμας Mario και συμπεριλήφθηκε στον Διεθνή Διαγωνισμό ΕΜ 2009 (RL-Competition 2009). Επιπλέον, παρουσιάζονται κάποιες πρώιμες προσπάθειες για την υλοποίηση του παιχνιδιού TransballGL, ως πεδίο εφαρμογής μεθόδων ΕΜ. Το κύριο συμπέρασμα που εξήχθη από την εργασία αυτή, είναι ότι τα ηλεκτρονικά παιχνίδια αποτελούν ένα εξαιρετικά ενδιαφέρον και προκλητικό πεδίο δοκιμών για τις μεθόδους ΕΜ. Ωστόσο, για την επιτυχή εφαρμογή μεθόδων ΕΜ σε αυτά, είναι καλό να έχει προηγηθεί ενδελεχής μελέτη του πεδίου (παιχνιδιού) για να υπάρχει όσο το δυνατόν καλύτερη εκμετάλλευση της γνώσης που παρέχεται μέσω των αναπαραστάσεων των καταστάσεων του παιχνιδιού. Θεματική Περιοχή: Ενισχυτική Μάθηση Λέξεις Κλειδιά: Ενισχυτική Μάθηση, Ηλεκτρονικά Παιχνίδια, Mario, Transball

8

9 Αbstract Computer games can pose a great allenge for AI resear, especially Ma ine Learning and more specifically Reinforcement Learning. In this thesis we question the applicability of RL methods to solving complex problem domains based on video games. We present the implementation of some agents for the Infinite Mario domain, whi is based on the popular platform game Mario, and was featured in the 2009 Reinforcement Learning Competition. Moreover, we describe some primitive efforts towards the implementation of a new Reinforcement Learning problem domain, whi is based on the open-source thrust-type game, TransballGL. We feel that the main lesson learned through this thesis is that computer games can be a very good mat for the creation of interesting and allenging problem domains for Reinforcement Learning. We have to note though, that for successful application of RL methods in video games, extra care must be taken, the problem domain has to be studied thoroughly, in order to a ieve the fullest possible exploitation of the information that is provided via the game state / observation representation. Subject Area: Reinforcement Learning Keywords: Reinforcement Learning, Computer Games, Mario, Transball

10

11 Περιεχόμενα 1 Εισαγωγή 1 2 Ενισχυτική Μάθηση Βασικά Στοιχεία Το πρόβλημα της Ενισχυτικής Μάθησης Διεπαφή Πράκτορα-Περιβάλλοντος Το δίλημμα μεταξύ εξερεύνησης ή αξιοποίησης Στόχοι και Ανταμοιβές Η έννοια της Επιστροφής Διαδικασίες Markov Συναρτήσεις Αξίας Μέθοδοι Ενισχυτικής Μάθησης Δυναμικός Προγραμματισμός Monte Carlo Μάθηση Χρονικών Διαφορών Ίχνη Επιλεξιμότητας Mέθοδοι βασισμένοι σε μοντέλο Ενοποιημένη Άποψη των μεθόδων Γενίκευση - Προσέγγιση Συναρτήσεων Ιεραρχική Ενισχυτική Μάθηση Ημι-Μαρκοβιανές διαδικασίες απόφασης Προσεγγίσεις Σχεσιακή Ενισχυτική Μάθηση Στόχοι Μέθοδοι Ποιότητα της Διαδικασίας Μάθησης Μηχανική Μάθηση και Ηλεκτρονικά Παιχνίδια Εισαγωγή TN και ηλεκτρονικά παιχνίδια Η χρησιμότητα της ΤΝ Κλασσικές Μέθοδοι ΤΝ Ψευδομάθηση ΜΜ και Αναλυτικά Παιχνίδια Ζητήματα εφαρμογής σε εμπορικά παιχνίδια Πηγές Μάθησης Τρόπος Εκπαίδευσης xi

12 ΠΕΡΙΕΧΟΜΕΝΑ 3.5 Τεχνικές ΜΜ Δένδρα Απόφασης Νευρωνικά Δίκτυα Γενετικοί Αλγόριθμοι Μάθηση κατά Bayes Ενισχυτική Μάθηση Γενικά Δυναμική Παραγωγή Σεναρίων Άλλες σχετικές εργασίες Προοπτικές Γενικές Προοπτικές για τη Βιομηχανία Επιδράσεις στο Gameplay Άλλες Σχετικές Εφαρμογές Μελέτες Περίπτωσης Bla & White Creatures Galapagos: Mendel s Escape Mario Περιγραφή του πεδίου Τεχνικά στοιχεία της υλοποίησης Το παιχνίδι Ορισμός στο πλαίσιο της ΕΜ Υλοποίηση Πρακτόρων Απλός SARSA SARSA(λ) Πράκτορες επανάληψης εμπειρίας Εργαλεία Πειράματα Σχεδιασμός πειραματικής διαδικασίας Αποτελέσματα Transball Περιγραφή του πεδίου Στόχος του παιχνιδιού Βασικά Στοιχεία Γενικευμένη Δομή μιας Πίστας Διαδραστικές Οντότητες του Περιβάλλοντος xii

13 ΠΕΡΙΕΧΟΜΕΝΑ 5.2 Ορισμός βάσει του πλαισίου της ΕΜ Χώρος των Ενεργειών Χώρος των Καταστάσεων / Παρατηρήσεων Συνάρτηση Ανταμοιβής Υλοποίηση Συμπεράσματα και Μελλοντική Εργασία Συμπεράσματα Mario Transball Γενικά Μελλοντική Εργασία Mario Transball xiii

14

15 1 Εισαγωγή Στόχος της εργασίας αυτής είναι να αναδείξει την χρησιμότητα των ηλεκτρονικών παιχνιδιών ως πεδία έρευνας για την ενισχυτική μάθηση, αλλά και την τεχνητή νοημοσύνη γενικότερα. Η ικανότητα μάθησης αποτελεί βασικό χαρακτηριστικό οποιασδήποτε οντότητας θέλει να χαρακτηρίζεται ως ευφυής. Μέχρι στιγμής, οι περισσότεροι ερευνητές των διάφορων κλάδων της τεχνητής νοημοσύνης, παραδοσιακά χρησιμοποιούν τετριμμένα προβλήματα, προκειμένου να αναδείξουν τη χρησιμότητα των επιτευγμάτων τους. Κάτι τέτοιο μπορεί να είναι θεμιτό καθώς διευκολύνει συνήθως την ανάλυση και την εξαγωγή συμπερασμάτων, ωστόσο δεν αποτελεί αυτοσκοπό, καθώς ο απώτερος σκοπός του πεδίου οφείλει να είναι η δημιουργία τεχνητής νοημοσύνης εφάμιλλης με την ανθρώπινη. Η εργασία εστιάζει στην ερευνητική περιοχή της ενισχυτικής μάθησης κι εξετάζει την πιθανότητα εφαρμογής μεθόδων του πεδίου στους περίπλοκους κόσμους των ηλεκτρονικών παιχνιδιών. Η ενισχυτική μάθηση παρέχει εργαλεία για την αναπαράσταση κι επίλυση μαθησιακών προβλημάτων. Ακόμη, η νοοτροπία της σειριακής λήψης αποφάσεων που τη διέπει, θα μπορούσαμε να πούμε ότι ταιριάζει με την νοοτροπία που που διέπει την αλληλεπίδραση των περισσότερων ηλεκτρονικών παιχνιδιών με τους ανθρώπινους χρήστες τους. Ωστόσο, υπάρχουν ζητήματα και προκλήσεις που χρήζουν απάντησης. Παραδείγματος χάριν, η ενισχυτική μάθηση πλήττεται από την κατάρα της διαστασιμότητας, που με την σειρά της χαρακτηρίζει συνήθως την αναπαράσταση των κόσμων που περιλαμβάνουν τα περισσότερα ηλεκτρονικά παιχνίδια. Κατά συνέπεια, προκύπτει το ζήτημα της α- ναπαράστασης της γνώσης καθώς και της κατάλληλης επιλογής και βέλτιστης αξιοποίησης των χαρακτηριστικών που θα χρησιμοποιηθούν από τη διαδικασία μάθησης. Συνεπώς, θα μπορούσαμε να ορίσουμε σαν απώτερο στόχο της εργασίας αυτής, την ανίχνευση των πιθανών ζητημάτων που μπορούν να προκύψουν κατά την εφαρμογή μεθόδων ενισχυτικής μάθησης σε ηλεκτρονικά παιχνίδια. Αρχικά, παρουσιάζεται μια εκτενής επισκόπηση του πεδίου της ενισχυτικής μάθησης. Δόθηκε βαρύτητα στην ευρεία κάλυψη των τάσεων του πεδίου, ώστε να 1

16 ΚΕΦΑΛΑΙΟ 1. ΕΙΣΑΓΩΓΗ δωθεί το ερέθισμα στον αναγνώστη να αναρωτηθεί για την εφαρμοσιμότητα των ιδεών που πρεσβεύουν οι τάσεις αυτές, σε πεδία προβλημάτων που βασίζονται σε ηλεκτρονικά παιχνίδια. Ακολούθως, παρουσιάζεται έρευνα που αφορά μεθόδους μηχανικής μάθησης με πεδίο εφαρμογής τα ηλεκτρονικά παιχνίδια. Παρουσιάζεται το ιστορικό της ε- πιτυχημένης εφαρμογής της μηχανικής μάθησης στα αναλυτικά παιχνίδια. Στην συνέχεια παρουσιάζονται τα κίνητρα που οδηγούν στην εφαρμογή τεχνικών μηχανικής μάθησης σε ηλεκτρονικά παιχνίδια. Ακολούθως συζητείται η εφαρμοσιμότητα των διαφόρων τεχνικών μηχανικής μάθησης σε ηλεκτρονικά παιχνίδια, ενώ αποδίδεται έμφαση στην ενισχυτική μάθηση. Το κεφάλαιο κλείνει με συνοπτικές μελέτες περίπτωσης εφαρμογής της μηχανικής μάθησης σε εμπορικά ηλεκτρονικά παιχνίδια. Στο τέταρτο κεφάλαιο, παρουσιάζεται η υλοποίηση ευφυών πρακτόρων ενισχυτικής μάθησης για το δημοφιλές παιχνίδι δράσης / πλατφόρμας, Mariο. Το συγκεκριμένο πεδίο συμπερίληφθηκε στον 3ο Διαγωνισμό Ενισχυτικής Μάθησης (RL-Competition 2009). Αρχικά παρουσιάζονται πληροφορίες σχετικά με το παιχνίδι και το πως αυτό ορίζεται στο πλαίσιο της ενισχυτικής μάθησης. Έπειτα παρουσιάζονται τα χαρακτηριστικά των διάφορων πρακτόρων που αναπτύχθηκαν. Τέλος, παρουσιάζονται και ζητήματα που αφορούν τον σχεδιασμό της πειραματικής διαδικασίας και της υποστήριξής της με κατάλληλο βοηθητικό λογισμικό. Εν συνεχεία, στο πέμπτο κεφάλαιο, παρουσιάζεται μια πρώιμη προσπάθεια για την μετατροπή ενός πολύπλοκου ηλεκτρονικού παιχνιδιού, σε πεδίο έρευνας για την ενισχυτική μάθηση. Το εν λόγω παιχνίδι είναι ουσιαστικά ένας δισδιάστατος εξομοιωτής πτήσης, που δανείζεται στοιχεία από κλασικά παιχνίδια όπως το Space Invaders και το Lunar Lander. Το πρόβλημα της μάθησης του συγκεκριμένου παιχνιδιού μπορεί να παρέχει σοβαρές προκλήσεις προς την ερευνητική κοινότητα της ενισχυτικής μάθησης. Στην εργασία αυτήν, παρουσιάζεται το πρόβλημα που ορίζεται από το παιχνίδι, ο ορισμός του χώρου των ενεργειών, κάποιες ι- δέες για τον ορισμό και την υλοποίηση του χώρου των παρατηρήσεων και τέλος κάποια τεχνικά ζητήματα που αφορούν την υλοποίησή του. Τέλος, η εργασία ολοκληρώνεται με την συνοπτική επισκόπηση των συμπερασμάτων που προέκυψαν καθ όλη τη διάρκεια της εκπόνησής της, τις δυσκολίες που συναντήθηκαν καθώς και ιδέες για μελλοντικές επεκτάσεις επί αυτής. 2

17 2 Ενισχυτική Μάθηση Περιεχόμενα Κεφαλαίου 2.1 Βασικά Στοιχεία Το πρόβλημα της Ενισχυτικής Μάθησης Μέθοδοι Ενισχυτικής Μάθησης Γενίκευση - Προσέγγιση Συναρτήσεων Ιεραρχική Ενισχυτική Μάθηση Σχεσιακή Ενισχυτική Μάθηση Ποιότητα της Διαδικασίας Μάθησης Η ενισχυτική μάθηση (reinforcement learning) συγκαταλέγεται στις δημοφιλέστερες γνωστικές περιοχές της του ευρύτερου πεδίου της τεχνητής νοημοσύνης (artificial intelligence) και της μηχανικής μάθησης (ma ine learning) πιο συγκεκριμένα, καθώς τα τελευταία χρόνια συγκεντρώνει αυξανόμενο ενδιαφέρον της διεθνούς επιστημονικής κοινότητας. Στη διαμόρφωση του θεωρητικού υποβάθρου του πεδίου που αναπτύχθηκε κυρίως στην ερευνητική κοινότητα της τεχνητής νοημοσύνης κι ήταν σημαντικά επηρεασμένο από τις θεωρίες μάθησης των ζώων, συνέβαλλαν ιδέες από διάφορους επιστημονικούς χώρους, όπως πρώιμες εργασίες στην κυβερνητική (cybernetics), την στατιστική, την ψυχολογία, τη νευροβιολογία και την επιστήμη των υπολογιστών. Εξ αιτίας αυτού, το πεδίο σήμερα μπορεί να αποτελέσει μια κοινή γλώσσα επικοινωνίας, στην οποία βιολόγοι, μηχανικοί και κοινωνικοί επιστήμονες μπορούν να ανταλλάξουν τα προβλήματα και τα ευρήματα τους. Η ενισχυτική μάθηση (στο εξής ΕΜ) ουσιαστικά αποτελεί ένα υπολογιστικό πλαίσιο που μπορεί να χρησιμοποιηθεί από ευφυείς πράκτορες για την εκμάθηση συμπεριφορών, βάσει ενός κλιμακωτού σήματος ανταμοιβής. Η ανταμοιβή αυτή μπορεί να είναι φαγητό, νερό, χρήματα ή οποιοδήποτε άλλο μέτρο της επίδοσης του πράκτορα στην εκμάθηση των ζητούμενων συμπεριφορών. 3

18 ΚΕΦΑΛΑΙΟ 2. ΕΝΙΣΧΥΤΙΚΗ ΜΑΘΗΣΗ Η υπόσχεση-στόχος των επιστημόνων που προσεγγίζουν το πεδίο από την πλευρά της επιστήμης των υπολογιστών, είναι να αναζητήσουν τρόπους ώστε να προγραμματίζουν ευφυείς πράκτορες, παρέχοντας τους μόνον ανταμοιβές και τιμωρίες, χωρίς να είναι απαραίτητο να καθορίζουν επακριβώς το πώς θα επιτύχουν τις εργασίες που τους αναθέτουν. Παρ όλο που η επίτευξη ενός τόσο μεγαλεπίβολου στόχου είναι εύλογο να απαιτεί μεγάλη υπολογιστική πολυπλοκότητα, υπάρχουν επιτυχημένα παραδείγματα, όπως ο πράκτορας του Tesauro, που κατάφερε να ανταγωνιστεί επάξια παγκόσμιους πρωταθλητές στις πόρτες (τάβλι). Το πρόβλημα της ΕΜ μπορεί να περιγραφεί συνοπτικά ως το πρόβλημα της ε- κμάθησης μιας συμπεριφοράς μέσω δοκιμής κι αποτυχίας, από έναν ευφυή πράκτορα που αλληλεπιδρά με ένα δυναμικό περιβάλλον. Ένας τρόπος προσέγγισης του προβλήματος αυτού, είναι η αναζήτηση στο χώρο των πιθανών συμπεριφορών, ώστε να βρεθεί κάποια ενέργεια η οποία όταν εφαρμόζεται από τον πράκτορα, δίνει καλά αποτελέσματα στη συγκεκριμένη κατάσταση του περιβάλλοντος. Με αντίστοιχο τρόπο προσεγγίζεται το πρόβλημα στο γενετικό προγραμματισμό και τους γενετικούς αλγόριθμους. Ωστόσο, η προσέγγιση που ακολουθείται κατά κόρον στην ΕΜ, είναι η χρήση μεθόδων δυναμικού προγραμματισμού (dynamic programming) και στατιστικής, προκειμένου να εκτιμηθεί πόσο επωφελής είναι η επιλογή μιας συγκεκριμένης ενέργειας εκ μέρους του πράκτορα, ανά δεδομένη χρονική στιγμή. Στο κεφαλαίο αυτό παρουσιάζονται συνοπτικά τα βασικά στοιχεία που ορίζουν ένα πρόβλημα ΕΜ, βασικά ζητήματα που αφορούν την επίλυσή του, μερικές διαδεδομένες δημοφιλείς τεχνικές επίλυσης του, καθώς κι επεκτάσεις πάνω στο βασικό πλαίσιο της ΕΜ. Η παρουσίαση ακολουθεί ως επί το πλείστον το [Su on and Barto, 1998] και σε μικρότερο βαθμό το [Kaelbling et al., 1996], στα οποία και παραπέμπεται για περισσότερες λεπτομέρειες ο ενδιαφερόμενος αναγνώστης. Ε- πιπλέον, χρήσιμες παραπομπές αποτελούν τα [Bertsekas and Tsitsiklis, 1996] και [Bertsekas, 1995]. Ακόμη, για μια επισκόπηση της σχέσης της ενισχυτικής μάθησης με βιολογικά μοντέλα μάθησης ο αναγνώστης παραπέμπεται στο [Doya, 2007]. Συγκεκριμένα, γίνεται αναφορά στον ορισμό του πλαισίου της ΕΜ, στην σχέση της με τον δυναμικό προγραμματισμό καθώς και το δίλλημα μεταξύ εξερεύνησης κι εκμετάλλευσης. Ακολούθως, παρουσιάζονται οι βασικές οικογένειες αλγορίθμων χωρίς μοντέλο (model-free), με έμφαση στις μεθόδους μάθησης χρονικών διαφορών, όπου και γίνεται αναφορά στους ευρέως διαδεδομένους αλγορίθμους Q-Learning και SARSA καθώς και στην αρχιτεκτονική δράστη-κριτή. Εν συνεχεία, γίνεται συνοπτική αναφορά στους βασισμένους σε μοντέλο (model-based) αλγορίθμους. Κατόπιν, συζητείται η χρήση τεχνικών γενίκευσης (generelization) και προσέγγισης συναρτήσεων (function approximation) που επιτρέπουν την εφαρμογή τεχνικών ΕΜ σε προβλήματα με πολύ μεγάλο ή ακόμα και μη-περατό χώρο καταστάσεων ή (και) ενεργειών. Ακολούθως παρουσιάζονται κάποιες επεκτάσεις πάνω στο 4

19 2.1. ΒΑΣΙΚΑ ΣΤΟΙΧΕΙΑ βασικό πλαίσιο της ΕΜ, όπως η ιεραρχική ΕΜ (hierar ical reinforcement learning) και η σχεσιακή ΕΜ (relational reinforcement learning). Το κεφάλαιο κλείνει με μια σύντομη παρουσίαση κάποιων μετρικών που μπορούν να χρησιμοποιηθούν για την αξιολόγηση της ποιότητας της διαδικασίας μάθησης. 2.1 Βασικά Στοιχεία Όπως έχει ήδη αναφερθεί, στην ΕΜ έχουμε έναν πράκτορα που αλληλεπιδρά με κάποιο περιβάλλον. Ο πράκτορας επιλέγει ενέργειες που μπορούν να επιφέρουν αλλαγή στην κατάσταση του περιβάλλοντος και το περιβάλλον παρουσιάζει νέες καταστάσεις στον πράκτορα. Πέραν του πράκτορα και του περιβάλλοντος, βασικές έννοιες που αφορούν την ΕΜ είναι οι εξής: η πολιτική (policy) η συνάρτηση ανταμοιβής (reward function) η συνάρτηση αξίας (value function) και (προαιρετικά) το μοντέλο του περιβάλλοντος (environment model) Η πολιτική ορίζει τον τρόπο συμπεριφοράς του πράκτορα ανά δεδομένη χρονική στιγμή. Χονδρικά, η πολιτική είναι μια αντιστοίχιση των καταστάσεων (states) ή παρατηρήσεων (observations) που αντιλαμβάνεται ο πράκτορας, με τις ενέργειες (actions) που επιλέγει όταν βρίσκεται σε αυτές. Σε κάποιες περιπτώσεις, μια πολιτική μπορεί να υλοποιηθεί απλά ως ένας πίνακας αντιστοιχίσεων (lookup table), ενώ σε άλλες ο ορισμός της μπορεί να εμπλέκει εκτενείς υπολογιστικές διαδικασίες. Η πολιτική ουσιαστικά αποτελεί τον πυρήνα ενός πράκτορα ΕΜ, καθώς υπο μία έννοια, από μόνη της αρκεί για να καθορίσει την συμπεριφορά του. Στη γενική περίπτωση, οι πολιτικές είναι στοχαστικές, δηλαδή ορίζουν τις πιθανότητες με τις οποίες επιλέγονται οι ενέργειες από τον πράκτορα σε κάθε κατάσταση. Η συνάρτηση ανταμοιβής ορίζει τον στόχο σε ένα πρόβλημα ΕΜ. Η συνάρτηση ανταμοιβής, αντιστοιχίζει κάθε κατάσταση (ή και ζεύγος κατάστασης-ενέργειας) του περιβάλλοντος, σε έναν αριθμό, την ανταμοιβή (reward), που δηλώνει πόσο επιθυμητό είναι να βρισκόμαστε στην κατάσταση αυτή (ή να επιλέγουμε την συγκεκριμένη ενέργεια, βρισκόμενοι στην συγκεκριμένη κατάσταση, αντίστοιχα). Η μοναδική αποστολή ενός πράκτορα ΕΜ είναι η μεγιστοποίηση της συνολικής ανταμοιβής που λαμβάνει μακροπρόθεσμα. Ο πράκτορας μπορεί να βασιστεί στην συνάρτηση ανταμοιβής για να αλλάξει την πολιτική του. Για παράδειγμα, αν μια 5

20 ΚΕΦΑΛΑΙΟ 2. ΕΝΙΣΧΥΤΙΚΗ ΜΑΘΗΣΗ ενέργεια που επιλέγεται βάσει της τρέχουσας πολιτικής επιφέρει χαμηλή ανταμοιβή, τότε η πολιτική μπορεί να τροποποιηθεί ώστε να επιλέγει κάποια άλλη ενέργεια, όταν ο πράκτορας αντιμετωπίσει μελλοντικά την ίδια περίσταση / κατάσταση. Στη γενική περίπτωση, όπως και οι πολιτικές, οι συναρτήσεις ανταμοιβής είναι στοχαστικές. Σε αντίθεση με την συνάρτηση ανταμοιβής που καθορίζει τί είναι καλό άμεσα, μια συνάρτηση αξίας καθορίζει τί είναι καλό μακροπρόθεσμα. Η αξία μιας κατάστασης ορίζεται ως το συνολικό ποσό ανταμοιβής που μπορεί να συγκεντρώσει μελλοντικά ο πράκτορας, ξεκινώντας από αυτή την κατάσταση. Η αξία μιας κατάστασης καταδεικνύει πόσο επιθυμητή είναι μια κατάσταση μακροπρόθεσμα, λαμβάνοντας υπ όψιν τις καταστάσεις που θα ακολουθήσουν και τις διαθέσιμες ανταμοιβές που μπορούν να ληφθούν κατά τη μετάβαση, από και πρός αυτές. Για παράδειγμα, μπορεί μια κατάσταση να επιφέρει πάντα μικρή ανταμοιβή, ω- στόσο η αξία της μπορεί να είναι μεγάλη, επειδή συνήθως ακολουθείται από καταστάσεις που επιφέρουν μεγάλες ανταμοιβές (ή και το αντίστροφο). Οι ανταμοιβές είναι υπό μια έννοια πρωταρχικές, ενώ οι αξίες, ως προβλέψεις των ανταμοιβών, δευτερεύουσες. Χωρίς τις ανταμοιβές, δε θα μπορούσαν να υ- πάρξουν αξίες, ενώ ο μόνος σκοπός για τον οποίο γίνεται η εκτίμηση των αξιών, είναι η προσπάθεια για την συλλογή περισσότερης ανταμοιβής. Ωστόσο, είναι οι αξίες το σημείο όπου εστιάζεται η προσοχή μας, όταν παίρνουμε και αξιολογούμε αποφάσεις. Η επιλογή ενεργειών βασίζεται σε κρίσεις (εκτιμήσεις) που αφορούν τις αξίες. Σκοπός είναι η αναζήτηση ενεργειών που οδηγούν σε καταστάσεις με τη μεγαλύτερη δυνατή αξία, επειδή αυτές οι ενέργειες επιφέρουν το μεγαλύτερο ποσό ανταμοιβής σε μακροπρόθεσμη βάση. Δυστυχώς όμως, είναι πολύ πιο δύσκολο να εκτιμηθούν οι αξίες παρά οι ανταμοιβές (οι οποίες ουσιαστικά παρέχονται άμεσα από το περιβάλλον). Οι αξίες πρέπει να εκτιμηθούν και να επανεκτιμηθούν, από τις ακολουθίες των παρατηρήσεων που κάνει ένας πράκτορας με την πάροδο του χρόνου. Ουσιαστικά, το σημαντικότερο συστατικό και ζητούμενο, όλων σχεδόν των αλγορίθμων ΕΜ, είναι μια μέθοδος αποδοτικής εκτίμησης των αξιών. Τέλος, το μοντέλο του περιβάλλοντος, είναι μια τεχνητή (νοητή) οντότητα, που προσπαθεί να μιμηθεί την συμπεριφορά του περιβάλλοντος αυτού καθ αυτού. Για παράδειγμα, δεδομένων μιας κατάστασης και μιας ενέργειας, το μοντέλο θα μπορούσε να χρησιμοποιηθεί για την πρόβλεψη της επόμενης ανταμοιβής. Τα μοντέλα χρησιμοποιούνται για την επιλογή συγκεκριμένων τρόπων δράσης (σχεδιασμός ε- νεργειών planning), λαμβάνοντας υπ όψιν μελλοντικές καταστάσεις, πριν αυτές αντιμετωπιστούν από τον πράκτορα. Αν και αρχικά η ΕΜ θεωρούνταν το ακριβώς αντίθετο του σχεδιασμού ενεργειών, στην πορεία υπήρξε σύγκλιση των δύο πεδίων, καθώς έχουν προταθεί προσεγγίσεις που συνδυάζουν τη μάθηση μέσω δοκιμής κι αποτυχίας, τη μάθηση ενός μοντέλου για το περιβάλλον και τη χρήση 6

21 2.2. ΤΟ ΠΡΟΒΛΗΜΑ ΤΗΣ ΕΝΙΣΧΥΤΙΚΗΣ ΜΑΘΗΣΗΣ αυτού για σχεδιασμό ενεργειών. Η σύγκλιση αυτή οφείλεται κυρίως στην αποσαφήνιση της σχέσης της ΕΜ με το δυναμικό προγραμματισμό που χρησιμοποιεί μοντέλα, τα οποία με την σειρά τους σχετίζονται στενά με μεθόδους σχεδιασμού ενεργειών σε χώρους καταστάσεων. Οι σύγχρονες μέθοδοι ΕΜ καταλαμβάνουν όλο το εύρος, από την απλή μάθηση μέσω δοκιμής κι αποτυχίας (χωρίς τη χρήση μοντέλων model-free), μέχρι τον υψηλού επιπέδου εκούσιο (deliberative) σχεδιασμό ενεργειών. 2.2 Το πρόβλημα της Ενισχυτικής Μάθησης Στην ενότητα αυτή, περιγράφονται τα θεμελιώδη στοιχεία που αφορούν την ΕΜ. Αρχικά, παρουσιάζεται το πλαίσιο της ενισχυτικής μάθησης. Ακολούθως, γίνεται λόγος για το δίλημμα μεταξύ εξερεύνησης ή αξιοποίησης. Στην συνέχεια παρουσιάζονται η έννοια της ανταμοιβής και της επιστροφής. Τέλος παρουσιάζονται οι Μαρκοβιανές διαδικασίες απόφασης και η πρωταρχικής σημασίας συνάρτησεις αξίας Διεπαφή Πράκτορα-Περιβάλλοντος Ο ορισμός του προβλήματος της ΕΜ, γίνεται με τέτοιον τρόπο ώστε να μπορεί να αποτελέσει ένα άμεσο πλαίσιο, πάνω στο οποίο μπορεί να βασιστεί η μάθηση μέσω δοκιμής κι αποτυχίας για την επίτευξη ενός στόχου. Το υποκείμενο που μαθαίνει και λαμβάνει αποφάσεις καλείται πράκτορας. Το αντικείμενο με το οποίο αλληλεπιδρά, αποτελείται από όλες τις υπόλοιπες οντότητες εκτός του πράκτορα και καλείται περιβάλλον. Οι οντότητες αυτές, αλληλεπιδρούν αδιάλλειπτα, με τον πράκτορα να επιλέγει ενέργειες και το περιβάλλον να ανταποκρίνεται σε αυτές, παρουσιάζοντας νέες καταστάσεις στον πράκτορα. Ακόμη, το περιβάλλον παράγει τις ανταμοιβές, που είναι ειδικές αριθμητικές τιμές τις οποίες ο πράκτορας θέλει να μεγιστοποιήσει με την πάροδο του χρόνου. Μια πλήρης καταγραφή των στοιχείων του περιβάλλοντος, ορίζει μια διεργασία, που ουσιαστικά αποτελεί μια ενσάρκωση (instance) του προβλήματος της ΕΜ. Πιο συγκεκριμένα, ο πράκτορας και το περιβάλλον αλληλεπιδρούν σε κάθε βήμα μιας ακολουθία διακριτών βημάτων t = 0, 1, 2,.... Σε κάθε χρονικό βήμα t, ο πράκτορας λαμβάνει μια αναπαράστση της κατάστασης του περιβάλλοντος, s t S, όπου S είναι το σύνολο όλων των πιθανών καταστάσεων, και βάσει αυτής της αναπαράστασης επιλέγει μια ενέργεια a t A(s t ), όπου A(s t ) είναι το σύνολο των διαθέσιμων ενεργειών στην κατάσταση s t. Στο ακόλουθο χρονικό βήμα, εν μέρει σαν συνέπεια της ενέργειάς του, ο πράκτορας λαμβάνει μια αριθμητική ανταμοιβή 7

22 ΚΕΦΑΛΑΙΟ 2. ΕΝΙΣΧΥΤΙΚΗ ΜΑΘΗΣΗ r t+1 R και πλέον βρίσκεται σε μια νέα κατάσταση s t+1. Σε κάθε χρονικό βήμα, ο πράκτορας υλοποιεί μια αντιστοίχιση των καταστάσεων, προς τις πιθανότητες επιλογής των διαθέσιμων ενεργειών. Η αντιστοίχιση αυτή λέγεται πολιτική (policy) και συμβολίζεται με π t, όπου π t (s, a) είναι η πιθανότητα να ισχύει a t = a αν s t = s, δηλαδή η πιθανότητα επιλογής μιας ενέργειας a όταν το περιβάλλον βρίσκεται στην κατάσταση s, σε μια συγκεκριμένη χρονική στιγμή t. Οι μέθοδοι ΕΜ καθορίζουν τον τρόπο με τον οποίο οι πράκτορες τροποποιούν την πολιτική τους, ως αποτέλεσμα των εμπειριών που συσσωρεύουν. Χονδρικά, όπως προαναφέραμε ο στόχος του πράκτορα είναι η μεγιστοποίηση του συνολικού ποσού ανταμοιβής που λαμβάνει μακροπρόθεσμα. Το πλαίσιο αυτό είναι αφαιρετικό κι ευέλικτο, πράγμα που σημαίνει ότι μπορεί να χρησιμοποιηθεί σε πληθώρα διαφορετικών προβλημάτων και με πολλούς διαφορετικούς τρόπους. Για παράδειγμα, τα χρονικά βήματα δεν είναι απαραίτητο να αναφέρονται σε σταθερά διαστήματα-υποδιαιρέσεις (fixed intervals) του πραγματικού χρόνου, αλλά μπορούν να αναφέρονται σε αυθαίρετες διαδοχικές φάσεις της διαδικασίας λήψης των αποφάσεων και της δράσης του πράκτορα. Κατά παρόμοιο τρόπο, η μορφή των καταστάσεων μπορεί να ποικίλλει και να αποτελείται από πρωταρχικές πληροφορίες που λαμβάνονται μέσω των βασικών αισθητηρίων οργάνων του πράκτορα, μέχρι υψηλού επιπέδου αφαιρετικές πληροφορίες (π.χ. συνδυασμοί πρωταρχικών πληροφοριών, συμβολικές αναπαραστάσεις αντικειμένων κ.ά.). Η αντίληψη του πράκτορα για την κατάσταση του περιβάλλοντος μπορεί να μην είναι πλήρης, αλλά περιορισμένη, οπότε έχουμε μερική παρατηρησιμότητα (partial observability) του περιβάλλοντος. Όσον αφορά τις ενέργειες, η φύση τους μπορεί να κυμαίνεται από θεμελειώδεις ενέργειες χαμηλού επιπέδου, μακροενέργειες που αποτελούνται από ακολουθίες ενεργειών χαμηλού επιπέδου, μέχρι αποφάσεις υψηλού επιπέδου. Σε γενικές γραμμές, ως ενέργειες μπορούν να θεωρηθούν ως οποιεσδήποτε αποφάσεις μας ενδιαφέρει να μάθουμε πως να λαμβάνουμε, και ως καταστάσεις, οτιδήποτε μπορούμε να γνωρίζουμε και λειτουργεί βοηθητικά στη διαδικασία λήψης των αποφάσεων αυτών. Επιπλέον, το σύνορο μεταξύ του περιβάλλοντος και του πράκτορα, συνήθως δεν είναι το ίδιο με το φυσικό σύνορο του φυσικού σώματός τους (π.χ. αν είναι ζώο ή ρομπότ). Είναι συνήθης πρακτική, να θεωρείται ότι το σύνορο αυτό βρίσκεται πιο κοντά στον πράκτορα, απ ότι σε σχέση με τη νοοτροπία που διέπει την παραπάνω θεώρηση. Για παράδειγμα, οι κινητήρες, οι μηχανικοί σύνδεσμοι και το σύνολο των αισθητήριων μηχανισμών ενός ρομπότ, θεωρούνται συνήθως μέρος του περιβάλλοντος του πράκτορα, παρά συστατικά μέλη του. Ακόμη, οι ανταμοιβές υποτίθεται ότι υπολογίζονται εντός του φυσικού σώματος του πράκτορα, αλλά θεωρούνται εξωτερικές σε σχέση μ αυτόν. Ο γενικός κανόνας που α- κολουθείται, είναι ότι οτιδήποτε δεν μπορεί να επηρεαστεί / αλλαχθεί αυθαίρετα 8

23 2.2. ΤΟ ΠΡΟΒΛΗΜΑ ΤΗΣ ΕΝΙΣΧΥΤΙΚΗΣ ΜΑΘΗΣΗΣ Σχήμα 2.1: Το πλαίσιο της ενισχυτικής μάθησης. από τον πράκτορα, θεωρείται εξωτερικό ως προς αυτόν και κατά συνέπεια μέρος του περιβάλλοντος του. Το πλαίσιο της ΕΜ μπορεί να θεωρηθεί ως μια αξιοσημείωτη αφαιρετική αναπαράσταση του προβλήματος της προσανατολισμένης σε στόχους μάθησης, μέσω αλληλεπίδρασης. Σύμφωνα με αυτό, οποιεσδήποτε κι αν είναι οι λεπτομέρειες που αφορούν τις παραμέτρους της αίσθησης, της μνήμης και του ελέγχου (sensory, memory and control apparatus), και ποιοσδήποτε κι αν είναι ο αντικειμενικός στόχος που προσπαθεί κάποιος να επιτύχει, το συγκεκριμένο πρόβλημα μπορεί να αναχθεί σε τρία σήματα που διαπερνούν τον πράκτορα και το περιβάλλον του: ένα σήμα που αναπαριστά τις επιλογές που κάνει ο πράκτορας (ενέργειες) ένα σήμα που αναπαριστά τη βάση πάνω στην οποία γίνονται οι επιλογές αυτές (καταστάσεις) και ένα σήμα που καθορίζει τον στόχο του πράκτορα (ανταμοιβές) Αν κι αυτό το πλαίσιο μπορεί να μην είναι επαρκές για την αναπαράσταση όλων των προβλημάτων μάθησης αποφάσεων, στην πράξη έχει αποδειχθεί ευρέως χρήσιμο κι εφαρμόσιμο Το δίλημμα μεταξύ εξερεύνησης ή αξιοποίησης Μια από τις βασικότερες διαφορές της ΕΜ σε σχέση με την επιβλεπόμενη μάθηση, είναι ότι ο πράκτορας πρέπει να εξερευνήσει το περιβάλλον του. Εισάγεται 9

24 ΚΕΦΑΛΑΙΟ 2. ΕΝΙΣΧΥΤΙΚΗ ΜΑΘΗΣΗ αυτόματα, το δίλημμα μεταξύ εξερεύνησης ή αξιοποίησης (exploration vs exploitation trade-off). Ο πράκτορας μπορεί να πιστεύει ότι η επιλογή μιας ενέργειας θα ε- πιφέρει υψηλή ανταμοιβή, ωστόσο τίθεται το ερώτημα, αν θα πρέπει να την ε- πιλέγει σε κάθε αντίστοιχη συγκυρία, ή θα ήταν καλύτερο να επιλέξει κάποια άλλη, για την οποία διαθέτει λιγότερη πληροφορία, αλλά φαίνεται χειρότερη. Η απάντηση δίδεται ανάλογα με το χρόνο αλληλεπίδρασης του πράκτορα με το περιβάλλον. Όσο περισσότερο διαρκεί η αλληλεπίδραση, τόσο χειρότερες είναι οι συνέπειες της πρώιμης σύγκλισης σε κάποια μη-βέλτιστη συμπεριφορά, και κατά συνέπεια τόσο περισσότερο θα πρέπει να εξερευνούμε. Στην πράξη, για την επίλυση του διλήμματος, χρησιμοποιούνται κάποιοι πολύ απλοί ad-hoc αλγόριθμοι. Αν και σπάνια αποτελούν την καλύτερη επιλογή, είναι εύλογες και υπολογιστικά εφικτές ευριστικές μέθοδοι. Σε περίπτωση μόνιμης επιλογής της φαινομενικά βέλτιστης ενέργειας, θα υ- πήρχε σοβαρή πιθανότητα π.χ. σε περίπτωση ατυχούς δειγματοληψίας μια μη βέλτιστη ενέργεια να υποσκελίσει την πραγματικά βέλτιστη. Αυτό με τη σειρά του να οδηγήσει σε συνεχόμενη επιλογή της μή-βέλτιστης, πράγμα που σημαίνει ότι τα δεδομένα για την πραγματικά βέλτιστη θα είναι ανεπαρκή κι όχι πρόσφατα ενημερωμένα. Ένα χρήσιμο σχετικό ευριστικό που μπορούμε να χρησιμοποίησουμε για να αντιμετωπίσουμε το παραπάνω φαινόμενο, είναι η αισιοδοξία σε περίπτωση αβεβαιότητας (optimism in the face of uncertainty). Σύμφωνα με αυτήν, και πάλι έχουμε άπληστη επιλογή ενεργειών, όμως οι ισχυρά αισιόδοξες προηγούμενες πεποιθήσεις που αφορούν τις ανταμοιβές που επιφέρουν, απαιτούν την ύπαρξη ισχυρών αρνητικών στοιχείων προκειμένου να αντιστραφούν. Μια από τις ευρύτερα χρησιμοποιούμενες και απλές μεθόδους, είναι η ε greedy, που αποτελεί παραλλαγή της άπληστης επιλογής ενεργειών που περιγράφηκε παραπάνω. Σύμφωνα με αυτήν, ο πράκτορας επιλέγει την ενέργεια που θεωρείται βέλτιστη βάσει της τρέχουσας πολιτικής με πιθανότητα 1 ε και μια οποιαδήποτε τυχαία ενέργεια με πιθανότητα ε. Μερικές φορές η υλοποίηση της τεχνικής αυτής γίνεται ορίζοντας αρκετά υψηλό ε που στην συνέχεια φθίνει με αργό ρυθμό, ώστε να ενθαρρυνθεί η εξερεύνηση κυρίως στα αρχικά στάδια της διαδικασίας μάθησης. Σημαντικό μειονέκτημα της μεθόδου αυτής είναι ότι όταν επιλέγει κάποια μή-βέλτιστη ενέργεια, το κάνει εντελώς τυχαία, μην μπορώντας να διακρίνει μια υποσχόμενη εναλλακτική από μια που έχει αποδειχτεί ότι προφανώς δεν μπορεί να είναι βέλτιστη. Τέλος, μια ακόμη δημοφιλής τεχνική αντιμετώπισης του διλήμματος μεταξύ εξερεύνησης κι αξιοποίησης είναι η εξερεύνηση So max. Η τεχνική αυτή σκοπεύει να επιλύσει το παραπάνω πρόβλημα της ε greedy, ορίζοντας τις πιθανότητες επιλογής κάθε ενέργειας, βάσει μιας κλιμακωτής συνάρτησης της αναμενόμενης αξίας. Κι εδώ, η εκτιμώμενη ως τρέχουσα άπληστη ενέργεια έχει τη μεγαλύτερη 10

25 2.2. ΤΟ ΠΡΟΒΛΗΜΑ ΤΗΣ ΕΝΙΣΧΥΤΙΚΗΣ ΜΑΘΗΣΗΣ πιθανότητα επιλογής από όλες, ωστόσο όλες οι υπόλοιπες κατατάσσονται και τους αποδίδονται βάρη ανάλογα με τις εκτιμήσεις αξίας που τις αφορούν. Συνήθως χρησιμοποιούνται κατανομές Gibbs ή Boltzmann, ενώ μια ενέργεια a επιλέγεται με πιθανότητα που ισούται με: e Qt(a)/Τ n b=1 eq t(b)/τ, 2.1 όπου Τ μια παράμετρος που καλείται θερμοκρασία (temperature). Υψηλές θερμοκρασίες καθορίζουν τάση για ισοπίθανη επιλογή ενεργειών, ενώ χαμηλές καθορίζουν τάση για μεγαλύτερη διαφορά στην πιθανότητα επιλογής, μεταξύ ενεργειών που διαφέρουν στις εκτιμήσεις αξίας τους. Αντίστοιχα, στο όριο, όταν T 0, μέθοδος ανάγεται στην άπληστη επιλογή ενεργειών Στόχοι και Ανταμοιβές Όπως έχει προαναφερθεί, ο σκοπός του πράκτορα τυποποιείται κατά κάποιον τρόπο μέσω του σήματος ανταμοιβής, που περνάει από το περιβάλλον προς αυτόν. Σε κάθε χρονικό βήμα t, η ανταμοιβή είναι ένας απλός αριθμός r t R. Α- νεπίσημα, ο στόχος του πράκτορα είναι η μεγιστοποίηση του συνολικού ποσού ανταμοιβής που λαμβάνει, όχι δηλαδή της άμεσης αλλά του αθροίσματος των επί μέρους ανταμοιβών μακροπρόθεσμα. Η χρήση του σήματος ανταμοιβής για την τυποποίηση της ιδέας του στόχου είναι ένα από τα πιο χαρακτηριστικά γνωρίσματα της ΕΜ. Παρ όλο που αυτός ο τρόπος τυποποίησης των στόχων μπορεί να μοιάζει περιοριστικός, στην πράξη έχει αποδειχτεί ευέλικτος και ευρέως εφαρμόσιμος. Ακολουθούν παραδείγματα, που σκοπό έχουν να καταδείξουν την ισχύ του συμπεράσματος αυτού: Αν κάποιος θέλει να ωθήσει ένα ρομπότ, να μάθει να περπατά, σε κάθε χρονικό βήμα ορίζουμε μια ανταμοιβή π.χ. ανάλογη της πρόσθιας κίνησης του. Αν θέλει να το ωθήσει, να μάθει να δραπετεύει από έναν λαβύρινθο, ορίζουμε συνήθως ανταμοιβή ίση με μηδέν μέχρι το ρομπότ να δραπετεύσει, οπότε και η ανταμοιβή γίνεται ίση με +1. Εναλλακτικά, στο παραπάνω σενάριο, ορίζοντας αρνητικές ανταμοιβές (π.χ. 1) για κάθε χρονικό βήμα που περνά και το ρομπότ παραμένει εγκλωβισμένο στο λαβύρινθο, μπορεί κάποιος να ενθαρρύνει το ρομπότ, να προσπαθήσει να δραπετεύσει το γρηγορότερο δυνατόν, προκειμένου να μεγιστοποιήσει την ανταμοιβή που θα λάβει συνολικά. 11

26 ΚΕΦΑΛΑΙΟ 2. ΕΝΙΣΧΥΤΙΚΗ ΜΑΘΗΣΗ Σε όλα τα παραπάνω παραδείγματα, ο πράκτορας πάντα μαθαίνει να μεγιστοποιεί την ανταμοιβή του. Για να οριστούν οι στόχοι για τον πράκτορα, πρέπει να καθοριστούν ανταμοιβές με τέτοιον τρόπο, ώστε η μεγιστοποιώντας τες ο πράκτορας, να επιτυγχάνει παράλληλα και τους στόχους αυτούς. Συνεπώς είναι κρίσιμο, οι ανταμοιβές που θα ορίζονται να καταδεικνύουν σαφώς τον επιθυμητό στόχο της εκπαίδευσης του πράκτορα. Καλό θα ήταν να τονιστεί ότι, οι ανταμοιβές δεν είναι το σημείο μέσω του οποίου θα ενσωματώνεται πρότερη γνώση στον πράκτορα, σχετικά με το πως αυτός θα επιτύχει τους στόχους του. Για παράδειγμα, σε ένα παιχνίδι σκάκι, ένας πράκτορας δε θα πρέπει να ανταμοίβεται για υποστόχους όπως το να κερδίσει αντίπαλα κομμάτια ή να ελέγξει το κέντρο της σκακιέρας. Μπορεί η επίτευξη των στόχων αυτών να αυξάνει τις πιθανότητες τελικής επικράτησης στην παρτίδα, ωστόσο αν επέφερε επιπλέον ανταμοιβή, τότε ο πράκτορας θα μπορούσε να αρκείται στο να προσπαθεί να επιτύχει τους στόχους αυτούς ώστε να μεγιστοποιήσει την ανταμοιβή του, αδιαφορώντας για τον κύριο στόχο του. Λόγου χάρη, θα μπορούσε να επικεντρωθεί στην προσπάθεια εξολόθρευσης αντίπαλων κομματιών, ακόμη κι αν στην επόμενη κίνηση ήταν πολύ πιθανό να χάσει την παρτίδα. Συνοψίζοντας, το σήμα της ανταμοιβής, στόχο έχει να καθορίσει στον πράκτορα, ποιός είναι στόχος του κι όχι τον τρόπο με τον οποίο θα τον επιτύχει Η έννοια της Επιστροφής Σε όσα έχουν αναφερθεί μέχρι στιγμής σχετικά με τον αντικειμενικό στόχο της μάθησης, έχει τονίστει ότι αυτός είναι η μεγιστοποίηση του ληφθέντος ποσού της ανταμοιβής σε μακροπρόθεσμη βάση. Σύμφωνα με την παραπάνω θεώρηση και συμβολίζοντας τις ανταμοιβές μετά από κάθε χρονική στιγμή t με r t+1, r t+2,..., τότε ο πράκτορας προσπαθεί να μεγιστοποιήσει την αναμενόμενη επιστροφή (expected return), που ορίζεται ως κάποια συνάρτηση της παραπάνω ακολουθίας ανταμοιβών. Στην απλούστερη των περιπτώσεων, αυτή μπορεί να οριστεί ως: R t = r t+1 + r t r T 2.2 όπου T είναι το τελικό (τερματικό) χρονικό βήμα. Η προσέγγιση αυτή ταιριάζει καλύτερα σε εφαρμογές όπου υπάρχει η έννοια του τερματικού χρονικού βήματος. Σ αυτές, η αλληλεπίδραση μεταξύ πράκτορα και περιβάλλοντος διαχωρίζεται με φυσικό τρόπο σε υποακολουθίες που καλούνται επεισόδια (episodes), όπως π.χ. παρτίδες ενός παιχνιδιού σκάκι, γύροι σε μια αγωνιστική πίστα ή οποιαδήποτε άλλη επαναλαμβανόμενη αλληλεπίδραση. Κάθε επεισόδιο τερματίζεται σε μια ειδική κατάσταση που καλείται τερματική (terminal state), ακολουθούμενη από 12

27 2.2. ΤΟ ΠΡΟΒΛΗΜΑ ΤΗΣ ΕΝΙΣΧΥΤΙΚΗΣ ΜΑΘΗΣΗΣ επαναφορά σε μια συγκεκριμένη αρχική κατάσταση, η οποία μπορεί π.χ. να επιλέγεται με στοχαστικό τρόπο από ένα σύνολο υποψήφιων αρχικών καταστάσεων. Τέτοιες διαδικασίες, καλούνται επεισοδικές (episodic). Στις επεισοδικές διαδικασίες, καμιά φορά είναι απαραίτητο να διακρίνουμε το σύνολο των μη-τερματικών καταστάσεων από το σύνολο των τερματικών, οπότε οι μεν πρώτες συμβολίζονται με S ενώ οι δεύτερες αντίστοιχα, με S +. Αντίθετα, σε πολλές περιπτώσεις, η αλληλεπίδραση πράκτορα-περιβάλλοντος δε διαχωρίζεται με φυσικό τρόπο σε διακριτά επεισόδια, αλλά συνεχίζει επ άπειρον. Αυτές οι διαδικασίες ονομάζονται συνεχιζόμενες (continuing). Στην περίπτωση αυτή, η τυποποίηση 2.2 είναι προβληματική, καθώς στο τερματικό βήμα ισχύει T = και η προς μεγιστοποίηση επιστροφή, θα μπορούσε και αυτή εύκολα να είναι άπειρη και άρα απροσδιόριστη. Για να αντιμετωπιστεί το πρόβλημα αυτό εισάγεται την έννοια της έκπτωσης (discounting). Σύμφωνα με αυτήν τη θεώρηση, ο πράκτορας προσπαθεί να επιλέγει ενέργειες τέτοιες ώστε το εκπτωθέν (discounted) άθροισμα των ανταμοιβών να μεγιστοποιείται μελλοντικά. Συγκεκριμένα, επιλέγει κάθε ενέργεια ώστε να μεγιστοποιείται η αναμενόμενη εκπτωθείσα επιστροφή: R t = r t+1 + γr t+2 + γ 2 r t = γ k r t+k+1 k=0 2.3 όπου γ είναι μια παράμετρος με 0 γ 1, που καλείται ρυθμός έκπτωσης (discount rate). Ουσιαστικά, ο ρυθμός έκπτωσης επηρεάζει την τρέχουσα αξία των μελλοντικών ανταμοιβών, καθώς σύμφωνα με την 2.3, μια ανταμοιβή που θα λάβουμε σε k βήματα στο μέλλον έχει αξία γ k 1 φορές μικρότερη απ ότι θα είχε αν λαμβανόταν άμεσα. Αν γ 1, τότε το άπειρο άθροισμα έχει περατή τιμή, εφόσον η ακολουθία {r k } είναι φραγμένη. Αν γ = 0 τότε ο πράκτορας είναι μυωπικός κι ενδιαφέρεται μόνο για τη μεγιστοποίηση των άμεσων ανταμοιβών, ενώ αν το γ πλησιάζει στο 1 τότε ο πράκτορας λαμβάνει υπ όψιν του πιο σοβαρά και τις μελλοντικές ανταμοιβές. Τέλος, μπορεί να χρησιμοποιηθεί ενιαία μαθηματική σημειολογία προκειμένου να αναπαραστήσουμε την έννοια της ανταμοιβής και για τις επεισοδικές και για τις συνεχιζόμενες διαδικασίες. Στην περίπτωση αυτήν, η ανταμοιβή ορίζεται ως: R t = T γ k r t+k+1 k=0 2.4 όπου μπορεί να ισχύει T = ή γ = 1, αλλά ποτέ και τα δύο μαζί. 13

28 ΚΕΦΑΛΑΙΟ 2. ΕΝΙΣΧΥΤΙΚΗ ΜΑΘΗΣΗ Διαδικασίες Markov Στο πλαίσιο της ΕΜ, ο πράκτορας λαμβάνει τις αποφάσεις του βάσει του σήματος κατάστασης που του παρέχεται από το περιβάλλον. Είναι εύλογο λοιπόν να υποθέσει κάποιος πως η φύση του σήματος αυτού, διαδραματίζει πρωταρχικής σημασίας ρόλο στη μαθησιακή διαδικασία. Θα θεωρούσαμε ένα σήμα κατάστασης ιδανικό, αν σε κάθε χρονική στιγμή μπορεί να μας παρέχει μια σύνοψη όλων των σχετικών πληροφοριών που αφορούν τα αισθητήρια σήματα, για όλες τις προηγούμενες χρονικές στιγμές. Για να επιτευχθεί αυτό, συνήθως απαιτούνται επιπλέον στοιχεία εκτός αυτών που παρέχονται από την άμεση αντίληψη της κατάστασης εκ μέρους του πράκτορα για κάποια χρονική στιγμή, σίγουρα όχι περισσότερα όμως από το πλήρες ιστορικών των παρελθόντων αισθητήριων σημάτων κατάστασης. Ένα σήμα κατάστασης που μπορεί να διατηρεί όλες τις σχετικές πληροφορίες, έχει την ιδιότητα Markov (Markov Property) και ονομάζεται Markov. Παραδείγματος χάριν, οι θέσεις των κομματιών της σκακιέρας σε μια παρτίδα σκάκι, θα μπορούσαν να χρησιμοποιηθούν ως κατάσταση Markov, γιατί συνοψίζουν ότιδηποτε σημαντικό αφορά την ακολουθία κινήσεων των σκακιστών, που έφεραν την παρτίδα στην τρέχουσα κατάσταση. Στην συνέχεια, θα ορίσουμε τυπικά την ιδιότητα Markov για το πρόβλημα της ΕΜ, υποθέτοντας -για λόγους απλότητας- ότι το σύνολο των καταστάσεων και των τιμών των ανταμοιβών είναι πεπερασμένο. Στη γενική περίπτωση, ένα περιβάλλον, θα αποκριθεί στη χρονική στιγμή t + 1 στην ενέργεια που επέλεξε ο πράκτορας τη χρονική στιγμή t και η απόκριση αυτή θα εξαρτάται από την πλήρη ακολουθία των παρελθόντων συμβάντων. Στην περίπτωση αυτή, οι δυναμικές του περιβάλλοντος μπορούν να καθοριστούν μόνο με τον πλήρη καθορισμό της κατανομής πιθανοτητών, ως εξής: Pr = {s t+1 = s, r t+1 = r s t, a t, r t, s t+1, a t+1,..., r 1, s 0, a 0 } 2.5 για κάθε s, r και για όλες τις πιθανές τιμές των παρελθόντων γεγονότων, όπως περιγράφονται από την αλληλουχία s t, a t, r t,..., r 1, s 0, a 0. Αν το σήμα κατάστασης είναι Markov, τότε η απόκριση του περιβάλλοντος εξαρτάται μόνο από τις αναπαραστάσεις κατάστασης κι ενέργειας κατά τη χρονική στιγμή t, οπότε οι δυναμικές του περιβάλλοντος, καθορίζονται απλά ορίζοντας: Pr = {s t+1 = s, r t+1 = r s t, a t } 2.6 για κάθε s, r και όλες τις πιθανές τιμές των παρελθόντων γεγονότων: s, r, s t και a t. Συνεπώς, ένα σήμα κατάστασης είναι Markov, αν και μόνο αν, οι δύο παραπάνω εξισώσεις 2.5 και 2.6 ισχύουν για κάθε s, r και οποιοδήποτε ιστορικό s t, a t, r t,..., r 1, s 0, a 0. Στην περίπτωση αυτή, το περιβάλλον και η διαδικασία μάθησης είναι Markov. Για ένα περιβάλλον Markov, δοθέντων της τρέχουσας 14

29 2.2. ΤΟ ΠΡΟΒΛΗΜΑ ΤΗΣ ΕΝΙΣΧΥΤΙΚΗΣ ΜΑΘΗΣΗΣ κατάστασης κι ενέργειας του πράκτορα, λόγω των διαθέσιμων δυναμικών ενός βήματος (one-step dynamics), είναι δυνατή η πρόβλεψη της επόμενης κατάστασης και της επόμενης αναμενόμενης ανταμοιβής. Χρησιμοποιώντας επανελλειμένα την 2.6, μπορούν να προβλεφθούν όλες οι μελλοντικές καταστάσεις κι αναμενόμενες ανταμοιβές, σαν να ήταν διαθέσιμο ολόκληρο το ιστορικό ως την στιγμή εκείνη. Συνεπώς, οι καταστάσεις Markov παρέχουν το καλύτερο δυνατό υπόβαθρο για τη λήψη αποφάσεων. Επιπλέον, μια βέλτιστη πολιτική συναρτήσει καστάσεων Markov, είναι το ίδιο καλή με τη βέλτιστη πολιτική επιλογής ενεργειών βάσει πλήρους ιστορικού αλληλεπιδράσεων. Επιπλέον, ακόμα κι αν το σήμα κατάστασης σε μια διαδικασία ΕΜ, δεν είναι Markov τότε συνηθίζεται να θεωρείται σήμα κατάστασης Markov, κατά προσέγγιση. Στις περιπτώσεις αυτές, όσο περισσότερο προσεγγίζει το σήμα τις ικανότητες και ιδιότητες ενός σήματος Markov, τόσο μεγαλύτερες είναι οι πιθανότητες επιτυχούς εφαρμογής μεθόδων ΕΜ, στο πεδίο αυτό. Μια διαδικασία ΕΜ που ικανοποιεί την ιδιότητα Markov, λέγεται Μαρκοβιανή Διαδικασία Απόφασης ΜΔΑ (Μarkov Decision Process MDP). Αν οι χώροι κατάστασης κι ενέργειας είναι περατοί, τότε λέμε ότι έχουμε μια περατή ΜΔΑ. Μια συγκεκριμένη ΜΔΑ ορίζεται από τα σύνολα καταστάσεων κι ενεργειών καθώς και τις δυναμικές ενός βήματος του περιβάλλοντος. Μια ΜΔΑ αποτελείται από τα εξής στοιχεία: ένα σύνολο καταστάσεων S, ένα σύνολο ενεργειών A, μια συνάρτηση ανταμοιβής R : S A R και μια συνάρτηση μετάβασης καταστάσεων: P : S A π(s), όπου ένα μέλος του π(s) είναι μια κατανομή πιθανοτήτων πάνω στο σύνολο S που αντιστοιχίζει πιθανότητες σε καταστάσεις. Γράφοντας P a ss υποδηλώνεται η πιθανότητα μετάβασης από την κατάσταση s στην κατάσταση s, επιλέγοντας την ενέργεια a. H συνάρτηση μετάβασης κατάστασης καθορίζει με στοχαστικό τρόπο την επόμενη κατάσταση του περιβάλλοντος, συναρτήσει της τρέχουσας κατάστασης κι ε- νέργειας του πράκτορα. Αντίστοιχα, η συνάρτηση ανταμοιβής καθορίζει την αναμενόμενη άμεση ανταμοιβή συναρτήσει της τρέχουσας κατάστασης κι ενέργειας. Δοθέντων μιας κατάστασης s και μιας ενέργειας a, η πιθανότητα για κάθε διάδοχη κατάσταση δίνεται από την σχέση: Pss a = Pr{s t+1 = s s t = s, a t = a}

30 ΚΕΦΑΛΑΙΟ 2. ΕΝΙΣΧΥΤΙΚΗ ΜΑΘΗΣΗ Οι ποσότητες αυτές ονομάζονται πιθανότητες μετάβασης. Παρομοίως, δοθέντων της τρέχουσας κατάστασης s και της τρέχουσας ενέργειας a αλλά και της διάδοχης κατάστασης s, η αναμενόμενη τιμή για την επόμενη ανταμοιβή δίνεται από: R a ss = E{r t+1 s t = s, a t = a, s t+1 = s } 2.8 Οι ποσότητες αυτές Pss a και Ra ss, καθορίζουν τα πιο σημαντικά ζητήματα που αφορούν τις δυναμικές μιας περατής ΜΔΑ Συναρτήσεις Αξίας Η πλειοψηφία των αλγορίθμων ΕΜ βασίζονται στην εκτίμηση συναρτήσεων αξίας (value functions). Οι συναρτήσεις αυτές χρησιμοποιούνται για την εκτίμηση του πόσο καλό είναι να βρίσκεται ο πράκτορας σε μια δεδομένη κατάσταση ή πόσο καλό είναι να επιλέξει μια δεδομένη ενέργεια σε μια δεδομένη κατάσταση. Η έννοια <<πόσο καλό>> είναι κάτι που ορίζεται βάσει των μελλοντικών ανταμοιβών που μπορούν να αναμένονται, δηλαδή της αναμενόμενης επιστροφής, όπως αυτή ορίστηκε στην ενότητα Προφανώς καθώς οι ανταμοιβές που αναμένει να λάβει ένας πράκτορας, εξαρτώνται από τις ενέργειες που θα επιλέξει, οι συναρτήσεις αξίας ορίζονται με βάση συγκεκριμένες πολιτικές. Όπως έχει προαναφερθεί, μια πολιτική π ορίζεται ως μια αντιστοίχιση από κάθε κατάσταση, a A(s), προς την πιθανότητα π(s, a) επιλογής της ενέργειας a όταν ο πράκτορας βρίσκεται στην κατάσταση s. Η αξία μιας κατάστασης s συμβολίζεται με V π (s) και μπορεί να ιδωθεί ως η αναμενόμενη επιστροφή όταν ξεκινούμε από την s και ακολουθούμε την πολιτική π στο εξής. Σε συμφωνία με όσα αναφέρθηκαν στην ενότητα 2.2.5, η αξία μιας κατάστασης για ΜΔΑ συμβολίζεται με V π (s) και ορίζεται τυπικά ως: { } V π (s) = E π {R t s t = s} = E π γ k r t+k+1 s t = s, k=0 2.9 όπου η E π {} δηλώνει την αναμενόμενη αξία δοθέντος ότι ο πράκτορας ακολουθεί την πολιτική π και t είναι οποιαδήποτε χρονική στιγμή. Η αξία της τερματικής κατάστασης ορίζεται πάντα ως 0, όπως είναι εύλογο από τον τρόπο με τον ο- ποίο ορίστηκε ανεπίσημα την συνάρτηση αξίας. Η V π καλείται συνάρτηση αξίας κατάστασης για την πολιτική π (state-value function). Με παρόμοιο τρόπο ορίζεται και η αξία επιλογής μιας ενέργειας a σε μια κατάσταση s, που συμβολίζεται με Q π (s, a), ως η αναμενόμενη επιστροφή, εκκινώντας από την κατάσταση s, επιλέγοντας την ενέργεια a κι ακολουθώντας την πο- 16

31 2.2. ΤΟ ΠΡΟΒΛΗΜΑ ΤΗΣ ΕΝΙΣΧΥΤΙΚΗΣ ΜΑΘΗΣΗΣ λιτική π στην συνέχεια: { } Q π (s, a) = E π {R t s t = s, a t = a} = E π γ k r t+k+1 s t = s, a t = a, k= Αντίστοιχα, η Q π καλείται συνάρτηση αξίας ενέργειας για την πολιτική π (actionvalue function). Μια πρωταρχικής σημασίας ιδιότητα των συναρτήσεων αξίας, που εκμεταλλεύονται κατά κόρον οι τεχνικές ΕΜ και του δυναμικού προγραμματισμού είναι ότι ικανοποιούν συγκεκριμένες αναδρομικές σχέσεις. Για κάθε πολιτική π και κάθε κατάσταση s, ισχύει η συγκεκριμένη σχέση μεταξύ της αξίας της s και της αξίας των πιθανών διάδοχων καταστασεών της: V π (s) = π(s, a) Pss a [Ra ss + γv π (s )], 2.11 a s όπου θεωρείται ότι οι ενέργειες a επιλέγονται από το σύνολο A(s) και οι επόμενες καταστάσεις s από το S ή το S + στην περίπτωση των επεισοδικών προβλημάτων. Η εξίσωση 2.11 λέγεται εξίσωση Bellman κι εκφράζει την σχέση μεταξύ μιας κατάστασης και των καταστάσεων που την ακολουθούν. Η εξίσωση Bellman λαμβάνει υπ όψιν της όλες τις πιθανές εκβάσεις για την επόμενη κατάσταση, αναθέτοντας σε κάθε μια, βαρύτητα αντίστοιχη με την πιθανότητα που αυτή μπορεί να προκύψει. Ακόμη, δηλώνει ότι η αξία της αρχικής κατάστασης πρέπει να είναι ίση με την εκπτωθείσα αξία της αναμενόμενης επόμενης κατάστασης, αθροίζοντας σε αυτήν την αναμενόμενη στην πορεία ανταμοιβή. Η συνάρτηση αξίας V π είναι η μοναδική λύση στην έκφρασή της ως εξίσωση Bellman. Η εξίσωση Bellman αποτελεί τη βάση για μια πληθώρα μεθόδων υπολογισμού, προσέγγισης και μάθησης της V π. Η επίλυση ενός προβλήματος ΕΜ ανάγεται στην εύρεση μιας πολιτικής που παράγει μεγάλη ανταμοιβή μακροπρόθεσμα. Για περατές ΜΔΑ, η έννοια της βέλτιστης πολιτικής (optimal policy) μπορεί να οριστεί επακριβώς μέσω των συναρτήσεων αξίας. Μια πολιτική π ορίζεται ότι είναι καλύτερη ή ίση μιας πολιτικής π, εάν η αναμενόμενη επιστροφή της είναι μεγαλύτερη ή ίση με αυτή της π για όλες τις καταστάσεις. Με άλλα λόγια και σύμφωνα με όσα αναφέρθηκαν σε αυτήν την ενότητα, π π αν και μόνον αν ισχύει V π (s) V π (s) s S. Πάντα υπάρχει μια βέλτιστη πολιτική. Ακόμα κι αν υπάρχουν παραπάνω από μια βέλτιστες πολιτικές, τις συμβολίζουμε όλες με π και αυτές έχουν κοινή συνάρτηση αξίας-κατάστασης, που ονομάζεται βέλτιστη συνάρτηση αξίας-κατάστασης (optimal state-value function), συμβολίζεται με V (s) και ορίζεται ως: V (s) = maxv π (s) π s S

32 ΚΕΦΑΛΑΙΟ 2. ΕΝΙΣΧΥΤΙΚΗ ΜΑΘΗΣΗ Αντίστοιχα οι βέλτιστες πολιτικές έχουν επίσης κοινή βέλτιστη συνάρτηση αξίαςενέργειας (optimal action-value function) που συμβολίζεται με Q και ορίζεται παρομοίως ως: Q (s, a) = maxq π (s, a) s S, a A(S) π 2.13 Για το ζεύγος κατάστασης ενέργειας (s, a) η συνάρτηση αυτή υπολογίζει την α- ναμενόμενη ανταμοιβή, αν επιλεχθεί η ενέργεια a στην κατάσταση s και ακολουθηθεί η πολιτική π στην συνέχεια. Συνεπώς η Q μπορεί να γραφεί ως προς την V ως εξής: Q (s, a) = E{r t+1 + γv (s t+1 ) s t = s, a t = a} 2.14 Επιπλέον, η V μπορεί να γραφεί βάσει της εξίσωσης Bellman (2.11) με ειδική μορφή χωρίς να γίνεται αναφορά σε κάποια συγκεκριμένη πολιτική π. Η μορφή αυτή καλείται βέλτιστη συνάρτηση αξίας Bellman (Bellman optimality equation) κι εκφράζει το γεγονός ότι η αξία μιας κατάστασης υπό τη βέλτιστη πολιτική πρέπει να είναι ίση με την αναμενόμενη ανταμοιβή για την καλύτερη ενέργεια για την συγκεκριμένη κατάσταση: V = max Pss a a A(s) [Ra ss + γv (s )] s Αντίστοιχα η βέλτιστη συνάρτηση αξίας για το Q είναι: Q = ] Pss [R a a ss + γmax Q (s, a ) a s Η εξίσωση βέλτιστης αξίας Bellman V (2.15) ουσιαστικά είναι ένα σύστημα ε- ξισώσεων με τόσες εξισώσεις και αγνώστους, όσες οι καταστάσεις, ενώ έχει μία μοναδική λύση. Συνεπώς μπορεί επιλυθεί με οποιαδήποτε μέθοδο επίλυσης συστημάτων μη γραμμικών εξισώσεων. Παρόμοιως, και η Q μπορεί να εκφραστεί ως σύστημα μη γραμμικών εξισώσεων με παρόμοιες ιδιότητες. Εφόσον υπολογιστεί η V, είναι εύκολο να καθοριστεί μια βέλτιστη πολιτική. Για κάθε κατάσταση s θα υπάρχουν μια ή περισσότερες ενέργειες για τις οποίες η βέλτιστη συνάρτηση Bellman μεγιστοποιείται, και συνεπώς ως βέλτιστη πολιτική, μπορεί απλά να οριστεί μια πολιτική που αναθέτει μη μηδενικές πιθανότητες μόνο σε αυτές τις ε- νέργειες. Θέτοντας την παραπάνω τοποθέτηση με όρους επιστήμης υπολογιστών, οποιαδήποτε πολιτική είναι άπληστη ως προς την V, είναι βέλτιστη πολιτική. Η έννοια που έχει αποδοθεί στη λέξη «άπληστος» στην επιστήμη των υπολιγιστών, συνδέεται με τη μυωπική τάση για την επιλογή των άμεσα φαινομενικά βέλτιστων εναλλακτικών επιλογών σε κάποιο πρόβλημα. Ωστόσο, στην συγκεκριμένη 18

33 2.3. ΜΕΘΟΔΟΙ ΕΝΙΣΧΥΤΙΚΗΣ ΜΑΘΗΣΗΣ περίπτωση, όταν χρησιμοποιείται η V για να αξιολογηθούν οι άμεσες (μια χρονική στιγμή μπροστά) συνέπειες των ενεργειών μας, λόγω της φύσης της V, στην πράξη λαμβάνονται υπ όψιν και οι μελλοντικές συνέπειες που αφορούν τις ανταμοιβές. Συνεπώς, στην περίπτωση αυτήν, η άπληστη πολιτική είναι βέλτιστη και σε μακροπρόθεσμη βάση. Μέσω της V, η βέλτιστη αναμενόμενη μακροπρόθεσμη επιστροφή είναι τοπικά κι άμεσα διαθέσιμη σε κάθε κατάσταση και συνεπώς με αναζήτηση ενός βήματος προς τα εμπρός, γίνονται διαθέσιμες όλες οι μακροπρόθεσμα βέλτιστες ενέργειες. Τα πράγματα γίνονται ακόμα πιο εύκολα όταν είναι διαθέσιμη η Q, καθώς ούτε καν αυτή η πρόσθια αναζήτηση ενός βήματος είναι απαραίτητη, αφού για κάθε κατάσταση s αρκεί η εύρεση της ενέργειας a που μεγιστοποιεί την ποσότητα Q (s, a). Συνεπώς, με το επιπλέον κόστος που απαιτείται για την αναπαράσταση της συνάρτησης αξίας συναρτήσει ζευγών κατάστασης-ενέργειας, αποκτάται η δυνατότητα για βέλτιστη επιλογή ενεργειών, χωρίς να χρειαστεί να υπάρχει οποιαδήποτε γνώση για τις πιθανές διάδοχες καταστάσεις και τις αξίες τους, ουσιαστικά δηλαδή τις δυναμικές του περιβάλλοντος. 2.3 Μέθοδοι Ενισχυτικής Μάθησης Στην παρούσα ενότητα παρουσιάζονται οι βασικές οικογένεις μεθόδων επίλυσης του προβλήματος της ενισχυτικής μάθησης, ενώ τέλος δίδεται μια ενοποιημένη άποψη τους, με σκοπό να καταστούν σαφείς οι διαφορές και οι ομοιότητες που τις διέπουν Δυναμικός Προγραμματισμός Ο όρος δυναμικός προγραμματισμός (dynamic programming) αποδίδεται σε αλγορίθμους, που έχουν ως σκοπό τον υπολογισμό βέλτιστων πολιτικών σε μια ΜΔΑ, δεδομένου ενός πλήρους μοντέλου του περιβάλλοντος. Οι κλασσικοί αλγόριθμοι δυναμικού προγραμματισμού έχουν περιορισμένη πρακτική χρησιμότητα εξαιτίας της μεγάλης υπολογιστικής πολυπλοκότητάς τους και της υπόθεσης της ύπαρξης πλήρους μοντέλου του περιβάλλοντος. Ωστόσο, η σπουδαιότητά τους από θεωρητικής άποψης είναι μεγάλη καθώς παρέχουν το απαραίτητο υπόβαθρο για την κατανόηση της πλειονότητας των πρακτικά εφαρμόσιμων μεθόδων ΕΜ, οι οποίες στην ουσία μπορούν να ιδωθούν ως απόπειρες επίτευξης του ίδιου στόχου, με μικρότερη υπολογιστική πολυπλοκότητα και χωρίς να απαιτείται πλήρες μοντέλο του περιβάλλοντος. Στην ουσία, η κύρια ιδέα του δυναμικού προγραμματισμού (αλλά και της ΕΜ γενικότερα) είναι η χρήση των συναρτήσεων αξίας για την 19

34 ΚΕΦΑΛΑΙΟ 2. ΕΝΙΣΧΥΤΙΚΗ ΜΑΘΗΣΗ οργάνωση και δόμηση του χώρου των πολιτικών, με σκοπό την αποδοτική αναζήτηση των βέλτιστων εξ αυτών. Οι κλασικές μέθοδοι δυναμικού προγραμματισμού λειτουργούν σαρώνοντας εξαντλητικά το χώρο των καταστάσεων, επιτελώντας πλήρεις διαδικασίες οπίσθιας ενημέρωσης (full ba up operations) για κάθε κατάσταση. Κάθε διαδικασία ανάστροφης ενημέρωσης (ba up) ενημερώνει την αξία μιας κατάστασης, με βάση τις αξίες όλων των πιθανών διάδοχων καταστάσεων και των πιθανοτήτων αυτών να προκύψουν. Από το παραπάνω, είναι προφανές ότι η ιδέα των πλήρων οπίσθιων ενημερώσεων, σχετίζεται στενά με τις εξισώσεις Bellman (2.11). Όταν οι διαδικασίες οπίσθιας ενημέρωσης δεν αλλάζουν ούτε την συνάρητηση αξίας, ούτε την πολιτική, έχει επιτελεσθεί σύγκλιση σε τιμές που ορίζονται από την εκάστοτε συνάρητηση Bellman. Βασικοί όροι για το δυναμικό προγραμματισμό είναι η αξιολόγηση πολιτικής (policy evaluation) και η βελτίωση πολιτικής (policy improvement). Η αξιολόγηση πολιτικής αναφέρεται στον επαναληπτικό υπολογισμό των συναρτήσεων αξίας για μια δεδομένη πολιτική και μπορεί να συναντηθεί στη βιβλιογραφία και ως το πρόβλημα της πρόβλεψης (prediction problem). Χρησιμοποιώντας την εξίσωση Bellman (2.11) είναι δυνατόν να υπολογιστεί η συνάρτηση αξίας κατάστασης V π, υπό την τρέχουσα πολιτική π: V π (s) = π(s, a) Pss a [Ra ss + γv π (s )], 2.17 a s όπου Pss a είναι η πιθανότητα μετάβασης του πράκτορα στην κατάσταση s, ε- φόσον επιλέξει την ενέργεια a στην κατάσταση s και R a ss είναι η αντίστοιχη ανταμοιβή που θα λάβει κατά τη μετάβαση. Σύμφωνα με την 2.17, αν οι δυναμικές του περιβάλλοντος είναι πλήρως γνωστές, ορίζεται ένα σύστημα S γραμμικών εξισώσεων με S αγνώστους, του οποίου η λύση είναι απλή, ωστόσο για την εύρεσή της απαιτείται μεγάλο υπολογιστικό κόστος. Συνεπώς μπορεί να χρησιμοποιηθεί κάποια επαναληπτική μέθοδος, η οποία εκκινώντας από μια τυχαία αρχικοποίηση της συνάρτησης αξίας, έστω V 0, και χρησιμοποιώντας την παραπάνω εξίσωση για ενημέρωση της, κατά τις ενδιάμεσες φάσεις υπολογισμού της (V 1, V 2,...), μπορεί να υπoλογιστεί επαναληπτικά η V π. Αντίστοιχα, η βελτίωση πολιτικής αναφέρεται στον υπολογισμό μιας βελτιωμένης πολιτικής, δεδομένης της συνάρτησης αξίας για την πολιτική αυτήν. Για κάποια κατάσταση s αρκεί να εξακριβωθεί, αν είναι καλό να τροποποιήσουμε την τρέχουσα πολιτική ώστε να επιλέγει ντετερμινιστικά κάποια ενέργεια a π(s). Ένας τρόπος για να γίνει αυτό, είναι ο υπολογισμός της αξία επιλογής της a στην τρέχουσα κατάσταση και κατόπιν της εφαρμογής της τρέχουσας πολιτικής π. Συνεπώς, χρησιμοποιώντας την παρακάτω εξίσωση για τον υπολιγισμό της συ- 20

35 2.3. ΜΕΘΟΔΟΙ ΕΝΙΣΧΥΤΙΚΗΣ ΜΑΘΗΣΗΣ νάρτησης αξίας ενέργειας, Q: Q π (s, a) = s P a ss [Ra ss + γv π (s )] 2.18 αρκεί να διερευνηθεί εάν ισχύει Q π (s, a) V π (s). Εάν αυτό ισχύει πράγμα που σημαίνει ότι είναι καλύτερο να επιλεχθεί η a και να ακολουθηθεί η π έπειτα, από το να ακολουθείται η π συνέχεια τότε μπορεί να υποτεθεί ότι κάποιος θα ανέμενε ότι θα ήταν καλύτερο να επιλέγεται η α κάθε φορά που ο πράκτορας αντιμετωπίζει την s, κι ότι η καινούρια πολιτική θα ήταν σε γενικές γραμμές καλύτερη από την προηγούμενη. Αυτό ισχύει σε περίπτωση που συγκρίνονται δύο οποιεσδήποτε ντετερμινιστικές πολιτικές π και π, ως ειδική περίπτωση του λεγόμενου θεωρήματος βελτίωσης πολιτικής (policy improvement theorem). Θεώρημα 1 Για κάθε πιθανό ζεύγος, ντετερμινιστικών πολιτικών π και π, εάν ισχύει Q π (s, π (s)) V π (s), s S, τότε V π V π. Αυτό σημαίνει ότι η π είναι καλύτερη από την π και η εφαρμογή της επιφέρει μεγαλύτερη ή ίση συνολική ανταμοιβή από όλες τις καταστάσεις. Το συμπέρασμα αυτό μπορεί εύκολα να επεκταθεί στην περίπτωση των στοχαστικών πολιτικών, όπου σε περίπτωση που έχουμε δύο ή περισσότερες βέλτιστες ενέργειες για κάποια κατάσταση, τότε σε κάθε μια αποδίδεται ένα μέρισμα των πιθανοτήτων. Συνδυάζοντας την αξιολόγηση πολιτικής με τη βελτίωση πολιτικής, προκύπτουν οι δύο ευρύτερα διαδεδομένες μέθοδοι δυναμικού προγραμματισμού, η επανάληψη ως προς την πολιτική (policy iteration) και η επανάληψη ως προς την αξία (value iteration), οι οποίες είναι σε θέση να υπολογίζουν βέλτιστες συναρτήσεις αξίας και πολιτικές, για περατές ΜΔΑ για τις οποίες είναι γνωστό το πλήρες μοντέλο του περιβάλλοντος. Η επανάληψη ως προς την πολιτική, υλοποιείται με διαδοχικές εναλλαγές αξιολόγησης πολιτικής με βελτίωση πολιτικής, μέχρις ότου να επέλθει σύγκλιση. Σημαντικό μειονέκτημα του αλγορίθμου είναι ότι σε κάθε επανάληψη εκτελείται ένα βήμα αξιολόγησης πολιτικής, το οποίο συνεπάγεται μεγάλο υπολογιστικό κόστος. Ο αλγόριθμος της επανάληψης ως προς την αξία βελτιώνει την παραπάνω διαδικασία, προσεγγίζοντας επαναληπτικά τη βέλτιστη συνάρτηση V, σύμφωνα με τον παρακάτω τύπο: V k+1 = max a s P a ss [Ra ss + γv k(s )], όπου V k+1 είναι η εκτίμηση της συνάρτησης αξίας στο βήμα k + 1. Επιπλέον, γενικεύοντας τις παραπάνω ιδέες, μπορεί να οριστεί η γενικευμένη επανάληψη με βάση την πολιτική (generalized policy iteration), ως η αλληλεπίδραση 21

36 ΚΕΦΑΛΑΙΟ 2. ΕΝΙΣΧΥΤΙΚΗ ΜΑΘΗΣΗ Σχήμα 2.2: Γενικευμένη επανάληψη ως προς την πολιτική [Su on and Barto, 1998]. 2 διεργασιών που επενεργούν πάνω σε μια προσεγγιστική συνάρτηση αξίας και μια προσεγγιστική πολιτική. Η μια διεργασία (αξιολόγηση πολιτικής) θεωρεί την πολιτική σταθερή και πραγματοποιεί μια αξιολόγησή της κατά κάποιον τρόπο, αλλάζοντας την συνάρτηση αξίας, ώστε να προσεγγίζει περισσότερο την πραγματική συνάρτηση αξίας για την πολιτική αυτή. Η άλλη (βελτίωση πολιτικής), θεωρεί την συνάρτηση αξίας σταθερή και τροποποιεί την πολιτική με σκοπό να τη βελτιώσει, θεωρώντας ότι η συνάρτηση αξίας της είναι η τρέχουσα συνάρτηση αξίας. Παρόλο που η κάθε μία διεργασία πραγματοποιεί αλλαγές στο στοιχείο βάσει του οποίου παίρνει αποφάσεις η άλλη, ουσιαστικά συνεργάζονται προκειμένου να βρουν μια κοινή λύση: μια πολιτική και μια συνάρτηση αξίας που δεν τροποποιούνται από καμία από τις διεργασίες, πράγμα που σημαίνει ότι είναι βέλτιστες. Σε αρκετές περιπτώσεις και υπό συνθήκες, η γενικευμένη επανάληψη με βάση την πολιτική έχει αποδειχθεί ότι συγκλίνει στη βέλτιστη πολιτική. Μια ιδιότητα των μεθόδων δυναμικού προγραμματισμού που χρήζει αναφοράς είναι το γεγονός, ότι αυτές ενημερώνουν εκτιμήσεις για τις αξίες των καταστάσεων με βάση εκτιμήσεις για τις αξίες των διάδοχων καταστάσεων. Η ιδέα της ενημέρωσης εκτιμήσεων, βάσει άλλων εκτιμήσεων αναφέρεται στη διεθνή βιβλιογραφία με τον όρο bootstrapping. Αρκετές μέθοδοι ΕΜ, εφαρμόζουν bootstrapping παρ όλο που δεν απαιτούν πλήρες μοντέλο του περιβάλλοντος, όπως οι μέθοδοι μάθησης χρονικών διαφορών που θα συζητηθούν σε επόμενη ενότητα. 22

37 2.3. ΜΕΘΟΔΟΙ ΕΝΙΣΧΥΤΙΚΗΣ ΜΑΘΗΣΗΣ Monte Carlo Οι μέθοδοι Monte Carlo 1 αναφέρονται σε μια κατηγορία αλγορίθμων ΕΜ, που α- ποσκοπούν στη μάθηση συναρτήσεων αξίας και βέλτιστων πολιτικών, με χρήση εμπειρίας υπό τη μορφή δειγμάτων επεισοδίων (sample episodes). Σημεία-κλειδί των μεθόδων Μonte Carlo είναι η απλότητά τους και ο τρόπος με τον οποίον σχετίζονται με τις υπόλοιπες μεθόδους ΕΜ, από θεωρητικής σκοπιάς. Σε αντίθεση με το δυναμικό προγραμματισμό, οι εν λόγω μέθοδοι δεν απαιτούν πλήρη γνώση σχετικά με το περιβάλλον. Συγκεκριμένα, αν και το μοντέλο του περιβάλλοντος είναι απαραίτητο, απαιτείται από αυτό μόνο η δυνατότητα παραγωγής δειγμάτων μεταβάσεων, το μόνο που απαιτείται από τις μεθόδους Monte Carlo είναι ουσιαστικά δείγματα ακολουθιών καταστάσεων, ενεργειών και ανταμοιβών. Το χαρακτηριστικό αυτό αποβαίνει χρήσιμο σε πολλές περιπτώσεις, όπου είναι εύκολη η δειγματοληψία μεταβάσεων σύμφωνα με κάποια πιθανοτική κατανομή, ενώ δύσκολη ή ανέφικτη η κατασκευή ενός σαφώς ορισμένου μοντέλου των πιθανοτήτων για κάθε μετάβαση, αυτών όπως για παράδειγμα απαιτείται από τις μεθόδους δυναμικού προγραμματισμού. Τα δείγματα που χρησιμοποιούνται για τη μάθηση, λαμβάνονται είτε με απευθείας (on-line) είτε εξομοιωμένη αλληλεπίδραση με κάποιο περιβάλλον. Η δυνατότητα μάθησης μέσω απ ευθείας αλληλεπίδρασης με το περιβάλλον είναι πολύ σημαντική καθώς παρ όλο που δεν επιστρατεύεται πρότερη γνώση σχετική με αυτό, είναι εφικτή η μάθηση βέλτιστων συμπεριφορών. Εξ ίσου σημαντική είναι και η μάθηση μέσω εξομοιωμένης εμπειρίας ή δειγμάτων μοντέλων του περιβάλλοντος, ειδικά για τις μεθόδους βασισμένες σε μοντέλο που αποτελούν θέμα επόμενης ενότητας. Επιπλέον, η φύση των μεθόδων Monte Carlo καθιστά εύκολη και αποδοτική την εστίαση σε μικρά υποσύνολα του χώρου των καταστάσεων. Η χρησιμότητα της ιδιότητας αυτής έγκειται στη δυνατότητα που παρέχουν για εκτίμηση μιας συγκεκριμένης περιοχής του χώρου καταστάσεων με μεγαλύτερη ακρίβεια, χωρίς να είναι απαραίτητο να καταβάλλουμε το υπολογιστικό κόστος που απαιτείται για την εκτίμηση των υπολοίπων περιοχών με τον ίδιο βαθμό ακριβείας. Η επίλυση του προβλήματος ΕΜ από τις μεθόδους Monte Carlo, βασίζεται στον υπολογισμό των μέσων όρων των ληφθέντων δειγμάτων επιστροφών. Οι μέθοδοι Monte Carlo ορίζονται για επεισοδικές διεργασίες μάθησης, καθώς έτσι εξασφαλίζεται ότι είναι καλώς ορισμένη η έννοια της επιστροφής. Έτσι, εισάγεται η υπόθεση ότι οι αλληλεπιδράσεις με το περιβάλλον διακρίνονται σε επεισόδια και ότι τα επεισόδια τερματίζουν σε κάποια περατή χρονική στιγμή, ανεξάρτητα από το τι 1 Ο όρος Monte Carlo χρησιμοποιείται ευρύτερα για οποιαδήποτε εκτιμητική μέθοδο, είτε για τη λειτουργία της οποίας είναι σημαντικός ο τυχαίος πάραγοντας. 23

38 ΚΕΦΑΛΑΙΟ 2. ΕΝΙΣΧΥΤΙΚΗ ΜΑΘΗΣΗ ενέργειες έχουν επιλεχθεί. Οι εκτιμήσεις των αξιών και οι αλλαγές των πολιτικών λαμβάνουν χώρα κατά τη λήξη των επεισοδίων. Συνεπώς, μπορεί να θεωρηθεί ότι οι μέθοδοι Monte Carlo ενεργούν επαυξητικά επεισόδιο προς επεισόδιο, όχι όμως και βήμα προς βήμα. Ως συνέπεια αυτού, ένα ακόμη χαρακτηριστικό γνώρισμα των μεθόδων Monte Carlo είναι ότι επιδεικνύουν αντοχή σε παραβιάσεις της ι- διότητας Markov, καθώς για την ενημέρωση των αξιών που αποδίδονται σε κάθε κατάσταση, δεν χρησιμοποιούν τις εκτιμήσεις που αφορούν τις βήμα προς βήμα, διάδοχες καταστάσεις. Ένα σημαντικό ζήτημα για τις μεθόδους Monte Carlo είναι η διατήρηση του επιπέδου της εξερεύνησης σε επαρκή επίπεδα. Για παράδειγμα δεν αρκεί απλά να επιλέγονται οι τρέχουσες καλύτερες ενέργειες, καθώς έτσι δε θα ληφθούν ποτέ επιστροφές για άλλες ενέργειες και ποτέ δε θα γίνει γνωστό αν είναι πραγματικά καλύτερες. Μια απλή προσέγγιση είναι η εισαγωγή της υπόθεσης ότι κάθε επεισόδιο ξεκινά σε μια τυχαία κατάσταση και με τυχαία επιλογή ενέργειας εκ μέρους του πράκτορα, που προφανώς είναι έγκυρη κυρίως για εξομοιωμένα περιβάλλοντα, αλλά είναι αρκετά απίθανο να ισχύει για προβλήματα πραγματικού κόσμου. Παρ όλες τις διαφορές μεταξύ των μεθόδων δυναμικού προγραμματισμού και Monte Carlo, οι βασικές ιδέες ισχύουν και για τις δύο, καθώς κατ ουσίαν υπολογίζονται και χρησιμοποιούνται οι ίδιες συναρτήσεις αξίας, με τον ίδιο ουσιαστικά τρόπο και με σκοπό την επίτευξη του βέλτιστου αποτελέσματος. Συγκεκριμένα, περιγράφοντας με όρους δυναμικού προγραμματισμού τις μεθόδους Monte Carlo, μπορεί να θεωρηθεί ότι αποτελούν μια ενσάρκωση της ιδέας της γενικευμένης ε- πανάληψης ως προς την πολιτική, όπου τα βήματα αξιολόγησης πολιτικής και βελτίωσης πολιτικής, εκτελούνται μετά το πέρας του κάθε επεισοδίου Μάθηση Χρονικών Διαφορών Η μάθηση χρονικών διαφορών (temporal difference learning) είναι μια από τις πιο βασικές ιδέες και καινοτόμες ιδέες που έχει αναδείξει το επιστημονικό της ΕΜ. Οι μέθοδοι μάθησης χρονικών διαφορών (ΜΧΔ στο εξής), θα μπορούσαν να ιδωθούν ως συνδυασμός στοιχείων των μεθόδων δυναμικού προγραμματισμού και των μεθόδων Monte Carlo. Συγκεκριμένα, όπως και στο δυναμικό προγραμματισμό, έτσι και στις μεθόδους ΜΧΔ, η ενημέρωση των εκτιμήσεων για τις συναρτήσεις αξίας γίνεται εν μέρει βάσει των εκτιμήσεων που έχει ήδη μάθει ο πράκτορας, μέχρι τη χρονική στιγμή εκείνη, χωρίς να είναι απαραίτητο να έχει προκύψει κάποιο οριστικό αποτέλεσμα. Αντίστοιχα, όπως και στις μεθόδους Monte Carlo, δεν απαιτείται πλήρης γνώση για το μοντέλο του περιβάλλοντος στο οποίο δρα ο πράκτορας, παρά μόνον εμπειρία αλληλεπίδρασης του με αυτό. 24

39 2.3. ΜΕΘΟΔΟΙ ΕΝΙΣΧΥΤΙΚΗΣ ΜΑΘΗΣΗΣ Κεντρική ιδέα των μεθόδων ΜΧΔ είναι η δυνατότητα επανεκτίμησης των τρέχοντων εκτιμήσεων για τις συναρτήσεις αξίας χρονική στιγμή προς χρονική σιγμή της ΜΔΑ, βάσει της ανταμοιβής που παρέχεται στο πέρας της καθεμιάς. Το γεγονός αυτό επιτρέπει την εύκολη επαυξητική -ως προς τη χρονική στιγμή- υλοποίησή τους, με τις ενημερώσεις των εκτιμήσεων να λαμβάνουν χώρα μετά το τέλος κάθε χρονικής στιγμής. Η διαφορά της τρέχουσας εκτίμησης της συνάρτησης α- ξίας σε κάποια χρονική στιγμή t, με την εκτίμηση που υπολογίζεται από την κάθε μέθοδο ΜΧΔ, όταν η στιγμή αυτή έχει ολοκληρωθεί και συνεπώς είναι γνωστή η σχετική ανταμοιβή που επήλθε, ονομάζεται σφάλμα χρονικής διαφοράς (temporal difference error TD error). Το σφάλμα χρονικής διαφοράς αποτελεί τη βάση πάνω στην οποία οι μέθοδοι ΜΧΔ ενημερώνουν τις συναρτήσεις αξίας, προκειμένουν να υπολογίσουν τη βέλτιστη πολιτική. Οι μέθοδοι ΜΧΔ είναι πιθανώς οι ευρύτερα χρησιμοποιούμενοι αλγόριθμοι ΕΜ. Αυτό μπορεί να αποδωθεί στη μεγάλη τους απλότητα και σε χαρακτηριστικά όπως η δυνατότητα on-line εφαρμογής τους, καταβάλλοντας ελάχιστο υπολογιστικό κόστος, σε εμπειρία που παράγεται από την αλληλεπίδραση με κάποιο περιβάλλον. Επιπλέον, το γεγονός ότι πολλοί αλγόριθμοι, μπορούν να περιγραφούν σχεδόν αποκλειστικά από μία και μόνον εξισώση (όπως ο T D(0), η εξίσωση ενημέρωσης (2.19) του οποίου δίδεται παρακάτω), επιτρέπει την εύκολη υλοποίησή τους σε λογισμικό. Τέλος, το χαρακτηριστικό της ενημέρωσης των εκτιμήσεων (και κατά συνέπεια της μάθησης) σε κάθε χρονικό βήμα της ΜΔΑ, τους παρέχει συγκριτικό πλεονέκτημα σε διαδικασίες με επεισόδια μεγάλης διάρκειας, σε σχέση π.χ. με τις μεθόδους Monte Carlo. Η πιο απλή προσέγγιση ΜΧΔ είναι η μέθοδος TD(0), της οποίας ο κανόνας ενημέρωσης είναι ο εξής: V (s t ) V (s t ) + α[r t+1 + γv (s t+1 ) V (s t )], } {{ } TD σφάλμα 2.19 όπου s t είναι η κατάσταση τη χρονική στιγμή t και 0 < α 1 είναι μια παράμετρος που ονομάζεται ρυθμός μάθησης (learning rate). Από την παραπάνω εξίσωση (2.19) φαίνεται ότι η μέθοδος T D(0) χρησιμοποιεί μια άλλη εκτίμηση (V (s t+1 )) για να ενημερώσει την τρέχουσα συνάρτηση αξίας. Συγκεκριμένα, η ποσότητα r t+1 + γv (s t+1 ), δίνει το σφάλμα χρονικής διαφοράς, και είναι η ποσότητα προς την οποία είναι επιθυμητό να μετατοπιστεί η νέα εκτίμηση για την αξία V (s t ). Δύο ευρύτατα χρησιμοποιούμενοι αλγόριθμοι ΜΧΔ είναι οι μέθοδοι SARSA και Q-Learning. Συγκεκριμένα, ο SARSA χρησιμοποιήθηκε για την υλοποίηση των πρακτόρων που περιγράφονται σε επόμενη ενότητα της εργασίας αυτής. Οι δύο αυτοί αλγόριθμοι περιγράφονται συνοπτικά στις ακόλουθες υποενότητες. 25

40 ΚΕΦΑΛΑΙΟ 2. ΕΝΙΣΧΥΤΙΚΗ ΜΑΘΗΣΗ Σχήμα 2.3: Σχηματική αναπαράσταση της γενικής ιδέας της ΜΧΔ. Αλγόριθμος SARSA Ο αλγόριθμος SARSA (State Action Reward State Action) [Rummery and Niranjan, 1994] είναι ένας αλγόριθμος εντός πολιτικής (on-policy) που σημαίνει ότι η πολιτική η οποία αξιολογείται είναι αυτή η οποία χρησιμοποιείται για την επιλογή των ενεργειών. Αντίθετα, στις μεθόδους εκτός πολιτικής (off-policy), η πολιτική η οποία χρησιμοποιείται για τη λήψη αποφάσεων, δεν είναι απαραίτητο να είναι ίδια με αυτήν που αξιολογείται και βελτιώνεται. Έστω ότι ο πράκτορας βρίσκεται στην κατάσταση s t τη χρονική στιγμή t, επιλέγει την ενέργεια a t και μεταβαίνει στην κατάσταση s t+1. Στην συνέχεια, λαμβάνει την ανταμοιβή r κι επιλέγει την επόμενη ενέργεια a t+1. Μετά από κάθε επιλογή ενέργειας, οι αξίες Q ενημερώνονται ως εξής: Q(s t, a t ) Q(s t, a t ) + α [r t+1 + γq(s t+1, a t+1 ) Q(s t, a t )], 2.20 όπου α είναι ο ρυθμός μάθησης. Η πλήρης διαδικασία περιγράφεται παρακάτω στον αλγόριθμο 1. Όπως προαναφέρθηκε, ο SARSA εκτιμά την αξία ενός ζεύγους κατάστασης ενέργειας, χρησιμοποιώντας εκτιμήσεις άλλων ζευγών. Συγκεκριμένα, η αξία ενός ζεύγους Q(s t, a t ) μπορεί να εκτιμηθεί ως το άθροισμα της άμεσης ανταμοιβής και της αξίας του επόμενου ζεύγους κατάστασης-ενέργειας, δηλαδή r+q(s t+1, a t+1 ). Ο κανόνας ενημέρωσης μετατοπίζει την παλιά τιμή προς τη νέα εκτίμηση, ενώ ο ρυθμός μάθησης α ελέγχει το μέγεθος της μετατόπισης αυτής. Με την πάροδο του χρόνου, οι εκτιμώμενες αξίες αυτές γίνονται ολοένα πιο ακριβείς, με αποτέλεσμα να βελτιώνεται η απόδοση του πράκτορα. Η λογική που διέπει τον κανόνα ενημέρωσης είναι ότι οι αξίες θα συγκλίνουν στις πραγματικές τους τιμές, μέσω πολλών μικρών ενημερώσεων. Στις επεισοδικές διεργασίες, η αξία Q της τερματικής κατάστασης-στόχου είναι ορισμένη εκ των προτέρων ως 0, ώστε να διασφαλίζεται ότι τελική εκτίμηση για την Q θα έχει τη σωστή τιμή, όταν ο πράκτορας φτάσει στην τερματική κατάσταση. Έτσι, 26

41 2.3. ΜΕΘΟΔΟΙ ΕΝΙΣΧΥΤΙΚΗΣ ΜΑΘΗΣΗΣ Αλγόριθμος 1 Sarsa 1: Initialize Q(s, a) 2: for ea episode do 3: Observe state s 4: Select action a evaluating Q 5: repeat 6: Take action a 7: Observe r, s 8: Select action a evaluating Q 9: Q(s, a) Q(s, a) + α [r + γq(s, a ) Q(s, a))] 10: s s, a a 11: until s is terminal 12: end for με την πάροδο του χρόνου οι σωστές τιμές θα διαδοθούν προς τις καταστάσεις που επισκέπτεται ο πράκτορας. Αλγόριθμος Q-Learning Ένας ακόμη ευρέως διαδεδομένος αλγόριθμος ΜΧΔ είναι ο Q-Learning [Watkins, 1989, Watkins and Dayan, 1992]. Ο Q-Learning είναι αλγόριθμος εκτός πολιτικής και χρησιμοποιεί τον παρακάτω κανόνα ενημέρωσης: [ Q(s t, a t ) Q(s t, a t ) + α r t+1 + γ max a ] Q(s t+1, a) Q(s t, a t ) Η μέθοδος επιχειρεί να προσεγγίσει απευθείας τη βέλτιστη συνάρτηση Q, ανεξάρτητα από την πολιτική που ακολουθείται από τον πράκτορα. Ακολουθεί (2) η παρουσίαση των βημάτων της μεθόδου, με τη μορφή ψευδοκώδικα. Μέθοδοι Δράστη-Κριτή Οι μέθοδοι δράστη-κριτή (actor critic methods) [Su on, 1984], είναι μέθοδοι ΜΧΔ, που χρησιμοποιούν μια ξεχωριστή δομή μνήμης για να αναπαραστήσουν την πολιτική, ανεξάρτητα από την συνάρτηση αξίας. Η δομή αυτή λέγεται δράστης (actor), επειδή χρησιμοποιείται για την επιλογή ενεργειών. Η εκτιμώμενη συνάρτηση α- ξίας λέγεται κριτής (critic) επειδή παρέχει κριτική για τις ενέργειες που επιλέγει ο δράστης. Συνεπώς, η μάθηση είναι πάντα εντός πολιτικής, καθώς ο κριτής οφείλει να μάθει τι πολιτική ακολουθεί ο δράστης και να την κριτικάρει. Η κριτική παίρνει ουσιαστικά τη μορφή του σφάλματος χρονικής διαφοράς. Το βαθμωτό αυτό 27

42 ΚΕΦΑΛΑΙΟ 2. ΕΝΙΣΧΥΤΙΚΗ ΜΑΘΗΣΗ Αλγόριθμος 2 Q-Learning 1: Initialize Q(s, a) 2: for ea episode do 3: Observe state s 4: repeat 5: Select action a evaluating Q 6: Take action a 7: Observe r, s 8: Q(s, a) Q(s, a) + α [r + γ max a Q(s, a ) Q(s, a))] 9: s s 10: until s is terminal 11: end for σήμα, είναι η μοναδική έξοδος που παράγει ο κριτής κι ουσιαστικά οδηγεί όλη τη διαδικασία μάθησης και στον δράστη και στον κριτικό, όπως φαίνεται στο παρακάτω σχήμα. Συνήθως, ο κριτής είναι η συνάρτηση αξίας κατάστασης. Μετά την επιλογή κάποιας ενέργειας, ο κριτής αξιολογεί τη νέα κατάσταση, προκειμένου να καθορίσει εάν τα πράγματα πήγαν καλύτερα ή όχι από το αναμενόμενο. Η αξιολόγηση αυτή εκφράζεται ουσιαστικά από το σφάλμα χρονικής διαφοράς (2.22) και μπορεί να χρησιμοποιηθεί για την αξιολόγηση της ενέργειας που μόλις επιλέχθηκε: δ t = r t+1 + γv (s t+1 ) V (s t ) 2.22 Αν το σφάλμα είναι θετικό τότε υποννοεί ότι η τάση για την επιλογή της ενέργειας αυτής θα πρέπει να ισχυροποιηθεί στο μέλλον, ενώ αν είναι αρνητική, το αντίθετο. Οι μεθόδοι δράστη-κριτή παρουσιάζουν κάποια αξιοσημείωτα πλεονεκτήματα. Κατ αρχάς απαιτούν ελάχιστο υπολογιστικό κόστος για την επιλογή των ε- νεργειών. Ο σαφής ορισμός της πολιτικής οδηγεί στην αποφυγή του τεράστιου υ- πολογιστικού κόστους αναζήτησης της βέλτιστης ενέργειας, όταν το πλήθος των ενεργειών είναι άπειρο ή πολύ μεγάλο. Επιπλέον, λόγω της φύσης τους, μπορούν να μάθουν απ ευθείας στοχαστικές πολιτικές, δηλαδή τις βέλτιστες πιθανότητες επιλογής κάθε ενέργειας. Ακόμη, ο διαχωρισμός κριτή και δράστη τις κάνει πιο ελκυστικές σε περιπτώσεις που χρησιμοποιούνται ως βάση για ψυχολογικά και βιολογικά μοντέλα. Τέλος, σε μερικές περιπτώσεις, είναι ευκολότερο να εισαχθούν περιορισμοί στις επιτρεπόμενες πολιτικές που αφορούν το εκάστοτε συγκεκριμένο πεδίο εφαρμογής. 28

43 2.3. ΜΕΘΟΔΟΙ ΕΝΙΣΧΥΤΙΚΗΣ ΜΑΘΗΣΗΣ Σχήμα 2.4: Η αρχιτεκτονική δράστη-κριτή [Su on and Barto, 1998] Ίχνη Επιλεξιμότητας Τα ίχνη επιλεξιμότητας (eligibility traces) σε συνδυασμό με τα σφάλματα χρονικών διαφορών, παρέχουν έναν αποδοτικό κι επαυξητικό τρόπο μεταβολής των χαρακτηριστικών των μεθόδων ΕΜ, ώστε αυτά να μπορούν να κλιμακωθούν και να καλύπτουν ολόκληρο το εύρος της φιλοσοφίας για τη διενέργεια των ενημερώσεων των εκτιμήσεων των συναρτήσεων αξίας, από την ενημέρωση επεισόδιο προς επεισόδιο, των μεθόδων Monte Carlo εώς τη βήμα προς βήμα ενημέρωση των μεθόδων ΜΧΔ. Αναδιατυπώνοντας συνοπτικά το παραπάνω, ενσωματώνοντας ί- χνη επιλεξιμότητας σε μεθόδους ΜΧΔ, τους αποδίδονται χαρακτηριστικά των μεθόδων Monte Carlo. Έτσι επιτυγχάνεται η διατήρηση των πλεονεκτημάτων τους, συνδυάζοντάς τα παράλληλα με την ανοχή που επιδεικνύουν οι μέθοδοι Μonte Carlo, σε περιπτώσεις όπου η διαδικασία προς μάθηση δεν είναι πλήρως Markov ή χαρακτηρίζεται από μακροπρόθεσμα καθυστερούμενες ανταμοιβές. Για την υλοποίηση των ιχνών επιλεξιμότητας, για κάθε κατάσταση ή ζεύγος κατάστασης-ενέργειας, χρησιμοποιούμε μία επιπρόσθετη μεταβλητή, το ίχνος ε- πιλεξιμότητας που συσχετίζεται με κάθε κατάσταση. Το ίχνος επιλεξιμότητας για την κατάσταση s, τη χρονική στιγμή t, συμβολίζεται με e t (s) R +. Σε κάθε χρονικό βήμα, όλα τα ίχνη επιλεξιμότητας για όλες τις καταστάσεις φθίνουν κατά παράγοντα γλ, εκτός του ίχνους για την κατάσταση που μόλις επισκέφθηκε ο 29

44 ΚΕΦΑΛΑΙΟ 2. ΕΝΙΣΧΥΤΙΚΗ ΜΑΘΗΣΗ πράκτορας, το οποίο αυξάνεται κατά 1: { γλet 1 (s) αν s s e t (s) = t γλe t 1 (s) + 1 αν s = s t για όλες τις καταστάσεις s S όπου λ [0, 1] είναι μια παράμετρος για τον καθορισμό του ίχνους επιλεξιμότητας. Ρυθμίζοντας την παράμετρο λ, μπορεί να καθοριστεί σε ποια περιοχή του φάσματος μεταξύ Monte Carlo και ΜΧΔ ενός βήματος, εμπίπτουν τα χαρακτηριστικά της μεθόδου μάθησης. Η συμπεριφορά να πλησιάζει προς τις μεθόδους Monte Carlo όσο το λ πλησιάζει το 1 και το αντίστροφο. Τα ίχνη επιλεξιμότητας καταγράφουν κάθε χρονική στιγμή, ποιες καταστάσεις έχει επισκεφθεί ο πράκτορας πρόσφατα (σε όρους γλ). Στις μεθόδους ΜΧΔ, τα ίχνη επιλογής χρησιμοποιούνται όταν γίνεται ανανέωση των αξιών της κατάστασης. Στην περίπτωση αυτή, σφάλμα χρονικών διαφορών υπολογίζεται ως: δ t = r t+1 + γv t (s t+1 ) V t (s t ) 2.23 Αντίστοιχα, η ενημέρωση της αξίας κατάστασης γίνεται σύμφωνα με τον παρακάτω τύπο: V t (s) = V t (s) + αδ t (s), s S 2.24 Κάθε στιγμή το τρέχον σφάλμα χρονικών διαφορών ανατίθεται σε κάθε προηγούμενη κατάσταση, ανάλογα με το μέγεθος του ίχνους επιλεξιμότητας της κατάστασης, κατά την στιγμή εκείνη. Οι ενημερώσεις αυτές μπορούν να γίνονται σε κάθε βήμα για τους on-line αλγορίθμους, ή στο τέλος του επεισοδίου για off-line αλγορίθμους. Όπως έχει προαναφερθεί, τα ίχνη επιλεξιμότητας μπορούν να συνδυαστούν με αλγορίθμους ΜΧΔ, ουτωσώστε να επιτευχθεί καλύτερη απόδοση στη διαδικασία μάθησης. Η έκδοση του αλγορίθμου SARSA με ίχνη επιλεξιμότητας ονομάζεται Sarsa(λ), με τον κανόνα ενημέρωσης 2.20, να τροποποιείται ως εξής: Q t+1 (s, a) = Q t (s, a) + αδ t e t (s, a), s, a 2.25 όπου και δ t = r t+1 + γq t (s t+1, a t+1 ) Q t (s t, a t ) { γλet 1 (s, a) + 1 αν s = s e t (s) = t και a = a t γλe t 1 (s, a) αλλιώς Παρακάτω, δίδεται ο αλγόριθμος σε μορφή ψευδοκώδικα: 30

45 2.3. ΜΕΘΟΔΟΙ ΕΝΙΣΧΥΤΙΚΗΣ ΜΑΘΗΣΗΣ Αλγόριθμος 3 Sarsa(λ) 1: Initialize Q(s, a) 2: for ea episode do 3: Observe state s 4: Select action a evaluating Q 5: repeat 6: Take action a 7: Observe r, s 8: Select action a evaluating Q 9: δ r + γq(s, a ) Q(s, a) 10: e(s, a) e(s, a) : for all s,a do 12: Q(s, a) Q(s, a) + αδe(s, a) 13: e(s, a) γλe(s, a) 14: end for 15: Q(s, a) Q(s, a) + α [r + γq(s, a ) Q(s, a))] 16: s s, a a 17: until s is terminal 18: end for Τέλος, αξίζει να σημειωθεί, ότι πολλές φορές χρησιμοποιείται μια παραλλαγή της παραπάνω υλοποίησης των ιχνών επιλεξιμότητας (που σημειωτέον, ονομάζονται συσσωρευώμενα - acccumulating traces). Στην παραλλαγμένη αυτή μορφή υλοποίησης οποία ονομάζονται ίχνη αντικατάστασης (replacing traces) [Singh and Su on, 1996], αυτά υπολογίζονται με τον εξής τρόπο: { 1 αν s = st και a = a e t (s) = t γλe t 1 (s, a) αλλιώς Από εργασίες που βασίζονται σε εμπειρικά στοιχεία, διαφαίνεται ότι σε διαδικασίες μάθησης με πολλά βήματα ανά επεισόδιο, ή όπου η διάρκεια της ημιζωής του ρυθμού έκπτωσης διαρκεί πολλά χρονικά βήματα, η χρήση ιχνών επιλεξιμότητας ενδείκνυται καθώς αποβαίνει ωφέλιμη για τη διαδικασία μάθησης. Από την άλλη πλευρά, αν τα ίχνη διαρκούν τόσο πολύ ώστε να τείνουν να συμπεριφέρονται παρά πολύ κοντά στον τρόπο συμπεριφοράς των μεθόδων Monte Carlo, τότε η αποδοτικότητα της μεθόδου φθίνει άμεσα. Συνεπώς μια ενδιάμεση μείξη των χαρακτηριστικών προβάλλει ως καλύτερη λύση. Οι μέθοδοι που χρησιμοποιούν ίχνη επιλεξιμότητας, απαιτούν μεγαλύτερο υ- πολογιστικό κόστος από τις μεθόδους ενός βήματος, ωστόσο προσφέρουν ταχύ- 31

46 ΚΕΦΑΛΑΙΟ 2. ΕΝΙΣΧΥΤΙΚΗ ΜΑΘΗΣΗ τερη εκπαίδευση, ειδικά όταν οι ανταμοιβές καθυστερούν να ληφθούν για πολλά βήματα. Συνεπώς, μια λογική χρήση των ιχνών επιλεξιμότητας θα μπορούσε να είναι όταν υπάρχουν λίγα δεδομένα εκπαίδευσης και δεν μπορούν να τεθούν σε επαναλαμβανόμενη επεξεργασία, όπως στις on-line εφαρμογές. Αντίθετα σε offline εφαρμογές, όπου η εμπειρία παράγεται με φθηνό τρόπο, η χρήση ιχνών επιλεξιμότητας δεν ενδείκνυται καθώς στόχος είναι η επεξεργασία όσο το δυνατόν μεγαλύτερου όγκου δεδομένων, πράγμα που εμποδίζεται από το αυξημένο υπολογιστικό κοστος που επιφέρει η χρήση τους Mέθοδοι βασισμένοι σε μοντέλο Μπορεί κανείς να δει υπό μια ενοποιημένη σκοπιά, τις μεθόδους που απαιτούν μοντέλα του περιβάλλοντος (δυναμικός προγραμματισμός, ευριστική αναζήτηση) και αυτές που δεν απαιτούν (Monte Carlo, μάθηση χρονικών διαφορών). Οι πρώτες μπορούν να θεωρηθούν ως μέθοδοι σχεδιασμού ενεργειών, ενώ οι δεύτερες ως μέθοδοι μάθησης. Άλλοι χαρακτηρισμοί που αφορούν την παραπάνω διάκριση, ονομάζουν τις πρώτες έμμεση ΕΜ (indirect RL) και τις δεύτερες, άμεση EM (direct RL). Η ομοιότητα μεταξύ του σχεδιασμού ενεργειών και της μάθησης με σκοπό την επίτευξη βέλτιστων συμπεριφορών είναι ίσως απρόσμενα μεγάλη. Και στις δύο περιπτώσεις επιτελείται εκτίμηση των ίδιων συναρτήσεων αξίας, με επαυξητική ενημέρωση των εκτιμήσεων, κατά τη διάρκεια μιας εκτενούς αλληλουχίας λειτουργιών οπίσθιας ενημέρωσης μικρής κλίμακας (small ba up operations). Όλες οι μέθοδοι βασίζονται στην πρόβλεψη των μελλοντικών γεγονότων, τον υπολογισμό αξιών μέσω οπίσθιων ενημερώσεων (ba ups) και τέλος τη χρήση τους, για την ενημέρωση της εκτιμώμενης κατά προσέγγιση συνάρτησης αξίας. Συνέπεια της ομοιότητας αυτής, είναι ότι οι διεργασίες μάθησης (άμεσης ΕΜ) και σχεδιασμού ενεργειών (έμμεσης ΕΜ), μπορούν να συνδυαστούν με φυσικό τρόπο, επιτρέποντας απλά και τις δύο να μπορούν να ενημερώνουν την ίδια ε- κτιμώμενη συνάρτηση αξίας. Με τον τρόπο αυτό, εκμεταλλευόμαστε την εμπειρία αλληλεπίδρασης με το περιβάλλον, με δύο διαφορετικούς τρόπους: 1. Μέσω της έμμεσης ΕΜ, γίνεται εκμάθηση και βελτίωση του μοντέλου του περιβάλλοντος. 2. Μέσω της άμεσης ΕΜ, επιτελείται άμεση βελτίωση των συναρτήσεων αξίας και της πολιτική. Επιπλέον, οποιαδήποτε μέθοδος μάθησης μπορεί ουσιαστικά να μετατραπεί σε μέθοδο σχεδιασμού ενεργειών, αν εφαρμοστεί σε εξομοιωμένη εμπειρία (παραγμένη από μοντέλο), αντί της πραγματικής, οπότε και το χάσμα κλείνει ακόμη 32

47 2.3. ΜΕΘΟΔΟΙ ΕΝΙΣΧΥΤΙΚΗΣ ΜΑΘΗΣΗΣ Σχήμα 2.5: Η ενοποίηση της μάθησης, του σχεδιασμού ενέργειών και της επιλογής ενεργειών [Su on and Barto, 1998]. περισσότερο, με τη μόνη διαφορά να εντοπίζεται στη φύση της πηγής της εμπειρίας. Το κέρδος που μπορεί να προκύψει από το συνδυασμό αυτό είναι ότι με την πληρέστερη εκμετάλλευση της εμπειρίας του πράκτορα, μπορούν να επιτευχθούν καλύτερα αποτελέσματα, με μικρότερο πλήθος αλληλεπιδράσεων. Ωστόσο, αν το μοντέλο που κατασκευάζεται δεν είναι καλής ποιότητας, η επίδραση της έμμεσης ΕΜ μπορεί να αποβεί αρνητική. Ο άμεσος τρόπος ενοποίησης των επαυξητικών μεθόδων σχεδιασμού ενεργειών με τη λήψη αποφάσεων και την εκμάθηση μοντέλων, απεικονίζεται στην εικόνα 2.5. Οι προαναφερθείσες διαδικασίες αλληλεπιδρούν κυκλικά και το προϊόν κάθε μιας οφείλει να βελτιώνεται από τις άλλες. Ο πιο φυσικός τρόπος λειτουργίας του παραπάνω σχήματος είναι να λαμβάνουν χώρα και οι τρεις παράλληλα και ασύγχρονα. Αν απαιτείται ο διαμοιρασμός κοινών υπολογιστικών πόρων, τότε η διαχείριση του καταμερισμού γίνεται σχεδόν αυθαίρετα και συνήθως με τέτοιον τρόπο, ώστε να είναι βολικός και αποδοτικός για την εκάστοτε διεργασία. Έχουν προταθεί διάφορες προσεγγίσεις για τον τρόπο υλοποίησης του σχήματος που περιγράφηκε παραπάνω. Μια διάσταση που χαρακτηρίζει τις μεθόδους αυτές είναι η κατανομή των διαδικασιών ενημέρωσης, δηλαδή του μέρους όπου εστιάζεται η αναζήτηση. Η μέθοδος της σάρωσης κατά προτεραιότητα (prioritized sweeping) [Moore and Atkeson, 1993] για παράδειγμα, εστιάζει στις καταστάσεις που προηγούνται αυτών των οποίων οι εκτιμήσεις αξίας τους, αλλάξαν πρόσφατα. Ακόμη, η χρήση ευριστικής αναζήτησης (heuristic sear ) όταν εφαρμόζεται στην ΕΜ, εστιάζει κυρίως στις διάδοχες καταστάσεις. Τέλος, η δειγματοληψία τροχιάς (trajectory sampling) αποτελεί ένα βολικό τρόπο εστίασης στην σύμφωνη με 33

48 ΚΕΦΑΛΑΙΟ 2. ΕΝΙΣΧΥΤΙΚΗ ΜΑΘΗΣΗ την πολιτική κατανομή (on-policy distribution). Όλες αυτές οι προσεγγίσεις έχουν ως στόχο την επιτάχυνση του σχεδιασμού ενεργειών. Μια ακόμη διάσταση χαρακτηρισμού των βασισμένων σε μοντέλο μεθόδων, είναι η έκταση της διαδικασίας ενημερώσης. Όσο μικρότερη είναι η έκταση, τόσο πιο επαυξητική διαδικασία γίνεται ο σχεδιασμός ενεργειών. Μια προσέγγιση που έχει βρεθεί να δουλεύει καλά σε προβλήματα μεγάλης έκτασης, είναι η χρήση δειγμάτων ενημερώσεων ενός βήματος. Τέλος ένα σχετικό ζήτημα είναι το βάθος των διαδικασιών ενημέρωσης, όπου για παράδειγμα μια σε βάθος διαδικασία ενημέρωσης, μπορεί να υλοποιηθεί ως αλληλουχίες ρηχών διαδικασιών ενημέρωσης Ενοποιημένη Άποψη των μεθόδων Όλοι οι αλγόριθμοι που έχουν περιγραφεί μέχρι στιγμής χαρακτηρίζονται από τρεις βασικές κοινές ιδέες: 1. Στόχος τους είναι η εκτίμηση συναρτήσεων αξίας. 2. Όλοι λειτουργούν ενημερώνοντας τιμές, βάσει πιθανών ή πραγματικών αλληλουχιών καταστάσεων-ενεργειών. 3. Όλοι ακολουθούν τη γενικευμένη επανάληψη ως προς την πολιτική, πράγμα που σημαίνει ότι διατηρούν μια συνάρτηση αξίας κατά προσέγγιση και μια πολιτική κατά προσέγγιση, τις οποίες συνεχώς προσπαθούν να βελτιώνουν, την μιαν ως προς την άλλην. Από την άλλη, προφανώς έχουν και χαρακτηριστικά στα οποία διαφέρουν και αυτά σχετίζονται κυρίως με τον τρόπο ενημέρωσης των εκτιμήσεων που χρησιμοποιούνται για τη βελτίωση των συναρτήσεων αξίας. Στο σχήμα 2.6, δίνεται μια οπτικοποιημένη αναπαράσταση των διαφορών αυτών. Στον κατακόρυφο άξονα απεικονίζεται η κλιμάκωση του τρόπου με τον οποίο γίνονται οι ενημερώσεις, από τις δειγματοληπτικές ενημερώσεις, εώς τις πλήρεις ενημερώσεις του δυναμικού προγραμματισμού. Στον οριζόντιο άξονα αντιστοιχίζεται το βάθος στο οποίο φτάνουν οι ενημερώσεις, δηλαδή στο βαθμό που ισχύει η ιδιότητα του bootstrapping. 2.4 Γενίκευση - Προσέγγιση Συναρτήσεων Τα συστήματα ΕΜ είναι καλό να έχουν δυνατότητες γενίκευσης (generalization), ειδικά σε περιπτώσεις που χρησιμοποιούνται για τη δημιουργία τεχνητής νοημοσύνης σε εφαρμογές μεγάλης κλίμακας. Για να επιτευχθεί αυτό, συνήθως χρησιμοποιούνται μέθοδοι επιβλεπόμενης μάθησης (supervised learning) για προσέγγιση 34

49 2.4. ΓΕΝΙΚΕΥΣΗ - ΠΡΟΣΕΓΓΙΣΗ ΣΥΝΑΡΤΗΣΕΩΝ Σχήμα 2.6: Ενοποιημένη επισκόπηση των μεθόδων ΕΜ [Su on and Barto, 1998]. συναρτήσεων (function approximation), θεωρώντας κάθε ανάστροφη ενημέρωση (ba up) για την συνάρτηση αξίας, ως παδάδειγμα εκπαίδευσης. Συγκεκριμένα, οι μέθοδοι βαθμωτής καθόδου κατά την κλίση (gradient descent) επιτρέπουν τη φυσική επέκταση με δυνατότητες προσέγγισης συναρτήσεων, των τεχνικών που συζητήθηκαν στις προηγούμενες ενότητες. Ειδικά για την περίπτωση των μεθόδων γραμμικής καθόδου κατά την κλίση (linear gradient descent), υπάρχει μεγάλο θεωρητικό ενδιαφέρον, ενώ αποδίδουν καλά και στην πράξη, εφόσον τροφοδοτούνται με τα κατάλληλα χαρακτηριστικά κατάστασης. Η επιλογή των κατάλληλων χαρακτηριστικών κατάστασης είναι κρίσιμης σημασίας και αποτελεί έναν σημαντικό τρόπο προσθήκης πρότερης γνώσης σε συστήματα ΕΜ Οι μέθοδοι γραμμικής καθόδου κατά την κλίση, περιλαμβάνουν μεταξύ άλλων τις συναρτήσεις ακτινικής βάσης (radial basis functions), την κωδικοποίηση πλακιδίων (tile coding) και την κωδικοποίηση Kanerva (Kanerva coding). Αρκετά διαδεδομένες είναι κι οι μέθοδοι ανάστροφης διάδοσης σφάλματος με χρήση νευρωνικών δικτύων, οι οποίες παρουσιάζουν πάρα πολύ καλές επιδόσεις σε συγκεκριμένες εφαρμογές όπως το TD-Gammon [Tesauro, 1995], ωστόσο παρουσιάζουν προβλήματα σε άλλα κλασικά πεδία δοκιμών όπως το αυτοκίνητο πλαγιάς (Mountain Car). Επιπλέον οι θεωρητικές εγγυήσεις που παρέχουν για σύγκλιση σε πολιτικές κοντά στην βέλτιστη, είναι πιο αδύναμες σε σχέση με αυτές 35

50 ΚΕΦΑΛΑΙΟ 2. ΕΝΙΣΧΥΤΙΚΗ ΜΑΘΗΣΗ των γραμμικών μεθόδων. Μάλιστα, παρουσιάζουν το φαινομένο να «ξεμαθαίνουν» πράγματα που έχουν ήδη μάθει (unlearning past experience). 2.5 Ιεραρχική Ενισχυτική Μάθηση Όπως συμβαίνει σε πληθώρα μεθόδων και αλγορίθμων τεχνητής νοημοσύνης (αλλά και γενικά της επιστήμης υπολογιστών), έτσι και η ΕΜ μαστίζεται από τη λεγόμενη κατάρα της διαστασιμότητας (curse of dimensionality), καθώς ο αριθμός των παραμέτρων προς μάθηση αυξάνει εκθετικά σε σχέση με το μέγεθος της συμπαγούς αναπαράστασης των καταστάσεων. Στην προσπάθεια να καταπολεμηθεί η συγκεκριμένη κατάσταση, οι προσπάθειες των ερευνητών στράφηκαν στην εύρεση μεθοδευμένων τρόπων εκμετάλλευσης της αφαιρετικότητας ως προς το χρόνο (temporal abstraction), όπου δεν είναι απαραίτητη η λήψη αποφάσεων σε κάθε χρονική στιγμή, αλλά επιτρέπεται η επίκληση της εκτέλεσεις εκτεταμένων χρονικά δραστηριοτήτων, που ακολουθούν τις δικές τους πολιτικές μέχρι να τερματιστούν. Έτσι οδηγούμαστε με φυσικό τρόπο σε ιεραρχικές αρχιτεκτονικές και αλγορίθμους μάθησης. Η χρήση διαφόρων τύπων αφαιρετικότητας οδήγησε τους ερευνητές στην ε- πιτυχή διαχείριση προβλημάτων όπως ο σχεδιασμός ενεργειών κι η επίλυση προβλημάτων μεγάλης κλίμακας. Η αφαιρετικότητα επιτρέπει σε ένα σύστημα να αγνοήσει λεπτομέρειες που είναι άσχετες με το προς επίλυση πρόβλημα. Μια α- πό τις πιο απλές μορφές αφαιρετικότητας είναι η χρήση μακροτελεστών (macrooperator) / μακροενεργειών (macro-actions) ή απλά macros, που ουσιαστικά είναι ακολουθίες τελεστών ή ενεργειών που μπορούν να κληθούν κατ όνομα, σαν να επρόκειτο για πρωταρχικούς τελεστές (primitive operators) ή ενέργειες. Κατά συνέπεια τα macros συνθέτουν τη βάση για τον ιεραρχικό καθορισμό αλληλουχιών ενεργειών ή τελεστών, καθώς επιτρέπεται να περιλαμβάνουν ακόμη και κλήση άλλων macros στον ορισμό τους. Παρομοίως, είναι οικεία η έννοια της υπορουτίνας (subroutine), όπου εκτός των πρωταρχικών εντολών επιτρέπεται η κλήση άλλων υπορουτινών. Η πλειοψηφία των εργασιών πάνω στην ιεραρχική ΕΜ α- κολουθεί περίπου την ίδια σημειολογία περιγραφής των ιεραρχιών, ως macros ή υπορουτίνες. Από την άποψη της θεωρίας αυτόματου ελέγχου, ένα macro είναι ουσιαστικά μια πολιτική ελέγχου ανοικτού βρόγχου (open-loop control policy) και ως τέτοια είναι ακατάλληλη για τον έλεγχο σε ένα στοχαστικό σύστημα. Οι ιεραρχικές προσεγγίσεις για την ΕΜ, γενικεύουν την ιδέα του macro για πολιτικές ελέγχου κλειστού βρόγχου (closed-loop policies), καθώς στην τυπική περίπτωση ορίζονται για κάποιο υποσύνολο του συνόλου καταστάσεων. Αυτές οι μερικές πολιτικές οφεί- 36

51 2.5. ΙΕΡΑΡΧΙΚΗ ΕΝΙΣΧΥΤΙΚΗ ΜΑΘΗΣΗ λουν να περιλαμβάνουν σαφώς καθορισμένες συνθήκες τερματισμού και στη βιβλιογραφία μπορούν να συναντηθούν ως χρονικά εκτεταμένες ενέργειες (temporally extended actions), επιλογές (options), δεξιότητες (skills), συμπεριφορές (behaviours), τρόποι (modes) ή δραστηριότητες (activities). Για μια εκτενέστερη παρουσίαση του πεδίου της ιεραρχικής ΕΜ, ο αναγνώστης παραπέμπεται στο [Barto and Mahadevan, 2003] Ημι-Μαρκοβιανές διαδικασίες απόφασης Στις ΜΔΑ, δεν παίζει ρόλο το ποσό χρόνου που παρεμβάλλεται μεταξύ δύο χρονικών βημάτων κατά τα οποία λαμβάνεται απόφαση, αλλά η έμφαση αποδίδεται στην σειριακή φύση της διαδικασίας απόφασης. Μια γενικευμένη εκδοχή των ΜΔΑ, είναι οι ημι-μαρκοβιανές διαδικασίες απόφασης - ΗΜΔΑ (semi-markov Decision Processes - SMDPs), όπου το ποσό χρόνου που παρεμβάλλεται μεταξύ μιας απόφασης και της επόμενης μπορεί να ορίζεται ως: Τυχαία μεταβλητή Ακέραια σταθερά Πραγματική σταθερά Στην περίπτωση όπου αυτό ορίζεται ως πραγματική σταθερά, οι ΗΜΔΑ μοντελοποιούν συστήματα διακριτών γεγονότων συνεχούς χρόνου (continuous-time discreteevent systems). Στην περίπτωση όπου ορίζεται ως ακέραια σταθερά, έχουμε τις λεγόμενες διακριτές ΗΜΔΑ (discrete MDPs), όπου οι αποφάσεις μπορούν να ληφθούν μόνο σε θετικά ακέραια πολλαπλάσια ενός ορισμένου βασικού χρονικού βήματος. Και στις δύο περιπτώσεις συνηθίζεται να θεωρούμε ότι το σύστημα παραμένει σε κάποια κατάσταση για κάποιον τυχαίο χρονικό διάστημα αναμονής, κατά τη λήξη του οποίου πραγματοποιείται μια ακαριαία μετάβαση προς την ε- πόμενη κατάσταση. Εξαιτίας της σχετικής απλότητας της, η τυποποίηση της διακριτής ΗΜΔΑ χρησιμοποιείται κατά κόρον από τις περισσότερες εργασίες πάνω στην ιεραρχική ΕΜ, ωστόσο για την επέκτασή της στην περίπτωση του συνεχούς χρόνου δεν υπάρχουν σοβαρά θεωρητικά εμπόδια. Η επέκταση των ΜΔΑ σε ΗΜΔΑ προσθέτει στο σύνολο των παραδεκτών ε- νεργειών A s, με s S, σύνολα δραστηριοτήτων το καθένα εκ των οποίων μπορεί επικαλείται άλλες δραστηριότητες, επιτρέποντας έτσι τον ιεραρχικό καθορισμό μιας καθολικής πολιτικής. Οι αρχικές ενέργειες ενός βήματος, καλούνται θεμελιώδεις (primitive) και μπορούν είτε να παραμείνουν επιλέξιμες ή όχι. Με τις ε- πεκτάσεις αυτές, οδηγούμαστε σε μοντελοποίηση της διαδικασίας απόφασης ως 37

52 ΚΕΦΑΛΑΙΟ 2. ΕΝΙΣΧΥΤΙΚΗ ΜΑΘΗΣΗ ΗΜΔΑ, όπου ο χρόνος αναμονής σε μια κατάσταση αντιστοιχεί στη χρονική διάρκεια της επιλεγμένης δραστηριότητας. Αν τ είναι ο χρόνος αναμονής στην κατάσταση s κατά την εκτέλεση της δραστηριότητας a, τότε η a διαρκεί τ βήματα για να ολοκληρωθεί όταν ξεκινά να εκτελείται στην s, όπου η κατανομή της τυχαίας μεταβλητής τ εξαρτάται από τις πολιτικές και τις συνθήκες τερματισμού όλων των δραστηριοτήτων κατώτερου επιπέδου, που συναποτελούν την a Προσεγγίσεις Επιλογές Μια προσέγγιση για την ιεραρχική ΕΜ, αποτελούν οι επιλογές (options) [Su on et al., 1999]. Οι επιλογές ορίζονται σαν πολιτικές κλειστού βρόγχου, για την επιλογής ενεργειών στα πλαίσια κάποιου χρονικού διαστήματος. Παράδειγμα επιλογών θα μπορούσε να θεωρηθούν δραστηριότητες όπως το ταξίδι προς κάποια μακρινή πόλη, το άνοιγμα μιας πόρτας ή το δέσιμο των κορδονιών ενός παπουτσιού, ή θεμελιώδεις ενέργειες όπως η συστολή κάποιου μυ ή το λύγισμα κάποιας άθρωσης. Η χρήση των επιλογών επιτρέπει την ένταξη χρονικά αφηρημένης γνώσης και πράξης, στο πλαίσιο της ΕΜ, με έναν απλό και γενικό τρόπο, και με τις ελάχιστες δυνατές αλλαγές στο καθιερωμένο κλασικό πλαίσιο της ΕΜ. Συγκεκριμένα, οι επιλογές μπορούν να χρησιμοποιηθούν εναλλασσόμενες με θεμελιώδεις ενέργειες σε μεθόδους σχεδιασμού ενεργειών, όπως ο δυναμικός προγραμματισμός και σε μεθόδους μάθησης, όπως ο Q-Learning. Το θεωρητικό υπόβαθρο για την προσέγγιση των επιλογών παρέχεται από τις ΗΜΔΑ, όπως έχει ήδη αναφερθεί. Ω- στόσο, κρίσιμο χαρακτηριστικό της προσέγγισης είναι η σχέση αλληλεπίδρασης μεταξύ της υποκείμενης ΜΔΑ και της ΗΜΔΑ αυτής καθ αυτής, καθώς: Τα αποτελέσματα του σχεδιασμού ενεργειών με επιλογές μπορούν να χρησιμοποιηθούν κατά την εκτέλεση για τη διακοπή της εκτέλεσης επιλογών και συνεπώς έχουμε καλύτερα αποτελέσματα από αυτά που σχεδιάζαμε. Έχουν προταθεί ενδοεπιλογικές (intra-option) μέθοδοι που μπορούν να μάθουν σχετικά με μια επιλογή, βάσει κατατμήσεων της ακολουθίας εκτέλεσής της. Μέσω του ορισμού υποστόχων είναι εφικτή η βελτίωση των επιλογών, αυτών καθ εαυτών. Τέλος, ένα ακόμη σημαντικό χαρακτηριστικό του πλαισίου των επιλογών είναι ότι όλα τα παραπάνω ισχύουν χωρίς να απαιτείται (ή να απαγορεύεται) η χρήση κάποιας συγκεκριμένης μεθοδολογίας αφαίρεσης των καταστασεων, ιεραρχίας ή συναρτήσεων προσέγγισης. 38

53 2.5. ΙΕΡΑΡΧΙΚΗ ΕΝΙΣΧΥΤΙΚΗ ΜΑΘΗΣΗ Ιεραρχίες αφηρημένων μηχανών Οι ιεραρχίες αφηρημένων μηχανών (hierar ies of abstract ma ines - HAM) [Parr and Russell, 1997] αποτελούν μια προσέγγιση ιεραρχικής δόμησης πολιτικών για ΜΔΑ. Όπως και στην προσέγγιση των επιλογών, το θεωρητικό υπόβαθρο παρέχεται από τις ΗΜΔΑ, ωστόσο στην συγκεκριμένη περίπτωση, η έμφαση αποδίδεται στην απλοποίηση περίπλοκων ΜΔΑ μέσω του περιορισμού των δυνατών πολιτικών, παρά της επέκτασης των διαθέσιμων εναλλακτικών ενεργειών. Η προσέγγιση προτείνει τον καθορισμό των πολιτικών ως ιεραρχίες στοχαστικών μηχανών πεπερασμένων καταστάσεων (sto astic finite state ma ines). Η βασική ιδέα πίσω από την προτεινόμενη προσέγγιση είναι ότι οι πολιτικές μιας κεντρικής ΜΔΑ, μπορούν να καθοριστούν ως προγράμματα που εκτελούνται βάσει δικών τους καταστάσεων, επιπλέον των τρέχοντων καταστάσεων της κεντρικής ΜΔΑ. Η προσέγγιση επιτρέπει τη χρήση πρότερης γνώσης για τη δραστική μείωση του χώρου των καταστάσεων, ενώ παρέχει ένα πλαίσιο μεταφοράς της γνώσης μεταξύ προβλημάτων, των οποίων οι συνιστώσες λύσεις μπορούν να ανασυνδυασθούν, προκειμένου να παραχθούν λύσεις για μεγαλύτερα και πολυπλοκότερα προβλήματα. Επιπλέον, έχει προταθεί η προσέγγιση των προγραμματιζόμενων HAM (programmable HAMs - PHAMs), που επεκτείνει τις δυνατότητες των HAM με σκοπό τη βελτίωση της εκφραστικότητας τους και μελλοντικά ίσως θα μπορούσαν να οδηγήσουν στην πρόταση μεθόδων με θεωρητικό υπόβαθρο τη θεωρία βέλτιστου ελέγχου και χρησιμοποιούν εκφραστικές γλώσσες προγραμματισμού, για να παρέχουν ένα πλούσιο σε γνώση γενικό πλαίσιο για την ιεραρχική ΕΜ. Η ενσωμάτωση χαρακτηριστικών όπως διακοπές, τοπικές μεταβλητές και πέρασμα παραμέτρων σε υπορουτίνες, επιτρέπουν την ευκολότερη ενσωμάτωση πρότερης γνώσης με συνοπτικότερο τρόπο. Αποδόμηση Συναρτήσων Αξίας MAXQ Μια ακόμη προσέγγιση ιεραρχικής ΕΜ είναι η αποδόμηση συναρτήσεων αξίας MAXQ (MAXQ Value Function Decomposition) [Die eri, 1998] που έχει προταθεί από τον Die eri. Όπως και στις προαναφερθείσες προσεγγίσεις των επιλογών και των HAMs, και η MAXQ βασίζεται στη θεωρία των ΗΜΔΑ. Ωστόσο, σε αντίθεση με αυτές, η MAXQ δεν βασίζεται άμεσα στη μείωση και αναγωγή του προβλήματος σε μια ΗΜΔΑ, αλλά σε μια ιεραρχία από ΗΜΔΑ, οι λύσεις των οποίων μπορούν να μαθαίνονται ταυτόχρονα. Ταυτόχρονα με την αποδόμηση της κεντρικής ΜΔΑ σε μικρότερες ΜΔΑ, αποδομείται και η συνάρτηση αξίας σε έναν αθροιστικό συνδυασμό των συναρτήσεων αξίας των μικρότερων ΜΔΑ. Η αποδόμηση αυτή έχει και διαδικασίακη σημειολογία, ως μια ιεραρχία υπορουτινών, καθώς και δηλωτική σημειολογία, ως μια αναπαράσταση της συνάρτησης αξίας κατάσταση 39

54 ΚΕΦΑΛΑΙΟ 2. ΕΝΙΣΧΥΤΙΚΗ ΜΑΘΗΣΗ μιας ιεραρχικής πολιτικής. Η κεντρική ιδέα πίσω από την προσέγγιση είναι ότι ο προγραμματιστής μπορεί να ορίσει χρήσιμους υποστόχους και να ορίσει υποδιεργασίες που να τους επιτυγχάνουν, περιορίζοντας έτσι το πλήθος των πολιτικών που πρέπει να ληφθούν υπ όψιν. Η αποδόμηση MAXQ είναι σε θέση να αναπαραστήσει οποιαδήποτε πολιτική έχει οριστεί σύμφωνα με μια δοθείσα ιεραρχία. Επιπλέον δημιουργεί ευκαιρίες για την εκμετάλλευση αφαιρετικών μοντέλων καταστάσεων, ώστε οι συγκεκριμένες ΜΔΑ μέσα στην ιεραρχία να μπορούν να αγνοούν μεγάλα τμήματα του συνολικού χώρου των καταστάσεων. Η MAXQ εκκινεί με μια αποδόμηση της κεντρικής ΜΔΑ M σε ένα υποσύνολο υποδιεργασιών (subtasks) {Μ 0, Μ 1,..., Μ n }. Οι υποδιεργασίες αυτές ορίζουν μια ιεραρχία με τη M 0 να είναι η υποδιεργασία-ρίζα, πράγμα που σημαίνει ότι η επίλυση της, συνεπάγεται και την επίλυση της M. Οι ενέργειες που επιλέγονται για την επίλυση της M 0 μπορούν να είναι είτε θεμελιώδεις ενέργειες, είτε πολιτικές που επιλύουν άλλες υποδιεργασίες, που με την σειρά τους μπορούν να επικαλούνται θεμελιώδεις ενέργειες ή πολιτικές για άλλες υποδιεργασίες. Τέλος, είναι αξιοσημείωτο το γεγονός ότι η MAXQ μαθαίνει μια αναπαράσταση της συνάρτησης αξίας, έχει το σημαντικό πλεονέκτημα, ότι είναι πιθανός ο υπολογισμός κι εκτέλεση μιας μη-ιεραρχικής πολιτικής, μέσω μιας διαδικασίας παρόμοιας με το βήμα βελτίωσης πολιτικής της διαδικασίας της επανάληψης ως προς την πολιτική. 2.6 Σχεσιακή Ενισχυτική Μάθηση Ο μεγαλύτερος όγκος εργασιών πάνω στην ΕΜ, χρησιμοποιεί προτασιακές αναπαραστάσεις (propsitional representations) προκειμένου να αναπαραστήσει τις οντότητες και τα στοιχεία / χαρακτηριστικά που αφορούν την προς μάθηση διαδικασία. Το γεγονός αυτό κάνει δύσκολη την εφαρμογή των εν λόγω μεθόδων ΕΜ σε περίπλοκα προβλήματα πραγματικού κόσμου. Για την επιτυχή εφαρμογή τεχνικών ΕΜ σε προβλήματα αυξημένης περιπλοκότητας, συνηθίζεται η επιστράτευση ανθρώπων-ειδικών προκειμένου να σχεδιάσουν και να εκμεταλλευτούν με τον καλύτερο δυνατό τρόπο τις τυπικές προτασιακές αναπαραστάσεις. Χαρακτηριστικό γνώρισμα των προβλημάτων με αυξημένη περιπλοκότητα, είναι τα χαρακτηριστικά που αφορούν τις καταστάσεις και τις ενέργειες να εκφράζονται σε σχεσιακή μορφή και να χαρακτηρίζονται από κάποια δομή. Εύλογα, κυρίαρχο ζητούμενο ενός επιτυχημένου συστήματος ΤΝ που θα επιλύει με ικανοποιητικό τρόπο τέτοια προβλήματα, είναι η εκμετάλλευση των σχεσιακών αυτών δομών προς όφελος της μάθησης και της γενίκευσης. Το ερευνητικό πεδίο της σχεσιακής 40

55 2.6. ΣΧΕΣΙΑΚΗ ΕΝΙΣΧΥΤΙΚΗ ΜΑΘΗΣΗ ΕΜ (relational reinforcement learning) θέτει ως στόχο την επέκταση του πλαισίου της ΕΜ με τέτοιες δυνατότητες, με απώτερο σκοπό την επίλυση περίπλοκων προβλημάτων πραγματικού κόσμου. Για μια πιο εκτενή επισκόπηση του πεδίου, ο αναγνώστης παραπέμπεται στο [Tadepalli et al., 2004] Στόχοι Περίπλοκα προβλήματα όπως η εκτέλεση μιας μαγειρικής συνταγής, αν και στη βάση τους θα μπορούσαν εύκολα να εκφραστούν βάσει του πλαισίου της ΕΜ, ουσιαστικά είναι πολύ δύσκολο να επιλυθούν από μεθόδους ΕΜ, καθώς εκφράζονται πολύ πιο εύκολα και φυσικά μέσω σχεσιακών αναπαραστάσεων. Η εκμετάλλευση των σχεσιακών χαρακτηριστικών αυτών, αποτελεί πολλαπλή πρόκληση για την ΕΜ. Στην ενότητα αυτήν παρουσιάζονται συνοπτικά οι προκλήσεις που καλούνται να αντιμετωπίσουν οι επιστήμονες της ΕΜ, προκειμένου να σημειωθεί πρόοδος προς την κάτευθυνση αυτήν. Προσέγγιση Συναρτήσεων Η επέκταση των δυνατοτήτων των μεθόδων προσέγγισης συναρτήσεων κρίνεται απαραίτητη, καθώς αυτές δεν ενδείκνυνται για την αναπαράσταση σχεσιακής γνώσης. Οι μέθοδοι προσέγγισης συναρτήσεων, δεν παρέχουν ικανοποιητικές δυνατότητες γενίκευσης σε περίπλοκα προβλήματα, εκτός κι άν έχει προηγηθεί εκτενής μελέτη και σχεδιασμός των χαρακτηριστικών του πεδίου που θα χρησιμοποιηθούν από τη μέθοδο προσέγγισης (όπως π.χ. στο TD-Gammon [Tesauro, 1995]). Γενίκευση μεταξύ Αντικειμένων Είναι επιθυμητό να βελτιωθεί η περιορισμένη δυνατότητα μεταφοράς γνώσης, που αφορά παρόμοια αντικείμενα του κόσμου του προβλήματος. Η ανίχνευση παρομοίων αντικειμένων, για τα οποία ενδείκνυται να υπάρχει γενίκευση μεταξύ τους, είναι μια αρκετά δύσκολη διαδικασία. Μεταφορά γνώσης μεταξύ διαδικασιών Είναι επιθυμητό, οι πράκτορες να αναπτύσσονται για γενικευμένη χρήση σε κάποιο συγκεκριμένο πεδίο / πρόβλημα. Ωστόσο, κάτι τέτοιο συνήθως δεν συμβαίνει, καθώς π.χ., ένας τυπικός πράκτορας που μαθαίνει να απαντά σε ένα συγκεκριμένο ερώτημα ανάκτησης πληροφορίας (information retrieval query) θα πρέπει να επανεκπαιδευτεί εκτενώς, προκειμένου να είναι σε θέση να απαντήσει ένα ερώτημα 41

56 ΚΕΦΑΛΑΙΟ 2. ΕΝΙΣΧΥΤΙΚΗ ΜΑΘΗΣΗ ελαφρώς παραπλήσιο από αυτό που έχει ήδη μάθει να απαντά. Ζητούμενο είναι λοιπόν η χρήση της σχεσιακής πληροφορίας για τον σχηματισμό συλλογών επιλεγμένων διεργασιών, που να επιτρέπουν τη γενίκευση μεταξύ αυτών (άρα και τη μεταφορά γνώσης και μάθησης) με φυσικό τρόπο. Online σχεδιασμός ενεργειών κι εξαγωγή συμπερασμάτων Στις τυπικές μεθόδους ΕΜ δεν υπάρχει συνειδητός (deliberate) σχεδιασμός ενεργειών κι εξαγωγή συμπερασμάτων (reasoning), καθώς είτε ο σχεδιασμός ενεργειών εκτελείται offline είτε το σύστημα βασίζεται αποκλειστικά στη μάθηση και την εξερεύνηση. Ωστόσο, η επίλυση περίπλοκων προβλήματων απαιτεί συνδυασμό συνειδητών αποφάσεων (deliberation) και αντιδραστικότητας (reactivity). Η προσεγγιστική φύση των συναρτήσεων αξίας, οδηγεί στην ανάγκη πιο λεπτομερούς αναζήτησης, ώστε να ισοσκελιστούν τα πιθανά λάθη. Επιπλέον για να είναι δυνατή η εξαγωγή συμπερασμάτων, απαιτείται η κατασκευή νεών χαρακτηριστικών για τη βελτίωση της ακρίβειας με την οποία προσεγγίζονται οι συναρτήσεις αξίας. Πρότερη Γνώση Η κυρίαρχη τάση που αφορά την πλειοψηφία των μεθόδων τεχνητής νοημοσύνης, και θέλει την πρότερη γνώση να είναι ελάσσονος σημασίας για τη μάθηση και την εξαγωγή συμπερασμάτων, συναντάται σε μεγάλο βαθμό και στην ΕΜ, όπου η διαδικασία εκπαίδευσης των ευφυών συστημάτων βασίζεται στην αρχή της δοκιμής κι αποτυχίας. Το χαρακτηριστικό αυτό την καθιστά μη αποδοτική και όχι ιδιαίτερα ικανή στο να ανταποκριθεί με επιτυχία σε περίπλοκες διαδικασίες Μέθοδοι Στην ενότητα αυτήν, παρουσιάζονται συνοπτικά μερικές υποσχόμενες προσεγγίσεις σχετικές με το πεδίο της σχεσιακής ΕΜ. Σχεσιακή Παλινδρόμηση και Q-Learning Η χρήση σχεσιακής παλινδρόμησης (relational regression) επιτρέπει τη χρήση του Q-Learning σε περιβάλλοντα ΕΜ που χαρακτηρίζονται από σχεσιακή φύση. Σε συνδυασμό με σχεσιακή αναπαράσταση των καταστάσεων και των ενεργειών, η σχεσιακή παλινδρόμηση για τη γενίκευση των τιμών της συνάρτησης Q, επιτρέπει τη χρήση της δομημένης πληροφορίας και την επαναχρησιμοποίηση υπάρχουσας εμπειρίας πάνω σε σχετικά προβλήματα μικρής έκτασης, όταν ο πράκτορας αντιμετωπίζει περιπλοκότερες ή απλά εκτενέστερες εκδοχές τους. Το πρόβλη- 42

57 2.6. ΣΧΕΣΙΑΚΗ ΕΝΙΣΧΥΤΙΚΗ ΜΑΘΗΣΗ μα της προσέγγισης αυτής είναι ότι η φύση των τιμών της Q, είναι τέτοια που εκφράζει ταυτόχρονα και την απόσταση και το μέγεθος της επόμενης ανταμοιβής, πράγμα που τις καθιστά πολύ δύσκολες να προβλεφθούν σε στοχαστικές ή πολύ χαοτικές διαδικασίες. Προσεγγιστική Επανάληψη Πολιτικής Η μέθοδος της προσεγγιστικής επανάληψης πολιτικής (approximate policy iteration) έχει ως βάση την ιδέα της άμεσης αναπαράστασης των πολιτικών σε συνδυασμό με την υποννοούμενη έμμεση αναπαράσταση των συναρτήσεων αξίας, αντί της άμεσης αναπαράστασης και των δύο. Δεδομένης μιας σαφώς ορισμένης (explicit) πολιτικής π, η υποννοούμενα αναπαριστώμενη συνάρτηση αξίας μπορεί να ληφθεί με επαναλαμβανόμενη εκτέλεση της π s S. Έτσι καθίσταται ευκολότερη η εκμάθηση πολιτικών κατάλληλων για δομημένα πεδία, σε σχέση με την εκμάθηση των συναρτήσεων αξίας με ακρίβεια. Η αναπαράσταση των πολιτικών μπορεί να γίνει με γλώσσες γενικού σκοπού, που επιτρέπουν την συμπαγή περιγραφή πολλών χρήσιμων πολιτικών, με τέτοιο τρόπο ώστε να είναι εφικτή η εκμάθησή τους. Εμπειρικές εργασίες, έχουν δείξει ότι η εκμάθηση των πολιτικών μπορεί να είναι επιτυχής ακόμη και με ελάχιστη ή και μηδενική ανθρώπινη καθοδήγηση, για μια ποικιλία δύσκολων δομημένων πεδίων, όπως τα πεδία αναφοράς των τριών πρώτων διαγωνισμών σχεδιασμού ενεργειών. Τέτοια συστήματα είναι σε θέση να μάθουν πολιτικές, που μπορούν να ανταγωνιστούν τις αντίστοιχες που παράγονται από σύγχρονα ντετερμινιστικά συστήματα σχεδιασμού ενεργειών στα πεδία αναφοράς αυτά, ενώ επιπλέον συμπεριφέρονται με μεγαλύτερη ευρωστία όταν εισάγεται το στοιχείο της αβεβαιότητας και αποδίδουν καλά σε στοχαστικές παραλλαγές των πεδίων αυτών. Συμβολικός Δυναμικός Προγραμματισμός Ο συμβολικός δυναμικός προγραμματισμός (symbolic dynamic programming) αποσκοπεί στην εκμετάλλευση της συμβολικής αναπαράστασης του μοντέλου μετάβασης καταστάσεων για την επίτευξη μιας συμβολικής εκδοχής των συναρτήσεων αξίας, με χρήση παλινδρόμησης. Η βασική ιδέα της προσέγγισης είναι ίδια με τη μάθηση βασισμένη σε επεξηγήσεις (explanation-based learning), όπου κάθε επιτυχής απόπειρα επίλυσης του προς μάθηση προβλήματος, ακολουθείται από την κατασκευή μιας απόδειξης για την επεξήγηση των λόγων της επιτυχίας αυτής. Στην συνέχεια, η απόδειξη αυτή γενικεύεται, ώστε να κατασκευαστεί μια περιγραφή των καταστάσεων που μπορούν να επιλυθούν με τον ίδιο τρόπο. Το πρόβλημα της προσέγγισης αυτής είναι ότι η περιγραφή των καταστάσεων που καλύπτονται από κάθε κανόνα σύζευξης, καθίσταται ολοένα και πολυπλοκότερη, όσο αυτές 43

58 ΚΕΦΑΛΑΙΟ 2. ΕΝΙΣΧΥΤΙΚΗ ΜΑΘΗΣΗ απέχουν ολοένα και περισσότερο από τον στόχο. Αυτό σημαίνει ότι ο αριθμός των καταστάσεων που περιγράφονται από κάθε κανόνα μικραίνει και κατά συνέπεια έχουμε πολλούς κανόνες με μικρή κάλυψη επί του συνόλου των καταστάσεων. Στην περίπτωση αυτή, είναι απαραίτητη η εγκατάλειψη της επακριβούς αναπαράστασης της συνάρτησης αξίας κι ενδείκνυται στροφή σε συμπαγείς αναπαρασάσεις. Άμεση Προσέγγιση της Συνάρτησης Αξίας Η μέθοδος της άμεσης προσέγγισης συναρτήσεων αξίας (direct approximation of value functions) έχει ως στόχο τη βελτίωση της αναπαράστασης των συναρτήσεων αξίας, ώστε να εκμεταλλεύονται την σχεσιακή δομή του πεδίου, χωρίς να απαιτείται σημαντική παρέμβαση από ανθρώπους ειδικούς, για τη μελέτη και τον σχεδιασμό των χαρακτηριστικών του χώρου καταστάσεων (statespace features). Συγκεκριμένα, χρησιμοποιούνται τεχνικές γραμμικού προγραμματισμού (linear programming) για την άμεση προσέγγιση της συνάρτησης αξίας. Ωστόσο, υπάρχει ο περιορισμός ότι προκειμένου να ευσταθεί η προσέγγιση, εισάγουμε την υπόθεση ότι οι σχέσεις μεταξύ των αντικειμένων του πεδίου παραμένουν σταθερές. Η καθολική συνάρτηση αξίας, αποσυντίθεται σε τοπικές συναρτήσεις αξίας για κάθε αντικείμενο. Εισάγοντας την υπόθεση, ότι κάθε αντικείμενο του πεδίου κατατάσσεται σε κάποια κλάση, είναι εφικτή η ύπαρξη τοπικών συναρτήσεων αξίας που επιτρέπεται να είναι διαφορετικές από κλάση σε κλάση. Συνεπώς ο στόχος α- νάγεται στην εύρεση καλών τοπικών συναρτήσεων αξίας για κάθε κλάση αντικειμένων. Οι τοπικές συναρτήσεις αξίας, ορίζονται σαν γραμμικοί συνδυασμοί των χαρακτηριστικών που αφορούν τις ιδιότητες των αντικειμένων πράγμα που ανάγει την εύρεση καλών τοπικών συναρτήσεων αξίας, στην εύρεση καλών βαρών για τους γραμμικούς συνδυασμούς αυτούς. Η εύρεση των βαρών είναι ένα εκθετικά μεγάλο γραμμικό πρόβλημα και η επίλυσή του γίνεται με χρήση μιας τεχνικής δειγματοληψίας περιοριστικών σχέσεων (constraint sampling). Τα αποτελέσματα εγγυώνται, ότι αν η επιλογή των βαρών είναι κοντά στην καλύτερη δυνατή και οι υποθέσεις που προαναφέραμε ισχύουν, τότε η μέθοδος παράγει κοντινές προσεγγίσεις προς την πραγματική συνάρτηση αξίας. 2.7 Ποιότητα της Διαδικασίας Μάθησης Εκτός από την αξιολόγηση της πολιτικής που μαθαίνει ο πράκτορας, είναι επιθυμητή η αξιολόγηση κι εκτίμηση της ποιότητας της ίδιας της διαδικασίας μάθησης. Για το λόγο αυτό. χρησιμοποιούνται κάποιες μετρικές, πολλές από τις οποίες τυγ- 44

59 2.7. ΠΟΙΟΤΗΤΑ ΤΗΣ ΔΙΑΔΙΚΑΣΙΑΣ ΜΑΘΗΣΗΣ χάνει να είναι ασύμβατες μεταξύ τους. Ενδεικτικά αναφέρονται και περιγράφονται πολύ συνοπτικά κάποιες από αυτές: Σύγκλιση στη βέλτιστη συμπεριφορά Αρκετοί αλγόριθμοι παρέχουν θεωρητικά εχέγγυα ότι συγκλίνουν ασυμπτωτικά στη βέλτιστη συμπεριφορά. Αν και αυτό είναι παρέχει κάποιες χρήσιμες εγγυήσεις, η πρακτική του χρησιμότητα δεν είναι και πολύ μεγάλη. Για παράδειγμα ένας πράκτορας που επιτυγχάνει συμπεριφορά βέλτιστη το πολύ κατά 99%,μπορεί να προτιμάται από κάποιον που εγγυάται σταδιακή σύγκλιση στο 100% της βέλτιστης συμπεριφοράς, αλλά παρουσιάζει απαράδεκτο ρυθμό μάθησης κατά τα πρώτα στάδια της διαδικασίας εκπαίδευσης. Ταχύτητα σύγκλισης στο βέλτιστο Καθώς η βελτιστότητα ορίζεται συνήθως ασυμπτωτικά, ο ορισμός της ταχύτητας σύγκλισης στο βέλτιστο δεν μπορεί να είναι θεωρητικά ορθός. Έτσι προτιμάται κάποιο μέτρο πιο πρακτικής σημασίας, η σύγκλιση κοντά στο βέλτιστο (convergence to near-optimality). Ωστόσο, ακόμη κι έτσι, χρειάζεται να οριστεί πόσο κοντά στη βέλτιστη συμπεριφορά είναι επιθυμητό να προσεγγίσουμε. Μια σχετική μετρική είναι το επίπεδο επίδοσης μετά από κάποιο χρονικό διάστημα (level of performance a er a given time), όπου και πάλι θα πρέπει να καθοριστεί σαφώς το δοθέν διάστημα. Τέλος, η χρήση μετρικών που σχετίζονται με την ταχύτητα της σύγκλισης ενέχει τον κίνδυνο μεγάλων αρνητικών ανταμοιβών που ίσως θα μπορούσαν να αποφευχθούν εάν ο πράκτορας δεν προσπαθούσε να επιτύχει τη βελτιστότητα, το συντομότερο δυνατόν. Μια λιγότερο επιθετική στρατηγική που επιφέρει τη βελτιστότητα αργότερα, θα μπορούσε δυνητικά να οδηγήσει στη συλλογή μεγαλύτερης συνολικής ανταμοιβής κατά τη φάση της μάθησης, και κατά συνέπεια να είναι προτιμότερη. Μετάνοια (regret) Μια μετρική που προτείνεται ως καταλληλότερη για την εκτίμηση της ποιότητας της διαδικασίας μάθησης είναι η μετάνοια (regret). Η μετάνοια ορίζεται ως η αναμενόμενη μείωση της ανταμοιβής, που προκύπτει από την εκτέλεση του αλγορίθμου μάθησης, αντί της εφαρμογής της βέλτιστης πολιτικής εξ αρχής. Δυστυχώς, η παραγωγή αποτελεσμάτων σχετικά με τη μετρική της μετάνοιας είναι πολύ δύσκολη. 45

60

61 3 Μηχανική Μάθηση και Ηλεκτρονικά Παιχνίδια Περιεχόμενα Κεφαλαίου 3.1 Εισαγωγή TN και ηλεκτρονικά παιχνίδια ΜΜ και Αναλυτικά Παιχνίδια Ζητήματα εφαρμογής σε εμπορικά παιχνίδια Τεχνικές ΜΜ Ενισχυτική Μάθηση Προοπτικές Άλλες Σχετικές Εφαρμογές Μελέτες Περίπτωσης Στο κεφάλαιο αυτό παρουσιάζεται η σχέση της ερευνητικής περιοχής της μηχανικής μάθησης, με τα ηλεκτρονικά παιχνίδια. Αρχικά παρουσιάζεται συνοπτικά η σχέση του ευρύτερου πεδίου της τεχνητής νοημοσύνης, με τα ηλεκτρονικά παιχνίδια και στη συνέχεια το ενδιαφέρον εστιάζεται στη μηχανική μάθηση. Τέλος, επιχειρείται η ανάδειξη των πολλαπλών οφελών που μπορούν να προκύψουν από την χρήση των ηλεκτρονικών παιχνιδιών, ως πεδία δοκιμών κι έρευνας εκ μέρους των επιστημόνων του πεδίου. 3.1 Εισαγωγή Tα παιχνίδια ηλεκτρονικά ή όχι πέραν της ψυχαγωγικής τους φύσης, αποτελούσαν ανέκαθεν προκλητική διανοητική δραστηριότητα για τον άνθρωπο. Φυ- 47

62 ΚΕΦΑΛΑΙΟ 3. ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ ΚΑΙ ΗΛΕΚΤΡΟΝΙΚΑ ΠΑΙΧΝΙΔΙΑ σική συνέπεια ήταν να εξελιχθούν σε ένα από τα δημοφιλέστερα πεδία δοκιμών για τους ερευνητές που ασχολούνται με την τεχνητή νοημοσύνη (στο εξής ΤΝ) και τη μηχανική μάθηση (στο εξής ΜΜ) πιο συγκεκριμένα. Αρχικά, κύριο πεδίο ερευνών αποτέλεσαν τα λεγόμενα αναλυτικά παιχνίδια (τάβλι, σκάκι, ντάμα, αλλά και πόκερ κτλ.), όπου και υπήρξαν εξαιρετικά αποτελέσματα. Εργασίες όπως αυτή του Arthur Samuel [Samuel, 1959], που ουσιαστικά αποτέλεσε την πρώτη ε- φαρμογή ΜΜ (συγκεκριμένα ΕΜ) σε αναλυτικά παιχνίδια, επηρέασαν σε πολύ μεγάλο βαθμό την μετέπειτα έρευνα στη ΜΜ. Η επιλογή των αναλυτικών παιχνιδιών ως πεδίο δοκιμών για διεξαγωγή έρευνας στη ΜΜ αποτελούσε λογική επιλογή, καθώς στα παιχνίδια αυτά υπάρχει πλήρης πληροφορία για τον κόσμο στον οποίο λαμβάνουν χώρα, ενώ και οι κανόνες που τα διέπουν είναι διαφανείς και περιορισμένοι σε αριθμό. Αντίθετα στα εμπορικά ηλεκτρονικά παιχνίδια, συνήθως υπάρχουν αλληλεπιδράσεις μεταξύ ενός μεγάλου σε πλήθος συνόλου αντικειμένων, πράγμα που συνεπάγεται δύσκολη εφαρμογή ή / και αυξημένη υ- πολογιστική πολυπλοκότητα (στο 3.1, παρατίθεται πίνακας σύγκρισης των δύο κατηγοριών παιχνιδιών). Το γεγονός αυτό, σε συνδυασμό με τις συνθήκες που επικρατούσαν παλαιότερα στην τεχνολογία Η/Υ αλλά και στη βιομηχανία παιχνιδιών, αποθάρρυνε την ενασχόληση των ερευνητών με αυτά. Ωστόσο, στις αρχές του 21ου αιώνα και καθώς τα σύγχρονα τεχνολογικά ε- πιτεύγματα στον τομέα του υλικού Η/Υ αλλά και τα αντίστοιχα σχετικά με την ανάπτυξη ηλεκτρονικών παιχνιδιών, αρκετοί ερευνητές έχουν στρέψει το ενδιαφέρον τους προς αυτήν την κατεύθυνση, καθώς θεωρούν ότι πλέον έχουν δημιουργηθεί οι κατάλληλες προϋποθέσεις για γόνιμη έρευνα σχετική με την ΤΝ, στο πεδίο αυτό. Τα οφέλη από τέτοιου είδους έρευνα θα μπορούσαν να είναι πολλαπλά και αμφίδρομα. Από τη μια πλευρά, η εφαρμογή εξελιγμένων τεχνικών ΤΝ μπορεί να βελτιώσει τη συνολική ποιότητα των ηλεκτρονικών παιχνιδιών. Από την άλλη, οι ερευνητές έχουν στη διάθεση τους ένα πρόσφορο πεδίο δοκιμών που μπορεί να προσφέρει πολλές και ενδιαφέρουσες προκλήσεις, αποτελώντας εφαλτήριο για την προσπάθειά τους να δημιουργήσουν ΤΝ που θα είναι εφάμιλλη της ανθρώπινης (human-level ΑΙ). Παρ όλ αυτά, μέχρι στιγμής η συντριπτικά κυρίαρχη τάση στη βιομηχανία ανάπτυξης ηλεκτρονικών παιχνιδιών (στο εξής θα αναφέρονται απλά ως παιχνίδια) για την ανάπτυξη των υποσυστημάτων ΤΝ (AI engine) τους, ήταν και συνεχίζει να είναι ο σχεδόν ντετερμινιστικός «προϋπολογισμός» όλων των πιθανών καταστάσεων που μπορούν να προκύψουν στο μοντέλου του κόσμου του παιχνιδιού, καθώς και των αντίστοιχων αποκρίσεων του συστήματος σε αυτές. Εύκολα μπορεί κανείς να καταλάβει, ότι ο τομέας ΤΝ στα εμπορικά παιχνίδια παραμένει αποξενωμένος σε σχέση με τα επιτεύγματα της αντίστοιχης επιστημονικής ερευνητικής κοινότητας του πεδίου. Ωστόσο, αυτό αναμένεται σύντομα να 48

63 3.1. ΕΙΣΑΓΩΓΗ Σχήμα 3.1: Σύγκριση των χαρακτηριστικών μεταξύ αναλυτικών παιχνιδιών και video games. 49

64 ΚΕΦΑΛΑΙΟ 3. ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ ΚΑΙ ΗΛΕΚΤΡΟΝΙΚΑ ΠΑΙΧΝΙΔΙΑ αλλάξει, καθώς τα μοντέρνα γραφικά τείνουν να φτάσουν σε σημείο κορεσμού και να τεθούν στο περιθώριο, «απελευθερώνοντας» παράλληλα αρκετούς υπολογιστικούς πόρους. Παράλληλα, οι χρήστες αποζητούν ολοένα και πιο ρεαλιστική εμπειρία παιχνιδιού (θα αναφέρεται στο εξής με τον όρο gameplay), πράγμα που προϋποθέτει μεταξύ άλλων ευφυείς και ανταγωνιστικούς αντιπάλους. Έτσι, ο μέχρι πρότινος σχετικά παραγνωρισμένος τομέας ΤΝ στα παιχνίδια καθίσταται όλο και πιο ελκυστικός ως το επόμενο σημείο όπου θα επικεντρωθούν τα βλέμματα των gamers και συνεπώς οι προσπάθειες των παραγωγών. Η εφαρμογή ε- ξελιγμένων τεχνικών που εφαρμόζονται και μελετώνται μέχρι στιγμής σχεδόν αποκλειστικά σε ερευνητικό επίπεδο φαντάζει μονόδρομος, ώστε να συντελεστούν βήματα σημαντικής προόδου προς αυτήν την κατεύθυνση. Η ΜΜ είναι μια ώριμη γνωστική περιοχή της ΤΝ που σίγουρα είναι πολλά υ- ποσχόμενη ως προς την εφαρμογή της σε ηλεκτρονικά παιχνίδια. Η ένταξη στοιχείων μάθησης στα υποσυστήματα ΤΝ των μοντέρνων παιχνιδιών θα μπορούσε να συμβάλλει με πολλούς τρόπους στην αναβάθμιση του gameplay των παιχνιδιών επόμενης γενιάς. Η πιο προφανής εφαρμογή τεχνικών ΜΜ αφορά τη βελτίωση των ικανοτήτων των εικονικών αντιπάλων που ελέγχονται από τον υπολογιστή. Ωστόσο, η συμβολή της ΜΜ δεν περιορίζεται απαραίτητα στο συγκεκριμένο τομέα. Ενδεικτικά αναφέρουμε, ότι παιχνίδια με δυνατότητες μάθησης θα μπορούσαν να βελτιώνουν τη συμπεριφορά του υποσυστήματος ΤΝ καθώς ο χρήστης παίζει, να βελτιώνουν το gameplay (με την έννοια της αίσθησης ευχαρίστησης που αποκομίζει ο χρήστης) μέσω «εμπειρίας», να προσαρμόζουν τις στρατηγικές και τακτικές τους ανάλογα με τις ενέργειες του παίκτη, καθώς και να επιτρέπουν την εκπαίδευση χαρακτήρων. Στην παρούσα ενότητα, διερευνώνται οι προοπτικές που δημιουργούνται α- πό την εφαρμογή τεχνικών ΜΜ σε εμπορικά ηλεκτρονικά παιχνίδια. Αρχικά, παρουσιάζονται κάποια ζητήματα που διέπουν τη σχεδίαση και υλοποίηση συστημάτων ΤΝ για ηλεκτρονικά παιχνίδια, ώστε να γίνουν σαφείς οι συγκεκριμένες απαιτήσεις και ιδιαιτερότητες του τομέα. Ακολούθως, παρουσιάζονται οι προοπτικές που προκύπτουν από τη χρήση μεθόδων ΜΜ σε ηλεκτρονικά παιχνίδια. Ακολουθεί συνοπτική παρουσίαση των διάφορων τεχνικών MM και το πως αυτές θα μπορούσαν να ενσωματωθούν σε συστήματα ΤΝ ηλεκτρονικών παιχνιδιών, ενώ στη συνέχεια παρουσιάζονται και τρεις σύντομες μελέτες περίπτωσης εμπορικών παιχνιδιών που χρησιμοποιούν τεχνικές ΜΜ. Τέλος, παρουσιάζονται κάποια (πρώιμα) συμπεράσματα, ενώ γίνεται προσπάθεια να αποτιμηθούν συνοπτικά οι συνέπειες μιας πιθανής σύγκλισης, μεταξύ της ερευνητικής κοινότητας και της βιομηχανίας ηλεκτρονικών παιχνιδιών, που θεωρούμε ως προϋπόθεση για την επιτάχυνση των εξελίξεων προς την κατεύθυνση του θέματος που μελετά η εργασία. 50

65 3.2 TN και ηλεκτρονικά παιχνίδια Η χρησιμότητα της ΤΝ 3.2. TN ΚΑΙ ΗΛΕΚΤΡΟΝΙΚΑ ΠΑΙΧΝΙΔΙΑ Η ΤΝ στα παιχνίδια, εκφράζεται ουσιαστικά μέσω των δράσεων των χαρακτήρων που ελέγχονται από τον Η/Υ (NPCs Non-Playing Characters), και τους οποίους θα μπορούσαμε να θεωρήσουμε ως πράκτορες, βάσει του ορισμού που δίνεται στο [Russell and Norvig, 2003]. Στα παιχνίδια, μπορούμε να θεωρήσουμε τρία επίπεδα νοημοσύνης που αφορούν τους πράκτορες (από το χαμηλότερο στο υψηλότερο): Λειτουργικό (Operational): Αφορά τις απλές κινήσεις και δράσεις των πρακτόρων σε χαμηλό επίπεδο. Τακτικό (Tactical): Καθορίζει ακολουθίες ενεργειών του πράκτορα για την επίτευξη συγκεκριμένων στόχων στο περιβάλλον δράσης. Στρατηγικό (Strategic): Αφορά αποφάσεις μακροπρόθεσμου σχεδιασμού α- πό τον πράκτορα. Για να γίνει πιο σαφής ο διαχωρισμός μεταξύ του τακτικού και του στρατηγικού επιπέδου, είναι σκόπιμο να επισημάνουμε ότι οι στρατηγικές αποφάσεις αφορούν την επιλογή των στόχων, τους οποίους στοχεύει να επιτύχει το τακτικό. Οι ρόλοι των πρακτόρων στα ηλεκτρονικά παιχνίδια μπορεί να είναι οι εξής: Αντίπαλοι: Ζητούμενο είναι η δημιουργία της ψευδαίσθησης ότι ο παίκτης παίζει εναντίον άλλου ανθρώπου. Απαιτείται λήψη αποφάσεων χαμηλού (τακτικής) και υψηλού (στρατηγικής) επιπέδου. Σύμμαχοι: Στόχος τους είναι η υποστήριξη του παίκτη μέσω συνεργασίας, ή η παροχή υποδείξεων (hints) και συμβουλών. Υποστηρικτικοί χαρακτήρες: Έχουν ουδέτερη προδιάθεση ως προς τον παίκτη και βασικός στόχος τους, είναι να κάνουν τον εικονικό κόσμο πιο ρεαλιστικό. Με βάση τα παραπάνω, θα μπορούσαμε να συνοψίσουμε το πρόβλημα της ΤΝ στα ηλεκτρονικά παιχνίδια, ως το πρόβλημα της ευφυούς επιλογής των κατάλληλων αποφάσεων σε όλα τα επίπεδα με σκοπό, την όσο το δυνατόν πιο α- ληθοφανή συμπεριφορά του συστήματος ΤΝ (προφανώς κάτι τέτοιο οδηγεί σε βελτιωμένο gameplay). Συνεπώς, αντίθετα με την ακαδημαϊκή προσέγγιση των ε- ρευνητών, οι κατασκευαστές παιχνιδιών 1 δε θέτουν ως βασικό στόχο την εύρεση 1 Για μια πληρέστερη άποψη του χάσματος μεταξύ βιομηχανίας και ερευνητικής κοινότητας, ο ενδιαφερόμενος αναγνώστης μπορεί να ανατρέξει στο [Laird, 2002] 51

66 ΚΕΦΑΛΑΙΟ 3. ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ ΚΑΙ ΗΛΕΚΤΡΟΝΙΚΑ ΠΑΙΧΝΙΔΙΑ κι επιλογή (έστω και προσεγγιστικά) βέλτιστων αποφάσεων (ή γενικότερα λύσεων) από τα συστήματα ΤΝ, που ενσωματώνουν στα παιχνίδια τους. Το σημείο όπου εστιάζονται οι προσπάθειες τους είναι στο να συνεισφέρει το σύστημα ΤΝ, στο γενικότερο στόχο της δημιουργίας ενός παιχνιδιού, που δεν είναι άλλος από την παροχή ψυχαγωγίας. Ωστόσο, αντίθετα με την πλευρά της έρευνας όπου τα αποτελέσματα μπορούν να αξιολογηθούν με μια πληθώρα αξιόπιστων μετρικών, στην πλευρά της βιομηχανίας το τελικό αποτέλεσμα δεν μπορεί να αξιολογηθεί με ασφαλή τρόπο, αφού αντικειμενική μετρική για τη διασκέδαση/ψυχαγωγία δεν υπάρχει. Από την άποψη αυτή, η αξιολόγηση συστημάτων ΤΝ για εμπορικά ηλεκτρονικά παιχνίδια, αναγκαστικά βασίζεται σε εμπειρικά κριτήρια. Σύμφωνα με αυτά, η διαδικασία σχεδίασης συστημάτων ΤΝ για παιχνίδια, θα πρέπει να λαμβάνει υπ όψιν της στο μέγιστο δυνατό βαθμό τα εξής ζητήματα [Laird and van Lent, 2005]: 1. Το παιχνίδι ως πρόκληση, δε θεωρείται ενδιαφέρον αν είναι υπερβολικά εύκολο ή δύσκολο. 2. Συχνά, όταν οι παίκτες χάνουν, αισθάνονται ότι αυτό έγινε άδικα. 3. Ένα σύστημα ΤΝ (ή συγκεκριμένα κάποιος πράκτορας που δρα στο κόσμο του παιχνιδιού) που μπορεί να «συντηρήσει» την ψευδαίσθηση της ευφυΐας, εκτιμάται θετικά από τον παίκτη. Για να επιτευχθούν οι παραπάνω στόχοι στο μέγιστο δυνατό βαθμό, είναι α- παραίτητο να τηρούνται οι εξής γενικές αρχές: Αποφυγή προφανούς απάτης ( eating σχετίζεται με το 2) Μη προβλέψιμη συμπεριφορά (σχ. με 1, 2) Μη προφανής ευτελής (inferior) συμπεριφορά (1, 3) Χρήση του περιβάλλοντος Αυτοδιόρθωση (1, 3) Δημιουργικότητα (3) Συμπεριφορά που μοιάζει με ανθρώπινη (2, 3) Τουλάχιστον προς το παρόν, οι παραγωγοί παιχνιδιών φαίνεται να λαμβάνουν υπ όψιν τους, μόνον τις τρεις πρώτες οδηγίες. Όπως θα εξηγήσουμε σε επόμενη ενότητα 3.7, η MM θα μπορούσε να δώσει λύσεις προς αυτήν την κατεύθυνση. 52

67 3.2.2 Κλασσικές Μέθοδοι ΤΝ 3.2. TN ΚΑΙ ΗΛΕΚΤΡΟΝΙΚΑ ΠΑΙΧΝΙΔΙΑ Όπως έχουμε ήδη πει, η χρήση κλασικών μεθόδων ΤΝ αποτελεί standard τακτική των κατασκευαστών εμπορικών παιχνιδιών. Αποτελούν -κατά κάποιον τρόποκαλά παγιωμένο status quo στη βιομηχανία παιχνιδιών, πράγμα που σημαίνει, ότι η εξ ολοκλήρου αντικατάσταση τους από μοντέρνες τεχνικές ΤΝ όπως η ΜΜ, φαντάζει απίθανη (μάλιστα, τέτοιες τάσεις αποθαρρύνονται). Για το λόγο αυτό, κρίνεται σκόπιμο να αναφερθούν στην ενότητα αυτή, μερικές από τις πιο δημοφιλείς κλασικές τεχνικές που χρησιμοποιούνται σήμερα σε εμπορικά ηλεκτρονικά παιχνίδια: Απάτη (Cheating): Ο υπολογιστής «κλέβει» τον ανθρώπινο αντίπαλο του (π.χ. όραση 360ο και μέσα από τοίχους, το fog of war δεν ισχύει μόνο για τον Η/Υ). Από πλευράς αποτελέσματος, ισχύει ο αρχαίος σπαρτιάτικος νόμος: «Κλέψε, αλλά μη σε πιάσουν». Ωστόσο, διαφαίνονται τάσεις εγκατάλειψης της τεχνικής αυτής. Θεωρία Παιγνίων: Εφαρμόζεται σε απλά παιχνίδια (π.χ. τρίλιζα), με εξαιρετικά ωστόσο αποτελέσματα (έχουν δημιουργηθεί αλγόριθμοι που δεν μπορούν να νικηθούν). Δένδρα Παιγνίων και Μέθοδοι Αναζήτησης: Βασίζονται στην τεράστια υ- πολογιστική ισχύ για να πετύχουν καλές επιδόσεις. Εφαρμόζονται σε παιχνίδια όπως το τάβλι, το σκάκι, η ντάμα κτλ. Σχεδιασμός Μονοπατιού: Το συγκεκριμένο πρόβλημα, αποτέλεσε έναν από τους μεγαλύτερους πονοκέφαλους στο παρελθόν. Πλέον με τη χρήση του αλγορίθμου Α, ως επί το πλείστον έχει επιλυθεί (στις 2 διαστάσεις). Στις 3 διαστάσεις, το πρόβλημα παραμένει «ανοικτό». Μέθοδοι βασισμένοι σε κανόνες: Ίσως η ευκολότερη και ευρύτερα χρησιμοποιούμενη μέθοδος (σημ.: δεν πρέπει να συγχέονται με τα συστήματα βασισμένα σε κανόνες rule-based systems τα οποία είναι πολύ πολυπλοκότερα). Μηχανές πεπερασμένων καταστάσεων: Με χρήση τους, η υλοποίηση του συστήματος ΤΝ γίνεται με πιο δομημένο τρόπο. Χρησιμοποιούνται ευρύτατα σε εμπορικά παιχνίδια, ενώ υπάρχουν και υλοποιήσεις με χρήση ασαφούς λογικής (μηχανές ασαφών καταστάσεων). Flo ing: Τεχνική για την ομαλή και συντονισμένη κίνηση ομάδων οντοτήτων (π.χ. μονάδες σε παιχνίδια στρατηγικής). 53

68 ΚΕΦΑΛΑΙΟ 3. ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ ΚΑΙ ΗΛΕΚΤΡΟΝΙΚΑ ΠΑΙΧΝΙΔΙΑ Ιεραρχική ΤΝ: Δόμηση του συστήματος ΤΝ σε δύο επίπεδα και χρήση διάφορων τεχνικών σε αυτά. Π.χ. το υψηλό (στρατηγικό) υλοποιείται με χρήση κανόνων και το χαμηλό (τακτικό) με άλλες τεχνικές (flo ing, σχεδιασμός μονοπατιού κτλ.). Κοινή συνισταμένη όλων των παραπάνω τεχνικών, είναι ότι πρόκειται για τεχνικές που αδυνατούν να παράγουν νέες λύσεις στα προβλήματα που ανακύπτουν και περιορίζονται στη χρήση προκαθορισμένων κανόνων. Το συγκεκριμένο γεγονός, δίνει λαβή για την αμφισβήτηση του ισχυρισμού ότι είναι τα συστήματα που βασίζονται στις μεθόδους αυτές είναι πραγματικά ευφυή. Είναι προφανές ότι μια οντότητα που θέλει να ισχυρίζεται ότι χαρακτηρίζεται από πραγματική ευφυΐα, αναμένεται να μπορεί να βελτιώσει τη συμπεριφορά της, μαθαίνοντας Ψευδομάθηση Πριν περάσουμε στο κεφάλαιο της ΜΜ, είναι σκόπιμο να αναφέρουμε την ύπαρξη μιας τάσης στη βιομηχανία ηλεκτρονικών παιχνιδιών, η οποία θέλει τη χρήση διάφορων τεχνικών για τη δημιουργία της ψευδαίσθησης, ότι το υποσύστημα ΤΝ του παιχνιδιού μαθαίνει. Άλλωστε, είναι κοινή τακτική στις τάξεις της βιομηχανίας η δημιουργία συστημάτων ΤΝ που βασίζονται στην απάτη, καθώς με αυτόν τον τρόπο τα πράγματα απλοποιούνται σημαντικά από την άποψη της δυσκολίας υλοποίησης [Palmer, 2002]. Κάτι τέτοιο, δεν είναι απαραίτητα κακό αν υλοποιείται με τέτοιο τρόπο ώστε να μη γίνεται εύκολα αντιληπτό από τους παίκτες. Μία κοινή τεχνική για την επίτευξη της αίσθησης ότι η μηχανή ΤΝ ενός παιχνιδιού μαθαίνει, είναι ο προγραμματισμός διάφορων επιπέδων επίδοσης βάσει ενός προκαθορισμένου συνόλου συμπεριφορών, και δυναμική εναλλαγή των επιπέδων καθώς ο παίκτης προχωρά στο παιχνίδι. Μια πιο δομημένη / επαυξητική προσέγγιση είναι η προσθήκη (ξεκλείδωμα) νέων στοιχείων συμπεριφοράς (π.χ. καταστάσεων σε μηχανές πεπερασμένων καταστάσεων, κανόνων σε συστήματα που βασίζονται σε κανόνες, κτλ.). Τέλος, η συγκεκριμένη αίσθηση μπορεί να επιτευχθεί με την τροποποίηση διάφορων παραμέτρων κατά την εξέλιξη του παιχνιδιού, όπως: ρυθμός λαθών (συνήθως φθίνει) ακρίβεια (π.χ. στους πυροβολισμούς σε ένα παιχνίδι πρώτου προσώπου shoot em up) χρόνος αντίδρασης (π.χ. με το που αντικρίσει κάποιον αντίπαλο) επιθετικότητα 54

69 3.3 ΜΜ και Αναλυτικά Παιχνίδια Ντάμα 3.3. ΜΜ ΚΑΙ ΑΝΑΛΥΤΙΚΑ ΠΑΙΧΝΙΔΙΑ Η πρώτη εφαρμογή της ΜΜ και της ενισχυτικής μάθησης σε παιχνίδια, που παρουσιάστηκε στα τέλη της δεκαετίας του 50 από τον Samuel, στα πλαίσια μιας εργασίας [Samuel, 1959], που μετέπειτα άσκησε μεγάλη επιρροή στην ερευνητική κοινότητα. Κατά πολλούς, ήταν το πρώτο πρόγραμμα Η/Υ το οποίο μπορούσε να μαθαίνει από μόνο του. Σκάκι Το σκάκι αποτελεί μακράν το δημοφιλέστερο παιχνίδι στην ερευνητική κοινότητα της ΤΝ. Οι καλύτερες υλοποιήσεις πρακτόρων που παίζουν σκάκι, βασίζονται σε δένδρα αναζήτησης παιγνίων, χρήση γνώσης αποθηκευμένης σε βάσεις δεδομένων και μεγάλη υπολογιστική ισχύ. Οι σχετικές με ΜΜ προσεγγίσεις που έχουν προταθεί δεν είναι τόσο επιτυχείς όταν παίζουν εναντίον ανθρώπων, ωστόσο παραμένουν ενδιαφέρουσες. Έχυν προταθεί προσεγγίσεις που βασίζονται στην ε- ξόρυξη γνώσης από βάσεις δεδομένων, στη χρήση ενισχυτικής μάθησης και στα νευρωνικά δίκτυα (neuro ess). Go (ιαπωνέζικο επιτραπέζιο) Το Go χαρακτηρίζεται από απλούς κανόνες, αλλά και από μεγάλη πολυπλοκότητα. Έτσι η πιθανότητα επίτευξης συμπεριφοράς / επίδοσης που είναι εφάμιλλη της ανθρώπινης είναι ανέφικτη. Οι προσπάθειες που έχουν γίνει, αφορούν τη μάθηση με χρήση συνάρτησης αξιολόγησης αλλά και την εκμάθηση ανοιγμάτων και τελειωμάτων παρτίδων. Επίσης, έχουν δοκιμαστεί τεχνικές αναγνώρισης προτύπων για την ανάλυση των χαρακτηριστικών που επιδρούν περισσότερο στο τελικό α- ποτέλεσμα. Τάβλι Το τάβλι εμπεριέχει το στοιχείο της τύχης, πράγμα που οδηγεί σε ακριβές υπολογιστικά, τεχνικές αναζήτησης. Ωστόσο, αποτελεί την πιο επιτυχημένη εφαρμογή ΜΜ στον τομέα των αναλυτικών παιχνιδιών. Το NeuroGammon έγινε το πρώτο πρόγραμμα που κέρδισε διαγωνισμό τάβλι. Χρησιμοποιούσε (προφανώς) νευρωνικά δίκτυα και η αξιολόγηση των καταστάσεων του ταμπλώ του παιχνιδιού γινόταν βάσει παιχνιδιών υψηλού επιπέδου (expert rated) που αποθηκευόταν στη βάση δεδομένων του. Οι ερευνητές της ίδιας ομάδας, ακολούθως πρότειναν 55

70 ΚΕΦΑΛΑΙΟ 3. ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ ΚΑΙ ΗΛΕΚΤΡΟΝΙΚΑ ΠΑΙΧΝΙΔΙΑ το TD-Gammon [Tesauro, 1995] που χρησιμοποιεί τεχνικές ενισχυτικής μάθησης (μάθηση χρονικών διαφορών) και αυτήν τη στιγμή κατατάσσεται ανάμεσα στους καλύτερους παίκτες παγκοσμίως, ενώ πρότεινε πρωτότυπα ανοίγματα, τα οποία πλέον χρησιμοποιούν οι grandmasters στις παρτίδες τους. Poker Το poker, λόγω των κρυμμένων / κλειστών καρτών, εμπεριέχει το στοιχείο της ατελούς πληροφορίας, πράγμα που το καθιστά καλή πρόκληση για την ΤΝ. Σημαντικό στοιχείο στο poker είναι η γνώση του aντιπάλου (πότε μπλοφάρει κτλ.), πράγμα που το καθιστά ιδανικό πεδίο για έρευνα σχετική με ΜΜ, και συγκεκριμένα πάνω στη μοντελοποίηση αντιπάλου (opponent modeling). Γνωστή υλοποίηση ΜΜ στο poker αποτελεί το Loki. 3.4 Ζητήματα εφαρμογής σε εμπορικά παιχνίδια Πηγές Μάθησης Στην παρούσα υποενότητα, παρουσιάζονται διάφορες προσεγγίσεις που αφορούν τις πηγές άντλησης της γνώσης, που θα χρησιμοποιηθεί από τις μάθησης των διάφορων μεθόδων ΜΜ. Παρατήρηση Ανθρώπινης Συμπεριφοράς Η μάθηση επιτυγχάνεται μέσω παρατήρησης παραστάσεων ανθρώπινης συμπεριφοράς. Στόχος, είναι η πειστική αναπαραγωγή ειδικών μεμονωμένων συμπεριφορών. Γίνεται προσπάθεια για όσο το δυνατόν πληρέστερη σύλληψη της ποικιλίας μεταξύ των διαφορών στην προσωπικότητα, στον τρόπο εκδήλωσης της αυθεντίας και στην κουλτούρα των παρατηρούμενων ανθρώπων που αποτελούν το αντικείμενο της μάθησης. Καθοδήγηση Η εκπαίδευση γίνεται από μη-προγραμματιστές (χρήστες ή ειδικούς), οι οποίοι καθοδηγούν την οντότητα ΤΝ με οδηγίες / σήματα, προς μία συμπεριφορά-στόχο. 56

71 3.4. ΖΗΤΗΜΑΤΑ ΕΦΑΡΜΟΓΗΣ ΣΕ ΕΜΠΟΡΙΚΑ ΠΑΙΧΝΙΔΙΑ Σχήμα 3.2: Μάθηση μέσω παρατήρησης ανθρώπινης συμπεριφοράς [Laird and van Lent, 2005] Σχήμα 3.3: Μάθηση μέσω καθοδήγησης [Laird and van Lent, 2005] 57

72 ΚΕΦΑΛΑΙΟ 3. ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ ΚΑΙ ΗΛΕΚΤΡΟΝΙΚΑ ΠΑΙΧΝΙΔΙΑ Εμπειρία Η εκπαίδευση της μηχανής ΤΝ γίνεται, βάζοντάς την να ανταγωνιστεί άλλες μηχανές ΤΝ ή ανθρώπους ελεγκτές, αποκτώντας «εμπειρία». Η διαδικασία λαμβάνει χώρα κατά τη φάση ανάπτυξης του παιχνιδιού. Με τον τρόπο αυτόν, βελτιώνεται η συμπεριφορά της και ανιχνεύονται κίβδηλες (bogus) συμπεριφορές. Ακόμη, η μηχανή ΤΝ (ή κάποιος πράκτορας ειδικότερα) μπορεί να απλά αφεθεί στο περιβάλλον και να το εξερευνήσει, βρίσκοντας π.χ. τοποθεσίες που καλό θα ήταν να αποφύγει, κρυψώνες, μέρη κατάλληλα για στήσιμο ενέδρας, κτλ. Σχήμα 3.4: Μάθηση μέσω εμπειρίας [Laird and van Lent, 2005] Τρόπος Εκπαίδευσης Offline Στην offline μάθηση, το στοιχείο της μάθησης δεν είναι ενεργό κατά το gameplay. Η διαδικασία της μάθησης γίνεται καθαρά κατά τη φάση ανάπτυξης του παιχνιδιού και ολοκληρώνεται πριν το παιχνίδι κυκλοφορήσει στην αγορά. Για παράδειγμα, μπορεί να γίνει προσπάθεια σύλληψης του στυλ / συμπεριφοράς ενός οδηγού αγώνων ράλι, ενός ντράμερ κτλ, με σκοπό τη ρεαλιστικότερη απόδοση μιας αντίστοιχης εικονικής οντότητας. Η συγκεκριμένη τεχνική είναι κάτι αντίστοιχο της τεχνικής σύλληψης κίνησης (motion capture), που χρησιμοποιείται εδώ και τουλάχιστον 15 χρόνια στη βιομηχανία παιχνιδιών (κυρίως σε αθλητικά παιχνίδια). Ωστόσο είναι πολύ πολυπλοκότερη, καθώς λαμβάνει υπ όψιν της, τις χρονικές στιγμές κατά τις οποίες πρέπει να γίνει μετάβαση από ένα animation σ ένα άλλο. Ένα ακόμη παράδειγμα όπου εφαρμόστηκε offline μάθηση είναι το ReVolt (racing), όπου η μηχανή ΤΝ εκπαιδεύτηκε στο περιβάλλον με χρήση γενετικών αλγορίθμων, προκειμένου να βρει τα βέλτιστα περάσματα στις πίστες [Laird and van Lent, 2005]. Ο συγκεκριμένος τρόπος εκπαίδευσης έχει το πλεονέκτημα, ότι το 58

73 3.5. ΤΕΧΝΙΚΕΣ ΜΜ τελικό παιχνίδι μπορεί να υποβληθεί στις τυπικές διαδικασίες ελέγχου ποιότητας, πριν κυκλοφορήσει. Επίσης, δεν επιφέρει πρόσθετο υπολογιστικό κόστος κατά το gameplay, καθώς ο αλγόριθμος μάθησης δεν είναι ενεργός. Ωστόσο, ανάλογα με το είδος του αλγορίθμου μάθησης, η αποκτηθείσα γνώση μπορεί να είναι πολύ δύσκολο ως αδύνατο (π.χ. στα νευρωνικά δίκτυα), να αξιολογηθεί, να εκσφαλματωθεί και πιθανώς να δεχθεί βελτιστοποιητικές τροποποιήσεις. Online Αντίθετα με την offline μάθηση, η online μπορεί να παραμένει ενεργή και κατά τη διάρκεια του gameplay. Η εκπαίδευση μπορεί να είναι εξ ολοκλήρου online (δηλ. να ξεκινά ταυτόχρονα με το gameplay), ή μπορεί να έχει προηγηθεί και κάποιου είδους offline εκπαίδευση. Η online μάθηση επιτρέπει στη μηχανή ΤΝ, να προσαρμόζεται στον τρόπο παιχνιδιού του κάθε χρήστη και να αναγνωρίζει τις ι- διαιτερότητες του. Για παράδειγμα, στο Forza Motorsport, επιχειρείται η σύλληψη του στυλ ενός χρήστη με σκοπό την εξομοίωση του από οντότητες (drivatars driving avatars) που αγωνίζονται για λογαριασμό του. Άλλο παράδειγμα online μάθησης είναι η δυνατότητα εκμάθησης από τη μηχανή ΤΝ, μονοπατιών που χρησιμοποιούν οι ανθρώπινοι χρήστες, σε μια εσωτερική έκδοση του Command & Conquer: Renegade [Laird and van Lent, 2005]. Θα πρέπει να σημειώσουμε ότι η online μάθηση θα πρέπει να χρησιμοποιείται με πολλή προσοχή, καθώς εύκολα θα μπορούσε να οδηγήσει σε μη επιθυμητές συμπεριφορές. Για το λόγο αυτό, συνήθως ο χώρος καταστάσεων που μπορεί να εξερευνήσει η διαδικασία της μάθησης είναι περιορισμένος. Αυτό υλοποιείται είτε με προσεκτική φραγή της χρησιμοποιούμενης αναπαράστασης γνώσης, είτε με την επιβολή «ενστίκτων» ή κανόνων που η αποκτώμενη γνώση δεν μπορεί να παραβιάσει. Επίσης, καλό θα είναι να εξεταστεί η διάθεση επιλογής ενεργοποίησης / απενεργοποίησης της μάθησης από το χρήστη. Τέλος, να αναφέρουμε ότι με την online μάθηση, υπάρχει πιθανότητα να έχουμε σημαντικό επιπλέον υπολογιστικό κόστος (overhead), ανάλογα και με το είδος την υλοποίηση του αλγορίθμου μάθησης. 3.5 Τεχνικές ΜΜ Δένδρα Απόφασης Τα δένδρα απόφασης (decision trees) χρησιμοποιούνται σε ηλεκτρονικά παιχνίδια πάνω από 20 χρόνια, ως μέθοδος λήψης απόφασης. Με τη χρήση αλγορίθμων μηχανικής μάθησης (π.χ. ID3, C4.5, κτλ.) μπορούμε να «μάθουμε» ένα μοντέλο που 59

74 ΚΕΦΑΛΑΙΟ 3. ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ ΚΑΙ ΗΛΕΚΤΡΟΝΙΚΑ ΠΑΙΧΝΙΔΙΑ να μοντελοποιεί τη συμπεριφορά της μηχανής ΤΝ, βάσει κάποιων χαρακτηριστικών. Η χρήση τέτοιων τεχνικών σε ηλεκτρονικά παιχνίδια απαιτεί την ύπαρξη παραδειγμάτων εκπαίδευσης, τα οποία θα μπορούσαν να συλλεχθούν π.χ. από πλατφόρμες διαδικτυακών παιχνιδιών. Πολύ σημαντικό χαρακτηριστικό των δένδρων απόφασης, είναι ότι παράγουν μοντέλα που είναι εύκολα κατανοητά, πράγμα που μπορεί να διευκολύνει τις όποιες διαδικασίες βελτιστοποίησης κι ελέγχου. Για παράδειγμα, μπορούμε εύκολα να διακρίνουμε τα χαρακτηριστικά μιας συμπεριφοράς, καθώς διατρέχουμε από τη ρίζα προς τα φύλλα και σημειώνοντας ποια απόφαση ελήφθη σε κάθε κόμβο. Πρόσφατο (σχετικά) παράδειγμα παιχνιδιού που χρησιμοποιεί δένδρα απόφασης είναι το Bla & White Νευρωνικά Δίκτυα Τα τεχνητά νευρωνικά δίκτυα (artificial neural networks) είναι μάλλον η πιο διαδεδομένη τεχνική ΜΜ από πλευράς εφαρμογών σε ηλεκτρονικά παιχνίδια. Ω- στόσο, δεν έγινε απόλυτα αντιληπτός ο τρόπος λειτουργίας τους, πράγμα που αφήνει περιθώρια για ενδοιασμούς σε όσους σκέφτονται να τα χρησιμοποιήσουν. Όπως και στα δένδρα απόφασης, τα νευρωνικά δίκτυα χρειάζονται δεδομένα εκπαίδευσης πάνω στα οποία θα βασίσουν την εκπαίδευση τους. Τα νευρωνικά δίκτυα θα μπορούσαν να χρησιμοποιηθούν για ταξινόμηση/προσέγγιση συνάρτησης (online ή / και offline), μάθηση πρόβλεψης της ανταμοιβής που σχετίζεται με κάποια κατάσταση (σαν πυρήνας σε υλοποιήσεις ενισχυτικής μάθησης), α- ποτίμηση κατάστασης / ταξινόμηση και πρόβλεψη των πράξεων του αντιπάλου [Laird and van Lent, 2005]. Στη συνέχεια δίνεται ένα παράδειγμα, για το πως θα μπορούσαν να χρησιμοποιηθούν τα νευρωνικά δίκτυα, με σκοπό τον έλεγχο της συμπεριφοράς ενός FPS bot (First-Person Shooter bot). Αρχικά, κωδικοποιούμε μια σειρά τιμών σχετικά με το bot και το περιβάλλον του, όπως το επίπεδο υγείας / ζωής του, το επίπεδο ζωής του παίκτη-αντιπάλου (έστω ότι είναι ένας), τα αντίστοιχα όπλα / πολεμοφόδιά τους και τη μεταξύ τους απόσταση, ως εισόδους. Να σημειώσουμε ότι η σωστή επιλογή των παραμέτρων εισόδου αποτέλεσε κρίσιμο πρόβλημα στο παρελθόν, ωστόσο έχει αντιμετωπιστεί με χρήση πιθανοκρατικών μεθόδων [Charles and McGlin ey, 2004], [Sweetser, 2002]. Στη συνέχεια, σημειώνουμε δείκτες για τις συμπεριφορές (π.χ. ΦΥΓΕ, ΠΥΡΟΒΟΛΗΣΕ κλπ.), ως εξόδους του δικτύο. Καθώς εκπαιδεύεται, το δίκτυο μαθαίνει να «απαντά» κατάλληλα και η συμπεριφορά του είναι όχι απλά αποδοτική, αλλά και προσαρμόσιμη ως προς τις πράξεις του παίκτη. Ωστόσο, θα πρέπει να σημειώσουμε ότι πρέπει να «πειραχθούν» αρκετές παράμετροι προκειμένου το τελικό δίκτυο να συγκλίνει χωρίς προβλήματα υπερπροσαρμογής. Τέλος, δίνεται ένας ενδεικτικός πίνακας με παιχνίδια που χρησιμοποίησαν νευρωνικά δίκτυα: 60

75 3.5. ΤΕΧΝΙΚΕΣ ΜΜ Σχήμα 3.5: Παιχνίδια που χρησιμοποιούν νευρωνικά δίκτυα, και ο λόγος χρήσης τους Γενετικοί Αλγόριθμοι Οι γενετικοί (εξελικτικοί) αλγόριθμοι, παρά τη σκληρή κριτική που έχουν δεχθεί α- πό ανθρώπους της βιομηχανίας παιχνιδιών [Rabin, 2002], έχουν μεγάλη δυναμική όσον αφορά την ΤΝ σε παιχνίδια. Αρκετοί σχεδιαστές παιχνιδιών υποστηρίζουν ότι οι γενετικοί αλγόριθμοι χρειάζονται πολλούς υπολογισμούς και είναι πολύ αργοί για να είναι σε θέση να παράγουν χρήσιμα αποτελέσματα, ειδικά εφόσον η μάθηση είναι online. Εφόσον η εκπαίδευση γίνεται offline, το αντεπιχείρημα αυτό καταρρίπτεται, καθώς το κόστος «πληρώνεται» μια φορά, κατά τη φάση της ανάπτυξης / εκπαίδευσης. Έτσι, προσεγγίσεις βασισμένες σε γενετικούς αλγορίθμους θα μπορούσαν να παρέχουν την κατάλληλη προσαρμοστικότητα στις συμπεριφορές των χαρακτήρων, προκαλώντας αναδυόμενες (emergent) συμπεριφορές [Hong and Cho, 2004]. Οι δυσκολίες που μπορούν να προκύψουν στο «σχεδιασμό» αρκετών στρατηγικών θα μπορούσαν να αντιμετωπιστούν με χρήση γενετικών αλγορίθμων [Hong and Cho, 2005]. Παιχνίδια που έχουν κάνει χρήση γενετικών αλγορίθμων είναι το ReVolt (ανακάλυψη των βέλτιστων αγωνιστικών διαδρομών), η σειρά Creatures (1, 2, 3, Adventures), το Seaman, το Nooks & Crannies και το Return Fire II Μάθηση κατά Bayes Η μάθηση κατά Bayes, είναι μια πολλά υποσχόμενη οικογένεια τεχνικών όσον αφορά την εφαρμογή τους σε ηλεκτρονικά παιχνίδια. Χαρακτηριστικό της, είναι ότι μπορεί να προσφέρει αρκετά καλή αναπαράσταση μεγάλου αριθμού μαθησιακών σεναρίων του πραγματικού κόσμου και συνεπώς, με σχετική ευκολία θα μπορούσε να ανταποκριθεί σε αντίστοιχες απαιτήσεις, στους εικονικούς κόσμους των παι- 61

76 ΚΕΦΑΛΑΙΟ 3. ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ ΚΑΙ ΗΛΕΚΤΡΟΝΙΚΑ ΠΑΙΧΝΙΔΙΑ χνιδιών. Προς το παρόν δεν έχουν αναφερθεί συγκεκριμένα εμπορικά παιχνίδια που κάνουν χρήση τεχνικών της κατηγορίας, ωστόσο ενδεικτικά αναφέρουμε πως έχουν προταθεί από πλευράς ερευνητικής κοινότητας, Bayesian μέθοδοι για την ε- κμάθηση συμπεριφορών σε χαρακτήρες βιντεοπαιχνιδιών (συγκεκριμένα FPS bots [Le Hy et al., 2004]). Ιδιαίτερης μνείας χρήζουν τα Bayesian δίκτυα που είναι συμπαγείς αναπαραστάσεις (με τη μορφή γράφων) για τη σχέση μεταξύ τυχαίων μεταβλητών για κάποιο πρόβλημα. Η χρησιμότητα των γράφων αυτών, έγκειται στο γεγονός, ότι μπορούν να υποστηρίξουν τη διαδικασία εξαγωγής συμπερασμάτων ή λήψης α- ποφάσεων κάτω από συνθήκες αβεβαιότητας. Η διαδικασία εξαγωγής συμπερασμάτων βασίζεται στον κανόνα του Bayes για την υπό συνθήκη πιθανότητα. Τα Bayesian δίκτυα θα μπορούσαν να χρησιμοποιηθούν για τη μοντελοποίηση συγκεκριμένων περιπτώσεων όπου οι NPCs απαιτείται να λάβουν αποφάσεις, βάσει α- βέβαιης πληροφορίας σχετικά με τον κόσμο του παιχνιδιού. Η συνεχής ανανέωση των πιθανοτήτων που χρησιμοποιούν τα δίκτυα Bayes (και οι άλλες τεχνικές της οικογένειας) καθώς το παιχνίδι εξελίσσεται, μπορεί να συντελέσει στη δημιουργία υποσυστημάτων ΤΝ που μαθαίνουν και προσαρμόζονται. Για παράδειγμα, σε ένα παιχνίδι ρόλων (CRPG), το υποσύστημα ΤΝ θα μπορούσε να συγκεντρώνει στατιστικά για τις μάχες μεταξύ ενός συγκεκριμένου είδους πλάσματος και μια συγκεκριμένης κάστας χαρακτήρων. Στην συνέχεια θα υπολογιζόταν η υπό συνθήκη πιθανότητα θνησιμότητας του πλάσματος ανά κλάση χαρακτήρα, ώστε αυτό να αποφασίσει αν θα εμπλακεί σε μάχη. Μία ακόμη πιο ευφυής / αυτόνομη προσέγγιση, θα ήταν το πλάσμα να τεθεί σε μια «κατάσταση» αναζήτησης χαρακτήρων της κάστας, για την οποία η πιθανότητα θνησιμότητάς του είναι η μικρότερη. 3.6 Ενισχυτική Μάθηση Γενικά Η ενισχυτική μάθηση θεωρείται είναι ουσιαστικά μια οικογένεια τεχνικών που κύριο χαρακτηριστικό τους είναι η ανακάλυψη καλών στρατηγικών για την επίλυση προβλημάτων, μέσω εκτεταμένης αυτοεκπαίδευσης. Η χρήση της απαλλάσσει τους σχεδιαστές ΤΝ από το σχεδιασμό πολιτικών για την επίτευξη στόχων, καθώς το πρόβλημα ανάγεται απλά στον καθορισμό των στόχων αυτών μέσω του σήματος ανταμοιβής. Αυτό σημαίνει ότι είναι κατάλληλη για επίλυση προβλημάτων, των οποίων η ευριστική επίλυση είναι δύσκολη. Στην ενισχυτική μάθηση η εκπαίδευση γίνεται μέσω απόπειρας και λάθους, πράγμα που σημαίνει, ότι οι εκ των προτέρων απαιτήσεις της για γνώση είναι μικρές. Ένας πράκτορας που 62

77 3.6. ΕΝΙΣΧΥΤΙΚΗ ΜΑΘΗΣΗ χρησιμοποιεί ενισχυτική μάθηση, εξερευνά το περιβάλλον του, επιδρώντας σε αυτό. Για κάθε επίδραση του πράκτορα στο περιβάλλον, αυτός ανταμείβεται βάσει μιας συνάρτησης ανταμοιβής. Βασικός στόχος του πράκτορα είναι η μεγιστοποίηση της συνάρτησης αυτής, ώστε η να μεγιστοποιείται και η συνολική αμοιβή. Μία πρώτη, προφανής εφαρμογή της ενισχυτικής μάθησης, είναι η χρήση της για δημιουργία οντοτήτων τεχνητής ζωής (artificial life), που «γεννιούνται» με μηδενική γνώση και προσπαθούν να μάθουν π.χ. να επιβιώνουν εξερευνώντας το περιβάλλον τους. Παράδειγμα τέτοιας εφαρμογής είναι το παιχνίδι Galapagos: Mendel s Escape της Anark So ware, το οποίο θα μελετηθεί συνοπτικά σε ακόλουθη υποενότητα Στα περιβάλλοντα των παιχνιδιών, συνήθως επιδρούν περισσότεροι του ενός πράκτορες και συνεπώς η απόδοση μιας στρατηγικής εξαρτάται όχι μόνο από την αντίδραση του στατικού ή δυναμικού περιβάλλοντος, αλλά και από τις συμπεριφορές των άλλων εμπλεκόμενων πρακτόρων. Στην αρχή της διαδικασίας μάθησης οι συμπεριφορές των πρακτόρων είναι ακαθόριστες, πράγμα που σημαίνει ότι δεν μπορούν να εκτελεστούν τα διάφορα επεισόδια που αποτελούν τη φάση της εκπαίδευσης. Μια προσέγγιση που μπορεί να χρησιμοποιηθεί, είναι να τοποθετηθούν όλοι οι πράκτορες στο περιβάλλον και να εκπαιδευτούν μεταξύ τους, επιλέγοντας αρχικά τυχαίες πράξεις και στη συνέχεια, βάσει των αμοιβών που λαμβάνουν, μαθαίνουν να βελτιώνουν τις ικανότητες τους. Καθώς όλοι οι πράκτορες μαθαίνουν ταυτόχρονα, πρέπει σε κάθε στάδιο της διαδικασίας να αντιμετωπίσουν ισχυρότερους αντιπάλους, πράγμα που τους καθιστά ικανούς να προσαρμοστούν σε πολλά διαφορετικά είδη στρατηγικών των αντιπάλων [Pfeiffer, 2003]. Τέλος, να σημειώσουμε ότι για την προσέγγιση των συναρτήσεων αξίας κατάστασης (ή ενέργειας) και την απόδοση δυνατοτήτων γενίκευσης σε αυτές, είναι αρκετά διαδεδομένη η χρήση μεθόδων που βασίζονται σε νευρωνικά δίκτυα [Bourg and Seemann, 2004] Δυναμική Παραγωγή Σεναρίων Η δυναμική παραγωγή σεναρίων (dynamic scripting) [Spron et al., 2006, Spron, 2005] είναι μια online τεχνική μηχανικής μη επιβλεπόμενης μάθησης για ηλεκτρονικά παιχνίδια, που θα μπορούσε να χαρακτηριστεί ως στοχαστική βελτιστοποίηση, που αντλεί ιδέες από την αρχιτεκτονική κριτή-δράστη Η τεχνική χρησιμοποιεί αρκετές βάσεις κανόνων και συγκεκριμένα μία για κάθε κλάση πράκτορα στο παιχνίδι. Κάθε φορά που δημιουργείται μια νέα «περίσταση» (instance) πράκτορα, οι βάσεις αυτές χρησιμοποιούνται για τη δημιουργία ενός νέου σεναρίου, βάσει του οποίου καθορίζεται η συμπεριφορά του. Οι κανόνες που αποτελούν ένα σενάριο κι ελέγχουν ένα συγκεκριμένο πράκτορα, εξάγονται από τη βάση που συσχετίζεται με την κλάση του. Η βάση κανόνων που σχετίζε- 63

78 ΚΕΦΑΛΑΙΟ 3. ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ ΚΑΙ ΗΛΕΚΤΡΟΝΙΚΑ ΠΑΙΧΝΙΔΙΑ ται με κάθε ελεγχόμενο από τον υπολογιστή πράκτορα, περιέχει κανόνες σχεδιασμένους «με το χέρι», που αντλούνται από σχετική με συγκεκριμένο πεδίο γνώση και είναι επιβεβλημένο, η πλειοψηφία των κανόνων σε αυτήν να ορίζουν αποδοτική, ή έστω λογική συμπεριφορά. Η πιθανότητα επιλογής ενός κανόνα σε ένα σενάριο, επηρεάζεται από μια τιμή βάρους που αντιστοιχίζεται σε κάθε κανόνα. Στόχος της τεχνικής είναι η προσαρμογή των βαρών στις βάσεις κανόνων, ώστε η αναμενόμενη «υγεία» (fitness) της συμπεριφοράς που ορίζεται από τα παραγόμενα σενάρια αυξάνεται με γρήγορους ρυθμούς, ακόμα και σε πολύ μεταβλητά περιβάλλοντα. Ως «υγεία», κοινώς ορίζεται η πιθανότητα του να κερδίσει το παιχνίδι η ομάδα στην οποία ανήκει ο πράκτορας. Η προσαρμογή της βάσης κανόνων προκύπτει από την αλλαγή των βαρών, ώστε να απεικονίζεται ο ρυθμός επιτυχίας / αποτυχίας των αντίστοιχων κανόνων στα σενάρια. Οι κανόνες αξιολογούνται με βάση τη συνεισφορά τους στο τελικό αποτέλεσμα, με αυτούς που οδηγούν σε επιτυχία να επιβραβεύονται με αύξηση του βάρους που τους αντιστοιχεί, ενώ αντίθετα αυτοί που οδηγούν σε αποτυχία τιμωρούνται με μείωση του. Η αυξομείωση κάθε βάρους ενός συγκεκριμένου κανόνα, αντισταθμίζεται με μια αντίστοιχη αυξομείωση όλων των υπολοίπων βαρών, ώστε να διατηρείται το συνολικό άθροισμα των βαρών των κανόνων της βάσης σταθερό. Η ανακατανομή των βαρών, αποτελεί πολύ σημαντική ιδιότητα της τεχνικής, καθώς οδηγεί στην ταυτόχρονη μάθηση όλων των κανόνων στις βάσεις, σε κάθε ενημέρωση. Το ποσόστο αυξομείωσης των βαρών καθορίζεται από μια εξειδικευμένη συνάρτηση ενημέρωσης βαρών. Η ιδέα της ανταμοιβής / τιμωρίας ανάλογα με τη συνεισφορά στην επίτευξη μιας επιτυχημένης πολιτικής (ουσιαστικά αυτό γίνεται στο dynamic scripting) προέρχεται από την ενισχυτική μάθηση. Η τεχνική έχει χρησιμοποιηθεί με επιτυχία στο Neverwinter Nights, μέσω ενός σχετικού module 2 που έχει αναπτυχθεί [Spron, 2005] Άλλες σχετικές εργασίες Για λόγους οικονομίας χώρου, δεν καλύπτονται διεξοδικά όλες οι σχετικές εργασίες που αφορούν την ενισχυτική μάθηση και την εφαρμογή της σε ηλεκτρονικά παιχνίδια. Ο ενδιαφερόμενος αναγνώστης μπορεί να ανατρέξει στo [Kok, 2008] όπου παρουσιάζεται η υλοποίηση πρακτόρων ενισχυτικής μάθησης για το ανοικτού κώδικα παιχνίδι στρατηγικής πραγματικού χρόνου, Bos Wars 3, ενώ παρόμοια εφαρμογή σε παιχνίδια του ίδιου είδους παρουσιάζεται στο [Madeira, 2007]. Επιπλέον, στον σύνδεσμο 2 Διαθέσιμο στην ιστοσελίδα 3 Ιστοσελίδα: 64

79 3.6. ΕΝΙΣΧΥΤΙΚΗ ΜΑΘΗΣΗ Σχήμα 3.6: Άποψη της Δυναμικής Παραγωγής Σεναρίων [Spron, 2005] Σχήμα 3.7: Σύγκριση της αρχιτεκτονικής δράστη-κριτικού (actor-critic) με τη δυναμική παραγωγή σεναρίων [Spron, 2005] 65

80 ΚΕΦΑΛΑΙΟ 3. ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ ΚΑΙ ΗΛΕΚΤΡΟΝΙΚΑ ΠΑΙΧΝΙΔΙΑ υπάρχει on-line βιντεοσκοπημένη διάλεξη 4, σχετικά με την εφαρμογή ΕΜ στο παιχνίδι πάλης (beat em up) Tao Feng. Ακόμη, εργασίες σχετικές με το ζήτημα στις οποίες μπορεί να ανατρέξει ο ενδιαφερόμενος είναι οι [McPartland and Gallagher, 2008], [Merri and Maher, 2007], [Ponsen et al., 2006], [Sharma et al., 2007] και [Wender and Watson, 2008]. Τέλος, σύμφωνα με τον Brian Tanner (επικεφαλή α- νάπτυξης του RL-Glue, στο οποίο γίνεται αναφορά στην ενότητα 4.1.1), υπάρχουν εργασίες 5 σε εξέλιξη για την ανάπτυξη λογισμικού που θα επιτρέπει την διεξαγωγή πειραμάτων σε παιχνίδια της παιχνιδομηχανής Atari 2600, μέσω εξομοιωτή για την κονσόλα που θα μπορεί να συνεργάζεται με το RL-Viz (βλ ). 3.7 Προοπτικές Γενικές Η χρήση ΜΜ, μπορεί να αποδειχτεί ωφέλιμη ως προς τις ανάγκες για υπολογιστική ισχύ, καθώς η χρήση ΜΜ μπορεί να οδηγήσει στην αντικατάσταση του επαναλαμβανόμενου χρονοπρογραμματισμού (repeated planning) από τη συσσωρευόμενη γνώση (ca ed knowledge). Ωστόσο υπάρχει το ενδεχόμενο να συμβεί και το ακριβώς αντίστροφο, καθώς ο αλγόριθμος μάθησης μπορεί να επιφέρει ε- πιπρόσθετο φόρτο σε χρήση CPU και μνήμη [Laird and van Lent, 2005] Προοπτικές για τη Βιομηχανία Από τη σκοπιά της βιομηχανίας ανάπτυξης ηλεκτρονικών παιχνιδιών, η χρήση εξελιγμένων τεχνικών ΤΝ, και συγκεκριμένα MM, μπορεί να οδηγήσει σε μειωμένο κόστος ανάπτυξης του υποσυστήματος ΤΝ (αποφεύγεται ο κοπιαστικός «χειροκίνητος» προγραμματισμός συμπεριφορών). Ακόμη κατά την προώθηση των παιχνιδιών, η χρήση τεχνικών MM μπορεί να προβληθεί ως συγκριτικό πλεονέκτημα (δημιουργία marketing hype) και να συγκεντρώσει τα βλέμματα του αγοραστικού κοινού. Ίσως, όλα αυτά να συμβάλλουν ώστε να ξεπεράσει η βιομηχανία παιχνιδιών την προκατάληψη της όσον αφορά τη χρήση τεχνικών MM (και άλλων εξελιγμένων τεχνικών ΤΝ). 4 Η διάλεξη αποτελεί μέρος μιας γενικότερης σειράς διαλέξεων πάνω στην ΜΜ και τα ηλεκτρονικά παιχνίδια, που έλαβαν χώρα στα πλαίσια του Ma ine Learning Summer S ool 2005, που πραγματοποιήθηκε στην Canberra. 5 Περισσότερες πληροφορίες υπάρχουν σε μορφή wiki στον σύνδεσμο com/p/stellaai/ 66

81 3.7. ΠΡΟΟΠΤΙΚΕΣ Από την άλλη μεριά, η χρήση τεχνικών ΜΜ είναι πιθανόν να οδηγήσει σε αύξηση του κόστους ανάπτυξης των υποσυστημάτων ΑΙ. Από τη μια, δεν υπάρχουν πολλοί προγραμματιστές με εμπειρία στη ΜΜ. Από την άλλη, αυξάνεται ο χρόνος που απαιτείται για την ανάπτυξη, τον έλεγχο και την εκσφαλμάτωση του αλγορίθμου μάθησης. Ειδικά κατά τον έλεγχο και την εκσφαλμάτωση, το εύρος των πιθανών συμπεριφορών που πρέπει να ληφθούν υπ όψιν, θα μπορούσε να είναι πολύ μεγαλύτερο όταν χρησιμοποιούνται τεχνικές ΜΜ. Γενικά, ο έλεγχος ποιότητας είναι ένα από τα πιο κρίσιμα και δύσκολα σημεία όσον αφορά τη χρήση τεχνικών ΜΜ σε παιχνίδια [Laird and van Lent, 2005] Επιδράσεις στο Gameplay Η ποικιλία των πιθανών εικονικών κόσμων των ηλεκτρονικών παιχνιδιών και συνεπώς των σχετιζόμενων με τη ΜΜ προβλημάτων, ουσιαστικά περιορίζεται μόνο από τη φαντασία. Η εφαρμογή τεχνικών μηχανικής μάθησης θα μπορούσε να βελτιώσει τη συμπεριφορά των τεχνητά ευφυών οντοτήτων καθώς και να οδηγήσει σε βελτιστοποίηση των κανόνων, του περιβάλλοντος, των υποδομών και των διεπαφών του παιχνιδού [Laird and van Lent, 2005]. Η συμπεριφορά των διάφορων οντοτήτων μπορεί να γίνει πιο μεταβλητή, πιο πιστευτή / ρεαλιστική, πιο προκλητική και πιο εύρωστη (robust). Ακόμη, η χρήση τεχνικών ΜΜ μπορεί να οδηγήσει σε πιο προσωποποιημένη εμπειρία παιξίματος και κατά συνέπεια να αυξήσει το «χρόνο ζωής» του παιχνιδιού (replayability). Η προσωποποιημένη εμπειρία παιξίματος μπορεί να προέλθει από το γεγονός ότι η ΤΝ του παιχνιδιού εξελίσσεται μέσω της μάθησης, καθώς ο παίκτης εξελίσσεται. Για παράδειγμα, η ΤΝ θα μπορούσε να «μαθαίνει» το μοντέλο ενός παίκτη και να προσαρμόζεται προσπαθώντας να αντιμετωπίσει τις στρατηγικές του. Ακόμη, μέσω τεχνικών ΜΜ, θα μπορούσαν να ανιχνεύονται οι ιδιαιτερότητες / χαρακτηριστικά ενός παίκτη και να προσαρμόζεται το επίπεδο δυσκολίας του παιχνιδιού δυναμικά, με σκοπό τη μεγιστοποίηση της ευχαρίστησης που λαμβάνει ο χρήστης. Αυτό θα μπορούσε να αντικαταστήσει ή να συμπληρώσει (π.χ. σαν επιπλέον επιλογή) την κλασική ρύθμιση για επιλογή του επιπέδου δυσκολίας που υπάρχει στα περισσότερα ηλεκτρονικά παιχνίδια. Πέραν των θετικών προοπτικών που ανοίγονται από τη χρήση ΜΜ σε παιχνίδια, η χρήση της θα μπορούσε δυνητικά να οδηγήσει σε συμπεριφορές «περίεργες» που ξενίζουν τον παίκτη, καθώς αυτές δεν μπορούν να είναι πλήρως ελεγχόμενες από τους σχεδιαστές. Ακόμη, ίσως είναι δύσκολο για τον παίκτη να αξιολογήσει ή / και να προβλέψει όλες τις μελλοντικές συμπεριφορές που μπορούν να προκύψουν κατά τη διάρκεια της εξέλιξης της μάθησης, δημιουργώντας (σε ακραίες ίσως περιπτώσεις) του ένα είδος ανασφάλειας, που τον προδιαθέτει 67

82 ΚΕΦΑΛΑΙΟ 3. ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ ΚΑΙ ΗΛΕΚΤΡΟΝΙΚΑ ΠΑΙΧΝΙΔΙΑ αρνητικά απέναντι στο παιχνίδι. Επιπλέον, ανάλογα και με την τεχνική, υπάρχει η πιθανότητα η διαδικασία της μάθησης να «κολλήσει» σε κάποιο σημείο όπου η απόδοση του αλγορίθμου μάθησης απέχει αρκετά από την επιθυμητή, χωρίς δυνατότητα διαφυγής. Άλλη μία παράμετρος που πρέπει να ληφθεί υπ όψιν είναι ο χρόνος στον οποίο η μάθηση συγκλίνει προς αποδεκτές αποδόσεις, καθώς εάν αυτός είναι υπερβολικά μεγάλος, οι παίκτες ενδέχεται να απογοητευτούν από το παιχνίδι. Τέλος, σε περίπτωση που η διαδικασία της μάθησης είναι on-line, υπάρχει πάντα το ενδεχόμενο η μηχανή ΤΝ να μάθει από παραδείγματα προς αποφυγή, με αποτέλεσμα κι αυτή να καταλήξει παράδειγμα προς αποφυγή, με τη σειρά της. 3.8 Άλλες Σχετικές Εφαρμογές Πέραν των εφαρμογών που σχετίζονται άμεσα με το gameplay, έχουν προταθεί και άλλες σχετικές με παιχνίδια εφαρμογές, οι οποίες άπτονται άλλων ζητημάτων. Πολύ ενδιαφέρουσα ως προοπτική, φαντάζει η ανάπτυξη παιχνιδιών βασισμένη σε δεδομένα (Data-driven Game Development) [Shumaker, 2002], όπου θα μπορούσαν να χρησιμοποιηθούν δεδομένα του πραγματικού κόσμου για ανάπτυξη ρεαλιστικών γραφικών, περιβαλλόντων και συνθηκών εξομοίωσης στον εικονικό κόσμο (ένα χαρακτηριστικό παράδειγμα παρουσιάζεται στο [Cooper et al., 2007]). Πολλές πιθανές εφαρμογές αφορούν και τα παιχνίδια πολλαπλών παικτών (multiplayer games), τα οποία παρεπιπτόντως θα μπορούσαν να χρησιμοποιηθούν και για τη συλλογή δεδομένων εκπαίδευσης. Χαρακτηριστικά αναφέρουμε, ότι με χρήση μηχανικής μάθησης θα μπορούσε να γίνει για βελτιωμένο multiplayer mat ing (κατάταξη των παικτών βάσει ιδιοτήτων, ώστε να δημιουργούνται ισορροπημένα παιχνίδια) και ανίχνευση gamebots [Kondo and Sato, 2007]. Ακόμη η ΜΜ θα μπορούσε να χρησιμοποιηθεί σε διαδικασίες για την ανάλυση του gameplay κι ελέγχου ποιότητας των παιχνιδιών [Southey et al., 2005]. Τέλος, στην ενότητα αυτή θα πρέπει να εντάξουμε και τις εφαρμογές τεχνικών ΜΜ στα λεγόμενα enserious games, δηλαδή παιχνίδια με σαφέστερο εκπαιδευτικό προσανατολισμό, όπου επίσης οι προοπτικές είναι εξαιρετικά ενδιαφέρουσες. Μια πρόγευση για τα χαρακτηριστικά και τις αυξημένες ανάγκες για προσαρμοστικότητα στα συστήματα ΤΝ των λεγόμενων enserious games δίνεται στο [van Lent, 2007]. 3.9 Μελέτες Περίπτωσης Οφείλουμε να τονίσουμε, ότι πολλά από όσα είναι γνωστά για την ΤΝ σε εμπορικά ηλεκτρονικά παιχνίδια, βασίζονται σε πηγές όπως διαφημιστικό υλικό (marketing 68

83 3.9. ΜΕΛΕΤΕΣ ΠΕΡΙΠΤΩΣΗΣ statements), συνεντεύξεις με σχεδιαστές κλπ. Η αλήθεια των ισχυρισμών αυτών δεν μπορεί να αποδειχθεί Bla & White Το Bla & White 6 είναι ίσως το εμπορικό παιχνίδι, όπου η επίδραση της μάθησης είναι τόσο προφανής στο gameplay. Ανήκει στην κατηγορία των λεγόμενων god games (ο παίκτης αναλαμβάνει το ρόλο του θεού σε κάποιον εικονικό κόσμο) και περιέχει στοιχεία τεχνητής ζωής και στρατηγικής. Ο παίκτης «κυβερνά» ένα νησί που κατοικείται από διάφορες φυλές και μπορεί να εκπαιδεύσει ένα πλάσμα με τη μορφή ζώου, για να το βοηθήσει στην επίλυση διάφορων καταστάσεων. Α- νάλογα με τις πράξεις του παίκτη, το περιβάλλον αλλάζει ώστε να απεικονίζει κατά κάποιον τρόπο το πόσο καλός ή κακός είναι ο παίκτης που το κυβερνάει. Ωστόσο, στο επίκεντρο του ενδιαφέροντος όσον αφορά το gameplay, βρίσκεται αναμφισβήτητα το πλάσμα που μπορεί ο παίκτης να εκπαιδεύσει. Το πλάσμα αυτό, αρχικά δεν έχει κάποια γνώση για τον κόσμο, αλλά μαθαίνει παρατηρώντας τον άνθρωπο παίκτη, εκπληρώνοντας διαταγές και λαμβάνοντας αμοιβές ή ποινές για τις πράξεις του, από τον παίκτη. Το πλάσμα έχει ένα πεπερασμένο σύνολο επιθυμιών που πρέπει να ικανοποιήσει, π.χ. πρέπει να τρώει από καιρό σε καιρό. Το πλάσμα μπορεί να φάει οποιοδήποτε αντικείμενο του κόσμου, ανεξάρτητα αν αυτό είναι φαγώσιμο ή πέτρες. Όταν για παράδειγμα, το πλάσμα το πιάνει η περιέργεια και τρώει μια πέτρα, παρατηρεί ότι δεν του αρέσει, και δεν ικανοποιείται το αίσθημα της πείνας του. Το φαγητό από την άλλη έχει ωραία γεύση, πράγμα που το πλάσμα θα θυμάται την επόμενη φορά. Από την οπτική της «απ ευθείας» εκπαίδευσης του πλάσματος από τον παίκτη, αυτά εκπαιδεύονται από τους αφέντες τους ώστε να τον βοηθούν όλο και περισσότερο, καθώς προσπαθούν να καταλάβουν ΤΙ θέλει ο παίκτης να κάνουν. Στο παιχνίδι γίνεται χρήση τεχνικών σχετικών με τη μοντελοποίηση αντιπάλων, με τη μικρή διαφοροποίηση ότι η συμπεριφορά του παίκτη παρακολουθείται με σκοπό να χρησιμοποιηθεί για να επηρεάσει την ΤΝ των υποστηρικτικών NPCs. Ακόμη, μια από τις προθέσεις των δημιουργών, ήταν να δώσουν στο πλάσμα αληθοφανή ψυχολογική συμπεριφορά. Έτσι, γίνεται χρήση μιας αρχιτεκτονικής που συμπεριλαμβάνει 6 Χρήσιμοι σύνδεσμοι για το Bla & White:

84 ΚΕΦΑΛΑΙΟ 3. ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ ΚΑΙ ΗΛΕΚΤΡΟΝΙΚΑ ΠΑΙΧΝΙΔΙΑ συμβολική αναπαράσταση των πεποιθήσεων σχετικά με μεμονωμένα αντικείμενα, μια δεντρική δομή απόφασης για την περιγραφή πεποιθήσεων σχετικά με τις κατηγορίες των αντικειμένων και ένα νευρωνικό δίκτυο για τη μοντελοποίηση των επιθυμιών του παίκτη. Σε όλα τα αντικείμενα, έχουν αντιστοιχιστεί αριθμητικές τιμές ανάδρασης για όλες τις πιθανές πράξεις, που περιγράφουν τη χρησιμότητα της επίτευξής τους, σε σχέση με την αντίστοιχη πράξη. Για παράδειγμα, οι πέτρες έχουν χαμηλότερο «σκορ» για τη πράξη «γεύομαι» απ ότι το φαγητό. Τα πλάσματα μπορούν να χρησιμοποιήσουν αυτήν την ανάδραση για να κατασκευάσουν δένδρα απόφασης, βάσει της εμπειρίας που έχουν ως τότε συγκεντρώσει και τους βοηθούν στην πρόβλεψη για το κατά πόσο νέα-άγνωστα αντικείμενα ικανοποιούν τις απαιτήσεις. Οι απαιτήσεις-επιθυμίες αυτές, ελέγχονται από ένα νευρωνικό δίκτυο, το οποίο προφανώς έχει σαν είσοδο πολλές πηγές επιθυμίας (π.χ. πείνα) και υπολογίζει την ισχύ της επιθυμίας. Η ιδέα για μάθηση με αμοιβές και ποινές προέρχεται από την ενισχυτική μάθηση, ωστόσο είναι άγνωστο αν στο παιχνίδι, όντως χρησιμοποιήθηκαν πραγματικά τεχνικές ενισχυτικής μάθησης. Το συμπέρασμα πάντως είναι, ότι το παιχνίδι συνδυάζει εντυπωσιακά καλά τις κλασικές τεχνικές ΤΝ καθώς και τεχνικές ΜΜ, ενώ καταφέρνει να είναι και διασκεδαστικό Creatures H σειρά Creatures 7 είναι ψυχαχωγικά λογισμικά στα οποία μάλλον θα ταίριαζε περισσότερο ο χαρακτηρισμός «εξομοιωτής τεχνητής ζωής», καθώς ο παίκτης δεν έχει κάποιον συγκεκριμένο στόχο και περιορίζεται περισσότερο σε ρόλο παρατηρητή της εξέλιξης των εικονικών πλασμάτων του, που ονομάζονται Norns. Η αλληλεπίδραση του παίκτη με τα Norns, αφορά την επιβράβευση ή τιμωρία τους ανάλογα με τη συμπεριφορά τους καθώς και την τροποποίηση του περιβάλλοντος στο οποίο ζουν. Έτσι, αντί να ελέγχει απ αυθείας τα Norns, ο παίκτης ουσιαστικά και κατά κάποιον τρόπο τους μαθαίνει αυτό που θέλει να κάνουν, αν και η αντίδραση τους δεν μπορεί να προβλεφθεί. Τα πλάσματα μεγαλώνουν και κάποια στιγμή γεννούν αυγά από τα οποία εκκολάπτονται νέα Norns, που κληρονομούν γονίδια από τους γονείς τους. Τα αυγά μπορούν να διαμοιραστούν και μέσω του internet, πράγμα που επιτρέπει σε κάποιον να «εισάγει» νέα Norns στον εικονικό κόσμο του. Η τεχνολογία Cyberlife 7 Χρήσιμοι σύνδεσμοι για την σειρά Creatures:

85 3.9. ΜΕΛΕΤΕΣ ΠΕΡΙΠΤΩΣΗΣ που χρησιμοποιείται στη σειρά, συνδυάζει τεχνητά νευρωνικά δίκτυα και γενετικούς αλγορίθμους. Τα Norns, μέσω των νευρωνικών δικτύων μαθαίνουν να χρησιμοποιούν αντικείμενα του περιβάλλοντος και να διακρίνουν κακές από καλές συμπεριφορές. Η «χειροκίνητη» ανταμοιβή που δίνει ο χρήστης, θυμίζει τεχνικές ενισχυτικής μάθησης και μάλλον μπορεί να θεωρηθεί ως η τιμή στόχος για την εκπαίδευση των νευρωνικών δικτύων. Από την άλλη, οι γενετικοί αλγόριθμοι χρησιμοποιούνται για την κληρονομική μεταβίβαση ικανοτήτων μέσω των γονιδίων, από τους γονείς στα παιδιά τους. Τα υπολογιστικά κόστη που απαιτούνται για την εκτέλεση των online αλγορίθμων μάθησης είναι πολύ υψηλά σε σχέση με την πλειοψηφία των εμπορικών παιχνιδιών. Σύμφωνα με το [Woodco, 1997] στο πρώτο Creatures αφιερώνεται το 50% για τη μηχανή ΤΝ του παιχνιδιού, σε αντίθεση με τις τότε τάσεις της εποχής, που ήθελαν στην καλύτερη περίπτωση, χρήση της τάξης του 5-10% Galapagos: Mendel s Escape To Galapagos: Mendel s Escape 8 είναι ένα παιχνίδι που συνδυάζει στοιχεία εξομοιωτή ζωής με περίπλοκα αινίγματα και κάνει εκτεταμένη χρήση ενισχυτικής μάθησης. Στόχος του παίκτη, είναι να τροποποιήσει το περιβάλλον γύρω από τον Mendel, ένα ευφυές τεχνητό τετράποδο πλάσμα που μοιάζει με αράχνη, ώστε να τον βοηθήσει να υπερβεί εμπόδια, να παραμείνει ζωντανός και να εξερευνήσει σε όσο το δυνατόν μεγαλύτερη έκταση τον κόσμο Galapagos. Αρχικά, ο Mendel δεν ξέρει ούτε καν να περπατά και πρέπει να μάθει να αναγνωρίζει τα διάφορα θανάσιμα αντικείμενα που βρίσκονται στο περιβάλλον του. Δύο βασικά πράγματα αποτελούν κίνητρα για τον Mendel, η τάση για κίνηση και η αποφυγή του πόνου (αρνητική ενίσχυση). Ο Mendel προσπαθεί μέσω πειραματισμού και σφάλματος να προγραμματίσει τον εαυτό του, έτσι ώστε να ικανοποιήσει τις επιθυμίες του. Ο παίκτης δεν ελέγχει απ ευθείας τις κινήσεις του (τον Mendel καθοδηγούν στόχοι και επιθυμίες), ωστόσο μπορεί να τον «σπρώξει» με κλικ στην αριστερή / δεξιά πλευρά του και να παρατηρήσει τα αποτελέσματα. Υπάρχουν αρκετά στοιχεία του περιβάλλοντος τα οποία ο παίκτης μπορεί να μεταχειριστεί / τροποποιήσει, όπως πλατφόρμες, δυναμικά πεδία (force fields), πατώματα, τοίχοι, κινούμενα αντικείμενα κτλ. Στην προσπάθειά του αυτή, ο παίκτης πρέπει να αφήσει τον Mendel να πεθάνει μερικές φορές, αλλιώς η εξέλιξη της μάθησης μπο- 8 Χρήσιμοι σύνδεσμοι για τo Galapagos: Mendel s Escape:

86 ΚΕΦΑΛΑΙΟ 3. ΜΗΧΑΝΙΚΗ ΜΑΘΗΣΗ ΚΑΙ ΗΛΕΚΤΡΟΝΙΚΑ ΠΑΙΧΝΙΔΙΑ ρεί να «κολλήσει». Κάθε θάνατος, αποδεικνύεται ένα πολύτιμο μάθημα για τον Mendel, o οποίος καθώς γίνεται όλο και πιο έμπειρος, αρχίζει να αποφεύγει τα πράγματα που του προκαλούν πόνο / θάνατο. Το παιχνίδι δεν είχε μεγάλη εμπορική επιτυχία, καθώς απαιτούσε αρκετή υπομονή από μέρος του παίκτη. 72

87 4Mario Περιεχόμενα Κεφαλαίου 4.1 Περιγραφή του πεδίου Υλοποίηση Πρακτόρων Πειράματα Στο κεφάλαιο αυτό, παρουσιάζεται η υλοποίηση κάποιων πρακτόρων ΕΜ με πεδίο εφαρμογής το δημοφιλές ηλεκτρονικό παιχνίδι Mario. Συγκεκριμένα, το ενδιαφέρον εστιάζεται σε μια συγκεκριμένη ελεύθερα διαθέσιμη (ανοικτού κώδικα) έκδοχη του Mario, που έχει πολλές ομοιότητες με το κλασσικό δισδιάστατο παιχνίδι πλατφόρμας πλάγιας κύλισης (2D side-scrolling platform game), Super Mario Bros. Στόχος είναι η υλοποίηση πρακτόρων που μαθαίνουν να παίζουν το παιχνίδι αξιοπρεπώς. Το Mario μπορεί να αποτελέσει ένα πολύ ενδιαφέρον πεδίο/πρόβλημα για την εφαρμογή τεχνικών ενισχυτικής μάθησης. Ως ηλεκτρονικό παιχνίδι, προφανώς δεν έχει σχεδιαστεί αμιγώς για τη δοκιμή και παρουσίαση τεχνικών τεχνητής νοημοσύνης (ή συγκεκριμένα ΕΜ). Συνεπώς, ορίζοντας το υποκείμενο πρόβλημα μάθησης βάσει του πλαισίου της ΕΜ, και θέτοντας ως στόχο τον επιτυχή έλεγχο του Mario από ευφυείς πράκτορες, έχουμε στη διάθεσή μας ένα πρόβλημα - ουσιαστικά πραγματικού κόσμου- που παρουσιάζει σημαντικές κι ενδιαφέρουσες προκλήσεις, τις οποίες οι μέθοδοι ΕΜ καλούνται να αντιμετωπίσουν. Συγκεκριμένα, ο κόσμος του παιχνιδιού περιέχει μια εκτενή ποικιλία τύπων αντικειμένων, τα οποία είναι συσχετιζόμενα μεταξύ τους, γεγονός που ενθαρρύνει προσεγγίσεις μάθησης που χρησιμοποιούν πλούσιες σε γνώση αναπαραστάσεις. Ακόμη, ο χώρος καταστάσεων είναι αρκετά μεγάλος, ωστόσο διέπεται από απλές δυναμικές. Επομένως, σε μια επιτυχή υλοποίηση πράκτορα ΕΜ για το πεδίο, εικάζουμε ότι η έμφαση καλό θα είναι να αποδοθεί σε αποδοτικές υπολογιστικές διαδικασίες που σαν στόχο θα έχουν αποδοτικό σχεδιασμό ενεργειών. Αρχικά ορίζεται, το πρόβλημα εκμάθησης του παιχνιδιού βάσει του πλαισίου 73

88 ΚΕΦΑΛΑΙΟ 4. MARIO της ενισχυτικής μάθησης. Στη συνέχεια παρουσιάζονται διάφορες υλοποιήσεις πρακτόρων ενισχυτικής μάθησης, οι οποίες στην συνέχεια δοκιμάζονται στο πεδίο ώστε να καταγραφούν οι επιδόσεις τους. Το κεφάλαιο κλείνει με παρουσίαση κάποιων συνοπτικών συμπερασμάτων που εξήχθησαν κατά την υλοποίηση και δοκιμή των εν λόγω πρακτόρων στο πεδίο. 4.1 Περιγραφή του πεδίου Τεχνικά στοιχεία της υλοποίησης Το πεδίο που χρησιμοποιήθηκε στην εργασία ήταν μέρος του 3ου Διαγωνισμού ΕΜ (RL-Competition 2009). Ως βάση για την υλοποίηση του πεδίου, χρησιμοποιήθηκε μια ανοικτού κώδικα παραλλαγή του Super Mario Bros, το Infinite Mario 1. Ως βάση για την εξομοίωση του προβλήματος στο πλαίσιο της ενισχυτικής μάθησης χρησιμοποιήθηκε το RL-Viz, που αποτελεί επέκταση του λογισμικού RL-Glue για περιβάλλοντα που διαθέτουν γραφική απεικόνιση. Το RL-Glue αναπτύσσεται α- πό την ερευνητική ομάδα του σημαίνοντα ερευνητή για την ΕΜ, καθηγητή Ri ard Su on. Σχήμα 4.1: H εισαγωγική οθόνη του Infinite Mario. Το RL-Glue (Reinforcement Learning Glue) [Tanner and White, 2009] παρέχει μια τυποποιημένη διεπαφή λογισμικού που επιτρέπει το συνδυασμό προγραμμάτων που υλοποιούν πράκτορες, περιβάλλοντα και πειραματικές διαδικασίες, ακόμα κι 1 Διαθέσιμο online μέσω του συνδέσμου html (τελευταία προσπέλαση στις 30 Σεπτεμβρίου 2009) 74

89 4.1. ΠΕΡΙΓΡΑΦΗ ΤΟΥ ΠΕΔΙΟΥ Σχήμα 4.2: Στιγμιότυπα από το κλασσικό Super Mario Bros. 75

90 ΚΕΦΑΛΑΙΟ 4. MARIO αν αυτά είναι υλοποιημένα σε διαφορετικές γλώσσες. Από τεχνικής σκοπιάς, το RL-Glue είναι ένας εξυπηρέτης που διασυνδέει πράκτορες και περιβάλλοντα και πειράματα, μέσω POSIX so ets. Επιπλέον, παρέχει τις απαραίτητες βιβλιοθήκες δικτύου και εργαλείων, για την ανάπτυξη προγραμμάτων που είναι συμβατά με τη προγραμματιστική διεπαφή που αυτό ορίζει. Το RL-Viz ουσιαστικά αποτελεί μια επέκταση πάνω στο RL-Glue. Σκοπός των δημιουργών του είναι η δημιουργία ενός ευέλικτου, ανεξάρτητο γλώσσας και υ- πολογιστικής πλατφόρμας, γενικής χρήσης, πρωτόκολλο και πλαίσιο εργασίας αναφοράς, για τη διαχείριση και την οπτικοποίηση της αλληλεπίδρασης μεταξύ πρακτόρων και περιβαλλόντων βάσει του πλαισίου της ΕΜ. Το RL-Viz υποστηρίζει προηγμένα χαρακτηριστικά όπως η οπτικοποίηση παραμετροποίησιμων περιβαλλόντων και πρακτόρων και η δυναμική φόρτωση τους, κατά τη διάρκεια της εκτέλεσης (dynamic loading at run-time). Το τελευταίο χαρακτηριστικό είναι κρίσιμης σημασίας, καθώς ουσιαστικά επιτρέπει στον καθένα να υλοποιήσει ο- ποιοδήποτε περιβάλλον, με τέτοιον τρόπο ώστε να είναι συμβατό με το RL-Glue και να το χρησιμοποιήσει απ ευθείας μέσω του RL-Viz. Σχήμα 4.3: Άποψη της διεπαφής του RL-Viz πριν την δυναμική φόρτωση του περιβάλλοντος για το Mario. Διακρίνεται το μέρος της διεπαφής που αφορά τον ορισμό των παραμέτρων του περιβάλλοντος. Στην συγκεκριμένη υλοποίηση, υπάρχουν διαθέσιμες οι εξής παράμετροι που καθορίζουν τον τρόπο εκτέλεσης των πειραμάτων, καθώς και συγκεκριμένα χαρακτηριστικά της ΜΔΑ: 76

91 4.1. ΠΕΡΙΓΡΑΦΗ ΤΟΥ ΠΕΔΙΟΥ fast: εκτέλεση των πειραμάτων με τη μέγιστη δυνατή ταχύτητα dark: απενεργοποίηση των γραφικών level seed: ακέραιος που καθορίζει την τυχαία επιλογή της πίστας level type: καθορίζει αν η πίστα είναι ανοικτή ({0, 3, 4,...} - outdoor) ή κλειστή ({1, 2} - οutdoor). level difficulty: διαμορφώνει τον δείκτη δυσκολίας ([0, 9]) της πίστας, καθορίζοντας ουσιαστικά τον αριθμό χασμάτων και τον αριθμό και είδος τεράτων instance: καθορίζει διαφορετικές τιμές για την συνάρτηση ανταμοιβής, το μέγιστο επιτρεπτό χρονικό όριο ολοκλήρωσης ενός επεισοδίου και παραλάσσει τους κανόνες φυσικής 4.4 Σχήμα 4.4: Παραμετροποίηση των χαρακτηριστικών της ΜΔΑ, βάσει της παραμέτρου instance Το παιχνίδι Το παιχνίδι εμπίπτει στο κλασσικό είδος των δισδιάστατων παιχνιδιών πλατφόρμας (platform game) που εξελίσσονται προς τα πλάγια (side-scrolling). Ο παίκτης ή ο πράκτορας ελέγχουν τον Mario και σκοπό έχουν να τον οδηγήσουν στον τερματισμό της κάθε πίστας, που βρίσκεται στο δεξί άκρο έτσι όπως εκτιλύσσεται η δράση. Στην πορεία προς τον τερματισμό, ο Mario συναντά διάφορες δυσκολίες, όπως τέρατα που πρέπει να αποφύγει ή να εξολοθρεύσει και χαντάκια τα οποία πρέπει να περάσει επιτυχώς, πηδώντας στην απέναντί τους μεριά. Ο Mario, ανα 77

92 ΚΕΦΑΛΑΙΟ 4. MARIO πάσα στιγμή μπορεί να βρίσκεται σε τρεις καταστάσεις, οι οποίες παρουσιάζονται κατά άυξουσα σειρά, με βάση το πόσο επιθυμητές είναι: 1. Κανονικός 2. Super 3. Φλεγόμενος (Fiery) Επιπλέον, μπορεί να συλλέξει διάφορα αντικείμενα που τον κάνουν πιο ισχυρό (power-ups) επιτρέποντάς του να μεταβεί από κάποια κατάσταση προς κάποια άλλη, πιο επιθυμητή. Συγκεκριμένα, τα μανιτάρια (mushrooms) του επιτρέπουν να μεταβεί σε κατάσταση super από κανονικός και τα λουλούδια φωτιάς (fire flowers) του δίνουν τη δυνατότητα να μεταβεί στην κατάσταση φλεγόμενος από super, ώστε να μπορεί να εκτοξεύει μπάλες φωτιάς (fireballs) εναντίον των αντίπαλων τεράτων που θα βρει στο δρόμο του. Ακόμη, μπορεί να συλλέγει νομίσματα (coins) τα οποία στο παιχνίδι μεταφράζονται σε επιπλέον ζωές (κανονάκια) όταν συγκεντρωθεί κάποιος συγκεκριμένος αριθμός από αυτά. Συνήθως, τα power-ups βρίσκονται κρυμμένα κάτω από τούβλα, τα οποία ο Mario πρέπει να σπάσει, πηδώντας προς τα πάνω τους με το κεφάλι του. Όταν ο Mario είναι super ή φλεγόμενος, οποιαδήποτε επαφή με τέρας τον αναγκάζει να μεταβεί στην κανονική κατάσταση, όπου πλέον είναι ευάλωτος καθώς η πρώτη επαφή με τέρας τον εξολοθρεύει. Επιπλέον, η κατάσταση του Mario επηρεάζει τη δυνατότητά του για σπάσιμο τούβλων και κατά συνέπεια την συλλογή power-ups. Για να εξουδετερώσει τα τέρατα που συναντά, ο Mario μπορεί να πηδήξει πάνω τους ή να εκτοξεύσει fireballs εναντίον τους. Οποιαδήποτε άλλη επαφή μαζί τους, κοστίζει τη ζωή του ή τη μετάβαση του στην κανονική κατάσταση. Τέλος, υπάρχει κάποιο προκαθορισμένο χρονικό όριο μέσα στο οποίο πρέπει να τερματιστεί η κάθε πίστα, αλλιώς ο Mario χάνει μια ζωή Ορισμός στο πλαίσιο της ΕΜ Για να οριστεί το παιχνίδι βάσει του πλαισίου της, είναι απαραίτητο να οριστεί αναπαράσταση για τον χώρο των καταστάσεων κι ενεργειών, καθώς και να καθοριστεί η συνάρτηση ανταμοιβής. Ακολούθως, παρουσιάζονται οι χώροι καταστάσεων κι ενεργειών, καθώς και η συνάρτηση ανταμοιβής, που όπως έχει προαναφερθεί ποικίλλει ανάλογα με την παράμετρο instance. Χώρος των Καταστάσεων Ο χώρος των καταστάσεων / παρατηρήσεων του πεδίου δεν είναι αυστηρά καθορισμένος με την τυπική μορφή που απαιτείται από το πλαίσιο της ΕΜ, καθώς 78

93 4.1. ΠΕΡΙΓΡΑΦΗ ΤΟΥ ΠΕΔΙΟΥ το πλήθος των μεταβλητών που περιέχει είναι ανάλογο των τεράτων που συναντά ο πράκτορας ανά πάσα χρονική στιγμή. Ο χώρος των παρατηρήσεων έχει σχεδιαστεί έτσι, ώστε να παρέχει στον πράκτορα το σύνολο των πληροφοριών που έχει στη διάθεσή του ένας άνθρωπος που παίζει το παιχνίδι. Κατά συνέπεια περιλαμβάνει μια αναπαράσταση του περιεχομένου της τρέχουσας οθόνης του παιχνιδιού. Η οθόνη χωρίζεται σε 16 οριζόντιες γραμμές και 21 κάθετες στήλες, ουσιαστικά δηλαδή σε 352 πλακίδια / στοιχεία. Οι κάθετες στήλες είναι ουσιαστικά περισσότερες και καλύπτουν ολόκληρη την πίστα, ωστόσο στον πράκτορα δίνονται ανά πάσα χρονική στιγμή μόνο αυτές που είναι ορατές στην οθόνη του παιχνιδιού. Μια ακέραια μεταβλητή ορίζει την οριζόντια μετατόπιση από το αρχικό σημείο της πίστας (x = 0) μέχρι το πρώτο ορατό (αριστερότερο) σημείο της τρέχουσας ορατής οθόνης, ευθυγραμμίζοντας την έτσι με το σύνολο της πίστας. Η συγκεκριμένη μεταβλητή μπορεί να χρησιμοποιηθεί σαν κάποιος δείκτης προόδου στην πίστα, για τον πράκτορα. Η γραμμή στην οποία εμφανίζεται κάποιο πλακίδιο καθορίζει την y συντεταγμένη του, ενώ η x καθορίζεται από την στήλη σε συνδυασμό με τη μεταβλητή που ορίζει την οριζόντια μετατόπιση σε σχέση με την αρχή της πίστας. Επιπλέον, ο πράκτορας διαθέτει πληροφορίες σχετικά με τη θέση του πράκτορα (x, y), τις οριζόντιες και κάθετες συνισταμένες της ταχύτητάς του (vx, vy) εκπεφρασμένες σε πλακίδια μετακίνησης ανά χρονικό βήμα, και τέλος την κατάσταση στην οποία βρίσκεται (κανονική, super, φλεγόμενη). Όπως είναι εύλογο, η αναπαράσταση των παρατηρήσεων που χρησιμοποιεί ο πράκτορας, περιλαμβάνει πληροφορίες σχετικά με τα τέρατα που υπάρχουν στην τρέχουσα οθόνη. Πέραν των πληροφοριών που αφορούν τη θέση κάθε τέρατος (x, y) και των οριζόντιων και κάθετων συνιστωσών των ταχυτήτων τους (vx, vy), διατηρούνται πληροφορίες για τον τύπο του και για το εάν πρόκειται για φτερωτό πλάσμα (οπότε αναπηδά). Η αναπαράσταση των πλακιδίων της ορατής οθόνης, γίνεται με έναν μονοδιάστατο πίνακα χαρακτηρών, χωρητικότητας 352 θέσεων. Οι θέσεις / συντεταγμένες κάθε πλακιδίου αναπαριστώνται προφανώς με δείκτες ακεραίους και η σχέση απεικόνισης του δείκτη του πίνακα προς τη δισδιάστατη θέση του πλακιδίου x = index mod 16 και y = index/16. Συγκεκριμένα: 0-7: ένα δυαδικό διάνυσμα, το πρώτο bit του οποίου σηματοδοτεί εάν μια οντότητα μπορεί να περάσει κατά την τρέχουσα στιγμή από την κορυφή, το δεύτερο bit από κάτω, και το τρίτο από τις πλαϊνές πλευρές. Αν η τιμή είναι ίση με 0, τότε μπορεί να περάσει. Αν είναι ίση με 1, τότε δεν μπορεί να περάσει (σχηματική αναπαράσταση στην εικόνα 4.5). b: ένα τούβλο 79

94 ΚΕΦΑΛΑΙΟ 4. MARIO Σχήμα 4.5: Οι αναπαραστάσεις των πλακιδίων σε δυαδικό και δεκαδικό σύστημα.?: ένα τούβλο ερωτηματικό το οποίο ο Mario μπορεί να σπάσει με το κεφάλι του, για να πάρει κάποιο power-up. $: ένα νόμισμα : μία σωλήνα. Σημείωση: Διαφέρουν σε σχέση με την τιμή 7 για το δυαδικό διάνυσμα, καθώς συνήθως μέσα από τους σωλήνες βγαίνουν φυτά-πιράνχα.!: η γραμμή του τερματισμού M: το πλακίδιο στο οποίο βρίσκεται ο Mario. Σημειωτέον, πως όλες οι θέσεις με x 0, θεωρούνται συμπαγείς, πράγμα που σημαίνει ότι καμία οντότητα δεν μπορεί να τις διαπεράσει και να μεταβεί σε θέση με αρνητικό x. Οι θέσεις (x, y) και (vx, vy) του Mario και των τεράτων, αναπαριστώνται με πραγματικούς αριθμούς διπλής ακρίβειας. Τέλος, οι πληροφορίες σχετικά με τον τύπο των τεράτων και το αν αυτά είναι φτερωτά, αναπαριστώνται με ακέραιους. Όπως βλέπουμε έχουμε έναν αρκετά μεγάλο και ανομοιογενή χώρο καταστάσεων, ο χειρισμός του οποίου όπως θα δούμε, αποτελεί πρόκληση. Συγκεκριμένα τα είδη των τεράτων που συναντώνται είναι τα εξής (σε αυτά περιλαμβάνεται και ο Mario, με διαφορετικές καταχωρήσεις για κάθε πιθανή κατάστασή του): 0: Mario 80

95 4.1. ΠΕΡΙΓΡΑΦΗ ΤΟΥ ΠΕΔΙΟΥ 1: Red Koopa 3: Goomba 4: Spikey 5: Piranha Plant 6: Mushroom 7: Fire Flower 8: Fireball (εκτοξεύεται από τον Mario) 9: Shells 10: Big (Super) Mario 11: Fiery Mario Ο χώρος των ενεργειών Η κάθε ενέργεια αναπαρίσταται με έναν πίνακα ακεραίων, που περιέχει τρία στοιχεία: {[ 1, 1], [0, 1], [0, 1]}. Συγκεκριμένα, κάθε στοιχείο του πίνακα αντιστοιχεί σε ένα κουμπί ενός χειριστηρίου του Ninendo Entertainment System - NES, με το πρώτο στοιχείο να αντιστοιχίζεται στον σταυρό κατεύθυνσης και τα άλλα δύο στα κουμπιά A και B αντίστοιχα. Ο σταυρός κατεύθυνσης (άρα και το πρώτο στοιχείο της αναπαράστασης ενέργειας), καθορίζουν την κατεύθυνση προς την οποία θα στραφεί / μετακινηθεί ο Mario. Όταν το στοιχείο ισούται με 1, έχουμε κατεύθυνση προς τα αριστερά, αντίστοιχα όταν ισούται με 0 καμία κατεύθυνση, και τέλος όταν ισούται με 1, έχουμε κατεύθυνση προς τα δεξιά. Το δεύτερο στοιχείο καθορίζει αν ο Mario θα κάνει άλμα, με το 0 να αντιστοιχεί σε μη εκτέλεση άλματος και το 1 σε εκτέλεσή του. Το τρίτο στοιχείο καθορίζει αν το πλήκτρο ταχύτητας είναι ενεργοποιημένο ή όχι, με το 0 να αντιστοιχεί σε απενεργοποιημένο και το 1 σε ενεργοποιημένο. Αν το πλήκτρο ταχύτητας είναι ενεργό, ο Mario τρέχει πιο γρήγορα κι εκτελεί μεγαλύτερα άλματα, ενώ αν βρίσκεται σε φλεγόμενη (fiery) κατάσταση εκτοξεύει fireballs. Η επίδραση του κάθε συνδυασμού συνιστωσών της ενέργειας, μπορεί να ποικίλλει ανάλογα με την τρέχουσα κατάσταση του περιβάλλοντος, πράγμα που προσθέτει επιπρόσθετη δυσκολία στο πρόβλημα. 81

96 ΚΕΦΑΛΑΙΟ 4. MARIO Η συνάρτηση ανταμοιβής Όπως έχει προαναφερθεί, η συνάρτηση ανταμοιβής διαφέρει ανάλογα με την παράμετρο instance της ΜΔΑ. Ακολουθεί η συνοπτική παρουσίασή της με τη μορφή πίνακα 4.6, καθώς και οι βέλτιστες πολιτικές όπως εκτιμώνται διαισθητικά βάσει αυτών 4.7: Σχήμα 4.6: Ο ορισμός της συνάρτησης ανταμοιβής ανάλογα με την τιμή της παραμέτρου instance. 4.2 Υλοποίηση Πρακτόρων Στα πλαίσια της εργασίας υλοποιήθηκαν διάφοροι πράκτορες ΕΜ για το πεδίο. Αρχικά υλοποιήθηκε ένας πράκτορας που βασιζόταν στον αλγόριθμο SARSA και χρησιμοποιούσε μια υπεραπλουστευμένη εκδοχή της κατάστασης. Στην συνέχεια, υλοποιήθηκαν διάφοροι πράκτορες που συνδύαζαν γενίκευση και προσέγγιση συναρτήσεων με SARSA και χρησιμοποιούσαν το σύνολο των χαρακτηριστικών μιας κατάστασης επεκταμένο με επιπλέον στοιχεία. Τέλος υλοποιήθηκαν κάποιοι πράκτορες που μπορούν να ελεγχθούν χειροκίνητα από τον χρήστη και να αποθηκεύουν / φορτώνουν επιτυχημένες ακολουθίες ενεργειών σε κάθε MDP, προκειμένου να μπορεί να γίνει εκπαίδευση των αυτόνομων πρακτόρων βάσει αυτών. Όλοι οι προαναφερθέντες πράκτορες, υλοποιούν την στρατηγική εξερεύνησης ε-greedy (βλ.2.2.2) Απλός SARSA Ο πρώτος πράκτορας που υλοποιήθηκε, βασιζόταν στην απλή εκδοχή του αλγορίθμου SARSA, με πίνακες. Για να είναι εφικτή η υλοποίηση του πράκτορα με συ- 82

97 4.2. ΥΛΟΠΟΙΗΣΗ ΠΡΑΚΤΟΡΩΝ Σχήμα 4.7: Διαισθητικός ορισμός των βέλτιστων πολιτικών βάσει των εκάστοτε συναρτήσεων ανταμοιβής 4.6. ναρτήσεις αξίας ενέργειας που αναπαριστώνται με πίνακες αναζήτησης (lookup tables), έγινε η απαραίτητη μείωση της κατάστασης (state reduction). Έτσι, στην συγκεκριμένη περίπτωση, ο πράκτορας χρησιμοποιούσε μια πολύ απλοποιημένη αναπαράσταση για την κατάσταση του περιβάλλοντος κόσμου, που περιείχε πληροφορίες για τα 8 (Β,ΒΔ,Δ,ΝΔ,Ν,ΝΑ,Α,ΒΑ) πλακίδια που τον χαρακτήρα που αυτός ελέγχει SARSA(λ) Ακολούθως, αναπτύχθηκαν πράκτορες που υλοποιούν τον αλγόριθμο SARSA(λ), όπως αυτός παρουσιάστηκε στο 3, με διάφορες παραλλαγές ως προς τη μέθοδο γενίκευσης και προσέγγισης συναρτήσεων αξίας που χρησιμοποιούν. Η χρήση μεθόδων γενίκευσης και προσέγγισης συναρτήσεων, αποσκοπεί στην αποδοτικότερη διαχείριστη των μεγάλων σε μέγεθος καταστάσεωμ που χαρακτηρίζουν το πεδίο. Πέραν του συνόλου των στοιχείων που παρέχονται ως έχουν από το περιβάλλον και περιγράφονται στην ενότητα 4.1.3, εισάγονται και κάποια επιπλέον χαρακτηριστικά που τροφοδοτούνται στις μεθόδους γενίκευσης. Συγκεκριμένα, αυτά περιέχουν μετακαταστάσεις (a erstates) για τον Mario και τους αντιπάλους του, τον ακέραιο δείκτη που δείχνει την οριζόντια θέση του Mario στην πίστα καθώς και την ενέργεια που επιλέχθηκε ένα βήμα πριν. 83

98 ΚΕΦΑΛΑΙΟ 4. MARIO Με IBk Η πρώτη απόπειρα χρήσης μεθόδων γενίκευσης στο πεδίο, αφορούσε τη χρήση μεθόδων μάθησης κατά περίπτωση (instance-based learning). Συγκεκριμένα, χρησιμοποιήθηκε ο αλγόριθμος IBk, όπως είναι υλοποιημένος στο λογισμικό Weka [Wi en and Frank, 2002]. Ωστόσο, η ανάπτυξή του εγκαταλείφθηκε πολύ νωρίς, εξαιτίας της μεγάλης υπολογιστικής πολυπλοκότητας του και κατά συνέπεια του πολύ αργού ρυθμού εξέλιξης της πειραματικής διαδικασίας. Mε νευρωνικό δίκτυο Στην συνέχεια, επιχειρήθηκε η χρήση νευρωνικών δικτύων ανάστροφης μετάδοσης σφάλματος (ba -propagation artificial neural networks). Η υλοποίηση βασίζεται σε τροποποιημένη έκδοση του Connectionist Q-learning framework [Kapusta, 2008]. Για την συγκεκριμένη υλοποίηση, εκτελέστηκαν τα περισσότερα πειράματα στα πλαίσια αυτής της εργασίας. Mε κωδικοποίηση πλακιδίων Ακολούθως, αναπτύχθηκε παραλλαγή του βασικού πράκτορα SARSA(λ), με χρήση κωδικοποίησης πλακιδίων. Συγκεκριμένα, η υλοποίηση βασίζεται σε κώδικα του Ri ard Su on [Su on, 2000]. Όπως αποδείχτηκε κατόπιν και στην πράξη, επιβεβαιώθηκε αυτό που αναφέρουν οι επιστήμοντες του πεδίο σχετικά με το tilecoding. Όταν το πλήθος των καταστάσεων ξεπερνά τα 10, -όπως και στην συγκεκριμένη περίπτωση, όπου η κατάσταση περιέχει 460 τουλάχισον χαρακτηριστικάοι δυνατότητες της μεθόδου είναι περιορισμένες Πράκτορες επανάληψης εμπειρίας Η ιδέα πίσω από την υλοποίηση της συγκεκριμένης κατηγορίας πρακτόρων, είναι η χειροκίνητη παροχή παραδειγμάτων επιτυχούς συμπεριφοράς σε διαφορές ΜΔΑ, με σκοπό την συστηματική εκπαίδευση των πρακτόρων που παρουσιάστηκαν συνοπτικά στην παραπάνω ενότητα, βάσει αυτών. Συγκεκριμένα, αναπτύχθηκε ένας χειροκίνητα ελεγχόμενος πράκτορας, που μπορεί να καθοδηγείται α- πό τον χρήστη στην επιτυχή ολοκλήρωση των ΜΔΑ. Στην συνέχεια, η ακολουθία ενεργειών που οδηγεί στην επιτυχή ολοκλήρωση της ΜΔΑ, αποθηκεύεται σε αρχείο. Ακολούθως, ελαφρά παραλλαγμένες εκδοχές των πρακτόρων που της ενότητας (εκτός του IBk), διαβάζουν το συγκεκριμένο αρχείο και ακολουθούν συνεχώς την επιτυχημένη ακολουθία ενεργειών που αυτό περιγράφει. Έτσι, εφόσον εκτελέσουν την παρπάνω διαδικασία επαναληπτικά για κάποιον αριθμό 84

99 4.2. ΥΛΟΠΟΙΗΣΗ ΠΡΑΚΤΟΡΩΝ επαναλήψεων, ουσιαστικά μεταβάλλουν τα βάρη που αφορούν είτε το νευρωνικό δίκτυο, είτε την κωδικοποίηση πλακιδίων ώστε αυτά να ανταποκρίνονται στην συμπεριφορά που περιγράφεται από το αρχείο αλληλουχίας ενεργειών. Στη συνέχεια, τα βάρη αυτά (που σώζονται σε αρχείο), μπορούν να χρησιμοποιηθούν ως αρχικά βάρη για τις μεθόδους της ενότητας 4.2.2, στην πρωτότυπή τους μορφή. Σχήμα 4.8: Άποψη της διεπαφής ελέγχου του πράκτορα. Σχήμα 4.9: Συνολική άποψη της διεπαφής του RL-Viz, όπου φαίνεται το αποτέλεσμα της εφαρμογής της επιλεχθείσας ενέργειας. 85

100 ΚΕΦΑΛΑΙΟ 4. MARIO Εργαλεία Ο κώδικας των πρακτόρων είναι υλοποιημένος στη γλώσσα προγραμματισμού JAVA. Για την ανάπτυξη του, χρησιμοποιήθηκε το ολοκληρωμένο περιβάλλον α- νάπτυξης (Integrated Development Environment - IDE) ανοικτού λογισμικού, Netbeans της Sun Microsystems. Επιπλέον συντάχθηκαν bash scripts για την αυτοματοποίηση διάφορων σχετικών διαδικασιών, όπως το compilation του κώδικα, η εκτέλεση πειραμάτων κλπ. Για τη διατήρηση, συντήρηση και διαχείριση του κώδικα χρησιμοποιήθηκε το σύστημα διαχείρισης εκδόσεων λογισμικού (so ware versioning system), subversion (svn). Για την διαχείριση της διαδικασίας εκτέλεσης των πειραμάτων στους απομακρυσμένους εξυπηρέτες, έγινε χρήση των εργαλείων χειρισμού ssh και nohup. ενώ για την τροποποίηση αρχείων κειμένου σε αυτούς (πηγαίος κώδικας πρακτόρων, βοηθητικών scripts), οvim editor. 4.3 Πειράματα Σχεδιασμός πειραματικής διαδικασίας Για την εκτέλεση των πειραμάτων χρησιμοποιήθηκαν δύο εξυπηρέτες του εργαστηρίου LPIS της σχολής Πληροφορικής του ΑΠΘ. Η φύση των μεθόδων που εμπλέκονται στη διαδικασία, απαιτεί τη ρύθμιση ενός μεγάλου αριθμού παραμέτρων. Ωστόσο, τα πειράματα που εκτελέστηκαν, κάλυψαν μόνο ένα μικρό εύρος των παραμέτρων αυτών. Για παράδειγμα, ενώ εξετάστηκαν αρκετές τιμές για την παράμετρο λ και δοκιμάστηκαν αρκετές τοπολογίες για το νευρωνικό δίκτυο, όσον αφορά τις μεθόδους της ενότητας 4.2.2, κάποιες άλλες παράμετροι δεν ε- ξετάστηκαν ενδελεχώς (όπως ο ρυθμός εκπαίδευσης του νευρωνικού δικτύου). Η εκτέλεση της πειραματικής διαδικασίας βασίστηκε σε ειδικό πρόγραμμα εκπαίδευσης (trainer) που αναπτύχθηκε, και απλοποίησε σε μεγάλο βαθμό τη διαδικασία, καθώς παρέχει τη δυνατότητα για εύκολη παραμετροποίηση της πειραματικής διαδικασίας και των χαρακτηριστικών των πρακτόρων (π.χ. δυνατότητα για έκπτωση της πιθανότητας επιλογής εξερευνητικής ενέργειας). Επιπλέον, με τη βοήθεια των scripts που αναφέρθηκαν στην ενότητα και με κατάλληλη υλοποίηση των πρακτόρων, η διαδικασία της εκτέλεσης πειραμάτων διευκολύνθηκε ακόμη περισσότερο. Τέλος, αξίζει να σημειωθεί, ότι η διαδικασία εκτέλεσης των πειραμάτων ήταν αρκετά χρονοβόρα, πράγμα που κάνει δύσκολη την συλλογή αποτελεσμάτων. 86

101 4.3. ΠΕΙΡΑΜΑΤΑ Αποτελέσματα Δυστυχώς, λόγω τεχνικών προβλημάτων που κατέστησαν τα συλλεχθέντα αποτελέσματα μη προσβάσιμα, η παρούσα ενότητα θα παρουσιάσει μόνον ένα πολύ μικρό δείγμα των αποτελεσμάτων από το σύνολο των πειραμάτων που διεξήχθησαν. Συγκεκριμένα παρουσιάζονται αποτελέσματα για τον πράκτορα SARSA(λ) για δύο ΜΔΑ: την προκαθορισμένη ΜΔΑ του περιβάλλοντος, καθώς και για μια ελαφρώς δυσκολότερη. Όπως φαίνεται και στις δύο, επιτελείται μάθηση, καθώς η μέση ανταμοιβή αυξάνεται με την πάροδο του χρόνου. Ειδικά μάλιστα στην πρώτη περίπτωση, ο πράκτορας συγκλίνει προς μια πολιτική που στην πλειονότητα των πnεριπτώσεων ολοκληρώνει επιτυχώς την πίστα. Σχήμα 4.10: Η εξέλιξη της μέσης αναμενόμενης ανταμοιβής στην προεπιλεγμένη ΜΔΑ (SARSA(λ + ΑΝΝ) 87

102 ΚΕΦΑΛΑΙΟ 4. MARIO Σχήμα 4.11: Η εξέλιξη της μέσης αναμενόμενης ανταμοιβής σε μια ελαφρώς δυσκολότερη ΜΔΑ (SARSA(λ + ΑΝΝ) 88

103 5 Transball Περιεχόμενα Κεφαλαίου 5.1 Περιγραφή του πεδίου Ορισμός βάσει του πλαισίου της ΕΜ Υλοποίηση Στο κεφάλαιο αυτό παρουσιάζονται κάποιες πρώιμες προσπάθειες που αφορούν τη διαδικασία μετατροπής ενός παιχνιδιού ανοικτού κώδικα, σε πεδίο έρευνας και δοκιμών για την ενισχυτική μάθηση. Το παιχνίδι ονομάζεται TransballGL και σκοπός του παίκτη είναι να κατευθύνει ένα διαστημόπλοιο σε ένα δισδιάστατο κόσμο, ώστε να φέρει σε πέρας αποστολές κλιμακούμενης δυσκολίας, αποφεύγοντας οποιαδήποτε πρόσκρουση με στοιχεία του περιβάλλοντος κόσμου. Το TransballGL είναι εμπνευσμένο κυρίως από το Zara rusta για τον Amiga 500, αλλά φέρει επίσης ορισμένες ομοιότητες με κλασικά παιχνίδια, όπως το Space Invaders και το Lunar Lander. Δεδομένου ότι το παιχνίδι δεν είναι ευρέως γνωστό, γίνεται προσπάθεια να παρουσιάστει με λεπτομέρεια, έτσι ώστε οι περισσότερες από τις σημαντικές έννοιες που σχετίζονται με τη διαδικασία μάθησης που διέπουν το προβλήμα, να είναι αρκετά σαφείς στον αναγνώστη. 5.1 Περιγραφή του πεδίου Στόχος του παιχνιδιού Στόχος του παιχνιδιού είναι η πλοήγηση ενός διαστημοπλοίου μέσα από μια σειρά εμποδίων, η σύλληψη μιας ενεργειακής σφαίρας (ball - εξού το όνομα, trans-ball) και η έλξη της στο ανώτατο άκρο της οθόνης του παιχνιδιού. Κατά τη διαδικασία αυτή, ο πράκτορας (ή παίκτης) που ελέγχει το διαστημόπλοιο, πρέπει να αναιρεί 89

104 ΚΕΦΑΛΑΙΟ 5. TRANSBALL τη συνεχή επίδραση της βαρύτητας, η οποία θεωρείται ως το κύριο εναντιωματικό στοιχείο του domain, καθώς συνεχώς ωθεί το διαστημοπλοίο στην συντριβή του στο τοπίο του κάθε επιπέδου. Κάθε επίπεδο ξεκινά με το διαστημόπλοιο τοποθετημένο κοντά στο ανώτατο άκρο της οθόνης. Ο πράκτορας εισέρχεται σε ένα τοπίο που μοιάζει με λαβύρινθο, έτσι ώστε να εντοπίσει και να ανακτήσει την σφαίρα. Κατά τη διάρκεια της αναζήτηση της σφαίρας, ή της διεξόδου (αφότου η σφαίρα εχει συλληφθεί), ο πράκτορας μπορεί να αντιμετωπίσει πολλές εναντιωματικές πτυχές του περιβάλλοντος, οι οποίες μπορούν να εμφανιστούν ως εμπόδια που παρεμβάλονται στη κίνηση του διατημόπλοιου, εχθροί που βάλλουν εναντίον του πλοίου κλπ. Επιπλέον, ο πράκτορας μπορεί να χρειαστεί να αλληλεπιδράσει με ορισμένα από αυτά (κουμπιά), προκειμένου να προκαλέσει γεγονότα που αφορούν το ουδέτερο περιβάλλον (άνοιγμα θυρών). Επιπλέον, ο πράκτορα έχει να υλοποιήσει όλους αυτούς τους στόχους, έχοντας κατά νου να αποφύγει να μείνει από καύσιμα. Μία σύγκρουση του διαστημοπλοίου στο τοπίο, ένα εμπόδιο, ή τα πυρά του εχθρού είναι αρκετά για να σημάνουν GAME OVER Βασικά Στοιχεία Ο πράκτορας κατευθύνει το διαστημόπλοιο, ουσιαστικά ελέγχοντας τον προσανατολισμο του (που μπορεί να περιστραφεί 360 deg) κι επιλέγοντας αν ο κινητήρας ώσης θα ενεργοποιηθεί ή μη. Το διαστημόπλοιο είναι εξοπλισμένο με όπλα που μπορούν να ενεργοποιηθούν εναντίων των περισσότερων εκ των εχθρικών οντοτήτων στον κόσμο του παιχνιδιού. Ο πράκτορας οφείλει να επιστρατεύει μέγιστη επιδεξιότητα και ακρίβεια κατά τον έλεγχο του διαστημοπλοίου, καθώς ελίσσεται ανάμεσα στα εμπόδια ή τα πυρά των εχθρών, καθώς ακόμη και το μικρότερο λάθος ή απόκλιση από την επιθυμητή συμπεριφορά, μπορεί να αποδειχθεί θανάσιμη. Κάθε επίπεδο / πίστα ξεκινά με το διαστημοπλοίο με ένα συγκεκριμένο ποσό καυσίμων στις δεξαμενές του.τα καυσίμα καταναλώνονται όταν οι μηχανές ώσης ενεργοποιηθούν ή τα όπλα του διαστημοπλοίου βάλλουν πυρά. Ωστόσο, τα καυσίμα μπορεί να αναπληρωθούν, με την πλοήγηση του διαστημοπλοίου εντός σταθμών ανεφοδιασμού που μπορεί (ή και όχι) να υπάρχουν στο εσωτερικό του επίπεδου. Μόλις ο πρακτορας εντοπίσει την σφαίρα ενέργειας που πρέπει να α- νακτηθεί, θα πρέπει να κάνει χρήση της ελκυτικής μηχανης για να τη συλλάβει. Όταν η σφαίρα εχει συλληφθεί, αλλάζει χρώμα από λευκό σε εκείνο του διαστημοπλοίου, και εφεξης συνεχώς προσελκύεται μόνιμα από αυτό, εφόσον βρίσκεται εντός κάποιας προκαθορισμένης ακτίνας. Το παιχνίδι διαθέτει 11 διαφορετικά πλοία, που είναι διαθέσιμα για έλεγχο από τον πράκτορα. Τα πλοία μπορούν να διαφέρουν σε δύναμη πυρός, βάρος και ειδικά πρόσθετα στοιχεία (π.χ. κινητήρες οπίσθιας ώσης, προηγμένα όπλα, ασπίδες, κ.λ.π.) με τα οποια μπορούν να είναι ε- 90

105 5.1. ΠΕΡΙΓΡΑΦΗ ΤΟΥ ΠΕΔΙΟΥ ξοπλισμένα. Στο αρχικό παιχνίδι, τυχόν ειδικές δυνατότητες που παρέχονται από το εν λόγω πρόσθετο εξοπλισμό, μπορούν να ενεργοποιηθούν ανά πάσα στιγμή από τον παίκτη, χρησιμοποιώντας το αντίστοιχο ειδικό κουμπί Γενικευμένη Δομή μιας Πίστας Τα χαρακτηριστικά των επίπεδων του Transball, μπορούν να ποικίλλουν σύμφωνα με τη δυσκολία που ο σχεδιαστής του επίπεδου θέλει να επιβάλλει. Ο τρόπος που το σχεδιαζεται το κάθε επίπεδο, θα μπορούσε επίσης να θεωρηθεί ως έμμεση περιγραφή του τρόπου που σχεδιαζεται η διαδικασια εκμάθησης. Τα ευκολότερα επίπεδα είναι υπαιθρια, γεγονός που σημαίνει ότι η σφαίρα βρίσκεται σε ένα χώρο που να είναι εύκολα προσβάσιμος, χωρίς να χρειαστεί το διαστημόπλοιο να εισελθει σε οποιοδήποτε υπόγειο λαβύρινθο. Για να γίνουν τα πράγματα πιο δύσκολα σε αυτές τις περιπτώσεις, θα μπορούσαν να πραγματοποιηθουν κάποια εμπόδια στην όλη πορεία, όπως λέιζερ ή κανόνια (περισσότερες πληροφορίες σχετικά με τις διαθέσιμα εμπόδια, ακολουθούν αργότερα). Τα επίπεδα με μεγαλύτερη δυσκολία είναι συνήθως εσωτερικού χώρου, πράγμα που σημαίνει ότι το πλοίο πρεπει να εισέλθει σε ένα υπόγειο λαβύρινθο, μέσα από συγκεκριμένα σημεία εισόδου, και μετά την ανάκτηση της σφαίρας,να διαφυγει μέσω ενός από τα σημεία εξόδου (τα οποία μπορεί να είναι τα ίδια με τα σημεία εισόδου ή οχι ). Τις περισσότερες φορές, τοποθετούνται πόρτες σε κάθε σημείο εισόδου / εξόδου. Αυτές οι πόρτες ενεργοποιούνται (ανοίγουν / σφραγίζονται) όταν συμβαίνουν συγκεκριμένα γεγονότα (όπως είναι η έλξη της μπάλας για πρώτη φορά). Τα εμπόδια που ο παίκτης θα βρει το δρόμο του προς την ανάκτηση της σφαιρας, και στη συνέχεια προς τη φυγάδευσή της, μπορούν να είναι τόσο απλα όσο στενά περάσματα, λέιζερ, κανόνια, κινούμενα καρφιά, τανκ ή ως ακόμη και κια καλά μελετημένη διαρρύθμιση πολλών από αυτα, κατά τέτοιο τρόπο ώστε να είναι εξαιρετικά δύσκολο για τον παίκτη να τα περάσει. Στις παρακάτω εικονες, παρουσιάζουμε μερικά στιγμιότυπα από τα επίπεδα του προκαθορισμένου σετ χαρτών, που έρχεται μαζι με το παιχνίδι, έτσι ώστε να αντικατοπτρίζουν καλύτερα ορισμένες από τις έννοιες που μόλις παρουσιάστηκαν Διαδραστικές Οντότητες του Περιβάλλοντος Κάθε επίπεδο αποτελείται από ελευθερο χώρο, όπου το διαστημοπλοίο μπορεί ε- λεύθερα να περιηγηθεί, και ένα τοπίο στο οποίο το πλοίο δεν θα πρέπει να συντριβεί. Το τοπίο περιέχει διαδραστικες οντότητες με τις οποίες ο πρακτορας μπορεί να αλληλεπιδράσει άμεσα ή έμμεσα. Άλλες οντότητες, απλώς ειναι διακοσμητικά αντικείμενα διασκορπισμένα στο τοπίο, τα οποία βέβαια εξακολουθούν να είναι 91

106 ΚΕΦΑΛΑΙΟ 5. TRANSBALL θανατηφορα, εάν το διαστημόπλοιο συγκρούστει πανω τους. Οι διαδραστικες οντότητες μπορούν να διαδραματίσουν είτε εναντιωματικο ρόλο στο περιβάλλον, είτε όχι. Εχθρικά Διακείμενες Το παιχνίδι διαθέτει μια ποικιλία αντικειμένων με εναντιωματική φύση (εχθρική προδιάθεση) απέναντι στον πράκτορα, τα οποία μπορούν να τοποθετηθουν μέσα στα επίπεδα, με τέτοιον τρόπο ώστε να γίνονται τα πράγματα πιο δύσκολα. Στο τμήμα αυτό περιγράφονται τα αντικείμενα αυτά λεπτομερώς. Επίσης, ακολουθούν στιγμιότυπα που παρουσιάζουν κάποιες από αυτές. Στενά περάσματα: Το πιο σύνηθες εμπόδιο που μπορεί να βρει κανείς κατά την πλοήγηση μέσω των επίπεδων του transball. Μπορεί να είναι τόσο στενα όσο η μικρότερή διάσταση του μεγέθους του διαστημοπλοίου. Λέιζερ: Λέιζερ εμπόδια τα οποία ενεργοποιούνται περιοδικά, μπλοκάροντας το δρόμο για το πλοίο, είτε οριζόντια ή κάθετα. Καρφιά: Τοποθετούνται συνήθως σε στενά περάσματα, μπλοκάροντας και ξεμπλοκάροντας τα καθώς κινούνται, γεγονός που τα καθιστά δύσκολο να περάστουν. Κανόνια: Βάλλουν εναντίον του διαστημοπλοίου περιοδικά, όταν οι αισθητήρες τους το εντοπίσουν. Υπάρχουν πολλές παραλλαγές, όπως το γρήγορο κανόνι που πυροβολει συχνότερα από το κανονικο και κανονια κατεύθυνσης που έχουν περιστρεφόμενη κανη που μπορούν να βαλουν προς κάθε κατεύθυνση σε ακτινα 180. Τανκ: Τα τανκ μπορούν να θεωρηθούν ως κινούμενα κανόνια κατεύθυνσης. Αυτό τα καθιστά ίσως τον πιο σκληρό μονό εμπόδιο που μπορεί κανείς να αντιμετωπισει. Είναι σε θέση να βάλλουν προς κάθε κατεύθυνση σε ακτινα 180. Κουμπιά: Μπορούν να ενεργοποιηθουν αν η ενεργειακή σφαίρα τα αγγίξει, με αποτέλεσμα το άνοιγμα ή το κλείσιμο μιας συγκεκριμένης θύρας. Αρχικα μπορεί να φαίνεται περίεργο γιατί έχουμε επιλέξει να τα χαρακτηρίσουμε ως εναντιωματικο στοιχείο του περιβάλλοντος. Η εξήγηση για αυτό είναι, ότι είναι εξαιρετικά δύσκολο να πλοηγηθεί το διαστημοπλοίο, με τρόπο τέτοιον ώστε, να προσελκύσει την σφαίρα κατά τέτοιο τρόπο, που να την προκαλέσει να ερθει σε επαφή και με ένα κουμπί, και συνεπώς να το ενεργοποιήσει 92

107 5.1. ΠΕΡΙΓΡΑΦΗ ΤΟΥ ΠΕΔΙΟΥ. Φυσικά, όπως προαναφέρθηκε ο πράκτορας πρέπει να τα επιτύχει όλα αυτά, χωρις να συντρίβει. Ουδέτερα Διακείμενες Η αλληλεπίδραση με ουδέτερα διαδραστικά στοιχεία είναι απαραίτητη, για την εκπλήρωση ορισμένων υποστόχων ειδικών περιπτώσεων της διαδικασιας μάθησης (επίπεδα του παιχνίδιου). Οι οντότητες αυτές, μπορεί να χαρακτηριστουν οτι εχουν ουδέτερη (ή ακόμη και θετική στην περίπτωση των σταθμών ανεφοδιασμού) προδιάθεση, απέναντι στον πράκτορα που αντιμετωπίζει τη διαδικασια μάθησης. Σφαίρα: Η σφαίρα είναι το αντικείμενο που ο πρακτορας επιθυμεί να ανακτήσει. Οι σφαίρες χρησιμοποιούνται για την ενεργοποίηση κουμπιων, που με την σειρά τους ενεργοποιούν το άνοιγμα / κλείσιμο θυρών. Πριν ανακτηθουν βρίσκονται πάνω σε ειδικά σχεδιασμένα αντικείμενα, που ονομάζονται βάσεις μπάλας. Πόρτες: Συγκεκριμένα γεγονότα μπορούν να τις κάνουν να ανοίξουν ή να κλείσουν, όπως π.χ. είναι η ανάκτηση της σφαίρας (συνήθως προκαλεί το κλείσιμο μιας θυρας) ή η ενεργοποίηση ενός κουμπιου (συνήθως προκαλεί το άνοιγμα της θύρας). Σταθμοί ανεφοδιασμού: Προσφερουν εφοδιασμό του διαστημοπλοιου με καύσιμα, όταν περνά μέσα από αυτά. (αʹ) 1ο επιπεδο (υπαιθριο) (βʹ) 2ο επιπεδο (ημι-υπαιθριο) Σχήμα 5.1: Τυπική μορφή των επιπέδων στο TransballGL 93

108 ΚΕΦΑΛΑΙΟ 5. TRANSBALL Σχήμα 5.2: Screenshot από το 13ο (απο τα 15 στο σύνολο) επίπεδο (εσωτερικό) (αʹ) (βʹ) Σχήμα 5.3: (i) Ακολουθία συνεχόμενων στενών περασμάτων (a), ενα οριζόντιο κανονικό κανόνι (b), tank (c), σφαίρες από τα κανόνια και τα tanks (d). newline bf (ii) κάθετα και οριζόντια λέιζερ (a) και (b) αντίστοιχα, κατακόρυφα κανονικά κανόνια (c), σύνθεση με συνεχόμενα κάθετα κανόνια και λέιζερ (d). 94

109 5.1. ΠΕΡΙΓΡΑΦΗ ΤΟΥ ΠΕΔΙΟΥ (αʹ) η (βʹ) Σχήμα 5.4: Εχθρικά Διακείμενες Διαδραστικές Οντότητες (i) Επιτελωντας ελιγμούς ανάμεσα από τα πυρά πολυάριθμων κανονιων κατεύθυνσης. (ii) Γρήγορο κανονι (a) το οποιο εκτοξεύει πυρά με μεγαλύτερη ταχύτητα γρηγοροτερες σφαιρες, κουμπί (b) που δραστηριοποιείται και ενεργοποιεί το άνοιγμα της πόρτας (c). (αʹ) Πριν την ενεργοποίηση του κουμπιού (βʹ) Μετά την ενεργοποίησή του Σχήμα 5.5: Ουδέτερα Διακείμμενες Διαδραστικές Οντότητες (i) Θυρα (a) που κλείνει καθώς το διαστημόπλοιο προσελκύει την μπάλα (b). Σφραγισμένη πόρτα εξόδου (c). (ii) Αφου η σφαίρα (b) αγγίξει κι ενεργοποιήσει το κουμπί (d), η πόρτα (c) ανοίγει. 95

110 ΚΕΦΑΛΑΙΟ 5. TRANSBALL 5.2 Ορισμός βάσει του πλαισίου της ΕΜ Χώρος των Ενεργειών Σύμφωνα με όσα περιγράφονται στην ενότητα 5.1.2, ο χώρος δράσης αποτελείται από διακριτές στοιχειώδεις ενέργειες. Τεχνικά, κάθε ενέργεια αναπαρίσται ως μια σειρά (πίνακας) ακέραιων, που αποτελείται από τα ακόλουθα στοιχεία: A[0] = { 1, 0, 1}, όπου το 1 αντιστοιχεί σε περιστροφή της μύτης του διαστημοπλοίου, αντίθετη με τη φορά των δεικτών του ρολογιού, 0 για καθόλου περιστροφή, και 1 σε περιστροφή σύμφωνη με τη φορά των δεικτών του ρολογιού A[1] = {0, 1}, που δείχνει αν οι κινητήρες ώθησης θα ενεργοποιηθουν (1) ή οχι (0). A[2] = {0, 1}, που δείχνει αν ο ελκυτήρας θα ενεργοποιηθεί ή οχι. A[3] = {0, 1}, που δείχνει αν το βασικό όπλο που θα βάλλει ή οχι. A[4] = {0, 1}, που δείχνει αν η ειδική ικανότητα θα ενεργοποιηθεί ή οχι Χώρος των Καταστάσεων / Παρατηρήσεων Όπως έχει τονιστεί, ο ορισμός της αναπαράστασης του χώρου των καταστάσεων είναι από τα κρισιμότερα ζητήματα που έχει να αντιμετωπίσει ο σχεδιαστής ενός πεδίου προβλήματος για την ΕΜ (και για την ΤΝ γενικότερα). Μετά από εκτεταμμένη μελέτη και συζήτηση με τον δημιουργό του παιχνιδιού, Santi Ontañón, μια προτεινόμενη αναπαράσταση θα μπορούσε να αποτελείται από τα εξής στοιχεία: 1. Μια λίστα που αποθηκεύει τα δισδιάστατα σημεία που ορίζουν τα ευθύγραμμα τμήματα, που καθορίζουν τον χώρο / τοπίο της πίστας, με τον οποίο πρέπει να αποφευχθεί η σύγκρουση του διαστημοπολοίου. Σχηματική αναπαράσταση δίνεται στην 5.6, όπου τα σημεία επισημειώνονται με κόκκινες βούλες, «μαρκαρισμένες» με x. 2. Τετράδες της μορφής (x, y, vx, vy) κι επιπλέον τύπος, για όλες τις αλληλεπιδρούσες οντότητες του περιβάλλοντος (κανόνια, λέιζερ, καρφιά, σφαίρες, κλπ.) 3. Τετράδα της μορφής (x, y, vx, vy) κι επιπλέον γωνία κατεύθυνσης και γωνιακή ταχύτητα περιστροφής, για το διαστημόπλοιο 96

111 5.2. ΟΡΙΣΜΟΣ ΒΑΣΕΙ ΤΟΥ ΠΛΑΙΣΙΟΥ ΤΗΣ ΕΜ 4. Τετράδα της μορφής (x, y, vx, vy) για την ενεργειακή σφαίρα. 5. Δίτιμη λογική μεταβλητή που ορίζει εάν το διαστημόπλοιο έχει έλξει την σφαίρα από την αρχική της θέση. 6. Ποσότητα καυσίμου που απομένει διαθέσιμη Σχήμα 5.6: Σχηματική αναπαράσταση του δισδιάστατου μονοπατιού σημείων που περιέχονται στην προτεινόμενη αναπαράσταση των καταστάσεων του πεδίου Συνάρτηση Ανταμοιβής Ολοκληρώνοντας τον ορισμό του προβλήματος βάσει του πεδίου της ενισχυτικής μάθησης, απαιτείται να οριστεί μια συνάρτηση ανταμοιβής που θα ορίζει εμμέσως, αλλά με σαφήνεια τους στόχους της μαθησιακής διαδικασίας. Μια προτεινόμενη προσέγγιση για το Transball θα μπορούσε να είναι η εξής: 1. Ανταμοιβή 0.02 για κάθε χρονικό βήμα που περνά χωρίς επιτυχή ολοκλήρωση της ΜΔΑ. 2. Ανταμοιβή +10 για την σύλληψη της σφαίρας από την αρχική της θέση. 3. Ανταμοιβή για κάθε χρονικό βήμα κατά το οποίο επιτελείται ανεφοδιασμός καυσίμου. 4. Ανταμοιβή για κάθε χρονικό βήμα κατά το οποίο η ενεργειακή σφαίρα έλκεται από το σκάφος σε κάποια συγκεκριμένη (μικρή) απόσταση. 5. Ανταμοιβή +0.1 για κάθε εχθρικά διακείμμενη οντότητα που εξολοθρεύεται. 97

112 ΚΕΦΑΛΑΙΟ 5. TRANSBALL 6. Ανταμοιβή +5 για την ενεργοποίηση ενός συγκεκριμένου κουμπιού τις μονές φορές (1η, 3η,...) και 5 αντίστοιχα για τις ζυγές (καθώς ακυρώνεται το επιθυμητό αποτέλεσμα της πρώτης ενεργοποίησης). 7. Ανταμοιβή +100 για την επιτυχημένη ολοκλήρωση της ΜΔΑ. 5.3 Υλοποίηση Για την υλοποίηση του παιχνιδιού ως πεδίο ενισχυτικής μάθησης, απαιτήθηκε εκτεταμμένη παρέμβαση στον πηγαίο κώδικα του παιχνιδιού. Οι τεχνικές δυσκολίες που συναντήθηκαν ήταν πολλές και δυσεπίλυτες. Κάποιες από αυτές δεν έχουν αντιμετωπιστεί πλήρως, αλλά με προσωρινές λύσεις που δεν είναι πλήρως αποδεκτές. Επίσης, οι τεχνικές ιδιαιτερότητες της υλοποίησης, κατέστησαν τα πράγματα ακόμη πιο δύσκολα, καθώς απαιτείται συνδυασμός λογισμικού υλοποιημένου σε JAVA, με λογισμικό υλοποιημένο σε C++, μέσω JNI. Ο συγκεκριμένος συνδυασμός γλωσσών για την ανάπτυξη λογισμικού, αν και αρκετά διαδεδομένος, παρουσιάζει αρκετές δυσκολίες κατά τη διαδικασία της εκσφαλμάτωση των παραγόμενων εφαρμογών. Η μέχρι στιγμής υλοποίηση του πεδίου, περιέχει την ολοκληρωμένη αλληλεπίδραση ενός πράκτορα που επιλέγει τυχαίες ενέργειες, με το παιχνίδι. Ως βάση για την υλοποίηση, χρησιμοποιείται (όπως και στο Mario, βλ. ενότητα 4.1.1) το RL-Viz, ενώ και το παιχνίδι έχει τροποποιηθεί κατάλληλα, ώστε να συμμορφώνεται με όσα απαιτούνται για να μπορεί να επιτευχθεί η αλληλεπίδραση. Ουσιαστικά, η σημαντικότερη εκκρεμότητα που απομένει είναι η υλοποίηση της αναπαράστασης των παρατηρήσεων του περιβάλλοντος και η αποστολή τους προς τον πράκτορα από το περιβάλλον, μέσω του RL-Viz. Το συγκεκριμένο από μόνο του αποτελεί ένα πολύ δύσκολο πρόβλημα, που επιπλέον διαδραματίζει σημαντικό ρόλο στην επιτυχή υλοποίηση του πεδίου. Τέλος, μεγάλης σημασίας εκκρεμότητα αποτελεί ο ορισμός της συνάρτησης ανταμοιβής. 98

113 5.3. ΥΛΟΠΟΙΗΣΗ Σχήμα 5.7: Στιγμιότυπο από την τρέχουσα έκδοση της υλοποίησης του πεδίου 99

Η Μηχανική Μάθηση στο Σχολείο: Μια Προσέγγιση για την Εισαγωγή της Ενισχυτικής Μάθησης στην Τάξη

Η Μηχανική Μάθηση στο Σχολείο: Μια Προσέγγιση για την Εισαγωγή της Ενισχυτικής Μάθησης στην Τάξη 6 ο Πανελλήνιο Συνέδριο «Διδακτική της Πληροφορικής» Φλώρινα, 20-22 Απριλίου 2012 Η Μηχανική Μάθηση στο Σχολείο: Μια Προσέγγιση για την Εισαγωγή της Ενισχυτικής Μάθησης στην Τάξη Σάββας Νικολαΐδης 1 ο

Διαβάστε περισσότερα

ΔΙΔΑΣΚΑΛΙΑ ΤΗΣ ΕΝΝΟΙΑΣ ΤΟΥ ΟΡΙΟΥ ΣΥΝΑΡΤΗΣΗΣ

ΔΙΔΑΣΚΑΛΙΑ ΤΗΣ ΕΝΝΟΙΑΣ ΤΟΥ ΟΡΙΟΥ ΣΥΝΑΡΤΗΣΗΣ ΕΠΙΜΟΡΦΩΣΗ ΤΩΝ ΕΚΠΑΙΔΕΥΤΙΚΩΝ ΓΙΑ ΤΗΝ ΑΞΙΟΠΟΙΗΣΗ ΚΑΙ ΕΦΑΡΜΟΓΗ ΤΩΝ ΤΠΕ ΣΤΗ ΔΙΔΑΚΤΙΚΗ ΠΡΑΞΗ ΔΙΔΑΣΚΑΛΙΑ ΤΗΣ ΕΝΝΟΙΑΣ ΤΟΥ ΟΡΙΟΥ ΣΥΝΑΡΤΗΣΗΣ ΟΡΙΟ ΣΥΝΑΡΤΗΣΗΣ ΕΞ ΑΡΙΣΤΕΡΩΝ ΚΑΙ ΕΚ ΔΕΞΙΩΝ ΣΥΓΓΡΑΦΕΑΣ: ΚΟΥΤΙΔΗΣ ΙΩΑΝΝΗΣ

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση ΚΕΦΑΛΑΙΟ 18 18 Μηχανική Μάθηση Ένα φυσικό ή τεχνητό σύστηµα επεξεργασίας πληροφορίας συµπεριλαµβανοµένων εκείνων µε δυνατότητες αντίληψης, µάθησης, συλλογισµού, λήψης απόφασης, επικοινωνίας και δράσης

Διαβάστε περισσότερα

ΕΚΠ 413 / ΕΚΠ 606 Αυτόνοµοι (Ροµ οτικοί) Πράκτορες

ΕΚΠ 413 / ΕΚΠ 606 Αυτόνοµοι (Ροµ οτικοί) Πράκτορες ΕΚΠ 413 / ΕΚΠ 606 Αυτόνοµοι (Ροµ οτικοί) Πράκτορες Θεωρία Παιγνίων Μαρκωβιανά Παιχνίδια Τµήµα Ηλεκτρονικών Μηχανικών και Μηχανικών Υ ολογιστών Πολυτεχνείο Κρήτης Ε ανάληψη Μερική αρατηρησιµότητα POMDPs

Διαβάστε περισσότερα

1 Εισαγωγή στις Συνδυαστικές Δημοπρασίες - Combinatorial Auctions

1 Εισαγωγή στις Συνδυαστικές Δημοπρασίες - Combinatorial Auctions ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ Θεωρία Παιγνίων και Αποφάσεων Διδάσκων: Ε. Μαρκάκης, Εαρινό εξάμηνο 2015 Συμπληρωματικές σημειώσεις για τον μηχανισμό VCG 1 Εισαγωγή στις Συνδυαστικές

Διαβάστε περισσότερα

Μέθοδος μέγιστης πιθανοφάνειας

Μέθοδος μέγιστης πιθανοφάνειας Μέθοδος μέγιστης πιθανοφάνειας Αν x =,,, παρατηρήσεις των Χ =,,,, τότε έχουμε διαθέσιμο ένα δείγμα Χ={Χ, =,,,} της κατανομής F μεγέθους με από κοινού σ.κ. της Χ f x f x Ορισμός : Θεωρούμε ένα τυχαίο δείγμα

Διαβάστε περισσότερα

Εκπαίδευση Ενηλίκων: Εμπειρίες και Δράσεις ΑΘΗΝΑ, Δευτέρα 12 Οκτωβρίου 2015

Εκπαίδευση Ενηλίκων: Εμπειρίες και Δράσεις ΑΘΗΝΑ, Δευτέρα 12 Οκτωβρίου 2015 Εκπαίδευση Ενηλίκων: Εμπειρίες και Δράσεις ΑΘΗΝΑ, Δευτέρα 12 Οκτωβρίου 2015 Μάθηση και γνώση: μια συνεχής και καθοριστική αλληλοεπίδραση Αντώνης Λιοναράκης Στην παρουσίαση που θα ακολουθήσει θα μιλήσουμε

Διαβάστε περισσότερα

Συνήθεις διαφορικές εξισώσεις προβλήματα οριακών τιμών

Συνήθεις διαφορικές εξισώσεις προβλήματα οριακών τιμών Συνήθεις διαφορικές εξισώσεις προβλήματα οριακών τιμών Οι παρούσες σημειώσεις αποτελούν βοήθημα στο μάθημα Αριθμητικές Μέθοδοι του 5 ου εξαμήνου του ΤΜΜ ημήτρης Βαλουγεώργης Καθηγητής Εργαστήριο Φυσικών

Διαβάστε περισσότερα

Τα Διδακτικά Σενάρια και οι Προδιαγραφές τους. του Σταύρου Κοκκαλίδη. Μαθηματικού

Τα Διδακτικά Σενάρια και οι Προδιαγραφές τους. του Σταύρου Κοκκαλίδη. Μαθηματικού Τα Διδακτικά Σενάρια και οι Προδιαγραφές τους του Σταύρου Κοκκαλίδη Μαθηματικού Διευθυντή του Γυμνασίου Αρχαγγέλου Ρόδου-Εκπαιδευτή Στα προγράμματα Β Επιπέδου στις ΤΠΕ Ορισμός της έννοιας του σεναρίου.

Διαβάστε περισσότερα

ΠΛΗ 405 Τεχνητή Νοηµοσύνη 2006. Ε ανάληψη. πεπερασµένα χρονικά περιθώρια ανά κίνηση. απευθείας αξιολόγηση σε ενδιάµεσους κόµβους

ΠΛΗ 405 Τεχνητή Νοηµοσύνη 2006. Ε ανάληψη. πεπερασµένα χρονικά περιθώρια ανά κίνηση. απευθείας αξιολόγηση σε ενδιάµεσους κόµβους ΠΛΗ 405 Τεχνητή Νοηµοσύνη Παιχνίδια Τύχης Λογικοί Πράκτορες Τµήµα Ηλεκτρονικών Μηχανικών και Μηχανικών Υ ολογιστών Πολυτεχνείο Κρήτης Ε ανάληψη Περιορισµοί χρόνου πεπερασµένα χρονικά περιθώρια ανά κίνηση

Διαβάστε περισσότερα

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R

Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R Ανάλυση Δεδομένων με χρήση του Στατιστικού Πακέτου R, Επίκουρος Καθηγητής, Τομέας Μαθηματικών, Σχολή Εφαρμοσμένων Μαθηματικών και Φυσικών Επιστημών, Εθνικό Μετσόβιο Πολυτεχνείο. Περιεχόμενα Εισαγωγή στο

Διαβάστε περισσότερα

K15 Ψηφιακή Λογική Σχεδίαση 7-8: Ανάλυση και σύνθεση συνδυαστικών λογικών κυκλωμάτων

K15 Ψηφιακή Λογική Σχεδίαση 7-8: Ανάλυση και σύνθεση συνδυαστικών λογικών κυκλωμάτων K15 Ψηφιακή Λογική Σχεδίαση 7-8: Ανάλυση και σύνθεση συνδυαστικών λογικών κυκλωμάτων Γιάννης Λιαπέρδος TEI Πελοποννήσου Σχολή Τεχνολογικών Εφαρμογών Τμήμα Μηχανικών Πληροφορικής ΤΕ Η έννοια του συνδυαστικού

Διαβάστε περισσότερα

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ. Κεφάλαιο 10. Εισαγωγή στην εκτιμητική

ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ. Κεφάλαιο 10. Εισαγωγή στην εκτιμητική ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΔΥΤΙΚΗΣ ΕΛΛΑΔΑΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΠΑΤΡΑΣ Εργαστήριο Λήψης Αποφάσεων & Επιχειρησιακού Προγραμματισμού Καθηγητής Ι. Μητρόπουλος ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΙΔΙΚΑ ΘΕΜΑΤΑ

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη. 2η διάλεξη (2015-16) Ίων Ανδρουτσόπουλος. http://www.aueb.gr/users/ion/

Τεχνητή Νοημοσύνη. 2η διάλεξη (2015-16) Ίων Ανδρουτσόπουλος. http://www.aueb.gr/users/ion/ Τεχνητή Νοημοσύνη 2η διάλεξη (2015-16) Ίων Ανδρουτσόπουλος http://www.aueb.gr/users/ion/ 1 Οι διαφάνειες αυτής της διάλεξης βασίζονται στα βιβλία: Τεχνητή Νοημοσύνη των Βλαχάβα κ.ά., 3η έκδοση, Β. Γκιούρδας

Διαβάστε περισσότερα

Κεφάλαιο 5. Αλγόριθµοι Αναζήτησης σε Παίγνια ύο Αντιπάλων. Τεχνητή Νοηµοσύνη - Β' Έκδοση

Κεφάλαιο 5. Αλγόριθµοι Αναζήτησης σε Παίγνια ύο Αντιπάλων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Κεφάλαιο 5 Αλγόριθµοι Αναζήτησης σε Παίγνια ύο Αντιπάλων Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Σακελλαρίου Αλγόριθµοι Αναζήτησης σε Παίγνια ύο Αντιπάλων

Διαβάστε περισσότερα

ΔΙΔΑΚΤΙΚΗ της ΠΛΗΡΟΦΟΡΙΚΗΣ

ΔΙΔΑΚΤΙΚΗ της ΠΛΗΡΟΦΟΡΙΚΗΣ ΕΘΝΙΚΟ ΚΑΙ ΚΑΠΟΔΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ & ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΔΙΔΑΚΤΙΚΗ της ΠΛΗΡΟΦΟΡΙΚΗΣ Μ. Γρηγοριάδου Ρ. Γόγουλου Ενότητα: Η Διδασκαλία του Προγραμματισμού Περιεχόμενα Παρουσίασης

Διαβάστε περισσότερα

Περιγραφή Προβλημάτων

Περιγραφή Προβλημάτων Τεχνητή Νοημοσύνη 02 Περιγραφή Προβλημάτων Φώτης Κόκκορας Τμ.Τεχν/γίας Πληροφορικής & Τηλ/νιών - ΤΕΙ Λάρισας Παραδείγματα Προβλημάτων κύβοι (blocks) Τρεις κύβοι βρίσκονται σε τυχαία διάταξη πάνω στο τραπέζι

Διαβάστε περισσότερα

ΠΛΗ 513-Αυτόνομοι Πράκτορες Χειμερινό εξάμηνο 2012 Εφαρμογή αλγορίθμων ενισχυτικής μάθησης στο παιχνίδι Βlackjack. Χλης Νικόλαος-Κοσμάς

ΠΛΗ 513-Αυτόνομοι Πράκτορες Χειμερινό εξάμηνο 2012 Εφαρμογή αλγορίθμων ενισχυτικής μάθησης στο παιχνίδι Βlackjack. Χλης Νικόλαος-Κοσμάς ΠΛΗ 513-Αυτόνομοι Πράκτορες Χειμερινό εξάμηνο 2012 Εφαρμογή αλγορίθμων ενισχυτικής μάθησης στο παιχνίδι Βlackjack Χλης Νικόλαος-Κοσμάς Περιγραφή παιχνιδιού Βlackjack: Σκοπός του παιχνιδιού είναι ο παίκτης

Διαβάστε περισσότερα

ΜΕΤΑ-ΑΝΑΛΥΣΗ (Meta-Analysis)

ΜΕΤΑ-ΑΝΑΛΥΣΗ (Meta-Analysis) ΚΕΦΑΛΑΙΟ 23 ΜΕΤΑ-ΑΝΑΛΥΣΗ (Meta-Analysis) ΕΙΣΑΓΩΓΗ Έχοντας παρουσιάσει τις βασικές έννοιες των ελέγχων υποθέσεων, θα ήταν, ίσως, χρήσιμο να αναφερθούμε σε μια άλλη περιοχή στατιστικής συμπερασματολογίας

Διαβάστε περισσότερα

ΜΕΘΟΔΟΙ ΒΕΛΤΙΣΤΟΠΟΙΗΣΗΣ ΑΠΟΙΚΙΑΣ ΜΥΡΜΗΓΚΙΩΝ ANT COLONY OPTIMIZATION METHODS

ΜΕΘΟΔΟΙ ΒΕΛΤΙΣΤΟΠΟΙΗΣΗΣ ΑΠΟΙΚΙΑΣ ΜΥΡΜΗΓΚΙΩΝ ANT COLONY OPTIMIZATION METHODS ΜΕΘΟΔΟΙ ΒΕΛΤΙΣΤΟΠΟΙΗΣΗΣ ΑΠΟΙΚΙΑΣ ΜΥΡΜΗΓΚΙΩΝ ANT COLONY OPTIMIZATION METHODS Χρήστος Δ. Ταραντίλης Αν. Καθηγητής ΟΠΑ ACO ΑΛΓΟΡΙΘΜΟΙ Η ΛΟΓΙΚΗ ΑΝΑΖΗΤΗΣΗΣ ΛΥΣΕΩΝ ΣΕ ΠΡΟΒΛΗΜΑΤΑ Ι