Εφαρμογι Υυςτθμάτων Εκμάκθςθσ Φαξινομθτϊν Υε Σαιχνίδια Υτρατθγικισ Σραγματικοφ Χρόνου

Transcript

1 ΑΡΙΣΟΣΕΛΕΙΟ ΠΑΝΕΠΙΣΗΜΕΙΟ ΘΕΑΛΟΝΙΚΗ ΠΟΛΤΣΕΧΝΙΚΗ ΧΟΛΗ ΣΜΗΜΑ ΗΛΕΚΣΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΤΠΟΛΟΓΙΣΩΝ Σομϋασ Ηλεκτρονικόσ και Τπολογιςτών Εργαςτόριο Επεξεργαςύασ Πληροφορύασ και Τπολογιςμών (ΕΠΤ) Εφαρμογι Υυςτθμάτων Εκμάκθςθσ Φαξινομθτϊν Υε Σαιχνίδια Υτρατθγικισ Σραγματικοφ Χρόνου Zeroth Classifier System for Real Time Strategy Games ΔΙΣΝΩΞΑΦΙΜΗ ΕΤΓΑΥΙΑ του Φςάπανου Θ. Ξιχαιλ ΑΕΞ: 5648 υπό την επίβλεψη του κ. Περικλό Α. Μότκα Καθηγητό Α.Π.Θ. Θεςςαλονίκθ Ξάρτιοσ 2010

2 ZCS4RTS Συςτήματα Ελέγχου Ταξινομητών ςε Παιχνίδια Στρατηγικήσ ii Στουσ γονείσ μου και τον αδερφό μου

3 ZCS4RTS Συςτήματα Ελέγχου Ταξινομητών ςε Παιχνίδια Στρατηγικήσ iii Ευχαριςτύεσ Υτο ςθμείο αυτό κα ικελα να ευχαριςτιςω κερμά τον κακθγθτι κ. Περικλι Α. Μιτκα για τθν εμπιςτοςφνθ που μου ζδειξε ανακζτοντάσ μου αυτι τθν διπλωματικι εργαςία και για τθν επίβλεψθ τθσ εκπόνθςθσ τθσ. Ιδιαίτερα κα ικελα να ευχαριςτιςω τον υποψιφιο διδάκτορα κ. Κυριάκο Χατηθδθμθτρίου για τθν κακοδιγθςθ που μου προςζφερε κακ όλθ τθν διάρκεια τθσ εναςχόλθςθσ μου με τθν διπλωματικι εργαςία κακϊσ και για τθν άριςτθ ςυνεργαςία μασ. Φζλοσ κα ικελα να ευχαριςτιςω τθν οικογζνεια μου και όλουσ τουσ φίλουσ μου που πάντα είναι εκεί για να με ακοφνε και να με ςτθρίηουν όποτε τουσ χρειάηομαι.

4 ZCS4RTS Συςτήματα Ελέγχου Ταξινομητών ςε Παιχνίδια Στρατηγικήσ iv ύνοψη Υτον τομζα τθσ Φεχνθτισ Οοθμοςφνθσ ζχουν αναπτυχκεί αρκετζσ μζκοδοι για τθν εκπαίδευςθ πρακτόρων λογιςμικοφ. Ξία από αυτζσ είναι θ μζκοδοσ τθσ Ενιςχυτικισ Εκμάκθςθσ ςτόχοσ τθσ οποίασ είναι θ εκπαίδευςθ ενόσ πράκτορα πάνω ςε ζνα πρόβλθμα μζςω τθσ ςυνεχοφσ και επαναλαμβανόμενθσ εναςχόλθςθσ του πράκτορα με το εκάςτοτε πρόβλθμα. Για τθν εκπαίδευςθ χρθςιμοποιείται μία ποςοτικι ανταμοιβι θ οποία προςφζρεται ςτον πράκτορα μετά από κάκε επιτυχία και ςκοπόσ του πράκτορα είναι θ μεγιςτοποίθςθ τθσ ανταμοιβισ αυτισ. Φα Υυςτιματα Εκμάκθςθσ Φαξινομθτϊν χρθςιμοποιοφν ζνα ςφνολο κανόνων οι οποίοι αντιςτοιχίηουν τισ καταςτάςεισ του πράκτορα ςε δράςεισ. Για τθν αξιολόγθςθ των κανόνων χρθςιμοποιοφν μεκόδουσ τθσ Ενιςχυτικισ Εκμάκθςθσ οι οποίεσ ςυνδυάηονται με Γενετικοφσ Αλγορίκμουσ που ζχουν ωσ ςκοπό τθν εξζλιξθ των κανόνων και τθν εφρεςθ αυτϊν που προςφζρουν τθν βζλτιςτθ λφςθ για το ςυγκεκριμζνο πρόβλθμα Ζνα από τα πιο ενδιαφζρονται πεδία δοκιμϊν για τθσ μεκόδουσ τθσ Ενιςχυτικισ Εκμάκθςθσ είναι τα Σαιχνίδια Υτρατθγικισ Σραγματικοφ Χρόνου (ΣΥΣΧ). Υε αυτό το είδοσ παιχνιδιϊν ο παίκτθσ χειρίηεται ζνα ςφνολο μονάδων και ςτόχοσ του είναι, μζςω τθσ οικονομικισ και ςτρατιωτικισ ανάπτυξθσ, θ επικράτθςθ επί του αντιπάλου. Από τθν πλευρά των πρακτόρων λογιςμικοφ τα παιχνίδια του είδουσ αποτελοφν ζνα μαρκοβιανό, μερικϊσ άγνωςτο, ςυνεχϊσ μεταβαλλόμενο και με πολφ μεγάλο χϊρο καταςτάςεων περιβάλλον. Υτθν παροφςα διπλωματικι εργαςία αναπτφξαμε ζναν πράκτορα λογιςμικοφ που παίηει το πλιρεσ ςενάριο ΣΥΣΧ και ζχει τθν δυνατότθτα να εκπαιδεφεται χρθςιμοποιϊντασ Υυςτιματα Εκμάκθςθσ Φαξινομθτϊν Ξθδενικισ Φάξθσ. Ρ πράκτορασ εκπαιδεφτθκε απζναντι ςε ζναν ςτατικό αντίπαλο αλλά ςε διαρκϊσ μεταβαλλόμενο περιβάλλον. Για τθν αξιολόγθςθ του πράκτορα ςυγκρίναμε τθν απόδοςι του με τθν απόδοςθ ενόσ πράκτορα που λαμβάνει αποφάςεισ με τυχαίο τρόπο κακϊσ και με τθν απόδοςθ ενόσ πράκτορα που χρθςιμοποιεί τον αλγόρικμο Ενιςχυτικισ Εκμάκθςθσ (SARSA) για τθν εκπαίδευςι του. Φα αποτελζςματα ζδειξαν ότι ο πράκτοράσ μασ ζχει τθν δυνατότθτα να αναπτφξει ςε ςφντομο χρόνο επιτυχθμζνεσ ςτρατθγικζσ απζναντι ςτον ςυγκεκριμζνο αντίπαλο. Η ςφγκριςθ τθσ ςυνολικισ ανταμοιβισ που ςυνζλεξε ο πράκτορασ ςε ςχζςθ με τισ ανταμοιβζσ των υπόλοιπων πρακτόρων δείχνει ότι ο πράκτορασ πετυχαίνει υψθλότερθ μζςθ ανταμοιβι τόςο από τον πράκτορα που δρα τυχαία όςο και από τον πράκτορα που χρθςιμοποιεί τον αλγόρικμο SARSA. Επίςθσ θ απόδοςθ του πράκτορα παραμζνει ςτακερι και ανεπθρζαςτθ από τθν τυχαία αρχικοποίθςθ του ςυνόλου των κανόνων που χρθςιμοποιεί. Φςάπανοσ Θ. Ξιχαιλ Φμιμα Ηλεκτρολόγων Ξθχανικϊν και Ξθχανικϊν Χπολογιςτϊν Αριςτοτζλειο Σανεπιςτιμιο Θεςςαλονίκθσ

5 ZCS4RTS Συςτήματα Ελέγχου Ταξινομητών ςε Παιχνίδια Στρατηγικήσ v Diploma Thesis Title: Zeroth Classifier Systems for Real Time Strategy Games Abstract Several ΑΙ methods aim at training a software agent in order to develop an optimal policy for a specific problem. One of these methods is Reinforcement Learning, according to which, the agent must be trained on a problem by repeatedly attempting to solve it. The agent receives a numerical reward for executing a task correctly and its goal is to maximize that reward. Learning Classifier Systems (LCS) use a set of rules, the classifiers, to map conditions into actions. For the evaluation of the classifiers, LCS use Reinforcement Learning (RL) algorithms. What differentiates LCS from other RL algorithms is the use of a Genetic Algorithm that acts on the rule set so as it can evolve and allow the rules that offer the optimal solution to survive. Real Time Strategy Games (RTS) offer an interesting test bed for RL methods. In RTS games a player controls a number of units and his goal is to dominate over his opponent through financial and military development. From an agent s point of view RTS games are a Markovian, partially observable and dynamic environment with a huge space of states. In this Diploma Thesis we developed an agent that is capable of playing the full scenario of RTS games. That means that the agent will be in charge of both the financial development and military tactics. The agent has also the ability to learn while playing and to do so it uses a Zeroth Classifier System which is best suited for Markovian environments. The opponent of our agent was static but the environment of the game was constantly changing. To evaluate our agent we compared its performance with that of an agent that acts randomly and of another agent that uses the SARSA algorithm. Results showed that our agent can develop a successful policy in a short period of time. Our agent achieved the highest mean reward from all three agents and its performance remained steady and unaffected by the random initialization of its classifier set in a series of experiments. Michael T. Tsapanos Department of Electrical and Computer Engineering Aristotle University of Thessaloniki March 2010

6 ZCS4RTS Συςτήματα Ελέγχου Ταξινομητών ςε Παιχνίδια Στρατηγικήσ vi υντομογραφύεσ-abbreviations ΣΝ (Σεχνθτι Νοθμοςφνθ) AI ( Artificial Intellingence ) ΜΜ (Μθχανικι Μάκθςθ) ML (Machine Learning) ΕΕ (Ενιςχυτικι Εκμάκθςθ) RL (Reinforcement Learning) ΠΠΧ (Παιχνίδια τρατθγικισ RTS (Real Time Strategy) Πραγματικοφ Χρόνου) ΕΣ (φςτθμα Εκμάκθςθσ LCS (Learning Classifier System) Σαξινομθτϊν ) ΕΣΜΣ (φςτθμα Εκμάκθςθσ ZCS (Zeroth Classifier System) Σαξινομθτϊν Μθδενικισ Σάξθσ) ΠΛ Πράκτορασ Λογιςμικοφ ΓΑ Γενετικόσ Αλγόρικμοσ ΜΜΛΑ (Μαρκοβιανά MDP (Markov Decision Processes) Μοντζλα Λιψθσ Αποφάςεων)

7 ZCS4RTS Συςτήματα Ελέγχου Ταξινομητών ςε Παιχνίδια Στρατηγικήσ vii Πύνακασ Περιεχομϋνων Σομϋασ Ηλεκτρονικόσ και Τπολογιςτών... 1 Σίνακασ Σεριεχομζνων Ειςαγωγι Υυνοπτικι Σεριγραφι Σροβλιματοσ Υτόχοι τθσ Διπλωματικισ Ξεκοδολογία Σεριεχόμενα τθσ Διπλωματικισ Θεωρθτικό Χπόβακρο Ειςαγωγι ΣΥΣΧ και Φεχνθτι Οοθμοςφνθ Φεχνθτι νοθμοςφνθ ςε εμπορικά ΣΥΣΧ Σροςεγγίςεισ Ερευνθτικισ Μοινότθτασ Υφςτθμα Εκμάκθςθσ Φαξινομθτϊν Γενετικοί Αλγόρικμοι Ενιςχυτικι Εκμάκθςθ και Ξαρκοβιανά Ξοντζλα Νιψθσ Αποφάςεων Ανάλυςθ Υυςτιματοσ Εκμάκθςθσ Φαξινομθτϊν Ξθδενικισ Φάξθσ Σεριβάλλον του Σαιχνιδιοφ Υτρατθγικισ Σραγματικοφ Χρόνου τθσ Σλατφόρμασ RL- Glue Σεριβάλλον Σαιχνιδιοφ Ξονάδεσ Ενιαία Σλθροφόρθςθ και Ζλλειψθ Ξνιμθσ Ξεκοδολογία Ανάπτυξθσ Σράκτορα Νειτουργία του Σράκτορα Εργάτεσ Εκτίμθςθ Ξονάδων Αντιπάλου Βάςθ Υτρατιϊτεσ... 47

8 ZCS4RTS Συςτήματα Ελέγχου Ταξινομητών ςε Παιχνίδια Στρατηγικήσ viii Ανάπτυξθ του Σράκτορα Κχνθ Eπιλεξιμότθτασ Σειράματα-Αποτελζςματα Σειράματα Υφγκριςθ Σράκτορα ZCS με πράκτορα που αποφαςίηει τυχαία Υφγκριςθ ZCS με SARSA Εφρεςθ βζλτιςτου ρυκμοφ εξζλιξθσ Σειράματα με Κχνθ Επιλεξιμότθτασ Απόδοςθ Σράκτορα ςε Διαφορετικό Σεριβάλλον Βελτίωςθ τθσ ανταμοιβισ του πράκτορα με εικονικι ανταμοιβι Υτρατθγικι που αναπτφςςεται από τον πράκτορα Υυμπεράςματα Ξελλοντικζσ Επεκτάςεισ Υυμπεράςματα Ξελλοντικζσ Επεκτάςεισ Βιβλιογραφία Σαράρτθμα A. Ανάλυςθ πράκτορα RTSSarsa... 76

9 ZCS4RTS Συςτήματα Ελέγχου Ταξινομητών ςε Παιχνίδια Στρατηγικήσ ix Λύςτα χημϊτων ΥΧΗΞΑ 2.1: ΣΑΤΑΔΕΙΓΞΑ ΝΗΨΗΥ ΑΣΡΦΑΥΕΩΟ ΥΕ ΕΟΑ ΣΥΣΧ... 8 ΥΧΗΞΑ 2.2:ΕΠΕΝΙΠΗ ΦΡΧ ΓΤΑΦΙΜΡΧ ΣΕΤΙΒΑΝΝΡΟΦΡΥ ΥΦΑ ΣΥΣΧ... 9 ΥΧΗΞΑ 2.3: DYNAMIC SCRIPTING ΥΧΗΞΑ 2.4: ΑΟΑΣΑΤΑΥΦΑΥΗ ΙΕΤΑΤΧΙΑΥ ΓΙΑ ΦΡ BATTLEGROUND [MCR + 04] ΥΧΗΞΑ 2.5: ΒΤΡΧΡΥ ΕΣΑΟΑΝΗΨΗΥ ΓΕΟΕΦΙΜΡΧ ΑΝΓΡΤΙΘΞΡΧ ΥΧΗΞΑ 2.6: ΔΙΑΓΤΑΞΞΑ ΝΕΙΦΡΧΤΓΙΑΥ ΥΧΥΦΗΞΑΦΡΥ ΕΜΞΑΘΗΥΗΥ ΦΑΠΙΟΡΞΗΦΩΟ ΥΧΗΞΑ 2.7: ΣΑΤΑΔΕΙΓΞΑ ΦΑΠΙΟΡΞΗΦΗ ΥΧΉΞΑ 2.8: ΑΣΕΙΜΟΙΥΗ ΔΙΑΥΦΑΨΤΩΥΗΥ ΦΑΠΙΟΡΞΗΦΪΟ ΥΧΉΞΑ 2.9: ΙΔΙΦΗΦΑ ΓΕΟΚΜΕΧΥΗΥ ΥΕ ZCS ΥΧΗΞΑ 2.10: ΕΣΙΜΡΙΟΩΟΙΑ ΥΦΡ ΣΕΤΙΒΑΝΝΡΟ ΦΡΧ RL-GLUE ΥΧΉΞΑ 2.11: ΧΑΤΦΗΥ ΣΑΙΧΟΙΔΙΡΧ ΥΦΤΑΦΗΓΙΜΗΥ ΥΧΗΞΑ 2.12: ΑΟΦΙΝΗΨΗ ΣΕΤΙΒΑΝΝΡΟΦΡΥ ΑΣΡ ΕΟΑΟ ΥΦΤΑΦΙΩΦΗ ΥΧΉΞΑ 2.13: ΑΣΕΙΜΡΟΙΥΗ ΕΟΙΑΙΑΥ ΣΝΗΤΡΦΡΤΙΑΥ ΥΧΗΞΑ 2.14: ΝΙΥΦΑ ΞΕ ΦΑ ΑΟΦΙΜΕΙΞΕΟΑ ΣΡΧ ΒΝΕΣΕΙ Ρ ΣΤΑΜΦΡΤΑΥ ΧΑΤΗ ΥΦΗΟ ΕΟΙΑΙΑ ΣΝΗΤΡΦΡΤΗΥΗ ΥΧΗΞΑ 2.15: ΣΑΤΑΔΕΙΓΞΑ ΕΝΝΕΙΨΗΥ ΞΟΗΞΗΥ (Α) ΥΧΗΞΑ 2.16: ΣΑΤΑΔΕΙΓΞΑ ΖΝΝΕΙΨΗΥ ΞΟΗΞΗΥ (Β) ΥΧΗΞΑ 2.17: ΣΑΤΑΔΕΙΓΞΑ ΖΝΝΕΙΨΗΥ ΞΟΗΞΗΥ (Γ) ΥΧΗΞΑ 3.1: ΔΡΞΗ ΣΤΑΜΦΡΤΑ ZCS ΥΧΗΞΑ 4.1: ΣΡΥΡΥΦΡ ΟΙΜΩΟ ΓΙΑ ΦΡΟ ΣΤΑΜΦΡΤΑ ΣΡΧ ΧΤΗΥΙΞΡΣΡΙΕΙ ZCS ΜΑΙ ΓΙΑ ΦΡΟ ΣΤΑΜΦΡΤΑ ΣΡΧ ΕΟΕΤΓΕΙ ΦΧΧΑΙΑ ΓΙΑ ΔΕΜΑ ΔΙΑΦΡΤΕΦΙΜΑ ΣΕΙΤΑΞΑΦΑ ΥΧΗΞΑ 4.2: ΥΧΟΡΝΙΜΗ ΑΟΦΑΞΡΙΒΗ ΣΤΑΜΦΡΤΑ ΣΡΧ ΧΤΗΥΙΞΡΣΡΙΕΙ ZCS ΜΑΙ ΣΤΑΜΦΡΤΑ ΣΡΧ ΕΟΕΤΓΕΙ ΦΧΧΑΙΑ ΓΙΑ ΔΕΜΑ ΔΙΑΦΡΤΕΦΙΜΑ ΣΕΙΤΑΞΑΦΑ ΥΧΗΞΑ 4.3: ΣΡΥΡΥΦΑ ΟΙΜΩΟ ΣΤΑΜΦΡΤΑ ZCS ΜΑΙ ΣΤΑΜΦΡΤΑ SARSA ΥΧΗΞΑ 4.4: ΥΧΟΡΝΙΜΗ ΑΟΦΑΞΡΙΒΗ ΣΤΑΜΦΡΤΑ ZCS ΜΑΙ ΣΤΑΜΦΡΤΑ SARSA ΥΧΗΞΑ 4.5: ΥΧΟΡΝΙΜΗ ΑΟΦΑΞΡΙΒΗ ΓΙΑ ΔΙΑΦΡΤΕΥ ΦΙΞΕΥ ΦΗΥ ΞΕΦΑΒΝΗΦΗΥ ρ ΥΧΗΞΑ 4.6: ΥΧΟΡΝΙΜΗ ΑΟΦΑΞΡΙΒΗ ΓΙΑ Τ= ΥΧΗΞΑ 4.7 :ΑΣΡΔΡΥΗ ΦΡΧ ΣΤΑΜΦΡΤΑ ΓΙΑ ΔΙΑΦΡΤΕΦΙΜΕΥ ΦΙΞΕΥ ΦΗΥ ΣΑΤΑΞΕΦΤΡΧ Ν ΥΧΗΞΑ 4.8: ΑΟΦΑΞΡΙΒΗ ΣΤΑΜΦΡΤΑ ΥΕ ΜΑΟΡΟΙΜΡ ΜΑΙ ΑΝΝΑΓΞΕΟΡ ΣΕΤΙΒΑΝΝΡΟ ΥΧΗΞΑ 4.9: ΜΑΟΡΟΙΜΗ ΜΑΙ ΕΙΜΡΟΙΜΗ ΥΧΟΑΤΦΗΥΗ ΑΟΦΑΞΡΙΒΗΥ ΥΧΗΞΑ 4.10: ΥΧΟΡΝΙΜΕΥ ΑΟΦΑΞΡΙΒΕΥ ΣΤΑΜΦΡΤΑ ΓΙΑ ΜΑΟΡΟΙΜΗ ΜΑΙ ΕΙΜΡΟΙΜΗ ΥΧΟΑΤΦΗΥΗ ΑΟΦΑΞΡΙΒΗΥ ΥΧΗΞΑ 4.11: ΑΤΧΙΜΡΣΡΙΗΥΗ ΑΣΡΘΕΞΑΦΩΟ ΣΡΤΩΟ. Α) ΕΧΟΡΛΜΗ Β) ΆΔΙΜΗ Γ) ΔΙΜΑΙΗ ΥΧΗΞΑ Α.1:ΔΡΞΗ ΣΤΑΜΦΡΤΑ RTSSARSA ΥΧΗΞΑ Α.2: ΔΙΑΟΧΥΞΑ ΞΡΟΦΕΝΡΣΡΙΗΥΗΥ ΣΕΤΙΒΑΝΝΡΟΦΡΥ ΓΙΑ ΦΡΟ SARSA ΒΑΥΗΥ... 77

10 ZCS4RTS Συςτήματα Ελέγχου Ταξινομητών ςε Παιχνίδια Στρατηγικήσ x ΥΧΗΞΑ Α.3: ΔΙΑΟΧΥΞΑ ΞΡΟΦΕΝΡΣΡΙΗΥΗΥ ΔΙΑΟΧΥΞΑΦΡΥ ΓΙΑ ΦΡΟ SARSA ΥΦΤΑΦΙΩΦΩΟ... 78

11 ZCS4RTS Συςτήματα Ελέγχου Ταξινομητών ςε Παιχνίδια Στρατηγικήσ xi Λύςτα Πινϊκων ΣΙΟΑΜΑΥ 2.1: ΥΧΓΜΤΙΥΗ ΞΕΘΡΔΡΝΡΓΙΩΟ ΣΡΧ ΕΧΡΧΟ ΧΤΗΥΙΞΡΣΡΙΗΘΕΙ ΓΙΑ ΑΟΑΣΦΧΠΗ ΦΟ ΥΕ ΣΑΙΧΟΙΔΙΑ ΣΚΟΑΜΑΥ 2.2: ΞΕΦΑΒΝΗΦΕΥ ΕΝΕΓΧΡΧ ZCS ΣΙΟΑΜΑΥ 2.3: ΦΙΞΕΥ ΦΩΟ ΙΔΙΡΦΗΦΩΟ ΦΩΟ ΞΡΟΑΔΩΟ ΣΙΟΑΜΑΥ 3.1: ΞΡΟΦΕΝΡΣΡΙΗΥΗ ΜΑΦΑΥΦΑΥΗΥ ΣΕΤΙΒΑΝΝΡΟΦΡΥ ZCS ΒΑΥΗΥ ΣΙΟΑΜΑΥ 3.2 : ΞΡΟΦΕΝΡΣΡΙΗΥΗ ΔΤΑΥΗΥ ZCS ΒΑΥΗΥ ΣΙΟΑΜΑΥ 3.3: ΞΡΟΦΕΝΡΣΡΙΗΥΗ ΣΕΤΙΒΑΝΝΡΟΦΡΥ ΓΙΑ ZCS ΥΦΤΑΦΙΩΦΩΟ ΣΙΟΑΜΑΥ 3.4: ΞΡΟΦΕΝΡΣΡΙΗΥΗ ΔΤΑΥΗΥ ZCS ΥΦΤΑΦΙΩΦΩΟ ΣΙΟΑΜΑΥ 4.1: ΑΤΧΙΜΕΥ ΦΙΞΕΥ ΞΕΦΑΒΝΗΦΩΟ ΕΝΕΓΧΡΧ ZCS ΣΙΟΑΜΑΥ 4.2: ΑΣΡΦΕΝΕΥΞΑΦΑ ΥΧΓΜΤΙΥΗΥ ΞΕΦΑΠΧ ZCS AGENT ΜΑΙ RANDOM AGENT ΣΙΟΑΜΑΥ 4.3: ΑΣΡΦΕΝΕΥΞΑΦΑ ΥΧΓΜΤΙΥΗΥ ΞΕΦΑΠΧ ZCS AGENT ΜΑΙ SARSA AGENT ΣΙΟΑΜΑΥ 4.4: ΥΧΓΜΤΙΥΗ ΣΑΝΙΡΧ ΜΑΙ ΟΕΡΧ ΣΕΤΙΒΑΝΝΡΟΦΡΥ... 65

12 ZCS4RTS Συςτήματα Ελέγχου Ταξινομητών ςε Παιχνίδια Στρατηγικήσ 1 1 Ειςαγωγό Η ιδζα τθσ τεχνθτισ νοθμοςφνθσ, τθσ ανάπτυξθσ δθλαδι οντοτιτων οι οποίεσ μποροφν να αντιλαμβάνονται το περιβάλλον ςτο οποίο βρίςκονται και να αλλθλεπιδροφν με αυτό χωρίσ τθν παρζμβαςθ του ανκρϊπου, προχπάρχει των υπολογιςτϊν κατά πολλοφσ αιϊνεσ. Σαραδείγματα τζτοιων οντοτιτων ςυναντάμε και ςτθν ελλθνικι μυκολογία με πιο χαρακτθριςτικά αυτά του Φάλου και των πλοίων των Φαιάκων. Φο πρϊτο, ςφμφωνα με τθν μυκολογία, ιταν ζνα ρομπότ το οποίο περιφρουροφςε το νθςί τθσ Μριτθσ, ενϊ τα δεφτερα ιταν, κατά τον μθρο, πλοία τα οποία είχαν τθ δυνατότθτα να πλοθγοφνται αυτόνομα. Υιμερα ο κλάδοσ τθσ τεχνθτισ νοθμοςφνθσ (ΦΟ) χωρίηεται ςε δφο βαςικοφσ τομείσ. Ρ πρϊτοσ αςχολείται με τθν καταςκευι υπολογιςτικϊν ςυςτθμάτων τα οποία ςκζφτονται ι/και δρουν ςαν άνκρωποι ενϊ ο δεφτεροσ με τθν καταςκευι ςυςτθμάτων που ςκζφτονται ι/και δρουν με βάςθ τθ λογικι *RNo + 95]. Υτθ παροφςα εργαςία μασ ενδιαφζρει περιςςότερο θ ΦΟ από τθν οπτικι γωνία του δεφτερου τομζα και ζνασ οριςμόσ τθσ ΦΟ από αυτι τθ ςκοπιά είναι ο εξισ: «Η τεχνθτι νοθμοςφνθ είναι θ μελζτθ και θ ςχεδίαςθ ζξυπνων πρακτόρων λογιςμικοφ»*pmg + 98]. Υε αυτό το ςθμείο πρζπει να ορίςουμε τθν ζννοια του πράκτορα λογιςμικοφ(σν). Σράκτορασ λογιςμικοφ είναι ζνα αυτόνομο ςφςτθμα το οποίο βρίςκεται μζςα ςε ζνα περιβάλλον και αποτελεί μζροσ του περιβάλλοντοσ αυτοφ. Φο ςφςτθμα αυτό μπορεί να αιςκάνεται το περιβάλλον του και να δρα πάνω ςε αυτό, ανά πάςα ςτιγμι, με τρόπο τζτοιο ϊςτε να μπορεί να επθρεάςει το τι κα αιςκανκεί ςτο μζλλον και με ςκοπό τθν επίτευξθ ενόσ ςυγκεκριμζνου ςτόχου *FGr + 96]. Ξε βάςθ λοιπόν τουσ παραπάνω οριςμοφσ, μποροφμε να ποφμε ότι ςτόχοσ τθσ ΦΟ, ι τουλάχιςτον ενόσ κλάδου αυτισ, είναι θ ςχεδίαςθ και θ καταςκευι αυτόνομων υπολογιςτικϊν ςυςτθμάτων τα οποία κα δρουν μζςα ςε ζνα περιβάλλον προςπακϊντασ να πραγματοποιιςουν, με τον καλφτερο δυνατό τρόπο, τον ςτόχο τουσ, ο οποίοσ μπορεί να είναι είτε θ νίκθ ςε ζνα θλεκτρονικό παιχνίδι είτε θ οδιγθςθ ενόσ αυτοκινιτου διαμζςου τθσ εριμου Ξοχάβε *URL3]. Σαρόλο που ςτθν εποχι μασ οι υπολογιςτζσ, με τθ ςυνεχϊσ αυξανόμενθ υπολογιςτικι τουσ ιςχφ και τισ ςυνεχϊσ βελτιωμζνεσ

13 ZCS4RTS Συςτήματα Ελέγχου Ταξινομητών ςε Παιχνίδια Στρατηγικήσ 2 τεχνικζσ ΦΟ, μασ προςφζρουν δυνατότθτεσ αδιανόθτεσ μζχρι πριν από μερικά χρόνια, εξακολουκοφν να αντιμετωπίηουν δυςκολίεσ όταν τουσ κζτουμε αντιμζτωπουσ με απλά, για τουσ ανκρϊπουσ, προβλιματα. Ρ κλάδοσ τθσ μθχανικισ μάκθςθσ (ΞΞ) αςχολείται με τθν ανάπτυξθ μεκόδων που χρθςιμοποιοφνται ςτθν εκπαίδευςθ ΣΝ. Ρι κφριεσ μεκοδολογίεσ που ακολουκοφνται είναι τρείσ: α) θ επιβλεπόμενθ μάκθςθ (supervised learning) κατά τθν οποία ο εκπαιδευτισ υποδεικνφει ςτον πράκτορα τθν ςωςτι δράςθ (ςτθν ουςία τον εκπαιδεφει), β) θ μθ επιβλεπόμενθ μάκθςθ (unsupervised learning) ςτθν οποία δεν υπάρχουν ςωςτζσ ι λάκοσ επιλογζσ αλλά οφτε και εκπαιδευτισ (οι πράκτορεσ που δρουν ςε περιβάλλοντα μθ επιβλεπόμενθσ εκμάκθςθσ χρθςιμοποιοφνται κυρίωσ για αναγνϊριςθ προτφπων και κανονικοτιτων μζςα ςε μεγάλα ςφνολα δεδομζνων) και γ) θ ενιςχυτικι εκμάκθςθ (ΕΕ) κατά τθν οποία δεν υπάρχει εκπαιδευτισ για να υποδεικνφει ςτον πράκτορα αν θ δράςθ που αυτόσ επζλεξε είναι ςωςτι ι όχι, αλλά του προςφζρεται, με τθν μορφι ανταμοιβισ από το περιβάλλον, μια ζνδειξθ για τθν ορκότθτα των πράξεϊν του και με αυτό τον τρόπο ο πράκτορασ εκπαιδεφεται μόνοσ του. Φo Σφςτθμα Εκμάκθςθσ Ταξινομθτϊν (Learning Classifier System, LCS) [Hol + 75] είναι ζνα ςφςτθμα εκπαίδευςθσ πρακτόρων λογιςμικοφ το οποίο κεωρείται υποκατθγορία τθσ ΕΕ. Αποτελείται από ζνα ςφνολο κωδικοποιθμζνων κανόνων που ονομάηονται ταξινομθτζσ και οι οποίοι χρθςιμοποιοφνται από ζναν ΣΝ για τθν επίλυςθ ενόσ ςυγκεκριμζνου προβλιματοσ. Ρι ταξινομθτζσ αποτελοφνται από το τμιμα τθσ κατάςταςθσ, που ενθμερϊνει τον ΣΝ για τθν κατάςταςθ ςτθν οποία βρίςκεται το περιβάλλον του πράκτορα, και από το τμιμα τθσ δράςθσ που υποδεικνφει ςτον πράκτορα τθν δράςθ που πρζπει να αναλάβει για να επιτφχει τον ςτόχο του. Αυτό που το διαφοροποιεί από τουσ υπόλοιπουσ αλγόρικμουσ ΕΕ είναι θ χριςθ ενόσ γενετικοφ αλγόρικμου ο οποίοσ αποςκοπεί ςτθν εξζλιξθ των κανόνων του ςυςτιματοσ με τζτοιο τρόπο ϊςτε να επιβιϊςουν οι κανόνεσ που κα επιφζρουν τθν υψθλότερθ ανταμοιβι (ςφμφωνα με τθν κεωρία του Δαρβίνου για τθν επιβίωςθ του ιςχυρότερου) και άρα κα οδθγιςουν ςτθ βζλτιςτθ λφςθ για το εκάςτοτε πρόβλθμα. Φα θλεκτρονικά παιχνίδια ζκαναν τθν εμφάνιςι τουσ ςτα τζλθ τθσ δεκαετίασ του 1940 *URL1]. Η εξζλιξι τουσ ιταν πάντα ςυνδεδεμζνθ με αυτι των υπολογιςτϊν και ςιμερα αποτελοφν μια βιομθχανία πολλϊν διςεκατομμυρίων. Μάκε χρόνο κυκλοφοροφν παιχνίδια με ςυνεχϊσ βελτιωμζνα γραφικά και όλο και πιο ευφάνταςτα ςενάρια. Ξόνο τα τελευταία χρόνια ζχουν αρχίςει οι εταιρίεσ να ενδιαφζρονται για τθν ανάπτυξθ του game AI, τθν ενςωμάτωςθ δθλαδι ςτα παιχνίδια τουσ πρακτόρων λογιςμικοφ που κα εκμεταλλεφονται τισ δυνατότθτεσ τθσ ΦΟ. Σαράλλθλα ζχει αναπτυχκεί τελευταία ζνα ιςχυρό ενδιαφζρον για τα θλεκτρονικά παιχνίδια από τθν πανεπιςτθμιακι κοινότθτα, κυρίωσ για τθν κατθγορία των παιχνιδιϊν ςτρατθγικισ, και ο λόγοσ είναι ότι μποροφν να χρθςιμοποιθκοφν επιτυχϊσ ωσ πεδία δοκιμϊν (test beds) για τθν ανάπτυξθ πρακτόρων λογιςμικοφ που κα υλοποιοφν τεχνικζσ τθσ ΦΟ.

14 ZCS4RTS Συςτήματα Ελέγχου Ταξινομητών ςε Παιχνίδια Στρατηγικήσ 3 Φα παιχνίδια ςτρατθγικισ πραγματικοφ χρόνου (ΣΥΣΧ) αποτελοφν μια πολφ δθμοφιλι κατθγορία παιχνιδιϊν. Ανάμεςα ςτουσ πιο δθμοφιλείσ τίτλουσ που ζχουν κυκλοφοριςει είναι θ ςειρά Age of Empires τθσ Microsoft, θ ςειρά Command & Conquer τθσ EA και πολλά άλλα. Υε αυτό το είδοσ παιχνιδιϊν ο κάκε παίκτθσ πρζπει να ελζγξει ζνα ςφνολο μονάδων οι οποίεσ κινοφνται ελεφκερα πάνω ςε ζναν χάρτθ. Ρι κφριεσ κατθγορίεσ μονάδων, και οι οποίεσ υπάρχουν ςχεδόν ςε κάκε παιχνίδι, είναι οι εργάτεσ και οι ςτρατιϊτεσ. Ρ παίκτθσ κάκε ςτιγμι μπορεί να βλζπει το τμιμα του χάρτθ μζςα ςτο οποίο κινοφνται οι δικζσ του μονάδεσ. Ρι εργάτεσ χρθςιμοποιοφνται από τον παίκτθ για τθν καταςκευι κτιρίων και για τθν ςυλλογι πόρων. Ρι πόροι, ανάλογα με το παιχνίδι, μπορεί να αποτελοφνται είτε από ζνα μόνο είδοσ, όπωσ για παράδειγμα χριματα, είτε από πολλά όπωσ χρυςάφι, φαγθτό, ξφλο κτλ. Υε κάκε περίπτωςθ οι πόροι χρθςιμοποιοφνται για τθν δθμιουργία περιςςότερων εργατϊν, για τθν καταςκευι κτθρίων και για τθν δθμιουργία ςτρατιωτϊν. Από τα κτιρια ο παίκτθσ μπορεί να δθμιουργιςει περιςςότερουσ εργάτεσ ι ςτρατιϊτεσ. Ρι τελευταίοι χρθςιμοποιοφνται για τθν άμυνα τθσ βάςθσ κακϊσ και για επικζςεισ ςτθν βάςθ του αντιπάλου. Υκοπόσ του παίκτθ είναι να μπορζςει να επιβλθκεί του αντιπάλου με ςτρατιωτικά μζςα. Δθλαδι να καταςτρζψει τθν βάςθ του αντιπάλου. Μφριο ςτοιχείο που διαχωρίηει αυτό το είδοσ παιχνιδιϊν από τα υπόλοιπα παιχνίδια ςτρατθγικισ (όπωσ τα παιχνίδια που παίηονται ςε γφρουσ, turn-based) είναι ότι θ δράςθ λαμβάνει χϊρα ςε πραγματικό χρόνο και οι αντίπαλεσ πλευρζσ δρουν ταυτόχρονα. Ξε βάςθ όλα τα παραπάνω μποροφμε να ποφμε ότι τα ΣΥΣΧ αποτελοφν ζνα διαρκϊσ μεταβαλλόμενο, μερικϊσ παρατθρίςιμο περιβάλλον, με ζναν τεράςτιο χϊρο καταςτάςεων, όπου θ εξεφρεςθ μιασ επιτυχθμζνθσ ςτρατθγικισ από ζναν ΣΝ αποτελεί ςθμαντικι πρόκλθςθ. 1.1 Συνοπτικό Περιγραφό Προβλόματοσ Υτθν παροφςα διπλωματικι εργαςία κα αςχολθκοφμε με τθν δθμιουργία ενόσ ΣΝ ο οποίοσ κα μπορεί να παίηει ζνα ΣΥΣΧ. Ρ ΣΝ κα πρζπει να ζχει τθν δυνατότθτα να αντιλαμβάνεται το περιβάλλον του, να αλλθλεπιδρά με αυτό και να μπορεί να μακαίνει καλφτερεσ ςτρατθγικζσ για τθν επίλυςθ του προβλιματοσ. Φο ΣΥΣΧ που κα χρθςιμοποιθκεί αποτελεί τμιμα τθσ πλατφόρμασ RL-GLUE θ οποία χρθςιμοποιείται ςτουσ ετιςιουσ διαγωνιςμοφσ που διοργανϊνει θ ερευνθτικι κοινότθτα τθσ ΕΕ *URL2]. Φο ΣΥΣΧ αποτελοφςε κατθγορία του διαγωνιςμοφ του 2008 αλλά όχι και του 2009, ενϊ οι κατθγορίεσ για το 2010 δεν ζχουν ανακοινωκεί ακόμα. Σρόκειται για μια απλοποιθμζνθ εκδοχι των ΣΥΣΧ που διατθρεί όμωσ τα βαςικά χαρακτθριςτικά των παιχνιδιϊν αυτοφ του είδουσ. Αυτό ςθμαίνει ότι ο ΣΝ ζχει υπό τον ζλεγχό του εργάτεσ για τθν ςυγκζντρωςθ πόρων (οι οποίοι αναπαριςτϊνται ωσ αποκζματα χρυςοφ), ςτρατιϊτεσ για τθν άμυνα τθσ βάςθσ ι επίκεςθ ςτον αντίπαλο, και μια κεντρικι βάςθ. Υκοπόσ του παιχνιδιοφ είναι θ καταςτροφι τθσ αντίπαλθσ βάςθσ. Ρ ΣΝ κα μπορεί να αιςκάνεται το περιβάλλον του μερικϊσ και αυτό γιατί κα

15 ZCS4RTS Συςτήματα Ελέγχου Ταξινομητών ςε Παιχνίδια Στρατηγικήσ 4 λαμβάνει ενθμζρωςθ μόνο για το τμιμα του χάρτθ μζςα ςτο οποίο κινοφνται οι δικζσ του μονάδεσ ενϊ το υπόλοιπο παραμζνει άγνωςτο. Η μζκοδοσ που κα χρθςιμοποιθκεί για τθν υλοποίθςθ του ΣΝ κα είναι αυτι του LCS. Ρ πράκτορασ δεν κα ελζγχει πλιρωσ όλεσ τισ κινιςεισ των μονάδων, αλλά κα δίνει εντολζσ ανωτζρου επιπζδου, ςαν ζνα είδοσ διοικθτι. Για τθν εκπαίδευςθ του πράκτορα κα χρθςιμοποιθκοφν οι κανόνεσ του διαγωνιςμοφ. Μάκε επειςόδιο του παιχνιδιοφ ξεκινάει με ζναν εργάτθ για κάκε πλευρά τοποκετθμζνο ςε τυχαίεσ αρχικζσ κζςεισ και τελειϊνει όταν κάποια πλευρά καταςτρζψει τθν βάςθ τθσ άλλθσ ι μετά από χρονικά βιματα οπότε το επειςόδιο λιγει ιςόπαλο. Αν ο ΣΝ κερδίςει, λαμβάνει τθν ανταμοιβι που του αναλογεί. Υε περίπτωςθ ιςοπαλίασ ο πράκτορασ ανταμείβεται αλλά με αιςκθτά μικρότερθ ανταμοιβι ενϊ, αν χάςει, θ ανταμοιβι του είναι μθδζν. Ζνα πείραμα διαρκεί 3,75*10 6 χρονικά βιματα και μζςα ςε αυτό το χρονικό διάςτθμα ο πράκτορασ κα πρζπει να κερδίςει όςο το δυνατόν περιςςότερα επειςόδια μπορεί. Αυτό ςθμαίνει ότι ζνασ καλόσ ΣΝ κα πρζπει να κερδίηει ςυχνά αλλά και γριγορα ϊςτε να παίξει όςο περιςςότερα επειςόδια μπορεί. 1.2 Στόχοι τησ Διπλωματικόσ Υτόχοσ τθσ παροφςασ εργαςίασ είναι θ δθμιουργία ενόσ ΣΝ, που κα χρθςιμοποιεί LCS, ο οποίοσ κα παίηει ζνα ΣΥΣΧ και κα ζχει τθν δυνατότθτα να εκπαιδευτεί πάνω ςτο ςυγκεκριμζνο παιχνίδι ϊςτε να αναπτφξει ςωςτζσ ςτρατθγικζσ που κα του επιφζρουν τθν μζγιςτθ δυνατι ανταμοιβι. Ρ χϊροσ καταςτάςεων ςε ζνα ΣΥΣΧ είναι τεράςτιοσ. Αυτό γίνεται εφκολα αντιλθπτό αν λάβουμε υπόψθ μασ τον μεγάλο αρικμό μονάδων που βρίςκονται πάνω ςτον χάρτθ και οι οποίεσ μποροφν κινοφνται ελεφκερα μζςα ςε αυτόν και να αλλάηουν κζςθ ανά πάςα ςτιγμι. Αυτό καταδεικνφει τθ ςθμαντικότθτα τθσ ςωςτισ μοντελοποίθςθσ του περιβάλλοντοσ του παιχνιδιοφ που κα χρθςιμοποιθκεί από το LCS. Υτόχοσ είναι το τμιμα του ταξινομθτι που ενθμερϊνει τον πράκτορα για τθν κατάςταςθ του περιβάλλοντοσ να περιζχει όςο το δυνατόν περιςςότερεσ πλθροφορίεσ, ϊςτε να μπορζςει ο πράκτορασ να λάβει ςωςτζσ αποφάςεισ και να αναπτφξει επιτυχείσ ςτρατθγικζσ, και ταυτόχρονα να είναι περιοριςμζνο ςε μικοσ ϊςτε να περιοριςτεί το μζγεκοσ του χϊρου καταςτάςεων ςτον οποίο ο πράκτορασ κα πρζπει να ψάξει. Φο LCS περιλαμβάνει ζνα ςφνολο από μεταβλθτζσ οι οποίεσ ρυκμίηουν τθν λειτουργία του πράκτορα. Θα πρζπει λοιπόν να γίνουν τα απαραίτθτα πειράματα που κα μασ επιτρζψουν να βροφμε τισ τιμζσ των μεταβλθτϊν αυτϊν για τισ οποίεσ ο πράκτορασ επιτυγχάνει τθν βζλτιςτθ απόδοςθ. Για να μπορζςουμε να αξιολογιςουμε τθν απόδοςθ του πράκτορα κα χρειαςτεί να τον ςυγκρίνουμε με κάποιον άλλο πράκτορα που κα υλοποιεί ζνα διαφορετικό αλγόρικμο.

16 ZCS4RTS Συςτήματα Ελέγχου Ταξινομητών ςε Παιχνίδια Στρατηγικήσ Μεθοδολογύα Για τθν ανάπτυξθ του ΣΝ χρθςιμοποιικθκε ο αλγόρικμοσ LCS και ςυγκεκριμζνα μιασ παραλλαγισ αυτοφ με τθν ονομαςία Σφςτθμα Εκμάκθςθσ Ταξινομθτϊν Μθδενικισ Τάξθσ (Zeroth Classifier System, ZCS) [Wil + 94]. Ρ κϊδικασ για τον ςυγκεκριμζνο αλγόρικμο ςε γλϊςςα προγραμματιςμοφ JAVA προςφζρεται ςτθν θλεκτρονικι διεφκυνςθ του UEA (University of East Anglia) [URL4]. Υτθ ςυγκεκριμζνθ περίπτωςθ το ZCS χρθςιμοποιείται για τθν επίλυςθ του προβλιματοσ του δάςουσ κατά το οποίο ζνα κινθτό εξερευνεί το περιβάλλον του (ζνα δάςοσ το οποίο αναπαρίςταται ωσ ζνα καρτεςιανό επίπεδο χωριςμζνο ςε τετράγωνα) και ζχει ωσ ςτόχο τθν εφρεςθ του τετραγϊνου που περιζχει τθν τροφι κάνοντασ τα ελάχιςτα δυνατά βιματα. Ξε τισ κατάλλθλεσ προςαρμογζσ ο κϊδικασ του ZCS εφαρμόςτθκε ςτον ΣΝ που κα παίηει το ΣΥΣΧ. Φο τμιμα του κϊδικα που είναι υπεφκυνο για τθν κίνθςθ και τθν ςυμπεριφορά των μονάδων αλλά και για τθν μετάφραςθ των δράςεων που αποφαςίηει να αναλάβει το ZCS ςε κινιςεισ πάνω ςτο χάρτθ αποτελεί κομμάτι ενόσ ΣΝ που δθμιουργικθκε για τον διαγωνιςμό RL- Competition του 2008 [URL2] από τον Marc Lanctot. Ρ κϊδικασ του ΣΝ μοιράηεται ελεφκερα me άδεια χριςθσ ελεφκερου λογιςμικοφ (GNU General Public License). Ρ ςυγκεκριμζνοσ πράκτορασ υλοποιεί τον αλγόρικμο SARSA ο οποίοσ αποτελεί κλαςικό αλγόρικμο τθσ ΕΕ [SBa Υτον πράκτορα αυτόν ζγιναν οι απαραίτθτεσ αλλαγζσ ϊςτε να εφαρμοςτεί ο κϊδικασ του ZCS. Υτο υπόλοιπο τμιμα του κϊδικα, ςτο τμιμα δθλαδι που είναι υπεφκυνο για τθν κίνθςθ και τθν εν γζνει ςυμπεριφορά των μονάδων, ζγιναν ελάχιςτεσ αλλαγζσ και αυτό για να μποροφμε να ζχουμε μια καλφτερθ ςφγκριςθ ανάμεςα ςτουσ δφο αλγόρικμουσ. Ρ ΣΝ που δθμιουργικθκε αποτελείται ςτθν ουςία από τρείσ διαφορετικοφσ πράκτορεσ. Ρ πρϊτοσ είναι υπεφκυνοσ για τον ζλεγχο τθσ βάςθσ και χρθςιμοποιεί ζνα ZCS για να αποφαςίηει αν, ςτθν εκάςτοτε χρονικι ςτιγμι, θ βάςθ κα εκπαιδεφςει ζναν ςτρατιϊτθ ι ζναν εργάτθ. Ρ δεφτεροσ ελζγχει και δίνει εντολζσ ςτουσ ςτρατιϊτεσ χρθςιμοποιϊντασ ζνα δικό του ZCS ξεχωριςτό από το ZCS που χρθςιμοποιεί πράκτορασ τθσ βάςθσ. Ρ τρίτοσ πράκτορασ είναι υπεφκυνοσ για τον ζλεγχο των εργατϊν και ςε αντίκεςθ με τουσ δφο προθγοφμενουσ δεν μακαίνει κάποια ςτρατθγικι αλλά ζχει ζναν ςτατικό αλγόρικμο ο οποίοσ οδθγεί τουσ εργάτεσ ςτα αποκζματα χρυςοφ ϊςτε αυτοί να τον μεταφζρουν ςτθ βάςθ. Ρ λόγοσ που ο πράκτορασ των εργατϊν δεν μακαίνει κάποια ςτρατθγικι είναι επειδι ςτο παιχνίδι υπάρχει μόνο ζνα είδοσ πόρου. Αν το παιχνίδι είχε πολλά είδθ πόρων (χρυςάφι φαγθτό, ξφλο κτλ.), όπωσ ςυμβαίνει ςε πολλά εμπορικά παιχνίδια, τότε θ χριςθ ενόσ ZCS κα κρίνονταν απαραίτθτθ κακϊσ ο πράκτορασ κα ζπρεπε να μάκει να μαηεφει τουσ διάφορουσ πόρουσ ςτισ ςωςτζσ αναλογίεσ.

17 ZCS4RTS Συςτήματα Ελέγχου Ταξινομητών ςε Παιχνίδια Στρατηγικήσ 6 Ζνα από τα πιο ςθμαντικά τμιματα του ΣΝ είναι θ μοντελοποίθςθ του περιβάλλοντόσ του, οι πλθροφορίεσ που κα ζχει δθλαδι ο πράκτορασ ςτθ διάκεςι του πριν λάβει μια απόφαςθ. Μαι όπωσ ςυμβαίνει όταν ζνασ άνκρωποσ παίηει ζνα ΣΥΣΧ, ίςωσ οι πιο ςθμαντικζσ από τισ πλθροφορίεσ είναι αυτζσ που μασ ενθμερϊνουν για τθν κατάςταςθ του αντιπάλου. Αυτόσ είναι ο λόγοσ που κατά τθν ανάπτυξθ του πράκτορα δόκθκε μεγάλθ βαρφτθτα ςτθν εκτίμθςθ του αρικμοφ των μονάδων του αντιπάλου, κακϊσ το ίδιο το παιχνίδι επιτρζπει ςτον πράκτορα να ζχει γνϊςθ μόνο για το τμιμα του χάρτθ ςτο οποίο ζχει μονάδεσ (όπωσ ςυμβαίνει δθλαδι ςχεδόν ςε όλα τα εμπορικά παιχνίδια του είδουσ). Υτθ ςυνζχεια διεξιχκθςαν πειράματα τόςο με τον πράκτορα που δθμιουργιςαμε τόςο και με τον πράκτορα που υλοποιεί τον αλγόρικμο SARSA ϊςτε να ζχουμε ζνα μζτρο ςφγκριςθσ. Φα πειράματα είχαν ωσ ςτόχο να ελζγξουν τθν ςτακερότθτα του πράκτορα (δθλαδι τθν ικανότθτά του να λαμβάνει τθν ίδια ανταμοιβι ςε κάκε πείραμα) και να επιλεχκοφν οι τιμζσ των μεταβλθτϊν που ελζγχουν το ZCS για τισ οποίεσ μεγιςτοποιείται θ ανταμοιβι του πράκτορα. Ζπειτα ζγιναν κάποιεσ προςπάκειεσ για περαιτζρω βελτίωςθ τθσ ανταμοιβισ που επιτυγχάνει ο πράκτορασ χρθςιμοποιϊντασ πρακτικζσ τθσ ΕΕ και ακολοφκθςαν πειράματα για τον ζλεγχο τθσ αποτελεςματικότθτάσ τουσ. 1.4 Περιεχόμενα τησ Διπλωματικόσ Υτο κεφάλαιο 2 γίνεται ανάλυςθ του απαραίτθτου κεωρθτικοφ υπόβακρου, που περιλαμβάνει τισ ζννοιεσ τθσ ΕΕ και τισ προςπάκειεσ εφαρμογισ τθσ ςε παιχνίδια ςτρατθγικισ. Επεξθγείται πλιρωσ θ λειτουργία του LCS και ZCS και αναφζρονται εφαρμογζσ που χρθςιμοποιοφν τα ςυςτιματα αυτά για εκπαίδευςθ πρακτόρων. Φζλοσ επεξθγείται το ΣΥΣΧ το οποίο κα χρθςιμοποιιςουμε και αναλφεται το περιβάλλον μζςα ςτο οποίο καλείται να δράςει ο πράκτορασ. Υτο κεφάλαιο 3 επεξθγείται πλιρωσ θ δομι και ο τρόποσ λειτουργίασ του ΣΝ που δθμιουργικθκε. Υτο κεφάλαιο 4 αναλφεται ο τρόποσ διεξαγωγισ των πειραμάτων, παρουςιάηονται πειράματα που ζγιναν και τα αποτελζςματά τουσ. Φζλοσ ςτο κεφάλαιο 5 καταγράφονται τα ςυμπεράςματα τθσ διπλωματικισ και προτείνονται κάποιεσ μελλοντικζσ επεκτάςεισ.

18 ZCS4RTS Συςτήματα Ελέγχου Ταξινομητών ςε Παιχνίδια Στρατηγικήσ 7 2 Θεωρητικό Υπόβαθρο 2.1 Ειςαγωγό Ζνα ςθμαντικό ςτοιχείο για τθν επίτευξθ τθσ νίκθσ ςε ζνα ΣΥΣΧ είναι θ ικανότθτα του παίκτθ να αναλφει τθν κατάςταςθ του περιβάλλοντοσ του παιχνιδιοφ και να αναλαμβάνει τθν κατάλλθλθ δράςθ τθν ςωςτι ςτιγμι. Ζνα απλό παράδειγμα είναι το εξισ: Ζςτω ότι ο παίκτθσ Α δεν ζχει αρκετοφσ ςτρατιϊτεσ επιφορτιςμζνουσ με τθν άμυνα τθσ κεντρικισ του βάςθσ. Ζςτω επίςθσ ότι με κάποιο τρόπο ο παίκτθσ αυτόσ αντιλαμβάνεται ότι ςφντομα θ βάςθ του κα δεχκεί επίκεςθ. Η λογικι λζει ότι θ δράςθ που ο παίκτθσ Α πρζπει να αναλάβει είναι θ δθμιουργία περιςςότερων ςτρατιωτϊν για να αποκροφςει τθν επίκεςθ. Υε περίπτωςθ που ο παίκτθσ δεν ζχει τθν δυνατότθτα να δθμιουργιςει περιςςότερο ςτρατό (λόγω χαμθλϊν αποκεμάτων ςε πόρουσ) κα πρζπει να δϊςει καινοφριεσ εντολζσ ςε ςτρατιϊτεσ που ίςωσ βρίςκονται πιο μακριά και εκτελοφν μια διαφορετικι εργαςία και να τουσ καλζςει πίςω ςτθ βάςθ. Φο μόνο βζβαιο είναι ότι ο παίκτθσ πρζπει να προςτατζψει τθν κεντρικι του βάςθ αν κζλει να ςυνεχίςει να ζχει πικανότθτεσ για να κερδίςει το παιχνίδι. Φο αν κα καταφζρει να αμυνκεί επιτυχθμζνα αποτελεί ζνα τελείωσ διαφορετικό, και αβζβαιο, γεγονόσ. Είναι παρόλα αυτά ςίγουρο ότι θ άμυνα τθσ βάςθσ είναι θ ςωςτότερθ δράςθ που ο παίκτθσ μπορεί να λάβει. Εν ςυνεχεία ασ υποκζςουμε ότι ο παίκτθσ Α απζκρουςε επιτυχϊσ τθν επίκεςθ του αντιπάλου. Η δράςθ που μπορεί να λάβει ςτθ ςυνζχεια είναι είτε να αναςυνταχκεί και να ςυγκεντρϊςει περιςςότερο ςτρατό, για να είναι καλφτερα προετοιμαςμζνοσ ςτθν επόμενθ επίκεςθ του αντιπάλου, είτε να περάςει ςτθν αντεπίκεςθ με τον ςτρατό που του ζχει απομείνει ελπίηοντασ ότι κα βρει τον αντίπαλο απροετοίμαςτο. Υε αυτιν τθν περίπτωςθ ο παίκτθσ δεν ζχει όλεσ τισ απαραίτθτεσ πλθροφορίεσ που κα τον βοθκοφςαν να πάρει τθν ςωςτι απόφαςθ και το ποια από τισ δφο δράςεισ κα οδθγιςει τελικά ςτθ νίκθ είναι άγνωςτο. Για να μάκει να αποφαςίηει ςωςτά ο παίκτθσ κα πρζπει να βρεκεί ςε αυτι τθν κατάςταςθ αρκετζσ φορζσ και να μάκει να κρίνει ποια από τισ δφο δράςεισ είναι ορκότερθ. Θα πρζπει δθλαδι να αποκτιςει εμπειρία. Φο παραπάνω παράδειγμα εμφανίηεται και διαγραμματικά ςτο Υχιμα 2.1.

19 ZCS4RTS Συςτήματα Ελέγχου Ταξινομητών ςε Παιχνίδια Στρατηγικήσ 8 Ματάςταςθ Δράςθ Ρρκότθτα Επιλογισ Ξικρόσ Αρικμόσ Υτρατιωτϊν Υτθν Άμυνα & Επίκεςθ Αντιπάλου Αυξθςθ τθσ δφναμθσ που υπεραςπίηεται τθ βάςθσ Ξοναδικι επιλογι για αποφυγι τθσ ιττασ. Απόκρουςθ Επίκεςθσ & Ανεπαρκείσ Σλιροφορίεσ για τθσ Ματάςταςθ του Αντιπάλου Αναςφνταξθ και Αναμονι τθσ Επόμενθσ Επίκεςθσ Αντεπίκεςθ Άγνωςτθ. Ξπορεί θ βάςθ του αντιπάλου να ζχει μείνει απροςτάτευτθ και να είχαμε τθν δυνατότθτα να κερδίςουμε Άγνωςτθ. Ξπορεί ο αντίπαλοσ να ζχει διατθριςει ιςχυρι δφναμθ και να χάςουμε οριςτικά Ανάγκθ απόκτθςθσ Εμπειρίασ Σχήμα 2.1: Παράδειγμα λήψησ αποφάςεων ςε ζνα ΠΣΠΧ Φο παραπάνω παράδειγμα ζρχεται ςε πλιρθ ταφτιςθ με τθν γενικι φιλοςοφία τθσ ΕΕ τθν οποία παρακζτουμε: «Ενιςχυτικι Εκμάκθςθ είναι θ εκμάκθςθ τθσ αντιςτοίχθςθσ (mapping) καταςτάςεων ςε δράςεισ, διαμζςου τθσ αλλθλεπίδραςθσ με ζνα μερικϊσ άγνωςτο και ςτοχαςτικό περιβάλλον, με απϊτερο ςκοπό τθν μεγιςτοποίθςθ μιασ αρικμθτικισ ανταμοιβισ. Στο πράκτορα που μακαίνει δεν υποδεικνφεται θ δράςθ που αυτόσ πρζπει να λάβει, όπωσ ςυμβαίνει ςτισ περιςςότερεσ μορφζσ μθχανικισ εκμάκθςθσ. Αντίκετα ο πράκτορασ πρζπει να ανακαλφψει τισ δράςεισ που αποφζρουν τθν μεγαλφτερθ ανταμοιβι μόνοσ του μζςω επαναλαμβανόμενων δοκιμϊν. Στισ πιο ενδιαφζρουςεσ περιπτϊςεισ, οι δράςεισ δεν επθρεάηουν μόνο τθν άμεςθ ανταμοιβι αλλά και τισ επόμενεσ καταςτάςεισ και μζςω αυτϊν τισ επόμενεσ ανταμοιβζσ. Αυτά τα δφο χαρακτθριςτικά, δθλαδι θ εφρεςθ των ςωςτϊν δράςεων μζςω επαναλαμβανόμενων δοκιμϊν και θ επίδραςθ των δράςεων ςτισ μεταγενζςτερεσ ανταμοιβζσ, είναι τα δφο πιο

20 ZCS4RTS Συςτήματα Ελέγχου Ταξινομητών ςε Παιχνίδια Στρατηγικήσ 9 ςθμαντικά ςθμεία που διαχωρίηουν τθν Ενιςχυτικι Εκμάκθςθ από τισ υπόλοιπεσ μεκόδουσ» [SBa + 98]. Γίνεται λοιπόν αντιλθπτό ότι ζνασ πράκτορασ που χρθςιμοποιεί μεκόδουσ ΕΕ κα μπορζςει εφκολα να προςαρμοςτεί ςτο περιβάλλον ενόσ ΣΥΣΧ. Σροτοφ ςυνεχίςουμε τθν ανάλυςθ κα ιταν ςωςτό να απαντιςουμε το εξισ ερϊτθμα: Γιατί είναι τόςο ςθμαντικι θ ΦΟ ςε ζνα ΣΥΣΧ; 2.2 ΠΣΠΧ και Τεχνητό Νοημοςύνη Τεχνητό νοημοςύνη ςε εμπορικϊ ΠΣΠΧ Φα τελευταία χρόνια τα ΣΥΣΧ ζχουν καταφζρει να προςφζρουν εντυπωςιακά επίπεδα ρεαλιςμοφ ςτθ γραφικι αναπαράςταςθ του περιβάλλοντόσ κακϊσ και των μονάδων που κινοφνται μζςα ςε αυτό. Η εξζλιξθ αυτι γίνεται φανερι ακόμα και όταν ςυγκρίνουμε παιχνίδια που απζχουν μεταξφ τουσ χρονικά μόλισ μερικά χρόνια όπωσ δείχνει και το Υχιμα 2.2 (Σρόκειται για το Axis And Allies τθσ Atari (2004) και για το Company of Heroes τθσ THQ (2007)). Σχήμα 2.2:Εξζλιξη του γραφικοφ περιβάλλοντοσ ςτα ΠΣΠΧ Σαρόλθ τθν εξζλιξθ που ζχει πραγματοποιθκεί ςε επίπεδο γραφικϊν τα ΣΥΣΧ ςυνεχίηουν να υςτεροφν ςτον τομζα τθσ ΦΟ. Φο πρόβλθμα με τθν αδφναμθ ΦΟ ςτα παιχνίδια εντοπίηεται ςτο ότι, κατά τον κφκλο ανάπτυξθσ ενόσ παιχνιδιοφ, το μεγαλφτερο ποςοςτό πόρων και χρόνου ςτρζφεται ςτθν ανάπτυξθ των γραφικϊν και του ςεναρίου αφινοντασ τθν υλοποίθςθ τθσ ΦΟ για το τζλοσ τθσ διαδικαςίασ ανάπτυξθσ *Nar + 04]. Αυτό δυςχεραίνει τθν ανάπτυξθ και τον ζλεγχο του τμιματοσ τθσ ΦΟ με αποτζλεςμα, ακόμα και ςιμερα, μερικά από τα πιο επιτυχθμζνα παιχνίδια του είδουσ να πάςχουν ςτο επίπεδο τθσ ΦΟ, με αποτζλεςμα οι πράκτορεσ που παίηουν τα παιχνίδια αυτά να είναι προβλζψιμοι και να εμφανίηουν αδυναμίεσ

21 ZCS4RTS Συςτήματα Ελέγχου Ταξινομητών ςε Παιχνίδια Στρατηγικήσ 10 που ο άνκρωποσ-αντίπαλοσ μπορεί να εντοπίςει και να εκμεταλλευτεί *Sch + 01] [Lai + 01] [Gol + 04]. ΡΙ εταιρίεσ παραγωγισ παιχνιδιϊν γνωρίηουν τθν ςθμαςία τθσ ΦΟ ςτα παιχνίδια κακϊσ και ότι αυτι κα ζχει αυξθμζνο αντίκτυπο ςτισ πωλιςεισ ςτο μζλλον *Rab + 04]. Ξπορεί τα εντυπωςιακά γραφικά να είναι αυτά που μαγνθτίηουν το κοινό και που ωκοφν ζναν παίκτθ να αςχολθκεί με ζνα παιχνίδι, χωρίσ όμωσ τθν υποςτιριξθ ιςχυρισ ΦΟ είναι βζβαιο πωσ ο παίκτθσ κα βαρεκεί ςφντομα κακϊσ, από ζνα ςθμείο και μετά, κα κερδίηει ςυνεχϊσ τον υπολογιςτι. Ζχει γίνει λοιπόν κατανοθτό ότι θ υλοποίθςθ υψθλισ ποιότθτασ ΦΟ κα αυξιςει δραματικά τθν πρόκλθςθ που προςφζρουν αυτοφ του είδουσ τα παιχνίδια *Nar + 04]. Η μζκοδοσ που ακολουκείται ςχεδόν ςε όλα τα παιχνίδια για τθν υλοποίθςθ τθσ ΦΟ χρθςιμοποιεί ςτατικά ςενάρια από κανόνεσ που υλοποιοφνται διαδοχικά (scripts), ι βάςεισ από κανόνεσ (rule bases) [Nar + 04] [Rab + 04]. Φο μειονζκτθμα αυτϊν των μεκόδων είναι θ ζλλειψθ προςαρμοςτικότθτασ. Δθμιουργοφν δθλαδι ςτατικζσ ςτρατθγικζσ οι οποίεσ, ςε ζνα ευρείασ κλίμακα παιχνίδι ςτρατθγικισ κα ζχουν αδφναμα ςθμεία (πάντα υπάρχουν αδφναμα ςθμεία ςε μια ςτατικι ςτρατθγικι *Cor + 00]), τα οποία κα γίνουν ςφντομα αντικείμενο εκμετάλλευςθσ από τον αντίπαλο *SHe + 02]. Είναι γνωςτό ςτθν κοινότθτα των παικτϊν, ότι πολλζσ εταιρίεσ, ςτθν προςπάκειά τουσ να δθμιουργιςουν παιχνίδια με αυξθμζνο επίπεδο δυςκολίασ αποφεφγοντασ τθν υλοποίθςθ ιςχυρισ ΦΟ, βοθκοφν τον υπολογιςτι να κλζβει όταν παίηει αντίπαλοσ με τον άνκρωπο. Είναι ςφνθκεσ το φαινόμενο ςε κάποια παιχνίδια ο υπολογιςτισ να ξεκινάει με αυξθμζνουσ πόρουσ ι με περιςςότερουσ εργάτεσ είτε ακόμα και να ζχει ςτρατιϊτεσ με αυξθμζνουσ πόντουσ ηωισ (που ςθμαίνει ότι πεκαίνουν πιο δφςκολα ςε μια μάχθ ςε ςχζςθ με τουσ ςτρατιϊτεσ του παίκτθ ) Προςεγγύςεισ Ερευνητικόσ Κοινότητασ Η χριςθ παιχνιδιϊν ωσ πεδία δοκιμϊν για τισ μεκόδουσ τθσ ΦΟ δεν αποτελεί ςφγχρονο φαινόμενο. Ζχει καταςκευαςτεί πλικοσ πρακτόρων που υλοποιοφν διάφορεσ μεκόδουσ ΦΟ και ζχουν εφαρμοςτεί ςε παιχνίδια όπωσ το ςκάκι, το τάβλι ακόμα και ςε παιχνίδια με τράπουλα. Φα χαρακτθριςτικά τα οποία κάνουν τα ΣΥΣΧ τόςο δθμοφιλι ωσ πεδία δοκιμϊν ςτον τομζα τθσ ΕΕ είναι τα εξισ: 1) Ξερικϊσ άγνωςτο περιβάλλον : Υε παιχνίδια όπωσ το ςκάκι ο παίκτθσ, ι ζνασ ΣΝ, ζχει τθν δυνατότθτα να γνωρίηει πλιρωσ τθν κατάςταςθ του περιβάλλοντόσ του (π.χ. τθν κζςθ που ζχουν τα πιόνια πάνω ςτθν ςκακιζρα. Υτα ΣΥΣΧ κάτι τζτοιο δεν ιςχφει κακϊσ ο παίκτθσ λαμβάνει γνϊςθ μόνο για το μζροσ του περιβάλλοντοσ μζςα ςτο οποίο κινοφνται οι μονάδεσ του.

22 ZCS4RTS Συςτήματα Ελέγχου Ταξινομητών ςε Παιχνίδια Στρατηγικήσ 11 2) Ξεγάλοι χϊροι καταςτάςεων: Υε ζνα παιχνίδι τάβλι ο ςυνολικόσ χϊροσ καταςτάςεων, δθλαδι οι διάφορεσ κζςεισ που μποροφν να πάρουν τα ποφλια κατά τθ διάρκεια μιασ παρτίδασ, είναι τθσ τάξθσ του 10 20, νοφμερο το οποίο απζχει κατά πολφ τθσ πολυπλοκότθτασ των ΣΥΣΧ. Ασ υποκζςουμε ότι ζνα ΣΥΣΧ επιτρζπει τθ δθμιουργία μζχρι 200 μονάδων για κάκε παίκτθ και ότι ο χϊροσ μζςα ςτον οποίο κινοφνται οι μονάδεσ αυτζσ αποτελείται από 1000 διακριτζσ κζςεισ (νοφμερα πολφ μικρότερα από αυτά που ιςχφουν ςε εμπορικά παιχνίδια). Υε αυτι τθν περίπτωςθ ο χϊροσ καταςτάςεων κα ιταν τθσ τάξθσ του Ζχοντασ κατά νου το δεφτερο ςθμείο, πρζπει να τονίςουμε ότι για να δθμιουργθκεί ζνασ πράκτορασ που κα χρθςιμοποιεί τεχνικζσ ΕΕ που κα ζχει τθν δυνατότθτα να προςαρμόηεται ςτισ ςυνκικεσ του παιχνιδιοφ, κα πρζπει είτε αυτόσ να εφαρμοςκεί ςε κάποιο περιοριςμζνο ςενάριο του παιχνιδιοφ, είτε να γίνουν οι κατάλλθλεσ αφαιρζςεισ και γενικεφςεισ κατά τθσ μοντελοποίθςθ του περιβάλλοντοσ *PMS + 06]. Υτθ ςυνζχεια κα παρουςιαςτοφν κάποιεσ προςπάκειεσ που ζχουν γίνει για τθν ενςωμάτωςθ ΕΕ ςε ΣΥΣΧ. Φο 2003 οι C. Guestrin, D. Koller, C. GearHart και N. Kanodia [GKG + 03] ανζπτυξαν μία μζκοδο γενίκευςθσ ςεναρίων χρθςιμοποιϊντασ Ξαρκοβιανά Ξοντζλα Αποφάςεων (Markov Decision Processes). Για τα πειράματα τουσ χρθςιμοποίθςαν το ΣΥΣΧ ανοιχτοφ κϊδικα (open source) Freecraft. Φα πειράματα που διεξιχκθςαν προζβλεπαν τθν εκπαίδευςθ του πράκτορα ςε περιοριςμζνα ςενάρια μάχθσ, με τρείσ ςτρατιϊτεσ ςτθν κάκε πλευρά, και ςτθ ςυνζχεια εφαρμογι του εκπαιδευμζνου πράκτορα ςε μάχεσ μεγαλφτερθσ κλίμακασ. Φα αποτελζςματα ζδειξαν ότι ο πράκτορασ μπορεί να μάκει να κερδίηει ςτο ςενάριο με τουσ τρεισ ςτρατιϊτεσ ςε κάκε πλευρά και να γενικεφςει ςωςτά τθν ςτρατθγικι που ζμακε ςε μία μάχθ με τζςςερισ ςτρατιϊτεσ, κερδίηοντασ και ςε αυτιν. Για να μπορζςει να εφαρμοςκεί θ μζκοδοσ ιταν απαραίτθτοσ ο περιοριςμόσ τθσ πολυπλοκότθτασ του χϊρου καταςτάςεων. Αυτό δεν βοικθςε τον πράκτορα να γενικεφςει ςωςτά ςε ζνα ςενάριο με πζντε ςτρατιϊτεσ με αποτζλεςμα τθν ιττα. Επίςθσ το 2003 οι W.J. Falke και P. Rose [FRo + 03] εφάρμοςαν LCS ςε περιοριςμζνα ςενάρια ΣΥΣΧ. Φο ςενάριο που επζλεξαν αποτελείται από δφο αντιμαχόμενουσ ςτρατοφσ των 20 ςτρατιωτϊν και για τθν δθμιουργία του χρθςιμοποιικθκε θ μθχανι παιχνιδιϊν Auran Jet. Για τθν μοντελοποίθςθ του περιβάλλοντοσ το LCS χρθςιμοποιεί πλθροφορίεσ για τθ δφναμθ των μονάδων και για τθν κζςθ τουσ ςε ςχζςθ με τισ ςυμμαχικζσ και τισ αντίπαλεσ μονάδεσ. Φα αποτελζςματα ζδειξαν ότι ζνα LCS με απλι μοντελοποίθςθ του περιβάλλοντόσ του μπορεί να νικθφόρεσ και δυναμικζσ ςτρατθγικζσ ςε ζνα ΣΥΣΧ. Φο 2004 οι P. Spronck, I. Sprinkhuizen-Kuyper και E. Postma [SSP + 03] ανζπτυξαν τθν μζκοδο δθμιουργίασ δυναμικϊν ςεναρίων (dynamic scripting) για τθν δθμιουργία τακτικϊν κατά τθ διάρκεια ενόσ παιχνιδιοφ τθν οποία εφάρμοςαν ςε παιχνίδι ρόλων (RPG). Υε αυτά τα παιχνίδια ο παίκτθσ ελζγχει ζναν χαρακτιρα-πολεμιςτι και ςκοπόσ του είναι να κερδίςει τουσ

23 ZCS4RTS Συςτήματα Ελέγχου Ταξινομητών ςε Παιχνίδια Στρατηγικήσ 12 αντιπάλουσ του, οι οποίοι ςυνυπάρχουν μζςα ςτο περιβάλλον του, χρθςιμοποιϊντασ μια ποικιλία πολεμικϊν κινιςεων. Υτθ μζκοδο τθσ δυναμικισ δθμιουργίασ ςεναρίων ο χαρακτιρασ που ελζγχεται από τον πράκτορα είναι ςυνδεδεμζνοσ με μία βάςθ κανόνων (rulebase). Μάκε κανόνασ ςυνοδεφεται από μία μεταβλθτι, βάροσ, θ οποία αποτελεί αρικμθτικι αναπαράςταςθ τθσ δφναμισ του. Σριν από κάκε μάχθ με κάποιον αντίπαλο επιλζγονται από τθν βάςθ οι κανόνεσ που κα χρθςιμοποιθκοφν. Η πικανότθτα να επιλεγεί ζνασ κανόνασ εξαρτάται από τθν αξία του βάρουσ που τον ςυνοδεφει. Ξετά το τζλοσ κάκε μάχθσ οι αξίεσ των βαρϊν αναπροςαρμόηονται, ανάλογα με το αποτζλεςμα τθσ μάχθσ, και επανειςάγονται ςτθν βάςθ. Η παραπάνω διαδικαςία αναπαρίςταται ςτο Υχιμα 2.3. Σχήμα 2.3: Dynamic Scripting Για τον ζλεγχο τθσ απόδοςθσ τθσ μεκόδου χρθςιμοποιικθκε ζνα εμπορικό παιχνίδι (Neverwinter Nights, BioWare). Φα αποτελζςματα ζδειξαν ότι θ μζκοδοσ είχε τθν δυνατότθτα να δθμιουργιςει νικθφόρεσ τακτικζσ και ότι είχε γριγορθ ικανότθτα προςαρμογισ απζναντι ςε ςτατικοφσ αντιπάλουσ. Σαρόλα αυτά θ ικανότθτα τθσ γριγορθσ προςαρμοςτικότθτασ απαιτεί ςθμαντικά μειωμζνουσ χϊρουσ καταςτάςεων. Επίςθσ το 2004 ο M. Ponsen [Pon + 04] εφάρμοςε τθν μζκοδο του dynamic scripting ςε ΣΥΣΧ και τθν εξζλιξε με τθν προςκικθ ενόσ γενετικοφ αλγόρικμου. Η μζκοδοσ τθσ δυναμικισ δθμιουργίασ ςεναρίων εφαρμόςτθκε ςτο παιχνίδι Wargus. Ρι κανόνεσ που κα χρθςιμοποιθκοφν (οι οποία γράφονται από εκπαιδευτι) ειςάγονται ςτθ βάςθ κανόνων, θ οποία εκπαιδεφεται πάνω ςτο παιχνίδι, ϊςτε να δθμιουργθκοφν νικθφόρεσ ςτρατθγικζσ. Υτθ ςυνζχεια εφαρμόςτθκε ςτθ βάςθ κανόνων ο ΓΑ με ςκοπό τθν δθμιουργία νζων κανόνων. Η απόδοςθ τθσ μεκόδου ιταν υψθλι, αφοφ ςυγκζντρωςε υψθλζσ βακμολογίεσ απζναντι ςε κεωρθτικά δφςκολουσ αντιπάλουσ, οι οποίοι ωςτόςο ιταν ςτατικοί.

24 ZCS4RTS Συςτήματα Ελέγχου Ταξινομητών ςε Παιχνίδια Στρατηγικήσ 13 Ξια διαφορετικι μζκοδοσ προτάκθκε από τουσ C. Madeira, V. Corruble, G. Ramalho και B. Ratitch [MCR + 04]. Δθμιοφργθςαν μια ιεραρχία βαςιςμζνθ ςτθν αντίςτοιχθ ςτρατιωτικι ιεραρχία (Υχιμα 2.4). Ρ πράκτορασ λογιςμικοφ δεν ελζγχει κάκε ςκάλα τθσ ιεραρχίασ, αλλά ζχει το γενικό πρόςταγμα ελζγχοντασ τθν ανϊτερθ κλίμακα. Ρ πράκτορασ εκπαιδεφεται χρθςιμοποιϊντασ τον αλγόρικμο SARSA, ενϊ οι υπόλοιπεσ βακμίδεσ τθσ ιεραρχίασ ελζγχονται από ςτατικοφσ πράκτορεσ. Για τα πειράματα χρθςιμοποιικθκε το παιχνίδι BattlreGround (Talonsoft). Σρόκειται για ζνα παιχνίδι ςτρατθγικισ βαςιςμζνο ςε γφρουσ (turn-based). Φα ςενάρια των πειραμάτων περιλαμβάνουν ζναν χάρτθ, ο οποίοσ αποτελείται από 700 διακριτζσ κζςεισ, και 2 ςτρατοφσ των 100 περίπου μονάδων. Φα αποτελζςματα ιταν ενκαρρυντικά κακϊσ ο πράκτορασ κατάφερε να κερδίςει ςε αρκετζσ περιπτϊςεισ. Νόγω όμωσ των αφαιρζςεων που ζγιναν κατά τθν μοντελοποίθςθ του περιβάλλοντοσ (για λόγουσ μείωςθσ τθσ πολυπλοκότθτασ του αλγορίκμου) θ απόδοςθ του πράκτορα δεν ιταν θ αναμενόμενθ. Σχήμα 2.4: Αναπαράςταςη Ιεραρχίασ για το Battleground [MCR + 04] Φο 2005 οι B.Marthi, S. Russel και D. Latham [MRL + 05] εφάρμοςαν μεκόδουσ ιεραρχικισ ΕΕ (Hierarchical RL) ςε περιοριςμζνα ςενάρια του ΣΥΣΧ Stratagus. Υυγκεκριμζνα ο ΣΝ ζχει ςτθν αρχι υπό τον ζλεγχό του ζναν εργάτθ και μία βάςθ. Υκοπόσ του είναι να δθμιουργιςει ςτρατό ϊςτε να κερδίςει τον αντίπαλο ςτον ελάχιςτο δυνατό χρόνο. Ρ αντίπαλοσ αποτελείται από ζναν μόνο ςτρατιϊτθ, που είναι όμωσ, πολφ πιο ιςχυρόσ από τουσ ςτρατιϊτεσ που ο ΣΝ ζχει ςτθ διάκεςι του. Ρ ΣΝ ανζπτυξε ςτρατθγικζσ που του επζτρεψαν να μειϊςει τον χρόνο που χρειάηονταν ϊςτε να φτάςει ςτθ νίκθ κατά το μιςό.

25 ZCS4RTS Συςτήματα Ελέγχου Ταξινομητών ςε Παιχνίδια Στρατηγικήσ 14 Υυνεχίηοντασ τθν ζρευνα ςτον τομζα τθσ δυναμικισ δθμιουργίασ ςεναρίων οι M. Ponsen, H. Munoz-Avila, P. Spronck και D.W. Aha [PMS + 06] παρουςίαςαν μια μζκοδο για αυτόματθ δθμιουργία τακτικϊν (ςε αντίκεςθ με τθν εργαςία του Ponsen όπου οι κανόνεσ ειςάγονταν ςτθ βάςθ από τον εκπαιδευτι). Ωσ περιβάλλον δοκιμϊν χρθςιμοποιικθκε και πάλι το Wargus και θ μεκοδολογία που ακολουκικθκε ιταν θ εξισ: ο ΣΝ τζκθκε αντιμζτωποσ με 40 διαφορετικοφσ ςτατικοφσ αντιπάλουσ και με τθν χριςθ του ΓΑ ανζπτυξε ςτρατθγικζσ που κζρδιηαν του αντιπάλουσ αυτοφσ. Υτθ ςυνζχεια οι κανόνεσ που δθμιουργικθκαν ειςιχκθςαν ςε βάςεισ κανόνων και, χρθςιμοποιϊντασ τθ μζκοδο του dynamic scripting, ιρκαν αντιμζτωποι με αντιπάλουσ που ακολουκοφςαν διαφορετικζσ ςτρατθγικζσ από τουσ προθγοφμενουσ. Φα αποτελζςματα ζδειξαν ότι ο ΣΝ κατάφερε να κερδίςει αρκετζσ αντίπαλεσ τακτικζσ, ακόμα και αν τισ ςυναντοφςε για πρϊτθ φορά, χωρίσ όμωσ να πετφχει κάτι τζτοιο ςε περιπτϊςεισ που ο αντίπαλοσ υλοποιοφςε κάποια ςχετικά ανϊτερθ τακτικι. Υτον Σίνακασ 2.1 παρουςιάηονται περιλθπτικά οι παραπάνω προςεγγίςεισ.

26 ZCS4RTS Συςτήματα Ελέγχου Ταξινομητών ςε Παιχνίδια Στρατηγικήσ 15 Πίνακασ 2.1: Σφγκριςη μεθοδολογιϊν που ζχουν χρηςιμοποιηθεί για ανάπτυξη ΤΝ ςε παιχνίδια PROJECT ΜΕΘΟΔΟΛΟΓΙΑ ΠΕΡΙΒΑΛΛΟΝ ΑΠΟΣΕΛΕΜΑΣΑ ΜΕΙΟΝΕΚΣΗΜΑΣΑ W.J. Falke, P. Εφαρμογι LCS ςε ΣΥΣΧ Σεριοριςμζνα Rose (2003) ςενάρια ΣΥΣΧ C. Guestrin et al. (2003) P. Spronck et al. (2004) M. Ponsen (2004) C. Madeira et al. (2004) B.Marthi et al. (2005) M. Ponsen Et al. (2006) Ξζκοδοσ γενίκευςθσ ςεναρίων με χριςθ MPD Ανάπτυξθ dynamic scripting Βελτίωςθ του dynamic scripting με τθν προςκικθ ενόσ ΓΑ Ανάπτυξθ Ιεραρχικισ ΕΕ για παιχνίδια Ανάπτυξθ Ιεραρχικισ ΕΕ για παιχνίδια Ανάπτυξθ μεκόδου για αυτόματθ δθμιουργία τακτικϊν με χριςθ dynamic scripting Σεριοριςμζνα ςενάρια ςε ΣΥΣΧ (π.χ. μάχεσ 3vs3) Εφαρμογι ςε παιχνίδια ρόλων (RPG) Σλιρεσ περιβάλλον ΣΥΣΧ Σαιχνίδι ςτρατθγικισ βαςιςμζνο ςε γφρουσ (turn-based) Εφαρμογι ςε περιοριςμζνα ςενάρια ΣΥΣΧ όπου ο ςτόχοσ ιταν θ νίκθ ςτον ελάχιςτο δυνατό χρόνο Σλιρεσ περιβάλλον ΣΥΣΧ Ξε απλι μοντελοποίθςθ του περιβάλλοντοσ αναπτφχκθκαν νικθφόρεσ και δυναμικζσ τακτικζσ Ανάπτυξθ νικθφόρων ςτρατθγικϊν και ςωςτι γενίκευςθ όςο θ πολυπλοκότθτα διατθρείται ςε χαμθλά επίπεδα Ανάπτυξθ νικθφόρων τακτικϊν. Γριγορθ προςαρμοςτικότθτα Χψθλι επιτυχία απζναντι ςε κεωρθτικά δφςκολουσ αντιπάλουσ Ρ ΣΝ ανζπτυξε ςωςτζσ ςτρατθγικζσ και κατάφερε να κερδίςει ςε αρκετζσ περιπτϊςεισ Ξείωςθ του χρόνου νίκθσ κατά 50% Επιτυχισ αντιμετϊπιςθ αντιπάλων ακόμα και όταν αυτοί χρθςιμοποιοφςαν τακτικζσ με τισ οποίεσ ο πράκτορασ δεν είχε βρεκεί αντιμζτωποσ Δεν ζγινε εφαρμογι ςε πλιρεσ ςενάριο ΣΥΣΧ Αποτυχία γενίκευςθσ κατά τθν περαιτζρω αφξθςθ τθσ πολυπλοκότθτασ του προβλιματοσ Απαίτθςθ για ςθμαντικά μειωμζνουσ χϊρουσ καταςτάςεων Δυςκολία προςαρμογισ απζναντι ςε μθ ςτατικοφσ αντιπάλουσ Η περιοριςμζνθ αναπαράςταςθ του περιβάλλοντοσ (για λόγουσ μείωςθσ τθσ πολυπλοκότθτασ) δεν επζτρεψε ςτον ΣΝ να επιτφχει περιςςότερεσ νίκεσ Δεν ζγιναν δοκιμζσ ςε πλιρθ ςενάρια ΣΥΣΧ Αδυναμία αντιμετϊπιςθσ αντιπάλων που υλοποιοφςαν πιο δφςκολεσ τακτικζσ 2.3 Σύςτημα Εκμϊθηςησ Ταξινομητών Φο LCS εφευρζκθκε από τον J.H. Holland [Hol + 75]. Φο ςφςτθμα βαςίηεται ςε ζνα ςφνολο κανόνων, τουσ ταξινομθτζσ, τουσ οποίουσ και χρθςιμοποιεί κατά τθ αλλθλεπίδραςι του με το περιβάλλον για τθν επίτευξθ ενόσ ςυγκεκριμζνου ςτόχου. Χπάρχουν δφο τφποι LCS που χρθςιμοποιοφν διαφορετικζσ μεκόδουσ για τθν υλοποίθςθ των ςτόχων τουσ. Φο πρϊτο, γνωςτό και ωσ LCS του Michigan, είναι αυτό που αναπτφχκθκε από τον Holland και για τθν εξζλιξθ των ταξινομθτϊν χρθςιμοποιεί ζναν ΓΑ κακϊσ και τεχνικζσ τθσ ΕΕ με τθν οποία είναι ςτενά ςυνδεδεμζνο. Φο δεφτερο, γνωςτό και ωσ LCS του Pittsburg, αναπτφχκθκε από τον S.F.

27 ZCS4RTS Συςτήματα Ελέγχου Ταξινομητών ςε Παιχνίδια Στρατηγικήσ 16 Smith [Smi + 80] και κάνει χριςθ μόνο του ΓΑ για τθν εξζλιξθ των ταξινομθτϊν. Φο είδοσ του LCS που επικράτθςε είναι το πρϊτο και είναι αυτό που ςιμερα αποτελεί το τυπικό πλαίςιο ανάπτυξθσ LCS. Σριν προχωριςουμε ςτθν περιγραφι του ςυςτιματοσ πρζπει να αναφερκοφμε ςτουσ δφο κφριουσ μθχανιςμοφσ ςτουσ οποίουσ αυτό βαςίηεται. Αυτοί είναι ο Γενετικόσ Αλγόρικμοσ και θ Ενιςχυτικι Εκμάκθςθ Γενετικού Αλγόριθμοι Ρι ΓΑ [BGH + 89] είναι εμπνευςμζνοι από τθν νζο-δαρβινικι κεωρία τθσ ελεφκερθσ επιλογισ. Ρι αλγόρικμοι αυτοί μεταχειρίηονται ζναν πλθκυςμό ατόμων (ςτθν περίπτωςι μασ ζνα πλθκυςμό ταξινομθτϊν) ωσ λφςεισ ςε ζνα δοκζν πρόβλθμα. Ρι ΓΑ βαςίηονται ςε τζςςερισ αναλογίεσ τισ οποίεσ αντλοφν από τθν βιολογικι εξζλιξθ. Αυτζσ είναι : a. Η χριςθ κϊδικα, θ χριςθ δθλαδι του γονότυπου b. Η εφαρμογι πάνω ςτον κϊδικα απλϊν μεταςχθματιςμϊν που είναι γνωςτοί και ωσ γενετικοί τελεςτζσ c. Η μετάφραςθ του κϊδικα ςε λφςθ για το υπό μελζτθ πρόβλθμα, δθλαδι θ αντιςτοίχθςθ του γονότυπου ςε φαινότυπο d. Ξια διαδικαςία επιλογισ τθσ καταλλθλότερθσ λφςθσ για το πρόβλθμα, δθλαδι θ επιβίωςθ του ιςχυρότερου Ρι μεταςχθματιςμοί εφαρμόηονται πάνω ςτον πλθκυςμό για αφξθςθ τθσ ποικιλίασ του γονότυπου, που με τθν ςειρά τθσ αυξάνει τθσ πικανότθτα εφρεςθσ μίασ κατάλλθλθσ λφςθσ ςτο πρόβλθμα. Χπάρχουν δφο ειδϊν μεταςχθματιςμοί και είναι οι εξισ: i. Ρ μεταςχθματιςμόσ διαςταφρωςθσ (crossover), ο οποίοσ χωρίηει τον γονότυπο δφο γονικϊν ατόμων ςε τυχαία ςθμεία και τα επανενϊνει για τθν δθμιουργία απογόνων. Ρ διαχωριςμόσ μπορεί να γίνει είτε ςε ζνα είτε ςε πολλά ςθμεία του γονότυπου. ii. Ρ μεταςχθματιςμόσ μετάλλαξθσ (mutation) ο οποίοσ αλλάηει με τυχαίο τρόπο τον γονότυπο ενόσ ατόμου. Ρ ΓΑ επιλζγει τα άτομα πάνω ςτα οποία κα εφαρμοςτοφν οι μεταςχθματιςμοί με βάςθ τθν ικανότθτα επίλυςθσ του εκάςτοτε προβλιματοσ, δθλαδι τθν καταλλθλότθτα του φαινοτφπου (fitness). Ρι απόγονοι των ατόμων αυτϊν ειςάγονται ςτον πλθκυςμό ενϊ τα άτομα που κρίνονται ακατάλλθλα αποκλείονται από αυτόν. Η ανανζωςθ του πλθκυςμοφ γίνεται είτε με τθν γενεακι μζκοδο (generational) κατά τθν οποία ζνα μεγάλο τμιμα του πλθκυςμοφ ανανεϊνεται με κάκε εκτζλεςθ του ΓΑ και ζχει ωσ αποτζλεςμα τθν δθμιουργία γενεϊν, είτε με τθν μζκοδο τθσ ςτακερισ κατάςταςθσ (steady state) κατά τθν οποία τα άτομα του πλθκυςμοφ αλλάηουν ζνα κάκε φορά.

28 ZCS4RTS Συςτήματα Ελέγχου Ταξινομητών ςε Παιχνίδια Στρατηγικήσ 17 Η εμπειρία από τθν χριςθ ΓΑ, των οποίων ο βρόχοσ επανάλθψθσ παρουςιάηεται ςτο Υχιμα 2.5, ζχει δείξει ότι θ εφαρμογι τουσ μπορεί να αυξιςει ςθμαντικά, ςε βάκοσ γενεϊν, τθν ςυνολικι ικανότθτα, επίλυςθσ ενόσ ςυγκεκριμζνου προβλιματοσ, ενόσ πλθκυςμοφ. Σχήμα 2.5: Βρόχοσ Επανάληψησ Γενετικοφ Αλγορίθμου Ενιςχυτικό Εκμϊθηςη και Μαρκοβιανϊ Μοντϋλα Λόψησ Αποφϊςεων Για τθν κατανόθςθ των μεκόδων λειτουργίασ τθσ ΕΕ κα πρζπει πρϊτα να γίνει μια ςφντομθ περιγραφι των ΞΞΝΑ (MDP, Markov Decision Processes) Μαρκοβιανϊ Μοντϋλα Λόψησ Αποφϊςεων Ζνα ΞΞΝΑ ςφμφωνα με το οποίο δρα ζνασ ΣΝ ορίηεται από τα εξισ ςτοιχεία: Ζνα πεπεραςμζνο ςφνολο S διακριτϊν καταςτάςεων s του πράκτορα. Ζνα πεπεραςμζνο ςφνολο A πεπεραςμζνων δράςεων a. Ξία ςυνάρτθςθ μετάβαςθσ P: S A Π(S) όπου Π(S) είναι το ςφνολο των πικανοτικϊν κατανομϊν ςτον χϊρο του S και Pr(s t+1 s t, a t )θ πικανότθτα μετάβαςθσ ςτθν κατάςταςθ st+1 όταν ςτθν κατάςταςθ st επιλζξουμε τθν δράςθ at.

29 ZCS4RTS Συςτήματα Ελέγχου Ταξινομητών ςε Παιχνίδια Στρατηγικήσ 18 Ξια ςυνάρτθςθ ανταμοιβισ R: S A R θ οποία μασ δίνει, για κάκε ηεφγοσ (s t, a t ), τθν βακμωτι ανταμοιβι τθν οποία ο πράκτορασ κα λάβει όταν ςτθν κατάςταςθ s t αποφαςίςει να εκτελζςει τθν δράςθ a t. Φο ΞΞΝΑ περιγράφει τθν ςτοχαςτικι δομι του περιβάλλοντοσ μζςα ςτο οποίο δρα ο ΣΝ. Φο μοντζλο δεν μασ δίνει καμία πλθροφορία για τθν ςυμπεριφορά του πράκτορα μζςα ςτο περιβάλλον, αλλά μασ ενθμερϊνει μόνο για τθν μελλοντικι κατάςταςθ και ανταμοιβι του πράκτορα, δεδομζνθσ τθσ παροφςασ κατάςταςθσ και τθσ δράςθσ που ο αυτόσ αναλαμβάνει. Επίςθσ, ςε ζνα περιβάλλον ςτο οποίο ιςχφει θ Ξαρκοβιανι ιδιότθτα, με βάςθ τον παραπάνω οριςμό, καταλιγουμε ςτο ςυμπζραςμα ότι θ πικανότθτα ενόσ πράκτορα να βρεκεί ςτθν κατάςταςθ s t+1 εξαρτάται μόνο από τθν κατάςταςθ s t και από τθν δράςθ a t που κα λάβει ο πράκτορασ ςτθν κατάςταςθ αυτι και όχι από τισ καταςτάςεισ ςτισ οποίεσ είχε βρεκεί ο πράκτορασ ςτο παρελκόν. Η ιδιότθτα αυτι (γνωςτι και ωσ ανεξαρτθςία μονοπατιοφ) μασ δίνει τθν δυνατότθτα να ορίςουμε τθν Εξ. 1 P s t+1 s t, a t = P(s t+1 s t, a t, s t 1, a t 1,, s 0, a 0 ) Εξ. 1 που ςθμαίνει ότι θ γνϊςθ των προθγοφμενων καταςτάςεων του πράκτορα δεν προςφζρει καμία πλθροφορία για τισ μελλοντικζσ καταςτάςεισ. Η ςυμπεριφορά του πράκτορα περιγράφεται από τθν πολιτικι π που αυτόσ ακολουκεί και θ οποία μασ δίνει, δεδομζνθσ μιασ κατάςταςθσ, τθν πικανότθτα να επιλζξει ο πράκτορασ μια από όλεσ τισ δυνατζσ δράςεισ. ταν οι ςυναρτιςεισ μετάβαςθσ και ανταμοιβισ είναι γνωςτζσ εκ των προτζρων μποροφν να χρθςιμοποιθκοφν μζκοδοι Δυναμικοφ Σρογραμματιςμοφ (Dynamic Programming) οι οποίεσ υπολογίηουν επιτυχϊσ τθν πολιτικι εκείνθ που εάν εφαρμοςκεί από τον πράκτορα κα μεγιςτοποιιςει τθν ςυνολικι ανταμοιβι του *Bel + 57]. Ξποροφμε επίςθσ να υπολογίςουμε τθν ςυνολικι εκτιμϊμενθ ανταμοιβι που κα λάβει ο πράκτορασ από το χρονικό βιμα t και μετά ςφμφωνα με τθν Εξ. 2. T max Rc π t = k=t γ k t r π (k) Εξ. 2 Υτθν εξίςωςθ αυτι το r π (k) είναι θ άμεςθ ανταμοιβι που λαμβάνει ο πράκτορασ τθν χρονικι ςτιγμι k όταν ακολουκεί τθν πολιτικι π. Η μεταβλθτι γ [0,1] ονομάηεται παράγοντασ ζκπτωςθσ και μασ δείχνει το κατά πόςο οι εκτιμιςεισ των μελλοντικϊν ανταμοιβϊν επθρεάηουν τθν εκτίμθςθ τθσ ςυνολικισ ανταμοιβισ.

30 ZCS4RTS Συςτήματα Ελέγχου Ταξινομητών ςε Παιχνίδια Στρατηγικήσ 19 Ρι μζκοδοι του Δυναμικοφ Σρογραμματιςμοφ χρθςιμοποιοφν τθν ςυνάρτθςθ αξίασ πολιτικισ (value function) V π, όπου το V π (s) αναπαριςτά τθν εκτιμϊμενθ ςυνολικι ανταμοιβι που προςδοκά ο πράκτορασ εάν ακολουκιςει τθν πολιτικι π ξεκινϊντασ από τθν κατάςταςθ s, και τθν ςυνάρτθςθ αξίασ δράςθσ (action value) Q π όπου Q Π (s, a) αναπαριςτά τθν εκτιμϊμενθ ςυνολικι ανταμοιβι που εκτιμάται ότι κα λάβει ο πράκτορασ αν ακολουκιςει τθν πολιτικι π ζχοντασ αναλάβει τθν δράςθ a ςτθν κατάςταςθ s όπου a π(s). Ρι αντίςτοιχεσ βζλτιςτεσ ςυναρτιςεισ, οι οποίεσ είναι ανεξάρτθτεσ από τθν πολιτικι που ακολουκεί ο πράκτορασ, ςυμβολίηονται με V και Q αντίςτοιχα Ενιςχυτικό Εκμϊθηςη Υτα περιςςότερα προβλιματα που καλοφνται να λφςουν οι πράκτορεσ λογιςμικοφ (των ΣΥΣΧ ςυμπεριλαμβανομζνων), οι ςυναρτιςεισ αξίασ πολιτικισ και αξίασ δράςθσ του περιβάλλοντοσ δεν είναι γνωςτζσ εκ των προτζρων. Υε αυτζσ τισ περιπτϊςεισ θ εκμάκθςθ αποτελεί κφριο ςτοιχείο για τθν επιτυχία του πράκτορα ο οποίοσ πρζπει να εξερευνιςει το περιβάλλον καταςτάςεων-δράςεων ϊςτε να βρει τα ηευγάρια (s t, a t ) που αποφζρουν τθν υψθλότερθ ανταμοιβι. Ρι μζκοδοι τθσ ΕΕ προςπακοφν να εκτιμιςουν τισ ςυναρτιςεισ V και Q δοκιμάηοντασ επαναλαμβανόμενα τον πράκτορα μζςα ςτο περιβάλλον του. Ρι μζκοδοι αυτζσ εκμεταλλεφονται τθ Ξαρκοβιανι ιδιότθτα του περιβάλλοντοσ ϊςτε να προςεγγίςουν τισ ςυναρτιςεισ αξίασ (πολιτικισ, δράςθσ) χωρίσ να αποκθκεφουν πλθροφορίεσ από το παρελκόν του πράκτορα. Η ακριβισ τιμι του μζςου όρου τθσ άμεςθσ ανταμοιβισ μετά από k χρονικά βιματα είναι: E k s = (r 1 + r r k )/k Εξ.3 Για το βιμα k + 1 κα ιςχφει Ρπότε μποροφμε να γράψουμε E k+1 s = (r 1 + r r k + r k+1 )/(k + 1) Η οποία μπορεί να γίνει E k+1 s = k (k + 1) Ε s + r k+1 k + 1 )

31 ZCS4RTS Συςτήματα Ελέγχου Ταξινομητών ςε Παιχνίδια Στρατηγικήσ 20 E k+1 s = Μαι ςτθ ςυνζχεια να γραφεί ωσ (k + 1) (k + 1) E k s E k s (k + 1) + r k+1 (k + 1) E k+1 s = E k s + 1 (κ + 1) [r k+1 E k s ] Εξ.4 H Εξ.4 μασ επιτρζπει να υπολογίςουμε επακριβϊσ τθν μζςθ ανταμοιβι αποκθκεφοντασ μόνο τον αρικμό των βθμάτων k που ζχουμε κάνει ζωσ τϊρα. Εάν δεν κζλουμε να αποκθκεφςουμε το k μποροφμε να προςεγγίςουμε το 1/(k + 1) με τθν μεταβλθτι α οπότε και παίρνουμε τθν Εξ.5 θ οποία αποτελεί γενικι μορφι τθσ εξίςωςθσ που χρθςιμοποιείται ςε όλεσ τισ μεκόδουσ τθσ ΕΕ. E k+1 s = E k s + α[r k+1 E k s ] Εξ.5 Ρ παράγοντασ α ονομάηεται ρυκμόσ εκμάκθςθσ και θ αλλαγι ςτθ τιμι του επθρεάηει τθν ταχφτθτα ςφγκλιςθσ ςτον ακριβι μζςο όρο. Ζνασ από τουσ πιο γνωςτοφσ αλγόρικμουσ τθσ ΕΕ είναι ο αλγόρικμοσ SARSA. Υτόχοσ του είναι θ μεγιςτοποίθςθ τθσ ςυνάρτθςθσ αξίασ δράςθσ Q και θ εξίςωςθ ανανζωςθσ των τιμϊν γίνεται με βάςθ τθν Εξ.6 Q s t, a t Q s t, a t + a[r t+1 + γq s t+1, a t+1 Q s t, a t ] Εξ.6 Από τθν παραπάνω εξίςωςθ (μια παραλλαγι τθσ χρθςιμοποιείται και ςτο LCS) γίνεται αντιλθπτό ότι ο αλγόρικμοσ ενδιαφζρεται μόνο για τα ςτοιχεία (s t, a t, r t+1, s t+1, a t+1 ) (από αυτά προκφπτει και το όνομα SARSA). Φο γενικό ςχιμα του αλγόρικμου SARSA παρουςιάηεται ςτο Σλαίςιο 1. Ρ αναγνϊςτθσ που ενδιαφζρεται για περιςςότερεσ πλθροφορίεσ ςχετικά με τθν ΕΕ μπορεί να ςυμβουλευτεί το [SBa + 98].

32 ZCS4RTS Συςτήματα Ελέγχου Ταξινομητών ςε Παιχνίδια Στρατηγικήσ 21 Initialize Q s, a arbitrarily Repeat (for each episode): Initialize s Choose a from s using policy derived from Q Repeat (for each step of episode): Take action α, observe r,s Choose α from s using policy derived from Q Q s, a Q s, a + a[r + γq s, a Q s, a ] s s ; a a ; Until s is terminal Πλαίςιο 1: Αλγόριθμοσ SARSA

33 ZCS4RTS Συςτήματα Ελέγχου Ταξινομητών ςε Παιχνίδια Στρατηγικήσ Ανϊλυςη Συςτόματοσ Εκμϊθηςησ Ταξινομητών Μηδενικόσ Τϊξησ Υτο ςθμείο αυτό κα γίνει θ περιγραφι του τρόπου λειτουργίασ του ZCS (ZCS, Zeroth Classifier System) το οποίο χρθςιμοποιικθκε για τθν δθμιουργία του ΣΝ που εφαρμόςτθκε ςτο περιβάλλον του ΣΥΣΧ. Φο ZCS δθμιουργικθκε από τον S.W. Wilson [Wil + 94] και αποτελεί μια παραλλαγι του αρχικοφ LCS κατάλλθλθ για εφαρμογι ςε Ξαρκοβιανά περιβάλλοντα. Υτο φάλμα! Σο αρχείο προζλευςθσ τθσ αναφοράσ δεν βρζκθκε.6 περιγράφεται θ λειτουργία του Σχήμα 2.6: Διάγραμμα λειτουργίασ Συςτήματοσ Εκμάθηςησ Ταξινομητϊν CS και ςτθ ςυνζχεια ακολουκεί θ ανάλυςι του.

34 ZCS4RTS Συςτήματα Ελέγχου Ταξινομητών ςε Παιχνίδια Στρατηγικήσ Ταξινομητϋσ και επικοινωνύα με το περιβϊλλον Για τθν επίλυςθ του εκάςτοτε προβλιματοσ, το ZCS χρθςιμοποιεί ζνα ςφνολο από κανόνεσ, τουσ ταξινομθτζσ. Ρι ταξινομθτζσ (φάλμα! Σο αρχείο προζλευςθσ τθσ αναφοράσ δεν ρζκθκε.7) αποτελοφνται από 2 τμιματα: α) το τμιμα κατάςταςθσ (condition part) και β) το τμιμα δράςθσ (action part), και ςυνοδεφονται από ζναν αρικμό ο οποίοσ αναπαριςτά τθν δφναμθ (strength) του κάκε ταξινομθτι. Η δφναμθ του ταξινομθτι ζχει τισ ακόλουκεσ χριςεισ. Χρθςιμοποιείται αφενόσ ςτον αλγόρικμο τθσ ΕΕ, όπου και ζχει τον ρόλο τθσ προβλεπόμενθσ μελλοντικισ ανταμοιβισ. Αποτελεί το μζτρο ςφγκριςθσ βάςει του οποίου επιλζγεται ο ταξινομθτισ του οποίου θ δράςθ κα εκτελεςτεί από τον πράκτορα κατά τθν αλλθλεπίδραςθ του τελευταίου με το περιβάλλον. Φζλοσ όταν εκτελείται ο ΓΑ, θ δφναμθ του ταξινομθτι αναλαμβάνει τον ρόλο τθσ ποςοτικοποίθςθσ τθσ καταλλθλότθτασ του ταξινομθτι. Δείχνει δθλαδι το πόςο κατάλλθλοσ είναι ζνασ ταξινομθτισ για τθν επίλυςθ του ςυγκεκριμζνου προβλιματοσ και είναι το μζτρο επιλογισ τον ταξινομθτϊν μου κα αναπαραχκοφν. Σχήμα 2.7: Παράδειγμα ταξινομητή Φα τμιματα τθσ κατάςταςθσ και τθσ δράςθσ είναι αυτά που περιζχουν τθν πλθροφορία ςχετικά με τθν κατάςταςθ του περιβάλλοντοσ και με τθν δράςθ που κα αναλάβει ο πράκτορασ αντίςτοιχα. Αποτελοφνται από ςτοιχεία του δυαδικοφ αλφαβιτου (0,1) ενϊ ςτο τμιμα τθσ κατάςταςθσ ζχει γίνει θ προςκικθ του ςυμβόλου δίεςθσ # το οποίο ζχει τθν ζννοια τθσ αδιαφορίασ (DON T CARE). Μάκε δυφίο του τμιματοσ τθσ κατάςταςθσ αποτελεί μια απάντθςθ ςε ζνα δυαδικό ερϊτθμα και ςυνικωσ το 1 μεταφράηεται ωσ «ΟΑΙ», το 0 ωσ «ΡΧΙ» και το # ςαν αδιαφορία. Για παράδειγμα μποροφμε να ςκεφτοφμε ότι ο ταξινομθτισ που απεικονίηεται ςτο Υχιμα 2.7 αποτελεί τμιμα του πράκτορα που παίηει ζνα ΣΥΣΧ και ότι το πρϊτο δυφίο του τμιματοσ κατάςταςθσ του είναι απάντθςθ ςτθν ερϊτθςθ «Χπάρχει κάποιοσ εχκρόσ ςε απόςταςθ μικρότερθ από ζναν προκακοριςμζνο αρικμό;» Υε αυτι τθν περίπτωςθ θ απάντθςθ είναι αρνθτικι, και άρα θ βάςθ είναι αςφαλισ. Φο μικοσ των τμθμάτων κατάςταςθσ και δράςθσ ποικίλει και εξαρτάται από τθν εκάςτοτε μοντελοποίθςθ του περιβάλλοντοσ.

35 ZCS4RTS Συςτήματα Ελέγχου Ταξινομητών ςε Παιχνίδια Στρατηγικήσ 24 Υτο ςθμείο αυτό να προςκζςουμε ότι θ φπαρξθ του ςυμβόλου αδιαφορίασ # προςφζρει ςτουσ ταξινομθτζσ τθν ιδιότθτα τθσ γενίκευςθσ που ςθμαίνει ότι ζνασ ταξινομθτισ μπορεί να αντιςτοιχίηεται ςε περιςςότερεσ από μια καταςτάςεισ. Φο γεγονόσ αυτό αντανακλά ςτθν προςπάκεια αναηιτθςθσ που γίνεται από το ZCS για τθν εφρεςθ τθσ βζλτιςτθσ λφςθσ. Για τθν επίδραςθ του με το περιβάλλον το ZCS ακολουκεί τθν ακόλουκθ διαδικαςία: Η κατάςταςθ του περιβάλλοντοσ, ζχοντασ υποςτεί τθν απαραίτθτθ μοντελοποίθςθ, δίνεται ωσ είςοδοσ ςτο ZCS. Υτθ ςυνζχεια θ κατάςταςθ του περιβάλλοντοσ ςυγκρίνεται με όλουσ του ταξινομθτζσ του πλθκυςμοφ *P] του ςυςτιματοσ και αν θ ακολουκία δυφίων τθσ κατάςταςθσ του περιβάλλοντοσ ζχει τισ ίδιεσ τιμζσ με τθν κατάςταςθ ενόσ ταξινομθτι (θ ςφγκριςθ με το ςτοιχείο # κεωρείται πάντα επιτυχισ) τότε ο ταξινομθτισ αυτόσ ειςάγεται ςτο ςφνολο ταφτιςθσ *Ξ+ (βλ. Υχιμα 2.6). Αφοφ δθμιουργθκεί το ςφνολο ταφτιςθσ επιλζγεται ο ταξινομθτισ του οποίου θ δράςθ κα εκτελεςτεί. Η επιλογι γίνεται με τθν εξισ ςτοχαςτικι διαδικαςία γνωςτι και ωσ επιλογι ρουλζτασ (roulette wheel) : Ζςτω i ταξινομθτζσ με δυνάμεισ s 0, s 1, s 2,, s i αντίςτοιχα. Η πικανότθτα επιλογισ του ταξινομθτι k (0 κ i) ορίηεται ωσ P k = s k (s 0 + s 1 + s s i ) Εξ.7 Αυτι θ μζκοδοσ ακολουκείται για να ζχουν πικανότθτα να επιλεγοφν και ταξινομθτζσ με δφναμθ χαμθλότερθ από τουσ υπόλοιπουσ ταξινομθτζσ του ςυνόλου ταφτιςθσ *Ξ+. Ασ υποκζςουμε δφο ταξινομθτζσ, που αντιςτοιχοφν ςτθν ίδια κατάςταςθ, οι οποίοι χρθςιμοποιοφνται ςε ζνα ZCS που παίηει ζνα ΣΥΣΧ απζναντι ςε ζναν ςυγκεκριμζνο αντίπαλο. Ζςτω ότι μετά από μερικά επειςόδια, κατά τθν διάρκεια των οποίων ο πρϊτοσ ταξινομθτισ ζχει αυξιςει τθν δφναμι του ζναντι του δευτζρου (γεγονόσ που υποδθλϊνει ότι είναι καταλλθλότεροσ για χριςθ απζναντι ςε αυτόν τον αντίπαλο), ο αντίπαλοσ αλλάηει και πλζον ο δεφτεροσ ταξινομθτισ προςφζρει καλφτερθ λφςθ ςτο πρόβλθμα. Αν θ επιλογι των ταξινομθτϊν γίνονταν ντετερμινιςτικά το ZCS, κα επζλεγε τον πρϊτο ταξινομθτι μζχρι θ δφναμι του να γίνει μικρότερθ από αυτι του δευτζρου, αγνοϊντασ τθν καλφτερθ λφςθ που ο τελευταίοσ προςφζρει και κα κακυςτεροφςε ςτθν εφρεςθ μια καταλλθλότερθσ πολιτικισ. Ξε τθν χριςθ τθσ ςτοχαςτικισ μεκόδου επιλογισ το ςφςτθμα ζχει αυξθμζνεσ πικανότθτεσ να ανακαλφψει ταχφτερα μια βζλτιςτθ πολιτικι. Φο χαρακτθριςτικό που περιγράφθκε είναι γνωςτό ωσ Ανταλλαγι Γνϊςθσ Εξερεφνθςθσ (Exploit Explore Tradeoff) και υλοποιείται, είτε με τθν μζκοδο τθσ ρουλζτασ είτε με κάποια άλλθ (όπωσ

36 ZCS4RTS Συςτήματα Ελέγχου Ταξινομητών ςε Παιχνίδια Στρατηγικήσ 25 θ ε-greedy), ςε όλουσ τουσ πράκτορεσ που χρθςιμοποιοφν ΕΕ και τουσ επιτρζπει να ζχουν ταχφτερθ προςαρμογι ςε τυχόν αλλαγζσ του περιβάλλοντοσ. Υυνεχίηοντασ τθν περιγραφι του τρόπου λειτουργίασ του ZCS, και αφοφ επιλεγεί θ δράςθ που αυτό κα ακολουκιςει, δθμιουργείται το ςφνολο δράςθσ *Α+ το οποίο περιλαμβάνει όλουσ του ταξινομθτζσ του *Ξ+ που ζχουν ωσ δράςθ τθν δράςθ του ταξινομθτι που επιλζχκθκε. Η δράςθ του ταξινομθτι δίνεται ςτον πράκτορα για εκτζλεςθ ςτο περιβάλλον, το οποίο επιςτρζφει μια αρικμθτικι ανταμοιβι Αξιολόγηςη Ταξινομητών Ζχουμε αναφζρει ιδθ ότι θ αξιολόγθςθ των ταξινομθτϊν γίνεται με βάςθ μια εξίςωςθ θ οποία μοιάηει με τθν εξίςωςθ ανανζωςθσ των τιμϊν τθσ ςυνάρτθςθσ αξιϊν-δράςεων Q s, a του αλγορίκμου SARSA. Σιο αναλυτικά, θ μζκοδοσ που ακολουκείται είναι θ εξισ: Αφοφ επιλεχκεί ο ταξινομθτισ του οποίου θ δράςθ κα εκτελεςτεί, δθμιουργείται, όπωσ είδαμε και προθγουμζνωσ, το ςφνολο δράςθσ *Α+ το οποίο αποτελείται από τουσ ταξινομθτζσ του ςυνόλου ταφτιςθσ που υποδεικνφουν τθν ίδια δράςθ με αυτι του ταξινομθτι που επιλζχκθκε. Ρι ταξινομθτζσ που δεν επιλζχκθκαν αποτελοφν πλζον το ςφνολο *Ξ+-*Α+. Ζςτω ότι το πλικοσ του ςυνόλου *Α+ είναι Α. Φο περιβάλλον επιςτρζφει ςτο ςφςτθμα μία ανταμοιβι r. Ζνα ποςοςτό β, όπου β [0,1], διαμοιράηεται ιςόποςα ςτουσ ταξινομθτζσ του ςυνόλου *Α+. Ζτςι θ δφναμθ s i του κάκε ταξινομθτι i γίνεται: s i s i + βr/ A Εξ.8 Υτθ ςυνζχεια από κάκε ταξινομθτι i του ςυνόλου *Α+ αφαιρείται ζνα ποςοςτό β τθσ δφναμισ του s i όπου β [0,1] το οποίο κα προςφερκεί ςτουσ ταξινομθτζσ του προθγοφμενου ςυνόλου δράςθσ [Α] 1 που ζχει δθμιουργθκεί. Ζτςι θ εξίςωςθ ανανζωςθσ τθσ δφναμθσ των ταξινομθτϊν του ςυνόλου *Α+ γίνεται: s i s i + βr A βs i Εξ.9 Φο ςφνολο τον ποςοςτϊν βs i που αφαιρζκθκαν προςτίκενται μεταξφ τουσ και κα προςφερκοφν πολλαπλαςιαηόμενα με ζναν ςυντελεςτι γ [0,1] ςτο προθγοφμενο ςφνολο δράςθσ *Α+ -1 που είχε δθμιουργθκεί ςτο προθγοφμενο βιμα. Αντιςτοίχωσ το άκροιςμα των ποςοςτϊν τθσ δφναμθσ s j που κα αφαιρεκεί από τουσ ταξινομθτζσ j του ςυνόλου δράςθσ του επόμενου βιματοσ *Α+ +1 κα διαμοιραςκεί ιςόποςα ςτουσ ταξινομθτζσ του ςυνόλου *Α+. Άρα θ Εξ.9 γίνεται

37 ZCS4RTS Συςτήματα Ελέγχου Ταξινομητών ςε Παιχνίδια Στρατηγικήσ 26 s i s i + βr A + γβ j s j 0 Α βs i Εξ. 10 Από τθν Εξ. 10 γίνεται αντιλθπτι θ ομοιότθτα του ςυςτιματοσ ανανζωςθσ τθσ δφναμθσ των ταξινομθτϊν ενόσ ΥΕΞΦ με τθν αντίςτοιχθ του αλγορίκμου SARSA (Εξ.6). Ρ παράγοντασ γ είναι ο παράγοντασ ζκπτωςθσ (Εξ. 2) ενϊ ο παράγοντασ β ζχει τον ρόλο του ρυκμοφ εκμάκθςθσ α τθσ (Εξ.5). Η ιςόποςθ διαμοίραςθ τθσ ανταμοιβισ, που προζρχεται από το περιβάλλον και από το επόμενο ςφνολο δράςθσ *Α+ +1, ςτουσ ταξινομθτζσ του ςυνόλου δράςθσ *Α+ γίνεται για να ενιςχυκοφν περιςςότερο οι ταξινομθτζσ που ανικουν ςε ζνα ςφνολο δράςθσ με μικρό πλθκυςμό. Φζλοσ ςτουσ ταξινομθτζσ του ςυνόλου *Ξ-Α+ επιβάλλεται ποινι και από τθν δφναμι τουσ αφαιρείται ζνα ποςοςτό τ, τ [0,1] Δημιουργύα και διαγραφό ταξινομητών Βαςικό χαρακτθριςτικό τθσ λειτουργίασ του ενόσ ZCS αποτελεί ο ΓΑ, ο οποίοσ είναι υπεφκυνοσ για τθν αναπαραγωγι των ταξινομθτϊν οι οποίοι κρίνονται κατάλλθλοι, και για τθν διαγραφι των ταξινομθτϊν που ζχουν χαμθλι δφναμθ, και άρα δεν προςφζρουν ςτθ επίλυςθ του προβλιματοσ. Ρ γενετικόσ αλγόρικμοσ που εφαρμόηεται ςτα ZCS είναι ζνασ ΓΑ ςτακερισ κατάςταςθσ. πωσ ζχουμε αναφζρει, ςτουσ γενετικοί αλγορίκμουσ ςτακερισ κατάςταςθσ δεν υπάρχει θ ζννοια τθσ γενιάσ κακϊσ ςε κάκε επανάλθψθ του αλγορίκμου επιλζγονται για αναπαραγωγι, και αντιςτοίχωσ αποκλείονται από τον πλθκυςμό, μόνο μερικά άτομα. Η ζναρξθ μίασ επανάλθψθσ του ΓΑ ςυμβαίνει με πικανότθτα ρ ςε κάκε βιμα που εκτελείται από τον πράκτορα. Η διαδικαςία που ακολουκείται κατά τθν διάρκεια μιασ επανάλθψθσ του ΓΑ ςε ζνα ZCS περιλαμβάνει τα εξισ βιματα: a. Διαςταφρωςθ Ταξινομθτϊν: Υε κάκε επανάλθψθ του ΓΑ υπάρχει πικανότθτα χ να αρχίςει θ διαδικαςία διαςταφρωςθσ μεταξφ δφο ταξινομθτϊν. Ρι ταξινομθτζσ που κα διαςταυρωκοφν (γονικοί ταξινομθτζσ) επιλζγονται ςτοχαςτικά με τθν μζκοδο τθσ ρουλζτασ. ςο υψθλότερθ είναι θ δφναμθ ενόσ ταξινομθτι τόςο μεγαλφτερεσ πικανότθτεσ ζχει να επιλεχκεί για διαςταφρωςθ. Από τθν διαςταφρωςθ των ταξινομθτϊν δθμιουργοφνται δφο ταξινομθτζσ τζκνα. Η αρχικι δφναμθ των ταξινομθτϊν τζκνων είναι ίςθ με το θμιάκροιςμα των γονικϊν ταξινομθτϊν. Η διαςταφρωςθ γίνεται ςε ζνα ςθμείο του γονότυπου των ταξινομθτϊν όπωσ φαίνεται ςτο Υχιμα 2.8 και ςτθ ςυνζχεια οι νζοι ταξινομθτζσ περνάνε από το ςτάδιο τθσ μετάλλαξθσ πριν ειςαχκοφν ςτο πλθκυςμό. Για να παραμείνει ο πλθκυςμόσ ςτακερόσ πρζπει να αφαιρεκοφν δφο ταξινομθτζσ.

38 ZCS4RTS Συςτήματα Ελέγχου Ταξινομητών ςε Παιχνίδια Στρατηγικήσ 27 Χρθςιμοποιείται πάλι οι μζκοδοσ τθσ ρουλζτασ αλλά ωσ πικανότθτα επιλογισ χρθςιμοποιείται θ αντίςτροφθ δφναμθ των ταξινομθτϊν. Ζτςι ταξινομθτζσ με χαμθλι δφναμθ ζχουν αυξθμζνεσ πικανότθτεσ να διαγραφοφν. Σχήμα 2.8: Απεικόνιςη Διαςταφρωςησ Ταξινομητϊν b. Μετάλλαξθ Ταξινομθτϊν: Ξετά τθν διαςταφρωςθ οι ταξινομθτζσ τζκνα περνάνε από τθν διαδικαςία τθσ μετάλλαξθσ. Ματά τθν μετάλλαξθ κάκε κζςθ του γονότυπου ζχει πικανότθτα μ να μεταλλαχκεί. Αν μια κζςθ επιλεχκεί για μετάλλαξθ τότε το ςφμβολο που βρίςκεται ςτθ κζςθ αυτι αλλάηει ςε ζνα από τα άλλα δφο ςφμβολα του αλφαβιτου με ίςεσ πικανότθτεσ. Αν για παράδειγμα ςε μια κζςθ βρίςκεται το ςφμβολο 1 και επιλεχκεί για μετάλλαξθ τότε υπάρχει 50% πικανότθτα το 1 να γίνει 0 και 50% πικανότθτα το 1 να γίνει #. Σζρα από τθν διαδικαςία του ΓΑ υπάρχει άλλθ μια μζκοδοσ που παράγει νζουσ ταξινομθτζσ, θ οποία ονομάηεται μζκοδοσ κάλυψθσ (covering operation). Ματά τθν διάρκεια τθσ αλλθλεπίδραςθσ του πράκτορα με το περιβάλλον υπάρχει θ πικανότθτα ςε κάποιο βιμα να μθν δθμιουργθκεί ςφνολο ταφτιςθσ που ςθμαίνει ότι δεν υπάρχει ταξινομθτισ μζςα ςτον πλθκυςμό του οποίου θ κατάςταςθ να αντιςτοιχεί ςτθν κατάςταςθ του περιβάλλοντοσ. Υε αυτι τθν περίπτωςθ χρθςιμοποιείται θ μζκοδοσ κάλυψθσ θ οποία δθμιουργεί ζναν νζο ταξινομθτι, με κατάςταςθ ίδια με αυτι που ειςζρχεται ςτο ςφςτθμα από το περιβάλλον, και μία τυχαία επιλεγμζνθ δράςθ. Επιπλζον κάκε κζςθ του τμιματοσ τθσ κατάςταςθσ ζχει P # πικανότθτα να πάρει τθν τιμι #. Ρ νζοσ

39 ZCS4RTS Συςτήματα Ελέγχου Ταξινομητών ςε Παιχνίδια Στρατηγικήσ 28 ταξινομθτισ ειςάγεται ςτον πλθκυςμό και επιλζγεται ζνασ ταξινομθτισ προσ διαγραφι με τθν μζκοδο τθσ ρουλζτασ αντίςτροφθσ δφναμθσ. Σζραν από τθν κάλυψθ τυχόν κενϊν που κα δθμιουργθκοφν θ διαδικαςία τθσ κάλυψθσ λαμβάνει χϊρα και όταν κανζνασ από τουσ ταξινομθτζσ του ςυνόλου ταφτιςθσ δεν ζχει δφναμθ ιςχυρότερθ από τον μζςο όρο τθσ δφναμθσ του πλθκυςμοφ των ταξινομθτϊν πολλαπλαςιαςμζνο με τον ςυντελεςτι Φ. ταν ιςχφει δθλαδι θ πρόταςθ ταξινομητή i P, ταξινομητής με s i > ΦE(s i ) Υε αυτι τθν περίπτωςθ ο νζοσ ταξινομθτισ ειςάγεται ςτον πλθκυςμό και ζνασ ταξινομθτισ διαγράφεται με τθν μζκοδο τθσ ρουλζτασ αντίςτροφθσ δφναμθσ. Αυτό αποτελεί άλλθ μια μζκοδο προςπάκειασ δθμιουργίασ ιςχυρϊν ταξινομθτϊν κακϊσ αδφναμοι ταξινομθτζσ διαγράφονται και τισ κζςεισ παίρνουν νζοι οι οποίοι πικανόν κα φζρουν καλφτερα αποτελζςματα. Υτον Σίνακασ 2.2 παρουςιάηονται ςυνοπτικά όλεσ οι μεταβλθτζσ που ελζγχουν τθ λειτουργία ενόσ ZCS. Πίνακασ 2.2: Μεταβλητζσ Ελζγχου ZCS ΜΕΣΑΒΛΗΣΗ N P # s 0 β γ τ ρ χ μ φ ΛΕΙΣΟΤΡΓΙΑ Ξζγεκοσ Σλθκυςμοφ Φαξινομθτϊν Σικανότθτα τοποκζτθςθσ του # ςε μία κζςθ του ταξινομθτι κατά τθν διάρκεια τθσ κάλυψθσ Αρχικι δφναμθ ταξινομθτϊν Τυκμόσ Εκμάκθςθσ Σαράγοντασ Ζκπτωςθσ Σαράγοντασ Φορολόγθςθσ Σικανότθτα Ζναρξθσ ΓΑ Σικανότθτα Εκτζλεςθσ Διαςταφρωςθσ Σικανότθτα Ξετάλλαξθσ Σαράγοντασ Μάλυψθσ Γενύκευςη Η φπαρξθ του ςυμβόλου αδιαφορίασ # ςτο τμιμα τθσ κατάςταςθσ των ταξινομθτϊν προςδίδει ςτα ZCS τθν ιδιότθτα τθσ γενίκευςθσ. Αυτό ςθμαίνει ότι τα ZCS ζχουν τθν ικανότθτα να γενικεφουν ζνα ςφνολο διαφορετικϊν καταςτάςεων και να το αντιςτοιχίηουν ςε μια μόνο κατάςταςθ θ οποία αναπαρίςταται ςε ζναν ταξινομθτι και που οδθγεί πάντοτε ςτθν ίδια δράςθ. Υε αυτιν τθν περίπτωςθ το ZCS ενδιαφζρεται μόνο για ζνα ςυγκεκριμζνο τμιμα τθσ πλθροφορίασ που αναπαρίςταται ςτο τμιμα κατάςταςθσ του ταξινομθτι ενϊ αδιαφορεί για το υπόλοιπο.

40 ZCS4RTS Συςτήματα Ελέγχου Ταξινομητών ςε Παιχνίδια Στρατηγικήσ 29 Υτο Υχιμα 2.9 δίνεται ζνα παράδειγμα τθσ ιδιότθτασ τθσ γενίκευςθσ. Βλζπουμε ότι θ κατάςταςθ του ταξινομθτι ςτα δεξιά είναι ιςοδφναμθ με όλεσ τισ καταςτάςεισ ςτα αριςτερά. Ξζςα από τισ ςυνεχείσ διαςταυρϊςεισ και μεταλλάξεισ ζχει δθμιουργθκεί ζνασ ταξινομθτισ που αδιαφορεί για όλεσ τισ κζςεισ του τμιματοσ κατάςταςθσ εκτόσ από τισ δφο τελευταίεσ τισ οποίεσ κεωρεί και πιο ςθμαντικζσ. Σχήμα 2.9: Ιδιότητα γενίκευςησ ςε ZCS

41 ZCS4RTS Συςτήματα Ελέγχου Ταξινομητών ςε Παιχνίδια Στρατηγικήσ Περιβϊλλον του Παιχνιδιού Στρατηγικόσ Πραγματικού Χρόνου τησ Πλατφόρμασ RL-Glue Φο παιχνίδι ςτρατθγικισ που χρθςιμοποιικθκε αποτελεί τμιμα τθσ πλατφόρμασ RL-Glue [TWh + 09] θ οποία χρθςιμοποιείται για τθν ανάπτυξθ και δοκιμι πρακτόρων ΕΕ ανεξαρτιτωσ γλϊςςασ προγραμματιςμοφ. Φο ςυγκεκριμζνο ΣΥΣΧ αποτελεί μία απλουςτευμζνθ εκδοχι των παιχνιδιϊν αυτοφ του είδουσ, από τθν άποψθ ότι υπάρχουν μόνο τρία είδθ μονάδων, διατθρεί όμωσ τισ ίδιεσ βαςικζσ αρχζσ. Φον ζλεγχο του παιχνιδιοφ ζχει ο τοπικόσ server τθσ πλατφόρμασ του παιχνιδιοφ όπωσ φαίνεται ςτο Υχιμα Σχήμα 2.10: Επικοινωνία ςτο περιβάλλον του RL-Glue Υτον server ςυνδζεται τόςο ο πράκτορασ μασ όςο και ο πράκτορασ που ελζγχει τισ κινιςεισ του αντιπάλου (εκπαιδευτισ). Η επικοινωνία μεταξφ του πράκτορα που εκπαιδεφεται και του server γίνεται ςε κάκε χρονικό βιμα (time-step) του παιχνιδιοφ. Ματά τθ διάρκεια του βιματοσ αυτοφ ο server ςτζλνει ςτον πράκτορα μια λίςτα με ακεραίουσ, θ οποία περιλαμβάνει όλεσ τισ πλθροφορίεσ του περιβάλλοντοσ ςτισ οποίεσ ζχει πρόςβαςθ ο πράκτορασ τθν ςυγκεκριμζνθ ςτιγμι. Υτθ ςυνζχεια ο πράκτορασ επιςτρζφει μια λίςτα με τισ κινιςεισ που επικυμεί να πραγματοποιιςει θ οποία ειςάγεται ςτον server και μεταφράηεται ςε δράςεισ των μονάδων μζςα ςτο παιχνίδι.

42 ZCS4RTS Συςτήματα Ελέγχου Ταξινομητών ςε Παιχνίδια Στρατηγικήσ Περιβϊλλον Παιχνιδιού Φο παιχνίδι εξελίςςεται πάνω ςε ζναν χάρτθ διαςτάςεων 560x560 (Υχιμα 2.11) και είναι ο χϊροσ μζςα ςτον οποίο δρουν οι μονάδεσ. Υτόχοσ ενόσ πράκτορα που παίηει το παιχνίδι είναι θ χρθςιμοποίθςθ των μονάδων με τρόπο τζτοιο που κα του επιτρζψει να επιβλθκεί του αντιπάλου. Υτο Υχιμα εμφανίηονται οι μονάδεσ που υπάρχουν μζςα ςτο παιχνίδι. Ρι μονάδεσ υπό τον ζλεγχο του πράκτορα που εκπαιδεφεται αναπαρίςτανται με μπλε χρϊμα ενϊ αυτζσ του αντιπάλου με κόκκινο. Ρι μονάδεσ με κίτρινο χρϊμα αναπαριςτοφν τα αποκζματα πόρων πάνω ςτα οποία οι δφο αντίπαλοι δεν αςκοφν ζλεγχο αλλά μποροφν να τα χρθςιμοποιιςουν. Ρι μονάδεσ που αναπαρίςτανται ωσ μεγάλοι κυκλικοί δίςκοι είναι οι βάςεισ (μπλζ του πράκτορα και κόκκινθ του αντιπάλου). Ρι ςτρατιϊτεσ είναι οι μικροί κυκλικοί δίςκου και οι εργάτεσ εμφανίηονται ωσ κφκλοι. Μάκε μονάδα ζχει μια ακτίνα όραςθσ (γκρι περιοχι) ενϊ θ μαφρθ περιοχι αντιπροςωπεφει το τμιμα του χάρτθ που δεν είναι ορατό ςτισ μονάδεσ του πράκτορα. Σχήμα 2.11: Χάρτησ Παιχνιδιοφ Στρατηγικήσ

43 ZCS4RTS Συςτήματα Ελέγχου Ταξινομητών ςε Παιχνίδια Στρατηγικήσ 32 Φο παιχνίδι εξελίςςεται ςε επειςόδια. Μάκε επειςόδιο ξεκινάει με τθν τυχαία τοποκζτθςθ δζκα αποκεμάτων πόρων μζςα ςτον χάρτθ. Ρ κάκε αντίπαλοσ ξεκινάει με ζνα αρχικό απόκεμα πόρων αξίασ 1000 πόντων. Υε τυχαία κζςθ τοποκετείται και ζνασ εργάτθσ για κάκε πλευρά. Φο κάκε επειςόδιο εξελίςςεται ςε χρονικά βιματα και θ μζγιςτθ διάρκειά του είναι τα βιματα. Για να τελειϊςει ζνα επειςόδιο πρζπει, ι να καταςτραφεί θ βάςθ κάποιου αντιπάλου, ι ο χρόνοσ του επειςοδίου να φτάςει τα βιματα. Αν ο πράκτοράσ μασ καταφζρει να καταςτρζψει τθν βάςθ του αντιπάλου, δθλαδι κερδίςει το επειςόδιο, ανταμείβεται από το περιβάλλον. Η ανταμοιβι εξαρτάται από τα χρονικά βιματα που πζραςαν μζχρι τθν καταςτροφι τθσ αντίπαλθσ βάςθσ και που ορίηεται από τθν εξίςωςθ r = 100 ( 15t t max ) όπου t το χρονικό βιμα καταςτροφισ τθσ αντίπαλθσ βάςθσ και t max ο μζγιςτοσ αρικμόσ βθμάτων του επειςοδίου. Υε περίπτωςθ ιττασ, αν δθλαδι καταςτραφεί θ βάςθ του πράκτορα, θ ανταμοιβι είναι μθδζν. Υε περίπτωςθ που ο χρόνοσ φτάςει ςτα βιματα το επειςόδιο λιγει ωσ ιςοπαλία. Υε αυτι τθν περίπτωςθ για κάκε αντίπαλο υπολογίηεται ζνα ςκορ με βάςθ τουσ πόρουσ που ζχουν απομείνει ςτον κάκε πράκτορα, το κόςτοσ των μονάδων που ζχουν απομείνει ςτθ κάκε μεριά και το κόςτοσ των μονάδων που ο κάκε αντίπαλοσ ςκότωςε κατά τθν διάρκεια του επειςοδίου. Ρ πράκτορασ με το μεγαλφτερο ςκορ λαμβάνει ανταμοιβι 55 πόντων και αυτόσ με το μικρότερο 45. Υε περίπτωςθ που και τα ςκορ είναι ίςα ο κάκε πράκτορασ λαμβάνει 50 πόντουσ Μονϊδεσ πωσ προαναφζραμε ςτο παιχνίδι υπάρχουν τζςςερα είδθ μονάδων που είναι τα εξισ: 1. Ρι Βάςεισ 2. Ρι Υτρατιϊτεσ 3. Ρι Εργάτεσ 4. Φα αποκζματα πόρων Η πλατφόρμα του παιχνιδιοφ αντιλαμβάνεται όλεσ τισ μονάδεσ ωσ ζνα ςφνολο γνωριςμάτων και είναι οι τιμζσ των γνωριςμάτων αυτϊν που ξεχωρίηουν το ζνα είδοσ μονάδασ από το άλλο. Φα γνωρίςματα είναι τα εξισ: a. Κωδικόσ Μονάδασ (unit id): Υε κάκε νζα μονάδα που δθμιουργείται ςτο παιχνίδι ανατίκεται ζνασ νζοσ κωδικόσ με αφξουςα ςειρά. b. Κωδικόσ Ιδιοκτιτθ (owner id): Μακορίηει το ποιοσ ελζγχει τθν ςυγκεκριμζνθ μονάδα. Η τιμι 0 αντιςτοιχεί ςε μονάδεσ του αντιπάλου, θ τιμι 1 ςε μονάδεσ του πράκτορα και θ τιμι 2 ςε μονάδεσ που δεν ανικουν ςε κανζναν (τα αποκζματα πόρων).

44 ZCS4RTS Συςτήματα Ελέγχου Ταξινομητών ςε Παιχνίδια Στρατηγικήσ 33 c. Είδοσ Μονάδασ (unit type): Φο πεδίο αυτό παίρνει τιμι ανάλογα με το είδοσ τθσ μονάδασ. d. Ακτίνα (radius): Σρόκειται ουςιαςτικά για το μζγεκοσ τθσ μονάδασ( το πόςο μεγάλθ φαίνεται θ μονάδα πάνω ςτον χάρτθ). e. Ακτίνα όραςθσ (sight radius): Μακορίηει τθν απόςταςθ ςτθν οποία μπορεί να δει μία μονάδα (θ γκρι περιοχι γφρω από κάκε μονάδα ςτο Υχιμα 2.11) Σρόκειται ςτθν ουςία για το τμιμα του περιβάλλοντοσ για το οποίο θ μονάδα ζχει πλθροφορίεσ. f. Βελθνεκζσ (attack range): Ξία μονάδα μπορεί να πυροβολιςει ζναν αντίπαλο αν αυτόσ βρίςκεται ςε απόςταςθ μικρότερθ από τθν τιμι αυτισ τθσ μεταβλθτισ. g. Αξία Επίκεςθσ (attack value): Δείχνει τθν ηθμία που κάνει μια μονάδα ςε μία αντίπαλθ μονάδα με ζνα χτφπθμα. Ρι μονάδεσ μποροφν να επιτίκενται μια φορά ανά χρονικό βιμα. h. Πόντοι Υγείασ (hp): Μάκε φορά που μια μονάδα δζχεται χτφπθμα από κάποιον αντίπαλο θ τιμι τθσ μεταβλθτισ αυτισ μειϊνεται ανάλογα με τθν αξία του χτυπιματοσ. Αν θ τιμι γίνει μικρότερθ ι ίςθ με το 0, θ μονάδα ζχει καταςτραφεί και εξαφανίηεται από τον χάρτθ. i. Πανοπλία (armor): Για να προκλθκεί ηθμία και άρα μείωςθ των πόντων υγείασ ςε μια μονάδα, πρζπει θ αξία τθσ επίκεςθσ που δζχεται να ίςθ ι μεγαλφτερθ από τθν τιμι τα θσ μεταβλθτισ πανοπλίασ. j. Ταχφτθτα (speed): Δθλϊνει τθν ταχφτθτα τθσ μονάδασ. Η ταχφτθτα ορίηεται ωσ ο αρικμόσ των ςθμείων του χάρτθ που μπορεί να μετακινθκεί μια μονάδα ςε ζνα χρονικό βιμα. k. Κόςτοσ (cost): Ρρίηει το ποςό των πόρων που πρζπει να δθμιουργθκεί για τθν δθμιουργία τθσ ςυγκεκριμζνθσ μονάδασ. l. Χρόνοσ Δθμιουργίασ (training time): Ρρίηει τον χρόνο, ςε χρονικά βιματα, που απαιτείται για τθν δθμιουργία μιασ μονάδασ. m. Χωρθτικότθτα (capacity): Ρρίηει τθν ποςότθτα πόρων που περιζχει (αν πρόκειται για ζνα απόκεμα πόρων) ι που μεταφζρει (αν πρόκειται για εργάτθ) μια μονάδα. n. Χρόνοσ Συλλογισ Πόρων: Ρρίηει τον αρικμό των χρονικϊν βθμάτων που χρειάηεται να παραμείνει ζνασ εργάτθσ πάνω ςε ζνα απόκεμα πόρων ϊςτε να ςυλλζξει τον αρικμό πόρων που ορίηονται από τθν χωρθτικότθτα του εργάτθ.

45 ZCS4RTS Συςτήματα Ελέγχου Ταξινομητών ςε Παιχνίδια Στρατηγικήσ 34 Υτον Σίνακασ 2.3 παρουςιάηονται οι τιμζσ των μεταβλθτϊν για κάκε είδοσ μονάδασ. Πίνακασ 2.3: Τιμζσ των Ιδιοτήτων των Μονάδων Μεταβλθτι Βάςθ τρατιϊτθσ Εργάτθσ Απόκεμα Πόρων Φφποσ Ξεταβλθτισ Base Marine Worker Mineral Patch Ακτίνα Ξονάδασ Ακτίνα ραςθσ Ξονάδασ Βελθνεκζσ Ξονάδασ Αξία Επίκεςθσ Σόντοι Χγείασ Σανοπλία Φαχφτθτα Μόςτοσ Ματαςκευισ Χρόνοσ Ματαςκευισ Χωρθτικότθτα Σόρων Χρόνοσ Υυλλογισ Σόρων Από τισ τιμζσ των μεταβλθτϊν μποροφμε να κάνουμε τισ εξισ παρατθριςεισ: Η βάςθ δεν μπορεί να αμυνκεί του εαυτοφ τθσ και άρα κα πρζπει να φυλάςςεται. Ζχει υψθλό κόςτοσ καταςκευισ γεγονόσ που κακιςτά τθν καταςκευι περιςςότερων τθσ μίασ βάςθσ, κάτι που κα ζδινε τθν ικανότθτα παράλλθλθσ δθμιουργίασ μονάδων, αςφμφορο. Ξια βάςθ μπορεί να δθμιουργεί μια μονάδα κάκε ςτιγμι και εχει μεγάλθ ακτίνα όραςθσ για να εντοπίηει ζγκαιρα τισ ειςερχόμενεσ απειλζσ. Ρι εργάτεσ είναι μια φκθνι και με μικρό χρόνο δθμιουργίασ μονάδα. Υκοπόσ τουσ είναι θ ςυλλογι πόρων τουσ οποίουσ μεταφζρουν ςτθ βάςθ για να χρθςιμοποιθκοφν για τθν δθμιουργία νζων μονάδων. Από τον πίνακα βλζπουμε ότι μποροφν να αμυνκοφν αλλά απζναντι ςε ςτρατιϊτεσ ζχουν ελπίδεσ νίκθσ μόνο αν υπερτεροφν ςε αρικμό μονάδων κατά πολφ του αντιπάλου. Ρι ςτρατιϊτεσ δε μποροφν να ςυλλζξουν πόρουσ και μοναδικό τουσ κακικον είναι θ ςτρατιωτικι εμπλοκι με τον αντίπαλο. Είναι πιο ακριβοί από τουσ εργάτεσ και απαιτοφν μεγαλφτερο χρόνο για να δθμιουργθκοφν οπότε θ χριςθ τουσ κα πρζπει να είναι ορκολογικι. Για παράδειγμα, κα πρζπει να υποχωροφν όταν βρίςκονται αντιμζτωποι με περιςςότερουσ αντιπάλουσ και ζχουν τθν δυνατότθτα.

46 ZCS4RTS Συςτήματα Ελέγχου Ταξινομητών ςε Παιχνίδια Στρατηγικήσ 35 Φα αποκζματα πόρων δεν ελζγχονται από κάποιον αντίπαλο. Εξαντλοφνται όταν το απόκεμα των πόρων τουσ μθδενιςτεί οπότε και εξαφανίηονται από τον χάρτθ. Φο ότι αποτελοφν ζνα είδοσ μονάδασ ςθμαίνει ότι υπάρχει θ δυνατότθτα να δεχκοφν επίκεςθ. Για να μθν καταςτρζφονται λοιπόν ζχουν πολφ μεγάλθ τιμι πανοπλίασ Ενιαύα Πληροφόρηςη και Έλλειψη Μνόμησ πωσ αναφζραμε ςτθν προθγοφμενθ παράγραφο κάκε μονάδα του πράκτορα ζχει μία ακτίνα όραςθσ (Line of Sight ι LOS είναι ο όροσ που χρθςιμοποιείται ςτθν κοινότθτα των παικτϊν) και δεν μπορεί να αντλιςει πλθροφορίεσ για οτιδιποτε ςυμβαίνει ςτο περιβάλλον ςε απόςταςθ μεγαλφτερθ από τθν τιμι που ορίηεται από τθν ακτίνα όραςθσ. Ασ υποκζςουμε μια κατάςταςθ όπωσ αυτι του Υχιμα 2.12 όπου μζςα ςτον χϊρο υπάρχει μόνο ζνασ ςτρατιϊτθσ του πράκτορα. Φο μόνα αντικείμενα που μπορεί να δει είναι το απόκεμα πόρων και ο αντίπαλοσ ςτρατιϊτθσ τα οποία βρίςκονται ςε απόςταςθ μικρότερθ από τθν ακτίνα όραςθσ του ςτρατιϊτθ. Φο υπόλοιπο του χάρτθ είναι καλυμμζνο με αυτό που ςτα παιχνίδια ςτρατθγικισ ονομάηεται «ομίχλθ του πολζμου» (fog of war, FOW) και ο ςτρατιϊτθσ δεν γνωρίηει τίποτα για αυτό. Σχήμα 2.12: Αντίληψη Περιβάλλοντοσ από ζναν ςτρατιϊτη

47 ZCS4RTS Συςτήματα Ελέγχου Ταξινομητών ςε Παιχνίδια Στρατηγικήσ 36 Υτα εμπορικά ΣΥΣΧ ο παίκτθσ αντλεί πλθροφορίεσ από όλεσ τισ μονάδεσ του και με απλι εποπτεία βλζπει όλα τα αντικείμενα του περιβάλλοντοσ που βρίςκονται ςε απόςταςθ μικρότερθ από τθν ακτίνα όραςθσ κάποιασ μονάδασ του. Ξε αυτό τον τρόπο ζχει γνϊςθ για πολφ μεγαλφτερο τμιμα του περιβάλλοντοσ από τθν κάκε μονάδα του ξεχωριςτά. Αυτό το ςτοιχείο εφαρμόηεται και ςτο παιχνίδι μασ κακϊσ θ κάκε μονάδα ςτζλνει πλθροφορίεσ ςτον πράκτορα για όλα τα αντικείμενα τα οποία μπορεί να δει. Ζτςι, αν ηθτιςουμε από το πρόγραμμα εκτζλεςθσ του πράκτορα να τυπϊςει ςτθν οκόνθ του υπολογιςτι μια λίςτα με όλα τα αντικείμενα που βλζπουν οι μονάδεσ του πράκτορα ςτθν κατάςταςθ που απεικονίηεται ςτο Υχιμα 2.13 κα λάβουμε τθν λίςτα παρατιρθςθσ του Υχιμα Σχήμα 2.13: Απεικόνιςη Ενιαίασ Πληροφορίασ worker id=1 owner=1 x,y=482,276 r=4 sr=64 hp=30 armor=0 ms=2 mineral_patch id=4 owner=2 x,y=537,386 r=16 sr=0 hp=1 armor= mineral_patch id=5 owner=2 x,y=476,382 r=16 sr=0 hp=1 armor= mineral_patch id=6 owner=2 x,y=476,255 r=16 sr=0 hp=1 armor= mineral_patch id=7 owner=2 x,y=499,398 r=16 sr=0 hp=1 armor= mineral_patch id=8 owner=2 x,y=468,206 r=16 sr=0 hp=1 armor= base id=9 owner=1 x,y=491,305 r=16 sr=96 hp=100 armor=0 marine id=10 owner=1 x,y=499,272 r=4 sr=64 hp=50 armor=0 ms=2 marine id=11 owner=1 x,y=499,272 r=4 sr=64 hp=50 armor=0 ms=2 marine id=12 owner=1 x,y=483,282 r=4 sr=64 hp=50 armor=0 ms=2 marine id=15 owner=1 x,y=486,308 r=4 sr=64 hp=50 armor=0 ms=2 marine id=16 owner=1 x,y=499,272 r=4 sr=64 hp=50 armor=0 ms=2 marine id=17 owner=1 x,y=483,282 r=4 sr=64 hp=50 armor=0 ms=2 marine id=20 owner=1 x,y=499,272 r=4 sr=64 hp=50 armor=0 ms=2 marine id=24 owner=0 x,y=486,308 r=4 sr=64 hp=50 armor=0 ms=2 marine id=25 owner=0 x,y=483,282 r=4 sr=64 hp=50 armor=0 ms=2 marine id=26 owner=0 x,y=483,282 r=4 sr=64 hp=50 armor=0 ms=2 Σχήμα 2.14: Λίςτα με τα αντικείμενα που βλζπει ο πράκτορασ χάρη ςτην ενιαία πληροφόρηςη

48 ZCS4RTS Συςτήματα Ελέγχου Ταξινομητών ςε Παιχνίδια Στρατηγικήσ 37 Υε λίςτεσ ςαν κι αυτι θ ςειρά αναγραφισ των αντικειμζνων είναι ανάλογθ με τθν ςειρά παρατιρθςισ τουσ από τον πράκτορα. Ζτςι ςτθ λίςτα του Υχιματοσ 2.14 εμφανίηεται πρϊτα ο αρχικόσ εργάτθσ με κωδικό μονάδοσ 1 και ςτθ ςυνζχεια τα αποκζματα πόρων που ανακαλφφκθκαν πριν ολοκλθρωκεί θ καταςκευι τθσ βάςθσ. Ξε μια προςεκτικότερθ παρατιρθςθ μπορεί κάποιοσ να παρατθριςει τα εξισ. Σρϊτον ότι ο αρικμόσ των πεηοναυτϊν που ανικουν ςτον πράκτορα (id=1) και αναγράφονται ςτθ λίςτα είναι περιςςότεροι από αυτοφσ που εμφανίηονται και δεφτερον ότι κάποιοι κωδικοί μονάδων απουςιάηουν. Φο πρϊτο ςυμβαίνει διότι το παιχνίδι δεν υποςτθρίηει ανίχνευςθ ςφγκρουςθσ (collision detection), που ςθμαίνει ότι είναι δυνατόν δφο αντικείμενα να καταλαμβάνουν τθν ίδια κζςθ ςτον χάρτθ. Η πικανότθτα είναι ότι οι δφο πεηοναφτεσ που «αγνοοφνται» βρίςκονται πάνω ςτθν βάςθ και δεν φαίνονται λόγω ςυμφωνίασ ςτο χρϊμα. Η ζλλειψθ των κωδικϊν μονάδων ςυμβαίνει είτε διότι τα αντικείμενα που είχαν τον ςυγκεκριμζνο κωδικό δεν υπάρχουν πλζον (ζχουν καταςτραφεί ι εξαντλθκεί αν πρόκειται για απόκεμα πόρων) είτε λόγω τθσ ζλλειψθσ μνιμθσ. Ρ πράκτορασ δεν ζχει τθν ικανότθτα να κυμάται αντικείμενα τα οποία είδε ςτο παρελκόν και οφτε να τα αναγνωρίςει αν τα ξαναδεί ςτο μζλλον. Ζςτω ότι ςτο παράδειγμα που παρουςιάςτθκε ςτο Υχιμα 2.12 θ λίςτα κατάςταςθσ του περιβάλλοντοσ είναι αυτι του Υχιμα marine id=1 owner=1 x,y=483,282 r=4 sr=64 hp=50 armor=0 ms=2 mineral_patch id=2 owner=2 x,y=537,386 r=16 sr=0 hp=1 armor= marine id=3 owner=0 x,y=483,282 r=4 sr=64 hp=50 armor=0 ms=2 Σχήμα 2.15: Παράδειγμα ζλλειψησ μνήμησ (α) Ζςτω ότι ο αντίπαλοσ ςτρατιϊτθσ με κωδικό μονάδασ 3 απομακρφνεται από τθν ακτίνα όραςθσ του ςτρατιϊτθ του πράκτορα ο οποίοσ μζνει ακίνθτοσ. Η νζα αυτι κατάςταςθ μαηί με τθν αντίςτοιχθ λίςτα εμφανίηεται ςτο Υχιμα 2.16.

49 ZCS4RTS Συςτήματα Ελέγχου Ταξινομητών ςε Παιχνίδια Στρατηγικήσ 38 marine id=1 owner=1 x,y=483,282 r=4 sr=64 hp=50 armor=0 ms=2 mineral_patch id=2 owner=2 x,y=537,386 r=16 sr=0 hp=1 armor= Σχήμα 2.16: Παράδειγμα Ζλλειψησ Μνήμησ (β) πωσ γίνεται αντιλθπτό ο πράκτορασ ξζχαςε τθν φπαρξθ του αντίπαλου ςτρατιϊτθ τθν ςτιγμι που αυτόσ ζπαψε να είναι ορατόσ. Αν ςτθ ςυνζχεια ο ίδιοσ αντίπαλοσ ςτρατιϊτθσ επανζλκει ςτο οπτικό πεδίο του ςτρατιϊτθ του πράκτορα θ νζα λίςτα κατάςταςθσ κα πάρει τθν μορφι του Υχιμα 2.17 marine id=1 owner=1 x,y=483,282 r=4 sr=64 hp=50 armor=0 ms=2 mineral_patch id=2 owner=2 x,y=537,386 r=16 sr=0 hp=1 armor= marine id=4 owner=0 x,y=483,282 r=4 sr=64 hp=50 armor=0 ms=2 Σχήμα 2.17: Παράδειγμα Ζλλειψησ Μνήμησ (γ) Σαρατθροφμε ότι θ τιμι του κωδικοφ μονάδασ για τον αντίπαλο ςτρατιϊτθ άλλαξε. Δθλαδι ο ίδιοσ ςτρατιϊτθσ που πριν είχε κωδικό μονάδασ 3, ζχει τϊρα κωδικό μονάδασ 4, που ςθμαίνει ότι ο πράκτορασ τον αντιλαμβάνεται ωσ μια νζα μονάδα. Οα τονίςουμε εδϊ ότι οι μονάδεσ που ανικουν ςτο πράκτορα είναι ορατζσ ςε κάκε χρονικό βιμα και δεν αλλάηουν ποτζ κωδικό μονάδασ κατά τθν διάρκεια ενόσ επειςοδίου.

50 ZCS4RTS Συςτήματα Ελέγχου Ταξινομητών ςε Παιχνίδια Στρατηγικήσ 39 3 Μεθοδολογύα Ανϊπτυξησ Πρϊκτορα Για τθν γενικι δομι του πράκτορα χρθςιμοποιικθκε θ μοντελοποίθςθ του Υχιμα 3.1. Ρ κεντρικόσ πράκτορασ προςφζρεται από τθν κοινότθτα RL-Glue [URL2] και παρζχει όλθ τθν απαραίτθτθ υποδομι για τθν επικοινωνία του πράκτορα με το περιβάλλον του, τθν μετάφραςθ αποφάςεων ςε κινιςεισ πάνω ςτον χάρτθ κακϊσ και τθν πλθροφόρθςθ του πράκτορα από το περιβάλλον. Σχήμα 3.1: Δομή Πράκτορα ZCS

51 ZCS4RTS Συςτήματα Ελέγχου Ταξινομητών ςε Παιχνίδια Στρατηγικήσ 40 πωσ παρατθροφμε από το ςχιμα ο πράκτορασ που χειρίηεται τουσ εργάτεσ είναι ςτατικόσ, εκτελεί δθλαδι ςυγκεκριμζνεσ κινιςεισ χωρίσ να μακαίνει κάποια ςτρατθγικι. Η επιλογι αυτι ζγινε για δφο λόγουσ. Σρϊτον, διότι το παιχνίδι περιλαμβάνει ζνα είδοσ πόρων. Υε περίπτωςθ που υπιρχαν πολλά είδθ (χριματα, φαγθτό, ξφλο κτλ.) ο πράκτορασ κα ζπρεπε να μάκει τθν ςωςτι πολιτικι ανάκεςθσ κακθκόντων ςτουσ εργάτεσ και θ φπαρξθ ενόσ ZCS που κα μάκαινε αυτι τθν πολιτικι κα κρίνονταν απαραίτθτθ. Δεφτερον ςθμαντικότατο ρόλο ςτθν επικράτθςθ του πράκτορα ςε ζνα επειςόδιο παίηει ο ςυνεχισ ανεφοδιαςμόσ τθσ βάςθσ με πόρουσ. Για τον λόγο αυτό επιλζχκθκε ωσ μοναδικό κακικον των εργατϊν θ ςυλλογι πόρων. Φο ZCS που ελζγχει τθν λειτουργία τθσ βάςθσ αποφαςίηει για το τι είδοσ μονάδασ κα παραχκεί από τθν βάςθ. Φο ZCS των ςτρατιωτϊν είναι υπεφκυνο για τθν ανάκεςθ κακθκόντων ςτουσ ςτρατιϊτεσ που δθμιουργοφνται από τθν βάςθ. Η φπαρξθ δφο διαφορετικϊν ZCS είναι επιβεβλθμζνθ κακϊσ οι αποφάςεισ που λαμβάνονται δεν είναι ταυτόχρονεσ. Αυτό ςθμαίνει ότι αν θ βάςθ λάβει τθν απόφαςθ να δθμιουργιςει ζναν ςτρατιϊτθ τθν χρονικι ςτιγμι t το ZCS κα παρατθριςει τθν φπαρξι του, και κα του ανακζςει κάποιο κακικον μετά από χρόνο ίςο με τον χρόνο παραγωγισ ςτρατιϊτθ. Φο ότι τα δφο ZCS δρουν ανεξάρτθτα δεν ςθμαίνει ότι δεν επθρεάηει το ζνα το άλλο. Υτθν πραγματικότθτα τα δφο ZCS λαμβάνουν επιμζρουσ κοινι πλθροφόρθςθ για το περιβάλλον τουσ, και οι δράςεισ του ενόσ ζχουν άμεςο αντίκτυπο ςτθν λειτουργία του άλλου. 3.1 Λειτουργύα του Πρϊκτορα Εργϊτεσ Ρι εργάτεσ είναι αδφναμεσ μονάδεσ με χαμθλοφσ πόντουσ ενζργειασ και επίκεςθσ (Σίνακασ 2.3) οπότε είναι άςκοπο να χρθςιμοποιθκοφν ςτθ μάχθ. Επιπλζον, ςτο ςυγκεκριμζνο παιχνίδι, δεν υπάρχει θ ανάγκθ καταςκευισ περιςςότερων κτθρίων όπωσ ςε κάποια πιο πολφπλοκα παιχνίδια. Φο μόνο κακικον τουσ, λοιπόν, είναι θ ςυλλογι πόρων. Για να ςυγκεντρϊςει ο εργάτθσ τουσ πόρουσ κατευκφνεται ςτο ςθμείο του χάρτθ όπου βρίςκεται ζνα απόκεμα πόρων. ταν φτάςει ςε αυτό, παραμζνει για χρόνο ίςο με τον χρόνο που κακορίηεται από τον χρόνο ςυλλογισ πόρων και ςτθ ςυνζχεια κατευκφνεται ςτθ βάςθ. Ξόλισ φτάςει ςε αυτι, αποκζτει τουσ πόρουσ που ςυνζλεξε οι οποίοι γίνονται διακζςιμοι για τθν παραγωγι μονάδων. Ξόλισ το απόκεμα από το οποίο γίνεται θ ςυλλογι εξαντλθκεί, εξαφανίηεται από τον χάρτθ και τότε οι εργάτεσ κατευκφνονται προσ το επόμενο απόκεμα του οποίου τθν φπαρξθ γνωρίηουν για να ςυνεχίςουν τθ ςυλλογι. Για τθν επιλογι του αποκζματοσ από το οποίο κα ςυλλεχκοφν πόροι ακολουκείται θ εξισ διαδικαςία. Από τισ πλθροφορίεσ που ςυγκεντρϊνονται από όλεσ τισ μονάδεσ του πράκτορα

52 ZCS4RTS Συςτήματα Ελέγχου Ταξινομητών ςε Παιχνίδια Στρατηγικήσ 41 εντοπίηονται και αποκθκεφονται οι ςυντεταγμζνεσ των αποκεμάτων πάνω ςτον χάρτθ. Ρι εργάτεσ επιλζγουν το απόκεμα που εντοπίςτθκε πρϊτο. Ξόλισ αυτό εξαντλθκεί, οι ςυντεταγμζνεσ του αφαιροφνται από τθν λίςτα αποκεμάτων και ωσ επόμενο απόκεμα επιλζγεται, ανάμεςα ςτα αποκζματα τθσ λίςτα, το κοντινότερο ςτθ βάςθ. Αν τθν ςτιγμι εξάντλθςθσ κάποιου αποκζματοσ θ λίςτα με τισ ςυντεταγμζνεσ είναι άδεια, οι εργάτεσ εξερευνοφν το περιβάλλον κινοφμενοι προσ διάφορεσ κατευκφνςεισ ςε αναηιτθςθ νζων αποκεμάτων. Η διαδικαςία που ακολουκείται περιγράφεται ςτο Σλαίςιο 2. Ρι εργάτεσ παίηουν ςθμαντικότατο ρόλο ςτθν προςπάκεια επίτευξθσ τθσ νίκθσ. πωσ ςυμβαίνει ςτα περιςςότερα ΣΥΣΧ, ζτςι και εδϊ θ ςυνεχισ και επαρκισ τροφοδοςία πόρων είναι ςθμείο κλειδί για τθ νίκθ και τισ περιςςότερεσ φορζσ είναι ακόμα πιο ςθμαντικι και από τισ τακτικζσ που ακολουκοφνται κατά τθν διάρκεια τθσ μάχθσ, κακϊσ περιςςότεροι πόροι ςθμαίνουν περιςςότερουσ ςτρατιϊτεσ. Create an empty list L Save in L the positions of mineral patches observed For the first mineral patch m observed guide the workers to its position m x, m y Repeat (for each time-step t of the episode) For each new mineral patch m observed Λ Λ + m x, m y When mineral patch m is depleted if L is not empty Guide workers to the mineral patch m closest to the base else explore until you find a new mineral patch Until t is final Πλαίςιο 2: Διαδικαςία Επιλογήσ Αποθεμάτων Πόρων για Εκμετάλλευςη από τουσ Εργάτεσ Εκτύμηςη Μονϊδων Αντιπϊλου Σριν αναφερκοφμε ςτθ μοντελοποίθςθ των υποπρακτόρων τθσ βάςθσ και ςτρατιωτϊν, κα αναφερκοφμε ςτθ μζκοδο υπολογιςμοφ τθσ δφναμθσ του αντιπάλου. πωσ αναφζρκθκε ςτθν παράγραφο ο πράκτορασ δεν ζχει τθν ικανότθτα να κυμάται τισ αντίπαλεσ μονάδεσ. Αυτό πρακτικά ςθμαίνει ότι ο πράκτορασ μπορεί τθν χρονικι ςτιγμι t να

53 ZCS4RTS Συςτήματα Ελέγχου Ταξινομητών ςε Παιχνίδια Στρατηγικήσ 42 γνωρίηει ότι ο αντίπαλοσ ζχει 5 ςτρατιϊτεσ και τθν χρονικι ςτιγμι t + 1 να γνωρίηει ότι οι αντίπαλοι ςτρατιϊτεσ είναι 0 χωρίσ αυτόσ (ο πράκτορασ) να ζχει λάβει κάποια δράςθ που κα οδθγοφςε ςε αυτι τθν αλλαγι κατάςταςθσ. Ζνασ παίκτθσ από τθν άλλθ πλευρά, ο οποίοσ παίηει ζνα ΣΥΣΧ, ζχει τθν ικανότθτα να εκτιμιςει τθν δφναμθ του αντιπάλου με βάςθ τισ πλθροφορίεσ που λαμβάνει από τισ μονάδεσ του. Αν για παράδειγμα, ςε κάποια χρονικι ςτιγμι t ο αντίπαλοσ ζχει 20 μονάδεσ, ο παίκτθσ κα γνωρίηει ότι ο αρικμόσ των μονάδων είναι τουλάχιςτον 20 και κα ςυνεχίηει να το γνωρίηει μζχρι να καταςτρζψει κάποια μονάδα του αντιπάλου. Αυτι τθν ικανότθτα προςδϊςαμε και ςτον πράκτορα υλοποιϊντασ μια απλι μζκοδο για τθν εκτίμθςθ των αντιπάλων. Ρ πράκτορασ χρθςιμοποιεί δφο μεταβλθτζσ: α) τθν Nc, ςτθν οποία αποκθκεφεται ο αρικμόσ των αντιπάλων που παρατθρεί ο πράκτορασ τθν παροφςα χρονικι ςτιγμι και β) τθν Nmax, ςτθν οποία αποκθκεφεται θ μζγιςτθ παρατιρθςθ αντιπάλων που ζχει κάνει ο πράκτορασ. Μάκε φορά που παρατθρείται αρικμόσ αντιπάλων Nc > Nmax, θ Nmax παίρνει τθν τιμι τθσ Nc. Αν ςε κάποια ςτιγμι υπάρξει μάχθ και ο πράκτοράσ μασ ςκοτϊςει κάποιον αντίπαλο ςτρατιϊτθ, θ τιμι τθσ Nmax μειϊνεται κατά ζνα εκτόσ και αν τθν ίδια χρονικι ςτιγμι παρατθρθκεί αρικμόσ αντιπάλων ςτρατιωτϊν μεγαλφτεροσ από τθν τιμι τθσ Nmax. Υτθν περίπτωςθ αυτι θ Nmax εξιςϊνεται και πάλι με τθν Nc. Ρ αλγόρικμοσ παρουςιάηεται και ςτο Σλαίςιο 3. Initilize Nc 0 Nmax 0 t 0 Repeat (for each time-step t of the episode) Observe the number of enemy marines Nc and store it if Nc > Nmax Nmax Nc If an enemy marine is observed dead Nmax Nmax 1 Until t is final Πλαίςιο 3: Αλγόριθμοσ Εκτίμηςησ Αντιπάλων Ξία μονάδα κεωρείται νεκρι όταν οι πόντοι υγείασ τθσ γίνουν μθδζν. Αυτόσ κα ιταν ο πιο εφκολοσ τρόποσ για να υπολογίςουμε το πότε καταςτρζφουμε μια μονάδα. μωσ το παιχνίδι, μόλισ αιςκανκεί ότι οι πόντοι υγείασ μιασ μονάδασ είναι μικρότεροι ι ίςοι του μθδενόσ τθν εξαφανίηει από τον χάρτθ και δεν τθν εμφανίηει ςτθν λίςτα παρατιρθςθσ. Δθλαδι δεν εμφανίηεται ποτζ μια ςειρά που να αναγράφει για κάποια μονάδα hp=0. Επιπλζον δεν μποροφμε να υπολογίςουμε τουσ πόντουσ υγείασ μιασ μονάδασ με βάςθ τθν χρονικι διάρκεια κατά τθν οποία δζχεται χτυπιματα γιατί μια μονάδα μπορεί να δζχεται πυρά από πολλζσ αντίπαλεσ μονάδεσ ταυτόχρονα. Ξε βάςθ τθσ τιμζσ του Σίνακασ 2.3 ζνασ εργάτθσ που δζχεται πυρά από ζναν ςτρατιϊτθ κα κεωρθκεί νεκρόσ μετά από δζκα χρονικά βιματα. Αν όμωσ ζνασ εργάτθσ δζχεται πυρά ταυτόχρονα από δζκα ςτρατιϊτεσ, κα είναι νεκρόσ ςε ζνα μόλισ βιμα.

54 ZCS4RTS Συςτήματα Ελέγχου Ταξινομητών ςε Παιχνίδια Στρατηγικήσ 43 Για να μπορζςουμε να υπολογίςουμε με ακρίβεια το πότε καταςτρζφεται μια αντίπαλθ μονάδα εκμεταλλευόμαςτε το γεγονόσ ότι το βελθνεκζσ των μονάδων είναι μικρότερο από τθν ακτίνα όραςθσ τουσ, ςτοιχείο που αποτελεί κοινό τόπο ςε όλα τα παιχνίδια του είδουσ. Ζτςι ςε κάκε χρονικι ςτιγμι t δθμιουργοφμε μια λίςτα με τουσ κωδικοφσ μονάδων και τισ ςυντεταγμζνεσ τουσ για τθ ςυγκεκριμζνθ χρονικι ςτιγμι. Φθν χρονικι ςτιγμι t + 1 δθμιουργοφμε μια αντίςτοιχθ λίςτα για τθ νζα αυτι κατάςταςθ. Υυγκρίνουμε τισ δφο λίςτεσ ελζγχοντασ τουσ κωδικοφσ μονάδων. Ρι μονάδεσ των οποίων οι κωδικοί υπάρχουν και ςτισ δφο λίςτεσ είναι ςίγουρα ηωντανζσ. Για κάκε κωδικό μονάδοσ που υπάρχει ςτθ λίςτα του βιματοσ t αλλά όχι ςε αυτιν του βιματοσ t + 1 ελζγχουμε αν το ςθμείο του χάρτθ με ςυντεταγμζνεσ αυτζσ που αναγράφονται για αυτόν τον κωδικό ςτθν λίςτα του βιματοσ t είναι ορατό από κάποια μονάδα μασ. Αν είναι ορατό θ αντίπαλθ μονάδα κεωρείται νεκρι κακϊσ είναι αδφνατο, με βάςθ τθν ταχφτθτα των μονάδων (Σίνακασ 2.3), να κατάφερε να απομακρυνκεί και από το βελθνεκζσ και από τθν ακτίνα όραςθσ τθσ μονάδασ μασ ςε ζνα χρονικό βιμα. Αν το ςθμείο δεν είναι ορατό τότε ζχει πεκάνει θ δικιά μασ μονάδα (αλλά αυτό το πλθροφορείται οφτωσ ι άλλωσ ο πράκτορασ). Η παραπάνω διαδικαςία δοςμζνθ ςε αλγόρικμο δίνεται ςτο Σλαίςιο 4. Initialize two empty lists A and B and time t 0 Repeat (for each time-step t of the episode) Store in list A the unit_ids and unit coordinates for the units observed t t + 1 Store in list B the unit_ids and unit coordinates for the units observed Reapeat (for each unit_id c in list A tha does not exist in list B) If The unit coordinates of the unit with unit_id c in list A are visible from any unit of the agent The unit with unit_id c is dead Α Β t t + 1 Until t is final. Πλαίςιο 4: Αλγόριθμοσ για ζλεγχο καταςτροφήσ αντιπάλου Μλείνοντασ τθν παράγραφο να παρατθριςουμε ότι θ μζκοδοσ που ακολουκείται δεν μπορεί να υπολογίςει με πλιρθ ακρίβεια τον αρικμό των αντιπάλων. Ακόμα και ςτθν απλι περίπτωςθ

55 ZCS4RTS Συςτήματα Ελέγχου Ταξινομητών ςε Παιχνίδια Στρατηγικήσ 44 του παραδείγματοσ τθσ παραγράφου ο πράκτορασ δεν μπορεί να γνωρίηει αν παρατιρθςε ζναν ι δφο ςτρατιϊτεσ. Η εκτίμθςθ που γίνεται είναι παρόλα αυτά επαρκισ για τθ μοντελοποίθςθ που ακολουκικθκε και περιγράφεται ςτθ ςυνζχεια Βϊςη Υκοπόσ τθσ βάςθσ είναι θ χριςθ των πόρων που ςυλλζγονται από τουσ εργάτεσ για τθν παραγωγι νζων μονάδων, εργατϊν ι ςτρατιωτϊν. Υτο ςυγκεκριμζνο παιχνίδι δεν υπάρχουν άλλα κτιρια πζρα τθσ βάςθσ που πρζπει να καταςκευαςτοφν οφτε θ δυνατότθτα αναβακμίςεων των μονάδων, ςτοιχεία τα οποία ςυνικωσ απαιτοφν πολφ περιςςότερουσ πόρουσ ςε ςχζςθ με τθν δθμιουργία εργατϊν ι ςτρατιωτϊν. Ζτςι λοιπόν ςτο ςυγκεκριμζνο παιχνίδι δεν υπάρχει θ ανάγκθ αποκικευςθσ πόρων. Η βάςθ λοιπόν παίρνει μια απόφαςθ είτε ζχει διακζςιμουσ του απαραίτθτουσ πόρουσ είτε όχι, και τθν εκτελεί μόλισ υπάρξει θ οικονομικι δυνατότθτα. Για να αποφαςίςει για το είδοσ τθσ μονάδασ που κα δθμιουργιςει, αν δθλαδι κα είναι εργάτθσ ι ςτρατιϊτθσ, βαςίηεται ςτο δικό τθσ ZCS. Η κάκε κζςθ ενόσ ταξινομθτι ςε ζνα ZCS απαντάει ςυνικωσ ςε ζνα δυαδικό ερϊτθμα. Υτθν περίπτωςθ ενόσ ΣΥΣΧ ζνα τζτοιο ερϊτθμα κα μποροφςε να είναι το εξισ: «Ζχουμε ςτθν διάκεςι μασ περιςςότερουσ ςτρατιϊτεσ από τον αντίπαλο;» Ξια καταφατικι απάντθςθ ςε αυτό το ερϊτθμα προςφζρει ελάχιςτεσ πλθροφορίεσ. Ξπορεί ο αρικμόσ των ςτρατιωτϊν μασ να ξεπερνάει αυτόν του αντιπάλου είτε κατά μία είτε κατά είκοςι μονάδεσ. Υτθν πρϊτθ περίπτωςθ θ κζςθ μασ είναι επιςφαλισ κακϊσ λόγω τθσ φφςθσ του παιχνιδιοφ ο αντίπαλοσ μπορεί να κάνει επίκεςθ από κάκε πλευρά και να μθν μπορζςουμε να υπεραςπιςτοφμε τθ βάςθ μασ. Υτθν δεφτερθ περίπτωςθ αν, δεν επιτεκοφμε ζχοντασ τζτοια υπεροπλία, απλά δίνουμε χρόνο ςτον αντίπαλο για να αναπτυχκεί. Για να ξεπεραςτοφν τα μειονεκτιματα τθσ δυαδικισ απεικόνιςθσ του περιβάλλοντοσ, χρθςιμοποιικθκε θ τεχνικι τθσ ομαδοποίθςθσ των δυφίων των ταξινομθτϊν ενόσ ZCS θ οποία χρθςιμοποιικθκε από τθν ομάδα του R.E. Smith [SDR + 00] για τθν ανακάλυψθ τακτικϊν ελιγμϊν κατά τθν διάρκεια αερομαχιϊν μεταξφ δφο πολεμικϊν αεροπλάνων. Υφμφωνα με τθν μζκοδο που προτείνουν, δυο ι περιςςότερα ςυνεχόμενα δυφία μποροφν ομαδοποιθκοφν απαντϊντασ πλζον ςε ερωτιματα του τφπου: «Πόςουσ ςτρατιϊτεσ ζχω;» Η ακρίβεια τθσ απάντθςθσ εξαρτάται από το πλικοσ τον δυφίων που χρθςιμοποιοφνται. Φο ZCS τθσ βάςθσ λοιπόν λαμβάνει αποφάςεισ για τθν δθμιουργία μονάδων χρθςιμοποιϊντασ τθν παρακάτω μοντελοποίθςθ.

56 ZCS4RTS Συςτήματα Ελέγχου Ταξινομητών ςε Παιχνίδια Στρατηγικήσ 45 Πίνακασ 3.1: Μοντελοποίηςη Κατάςταςησ Περιβάλλοντοσ ZCS Βάςησ Σμιμα Κατάςταςθσ Σαξινομθτι Βάςθσ 2 δυφία Αρικμόσ Υτρατιωτϊν 5 6 ζωσ ζωσ 25 >26 Αρικμόσ Εργατϊν 0 1 ζωσ 9 10 ζωσ 19 >20 Αρικμόσ Αντίπαλων Υτρατιωτϊν 5 6 ζωσ ζωσ 25 >26 Αρικμόσ Αντίπαλων Εργατϊν 5 6 ζωσ ζωσ 25 >26 1 δυφίο 0 1 Απειλείται θ Βάςθ χι Οαι Απόςταςθ αποκζματοσ πόρων Μοντινι Ξακρινι Πίνακασ 3.2 : Μοντελοποίηςη Δράςησ ZCS Βάςησ Σμιμα Δράςθσ Σαξινομθτι Βάςθσ 1 Δυφίο 0 1 Δράςθ Δθμιουργία Εργάτθ Δθμιουργία Υτρατιϊτθ Η παραπάνω μοντελοποίθςθ δθμιουργεί ταξινομθτζσ μικουσ 11 δυφίων. Αυτό ςθμαίνει ότι ο χϊροσ καταςτάςεων-δράςεων ζχει μζγεκοσ Μάποιεσ παρατθριςεισ που μποροφν να γίνουν με βάςθ τθν μοντελοποίθςθ είναι οι εξισ: a. Μοντελοποίθςθ εργατϊν Σαρατθροφμε ότι οι εργάτεσ του πράκτορα αναπαρίςτανται με διαφορετικά διαςτιματα από τισ υπόλοιπεσ μονάδεσ. Αυτό ζγινε διότι ζχει πολφ μεγάλθ ςθμαςία ςε ζνα ΣΥΣΧ να γνωρίηουμε το ότι ζχουμε χάςει όλουσ μασ τουσ εργάτεσ. Αν βρεκεί ςε αυτι τθν κατάςταςθ ο πράκτορασ, οι πικανότθτεσ που ζχει για να κερδίςει το παιχνίδι λιγοςτεφουν.

57 ZCS4RTS Συςτήματα Ελέγχου Ταξινομητών ςε Παιχνίδια Στρατηγικήσ 46 Σαρόλα αυτά περιμζνουμε από τον πράκτορα να μάκει ότι θ ςωςτι δράςθ ςε αυτι τθν περίπτωςθ είναι θ δθμιουργία εργατϊν b. Απειλι Βάςθσ Εξαιτίασ τθσ ςπουδαιότθτασ τθσ βάςθσ (αν καταςτραφεί το επειςόδιο τελειϊνει με νίκθ του αντιπάλου) δόκθκε ζνα δυφίο για τθν ενθμζρωςθ του ZCS ότι αυτι απειλείται. Θεωροφμε ότι θ βάςθ μασ απειλείται όταν ςε ακτίνα μικρότερθ από το διπλάςιο τθσ ακτίνασ όραςθσ τθσ βάςθσ εντοπιςκεί αντίπαλοσ ςτρατιϊτθσ ι θ αντίπαλθ βάςθ. Φο γεγονόσ ότι κεωρείται απειλι θ παρουςία ενόσ και μόνο ςτρατιϊτθ είναι απόλυτα λογικό αν λάβουμε υπόψθ τθ ςθμαςία τθσ βάςθσ. Φο μζγεκοσ τθσ ακτίνασ απειλισ είναι τζτοιο ϊςτε μια αφφλαχτθ αλλά με πόρουσ ςτθ διάκεςι τθσ βάςθ κα προλάβει να δθμιουργιςει τζςςερισ ςτρατιϊτεσ για τθν άμυνά τθσ ςε περίπτωςθ απειλισ, με τθν προχπόκεςθ ότι κα μάκει ότι αυτι είναι θ ςωςτι κίνθςθ. c. Απόςταςθ αποκζματοσ πόρων: πωσ ζχουμε ιδθ αναφζρει, ςτθν αρχι κάκε επειςοδίου τοποκετοφνται ςε τυχαίεσ κζςεισ οι δφο εργάτεσ, ζνασ για κάκε αντίπαλο, και δζκα αποκζματα πόρων. Η πρϊτθ μζριμνα του εργάτθ είναι θ καταςκευι τθσ βάςθσ. Μαλϊσ ι κακϊσ θ τυχαία αυτι τοποκζτθςθ των αποκεμάτων κακορίηει ςε ζνα μεγάλο ποςοςτό τον νικθτι του επειςοδίου, κακϊσ ο αντίπαλοσ που ζχει τα περιςςότερα αποκζματα ςε κοντινι απόςταςθ ζχει και τισ μεγαλφτερεσ πικανότθτεσ να κερδίςει. Ζνασ πράκτορασ που ζχει πιο κοντά ςτθν βάςθ του τα αποκζματα πόρων, μπορεί να δθμιουργιςει μεγαλφτερο ςτρατό γρθγορότερα από τον αντίπαλο του, κακϊσ ζχει μεγαλφτερθ ειςροι πόρων. Φον κυριότερο ρόλο τον παίηει θ απόςταςθ από τθν βάςθ του πρϊτου αποκζματοσ που κα χρθςιμοποιιςει ο πράκτορασ. Ασ υποκζςουμε ότι και οι δφο αντίπαλοι δθμιουργοφν ςτθν αρχι μόνο εργάτεσ. Φότε θ ειςροι πόρων P για κάκε αντίπαλο κα είναι: που: NC Ρ = ( 2d s + t m ) Εξ.11 Ν το πλικοσ των εργατϊν, C θ χωρθτικότθτα πόρων των εργατϊν, d θ απόςταςθ του αποκζματοσ από το οποίο ςυλλζγουμε πόρουσ από τθν βάςθ μασ, s θ ταχφτθτα των εργατϊν, t m ο χρόνοσ εκςκαφισ των αποκεμάτων. Σαρατθροφμε ότι για τον ίδιο αρικμό εργατϊν θ μόνθ μεταβλθτι τθσ εξίςωςθσ είναι το d που αναπαριςτά τθν απόςταςθ μεταξφ αποκζματοσ και βάςθσ. Γίνεται ζτςι αντιλθπτό ότι ο αντίπαλοσ που ζχει το πρϊτο του απόκεμα πιο κοντά ςτθ βάςθ του αποκτάει ςθμαντικό πλεονζκτθμα, αρκεί βζβαια να μπορζςει να το εκμεταλλευτεί. Η μοντελοποίθςθ των

58 ZCS4RTS Συςτήματα Ελέγχου Ταξινομητών ςε Παιχνίδια Στρατηγικήσ 47 ταξινομθτϊν του ZCS βάςθσ εμπεριζχει τθσ απαραίτθτεσ πλθροφορίεσ για τθν ειςροι πόρων κακϊσ ο πράκτορασ γνωρίηει και τθν απόςταςθ d και τον αρικμό των εργατϊν N. d. Ρι υπόλοιπεσ πλθροφορίεσ που λαμβάνει το ZCS το ενθμερϊνουν για τθν ςτρατιωτικι δφναμθ που ζχει ο πράκτορασ αλλά και ο αντίπαλοσ. Φο ZCS πλζον μπορεί να γνωρίηει όχι μόνο αν ο ςτρατόσ του είναι ιςχυρότεροσ του αντιπάλου ι όχι, αλλά και τθν αρικμθτικι διαφορά των δφο ςτρατϊν, και να λάβει ζτςι τισ κατάλλθλεσ δράςεισ Στρατιώτεσ Φο κακικον του πράκτορα που ελζγχει τουσ ςτρατιϊτεσ είναι θ ανάκεςθ κάποιου κακικοντοσ ςε κάκε ςτρατιϊτθ που δθμιουργείται από τθν βάςθ, λαμβάνοντασ υπόψθ τθν κατάςταςθ που επικρατεί τθν δεδομζνθ ςτιγμι ςτο περιβάλλον. Οα ςθμειϊςουμε ότι οι ςτρατιϊτεσ πυροβολοφν αυτόματα οποιαδιποτε μονάδα βρίςκεται ςτο βελθνεκζσ τουσ. Αν ζχουν επιλογι μεταξφ πολλϊν μονάδων επιλζγουν αυτι με τουσ λιγότερουσ πόντουσ υγείασ. Φα κακικοντα που μποροφν να ανατεκοφν ςτουσ ςτρατιϊτεσ είναι τα εξισ: a. Προςταςία Βάςθσ: Ρι ςτρατιϊτεσ που είναι επιφορτιςμζνοι με τθν φροφρθςθ τθσ βάςθσ κινοφνται διαρκϊσ γφρω από τθν βάςθ. ταν αποκαλυφκεί θ τοποκεςία τθσ αντίπαλθσ βάςθσ οι ςτρατιϊτεσ ςτζκονται ακίνθτοι ςε μικρι απόςταςθ από τθν βάςθ τουσ ευριςκόμενοι πάνω ςτθν νοθτι ευκεία που ενϊνει τισ δφο βάςεισ. Αυτό γίνεται γιατί κζλουμε να είναι οι ςτρατιϊτεσ αυτοί που κα δεχκοφν πρϊτοι τα πυρά και όχι θ βάςθ. ταν κάποιοσ αντίπαλοσ πλθςιάςει τθ βάςθ ςε απόςταςθ μικρότερθ από τθν ακτίνα όραςισ τθσ, οι ςτρατιϊτεσ του επιτίκενται. Αν ο αντίπαλοσ απομακρυνκεί οι ςτρατιϊτεσ δεν τον ακολουκοφν για να μθν αφιςουν απροςτάτευτθ τθ βάςθ. b. Προςταςία Αποκζματοσ: Ρι ςτρατιϊτεσ φρουροφν το εκάςτοτε απόκεμα πόρων το οποίο χρθςιμοποιοφν οι εργάτεσ με τον ίδιο τρόπο που φρουρείται θ βάςθ. Ξόλισ το απόκεμα εξαντλθκεί πθγαίνουν ςτο επόμενο που κα επιλεχκεί από τουσ εργάτεσ. c. Επίκεςθ: Η λογικι λζει ότι δεν ςτζλνουμε ζναν ςτρατιϊτθ μόνο για να αντιμετωπίςει τον αντίπαλο. Για τον λόγο αυτό οι ςτρατιϊτεσ που επιλζγονται για επίκεςθ προςτατεφουν τθν βάςθ μζχρι να ςυγκεντρωκεί ζνασ ικανοποιθτικόσ αρικμόσ ςτρατιωτϊν για επίκεςθ. Ξόλισ γίνει αυτό οι ςτρατιϊτεσ επιτίκενται ςτθ βάςθ αν γνωρίηουν τθν κζςθ τθσ πάνω ςτον χάρτθ ενϊ, ςε διαφορετικι περίπτωςθ, εξερευνοφν τον χάρτθ μζχρι να τθν ανακαλφψουν. Ρι λόγοι που κατά τθν διάρκεια τθσ επίκεςθσ δεν χρθςιμοποιοφνται όλοι οι ςτρατιϊτεσ είναι δφο. Σρϊτον το ςυγκεκριμζνο παιχνίδι δεν ζχει όριο ςτον αρικμό των μονάδων που μποροφν να δθμιουργθκοφν (πζρα από το φυςικό όριο που κζτει ο πεπεραςμζνοσ αρικμόσ πόρων). Ζτςι ο πράκτορασ μπορεί να εξαπολφςει επίκεςθ με όςουσ ςτρατιϊτεσ επικυμεί διατθρϊντασ παράλλθλα ςτρατιϊτεσ ςτα υπόλοιπα κακικοντα. Δεν κα κζλαμε για παράδειγμα να εξαπολφςουμε μια επίκεςθ με όλο τον ςτρατό μασ για να

59 ZCS4RTS Συςτήματα Ελέγχου Ταξινομητών ςε Παιχνίδια Στρατηγικήσ 48 ανακαλφψουμε ότι θ βάςθ μασ καταςτρζφεται από ζναν αντίπαλο ςτρατιϊτθ που παραμόνευε. Δεφτερον, μπορεί μια επίκεςθ με όλο τον ςτρατό να ιταν πιο αποτελεςματικι απζναντι ςτον αντίπαλο που χρθςιμοποιικθκε ςτα πειράματα, αλλά ο πράκτορασ κα πρζπει να μπορεί να αντιμετωπίςει και άλλεσ ςτρατθγικζσ που κα υλοποιοφνται από άλλουσ αντιπάλουσ. d. Εξερεφνθςθ: Χπάρχουν δφο είδθ εξερεφνθςθσ. Υτο πρϊτο είδοσ ο ςτρατιϊτθσ με αυτι τθν εντολι κινείται μζςα ςτο χάρτθ για να μπορζςει να ανακαλφψει νζα αποκζματα πόρων, τθν αντίπαλθ βάςθ αλλά και απομακρυςμζνεσ κζςεισ που ίςωσ ο εχκρόσ να ςυγκεντρϊνει ςτρατό με τθν ελπίδα ότι δεν κα αποκαλυφκεί θ πραγματικι του δφναμθ. Σαράλλθλα ο ςτρατιϊτθσ προςπακεί να αποφεφγει τουσ αντίπαλουσ ςτρατιϊτεσ. Υτο δεφτερο είδοσ εξερεφνθςθσ, το οποίο είναι ςυνικωσ γνωςτό ωσ αψιμαχία (skirmish) ο ςτρατιϊτθσ κινείται μζςα ςτο χάρτθ όπωσ και ςτθν πρϊτθ περίπτωςθ με τθν διαφορά ότι μόλισ ανακαλφψει ζνα απόκεμα πόρων το οποίο χρθςιμοποιεί ο αντίπαλοσ κατευκφνεται προσ αυτό και ςκοτϊνει τουσ αντίπαλουσ εργάτεσ που το χρθςιμοποιοφν. Αν κάποιοσ αντίπαλοσ ςτρατιϊτθσ πλθςιάςει προσ τθν κζςθ του απομακρφνεται και επανζρχεται μετά από λίγο. Μάκε ςτρατιϊτθσ που παίρνει εντολι για εξερεφνθςθ ζχει πικανότθτα 50% να εκτελζςει κάποιο από τα δφο είδθ. Χπάρχουν δφο περιπτϊςεισ που οι εντολζσ που ζχουν δοκεί ςε ζναν ςτρατιϊτθ παρακάμπτονται. Η πρϊτθ είναι θ περίπτωςθ εντοπιςμοφ απροςτάτευτων εργατϊν ι βάςθσ. Ξονάδων δθλαδι που δεν ζχουν κάποιον ςτρατιϊτθ να τουσ προςτατεφει ςε κοντινι απόςταςθ. Υε αυτι τθν περίπτωςθ ο ςτρατιϊτθσ κατευκφνεται προσ το ςθμείο των απροςτάτευτων μονάδων για να τισ καταςτρζψει. Η δεφτερθ περίπτωςθ είναι να δζχεται πυρά κάποια μονάδα που βρίςκεται ςε κοντινι απόςταςθ από ζναν ςτρατιϊτθ. Φότε ο ςτρατιϊτθσ προςφζρει βοικεια με τθν προχπόκεςθ ότι εκείνθ τθν ςτιγμι δεν δζχεται και αυτόσ πυρά. Για να καταφζρει το ZCS να κάνει ςωςτι ανάκεςθ κακθκόντων ςτουσ ςτρατιϊτεσ χρθςιμοποιείται για τουσ ταξινομθτζσ του θ μοντελοποίθςθ που παρουςιάηεται από ςτον Σίνακασ 3.3 και τον Σίνακασ 3.4.

60 ZCS4RTS Συςτήματα Ελέγχου Ταξινομητών ςε Παιχνίδια Στρατηγικήσ 49 Πίνακασ 3.3: Μοντελοποίηςη Περιβάλλοντοσ για ZCS Στρατιωτϊν Σμιμα Κατάςταςθσ Σαξινομθτι τρατιωτϊν 2 δυφία Αρικμόσ Υτρατιωτϊν που προςτατεφουν τθν βάςθ Αρικμόσ Υτρατιωτϊν που προςτατεφουν το απόκεμα πόρων Αρικμόσ Υτρατιωτϊν που κα ςυμμετάςχουν ςε επίκεςθ Αρικμόσ Υτρατιωτϊν που εξερευνοφν <4 5 ζωσ 9 10 ζωσ 14 >14 <4 5 ζωσ 9 10 ζωσ 14 >14 <4 5 ζωσ 9 10 ζωσ 14 >14 <4 5 ζωσ 9 10 ζωσ 14 >14 Αρικμόσ Εργατϊν 0 1 ζωσ 9 10 ζωσ 19 >20 Αρικμόσ Αντίπαλων Υτρατιωτϊν 5 6 ζωσ ζωσ 25 >26 Αρικμόσ Αντίπαλων Εργατϊν 5 6 ζωσ ζωσ 25 >26 1 δυφίο 0 1 Απειλείται θ Βάςθ χι Οαι Υιμα Υκανδάλθσ χι Οαι Πίνακασ 3.4: Μοντελοποίηςη Δράςησ ZCS Στρατιωτϊν Σμιμα Δράςθσ Σαξινομθτι τρατιωτϊν 2 Δυφία Δράςθ Σροςταςία Βάςθσ Σροςταςία Αποκζματοσ Σόρων Επίκεςθ Εξερεφνθςθ Φο ςυνολικό μικοσ των ταξινομθτϊν που χρθςιμοποιοφνται από το ZCS των ςτρατιωτϊν είναι 18. Ζτςι ο χϊροσ καταςτάςεων ζχει μζγεκοσ Μάποιεσ παρατθριςεισ που μποροφμε να

61 ZCS4RTS Συςτήματα Ελέγχου Ταξινομητών ςε Παιχνίδια Στρατηγικήσ 50 κάνουμε πάνω ςτθν μοντελοποίθςθ του περιβάλλοντοσ για το ZCS των ςτρατιωτϊν είναι οι εξισ: Ρ αρικμόσ των εργατϊν χρθςιμοποιείται ωσ αναφορά τθσ κατάςταςθσ του πράκτορα ςτο ςυγκεκριμζνο επειςόδιο. Υε ζνα ΣΥΣΧ όταν ζνασ παίκτθσ ζχει λίγουσ εργάτεσ προςπακεί να οχυρωκεί και να προςτατευτεί. ταν, από τθν άλλθ ο αρικμόσ των εργατϊν είναι μεγάλοσ, ςθμαίνει πωσ ο παίκτθσ ζχει αναπτυχκεί, ζχει εξαςφαλίςει τθν άμυνά του, είναι ςε καλι οικονομικι κατάςταςθ και μπορεί να αρχίςει επικζςεισ εναντίον του αντιπάλου. Αυτόσ είναι και ο λόγοσ που πλθροφοροφμε το ZCS για το πλικοσ των εργατϊν μασ. Αναφζραμε ότι για να εκτελζςει ο πράκτορασ μια επίκεςθ ςτον αντίπαλο κα πρζπει να ζχει ςυγκεντρωκεί ζνασ αρικμόσ από ςτρατιϊτεσ. Ρ αρικμόσ αυτόσ ζχει οριςτεί ςτθν τιμι 15 που ςθμαίνει ότι ο πράκτορασ επιτίκεται όταν το ςυγκεκριμζνο πεδίο του ταξινομθτι ζχει πάρει τθν τιμι 11. Ακόμα και αν θ επίκεςθ αποτφχει περιμζνουμε από τον πράκτορα να εξαπολφει ςυνεχόμενα κφματα επικζςεων, με τθν προχπόκεςθ ότι ο αρικμόσ των ςτρατιωτϊν που εκτελοφν χρζθ άμυνασ παραμζνει υψθλόσ. Φο δυφίο που ενθμερϊνει για τυχόν εχκροφσ που απειλοφν τθν βάςθ λειτουργεί και εδϊ με τον ίδιο τρόπο. Αναφζραμε ότι ο ςκοπόσ του ςτο ZCS βάςθσ είναι να οδθγιςει τθν βάςθ ςε δθμιουργία ςτρατιωτϊν. Για να χρθςιμοποιθκοφν όμωσ ςωςτά οι ςτρατιϊτεσ αυτοί, κα πρζπει να λάβουν εντολι για άμυνα τθσ βάςθσ, ςε περίπτωςθ που ο αρικμόσ των ιδθ αμυνόμενων ςτρατιωτϊν είναι χαμθλόσ. Φο ςιμα ςκανδάλθσ (trigger) διατθρείται 0 κατά τθν διάρκεια του επειςοδίου και αλλάηει τθν τιμι του ςε 1 ςτισ εξισ δφο περιπτϊςεισ. 1) ταν ο χρόνοσ του επειςοδίου φτάςει ςτα 5000 βιματα (δθλαδι ςτο μιςό του ολικοφ χρόνου) 2) ταν ζχουμε παρατθριςει, και υπολογίςει με βάςθ τθν εκτίμθςθ αντιπάλου, ότι ο αρικμόσ των αντιπάλων ςτρατιωτϊν είχε γίνει μεγαλφτεροσ από κάποια τιμι, π.χ. μεγαλφτεροσ από 5, και τϊρα ζχει γίνει ίςοσ με 0 ι 1. Για να το εκφράςουμε πιο απλά, αυτό ςθμαίνει ότι ο αντίπαλοσ είχε ςυγκεντρϊςει ςτρατό και εξαπζλυςε επίκεςθ τθν οποία αποκροφςαμε. ταν το ςιμα ςκανδάλθσ γίνει 1, το ZCS ενεργοποιείται κάκε 500 χρονικά βιματα και ανακζτει ςτον κάκε ςτρατιϊτθ ζνα καινοφργιο κακικον, χωρίσ όμωσ να αποκλείεται θ πικανότθτα αυτό το κακικον να είναι ίδιο με το κακικον που ιδθ εκτελεί ο ςτρατιϊτθσ. Επίςθσ όταν ενεργοποιείται το ςιμα ςκανδάλθσ ο πράκτορασ γίνεται πιο επικετικόσ, από τθν άποψθ ότι δεν περιμζνει να ςυγκεντρωκεί ο απαραίτθτοσ αρικμόσ ςτρατιωτϊν αλλά εξαπολφει επικζςεισ ακόμα και με ζναν ςτρατιϊτθ Φα δφο παραπάνω ςενάρια ενεργοποίθςθσ του ςιματοσ ςκανδάλθσ ενεργοποιοφνται με το εξισ ςκεπτικό:

62 ZCS4RTS Συςτήματα Ελέγχου Ταξινομητών ςε Παιχνίδια Στρατηγικήσ 51 1) Ασ φανταςτοφμε ζνα ςενάριο ςφμφωνα με το οποίο όλα τα αποκζματα πόρων ζχουν εξαντλθκεί (αρκετά πικανό μετά από 5000 βιματα), ι ζνα άλλο κατά το οποίο ζγιναν λάκοσ χειριςμοί από τον πράκτορα και ζχουμε χάςει όλουσ τουσ εργάτεσ μασ. Μαι ςτισ δφο περιπτϊςεισ το να κάκονται οι ςτρατιϊτεσ και να φυλάνε τθν βάςθ αποτελεί ςπατάλθ χρόνου και θ καλφτερθ δράςθ που μπορεί να αναλάβει ο πράκτορασ είναι να επιτεκεί. Είτε κερδίςει είτε χάςει το ςυγκεκριμζνο επειςόδιο, ο πράκτορασ κα ζχει κζρδοσ κακϊσ κα ζχει γλυτϊςει από 5000 χρονικά βιματα απραξίασ. Αυτό αποτελεί ςθμαντικό ςτοιχείο ςτα πλαίςια του διαγωνιςμοφ, κακϊσ όπωσ ζχουμε αναφζρει θ αξιολόγθςθ των πρακτόρων γίνεται με βάςθ τθν απόδοςι τουσ ςε ζνα ςυγκεκριμζνο αρικμό χρονικϊν βθμάτων. Υτα 5000 χρονικά βιματα που γλφτωςε ο πράκτορασ μασ ζχει τθν ευκαιρία να παίξει, και ίςωσ να κερδίςει, πολλά περιςςότερα επειςόδια. 2) Η δεφτερθ περίπτωςθ ενεργοποίθςθσ του ςιματοσ ςθματοδοτεί ςτθν ουςία τθν επιτυχι άμυνα του πράκτορα ςε μια επίκεςθ του αντιπάλου. Η λογικι λζει ότι αυτι θ ςτιγμι προςφζρεται για αντεπίκεςθ από τθν πλευρά του πράκτορα. Για να εκμεταλλευτεί όμωσ ο πράκτορασ τθν κατάςταςθ αυτι κα πρζπει να ζχει ανακζςει ςε ςτρατιϊτεσ τθν εξερεφνθςθ του περιβάλλοντοσ ϊςτε να γνωρίηει ότι οι αρικμόσ των αντίπαλων ςτρατιωτϊν μειϊκθκε. Ξπορεί και ςτισ δυο περιπτϊςεισ που αναφζραμε να φαίνεται ότι θ κατάλλθλθ κίνθςθ είναι θ επίκεςθ. Αυτό όμωσ δεν ςθμαίνει ότι παρακάμπτεται το ZCS και δίνεται απευκείασ εντολι για επίκεςθ. Αντικζτωσ, αφινουμε το ZCS να μάκει ποιά είναι θ κατάλλθλθ ενζργεια. Υυνικωσ μακαίνει να εξαπολφει επικζςεισ, αλλά παρατθρικθκαν περιπτϊςεισ κατά τθν εκπαίδευςθ του πράκτορα όπου οι εντολζσ που μεταφζρονται ςτουσ ςτρατιϊτεσ δεν ιταν θ αναμενόμενεσ, όπωσ, για παράδειγμα, θ προςταςία τθσ βάςθσ ι των αποκεμάτων Ανϊπτυξη του Πρϊκτορα Η ανάπτυξθ του πράκτορα ζγινε ςτθν γλϊςςα προγραμματιςμοφ JAVA ( θ πλατφόρμα RL-Glue υποςτθρίηει επίςθσ ανάπτυξθ ςτισ γλϊςςεσ C++ και Python) και χρθςιμοποιικθκε το περιβάλλον ανάπτυξθσ Eclipse [URL5]. H δομι των κλάςεων του πράκτορα που αναπτφχκθκε παρουςιάηεται ςτο Υχιμα 3.2. Η κλάςθ RTSAgent είναι υπεφκυνθ για τθν επικοινωνία του πράκτορα με τθν πλατφόρμα RL-Glue και μζςα ςε αυτι καλοφνται οι απαραίτθτεσ για τθν λειτουργία του πράκτορα ςυναρτιςεισ. Ρι βοθκθτικζσ κλάςεισ (GameObj, Helpers, Parameters και State) χρθςιμοποιοφνται για τθν μετάφραςθ των δεδομζνων που μετακινοφνται μεταξφ τθσ πλατφόρμασ και του πράκτορα ςτθν κατάλλθλθ μορφι (είτε δθλαδι ςτθ μορφι που αναγνωρίηεται από τθν πλατφόρμα είτε ςτθν μορφι που αναγνωρίηεται από τον πράκτορα). Η κλάςθ WorkerAgent είναι θ κλάςθ που υλοποιεί τθν ςτρατθγικι που ακολουκείται από τουσ εργάτεσ και θ οποία περιγράφθκε ςτθν παράγραφο

63 ZCS4RTS Συςτήματα Ελέγχου Ταξινομητών ςε Παιχνίδια Στρατηγικήσ 52 Σχήμα 3.2: Οργάνωςη των κλάςεων του πράκτορα Ρι κλάςεισ BaseAgent και MarineAgent είναι αυτζσ που λαμβάνουν πλθροφορίεσ από τθν πλατφόρμα και τισ ςτζλνουν, όςεσ από αυτζσ είναι απαραίτθτεσ, ςτισ κλάςεισ ZcsBaseAgent και ZcsMarineAgent αντίςτοιχα. Ρι BaseAgent και MarineAgent είναι επίςθσ οι κλάςεισ που μεταφράηουν τισ αποφάςεισ των ZCS ςε κινιςεισ μζςα ςτο παιχνίδι με τθν βοικεια των βοθκθτικϊν κλάςεων. Ρι κλάςεισ ZcsBaseAgent και ZcsMarineAgent λαμβάνουν τισ απαραίτθτεσ πλθροφορίεσ και τισ μοντελοποιοφν κατάλλθλα ϊςτε να μποροφν να χρθςιμοποιθκοφν από τα ZCS. Επίςθσ από αυτζσ τισ κλάςεισ καλείται θ ςυνάρτθςθ που δθμιουργεί τα αντίςτοιχα ZCS. Φζλοσ είναι υπεφκυνεσ για τθν μεταφορά των αποφάςεων που λαμβάνονται από τα αντίςτοιχα ZCS, ςτισ κλάςεισ που βρίςκονται υψθλότερα ςτθν ιεραρχία για εκτζλεςθ. Η κλάςθσ ZCS είναι υπεφκυνθ για τθν λειτουργία του ZCS και ςε ςυνδυαςμό με τισ κλάςεισ ZCSClassifierSet και ZCSClassifier είναι αυτι που υλοποιεί τον αλγόρικμο των ZCS, ςφμφωνα με τα όςα περιγράφθκαν ςτθν ενότθτα Για να ζχουμε τθν ικανότθτα να δθμιουργοφμε ZCS με διαφορετικι μοντελοποίθςθ (όπωσ ςυμβαίνει με τα ZCS βάςθσ και ςτρατιωτϊν) θ δομι και θ λειτουργία του κάκε ZCS κακορίηεται από ζνα αντίςτοιχο αρχείο κειμζνου (txt).

64 ZCS4RTS Συςτήματα Ελέγχου Ταξινομητών ςε Παιχνίδια Στρατηγικήσ Ίχνη Eπιλεξιμότητασ πωσ περιγράψαμε ςτθν ενότθτα ζνασ πράκτορασ που χρθςιμοποιεί ZCS χρθςιμοποιεί ωσ κριτιριο για τθν επιλογι των δράςεων που λαμβάνει τθν δφναμθ των ταξινομθτϊν θ οποία ανανεϊνεται με βάςθ τθν εξίςωςθ s i s i + βr A + γβ j s j 0 Α βs i Εξ.12 Δθλαδι κάκε ταξινομθτισ που επιλζγεται λαμβάνει ζνα τμιμα τθσ άμεςθσ ανταμοιβισ που προςφζρεται από το περιβάλλον, ζνα τμιμα τθσ δφναμθσ των ταξινομθτϊν που επιλζχκθκαν ςτο επόμενο βιμα και προςφζρει ζνα τμιμα τθσ δφναμισ του ςτουσ ταξινομθτζσ που επιλζχκθκαν ςτο προθγοφμενο βιμα. Υτο ΣΥΣΧ ςτο οποίο κα χρθςιμοποιθκεί πράκτοράσ μασ θ ανταμοιβι από το περιβάλλον προςφζρεται μόνο ςτο τζλοσ του κάκε επειςοδίου, ενϊ ςε κάκε άλλο χρονικό βιμα παίρνει τθν τιμι μθδζν. Αυτό ςθμαίνει ότι από τισ περίπου πενιντα αποφάςεισ που ίςωσ λάβει ο πράκτορασ ςε κάκε επειςόδιο μόνο οι ταξινομθτζσ που χρθςιμοποιικθκαν για τθν τελευταία απόφαςθ κα λάβουν τθν άμεςθ ανταμοιβι. Ρι ταξινομθτζσ που επιλζχκθκαν ςε προθγοφμενα βιματα κα πρζπει να επανεκλεγοφν ςε επόμενα επειςόδια ϊςτε θ άμεςθ ανταμοιβι να αυξιςει τθν δφναμι τουσ, μεταδιδόμενθ ςε αυτοφσ από τουσ ταξινομθτζσ που επιλζγονται ςε επόμενθ χρονικι ςτιγμι (Υχιμα 3.3). Σχήμα 3.3: Μετάδοςη ανταμοιβήσ ςε προγενζςτερεσ καταςτάςεισ Επιπλζον ςε ζνα ΣΥΣΧ υπάρχει θ πικανότθτα να επιλζξουμε τθν ίδια δράςθ για τθν ίδια κατάςταςθ περιςςότερεσ από μία φορζσ κατά τθν διάρκεια ενόσ επειςοδίου. Αν ςτο ςυγκεκριμζνο επειςόδιο κερδίςουμε, θ δράςθ που επιλζξαμε πολλζσ φορζσ δεν κα λάβει καμία επιπλζον ανταμοιβι ςε ςχζςθ με τισ υπόλοιπεσ. Για να αντιμετωπίςουμε αυτά τα προβλιματα προςκζςαμε ςε κάκε ταξινομθτι ζνα ίχνοσ επιλεξιμότθτασ e (eligibility trace). Φα ίχνθ e για κάκε ταξινομθτι μθδενίηονται ςτθν αρχι κάκε

65 ZCS4RTS Συςτήματα Ελέγχου Ταξινομητών ςε Παιχνίδια Στρατηγικήσ 54 επειςοδίου. Μάκε φορά που ζνασ ταξινομθτισ ανικει ςτο ςφνολο δράςθσ *Α+ το ίχνοσ του αυξάνεται κατά 1/ Α. Μαι πάλι δθλαδι μοιράηουμε ιςόποςα τθν ανταμοιβι ςτουσ ταξινομθτζσ ενόσ ςυνόλου δράςθσ. Υτθ ςυνζχεια το ίχνοσ πολλαπλαςιάηεται με τθν μεταβλθτι λ [0,1]. Ρ πολλαπλαςιαςμόσ του ίχνουσ με μια τιμι μικρότερθ από το 1 προςδίδει ςε κάκε επόμενθ επιλογι τθσ ςυγκεκριμζνθσ δράςθσ όλο και μικρότερθ βαρφτθτα. Υτο τζλοσ του επειςοδίου ο κάκε ταξινομθτισ λαμβάνει ζνα ποςοςτό τθσ άμεςθσ ανταμοιβισ που παρζχεται από το περιβάλλον, ανάλογο του ίχνουσ του e όπωσ εμφανίηεται ςτο Υχιμα 3.4. Σχήμα 3.4: Μεταβίβαςη ανταμοιβήσ ςε όλουσ τουσ ταξινομητζσ που χρηςιμοποιήθηκαν κατά την διάρκεια ενόσ επειςοδίου Η παραπάνω διαδικαςία, θ οποία παρουςιάηεται ςτο Σλαίςιο 5, ζχει ωσ αποτζλεςμα να ανταμείβονται όλοι οι ταξινομθτζσ που χρθςιμοποιοφνται κατά τθν διάρκεια ενόσ επειςοδίου λαμβάνοντασ ζνα ποςοςτό τθσ τελικισ ανταμοιβισ ανάλογο του αρικμοφ που ο κάκε ταξινομθτισ επιλζχκθκε. Initialize traces e i = 0 Repeat (for each time-step t) If classifier i belong to action set [A] e i (e i + ( 1 ))λ where λ [0,1] A Until t is final. For each classifier i s i s i + re i Πλαίςιο 5: Ανανζωςη των ιχνϊν των ταξινομητϊν

66 ZCS4RTS Συςτήματα Ελέγχου Ταξινομητών ςε Παιχνίδια Στρατηγικήσ 55 4 Πειρϊματα-Αποτελϋςματα Φα πειράματα που διεξιχκθςαν για τθν ανταμοιβι του πράκτορα ακολοφκθςαν τθν ίδια μζκοδο διεξαγωγισ με αυτι που χρθςιμοποιικθκε κατά τθν διάρκεια του διαγωνιςμοφ τθσ κοινότθτασ ΕΕ που ζλαβε χϊρα το 2008 *URL2]. Ματά τθν διάρκεια των πειραμάτων ο πράκτορασ ζρχεται αντιμζτωποσ με ζναν ςτατικό αντίπαλο ο οποίοσ υλοποιεί μια απλι ςτρατθγικι. Φο κάκε πείραμα ζχει διάρκεια 37,5*10 6 βιματα και χωρίηεται ςε επειςόδια με μζγιςτθ διάρκεια τα βιματα. Υτο τζλοσ του κάκε επειςοδίου, όπωσ ζχουμε ιδθ περιγράψει, ο πράκτορασ παίρνει μία αρικμθτικι ανταμοιβι θ οποία εξαρτάται από τθν χρονικι διάρκεια που χρειάςτθκε ο πράκτορασ για να φτάςει ςτθ νίκθ και δίνεται από τθν ςχζςθ: r = 100 ( 15t t max ) Εξ.13 Υε περίπτωςθ ιττασ ο πράκτορασ λαμβάνει μθδενικι ανταμοιβι ενϊ ςε περίπτωςθ ιςοπαλίασ ο πράκτορασ λαμβάνει ανταμοιβι 55 ι 45 βακμϊν (ενότθτα 2.4.1). Υκοπόσ του πράκτορα είναι θ νίκθ ςε όςο το δυνατόν περιςςότερα επειςόδια και ςτον ελάχιςτο εφικτό χρόνο κακϊσ, ζνασ πράκτορασ που ξοδεφει λιγότερο χρόνο ςε κάκε επειςόδιο, κα προλάβει να παίξει περιςςότερα επειςόδια. Μάκε επειςόδιο ξεκινάει με τθν τυχαία τοποκζτθςθ πάνω ςτον χάρτθ 10 αποκεμάτων πόρων και ενόσ εργάτθ για κάκε αντίπαλο. Η τυχαία αυτι τοποκζτθςθ ςίγουρα ευνοεί τθν πλευρά που κα ζχει τα αποκζματα ςε μικρότερθ απόςταςθ από τθν βάςθ τθσ, κακϊσ οι εργάτεσ κα χρειάηονται λιγότερο χρόνο για τθν περιςυλλογι των πόρων, αλλά μποροφμε να κεωριςουμε ότι ςτθν διάρκεια των χιλιάδων επειςοδίων που διαρκεί το κάκε πείραμα επζρχεται ιςορροπία και κανζνασ από τουσ δυο αντιπάλουσ δεν αδικείται.

67 ZCS4RTS Συςτήματα Ελέγχου Ταξινομητών ςε Παιχνίδια Στρατηγικήσ 56 Η ςτρατθγικι που ακολουκεί ο αντίπαλοσ τον οποίο κα κλθκεί να αντιμετωπίςει ο πράκτορασ είναι ςχετικά απλι. Σιο ςυγκεκριμζνα, και μετά από απλι παρατιρθςθ, ο αντίπαλοσ δθμιουργεί ςτθν αρχι εργάτεσ και ςτρατιϊτεσ. Φουσ περιςςότερουσ ςτρατιϊτεσ του διατθρεί δίπλα ςτθ βάςθ για να τθν προςτατζψει, ζνασ αρικμόσ περίπου πζντε ςτρατιωτϊν περιπολεί τθν διαδρομι που ακολουκοφν οι εργάτεσ που ςυλλζγουν τουσ πόρουσ, και δφο με τρείσ ςτρατιϊτεσ χρθςιμοποιοφνται για εξερεφνθςθ. ταν ο αρικμόσ των εργατϊν φτάςει τουσ δζκα με δεκαπζντε, ο αντίπαλοσ δθμιουργεί μόνο ςτρατιϊτεσ και εξαπολφει επίκεςθ με όλουσ του τουσ ςτρατιϊτεσ όταν ο αρικμόσ των χρονικϊν βθμάτων φτάςει περίπου τα Σροτιμάει λοιπόν να κάνει γριγορεσ επικζςεισ με τθν προοπτικι ότι ο αντίπαλοσ κα είναι απροετοίμαςτοσ. 4.1 Πειρϊματα Ματά τθ διάρκεια των πειραμάτων χρθςιμοποιιςαμε ωσ μζτρο αξιολόγθςθσ τθν τελικι βακμολογία που ςυγκεντρϊνει ο πράκτορασ αλλά και το ποςοςτό νικϊν που αυτόσ κα πετφχει επί του αρικμοφ των επειςοδίων που κα προλάβει να παίξει. Η αρχικζσ τιμζσ των παραμζτρων που κακορίηουν τθν ςυμπεριφορά αλλά και τον ρυκμό εκμάκθςθσ των δφο ZCS που χρθςιμοποιεί ο πράκτορασ δίνονται ςτον Σίνακασ 4.1. Πίνακασ 4.1: Αρχικζσ τιμζσ μεταβλητϊν ελζγχου ZCS ΜΕΣΑΒΛΗΣΗ ΛΕΙΣΟΤΡΓΙΑ Σιμι P # Σικανότθτα τοποκζτθςθσ του # ςε μία κζςθ του ταξινομθτι κατά τθν διάρκεια τθσ κάλυψθσ 0.33 s 0 Αρχικι δφναμθ ταξινομθτϊν 20 β Τυκμόσ Εκμάκθςθσ 0.2 γ Σαράγοντασ Ζκπτωςθσ 0.71 τ Σαράγοντασ Φορολόγθςθσ 0.1 ρ Σικανότθτα Εκτζλεςθσ ΓΑ χ Σικανότθτα Εκτζλεςθσ Διαςταφρωςθσ 0.5 μ Σικανότθτα Ξετάλλαξθσ φ Σαράγοντασ Μάλυψθσ 0.5 Ρι τιμζσ αυτζσ κεωρικθκαν βζλτιςτεσ για ζνα ZCS το οποίο εφαρμόηεται ςτο πρόβλθμα του δάςουσ *Wil + 94] [URL4+. Για το μζγεκοσ του πλθκυςμοφ των ταξινομθτϊν επιλζχκθκαν οι τιμζσ 200 για το ZCS τθσ βάςθσ και 400 για το ZCS ςτρατιωτϊν. Φα διαφορετικά μεγζκθ επιλζχκθκαν εξαιτίασ του μεγαλφτερου χϊρου καταςτάςεων του ZCS ςτρατιωτϊν (2 18 ζναντι 2 16 που είναι το μζγεκοσ του χϊρου καταςτάςεων του ZCS βάςθσ).

68 ZCS4RTS Συςτήματα Ελέγχου Ταξινομητών ςε Παιχνίδια Στρατηγικήσ Σύγκριςη Πρϊκτορα ZCS με πρϊκτορα που αποφαςύζει τυχαύα Ρ πράκτορασ με τισ τιμζσ μεταβλθτϊν του Σίνακασ 4.1 δοκιμάςτθκε ςε δζκα διαφορετικά πειράματα των 37,5 εκατομμυρίων βθμάτων. Υε κάκε πείραμα ο πλθκυςμόσ των ταξινομθτϊν για κάκε ZCS αρχικοποιείται τυχαία. Για να ελζγξουμε αν όντωσ το ZCS βοθκάει τον πράκτορα να αναπτφξει κάποια επιτυχθμζνθ ςτρατθγικι εκτελζςαμε επίςθσ και δζκα πειράματα του ίδιου πράκτορα αλλά με τισ τιμζσ των μεταβλθτϊν β, γ, τ και ρ ςτο μθδζν. Ρ πράκτορασ με αυτζσ τισ μεταβλθτζσ ςτθν ουςία επιλζγει τυχαία μία δράςθ για κάκε κατάςταςθ και δεν ζχει τθν ικανότθτα να εξελίςςει τον πλθκυςμό των ταξινομθτϊν του αφοφ δεν εκτελείται ο ΓΑ. Εκτελζςτθκαν δζκα πειράματα με αυτό τον πράκτορα με τον πλθκυςμό των ταξινομθτϊν να αρχικοποιείται πριν από κάκε πείραμα. Ρι ςυνολικζσ ανταμοιβζσ και το ποςοςτό νικϊν για τουσ αναφερκζντεσ πράκτορεσ παρουςιάηονται ςτα ςχιματα Υχιμα 4.1 και Υχιμα 4.2. Σχήμα 4.1: Ποςοςτό νικϊν για τον πράκτορα που χρηςιμοποιεί ZCS και για τον πράκτορα που ενεργεί τυχαία για δζκα διαφορετικά πειράματα Υτο Υχιμα 4.1 παρουςιάηονται τα ποςοςτά επιτυχίασ, δθλαδι νικϊν, που πζτυχαν οι δφο πράκτορεσ κατά τθν διάρκεια των πειραμάτων. Σαρατθροφμε ότι ο πράκτορασ που επιλζγει τισ κινιςεισ του ςτθν τφχθ ζχει ποςοςτό νικϊν, επί του ςφνολου των επειςοδίων που ζπαιξε ςε κάκε πείραμα, το οποίο όταν ςυγκρίνεται με το αντίςτοιχο ποςοςτό του πράκτορα που χρθςιμοποιεί ZCS, εμφανίηεται πολφ υψθλότερο από αυτό που κάποιοσ κα περίμενε. Αν και θ τάςθ που επικρατεί είναι να παρουςιάηει ο τυχαίοσ πράκτορασ χαμθλότερα ποςοςτά νικϊν,

69 ZCS4RTS Συςτήματα Ελέγχου Ταξινομητών ςε Παιχνίδια Στρατηγικήσ 58 υπάρχουν περιπτϊςεισ ςτισ οποίεσ τα ποςοςτά αυτά ιταν ίςα με αυτά του πράκτορα που χρθςιμοποιεί ZCS. Φα υψθλά ποςοςτά του τυχαίου πράκτορα ζχουν λογικι εξιγθςθ. Ρ πράκτορασ μπορεί να παίρνει αποφάςεισ με τυχαίο τρόπο, αλλά οι αποφάςεισ αυτζσ υλοποιοφνται με τον ίδιο τρόπο και ςτουσ δφο πράκτορεσ. Δθλαδι ζνασ ςτρατιϊτθσ που λαμβάνει τθν εντολι να προςτατζψει τθν βάςθ του κα εκτελζςει τθν εντολι αυτι με τον ίδιο τρόπο και ςτουσ δφο πράκτορεσ. Ρ πράκτορασ που δρα βαςιηόμενοσ ςτθν τφχθ ζχει πικανότθτα 0.50 να δθμιουργιςει ζνα από τα δφο είδθ μονάδων, δθλαδι εργάτεσ ι ςτρατιϊτεσ, ενϊ ο κάκε ςτρατιϊτθσ που δθμιουργείται ζχει πικανότθτα 0.25 να εκτελζςει μια από τισ τζςςερισ δράςεισ που υπάρχουν. Ρι αναλογίεσ αυτζσ μπορεί να μθν είναι ιδανικζσ αλλά απζναντι ςε ζναν εφκολο αντίπαλο μποροφν να δϊςουν τθν νίκθ ςε πολλζσ περιπτϊςεισ, ιδίωσ όταν θ τοποκζτθςθ των αποκεμάτων είναι ευνοϊκι για τον πράκτορα. Υτο Υχιμα 4.2 παρουςιάηονται οι ςυνολικζσ ανταμοιβζσ που ζλαβαν οι πράκτορεσ κατά τθν διάρκεια των προθγοφμενων πειραμάτων. Σαρατθροφμε ότι ο πράκτορασ που χρθςιμοποιεί ZCS πετυχαίνει βακμολογίεσ ςαφϊσ μεγαλφτερεσ από αυτζσ του πράκτορα που αποφαςίηει ςτθν τφχθ. Αυτό ςυμβαίνει επειδι ο πράκτορασ μασ ζχει τθν ικανότθτα να μακαίνει και ζτςι χρθςιμοποιεί πιο αποτελεςματικά τισ μονάδεσ του κερδίηοντασ τα επειςόδια ςε μικρότερο χρονικό διάςτθμα. Αυτό του επιτρζπει να παίηει περιςςότερα επειςόδια και να αυξάνει περαιτζρω τθν ανταμοιβι του. Σχήμα 4.2: Συνολική ανταμοιβή πράκτορα που χρηςιμοποιεί ZCS και πράκτορα που ενεργεί τυχαία για δζκα διαφορετικά πειράματα

70 ZCS4RTS Συςτήματα Ελέγχου Ταξινομητών ςε Παιχνίδια Στρατηγικήσ 59 Η βακμολογία του πράκτορα που δρα ςτθν τφχθ επθρεάηεται ςε μεγάλο βακμό από το αρχικό ςφνολο ταξινομθτϊν που δθμιουργείται ςε κάκε πείραμα κακϊσ εξαιτίασ τθσ απουςίασ του ΓΑ ο πλθκυςμόσ των ταξινομθτϊν του πράκτορα δεν ζχει τθν ικανότθτα να εξελιχκεί. Αντικζτωσ ο πράκτορασ που χρθςιμοποιεί ZCS επθρεάηεται εμφανϊσ λιγότερο από τουσ διαφορετικοφσ για κάκε πείραμα πλθκυςμοφσ ταξινομθτϊν που δθμιουργικθκαν. Υτον Σίνακασ 4.2 παρουςιάηονται τα ςτατιςτικά αποτελζςματα που προζκυψαν από τα δζκα διαφορετικά πειράματα που εκτελζςαμε για κάκε πράκτορα. Σαρατθροφμε ότι ο πράκτορασ που χρθςιμοποιεί ZCS παρουςιάηει μεγαλφτερο μζςο όρο και πολφ μικρότερθ τυπικι απόκλιςθ τόςο ςε ποςοςτό νικϊν όςο και ςε ςυνολικι ανταμοιβι. Πίνακασ 4.2: Αποτελζςματα Σφγκριςησ Μεταξφ Zcs Agent και Random Agent ZCS Agent Random Agent Ποςοςτό Νικϊν Μζςθ Σιμι 0,854 0,7667 Συπικι Απόκλιςθ 0,0233 0,086 υνολικι Ανταμοιβι Μζςθ Σιμι Συπικι Απόκλιςθ

71 ZCS4RTS Συςτήματα Ελέγχου Ταξινομητών ςε Παιχνίδια Στρατηγικήσ Σύγκριςη ZCS με SARSA Υτθ ςυνζχεια ςυγκρίναμε τον πράκτορά μασ με τον πράκτορα που χρθςιμοποιεί τον αλγόρικμο SARSA (Σαράρτθμα A). Ρι εντολζσ που δζχονται οι ςτρατιϊτεσ των δφο πρακτόρων από τα ςυςτιματα εκμάκθςθσ (το ZCS και το αλγόρικμο SARSA αντίςτοιχα) υλοποιοφνται με τον ίδιο τρόπο. Δθλαδι ζνασ ςτρατιϊτθσ που ζχει λάβει εντολι να προςτατζψει τθν βάςθ ι να εξερευνιςει το περιβάλλον του κα εκτελζςει τθν εντολι αυτι με τον ίδιο τρόπο και ςτουσ δφο πράκτορεσ. Φο γεγονόσ αυτό μασ δίνει τθν δυνατότθτα να εςτιάςουμε τθν ςφγκριςθ ςτισ μακθςιακζσ μεκόδουσ των δφο πρακτόρων κακϊσ αλλαγζσ ςτον τρόπο υλοποίθςθσ των εντολϊν κα επθρζαηαν άμεςα το αποτζλεςμα. Δοκιμάςαμε λοιπόν τον πράκτορα που χρθςιμοποιεί τον αλγόρικμο SARSA εκτελϊντασ δζκα πειράματα. Υτο Υχιμα 4.3 παρουςιάηονται τα ποςοςτά επιτυχιϊν του πράκτορα SARSA ςυγκρινόμενα με τα αντίςτοιχα του πράκτορα ZCS. Σαρατθροφμε ότι ο πράκτορασ μασ επιτυγχάνει κάκε φορά μεγαλφτερο ποςοςτό νικϊν ςε ςχζςθ με τον πράκτορα SARSA. Σχήμα 4.3: Ποςοςτά νικϊν πράκτορα ZCS και πράκτορα SARSA Επειδι όπωσ είδαμε και προθγουμζνωσ, τα ποςοςτά νικϊν δεν αρκοφν για να κρίνουμε επαρκϊσ τθν απόδοςθ των πρακτόρων, παρακζτουμε ςτο Υχιμα 4.4 τθν ςυνολικι ανταμοιβι των πρακτόρων κατά τθν διάρκεια των δζκα πειραμάτων. Σαρατθροφμε ότι παρόλο που πράκτορασ SARSA κατάφερε να πετφχει ςθμαντικά υψθλότερθ ανταμοιβι ςε ςχζςθ με τον πράκτορα ZCS ςε μια περίπτωςθ(πείραμα 10), δεν παρουςιάηει τθν ςτακερότθτα του πράκτορα ZCS.

72 ZCS4RTS Συςτήματα Ελέγχου Ταξινομητών ςε Παιχνίδια Στρατηγικήσ 61 Σχήμα 4.4: Συνολική ανταμοιβή πράκτορα ZCS και πράκτορα SARSA Ξε τθν βοικεια του Σίνακασ 4.3 μποροφμε να ςυμπεράνουμε ότι ο πράκτοράσ μασ πετυχαίνει μεγαλφτερα ποςοςτά νικϊν και λαμβάνει υψθλότερθ ανταμοιβι κατά μζςο όρο. Σαρουςιάηεται επίςθσ πολφ πιο ςτακερόσ από τον πράκτορα που χρθςιμοποιεί SARSA κακϊσ τα αποτελζςματα του τελευταίου εμφανίηουν μεγαλφτερθ τυπικι απόκλιςθ. Πίνακασ 4.3: Αποτελζςματα Σφγκριςησ μεταξφ ZCS Agent και SARSA Agent ZCS Agent SARSA Agent Ποςοςτό Νικϊν Μζςθ Σιμι 0,854 0,7108 Συπικι Απόκλιςθ 0,0233 0,0483 υνολικι Ανταμοιβι Μζςθ Σιμι Συπικι Απόκλιςθ Εύρεςη βϋλτιςτου ρυθμού εξϋλιξησ Η παράμετροσ που επθρεάηει ςτον μεγαλφτερο βακμό τθν εξζλιξθ του πλθκυςμοφ των ταξινομθτϊν ςε ζνα ZCS είναι θ ρ. Από τθν τιμι τθσ εξαρτάται θ πικανότθτα να εκτελεςτεί ο ΓΑ

73 ZCS4RTS Συςτήματα Ελέγχου Ταξινομητών ςε Παιχνίδια Στρατηγικήσ 62 όταν το ZCS παίρνει μια απόφαςθ και κακορίηει επί τθσ ουςίασ τον ρυκμό εξζλιξθσ του πλθκυςμοφ. Αν ο ρυκμόσ αυτόσ είναι πολφ μεγάλοσ, υπάρχει θ πικανότθτα ταξινομθτζσ που διαγράφονται από τον πλθκυςμό ωσ ακατάλλθλοι, να μθν ζχουν αξιολογθκεί ςωςτά. Υε περίπτωςθ που ο ρυκμόσ είναι πολφ μικρόσ ο πράκτορασ κα ζχει πολφ μικρι ικανότθτα προςαρμογισ και αλλαγισ τθσ ςτρατθγικισ του. Για να βροφμε τθν βζλτιςτθ τιμι τθσ παραμζτρου ρ για το ςυγκεκριμζνο πρόβλθμα, εκτελζςαμε πειράματα με διάφορεσ τιμζσ τθσ. Ρι τιμζσ των υπολοίπων παραμζτρων διατθρικθκαν ίδιεσ, ενϊ για κάκε πείραμα ο αρχικόσ πλθκυςμόσ των ταξινομθτϊν δθμιουργοφνταν με τυχαίο τρόπο. Από τα αποτελζςματα που εμφανίηονται ςτο Υχιμα 4.5 καταλιγουμε ςτο ςυμπζραςμα ότι θ βζλτιςτθ τιμι είναι ρ = για τθν οποία ο πράκτορασ ςυγκζντρωςε ανταμοιβι 7,625*10 6 μονάδων (για τθν τιμι ςτο διάγραμμα εμφανίηεται ο μζςοσ όροσ των δζκα προθγοφμενων πειραμάτων). Για να ελζγξουμε τθν ςτακερότθτα του πράκτορα για αυτι τθν τιμι τθσ μεταβλθτισ ρ τρζξαμε άλλα δφο πειράματα με τυχαίο κάκε φορά αρχικό πλθκυςμό. Φα αποτελζςματα εμφανίηονται ςτο Υχιμα 4.6 και παρατθροφμε τθν ςτακερότθτα του πράκτορα με τθν ανταμοιβι να κυμαίνεται γφρω από τθν τιμι των 7.5*10 6 μονάδων με πολφ μικρι απόκλιςθ. Σχήμα 4.5: Συνολική ανταμοιβή για διάφορεσ τιμζσ τησ μεταβλητήσ ρ

74 ZCS4RTS Συςτήματα Ελέγχου Ταξινομητών ςε Παιχνίδια Στρατηγικήσ 63 Σχήμα 4.6: Συνολική Ανταμοιβή για ρ= Πειρϊματα με Ίχνη Επιλεξιμότητασ Φα πειράματα που ακολοφκθςαν είχαν ωσ ςκοπό τον ζλεγχο τθσ αποτελεςματικότθτασ των ιχνϊν επιλεξιμότθτασ τα οποίο περιγράφονται ςτθν ενότθτα 3.2. Από τον πράκτορα που χρθςιμοποιεί αυτι τθ μζκοδο αναμζναμε να αναπτφξει ταχφτερα ςωςτζσ ςτρατθγικζσ που κα του επιτρζψουν να λάβει υψθλότερεσ ανταμοιβζσ. Σχήμα 4.7 :Απόδοςη του πράκτορα για διαφορετικζσ τιμζσ τησ παραμζτρου λ

75 ZCS4RTS Συςτήματα Ελέγχου Ταξινομητών ςε Παιχνίδια Στρατηγικήσ 64 Χρθςιμοποιιςαμε λοιπόν τον πράκτορα με τθν καλφτερθ μζχρι ςτιγμισ απόδοςθ, ο οποίοσ είναι αυτόσ με ρυκμό εξζλιξθσ ρ = , ενϊ οι υπόλοιπεσ μεταβλθτζσ ζχουν τισ τιμζσ του Σίνακασ 4.1. Υε κάκε δοκιμι δίναμε διαφορετικι τιμι ςτθν μεταβλθτι λ θ οποία χρθςιμοποιείται για τθν ανανζωςθ των ιχνϊν e ςφμφωνα με τθν ςχζςθ e i [e i + ( 1 )]λ. Υε A κάκε δοκιμι ο πλθκυςμόσ των ταξινομθτϊν αρχικοποιοφνταν τυχαία. Φα αποτελζςματα παρουςιάηονται ςτο Υχιμα 4.7. Σαρατθροφμε ότι ο πράκτορασ λαμβάνει τθν μζγιςτθ ανταμοιβι για τθν τιμι λ = 0 θ οποία ανζρχεται ςτισ 7,6*10 6 μονάδεσ. Για περαιτζρω αφξθςθ του λ θ ανταμοιβι παρουςιάηει ςτακερι μείωςθ και μποροφμε να ποφμε ότι θ προςκικθ των ιχνϊν επιλεξιμότθτασ δεν είχε τα αναμενόμενα αποτελζςματα. Ρ λόγοσ τθσ κακισ απόδοςθσ του πράκτορα που χρθςιμοποιεί ίχνθ οφείλεται κυρίωσ ςτθ φφςθ του προβλιματοσ που αυτόσ καλείται να αντιμετωπίςει, δθλαδι ςτα ΣΥΣΧ. πωσ περιγράψαμε τα ίχνθ χρθςιμοποιοφνται για να λαμβάνουν τμιμα τθσ ανταμοιβισ όλοι οι ταξινομθτζσ που χρθςιμοποιικθκαν κατά τθν διάρκεια ενόσ επειςοδίου. Υε ζνα ΣΥΣΧ όμωσ, υπάρχει θ πικανότθτα να λάβει κάποιοσ, παίκτθσ ι πράκτορασ, λάκοσ αποφάςεισ και να κερδίςει το επειςόδιο είτε λόγω ευνοϊκισ αρχικισ κζςθσ είτε με τθν βοικεια τθσ τφχθσ. ταν λοιπόν ζνασ πράκτορασ χρθςιμοποιεί ίχνθ επιλεξιμότθτασ για τθν ανανζωςθ τθσ δφναμθσ των ταξινομθτϊν ςε κάκε επειςόδιο, οι ταξινομθτζσ που υποδεικνφουν λάκοσ επιλογζσ αυξάνουν τθν δφναμι τουσ μετά από κάκε νικθφόρο επειςόδιο ανάλογα με το πόςεσ φορζσ επιλζχκθκαν. Αυτό ζχει ςαν αποτζλεςμα να αδυνατεί ο πράκτορασ να αναπτφξει μια νικθφόρα ςτρατθγικι που κα του επιτρζψει να λάβει μεγαλφτερθ ανταμοιβι Απόδοςη Πρϊκτορα ςε Διαφορετικό Περιβϊλλον Υτθσ ςυνζχεια κζλαμε να ελζγξουμε αν ο πράκτοράσ μασ κα είχε τθν ίδια απόδοςθ ςε ζνα διαφοροποιθμζνο περιβάλλον του ΣΥΣΧ και κατά πόςο κα τον βοθκοφςε ςτο νζο περιβάλλον γνϊςθ που κα είχε αποκτιςει παίηοντασ το παιχνίδι ςτο αρχικό περιβάλλον. Η πρϊτθ ςτιλθ ςτο Υχιμα 4.8 παρουςιάηει τθν ανταμοιβι του πράκτορά μασ ςτο αρχικό του περιβάλλον. Η δεφτερθ και θ τρίτθ ςτιλθ παρουςιάηουν τισ ανταμοιβζσ που ςυνζλεξε ο πράκτορασ ςε ζνα περιβάλλον αλλαγμζνο. Ρι διαφορζσ μεταξφ των δφο περιβαλλόντων εμφανίηονται ςτον Σίνακασ 4.4 και αφοροφν αλλαγζσ ςτισ ιδιότθτεσ των μονάδων. Υτο διαφοροποιθμζνο αυτό περιβάλλον δοκιμάςαμε τθν απόδοςθ του πράκτορα με πρότερθ εκπαίδευςθ, θ ανταμοιβι του οποίου εμφανίηεται ςτθ δεφτερθ ςτιλθ. Ρ αρχικόσ πλθκυςμόσ ταξινομθτϊν για τον πράκτορα αυτό δθμιουργικθκε μετά από ζνα πλιρεσ πείραμα ςτο αρχικό περιβάλλον, δθλαδι μετά από 37,5*10 6 βιματα. Η ανταμοιβι τθσ τρίτθσ ςτιλθσ αντιςτοιχεί ςτον πράκτορα που δοκιμάςτθκε ςτο αλλαγμζνο περιβάλλον με τυχαία αρχικοποιθμζνο πλθκυςμό ταξινομθτϊν.

76 ZCS4RTS Συςτήματα Ελέγχου Ταξινομητών ςε Παιχνίδια Στρατηγικήσ 65 Σχήμα 4.8: Ανταμοιβή πράκτορα ςε κανονικό και αλλαγμζνο περιβάλλον Πίνακασ 4.4: Σφγκριςη παλιοφ και νζου περιβάλλοντοσ Μεταβλθτι Βάςθ τρατιϊτθσ Εργάτθσ Αρχικό/ Διαφοροποιθμζνο Σεριβάλλον Α Δ Α Δ Α Δ Ακτίνα Ξονάδασ Ακτίνα ραςθσ Ξονάδασ Βελθνεκζσ Ξονάδασ Αξία Επίκεςθσ Σόντοι Χγείασ Σανοπλία Φαχφτθτα Μόςτοσ Ματαςκευισ Χρόνοσ Ματαςκευισ Χωρθτικότθτα Σόρων Χρόνοσ Υυλλογισ Σόρων Από το Υχιμα 4.8 παρατθροφμε ότι ςτο διαφοροποιθμζνο περιβάλλον ο πράκτορασ ζλαβε ανταμοιβι μικρότερθ ςε ςχζςθ με το κανονικό περίπου κατά μιςό εκατομμφριο μονάδεσ. Επίςθσ βλζπουμε ότι θ πρότερθ γνϊςθ επθρζαςε τθν απόδοςθ του πράκτορα ςε πολφ μικρό βακμό κακϊσ θ διαφορά μεταξφ δεφτερθσ και τρίτθσ ςτιλθσ είναι περίπου μονάδεσ. Η μικρι διαφορά μεταξφ εκπαιδευμζνου και ανεκπαίδευτου πράκτορα μασ οδθγεί ςτο ςυμπζραςμα ότι το ZCS ανακαλφπτει ςε μικρό χρονικό διάςτθμα τθν ςτρατθγικι που κα του

77 ZCS4RTS Συςτήματα Ελέγχου Ταξινομητών ςε Παιχνίδια Στρατηγικήσ 66 αποφζρει τθν βζλτιςτθ ανταμοιβι και επθρεάηεται ςε πολφ μικρό βακμό από τθν τυχαία ι μθ αρχικοποίθςθ του αρχικοφ πλθκυςμοφ των ταξινομθτϊν. Φο ότι ο πράκτορασ δεν κατάφερε να λάβει τθν ίδια ανταμοιβι ςτα δφο διαφορετικά περιβάλλοντα οφείλεται ςτον τρόπο που μεταφράηονται οι εντολζσ που δίνει το ZCS ςτισ μονάδεσ ςε κινιςεισ. Από τθν ςτιγμι που αλλάηει το περιβάλλον ο πράκτορασ παίηει ςτθν ουςία ζνα διαφορετικό παιχνίδι. Ρι ςυναρτιςεισ ωςτόςο που είναι υπεφκυνεσ για τθν μετάφραςθ των εντολϊν ςε κινιςεισ πάνω ςτον χάρτθ του παιχνιδιοφ είναι βελτιςτοποιθμζνεσ για το αρχικό περιβάλλον και ςτο γεγονόσ αυτό οφείλεται θ μικρότερθ ανταμοιβι του πράκτορα Βελτύωςη τησ ανταμοιβόσ του πρϊκτορα με εικονικό ανταμοιβό Για να μπορζςει ο πράκτορασ να λάβει μεγαλφτερθ ανταμοιβι κα πρζπει να φτάνει ςτθν νίκθ ςε όςο το δυνατόν μικρότερο χρονικό διάςτθμα. Για να το κατορκϊςει αυτό κα πρζπει θ ανταμοιβι που λαμβάνει να του προςφζρει πλθροφόρθςθ για εάν κζρδιςε αλλά και για το πόςο γριγορα κατάφερε να φτάςει ςτθ νίκθ. Η ανταμοιβι που λαμβάνει ο πράκτορασ, και θ οποία δίνεται από τθν ςχζςθ r = t t, εμπεριζχει ωσ ζνα βακμό αυτι τθν max πλθροφορία κακϊσ ο πράκτορασ κα λάβει ωσ ανταμοιβι μια τιμι που κυμαίνεται από 100 ζωσ 85 μονάδεσ. Σαρόλα αυτά το να λάβει ο πράκτορασ τθν πλθροφορία ότι κζρδιςε μετά από 9999 βιματα (ςτα βιματα το παιχνίδι λιγει ωσ ιςοπαλία), τθν ςτιγμι που ζνα ςφνθκεσ επειςόδιο (ζνα επειςόδιο δθλαδι ςτο οποίο οι βάςεισ των δφο αντιπάλων ζχουν τοποκετθκεί ςε μια φυςιολογικι απόςταςθ και δεν είναι θ μία δίπλα ςτθν άλλθ) ζχει διάρκεια χρονικά βιματα, δεν βοθκάει ςτθν διαδικαςία εκπαίδευςθσ. Γίνεται λοιπόν αντιλθπτό ότι μζςα ςτα βιματα που διαρκεί ζνα επειςόδιο ο πράκτοράσ μασ ζχει τθν δυνατότθτα να παίξει 4 ι και 5 επιπλζον επειςόδια από τα οποία κα ζχει κζρδοσ ακόμα και εάν κερδίςει μόνο το ζνα. Για να ωκιςουμε τον πράκτορα προσ αυτι τθν κατεφκυνςθ του δίνουμε ωσ ανταμοιβι νίκθσ μια εικονικι ανταμοιβι θ οποία δίνεται από τθν ςυνάρτθςθ r ={ t t < t t > 5000 Εξ.14 Ρι δφο διαφορετικζσ ςυναρτιςεισ ανταμοιβισ (κανονικισ και εικονικισ) εμφανίηονται ςτο Υχιμα 4.9.

78 ZCS4RTS Συςτήματα Ελέγχου Ταξινομητών ςε Παιχνίδια Στρατηγικήσ 67 Σχήμα 4.9: Κανονική και εικονική ςυνάρτηςη ανταμοιβήσ Βλζπουμε λοιπόν ότι με τθν εικονικι ανταμοιβι ο πράκτορασ ανταμείβεται μόνο εάν κερδίςει ςε χρονικό διάςτθμα μικρότερο των 5000 βθμάτων και πωσ λαμβάνει τθν μζγιςτθ δυνατι ανταμοιβι αν θ νίκθ επζλκει ςε διάςτθμα μικρότερο των 500 χρονικϊν βθμάτων. Υυγκρίναμε λοιπόν τον πράκτορα που εκπαιδεφεται με τθν κανονικι ανταμοιβι με αυτόν που εκπαιδεφεται με τθν εικονικι. Φα αποτελζςματα που παρουςιάηονται ςτο Υχιμα 4.10 εμφανίηουν τθν κανονικι ανταμοιβι που ζλαβαν οι δφο πράκτορεσ. Σχήμα 4.10: Συνολικζσ Ανταμοιβζσ Πράκτορα για κανονική και εικονική ςυνάρτηςη ανταμοιβήσ

79 ZCS4RTS Συςτήματα Ελέγχου Ταξινομητών ςε Παιχνίδια Στρατηγικήσ 68 πωσ βλζπουμε θ εικονικι ςυνάρτθςθ ανταμοιβισ απζτυχε να βελτιϊςει τθν ςυνολικι ανταμοιβι του πράκτορα. Αυτό ςυνζβθ για δφο λόγουσ. Σρϊτον θ ςυνεχισ φφςθ τθσ εικονικισ ανταμοιβισ δεν δίνει ςτον πράκτορα ξεκάκαρο ςιμα νίκθσ ςε αντίκεςθ με τθν κανονικι ςυνάρτθςθ ανταμοιβισ θ οποία, αν και ζχει μια διαφοροποίθςθ ςτο ςκορ νίκθσ, προςφζρει ξεκάκαρα ςτον πράκτορα τθν πλθροφορία ότι κζρδιςε. Δεφτερον για να μπορζςει ο πράκτορασ να επωφελθκεί τθσ εικονικισ ανταμοιβισ προςπακεί να γίνει πιο επικετικόσ ϊςτε να τελειϊνει το κάκε επειςόδιο ςε μικρότερο χρόνο. Αυτι θ επικετικότθτα εμπεριζχει μεγάλο ρίςκο και οδθγεί αρκετζσ φορζσ ςτθν ιττα, ιδίωσ όταν θ τοποκζτθςθ των αποκεμάτων πόρων δεν είναι ευνοϊκι για τον πράκτορα. Ρι δφο αυτοί λόγοι οδιγθςαν ςε μειωμζνθ απόδοςθ. 4.2 Στρατηγικό που αναπτύςςεται από τον πρϊκτορα Υτο ΣΥΣΧ ςτο οποίο εκπαιδεφτθκε ο πράκτοράσ μασ θ τυχαία τοποκζτθςθ των αποκεμάτων πόρων ςτθν αρχι του κάκε επειςοδίου κρίνει ςε μεγάλο βακμό τον νικθτι. πωσ φαίνεται ςτο Υχιμα 4.11 θ αρχικοποίθςθ μπορεί είτε ευνοιςει τον πράκτορα ςε ςχζςθ με τον αντίπαλο, είτε να τον αδικιςει ι να δϊςει ίςεσ πικανότθτεσ για νίκθ ςτισ δφο αντιμαχόμενεσ πλευρζσ. α) β) γ) Σχήμα 4.11: Αρχικοποίηςη αποθεμάτων πόρων. α) Ευνοϊκή β) Άδικη γ) Δίκαιη Ξε δεδομζνο ότι ςε κάκε επειςόδιο υπάρχουν δζκα αποκζματα πόρων μια ευνοϊκι για τον πράκτορά μασ κατανομι είναι πολφ πικανόν να είναι άδικθ για τον αντίπαλο και το αντίκετο. πωσ ζχουμε αναφζρει θ ςτρατθγικι που ακολουκεί ο αντίπαλοσ είναι αυτι τθσ γριγορθσ επίκεςθσ (rush attack). Ρ αντίπαλοσ προςτατεφει τθν βάςθ του και τουσ εργάτεσ και εξαπολφει επίκεςθ με όλεσ τισ μονάδεσ που ζχει δθμιουργιςει, ςυμπεριλαμβανομζνων και των εργατϊν, όταν ο χρόνοσ του επειςοδίου φτάςει ςτα 1500 βιματα.

80 ZCS4RTS Συςτήματα Ελέγχου Ταξινομητών ςε Παιχνίδια Στρατηγικήσ 69 Ρι ςτρατθγικζσ που αναπτφςςει ο πράκτορασ για κάκε μία από τισ τρείσ περιπτϊςεισ αρχικοποίθςθσ πόρων είναι οι εξισ: Ευνοϊκι Αρχικοποίθςθ Αποκεμάτων: Υε αυτι τθν περίπτωςθ ο πράκτοράσ μασ ζχει ςτθν διάκεςι του πολφ περιςςότερουσ πόρουσ ςε ςχζςθ με τον αντίπαλο. Αυτό ςθμαίνει ότι κα δθμιουργιςει πολφ μεγαλφτερο ςτρατό και κα φτάςει τελικά ςτθ νίκθ ακόμα και αν κάνει λάκοσ επιλογζσ. ςο ο πράκτορασ εκμεταλλεφεται τα αποκζματα τα οποία βρίςκονται ςε κοντινι απόςταςθ, δθμιουργεί μεγάλο αρικμό εργατϊν ςε ςχζςθ με τουσ ςτρατιϊτεσ ϊςτε να διαςφαλίςει αυξθμζνθ ροι πόρων όταν κα χρειαςτεί να χρθςιμοποιιςει πιο απομακρυςμζνα αποκζματα. Ανακζτει ςε ζναν μικρό αρικμό ςτρατιωτϊν να εξερευνιςουν το περιβάλλον ϊςτε να ανακαλφψει τισ κζςεισ πάνω ςτον χάρτθ των υπόλοιπων αποκεμάτων κακϊσ και τθσ βάςθσ του αντιπάλου. Η ανακάλυψθ τθσ βάςθσ του αντιπάλου ζχει πολλαπλι ςθμαςία. Σρϊτον, οι ςτρατιϊτεσ που αμφνονται τθσ βάςθσ και των εργατϊν προςανατολίηονται προσ τθν αντίπαλθ βάςθ ϊςτε να είναι πιο αποτελεςματικι θ άμυνα. Δεφτερον, οι ςτρατιϊτεσ που ζχουν λάβει εντολι για αψιμαχία παρενοχλοφν και καταςτρζφουν όςουσ αντίπαλουσ εργάτεσ μποροφν ϊςτε να ανακόψουν τθν οικονομικι ανάπτυξθ του αντιπάλου. Φρίτον, ο πράκτοράσ μασ χρθςιμοποιϊντασ τθν εκτίμθςθ του πλικουσ του αντιπάλου γνωρίηει πλζον ότι ο αντίπαλοσ ζχει δθμιουργιςει ςτρατό και μπορεί να χρθςιμοποιιςει το ςιμα ςκανδάλθσ αν αντιλθφκεί ότι ο αντίπαλοσ ςτρατόσ ζχει καταςτραφεί. Αν ο πράκτορασ προλάβει να ςυγκεντρϊςει τον απαραίτθτο αρικμό επιτικζμενων ςτρατιωτϊν πριν από το χρονικό βιμα 1500, εξαπολφει επίκεςθ θ οποία είναι ςυνικωσ επιτυχισ. Υε διαφορετικι περίπτωςθ, αποκροφει τθν επίκεςθ του αντιπάλου και, εκμεταλλευόμενοσ το ςιμα ςκανδάλθσ και τθν εκτίμθςθ που ζχει κάνει για τον αντίπαλο, δίνει ςτουσ ςτρατιϊτεσ του εντολι για εξερεφνθςθ ι για επίκεςθ που ζχουν ωσ αποτζλεςμα τθν νίκθ αφοφ ο ςυγκεκριμζνοσ αντίπαλοσ ζχει μείνει χωρίσ μονάδεσ. Άδικθ Αρχικοποίθςθ Αποκεμάτων: Υε αυτι τθν περίπτωςθ θ ιττα είναι ςχεδόν βζβαιθ. Ρ πράκτορασ μασ παίρνει εντολι από το ZCS για δθμιουργία ςτρατιωτϊν οι οποίοι προςτατεφουν τθν βάςθ. Αλλά ο αντίπαλοσ ζχει ςυνικωσ αρικμθτικι υπεροχι και ο πράκτορασ οδθγείται ςτθν ιττα. Δίκαιθ Αρχικοποίθςθ Αποκεμάτων: Η ςτρατθγικι που ακολουκεί ο πράκτορασ ςε αυτι τθν περίπτωςθ μοιάηει αρκετά με τθ ςτρατθγικι που περιγράφθκε ςτθν περίπτωςθ τθν ευνοϊκισ τοποκζτθςθσ των αποκεμάτων. Δθμιουργεί αρκετοφσ εργάτεσ ϊςτε να ζχει αυξθμζνθ ειςροι πόρων. Επίςθσ εξερευνά μζςω των ςτρατιωτϊν του το περιβάλλον ϊςτε να αμυνκεί με πιο αποτελεςματικό τρόπο και να αξιοποιιςει τθν εκτίμθςθ που κάνει για τον αρικμό τον αντιπάλων μονάδων. Απζναντι ςτον ςυγκεκριμζνο αντίπαλο ο πράκτοράσ μασ ζχει αναπτφξει μια αμυντικογενι ςτρατθγικι και ζχει ςαν κφριο ςτόχο τθν προςταςία τθσ βάςθσ και των εργατϊν του. ταν αποκροφςει τθν επίκεςθ του αντιπάλου το ZCS ζχει μάκει ότι θ βζλτιςτθ δράςθ που μπορεί να λάβει είναι

81 ZCS4RTS Συςτήματα Ελέγχου Ταξινομητών ςε Παιχνίδια Στρατηγικήσ 70 να διατάξει τουσ ςτρατιϊτεσ του να αντεπιτεκοφν ι να εξερευνιςουν το περιβάλλον, και ζτςι οδθγείται ςτθν νίκθ.

82 ZCS4RTS Συςτήματα Ελέγχου Ταξινομητών ςε Παιχνίδια Στρατηγικήσ 71 5 Συμπερϊςματα Μελλοντικϋσ Επεκτϊςεισ 5.1 Συμπερϊςματα Από τα παραπάνω φαίνεται ότι θ χριςθ ZCS ωσ μζκοδοσ εκμάκθςθσ από ζναν πράκτορα ο οποίοσ αντιμετωπίηει το πλιρεσ πρόβλθμα ενόσ ΣΥΣΧ μπορεί να οδθγιςει ςτθν δθμιουργία αποτελεςματικϊν τακτικϊν ακόμα όταν θ μοντελοποίθςθ του περιβάλλοντοσ είναι απλοποιθμζνθ. Ρ πράκτοράσ μασ απζναντι ςε ζναν ςτατικό αντίπαλο, αλλά ςε ζνα διαρκϊσ μεταβαλλόμενο περιβάλλον όςο αφορά τισ αρχικοποίθςθ του πεδίου μάχθσ, είχε ςτακερι απόδοςθ κατά τθν διάρκεια των πειραμάτων και θ ςτρατθγικι που αυτόσ ανζπτυξε δεν επθρεάςτθκε από τθν αρχικοποίθςθ του ςυνόλου των ταξινομθτϊν που ζγινε πριν από κάκε πείραμα. Απζναντι ςε ζναν αντίπαλο που εκτελεί γριγορεσ επικζςεισ ο πράκτοράσ μασ ζμακε να περιμζνει να αποκροφει τισ επικζςεισ και να αντεπιτίκεται. Η ςτρατθγικι αυτι κα αποτελοφςε πρόκλθςθ και ςίγουρα κα ζκετε δυςκολίεσ ςε ζναν παίκτθ που κα προςπακοφςε να νικιςει τον πράκτορά μασ χρθςιμοποιϊντασ γριγορεσ επικζςεισ. Υε ςχζςθ με τον πράκτορα που χρθςιμοποιεί τον αλγόρικμο SARSA για τθν εκπαίδευςθ του, ο πράκτοράσ μασ κατάφερε να ζχει υψθλότερθ κατά μζςο όρο ανταμοιβι. Ρ πράκτορασ που χρθςιμοποιεί SARSA μπορεί να πζτυχε υψθλότερθ ανταμοιβι κατά τθν διάρκεια ενόσ πειράματοσ αλλά παρουςίαςε ςθμαντικζσ διαφοροποιιςεισ ςτθν απόδοςι του. Ρι προςπάκειεσ που ζγιναν για περαιτζρω αφξθςθ τθσ ανταμοιβισ μζςω τθσ εφαρμογισ ιχνϊν επιλεξιμότθτασ και εικονικισ ανταμοιβισ δεν είχαν τα αναμενόμενα αποτελζςματα. Υε αυτό το γεγονόσ ςυνετζλεςαν οι κανόνεσ διεξαγωγισ των πειραμάτων οι οποίοι όριηαν ότι ςε κάκε επειςόδιο οι αρχικζσ κζςεισ των δφο αντιπάλων και των αποκεμάτων πόρων επιλζγονται

83 ZCS4RTS Συςτήματα Ελέγχου Ταξινομητών ςε Παιχνίδια Στρατηγικήσ 72 τυχαία. Κςωσ οι δφο αυτζσ μζκοδοι να είχαν καλφτερα αποτελζςματα ςε ζνα περιβάλλον που κα ζδινε ςε κάκε επειςόδιο ίςεσ πικανότθτεσ για νίκθ ςε κάκε αντίπαλθ πλευρά Μελλοντικϋσ Επεκτϊςεισ Θα ζχει ενδιαφζρον να εκπαιδευτεί ο ςυγκεκριμζνοσ πράκτορασ ςε ζνα περιβάλλον το οποίο δεν κα αρχικοποιείται ςε κάκε επειςόδιο και το οποίο κα δίνει ίςεσ πικανότθτεσ ςτισ δφο αντίπαλεσ πλευρζσ. Για να γίνει αυτό κα πρζπει θ αρχικι κζςθ των δφο αντιπάλων να είναι ςχετικά απομακρυςμζνθ και τα αποκζματα πόρων να είναι τοποκετθμζνο ςε προκακοριςμζνεσ αποςτάςεισ από τθν κάκε βάςθ όπωσ ςυμβαίνει και ςτα εμπορικά παιχνίδια. Υε ζνα τζτοιο περιβάλλον κα μποροφμε να ζχουμε μια καλφτερθ εικόνα για τον ρυκμό εκμάκθςθσ του πράκτορα και πικανόν να λάβουμε καλφτερα αποτελζςματα αν χρθςιμοποιιςουμε μεκόδουσ βελτίωςθσ τθσ απόδοςθσ του πράκτορα όπωσ ίχνθ επιλεξιμότθτασ ι εικονικι ανταμοιβι. Θα ζχει επίςθσ ενδιαφζρον να κζςουμε τον πράκτορα αντιμζτωπο με αντιπάλουσ που χρθςιμοποιοφν διαφορετικζσ ςτρατθγικζσ. Ξε αυτό τον τρόπο κα αποκτιςουμε μια καλφτερθ εικόνα για τθν προςαρμοςτικότθτα των ZCS. Αξίηει επίςθσ να κζςουμε τον πράκτορα αντίπαλο με τον εαυτό του δίνοντασ ςτθ δυνατότθτα ςτουσ δφο πράκτορεσ να εκπαιδεφονται εναλλάξ. Αν και ςε αυτι τθν περίπτωςθ δεν κα μποροφμε να λάβουμε αξιόπιςτα αρικμθτικά δεδομζνα, κακϊσ δε κα ζχουμε κάποιο μζτρο ςφγκριςθσ, κα ζχει ενδιαφζρον να παρατθριςουμε το πϊσ κα ανταπαντάει ο ζνασ πράκτορασ ςτθν ςτρατθγικι που κα αναπτφςςει ο αντίπαλοσ. Φζλοσ κα μποροφςαμε να εφαρμόςουμε ZCS ςε μία κάποιο πιο πολφπλοκο ΣΥΣΧ το οποίο κα περιλαμβάνει περιςςότερα είδθ μονάδων και περιςςότερα κτιρια. Βζβαια ςε μια τζτοια περίπτωςθ κα χρειαςτεί να γίνουν αλλαγζσ ςτο τρόπο με τον οποίο μοντελοποιοφν οι ταξινομθτζσ το περιβάλλον του πράκτορα.

84 ZCS4RTS Συςτήματα Ελέγχου Ταξινομητών ςε Παιχνίδια Στρατηγικήσ 73 Βιβλιογραφύα [Bel + 57] R. E. Bellman. Dynamic Programming. Princeton University Press,Princeton, NJ [BGH + 89] L. Booker, D.E. Goldberg, and J.H. Holland. Classifier Systems and Genetic Algorithms. Artificial Intelligence, 40(1-3): , 1989 [Cor + 00] [FGr + 96] [FRo + 03] [GKG + 03] V. Corruble. AI approaches to developing strategies for war-game type simulations. AAAI Fall Symposium on Simulation Human Agents, Cape Cod, USA, S. Franklin, A, Graesser. Is it an Agent, or just a Program?: A Taxonomy for Autonomous Agents. Institute for Intelligent Systems, University of Memphis, W.J. Falke II, P. Rose. Dynamic Strategies in a Real-Time Strategy Game. Genetic and Evolutionary Computation GECCO 2003, Springer Berlin, 2003 C. Guestrin, D. Koller, C. GearHart και N. Kanodia. Generalizing Plans to New Environments in Relational MPDs. In Proceeding of Eighteenth International Joint Conference on Artificial Intelligence (IJCAI-03), San Francisco: Morgan Kaufmann Publishers [Gol + 04] J. Gold. Object-Oriented Game Development, Addison-Wesley, Harrow, UK, 2004 [Hol + 75] [Lai + 01] [MCR + 04] J.H. Holland. Adaptation in Natural and Artificial Systems: An Introductory Analysis with Applications to Biology, Control, and Artificial Intelligence. University of Michigan Press, Ann Arbor, MI, 1975 J.E. Laird. It Knows What You re Going To Do: Adding Anticipation to a Quakebot, Proceedings of the Fifth International Conference on Autonomous Agents (eds. J.P. Muller et al.), ACM Press, Montreal, Canada, pp , 2001 C. Madeira, V. Corruble,G Ramalho και B. Ratitch. Βootstrapping the Learning Process for the Semi-automated Design of a Challenging Game AI. In Proceedings of the AAAI Workshop on Challenges in Game AI, San Jose, CA, USA

85 ZCS4RTS Συςτήματα Ελέγχου Ταξινομητών ςε Παιχνίδια Στρατηγικήσ 74 [MRL + 05] B.Marthi, S. Russel και D. Latham. Writing Stratagus-Playing Agents in Concurrent ALisp. Paper presented at the Workshop on Reasoning, Representation and Learning in Computer Games, IJCAI-05, Edinburgh, Scotland, 2005 [Nar + 04] A. Nareyek. AI in Computer Games. Queue 1 (10), 58-65, [PMG + 98] [PMS + 06] [Pon + 04] [Rab + 04] [RNo + 95] [SBa + 98] [SDR + 00] D. Poole, A.K. Mackworth, R. Goebel. Computational Intelligence: A logical approach. Oxford University Press, Oxford, UK, 1998 M. Ponsen, H. Munoz-Avilla, P. Spronck, D.W. Aha. Automatically Generating Game Tactics through Evolutionary Learning. AI Magazine V.27, No.3, pp.75-84, AAAI, 2006 M. Ponsen. Improving Adaptive AI with Evolutionary Learning, MSc Thesis, Delft University of Technology, 2004 S. Rabin. AI Game Programming Wisdom 2. Hingham, MA: Charles River Media, 2004 S. Russell, P. Norvig. Artificial Intelligence A Modern Approach. Prentice Hall, New Jersey, USA, 1995 R.S. Sutton, A.G. Barto. Reinforcement Learning: An Introduction. MIT Press, Cambridge, MA, 1998 R.E. Smith, B.A. Dike, B. Ravichandran, R.K. Mehra, A. El-Fallah. Classifier Systems In Combat: Two-Sided Learning of Maneuvers For Advanced Fighter Aircraft. Computer Methods in Applied Mechanics and Engineering, Elsevier [Sch + 01] J. Schaeffer, A Gamut of Games. AI Magazine, Vol 22, No. 3, pp.29-46, 2001 [SHe + 02] J. Schaeffer, H. van den Herik. Games, computers, and artificial intelligence. Artificial Intelligence, 134 (1-2):1-8 [Smi + 80] S.F. Smith. A Learning System Based on Genetic Algorithms. PhD thesis,department of Computer Science, University of Pittsburg, Pittsburg, MA [SSP + 04] [TWh + 09] P. Spronck, I. Sprinkhuizen-Kuyper και E. Postma. Online Adaptation of Game Opponent AI with Dynamic Scripting. International Journal of Intelligent Games and Simulation 3(1): 45-53, 2004 B.Tanner. A.White. RL-Glue: Language-Independent Software for Reinforcement- Learning Experiments. Journal of Machine Learning Research, 10(Sep): , 2009

86 ZCS4RTS Συςτήματα Ελέγχου Ταξινομητών ςε Παιχνίδια Στρατηγικήσ 75 [Wil + 94] S.W. Wilson, ZCS, a Zeroth level Classifier System. Evolutionary Computation, 1994 [URL1] Last Access: [URL2] Official Site for the RL international competition, Last Access: [URL3] [URL4] Official Site for the autonomous vehicle project of Stanford University, Last Access: Official Site of the University of East Anglia, Last Access: [URL5] Last Access:

87 Παρϊρτημα A. Ανϊλυςη πρϊκτορα RTSSarsa Ρ πράκτορασ RTSSarsa δθμιουργικθκε από τον Marc Lanctot ςτα πλαίςια του διαγωνιςμοφ RL- Competition του 2008 και ο κϊδικασ του μοιράηεται ελεφκερα με άδεια χριςθσ ελεφκερου λογιςμικοφ (GNU General Public License). Φο γενικό ςχιμα λειτουργίασ του παρουςιάηεται ςτο Υχιμα Α.1. Σχήμα Α.1:Δομή πράκτορα RTSSarsa Ρ πράκτορασ των εργατϊν, οι ςυναρτιςεισ που είναι υπεφκυνεσ για τθν επικοινωνία του πράκτορα με τθν πλατφόρμα του RL-Glue, κακϊσ και αυτζσ που αναλαμβάνουν τθν μετάφραςθ των αποφάςεων που λαμβάνει ο πράκτορασ ςε κινιςεισ των μονάδων μζςα ςτο

88 ZCS4RTS Συςτήματα Ελέγχου Ταξινομητών ςε Παιχνίδια Στρατηγικήσ 77 περιβάλλον του παιχνιδιοφ ζχουν χρθςιμοποιθκεί και ςτον πράκτορα που χρθςιμοποιεί ZCS και θ λειτουργία τουσ ζχει περιγραφεί ςτο Μεφάλαιο 3. Η διαφορά των δφο πρακτόρων εντοπίηεται ςτον τρόπο που μοντελοποιοφν το περιβάλλον κακϊσ και ςτο ςφςτθμα εκμάκθςθσ που ο κακζνασ χρθςιμοποιεί. Ρ πράκτορασ RTSSarsa χρθςιμοποιεί διαφορετικι μοντελοποίθςθ του περιβάλλοντοσ για τθν βάςθ και για τουσ ςτρατιϊτεσ. Για τον οριςμό τθσ κατάςταςθσ s που χρθςιμοποιείται από τον αλγόρικμο SARSA τθσ βάςθσ ο πράκτορασ χρθςιμοποιεί ζνα διάνυςμα χωριςμζνο ςε 2 μζρθ. Φο πρϊτο μζροσ αποτελείται από 12 δυφία και αναπαριςτά τον αρικμό των εργατϊν που ζχει ςτθ διάκεςι του ο πράκτορασ, ενϊ το δεφτερο τμιμα αποτελείται από 14 δυφία και αναπαριςτά των αρικμό των ςτρατιωτϊν. Σχήμα Α.2: Διάνυςμα μοντελοποίηςησ περιβάλλοντοσ για τον Sarsa Βάςησ Υε κάκε τμιμα του διανφςματοσ μόνο ζνα δυφίο μπορεί να ζχει τθν τιμι 1 κάκε ςτιγμι ενϊ όλεσ οι υπόλοιπεσ παίρνουν τθν τιμι 0. Η κζςθ του δυφίου που ζχει τθν τιμι 1 υποδθλϊνει το πλικοσ των εργατϊν ι ςτρατιωτϊν που ζχει ςτθ διάκεςθ του ο πράκτορασ τθν δεδομζνθ χρονικι ςτιγμι και παρουςιάηεται ςτο Υχιμα Α.2. Ρ πράκτορασ τθσ βάςθσ χρθςιμοποιεί τθν πλθροφορία του διανφςματοσ για να λάβει μια από τισ δφο δυνατζσ αποφάςεισ που είναι θ δθμιουργία εργάτθ ι ςτρατιϊτθ. Ρ πράκτορασ των ςτρατιωτϊν χρθςιμοποιεί ζνα αντίςτοιχο διάνυςμα για τθν μοντελοποίθςθ του περιβάλλοντοσ και για κάκε ςτρατιϊτθ που δθμιουργείται του δίνει μία από τισ εξισ εντολζσ: 1. Σροςταςία Βάςθσ 2. Σροςταςία Αποκζματοσ πόρων 3. Επίκεςθ 4. Εξερεφνθςθ Σεριβάλλοντοσ 5. Αψιμαχία 6. Ξείνε ακίνθτοσ

89 ZCS4RTS Συςτήματα Ελέγχου Ταξινομητών ςε Παιχνίδια Στρατηγικήσ 78 Ρι πζντε πρϊτεσ εντολζσ υλοποιοφνται με τον ίδιο τρόπο και ςτον πράκτορα που χρθςιμοποιεί ZCS με μόνθ διαφορά ότι εδϊ διαχωρίηεται θ εξερεφνθςθ από τθν αψιμαχία. Η ζκτθ εντολι διατάηει ζναν ςτρατιϊτθ να μείνει ακίνθτοσ ςε ζνα ςυγκεκριμζνο ςθμείο. Φο διάνυςμα μοντελοποίθςθσ του περιβάλλοντοσ που χρθςιμοποιεί ο πράκτορασ για να ανακζςει εντολζσ ςτουσ ςτρατιϊτεσ του παρουςιάηεται ςτο Υχιμα Α.3. Σχήμα Α.3: Διάνυςμα μοντελοποίηςησ διανφςματοσ για τον Sarsa ςτρατιωτϊν Φα ζξι πρϊτα τμιματα αναπαριςτοφν τον αρικμό των ςτρατιωτϊν που εκτελοφν το κάκε ζνα από τα κακικοντα που μποροφν να τουσ ανατεκοφν (προςταςία βάςθσ, επίκεςθ κτλ.). Φο ζβδομο τμιμα αναπαριςτά το πλικοσ των αντίπαλων ςτρατιωτϊν, ενϊ το τελευταίο τμιμα ενθμερϊνει τον πράκτορα για το αν ζχουμε ανακαλφψει τθν βάςθ του αντιπάλου. πωσ και ςτο διάνυςμα τθσ βάςθσ, ζτςι κι εδϊ, ςε κάκε τμιμα μπορεί να ζχει τθν τιμι 1 μόνο ζνα δυφίο, θ κζςθ του οποίου πλθροφορεί τον πράκτορα για το πλικοσ των μονάδων που αναπαριςτϊνται ςτο κάκε τμιμα. Οα ςθμειϊςουμε εδϊ, ότι ο πράκτορασ δεν χρθςιμοποιεί κάποια μζκοδο εκτίμθςθσ του πλικουσ του αντιπάλου. Αυτό ςθμαίνει ότι ο αρικμόσ των αντίπαλων ςτρατιωτϊν ιςοφται, για τον πράκτορα, με τον αρικμό των ςτρατιωτϊν που βλζπουν κάκε ςτιγμι οι μονάδεσ του. Ξε βάςθ τα διανφςματα καταςτάςεων και τισ δράςεισ που περιγράψαμε δθμιουργείται για κάκε πράκτορα ζνασ πίνακασ καταςτάςεων-δράςεων s, a που ζχει ωσ τιμζσ τισ τιμζσ τθσ ςυνάρτθςθσ αξίασ δράςθσ Q(s, a) για κάκε ςυνδυαςμό κατάςταςθσ δράςθσ. Ζτςι ο κάκε πράκτορασ υλοποιεί τον αλγόρικμο SARSA και τον χρθςιμοποιεί για τθν μεγιςτοποίθςθ των τιμϊν τθσ ςυνάρτθςθσ αξίασ δράςθσ Q(s, a). Ρ αλγόρικμοσ SARSA δίνεται ςτο Σλαίςιο 6.

Δείτε περισσότερα