νάπτυξη Αυτόνομου Πράκτορα Λογισμικού για το Texas ld'em με χρήση Νευρωνικών Δικτύων

Transcript

1 ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ Εργαστήριο Επεξεργασίας Πληροφορίας και Υπολογισμών νάπτυξη Αυτόνομου Πράκτορα Λογισμικού για το Texas H ld'em με χρήση Νευρωνικών Δικτύων Διπλωματική εργασία του Μελαδιανού Πολύκαρπου ΑΕΜ: 6402 Υπό την επίβλεψη του Καθηγητή κ. Περικλή Α. Μήτκα Θεσσαλονίκη, Απρίλιος 2013

2 Ευχαριστίες Στο σημείο αυτό θα ήθελα να ευχαριστήσω τον καθηγητή κ. Περικλή Μήτκα για την εμπιστοσύνη που μου έδειξε αναθέτοντάς μου αυτήν την διπλωματική εργασία και για την επίβλεψη της εκπόνησής της. Επίσης, θα ήθελα να τον ευχαριστήσω για την μετάδοση όλων των γνώσεων μέσα από τα μαθήματά του που είχα την ευκαιρία να παρακολουθήσω. Ιδιαιτέρως θα ήθελα να ευχαριστήσω τον διδάκτορα κ. Κυριάκο Χατζηδημητρίου για την καθοδήγηση που μου προσέφερε καθ' όλη την διάρκεια της ενασχόλησής μου με την διπλωματική εργασία καθώς και την άριστη συνεργασία μας. Τέλος, θα ήθελα να ευχαριστήσω την οικογένειά μου και τους φίλους μου που μου συμπαραστάθηκαν όλο αυτό το διάστημα. ii

3 Σύνοψη Το Texas Hold'em είναι σήμερα αδιαμφισβήτητα η πιο δημοφιλής παραλλαγή του παιχνιδιού Poker παγκοσμίως. Τα τελευταία χρόνια αποτελεί επιπλέον και ένα πεδίο δοκιμών για την έρευνα της τεχνητής νοημοσύνης. Η πρόκληση που προσφέρει λόγω της στοχαστικότητας, της μερικής γνώσης του περιβάλλοντος, του μεγάλου αριθμού καταστάσεων αλλά και της παραπλάνησης του αντιπάλου, το καθιστά ως ένα από τα πλέον ενδιαφέροντα παιχνίδια. Το αντικείμενο της διπλωματικής εργασίας είναι η ανάπτυξη ενός πράκτορα λογισμικού για το παιχνίδι Head's up Limit Texas Hold'em. Για την ανάπτυξή του χρησιμοποιήθηκαν τεχνικές Ενισχυτικής Μάθησης με τις οποίες ο πράκτορας μαθαίνει λαμβάνοντας αμοιβές από το περιβάλλον του. Για την υλοποίησή του χρησιμοποιήθηκαν νευρωνικά δίκτυα που εκπαιδεύθηκαν χρησιμοποιώντας δεδομένα από το ιστορικό των παιχνιδιών άλλων πρακτόρων του διαγωνισμού Annual Computer Poker Competition. Ο πράκτορας αξιολογήθηκε απέναντι σε μια σειρά τυποποιημένων αντιπάλων με θετικά συμπεράσματα. Μελαδιανός Πολύκαρπος Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης iii

4 Diploma Thesis Title Development of an Autonomous Software Agent for Texas Hold'em using Neural Networks Abstract Texas Hold'em is today undoubtedly the most popular variant of Poker game worldwide. In recent years and it also became a testing ground for the research of artificial intelligence. The challenge offered by the stochasticity, partial knowledge of the environment, the large number of states and the mislead the opponent, makes it one of the most interesting games. The object of this thesis is to develop a software agent for playing Head's up Limit Texas Hold'em. For the development reinforcement learning techniques were used, with which the agent learns by taking rewards from its environment. For the implementation neural networks were trained using data from the game history of other agents that participated in the Annual Computer Poker Competition. The agent was evaluated against a standard set of opponents with positive conclusions. Meladianos Polykarpos pmeladia@auth.gr Department of Electrical and Computer Engineering Aristotle University of Thessaloniki iv

5 Κατάλογος περιεχομένων Ευχαριστίες...ii Σύνοψη...iii Abstract...iv Κατάλογος περιεχομένων...v Κατάλογος Σχημάτων...vii Κατάλογος Πινάκων...ix Κεφάλαιο 1: Εισαγωγή 1.1 Περιγραφή του προβλήματος Στόχοι της Διπλωματικής Μεθοδολογία Οργάνωση της Διπλωματικής...16 Κεφάλαιο 2: Θεωρητικό Υπόβαθρο 2.1 Εισαγωγή Τύποι στρατηγικών Γνωστοί πράκτορες Poker Νευρωνικά Δίκτυα Η έννοια του τεχνητού νευρωνικού δικτύου Μοντέλο Τεχνητού Νευρώνα Αρχιτεκτονικές Νευρωνικών δικτύων Εκπαίδευση Νευρωνικών Δικτύων Ταμιευτήρια υπολογισμών Δίκτυα Ηχωικών Καταστάσεων και Ενισχυτική Μάθηση Κατάβαση πλαγιάς Το Περιβάλλον που Χρησιμοποιήθηκε Η πλατφόρμα του Annual Computer Poker Competition Η διεπαφή Meerkat API...40 v

6 Κεφάλαιο 3: Μεθοδολογία ανάπτυξης του πράκτορα 3.1 Εισαγωγή Η στρατηγική Preflop Τα Χαρακτηριστικά του Περιβάλλοντος Δύναμη του φύλλου (Hand strength) Chen formula Δυνατότητα του φύλλου (Hand potential) Απόδοση pot (Pots odds) Υπόλοιπα χαρακτηριστικά Εκπαίδευση ΔΗΚ και επιλογή ενέργειας Softmax Κανόνες ειδικού και Κανόνες καλής συμπεριφοράς...60 Κεφάλαιο 4: Πειράματα και Αποτελέσματα 4.1 Εισαγωγή Δημιουργία και επιλογή του Training Set Επιλογή παραμέτρων ΔΗΚ Η επιλογή των παραμέτρων του υποσυστήματος που βασίζεται σε κανόνες ειδικού...71 Κεφάλαιο 5: Συμπεράσματα και μελλοντικές επεκτάσεις 5.1 Συμπεράσματα Μελλοντικές Επεκτάσεις...74 Βιβλιογραφία...75 vi

7 Κατάλογος Σχημάτων Σχήμα 1.1: Η κατάταξη των φύλλων και παραδείγματα σε φθίνουσα σειρά κατάταξης...14 Σχήμα 2.1: Μοντέλο τεχνητού νευρώνα...24 Σχήμα 2.2: Γραφικές παραστάσεις συναρτήσεων ενεργοποίησης...25 Σχήμα 2.3: Μονοστρωματικό ΝΔ εμπροσοτροφοδότησης...26 Σχήμα 2.4: Πολυστρωματικό ΝΔ εμπροσοτροφοδότησης...27 Σχήμα 2.5: Αρχιτεκτονική ενός Τεχνητού Νευρωνικού Δικτύου με Ανατροφοδότηση...28 Σχήμα 2.6: Δομή της επιβλεπόμενης μάθησης...29 Σχήμα 2.7: Τυπικό Δίκτυο Ηχωικών Καταστάσεων Σχήμα 2.8: Κατάβαση πλαγιάς...35 Σχήμα 2.9: Παράδειγμα μίας αλληλουχίας μηνυμάτων...38 Σχήμα 3.1: Αρχιτεκτονική του πράκτορα TiltNet...42 Σχήμα 3.2: Στρατηγική Preflop για την περίπτωση Small Blind...44 Σχήμα 3.3: To χαρακτηριστικό διάνυσμα καταστάσεων...45 Σχήμα 3.4: Υπολογισμός του Hand Strength...46 Σχήμα 3.5: Ο πίνακας των Malmuth και Sklansky...48 Σχήμα 3.6: Chen Formula...51 Σχήμα 3.7: Οι περιπτώσεις εξέλιξης της παρτίδας 4hJc/6c 3h 5h...53 Σχήμα 3.8: Υπολογισμός του Hand Potential...55 Σχήμα 3.9: Παράδειγμα χαρακτηριστικού διανύσματος καταστάσεων...58 Σχήμα 3.10: Κανόνες καλής συμπεριφοράς...63 Σχήμα 4.1: Διαδικασία εκτέλεσης των πειραμάτων...64 vii

8 Σχήμα 4.2 α,β: Σύγκριση της επίδοσης δύο παιχτών που εκπαιδεύθηκαν με διαφορετικά δεδομένα...68 Σχήμα 4.3: Μέσο τετραγωνικό σφάλμα πρόβλεψης της αξίας μίας ενέργειας κατα τη διαδικασία της εκπαίδευσης ενός ΔΗΚ viii

9 Κατάλογος Πινάκων Πίνακας 2.1: Αλγόριθμος στοχαστικής κατάβασης πλαγιάς...37 Πίνακας 2.2: Οι βασικές κλάσεις του Meerkat API...40 Πίνακας 3.1: Ο αλγόριθμος προσαρμογής των βαρών του νευρωνικού δικτύου...59 Πίνακας 3.2: Παράδειγμα SemiBluff για το Flop...61 Πίνακας 4.1: Αποτελέσματα των πειραμάτων απέναντι στον αντίπαλο Random...66 Πίνακας 4.2: Αποτελέσματα των πειραμάτων για την επιλογή του σετ δεδομένων...67 Πίνακας 4.3: Αποτελέσματα των πειραμάτων για την επιλογή παραμέτρων ΔΗΚ...70 Πίνακας 4.4: Αποτελέσματα των πειραμάτων για τη σύγκριση της επίδοσης των πρακτόρων...71 Πίνακας 4.4: Αποτελέσματα των πειραμάτων για τη σύγκριση της επίδοσης με και χωρίς το σύστημα κανόνων ειδικού...72 ix

10 ΚΕΦΑΛΑΙΟ 1: Εισαγωγή Κεφάλαιο 1 Εισαγωγή Ο όρος τεχνητή νοημοσύνη αναφέρεται στον κλάδο της επιστήμης υπολογιστών ο οποίος ασχολείται με τη σχεδίαση και την υλοποίηση υπολογιστικών συστημάτων που μιμούνται στοιχεία της ανθρώπινης συμπεριφοράς τα οποία υπονοούν έστω και στοιχειώδη ευφυΐα: μάθηση, προσαρμοστικότητα, εξαγωγή συμπερασμάτων, κατανόηση από συμφραζόμενα, επίλυση προβλημάτων. Ο John McCarthy όρισε τον τομέα αυτόν ως «επιστήμη και μεθοδολογία της δημιουργίας νοούντων μηχανών». Η τεχνητή νοημοσύνη αποτελεί σημείο τομής μεταξύ πολλών πεδίων όπως της επιστήμης υπολογιστών, της ψυχολογίας, της φιλοσοφίας, της νευρολογίας, της γλωσσολογίας και της επιστήμης μηχανικών, με στόχο όχι μόνο τη κατανόηση αλλά και τη σύνθεση ευφυούς συμπεριφοράς, με στοιχεία συλλογιστικής, μάθησης και προσαρμογής στο περιβάλλον. Αυτές οι νοήμονες οντότητες ονομάζονται ευφυείς πράκτορες. Οι πράκτορες είναι υπολογιστικά συστήματα που δρουν σε ένα πολύπλοκο περιβάλλον, αντιλαμβάνονται και δρουν αυτόνομα πάνω σε αυτό, πετυχαίνοντας έτσι ένα σύνολο από στόχους για τους οποίους έχουν κατασκευαστεί [ΜS95]. Σε αυτήν την προσέγγιση της τεχνητής νοημοσύνης, μας ενδιαφέρει ο πράκτορας να είναι ορθολογικός (rational) δηλαδή πρέπει, ιδανικά, να ενεργεί έτσι ώστε να επιτυγχάνει το καλύτερο αποτέλεσμα ή, όταν υπάρχει αβεβαιότητα, το καλύτερο αναμενόμενο αποτέλεσμα. Τα παιχνίδια αποτελούν μια περιοχή έρευνας της τεχνητής νοημοσύνης ήδη από την εμφάνισή της. Αποτελούν ένα ιδανικό πεδίο για έρευνα καθώς είναι καλά ορισμένα και έχουν ξεκάθαρους κανόνες. Ένα επιπλέον πλεονέκτημα τους είναι το έμφυτο σύστημα μέτρησης της απόδοσης που μπορεί να είναι είτε μία επιβράβευση με μία νίκη ή ήττα (π.χ. σκάκι) είτε με ένα ποσό πόντων (π.χ. poker).το συμπαγές πλαίσιο του προβλήματος που δημιουργούν δίνει την δυνατότητα στους ερευνητές να δοκιμάζουν ιδέες και να αξιολογήσουν εύκολα τα αποτελέσματα τους. Ακόμη ένας 10

11 ΚΕΦΑΛΑΙΟ 1: Εισαγωγή λόγος είναι ότι τα παιχνίδια αποτελούν ένα πολύ πιο φιλικό και ευχάριστο περιβάλλον εργασίας για τον ερευνητή στο οποίο πρόκειται να αφιερώσει αρκετές ώρες δουλειάς. Η θεωρία παιγνίων κατατάσσει τα παιχνίδια που ενδιαφέρουν την έρευνα σε διάφορες κατηγορίες. Μια κατάταξη γίνεται ανάλογα με το αν είναι διαθέσιμη η κατάσταση του παιχνιδιού στους παίκτες. Αν ολόκληρη η κατάσταση του παιχνιδιού είναι διαθέσιμη σε όλους τους παίκτες τότε είναι ένα παιχνίδι τέλειας πληροφόρησης (perfect information). Για παράδειγμα, το σκάκι είναι παιχνίδι τέλειας πληροφόρησης, αφού μπορεί ο κάθε παίκτης κοιτώντας την σκακιέρα να έχει όλες τις πληροφορίες για την κατάσταση του παιχνιδιού. Αντίθετα παιχνίδια όπως το πόκερ ονομάζονται μη-τέλειας πληροφόρησης, γιατί ο κάθε παίχτης κρατάει κρυφά τα φύλλα του. Μια άλλη κατάταξη των παιχνιδιών γίνεται με βάση την ύπαρξη στοχαστικότητας σε αιτιοκρατικά (deterministic) και μη-αιτιοκρατικά (nondeterministic) παιχνίδια. Στο σκάκι δεν υπάρχει καθόλου στοχαστικότητα, είναι δηλαδή ένα αιτιοκρατικό παιχνίδι. Αντίθετα, το τάβλι είναι μη- αιτιοκρατικό, αφού το ρίξιμο του ζαριού εισάγει τυχαιότητα στο παιχνίδι. Η έρευνα του Samuel [SAM81] στο παιχνίδι της Ντάμας και άλλων σύγχρονών του ερευνητών όπως ο Shannon [SH50] στο σκάκι έβαλαν τα θεμέλια της κοινής πορείας της έρευνας της τεχνητής νοημοσύνης με τα παιχνίδια. Στα 60 περίπου χρόνια που έχουν μεσολαβήσει από τα πρώτα βήματα της έρευνας στον τομέα της τεχνητής νοημοσύνης, οι ερευνητές έχουν αναπτύξει μία πληθώρα τεχνικών στην προσπάθεια τους να δημιουργήσουν έξυπνα προγράμματα τα οποία να είναι σε θέση να παίξουν ανταγωνιστικά παιχνίδια στρατηγικής και σε ορισμένες περιπτώσεις έχουν καταφέρει να ανταγωνιστούν και να νικήσουν τους ανθρώπους πρωταθλητές αρκετών παιχνιδιών. Στη δεκαετία του 1990 η IBM, πρώτα με το Deep Though και στη συνέχεια με το Deep Blue, επένδυσε πολύ προσπάθεια για να δημιουργήσει ένα πρόγραμμα που θα νικήσει τους καλύτερους σκακιστές του κόσμου. Ο στόχος επιτεύχθηκε όταν ο Deep Blue κέρδισε τον τότε πρωταθλητή σε μία σειρά αγώνων και η τεχνητή νοημοσύνη απέκτησε δημοσιότητα στο ευρύ κοινό. Το μειονέκτημα των προσπαθειών όπως αυτή του Deep Blue είναι ότι οι ικανότητες του συστήματος βασίζονται στην ικανότητα των προγραμματιστών του να ορίσουν αλγορίθμους για το συγκεκριμένο παιχνίδι και στη δυνατότητα του ειδικά σχεδιασμένου hardware στην 11

12 ΚΕΦΑΛΑΙΟ 1: Εισαγωγή προσπάθεια διερεύνησης του δένδρου καταστάσεων. Το σύστημα δεν μαθαίνει κάτι εμπειρικά. Το 1998 ο Sutton διατύπωσε τη μέθοδο TD(λ) για τη Μάθηση χρονικών διαφορών (Temporal Difference Learning) [SB98]. Η πιο χαρακτηριστική επιτυχία της μεθόδου TD(λ) είναι το TD Gammon για το παιχνίδι τάβλι που υλοποιήθηκε από τον Tesauro [TES95]. Χρησιμοποιώντας τεχνικές της ενισχυτικής μάθησης (Reinforcement Learning) και ύστερα από 1,5 εκατομμύρια παιχνίδια με τον εαυτό του το TD-Gammon κατάφερε, όχι μόνο να έχει φτάσει σε επίπεδο ανάλογο των πρωταθλητών στο τάβλι, αλλά να κάνει γνωστές νέες στρατηγικές για κινήσεις στο ξεκίνημα του παιχνιδιού. Το παιχνίδι του πόκερ αποτελεί ένα ιδανικό πρόβλημα αναφοράς για τη δημιουργία μηχανισμών λήψεων αποφάσεων στον πραγματικό κόσμο, καθώς είναι ένα παιχνίδι μη πλήρους πληροφόρησης (imperfect/partial information), στοχαστικό, με πολλούς πράκτορες (multi-player/multi-agent), στο οποίο οι πράκτορες πρέπει να κάνουν διαχείριση ρίσκου (risk management) και να αναγνωρίσουν τακτικές παιχνιδιού και να εξαπατήσουν τον αντίπαλο. 1.1 Περιγραφή του προβλήματος Το πόκερ είναι ένα από τα πιο διάσημα παιχνίδια με τράπουλα της εποχής μας με πάρα πολλούς θαυμαστές και παίκτες παγκοσμίως. Μπορούν να παίξουν από 2 έως 10 παίκτες σε ένα τραπέζι ή απεριόριστος αριθμός παικτών σε τουρνουά με πολλαπλά τραπέζια. Ως όρος το πόκερ δεν εννοείται ένα συγκεκριμένο παιχνίδι, αλλά υπάρχουν πολλές παραλλαγές του πόκερ. Οι τέσσερις πιο γνωστές παραλλαγές του Texas Hold'em διαχωρίζονται από τα όρια πονταρίσματος: Limit Texas Hold'em: Σύμφωνα με αυτό τον τύπο του παιχνιδιού το ύψος του πονταρίσματος καθορίζεται από το ποσό το οποίο έχει προσυμφωνηθεί μεταξύ των παικτών πριν ξεκινήσει η παρτίδα. Κατά την διάρκεια της παρτίδας το ποσό το οποίο ποντάρουν οι παίκτες δεν θα πρέπει να είναι μεγαλύτερο ή μικρότερο από αυτό το οποίο έχει προαποφασιστεί. Ο παίκτης μπορεί να ποντάρει 4 φορές: bet, raise, re-raise και το τελευταίο raise γνωστό ως cap. 12

13 ΚΕΦΑΛΑΙΟ 1: Εισαγωγή No Limit Texas Hold'em: Στο No Limit Texas Holdem ένας παίκτης μπορεί να ποντάρει όσες μάρκες και αν έχει μπροστά του. Έτσι ανά πάσα στιγμή μπορεί να αυξήσει το ποσό που ποντάρει και να αυξήσει το συνολικό στοίχημα σε μια παρτίδα. Οι υπόλοιποι παίκτες για να ακολουθήσουν θα πρέπει να ποντάρουν συνολικά- το ίδιο ακριβώς ποσό με αυτό που έχει ποντάρει ο παίκτης που αύξησε το ποντάρισμα (raise). Πρέπει να σημειωθεί ότι ένας παίκτης μπορεί να αυξήσει το ποντάρισμα όσες φορές θέλει. Pot Limit Texas Hold'em: Σε αντίθεση με το Νο Limit, στο Pot Limit Texas Holdem υπάρχουν συγκεκριμένα όρια στο παιχνίδι. Το ελάχιστο επιτρεπτό ποντάρισμα ισούται με το μέγεθος του big blind, ενώ οι παίκτες μπορούν να ποντάρουν μέχρι και το ποσό που βρίσκεται στο pot. Το γεγονός ότι υπάρχουν αυτά τα όρια κάνουν το παιχνίδι να κρατάει περισσότερο σε διάρκεια και πολλοί παίκτες το προτιμούν. Mixed Texas Hold'em: Το παιχνίδι εναλλάσσεται μεταξύ γύρων με όρους από το Limit Texas Hold'em και από το No Limit Texas Hold'em. Οι γύροι και τα πονταρίσματα καθορίζονται από τους παίκτες πριν ξεκινήσει το παιχνίδι. Το παιχνίδι χρησιμοποιεί την κλασική τράπουλα των πενήντα δύο φύλλων, η οποία περιέχει τέσσερα (4) χρώματα με δεκατρία (13) φύλλα το κάθε ένα. Τα χρώματα, και οι συμβολισμοί τους, είναι: τα σπαθιά [ ] (clubs), τα καρό [ ] (diamonds), τα μπαστούνια [ ] (spades) και οι κούπες [ ] (hearts). Κάθε χρώμα περιέχει τα παρακάτω φύλλα: άσο [A] (ace), παπά [K] (king), ντάμα [Q] (queen), βαλέ [J] (jack), δέκα [T] (ten), εννέα [9] (nine), οκτώ [8] (eight), επτά [7] (seven), έξι [6] (six), πέντε [5] (five), τέσσερα [4] (four), τρία [3] (three) και δύo [2] (two). 13

14 ΚΕΦΑΛΑΙΟ 1: Εισαγωγή Σχήμα 1.1: Η κατάταξη των φύλλων και παραδείγματα σε φθίνουσα σειρά κατάταξης. Η παραλλαγή με την οποία θα ασχοληθούμε είναι το limit heads-up Texas Hold em. Περισσότερες λεπτομέρειες για το πόκερ, τους κανόνες του και τους ορισμούς που χρησιμοποιούνται υπάρχουν στο κεφάλαιο Στόχοι της Διπλωματικής Σκοπός αυτής της διπλωματικής εργασίας είναι η μελέτη του πόκερ ως προβλήματος ΤΝ και η ανάπτυξη ενός ευφυούς πράκτορα για το παιχνίδι Texas hold'em ο οποίος θα υλοποιεί μια βασική στρατηγική. Για να το πετύχει αυτό θα πρέπει να πραγματοποιηθούν δυο επιμέρους στόχοι. 14

15 ΚΕΦΑΛΑΙΟ 1: Εισαγωγή Αξιολόγηση της παρτίδας: Κατ' αρχήν ο πράκτορας πρέπει να μπορεί να αξιολογεί την αξία του φύλλου σε όλους τους γύρους της παρτίδας. Η αξιολόγηση των φύλλων πρέπει να λαμβάνει υπ' όψιν όλα τα στοιχεία που εμφανίζονται σε ένα παιχνίδι όπως η δύναμη του φύλλου, οι δυνατότητες για βελτίωσή του, το μέγεθος του pot, το γύρο που βρίσκεται η παρτίδα κ.ά. Με βάση αυτά πρέπει να διαμορφώνει μία καλή στρατηγική παιχνιδιού. Μη-προβλεψιμότητα: Το απρόβλεπτο δίνει πλεονέκτημα σε ένα παίκτη πόκερ. Ένας πράκτορας που παίζει με βάση μία σταθερή στρατηγική είναι αδύναμος απέναντι σε έναν πράκτορα που μπορεί να μοντελοποιεί τον αντίπαλο. Μια σταθερή πολιτική θα έχει πάντα κάποιες αδυναμίες που μπορούν να ανακαλυφθούν από αντιπάλους. Αντίθετα, ένας παίκτης που παίζει, σε ένα βαθμό, απρόβλεπτα μπορεί να παραπλανήσει τον αντίπαλο του και να αυξήσει το κέρδος του. 1.3 Μεθοδολογία Στο σημείο αυτό, εφόσον έχουν αποσαφηνιστεί οι στόχοι και το θέμα της διπλωματικής, θα αναφερθούμε στην πορεία της εκπόνησης και την μεθοδολογία που ακολουθήθηκε. Η όλη πορεία μπορεί να χωριστεί σε τρία στάδια: ένα προπαρασκευαστικό στάδιο, ένα πρακτικό και ένα απολογιστικό συμπερασματικό. Φυσικά κανένα στάδιο δεν είναι αποκομμένο από τα υπόλοιπα ούτε η πορεία που ακολουθήθηκε είναι γραμμική. Σε κάθε στάδιο της ανάπτυξης μπορεί να υπήρχαν επιμέρους στάδια θεωρητικής προεργασίας καθώς και επαναξιολόγησης και τροποποίησης διαφόρων παραμέτρων. Κατά το πρώτο στάδιο έγινε μια θεωρητική προετοιμασία κατά την οποία μελετήθηκαν εργασίες και δημοσιεύσεις με θέματα που αφορούσαν διάφορες πτυχές των πρακτόρων πόκερ. Στην βιβλιογραφία υπάρχουν δεκάδες διαφορετικές υλοποιήσεις που διαφέρουν μεταξύ τους από μικρό σε μεγάλο βαθμό στους αλγόριθμους που χρησιμοποιούν για την υλοποίηση τους, όμως όλοι έχουν κάποια κοινά στοιχεία όπως τον τρόπο αποτύπωσης των χαρακτηριστικών του περιβάλλοντος. Ακόμη μελετήθηκε η πλατφόρμα του παιχνιδιού που παρέχει ο διαγωνισμός ACPC. Καθώς ο παίχτης εκπαιδεύεται αξιοποιώντας γνώση από παλαιότερα παιχνίδια παιχτών του διαγωνι- 15

16 ΚΕΦΑΛΑΙΟ 1: Εισαγωγή σμού έπρεπε να γίνουν κατανοητοί οι κανόνες καθώς και η δομή των αρχείων ιστορικού παιχνιδιών που διατηρεί ο server. Κατά το πρακτικό στάδιο αναπτύχθηκε το ευφυές υποσύστημα που υλοποιεί την Βασική Πολιτική (ΒΠ) του παιχνιδιού με την τεχνική της ενισχυτικής μάθησης (reinforcement learning) σε συνδυασμό με το υπολογιστικό μοντέλο των υπολογιστικών ταμιευτηρίων (reservoir computing) και ειδικότερα με τα Δίκτυα Ηχωικών Καταστάσεων (ΔΗΚ). Για την εκπαίδευση του ΔΗΚ χρησιμοποιήθηκαν προηγούμενα παιχνίδια του Annual Computer Poker Competition 2011 και Ο πράκτορας μαθαίνει μέσα από τις νίκες ή τις ήττες των παιχτών του διαγωνισμού και τα ποσά που κέρδισε ή έχασε ο κάθε ένας χωρίς να υπάρχει κάποια επίβλεψη. Εκπαιδεύτηκαν πολλοί πράκτορες με διαφορετικές παραμέτρους με στόχο να βελτιστοποιηθεί η απόδοση απέναντι σε διάφορους αντιπάλους. Στη συνέχεια προστέθηκε ένα σύστημα βασισμένο σε κανόνες ειδικού (rule based) το οποίο βελτιώνει τη συνολική συμπεριφορά του παίχτη, επιβάλει κάποιους κανόνες καλής συμπεριφοράς και υλοποιεί την στρατηγική στο preflop στάδιο του παιχνιδιού. Σαν τελικό στάδιο στην εκπόνηση της διπλωματικής εργασίας μπορούμε να ορίσουμε την αξιολόγηση και σύγκριση των πειραματικών αποτελεσμάτων. Εδώ έγινε η επιλογή του κατάλληλου συνδυασμού παραμέτρων τόσο στο ευφυές, όσο και στο στατικό rule-based υποσύστημα, έτσι ώστε να βελτιωθεί η απόδοση της πολιτικής και να εξασφαλιστεί η μη-προβλεψιμότητα της. Ακόμη, σε αυτό το στάδιο εντάσσεται και η συγγραφή του παρόντος κειμένου που έχει σαν στόχο την επιστημονική παρουσίαση του έργου. 1.4 Οργάνωση της Διπλωματικής Στο Κεφάλαιο 1 περιγράφεται αναλυτικά το πρόβλημα που καλείται να λύσει η παρούσα διπλωματική εργασία και δίνεται μια ιδέα για το πώς πρόκειται να λυθεί το πρόβλημα. Στα επόμενα κεφάλαια θα γίνει η εκτενέστερη και πληρέστερη παρουσίαση των επιμέρους θεμάτων που αφορούν την εργασία. Το Κεφάλαιο 2 περιλαμβάνει μια θεωρητική επεξήγηση των περιοχών της μηχανικής μάθησης και της υπολογιστικής ευφυΐας που χρησιμοποιήθηκαν για την ανάπτυξη του πράκτορα. Αρχικά περιγράφεται το παιχνίδι Texas Hold'em και οι 16

17 ΚΕΦΑΛΑΙΟ 1: Εισαγωγή κανόνες του. Στη συνέχεια γίνεται μια παρουσίαση των νευρωνικών δικτύων και περιγράφονται αναλυτικά τα Δίκτυα Ηχωικών Καταστάσεων (ΔΗΚ). Τέλος περιγράφεται ο αλγόριθμος κατάβασης πλαγιάς που χρησιμοποιείται για την εκπαίδευση του δικτύου. Στο κεφάλαιο 3 αναλύεται το περιβάλλον του πράκτορα, περιγράφεται η κωδικοποίησή του σε χαρακτηριστικά και επεξηγείται ο τρόπος που δίνονται οι αμοιβές στον πράκτορα. Επίσης, αναλύεται και πώς γίνεται η προσαρμογή των αλγορίθμων στο πρόβλημα του πόκερ και παρουσιάζεται η μεθοδολογία που χρησιμοποιήθηκε για την ανάπτυξη του πράκτορα. Στο κεφάλαιο 4 τα βήματα της ανάπτυξης δίνονται στην πράξη, παρουσιάζονται διαγράμματα από τα πειράματα που εκτελέστηκαν και επεξηγούνται τα αποτελέσματα από την αξιολόγηση του πράκτορα σε κάθε βήμα. Τέλος, στο κεφάλαιο 5, καταγράφονται τα συμπεράσματα της διπλωματικής και προτείνονται σκέψεις για μελλοντική εργασία πάνω στο πρόβλημα της ανάπτυξης αυτόνομων πρακτόρων για το πόκερ. 17

18 ΚΕΦΑΛΑΙΟ 2: Θεωρητικό υπόβαθρο Κεφάλαιο 2 Θεωρητικό Υπόβαθρο 2.1 Εισαγωγή Η παραλλαγή με την οποία θα ασχοληθούμε είναι το limit heads-up Texas Hold em, που είναι η πιο απλή και χρησιμοποιείται από τους περισσότερους ερευνητές της περιοχής λόγω της μικρότερης δυνατής πολυπλοκότητας από τις υπόλοιπες παραλλαγές του είδους. Στην πραγματικότητα, η παραλλαγή no-limit με περισσότερους από δύο παίκτες είναι η πιο δημοφιλής. Ο όρος heads-up αντικατοπτρίζει το γεγονός ότι αναμετριούνται δύο παίκτες, ενώ ο όρος limit αφορά στον περιορισμό στα ποσά του πονταρίσματος, μειώνοντας σημαντικά και τον αριθμό επιτρεπτών ενεργειών των πρακτόρων. Στην παρούσα εφαρμογή και για τη συγκεκριμένη παραλλαγή, χρησιμοποιούνται οι προδιαγραφές του ετήσιου διεθνούς διαγωνισμού Annual Computer Poker Competition. Στο τραπέζι του πόκερ συμμετέχουν δύο παίκτες (heads-up). Εναλλάξ, σε κάθε παρτίδα οι παίκτες αποκτούν το ρόλο του dealer. O dealer μιλάει τελευταίος σε κάθε γύρο της παρτίδας, εκτός από τον πρώτο γύρο όπου μιλάει πρώτος. Στην αρχή της παρτίδας μοιράζονται από δύο κρυφά φύλλα στους παίκτες (hole cards), οι οποίοι με τη σειρά τους τοποθετούν τα blinds, (υποχρεωτικά πονταρίσματα). Ο dealer πληρώνει το small blind, ποσό αντίστοιχο με το μισό του ελάχιστου πονταρίσματος, ενώ ο άλλος παίκτης πληρώνει το big blind, ποσό ίσο με το ελάχιστο ποντάρισμα. Οι προδιαγραφές που χρησιμοποιήθηκαν ορίζουν το big blind ίσο με αξία 10 και το small blind ίσο με αξία 5. O παίκτης/dealer που μιλάει πρώτος, έχει τη δυνατότητα τριών ενεργειών: α) να κάνει call, ισοφαρίζοντας το πόσο που υπολείπεται του αντιπάλου (να βάλει ένα ποσό αξίας 5), β) να κάνει raise, δηλαδή να ισοφαρίσει το ποσό που υπολείπεται και να αυξήσει το ποσό του τραπεζιού (pot) με το ελάχιστο ποσό πονταρίσματος (δηλαδή συνολική αξία 15) και 18

19 ΚΕΦΑΛΑΙΟ 2: Θεωρητικό υπόβαθρο γ) να κάνει fold, χάνοντας την παρτίδα. Αν ο dealer κάνει call, ο άλλος παίκτης μπορεί να κάνει είτε check, δηλαδή να αφήσει τα πονταρίσματα ισοφαρισμένα και να περάσει η παρτίδα στον επόμενο γύρο, είτε να κάνει raise και να αυξήσει το πόσο του pot, αφήνοντας και πάλι τον dealer να μιλήσει. Μόλις τα πονταρίσματα παραμείνουν ισοφαρισμένα, ολοκληρώνεται ο γύρος ο οποίος ονομάζεται γύρος preflop. Στη συνέχεια η παρτίδα περνάει στο γύρο flop, όπου τρία κοινά φύλλα ανοίγουν στο τραπέζι (community cards) και ακολουθεί νέος γύρος πονταρίσματος. Έπειτα το παιχνίδι συνεχίζει με το γύρο turn, όπου ανοίγει ακόμα ένα κοινό φύλλο και ακολουθεί ακόμα ένας γύρος πονταρίσματος και τέλος στο γύρο river ανοίγει το τελικό πέμπτο κοινό φύλλο και ένας ακόμα γύρος πονταρίσματος. Αν μετά το γύρο πονταρίσματος του river οι παίκτες παραμείνουν στο παιχνίδι, τότε περνάμε στο showdown και ο παίκτης με την καλύτερη πεντάδα φύλλων που μπορεί να δημιουργηθεί από τα δύο κρυφά του χαρτιά και τα πέντε κοινά κερδίζει το pot, το συνολικό ποσό που έχει πονταριστεί σε όλους τους γύρους. Στο preflop και στο flop τα πονταρίσματα είναι όσο το big blind (10), ενώ στους γύρους turn και river τα πονταρίσματα είναι δύο φορές το big blind (20). Τέλος, στο preflop μπορεί να υπάρχει ένα bet, ένα raise και ένα re-raise, ενώ στους υπόλοιπους γύρους μπορεί να υπάρχει μέγιστο ένα bet, ένα raise και δύο re-raise στη συνέχεια. Κάθε παίκτης θεωρούμε ότι έχει απεριόριστο αριθμό από μάρκες Τύποι στρατηγικών Μια στρατηγική σε αυτό το πλαίσιο αναφέρεται σε μια χαρτογράφηση μεταξύ των καταστάσεων του παιχνιδιού και των ενεργειών που ένας πράκτορας θα πάρει όταν βρεθεί σε αυτές [JW11]. Συνήθως, η στρατηγική ενός πράκτορα αποτελείται από τον καθορισμό τριών πιθανοτήτων σε κάθε κατάσταση του παιχνιδιού. Οι πιθανότητες αυτές, καθορίζουν το ποσοστό του χρόνου που ένας πράκτορας είτε θα κάνει fold, check / call ή bet / raise σε ένα συγκεκριμένο σημείο στο παιχνίδι. Η στρατηγική λέγεται ότι είναι στατική, όταν δεν αλλάζει κατά τη διάρκεια του παιχνιδιού ενώ αν εξελίσσεται με την πάροδο του χρόνου λέγεται ότι είναι προσαρμοστική. 19

20 ΚΕΦΑΛΑΙΟ 2: Θεωρητικό υπόβαθρο Ιδιαίτερο ενδιαφέρον στην θεωρία παιγνίων παρουσιάζει η ισορροπία Nash (Nash equilibrium) που πήρε την ονομασία της από τον John Nash, ο οποίος και την πρότεινε. Ισορροπία Nash είναι η αντίληψη επίλυσης ενός παιχνιδιού δύο ή περισσότερων παικτών, στην οποία κάθε παίκτης ξέρει την ισορροπία μεταξύ των στρατηγικών των άλλων παικτών και όμως, κανένας δεν μπορεί να κερδίσει κάτι αλλάζοντας μόνο αυτός την στρατηγική του. Αν υποθέσουμε ότι ένας από τους παίκτες μαθαίνει τις στρατηγικές των άλλων παικτών και έχοντας γνώση αυτών των στρατηγικών, που παραμένουν αναλλοίωτες, δεν μπορεί να αλλάξει την δική του με τρόπο ώστε να ωφεληθεί, τότε εμφανίζεται η ισορροπία Nash. Μία βέλτιστη (optimal) στρατηγική είναι αυτή που μεγιστοποιεί το κέρδος και ελαχιστοποιεί την απώλεια απέναντι σε οποιονδήποτε αντίπαλο. Η βέλτιστη στρατηγική είναι ο ασφαλέστερος τρόπος που μπορεί να παίξει κανείς όταν η στρατηγική του αντιπάλου είναι άγνωστη. Με άλλα λόγια, αν ο αντίπαλος παίζει με μία βέλτιστη στρατηγική, τότε ο καλύτερος τρόπος να τον αντιμετωπίσουμε είναι να παίξουμε με την ίδια (βέλτιστη) στρατηγική. Επειδή η στρατηγική ισορροπία προϋποθέτει έναν άγνωστο αντίπαλο, ο πράκτορας θα περιορίσει τη δική του απώλεια με κόστος την μη εκμετάλλευση των πιο αδύναμων αντιπάλων. Ως εκ τούτου, ενώ αυτό το είδος της στρατηγικής δεν μπορεί να χάσει, δεν θα κερδίσει όσο θα μπορούσε εις βάρος των ασθενέστερων αντιπάλων Γνωστοί πράκτορες Poker Loki Ένας από τους πρώτους πράκτορες πόκερ που αναπτύχθηκε από την ομάδα του Πανεπιστημίου της Αλμπέρτα με σκοπό να παίξει Limit Texas Hold'em εναντίον πολλών αντιπάλων είναι το Loki. Η αρχική έκδοση του Loki (Loki-1) χρησιμοποιεί μια συγκεκριμένη φόρμουλα για τη δημιουργία της συνάρτησης αξιολόγησης που καθορίζει τη στρατηγική πονταρίσματος ενώ η στρατηγική του για το preflop μέρος του παιχνιδιού βασίζεται σε κανόνες ειδικού. Βελτιώσεις που έγιναν στο Loki-1 οδήγησαν σε ένα νέο σύστημα, το Loki-2, που άλλαξε τη στατική 20

21 ΚΕΦΑΛΑΙΟ 2: Θεωρητικό υπόβαθρο συνάρτηση αξιολόγησης με ένα σύστημα βασισμένο σε προσομοίωση έτσι ώστε να προσδιορίσει καλύτερα το αναμενόμενο κόστος της απόφασης για check / call ή bet / raise. Η προσέγγιση αυτή ονομάστηκε προσομοίωση επιλεκτικής δειγματοληψίας γιατί σε αντίθεση με την Monte-Carlo προσομοίωση δεν θεωρεί τα φύλλα που κρατάει ο αντίπαλος τυχαία. Αντί αυτού ένας πίνακας με βάρη διατηρείται και ενημερώνεται για κάθε αντίπαλο μετά από κάθε δράση. Κάθε πίνακας βάρους περιέχει μια καταχώρηση για κάθε δυνατό συνδυασμό αρχικών καρτών που ο αντίπαλος μπορεί να κατέχει, π.χ. ΑΚ, 89s κλπ. Το βάρος που αποδίδεται σε κάθε εγγραφή αντιπροσωπεύει τη δυνατότητα του αντιπάλου να παίζει το χέρι με τον τρόπο που παρατηρήθηκε σε ένα συγκεκριμένο σημείο στο παιχνίδι. Αυτά τα βάρη στη συνέχεια χρησιμοποιούνται για να πολώσουν την κατανομή που χρησιμοποιείται για τη δειγματοληψία κατά τη διάρκεια της προσομοίωσης. Τα πειράματα μεταξύ του Loki-1 και του Loki-2 υπέδειξαν σημαντική διαφορά στο κέρδος μεταξύ των δύο πρακτόρων, με τον Loki-2 να κερδίζει τυπικά 0,05 sb / h περισσότερο, κατά μέσο όρο, από ότι το Loki-1. Το Loki-2 έχει επίσης καλύτερες επιδόσεις από ότι το Loki-1 εναντίον ανθρώπων σε δοκιμές που έγιναν στον αρχικό διακομιστή Poker στο Internet Relay Chat (IRC), όπου άνθρωποι και πράκτορες μπορούσαν να ανταγωνίζονται με πονταρίσματα εικονικών χρημάτων. Η προφανής επιτυχία της προσομοίωσης επιλεκτικής δειγματοληψίας οδήγησε την ομάδα CPRG του Πανεπιστήμιου της Αλμπέρτα να υποστηρίξει τη μέθοδο γενικότερα ως ένα πλαίσιο που θα χρησιμοποιείται για παιχνίδια που κυρίαρχο χαρακτηριστικό τους είναι η στοχαστικότητα και η μερική γνώση του περιβάλλοντος. Το Loki αργότερα ξαναγράφτηκε και μετονομάστηκε σε Poki. Poki Το Poki έχει σχεδιαστεί για να παίζει σε full-ring (δηλαδή σε τραπέζια με 10 παίχτες) limit τραπέζια. Έχει αποδείξει ότι είναι σταθερός νικητής σε διαγωνισμούς απέναντι σε ανθρώπους με εικονικά χρήματα είτε στον IRC server είτε στον server της ερευνητικής ομάδας του πανεπιστημίου της Αλμπέρτα. Σε full-ring παιχνίδια θεωρείται ότι παίζει με ένα ενδιάμεσο επίπεδο δύναμης. Σε παιχνίδια με λιγότερους παίχτες γίνεται πιο αδύναμος, αλλά εξακολουθεί να είναι ένας από τους κορυφαίους πράκτορες πόκερ. 21

22 ΚΕΦΑΛΑΙΟ 2: Θεωρητικό υπόβαθρο Το Poki, όπως και ο προκάτοχός του το Loki, δεν προσπαθεί να προσεγγίσει μια βέλτιστη στρατηγική αλλά μια στρατηγική μέγιστου κέρδους. Όταν ο αντίπαλος μας δεν παίζει με την βέλτιστη στρατηγική τότε μπορεί να υπάρχει μια μη-βέλτιστη στρατηγική η οποία θα μεγιστοποιεί το κέρδος μας. Και αυτό το σύστημα αποτελείται από δυο τύπους στρατηγικών, μια στρατηγική βασισμένη σε φόρμουλα και μια βασισμένη σε προσομοίωση. Ακόμη διαθέτει ένα βελτιωμένο σύστημα μοντελοποίησης αντιπάλων σε σχέση με το Loki. PsOpti Το PsOpti ή αλλιώς Sparbot, προσεγγίζει το πρόβλημα του Poker με αρχές θεωρίας παιγνίων, δηλαδή αναπτύχθηκε πάνω στη ιδέα ότι υπάρχει μία στρατηγική ισορροπίας και για τους δύο παίκτες. Στόχος της ανάπτυξης ήταν να βρεθεί μία στρατηγική πολύ κοντά στη βέλτιστη. Επειδή ο χώρος καταστάσεων στο πόκερ είναι τεράστιος απαιτούνται να γίνουν προσεγγίσεις. Λόγω αυτών των προσεγγίσεων η στρατηγική του PsOpti θεωρείται ψευδό-βέλτιστη (pseudo-optimal). Δεν χρησιμοποιεί μοντελοποίηση του αντιπάλου, αλλά επιλέγει κινήσεις που βελτιστοποιούν το κέρδος του σε κάθε περίπτωση και για κάθε αντίπαλο. Γι' αυτό δεν εγγυάται ότι θα έχει το μέγιστο κέρδος, αλλά σίγουρα εξασφαλίζει ότι θα χάσει πολύ δύσκολα. Σε όλα τα πειράματα που έχει συμμετάσχει το PsOpti τα έχει πάει πολύ καλά. Έχει καταφέρει να αντέξει σε ένα παγκόσμιας κλάσης διαγωνισμό 7000 παιχνιδιών απέναντι σε κορυφαίους παίκτες (τα 7000 είναι λίγα για τα δεδομένα των υπολογιστών αλλά πολλά για τους ανθρώπους). Όμως, το PsOpti έχει δυο προβλήματα που είναι έμφυτα σε πράκτορες που σχεδιάζονται και παίζουν με ψευδόβέλτιστες στρατηγικές: Οι προσεγγίσεις που απαιτούνται για την μείωση του χώρου καταστάσεων εισάγουν αδυναμίες και αυτές οι αδυναμίες είναι μόνιμες. Αυτό σημαίνει ότι αν ο αντίπαλος ενός ψευδό-βέλτιστου πράκτορα ανακαλύψει μία αδυναμία του, τότε θα μπορεί να την εκμεταλλεύεται συνέχεια. Επειδή δεν προσπαθούν να εκμεταλλευτούν τον αντίπαλο, ένας δυνατός παίχτης μπορεί να παίζει με τέτοιο στυλ που να του επιτρέπει να διαβάζει 22

23 ΚΕΦΑΛΑΙΟ 2: Θεωρητικό υπόβαθρο τις αδυναμίες τους. Έτσι, ο αντίπαλος μπορεί να τους εξερευνήσει χωρίς να τιμωρείται για αυτήν την, συνήθως αρκετά προβλέψιμη, συμπεριφορά του. 2.2 Νευρωνικά Δίκτυα Η έννοια του τεχνητού νευρωνικού δικτύου Με τον όρο τεχνητό νευρωνικό δίκτυο (ΤΝΔ) εννοούμε κάθε αρχιτεκτονική υπολογισμού, η οποία περιλαμβάνει έναν μεγάλο αριθμό διασυνδεδεμένων νευρωνικών επεξεργαστών και απομιμείται τη λειτουργία και τις ιδιότητες του ανθρώπινου εγκεφάλου. Συνεπώς, ένα τεχνητό νευρωνικό δίκτυο ή απλά ένα νευρωνικό δίκτυο (ΝΔ) έχει την ικανότητα να μαθαίνει από εμπειρίες, να γενικεύει την υπάρχουσα γνώση και να εκτελεί λογικές αφαιρέσεις [TZ92]. Τα ΝΔ είναι συστήματα μεγάλης κλίμακας, τα οποία περιέχουν έναν μεγάλο αριθμό μη γραμμικών επεξεργαστών ειδικού τύπου, οι Νευρώνες. Κάθε ΝΔ χαρακτηρίζεται από μία κατάσταση, ένα σύνολο εισόδων με βάρη, που προέρχονται από άλλους νευρώνες, και μία εξίσωση, η οποία περιγράφει τη δυναμική λειτουργία του. Τα βάρη του ΝΔ ανανεώνονται μέσω μιας διαδικασίας μάθησης (εκπαίδευσης), η οποία πραγματοποιείται με την ελαχιστοποίηση κάποιας συνάρτησης κόστους. Οι βέλτιστες τιμές των βαρών αποθηκεύονται ως δυνάμεις μεταξύ των νευρώνων και χρησιμοποιούνται κατά την εκτέλεση της εργασίας για την οποία προορίζεται το ΝΔ. Τα ΝΔ εκτελούν επεξεργασία πληροφορίας, η οποία βασίζεται στη λειτουργία του ανθρώπινου εγκεφάλου και επικαλούνται την ιδέα της μοντελοποίησης μαύρου κουτιού χρησιμοποιώντας μοντέλα, που εμπνέονται από τη βιολογία και τη νευροφυσιολογία. 23

24 ΚΕΦΑΛΑΙΟ 2: Θεωρητικό υπόβαθρο Μοντέλο Τεχνητού Νευρώνα Ο τεχνητός νευρώνας (artificial neuron) είναι ένα υπολογιστικό μοντέλο, τα μέρη του οποίου αντιστοιχίζονται άμεσα με αυτά του βιολογικού νευρώνα. Όπως απεικονίζεται στο σχήμα 2.1, ένας τεχνητός νευρώνας δέχεται κάποια σήματα εισόδου x0, x1,..., xn τα οποία, σε αντίθεση με τους ηλεκτρικούς παλμούς του εγκεφάλου, αντιστοιχούν σε συνεχείς μεταβλητές. Κάθε τέτοιο σήμα εισόδου μεταβάλλεται από μια τιμή βάρους wi (weight) ο ρόλος της οποίας είναι αντίστοιχος της σύναψης του βιολογικού εγκεφάλου. Η τιμή βάρους μπορεί να είναι θετική ή αρνητική, σε αντιστοιχία με την επιταχυντική ή επιβραδυντική λειτουργία της σύναψης. Το σώμα του τεχνητού νευρώνα χωρίζεται σε δύο μέρη, τον αθροιστή (sum), ο οποίος προσθέτει τα επηρεασμένα από τα βάρη σήματα εισόδου και παράγει την ποσότητα S, και τη συνάρτηση ενεργοποίησης ή κατωφλίου (activation ή threshold function), ένα μη γραμμικό φίλτρο το οποίο διαμορφώνει την τελική τιμή του σήματος εξόδου y, συναρτήσει της ποσότητας S. Σχήμα 2.1: Μοντέλο τεχνητού νευρώνα 24

25 ΚΕΦΑΛΑΙΟ 2: Θεωρητικό υπόβαθρο Υπάρχουν τρεις τυπικές περιπτώσεις για τη συνάρτηση ενεργοποίησης : Η βηματική (step) συνάρτηση (σχήμα 2.2α), η οποία δίνει στην έξοδο αποτέλεσμα (συνήθως 1) μόνο αν η τιμή, που υπολογίζει ο αθροιστής είναι μεγαλύτερη από μία τιμή κατωφλίου T. Η συνάρτηση πρόσημου (sign) (σχήμα 2.2β), η οποία δίνει στην έξοδο αρνητική (ή θετική) πληροφορία αν η τιμή, που υπολογίζει ο αθροιστής είναι μικρότερη (ή μεγαλύτερη) από μία τιμή κατωφλίου Τ. Η σιγμοειδής (sigmoid) συνάρτηση η οποία εκφράζεται από τη γενική σχέση: Φ S = 1 a S e όπου α είναι ένας συντελεστής ρύθμισης της ταχύτητας μετάβασης μεταξύ των δύο ασυμπτωτικών τιμών. Η σιγμοειδής συνάρτηση (σχήμα 2.2γ) είναι ιδιαίτερα σημαντική γιατί παρέχει μη γραμμικότητα στον νευρώνα, κάτι που είναι απαραίτητο στη μοντελοποίηση μη γραμμικών φαινομένων. Σχήμα 2.2: Γραφικές παραστάσεις συναρτήσεων ενεργοποίησης. Οι τεχνητοί νευρώνες δίνουν τη δυνατότητα υλοποίησης απλών αλγεβρικών συναρτήσεων, καθώς και των λογικών συναρτήσεων AND, OR και NOT. Για παράδειγμα, στην υλοποίηση του NOT χρησιμοποιείται ως συνάρτηση ενεργοποίησης η βηματική με κατώφλι Τ = 0.5. Οι τιμές εισόδου μπορούν να κυμαίνονται από 0 (ψευδές) έως 1 (αληθές). Αν η είσοδος του νευρώνα είναι 0, τότε πολλαπλασιαζόμενη με το βάρος w = 1 δίνει S = 0. Η τιμή αυτή ξεπερνά το κατώφλι του -0.5 οπότε στην έξοδο παράγεται 1. Στην περίπτωση, που η τιμή εισόδου είναι 1, τότε S= 1, τιμή η οποία βρίσκεται κάτω του κατωφλίου, με αποτέλεσμα να παράγεται στην έξοδο 0. 25

26 ΚΕΦΑΛΑΙΟ 2: Θεωρητικό υπόβαθρο Αρχιτεκτονικές Νευρωνικών δικτύων Η τοπολογική δομή είναι το κύριο χαρακτηριστικό των ΝΔ και αναφέρεται στην αρχιτεκτονική, στην οποία διευθετούνται τα πολλαπλοί νευρώνες [TZ92]. Οι δύο βασικές ιδιότητες, που καθορίζουν την αρχιτεκτονική ενός ΝΔ, είναι το πλήθος των στρωμάτων (layers) και οι συνδέσεις ανάμεσα στους νευρώνες. Νευρωνικά δίκτυα εμπροσοτροφοδότησης Στην απλούστερη περίπτωση ένα διαστρωματωμένο ΝΔ έχει ένα στρώμα εισόδου από κόμβους πηγής (source nodes), το οποίο προβάλλεται πάνω σε ένα στρώμα νευρώνων εξόδου (κόμβων υπολογισμού), αλλά όχι αντίστροφα. Ένα τέτοιο ΝΔ είναι αυστηρά τύπου εμπροσοτροφοδότησης (feed forward) και καλείται μονοστρωματικό ΝΔ εμπροσοτροφοδότησης (σχήμα 2.3), όπου το μοναδικό στρώμα είναι το στρώμα νευρώνων εξόδου. Αυτό σημαίνει ότι το στρώμα των κόμβων εισόδου δεν προσμετράται, γιατί δεν λαμβάνει χώρα κανένας υπολογισμός σε αυτό. Σχήμα 2.3: Μονοστρωματικό ΝΔ εμπροσοτροφοδότησης Στη γενική περίπτωση, ένα ΝΔ εμπροσοτροφοδότησης περιέχει ένα ή περισσότερα κρυμμένα (hidden) στρώματα, των οποίων οι υπολογιστικοί κόμβοι είναι γνωστοί ως κρυμμένοι νευρώνες και παρεμβαίνουν μεταξύ των εξωτερικών 26

27 ΚΕΦΑΛΑΙΟ 2: Θεωρητικό υπόβαθρο εισόδων και εξόδων. Στα δίκτυα αυτά, που ονομάζονται πολυστρωματικά ΝΔ εμπροσοτροφοδότησης, οι κόμβοι πηγής στο στρώμα εισόδου παρέχουν τα στοιχεία του προτύπου δράσης (εισόδου), τα οποία εισέρχονται ως είσοδοι στο πρώτο κρυμμένο στρώμα υπολογιστικών κόμβων. Ομοίως, οι έξοδοι του πρώτου κρυμμένου στρώματος εισέρχονται ως είσοδοι στους κόμβους του δεύτερου κρυμμένου στρώματος κ.ο.κ.. Το τελικό στρώμα κόμβων (στρώμα εξόδου) δίνει τη συνολική απόκριση στα διανύσματα εισόδου, δηλαδή στα πρότυπα εξωτερικής δράσης. Ένα παράδειγμα ΝΔ εμπροσοτροφοδότησης με ένα κρυμμένο στρώμα τεσσάρων κόμβων, τρεις κόμβους πηγής στο στρώμα εισόδου και δύο κόμβους στο στρώμα εξόδου εικονίζεται στο σχήμα 2.4. Το δίκτυο αυτό αναφέρεται συμβολικά ως ΝΔ εμπροσοτροφοδότησης Σχήμα 2.4: Πολυστρωματικό ΝΔ εμπροσοτροφοδότησης (ένα κρυμμένο στρώμα) Το νευρωνικό δίκτυο του σχήματος 2.4 ονομάζεται πλήρως διασυνδεδεμένο γιατί κάθε κόμβος, οποιουδήποτε στρώματος, συνδέεται με όλους τους κόμβους του επόμενου στρώματος. Εάν αυτό δεν ισχύει, δηλαδή εάν λείπουν μερικοί σύνδεσμοι επικοινωνίας (συναπτικές συνδέσεις), τότε το ΝΔ χαρακτηρίζεται μερικώς διασυνδεδεμένο. 27

28 ΚΕΦΑΛΑΙΟ 2: Θεωρητικό υπόβαθρο Νευρωνικά δίκτυα ανατροφοδότησης Εάν το ΝΔ περιέχει τουλάχιστον έναν βρόχο ανατροφοδότησης, ο οποίος ανακυκλώνει πληροφορία μέσω του ιδίου ή προηγούμενων στρωμάτων, τότε ονομάζεται αναδρομικό ΝΔ ή ΝΔ ανατροφοδότησης. Το αποτέλεσμα της ανατροφοδότησης είναι ότι όταν ένα διάνυσμα (πρότυπο) εισόδου εισέρχεται στο αναδρομικό ΝΔ, δεν παράγει ένα πρότυπο εξόδου σε πεπερασμένο αριθμό χρονικών βημάτων, αλλά δρα με κυκλικό τρόπο, όπου τα ίδια στρώματα ενεργοποιούνται επαναληπτικά. Εάν το ΝΔ είναι ευσταθές, πιθανώς να ταλαντωθεί για κάποιο χρονικό διάστημα προτού φτάσει σε μία σταθερή κατάσταση, στην οποία οι νευρωνικές ενεργοποιήσεις θα σταματήσουν να αλλάζουν με αποτέλεσμα να παραχθεί μια σταθερή έξοδος. Διαφορετικά, εάν το ΝΔ δεν είναι ευσταθές, οι ταλαντώσεις θα συνεχίσουν αδιάκοπα. Συνεπώς, όταν εκπαιδεύουμε ένα αναδρομικό ΝΔ είναι σημαντικό να βρούμε το σύνολο των συναπτικών βαρών, που του επιτρέπουν να σταθεροποιηθεί στις επιθυμητές τιμές εξόδου. Σχήμα 2.5: Αρχιτεκτονική ενός Τεχνητού Νευρωνικού Δικτύου με Ανατροφοδότηση 28

29 ΚΕΦΑΛΑΙΟ 2: Θεωρητικό υπόβαθρο Εκπαίδευση Νευρωνικών Δικτύων Τα ΝΔ πραγματοποιούν δύο βασικές λειτουργίες : τη μάθηση (learning) και την ανάκληση (recall). Μάθηση είναι η διαδικασία τροποποίησης της τιμής των βαρών του δικτύου, ώστε δοθέντος συγκεκριμένου διανύσματος εισόδου να παραχθεί συγκεκριμένο διάνυσμα εξόδου. Η διαδικασία αυτή ονομάζεται επίσης και εκπαίδευση (training). Ανάκληση (recall) είναι η διαδικασία υπολογισμού ενός διανύσματος εξόδου για συγκεκριμένο διάνυσμα εισόδου και συγκεκριμένες τιμές βαρών [TN02]. Ο γενικός τρόπος, με τον οποίο γίνεται η τροποποίηση των βαρών ενός ΝΔ κατά την εκπαίδευσή του, επιτρέπει τη διάκριση τριών ειδών μάθησης, που παρουσιάζονται παρακάτω. Επιβλεπόμενη μάθηση Η δομή της επιβλεπόμενης ή ενεργού μάθησης (supervised learning) έχει τη γενική μορφή του σχήματος 2.6 και περιλαμβάνει δύο κύριες συνιστώσες, τον δάσκαλο και το σύστημα μάθησης. Σχήμα 2.6: Δομή της επιβλεπόμενης μάθησης Το κύριο χαρακτηριστικό της επιβλεπόμενης μάθησης είναι η ύπαρξη του εξωτερικού δασκάλου, ο οποίος με βάση τη γνώση και εμπειρία του είναι ικανός να διδάξει στο ΝΔ τις επιθυμητές εξόδους για ένα σύνολο δεδομένων εκπαίδευσης. Όταν ο δάσκαλος και το ΝΔ λαμβάνουν ένα διάνυσμα εισόδου εκπαίδευσης, ο δάσκαλος δίνει στο ΝΔ μια επιθυμητή έξοδο, η οποία αναπαριστά τη βέλτιστη ενέργεια (δράση), που πρέπει να κάνει το ΝΔ. Οι παράμετροι του ΝΔ ανανεώνονται με βάση 29

30 ΚΕΦΑΛΑΙΟ 2: Θεωρητικό υπόβαθρο τόσο το διάνυσμα εκπαίδευσης όσο και του σήματος σφάλματος, δηλαδή της διαφοράς μεταξύ της πραγματικής και επιθυμητής απόκρισης. Ενισχυτική μάθηση Στον τύπο αυτό της μάθησης το ΝΔ τροφοδοτείται και πάλι με δειγματικά πρότυπα εισόδου, χωρίς να τροφοδοτείται όμως με τις επιθυμητές αποκρίσεις σε αυτές τις εισόδους. Εν αντιθέσει, χρησιμοποιείται ένα συνολικό μέτρο επάρκειας της προκύπτουσας απόκρισης (δείκτης συμπεριφοράς), το οποίο μπορεί να οδηγήσει το δίκτυο στην επιθυμητή συμπεριφορά. Το μέτρο αυτό είναι γνωστό ως ενισχυτικό σήμα (reinforcement signal) και ανατροφοδοτείται στο ΝΔ έτσι ώστε να επιβραβεύει τις ορθές και να τιμωρεί τις λανθασμένες συμπεριφορές. Η διαφορά ανάμεσα στην ενισχυτική και την επιβλεπόμενη μάθηση είναι ότι στην πρώτη το σύστημα βελτιώνεται χρησιμοποιώντας ένα κριτήριο συμπεριφοράς, οι τιμές του οποίου δίνονται από το περιβάλλον, ενώ στη δεύτερη το κριτήριο συμπεριφοράς καθορίζεται εσωτερικά με βάση τις επιθυμητές αποκρίσεις. Συνεπώς ένα σύστημα ενισχυτική μάθησης μπορεί να θεωρηθεί ως ένα σύστημα αξιολόγησης και ανατροφοδότησης. Με την ενισχυτική μάθηση μπορούν να εκπαιδευτούν τόσο τα ΝΔ εμπροσθοτροφοδότησης όσο και τα αναδρομικά. Περισσότερα για την ενισχυτική μάθηση αναφέρονται στην ενότητα 2.4. Μη επιβλεπόμενη μάθηση Στη μη επιβλεπόμενη μάθηση, που καλείται και αυτό-οργανούμενη μάθηση (self- organized learning), δε χρησιμοποιείται εξωτερικός δάσκαλος για να επιβλέψει την εκπαίδευση, αλλά το ΝΔ, αντί να μάθει συγκεκριμένα παραδείγματα (ζεύγη) εισόδου εξόδου, μαθαίνει ένα ανεξάρτητο καθηκόντων μέτρο της ποιότητας της παράστασης. Οι προς επιλογή, ελεύθερες παράμετροι του δικτύου προσαρμόζονται έτσι ώστε να βελτιστοποιηθεί το μέτρο αυτό. Πρακτικά, το μόνο που χρειάζεται ένα ΝΔ μη επιβλεπόμενης μάθησης είναι να συντονιστεί στις στατιστικές ομαλότητες των δεδομένων εισόδου και μετά να μπορέσει να δημιουργήσει εσωτερικές παραστάσεις για την κωδικοποίηση των ιδιοτήτων τους. 30

31 ΚΕΦΑΛΑΙΟ 2: Θεωρητικό υπόβαθρο 2.3 Ταμιευτήρια υπολογισμών Η ιδέα που ακολουθούν τα ταμιευτήρια υπολογισμών (reservoir computing) και τα δίκτυα ηχωικών καταστάσεων (echo state networks) ειδικότερα, είναι η εξής: τυχαίως δημιουργημένα ταμιευτήρια νευρώνων, δηλαδή νευρωνικά δίκτυα με αναδράσεις (recurrent neural networks), τηρώντας ορισμένες αλγεβρικές συνθήκες, μπορούν να οδηγηθούν από ένα σήμα εισόδου, για να προκαλέσουν ένα σετ από πλούσιες δυναμικές στο ταμιευτήριο, με τη μορφή μη-γραμμικών σημάτων ανταπόκρισης (μη γραμμικός μετασχηματισμός της πληροφορίας σε ένα νέο πολυδιάστατο χώρο). Τα σήματα αυτά, μαζί με τα σήματα εισόδου μπορούν να συνδυαστούν για την ανάπτυξη ενός γραμμικού συνδυασμού χαρακτηριστικών, με την ονομασία συνάρτηση ανάγνωσης (read-out function) y=wt φ x, η οποία θα μπορούσε να αποτελέσει την πρόβλεψη του επιθυμητού σήματος εξόδου, δεδομένου ότι τα βάρη w έχουν εκπαιδευθεί ανάλογα. Οι αναδράσεις, που εμφανίζονται στο ταμιευτήριο ως κύκλοι στην τοπολογία, δίνουν τη δυνατότητα στο ΔΗΚ να διατηρεί μια δυναμική μνήμη και να επεξεργάζεται χρονικά την πληροφορία. Ως συναρτήσεις ανάγνωσης μπορούν να χρησιμοποιηθούν και άλλες αναπαραστάσεις, όπως για παράδειγμα τα εμπροσθοτροφοδοτούμενα νευρωνικά δίκτυα (feedforward neural networks), ωστόσο η γραμμική συνάρτηση είναι αρκετή για να πετύχει εξαιρετικά αποτελέσματα σε πρακτικές εφαρμογές. H βασική μορφή ενός ΔΗΚ εμφανίζεται στο Σχήμα 2.7. Το ταμιευτήριο αποτελείται από ένα στρώμα K μονάδων εισόδου, συνδεδεμένο με τις N μονάδες του ταμιευτηρίου μέσω ενός N K πίνακα συνδέσεων με βάρη W in.. Ο πίνακας γειτνίασης της δεξαμενής, W, είναι ένας πίνακας N N. Προαιρετικά, ένας πίνακας όπισθεν προβολής (back-projection) W back με διαστάσεις N L, όπου L ο αριθμός των μονάδων εξόδου, επαναφέρει τα σήματα εξόδου πίσω στη δεξαμενή 1. 31

32 ΚΕΦΑΛΑΙΟ 2: Θεωρητικό υπόβαθρο Σχήμα 2.7: Τυπικό Δίκτυο Ηχωικών Καταστάσεων. Με διακεκομμένες γραμμές σημειώνονται οι συνάψεις που μπορούν να εκπαιδευτούν, ενώ ως βέλη με συνεχόμενη γραμμή παρουσιάζονται οι συνάψεις που είναι σταθερές κατά τη διάρκεια της εκμάθησης [CH12]. Τα βάρη των συνδέσεων των μονάδων εξόδου (γραμμικά χαρακτηριστικά) και των μονάδων του ταμιευτηρίου (μη γραμμικά χαρακτηριστικά) με την έξοδο, συναθροίζονται στον L (K+N) πίνακα W out. Συνήθως οι μονάδες της δεξαμενής συμπεριλαμβάνουν την f(x)=tanh(x) ως συνάρτηση ενεργοποίησης (μεταφοράς), ενώ οι μονάδες εξόδου χρησιμοποιούν τις σιγμοειδείς συναρτήσεις g 1 x =tanh x και g 2 x = 1 1 e x ή την ταυτότητα, g 3 x = x, ανάλογα με το τρέχον πρόβλημα. Πιο συγκεκριμένα, η ταυτότητα είναι χρήσιμη όταν η έκταση της εξόδου δεν είναι γνωστή, ενώ οι σιγμοειδείς συναρτήσεις είναι πιο κατάλληλες για φραγμένη έξοδο ή για την εκμάθηση πιθανοτήτων, όπως για παράδειγμα για μια μεικτή στρατηγική μέσω ενισχυτικής μάθησης. 32

33 ΚΕΦΑΛΑΙΟ 2: Θεωρητικό υπόβαθρο Καλές πρακτικές για τη δημιουργία ΔΗΚ, δηλαδή διαδικασίες για την παραγωγή των τυχαίων πινάκων γειτνίασης W in., W και W back, μπορούν να βρεθούν στα [Jae02, LJ09]. Περιληπτικά αυτές είναι: 1. Ο πίνακας W πρέπει να είναι αραιός. 2. Η μέση τιμή των βαρών πρέπει να είναι γύρω στο μηδέν. 3. Το N πρέπει να είναι αρκετά μεγάλο για να παράγονται πολλά χαρακτηριστι- κά, δίνοντας καλή συμπεριφορά στις προβλέψεις. 4. Η φασματική ακτίνα ρ του W, που ορίζεται ως η μέγιστη τιμή των ιδιοτιμών του πίνακα, πρέπει να είναι μικρότερη του 1 ώστε πρακτικά (και όχι θεωρητικά) να βεβαιωθεί ότι το δίκτυο θα λειτουργεί ως ΔΗΚ. 5. Ένας αδύναμος, ομοιόμορφος, λευκός θόρυβος μπορεί να προστεθεί στα χαρακτηριστικά για λόγους ευστάθειας. Στη συγκεκριμένη εργασία θεωρούμε διακριτά χρονικά μοντέλα και ΔΗΚ χωρίς όπισθεν προβολή. Στο πρώτο βήμα, κλιμακώνεται (scale) και μετακινείται (shift) το σήμα εισόδου, u ℝ K, ανάλογα με το εάν θέλουμε το δίκτυο να λειτουργεί στο γραμμικό ή μη-γραμμικό κομμάτι των σιγμοειδών συναρτήσεων. Το χαρακτηριστικό διάνυσμα του ταμιευτηρίου, x ℝN, δίνεται από την Εξίσωση 2.1: x t 1 = f W in. u t 1 W x t v t 1 (2.1) όπου f είναι η ανά στοιχείο εφαρμογή της συνάρτησης ενεργοποίησης του ταμιευτηρίου και v είναι το ομοιόμορφο διάνυσμα λευκού θορύβου. Η έξοδος, y ℝ L, δίνεται από την Εξίσωση 2.2: y t 1 =g W out [u t 1 x t 1 ] (2.2) όπου g είναι η ανά στοιχείο εφαρμογή της συνάρτησης ενεργοποίησης εξόδου, ενώ ο τελεστής υποδηλώνει τη σύνδεση των διανυσμάτων. Για προβλήματα επιβλεπόμενης μάθησης, το πρόβλημα μπορεί να συνταχθεί ως πρόβλημα γραμμικής παλινδρόμησης και τα βάρη της εξόδου μπορούν να καθοριστούν από ένα πλήθος μεθόδων αριθμητικής ανάλυσης [CH12]. 33

34 ΚΕΦΑΛΑΙΟ 2: Θεωρητικό υπόβαθρο 2.4 Δίκτυα Ηχωικών Καταστάσεων και Ενισχυτική Μάθηση Μία από τις καταλληλότερες προσεγγίσεις στο πρόβλημα της δημιουργίας πλήρως αυτόνομων οντοτήτων είναι η ενισχυτική μάθηση [CH12,CM10,CM12]. Η ενισχυτική μάθηση είναι μια κλάση προβλημάτων με στόχο την εύρεση μίας βέλτιστης πολιτικής (policy), που αντιστοιχεί την κατάσταση του πράκτορα σε ενέργειες που μπορεί να εκτελέσει στη δεδομένη κατάσταση. Κατά την ενισχυτική μάθηση, η πολιτική καταστρώνεται από τον πράκτορα ύστερα από άμεση αλληλεπίδραση με το περιβάλλον, χωρίς όμως ο ίδιος να βλέπει παραδείγματα σωστής συμπεριφοράς, αλλά μόνο με θετική ή αρνητική ανταμοιβή, ανάλογη με το στόχο που έχει τεθεί στην αρχή. Με άλλα λόγια, η ενισχυτική μάθηση είναι μια υπολογιστική μεθοδολογία βέλτιστου ελέγχου για αλληλουχία αποφάσεων με στόχο την μακροπρόθεσμη επίτευξη ενός στόχου. Οποιοσδήποτε αλγόριθμος λύνει τέτοιου είδους προβλήματα, μπορεί να θεωρείται αλγόριθμος ενισχυτικής μάθησης. Σε κάθε χρονική στιγμή t, ο πράκτορας δέχεται ως είσοδο μια αναπαράσταση της κατάστασης του περιβάλλοντος, s t S, όπου S το σύνολο όλων των πιθανών καταστάσεων που μπορεί να αντιμετωπίσει ο πράκτορας, και επιλέγει μια ενέργεια a t A s t, όπου A s t το σύνολο των ενεργειών που μπορεί να εκτελέσει ο πράκτορας όταν βρίσκεται στην κατάσταση s t. Ένα από τα κύρια συστατικά ενός κλασικού συστήματος ενισχυτικής μάθησης είναι η συνάρτηση αξίας Q (Q-value Q s t, a t, δίνοντάς function), η οποία συσχετίζει ζεύγη καταστάσεων - ενεργειών τους μια τιμή που καθορίζει την μακροπρόθεσμη αξία τους για τον πράκτορα. Στόχος των αλγορίθμων ενισχυτικής μάθησης είναι η εκτίμηση μιας τέτοιας συνάρτησης για την εύρεση της βέλτιστης ενέργειας στην εκάστοτε κατάσταση. Για προβλήματα ενισχυτικής μάθησης με K συνεχείς μεταβλητές καταστάσεων και L διακριτές ενέργειες, μπορούμε να χρησιμοποιούμε ένα ΔΗΚ για να μοντελοποιήσουμε τη συνάρτηση αξίας Q. Κάθε έξοδος του δικτύου l, αντιστοιχίζεται με μία ενέργεια a l A=a l, l=1... L, όπου η έξοδος του δικτύου yl αντικατοπτρίζει την μακροπρόθεσμη εκπτωτική αξία ενέργειας Q s, a l, της εκτέλεσης της a l, όταν ο πράκτορας βρίσκεται στην κατάσταση s. Για παράδειγμα, ακολουθώντας την Εξίσωση 2.2 και δεδομένου ότι g x =g3 x =x, οι αξίες Q υπολογίζονται από το ΔΗΚ με βάση την Εξίσωση 2.3: 34

35 ΚΕΦΑΛΑΙΟ 2: Θεωρητικό υπόβαθρο K out li y l =Q s, a l = w s i i=1 K N i=k =1 wout li x i K,l=1,.., L (2.3) 2.5 Κατάβαση πλαγιάς Η κατάβαση πλαγιάς (gradient descent) είναι μια κατηγορία αλγόριθμων βελτιστοποίησης πρώτης τάξης. Σκοπός του αλγορίθμου είναι να ελαχιστοποιήσει μια συνάρτηση κάνοντας βήματα ανάλογα προς την αρνητική κλίση (ή την κατά προσέγγιση κλίση) της συνάρτησης στο τρέχον σημείο. Η μέθοδος βασίζεται στην παρατήρηση ότι, αν η συνάρτηση πολλών μεταβλητών F x ορίζεται και είναι διαφορίσιμη σε μια περιοχή ενός σημείου a, τότε η F(χ) μειώνεται ταχύτερα αν πηγαίνει από το a προς την κατεύθυνση της αρνητικής κλίσης του F στο a, F a. Προκύπτει έτσι ότι, αν και μόνο αν b=b a F a για γ 0, F a F b. Με αυτή την παρατήρηση κατά νου, ξεκινάμε με μια εικασία για να βρούμε ένα τοπικό ελάχιστο του F, και θεωρούμε ακολουθία ώστε x n 1 = x n a n F x n, n 0. Έτσι έχουμε οπότε ελπίζουμε ότι η ακολουθία x0 x 0, x 1, x 2,... F x 0 F x 1 F x 2... x n συγκλίνει στο επιθυμητό τοπικό ελάχιστο. Η τιμή του μεγέθους του βήματος a επιτρέπεται να αλλάζει σε κάθε επανάληψη. Με ορισμένες παραδοχές σχετικά με την συνάρτηση F και συγκεκριμένες επιλογές του βήματος α μπορεί να εγγυηθεί η σύγκλιση προς ένα τοπικό ελάχιστο. 35

36 ΚΕΦΑΛΑΙΟ 2: Θεωρητικό υπόβαθρο Σχήμα 2.8: Κατάβαση πλαγιάς. Εδώ η F θεωρείται ότι ορίζεται στο επίπεδο. Οι μπλε καμπύλες είναι οι ισοσταθμικές γραμμές, δηλαδή, οι περιοχές στις οποίες η τιμή του F είναι σταθερή. Οι εσωτερικές ισοσταθμικές έχουν μικρότερη τιμή από τις εξωτερικές. Κάθε κόκκινο βέλος που αρχίζει σε ένα σημείο δείχνει την κατεύθυνση της αρνητικής κλίσης στο σημείο εκείνο. Η (αρνητική) κλίση σε ένα σημείο είναι ορθογώνια προς την ισοσταθμική που περνάει από αυτό το σημείο. Βλέπουμε ότι η μέθοδος κλίσης μας οδηγεί στο κάτω μέρος, το οποίο είναι, στο σημείο όπου η τιμή της συνάρτησης F είναι ελάχιστη. Όταν χρησιμοποιείται για την ελαχιστοποίηση μιας συνάρτησης F, η κλασσική (batch) μέθοδος κατάβασης πλαγιάς θα εκτελέσει τις ακόλουθες επαναλήψεις της εξίσωσης 2.4: n x := x a n F x n = x a F i x (2.4) i =1 όπου α ο ρυθμός μάθησης (learning rate) και F i είναι η τιμή της συνάρτησης στο i παράδειγμα εκπαίδευσης. Σε πολλές περιπτώσεις, η συνάρτηση έχει μια απλή μορφή που επιτρέπει τον εύκολο και ανέξοδο υπολογισμό του αθροίσματος και της κλίσης. 36

37 ΚΕΦΑΛΑΙΟ 2: Θεωρητικό υπόβαθρο Ωστόσο, σε άλλες περιπτώσεις, όπου το σετ δεδομένων τα οποία χρησιμοποιούνται για την εκπαίδευση είναι πολύ μεγάλο και ο τύπος της συνάρτησης F δεν είναι απλός, ο υπολογισμός της κλίσης γίνεται πολύ ακριβός, επειδή απαιτεί κάθε φορά τον υπολογισμό του αθροίσματος του τύπου 2.4. Για να μειώσει το υπολογιστικό κόστος σε κάθε επανάληψη, η μέθοδος τροποποιείται ώστε να δειγματοληπτείται ένα υποσύνολο του αθροίσματος σε κάθε βήμα. Η τροποποιημένη αυτή κατηγορία αλγορίθμων ονομάζεται στοχαστική κατάβαση πλαγιάς (stohastic gradient descent ή on-line gradient descent). Σε αυτή την περίπτωση η πραγματική κλίση του F (x) προσεγγίζεται από την κλίση σε ένα μόνο σημείο όπως φαίνεται στη εξίσωση 2.5: x :=x a F i x (2.5) Καθώς ο αλγόριθμος σαρώνει το σύνολο δεδομένων εκπαίδευσης, εκτελεί την παραπάνω ενημέρωση των βαρών για κάθε παράδειγμα εκπαίδευσης. Πολλά περάσματα πάνω από το σύνολο εκπαίδευσης γίνονται μέχρι να επιτευχθεί η σύγκλιση του αλγόριθμου. Τυπικές εφαρμογές μπορεί επίσης να ανακατεύουν τυχαία τα παραδείγματα εκπαίδευσης σε κάθε πέρασμα και να χρησιμοποιούν ένα προσαρμοζόμενο ρυθμό μάθησης α. Σε ψευδοκώδικα, η στοχαστική κατάβαση πλαγιάς με ανακάτεμα του συνόλου εκπαίδευσης σε κάθε πέρασμα μπορεί να παρουσιαστεί ως εξής: Πίνακας 2.1: Αλγόριθμος στοχαστικής κατάβασης πλαγιάς Gradient Descent 1: Επιλογή αρχικού διανύσματος των παραμέτρων x και της τιμής του ρυθμού μάθησης a. 2: Όσο δεν έχει επιτευχθεί ένα κατά προσέγγιση ελάχιστο επανέλαβε{ 3: Ανακατέψετε τυχαία τα παραδείγματα στο σύνολο εκπαίδευσης. 4: Για κάθε i = 1, 2,..., n, κάνε 5: x := x a F i x 6: Τέλος_επανάληψης 7: Τέλος_επανάληψης 37

38 ΚΕΦΑΛΑΙΟ 2: Θεωρητικό υπόβαθρο 2.6 Το Περιβάλλον που Χρησιμοποιήθηκε Η πλατφόρμα του Annual Computer Poker Competition Για την ανάπτυξη του πράκτορα χρησιμοποιήθηκε ο server του Annual Computer Poker Competition στην έκδοσή του. O server αναλαμβάνει όλες τις διαδικασίες που απαιτούνται για την διεξαγωγή ενός τουρνουά. Οι παίχτες συνδέονται με τον server με TCP sockets ενώ υπάρχει ένα ad-hoc πρωτόκολλο για την επικοινωνία μεταξύ πλατφόρμας και παιχτών. Επομένως, η ανάπτυξη πρακτόρων μπορεί να γίνει σε οποιαδήποτε γλώσσα προγραμματισμού. Η πλατφόρμα αναπτύχθηκε από το Πανεπιστήμιο της Αλμπέρτα και παρέχεται από τη σελίδα του διαγωνισμού 1 Για τη διεξαγωγή ενός τουρνουά αρχικά γίνεται η δημιουργία της τράπουλας. Για κάθε παρτίδα ορίζονται τα εννιά φύλλα που θα μοιραστούν, από δύο σε κάθε παίχτη και πέντε κοινά φύλλα. Ο server συνδέει τους δύο παίχτες και ξεκινάει το πρώτο σετ παιχνιδιών της αναμέτρησης. Αφού ολοκληρωθεί το πρώτο σετ, γίνεται καταγραφή των αποτελεσμάτων και ξεκινάει το δεύτερο σετ με τα ίδια φύλλα μοιρασμένα ανάποδα. Για προφανείς λόγους, ο server σβήνει τα αποθηκευμένα δεδομένα των παιχτών και τους επανεκκινεί ώστε να μην υπάρχει καμία γνώση των φύλλων ή του αντιπάλου από το πρώτο σετ παιχνιδιών. Τα αποτελέσματα του δευτέρου γύρου καταγράφονται και ο νικητής προκύπτει από το άθροισμα των κερδών των δύο σετ. Ο server διατηρεί την κατάσταση του παιχνιδιού. Σε κάθε αλλαγή της κατάστασης και οι δύο παίχτες λαμβάνουν ένα μήνυμα με την νέα κατάσταση. Οι παίχτες μπορούν να στείλουν ένα μήνυμα απάντησης που να αντανακλά την δράση που θέλουν να εκτελέσουν. Η κατάσταση του παιχνιδιού περιλαμβάνει τις πληροφορίες για τα ορατά στον παίχτη φύλλα και την αλληλουχία πονταρίσματος μόνο. Ποιος παίχτης παίζει ή το ποσό που έχει μπει στο pot μπορούν μόνο να βρεθούν έμμεσα από 1. Τελευταία πρόσβαση 5/1/

39 ΚΕΦΑΛΑΙΟ 2: Θεωρητικό υπόβαθρο την κατάσταση του παιχνιδιού, διατηρώντας το πρωτόκολλο όσο πιο απλό γίνεται. Το πρωτόκολλο της πλατφόρμας είναι λιτό και περιλαμβάνει λίγους τύπους μηνυμάτων: Μηνύματα Χειραψίας: Είναι το πρώτο μήνυμα που στέλνουν οι clients στον server και υποδεικνύει την έκδοση για την οποία γράφτηκαν οι clients. Παράδειγμα μηνύματος χειραψίας: VERSION: Με αυτό το μήνυμα ολοκληρώνεται η σύνδεση ενός πράκτορα στο server και δεν ορίζονται άλλα μηνύματα χειραψίας. Μηνύματα Παιχνιδιού: Τα μηνύματα αυτά περιλαμβάνουν ότι είναι απαραίτητο για να προσδιοριστεί η κατάσταση του παιχνιδιού. Στέλνονται πριν παίξει κάποιος παίκτης. Το ίδιο μήνυμα στέλνεται ταυτόχρονα και στους δύο παίκτες ανεξάρτητα από το ποιος παίζει. Αυτό γίνεται ώστε να γνωρίζει την κατάσταση του παιχνιδιού ο παίκτης που περιμένει τον αντίπαλο του να αποφασίσει και να αξιοποιήσει τον χρόνο αναμονής για ενδεχόμενους υπολογισμούς. Μηνύματα Απόκρισης: Μοιάζουν πολύ με τα μηνύματα παιχνιδιού και έχουν επιπλέον την κίνηση που επιθυμεί να εκτελέσει ο παίκτης που παίζει. Σχήμα 2.9: Παράδειγμα μίας αλληλουχίας μηνυμάτων Το σχήμα 2.9 δείχνει ένα παράδειγμα επικοινωνίας. Η πρώτη γραμμή δείχνει το μήνυμα παιχνιδιού που στέλνεται στον παίκτη στην θέση 1 για την κατάσταση της παρτίδας 392. Το μήνυμα δείχνει την αλληλουχία των πονταρισμάτων όπου με "/" χωρίζονται οι γύροι της παρτίδας. Στο παράδειγμα του σχήματος, στο preflop έγιναν τρία raise και ένα call, στο flop έχουν γίνει τέσσερα raise και ένα call, ενώ στο turn, μέχρι στιγμής, ένα call (check - συμβολίζονται με τον ίδιο τρόπο) και ένα raise. Ο παίκτης 1 που παίρνει το μήνυμα έχει 9s και 9d. Στο flop έχουν ανοίξει τα κοινά φύλλα 5s, 2s και 6h και στο turn άνοιξε 9c. Η δεύτερη γραμμή δείχνει το μήνυμα που θα πάρει ο παίκτης στη θέση 0 την ίδια στιγμή με τον παίκτη 1 και είναι παρόμοιο φυσικά αλλά με διαφορετικά κρυφά φύλλα, Κs και 2d. Στο παράδειγμα αυτό δεν φαίνεται άμεσα ποιος παίζει. Το ότι παίζει ο παίκτης 1 προκύπτει έμμεσα από την θέση του (θέση 1 είναι η θέση του dealer) τα 39

40 ΚΕΦΑΛΑΙΟ 2: Θεωρητικό υπόβαθρο πονταρίσματα του γύρου και τον γύρο στον οποίο βρίσκεται η παρτίδα. Αν τώρα ο παίχτης 1 αποφασίσει να κάνει raise θα στείλει το μήνυμα απόκρισης της τρίτης γραμμής του σχήματος. Τέλος ο server θα στείλει δύο νέα μηνύματα παιχνιδιού ως επακόλουθο της τελευταίας απόφασης, όπως φαίνεται και στο παράδειγμα. Αφού ληφθούν τα νέα μηνύματα παιχνιδιού, είναι σειρά του παίχτη 0 να στείλει την δική του δράση Η διεπαφή Meerkat API Το Meerkat API είναι μια διεπαφή προγραμματισμού εφαρμογών σε γλώσσα JAVA που επιτρέπει σε προγραμματιστές να συνδέσουν το δικό τους πράκτορα πόκερ και να τον δοκιμάσουν απέναντι σε άλλους πράκτορες. Έχει αναπτυχθεί και προέρχεται από την ερευνητική ομάδα poker του Πανεπιστημίου της Αλμπέρτα για το πρόγραμμα Poker Academy Pro. Το Poker Academy είναι μια πλατφόρμα εκμάθησης Poker η οποία πλέον δεν διατίθεται αλλά έχει δημιουργήσει ένα πρότυπο για την δημιουργία πρακτόρων poker το οποίο ακολουθούν οι περισσότεροι προγραμματιστές. Μετά το κλείσιμο του project δημιουργήθηκαν διάφορα άλλα προγράμματα βασισμένα στο Meerkat API. Ένα από αυτά, το οποίο χρησιμοποιήθηκε στα πλαίσια αυτής της εργασίας για την δοκιμή των παιχτών είναι το opentestbed, το οποίο είναι μια εφαρμογή ανοιχτού κώδικα του API Meerkat για τη λειτουργία παιχνιδιών πόκερ Limit και No-Limit η οποία διατίθεται στην ιστοσελίδα Πίνακας 2.2: Οι βασικές κλάσεις του Meerkat API και η λειτουργία τους. Κλάση Περιγραφή Action Περιγράφει μια ενέργεια από έναν παίκτη σε ένα παιχνίδι πόκερ Card Αντιπροσωπεύει ένα τραπουλόχαρτο. Οι κάρτες είναι ακέραιοι από ένα σύνολο καρτών {0.. 51} που χαρτογραφούνται σε κάρτες που έχουν χρώμα {0.. 3} {μπαστούνια, κούπες, καρό, σπαθιά} και μια ονομαστική αξία {0.. 12} 2. Τελευταία πρόσβαση 20/01/

41 ΚΕΦΑΛΑΙΟ 2: Θεωρητικό υπόβαθρο Κλάση Περιγραφή Deck Μια τράπουλα των 52 φύλλων που μπορεί να μοιραστεί και να ανακατευτεί GameInfo Όλες οι δημόσιες πληροφορίες του παιχνιδιού για το τρέχον χέρι του πόκερ είναι διαθέσιμες μέσω αυτού του αντικείμενου. GameObserver Μια διεπαφή για ένα παρατηρητή παιχνιδιού πόκερ. Όλα τα γεγονότα του παιχνιδιού αποστέλλονται στον παρατηρητή, έτσι ώστε το παιχνίδι μπορεί να παρακολουθείται. Hand Αποθηκεύει ένα χέρι με κάρτες(με ανώτατο όριο τις 7). Τα χέρια αναπροσαρμόζονται με τον δείκτη να ξεκινά από 1 και όχι 0. Αυτό γίνεται για ειδικούς λόγους βελτιστοποίησης της ταχύτητας. HandEval Μια διεπαφή για Plug-in μηχανές αξιολόγησης χεριού. Αυτή παίρνει ως είσοδο ένα χέρι πόκερ (5 έως 7 κάρτες) και επιστρέφει ένα μοναδικό ακέραιο για το καλύτερο χέρι πόκερ που γίνεται από αυτές τις κάρτες, έτσι ώστε κάθε χέρι που κερδίζει ένα άλλο χέρι να έχει έναν αυστηρά μεγαλύτερο ακέραιο. HandEvaluator Κλάση για την ταυτοποίηση / τη σύγκριση / κατάταξη χεριών. Holdem Χρήσιμες σταθερές για το Holdem Messages Χειρίζεται θέματα τοπικής προσαρμογής για κλάσεις Meerkat. Player Μια διεπαφή για ένα πράκτορα πόκερ. Περιέχει την μέθοδο getaction(), η οποία ζητά μια δράση από τον παίκτη και την holecards() η οποία δέχεται τις κάρτες που μοιράστηκαν. PlayerInfo Όλες οι δημόσιες πληροφορίες της κατάστασης ενός παίκτη για το τρέχον χέρι. 41

42 ΚΕΦΑΛΑΙΟ 3: Μεθοδολογία ανάπτυξης του πράκτορα Κεφάλαιο 3 Μεθοδολογία ανάπτυξης του πράκτορα 3.1 Εισαγωγή Η συνολική αρχιτεκτονική του πράκτορα και η ροή της πληροφορίας φαίνεται στο σχήμα 3.1. Σχήμα 3.1: Αρχιτεκτονική του πράκτορα TiltNet Ο πράκτορας αποτελείται από τα εξής τμήματα: 1. Μια βέλτιστη στρατηγική για το γύρο preflop, η οποία είναι ενσωματωμένη στον πράκτορα (preflop strategy) 2. Τον υπολογισμό του χαρακτηριστικού διανύσματος της κατάστασης του πράκτορα (Feature vector calculation) 42

43 ΚΕΦΑΛΑΙΟ 3: Μεθοδολογία ανάπτυξης του πράκτορα 3. Το ΔΗΚ που δέχεται ως είσοδο το χαρακτηριστικό διάνυσμα και δίνει ως έξοδο την αξία των τριών ενεργειών (ESN) 4. Το μετασχηματισμό των αξιών σε πιθανότητες μέσω του softmax και την επιλογή της ενέργειας με επιλογή ρουλέτας. 5. Ένα υποσύστημα βασισμένο σε κανόνες ειδικού(rule based) καθώς και τους κανόνες σωστής συμπεριφοράς του πράκτορα (Etiquette rules). 3.2 Η στρατηγική Preflop. Για το γύρο του preflop, χρησιμοποιήθηκε μία έτοιμη στρατηγική που δίνεται με τη μορφή τριών πινάκων [SHE99]. Η συγκεκριμένη στρατηγική είναι βέλτιστη εφόσον δεν υπάρχουν άλλοι γύροι πονταρίσματος. Ανάλογα με τα κρυφά φύλλα του πράκτορα επιλέγεται μία από τις παρακάτω ενέργειες: _ F: Fold _ C: Call _ R1: Raise _ R2: Raise και ξανά Raise εάν ο αντίπαλος κάνει Raise επίσης _ R3: Raise, Reraise και ξανά Reraise εάν ο αντίπαλος κάνει Raise επίσης _ CR1: Call-Raise _ CR2: Call-Raise και Reraise εάν ο αντίπαλος κάνει Raise. Παρά την (σχετική) απλότητα του παιχνιδιού, η βέλτιστη στρατηγική εμφανίζει αρκετά ενδιαφέροντα σημεία όπως: 1. Δεν γίνεται ποτέ fold στο big blind, και σπάνια στο small blind. 2. Δίνεται αξία στο bet κάποιων αρκετά αδύναμων χεριών διότι ο άλλος παίκτης θα πρέπει να κάνει call με πολύ καλές αποδόσεις του pot. 43

44 ΚΕΦΑΛΑΙΟ 3: Μεθοδολογία ανάπτυξης του πράκτορα Η στρατηγική αυτή υπολογίστηκε από τον Alex Selby ο οποίος παρατήρησε ότι αν και κατ 'αρχήν, η βέλτιστη στρατηγική θα μπορούσε να ήταν μικτή, αποδείχθηκε ότι βασίζεται σε πολύ απλές και συγκεκριμένες κινήσεις Σχήμα 3.2: Στρατηγική preflop για την περίπτωση Small Blind 3.3 Τα Χαρακτηριστικά του Περιβάλλοντος Το πόκερ έχει το χαρακτηριστικό του τεράστιου χώρου καταστάσεων, δηλαδή, του τεράστιου αριθμού των πιθανών εκβάσεων μιας παρτίδας. Αρκεί να φανεί αυτό αν αναλογιστούμε τους πιθανούς συνδυασμούς των φύλλων σε συνδυασμό με τις υπόλοιπες παραμέτρους του παιχνιδιού που θα προκύψουν σε μία παρτίδα. Είναι απαραίτητο ο ορισμός των χαρακτηριστικών να γίνει με τρόπο που να εξασφαλίζει την γενίκευση (generalization) τόσο στην κατάσταση του παιχνιδιού όσο 44

45 ΚΕΦΑΛΑΙΟ 3: Μεθοδολογία ανάπτυξης του πράκτορα και στον αντίπαλο. Η λογική της γενίκευσης υπάρχει άλλωστε και στον άνθρωπο παίκτη πόκερ. Αν σκεφτούμε την πρακτική που ακολουθεί ο άνθρωπος παίκτης θα διαπιστώσουμε τα εξής: όταν δει τα φύλλα που του μοιράστηκαν θα σκεφτεί την δύναμη τους για να αποφασίσει αν θα παίξει ή όχι την παρτίδα. Έπειτα, όταν ανοίξει το flop θα υπολογίσει την δύναμη του φύλλου απέναντι σε πιθανούς συνδυασμούς των αντιπάλων, θα μετρήσει τα φύλλα της τράπουλας που πρόκειται να ανοίξουν και που βελτιώνουν τη δύναμη του φύλλου του (outs) ή κάνουν το φύλλο του αδύναμο και φυσικά θα λάβει τις αποφάσεις του ανάλογα με τα πονταρίσματα που έγιναν στην παρτίδα και στον γύρο του (πχ αν έγινε bet, πόσα raise έγιναν κτλ). Μαζί με όλα αυτά θα λάβει υπ' όψιν του και την αντίληψη που διαμόρφωσε από τις προηγούμενες παρτίδες για την στρατηγική των αντιπάλων του. Σχήμα 3.3: To χαρακτηριστικό διάνυσμα καταστάσεων Το διάνυσμα χαρακτηριστικών είναι μια προσπάθεια να εκφραστεί η κατάσταση του παιχνιδιού μέσω περιορισμένου αριθμού τιμών. Για παράδειγμα, σε πρωτογενή μορφή δύο κέντες που αρχίζουν από 6, διαφορετικού χρώματος, θα έπρεπε να αναπαρίστανται διαφορετικά ως καταστάσεις τις οποίες παρατηρεί ο πράκτορας. Από την άλλη όμως η αξία τους είναι ίδια. Για να μειωθεί η διάσταση του διανύσματος εισόδου χρησιμοποιήθηκαν χαρακτηριστικά τα οποία αντικατοπτρίζουν με τις τιμές τους τα διακριτά φύλλα που παρατηρεί ο πράκτορας στο παιχνίδι και μπορούν να αντικαταστήσουν αυτές τις παρατηρήσεις. Άλλα χαρακτηριστικά έρχονται σε πρωτογενή μορφή, άλλα πρέπει να υπολογιστούν. Στον Πίνακα 3.1 αναφέρονται τα χαρακτηριστικά με τον τύπο δεδομένων τους. Στόχος είναι από τα χαρακτηριστικά αυτά, μέσω των ΔΗΚ, να εξαχθούν νέα μη γραμμικά, χρονικά χαρακτηριστικά που θα αντικατοπτρίζουν καλύτερα την πολυπλοκότητα του παιχνι- 45

46 ΚΕΦΑΛΑΙΟ 3: Μεθοδολογία ανάπτυξης του πράκτορα διού. Επίσης, μέσω της εκμάθησης των βαρών του γραμμικού συνδυασμού των χαρακτηριστικών του ΔΗΚ και της ιδιότητας της γενίκευσης, ο πράκτορας θα μπορεί θεωρητικά να είναι εφοδιασμένος με την κατάλληλη μικτή στρατηγική και για παρτίδες στις οποίες δεν έχει δει στο σετ εκμάθησης. Στη συνέχεια αναλύονται τα χαρακτηριστικά που επιλέχθηκαν [SAR10] Δύναμη του φύλλου (Hand strength) To hand strength είναι μια καλή πρώτη προσέγγιση για την αξιολόγηση των κρυφών φύλλων. Αποτελεί μία από τις βασικότερες εισόδους του πράκτορα για όλους τους γύρους της παρτίδας εκτός του preflop και είναι μέτρο της απόλυτης δύναμης του φύλλου. Ο αλγόριθμος υπολογισμού του φαίνεται στο σχήμα 3.4. Αυτό που κάνει είναι να ελέγχει όλους τους πιθανούς συνδυασμούς κρυφών φύλλων του αντιπάλου και να τους συγκρίνει με τα κρυφά φύλλα που κρατάει ο πράκτορας. Για παράδειγμα, στο flop υπάρχουν 47 φύλλα που παραμένουν άγνωστα (52 φύλλα της τράπουλας μείον τα δύο κρυφά και τα τρία κοινά) και επομένως υπάρχουν 472 = 1081 διαφορετικοί συνδυασμοί που θα μπορούσαμε να αντιμετωπίζουμε. Μετρώντας τις νίκες, τις ήττες και τις ισοπαλίες υπολογίζει την πιθανότητα να έχουμε καλύτερο φύλλο απέναντι σε έναν τυχαίο συνδυασμό κρυφών φύλλων του αντιπάλου. Ουσιαστικά, είναι ο υπολογισμός του ποσοστού των πιθανών σεναρίων στα οποία έχουμε το καλύτερο φύλλο. Σχήμα 3.4: Υπολογισμός του Hand Strength 46

47 ΚΕΦΑΛΑΙΟ 3: Μεθοδολογία ανάπτυξης του πράκτορα Ένα φύλλο που είναι πολύ πιθανόν να είναι το καλύτερο στον γύρο που είμαστε λέγεται made hand. Ο πράκτορας αντιλαμβάνεται ότι έχει made hand όταν η είσοδος του hand strength παίρνει μεγάλη τιμή. Ας υποθέσουμε ότι το φύλλο μας είναι QcJd και το flop ανοίγει Js8h6d. Τότε υπάρχουν 1016 περιπτώσεις τυχαίων φύλλων του αντιπάλου όπου κερδίζουμε, 6 περιπτώσεις ισοπαλίας και 59 περιπτώσεις ήττας. Η δύναμη του φύλλου είναι HS = / 2 =0.9426, δηλαδή έχουμε ένα πολύ δυνατό φύλλο. Όπως φαίνεται και από τον αλγόριθμο, ο υπολογισμός γίνεται ακριβώς για τον γύρο που βρίσκεται ο πράκτορας. Δεν λαμβάνονται υπ' όψιν τα κοινά φύλλα που θα ανοίξουν στους επόμενους γύρους και επομένως δεν λαμβάνονται υπόψιν οι πιθανότητες βελτίωσης ή χειροτέρευσης του φύλλου. Αυτή η έλλειψη διορατικότητας υπάρχει στα flop και turn και όχι στο river που έχουν ανοίξει όλα τα κοινά φύλλα Chen formula Η δύναμη του φύλλου στο preflop γύρο δεν μπορεί να υπολογιστεί από τον αλγόριθμο του hand strength όπως στους υπόλοιπους γύρους στους οποίους έχουν ανοίξει τα κοινά φύλλα. Στο Texas hold 'em δεν υπάρχει κάποια διαφορά στην αξία των χρωμάτων και επομένως υπάρχουν συνδυασμοί κρυφών φύλλων με την ίδια αξία (πριν φυσικά ανοίξουν τα κοινά φύλλα). Για παράδειγμα, το ΑcΚc έχει την ίδια αξία με το ΑsΚs στο preflop στάδιο. Αν και υπάρχουν (52 x 51)/2 = 1326 διαφορετικοί συνδυασμοί κρυφών φύλλων που μπορεί να κρατάει κάποιος preflop, αυτοί περιορίζονται τελικά σε μόνο 169 διαφορετικής δύναμης ζεύγη κρυφών φύλλων. Το σχήμα 3.5 είναι μία αντιστοίχιση των preflop συνδυασμών σε ομάδες δύναμης γνωστός ως πίνακας των Malmuth and Sklansky, οι οποίοι και τον πρότειναν. Στην διαγώνιο του πίνακα εμφανίζονται τα ζεύγη, πάνω από την διαγώνιο οι ομόχρωμοι συνδυασμοί και κάτω από την διαγώνιο οι ετερόχρωμοι συνδυασμοί. 47

48 ΚΕΦΑΛΑΙΟ 3: Μεθοδολογία ανάπτυξης του πράκτορα Σχήμα 3.5: Ο πίνακας των Malmuth και Sklansky. Εδώ φαίνονται οι ομάδες δύναμης των preflop συνδυασμών. Οι Skalnsky Malmuth κατέταξαν κάθε preflop ζεύγος φύλλων σε ομάδες δύναμης και πρότειναν ότι φύλλα που ανήκουν στην ίδια ομάδα μπορούν να παίζονται με παρόμοιο τρόπο. Η ομάδα 1 είναι πιο δυνατή ομάδα φύλλων με την ομάδα 2 να ακολουθεί κ.ό.κ.. Φύλλα που δεν έχουν αρίθμηση αντιστοιχούν στην πιο αδύναμη ομάδα φύλλων (ομάδα 9) και συστήνουν να μην παίζονται. Τα ζεύγη κρυφών φύλλων που ανήκουν στις ομάδες 1 έως 8 είναι τα ζεύγη αυτά που κατά τους Skalnsky και Malmuth, μπορούν να οδηγήσουν σε κέρδος στο τέλος της παρτίδας. Βέβαια, αυτές οι προτάσεις τους αναφέρονται σε τραπέζια που συμμετέχουν πολλοί παίκτες καθώς στα heads up παιχνίδια θεωρείται καλή πρακτική να παίζει ένας πράκτορας όλα τα φύλλα. Ο πίνακας προσφέρει μόνο κανόνες της μορφής "παίζεις ή δεν παίζεις", ενώ πολλοί επαγγελματίες παίκτες πόκερ έχουν προτείνει διάφορες στρατηγικές για την κάθε κατηγορία. Οι στρατηγικές αυτές λαμβάνουν υπ' όψιν την κατηγορία που κατατάσσεται το κρυφό ζεύγος φύλλων σύμφωνα με τον πίνακα, την θέση του παίκτη στο τραπέζι, την επιθετικότητα των άλλων παικτών, αν έχουν προηγηθεί raise και 48

49 ΚΕΦΑΛΑΙΟ 3: Μεθοδολογία ανάπτυξης του πράκτορα από ποιους παίκτες και άλλα. Πολλοί ευφυείς πράκτορες πόκερ βασίζονται πάνω σε κανόνες ειδικών (expert rules) για να καθορίσουν την preflop στρατηγική τους (π.χ. Poki, Sparbot ). Στην συγκεκριμένη εργασία η στρατηγική στο preflοp στάδιο είναι συγκεκριμένη όπως περιγράφηκε προηγουμένως. Όμως ο πράκτορας εκπαιδεύεται κανονικά και για το preflop στάδιο έτσι ώστε να υπάρχει η δυνατότητα να απενεργοποιηθεί αυτή η στατική στρατηγική. Αυτό συμβαίνει γιατί η preflop στρατηγική που περιγράφηκε είναι βέλτιστη υπό κάποιες παραδοχές, όπως ότι δεν γίνονται ενέργειες μετά το preflop. Έτσι θα μπορούσε η συνολική απόδοση του πράκτορα να είναι καλύτερη και με άλλες στρατηγικές που λαμβάνουν υπόψη και τις επόμενες κινήσεις. Επομένως για να εκπαιδευθεί ο πράκτορας και για το preflop στάδιο έπρεπε να κωδικοποιηθεί η δύναμη των φύλλων με κάποιο χαρακτηριστικό αντίστοιχο του hand strength που περιγράψαμε για τους άλλους γύρους. Ένας τρόπος θα ήταν να χρησιμοποιούμε τις 9 κατηγορίες του πίνακα. Αλλά επειδή ήταν προτιμότερο να χρησιμοποιήσουμε μία πιο συμπαγή αναπαράσταση για την δύναμη του φύλλου για όλους τους γύρους με μορφή ποσοστού, χρησιμοποιήθηκε η μεθοδολογία Chen (Chen formula). Ο Bill Chen πρότεινε την Chen formula ως βοήθημα για τους παίκτες που δεν μπορούν να θυμούνται την κατάταξη κάθε κρυφού ζεύγους στον πίνακα των Skalnsky και Malmuth. Ανάλογα με τους πόντους που συγκεντρώνει το φύλλο από την Chen formula γίνεται και η κατάταξή του στις ομάδες του πίνακα. Εφαρμόζοντας την μεθοδολογία αυτή μπορούμε να ποσοτικοποιήσουμε τη δύναμη του φύλλου για το preflop και μάλιστα με πιο λεπτομερή διαχωρισμό. Οι τιμές που μπορεί να πάρει είναι από -1.5 (για 72 ετερόχρωμο) έως 20 (για ζευγάρι ΑΑ). Χωρίς όμως να χάνεται σημαντική πληροφορία τις τιμές που είναι αρνητικές τις αντιστοιχίζουμε στο 0 για ευκολότερη υλοποίηση. Επιπλέον, διαιρώντας με το μέγιστο (20), το χαρακτηριστικό είναι πια συνεχές και κανονικοποιημένο όπως και το hand strength. Η Chen formula λαμβάνει υπ' όψιν το δυνατότερο φύλλο από το κρυφό ζεύγος, αν είναι σε ζευγάρι με το άλλο κρυφό φύλλο, αν έχουν το ίδιο χρώμα ενώ 49

50 ΚΕΦΑΛΑΙΟ 3: Μεθοδολογία ανάπτυξης του πράκτορα μεταβάλλει τη αξία τους και ανάλογα με την απόστασή τους (για τη δυνατότητα δημιουργίας straight). Ο αλγόριθμος υπολογισμού της αξίας του φύλλου έχει ως εξής: 1. Υψηλότερο φύλλο. Πάρε το υψηλότερης αξίας φύλλο και βαθμολόγησε το. Οι αξίες είναι: Α=10, Κ=8, Q=7, J=6 και από το 10 έως το 2 είναι το μισό του φύλλου (πχ το 8 έχει αξία 4, το 9 αξία 4.5). 2. Ζευγάρι στο χέρι. Αν είναι σε ζευγάρι με το άλλο κρυφό φύλλο τότε πολλα- πλασίασε την αξία του κατά 2. Η ελάχιστη αξία του ζευγαριού δεν μπορεί να είναι κάτω από 5 (δηλαδή, τα ζεύγη από 2 έως 5 λαμβάνουν 5 πόντους). 3. Χρώμα στο χέρι. Αν τα φύλλα είναι ομόχρωμα πρόσθεσε δύο πόντους. 4. Απόσταση μεταξύ φύλλων. Αυτό το βήμα εφαρμόζεται για φύλλα που δεν είναι ζευγάρι. Για φύλλα που είναι συνεχόμενα μην αφαιρείς πόντους (πχ. KQ) Για φύλλα που έχουν ένα κενό μεταξύ τους αφαίρεσε 1 πόντο (πχ AQ, J9). Όμοια για φύλλα που έχουν απόσταση έως 4 αφαίρεσε την απόσταση τους (πχ για το J8 αφαιρούνται δύο πόντοι και για το J7 τέσσερις). Για φύλλα με μεγαλύτερη απόσταση αφαίρεσε 5 πόντους (σε αυτήν την περίπτωση συμπεριλαμβάνονται και τα Α2, A3, Α4 καθώς δίνουν δυνατότητα μόνο για το μικρότερο straight). 5. Σύνδεση των φύλλων. Αν τα φύλλα είναι συνεχόμενα (πχ JT) πρόσθεσε 1 πόντο. Αν φύλλα έχουν κενό μεταξύ τους και το μεγαλύτερο φύλλο είναι μικρότερο από Q τότε πρόσθεσε 1 πόντο, καθώς αυτό δίνει δυνατότητα για σχηματισμό των υψηλότερων straight (πχ Τ8). 50

51 ΚΕΦΑΛΑΙΟ 3: Μεθοδολογία ανάπτυξης του πράκτορα Σχήμα 3.6: Chen Formula 51

52 ΚΕΦΑΛΑΙΟ 3: Μεθοδολογία ανάπτυξης του πράκτορα Μερικά παραδείγματα υπολογισμού της δύναμης των κρυφών φύλλων σύμφωνα με τον αλγόριθμο: ΑΑ = 20 πόντοι (2 x 10 πόντοι). AKs = 12 πόντοι (10 πόντοι για τον Α και +2 πόντοι γιατί είναι ομόχρωμα). J9οff=6 πόντοι (6 πόντοι για το J, -1 πόντοι για το κενό ανάμεσά τους, +1 πόντο γιατί έχουν ένα κενό και το μεγαλύτερο φύλλο είναι μικρότερο από Q) Δυνατότητα του φύλλου (Hand potential) Αν το hand strength ήταν το μόνο χαρακτηριστικό αξιολόγησης του φύλλου ο πράκτορας δεν θα είχε την ικανότητα να "δει" πιθανές εκβάσεις της παρτίδας που θα άλλαζαν το παιχνίδι. Μετά το flop μένουν να ανοίξουν τα κοινά φύλλα του turn και του river. Αυτά τα φύλλα μπορεί να μεταβάλλουν σημαντικά την δύναμη του φύλλου μας όταν ανοίξουν. Γι αυτό το λόγο, χρησιμοποιούμε και το hand potential που στην ουσία είναι δυο χαρακτηριστικά: η θετική Δυνατότητα του Φύλλου (Positive Potential - PPot) και η Αρνητική Δυνατότητα του Φύλλου (Negative Potential - NPot). Το PPot είναι η πιθανότητα που έχει το φύλλο μας να βελτιωθεί ώστε να είναι νικηφόρο απέναντι σε όλους τους τυχαίους συνδυασμούς κρυφών φύλλων του αντιπάλου. Αντίστοιχα, το NPot δείχνει την πιθανότητα ένα νικηφόρο φύλλο στον γύρο που είμαστε να ηττηθεί τελικά, όταν ανοίξουν όλα τα κοινά φύλλα. Για να υπολογίσουμε το Ppot καταγράφουμε όλες τις δυνατές εκβάσεις της παρτίδας για τους πιθανούς συνδυασμούς κρυφών φύλλων του αντιπάλου. Αυτό που μας ενδιαφέρει είναι να μετρήσουμε τις περιπτώσεις που ξεκινάμε με μικρότερη ή ίδια δύναμη φύλλου και σε πόσες από αυτές τις περιπτώσεις η έκβαση της παρτίδας είναι τελικά θετική για εμάς. Αντίστοιχα, το Npot υπολογίζεται μετρώντας τις περιπτώσεις που είμαστε μπροστά ή ισόπαλοι και τελικά καταλήγουμε να χάνουμε. Παρακάτω φαίνονται οι τύποι υπολογισμού: 52

53 ΚΕΦΑΛΑΙΟ 3: Μεθοδολογία ανάπτυξης του πράκτορα PPOT = T πίσω, μπροστά T πίσω, ισόπαλοι T ισόπαλοι, μπροστά 2 2 T Τ πίσω ισόπαλοι 2 (3.1) (3.2) T T T μπροστά,πίσω μπροστά, ισόπαλοι ισόπαλοι,πίσω 2 2 ΝPOT = T Τ μπροστά ισόπαλοι 2 όπου με Tx,y συμβολίζεται το πλήθος των περιπτώσεων που βρισκόμαστε στην κατάσταση x και καταλήγουμε στην κατάσταση y. Οι περιπτώσεις της ισοπαλίας μετράνε κατά το ήμισυ, αφού άλλωστε τότε μοιραζόμαστε το pot με τον αντίπαλο. Σχήμα 3.7: Οι περιπτώσεις εξέλιξης της παρτίδας 4hJc/6c 3h 5h Ο αλγόριθμος του hand potential δίνεται στο σχήμα 3.8 και δείχνει τον υπολογισμό όταν είμαστε στο flop και βλέπουμε δύο φύλλα μπροστά, δηλαδή μέχρι να μοιραστούν όλα τα κοινά. Σε αυτήν την περίπτωση, υπάρχουν 47 2 = 1081 πι- θανοί τυχαίοι συνδυασμοί για τα αντίπαλα φύλλα και από τα 45 φύλλα που απομένουν (52 μείον 3 κοινά μείον 4 κρυφά) υπάρχουν 45 2 = 990 πιθανές εκβάσεις για της παρτίδας στα turn και river. Συνολικά, πρέπει να δούμε μπροστά = διαφορετικούς συνδυασμούς. Όταν ο υπολογισμός γίνεται στο turn χρειαζόμαστε ένα λιγότερο loop και υπάρχουν μόνο συνδυασμοί που 53

54 ΚΕΦΑΛΑΙΟ 3: Μεθοδολογία ανάπτυξης του πράκτορα πρέπει να εξετάσουμε. Γενικά, το hand potential είναι από τα πιο απαιτητικά σε επεξεργαστική ισχύ χαρακτηριστικά του πράκτορα. Για παράδειγμα, έστω το φύλλο μας είναι 4hJc και το flop ανοίγει 6c3h5h. Η δύναμη του φύλλου είναι 19.65%. Όμως, υπάρχουν πολλά φύλλα που πρόκειται να ανοίξουν και μπορούν να αυξήσουν την δύναμη του (outs). To σχήμα 3.7 μας δείχνει τις πιθανές μεταβάσεις. Η θετική δυνατότητα είναι = 39.38%. Επομένως, αν μείνουμε στο παιχνίδι με αυτό το φύλλο, υπάρχει μεγάλη πιθανότητα να περάσουμε μπροστά από τον αντίπαλο. Στην γλώσσα του πόκερ, ένα φύλλο που έχει καλές πιθανότητες να γίνει ένα δυνατό λέγεται draw, όπως είναι το straight draw ή flush draw όταν μπορούμε στο επόμενο φύλλο που θα ανοίξει να σχηματίσουμε κέντα ή χρώμα αντίστοιχα. Ο πράκτορας αντιλαμβάνεται ένα φύλλο ως draw όταν η είσοδος του PPot είναι υψηλή. Τέλος, πρέπει να σημειωθεί ότι σαν χαρακτηριστικό έχει νόημα μόνο στο flop και στο turn. Για λόγους υλοποίησης, στους άλλους γύρους σαν τιμή του Ppot και του Npot θεωρείται το 0. 54

55 ΚΕΦΑΛΑΙΟ 3: Μεθοδολογία ανάπτυξης του πράκτορα Σχήμα 3.8:Υπολογισμός του Hand Potential Απόδοση pot (Pots odds) Υπάρχουν διάφοροι τρόποι ορισμού αυτού του χαρακτηριστικού. Στην υλοποίηση του πράκτορα χρησιμοποιήθηκε η άμεση απόδοση του pot (immediate pot odds) που είναι ο λόγος του κόστους που χρειάζεται για call προς το συνολικό pot: 55

56 ΚΕΦΑΛΑΙΟ 3: Μεθοδολογία ανάπτυξης του πράκτορα Απόδοση pot = κόστος call συνολικό pot κόστος call (3.3) Αν οι πιθανότητες να κερδίσουμε το παιχνίδι είναι μεγαλύτερες από την απόδοση του pot τότε δικαιολογείται να κάνουμε call. Πρακτικά δηλαδή, είναι οι ελάχιστες πιθανότητες που χρειαζόμαστε για να μείνουμε μέσα στο παιχνίδι. Αυτό βέβαια δεν ισχύει στην περίπτωση παιχνιδιού με πολλούς παίκτες όπου ένα raise μπορεί να ακολουθήσει το call. Στην περίπτωση όμως του heads-up είναι ένας κλασσικός κανόνας ειδικού. Ο τρόπος που χρησιμοποιούμε την απόδοση του pot δείχνει την απόδοση της επένδυσης για να δούμε ένα bet/raise και ο προσδιορισμός του γίνεται με τα δεδομένα που επικρατούν την στιγμή της απόφασης. Υπάρχουν όμως και άλλοι τρόποι προσδιορισμού της απόδοσης πιο σύνθετοι που, αν και δεν χρησιμοποιήθηκαν στην υλοποίηση, θα τους αναφέρουμε εδώ για λόγους πληρότητας. Βλέποντας την απόδοση μακροπρόθεσμα, αν το φύλλο μας γίνει δυνατό στον επόμενο γύρο τότε έχουμε πιθανότητα να κερδίσουμε ένα pot μεγαλύτερο από το τωρινό. Η υπονοούμενη απόδοση του pot (implied pot odds) λαμβάνει υπόψιν και τα κέρδη που μπορούμε να έχουμε και από τα μελλοντικά pot. Δεν υπάρχει όμως απλός τρόπος υπολογισμού αυτής της απόδοσης και βασίζεται στην κρίση των παικτών για τον υπολογισμό της. Τέλος, αν δούμε την απόδοση του pot από τη μεριά του αντιπάλου έχουμε την αντίστροφη υπονοούμενη απόδοση (reverse implied odds). Αυτή παρουσιάζει ιδιαίτερο ενδιαφέρον, αλλά είναι πολύ πιο δύσκολη στον προσδιορισμό της. Η σημασία της εμφανίζεται όταν παίζουμε με ένα δυνατό φύλλο, αλλά απέναντι σε έναν αντίπαλο που έχει draw ή μας έχει ήδη κερδίσει. Στον επόμενο γύρο ο αντίπαλος μπορεί να μην αποκτήσει δυνατό φύλλο και να πάει πάσο σε ένα raise μας ή μπορεί το φύλλο του να γίνει δυνατό ή να ήταν ήδη μπροστά κάνοντας πιο ακριβό για μας να φτάσουμε στο showdown. Στο παράδειγμα που χρησιμοποιήθηκε πριν, με κρυφά φύλλα 4hJc και το flop 6c-3h-5h, είδαμε ότι η θετική δυνατότητα του φύλλου ήταν 39.38%. Έστω ότι ο αντίπαλος κάνει bet, δηλαδή ποντάρει 10, και το pot είναι 30. Η απόδοση του pot τότε είναι = 25% και, επειδή η θετική δυνατότητα είναι μεγαλύτερη από την απόδοση, έχουμε τις απαιτούμενες πιθανότητες να μείνουμε στο παιχνίδι. 56

57 ΚΕΦΑΛΑΙΟ 3: Μεθοδολογία ανάπτυξης του πράκτορα Υπόλοιπα χαρακτηριστικά Τέλος, δίνονται τα υπόλοιπα χαρακτηριστικά που ολοκληρώνουν τη λίστα με τις εισόδους του πράκτορα που αφορούν την κατάσταση του παιχνιδιού, δηλαδή των εισόδων της ΒΠ. Επειδή δεν χρειάζονται ιδιαίτερους υπολογισμούς για τον προσδιορισμό τους και επειδή είναι απλά στην κατανόηση τους, δεν θα αναφερθούμε ιδιαίτερα σε αυτά. Η τιμή τους δίνεται απευθείας από το interface της πλατφόρμας και ανάλογα με την υλοποίηση του αλγορίθμου μπορεί να χρειάζεται μία απλή επεξεργασία της τιμής τους. Τα χαρακτηριστικά αυτά είναι: Αριθμός πονταρισμάτων στο γύρο (Round bets): Είναι ο αριθμός των bet και raise που έχουν γίνει στον τρέχοντα γύρο. Η ελάχιστη τιμή του είναι μηδέν ενώ η μέγιστη τιμή του καθορίζεται από τους κανόνες του παιχνιδιού σε 4 bets. Γύρος της παρτίδας (Round index): Πληροφορεί τον πράκτορα σε ποιον γύρο βρίσκεται η παρτίδα. Μέγεθος του Pot (Pot Size): Το συνολικό ποσό που έχει μπει μέσα στο pot. Περιλαμβάνει το ποσό που έχει συγκεντρωθεί από όλα τα πονταρίσματα μαζί με τυχόν bet/raise του αντιπάλου που δεν τα έχει δει ακόμη ο πράκτορας. 3.4 Εκπαίδευση ΔΗΚ και επιλογή ενέργειας Κάθε ΔΗΚ δέχεται ως είσοδο το χαρακτηριστικό διάνυσμα (για παράδειγμα ένα χαρακτηριστικό διάνυσμα παρουσιάζεται στον σχήμα 3.9 και έχει δύο εξόδους που προβλέπουν την αξία των ενεργειών check/call και bet/raise αντίστοιχα. Σκοπός της διαδικασίας εκμάθησης είναι η πρόβλεψη της αξίας που έχει για τον πράκτορα κάθε ενέργεια δεδομένου του χαρακτηριστικού διανύσματος. Το χαρακτηριστικό διάνυσμα και η αξία ήταν κανονικοποιημένα στο διάστημα [0 ; 1]. Η αξία της ενέργειας fold είναι η κανονικοποιημένη ζημιά του να κάνει ο πράκτορας fold τη δεδομένη χρονική στιγμή. 57

58 ΚΕΦΑΛΑΙΟ 3: Μεθοδολογία ανάπτυξης του πράκτορα Σχήμα 3.9: Παράδειγμα χαρακτηριστικού διανύσματος καταστάσεων Για την εκπαίδευση του ΔΗΚ χρησιμοποιήθηκαν τα παιχνίδια του Annual ComputerPoker Competition Πιο συγκεκριμένα, επιλέχθηκαν οι παρτίδες (hands)οι οποίες έφτασαν σε showdown, δηλαδή αποκαλύφθηκαν τα χαρτιά των δύο αντιπάλων, το pot έφτασε στην τελική του τιμή, την οποία προσπαθούμε να προβλέψουμε, ενώ κανένας παίκτης δεν έκανε fold. Για κάθε παρτίδα δημιουργήθηκαν δύο σειρές δεδομένων, μία για κάθε παίκτη. Για κάθε ενέργεια του παίκτη υπολογίστηκε το χαρακτηριστικό διάνυσμα, καταχωρήθηκε η ενέργειά του, καθώς και η τελική τιμή που κέρδισε ή έχασε ο πράκτορας. Ο αλγόριθμος που χρησιμοποιήθηκε για την εκπαίδευση είναι η κατάβαση πλαγιάς όπως περιγράψαμε στην παράγραφο 2.5. Στο δικό μας πρόβλημα η συνάρτηση η οποία πρέπει να ελαχιστοποιηθεί, έτσι ώστε τα βάρη του ΔΗΚ να προσαρμοστούν σωστά, είναι η συνάρτηση σφάλματος όπου το σφάλμα υπολογίζεται ως η διαφορά της πραγματικής εξόδου του δικτύου από την εκτίμηση που έχουμε κάθε φορά. Όπως αναφέραμε στα ΔΗΚ τα μόνα βάρη που προσαρμόζονται είναι τα βάρη εξόδου, ενώ όλα τα άλλα μένουν σταθερά. Ο υπολογισμός της κλίσης (gradient) στην εξίσωση 2.5 εξαρτάται από την συνάρτηση εξόδου g(x) του δικτύου ηχωικών καταστάσεων. Για παράδειγμα, για την συνάρτηση εξόδου που χρησιμοποιείται στην ενισχυτική μάθηση, την ταυτότητα g 3 x, η κλίση υπολογίζεται σύμφωνα με την εξίσωση 3.4 : w Q s, a l =F με F = [s x] o ut l (3.4) 58

59 ΚΕΦΑΛΑΙΟ 3: Μεθοδολογία ανάπτυξης του πράκτορα Έτσι οι εξισώσεις ανανέωσης των βαρών του ΔΗΚ παίρνουν τη μορφή της εξίσωσης 3.5 : W out =W out a e w Q s, a l =W a e F out l (3.5) όπου e είναι το σφάλμα και ορίζεται ως e=πραγματική τιμή εκτιμώμενη τιμή και α είναι ο ρυθμός μάθησης. Ο αλγόριθμος εκμάθησης σε ψευδοκώδικα όπως παρουσιάστηκε στην παράγραφο 2.5 προσαρμόζεται στο πρόβλημά μας και γίνεται: Πίνακας 3.1: Ο αλγόριθμος προσαρμογής των βαρών του νευρωνικού δικτύου Gradient Descent 1: Επιλογή αρχικού διανύσματος των παραμέτρων x και της τιμής του ρυθμού μάθησης a. 2: Όσο δεν έχει επιτευχθεί ένα κατά προσέγγιση ελάχιστο επανέλαβε{ 3: Ανακατέψετε τυχαία τα παραδείγματα στο σύνολο εκπαίδευσης. 4: Για κάθε i = 1, 2,..., n, κάνε 5: w :=w e a F 6: Τέλος_επανάληψης 7: Τέλος_επανάληψης 3.5 Softmax Στη συνέχεια αφού ολοκληρωθεί η διαδικασία εκπαίδευσης, ο πράκτορας μπορεί να υπολογίσει την αξία Q(s,a) σε κάθε σημείο του παιχνιδιού. Για να επιλέξει την κίνηση που θα εκτελέσει με βάση αυτή την αξία θα χρησιμοποιηθεί η τεχνική softmax για να γίνει η αντιστοίχιση της αξίας Q σε πιθανότητες. Η τεχνική αυτή αναθέτει πιθανότητες σε κάθε κίνηση που είναι ανάλογες με την αξία Q. Αυτό γίνετε χρησιμοποιώντας την κατανομή Gibbs. Κάθε δράση a επιλέγεται με μια πιθανότητα 59

60 ΚΕΦΑΛΑΙΟ 3: Μεθοδολογία ανάπτυξης του πράκτορα e Q s, a / τ t p= n eq s,b / τ t b=1 όπου n είναι το πλήθος των διαθέσιμων δράσεων στην κατάσταση s και τ μία θετική παράμετρος που ονομάζεται θερμοκρασία (temperature). Υψηλή τιμή της θερμοκρασίας έχει σαν αποτέλεσμα οι δράσεις να είναι σχεδόν ισοπίθανες. Χαμηλότερη τιμή της παραμέτρου έχει σαν αποτέλεσμα να μεγαλώνει η διαφορά στις πιθανότητες των δράσεων, όσο μεγαλώνει η διαφορά στις τιμές που έχουν οι εκτιμώμενες αξίες τους. Όταν η θερμοκρασία τείνει στο μηδέν τότε η επιλογή softmax τείνει να είναι η άπληστη επιλογή. Από τις τρεις πιθανότητες, η ενέργεια που επιλέγεται προκύπτει με επιλογή ρουλέτας. 3.6 Κανόνες ειδικού και Κανόνες καλής συμπεριφοράς. Το τελευταίο τμήμα του πράκτορα αποτελείται από κάποιους σταθερούς κανόνες που βελτιώνουν τη συνολική συμπεριφορά του παίχτη και διασφαλίζουν την σωστή λειτουργία του. Αυτοί οι κανόνες δεν προέκυψαν μέσω της μηχανικής μάθησης, αλλά γράφτηκαν χειροκίνητα με βάση τη θεωρία και τους κανόνες του παιχνιδιού και λόγω αυτού ονομάζονται κανόνες ειδικού. Ο σκοπός είναι να μπορεί ο πράκτορας να εκτελέσει κάποιες πιο εξειδικευμένες κινήσεις που δεν θα μπορούσε να μάθει εύκολα μέσω της μηχανικής μάθησης. Continuation Bet (Cbet) To Cbet είναι απλά ένα bet στο flop από τον preflop raiser, ακόμα και αν δεν έχει βελτιωθεί το χέρι του στο flop. Για παράδειγμα, αν γίνεται raise με ΑcΚh και flop = 4d9sQh κάνοντας ένα Cbet μπορεί να κερδηθεί το POT χωρίς να υπάρχει κάποιο δυνατό χέρι. Το Cbet είναι συνήθως επιτυχημένο καθώς 2 στις 3 φορές ο αντίπαλος δε θα βγάλει κάποιο ζευγάρι στο flop. Ένα καλό Cbet είναι περίπου 2/3 ή 3/4 του μεγέθους του POT. Είναι καλό να αποφεύγεται το Cbet σε παίκτες που κάνουν συχνά call (calling stations). Η επιτυχία ενός Cbet εξαρτάται και από το flop. 60

61 ΚΕΦΑΛΑΙΟ 3: Μεθοδολογία ανάπτυξης του πράκτορα Π.χ. είναι πιο δύσκολο να πιάσει ένα Cbet, όταν στο flop υπάρχουν Draws για κέντα και χρώμα. Semi Bluff Ο όρος Semi Bluff αναφέρεται όταν γίνεται μπλόφα, αλλά υπάρχουν κάποιες πιθανότητες να επιτευχθεί το καλύτερο χέρι στο turn ή στο river. Π.χ. έχουμε στο χέρι μας Ad4d και flop = KdQs2d. Αν κάνουμε bet/raise, σε αυτήν την περίπτωση σημαίνει ότι κάνουμε μπλόφα, καθώς είναι πολύ πιθανό να μην έχουμε το καλύτερο χέρι αυτή τη στιγμή. Ωστόσο, αν έρθει ένα ακόμα καρό στο turn ή στο river, τότε θα έχουμε το καλύτερο χέρι. Η διαφορά της SemiBluff και της TotalBluff είναι ότι η SemiBluff έχει equity(με τον όρο equity εννοούμε την πιθανότητα που υπάρχει για να κερδηθεί το POT) στο POT, ενώ η TotalBluff έχει σχεδόν μηδενική equity. Όσο πιο μικρή equity υπάρχει σε ένα POT, τόσο πιο πολύ ρίσκο παίρνει κάποιος κάνοντας μία μπλόφα, καθώς σε περίπτωση που αντίπαλος κάνει call, θα έχει πολύ μικρές πιθανότητες να κερδίσει. Πίνακας 3.2: Παράδειγμα Semi Bluff για το Flop SEMI-BLUFF 1: Αν (HandPotential>0.6 & 0.4<HandStrength<0.6 & position<>dealer & Αριθμός raises στον γύρο=0) 2: Με πιθανότητα 20% κάνε raise 3: Τέλος_Αν The Check Raise Το check-raise εφαρμόζεται όταν κάνει κάποιος check out of position και περιμένει ένα bet του αντιπάλου, με την προοπτική να του κάνει raise. Το check-raise είναι χρήσιμο και όταν γίνεται μπλόφα (με σκοπό να δείξει κάποιος δύναμη και να του πάρει το POT) αλλά και όταν υπάρχει ένα πολύ δυνατό χέρι και θέλει κάποιος να αυξήσει το μέγεθος του POT. Επίσης, με το check-raise γίνεται κάποιος περισσότερο απρόβλεπτος, ένα στοιχείο που είναι πολύ σημαντικό στο Texas Holdem, καθώς μπορεί να παραπλανήσει τον αντίπαλο. 61

62 ΚΕΦΑΛΑΙΟ 3: Μεθοδολογία ανάπτυξης του πράκτορα The free card play Το free Card Play μπορεί να εφαρμοστεί ώστε να παρεμποδισθεί ο αντίπαλος από το να ποντάρει στο turn. Αυτό θα κάνει κάποιον να βάλει λιγότερες μάρκες στο POT από ότι θα είχε κάνει αν έκανε call στο flop και μετά call στο turn. Η τεχνική αυτή εφαρμόζεται όταν δεν υπάρχει Position και όταν υπάρχει ένα δυνατό Drawing Hand. Π.χ. έστω ότι έχουμε Ad6d και flop = QdJs5d. Είμαστε out of position και κάνουμε check. Αν ο αντίπαλος μας κάνει check, τότε πήραμε τη δωρεάν κάρτα για το turn. Αν ο αντίπαλος κάνει Bet, τότε εμείς θα πρέπει να κάνουμε raise όταν έρθει η σειρά μας. Έτσι αν ο αντίπαλος κάνει call και δεν έρθει καρό στο turn, εμείς κάνουμε check στο turn και τότε το πιο πιθανό είναι να κάνει και ο αντίπαλος check behind στο turn λόγω της επιθετικότητας μας στο flop. Έτσι θα πάρουμε δωρεάν το river. Σε περίπτωση που δεχθούμε re-raise στο flop θα πρέπει να υπολογίσουμε τα ODDS και αναλόγως να κάνουμε call ή fold, καθώς ο αντίπαλος έχει δείξει δύναμη. Κάποιες φορές θα πρέπει να δοθεί free card στον αντίπαλο. Π.χ. αν έχουμε position και έχουμε πολύ δυνατό χέρι (π.χ. Set τριπλέτα ) και δεν υπάρχουν draws στο flop, θα μπορούσαμε να κάνουμε check behind στο flop και να δώσουμε free card στον αντίπαλο, με την ελπίδα να πιάσει κάτι και να του πάρουμε ένα ποσό στο turn και στο river. The Blocking Bet Το Blocking Bet γίνεται όταν κάποιος είναι out of position και θέλει να δει ένα showdown ή την επόμενη κάρτα φθηνά. Έτσι κάνοντας ένα μικρό bet σχετικά με το μέγεθος του POT μπορεί να εμποδίσει τον αντίπαλο από το να κάνει ένα μεγάλο bet (αν έχει κάνει check), στο οποίο δε θα ήταν κερδοφόρο (-EV) να κάνει call. Ωστόσο αν δε χρησιμοποιηθεί σωστά ή σε λάθος καταστάσεις μπορεί απλά να είναι μια σπατάλη σε μάρκες. Συνήθως αυτό το Bet εφαρμόζεται όταν κάποιος έχει ένα drawing hand και θέλει να δει τις επόμενες κάρτες σχετικά φθηνά ή αν είναι στο river και δεν έχει πολύ δυνατό χέρι και απλά θέλει να δει το showdown πιο φθηνά από ότι αν έκανε call σε bet του αντιπάλου. 62

63 ΚΕΦΑΛΑΙΟ 3: Μεθοδολογία ανάπτυξης του πράκτορα Ωστόσο αν δε χρησιμοποιηθεί σωστά ή σε λάθος καταστάσεις μπορεί απλά να είναι μια σπατάλη μαρκών. Συνήθως αυτό το Bet εφαρμόζεται όταν έχεις ένα drawing hand και θες να δεις τις επόμενες κάρτες σχετικά φθηνά ή αν είσαι στο river και δεν έχεις πολύ δυνατό χέρι και απλά θέλεις να δεις το showdown πιο φθηνά από ότι αν έκανες call σε bet του αντιπάλου. Σε αυτό το τμήμα εφαρμόζονται επίσης οι κανόνες που θα διασφαλίσουν την ομαλή λειτουργία του πράκτορα όπως φαίνεται στο σχήμα 3.10 Σχήμα 3.10: Κανόνες καλής συμπεριφοράς 63

64 ΚΕΦΑΛΑΙΟ 4: Πειράματα και Αποτελέσματα Κεφάλαιο 4 Πειράματα και Αποτελέσματα 4.1 Εισαγωγή Στο προηγούμενο κεφάλαιο δόθηκε μια συνοπτική περιγραφή των βημάτων της ανάπτυξης του πράκτορα. Εδώ θα παρουσιαστούν οι δοκιμές που έγιναν και θα αξιολογηθούν τα αποτελέσματα. Θα περιγραφεί αναλυτικά η σειρά με την οποία αυτά εκτελέστηκαν κατά την ανάπτυξη του πράκτορα και το πώς αυτός πήρε την τελική μορφή του. Σχήμα 4.1: Διαδικασία εκτέλεσης των πειραμάτων. Η διαδικασία δημιουργίας και επιλογής των δεδομένων εκπαίδευσης παρουσιάζεται στην ενότητα 4.2, ενώ η επιλογή των παραμέτρων για το ΔΗΚ στην ενότητα 4.3. Η αξιολόγηση του πράκτορα έγινε απέναντι σε έξι πράκτορες που παρουσιάζονται παρακάτω. Όλες οι αναμετρήσεις έγιναν στην πλατφόρμα Open Meerkat Hold'em Τestbed που παρουσιάστηκε στο κεφάλαιο 2.6 και γίνονται σε δύο σετ παιχνιδιών, όπου στο δεύτερο σετ τα φύλλα μοιράζονται ανάποδα, έτσι ώστε να εξαλειφθεί κατά το δυνατόν ο παράγοντας της τύχης. Σε όλα τα παιχνίδια το small 64

Δείτε περισσότερα