Αυτόνομοι Πράκτορες Μαριάνος Νίκος Αυτόνομοι Πράκτορες. Χειμερινό Εξάμηνο 2016 Κωδικός Μαθήματος ΠΛΗ513 Πρότζεκτ Μαθήματος

Σχετικά έγγραφα
ΠΛΗ 513-Αυτόνομοι Πράκτορες Χειμερινό εξάμηνο 2012 Εφαρμογή αλγορίθμων ενισχυτικής μάθησης στο παιχνίδι Βlackjack. Χλης Νικόλαος-Κοσμάς

Τσάπελη Φανή ΑΜ: Ενισχυτική Μάθηση για το παιχνίδι dots. Τελική Αναφορά

Blackjack: Στρατηγική, συμβουλές και τρόπος παιχνιδιού - ΚΑΛΑΜΠΑΚΑ CITY KALAMPAKA METEOR

Αυτόνομοι Πράκτορες. Εργασία εξαμήνου. Μάθηση του παιχνιδιού British square με χρήση Temporal Difference(TD) Κωνσταντάκης Γιώργος

ΜΑΘΗΜΑΤΙΚΑ Ε ΔΗΜΟΤΙΚΟΥ ΤΕΤΡΑΔΙΟ ΕΡΓΑΣΙΩΝ

Πίστας Αγώνα Αρχικών Στοιχημάτων Βοηθήματος Παικτών Πρώτου Παίκτη Τούρμπο Πρώτο στοίχημα: Κατασκευή της πίστας:

ΑΥΤΟΝΟΜΟΙ ΠΡΑΚΤΟΡΕΣ. ΑΝΑΦΟΡΑ ΕΡΓΑΣΙΑΣ Othello-TD Learning. Βόλτσης Βαγγέλης Α.Μ

ΕΙΣΑΓΩΓΗ ΠΕΡΙΕΧΟΜΕΝΑ. 96 Κάρτες αντικειμένων 4 Κάρτες επεξήγησης ενεργειών Οδηγίες. Απεικόνιση Αντικειμένου. Αρνητικος Αριθμός.

Περιεχόμενα του Παιχνιδιού

Οδηγίες. Θα το παίξεις... και θα πεις κι ένα τραγούδι!

Το Κ2 είναι ένα παιχνίδι για 1 έως 5 παίκτες, ηλικίας 8 ετών και άνω, με διάρκεια περίπου 60 λεπτά.

Πληροφοριακά Συστήματα Διοίκησης (ΜΒΑ) Ενότητα 8: Παίγνια πλήρους και ελλιπούς πληροφόρησης

ΠΕΡΙΕΧΟΜΕΝΑ ΤΟΥ ΠΑΙΧΝΙΔΙΟΥ

Σχεδιασμός Ψηφιακών Εκπαιδευτικών Εφαρμογών ΙI

Περιεχόμενα 1 Scriptorium (Ταμπλό Αξίας Κατηγορίας) 5 εξάπλευρα ζάρια 87 κάρτες

2). V (s) = R(s) + γ max T (s, a, s )V (s ) (3)

ΕΠΙΣΗΜΟΙ ΚΑΝΟΝΕΣ ΤΟΥ ΟΙ ΚΑΡΤΕΣ

Monitor Games BOWLING

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΔΙΑΓΩΝΙΣΜΑ ΠΡΟΣΟΜΟΙΩΣΗΣ 23/04/2012. Α. Να απαντήσετε με Σ ή Λ στις παρακάτω προτάσεις:

Το Μπαούλο του κυρ Γιάννη

ΠΟΡΕΙΑ ΤΟΥ ΠΑΙΧΝΙΔΙΟΥ Σε κάθε γύρο έχετε 2 ενέργειες. Στην κάθε ενέργεια μπορείτε να κάνετε ένα από τα εξής:

ΕΞΕΡΕΥΝΗΣΤΕ ΤΗ ΜΥΣΤΗΡΙΩΔΗ ΝΗΣΟ

Διαδρομών Μέρμηγκα Μερμηγκιών Τζίτζικα Τζίτζικα Επιλογής Επιλογής Φθινόπωρο Φθινόπωρο Προμηθειών Χειμώνα Δύναμης Χειμώνα Φθινόπωρο Χειμώ- νας

Ένα παιχνίδι του Stefan Feld ΣΧΕΤΙΚΑ ΜΕ ΤΟ ΠΑΙΧΝΙΔΙ ΠΕΡΙΕΧΟΜΕΝΑ

ΠΕΡΙΕΧΟΜΕΝΑ - ΒΑΣΙΚΟ ΠΑΙΧΝΙΔΙ

Αυτόνομοι Πράκτορες. Εργασία εξαμήνου. Value Iteration και Q- Learning για Peg Solitaire

40 πιόνια 10 x κόκκινο, πορτοκαλί, μαύρο, μπλε. 7 ελέφαντες 3 λιοντάρια 6 κανονικοί 1 σούπερ κροκόδειλοι κροκόδειλος

EMOJITO! 7 Δίσκοι Ψηφοφορίας. 100 Κάρτες Συναισθημάτων. 1 Ταμπλό. 7 Πιόνια παικτών. 2-7 Παίκτες

Σκοπός του παιχνιδιού Σκοπός του παιχνιδιού είναι να τοποθετήσει πρώτος ο παίκτης όλα τα πλακίδιά του στο τραπέζι.

Επιπεδοπόλεµος(Flatwar)

Σχετικά με το Παιχνίδι. Περιεχόμενα. Ένα παιχνίδι στρατηγικών κατασκευών για 2 παίκτες ηλικίας 8 και άνω, από τον Arve D. Fuhler

1 κεντρικό ταμπλό. 1 εγχειρίδιο οδηγιών. Κύβοι μεταναστών. 25 Ιρλανδοί 25 Άγγλοι 25 Γερμανοί 25 Ιταλοί. Δείκτες πολιτικής εύνοιας

Περιεχόμενα του Παιχνιδιού

ΤΕΛΙΚΟ ΕΠΑΝΑΛΗΠΤΙΚΟ ΔΙΑΓΩΝΙΣΜΑ

Να απαντήσετε τα θέματα 1 και 2 αιτιολογώντας πλήρως τις απαντήσεις σας. Το κάθε θέμα είναι 10 μονάδες.

ΠΕΡΙΕΧΟΜΕΝΑ ΕΓΧΕΙΡΙΔΙΟΥ

1 ο ΔΙΔΑΚΤΙΚΟ ΦΥΛΛΟ «Jeu speech» ΠΩΣ ΕΙΣΑΙ;

Πλειστηριασμός Για να πλειοδοτήσει κάποιος άξονας θα πρέπει να αναλάβει την υποχρέωση

ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΑΡΧΕΣ ΤΗΣ ΕΠΙΣΤΗΜΗΣ ΤΩΝ Η/Υ

Προγνωστικά στοιχήματος Serie A στην εμβόλιμη αγωνιστική

ΣΚΟΠΟΣ. Ένα παιχνίδι ισχύος για 2 παίκτες, ηλικίας 13 και άνω.

250! (250 m)!m! 0.4m (1 0.4) 250 m

Το παιχνίδι αυτό είναι επέκταση και απαιτεί τη χρήση των παρακάτω

Το παιχνίδι διαρκεί αρκετούς γύρους, με τον κάθε γύρο να αποτελείται από 4 φάσεις:

ΔΙΑΓΩΝΙΣΜΑ ΣΤΗΝ ΠΛΗΡΟΦΟΡΙΚΗ

Προετοιμασία του παιχνιδιού

ΕΙΣΑΓΩΓΗ ΚΑΙ ΣΚΟΠΟΣ ΤΟΥ ΠΑΙΧΝΙΔΙΟΥ


Περιεχόμενα. Πέτρα. Χρυσός. Βιβλίο. Τροφή. Πόντοι Νίκης. Ρίξιμο ξανά. Ανάλυση ενός πλακιδίου. Ονομασία Κόστος ( ή

Περιεχόμενα και προετοιμασία για τέσσερις παίκτες

Πολυτεχνείο Κρήτης Τμήμα ΗΜΜΥ Χειμερινό Εξάμηνο Intelligence Lab. Αυτόνομοι Πράκτορες. Κουσανάκης Βασίλης

Περιεχόμενα. Σκοπός του παιχνιδιού. Ένα παιχνίδι του Dirk Henn για 2-6 παίκτες

Το Jungle Speed είναι ένα παιχνίδι για 2 έως 10 παίκτες (ή και ακόμη περισσότερους!) ηλικίας 7 και άνω.

ΠΑΙΧΝΙΔΙ PACMAN 3D ΜΕ ΜΕΘΟΔΟΥΣ ΕΝΙΣΧΗΤΙΚΗΣ ΜΑΘΗΣΗΣ

Προγραμματιστικές Ασκήσεις, Φυλλάδιο 1

Η ΔΙΔΑΣΚΑΛΙΑ ΤΩΝ ΠΙΘΑΝΟΤΗΤΩΝ ΣΤΟ ΔΗΜΟΤΙΚΟ ΣΧΟΛΕΙΟ

Χαρτοπαίγνια. Ένα παιχνίδι, ατέλειωτη διασκέδαση

Παγκόσμια Ολυμπιάδα Ρομποτικής Κατηγορία Πανεπιστημίου. «WRO Bowling» Κανόνες δοκιμασίας

Το 1ο βήμα ανανέωσης. Νέα οθόνη ΚΙΝΟ. Επίσημη οθόνη στατιστικών ΚΙΝΟ από τον ΟΠΑΠ

ΜΙΑ ΕΠΕΚΤΑΣΗ ΓΕΜΑΤΗ ΤΡΥΦΕΡΟΤΗΤΑ ΑΠΟ ΤΟΥΣ AN NE B U A & COR N N L B AT

Ε. Τοποθετήστε τους δείκτες σκορ, στη θέση 0 του μετρητή βαθμολογίας. ΣΤ. Τοποθετήστε τον δείκτη χρόνου στη θέση Ι του μετρητή χρόνου.

Ασκήσεις μελέτης της 6 ης διάλεξης

Όταν κάποιος ξεκινήσει τον πλειστηριασμό με μια αγορά σκοπός του είναι να περιγράψει όσο καλύτερα μπορεί το χέρι του στον συμπαίκτη του.

Εισαγωγή. Περιεχόμενα. Μέσα στο Κουτί. Εισαγωγή Στόχος Μέσα στο Κουτί Οι Κάρτες Περιγραφή των Καρτών Επιβίβαση!...

ΠΕΡΙΕΧΟΜΕΝΑ: 88 στόχοι 48 λεγεώνες 23 δείκτες ενεργοποίησης. Επτά λεγεώνες και. κατακτηθεί. Απόθεμα λεγεώνων. Στοίβα στόχων

Εισαγωγή. Περιεχόμενα

(1) 98! 25! = 4 100! 23! = 4

= 14 = 34 = Συνδυαστική Ανάλυση

ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ I Παντελής Δημήτριος Τμήμα Μηχανολόγων Μηχανικών

1. Πότε χρησιμοποιούμε την δομή επανάληψης; Ποιες είναι οι διάφορες εντολές (μορφές) της;

σύµβολο μεταξύ δύο καρτών, τα οποία και πρέπει να βρείτε. σύµβολο στις δύο αυτές κάρτες.

Μονάδες 12 ΑΡΧΗ 1ΗΣ ΣΕΛΙΔΑΣ

ΕΦΑΡΜΟΓΗ Q-LEARNING ΣΕ GRID WORLD ΚΑΙ ΕΞΥΠΝΟΣ ΧΕΙΡΙΣΜΟΣ ΤΟΥ LEARNING RATE ΛΑΘΙΩΤΑΚΗΣ ΑΡΗΣ ΑΥΤΟΝΟΜΟΙ ΠΡΑΚΤΟΡΕΣ

= = Αντεστραμμένες κάρτες Αντεστραμμένες κάρτες Αντεστραμμένες κάρτες. Παίκτες: 2-4 Ηλικία: από 8 ετών Διάρκεια: περ. 20 λεπτά

Σκοπός του παιχνιδιού. Ένα παιχνίδι του Matthias Cramer για 2-5 παίκτες ηλικίας 12 ετών και άνω

Παράδειγμα 2. Λύση & Επεξηγήσεις. Τέλος_επανάληψης Εμφάνισε "Ναι" Τέλος Α2

Παρουσίαση Περιεχομένων. Σκοπός του Παιχνιδιού. Προετοιμασία

Η φόρμα δίνει σημεία στην Σέριε Α

ΠΡΟΒΛΗΜΑ Έστω ότι θέλουµε να αναπτύξουµε ένα πρόγραµµα για να παίζουµε το παιχνίδι 31. Το παιχνίδι θα παίζεται σύµφωνα µε τους ακόλουθους κανόνες:

ΔΙΑΓΩΝΙΣΜΑ: ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΤΑΞΗ:- Γ ΛΥΚΕΙΟΥ ΤΜΗΜΑΤΑ: ΓΟ4 ΓΟ7 (ΖΩΓΡΑΦΟΥ) ΓΟ5 ΓΟ6 (ΧΟΛΑΡΓΟΣ) HM/NIA: 15/1/2017

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ Τελικό επαναληπτικό διαγώνισμα Επιμέλεια: Δρεμούσης Παντελής

2-5 Παίκτες - Ηλικία λεπτά

Ε Δ Δ Δ Ο Δ B Τ Π. Το παιχνίδι αυτό είναι επέκταση και απαιτεί τη χρήση των παρακάτω κομματιών μιας από τις βασικές εκδόσεις του Ticket to Ride:

Μία πλούσια επέκταση για το BANG!

ΣΕΜΙΝΑΡΙΟ ΕΚΠΑΙΔΕΥΣΗΣ

Περιεχόμενα του Παιχνιδιού

Λονδίνο, 17 Νοεμβρίου 1896

32 κάρτες-πόλης 9 κάρτες-χαρακτήρων 5 κάρτες-αστυνομίας

Λύσεις 1ης Ομάδας Ασκήσεων

ΔΙΑΓΩΝΙΣΜΑ ΠΡΟΣΟΜΟΙΩΣΗΣ ΣΤΗΝ ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ

Βγαίνουν τα ζευγάρια των ημιτελικών του Copa America

Επιχειρηματική Ηθική Τμήμα Λογιστικής και Χρηματ/μικής

ΑΡΧΗ 1ΗΣ ΣΕΛΙΔΑΣ Γ ΗΜΕΡΗΣΙΩΝ

Δύο αναμετρήσεις στην Primera Division την Παρασκευή

Τμήμα Πολιτισμικής Τεχνολογίας και Επικοινωνίας

Κάρτες Κτιρίων και τα αντίστοιχα Ξύλινα Κομμάτια

ΗΥ118 Διακριτά Μαθηματικά. Εαρινό Εξάμηνο 2016

Ημέρα φαβορί στην Serie A

ΠΕΡΙΕΧΟΜΕΝΑ ΤΟΥ ΠΑΙΧΝΙΔΙΟΥ 10 ζάρια με 6 σύμβολα το κάθε ένα. 1 διπλής όψεως κεντρικό ταμπλό με 3 ή 4 φορτηγά. 1 μολύβι

Οι παίκτες παίρνουν το ρόλο των χειρότερων πειρατών στο πλήρωμα ενός πλοίου. Ο καπετάνιος σας έχει στη μπούκα, επειδή είστε πολύ τεμπέληδες και

Transcript:

Αυτόνομοι Πράκτορες Χειμερινό Εξάμηνο 2016 Κωδικός Μαθήματος ΠΛΗ513 Πρότζεκτ Μαθήματος Thit O C Gm with ifocmt ig (Ενισχυτική Μάθηση στο παιχνίδι τριάντα μια) Μία εργασία του Νίκου Μαριάνου Α.Μ. 2011030091

Περιγραφή παιχνιδιού Το παιχνίδι στα πλαίσια της συγκεκριμένης εργασίας αποτελείται από έναν παίχτη και ένα D. Υπό κανονικές συνθήκες,συνθήκες καζίνο, μπορούν να συμμετέχουν παραπάνω από ένας παίχτης. Πρόκειται για ένα παιχνίδι πόντων. Ο παίχτης όπως και ο D προσπαθούν να μαζέψουν όσο το δυνατόν περισσότερους πόντους δίχως να ξεπεράσουν το 31. Το 31 είναι το ανὼτερο δυνατό άθροισμα πόντων που μπορεί να οδηγήσει στην νίκη τον κάτοχό του. Αν κάποιος απο τους συμμετέχοντες ξεπεράσει το 31 τότε χάνει τον συγκεκριμένο γύρο. Το κάθε φύλλο της τράπουλας έχει κάποια συγκεκριμένη αξία σε πόντους. Τα φύλλα από 2 εώς 10 έχουν αξία ίση με τον αριθμό τους. Οι φιγούρες (Jck, Qu, Kig) έχουν αξία 10 πόντων, ενώ ο άσος (Ac) έχει αξία 11 πόντων και μόνο. Σε αντίθεση με το BckJck όπου τα φύλλα διαχωρίζονται σε oft & h, ανάλογα με τον αριθμό των άσων. Το παιχνίδι απαρτίζεται από δύο φάσεις. Η πρώτη είναι το μοίρασμα των αρχικών καρτών. Μία κάρτα μοιράζεται στον παίχτη, μία στον D. Μία δεύτερη μοιράζεται στον παίχτη και ακόμα μια στον D. Ο D εμφανίζει την πρώτη του κάρτα για να μπορεί να την λάβει υπόψη του ο παίχτης. Στην δεύτερη φάση ο παίχτης καλείται να αποφασίσει ανάμεσα σε δύο επιλογές. Πρώτον να κάνει it, πράγμα που σημαίνει οτι το άθροισμα των αξιών των καρτών του δεν το θεωρεί ικανό να κερδίσει απέναντι στον D και ζητάει επιπρόσθετη κάρτα, ή δεύτερον να τερματίσει εκεί τον γύρο του και να δώσει την σειρά του στον D για να τραβήξει κάρτα. Στο τέλος και της δεύτερης φάσης αυτός ο οποίος έχει το μεγαλύτερο νόμιμο άθροισμα είναι νικητής του γύρου. Προβλήματα Τα προβλήματα τα οποία παρουσιάστηκαν στην πραγματοποίηση της εργασίας ήταν τα εξής : Το πρότζεκτ είναι αρκετά απαιτητικό και σε περίοδο εξεταστικής. Αυτό δημιουργεί την ανάγκη καλού προγραμματισμού. Κατά τα άλλα αν και αφιέρωσα πολλές ώρες,λόγω του οτι το πρότζεκτ το είχα επιλέξει μόνος μου, ήταν πολύ ενδιαφέρον και μάλιστα ήθελα να ασχοληθώ και με άλλους αλγορίθμους πέρα από αυτό που απαιτούσε η άσκηση αλλά δεν πρόλαβα. Υλοποίηση Το πρώτο στάδιο της υλοποίησης αποτελεί η δημιουργία του παιχνιδιού της 31 αυτού κάθ`αυτού για να μπορέσω να είμαι σίγουρος ότι όλα λειτουργούν σωστά πριν προχωρήσω. Ο κώδικας αυτός είναι και στούς απεσταλμένους κώδικες για επιπλέον έλεγχο. Η υλοποίηση του D έγινε ως εξής: Διάβασα οτι στα περισσότερα καζίνο ο D τραβάει επιπρόσθετα φύλλα όσο το άθροισμα τους είναι κάτω από 27. Οπότε και εγώ τον έφτιαξα να κάνει το ίδιο πράγμα γιατί θα ήταν άδικο να τον κάνω να τραβάει φύλλο όσο βλέπει οτι το άθροισμά του είναι μικρότερο απο το άθροισμα του παίχτη. Για την ακρίβεια το υλοποίησα και έτσι και ο παίχτης πετύχαι ποσοστό νικών 5,0 % με 5,8%. Επίσης σε πολλά μεγάλα καζίνο στο παιχνίδι συμμετέχουν παραπάνω απο μία τράπουλες. Πολλές φορές ο αριθμός τους ξεπερνάει τις 6. Στην υλοποίηση μου μπορούμε να έχουμε όσες τράπουλες θέλουμε και να διαλέξουμε αν θα είναι ανακατεμένες ή οχι. Σε σχόλια έχω και κώδικα όπου παρουσιάζει στο τέλος κάθε γύρου τις κάρτες που έχει ο παίχτης και ο D στο χέρι τους για να μπορείτε να δείτε οτι όντως δουλεύει σωστά. Έπειτα σειρά έχει η αξιολόγηση της διαδικασίας της μάθησης στο παιχνίδι της 31 ως MD. Το σύστημα ανταμοιβών που ακολούθησα είναι το εξής. Ανταμοιβή δέχεται ο παίχτης στο τέλος κάθε ανεξάρτητου γύρου ανάλογα με το αποτέλεσμα. Επειδή σε περίπτωση ισοπαλίας δεν κερδίζει ο

D αλλά ούτε και ο παίχτης κάθε φορά μπορεί να υπάρξει μόνο ενδεχόμενο νίκης ή ήττας ή ισοπαλίας για τον παίχτη. Σε περίπτωση ήττας λάμβανε ανταμοιβή -1 ενώ σε περίπτωση νίκης λάμβανε ανταμοιβή +1 και τέλος στην ισοπαλία λαμβάνει +0. Ο παράγοντας έκπτωσης γ εὶναι σταθερά 1. Οι ενέργειες όπως προ-είπα είναι δύο είτε IT(=1) είτε OLD(=0). Οι διαφορετικές καταστάσεις στις οποίες μπορεί να βρεθεί ο παίχτης είναι 100. Καθώς ο παίχτης θα σκεφτεί έαν θα τραβήξει φύλλο μόνο απο την στιγμή όπου κινδυνεύει στο επόμενο φύλλο να καεί. Δηλαδή η μάθηση θα εφαρμόζεται σε άθροισμα φύλλων μεγαλύτερο του 20. Οπότε έχουμε 21 εώς 31. Αλλά το 31 είναι το μεγαλύτερο δυνατό νόμιμο άθροισμα άρα δεν έχει κάτι να σκεφτεί στην περίπτωση του 31 η επιλογή του πρέπει να είναι πάντα OLD. Επομένως έχουμε 21 εως 30 άρα 10 καταστάσεις. Επίσης λαμβάνουμε υπόψη μας το φύλλο του D. Άλλες 10 καταστάσεις. Αξία φύλλου 2 εως 11. 10*10 = 100 διαφορετικές καταστάσεις. Επομένως η λογική που ακολουθεί ο παίχτης (Πράκτορας) είναι ότι όταν έχει άθροισμα αξίας φύλλων κάτω απο 21 τότε τραβάει επιπρόσθετο φύλλο διότι δεν υπάρχει περίπτωση ακόμα και με +11 δηλαδή με άσο να ξεπεράσει το όριο του 31, εάν έχει 31 τότε σταματάει, και εάν είναι ανάμεσα στο 21 και το 30 τότε αποφασίζει ανάλογα με το τι έχει `μάθει` από τους προηγούμενους γύρους. Για την υλοποίηση της μάθησης χρησιμοποίησα τον αλγόριθμο Q-Lig με αναπαράσταση πίνακα. Ο πίνακας Q(,) έχει 100 γραμμές λόγω τον 100 διαφορετικών καταστάσεων που μπορεί να βρεθεί ο πράκτορας και έχει δύο στήλες οι οποίες αντιπροσωπεύουν τις δυνατές ενέργειες σε κάθε κατάσταση όπου είναι είτε o,=0, είτε it,=1. Ο πράκτορας αποφασίζει την επόμενη ενέργεια του σύμφωνα με τις τιμές που έχει η Q στο σημειο που είναι. Το σημείο που βρήσκεται ο πράκτορας εξαρτάται από το φύλλο που έχει και από το φύλλο του D. Εκτελεί την ενέργεια με την μεγαλύτερη τιμή =(kowdc-2)*10+q.gtsum()-21; Παρακάτω παρουσιάζονται τα αποτελέσματα μετά από 10 000, 100 000, 200 000, 300 000, 500 000, 1 000 000 γύρους. Χρήση αλγορίθμου Q-Lig με ρυθμό μάθησης 0.5 σταθερ ὸ και συντελεστή έκπτωσης γάμμα = 1. Στους παρακάτω πίνακες με πράσινο χρώμα είναι οι περιπτώσεις που με ποσοστό μεγαλύτερο απο 50% ο παίχτης κερδίζεις και με κόκκινο οταν χάνει για κάθε ξεχωριστή περίπτωση επαναλήψεων.

10Κ D 28 1 1 1 1 1 1 0 1 0 0 Ποσοστό νικών για τις 10 000 επαναλήψεις 38.13% Ποσοστό νικών D για τις 10 000 επαναλήψεις 55.38% Ποσοστό ισοπαλίας 6.49% 100Κ D 28 1 1 1 1 1 1 1 1 1 0 Ποσοστό νικών για τις 100 000 επαναλήψεις 38.15% Ποσοστό νικών D για τις 100 000 επαναλήψεις 55.33% Ποσοστό ισοπαλίας 6.52%

200Κ D 28 1 1 1 1 1 1 1 1 0 0 Ποσοστό νικών για τις 200 000 επαναλήψεις 38.33% Ποσοστό νικών D για τις 200 000 επαναλήψεις 55.17% Ποσοστό ισοπαλίας 6.5% 300Κ D 28 1 1 1 1 1 1 1 1 1 0 Ποσοστό νικών για τις 300 000 επαναλήψεις 38.21% Ποσοστό νικών D για τις 300 000 επαναλήψεις 55.3% Ποσοστό ισοπαλίας 6.49%

500Κ D 28 1 1 1 1 1 1 1 1 0 0 Ποσοστό νικών για τις 500 000 επαναλήψεις 38.64% Ποσοστό νικών D για τις 500 000 επαναλήψεις 54.94% Ποσοστό ισοπαλίας 6.42% 1M D 28 1 1 1 1 1 1 1 1 1 0 Ποσοστό νικών για τις 1 000 000 επαναλήψεις 38.72% Ποσοστό νικών D για τις 1 000 000 επαναλήψεις 54.84% Ποσοστό ισοπαλίας 6.44%

Ακολουθεί ο πίνακας που δείχνει το συνολικό ποσοστό νικών για τον πράκτορα σε ὸλες τις περιπτώσεις εκπαίδευσης. Πίνακας που δείχνει το συνολικό ποσοστό ηττών για τον πράκτορα σε λες τις περιπτώσεις ὸ εκπαίδευσης.

Πίνακας που δείχνει το συνολικό ποσοστό ισοπαλιών για τον πράκτορα σε ὸλες τις περιπτώσεις εκπαίδευσης. Η έκφραση Th ou Aw wi αποδείχτηκαι και στην εργασία αυτή. Η έκφραση αυτή σημαίνει πολύ απλά ότι μέσα σε βάθος χρόνου πάντα θα κερδίζει ο D. Στη συγκεκριμένη εργασία φτάσαμε μετά απ ὸ 1 000 000 επαναλήψεις να έχουμε πιθανότητα νίκης ίση με 38.72% για τον παίχτη και αντίστοιχα 54.84% για τον D. Έπειτα από την υλοποίηση αυτού του πρώτου μέρους το οποίο έχει σταθερό ρυθμό μάθησης, ακολουθεί η υλοποίηση με μεταβαλώμενο ρυθμό μάθησης. Ο παρακάτω πίνακας μας παρουσιάζει τα αποτελέσμα για μείωσει του ρυθμού μάθησης κάθε 200 000 επαναλήψεις για συνολική εκπαίδευση 1 000 000 επαναλήψεων. 1M D 28 1 1 1 1 1 1 1 1 1 0

ΟΧΙ ΣΤΑΘΕΡΟΣ ΡΥΘΜΌΣ ΜΆΘΗΣΗΣ. Ποσοστό νικών για τις 1 000 000 επαναλήψεις 38.75% Ποσοστό νικών D για τις 1 000 000 επαναλήψεις 54.87% Ποσοστό ισοπαλίας 6.38% Σύγκριση των αποτελεσμάτων για σταθερό ρυθμό μάθησης και για μη-σταθερό ρυθμό μάθησης Ποσοστ ὰ (%) Αλφα==0.5 (Σταθερό) Άλφα!= Σταθερού Νίκες 38.72 38.75 Ήττες 54.84 54.87 Ισοπαλίες 6.44 6.38 Βελτίωση στο ποσοστό νικών για τις 1 000 000 επαναλήψεις 0.03% Βελτίωση στο ποσοστό νικών D για τις 1 000 000 επαναλήψεις 0.03% Βελτίωση στο ποσοστό ισοπαλίας 0.06%