Τσάπελη Φανή ΑΜ: 2004030113. Ενισχυτική Μάθηση για το παιχνίδι dots. Τελική Αναφορά



Σχετικά έγγραφα
Αυτόνομοι Πράκτορες. Εργασία εξαμήνου. Μάθηση του παιχνιδιού British square με χρήση Temporal Difference(TD) Κωνσταντάκης Γιώργος

ΑΥΤΟΝΟΜΟΙ ΠΡΑΚΤΟΡΕΣ. ΑΝΑΦΟΡΑ ΕΡΓΑΣΙΑΣ Othello-TD Learning. Βόλτσης Βαγγέλης Α.Μ

ΠΛΗ 513-Αυτόνομοι Πράκτορες Χειμερινό εξάμηνο 2012 Εφαρμογή αλγορίθμων ενισχυτικής μάθησης στο παιχνίδι Βlackjack. Χλης Νικόλαος-Κοσμάς

Αυτόνομοι Πράκτορες Μαριάνος Νίκος Αυτόνομοι Πράκτορες. Χειμερινό Εξάμηνο 2016 Κωδικός Μαθήματος ΠΛΗ513 Πρότζεκτ Μαθήματος

Αυτόνομοι Πράκτορες. Εργασία εξαμήνου. Value Iteration και Q- Learning για Peg Solitaire

Ασκήσεις μελέτης της 6 ης διάλεξης

Προγραμματιστικές Ασκήσεις, Φυλλάδιο 1

Θεωρία Λήψης Αποφάσεων

Τεχνητή Νοημοσύνη. 6η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

Κάνοντας ακριβέστερες μετρήσεις με την βοήθεια των Μαθηματικών. Ν. Παναγιωτίδης, Υπεύθυνος ΕΚΦΕ Ν. Ιωαννίνων


Σκοπός του παιχνιδιού Σκοπός του παιχνιδιού είναι να τοποθετήσει πρώτος ο παίκτης όλα τα πλακίδιά του στο τραπέζι.

Επίλυση Προβλημάτων 1

Κεφάλαιο 1: Κίνηση και γεωμετρικά σχήματα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ Θεωρία Παιγνίων και Αποφάσεων Διδάσκων: Ε. Μαρκάκης, Εαρινό εξάμηνο 2015

ΣΚΗΝΙΚΟ ΥΠΟΒΑΘΡΑ ΑΡΧΙΚΗ

Θεωρία Παιγνίων Δρ. Τασσόπουλος Ιωάννης

Κύματα Εξισώσεις Μεθοδολογία

Chess Academy Free Lessons Ακαδημία Σκάκι Δωρεάν Μαθήματα. Οι κινήσεις των κομματιών Σκοπός της παρτίδας, το Ματ Πατ Επιμέλεια: Γιάννης Κατσίρης

PROJECT ΣΤΟ ΜΑΘΗΜΑ ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΕΥΡΕΤΙΚΕΣ ΜΕΘΟ ΟΥΣ

Επίλυση προβληµάτων. Περιγραφή προβληµάτων Αλγόριθµοι αναζήτησης Αλγόριθµοι τυφλής αναζήτησης Αλγόριθµοι ευρετικής αναζήτησης


Κεφάλαιο 5. Αλγόριθµοι Αναζήτησης σε Παίγνια ύο Αντιπάλων. Τεχνητή Νοηµοσύνη - Β' Έκδοση

Επίλυση προβλημάτων με αναζήτηση

Πληροφοριακά Συστήματα Διοίκησης (ΜΒΑ) Ενότητα 8: Παίγνια πλήρους και ελλιπούς πληροφόρησης

4.2 ΕΥΚΛΕΙΔΕΙΑ ΔΙΑΙΡΕΣΗ

Ενότητα 5: ΜΕΤΑΒΛΗΤΕΣ

ΚΙΝΗΣΕΙΣ KNOCK OUT ΕΙΣΑΓΩΓΗ ΑΠΛΟ KNOCK OUT

Μάθημα 1: Εισαγωγή. Κάνε κλικ την εντολή "κινήσου" και με το ποντίκι πατημένο μετέφερε τη στη περιοχή σεναρίων.

Καροτοκυνηγός. Αντικείμενα

ΜΟΝΟΤΟΝΙΑ ΑΚΡΟΤΑΤΑ - ΑΝΤΙΣΤΡΟΦΗ ΣΥΝΑΡΤΗΣΗ

Τιμή Τιμή. σκορ. ζωές

1.1 ΔΕΙΓΜΑΤΙΚΟΙ ΧΩΡΟΙ ΕΝΔΕΧΟΜΕΝΑ

ΜΑΘΗΜΑΤΙΚΑ MATHEMATICS

ΕΙΣΑΓΩΓΗ ΠΕΡΙΕΧΟΜΕΝΑ. 96 Κάρτες αντικειμένων 4 Κάρτες επεξήγησης ενεργειών Οδηγίες. Απεικόνιση Αντικειμένου. Αρνητικος Αριθμός.

Παραδείγματα (2) Διανυσματικοί Χώροι

1ο μέρος 1. Φτιάχνουμε την πίστα. Μια ενδεικτική πίστα φαίνεται παρακάτω:

Λίγα λόγια... Περιεχόμενα

Τεχνητή Νοημοσύνη. 17η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

ΜΑΘΗΜΑΤΙΚΑ Ε ΔΗΜΟΤΙΚΟΥ ΤΕΤΡΑΔΙΟ ΕΡΓΑΣΙΩΝ

Εγχειρίδιο Χρήσης του «Μαθη.Συ.»

Θεωρία Γραφημάτων 6η Διάλεξη

Γραφικά υπολογιστών Εργαστήριο 10 Εισαγωγή στα Sprites

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ Τελικό επαναληπτικό διαγώνισμα Επιμέλεια: Δρεμούσης Παντελής

Τεχνητή Νοημοσύνη (ΥΠ23) 6 ο εξάμηνο Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Ουρανία Χατζή

ΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Python. 1η Ομάδα Ασκήσεων

Για παράδειγμα η αρχική και η τελική κατάσταση αναπαριστώνται ως εξής: (ένα λίτρο)

Χρήστος Ι. Σχοινάς Αν. Καθηγητής ΔΠΘ. Συμπληρωματικές σημειώσεις για το μάθημα: «Επιχειρησιακή Έρευνα ΙΙ»

Θεωρία Παιγνίων Δρ. Τασσόπουλος Ιωάννης

ρ πε α εμ των α ματ ών 2014 Ο Η ΡΗ Ο Ο Γ Ρ Θ μα 2ο

Α Λυκείου Άλγεβρα Τράπεζα Θεμάτων Το Δεύτερο Θέμα

Φάσμα προπαρασκευή για Α.Ε.Ι. & Τ.Ε.Ι.

Αλγόριθμοι Αναζήτησης σε Παίγνια Δύο Αντιπάλων

Κεφάλαιο 4ο: Δικτυωτή Ανάλυση

ΠΟΡΕΙΑ ΤΟΥ ΠΑΙΧΝΙΔΙΟΥ Σε κάθε γύρο έχετε 2 ενέργειες. Στην κάθε ενέργεια μπορείτε να κάνετε ένα από τα εξής:

32 κάρτες-πόλης 9 κάρτες-χαρακτήρων 5 κάρτες-αστυνομίας

Παραδείγματα (1 ο σετ) Διανυσματικοί Χώροι

Παραδείγματα μεταβλητών

Πλειστηριασμός Για να πλειοδοτήσει κάποιος άξονας θα πρέπει να αναλάβει την υποχρέωση

Δεύτερο πακέτο ασκήσεων

ΘΕΜΑ 2. βρείτε. (Μονάδες 15) με διαφορά ω.

ΠΑΙΓΝΙΑ Παιχνίδια Γενική Θεώρηση μεγιστοποιήσει την πιθανότητά

Χαρακτήρες διαιρετότητας ΜΚΔ ΕΚΠ Ανάλυση αριθμού σε γινόμενο πρώτων παραγόντων

Ενότητα: GameMaker Τα βασικά. Δημιουργώντας ένα παιχνίδι µε το GameMaker

ΟΔΗΓΙΕΣ ΑΥΤΟΔΙΟΡΘΩΣΗΣ +ΛΥΣΕΙΣ ΘΕΜΑΤΩΝ ΠΡΟΣΟΜΟΙΩΣΗΣ ΠΑΝΕΛΛΑΔΙΚΩΝ ΕΞΕΤΑΣΕΩΝ ΣΤΑ ΜΑΘΗΜΑΤΙΚΑ ΚΑΙ ΣΤΟΙΧΕΙΑ ΣΤΑΤΙΣΤΙΚΗΣ ΓΕΝΙΚΗΣ ΠΑΙΔΕΙΑΣ

Περιεχόμενα. 1. Ανάλυση ευαισθησίας. (1) Ανάλυση ευαισθησίας (2) Δυϊκό πρόβλημα (κανονική μορφή) (3) Δυαδικός προγραμματισμός (4) Ανάλυση αποφάσεων

δίου ορισμού, μέσου του τύπου εξαρτημένης μεταβλητής του πεδίου τιμών που λέγεται εικόνα της f για x α f α.

Μεταβλητές. Σενάριο για μαθητές Γ γυμνασίου διάρκειας 3+ ωρών

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕΔΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ

Ο ΗΓΙΕΣ ΧΡΗΣΗΣ ΤΟΥ ΕΡΓΑΛΕΙΟΥ ΙΑΧΕΙΡΙΣΗΣ ΠΡΟΣΩΠΙΚΟΥ ΧΩΡΟΥ ΤΗΣ ALTEC SOFTWARE

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΕΠΑΝΑΛΗΠΤΙΚΟ ΔΙΑΓΩΝΙΣΜΑ ΣΧΟΛΙΚΟΥ ΕΤΟΥΣ

1 κεντρικό ταμπλό. 1 εγχειρίδιο οδηγιών. Κύβοι μεταναστών. 25 Ιρλανδοί 25 Άγγλοι 25 Γερμανοί 25 Ιταλοί. Δείκτες πολιτικής εύνοιας

Μέθοδοι πολυδιάστατης ελαχιστοποίησης

Ισορροπία (balance) Οι ιδιότητες που δημιουργεί η μέθοδος του ακεραίου τοπ.

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΕΠΑΝΑΛΗΠΤΙΚΟ ΔΙΑΓΩΝΙΣΜΑ ΣΧΟΛΙΚΟΥ ΕΤΟΥΣ

Επαναληπτικές μέθοδοι

Συνδυαστική Βελτιστοποίηση Εισαγωγή στον γραμμικό προγραμματισμό (ΓΠ)

1 Πρότυπο Πειραματικό Λύκειο Θεσσαλονίκης «Μανόλης Ανδρόνικος» Διαγωνισμός Γρίφων Μάιος 2012

Φεργαδιώτης Αθανάσιος ΤΡΑΠΕΖΑ ΘΕΜΑΤΩΝ ΣΤΗΝ ΑΛΓΕΒΡΑ Α ΛΥΚΕΙΟΥ. Θέμα 2 ο (150)

Βασίλειος Μαχαιράς Πολιτικός Μηχανικός Ph.D.

ΔΕΟ13 - Επαναληπτικές Εξετάσεις 2010 Λύσεις

Παραδείγματα Απαλοιφή Gauss Απαλοιφή Gauss Jordan

ΘΕΜΑ 2. Θεωρούμε την ακολουθία (α ν ) των θετικών περιττών αριθμών: 1, 3, 5, 7,

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΔΙΑΓΩΝΙΣΜΑ ΠΡΟΣΟΜΟΙΩΣΗΣ 23/04/2012. Α. Να απαντήσετε με Σ ή Λ στις παρακάτω προτάσεις:

ΚΙΝΗΣΕΙΣ ΠΛΕΚΤΩΝ (INTERWOVEN) HOWELL

Ποσοτικές Μέθοδοι στη Διοίκηση Επιχειρήσεων ΙΙ Σύνολο- Περιεχόμενο Μαθήματος

Τομές Γραφήματος. Γράφημα (μη κατευθυνόμενο) Συνάρτηση βάρους ακμών. Τομή : Διαμέριση του συνόλου των κόμβων σε δύο μη κενά σύνολα

Συναρτήσεις. 5.1 Η έννοια της συνάρτησης. 1. Να συμπληρώσετε τις τιμές των παρακάτω συναρτήσεων : α) ψ = 2χ + 6 o Για χ = -1,5 : ψ =..=..

Μεταβλητές. Για περισσότερες λεπτομέρειες πάνω στις μεταβλητές θα ήταν χρήσιμο να διαβάσεις το

ΚΙΝΗΣΕΙΣ ΠΛΕΚΤΩΝ (INTERWOVEN) HOWELL

ΦΥΣΙΚΗ ΠΡΟΣΑΝΑΤΟΛΙΣΜΟΥ Γ ΛΥΚΕΙΟΥ ΣΥΜΒΟΛΗ ΚΥΜΑΤΩΝ. Επιμέλεια: ΑΓΚΑΝΑΚΗΣ A.ΠΑΝΑΓΙΩΤΗΣ, Φυσικός.


ΟΔΗΓΙΕΣ ΧΡΗΣΕΩΣ. Αυτό το βιβλίο είναι γεμάτο με δραστηριότητες για δύο φίλους.

Συστηματική Αναζήτηση και Ενισχυτική Μάθηση για το Επιτραπέζιο Παιχνίδι Backgammon

Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό υλικό, όπως εικόνες, που υπόκειται σε άλλου τύ

α n z n = 1 + 2z 2 + 5z 3 n=0

4. ΚΕΦΑΛΑΙΟ ΕΦΑΡΜΟΓΕΣ ΤΟΥ ΜΕΤΑΣΧΗΜΑΤΙΣΜΟΥ FOURIER

ΠΕΡΙΕΧΟΜΕΝΑ ΤΟΥ ΠΑΙΧΝΙΔΙΟΥ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

Transcript:

Τσάπελη Φανή ΑΜ: 243113 Ενισχυτική Μάθηση για το παιχνίδι dots Τελική Αναφορά Περιγραφή του παιχνιδιού Το παιχνίδι dots παίζεται με δύο παίχτες. Έχουμε έναν πίνακα 4x4 με τελείες, και σκοπός του κάθε παίχτη είναι να ενώνει ανά δύο τις τελείες με γραμμές έτσι ώστε να σχηματίσει ένα τετράγωνο. Οι παίχτες παίζουν διαδοχικά τραβώντας κάθε φορά μία γραμμή από μία τελεία σε μία άλλη διπλανή. Ο παίχτης που καταφέρνει να σχηματίσει ένα τετράγωνο το σημειώνει με κάποιο χρώμα που σηματοδοτεί ότι είναι δικό του, και έχει δικαίωμα να ξαναπαίξει (δηλαδή ο αντίπαλος χάνει τη σειρά του). Το παιχνίδι τελειώνει όταν δεν υπάρχουν άλλες επιτρεπτές κινήσεις ( δηλαδή όλες οι τελείες έχουν ενωθεί σχηματίζοντας τετράγωνα) και κερδίζει ο παίχτης που θα σχηματίσει τα περισσότερα τετράγωνα. Κατά τη λήξη του παιχνιδιού ο συνολικός αριθμός των τετραγώνων που έχουν σχηματιστεί είναι περιττός (9 τετράγωνα), άρα είναι προφανές ότι το παιχνίδι δεν μπορεί να λήξει με ισοπαλία. Υλοποίηση του αλγορίθμου TD-learning για την εύρεση μιας συνάρτησης αξιολόγησης Η συνάρτηση αξιολόγησης που χρησιμοποίησα είναι γραμμική της μορφής: U = w[]*f[]+w[1]*f[1]+w[2]*f[2]+w[3]*f[3]+w[4]*f[4]+w[]*f[] + w[6]*f[6] με f[] τον αριθμό των τετραγώνων που δεν έχουν καμία ακμή, f[1] τον αριθμό αυτών που έχουν μία, f[2] για δύο, f[3] για τρείς, f[4] ο αριθμός των συμπληρωμένων τετραγώνων που ανήκουν σε εμένα, f[] o αριθμός των συμπληρωμένων τετραγώνων που ανήκουν στον αντίπαλο και τέλος κρατάω την τιμή του f[6] σταθερή και ίση με 1. Ο σταθερός αυτός όρος χρειάζεται ώστε να επηρεάζονται οι τιμές των βαρών με συντελεστές f[], f[1] και f[2] από τις αλλαγές που γίνονται στα υπόλοιπα βάρη (και το αντίστροφο) καθώς στην αρχή του παιχνιδιού οι τιμές των f[3], f[4] και f[], είναι μηδενικές ενώ στο τέλος είναι μηδενικές οι f[], f[1] και f[2]. Όταν το παιχνίδι τερματίσει λαμβάνεται μια ανταμοιβή R ίση με την διαφορά των τετραγώνων που συμπλήρωσα 'εγώ' με τα τετράγωνα του αντιπάλου. Η επιλογή της επόμενης κίνησης γίνεται με τον αλγόριθμο minimax και κλάδεμα a-b. Κάθε φορά που πρέπει να αποφασιστεί η επόμενη κίνηση, δημιουργείται μια λίστα με αντικείμενα τύπο GameState, τα οποία αντιπροσωπεύουν όλα τα boards που μπορούν να προκύψουν δεδομένης της κατάστασης που βρισκόμαστε. Με βάση τον αλγόριθμο minimax επιλέγουμε ένα από αυτά σαν την επόμενη κατάσταση. H αναζήτηση minimax φτάνει σε βάθος 4 (δύο ζεύγη κινήσεων εγώ αντίπαλος). Φυσικά σε περίπτωση που ένας από τους δύο παίκτες πρέπει να ξαναπαίξει, η αναζήτηση συνεχίζεται σε μεγαλύτερο βάθος μέχρι να παίξουν και οι δύο παίκτες από δύο φορές. Τέλος υλοποιήθηκε ο αλγόριθμος TD learning με βάση τον οποίο ενημερώνονται τα βάρη. Πιο συγκεκριμένα τα βάρη ενημερώνονται με βάση την εξίσωση

w[i] = w[i] + a*( NextState.getUtility - CurrentState.getUtility)*f[i], για μη τερματικές καταστάσεις και w[i] = w[i]+a*(currentstate.getr()-currentstate.getutility())*f[i]; To a ενημερώνεται με βάση τη συνάρτηση a =./N όπου N η συχνότητα εμφάνισης μιας συγκεκριμένης κατάστασης στην οποία βρισκόμαστε. Για την ενημέρωση του a δημιούργησα έναν Vector όπου αποθηκεύεται κάθε νέος πίνακας f που συναντάται, μαζί με έναν αριθμό που δείχνει πόσες φορές εμφανίστηκε. Αν και διαφορετικά board μπορούν να έχουν τον ίδιο πίνακα f, θεωρώ ότι δεν με ενδιαφέρει το ποια τετράγωνα έχουν πόσες ακμές αλλά το πόσα τετράγωνα έχουν έναν αριθμό ακμών και έτσι καταστάσεις που προκαλούν ίδιο πίνακα f θεωρούνται ίδιες. Προβλήματα που παρουσιάστηκαν Αρχικά είχα πει πως το board θα αποτελούνταν από 6x6 τελείες. Χρειαζόταν όμως αρκετός χρόνος για να τρέξει η εφαρμογή ώστε να συγκλίνουν τα βάρη για τον εξής λόγο: αν και με το κλάδεμα α-β η ο χρόνος αναζήτησης της επόμενης κίνησης μειώνεται πολύ, όταν παίζει ο ίδιος παίκτης διαδοχικά επειδή συμπλήρωσε κάποιο τετράγωνο δεν είναι δυνατόν να γίνει κλάδεμα αφού χάνεται η ιδιότητα αυτή του αλγορίθμου. Έτσι ο χρόνος αναζήτησης αυξάνεται πολύ και το πρόβλημα γίνεται πολύ εντονότερο όταν κάποιος από τους παίχτες κάνει συνέχεια διαδοχικές κινήσεις. Το πρόβλημα αυτό υπάρχει βέβαια και για το board που υλοποίησα τελικά, αλλά δεν γίνεται τόσο αισθητό λόγο του μικρότερου αριθμό κινήσεων. Δοκίμασα επίσης να υλοποιήσω και ένα board x περιορίζοντας λίγο το βάθος της αναζήτησης μόνο σε περιπτώσεις που εμφανιζόταν η προβληματική κατάσταση που ανέφερα παραπάνω, έτσι ο χρόνος αναζήτησης ήταν σχετικά ικανοποιητικός. Υπήρχε ένα άλλο πρόβλημα όμως : χρησιμοποιώντας την συνάρτηση ενημέρωσης για το α που ανέφερα παραπάνω, τα βάρη δε συγκλίνουν αλλά κάνουν μια ταλάντωση. Αυτό οφείλεται (μάλλον) στο ότι ο ρυθμός που μειώνεται το α είναι μικρότερος σε σχέσει με αυτόν για το 4x4 board καθώς έχω μεγαλύτερο αριθμό κινήσεων οπότε το Ν (συχνότητα εμφάνισης μιας κατάστασης) αυξάνεται με μικρότερο ρυθμό. Δοκίμασα κάποια διαφορετικά α και βάρη και έτρεξα τον αλγόριθμο για περισσότερα παιχνίδια, αλλά δεν είχε αποτέλεσμα και επιπλέον ήταν πολύ χρονοβόρο οπότε το άφησα. Αποτελέσματα Αρχίζοντας με τα βάρη : [.1137499999999999, -.199837,.1999966299999996,.312796911, -.12468174, -.2823268893999999,.4126867] καταλήγω στα: [-.211834811991761,.1238388188748348, -.284896979262,.6421911688,.792698699782, -.696428397647,.89381618123737] Η σύγκλιση των βαρών γίνεται βάζοντας τον υπολογιστή να παίζει 6 παιχνίδια μετ τον εαυτό του και η εξέλιξη των βαρών στο χρόνο φαίνεται παρακάτω:

w [ ] 4 3 2 1-1 - 3 w [ 1 ] 4 3 2 1-1 - 3

1 2 w [ 2 ] 1 8 6 4 2-4 - 6 2 w [ 3 ] 1 1 - - 1-1

1 w [ 4 ] - - 1-1 1 w [ ] 1 - - 1

1. w [ 6 ] 1. -. - 1-1.. Οδηγίες για την εκτέλεση Αν εκτελέσετε την εφαρμογή θα εμφανιστεί το παράθυρο που εμφανίζεται στα video. Επιλέξτε μια από τις δύο επιλογές : Human to play first ή Computer to play first για να εμφανιστεί το board. Σε οποιαδήποτε στιγμή κατά τη διάρκεια του παιχνιδιού μπορείτε να πατήσετε new game για να ξεκινήσετε ένα νέο παιχνίδι. Τα τετράγωνα που συμπληρώνεται εσείς σημειώνονται με μια κόκκινη κουκκίδα ενώ του αντιπάλου (υπολογιστή) με μια πράσινη. Όταν παίζεται ο υπολογιστής δε μαθαίνει, αλλά χρησιμοποιεί τα βάρη στα οποία έχει ήδη καταλήξει. Σε περίπτωση που θέλετε να τρέξετε τον αλγόριθμο TD-learning για να δοκιμάσετε κάποια άλλα βάρη (ή να δείτε πως τρέχει) πρέπει να αλλάξετε τη μεταβλητή learning που υπάρχει στη main από σε 1.