Η Μηχανική Μάθηση στο Σχολείο: Μια Προσέγγιση για την Εισαγωγή της Ενισχυτικής Μάθησης στην Τάξη



Σχετικά έγγραφα
Πολυτεχνείο Κρήτης Τμήμα ΗΜΜΥ Χειμερινό Εξάμηνο Intelligence Lab. Αυτόνομοι Πράκτορες. Κουσανάκης Βασίλης

Λογισμικό διδασκαλίας των μαθηματικών της Γ Τάξης Γυμνασίου

ΤΠΕ στα ηµοτικά Σχολεία. Κωνσταντίνος Χαρατσής ρ Ηλεκτρολόγος Μηχ & Μηχ. Η/Υ Εκπαιδευτικός ΠΕ19

Ξεκινώντας τον Προγραµµατισµό στις τάξεις του ηµοτικού Παίζοντας µε το Scratch

Γράφοντας ένα σχολικό βιβλίο για τα Μαθηματικά. Μαριάννα Τζεκάκη Αν. Καθηγήτρια Α.Π.Θ. Μ. Καλδρυμίδου Αν. Καθηγήτρια Πανεπιστημίου Ιωαννίνων

Games: Εξοικείωση με το περιβάλλον του Game Maker μέσα από την κατασκευή ενός παιχνιδιού

ΚΕΦΑΛΑΙΟ Μηχανική Μάθηση

ΘΕΜΑ : Μια βιωματική διδακτική πρόταση στην Πληροφορική Γ Γυμνασίου με θέμα: «Από τον Αλγόριθμο στον Προγραμματισμό σε περιβάλλον MicroWorlds Pro»

Πληροφορική Γυμνασίου. Δρ. Κοτίνη Ισαβέλλα Σχ. Σύμβουλος Πληροφορικής Πέλλας, Ημαθίας και Πιερίας

Διδακτική της Πληροφορικής

Μαθησιακές δραστηριότητες με υπολογιστή

ΔΙΔΑΣΚΑΛΙΑ ΤΗΣ ΕΝΝΟΙΑΣ ΤΟΥ ΟΡΙΟΥ ΣΥΝΑΡΤΗΣΗΣ

Εκπαιδευτικό Σενάριο 2

Τα Νέα Προγράμματα Σπουδών για τις ΤΠΕ στην υποχρεωτική εκπαίδευση

Το μάθημα Διδακτική Μαθημάτων Ειδικότητας φέρνει τους φοιτητές σε επαφή με τα επιστημονικά, επιστημολογικά και διδακτικά χαρακτηριστικά της κάθε

Σενάριο 14: Προγραμματίζοντας ένα Ρομπότ ανιχνευτή

2). V (s) = R(s) + γ max T (s, a, s )V (s ) (3)

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΠΛΗΡΟΦΟΡΙΚΗ

ΣΕΝΑΡΙΟ ΤΠΕ ΓΕΝΙΚΕΥΜΕΝΟ ΠΥΘΑΓΟΡΕΙΟ ΘΕΩΡΗΜΑ - ΝΟΜΟΣ ΣΥΝΗΜΙΤΟΝΩΝ

Σενάριο 13. Προγραμματίζοντας ένα Ρομπότ

Εισαγωγή στην έννοια του Αλγορίθμου

Διδακτικό Σενάριο: «Αναζήτηση Εικόνων στο Διαδίκτυο»

Διδακτικές Προσεγγίσεις και Εργαλεία για τη Διδασκαλία της Πληροφορικής

Πληροφορική 2. Τεχνητή νοημοσύνη

Ασκήσεις μελέτης της 19 ης διάλεξης

Πληροφορική και Τεχνολογίες Πληροφορίας & Επικοινωνιών: Συνύπαρξη και παιδαγωγική πρακτική. Τάσος Μικρόπουλος Ιωάννα Μπέλλου Πανεπιστήμιο Ιωαννίνων

Τo πρόγραμμα «Διάγραμμα Ροής» και η διδακτική του αξιοποίηση στην Διδασκαλία του προγραμματισμού

Εισαγωγή στις δομές δεδομένων Στοίβα και Ουρά με τη βοήθεια του Scratch

x = r cos φ y = r sin φ

Διδακτική Προγραμματισμού. Χαρίκλεια Τσαλαπάτα 20/2/2012

ΔΗΜΙΟΥΡΓΙΑ ΓΕΩΜΕΤΡΙΚΩΝ ΣΧΗΜΑΤΩΝ ΣΕ LOGO

1 ο ΔΗΜΟΤΙΚΟ ΣΧΟΛΕΙΟ ΣΙΝΔΟΥ ΔΙΑΔΙΚΤΥΑΚΟΣ ΕΚΦΟΒΙΣΜΟΣ ΗΜΕΡΑ ΑΣΦΑΛΟΥΣ ΔΙΑΔΙΚΤΥΟΥ

Βασικές εντολές σχεδίασης στη γλώσσα προγραμματισμού Logo Εντολή επανάληψης

ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΠΛΗΡΟΦΟΡΙΚΗ

ΔΗΜΙΟΥΡΓΙΑ ΓΕΩΜΕΤΡΙΚΩΝ ΣΧΗΜΑΤΩΝ ΣΕ LOGO

ΚΑΤΑΣΚΕΥΗ ΠΑΡΑΛΛΗΛΟΓΡΑΜΜΩΝ ΜΕ ΧΡΗΣΗ LOGO

Η ανοικτή αυτή πρακτική έχει διάρκεια 2 διδακτικών ωρών και λαμβάνει μέρος στο εργαστήριο πληροφορικής του σχολείου.

ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΙΑΣ. Ειδική Φυσική Αγωγή. Ενότητα 3η: Εξατομικευμένο Εκπαιδευτικό Πρόγραμμα (Ε.Ε.Π.)

Μαθηματικά και Πληροφορική. Διδακτική Αξιοποίηση του Διαδικτύου για τη Μελέτη και την Αυτο-αξιολόγηση των Μαθητών.

Τα σχέδια μαθήματος 1 Εισαγωγή

Τα Διδακτικά Σενάρια και οι Προδιαγραφές τους. του Σταύρου Κοκκαλίδη. Μαθηματικού

ΕΘΝΙΚΟ ΚΑΙ ΚΑΠΟΔΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ

Εκπαιδευτική Αξιοποίηση Λογισμικού Γενικής Χρήσης

ΔΙΔΑΚΤΙΚΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ

Εισαγωγή στη Ρομποτική και τον Προγραμματισμό με τη χρήση του ρομπότ Thymio & του λογισμικού Aseba

Οργάνωση Διδασκαλίας 9/10/2017

Διαφοροποίηση στρατηγικών διδασκαλίας ανάλογα με το περιεχόμενο στα μαθήματα των φυσικών επιστημών

2.1 Εισαγωγή στο Scratch

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ Π ΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ Π ΕΡΙΒΑΛΛΟΝ

ΠΛΗΡΟΦΟΡΙΚΗ Γ ΤΑΞΗΣ ΓΕΛ ΚΛΕΙΩ ΣΓΟΥΡΟΠΟΥΛΟΥ. ΣΥΓΧΡΟΝΑ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΑ ΠΕΡΙΒΑΛΛΟΝΤΑ Αντικειμενοστραφής Προγραμματισμός

Διδακτικές προσεγγίσεις στην Πληροφορική. Η εποικοδομιστική προσέγγιση για τη γνώση. ως ενεργητική και όχι παθητική διαδικασία

1. Τίτλος: Οι κρυµµένοι τριγωνοµετρικοί αριθµοί Συγγραφέας Βλάστος Αιµίλιος. Γνωστική περιοχή των µαθηµατικών: Τριγωνοµετρία

ΠΛΗ 513-Αυτόνομοι Πράκτορες Χειμερινό εξάμηνο 2012 Εφαρμογή αλγορίθμων ενισχυτικής μάθησης στο παιχνίδι Βlackjack. Χλης Νικόλαος-Κοσμάς

ΕΝΟΤΗΤΑ ΣΕΝΑΡΙΟΥ 9 ΔΟΜΕΣΕΠΙΛΟΓΗΣΣΤΟ SCRATCH

ΕΚΠΑΙ ΕΥΤΙΚΟ ΣΕΝΑΡΙΟ

Πτυχιακή Εργασία Οδηγώντας ένα Ρομποτικό Αυτοκίνητο με το WiFi. Η Ασύρματη Επικοινωνία, χρησιμοποιώντας

ΔΙΔΑΣΚΑΛΙΑ ΤΟΥ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ ΜΕ ΧΡΗΣΗ ΤΟΥ ΠΑΚΕΤΟΥ ΡΟΜΠΟΤΙΚΗΣ LEGO MINDSTORMS NXT

ΠΕΡΙΓΡΑΜΜΑ ΜΑΘΗΜΑΤΟΣ

Τ.Ε.Ι. ΑΝΑΤΟΛΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΚΑΙ ΘΡΑΚΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΓΡΑΜΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ

ΕΚΠΑΙΔΕΥΤΙΚΟ ΣΕΝΑΡΙΟ.

Σχεδίαση Εκπαιδευτικού Λογισμικού. Εργασία 2 - Α' φάση. Σενάριο/Σχέδιο μαθήματος. Σταματία Κορρέ Μ1430

Υπολογιστικής Σκέψης

ΕΦΑΡΜΟΓΗ Q-LEARNING ΣΕ GRID WORLD ΚΑΙ ΕΞΥΠΝΟΣ ΧΕΙΡΙΣΜΟΣ ΤΟΥ LEARNING RATE ΛΑΘΙΩΤΑΚΗΣ ΑΡΗΣ ΑΥΤΟΝΟΜΟΙ ΠΡΑΚΤΟΡΕΣ

Επιμέλεια παρουσίασης: Αριστείδης Παλιούρας ΤΙ ΕΊΝΑΙ ΈΝΑ ΡΟΜΠΟΤ (ROBOT)?

«Τίποτα για πέταμα. Tα παλιά γίνονται καινούργια»

Δραστηριότητα 1 Σχεδιασμός σκηνικού

Αναδιάρθρωση και Εξορθολογισμός της διδακτέας ύλης στο Γυμνάσιο για το μάθημα της Πληροφορικής

ΔΟΜΕΣ ΕΠΑΝΑΛΗΨΗΣ ΟΣΟ ΣΥΝΘΗΚΗ ΕΠΑΝΑΛΑΒΕ.ΤΕΛΟΣ_ΕΠΑΝΑΛΗΨΗΣ. Κοκκαλάρα Μαρία ΠΕ19

Παίζουμε μπάσκετ; Εκπαιδευτική δραστηριότητα ρομποτικής στο προγραμματιστικό περιβάλλον Lego Mindstorms

Η ΕΚΠΑΙΔΕΥΤΙΚΗ ΡΟΜΠΟΤΙΚΗ ΣΤΟ ΔΗΜΟΤΙΚΟ ΣΧΟΛΕΙΟ

Θέμα: Αποτίμηση σεμιναρίου για τη διδακτική του προγραμματισμού Η/Υ του σχ. έτους

Τμήμα: Προσχολικής & Πρωτοβάθμιας Φωκίδας. Φορέας ιεξαγωγής: ΠΕΚ Λαμίας Συντονιστής: ημητρακάκης Κωνσταντίνος Τηλέφωνο:

Κεφάλαιο 5. Το Συμπτωτικό Πολυώνυμο

ΣΥΝΕΔΡΙΟ ΕΛ/ΛΑΚ 2010

Ειδικής Υποδομής Υποχρεωτικό

Πως μπορεί να επιτευχθεί η αυτονομία του φοιτητή; Βιβλία Summon αναζήτηση Π.χ. class management physical education

Γενικός προγραμματισμός στην ολομέλεια του τμήματος (διαδικασία και τρόπος αξιολόγησης μαθητών) 2 ώρες Προγραμματισμός και προετοιμασία ερευνητικής

Τεχνητή Νοημοσύνη. 18η διάλεξη ( ) Ίων Ανδρουτσόπουλος.

«Το Λογισμικό Αράχνη Επικουρικό Εργαλείο στην Διδασκαλία του Προγραμματισμού»

Εισαγωγική Επιμόρφωση για την εκπαιδευτική αξιοποίηση ΤΠΕ (Επιμόρφωση Β1 Επιπέδου)

H Συμβολή της Υπολογιστικής Σκέψης στην Προετοιμασία του Αυριανού Πολίτη

ΤΟ ΠΡΟΣΗΜΟ ΤΟΥ ΤΡΙΩΝΥΜΟΥ

Η ανάλυση της κριτικής διδασκαλίας. Περιεχόμενο ή διαδικασία? Βασικό δίλημμα κάθε εκπαιδευτικού. Περιεχόμενο - η γνώση ως μετάδοση πληροφορίας

ΚΥΚΛΟΣ ΣΤΑΤΙΣΤΙΚΗΣ ΕΡΕΥΝΑΣ

ΡΟΜΠΟΤΙΚΗ ΟΡΑΣΗ. Όταν ένα ρομπότ κινείται σε άγνωστο χώρο ή σε χώρο που μπορεί να αλλάξει η διάταξή του τότε εμφανίζεται η ανάγκη της όρασης μηχανής.

Πώς το λένε Computer game στο Scratch

Κατερίνα Χατζηφωτεινού. Αλγοριθμικά παιχνίδια & Kodu

Η διάρκεια πραγματοποίησης της ανοιχτής εκπαιδευτικής πρακτικής ήταν 2 διδακτικές ώρες

Η εφαρμογή διαχείρισης λογιστικών φύλλων Microsoft Excel ως εκπαιδευτικό εργαλείο μάθησης

ΣΧΕΔΙΟ ΜΑΘΗΜΑΤΟΣ: ΜΑΘΗΜΑΤΙΚΑ ΣΤ ΔΗΜΟΤΙΚΟΥ «ΤΑ ΚΛΑΣΜΑΤΑ»

ΦΟΡΜΑ ΥΠΟΒΟΛΗΣ ΠΡΟΤΑΣΗΣ ΓΙΑ ΤΗ ΔΗΜΙΟΥΡΓΙΑ ΟΜΙΛΟΥ ΣΧΟΛΙΚΟΥ ΕΤΟΥΣ ΝΙΚΟΛΑΟΣ ΑΜΑΝΑΤΙΔΗΣ 1 Ο ΠΡΟΤΥΠΟ ΠΕΙΡΑΜΑΤΙΚΟ ΔΗΜΟΤΙΚΟ ΣΧΟΛΕΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ

e-εκπαιδευτησ Περίληψη Η παρούσα εισήγηση αφορά την παρουσίαση του εκπαιδευτικού λογισμικού με τίτλο

ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΥΠΟΥΡΓΕΙΟ ΠΑΙΔΕΙΑΣ ΔΙΑ ΒΙΟΥ ΜΑΘΗΣΗΣ ΚΑΙ ΘΡΗΣΚΕΥΜΑΤΩΝ Να διατηρηθεί μέχρι... Βαθμός Ασφαλείας...

Μεταβλητές. Σενάριο για μαθητές Γ γυμνασίου διάρκειας 3+ ωρών

Α.2 Μαθησιακά Αποτελέσματα Έχοντας ολοκληρώσει επιτυχώς το μάθημα οι εκπαιδευόμενοι θα είναι σε θέση να:

Μάθημα: Διδακτική της Πληροφορικής. Περιγραφή μαθήματος. Διδάσκων: Παλαιγεωργίου Γ. Διαλέξεις: Παρασκευή 17:00-20:00

Να γνωρίσουν οι µαθητές όσο το δυνατό περισσότερες έννοιες

ΠΡΑΚΤΙΚΗ ΑΣΚΗΣΗ 2013/14. Μιχαηλίδου Αγγελική Λάλας Γεώργιος

Τσικολάτας Α. (2011) Οι ΤΠΕ ως Εκπαιδευτικό Εργαλείο στην Ειδική Αγωγή. Αθήνα

ΜΕΛΕΤΗ ΠΕΔΙΟΥ ΚΑΙ DEBATE

Transcript:

6 ο Πανελλήνιο Συνέδριο «Διδακτική της Πληροφορικής» Φλώρινα, 20-22 Απριλίου 2012 Η Μηχανική Μάθηση στο Σχολείο: Μια Προσέγγιση για την Εισαγωγή της Ενισχυτικής Μάθησης στην Τάξη Σάββας Νικολαΐδης 1 ο Γυμνάσιο Έδεσσας savvas@sch.gr Περίληψη Η εργασία αυτή αποτελεί μια πρόταση για την εισαγωγή της Μηχανικής Μάθησης και συγκεκριμένα της Ενισχυτικής Μάθησης μέσω της μεθόδου Q-Learning στα σχολεία. Αναλύεται η μέθοδος και παρουσιάζεται γιατί η συγκεκριμένη μέθοδος αλλά και ο κλάδος της Μηχανικής Μάθησης γενικότερα είναι κατάλληλος για την εκπαιδευτική διαδικασία. Επίσης παρουσιάζεται η δυνατότητα να συνδυαστεί η μέθοδος Q-Learning με τη χρήση ρομπότ στο εκπαιδευτικό περιβάλλον. Λέξεις κλειδιά: Μηχανική Μάθηση, Ενισχυτική μάθηση, Q-Learning. Abstract This paper is a proposal for the introduction of Machine Learning and more precisely the Q- Learning algorithm of the Reinforcement Learning method in schools. The method is analyzed and we present why this particular method and the whole Machine Learning field are relevant to the educational process. We also present the importance of the ability to connect the Q- Learning algorithm with the use of robots in the educational environment. Keywords: Machine Learning, reinforcement learning, Q-Learning 1. Εισαγωγή Τεχνητή Νοημοσύνη είναι ο κλάδος της επιστήμης υπολογιστών όπου προσπαθούμε να κάνουμε τους υπολογιστές να συμπεριφερθούν σαν νοήμονα όντα. Βασική λειτουργία των νοημόνων όντων είναι η μάθηση. Με τον όρο μάθηση εννοούμε την βελτίωση της συμπεριφοράς με την απόκτηση πείρας. Η μηχανική μάθηση είναι η περιοχή της τεχνητής νοημοσύνης όπου ασχολούμαστε με αλγορίθμους και μεθόδους που επιτρέπουν σε υπολογιστικά συστήματα να βελτιώνουν τη συμπεριφορά τους με την απόκτηση γνώσης. (Mitchell, 1997). Οι αλγόριθμοι μηχανικής μάθησης κατηγοριοποιούνται ανάλογα με το επιθυμητό αποτέλεσμα του αλγορίθμου. Οι συνηθέστερες κατηγορίες είναι οι εξής: Μάθηση με Επίβλεψη (Supervised Learning). Είναι η κλασική προσέγγιση του προβλήματος της μηχανικής μάθησης. Ο αλγόριθμος κατασκευάζει μια συνάρτηση που απεικονίζει δεδομένες εισόδους σε γνωστές, επιθυμητές - 533 -

Ενότητα V Πληροφορική & Εκπαίδευση εξόδους (σύνολο εκπαίδευσης, υποδείγματα). Ο στόχος είναι η γενίκευση της συνάρτησης και για εισόδους με άγνωστη έξοδο. Μάθηση χωρίς Επίβλεψη (Unsupervised Learning). Ο αλγόριθμος κατασκευάζει ένα μοντέλο για κάποιο σύνολο εισόδων χωρίς να γνωρίζει επιθυμητές εξόδους για το σύνολο εκπαίδευσης. Ενισχυτική Μάθηση (Reinforcement Learning). Εδώ το σύστημα μας λειτουργεί με σκοπό να πετύχει έναν στόχο. Σαν καθοδήγηση στην αναζήτηση αυτή δεν έχει έναν άμεσο οδηγό όπως τα υποδείγματα στη μάθηση με επίβλεψη αλλά καθοδηγείται από "ανταμοιβές" και "τιμωρίες" που δέχεται ανάλογα με το αν οι ενέργειες του το φέρνουν πιο κοντά στη λύση ή όχι (Sutton & Barto, 1998). Σκοπός είναι να μεγιστοποιηθούν οι ανταμοιβές μακροπρόθεσμα. Τα αποτελέσματα των ενεργειών φαίνονται στο τέλος της διαδικασίας και γι αυτό η μέθοδος αυτή ονομάζεται και "μάθηση με καθυστέρηση" (Delayed Learning). Λειτουργεί σε καταστάσεις που ο στόχος είναι μακροπρόθεσμος σε ευμετάβλητα περιβάλλοντα και σε περιβάλλοντα για τα οποία έχουμε περιορισμένες πληροφορίες. Εφαρμογές βρίσκει στη ρομποτική, στα παιχνίδια κ.α. 2. Μηχανική Μάθηση στην τάξη 2.1 Ένταξη στο πρόγραμμα σπουδών και μαθησιακοί στόχοι Το αντικείμενο της Μηχανικής Μάθησης μπορεί να ενταχθεί στο πρόγραμμα σπουδών του Γυμνασίου στην ενότητα Προγραμματίζω τον Υπολογιστή του άξονα μαθησιακών στόχων Διερευνώ, ανακαλύπτω και λύνω προβλήματα με ΤΠΕ η οποία σύμφωνα με το Πρόγραμμα Σπουδών για τον Πληροφορικό Γραμματισμό στο Γυμνάσιο διδάσκεται και στις τρεις τάξεις του Γυμνασίου. Στην Α Γυμνασίου στα πλαίσια της ενότητας αυτής μπορούν να παρουσιαστούν από τον εκπαιδευτικό έτοιμα παραδείγματα λογισμικού Μηχανικής Μάθησης όπου οι μαθητές θα κληθούν να αλλάξουν τη συμπεριφορά του συστήματος μεταβάλλοντας παραμέτρους. Στην Β Γυμνασίου οι μαθητές καλούνται να κατανοήσουν τον αλγόριθμο Q-Learning που θα οδηγήσει έναν πράκτορα (agent) στην έξοδο λαβύρινθου, ενώ στην Γ τάξη μπορούν να τον υλοποιήσουν προγραμματιστικά Επίσης στην ενότητα Υλοποιώ σχέδια έρευνας με ΤΠΕ του άξονα μαθησιακών στόχων Διερευνώ, ανακαλύπτω και λύνω προβλήματα με ΤΠΕ η μέθοδος Q- Learning μπορεί να ενταχτεί στη δραστηριότητα της Εκπαιδευτικής Ρομποτικής όπου μπορούμε να εκπαιδεύουμε το ρομπότ να βρίσκει την έξοδο από έναν λαβύρινθο. Η γλώσσας προγραμματισμού που χρησιμοποιείται στο σχολείο στα πλαίσια της διδασκαλίας της ενότητας Προγραμματίζω τον Υπολογιστή είναι ικανό εργαλείο για να υλοποιηθούν οι απαραίτητοι αλγόριθμοι. Απλοποιημένες μορφές της μεθόδου - 534 -

6 ο Πανελλήνιο Συνέδριο «Διδακτική της Πληροφορικής» Φλώρινα, 20-22 Απριλίου 2012 Q-Learning μπορούν να υλοποιηθούν ακόμη και στο Microsoft Excel. Ο βασικός στόχος της εισαγωγής της Μηχανικής Μάθησης είναι η εξοικείωση των μαθητών με έννοιες της τεχνητής νοημοσύνης. Οι μαθητές μέσα από αυτή τη προσέγγιση θα συνειδητοποιήσουν ότι η Τεχνητή Νοημοσύνη δεν είναι υποχρεωτικά κάτι το πολύπλοκο και δυσνόητο με το οποίο ασχολούνται μόνο οι επιστήμονες της πληροφορικής άλλα κάτι που το συναντάμε σε πολλές εφαρμογές της καθημερινότητάς μας, όπως για παράδειγμα τα παιχνίδια του υπολογιστή, καθώς επίσης και κάτι που θα μπορούσαν και οι ίδιοι σε κάποιο βαθμό να το υλοποιήσουν. 2.2 Η μέθοδος Q-Learning Από τις διάφορες μεθόδους Μηχανικής Μάθησης πιστεύουμε ότι η μέθοδος της Ενισχυτικής Μάθησης και πιο συγκεκριμένα η μεθοδολογία Q-learning είναι αυτή που προσφέρεται καλύτερα για εφαρμογή στη τάξη. Οι λόγοι: Είναι εύκολα κατανοητή διαδικασία. Οι μαθητές μπορούν να κατανοήσουν τη λειτουργία της μεθόδου χωρίς πολλές προαπαιτούμενες γνώσεις. Κρατάει ζωντανό το ενδιαφέρον καθώς παρακολουθεί την πρόοδο του συστήματος που εκπαιδεύεται Η διαδικασία της εκπαίδευσης είναι αλληλεπιδραστική με δυνατότητα αλλαγών στο πεδίο όπως για παράδειγμα διαφορετική σχεδίαση του λαβύρινθου Οι μαθητές μπορούν να επέμβουν στην διαδικασία μάθησης ρυθμίζοντας παραμέτρους του συστήματος, όπως την παράμετρο λήθης, ώστε να επιτευχθούν τα καλύτερα δυνατά αποτελέσματα Προσομοιώνονται νοήμονες οργανισμοί και γίνονται πιο κατανοητές οι λειτουργίες τους. Μπορεί να εφαρμοστεί σε ρομπότ με φυσική υπόσταση. Έτσι υπάρχει αίσθηση ότι αυτό που γίνεται στον υπολογιστή έχει αντίκτυπο στον πραγματικό κόσμο. Ας φανταστούμε έναν πράκτορα (agent) που έχει δυνατότητα να κινείται μέσα σε ένα συγκεκριμένο χώρο, ας πούμε έναν λαβύρινθο. Έχει μια κάποια αντίληψη του χώρου όσο του επιτρέπουν οι αισθητήρες του. Ας υποθέσουμε επίσης ότι αρχικά δεν έχει καμιά ιδέα για τις συνέπειες των πράξεων του, δηλαδή δεν ξέρει με ποιο τρόπο οι ενέργειες του θα αλλάξουν τα προϊόντα των αισθήσεών του. Αυτό που δέχεται είναι "αμοιβή" αν βρει πχ την έξοδο, και "τιμωρία" αν για παράδειγμα συγκρουστεί με κάποιο εμπόδιο. Έστω ότι ο πράκτοράς μας έχει δυνατότητα να κινείται στον κόσμο του σχήματος 1α. Κάθε στιγμή η θέση του καθορίζεται από τις συντεταγμένες του κελιού του. Ξεκινάει από το κελί Α με συντεταγμένες (2,3) και σε κάθε διακριτή μονάδα του χρόνου έχει τη δυνατότητα να κινηθεί μια θέση πάνω, - 535 -

Ενότητα V Πληροφορική & Εκπαίδευση κάτω, δεξιά ή αριστερά. Στόχος του είναι να φτάσει στο κελί Σ με συντεταγμένες (6,7). Κάθε φορά που πέφτει σε τοίχο παίρνει "ανταμοιβή" -1 και όταν φτάσει στο Σ ανταμείβεται με +10. Όταν φτάνει στο Σ και αφού πάρει την ανταμοιβή του μεταφέρεται σε κάποιο άλλο τυχαίο κελί και συνεχίζει. Σχήμα 1 : (α) ο Κόσμος και (β) η Βέλτιστη Πολιτική Αυτό που πρέπει τελικά να αποκτήσει ο πράκτοράς μας είναι μια πολιτική, συγκεκριμένες δηλαδή οδηγίες για το τι θα πρέπει να κάνει σε κάθε δεδομένη κατάσταση (σε κάθε κελί) για να πλησιάσει τον τελικό του στόχο. Η βέλτιστη πολιτική για τον πράκτορά μας φαίνεται στο σχήμα 1β. Το ερώτημα είναι πως θα καταφέρει ο πράκτορας να αποκτήσει την πολιτική αυτή με μόνο δεδομένο την συνάρτηση ανταμοιβής. Στη μάθηση με ενίσχυση είναι λογικό ότι ανταμοιβές στο κοντινό μέλλον έχουν μεγαλύτερη αξία από αμοιβές σε πιο απομακρυσμένη χρονική στιγμή. Για παράδειγμα θα προτιμήσουμε μια κίνηση που θα μας οδηγήσει στο στόχο σε 5 βήματα από μια άλλη που θα κάνει το ίδιο σε 10. Ορίζουμε λοιπόν έναν συντελεστή λήθης γ στο διάστημα [0,1]. Η μέθοδος Q-Learning προτάθηκε από τον Watkins, (Watkins & Dayan, 1992). Σύμφωνα με αυτή τη μέθοδο διατηρούμε έναν πίνακα τιμών Q(X,α) για κάθε ζευγάρι κατάστασης Χ και δυνατής δράσης α που αναπαριστά την ποιότητα της συγκεκριμένης δράσης στη συγκεκριμένη θέση. Η δράση που τελικά επιλέγεται και εκτελείται είναι αυτή για την οποία η Q δίνει τη μέγιστη τιμή. Η τιμή της Q(X,α) επηρεάζεται από την απευθείας αμοιβή για την κίνηση αυτή που δίνει η συνάρτηση αμοιβής r(x,α) καθώς και από τη μέγιστη τιμή της Q στη νέα θέση Χ' ως εξής: Q( X, ) r( X, ) V ( X ') (1) όπου V(X') η μέγιστη τιμή του Q για τη νέα θέση, γ ο συντελεστής λήθης και β ο συντελεστής που μεταβάλλεται το Q από την παλιά στη νέα τιμή. - 536 -

6 ο Πανελλήνιο Συνέδριο «Διδακτική της Πληροφορικής» Φλώρινα, 20-22 Απριλίου 2012 Πίνακας 1: Οι τιμές του Q Χ α Q(X,α) r(x,α) (2,3) Π 4 0 (2,3) Κ 6 0 (2,3) Δ 3 0 (2,3) Α 7 0 (1,3) Π 5 0 (1,3) Κ 4 0 (1,3) Δ 2 0 (1,3) Α 4-1 Στο παράδειγμά μας ξεκινάμε με την Q να έχει τυχαίες τιμές σαν αυτές που φαίνονται στον πίνακα 1. Ξεκινώντας τον πράκτορα από τη θέση (2,3) βλέπει ότι η κίνηση α=α προς τα αριστερά έχει το μέγιστο Q και έτσι μετακινείται στο (1,3) χωρίς να πάρει καμία ανταμοιβή από τη συνάρτηση r. Η μέγιστη τιμή στη νέα θέση είναι 5 για την κίνηση Π. Το σύστημα φέρνει τη τιμή της προηγούμενης κίνησης πιο κοντά σ' αυτή τη τιμή. To Q για τη προηγούμενη κίνηση ήταν 7 και επομένως με συντελεστές γ=0.9 και β=2 έχουμε: (0 0.9 5) 7 Q (( 2,3), A) 5.75 (2) 2 και αντικαθιστούμε τη νέα τιμή για το Q στον πίνακα. Με τον ίδιο τρόπο συνεχίζουμε μέχρι το σύστημα να συγκλίνει σε μια καλή πολιτική. Το ότι βρήκαμε μια λύση για το πρόβλημα μας δεν σημαίνει απαραίτητα ότι βρήκαμε και την καλύτερη δυνατή λύση. Ο αλγόριθμος μας πρέπει να προβλέπει κάποτε και μερικές τυχαίες κινήσεις, έξω από την πολιτική της στιγμής, ούτως ώστε να έχουμε τη δυνατότητα να ξεφύγουμε από τη πεπατημένη και να πέσουμε πάνω στην καλύτερη λύση, αν βέβαια αυτή υπάρχει. Αυτές οι τυχαίες κινήσεις ονομάζονται εξερευνητικές κινήσεις σε αντίθεση με τις υπόλοιπες που τις αποκαλούμε κινήσεις εκμετάλλευσης (της ήδη αποκτημένης γνώσης). Το ποια θα είναι η σχέση ανάμεσα στην εξερεύνηση και την εκμετάλλευση και πως ακριβώς θα γίνουν οι εξερευνητικές κινήσεις εξαρτάται από το πρόβλημα που έχουμε να αντιμετωπίσουμε και τις συγκεκριμένες συνθήκες. Βιβλιογραφία Mitchell, T. (1997). Machine Learning, McGraw Hill. Sutton R.S. & Barto A.G. (1998), Reinforcement Learning, MIT Press - 537 -

Ενότητα V Πληροφορική & Εκπαίδευση Watkins and Dayan, C.J.C.H., (1992), 'Q-learning.Machine Learning', ISBN : 8:279-292 ιαθεματικό Ενιαίο Πλαίσιο Προγράμματος Σπουδών Πληροφορικής Πρόγραμμα Σπουδών για τον Πληροφορικό Γραμματισμό στο Γυμνάσιο, 4 η Έκδοση, Μάιος 2011-538 -