Μοντελοποίηση και βελτίωση της ανθρώπινης ικανότητας σε παιχνίδια στρατηγικής

Μέγεθος: px
Εμφάνιση ξεκινά από τη σελίδα:

Download "Μοντελοποίηση και βελτίωση της ανθρώπινης ικανότητας σε παιχνίδια στρατηγικής"

Transcript

1 ΠAΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ ΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ Μοντελοποίηση και βελτίωση της ανθρώπινης ικανότητας σε παιχνίδια στρατηγικής Ντούτση Ειρήνη Α.Μ Υπεύθυνος Καθηγητής: Ελευθέριος Κυρούσης, Καθηγητής Επιβλέπων: ηµήτρης Καλλές, ιδάκτωρ Πάτρα 2001

2 Στην οικογένειά µου και στους φίλους µου 2

3 Ευχαριστίες Ευχαριστώ πολύ όλους όσους µε βοήθησαν και µε στήριξαν µε οποιοδήποτε τρόπο κατά τη διάρκεια της διπλωµατικής. Πιο συγκεκριµένα, ευχαριστώ τον κύριο ηµήτρη Καλλέ για τις συµβουλές του και τις κατευθύνσεις που µου έδωσε είτε µέσα από τις επιστηµονικές εργασίες που µου πρότεινε είτε µέσα από τις συζητήσεις µας. Ευχαριστώ επίσης τον κύριο Ελευθέριο Κυρούση για την εµπιστοσύνη που µου έδειξε κατά τη διάρκεια της διπλωµατικής και για τη διάθεση του εργαστηρίου του τοµέα για τα περάµατα. Πολλά ευχαριστώ και στον κύριο Ηλία Σταυρόπουλο για τη βοήθειά του στο εργαστήριο. Ευχαριστώ πολύ τον Παναγιώτη Κανελλόπουλο για τη βοήθεια και τη διαθεσιµότητά του καθ όλη τη διάρκεια της διπλωµατικής. Επίσης ευχαριστώ τον Αθανάσιο Παπαγγελή για τις εύστοχες παρατηρήσεις του και τις συµβουλές του. Τέλος, ευχαριστώ πολύ του φίλους µου για το ενδιαφέρον τους και τη διάθεσή τους να βοηθήσουν. Κυρίως ευχαριστώ το Νικόλαο Μήτσου για την ουσιαστική του βοήθεια και τον Κώστα Γρατσία για το ενδιαφέρον του καθ όλητηδιάρκεια τηςδιπλωµατικής. 3

4 Σκοπός της διπλωµατικής Ο βασικός σκοπός κατά τον σχεδιασµό τηςδιπλωµατικής ήταν η µελέτη του τρόπου µε τον οποίο µπορεί να µοντελοποιηθεί η συµπεριφορά ενός παίκτη ώστε να εξαχθούν συµπεράσµατα για τις δυνατότητες και τις αδυναµίες του αλλά και να χαραχθεί µια στρατηγική για την βελτίωση του. Παράλληλος στόχος ήταν η υλοποίηση της µοντελοποίησης έτσι όπως αυτή θα προέκυπτε από την προαναφερθείσα θεωρητική µελέτη. Η παρούσα διπλωµατική στηρίζεται σε ένα ήδη υπάρχουν παιχνίδι στρατηγικής που µελετήθηκε για πρώτη φορά στα πλαίσια της διπλωµατικής εργασίας µε τίτλο «Ανακάλυψη κανόνων για παιχνίδια στρατηγικής, ιπλωµατική εργασία ΤΜΗΥΠ, 2000», από τον κύριο Παναγιώτη Παπαϊωάννου. Όσον αφορά στη χρήση Ενισχυτικής Μάθησης στο παιχνίδι, αυτή είχε ήδη αναπτυχθεί στα πλαίσια της ερευνητικής δραστηριότητας της Ερευνητικής Μονάδας 3 (ΕΜ3) του Ινστιτούτου Τεχνολογίας Υπολογιστών (ΙΤΥ) από τους κυρίους ηµήτρη Καλλέ και Παναγιώτη Κανελλόπουλο. Η έρευνα αυτή οδήγησε σε µια επιστηµονική δηµοσίευση [Kalles & Kanellopoulos 2001] ηοποίακαιχρησιµοποιήθηκε ως πηγή µελέτης για την εκπόνηση της διπλωµατικής. Εδώ θα πρέπει να ευχαριστήσω για µία ακόµη φορά τους κυρίους Καλλέ και Κανελλόπουλο για το χρόνο που µου αφιέρωσαν και τη βοήθειά τους. Πέραν των αρχικών απαιτήσεων στην παρούσα διπλωµατική σχεδιάστηκε και υλοποιήθηκε περιβάλλον αλληλεπίδρασης µε τοχρήστη. και το 4

5 Πρόλογος Η αξία της Ενισχυτικής Μάθησης (RL) έχει αρχίσει να αναγνωρίζεται από πολλούς ερευνητές. Ησοβαρή θεωρητική θεµελίωση του τοµέα παρακινεί όλο και περισσότερους επιστήµονες να ασχοληθούν προκειµένου να κατασκευάσουν συστήµατα που θα δουλεύουν σε πραγµατικές συνθήκες και να βελτιώσουν τα κλασικά συστήµατα ελέγχου. Το γεγονός αυτό δεν είναι υπερβολικό αν αναλογιστεί κανείς τις τεράστιες δυνατότητες του τοµέα, πολλές απ τις οποίες δεν έχουν διερευνηθεί ακόµη πλήρως. Και µόνο το ότι ένα σύστηµα µπορεί να µαθαίνει να επιλύει κάποιο πρόβληµα πειραµατιζόµενο µε το περιβάλλον µάθησης είναι εντυπωσιακό. Αυτή η γενικότητα της µάθησης επιτρέπει την εφαρµογή της ίδιας µεθόδου µάθησης και σε άλλα προβλήµατα. «Το πρόβληµα προσαρµόζεται στη λύση» όπως αναφέρει χαρακτηριστικά ο Sutton, ένας από τους κορυφαίους επιστήµονες του τοµέα. Ηπαρούσαδιπλωµατική βασίζεται σε ένα πρωτότυπο παιχνίδι στρατηγικής που χρησιµοποιεί τεχνικές Ενισχυτικής Μάθησης (Reinforcement Learning) για τη βελτίωσή του. Στα πλαίσια της διπλωµατικής µελετήσαµε τοντρόπο µε τον οποίο µπορεί να µοντελοποιηθεί η συµπεριφορά ενός παίκτη ώστε να εξαχθούν συµπεράσµατα για τις δυνατότητες και τις αδυναµίες του αλλά και να χαραχθεί µια στρατηγική για την βελτίωση των ικανοτήτων του. Ποιο συγκεκριµένα, µελετήσαµε τους πιθανούς τρόπους µοντελοποίησης / σύγκρισης µεταξύ πολύπλοκων οντοτήτων (ανθρώπινη συµπεριφορά/ διαφορετικές διαµορφώσεις της "σκακιέρας") και υλοποιήσαµε ένα µηχανισµό µοντελοποίησης των παικτών. Το παρόν σύγγραµµα αποτελείται από 8 κεφάλαια. Το πρώτο κεφάλαιο είναι µια εισαγωγή στο παιχνίδι: απόποιαστοιχείααποτελείται, πως παίζεται, ποιοι είναι οι κανόνες κ.α. Το δεύτερο, τρίτο και τέταρτο κεφάλαιο αναφέρονται στην Ενισχυτική Μάθηση: τι είναι, που χρησιµοποιείται, ποιες είναι οι βασικές της έννοιες, τι είναι η µάθηση χρονικών διαφορών, τι είναι τα ίχνη καταλληλότητας κ.α. Το πέµπτο κεφάλαιο αναφέρεται στα Νευρωνικά ίκτυα: τι είναι, πως δουλεύουν, ποιους αλγορίθµους χρησιµοποιούν κ.α. Το έκτο κεφάλαιο αναφέρεται στη µοντελοποίηση: τι σηµαίνει, τι προσφέρει, ποιες τεχνικές υπάρχουν, πως συνδυάζεται µε τη Μηχανική Μάθηση κ.α. Στο έβδοµο κεφάλαιο αναλύεται πως η προαναφερθείσα θεωρία εφαρµόζεται στο παιχνίδι µας και περιγράφεται η αρχιτεκτονική του συστήµατος και το γραφικό του περιβάλλον. Στο όγδοο κεφάλαιο αναφέρονται κάποια βασικά συµπεράσµατα έτσι όπως προέκυψαν κατά τη διάρκεια της διπλωµατικής µαζί µεπροτεινόµενες µελλοντικές κινήσεις για τη βελτίωση του παιχνιδιού. Ακολουθεί η βιβλιογραφία, το παράρτηµα µε κάποιους βασικούς όρους και τις επεξηγήσεις τους και τέλος το ευρετήριο σχηµάτων και πινάκων. Ειρήνη Ντούτση Πάτρα

6 Περιεχόµενα Περιεχόµενα...1 Σκοπός της διπλωµατικής Περιγραφή παιχνιδιού Γενικά Συστατικά του παιχνιδιού Κανόνες κίνησης πιονιών Ένα παράδειγµα παιχνιδιού Επιλογή στρατηγικής Εισαγωγή στην Ενισχυτική Μάθηση Θεωρία παιχνιδιών (game theory) Κλασσικές προσεγγίσεις - Αλγόριθµος Min - Max Ενισχυτική µάθηση (Reinforcement learning - RL) Trial and error learning (Παράδειγµα εκµάθησης ποδηλάτου) Στοιχεία της Ενισχυτικής Μάθησης (RL) Περιβάλλον µάθησης Η ιδιότητα Markov Συναρτήσεις αξιολόγησης (value functions) Βέλτιστες Συναρτήσεις αξιολόγησης (optimal value functions) Βελτιστοποίηση και διαδικασία προσέγγισης Μάθηση Χρονικών ιαφορών(temporal difference learning) Εισαγωγή Παράδειγµα: Οδηγώντας προς το σπίτι Πλεονεκτήµατα της Μάθησης Χρονικών ιαφορών (TD learning) Μάθηση Χρονικών ιαφορών TD(λ) Βελτιστοποίηση και σύγκλιση Sarsa learning: Οn policy TD control

7 1.7. Q-Learning: Οff policy TD control Μετά - καταστάσεις (after states) στα παιχνίδια Ίχνη καταλληλότητας (Eligibility traces) Εισαγωγή TD (λ) και Monte Carlo µέθοδοι TD (λ): προσέγγιση προς τα εµπρός (forward view) TD (λ): προσέγγιση προς τα πίσω (backward view) Μορφές των ιχνών καταλληλότητας Το πείραµα του τυχαίου περιπάτου (random walk experiment) Θέµατα υλοποίησης Νευρωνικά δίκτυα (Neural networks) Εισαγωγή Ορισµός της έννοιας της µάθησης Το perceptron Οχώροςτωνπαραδειγµάτων εισόδου (input space) Κατανοώντας τα νευρωνικά δίκτυα Το πρόβληµα της Ανάθεσης Πίστωσης (Credit Assignment) O κανόνας του perceptron (Perceptron rule) O κανόνας του δέλτα (Delta rule) Ορυθµός µάθησης (learning rate) Συνάρτηση κατωφλίου Perceptrons πολλών επιπέδων (Multilayer perceptrons) Αλγόριθµος Backpropagation Μοντελοποίηση παικτών Εισαγωγή Ο ρόλος της Μηχανικής Μάθησης

8 6.3. Παραδείγµατα συστηµάτων υποβοήθησης (recommendation system) Πλεονεκτήµατα της µοντελοποίησης Τεχνικές µοντελοποίησης Τι δεδοµένα χρειαζόµαστε για τη µοντελοποίηση των παικτών Πως λαµβάνονται οι αποφάσεις για την πορεία της εκπαιδευτικής διαδικασίας Μοντελοποίηση και Ενισχυτική Μάθησης (RL) Αξιολόγηση της χρήσης RL για τη µοντελοποίηση των παικτών Εργαλεία εξόρυξης δεδοµένων (data mining) Ανάλυση παιχνιδιού Εισαγωγή Εφαρµογή της Ενισχυτικής Μάθησης στο παιχνίδι µας Εφαρµογή των νευρωνικών στο παιχνίδι µας Μοντελοποίηση των παικτών Εκπαίδευση - Πειράµατα Αρχιτεκτονική παιχνιδιού Το περιβάλλον αλληλεπίδρασης µε τοπαιχνίδι Συµπεράσµατα - Επεκτάσεις της διπλωµατικής εργασίας Βασικά συµπεράσµατα Βελτίωση νευρωνικό Εκπαίδευση δικτύου Γραφικό περιβάλλον Μεταφορά στο διαδίκτυο Βιβλιογραφία Παράρτηµα Γλωσσάριο όρων Ευρετήριο σχηµάτων & πινάκων

9 1. Περιγραφή παιχνιδιού 1.1. Γενικά Για τους σκοπούς της διπλωµατικής µελετήθηκε ένα πρωτότυπο παιχνίδι στρατηγικής [Kalles & Kanellopoulos 2001]. Το παιχνίδι παίζεται µε δύο αντιπάλους σε µία τετραγωνική σκακιέρα. Κάθε αντίπαλος ξεκινάει από µία τετραγωνική βάση (υπάρχουν δύο τέτοιες στη σκακιέρα, µία πάνω δεξιά και µία κάτω αριστερά) και έχει στη διάθεση του ένα αριθµό πιονιών. Τόσο το µέγεθος της βάσης, όσο και το πλήθος των πιονιών είναι κοινά για τους δύο αντιπάλους. Στόχος του κάθε παίκτη είναι να καταλάβει την αντίπαλη βάση προστατεύοντας συγχρόνως τη δικιά του από τα πιόνια του αντιπάλου. Οπαίκτηςπουθα καταφέρει να βάλει πρώτος κάποιο πιόνι του στη βάση του αντιπάλου θεωρείται νικητής. Αν κάποιος παίκτης ξεµείνει από πιόνια, ο αντίπαλος του θεωρείται αυτόµατα νικητής Συστατικά του παιχνιδιού Η σκακιέρα Το παιχνίδι διαδραµατίζεται πάνω σε µία τετραγωνική σκακιέρα διαστάσεων n*n. Τo µέγεθος της σκακιέρας είναι µεταβλητό και καθορίζεται από το χρήστη. Κατά τη διάρκεια του παιχνιδιού, οποιοδήποτε τετραγωνάκι της σκακιέρας µπορεί ναείναικενόήναπεριέχεικάποιοπιόνι. Οι βάσεις Υπάρχουν δύο βάσεις διαστάσεων a*a µία για κάθε παίκτη. Στην αρχή του παιχνιδιού, κάθε βάση περιέχει τα πιόνια του αντίστοιχου παίκτη. Οι δύο παίκτες ανταγωνίζονται για το ποιος θα βάλει πρώτος κάποιο πιόνι του στην αντίπαλη βάση κερδίζοντας έτσι το παιχνίδι. Τα πιόνια Χρησιµοποιούνται για την διεξαγωγή του παιχνιδιού. Στην αρχή του παιχνιδιού κάθε παίκτης έχει στην κατοχή του β πιόνια λευκού ή µαύρου χρώµατος. Οι παίκτες Το παιχνίδι παίζεται από δύο παίκτες-αντιπάλους. Οαντίπαλος µπορεί να είναι είτε κάποιος άνθρωπος, είτε ο υπολογιστής, συνεπώς υπάρχουν 3 διαφορετικά είδη παιχνιδιού: Υπολογιστής Υπολογιστής Άνθρωπος Υπολογιστής Άνθρωπος Άνθρωπος Ανεξάρτητα από το είδος του παιχνιδιού ονοµάζουµε γιαλόγουςτυποποίησηςτουςπαίκτεςάσπρος (white) και µαύρος (black). Η σκακιέρα πάνω στην οποία διεξάγεται το παιχνίδι φαίνεται στο ακόλουθο σχήµα (Σχήµα 1.1) : 9

10 Λευκός παίκτης Μαύρος παίκτης Σχήµα 1.1 Η σκακιέρα του παιχνιδιού (διαστάσεις n=8, a=3) Στα πλαίσια της διπλωµατικής χρησιµοποίησαµε µία σκακιέρα διαστάσεων 8x2x10 (8: ηδιάστασητης σκακιέρας, 2: ηδιάστασητηςβάσης,10:το πλήθος των πιονιών του κάθε παίκτη) 1.3. Κανόνες κίνησης πιονιών Μπορούµε να κατηγοριοποιήσουµε τις κινήσεις των πιονιών σε δύο κατηγορίες ως εξής: Οι κινήσεις εξόδου από τη βάση Η κάθε βάση θεωρείται ως ένα τετράγωνο και όχι ως µια συλλογή τετραγώνων, συνεπώς οποιοδήποτε πιόνι της βάσης µπορεί να µετακινηθεί, µε µια κίνηση, σε οποιοδήποτε από τα παρακείµενα στη βάση τετράγωνα που είναι ελεύθερα. Οι κινήσεις µετακίνησης από µία θέση σε µία άλλη Κάθε πιόνι µπορεί να µετακινηθεί σε οποιοδήποτε (πάνω, κάτω, δεξιά, αριστερά) γειτονικό ελεύθερο τετραγωνάκι της σκακιέρας, µε την προϋπόθεση ότι η µέγιστη διαφορά του από τη βάση του δεν µειώνεται (δεν επιτρέπονται δηλαδή κινήσεις προς τα πίσω). Σε ένα σύστηµα συντεταγµένων ο παραπάνω κανόνας θα µπορούσε να οριστεί ως εξής: Αν (x,y ) είναι η τρέχουσα θέση του πιονιού στην σκακιέρα, τότε αυτό θα µπορούσε να µετακινηθεί στη θέση (x,z) αν και µόνο αν ισχύει: max(x - a, y - a) max(x στην περίπτωση που παίζει ο πρώτος παίκτης ήανισχύει: - a, z - a) max(n - a - x,n - a - y) max(n - a στην περίπτωση που παίζει ο δεύτερος παίκτης. - x,n - a - z) Εκτός από τις µη επιτρεπτές κινήσεις υπάρχουν και κινήσεις που προκαλούν την απώλεια των πιονιών. Ως τέτοιες ορίζουµε όλες εκείνες τις κινήσεις που επιφέρουν την άµεση γειτνίαση του κινούµενο πιονιού µεκάποιοπιόνιτουαντιπάλου. Σε τέτοιες περιπτώσεις το εγκλωβισµένο πιόνι αποµακρύνεται αυτόµατα απότησκακιέρα. Οµοίως, στην περίπτωση που δεν υπάρχει κανένα ελεύθερο παρακείµενο στη βάση τετραγωνάκι τα υπόλοιπα πιόνια της βάσης εξαφανίζονται αµέσως. Στο ακόλουθο σχήµα (Σχήµα 1.2) 10

11 παρουσιάζουµε µερικά παραδείγµατα µη επιτρεπτών κινήσεων και κινήσεων που προκαλούν την απώλεια κάποιου πιονιού. Πιόνια µαύρου π αίκτη Πιόνια λευκού π αίκτη OK x NO Μαύρος παίκτης Λευκός παίκτης (a) Παράδειγµα µη επιτρεπτής κίνησης, το πιόνι x που ανήκει στο µαύρο παίκτη δεν µπορεί να κινηθεί στη θέση ΝΟ, καθώς έτσι παραβιάζεται ο κανόνας της αυξανόµενης µέγιστης διαφοράς του πιονιού από τη βάση του. Πιόνια µαύρου π αίκτη Πιόνια λευκού παίκτη Μαύρος παίκτης x Λευκός παίκτης (b) Παράδειγµα απώλειας πιονιού, δεν υπάρχει καµία επιτρεπτή κίνηση για το πιόνι x που εξαφανίζεται αυτόµατα. Πιόνια µαύρου π αίκτη Πιόνια λευκού παίκτη OK Μαύρος παίκτης NO x Λευκός παίκτης (c) Παράδειγµα απώλειας όλων των πιονιών της βάσης, τα εντός της βάσης πιόνια του λευκού παίκτη εξαφανίζονται αµέσως, καθώς δεν υπάρχει πλέον καµία επιτρεπτή κίνηση γι αυτά. Σχήµα 1.2 Παραδείγµατα µη επιτρεπτών κινήσεων και κινήσεων που προκαλούν την απώλεια πιονιών. 11

12 1.4. Ένα παράδειγµα παιχνιδιού Για καλύτερη κατανόηση των κανόνων του παιχνιδιού παραθέτουµε ένα πλήρες παράδειγµα παιχνιδιού. (Σχήµα 1.3) x Πιόνια µαύρου π αίκτη Πιόνια λευκού π αίκτη Σχήµα 1.3 Παράδειγµα ενός πλήρους παιχνιδιού, ο λευκός παίκτης είναι ο νικητής καθώς µε τηνεπόµενη κίνησή του, ανεξάρτητα από την κίνηση που θα κάνει ο αντίπαλός του, έχει τη δυνατότητα να µπει στη βάση του µαύρου παίκτη µε τοπιόνιx. 12

13 2. Επιλογή στρατηγικής Εισαγωγή στην Ενισχυτική Μάθηση 2.1. Θεωρία παιχνιδιών (game theory) Η θεωρία παιχνιδιών αποτελεί εδώ και δεκαετίες έναν εξαιρετικά ενδιαφέροντα τοµέα µελέτης και έρευνας. Οι επιστήµονες εστιάζουν σε παιχνίδια στρατηγικής και προσπαθούν µε χρήση Τεχνητής Νοηµοσύνης (Artificial Intelligence) να δηµιουργήσουν έξυπνα προγράµµατα που θα συναγωνίζονται ως προς την απόδοσή τους πραγµατικούς παίκτες. Τέτοιου είδους παιχνίδια ενδείκνυνται για µελέτη λόγω της πολυπλοκότητάς τους και της έξυπνης στρατηγικής που χρειάζεται να ακολουθήσει κάποιος για να κερδίσει. Επιπλέον, οι είσοδοι του παιχνιδιού και τα κριτήρια αξιολόγησης είναι γνωστά, ενώ το περιβάλλον του παιχνιδιού, οι έγκυρες κινήσεις και οι κινήσεις τερµατισµού µπορούν εύκολα να προσοµοιωθούν. Το 1995 ο Samuel [Samuel 1959] έφτιαξε ένα πρόγραµµα ντάµας (checkers play), ενώ από το 60 ξεκίνησε η δηµιουργία προγραµµάτων σκακιού. Στη δεκαετία του 90, η IBM, πρώτα µε τοdeep Though και στη συνέχεια µε το Deep Blue, κατέβαλλε σφοδρές προσπάθειες για τη δηµιουργία ενός προγράµµατος σκακιού ικανού να ανταγωνίζεται τους καλύτερους σκακιστές του κόσµου. Ένα από τα πιο σηµαντικά παιχνίδια στις µέρες µας είναι το TD-Gammon του Tesauro [Tesauro 1992], [Tesauro 1995] για το τάβλι. Τo σηµαντικότερο και το πιο κρίσιµο σηµείο ενός στρατηγικού παιχνιδιού είναι η επιλογή και η υλοποίηση της στρατηγικής που θα ακολουθήσει ο υπολογιστής κατά τη διάρκεια του παιχνιδιού. Με τον όρο στρατηγική εννοούµε την επιλογή της επόµενης κίνησής του υπολογιστή λαµβάνοντας υπόψη την παρούσα κατάστασή του, την κατάσταση του αντιπάλου, τις επιπτώσεις της κίνησής του και την ενδεχόµενη επόµενηκίνησητουαντιπάλου Κλασσικές προσεγγίσεις - Αλγόριθµος Min - Max Μια κλασσική προσέγγιση στο παραπάνω πρόβληµα αποτελεί ο αλγόριθµος Min-Max [Samuel 1959] που στηρίζεται στη δηµιουργία ενός δέντρου, οι κόµβοι του οποίου αντιστοιχούν στις καταστάσεις του παιχνιδιού ενώ οι ακµές του αντιστοιχούν στις ενδεχόµενες κινήσεις. Ψάχνοντας το δέντρο εις βάθος, η βέλτιστη κίνηση για τη δεδοµένη κατάσταση υπολογίζεται. Αυτό µπορεί να γίνει βρίσκοντας τις πιθανές επόµενες κινήσεις µας, τις απαντήσεις του αντιπάλου, τις δικές µας απαντήσεις σε τέτοιο βάθος ώστε να βρούµε εκείνη την ακολουθία κινήσεων που θα µας οδηγήσει στη νίκη. Εµείς προσπαθούµε να αυξήσουµε το σκορ µας, γι αυτό και καλούµαστε MAX, ενώ ο αντίπαλος προσπαθεί το αντίθετο, δηλαδή να µειώσει το σκορ του, γι αυτό εξάλλου και καλείται MIN. Ο ψευδοκώδικας του αλγορίθµου ΜΙΝ-ΜΑΧ είναι ο ακόλουθος: ηµιούργησε όλο το δέντρο έρευνας για το παιχνίδι. Ητιµήκάθεφύλλουκαθορίζειτηντιµή του πατέρα του x. Αν είναι η σειρά του MΑΧ τότε: Τιµήτουx η µέγιστη τιµή των παιδιών του. Αν είναι η σειρά του MIN τότε: Τιµήτουx η µικρότερη τιµή των παιδιών του. Επανέλαβε τις αναθέσεις τιµών στους κόµβους των παραπάνω επιπέδων µέχρι τη ρίζα του δέντρου 13

14 Ο MAX θαδιαλέξει το παιδί τηςρίζας µε τη µέγιστη τιµή, ενώομιναυτό µε την µικρότερη τιµή. Ο MIN MAX αλγόριθµος ψάχνει όλο το δέντρο του παιχνιδιού µε αποτέλεσµα η υπολογιστική του πολυπλοκότητα να είναι πολύ µεγάλη. Ένα ακόµη µειονέκτηµά του αλγορίθµου αποτελεί το ότι η τιµή στους κόµβους εξαρτάται από το βάθος του δέντρου οδηγώντας πολλές φορές σε λάθος εκτιµήσεις. Μια παραλλαγή του MIN-MAX είναι η (a,β) µέθοδος κλαδέµατος ((a-b) pruning method) [Knuth & Moore 1975], µέσω της οποίας προσπαθούµε να µειώσουµε την πολυπλοκότητα του MIN-MAX. Προς την κατεύθυνση αυτή µειώνουµε τοπλήθοςτωνκόµβων που χρειάζεται να εξετάσει ο αλγόριθµος MIN-MAX µε την ελπίδα ότι εξετάζοντας το κλαδεµένο δέντρο θα µπορέσουµε να υπολογίσουµε τησωστήμιν-μαχ απόφαση. Ηλογικήέχειωςεξής: Έστω n ένας κόµβος του δέντρου στον οποίο µπορούµε ναµεταβούµε. Αν υπάρχει κάποια καλύτερη επιλογή στο γονέα ή σε κάποιο άλλο κόµβο πιο ψηλά τότε είναι προφανές ότι δε θα φτάσουµε ποτέστονκόµβο n κατά τη διάρκεια του παιχνιδιού και συνεπώς µπορούµε νατον κλαδέψουµε. εδοµένων των προβληµάτων που παρουσιάζουν οι κλασσικοί αλγόριθµοι, χρησιµοποιούµε στην περίπτωση του παιχνιδιού µας µεθόδους Μηχανικής Μάθησης (Machine Learning - ML) και πιο συγκεκριµένα Ενισχυτική Μάθηση (Reinforcement Learning - RL) προκειµένου να βελτιώσουµε την απόδοση του υπολογιστή µέσω ενός πλήθους παιχνιδιών µε τον εαυτό του. Αρκετά γνωστά παιχνίδια στρατηγικής χρησιµοποιούν Τεχνητή Νοηµοσύνη µε πιογνωστότοtd-gammon του Tesauro [Tesauro 1995], το οποίο αφού εκπαιδεύτηκε παίζοντας 1,5 εκατοµµύρια παιχνίδια µε τον εαυτό του έχει φτάσει πλέον στο επίπεδο να ανταγωνίζεται διεθνείς πρωταθλητές στο τάβλι. Αξίζει να αναφέρουµε επίσηςκαι διάφορες παραλλαγές του: Tetris, Blackjack, Othello [Leouski 1995], Chess [Thrun 1995] που χρησιµοποιούν την ίδια προσέγγιση. Ας δούµε όµως πρώτα τι είναι η Ενισχυτική Μάθηση (Reinforcement Learning - RL) Ενισχυτική µάθηση (Reinforcement learning - RL) Υπάρχουν πολλά προβλήµατα, π.χ. συστήµατα ελέγχου εναέριας κυκλοφορίας, που θα µπορούσαν να λύσουν οι υπολογιστές αν υπήρχε το κατάλληλο λογισµικό. Τα προβλήµατααυτάπαραµένουν άλυτα όχι επειδή οι υπολογιστές στερούνται υπολογιστικής ισχύος αλλά επειδή είναι πολύ δύσκολο να καθορίσει κανείς τι πρέπει να κάνει το πρόγραµµα. Αν οι υπολογιστές µάθαινανναεπιλύουντέτοιαπροβλήµατα πειραµατιζόµενοι µ αυτά, το όφελος είναι προφανές. Ηθεµελιώδης ιδέα της ενισχυτική µάθησης έχει την αφετηρία της στην ψυχολογία και πιο συγκεκριµένα στις πειραµατικές µελέτες πάνω στη συµπεριφορά των ζώων. Ένας ορισµός της θα µπορούσε να είναι ο ακόλουθος: Αν ένα σύστηµα µάθησης αναλαµβάνει µια ενέργεια (action) και στη συνέχεια ακολουθεί µια ικανοποιητική κατάσταση ενεργειών, τότεητάσητουσυστήµατος να παράγει αυτή τη συγκεκριµένη ενέργεια ενισχύεται. ιαφορετικά, ητάσητουσυστήµατος να παράγει αυτή την ενέργεια αποδυναµώνεται. Ηενισχυτική µάθηση (RL) συνδυάζει δύο πεδία, το υναµικό Προγραµµατισµό (Dynamic Programming) και την Επιβλεπόµενη Μάθηση (Supervised Learning). Ο υναµικός Προγραµµατισµός (Dynamic Programming) είναι πεδίο των µαθηµατικών που παραδοσιακά χρησιµοποιείται σε προβλήµατα βελτιστοποίησης και ελέγχου. Ωστόσο, υπάρχουν περιορισµοί ως προς το πλήθος και την πολυπλοκότητα των προβληµάτων που µπορεί να αντιµετωπίσει. 14

15 Η Επιβλεπόµενη Μάθηση (Supervised Learning) είναι µια γενική µέθοδος εκπαίδευσης µιας παραµετροποιηµένης προσέγγισης µιας συνάρτησης. Ωστόσο για να µάθει κανείς τη συνάρτηση, χρειάζεται να γνωρίζει σωστά παραδείγµατα εισόδου - εξόδου που στην πράξη είναι δύσκολο να υπάρχουν πάντα. Για τους λόγους αυτούς, αναπτύχθηκε η Ενισχυτική Μάθηση (Reinforcement Learning -RL) που αποτελεί µια ορθογώνια σχεδόν προσέγγιση στις άλλες µεθόδους µηχανικής µάθησης, αν και όπως θα δούµε στη συνέχεια µπορεί να συνυπάρξει τουλάχιστον µε τα νευρωνικά δίκτυα. ΗΕνισχυτικήΜάθησηείναισυνώνυµη της αλληλεπιδραστικής µάθησης. Ο υπολογιστής έχει απλώς να επιτύχει κάποιο στόχο - µόνος του µαθαίνειπωςθακαταφέρεικάτιτέτοιο πειραµατιζόµενος και κάνοντας λάθη κατά την αλληλεπίδραση του µε το περιβάλλον (trial and error learning). Τα πλεονεκτήµατα της Ενισχυτικής Μάθησης σε σχέση µε τις παραδοσιακές προσεγγίσεις στη µάθηση είναι πολλά. Καταρχήν, η Ενισχυτική Μάθηση απαιτεί πολύ λίγη προγραµµατιστική προσπάθεια καθώς η εκπαίδευση του συστήµατος είναι αυτόµατη και προκύπτει από την αλληλεπίδραση του µε το περιβάλλον. Επιπλέον, το σύστηµα αντιλαµβάνεται τυχόν αλλαγές στο περιβάλλον µάθησης χωρίς να χρειάζεται να προγραµµατιστεί εκ νέου, η ιδιότητα αυτή αποδίδεται στη γενικότητα της Ενισχυτικής Μάθησης. Η Ενισχυτική Μάθηση µοιάζει µε τους Γενετικούς Αλγορίθµους (Genetic Algorithms) στο γεγονός ότι στηρίζονται και οι δύο στην εµπειρία εκπαίδευση και όχι στον προγραµµατισµό µε αποτέλεσµα να προσαρµόζονται εύκολα στις τυχόν αλλαγές του περιβάλλοντος. Το πλεονέκτηµα της Ενισχυτικής Μάθησης έναντι των Γενετικών έγκειται στο ότι η Ενισχυτική Μάθηση χρησιµοποιεί καλύτερα τους πόρους που διαθέτει. Για παράδειγµα, αν µια στρατηγική ήταν πολύ φτωχή ο γενετικός αλγόριθµος θα την απέρριπτε και θα κρατούσε για τις επόµενες γενιές στρατηγικές µε µεγαλύτερη αξία. Στην περίπτωση της Ενισχυτικής Μάθησης όµως, αν δοθείσας µιας κατάστασης s για την εν λόγω στρατηγική αναλαµβανόταν µια ενέργεια a και η νέα κατάσταση που ακολουθούσε έχει πάντα µεγάλη αξία τότε το σύστηµα θαείχε µάθειπωςπαρόλοπουηίδιαηστρατηγικήδενείναικαλήηενέργειαa από την κατάσταση s είναι καλή Trial and error learning (Παράδειγµα εκµάθησης ποδηλάτου) Ας µελετήσουµε αδρά τις αρχές της Ενισχυτικής Μάθησης (Reinforcement Learning - RL) στο πρόβληµα της εκµάθησης ποδηλάτου για να καταλάβουµε καλύτερα τη φιλοσοφία της. Στόχος του συστήµατος ενισχυτικής µάθησης είναι να µάθει να οδηγεί το ποδήλατο χωρίς να πέσει κάτω. Στην πρώτη προσπάθεια, το σύστηµα κάνει κάποιες κινήσεις που προκαλούν κλίση 45 µοιρών δεξιά στο ποδήλατο. Στην παρούσα κατάσταση µπορεί ή να στρίψει αριστερά ή να στρίψει δεξιά. Επιλέγει το πρώτο και αµέσως πέφτει, λαµβάνοντας έτσι ισχυρά αρνητική αµοιβή (reward). Το σύστηµα έχειπλέον µάθει να µην στρίβει αριστερά όταν βρίσκεται 45 µοίρες δεξιά. Στην επόµενη προσπάθεια, µετά από αρκετές κινήσεις το σύστηµα καταλήγει και πάλι να βρίσκεται 45 µοίρες δεξιά. Γνωρίζειαπότηνπρώτηπροσπάθειαότιδεν πρέπει να στρίψει αριστερά και επιλέγει τη µόνη δυνατή κίνηση, στρίβει δεξιά. Και πάλι, πέφτει λαµβάνοντας ισχυρά αρνητική ενίσχυση. Στο σηµείοαυτότοσύστηµα δεν έχει µάθει απλώς ότι όταν βρίσκεται 45 µοίρες δεξιά δεν είναι καλό να κινηθεί ούτε δεξιά ούτε αριστερά, αλλά επιπλέον έµαθε πως το να βρίσκεται σε κατάσταση 45 µοιρώνδεξιάδενείναικαλό. Στην επόµενη προσπάθεια, εκτελεί κάποιες κινήσεις και καταλήγει να βρίσκεται 40 µοίρες δεξιά. Στρίβει αριστερά µε αποτέλεσµα να βρεθεί σε κατάσταση 45 µοιρών δεξιά και λαµβάνει ισχυρά αρνητική ενίσχυση. Το σύστηµα µόλις έµαθε να µην στρίβει αριστερά όταν βρίσκεται 40 µοίρες δεξιά. Κάνοντας πολλές τέτοιες προσπάθειες το σύστηµα θα µάθει πως να αποτρέπει το ποδήλατο από την πτώση. 15

16 2.5. Στοιχεία της Ενισχυτικής Μάθησης (RL) Πέντε είναι τα βασικά στοιχεία ενός RL συστήµατος: 1. Ο µαθητής πράκτορας (Agent): Είναι αυτός που µαθαίνει µέσω του RL συστήµατος. Μπορεί να εκτελεί κάποιες κινήσεις a A, όπου Α το σύνολο των επιτρεπτών κινήσεων, ανάλογα µε την κατάσταση του περιβάλλοντος στην οποία βρίσκεται. 2. Το µοντέλο του περιβάλλοντος (Model of the environment): Μιµείται τη συµπεριφορά του περιβάλλοντος, δηλ. δοθείσας µιας κατάστασης και µιας κίνησης καθορίζει ποια θα είναι η επόµενη κίνηση. Το περιβάλλον περιγράφεται από ένα σύνολο καταστάσεων s S, όπου S το σύνολο των καταστάσεων του περιβάλλοντος. 3. Ηστρατηγική(Policy) π: Καθορίζει τη συµπεριφορά του µαθητή (agent) σε κάθε χρονική στιγµή, δηλαδή τι πρέπει να κάνει. Πρόκειται για µία αντιστοιχία διακριτών καταστάσεων του περιβάλλοντος σε κινήσεις που θα πρέπει να ληφθούν από τον agent όταν περιέλθει σε µια τέτοια κατάσταση. 4. Ησυνάρτησηαµοιβής (Reward function): Αντιστοιχεί κάθε κατάσταση του συστήµατος (ή ζεύγη καταστάσεων - κινήσεων) σε έναν αριθµό, την αµοιβή (reward) r, που εκφράζει αν η συγκεκριµένη κατάσταση είναι επιθυµητή. Η συνάρτηση αµοιβής καθορίζει κατά κάποιο τρόπο ποιες από τις καταστάσεις στις οποίες ενδέχεται να βρεθεί ο agent είναι καλές. 5. Η συνάρτηση αποτίµησης (Value function): Καθορίζει ποιες κινήσεις είναι καλές µακροπρόθεσµα. Πιο συγκεκριµένα, ητιµή µιας κατάστασης υπολογίζεται ως το άθροισµα τωναµοιβών που αναµένεται να συγκεντρώσει ο agent µέχρι το τέλος του παιχνιδιού. Σε αντίθεση µε τιςαµοιβές που εκφράζουν την προσωρινή αξία µιας κατάστασης του περιβάλλοντος, οι τιµές εκφράζουν την µακροπρόθεσµη αξία µιας κατάστασης λαµβάνοντας υπόψη τις καταστάσεις που ενδέχεται να προκύψουν στη συνέχεια και τις αντίστοιχες αµοιβές. Οι αµοιβές δίνονται κατευθείαν από το περιβάλλον, ενώ οι τιµές υπολογίζονται συνέχεια και ενηµερώνονται βάσει των παρατηρήσεων του agent κατά την αλληλεπίδρασή του µε το περιβάλλον. Tα πιοσηµαντικά στοιχεία του RL συνοψίζονται µε γραφικό τρόπο στο ακόλουθο σχήµα: Στρατηγική Αµοιβή Αξία Μοντέλο του περιβάλλοντος Σχήµα 2.1 Tα πιο σηµαντικά στοιχεία ενός RL πράκτορα 2.6. Περιβάλλον µάθησης t = 0,1,2 Ο agent αλληλεπιδρά µε το περιβάλλον µάθησης κάθε χρονική στιγµή (θεωρούµε διακριτό χρόνο για λόγους απλότητας και κατανόησης θα µπορούσαν οι ίδιες ιδέες να επεκταθούν και στην 16

17 περίπτωση του συνεχούς χρόνου). Πιο συγκεκριµένα, τη χρονική στιγµή t ο agent βλέποντας ότι το περιβάλλον βρίσκεται στην κατάσταση s S εκτελεί την κίνηση a At,όπου A t είναι το σύνολο των επιτρεπτών κινήσεων τη χρονική στιγµή t για τη δεδοµένη κατάσταση s του περιβάλλοντος. Την αµέσως επόµενη στιγµή t+1 o agent λαµβάνει άµεση αµοιβή (reward) r t+1 R ως αποτέλεσµα τηςκίνησηςπου έκανε µόλις πριν και µεταβαίνει σε µια νέα κατάσταση s t+1. Στο επόµενο σχήµα (Σχήµα 2.2) φαίνεται καθαρά η αλληλεπίδραση πράκτορος - περιβάλλοντος. Πράκτορας (Agent) s t r t a t r t+1 Περιβάλλον s t+1 Σχήµα 2.2 Αλληλεπίδραση πράκτορος (agent) - περιβάλλοντος Η αλληλεπίδραση αυτή δηµιουργεί ένα σύνολο καταστάσεων s i,, κινήσεων a i και άµεσων αµοιβών (rewards) r i (Σχήµα 2.3). Στόχος του πράκτορα (agent) είναι να µάθει µια στρατηγική ελέγχου π : S A, η οποία να µεγιστοποιεί το αναµενόµενο άθροισµα τωναµοιβών r i, λαµβάνοντας υπόψη και τη χρονική στιγµή i στην οποία αποδόθηκε η αµοιβή. a 0 a 1 a 2 s 0 s 1 s 2... r 0 r 1 r 2 Σχήµα 2.3 Ακολουθία καταστάσεων κινήσεων και άµεσων αµοιβών (rewards) στο RL Πιο φορµαλιστικά, o agent επιλέγει κινήσεις a t που µεγιστοποιούν την ποσότητα: 2 k R t = rt γ rt γ rt = γ rt + k + 1 όπου: R t : ηαναµενόµενη αµοιβή τη χρονική στιγµή t γ: ηπαράµετρος του ρυθµού µείωσης (discount rate parameter), µια σταθερά µετιµές 0 γ<1. Η παρουσία του γ καθορίζει την αξία µελλοντικών αµοιβών. Μία αµοιβή που λαµβάνεται τη χρονική στιγµή k έχει αξία µικρότερη κατά γ k-1 σε σχέση µε την αξία που θα είχε αν λαµβανόταν την τρέχουσα χρονική στιγµή t. 17

18 Αν γ<1, η ακολουθία R t συγκλίνει µόνο αν η ακολουθία των αµοιβών {r t } είναι φραγµένη. Αν γ=0, ο agent ενδιαφέρεται για την άµεση µεγιστοποίηση των αµοιβών, είναι κοντόφθαλµοςβραχυπρόθεσµη στρατηγική. Αν γ 1, ο agent λαµβάνει σοβαρά υπόψη του τις µελλοντικές αµοιβές, είναι πιο δίκαιος - µακροπρόθεσµη στρατηγική. Η επιλογή της κίνησης, δεδοµένης της κατάστασης του περιβάλλοντος, είναι πολύ σηµαντική και επηρεάζει καθοριστικά τη διαδικασία µάθησης. Ο agent αντιµετωπίζει το εξής δίληµµα: να επιλέξει κάποια κίνηση για την οποία έχει ήδη µάθειότιέχειυψηλήαµοιβή ή να δοκιµάσει καινούριες κινήσεις για τις οποίες δεν γνωρίζει τίποτα αλλά µπορεί να αποδειχτούν πιο επιθυµητές (µε µεγαλύτερη δηλαδή αµοιβή). Στην πρώτη περίπτωση ο πράκτορας (agent) εκµεταλλεύεται στην ουσία τη γνώση που ήδη κατέχει και επιλέγει κινήσεις που µεγιστοποιούν άµεσα την αµοιβή (η περίπτωση αυτή αναφέρεται ως exploitation). Ενώ στη δεύτερη περίπτωση, ο agent επιλέγει να ρισκάρει δοκιµάζοντας νέες κινήσεις που µπορεί να έχουν µεγαλύτερη αµοιβή αλλά µπορεί και όχι (η περίπτωση αυτή αναφέρεται ως exploration). Ηαπάντησηείναιότιπρέπεινατασυνδυάσεικαιταδύο, αν θέλει να µεγιστοποιήσει τησυνολικήαµοιβή. Μια συνηθισµένη τακτική είναι στην αρχή ο agent να ανακαλύπτει τις πλέον συµφέρουσες κινήσεις (exploration) και στη συνέχεια να εκµεταλλεύεται την αποκτηθείσα γνώση επιλέγοντας τις πιο συµφέρουσες κινήσεις (exploitation). Ηδιαδικασίατης µάθησης σταµατά όταν ο agent εισέλθει σε µία ειδική κατάσταση, γνωστή ως κατάσταση απορρόφησης ή κατάσταση τερµατισµού (absorbing state), στην οποία οι µόνες δυνατές κινήσεις οδηγούν και πάλι στην ίδια κατάσταση και η αµοιβή κάθε κίνησης είναι µηδέν (Σχήµα 2.4). a 0 a 1 a 2 s 0 s 1 s 2 r 3 =0 r 4 =0... r 0 r 1 r 2 Σχήµα 2.4 Κατάσταση τερµατισµού (absorbing state) Μερικές φορές η αµοιβή δίνεται καθυστερηµένα στον agent (π. χ στο τέλος µιας ακολουθίας εισόδων - εξόδων). Στις περιπτώσεις αυτές ο µαθητής καλείται να αντιµετωπίσει το γνωστό ως «ανάθεση προσωρινής πίστωσης» πρόβληµα (temporal credit assignment problem), βλέπε Κεφάλαιο 5 για παραπάνω λεπτοµέρειες. Καλείται δηλαδή να εκτιµήσει κατά πόσο οι διάφορες είσοδοι έξοδοι ευθύνονται, είτε αρνητικά είτε θετικά, για την τελική αµοιβή. Το πρόβληµα της ανάθεσης προσωρινής πίστωσης εξακολουθεί να θεωρείται από τα πλέον δύσκολα προβλήµατα της ενισχυτικής µάθησης Η ιδιότητα Markov Οι καταστάσεις του περιβάλλοντος έτσι όπως παρουσιάζονται στον agent δεν αποτελούν πλήρεις περιγραφές του περιβάλλοντος. Υπάρχει κρυµµένη πληροφορία, η οποία δεν παρουσιάζεται µέσω των καταστάσεων. Ηγνώσητουagent για το περιβάλλον είναι ελλιπής, και γι αυτό δεν ευθύνεται ο agent. Ο agent είναι υπεύθυνος να θυµάται πράγµατα που έχει µάθει αλλά σε καµία περίπτωση δεν µπορούµε να τον κατηγορήσουµε γιαπράγµατα που δεν θα µπορούσε να µάθει µε ταδιαθέσιµα δεδοµένα. 18

19 Το ιδανικό θα ήταν η τρέχουσα κατάσταση του περιβάλλοντος να αντανακλούσε και τις προγενέστερές της καταστάσεις. Μίατέτοιακατάστασηλέµε ότι έχει την ιδιότητα Markov. Πιο φορµαλιστικά, µια κατάσταση s έχει την ιδιότητα Markov αν ισχύει : Pr{st + 1 = s', rt+ 1 = r st,a t,rt,st-1,a t-1,rt-1, r1,s0,a 0} = Pr{st + 1 = s', rt+ 1 = r st,a t} Αν η παραπάνω σχέση ισχύει για όλα τα s,r και τις προηγούµενες κινήσεις s t,a t,r t r 1,s 0,a 0 λέµε ότικαιτο περιβάλλον έχει την ιδιότητα Markov. Συνεπώς δοθέντων της τρέχουσας κατάστασης και της λαµβανόµενης κίνησης µπορούµε ναπροβλέψουµε την επόµενη κατάσταση και την αναµενόµενη αµοιβή. Η ιδιότητα Markov είναι πολύ σηµαντική στο RL, καθώς οι κινήσεις και οι αµοιβές που αποδίδονται εξαρτώνται µόνο από την τρέχουσα κατάσταση. Ένα RL πρόβληµα που ικανοποιεί την ιδιότητα Markov ονοµάζεται Μαρκοβιανή ιαδικασία Αποφάσεων (Markov Decision Process, MDP). Στην περίπτωση που το σύνολο των καταστάσεων S και το σύνολο των κινήσεων A είναι πεπερασµένο, ονοµάζεται Πεπερασµένη Μαρκοβιανή ιαδικασία Αποφάσεων (Finite MDP). Τo παιχνίδι µας αποτελεί µια Πεπερασµένη Μαρκοβιανή ιαδικασία Αποφάσεων. οθέντων µιας κατάστασης s και µιας κίνησης a, η πιθανότητα µιας κατάστασης s είναι: P a ss' = Pr {s t + 1 = s' s t = s, a t = a} και η αναµενόµενη αµοιβή είναι: a R ss' = E {r t + 1 s t = s, a t = a, s t + 1 = s} 2.8. Συναρτήσεις αξιολόγησης (value functions) Οι περισσότεροι αλγόριθµοι ενισχυτικής µάθησης βασίζονται στην εκτίµηση συναρτήσεων αξιολόγησης που εκτιµούνπόσοκαλόείναιγιατονagent να βρίσκεται σε µια συγκεκριµένη κατάσταση. Το πόσο καλό καθορίζεται µε βάσητις µελλοντικές αµοιβές που αναµένεται να λάβει ο agent. Επειδή οι αµοιβές εξαρτώνται από τις κινήσεις, οι συναρτήσεις αξιολόγησης ορίζονται ως προς συγκεκριµένες στρατηγικές π. H αξία της κατάστασης s µιας στρατηγικής π, συµβολίζεται µε V π (s), ισούται µε το άθροισµα των αναµενόµενων µελλοντικών αµοιβών ξεκινώντας από την κατάσταση s και ακολουθώντας στη συνέχεια τη στρατηγική π. Πιο φορµαλιστικά: V π (s) = E V π (s) : η συνάρτηση αξιολόγησης καταστάσεων (state-value function) της στρατηγικής π. Ε π : ηαναµενόµενη τιµή δεδοµένου ότι ο agent ακολουθεί την πολιτική π. Με τον ίδιο τρόπο, ορίζουµε τηναξία µιας κίνησης a δεδοµένης της τρέχουσας κατάστασης s και τη συµβολίζουµε µε Q π (s,a). ToQ π (s,a) αναφέρεται στην στρατηγική (policy) π και ισούται µε τοάθροισµα των αναµενόµενων µελλοντικών αµοιβών ξεκινώντας από την κατάσταση s, επιτελώντας την κίνηση a και ακολουθώντας στη συνέχεια τη στρατηγική π. Πιο φορµαλιστικά: {R s = s} π t t π k = 0 = Ε { γ k r t + k + 1 s t = s } π Q (s,a) = E {R π t s t = s,a t = a} = Ε π{ k = 0 k γ r t+ k + 1 s t = s, α = α} t 19

20 Q π (s, a) : η συνάρτηση αξιολόγησης κινήσεων (action-value function) της στρατηγικής π. Οι συναρτήσεις V π (s), Q π (s, a) µπορούν να υπολογιστούν από την εµπειρία. Για παράδειγµα, ο agent θα µπορούσε ακολουθώντας την πολιτική π να κρατάει ένα µέσο όρο µε τηναναµενόµενη αµοιβή για κάθε κατάσταση που συναντά. Καθώς το πλήθος των επαναλήψεων θα έτεινε στο άπειρο ο µέσος όρος θα συνέκλινε στην πραγµατική τιµή V π (s). Ηίδιαδιαδικασίαθαµπορούσε να ακολουθηθεί και στην περίπτωση του Q π (s, a). Οι µέθοδοι αυτές ονοµάζονται Monte-Carlo µέθοδοι, επειδή ακριβώς εµπεριέχουν µέσους όρους τυχαίων παραδειγµάτων. Ένα µειονέκτηµα τους είναι ότι στην περίπτωση πολλών καταστάσεων η πολυπλοκότητά τους αυξάνεται σηµαντικά. V π (s), Q π (s, a) Ένα πολύ σηµαντικό χαρακτηριστικό των είναι η αναδροµική τους ιδιότητα (Εξίσωση Bellman) που εκφράζει µία σχέση µεταξύ µιας κατάστασης και των πιθανών αµέσως επόµενων καταστάσεων και ορίζεται ως εξής: a π(s, a) P ss' [ R ss ' + γ π a π V (s) = V a s' ( s ' )] s : κάποια από τις πιθανές επόµενες καταστάσεις της s. Ας δούµε όµως την εφαρµογή της εξίσωσης Bellman στην πράξη (Σχήµα 2.5). Έστω µία κατάσταση s µε τρεις πιθανές αµέσως επόµενες καταστάσεις. Ξεκινώντας από την s o agent µπορεί να επιλέξει να µεταβεί σε µία από τις τρεις καταστάσεις. Έστω ότι επιλέγει την s και λαµβάνει από το περιβάλλον αµοιβή r για την κίνηση του. Τα διαγράµµατα του σχήµατος καλούνται backup διαγράµµατα, ακριβώς επειδή αφορούν την ενηµέρωση (update). Ηενηµέρωσηπροκύπτειαπότη µεταφορά πληροφορίας από τις προκύπτουσες καταστάσεις στην αρχική κατάσταση s. s,α r α s' r s' a' Σχήµα 2.5 α) Backup διάγραµµα γιατο V π (s) β) Backup διάγραµµα γιατο Q π (s, a) ΗεξίσωσηBellman υπολογίζει το µέσο όρο όλων των δυνατών καταστάσεων µε βάση και την πιθανότητά τους να συµβούν. Θα πρέπει η αξία της αρχικής κατάστασης να ισούται µε την (µειωµένη) αξία της αναµενόµενης επόµενης κατάστασης συν την αµοιβή που αναµένεται να λάβει ο πράκτορας (agent) για την κίνηση αυτή. 20

21 V π (s) Η συνάρτηση αξιολόγησης αποτελεί τη µοναδικήλύσητηςεξίσωσηςbellman, δυστυχώς όµως η πολυπλοκότητά της είναι µεγάλη. Για το λόγο αυτό χρησιµοποιούνται οι βέλτιστες συναρτήσεις αξιολόγησης Βέλτιστες Συναρτήσεις αξιολόγησης (optimal value functions) Για να επιλύσουµε ένα πρόβληµα reinforcement learning αρκεί να βρούµε µία τακτική που µακροπρόθεσµα θα µας εξασφαλίσει συνολικά µεγάλη αµοιβή. Στην περίπτωση των πεπερασµένων µαρκοβιανών διαδικασιών αποφάσεων (Finite MDP) µπορούµε ναορίσουµε µια βέλτιστη τακτική ως εξής: Μία τακτική π καλείται βέλτιστη τακτική (optimal policy π*) αν ισχύει: V π π' (s) V (s) για όλα τα s S. Οι συναρτήσεις V π (s), Q π (s, a) στην περίπτωση της βέλτιστης τακτικής π* καλούνται βέλτιστη συνάρτηση αξιολόγησης καταστάσεων (optimal state-value function) και βέλτιστη συνάρτηση αξιολόγησης κινήσεων (optimal action-value function) αντίστοιχα. Συµβολίζονται µε V ( s), Q * (s, a) και ορίζονται ως εξής: V ( s ) = maxv π π π Q ( s, α ) = max Q ( s) π ( s) για όλα τα για όλα τα s S. s S, a A(s). H εξίσωση Bellman στην περίπτωση της βέλτιστης τακτικής τροποποιείται ως εξής: * V (s) = max α s' P α ss' [ R Α SS ' + γv * ( s' )] (Εξίσωση βελτιστοποίησης Bellman) Αν πρόκειται για πεπερασµένες MDP, η εξίσωση βελτιστοποίησης Bellman έχει µοναδική λύση. Πρόκειται για ένα σύστηµα µηγραµµικών εξισώσεων όπου κάθε εξίσωση αντιστοιχεί σε µια κατάσταση. Αν π.χ. υπάρχουν Ν καταστάσεις θα δηµιουργηθεί ένα σύστηµα Ν εξισώσεων µε Ναγνώστους. Επιλύοντας το σύστηµα των εξισώσεων µπορεί κανείς να βρει τη βέλτιστη τακτική. Μία τέτοια επίλυση όµως, περιλαµβάνει εξοντωτικό ψάξιµο όλων των πιθανών τακτικών και υπολογισµό των πιθανοτήτων εµφάνισής τους και τις αξίας τους όσον αφορά την αµοιβή που αναθέτουν στον agent. Μιατέτοιαλύση εξαρτάται από τρεις τουλάχιστον παράγοντες: Ακριβή γνώση του περιβάλλοντος Επαρκείς υπολογιστικούς πόρους Ιδιότητα Markov που είναι δύσκολο να πληρούνται στην πράξη. Γιατολόγοαυτόκαταφεύγουµε σε προσεγγιστικές λύσεις Βελτιστοποίηση και διαδικασία προσέγγισης Μόλις προαναφέραµε πως η πολυπλοκότητα του υπολογισµού της βέλτιστης τακτικής είναι απαγορευτική καθώς η µνήµη που απαιτείται για την προσέγγιση των συναρτήσεων αξιολόγησης, των τακτικών και των µοντέλων του περιβάλλοντος είναι τεράστια. Βέβαια, στην περίπτωση προβληµάτων µε µικρό, πεπερασµένο σύνολο καταστάσεων µπορούµε να υπολογίσουµε αυτές τις προσεγγίσεις χρησιµοποιώντας πίνακες µε µία είσοδο για κάθε κατάσταση. Η περίπτωση αυτή καλείται περίπτωση υπολογιζόµενη σε πίνακα (tabular case) καιαναφέρεταισεπροβλήµατα µε µικρό πλήθος καταστάσεων. Στην πράξη ωστόσο παρουσιάζουν ενδιαφέρον προβλήµατα µε µεγάλο σύνολο καταστάσεων για την επίλυση των οποίων θα πρέπει να καταφεύγουµε σε προσεγγιστικές λύσεις. Για παράδειγµα, κατά την διαδικασία προσέγγιση της βέλτιστης τακτικής, µπορεί να υπάρχουν πολλές καταστάσεις στις οποίες 21

22 σπάνια βρίσκεται ο agent, µε αποτέλεσµα ηεπιλογή µη βέλτιστων κινήσεων να επηρεάζει ελάχιστα τη συνολική αµοιβή που λαµβάνει ο agent. Χαρακτηριστικό παράδειγµα αποτελεί το TD-Gammon του Tesauro που παρόλο που µπορεί να συναγωνίζεται παγκόσµιους πρωταθλητές, αποτυγχάνει σε περιπτώσεις καταστάσεων παιχνιδιού που δεν εµφανίζονται ποτέ στα παιχνίδια µε τους πολύ καλούς παίκτες. Η φύση του RL επιτρέπει την προσέγγιση εκείνων των βέλτιστων τακτικών που εστιάζουν στη λήψη καλών αποφάσεων για τις πιο συχνά εµφανιζόµενες καταστάσεις και δίνουν λιγότερη σηµασία στις καταστάσεις που εµφανίζονται πιο σπάνια. Μερικά παραδείγµατα συναρτήσεων προσέγγισης αποτελούν: τα perceptrons πολλών επιπέδων (multi-layer perceptrons), τα στηριζόµενα στη µνήµη συστήµατα (memory based systems), οι Radial basis functions, οι πίνακες ψαξίµατος στοιχείων (lookup tables) και άλλα. 22

23 3. Μάθηση Χρονικών ιαφορών(temporal difference learning) 3.1. Εισαγωγή Η µάθηση χρονικών διαφορών (TD learning) [Sutton & Barto 1998], [Sutton 1988], [Teasuro 1995] θεωρείται ως η πιο θεµελιώδης και ενδιαφέρουσα προσέγγιση στην ενισχυτική µάθηση. Οι TD µέθοδοι είναι γενικοί αλγόριθµοι µάθησης που χρησιµοποιούνται για µακροπρόθεσµες προβλέψεις (prediction) σε δυναµικά συστήµατα. Οι ρυθµίσεις των παραµέτρων του συστήµατος πρόβλεψης (predictor) γίνονται βάσει της διαφοράς (ή λάθους) µεταξύ χρονικών διαδοχικών επιτυχηµένων εκτιµήσεων (temporal successive predictions). Έτσι, η µάθηση στις TD µεθόδους παρουσιάζεται όταν υπάρχει over time αλλαγή στην πρόβλεψη και αποσκοπεί στην µείωση της διαφοράς µεταξύ της εκτίµησης του πράκτορα για την τρέχουσα είσοδο και της εκτίµησης του πράκτορα για την αµέσως επόµενη χρονική στιγµή. Η µάθηση χρονικών διαφορών συνδυάζει ιδέες Monte Carlo µε ιδέες υναµικού Προγραµµατισµού (Dynamic Programming). Όπως οι µέθοδοι Monte Carlo, οι ΤD µέθοδοι µαθαίνουν κατευθείαν από την εµπειρία χωρίς να χρειάζεται να γνωρίζουν το µοντέλο του περιβάλλοντος. Έχοντας κάποια εµπειρία σχετικά µε τηντακτικήπ, καιοιδύοµέθοδοι ανανεώνουν τον υπολογισµό τουςv για την V π. Αν η κατάσταση που επισκέπτονται τη χρονική στιγµή t δεν είναι τελική, τότε και οι δύο µέθοδοι ανανεώνουν τον υπολογισµό τουςγιατηνv(s t ) βασιζόµενοι στις συνέπειες αυτής της επίσκεψης. Σε αντίθεση όµως µε τις µεθόδους Monte Carlo, οι ΤD µέθοδοι δεν χρειάζεται να περιµένουν µέχρι το τέλος του επεισοδίου για να καθορίσουν την αύξηση στην τιµή τουv(s t ), αρκεί να περιµένουν µέχρι την επόµενη χρονική στιγµή. Τη χρονική στιγµή t+1 σχηµατίζουν αυτόµατα έναν αντικειµενικό (εφικτό) στόχο και κάνουν την ανανέωση χρησιµοποιώντας την αµοιβή r t+1 και τον υπολογισµό V(s t+1 ). Οι ΤD µέθοδοι δεν χρειάζεται να περιµένουν την τελική έξοδο για να αρχίσουν τη µάθηση, αλλά ανανεώνουν τους υπολογισµούς τους βασιζόµενοι εν µέρει σε άλλους υπολογισµούς που είναι ήδη γνωστοί. Γιατολόγοαυτόχαρακτηρίζονταιµέθοδοι αυτοδύναµης εκκίνησης (bootstrapping methods), όπως και οι µέθοδοι υναµικού Προγραµµατισµού. Συνοψίζοντας, λοιπόν, οι TD µέθοδοι συνδυάζουν την δειγµατοληψία των Monte Carlo µεθόδων µε την αυτοδύναµη εκκίνηση (bootstrapping) των µεθόδων υναµικού Προγραµµατισµού αποκτώντας πλεονεκτήµατα και των δύο µεθόδων Παράδειγµα: Οδηγώντας προς το σπίτι Τελειώνοντας τη δουλειά και οδηγώντας προς το σπίτι προσπαθείς να προβλέψεις πόση ώρα θα χρειαστείς για να φτάσεις. Έστω π.χ., την Παρασκευή φεύγεις από το γραφείο ακριβώς στις 6 και υπολογίζεις ότι θα σου πάρει 30 λεπτά να φτάσεις στο σπίτι. Μπαίνεις στο αυτοκίνητό σου στις 6:05 όταν ξαφνικά αρχίζει να βρέχει. Η βροχή επηρεάζει την κίνηση οπότε υπολογίζεις ότι θα χρειαστείς 35 λεπτά από τότε για να φτάσεις στο σπίτι, συνολικά δηλαδή 40 λεπτά. 15λεπτά αργότερα έχεις διασχίσει τη λεωφόρο σε πολύ καλό χρόνο. Βγαίνοντας σε έναν δευτερεύοντα δρόµο υπολογίζεις εκ νέου το συνολικό χρόνο και καταλήγεις στο συµπέρασµα ότιθαχρειαστείςσυνολικά35 λεπτά. υστυχώς, στο σηµείο αυτό κολλάς πίσω από ένα φορτηγό και δεν µπορείς να το προσπεράσεις λόγω της στενότητας του δρόµου. Αναγκαστικά ακολουθείς το φορτηγό έως ότου στρίψεις στη διασταύρωση προς το σπίτι σου, εκείνη τη στιγµή ηώραείναι6:40. Τρία λεπτά αργότερα είσαι σπίτι. Η ακολουθία των καταστάσεων, του χρόνου και των προβλέψεων του παραδείγµατος δίνεται στον ακόλουθο πίνακα: 23

24 # Κατάσταση Απαιτούµενος χρόνος Υπόλοιπος προβλεπόµενος χρόνος Συνολικός προβλεπόµενος χρόνος 1 Φεύγω από το γραφείο Παρασκευή στις 6 0 λεπτά 30 λεπτά 30 2 Αυτοκίνητο Βροχή 5 λεπτά 35 λεπτά 40 λεπτά 3 Τέλος αυτοκινητοδρόµου 20 λεπτά 15 λεπτά 35 λεπτά 4 Φορτηγό 30 λεπτά 10 λεπτά 40 λεπτά 5 ρόµος προς το σπίτι 40 λεπτά 3 λεπτά 43 λεπτά 6 Σπίτι 43 λεπτά 0 λεπτά 43 λεπτά Πίνακας 3.1 Παράδειγµα πρόβλεψης µέσω TD µεθόδου Σύµφωνα µε τιςmonte Carlo µεθόδους η µάθηση θα µπορούσε να αρχίσει µόνο στο τέλος, όταν δηλαδή θα ήµασταν στο σπίτι. Αντιθέτως, στην περίπτωση των TD µεθόδων δεν χρειάζεται να περιµένουµε τόσο πολύ, µπορούµε να ανανεώσουµε τον υπολογισµό µας την αµέσως επόµενη χρονική στιγµή ( εν χρειάζεται δηλαδή να φτάσουµε σπίτιγιανασυνειδητοποιήσουµε ότιοαρχικός µας υπολογισµός δεν ισχύει πλέον. Βλέποντας καθοδόν ότι τα πράγµατα δεν ακολουθούν τις αρχικές µας προβλέψεις αναθεωρούµε τηναρχική µας εκτίµηση και δεν περιµένουµε ναείµαστε στο σπίτι σε 30 λεπτά). Στο ακόλουθο σχήµα φαίνονται οι αλλαγές έτσι όπως προτάθηκαν από τις µεθόδους Monte Carlo (Σχήµα 3.1) και από τις TD µεθόδους (Σχήµα 3.2). 45 Πραγµατικό αποτέλεσµα Συνολικός προβλεπόµενος χρόνος Καταστάσεις Σχήµα 3.1 Οι αλλαγές που προτάθηκαν από τις µεθόδους Monte Carlo 24

25 Συνολικός προβλεπόµενος χρόνος Πραγµατικό αποτέλεσµα Καταστάσεις Σχήµα 3.2 Οι αλλαγές που προτάθηκαν από τις TD µεθόδους Πλεονεκτήµατα της Μάθησης Χρονικών ιαφορών (TD learning) Οι µέθοδοι µάθησης χρονικών διαφορών (TD learning methods) είναι αυξητικές (incremental), µε αποτέλεσµα η πολυπλοκότητα υπολογισµού τους να είναι µικρή. Η µάθηση συντελείται µεταξύ διαδοχικών χρονικών στιγµών και όχι στο τέλος, όπως συµβαίνει µετιςmonte Carlo µεθόδους. Επιπλέον, οι TD µέθοδοι χρησιµοποιούν πιο αποδοτικά την εµπειρία τους µε αποτέλεσµα να συγκλίνουν ταχύτερα και να κάνουν καλύτερες προβλέψεις. Επίσης δεν χρειάζεται να γνωρίζουν το µοντέλο του περιβάλλοντος, όπως οι µέθοδοι υναµικού Προγραµµατισµού. Μαθαίνουν κατευθείαν από την εµπειρία που έχουν σχετικά µε µια συγκεκριµένη στρατηγική π και ανανεώνουν σε κάθε χρονική στιγµή τον υπολογισµό τουςv για την V π. Στην πραγµατικότητα οι TD µέθοδοι δεν χρησιµοποιούνται µόνο για τον υπολογισµό συναρτήσεων προσέγγισης. Αποτελούν γενικότερες µεθόδους για την µάθηση της δυνατότητας µακροπρόθεσµων προβλέψεων σε δυναµικά συστήµατα. Για παράδειγµα µπορούν να χρησιµοποιηθούν για την πρόβλεψη οικονοµικών δεδοµένων, καιρικών προτύπων, τάσεων αγοράς, συµπεριφοράς ζώων, αναγνώριση φωνής... Καιπαράτογεγονόςότιοιεφαρµογές τους είναι ήδη αρκετές αξίζει να σηµειώσουµε πωςοι δυνατότητες και η δυναµική των TD µεθόδων δεν έχει εξερευνηθεί ακόµη πλήρως Μάθηση Χρονικών ιαφορών TD(λ) Μέχρι στιγµής δεν έχουµε αναφερθεί ουσιαστικά στο γεγονός ότι οι µέθοδοι TD learning αποτελούν µια µορφή καθυστερηµένης ενισχυτικής µάθησης. Αντιθέτως, έχουµε υποθέσει πως όλες οι εκτιµήσεις είναι ισοδύναµες και δεν εξαρτώνται από τη χρονική στιγµή κατά την οποία πραγµατοποιήθηκαν. Το σωστό θα ήταν να λάβουµε υπόψη και το χρονικό παράγοντα. Ακριβώς αυτό κάνει ο παράγοντας παράληψης (forgetting factor) λ, µία ευριστική παράµετρος µε τιµές 0 λ 1. Το λ καθορίζει το ρυθµό µείωσης της ανάθεσης πίστωσης (credit assignment) σε µια ενέργεια, δηλαδή καθορίζει κατά πόσο ευθύνονται οι προηγούµενες σωστές εκτιµήσεις για ένα λάθος που συµβαίνει σε µία δεδοµένη µεταγενέστερη χρονική στιγµή. Έτσι, πολλαπλασιάζουµε τιςεκτιµήσεις που συνέβησαν τη χρονική στιγµή k µε ένανπαράγοντα βαρύτητας λ k και η ανανέωση έχει πλέον τη µορφή: 25

26 όπου w t = α(vt+ 1 - V t ) k = λ 1 t t-k w V k α: ορυθµός µάθησης (learning rate) V t : ηπρόβλεψητηχρονικήστιγµή t wv k : το διάνυσµα τελεστής (gradient vector) της πρόβλεψης ως προς το διάνυσµα τωνβαρώντου δικτύου τη χρονική στιγµή t λ: ο παράγοντας παράληψης (forgetting factor) Ας εξετάσουµε τισυµβαίνει για τις διάφορες τιµές του λ: Για λ=0, η απόδοση πίστωσης σε µια ενέργεια µειώνεται γρήγορα και στην ουσία µόνο η τελευταία κατάσταση επηρεάζεται. Έτσι το λάθος που µπορεί να συµβεί µια δεδοµένη χρονική στιγµή δεν µεταφέρεται σε εκτιµήσεις προγενέστερων χρονικών στιγµών. Για λ=1, η απόδοση πίστωσης σε µια ενέργεια µειώνεται αργά και επηρεάζεται σχεδόν ολόκληρη η ακολουθία καταστάσεων. Έτσι το λάθος που µπορεί να συµβεί µια δεδοµένη χρονική µεταφέρεται αναλλοίωτο σχεδόν στις προηγούµενες εκτιµήσεις προκειµένου να τις διορθώσει. Μια κατάλληλη τιµή τουλ επιτρέπει πιο γρήγορη σύγκλιση. εδοµένου δε και του ρυθµού µάθησης α, αν ισχύει: α k, K = < µπορούµε ναείµαστε σίγουροι για τη σύγκλιση Βελτιστοποίηση και σύγκλιση Έστω ότι η εµπειρία που διαθέτουµε είναι πεπερασµένη, δηλαδή µιλάµε για τις περιπτώσεις Μαρκοβιανών διαδικασιών. Μια κοινή αντιµετώπιση µέσω των µεθόδων TD µάθησης θα ήταν να χρησιµοποιήσουµε επανειληµµένα την ίδια εµπειρία µέχρι η µέθοδος να συγκλίνει σε µία απάντηση. Αν V είναι η συνάρτηση προσέγγισης, οι αυξήσεις υπολογίζονται σε κάθε χρονική στιγµή t που επισκεπτόµαστε µη τελικές καταστάσεις, αλλά η συνάρτηση V αλλάζει µόνο µία φορά µε το άθροισµα τωνεπιµέρους αυξήσεων. Τότε ηδιαθέσιµη εµπειρία συνδυάζεται µε τη νέα συνάρτηση προσέγγισης και παράγουν µία νέα ολική αύξηση. Η διαδικασία αυτή επαναλαµβάνεται µέχρι τη σύγκλιση και ονοµάζεται ανανέωση παρτίδας (batch updating), επειδή ακριβώς οι ανανεώσεις πραγµατοποιούνται µετά την επεξεργασία κάθε παρτίδας εκπαιδευτικών παραδειγµάτων. Η έννοια της επανάληψης που αναφέραµε πριν δικαιολογεί και το γεγονός ότι οι µέθοδοι TD learning έχουν, στην πράξη τουλάχιστον, µεγαλύτερους ρυθµούς µάθησης. Απότηστιγµή που αποσκοπούν σε ένα καλύτερο τελικό αποτέλεσµα είναι προφανές ότι και µετά από κάθε βήµα θα παρουσιάζονται βελτιωµένες. Τίθεται πλέον το ερώτηµα για το αν οι TD(λ) µέθοδοι συγκλίνουν. Τo 1988 o Sutton [Sutton 1988] απέδειξε ότι στην περίπτωση Μαρκοβιανών διαδικασιών οι αλγόριθµοι TD(0), TD(1) συγκλίνουν στις σωστές τιµές. Ο Dayan [1992] επέκτεινε τη θεωρία του Sutton για 0 λ 1. Στην πράξη, η γενικότητα του TD(λ) επαληθεύτηκε από τον Tesauro [Tesauro 1995], ο οποίος χρησιµοποίησε το 1992 τον αλγόριθµο TD(λ) µε λ=0 για να εκπαιδεύσει έναν agent στο τάβλι. Σήµερα, έχοντας παίξει χιλιάδες παιχνίδια το TD-Gammon του Tesauro θεωρείται πλέον ικανό να ανταγωνιστεί µε επιτυχία παγκόσµιους πρωταθλητές. K α 2 k 26

27 Στην πράξη µάλιστα, σε περιπτώσεις Μαρκοβιανών διαδικασιών έχει παρατηρηθεί οι TD µέθοδοι να συγκλίνουν πιο γρήγορα από τις µεθόδους Monte Carlo Sarsa learning: Οn policy TD control O αλγόριθµος του SARSA αποτελεί µια TD µέθοδο που µαθαίνει τις συναρτήσεις αξιολόγησης κινήσεων βάσει ενός µηχανισµού αυτοδύναµης εκκίνησης (bootstrapping mechanism), αυτό σηµαίνει πως οι εκτιµήσεις που κάνει στηρίζονται σε προηγούµενες εκτιµήσεις. Σε κάθε βήµα, ο αλγόριθµος SARSA ανανεώνει τις εκτιµήσεις των συναρτήσεων αξιολόγησης Q(s,a) χρησιµοποιώντας την πεντάδα (s,a,r,s',a'), η οποία εξάλλου έδωσε και το όνοµα του αλγορίθµου. Ο ψευδοκώδικας του αλγορίθµου SARSA είναι ο ακόλουθος: Αλγόριθµος Sarsa 1. Αρχικοποίησε την συνάρτηση αξιολόγησης Q(s,a) µετυχαίεςτιµές. 2. Επανέλαβε για κάθε επεισόδιο: Έστω η κατάσταση s Επέλεξε κίνηση α (δοθείσας της s) χρησιµοποιώντας την στρατηγική (policy) που προκύπτει από το Q(π. χ, ε-greedy) Επανέλαβε (για κάθε βήµα του επεισοδίου): Επέλεξε την κίνηση α, παρατήρησε τις τιµές r,s. Q ( s, a ) Q ( s, a ) + a [ r + Q ( s ', a ' ) Q ( s, a )] s s '; a a ' µέχρι η s να είναι τελική κατάσταση 3. Επανέλαβε το βήµα 2 για το σύνολο τωνεπεισοδίων. Επειδή ακριβώς πρόκειται για µία µέθοδο βήµα προςβήµα µάθησης (step by step learning), δεν υφίσταται το πρόβληµα της προτίµησης µιας στρατηγικής που οδηγεί τον agent στην ίδια πάντα κατάσταση. Ο agent µαθαίνει γρήγορα (κατά τη διάρκεια ενός επεισοδίου) ότι τέτοιες στρατηγικές είναι φτωχές και συνεπώς πρέπει να τις αποφεύγει αναζητώντας καλύτερες. Όσον αφορά τη σύγκλιση, ο αλγόριθµος Sarsa συγκλίνει µε πιθανότητα 1 σε µία βέλτιστη στρατηγική αν η συχνότητα επίσκεψης σε όλα τα ζεύγη καταστάσεων-κινήσεων είναι πολύ µεγάλη Q-Learning: Οff policy TD control Ένας από τους πιο σηµαντικούς σταθµούς στην ενισχυτική µάθηση ήταν και η ανάπτυξη ενός off-policy ΤD ελέγχου αλγορίθµου, γνωστού ως Q-learning (Watkins, 1989). Η συνάρτηση αξιολόγησης κινήσεων Q που µαθαίνει τελικά ο agent, προσεγγίζει την βέλτιστη συνάρτηση αξιολόγησης κινήσεων Q* ανεξάρτητα από την στρατηγική που ακολουθείται. Το γεγονός αυτό διευκολύνει την ανάλυση του αλγορίθµου και οδηγεί σε πιο γρήγορη σύγκλιση. Ωστόσο στην περίπτωση αυτή η στρατηγική έχει νόηµα καθώς καθορίζει ποια ζεύγη καταστάσεων-κινήσεων επισκεπτόµαστε και ανανεώνουµε. Ο ψευδοκώδικας του αλγορίθµου SARSA είναι ο ακόλουθος: 27

ΠΛΗ 513-Αυτόνομοι Πράκτορες Χειμερινό εξάμηνο 2012 Εφαρμογή αλγορίθμων ενισχυτικής μάθησης στο παιχνίδι Βlackjack. Χλης Νικόλαος-Κοσμάς

ΠΛΗ 513-Αυτόνομοι Πράκτορες Χειμερινό εξάμηνο 2012 Εφαρμογή αλγορίθμων ενισχυτικής μάθησης στο παιχνίδι Βlackjack. Χλης Νικόλαος-Κοσμάς ΠΛΗ 513-Αυτόνομοι Πράκτορες Χειμερινό εξάμηνο 2012 Εφαρμογή αλγορίθμων ενισχυτικής μάθησης στο παιχνίδι Βlackjack Χλης Νικόλαος-Κοσμάς Περιγραφή παιχνιδιού Βlackjack: Σκοπός του παιχνιδιού είναι ο παίκτης

Διαβάστε περισσότερα

Η Μηχανική Μάθηση στο Σχολείο: Μια Προσέγγιση για την Εισαγωγή της Ενισχυτικής Μάθησης στην Τάξη

Η Μηχανική Μάθηση στο Σχολείο: Μια Προσέγγιση για την Εισαγωγή της Ενισχυτικής Μάθησης στην Τάξη 6 ο Πανελλήνιο Συνέδριο «Διδακτική της Πληροφορικής» Φλώρινα, 20-22 Απριλίου 2012 Η Μηχανική Μάθηση στο Σχολείο: Μια Προσέγγιση για την Εισαγωγή της Ενισχυτικής Μάθησης στην Τάξη Σάββας Νικολαΐδης 1 ο

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση

ΚΕΦΑΛΑΙΟ 18. 18 Μηχανική Μάθηση ΚΕΦΑΛΑΙΟ 18 18 Μηχανική Μάθηση Ένα φυσικό ή τεχνητό σύστηµα επεξεργασίας πληροφορίας συµπεριλαµβανοµένων εκείνων µε δυνατότητες αντίληψης, µάθησης, συλλογισµού, λήψης απόφασης, επικοινωνίας και δράσης

Διαβάστε περισσότερα

Τσάπελη Φανή ΑΜ: 2004030113. Ενισχυτική Μάθηση για το παιχνίδι dots. Τελική Αναφορά

Τσάπελη Φανή ΑΜ: 2004030113. Ενισχυτική Μάθηση για το παιχνίδι dots. Τελική Αναφορά Τσάπελη Φανή ΑΜ: 243113 Ενισχυτική Μάθηση για το παιχνίδι dots Τελική Αναφορά Περιγραφή του παιχνιδιού Το παιχνίδι dots παίζεται με δύο παίχτες. Έχουμε έναν πίνακα 4x4 με τελείες, και σκοπός του κάθε παίχτη

Διαβάστε περισσότερα

Αυτόνομοι Πράκτορες. Εργασία εξαμήνου. Value Iteration και Q- Learning για Peg Solitaire

Αυτόνομοι Πράκτορες. Εργασία εξαμήνου. Value Iteration και Q- Learning για Peg Solitaire Αυτόνομοι Πράκτορες Εργασία εξαμήνου Value Iteration και Q- Learning για Peg Solitaire Μαρίνα Μαυρίκου 2007030102 1.Εισαγωγικά για το παιχνίδι Το Peg Solitaire είναι ένα παιχνίδι το οποίο παίζεται με ένα

Διαβάστε περισσότερα

ΕΚΠ 413 / ΕΚΠ 606 Αυτόνοµοι (Ροµ οτικοί) Πράκτορες

ΕΚΠ 413 / ΕΚΠ 606 Αυτόνοµοι (Ροµ οτικοί) Πράκτορες ΕΚΠ 413 / ΕΚΠ 606 Αυτόνοµοι (Ροµ οτικοί) Πράκτορες Θεωρία Παιγνίων Μαρκωβιανά Παιχνίδια Τµήµα Ηλεκτρονικών Μηχανικών και Μηχανικών Υ ολογιστών Πολυτεχνείο Κρήτης Ε ανάληψη Μερική αρατηρησιµότητα POMDPs

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ ΘΕΜΑ 1 ο (2.5 µονάδες) ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΝΕΥΡΩΝΙΚΑ ΙΚΤΥΑ Τελικές εξετάσεις 21 Σεπτεµβρίου 2004 ιάρκεια: 3 ώρες Το παρακάτω σύνολο

Διαβάστε περισσότερα

Ε ανάληψη. Προβλήµατα ικανο οίησης εριορισµών. ορισµός και χαρακτηριστικά Ε ίλυση ροβληµάτων ικανο οίησης εριορισµών

Ε ανάληψη. Προβλήµατα ικανο οίησης εριορισµών. ορισµός και χαρακτηριστικά Ε ίλυση ροβληµάτων ικανο οίησης εριορισµών ΠΛΗ 405 Τεχνητή Νοηµοσύνη Αναζήτηση µε Αντι αλότητα Adversarial Search Τµήµα Ηλεκτρονικών Μηχανικών και Μηχανικών Υ ολογιστών Πολυτεχνείο Κρήτης Ε ανάληψη Προβλήµατα ικανο οίησης εριορισµών ορισµός και

Διαβάστε περισσότερα

Κεφάλαιο 5. Αλγόριθµοι Αναζήτησης σε Παίγνια ύο Αντιπάλων. Τεχνητή Νοηµοσύνη - Β' Έκδοση

Κεφάλαιο 5. Αλγόριθµοι Αναζήτησης σε Παίγνια ύο Αντιπάλων. Τεχνητή Νοηµοσύνη - Β' Έκδοση Κεφάλαιο 5 Αλγόριθµοι Αναζήτησης σε Παίγνια ύο Αντιπάλων Τεχνητή Νοηµοσύνη - Β' Έκδοση Ι. Βλαχάβας, Π. Κεφαλάς, Ν. Βασιλειάδης, Φ. Κόκκορας, Η. Σακελλαρίου Αλγόριθµοι Αναζήτησης σε Παίγνια ύο Αντιπάλων

Διαβάστε περισσότερα

5 ΕΙΣΑΓΩΓΗ ΣΤΗ ΘΕΩΡΙΑ ΑΛΓΟΡΙΘΜΩΝ

5 ΕΙΣΑΓΩΓΗ ΣΤΗ ΘΕΩΡΙΑ ΑΛΓΟΡΙΘΜΩΝ 5 ΕΙΣΑΓΩΓΗ ΣΤΗ ΘΕΩΡΙΑ ΑΛΓΟΡΙΘΜΩΝ 5.1 Εισαγωγή στους αλγορίθμους 5.1.1 Εισαγωγή και ορισμοί Αλγόριθμος (algorithm) είναι ένα πεπερασμένο σύνολο εντολών οι οποίες εκτελούν κάποιο ιδιαίτερο έργο. Κάθε αλγόριθμος

Διαβάστε περισσότερα

Ασκήσεις Φροντιστηρίου «Υπολογιστική Νοηµοσύνη Ι» 7ο Φροντιστήριο 15/1/2008

Ασκήσεις Φροντιστηρίου «Υπολογιστική Νοηµοσύνη Ι» 7ο Φροντιστήριο 15/1/2008 Ασκήσεις Φροντιστηρίου «Υπολογιστική Νοηµοσύνη Ι» 7ο Φροντιστήριο 5//008 Πρόβληµα ο Στα παρακάτω ερωτήµατα επισηµαίνουµε ότι perceptron είναι ένας νευρώνας και υποθέτουµε, όπου χρειάζεται, τη χρήση δικτύων

Διαβάστε περισσότερα

Αλγόριθμοι Αναζήτησης σε Παίγνια Δύο Αντιπάλων

Αλγόριθμοι Αναζήτησης σε Παίγνια Δύο Αντιπάλων Τεχνητή Νοημοσύνη 06 Αλγόριθμοι Αναζήτησης σε Παίγνια Δύο Αντιπάλων Εισαγωγικά (1/3) Τα προβλήματα όπου η εξέλιξη των καταστάσεων εξαρτάται από δύο διαφορετικά σύνολα τελεστών μετάβασης που εφαρμόζονται

Διαβάστε περισσότερα

Αλγόριθµοι δροµολόγησης µε µέσα µαζικής µεταφοράς στο µεταφορικό δίκτυο των Αθηνών

Αλγόριθµοι δροµολόγησης µε µέσα µαζικής µεταφοράς στο µεταφορικό δίκτυο των Αθηνών 1 Αλγόριθµοι δροµολόγησης µε µέσα µαζικής µεταφοράς στο µεταφορικό δίκτυο των Αθηνών ΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ της Κωτσογιάννη Μαριάννας Περίληψη 1. Αντικείµενο- Σκοπός Αντικείµενο της διπλωµατικής αυτής εργασίας

Διαβάστε περισσότερα

Τεχνητή Νοημοσύνη. 2η διάλεξη (2015-16) Ίων Ανδρουτσόπουλος. http://www.aueb.gr/users/ion/

Τεχνητή Νοημοσύνη. 2η διάλεξη (2015-16) Ίων Ανδρουτσόπουλος. http://www.aueb.gr/users/ion/ Τεχνητή Νοημοσύνη 2η διάλεξη (2015-16) Ίων Ανδρουτσόπουλος http://www.aueb.gr/users/ion/ 1 Οι διαφάνειες αυτής της διάλεξης βασίζονται στα βιβλία: Τεχνητή Νοημοσύνη των Βλαχάβα κ.ά., 3η έκδοση, Β. Γκιούρδας

Διαβάστε περισσότερα

Ανάπτυξη και δηµιουργία µοντέλων προσοµοίωσης ροής και µεταφοράς µάζας υπογείων υδάτων σε καρστικούς υδροφορείς µε χρήση θεωρίας νευρωνικών δικτύων

Ανάπτυξη και δηµιουργία µοντέλων προσοµοίωσης ροής και µεταφοράς µάζας υπογείων υδάτων σε καρστικούς υδροφορείς µε χρήση θεωρίας νευρωνικών δικτύων Ανάπτυξη και δηµιουργία µοντέλων προσοµοίωσης ροής και µεταφοράς µάζας υπογείων υδάτων σε καρστικούς υδροφορείς µε χρήση θεωρίας νευρωνικών δικτύων Περίληψη ιδακτορικής ιατριβής Τριχακης Ιωάννης Εργαστήριο

Διαβάστε περισσότερα

Γραµµικός Προγραµµατισµός - Μέθοδος Simplex

Γραµµικός Προγραµµατισµός - Μέθοδος Simplex Γραµµικός Προγραµµατισµός - Μέθοδος Simplex Η πλέον γνωστή και περισσότερο χρησιµοποιηµένη µέθοδος για την επίλυση ενός γενικού προβλήµατος γραµµικού προγραµµατισµού, είναι η µέθοδος Simplex η οποία αναπτύχθηκε

Διαβάστε περισσότερα

ΣΗΜΕΙΩΣΕΙΣ ΜΑΘΗΜΑΤΙΚΗΣ ΑΝΑΛΥΣΗΣ Ι (2006-07)

ΣΗΜΕΙΩΣΕΙΣ ΜΑΘΗΜΑΤΙΚΗΣ ΑΝΑΛΥΣΗΣ Ι (2006-07) ΤΕΙ ΥΤΙΚΗΣ ΜΑΚΕ ΟΝΙΑΣ ΠΑΡΑΡΤΗΜΑ ΚΑΣΤΟΡΙΑΣ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΤΕΧΝΟΛΟΓΙΑΣ ΥΠΟΛΟΓΙΣΤΩΝ ΣΗΜΕΙΩΣΕΙΣ ΜΑΘΗΜΑΤΙΚΗΣ ΑΝΑΛΥΣΗΣ Ι (2006-07) Επιµέλεια Σηµειώσεων : Βασιλειάδης Γεώργιος Καστοριά, εκέµβριος 2006

Διαβάστε περισσότερα

Συνήθεις διαφορικές εξισώσεις προβλήματα οριακών τιμών

Συνήθεις διαφορικές εξισώσεις προβλήματα οριακών τιμών Συνήθεις διαφορικές εξισώσεις προβλήματα οριακών τιμών Οι παρούσες σημειώσεις αποτελούν βοήθημα στο μάθημα Αριθμητικές Μέθοδοι του 5 ου εξαμήνου του ΤΜΜ ημήτρης Βαλουγεώργης Καθηγητής Εργαστήριο Φυσικών

Διαβάστε περισσότερα

* τη µήτρα. Κεφάλαιο 1o

* τη µήτρα. Κεφάλαιο 1o Κεφάλαιο 1o Θεωρία Παιγνίων Η θεωρία παιγνίων εξετάζει καταστάσεις στις οποίες υπάρχει αλληλεπίδραση µεταξύ ενός µικρού αριθµού ατόµων. Άρα σε οποιαδήποτε περίπτωση, αν ο αριθµός των ατόµων που συµµετέχουν

Διαβάστε περισσότερα

ΜΕΘΟΔΟΙ ΒΕΛΤΙΣΤΟΠΟΙΗΣΗΣ ΑΠΟΙΚΙΑΣ ΜΥΡΜΗΓΚΙΩΝ ANT COLONY OPTIMIZATION METHODS

ΜΕΘΟΔΟΙ ΒΕΛΤΙΣΤΟΠΟΙΗΣΗΣ ΑΠΟΙΚΙΑΣ ΜΥΡΜΗΓΚΙΩΝ ANT COLONY OPTIMIZATION METHODS ΜΕΘΟΔΟΙ ΒΕΛΤΙΣΤΟΠΟΙΗΣΗΣ ΑΠΟΙΚΙΑΣ ΜΥΡΜΗΓΚΙΩΝ ANT COLONY OPTIMIZATION METHODS Χρήστος Δ. Ταραντίλης Αν. Καθηγητής ΟΠΑ ACO ΑΛΓΟΡΙΘΜΟΙ Η ΛΟΓΙΚΗ ΑΝΑΖΗΤΗΣΗΣ ΛΥΣΕΩΝ ΣΕ ΠΡΟΒΛΗΜΑΤΑ ΙΑΤΑΞΗΣ (1/3) Ε..Ε. ΙΙ Oι ACO

Διαβάστε περισσότερα

Υπολογιστικά & Διακριτά Μαθηματικά

Υπολογιστικά & Διακριτά Μαθηματικά Υπολογιστικά & Διακριτά Μαθηματικά Ενότητα 1: Εισαγωγή- Χαρακτηριστικά Παραδείγματα Αλγορίθμων Στεφανίδης Γεώργιος Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons.

Διαβάστε περισσότερα

(GNU-Linux, FreeBSD, MacOsX, QNX

(GNU-Linux, FreeBSD, MacOsX, QNX 1.7 διαταξεις (σελ. 17) Παράδειγµα 1 Θα πρέπει να κάνουµε σαφές ότι η επιλογή των λέξεων «προηγείται» και «έπεται» δεν έγινε απλώς για λόγους αφαίρεσης. Μπορούµε δηλαδή να ϐρούµε διάφορα παραδείγµατα στα

Διαβάστε περισσότερα

Περίληψη ιπλωµατικής Εργασίας

Περίληψη ιπλωµατικής Εργασίας Περίληψη ιπλωµατικής Εργασίας Θέµα: Εναλλακτικές Τεχνικές Εντοπισµού Θέσης Όνοµα: Κατερίνα Σπόντου Επιβλέπων: Ιωάννης Βασιλείου Συν-επιβλέπων: Σπύρος Αθανασίου 1. Αντικείµενο της διπλωµατικής Ο εντοπισµός

Διαβάστε περισσότερα

1 Εισαγωγή στις Συνδυαστικές Δημοπρασίες - Combinatorial Auctions

1 Εισαγωγή στις Συνδυαστικές Δημοπρασίες - Combinatorial Auctions ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ - ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ Θεωρία Παιγνίων και Αποφάσεων Διδάσκων: Ε. Μαρκάκης, Εαρινό εξάμηνο 2015 Συμπληρωματικές σημειώσεις για τον μηχανισμό VCG 1 Εισαγωγή στις Συνδυαστικές

Διαβάστε περισσότερα

Μηχανισμοί Μάθησης και η Χρήση τους στην Επικύρωση της Ποιότητας Νέων Παιγνίων

Μηχανισμοί Μάθησης και η Χρήση τους στην Επικύρωση της Ποιότητας Νέων Παιγνίων Μηχανισμοί Μάθησης και η Χρήση τους στην Επικύρωση της Ποιότητας Νέων Παιγνίων Γκεζερλής Σπύρος Επιβλέπων Δημήτριος Καλλές Εξεταστική Επιτροπή Δημήτρης Καλλές Λοΐζος Μιχαήλ Αρτίκης Αλέξανδρος Παρουσίαση

Διαβάστε περισσότερα

Μοντέλα των Cournotκαι Bertrand

Μοντέλα των Cournotκαι Bertrand Μοντέλα των Cournotκαι Bertrand Παύλος Στ. Εφραιµίδης Τοµέας Λογισµικού και Ανάπτυξης Εφαρµογών Τµήµα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Τι θα πούμε Θα εξετάσουμε αναλυτικά το μοντέλο Cournot

Διαβάστε περισσότερα

Μηχανισμοί Μάθησης και η Χρήση τους στην Επικύρωση της Ποιότητας Νέων Παιγνίων

Μηχανισμοί Μάθησης και η Χρήση τους στην Επικύρωση της Ποιότητας Νέων Παιγνίων Μηχανισμοί Μάθησης και η Χρήση τους στην Επικύρωση της Ποιότητας Νέων Παιγνίων Γκεζερλής Σπύρος Επιβλέπων Δημήτριος Καλλές Εξεταστική Επιτροπή Δημήτρης Καλλές Λοΐζος Μιχαήλ Αρτίκης Αλέξανδρος Παρουσίαση

Διαβάστε περισσότερα

Επίλυση προβληµάτων. Αλγόριθµοι Αναζήτησης

Επίλυση προβληµάτων. Αλγόριθµοι Αναζήτησης Επίλυση προβληµάτων! Περιγραφή προβληµάτων Αλγόριθµοι αναζήτησης Αλγόριθµοι τυφλής αναζήτησης Αλγόριθµοι ευρετικής αναζήτησης Παιχνίδια δύο αντιπάλων Προβλήµατα ικανοποίησης περιορισµών Γενικά " Τεχνητή

Διαβάστε περισσότερα

Ευφυείς Τεχνολογίες ----Πράκτορες

Ευφυείς Τεχνολογίες ----Πράκτορες Ευφυείς Τεχνολογίες ----Πράκτορες Ενότητα 3: Εισαγωγή στους Ευφυείς Πράκτορες Δημοσθένης Σταμάτης demos@it.teithe.gr www.it.teithe.gr/~demos Μαθησιακοί Στόχοι της ενότητας 3 H κατανόηση της φύσης των πρακτόρων

Διαβάστε περισσότερα

4.3. Γραµµικοί ταξινοµητές

4.3. Γραµµικοί ταξινοµητές Γραµµικοί ταξινοµητές Γραµµικός ταξινοµητής είναι ένα σύστηµα ταξινόµησης που χρησιµοποιεί γραµµικές διακριτικές συναρτήσεις Οι ταξινοµητές αυτοί αναπαρίστανται συχνά µε οµάδες κόµβων εντός των οποίων

Διαβάστε περισσότερα

Αριθμητική εύρεση ριζών μη γραμμικών εξισώσεων

Αριθμητική εύρεση ριζών μη γραμμικών εξισώσεων Αριθμητική εύρεση ριζών μη γραμμικών εξισώσεων Με τον όρο μη γραμμικές εξισώσεις εννοούμε εξισώσεις της μορφής: f( ) 0 που προέρχονται από συναρτήσεις f () που είναι μη γραμμικές ως προς. Περιέχουν δηλαδή

Διαβάστε περισσότερα

1.1.3 t. t = t2 - t1 1.1.4 x2 - x1. x = x2 x1 . . 1

1.1.3 t. t = t2 - t1 1.1.4  x2 - x1. x = x2 x1 . . 1 1 1 o Κεφάλαιο: Ευθύγραµµη Κίνηση Πώς θα µπορούσε να περιγραφεί η κίνηση ενός αγωνιστικού αυτοκινήτου; Πόσο γρήγορα κινείται η µπάλα που κλώτσησε ένας ποδοσφαιριστής; Απαντήσεις σε τέτοια ερωτήµατα δίνει

Διαβάστε περισσότερα

ΗΜΙΟΥΡΓΙΑ ΠΑΙΧΝΙ ΙΟΥ ΣΤΟ SCRATCH ΒΗΜΑ ΠΡΟΣ ΒΗΜΑ

ΗΜΙΟΥΡΓΙΑ ΠΑΙΧΝΙ ΙΟΥ ΣΤΟ SCRATCH ΒΗΜΑ ΠΡΟΣ ΒΗΜΑ ΗΜΙΟΥΡΓΙΑ ΠΑΙΧΝΙ ΙΟΥ ΣΤΟ SCRATCH ΒΗΜΑ ΠΡΟΣ ΒΗΜΑ ΣΕΝΑΡΙΟ ΠΑΙΧΝΙ ΙΟΥ Το παιχνίδι θα αποτελείται από δυο παίκτες, οι οποίοι θα βρίσκονται αντικριστά στις άκρες ενός γηπέδου δεξιά και αριστερά, και µια µπάλα.

Διαβάστε περισσότερα

ΣΗΜΕΙΩΣΕΙΣ ΥΝΑΜΙΚΟΥ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ

ΣΗΜΕΙΩΣΕΙΣ ΥΝΑΜΙΚΟΥ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΜΑΘΗΜΑΤΙΚΩΝ ΣΗΜΕΙΩΣΕΙΣ ΥΝΑΜΙΚΟΥ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ Επιµέλεια Σηµειώσεων : Βασιλειάδης Γεώργιος Θεσσαλονίκη 2012 2 Περιεχόµενα 1 υναµικός

Διαβάστε περισσότερα

ιδάσκων: ηµήτρης Ζεϊναλιπούρ

ιδάσκων: ηµήτρης Ζεϊναλιπούρ Κεφάλαιο 1.3-1.4: Εισαγωγή Στον Προγραµµατισµό ( ιάλεξη 2) ιδάσκων: ηµήτρης Ζεϊναλιπούρ Περιεχόµενα Εισαγωγικές Έννοιες - Ορισµοί Ο κύκλος ανάπτυξης προγράµµατος Παραδείγµατα Πότε χρησιµοποιούµε υπολογιστή?

Διαβάστε περισσότερα

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΕΠΑΝΑΛΗΠΤΙΚΟ ΔΙΑΓΩΝΙΣΜΑ ΣΧΟΛΙΚΟΥ ΕΤΟΥΣ 2013-2014

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΕΠΑΝΑΛΗΠΤΙΚΟ ΔΙΑΓΩΝΙΣΜΑ ΣΧΟΛΙΚΟΥ ΕΤΟΥΣ 2013-2014 ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΕΠΑΝΑΛΗΠΤΙΚΟ ΔΙΑΓΩΝΙΣΜΑ ΣΧΟΛΙΚΟΥ ΕΤΟΥΣ 2013-2014 Επιμέλεια: Ομάδα Διαγωνισμάτων από το Στέκι των Πληροφορικών Θέμα Α A1. Να γράψετε στο τετράδιό σας τους

Διαβάστε περισσότερα

ΣΗΜΕΙΩΣΕΙΣ ΓΙΑ ΤΟ ΜΑΘΗΜΑ ΣΤΑΤΙΣΤΙΚΗ ΓΙΑ ΠΟΛΙΤΙΚΟΥΣ ΜΗΧΑΝΙΚΟΥΣ ΜΕΡΟΣ Β

ΣΗΜΕΙΩΣΕΙΣ ΓΙΑ ΤΟ ΜΑΘΗΜΑ ΣΤΑΤΙΣΤΙΚΗ ΓΙΑ ΠΟΛΙΤΙΚΟΥΣ ΜΗΧΑΝΙΚΟΥΣ ΜΕΡΟΣ Β ΣΗΜΕΙΩΣΕΙΣ ΓΙΑ ΤΟ ΜΑΘΗΜΑ ΣΤΑΤΙΣΤΙΚΗ ΓΙΑ ΠΟΛΙΤΙΚΟΥΣ ΜΗΧΑΝΙΚΟΥΣ ΜΕΡΟΣ Β ηµήτρης Κουγιουµτζής http://users.auth.gr/dkugiu/teach/civilengineer E mail: dkugiu@gen.auth.gr 1/11/2009 2 Περιεχόµενα 1 ΠΕΡΙΓΡΑΦΙΚΗ

Διαβάστε περισσότερα

Πώς μπορούμε να δημιουργούμε γεωμετρικά σχέδια με τη Logo;

Πώς μπορούμε να δημιουργούμε γεωμετρικά σχέδια με τη Logo; Κεφάλαιο 2 Εισαγωγή Πώς μπορούμε να δημιουργούμε γεωμετρικά σχέδια με τη Logo; Η Logo είναι μία από τις πολλές γλώσσες προγραμματισμού. Κάθε γλώσσα προγραμματισμού έχει σκοπό τη δημιουργία προγραμμάτων

Διαβάστε περισσότερα

Θεωρία παιγνίων Δημήτρης Χριστοφίδης Εκδοση 1η: Παρασκευή 3 Απριλίου 2015. Παραδείγματα Παράδειγμα 1. Δυο άτομα παίζουν μια παραλλαγή του σκακιού όπου σε κάθε βήμα ο κάθε παίκτης κάνει δύο κανονικές κινήσεις.

Διαβάστε περισσότερα

o AND o IF o SUMPRODUCT

o AND o IF o SUMPRODUCT Πληροφοριακά Εργαστήριο Management 1 Information Συστήματα Systems Διοίκησης ΤΕΙ Τμήμα Ελεγκτικής Ηπείρου Χρηματοοικονομικής (Παράρτημα Πρέβεζας) και Αντικείµενο: Μοντελοποίηση προβλήµατος Θέµατα που καλύπτονται:

Διαβάστε περισσότερα

Ε π ι μ έ λ ε ι α Κ Ο Λ Λ Α Σ Α Ν Τ Ω Ν Η Σ

Ε π ι μ έ λ ε ι α Κ Ο Λ Λ Α Σ Α Ν Τ Ω Ν Η Σ Ε π ι μ έ λ ε ι α Κ Ο Λ Λ Α Σ Α Ν Τ Ω Ν Η Σ 1 Συναρτήσεις Όταν αναφερόμαστε σε μια συνάρτηση, ουσιαστικά αναφερόμαστε σε μια σχέση ή εξάρτηση. Στα μαθηματικά που θα μας απασχολήσουν, με απλά λόγια, η σχέση

Διαβάστε περισσότερα

ΕΠΛ 003: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ

ΕΠΛ 003: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΕΠΛ 003: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ Δρ. Κόννης Γιώργος Πανεπιστήμιο Κύπρου - Τμήμα Πληροφορικής Προγραμματισμός Στόχοι 1 Να περιγράψουμε τις έννοιες του Υπολογιστικού Προβλήματος και του Προγράμματος/Αλγορίθμου

Διαβάστε περισσότερα

ιατύπωση τυπικής µορφής προβληµάτων Γραµµικού

ιατύπωση τυπικής µορφής προβληµάτων Γραµµικού Ο αλγόριθµος είναι αλγεβρική διαδικασία η οποία χρησιµοποιείται για την επίλυση προβληµάτων (προτύπων) Γραµµικού Προγραµµατισµού (ΠΓΠ). Ο αλγόριθµος έχει διάφορες παραλλαγές όπως η πινακοποιηµένη µορφή.

Διαβάστε περισσότερα

2 ΟΥ και 8 ΟΥ ΚΕΦΑΛΑΙΟΥ

2 ΟΥ και 8 ΟΥ ΚΕΦΑΛΑΙΟΥ ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΕΠΙΜΕΛΕΙΑ: ΜΑΡΙΑ Σ. ΖΙΩΓΑ ΚΑΘΗΓΗΤΡΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΘΕΩΡΙΑ 2 ΟΥ και 8 ΟΥ ΚΕΦΑΛΑΙΟΥ ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΔΟΜΗ ΕΠΑΝΑΛΗΨΗΣ 1) Πότε χρησιμοποιείται η δομή επανάληψης

Διαβάστε περισσότερα

Παράρτηµα 3 Εξισώσεις Διαφορών και Στοχαστικές Διαδικασίες

Παράρτηµα 3 Εξισώσεις Διαφορών και Στοχαστικές Διαδικασίες Γιώργος Αλογοσκούφης, Θέµατα Δυναµικής Μακροοικονοµικής, Αθήνα 0 Παράρτηµα 3 Εξισώσεις Διαφορών και Στοχαστικές Διαδικασίες Στο παράρτηµα αυτό εξετάζουµε τις ιδιότητες και τους τρόπους επίλυσης των εξισώσεων

Διαβάστε περισσότερα

Εισαγωγή ΕΙΣΑΓΩΓΗ ΣΤΑ ΓΣΠ

Εισαγωγή ΕΙΣΑΓΩΓΗ ΣΤΑ ΓΣΠ ΕΙΣΑΓΩΓΗ ΣΤΑ ΓΣΠ Τα τελευταία 25 χρόνια, τα προβλήµατα που σχετίζονται µε την διαχείριση της Γεωγραφικής Πληροφορίας αντιµετωπίζονται σε παγκόσµιο αλλά και εθνικό επίπεδο µε την βοήθεια των Γεωγραφικών

Διαβάστε περισσότερα

Οι πράξεις που χρειάζονται για την επίλυση αυτών των προβληµάτων (αφού είναι απλές) µπορούν να τεθούν σε µια σειρά και πάρουν µια αλγοριθµική µορφή.

Οι πράξεις που χρειάζονται για την επίλυση αυτών των προβληµάτων (αφού είναι απλές) µπορούν να τεθούν σε µια σειρά και πάρουν µια αλγοριθµική µορφή. Η Αριθµητική Ανάλυση χρησιµοποιεί απλές αριθµητικές πράξεις για την επίλυση σύνθετων µαθηµατικών προβληµάτων. Τις περισσότερες φορές τα προβλήµατα αυτά είναι ή πολύ περίπλοκα ή δεν έχουν ακριβή αναλυτική

Διαβάστε περισσότερα

Εισαγωγή στην Επιστήµη των Η/Υ

Εισαγωγή στην Επιστήµη των Η/Υ Εισαγωγή στην Επιστήµη των Η/Υ Εισαγωγή στην Επιστήµη των Η/Υ Εισαγωγή Καθ. Κ. Κουρκουµπέτης Σηµείωση: Οι διαφάνειες βασίζονται σε µεγάλο βαθµό σε αυτές που συνοδεύονται µε το προτεινόµενο σύγγραµµα. 1

Διαβάστε περισσότερα

Μάθηση και Γενίκευση. "Τεχνητά Νευρωνικά Δίκτυα" (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων

Μάθηση και Γενίκευση. Τεχνητά Νευρωνικά Δίκτυα (Διαφάνειες), Α. Λύκας, Παν. Ιωαννίνων Μάθηση και Γενίκευση Το Πολυεπίπεδο Perceptron (MultiLayer Perceptron (MLP)) Έστω σύνολο εκπαίδευσης D={(x n,t n )}, n=1,,n. x n =(x n1,, x nd ) T, t n =(t n1,, t np ) T Θα πρέπει το MLP να έχει d νευρώνες

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΕΡΓΑΛΕΙΑ ΙΟΙΚΗΣΗΣ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥ ΩΝ ΜΑΘΗΜΑ: ΙΟΙΚΗΣΗ ΕΠΙΧΕΙΡΗΣΕΩΝ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΕΡΓΑΛΕΙΑ ΙΟΙΚΗΣΗΣ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥ ΩΝ ΜΑΘΗΜΑ: ΙΟΙΚΗΣΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΙΓΑΙΟΥ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥ ΩΝ ΙΟΙΚΗΣΗ ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ ΜΑΘΗΜΑ: ΙΟΙΚΗΣΗ ΕΠΙΧΕΙΡΗΣΕΩΝ ΕΡΓΑΛΕΙΑ ΙΟΙΚΗΣΗΣ ιδάσκων:

Διαβάστε περισσότερα

2. Στοιχεία Πολυδιάστατων Κατανοµών

2. Στοιχεία Πολυδιάστατων Κατανοµών Στοιχεία Πολυδιάστατων Κατανοµών Είναι φανερό ότι έως τώρα η µελέτη µας επικεντρώνεται κάθε φορά σε πιθανότητες που αφορούν µία τυχαία µεταβλητή Σε αρκετές όµως περιπτώσεις ενδιαφερόµαστε να εξετάσουµε

Διαβάστε περισσότερα

Chess Academy Free Lessons Ακαδημία Σκάκι Δωρεάν Μαθήματα. Οι κινήσεις των κομματιών Σκοπός της παρτίδας, το Ματ Πατ Επιμέλεια: Γιάννης Κατσίρης

Chess Academy Free Lessons Ακαδημία Σκάκι Δωρεάν Μαθήματα. Οι κινήσεις των κομματιών Σκοπός της παρτίδας, το Ματ Πατ Επιμέλεια: Γιάννης Κατσίρης Οι κινήσεις των κομματιών Σκοπός της παρτίδας, το Ματ Πατ Επιμέλεια: Γιάννης Κατσίρης Παρατήρηση: Μόνο σε αυτό το μάθημα όταν λέμε κομμάτι εννοούμε κομμάτι ή πιόνι και όταν λέμε κομμάτια εννοούμε κομμάτια

Διαβάστε περισσότερα

Σηµειώσεις στις σειρές

Σηµειώσεις στις σειρές . ΟΡΙΣΜΟΙ - ΓΕΝΙΚΕΣ ΕΝΝΟΙΕΣ Σηµειώσεις στις σειρές Στην Ενότητα αυτή παρουσιάζουµε τις βασικές-απαραίτητες έννοιες για την µελέτη των σειρών πραγµατικών αριθµών και των εφαρµογών τους. Έτσι, δίνονται συστηµατικά

Διαβάστε περισσότερα

Σενάριο 14: Προγραμματίζοντας ένα Ρομπότ ανιχνευτή

Σενάριο 14: Προγραμματίζοντας ένα Ρομπότ ανιχνευτή Σενάριο 14: Προγραμματίζοντας ένα Ρομπότ ανιχνευτή Ταυτότητα Σεναρίου Τίτλος: Προγραμματίζοντας ένα Ρομπότ ανιχνευτή Γνωστικό Αντικείμενο: Πληροφορική Διδακτική Ενότητα: Ελέγχω-Προγραμματίζω τον Υπολογιστή

Διαβάστε περισσότερα

Πάνω στον πίνακα έχουµε γραµµένο το γινόµενο 1 2 3 4 595. ύο παίκτες Α και Β παίζουν το εξής παιχνίδι. Ο ένας µετά τον άλλο, διαγράφουν από έναν παράγοντα του γινοµένου αρχίζοντας από τον παίκτη Α. Νικητής

Διαβάστε περισσότερα

Φεργαδιώτης Αθανάσιος ΤΡΑΠΕΖΑ ΘΕΜΑΤΩΝ ΣΤΗΝ ΑΛΓΕΒΡΑ Α ΛΥΚΕΙΟΥ. Θέμα 2 ο (150)

Φεργαδιώτης Αθανάσιος ΤΡΑΠΕΖΑ ΘΕΜΑΤΩΝ ΣΤΗΝ ΑΛΓΕΒΡΑ Α ΛΥΚΕΙΟΥ. Θέμα 2 ο (150) Φεργαδιώτης Αθανάσιος ΤΡΑΠΕΖΑ ΘΕΜΑΤΩΝ ΣΤΗΝ ΑΛΓΕΒΡΑ Α ΛΥΚΕΙΟΥ Θέμα ο (150) -- Τράπεζα θεμάτων Άλγεβρας Α Λυκείου Φεργαδιώτης Αθανάσιος -3- Τράπεζα θεμάτων Άλγεβρας Α Λυκείου Φεργαδιώτης Αθανάσιος ΚΕΦΑΛΑΙΟ

Διαβάστε περισσότερα

Περιγραφή Συστηµάτων Αυτοµάτου Ελέγχου

Περιγραφή Συστηµάτων Αυτοµάτου Ελέγχου ΚΕΣ : Αυτόµατος Έλεγχος ΚΕΣ Αυτόµατος Έλεγχος Περιγραφή Συστηµάτων Αυτοµάτου Ελέγχου ΚΕΣ : Αυτόµατος Έλεγχος Βιβλιογραφία Ενότητας Παρασκευόπουλος [5]: Κεφάλαιο 3, Ενότητες 3. 3.8 Παρασκευόπουλος [5]:

Διαβάστε περισσότερα

Αντικείμενα, συμπεριφορές, γεγονότα

Αντικείμενα, συμπεριφορές, γεγονότα Αντικείμενα, συμπεριφορές, γεγονότα O προγραμματισμός αποτελεί ένα τρόπο επίλυσης προβλημάτων κατά τον οποίο συνθέτουμε μια ακολουθία εντολών με σκοπό την επίτευξη συγκεκριμένων στόχων. Ας ξεκινήσουμε

Διαβάστε περισσότερα

Παράδειγμα 2. Λύση & Επεξηγήσεις. Τέλος_επανάληψης Εμφάνισε "Ναι" Τέλος Α2

Παράδειγμα 2. Λύση & Επεξηγήσεις. Τέλος_επανάληψης Εμφάνισε Ναι Τέλος Α2 Διδακτική πρόταση ΕΝΟΤΗΤΑ 2η, Θέματα Θεωρητικής Επιστήμης των Υπολογιστών Κεφάλαιο 2.2. Παράγραφος 2.2.7.4 Εντολές Όσο επανάλαβε και Μέχρις_ότου Η διαπραγμάτευση των εντολών επανάληψης είναι σημαντικό

Διαβάστε περισσότερα

Α Λυκείου Άλγεβρα Τράπεζα Θεμάτων Το Δεύτερο Θέμα

Α Λυκείου Άλγεβρα Τράπεζα Θεμάτων Το Δεύτερο Θέμα Α Λυκείου Άλγεβρα Τράπεζα Θεμάτων Το Δεύτερο Θέμα Θεωρούμε την ακολουθία (α ν ) των θετικών περιττών αριθμών: 1, 3, 5, 7, α) Να αιτιολογήσετε γιατί η (α ν ) είναι αριθμητική πρόοδος και να βρείτε τον εκατοστό

Διαβάστε περισσότερα

ΘΕΩΡΙΑ ΤΩΝ ΠΑΙΓΝΙΩΝ I.

ΘΕΩΡΙΑ ΤΩΝ ΠΑΙΓΝΙΩΝ I. ΘΕΩΡΙΑ ΤΩΝ ΠΑΙΓΝΙΩΝ I. Γενικά Σε μαθήματα όπως η επιχειρησιακή έρευνα και ή λήψη αποφάσεων αναφέραμε τις αποφάσεις κάτω από συνθήκες βεβαιότητας, στις οποίες και εφαρμόζονται κυρίως οι τεχνικές της επιχειρησιακής

Διαβάστε περισσότερα

Ανάλυση Αλγορίθµων 4. Πειραµατικές Μελέτες. Χρόνος Εκτέλεσης. Περιγραφή και Υλικό Ανάγνωσης

Ανάλυση Αλγορίθµων 4. Πειραµατικές Μελέτες. Χρόνος Εκτέλεσης. Περιγραφή και Υλικό Ανάγνωσης Ανάλυση Αλγορίθµων Είσοδος Αλγόριθµος Έξοδος Περιγραφή και Υλικό Ανάγνωσης Χρόνος εκτέλεσης (.) Ψευδοκώδικας (.) Μέτρηση των στοιχειωδών πράξεων (.) Ασυµπτωτική σηµειογραφία (.2) Ασυµπτωτική ανάλυση (.2)

Διαβάστε περισσότερα

ΑΞΙΟΠΙΣΤΙΑ ΥΛΙΚΟΥ ΚΑΙ ΛΟΓΙΣΜΙΚΟΥ

ΑΞΙΟΠΙΣΤΙΑ ΥΛΙΚΟΥ ΚΑΙ ΛΟΓΙΣΜΙΚΟΥ ΑΞΙΟΠΙΣΤΙΑ ΥΛΙΚΟΥ ΚΑΙ ΛΟΓΙΣΜΙΚΟΥ Εισαγωγή Ηεµφάνιση ηλεκτρονικών υπολογιστών και λογισµικού σε εφαρµογές µε υψηλές απαιτήσεις αξιοπιστίας, όπως είναι διαστηµικά προγράµµατα, στρατιωτικές τηλεπικοινωνίες,

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΙΑΤΜΗΜΑΤΙΚΟ ΠΜΣ «ΜΑΘΗΜΑΤΙΚΑ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ & ΤΩΝ ΑΠΟΦΑΣΕΩΝ ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ 2006-2007 2η Σειρά Ασκήσεων ΑΠΑΝΤΗΣΕΙΣ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΙΑΤΜΗΜΑΤΙΚΟ ΠΜΣ «ΜΑΘΗΜΑΤΙΚΑ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ & ΤΩΝ ΑΠΟΦΑΣΕΩΝ ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ 2006-2007 2η Σειρά Ασκήσεων ΑΠΑΝΤΗΣΕΙΣ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΙΑΤΜΗΜΑΤΙΚΟ ΠΜΣ «ΜΑΘΗΜΑΤΙΚΑ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ & ΤΩΝ ΑΠΟΦΑΣΕΩΝ ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ 2006-2007 2η Σειρά Ασκήσεων ΑΠΑΝΤΗΣΕΙΣ 1. ίνεται το γνωστό πρόβληµα των δύο δοχείων: «Υπάρχουν δύο δοχεία

Διαβάστε περισσότερα

Επιλογή και επανάληψη. Λογική έκφραση ή συνθήκη

Επιλογή και επανάληψη. Λογική έκφραση ή συνθήκη Επιλογή και επανάληψη Η ύλη που αναπτύσσεται σε αυτό το κεφάλαιο είναι συναφής µε την ύλη που αναπτύσσεται στο 2 ο κεφάλαιο. Όπου υπάρχουν διαφορές αναφέρονται ρητά. Προσέξτε ιδιαίτερα, πάντως, ότι στο

Διαβάστε περισσότερα

ΑΣΚΗΣΕΙΣ ΠΙΘΑΝΟΤΗΤΩΝ του Παν. Λ. Θεοδωρόπουλου 0

ΑΣΚΗΣΕΙΣ ΠΙΘΑΝΟΤΗΤΩΝ του Παν. Λ. Θεοδωρόπουλου 0 ΑΣΚΗΣΕΙΣ ΠΙΘΑΝΟΤΗΤΩΝ του Παν. Λ. Θεοδωρόπουλου 0 Η Θεωρία Πιθανοτήτων είναι ένας σχετικά νέος κλάδος των Μαθηματικών, ο οποίος παρουσιάζει πολλά ιδιαίτερα χαρακτηριστικά στοιχεία. Επειδή η ιδιαιτερότητα

Διαβάστε περισσότερα

1η Οµάδα Ασκήσεων. ΑΣΚΗΣΗ 1 (Θεωρία)

1η Οµάδα Ασκήσεων. ΑΣΚΗΣΗ 1 (Θεωρία) ΕΘΝΙΚΟ ΚΑΙ ΚΑΠΟ ΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ KAI THΛΕΠΙΚΟΙΝΩΝΙΩΝ ΤΟΜΕΑΣ ΘΕΩΡΗΤΙΚΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΜΑΘΗΜΑ: ΑΡΙΘΜΗΤΙΚΗ ΑΝΑΛΥΣΗ /5/007 η Οµάδα Ασκήσεων ΑΣΚΗΣΗ (Θεωρία). α) Έστω fl() x η παράσταση

Διαβάστε περισσότερα

53 Χρόνια ΦΡΟΝΤΙΣΤΗΡΙΑ ΜΕΣΗΣ ΕΚΠΑΙΔΕΥΣΗΣ Σ Α Β Β Α Ϊ Δ Η Μ Α Ν Ω Λ Α Ρ Α Κ Η

53 Χρόνια ΦΡΟΝΤΙΣΤΗΡΙΑ ΜΕΣΗΣ ΕΚΠΑΙΔΕΥΣΗΣ Σ Α Β Β Α Ϊ Δ Η Μ Α Ν Ω Λ Α Ρ Α Κ Η 53 Χρόνια ΦΡΟΝΤΙΣΤΗΡΙΑ ΜΕΣΗΣ ΕΚΠΑΙΔΕΥΣΗΣ Σ Α Β Β Α Ϊ Δ Η Μ Α Ν Ω Λ Α Ρ Α Κ Η ΠΑΓΚΡΑΤΙ: Φιλολάου & Εκφαντίδου 26 : 210/76.01.470 210/76.00.179 ΘΕΜΑ Α Α1. Να γράψετε στο τετράδιό σας τον αριθμό καθεμιάς

Διαβάστε περισσότερα

ΔΙΑΝΥΣΜΑΤΑ. Ακολουθίες. Στην ενότητα αυτή θα μάθουμε: Να ορίζουμε το διάνυσμα.

ΔΙΑΝΥΣΜΑΤΑ. Ακολουθίες. Στην ενότητα αυτή θα μάθουμε: Να ορίζουμε το διάνυσμα. Ακολουθίες ΔΙΑΝΥΣΜΑΤΑ Στην ενότητα αυτή θα μάθουμε: Να ορίζουμε το διάνυσμα. Να ορίζουμε τις σχέσεις μεταξύ διανυσμάτων (παράλληλα, ομόρροπα, αντίρροπα, ίσα και αντίθετα διανύσματα). Να προσθέτουμε και

Διαβάστε περισσότερα

ΔΙΟΙΚΗΣΗ ΠΑΡΑΓΩΓΗΣ. ΕΝΟΤΗΤΑ 4η ΠΡΟΒΛΕΨΗ ΖΗΤΗΣΗΣ

ΔΙΟΙΚΗΣΗ ΠΑΡΑΓΩΓΗΣ. ΕΝΟΤΗΤΑ 4η ΠΡΟΒΛΕΨΗ ΖΗΤΗΣΗΣ ΤΕΙ ΚΡΗΤΗΣ ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΔΙΟΙΚΗΣΗ ΠΑΡΑΓΩΓΗΣ ΕΝΟΤΗΤΑ 4η ΠΡΟΒΛΕΨΗ ΖΗΤΗΣΗΣ ΓΙΑΝΝΗΣ ΦΑΝΟΥΡΓΙΑΚΗΣ ΕΠΙΣΤΗΜΟΝΙΚΟΣ ΣΥΝΕΡΓΑΤΗΣ ΤΕΙ ΚΡΗΤΗΣ ΔΟΜΗ ΠΑΡΟΥΣΙΑΣΗΣ 1. Εισαγωγή

Διαβάστε περισσότερα

1. Πότε χρησιμοποιούμε την δομή επανάληψης; Ποιες είναι οι διάφορες εντολές (μορφές) της;

1. Πότε χρησιμοποιούμε την δομή επανάληψης; Ποιες είναι οι διάφορες εντολές (μορφές) της; 1. Πότε χρησιμοποιούμε την δομή επανάληψης; Ποιες είναι οι διάφορες (μορφές) της; Η δομή επανάληψης χρησιμοποιείται όταν μια σειρά εντολών πρέπει να εκτελεστεί σε ένα σύνολο περιπτώσεων, που έχουν κάτι

Διαβάστε περισσότερα

QR είναι ˆx τότε x ˆx. 10 ρ. Ποιά είναι η τιµή του ρ και γιατί (σύντοµη εξήγηση). P = [X. 0, X,..., X. (n 1), X. n] a(n + 1 : 1 : 1)

QR είναι ˆx τότε x ˆx. 10 ρ. Ποιά είναι η τιµή του ρ και γιατί (σύντοµη εξήγηση). P = [X. 0, X,..., X. (n 1), X. n] a(n + 1 : 1 : 1) ΕΠΙΣΤΗΜΟΝΙΚΟΣ ΥΠΟΛΟΓΙΣΜΟΣ I (22 Σεπτεµβρίου) ΕΠΙΛΕΓΜΕΝΕΣ ΑΠΑΝΤΗΣΕΙΣ 1ο ΘΕΜΑ 1. Αφού ορίσετε ακριβώς τι σηµαίνει πίσω ευσταθής υπολογισµός, να εξηγήσετε αν ο υ- πολογισµός του εσωτερικού γινοµένου δύο διανυσµάτων

Διαβάστε περισσότερα

Σενάριο 13. Προγραμματίζοντας ένα Ρομπότ

Σενάριο 13. Προγραμματίζοντας ένα Ρομπότ Σενάριο 13. Προγραμματίζοντας ένα Ρομπότ Ταυτότητα Σεναρίου Τίτλος: Προγραμματίζοντας ένα Ρομπότ Γνωστικό Αντικείμενο: Πληροφορική Διδακτική Ενότητα: Ελέγχω-Προγραμματίζω τον Υπολογιστή Τάξη: Γ Γυμνασίου

Διαβάστε περισσότερα

Αλγοριθμικές Τεχνικές. Brute Force. Διαίρει και Βασίλευε. Παράδειγμα MergeSort. Παράδειγμα. Τεχνικές Σχεδιασμού Αλγορίθμων

Αλγοριθμικές Τεχνικές. Brute Force. Διαίρει και Βασίλευε. Παράδειγμα MergeSort. Παράδειγμα. Τεχνικές Σχεδιασμού Αλγορίθμων Τεχνικές Σχεδιασμού Αλγορίθμων Αλγοριθμικές Τεχνικές Παύλος Εφραιμίδης, Λέκτορας http://pericles.ee.duth.gr Ορισμένες γενικές αρχές για τον σχεδιασμό αλγορίθμων είναι: Διαίρει και Βασίλευε (Divide and

Διαβάστε περισσότερα

Σχεδίαση του αλγορίθμου για το παιχνίδι Rat s Life

Σχεδίαση του αλγορίθμου για το παιχνίδι Rat s Life H παρουσίαση περιλαμβάνει: Λίγα λόγια για την Τεχνητή Νοημοσύνη Λίγα λόγια για το πρόγραμμα Webots Τεχνικά χαρακτηριστικά του αυτόνομου E-puckmobile-robot Σχεδίαση του αλγορίθμου για το παιχνίδι Rat s

Διαβάστε περισσότερα

ΠροσδιορισµόςΒέλτιστης Λύσης στα Προβλήµατα Μεταφοράς Η µέθοδος Stepping Stone

ΠροσδιορισµόςΒέλτιστης Λύσης στα Προβλήµατα Μεταφοράς Η µέθοδος Stepping Stone ΠροσδιορισµόςΒέλτιστης Λύσης στα Προβλήµατα Μεταφοράς Η µέθοδος Stepping Stone Hµέθοδος Stepping Stoneείναι µία επαναληπτική διαδικασία για τον προσδιορισµό της βέλτιστης λύσης σε ένα πρόβληµα µεταφοράς.

Διαβάστε περισσότερα

Πληροφοριακά Συστήματα Διοίκησης (ΜΒΑ) Ενότητα 7: Εισαγωγή στη Θεωρία Αποφάσεων Δέντρα Αποφάσεων

Πληροφοριακά Συστήματα Διοίκησης (ΜΒΑ) Ενότητα 7: Εισαγωγή στη Θεωρία Αποφάσεων Δέντρα Αποφάσεων Πληροφοριακά Συστήματα Διοίκησης (ΜΒΑ) Ενότητα 7: Εισαγωγή στη Θεωρία Αποφάσεων Δέντρα Αποφάσεων Μπεληγιάννης Γρηγόριος Σχολή Οργάνωσης και Διοίκησης Επιχειρήσεων Τμήμα Διοίκησης Επιχειρήσεων Αγροτικών

Διαβάστε περισσότερα

ΚΕΦΑΛΑΙΟ 3ο ΤΥΧΑΙΟΙ ΑΡΙΘΜΟΙ ΕΛΕΓΧΟΣ ΤΥΧΑΙΟΤΗΤΑΣ

ΚΕΦΑΛΑΙΟ 3ο ΤΥΧΑΙΟΙ ΑΡΙΘΜΟΙ ΕΛΕΓΧΟΣ ΤΥΧΑΙΟΤΗΤΑΣ ΚΕΦΑΛΑΙΟ 3ο ΤΥΧΑΙΟΙ ΑΡΙΘΜΟΙ ΕΛΕΓΧΟΣ ΤΥΧΑΙΟΤΗΤΑΣ 3.1 Τυχαίοι αριθμοί Στην προσομοίωση διακριτών γεγονότων γίνεται χρήση ακολουθίας τυχαίων αριθμών στις περιπτώσεις που απαιτείται η δημιουργία στοχαστικών

Διαβάστε περισσότερα

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΘΕΩΡΙΑ ΠΑΙΓΝΙΩΝ

ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΘΕΩΡΙΑ ΠΑΙΓΝΙΩΝ ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΑΚΕ ΟΝΙΑΣ ΟΙΚΟΝΟΜΙΚΩΝ ΚΑΙ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΕΦΑΡΜΟΣΜΕΝΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΘΕΩΡΙΑ ΠΑΙΓΝΙΩΝ Τελικές Εξετάσεις Παρασκευή 16 Οκτωβρίου 2007 ιάρκεια εξέτασης: 3 ώρες (15:00-18:00) ΘΕΜΑ 1

Διαβάστε περισσότερα

Κεφάλαιο 3 ΠΑΡΑΓΩΓΟΣ. 3.1 Η έννοια της παραγώγου. y = f(x) f(x 0 ), = f(x 0 + x) f(x 0 )

Κεφάλαιο 3 ΠΑΡΑΓΩΓΟΣ. 3.1 Η έννοια της παραγώγου. y = f(x) f(x 0 ), = f(x 0 + x) f(x 0 ) Κεφάλαιο 3 ΠΑΡΑΓΩΓΟΣ 3.1 Η έννοια της παραγώγου Εστω y = f(x) µία συνάρτηση, που συνδέει τις µεταβλητές ποσότητες x και y. Ενα ερώτηµα που µπορεί να προκύψει καθώς µελετούµε τις δύο αυτές ποσοτήτες είναι

Διαβάστε περισσότερα

ΠΛΗ 405 Τεχνητή Νοηµοσύνη 2006. Ε ανάληψη. πεπερασµένα χρονικά περιθώρια ανά κίνηση. απευθείας αξιολόγηση σε ενδιάµεσους κόµβους

ΠΛΗ 405 Τεχνητή Νοηµοσύνη 2006. Ε ανάληψη. πεπερασµένα χρονικά περιθώρια ανά κίνηση. απευθείας αξιολόγηση σε ενδιάµεσους κόµβους ΠΛΗ 405 Τεχνητή Νοηµοσύνη Παιχνίδια Τύχης Λογικοί Πράκτορες Τµήµα Ηλεκτρονικών Μηχανικών και Μηχανικών Υ ολογιστών Πολυτεχνείο Κρήτης Ε ανάληψη Περιορισµοί χρόνου πεπερασµένα χρονικά περιθώρια ανά κίνηση

Διαβάστε περισσότερα

ΔΙΔΑΣΚΑΛΙΑ ΤΗΣ ΕΝΝΟΙΑΣ ΤΟΥ ΟΡΙΟΥ ΣΥΝΑΡΤΗΣΗΣ

ΔΙΔΑΣΚΑΛΙΑ ΤΗΣ ΕΝΝΟΙΑΣ ΤΟΥ ΟΡΙΟΥ ΣΥΝΑΡΤΗΣΗΣ ΕΠΙΜΟΡΦΩΣΗ ΤΩΝ ΕΚΠΑΙΔΕΥΤΙΚΩΝ ΓΙΑ ΤΗΝ ΑΞΙΟΠΟΙΗΣΗ ΚΑΙ ΕΦΑΡΜΟΓΗ ΤΩΝ ΤΠΕ ΣΤΗ ΔΙΔΑΚΤΙΚΗ ΠΡΑΞΗ ΔΙΔΑΣΚΑΛΙΑ ΤΗΣ ΕΝΝΟΙΑΣ ΤΟΥ ΟΡΙΟΥ ΣΥΝΑΡΤΗΣΗΣ ΟΡΙΟ ΣΥΝΑΡΤΗΣΗΣ ΕΞ ΑΡΙΣΤΕΡΩΝ ΚΑΙ ΕΚ ΔΕΞΙΩΝ ΣΥΓΓΡΑΦΕΑΣ: ΚΟΥΤΙΔΗΣ ΙΩΑΝΝΗΣ

Διαβάστε περισσότερα

ΑΛΓΟΡΙΘΜΟΙ. Τι είναι αλγόριθμος

ΑΛΓΟΡΙΘΜΟΙ. Τι είναι αλγόριθμος ΑΛΓΟΡΙΘΜΟΙ Στο σηµείωµα αυτό αρχικά εξηγείται η έννοια αλγόριθµος και παραθέτονται τα σπουδαιότερα κριτήρια που πρέπει να πληρεί κάθε αλγόριθµος. Στη συνέχεια, η σπουδαιότητα των αλγορίθµων συνδυάζεται

Διαβάστε περισσότερα

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΜΑΡΙΑ Σ. ΖΙΩΓΑ ΚΑΘΗΓΗΤΡΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΕΙΣΑΓΩΓΗ ΣΤΟΝ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟ

ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΜΑΡΙΑ Σ. ΖΙΩΓΑ ΚΑΘΗΓΗΤΡΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΕΙΣΑΓΩΓΗ ΣΤΟΝ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟ ΑΝΑΠΤΥΞΗ ΕΦΑΡΜΟΓΩΝ ΣΕ ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΟ ΠΕΡΙΒΑΛΛΟΝ ΕΠΙΜΕΛΕΙΑ: ΜΑΡΙΑ Σ. ΖΙΩΓΑ ΚΑΘΗΓΗΤΡΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΘΕΩΡΙΑ 6 ΟΥ ΚΕΦΑΛΑΙΟΥ ΕΙΣΑΓΩΓΗ ΣΤΟΝ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟ 6.1 Τι ονοµάζουµε πρόγραµµα υπολογιστή; Ένα πρόγραµµα

Διαβάστε περισσότερα

Μεταβλητές. Για περισσότερες λεπτομέρειες πάνω στις μεταβλητές θα ήταν χρήσιμο να διαβάσεις το

Μεταβλητές. Για περισσότερες λεπτομέρειες πάνω στις μεταβλητές θα ήταν χρήσιμο να διαβάσεις το Τάξη : Α Λυκείου Λογισμικό : Scratch Ενδεικτική Διάρκεια : 45 λεπτά Μεταβλητές Όλα όσα έμαθες στα προηγούμενα φυλλάδια είναι απαραίτητα για να υλοποιήσεις απλές εφαρμογές. Ωστόσο αν θέλεις να δημιουργήσεις

Διαβάστε περισσότερα

Τμήμα Μηχανολόγων Μηχανικών Πανεπιστήμιο Θεσσαλίας ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ Η/Υ. Βήματα προς τη δημιουργία εκτελέσιμου κώδικα

Τμήμα Μηχανολόγων Μηχανικών Πανεπιστήμιο Θεσσαλίας ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ Η/Υ. Βήματα προς τη δημιουργία εκτελέσιμου κώδικα Τμήμα Μηχανολόγων Μηχανικών Πανεπιστήμιο Θεσσαλίας ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ Η/Υ Βήματα προς τη δημιουργία εκτελέσιμου κώδικα Ιωάννης Λυχναρόπουλος Μαθηματικός, MSc, PhD Βήματα προς τη δημιουργία εκτελέσιμου κώδικα

Διαβάστε περισσότερα

ιαδικαστικά θέµατα HY118- ιακριτά Μαθηµατικά Συνάρτηση: Τυπικός ορισµός Ορολογία 17 - Η αρχή του περιστερώνα

ιαδικαστικά θέµατα HY118- ιακριτά Μαθηµατικά Συνάρτηση: Τυπικός ορισµός Ορολογία 17 - Η αρχή του περιστερώνα HY118- ιακριτά Μαθηµατικά Τρίτη, 21/04/2015 Αντώνης Α. Αργυρός e-mail: argyros@csd.uoc.gr Το υλικό των διαφανειών έχει βασιστεί σε διαφάνειες του Kees van Deemter, από το University of Aberdeen 4/21/2015

Διαβάστε περισσότερα

Αλγοριθμική Θεωρία Παιγνίων

Αλγοριθμική Θεωρία Παιγνίων Αλγοριθμική Θεωρία Παιγνίων ιδάσκοντες: E. Ζάχος, Α. Παγουρτζής,. Φωτάκης Επιμέλεια διαφανειών:. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο Πολυτεχνείο Πολύπλοκα Συστήματα

Διαβάστε περισσότερα

http://kesyp.didefth.gr/ 1

http://kesyp.didefth.gr/ 1 248_Τµήµα Εφαρµοσµένων Μαθηµατικών Πανεπιστήµιο Κρήτης, Ηράκλειο Προπτυχιακό Πρόγραµµα Σκοπός του Τµήµατος Εφαρµοσµένων Μαθηµατικών είναι η εκαπαίδευση επιστηµόνων ικανών όχι µόνο να υπηρετήσουν και να

Διαβάστε περισσότερα

Αλγόριθμοι και Πολυπλοκότητα

Αλγόριθμοι και Πολυπλοκότητα Αλγόριθμοι και Πολυπλοκότητα Ροή Δικτύου Δημήτρης Μιχαήλ Τμήμα Πληροφορικής και Τηλεματικής Χαροκόπειο Πανεπιστήμιο Μοντελοποίηση Δικτύων Μεταφοράς Τα γραφήματα χρησιμοποιούνται συχνά για την μοντελοποίηση

Διαβάστε περισσότερα

Ανάλυση Σ.Α.Ε στο χώρο κατάστασης

Ανάλυση Σ.Α.Ε στο χώρο κατάστασης ΚΕΣ : Αυτόµατος Έλεγχος ΚΕΣ Αυτόµατος Έλεγχος Ανάλυση Σ.Α.Ε στο χώρο 6 Nicola Tapaouli Λύση εξισώσεων ΚΕΣ : Αυτόµατος Έλεγχος Βιβλιογραφία Ενότητας Παρασκευόπουλος [4]: Κεφάλαιο 5: Ενότητες 5.-5. Παρασκευόπουλος

Διαβάστε περισσότερα

ΠΡΟΒΛΗΜΑΤΑ ΕΛΑΧΙΣΤΟΠΟΙΗΣΗΣ

ΠΡΟΒΛΗΜΑΤΑ ΕΛΑΧΙΣΤΟΠΟΙΗΣΗΣ ΠΡΟΒΛΗΜΑΤΑ ΕΛΑΧΙΣΤΟΠΟΙΗΣΗΣ Ελαχιστοποίηση κόστους διατροφής Ηεπιχείρηση ζωοτροφών ΒΙΟΤΡΟΦΕΣ εξασφάλισε µια ειδική παραγγελίααπό έναν πελάτη της για την παρασκευή 1.000 κιλών ζωοτροφής, η οποία θα πρέπει

Διαβάστε περισσότερα

ΣΥΓΚΡΙΤΙΚΗ ΠΕΙΡΑΜΑΤΙΚΗ ΜΕΛΕΤΗ ΣΤΑΣΗΣ ΜΑΘΗΤΩΝ ΕΝΑΝΤΙ ΤΗΣ Ι ΑΣΚΑΛΙΑΣ ΜΑΘΗΜΑΤΟΣ ΙΣΤΟΡΙΑΣ ΜΕ Η ΧΩΡΙΣ ΕΚΠΑΙ ΕΥΤΙΚΟ ΛΟΓΙΣΜΙΚΟ

ΣΥΓΚΡΙΤΙΚΗ ΠΕΙΡΑΜΑΤΙΚΗ ΜΕΛΕΤΗ ΣΤΑΣΗΣ ΜΑΘΗΤΩΝ ΕΝΑΝΤΙ ΤΗΣ Ι ΑΣΚΑΛΙΑΣ ΜΑΘΗΜΑΤΟΣ ΙΣΤΟΡΙΑΣ ΜΕ Η ΧΩΡΙΣ ΕΚΠΑΙ ΕΥΤΙΚΟ ΛΟΓΙΣΜΙΚΟ 556 3 Ο ΣΥΝΕ ΡΙΟ ΣΤΗ ΣΥΡΟ ΤΠΕ ΣΤΗΝ ΕΚΠΑΙ ΕΥΣΗ ΣΥΓΚΡΙΤΙΚΗ ΠΕΙΡΑΜΑΤΙΚΗ ΜΕΛΕΤΗ ΣΤΑΣΗΣ ΜΑΘΗΤΩΝ ΕΝΑΝΤΙ ΤΗΣ Ι ΑΣΚΑΛΙΑΣ ΜΑΘΗΜΑΤΟΣ ΙΣΤΟΡΙΑΣ ΜΕ Η ΧΩΡΙΣ ΕΚΠΑΙ ΕΥΤΙΚΟ ΛΟΓΙΣΜΙΚΟ Ματούλας Γεώργιος άσκαλος Σ Ευξινούπολης

Διαβάστε περισσότερα

Μοντελοποίηση Υπολογισμού. Γραμματικές Πεπερασμένα Αυτόματα Κανονικές Εκφράσεις

Μοντελοποίηση Υπολογισμού. Γραμματικές Πεπερασμένα Αυτόματα Κανονικές Εκφράσεις Μοντελοποίηση Υπολογισμού Γραμματικές Πεπερασμένα Αυτόματα Κανονικές Εκφράσεις Προβλήματα - Υπολογιστές Δεδομένου ενός προβλήματος υπάρχουν 2 σημαντικά ερωτήματα: Μπορεί να επιλυθεί με χρήση υπολογιστή;

Διαβάστε περισσότερα

Μέθοδος μέγιστης πιθανοφάνειας

Μέθοδος μέγιστης πιθανοφάνειας Μέθοδος μέγιστης πιθανοφάνειας Αν x =,,, παρατηρήσεις των Χ =,,,, τότε έχουμε διαθέσιμο ένα δείγμα Χ={Χ, =,,,} της κατανομής F μεγέθους με από κοινού σ.κ. της Χ f x f x Ορισμός : Θεωρούμε ένα τυχαίο δείγμα

Διαβάστε περισσότερα

x ν+1 =ax ν (1-x ν ) ή αλλιώς η απλούστερη περίπτωση ακολουθίας αριθμών με χαοτική συμπεριφορά.

x ν+1 =ax ν (1-x ν ) ή αλλιώς η απλούστερη περίπτωση ακολουθίας αριθμών με χαοτική συμπεριφορά. 1 x ν+1 =ax ν (1-x ν ) ή αλλιώς η απλούστερη περίπτωση ακολουθίας αριθμών με χαοτική συμπεριφορά. Πριν λίγα χρόνια, όταν είχε έρθει στην Ελλάδα ο νομπελίστας χημικός Ilya Prigogine (πέθανε πρόσφατα), είχε

Διαβάστε περισσότερα

ΕΦΑΡΜΟΓΗ Q-LEARNING ΣΕ GRID WORLD ΚΑΙ ΕΞΥΠΝΟΣ ΧΕΙΡΙΣΜΟΣ ΤΟΥ LEARNING RATE ΛΑΘΙΩΤΑΚΗΣ ΑΡΗΣ ΑΥΤΟΝΟΜΟΙ ΠΡΑΚΤΟΡΕΣ 2011-12

ΕΦΑΡΜΟΓΗ Q-LEARNING ΣΕ GRID WORLD ΚΑΙ ΕΞΥΠΝΟΣ ΧΕΙΡΙΣΜΟΣ ΤΟΥ LEARNING RATE ΛΑΘΙΩΤΑΚΗΣ ΑΡΗΣ ΑΥΤΟΝΟΜΟΙ ΠΡΑΚΤΟΡΕΣ 2011-12 ΕΦΑΡΜΟΓΗ Q-LEARNING ΣΕ GRID WORLD ΚΑΙ ΕΞΥΠΝΟΣ ΧΕΙΡΙΣΜΟΣ ΤΟΥ LEARNING RATE ΛΑΘΙΩΤΑΚΗΣ ΑΡΗΣ ΑΥΤΟΝΟΜΟΙ ΠΡΑΚΤΟΡΕΣ 2011-12 ΣΚΟΠΟΣ ΕΡΓΑΣΙΑΣ Στα πλαίσια του μαθήματος Αυτόνομοι Πράκτορες μας ζητήθηκε να αναπτύξουμε

Διαβάστε περισσότερα

Εισαγωγή στους Αλγόριθµους. Αλγόριθµοι. Ιστορικά Στοιχεία. Ο πρώτος Αλγόριθµος. Παραδείγµατα Αλγορίθµων. Τι είναι Αλγόριθµος

Εισαγωγή στους Αλγόριθµους. Αλγόριθµοι. Ιστορικά Στοιχεία. Ο πρώτος Αλγόριθµος. Παραδείγµατα Αλγορίθµων. Τι είναι Αλγόριθµος Εισαγωγή στους Αλγόριθµους Αλγόριθµοι Τι είναι αλγόριθµος; Τι µπορεί να υπολογίσει ένας αλγόριθµος; Πως αξιολογείται ένας αλγόριθµος; Παύλος Εφραιµίδης pefraimi@ee.duth.gr Αλγόριθµοι Εισαγωγικές Έννοιες

Διαβάστε περισσότερα

ΕΠΛ 211: Θεωρία Υπολογισμού και Πολυπλοκότητας. Διάλεξη 3: Ντετερμινιστικά Πεπερασμένα Αυτόματα (DFA)

ΕΠΛ 211: Θεωρία Υπολογισμού και Πολυπλοκότητας. Διάλεξη 3: Ντετερμινιστικά Πεπερασμένα Αυτόματα (DFA) ΕΠΛ 211: Θεωρία Υπολογισμού και Πολυπλοκότητας Διάλεξη 3: Ντετερμινιστικά Πεπερασμένα Αυτόματα (DFA) Τι θα κάνουμε σήμερα Εισαγωγή στα Ντετερμινιστικά Πεπερασμένα Αυτόματα 14-Sep-11 Τυπικός Ορισμός Ντετερμινιστικών

Διαβάστε περισσότερα

Ε ανάληψη. Α ληροφόρητη αναζήτηση

Ε ανάληψη. Α ληροφόρητη αναζήτηση ΠΛΗ 405 Τεχνητή Νοηµοσύνη Το ική Αναζήτηση Local Search Τµήµα Ηλεκτρονικών Μηχανικών και Μηχανικών Υ ολογιστών Πολυτεχνείο Κρήτης Ε ανάληψη Α ληροφόρητη αναζήτηση σε πλάτος, οµοιόµορφου κόστους, σε βάθος,

Διαβάστε περισσότερα