ΕΚΠ 413 / ΕΚΠ 606 Αυτόνοµοι (Ροµ οτικοί) Πράκτορες
|
|
- Τυρώ Γιαννακόπουλος
- 7 χρόνια πριν
- Προβολές:
Transcript
1 ΕΚΠ 413 / ΕΚΠ 606 Αυτόνοµοι (Ροµ οτικοί) Πράκτορες Ενισχυτική Μάθηση Reinforcement Learning Τµήµα Ηλεκτρονικών Μηχανικών και Μηχανικών Υ ολογιστών Πολυτεχνείο Κρήτης
2 Ε ανάληψη Λήψη α οφάσεων ακολουθιακά προβλήµατα αποφάσεων Μαρκωβιανές διεργασίες απόφασης Βέλτιστες ολιτικές επανάληψη αξιών επανάληψη πολιτικών Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 2
3 Σήµερα Reinforcement Learning (RL) problems and approaches Prediction temporal difference learning least-squares temporal difference (LSTD) learning Control Q-learning least-squares policy iteration (LSPI) Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 3
4 Reinforcement Learning Learning from Mistakes!
5 Machine Learning Unsupervised learning learning without a teacher information: none identify structure in the data clustering, self-organization k-means, Kohonen maps Supervised learning learning with a teacher information: correct examples generalize from examples classification, approximation SVMs, neural networks Reinforcement learning learning with a critic information: trial and error reinforce good choices value function, control policy TD-learning, Q-learning Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 5
6 Reinforcement Learning Action Reward State Learn how to take actions in each state of the process so as to maximize the cumulative reward! The reward signal reinforces good decision making Learn from experience: (state, action, reward, next state)-samples Samples taken from the process or from a generative model Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 6
7 Reinforcement Learning Setup Known states rewards Unknown transition model reward model Significance learning without knowing what you are learning generic approach for agent design very hard problem Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 7
8 Learning Problems Prediction Control $? Action Action π π? : $$$?? Reward Reward State State Learn to predict the expected total reward for a fixed action policy [ Passive Reinforcement Learning ] Learn to control the process to maximize the expected total reward [ Active Reinforcement Learning ] Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 8
9 Learning Methodology Action Reward? State Action Action Reward? State State model-based learning model-free learning Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 9
10 Learning Environment cooperative competitive single-agent multi-agent Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 10
11 Process Modeling Markov Decision Processes
12 Markov Decision Process (MDP) MDP (S, A, P, R, γ, D) S: state space of the process A: action space of the process P: transition model, P(s a, s) R: reward function, R(s, a) γ: discount factor, 0 < γ 1 D: initial state distribution Markov property next state and reward are independent of history Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 12
13 Value Functions State Value Function V State-Action Value Function Q Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 13
14 Value Function Representation Exact use a table to represent the value function V : one entry for each s, O( S ) space Q : one entry for each (s,a), O( S A ) space infeasible for realistic problems Approximate approximate the value function with a function approximator e.g. neural networks, polynomials, radial basis functions,... need only enough space to store the approximator parameters equations and algorithms become harder to deal with convergence properties are compromised Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 14
15 Linear Value Function Approximation Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 15
16 Prediction Passive Reinforcement Learning
17 The Prediction Problem Given a fixed deterministic (or, stochastic) policy Goal to predict the performance of policy to evaluate policy to learn the value function V (s) of policy State value function π t ( ) γ ( t) π, 0 V s = E R s s = s t= 0 Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 17
18 Grid Domain Trials (1,1) -,04 (1,2) -,04 (1,3) -,04 (1,2) -,04 (1,3) -,04 (2,3) -,04 (3,3) -,04 (4,3) +1 (1,1) -,04 (1,2) -,04 (1,3) -,04 (2,3) -,04 (3,3) -,04 (3,2) -,04 (3,3) -,04 (4,3) +1 (1,1) -,04 (2,1) -,04 (3,1) -,04 (3,2) -,04 (4,2) -1 Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 18
19 Άµεση Eκτίµηση Xρησιµότητας direct utility estimation in adaptive control theory ( ) Ιδέα χρησιµότητα = αναµενόµενη συνολική ανταµοιβή από κατάσταση s κάθε δοκιµή (trial) δίνει ένα δείγµα για κάθε κατάσταση που επισκέπτεται παράδειγµα (1,1) -,04 (1,2) -,04 (1,3) -,04 (1,2) -,04 (1,3) -,04 (2,3) -,04 (3,3) -,04 (4,3) εκτίµηση: µέσος όρος όλων των δειγµάτων για κάθε κατάσταση Χαρακτηριστικά αγνοεί τις εξαρτήσεις µεταξύ χρησιµοτήτων (εξίσωση Bellman) ψάχνει µεγαλύτερο χώρο και συγκλίνει µε αργό ρυθµό Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 19
20 Προσαρµόσιµος υναµικός Προγραµµατισµός Adaptive Dynamic Programming (ADP) µαθαίνει το µοντέλο µεταβάσεων, T(s, (s), s') µαθαίνει το µοντέλο ανταµοιβών, R(s) τα αντικαθιστά στην εξίσωση Bellman V π ( ) ( ) γ π( ) ( ) π,, V ( ) s = R s + T s s s s λύνει το γραµµικό σύστηµα ως προς τις χρησιµότητες Χαρακτηριστικά εκτίµηση µοντέλων µε καταµέτρηση µεγάλη χωρική πολυπλοκότητα παραλλαγή: τροποποιηµένη επανάληψη πολιτικών Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 20 s
21 Adaptive Dynamic Programming function Passive-ADP-Agent (αίσθηση) returns µια ενέργεια inputs: αίσθηση, µια αίσθηση που δηλώνει την τρέχουσα κατάσταση s και το σήµα ανταµοιβής r static:, µια σταθερή πολιτική mdp, MDP µε µοντέλο Τ, ανταµοιβές R, προεξόφληση γ V, ένας πίνακας χρησιµοτήτων, αρχικά κενός N sa, πίνακας συχνοτήτων για ζεύγη (s, a), αρχικά µηδενικός N sas, πίνακας συχνοτήτων για τριάδες (s, a, s ), αρχικά µηδενικός s, a, η προηγούµενη κατάσταση και ενέργεια, αρχικά κενές if s είναι νέο, then do V[s ] r, R[s ] r if s όχι κενό then do αύξηση των N sa [s, a] και N sas [s, a, s ] for each t έτσι ώστε το N sas [s, a, t] είναι µη µηδενικό, do T[s, a, t] N sas [s, a, t]/ N sa [s, a] V Value-Determination(, V, mdp) if Terminal?[s ] then s, a κενό else s, a s, [s ] return a Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 21
22 Α όδοση ADP ο πιο "γρήγορος" αλγόριθµος ως προς το ρυθµό σύγκλισης κάθε δοκιµή χρειάζεται αρκετό χρόνο Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 22
23 Μάθηση Χρονικών ιαφορών Ιδέα τοπική ενηµέρωση χρησιµοτήτων σύµφωνα µε τις εξαρτήσεις Temporal Difference Learning (TD) ( s) V ( s) + α R( s) + γ V ( s ) V ( s) ( ) V π π π π α = ρυθµός µάθησης (θυµίζει τα νευρωνικά δίκτυα) φθίνει µε το χρόνο για αποφυγή "ταλαντώσεων" Παράδειγµα έστω ότι από την πρώτη δοκιµή έχουµε V (1,3)=0,84, V (2,3) = 0,92 έστω η µετάβαση από το (1,3) στο (2,3) στη δεύτερη δοκιµή η εξίσωση διαφορών ορίζει ότι η V (1,3) πρέπει να αυξηθεί Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 23
24 Temporal Difference Learning Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 24
25 Αλγόριθµος TD function Passive-ΤD-Agent (αίσθηση) returns µια ενέργεια inputs: αίσθηση, µια αίσθηση που δηλώνει την τρέχουσα κατάσταση s και το σήµα ανταµοιβής r static:, µια σταθερή πολιτική V, πίνακας χρησιµοτήτων, αρχικά κενός N s, πίνακας συχνοτήτων για τις καταστάσεις, αρχικά µηδενικός s, a, r η προηγούµενη κατάσταση, ενέργεια, ανταµοιβή, αρχικά κενά if s είναι νέο, then do V[s ] r' if s όχι κενό then do αύξηση του N s [s] V[s] V[s] + α(n s [s])(r + γv[s ] V[s]) if Terminal?[s ] then s, a, r κενό else s, a, r s, [s ], r return a Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 25
26 Α όδοση TD πιο "αργός" και πιο ασταθής από τον ADP κάθε δοκιµή χρειάζεται πολύ λίγο χρόνο Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 26
27 TD with Approximation Generic approximation can only update the parameters of the approximator update the parameters according to the temporal difference use the gradient to determine the appropriate change Linear approximation linear combination of basis functions update equation Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 27
28 TD with Linear Approximation Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 28
29 Least-Squares Temporal Difference TD is trying to solve a linear system incrementally Idea collect all data and solve the Bellman equation at once the solution (true value function) satisfies the fixed point property Linear architectures trying to find the best point in the space of approximator parameters enforce the fixed point property under orthogonal projection the solution is a fixed-point approximation to the true value function Properties efficient use of all samples at once elimination of learning rate, schedules, oscillations,... Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 29
30 LSTD Algorithm Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 30
31 LSTD Performance from [Boyan, 2000] Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 31
32 Control Active Reinforcement Learning
33 The Control Problem Given experience samples (s,a,r,s ) Goal to learn a good policy Idea a better policy can be retrieved from a state-action value function State action value function Policy Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 33
34 Greedy Policy Greedy (improved) policy over V Greedy (improved) policy over Q Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 34
35 Χρήση Ά ληστης Πολιτικής εκτελεί πάντα την καλύτερη ενέργεια ως προς την εκτιµώµενη συνάρτηση αξιολόγησης µη-βέλτιστες αρχικές δοκιµές αποπροσανατολίζουν την αναζήτηση αφήνει περιοχές του χώρου καταστάσεων ανεξερεύνητες! Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 35
36 Εκµετάλλευση και Εξερεύνηση Εκµετάλλευση (exploitation) χρήση της άπληστης πολιτικής για βραχυπρόθεσµη µεγιστοποίηση της ανταµοιβής Εξερεύνηση (exploration) επιλογή τυχαίων κινήσεων για βελτίωση/επέκταση της εκτίµησης της συνάρτησης αξιολόγησης, µε στόχο µακροπρόθεσµα οφέλη Exploration vs. Exploitation Dilemma εξερεύνηση ή εκµετάλλευση; Βέλτιστο σχήµα άπληστη πολιτική στο όριο της άπειρης εξερεύνησης Greedy in the Limit of Infinite Exploration (GLIE) Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 36
37 Ασιόδοξη Αρχικο οίηση Ε ανάληψη αξιών µε "αισιόδοξες" χρησιµότητες V + (s): αισιόδοξη εκτίµηση χρησιµότητας Ν(α,s): αριθµός φορών που έχει δοκιµαστεί η α στην s + + V s R s f T s a s s N a s α s ( ) ( ) + γ max (,, ) V ( ), (, ) f(u, n): συνάρτηση εξερεύνησης f ( u, n) + R αν n< Ne = u διαφορετικά R + : άνω όριο για τις χρησιµότητες εξασφαλίζει ότι κάθε ζεύγος (α,s) θα δοκιµαστεί N e φορές Η αρχικοποίηση των V + µπορεί να γίνει στο R + για όλες τις άγνωστες χρησιµότητες. Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 37
38 Παράδειγµα Παρατηρήσεις (α) µερικές χρησιµότητες αργούν να συγκλίνουν (β) γρήγορη σύγκλιση στη βέλτιστη πολιτική Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 38
39 Bellman Optimality Equation a non-linear system with unknowns Q can be solved iteratively Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 39
40 Q-learning Properties requires a huge amount of samples requires appropriate settings for the learning rate makes minimal use of each sample Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 40
41 Policy Iteration O( S 3 A 3 ) time Policy Evaluation (Critic) Value Function Q π Θ( S A ) space O( S A ) time Policy Improvement (Actor) Model Policy π Θ( S ) space Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 41
42 Approximate Policy Iteration ε Approximate Value Function ^^ Q π Value Function Projection Policy Improvement (Actor) Policy Evaluation (Critic) Policy Projection Model Approximate Policy ^π δ Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 42
43 The Main Idea ε Approximate Value Function ^^ Q π Value Function Projection Policy Improvement (Actor) Policy Evaluation (Critic) Policy Projection Approximate Policy δ Model ^π Samples Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 43
44 Fixed Point Approximation Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 44
45 Orthogonal Projection Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 45
46 The LSTDQ Algorithm Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 46
47 Least-Squares Policy Iteration Approximate Value Function Linear architecture Q^ π = φ T w Policy Evaluation and Projection LSTDQ Policy Improvement Maximization Samples Policy Greedy policy over Q^ π Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 47
48 The LSPI Algorithm Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 48
49 LSPI Properties Properties Quality : Learns policies of bounded quality Stability : Is stable; does not diverge Efficiency : Makes efficient use and reuse of training samples Scalability : Handles successfully large scale problems Advantages Allows great flexibility in choosing/using basis functions Poses no restrictions on sample collection It is simple and easy to implement Limitations Cannot guarantee convergence to the optimal solution With badly distributed samples, the iteration may oscillate With insufficient basis functions, LSPI may converge to a poor policy Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 49
50 Experimentation Put RL to work!
51 Inverted Pendulum Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 51
52 Pendulum: Learning Parameters Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 52
53 Pendulum: Results LSPI Q-learning Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 53
54 Bicycle Balancing and Riding Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 54
55 Bicycle Learning Parameters Features k=100 (20 basis functions for each action) Samples collected from random episodes starting at a random state around the initial position following a purely random policy for only 20 steps only 20 minutes worth of operating time! Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 55
56 Bicycle Learning Results Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 56
57 Bicycle Learning Performance Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 57
58 Tetris Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 58
59 Tetris: Παράµετροι Μάθησης Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 59
60 Tetris: Α οτελέσµατα Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 60
61 Robot Learning Video Clips tetris-before, tetris-after 07-initial.mpg, 08-finished.mpg 09-ers7-slow.avi, 10-ers7-fast.avi 11-SwingUp.avi, 12-PoleBalancing.mov, 13-pole-balance.mov 14-airhockey.avi, 15-maze.avi Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 61
62 Μελέτη Σύγγραµµα Κεφάλαιο 21 Άρθρα L. Kaelbling, M. Littman, A. Moore, Reinforcement Learning: A Survey, Journal of Artificial Intelligence Research 4, , S. Bradtke, A. Barto, Linear Least-Squares Algorithms for Temporal Difference Learning, Machine Learning, 22: 1-3, 33-57, M. Lagoudakis and Ronald Parr, Least-Squares Policy Iteration, Journal of Machine Learning Research 4, , Μ. Γ. Λαγουδάκης Τµήµα ΗΜΜΥ Πολυτεχνείο Κρήτης Σελίδα 62
ΕΚΠ 413 / ΕΚΠ 606 Αυτόνοµοι (Ροµ οτικοί) Πράκτορες
ΕΚΠ 413 / ΕΚΠ 606 Αυτόνοµοι (Ροµ οτικοί) Πράκτορες Λήψη Α οφάσεων υ ό Αβεβαιότητα Decision Making under Uncertainty Τµήµα Ηλεκτρονικών Μηχανικών και Μηχανικών Υ ολογιστών Πολυτεχνείο Κρήτης Ε ανάληψη Εντο
Διαβάστε περισσότεραΕΚΠ 413 / ΕΚΠ 606 Αυτόνοµοι (Ροµ οτικοί) Πράκτορες
ΕΚΠ 413 / ΕΚΠ 606 Αυτόνοµοι (Ροµ οτικοί) Πράκτορες Μερική Παρατηρησιµότητα Θεωρία Παιγνίων Τµήµα Ηλεκτρονικών Μηχανικών και Μηχανικών Υ ολογιστών Πολυτεχνείο Κρήτης Ε ανάληψη Reinforcement Learning (RL)
Διαβάστε περισσότεραΕΚΠ 413 / ΕΚΠ 606 Αυτόνοµοι (Ροµ οτικοί) Πράκτορες
ΕΚΠ 413 / ΕΚΠ 606 Αυτόνοµοι (Ροµ οτικοί) Πράκτορες Θεωρία Παιγνίων Μαρκωβιανά Παιχνίδια Τµήµα Ηλεκτρονικών Μηχανικών και Μηχανικών Υ ολογιστών Πολυτεχνείο Κρήτης Ε ανάληψη Μερική αρατηρησιµότητα POMDPs
Διαβάστε περισσότεραΣΤΟΧΑΣΤΙΚΕΣ ΔΙΕΡΓΑΣΙΕΣ & ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ Αίθουσα Νέα Κτίρια ΣΗΜΜΥ Ε.Μ.Π.
ΣΤΟΧΑΣΤΙΚΕΣ ΔΙΕΡΓΑΣΙΕΣ & ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ Αίθουσα 005 - Νέα Κτίρια ΣΗΜΜΥ Ε.Μ.Π. Δυναμικός Προγραμματισμός με Μεθόδους Monte Carlo: 1. Μάθηση Χρονικών Διαφορών (Temporal-Difference Learning) 2. Στοχαστικός
Διαβάστε περισσότερακαθ. Βασίλης Μάγκλαρης
ΣΤΟΧΑΣΤΙΚΕΣ ΔΙΕΡΓΑΣΙΕΣ & ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ Αίθουσα 005 - Νέα Κτίρια ΣΗΜΜΥ Ε.Μ.Π. Ενισχυτική Μάθηση - Δυναμικός Προγραμματισμός: 1. Markov Decision Processes 2. Bellman s Optimality Criterion 3. Αλγόριθμος
Διαβάστε περισσότεραΑπόκριση σε Μοναδιαία Ωστική Δύναμη (Unit Impulse) Απόκριση σε Δυνάμεις Αυθαίρετα Μεταβαλλόμενες με το Χρόνο. Απόστολος Σ.
Απόκριση σε Δυνάμεις Αυθαίρετα Μεταβαλλόμενες με το Χρόνο The time integral of a force is referred to as impulse, is determined by and is obtained from: Newton s 2 nd Law of motion states that the action
Διαβάστε περισσότεραOther Test Constructions: Likelihood Ratio & Bayes Tests
Other Test Constructions: Likelihood Ratio & Bayes Tests Side-Note: So far we have seen a few approaches for creating tests such as Neyman-Pearson Lemma ( most powerful tests of H 0 : θ = θ 0 vs H 1 :
Διαβάστε περισσότεραΠΛΗ513 - Αυτόνομοι Πράκτορες Αναφορά Εργασίας
ΠΛΗ513 - Αυτόνομοι Πράκτορες Αναφορά Εργασίας Ομάδα εργασίας: LAB51315282 Φοιτητής: Μάινας Νίκος ΑΦΜ: 2007030088 ΠΕΡΙΓΡΑΦΗ ΙΔΕΑΣ Η ιδέα της εργασίας βασίζεται στην εύρεση της καλύτερης πολιτικής για ένα
Διαβάστε περισσότεραPhys460.nb Solution for the t-dependent Schrodinger s equation How did we find the solution? (not required)
Phys460.nb 81 ψ n (t) is still the (same) eigenstate of H But for tdependent H. The answer is NO. 5.5.5. Solution for the tdependent Schrodinger s equation If we assume that at time t 0, the electron starts
Διαβάστε περισσότεραΜελέτη και Υλοποίηση Ελεγκτών Ρομποτικών Συστημάτων με χρήση Αλγορίθμων Ενισχυτικής Μάθησης
.. Μελέτη και Υλοποίηση Ελεγκτών Ρομποτικών Συστημάτων με χρήση Αλγορίθμων Ενισχυτικής Μάθησης Πολυτεχνείο Κρήτης 22 Ιουλίου, 2009 Διάρθρωση Εισαγωγή Μαρκοβιανές Διεργασίες Απόφασης (ΜΔΑ) Ενισχυτική Μάθηση
Διαβάστε περισσότεραSystems with unlimited supply of work: MCQN with infinite virtual buffers A Push Pull multiclass system
Systems with unlimited supply of work: MCQN with infinite virtual buffers A Push Pull multiclass system Gideon Weiss University of Haifa Joint work with students: Anat (Anastasia) Kopzon Yoni Nazarathy
Διαβάστε περισσότερα6.3 Forecasting ARMA processes
122 CHAPTER 6. ARMA MODELS 6.3 Forecasting ARMA processes The purpose of forecasting is to predict future values of a TS based on the data collected to the present. In this section we will discuss a linear
Διαβάστε περισσότεραNumerical Analysis FMN011
Numerical Analysis FMN011 Carmen Arévalo Lund University carmen@maths.lth.se Lecture 12 Periodic data A function g has period P if g(x + P ) = g(x) Model: Trigonometric polynomial of order M T M (x) =
Διαβάστε περισσότεραCHAPTER 25 SOLVING EQUATIONS BY ITERATIVE METHODS
CHAPTER 5 SOLVING EQUATIONS BY ITERATIVE METHODS EXERCISE 104 Page 8 1. Find the positive root of the equation x + 3x 5 = 0, correct to 3 significant figures, using the method of bisection. Let f(x) =
Διαβάστε περισσότεραΣΤΟΧΑΣΤΙΚΕΣ ΔΙΕΡΓΑΣΙΕΣ & ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ Αίθουσα Νέα Κτίρια ΣΗΜΜΥ Ε.Μ.Π.
ΣΤΟΧΑΣΤΙΚΕΣ ΔΙΕΡΓΑΣΙΕΣ & ΒΕΛΤΙΣΤΟΠΟΙΗΣΗ Αίθουσα 005 - Νέα Κτίρια ΣΗΜΜΥ Ε.Μ.Π. Αλγόριθμος Bellman-Ford, Δρομολόγηση BGP στο Internet καθ. Βασίλης Μάγκλαρης maglaris@netmode.ntua.gr www.netmode.ntua.gr Πέμπτη
Διαβάστε περισσότεραΑΛΓΟΡΙΘΜΟΙ Άνοιξη I. ΜΗΛΗΣ
ΑΛΓΟΡΙΘΜΟΙ http://eclass.aueb.gr/courses/inf161/ Άνοιξη 2016 - I. ΜΗΛΗΣ ΔΥΝΑΜΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΑΛΓΟΡΙΘΜΟΙ - ΑΝΟΙΞΗ 2016 - Ι. ΜΗΛΗΣ 08 DP I 1 Dynamic Programming Richard Bellman (1953) Etymology (at
Διαβάστε περισσότεραΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ
ΕΙΣΑΓΩΓΗ ΣΤΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΕΛΕΝΑ ΦΛΟΚΑ Επίκουρος Καθηγήτρια Τµήµα Φυσικής, Τοµέας Φυσικής Περιβάλλοντος- Μετεωρολογίας ΓΕΝΙΚΟΙ ΟΡΙΣΜΟΙ Πληθυσµός Σύνολο ατόµων ή αντικειµένων στα οποία αναφέρονται
Διαβάστε περισσότεραΕΦΑΡΜΟΓΗ Q-LEARNING ΣΕ GRID WORLD ΚΑΙ ΕΞΥΠΝΟΣ ΧΕΙΡΙΣΜΟΣ ΤΟΥ LEARNING RATE ΛΑΘΙΩΤΑΚΗΣ ΑΡΗΣ ΑΥΤΟΝΟΜΟΙ ΠΡΑΚΤΟΡΕΣ 2011-12
ΕΦΑΡΜΟΓΗ Q-LEARNING ΣΕ GRID WORLD ΚΑΙ ΕΞΥΠΝΟΣ ΧΕΙΡΙΣΜΟΣ ΤΟΥ LEARNING RATE ΛΑΘΙΩΤΑΚΗΣ ΑΡΗΣ ΑΥΤΟΝΟΜΟΙ ΠΡΑΚΤΟΡΕΣ 2011-12 ΣΚΟΠΟΣ ΕΡΓΑΣΙΑΣ Στα πλαίσια του μαθήματος Αυτόνομοι Πράκτορες μας ζητήθηκε να αναπτύξουμε
Διαβάστε περισσότεραReinforcement Learning Competition Invasive Species Domain - αυτόνομοι Πράκτορες Γιώργος Κεχαγιάς
Reinforcement Learning Competition Invasive Species Domain - αυτόνομοι Πράκτορες 2015-16 Γιώργος Κεχαγιάς 2010030002 Ορισμός του προβλήματος Η οικονομική και η οικολογική καταστοροφή απο τα Invasive species
Διαβάστε περισσότεραThe Simply Typed Lambda Calculus
Type Inference Instead of writing type annotations, can we use an algorithm to infer what the type annotations should be? That depends on the type system. For simple type systems the answer is yes, and
Διαβάστε περισσότεραSection 8.3 Trigonometric Equations
99 Section 8. Trigonometric Equations Objective 1: Solve Equations Involving One Trigonometric Function. In this section and the next, we will exple how to solving equations involving trigonometric functions.
Διαβάστε περισσότεραΚΥΠΡΙΑΚΗ ΕΤΑΙΡΕΙΑ ΠΛΗΡΟΦΟΡΙΚΗΣ CYPRUS COMPUTER SOCIETY ΠΑΓΚΥΠΡΙΟΣ ΜΑΘΗΤΙΚΟΣ ΔΙΑΓΩΝΙΣΜΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ 19/5/2007
Οδηγίες: Να απαντηθούν όλες οι ερωτήσεις. Αν κάπου κάνετε κάποιες υποθέσεις να αναφερθούν στη σχετική ερώτηση. Όλα τα αρχεία που αναφέρονται στα προβλήματα βρίσκονται στον ίδιο φάκελο με το εκτελέσιμο
Διαβάστε περισσότερα3.4 SUM AND DIFFERENCE FORMULAS. NOTE: cos(α+β) cos α + cos β cos(α-β) cos α -cos β
3.4 SUM AND DIFFERENCE FORMULAS Page Theorem cos(αβ cos α cos β -sin α cos(α-β cos α cos β sin α NOTE: cos(αβ cos α cos β cos(α-β cos α -cos β Proof of cos(α-β cos α cos β sin α Let s use a unit circle
Διαβάστε περισσότεραEstimation for ARMA Processes with Stable Noise. Matt Calder & Richard A. Davis Colorado State University
Estimation for ARMA Processes with Stable Noise Matt Calder & Richard A. Davis Colorado State University rdavis@stat.colostate.edu 1 ARMA processes with stable noise Review of M-estimation Examples of
Διαβάστε περισσότεραJesse Maassen and Mark Lundstrom Purdue University November 25, 2013
Notes on Average Scattering imes and Hall Factors Jesse Maassen and Mar Lundstrom Purdue University November 5, 13 I. Introduction 1 II. Solution of the BE 1 III. Exercises: Woring out average scattering
Διαβάστε περισσότερα5.4 The Poisson Distribution.
The worst thing you can do about a situation is nothing. Sr. O Shea Jackson 5.4 The Poisson Distribution. Description of the Poisson Distribution Discrete probability distribution. The random variable
Διαβάστε περισσότεραModels for Probabilistic Programs with an Adversary
Models for Probabilistic Programs with an Adversary Robert Rand, Steve Zdancewic University of Pennsylvania Probabilistic Programming Semantics 2016 Interactive Proofs 2/47 Interactive Proofs 2/47 Interactive
Διαβάστε περισσότεραΗλεκτρονικοί Υπολογιστές IV
ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Ηλεκτρονικοί Υπολογιστές IV Εισαγωγή στα δυναμικά συστήματα Διδάσκων: Επίκουρος Καθηγητής Αθανάσιος Σταυρακούδης Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό
Διαβάστε περισσότεραLecture 2. Soundness and completeness of propositional logic
Lecture 2 Soundness and completeness of propositional logic February 9, 2004 1 Overview Review of natural deduction. Soundness and completeness. Semantics of propositional formulas. Soundness proof. Completeness
Διαβάστε περισσότεραΠΛΗ 513-Αυτόνομοι Πράκτορες Χειμερινό εξάμηνο 2012 Εφαρμογή αλγορίθμων ενισχυτικής μάθησης στο παιχνίδι Βlackjack. Χλης Νικόλαος-Κοσμάς
ΠΛΗ 513-Αυτόνομοι Πράκτορες Χειμερινό εξάμηνο 2012 Εφαρμογή αλγορίθμων ενισχυτικής μάθησης στο παιχνίδι Βlackjack Χλης Νικόλαος-Κοσμάς Περιγραφή παιχνιδιού Βlackjack: Σκοπός του παιχνιδιού είναι ο παίκτης
Διαβάστε περισσότεραHomework 3 Solutions
Homework 3 Solutions Igor Yanovsky (Math 151A TA) Problem 1: Compute the absolute error and relative error in approximations of p by p. (Use calculator!) a) p π, p 22/7; b) p π, p 3.141. Solution: For
Διαβάστε περισσότεραTMA4115 Matematikk 3
TMA4115 Matematikk 3 Andrew Stacey Norges Teknisk-Naturvitenskapelige Universitet Trondheim Spring 2010 Lecture 12: Mathematics Marvellous Matrices Andrew Stacey Norges Teknisk-Naturvitenskapelige Universitet
Διαβάστε περισσότεραΕ ανάληψη. Ορισµοί της Τεχνητής Νοηµοσύνης (ΤΝ) Καταβολές. Ιστορική αναδροµή. Πράκτορες. Περιβάλλοντα. κριτήρια νοηµοσύνης
ΠΛΗ 405 Τεχνητή Νοηµοσύνη Αναζήτηση Search Τµήµα Ηλεκτρονικών Μηχανικών και Μηχανικών Υ ολογιστών Πολυτεχνείο Κρήτης Ε ανάληψη Ορισµοί της Τεχνητής Νοηµοσύνης (ΤΝ) κριτήρια νοηµοσύνης Καταβολές συνεισφορά
Διαβάστε περισσότεραConcrete Mathematics Exercises from 30 September 2016
Concrete Mathematics Exercises from 30 September 2016 Silvio Capobianco Exercise 1.7 Let H(n) = J(n + 1) J(n). Equation (1.8) tells us that H(2n) = 2, and H(2n+1) = J(2n+2) J(2n+1) = (2J(n+1) 1) (2J(n)+1)
Διαβάστε περισσότεραFigure A.2: MPC and MPCP Age Profiles (estimating ρ, ρ = 2, φ = 0.03)..
Supplemental Material (not for publication) Persistent vs. Permanent Income Shocks in the Buffer-Stock Model Jeppe Druedahl Thomas H. Jørgensen May, A Additional Figures and Tables Figure A.: Wealth and
Διαβάστε περισσότεραBayesian statistics. DS GA 1002 Probability and Statistics for Data Science.
Bayesian statistics DS GA 1002 Probability and Statistics for Data Science http://www.cims.nyu.edu/~cfgranda/pages/dsga1002_fall17 Carlos Fernandez-Granda Frequentist vs Bayesian statistics In frequentist
Διαβάστε περισσότεραCE 530 Molecular Simulation
C 53 olecular Siulation Lecture Histogra Reweighting ethods David. Kofke Departent of Cheical ngineering SUNY uffalo kofke@eng.buffalo.edu Histogra Reweighting ethod to cobine results taken at different
Διαβάστε περισσότεραΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ
ΤΕΙ Δυτικής Μακεδονίας ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ 2015-2016 Τεχνητή Νοημοσύνη Επίλυση προβλημάτων με αναζήτηση Διδάσκων: Τσίπουρας Μάρκος Εκπαιδευτικό Υλικό: Τσίπουρας Μάρκος http://ai.uom.gr/aima/ 2
Διαβάστε περισσότεραSolution Concepts. Παύλος Στ. Εφραιµίδης. Τοµέας Λογισµικού και Ανάπτυξης Εφαρµογών Τµήµα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών
Παύλος Στ. Εφραιµίδης Τοµέας Λογισµικού και Ανάπτυξης Εφαρµογών Τµήµα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Ισορροπία Nash αγνές στρατηγικές µικτές στρατηγικές Κυρίαρχες στρατηγικές Rationalizability
Διαβάστε περισσότεραBusiness English. Ενότητα # 9: Financial Planning. Ευαγγελία Κουτσογιάννη Τμήμα Διοίκησης Επιχειρήσεων
ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ Ανώτατο Εκπαιδευτικό Ίδρυμα Πειραιά Τεχνολογικού Τομέα Business English Ενότητα # 9: Financial Planning Ευαγγελία Κουτσογιάννη Τμήμα Διοίκησης Επιχειρήσεων Άδειες Χρήσης Το παρόν εκπαιδευτικό
Διαβάστε περισσότεραΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ. Ψηφιακή Οικονομία. Διάλεξη 8η: Producer Behavior Mαρίνα Μπιτσάκη Τμήμα Επιστήμης Υπολογιστών
ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ Ψηφιακή Οικονομία Διάλεξη 8η: Producer Behavior Mαρίνα Μπιτσάκη Τμήμα Επιστήμης Υπολογιστών Firm Behavior GOAL: Firms choose the maximum possible output (technological
Διαβάστε περισσότεραFourier Series. MATH 211, Calculus II. J. Robert Buchanan. Spring Department of Mathematics
Fourier Series MATH 211, Calculus II J. Robert Buchanan Department of Mathematics Spring 2018 Introduction Not all functions can be represented by Taylor series. f (k) (c) A Taylor series f (x) = (x c)
Διαβάστε περισσότεραderivation of the Laplacian from rectangular to spherical coordinates
derivation of the Laplacian from rectangular to spherical coordinates swapnizzle 03-03- :5:43 We begin by recognizing the familiar conversion from rectangular to spherical coordinates (note that φ is used
Διαβάστε περισσότεραΗΜΥ 210 ΣΧΕΔΙΑΣΜΟΣ ΨΗΦΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ. Χειµερινό Εξάµηνο 2016 ΔΙΑΛΕΞΗ 13: Διαδικασία Σχεδιασµού Ακολουθιακών Κυκλωµάτων (Κεφάλαιο 6.
ΗΜΥ 210 ΣΧΕΔΙΑΣΜΟΣ ΨΗΦΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ Χειµερινό Εξάµηνο 2016 ΔΙΑΛΕΞΗ 13: Διαδικασία Σχεδιασµού Ακολουθιακών Κυκλωµάτων (Κεφάλαιο 6.3) ΧΑΡΗΣ ΘΕΟΧΑΡΙΔΗΣ Επίκουρος Καθηγητής, ΗΜΜΥ (ttheocharides@ucy.ac.cy)
Διαβάστε περισσότεραApplying Markov Decision Processes to Role-playing Game
1,a) 1 1 1 1 2011 8 25, 2012 3 2 MDPRPG RPG MDP RPG MDP RPG MDP RPG MDP RPG Applying Markov Decision Processes to Role-playing Game Yasunari Maeda 1,a) Fumitaro Goto 1 Hiroshi Masui 1 Fumito Masui 1 Masakiyo
Διαβάστε περισσότερα2 Composition. Invertible Mappings
Arkansas Tech University MATH 4033: Elementary Modern Algebra Dr. Marcel B. Finan Composition. Invertible Mappings In this section we discuss two procedures for creating new mappings from old ones, namely,
Διαβάστε περισσότεραReinforcement Learning
Reinforcement Learning Michèle Sebag ; TP : Diviyan Kalainathan TAO, CNRS INRIA Université Paris-Sud Nov. 24th, 26 Credit for slides: R. Sutton, F. Stulp Types of Machine Learning problems WORLD DATA USER
Διαβάστε περισσότεραInverse trigonometric functions & General Solution of Trigonometric Equations. ------------------ ----------------------------- -----------------
Inverse trigonometric functions & General Solution of Trigonometric Equations. 1. Sin ( ) = a) b) c) d) Ans b. Solution : Method 1. Ans a: 17 > 1 a) is rejected. w.k.t Sin ( sin ) = d is rejected. If sin
Διαβάστε περισσότεραΕΚΠ 413 / ΕΚΠ 606 Αυτόνοµοι (Ροµ οτικοί) Πράκτορες
ΕΚΠ 413 / ΕΚΠ 606 Αυτόνοµοι (Ροµ οτικοί) Πράκτορες Πράκτορες και Περιβάλλοντα Τµήµα Ηλεκτρονικών Μηχανικών και Μηχανικών Υ ολογιστών Πολυτεχνείο Κρήτης Σήµερα Πράκτορες χαρακτηριστικά στοιχεία είδη πρακτόρων
Διαβάστε περισσότεραQueensland University of Technology Transport Data Analysis and Modeling Methodologies
Queensland University of Technology Transport Data Analysis and Modeling Methodologies Lab Session #7 Example 5.2 (with 3SLS Extensions) Seemingly Unrelated Regression Estimation and 3SLS A survey of 206
Διαβάστε περισσότεραThe challenges of non-stable predicates
The challenges of non-stable predicates Consider a non-stable predicate Φ encoding, say, a safety property. We want to determine whether Φ holds for our program. The challenges of non-stable predicates
Διαβάστε περισσότεραDepth versus Rigidity in the Design of International Trade Agreements. Leslie Johns
Depth versus Rigidity in the Design of International Trade Agreements Leslie Johns Supplemental Appendix September 3, 202 Alternative Punishment Mechanisms The one-period utility functions of the home
Διαβάστε περισσότεραElements of Information Theory
Elements of Information Theory Model of Digital Communications System A Logarithmic Measure for Information Mutual Information Units of Information Self-Information News... Example Information Measure
Διαβάστε περισσότεραHOMEWORK 4 = G. In order to plot the stress versus the stretch we define a normalized stretch:
HOMEWORK 4 Problem a For the fast loading case, we want to derive the relationship between P zz and λ z. We know that the nominal stress is expressed as: P zz = ψ λ z where λ z = λ λ z. Therefore, applying
Διαβάστε περισσότεραExercises 10. Find a fundamental matrix of the given system of equations. Also find the fundamental matrix Φ(t) satisfying Φ(0) = I. 1.
Exercises 0 More exercises are available in Elementary Differential Equations. If you have a problem to solve any of them, feel free to come to office hour. Problem Find a fundamental matrix of the given
Διαβάστε περισσότεραΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ "ΠΟΛΥΚΡΙΤΗΡΙΑ ΣΥΣΤΗΜΑΤΑ ΛΗΨΗΣ ΑΠΟΦΑΣΕΩΝ. Η ΠΕΡΙΠΤΩΣΗ ΤΗΣ ΕΠΙΛΟΓΗΣ ΑΣΦΑΛΙΣΤΗΡΙΟΥ ΣΥΜΒΟΛΑΙΟΥ ΥΓΕΙΑΣ "
ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΚΑΛΑΜΑΤΑΣ ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΜΟΝΑΔΩΝ ΥΓΕΙΑΣ ΚΑΙ ΠΡΟΝΟΙΑΣ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ "ΠΟΛΥΚΡΙΤΗΡΙΑ ΣΥΣΤΗΜΑΤΑ ΛΗΨΗΣ ΑΠΟΦΑΣΕΩΝ. Η ΠΕΡΙΠΤΩΣΗ ΤΗΣ ΕΠΙΛΟΓΗΣ ΑΣΦΑΛΙΣΤΗΡΙΟΥ ΣΥΜΒΟΛΑΙΟΥ
Διαβάστε περισσότεραApproximation of distance between locations on earth given by latitude and longitude
Approximation of distance between locations on earth given by latitude and longitude Jan Behrens 2012-12-31 In this paper we shall provide a method to approximate distances between two points on earth
Διαβάστε περισσότεραGeneral Models & Inapproximability Overview. Influence Maximization σε Social Networks
Συνοπτικά: Αν θέλω να πετύχω υιοθέτηση μιας άποψης/προϊόντος από πολλούς, πως διαλέγω το αρχικό target group (free samples) Συνοπτικά: Αν θέλω να πετύχω υιοθέτηση μιας άποψης/προϊόντος από πολλούς, πως
Διαβάστε περισσότεραFinite difference method for 2-D heat equation
Finite difference method for 2-D heat equation Praveen. C praveen@math.tifrbng.res.in Tata Institute of Fundamental Research Center for Applicable Mathematics Bangalore 560065 http://math.tifrbng.res.in/~praveen
Διαβάστε περισσότεραChapter 6: Systems of Linear Differential. be continuous functions on the interval
Chapter 6: Systems of Linear Differential Equations Let a (t), a 2 (t),..., a nn (t), b (t), b 2 (t),..., b n (t) be continuous functions on the interval I. The system of n first-order differential equations
Διαβάστε περισσότεραΠρόβλημα 1: Αναζήτηση Ελάχιστης/Μέγιστης Τιμής
Πρόβλημα 1: Αναζήτηση Ελάχιστης/Μέγιστης Τιμής Να γραφεί πρόγραμμα το οποίο δέχεται ως είσοδο μια ακολουθία S από n (n 40) ακέραιους αριθμούς και επιστρέφει ως έξοδο δύο ακολουθίες από θετικούς ακέραιους
Διαβάστε περισσότεραΜΟΝΤΕΛΑ ΛΗΨΗΣ ΑΠΟΦΑΣΕΩΝ
ΜΟΝΤΕΛΑ ΛΗΨΗΣ ΑΠΟΦΑΣΕΩΝ Ενότητα 12 Τμήμα Εφαρμοσμένης Πληροφορικής Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό υλικό, όπως εικόνες, που υπόκειται
Διαβάστε περισσότεραPartial Differential Equations in Biology The boundary element method. March 26, 2013
The boundary element method March 26, 203 Introduction and notation The problem: u = f in D R d u = ϕ in Γ D u n = g on Γ N, where D = Γ D Γ N, Γ D Γ N = (possibly, Γ D = [Neumann problem] or Γ N = [Dirichlet
Διαβάστε περισσότεραStatistical Inference I Locally most powerful tests
Statistical Inference I Locally most powerful tests Shirsendu Mukherjee Department of Statistics, Asutosh College, Kolkata, India. shirsendu st@yahoo.co.in So far we have treated the testing of one-sided
Διαβάστε περισσότεραIf we restrict the domain of y = sin x to [ π, π ], the restrict function. y = sin x, π 2 x π 2
Chapter 3. Analytic Trigonometry 3.1 The inverse sine, cosine, and tangent functions 1. Review: Inverse function (1) f 1 (f(x)) = x for every x in the domain of f and f(f 1 (x)) = x for every x in the
Διαβάστε περισσότεραES440/ES911: CFD. Chapter 5. Solution of Linear Equation Systems
ES440/ES911: CFD Chapter 5. Solution of Linear Equation Systems Dr Yongmann M. Chung http://www.eng.warwick.ac.uk/staff/ymc/es440.html Y.M.Chung@warwick.ac.uk School of Engineering & Centre for Scientific
Διαβάστε περισσότεραΔιακριτικές Συναρτήσεις
Διακριτικές Συναρτήσεις Δρ. Δηµήτριος Τσέλιος Επίκουρος Καθηγητής ΤΕΙ Θεσσαλίας Τµήµα Διοίκησης Επιχειρήσεων Θερµικός χάρτης των XYZ ξενοδοχείων σε σχέση µε τη γεωγραφική περιοχή τους P. Adamopoulos New
Διαβάστε περισσότερα4.6 Autoregressive Moving Average Model ARMA(1,1)
84 CHAPTER 4. STATIONARY TS MODELS 4.6 Autoregressive Moving Average Model ARMA(,) This section is an introduction to a wide class of models ARMA(p,q) which we will consider in more detail later in this
Διαβάστε περισσότεραMonetary Policy Design in the Basic New Keynesian Model
Monetary Policy Design in the Basic New Keynesian Model Jordi Galí CREI, UPF and Barcelona GSE June 216 Jordi Galí (CREI, UPF and Barcelona GSE) Monetary Policy Design June 216 1 / 12 The Basic New Keynesian
Διαβάστε περισσότεραIf we restrict the domain of y = sin x to [ π 2, π 2
Chapter 3. Analytic Trigonometry 3.1 The inverse sine, cosine, and tangent functions 1. Review: Inverse function (1) f 1 (f(x)) = x for every x in the domain of f and f(f 1 (x)) = x for every x in the
Διαβάστε περισσότεραPARTIAL NOTES for 6.1 Trigonometric Identities
PARTIAL NOTES for 6.1 Trigonometric Identities tanθ = sinθ cosθ cotθ = cosθ sinθ BASIC IDENTITIES cscθ = 1 sinθ secθ = 1 cosθ cotθ = 1 tanθ PYTHAGOREAN IDENTITIES sin θ + cos θ =1 tan θ +1= sec θ 1 + cot
Διαβάστε περισσότεραΦΥΛΛΟ ΕΡΓΑΣΙΑΣ Α. Διαβάστε τις ειδήσεις και εν συνεχεία σημειώστε. Οπτική γωνία είδησης 1:.
ΦΥΛΛΟ ΕΡΓΑΣΙΑΣ Α 2 ειδήσεις από ελληνικές εφημερίδες: 1. Τα Νέα, 13-4-2010, Σε ανθρώπινο λάθος αποδίδουν τη συντριβή του αεροσκάφους, http://www.tanea.gr/default.asp?pid=2&artid=4569526&ct=2 2. Τα Νέα,
Διαβάστε περισσότεραΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ. Ενότητα 2: Δένδρο αναζήτησης. Ρεφανίδης Ιωάννης Τμήμα Εφαρμοσμένης Πληροφορικής
Ενότητα 2: Δένδρο αναζήτησης Ρεφανίδης Ιωάννης Άδειες Χρήσης Το παρόν εκπαιδευτικό υλικό υπόκειται σε άδειες χρήσης Creative Commons. Για εκπαιδευτικό υλικό, όπως εικόνες, που υπόκειται σε άλλου τύπου
Διαβάστε περισσότεραExercises to Statistics of Material Fatigue No. 5
Prof. Dr. Christine Müller Dipl.-Math. Christoph Kustosz Eercises to Statistics of Material Fatigue No. 5 E. 9 (5 a Show, that a Fisher information matri for a two dimensional parameter θ (θ,θ 2 R 2, can
Διαβάστε περισσότεραPractice Exam 2. Conceptual Questions. 1. State a Basic identity and then verify it. (a) Identity: Solution: One identity is csc(θ) = 1
Conceptual Questions. State a Basic identity and then verify it. a) Identity: Solution: One identity is cscθ) = sinθ) Practice Exam b) Verification: Solution: Given the point of intersection x, y) of the
Διαβάστε περισσότεραAssalamu `alaikum wr. wb.
LUMP SUM Assalamu `alaikum wr. wb. LUMP SUM Wassalamu alaikum wr. wb. Assalamu `alaikum wr. wb. LUMP SUM Wassalamu alaikum wr. wb. LUMP SUM Lump sum lump sum lump sum. lump sum fixed price lump sum lump
Διαβάστε περισσότεραThesis presentation. Turo Brunou
Thesis presentation Turo Brunou 11.8.2008 Topic System Dynamics Model of Handset Bundling Business. Goal to examine the effect of handset bundling on mobile diffusion and data usage Structure Intro Industry
Διαβάστε περισσότεραΠΛΗ 405 Τεχνητή Νοηµοσύνη
ΠΛΗ 405 Τεχνητή Νοηµοσύνη Πληροφορηµένη Αναζήτηση Τµήµα Ηλεκτρονικών Μηχανικών και Μηχανικών Υ ολογιστών Πολυτεχνείο Κρήτης Ε ανάληψη Πράκτορας ε ίλυσης ροβληµάτων πράκτορας µε στόχο Αναζήτηση διατύπωση
Διαβάστε περισσότερα2). V (s) = R(s) + γ max T (s, a, s )V (s ) (3)
ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΝΙΚΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ Παράδοση: 5 Απριλίου 2012 Μιχελιουδάκης Ευάγγελος 2007030014 ΠΛΗ513: Αυτόνομοι Πράκτορες ΑΝΑΦΟΡΑ ΕΡΓΑΣΙΑΣ Εισαγωγή Η εργασία με
Διαβάστε περισσότεραΗΜΥ 220: ΣΗΜΑΤΑ ΚΑΙ ΣΥΣΤΗΜΑΤΑ Ι Ακαδημαϊκό έτος Εαρινό Εξάμηνο Κατ οίκον εργασία αρ. 2
ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΥΠΡΟΥ ΗΜΥ 220: ΣΗΜΑΤΑ ΚΑΙ ΣΥΣΤΗΜΑΤΑ Ι Ακαδημαϊκό έτος 2007-08 -- Εαρινό Εξάμηνο Κατ οίκον εργασία αρ. 2 Ημερομηνία Παραδόσεως: Παρασκευή
Διαβάστε περισσότεραΜηχανική Μάθηση Hypothesis Testing
ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ Μηχανική Μάθηση Hypothesis Testing Γιώργος Μπορμπουδάκης Τμήμα Επιστήμης Υπολογιστών Procedure 1. Form the null (H 0 ) and alternative (H 1 ) hypothesis 2. Consider
Διαβάστε περισσότεραΑυτόνομη Πλοήγηση Θαλάσσιας Ρομποτικής Πλατφόρμας με χρήση Μεθόδων Ενισχυτικής Μάθησης. Κωνσταντίνο Τζιορτζιώτη
Αυτόνομη Πλοήγηση Θαλάσσιας Ρομποτικής Πλατφόρμας με χρήση Μεθόδων Ενισχυτικής Μάθησης Η Μεταπτυχιακή Εργασία Εξειδίκευσης υποβάλλεται στην ορισθείσα από τη Γενική Συνέλευση Ειδικής Σύνθεσης του Τμήματος
Διαβάστε περισσότεραMean bond enthalpy Standard enthalpy of formation Bond N H N N N N H O O O
Q1. (a) Explain the meaning of the terms mean bond enthalpy and standard enthalpy of formation. Mean bond enthalpy... Standard enthalpy of formation... (5) (b) Some mean bond enthalpies are given below.
Διαβάστε περισσότεραMatrices and Determinants
Matrices and Determinants SUBJECTIVE PROBLEMS: Q 1. For what value of k do the following system of equations possess a non-trivial (i.e., not all zero) solution over the set of rationals Q? x + ky + 3z
Διαβάστε περισσότεραIntroduction to the ML Estimation of ARMA processes
Introduction to the ML Estimation of ARMA processes Eduardo Rossi University of Pavia October 2013 Rossi ARMA Estimation Financial Econometrics - 2013 1 / 1 We consider the AR(p) model: Y t = c + φ 1 Y
Διαβάστε περισσότεραSolutions to Exercise Sheet 5
Solutions to Eercise Sheet 5 jacques@ucsd.edu. Let X and Y be random variables with joint pdf f(, y) = 3y( + y) where and y. Determine each of the following probabilities. Solutions. a. P (X ). b. P (X
Διαβάστε περισσότεραΠαράλληλος προγραμματισμός περιστροφικών αλγορίθμων εξωτερικών σημείων τύπου simplex ΠΛΟΣΚΑΣ ΝΙΚΟΛΑΟΣ
Παράλληλος προγραμματισμός περιστροφικών αλγορίθμων εξωτερικών σημείων τύπου simplex ΠΛΟΣΚΑΣ ΝΙΚΟΛΑΟΣ Διπλωματική Εργασία Μεταπτυχιακού Προγράμματος στην Εφαρμοσμένη Πληροφορική Κατεύθυνση: Συστήματα Υπολογιστών
Διαβάστε περισσότερα6. MAXIMUM LIKELIHOOD ESTIMATION
6 MAXIMUM LIKELIHOOD ESIMAION [1] Maximum Likelihood Estimator (1) Cases in which θ (unknown parameter) is scalar Notational Clarification: From now on, we denote the true value of θ as θ o hen, view θ
Διαβάστε περισσότεραΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ. Ψηφιακή Οικονομία. Διάλεξη 10η: Basics of Game Theory part 2 Mαρίνα Μπιτσάκη Τμήμα Επιστήμης Υπολογιστών
ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ Ψηφιακή Οικονομία Διάλεξη 0η: Basics of Game Theory part 2 Mαρίνα Μπιτσάκη Τμήμα Επιστήμης Υπολογιστών Best Response Curves Used to solve for equilibria in games
Διαβάστε περισσότεραΨηφιακή Οικονομία. Διάλεξη 11η: Markets and Strategic Interaction in Networks Mαρίνα Μπιτσάκη Τμήμα Επιστήμης Υπολογιστών
ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ Ψηφιακή Οικονομία Διάλεξη 11η: Markets and Strategic Interaction in Networks Mαρίνα Μπιτσάκη Τμήμα Επιστήμης Υπολογιστών Course Outline Part II: Mathematical Tools
Διαβάστε περισσότεραWritten Examination. Antennas and Propagation (AA ) April 26, 2017.
Written Examination Antennas and Propagation (AA. 6-7) April 6, 7. Problem ( points) Let us consider a wire antenna as in Fig. characterized by a z-oriented linear filamentary current I(z) = I cos(kz)ẑ
Διαβάστε περισσότεραExample Sheet 3 Solutions
Example Sheet 3 Solutions. i Regular Sturm-Liouville. ii Singular Sturm-Liouville mixed boundary conditions. iii Not Sturm-Liouville ODE is not in Sturm-Liouville form. iv Regular Sturm-Liouville note
Διαβάστε περισσότεραFSM Toolkit Exercises
ΠΟΛΥΤΕΧΝΕΙΟ ΚΡΗΤΗΣ Τμήμα Ηλεκτρονικών Μηχανικών και Μηχανικών Υπολογιστών Τομέας Τηλεπικοινωνιών Αναπληρωτής Καθηγητής: Αλέξανδρος Ποταμιάνος Ονοματεπώνυμο: Α Μ : ΗΜΕΡΟΜΗΝΙΑ: ΤΗΛ 413 : Συστήματα Επικοινωνίας
Διαβάστε περισσότεραΠανεπιστήμιο Δυτικής Μακεδονίας. Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών. Τεχνητή Νοημοσύνη. Ενότητα 2: Αναζήτηση (Search)
Τμήμα Μηχανικών Πληροφορικής & Τηλεπικοινωνιών Τεχνητή Νοημοσύνη Ενότητα 2: Αναζήτηση (Search) Αν. καθηγητής Στεργίου Κωνσταντίνος kstergiou@uowm.gr Τμήμα Μηχανικών Πληροφορικής και Τηλεπικοινωνιών Άδειες
Διαβάστε περισσότεραFractional Colorings and Zykov Products of graphs
Fractional Colorings and Zykov Products of graphs Who? Nichole Schimanski When? July 27, 2011 Graphs A graph, G, consists of a vertex set, V (G), and an edge set, E(G). V (G) is any finite set E(G) is
Διαβάστε περισσότεραSecond Order RLC Filters
ECEN 60 Circuits/Electronics Spring 007-0-07 P. Mathys Second Order RLC Filters RLC Lowpass Filter A passive RLC lowpass filter (LPF) circuit is shown in the following schematic. R L C v O (t) Using phasor
Διαβάστε περισσότεραLecture 2: Dirac notation and a review of linear algebra Read Sakurai chapter 1, Baym chatper 3
Lecture 2: Dirac notation and a review of linear algebra Read Sakurai chapter 1, Baym chatper 3 1 State vector space and the dual space Space of wavefunctions The space of wavefunctions is the set of all
Διαβάστε περισσότεραΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ. Ψηφιακή Οικονομία. Διάλεξη 7η: Consumer Behavior Mαρίνα Μπιτσάκη Τμήμα Επιστήμης Υπολογιστών
ΕΛΛΗΝΙΚΗ ΔΗΜΟΚΡΑΤΙΑ ΠΑΝΕΠΙΣΤΗΜΙΟ ΚΡΗΤΗΣ Ψηφιακή Οικονομία Διάλεξη 7η: Consumer Behavior Mαρίνα Μπιτσάκη Τμήμα Επιστήμης Υπολογιστών Τέλος Ενότητας Χρηματοδότηση Το παρόν εκπαιδευτικό υλικό έχει αναπτυχθεί
Διαβάστε περισσότεραΠΛΗ 405 Τεχνητή Νοηµοσύνη
ΠΛΗ 405 Τεχνητή Νοηµοσύνη Πράκτορες και Περιβάλλοντα Αναζήτηση Τµήµα Ηλεκτρονικών Μηχανικών και Μηχανικών Υ ολογιστών Πολυτεχνείο Κρήτης Ε ανάληψη Ορισµοί της Τεχνητής Νοηµοσύνης κριτήρια νοηµοσύνης Καταβολές
Διαβάστε περισσότεραSupplementary Materials for Evolutionary Multiobjective Optimization Based Multimodal Optimization: Fitness Landscape Approximation and Peak Detection
IEEE TRANSACTIONS ON EVOLUTIONARY COMPUTATION, VOL. XX, NO. X, XXXX XXXX Supplementary Materials for Evolutionary Multiobjective Optimization Based Multimodal Optimization: Fitness Landscape Approximation
Διαβάστε περισσότερα