Riproduzione automatica
Completamento automatico
HTML5
Flash
Player
velocità
Lezione precedente
Completa e continua
Fondamenti di Reinforcement Learning (parte1)
Intro al Reinforcement Learning
Presentazione del mini degree Reinforcement Learning (10:36)
Cos'è il Reinforcement Learning (58:16)
State, Observability e Distribution Model (74:23)
Policy and Value (40:22)
Esercitazione : intro to GYM (49:01)
Esercitazione: mondo griglia (31:43)
MDP
MDP: Markov Decision Processes (55:21)
MDP: Exercises (64:35)
Catene di Markov (19:25)
Multi-armed bandit (38:26)
Return e Decisions (52:19)
State-Value Bellman Equation (97:48)
Prediction and Control in Dynamic Programming
Cos'è la dynamic programming? (72:08)
Dynamic Programming: Improvement (83:10)
Value Iteration: Prediction, Improvement and Control (68:14)
Convergence: Contraction Mapping Theorem (31:36)
Esercitazione: Dynamic Programming (16:40)
Value Iteration: Prediction, Improvement and Control
Contenuto della lezione bloccato
Se sei già iscritto,
devi effettuare il login
.
Iscriviti a Corso per sbloccarlo