Notes for Reinforcement learning
Notes for Reinforcement learning
上个月跟着silver的视频学了一下RL,最近看的时候感觉全忘了..于是重新整理了一下笔记,以便忘了的时候翻翻..
introduction
第一讲介绍了RL的一些基本概念,比如Reward,Agent,Environment,state,action,policy,value function和model。 概念比较简单,就不写了。
MRP and MDP
这讲介绍了MRP和MDP的基本定义.主要需要掌握:
- MRP
- Return
- state-value function
- bellman equation
- MDP
- policy
- state-value function and action-value function
- bellman equation
- optimal state-value function and optimal action-value function
- bellman optimality equation
详见手写笔记..
Planning by DP
这讲主要介绍用DP算法来解决MDP的planning问题,包括prediction和control: prediction是给定MDP的model和policy,求出value function; 而control是给定MDP的model,求出最优的policy.
DP的解决方案(synchronous和asynchronous):
- For Prediction:
- iterative policy evaluation
- For Control:
- Policy Iteration
- Generalised Policy Iteration
- Value iteration
最后总结了DP的优点特点及不足。
详见手写笔记..