Notes for Reinforcement learning

2016-06-30 posted in [学习]

上个月跟着silver的视频学了一下RL，最近看的时候感觉全忘了..于是重新整理了一下笔记，以便忘了的时候翻翻..

introduction

第一讲介绍了RL的一些基本概念，比如Reward，Agent，Environment，state，action，policy，value function和model。概念比较简单，就不写了。

这讲介绍了MRP和MDP的基本定义.主要需要掌握：

详见手写笔记.. MRP MRP MRP

这讲主要介绍用DP算法来解决MDP的planning问题，包括prediction和control： prediction是给定MDP的model和policy，求出value function；而control是给定MDP的model，求出最优的policy.

DP的解决方案（synchronous和asynchronous）：

For Prediction:
1. iterative policy evaluation
For Control:
1. Policy Iteration
2. Generalised Policy Iteration
3. Value iteration

最后总结了DP的优点特点及不足。

详见手写笔记.. MRP MRP MRP