/ wzp's garden / Notes for Reinforcement learning

Notes for Reinforcement learning

2016-06-30 posted in [学习]

Notes for Reinforcement learning

上个月跟着silver的视频学了一下RL,最近看的时候感觉全忘了..于是重新整理了一下笔记,以便忘了的时候翻翻..

silver的课程地址

introduction

第一讲介绍了RL的一些基本概念,比如Reward,Agent,Environment,state,action,policy,value function和model。 概念比较简单,就不写了。

MRP and MDP

这讲介绍了MRP和MDP的基本定义.主要需要掌握:

详见手写笔记.. MRP MRP MRP

Planning by DP

这讲主要介绍用DP算法来解决MDP的planning问题,包括prediction和control: prediction是给定MDP的model和policy,求出value function; 而control是给定MDP的model,求出最优的policy.

DP的解决方案(synchronous和asynchronous):

最后总结了DP的优点特点及不足。

详见手写笔记.. MRP MRP MRP