David Silver深度强化学习
深度学习介绍
大纲
- 关于课程
- 关于深度强化学习
- 深度强化学习问题
- 深入RL代理
- 深度强化学习的问题
关于课程(省略作业,考核等信息)
书籍:
■ An Introduction to Reinforcement Learning. Sutton and Barto. 1998
免费网络版(404)
免费网络版
Second edition in progress
■ Algorithms for Reinforcement Learning, Szepescari
Morgan and Claypool, 2010
免费网络版
关于深度强化学习
工程、计科、神经、心理学、经济学(博弈论)、数学的交叉问题
DRL特性:
反馈具有延时,无立即反馈
无监督,仅使用奖励方式
高维数据输入
深度强化学习问题
- 奖励信号Rt
- 指导代理在t步行为
定义(回报假说)
目标可以被描述为最大化激励反馈
飞控奖励示例
- 做期望特技得到正信号
- 坠毁得到负信号
投资示例 - 余额变化量作为信号
序列决策
目标:最大化预期总收益
动作可能具有长期意义
激励延迟
牺牲短期收益换取长期收益代理与环境
代理:接收观测Ot和激励Rt,输出动作At
环境:受动作At影响,提交观测Ot和激励Rt过去和状态
过去由观测、动作、激励组成。
$$ H_t=A_1,O_1,R_1,…,A_t,O_t,R_t $$
所有可观测变量取决于时间t
多代理系统不在课程讨论范围
马尔可夫决策过程
马尔可夫激励过程
马尔可夫决策过程
马尔可夫决策过程拓展
动态规划
介绍
什么是动态规划
- 动态:认为问题具有某种时间/顺序特性
- 动态规划:解决问题的方法,通过拆分问题解决子问题、结合子问题的答案。
需要满足的要求
- 最优化结构
问题可拆分、答案可组合
问题:评估策略π
方案:贝尔曼方程迭代
$$ \Pi\Pi\pi\frac{a}{a} $$
策略评估
策略迭代
值迭代
DP拓展
映射
免模型预测
- 介绍
- 蒙特卡洛学习
- TD(差分)学习
- TD(x)
介绍
上一课:
- 动规计划
- MDP解决
本课: - 免模型预测
- 评估未知MDP的值函数
下一课: - 免模型控制
- 优化未知MDP的值函数
蒙特卡洛学习
从回放片段中学习
无模型:不需要MDP转换/激励的知识
从完整片段学习:无bootstrapping
激励机制简单:优化值函数
警告:仅适用于episodic MDPs
- 全部片段必须已经完成