0%

David Silver深度强化学习

发表于 2019-04-19 更新于 2020-11-25

深度学习介绍

大纲

关于课程
关于深度强化学习
深度强化学习问题
深入RL代理
深度强化学习的问题

关于课程（省略作业，考核等信息）

书籍：
■ An Introduction to Reinforcement Learning. Sutton and Barto. 1998
免费网络版（404）
免费网络版
Second edition in progress

■ Algorithms for Reinforcement Learning, Szepescari
Morgan and Claypool, 2010
免费网络版

关于深度强化学习

工程、计科、神经、心理学、经济学（博弈论）、数学的交叉问题
DRL特性：
反馈具有延时，无立即反馈
无监督，仅使用奖励方式
高维数据输入

深度强化学习问题

奖励信号R_t
指导代理在t步行为

定义（回报假说）
目标可以被描述为最大化激励反馈

飞控奖励示例

做期望特技得到正信号
坠毁得到负信号
投资示例
余额变化量作为信号
序列决策
目标：最大化预期总收益
动作可能具有长期意义
激励延迟
牺牲短期收益换取长期收益
代理与环境
代理：接收观测O_t和激励R_t，输出动作A_t
环境：受动作A_t影响，提交观测O_t和激励R_t
过去和状态
过去由观测、动作、激励组成。
$$ H_t=A_1,O_1,R_1,…,A_t,O_t,R_t $$
所有可观测变量取决于时间t

多代理系统不在课程讨论范围

马尔可夫决策过程

马尔可夫过程
马尔可夫激励过程
马尔可夫决策过程
马尔可夫决策过程拓展
马尔可夫过程
简介

马尔可夫激励过程

马尔可夫决策过程

马尔可夫决策过程拓展

动态规划

介绍

什么是动态规划

动态：认为问题具有某种时间/顺序特性
动态规划：解决问题的方法，通过拆分问题解决子问题、结合子问题的答案。

需要满足的要求

最优化结构

问题可拆分、答案可组合
问题：评估策略π
方案：贝尔曼方程迭代

$$ \Pi\Pi\pi\frac{a}{a} $$

策略评估

策略迭代

值迭代

DP拓展

映射

免模型预测

介绍
蒙特卡洛学习
TD(差分)学习
TD(x)

介绍

上一课：

动规计划
MDP解决
本课：
免模型预测
评估未知MDP的值函数
下一课：
免模型控制
优化未知MDP的值函数
蒙特卡洛学习

从回放片段中学习
无模型：不需要MDP转换/激励的知识
从完整片段学习：无bootstrapping
激励机制简单：优化值函数

警告：仅适用于episodic MDPs

全部片段必须已经完成