David Silver深度强化学习

深度学习介绍

大纲

  • 关于课程
  • 关于深度强化学习
  • 深度强化学习问题
  • 深入RL代理
  • 深度强化学习的问题

关于课程(省略作业,考核等信息)

书籍:
■ An Introduction to Reinforcement Learning. Sutton and Barto. 1998
免费网络版(404)
免费网络版
Second edition in progress

■ Algorithms for Reinforcement Learning, Szepescari
Morgan and Claypool, 2010
免费网络版


关于深度强化学习

工程、计科、神经、心理学、经济学(博弈论)、数学的交叉问题
DRL特性:
反馈具有延时,无立即反馈
无监督,仅使用奖励方式
高维数据输入


深度强化学习问题

  • 奖励信号Rt
  • 指导代理在t步行为

    定义(回报假说)
    目标可以被描述为最大化激励反馈

飞控奖励示例

  • 做期望特技得到正信号
  • 坠毁得到负信号
    投资示例
  • 余额变化量作为信号

    序列决策

    目标:最大化预期总收益
    动作可能具有长期意义
    激励延迟
    牺牲短期收益换取长期收益

    代理与环境

    代理:接收观测Ot和激励Rt,输出动作At
    环境:受动作At影响,提交观测Ot和激励Rt

    过去和状态

    过去由观测、动作、激励组成。
    $$ H_t=A_1,O_1,R_1,…,A_t,O_t,R_t $$
    所有可观测变量取决于时间t

多代理系统不在课程讨论范围

马尔可夫决策过程

  • 马尔可夫过程
  • 马尔可夫激励过程
  • 马尔可夫决策过程
  • 马尔可夫决策过程拓展

    马尔可夫过程

    简介

马尔可夫激励过程

马尔可夫决策过程

马尔可夫决策过程拓展

动态规划

介绍

什么是动态规划

  • 动态:认为问题具有某种时间/顺序特性
  • 动态规划:解决问题的方法,通过拆分问题解决子问题、结合子问题的答案。

需要满足的要求

  • 最优化结构

    问题可拆分、答案可组合
    问题:评估策略π
    方案:贝尔曼方程迭代

$$ \Pi\Pi\pi\frac{a}{a} $$

策略评估

策略迭代

值迭代

DP拓展

映射

免模型预测

  • 介绍
  • 蒙特卡洛学习
  • TD(差分)学习
  • TD(x)

介绍

上一课:

  • 动规计划
  • MDP解决
    本课:
  • 免模型预测
  • 评估未知MDP的值函数
    下一课:
  • 免模型控制
  • 优化未知MDP的值函数

    蒙特卡洛学习

    从回放片段中学习
    无模型:不需要MDP转换/激励的知识
    从完整片段学习:无bootstrapping
    激励机制简单:优化值函数

警告:仅适用于episodic MDPs

  • 全部片段必须已经完成