AI入门笔记-改善深层神经网络:超参数调试、正则化以及优化

第一周 机器学习(ML)策略(1)

1.1 为什么是 ML 策略

1.2 正交化

减少dev 误差(方差)的方法

1.3 单一数字评估指标

1.4 满足和优化指标

满足指标必须达到,但超过多少无所谓.
优化指标无上下线。

1.5 训练 / 开发 / 测试集划分

1.6 开发集合测试集的大小

1.7 什么时候该改变开发 / 测试集和指标

1.8 为什么是人的表现

当表现低于人类时可用的方法

  • 使用人类标记的数据
  • 人工误差分析
  • 偏差/方差分析

    1.9 可避免偏差

    可避免偏差为网络和贝叶斯误差之间的差值

    1.10 理解人的表现

1.11 超过人的表现

  • 广告推荐
  • 产品推荐
  • 贷款预测

大量数据使机器超过人类

1.12 改善模型表现

人——训练集:可避免

加大网络
加长训练时间/优化算法(momnutm/RMSProp/Adam)
神经网络架构/超参数搜索
训练集-开发集:方差
增加数据
正则化(L2/丢弃/数据增强)
神经网络架构/超参数搜索

第二周 机器学习(ML)策略(2)

2.1 进行误差分析

对出错例子进行分类分析,统计方法得出各类型所占比例。
从而得知解决某个问题理论可以得到的最大性能提升,评估优化方向的价值。
这个部分需要人工处理

2.2 清楚标注错误的数据

2.3 快速搭建你的第一个系统,并进行迭代

针对问题的优化,可以使用在开发集、测试集上添加更多特异性数据,构成不同分布的图实现优化。

2.4 在不同的划分上进行训练并测试

2.5 不匹配数据划分的偏差和方差

2.6 定位数据不匹配

2.7 迁移学习

2.8 多任务学习

2.9 什么是端到端的深度学习

2.10 是否要使用端到端的

优点:

  • 让数据说话-允许计算机使用自己的方式处理数据
  • 人力消耗少
    缺点:
  • 需要大量数据
  • 不可使用人工组件