AI入门笔记-循环序列模型

第一周 循环序列模型

第二周 自然语言处理与词嵌入

2.1 词汇表征

每个词有下标,按概念将词分类,加速机器学习(学到苹果汁,会用西瓜汁)

2.2 使用词嵌入

1、从大量级文本学习词嵌入(或下载预训练模型)。

2、将模型嵌入少量标记文本训练,适用于迁移到小训练集。

3、优化:用新数据持续调优

  • 仅训练集较小时微调词嵌入获得明显效果

    2.3 词嵌入的特性

    E|男人|女人|国王|王后|苹果|橘子
  • –|:–:|:–:|:–:|:–:|:–:|:–:
    性别|-1|1|-0.95|0.97|0|0.01
    皇权|0.01|0.02|0.93|0.95|-0.01|0
    年龄|0.03|0.02|0.7|0.69|0.03|-0.02
    食物|0.09|0.01|0.02|0.01|0.95|0.97
    由以上词关系有
    $$E_男-E_女≈E_王-E_后$$

    余弦相似度

    可以推断常见逻辑关系:
    $$E_男-E_女≈E_王-E_?$$
    求解使用最大化参数
    $$Sim(E_w,E_王-E_男+E_女)$$
    使用足够大的语料库进行学习,即可推断出词语之间关系如(¥-中国 $-美国)

    2.4 嵌入矩阵

    有嵌入矩阵E(10000*300)[……]

One-hot向量(10000*1)[0 0 0 0 … 1 … 0]

E*O_j可取得词对应的300个属性相关性,称E_j为词j的嵌入词向量

由于E中0太多,矩阵计算浪费资源,实际使用中用函数找出E_j而不是矩阵计算

2.5 学习词嵌入

1
直接讲解目前使用的简单算法不利于学习,老师准备由(实现)复杂而易于理解的开始。

I want a glass of orange ________

1
2
3
4
5
6
I	43	->	E	->	E_43	|o|
want 96 -> E -> E_96 |0|
a 1 -> E -> E_1 |0| -> O Softmax
glass 38 -> E -> E_38 |0| -> 10000
of 61 -> E -> E_61 |0|
orange 62 -> E -> E_62 |0|

2.6 Word2Vec

2.7 负采样

2.8 GloVe 词向量

2.9 情绪分类

2.10 词嵌入除偏

第三周 序列模型和注意