AI入门笔记-循环序列模型
第一周 循环序列模型
第二周 自然语言处理与词嵌入
2.1 词汇表征
每个词有下标,按概念将词分类,加速机器学习(学到苹果汁,会用西瓜汁)
2.2 使用词嵌入
1、从大量级文本学习词嵌入(或下载预训练模型)。
2、将模型嵌入少量标记文本训练,适用于迁移到小训练集。
3、优化:用新数据持续调优
- 仅训练集较小时微调词嵌入获得明显效果
2.3 词嵌入的特性
E|男人|女人|国王|王后|苹果|橘子 - –|:–:|:–:|:–:|:–:|:–:|:–:
性别|-1|1|-0.95|0.97|0|0.01
皇权|0.01|0.02|0.93|0.95|-0.01|0
年龄|0.03|0.02|0.7|0.69|0.03|-0.02
食物|0.09|0.01|0.02|0.01|0.95|0.97
由以上词关系有
$$E_男-E_女≈E_王-E_后$$余弦相似度:
可以推断常见逻辑关系:
$$E_男-E_女≈E_王-E_?$$
求解使用最大化参数
$$Sim(E_w,E_王-E_男+E_女)$$
使用足够大的语料库进行学习,即可推断出词语之间关系如(¥-中国 $-美国)2.4 嵌入矩阵
有嵌入矩阵E(10000*300)[……]
One-hot向量(10000*1)[0 0 0 0 … 1 … 0]
E*O_j可取得词对应的300个属性相关性,称E_j为词j的嵌入词向量
由于E中0太多,矩阵计算浪费资源,实际使用中用函数找出E_j而不是矩阵计算
2.5 学习词嵌入
1 | 直接讲解目前使用的简单算法不利于学习,老师准备由(实现)复杂而易于理解的开始。 |
I want a glass of orange ________
1 | I 43 -> E -> E_43 |o| |