斯坦福NLP课程 | 第2讲 - 词向量进阶

作者：韩信子@ShowMeAI，路遥@ShowMeAI，奇异果@ShowMeAI

教程地址：http://www.showmeai.tech/tutorials/36

本文地址：http://www.showmeai.tech/article-detail/233

收藏ShowMeAI查看更多精彩内容

ShowMeAI为斯坦福CS224n《自然语言处理与深度学习(Natural Language Processing with Deep Learning)》课程的全部课件，做了中文翻译和注释，并制作成了GIF动图！

本讲内容的深度总结教程可以在这里查看。视频和课件等资料的获取方式见文末。

引言

CS224n是顶级院校斯坦福出品的深度学习与自然语言处理方向专业课程。核心内容覆盖RNN、LSTM、CNN、transformer、bert、问答、摘要、文本生成、语言模型、阅读理解等前沿内容。

本篇是ShowMeAI对第2课的内容梳理，内容覆盖词嵌入/词向量，word vectors和word senses。

本篇内容覆盖

word2vec与词向量回顾
算法优化基础
计数与共现矩阵
GloVe模型
词向量评估
word senses

1.word2vec与词向量回顾

1.1 复习：word2vec的主要思想

我们来回顾一下ShowMeAI上一篇 1.NLP介绍与词向量初步提到的word2vec模型核心知识

模型会遍历整个语料库中的每个单词
使用中心单词向量预测周围的单词（Skip-Gram）

P(o | c)=frac{exp left(u_{o}^{T} v_{c}right)}{sum_{w in V} exp left(u_{w}^{T} v_{c}right)}

更新向量（参数）以便更好地预测上下文

1.2 Word2vec参数和计算

我们对word2vec的参数和训练细节等做一个补充讲解：

U 、 V 矩阵，每行代表一个单词的词向量，点乘后得到的分数通过softmax映射为概率分布。得到的概率分布是对于该中心词而言的上下文中单词的概率分布，该分布与上下文所在的具体位置无关，所以在每个位置的预测都是一样的。
the、and、that、of等停用词，是每个单词点乘后得到的较大概率的单词，去掉这一部分可以使词向量效果更好。

1.3 word2vec训练得到的词向量分布体现语义相似度

经过word2vec最大化目标函数后，通过可视化可以发现，相似的词汇在词向量空间里是比较接近的。

1.4 优化算法：梯度下降

ShowMeAI在上一篇 1.NLP介绍与词向量初步讲解了需要最小化的代价函数 J(theta) ，我们使用梯度下降算法最小化 J(theta)

遵循梯度下降的一般思路，我们计算 J(theta) 对于参数 theta 的梯度，然后朝着负梯度的方向迈进一小步，并不断重复这个过程，如图所示。

注意：我们实际的目标函数可能不是下图这样的凸函数

2.算法优化基础

2.1 梯度下降算法

更新参数的公式（矩阵化写法）

theta^{new}=theta^{old}-alpha nabla_{theta} J(theta)

alpha ：步长，也叫学习率
更新参数的公式（单个参数更新）

theta_{j}^{new}=theta_{j}^{old}-alpha frac{partial}{partial theta_{j}^{old}} J(theta)

2.2 词向量随机梯度下降法

梯度下降会一次性使用所有数据样本进行参数更新，对应到我们当前的词向量建模问题，就是 J(theta) 的计算需要基于语料库所有的样本(窗口)，数据规模非常大

计算非常耗资源
计算时间太长

处理方式是把优化算法调整为「随机梯度下降算法」，即在单个样本里计算和更新参数，并遍历所有样本。

但基于单个样本更新会表现为参数震荡很厉害，收敛过程并不平稳，所以很多时候我们会改为使用mini-batch gradient descent（具体可以参考ShowMeAI的深度学习教程中文章神经网络优化算法）

Mini-batch具有以下优点：通过batch平均，减少梯度估计的噪音；在GPU上并行化运算，加快运算速度。

2.3 词向量建模中的随机梯度下降

应用随机梯度下降，在每个窗口计算和更新参数，遍历所有样本
在每个窗口内，我们最多只有 2m 1 个词，因此 nabla_{theta} J_t(theta) 是非常稀疏的

上面提到的稀疏性问题，一种解决方式是我们只更新实际出现的向量

需要稀疏矩阵更新操作来只更新矩阵 U 和 V 中的特定行
需要保留单词向量的哈希/散列

如果有数百万个单词向量，并且进行分布式计算，我们无需再传输巨大的更新信息（数据传输有成本）

2.4 Word2vec的更多细节

word2vec有两个模型变体：

1.Skip-grams (SG)：输入中心词并预测上下文中的单词
2.Continuous Bag of Words (CBOW)：输入上下文中的单词并预测中心词

之前一直使用naive的softmax(简单但代价很高的训练方法)，其实可以使用负采样方法加快训练速率

2.5 负例采样的skip-gram模型（作业2）

这个部分大家也可以参考ShowMeAI的深度学习教程中文章自然语言处理与词嵌入

softmax中用于归一化的分母的计算代价太高

P(o | c)=frac{exp left(u_{o}^{T} v_{c}right)}{sum_{w in V} exp left(u_{w}^{T} v_{c}right)}

我们将在作业2中实现使用 negative sampling/负例采样方法的 skip-gram 模型。
使用一个 true pair (中心词及其上下文窗口中的词)与几个 noise pair (中心词与随机词搭配) 形成的样本，训练二元逻辑回归。

原文中的(最大化)目标函数是 J(theta)=frac{1}{T} sum_{t=1}^{T} J_{t}(theta)

J_{t}(theta)=log sigmaleft(u_{o}^{T} v_{c}right) sum_{i=1}^{k} mathbb{E}_{j sim P(w)}left[log sigmaleft(-u_{j}^{T} v_{c}right)right]

左侧为sigmoid函数(大家会在后续的内容里经常见到它)
我们要最大化2个词共现的概率

本课以及作业中的目标函数是

J_{neg-sample}left(boldsymbol{o}, boldsymbol{v}_{c}, boldsymbol{U}right)=-log left(sigmaleft(boldsymbol{u}_{o}^{top} boldsymbol{v}_{c}right)right)-sum_{k=1}^{K} log left(sigmaleft(-boldsymbol{u}_{k}^{top} boldsymbol{v}_{c}right)right)

我们取 k 个负例采样
最大化窗口中包围「中心词」的这些词语出现的概率，而最小化其他没有出现的随机词的概率

P(w)=U(w)^{3 / 4} / Z

我们用左侧的公式进行抽样，其中 U(w) 是 unigram 分布
通过 3/4 次方，相对减少常见单词的频率，增大稀有词的概率
Z 用于生成概率分布

3.计数与共现矩阵

3.1 共现矩阵与词向量构建

在自然语言处理里另外一个构建词向量的思路是借助于共现矩阵（我们设其为 X ），我们有两种方式，可以基于窗口（window）或者全文档（full document）统计：

Window ：与word2vec类似，在每个单词周围都使用Window，包括语法(POS)和语义信息
Word-document 共现矩阵的基本假设是在同一篇文章中出现的单词更有可能相互关联。假设单词 i 出现在文章 j 中，则矩阵元素 X_{ij} 加一，当我们处理完数据库中的所有文章后，就得到了矩阵 X ，其大小为 |V|times M ，其中 |V| 为词汇量，而 M 为文章数。这一构建单词文章co-occurrence matrix的方法也是经典的Latent Semantic Analysis所采用的【语义分析】。

3.2 基于窗口的共现矩阵示例

利用某个定长窗口(通常取5-10)中单词与单词同时出现的次数，来产生基于窗口的共现矩阵。

下面以窗口长度为1来举例，假设我们的数据包含以下几个句子：

I like deep learning.
I like NLP.
I enjoy flying.

我们可以得到如下的词词共现矩阵（word-word co-occurrence matrix）

3.3 基于直接的共现矩阵构建词向量的问题

直接基于共现矩阵构建词向量，会有一些明显的问题，如下：

使用共现次数衡量单词的相似性，但是会随着词汇量的增加而增大矩阵的大小。
需要很多空间来存储这一高维矩阵。
后续的分类模型也会由于矩阵的稀疏性而存在稀疏性问题，使得效果不佳。

3.4 解决方案：低维向量

针对上述问题，我们的一个处理方式是降维，获得低维稠密向量。

通常降维到(25-1000)维，和word2vec类似

如何降维呢？

3.5 方法1：对X进行降维（作业1）

可以使用SVD方法将共现矩阵 X 分解为 U Sigma V^T ，其中：

Sigma 是对角线矩阵，对角线上的值是矩阵的奇异值
U , V 是对应于行和列的正交基

为了减少尺度同时尽量保存有效信息，可保留对角矩阵的最大的 k 个值，并将矩阵 U , V 的相应的行列保留。

这是经典的线性代数算法，对于大型矩阵而言，计算代价昂贵。

3.6 词向量SVD分解的python代码示例

python矩阵分解示例如下

降维词向量可视化

3.7 #论文讲解

Hacks to X (several used in Rohde et al. 2005)

按比例调整 counts 会很有效

对高频词进行缩放(语法有太多的影响)
- 使用log进行缩放
- min(X, t), t approx 100
- 直接全部忽视
在基于window的计数中，提高更加接近的单词的计数
使用Person相关系数

3.8 词向量分布探究

如果对词向量进行空间分布，会发现同一个词汇的附近分布着它不同时态语态的单词：

drive to driver
swim to swimmer
teach to teacher

在向量中出现的有趣的句法模式：语义向量基本上是线性组件，虽然有一些摆动，但是基本是存在动词和动词实施者的方向。

3.9 基于计数 VS. 基于预估

我们来总结一下基于共现矩阵计数和基于预估模型两种得到词向量的方式

基于计数：使用整个矩阵的全局统计数据来直接估计

优点：训练快速；统计数据高效利用
缺点：主要用于捕捉单词相似性；对大量数据给予比例失调的重视

基于预估模型：定义概率分布并试图预测单词

优点：提高其他任务的性能；能捕获除了单词相似性以外的复杂的模式
缺点：随语料库增大会增大规模；统计数据的低效使用（采样是对统计数据的低效使用）

4.GloVe模型

4.1 #论文讲解

1）Encoding meaning in vector differences

将两个流派的想法结合起来，在神经网络中使用计数矩阵。关于Glove的理论分析需要阅读原文，也可以阅读 NLP教程(2) | GloVe及词向量的训练与评估。

GloVe模型关键思想：共现概率的比值可以对meaning component进行编码。将两个流派的想法结合起来，在神经网络中使用计数矩阵。

补充讲解：

重点不是单一的概率大小，重点是他们之间的比值，其中蕴含着重要的信息成分。

例如我们想区分热力学上两种不同状态ice冰与蒸汽steam，它们之间的关系可通过与不同的单词 x 的共现概率的比值来描述
例如对于solid固态，虽然 P(solid mid ice) 与 P(solid mid steam) 本身很小，不能透露有效的信息，但是它们的比值 frac{P(solid mid ice)}{P(solid mid steam)} 却较大，因为solid更常用来描述ice的状态而不是steam的状态，所以在ice的上下文中出现几率较大
对于gas则恰恰相反，而对于water这种描述ice与steam均可或者fashion这种与两者都没什么联系的单词，则比值接近于 1 。所以相较于单纯的共现概率，实际上共现概率的相对比值更有意义