本文转载至知乎ID：Charles（白露未晞）知乎个人专栏

导语

本文将在此基础上介绍LSTM网络。最后举一个类似“Python学写作”的例子来实现文本生成，如生成诗歌、小说等等。

让我们愉快地开始吧~~~

参考文献

Understanding LSTM Networks：

http://colah.github.io/posts/2015-08-Understanding-LSTMs/

开发工具

Python版本：3.6.4

相关模块：

tensorflow-gpu模块；

numpy模块；

以及一些Python自带的模块。

其中TensorFlow-GPU版本为：

1.7.0

环境搭建

安装Python并添加到环境变量，pip安装需要的相关模块即可。

另外，TensorFlow-GPU的环境搭建请自行参考相关的网络教程，注意版本和驱动严格对应即可。

原理介绍

一. RNNs

人们的思维总是具有延续性的，比如当你阅读这篇文章时，你对每个词的理解都会依赖于你前面看到的一些词，而不是把你前面看的内容全部抛弃，再去理解每个词。而传统的神经网络(CNN)无法做到这一点，因此有了循环神经网络(RNNs)。

在RNNs中，存在循环操作，使得它们能够保留之前学习到的内容：

在上图网络结构中，对于矩形块A的那部分，通过输入Xt(t时刻的特征向量)，它会输出一个结果ht(t时刻的状态或者输出)，网络中的循环结构使得当前状态作为下一时刻输入的一部分。

将RNNs在时间步上进行展开，就可以得到下图：

也就是“Python实现简单的机器翻译模型”一文中所使用的RNNs链状的结构。显然，这样的结构是有利于处理序列相关问题的。近年来，其在语音识别、语言翻译等等领域都取得了巨大的成功。

而RNNs的成功，主要归功于LSTMs这种特殊RNNs结构的使用，而非普通的RNNs结构。

二. LSTMs

全称为Long Short Term Memory networks.

即长短期记忆网络。

普通RNNs的局限性在于当我们所要预测的内容和相关信息之间的间隔很大时，普通RNNs很难去把它们关联起来：

尽管从理论上来讲，只要参数合适，还是可以解决长时期依赖关系无法很好联系这一问题的，但具体实现起来似乎并不容易，至少目前为止是不容易的。

幸运的是，LSTMs能够很好地解决这一问题。它被设计的初衷就是为了能够记住长时期内的信息。

循环神经网络是由相同结构的神经网络模块进行复制而形成的。在标准的RNNs中，神经网络模块的结构非常简单，比如可以由单一的tanh层构成：

LSTMs也有类似的结构，不过神经网络模块的结构变得相对复杂了一些：

接下来，我们来详细介绍一下这个结构。首先，我们来定义一下用到的符号：

粉红色的圈：

代表向量加之类的逐点操作；

黄色矩形框：

代表神经网络层；

普通的线：

用于携带并传递向量；

合并的线：

代表对两条线上所携带的向量进行合并；

分开的线：

代表将线上所携带的向量复制后传给两个地方。

2.1 LSTMs的核心思想

假设一个绿色的框就是一个cell。

向量通过结构图最上面的那条贯穿cell的水平线穿过整个cell，而cell仅对其做了少量的线性操作：

显然，这样的结构能够很轻松地让信息从整个cell中穿过而不发生变化。

当然，只有一条水平线是无法实现添加或者删除信息的，也就是实现让信息有选择地通过cell，这需要通过一种叫做门(gates)的结构来实现。

门结构主要由一个sigmoid神经网络层和一个逐点相乘的操作来实现：

sigmoid层输出的向量每个元素都是介于0和1之间的实数，表示此时通过的信息的权重，当其为0时表示“此时不让任何信息通过”，为1时表示“此时让所有信息通过”。每个LSTM都有三个这样的门结构，来实现保护和控制信息。

2.2 逐步理解LSTM

遗忘门(forget gate layer)：

首先，LSTM需要决定哪些信息需要丢弃，哪些信息需要保留。这是通过一个叫做遗忘门的sigmoid层来实现的。它的输入是ht-1和xt，输出是一个数值都在0到1之间的向量，表示Ct-1中各部分信息的权重，0表示不让该部分信息通过，1表示让该部分信息全部通过。

具体而言，比如在语言模型中，我们要根据所有的上下文信息来预测下一个词。在这种情况下，每个cell的状态中都应该包含了当前主语的性别信息。这样，接下来我们才能够正确地使用代词。但是，当我们开始描述一个新的主语时，就应该把之前的主语性别给丢弃了才对。

传入门(input gate layer)：

其次，LSTM将决定让哪些新的信息加入到cell的状态中来。该实现分两个步骤进行：

① 用一个tanh层生成一个备选向量，用于表示获得的所有可添加信息；

② 用一个叫做传入门的sigmoid层来决定步骤①中获得的可添加信息各自的权重。

具体而言，比如在语言模型中，我们需要把新主语的性别信息添加到cell状态中，来替换掉之前的主语性别信息。

有了遗忘门和传入门，我们就能够更新cell的状态了，即把Ct-1更新为Ct。

还是以语言模型为例，假设我们的模型刚输出了一个代词，接下来可能要输出一个动词，那么这个动词应该采用单数形式还是复数形式呢？显然，我们需要把代词相关的信息和当前的预测信息都加入到cell的状态中来，才能够进行正确的预测。

具体计算方式如下图所示：

输出门(Output)：

最后，我们需要决定输出值。输出值的计算方式为：

① 使用sigmoid层来决定/计算出Ct中的哪部分信息会被输出；

② 利用tanh层将Ct的取值压缩到-1到1之间；

③ 将tanh层的输出和sigmoid层的输出相乘即为最终的输出结果。

三. LSTMs的变种

① 将cell的状态作为门结构输入的一部分。

② 将遗忘门与传入门耦合，即不再分开决定要遗忘和添加的信息。

③ GRU

GRU模型“简化”了LSTM模型的设计，其中rt由LSTM中的遗忘门和传入门合并而得，称为重置门；zt为更新门，作用相当于LSTM中的输出门。

实际应用

为了贯彻理论与实践相结合的理念，本文将举一个简单的小例子，该例子使用的模型与“Python学写作”类似，本文不再作多余的介绍。

具体实现过程详见相关文件中的源代码。

使用演示

模型训练：

在cmd窗口运行'train.py'文件即可：

如有需要，可自行修改相关参数：

模型使用：

在cmd窗口运行“generate.py”文件即可。

注意模型参数需和train.py文件中的模型参数一致：

结果展示

生成英文文本：

以莎士比亚的作品为训练素材获得的结果：

生成中文文本：

以周杰伦的作品为训练素材获得的结果：

代码截止2018-06-24测试无误。

模型比较简单，有兴趣的朋友可以在此基础上进行优化，当然RNN的作用可不仅仅是文本生成哦~

以后有机会再举其他例子吧~~~

【Python】RNN实现文本生成

本文转载至知乎ID：Charles（白露未晞）知乎个人专栏

导语

参考文献

相关文件

开发工具

环境搭建

原理介绍

更多