deeplearningai读书笔记(一)

2019-09-27 09:40:43 浏览数 (1)

神经网络权值初始化方案

0值初始话:初始化网络的所有权值为0,在反向传播的而过程中由于权重系数都为0导致所有的维度权重相同,此时每一层退化为只有一个神经元。

随机初始化:采用均值为1,方差为0的随机正太分布作并且很小的数据来初始化权值,这解决了网络退化为一个神经元的问题,但是另一方面,网络很深后,整个网络的梯度小时就变得特别严重。

Xavier初始化:当激活函数为tanh(x)时候的的初始化方案,解决随机初始化梯度消失的问题,当时另一方面它只适用于tanh(x)的情况,当激活函数为Relu的时候学习效率变得很低。

He初始化:当激活函数为Relu(x)时候的的初始化方案。

基于编码-解码(Encoder-Decoder)的序列到序列架构,又叫做seq2seq模型

seq2seq模型seq2seq模型

思想:

seq2seq模型主要应用在机器翻译等领域,在进行机器翻译时,我们都知道比如中文翻译成英文的时候,翻译之后的英文和中文一般是不相等的,这个时候用seq2seq模型就很有优势了,他是RNN的一个典型变种,R x M形状的,即我们的翻译分为两个阶段,encoder阶段,结构先将输入数据编码成一个上下文向量c:

encoderencoder

得到c的方法有很多,最简单的方法就是把Encoder的最后一个隐状态赋值给c,还可以对最后的隐状态做一个变换得到c,也可以对所有的隐状态做变换。

比如:

得到c的变换函数得到c的变换函数

得到c之后就用另一个rnn网络对c进行解码:

decoderdecoder

应用

由于这种Encoder-Decoder结构不限制输入和输出的序列长度,因此应用的范围非常广泛,比如:

机器翻译。Encoder-Decoder的最经典应用,事实上这一结构就是在机器翻译领域最先提出的

文本摘要。输入是一段文本序列,输出是这段文本序列的摘要序列。

阅读理解。将输入的文章和问题分别编码,再对其进行解码得到问题的答案。

语音识别。输入是语音信号序列,输出是文字序列。

0 人点赞