02.改善深层神经网络:超参数调试、正则化以及优化 W3. 超参数调试、Batch Norm和程序框架

2021-02-19 14:55:43 浏览数 (1)

文章目录

    • 1. 调试处理
    • 2. 为超参数选择合适的范围
    • 3. 超参数调试的实践
    • 4. 归一化网络的激活函数
    • 5. 将 Batch Norm 拟合进神经网络
    • 6. Batch Norm 为什么奏效
    • 7. 测试时的 Batch Norm
    • 8. Softmax 回归
    • 9. 训练一个 Softmax 分类器
    • 10. 深度学习框架
    • 11. TensorFlow
    • 作业

参考: 吴恩达视频课 深度学习笔记

1. 调试处理

需要处理的参数:

  • 在深度学习领域,常采用随机选点进行参数搜索(试验了更多的不同的超参数值)
  • 由粗糙到精细的策略(集中计算资源到可能更优的小区域进行更密集的搜索)

2. 为超参数选择合适的范围

随机取值,并不是在范围内均匀取值

  • 使用对数标尺搜索超参数的方式会更合理

如果你使用均匀取值,应用从粗到细的搜索方法,取足够多的数值,最后也会得到不错的结果

3. 超参数调试的实践

  • 在数据更新后,要重新评估超参数是否依然合适
  • 没有计算资源,你可以试验一个或者少量的模型,不断的调试和观察效果
  • 如果有计算资源,尽管试验不同参数的模型,最后选择一个最好的

4. 归一化网络的激活函数

Batch归一化 会使你的参数搜索问题变得很容易,使神经网络对超参数的选择更加稳定,超参数的范围会更加庞大,工作效果也很好,也会使你的训练更加容易

5. 将 Batch Norm 拟合进神经网络

前向传播:

计算完前一层的输出,先进行归一化,再计算激活函数值

6. Batch Norm 为什么奏效

原因1,使得输入特征、隐藏单元的值获得类似的范围,可以加速学习

原因2,在前面层输入值改变的情况下,BN 使得他们的均值和方差不变(更稳定),即使输入分布改变了一些,它会改变得更少。 它减弱前层参数的作用与后层参数的作用之间的联系,它使得网络每层都可以自己学习,稍稍独立于其它层,这有助于加速整个网络的学习

BN 有轻微的正则化效果,因为它在 mini-batch 上计算的均值和方差是有小的噪声,给隐藏单元添加了噪声,迫使后部单元过分依赖任何一个隐藏单元(类似于 dropout)。 因为添加的噪声很微小,所以正则化效果也很小

当增大 mini-batch size ,那么噪声会降低,因此正则化效果减弱

不要把 Batch归一化当作正则化 把它当作将你归一化隐藏单元激活值并加速学习的方式

注意: Batch归一化一次只能处理一个mini-batch数据

7. 测试时的 Batch Norm

  • 指数加权平均来估算,这个平均数涵盖了所有 mini-batch(训练过程中计算 μ,σ2 的加权平均)
  • 其他合理的方法也可以,比如对整个训练集进行估计 μ,σ2

使用 Batch归一化,你能够训练更深的网络,学习算法运行速度更快

8. Softmax 回归

可以用于多分类问题

Softmax 激活函数:

Softmax 激活函数需要将所有可能的输出归一化,需要输入一个向量,最后输出一个向量

9. 训练一个 Softmax 分类器

Softmax分类可以运用学习算法将输入分成不止两类,而是 C 个不同类别

10. 深度学习框架

Caffe/Caffe2 CNTK DL4J Keras Lasagne mxnet Paddlepaddle TensorFlow Theano Torch

选择标准:

  • 便于编程,包括神经网络的开发和迭代,还包括为产品进行配置,为巨大的用户的实际使用考虑
  • 运行速度,特别是训练大数据集时,一些框架能让你更高效地运行和训练神经网络
  • 框架是否真的开放,不仅需要开源,而且需要良好的管理。

程序框架 通过提供比数值线性代数库更高程度的抽象化,让你在开发深度学习应用时更加高效

11. TensorFlow

不安装TF,直接在Google Colab 编程

代码语言:javascript复制
import numpy as np
import tensorflow as tf
import tensorflow.compat.v1 as tf # 防止1.0版本语句报错
tf.disable_v2_behavior()
代码语言:javascript复制
# 定义参数w
w = tf.Variable(0, dtype=tf.float32)

# 定义损失函数 w**2-10w 25
# cost = tf.add(tf.add(w**2,tf.multiply(-10.,w)),25)
# 以下写法也是可以的
cost = w**2-10*w 25

# 0.01的学习率,目标是最小化损失函数
# train 为学习算法,使用梯度下降
train = tf.train.GradientDescentOptimizer(0.01).minimize(cost)

# 初始化
init = tf.global_variables_initializer()

# 开启 tf session
session = tf.Session()

# 初始化全局变量
session.run(init)

# 让tf评估一个变量
session.run(train) # 运行一次梯度下降
print(session.run(w)) # 打印w的现在的值 0.099999994

# 运行1000次梯度下降迭代
for i in range(1000):
    session.run(train)
print(session.run(w)) # 4.999988 很接近最优值5了
代码语言:javascript复制
# 定义参数w
w = tf.Variable(0, dtype=tf.float32)

# 定义损失函数 w**2-10w 25
# cost = tf.add(tf.add(w**2,tf.multiply(-10.,w)),25)
# 以下写法也是可以的
# cost = w**2-10*w 25

# 上面是对固定的函数而言的
# 给上面的函数添加变化的3个系数(placeholder,稍后给你数据)
x = tf.placeholder(tf.float32, [3,1])
cost = x[0][0]*w**2   x[1][0]*w   x[2][0]

# 定义系数 coeff 提供给 x
coefficient = np.array([[1.],[-10.],[25.]])

# 0.01的学习率,目标是最小化损失函数
# train 为学习算法,使用梯度下降
train = tf.train.GradientDescentOptimizer(0.01).minimize(cost)

# 初始化
init = tf.global_variables_initializer()

# 开启 tf session
session = tf.Session()

# 初始化全局变量
session.run(init)

# 让tf评估一个变量
session.run(train, feed_dict={x:coefficient}) # 运行一次梯度下降
print(session.run(w)) # 打印w的现在的值 0.099999994

# 运行1000次梯度下降迭代
for i in range(1000):
    session.run(train, feed_dict={x:coefficient})
print(session.run(w)) # 4.999988

TensorFlow中的placeholder是一个你之后会赋值的变量,这种方式便于把训练数据加入损失方程

运行训练迭代,用feed_dict来让x=coefficients。 如果在做mini-batch梯度下降,在每次迭代时,需要插入不同的mini-batch,那么每次迭代,你就用feed_dict来喂入训练集的不同子集,把不同的mini-batch喂入损失函数需要数据的地方

TensorFlow如此强大,只需说明如何计算损失函数,它就能求导,用一两行代码就能运用梯度优化器,Adam优化器 或 其他优化器

0 人点赞