AI 研习社按:今天为大家带来硅谷深度学习网红 Siraj 的一则教学视频:如何从零开始构建一个图像分类器来对猫和狗进行分类。(内心OS:终于要开始图像部分了!)具体视频内容如下,Github 链接详见文末“阅读原文”。 为了照顾没有 WiFi 的小伙伴,我们特别提供了以下根据视频内容整理的文字版(hin 贴心有木有!):
图像分类发展历史
在80年代和90年代初出现了一些不同的尝试,都用了类似的方法——根据图片的构成特征来给每张图片手动编码进行分类,但变量实在太多了——世界上没有相同的两片叶子。所以结果往往错的很离谱,因此图像分类被视为只有人类才能胜任的工作。
但1998年,一个叫Yann Lecun的研究者介绍了一个称为卷积神经网络(CNN)的模型,字符分类的正确率达到了99% ,打破了各项纪录。
2012年,一个叫Alex Krizhevsky的研究,用CNN参加了一年一度的ImageNet竞赛——这是计算机视觉领域的年度奥运——它对几千张图片的分类正确率达到了85%,创造了新记录。此后谷歌把CNN用于搜索中的图片识别,Facebook则把它用于自动标注,这些功能现在都很火。
构建图像分类器
Step 1:收集数据
首先要从kaggle下载一个图像数据集,包括猫狗在内的1024张图片,每张都在自己的文件夹里,然后用Keras深度学习库进行演示——Keras是在TensorFlow之上的高级包装类,因为可以给每个层定义一个自己的代码行,使模型构建变得更加直观。
Step 2:建立模型
首先,要初始化训练数据和验证数据的变量,然后就可以构建模型了。要利用时序函数初始化这类模型,这个模型可以构造一个线性堆叠层,所以将每个层视为将数据馈送到下一个层的对象。另一类是图模型,它允许多个独立的输入和输出。
接下来添加第一层——卷积层。CNN的第一层总是卷积层,输入值是32×32×3像素数组。3指的是RGB值。该数组中的数值都为0到255,描述的是像素强度(灰度值),它是给出像素数组作为输入CNN就能给出它是某一类别的概率。可以把卷积层想象成一个手电筒,照在图像的左上方。手电筒滑过输入图像的所有区域。手电筒是我们的过滤器,其照射的区域是感受野(Receptive field)
过滤器也是数组。这些数字是某一特定层的权值。可以把过滤器当作一个特征识别器。当过滤器滑动或对输入进行卷积时,它的值与图像中的像素值相乘,这些被称为元素乘法。然后对每个区域的乘积求和。在覆盖图像的所有部分之后得到特征映射。
由于权值是随机初始化的,过滤器不能一开始就检测到具体特征,但在训练期间 CNN能让过滤器学习一些值。所以第一个过滤器会学习检测一些低级的特征,如曲线。因此,如果将过滤器放置在含有曲线的图像的一部分上,乘积和求和的结果值会相当大;但如果我们将其放在图像中没有曲线的部分,结果值则为零。这就是过滤器检测特征的方法。
接下来我们将通过ReLU(修正线性单元)激活层来传递此特征映射。ReLu也是一个非线性的操作,可以将特征映射中的所有负像素值用零代替。也可以用其他函数,但大多数情况下ReLu往往表现更好。
激活层增加了模型的非线性特征,这意味着神经网络能够学习比线性回归更复杂的函数。之后我们将初始化最大池化层。池化降低了每个特征映射的维数,但保留最重要的信息,这就降低了网络计算的复杂程度。
池化也有不同的方式,在这个例子中我们用的是最大值(Max)的方式。在我们画圈的窗口内,从修正的特征映射中挑出最大元素值,并且在该特征映射的每个区域上滑动此窗口挑出最大值。
所以一个经典的CNN架构看起来就像这样:三个卷积块后面跟着一个全连接层。已经初始化了前三层,这个过程基本上只能再重复两次。输出的特征映射就被馈送到下一个卷积层,而这一层的过滤器将会学习检测更多的抽象特征,如爪子和脚印。
我们将使用Dropout来防止过拟合。当训练过拟合时模型便无法预测新数据的标签,Dropout层可以drop out一组随机的激活函数,当数据传递至激活函数时将其置零。
为了准备数据的dropout,我们先将特征映射降成为一维,然后用密度函数初始化全连接层,并对该层应用修正线性单元(ReLu)。Dropout后再初始化一个全连接层,然后它会输出一个n维向量,n指的是类的数量,所以n是2,并且把n维向量用sigmoid函数变换一下,它就把数据变成了每个类的概率。
那么网络是怎么学习的呢?损失函数衡量的是目标输出与期望输出的差异。想要最小化损失函数,,要算出损失函数关于每一层权值的导数,计算出我们想要的网络更新的方向,将反向一层一层地传播损失,然后更新每个过滤器的权值,这样它们就能按照最小化损失函数的梯度方向进行修改。
使用编译方法来计算学习过程。这里把损失函数定义为二进制交叉熵,通常都用它定义二进制分类问题的损失函数,优化器是rmsprop——它是做梯度下降,因为这是一个分类问题,度量指标设置为accuracy。
Step 3:训练模型
最后写出拟合函数来训练模型,给出训练参数和验证数据以及每个样本的运行次数,然后保存权值,就可以在后面用我们训练过的模型了。
总体的准确率约为70%,和人的注意力差不多。如果给模型一张新的狗或猫的图片,它就差不多能正确预测。
预测改进的两个方法:
- 可以用更多的图片
- 用自己的网络来扩充现有的预训练网络,即迁移学习(transfer learning)。
总结本节课重点如下:
- 卷积神经网络受到人类视觉皮层的启发,并且能实现最先进的图像分类;
- CNN在每个卷积层上通过学习得到的过滤器,可以检测到越来越抽象的特征;
- 可以用Keras和TensorFlow轻而易举地建造模型。