论文精读| 附源代码及数据集 | LeCun的CNN经典之作 | Gradient-Based Learning…

2020-08-04 15:18:29 浏览数 (1)

论文介绍

作者:Yann LeCun, Leon Bottou, Yoshua Bengio, and Partrick Haffner

全文和源代码下载,公众号回复:20180423

作者简介

Yann LeCun,生于1960年,是一位机器学习、计算机视觉、机器人、计算神经科学领域的计算机科学家。他被大家所熟知的是在非光学字符识别和利用卷积神经网络(CNN)实现计算视觉方面的工作,是CNN之父。他也是DjVu图像压缩技术的主要创造者之一。他与Léon Bottou.共同开发了Lush编程语言。

(from Wikipedia)

特别说明

这篇文章非常具有代表意义,是LeCun在1998年发布的大名鼎鼎的LeNet,在这里LeCun发了一篇46页的论文,第一次喊出了卷积网(Convolutional network)的口号,并且把结果同各种方法做了一个比较,基本唯一能抗衡的就是V-SVM poly9,结果祭出大杀器Boost,Boosted LeNet-4,以0.1%的优势干掉了SVM。

摘要

利用反向传播算法训练的多层神经网络成为了基于梯度学习技术的应用非常成功的最佳案例。给出一个比较合适的网络结构,基于梯度的学习算法可以用来形成一个复杂的决策曲面,可以基于很少的预处理实现对手写字体识别这样的高维模式进行分类。这篇文章综述了识别手写字体的各种不同方法,并在一个标准的数据集上进行了对比。卷积神经网络经过特定设计后,在处理各种2D图形时跑赢了其他方法。

真实的文档识别同是由多种模块组成的,包括字段抽取、分割、识别和语言建模。以各种学习范式叫做图像转换网络(GTN),可以让这样的多模块系统通过基于梯度的方法进行全局训练,从而实现综合性能指标的最优化。

以上描述的两个在线手写体识别系统,通过试验证明了全局训练的好处,以及GTN的灵活性。

文中介绍了一种用于识别银行支票的GTN方法。它使用了CNN字体识别联合全局训练技术,实现商业和个人支票的记录精度。这套方法已经实现了商业部署,每天处理几百万张支票。

文章结构

本次精读重点关心的是LeNet部分的内容,涉及1-3章,其余部分不做介绍,感兴趣的小伙伴可以自行阅读。

精华内容

知识点1:自动学习可以实现比手工设计启发方式更好的模式识别系统。

这是作者在整篇文章中方法的核心理念,这种方式也是随着机器学习方法和计算机技术的发展而变得可行的。

知识点2:从数据中学习的路径

数值方法或者叫基于梯度的学习方法是神经网络社区在90年代最为流行、最成功的方法,正是这个方法使得从数据中进行学习成为可能。即使今日,主流学习方法仍然是基于梯度学习的演化方法。更加高效的学习方法仍在探索之中。

该方法的核心是将训练误差和测试误差的最小化。

知识点3:梯度学习

计算机科学很多问题的根源是如何对一个函数中参数集合最优化的问题。梯度学习方式使得对连续平滑函数的最优化变得更加容易。

知识点4:梯度反向传播

该方法在1950年就已经提出来,但真正广为使用源于三个重要事件的发生。

1.损失函数的局部极值问题在实践中并没有造成真正的困扰

2.一个简单有效计算非线性系统中多层结构中梯度的方法的流行,该方法由Rumelhart, Hinton和Williams等人提出

3.反向传播过程在带有sigmoidal单元的多层神经网络的复杂学习任务中的有效性得到证明

知识点5:全局训练方法

不同于当时传统的多模块系统,提出了基于偏微分方程的全局训练方法。

知识点6:卷积网络

卷积网络结构的三个核心思想保证了数据在变换、缩放和扭曲情况下的一致性。基于此思想,提出了LeNet-5的网络结构,包括卷积层、池化层、全连接层、损失函数等内容。在此不对网络进行详细阐述,感兴趣可以参见文章P7-9页。

1.局部感知场

2.权重共享(或者叫权重复制)

3.空间或时间上的二次采样

知识点7:各种方法之间的对比

最终结果之中对比了当时各种主流分类器的精度。特定设计的Boosted LeNet-4以0.7的错误率优于V-SVM poly 9方法的0.8错误率。各个方法的详细说明参见文章P10-14页。

知识点8:对于噪声的抗干扰能力

特别讨论了在实际场景中,CNN网络对于图像变形、缩放、扭曲等情况下的高度抗干扰能力,大大由于传统方法。使得图像识别方法的实际应用变得更加可行。

0 人点赞