图灵奖背后:他们 30 年前就选对了赛道,押对了场景

2019-11-29 10:58:34 浏览数 (1)

By 超神经

场景描述:获得图灵奖的必要条件之一,就是对于计算机领域有着重大的研究突破,和对社会的重要贡献。三位前辈之所以能够让获奖实至名归,也是因为他们不仅在科研上取得了巨大的学术突破,同样在现实场景问题的实践解决上,走在了最前端。

关键词:手写识别 自动驾驶 图片分割

图灵奖自 1966 年设立以来,多数奖励了为计算机事业作出重要贡献的个人。

深度学习领域内的三位大佬 ,收获了 2018 年计算机行业最高荣誉——图灵奖。对于他们的获奖,称得上是实至名归。在经历了深度学习的不被理解和不受重视,到如今几乎遍地开花的应用,他们在这项技术的革新和推动上,有着功不可没的影响力。

关于他们的报道和成就,在此就不予赘述,我们将讲述这三位顶级学者,在他们面临研究生涯里的重要转折点,是如何锚定自己的研究方向的。

LeCun 的当家技术,缘起银行支票

促使 LeCun 投身手写识别,其实是一个基于机缘巧合的项目。当时正当壮年的 LeCun 在贝尔实验室(当时还从属于 AT&T 公司旗下)担任小组负责人,AT&T 作为当时最顶尖的通信技术企业,计划于美国的各大银行合作尽行新的研究项目。

其中最令银行头疼的一个问题,是如何识别大量手写的支票与票据。在当时的年代,识别手写的字符是一项艰难的挑战,传统的方法很慢而且识别率不高。

Lecun 将反向传播算法融入卷积神经网络( CNN ),利用美国邮局提供的近万个手写数字样本来训练系统,最终在实际测试的过程中,错误率只有 5 % 。

将手写字符通过变换转化成规整的图像

紧接着,这一创新性的技术,被用在多家银行 ATM 的支票识别系统,在 20 世纪 90 年代末期,这个系统处理了美国 10% 到 20% 支票的识别。

Lecun 的这个研究首次提出了 CNN ,在当时的环境下,取得了商用级别的正确率。证明了深度神经网络在图像处理上具有天然的优势。

但当时的技术和硬件上,深度网络的发展仍有很多的弊病,比如算力跟不上。尽管该算法取得巨大的成功,但是它在数据集上训练时间长达三天。

在此后的一段时间里, AI 又遭遇了冷遇,加上支持向量机( SVM )的易用性,深度学习并没有被重视起来,反而是被视作旁门左道的技术。

论文地址:

http://yann.lecun.com/exdb/publis/pdf/lecun-89e.pdf

LeCun 又寻自动驾驶新场景

直到 2006 年,在 Yoshua Bengio , Yann LeCun, Geoffrey Hinton 等人长期的坚持和推动下,加上一些新的观点和方法融入,这个原本不被大多数人看重的技术,慢慢的在绽放自己的光芒。

2006 也被称为深度学习元年,Hinton 解决了之前遇到的难题:深层网络中的梯度消失问题。

跳跃到 2009 至 2010 年,Lecun 和纽约大学合作了一项实验,通过深度学习的技术,从图片中识别出建筑,天空,道路,行人以及车辆。

成果展示

图像识别的关键步骤是场景解析,包括标记图像中每个元素与它相对应的类别,然后是划分区域和标记。这个步骤的挑战是,它结合了传统的检测问题,分割和多标签识别处理。

为了达到良好的视觉分类以及准确性,他们使用卷积神经网络。在研究中,论证了一个前馈卷积网络,通过受监督的端到端训练方式,从大尺寸图向中提取原始像素的多种尺度,在标准场景解析数据集上得到了当时最领先的水平。

成果展示

值得一提的是,这个模型没有依靠特征工程,而是使用监督式学习,从完全标记的图像进行训练以适当学习低级和中级功能。

论文地址:

http://yann.lecun.com/exdb/publis/pdf/farabet-pami-13.pdf

谷歌的最佳公关:Hinton 和糖尿病

如果说从 2006 年,深度学习逐渐吸引了更多的研究者,那么进入 2012 年之后,它的发展正式进入了快速的模式。

2012 年,Hinton 带领的团队在 ImageNet 大赛上,用深度神经网络的方法,在图片识别上一骑绝尘。

2016 年,基于深度学习的 AlphGo 击败李世石,深度学习也让 AI 被很多人所熟知。在沉寂了多年之后,深度学习正式进入爆发期,它在视觉处理,语音识别等多个领域的潜力完全彰显了出来。

一个很小的例子:在 2017 年, Geoffrey Hinton 带领谷歌大脑用一种新的分类方法,辅助医疗诊断。通过给个体标签建模来提高分类能力,同时也展示了通过采用这种标记方法,提升了计算机辅助诊断糖尿病导致视网膜病变的准确度。

不同类别的样本图像

这种创新的方法,用来处理那些数量巨大的、需要借助专家来标记标签的现实数据。

在当时,给数据集进行标记的任务通常是由许多专家分工完成,每位专家只标记其中一小部分数据而同一个数据点又包含有多位专家所标记的标签。

这样的做法有助于减少个人工作量,还有助于揭开数据中难以发现的真相。当专家们对同一个数据点的标签存在不同意见时,标准的做法是将获得更多专家支持的标签作为正确的标签,或者将正确的标签进行建模以获得分布状态。

但是,这样的做法忽视了有关于哪些专家标记了哪些标签这一潜在的有效信息。比如有独特专长的专家发现的情况,可能因为别人都不知晓而最终被算法忽略。

谷歌大脑团队提出要单独对专家进行建模,然后学习平均权重以组合这些信息,比如说可能是以样本特定的方式进行组合。通过这种方法,就能给更可靠的专家分配更多的权重,并利用个别专家的独特优势来对某些特定类型的数据进行分类。

不同的神经网络示意图

通过对深度神经网络的应用,他们将这个分类方法,改善了通过视网膜诊断糖尿病的诊断方式,想比于其他方法,他们提供的算法性能也更加优异。

论文地址:

https://arxiv.org/pdf/1703.08774.pdf

选对赛道,离图灵奖更近一些

2019 年 3 月 27 日,2018 年的图灵奖公布,深度学习的三位长期耕耘者 Yoshua Bengio, Geoffrey Hinton 和 Yann LeCun 获奖,理由是:他们对深度神经网络的发展起到了至关重要的作用。

大佬的成功可以复制?

诚然,在深度学习的发展道路上,他们三人的贡献诸多不胜枚举,文中所列举的三个场景,仅仅是他们成功的契机之一。我们能看到得奖后的光荣,但对于他们,最珍贵的应该是对自己所相信的赛道与技术,几十年如一日的投入和热忱。

超神经小百科

深度学习 Deep learning

深度学习是机器学习中一种基于对数据进行表征学习的算法。它是以人工神经网络为架构,对数据进行表征学习的算法。

观测值(例如一幅图像)可以使用多种方式来表示,如每个像素强度值的向量,或者更抽象地表示成一系列边、特定形状的区域等。而使用某些特定的表示方法更容易从实例中学习任务(例如,人脸识别或面部表情识别 )。

深度学习的优点是用非监督式或半监督式的特征学习和分层特征提取高效算法来替代手工获取特征。

目前有多着种深度学习框架,如深度神经网络、卷积神经网络和深度置信网络和递归神经网络,它们已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域,并获取了极大的突破。

0 人点赞