21岁华人本科生,凭什么拿下CVPR 2020最佳论文提名?

2020-07-24 10:14:40 浏览数 (1)

金磊 发自 凹非寺 量子位 报道 | 公众号 QbitAI

在训练神经网络的时候,经常会出现「缺数据」的情况。

这时候,就需要「数据增强」来获取更多数据。而近几年,镜像反转成了最为常用的方法之一。

转一次,获得2倍数据,真香!

然而,事情却没有想像中的那么简单——当翻转了数据集里所有的图片时,神经网络所拟合的函数,还能代表原先的图像分布么?

针对这一问题,来自康奈尔大学的研究员,首次挑战了常规神经网络训练中,图片「翻转不变性」(flip-invariant) 的这一假设。

研究的题目叫做视觉手性 (Visual Chirality),并在CVPR 2020中获得了最佳论文提名

注:手性的定义为「一个物体无法与其镜像相重合」。「视觉手性」一词启发自手性,意指「计算机视觉领域中图像分布与其镜像分布的区别」。

而该研究的一作,是此届CVPR大会上年纪最小的获奖者,年仅21岁的华人科研新秀——林之秋。

这项研究在多种领域(人脸,互联网图片,数字处理图像)上利用卷积神经网络,发现了许多常人难以捕捉的「视觉手性」线索。

通过自监督训练,在多项数据集上达到了60%,甚至到90%的精度。

镜像翻转的图像,能不变?

为了理解这一镜像翻转话题,我们先来看下这样的一个例子:

在上面这张图中,你能判断出哪些图像被翻转了吗?答案如下:

  • 图一:镜像翻转(线索:文字)。我们可以很容易看出来文字被翻转过了。
  • 图二:没有翻转(线索:纽扣)。男士衬衫的纽扣一般位于身体右侧。
  • 图三:镜像翻转(线索:吉他)。吉他手的主手应当在吉他右侧。

镜像翻转对于人类而言并没有多少区别(如图二和图三),因而难以判断。

然而,神经网络却可以通过自监督训练的方法在这个任务上达到非常高的精度,并能指出图片中哪些区域可以被用于识别镜像翻转。

手性代表着单个图片的翻转不对称性,而视觉手性 (Visual Chirality)则是针对图像分布所定义的翻转不对称性。

当一个图像分布具备视觉手性时,使用镜像翻转作为数据增强方法,将不可避免的改变一个数据集所代表的分布。

换句话说,只有当一个图像分布不具备视觉手性的时候,才能在不改变原先图像分布的前提下,使用镜像翻转来增强数据集。

然而,视觉手性是大部分视觉领域都拥有的属性。正如此篇文章作者,谷歌AI科学家Noah Snavely教授所说:

在计算机视觉的研究中,我们常把这个世界视为”翻转不变“的,镜像翻转因而是一个常规的数据增强方法。 然而,当你翻转图片后,文字将被颠倒,左手变为右手,而螺旋意大利面也将朝相反方向旋转。

那么,这项研究又是如何挑战了,人们先前在计算机视觉中,对于「翻转不变性」假设的呢?

实验过程

这项研究利用了自监督学习方法来训练卷积神经网络。

对于任何一个数据集,只需要将其原有的图片标记为「无翻转」,并将镜像翻转过的图片标记为「有翻转」,即可训练神经网络识别镜像翻转这个二分类任务(binary classification)。

同时,可以根据神经网络在验证集的表现,来评估这一图像分布是否具备视觉手性:

如果验证集上的精度要显著大于50%,便有充足的证据来证明视觉手性的存在。

这项研究利用了ResNet-50作为基本的网络结构,并使用SGD方法来训练网络。

为了了解神经网络学到了哪些视觉手性线索,研究人员利用了类激活映射(CAM:Class Activation Map)方法,在原有图片上对于视觉手性敏感的区域进行了高亮。

同时因为能造成视觉手性的现象有很多,研究人员还推出了一个简单的基于类激活映射的聚类方法——手性特征聚类 (Chiral Feature Clustering)。

互联网图片集上,神经网络在镜像翻转识别上取得了高达60%-80%的精度。

研究人员在Instagram图片集上进行了手性特征聚类,并挑选了一系列与人们生活相关的典型视觉手性现象进行讨论。

  • 手机:对着镜子自拍是人们最爱做的事。此类照片具有视觉手性,因为手机的摄像头一般固定在手机背面的一侧(因品牌而异),同时由于多数人是右撇子,一般都以右手持手机进行自拍。
  • 吉他:几乎大多数的吉他手都以右手拨弦,左手持把。
  • 手表:手表一般都被带在人们的右手侧。

为了深入了解人脸的视觉手性现象,研究人员在人脸数据集上进行了孤立训练。

在Flickr-Faces-HQ (FFHQ)人脸数据集上进行了训练,并在测试集上取得了高达81%的精度,还利用手性特征聚类对人脸中的视觉手性现象进行了初步的探讨:

  • 刘海分界处:人们一般用右手来分理刘海,这会导致刘海的朝向向一侧偏移,并出现视觉手性现象。
  • 眼睛:人们在看向物体时倾向于用一只主视眼进行瞄准,这样会导致人们的目光在进行拍摄时出现偏移。多数人的主视眼为右眼,而这一现象可能是导致视觉手性现象的成因。
  • 胡子:与头发一样,可能与人们习惯于用右手理胡子有关。

文中对以上的视觉手性现象的讨论均为初步的分析,而人脸中任有大量的视觉手性线索值得被发掘。

除此之外,研究人员还对数字图像处理过程 (例如去马赛克和图片压缩)中产生的视觉手性现象进行了分析。

举个例子,当研究人员首次利用神经网络,在Instagram数据集上进行自监督训练时,发现没有使用随机剪裁(random cropping)的神经网络。

但在部分图片上,类激活映射所得到的热图更着重关注图片的边缘部分,如下图所示:

而在使用随机剪裁之后,研究人员得到的新的热图,则更关注来自于图片中物体本身的线索。

研究人员提出:当数字图像处理过程和镜像翻转不具备「交换律」时,视觉手性将会凭空产生在一个图像分布上。

作者通过概率论与群论(group theory),对此假设进行了严谨的数学论证,并通过神经网络实验验证了这一现象在互联网图片中广泛存在。

而此类的线索往往不能被肉眼可见,却在图片中存在固定的模式,因而为图像识伪的应用创造了可能性。

98年华人科学新秀

这项研究的第一作者,是98年生的华人科学新秀——林之秋。

林之秋17岁便考入美国“常春藤”盟校——康奈尔大学,而这也是他「开挂人生」的开始。

林之秋仅用两年时间就全部修完计算机和数学两个专业的本科课程,并从大二开始选修博士课程,同时跟随计算机系的教授从事科研工作。

他在多项专业课上,例如多元微积分、线性代数、高等抽象代数、人工智能、计算机操作系统等都取得过第一名。

由于成绩极为优异,自大二起林之秋就接受计算机系里邀请,以助教身份给高年级同学讲课,为康奈尔科技学院编写硕士生的预修课程,甚至在高阶机器学习课上给博士生的试卷打分。

而这篇「CVPR 2020最佳论文提名」的研究,是林之秋从大二就开始着手准备的项目,这也显示了他「超级大学霸」的真实实力。

如今,本科毕业的林之秋,总成绩在学院数千名学生中名列前三,并受院长邀请在毕业典礼上代表学院举旗。之后,他即将前往卡内基梅隆机器人学院,攻读计算机视觉博士学位。

在此,也预祝林之秋同学,能够在科研的道路上,继续乘风破浪!

传送门

文章链接: https://arxiv.org/abs/2006.09512

文章网站: http://visual-chirality.io

代码链接: https://github.com/linzhiqiu/digital_chirality

0 人点赞