作者 | 杨晓凡
编辑 | Camel
前两天「AI科技评论」总结了 2019 年十大精彩 AI 学术论文,从学术价值的角度挑选了我们认为 2019 年里值得重读、值得纪念的机器学习论文。
在这篇文章里,我们会盘点 2019 年出现的新颖有趣、挑战传统观念的十篇机器学习论文。其中有的论文的学术价值如何还有待商榷、有的论文甚至直接把前人的许多研究成果一把推翻,但这些论文都新意满满。这十篇论文刚好可以归为 5 个不同的主题,每个主题两篇。
一、AI 更多领域、更多能力
[ 1 ]
论文:OpenAI MuseNet
上榜理由:2019 年年初,在声称「GPT-2 过于危险,不能公布预训练模型」并引发大规模口水仗之后,OpenAI 觉得 GPT-2 的能力不止如此,他们尝试的下一个任务是安全且喜闻乐见的音乐生成。基于 GPT-2 编写的 MuseNet 模型继承并进一步加强了长序列生成能力,使用的训练数据是包含了 10 种不同乐器的、分类为多种不同曲风的数十万个 MIDI 文件,也就是数十万个乐曲。(MIDI 文件是乐谱的数字表示,可以指定乐器但不含有乐器的音色信息,学习 MIDI 是明确地让模型学习作曲风格。)
用肖邦曲风续写 Adele 的《Some One Like You》,来自 OpenAI 技术博客
模型的效果是惊人的,OpenAI 不仅在直播中演示了许多风格各异、辨识度高、旋律自然的生成乐曲,他们还在介绍博客中提供了一个互动演示,可以从某首些知名乐曲中取一个小节作为开头,然后让模型以其他的风格续写,续写结果令人惊喜。还有好奇且有动手能力的网友们利用 OpenAI 提供的试验工具生成了更多乐曲,都印证了 MuseNet 确实有强大的作曲能力。
同期谷歌也在巴赫诞辰日做了一个模仿巴赫的作曲 AI(https://www.google.com/doodles/celebrating-johann-sebastian-bach),可以根据用户给出的音符,以巴赫的作曲风格增加和弦。这两个音乐 AI 的区别,除了巴赫 AI 只掌握巴赫的曲风之外,还在于巴赫 AI 是在已经给出的小节中继续增加音符形成和弦,而 OpenAI 的 MuseNet 是向后续写更多小节。
- 博客地址:openai.com/blog/musenet
- 详细阅读:这个AI能用Lady Gaga曲风续写贝多芬
[ 2 ]
论文:Newton vs the machine:solving the chaotic three-body problem using deep neural networks
深度神经网络求解三体运动问题
上榜理由:三体运动问题没有解析解早有定论,所以这篇论文公开之后也引发了一些批评,毕竟论文只是尝试了极为简化的情况(三个质量相等、初始速度为零的粒子在同一个平面内)、只是做到了接近的数值解就拿出来张扬,而且还宣称比计算精确解的专业软件快十万倍,对网络的能力有夸大吹捧之嫌。
这篇论文也有积极的一面。以深度学习为代表的机器学习手段确实在各种端到端的学习预测任务中得到了越来越多的运用,但其实深度学习的能力也不仅如此,它还可以在许多领域的更多任务中发挥作用,正如三体运动这样的复杂问题中我们缺少可以快速计算近似解的工具。
- 论文地址:https://arxiv.org/abs/1910.07291
- 解读文章:深度学习求解「三体」问题,计算速度提高一亿倍
二、深入认识我们习以为常的现象
[ 3 ]
论文:ImageNet-trained CNNs are biased towards texture; increasing shape bias improves accuracy and robustness ( ICLR 2019 )
在 ImageNet 上训练的 CNN 会带有纹理偏倚;增加形状偏倚可以提高准确度和鲁棒性
上榜理由:现代 CNN 网络有很强的特征表示学习能力,能在 ImageNet 上得到很高的识别准确率。不过,不断改进网络架构、不断刷分的人多,探究 CNN 到底学到了怎么样的特征表示的人少。按理说,对象识别的边界和纹理之争早就存在,不过我们终于还是在 2019 年看到了针对性的研究论文。
这篇论文中的实验表明,在 ImageNet 上训练的 CNN 网络在对象识别中依赖纹理远多于依赖形状;这其实和人类对自己的识别模式的认知有很大区别,也和我们对 CNN 工作方式的理解有所不同。作者们的结论有充分的实验支持,他们甚至用生成的风格转换数据集训练了依赖形状更多的 CNN,这样的 CNN 在识别准确率和鲁棒性方面都有提高。这篇论文被 ICLR 2019 接收。
- 论文地址:https://arxiv.org/abs/1811.12231
[ 4 ]
论文:Deep Double Descent: Where Bigger Models and More Data Hurt
研究深度双波谷:更大的模型和更多的数据有时会产生负面作用
上榜理由:2019 年中,包括 OpenAI 在内的一批学者「老调重谈」地再次讨论起模型复杂度和过拟合的问题来。机器学习界流传已久的观念是,随着模型的复杂度增大(学习能力提高),模型总能得到更小的训练误差,但测试误差和训练误差的差会越来越大(出现过拟合);所以模型复杂度不能太低、也不能太高,我们需要找到相对平衡的那个点。(上面的 U 型图)
但这两年来,一大批超级大、超级复杂的模型用实际行动表明了训练误差和测试误差都还可以一同持续下降。所以这次讨论形成的新共识是,我们需要在 U 型图的右侧继续扩充,用来表示现代的、大容量的深度学习模型在大小超过某个阈值之后,越大的模型会具有越好的泛化性。这样,整张图就形成了双波谷的样子(下图) —— 也就是说,当你的模型大小很不幸地落在中间的波峰的时候,你就会遇到模型越大、 数据越多反而表现越差的尴尬情境。
- 论文地址:https://arxiv.org/abs/1912.02292
三、一竿子捅翻领域共识
[ 5 ]
论文:Challenging Common Assumptions in the Unsupervised Learning of Disentangled Representations
挑战解耦表征的无监督学习中的共识
上榜理由:人类研究人员们相信,真实数据的多种多样的变化总是可以用一些关键因素的波动来解释;至于这些因素分别是什么,就可以用无监督学习的方式寻找解耦的表征,从而成功地揭示数据分布规律。这个方向目前已经有一些研究成果,研究人员们也已经形成了一些共识。
但这篇论文可以说把现阶段的大部分成果和假设一竿子全部打翻。作者们首先从理论上说明,如果不在模型和数据上都引入归纳偏倚,那么解耦表征的无监督学习本来就是不可能的。接着,作者们用大规模实验表明,虽然不同的方法都可以找到和选取的训练损失对应的性质,但只要没有监督,就训练不出能良好解耦的模型。除此之外,随着表征解耦程度的提高,学习下游任务的样本复杂度并没有跟着降低。这几点结论都和当前的解耦表征无监督学习的共识形成鲜明冲突,这个方向的研究人员们也许需要重新思考他们要从多大程度上从头来过。
作者们的建议是,未来的解耦学习研究需要分清人为引入的归纳偏倚和监督(即便是隐式的)两者分别的作用,需要探究通过人为选取的损失「强迫」模型学习解耦带来的收益到底大不大,以及要形成能在多个不同的数据集上测试、结果可复现的实验惯例。这篇论文被 ICML 2019 接收。
- 论文地址:https://arxiv.org/abs/1811.12359
[ 6 ]
论文:Uniform convergence may be unable to explain generalization in deep learning
收敛一致性可能解释不了深度学习中的泛化现象
上榜理由:为了探究深度学习泛化能力背后的原理,学术界提出了泛化边界的概念,然后尝试用「收敛一致性」理论推导、设计出了各种各样的泛化边界描述方法,似乎已经取得了不少成果。但这篇论文中作者们通过大量实验发现,虽然其中的许多泛化边界从数值角度看起来挺大,但随着训练数据集大小变大,这些泛化边界也会跟着变大。
在此基础上,作者们用过参数化的线性分类器和梯度下降训练的神经网络为例,证明了收敛一致性并不能解释模型的泛化性,即便完全考虑了梯度下降可能带来的隐式偏倚也解释不了。更严谨地说,作者们实验表明,根据收敛一致性得到的泛化边界要比根据梯度下降得到的泛化边界大得多。根据这一系列结果,作者们对「用基于收敛的方法解释泛化能力」的做法提出严重的质疑。虽然这篇论文并没能解决(也没打算解决)深度神经网络中的泛化性问题,但它显然为整个领域指出「此路不通,考虑重来」。这篇论文获得 NeurIPS 2019 杰出新方向论文奖。
- 论文地址:https://papers.nips.cc/paper/9336-uniform-convergence-may-be-unable-to-explain-generalization-in-deep-learning
四、打开新的方向
[ 7 ]
论文:On The Measure Of Intelligence
关于智慧的测量手段
上榜理由:虽然机器学习研究人员们总说通用人工智能是远大理想和努力方向,但「在固定的具体任务上跑分」的惯例实在看不出哪里和通用人工智能沾边了。谷歌大脑研究员、Keras 库作者 François Chollet 在日常抨击这种风气的同时,最近也公开了一篇严肃的论文,明确提出我们需要考虑如何测量真正的智慧。
他在论文中描述的核心想法是:要了解一个系统的智慧水平,应当测量它在一系列不同任务中表现出的获得新能力的效率;这和先验、经验、泛化难度都相关。论文中包含了对 AI、智慧相关概念的解释和讨论,他认为的理想的通用 AI 评价方式,以及他自己设计的认为比较能反映及测量真正的智慧的 ARC 数据集。对智慧的讨论和复制还有很长的路要走,这篇论文再次提醒大家对「我们应该从哪里开始、往哪里去」保持清醒。
- 论文地址:https://arxiv.org/abs/1911.01547
- 详细介绍:测量「智慧」的正确姿势可能是?
[ 8 ]
论文:Putting an End to End-to-End: Gradient-Isolated Learning of Representations
给端到端学习画上句号:表征的梯度隔离学习
上榜理由:这篇论文提出了一种全新的自学习方法,它采用的并不是深度学习中惯用的端到端梯度下降,而是把贪婪 InfoNCE 作为目标,分别独立地训练网络中的各个模块。它的学习方式更接近于自监督学习,是把各种不同的小块之间的共同信息作为每个小块的训练的监督信号,把时间维度上临近的表征之间的共同信息最大化。之所以这种做法能奏效,是因为数据中符合这种设想的「慢特征」对下游任务非常有帮助。这种方法大幅节省了训练时间,也避开了大规模模型遇到的内存空间瓶颈。
这种方法很大程度上是从生物学现象得到启发的,也就是,整个大脑并不针对同一个唯一的目标进行优化,而是有模块化的功能分区,然后每个区域都优化自己的局部信息。目前看起来,这种方法可以方便地快速训练更深的模型,利用局部信息的设定也避免了传统神经网络中梯度消失的问题。这是一种有潜力的方法,不过是否能像论文标题中说的那样「给端到端学习画上句号」还需要等待时间验证。这篇论文获得 NeurIPS 2019 杰出新方向论文提名奖。
- 论文地址:https://arxiv.org/abs/1905.11786v2
- 代码开源:https://github.com/loeweX/Greedy_InfoMax
- 博客介绍:https://yann-leguilly.gitlab.io/post/2019-09-29-representation-learning-with-contrastive-predictive-coding/
五、新颖到引发争议
[ 9 ]
论文:Read, Attend and Comment: A Deep Architecture for Automatic News Comment Generation
上榜理由:这是一篇 EMNLP 2019 接收论文,会议结束之后则在社交网络上引发了大片声讨之声。我们固然知道具备优秀学习拟合能力的深度神经网络有能力大批量生成新闻评论,这篇论文中的方法能提取文章的重点观点生成响应的评论,而且也在自动评价指标和人类评价的两个方面都得到了很好的结果,但批评的声音认为,更重要的是「是否应当做这样的研究,这样的研究的社会影响是怎么样的」。EMNLP 2019 还有一篇遭受了类似批评的论文是《Charge-Based Prison Term Prediction with Deep Gating Network》(https://arxiv.org/abs/1908.11521),在诉讼案件中根据检方指控的罪行预测被告刑期。
论文地址:https://arxiv.org/abs/1909.11974
[ 10 ]
论文:Facial Reconstruction from Voice using Generative Adversarial Networks
上榜理由:作为更大、更综合性的会议,NeurIPS 2019 接收论文中也有带来很大争议的,这篇「用 GAN 从声音重建人脸」的论文就炒得沸沸扬扬。即便我们认可一个人的说话声音可能和性别、年龄、体形相关,也许模型能比人类更敏感更明确地找到其中的相关性,但「侵犯隐私」、「丧失道德判断力」、「增加社会偏见」、「做奇怪无用的课题」之类的批评仍然是免不了的。
NeurIPS 2019 也不止有一篇论文引发争议,还有一篇是《Predicting the Politics of an Image Using Webly Supervised Data》(arxiv.org/abs/1911.00147),判断新闻媒体选用的人物照片体现了左派还是右派的政治理念。如果看作是揭露大众偏见的社会学研究的话,这篇论文可能还有一些价值。
论文地址:http://papers.nips.cc/paper/8768-face-reconstruction-from-voice-using-generative-adversarial-networks