机器之心整理
参与:杜伟
在本周的论文中,读者可以了解到 2019 年安卓手机的 AI 性能测评;兼具运行速度和准确率的视频架构学习新方法 Tiny Video 模型。此外,读者还可以看到有关自动驾驶的论文综述和用于开放域对话的无监督语境重写模型。谷歌研究院大脑团队等利用图神经网络来研究分子结构和气味之间的关系也是一个新颖的课题。
目录:
- AI Benchmark: All About Deep Learning on Smartphones in 2019
- A Survey of Deep Learning Techniques for Autonomous Driving
- Tiny Video Networks
- Unsupervised Context Rewriting for Open Domain Conversation
- Gradient Boosted Decision Tree Neural Network
- Machine Learning for Scent: Learning Generalizable Perceptual Representations of Small Molecules
- Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer
论文 1:AI Benchmark: All About Deep Learning on Smartphones in 2019
- 作者:Andrey Ignatov、Radu Timofte、Andrei Kulik 等
- 论文链接:https://arxiv.org/abs/1910.06663v1
摘要:过去两年,移动 AI 加速器的性能一直在快速提升,每出现一代新的系统级芯片(Soc),性能就会提升近两倍。当前的第四代移动 NPU 性能已经接近不久前英伟达推出的 CUDA 兼容显卡性能,并且加之以移动深度学习框架性能的提升,第四代 NPU 甚至可以在移动设备端上运行复杂和深度 AI 模型。在本文中,来自苏黎世联邦理工学院、谷歌研究院和华为、高通、三星、联发科、紫光展锐等多家移动端芯片厂商的研究者评估并对比了高通、海思、三星、联发科和紫光展锐为 AI 推理提供硬件加速的芯片组的性能结果。此外,他们还探讨了安卓 ML pipeline 近来的变化,概述了深度学习模型在移动端设备上的部署情况。
图 1:移动端 AI 加速器的性能演变。
移动设备 AI 性能排行榜。
推荐:瑞士苏黎世联邦理工学院去年开发了一款名为「AI Benchmark」的应用,对多款搭载深度学习加速芯片的移动设备进行基准测试。最近,AI Benchmark 已经更新到了 3.0,研究者也发布了最新的测试结果。据论文数据显示,麒麟 990(5G 版)的 AI 性能远超高通骁龙 855 ,性能甚至接近常见云服务 GPU 英伟达 Tesla K80 的四分之三。
论文 2:A Survey of Deep Learning Techniques for Autonomous Driving
- 作者:Sorin Grigorescu、Bogdan Trasnea、Tiberiu Cocias、Gigel Macesanu
- 论文链接:https://arxiv.org/abs/1910.07738v1
摘要:过去十年,得益于深度学习和人工智能领域的发展,自动驾驶汽车技术的进步越来越快。本篇论文概述了自动驾驶领域当前的 SOTA 深度学习技术。研究者首先展现了基于 AI 的自动驾驶架构、卷积和循环神经网络以及深度强化学习范式。这些方法论为驾驶场景感知、路径规划、行为仲裁和运动控制算法奠定了基础。研究者还探究了模块化感知规划-行动管道和端到端系统,其中前者各模块通过深度学习方法构建,后者直接将感知信息映射到操纵指令。此外,他们还对自动驾驶 AI 架构设计过程中遇到的挑战,如安全、训练数据源和计算硬件等自动驾驶 AI 架构设计过程中遇到的挑战提出了应对方法。
推荐:这是一篇有关自动驾驶深度学习技术的概述论文,介绍并比较了当前自动驾驶领域的深度学习和 AI 方法,使读者深入了解它们的优势和不足,并有助于做出更好的设计选择。
论文 3:Tiny Video Networks
- 作者:AJ Piergiovanni、Anelia Angelova、Michael S. Ryoo
- 论文链接:https://arxiv.org/abs/1910.06961v1
摘要:视频理解是一个富有挑战性的问题,对现实世界自动智能体的性能产生重大影响。然而,到目前为止,相关解决方案依然是计算密集型,并且在强大的 GPU 中,最快的算法对每个视频片段也需要运行半秒多的时间。在本文中,研究者提出一种新颖的视频架构学习方法——Tiny Video 网络(Tiny Video Network),这种网络可以自动设计高效的视频理解模型。实验表明,这种 tiny video 模型的性能表现非常好,在 CPU 和标准 GPU 上针对单个视频的运行速度分别为 37 毫秒和 10 毫米。
Tiny Video Network(TVN)在单个 CPU 和标准 GPU 上的运行速度。
在 Moments-in-Time(MiT)数据集上,Tiny Video Network(TVN)与其他视频理解模型的 CPU 运行速度和模型准确率对比。
推荐:在这篇论文中,来自 Robotics at Google 团队的三位研究者提出了一种自动学习 Tiny Video 网络架构的新方法,这些视频模型兼具运行速度和准确率的优势。运行速度较当前视频模型快了几百倍,并且参数更少。这些模型既可以用于实时机器人应用中,也可以在移动端设备上运行。
论文 4:Unsupervised Context Rewriting for Open Domain Conversation
- 作者:Kun Zhou、Kai Zhang、Yu Wu、Shujie Liu、Jingsong Yu
- 论文链接:https://arxiv.org/pdf/1910.08282.pdf
摘要:语境建模在开放域对话中发挥关键作用。当前的研究要么使用启发式方法,要么利用编码器-解码器框架来共同学习语境建模和响应生成。在本文中,来自北京大学软件与微电子学院、微软人工智能及研究事业部以及微软研究院的研究者提出一种显式的语境重写方法,在考虑整个语境表述的情况下,该方法可以重写最后的语句。他们利用假平行数据和强化学习方法,构建了一个基于 CopyNet 模型的语境重写网络。重写的语句既有利于之后的候选检索和可解释的语境建模,也有助于在多向场景(multi-turn scenario)中应用单向框架。实证结果表明,研究者提出的语境重写模型在重写质量、多向响应生成和端到端检索式对话机器人方面均优于当前的基准模型。
图 1:语境重写示例。
图 2:语境重写网络详图。
推荐:本篇论文提出了一个无监督的语境重写模型,并且实证结果表明,重写的语境类似于人类的引用,重写过程也提升了多向响应选择、多向响应生成和端到端检索对话机器人的性能。
论文 5:Gradient Boosted Decision Tree Neural Network
- 作者:Mohammad Saberian、Pablo Delgado、Yves Raimond
- 论文链接:https://arxiv.org/abs/1910.09340
摘要:在本文中,研究者提出了一种方法来构建类似于决策树集合的神经网络。他们首先展示了如何将学习到的决策树集合转换为拥有单隐层和输入变换的单个神经网络。然后,他们释放了这个网络的部分特质,例如用于训练近似等效决策树集合的阈值和激活函数。最终得出的模型 Hammock 极其简单:一个完全连接的双层神经网络,其中输入得到了量子化和独热编码。在大小数据集上的实验表明,这种简单的方法能够实现与梯度增强决策树相当的性能。
图 1:左:决策树;中:决策树等效网络;右:Hammock 模型。
表 1:Hammock 模型与其他方法(如 XGBoost 等)在不同数据集上表现出的准确率对比。
推荐:来自网飞公司的三位研究者提出了一种类似于决策树的 Hammock 模型,该模型在 6 个 UCI 数据集(Statlog、Letter、Optical Digits、Poker、Shuttle 和 Pen Digits)上的多类分类性能以及在网飞公司内部数据集(Netflix Internal)上的二元分类任务都表现出了良好的准确率。
论文 6:Machine Learning for Scent: Learning Generalizable Perceptual Representations of Small Molecules
- 作者:Benjamin Sanchez-Lengeling、Jennifer N. Wei、Brian K. Lee 等
- 论文链接:https://arxiv.org/abs/1910.10685
摘要:预测分子结构与其气味之间的关系仍然是一项艰巨任务。这个问题被称为定量结构-气味关系(QSOR)建模,它是化学领域面临的重要挑战,影响着人体营养、合成香料的生产以及环境和感知神经科学。在本文中,来自谷歌研究院大脑团队、亚利桑那州立大学以及多伦多大学等多家机构的研究者提出将图神经网络用于 QSOR 问题,并证实图神经网络在嗅觉专家标记的新型数据集上显著优于现有方法。进一步的分析表明,从图神经网络学习到的嵌入捕获了结构与气味之间潜在关系的有意义的气味空间表征(odor space representation),并在两项富有挑战性的转移学习任务上表现出色。基于这些利用分子特征图神经网络得出的早期结果,研究者希望机器学习最终可以像其处理视觉和听觉任务一样解决嗅觉任务。
推荐:本文的亮点在于训练图神经网络来预测分子结构与气味之间的关系,并在领域认可的基准上针对 QSOR 任务取得了当前的 SOTA 结果。研究者相信他们提出的模型以及学习到的嵌入有助于合理地设计出新气味。
论文 7:Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer
- 作者:Colin Raffel、Noam Shazeer、Adam Roberts 等
- 论文链接:https://arxiv.org/abs/1910.10683
摘要:众所周知,迁移学习是自然语言处理(NLP)领域的一种强大技术,其中模型首先需要在丰富数据的任务中进行预训练,然后在下游任务中进行微调。在本文中,谷歌的研究者们推出了一种将每个语言问题转化为文本到文本格式的统一框架,进而探究了 NLP 领域中迁移学习的前景。他们的系统性研究对比了预训练目的、架构、未标注数据集、迁移方法以及诸多语言理解任务上的其他因素。研究者提出了 T5 模型(Text-to-Text Transfer Transformer)和 C4 语料库(Colossal Clean Crawled Corpus),在涵盖摘要生成、问答、文本分类等诸多基准测试中取得了当前 SOTA 性能。其中,C4 语料库从网上爬取了数百个千兆字节干净英文文本。
在 GLUE 基准排行榜上,T5 超越 ALBERT,位列榜首。
在 SuperGLUE 基准排行榜上,T5 得分 88.9,超越 Facebook 的 RoBERTa,成为新的 SOTA 模型。
推荐:谷歌这篇有关 T5 预训练语言模型的论文足足有 53 页,引起了 NLP 社区极大的关注与讨论。其中,参数量达到了 110 亿。此外,谷歌还开源了 750GB 大小的 C4 语料库,包含有数百个从网上爬取的数百个千兆字节的干净英文文本。