7 papers | 对抗样本前,BERT也不行;AutoML的商业实践综述

2019-07-24 14:47:12 浏览数 (1)

机器之心整理

参与:一鸣

本周有一些重要的研究成果,如 Julia 将内嵌自动可微编程特性、以及 Ian Goodfellow 转推的论文 DVD-GAN。还有一些论文对现有研究进行了反思,如第一篇针对 BERT 在观点推理理解任务上的对抗样本研究,以及一篇对推荐系统算法的评价论文等。

目录

  1. Probing Neural Network Comprehension of Natural Language Arguments
  2. Efficient Video Generation on Complex Datasets
  3. A Differentiable Programming System to Bridge Machine Learning and Scientific Computing
  4. Are We Really Making Much Progress? A Worrying Analysis of Recent Neural Recommendation Approaches
  5. OmniNet: A unified architecture for multi-modal multi-task learning
  6. WikiMatrix: Mining 135M Parallel Sentences in 1620 Language Pairs from Wikipedia
  7. Automated Machine Learning in Practice: State of the Art and Recent Results

1.标题:Probing Neural Network Comprehension of Natural Language Arguments

  • 作者: Timothy Niven、Hung-Yu Kao
  • 链接:https://arxiv.org/pdf/1907.07355.pdf

摘要:研究人员发现,尽管 BERT 在观点推理理解任务上的表现仅比人类基准低 3 个百分点(77%),但是其性能完全依赖于挖掘数据集中的统计线索(statistical cues)。研究人员分析了这些统计线索,发现许多模型都使用这些线索用于推断。这说明,针对这种线索,可以提出一种对抗样本数据集,可以使所有语言模型的性能下降到几乎随机。论文提出了这种针对观点理解任务鲁棒性的对抗样本数据集。

观点阅读理解任务对抗样本数据集。左:原始数据;右:对抗样本。

BERT-Large 模型的在对抗样本数据集的表现,效果相当于随机。

推荐:BERT 模型真的那么神奇吗?也许从数据集角度分析,再好的预训练模型也不过是统计拟合。读者朋友可以参考这篇论文,了解如何提升自然语言处理任务模型鲁棒性的方法。

2. 标题:Efficient Video Generation on Complex Datasets

  • 作者:Aidan Clark、Jeff Donahue、Karen Simonyan
  • 链接:https://arxiv.org/pdf/1907.06571.pdf

摘要:近日,来自 DeepMind 的研究者则尝试在视频建模领域实现逼真的效果,他们认为除了图像生成,GAN 在视频生成上也是没有问题的。类似 BigGAN 的思路,研究者在复杂的 Kinetics-600 数据集上训练一种大型生成对抗网络(GAN),并期待该网络生成的视频样本复杂度大大高于之前的研究。

DeepMind 提出的模型叫作 Dual Video Discriminator GAN (DVD-GAN),可以利用计算高效的判别器分解,扩展到时间更长、分辨率更高的视频。该研究是迈向逼真视频生成的一次探索,连 Ian Goodfellow 也转推了这篇论文。

DVD-GAN 生成的高清视频。

推荐:GAN 之父 Ian Goodfellow 转载的论文。融合多种视频数据处理思路,使 GAN 进军视频生成领域。有兴趣了解 GAN 在视频领域应用的读者推荐阅读。

3. 标题:A Differentiable Programming System to Bridge Machine Learning and Scientific Computing

  • 作者:Mike Innes、Alan Edelman、Keno Fischer、Chris Rackauckas、Elliot Saba、Viral B Shah、Will Tebbu
  • 链接:https://arxiv.org/pdf/1907.07587.pdf

摘要:近年来,机器学习模型越来越精妙,展现出了很多科学计算的特性,侧面凸显了机器学习框架的强大能力。研究者表示,由于广泛的科学计算和机器学习领域在底层结构上都需要线性代数的支持,因此有可能以可微编程的形式,创造一种新的计算基础设施。在论文中,研究人员提出了一种可微编程系统,它能在 Julia 语言中完成梯度计算,并成为 Julia 语言的第一级特性。这使得构建深度学习模型变得更直观。更重要的是,这令用户可以使用已有的 Julia 科学计算包去构建深度学习模型,并高效实现梯度计算。

推荐:特斯拉 AI 主管 Karpathy 点赞、YCombinator 机器学习研究者 Michael Nielsen 推荐的论文。深度学习入门门槛越来越低,用 Julia 自动微分编程就可以搞定模型训练和测试了。

4. 标题:Are We Really Making Much Progress? A Worrying Analysis of Recent Neural Recommendation Approaches

  • 作者:Maurizio Ferrari Dacrema、Paolo Cremonesi、Dietmar Jannach
  • 链接:https://arxiv.org/pdf/1907.06902.pdf
  • 实现地址:https://github.com/MaurizioFD/RecSys2019_DeepLearning_Evaluation

摘要:对于那些致力于推荐系统算法方面的研究人员来说,深度学习技术已经成为他们的首先方法。但是,随着研究人员对深度学习的兴趣日益强烈,哪些方法能够代表当前最佳水平却变得难以辨别,如适用于 top-n 推荐任务的最佳方法。因此,研究者在本文中列举出了 top-n 推荐任务中提议算法的系统分析结果。具体来说,他们试验了 2018 年顶级科研会议上提出的 18 种算法,但遗憾的是,仅有 7 种算法可以通过研究人员的合理努力实现复现。然而,在这 7 种算法之中,却又有 6 种算法的效果通常弱于同类更简单的启发式方法,如基于最近邻或基于图的方法。剩下 1 种算法的效果虽然明显优于基线方法,但无法持续地优于调整好的非神经线性排序法(nonneural linear ranking method)。

推荐:林林总总的推荐算法效果究竟如何?本篇论文全面解答。从事推荐算法研究的读者朋友可以了解评价新的评价性能的方法。

5. 标题:OmniNet: A unified architecture for multi-modal multi-task learning

  • 作者:Subhojeet Pramanik、Priyanka Agrawal、Aman Hussain
  • 链接:https://arxiv.org/pdf/1907.07804.pdf

摘要:Transformer 是一种广受欢迎的神经网络架构,特别是用在自然语言理解任务中。在论文中,研究人员提出了一种可扩展的统一神经网络架构——OmniNET。这种架构可以在涉及多种模型的任务中使用,如图像、文本、视频等。这种模型可以学习空间维度和隐层所对应的时间维度信息。这样的单一模型可以支持多模态输入,以及异步多任务学习。例如,OmniNet 可以同时学习词性标注、视频标注、图像问答、和视频活动识别信息,而同时训练这四个任务的模型可以压缩三倍,且性能和单独训练每个任务的模型一致。研究人员也发现,预训练这个模型可以支持在未见任务中的学习。这些都说明了使用 Transformer 的 OmniNet 的性能表现。

OmniNet 架构。

推荐:如何理解和构建适应多任务多模态数据的统一人工神经网络架构?本论文提出了启发性的研究思路。论文提出的模型架构,无疑为通用预训练模型研究提供了一些方法。

6. 标题:WikiMatrix: Mining 135M Parallel Sentences in 1620 Language Pairs from Wikipedia

  • 作者:Holger Schwenk、Vishrav Chaudhary、Shuo Sun、Hongyu Gong、Francisco Guzmán
  • 链接:https://arxiv.org/pdf/1907.05791.pdf

摘要:研究者提出一种基于多语言句子嵌入的方法,以从 85 种语言(包括几种方言或低资源语言)的维基百科文章内容中自动提取平行句(parallel sentence)。在提取过程中,平行句并不只是以英文表示的,而是系统化地考虑到所有可能的语言对。从提取结果来看,研究者共为 1620 个不同的语言对提取了 1.35 亿个平行句,其中只有 3400 万个平行句是英文的。为了显示提取的双语文本质量,他们为 1886 个语言对的挖掘数据训练了神经 MT 基线系统,并在 TED 语料库中进行评估,实现了对很多语言对的高 BLEU 分数。因此,WikiMatrix 双语文本似乎非常适合训练不同语言之间的 MT 系统,而不需要转换成英文。

推荐:机器翻译中,数据太重要了。论文解决了小语种数据集缺乏的问题,适合对小语种机器翻译研究的读者朋友了解数据集的构建过程。

7. 标题:Automated Machine Learning in Practice: State of the Art and Recent Results

  • 作者:Lukas Tuggener、Mohammadreza Amirian、Katharina Rombach、Stefan Lörwald、Anastasia Varlet、Christian Westermann、Thilo Stadelmann
  • 链接:https://arxiv.org/pdf/1907.08392

摘要:工业和社会的信息化动力在于:数据驱动建模和决策可以对高级自动化和更有见地的决策带来贡献。从数据中建模往往会涉及到应用某种机器学习技术。因此,应用机器学习技术也需要大量的劳动力进行优化设置。这一需求推动了一项新的研究,即完全自动化的机器学习模型拟合——AutoML。本文回顾了 AutoML 的 SOTA 模型在商业背景下的实际应用,并提供了近期最重要的 AutoML 算法的基准结果。

0 人点赞