7 Papers & Radios | 一组照片渲染3D视频;探索大规模预训练的极限

2021-10-26 16:23:51 浏览数 (1)

机器之心 & ArXiv Weekly Radiostation

参与:杜伟、楚航、罗若天

本周论文主要包括谷歌探索大规模预训练的极限,以及德国埃尔朗根 - 纽伦堡大学视觉计算实验室实现用一组照片渲染出 3D 视频等。

目录:

  1. Exploring the Limits of Large Scale Pre-training
  2. SpreadsheetCoder: Formula Prediction from Semi-structured Context
  3. NormFormer: Improved Transformer Pretraining with Extra Normalization
  4. Self-backpropagation of Synaptic Modifications Elevates the Efficiency of Spiking and Artificial Neural Networks
  5. ADOP: Approximate Differentiable One-Pixel Point Rendering
  6. Deep Recurrent Optical Flow Learning for Particle Image Velocimetry Data
  7. HiT: Hierarchical Transformer with Momentum Contrast for Video-Text Retrieval
  8. ArXiv Weekly Radiostation:NLP、CV、ML 更多精选论文(附音频)

论文 1:Exploring the Limits of Large Scale Pre-training

  • 作者:Samira Abnar、Mostafa Dehghani、Behnam Neyshabur 等
  • 论文地址:https://arxiv.org/pdf/2110.02095.pdf

摘要:来自谷歌的研究者系统地研究了这种现象,并确定随着上游任务准确率的提高,下游任务的性能会达到饱和。特别是,该研究探索了超过 4800 关于 Vision Transformer、MLP-Mixer 和 ResNets 的实验,这些模型的参数数量从一千万到一百亿不等,同时,他们在最大规模的可用图像数据(JFT-300M、ImageNet21K)上进行训练,并在超过 20 个下游图像识别任务上进行了实验。

该研究提出了一个可用于下游任务性能的模型,该模型能够反映饱和现象,并且该模型还能捕获上游和下游任务性能的非线性关系。该研究通过深入研究导致这些现象的原因,观察到这种饱和行为与通过模型层演变的表示方式密切相关。此外,该研究还展示了一个更极端的场景,即上游和下游任务的性能相互矛盾,也就是说,为了获得更好的下游性能,我们需要损害上游的准确率。

基于 1500 多个不同的 Vision Transformer、1400 个 MLP-Mixer 和 16 个性能最佳的 ResNet,不同下游任务与上游任务的性能结果。

不同的 DS 任务具有不同的饱和值,并且该值随着 US 任务的变化而变化。

推荐:在 ViT、MLP-Mixer 等进行 4800 多次实验,谷歌发现大规模预训练存在瓶颈。

论文 2:SpreadsheetCoder: Formula Prediction from Semi-structured Context

  • 作者:Xinyun Chen、Petros Maniatis、Rishabh Singh 等
  • 论文地址:https://arxiv.org/pdf/2106.15339.pdf

摘要:电子表格是办公的必备工具,有数以亿计的人在使用,而这些电子表格中的公式编辑功能允许用户对他们的数据执行复杂的分析和转换。尽管电子表格中的公式语言比通用编程语言更简单,但编写这些公式仍然很乏味且容易出错,终端用户更是如此。此前,来自谷歌的研究者已经开发过智能自动填充插件来自动填充电子表格列中缺失的值,但是构建的这些工具并不支持公式编写。来自谷歌的研究者提出了一种新模型,该模型能够基于目标单元格周围丰富的上下文自动生成公式。

它的效果是这样的,用户打算在单元格 B7、C7 和 D7 中输入公式,这时系统会自动推断用户可能想在这些单元格中写入的最可能的公式:

给定目标单元格(D4),模型使用表头和周围单元格值作为上下文来生成目标公式:

推荐:借助 BERT、表格上下文信息,谷歌提出的模型能自动生成公式。

论文 3:NormFormer: Improved Transformer Pretraining with Extra Normalization

  • 作者:Sam Shleifer、Jason Weston、Myle Ott
  • 论文地址:https://arxiv.org/pdf/2110.09456.pdf

摘要:实践表明,Pre-LN Transformer 可以使用更大的学习率、极小的学习率进行预热(即 warm-up),并且与 Post-LN Transformer 相比通常会产生更好的性能,所以最近大型预训练语言模型倾向于使用 Pre-LN transformer。来自 Facebook AI 的研究者表明,虽然 Pre-LN 比 Post-LN 提高了稳定性,但也具有缺点:较早层的梯度往往大于较后层的梯度。这些问题可以通过该研究提出的 NormFormer 来缓解,它通过向每一层添加 3 个归一化操作来缓解梯度幅度不匹配问题:自注意力之后添加层归一,自注意力输出的 head-wise 扩展,在第一个全连接层后添加层归一。这些操作减少早期层的梯度,增加了后期层的梯度,使不同层的梯度大小更接近。

此外,这些额外的操作产生的计算成本可以忽略不计( 0.4% 的参数增加),但这样做可以提高模型预训练困惑度和在下游任务的表现,包括在 1.25 亿参数到 27 亿参数的因果模型和掩码语言模型的性能。例如,该研究在最强的 1.3B 参数基线之上添加 NormFormer 可以将同等困惑度提高 24%,或者在相同的计算预算下更好地收敛 0.27 倍困惑度。该模型能以快 60% 的速度达到了与 GPT3-Large (1.3B) 零样本相同的性能。对于掩码语言模型,NormFormer 提高了微调好的 GLUE 性能,平均提高了 1.9%。

左:基准 Pre-LayerNorm transformer 层,中 NormFormer,右,scaled 注意力头。

研究者将 CLM 和 MLM 的预训练困惑度表示训练时间,即 GPU days。可以看到,NormFormer 的训练速度明显更快,并且在给定训练计算预算下实现了更好的验证困惑度。

推荐:归一化提高预训练、缓解梯度不匹配,Facebook 的模型超越 GPT-3。

论文 4:Self-backpropagation of Synaptic Modifications Elevates the Efficiency of Spiking and Artificial Neural Networks

  • 作者:TIELIN ZHANG、XIANG CHENG、SHUNCHENG JIA 等
  • 论文地址:https://www.science.org/doi/10.1126/sciadv.abh0146

摘要:在人工智能领域,目前人工神经网络中被广泛使用的反向传播算法(Backpropagation, BP)采用全局优化策略,这种端到端的学习方法性能卓越,但学习过程能量消耗大,且缺乏灵活性。中科院脑智卓越中心徐波、蒲慕明联合研究团队近期借助生物网络中发现的介观尺度自组织反向传播机制(Self-backpropagation,SBP),在更具效率和灵活性的类脑局部学习方法方面取得了重要进展。

SBP 在 SNN 中的应用。(A)SBP 可塑性机制;(B)SBP 在 SNN 中的局部反向传播;(C)SBP 和其它可塑性机制在 SNN 中的组合优化。

SBP 在 RBM 中的应用。(A)SBP 和 BP 在 RBM 中的组合优化;(B)SBP 和 BP 的交替协作流程;(C)RBM 中的标准 Sleep Phase;(D)含有 SBP 的 Wake Phase;(E)含有 BP 的 Wake Phase。

推荐:中科院自动化所研究登上 Science 子刊:自组织反向传播提升网络学习效率。

论文 5:ADOP: Approximate Differentiable One-Pixel Point Rendering

  • 作者:Darius Ruckert、Linus Franke、Marc Stamminger
  • 论文地址:https://arxiv.org/pdf/2110.06635.pdf

摘要:合成逼真的虚拟环境是计算机图形学和计算机视觉中研究最多的主题之一,它们所面临是一个重要问题是 3D 形状应该如何编码和存储在内存中。用户通常在三角形网格、体素网格、隐函数和点云之间进行选择。每种表示法都有不同的优点和缺点。为了有效渲染不透明表面,通常会选择三角形网格,体素网格常用于体绘制,而隐函数可用于精确描述非线性分析表面,另一方面,点云具有易于使用的优点,因为不必考虑拓扑。

近日,来自德国埃尔朗根 - 纽伦堡大学视觉计算实验室的研究者提出了一种新颖的基于点的、可微的神经渲染 pipeline,可用于场景细化和新颖的视图合成。

完整的端到端可训练神经渲染 pipeline。

渲染出的 3D 动态效果。

推荐:一组照片渲染出 3D 视频,单像素点实时渲染火了,网友:在家也能制作 3A 游戏了?

论文 6:Deep Recurrent Optical Flow Learning for Particle Image Velocimetry Data

  • 作者:Christian Lagemann、Kai Lagemann、Wolfgang Schröder 等
  • 论文地址:https://www.nature.com/articles/s42256-021-00369-0#Sec1

摘要:应用物理和工程中的许多问题都涉及从数据中学习物理位移场。粒子图像测速(PIV)是实验流体动力学中至关重要的一种方法,在汽车、航空航天和生物医学工程等众多领域均有应用。德国亚琛工业大学的研究人员提出了一种基于深度神经网络的端到端学习位移场的方法,重点关注粒子图像测速的具体情况。

RAFT-PIV 的主要组件和粒子图像数据集的比较。

推荐:基于深度神经网络的「端到端」学习位移场的方法,用于粒子图像测速。

论文 7:HiT: Hierarchical Transformer with Momentum Contrast for Video-Text Retrieval

  • 作者:Song Liu、 Haoqi Fan、 Shengsheng Qian 等
  • 论文地址:https://arxiv.org/abs/2103.15049

摘要:近年来,互联网环境中的多媒体内容大量增加,如何通过视频文本相互检索,提升用户获取信息的效率,满足不同的用户对多媒体内容的消费需求变得异常重要。随着短视频内容社区的兴起,多媒体内容的创作门槛变低,UGC 内容成为主流,视频文本检索任务面临更加复杂和困难的挑战。本文针对视频文本检索任务提出了层次化对比学习的跨模态检索思路,实现了更加高效且精准的视频文本检索方法,目前该论文已经被 ICCV2021 接收。

方法 pipeline。

MSR-VTT 上的结果。

推荐:快手联合北大提出多层次对比学习的跨模态检索方法。

ArXiv Weekly Radiostation

机器之心联合由楚航、罗若天发起的ArXiv Weekly Radiostation,在 7 Papers 的基础上,精选本周更多重要论文,包括NLP、CV、ML领域各10篇精选,并提供音频形式的论文摘要简介,详情如下:

本周 10 篇 NLP 精选论文是:

1. Hindsight: Posterior-guided training of retrievers for improved open-ended generation. (from Christopher Potts, Matei Zaharia, Christopher D. Manning)

2. A Dataset for Discourse Structure in Peer Review Discussions. (from Andrew McCallum)

3. Hierarchical Curriculum Learning for AMR Parsing. (from Liang Chen)

4. Monotonic Simultaneous Translation with Chunk-wise Reordering and Refinement. (from Kyunghyun Cho)

5. Bridging the Gap: Cross-Lingual Summarization with Compression Rate. (from Yang Gao)

6. Alternative Input Signals Ease Transfer in Multilingual Machine Translation. (from Philipp Koehn)

7. Tackling Multi-Answer Open-Domain Questions via a Recall-then-Verify Framework. (from Minlie Huang)

8. On the Safety of Conversational Models: Taxonomy, Dataset, and Benchmark. (from Minlie Huang)

9. GenNI: Human-AI Collaboration for Data-Backed Text Generation. (from Hanspeter Pfister)

10. A Data Bootstrapping Recipe for Low Resource Multilingual Relation Classification. (from Soumen Chakrabarti)

本周 10 篇 CV 精选论文是:

1. "Knights": First Place Submission for VIPriors21 Action Recognition Challenge at ICCV 2021. (from Rohit Gupta, Mubarak Shah)

2. Learning a self-supervised tone mapping operator via feature contrast masking loss. (from Hans-Peter Seidel)

3. 3D Reconstruction of Curvilinear Structures with Stereo Matching DeepConvolutional Neural Networks. (from Pascal Fua)

4. Active Learning of Neural Collision Handler for Complex 3D Mesh Deformations. (from Dinesh Manocha)

5. Geo-DefakeHop: High-Performance Geographic Fake Image Detection. (from C.-C. Jay Kuo)

6. Non-deep Networks. (from Jia Deng, Vladlen Koltun)

7. NeuralDiff: Segmenting 3D objects that move in egocentric videos. (from Andrea Vedaldi)

8. Self-Supervised Object Detection via Generative Image Synthesis. (from Carsten Rother, Jan Kautz)

9. TransFusion: Cross-view Fusion with Transformer for 3D Human Pose Estimation. (from Xiaohui Xie)

10. Receptive Field Broadening and Boosting for Salient Object Detection. (from Jia Li)

本周 10 篇 ML 精选论文是:

1. Ranking and Tuning Pre-trained Models: A New Paradigm of Exploiting Model Hubs. (from Michael I. Jordan)

2. ACE-HGNN: Adaptive Curvature Exploration Hyperbolic Graph Neural Network. (from Philip S. Yu)

3. Detecting Modularity in Deep Neural Networks. (from Stuart Russell)

4. Distributionally Robust Semi-Supervised Learning Over Graphs. (from Georgios B. Giannakis)

5. Surrogate- and invariance-boosted contrastive learning for data-scarce applications in science. (from Marin Soljacic)

6. A TinyML Platform for On-Device Continual Learning with Quantized Latent Replays. (from Luca Benini)

7. Transforming Autoregression: Interpretable and Expressive Time Series Forecast. (from Torsten Hothorn)

8. Gradient Descent on Infinitely Wide Neural Networks: Global Convergence and Generalization. (from Francis Bach)

9. Encoding spatiotemporal priors with VAEs for small-area estimation. (from Samir Bhatt, Seth Flaxman)

10. Robust lEarned Shrinkage-Thresholding (REST): Robust unrolling for sparse recover. (from Yonina C. Eldar)

© THE END

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

0 人点赞