机器之心 & ArXiv Weekly Radiostation
参与:杜伟、楚航、罗若天
本周值得关注的论文有康奈尔大学主导研发的小于0.1 mm 微型四脚机器人,以及ECCV 2020 各奖项论文。
目录:
- Vid2Player: Controllable Video Sprites that Behave and Appear like Professional Tennis Players
- AutoSTR: Efficient Backbone Search for Scene Text Recognition
- AutoFoley: Artificial Synthesis of Synchronized Sound Tracks for Silent Videos with Deep Learning
- Neural Logic Reasoning
- RAFT: Recurrent All-Pairs Field Transforms for Optical Flow
- HetETA: Heterogeneous Information Network Embedding for Estimating Time of Arrival
- Electronically integrated, mass-manufactured, microscopic robots
- ArXiv Weekly Radiostation:NLP、CV、ML 更多精选论文(附音频)
论文 1:Vid2Player: Controllable Video Sprites that Behave and Appear like Professional Tennis Players
- 作者:Haotian Zhang、Cristobal Sciutto、Maneesh Agrawala、Kayvon Fatahalian
- 论文链接:https://arxiv.org/pdf/2008.04524.pdf
摘要:斯坦福大学提出的系统可将带标注的网球比赛视频转换为可交互控制的视频,其中运动员的行为和表现都和职业网球运动员相似。该论文方法基于可控的视频纹理,以带标注的网球视频数据库作为输入,该数据库的标注为重要的比赛信息,如触球的时间和位置、击球类型等。研究人员在构建数据库时重点关注温网赛事视频,包括罗杰 · 费德勒、拉斐尔 · 纳达尔和诺瓦克 · 德约科维奇等热门选手的比赛;以及 2018 年和 2019 年温布尔登网球锦标赛上小威廉姆斯对阵西蒙娜 · 哈勒普和卡米拉 · 吉奥尔吉的比赛。
系统架构图。
系统将带标注的温网赛事视频转换为可交互控制的视频。
费德勒和自己打球。
推荐:这个系统还能创建一些从未见过的「名场面」,比如费德勒自己和自己打球。
论文 2:AutoSTR: Efficient Backbone Search for Scene Text Recognition
- 作者:Hui Zhang、Quanming Yao、Mingkun Yang 、Yongchao Xu、Xiang Bai
- 论文链接:https://arxiv.org/pdf/2003.06567.pdf
摘要:由于文本实例的多样性和场景的复杂性,场景文本识别(Scene Text Recognition, STR)具有挑战性。然而,目前还没有任何 STR 方法可以保证主干网络在不同的多样性和复杂性环境中适用。
在这篇论文中,来自华中科技大学和第四范式的研究者受神经架构搜索(Neural Architecture Searh, NAS)的启发,提出了自动 STR(AutoSTR),它可以通过搜索数据相关的主干网络来提升文本识别性能。
研究证明,运算选择和下采样路径在 NAS 的空间搜索设计中都非常重要。研究者通过一个两步搜索算法解耦了运算和下采样路径,从而在给定空间中实现高效搜索。实验表明,通过搜索数据相关的主干网络,AutoSTR 可以在标准基线上优于其他 SOTA 方法,同时使用的 FLOPS 和模型参数也更少。
文本识别 Pipeline 的通用结构。
AutoSTR 与包含下采样路径搜索的示例文本识别和 NAS 方法之间的比较。
搜索空间图解。
推荐:本文已被 ECCV 2020 会议收录。
论文 3:AutoFoley: Artificial Synthesis of Synchronized Sound Tracks for Silent Videos with Deep Learning
- 作者:Sanchita Ghose、John J. Prevost
- 论文链接:https://ieeexplore.ieee.org/document/9126216/metrics#metrics
摘要:在最近的一项研究中,德州大学圣安东尼奥分校的研究人员创建了一个名为 AutoFoley 的自动化程序,它可以分析视频帧中的运动,并自主创建与场景相匹配的音效。
在一项调查中,大多数参与者表示他们没有发现这些音效是程序制作的。相关论文已于今年 6 月发表在 IEEE Transactions on Multimedia 上。Prevost 和他的博士生 Sanchita Ghose 对自动拟音系统产生极大兴趣,并着手创建多层机器学习程序 AutoFoley。他们使用 AutoFoley 为 1000 个短片制作音效,这些短片捕捉了许多常见的动作,比如下雨、骑马和滴答作响的时钟。
AutoFoley 基于视觉输入自动生成拟音音轨的过程。
颜色的强度代表每个频率中存在的能量。颜色越亮,说明该频率的音频能量越多。
自动拟音生成模型的算法。
推荐:AI 拟音师出击,轻松骗过人类观众,所以你听到的电影音效可能来自它们。
论文 4:Neural Logic Reasoning
- 作者:Shaoyun Shi、Hanxiong Chen、Weizhi Ma、Jiaxin Mao、Min Zhang、Yongfeng Zhang
- 论文链接:https://arxiv.org/pdf/2008.09514.pdf
摘要:在本篇论文中,来自清华大学和罗格斯大学的研究者提出以逻辑集成神经网络(Logic-Integrated Neural Network, LINN)来集成深度学习和逻辑推理的能力。LINN 是一个基于输入逻辑表达式来构建计算图的动态神经结构,它学习 AND、OR 和 NOT 等基本逻辑运算,将它们作为神经模块,并通过推理网络进行命题逻辑推理。
理论任务上实验表明,LINN 在求解逻辑方程和变量方面实现了显著效果。
逻辑集成神经网络的架构图。
不同逻辑正则化权重下的测试准确率变化曲线。
推荐任务上的性能比较。
推荐:本篇论文是 Shaoyun Shi 在罗格斯大学访学期间写就的。
论文 5:RAFT: Recurrent All-Pairs Field Transforms for Optical Flow
- 作者:Zachary Teed、Jia Deng
- 论文链接:https://arxiv.org/abs/2003.12039
摘要:ECCV 2020 最佳论文奖由普林斯顿大学 Zachary Teed 和 Jia Deng 摘得。这项研究提出了一种用于光流的新型深度网络架构——循环全对场变换(Recurrent All-Pairs Field Transforms,RAFT)。RAFT 提取每个像素(per-pixel)的特征,为所有像素对构建多尺度 4D 相关体(correlation volume),并通过循环单元迭代地更新流场,循环单元基于相关体执行查找。
RAFT 在多个数据集上实现了 SOTA 性能:在 KITTI 数据集上,RAFT 的 F1-all 误差是 5.10%,相比先前的最佳结果(6.10%)减少了 16%;在 Sintel 数据集(final pass)上,RAFT 只有 2.855 像素的端点误差(end-point-error),相比先前的最佳结果(4.098 像素)减少了 30%。另外,RAFT 具有强大的跨数据集泛化能力,并且在推理时间、训练速度和参数计数方面具有很高的效率。
RAFT 架构设计。
4.8M 参数完整版模型和 1.0M 参数小模型的网络架构细节。
推荐:论文二作邓嘉为 ImageNet 论文的第一作者。
论文 6:HetETA: Heterogeneous Information Network Embedding for Estimating Time of Arrival
- 作者:Huiting Hong、Yucheng Lin、Xiaoqing Yang 、Zang Li 等
- 论文链接:https://dl.acm.org/doi/pdf/10.1145/3394486.3403294
摘要:在这篇论文中,滴滴 AI Labs 技术团队针对预估到达时间任务构建了一个异质时空图,并提出了 HetETA 框架来挖掘时空图中的丰富语义信息,有效提升了预估到达时间任务的精确度。
HetETA 架构图。
ETA(预计到达时间,Estimated Time of Arrival)任务上的性能比较。
交通速度预测的比较结果。
推荐:本文被收录为 KDD 2020 Oral 论文。
论文 7:Electronically integrated, mass-manufactured, microscopic robots
- 作者:Marc Z. Miskin、Alejandro J. Cortese、Kyle Dorsey 等
- 论文链接:https://www.nature.com/articles/s41586-020-2626-9
摘要:在最新一期的《Nature》杂志中,宾夕法尼亚大学电子与系统工程系助理教授 Marc Miskin 等人研究出一种电化学驱动设备,该设备能够推动激光控制的微型机器人通过液体,并且可以很容易地与微电子组件集成,以构建完全自主的微型机器人。该研究团队由康奈尔大学的两位教授 Itai Cohen 和 Paul McEuen 以及 Marc Miskin 共同领导。
这款微型机器人包含一个硅光伏材料制成的简单电路,该电路充当躯干和大脑的角色,而四个电化学致动器构成了机器人的腿。该微型机器人的厚度大约为 5 微米、宽约 40 微米、长度在 40 至 70 微米之间,体积大致相当于草履虫等微生物。这款机器人可以在 200MV 的低电压和 10nW 的低功率条件下移动,虽然体积很小,但依然保持牢固和鲁棒性。
行走微型机器人大致的形态。
基于铂的串联式弹性致动器。
微型机器人的初始配置以及运动过程中距离和速度的图像。
推荐:这款机器人是由标准光刻工艺制成,所以它们可以实现大规模并行生产,4 英寸的硅片上可以容纳约 100 万个机器人。
ArXiv Weekly Radiostation
机器之心联合由楚航、罗若天发起的ArXiv Weekly Radiostation,在 7 Papers 的基础上,精选本周更多重要论文,包括NLP、CV、ML领域各10篇精选,并提供音频形式的论文摘要简介,详情如下:
本周 10 篇 NLP 精选论文是:
1. NASE: Learning Knowledge Graph Embedding for Link Prediction via Neural Architecture Search. (from Yan Zhang)
2. Are Neural Open-Domain Dialog Systems Robust to Speech Recognition Errors in the Dialog History? An Empirical Study. (from Yang Liu, Dilek Hakkani-Tur)
3. Scruples: A Corpus of Community Ethical Judgments on 32,000 Real-Life Anecdotes. (from Yejin Choi)
4. Lite Training Strategies for Portuguese-English and English-Portuguese Translation. (from Roberto Lotufo)
5. Checkworthiness in Automatic Claim Detection Models: Definitions and Analysis of Datasets. (from Marie-Francine Moens)
6. Assigning function to protein-protein interactions: a weakly supervised BioBERT based approach using PubMed abstracts. (from Karin Verspoor)
7. FinChat: Corpus and evaluation setup for Finnish chat conversations on everyday topics. (from Mikko Kurimo)
8. Speech To Semantics: Improve ASR and NLU Jointly via All-Neural Interfaces. (from Ariya Rastrow)
9. Graph-based Modeling of Online Communities for Fake News Detection. (from Ekaterina Shutova)
10. Victim or Perpetrator? Analysis of Violent Characters Portrayals from Movie Scripts. (from Krishna Somendapalli)
本周 10 篇 CV 精选论文是:
1. TNT: Target-driveN Trajectory Prediction. (from Cordelia Schmid, Dragomir Anguelov)
2. Pix2Surf: Learning Parametric 3D Surface Models of Objects from Images. (from Niloy Mitra, Leonidas J. Guibas)
3. DeepGMR: Learning Latent Gaussian Mixture Models for Registration. (from Dieter Fox, Jan Kautz)
4. Simultaneous Detection and Tracking with Motion Modelling for Multiple Object Tracking. (from Mubarak Shah)
5. Every Pixel Matters: Center-aware Feature Alignment for Domain Adaptive Object Detector. (from Ming-Hsuan Yang)
6. SoDA: Multi-Object Tracking with Soft Data Association. (from Tsung-Yi Lin, Ming-Hsuan Yang)
7. Attribute Prototype Network for Zero-Shot Learning. (from Bernt Schiele)
8. A review of deep learning in medical imaging: Image traits, technology trends, case studies with progress highlights, and future promises. (from Hayit Greenspan, Christos Davatzikos, James S. Duncan, Bram van Ginneken, Anant Madabhushi, Jerry L. Prince, Ronald M. Summers)
9. Monocular Expressive Body Regression through Body-Driven Attention. (from Michael J. Black)
10. AutoSimulate: (Quickly) Learning Synthetic Data Generation. (from Philip H.S. Torr)
本周 10 篇 ML 精选论文是:
1. On Localized Discrepancy for Domain Adaptation. (from Michael I. Jordan)
2. Cooperative Multi-Agent Bandits with Heavy Tails. (from Alex Pentland)
3. Kernel Methods for Cooperative Multi-Agent Contextual Bandits. (from Alex Pentland)
4. On the Approximation Lower Bound for Neural Nets with Random Weights. (from Ming Li)
5. When Hardness of Approximation Meets Hardness of Learning. (from Shai Shalev-Shwartz)
6. Towards Class Imbalance in Federated Learning. (from Xiao Wang)
7. Ranking Clarification Questions via Natural Language Inference. (from Jamie Callan)
8. On $ell_p$-norm Robustness of Ensemble Stumps and Trees. (from Cho-Jui Hsieh)
9. Balanced Order Batching with Task-Oriented Graph Clustering. (from Xinhang Zhang)
10. Ordinal Pattern Kernel for Brain Connectivity Network Classification. (from Daoqiang Zhang)