机器之心 & ArXiv Weekly Radiostation
参与:杜伟、楚航、罗若天
本周论文包括 MIT 造出的薄如纸的音响,以及腾讯 AI Lab 用全新策略优化算法在 1 V 1麻将中战胜人类冠军的「绝艺」。
目录
- Mugs: A Multi-Granular Self-Supervised Learning Framework
- E-KAR: A Benchmark for Rationalizing Natural Language Analogical Reasoning
- Contact Points Discovery for Soft-Body Manipulations with Differentiable Physics
- An Ultra-Thin Flexible Loudspeaker Based on a Piezoelectric Micro-Dome Array
- Actor-Critic Policy Optimization in a Large-Scale Imperfect-Information Game
- BOAT: Bilateral Local Attention Vision Transformer
- Too Afraid to Drive: Systematic Discovery of Semantic DoS Vulnerability in Autonomous Driving Planning under Physical-World Attacks
- ArXiv Weekly Radiostation:NLP、CV、ML 更多精选论文(附音频)
论文 1:Mugs: A Multi-Granular Self-Supervised Learning Framework
- 作者:Chao Lou、Wenjuan Han、Yuhuan Lin 等
- 论文链接:https://arxiv.org/pdf/2203.14415.pdf
摘要:现在的自监督学习方法一般都只侧重于单粒度特征的学习。譬如,最经典的对比学习 MoCo [2] 构建实例识别任务来区分单个实例。这样一来,MoCo 侧重学习更多实例级的细粒度特征,但是它不考虑数据中粗粒度的类别结构(cluster structure)。另外一类具有代表性的自监督学习是基于聚类的自监督学习,包含 DINO [3],DeepCluster [4] 等。这类方法将类似的实例聚到同一个虚拟类别中,从而学习聚类级别的粗粒度特性。然而,它不能很好地处理对细粒度特性有所需求的下游任务。因此,在下游任务的特征偏好未知的情况下,我们应该构建一个学习多粒度特征的自监督学习框架,以便尽可能多地处理不同下游任务。
本文中,颜水成老师带领的 Sea AI Lab 提出了一种多粒度自监督学习框架 Mugs [1],用以学习不同粒度的非监督特征,从而满足不同下游任务对不同粒度甚至多粒度特征的需求。在相同的实验设置下(相同数据集和模型等),该方法大幅超越了目前最好的自监督学习方法。在没有使用额外数据的情况下,该方法在 ImageNet 数据集上取得了目前最高的线性评估准确率(linear probing accuracy)82.1% 以及最高的 KNN 分类准确率 80.3%。
Mugs 自监督学习整体框架。
在 ImageNet-1K 上 Linear Probing 和 KNN 的精度对比。
Mugs 预训练的 ViT-Base/16 上的自注意力可视化。
推荐:满足不同下游任务特征需求!Sea AI Lab 提出多粒度自监督学习框架 Mugs,刷新多项 SOTA。
论文 2:E-KAR: A Benchmark for Rationalizing Natural Language Analogical Reasoning
- 作者:Jiangjie Chen、Rui Xu、Ziquan Fu 等
- 论文链接:https://arxiv.org/abs/2203.08480
摘要:类比在人类认知中占有重要地位,通过类比可以发现新的见解和证明日常的推理,比如老师在课堂上用煮熟的鸡蛋类比地球的构造,使得学生很快理解了不能亲自体验的知识。由于在多个领域有着独特价值,类比成为了人工智能研究领域的重要问题。在 NLP 中,我们比较熟悉的是以多选题形式出现的词类比识别问题,然而现有的词类比数据集关注简单的二元类比关系,并且缺乏用于届时类比推理过程的标注信息。因此,解答这一类问题并不能揭示神经网络模型类比推理的内在过程,这对探究类比的内部性质来说是不利的 [6]。我们亟需一类更困难的、可解释的类比推理数据集。
本文介绍来自复旦大学、字节跳动人工智能实验室等机构研究者的最新工作 E-KAR,相关工作已经被 ACL 2022 Findings 接收。E-KAR 是首个可解释的知识密集型类比推理数据集,由 1,655 个(中文)和 1,251 个(英文)来自中国公务员考试的问题组成,并提出了类比推理问题的两个基准任务,用于教会和验证模型学习类比的能力。
BATS 数据集中的示例。
类比推理中的结构映射。
词嵌入在 E-KAR 和简单类比数据集上的准确率。
推荐:复旦、字节等推出首个可解释类比推理数据集,中英双语。
论文 3:Contact Points Discovery for Soft-Body Manipulations with Differentiable Physics
- 作者:Sizhe Li、Zhiao Huang、Tao Du 等
- 论文链接:https://openreview.net/forum?id=mmUA7_O9mjY
摘要:最近的研究表明,可微分物理是解决软体控制任务的强大工具。然而,当末端执行器的初始接触点次优或在多阶段任务中执行接触点切换时,可微物理求解器经常会卡住并导致局部最小值。
为了解决该问题,来自罗彻斯特大学、MIT 等机构的研究者提出了一种接触点发现方法 (CPDeform)。该方法的关键思想是将基于最优传输的接触点发现算法集成到可微物理求解器中,以克服初始接触点次优或接触点切换时的局部极小值,并在单阶段任务和多阶段任务上分别取得良好性能。论文已被 ICLR 2022 接收为 Spotlight Presentation。
在多阶段任务上,CPDeform 基于运输优先级可以迭代切换末端执行器的接触点。
CPDefeorm 对于操纵器的放置。
CPDeform 迭代变形的过程。
推荐:让 AI 学会捏橡皮泥飞机,罗彻斯特大学、MIT 等提出接触点发现算法 CPDeform。
论文 4:An Ultra-Thin Flexible Loudspeaker Based on a Piezoelectric Micro-Dome Array
- 作者:Jinchi Han、Jeffrey Lang、Vladimir Bulovic
- 论文链接:https://ieeexplore.ieee.org/document/9714188
摘要:麻省理工学院的工程师们开发出了一种像纸一样薄的扬声器,可以将任何表面变成音源。它的重量相当于一个 10 美分的硬币,无论粘在什么表面上都能生成高品质的声音。这种薄膜扬声器产生的声音失真最小,而且使用的能量也比传统扬声器少得多。为了实现这些特性,研究人员开创了一种看似简单的制造技术,只需要三个基本步骤。利用这种技术,他们可以制造出足够大的超薄扬声器,覆盖汽车内部或整个房间。
此外,这种薄膜扬声器可以通过产生振幅相同但相位相反的声音,在嘈杂的环境(如飞机驾驶舱)中进行主动降噪。这种灵活的设备还可以用于沉浸式娱乐,比如在剧院或主题公园里提供三维音频。由于它重量轻,运行时需要的电量很少,因此非常适合电池寿命有限的智能设备应用。
实物展示。
薄膜扬声器的设计。
推荐:MIT 造出薄如纸的音响,可铺满全屋。
论文 5:Actor-Critic Policy Optimization in a Large-Scale Imperfect-Information Game
- 作者:Haobo Fu、Weiming Liu、Shuang Wu 等
- 论文链接:https://openreview.net/pdf?id=DTXZqTNV5nW
摘要:对于 AI 领域的研究者和从业者来说,腾讯 AI Lab 研发的围棋 AI「绝艺」的名字并不陌生。自 2016 年面世后,它已四次夺得世界顶级赛事冠军,包括 UEC 杯、AI 龙星战、腾讯世界人工智能围棋大赛、世界智能围棋公开赛等,并自 2018 年起无偿担任中国国家围棋队训练专用 AI。在围棋以外,腾讯 AI Lab 绝艺团队持续深入研究大规模二人零和博弈问题,从完美信息游戏(围棋)逐步拓展至非完美信息游戏(例如麻将)。
4 月 25 日,腾讯 AI Lab 宣布棋牌类 AI「绝艺」取得新突破,在 1v1 麻将(二人雀神)测试中战胜职业冠军选手。团队在大规模强化学习算法框架下提出了一个新的策略优化算法 Actor-Critic Hedge (ACH),部分解决了大规模深度强化学习自博弈收敛不到纳什均衡最优解的问题。该算法及对应二人麻将 benchmark 已通过论文开源,并被机器学习顶会 ICLR 2022 收录。
ACH 具体算法流程。
针对 1v1 麻将的具体神经网络设计图。
二人麻将:「二人雀神」。
推荐:让绝艺上桌打麻将,腾讯 AI Lab 全新策略优化算法战胜人类冠军。
论文 6:BOAT: Bilateral Local Attention Vision Transformer
- 作者:Tan Yu、 Gangming Zhao、 Ping Li 等
- 论文链接:https://arxiv.org/pdf/2201.13027v1
摘要:在这项研究中,来自百度研究院和香港大学的研究者重新思考了局部自注意力机制,提出了特征空间局部注意力(feature-space local attention 或简称 FSLA)。这种局部注意力从图像内容出发,把特征相似的 token 聚成类,并且只在每类特征的内部计算自注意力,相比全局自注意力显著降低了计算量,同时基本保留了原始的全局自注意力机制对远距离特征依赖的建模能力。
为了将特征空间局部注意力与图像空间局部注意力相结合,本文作者进一步提出了双边局部注意力 ViT (简称 BOAT),把特征空间局部注意力模块加入到现有的基于窗口的局部注意力视觉 Transformer 模型中,作为图像空间局部注意力的补充,大大提升了针对远距离特征依赖的建模能力,在几个基准数据集上的大量实验表明结合了特征空间局部注意力的模型明显优于现有的 ConvNet 和 ViT 模型。
BOAT 架构示意图。
BLA 快架构图。
算法 1:平衡二进制聚类。
推荐:引入特征空间,显著降低计算量:双边局部注意力 ViT 性能媲美全局注意力。
论文 7:Too Afraid to Drive: Systematic Discovery of Semantic DoS Vulnerability in Autonomous Driving Planning under Physical-World Attacks
- 作者:Ziwen Wan、Junjie Shen、Jalen Chuang 等
- 论文链接:https://www.ndss-symposium.org/wp-content/uploads/2022-177-paper.pdf
摘要:如今,高等级自动驾驶(AD)车辆,即在大多数情况下可以在没有人类驾驶员的情况下自动驾驶的车辆,已经公开上路。一些公司,如 Waymo、百度、GM Cruise,也已经在提供没有安全驾驶员公共服务。在大规模部署之前,了解此类系统中可能存在的安全风险非常重要。典型的自动驾驶系统具有传感、规划和控制步骤。传感步骤使用不同的传感器(例如,相机、激光雷达、GPS)来了解周围环境。规划步骤根据周围环境生成驾驶轨迹。规划将为自动驾驶车辆做出关键任务决策,例如避免碰撞、变道。控制步骤将为车辆生成控制命令,使其可以完成计划的轨迹。
先前的工作研究了在各种物理世界攻击下感知的安全风险,例如传感器欺骗或设计具有恶意外观、纹理或形状的对象。在这项工作中,我们完成了第一个特定于规划的安全分析。我们想研究攻击者是否可以通过简单地以正常方式改变周围环境(例如在另一条车道上驾驶另一辆车,或将常见物体放置在车道外)来将规划决策变为意想不到的决策。
自动驾驶规划语义 DoS 漏洞的问题定义。
Planfuzz 系统设计总览。
Autoware.AI 车道行驶的语义 DoS 漏洞以及可能带来的追尾。
推荐:畏首畏尾的自动驾驶安全风险:自动驾驶规划中语义 DoS 漏洞系统化分析。
ArXiv Weekly Radiostation
机器之心联合由楚航、罗若天发起的ArXiv Weekly Radiostation,在 7 Papers 的基础上,精选本周更多重要论文,包括NLP、CV、ML领域各10篇精选,并提供音频形式的论文摘要简介,详情如下:
本周 10 篇 NLP 精选论文是:
1. Efficient Training of Neural Transducer for Speech Recognition. (from Hermann Ney)
2. On the Effect of Pretraining Corpora on In-context Learning by a Large-scale Language Model. (from Kyunghyun Cho)
3. ICDBigBird: A Contextual Embedding Model for ICD Code Classification. (from George Michalopoulos)
4. $G^2$: Enhance Knowledge Grounded Dialogue via Ground Graph. (from Yang Gao)
5. Embedding Knowledge for Document Summarization: A Survey. (from Jian Yang, Xindong Wu)
6. Query2Particles: Knowledge Graph Reasoning with Particle Embeddings. (from Hongming Zhang)
7. Persona-Guided Planning for Controlling the Protagonist's Persona in Story Generation. (from Minlie Huang)
8. Why does Self-Supervised Learning for Speech Recognition Benefit Speaker Recognition?. (from Jian Wu)
9. UBERT: A Novel Language Model for Synonymy Prediction at Scale in the UMLS Metathesaurus. (from Srinivasan Parthasarathy)
10. A Thorough Examination on Zero-shot Dense Retrieval. (from Ji-Rong Wen)
本周 10 篇 CV 精选论文是:
1. Focal Sparse Convolutional Networks for 3D Object Detection. (from Xiangyu Zhang, Jian Sun, Jiaya Jia)
2. Visual Attention Emerges from Recurrent Sparse Reconstruction. (from Trevor Darrell)
3. Reliable Visual Question Answering: Abstain Rather Than Answer Incorrectly. (from Trevor Darrell, Marcus Rohrbach)
4. Contrastive Test-Time Adaptation. (from Trevor Darrell)
5. Self-Supervised Video Object Segmentation via Cutout Prediction and Tagging. (from Mubarak Shah)
6. Tag-Based Attention Guided Bottom-Up Approach for Video Instance Segmentation. (from Mubarak Shah)
7. Source-Free Domain Adaptation via Distribution Estimation. (from Dacheng Tao)
8. Neural Maximum A Posteriori Estimation on Unpaired Data for Motion Deblurring. (from Dacheng Tao)
9. ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation. (from Dacheng Tao)
10. EMOCA: Emotion Driven Monocular Face Capture and Animation. (from Michael J. Black)
本周 10 篇 ML 精选论文是:
1. PyGOD: A Python Library for Graph Outlier Detection. (from Philip S. Yu)
2. Estimating and Penalizing Induced Preference Shifts in Recommender Systems. (from Stuart Russell)
3. On Fragile Features and Batch Normalization in Adversarial Training. (from Bernt Schiele)
4. Federated Learning Enables Big Data for Rare Cancer Boundary Detection. (from Christos Davatzikos)
5. Reinforced Causal Explainer for Graph Neural Networks. (from Tat-Seng Chua)
6. Long-term Spatio-temporal Forecasting via Dynamic Multiple-Graph Attention. (from Junshan Zhang)
7. Provably Efficient Kernelized Q-Learning. (from Hao Su)
8. Staying the course: Locating equilibria of dynamical systems on Riemannian manifolds defined by point-clouds. (from Ioannis G. Kevrekidis)
9. Differentially Private Learning with Margin Guarantees. (from Mehryar Mohri)
10. ISTRBoost: Importance Sampling Transfer Regression using Boosting. (from Yang Liu)
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:content@jiqizhixin.com