机器之心 & ArXiv Weekly Radiostation
参与:杜伟、楚航、罗若天
本周重要论文包括朱松纯团队提出的一种机器实时理解人类价值观的计算框架,以及 28 小时学会物理世界规则的 DeepMind 新模型。
目录:
- In situ bidirectional human-robot value alignment
- Optical observation of single spins in silicon
- Attribute Surrogates Learning and Spectral Tokens Pooling in Transformers for Few-shot Learning
- Intuitive physics learning in a deep-learning model inspired by developmental psychology
- Cloning Outfits from Real-World Images to 3D Characters for Generalizable Person Re-Identification
- An Improved One millisecond Mobile Backbone
- PrefixRL: Optimization of Parallel Prefix Circuits using Deep Reinforcement Learning
- ArXiv Weekly Radiostation:NLP、CV、ML 更多精选论文(附音频)
论文 1:In situ bidirectional human-robot value alignment
- 作者:LUYAO YUAN 等
- 论文地址:https://www.science.org/doi/10.1126/scirobotics.abm4183
摘要:本论文提出了一个可解释的人工智能(XAI)系统,阐述了一种机器实时理解人类价值观的计算框架,并展示了机器人如何与人类用户通过实时沟通完成一系列复杂人机协作任务。朱松纯团队长期从事可解释人工智能相关工作。朱松纯团队长期从事可解释人工智能相关工作。此文是团队第二篇发表在 Science Robotics 的关于可解释人工智能的论文。这项研究涵盖了认知推理、自然语言处理、机器学习、机器人学等多学科领域,是朱松纯教授团队交叉研究成果的集中体现。
人机价值对齐过程总览。
推荐:朱松纯团队新作:让 AI「读懂」人类价值观,登上 Science Robotics。
论文 2:Optical observation of single spins in silicon
- 作者:Daniel B. Higginbottom 等
- 论文地址:https://www.nature.com/articles/s41586-022-04821-y
摘要:量子计算机在理论上可以解决经典计算机几十亿年都无法解决的问题,但前提是它们必须拥有足够多的量子比特。
近日,来自西蒙弗雷泽大学的研究者在单个芯片上制造出了超过 15 万个硅基量子比特,它们有希望与光连接在一起,从而有助于制造出与量子互联网连接的强大量子计算机。相关论文《Optical Observation of Single Spins in Silicon》已发表在了最新一期的《自然》杂志上。
推荐:一块硅芯片上造出 15 万量子比特:单自旋的首次光学检测登上 Nature。
论文 3:Attribute Surrogates Learning and Spectral Tokens Pooling in Transformers for Few-shot Learning
- 作者:Yangji He 等
- 论文地址:https://arxiv.org/abs/2203.09064
摘要:复旦大学、上海市智能信息处理重点实验室和香港大学的研究者提出一种基于 DINO 知识蒸馏架构的分层级联 Transformer (HCTransformer) 网络,通过谱聚类 tokens 池化以利用图像的内在结构来减少前景内容和背景噪声的模糊性,同时也提供了对不同数据集对于 patch token 切分大小的不同需求的适用性选择;并利用一种非传统的监督方式,通过标签的潜在属性在图像标签中找到更丰富的视觉信息,而非简单地学习由标签分类的视觉概念。
实验表明,本文的方法在各个流行的 Few-Shot Classification 数据集上均取得了 SOTA 性能。
整体方法架构,包括三个级联的 Transformer 网络,每一阶段都是一个 teacher-student 的知识蒸馏结构。
推荐:提高小数据集利用效率,复旦等提出分层级联 ViT 网络。论文被 CVPR 2022 收录。
论文 4:Intuitive physics learning in a deep-learning model inspired by developmental psychology
- 作者:Luis S. Piloto 等
- 论文地址:https://www.nature.com/articles/s41562-022-01394-8
摘要:从 AlphaFold 到数学推理,DeepMind 一直在尝试将 AI 和基础科学结合。现在,DeepMind 又创建了一个可以学习简单物理规则的新模型。发育心理学家测试分析了婴儿如何通过目光来跟随物体的运动。例如当播放视频中有一个球突然消失时,孩子们会表现出惊讶。DeepMind 的计算机科学家 Luis Piloto 及其同事希望为人工智能 (AI) 开发类似的测试。
该团队使用立方体和球等简单物体的动画视频训练了一个神经网络,该模型通过从大量数据中发现模式来学习。论文于 7 月 11 日发表在《Nature Human Behaviour》上。
PLATO 包括两个组件:感知模块(左)和动态预测(右)。
推荐:像婴儿一样学习,DeepMind 新模型 28 小时学会物理世界规则。研究登上 Nature 子刊。
论文 5:Cloning Outfits from Real-World Images to 3D Characters for Generalizable Person Re-Identification
- 作者:Yanan Wang 等
- 论文地址:https://arxiv.org/pdf/2204.02611.pdf
摘要:本文从单张照片克隆整套衣服穿搭到三维人物,构建了一个包含 5621 个三维人物模型的虚拟行人数据集 ClonedPerson。这些虚拟人物在游戏环境里模拟真实监控渲染了多场景下的多摄像机视频。
实验表明,该数据集在行人再辨识任务取得了良好的泛化性,并可应用于无监督域适应、无监督学习、人体关键点检测等多个相关任务。论文已被 CVPR 2022 接收,数据和代码已开源。
RandPerson、UnrealPerson 和 ClonedPerson 的对比图。
推荐:从单照片构建大规模真实穿搭虚拟行人数据集,研究入选 CVPR 2022。
论文 6:An Improved One millisecond Mobile Backbone
- 作者:Pavan Kumar Anasosalu Vasu 等
- 论文地址:https://arxiv.org/abs/2206.04040
摘要:移动设备的高效神经网络主干通常针对 FLOP 或参数计数等指标进行优化。但当部署在移动设备上,这些指标与网络的延迟可能并没有很好的相关性。基于此,来自苹果的研究者通过在移动设备上部署多个移动友好网络对不同指标进行广泛分析,探究了现有高效神经网络的架构和优化瓶颈,提供了缓解这些瓶颈的方法。
该研究设计了一个高效的主干架构 MobileOne,它的变体在 iPhone12 上的推理时间少于 1 ms,在 ImageNet 上的 top-1 准确率为 75.9%。
MobileOne 在 ImageNet 上的 top-1 准确率比 EfficientNet 在相似的延迟下高 2.3%。
推荐:不到 1ms 在 iPhone12 上完成推理,苹果提出移动端高效主干网络 MobileOne。
论文 7:PrefixRL: Optimization of Parallel Prefix Circuits using Deep Reinforcement Learning
- 作者:Rajarshi Roy 等
- 论文地址:https://arxiv.org/pdf/2205.07000.pdf
摘要:大量的算术电路阵列为英伟达 GPU 提供了动力,以实现前所未有的 AI、高性能计算和计算机图形加速。因此,改进这些算术电路的设计对于提升 GPU 性能和效率而言至关重要。如果 AI 学习设计这些电路会怎么样呢?
在近期英伟达的论文《PrefixRL: Optimization of Parallel Prefix Circuits using Deep Reinforcement Learning》中,研究者证明了 AI 不仅可以从头开始设计这些电路,而且 AI 设计的电路比最先进电子设计自动化(EDA)工具设计的电路更小、更快。
图左 PrefixRL AI 设计的 64b 加法器电路比图右最先进 EDA 工具设计的电路小 25%。
推荐:英伟达用 AI 设计 GPU 算术电路,面积比最先进 EDA 减少 25%,速度更快、更加高效。
ArXiv Weekly Radiostation
机器之心联合由楚航、罗若天发起的ArXiv Weekly Radiostation,在 7 Papers 的基础上,精选本周更多重要论文,包括NLP、CV、ML领域各10篇精选,并提供音频形式的论文摘要简介,详情如下:
本周 10 篇 NLP 精选论文是:
1. Layout-Aware Information Extraction for Document-Grounded Dialogue: Dataset, Method and Demonstration. (from Jian Sun)
2. Towards Neural Numeric-To-Text Generation From Temporal Personal Health Data. (from Mohammed J. Zaki)
3. N-Grammer: Augmenting Transformers with latent n-grams. (from Zhifeng Chen, Yonghui Wu)
4. A Study of Syntactic Multi-Modality in Non-Autoregressive Machine Translation. (from Tie-Yan Liu)
5. ASL-Homework-RGBD Dataset: An annotated dataset of 45 fluent and non-fluent signers performing American Sign Language homeworks. (from Yingli Tian)
6. Language models show human-like content effects on reasoning. (from Dharshan Kumaran)
7. Effective Few-Shot Named Entity Linking by Meta-Learning. (from Jianyong Wang)
8. The Harvard USPTO Patent Dataset: A Large-Scale, Well-Structured, and Multi-Purpose Corpus of Patent Applications. (from Stuart M. Shieber)
9. Zero-shot Cross-lingual Transfer is Under-specified Optimization. (from Mark Dredze)
10. Sockeye 3: Fast Neural Machine Translation with PyTorch. (from Marcello Federico)
本周 10 篇 CV 精选论文是:
1. Beyond Transfer Learning: Co-finetuning for Action Localisation. (from Cordelia Schmid)
2. 6D Camera Relocalization in Visually Ambiguous Extreme Environments. (from Leonidas J. Guibas)
3. Video Graph Transformer for Video Question Answering. (from Tat-Seng Chua, Shuicheng Yan)
4. An Embedding-Dynamic Approach to Self-supervised Learning. (from John Canny)
5. 3D Concept Grounding on Neural Fields. (from Joshua B. Tenenbaum)
6. k-means Mask Transformer. (from Alan Yuille, Liang-Chieh Chen)
7. Domain Gap Estimation for Source Free Unsupervised Domain Adaptation with Many Classifiers. (from Lei Zhang)
8. E2FIF: Push the limit of Binarized Deep Imagery Super-resolution using End-to-end Full-precision Information Flow. (from Lei Zhang)
9. Learning High-quality Proposals for Acne Detection. (from Lei Zhang)
10. Enforcing connectivity of 3D linear structures using their 2D projections. (from Pascal Fua)
本周 10 篇 ML 精选论文是:
1. TCT: Convexifying Federated Learning using Bootstrapped Neural Tangent Kernels. (from Michael I. Jordan)
2. Revealing Unfair Models by Mining Interpretable Evidence. (from Jian Pei)
3. Scalable Privacy-enhanced Benchmark Graph Generative Model for Graph Convolutional Networks. (from Ruslan Salakhutdinov)
4. Exploring Adversarial Examples and Adversarial Robustness of Convolutional Neural Networks by Mutual Information. (from Jinde Cao)
5. Physics-Informed Neural Operators. (from George Em Karniadakis)
6. In-memory Realization of In-situ Few-shot Continual Learning with a Dynamically Evolving Explicit Memory. (from Luca Benini)
7. Invisible Backdoor Attacks Using Data Poisoning in the Frequency Domain. (from Kai Chen)
8. Interactive Recommendations for Optimal Allocations in Markets with Constraints. (from Kannan Ramchandran)
9. Reactive Exploration to Cope with Non-Stationarity in Lifelong Reinforcement Learning. (from Sepp Hochreiter)
10. Contextual Bandits with Large Action Spaces: Made Practical. (from John Langford)
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:content@jiqizhixin.com