2022 年一季度的尾声,在这个季度中,你是否担忧自己错过了哪些重要的技术工作?抑或想要检验下自己是不是在这一季度又有了哪些基础知识的增长?
本篇是机器之心「虎卷er行动 · 春卷er」的第一卷,旨在为老伙计们汇总并逐一盘点2022年开春以来机器之心编辑部报道发现的社区热议的技术工作,并回顾近期举办的国际AI顶会的最佳论文。
本卷资料收录
2022春季热议工作:16项
2022春季国际顶会最佳论文:10篇
2022 春季 · 机器之心报道社区热议工作
热议工作1:阿里达摩院语音实验室提出了一种具有线性复杂度 (O(N)) 的计算模型 PoNet
本文的出发点基于 Transformer 模型中 Self-attention 机制相对于句子长度的复杂度是二次的(O(N^2)),因此在计算速度和显存空间方面都制约了它在长序列中的应用。PoNet ,使用 Pooling 网络替代 Self-attention 机制对句子词汇进行混合,从而捕捉上下文信息。
根据实验表明,PoNet 在长文本测试 Long Range Arena (LRA) 榜上在准确率上比 Transformer 高 2.28 个点,在GPU上运行速度是 Transformer 的 9 倍,显存占用只有 1/10。此外,实验也展示了 PoNet 的迁移学习能力,PoNet-Base 在 GLUE 基准上达到了 BERT-Base 的 95.7% 的准确性。
论文地址:https://arxiv.org/abs/2110.02442
热议工作2:史上首次,强化学习算法控制核聚变登上 Nature:DeepMind 让人造太阳向前一大步
今年 2 月份,EPFL 和 DeepMind 使用深度强化学习控制托卡马克装置等离子体的研究登上了《自然》杂志。DeepMind 控制团队负责人 Martin Riedmiller 表示:「人工智能,特别是强化学习,特别适合解决托卡马克中控制等离子体的复杂问题。」
DeepMind 提出的模型架构如下图所示,该方法具有三个阶段:
- 第一阶段:设计者为实验指定目标,可能伴随着随时间变化的控制目标;
- 第二阶段:深度 RL 算法与托卡马克模拟器交互,以找到接近最优的控制策略来满足指定目标;
- 第三阶段:以神经网络表示的控制策略直接在托卡马克硬件上实时运行(零样本)。
论文地址:https://www.nature.com/articles/s41586-021-04301-9
热议工作3:B 站开源超分辨率算法 Real-CUGAN,可以把动画图像的质量提升 2 到 4 倍
该项目来自 bilibili 人工智能实验室。据作者介绍,Real-CUGAN 是一个使用百万级动漫数据进行训练的,结构与 Waifu2x 兼容的通用动漫图像超分辨率模型。相比目前市面上已有的通用化超分辨率算法,Real-CUGAN 的 AI 模型经过了更大体量数据集的训练,处理二次元内容的效果更佳。
它支持 2x3x4x 倍超分辨率,其中 2 倍模型支持 4 种降噪强度与保守修复,3 倍 / 4 倍模型支持 2 种降噪强度与保守修复。目前,该项目在 Github 上的 Star 量已达 3.1k。
项目链接:https://github.com/bilibili/ailab/tree/main/Real-CUGAN
热议工作4:DeepMind 发布了 基于 Transformer 模型的 AlphaCode,可以编写与人类相媲美的计算机程序
该研究者将 AlphaCode 放在 Codeforces 挑战中进行了测试,Codeforces 是一个具有竞争力的编程平台,它类似于国际象棋中使用的 Elo 评级系统,每周分享编程挑战和问题排名。
不同于编程人员在打造商业应用程序时可能面临的任务,Codeforces 的挑战更加独立,需要对计算机科学中的算法和理论概念有更广泛的了解,一般是结合逻辑、数学和编码专业知识的非常专业的难题。
AlphaCode 针对 Codeforces 网站上 5000 名用户解决的 10 项挑战进行了测试,总体排名位于前 54.3%。DeepMind 估计,AlphaCode 系统的 Codeforces Elo 为 1238,使其过去六个月内在该网站上竞争的用户中排名前 28%。
论文地址:https://storage.googleapis.com/deepmind-media/AlphaCode/competition_level_code_generation_with_alphacode.pdf
热议工作5:OpenAI 开发的神经定理证明器成功解出了两道国际奥数题
OpenAI 为微软研发多年的数学 AI——Lean 创建了一个神经定理证明器,用于解决各种具有挑战性的高中奥林匹克问题,包括两个改编自 IMO 的问题和来自 AMC12、AIME 竞赛的若干问题。
该证明器使用一个语言模型来寻找形式化命题(formal statement)的证明。每次发现一个新的证明,研究者就把它作为新的训练数据,这改善了神经网络,使它能够在迭代中找到越来越难的命题的解决方案。
该证明器在 miniF2F 基准测试中实现了 SOTA(41.2% vs 29.3%)水平,miniF2F 包含一组具有挑战性的高中奥林匹克问题。
论文链接:https://arxiv.org/abs/2202.01344
热议工作6:清华大学和阿里达摩院针对行人重识别联合提出了一种新的 Target-Aware Generation Pipeline 来生成合成人物图像
行人重识别面临着隐私问题,因此收集真实数据变得更加困难。同时,标注 ReID 数据的人工成本仍然很高,进一步阻碍了 ReID 研究的发展。因此,许多方法转向为 ReID 算法生成合成图像作为替代,而不是真实图像。然而,合成图像和真实图像之间存在着不可避免的领域差距。
为了解决这个问题,清华大学和阿里达摩院联合提出了一种新的 Target-Aware Generation pipeline 来生成合成人物图像,称为 TAGPerson。实验表明,TAGPerson 可以实现比 MSMT17 上的广义合成图像更高的性能,即 47.5% 与 40.9% 的 rank-1 精度。
论文链接:http://arxiv.org/abs/2112.14239v1
热议工作7:阿里巴巴达摩院研发的数学规划求解器 MindOpt 参加国际权威榜单测评,在单纯形法测评中排名第一,打破世界纪录
MindOpt 优化求解器是一款高效的优化问题求解软件,可广泛应用于科研、电力能源、工业制造、交通物流、零售、金融、云计算等领域,是工业软件之芯,是帮助企业“降本增效”的利器。现阶段,我们发布了用于求解线性规划问题的原始/对偶单纯形法 (simplex method) 和内点法 (interior point method)。
国内为数不多的自研求解器“达摩院 MindOpt”二度刷新世界纪录,在设立已有20余年、由美国亚利桑那州立大学 Hans Mittelmann 教授维护的国际权威测评中,再次获得世界第一。在Hans Mittleman 的单纯形法测试上,达摩院 Mindopt 以平均 40 秒一题的速度成功求解了全部 40 个线性规划问题,其中最大的问题规模有 115 万个变量,75 万个约束条件。MindOpt 在云计算资源的调度中充当最强决策,节约了数亿元的成本投入,并有望助力电力系统的优化和提升。2021 年伊始,达摩院 MindOpt 通过阿里云天池平台向全社会开放,成为中国第一个免费开放的商用求解器。
热议工作8:浙大、阿里达摩联合提出用于多元时间序列预测的多尺度自适应图神经网络,取得SOTA
多元时间序列(MTS)预测在智能应用的自动化和优化方面发挥着重要作用。这是一项具有挑战性的任务,因为我们需要同时考虑复杂的变量内依赖关系和变量间依赖关系。现有的工作只是在单一变量间依赖关系的帮助下学习时间模式。然而,在许多现实世界的 MTS 中存在着多尺度的时间模式。单一的变量间依赖关系使得模型更倾向于学习一种突出的、共享的时间模式。
在本文中,我们提出一个多尺度自适应图神经网络(MAGNN)来解决上述问题。MAGNN 利用多尺度金字塔网络来保留不同时间尺度上的基本时间依赖关系。由于变量间的依赖关系在不同的时间尺度下可能是不同的,因此设计了一个自适应图学习模块来推断特定尺度的变量间依赖关系,而不需要预先定义预设。
考虑到多尺度特征表示和特定尺度的变量间依赖关系,我们引入了一个多尺度时间图神经网络来共同建立变量内依赖关系和变量间依赖关系模型。之后,我们开发了一个尺度融合模块,以有效地促进不同时间尺度之间的协作,并自动捕捉贡献的时间模式的重要性。在四个真实世界的数据集上进行的实验表明,MAGNN 在不同的环境下都优于最先进的方法。
论文链接:http://arxiv.org/abs/2201.04828v1
热议工作9:阿里提出用于异构推荐深度统一表示的基于内核的神经网络,取得 SOTA
推荐系统在学术界和工业界都是一个被广泛研究的任务。以前的工作主要集中在同构的推荐上,对于异构的推荐系统几乎没有进展。然而,异质性推荐,例如推荐不同类型的物品,包括产品、视频、名人购物笔记等等,是目前的主流。最先进的方法无法利用不同类型物品的属性,因此存在着数据稀少的问题。而且,将具有不同特征空间的物品联合起来表示,确实具有很大的挑战性。
为了解决这个问题,我们提出了一个基于核的神经网络,即异质推荐的深度统一表征(DURation),以联合建模异质项目的统一表征,同时保留其原始特征空间拓扑结构。在理论上,我们证明了所提模型的表示能力。此外,我们在真实世界的数据集上进行了广泛的实验。实验结果表明,与现有的最先进的模型相比,我们的模型取得了明显的改进(例如,AUC 分数提升 4.1%~34.9%,在线 CTR 提升 3.7%)。
论文链接:http://arxiv.org/abs/2201.05861v1
热议工作10:阿里巴巴达摩院为中文语音的 NER 引入了一个新的数据集 AISEHLL-NER
语音的命名实体识别(NER)是口语理解(SLU)任务之一,目的是为了从语音信号中提取语义信息。语音的NER通常是通过两步流水线完成的,包括(1)使用自动语音识别(ASR)系统处理音频;(2)将NER标记器应用到ASR的输出。
最近的工作显示了端到端(E2E)方法对英语和法语语音进行NER的能力,它基本上是实体感知的ASR。然而,由于中文中存在许多同音字和多音字,中文语音的NER实际上是一项更具挑战性的任务。
在本文中,作者介绍了一个新的数据集AISEHLL-NER,用于对中文语音进行 NER。我们进行了大量的实验来探索几种最先进的方法的性能。实验结果表明,通过结合实体感知的 ASR 和预训练的NER标签器可以提高性能,这可以很容易地应用于现代 SLU 管道。
论文链接:http://arxiv.org/abs/2202.08533v1
热议工作11:谷歌 AI 一次注释了 10%的已知蛋白质序列,超过人类十年研究成果
蛋白质是组成人体一切细胞、组织的重要成分。机体所有重要的组成部分都需要有蛋白质的参与。
目前已知存在的蛋白质种类有数十亿,但其中大约有三分之一的功能是不可知的。我们迫切地需要探索这片未知区域,因为它们关系到抗菌素耐药性,甚至气候变化等重要议题。例如,青霉素是蛋白质之间自然反应的产物,植物蛋白可用于减少大气中的二氧化碳。
近日,谷歌与欧洲生物信息学研究所合作开发了一种技术 ProtCNN,其能够使用神经网络可靠地预测蛋白质功能,帮助我们缩小蛋白质宇宙中最后不可见的区域。
谷歌表示,这种新方法让我们可以较为准确地预测蛋白质功能、突变的功能效应,并进行蛋白质设计,进而应用于药物发现、酶设计,甚至是了解生命的起源。
谷歌提出的方法可靠地预测了更多蛋白质的作用,而且它们快速、便宜且易于尝试,其研究已让主流数据库 Pfam 中注释的蛋白质序列增加了近 10%,一举超过了过去十年的增速,并预测了 360 种人类蛋白质功能。
论文链接:https://www.nature.com/articles/s41587-021-01179-w
热议工作12:为了自动驾驶,谷歌用 NeRF 在虚拟世界中重建了旧金山市
训练自动驾驶系统需要高精地图,海量的数据和虚拟环境,每家致力于此方向的科技公司都有自己的方法,Waymo 有自己的自动驾驶出租车队,英伟达创建了用于大规模训练的虚拟环境 NVIDIA DRIVE Sim 平台。
2022年初,来自 Google AI 和谷歌自家自动驾驶公司 Waymo 的研究人员实践了一个新思路,他们尝试用 280 万张街景照片重建出整片旧金山市区的 3D 环境。
Block-NeRF 是一种神经辐射场的变体,可以表征大规模环境。具体来说,该研究表明,当扩展 NeRF 以渲染跨越多个街区的城市场景时,将场景分解为多个单独训练的 NeRF 至关重要。这种分解将渲染时间与场景大小分离,使渲染能够扩展到任意大的环境,并允许对环境进行逐块更新。
论文链接:https://arxiv.org/abs/2202.05263
热议工作13:1370 亿参数、接近人类水平,谷歌对话 AI 模型 LaMDA 放出论文
语言模型可以完成不同任务,例如将一种语言翻译成另一种语言,将长文档总结为简短的摘要等。在众多任务中,开放域对话可能是最困难的任务之一,因为开放域对话需要模型覆盖不同的主题。在对话任务中,模型应该遵循负责任 AI(Responsible AI)实践,并避免做出没有外部信息源支持的事实陈述。
超过 50 多位谷歌研究者参与撰写的论文《 LaMDA: Language Models for Dialog Applications 》介绍了语言模型 LaMDA 的最新进展。论文概括了他们如何在安全、可靠和高质量的对话应用程序方面取得进展。LaMDA 通过微调一系列专门用于对话的、基于 Transformer 的神经语言模型构建的,具有多达 137B 个参数,模型还可以利用外部知识源进行对话。
论文链接:https://arxiv.org/pdf/2201.08239.pdf
热议工作14:MetaAI(原 Facebook AI)提出了一种名为 data2vec 的自监督学习新架构,在多种模态的基准测试中超越了现有 SOTA 方法。
MetaAI(原 Facebook AI)提出了一种名为 data2vec 的自监督学习新架构,在多种模态的基准测试中超越了现有 SOTA 方法。data2vec 是首个适用于多模态的高性能自监督算法。
Meta AI 将 data2vec 分别应用于语音、图像和文本,在计算机视觉、语音任务上优于最佳单一用途算法,并且在 NLP 任务也能取得具有竞争力的结果。此外,data2vec 还代表了一种新的、全面的自监督学习范式,其提高了多种模态的进步,而不仅仅是一种模态。data2vec 不依赖对比学习或重建输入示例,除了帮助加速 AI 的进步,data2vec 让我们更接近于制造能够无缝地了解周围世界不同方面的机器。
data2vec 使研究者能够开发出适应性更强的 AI,Meta AI 相信其能够在多种任务上超越已有系统。
论文链接:https://ai.facebook.com/research/data2vec-a-general-framework-for-self-supervised-learning-in-speech-vision-and-language
热议工作15:不可思议!英伟达新技术训练 NeRF 模型最快只需 5 秒,单张 RTX 3090 实时渲染,已开源
NeRF 是在 2020 年由来自加州大学伯克利分校、谷歌、加州大学圣地亚哥分校的研究者提出,其能够将 2D 图像转 3D 模型,可以利用少数几张静态图像生成多视角的逼真 3D 图像。之后又出现了改进版模型 NeRF-W(NeRF in the Wild),可以适应充满光线变化以及遮挡的户外环境。
然而,NeRF 的效果是非常消耗算力的:例如每帧图要渲染 30 秒,模型用单个 GPU 要训练一天。因此,后续的研究都在算力成本方面进行了改进,尤其是渲染方面。
现在,英伟达训练 NeRF,最快只需 5 秒(例如训练狐狸的 NeRF 模型)!实现的关键在于一种多分辨率哈希编码技术,英伟达在论文《 Instant Neural Graphics Primitives with a Multiresolution Hash Encoding》进行了详细解读。
论文链接:https://nvlabs.github.io/instant-ngp/assets/mueller2022instant.pdf
热议工作16:达摩院推出十万亿参数超大规模通用性人工智能大模型 M6-10T
2021 年 11 月 8 日,阿里巴巴达摩院公布多模态大模型 M6 最新进展,其参数已从万亿跃迁至 10 万亿,规模远超谷歌、微软此前发布的万亿级模型,成为全球最大的AI预训练模型。同时,M6 做到了业内极致的低碳高效,使用 512 GPU 在 10 天内即训练出具有可用水平的10万亿模型。相比去年发布的大模型 GPT-3,M6 实现同等参数规模,能耗仅为其 1%。
达摩院提出了一个简单的训练策略,称为 "Pseudo-to-Real",用于高内存占用率要求的大型模型。Pseudo-to-Real 与具有顺序层结构的大型模型兼容。除了展示 "Pseudo-to-Real "的应用,他们还提供了一种技术,即 Granular CPU offloading(粒状 CPU 卸载),以管理 CPU 内存来训练大型模型,并保持高的 GPU 实用性。在适当数量的资源上快速训练极端规模的模型可以带来更小的碳足迹,并为更环保的人工智能做出贡献。
论文链接:https://arxiv.org/abs/2110.03888
热议工作17:阿里达摩院开源深度语言模型体系 AliceMind
阿里巴巴达摩院作为最早投入预训练语言模型研究的团队之一,历经三年研发出深度语言模型体系 AliceMind, 在通用语言模型 StructBERT 的基础上,拓展到多语言、生成式、多模态、结构化、知识驱动等方向,能力全面。
其中的模型先后登顶 GLUE、CLUE、XTREME、VQA Challenge、DocVQA、MS MARCO 在内的自然语言处理领域六大权威榜单,领先业界,相关工作论文被 AI/NLP 顶会接收,并在 6 月入选 2021 世界人工智能大会最高奖 SAIL 奖 TOP30 榜单,同月,达摩院宣布正式开源 AliceMind。
达摩院深度语言模型体系 AliceMind,包括通用语言模型 StructBERT、多语言 VECO、生成式 PALM、多模态 StructVBERT、结构化 StructuralLM、知识驱动 LatticeBERT、机器阅读理解 UED、超大模型 PLUG 等。
AliceMind 具有阅读、写作、翻译、问答、搜索、摘要生成、对话等多种能力,目前已成为阿里的语言技术底座,日均调用量超过 50 亿次,活跃场景超过 200 个,已在跨境电商、客服、广告等数十个核心业务应用落地。AliceMind 已上线到内部平台,开箱即用,目前支持训练、精调、蒸馏、测试、部署五大功能,只需简单操作即可完成语言模型从训练到部署的完整链路。
AliceMind 开源地址:https://github.com/alibaba/AliceMind
AliceMind 体验入口:https://nlp.aliyun.com/portal#/alice
2022 春季 · 国际顶会 Best Papers · AAAI 2022
最佳论文1:巴黎第九大学、法国国家科学研究中心、Meta AI 等提出了一种样本高效算法理论上保证推荐系统不会降低用户体验(Outstanding Paper Award)
推荐系统正面临审查,因为它们对用户的影响越来越大。当前的公平审计仅限于敏感群体级别的粗粒度奇偶校验评估。该研究建议审计应该「envy-freeness」,这是一个与个人偏好一致的更细化的标准:每个用户都应该更喜欢符合自己的推荐而不是其他用户的推荐。由于「envy」审计需要估计用户现有推荐之外的偏好。
该研究提出了一种样本高效算法,理论上保证推荐系统不会降低用户体验。此外,他们还研究了所提方法在现实世界推荐数据集上可以实现的权衡。
下图为审计场景:审计员要么在当前推荐中向用户展示他们的推荐系统,或通过向其他用户显示推荐来进行探索:
该研究提出的 OCEF 算法流程如下所示:
论文链接:https://arxiv.org/pdf/2104.14527.pdf
最佳论文2:中科院自动化所研发轻量型德州扑克 AI 程序 AlphaHoldem,达到人类专业玩家水平(Distinguished Papers)
中科院自动化所兴军亮研究员领导的博弈学习研究组提出了一种高水平轻量化的两人无限注德州扑克 AI 程序——AlphaHoldem。其决策速度较 DeepStack 速度提升超 1000 倍,与高水平德州扑克选手对抗的结果表明其已经达到了人类专业玩家水平,相关工作已被 AAAI 2022 接收。
中国科学院自动化研究所兴军亮研究员领导的博弈学习研究组在德州扑克 AI 方面取得了重要进展,提出了一种高水平轻量化的两人无限注德州扑克 AI 程序AlphaHoldem。AlphaHoldem 整体上采用一种精心设计的伪孪生网络架构,并将一种改进的深度强化学习算法与一种新型的自博弈学习算法相结合,在不借助任何领域知识的情况下,直接从牌面信息端到端地学习候选动作进行决策。
AlphaHoldem 使用了 1 台包含 8 块 GPU 卡的服务器,经过三天的自博弈学习后,战胜了 Slumbot[7]和 DeepStack[3]。在每次决策时,AlphaHoldem 仅需不到 3 毫秒,比 DeepStack 速度提升超过了 1000 倍。同时,AlphaHoldem 与四位高水平德州扑克选手对抗 1 万局的结果表明其已经达到了人类专业玩家水平。
论文链接:
https://www.aaai.org/AAAI22Papers/AAAI-2268.ZhaoE.pdf
最佳论文3:荷语布鲁塞尔自由大学、隆德大学等在切割平面证明系统的基础上开发了一种用于优化问题的认证方法(Distinguished Papers)
对称性和支配性的打破对于解决困难的组合搜索和优化问题至关重要,但这些技术的正确性有时依赖于微妙的论证。
该工作在切割平面证明系统的基础上,开发了一种用于优化问题的认证方法,其中对称性和支配性的突破很容易表达。
实验评估表明可以有效地验证完全通用的对称性破缺在布尔可满足性(SAT)求解中有效地验证了全面的对称性突破,从而首次了一个统一的方法来证明一系列先进的 SAT 技术的统一认证方法,其中还包括 XOR 和心数推理。
此外,该研究提出的方法应还可应用于最大剪裁求解和约束性编程作为概念证明,该方法适用于更广泛的组合。
论文链接:
https://www.bartbogaerts.eu/articles/2022/002-AAAI_CertifiedSymmetryBreaking/CertifiedSymmetry.pdf
最佳论文4:柏林工业大学高效算法研究小组研究了 House Allocation Model 中激发偏好的任务,以找到必然最优的匹配(Distinguished Papers)
该研究对 House Allocation Model 中激发偏好的任务进行了探索。以 Hosseini 等人[AAAI'21]的最新模型为基础,该工作重点研究了激发偏好的任务,以找到必然最优的匹配,即在所激发的偏好的所有可能完成情况下的最优。
本文遵循 Hosseini 等人的方法,研究了必然帕累托最优(NPO)和必然等级最优(NRM)匹配的诱导,回答了他们的开放性问题,并给出了在次优查询模型中引出NRM 匹配的在线算法。
该算法具有 3/2 的竞争性,也就是说,它最多只需要最优算法的 3/2 的查询次数。除此之外,该研究还通过引入两个新的自然诱导模型和研究确定其中是否存在必然的最优匹配的复杂性,以及给出这些模型的在线算法来扩展这一研究领域。
论文链接:https://arxiv.org/pdf/2112.04227.pdf
最佳论文5:拉德堡德大学、牛津大学等针对安全关键环境下运行的自主系统控制器的随机扰动提出了一种新的规划方法(Distinguished Papers)
在安全关键环境下运行的自主系统的控制器必须考虑到随机扰动。这种干扰通常被建模为过程噪声,常见的假设是基础分布是已知的和/或高斯的。然而,在实践中,这些假设可能是不现实的,并可能导致真实噪声分布的近似度很低。
该工作提出了一种新的规划方法,它不依赖于噪声分布的任何明确表示,特别是解决了计算控制器的问题,该控制器为安全到达目标提供了概率上的保证。
作者提出将连续系统抽象为一个离散状态模型,通过状态间的概率转换来捕获噪声。作为一个关键的贡献,该工作采用了场景方法的工具来计算这些过渡概率的可能近似正确(PAC)的界限,基于有限数量的噪声样本,并在所谓的区间马尔科夫决策过程(iMDP)的过渡概率区间中捕获这些界限。
这个 iMDP 对过渡概率的不确定性是稳健的,而且概率区间的紧密度可以通过样本的数量来控制。本文使用最先进的验证技术为 iMDP 提供保证,并计算出一个控制器,这些保证会延续到自治系统中。现实的基准显示了本文方法的实际适用性,即使 iMDP 有数百万个状态或转换。
论文链接:https://arxiv.org/pdf/2110.12662.pdf
最佳论文6:安德烈斯·贝洛大学、瓦尔帕莱索大学等提出了一种新的解集子集近似的方法,可被用作任何时候双目标搜索算法的基础(Distinguished Papers)
在双目标搜索中得到一个图,其中每个有向弧都与一对非负权重相关联,目标是找到帕累托最优解集。但在许多实际环境中,这个集合太大,因此其计算非常耗时。此外,尽管双目标搜索算法是逐步生成帕累托集的,但它们是详尽地生成的。这意味着在搜索的早期,解集的覆盖面并不多样,而是集中在解集的一个小区域。
为了解决这个问题,本文提出了一种新的解集子集近似的方法,它可以被用作任何时候双目标搜索算法的基础。本文的方法将给定的任务转化为一个使用两个真实参数的目标双目标搜索任务。对于每个特定的参数设置,目标任务的解决方案是原始任务的解决方案集的一个子集。根据所使用的参数,目标任务的解集可以很快被计算出来。这在具有挑战性的路线图基准中,可以在比计算解集所需时间小几个数量级的时间内获得丰富多样的解。
本文表明,通过以适当的参数序列运行该算法,获得了一个不断增长的解决方案序列,该序列收敛于全部解决方案集。
论文链接:https://www.aaai.org/AAAI22Papers/AAAI-10391.BaierJ.pdf
最佳论文7:加拿大拉瓦尔大学为 SoftCumulative 引入了一个检查器和一个过滤算法,比现有的算法更通用在实践中优于 SoftCumulative 的分解(Distinguished Papers)
Cumulative 约束极大地促进了约束性编程在解决调度问题方面的成功。然而,SoftCumulative 是 Cumulative 约束的一个版本,在这个版本中,资源过载会产生惩罚。
该工作为 SoftCumulative 引入了一个检查器和一个过滤算法,其灵感来自于Cumulative 的能量推理规则。这两种算法都可以用于经典的线性惩罚函数,也可以用于二次惩罚函数,即资源超载的惩罚随着超载量的增加而呈二次增长。
该工作表明,这些算法比现有的算法更通用,在实践中优于 SoftCumulative 的分解。
论文链接:http://www2.ift.ulaval.ca/~quimper/publications/softcumulative.pdf
最佳论文8:巴黎 - 萨克雷大学提出了一系列未经训练的指标 InfoLM ,显著改进了文本摘要和 Data2Text 生成任务的许多配置,并获得了超过 10 点的相关增益(Outstanding Student Paper)
通过人工注释评估自然语言生成系统质量的方法成本非常高,并且非常耗时。因此在实践中,研究人员大多依靠自动指标来评估模型质量。
过去十年,领域内涌现出许多基于字符串的指标(例如 BLEU)。但是,此类指标通常依赖于精确的匹配,因此不能稳健地处理同义词。基于此,该研究提出了一系列未经训练的指标 InfoLM,这些指标可被视为基于字符串的指标,但借助预训练掩码语言模型解决了上述缺陷。这些指标还利用信息度量,允许 InfoLM 适应各种评估标准。
该研究使用直接评估证明了 InfoLM 显著改进了文本摘要和 Data2Text 生成任务的许多配置,并获得了超过 10 点的相关增益。
论文链接:https://arxiv.org/abs/2112.01589
最佳论文9:加拿大拉瓦尔大学、加拿大高等研究院展示了如何在MNIST数据集的分类任务的主动学习中考虑和学习注释成本(Best Student Abstract)
深度学习是一个很有前途的途径,可以使生物医学成像的繁琐分析任务自动化。然而,它在这种情况下的应用受到了训练深度学习模型所需的大量标注数据的限制。
虽然主动学习可以用来减少标记数据的数量,但许多方法并没有考虑到注释的成本,而这在生物医学成像环境中往往是非常重要的。在这项工作中,本文展示了如何在 MNIST 数据集的分类任务的主动学习中考虑和学习注释成本。
论文链接:
https://www.aaai.org/AAAI22Papers/SA-00338-BernatchezR.pdf
最佳论文10:密歇根大学展示了交互式任务学习智能体 Rosie 的演示,它通过设置自然语言指令让智能体学习在模拟环境中执行巡逻任务(Best Demonstration Award)
该研究展示了交互式任务学习智能体 Rosie 的演示,它通过设置自然语言指令让智能体学习在模拟环境中执行巡逻任务。执行过程中,Rosie 建立了一个相当大的任务层次结构,包括先天和后天学习任务、制定为实现目标或遵循程序的任务、具有条件分支和循环的任务以及涉及交流和心理活动的任务组成。
Rosie 在 Soar 认知架构中实现,并使用声明性任务网络表示任务,通过 chunking 将其编译成程序规则,这是让 Rosie 从单个训练集中学习并快速泛化的关键。
论文链接:https://www.aaai.org/AAAI22Papers/DEMO-00325-MiningerA.pdf
在机器之心 SOTA!模型联合阿里云天池推出的「虎卷 er 行动 · 春卷er」中,我们基于「 AI人必追」的本季度举办的国际顶会及机器之心报道中的社区热议工作,「炼丹者必备」的基准数据集、AI顶会挑战赛优胜算法及开发基础知识,共同设计了由60道选择题构成的「虎卷er · 春榜试题」,并编撰了 3 套独家配套技术复习资料,帮助关注前沿AI技术发展的开发者梳理第一季度的重要 AI 技术工作的同时帮助注重实践技能的开发者快速温故知新,巩固知识与技能。
「虎卷er · 春榜试题」具体分布如下 ——
- 「本季必追国际影响力AI工作」:共 18 题
- 「AI开发常用的Benchmark数据集」:共 15 题
- 「今年刷爆顶会Leaderboard的算法」:共 7 题
- 「AI Foundation专业知识与开发实践基础」:共 20 题
活动期间,关注「机器之心 SOTA模型」服务号,即可通过底部菜单栏进入活动。
跟随入口引导,使用阿里云账号登录后即可进入活动界面开始答题。
「春卷er」前四十道题现已解锁!
1 | 今年 2 月份使用深度强化学习控制托卡马克装置等离子体的研究登上了《自然》杂志,该项工作是瑞士洛桑联邦理工学院 EPFL 和哪个机构合著的? | |||
---|---|---|---|---|
OpenAI | NVIDIA | DeepMind | SpaceX | |
2 | 今年 2 月份在 GitHub 上名为 Real-CUGAN 的图像超分辨率的项目热度很高,可以把动画图像的质量提升 2 到 4 倍,该项目是来自以下哪个机构的实验室? | |||
字节跳动 | 腾讯 | 谷歌 | 哔哩哔哩 | |
3 | 2022 年 Q1 季度中,DeepMind 发布 AlphaCode,实验结果表明在 Codeforces 挑战中,AlphaCode 超过了多少的参赛者? | |||
20.8% | 33.6% | 45.7% | 79.2% | |
4 | 2022 年 Q1 季度中,哪个机构开发的神经定理证明器成功解出了两道国际奥数题? | |||
DeepMind | OpenAI | Stanford | ||
5 | 能够预测蛋白质的功能和作用,让主流数据库 Pfam 中注释的蛋白质序列增加了近 10%,并预测了 360 种人类蛋白质功能的是以下哪种技术? | |||
AlphaFold | AlphaFold 2 | ProtCNN | TRFold | |
6 | 2022 年 2 月,来自 Google AI 和 Waymo 的研究人员提出了一种神经辐射场的变体 Block-NeRF,请问他们用 280 万张街景图片重建了哪个城市? | |||
纽约 | 旧金山 | 硅谷 | 洛杉矶 | |
7 | 谷歌发布的接近人类水平的对话 AI 模型 LaMDA 的参数量是多少? | |||
13.7亿 | 137亿 | 1370亿 | 13700亿 | |
8 | 2022 年 1 月,Meta AI 提出了一种名为 data2vec 的适用于多模态的学习框架,请问该框架是为了以下哪种学习方式打造的? | |||
强化学习 | 无监督学习 | 自监督学习 | 半监督学习 | |
9 | 2022 年初,英伟达使用一种多分辨率哈希编码技术训练 NeRF,最快只需多长时间? | |||
5秒 | 5分钟 | 5小时 | 5天 | |
10 | AAAI 2022 Outstanding Paper Award 是有关哪个方向的研究? | |||
机器学习可解释性 | 推荐系统 | 图优化 | 自然语言生成系统 | |
11 | 高水平轻量化的两人无限注德州扑克 AI 程序 AlphaHoldem 是 AAAI 2022 Distinguished Papers 之一,请问该工作来自以下哪个机构? | |||
清华大学 | 北京大学 | 中国科学院自动化研究所 | 北京邮电大学 | |
12 | AAAI 2022 Distinguished Papers 之一是巴黎-萨克雷大学等提出的新 Metric InfoLM,论文实验结果表明在 Summarization 和 Data2Text Generation 上取得了超过多少点的相关增益? | |||
5 | 10 | 15 | 20 | |
13 | NTU RGB D 是一个用于 RGB-D 人类动作识别的大规模数据集,该数据集包含 60 个 Action Classes,这些 Actions 一般被分为多少个 Category? | |||
1 | 3 | 5 | 7 | |
14 | 自 2010 年以来,ImageNet 被用于 ImageNet 大规模视觉识别挑战赛(ILSVRC),该数据集可以属于哪个模态 ? | |||
图像 | 文本 | 点云 | RGB-D | |
15 | CIFAR-10 数据集是 Tiny Images 数据集的一个子集,由 60000 张彩色图像组成,其中这些图像的大小是? | |||
28x28 | 32x32 | 64x64 | 128x128 | |
16 | MNIST 数据库是一个大型的手写数字集合,其中包含的训练集和测试集比例是多少? | |||
4:1 | 5:1 | 6:1 | 7:1 | |
17 | GLUE(General Language Understanding Evaluation)不包含以下哪类任务? | |||
Single-sentence tasks | Similarity and paraphrase tasks | Inference tasks | Generation taks | |
18 | WikiSQL 数据集属于下面哪个模态? | |||
图像 | 文本 | 视频 | 音频 | |
19 | 截止 2022 年 2 月,SQuAD 最新的版本是? | |||
SQuAD 1.2 | SQuAD 2.0 | SQuAD 2.1 | SQuAD 3.0 | |
20 | CelebFaces Attributes 数据集中,每张图像包含几个 Landmark locations 标注? | |||
1 | 3 | 5 | 7 | |
21 | UCF101 数据集中视频片段类别可以分为 5 种类型,其中不包括下面哪个类型? | |||
Body motion | Human-human interactions | Human-object interactions | Dance shows | |
22 | Cityscapes 是一个大规模的数据库,它为 30 个 Classes 提供语义、实例和密集的像素注释,这 30 个 Classes 又被分为几个 Categories? | |||
6 | 7 | 8 | 9 | |
23 | 新基准 SCROLLS 包含 Summarization、QA、NLI 任务,涵盖 Literature、Science 等多个领域。SCROLLS 的发布机构不包含以下哪个? | |||
Allen Institute for AI | IBM Research | Meta AI | Microsoft Research | |
24 | CLUE 团队发布应用在 NLP 领域的数据为中心的基准 DataCLUE,是在什么思想下实践的? | |||
英文 NLP 任务在以数据为中心的思想下的实践 | 中文 NLP 任务在以数据为中心的思想下的实践 | 英文 NLP 任务在以模型为中心的思想下的实践 | 中文 NLP 任务在以模型为中心的思想下的实践 | |
25 | 中科院智能交互团队获 ACM Multimedia 2021 多模态情感识别挑战赛三项冠军,其中哪项任务没有获得冠军? | |||
Multimodal Continuous Emotions in-the-Wild Sub-challenge (MuSe-Wilder) | Multimodal Sentiment Sub-challenge (MuSe-Sent) | Multimodal Emotional Stress Sub-challenge (MuSe-Stress) | Multimodal Physiological-Arousal Sub-challenge (MuSe-Physio) | |
26 | 巴黎高科路桥学校等组成的团队斩获 ICCV2021 的 UVO(Unidentified Video Objects) Challenge 双赛道冠军,其中在基于图片的开放世界实例分割这个赛道中,训练所用的数据集是? | |||
COCO | MNIST | CIFAR-10 | CIFAR-100 | |
27 | 来自上海交通大学电子工程系的 “IntelligentLight” 团队获 KDD CUP 2021 City Brain Challenge 冠军,比赛方案的核心亮点中基于哪种训练方法对模型进行训练? | |||
自监督 | 半监督 | 无监督 | 强化学习 | |
28 | 在 ICCV 2021 挑战赛中,深兰科技 DeepBlueAI 团队共参加 2 项比赛 4 个赛道,分别在三个赛道中获得冠军,其中不包括哪个赛道? | |||
VisDrone Object Detection | VisDroneMot | Large-AI-Food.VisDrone | Large-Scale Fine-Grained Food Recognition | |
29 | CVPR 2021 AliProducts Challenge: Large-scale Product Recognition 中第一名 Joyy AI Research 的解决方案中使用了三个 Backbone,其中不包括下面哪个? | |||
efficientnet | efficientnetv2 | nfnet | mlp-mixer | |
30 | ACM MM 2021 Watch and Buy: Multimodal Product Identification Challenge 冠军方案在物体检测识别模块中使用了什么模型作为骨干? | |||
ResNet18 | ResNet50 | ResNet100 | VGG | |
31 | 具有线性复杂度 (O(N)) 且在长序列任务中速度和显存方面显著优于 Transformer 的计算模型 PoNet 是由下面哪个机构提出的? | |||
阿里巴巴达摩院 | 字节跳动 | 微软 | ||
32 | 2022 年 1 月浙大和阿里巴巴达摩院联合提出一个多尺度自适应图神经网络(MAGNN)在四个真实世界的数据集实验中取得 SOTA 表现,请问是哪四类数据集? | |||
太阳能、交通、电力、汇率 | 太阳能、交通、风力、汇率 | 太阳能、交通、电力、股市 | 风力、交通、电力、股市 | |
33 | 2022 年 1 月,阿里巴巴达摩院提出了一个基于核的神经网络 DURation,该技术主要应用于什么问题? | |||
电商图像描述生成 | 电商推荐系统 | 电商文本到图像生成 | 电商图文检索 | |
34 | 用于对中文语音进行语音的命名实体识别任务的数据集 AISEHLL-NER 是以下哪个机构发布的? | |||
阿里巴巴达摩院 | 腾讯 | 快手 | 讯飞 | |
35 | 阿里巴巴达摩院推出十万亿参数超大规模通用性人工智能大模型 M6-10T,该模型使用 512 GPU 在多少天内即训练出具有可用水平的 10 万亿模型? | |||
5天 | 10天 | 15天 | 20天 | |
36 | 深度语言模型体系 AliceMind 由阿里巴巴达摩院历经三年打造,并于 21 年 6 月开源。请问以下哪一个模型不属于该体系? | |||
StructBERT | VECO | PALM | FILTER | |
37 | MUGE(Multimodal Understanding and Generation Evaluation)是业界首个大规模中文多模态评测基准,由阿里巴巴达摩院联合浙江大学、天池平台联合发布。请问以下哪个任务不属于该基准? | |||
电商图像描述生成 | 电商视频描述生成 | 电商文本到图像生成 | 电商图文检索 | |
38 | 由天池平台承办的中文医疗信息处理挑战榜 CBLUE(Chinese Biomedical Language Understanding Evaluation),其 2.0 版本相较于 1.0 版本新增了 1 个大类任务,请问是以下选项中的哪一个? | |||
医学对话理解与生成 | 医学术语标准化 | 医学文本分类 | 医学句子语义关系判定 | |
39 | 由阿里巴巴达摩院决策智能实验室维护,依托于天池平台支持的 RABBO(Real-Aplication Black-Box Optimization benchmark)榜单,不包含以下哪个题目集? | |||
金属冶炼配比优化 | 火星车路径规划 | 风场微观选址 | 光伏电站微观选址 | |
40 | 中国人工智能学会举办的首届全球人工智能技术创新大赛,是基于哪个竞赛平台举办的? | |||
阿里云天池 | Kaggle | DataCastle | DataFountain |