Subjects: cs.CV
1.Convolutional State Space Models for Long-Range Spatiotemporal Modeling
标题:用于长程时空建模的卷积状态空间模型
作者:Jimmy T.H. Smith, Shalini De Mello, Jan Kautz, Scott W. Linderman, Wonmin Byeon
文章链接:https://arxiv.org/abs/2310.19694
项目代码:https://github.com/NVlabs/ConvSSM
摘要:
由于需要同时对复杂的空间相关性和长程时间依赖性进行建模,因此有效地对长时空序列进行建模具有挑战性。ConvLSTM 试图通过使用循环神经网络更新张量值状态来解决这个问题,但它们的顺序计算使得训练速度很慢。相比之下,Transformers 可以并行处理整个时空序列,并将其压缩为令牌。然而,注意力成本与长度呈二次方关系,限制了它们对更长序列的可扩展性。在这里,我们解决了现有方法的挑战,并引入了卷积状态空间模型(ConvSSM),它将ConvLSTM的张量建模思想与S4和S5等状态空间方法的长序列建模方法相结合。首先,我们演示如何将并行扫描应用于卷积递归以实现次二次并行化和快速自回归生成。然后,我们在 ConvSSM 和 SSM 的动态之间建立了等价性,这激发了用于建模远程依赖性的参数化和初始化策略。结果是 ConvS5,一种用于远程时空建模的高效 ConvSSM 变体。在长期 Moving-MNIST 实验中,ConvS5 的性能显着优于 Transformers 和 ConvLSTM,同时训练速度比 ConvLSTM 快 3 倍,生成样本速度比 Transformers 快 400 倍。此外,ConvS5 在挑战 DMLab、Minecraft 和 Habitat 预测基准方面的性能达到或超过了最先进的方法,并为长时空序列建模提供了新的方向。
2.DrM: Mastering Visual Reinforcement Learning through Dormant Ratio Minimization
标题:DrM:通过休眠比率最小化掌握视觉强化学习
作者:Guowei Xu, Ruijie Zheng, Yongyuan Liang, Xiyao Wang, Zhecheng Yuan, Tianying Ji, Yu Luo, Xiaoyu Liu, Jiaxin Yuan, Pu Hua, Shuzhen Li, Yanjie Ze, Hal Daumé III, Furong Huang, Huazhe Xu
文章链接:https://arxiv.org/abs/2310.19668
项目代码:https://drm-rl.github.io/
摘要:
视觉强化学习(RL)在连续控制任务中显示出了前景。尽管取得了进步,但当前的算法在性能的几乎每个方面仍然不能令人满意,例如样本效率、渐近性能以及对随机种子选择的鲁棒性。在本文中,我们发现了现有视觉强化学习方法的一个主要缺点,即智能体在早期训练期间经常表现出持续不活动,从而限制了它们有效探索的能力。扩展这一重要观察结果,我们还揭示了智能体对运动不活跃探索的倾向与其政策网络内神经元活动缺失之间的显着相关性。为了量化这种不活动状态,我们采用休眠比率作为衡量 RL 代理网络中不活动状态的指标。根据经验,我们还认识到,无论收到的奖励信号如何,休眠比率都可以作为代理活动水平的独立指标。利用上述见解,我们引入了 DrM,一种使用三种核心机制通过主动最小化休眠比率来指导智能体的探索-利用权衡的方法。实验表明,DrM 在 DeepMind Control Suite、MetaWorld 和 Adroit 等三个连续控制基准环境中实现了样本效率和渐近性能的显着提高,并且没有损坏种子(总共 76 个种子)。最重要的是,DrM 是第一个无模型算法,能够一致地解决 DeepMind 控制套件中的狗和机械手领域的任务,以及三个灵巧的手部操作任务,而无需在 Adroit 中进行演示,所有这些都基于像素观察。
3.AI Alignment: A Comprehensive Survey
标题:人工智能调整:全面调查
作者:Jiaming Ji, Tianyi Qiu, Boyuan Chen, Borong Zhang, Hantao Lou, Kaile Wang, Yawen Duan, Zhonghao He, Jiayi Zhou, Zhaowei Zhang, Fanzhi Zeng, Kwan Yee Ng, Juntao Dai, Xuehai Pan, Aidan O'Gara, Yingshan Lei, Hua Xu, Brian Tse, Jie Fu, Stephen McAleer, Yaodong Yang, Yizhou Wang, Song-Chun Zhu, Yike Guo, Wen Gao
文章链接:https://arxiv.org/abs/2310.19852
项目代码:https://alignmentsurvey.com/
摘要:
人工智能一致性旨在使人工智能系统的行为符合人类的意图和价值观。随着人工智能系统的能力变得越来越强大,与人工智能系统失调相关的潜在大规模风险变得突出。数百名人工智能专家和公众人物表达了对人工智能风险的担忧,他们认为“减轻人工智能带来的灭绝风险,以及流行病和核战争等其他社会规模的风险,应该成为全球优先事项”。为了提供对齐领域全面且最新的概述,在这篇调查论文中,我们深入研究了对齐的核心概念、方法和实践。我们将 RICE 原则确定为 AI 一致性的关键目标:稳健性、可解释性、可控性和道德性。在这四个原则的指导下,我们概述了当前对齐研究的概况,并将其分解为两个关键部分:前向对齐和后向对齐。前者旨在通过对齐训练使人工智能系统对齐,而后者旨在获得有关系统对齐的证据并对其进行适当管理,以避免加剧错位风险。前向对齐和后向对齐形成一个循环过程,在后向过程中验证前向过程中人工智能系统的对齐情况,同时为下一轮前向对齐提供更新的目标。在前向调整方面,我们讨论从反馈中学习和在分布转移下学习。在向后调整方面,我们讨论了适用于人工智能系统生命周期每个阶段的保证技术和治理实践。