CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理
Subjects: cs.CV
1.Sparse Universal Transformer
标题:稀疏通用变压器
作者:Shawn Tan, Yikang Shen, Zhenfang Chen, Aaron Courville, Chuang Gan
文章链接:https://arxiv.org/abs/2310.07096
项目代码:https://rl-at-scale.github.io/
摘要:
通用 Transformer (UT) 是 Transformer 的一个变体,它在各层之间共享参数。经验证据表明,在正式语言任务中,UT 比 Vanilla Transformers (VT) 具有更好的组合泛化能力。参数共享还使其比 VT 具有更好的参数效率。尽管有许多优点,但缩放 UT 参数比缩放 VT 需要更多的计算和内存密集度。本文提出了稀疏通用变换器(SUT),它利用稀疏专家混合(SMoE)和一种新的基于破棍的动态停止机制来降低 UT 的计算复杂度,同时保留其参数效率和泛化能力。实验表明,SUT 在 WMT'14 上仅使用一半的计算和参数,并且在形式语言任务(逻辑推理和 CFQ)上获得了强泛化结果,从而实现了与强基线模型相同的性能。新的停止机制还可以在推理过程中减少大约 50% 的计算量,而形式语言任务的性能下降很少。
2.4D Gaussian Splatting for Real-Time Dynamic Scene Rendering
标题:用于实时动态场景渲染的 4D 高斯泼溅
作者:Guanjun Wu, Taoran Yi, Jiemin Fang, Lingxi Xie, Xiaopeng Zhang, Wei Wei, Wenyu Liu, Qi Tian, Xinggang Wang
文章链接:https://arxiv.org/abs/2310.08528
项目代码:https://guanjunwu.github.io/4dgs/
摘要:
表示和渲染动态场景一直是一项重要但具有挑战性的任务。特别是,要准确地模拟复杂的运动,通常很难保持高效率。我们引入了4D高斯泼溅(4D-GS)来实现实时动态场景渲染,同时还享有高训练和存储效率。构建有效的变形场来模拟高斯运动和形状变形。不同的相邻高斯通过 HexPlane 连接,以产生更准确的位置和形状变形。我们的 4D-GS 方法可在 RTX 3090 GPU 上以 800 × 800 分辨率实现高分辨率、70 FPS 的实时渲染,同时保持与之前最先进方法相当或更高的质量。此 https URL 提供了更多演示和代码。
3.NAVI: Category-Agnostic Image Collections with High-Quality 3D Shape and Pose Annotations
标题:NAVI:具有高质量 3D 形状和姿势注释的类别无关图像集
作者:Varun Jampani, Kevis-Kokitsi Maninis, Andreas Engelhardt, Arjun Karpur, Karen Truong
文章链接:https://arxiv.org/abs/2306.09109
项目代码:https://navidataset.github.io/
摘要:
神经重建领域的最新进展使得能够从随意捕获的图像集合中重建高质量的 3D 对象。当前的技术主要分析相对简单的图像采集的进展,其中运动结构(SfM)技术可以提供地面实况(GT)相机姿势。我们注意到,SfM 技术在野外图像采集(例如具有不同背景和照明的图像搜索结果)上往往会失败。为了在随意图像捕获的 3D 重建方面取得系统性的研究进展,我们提出了 NAVI:一个新的与类别无关的对象图像集合数据集,具有高质量 3D 扫描以及每图像 2D-3D 对齐,提供近乎完美的 GT 相机参数。这些 2D-3D 对齐使我们能够提取准确的衍生注释,例如密集像素对应、深度和分割图。我们演示了 NAVI 图像集合在不同问题设置上的使用,并表明 NAVI 能够实现现有数据集无法实现的更彻底的评估。我们相信NAVI有利于3D重建和对应估计的系统研究进展。项目页面:此 https URL