点击下方卡片,关注「AiCharm」公众号
Subjects: cs.CV
1.Towards A Unified Neural Architecture for Visual Recognition and Reasoning
标题:迈向视觉识别和推理的统一神经架构
作者:Calvin Luo, Boqing Gong, Ting Chen, Chen Sun
文章链接:https://arxiv.org/abs/2311.06386
摘要:
识别和推理是视觉理解的两大支柱。然而,这些任务的侧重点不平衡;尽管神经网络的最新进展在视觉识别方面表现出了强大的经验表现,但在解决视觉推理方面却相对较少取得成功。直观上,将这两项任务统一在一个单一的框架下是可取的,因为它们是相互依赖且有益的。受最近用于视觉识别和语言理解的多任务转换器的成功的推动,我们提出了一种用于视觉识别和推理的统一神经架构,并为两者提供了通用接口(例如标记)。我们的框架能够对不同的视觉识别任务、数据集和归纳偏差如何帮助实现时空推理能力进行原则性的研究。值得注意的是,我们发现对象检测需要单个对象的空间定位,是对推理最有益的识别任务。我们通过探索进一步证明隐式的以对象为中心的表示会自动出现在我们的框架内。有趣的是,我们发现某些架构选择(例如视觉编码器的主干模型)对视觉推理有重大影响,但对目标检测影响不大。鉴于我们的实验结果,我们认为视觉推理应该与视觉识别一起被视为一等公民,因为它们密切相关,但受益于潜在不同的设计选择。
2.PolyMaX: General Dense Prediction with Mask Transformer
标题:PolyMaX:使用 Mask Transformer 进行通用密集预测
作者:Xuan Yang, Liangzhe Yuan, Kimberly Wilber, Astuti Sharma, Xiuye Gu, Siyuan Qiao, Stephanie Debats, Huisheng Wang, Hartwig Adam, Mikhail Sirotenko, Liang-Chieh Chen
文章链接:https://arxiv.org/abs/2311.05770
摘要:
密集预测任务,例如语义分割、深度估计和表面法线预测,可以轻松地表示为每像素分类(离散输出)或回归(连续输出)。由于全卷积网络的盛行,这种每像素预测范例仍然很受欢迎。然而,在分割任务的最新前沿,随着变压器架构的出现,社区已经见证了从每像素预测到集群预测的范式转变,特别是掩模变压器,它直接预测掩模的标签,而不是直接预测掩模的标签。一个像素。尽管发生这种转变,基于每像素预测范式的方法仍然主导着其他需要连续输出的密集预测任务的基准,例如深度估计和表面法线预测。受 DORN 和 AdaBins 在深度估计方面的成功(通过离散连续输出空间实现)的启发,我们建议将基于聚类预测的方法推广到一般密集预测任务。这使我们能够将密集预测任务与掩模转换器框架统一起来。值得注意的是,生成的模型 PolyMaX 在 NYUD-v2 数据集的三个基准上展示了最先进的性能。我们希望我们简单而有效的设计能够激发更多关于利用掩模变压器进行更密集的预测任务的研究。
3.Emu Video: Factorizing Text-to-Video Generation by Explicit Image Conditioning
标题:Emu 视频:通过显式图像调节分解文本到视频的生成
作者:Rohit Girdhar, Mannat Singh, Andrew Brown, Quentin Duval, Samaneh Azadi, Sai Saketh Rambhatla, Akbar Shah, Xi Yin, Devi Parikh, Ishan Misra
文章链接:https://arxiv.org/abs/2311.10709
项目代码:https://emu-video.metademolab.com/
摘要:
我们提出了 Emu Video,一种文本到视频的生成模型,它将生成分解为两个步骤:首先生成以文本为条件的图像,然后生成以文本和生成的图像为条件的视频。我们确定了关键的设计决策——调整扩散噪声时间表和多阶段训练——使我们能够直接生成高质量和高分辨率的视频,而不需要像之前的工作那样进行深度级联的模型。在人类评估中,与所有先前的工作相比,我们生成的视频在质量上受到强烈欢迎 - 与 Google 的 Imagen Video 相比为 81%,与 Nvidia 的 PYOCO 相比为 90%,与 Meta 的 Make-A-Video 相比为 96%。我们的模型优于 RunwayML Gen2 和 Pika Labs 等商业解决方案。最后,我们的因式分解方法自然适合根据用户的文本提示来制作动画图像,与之前的工作相比,我们几代人更喜欢这种方法 96%。