每日学术速递11.17

点击上方蓝字关注我们

CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理

点击下方卡片，关注「AiCharm」公众号

Subjects: cs.CV

1.Exploiting Inductive Biases in Video Modeling through Neural CDEs

标题：通过神经 CDE 利用视频建模中的归纳偏差

作者：Chung-Ching Lin, Jiang Wang, Kun Luo, Kevin Lin, Linjie Li, Lijuan Wang, Zicheng Liu

文章链接：https://arxiv.org/abs/2311.04986

摘要：

我们引入了一种新颖的视频建模方法，该方法利用受控微分方程（CDE）来解决视频任务中的关键挑战，特别是视频插值和掩模传播。我们以不同的分辨率应用 CDE，从而形成连续时间的 U-Net 架构。与传统方法不同，我们的方法不需要显式的光流学习，而是利用 CDE 固有的连续时间特征来生成高度表现力的视频模型。我们展示了与视频插值和掩模传播任务的最先进模型相比的竞争性能。

2.GLaMM: Pixel Grounding Large Multimodal Model

标题：GLaMM：像素接地大型多模态模型

作者：Hanoona Rasheed, Muhammad Maaz, Sahal Shaji, Abdelrahman Shaker, Salman Khan, Hisham Cholakkal, Rao M. Anwer, Erix Xing, Ming-Hsuan Yang, Fahad S. Khan

文章链接：https://arxiv.org/abs/2311.03356

项目代码：https://mbzuai-oryx.github.io/groundingLMM/

摘要：

大型多模态模型 (LMM) 将大型语言模型扩展到视觉领域。LMM 的最初努力使用整体图像和文本提示来生成无根据的文本响应。最近，区域级 LMM 已被用来生成基于视觉的响应。然而，它们仅限于一次仅引用单个对象类别，要求用户指定输入中的区域，或者无法提供密集的像素级对象接地。在这项工作中，我们提出了 Grounding LMM (GLaMM)，这是第一个可以生成与相应的对象分割掩模无缝交织的自然语言响应的模型。GLaMM 不仅基于对话中出现的对象，而且足够灵活，可以接受文本和可选的视觉提示（感兴趣区域）作为输入。这使用户能够在文本和视觉领域的各种粒度级别与模型进行交互。由于缺乏生成基于视觉的详细对话的新颖设置的标准基准，我们通过精心策划的基于对话引入了全面的评估协议。我们提出的接地对话生成（GCG）任务需要大规模自然场景中的密集接地概念。为此，我们使用我们提出的自动注释管道提出了一个密集注释的 Grounding-anything 数据集 (GranD)，该管道包含 750 万个独特的概念，这些概念基于总共 8.1 亿个可用分割掩模的区域。除了 GCG 之外，GLaMM 还可以在多个下游任务上有效执行，例如引用表达分割、图像和区域级字幕以及视觉语言对话。

3.Greedy PIG: Adaptive Integrated Gradients

标题：Greedy PIG：自适应积分梯度

作者：Kyriakos Axiotis, Sami Abu-al-haija, Lin Chen, Matthew Fahrbach, Gang Fu

文章链接：https://arxiv.org/abs/2311.06192

摘要：

深度学习已成为大多数机器学习任务的标准方法。虽然其影响是不可否认的，但从人类的角度解释深度学习模型的预测仍然是一个挑战。与模型训练相比，模型可解释性更难量化并构成显式优化问题。受用于评估特征归因方法的 AUC softmax 信息曲线（AUC SIC）度量的启发，我们提出了一种基于子集选择的特征归因和特征选择的统一离散优化框架。这导致了特征归因的路径积分梯度（PIG）方法的自然自适应泛化，我们称之为贪婪 PIG。我们展示了 Greedy PIG 在各种任务上的成功，包括图像特征归因、图形压缩/解释以及表格数据的事后特征选择。我们的结果表明，引入适应性是一种强大且通用的方法，可以使归因方法更加强大。

每日学术速递11.17

推荐阅读