Subjects: cs.CV
1.CodeFusion: A Pre-trained Diffusion Model for Code Generation(EMNLP 2023)
标题:CodeFusion:用于代码生成的预训练扩散模型
作者:Mukul Singh, José Cambronero, Sumit Gulwani, Vu Le, Carina Negreanu, Gust Verbruggen
文章链接:https://arxiv.org/abs/2310.17680
项目代码https://github.com/microsoft/prose-benchmarks/tree/main/CodeFusion
摘要:
想象一下,一个只能更改最后一行代码的开发人员,他们需要多久才能从头开始编写函数才能正确?从自然语言生成代码的自回归模型也有类似的限制:它们不允许重新考虑早期生成的标记。我们引入了 CodeFusion,这是一种预先训练的扩散代码生成模型,它通过迭代地对基于编码自然语言的完整程序进行去噪来解决此限制。我们针对 Bash、Python 和 Microsoft Excel 条件格式 (CF) 规则的自然语言到代码生成任务来评估 CodeFusion。实验表明,CodeFusion(75M 参数)在 top-1 精度方面与最先进的自回归系统(350M-175B 参数)相当,并且由于其更好的性能而在 top-3 和 top-5 精度方面优于它们多样性与质量的平衡。
2.SILC: Improving Vision Language Pretraining with Self-Distillation
标题:SILC:通过自蒸馏改进视觉语言预训练
作者:Muhammad Ferjad Naeem, Yongqin Xian, Xiaohua Zhai, Lukas Hoyer, Luc Van Gool, Federico Tombari
文章链接:https://arxiv.org/abs/2310.13355
摘要:
由于 CLIP 及其变体的成功,网络规模图像标题数据集上的图像文本预训练已成为开放词汇分类和检索模型的默认配方。一些作品还使用 CLIP 特征进行密集预测任务,并展示了开放集能力的出现。然而,对比目标仅关注图像文本对齐,并没有激励密集预测任务的图像特征学习。在这项工作中,我们提出通过自蒸馏简单添加局部到全局对应学习作为对比预训练的附加目标,以提出 SILC。我们表明,从指数移动平均(EMA)教师模型中提取局部图像特征可以显着提高模型在多个计算机视觉任务上的性能,包括分类、检索,尤其是分割。我们进一步表明,与基线相比,SILC 在相同的训练持续时间下可以更好地扩展。我们的模型 SILC 为零样本分类、少样本分类、图像和文本检索、零样本分割和开放词汇分割设定了新的技术水平。
3.Reconstructive Latent-Space Neural Radiance Fields for Efficient 3D Scene Representations
标题:用于高效 3D 场景表示的重建潜在空间神经辐射场
作者:Tristan Aumentado-Armstrong, Ashkan Mirzaei, Marcus A. Brubaker, Jonathan Kelly, Alex Levinshtein, Konstantinos G. Derpanis, Igor Gilitschenski
文章链接:https://arxiv.org/abs/2310.17880
摘要:
神经辐射场 (NeRF) 已被证明是强大的 3D 表示,能够对复杂场景进行高质量的新颖视图合成。虽然 NeRF 已应用于图形、视觉和机器人技术,但渲染速度慢和特征视觉伪影的问题阻碍了在许多用例中的采用。在这项工作中,我们研究了将自动编码器 (AE) 与 NeRF 相结合,其中隐藏特征(而不是颜色)被渲染,然后进行卷积解码。由此产生的潜在空间 NeRF 可以产生比标准色彩空间 NeRF 更高质量的新颖视图,因为 AE 可以纠正某些视觉伪影,同时渲染速度快三倍以上。我们的工作与其他提高 NeRF 效率的技术是正交的。此外,我们可以通过缩小 AE 架构来控制效率和图像质量之间的权衡,在性能仅略有下降的情况下实现超过 13 倍的渲染速度。我们希望我们的方法能够为下游任务形成高效、高保真度的 3D 场景表示的基础,特别是当保留可微性有用时,就像在许多需要持续学习的机器人场景中一样。