点击下方卡片,关注「AiCharm」公众号
Subjects: cs.CV
1.FocusTune: Tuning Visual Localization through Focus-Guided Sampling
标题:FocusTune:通过焦点引导采样调整视觉定位
作者:Son Tung Nguyen, Alejandro Fontan, Michael Milford, Tobias Fischer
文章链接:https://arxiv.org/abs/2311.02872
项目代码:https://github.com/sontung/focus-tune
摘要:
我们提出 FocusTune,一种焦点引导采样技术,用于提高视觉定位算法的性能。FocusTune 通过利用关键几何约束,将场景坐标回归模型引导至对 3D 点三角测量至关重要的区域。具体来说,我们不是在图像上均匀采样点来训练场景坐标回归模型,而是将 3D 场景坐标重新投影到 2D 图像平面上,并在重新投影点的局部邻域内进行采样。虽然我们提出的采样策略普遍适用,但我们通过将 FocusTune 与最近推出的加速坐标编码 (ACE) 模型集成来展示它。我们的结果表明,FocusTune 不仅提高或匹配了最先进的性能,同时保持了 ACE 极具吸引力的低存储和计算要求,例如,将单一模型和集成模型的平移误差分别从 25 厘米减少到 19 厘米,将 17 厘米减少到 15 厘米。剑桥地标数据集。这种高性能与低计算和存储要求的结合对于移动机器人和增强现实等领域的应用尤其有前景。
2.Extreme Generative Image Compression by Learning Text Embedding from Diffusion Models
标题:通过从扩散模型学习文本嵌入来实现极端生成图像压缩
作者:Zhihong Pan, Xin Zhou, Hao Tian
文章链接:https://arxiv.org/abs/2211.07793
摘要:
在有限的带宽上传输大量高分辨率图像是一项重要但非常具有挑战性的任务。人们已经研究了使用极低比特率(<0.1 bpp)来压缩图像,但由于压缩数据可用位数的严格限制,它常常会导致图像质量低、伪影严重。人们常说一图胜千言,但另一方面,语言在使用简短的描述来捕捉图像的本质方面非常强大。随着最近用于文本到图像生成的扩散模型的成功,我们提出了一种生成图像压缩方法,该方法展示了将图像保存为短文本嵌入的潜力,而短文本嵌入又可用于生成与感性上回到原来的样子。对于给定的图像,使用与文本到图像扩散模型本身相同的优化过程来学习其相应的文本嵌入,在绕过原始转换器后使用可学习的文本嵌入作为输入。该优化与学习压缩模型一起应用,以实现 <0.1 bpp 的低比特率的极端压缩。根据我们通过一组全面的图像质量指标测量的实验,我们的方法在感知质量和多样性方面都优于其他最先进的深度学习方法。
3.RobustMat: Neural Diffusion for Street Landmark Patch Matching under Challenging Environments
标题:RobustMat:具有挑战性的环境下用于街道地标斑块匹配的神经扩散
作者:Rui She, Qiyu Kang, Sijie Wang, Yuan-Rui Yang, Kai Zhao, Yang Song, Wee Peng Tay
文章链接:https://arxiv.org/abs/2311.03904
摘要:
对于自动驾驶汽车(AV)来说,基于摄像头等传感器的视觉感知技术在信息获取和处理中发挥着至关重要的作用。在自动驾驶汽车的各种计算机感知任务中,将车载摄像头拍摄的地标补丁与在不同时间捕获或保存在街道场景图像数据库中的其他地标补丁进行匹配可能会有所帮助。为了在因季节、天气和照明变化而造成的具有挑战性的驾驶环境下进行匹配,我们利用每个补丁的空间邻域信息。我们提出了一种名为 RobustMat 的方法,该方法从神经微分方程中得出其对扰动的鲁棒性。卷积神经 ODE 扩散模块用于学习地标补丁的特征表示。然后,图神经偏微分方程扩散模块会聚合来自街道场景中相邻地标斑块的信息。最后,特征相似度学习输出最终的匹配分数。我们的方法在几个街道场景数据集上进行了评估,并被证明可以在环境扰动下实现最先进的匹配结果。