最新 最热

无需训练,kNN-CLIP 在图像分割中的应用 !

在图像分割领域,圣杯是能够基于文本 Query 准确分割任意概念图像。随着视觉-语言模型(VLMs)如CLIP的迅速发展,这一任务变得更加可行。当这些模型应用于语义和全景分割时,显示出在处理广泛的视觉数据词汇方面的潜力。然而,尽...

2024-08-08
1

卡内基梅隆大学 & 微软研究院引入 Med-VTAB 用通用预训练权重提高ViTs在视觉任务上性能 !

深度学习最近的进展极大地推动了计算机视觉领域的发展,尤其是引入了视觉 Transformer (ViTs)。这些模型一旦在大规模数据集上预训练,就已在广泛的视觉任务中展示了卓越的能力。通过特殊的学习层或 Token 等机制,ViTs能够适...

2024-08-08
1

无需相机信息,UniDepth 自提示相机模块,仅从单一图像跨领域重建度量3D场景 !

精确的逐像素深度估计对于理解几何场景结构至关重要,其应用包括3D建模[10]、机器人学[11, 63]和自动驾驶车辆[38, 51]。然而,为了有效地进行3D重建,提供可靠的度量尺度深度输出是必要的,这促使了单目度量深度估计(MMDE)这一...

2024-08-08
1

MIT & Caltech & AWS 提出 ALDI,目标检测新突破, 超越现有方法,再次刷新 SOTA!

ALDI++ 在 Cityscapes Foggy Cityscapes 上的AP50超过了先前最先进的方法+3.5,在 Sim10k Cityscapes 上超过了+5.7 AP50(作者的方法是唯一一种超过公正基准线的方法),在 CFC Kenai Channel 上超过了+2.0 AP50。作者的...

2024-08-08
1

UP-DETR 无需人工标注,随机裁剪多个 Query Patch ,并预训练 Transformer 进行目标检测 !

DETR是一种最近的框架,它将目标检测视为一个通过 Transformer 编码器-解码器[2]直接预测集合的问题。在没有手动设计的样本选择[3]和非最大值抑制(NMS)的情况下,DETR甚至可以达到与Faster R-CNN[4]相竞争的性能。然而,DETR...

2024-08-08
1

暗场景下的视觉突破:ECAFormer提升低光照图像增强性能 !

在低光照条件下捕捉图像常常会导致各种摄影挑战,如细节数据丢失、色彩强度降低、对比度和动态范围减小以及曝光不均。这些问题会降低视觉数据的质量和清晰度,进而显著阻碍后续基于视觉的任务。例如,它们可能妨碍自动驾驶...

2024-08-08
1

视频真伪难辨?蚂蚁集团 & 南大 & 上交通开源 DeMamba 即插即用,助你一臂之力 !

生成模型的进展令人印象深刻,使得创建高度逼真的图像变得更加轻松且无需专业知识。随着这些模型能够生成足够逼真的图像,越来越多的研究者探索如何改进视频创作。目前,某些生成算法,如Sora(Brooks等人,2024)和Gen2(Research,20...

2024-08-08
1

提升CLIP性能,IntCoOp联合学习在零样本学习中的优势 !

近年来,在视觉语言模型领域取得了重大进展,例如CLIP、Flamingo 、ALIGN 和CoCa。这些模型通过结合两个基本组成部分,在获取可迁移且鲁棒的图像表示方面取得了卓越成就:...

2024-08-08
1

探索3D视觉中的Transformer架构:通用Backbone与自适应采样策略 !

计算机视觉中的一个基本问题是在三维空间中理解和识别场景与物体。它允许以紧凑的方式表达关系,并提供在现实世界中导航和操作的能力。3D视觉在各个领域都发挥着重要作用,包括自动驾驶、机器人技术、遥感、医疗、增强现...

2024-08-08
1

从 DeiT-B 到 DeiT-S,块结构化剪枝在深度 ViTs上 的应用 !

近期,视觉 Transformer (ViTs)成为一项新兴研究,极大地挑战了占主导地位的卷积神经网络(CNNs),在诸如分类[9, 13, 18, 22, 44]、目标检测[1, 3, 61]、语义分割[5, 35]等各种图像分析和理解任务上表现出与CNNs相当甚至更优的...

2024-08-08
1