DETR是一种最近的框架,它将目标检测视为一个通过 Transformer 编码器-解码器[2]直接预测集合的问题。在没有手动设计的样本选择[3]和非最大值抑制(NMS)的情况下,DETR甚至可以达到与Faster R-CNN[4]相竞争的性能。然而,DETR...
在低光照条件下捕捉图像常常会导致各种摄影挑战,如细节数据丢失、色彩强度降低、对比度和动态范围减小以及曝光不均。这些问题会降低视觉数据的质量和清晰度,进而显著阻碍后续基于视觉的任务。例如,它们可能妨碍自动驾驶...
生成模型的进展令人印象深刻,使得创建高度逼真的图像变得更加轻松且无需专业知识。随着这些模型能够生成足够逼真的图像,越来越多的研究者探索如何改进视频创作。目前,某些生成算法,如Sora(Brooks等人,2024)和Gen2(Research,20...
近年来,在视觉语言模型领域取得了重大进展,例如CLIP、Flamingo 、ALIGN 和CoCa。这些模型通过结合两个基本组成部分,在获取可迁移且鲁棒的图像表示方面取得了卓越成就:...
计算机视觉中的一个基本问题是在三维空间中理解和识别场景与物体。它允许以紧凑的方式表达关系,并提供在现实世界中导航和操作的能力。3D视觉在各个领域都发挥着重要作用,包括自动驾驶、机器人技术、遥感、医疗、增强现...
近期,视觉 Transformer (ViTs)成为一项新兴研究,极大地挑战了占主导地位的卷积神经网络(CNNs),在诸如分类[9, 13, 18, 22, 44]、目标检测[1, 3, 61]、语义分割[5, 35]等各种图像分析和理解任务上表现出与CNNs相当甚至更优的...
小物体以其极小的尺寸而著称(例如,小于像素[1]),总是难以检测。小目标检测(Small Object Detection,简称SOD)近年来受到了广泛关注,并因其有价值的应用而成为独立于通用目标检测的一个挑战性研究方向,这些应用包括视频监控[2, ...
医学图像分割是计算机辅助诊断和图像引导系统中的关键应用。近年来,深度学习已成为这一领域的主要方法,这主要归功于UNet[18]的里程碑式贡献。UNet通过利用编码器将语义信息投射到低级特征,以及解码器逐步将语义特征上采...
我希望可以结合一些现有资料,对这些「迷思」做定性的分析,避免一不小心变成了负优化。有条件时,甚至希望可以做一些定量分析的实验。
vGPU、MIG 和 时间切片技术优化 AI 和 ML 的 GPU 使用。了解这些方法如何降低 GPU 成本并提高项目可扩展性。