摘要 卷积神经网络(CNNs)在计算机视觉中无处不在,具有无数有效和高效的变化。最近,Container——最初是在自然语言处理中引入的——已经越来越多地应用于计算机视觉。早期的用户继续使用CNN的骨干,最新的网络是...
摘要:在传统的目标检测框架中,继承自图像识别模型的骨干主体提取深度潜在特征,然后由颈部模块融合这些潜在特征来获取不同尺度的信息。由于目标检测的分辨率远大于图像识别,因此主干的计算代价往往占主导地位。这种...
背景:注意力机制是Vision Transformer的核心构建模块之一,可以捕捉长程依赖关系。然而,由于需要计算所有空间位置之间的成对令牌交互,这种强大的功能会带来巨大的计算负担和内存开销。为了减轻这个问题,一系列工作尝试通过...