获取完整原文和代码,公众号回复:10091113036
论文地址: http://arxiv.org/pdf/2110.12364v1.pdf
代码: 公众号回复:10091113036
来源: 上海大学
论文名称:CvT-ASSD Convolutional vision-Transformer Based Attentive Single Shot MultiBox Detector
原文作者:Weiqiang Jin
内容提要
由于注意力双向编码器表示在自然语言处理中的成功,多头注意力在计算机视觉研究中越来越流行。然而,如何提出诸如视觉检测、语义分割等复杂任务,仍然是研究人员面临的一个挑战。虽然已经提出了多种基于变压器的架构,如DETR和ViT-FRCNN来完成目标检测任务,但由于传统的自注意运算会产生巨大的学习参数和沉重的计算复杂度,不可避免地会降低识别精度和计算效率。为了缓解这些问题,我们提出了一种新的目标检测体系结构,即基于卷积视觉变换(CvT)的专注单镜头多盒检测器,它在卷积视觉变换的基础上构建了高效的专注单镜头多盒检测器(CvT-ASSD)。我们提供了全面的经验证据,表明我们的模型CvT-ASSD在大规模检测数据集(如PASCAL VOC和MS COCO)上进行预训练时,具有良好的系统效率和性能。
主要框架及实验结果
声明:文章来自于网络,仅用于学习分享,版权归原作者所有,侵权请加上文微信联系删除。