关注并星标
从此不迷路
计算机视觉研究院
公众号ID|ComputerVisionGzq
学习群|扫码在主页获取加入方式
计算机视觉研究院专栏
作者:Edison_G
复杂视觉场景下的目标识别任务有很多亟待解决的问题,也一直是学术界研究的焦点。计算机视觉顶会ICCV 2021接收了一篇由北京航空航天大学刘祥龙教授团队、中国科学院软件研究所和科大讯飞共同完成的工作,该工作以X光安检场景下的危险品检测为例,对复杂场景下的遮挡干扰、小目标问题进行了探索,建立了一个大规模的复杂场景目标检测基准,并提出了侧抑制模型。
转自机器之心
链接:https://www.jiqizhixin.com/articles/2022-03-02-2
01
前言
由高性能计算和大规模数据驱动的基于深度学习的计算机视觉相关技术快速发展,在物体识别、目标检测、语义分割等任务上取得了巨大成功,并在公共安全、国防安全、金融经济等领域得到了广泛应用。然而,与传统视觉任务的训练样本不同,真实开放的视觉场景往往较为复杂,诸如危险品安检、医学影像分析等,样本中广泛存在着目标干扰、视角欠佳、环境变化、取样困难等诸多难题。探索解决开放场景下的视觉任务难题有助于推动计算机视觉相关技术的发展,使得人工智能更好地服务人类社会。
近年来,国内外学术界高度重视以深度学习为基础的计算机视觉算法在复杂视觉场景下的可靠性和鲁棒性。然而,复杂场景下样本的的目标识别任务目前不仅缺乏鲁棒高效的模型,并且缺乏高质量且大规模的评估基准。研究者们想要利用深度学习在复杂场景下的目标识别任务上取得进展,需要同时在训练模型和评估基准两个方面取得突破。
在本文中,来自北航、软件所、科大讯飞的研究人员以X光安检场景下危险品检测任务为例探究复杂场景下的目标识别,建立了包含4.5万多张训练样本、10万多个被专业标注的危险品实例的大规模X光危险品检测任务评估数据集HiXray。在评估基准的基础上,进一步提出了侧抑制模型(Lateral Inhibition Module),从关键特征强化和非关键特征抑制的两个方向来缓解复杂场景带来的识别性能下降的问题。
02
HiXray评估基准
HiXray数据集包含8类常见的机场禁止携带的物品(不带电芯充电宝、带电芯充电宝、化妆品瓶、水杯、笔记本电脑、手机、平板电脑、非金属打火机)共45364张真实场景下的X射线图像,对于HiXray数据集中每种物品,本文将其与对应物体的自然图像进行共同展示,样例如下图所示:
危险品实物和其在X光下的成像对应图
类别的实例数量以及训练集和测试集的划分如表1所示:
HiXray数据集的类别实例数量分布表
03
侧抑制模型
Lateral Inhibition Network
和传统图像上的目标识别不同,复杂视觉场景下的目标往往带有强烈的干扰以及个体特征不强等特点,这些特点给目标识别带来难度。作者受在神经生物学中侧抑制机制(双向传播边缘增强机制抑制了动作电位从兴奋的神经元向临近神经元的横向扩散)的启发,设计了侧抑制网络(Lateral Inhibition Network)。该网络包括一个双向传播架构(Bidirectional Propagation),从而自适应的过滤由违禁物品的邻近区域产生的噪声信息。此外,受神经生物学中侧抑制会产生刺激对比从而增加感官知觉的启发,侧抑制网络还包括轮廓特征加强模块——边缘激活(Boundary Activation),该模块从每一层的四个方向强化边界信息,并将它们聚集成一个整体,从而激活边界信息。
Lateral Inhibition Network的整体框架图
1.双向传播架构(Bidirectional Propagation)
对于双向传播架构左侧的自上而下的密集路径而言,它从更高级别金字塔上采样空间较粗但语义较强的特征地图,能够表征更高分辨率的特征。在卷积层中通过侧向连接的过程中,这些特征图得到增强。每个侧向连接融合了来自卷积层和自上而下路径的相同空间大小的特征图。低卷积层的特征图语义层次较低,但由于次采样次数较少,其激活定位更加准确。进一步的,作者构建了密集的连接,以确保滤波的效果最好,公式如下:
其中,x为输入的样本,特征A为双向传播架构左侧输出特征。
进一步地,作者利用边缘激活模块对特征A进行加强(加强过程在下一小节叙述),就得到了特征B。类似于左侧,双向传播架构右侧对轮廓特征强化后的特征B进行自下而上地信息传播,公式如下:
2.边缘激活模块(Boundary Activation)
下图所示,捕获对象边界的关键是确定一个位置是否是边界点。受原理图的启发,作者设计了边界聚合模块,以感知边界及其周围环境的突然变化。为了模拟双向传播边缘增强产生刺激对比的机制,从而增加感官知觉,作者在每一层输出的特征图内强化四个方向的边界信息,即将它们聚集成一个整体形状来激活边界信息。
边缘激活模块的原理图
经双向传播架构左侧的输出特征A,经边缘激活模块操作之后,就成为了特征B,公式如下:
04
实验
作者在自己所提的HiXray数据集以及已开源的OPIXray数据集上做了大量的实验来全面地评估所提模型和基准,证明了所提出的侧抑制模型(Lateral Inhibition Network)能够出色地解决复杂视觉场景中的X光安检场景下的危险品目标识别的问题。下表是Lateral Inhibition Network在HiXray数据集和OPIXray数据集上相比于流行检测算法的表现。
和不同检测算法对比实验表
可以看到,SSD、FCOS、YOLO-v5等基础检测算法搭载了侧抑制机制后,均有一定程度的提高,提高幅度大于已开源的该任务下的DOAM模型。
同时,由于双向传播架构是一种具有密集连接机制并且对特定的特征进行了增强的特征金字塔机制,因此作者选择了SSD为基础模型(因为SSD模型中不包含特征金字塔结构),将侧抑制机制同经典的特征金字塔机制FPN和双向的PANet机制进行了比较。实验结果如下表所示。
和不同的特征金字塔机制对比实验表
可以看到,侧抑制机制由于其他特征金字塔机制。同时,作者还对模型进行了分离实验,验证了各个子模块的有效性。实验结果如下表所示。
消融实验表
这其中,SP指的是双向传播架构的左侧。
最后,作者对实验效果进行了可视化实验(如下图1所示),并且还专门对边缘激活模块对边缘特征强化的效果进行了可视化实验(如下图2)。
图1 可视化效果对比图
图2 轮廓特征强化效果对比图
© THE END
转载请联系本公众号获得授权
计算机视觉研究院学习群等你加入!
计算机视觉研究院主要涉及深度学习领域,主要致力于人脸检测、人脸识别,多目标检测、目标跟踪、图像分割等研究方向。研究院接下来会不断分享最新的论文算法新框架,我们这次改革不同点就是,我们要着重”研究“。之后我们会针对相应领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!
扫码关注
计算机视觉研究院
公众号ID|ComputerVisionGzq
学习群|扫码在主页获取加入方式
往期推荐