代码开源:AMFD 框架助力多光谱行人检测的精度与速度提升 !

2024-08-13 18:06:14 浏览数 (1)

多光谱行人检测已被证明在复杂光照场景下能够有效提升性能。然而,在多光谱检测中普遍使用的双流网络,对于多模态数据采用两个独立特征提取分支,导致其推理时间几乎是用单一特征提取分支的单流网络的两倍。这种增加的推理时间限制了多光谱行人检测在自主系统嵌入式设备中的广泛应用。 为了高效压缩多光谱目标检测网络,作者提出了一种新颖的蒸馏方法——自适应模态融合蒸馏(AMFD)框架。 与传统的蒸馏方法不同,AMFD框架充分利用教师网络中的原始模态特征,从而显著提高了学生网络性能。 具体来说,采用模态提取对齐(MEA)模块来为学生网络导出学习权重,整合了焦点和全局注意力机制。 这种方法使学生网络能够独立于教师网络获取最优融合策略,而无需额外的特征融合模块。此外,作者介绍了SMOD数据集,这是一个用于检测的对齐良好的具有挑战性的多光谱数据集。 在KAIST、LLVIP和SMOD等具有挑战性的数据集上进行了大量实验,以验证AMFD的有效性。 结果表明,作者的方法在降低对数平均漏检率和提高平均精度均值方面均优于现有最先进的方法。 代码可在https://github.com/bigD233/AMFD.git获取。

I Introduction

行人检测是计算机视觉中的一个关键问题,应用范围从自动驾驶车辆[1]到监控系统[2]。使用可见图像的现代研究在常规光照条件下表现良好。然而,由于对光照条件的敏感性,可见光在复杂的低光照场景中表现出差的检测性能。为了缓解这一限制,引入了热红外图像来提供补充数据,从而探索多光谱行人检测[3]作为一个有效的解决方案。

多模态特征融合是多光谱检测的关键。

先前的研究探索了各种融合策略:早期、中期和晚期融合。

在中期融合框架中,热成像和RGB特征是独立提取的,并在双流网络的中间阶段进行融合。最近采用中期融合策略的研究在多光谱检测中表现出卓越的性能。

然而,在双流网络中使用中期融合策略会导致显著的计算开销,与单流网络相比,几乎使推理速度加倍,因此在嵌入式设备上的部署提出了挑战[15]。

图1:在KAIST[3]数据集上进行行人检测的实验结果。教师网络是一个带有复杂融合模块和ResNet50主干网络[4]的双流网络。学生网络是具有简单图像级融合和ResNet18主干网络[4]的单流网络(Faster-RCNN[5]和RetinaNet[6])。

为了尽量减少推理时间,许多研究行人通过知识蒸馏来压缩模型,这种方法旨在将信息从大型教师网络传递到紧凑型学生网络,从而减少模型推理时间。

近期,针对多光谱目标检测领域,提出了许多基于特征的知识蒸馏方法。然而,这些方法面临着将教师网络特定模块的融合特征知识转移到学生网络中的挑战。

由于复杂的特征融合模块通常存在于教师网络中,但不在简单学生网络中,这增加了教师与学生网络之间的容量差距[20, 21]。此外,直接蒸馏融合特征忽略了教师网络原始模态特征中许多可能有用的信息。

因此,学生网络难以有效吸收教师网络的融合策略。如图2c所示,直接学习教师网络的融合特征会将更多噪声引入学生网络,表明适合教师网络的融合策略不一定适合小容量学生网络。

为了解决上述问题,作者提出了一个自适应模态融合蒸馏框架(AMFD)。具体来说,引入了一种融合蒸馏架构。不是直接从教师网络将融合特征蒸馏到学生网络,而是同时将教师网络的 thermal(热谱)和RGB特征蒸馏到学生网络的融合特征中。这种方法旨在使学生在训练过程中发展出自己的高效融合策略。受到GeBlock[22]的启发,作者设计了模态提取对齐(MEA)模块,该模块基于焦点和全局注意力机制获得蒸馏损失。学生网络的融合特征通过MEA模块计算的蒸馏损失从热谱和RGB特征中学习。这种方法使学生网络摆脱了教师网络的限制,并显著提高了学生网络的性能。

总之,作者的贡献如下。

  1. 作者创新性地提出了自适应模态融合蒸馏方法,该方法通过融合蒸馏架构将蒸馏位置前置。同时使用了两个模态提取对齐(MEA)模块分别提取红外和可见模态特征,使得学生网络能够独立于教师网络有效地生成融合策略,从而高效地将教师网络压缩为紧凑的学生网络,降低了推理速度。
  2. 作者推出了用于检测的上海交通大学多光谱目标检测(SMOD)数据集。在该数据集中,标注了8042个行人、10478个骑车人、6501辆自行车和6422辆汽车。所有目标的遮挡程度都经过了精心标注。该数据集具有低采样率,密集的骑行者和行人目标,并在3298对夜间场景图像中包含了丰富的光照变化。作者的数据集可在Kaggle1上获取。
  3. 在KAIST [3],LLVIP [23]和作者SMOD数据集上的实验表明,在不添加额外模块的情况下,学生网络能够取得出色的蒸馏结果。在KAIST [3]数据集上,作者的AMFD蒸馏方法能够将学生网络的平均误检率()降低到比教师网络低0.4%,同时推理时间减少到教师网络的一半。

在LLVIP [23]数据集上,作者的方法将学生网络的COCO平均精度(mAP)提高了2.7%。在SMOD数据集上,作者验证了融合蒸馏架构的有效性和灵活性。

II Related WORK

Multispectral Pedestrian Detection

多光谱行人检测,结合了RGB和热成像图像,因其能在不同光照条件下保持鲁棒的检测性能而受到广泛关注。最近的研究集中在改进多光谱特征融合技术。周等人提出了MBNet [24] 来缓解不同模态之间的不平衡。张等人引入的GAFF [8] 利用跨模态和模态内注意力机制来整合多光谱特征。

BAANet [10] 利用模态相关性为两种模态重新校准注意力机制。MSDS-RCNN [25] 通过同时进行行人检测和分割来增强行人检测性能。DCMNet [26] 着眼于在学习多光谱特征中同时捕捉局部和非局部信息。

一些采用后期融合策略的研究也展示了显著的性能。例如,ProbEn [9] 通过检测器集成探索单一模态检测的后期融合。然而,这些方法主要依赖于带有各种附加模块的双流网络,不可避免地增加了推理时间,给嵌入式设备的部署带来了挑战。

Knowledge Distillation

由Hinton等人开创的知识蒸馏(KD)[27]是一种在保持网络架构的同时进行模型压缩的关键技术。FitNet [28] 和 Zagoruyko 等人 [29] 分别强调了中间层语义的作用以及在指导学生模型中使用无监督注意力图。

KD的应用扩展到了图像分类之外的目标检测。例如,Wang等人[30]引入了细粒度的 Mask 来蒸馏由 GT 边界框勾勒出的区域,而Guo等人[31]强调了分别蒸馏前景和背景信息的重要性,这导致了学生性能的改善。

对于多光谱检测,Liu等人[18]提出了一种方法,该方法在多个层次上使用不同的蒸馏损失,包括特征、检测和分割的视角。Zhang等人[19]设计了一个知识转移模块,将教师网络通过GAFF[8]提取的融合特征的知识进行转移。然而,这些方法通常依赖于教师网络的融合特征和额外的学生网络模块,这与最小化推理时间的目标相悖。

作者的框架通过蒸馏原始模态特征,使得在没有增加推理延迟的情况下,学生网络性能保持鲁棒。

Multispectral Pedestrian Dataset

近年来,许多多光谱行人检测数据集被提出。CVC-14 [32] 和 FLIR 是为自动驾驶行人检测任务提出的多光谱数据集。然而,这两个数据集中的可见光和红外图像对在空间和时间上对齐得并不好。KAIST [3] 数据集提供了良好对齐的图像对,标注了行人遮挡,现在被广泛用于多光谱行人检测任务。

但是,其原始数据采样率过高,导致连续帧图像变化不大,因此在使用时需要数据清洗。除了上述驾驶视角的数据集外,LLVIP 是一个在监控视角下良好对齐的多光谱数据集。LLVIP 数据集中的大多数图像是从中等距离收集的,因此数据集缺少小目标行人。MFD 数据集 [33] 覆盖了四种主要场景,具有各种环境,像素变化范围广泛。由于其中一些场景并非驾驶场景,如在树林和草地上,作者称之为“乘法”视角。然而,这也导致数据中行人数量较少。

此外,作者发现驾驶视角数据集中的“有效”行人(定义为身高超过35像素的行人)密度都相对较低。表1展示了这些数据集和作者所提出的 SMOD 数据集的详细信息。为了避免现有数据集的上述缺点,作者提出了 SMOD 数据集。作者在表1中比较了这些数据集中的有效行人密度(每张图像中“有效”行人的平均数量),以表征作者所捕获的校园场景中数据集中包含的行人丰富度。

III method

Overall Architecture

如图3所示,双流教师网络包含两个特征提取器,包括 Backbone 网和特征金字塔网络(FPN)[34]。然后,教师网络的特征融合模块为后续检测生成融合特征。教师网络被认为具有优秀的特征提取器和融合特征。相比之下,学生网络只有一个特征提取器,其 Backbone 网比教师网络的小。 Backbone 网的输入是RGB图像和热红外(TIR)图像的融合。值得注意的是,在多光谱行人检测中,简单的图像级融合输入的单一流已被证明表现不佳。因此,作者的目标是提高小容量学生网络的性能。

通过自适应模态融合(AMFD)的蒸馏主要关注RGB和TIR特征。为了利用原始模态特征中潜在的有用信息,并有效地指导学生网络制定融合策略,作者采用了一种融合蒸馏架构。

这种方法包括将多模态特征知识从教师网络蒸馏到学生网络的融合特征中。模态提取对齐(MEA)模块使用全局和焦点注意力机制对特征图进行对齐。这些MEA模块动态生成通道权重以学习RGB和TIR特征的有用部分。

然后,学生网络通过MEA损失和原始检测损失进行优化。

因此,学生网络能够独立于教师网络生成更合适的融合策略。

Fusion Distillation Architecture

基于特征的知识蒸馏旨在使学生网络能够学习和模仿教师网络的中级特征。通常,传统方法选择相同阶段的特征进行蒸馏。也就是说,在蒸馏过程中,学生网络将模仿教师网络相同模块生成的特征。因此,将教师网络的融合特征自然地蒸馏到学生网络的融合特征成为了主要的蒸馏架构。基于这种架构,许多方法[18, 19]会向单流学生网络中添加一些特定模块以提高蒸馏效果。然而,这种情况限制了学生网络的结构,也增加了学生网络的复杂性,不利于其部署。

为了保持学生网络结构的灵活性,同时使其能够生成有效的特征融合策略,作者提出了一个融合蒸馏架构。如图4所示,学生网络的融合特征同时与教师网络的TIR和RGB特征对齐。作者将RGB特征及其特征金字塔网络(FPN[34])输出的TIR特征表示为和。表示特征融合模块,而表示蒸馏的损失函数。传统架构的蒸馏损失定义为

其中是学生网络的融合特征。而融合蒸馏架构不再依赖于教师网络的 feature fusion module。融合蒸馏架构的蒸馏损失为:

这个损失表明,在蒸馏过程中,学生网络的融合特征必须同时模仿TIR和RGB特征。与传统的架构的蒸馏损失相比,这个损失在特征融合过程中不会丢失可能有用的信息。因此,学生网络可以充分利用未融合的模态特征来制定独立于教师网络的融合策略。

Modal Extraction Alignment Module (MEA)

在设计有效的知识蒸馏损失方面,是目标检测蒸馏领域的一个关键问题。在目标检测[6]和蒸馏领域中,前景与背景之间的极端不平衡是一个关键问题。为了解决这个问题,作者分别提取全局知识和焦点知识。如图5所示,模态提取对齐模块(MEA)由两部分组成:全局特征提取和焦点特征提取。在以下小节中,作者将分别介绍这两个模块。

Iii-C1 Global Feature Extraction

全局信息蒸馏是最直接、最高效的蒸馏方法。这允许保留最多的全局信息,也允许将更多全局相关的深知识从教师网络转移到学生网络。然而,由于融合蒸馏结构,学生网络的特征必须同时与多个模态的特征对齐。这要求作者根据不同模态在全局蒸馏中关注不同的信息。因此,在不同模态的全局蒸馏中合并不同的信息是很重要的。

为了增强全局关系的提取,作者使用GcBlock [22]以确保学生网络拥有与教师网络相同的全局关系。这里的GcBlock是为了在不同模态中提取重要的全局关系,并使学生网络自适应地学习这些关系。GcBlock将生成一个逐通道权重:

并将这个权重加到输入特征图上,然后作者得到带有全局关系的输出特征图:

其中表示1x1卷积层,表示层归一化和relu激活。是特征的像素数,是特征图的切片(,C是特征图中的通道数)。表示广播元素逐点加法。

对于教师网络的RGB、TIR特征图、和学生网络的融合特征,全局特征提取损失为:

其中是两个MEA模块中用于分别蒸馏教师网络的TIR和RGB特征的GcBlocks。和是用来平衡损失的超参数。

Iii-B2 Focal Feature Extraction

仅关注全局关系显然是不够的。全局蒸馏过程存在引入噪声的风险,这可能会对目标区域特征产生不利影响。为了使学生网络能够更精确地获取目标区域特征的知识,作者强调特征图中的关键像素和注意力图。在此基础上,作者引入了焦点特征提取。

显然,作者关注的是行人存在的区域。因此,作者基于 GT 边界框来选择区域。这些区域由 Mask 标记:

其中 表示与特征图尺度对应的 GT 框, 是此像素所属的最大面积 GT 框的高度和宽度。权重 用于平衡损失的组合。这样,对于较大区域的目标的损失不会占据损失的大部分。

Mask 选择对作者重要的区域。然而, GT 框内的区域的权重在空间上和通道上都是均匀的。受到注意力机制的启发,作者将根据通道和空间注意力图计算焦点特征损失。这涉及在像素和通道维度上计算绝对平均值,然后使用softmax生成权重。

其中 分别是特征 的空间注意力和通道注意力图。然后经过空间、通道注意力和目标区域 Mask 加权后的损失为:

其中 和 是用于平衡损失的超参数。注意, 和 分别是教师网络对RGB和TIR特征的空间和通道注意力。

尽管作者通过教师网络的空间和通道注意力获得了重要区域的损失,但作者没有约束学生网络的空间和通道注意力。为了使学生网络能够以集成的方式学习教师网络两种模态的空间注意力和通道注意力,作者设计了注意力损失:

其中 是用于平衡损失的超参数, 表示L1损失。通过这种方式,学生网络的空间和通道注意力 可以从教师网络学习,并生成适合自身的融合注意力。然后由焦点特征提取生成的损失为:

损失函数 = (15)= .

Iii-C3 Total MEA Loss

整体损失由两个MEA模块产生。两个MEA模块将教师网络中的RGB特征和TIR特征的知识传递给学生网络。学生在训练过程中生成融合策略,该策略通过MEA损失进行优化:

Overall Loss

自适应模态融合蒸馏的总损失为:

其中 是检测器原始的检测损失。作者的框架仅需要教师网络中FPN后的特征。因此,该框架可以用于许多类型的检测器。

IV SMOD Dataset

Image Capture and Registration

图像由Asens FV6拍摄,这是一个双目车辆相机平台,包括一个可见光相机和一个红外相机。由于不同传感器相机的视场不同,作者对可见光图像进行裁剪和配准,以使图像对严格对齐。图6展示了不同相机的不同视场大小以及配准后的可见光图像。作者还为研究行人提供了未配准的图像对和标注,以便研究可见光与红外图像的配准。该数据集包含5378对下午3点拍摄的白天场景图像对和3298对晚上7点拍摄的夜间场景图像对。

Annotations and Advantages

作者标注了四类目标:行人、骑车人、汽车和自行车。特别是,作者为每种类型的目标标注了遮挡程度。如表格II所示,作者根据遮挡的百分比将遮挡分为四类:无遮挡(NO)、轻微遮挡(LO)、中度遮挡(MO)和重度遮挡(HO)。

表格I显示了SMOD与第2节中提到的现有数据集的比较。作者的SMOD数据集具有以下优势:

由于图像对是在校园内拍摄的,大多数图像对包含非常丰富和密集的目标,尤其是自行车和行人。这表明这是一个具有挑战性的多光谱目标检测数据集。 数据集的图像以2.5 FPS的频率采样,与其他针对驾驶场景的多光谱行人检测数据集相比,这要低得多,避免了相邻帧之间过于相似的过程以及随后用户对数据集的清理。

可见光-红外图像在时间和空间上严格对齐,作者还标注了驾驶中常见的其他三种类型的目标。因此,图像对可用于除目标检测以外的其他驾驶场景任务,例如图像融合和有监督的图像到图像翻译。

作者数据集中的图像对包含了丰富的光照变化,尤其是在夜间,如图7所示,非常低的照明和强光。因此,该数据集适用于图像融合和低光照行人检测的研究。

V Experiments

Dataset and Evaluation Metric

KAIST: KAIST数据集[3]是在多光谱行人检测中广泛使用的基准数据集。由于数据集的原始标注包含噪声,作者使用[35]提出的改进标注和[25]提出的净化标注进行训练。作者采用的测试标注是由[36]改进的。作者通过在范围内采样的每幅图像的假阳性数(FPPI)来计算对数平均漏检率(),数值越低越好。在“合理”设置下(不包括被遮挡或高度低于55像素的行人),作者采用作为作者的评估指标。

LLVIP: LLVIP数据集[23]是一个具有挑战性的多光谱行人检测数据集,包括12,025张训练图像和3,463张测试图像。作者使用COCO风格的平均精度[37]作为评估指标。

SMOD: 作者在第4节中详细介绍了这个数据集。作者从总共8676对图像中划分出1876对作为测试集,其中包含1178对白天图像和698对夜间图像。作者既使用COCO风格的平均精度[37]作为评估指标,也使用之前提到的对数平均漏检率()。

Implementation Details

网络架构。作者使用了MMDetection [38],这是一个基于PyTorch [39]的流行目标检测工具包,来实现作者的方法。在所有实验中,对于教师网络,作者采用了Faster-RCNN [5],带有两个ResNet50 [4] Backbone 网络和特征金字塔网络(FPN)[34],分别提取RGB和TIR特征。教师网络使用跨模态注意力 Transformer [40]融合特征。对于学生网络,为了验证作者方法的灵活性,作者采用了流行的两阶段检测器Faster-RCNN和单阶段检测器RetinaNet [6],仅使用一个ResNet18 [4]和FPN。学生网络的融合是通过图8所示的融合模块进行早期的图像级融合。

训练细节 所有网络都在单个Nvidia GeForce GTX 1080Ti GPU上进行训练。训练时的批处理大小设置为2。所有实验中的 Backbone 网络在ImageNet数据集[41]上进行预训练。对于所有数据集,学习率设置为,权重衰减为的AdamW优化器。作者总共训练网络30,000次迭代。对于Faster-RCNN,作者采用了超参数;对于RetinaNet,作者采用了。

对蒸馏结果的分析。作者在所有蒸馏实验中固定教师网络为上述描述的两流Faster-RCNN网络,并使用改进的标注进行训练。 根据表3的实验结果,AMFD几乎可以将学生网络在All集合上的降低一半。

当使用改进的标注进行训练时,两阶段学生网络的推理时间减少了58.3%,甚至下降了0.4%;同时,一阶段学生网络的推理时间减少了66.7%,而只高出2%。 特别是作者发现,经过AMFD蒸馏的学生网络在夜间集合上的较低,即经过AMFD蒸馏的网络在TIR特征的提取方面表现出色。 使用清理后的标注训练的学生网络甚至比使用改进的标注训练的网络性能更好。

与其他蒸馏方法的比较。为了进一步证明AMFD的有效性,作者还比较了多光谱行人检测领域的其他蒸馏方法。 结果如表7所示。MD [19]在蒸馏后使学生网络的降低了1.62%,这表明学生网络相对于作者提出的知识转移模块表现良好。

MD方法减少了推理时间(不进行后处理)36.3%。 DCRD [18]在上比其DCRL教师网络高出3.42%,推理时间减少了26.8%。 相比之下,AMFD可以显著提高简单学生网络的性能,甚至略优于教师网络。

与最先进技术的比较。为了评估作者提出方法的优越性,作者将其与一些现有的最先进的多光谱行人检测方法进行了比较, 这些方法在KAIST数据集上使用改进的标注[35]进行训练,包括IAF-RCNN [42],CIAN [43],ARCNN [35],MBNet [24],BAANet [10],UFF UCG [44],AANet [11]。 作者比较了在全部白天夜间子集下的_MR_以及推理时间与最先进的方法。 如表4所示,在这些方法中,AANet-Faster RCNN [11]的性能最佳,在全部集合上实现了6.91%的对数平均漏报率。

尽管作者的AMFD-Faster RCNN对数平均漏报率为7.23%,AMFD-RetinaNet的对数平均漏报率为8.82%,略逊于AANet [11], 但0.05s和0.04s的推理时间已经远超所有现有方法。 比较表明,AMFD在模型性能和模型压缩之间取得了良好的平衡,在两个方面都取得了卓越的结果。

定性比较。图9展示了作者的AMFD-Faster RCNN与(b)MBNet [24]和(c)教师网络(ResNet50 2)在KAIST [3]测试集上的定性比较。

前两行和后两行图像分别是白天和夜间结果。 可以观察到,MBNet在检测中丢失了一些行人,尤其是对小物体。 而经过教师网络训练的作者的AMFD-Faster RCNN可以在各种光照条件下检测到行人。 值得注意的是,有时作者的学生网络可以比教师网络表现得更好。 例如,在第三行,学生网络检测到了教师网络和MBNet都没有检测到的行人。 这证实了作者的蒸馏方法确实使学生网络摆脱了教师网络的限制。

Distillation on LLVIP Dataset

与其他蒸馏方法的比较。在目标检测任务中,已经提出了许多关于如何进行有效蒸馏的优秀方法。在本节中,作者将比较MGD [45],CWD [46],PKD [47]和作者的AMFD在LLVIP数据集上从双流教师网络到单流学生网络的蒸馏结果。作者首先在传统蒸馏架构中获得融合特征的最新方法的实验结果。然后在作者的融合蒸馏架构下使用这些蒸馏方法获得实验结果。如表8所示,在融合蒸馏架构下,作者的AMFD可以增加2.7%的mAP,优于其他蒸馏方法。然而,作者发现并非所有蒸馏方法在融合蒸馏架构下都有更好的性能,这表明在AMFD中,融合蒸馏架构和MEA模块是不可分割的。定性比较。如图10所示,作者分别选择了一个白天和一个夜晚的图像来可视化网络的空域特征注意力。作者可以看到,在第二列的教师网络的特性图中,行人是通过蓝色区域(较低值)很好地分割的。然而,在第三列基于相同融合策略的学生网络在白天场景的特征图中显示出更多的噪声。通过作者的AMFD获得的学生网络在第四列用蓝色区域(低值)表示行人的 Head ,用橙色区域(高值)表示行人的身体,这与教师网络的融合策略完全不同。这表明作者的AMFD可以独立于教师网络形成更健壮和灵活的融合策略,这比教师网络更适合学生网络的结构。

Distillation on SMOD Dataset

对蒸馏结果的分析。 为了验证作者的方法在SMOD数据集上的有效性,作者将使用传统蒸馏架构的蒸馏结果与使用AMFD的蒸馏结果进行了比较。传统蒸馏架构仅蒸馏教师网络融合特征的一个单一MEA模块。在表9中,作者可以看到,作者的AMFD将学生网络的mAP提高了3.5%,这比仅蒸馏融合特征的传统蒸馏架构高出0.6%。至于,作者的蒸馏方法也优于传统蒸馏架构,并获得了与教师网络同级的结果。上述结果表明了作者提出的融合蒸馏架构的有效性。

与其他蒸馏方法的比较。 作者在之前的第V-D节与先进的蒸馏方法MGD [45],CWD [46]和PKD [47]进行了比较。为了验证作者蒸馏方法的灵活性,作者使用单阶段检测网络Retinanet [6]进行了蒸馏实验。从表10中可以看出,作者的AMFD可以将mAP提高4.0%,这在单阶段检测网络中优于其他蒸馏方法。

所提MEA模块的有效性。 在融合蒸馏架构中,作者使用两个MEA模块强制学生网络分别学习TIR和RGB特征。特别是,作者可视化了MEA全局特征提取部分获得的通道权重(作者在方程(3)中用符号表示的权重)。

如图11所示,作者可以看到对于不同的通道,TIRMEA和RGBMEA的权重有显著差异。这种对不同通道的增强或减弱现象说明了作者MEA模块在融合蒸馏架构中的有效性。在传统蒸馏架构中,作者仅使用一个MEA模块来蒸馏教师网络的融合特征。这只为融合特征生成了一组通道权重,导致两种模态中有用的潜在信息丢失。

定性比较。 如图12所示,作者比较了使用AMFD进行蒸馏前后以及教师网络的学生网络。第一列的真实情况显示了可见光和红外图像,其余的图像是可见图片和空间注意力图。从检测结果来看,蒸馏前的学生网络受到假检测和漏检的影响。而作者蒸馏后的学生网络的性能显著提高,有时甚至比教师网络表现更好。从空间注意力图来看,与教师网络相比,蒸馏前的学生网络中存在大量噪声。由于作者的AMFD采取了不同的空间注意力表示形式,所以蒸馏后的学生网络获得了更好的检测结果。

VI Conclusion

在本文中,作者提出了一个自适应模态融合蒸馏(AMFD)框架。

该框架采用了融合蒸馏架构,能显著提高学生网络的性能。这种架构允许学生网络的融合策略独立于教师网络。

模态提取对齐(MEA)模块基于焦点和全局注意力机制提取原始模态特征。

这种蒸馏方法能有效地提高学生网络的性能,从而有效地压缩教师网络,大幅减少多光谱网络的推理时间。

实验表明,在AMFD下,简单且推理速度更快的学生网络可以与教师网络表现相当。

这使得未来在嵌入式设备中部署多光谱行人检测能力更具可行性。

参考

[1].AMFD: Distillation via Adaptive Multimodal Fusion for Multispectral Pedestrian Detection.

0 人点赞