超越Yolov8/Yolov9,用Hyper图方法释放YOLO系列的所有潜能 !

2024-08-20 20:36:46 浏览数 (4)

作者提出了Hyper-YOLO,一种将超图计算集成到视觉特征中以捕捉高阶相关性的新目标检测方法。尽管传统YOLO模型强大,但它们在脖子设计上存在局限性,这限制了跨层次特征的集成和高级特征间关系的利用。 为了解决这些挑战,作者提出了Hypergraph Computation Empowered Semantic Collecting and Scattering(HGC-SCS)框架,该框架将视觉特征图转换为语义空间,并构建一个超图以进行高阶消息传播。 这使得模型可以获得语义和结构信息,超越了传统的关注特征的学习。 Hyper-YOLO在其 Backbone 中采用了提出的混合聚合网络(MANet),进行增强的特征提取,并在其 Neck 分引入了基于超图的跨层次和跨位置表示网络(HyperC2Net)。 HyperC2Net在五个 Level 上运作,并摆脱了传统的网格结构,允许在 Level 和位置之间进行复杂的高级交互。这种组件的协同作用使得Hyper-YOLO成为各种尺度模型的最先进结构,正如其在COCO数据集上的优越性能所示。 具体而言,Hyper-YOLO-N在12%的AP和9%的AP的改进下显著超过了先进的YOLOv8-N和YOLOv9-T。 源代码在https://github.com/iMoonLab/Hyper-YOLO。

I Introduction

YOLO系列是目标检测领域的主流方法,为各种应用场景提供了多种优势。YOLO的架构包括两个主要部分:backbone 和 neck 。尽管backbone主要用于特征提取,但已经取得了广泛的研究成果,而neck负责多尺度特征的融合,为各种大小的目标的检测提供了强大的基础。本文特别关注的是neck,这对于提升模型在检测不同尺度物体方面的能力至关重要。

现代YOLO模型采用PANet [16]作为它们的neck,该模型采用自顶向下和自底向上的途径来促进跨尺度信息的全局融合。然而,PANet的能力主要局限在将相邻层之间的特征融合,并没有解决特征映射内的跨 Level 特征融合问题。相比之下,类似于Gold-YOLO [10]的收集-分发neck设计可以促进层间的信息交换,但仍不足以在特征映射内实现跨位置交互。此外,它并未充分利用特征之间潜在关系的潜力,特别是在涉及多重相关性的情况下。多重相关性是指在不同尺度、位置和语义 Level 之间存在复杂的非线性关系,这对于理解视觉数据内的更深层次的上下文和交互关系至关重要。值得注意的是,低级视觉特征及其相关性的协同表示在目标检测任务中起着关键作用。将这些基本特征与高级语义信息结合起来对于在给定场景中准确识别和定位物体的水平至关重要。对低级特征隐藏的多重相关性进行语义分析仍然是在许多计算机视觉任务中具有挑战性和重要性的一部分。在实践中,超图[17,18]被广泛用作表示复杂多重相关性,因为它相对于简单的图具有增强的表达能力。尽管在简单图中,边只能连接两个顶点,限制了它们的表达能力,而在超图中,边可以连接两个或多个顶点,从而实现更复杂的互连。相比于简单的图,超图可以捕获多个实体之间的更丰富的相互作用,这对于需要理解复杂而多变的相关性,如计算机视觉中的目标检测任务(在此过程中,特征映射内的跨 Level 和跨位置相关性至关重要)。

不同于大多数专注于增强特征提取后端的工作,作者提出了Hypergraph Computation Empowered Semantic Collecting and Scattering(HGC-SCS)框架。这种框架巧妙地通过将提取到的特征图转换为抽象语义空间,并构建复杂的超图结构,从而增强由视觉后端提取的特征图。超图作为使语义空间内的特征之间能够进行高阶消息传播的通道。这种方法使视觉后端具备了同时整合语义信息和复杂结构信息的能力,从而超越了传统语义特征关注的学习的限制,提高了性能。

在上述HGC-SCS框架的基础上,作者引入了Hyper-YOLO,一种基于超图计算的新YOLO方法。Hyper-YOLO首次将超图计算集成到视觉目标检测网络的 Neck 组件。通过模拟特征图从视觉后端提取的复杂高阶关联,Hyper-YOLO极大地提高了目标检测性能。在背部架构方面,Hyper-YOLO集成到YOLOv8提供的基站结构中,并引入了混合聚合网络(MANet),将三种独特的基结构融合在一起,丰富信息流动和增强特征提取能力。在 Neck ,利用提出的HGC-SCS框架,作者实现了五个不同尺度特征融合的 Neck ,称为基于超图的跨 Level 和跨位置表示网络(HyperC2Net)。与传统 Neck 设计相比,HyperC2Net同时融合五个不同尺度的特征,同时打破视觉特征图的网状结构,以促进在不同水平和位置之间的多阶消息传播。超YOLO作为一项突破性的架构。在COCO数据集上的实验结果(见图1)证实了其在性能上的显著优势,证明了这种复杂方法在推进目标检测领域方面的有效性。

作者的贡献可以总结为:

  1. 作者提出了一个名为“超图计算赋能语义收集与散布(HGC-SCS)”的框架,通过高阶信息建模和学习提高视觉backbone的性能。
  2. 利用所提出HGC-SCS框架,作者开发了HyperC2Net,这是一个有助于在语义层和位置之间实现高阶消息传递的目标检测颈。HyperC2Net显著提高了 Neck 的提取高阶特征的效率。
  3. 作者提出了混合聚合网络(MANet),它通过包含三种不同类型的块来丰富信息流,从而增强backbone的特征提取能力。
  4. 作者提出了超YOLO,它通过超图计算提高模型的感知高阶信息的能力,从而改进目标检测。具体地,作者的Hyper-YOLO-N在COCO数据集上实现了显著的改进,与YOLOv8-N相比AP提高了12%,与YOLOv9-T相比提高了9%。

II Related Work

本部分讨论了现有的与本研究主题相关的工作。

相关工作主要包括以下几个方面:

A.相关工作

近年来,人工智能(AI)领域取得了巨大进展,其中包括自然语言处理(NLP)领域。为了在NLP中实现更高质量的翻译,研究者们提出了许多有效的翻译模型。例如,许多研究者专注于构建能够翻译复杂句子的模型,如Bahdanau等人的Transformer模型和Cho等人提出的COTA模型 [1]。此外,还有一些研究者提出将深度学习(DL)与传统机器翻译(TM)相结合的翻译方法。例如,Lu等人提出了Seq2Seq模型,将神经网络(NN)的编码器与解码器相结合,以实现高质量的翻译 [2]。

B.翻译数据集

翻译数据集是NLP领域中的重要资源。在构建和使用翻译模型时,需要使用大量的高质量翻译数据来训练和评估模型。目前,已有许多常用的翻译数据集,例如WMT、TED、Tnews等。这些数据集涵盖了多种语言,包括英语和其他主要语言,如中文、法语和西班牙语等。

C.翻译评估指标

在构建和使用翻译模型时,需要使用合适的评估指标来衡量模型的性能。常用的评估指标包括BLEU、chrF、Similarity等。其中,BLEU是最常用的评估指标之一,它通过计算翻译结果与参考译文之间的相似度,从而评估模型的性能。

D.翻译环境

翻译环境是影响翻译质量的重要因素。传统的机器翻译系统往往需要用户在输入文本中指定翻译的目标语言,而近年来,通过将翻译任务嵌入到对话系统中,可以直接与用户进行自然语言交互,以获得更好的翻译质量 [3]。

YOLO Series Object Detectors

实时目标检测领域,YOLO系列(从YOLOv1的单阶段检测演变为YOLOv8的性能优化模型)已成为基石。每个迭代版本,从YOLOv4的结构优化到YOLOv7的E-ELAN背部结构,都带来了显著的进步。YOLOX引入了 Anchor-Free 检测,Gold-YOLO利用其收集和分发机制增强了特征融合。尽管RT-DETR等检测器出现,但YOLO系列仍然占主导地位,部分原因是它有效地利用了CSPNet、ELAN和改进的PANet或FPN进行特征集成,同时具备YOLOv3和FCOS的 sophisticated预测头。YOLOv9引入了可编程梯度信息以及用于最小化在深度网络传输过程中的信息损失的Generalized Efficient Layer Aggregation Network。在建立YOLO方法的基础上,本文提出了一种先进的Hyper-YOLO方法,它利用超图计算增强YOLO框架复杂的关联学习能力。Hyper-YOLO旨在改进层次特征的学习和集成,推动目标检测性能的边界。

Hypergraph Learning Methods

超图(hypergraph)[17, 18]可以用来捕获这些复杂的、高阶关联。具有多个节点连接的超图(hyperedges)在模拟复杂关系方面表现出色,这已在社会网络分析[22, 23]、药物靶点相互作用建模[24, 25]和大脑网络分析[26, 27]等不同领域得到证明。超图学习方法已成为捕获数据中复杂和高阶相关性的强大工具,而传统基于图的技术可能无法充分表示。在 Gao et al. [17] 中讨论的超边(hyperedges)概念使同时允许多个节点相互作用,从而有助于模拟这些复杂关系。超图神经网络(HGNN)[28]利用这些关系,通过光谱方法直接学习超图结构。在此基础上,通用超图神经网络(HGNN)[18]引入了节点间高阶消息传播的空间方法,进一步扩展了超图学习的功能。尽管取得了这些进步,但在计算机视觉任务中的应用超图学习仍相对较少,特别是在建模和学习高阶关联方面。在本文中,作者将探讨如何利用超图计算进行目标检测任务,旨在通过集成超图模型中描绘的细腻关系来提高分类和定位的准确性。

III Hypergraph Computation Empowered Semantic Collecting and Scattering Framework

不同于计算机视觉中的表示学习仅处理视觉特征,这些超图计算方法[28, 18] 同时处理特征和高阶结构。大多数超图计算方法依赖于固有的超图结构,这在大多数计算机视觉场景中无法获得。在这里,作者引入了计算机视觉中的超图计算的一般范式,包括超图构建和超图卷积。给定从神经网络中提取的特征图 ,采用超图构建函数 来估计语义空间中特征点之间的潜在高阶相关性。然后,利用谱或空间超图卷积方法通过超图结构在特征点之间传播高阶信息。生成的 高阶特征 被认为是 。通过将高阶关系信息集成到 中,这种超图计算策略弥补了原始特征图 中的高阶相关性缺陷。生成的混合特征图,称为 ,是 和 的融合。这种合成过程产生了语义增强的视觉表示 ,它从语义和高阶结构两个角度提供了更全面的视觉特征表示。

在这里,作者设计了一个用于计算机视觉的超图计算的通用框架,称为超图计算赋能语义收集和散射(HGC-SCS)框架。给定 CNN [29, 30, 31, 32, 33, 34] 或其他 Backbone 网络提取的特征图,作者的框架首先收集这些特征并融合它们,在语义空间中构建混合特征袋 。在第二步,作者估计这些潜在的高阶相关性,在语义空间中构建超图结构。为了充分利用这些高阶结构信息,某些相关的超图计算方法[28, 18] 可以被采用。这样,可以生成**高阶感知特征 ,它融合了高阶结构信息和语义信息。在最后一步,作者散射高阶结构信息到每个输入特征图。HGC-SCS 框架可以如下所示:

其中 表示从视觉 Backbone 网络生成的原始特征图的基本特征图。"超图构建" 表示第二步,包括超图构建和超图卷积,它捕获语义空间中的潜在高阶结构信息,并生成高阶感知特征 。在最后一行, 表示特征融合函数。 表示增强的视觉特征图。在接下来的部分,作者将介绍作者的 HGC-SCS 框架在目标检测中的一个实例,称为超 C2Net。

IV Methods

在这一部分,作者首先介绍了YOLO的初步表示以及拟议的超YOLO框架。接下来,作者详细介绍了作者超YOLO提出的两个核心模块,包括作者的超YOLO的基本块(MANet)和 Neck (HyperC2Net)。最后,作者分析了Hyper-YOLO与其他YOLO方法之间的关系。

Preliminaries

YOLO系列方法通常是包含两个主要组成部分:backbone和neck。backbone[40][13]负责提取基本视觉特征,而neck[15][16][19]则有助于将多尺度特征进行融合以达到最后的目标检测。本文提出针对这两个组成部分的增强策略。为了方便在本文中的描述,作者将neck的三尺度输出分别表示为,分别对应小尺度、中尺度和大尺度检测。在backbone的特征提取阶段,作者进一步将其划分为五个阶段:,这代表网络在不同语义 Level 的特征。一个更大的数字表示由更深的一层网络提取的更高级的语义特征。更多细节请参阅第A部分。

Hyper-YOLO Overview

作者提出的超YOLO框架保持了一般YOLO方法的总体架构,包括 Backbone 和颈,如图S1所示。对于一张图像,超YOLO的 Backbone 利用提出的MANet作为其核心计算模块,从而增强了YOLOv8中发现的传统C2f模块的特征识别能力。与传统YOLO架构不同,Hyper-YOLO引入了一个五元组主要特征集的集成:{B1, B2, B3, B4, B5}。在超YOLO的颈(HyperC2Net)的一种新颖步长中,基于超图计算理论,将跨级和跨位置信息整合到这些五元组特征集中,最后在三个不同的尺度上生成最终语义特征{N3, N4, N5}。这些层次结构语义特征随后被用于最终的目标检测任务。

Mixed Aggregation Network

针对作者超分辨率YOLO的 Backbone 结构,为提升基础网络的特征提取能力,作者设计了一种混合聚合网络(MANet),如图2所示。这种架构将三种典型的卷积变体:1x1跳过卷积用于通道特征的 Reshape ,Depthwise Separable Convolution (DSConv)用于高效的空间特征处理,以及C2f模块用于增强特征层次的集成,融合在一起以发挥协同作用。这种聚合产生了一种更丰富多彩的特征梯度流,在训练阶段显著增强了每个五关键阶段内部所包含的语义深度。作者的MANet可以表示为:

其中的通道数为,而的通道数均为。最后,作者通过 ConCat 操作和卷积将三种类型特征的语义信息融合并压缩生成具有通道数的,如下所示:

Hypergraph-Based Cross-Level and Cross-Position Representation Network

对于作者超超详细的YOLO,在以下子部分中,为了全面融合从backbone获得的跨层和跨位置信息,作者进一步提出了一种基于超图的跨层和跨位置表示网络(HyperC2Net),如图4所示。HyperC2Net是HGC-SCS框架的实现,能够捕获语义空间中的那些潜在的高阶相关性。

Iii-B1 Hypergraph Construction.

如图S1所示,作者的backbone被划分为五个离散阶段。这些阶段的代表特征图分别为。为了利用超图计算阐明基础特征之间的复杂高阶关系,作者首先执行五个基础特征的通道式 ConCat ,从而合成跨 Level 的视觉特征。超图通常由其顶点集和边集定义。在作者的方法中,作者将基于网格的视觉特征分解为超图的顶点集。为了模拟语义空间的内部邻居关系,作者使用距离阈值构建每个特征点周围的-ball,将其作为一跳边,如图3所示。-ball是在一个特定距离阈值内的所有特征点以中心特征点为中心的半径所包含的跳边。跳边的总体集合可以定义为,其中表示指定顶点的邻居顶点集。是距离函数。在计算中,超图通常表示其关联矩阵。

Iii-B2 Hypergraph Convolution.

为方便在超图结构上进行高阶消息传递,作者利用了一个典型的空间域超图卷积[18],并额外添加了残差连接以在高阶学习顶点特征如下:

其中, 和 分别是两个邻接指示函数,定义如下:[18]: 和 . 是一个可训练的参数。为实现计算方便,可以将两阶段超图消息传递的矩阵形式定义如下:

其中, 和 分别表示顶点和边集的迪agonal度矩阵。

Iii-B3 An Instance of HGC-SCS Framework.

将先前定义的超图构建和卷积策略相结合,作者提出了一个名为超图交叉 Level 和交叉位置表示网络(HyperC2Net)的简洁实现,其整体定义如下:

其中“”表示矩阵 ConCat 操作。是融合函数,如图4(语义扩散模块和自下而上模块)所示。在作者的HyperC2Net中,天然包含跨 Level 信息,因为它是从多个 Level 融合的 Backbone 特征。此外,将网格特征分解为语义空间内的特征点集合,并基于距离构建超边,作者的方法允许在点集内不同位置的顶点进行高阶消息传递。这种能力有助于捕捉跨位置信息,丰富模型对语义空间的理解。

在HyperC2Net中,天然包含**跨 Level **信息,因为它是在多个 Level Backbone 特征的融合。

Comparison and Analysis

YOLO系列技术的主要发展集中在主干和 Neck 分的优化改进上,特别关注每个连续的YOLO迭代中作为进化核心的主干部分。例如,最初的YOLO框架[1]引入了DarkNet Backbone ,此后经过了一系列增强,如YOLOv7中引入的ELAN(高效层聚合网络)模块,以及YOLOv8中公布的C2f(具有反馈的跨阶段部分连接)模块。这些创新极大地推进了 Backbone 架构的视觉特征提取能力。

相比之下,作者的Hyper-YOLO模型将创新轴转向了 Neck 分的结构设计。在颈架构领域,如YOLOv6[5]、YOLOv7[7]和YOLOv8[8],一直采纳了PANet(路径聚合网络)结构。同时,Gold-YOLO[10]则采用了创新的聚集-分发颈范式。接下来,作者将比较HyperYOLO的HyperC2Net与这两种经典颈架构。

尽管PANet结构在融合多尺度特征方面具有高效性,但其融合仅限于直接相邻的层之间的信息融合。这种直接邻接限制了网络内信息融合的宽度。而HyperC2Net通过使 Backbone 生成的五级特征进行直接融合,克服了这一限制,从而生成了更强大、更多样化的信息流动,有助于减少不同深度特征之间的连接间隙。值得注意的是,虽然Gold-YOLO引入的聚集-分发颈机制可以整合多个层次的信息,但它并没有 inherently考虑特征图中的跨位置交互。而HyperC2Net的独创之处在于,它利用超图计算来捕捉特征图内在的复杂高阶关联。语义域中的超图卷积有助于不受网格限制的信息流动,以便实现跨水平和跨位置的高阶信息传递。这种方式打破了传统网格结构的限制,实现了更精细、更集成的特征表示。

HyperC2Net生成的特征表示考虑了原始数据 Backbone 提供的语义特征,以及潜在的高阶结构特征。这种丰富的特征表示对于实现目标检测任务上的优秀性能是至关重要的。HyperC2Net利用这些复杂的高阶关系的能力,相比传统的PANet和最近的创新集聚会分发颈,具有显著优势,强调了高阶特征处理在推动计算机视觉领域先进技术中的价值。

V Experiments

Experimental Setup

V-A1 Datasets

本文使用了微软COCO数据集[41],该数据集是目标检测的基准。本研究使用了其中的train2017子集进行训练,而Val2017子集作为验证集。在Val2017子集上对超YOLO模型的性能进行了评估,具体结果请参见表1。

V-A2 Compared Methods

作者选择了包括YOLOv5 [4]、YOLOv6-3.0 [5]、YOLOv7 [7]、YOLOv8 [8]、Gold-YOLO [10]和YOLOv9 [21]在内的高级YOLO系列方法进行比较。作者在实验中采用了它们报告的默认参数配置。

V-A3 Our Hyper-YOLO Methods

作者开发的超YOLO基于YOLOv8的四个尺度(-N,-S,-M,-L)。因此,作者对超YOLO架构的每个阶段的超参数(卷积层数,特征维度)进行了修改,如表S2所示,因此得到了超YOLO-N,超YOLO-S,超YOLO-M和超YOLO-L。考虑到作者的超YOLO在 Neck 分引入了高阶学习,增加了参数数量,作者进一步在超YOLO-N的基础上减少了参数,形成了超YOLO-T。具体来说,在超YOLO-T的超C2Net中,底部Up阶段的最后一个C2f被替换为一个1x1卷积。此外,作者注意到最新的YOLOv9在推理过程中采用了一种新的可编程梯度信息传递和剪枝方法来减少参数,同时保持准确性。基于YOLOv9,作者开发了超YOLOv1.1。具体来说,作者将YOLOv9的 Neck 分替换为超YOLO的超C2Net,从而使YOLOv9具有高阶学习的能力。

V-A4 Other Details

为了确保公平的比较,作者排除了拟合和自我蒸馏策略在所有考虑的方法中的使用,如[5]和[10]所概述的那样。此外,考虑到输入图像尺寸可能会对评估产生潜在的影响,作者将所有实验中的输入分辨率统一为640×640像素,这是领域中常用的选择。评估基于标准的COCO平均精确度(AP)指标。有关实现特定之处请参见A和C部分。

Results and Discussions

在COCO Val2017验证集上的目标检测结果如表1所示,主要得出四点观察结论。

首先,提出的Hyper-YOLO方法在所有四个尺度上都优于其他模型。例如,在AP指标上,Hyper-YOLO在-N尺度上实现了41.8%,在-S尺度上实现了48.0%,在-M尺度上实现了52.0%,在-L尺度上实现了53.8%。与Gold-YOLO相比,Hyper-YOLO分别实现了2.2、2.6、2.2和2.0的提升。与YOLOv8相比,提升分别为4.5、3.1、1.8和0.9。与YOLOv9相比,Hyper-YOLO分别实现了3.5、1.2、0.6和0.8的提升。这些结果验证了Hyper-YOLO方法的有效性。

其次,作者注意到,作者的方法不仅提高了Gold-YOLO性能,还显著减少了参数数量。具体而言,在-N尺度上降低了28%,在-S尺度上降低了31%,在-M尺度上降低了19%,在-L尺度上降低了25%。主要原因是作者的HGC-SCS框架在与Gold-YOLO的汇集分发机制相比较时,进一步引入了高阶学习到语义空间。这使得作者的方法能够更有效地使用 Backbone 网络提取的多样化信息,包括跨层和跨位置信息,同时使用更少的参数。

第三,考虑到Hyper-YOLO与YOLOv8具有类似的底层架构,作者发现提出的Hyper-YOLO-T,与YOLOv8-N相比,在更少的参数(3.2M到3.1M)下,实现了更高的检测性能(AP从37.3提高到38.5)。这表明提出的HyperC2Net可以通过高阶学习实现更好的特征表示学习,从而增强检测性能。同样地,作者将Hyper-YOLOv1.1与YOLOv9进行了比较,两者都使用相同的 Backbone 架构,但Hyper-YOLOv1.1使用了基于超图的超C2Net作为 Neck 分。结果表明,作者的Hyper-YOLOv1.1实现了显著的性能提升:Hyper-YOLOv1.1-T比YOLOv9-T实现了2.0 AP的性能提升,Hyper-YOLOv1.1-S比YOLOv9-S实现了1.2 AP的性能提升。这种相同架构和相同尺度的公平比较验证了高阶学习方法在目标检测任务中的有效性。

最后,作者观察到,与YOLOv8相比,作者的Hyper-YOLO带来的改进随着模型尺度的减小(从-L到-N)而变得更加显著(从0.9提高到4.5)。这是因为较小的模型尺度削弱了特征提取能力和从视觉数据中获取有效信息的能力。在这种情况下,高阶学习成为必要,以便捕捉特征图语义空间中的潜在高阶相关性,丰富最终的检测Head用于检测的特征。此外,在语义空间中的超图基础上的高阶消息传播允许不同位置和层之间的直接信息传递,增强有限参数基础上 Backbone 网络的特征提取能力。

Ablation Studies on Backbone

在本和小节中,考虑到模型的规模,作者选择Hyper-YOLO-S进行对backbone和neck的消融研究。

Iv-C1 On Basic Block of Backbone.

作者在提出的MANet上进行消融实验,以验证基础块中提出的混合聚合机制的有效性,结果见表2。为确保公平比较,作者使用与YOLOv8 [8]中相同的PANet [16]作为 Neck ,以便两种方法之间的唯一差异在于基础块。实验结果明确显示,在相同 Neck 下,MANet在所有指标上都优于C2f模块。这种优越性能归因于混合聚合机制,该机制集成了三种经典结构,导致信息流动更加丰富,从而实现了增强性能。

Iv-C2 On Kernel Size of Different Stages.

作者进一步进行了关于卷积核大小的消融实验,这在确定感受野和网络捕捉数据空间层次的能力方面是一个至关重要的因素。在作者的实验中,表示使用在第i阶段的MANet的卷积核大小。

Ablation Studies on Neck

Iv-D1 High-Order vs. Low-Order Learning in HGC-SCS Framework

HGC-SCS 框架的核心是语义空间的超图计算,这使得在特征点集中实现高阶信息传播成为可能。作者通过将超图简化成一个图来进行低阶学习来进行有效性评估,结果如表4 所示。在这种情况下,图是由连接图相邻节点中心节点并在 -球内的边构建的。使用的图卷积操作[42]是经典的:,其中是图邻接矩阵 的对角度矩阵。此外,作者包括了一个没有任何相关的学习配置:" None"。实验结果如表4 所示,表明高阶学习与其他两种方法相比表现出优越性能。从理论上讲,低阶学习可以被视为高阶学习的子集,但缺乏建模复杂相关的能力。相反,高阶学习具有更强的相关建模能力,这对应着更高的性能天花板,因此它更容易实现更好的性能。

Iv-D2 On the Semantic Collecting Phase

第一个阶段是语义搜集,其主要作用是将输入到语义空间的总体信息量确定下来。作者在该阶段进行了相应的消融实验,如表5所示,使用了三种不同的配置,分别选取3,4或5个特征图层作为输入。实验结果表明,更多的特征图层可以带来更丰富的语义空间信息。这种增强的信息丰富度使得超图能够完全发挥在模拟复杂相关性方面的能力。因此,输入配置为5个特征图层时取得了最佳性能。这一结果表明,当将更多层次的特征图层整合到模型中时,模型可以从输入数据中获得更全面的表示。更多的特征图层可能引入了视觉输入的更广泛的语义意义和细节,使得超图能够建立更高层次的联系,以更全面地理解场景。因此,采用整合5个特征图层的配置能够最大化基于超图的复杂相关性建模的潜力。

V-D3 On Hypergraph Construction of Hypergraph Computation Phase

为了检验构建超图时所使用的距离阈值的影响,作者进行了进一步的消融实验,结果如表6所示。与不引入超图计算的配置"None"相比,引入超图计算会显著提高整体性能。还观察到目标检测网络在从7到9的阈值范围内表现 relatively 稳定,变化很小。然而,在阈值6和10时,性能出现下降。这可以归因于直接影响语义空间中特征平滑度的连接节点数量。较高的阈值可能导致更连接的超图,其中节点更有可能共享信息,可能导致特性过度平滑。相反,较低的阈值可能导致无法充分利用特性之间的高阶关系,从而构建出较不连接的超图。因此,超YOLO使用8作为构建超图的距离阈值。确切的值将基于实证结果确定,在丰富连接的超图与过度平滑或未正确连接的特性表示之间进行平衡。

More Ablation Studies

在本小节中,作者对Hyper-YOLO的4种不同的模型规模进行了全面的消融研究,以评估脊骨和 Neck 的改进对其性能的影响,详细结果已在表7中呈现。YOLOv8的基准性能被放在表的最上端。表格中间部分介绍了只包含脊骨改进的作者的HyperYOLO模型。最后,作者详细介绍了同时受益于脊骨和 Neck 改进的完整的HyperYOLO模型。根据表7的实验结果,作者有以下三个观察。

首先,采用个别的和联合改进显着提升了-N,-S和-M模型的性能,验证了作者提出的修改的有效性。其次,每个改进的影响似乎与规模有关。当作者从-N到-S,-M和-L模型,由于脊骨改进而获得的逐步性能增益从2.6降至1.5,0.8和最后0.1。相比之下, Neck 改进在所有这些规模上持续贡献更显著的改进,分别增加了1.9,1.6,1.0和0.8。这表明,尽管脊骨中扩大感受野和宽缩带来的好处在小模型中更加明显,但是高级的HyperC2Net颈可以为所有模型提供更均匀的增强,通过丰富语义内容和提高整体目标检测能力。第三,当关注小目标检测(AP*)时,同时受益于背骨和 Neck 增强的HyperYOLO-L模型实现了1.6的显著增加,而仅仅引入背骨改进的模型只能实现0.6的改进。这强调了超图模型,特别是 Neck 增强,在捕获小物体及其之间复杂关系并显著提高这些具有挑战性的场景的检测潜力。

More Evaluation on Instance Segmentation Task

作者将超分辨率YOLO(Hyper-YOLO)应用于COCO数据集上的实例分割任务,确保与先驱YOLOv8进行直接比较,通过采取一致的网络修改方法:用分割头替换检测Head。实验结果如表8所示。

实验结果清楚地说明了Hyper-YOLO获得了显著的性能提升。对于AP,Hyper-YOLO在-N变体中获得了4.7个AP的显著提升,在-S变体中获得了3.3个AP的显著提升,在-M变体中获得了2.2个AP的显著提升,在-L变体中获得了1.4个AP的显著提升。同样,对于AP,Hyper-YOLO也表现出显著改进,-N变体中实现了3.3个AP的显著提升,-S变体中实现了2.3个AP的显著提升,-M变体中实现了1.3个AP的显著提升,-L变体中实现了0.7个AP的显著提升。这些结果充分证明了Hyper-YOLO中集成的新技术的有效性。

Visualization of High-Order Learning in Object Detection

在作者这篇论文中,作者提供了一个数学理由,解释了如何超越传统基于网格邻居结构的设计限制,这种设计通常在特征映射内的消息传播依赖这种结构。这种设计使得在特征空间的高级高阶消息传播成为可能。为了进一步证实作者基于超图的车颈的有效性,作者在修订的稿件中包含了图5中的可视化。这些可视化对比了在应用作者的超卷积层前后特征映射的情况。从这些图像中可以看出,在各场景中,对语义上相似的背景,如天空和地面,关注度有持续性降低,而前端物体则保持关注。这表明,通过超图计算,超卷积帮助车颈更好地识别图像中的语义相似物体,从而支持检测Head做出更一致的决定。

VI Conclusion

在这篇论文中,作者提出了Hyper-YOLO,这是一个具有创新性的目标检测模型,它将超图计算与YOLO架构相结合,以利用视觉数据中的高阶相关性。

通过解决传统YOLO模型的固有局限性,特别是在 Neck 的设计无法有效地将特征集成到不同的 Level ,并利用高阶关系,作者在目标检测方面取得了显著的提升。

作者的贡献为未来的目标和检测框架的研究与发展设立了一个新基准,并为作者基于HGC-CSC框架的视觉架构中超图计算的进一步探索铺平了道路。

参考

[1].Hyper-YOLO: When Visual Object Detection.

1 人点赞