参数极少、速度极快 , UHNet 轻量级边缘检测技术 !

边缘检测在医学影像处理中至关重要，可以实现对结构信息的精确提取，从而有助于病变识别和图像分析。传统的边缘检测模型通常依赖于复杂的卷积神经网络和视觉Transformer架构。由于它们包含许多参数，并且计算需求高，这些模型在资源受限的设备上的应用受到了限制。本文提出了一种超轻量级边缘检测模型（UHNet），其特点是最少参数数量、快速计算速度、可忽略的预训练成本以及令人称赞的性能。 UHNet具有惊人的性能指标，包括42.3k参数、166 FPS和0.79G FLOPs。通过采用一种创新特征提取模块和优化残差连接方法，UHNet显著降低了模型复杂性和计算要求。此外，探索了一种轻量级特征融合策略，提高了检测准确性。在BSDS500、NYUD和BIPED数据集上的实验结果验证了UHNet在保持高效的同时实现了卓越的边缘检测性能。本文不仅为轻量级边缘检测模型的设计提供了新的洞察，还展示了UHNet模型在工程应用（如医学影像处理）中的潜力和应用前景。代码可在https://github.com/stoneLi20cv/UHNet中找到。

1 Introduction

边缘检测是计算机视觉中的关键基础技术，对各种医学图像处理领域产生了深远的影响，如X光片，CT扫描和MRI图像。这些图像包含丰富的结构信息，边缘是这些结构的重要表现。准确的边缘检测不仅有助于病理区域的精确定位，而且还为后续图像分析和诊断提供了强大的支持。因此，轻量、快速和高性能的边缘检测模型在实际部署场景中面临着越来越复杂的挑战。

具体而言，卷积神经网络（CNNs）[1]作为主流深度学习架构，已经出现了许多衍生算法用于边缘检测任务。传统的算法基于预训练模型使用一系列支干网络，如VGG [30]和ResNet [31]（通常称为编码器网络），专注于和发展解码器网络结构。这导致了一系列的大型参数、非轻量级和计算密集型的边缘检测模型，其中大多数模型以相对较慢的速度运行。因此，这导致了大量的GPU资源消耗和训练时间，使其难以在低计算边缘设备上部署这些模型。

此外，视觉Transformer（ViT）[32; 33]，利用自注意力机制在图像中建模长时间依赖性，在某些任务上优于CNNs。虽然它们在某些任务上的表现优于CNNs，但更高的计算复杂性和内存需求往往限制了它们在实时应用程序或资源受限环境中的使用。

因此，同时实现高效的训练和推理而保持相当高的检测性能是边缘检测任务中的一个具有挑战性的问题。探索这个问题对于有效地部署高效的网络模型在实际应用中是必不可少的。直接解决方案是设计轻量级检测模型基于CNNs[1]。轻量级网络设计是有效的解决方案，通过优化网络结构和减少参数量来降低模型复杂度和计算负载。然而，尽管在边缘检测任务中对轻量级网络设计取得了一定的进步，但仍然存在实现超高速度和保持高准确性的权衡。考虑到图像的复杂性和多样性，如何实现高精度边缘检测并确保超高速处理速度是本文关注的焦点。

本文提出了一种具有最小参数、极快计算速度、无预训练成本和相当性能的轻量级网络模型，用于检测目标边缘。作者创新工作主要集中在以下四个方面：

提出一种超轻量级特征提取模块，PDDP块。模块从ResNet [31]中的瓶瓶颈结构发展而来，在图像中用少量的参数和高速度提取和集成目标边缘特征。
用最大池化（MaxPool）和平均池化（AvgPool）操作替换原始的1x1卷积用于通道变换，进一步减小计算而提高特征多样性，在前置 Backbone 网络的不同阶段不同地应用。
探索轻量级融合方法在不同的阶段之间，通过有效的特征融合策略将不同程度的特征融合在一起，从而提高边缘检测的准确性。
实验表明，具有最小参数（42.3k），高计算速度（166 FPS）和低FLOPs（0.79G）的轻量级网络模型（UHNet）在多个公共数据集上表现出强大的竞争力。

其余部分的组织如下：第2部分解释了边缘检测相关工作。第3部分详细描述了作者提出的方法。在第4部分，作者对具有三个数据集：BSDS500，NYUD，BIPED的 Proposal 方法进行详细实验验证和比较分析。在第5部分，作者总结全文并讨论了本文中值得进一步探索的方向。

2 Related Work

随着计算机视觉领域深度学习的不断发展，基于深度学习的边缘检测方法取得了显著的进步。谢等人.首次提出了一种基于CNN的边缘检测模型HED [2]，使用VGG16 [30]作为基础网络，证明了在RGB图像中提取目标边缘的强大能力。此后，出现了许多使用VGG [30]，或ResNet [31]作为基础网络的边缘检测方法。这些方法使用迁移学习技术，对ImageNet数据集进行预训练，然后对专门的边缘检测数据集进行微调，以进一步提高性能。与基于CNN的检测模型相比，基于Transformer架构的边缘检测方法（如DPED [34]和EDTER [35]，尽管表现良好，但由于参数数量大，导致计算资源需求高，在实际应用中存在部署困难和成本问题。

为了解决大型模型带来的挑战，设计轻量级架构以提高边缘检测效率变得至关重要。一些现有的研究优化了编码和解码网络结构，或者引入了可学习的差分卷积算子，以降低模型复杂性和计算需求，同时保持检测准确性。PiDiNet [37]提出了一种创新的差分卷积算子，动态调整卷积 Kernel 参数，以更好地捕捉边缘特征，在轻量级条件下实现高性能边缘检测，并采用新颖的网络架构。DexNed [38]则摒弃了依靠大规模数据集预训练的传统模式，通过精心设计的网络结构和训练策略，直接从边缘检测数据集中实现出色的检测性能，为轻量级边缘检测模型设计提供了新的洞察。在模拟视觉系统层次结构的生物视觉通路的研究中，如LNRFM [36]，BLEDNet [39]和XYW-Net [40]构建了轻量级和高效的边缘检测网络模型，以减少计算资源消耗和提高对复杂场景的适应性。

然而，现有的轻量级模型通常面临两个关键问题：

1）网络模型设计严重依赖于个人的宝贵经验；

2）模型结构固定且单一，缺乏灵活性，使得很难直接将模型结构和参数转移和扩展到其他研究任务。

解决这些问题，如PiDiNet的实验相关内容 [37]所展示的那样，差分卷积算子在所有卷积层中并不总是表现良好。同样，如LNRFM [36]，BLEDNet [39]和XYW-Net [40]等通过模拟生物视觉机制构建的模型，也依赖对视觉系统信息处理过程的深入理解。然而，仅通过模拟视觉系统生理机制构建的网络模型，其性能可能甚至低于传统方法，如HED [2]。此外，固定且单一的网络结构，如LNRFM [36]，DexNed [38]，BLEDNet [39]和XYW-Net [40]，无法形成像VGG [30]和ResNet [31]系列这样的多样化、通用基础模型。与这些模型不同，作者优先考虑网络设计中的简单性、可转移性和可扩展性，并提出了一个超轻量级网络模型（UHNet），具有最小参数、高速处理和显著性能，旨在实现对图像中目标边缘的快速检测和获取。

3 Method

PDDP Block

常见的一种轻量级策略是使用Depthwise Separable Convolution来替代标准卷积操作。这种卷积方法将标准卷积分解为Depthwise和Pointwise卷积，显著减少了计算负载和参数数量。基于这种策略，ResNet系列网络中的Bottleneck结构[31]（图1.(a)）的3x3标准卷积核被Depthwise Separable Convolution的Depthwise卷积所替代，从而得到轻量级的Bottleneck结构（图1.(b)）。

在卷积神经网络中，感受野尤其重要，因为它直接关系到特征提取的有效性。随着网络层数的增加，更深层的神经元可以看到更大的输入区域，捕获更多的上下文信息，并提高模型的表示能力与泛化能力。在轻量级的Bottleneck结构（图1.(b)）中，感受野大小为3x3。为了捕获更多的上下文信息，作者考虑通过增加另一个Depthwise卷积层，稍微增加参数（图1.(c)）来增加感受野大小。这种结构被称为PDDP块。

假设输入通道数为32，最终1x1卷积层中的输出通道数为64（其他卷积层中的输出通道数为32），且忽略Norm ReLU层，图1中三种结构的参数数量如下：对于ResNet[31]中的Bottleneck结构，参数数量为12288；对于轻量结构（图1(b)），参数数量为3360；对于添加了一个Depthwise卷积层来扩大感受野的结构（图1(c)），参数数量为3648。通过添加少量参数来扩大感受野可以提高检测性能，同时对网络的处理速度的影响最小。作者认为这对于检测和获取图像目标的边缘信息具有重要意义。

UHNet Architecture

图2显示了所提出的模型结构，主要由左侧的 Backbone 网络和右侧的特征解码网络组成。 Backbone 网络分为三个阶段，每个阶段之间通过PoolBlock分隔。每个阶段包含四个连续的PDDP块，第一阶段的第一1x1卷积层负责输入图像的初始通道变换。

在PoolBlock中，Fusion层根据两个相邻阶段的通道数来决定特征融合方法。具体来说，有两种情况：1）当两个相邻阶段的通道数相同时，Fusion层通过加法融合特征；2）当后者的通道数是前者的两倍时，Fusion层通过 ConCat 融合特征。在特征解码网络中，后一阶段的深层特征首先由FBlock处理，然后直接添加到前一阶段的特征中。这个过程依次应用于三个不同的阶段，将每个阶段的输出特征融合，最终得到边缘检测输出。

4 Experiment

Experimental Details

作者使用三个广泛采用的公共数据集：BSDS500 [41]，NYUD [42] 和 BIPED [43] 来评估作者的模型。

BSDS500数据集[41]包含500张图像，分为200张训练图像，100张验证图像和200张测试图像。每张图像由4至9个标注员标注，以确保准确性和多样性。为了提高模型的泛化能力，作者采用了[2; 37; 40]中的数据增强方法，对训练图像进行翻转、缩放和旋转，将训练集扩大96倍。此外，为了进一步丰富训练数据的多样性和数量，作者整合了PASCAL VOC数据集 [44]，该数据集包括10000张带标签的图像，通过翻转增加到20000张。最终，作者得到了一个新的数据集BSDS-VOC，包含总共48,548张图像，为训练边缘检测模型提供了更丰富和全面的数据基础。

NYUD数据集[42]包括1449对对齐的RGB和深度图像，这些图像都进行了密集标注。数据集分为381张训练图像，414张验证图像和654张测试图像。对于数据增强，作者将训练和验证集合并，并对训练子集应用翻转（2倍）、缩放（3倍）和旋转（4倍）。

BIPED数据集[43]包括250张户外图像，分辨率为1280720，每张图像都有专家提供的边缘标注。遵循[43; 37; 40]的方法，作者使用200张图像进行训练，剩下的50张进行测试。为了评估模型性能，作者采用了诸如Optimal Dataset Scale (ODS)，Optimal Image Scale (OIS)和平均精确度（AP）来全面评估模型的准确性和有效性。此外，为了分析模型的计算效率和大小，作者引入了浮点运算（FLOP）和参数数量作为评估指标。参数数量直接反映模型的大小，而FLOP测量数据处理期间的计算工作量。作者还将模型的帧率(FPS)作为评估整体效率的重要性能指标。

作者在PaddlePaddle深度学习框架[45]上使用一台具有32GB内存的计算机，一台NVIDIA GeForce RTX 4090 D 24GB显卡和一台Intel 12th Gen Core i5-12600KF CPU进行模型验证。参数设置包括AdamW优化器[46]，15次迭代，学习率(lr)为0.001，批量大小为1，采用交叉熵损失函数。对于BSDS500 [41]和 BIPED [43]数据集，非最大抑制(NMS)过程中预测结果与 GT 值之间的最大允许误差设置为0.0075。对于NYUD [42]数据集，这个值设置为0.011。

Ablation Study

作者在BSDS-VOC数据集上对提出的UHNet进行了深入的消融研究和分析。值得注意的是，在所有消融研究中，所有三个阶段的通道数都设置为32。

如表1和图3所示，作者通过相关的实验验证了ResNet瓶颈结构[31]（RB）、轻量级瓶颈（LB）和PDDP块（PDDP）对模型性能的影响。在本实验中，作者主要关注三个性能方面：1）卷积类型（标准卷积与深度卷积）；2）卷积核的数量；3）卷积核大小。作者主要考虑四个性能指标：参数计数（Params）、ODS、OIS和AP，以进行实验验证、比较和分析。结果表明，在没有额外预训练的情况下，单层深度卷积（LB）的性能显著优于单层标准卷积（RB1）和几乎相当于两层标准卷积（RB2）。然而，LB的参数计数只有RB1的20.4%和RB2的11.2%。将另一个深度卷积层添加到LB以形成PDDP结构，导致了ODS、OIS和AP性能的提高，如图1所示，仅参数增加0.3k至2.8k。这一发现表明了轻量级网络设计中PDDP块的有效性和潜力。

在ResNet[31]中，网络分为多个阶段，每个阶段包含一系列残差块。在相邻阶段之间的第一个残差块，通常使用1x1卷积层来调整输入通道，以确保剪枝连接的维数匹配。在轻量级网络设计中，通常的目标是降低参数计数或提高计算效率，但使用1x1卷积层来调整输入通道会增加参数计数。如图4所示，使用1x1卷积层（短路1x1）增加了参数，且未超过作者提出的PoolBlock的性能。因此，在边缘检测的轻量级网络设计中，跳过使用1x1卷积层来调整相邻阶段之间的输入通道是有效的。

特征融合旨在将不同特征信息集成到有效的特征表示中，以增强模型的性能和理解。如何将 Backbone 网络不同阶段的输出特征进行融合是一个关键要素。对于相邻阶段的输出特征，作者测试了两种不同的特征融合方法。如表2所示，X1是前一阶段的输出特征，X2是下一阶段的输出特征。X2需要通过FBlock进行处理后与X1进行特征融合。表2中的实验结果显示，仅处理后续阶段的输出特征X2与FBlock结合可以达到与处理X1和X2与FBlock结合相当的性能。因此，在轻量级网络设计中，跳过处理前一阶段的输出特征X1可以降低模型参数，而不会显著降低性能。

Comparison with Other Models

本提出的方法旨在实现参数效率和显著的检测性能。为了评估其有效性，作者与其他两种类型的模型进行了比较：非轻量级方法和轻量级方法。非轻量级方法包括：HED [2], RCF [7], CED [8], DRNet [16], LRNet [17], BDCN [12], CATS [23], DexiNed [38], EDTER [35], DPED [34], CHRNet [27]。

轻量级方法包括：PiDiNet [37], TIN2 [47], FINED [21], BDCN2 [12], BLEDNet [39], XYW-Net [40]。

本文作者提出了三种不同的实验结果版本：UHNet, UHNet-M, 和 UHNet-L。它们的参数数量依次增加，由后置网络的不同阶段的通道数量决定：UHNet 在三个阶段具有 32, 32, 32 个通道；UHNet-M 具有 32, 64, 128 个通道；而 UHNet-L 具有 64, 128, 256 个通道。

为了验证三种不同版本的 UHNet 的性能，作者在 BSDS500 [41], NYUD [42], 和 BIPED [43] 数据集上进行了定量和定性实验。实验结果见表3、4 和 5，并与其他网络模型进行比较。实验数据表明，UHNet 在所有当前基于深度学习的算法（表6）中具有最小的参数数量，仅为 42.3k，比 PiDiNet-Tiny-L 的 73.0k 大约减少了 42%，在 BSDS500 [41] 数据集上的 OIS 指标与 PiDiNet-Tiny-L 具有可比性能。此外，在 BIPED [43] 数据集上，UHNet-M（232.9k 参数）显著优于 XYW-Net 的（0.79M 参数）。值得注意的是，UHNet 版本的超轻量级在 OIS 和 AP 指标上与其他方法（轻量级和非轻量级）具有非常强的竞争力。尽管 UHNet 在 NYUD [42] 数据集上的性能略逊于其他模型，特别是在最先进的模型上， overall, 作者提出的 UHNet 检测模型在参数数量和计算复杂性方面具有足够的竞争力。

Conclusion and Discussion

本文提出了一种极轻量的边缘检测模型，具有极少的参数和快速的速度。UHNet最小版本的模型在BSDS500 [41]和BIPED [43]数据集上展现了强大的竞争力，拥有42.3k参数，166 FPS，以及0.79G FLOPs。

作者对轻量级边缘检测模型设计的贡献有三方面：

首先，基于ResNet网络[31]中的Bottleneck结构，我们提出了一种超轻量的特征提取模块（PDDP块），具有参数更少、可扩展性和可转移性等优点。

其次，优化了主干网络中不同阶段之间的残差连接，消除了通道变换所需的1×1卷积，克服了这一限制。第三，对于不同阶段的输出特征，探索了更轻量的特征融合方法，这些方法在性能上与其他特征融合方法相当，同时进一步减少了参数数量。在BSDS500 [41]、NYUD [42] 和 BIPED [43]数据集上进行了广泛的边缘检测实验。

作者相信UHNet系列模型在准确性和效率方面具有非常强的竞争力。

此外，本研究还突出了几个值得进一步探索的有前景的方向。首先，将传统边缘检测器（例如PiDiNet [37]）与卷积神经网络相结合，或者借鉴生物视觉生理机制（例如BLEDNet [39]、XYW-Net [40] ），可以实现稳健且准确的边缘检测。其次，用于边缘检测任务的损失函数几乎都是借鉴自其他计算机视觉任务，存在一定的局限性。未来的工作可以探索更适合边缘检测任务的损失函数，以从丰富的纹理信息中提取有效的目标边缘信息。第三，轻量级网络设计与从有限数据样本开始的训练相结合是边缘检测的一个关键研究焦点。基于轻量级网络设计和有限数据样本训练探索更高效的轻量级网络模型，并借鉴来自其他计算机视觉任务的高效方法（例如轻量级ViT 、Mamba [48, 49, 50]），也是一个值得研究的方向。

作者提出的UHNet为超轻量级边缘检测网络模型的设计提供了更多和更新的见解。高效的边缘检测和提取在工程应用中将发挥更加重要的作用，特别是在医学图像处理中，因为目标边缘是其他高级视觉任务的基础。

参考

[1].UHNet: An Ultra-Lightweight and High-Speed Edge Detection Network.

设计数据网络性能模型

0 人点赞