波士顿大学提出 AyE-Edge, 在边缘目标检测领域超越 SOTA !

2024-08-29 18:35:36 浏览数 (1)

边缘目标检测(Edge-OD)的需求日益增长,这要归功于其广泛的应用前景。然而,这一领域的发展受到了严格的限制,因为需要同时实现高精度、卓越的能效,并满足严格的实时要求。 为了解决这一困境,作者提出了AyE-Edge,这是一种首创的开发工具,它探索了自动化算法-设备部署空间搜索,以实现在边缘上准确且高效的实时目标检测。 通过关键帧选择、CPU-GPU配置和DNN剪枝策略的协同探索,AyE-Edge在移动设备上进行的广泛实际实验中表现出色。结果显示,AyE-Edge的有效性得到了一致证明,实现了卓越的实时性能和检测精度,特别是与现有最先进(SOTA)竞争对手相比,功率消耗降低了96.7%。

1 INTRODUCTION

为解决这个问题,穷举最佳组合以实现帕累托最优似乎是最直观和有效的方法。然而,这面临三个主要原因的挑战。首先,庞大的部署空间使得全面搜索代价高昂。例如,在第四章详细介绍的Oneplus 8T手机上,仅设备配置就有3.67E 05种潜在的部署方案候选,每种方案会导致不同的性能-能耗结果。其次,针对边缘设备部署的边缘目标检测(Edge-OD)绩效收集器缺乏,这造成了巨大的障碍。进行公平的比较部署方案至关重要,使Edge-OD开发行人能够在实际部署之前,准确分析性能和硬件成本,从而大幅减少研发周期。最后,另一种较少研究的必备品是能够智能搜索部署空间并根据目标准确性、功耗效率和实时要求生成帕累托最优部署方案的自动协调器。

因此,提出了一种名为AyE-Edge的新开发工具,旨在实现实时边缘目标检测的优越、准确且节能性能。AyE-Edge由三个组成部分构成:

(1)优化的Edge-OD部署空间,该空间具有基于时间局部性(T-Locality)的关键帧选择器,延迟受限的DNN剪枝器以及用于优化大量空间的分支定界法核心集群选择器;

(2)一个边缘目标检测性能收集器,该收集器可以在部署给边缘设备的DNN检测器时,精确估算检测精度、功耗和实时延迟;

(3)一个多智能体深度强化学习(MARL)辅助协调器,该协调器高效地探索和利用指定的空间,然后做出关于如何智能地协同三种技术的明智决策,从而确保所有视频在规定时间内处理完成,同时实现所需的检测精度和节能性能。在一款真实移动设备(即Oneplus 8T手机)上的实验一致验证了AyE-Edge的有效性,显示出出色的实时性能、检测精度和96.7%的功耗降低,相较于目前最高水平。据作者所知,AyE-Edge是首个同时实现实时边缘目标检测的功耗效率和任务精度以及数据层、检测器层和硬件层之间创新系统协调的框架。

2. Background and Related Work

图2说明了边缘OD系统的架构,其中,帧队列可以由摄像头附近的管理或OD应用程序来管理。随着帧积聚,系统选择性地供给一个帧(称为关键帧)到检测器(即通常的DNN模型)作为输入。所采用的DNN模型(例如YOLO(Goodfellow等人,2014))通常在部署到边缘设备之前进行加速剪枝。这些设备通常是包含CPU和GPU的异构SoC平台。现代CPU/GPU占据DVFS(动态电压和频率调度)能力(例如图2中的V/F缩放器),支持CPU/GPU的电压/频率 Level 的细粒度调整。同时,当前的边缘CPU通常采用ARM big.little微架构模式(Boggi等人,2017),实现不同CPU核心群之间的任务调度。

关键帧选择技术。 它们通常用于减少视频处理任务中的输入数据量。离线任务通常使用DNN辅助的方法进行关键帧选择,实现高精度,但计算负担较重。相比之下,实时OD主要采用基于静态阈值的Methods。这些方法如果当前帧与上一关键帧的相似性低于某个给定的阈值,则将其识别为关键帧。已引入的各种相似性特征,例如结构相似性指数衡量法(SSIM)(31),边缘(18)。其中,SSIM是最广泛使用的特征,它包括帧间的亮度、对比度、结构等信息。然而,基于阈值的选

如图2,这是在边缘进行目标检测的架构。这些算法主要优化模型准确性和推理速度之间的权衡,特别是实现实时性能。相比之下,两阶段的检测器,例如R-CNN,Fast R-CNN(),Faster R-CNN(Ren等人,2015年),Mask R-CNN(He等人,2016)等,更注重任务准确性。这些方法可能实现更高的任务准确性,但由于推理时间较长,例如在作者的实验中,推理时间大约是实时边缘OD的10倍,因此对于实时边缘OD来说,它们不太吸引人。

DNN剪枝。 鉴于DNN模型的冗余性,各种剪枝方法被提出。这些方法主要追求激进的剪枝比。无结构剪枝方法剪枝网络权重以降低任意位置的内存开销,但由于网络稀疏性不规则,无法加速DNN。结构剪枝,例如基于通道,基于核,基于块(He等人,2016),去掉整个通道/块/CNN(卷积神经网络)核以提升DNN推理,这可能会导致精度损失。基于核模式剪枝(Ren等人,2015)将CNN核剪枝成特定模式。这些方法大部分专注于追求激进的剪枝比,精度损失或微小。最近的工作支持运行时剪枝比重构。具体来说,Gong等人(Gong等人,2017)提出了一种基于软 Mask 的剪枝比重构方法,该方法通过在给定的阈值上比较软 Mask 的网络参数重要性,无需进一步再训练,支持预训练稀疏DNN的实时重构。这些工作为实时边缘OD的自动部署探索提供了扎实的技术支持。

CPU-GPU 配置。 边缘设备通常采用异构SoC架构,其中包含CPU和GPU。CPU处理器的应用主要采用ARM big.little微架构。不同的CPU核心集群提供不同的计算能力和功耗,可以用于不同的DNN相关的任务。这对系统设计师来说是一个挑战。此外,电压频率(DVFS)调度支持为每个处理器提供多个可选的工作频率(He等人,2016年)。更高的频率可以提高处理速度,但会消耗更多的功率。尽管丰富的频率选项为工作负载适应提供了充足的灵活性,但为每个处理器选择最合适的频率使上述挑战更加严重。

3. The Proposed Aye-Edge Tool

如3图所示,AyE-Edge全面考虑了关键帧选择、CPU-GPU配置和DNN压缩等关键技术,以解决涉及检测精度、实时速度和功耗的复杂折中权衡问题。当接收到新帧时,AyE-Edge检查该帧是否被识别为关键帧,且帧队列是否为空。对于过滤帧和空队列,AyE-Edge保持静止。否则,AyE-Edge启动其工作流程。在训练期间,由MARL辅助协调器首先使用ε-贪心算法(Zhou等人,2017)选择一个动作。此动作决定了部署方案,包括下一个关键帧、CPU和GPU的V/F Level 以及DNN压缩比例。为了缩小庞大的部署空间,作者构建了一个优化的部署空间,其中作者提出了一个基于T-Locality的关键帧选择器和一个L-Constrained DNN检测器和切削器以限制空间的效率探索。此外,还引入了一个CPU核心集群选择器,用于预先选择适当的CPU核心集群。接着,根据选择的动作配置边缘OD系统。同时,MARL模型利用如帧流传输、DNN检测器模式参数、边缘设备配置和历史动作等信息计算动作的Q值。一旦当前关键帧的处理完成,计算最后一次动作的奖励,包括在动作执行过程中收集的检测精度、实时速度和功耗指标。性能收集器是AyE-Edge系统中准确的评估工具,使用轻量级延迟模型、PyTorch和所采用的电源监视器的API收集这些指标。最后,计算得到的奖励被反馈到MARL协调器的输出进行反向传播训练。

AyE-Edge可以作为一个模块嵌入到DNN编译器中,例如CoCo-Gen(He等人,2016)。它提供了开发目标检测应用程序的接口。该接口在接收每个新帧时调用。它接收新帧的SSIM特征,帧队列信息,DNN检测器的详细信息以及边缘设备配置等作为输入,并通过识别最大Q值的动作来更改部署方案。用户可以在接口函数的输出中配置所选动作,即所选的关键帧、DNN压缩比和CPU和GPU的V/F Level 组合。

Optimized Edge-OD Deployment Space

边缘OD的部署空间由关键帧选择、DNN剪枝比率和CPU-GPU平台配置选择组成,这是一个大且离散的空间,搜索起来成本高得让人难以承受。因此,作者在AyE-Edge中提出了三个调节按钮来策略性地缩小初始空间:一个基于时间局部性(T-Locality)的关键帧选择器,一个延迟约束(L-Constrained)的DNN检测器剪枝器,以及一个CPU核心集群选择器。这些按钮作用于关键帧选择、DNN剪枝过程和CPU-GPU异构平台配置。根据输入实时视频的特性,它们能自适应设置合理上下界来缩小它们的范围。这些按钮在简化探索过程和促进Pareto最优部署方案的识别方面起着关键作用。

基于时间局部性(T-Locality)的关键帧选择器。 该按钮设计用于建立有效关键帧选择的下界。它的概念基础来自广泛实验结果的一个关键观察,即虽然帧特征相似性可能在长时间内表现出随机性,但它展示出局部规律性。在图4(a)中,作者展示了来自一个短片剪辑的所有帧的SSIM特征。这个实验基于BDD100K数据集[40]进行。结果表明,关键帧与其他几个后续帧的特征相似度(即图中的SSIM)逐渐下降,符合线性回归。在其他特征(如边缘和角点)上也可以找到类似的观察。因此,作者可以通过考虑一条回归线周围的相似度范围(如当前关键帧与其下一帧之间的相似度),来预测后续帧与当前关键帧之间的相似度。当出现一个与当前关键帧相似度超过这个范围的新帧时,作者将这个帧定义为新关键帧。这是因为新和当前关键帧在特征相似性上表现出不规则的变化,应该单独处理。

基于这样的观察,作者将采用此选择方法(简称_Ours)的目标检测任务的平均精度(mAP)与给定阈值0.5、0.6和0.7的SOTA静态阈值选择方法[31]进行比较,其中 Static-1 表示处理整个视频而非仅关键帧(即不进行帧过滤),该方法实现了最高准确率,被称为关键帧选择的上界。图4(b)显示了准确性比较结果,证实了作者的选择器的正确性。它比SOTA提供了更高的准确性,与 Static-1 相比仅降低了0.28%。

因此,作者将通过作者的T-局部性关键帧选择器获得的帧编号定义为 sOurs,并将总帧数定义为 sTotal,关键帧选择的可用范围从 Ours 到 Total 。此外,作者还进一步研究了关键帧选择的下界。除考虑关键帧相似度的分布外,应用要求也需要考虑。例如,在自动驾驶中,安全响应时间为400ms[42],对于采样频率为30ms的RGB相机,驾驶系统至少在12帧内响应,以确保有足够的时间处理帧。在这种场景中,下界应设定为12帧和 sOurs的最小值。

L-约束DNN检测器裁剪器。为在AyE-Edge中进一步缩小搜索空间,作者为修剪比设定上下界。下界由不会导致模型精度损失的最高修剪比确定。通常,该值通过大量实验结果 empirical 地得出,使用作者为Edge-OD开发的准确性插件,详细描述在3.2节中。上界为用户定义。一种方法是将上界设定为模型精度可接受降低的修剪比,例如5%。另一种方法是用户可以设置更为激进的上界,认为如果超过了该修剪比,DNN模型将无法收敛。

通过确定DNN修剪比的下界和上界,作者可以利用[10]中提出的DNN修剪技术,在AyE-Edge中实现DNN检测器在运行时修剪比的实时配置。

CPU核心集群选择器。 作者的实验中一个有趣的观察是,尽管大多数DNN任务已经卸载到GPU,但CPU仍是设备功耗的主要贡献者[12]。通过将与DNN相关的任务仅调度到“小”的核心集群,可以大约降低60%的DNN推理功耗,而不会显著降低推理速度。这一观察促使作者将CPU核心集群选择集成到AyE-Edge中。

通过调查,作者发现,在不同集群中,如果处于相同的CPU V/F水平,不同的集群主要通过不同的缓存大小影响DNN推理的 power efficiency[38]。由于CPU约占DNN推理中数据的传输[38],因此,CPU的片上缓存大小决定了CPU与DRAM之间数据交换的次数,而核心集群的V/F水平影响数据传输速度。因此,可以基于缓存大小与DNN层(权重和输出层的大小最大)之间的比较,选择激活CPU核心集群。使用这种启发式方法,AyE-Edge可以在DVFS扩展之前选择合适的CPU核心集群,从而减少结合MARL辅助协调器的CPU核心选择的部署空间。

Edge-OD Performance Collector

作者的性能收集器旨在精确收集或估算关键帧的检测精度、延迟和功耗。这些信息是训练MARL辅助协调器所必需的预先条件。它由三个整体子部件组成:

  1. 一个电量监测器 [24],用于精确测量边缘设备为处理一个关键帧所消耗的电量。
  2. 一个准确模拟器,根据给定的实时关键帧、具有预定义修剪比例的DNN模型和具有预配置V/F Level 的硬件设备,模拟检测精度。该模拟器作为一个轻量级插件,利用开源机器学习框架(例如,PyTorch)进行开发,与文献[17]中的方法相同。
  3. 一个延迟预测器,以接近零的额外开销精确预测关键帧的处理时间。

由于空间限制,本节主要详细介绍提出的延迟预测器。电量监测器和准确模拟器在先前的研究中已经得到了很好的研究。在给定的具备DVFS功能的CPU-GPU平台上,关键帧的处理时间可以表示为(1)。

注意:文献[17]中的方法并未在这里列出,因为这是翻译的问题,不是引用的错误。

(1)

这里,表示给定CPU V/F Level (即)和GPU V/F Level (即)的预测延迟;表示所选CPU核心集群和最高V/F Level 的密集DNN模型速度;和分别表示CPU和GPU的最高V/F Level ;是一个与最大DNN层大小和CPU缓存大小相关的参数,可以表示为。其中,是DNN层的内存占用(包括权重和输出特征图),表示被选择的CPU集群的总L2缓存大小。

延迟模型的建立遵循了三个关键见解。首先,CPUs和GPUs在促进DNN推理延迟方面发挥着重要作用,它们之间存在线性关系,并与各自的频率(Shen等人,2016年;Wang等人,2017年)相关。其次,与GPU(主要负责MAC计算)不同,CPU主要负责处理DNN推理中的预/后计算阶段(Wang等,2017)。由于MAC计算过程和预/后计算阶段之间存在顺序相互依赖关系,CPU和GPU对DNN延迟的贡献呈累积效应。第三,在相同V/F Level 时,具有不同配置的CPU对DNN延迟的影响主要由缓存大小和最大内存带宽决定,因此作者将系数建模为这样。

此外,DNN压缩技术的采用使边缘设备上的Edge-OD延迟预测变得更加复杂。与DVFS Level 不同,DNN压缩比与推理速度之间的关系更为复杂,无法直接近似(Wang等,2017)。作者提出使用在DNN压缩算法训练阶段生成的查找表(LUT)构建预测模型。该表格记录了在指定硬件配置的边缘设备上使用预定压缩比时给定DNN检测器的延迟。将(1)扩展到Eq. 2,其中是在第i个压缩比下DNN模型的延迟,可以通过表格检查轻松获取。值得注意的是,查找表并不一定与DNN训练过程绑定。相反,它可以通过根据用户所需的压缩比进行评估手动创建。

模型验证。作者基于YOLO-v5检测器和BDD100K数据集验证提出的延迟预测器的精度。如图5所示,作者的预测器在不同CPU V/F Level 上实现了高预测精度,平均误差为1.9%(最大值为3.6%)。在所有GPU V/F Level 上,平均误差为3.1%(最大值为8.1%)。

MARL-assisted Coordinator

作者采用强化学习(RL)模型来找到AyE-Edge的优化部署空间中的帕累托最优前沿。然而,由于动作空间过大,该模型难以收敛。在AyE-Edge中,RL模型的动作池包括了候选关键帧,裁剪比例,以及CPU和GPU的V/F Level 。这将导致总共超过10,000个动作。为了解决这个问题,作者采用了多智能体强化学习(MARL)模型,如图6所示。MARL由三个并行智能体组成,包括D-智能体(DVFS智能体),K-智能体(关键帧智能体),和P-智能体(裁剪比例智能体)。所有智能体感知相同的环境(状态,奖励),因此在每次迭代中具有相同的Q值。此外,每个智能体都包含一个RNN网络来获取相同的Q值,同时将上次迭代的智能体()的最后一个动作作为输入。这样,所有智能体可以彼此交流以协同工作。

边缘OD环境中的状态空间 边缘OD环境中的状态空间包括了帧队列、DNN目标检测器以及边缘设备的状态。具体来说,它包括以下内容:

1)当前帧的SIM值,队列中的待处理帧数量,以及当前关键帧;

2)DNN参数,包括网络权重编号,通道数量,层编号,CNN卷积核数量和大小,以及每个全连接层的宽度;

3)边缘设备的配置,包括当前CPU和GPU的工作频率,最大内存带宽,以及CPU和GPU的L1 Cache大小。

智能体中的动作空间 MARL中的智能体具有不同的动作空间。具体来说,D-智能体的动作空间包括CPU和GPU的所有V/F Level ,选择候选关键帧,以及所有裁剪比例;K-智能体的动作空间仅包括候选关键帧;P-智能体的动作空间包括CPU和GPU的所有V/F Level ,选择候选关键帧,以及所有裁剪比例。每个智能体RNN的输出是该智能体所有动作的Q值。

奖励设置 奖励计算方法如下:

奖励。边缘-OD中的实时约束可以分为软约束和硬约束。作者在深度Q-学习模型中规定的奖励如公式3所示,其中是通过计算的软罚。用户可以视需要替换为其他惩罚,例如,对于硬实时约束场景,可以设定为一个常数值作为硬罚。和分别表示每个视频中的关键帧的平均AP和平均功耗。是在执行相应动作时处理的关键帧的预测时延。是实时约束,例如。是一个由用户分配的因素,用于选择面向准确性或功耗优化的调优,默认为1。注意,当有帧在队列中并且当前视频中的帧数少于关键帧的帧数时,AyE-Edge仍将被激活,并相应地调整Edge-OD系统的部署方案,其奖励是根据公式3中的值为0计算的。

模型训练。作者在MARL的每个智能体中采用双层RNN(多层感知机)作为Deep-Q-Network(DQN),输入为状态空间因素和所有智能体最后动作,输出为不同智能体动作的Q值。MARL用3个真实设备训练,包括Samsung S20、Jetson Board和Google Pixel 6。请注意,每个边缘设备部署的初期,MARL模型需要在 fine-tune。初始化过程中,AyE-Edge会从摄像头获取几帧图像,并向设备提供设备信息、DNN投影器参数和帧队列状态,以便MARL模型进行fine-tuning,使其能够适应不同硬件平台和DNN模型。

4. Performance Evaluation

实验平台:作者采用OnePlus 8T移动电话作为实验平台,它配备了高通Snapdragon 865芯片组,具有高通Kryo 585八核CPU(1x2.84 GHz Cortex-A77、3x2.42 GHz Cortex-A77、4x1.80 GHz Cortex-A55)和高通Adreno 650 GPU。表1显示了移动电话上CPU和GPU的DVFS Level 。手机已根除以调整CPU和GPU频率 Level 。在(Same等,2017)中的DNN推理过程中,通过Monsoon High Voltage Power Monitor(HVPM)测量功耗。采用CoCo-Gen(Gong等,2018)编译器加速移动设备上的推理。每个测试在不同配置上运行了100次,用于DNN。作者取作为DNN推理的功耗,其中为DNN推理的平均功耗,为空闲时的功耗。空闲状态定义为CPU和GPU的最小频率,并禁用了如Wi-Fi、蓝牙和屏幕等不必要的功能和应用。为了满足实时性要求,作者(段3.3中的设置为33ms,以达到每秒30帧的目标)。

基准测试和数据集:作者在实验中使用两个常用的单阶段目标检测器来评估AyE-Edge的效果。第一个是YOLO-v5,它是轻量级的,可以不经过剪枝实现实时DNN推理。第二个是SSD,由于必须满足实时性要求而不得不进行剪枝。作者在BDD100K数据集(LeCun等,2015)上使用200个采样视频对任务性能和功耗进行评估。每个视频保持40秒的均匀长度,分辨率为720p,帧率为30帧/秒。这些视频的目标数量分布如表2所示。

Baseline :作者将作者的工作与多个SOTA进行比较。第一个是Origin,该方法在最高的CPU和GPUDVFS Level 下对输入视频的所有帧进行目标检测,没有过滤,也没有DNN剪枝。Origin的平均平均精度被视为上限,而功耗被视为下限。对于关键帧选择方法,许多工作专注于基于DNN辅助的方法(Bengio等,2017;Chen等,2017;Goyal等,2017;Goyal等,2017),这给边缘目标检测任务带来了沉重的计算负担,因此不适用。因此,作者将AyE-Edge与经典的静态SSIM阈值方法(ST)(Same等,2017)以及SOTA方法Reducto(Goyal等,2017)进行比较。Reducto将实时视频分成若干段(每段持续几秒),并聚类这些段以找到每个段的最佳阈值,以在段内过滤冗余帧。作者评估了Reducto的边缘图像特征。Reducto中段长度的设置为1秒。对于ST,作者评估阈值0.5和0.6,都实现了良好的任务精度,如图4(b)所示。对于DVFS和DNN剪枝,作者评估All-In-One(AIO)(Goyal等,2017),它将DNN剪枝以适应该DVFS Level ,并用Herti(Goyal等,2017)调整DVFS Level 以适应该DNN。为了公平地比较,作者将(段3.3中的设置为33ms,以达到每秒30帧的目标)并相应调整AIO和Herti的剪枝比例。作者将SOTA的关键帧选择技术相结合(并使用AIO和Herti)来证明SOTA方法如果不能协同工作,则无法平衡任务精度、实时性和功耗之间的权衡。

作者在普通情况(AyE-Edge-C)和低DVFS情况(AyE-Edge-L,常用于极端环境,如高温设备)中评估AyE-Edge。目标在于展示在受制于涉及因素部分加严苛限制时,AyE-Edge的强健适应性。

性能比较。 在表3中展示了Aye-Edge与其他 Baseline 的性能比较。从结果中,作者可以观察到Aye-Edge在较低功耗下仍能实现实时性能,且具有很高的任务准确性。这是由于AyE-Edge旨在在边缘计算的实时速度的约束条件下实现功耗降低和高任务准确性。注意,作者追求的是这三种指标的帕累托最优,而不仅仅是单一指标的最优性。例如,边缘计算的实时速度且功耗最低的任务优于常见情况下边缘计算速度快但功耗较高的任务。更具体地说,AyeE-Edge-C在普通情况下不进行DNN剪枝和动态关键帧选择,因为YOLO-v5可以在不剪枝的情况下实现实时速度。对于YOLO-v5,AyeE-Edge-C与其他方法相比,可以实现最高的mAP,得益于本地关键帧选择方法。此外,AyeE-Edge-COrigin相比,可以将功耗降低96.7%,归功于关键帧选择、DVFS和DNN剪枝配置的最佳组合。与ST Herti相比,AyeE-Edge-C也将功耗降低33.3%,原因有两点。首先,Herti只为YOLO模型选择一个合适的DVFS Level ,忽视了CPU核心群间的调度,而AyE-Edge考虑了YOLO模型的任务适应性调度以降低功耗。其次,与ST和Reducto相比,AyE-Edge中的动态关键帧选择方法过滤的帧更少,生成的帧质量更高,从而导致功耗降低和更高mAP。作者注意到,ST AIO的子优功耗是AyE-Edge-C的1.7倍。虽然该ST框架可能会过滤更多帧,但它依赖于schedutil DVFS调度器,该调度器对环境变化的适应性不足,且未考虑CPU核心群间任务调度,从而导致更高功耗。

对于SSD,AyeE-Edge-C在常见情况下也表现出极高的功耗效率。ST AIOReducto AIOAyeE-Edge-C都能实现实时性能,甚至临近。然而,ST AIOReducto AIO的mAP显着降低。原因是这两种方法必须依赖激进的DNN剪枝来实现实时延迟,这可能显著损害任务准确性。此外,AyeE-Edge-C在常见情况下所有方法中功耗最低。与Origin相比,AyeE-Edge-C可以通过94.4%的功耗降低实现相似的mAP。原因有三个。首先,AyeE-Edge的动态关键帧选择方法在所有方法中产生数量最少但质量最高的几个关键帧,这有助于将任务准确性推至上限(Origin)。其次,AyE-Edge考虑了CPU核心群间的任务适应性调度以降低功耗。最后,AyE-Edge将关键帧选择、DVFS Level 和DNN剪枝比例协同配置,而其他方法无法协同所有这些因素。总之,AyE-Edge在实时性能、功耗和准确性之间实现了权衡。

AyE-Edge在剪枝后的RNN网络(Kang等人,2017年)和延迟预测器下的时间开销为313us。AyE-Edge的存储开销由查找表承担,该表依赖于具有不同剪枝比例的各种DNN模型维护的延迟。当K设置为10时,表的大小仅为40个字节,略显保守。总之,作者的AyE-Edge的开销极小,对目标检测任务几乎没有影响。

5. Conclusion

本文提出了AyE-Edge,一种用于边缘光流部署的创新开发工具。通过协同安排关键帧选择、CPU-GPU参数配置和DNN剪枝等技术。

AyE-Edge可以根据动态帧模式和运行时设备状态自适应地确定最佳部署方案。

实验结果显示,AyE-Edge在降低耗电量方面具有显著效果,可达96.7%,同时保持出色的精度和实时性能。

作者希望这项工作能为后续关于实时目标检测的研究提供一些启示。在未来的工作中,作者将研究多租户DNN的功耗效率,例如自动驾驶车辆中的感知系统,它包含多个实时任务,如目标检测、车道线检测和语义分割。

0 人点赞