自动驾驶中基于光流的运动物体检测

文章：Optical Flow Based Motion Detection for Autonomous Driving

作者：Ka Man Lo

编译：点云PCL

代码：https://github.com/kamanphoebe/MotionDetection

来源：arXiv 2022

欢迎各位加入免费知识星球，获取PDF论文，欢迎转发朋友圈。文章仅做学术分享，如有侵权联系删文。未经博主同意请勿擅自转载。

简介

运动物体的检测是自动驾驶的一项基本且具有挑战性的任务，在高速公路等特殊场景中，为了更好地控制决策，必须对远处的对象给予一定的关注度，针对远距离车辆，我们训练了一个神经网络模型，以光流场信息为输入对运动状态进行分类，实验结果具有较高的精度，并表明我们的想法是可行的和有前途的，经过训练的模型还实现了附近车辆的可接受性能。我们的工作在PyTorch中实现。使用开放式工具和数据集包括nuScenes、FastFlowNet和RAFT。

视频演示：http://mpvideo.qpic.cn/0bc3imaayaaaluahnwqp4frvaq6dbrbqadaa.f10002.mp4?

基本介绍

运动检测或者运动物体检测是一种计算机视觉相关技术，用于检测物体相对于其背景的物理运动，它广泛应用于各个领域，在自动驾驶方面也发挥着关键作用，为了在驾驶过程中制定更好的规划控制，车辆需要很好地监控路况，对于允许高速行驶的场景，如高速公路或普通道路，需要仔细检查远处的环境。然而，激光雷达和雷达传感器的感知范围并不总是远到足以覆盖远距离目标，因此，在这些情况下，应采用基于计算机视觉的方法，传统的运动检测方法依赖于帧之间的像素差，因此，检测远距离运动，尤其是径向运动，是一个具有挑战性的问题，因为它们通常只是几个像素的变化。

光流估计是运动检测任务中用于提供速度信息的常用技术，它是基于亮度恒定约束计算的，假设两个连续帧的时间戳足够接近，使得真实世界中相同位置的亮度保持不变，在本文中，我们使用不同的算法从nuScenes数据集获取30至70米范围内车辆的光流场信息，并将其作为输入输入到神经网络ResNet18，然后，模型输出运动状态的两种预测，即静止或移动，实验表明，运动目标检测成功，准确率高，还使用训练的模型来推断附近的车辆，并获得合理的精度。

FastFlowNet和RAFT在估计光流场方面分别实现了最先进的速度和精度，FastFlowNet比RAFT快10倍，而RAFT在KITTI数据集上的F1误差为5.10%，仅为FastFlow Net值的一半，所以在我们的工作中使用了这两种算法并进行了比较。图1描述了使用相同原始图像对的FastFlowNet和RAFT的示例。

图1:nuScenes数据集上的光流预测示例，从左到右：关键帧对的前一个原始图像，FastFlowNet和RAFT的流动可视化。

主要内容

A、框架介绍

此项工作框架概述如下

从nuScenes中选择包含目标车辆的关键帧信息
通过FastFlowNet或RAFT为所有关键帧对生成光流场
通过估计对象的速度将对象标记为静止或移动
在一些预处理之后，提取修改后的2D边界框内的对象的光流信息，并将其输入到神经网络中
使用ResNet18从头开始训练二进制分类器，并对层进行一些必要的调整。

B、标签

在每个标签中记录2D边界框和是否运动真值数据，前者由坐标xmin、xmax、ymin和ymax标记，通过选取x和y的最小值和最大值，从原始三维边界框的八个角简单地推导出，运动真值基于以下计算的速度确定：

这里的

raft 神经网络

0 人点赞