OmniNet：基于环视鱼眼镜头的多任务视觉感知系统

作者丨黄浴@知乎

来源丨https://zhuanlan.zhihu.com/p/351965263

编辑丨3D视觉工坊

2021年2月15日上传arXiv论文：“OmniDet: Surround View Cameras based Multi-task Visual Perception Network for Autonomous Driving”，作者来自Valeo公司和德国一所大学。

本文讨论的是一个环视鱼眼镜头的多任务视觉感知系统，其完成的包括：深度估计、视觉里程计、语义和运动分割、目标检测和镜头污染检测。特别是提出了一个camera geometry based adaptation mechanism，对镜头畸变模型编码。由于方框不适合鱼眼镜头图像的目标表示，采用了polygon with non-uniformly sampled vertices。

整个网络称为OmniDet模型，输出结果如图为例：(a) Rear-Camera Input Image, (b) Distance Estimation, (c) Semantic Segmentation, (d) Motion Estimation, (e) 24-sided Polygon based Object Detection 和 (f) Soiling Segmentation (asynchronous)。

首先是无监督深度估计和视觉里程计：基于作者以前的工作FisheyeDistanceNet。

目标检测：采用YOLO3，基于针对鱼眼镜头的目标polygon表示，即PolyYOLO。

关于目标表示法的性能比较如表：

分割任务是有监督的：基于Lovasz-Softmax loss 和 Focal loss。

污染检测：基于作者之前的模型SoilingNet，但采用asynchronous backpropagation，调整解码器部分，训练中固定编码器部分。输出也从格子变成pixel level segmentation。

如表是joint training中任务加权方法比较：其中有 uncertainty loss （Kendall）, gradient magnitude normalization GradNorm, dynamic task prioritization DTP, dynamic weight average DWA 和 geometric loss。作者提出的是VarNorm for variance normalization。