论文阅读: 1908.HRNetv1

1908.07919：Deep High-Resolution Representation Learning for Visual Recognition

创新点

一种全新的网络架构思想：
- 以前的模型都是下采样后再上采样，采用低分辨率到高分辨率的处理来达到预期的高分辨率表示。
- 而HRNet能够在网络整个过程中保持特征的高分辨率表示：
  - 一直维持高分辨率分支，通过融合低分辨率分支上采样带来的high level信息，达到重复多尺度信息的融合。可以使得heatmap在空间上预测关节点更准确。
- 网络结构：
  - 由一个高分辨率的子网开始，后面逐渐维持多个低分辨率的子网并行进行，形成多通道子网进行联合forward的网络结构。
  - 最后只在高分辨率分支来得到预测的关键点heatmap输出。
- 其他结构设计：
  - 交换单元（exchange units）：
    - 用于跨平行运行的子网进行特征融合，每个子网重复收到来自子网的信息。
    - 结构如下图所示，下面是数个exchange blocks，每个block由3个平行的卷积单元和一个跨单元的交换单元组成。
  - HRNet是top-down检测网络，即单人姿态估计。
  - 在网络的设计上，借鉴了ResNet在每个stage上的深度和每个分辨率上的channel数。
  - HRNet的主体部分，由4个并行的子网组成的4个阶段组成：其分辨率逐渐降低到一半，相应的宽度（channels）增加到两倍。第一阶段包含4个残差单元（residual units），每个残差单元于ResNet50相同，由宽度（channels）为64的bottleneck组成，然后接一个3 ∗ 3 333∗3的卷积将特征的宽度映射到C。第2，3，4阶段分别包含了1、4、3个exchange blocks。每一个交换模块包含4个残差单元，每个残差单元包含2个3 ∗ 3 333∗3的卷积在每个分辨率上。最后一共有8个交换单元，即8个多尺度融合。
- 约束：
  - HRNet的训练不使用中间监督。
  - Heatmap的产生来自于最后一个融合的高分辨率特征中，直接进行回归。
  - 使用标准差为1的2D高斯核作用于ground truth heatmap，用MSE进行监督。

性能

在COCO数据集的关键点检测、姿态估计、多人姿态估计这三项任务里，超越了所有前辈。
HRNet是公认的效果好的大网络，常用于线上刷库。但是实际的端侧姿态估计还是用那种最普通的。

vr视频解决方案

0 人点赞