深兰科技:动作识别 | 人体骨架时空图卷积网络的可学习边与权

2020-06-16 14:43:09 浏览数 (1)

动作识别是基于计算机视觉识别的技术,可以实时对检测区域内人员动作进行识别。作为深兰科技计算机视觉技术的核心产品之一,搭载自动驾驶功能的“熊猫智能公交车”已获得广州、上海、武汉、长沙、深圳等多地的自动驾驶测试牌照,并且在武汉取得了全球首个自动驾驶客车的商用牌照。而其行人行为预测和车内异常行为识别(摔倒、偷窃等)两大功能,便是动作识别最直接的体现。此外,深兰的智慧工地管理平台——“工地大脑”、智能社区管理系统,以及明厨亮灶系统等,都一定程度使用到了动作识别技术。

港中文的Sijie Yan团队也做了不少关于动作识别的工作,他们的论文《Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition》发表在近期AAAI 上。本文将重点介绍论文中关于动作识别的时空图卷积的可学习边与权重,及其划分策略。

空间图卷积神经网络

其中采样函数(Sampling Function)p:Z2×Z2→Z2枚举位置x的邻域(Neighbors)。在图像卷积的情况下,也可以表示为p(x,h,w)= x p'(h,w)。权重函数(Weight Function)w:Z2→Rc在c维实数空间中提供一个权重向量,以使用维度c的采样输入特征向量计算内积。注意,权重函数与输入位置x无关。因此,滤波器权重在输入图像上的所有位置共享。而通过在p(x)中编码矩形网格,可以实现图像域上的标准卷积,在(Dai et al.2017)中找到该构思的更详细的说明和其他应用。

图一

图二

图三

划分策略

给定空间时间图卷积的高层次表述,设计一个划分策略以实现标签图很重要。在这项工作中,团队探索了几种划分策略。为简单起见,团队只讨论单个帧中的情况,因为可以使用公式7很自然地将它们扩展到时空域。

其中ri是训练集中所有帧上,重心(Gravity Center)到关节i的平均距离。

三种划分策略的可视化效果如【图四】所示。团队将基于骨架的动作识别实验,对所提出的划分策略进行实证研究。可以预期,更高级的划分策略将导致更好的建模能力和识别性能。

可学习边与权

尽管人们在执行动作时那些关节们会成组移动,但一个关节可能会出现在身体的多个部位。但是,在对这些身体部位的动力学建模时,这些外观应该具有不同的重要性。从这个意义上说,团队在空间时间图卷积的每一层上添加了一个可学习的mask M。该mask将根据ES中每个空间图的边的学习得到的重要性权重,缩放节点特征对其邻域节点们的贡献。根据经验,团队发现添加此mask可以进一步提高ST-GCN的识别性能。为此,也可能具有依赖于数据的Attention Map,团队将其留给以后的工作。

图四

时空图卷积网络实现

Network Architecture and Training 网络架构和训练。由于ST-GCN在不同节点上共享权重,因此在不同关节上保持输入数据的大小一致很重要。在团队的实验中,首先填喂输入骨架到批处理规范化层以规范化数据。ST-GCN模型由9层空间时间图卷积算子(ST-GCN单元)组成。前三层有64个通道用于输出,接下来的三层有128个通道用于输出,最后三层有256个通道用于输出。这些层具有9个时间核大小。Resnet机制应用于每个ST-GCN单元,而且在每个ST-GCN单元之后,团队以0.5的概率随机删除(Randomly Dropout)了这些特征,以避免过拟合。将第4和第7时间卷积层的步幅设置为2作为池化层,此后,对结果张量进行全局池化,以获得每个序列的256维特征向量。

最后,团队将它们提供给SoftMax分类器。使用具有0.01学习率的随机梯度下降学习模型。每隔10个epochs,团队会将学习率降低0.1。为避免过度拟合,在Kinetics数据集上进行训练时,团队执行两种扩充来替换dropout层(Kay等人2017)。

首先,为了模拟摄像机的运动,团队对所有帧的骨架序列执行随机仿射变换。特别是,从第一帧到最后一帧,团队选择一些固定角度,平移和缩放因子作为候选,然后随机采样三个因子中的其中两个组合,以生成仿射变换。此变换被插入到中间帧中以产生一种效果,就好像团队在回放过程中平滑地移动视点一样。团队称这种增强为随机移动。其次,团队在训练中从原始骨架序列中随机抽取片段(fragments),并在测试中使用所有帧。网络顶部的全局池化使网络能够处理长度不确定的输入序列。

参考文献

[Yan et al. 2018] BrunSijie Yan, Yuanjun Xiong, Dahua Lin.2018. Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition. In arXiv: 1801.07455.

[Henaff, Bruna, and LeCun 2015] Henaff, M.; Bruna, J.; and LeCun, Y. 2015. Deep convolutional networks on graph- structured data. In arXiv:1506.05163.

[Hussein et al. 2013] Hussein, M. E.; Torki, M.; Gowayyed, M. A.; and El-Saban, M. 2013. Human action recognition using a temporal hierarchy of covariance descriptors on 3d joint locations. In IJCAI.

[Kayetal.2017] Kay,W.;Carreira,J.;Simonyan,K.;Zhang, B.; Hillier, C.; Vijayanarasimhan, S.; Viola, F.; Green, T.; Back, T.; Natsev, P.; et al. 2017. The kinetics human action video dataset. In arXiv:1705.06950.

[Ke et al. 2017] Ke, Q.; Bennamoun, M.; An, S.; Sohel, F.; and Boussaid, F. 2017. A new representation of skeleton sequences for 3d action recognition. In CVPR.

作者:知乎—深兰科技 DeepBlue AI

地址:https://www.zhihu.com/org/shen-lan-ke-ji-deepblue-ai

0 人点赞