1 视频分类问题
基于深度学习的视频分类包含非常多的方法,如3D卷积,双流法,LSTM时序模型等,在有三AI知识星球中有非常多的相关模型解读,案例如下:
有三AI知识星球-网络结构1000变
LiteFlowNet
FlowNet以及FlowNet2证明了CNN可以用于光流估计,尤其是FlowNet2已经达到了传统变分法的精度,但是模型超过100M,SPyNet虽然只有1.2M但是精度不够。LiteFlowNet是一个兼顾精度和模型大小,速度优势的轻量级模型,大小只有FlowNet2的30分之一,速度是它的1.36倍。
作者/编辑 言有三
如上图所示,LiteFlowNet由两个紧凑的子网络NetC和NetE组成,分别用于金字塔特征提取和光流估计,与同样采用金字塔结构的SPyNet相比,这种策略将特征提取和光流估计分为两个步骤,方便更好地控制模型性能。
NETC为一个两输入的网络,两个网络共享滤波器权重。注意这里的warp操作使用的是特征warp,而不是在FlowNet中使用的图片warp。
总的说来,文章有3个比较重大的贡献:
其一,在FLowNet中会将image2和光流进行warping操作,然后对其提取特征,这里就将其合并为一个操作,直接在特征层面完成,这样精度反而更高,计算代价也更低。
其二,NetE也是一种级联形式的方法,这样的金字塔式的结构学习光流的过程更加稳定,也逐步降低学习误差。
该学习包括两个步骤,分别是M和S。
M过程即descriptor matching,输入上一级的光流估计和特征F2,F1,估计残差。
S过程即sub-pixel refinement,是在M过程的基础上进一步提高精度。
其三,对光流估计每一层都做了正则化约束,其实就是一个平滑操作使得光流的边界更加平滑。
整个网络非常的复杂,细节也很多,感兴趣的同学需要去细读原文。以上三个技术的实际效果展示如下,可知道对改善效果都是正向的作用。
在数据集上完整的实验结果如下,兼顾性能和精度优势。
[1] Hui T W, Tang X, Change Loy C. Liteflownet: A lightweight convolutional neural network for optical flow estimation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 8981-8989.
更多模型解读如下。
另外也有非常多的数据集提供解读和下载。
有三AI知识星球-数据集
Kinetics-700 dataset
Kinetics-700 dataset是一个视频分类/行为识别数据集,被用于ActivityNet比赛,包含约650000个视频,700个类别。
作者/编辑 言有三
数据集地址:https://deepmind.com/research/open-source/open-source-datasets/kinetics/,发布于2019年。
ActivityNet比赛始于2016的CVPR,是与ImageNet齐名的在视频理解方面最重要的比赛。在这个比赛下的Task A–Trimmed Action Recognition比赛是一个视频分类比赛,2019年的比赛使用kinetics-700数据集,在此之前还有2017年的kinetics-400和2018年的kinetics-600。
数据集是Google的deepmind团队提供,每个类别至少600个视频以上,每段视频持续10秒左右,标注一个唯一的类别。
行为主要分为三大类:
(1) 人与物互动,比如演奏乐器;
(2) 人人互动,比如握手、拥抱;
(3) 运动等。
虽然每一个视频只会标记一个标签,但是它可以包含几种动作。例如开车”时“发短信”,“弹奏尤克里里”时“跳草裙舞”等,因此取top-5的准确率更为合适。另外很多的运动也容易混淆,比如跳远和三级跳远,吃汉堡和吃甜甜圈,因此这个数据集具有非常高的难度,仍然是当前算法的评测基准。
一些类别的展示如下:
[1] Kay W, Carreira J, Simonyan K, et al. The kinetics human action video dataset[J]. arXiv preprint arXiv:1705.06950, 2017.