【每周CV论文推荐】初学视频分类与行为识别有哪些值得阅读的论文?

2022-11-07 21:25:42 浏览数 (2)

欢迎来到《每周CV论文推荐》。在这个专栏里,还是本着有三AI一贯的原则,专注于让大家能够系统性完成学习,所以我们推荐的文章也必定是同一主题的。

随着图像识别相关领域的研究与应用逐渐成熟,当下视频分析相关的研究和应用所占比例越来越大,其技术也更加复杂。视频分类和行为识别在视频监控与检索、网络直播、推荐系统等行业中有着广泛的应用,是深度学习在视频分析领域中最底层的问题之一,非常值得关注和学习。

作者&编辑 | 言有三

1 3DCNN模型

视频相对于图像多出了一个维度,而3D卷积正好可以用于处理这个维度,因此也非常适合视频分类任务,不过缺点是计算量比较大,早在2012年就有研究者开始使用3DCNN模型来进行视频分类,这与深度卷积神经网络模型的发展时间脉络基本重合。

文章引用量:12000

推荐指数:✦✦✦✦✦

[1] Ji S, Xu W, Yang M, et al. 3D convolutional neural networks for human action recognition[J]. IEEE transactions on pattern analysis and machine intelligence, 2012, 35(1): 221-231.

[2] Tran D, Bourdev L, Fergus R, et al. Learning spatiotemporal features with 3d convolutional networks[C]//Proceedings of the IEEE international conference on computer vision. 2015: 4489-4497.

2 RNN与LSTM

视频和语音信号都是时序信号,而RNN和LSTM正是处理时序信号的模型,也是早期用于视频分类的重要模型。

文章引用量:6000

推荐指数:✦✦✦✦✦

[3] Donahue J, Anne Hendricks L, Guadarrama S, et al. Long-term recurrent convolutional networks for visual recognition and description[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2015: 2625-2634.

3 双流法

视频中的目标往往是运动的,因此光流也是非常重要的信息,从而引出一类专门进行视频处理的模型,双流法。双流法包含两个通道,一个是RGB图像通道,用于建模空间信息。一个是光流通道,用于建模时序信息。两者联合训练,并进行信息融合。

文章引用量:10000

推荐指数:✦✦✦✦✦

[4] Simonyan K, Zisserman A. Two-stream convolutional networks for action recognition in videos[J]. Advances in neural information processing systems, 2014, 27.

[5] Feichtenhofer C, Pinz A, Zisserman A. Convolutional two-stream network fusion for video action recognition[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 1933-1941.

4 3D与双流法融合

Two-Stream网络和3D网络各有优点,都可以很好的建模时序关系,但是计算量巨大,因此有的框架致力于融合两类框架,并降低计算量。

文章引用量:5000

推荐指数:✦✦✦✦✦

[6] Carreira J, Zisserman A. Quo vadis, action recognition? a new model and the kinetics dataset[C]//proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 6299-6308.

5 一些数据集

研究视频分类任务需要一些数据集,视频分类数据集的规模随着时间推移也越来越大,其中适合新手朋友们学习使用的有HMDB-51,UCF-101,Kinetics Datasets。

[7] Kuehne H, Jhuang H, Garrote E, et al. HMDB: a large video database for human motion recognition[C]//2011 International conference on computer vision. IEEE, 2011: 2556-2563.

[8] Soomro K, Zamir A R, Shah M. UCF101: A dataset of 101 human actions classes from videos in the wild[J]. arXiv preprint arXiv:1212.0402, 2012.

[9] Kay W, Carreira J, Simonyan K, et al. The kinetics human action video dataset[J]. arXiv preprint arXiv:1705.06950, 2017.

6 如何进行实战

为了帮助大家掌握一些视频分类与行为识别的重要方法,我们推出了相关的专栏课程《深度学习之视频分类与行为识别:理论实践篇》,感兴趣可以进一步阅读:

【视频课】CV必学,超8小时,3大模块,3大案例,循序渐进地搞懂视频分类与行为识别!

总结

本次我们简单介绍了视频分类与行为识别的一些重要内容,这是从事视频分析方向必须掌握的内容,值得所有从业者掌握。

有三AI冬季划-项目实战组

0 人点赞