欢迎大家来到《知识星球》专栏,这两天有三AI知识星球专注更新3D卷积和视频分类/行为识别相关的网络以及相关数据集的介绍和下载。
作者&编辑 | 言有三
有三AI知识星球-网络结构1000变
Two-stream(Spatial Temporal)
Two-stream是一个非常经典的网络,可以被用于分类,检索,跟踪等任务,这里的Two-stream网络包含了时间和空间网络,分别用于提取RGB的空间信息和光流时间信息。
作者/编辑 言有三
网络结构如上,包含两个通道,第一个通道为spatial stream convNet通道,输入单帧RGB图,用于提取空间信息,是一个2D网络。
第二个通道为temporal stream convnet,输入若干帧光流图,用于提取时间信息,是一个3D网络。光流包括x和y两个方向,所以对于大小为 w, h, 帧长为L的视频片段,temporal stream convnet的输入形状为:( w,h,2L ),下图展示了相邻两幅图的光流图:
两个网络的具体细节在上图已经有所展示,不再详述,下面看下具体的表现:
上表分别是只使用空间网络和只使用时间网络的结果,结果表明空间网络过拟合很严重,时间网络性能远超空间网络,说明运动信息更加重要。另外从5~10增加帧数有微小性能提升,所以最终使用的帧数是10。
下面再来看Two-stream网络,结果融合方法是两个网络的softmax输出的平均或者多类别linear SVM。
结果可以看出,相对于单个网络,有较大的性能提升,其中多类别linear SVM的融合方法比直接平均法更好。
参考资料:
[1] Simonyan K, Zisserman A. Two-stream convolutional networks for action recognition in videos[C]//Advances in neural information processing systems. 2014: 568-576.
有三AI知识星球-数据集
UCF101
UCF101是一个视频分类/行为识别数据集,共101个类别,13320个短视频。
作者/编辑 言有三
数据集地址:
https://www.crcv.ucf.edu/research/data-sets/human-actions/ucf101/,发布于2012年。
该数据集包括13320个短视频,来源于YouTube,共101个类别。其中每一类由25个人做动作,每个人做4-7组,视频大小为320×240。
UCF101是目前动作类别数、样本数最多的数据集之一,主要包括在自然环境下101种人类动作类别如跳、拍手、打羽毛球等等,也正因为类别众多加上UCF101在动作的采集上具有非常大的多样性,如相机运行、外观变化、姿态变化、物体比例变化、背景变化等等,所以也成为了当前难度最高的动作类数据集之一。
各个类别的数量分布如上,可知道还是比较均匀的,UCF101在视频分类/行为识别中是必须评测的基准,有如图像中的ImageNet。
更多相关的模型解读
加入有三AI知识星球即可获取
每日更新
已经超过3万字的内容
覆盖各类主流网络架构
转载文章请后台联系
侵权必究
往期精选
- 有三AI知识星球官宣,BAT等大咖等你来撩
- 揭秘7大AI学习板块,这个星球推荐你拥有
- 【知识星球】做作业还能赢奖金,传统图像/机器学习/深度学习尽在不言
- 【知识星球】颜值,自拍,美学三大任务简介和数据集下载
- 【知识星球】超3万字的网络结构解读,学习必备