媲美 ImageNet 的动作识别数据集,你知道哪些?

2019-08-29 16:26:52 浏览数 (1)

原标题 | New Datasets for Action Recognition

作 者 | Kateryna Koidan

动作识别对于许多现实应用至关重要,包括视频监控、医疗保健和人机交互。我们需要怎么做才能根据这些视频中动作对视频片段进行分类?

我们需要识别视频片段的不同动作,这些动作可能在整个视频持续时间内进行,也可能没有。这看起来像图像分类问题,但在这种情况下,任务将扩展到多个帧,并进一步聚合每帧的预测。我们知道,在引入ImageNet数据集后,深度学习算法在图像分类方面做得相当出色。但是,我们是否能在视频分类或动作识别任务能取得相同的进步 ?

实际上,有许多行为将动作识别变成一项更具挑战性的任务。这包括巨大的计算成本、捕获长上下文,当然还有对良好数据集的需求。

一个好的动作识别问题数据集应具有与 ImageNet 相媲美的帧数和动作类型的多样性,以便将经过训练的体系结构概括为许多不同的任务。

幸运的是,去年提出了几个这样的数据集。让我们来看看。

Kinetics-600

视频数量:500000

动作类别:600

年份:2018

Kinetics-600数据集实例

我们从 Google DeepMind 团队的数据集开始。这是一个 Kinetics 数据集 - 为推进人类动作识别模型而创建的 YouTube URL 的大规模高质量数据集。其最后一个版本名为 Kinetics-600,包括大约 500000 个视频片段,涵盖 600 个人类动作类,每个动作类至少有 600 个视频片段。

Kinetics-600 中的每个片段均取自的YouTube 视频,持续约 10 秒,并标有单个类。片段已经经历了多轮的人为注释,为标记任务构建了单页 Web 应用程序,您可以看到下面的标签界面。

标签界面

如果一个工作人员对最开始问题"你能识别这个人所做动作的类别吗?”回答是“是”的话,他还需要回答“动作持续到最后一帧吗?” Kinetics-600 的创建者们还检查了数据集是否类别均衡,发现大约 15% 的动作类不平衡,但这不会导致性能上的偏差。 这些动作涵盖了广泛的类别,包括人与物体的互动,如演奏乐器,安排鲜花,修剪草坪,打蛋等。

Moments in Time

视频数量:1000000

动作类别:339

年份:2018

来自 Moments in Time 数据集的样本

Moments in Time 是另一个由 MIT-IBM 沃森人工智能实验室开发的大规模的数据集,它收集了100万个标记为3秒的视频,不仅限于人类行为,还包括人、动物、物体和自然现象,捕捉动态场景的要点。

上述所有场景都属于同一类别的“打开”,尽管它们在视觉上看起来非常不同。因此,正如研究人员所指出的,挑战在于开发深度学习算法,既能区分不同的操作,又能推广到同一操作中的其他代理和设置。

标签界面

从图像中可以看出,注释过程非常简单:如果场景中发生动作,则向工作人员显示视频动词对,并被要求按"是"或"否"键响应。对于训练集,研究人员通过注释运行每个视频至少3次,并且需要至少75%的人类共识。对于验证和测试集,他们将最少的批注数增加到 4,人类共识至少为 85%。

SLAC

视频数量:520,000,1.74M个2s的视频片段

动作类别:200

年份:2017

数据收集流程

麻省理工学院和Facebook的研究人员小组介绍了一个稀疏标记的ACTIONs数据集(SLAC)。该数据集侧重于人类行为,类似于 Kinetics,包括从 YouTube 检索到的 520K 多个未修剪视频,平均长度为 2.6 分钟。采用新颖的主动采样方法从视频中以2 秒为单位机芯剪辑和采样。这产生了 1.75M视频片段,包括 755K 阳性样本和 993K 阴性样本,由 70 个专业标注团队进行批过。

如您所见,此数据集的显著特征是存在负样本,如下图所示。

SLAC 数据集的负样本

数据集包括从 ActivityNet 数据集获取的 200 个动作类。

请注意,即使此数据集的论文于 2017 年 12 月发布,该数据集仍无法下载,希望之后能够提供下载。

VLOG

视频数量:11400

年份:2017

VLOG数据集的实例

VLOG数据集与以前的数据集在收集方式上有所不同。数据集的传统方法从列一个列表开始,然后搜索带有相应标签的视频。

然而,这种方法具有一定的局限,因为日常活动的视频是不太可能在互联网上出现并被标记。你能想象自己会上传和标记自己打开微波炉,打开冰箱,或起床的视频吗?人们更倾向于标记不寻常的东西,例如,在游泳池里跳,呈现天气,或玩竖琴。因此,可用数据集通常不平衡,包含异常事件,日常活动数据较少的这种情况较多。

为了解决这个问题,加利福尼亚大学的研究人员建议从我们实际需要的数据集开始,即交互丰富的视频数据,然后在动作发生后对其进行说明和分析。他们开始从生活方式VLOGs收集数据,VLOGs是一种非常受欢迎的视频类型,人们公开上传到YouTube,记录他们的生活。

数据收集过程

由于数据是隐式收集的,因此注释起来具有一定的挑战。研究人员决定关注交互的关键部分、手,以及它们如何在帧级别与语义对象交互。因此,此数据集还可以在理解手部动作的难题上取得进展。

最后

动作识别问题需要大量的计算成本和大量的数据。幸运的是,去年出现了几个非常好的数据集。与以前可用的基准(ActivityNet, UCF101, HMDB)一起,为显著改进动作识别系统的性能奠定了坚实基础。

via https://medium.com/neurohive-computer-vision/new-datasets-for-action-recognition-4610c5101823

0 人点赞