【弱监督视觉任务】开源 | 一种弱监督时间动作定位的混合注意机制,性能SOTA!

2021-09-23 16:54:40 浏览数 (1)

内容提要

弱监督时间动作定位是一项具有挑战性的视觉任务,因为训练视频中缺乏真值的动作时间位置。由于在训练过程中只有视频级别的监督,大多数现有的方法依赖于多实例学习(MIL)框架来预测视频中每个动作类别的开始和结束帧。然而,现有的基于MIL的方法有一个主要的局限性,即只捕捉动作的最具区别性的帧,而忽略了活动的全部范围。此外,这些方法不能对定位前台活动起着重要作用的后台活动,进行有效地建模。在本文中,我们提出了一种新的框架HAM-Net,该框架包含时间软注意、半软注意和硬注意的混合注意机制。我们的时间软注意模块,在分类模块中的辅助背景类的指导下,通过为每个视频片段引入动作评分来模拟背景活动。此外,我们的时间半软和硬注意模块,计算每个视频片段的两个注意分数,有助于集中在一个动作的较少区别的帧,以捕获完整的动作边界。我们提出的方法在THUMOS14数据集上IoU阈值为0.5时至少有2.2% mAP,在ActivityNet1.2数据集上IoU阈值为0.75时至少有1.3% mAP,性能SOTA!

主要框架及实验结果

声明:文章来自于网络,仅用于学习分享,版权归原作者所有,侵权请加上文微信联系删除。

0 人点赞