Progressive Relation Learning for Group Activity Recognition

2023-01-11 08:38:01 浏览数 (1)

Summary

不是很清楚这篇论文的价值,感觉很不错

个人感觉是提出了能够细粒度群体联系的方法。

Background / Problem Statement

研究的背景以及问题陈述:

LSTM.RNN以及MPNN都被应用于挖掘人类之间的关系,然而这些信息都只是不明显的包含在神经网络结构中,没有能够很好的处理、表达这些高维特征。

Major Contributions

该研究的贡献:

  1. 提出了一个用于群体活动分析的'progressive relation learning framework'
  2. 通过RG发现细粒度的群体联系
  3. 通过FD构造更高维度的语义联系

How Do You Think

你认为作者会采用那些方法解决问题?

没想过该方面,不是很了解。

猜一下,之前的群体联系信息都是不显式的包含在神经网络中,要想细粒度的提取特征,并以此特征,找到关键帧,至少要做几件事情:

  • 怎么提取细粒度特征?之前的论文是通过个人特征提取群体特征,我感觉有点找相似度的意思?那么就需要设计一种方式,能够在群体这个维度整体提取信息,或者说提取个人信息后,能够找到一种新的指标去提取群体的高维特征。单从群体直接提取特征,应该不是很行,因为这样舍弃了对于个人行为的描述,甚至效果不如以前;提取个人信息后,显然不能使用该人所有时间段的信息;
  • 怎么判断是否是关键帧数?莫得思路。。。。

Problem Statement/Challenge

作者需要解决的问题是什么?

我个人认为,作者要解决这几个问题:

  • 显式的提取、解释群体活动的高维特征
  • 细化这些特征并提取关键帧数用于表征群体活动

Method(s)

作者解决问题的方法/算法是什么?是否基于前人的方法?基于了哪些?

整体流程图:

个人特征提取

首先通过神经网络提取个人的一些视觉特征 ,即对于个人i的特征;

之后这个数据在被送入LSTM中提取个人时间动态特征 ;

最后链接所有人的这两个向量得到基本的时空特征 以及 ,继续链接这两个向量得到 。

之后,用dx以及dy表示两个人之间的水平、垂直距离,那么就可以得到空间向量{ }以及方向向量{ },这两个向量链接得到最初的互动特征

语义联系图

定义一个无向图 (不包含自己指向自己的边),其中u是全局属性, 代表个人的节点, 则是代表两个人之间关系的一条边。

该图通过下面的函数迭代:

其中 为所谓的LSTM网络。得到这个复杂的聚合上下文信息——"aggregated contextual information",即 ,在用这个向量更新节点信息:

之后在更新边的信息:

最后更新全局信息u:

其中 就是参数矩阵, 是偏置。

Progressively Relation Gating

relation gating看上去是一个policy-based method。

这个policy被马尔可夫链表述:

S: 状态 , 代表语义图全局信息,由性别、联系、接收者(语义图的边的另一个链接点); 则代表 这个三元组,即local information, 则是语义图的当前状态全局属性。

A:用于生产类似于LSTM中的gate的agent.即A用于生产一个 ,而这个gate——g则用于更新: 。

R:S,A的激励函数。首先有这样一个范式:

作者认为,这样的norm能够鼓励G的排变得稀疏,而不是L!范式那样让G的整体都变得稀疏。这样有三个作用:

强化学习的第 步时,这个激励函数可以鼓励我们的RG捕获关键联系以及参与者:

sgn是sign function

To encourage the posterior probability to evolve along an ascending trajectory, we introduce an ascending reward with respect to the probability of groundtruth activity label

也就是作者为了更好的训练,让每一次的预测值参与计算,得到 ,用以反应改善groundtruth的可能性。

同样,作者引入了一个系数 训练网络:

最终的r由上述三个组成:

RG:

迭代公式:

这就是RG的最终结构:

Progressively Feature Distilling

同样由马尔可夫链表述。

S:状态 ,其中 ,即全局动作信息(N为人数,T为帧数, 为“feature dimension of the feature tensor”);而 则为本次蒸馏帧的隐含信息;最后的 则为一个mask。

A:就是蒸馏的常规操作。

FD:

用下面的公式迭代、激励,其中参数与RG意义相同:

最终结构:

Evaluation

作者如何评估自己的方法?实验的setup是什么样的?感兴趣实验数据和结果有哪些?有没有问题或者可以借鉴的地方?

数据集: Volleyball Datasets 以及 Collective Activity Dataset

网络搭建:

  1. VGG-16作为个人信息提取的主干网络,
  2. 上层输出分为10次输入3000神经元的LSTM
  3. 上层输出输入一个1000点、100边的SRG图,迭代三次
  4. 输入RG agent,RG有七个全连接层,一个LSTM,
  5. FD层蒸馏时,特征帧数选为5

测试结果:

volleyball datasets的测试结果:

Collective Activity Dataset的测试结果:

其中T.A.即加了一个a temporal attention over feature frames,R.A即加了一个a relation attention that directly learns relation gates

Unresolved Issues

你觉得这篇文章没有解决/回避的问题是什么?这个问题对整篇论文影响多大?

没给代码

Conclusion

作者给出了哪些结论?哪些是strong conclusions, 哪些又是weak的conclusions(即作者并没有通过实验提供evidence,只在discussion中提到;或实验的数据并没有给出充分的evidence)?

还行。

Notes

(optional) 不在以上列表中,但需要特别记录的笔记。

这篇文章开头即假设群体活动中只有一部分人的一部分活动可以“关键性”的标明这群人的活动:

Group activities usually involve spatiotemporal dynamics among many interactive individuals, while only a few participants at several key frames essentially define the activity.

同样,作者提到,之前的群体活动识别,往往有着粗糙的定义,如关键特征被选为"长时间运动",或者采用自注意力机制去自动捕获关键特征:

Yan et al. [36] heuristically defined the key participants as the ones with “long motion” and “flash motion”. Qi et al. [22] applied a “self-attention” mechanism to attend to important persons and key frames. Nevertheless, these methods are limited to the coarse individual (person) level, and have not dug into the fine-grained relation level to consider which relations are vital (e.g., regulating 15 pairwise relations is more fine-grained than attending 6 persons).

value-based methods,policy-based methods不知道怎么翻译比较合适。。。

The value-based methods (e.g., deep Q-learning [21]) are good at solving the problems in low dimensional discrete action space, but they fail in high dimensional continuous space. Although the policy-based methods (e.g., policy gradient [29]) are capable to deal with the problems in continuous space, they suffer from high variance of gradient estimation. The hybrid methods, such as Actor-Critic algorithms [16], combine their advantages and are capable for both of discrete and continuous action spaces.

References

(optional) 列出相关性高的文献,以便之后可以继续track下去。

可能感兴趣的东西

  1. Debang Li, Huikai Wu, Junge Zhang, and Kaiqi Huang. A2RL: aesthetics aware reinforcement learning for image cropping. In CVPR, pages 8193–8201, 2018.
  2. Wei Yang, Xiaolong Wang, Ali Farhadi, Abhinav Gupta, and Roozbeh Mottaghi. Visual semantic navigation using scene priors. arXiv preprint arXiv:1810.06543, 2018.

算法相关文献

  1. Volodymyr Mnih, AdriaPuigdom enech Badia, Mehdi Mirza, Alex Graves, Timothy P. Lillicrap, Tim Harley, David Silver, and Koray Kavukcuoglu. Asynchronous methods for deep reinforcement learning. In ICML, 2016.
  2. Vijay R. Konda and John N. Tsitsiklis. Actor-critic algorithms. In NIPS, pages 1008–1014, 1999

数据集

  1. Wongun Choi, Khuram Shahid, and Silvio Savarese. What are they doing?: Collective activity classification using spatio-temporal relationship among people. In ICCV Workshops, pages 1282–1289. IEEE, 2009.
  2. Mostafa S. Ibrahim, Srikanth Muralidharan, Zhiwei Deng, Arash Vahdat, and Greg Mori. A hierarchical deep temporal model for group activity recognition. In CVPR, pages 19711980, 2016.

0 人点赞