本文是第三十八届国际机器学习会议(ICML 2021)入选论文《向抗视觉混淆的主动目标跟踪迈进(Towards Distraction-Robust Active Visual Tracking)》的解读。
该论文由北京大学王亦洲课题组与腾讯合作,提出了一种多智能体混合博弈机制,使得干扰者和目标自主学习配合,自动产生多样复杂的视觉混淆干扰,进而促进跟踪器的学习提升。
arxiv:https://arxiv.org/pdf/2106.10110.pdf
项目主页:https://sites.google.com/view/distraction-robust-avt
代码:https://github.com/zfw1226/active_tracking_rl/tree/distractor
虚拟环境:https://github.com/zfw1226/gym-unrealcv
1 引言
在之前的工作 [1, 2] 中,已经介绍了用目标-跟踪器竞争机制提升跟踪器训练效率和对目标多样轨迹的鲁棒性,并通过一系列改进方法提升了跟踪器在障碍物遮挡环境下的鲁棒性。
本文将重点讨论另一种复杂场景下所存在的挑战,即视觉混淆干扰对主动目标跟踪的影响。也就是,当动态场景中存在多个与目标相似的干扰物时,如何克服可能出现的视觉混淆干扰和严重遮挡,实现稳定持续的主动目标跟踪。
2 简介
对于主动目标跟踪,从若干个相似物体中识别目标并持续跟踪是非常困难的。首先,因为物体外观十分相似,使得视觉外观存在一定迷惑性,使得模型很难直接通过模板匹配找到真正的目标。其次,各个物体的移动会带来相互之间频繁遮挡,进而导致视觉观测十分局限。
例如,在一群穿着统一校服的学生中跟踪一个指定学生时,对跟踪器而言将存在哪些挑战?如图1所示,人群中有多个与目标着装相同且身高相近的行人在来回走动,如果只给定左边的模板示例,是否能够从右图的观测图像中找出相应的目标?显然,这不是一件容易的事情。
因此,有必要就跟踪过程中存在的视觉混淆干扰问题开展研究,以实现在复杂场景下鲁棒的主动目标跟踪。
图1. 在有着多个具有相同着装的人群中跟踪目标
虽然已经有一些研究工作对被动视频跟踪中的视觉混淆干扰开展了研究,但几乎没有工作就主动跟踪场景中存在的视觉混淆干扰进行研究。为提升被动跟踪器对视觉混淆的鲁棒性,现有的研究工作主要从学习一个具有更强判别力的视觉表征出发,从而对目标与复杂背景进行区分。然而,对于主动目标跟踪而言,这是远远不够的。
要克服视觉混淆干扰的影响,主动目标跟踪器不仅需要学习一个具有时空连续性的状态表征,还需要采取适当的控制策略移动相机,调整视角,主动避免视觉混淆在画面中的出现。例如,寻找一个更加合适的观测视角,避免目标与干扰物之间的遮挡重叠。然而,基本没有工作就如何实现这样的主动目标跟踪器开展研究讨论。
图2. 用于主动目标跟踪的多智能体混合博弈
要解决上述问题,首先需要解决的问题应当是如何生成/制造含有多样复杂视觉混淆干扰的场景。直接让机器人在真实人群中交互学习是低效且高风险的。一种直观的想法,应当是提升用于训练的虚拟环境的复杂度,也就是在环境中加入多个移动干扰物,从而频繁制造各种视觉混淆情景。
然而,对干扰物群体行为的建模并不容易。在人工干预下生成的移动轨迹往往存在一定分布偏差,也很难覆盖所有可能的情况。正如之前工作 [1, 2] 中所介绍的,如果基于手工规则预先定义物体移动轨迹,将导致跟踪器过度拟合这些轨迹模式,对未见过的行为轨迹并不鲁棒。
受此启发,本文提出一种多智能体混合博弈机制,使得干扰者和目标自主学习配合,自动产生多样复杂的视觉混淆干扰,进而促进跟踪器的学习提升。
如图2所示,目标和所有干扰者构成了一个合作团队与跟踪器开展对抗竞争,使得跟踪器跟踪失败。在这种机制下,干扰者将与目标相互配合,自主学习探索多样复杂的干扰行为策略,生成视觉混淆情景,进而暴露跟踪器的弱点。同时,面对对手制造的复杂场景,跟踪器也将通过学习,不断强化自身抗干扰能力。
此外,本文还将介绍一系列实用方法以保证多智能体学习过程更加高效和稳定。具体的方法包括了一种可有效引导干扰者产生视觉混淆行为的奖赏函数、一种跨模态师徒学习策略、一种用于学习时空一致状态表示的循环注意力机制等。
在高逼真虚拟环境 UnrealCV [3] 中进行的实验表明,基于上述方法实现的主动目标跟踪器能够具有一定的抗视觉混淆鲁棒性(Distraction Robustness),并且能够在未见过的场景中稳定表现,而已有的跟踪方法十分容易被干扰物体误导。此外,还进一步展示了如何应用多智能体混合博弈机制对跟踪器进行对抗性测试。
3 本文方法
本章将先重点介绍多智能体混合博弈的定义和奖赏函数设计,再介绍跨模态师徒学习方法,最后是用于跟踪器的循环注意力机制。
3.1 多智能体混合博弈
本文将在跟踪器-目标竞争中加入一组主动的干扰者,以产生多样复杂的视觉混淆干扰。这种多智能体博弈机制被称为混合合作与竞争的多智能体博弈(Mixed Cooperative-Competitive Multi-Agent Game ,CC-MAG),其中智能体分表代表了这三种类型的角色(跟踪器,目标,干扰者)。具体来说,每种智能体的目标如下所示:
- 跟踪器需要追逐目标,并于目标保持特定的相对距离和角度。
- 目标需要找到摆脱追踪的方法。
- 干扰者需要通过与目标和其它干扰者合作,制造具有迷惑性的视觉观测或遮挡,帮助目标摆脱跟踪。
在多智能体学习过程中,如果合作团队共享同一个全局奖赏函数,往往会因为信用分配(Credit Assignment)问题(无法确定个体行为对团队奖赏的具体贡献)导致学习效率低下。为了避免因团队内部奖赏分配导致个体奖赏的不确定,本章将介绍一种干扰可知的奖赏结构,该结构既考虑了合作竞争激励原则,也考虑了以下直觉:
- 目标和干扰者具有一个共同的目标任务,也就是使跟踪器失败。因此,他们需要共享目标的奖赏,以鼓励目标与干扰者之间出现团队合作行为。
- 每个干扰者都应该有部分自己独有的奖赏,以量化其对团队的具体贡献。
- 只有当干扰者被跟踪器明显观测到时,才可能制造视觉混淆,干扰跟踪。当干扰者在跟踪器视野范围外时,绝无可能对跟踪器的行为产生影响。
在设计奖赏函数之前,将首先定义一个变量:以跟踪器为中心的相对距离 ?(1, ?)。该距离用于衡量跟踪器与其它智能体 ? > 1 之间的空间关系,写作:
这里,(?? , ??) 和 (?∗ , ?∗) 分别表示在以跟踪器为中心的极坐标系下,智能体 ? 的坐标位 置和目标的期望位置。? 表示了到坐标原点(跟踪器)的直线距离。? 表示了相对于跟踪器正前方的相对夹角。图 3提供了更直观的展示。图中,蓝色、橙色、黄色圆点分别代表了跟踪器、目标和干扰物。绿色十字表示了目标的期望位置。跟踪器位于极坐标原点 (0, 0)。跟踪器上方的箭头指示相机的正前方。灰色扇区区域表示跟踪器的合理观测区域。
图3. 以跟踪器为中心的坐标系俯视图
基于相对距离,这里给出智能体奖赏函数结构的正式定义:
在这里,省略了时间步长下标 ?,以避免引起混淆。跟踪器的奖赏函数是由目标和期望位置之间的相对误差计算而来的。跟踪器与目标之间进行零和博弈,也就是 ?1 ?2 = 0。为了鼓励干扰者与目标进行合作,他们都将获得 ?2。同时,为了确定每个干扰者各自的独立贡献,引入了相对距离 ?(1, ?) 作为各自奖赏函数的惩罚项。
根据观察发现,一旦跟踪器被干扰者误导,往往会将干扰者视作目标,将其置于期望的目标位置(跟踪器观测图像中央)。反之,当干扰者远离跟踪器时,干扰者的奖赏值将会被惩罚项 ?(1, ?) 所抑制,因为它对 ?2 的收益无任何实质贡献。直观地讲,惩罚项 ?(1, ?) 可以指导干扰者学会导航到跟踪者的视野中心,而目标 ?2 的奖赏可以鼓励它与目标合作以产生视觉混淆干扰,从而误导跟踪者。
此外,如果检测到智能体 ? 发生了碰撞,它将获得额外的碰撞惩罚−1。碰撞惩罚是有必要的。因为实验发现,如果去掉改惩罚项,干扰者将倾向于直接通过物理围堵的方式阻碍跟踪器,而不是制造多样复杂的迷惑行为来误导跟踪器。
3.2 多智能体学习策略
为了在多智能体博弈中有效地学习基于视觉的跟踪策略,本章将结合强化学习和模仿学习各自的优势,介绍一种分步训练策略。相反,如果直接采用深度强化学习训练基于视觉输入的多智能体,将十分不稳定且效率低下。具体来说,训练过程将分两步进行:
1. 通过智能体自博弈(Self-Play)方式训练元策略。也就是在不同训练阶段,每个智能体都能遇到与自己能力水平相当的对手和合作伙伴,这被视作自然课程。
元策略享有特权,能够直接获得纯净且低维的环境状态真值(Grounded State),而不是高维复杂的视觉观测。虽然在大多数现实场景下很难直接获得环境状态真值,但是在虚拟环境中训练时可以轻松访问这些状态。
对于主动目标跟踪任务,智能体间的相对位姿(位置和方向)可以视作环境状态真值。在训练过程中,智能体间每进行 5 万次交互后,目标物和干扰物的策略参数都将被拷贝存储。从而,可以收集一个包含不同层次水平的策略模型池。在下一阶段的学习过程中,就可以通过从策略模型池中采样网络参数用于目标和干扰者,以重现包含不同难度级别的多智能体学习课程。
2. 通过模仿学习,将元策略所学行为策略高效传授给基于视觉的主动目标跟踪器。这种利用不同模态观测数据之间的差异性实现高效训练策略的方法称为跨模态师徒学习策略(Cross-Modal Teacher-Student Leanring Strategy)。本文采用了与 DAGGER [4] 相似的交互式训练方式,也就是让学生采取自身当前策略与环境主动交互收集样本,同时教师模型实时提供建议动作用于模型优化。优化的目标函数是要最小化学生输出动作分布与教师建议动作分布之间的相对熵(Kullback-Leibler Divergence)。
为了实现多样化复杂的多智能体训练环境,每次重置环境时,目标和干扰物的模型参数将从第一阶段收集的策略模型库中随机抽取。进而,可以轻松复现第一阶段训练过程中出现的不同难度级别的视觉混淆干扰,形成多智能体课程学习。
图4展示了多智能体跨模态师徒学习框架。图中跟踪器、目标、干扰物分别由蓝色,橙色,灰色表示。?* 表示了各自对应的元策略,享有直接获得环境状态真值的特权。跟踪器采用学生网络(基于视觉的跟踪器)与对手(目标和干扰者)博弈竞争, 以收集有用的交互经验用于学习。对手模型参数从第一阶段收集的策略模型池中采样 获得。在训练过程中,通过最小化教师策略提供的建议和学生输出动作分布之间的相对熵端到端优化学生网络参数。
图4. 多智能体跨模态师徒学习方法框架
3.3 循环注意力机制
除了训练机制的改进,本文还进一步改进了端到端主动跟踪模型,引入了循环注意力机制以学习一种时空连续的状态表示。
时空一致的状态表示对于主动目标跟踪而言是至关重要的,特别是当存在视觉混淆干扰的时候。增强特征的时空连续性既可以提升动态环境下特征的判别能力,也可以提升模型的泛化能力。
具体的,注意力图 (Attention Map) 将采用 ConvLSTM 进行编码,然后将其乘以视觉图像编码器(卷积神经网络)输出的特征,以获得一种目标感知的特征表示。ConvLSTM 的核心本质与传统 LSTM 相同,都是将上一层的输出作为下一层的输入。
不同之处在于,ConvLSTM 加入了卷积结构,使其不仅具有 LSTM 的时序建模能力,而且还能够像 CNN 一样提取空间特征,并且状态与状态之间的切换替换为卷积计算,从而使其同时具备时空特性。而传统的 LSTM 使用的是全连接长短时记忆网络,没有考虑空间上的相关性,并且包含了大量冗余的空间数据。经过循环注意力机制对视觉特征增强后,将由 LSTM 网络对序列状态间的时序特征进行编码,最后将融合时空特性的状态表示输入策略网络,输出动作分布。
4 本文实验
本章将在 UnrealCV 近真实虚拟环境中开展实验。
首先,在一个背景纯净但存在大量移动干扰物的房间中证明了本章提出的跟踪器在抗视觉混淆能力上能够明显优于基准方法。随后,验证了所学跟踪策略在新环境中的泛化能力。进一步,还演示了多智能体博弈机制的另一种用途,即对跟踪器的鲁棒性进行对抗测试。在对抗性测试过程中,基于强化学习的目标和干扰物会自主学习迷惑行为,以尽量短的时间误导跟踪器。
4.1 多智能体混合博弈
在第一阶段多智能体元策略自博弈的过程中,会自然演化出现多智能体课程。为了证明这一点,这里将从干扰者在跟踪器视野中的出现频率和已有模型(DiMP 和 ATOM)的跟踪成功率这两个方面评估不同阶段目标与干扰者合作生成的对抗行为的难度水平。
图5. 多智能体博弈过程中目标与干扰者之间合作策略演变分析
0
0.4
0.7
1.0
1.3
1.7
不同训练阶段出现的多智能体博弈行为
4.2 抗干扰能力对比
接下来,在包含不同数量干扰者的 Simple Room 环境中,对跟踪器的抗干扰能力展开分析。
在测试环境中,目标和干扰者在环境中随机走动,他们都是由基于规则的导航策略控制。相对绝大多数真实场景而言,这个环境相对简单纯净,因为背景纹理干净,且不存在任何障碍物。所以,当环境中不存在干扰物时,大多数跟踪器都能够精准稳定地跟踪目标移动。这样,就可以通过观察跟踪器性能与环境中干扰者数量的变化关系对模型的抗干扰能力进行定量分析。图6展示了在环境中逐渐增加干扰物数量时,不同跟踪器的性能变化趋势。
图6. 跟踪器性能与环境中干扰者数量的变化关系
在Simple Room中测试跟踪器
4.3 泛化能力验证
本小节进一步在两个与训练环境完全不同的近真实场景(Urban City 和 Praking Lot)对跟踪模型的泛化能力进行验证。图7汇总了不同跟踪模型在这两个环境中的测试结果。Urban City 中存在四个干扰者,Praking Lot 中有两个干扰者但外形与目标完全一致。
首先,可以看出随着环境背景复杂程度的增加,相比于较简单的 Simple Room 环境,所有跟踪模型的测试结果都有一定程度的降低。即便如此,本章方法所获得的跟踪器的结果仍然能够显著优于其他跟踪器,表明该模型具有较强的迁移泛化的能力。
图7. 在两个不同于训练环境的近真实环境中测试跟踪器泛化能力
在UrbanCity和ParkingLot中测试跟踪器的泛化能力
4.4 对抗性测试
多智能体混合博弈机制不仅可以训练跟踪器模型,也可以用于测试跟踪器的模型鲁棒性,特别是抗干扰能力。
在对抗测试过程中,目标和干扰者要自主学习一种合作策略主动探索有挑战性的移动轨迹使跟踪器失败。这种对抗性测试对于主动目标跟踪而言是十分必要的。因为之前评估用的都是基于规则生成的物体移动轨迹,然而物体轨迹的空间巨大,几乎无穷的,具有无限种可能的模式,所以这些基于规则生成的轨迹无法覆盖所有可能的情况,测试结果也就不能全面反映模型性能。
此外,对抗性测试过程中被对手模型主动暴露出现的困难情况,可以研究者更好理解模型,从而更好的帮助未来研究对算法进行提升改进。
以下为攻击现有跟踪器所生产的对抗性轨迹示例。可以发现一个有趣的对抗示例场景:目标倾向于原地旋转等待而干扰者移动到其周围,并对跟踪器造成遮挡;一段时间后,干扰者远离目标,此时以 DiMP 和 ATOM 为代表的二阶段跟踪器都将跟随干扰者离开,而忽略了真正的目标。
目标与干扰者联合对抗DiMP跟踪器产生的行为
目标与干扰者联合对抗ATOM跟踪器产生的行为
目标与干扰者联合对抗AD-VAT跟踪器产生的行为
5 总 结 本文提出了一种多智能体混合博弈机制,用于训练提升主动目标跟踪模型抗视觉混淆干扰的能力。具体实现中,为了保证训练过程的高效稳定,介绍了一系列行之有效的技术方法,包括干扰者的奖赏函数设计、自动构建多智能体课程、跨模态师徒学习策略、循环注意力机制等。在近真实三维环境中的实验结果证明了上述方法对提升跟踪器性能的有效性。此外,还对跟踪器模型的抗干扰能力、泛化能力等进行了评估分析。同时,也展示了多智能体混合博弈机制在对抗性测试跟踪器模型鲁棒性的应用。
参考文献
[1] Fangwei Zhong, Peng Sun, Wenhan Luo, Tingyun Yan, Yizhou Wang. AD-VAT : An Asymmetric Dueling Mechanism for Learning and Understanding Visual Active Tracking. IEEE-TPAMI. 2021, 43(5): 1467-1482.
[2] Fangwei Zhong, Peng Sun, Wenhan Luo, Tingyun Yan, Yizhou Wang. AD-VAT: An Asym metric Dueling mechanism for learning Visual Active Tracking. ICLR 2019.
[3] Weichao Qiu, Fangwei Zhong, Yi Zhang, Siyuan Qiao, Zihao Xiao, Tae Soo Kim, Yizhou Wang, Alan Yuille. Unrealcv: Virtual worlds for computer vision. ACM MM 2017.
[4] Ross S, Gordon G, Bagnell D. A reduction of imitation learning and structured prediction to no-regret online learning[C]. Proceedings of the Fourteenth International Conference on Artifificial Intelligence and Statistics. 2011: 627-635.