[Extensive Reading]SOT:SiameseFC

2021-07-19 14:50:49 浏览数 (1)

简介

SiameseFC:Fully-Convolutional Siamese Networks for Object Tracking SiameseFC:Fully首次有效的将CNN应用到SOT任务,可以说SiameseFC:Fully之于SOT,不亚于RCNN之于object detection; SiameseFC:Fully之前的SOT任务一般使用简单模型在线训练,SiameseFC:Fully的训练是离线的,所以效果和效率能很好的平衡; SiameseFC:Fully是全卷积的结构,所以理论上可以接收任何尺寸的输入图像; SiameseFC:Fully在VOT-15上当时达到SOTA,但是训练是在ILSVRC object detection from video challenge上,因为VOT,ALOV和OTB加起来视频也不到500个;

原理

本质上,SiamFC是在计算模版z在待跟踪图像x上的各个子区域的相似度,相似度大的即为跟踪结果

模版z和待跟踪图像x都首先通过同一个模型φ,分别输出fz:[6,6,128]和fx:[22,22,128]的特征图,所以这个方法是Siamese Networks; 最后fz作为核在fx作卷积,输出y:[17,17,1],因为核只有一个,所以y的channel为1; [6,6,128]的kernel比较大,但是size(22,22)不大,kernel也只有一个,所以不影响效率; fz作为核在fx作卷积的过程(*)就是相关滤波; 从另一个角度理解,图像处理,模式识别中有一种古老的匹配算法:模版匹配,SiamFC的inference过程和模版匹配很相似; SiameseFC:Fully用于计算的不再是原图和原始模版,而是提取后的特征; 如果相似度的计算是相乘后相加,配合滑动窗遍历的过程,就是卷积。 SiameseFC:Fully的主干网络类似于AlexNet,或者是是在AlexNet的基础上修改的,no padding;

最后的相关滤波操作,也是no padding的。

问题

SiamFC的下采样倍率是固定的,在上图中最后输出特征图[17,17,1]上每一个点,只能按照15的倍率向原图映射; 所以SiamFC的bbox的大小一直不会变,视频中的目标由远及近等情况的时候,会在图像中变大,但bbox框并不会变大; 这对预测精度影响很大,为了解决这个问题,SiamFC简单粗暴的选择了多尺度预测,即SiameseFC:Fully-3s(scale=3)和SiameseFC:Fully-5s(scale=5)。

0 人点赞