论文阅读:MixFormer: End-to-End Tracking with Iterative Mixed Attention

视觉目标跟踪任务

视觉目标跟踪的主要目的是:通过对摄像头捕获到的图像序列进行分析,计算出运动目标在每一帧图像中的位置;然后,根据运动目标相关的特征值,将图像序列中连续帧的同一运动目标关联起来,得到每帧图像中目标的运动参数以及相邻帧间目标的对应关系,从而得到目标完整的运动轨迹。

主要研究方向

目标跟踪是计算机视觉领域的一个重要问题,目前广泛应用在体育赛事转播、安防监控、无人机、无人车、机器人等领域。研究任务包括:

  • 单目标跟踪:给定一个目标,追踪这个目标的位置。
  • 多目标跟踪:追踪多个目标的位置。
  • Person Re-ID:行人重识别,是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。广泛被认为是一个图像检索的子问题,即给定一个监控行人图像,检索跨设备下的该行人图像。旨在弥补固定的摄像头的视觉局限,并可与行人检测/行人跟踪技术相结合。
  • MTMCT:多目标多摄像头跟踪 (Multi-target Multi-camera Tracking),跟踪多个摄像头拍摄的多个人。
  • 姿态跟踪:追踪人的姿态。

目标跟踪主要难点

现有的算法虽然能一定程度上完成对运动目标的跟踪,但仍存在诸多问题,主要包括:

  • 目前的跟踪算法大多基于某一种特征集合对目标进行描述,不够完备。
  • 提取的特征中,跟踪目标和背景特征存在耦合。当背景与目标相似或背景发生很大变化时,跟踪算法往往失效。
  • 很难长时间对运动轨迹进行准确预测。当遮挡频繁发生时,跟踪算法同样会失效。

单目标跟踪基本流程

给定某视频序列初始帧的目标大小与位置,预测后续帧中该目标的大小与位置。基本任务流程:

输入初始化目标框 $\rightarrow$ 在下一帧中生成候选框 $\rightarrow$ 提取这些候选框的特征 $\rightarrow$ 对候选框评分 $\rightarrow$ 找到得分最高的候选框作为预测的目标

从以上流程,可以概括出目标跟踪包含4个主要的内容:

  • 窗口生成:生成候选样本,候选窗口的质量直接决定了跟踪系统的表现。

  • 特征提取:提取窗口的特征表示。

  • 目标信息整合:将候选窗口信息和目标信息进行整合,计算评分等等操作。

  • 定位框估计:采用最大值抑制NMS等方法生成最终的定位框。

整体架构

模型基本包含两个部分:由多层MAM (Mixed Attention Module) 组成的 backbone、一个提供目标定位框的定位头。和其他将特征提取和信息整合步骤解耦的模型相比,这种模型更加紧凑整齐。

基于MAM的Backbone

采用multi-stage的架构。每个stage由N个MAM和MLP层构成。

更详细地说,给定T个模版 (第一个是target,T-1个是在线模版),大小 $T\times H_t\times W_t\times 3$ 和一个搜索区域,大小 $H_s\times W_s\times 3$。首先使用步长为4,kernel_size为7的卷积Token Embedding层,将他们映射成有**交叠(overlapped)**的patch embedding。然后把patch embedding展开并concat,得到 $(T\times \frac{H_t}{4}\times\frac{W_t}{4}+\frac{H_s}{4}\times\frac{W_s}{4})\times C$ 大小的混合token序列。再把这些token输入到MAM模块中,进行特征融合和特征信息整合。

基于Corner/Query的定位头

基于Corner

受STARK$^{[2]}$启发,使用全卷积corner定位头直接估计追踪目标的bounding box。只使用数个 Conv-BN-ReLU层去分别预测bounding box左上角和右下角的位置。但MixFormer使用的全卷积头比起STARK中同时依赖encoder和decoder的头,结构更加简单。

基于Query

受DETR$^{[3]}$启发,使用一个简单的基于query的定位头。这个定位头能充分利用MAM backbone提供的信息,整个模型也就转变成纯基于transformer的框架。详细地说,他们在最后一个Stage给添加了一个regression token,用这个token作为anchor去整合目标和搜索区域的信息。最后,使用三层全连接网络构成的FFN去直接回归bounding box的坐标。

核心-Mixed Attention Module模块

Mixed Attention Module (MAM) 是MixFormer工作的核心。目的是为了提取目标和搜索区域的特征,同时将它们之间的交互信息整合在一起。

MAM的输入是来自于target template和search area的token,它在这些token上进行注意力机制操作。

用$q_t,k_t,v_t$分别表示target template中提取的patch embedding映射后得到的query, key, value,同样地,对搜索区域,用$q_s,k_s,v_s$表示,那么混合attention可以被定义为:
$$
\begin{aligned}
&k_m=Concat(k_t,k_s), v_m=Concat(v_t,v_s),\
&\text{Attention}_t=\text{Softmax}(\frac{q_tk_m^T}{\sqrt{d}})v_m,\
&\text{Attention}_s=\text{Softmax}(\frac{q_sk_m^T}{\sqrt{d}})v_m,
\end{aligned}
$$
这里$d$表示key的维度。$\text{Attention}_t$和$\text{Attention}_s$分别表示target和search的特征映射。

因为tracking的目的是从search region里搜索出目标,所以对$\text{Attention}_t$来说,完全没必要和完整的$k_m$做注意力计算,只要计算self-attention就行了。

所以最后的计算公式为:
$$
\begin{aligned}
&\text{Attention}_t=\text{Softmax}(\frac{q_tk_t^T}{\sqrt{d}})v_t,\
&\text{Attention}_s=\text{Softmax}(\frac{q_sk_m^T}{\sqrt{d}})v_m.
\end{aligned}
$$

训练和推理

训练

首先用CVT$^{[4]}$模型去预训练MAM模块,然后再fine-tune整个框架。使用的Loss function为:
$$
L_{loc}=\lambda_{L1} L_1(B_i,\hat{B}i)+ \lambda{giou}L_{giou}(B_i,\hat{B}_i),
$$

这里$\lambda_{L1}=5$, $\lambda_{giou}=2$,是两个loss的权重。$B_i$是bounding box的GT,$\hat{B_i}$是预测的bounding box。

Template Online Update

基于模板匹配的Tracking算法的基础思想是:将要跟踪的目标选定并保存作为模板,然后在Tracking的每一帧中找和这个目标最相似的。因此质量差的模板会导致模型追踪性能下降。因此,MixFormer引入了一个分数预测模块 (Score Prediction Module)。

它由两个注意力模块和一个三层感知机(MLP)构成。

首先,将可学习的score token作为query来搜索ROI tokens。然后score token关注所有的初始化target token来隐式将挖掘到的target和最开始的target对比。最后,使用MLP层进行评分,预测分小于0.5则对应template评价为负。

在训练完backbone之后训练SPM,使用标准交叉熵作为loss:
$$
L_{score}=y_i\log(p_i)+(1-y_i)\log(1-p_i)
$$
这里$y_i$是GT的label,$p_i$是预测的评分(confidence score)。

Inference

推断过程中,提供包含一个静态template和$N$个动态在线template作为MixFormer的输入,来生成目标bounding box和confidence score。然后到更新间隔的时候选取分数最高的样本更新在线模板。

实验

可视化结果

Reference

  • [1] 视觉单目标跟踪任务概述

  • [2] Bin Yan, Houwen Peng, Jianlong Fu, Dong Wang, and Huchuan Lu. Learning spatio-temporal transformer for vi-sual tracking. InProceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), 2021.

  • [3] Carion N, Massa F, Synnaeve G, et al. End-to-end object detection with transformers[C]//European conference on computer vision. Springer, Cham, 2020: 213-229.

  • [4] Wu H, Xiao B, Codella N, et al. Cvt: Introducing convolutions to vision transformers[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021: 22-31.


论文阅读:MixFormer: End-to-End Tracking with Iterative Mixed Attention
https://pandintelli.github.io/2022/03/29/MixFormer/
作者
Pand
发布于
2022年3月29日
许可协议