1.2 国内外目标跟踪研究现状

1.2.1 国内外目标跟踪方法综述文献概况

目标跟踪技术之所以在近些年发展迅猛,在国际上得益于计算机视觉领域召开的三大学术会议,即IEEE Conference on Computer Vision and Pattern Recognition (CVPR)、International Conference on Computer Vision (ICCV)和European Conference on Computer Vision(ECCV);在国内得益于2002—2012年召开的智能视觉监控学术会议、2007—2017年召开的全国模式识别学术会议(Chinese Conference on Pattern Recognition,CCPR)、2011—2019年召开的视觉与学习青年学者研讨会(Visual and Learning Seminar,VALSE),以及从2018年开始召开的中国模式识别与计算机视觉大会(Chinese Conference on Pattern Recognition and Computer Vision,PRCV)等。相关学术成果的及时报道和交流促进了目标跟踪技术的深入发展。众多研究者对该领域的研究情况进行了归纳与总结(见表1.1)。文献[14,16,17]较全面地总结了目标跟踪的应用领域、研究内容和研究分类,文献[9,10,21]从目标外观建模角度对跟踪效果的不同贡献进行了分析和总结,文献[8,13]对多种跟踪器在不同数据库中的表现进行了分析和总结,文献[15,18]对视觉注意机制、稀疏编码和深度学习等先进理论在目标跟踪中的应用进展进行了总结,文献[20]对弱目标跟踪技术进行了综述。这些研究成果有效地推动和促进了目标跟踪技术的发展。文献[1,16]对深度学习在目标跟踪中的研究成果进行了分类,给出了深度学习在目标跟踪技术中应注意的问题;文献[24]综述了传统手工特征和深度特征在目标跟踪中的区别和优势,为目标外观表示指明了研究方向。

表1.1 目标跟踪技术相关综述

1.2.2 国内外目标跟踪测试数据库概述

目标跟踪技术在过去的20多年内获得了飞速的发展,这与不断出现的目标跟踪测试数据库关系紧密。这些测试数据库包含遮挡、光线变化、尺度变化、运动模糊等挑战性因素,以及针对无人机跟踪目标产生的高速运动测试数据和长时间目标跟踪测试数据库等。数量从早期的50个到当前的366个,从几秒的短视频到几分钟的长视频,目标跟踪数据库越来越精细,同时也越来越具有挑战性,为不同跟踪算法进行测试提供了便利,也使所有研究者的成果有了一个公平的比较平台,极大地促进了目标跟踪技术的发展。具有代表性的数据库信息见表1.2。

表1.2 目标跟踪具有代表性的数据库信息

1.2.3 国内外目标跟踪方法概述

随着计算机技术的不断发展,目标跟踪技术在人工智能、计算机视觉等领域越来越受到关注。在2010年之前,对于目标跟踪技术的研究基本都停留于一些经典的跟踪方法,如均值漂移(Mean Shif,MS)[35]、粒子滤波(Particle Filter,PF)[36-37]和卡尔曼滤波(Kalman Filter,KF)[38-39]、基于特征点匹配的光流[40]等方法。

在2010年左右,依据跟踪过程中外观模型的产生方式,目标跟踪的方法被分为生成式方法和判别式方法。生成式方法专注于搜索与被跟踪对象最相似的区域,包括基于模板的跟踪方法、基于子空间的跟踪方法、稀疏表示等。Adam等人[41]提出基于片段的跟踪(Fragments-based Robust Tracking,FRT),将匹配目标边界框分割为块的集合,并与目标区域的相应块通过移动距离进行比较,找出得分最低的候选,实现了局部遮挡和姿态变化的处理。Oron等人[42]提出局部无序跟踪(Locally Orderless Tracking,LOT),将目标状态分割为超像素,每个超像素都由质心和平均HSV值表示。每个候选的可能性来自它的超像素与目标之间的陆地移动距离(Earth Mover's Distance,EMD),新的目标状态是所有候选的概率的加权和。Ross等人[43]提出增量式的目标跟踪(Incremental Visual Tracking,IVT),在目标强度值模板的基础上,采用增量主成分分析(Principal Component Analysis,PCA)方法计算目标的特征图像。样本的置信度是候选到目标特征子空间的强度特征集的距离,有效地解决了遮挡、形变等问题。Kwon等人[44]提出基于二维仿射群(Tracking on the Affine Group,TAG)的几何跟踪方法,采用了IVT的外观模型,包括目标强度值的PCA增量。通过对主成分分析测量函数进行泰勒展开,得到几何定义的最优重要性函数,进一步提高了跟踪性能。Mei等人[45]提出L1范数最小化(L1-minimization Tracker,L1T)跟踪算法,采用L1范数将过去的外观稀疏优化,使用目标附近采样的强度值作为稀疏表示的基础,单独的、非目标的强度值用作替代基准,通过粒子滤波抽取候选,形成稀疏基的线性组合,并使用L1最小化。接着,Mei等人[46]提出了带有遮挡检测的L1跟踪器(L1 Tracker with Occlusion Detection,L1O)算法,采用L1进行稀疏优化,采用L2最小二乘优化来提高速度,并进一步考虑了遮挡的情况。

随着各种机器学习方法的不断发展,以及其在计算机视觉领域的不断应用,判别式跟踪方法越来越受到人们的喜爱。相比之下,判别的外观模型将目标跟踪作为一个二元分类问题,目标是最大限度地区分对象和非对象区域之间的可分性,且专注于发现目标跟踪的高信息量特征。基于支持向量机(Support Vector Machine,SVM)、多实例学习(Multi Instance Learning,MIL)、朴素贝叶斯及boosting类等的方法,都是目标跟踪领域比较典型的判别式跟踪方法。Avidan等人[47]利用SVM离线训练分类器,并将其与光流相结合进行目标跟踪。Babenko等人[48]在MIL框架中提出了跟踪问题,用于处理在线获取的模糊标记的积极和消极数据,以减少视觉漂移。Godec等人[49]提出了一种基于广义hough变换的跟踪检测方法,将霍夫森林的概念扩展到网络领域,并将基于投票的检测与基于抓取的粗糙分割结合起来,以减少在线学习过程中训练样本的噪声,防止跟踪器漂移。Kalal等人[50]提出了一种长期跟踪(Tracking Learing Dection,TLD)算法,TLD跟踪器具有恢复能力,由3个基本单元组成,包括跟踪预测新的目标位置;目标在当前帧中的定位;通过学习不同的目标变化来校正检测器的误差。

2010年,Bolme等人[51]提出的最小输出误差平方和(Minimum Output Sum of Squared Error,MOSSE)相关滤波器第一次将相关滤波引入目标跟踪领域,开启了基于相关滤波跟踪算法的大门。MOSSE采用灰度特征提取,以669fps的高速运行,在速度上遥遥领先于其他算法,但准确度一般。2012年,Henriques等人[52]在MOSSE算法的基础上,提出了CSK(Circulant Structure of Tracking with Kernels)跟踪器,该算法利用目标外观的循环结构,采用核正则化最小二乘法进行训练,提升了相关滤波的跟踪性能,虽然速度只有MOSSE算法的一半,但是精度却提高了很多。从此,循环矩阵和核技巧在相关滤波的目标跟踪领域被各领域研究者追捧。2014年,Henriques等人[53]提出的KCF(Kernelized Correlation Filters)跟踪器,使用高斯核函数进行跟踪,以区分目标对象及其周围环境,并使用多通道特征的处理,不但可以提取目标物体颜色特征,还可以对目标物体的方向梯度直方图特征[54](Histogram of Oriented Gradient,HOG)进行建模,相比于CSK,其效果显著提升,在KCF的基础上又发展了一系列方法。2014年,Danelljan等人[55]基于MOSSE算法提出判别尺度空间跟踪器(Discriminative Scale Space Tracker,DSST),实现了尺度变化的跟踪。DSST采用了33种不同尺度,牺牲了一些运行时间,实现了较高精度的尺度估计。另外,2014年,Li等人[56]提出尺度自适应多特征(Scale Adaptive with Multiple Features Tracker,SAMF),在KCF的基础上将CN(Color Names)特征和HOG特征串联,并且加入尺度估计,共有7种尺度变换,并对遮挡具有一定的抵抗能力。2015年,Ma等人[57]提出LCT(Long-term Correlation Tracking),在DSST的基础上增加了置信度滤波器,借鉴了TLD中的随机蕨分类器,使用PSR来判断目标被遮挡情况,以实现长时间目标跟踪,提高了准确度,但速度却不容乐观。2015年,Danelljan等人[58]提出基于空间区域正则化的相关滤波器(Spatially Regularized Correlation Filter,SRDCF),是在DCF的基础上针对边界效应提出的解决方案,提出了空间正则化DCF;在跟踪过程中,正则化分量削弱了背景信息,为位于目标区域之外的系数分配更高的值,以此抑制背景。2017年,Mueller等人[59]提出上下文感知相关滤波器跟踪(Context-Aware Correlation Filter Tracking,CACF)框架,将全局上下文信息集成到SAMF中作为基线跟踪器。Kiani等人[60]利用背景补丁,提出了背景感知相关滤波器(Background Aware Correlation Filters,BACF)跟踪器。

自2013年以来,深度学习方法在目标跟踪领域的使用逐渐展开,很多新提出的算法在性能上超越了传统方法。Wang等人[61]提出深度学习跟踪器(Deep Learning Tracker,DLT),第一次将深度学习运用于单目标跟踪,使用离线预训练结合在线微调的方法来解决目标跟踪中训练样本不足的问题,取得了较突出的效果。随着深度学习的发展,考虑到底层的特征不能完全实现对物体的表征,一个顺理成章的思路,即使用深度特征将相关滤波的低层特征替换掉出现了。2015年,Danelljan等人[62]在由相关滤波发展来的跟踪算法SRDCF的基础上,将原算法中的HOG特征替换为卷积神经网络(Convolutional Neural Networks,CNN)中单层卷积层的深度特征,跟踪效果有了很大的提升。而Ma等人[63]在KCF的基础上提出HCF(Hierarchical Convolutional Features),使用VGG网络[64]的3个不同层的输出作为特征,使用双线性插值将深度特征调整为相同的大小,每个CNN特征都使用一个独立的自适应CF,并计算响应图。为了减少单分辨率特征图的影响,2016年,Danelljan等人[65]提出了C-COT(Continous Convalution Operators for Tracking),融合了不同分辨率的特征图,使用连续卷积取得了较好的跟踪效果,但其较复杂的计算使得跟踪速度只有1帧/秒,难以实现实时跟踪。2017年,Danelljan等人[66]改进了C-COT方法,提出了ECO(Efficient Convolution Operators for Tracking),构造了一组更小的滤波器,以便使用矩阵分解来快速捕获目标表示,并使用高斯混合模型(Gaussian Mixed Model,GMM)来表示不同的目标外观;ECO相对于C-COT来说,其跟踪速度有很大的提高。2018年,Li等人[67]提出基于空域与时域正则化的相关滤波器(Spatial-Temporal Regularized Correlation Filters,STRCF)算法,在SRDCF中引入了时间正则化,并引入了时空正则化CF,采用被动攻击学习方法对单图像SRDCF进行时间正则化,相比于SRDCF,其准确率有显著提升。

随着大量人力物力的投入,大量可用的标注数据不断产生,基于深度学习的目标跟踪技术得到了快速发展,更多基于深度卷积神经网络的目标跟踪算法也不断被提出。2016年,Bertinetto等人[68]提出了基于深度学习的全卷积孪生网络(Fully-Convolutional Siamese,SiamFC),采用相似学习方法,将样本(目标)图像与相同大小的候选图像进行比较,解决了跟踪问题,如果两幅图像相同,则获得高分。SiamFC利用卷积嵌入函数和相关层集成目标和搜索块的深度特征图,在响应图中以最大值估计目标位置。2017年,Song等人[69]提出的卷积残差学习(Convolutional RESidual Learning Scheme for Visual Tracking,CREST)算法首次使用残差网络进行目标跟踪,利用残差学习[70]适应目标外观,并在不同尺度上搜索补丁进行尺度估计。