張永梅,呂衛(wèi)豐,馬健喆
(1.北方工業(yè)大學 計算機學院,北京 100144;2.北京華龍通科技有限公司,北京 100083)
近年來,深度學習在計算機視覺領域取得了巨大成功,在目標跟蹤領域,越來越多學者對深度學習類目標跟蹤算法進行了研究[1]。Chao M等[2]使用多層深度特征由粗至細定位目標,取得了良好的跟蹤效果,但由于多次定位目標導致跟蹤速度慢,GPU(graphics processing unit)速度為7.2幀/s,無法適應尺度變化。Lijun W等[3]通過構建雙分支網(wǎng)絡來判定目標位置和尺度,實現(xiàn)了良好的尺度自適應跟蹤,但GPU速度僅為3幀/s。Seunghoon H等[4]將卷積神經(jīng)網(wǎng)絡與支持向量機相結合進行跟蹤(CNN-SVM),利用卷積特征對目標進行判別,由于SVM的分類能力不強,導致該算法跟蹤精度較低。這些深度學習跟蹤方法雖然都有較好的跟蹤精度,但是由于純深度學習方法自身計算量大的缺陷,這些算法無法達到實時效果。與之相比,傳統(tǒng)相關濾波算法在速度方面存在巨大優(yōu)勢,但是相關濾波算法精度對特征好壞存在很大依賴性,Henriques等提出基于HOG特征的核相關濾波器算法[5],跟蹤速度非常快,但精度較差。
針對現(xiàn)有深度學習跟蹤方法速度較慢和傳統(tǒng)特征相關濾波算法精度較差的問題,本文提出一種有效的海上目標跟蹤算法。以VGG-NET-16框架為基礎,在其內(nèi)部結構中加入卷積融合模塊,對各層卷積特征進行深度融合,與相關濾波相結合,并在模型中融入尺度判別器,實現(xiàn)尺度自適應跟蹤,在公開數(shù)據(jù)集上的實驗結果達到81.5%的跟蹤準確率,以及26幀/s的跟蹤速度,是一種綜合性能良好的深度學習跟蹤算法。
由于基于相關濾波器的目標跟蹤算法具有較好的處理速度和魯棒性,引起了相關學者的廣泛關注。相關濾波算法通過密集采樣和頻域變換策略訓練濾波器,計算當前搜索框中目標最大響應值,以確定跟蹤目標的位置[6]。
相關濾波算法的輸入為xM×N×D,x表示提取的特征,其中M和N表示特征大小,D表示空間維度[7]。相關濾波算法通過矩陣數(shù)據(jù)可循環(huán)偏移計算的特性,產(chǎn)生大量樣本用于濾波器訓練,產(chǎn)生的樣本xmn∈{0,1,…,M-1}×{0,1,…,N-1},其中m和n表示樣本偏移量。高斯標簽函數(shù)表達式為
(1)
σ為高斯核的大小。相關濾波算法的最優(yōu)化問題是使回歸函數(shù)f(x)的平方誤差最小,f(x)=ωtx,ωt為濾波器第t幀的參數(shù)[8],即
(2)
通過Fourier變換對式(2)進行求解,得到第d維特征的濾波器參數(shù)為[8]
(3)
(4)
隨著高性能計算設備的快速發(fā)展,出現(xiàn)了越來越多的深層神經(jīng)網(wǎng)絡架構,如AlexNet、ResNet、VGG-Net等,這些深層架構模型可實現(xiàn)端到端的特征提取與識別,性能遠好于傳統(tǒng)識別算法。
卷積層是深層神經(jīng)網(wǎng)絡架構的核心,研究結果表明,在深層神經(jīng)網(wǎng)絡中的每個卷積層所提取的特征都擁有區(qū)別于其它層的特征表達。
VGG-Net是牛津大學計算機視覺組和Google DeepMind公司的研究員一起研發(fā)的深度卷積神經(jīng)網(wǎng)絡。VGGNet通過反復堆疊3x3的小型卷積核和2x2的最大池化層,構筑了16~19層深的神經(jīng)網(wǎng)絡。在錯誤率大大降低的同時擴展性很強,遷移到其它圖像數(shù)據(jù)上的泛化能力很好,而且結構簡單。
本文以VGG-NET-16為例,VGG-NET模型以順序結構進行架構,共5個卷積層模塊,3個全連接層組成[9]。圖1 為VGG-NET-16網(wǎng)絡架構。
圖1 VGG-NET-16網(wǎng)絡架構
圖2為在ImageNet數(shù)據(jù)集上預訓練的VGG-NET-16模型不同卷積層的特征可視化表示,與原圖像進行比較可以看到,低層卷積特征1-2、2-2、3-3具有目標完整的輪廓等細節(jié)表示,高層特征4-3、5-3包含更多的語義信息,可明顯看出目標所在位置。因此,為了將多層卷積特征的特性用于目標跟蹤[10],本文改進VGG-NET-16模型結構,對多層卷積特征進行深度融合,并取得了較好的跟蹤效果。
圖2 VGG-16各層卷積特征
目前基于相關濾波器的目標跟蹤算法主要基于手工設計特征。深度卷積網(wǎng)絡(convolutional neural network,CNN)在目標檢測和識別領域取得了巨大成功,越來越多的研究者開始將卷積特征應用于目標跟蹤。卷積網(wǎng)絡特征具有提取簡單、特征豐富、泛化能力強等優(yōu)點,但也存在明顯不足,如特征維度較高、特征之間存在大量冗余、信噪比低等。為了有利于解決以上問題,本文提出一種基于卷積神經(jīng)網(wǎng)絡特征深度融合的多尺度相關濾波海上目標跟蹤算法。
深度網(wǎng)絡中不同卷積層特征具有不同的語義表達,這一優(yōu)勢使得多層卷積特征融合具有重要意義。利用多層卷積特征進行跟蹤,已有相關學者取得一定成果,但是現(xiàn)有成果并未在深度網(wǎng)絡內(nèi)部進行融合,而是將多層特征輸出進行人工線性加權融合,該方式跟蹤的計算量巨大且存在冗余特征,導致跟蹤速度很慢。針對多層融合的優(yōu)勢和現(xiàn)有融合方式存在的問題,本文提出一種網(wǎng)絡內(nèi)部多層融合的網(wǎng)絡結構,如圖3所示。
圖3 多層特征融合結構設計
根據(jù)VGG-NET-16多層卷積特征可視化分析,本文選取第3-3層、4-3層、5-3層卷積作為融合特征的基礎特征。本文網(wǎng)絡結構設計以VGG-NET-16為基礎,并在原有結構中加入圖3虛線框中所示部分的特征融合結構,其中包括Pooling、Upscale、Concatenation和Convf結構。
對于Pooling和Upscale結構,在VGG-NET-16中Conv3_3、Conv4_3和Conv5_3輸出的特征圖大小分別為輸入圖像大小的1/4、1/8、1/16,對此3層特征進行融合,必須使得3層卷積特征的尺度保持一致,因此,Conv3_3和Conv5_3特征圖需要降維和升維。本文對 Conv3_3輸出的特征圖加入Max pooling結構,Max pooling結構可將Conv3_3特征圖的尺度降維至輸入圖像的1/8;對Conv5_3特征圖的Upscale結構,傳統(tǒng)上采樣算法多是采用插值算法,但插值算法效果較為粗糙,為使上采樣的效果更為精細,本文使用2×2的Deconv層來實現(xiàn)上采樣的效果,將Conv5_3特征圖的尺度變?yōu)樵瓐D像的1/8。
考慮Concatenation和Convf結構,Concatenation層將尺度一致的卷積特征以連接的方式構建為新的多通道特征;Convf層為卷積核大小1×1的卷積層,以三層卷積特征構建的多通道特征存在冗余信息,1×1的卷積核可對Concatenation層產(chǎn)生的冗余特征進行降維。
本文特征融合模塊可實現(xiàn)多層特征的快速融合與降維,得到冗余信息更少的綜合特征。由于遷移學習利用已有的知識來學習新知識,核心是找到已有知識和新知識之間的關系進行建模。根據(jù)已有研究,遷移學習有利于模型參數(shù)的快速收斂,而且能夠提高模型的泛化能力。本文結合遷移學習的思想,使用預訓練的VGG-NET-16模型參數(shù)對除融合模塊之外的模型參數(shù)進行初始化,并固定此部分參數(shù),僅對融合模塊參數(shù)進行訓練。完整的深度卷積融合網(wǎng)絡架構見表1。
表1 深度卷積融合網(wǎng)絡模型
在網(wǎng)絡架構中,融合模塊的Convf層特征融合了Conv3_3、Conv4_3和Conv5_3的特征,使Convf層特征能夠進行更好的語義表達,因此,本文以Convf層特征為基礎構建目標定位濾波器。
在目標跟蹤過程中,對于第t幀圖像,利用本文所設計的深度網(wǎng)絡模型對目標搜索區(qū)域進行特征提取,得到Convf層的卷積特征圖,將特征圖矩陣帶入式(4)的濾波器中,可以得到目標區(qū)域在Convf層的相關響應圖
(5)
在響應圖矩陣fConvf中,最大數(shù)值所在位置的矩陣下標即為當前跟蹤目標的中心位置pt=(xt,yt)
然而早上7點,瑪麗的父母卻發(fā)現(xiàn)孩子倒在衛(wèi)生間里,已經(jīng)停止了呼吸。醫(yī)生對悲傷的父母說,瑪麗可能是倒下時頭部受到撞擊,導致猝死。
pt=(xt,yt)=argmaxfConvf
(6)
在目標跟蹤中,尺度自適應對跟蹤效果至關重要,如果跟蹤框大于目標尺度,則會引入背景干擾,相反,跟蹤框小于目標尺度,則會丟失目標信息。本文利用基于深度卷積融合網(wǎng)絡的定位濾波器獲取目標位置后,通過建立獨立于定位濾波器的尺度濾波器對目標尺度進行判別。
由于本文共設置33個尺度,尺度金字塔特征的提取需要較多運算,為實現(xiàn)快速尺度判別,本文選用方向梯度直方圖(histogram of oriented gradient,HOG)特征作為尺度濾波器的判別特征。HOG特征不僅具有良好的特征表征能力,而且計算復雜度低,有利于實現(xiàn)快速尺度估計。
圖4 多尺度金字塔采樣
因此,在跟蹤第t幀圖像的目標時,按尺度等級對目標區(qū)域進行采樣,提取第t幀目標的多尺度HOG特征Hs(t),結合相關濾波算法計算各尺度的響應值fs
(7)
fs中最大的響應值所代表的尺度,即為當前目標的最優(yōu)尺度估計。
在目標跟蹤過程中,隨著時間的推移,目標可能出現(xiàn)形變、旋轉等變化,而且可能受到光照、背景等條件的干擾,為了適應多種條件下的目標變化,需要對濾波參數(shù)進行實時更新。本文雙濾波器的參數(shù)更新策略為
(8)
(9)
(10)
η為模板學習率,經(jīng)過實驗發(fā)現(xiàn),初始幀的目標模板最為可靠,將當前幀的權重設置偏小時,可有效適應目標的變化。
本文算法示意圖及具體步驟分別如圖5和表2所示。
圖5 本文跟蹤算法
表2 本文跟蹤算法具體步驟
64G內(nèi)存,Windows7操作系統(tǒng),MATLAB 2016a實驗平臺環(huán)境下,采用Matconvnet框架和C++混合編程實現(xiàn)本文算法,并利用GPU提高運算速度。
離線訓練時,為了提高深度融合卷積特征表示的泛化能力和判別能力,同時避免模型過度擬合,本文采用遷移學習思想,使用預訓練的VGG-NET-16模型參數(shù)初始化本文網(wǎng)絡模型的部分參數(shù)并固定,同時以Pascal VOC 2007數(shù)據(jù)集對本文網(wǎng)絡模型進行預訓練。Pascal VOC 2007數(shù)據(jù)集為圖像識別和分類提供了一整套標準化優(yōu)秀數(shù)據(jù)集,包含9963幅帶標注的圖像,廣泛用于目標識別與跟蹤的模型訓練,可有效提高模型的泛化能力。
線上目標跟蹤時,將預訓練網(wǎng)絡的Convf層的輸出作為跟蹤特征表示,定位濾波器和尺度濾波器經(jīng)過多次實驗得到的最優(yōu)參數(shù)設置為學習率η=0.01,正則化因子λ=10-4,高斯核σ=0.1,尺度因子S=1.02,采樣個數(shù)L=33,且保持參數(shù)不變。
在圖6中,跟蹤的目標與浪花融為一體,而且目標尺度不斷變大。圖7中,海上移動目標所處的背景存在相同類型船只的干擾,而且目標尺度在不斷變化。在圖6、圖7中跟蹤框所示的本文算法的跟蹤效果良好,能夠自適應目標尺度變化,排除相似目標的干擾,性能穩(wěn)定。
圖6 海上目標跟蹤實驗一
圖7 海上目標跟蹤實驗二
為了充分驗證本文跟蹤算法的性能,對OTB2015跟蹤數(shù)據(jù)集[12]進行測試分析,選用此數(shù)據(jù)集中的50個視頻序列,包含illumination variation(IV)、out-of-plane rotation(OPR)、scale variation(SV)、occlusion(OCC)、deformation(DEF)、motion blur(MB)、fast motion(FM)、in-plane rotation(IPR)、out of view(OV)、background clutter(BC)、low resolution(LR)[12]11種復雜跟蹤環(huán)境,利用這11種屬性可以從光照、變形、快速變化等方面充分評價算法性能。
對于模型跟蹤效果的定量分析,本文采用一次跟蹤通過評估(one-pass evaluation,OPE)的平均跟蹤成功率和平均跟蹤精確率兩個指標進行定量分析。OPE是指從視頻序列第一幀到最后一幀一次跟蹤完成;跟蹤成功是指當算法預測跟蹤框與目標跟蹤框的重合率大于0.5,表示跟蹤成功。跟蹤成功率是指跟蹤成功幀數(shù)與視頻序列總幀數(shù)的比值。跟蹤精確率是指中心位置誤差小于給定閾值時,跟蹤成功幀數(shù)與視頻序列總幀數(shù)的比值。
為驗證本文的深度卷積融合網(wǎng)絡對卷積特征融合的有效性,本文以單層特征和人工線性融合多層特征設置了3組自對比實驗,見表3。
表3 自對比實驗成功率與精確率
在表3中,Conv5_3和Conv4_3表示以Conv5_3和Conv4_3單層特征進行跟蹤的結果,Conv5_3+Conv4_3表示人工線性融合Conv5_3和Conv4_3層特征的跟蹤結果,convf為本文深度卷積融合網(wǎng)絡Convf層融合特征的跟蹤結果。從表中可以看到,本文深度卷積融合網(wǎng)絡所得到的特征的跟蹤精確率和成功率明顯好于其它特征,Conv5_3+Conv4_3雖然進行了多層特征融合,但人工線性融合受主觀經(jīng)驗因素影響較大,無法高效發(fā)揮多層特征的特性。
為進一步分析本文深度卷積融合的有效性,選取多種算法進行對比實驗,對比算法包括全卷積網(wǎng)絡跟蹤算法(FCNT)、多層卷積線性融合相關濾波跟蹤算法(HCF)、卷積神經(jīng)網(wǎng)絡-支持向量機跟蹤算法(CNN-SVM)、順序訓練卷積網(wǎng)絡跟蹤算法(STCT)[13]、自適應尺度跟蹤算法(SAMF)[14],在這些算法中,F(xiàn)CNT、HCF、CNN-SVM、STCT是與深度學習有關的算法,F(xiàn)CNT和SAMF可以適應尺度變化。這些算法對比實驗結果數(shù)據(jù)均由原論文提供。
圖8、圖9表示包括本文算法在內(nèi)的6種算法對于OTB2015(object tracking benchmark 2015)公開測試集的50組視頻序列的平均精確率曲線和平均成功率曲線,圖9中橫軸為重合率閾值,數(shù)字為曲線下方的面積,代表跟蹤的總體性能,可以看出本文算法的性能最好為0.616,比同樣基于多層卷積特征融合的HCF算法提高了6.5%,在HCF算法中僅對多層卷積特征線性相加,無法充分利用各層特征的特性,而且存在特征冗余,本文方法將特征融合融入了深度網(wǎng)絡的結構中,充分融合各層特征的特性,取得了更好的跟蹤效果。對于跟蹤精度,圖8中橫軸為中心位置誤差,可以看到在誤差為8到20個像素之間時,本文算法的精確率曲線明顯優(yōu)于其它算法,這表明本文算法預測的目標位置距離真實目標位置更近,可用于精度較高的目標跟蹤,綜合精度為0.815。
圖8 6種算法跟蹤精確率曲線
圖9 6種算法跟蹤成功率曲線
為了分析本文跟蹤算法在不同跟蹤環(huán)境下的跟蹤性能,表4、表5分別為多種算法在OTB2015數(shù)據(jù)集的11種復雜跟蹤環(huán)境視頻下的跟蹤成功率和精確率,其中第一列為11種屬性的縮寫,括號內(nèi)為該屬性下包含的視頻個數(shù),第一行為6種算法的縮寫,加粗表示性能最優(yōu),下劃線表示性能次優(yōu)。
由表4、表5可以看到,在OTB 2015數(shù)據(jù)集的跟蹤實驗中,本文算法的跟蹤成功率和精確率在IV、OPR、SV等9種復雜環(huán)境中優(yōu)于其它5種算法,具有良好的跟蹤穩(wěn)定性。其中,在尺度變化(SV)環(huán)境下,相比于SAMF算法的7個尺度,本文算法同時檢測33個尺度,具有更為精細的尺度判別;對于運動模糊(MB)環(huán)境的次優(yōu)性能,本文算法以0.01的學習率更新濾波跟蹤參數(shù),當目標多次發(fā)生運動模糊后,濾波參數(shù)偏移過大導致跟蹤性能有所減弱;在out of view(OV)類的序列中,本文效果略差,對于目標離開視頻窗口時,本文算法缺乏重檢測機制。
表4 6種算法在11種屬性跟蹤視頻的跟蹤精確率
表5 6種算法在11種屬性跟蹤視頻的跟蹤成功率
跟蹤速度對評價跟蹤算法的優(yōu)劣至關重要,表6給出了本文算法與對比算法的跟蹤速度。表6中基于深度學習算法運行平臺為GPU,可以看到,本文跟蹤速率可達到26幀/秒,比其它深度學習算法明顯提升。
表6 6種算法在OTB2015數(shù)據(jù)集的平均跟蹤速度
本文提出一種有效的海上目標跟蹤算法,在現(xiàn)有多層特征網(wǎng)絡的基礎上,加入上下采樣和1×1卷積核結構,重新設計深度網(wǎng)絡模型結構,實現(xiàn)了對多層特征的深度融合,提高了特征表征能力,并用于相關濾波器算法跟蹤過程中的目標定位。對于尺度變化問題,本文使用HOG特征構建尺度濾波器,對目標尺度進行判別。實驗結果表明,本文算法跟蹤精度高,對目標尺度可有效判別,而且跟蹤速度較快。本文算法對于目標消失重現(xiàn)的場景下,不能有效跟蹤,缺乏對重現(xiàn)目標的重檢測機制。因此,如何檢測消失目標,提高算法穩(wěn)定性,將是下一步的研究工作。