亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于卷積特征深度融合的海上目標跟蹤算法

2020-02-08 06:59:10張永梅呂衛(wèi)豐馬健喆

計算機工程與設計 2020年1期

張永梅，呂衛(wèi)豐，馬健喆

(1.北方工業(yè)大學計算機學院，北京 100144；2.北京華龍通科技有限公司，北京 100083)

0 引言

近年來，深度學習在計算機視覺領域取得了巨大成功，在目標跟蹤領域，越來越多學者對深度學習類目標跟蹤算法進行了研究[1]。Chao M等[2]使用多層深度特征由粗至細定位目標，取得了良好的跟蹤效果，但由于多次定位目標導致跟蹤速度慢，GPU(graphics processing unit)速度為7.2幀/s，無法適應尺度變化。Lijun W等[3]通過構建雙分支網(wǎng)絡來判定目標位置和尺度，實現(xiàn)了良好的尺度自適應跟蹤，但GPU速度僅為3幀/s。Seunghoon H等[4]將卷積神經(jīng)網(wǎng)絡與支持向量機相結合進行跟蹤(CNN-SVM)，利用卷積特征對目標進行判別，由于SVM的分類能力不強，導致該算法跟蹤精度較低。這些深度學習跟蹤方法雖然都有較好的跟蹤精度，但是由于純深度學習方法自身計算量大的缺陷，這些算法無法達到實時效果。與之相比，傳統(tǒng)相關濾波算法在速度方面存在巨大優(yōu)勢，但是相關濾波算法精度對特征好壞存在很大依賴性，Henriques等提出基于HOG特征的核相關濾波器算法[5]，跟蹤速度非常快，但精度較差。

針對現(xiàn)有深度學習跟蹤方法速度較慢和傳統(tǒng)特征相關濾波算法精度較差的問題，本文提出一種有效的海上目標跟蹤算法。以VGG-NET-16框架為基礎，在其內(nèi)部結構中加入卷積融合模塊，對各層卷積特征進行深度融合，與相關濾波相結合，并在模型中融入尺度判別器，實現(xiàn)尺度自適應跟蹤，在公開數(shù)據(jù)集上的實驗結果達到81.5%的跟蹤準確率，以及26幀/s的跟蹤速度，是一種綜合性能良好的深度學習跟蹤算法。

1 相關方法

1.1 相關濾波算法

由于基于相關濾波器的目標跟蹤算法具有較好的處理速度和魯棒性，引起了相關學者的廣泛關注。相關濾波算法通過密集采樣和頻域變換策略訓練濾波器，計算當前搜索框中目標最大響應值，以確定跟蹤目標的位置[6]。

相關濾波算法的輸入為xM×N×D，x表示提取的特征，其中M和N表示特征大小，D表示空間維度[7]。相關濾波算法通過矩陣數(shù)據(jù)可循環(huán)偏移計算的特性，產(chǎn)生大量樣本用于濾波器訓練，產(chǎn)生的樣本xmn∈{0,1,…,M-1}×{0,1,…,N-1}，其中m和n表示樣本偏移量。高斯標簽函數(shù)表達式為

(1)

σ為高斯核的大小。相關濾波算法的最優(yōu)化問題是使回歸函數(shù)f(x)的平方誤差最小，f(x)=ωtx，ωt為濾波器第t幀的參數(shù)[8]，即

(2)

通過Fourier變換對式(2)進行求解，得到第d維特征的濾波器參數(shù)為[8]

(3)

(4)

1.2 多層卷積特征可視化分析

隨著高性能計算設備的快速發(fā)展，出現(xiàn)了越來越多的深層神經(jīng)網(wǎng)絡架構，如AlexNet、ResNet、VGG-Net等，這些深層架構模型可實現(xiàn)端到端的特征提取與識別，性能遠好于傳統(tǒng)識別算法。

卷積層是深層神經(jīng)網(wǎng)絡架構的核心，研究結果表明，在深層神經(jīng)網(wǎng)絡中的每個卷積層所提取的特征都擁有區(qū)別于其它層的特征表達。

VGG-Net是牛津大學計算機視覺組和Google DeepMind公司的研究員一起研發(fā)的深度卷積神經(jīng)網(wǎng)絡。VGGNet通過反復堆疊3x3的小型卷積核和2x2的最大池化層，構筑了16～19層深的神經(jīng)網(wǎng)絡。在錯誤率大大降低的同時擴展性很強，遷移到其它圖像數(shù)據(jù)上的泛化能力很好，而且結構簡單。

本文以VGG-NET-16為例，VGG-NET模型以順序結構進行架構，共5個卷積層模塊，3個全連接層組成[9]。圖1 為VGG-NET-16網(wǎng)絡架構。

圖1 VGG-NET-16網(wǎng)絡架構

圖2為在ImageNet數(shù)據(jù)集上預訓練的VGG-NET-16模型不同卷積層的特征可視化表示，與原圖像進行比較可以看到，低層卷積特征1-2、2-2、3-3具有目標完整的輪廓等細節(jié)表示，高層特征4-3、5-3包含更多的語義信息，可明顯看出目標所在位置。因此，為了將多層卷積特征的特性用于目標跟蹤[10]，本文改進VGG-NET-16模型結構，對多層卷積特征進行深度融合，并取得了較好的跟蹤效果。

圖2 VGG-16各層卷積特征

2 基于卷積神經(jīng)網(wǎng)絡特征深度融合的多尺度相關濾波海上目標跟蹤算法

目前基于相關濾波器的目標跟蹤算法主要基于手工設計特征。深度卷積網(wǎng)絡(convolutional neural network，CNN)在目標檢測和識別領域取得了巨大成功，越來越多的研究者開始將卷積特征應用于目標跟蹤。卷積網(wǎng)絡特征具有提取簡單、特征豐富、泛化能力強等優(yōu)點，但也存在明顯不足，如特征維度較高、特征之間存在大量冗余、信噪比低等。為了有利于解決以上問題，本文提出一種基于卷積神經(jīng)網(wǎng)絡特征深度融合的多尺度相關濾波海上目標跟蹤算法。

2.1 卷積神經(jīng)網(wǎng)絡特征深度融合的模型設計

深度網(wǎng)絡中不同卷積層特征具有不同的語義表達，這一優(yōu)勢使得多層卷積特征融合具有重要意義。利用多層卷積特征進行跟蹤，已有相關學者取得一定成果，但是現(xiàn)有成果并未在深度網(wǎng)絡內(nèi)部進行融合，而是將多層特征輸出進行人工線性加權融合，該方式跟蹤的計算量巨大且存在冗余特征，導致跟蹤速度很慢。針對多層融合的優(yōu)勢和現(xiàn)有融合方式存在的問題，本文提出一種網(wǎng)絡內(nèi)部多層融合的網(wǎng)絡結構，如圖3所示。

圖3 多層特征融合結構設計

根據(jù)VGG-NET-16多層卷積特征可視化分析，本文選取第3-3層、4-3層、5-3層卷積作為融合特征的基礎特征。本文網(wǎng)絡結構設計以VGG-NET-16為基礎，并在原有結構中加入圖3虛線框中所示部分的特征融合結構，其中包括Pooling、Upscale、Concatenation和Convf結構。

對于Pooling和Upscale結構，在VGG-NET-16中Conv3_3、Conv4_3和Conv5_3輸出的特征圖大小分別為輸入圖像大小的1/4、1/8、1/16，對此3層特征進行融合，必須使得3層卷積特征的尺度保持一致，因此，Conv3_3和Conv5_3特征圖需要降維和升維。本文對 Conv3_3輸出的特征圖加入Max pooling結構，Max pooling結構可將Conv3_3特征圖的尺度降維至輸入圖像的1/8；對Conv5_3特征圖的Upscale結構，傳統(tǒng)上采樣算法多是采用插值算法，但插值算法效果較為粗糙，為使上采樣的效果更為精細，本文使用2×2的Deconv層來實現(xiàn)上采樣的效果，將Conv5_3特征圖的尺度變?yōu)樵瓐D像的1/8。

考慮Concatenation和Convf結構，Concatenation層將尺度一致的卷積特征以連接的方式構建為新的多通道特征；Convf層為卷積核大小1×1的卷積層，以三層卷積特征構建的多通道特征存在冗余信息，1×1的卷積核可對Concatenation層產(chǎn)生的冗余特征進行降維。

本文特征融合模塊可實現(xiàn)多層特征的快速融合與降維，得到冗余信息更少的綜合特征。由于遷移學習利用已有的知識來學習新知識，核心是找到已有知識和新知識之間的關系進行建模。根據(jù)已有研究，遷移學習有利于模型參數(shù)的快速收斂，而且能夠提高模型的泛化能力。本文結合遷移學習的思想，使用預訓練的VGG-NET-16模型參數(shù)對除融合模塊之外的模型參數(shù)進行初始化，并固定此部分參數(shù)，僅對融合模塊參數(shù)進行訓練。完整的深度卷積融合網(wǎng)絡架構見表1。

表1 深度卷積融合網(wǎng)絡模型

2.2 目標定位濾波器

在網(wǎng)絡架構中，融合模塊的Convf層特征融合了Conv3_3、Conv4_3和Conv5_3的特征，使Convf層特征能夠進行更好的語義表達，因此，本文以Convf層特征為基礎構建目標定位濾波器。

在目標跟蹤過程中，對于第t幀圖像，利用本文所設計的深度網(wǎng)絡模型對目標搜索區(qū)域進行特征提取，得到Convf層的卷積特征圖，將特征圖矩陣帶入式(4)的濾波器中，可以得到目標區(qū)域在Convf層的相關響應圖

(5)

在響應圖矩陣fConvf中，最大數(shù)值所在位置的矩陣下標即為當前跟蹤目標的中心位置pt=(xt,yt)

然而早上7點，瑪麗的父母卻發(fā)現(xiàn)孩子倒在衛(wèi)生間里，已經(jīng)停止了呼吸。醫(yī)生對悲傷的父母說，瑪麗可能是倒下時頭部受到撞擊，導致猝死。

pt=(xt,yt)=argmaxfConvf

(6)

2.3 多尺度自適應濾波器

在目標跟蹤中，尺度自適應對跟蹤效果至關重要，如果跟蹤框大于目標尺度，則會引入背景干擾，相反，跟蹤框小于目標尺度，則會丟失目標信息。本文利用基于深度卷積融合網(wǎng)絡的定位濾波器獲取目標位置后，通過建立獨立于定位濾波器的尺度濾波器對目標尺度進行判別。

由于本文共設置33個尺度，尺度金字塔特征的提取需要較多運算，為實現(xiàn)快速尺度判別，本文選用方向梯度直方圖(histogram of oriented gradient，HOG)特征作為尺度濾波器的判別特征。HOG特征不僅具有良好的特征表征能力，而且計算復雜度低，有利于實現(xiàn)快速尺度估計。

圖4 多尺度金字塔采樣

因此，在跟蹤第t幀圖像的目標時，按尺度等級對目標區(qū)域進行采樣，提取第t幀目標的多尺度HOG特征Hs(t)，結合相關濾波算法計算各尺度的響應值fs

(7)

fs中最大的響應值所代表的尺度，即為當前目標的最優(yōu)尺度估計。

2.4 模型更新

在目標跟蹤過程中，隨著時間的推移，目標可能出現(xiàn)形變、旋轉等變化，而且可能受到光照、背景等條件的干擾，為了適應多種條件下的目標變化，需要對濾波參數(shù)進行實時更新。本文雙濾波器的參數(shù)更新策略為

(8)

(9)

(10)

η為模板學習率，經(jīng)過實驗發(fā)現(xiàn)，初始幀的目標模板最為可靠，將當前幀的權重設置偏小時，可有效適應目標的變化。

2.5 算法流程

本文算法示意圖及具體步驟分別如圖5和表2所示。

3 實驗結果及分析

3.1 實驗環(huán)境及參數(shù)設置

圖5 本文跟蹤算法

表2 本文跟蹤算法具體步驟

64G內(nèi)存，Windows7操作系統(tǒng)，MATLAB 2016a實驗平臺環(huán)境下，采用Matconvnet框架和C++混合編程實現(xiàn)本文算法，并利用GPU提高運算速度。

離線訓練時，為了提高深度融合卷積特征表示的泛化能力和判別能力，同時避免模型過度擬合，本文采用遷移學習思想，使用預訓練的VGG-NET-16模型參數(shù)初始化本文網(wǎng)絡模型的部分參數(shù)并固定，同時以Pascal VOC 2007數(shù)據(jù)集對本文網(wǎng)絡模型進行預訓練。Pascal VOC 2007數(shù)據(jù)集為圖像識別和分類提供了一整套標準化優(yōu)秀數(shù)據(jù)集，包含9963幅帶標注的圖像，廣泛用于目標識別與跟蹤的模型訓練，可有效提高模型的泛化能力。

線上目標跟蹤時，將預訓練網(wǎng)絡的Convf層的輸出作為跟蹤特征表示，定位濾波器和尺度濾波器經(jīng)過多次實驗得到的最優(yōu)參數(shù)設置為學習率η=0.01，正則化因子λ=10-4，高斯核σ=0.1，尺度因子S=1.02，采樣個數(shù)L=33，且保持參數(shù)不變。

3.2 海上移動目標跟蹤效果

在圖6中，跟蹤的目標與浪花融為一體，而且目標尺度不斷變大。圖7中，海上移動目標所處的背景存在相同類型船只的干擾，而且目標尺度在不斷變化。在圖6、圖7中跟蹤框所示的本文算法的跟蹤效果良好，能夠自適應目標尺度變化，排除相似目標的干擾，性能穩(wěn)定。

圖6 海上目標跟蹤實驗一

圖7 海上目標跟蹤實驗二

3.3 算法評價

為了充分驗證本文跟蹤算法的性能，對OTB2015跟蹤數(shù)據(jù)集[12]進行測試分析，選用此數(shù)據(jù)集中的50個視頻序列，包含illumination variation(IV)、out-of-plane rotation(OPR)、scale variation(SV)、occlusion(OCC)、deformation(DEF)、motion blur(MB)、fast motion(FM)、in-plane rotation(IPR)、out of view(OV)、background clutter(BC)、low resolution(LR)[12]11種復雜跟蹤環(huán)境，利用這11種屬性可以從光照、變形、快速變化等方面充分評價算法性能。

對于模型跟蹤效果的定量分析，本文采用一次跟蹤通過評估(one-pass evaluation，OPE)的平均跟蹤成功率和平均跟蹤精確率兩個指標進行定量分析。OPE是指從視頻序列第一幀到最后一幀一次跟蹤完成；跟蹤成功是指當算法預測跟蹤框與目標跟蹤框的重合率大于0.5，表示跟蹤成功。跟蹤成功率是指跟蹤成功幀數(shù)與視頻序列總幀數(shù)的比值。跟蹤精確率是指中心位置誤差小于給定閾值時，跟蹤成功幀數(shù)與視頻序列總幀數(shù)的比值。

為驗證本文的深度卷積融合網(wǎng)絡對卷積特征融合的有效性，本文以單層特征和人工線性融合多層特征設置了3組自對比實驗，見表3。

表3 自對比實驗成功率與精確率

在表3中，Conv5_3和Conv4_3表示以Conv5_3和Conv4_3單層特征進行跟蹤的結果，Conv5_3+Conv4_3表示人工線性融合Conv5_3和Conv4_3層特征的跟蹤結果，convf為本文深度卷積融合網(wǎng)絡Convf層融合特征的跟蹤結果。從表中可以看到，本文深度卷積融合網(wǎng)絡所得到的特征的跟蹤精確率和成功率明顯好于其它特征，Conv5_3+Conv4_3雖然進行了多層特征融合，但人工線性融合受主觀經(jīng)驗因素影響較大，無法高效發(fā)揮多層特征的特性。

為進一步分析本文深度卷積融合的有效性，選取多種算法進行對比實驗，對比算法包括全卷積網(wǎng)絡跟蹤算法(FCNT)、多層卷積線性融合相關濾波跟蹤算法(HCF)、卷積神經(jīng)網(wǎng)絡-支持向量機跟蹤算法(CNN-SVM)、順序訓練卷積網(wǎng)絡跟蹤算法(STCT)[13]、自適應尺度跟蹤算法(SAMF)[14]，在這些算法中，F(xiàn)CNT、HCF、CNN-SVM、STCT是與深度學習有關的算法，F(xiàn)CNT和SAMF可以適應尺度變化。這些算法對比實驗結果數(shù)據(jù)均由原論文提供。

圖8、圖9表示包括本文算法在內(nèi)的6種算法對于OTB2015(object tracking benchmark 2015)公開測試集的50組視頻序列的平均精確率曲線和平均成功率曲線，圖9中橫軸為重合率閾值，數(shù)字為曲線下方的面積，代表跟蹤的總體性能，可以看出本文算法的性能最好為0.616，比同樣基于多層卷積特征融合的HCF算法提高了6.5%，在HCF算法中僅對多層卷積特征線性相加，無法充分利用各層特征的特性，而且存在特征冗余，本文方法將特征融合融入了深度網(wǎng)絡的結構中，充分融合各層特征的特性，取得了更好的跟蹤效果。對于跟蹤精度，圖8中橫軸為中心位置誤差，可以看到在誤差為8到20個像素之間時，本文算法的精確率曲線明顯優(yōu)于其它算法，這表明本文算法預測的目標位置距離真實目標位置更近，可用于精度較高的目標跟蹤，綜合精度為0.815。

圖8 6種算法跟蹤精確率曲線

圖9 6種算法跟蹤成功率曲線

為了分析本文跟蹤算法在不同跟蹤環(huán)境下的跟蹤性能，表4、表5分別為多種算法在OTB2015數(shù)據(jù)集的11種復雜跟蹤環(huán)境視頻下的跟蹤成功率和精確率，其中第一列為11種屬性的縮寫，括號內(nèi)為該屬性下包含的視頻個數(shù)，第一行為6種算法的縮寫，加粗表示性能最優(yōu)，下劃線表示性能次優(yōu)。

由表4、表5可以看到，在OTB 2015數(shù)據(jù)集的跟蹤實驗中，本文算法的跟蹤成功率和精確率在IV、OPR、SV等9種復雜環(huán)境中優(yōu)于其它5種算法，具有良好的跟蹤穩(wěn)定性。其中，在尺度變化(SV)環(huán)境下，相比于SAMF算法的7個尺度，本文算法同時檢測33個尺度，具有更為精細的尺度判別；對于運動模糊(MB)環(huán)境的次優(yōu)性能，本文算法以0.01的學習率更新濾波跟蹤參數(shù)，當目標多次發(fā)生運動模糊后，濾波參數(shù)偏移過大導致跟蹤性能有所減弱；在out of view(OV)類的序列中，本文效果略差，對于目標離開視頻窗口時，本文算法缺乏重檢測機制。

表4 6種算法在11種屬性跟蹤視頻的跟蹤精確率

表5 6種算法在11種屬性跟蹤視頻的跟蹤成功率

跟蹤速度對評價跟蹤算法的優(yōu)劣至關重要，表6給出了本文算法與對比算法的跟蹤速度。表6中基于深度學習算法運行平臺為GPU，可以看到，本文跟蹤速率可達到26幀/秒，比其它深度學習算法明顯提升。

表6 6種算法在OTB2015數(shù)據(jù)集的平均跟蹤速度

4 結束語

本文提出一種有效的海上目標跟蹤算法，在現(xiàn)有多層特征網(wǎng)絡的基礎上，加入上下采樣和1×1卷積核結構，重新設計深度網(wǎng)絡模型結構，實現(xiàn)了對多層特征的深度融合，提高了特征表征能力，并用于相關濾波器算法跟蹤過程中的目標定位。對于尺度變化問題，本文使用HOG特征構建尺度濾波器，對目標尺度進行判別。實驗結果表明，本文算法跟蹤精度高，對目標尺度可有效判別，而且跟蹤速度較快。本文算法對于目標消失重現(xiàn)的場景下，不能有效跟蹤，缺乏對重現(xiàn)目標的重檢測機制。因此，如何檢測消失目標，提高算法穩(wěn)定性，將是下一步的研究工作。