在線目標分類及自適應(yīng)模板更新的孿生網(wǎng)絡(luò)跟蹤算法

2021-08-28 10:08:24陳志旺張忠新宋娟雷海鵬彭勇

通信學(xué)報 2021年8期

關(guān)鍵詞：分類特征

陳志旺，張忠新，宋娟，雷海鵬，彭勇

（1.燕山大學(xué)工業(yè)計算機控制工程河北省重點實驗室，河北秦皇島 066004；2.國網(wǎng)黑龍江省電力有限公司佳木斯供電公司，黑龍江佳木斯 154002；3.燕山大學(xué)電氣工程學(xué)院，河北秦皇島 066004）

1 引言

視覺對象跟蹤是計算機視覺任務(wù)的一個主要分支，具有重要的理論研究意義和應(yīng)用價值，在車輛視覺導(dǎo)航系統(tǒng)、智能人機交互、智能視頻監(jiān)控系統(tǒng)和智能交通等方面具有廣泛應(yīng)用。簡而言之，視覺對象跟蹤旨在給定任意感興趣目標在某一視頻圖像序列的第一幀中位置和形狀信息的前提下，在后續(xù)幀中預(yù)測被跟蹤目標的實際位置和形狀大小。

解決視覺對象跟蹤問題的方法主要可以分為兩類：生成式跟蹤算法和判別式跟蹤算法。生成式跟蹤算法在當前幀中對目標區(qū)域進行建模，在下一幀中尋找與模型匹配最相似的區(qū)域，從而確定該區(qū)域為預(yù)測目標位置。判別式跟蹤算法將目標跟蹤問題轉(zhuǎn)化為一個關(guān)于目標和背景的二分類問題，通過訓(xùn)練一個分類器以將目標與背景區(qū)分開，從而找到預(yù)測目標位置。近年來，隨著深度學(xué)習(xí)的發(fā)展，由于基于深度學(xué)習(xí)的判別式跟蹤算法通過深度卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到的特征具有很強的辨別性并且具有穩(wěn)健的效果，因此判別式跟蹤算法逐漸成為視覺對象跟蹤領(lǐng)域中的主流方法。

判別式跟蹤算法中具有代表性的是基于相關(guān)濾波類跟蹤算法。其首先在第一幀中提取模板目標圖像特征作為濾波器模板；然后利用后續(xù)幀的圖像與濾波器模板做相關(guān)性卷積，計算后續(xù)幀圖像不同部分的響應(yīng)值；最后將具有最大響應(yīng)值對應(yīng)的部分作為跟蹤的結(jié)果，使目標跟蹤算法在跟蹤精度和速度上均獲得了顯著提升。其中，比較典型的算法包括最小均方誤差輸出和（MOSSE,minimum output sum of squared error）濾波器[1]、基于核相關(guān)濾波器（KCF,kernelized correlation filter）[2]的目標跟蹤算法、空間正則化的判別式相關(guān)濾波器（SRDCF,spatially regularized discriminative correlation filter）跟蹤算法[3]、基于有效卷積運算目標跟蹤（ECO,efficient convolution operator for tracking）算法[4]。

除了相關(guān)濾波類跟蹤算法，隨著深度學(xué)習(xí)技術(shù)的發(fā)展，基于孿生網(wǎng)絡(luò)的跟蹤算法由于其在保證實時速度運行的前提下在各種基準跟蹤數(shù)據(jù)集測試中處于領(lǐng)先地位而受到了廣泛關(guān)注。最先提出的基于孿生實例搜索的目標跟蹤（SINT,Siamese instance search for tracking）[5]算法和基于全卷積孿生網(wǎng)絡(luò)的目標跟蹤（SiamFC,fully-convolutional Siamese networks for object tracking）[6]算法使用孿生網(wǎng)絡(luò)學(xué)習(xí)目標對象和候選圖像塊之間的相似性度量，從而將跟蹤建模為在整個圖像上搜索目標對象的問題，并由此衍生出一系列基于孿生網(wǎng)絡(luò)的跟蹤算法，例如，在SiamFC 算法的基礎(chǔ)上引入?yún)^(qū)域提議網(wǎng)絡(luò)（RPN,region proposal network）的基于區(qū)域提議網(wǎng)絡(luò)的目標跟蹤（SiamRPN,high performance visual tracking with Siamese region proposal network）[7]算法，它由用于前景-背景估計的分類網(wǎng)絡(luò)和用于錨點邊界框修正的回歸網(wǎng)絡(luò)（即學(xué)習(xí)與預(yù)定義錨點邊界框的2D 坐標偏移量）組成，允許使用可變寬高比的邊界框估計目標位置和目標尺寸，從而獲取一個更加準確的邊界框。隨后，基于干擾物感知的孿生網(wǎng)絡(luò)跟蹤（DaSiamRPN,distractor-aware Siamese network for visual object tracking）[8]算法進一步引入了干擾物感知模塊，并提高了模型的辨別能力?；诟詈透鼘捑W(wǎng)絡(luò)的孿生網(wǎng)絡(luò)跟蹤（SiamDW,deeper and wider Siamese network for real-time visual tracking）[9]算法分別在SiamFC、SiamRPN 的基礎(chǔ)上，通過在更深的殘差網(wǎng)絡(luò)（ResNet）、更寬的Inception 網(wǎng)絡(luò)中引入殘差塊內(nèi)部裁剪（CIR,cropping-inside residual）單元，進一步提高了跟蹤的準確性和穩(wěn)健性?；谏疃染W(wǎng)絡(luò)的孿生網(wǎng)絡(luò)跟蹤（SiamRPN++,evolution of Siamese visual tracking with very deep network）[10]算法在SiamRPN 的基礎(chǔ)上，使用更深的特征提取網(wǎng)絡(luò)ResNet50 代替AlexNet，并且加入多層融合的策略，使用逐通道互相關(guān)操作代替SiamFC 中簡單的互相關(guān)操作，從而帶來更高的跟蹤精度。能夠進行目標分割的在線孿生網(wǎng)絡(luò)跟蹤（SiamMask,fast online object tracking and segmentation:a unifying approach）[11]算法將目標跟蹤和視頻語義分割統(tǒng)一起來，在進行目標跟蹤的同時，對被跟蹤目標生成一個二進制掩模，進而得到一個自適應(yīng)掩模的預(yù)測邊界框，大幅提高了跟蹤的準確性。

雖然上述基于孿生網(wǎng)絡(luò)的跟蹤算法均取得了當時最優(yōu)的性能，由于其均只使用離線訓(xùn)練的方法，因此存在一定的局限性。1) 基于孿生網(wǎng)絡(luò)的跟蹤算法忽略了跟蹤過程中的背景信息，導(dǎo)致其在面臨相似性干擾的情況下判別能力較弱；2) 基于相關(guān)濾波器的跟蹤算法[11]通過使用手工制作的特征和預(yù)先訓(xùn)練得到的用于對象分類的深層特征來學(xué)習(xí)對象外觀的在線模型，相對而言，在基于孿生網(wǎng)絡(luò)的跟蹤算法中使用在線學(xué)習(xí)機制的思想受到的關(guān)注較少；3) 基于孿生網(wǎng)絡(luò)的跟蹤算法僅使用第一幀作為模板幀，或者僅通過移動加權(quán)平均法更新模板幀，導(dǎo)致其在被跟蹤目標發(fā)生巨大形變、旋轉(zhuǎn)和運動模糊的情況下跟蹤性能變差，在進行目標回歸時，穩(wěn)健性較差，容易跟丟目標。另外，基于孿生網(wǎng)絡(luò)的目標跟蹤算法使用互相關(guān)性特征圖來度量模板幀特征和檢測幀局部特征的相似性，從而確定跟蹤目標的位置，理想的互相關(guān)得分圖的尖峰位置即為被跟蹤目標的實際位置。通過離線訓(xùn)練學(xué)習(xí)到好的特征表征進而產(chǎn)生一個好的互相關(guān)得分圖，使跟蹤算法獲得更好的跟蹤效果，這也是SiamFC 算法真正有效的原因，而一些基于孿生網(wǎng)絡(luò)的跟蹤算法背離了這個初衷，離線訓(xùn)練學(xué)習(xí)到一個扭曲的特征圖，因此限制了其跟蹤性能的提高。

2 算法描述

本文算法以SiamRPN++算法為基礎(chǔ)，引入一種在線更新機制。該在線更新機制包括具有判別性的在線目標分類模塊和有效的自適應(yīng)模板更新模塊，提出在線目標分類及自適應(yīng)模板更新的孿生網(wǎng)絡(luò)跟蹤算法。整體框架如圖1 所示，主要包括特征提取模塊、SiamRPN 模塊、分類互相關(guān)特征圖監(jiān)督模塊、在線目標分類模塊和自適應(yīng)模板更新模塊。

2.1 特征提取模塊和SiamRPN 模塊

本文將SiamRPN++算法作為基準算法，特征提取模塊仍然沿用SiamRPN++使用的、修改后的ResNet50 網(wǎng)絡(luò)，SiamRPN 模塊的使用也與SiamRPN++算法保持一致?；趯\生網(wǎng)絡(luò)的目標跟蹤算法使用互相關(guān)操作將目標跟蹤問題表述為模板匹配問題，通過學(xué)習(xí)一個嵌入式空間φ(·)（如圖1中的特征提取模塊所示）來計算待搜索區(qū)域中能夠最佳匹配目標模板的位置，如式(1)所示。

其中，分支φ(z)為學(xué)習(xí)目標模板幀z的特征表示，分支φ(x)為學(xué)習(xí)檢測幀x的特征表示，并且這2 個分支φ(·)的網(wǎng)絡(luò)參數(shù)權(quán)重是共享的；b為表征相似性度量值的偏置量，*為互相關(guān)操作，M表示mathing階段。

在式(1)基礎(chǔ)上，SiamRPN++算法使用區(qū)域候選網(wǎng)絡(luò)頭（如圖1 中RPN_head 所示）中的hcls[·] 和hreg[·]分別獨立地預(yù)測目標位置和回歸預(yù)測邊界框，如式(2)所示。

圖1 在線目標分類及自適應(yīng)模板更新的孿生網(wǎng)絡(luò)跟蹤算法整體框架

其中，φcls(·) 和φreg(·) 等同于式(1)中的φ(·)，分別用于學(xué)習(xí)目標模板幀z和檢測幀x的特征表示；均為4 維向量，存儲了各個預(yù)定義錨點框的目標/背景得分信息，存儲了相對于預(yù)定義錨點框中心點位置的坐標偏移量以及預(yù)定義錨點框與真實目標框的寬高比例信息。本文采用和 SiamRPN[7]、SiamRPN++[10]一致的候選邊界框篩選策略，得到更加可靠的目標/背景得分信息，根據(jù)使用非極大值抑制（NMS,non maximum suppression）找到得分最高的預(yù)定義錨點框（如圖1 的跟蹤結(jié)果1 中邊界框所示），從中選擇得到對應(yīng)錨點框中心點的坐標偏移量(dxreg,dyreg)以及該錨點框與真實目標框的寬高比例信息(dwreg,dhreg)，在此基礎(chǔ)上，對得分最高的預(yù)定義錨點框進行邊界框坐標回歸，如式(3)所示，進而得到最終的目標預(yù)測邊界框（如圖1 的跟蹤結(jié)果2 中邊界框所示）。

2.2 分類互相關(guān)特征圖監(jiān)督模塊

基于孿生網(wǎng)絡(luò)的目標跟蹤算法使用互相關(guān)特征圖來度量模板幀特征和檢測幀局部特征的相似性，從而確定跟蹤目標的位置，理想的互相關(guān)特征圖的尖峰位置即為被跟蹤目標的實際位置，這也是SiamFC 真正有效的原因。SiamRPN++中的區(qū)域提議網(wǎng)絡(luò)可以看作一個修正網(wǎng)絡(luò)，因此，如果通過網(wǎng)絡(luò)可以學(xué)習(xí)到一個好的互相關(guān)特征圖，那么經(jīng)過RPN 模塊修正就會得到一個更好的響應(yīng)得分圖。互相關(guān)特征圖與RPN 特征圖如圖2 所示。由于SiamRPN++采用多層融合的策略，對經(jīng)過3 個RPN 模塊的輸出值附加相應(yīng)的權(quán)重值，從圖2 可以發(fā)現(xiàn)，SiamRPN++中互相關(guān)特征圖（如圖2 中互相關(guān)特征圖所示）與經(jīng)過RPN 模塊修正之后的得分圖（如圖2 中RPN 特征圖所示）并不是簡單的正相關(guān)關(guān)系，這與3 個RPN 模塊對應(yīng)的權(quán)重值有關(guān)。在訓(xùn)練過程中，這3 個權(quán)重值也需要通過訓(xùn)練學(xué)習(xí)得到，并且這3 個權(quán)重值的學(xué)習(xí)變化會使整個跟蹤框架中的參數(shù)學(xué)習(xí)問題變得復(fù)雜。因此，本文舍棄了多層融合的策略，直接選用來自特征提取模塊的單層輸出特征，受ta-SiamRPN++的啟發(fā)，layer4 的輸出值對跟蹤效果影響較大[12]，因此本文只選用layer4。3.3.1 節(jié)實驗證明，使用單層輸出特征取得了比SiamRPN++使用多層輸出特征更好的跟蹤效果。為了得到理想的互相關(guān)特征圖，本文采用對互相關(guān)特征圖進行監(jiān)督的策略，從而有利于克服相似干擾。

圖2 互相關(guān)特征圖與RPN 特征圖對比

2.2.1 監(jiān)督標簽的設(shè)定

設(shè)監(jiān)督標簽與SiamRPN 模塊設(shè)定的真實標簽保持一致，定義為

G(i,j)=1 代表該位置至少存在一個錨點框與真實邊界框的交并比（IoU,intersection over union）值大于0.6，即判別該位置為正；G(i,j)=0代表該位置所有錨點框與真實錨點框的IoU 值均小于 0.6，即判別該位置為負。IoU=，其中，Banchor為錨點的邊界框，Bgroundtruth為目標的真實邊界框。

2.2.2 L-softmax 損失函數(shù)

交叉熵損失和歸一化指數(shù)函數(shù)（softmax）是卷積神經(jīng)網(wǎng)絡(luò)（CNN,convolutional neural network）中最常用的計算機視覺數(shù)學(xué)工具之一，而大裕度歸一化指數(shù)損失函數(shù)（L-softmax,large-margin softmax loss）[13]是一種改進的softmax 分類方法，可以提高類間可分離性和類內(nèi)緊湊性。此外，L-softmax 不僅可以調(diào)整所需的裕度，而且可以避免過度擬合。因此使用L-softmax 損失函數(shù)代替?zhèn)鹘y(tǒng)的交叉熵損失函數(shù)。

定義第i個輸入特征xi對應(yīng)標簽值yi，傳統(tǒng)的交叉熵損失為

其中，N為樣本集合的大小；fj為類別得分f中的第j個元素值，j∈{0,…,J}，J為類別的數(shù)量，本文用于二分類判別任務(wù)，J=1，j∈{0,1}；標簽值yi∈{0,1}。在目標分類任務(wù)中，f通常為全連接層W的輸出值，所以，其中，Wj為W的第j列，fyi為第i個輸入特征xi對應(yīng)標簽值yi處的類別得分值。由于fj為Wj和xi的內(nèi)積，因此，其中，θj∈[0,π]為Wj與xi之間的矢量夾角，由此可得

跟蹤問題實際解決的是跟蹤目標的判別問題（目標為正樣本，非目標為負樣本），因此可以將該問題歸結(jié)為二分類問題，假設(shè)樣本xi為正樣本，原始的softmax 函數(shù)中需滿足，其中W+和W-分別為將樣本xi訓(xùn)練為正、負樣本學(xué)習(xí)得到的權(quán)重）。

如圖3 所示，L-softmax 為了使正負樣本之間存在一個決策裕度，即，其中，θ+∈[0,π/m]；m為與決策裕度密切相關(guān)的整數(shù)。所以必然滿足

圖3 2 種決策邊界對比說明

式(7)中的分類標準是對樣本xi進行正確分類予以更嚴格的要求，從而為正樣本與負樣本之間產(chǎn)生更嚴格的決策邊界。

引入決策裕度后，L-softmax 損失函數(shù)定義為

其中，m越大，決策裕度越大，目標函數(shù)的學(xué)習(xí)越難；應(yīng)該單調(diào)遞減并且。為了簡化前向和反向傳播的計算，文獻[13]將定義為

可以看出，L-softmax 在原來的基礎(chǔ)上附加滿足更嚴格的約束條件式(7)，對輸出預(yù)測值fyi進行優(yōu)化。在訓(xùn)練過程中，L-softmax 存在難以收斂的問題[13]，采用一種學(xué)習(xí)策略使式(12)成立。

由于實際的跟蹤問題采用與目標檢測任務(wù)不同的框架，因此需要對L-softmax 進行如下調(diào)整。將檢測分支得到的特征圖φcls(x) 作為式(8)中的xi，將模板分支得到的特征圖φcls(z)作為式(8)中的Wj，則對于L-softmax，Wj、xi都已經(jīng)是固定的參數(shù)，而Wj、xi也是特征提取網(wǎng)絡(luò)F、調(diào)整（adjust）層、卷積（conv）層學(xué)習(xí)后的結(jié)果，所以最終是通過前面各個卷積層的學(xué)習(xí)，使Wj、xi滿足一定的目標或者條件，即式(5)最小原則。

從圖2(e)可以發(fā)現(xiàn)，對互相關(guān)特征圖進行監(jiān)督后，互相關(guān)特征圖中的目標區(qū)域具有較高的響應(yīng)，并且在此基礎(chǔ)上，使用RPN 模塊進行修正，得到了一個更好的響應(yīng)得分圖；濾除了目標周圍的相似干擾；在VOT2018 數(shù)據(jù)集上取得了比SiamRPN++更好的效果。

2.3 在線目標分類模塊

在線目標分類模塊主要包括3 個子模塊，如圖4 所示。

圖4 在線分類模塊

1) 壓縮子模塊，用于減少來自特征提取模塊的特征通道數(shù)，使用1×1 的卷積層加以實現(xiàn)，從而使其更適用于分類任務(wù)，也減少了相應(yīng)的計算量。

2) 注意力子模塊，用于解決原始特征在空間位置和各個通道之間的數(shù)據(jù)失衡問題，以提取特定于當前目標的特征。經(jīng)過離線訓(xùn)練得到卷積特征φcls(x)并且在實際的跟蹤過程中固定卷積層φcls的權(quán)重參數(shù)，提取得到的卷積特征φcls(x)并不針對某個特定的被跟蹤對象，而是提取目標的通用特征。直接使用原始特征，相對于正樣本（即目標區(qū)域）而言，負樣本（即圖像中的背景區(qū)域）所占比重大于正樣本所占比重，導(dǎo)致所有負樣本置信度得分的擬合將主導(dǎo)在線學(xué)習(xí)；另外，只有很少的卷積核在構(gòu)造每個特征模式或?qū)ο箢悇e時發(fā)揮重要作用[14]。原始特征在空間位置和各個通道之間的數(shù)據(jù)失衡都會降低模型的判別能力，基于以上問題，本文引入雙重注意力機制（空間注意力機制和通道注意力機制，如圖4 中sζ、cζ所示）[15]，sζ代表對每個二維空間位置平均池化后，由softmax 操作形成的二維空間注意力特征圖，用于特征圖位置權(quán)重的獲取；cζ代表對每個通道進行平均池化之后經(jīng)由2 個全連接層（包含激活函數(shù)）形成的通道注意力特征圖，用于特征圖通道權(quán)重的獲取，最終提取到特定于當前目標的特征，從而將目標和搜索區(qū)域中的其他干擾物區(qū)分開。

3) 濾波器子模塊，用于在線學(xué)習(xí)實際跟蹤過程中的濾波器參數(shù)更新，使用卷積核大小為4×4 的卷積層加以實現(xiàn)，以抑制在線跟蹤過程中的背景噪聲。Da-SiamRPN[8]中指出，即使提取到能對干擾物感知（特定于當前目標）的特征，基于孿生網(wǎng)絡(luò)的跟蹤算法在跟蹤過程中也容易被相似物體干擾。產(chǎn)生這種現(xiàn)象的一個更深層次的原因在于，沒有執(zhí)行在線權(quán)重更新來抑制在線跟蹤過程中存在的背景噪聲。因此，本文引入在線更新的濾波器子模塊，以抑制在線跟蹤過程中的背景噪聲。

圖4 中的壓縮子模塊和注意力子模塊主要用于提取對當前被跟蹤目標的特定特征，因此只需要在給定圖像序列的第一幀中進行參數(shù)更新，在后續(xù)的跟蹤過程中該參數(shù)保持不變以確保跟蹤的穩(wěn)定性。利用提取得到的特定于當前目標的特征來優(yōu)化后續(xù)幀中的濾波器子模塊，以抑制跟蹤過程中的背景噪聲。3.3.2 節(jié)實驗驗證了在線分類模塊的有效性。

在線分類模塊的參數(shù)求解可看成一個優(yōu)化問題，可通過求解以下優(yōu)化目標來獲取。

針對式(13)的在線學(xué)習(xí)優(yōu)化問題，本文沿用ATOM[16]中的牛頓-高斯下降法代替?zhèn)鹘y(tǒng)的隨機梯度下降（SGD,stochastic gradient descent）作為優(yōu)化策略，將式(13)重新定義為殘差向量的平方范數(shù)形式

獲得fC后，使用三次插值將其調(diào)整到與SiamRPN 模塊中的分類得分相同的空間大小，然后，通過加權(quán)求和將它們?nèi)诤显谝黄?，得出在線目標分類得分，可以表示為

其中，βC為2 種分類分數(shù)的加權(quán)系數(shù)值。

2.4 自適應(yīng)模板更新模塊

2.4.1 經(jīng)典的模板更新策略

一些跟蹤方法（如Da-SiamRPN[8]、SiamMargin[17]）使用一種簡單的移動平均策略基于給定的跟蹤樣本更新目標外觀模型，目標模板作為滑動平均值進行更新，權(quán)重隨著時間的增長呈指數(shù)衰減。選擇合適的指數(shù)權(quán)重，可以得出用于更新模板的后續(xù)遞推式為

其中，i為第i幀圖像；Ti為使用第i幀計算得到的新模板幀；為累積模板；η為更新率，通常設(shè)置為一個固定的較小值（如η=0.01），假設(shè)對象的外觀在連續(xù)幀中平穩(wěn)且持續(xù)地變化。在基于孿生網(wǎng)絡(luò)的跟蹤算法中，T是由特征提取網(wǎng)絡(luò)從特定幀中得到的目標外觀模板。盡管原始的SiamFC 跟蹤算法[6]和一系列基于孿生網(wǎng)絡(luò)的跟蹤算法[7,9,11]不執(zhí)行任何目標模板更新，但較新的孿生網(wǎng)絡(luò)跟蹤器[8,17]已采用式(16)來更新目標模板信息。

雖然模板平均方法為整合新信息提供了一種簡單的方法，在大多數(shù)跟蹤情況下，這種更新機制是不夠的，存在以下幾個缺點。1) 目標對象可能會因變形、快速運動或遮擋而出現(xiàn)外觀變化，從而使更新的條件不同，但它為每個圖像序列應(yīng)用了恒定的更新速率。即使在同一視頻中，目標模板上所需的更新也可能在不同時間動態(tài)變化。2) 固定的更新策略還導(dǎo)致對象模板更集中于最近的幀，而遺忘了被跟蹤目標的歷史外觀信息。3) 沿目標模板的所有空間維度（包括通道維度）的更新是恒定的。被跟蹤目標面臨部分遮擋情況下，僅需要更新模板中的一部分，這種更新策略并不有效。4) 跟蹤算法無法在目標漂移后重新跟蹤目標。部分原因是它無法訪問目標的原始外觀模板T0，而外觀模板T0是唯一給定目標信息真實可靠的模板。目標模板更新后的特征僅限于先前幀目標外觀模板和當前幀目標外觀模板的簡單線性組合，其嚴重限制了更新機制的靈活性，這在目標進行復(fù)雜外觀變化時很重要，因此考慮更復(fù)雜的組合功能有望改善跟蹤結(jié)果。

2.4.2 自適應(yīng)模板更新策略

為了解決上述移動平均策略出現(xiàn)的問題，本文通過學(xué)習(xí)通用的函數(shù)φ來更新目標模板。

圖5 展示了在基于孿生網(wǎng)絡(luò)的跟蹤算法上使用UpdateNet 來自適應(yīng)更新目標模板信息的整體框架。本文使用圖1 中的φcls提取得到目標區(qū)域的深層特征信息。首先，根據(jù)第一幀給定的目標真實邊界框信息提取得到第一幀目標模板特征。為了獲得當前幀的模板特征Ti，使用之前所有幀的累積模板特征為上一幀中UpdateNet 的輸出值）來預(yù)測第i幀中目標位置（如圖5 中虛線箭頭所示），并且提取得到目標區(qū)域的特征信息Ti（如圖5 中最下部實線箭頭所示）。將第一幀目標模板特征、當前幀的模板特征Ti、上一幀的累積模板特征級聯(lián)并送入UpdateNet。對于第一幀，將和Ti均設(shè)置為。UpdateNet 唯一使用的真實信息是第一幀給定的目標邊界框信息，其他所有UpdateNet 的輸入全部基于跟蹤算法預(yù)測得到的目標邊界框信息?？梢哉f，是指導(dǎo)更新UpdateNet 最可靠的信息來源，因此，采用殘差學(xué)習(xí)策略，通過從向UpdateNet 的輸出添加跳連接的方式使UpdateNet學(xué)習(xí)如何修正真實目標模板特征，并將其應(yīng)用于當前幀的跟蹤。具體的UpdateNet 的訓(xùn)練細節(jié)可以參考文獻[18]和3.2.2 節(jié)中關(guān)于UpdateNet 的具體參數(shù)設(shè)置。

圖5 UpdateNet 的整體框架

UpdateNet 通過整合當前幀給出的信息來更新上一幀累積得到的目標模板。因此，基于當前幀目標模板和累積目標模板之間的差異，UpdateNet能夠自適應(yīng)當前幀的特定更新需求。此外，UpdateNet 還考慮了初始目標模板，從而提高了抵抗目標模板漂移的穩(wěn)健性。

3 實驗

本節(jié)采用VOT2018[19]、VOT2019[17]作為實驗數(shù)據(jù)集。VOT2018 包含60 個具有精細人工標注的目標跟蹤圖像序列，含有攝像機運動、光照變化、運動變化、尺寸變化、遮擋5 種跟蹤難點。VOT2019是通過替換VOT2018 中跟蹤難度較小的20%目標跟蹤圖像生成得到的，跟蹤難度更高。

3.1 實驗平臺

本節(jié)實驗均在GPU 為Nvidia GTX 1080ti 的臺式機上進行，操作系統(tǒng)為64 位Ubuntu16.04，處理器為Intel core(TM)i7-8700K，主頻為3.70 GHz，內(nèi)存為 32 GB，編程環(huán)境為使用 PyTorch 的Python3.7。

3.2 實驗參數(shù)設(shè)置

實際應(yīng)用過程中，對于不同的數(shù)據(jù)集需要采用不同的參數(shù)設(shè)置才能獲取更大的性能增益。因此對不同的數(shù)據(jù)集應(yīng)設(shè)置不同的算法參數(shù)，為了提高算法應(yīng)用適應(yīng)性，本節(jié)給出了具體的超參數(shù)搜索算法。

3.2.1 超參數(shù)設(shè)置

針對數(shù)據(jù)集VOT2018 和VOT2019，文獻[10]中對penalty_k（記為κ）、window_influence（記為αwi）、scale_lr（記為αLR）設(shè)置了4 組不同的超參數(shù)。

文獻[10]采用網(wǎng)格搜索的超參數(shù)搜索方法。本文在超參數(shù)搜索的過程中發(fā)現(xiàn)，這種方法會增加搜索算法的時間復(fù)雜度（其時間復(fù)雜度為 (3)O n），因而采取一種更加簡單的超參數(shù)搜索方式，即控制變量法，具體過程如下：固定3 個參數(shù)中的2 個，確定剩余的一個參數(shù)的搜索區(qū)間，在相應(yīng)的數(shù)據(jù)集上進行評估，找到性能表現(xiàn)最好的一個參數(shù)，再依次按照同樣的方法尋優(yōu)另外2 個參數(shù)，最終確定在當前數(shù)據(jù)集上表現(xiàn)最好的一組參數(shù)。這種尋優(yōu)方式的時間復(fù)雜度為O(n)，相比網(wǎng)格搜索法，其時間復(fù)雜度大大降低，并且取得了和網(wǎng)格搜索法一致的最優(yōu)參數(shù)組合結(jié)果。本文對于數(shù)據(jù)集VOT2018、VOT2019 設(shè)置尋優(yōu)區(qū)間如下：κ為[0.01,0.62)，αwi為[0.01,0.62)，αLR為[0.01,0.62)，尋優(yōu)步長為0.01。最終找到的效果最好的參數(shù)設(shè)置如下：對于VOT2018 數(shù)據(jù)集，設(shè)置κ=0.05，αwi=0.38，αLR=0.44；對于VOT2019 數(shù)據(jù)集，設(shè)置κ=0.44，αwi=0.26，αLR=0.44。

3.2.2 其他參數(shù)設(shè)置

互相關(guān)特征圖監(jiān)督模塊的參數(shù)設(shè)置如下：m為4；λ的初始值為 100，衰減系數(shù)為 0.99，即λN+1=0.99×λN，其中N為迭代次數(shù)。

在線目標分類模塊中的參數(shù)設(shè)置如下：優(yōu)化訓(xùn)練樣本池的大小M=250，訓(xùn)練樣本池容量達到250后，用最新得到的幀替換最舊的歷史幀進而添加到訓(xùn)練樣本池中，其中訓(xùn)練樣本權(quán)重γj的更新學(xué)習(xí)率為0.01，當在鄰近目標周圍檢測到干擾后學(xué)習(xí)率為0.02；在線目標分類模塊中的濾波器子模塊每10 幀更新一次；為了有效地融合分類得分，令βC=0.8[15]。

自適應(yīng)模板更新模塊的參數(shù)設(shè)置主要涉及UpdateNet 離線訓(xùn)練的參數(shù)設(shè)置。參考文獻[18]使用LaSOT標準數(shù)據(jù)集[20]中的20個訓(xùn)練視頻圖像序列，采用三階段訓(xùn)練的方式，在第一階段，在同一視頻圖像序列中，根據(jù)真實坐標邊界框裁剪得到和，運行本文提出的跟蹤算法（加入分類互相關(guān)特征圖監(jiān)督模塊和在線目標分類模塊，不加UpdateNet，下同）得到每一幀的坐標邊界框，并根據(jù)其裁剪得到Ti，使；在第二和第三階段，使用上一階段訓(xùn)練好的UpdateNet 權(quán)重，在同一視頻圖像序列中，運行本文跟蹤算法得到每一幀的預(yù)測邊界框，并根據(jù)其裁剪得到Ti，將Ti一起送入UpdateNet中，得到，其中。UpdateNet 由兩層卷積神經(jīng)網(wǎng)絡(luò)組成，包括一個1×1×1536×192的卷積層，經(jīng)過ReLU 激活以及一個1×1×192×512的卷積層；在第一階段，權(quán)重使用Xavier 初始化，在每個epoch，學(xué)習(xí)率從10-6呈對數(shù)下降到10-7；此后，使用上一階段訓(xùn)練得到的最好模型參數(shù)進行初始化。在訓(xùn)練過程中發(fā)現(xiàn)，在訓(xùn)練的第二和第三階段，學(xué)習(xí)率會不同程度地影響實際的訓(xùn)練效果，因而嘗試使用不同學(xué)習(xí)率的對數(shù)衰減區(qū)間，依次在VOT2018 數(shù)據(jù)集上進行測試，進而尋找到最優(yōu)的學(xué)習(xí)率衰減區(qū)間。在第二階段，區(qū)間依次設(shè)定為[10-5,10-6]、[10-6,10-7]、[10-7,10-8]、[10-8,10-9]、[10-9,10-10]、[10-10,10-11]，通過測試發(fā)現(xiàn)，學(xué)習(xí)率的對數(shù)衰減區(qū)間設(shè)置為[10-9,10-10]效果最好。在第三階段，區(qū)間依次設(shè)定為[10-7,10-8]、[10-8,10-9]、[10-9,10-10]、[10-10,10-11]、[10-11,10-12]、[10-12,10-13]，通過測試發(fā)現(xiàn)，學(xué)習(xí)率的對數(shù)衰減區(qū)間設(shè)置為[10-11,10-12]效果最好；每個訓(xùn)練階段使用批次大小為64 的樣本訓(xùn)練50 個epoch 的模型，使用動量為0.9、權(quán)重衰減為0.000 5 的隨機梯度下降法進行訓(xùn)練。其他參數(shù)與文獻[10]中的參數(shù)設(shè)置相同。

3.3 對比實驗

本節(jié)在VOT2018 標準數(shù)據(jù)集上進行對比實驗，評估互相關(guān)特征圖監(jiān)督模塊、在線目標分類模塊、自適應(yīng)模板更新模塊的作用。采用期望重疊率（EAO,expected average overlap）、準確性A、穩(wěn)健性R、跟丟次數(shù)（LN,lost number）、跟蹤速度VFPS這5 個評價指標對改進的算法進行評估。

3.3.1 使用互相關(guān)特征圖監(jiān)督模塊

將SiamRPN++作為基準算法，在此基礎(chǔ)上，只使用特征提取網(wǎng)絡(luò)中l(wèi)ayer4 的輸出特征，并且加入分類監(jiān)督模塊（CS module,classification supervision module）對互相關(guān)特征圖進行監(jiān)督。只使用單層特征，在VOT2018 數(shù)據(jù)集上取得了比SiamRPN++更好的跟蹤結(jié)果，結(jié)果如表1 所示。

表1 在VOT2018 數(shù)據(jù)集上實驗結(jié)果對比

從表1 可以發(fā)現(xiàn)，通過對互相關(guān)特征圖進行監(jiān)督后在VOT2018 數(shù)據(jù)集上帶來4.1%的EAO 提升。主要原因是算法跟蹤穩(wěn)健性提升，與SiamRPN++算法相比，本文算法跟丟次數(shù)減少了8 次。值得注意的是，這里僅僅使用了特征提取網(wǎng)絡(luò)中的layer4的特征，卻取得了比SiamRPN++中l(wèi)ayer3、layer4、layer5 三層特征融合策略更好的結(jié)果，并且算法跟蹤速度明顯提升。

3.3.2 使用在線目標分類模塊

在SiamRPN++算法的基礎(chǔ)上，加入在線分類模塊（OC module,online classification module），包括通道壓縮子模塊、注意力子模塊、在線濾波器子模塊，實驗結(jié)果如表2 所示。在VOT2018 數(shù)據(jù)集上，EAO 提升到0.417，大幅減少了跟丟次數(shù)，從SiamRPN++的50 次減少到32 次；跟蹤精度也明顯提高，從0.601 提升到0.611，提高了1%。在3.3.1 節(jié)實驗的基礎(chǔ)上，加入在線分類模塊在VOT2018 數(shù)據(jù)集上EAO 提升到0.463，比基準算法SiamRPN++提升了11.8%；跟丟次數(shù)也進一步減少，從50次減少到30 次，取得了和分類監(jiān)督模塊近似的效果。

表2 在VOT2018 數(shù)據(jù)集上實驗結(jié)果對比

進一步設(shè)置對比實驗，使用VOT2018 數(shù)據(jù)集作為測試集，驗證在線分類模塊中各子模塊（壓縮子模塊、注意力子模塊、濾波器子模塊）的重要性。在3.3.1 節(jié)的最佳設(shè)置下，依次去除壓縮子模塊、注意力子模塊、濾波器子模塊，觀察對應(yīng)子模塊的重要性，結(jié)果如表3 所示。從表3 可以看出，去除子模塊后評價指標EAO 明顯下降，跟丟次數(shù)增多，說明3 個子模塊均對提高算法穩(wěn)健性、提升EAO有所貢獻。其中，濾波器子模塊的貢獻最大，在去除濾波器子模塊后，EAO 從0.463 下降到0.406，性能下降最大，證明了本文算法中在線更新濾波器子模塊的重要性，其能有效降低跟蹤過程中的噪聲干擾，從而提高算法穩(wěn)健性，并提高跟蹤算法整體性能。

表3 在VOT2018 數(shù)據(jù)集上實驗結(jié)果對比

3.3.3 使用自適應(yīng)模板更新模塊

在SiamRPN++算法上加入分類監(jiān)督模塊、在線目標分類模塊的基礎(chǔ)上，進一步加入自適應(yīng)模板更新模塊（TU module,adaptive template update module），在VOT2018 數(shù)據(jù)集上進行對比實驗，結(jié)果如表4 所示。從表4 可以看出，EAO 提升到0.471，跟丟次數(shù)減少到26 次，算法穩(wěn)健性進一步提升，取得了更好的跟蹤效果。

表4 在VOT2018 數(shù)據(jù)集上實驗結(jié)果對比

VOT2019 與VOT2018 得到的結(jié)論相同，因此不詳細論述。

3.4 實驗結(jié)果與分析

3.4.1 VOT2018 實驗

盡管SiamRPN++算法體現(xiàn)了深度神經(jīng)網(wǎng)絡(luò)強大的特征表征能力，但當前某些基于孿生網(wǎng)絡(luò)的跟蹤算法仍然會在面臨相似物干擾、完全遮擋和嚴重形變（如VOT2018 中的hands、liquor、gymnastics3）時表現(xiàn)不佳。本文方法由于引入了在線更新機制，因而在處理上述問題時表現(xiàn)更加穩(wěn)健，獲得了比SiamRPN++算法更好的跟蹤結(jié)果。

VOT2018 標準數(shù)據(jù)集包含許多具有挑戰(zhàn)性的因素，因此可以被視為在準確性和穩(wěn)健性方面較全面的測試平臺。為了保證實驗結(jié)果的客觀性，對于VOT2018 標準數(shù)據(jù)集的60 組跟蹤圖像序列，引入近幾年熱門并且具有代表性的跟蹤算法SiamBAN[21]、DiMP50[22]、SiamFC++[23]、SiamRCNN[24]、ATOM[14]、SiamMargin[17]、ta-SiamRPN++[12]、SiamMask[11]、SiamDW[9]、SiamRPN++[10]、DaSiamRPN[8]、SiamRPN[7]、UpdateNet[18]、SiamFC[6]，采用期望重疊率、準確性、穩(wěn)健性、跟丟次數(shù)、跟蹤速度這5 個評價指標對15 種性能優(yōu)異的跟蹤算法進行了性能比較，如表5 所示。

表5 在VOT2018 數(shù)據(jù)集上實驗結(jié)果對比

從表5 可以看出，相對于該數(shù)據(jù)集上進行評測的最新跟蹤算法，本文提出的跟蹤算法具有良好的性能，以較高的準確性（0.588）和良好的穩(wěn)健性（0.122），獲得了最高的EAO（0.471），保證了算法的穩(wěn)健性，這主要是因為本文算法中引入了在線更新機制。與基準算法SiamRPN++算法相比，本文算法雖然在準確性上不如SiamRPN++算法，但算法跟丟次數(shù)從SiamRPN++算法的50 次大幅度減少至26 次，使跟蹤穩(wěn)健性大幅提高，最終EAO 比SiamRPN++算法提升了13.5%。同時，本文在保證良好跟蹤準確性的前提下，延續(xù)了基于孿生網(wǎng)絡(luò)類跟蹤算法的高效率，運行速度為34 幀/秒。

3.4.2 VOT2019 實驗

同樣，本文算法在VOT2019 標準數(shù)據(jù)集上進行測試與評估。與VOT2018 相比，VOT2019 跟蹤難度更高。對于VOT2019 標準數(shù)據(jù)集的60 組跟蹤圖像序列，本節(jié)引入VOT2019 的實時組中表現(xiàn)較好的跟蹤算法SiamMargin、DiMP、SiamBAN、SiamDW_ST[17]、SiamMask、SiamRPN++、ATOM，采用期望重疊率、準確率、穩(wěn)健性、跟丟次數(shù)這4 個評價指標對12 種性能優(yōu)異的跟蹤算法進行了性能比較，如表6 所示。

表6 在VOT2019 數(shù)據(jù)集上實驗結(jié)果對比

從表6 可以看出，SiamMargin[17]通過使用對互相關(guān)特征圖監(jiān)督的策略和移動平均的模板更新策略實現(xiàn)了較少的跟丟次數(shù)。本文算法跟丟次數(shù)最少（為59 次），因此本文算法具備較好的穩(wěn)健性；準確性與SiamMargin 相同，與基準算法SiamRPN++相比有所下降；EAO 從0.285 提升至0.337，性能提升了18.2%。

4 結(jié)束語

目前，基于孿生網(wǎng)絡(luò)的目標跟蹤算法只使用離線訓(xùn)練好的網(wǎng)絡(luò)進行目標的辨識和定位，在處理相似干擾、目標形變時缺乏足夠的判別力，往往跟蹤的穩(wěn)健性較差，容易跟丟目標。為解決該問題，本文引入互相關(guān)特征圖監(jiān)督模塊、在線目標分類模塊、自適應(yīng)模板更新模塊。在互相關(guān)特征圖監(jiān)督模塊中，通過在離線訓(xùn)練階段使用L-softmax損失函數(shù)對互相關(guān)特征圖附加更嚴格的約束條件，從而學(xué)習(xí)到更易區(qū)分目標和背景的互相關(guān)特征圖，使網(wǎng)絡(luò)學(xué)習(xí)到的特征更具判別力，有利于克服相似干擾。在線目標分類模塊中，壓縮子模塊用于壓縮通道信息、減少計算量；雙重注意力（空間注意力和通道注意力）子模塊用于提取特定于當前被跟蹤目標的特征；在線更新濾波器執(zhí)行判別式學(xué)習(xí)，輔助修正離線訓(xùn)練網(wǎng)絡(luò)提取的特征，從而增強了孿生網(wǎng)絡(luò)處理干擾物的判別能力。在自適應(yīng)模板更新模塊中，使用UpdateNet 整合第一幀目標模板、累積目標模板和當前幀目標模板的信息，自適應(yīng)地更新可靠的目標模板信息，以應(yīng)對目標發(fā)生嚴重形變的問題，并且具備抵抗目標模板漂移的穩(wěn)健性。在滿足實時性速度要求的前提下，利用標準數(shù)據(jù)集VOT2018 和VOT2019進行測試，相比基準算法SiamRPN++，本文算法分別帶來13.5%和18.2%的性能（EAO）提升，證明了本文算法的有效性。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放