時空關(guān)聯(lián)自適應(yīng)追蹤目標特征學(xué)習(xí)

2021-06-13 03:02:02郭明哲才子昕王馨月景麗萍

計算機與生活 2021年6期

郭明哲，才子昕，王馨月，景麗萍，于劍

北京交通大學(xué) 交通數(shù)據(jù)分析與挖掘北京市重點實驗室，北京100044

+通信作者E-mail:lpjing@bjtu.edu.cn

目標追蹤是計算機視覺任務(wù)的一個基本組成部分并有著廣泛應(yīng)用，如自動駕駛[1]和視頻監(jiān)控[2]，它要求在變化的視頻序列中自動追蹤指定目標。然而，由于光照、變形、遮擋和運動引起的強烈外觀變化[3]，邊界框能否完整表示目標[4]，以及追蹤的實時性需求[5]，目標跟蹤仍是視覺領(lǐng)域的一個研究難題。

追蹤目標特征提取是目標追蹤獲取高性能的關(guān)鍵技術(shù)。由于傳統(tǒng)手工特征的不充分性和局限性[6-7]，近年來的追蹤方法[8-11]一直使用卷積神經(jīng)網(wǎng)絡(luò)（convolutional neural network，CNN）[12]抽取圖像特征，并取得不錯的追蹤效果。這些方法大多將視頻序列逐幀分開，在當(dāng)前幀下對目標進行單獨檢測，卻忽略了視頻序列中幀與幀之間的時空關(guān)聯(lián)信息，從而導(dǎo)致追蹤模型在局部遮擋和變形等情況下丟失目標。為提升追蹤模型的適應(yīng)能力，研究者[13]通過更新匹配模板參數(shù)的策略來緩解外觀變化的影響，但這種方法只在當(dāng)前幀的特征空間進行調(diào)整，難以適應(yīng)較大幅度的形變和干擾，導(dǎo)致目標定位不準確，邊界框也無法完整表示目標。

為確保邊界框盡量貼合目標，粗略的多尺度測試[14]逐漸被邊界框回歸[15]取代。例如將目標檢測中的區(qū)域選擇網(wǎng)絡(luò)（region proposal network，RPN）[16]應(yīng)用到目標追蹤中，大量錨框（anchor box）[15]的使用有效提升了目標邊界框的表示完整性，但這種基于當(dāng)前幀特征空間的方法需要在海量訓(xùn)練數(shù)據(jù)上嘗試邊界框可能的變化，過于依賴訓(xùn)練數(shù)據(jù)與實際追蹤場景的相似程度。同時，這類方法將當(dāng)前幀整體區(qū)域作為目標的搜索空間，極大增加了模型的計算復(fù)雜度和目標邊界框的調(diào)整難度，進而損失了跟蹤的性能（見圖1）。

對于目標追蹤復(fù)雜的應(yīng)用場景，不能局限于當(dāng)前幀的信息。幀與幀之間的時空關(guān)聯(lián)信息能夠反映各區(qū)域隨時間變化的特性，確保模型在追蹤過程中盡量免受外觀變化影響；同時也有助于表示各區(qū)域在不同幀的對應(yīng)關(guān)系，進而縮小目標區(qū)域的搜索空間，確保邊界框盡量完整貼合目標，同時提升追蹤速度。

Fig.1 Comparison of tracking performance between STSiam and real-time tracker SiamRPN++圖1 本文模型STSiam 和實時跟蹤器SiamRPN++追蹤性能的比較

為此，本文提出了基于時空關(guān)聯(lián)的自適應(yīng)追蹤目標特征學(xué)習(xí)框架時空孿生網(wǎng)絡(luò)（spatio-temporal siamese network，STSiam）。STSiam 利用孿生網(wǎng)絡(luò)抽取當(dāng)前幀特征，并對視頻序列幀與幀之間的時空關(guān)聯(lián)信息進行建模，增強目標特征的有效表示。同時考慮到目標位置與目標表征（邊界框）關(guān)注信息側(cè)重點不同，STSiam 模型利用時空關(guān)聯(lián)信息構(gòu)建目標定位（定位目標位置）和目標表征（獲取目標邊界框）任務(wù)。該模型通過離線方式加以訓(xùn)練，在線追蹤時無需更新網(wǎng)絡(luò)參數(shù)，從而確保追蹤的實時能力。

目標定位分支沿用模板匹配[9-11]的思想，區(qū)別在于，追蹤過程中STSiam 同時考慮視頻序列間的時空關(guān)聯(lián)信息，逐幀更新模板參數(shù)，確保其在追蹤過程中盡量免受目標及其背景變化的影響，提高目標定位精度。目標表征分支使用邊界框修正的方式確定目標表征，STSiam 使用時空關(guān)聯(lián)信息捕捉不同幀中對應(yīng)區(qū)域的空間聯(lián)系，利用上下文信息自適應(yīng)地調(diào)整目標邊界框。另外，目標表征分支的結(jié)果選取位置與目標定位分支的定位位置相同，使不同定位區(qū)域都有其對應(yīng)的邊界框修正方式，確保模型追蹤速度的同時提高準確率。

本文貢獻總結(jié)如下：

（1）提出一種端到端的自適應(yīng)追蹤目標特征學(xué)習(xí)框架，增強目標的特征表示并提高追蹤精度。

（2）建模視頻序列間的時空關(guān)聯(lián)信息，設(shè)計一種利用時空關(guān)聯(lián)信息有效更新匹配模板，同時精確修正目標邊界框的方法。

（3）在廣泛使用的OTB2015[17]、VOT2016[18]、VOT-2018[19]和LaSOT[20]數(shù)據(jù)集上進行大量實驗，結(jié)果展示本文提出的追蹤模型相較于已有追蹤方法性能優(yōu)越。

1 相關(guān)工作

本文所提出的STSiam 目標追蹤框架主要是利用孿生網(wǎng)絡(luò)框架抽取特征，通過循環(huán)神經(jīng)網(wǎng)絡(luò)[21]（recurrent neural network，RNN）結(jié)構(gòu)建模視頻序列中的時空關(guān)聯(lián)信息，對目標進行定位和表征。因此，本章只對這兩方面相關(guān)的工作進行簡要的綜述。

1.1 基于孿生網(wǎng)絡(luò)的追蹤器

孿生網(wǎng)絡(luò)包含兩個共享參數(shù)的分支，從原始數(shù)據(jù)中抽取相同層次空間的特征，多用于衡量兩組數(shù)據(jù)的相似程度。GOTURN[11]首次采用孿生網(wǎng)絡(luò)作為特征抽取器，結(jié)合頂部全連接層融合張量，構(gòu)建回歸模型，擬合目標邊界框。這種基于頂層信息構(gòu)建追蹤模型的思路，難以充分利用所提取的特征，將導(dǎo)致不準確的目標定位。SiamFC[9]采用模板匹配的思路，將模板幀特征作為卷積核提取檢測幀特征，以此獲取各幀元素的得分圖，得分最高的位置對應(yīng)目標位置。同時，SiamFC 利用多尺度測試不斷更替目標邊界框，以提升追蹤精度和速度。

然而，邊界框修正與目標定位所關(guān)注的信息存在本質(zhì)差異，上述方法將兩者合并到同一模塊中，將導(dǎo)致提取特征對各自任務(wù)不敏感，難以取得理想追蹤效果。隨后，研究者充分利用目標檢測網(wǎng)絡(luò)RPN，提出SiamRPN[22]，該模型對追蹤任務(wù)中的目標定位和邊界框修正分別建模。SiamRPN 將目標定位任務(wù)轉(zhuǎn)化為二分類學(xué)習(xí)問題，相較于SiamFC 的卷積得分圖，其更利于區(qū)分目標和背景；利用anchor box 回歸出形變量，相較于多尺度測試方法，該思路極大提升了最終的追蹤精度。然而，上述模型中，匹配模板參數(shù)在追蹤過程中保持不變，難以真正適應(yīng)目標追蹤場景的外觀變化和背景干擾。最近，ATOM[12]增加了模板在線更新模塊以應(yīng)對此問題。整個模型通過最大化邊界框重疊率[4]（intersection over union，IoU）實現(xiàn)，可有效提高邊界框表示的完整性，并取得更強的追蹤性能。

上述方法盡管取得了優(yōu)秀的追蹤性能，但它們在進行目標特征抽取時只聚焦于當(dāng)前幀信息，忽略了視頻序列中幀與幀之間的時空關(guān)聯(lián)信息。這種策略難以追蹤具有較強外觀變化和受外界因素干擾的目標，致使獲取的邊界框無法完整表示目標。為此，本文提出的STSiam 在考慮當(dāng)前幀信息的同時，充分利用幀與幀之間的時空關(guān)聯(lián)信息，以應(yīng)對復(fù)雜的目標外觀變化和背景干擾，也確保目標邊界框的精確修正。

1.2 基于循環(huán)神經(jīng)網(wǎng)絡(luò)的追蹤器

循環(huán)神經(jīng)網(wǎng)絡(luò)及其變體長短期記憶（long shortterm memory，LSTM）[23]和門控遞歸單元（gate recurrent unit，GRU）[24]，因其能記憶歷史輸入信息，被廣泛應(yīng)用于時序數(shù)據(jù)的處理，如語言建模[25]和機器翻譯[26]。而視頻序列也是一種時序數(shù)據(jù)，因此一些工作利用RNN進行目標追蹤。Gan 等人[27]利用GRU 對CNN 提取的特征進行建模，預(yù)測目標的位置。上述方法直接將特征放入GRU，將混淆不同幀中各區(qū)域之間的時空關(guān)聯(lián)，難以取得理想追蹤效果。Kahou 等[28]在RNN 中增加注意機制，指導(dǎo)建立幀與幀間目標區(qū)域的時空關(guān)聯(lián)。該方法雖然保證一部分時空關(guān)聯(lián)的正確對應(yīng)，但關(guān)聯(lián)的區(qū)域數(shù)目和搜索空間過于龐大，導(dǎo)致模型追蹤速度緩慢。隨后，研究者充分利用目標檢測方法YOLO[29]，提出ROLO[30]，該模型通過估計目標大致位置縮小搜索空間。ROLO 利用YOLO 區(qū)分目標和非目標區(qū)域，粗略定位目標位置；然后截取目標區(qū)域特征通過LSTM 估計目標的邊界框，該思路極大提升了追蹤的速度和精度。

上述方法雖然取得了較好的追蹤性能，但它們直接將當(dāng)前幀特征輸入到RNN 或其變體（LSTM 或GRU）中建立不同幀中各區(qū)域之間的時空關(guān)聯(lián)，忽略了建立關(guān)聯(lián)的數(shù)目和搜索空間大小。這種策略難以確保不同幀區(qū)域間的正確對應(yīng)，降低模型的追蹤速度和精度。此外，大多基于RNN 的追蹤器利用RNN隱藏狀態(tài)枚舉目標所有可能的位置和尺度，進而回歸目標邊界框的形變參數(shù)。然而，無法確保區(qū)域間時空關(guān)聯(lián)的正確性，也就難以保證回歸結(jié)果與目標區(qū)域的對應(yīng)關(guān)系，導(dǎo)致不精確的邊界框修正。因此，STSiam充分考慮不同幀各區(qū)域時空關(guān)聯(lián)建立的過程，保留每幀特征原有的空間結(jié)構(gòu)，通過建模上下文信息、目標定位分支與目標表征分支的位置對應(yīng)關(guān)系，指導(dǎo)并限制區(qū)域間聯(lián)系的建立，確保其關(guān)聯(lián)的正確性，最終準確定位目標，自適應(yīng)地精確修正目標邊界框。

2 時空孿生網(wǎng)絡(luò)框架

為提取視頻序列各幀之間的時空關(guān)聯(lián)信息，結(jié)合各幀的目標區(qū)域信息，增強目標的特征表示，從而提高目標定位精度，確保邊界框盡量貼合目標，最終提升模型的追蹤性能，本文提出端到端的STSiam 目標追蹤框架，如圖2 所示。圖中左側(cè)是用于特征提取的孿生網(wǎng)絡(luò)，右側(cè)是具有兩個輸出分支的目標定位表征網(wǎng)絡(luò)，分別用于目標定位和邊界框修正。其中，φ表示特征抽取結(jié)構(gòu)，*表示基于通道卷積的模板匹配操作，+表示通道維度的線性加和。

該框架主要由孿生特征抽取網(wǎng)絡(luò)和目標定位表征網(wǎng)絡(luò)兩部分組成。孿生特征抽取網(wǎng)絡(luò)對抽取自視頻序列中的模板幀和檢測幀的關(guān)鍵特征進行抽取。目標定位表征網(wǎng)絡(luò)分為目標定位和目標表征兩個分支，這兩個分支依據(jù)孿生特征抽取網(wǎng)絡(luò)所抽取的特征進行模板匹配、目標定位和邊界框修正等工作。本章將詳細介紹STSiam 框架的各個組成部分。

2.1 基于孿生網(wǎng)絡(luò)的追蹤目標特征提取

追蹤目標特征提取是目標追蹤獲取高性能的關(guān)鍵技術(shù)。如何提取出適用于模板匹配的關(guān)鍵信息，是目標特征提取的關(guān)鍵問題?？紤]到孿生網(wǎng)絡(luò)框架所抽取的成對樣本特征位于相同層次空間，適用于比較特征之間的相同點與不同點，本文基于孿生網(wǎng)絡(luò)框架進行匹配模板（模板幀z）和匹配對象（檢測幀x）的特征提取。其中，模板幀z和檢測幀x均為從視頻序列中采樣的經(jīng)過剪裁的圖像，具體見2.5 節(jié)。

為提升實時目標追蹤的效率，本文選用層數(shù)較少的AlexNet[31]作為孿生特征抽取網(wǎng)絡(luò)的特征抽取結(jié)構(gòu)φ，具體結(jié)構(gòu)如表1 所示。特別地，為了避免追蹤目標所處位置因填充操作（padding）而偏移，本文移除AlexNet 中的所有padding 操作；除此之外，本文增大了AlexNet 中卷積層的group 參數(shù)，減少了計算量，從而進一步提升特征抽取的速度。

Table 1 Structure of siamese feature extraction network φ表1 孿生特征抽取網(wǎng)絡(luò)φ 的結(jié)構(gòu)

Fig.2 Architecture of STSiam圖2 STSiam 模型架構(gòu)

本文通過使用孿生特征抽取網(wǎng)絡(luò)，有效提取出當(dāng)前幀中的追蹤目標特征，將提升幀與幀之間時空關(guān)聯(lián)信息的建模精度，有助于增強后續(xù)模板匹配、目標定位和目標表征的性能。同時，通過修改AlexNet的網(wǎng)絡(luò)結(jié)構(gòu)，減少計算量，提升計算速度，將有助于提升STSiam 整體框架的目標追蹤速度。

2.2 基于時空關(guān)聯(lián)信息的追蹤目標定位

本文沿用模板匹配的思想進行追蹤目標的定位。為使追蹤模型盡量免受目標外觀及其背景變化的影響，本文基于視頻序列幀與幀之間的時空關(guān)聯(lián)信息，對匹配模板φ(z)逐幀更新。由于ConvLSTM[32]中的卷積層相較于LSTM 中的全連接層能更好地保留當(dāng)前幀中的時空信息，本文選用ConvLSTM 進行匹配模板的逐幀更新。具體地，將匹配模板特征φ(z)放入ConvLSTM 模塊，在特征通道維度將φ(z)分層，將每層的特征作為序列元素輸入ConvLSTM，再將輸出的隱藏狀態(tài)張量按照通道維度疊加，形成與φ(z)相同維度的特征張量φ′(z)，并作為新的匹配模板與檢測特征φ(x)模板匹配，計算如式（1）所示。

由于目標定位和目標表征關(guān)注的信息不同，為使模板匹配后的特征能夠適用于不同任務(wù)，本文使用基于通道卷積的模板匹配方法，定義為*（*即將對應(yīng)通道的特征進行卷積）。如圖3 所示，通道卷積按照特征通道維度將φ′(z) 和φ(x) 分層，并將分層的φ′(z)作為卷積核與對應(yīng)層的φ(x)進行卷積操作，再將卷積后的特征按照通道維度疊加，得到特征圖feature map，見式（2）。

Fig.3 Explanation of channel convolution in STSiam圖3 STSiam 中通道卷積的說明

由于通道卷積使模板匹配前后特征通道數(shù)不變，因此feature map具備很強的泛用性，可以通過調(diào)整特征通道數(shù)針對于目標定位和目標表征任務(wù)分別特質(zhì)化，提升模型的總體性能。

如圖4 所示（+即將模板匹配后的特征按照通道維度線性相加，最后得到得分圖），在目標定位過程中，feature map按照通道維度相加得到二維的得分圖score map，得分最高的位置對應(yīng)追蹤目標的位置。本文在目標定位過程中，基于ConvLSTM 進行匹配模板的逐幀更新，使用視頻序列幀與幀之間的時空關(guān)聯(lián)信息，確保追蹤模型盡量免受目標外觀及其背景變化的影響，有效提升目標定位精度。

Fig.4 Architecture of target location branch in STSiam圖4 STSiam 中目標定位分支的構(gòu)造

2.3 基于時空關(guān)聯(lián)信息的追蹤目標表征

為使目標邊界框盡量貼合目標，本文將目標定位得分圖score map中的最高得分位置對應(yīng)邊界框修正圖amend map中該區(qū)域邊界框修正參數(shù)的選取位置。并使用上文介紹的feature map，通過調(diào)整特征通道針對目標表征任務(wù)特質(zhì)化，并進行邊界框修正。然而，由于不同幀中追蹤目標所在區(qū)域具有差異，現(xiàn)有方法只是定位出目標，并不能確保邊界框完整地表示目標。

為了解決這一問題，本文提出基于時空關(guān)聯(lián)信息的ST Modulation，進行邊界框修正工作。如圖5 所示，為充分獲取各區(qū)域上下左右四個方向的上下文信息，ST Modulation 使用兩組四方向RNN 建立各區(qū)域與全局的空間聯(lián)系。STSiam 中ST Modulation 的構(gòu)造：將卷積后的特征經(jīng)過1×1 卷積調(diào)整特征維度后，通過兩次四方向RNN 捕捉上下文信息和空間聯(lián)系，指導(dǎo)不同幀對應(yīng)區(qū)域的空間關(guān)聯(lián)建立，并依據(jù)區(qū)域時空關(guān)聯(lián)特征獲取每一區(qū)域的邊界框修正參數(shù)。聯(lián)系建立示例如圖6，第一組四方向RNN 將各區(qū)域與同行同列的“十”字區(qū)域建立聯(lián)系，第二組四方向RNN 將所有“十”字區(qū)域互相關(guān)聯(lián)，從而覆蓋當(dāng)前幀的所有區(qū)域，即將各區(qū)域與當(dāng)前幀全局相關(guān)聯(lián)，并由此得到各區(qū)域相對全局的邊界框修正圖amend map。

Fig.5 Architecture of STSiam's ST Modulation圖5 STSiam 中ST Modulation 的構(gòu)造

Fig.6 Example of four-directional RNNs圖6 四方向RNN 示例

然而，如果將視頻幀中的各個像素單獨作為區(qū)域，將導(dǎo)致時空關(guān)聯(lián)的搜索空間過于龐大，搜索效率低，且難以保證不同幀各區(qū)域的正確對應(yīng)。因此本文使用feature map中前兩個維度的17×17 劃分區(qū)域，從而篩選出真正需要建立時空關(guān)聯(lián)的區(qū)域，同時有效提升目標追蹤效率。

2.4 損失函數(shù)

對應(yīng)目標定位表征網(wǎng)絡(luò)的兩部分輸出，總的損失函數(shù)也由目標定位分支和目標表征分支兩部分組成。同時由于STSiam 使用孿生網(wǎng)絡(luò)和模板匹配的方法，訓(xùn)練的輸入數(shù)據(jù)采用圖像對的格式。

2.4.1 目標定位分支損失函數(shù)

在目標定位分支，對于一個圖像對中的檢測幀，將包含目標的區(qū)域作為正樣本，只包含背景的區(qū)域作為負樣本。并采用Logistic 損失均衡正負樣本數(shù)量對模型的影響，一個區(qū)域的損失如式（3）所示。

其中，v是該區(qū)域在得分圖中的得分，y∈{+1,-1}是其正負樣本標記。

則將所有區(qū)域的損失線性相加，即得到對于一個圖像對的定位損失。定義檢測幀圖像為D，則其中每個區(qū)域u∈D，并且y∈{+1,-1}是該區(qū)域的正負樣本標記，v[u]是該區(qū)域在score map中的得分，如式（4）所示。

同時為提升模型對于目標區(qū)域的識別能力，本文細分正負樣本的判定方式y(tǒng)[u]：如果一個區(qū)域中心與目標區(qū)域中心的距離小于等于R像素（考慮到步長k=8，score map中每一區(qū)域?qū)?yīng)實際圖片的8×8像素塊，這里R=24），則認為該區(qū)域為正樣本，否則為負樣本，見式（5）。

2.4.2 目標表征分支損失函數(shù)

為確保邊界框盡量貼合檢測幀中的目標，目標表征分支用于對上一幀的邊界框進行修正。假設(shè)上一幀中目標區(qū)域的邊界框為{Ax,Ay,Aw,Ah}、檢測幀的目標區(qū)域的邊界框為{Tx,Ty,Tw,Th}，則需要設(shè)計四個修正參數(shù){δ[0],δ[1],δ[2],δ[3]}，盡量縮小兩者差距，見式（6）。

因此該部分的輸出amend map為不同區(qū)域的四個邊界框修正參數(shù)。為防止修正后的邊界框和真實邊界框差距過大導(dǎo)致的梯度爆炸，STSiam 使用smoothL1損失增強模型的穩(wěn)定性，見式（7）。同時為進一步提升修正后邊界框表示的完整性，模型也加入GIoU 損失，如式（8）所示。

其中，A為上一幀修正后的邊界框區(qū)域，B為檢測幀真實的邊界框區(qū)域，C為包含A和B的最小的矩形區(qū)域，|·|代表區(qū)域面積。則目標表征分支的損失函數(shù)為兩者的加和，見式（9）。

最終，STSiam 的總損失函數(shù)為目標定位分支和目標表征分支的加和，同時使用固定參數(shù)λ平衡兩部分損失，見式（10）。

2.5 端到端的訓(xùn)練

為避免模型在訓(xùn)練過程中過度擬合，STSiam 采用數(shù)據(jù)量大、類別多的目標追蹤數(shù)據(jù)集GOT-10k[33]作為訓(xùn)練數(shù)據(jù)。

對應(yīng)孿生網(wǎng)絡(luò)與模板匹配，STSiam 的輸入是一系列裁剪后的圖像對。在訓(xùn)練過程中，模型從每個視頻中隨機抽取兩幀作為模板幀和檢測幀，為使模型充分學(xué)習(xí)目標的特征，兩幀中均包含對象，且最多相隔T幀。同時為增強模型追蹤的泛化性能，在訓(xùn)練期間忽略追蹤目標的類別。

為充分關(guān)注目標區(qū)域的信息，模板幀圖像和檢測幀圖像均以目標區(qū)域為中心裁剪，同時由于需要均衡關(guān)注區(qū)域，裁剪圖像為正方形。為提高追蹤模型的判別能力，圖像數(shù)據(jù)需要同時包含目標和背景。若標注邊界框的長和寬為{wGT,hGT}，定義裁剪單位長度len，見式（11）。

同時不能只關(guān)注目標區(qū)域信息，背景信息能進一步提升追蹤的精度，因此模板幀圖像塊邊長定為2len。同時由于追蹤目標可能會產(chǎn)生巨大平移形變，STSiam 設(shè)置檢測幀圖像塊邊長為4len。如果裁剪圖像超出原圖像邊界，則不足部分使用圖像的平均RGB 值填充。另外，為提高模型追蹤速度，模型將裁剪圖像對調(diào)整大小到127×127 像素和255×255 像素，如圖7 所示，第一列、第二列、第三列分別是模板幀圖像塊、檢測幀圖像塊和原始圖像，追蹤目標使用紅色邊界框標注。

Fig.7 Template frame image,detection frame image and tracking frame image from GOT-10k圖7 GOT-10k 的模板幀、檢測幀、追蹤幀

由于損失的優(yōu)化需要兼顧目標定位分支和目標定位表征部分，因此在端到端訓(xùn)練過程中，STSiam 使用ADAM 最小化損失。同時為防止模型參數(shù)更新幅度過大，模型設(shè)置初始學(xué)習(xí)率為1×10-4，最終學(xué)習(xí)率為1×10-6，且每5 000 次迭代遞減80%，盡量確保離線訓(xùn)練后的模型能夠針對不同的追蹤環(huán)境，自適應(yīng)地更新模板參數(shù)，增強追蹤性能。

3 在線追蹤

在線追蹤過程中，還需要利用訓(xùn)練過程的結(jié)果在檢測幀中使用邊界框表示出目標。由于模型通過離線訓(xùn)練固定模型參數(shù)，在線追蹤時不需要更新任何網(wǎng)絡(luò)參數(shù)，因此STSiam 取得70 frame/s的實時追蹤速度，在線追蹤過程如圖8 所示。通過得分圖的最高得分位置定位目標并獲取邊界框尺寸修正參數(shù)mbest后，取對應(yīng)區(qū)域的邊界框修正參數(shù)得到修正后的邊界框{xt,yt,wt,ht}，同時結(jié)合目標定位得到定位邊界框，最終合成兩個邊界框進行，即取能夠覆蓋定位邊界框（黃色）和修正邊界框（藍色）的最小邊界框為最終的邊界框（紅色）。

Fig.8 Online tracking architecture圖8 在線追蹤流程圖

考慮到目標的尺度變化，STSiam 構(gòu)建放縮檢測幀圖像的金字塔：按照三個尺度對檢測幀圖像進行放縮，再組合成一個小批次，之后放入模型進行計算，得到score map和amend map。假設(shè)為三個不同尺度的檢測幀圖像，則對應(yīng)的score map為，并通過比較三個尺度的最高得分位置定位目標，并獲取尺度修正參數(shù)mbest，見式（12）。在邊界框修正前，先對上一幀邊界框的長寬進行尺度修正，若上一幀的目標邊界框為{xt-1,yt-1,wt-1,ht-1}，則進行尺度修正后得到{xt-1,yt-1,wt-1′,ht-1′}，見式（13）。

再根據(jù)score map中的最高分位置，在amend map中得到針對該區(qū)域的邊界框修正參數(shù){dxt-1,dyt-1,dwt-1,dht-1}，對尺度修正后的上一幀目標邊界框{xt-1,yt-1,wt-1′,ht-1′}進行數(shù)值修正，得到檢測幀的目標邊界框{xt,yt,wt,ht}，見式（14）。

另外，由于score map的目標定位位置和實際圖片有著步長k的對應(yīng)關(guān)系，因此STSiam 將該位置對應(yīng)到真實圖片中得到，同時沿用修正后的邊界框長和寬{wt,ht}，也得到了一個目標邊界框。為進一步提高模型的容錯率，模型將兩個邊界框融合，即取能包含兩個邊界框的最小矩形，作為最終的目標邊界框，如圖7 所示。

4 實驗

STSiam 使用Pytorch 框架實現(xiàn)，該模型在帶有32 GB 內(nèi)存、Intel i7 9900K CPU 和11 GB 顯存的Nvidia 2080Ti GPU 的個人電腦上以70 frame/s 的速度運行。本文將STSiam 與許多實時性能一流的追蹤模型（即速度超過25 frame/s）在許多權(quán)威數(shù)據(jù)集上進行比較，包括OTB2015、VOT2016、VOT2018 和LaSOT。所有追蹤結(jié)果均使用報告的結(jié)果，以確保公平比較。

4.1 OTB2015 結(jié)果

OTB2015 數(shù)據(jù)集是最流行的追蹤基準之一，由100 個具有11 種不同屬性的圖像序列組成，包括照明變化（illumination change，IV）、尺度變化（scale variation，SV）、遮擋（occlusion，OCC）、變形（deformation，DEF）、運動模糊（motion blur，MB）、快速運動（fast movement，F(xiàn)M）、平面內(nèi)旋轉(zhuǎn)（in plane rotation，IPR）、平面外旋轉(zhuǎn)（out of plane rotation，OPR）和低分辨率（low resolution，LR）等?；诰嚯x精度（Precision）和重疊成功率（Success rate）兩個指標，采用一次評估法（one-pass evaluation，OPE）對不同的追蹤器進行評估。這里將STSiam 與最新的追蹤器進行比較，包括ECO[34]、MDNet[35]、LSART[36]、C-COT[8]、SiamRPN、PTAV[37]、DeepSRDCF[38]、Staple[39]、SiamFC 和KCF[7]。

圖9 根據(jù)OPE 規(guī)則報告了不同追蹤器的Success和Precision 圖。其中，STSiam 的Success 得分為0.690，Precision 得分為0.925，取得了幾乎最好的追蹤效果。表2 總結(jié)了OTB2015 上前五的追蹤器的精度和速度，STSiam 無論在成功率、準確率和速度上都取得領(lǐng)先性能。因為OTB2015 數(shù)據(jù)集由25%的灰色序列和75%的彩色序列構(gòu)成，這可能會對基于色彩特征的追蹤方法產(chǎn)生巨大的影響，如KCF、Staple。

Fig.9 Success and normalized precision plots on OTB2015圖9 OTB2015 數(shù)據(jù)集上的精度和成功率對比曲線圖

Table 2 Comparison of accuracy and speed of top five trackers on OTB2015表2 OTB2015數(shù)據(jù)集前五名追蹤器的精度和速度比較

而本文模型的孿生特征抽取子網(wǎng)絡(luò)挖掘的特征能夠反映目標的語義特征，具備更好的適應(yīng)性。同時，該數(shù)據(jù)集序列長度為50～3 000 frame不等，因此如ECO、MDNet、LSART 等追蹤模型在長時追蹤后，模型參數(shù)可能無法適應(yīng)目標外觀的變化，導(dǎo)致追蹤失敗。而STSiam 的模板在每一幀過后都會基于現(xiàn)有的時空關(guān)聯(lián)信息進行更迭，因此即使長時追蹤也能比較精確地追蹤目標。該實驗充分體現(xiàn)了STSiam 提取的特征能夠適應(yīng)不同色彩的視頻序列和長時追蹤的外觀變化，在保證成功率的同時，還能夠提高定位的精準度。

4.2 VOT2016 結(jié)果

VOT2016 數(shù)據(jù)集包含60 個用6 個不同屬性注釋的短序列。根據(jù)其評估協(xié)議，只要檢測到追蹤失敗，被測追蹤器就會重新初始化。在該基準中，精度（Accuracy）和魯棒性（Robustness）以及期望平均重疊（expected average overlap，EAO）是3 個重要的標準。這里將STSiam 與SiamRPN 中報告的CCOT、Siam-Mask[40]、DWSiam[41]、TCNN[42]、Staple 和SiamFC 等前10 個追蹤器在VOT2016 數(shù)據(jù)集上進行比較。

不同追蹤器在VOT2016 上的精度、魯棒性和期望平均重疊度得分如表3 所示（排行前三的結(jié)果分別用加粗、下劃線、斜體顯示），STSiam 取得了較高的Accuracy和Robustness分數(shù)，同時在EAO 上取得了最佳性能。VOT2016 數(shù)據(jù)集相對于OTB2015 數(shù)據(jù)集，分辨率大幅提升，全部采用相對較短幀數(shù)的彩色序列，而且?guī)c幀之間變化更大，干擾更多，這更加考驗追蹤器的適應(yīng)能力。相對于SiamMask 采用目標分割的方法取得了最高的Accuracy，本文的模型具備更好的Robustness，即不會輕易跟丟目標，這得益于模型捕捉幀與幀之間的時空關(guān)聯(lián)信息并以此更新模板參數(shù)，以應(yīng)對光照、旋轉(zhuǎn)等外觀變化。雖然STSiam的Accuracy略低，但是基于全局區(qū)域空間關(guān)聯(lián)特征的邊界框修正，仍能取得第二的Accuracy。另外，相比于只有7 frame/s的SiamMask，STSiam 以70 frame/s的速度完成測試，同時SiamMask 的訓(xùn)練數(shù)據(jù)超過100 000個視頻，而STSiam 只使用大約4 000 個視頻，更符合實際使用情況。此實驗體現(xiàn)本文的模型在訓(xùn)練難度、精度、魯棒性、追蹤速度之間取得了很好的平衡。

Table 3 Test scores of different trackers on VOT2016表3 不同追蹤器在VOT2016 的測試得分

4.3 VOT2018 結(jié)果

VOT2018 數(shù)據(jù)集由60 個視頻（相對于VOT2016數(shù)據(jù)集使用更難的序列）組成，也根據(jù)精度、魯棒性和期望平均重疊來評估性能。這里采用該數(shù)據(jù)集比賽的一些領(lǐng)先追蹤器進行比較，包括ATOM、Siam-Mask、LADCF[43]、SiamRPN++[44]、MFT[45]、UPDT[46]、DRT[47]和DaSiamRPN[48]等10 個優(yōu)秀的追蹤器。

不同追蹤器在VOT2018 上的精度、魯棒性和期望平均重疊度得分如表4 所示（排行前三的結(jié)果分別用加粗、下劃線、斜體顯示），STSiam 模型的Robustness 最高，可以良好適應(yīng)各種追蹤場景，也保持較高的Accuracy，最終在EAO方面取得了最好的性能。相對于VOT2016 使用更難追蹤視頻序列的VOT2018，幀與幀之間的時空關(guān)聯(lián)信息更能起到關(guān)鍵的作用，雖然ATOM 采用在線更新的方式更迭匹配模板的參數(shù)，但是只是針對特征通道添加權(quán)重并不能很有效適應(yīng)大量變化的目標外觀；而且對比先預(yù)選區(qū)域再修正邊界框的RPN 方法，STSiam 直接將區(qū)域與全局空間聯(lián)系起來，并根據(jù)目標定位直接選擇區(qū)域進行更迭更加高效，這也使得本文的模型在測試中達到70 frame/s的領(lǐng)先追蹤速度。

Table 4 Test scores of different trackers on VOT2018表4 不同追蹤器在VOT2018 的測試得分

4.4 LaSOT 結(jié)果

LaSOT 的測試集由280 個視頻組成，平均長度為2 448 幀，比大多數(shù)數(shù)據(jù)集都要長，這更加考驗追蹤器的追蹤穩(wěn)定性。這里將STSiam與ECO、PTAV、MDNet、GlobalTracker[49]、SiamRPN++、ATOM、DaSiam_LT[50]、SPLT[51]、VITAL[52]和SiamFC 進行比較，Precision 和Success rate對比如圖10 所示。

LaSOT 數(shù)據(jù)集更加注重真實的情況，視頻序列偏向于長時追蹤，同時目標類別超過70 個，盡力避免追蹤器評測中的類別敏感。得益于共享參數(shù)的孿生特征抽取子網(wǎng)絡(luò)，STSiam 保證模板幀與檢測幀的特征空間在同一維度，避免由于類別差異帶來的不平衡，而MDNet 對于不同類別的序列追蹤效果大不相同；針對長時追蹤，只使用當(dāng)前幀特征的VITAL、ECO 追蹤器無法有效地適應(yīng)目標的外觀變化和背景干擾，而幀與幀之間的時空關(guān)聯(lián)特征能保證本文的模型應(yīng)對這些干擾。因此與最新的長期追蹤器DaSiam_LT 和SPLT 相比，STSiam 有著更佳的性能。同時相對于GlobalTracker 的全區(qū)域搜索方法，STSiam 使用先定位目標、后修正邊界框的雙階段追蹤方法，并取得最好的Precision。該實驗表明本文提出的模型能夠在接近實際情況的追蹤環(huán)境下，取得良好的精度與速度。

Fig.10 Success and normalized precision plots on LaSOT圖10 LaSOT 數(shù)據(jù)集上的精度和成功率對比曲線圖

5 結(jié)論

本文提出基于時空關(guān)聯(lián)的自適應(yīng)追蹤目標特征學(xué)習(xí)框架STSiam，基于當(dāng)前幀信息，建模幀與幀之間的時空關(guān)聯(lián)信息，并通過目標定位和目標邊界框修正兩個階段追蹤目標。為適應(yīng)目標外觀和背景變化的影響，STSiam 使用時空關(guān)聯(lián)信息更新匹配模板的參數(shù)，提高定位精度。同時為確保邊界框盡量貼合目標，STSiam 關(guān)注不同幀對應(yīng)區(qū)域之間的空間關(guān)聯(lián)信息，利用目標定位鎖定目標區(qū)域并進行邊界框修正。另外，該模型基于離線訓(xùn)練，在線追蹤時不需要額外更新網(wǎng)絡(luò)參數(shù)，提高追蹤速度。在實驗中，STSiam 以70 frame/s 的速度在廣泛使用的大規(guī)模追蹤數(shù)據(jù)集（OTB100、VOT2016、VOT2018 和LaSOT）上均取得領(lǐng)先性能。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放