郭明哲,才子昕,王馨月,景麗萍,于 劍
北京交通大學(xué) 交通數(shù)據(jù)分析與挖掘北京市重點實驗室,北京100044
+通信作者E-mail:lpjing@bjtu.edu.cn
目標追蹤是計算機視覺任務(wù)的一個基本組成部分并有著廣泛應(yīng)用,如自動駕駛[1]和視頻監(jiān)控[2],它要求在變化的視頻序列中自動追蹤指定目標。然而,由于光照、變形、遮擋和運動引起的強烈外觀變化[3],邊界框能否完整表示目標[4],以及追蹤的實時性需求[5],目標跟蹤仍是視覺領(lǐng)域的一個研究難題。
追蹤目標特征提取是目標追蹤獲取高性能的關(guān)鍵技術(shù)。由于傳統(tǒng)手工特征的不充分性和局限性[6-7],近年來的追蹤方法[8-11]一直使用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)[12]抽取圖像特征,并取得不錯的追蹤效果。這些方法大多將視頻序列逐幀分開,在當(dāng)前幀下對目標進行單獨檢測,卻忽略了視頻序列中幀與幀之間的時空關(guān)聯(lián)信息,從而導(dǎo)致追蹤模型在局部遮擋和變形等情況下丟失目標。為提升追蹤模型的適應(yīng)能力,研究者[13]通過更新匹配模板參數(shù)的策略來緩解外觀變化的影響,但這種方法只在當(dāng)前幀的特征空間進行調(diào)整,難以適應(yīng)較大幅度的形變和干擾,導(dǎo)致目標定位不準確,邊界框也無法完整表示目標。
為確保邊界框盡量貼合目標,粗略的多尺度測試[14]逐漸被邊界框回歸[15]取代。例如將目標檢測中的區(qū)域選擇網(wǎng)絡(luò)(region proposal network,RPN)[16]應(yīng)用到目標追蹤中,大量錨框(anchor box)[15]的使用有效提升了目標邊界框的表示完整性,但這種基于當(dāng)前幀特征空間的方法需要在海量訓(xùn)練數(shù)據(jù)上嘗試邊界框可能的變化,過于依賴訓(xùn)練數(shù)據(jù)與實際追蹤場景的相似程度。同時,這類方法將當(dāng)前幀整體區(qū)域作為目標的搜索空間,極大增加了模型的計算復(fù)雜度和目標邊界框的調(diào)整難度,進而損失了跟蹤的性能(見圖1)。
對于目標追蹤復(fù)雜的應(yīng)用場景,不能局限于當(dāng)前幀的信息。幀與幀之間的時空關(guān)聯(lián)信息能夠反映各區(qū)域隨時間變化的特性,確保模型在追蹤過程中盡量免受外觀變化影響;同時也有助于表示各區(qū)域在不同幀的對應(yīng)關(guān)系,進而縮小目標區(qū)域的搜索空間,確保邊界框盡量完整貼合目標,同時提升追蹤速度。
Fig.1 Comparison of tracking performance between STSiam and real-time tracker SiamRPN++圖1 本文模型STSiam 和實時跟蹤器SiamRPN++追蹤性能的比較
為此,本文提出了基于時空關(guān)聯(lián)的自適應(yīng)追蹤目標特征學(xué)習(xí)框架時空孿生網(wǎng)絡(luò)(spatio-temporal siamese network,STSiam)。STSiam 利用孿生網(wǎng)絡(luò)抽取當(dāng)前幀特征,并對視頻序列幀與幀之間的時空關(guān)聯(lián)信息進行建模,增強目標特征的有效表示。同時考慮到目標位置與目標表征(邊界框)關(guān)注信息側(cè)重點不同,STSiam 模型利用時空關(guān)聯(lián)信息構(gòu)建目標定位(定位目標位置)和目標表征(獲取目標邊界框)任務(wù)。該模型通過離線方式加以訓(xùn)練,在線追蹤時無需更新網(wǎng)絡(luò)參數(shù),從而確保追蹤的實時能力。
目標定位分支沿用模板匹配[9-11]的思想,區(qū)別在于,追蹤過程中STSiam 同時考慮視頻序列間的時空關(guān)聯(lián)信息,逐幀更新模板參數(shù),確保其在追蹤過程中盡量免受目標及其背景變化的影響,提高目標定位精度。目標表征分支使用邊界框修正的方式確定目標表征,STSiam 使用時空關(guān)聯(lián)信息捕捉不同幀中對應(yīng)區(qū)域的空間聯(lián)系,利用上下文信息自適應(yīng)地調(diào)整目標邊界框。另外,目標表征分支的結(jié)果選取位置與目標定位分支的定位位置相同,使不同定位區(qū)域都有其對應(yīng)的邊界框修正方式,確保模型追蹤速度的同時提高準確率。
本文貢獻總結(jié)如下:
(1)提出一種端到端的自適應(yīng)追蹤目標特征學(xué)習(xí)框架,增強目標的特征表示并提高追蹤精度。
(2)建模視頻序列間的時空關(guān)聯(lián)信息,設(shè)計一種利用時空關(guān)聯(lián)信息有效更新匹配模板,同時精確修正目標邊界框的方法。
(3)在廣泛使用的OTB2015[17]、VOT2016[18]、VOT-2018[19]和LaSOT[20]數(shù)據(jù)集上進行大量實驗,結(jié)果展示本文提出的追蹤模型相較于已有追蹤方法性能優(yōu)越。
本文所提出的STSiam 目標追蹤框架主要是利用孿生網(wǎng)絡(luò)框架抽取特征,通過循環(huán)神經(jīng)網(wǎng)絡(luò)[21](recurrent neural network,RNN)結(jié)構(gòu)建模視頻序列中的時空關(guān)聯(lián)信息,對目標進行定位和表征。因此,本章只對這兩方面相關(guān)的工作進行簡要的綜述。
孿生網(wǎng)絡(luò)包含兩個共享參數(shù)的分支,從原始數(shù)據(jù)中抽取相同層次空間的特征,多用于衡量兩組數(shù)據(jù)的相似程度。GOTURN[11]首次采用孿生網(wǎng)絡(luò)作為特征抽取器,結(jié)合頂部全連接層融合張量,構(gòu)建回歸模型,擬合目標邊界框。這種基于頂層信息構(gòu)建追蹤模型的思路,難以充分利用所提取的特征,將導(dǎo)致不準確的目標定位。SiamFC[9]采用模板匹配的思路,將模板幀特征作為卷積核提取檢測幀特征,以此獲取各幀元素的得分圖,得分最高的位置對應(yīng)目標位置。同時,SiamFC 利用多尺度測試不斷更替目標邊界框,以提升追蹤精度和速度。
然而,邊界框修正與目標定位所關(guān)注的信息存在本質(zhì)差異,上述方法將兩者合并到同一模塊中,將導(dǎo)致提取特征對各自任務(wù)不敏感,難以取得理想追蹤效果。隨后,研究者充分利用目標檢測網(wǎng)絡(luò)RPN,提出SiamRPN[22],該模型對追蹤任務(wù)中的目標定位和邊界框修正分別建模。SiamRPN 將目標定位任務(wù)轉(zhuǎn)化為二分類學(xué)習(xí)問題,相較于SiamFC 的卷積得分圖,其更利于區(qū)分目標和背景;利用anchor box 回歸出形變量,相較于多尺度測試方法,該思路極大提升了最終的追蹤精度。然而,上述模型中,匹配模板參數(shù)在追蹤過程中保持不變,難以真正適應(yīng)目標追蹤場景的外觀變化和背景干擾。最近,ATOM[12]增加了模板在線更新模塊以應(yīng)對此問題。整個模型通過最大化邊界框重疊率[4](intersection over union,IoU)實現(xiàn),可有效提高邊界框表示的完整性,并取得更強的追蹤性能。
上述方法盡管取得了優(yōu)秀的追蹤性能,但它們在進行目標特征抽取時只聚焦于當(dāng)前幀信息,忽略了視頻序列中幀與幀之間的時空關(guān)聯(lián)信息。這種策略難以追蹤具有較強外觀變化和受外界因素干擾的目標,致使獲取的邊界框無法完整表示目標。為此,本文提出的STSiam 在考慮當(dāng)前幀信息的同時,充分利用幀與幀之間的時空關(guān)聯(lián)信息,以應(yīng)對復(fù)雜的目標外觀變化和背景干擾,也確保目標邊界框的精確修正。
循環(huán)神經(jīng)網(wǎng)絡(luò)及其變體長短期記憶(long shortterm memory,LSTM)[23]和門控遞歸單元(gate recurrent unit,GRU)[24],因其能記憶歷史輸入信息,被廣泛應(yīng)用于時序數(shù)據(jù)的處理,如語言建模[25]和機器翻譯[26]。而視頻序列也是一種時序數(shù)據(jù),因此一些工作利用RNN進行目標追蹤。Gan 等人[27]利用GRU 對CNN 提取的特征進行建模,預(yù)測目標的位置。上述方法直接將特征放入GRU,將混淆不同幀中各區(qū)域之間的時空關(guān)聯(lián),難以取得理想追蹤效果。Kahou 等[28]在RNN 中增加注意機制,指導(dǎo)建立幀與幀間目標區(qū)域的時空關(guān)聯(lián)。該方法雖然保證一部分時空關(guān)聯(lián)的正確對應(yīng),但關(guān)聯(lián)的區(qū)域數(shù)目和搜索空間過于龐大,導(dǎo)致模型追蹤速度緩慢。隨后,研究者充分利用目標檢測方法YOLO[29],提出ROLO[30],該模型通過估計目標大致位置縮小搜索空間。ROLO 利用YOLO 區(qū)分目標和非目標區(qū)域,粗略定位目標位置;然后截取目標區(qū)域特征通過LSTM 估計目標的邊界框,該思路極大提升了追蹤的速度和精度。
上述方法雖然取得了較好的追蹤性能,但它們直接將當(dāng)前幀特征輸入到RNN 或其變體(LSTM 或GRU)中建立不同幀中各區(qū)域之間的時空關(guān)聯(lián),忽略了建立關(guān)聯(lián)的數(shù)目和搜索空間大小。這種策略難以確保不同幀區(qū)域間的正確對應(yīng),降低模型的追蹤速度和精度。此外,大多基于RNN 的追蹤器利用RNN隱藏狀態(tài)枚舉目標所有可能的位置和尺度,進而回歸目標邊界框的形變參數(shù)。然而,無法確保區(qū)域間時空關(guān)聯(lián)的正確性,也就難以保證回歸結(jié)果與目標區(qū)域的對應(yīng)關(guān)系,導(dǎo)致不精確的邊界框修正。因此,STSiam充分考慮不同幀各區(qū)域時空關(guān)聯(lián)建立的過程,保留每幀特征原有的空間結(jié)構(gòu),通過建模上下文信息、目標定位分支與目標表征分支的位置對應(yīng)關(guān)系,指導(dǎo)并限制區(qū)域間聯(lián)系的建立,確保其關(guān)聯(lián)的正確性,最終準確定位目標,自適應(yīng)地精確修正目標邊界框。
為提取視頻序列各幀之間的時空關(guān)聯(lián)信息,結(jié)合各幀的目標區(qū)域信息,增強目標的特征表示,從而提高目標定位精度,確保邊界框盡量貼合目標,最終提升模型的追蹤性能,本文提出端到端的STSiam 目標追蹤框架,如圖2 所示。圖中左側(cè)是用于特征提取的孿生網(wǎng)絡(luò),右側(cè)是具有兩個輸出分支的目標定位表征網(wǎng)絡(luò),分別用于目標定位和邊界框修正。其中,φ表示特征抽取結(jié)構(gòu),*表示基于通道卷積的模板匹配操作,+表示通道維度的線性加和。
該框架主要由孿生特征抽取網(wǎng)絡(luò)和目標定位表征網(wǎng)絡(luò)兩部分組成。孿生特征抽取網(wǎng)絡(luò)對抽取自視頻序列中的模板幀和檢測幀的關(guān)鍵特征進行抽取。目標定位表征網(wǎng)絡(luò)分為目標定位和目標表征兩個分支,這兩個分支依據(jù)孿生特征抽取網(wǎng)絡(luò)所抽取的特征進行模板匹配、目標定位和邊界框修正等工作。本章將詳細介紹STSiam 框架的各個組成部分。
追蹤目標特征提取是目標追蹤獲取高性能的關(guān)鍵技術(shù)。如何提取出適用于模板匹配的關(guān)鍵信息,是目標特征提取的關(guān)鍵問題??紤]到孿生網(wǎng)絡(luò)框架所抽取的成對樣本特征位于相同層次空間,適用于比較特征之間的相同點與不同點,本文基于孿生網(wǎng)絡(luò)框架進行匹配模板(模板幀z)和匹配對象(檢測幀x)的特征提取。其中,模板幀z和檢測幀x均為從視頻序列中采樣的經(jīng)過剪裁的圖像,具體見2.5 節(jié)。
為提升實時目標追蹤的效率,本文選用層數(shù)較少的AlexNet[31]作為孿生特征抽取網(wǎng)絡(luò)的特征抽取結(jié)構(gòu)φ,具體結(jié)構(gòu)如表1 所示。特別地,為了避免追蹤目標所處位置因填充操作(padding)而偏移,本文移除AlexNet 中的所有padding 操作;除此之外,本文增大了AlexNet 中卷積層的group 參數(shù),減少了計算量,從而進一步提升特征抽取的速度。
Table 1 Structure of siamese feature extraction network φ表1 孿生特征抽取網(wǎng)絡(luò)φ 的結(jié)構(gòu)
Fig.2 Architecture of STSiam圖2 STSiam 模型架構(gòu)
本文通過使用孿生特征抽取網(wǎng)絡(luò),有效提取出當(dāng)前幀中的追蹤目標特征,將提升幀與幀之間時空關(guān)聯(lián)信息的建模精度,有助于增強后續(xù)模板匹配、目標定位和目標表征的性能。同時,通過修改AlexNet的網(wǎng)絡(luò)結(jié)構(gòu),減少計算量,提升計算速度,將有助于提升STSiam 整體框架的目標追蹤速度。
本文沿用模板匹配的思想進行追蹤目標的定位。為使追蹤模型盡量免受目標外觀及其背景變化的影響,本文基于視頻序列幀與幀之間的時空關(guān)聯(lián)信息,對匹配模板φ(z)逐幀更新。由于ConvLSTM[32]中的卷積層相較于LSTM 中的全連接層能更好地保留當(dāng)前幀中的時空信息,本文選用ConvLSTM 進行匹配模板的逐幀更新。具體地,將匹配模板特征φ(z)放入ConvLSTM 模塊,在特征通道維度將φ(z)分層,將每層的特征作為序列元素輸入ConvLSTM,再將輸出的隱藏狀態(tài)張量按照通道維度疊加,形成與φ(z)相同維度的特征張量φ′(z),并作為新的匹配模板與檢測特征φ(x)模板匹配,計算如式(1)所示。
由于目標定位和目標表征關(guān)注的信息不同,為使模板匹配后的特征能夠適用于不同任務(wù),本文使用基于通道卷積的模板匹配方法,定義為*(*即將對應(yīng)通道的特征進行卷積)。如圖3 所示,通道卷積按照特征通道維度將φ′(z) 和φ(x) 分層,并將分層的φ′(z)作為卷積核與對應(yīng)層的φ(x)進行卷積操作,再將卷積后的特征按照通道維度疊加,得到特征圖feature map,見式(2)。
Fig.3 Explanation of channel convolution in STSiam圖3 STSiam 中通道卷積的說明
由于通道卷積使模板匹配前后特征通道數(shù)不變,因此feature map具備很強的泛用性,可以通過調(diào)整特征通道數(shù)針對于目標定位和目標表征任務(wù)分別特質(zhì)化,提升模型的總體性能。
如圖4 所示(+即將模板匹配后的特征按照通道維度線性相加,最后得到得分圖),在目標定位過程中,feature map按照通道維度相加得到二維的得分圖score map,得分最高的位置對應(yīng)追蹤目標的位置。本文在目標定位過程中,基于ConvLSTM 進行匹配模板的逐幀更新,使用視頻序列幀與幀之間的時空關(guān)聯(lián)信息,確保追蹤模型盡量免受目標外觀及其背景變化的影響,有效提升目標定位精度。
Fig.4 Architecture of target location branch in STSiam圖4 STSiam 中目標定位分支的構(gòu)造
為使目標邊界框盡量貼合目標,本文將目標定位得分圖score map中的最高得分位置對應(yīng)邊界框修正圖amend map中該區(qū)域邊界框修正參數(shù)的選取位置。并使用上文介紹的feature map,通過調(diào)整特征通道針對目標表征任務(wù)特質(zhì)化,并進行邊界框修正。然而,由于不同幀中追蹤目標所在區(qū)域具有差異,現(xiàn)有方法只是定位出目標,并不能確保邊界框完整地表示目標。
為了解決這一問題,本文提出基于時空關(guān)聯(lián)信息的ST Modulation,進行邊界框修正工作。如圖5 所示,為充分獲取各區(qū)域上下左右四個方向的上下文信息,ST Modulation 使用兩組四方向RNN 建立各區(qū)域與全局的空間聯(lián)系。STSiam 中ST Modulation 的構(gòu)造:將卷積后的特征經(jīng)過1×1 卷積調(diào)整特征維度后,通過兩次四方向RNN 捕捉上下文信息和空間聯(lián)系,指導(dǎo)不同幀對應(yīng)區(qū)域的空間關(guān)聯(lián)建立,并依據(jù)區(qū)域時空關(guān)聯(lián)特征獲取每一區(qū)域的邊界框修正參數(shù)。聯(lián)系建立示例如圖6,第一組四方向RNN 將各區(qū)域與同行同列的“十”字區(qū)域建立聯(lián)系,第二組四方向RNN 將所有“十”字區(qū)域互相關(guān)聯(lián),從而覆蓋當(dāng)前幀的所有區(qū)域,即將各區(qū)域與當(dāng)前幀全局相關(guān)聯(lián),并由此得到各區(qū)域相對全局的邊界框修正圖amend map。
Fig.5 Architecture of STSiam's ST Modulation圖5 STSiam 中ST Modulation 的構(gòu)造
Fig.6 Example of four-directional RNNs圖6 四方向RNN 示例
然而,如果將視頻幀中的各個像素單獨作為區(qū)域,將導(dǎo)致時空關(guān)聯(lián)的搜索空間過于龐大,搜索效率低,且難以保證不同幀各區(qū)域的正確對應(yīng)。因此本文使用feature map中前兩個維度的17×17 劃分區(qū)域,從而篩選出真正需要建立時空關(guān)聯(lián)的區(qū)域,同時有效提升目標追蹤效率。
對應(yīng)目標定位表征網(wǎng)絡(luò)的兩部分輸出,總的損失函數(shù)也由目標定位分支和目標表征分支兩部分組成。同時由于STSiam 使用孿生網(wǎng)絡(luò)和模板匹配的方法,訓(xùn)練的輸入數(shù)據(jù)采用圖像對的格式。
2.4.1 目標定位分支損失函數(shù)
在目標定位分支,對于一個圖像對中的檢測幀,將包含目標的區(qū)域作為正樣本,只包含背景的區(qū)域作為負樣本。并采用Logistic 損失均衡正負樣本數(shù)量對模型的影響,一個區(qū)域的損失如式(3)所示。
其中,v是該區(qū)域在得分圖中的得分,y∈{+1,-1}是其正負樣本標記。
則將所有區(qū)域的損失線性相加,即得到對于一個圖像對的定位損失。定義檢測幀圖像為D,則其中每個區(qū)域u∈D,并且y∈{+1,-1}是該區(qū)域的正負樣本標記,v[u]是該區(qū)域在score map中的得分,如式(4)所示。
同時為提升模型對于目標區(qū)域的識別能力,本文細分正負樣本的判定方式y(tǒng)[u]:如果一個區(qū)域中心與目標區(qū)域中心的距離小于等于R像素(考慮到步長k=8,score map中每一區(qū)域?qū)?yīng)實際圖片的8×8像素塊,這里R=24),則認為該區(qū)域為正樣本,否則為負樣本,見式(5)。
2.4.2 目標表征分支損失函數(shù)
為確保邊界框盡量貼合檢測幀中的目標,目標表征分支用于對上一幀的邊界框進行修正。假設(shè)上一幀中目標區(qū)域的邊界框為{Ax,Ay,Aw,Ah}、檢測幀的目標區(qū)域的邊界框為{Tx,Ty,Tw,Th},則需要設(shè)計四個修正參數(shù){δ[0],δ[1],δ[2],δ[3]},盡量縮小兩者差距,見式(6)。
因此該部分的輸出amend map為不同區(qū)域的四個邊界框修正參數(shù)。為防止修正后的邊界框和真實邊界框差距過大導(dǎo)致的梯度爆炸,STSiam 使用smoothL1損失增強模型的穩(wěn)定性,見式(7)。同時為進一步提升修正后邊界框表示的完整性,模型也加入GIoU 損失,如式(8)所示。
其中,A為上一幀修正后的邊界框區(qū)域,B為檢測幀真實的邊界框區(qū)域,C為包含A和B的最小的矩形區(qū)域,|·|代表區(qū)域面積。則目標表征分支的損失函數(shù)為兩者的加和,見式(9)。
最終,STSiam 的總損失函數(shù)為目標定位分支和目標表征分支的加和,同時使用固定參數(shù)λ平衡兩部分損失,見式(10)。
為避免模型在訓(xùn)練過程中過度擬合,STSiam 采用數(shù)據(jù)量大、類別多的目標追蹤數(shù)據(jù)集GOT-10k[33]作為訓(xùn)練數(shù)據(jù)。
對應(yīng)孿生網(wǎng)絡(luò)與模板匹配,STSiam 的輸入是一系列裁剪后的圖像對。在訓(xùn)練過程中,模型從每個視頻中隨機抽取兩幀作為模板幀和檢測幀,為使模型充分學(xué)習(xí)目標的特征,兩幀中均包含對象,且最多相隔T幀。同時為增強模型追蹤的泛化性能,在訓(xùn)練期間忽略追蹤目標的類別。
為充分關(guān)注目標區(qū)域的信息,模板幀圖像和檢測幀圖像均以目標區(qū)域為中心裁剪,同時由于需要均衡關(guān)注區(qū)域,裁剪圖像為正方形。為提高追蹤模型的判別能力,圖像數(shù)據(jù)需要同時包含目標和背景。若標注邊界框的長和寬為{wGT,hGT},定義裁剪單位長度len,見式(11)。
同時不能只關(guān)注目標區(qū)域信息,背景信息能進一步提升追蹤的精度,因此模板幀圖像塊邊長定為2len。同時由于追蹤目標可能會產(chǎn)生巨大平移形變,STSiam 設(shè)置檢測幀圖像塊邊長為4len。如果裁剪圖像超出原圖像邊界,則不足部分使用圖像的平均RGB 值填充。另外,為提高模型追蹤速度,模型將裁剪圖像對調(diào)整大小到127×127 像素和255×255 像素,如圖7 所示,第一列、第二列、第三列分別是模板幀圖像塊、檢測幀圖像塊和原始圖像,追蹤目標使用紅色邊界框標注。
Fig.7 Template frame image,detection frame image and tracking frame image from GOT-10k圖7 GOT-10k 的模板幀、檢測幀、追蹤幀
由于損失的優(yōu)化需要兼顧目標定位分支和目標定位表征部分,因此在端到端訓(xùn)練過程中,STSiam 使用ADAM 最小化損失。同時為防止模型參數(shù)更新幅度過大,模型設(shè)置初始學(xué)習(xí)率為1×10-4,最終學(xué)習(xí)率為1×10-6,且每5 000 次迭代遞減80%,盡量確保離線訓(xùn)練后的模型能夠針對不同的追蹤環(huán)境,自適應(yīng)地更新模板參數(shù),增強追蹤性能。
在線追蹤過程中,還需要利用訓(xùn)練過程的結(jié)果在檢測幀中使用邊界框表示出目標。由于模型通過離線訓(xùn)練固定模型參數(shù),在線追蹤時不需要更新任何網(wǎng)絡(luò)參數(shù),因此STSiam 取得70 frame/s的實時追蹤速度,在線追蹤過程如圖8 所示。通過得分圖的最高得分位置定位目標并獲取邊界框尺寸修正參數(shù)mbest后,取對應(yīng)區(qū)域的邊界框修正參數(shù)得到修正后的邊界框{xt,yt,wt,ht},同時結(jié)合目標定位得到定位邊界框,最終合成兩個邊界框進行,即取能夠覆蓋定位邊界框(黃色)和修正邊界框(藍色)的最小邊界框為最終的邊界框(紅色)。
Fig.8 Online tracking architecture圖8 在線追蹤流程圖
考慮到目標的尺度變化,STSiam 構(gòu)建放縮檢測幀圖像的金字塔:按照三個尺度對檢測幀圖像進行放縮,再組合成一個小批次,之后放入模型進行計算,得到score map和amend map。假設(shè)為三個不同尺度的檢測幀圖像,則對應(yīng)的score map為,并通過比較三個尺度的最高得分位置定位目標,并獲取尺度修正參數(shù)mbest,見式(12)。在邊界框修正前,先對上一幀邊界框的長寬進行尺度修正,若上一幀的目標邊界框為{xt-1,yt-1,wt-1,ht-1},則進行尺度修正后得到{xt-1,yt-1,wt-1′,ht-1′},見式(13)。
再根據(jù)score map中的最高分位置,在amend map中得到針對該區(qū)域的邊界框修正參數(shù){dxt-1,dyt-1,dwt-1,dht-1},對尺度修正后的上一幀目標邊界框{xt-1,yt-1,wt-1′,ht-1′}進行數(shù)值修正,得到檢測幀的目標邊界框{xt,yt,wt,ht},見式(14)。
另外,由于score map的目標定位位置和實際圖片有著步長k的對應(yīng)關(guān)系,因此STSiam 將該位置對應(yīng)到真實圖片中得到,同時沿用修正后的邊界框長和寬{wt,ht},也得到了一個目標邊界框。為進一步提高模型的容錯率,模型將兩個邊界框融合,即取能包含兩個邊界框的最小矩形,作為最終的目標邊界框,如圖7 所示。
STSiam 使用Pytorch 框架實現(xiàn),該模型在帶有32 GB 內(nèi)存、Intel i7 9900K CPU 和11 GB 顯存的Nvidia 2080Ti GPU 的個人電腦上以70 frame/s 的速度運行。本文將STSiam 與許多實時性能一流的追蹤模型(即速度超過25 frame/s)在許多權(quán)威數(shù)據(jù)集上進行比較,包括OTB2015、VOT2016、VOT2018 和LaSOT。所有追蹤結(jié)果均使用報告的結(jié)果,以確保公平比較。
OTB2015 數(shù)據(jù)集是最流行的追蹤基準之一,由100 個具有11 種不同屬性的圖像序列組成,包括照明變化(illumination change,IV)、尺度變化(scale variation,SV)、遮擋(occlusion,OCC)、變形(deformation,DEF)、運動模糊(motion blur,MB)、快速運動(fast movement,F(xiàn)M)、平面內(nèi)旋轉(zhuǎn)(in plane rotation,IPR)、平面外旋轉(zhuǎn)(out of plane rotation,OPR)和低分辨率(low resolution,LR)等?;诰嚯x精度(Precision)和重疊成功率(Success rate)兩個指標,采用一次評估法(one-pass evaluation,OPE)對不同的追蹤器進行評估。這里將STSiam 與最新的追蹤器進行比較,包括ECO[34]、MDNet[35]、LSART[36]、C-COT[8]、SiamRPN、PTAV[37]、DeepSRDCF[38]、Staple[39]、SiamFC 和KCF[7]。
圖9 根據(jù)OPE 規(guī)則報告了不同追蹤器的Success和Precision 圖。其中,STSiam 的Success 得分為0.690,Precision 得分為0.925,取得了幾乎最好的追蹤效果。表2 總結(jié)了OTB2015 上前五的追蹤器的精度和速度,STSiam 無論在成功率、準確率和速度上都取得領(lǐng)先性能。因為OTB2015 數(shù)據(jù)集由25%的灰色序列和75%的彩色序列構(gòu)成,這可能會對基于色彩特征的追蹤方法產(chǎn)生巨大的影響,如KCF、Staple。
Fig.9 Success and normalized precision plots on OTB2015圖9 OTB2015 數(shù)據(jù)集上的精度和成功率對比曲線圖
Table 2 Comparison of accuracy and speed of top five trackers on OTB2015表2 OTB2015數(shù)據(jù)集前五名追蹤器的精度和速度比較
而本文模型的孿生特征抽取子網(wǎng)絡(luò)挖掘的特征能夠反映目標的語義特征,具備更好的適應(yīng)性。同時,該數(shù)據(jù)集序列長度為50~3 000 frame不等,因此如ECO、MDNet、LSART 等追蹤模型在長時追蹤后,模型參數(shù)可能無法適應(yīng)目標外觀的變化,導(dǎo)致追蹤失敗。而STSiam 的模板在每一幀過后都會基于現(xiàn)有的時空關(guān)聯(lián)信息進行更迭,因此即使長時追蹤也能比較精確地追蹤目標。該實驗充分體現(xiàn)了STSiam 提取的特征能夠適應(yīng)不同色彩的視頻序列和長時追蹤的外觀變化,在保證成功率的同時,還能夠提高定位的精準度。
VOT2016 數(shù)據(jù)集包含60 個用6 個不同屬性注釋的短序列。根據(jù)其評估協(xié)議,只要檢測到追蹤失敗,被測追蹤器就會重新初始化。在該基準中,精度(Accuracy)和魯棒性(Robustness)以及期望平均重疊(expected average overlap,EAO)是3 個重要的標準。這里將STSiam 與SiamRPN 中報告的CCOT、Siam-Mask[40]、DWSiam[41]、TCNN[42]、Staple 和SiamFC 等 前10 個追蹤器在VOT2016 數(shù)據(jù)集上進行比較。
不同追蹤器在VOT2016 上的精度、魯棒性和期望平均重疊度得分如表3 所示(排行前三的結(jié)果分別用加粗、下劃線、斜體顯示),STSiam 取得了較高的Accuracy和Robustness分數(shù),同時在EAO 上取得了最佳性能。VOT2016 數(shù)據(jù)集相對于OTB2015 數(shù)據(jù)集,分辨率大幅提升,全部采用相對較短幀數(shù)的彩色序列,而且?guī)c幀之間變化更大,干擾更多,這更加考驗追蹤器的適應(yīng)能力。相對于SiamMask 采用目標分割的方法取得了最高的Accuracy,本文的模型具備更好的Robustness,即不會輕易跟丟目標,這得益于模型捕捉幀與幀之間的時空關(guān)聯(lián)信息并以此更新模板參數(shù),以應(yīng)對光照、旋轉(zhuǎn)等外觀變化。雖然STSiam的Accuracy略低,但是基于全局區(qū)域空間關(guān)聯(lián)特征的邊界框修正,仍能取得第二的Accuracy。另外,相比于只有7 frame/s的SiamMask,STSiam 以70 frame/s的速度完成測試,同時SiamMask 的訓(xùn)練數(shù)據(jù)超過100 000個視頻,而STSiam 只使用大約4 000 個視頻,更符合實際使用情況。此實驗體現(xiàn)本文的模型在訓(xùn)練難度、精度、魯棒性、追蹤速度之間取得了很好的平衡。
Table 3 Test scores of different trackers on VOT2016表3 不同追蹤器在VOT2016 的測試得分
VOT2018 數(shù)據(jù)集由60 個視頻(相對于VOT2016數(shù)據(jù)集使用更難的序列)組成,也根據(jù)精度、魯棒性和期望平均重疊來評估性能。這里采用該數(shù)據(jù)集比賽的一些領(lǐng)先追蹤器進行比較,包括ATOM、Siam-Mask、LADCF[43]、SiamRPN++[44]、MFT[45]、UPDT[46]、DRT[47]和DaSiamRPN[48]等10 個優(yōu)秀的追蹤器。
不同追蹤器在VOT2018 上的精度、魯棒性和期望平均重疊度得分如表4 所示(排行前三的結(jié)果分別用加粗、下劃線、斜體顯示),STSiam 模型的Robustness 最高,可以良好適應(yīng)各種追蹤場景,也保持較高的Accuracy,最終在EAO方面取得了最好的性能。相對于VOT2016 使用更難追蹤視頻序列的VOT2018,幀與幀之間的時空關(guān)聯(lián)信息更能起到關(guān)鍵的作用,雖然ATOM 采用在線更新的方式更迭匹配模板的參數(shù),但是只是針對特征通道添加權(quán)重并不能很有效適應(yīng)大量變化的目標外觀;而且對比先預(yù)選區(qū)域再修正邊界框的RPN 方法,STSiam 直接將區(qū)域與全局空間聯(lián)系起來,并根據(jù)目標定位直接選擇區(qū)域進行更迭更加高效,這也使得本文的模型在測試中達到70 frame/s的領(lǐng)先追蹤速度。
Table 4 Test scores of different trackers on VOT2018表4 不同追蹤器在VOT2018 的測試得分
LaSOT 的測試集由280 個視頻組成,平均長度為2 448 幀,比大多數(shù)數(shù)據(jù)集都要長,這更加考驗追蹤器的追蹤穩(wěn)定性。這里將STSiam與ECO、PTAV、MDNet、GlobalTracker[49]、SiamRPN++、ATOM、DaSiam_LT[50]、SPLT[51]、VITAL[52]和SiamFC 進行比較,Precision 和Success rate對比如圖10 所示。
LaSOT 數(shù)據(jù)集更加注重真實的情況,視頻序列偏向于長時追蹤,同時目標類別超過70 個,盡力避免追蹤器評測中的類別敏感。得益于共享參數(shù)的孿生特征抽取子網(wǎng)絡(luò),STSiam 保證模板幀與檢測幀的特征空間在同一維度,避免由于類別差異帶來的不平衡,而MDNet 對于不同類別的序列追蹤效果大不相同;針對長時追蹤,只使用當(dāng)前幀特征的VITAL、ECO 追蹤器無法有效地適應(yīng)目標的外觀變化和背景干擾,而幀與幀之間的時空關(guān)聯(lián)特征能保證本文的模型應(yīng)對這些干擾。因此與最新的長期追蹤器DaSiam_LT 和SPLT 相比,STSiam 有著更佳的性能。同時相對于GlobalTracker 的全區(qū)域搜索方法,STSiam 使用先定位目標、后修正邊界框的雙階段追蹤方法,并取得最好的Precision。該實驗表明本文提出的模型能夠在接近實際情況的追蹤環(huán)境下,取得良好的精度與速度。
Fig.10 Success and normalized precision plots on LaSOT圖10 LaSOT 數(shù)據(jù)集上的精度和成功率對比曲線圖
本文提出基于時空關(guān)聯(lián)的自適應(yīng)追蹤目標特征學(xué)習(xí)框架STSiam,基于當(dāng)前幀信息,建模幀與幀之間的時空關(guān)聯(lián)信息,并通過目標定位和目標邊界框修正兩個階段追蹤目標。為適應(yīng)目標外觀和背景變化的影響,STSiam 使用時空關(guān)聯(lián)信息更新匹配模板的參數(shù),提高定位精度。同時為確保邊界框盡量貼合目標,STSiam 關(guān)注不同幀對應(yīng)區(qū)域之間的空間關(guān)聯(lián)信息,利用目標定位鎖定目標區(qū)域并進行邊界框修正。另外,該模型基于離線訓(xùn)練,在線追蹤時不需要額外更新網(wǎng)絡(luò)參數(shù),提高追蹤速度。在實驗中,STSiam 以70 frame/s 的速度在廣泛使用的大規(guī)模追蹤數(shù)據(jù)集(OTB100、VOT2016、VOT2018 和LaSOT)上均取得領(lǐng)先性能。