程金偉,胡大裟,蔣玉明
(四川大學計算機學院,成都610065)
目標追蹤是自動監(jiān)視、車輛導航、視頻標注、人機交互以及動作識別等領域的應用最重要的任務:在已知視頻前一幀中任意物體的位置情況下,以盡量高的準確率去估計該物體在后一幀中的位置[1]。
目標追蹤要求算法能夠以盡量貼近視頻幀率的速度快速運算進行物體的追蹤。同時,由于光照、鏡頭縮放等環(huán)境或相機狀態(tài)的變化以及物體產生外邊形變等自身狀態(tài)的變化,使穩(wěn)定追蹤成為目標追蹤算法面臨的主要挑戰(zhàn)。
本文提出了將超像素與孿生網(wǎng)絡結構相結合的目標動態(tài)追蹤新方法。以孿生網(wǎng)絡結構為框架,使用目標掩膜和超像素生成目標框提高目標追蹤的準確率。在VOT數(shù)據(jù)集下與其他算法進行對比試驗,驗證本文算法的準確率和魯棒性。
追蹤任意物體的通行方法是從視頻前一幀提供的真實信息中在線訓練出具有判別目標和背景能力的分類器,從而隨著視頻對其更新來進行追蹤。
隨著深度卷積網(wǎng)絡的興起,基于孿生網(wǎng)絡(Siamese Network)的追蹤方法被引入到目標追蹤領域。該方法將追蹤視為度量學習問題,通過使用示例圖片z和候選圖片x獲得比較函數(shù)進行追蹤;比較函數(shù)的函數(shù)值反映示例圖片和候選圖片描述同一物體的可能性;通過在新圖片中遍歷所有可能位置,利用比較函數(shù)即可獲得目標外表相似程度最高的候選目標并實現(xiàn)追蹤。Bertinetto等人提出了基于該方法的全連接孿生網(wǎng)絡模型[1],將相同的變換φ作用與示例圖片z和候選圖片x,使用另一個函數(shù)g(z,x)結合變換后的結果得到f(z,x)=g(φ(z),φ(x));當函數(shù)g(z,x)是距離度量函數(shù)時變換φ可以被認為是嵌入函數(shù)(embedding);通過卷積,孿生網(wǎng)絡結構輸出一個響應圖,響應圖由當前幀所有候選圖片和示例圖片的相似函數(shù)值組成;再通過插值獲得高響應值圖片所在的位置,即實現(xiàn)目標追蹤。
Li等人利用候選區(qū)域(region proposal)優(yōu)化了孿生網(wǎng)絡的效果[2];Zhu et al使用難例挖掘(hard negative mining)[3];He等人利用集成學習進一步優(yōu)化了追蹤結果[4]。
大部分的追蹤方法在初始化目標階段選擇使用矩形標定框來確定目標。然而矩形框并不能很好地確定目標。因此依靠矩形框初始化更加細粒度地確定目標是亟待解決的問題。
Wang等人基于Bertinetto等人的算法,在保留離線學習和運算速度的前提下,提出SiamMask算法[5]。由于全連接孿生網(wǎng)絡的輸出僅包含目標的位置,并不包含其空間范圍,該算法在孿生網(wǎng)絡結構的基礎上增加了候選區(qū)域網(wǎng)絡(Region Proposal Network)和類別無關的二值分割(Binary Segmentation)。通過RPN和分割出的掩膜計算獲得更加精確的目標位置,提升追蹤效果。
超像素是指使用聚類算法將完整圖像分割出的子區(qū)域[6]。每個子區(qū)域均包含若干個像素,一個子區(qū)域對應聚類中的一個簇,同簇中的對象彼此的特征相似,與其他簇中的對象特征差異較大。由于超像素具有這樣的特性,因此具備將目標和背景區(qū)分出來,指示自身包含的像素的類別是目標或背景的能力。將超像素運用在視覺計算中可以很好地去除與追蹤任務無關的圖片信息,減小算法的復雜度。
Yeo等人提出基于超像素分割使用吸收態(tài)馬爾科夫鏈(Absorbing Markov Chain)進行追蹤[7]。其只使用LAB顏色空間的顏色均值作為目標特征,并沒有充分利用目標信息,且運算速度十分緩慢,并不滿足實時性要求。
Luo等人采用超像素進行目標特征建模,通過確定關鍵點位置利用金字塔追蹤器預測目標位置進行追蹤[8]。由于要提取大量關鍵點進行計算,因此運算速度約在1FPS左右,并不滿足實時性要求。
由表1可以看出,相關濾波類算法MOSSE、SRDCF、KCF等相比于深度學習方法,其精度不如后者,這是由于深度學習方法提取出的特征有更好的表征能力,深度學習方法訓練出的模型更加完善。但深度學習類算法追蹤速度并比不上相關濾波類算法,這是由于相關濾波類算法使用傅里葉快速變換在頻域中進行運算,大大提升了計算速度。
表1 算法指標對比
目標追蹤任務可以被認為是研究后續(xù)幀和首幀之間同一目標的相似性問題。通過特征抽取,選定后續(xù)幀中與首幀目標的特征相似度最高的物體作為目標進行追蹤。利用目標提供的色彩等特征進行追蹤時,由于缺少背景信息,經(jīng)常會導致追蹤失敗,因此在追蹤過程中利用一定的背景信息能夠增強追蹤效果。本文提出結合超像素的孿生網(wǎng)絡追蹤方法,通過超像素提取目標信息作為樣本進行追蹤,提高追蹤效果。
孿生網(wǎng)絡結構包含兩個或多個參數(shù)相同,權重共享的子神經(jīng)網(wǎng)絡,其參數(shù)可在子網(wǎng)絡上同時更新。因此利用一次前向傳播并進行互相關運算即可得到輸入的相似程度。
函數(shù)f對示例圖片z和候選圖片x進行相似度判定,輸出最大值對應目標位置。z通常以第一幀中的目標為中心,x是第n幀中以n-1幀目標位置為中心截取的圖像。
使用卷積神經(jīng)網(wǎng)絡φ對圖片進行卷積提取特征。使用互相關運算將特征映射融合:
通過互相關運算,f(z,x)計算出示例圖片z在候選圖片x中不同位置的相似度,響應值最大位置對應候選圖片x中目標位置。孿生網(wǎng)絡結構輸出尺寸為D?Z2的相似度圖,如圖1所示。
圖1 孿生網(wǎng)絡結構
在追蹤時,以n-1幀中的目標位置為中心選取候選圖片,對相似度圖進行插值,將最大值所在的位置作為目標位置,得到每一幀的目標位置情況。
本文介紹的結合超像素的孿生網(wǎng)絡算法整體網(wǎng)絡結構如圖2所示,*d表示對基礎網(wǎng)絡輸出進行空間互相關運算。通過卷積神經(jīng)網(wǎng)絡sφ的輸出選取卷積神經(jīng)網(wǎng)絡輸出中的最大值,得到當前候選圖片中目標的位置,對候選圖片進行超像素分割,生成目標的優(yōu)化掩膜,進行追蹤。
圖2 網(wǎng)絡結構
卷積神經(jīng)網(wǎng)絡sφ對基礎網(wǎng)絡輸出的張量進行卷積,輸出相似度圖,得到目標位置與相似程度。使用雙三次插值對相似度圖進行上采樣,得到更準確的目標位置。為了抑制追蹤漂移的情況,使用余弦窗懲罰相似度圖中的過大位移情況,同時為了應對尺度變化,對樣本的五個尺度進行搜索。
為了得到更加精確的分割掩膜,使用優(yōu)化模塊R對Conv1、Conv2以及Conv3的輸出進行元素求和,使用流水線結構對初級掩膜不斷進行上采樣,并對各卷積層輸出結果進行反卷積,使初級掩膜與不同分辨率的掩膜融合。掩膜融合后輸出的指示掩膜如圖3所示。
圖3 初級掩膜
在CIELAB色彩空間對當前圖片以S為間隔對目標位置進行采樣,共有k個聚類中心Ci=[li ai bi xi yi]T,,N為圖片大小。將每個聚類中心移動到3×3領域中梯度最低位置以避免超像素中心位于邊緣。
計算每個像素在2S×2S范圍內與所有聚類中心的距離D,將該像素點歸入距離最小的簇中。其中,距離度量:
m為權重系數(shù)。
當每個像素都被歸入相應簇中,更新各簇聚類中心至該簇所有像素的平均向量計算殘差是更新前的聚類中心,是更新后的聚類中心。不斷更新聚類中心直至殘差‖E‖2小于閾值。
通過對卷積神經(jīng)網(wǎng)絡sφ預測的目標位置進行超像素分割,將前景與背景分割開來。結合卷積神經(jīng)網(wǎng)絡輸出的掩膜,規(guī)定超像素面積Ms與指示掩膜面積Mm之比>0.8為優(yōu)化掩膜。如圖4所示。通過優(yōu)化掩膜生成最小包圍矩形框進行追蹤,如圖5所示。
圖4 優(yōu)化掩膜
圖5 追蹤框
使用VOT數(shù)據(jù)集的評價方法作為評測標準。VOT數(shù)據(jù)集使用準確率(accuracy)和魯棒性(robustness)作為評價標準的基本計算單位。準確率計算公式如下:
VOT數(shù)據(jù)集包含60種圖片序列,包含了光照變化、部分遮擋、鏡頭縮放、目標外表形變等情況。一個優(yōu)秀的追蹤算法應該具有較高的期望平均重疊率和平均準確率,較低的平均魯棒性。
表2展示了本文算法與在VOT2018數(shù)據(jù)集的評價基準下的追蹤算法CSRDCF、DaSiamRPN、SiamRPN的指標對比。
表2 算法指標對比
在準確率方面,本文提出的算法準確率為0.575,在四個算法中居于首位,并且對比基于相關濾波算法CSRDCF高出0.104。這說明深度卷積神經(jīng)網(wǎng)絡比相關濾波器提取出的特征更加有效,能更好地表征目標。
圖6展示了四種追蹤算法在rabbit和fernando圖片序列下的追蹤效果。Rabbit序列中追蹤目標為兔子,它和背景的雪顏色高度相似。因此,四種算法都產生了不同程度的漂移,DasiamRPN和CSRDCF生成的目標框內不包含目標,追蹤失敗。本文提出的算法相比SiamRPN更好地標識出了目標所在位置。Fernando序列中追蹤目標為暹羅貓,其外觀會產生劇烈變化,干擾算法進行追蹤。得益于通過掩膜生成目標框的特性,本文提出的算法相比較其他算法更加精準地定位出目標的整體情況。
圖6 追蹤對比
基于孿生網(wǎng)絡結構的算法具有追蹤效果好,網(wǎng)絡結構簡單,實時性好的優(yōu)點,本文基于孿生網(wǎng)絡結構,提出將超像素與目標掩膜相結合進行追蹤的方法。利用卷積神經(jīng)網(wǎng)絡生成的初級掩膜作為指示,使用超像素分割目標和背景進行掩膜優(yōu)化。使用掩膜的最小包圍矩形框代替了傳統(tǒng)的邊界框,提高了目標追蹤的準確率。在VOT數(shù)據(jù)集上的實驗結果表明,與當前主流追蹤算法相比,將超像素與孿生網(wǎng)絡結構相結合進行目標追蹤,具有提升目標追蹤效果的能力。