孫海宇,陳秀宏,肖漢雄
(江南大學(xué) 數(shù)字媒體學(xué)院,江蘇 無(wú)錫 214122)
單目標(biāo)跟蹤是一項(xiàng)基礎(chǔ)而又重要的計(jì)算機(jī)視覺任務(wù)。通常所講的單目標(biāo)跟蹤是指:在視頻的首幀,給定目標(biāo)的初始狀態(tài)(如:位置、大小),然后在視頻的后續(xù)幀中估計(jì)出目標(biāo)的狀態(tài)[1]。估計(jì)一個(gè)對(duì)象的運(yùn)動(dòng)軌跡[2]可以達(dá)到目標(biāo)跟蹤的目的,但是目標(biāo)軌跡的估計(jì)在多種干擾因素的影響下易有較大的誤差。常見的干擾因素有:光照變化 (illumination variation,IV)、大小變化 (scale variation,SV)、遮擋 (occlusion,OCC)、變形 (deformation,DEF)、運(yùn)動(dòng)模糊 (motion blur,MB)、快速運(yùn)動(dòng)(fast motion,F(xiàn)M)、平面內(nèi)旋轉(zhuǎn) (in-plane rotation,IPR)、平面外旋轉(zhuǎn) (out-of-plane rotation,OPR)、部分顯示(out-of-view,OV)、背景雜亂(background clutters,BC)、目標(biāo)像素過少 (low-resolution,LR)等[3]。實(shí)際上,目標(biāo)跟蹤就是要在當(dāng)前幀中確定與目標(biāo)相關(guān)的兩大要素:位置以及大小。有很多方法可以實(shí)現(xiàn)該目的,其中,檢測(cè)就是一種比較流行的方法。若在基于檢測(cè)的目標(biāo)跟蹤方法中采用前背景分類器,這種追蹤方法又稱作基于判別式模型[4]的追蹤方法。判別式追蹤器充分利用了視頻序列中每一幀的前背景信息,從而達(dá)到區(qū)分目標(biāo)和背景的目的,如:Henriques等[5]所提出的追蹤器以及Danelljan等[6]提出的追蹤器,從某種意義上講,以上追蹤器亦可稱為模板匹配類的追蹤器。這類追蹤器主要通過已知的目標(biāo)信息,習(xí)得一個(gè)與目標(biāo)相關(guān)的濾波模板,然后使用該模板在搜索區(qū)域(可能包含目標(biāo)的區(qū)域)進(jìn)行滑動(dòng)匹配,以匹配度的形式來(lái)反應(yīng)匹配區(qū)域是否是目標(biāo)位置,并將匹配度最高的位置作為最佳目標(biāo)位置。文獻(xiàn)[7]中,主要討論的是樣本采樣問題,當(dāng)樣本的數(shù)目采集的越多時(shí),這些樣本會(huì)構(gòu)成一種理論比較完善的循環(huán)結(jié)構(gòu),故而提出了循環(huán)采樣的方法。文獻(xiàn)[5]中,基于文獻(xiàn)[7],使用樣本的原始像素或者方向梯度直方圖作為樣本特征求解模板,然后使用該模板進(jìn)行目標(biāo)位置的匹配。從跟蹤的定義上來(lái)看,以上主要解決的是目標(biāo)追蹤中的位置問題。文獻(xiàn)[6]中,基于文獻(xiàn)[5],主要討論了目標(biāo)尺度問題,在求解尺度以及位置的時(shí)候,使用的是方向梯度直方圖作為特征。類似的追蹤器還有文獻(xiàn)[8-9],而最近幾年,深度學(xué)習(xí)在許多應(yīng)用領(lǐng)域表現(xiàn)出了優(yōu)秀的成績(jī)[10],目標(biāo)追蹤領(lǐng)域也不例外,自Wang Naiyan將深度學(xué)習(xí)算法應(yīng)用到跟蹤領(lǐng)域[11]后,深度學(xué)習(xí)類的追蹤器也涌現(xiàn)出不少優(yōu)秀的作品,文獻(xiàn)[12]中,提出了基于孿生網(wǎng)絡(luò)的深度追蹤器,其在利用目標(biāo)信息提取出卷積特征之后,僅僅使用了卷積特征在搜索區(qū)域進(jìn)行目標(biāo)位置的匹配。文獻(xiàn)[13]在文獻(xiàn)[12]的基礎(chǔ)上直接將相關(guān)濾波轉(zhuǎn)化為了神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)層,使得兩者合二為一,成為一個(gè)端到端的整體系統(tǒng),但是依舊僅僅使用卷積網(wǎng)絡(luò)所提取出來(lái)的特征。在最近的研究中,孿生網(wǎng)絡(luò)受到了極大的關(guān)注。文獻(xiàn)[14]提出了一種動(dòng)態(tài)孿生網(wǎng)絡(luò)通過在線學(xué)習(xí)目標(biāo)的外形變化以獲得目標(biāo)的時(shí)域信息;文獻(xiàn)[15]結(jié)合RPN改進(jìn)了候選框的生成來(lái)提高追蹤的精度;文獻(xiàn)[16]則嘗試通過改變訓(xùn)練樣本的數(shù)據(jù)分布來(lái)獲得更具有判別性的特征;文獻(xiàn)[17]基于FaceNet中的Triplet Loss來(lái)改進(jìn)損失函數(shù)。本文認(rèn)為,網(wǎng)絡(luò)卷積出來(lái)的特征其實(shí)是碎片化的,故而在進(jìn)行目標(biāo)位置匹配的時(shí)候,易在遠(yuǎn)離目標(biāo)的地方產(chǎn)生位置響應(yīng)噪聲,從而影響目標(biāo)位置的確定。因此,本文設(shè)計(jì)了一種聯(lián)合外形響應(yīng)的深度目標(biāo)追蹤器,利用外形信息的位置響應(yīng)來(lái)修正卷積的位置響應(yīng),從而得到更準(zhǔn)確的目標(biāo)定位,并通過實(shí)驗(yàn)與其他追蹤器進(jìn)行了比較,驗(yàn)證了思路的可行性。
模板匹配類的追蹤器,基本思想是通過衡量目標(biāo)與搜索區(qū)域內(nèi)各個(gè)部分的相似度,選取相似度最大的位置作為目標(biāo)位置。事實(shí)上,這種思想在基于深度學(xué)習(xí)的追蹤器[12]和基于相關(guān)濾波的追蹤器[5]中均有體現(xiàn)。
在深度追蹤器中,模板的匹配大都是通過孿生網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)的,Bertinetto等[12]第一次將孿生網(wǎng)絡(luò)應(yīng)用于目標(biāo)追蹤。圖1展示了一個(gè)典型的孿生網(wǎng)絡(luò)結(jié)構(gòu)圖,表示已經(jīng)訓(xùn)練好的、權(quán)值固定的卷積網(wǎng)絡(luò);表示上一幀的目標(biāo)信息;表示搜索區(qū)域;表示相關(guān)操作,實(shí)踐中具體表現(xiàn)為卷積運(yùn)算。當(dāng)與分別經(jīng)過卷積網(wǎng)絡(luò)提取特征之后,分別得到卷積特征,以及,通過計(jì)算兩者之間的相關(guān)性可得到搜索區(qū)域中每個(gè)部分與目標(biāo)之間的相關(guān)程度響應(yīng)(圖中的紅點(diǎn)表示搜索區(qū)域中紅色部分與目標(biāo)的相關(guān)程度,而藍(lán)點(diǎn)則表示搜索區(qū)域中藍(lán)色部分與目標(biāo)的相關(guān)程度),當(dāng)?shù)玫巾憫?yīng)圖之后,通過三線性插值,最大響應(yīng)值的位置便可作為當(dāng)前幀的目標(biāo)位置。
圖 1 孿生網(wǎng)絡(luò)追蹤器結(jié)構(gòu)圖Fig. 1 Siamese network tracker structure
相關(guān)濾波類的追蹤器最早是由文獻(xiàn)[18]提出來(lái)的,文獻(xiàn)[7]在其基礎(chǔ)上發(fā)展了循環(huán)采樣以及引入了核方法,但在文獻(xiàn)[19]中,將目標(biāo)位置和大小分開考慮,與本文將追蹤中兩大要素分而治之的思想更為契合,因此為本文所選用。為了獲取目標(biāo)位置的響應(yīng)圖,相關(guān)濾波類的追蹤器要找到一個(gè)最優(yōu)化的濾波器,該濾波器由所構(gòu)成。通過最小化如下的代價(jià)函數(shù)獲得:
在人類視覺中,目標(biāo)的外形信息具有重要的意義,倘若缺少了目標(biāo)的外形信息,人類就會(huì)產(chǎn)生‘一葉障目'的視覺障礙,因此在過去的幾十年中,學(xué)者們對(duì)于目標(biāo)的外形信息有著大量的研究[20-23]。目標(biāo)的外形信息一般存在于目標(biāo)與背景之間,能夠有效地突出目標(biāo)物,為雙眼提供一個(gè)良好的聚焦區(qū)域。由于目標(biāo)與背景在外形上存在較大的差異,因而學(xué)者們常常使用微分的方式來(lái)檢測(cè)目標(biāo)的外形信息,常見的方式有Canny、Sobel、Roberts、Scharr、Prewitt、Hog,此外,還有小波變換等方式,其檢測(cè)效果如圖2所示。
圖 2 外形信息檢測(cè)方法Fig. 2 The samples of methods to detect outlines
本文在可視化卷積網(wǎng)絡(luò)特征后,觀察到其與文獻(xiàn)[24]所述的局部性、方向性的特征具有相似性后(如圖3),更加驗(yàn)證了本文聯(lián)合外形信息的想法。圖3(a)為卷積網(wǎng)絡(luò)所提取的特征,圖3(b)為稀疏編碼所求得的基,可以發(fā)現(xiàn)圖3(a)的特征與未完全處理的基具有很高的相似性。如前所述,提取目標(biāo)外輪廓信息有相當(dāng)多的方法,鑒于方向梯度直方圖在追蹤問題上的廣泛應(yīng)用,本文選擇使用方向梯度直方圖來(lái)提取外形信息。
圖 3 特征對(duì)比Fig. 3 Features comparison
本文提出的聯(lián)合外形響應(yīng)的深度目標(biāo)追蹤器的結(jié)構(gòu)如圖4所示,它由兩個(gè)部分組成,一個(gè)是由卷積網(wǎng)絡(luò)所構(gòu)成的位置匹配部分,這個(gè)部分主要使用卷積網(wǎng)絡(luò)提取的目標(biāo)特征進(jìn)行位置匹配,稱之為卷積匹配部分,另一個(gè)是利用外形信息使用相關(guān)濾波進(jìn)行位置匹配,稱之為濾波匹配部分。
圖 4 本文目標(biāo)追蹤器結(jié)構(gòu)Fig. 4 The architecture of the proposed deep tracker
2.1.1 卷積匹配部分
在追蹤器的卷積匹配部分僅使用卷積網(wǎng)絡(luò)提取的特征進(jìn)行目標(biāo)位置的匹配,同時(shí)融合了尺度考慮,同文獻(xiàn)[12]中所表示的那樣,本文僅使用了3種尺度,追蹤器的輸入同文獻(xiàn)[12]一樣是一對(duì)樣本,一個(gè)是在初始幀中標(biāo)記出來(lái)的目標(biāo),用來(lái)表示,其維度是,另一個(gè)是在當(dāng)前幀中,以上一幀目標(biāo)中心為中心的包含背景的目標(biāo)搜索區(qū)域,用表示,其維度是,將兩者通過權(quán)值固定的卷積網(wǎng)絡(luò),是文獻(xiàn)[25]中所提出的AlexNet網(wǎng)絡(luò)(不包含全連接層),提取出對(duì)應(yīng)的卷積特征和之后,通過相關(guān)操作得出目標(biāo)的位置響應(yīng)。
2.1.2 濾波匹配部分
在追蹤器的濾波匹配部分,主要使用方向梯度直方圖來(lái)提取目標(biāo)的外形信息。由于目標(biāo)的外形信息常常存在于目標(biāo)與背景之間,為了提取目標(biāo)的外形信息,需要包含一些背景信息,因此本文直接在中進(jìn)行目標(biāo)的外形信息提取。如果當(dāng)前幀是首幀的話,就使用式(2)初始化濾波匹配時(shí)所需要的和,如果當(dāng)前幀不是首幀的話,就利用式(5)求得目標(biāo)的位置響應(yīng),然后再利用式(3)和式(4)更新和。
在沒有使用外形信息對(duì)位置響應(yīng)進(jìn)行修正的情況下,由于卷積特征中多是類似于局部的、方向性的特征,這種碎片化的特征容易導(dǎo)致在遠(yuǎn)離目標(biāo)的區(qū)域處產(chǎn)生極大的位置響應(yīng)點(diǎn),從而形成位置響應(yīng)噪聲。如圖5中卷積匹配的位置響應(yīng)圖所示(X、Y軸無(wú)十分重要的物理意義,Z軸表示相關(guān)性程度,數(shù)值越大表示該處與目標(biāo)的相關(guān)性越大,則顏色越紅)。相對(duì)的,在搜索區(qū)域中,目標(biāo)的外形占比一定大于局部特征的占比,所以利用了外形信息的濾波匹配的位置響應(yīng)大多會(huì)集中在目標(biāo)區(qū)域處,如圖5中濾波匹配的位置響應(yīng)圖所示,聯(lián)合該外形信息的位置響應(yīng),可以有效地突出目標(biāo)的所在區(qū)域,使得位置響應(yīng)集中在目標(biāo)區(qū)域處,從而達(dá)到抑制噪聲,避免位置發(fā)生漂移的目的。如圖5中修正的位置響應(yīng)圖所示,可以看到目標(biāo)的位置響應(yīng)圖在修正后,抑制住了左邊的噪聲響應(yīng)。聯(lián)合該外形位置響應(yīng),涉及到數(shù)據(jù)融合技術(shù),可以使用加權(quán)平均法、貝葉斯估計(jì)法[26]、卡爾曼濾波法[27]等,本文為驗(yàn)證想法直接采用了最為簡(jiǎn)單的加權(quán)平均法:
圖 5 位置響應(yīng)的變化Fig. 5 The transform of position response map
訓(xùn)練時(shí),網(wǎng)絡(luò)的輸入是一對(duì)樣本,并且,執(zhí)行
卷積匹配部分,網(wǎng)絡(luò)的構(gòu)成同文獻(xiàn)[12]一樣(去除了網(wǎng)絡(luò)的全連接部分),權(quán)重的取值是經(jīng)過405 650次隨機(jī)梯度下降得到的,網(wǎng)絡(luò)訓(xùn)練的數(shù)據(jù)集是從ILSVRC-2015視頻數(shù)據(jù)集[29]中提取出的4 417個(gè)視頻序列,網(wǎng)絡(luò)訓(xùn)練的損失函數(shù)為一次梯度下降使用8對(duì)樣本,一對(duì)樣本中,的維度是,的維度是,經(jīng)過網(wǎng)絡(luò)后,的維度是,的維度是,經(jīng)過三線性插值后,維度為,學(xué)習(xí)率采用動(dòng)態(tài)學(xué)習(xí)率,初始值為,然后使用如下的指數(shù)衰減法進(jìn)行衰減:
圖 6 效果圖Fig. 6 The effect of
本文使用Tensorflow[30]框架來(lái)實(shí)現(xiàn)模型,版本為1.4.0,實(shí)驗(yàn)是在配置為i5-7300HQ 2.5 GHz CPU,GeForce GTX1050 GPU的筆記本中運(yùn)行的。
3.3.1 指標(biāo)
目標(biāo)追蹤需要解決兩個(gè)問題:位置和大小,因此,評(píng)價(jià)一個(gè)追蹤器的優(yōu)劣往往通過精度圖和成功圖來(lái)描述[4]。精度圖是指在不同的中心誤差下,目標(biāo)追蹤的成功率所構(gòu)成的圖;成功圖是指在不同的重疊率下,目標(biāo)追蹤的成功率所構(gòu)成的圖。其中,中心誤差是指:追蹤器所輸出的目標(biāo)框的中心與標(biāo)簽?zāi)繕?biāo)框的中心之間的誤差,常用歐氏距離表示,單位是像素;重疊率o的定義為
3.3.2 測(cè)試數(shù)據(jù)集
本文使用目標(biāo)追蹤測(cè)試平臺(tái)(object tracking benchmark,OTB)[1,3]中 CVPR-2013、OTB-50和OTB-1003個(gè)數(shù)據(jù)集對(duì)現(xiàn)有的算法進(jìn)行評(píng)估。這3個(gè)數(shù)據(jù)集分別有51、50和100個(gè)視頻序列,每個(gè)視頻序列都包含了IV、SV、OCC、DEF、MB、FM、IPR、OPR、OV、BC、LR中的多個(gè)干擾因素。在這些干擾因素的影響下,追蹤測(cè)試平臺(tái)統(tǒng)計(jì)追蹤器的成功率,以精度圖和成功圖的形式來(lái)反應(yīng)追蹤器的追蹤性能。
3.3.3 外形信息的時(shí)間花費(fèi)
本文在不同分辨率圖上測(cè)試了提取外形信息以及獲得其對(duì)應(yīng)的位置響應(yīng)所花費(fèi)的時(shí)間,如圖7所示。分別給出了提取外形信息的時(shí)間花費(fèi)和獲取外形信息對(duì)應(yīng)的位置響應(yīng)所花費(fèi)的時(shí)間。從圖中可以看出,外形信息的提取時(shí)間相對(duì)較為合理(和圖像分辨率之間接近線性關(guān)系);同時(shí),獲取位置響應(yīng)的時(shí)間相對(duì)較長(zhǎng),有待進(jìn)一步改進(jìn)。
圖 7 時(shí)間花費(fèi)Fig. 7 The results of elapsed time
本文在目標(biāo)追蹤測(cè)試平臺(tái)上和近幾年優(yōu)秀的追蹤器 CFNet_conv3[13]、SiamFC_3s[12]、Staple[8]、fDSST[7]、 ACFN-selNet[31]、 SAMF[9]、 LCT[33]、MEEM[32]、ACFN-attNet[31]、DSST[19]、KCF[5]進(jìn)行了比較,其結(jié)果如圖8所示,這里僅給出了CVPR-2013的結(jié)果,并利用圖9,直觀展示了部分追蹤效果(更多的結(jié)果數(shù)據(jù)請(qǐng)?jiān)L問文獻(xiàn)[34]),圖8(a)代表數(shù)據(jù)集的成功圖結(jié)果,圖8(b)代表數(shù)據(jù)集的精度圖結(jié)果。從圖8(b)的結(jié)果中可以看出,在中心誤差閾值很大的情況下,本文追蹤器依舊有著優(yōu)秀的成功率,說(shuō)明在追蹤的過程中,本文的追蹤器發(fā)生了較少的邊框漂移,反應(yīng)到圖8(a)的成功圖中,可以看到,在重疊率閾值很小的情況下,本文追蹤器的成功率依舊優(yōu)秀,而很多追蹤器的成功率卻不理想,說(shuō)明他們?cè)谧粉櫟倪^程中,發(fā)生了較多的邊框漂移現(xiàn)象,導(dǎo)致了目標(biāo)丟失;而本文追蹤器在進(jìn)行位置確定的時(shí)候,利用了外形信息來(lái)抑制原本位置響應(yīng)中的噪聲點(diǎn),所以具有較少的邊框漂移現(xiàn)象。以上的結(jié)果表明本文的追蹤器具有優(yōu)秀的追蹤效果。
圖 8 測(cè)試結(jié)果Fig. 8 The results of object tracking benchmark
圖 9 追蹤效果直觀感受Fig. 9 The direct feeling of our tracker
在追蹤測(cè)試平臺(tái)的測(cè)試序列中,每個(gè)序列都包含了多個(gè)干擾因素。從這么多的測(cè)試序列中取得優(yōu)秀的追蹤效果是相當(dāng)不容易,由于本文使用了外形信息來(lái)對(duì)目標(biāo)的位置響應(yīng)進(jìn)行噪聲抑制,所以從上面的測(cè)試平臺(tái)給出的追蹤結(jié)果可知,本文的追蹤器具有優(yōu)秀的追蹤能力,但由于篇幅限制,這里給出幾組具有代表性的視頻序列追蹤效果的直觀展示,如圖9所示,正紅為本文追蹤器。
本文嘗試從理解卷積特征的基礎(chǔ)上來(lái)理解目標(biāo)追蹤中卷積位置響應(yīng)的結(jié)果,從而指導(dǎo)如何修正目標(biāo)跟蹤中的卷積響應(yīng)。通過分析可知:卷積網(wǎng)絡(luò)抽離出的卷積特征類似于局部性、方向性的特征,是碎片化的,在進(jìn)行位置匹配的時(shí)候,可以通過突出目標(biāo)區(qū)域的方式來(lái)緩和這種碎片化特征的影響。和最近幾年優(yōu)秀的追蹤器相比,該思路具有一定的可行性,能夠有效提高目標(biāo)位置定位的精度。接下來(lái)的工作可以進(jìn)一步探究如何縮短位置響應(yīng)的時(shí)間;本文卷積網(wǎng)絡(luò)的許多特征之間具有很高的相似性,是否可以直接通過稀疏化的方式來(lái)實(shí)現(xiàn)抑制位置響應(yīng)中的噪聲也是值得研究的。