董美辰,楊大偉,毛 琳
(大連民族大學(xué) 機(jī)電工程學(xué)院,遼寧 大連 116605)
現(xiàn)有跟蹤算法的特征提取方式在應(yīng)對(duì)相機(jī)抖動(dòng)、目標(biāo)持續(xù)變化、周?chē)矬w干擾等復(fù)雜多變的環(huán)境因素時(shí),會(huì)出現(xiàn)目標(biāo)特征表達(dá)不清晰而導(dǎo)致的跟蹤漂移問(wèn)題。以相關(guān)濾波和孿生網(wǎng)絡(luò)為主要框架的判別式跟蹤方法[1],將跟蹤問(wèn)題轉(zhuǎn)化為區(qū)分目標(biāo)與背景的二分類(lèi)問(wèn)題,特征提取[2]作為分類(lèi)問(wèn)題的關(guān)鍵,提取深度學(xué)習(xí)特征相較傳統(tǒng)圖像特征應(yīng)用效果更好[3]?;谙嚓P(guān)濾波框架的DeepSRDCF[4]使用CNN淺層特征替換算法中常見(jiàn)的方向梯度直方圖(Histogram of Oriented Gradient,HOG)特征,跟蹤精度有效提高,但深度特征的引入也帶來(lái)了較高的計(jì)算復(fù)雜度。Bhat等[5]提出將深層特征與淺層特征融合,深層特征負(fù)責(zé)魯棒性,淺層特征負(fù)責(zé)準(zhǔn)確性,但數(shù)據(jù)增強(qiáng)在提升深層特征效果的同時(shí)會(huì)在淺層特征上出現(xiàn)反作用,兩部分模型需獨(dú)立訓(xùn)練,且忽視了因數(shù)據(jù)增強(qiáng)擴(kuò)展樣本反向傳播在速度方面的影響。全卷積孿生網(wǎng)絡(luò)(Siamese Fully Convolutional,SiamFc)[6]采用AlexNet[7]網(wǎng)絡(luò)進(jìn)行特征提取,經(jīng)過(guò)互相關(guān)操作生成響應(yīng)圖,算法整體簡(jiǎn)單高效但缺少細(xì)節(jié)特征,導(dǎo)致跟蹤器遇到較為復(fù)雜的背景信息時(shí)會(huì)出現(xiàn)錯(cuò)誤。SA-Siam[8]在SiamFc基礎(chǔ)上引入語(yǔ)義特征,與表征特征結(jié)合,提高應(yīng)對(duì)目標(biāo)形變、旋轉(zhuǎn)的能力。SiamRPN++[9]消除了由于填充帶來(lái)的空間偏差問(wèn)題,將ResNet-50[10]作為主干網(wǎng)絡(luò),在深度孿生網(wǎng)絡(luò)上實(shí)現(xiàn)端到端學(xué)習(xí)。SiamMask[11]算法同時(shí)實(shí)現(xiàn)視頻目標(biāo)跟蹤和視頻目標(biāo)分割兩個(gè)任務(wù),但跟蹤模型無(wú)法提供分割需要的精細(xì)特征,在目標(biāo)模糊的情況下極大程度上會(huì)發(fā)生跟蹤失效。D3S[12]提出視頻分割與跟蹤互補(bǔ)框架,但分割模塊提取的特征信息表達(dá)欠佳,是造成跟蹤失誤的主要原因之一。
為解決特征提取問(wèn)題,本文提出目標(biāo)跟蹤頻率特征補(bǔ)償網(wǎng)絡(luò)(Discriminative Frequency Feature Compensation Network for Object Tracking,F(xiàn)CNet),采用調(diào)節(jié)圖像高低頻信息比例的方式獲得不同頻率的特征分量,通過(guò)特征補(bǔ)償模塊篩選合理的頻率區(qū)間,為基礎(chǔ)卷積提取的特征結(jié)果進(jìn)行補(bǔ)償,從而獲得邊界清晰、結(jié)構(gòu)完整的特征表達(dá)。
目標(biāo)跟蹤基準(zhǔn)算法網(wǎng)絡(luò)結(jié)構(gòu)如圖1。搜索幀與模板幀圖像分別經(jīng)過(guò)特征提取后,進(jìn)行模板比對(duì),若目標(biāo)信息G中出現(xiàn)邊界模糊,只依靠位置信息L無(wú)法回歸準(zhǔn)確的目標(biāo)框。因此,跟蹤準(zhǔn)確的關(guān)鍵是獲得清晰完整的特征表達(dá)[13],對(duì)于跟蹤過(guò)程中相機(jī)移動(dòng)、光照變化等問(wèn)題,邊緣、紋理特征作為高頻信息具有良好的不變性,調(diào)節(jié)圖像中的頻率信息并篩選合理的頻率區(qū)間進(jìn)行特征信息補(bǔ)償,可以有效提高特征信息質(zhì)量。
圖1 基準(zhǔn)算法網(wǎng)絡(luò)結(jié)構(gòu)
由于圖像具有頻率屬性,為獲得圖像中不同頻率區(qū)間的特征信息[14],本文構(gòu)建圖像特征頻率調(diào)節(jié)單元Ε(下文簡(jiǎn)稱(chēng)“調(diào)節(jié)單元”),該單元通過(guò)改變頻率分量通道分配系數(shù)調(diào)節(jié)不同分量之間的比例關(guān)系。
假設(shè)將視頻幀中的特征分量分解為高頻特征XH、低頻特征XL,輸入調(diào)節(jié)單元Ε,引入八度卷積[15]Y對(duì)特征張量進(jìn)行計(jì)算,降低計(jì)算復(fù)雜度的同時(shí)實(shí)現(xiàn)高效的頻間通信。輸出融合后的高頻信息SH、低頻信息SL,圖像特征頻率調(diào)節(jié)單元結(jié)構(gòu)如圖2。
圖2 圖像特征頻率調(diào)節(jié)單元結(jié)構(gòu)圖
定義:設(shè)X∈c×h×w為輸入特征張量,h×w表示空間維度,c表示通道個(gè)數(shù)。Y∈c×k×k為k×k的卷積核。圖像特征X={XH,XL},其中高頻映射為XH∈(1-η) c×h×w,低頻映射為融合輸出S={SL,SH},SL表示低頻特征,SH表示高頻特征。八度卷積將卷積核Y分為處理高頻信息處理和低頻信息兩部分,包含四個(gè)分量,Y={YL,YH},YL負(fù)責(zé)低頻部分,YH負(fù)責(zé)高頻部分的分量計(jì)算,YL={YL→L,YL→H},YH={YH→L,YH→H}。
(1)
(2)
SH=(XH?YH→H)+U(XL?YL→H) ;
(3)
SL=(XL?YL→L)+P(XH?YH→L) ;
(4)
S=[ηXL+(1-η)XH]·D。
(5)
式中:?為卷積操作;P為平均池化操作;U為上采樣操作;D為幅值系數(shù);η∈[0,1]表示頻率分量通道分配系數(shù)。通過(guò)改變頻率分量通道分配系數(shù)η,控制輸出圖像中的高低頻信息占比。頻率分量通道分配系數(shù)η可依據(jù)圖像處理過(guò)程中的需求進(jìn)行選擇,為平衡高低頻信息之間的比重,本文算法設(shè)置分配系數(shù)η為0.5。將經(jīng)過(guò)D3S[12]算法中基礎(chǔ)卷積提取的特征信息,與經(jīng)過(guò)調(diào)節(jié)單元Ε處理輸出的高頻分量結(jié)果作可視化對(duì)比,如圖3。
圖3 調(diào)節(jié)單元輸出高頻分量與普通卷積特征提取可視化對(duì)比
圖3中,第(1)行是單一目標(biāo)的特征提取效果,目標(biāo)是一只塑料袋,在簡(jiǎn)單地面背景下,高頻分量中目標(biāo)細(xì)節(jié)紋理清晰度顯著提高,降低了目標(biāo)與背景之間的相似度。第(2)行展現(xiàn)的是日常復(fù)雜場(chǎng)景,目標(biāo)包括三名過(guò)街行人,與D3S算法中的基礎(chǔ)卷積相比,處理后的高頻分量提取更多全局信息,特征表達(dá)能力增強(qiáng)。由此可見(jiàn),通過(guò)調(diào)節(jié)圖像高頻信息分量的權(quán)重,可以凸顯目標(biāo)輪廓信息,達(dá)到區(qū)分目標(biāo)與背景的作用。
增大高頻信息權(quán)重,為圖像提供高頻區(qū)間信息補(bǔ)償有助于提高邊緣、細(xì)節(jié)部分的特征表達(dá)能力,但如果完全專(zhuān)注于增強(qiáng)高頻區(qū)間特征而放棄低頻部分,會(huì)導(dǎo)致圖像整體信息不夠完善,對(duì)圖像的特征表達(dá)產(chǎn)生反作用。為尋找合理的特征補(bǔ)償圖像,級(jí)聯(lián)調(diào)節(jié)單元Ε,結(jié)構(gòu)圖如圖4,Φ(n)表示級(jí)聯(lián)n個(gè)調(diào)節(jié)單元。
圖4 特征補(bǔ)償模塊結(jié)構(gòu)圖
特征補(bǔ)償模塊級(jí)聯(lián)層數(shù)為n,選擇參數(shù)r可以決定每一級(jí)輸出的特征分量,模塊Φ數(shù)學(xué)表達(dá)為:
(6)
模塊Φ在調(diào)節(jié)高、低頻分量的基礎(chǔ)上,改變每一級(jí)輸入的特征分量比例,篩選合理的頻率區(qū)間段特征,既突出了高頻特征的細(xì)節(jié)優(yōu)勢(shì),又保證了低頻信息對(duì)整體的完善作用。模塊Φ填補(bǔ)了圖像特征中邊緣紋理信息缺失的部分,使目標(biāo)與背景之間具有較高的區(qū)分度,提高整體算法的精度和穩(wěn)定性。
目標(biāo)跟蹤頻率特征補(bǔ)償網(wǎng)絡(luò)整體結(jié)構(gòu)如圖5。
圖5 目標(biāo)跟蹤頻率特征補(bǔ)償網(wǎng)絡(luò)
搜索幀特征Xn和模板幀特征X01分別經(jīng)過(guò)兩條支路處理,基礎(chǔ)卷積支路包含1×1卷積和3×3卷積,提取圖像通用特征,特征補(bǔ)償模塊Φ篩選所需頻率區(qū)間特征補(bǔ)償,彌補(bǔ)圖像邊緣特征的識(shí)別能力,通過(guò)特征融合,得到清晰完善的特征表達(dá)F(X01)、F(Xn):
F(X01)=c3?(c1?X01)+Φ(X01) ;
(7)
F(Xn)=c3?(c1?Xn)+Φ(Xn) 。
(8)
式中:c1為1×1卷積;c3為3×3卷積;?為卷積操作;F(X)為經(jīng)過(guò)高頻補(bǔ)償后的圖像特征。輸入模板匹配模塊進(jìn)行相似度計(jì)算:
G01={F(X01)i:i∈g(F(X01)*)} ;
(9)
G=Hsimilarity(F(Xn),G01) 。
(10)
式中:F(X01)*為模板幀真值;g(F(X01)*)為目標(biāo)像素集合;F(X01)i表示F(X01)中第i個(gè)位置的特征向量;Hsimilarity為余弦相似度計(jì)算函數(shù)。搜索幀與模板幀的目標(biāo)像素集合相似度計(jì)算后輸出目標(biāo)信息G。
頻率特征補(bǔ)償網(wǎng)絡(luò)在保證圖像完整性的同時(shí),突顯了目標(biāo)邊緣特征,達(dá)到降低目標(biāo)、背景之間相似度的效果,使特征表達(dá)在目標(biāo)外觀變化或背景干擾等情況中具有更強(qiáng)的適應(yīng)性,進(jìn)行模板比對(duì)時(shí)可以更加準(zhǔn)確的在搜索幀中分割出目標(biāo)輪廓。
實(shí)驗(yàn)使用NVIDIA GeForce 1080Ti顯卡,基于Python3.7和PyTorch1.1.0框架實(shí)現(xiàn)。
骨干網(wǎng)絡(luò)由ResNet50前四層組成,在YouTube-VOS[16]的3 471個(gè)訓(xùn)練分割序列上進(jìn)行預(yù)訓(xùn)練。訓(xùn)練過(guò)程使用ADAM(Adaptive Moment Estimation)[17]優(yōu)化器,學(xué)習(xí)速率為10-3,每15個(gè)epoch衰減0.2次,用64對(duì)圖像對(duì)批量進(jìn)行40個(gè)epoch訓(xùn)練,每個(gè)epoch迭代1 000次。計(jì)算分割預(yù)測(cè)和真值之間的交叉熵,作為訓(xùn)練誤差。
評(píng)估主要基于兩個(gè)短時(shí)跟蹤數(shù)據(jù)集:VOT2016[18]、VOT2018[19]。為保證實(shí)驗(yàn)公平性,實(shí)驗(yàn)中涉及跟蹤算法數(shù)據(jù)結(jié)果均來(lái)源于對(duì)應(yīng)論文或使用其開(kāi)源代碼和給定參數(shù)實(shí)際運(yùn)行所得。
通過(guò)比對(duì)精度(Average Overlap over Successfully Tracked Frames,Acc)、魯棒性(Failure Rate,Rob)和期望覆蓋率(Expected Average Overlap,EAO)[18]衡量跟蹤器性能。
在VOT2016和VOT2018數(shù)據(jù)集上與現(xiàn)階段較為優(yōu)秀的跟蹤算法進(jìn)行對(duì)比試驗(yàn),實(shí)驗(yàn)結(jié)果見(jiàn)表1。
表1 VOT數(shù)據(jù)集評(píng)估比較結(jié)果
從表1可以看出,本文算法在VOT2016和VOT2018上三項(xiàng)指標(biāo)均優(yōu)于全部測(cè)試跟蹤器,取得了非常具有競(jìng)爭(zhēng)力的表現(xiàn)。VOT2016中,與原算法D3S相比,EAO、Acc和Rob分別提升1.68%、0.29%和0.32%。在VOT2018中FCNet較D3S算法EAO、Acc和Rob分別提升1.16%、0.30%和0.59%。在不同視覺(jué)屬性下跟蹤器精度比對(duì)見(jiàn)表2,魯棒性比對(duì)見(jiàn)表3。
表2 不同視覺(jué)屬性下Acc對(duì)比
表3 不同視覺(jué)屬性下Rob對(duì)比
如表2所示,F(xiàn)CNet雖然在遮擋、運(yùn)動(dòng)變形情況下精度略微下降,但在其他挑戰(zhàn)下均有改善。為更好展示算法性能,本文在VOT2016、VOT2018兩個(gè)數(shù)據(jù)集中選擇了四組具有代表性的視頻序列,將本文算法與基準(zhǔn)算法D3S實(shí)際表現(xiàn)進(jìn)行對(duì)比,部分視頻幀可視化如圖6。
圖6 FCNet與D3S[12]跟蹤實(shí)際表現(xiàn)對(duì)比
圖6第(1)行處于實(shí)際交通場(chǎng)景中,由于相機(jī)運(yùn)動(dòng),造成前方目標(biāo)模糊、變形,D3S無(wú)法準(zhǔn)確框定目標(biāo),在第57幀和第419幀中只能捕捉到目標(biāo)局部,而本文算法可以準(zhǔn)確鎖定目標(biāo)輪廓。第(2)行中足球作為目標(biāo)快速移動(dòng),D3S跟蹤器在第14幀出現(xiàn)跟蹤漂移,直到視頻序列結(jié)束。FCNet與之相比定位目標(biāo)更準(zhǔn)確,沒(méi)有出現(xiàn)目標(biāo)丟失的現(xiàn)象。第(3)行所示目標(biāo)為河面上飛行的鳥(niǎo),目標(biāo)在運(yùn)動(dòng)過(guò)程中尺度變化較大,在第142幀和第217幀中,D3S沒(méi)有完全捕獲目標(biāo),而FCNet可以很好應(yīng)對(duì)目標(biāo)變形情況。第(4)行中白色兔子在雪地中奔跑,目標(biāo)與背景相似度極高,第66幀中,D3S出現(xiàn)無(wú)法準(zhǔn)確框定目標(biāo),到第99幀時(shí),給出目標(biāo)框的范圍過(guò)大,不夠準(zhǔn)確,第114幀又出現(xiàn)目標(biāo)丟失的狀況。FCNet表現(xiàn)足以證明算法可以更好應(yīng)對(duì)相似背景下的挑戰(zhàn)。
為驗(yàn)證特征補(bǔ)償模塊中模塊級(jí)數(shù)差異、不同頻率特征融合方式的有效性,在VOT2018上對(duì)不同級(jí)聯(lián)方式進(jìn)行消融實(shí)驗(yàn),三項(xiàng)指標(biāo)對(duì)比見(jiàn)表4。若模塊Φ采用第一級(jí)融合輸出高頻信息SH作為第二級(jí)的特征輸入,第二級(jí)輸出低頻信息SH作為第三級(jí)輸入,最后一級(jí)輸出處理得到的低頻信息SL,調(diào)節(jié)模塊表示為ΦHHL。
表4 不同級(jí)聯(lián)方式在VOT2018數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果
從實(shí)驗(yàn)結(jié)果可以看出,ΦHLL采用三級(jí)級(jí)聯(lián),提取高頻段中相對(duì)低頻,更趨向于中頻特征信息,這部分區(qū)間可以更好地提供補(bǔ)償特征。相比融合純高頻的部分,摒棄更多細(xì)節(jié)信息,專(zhuān)注中間信息,可以使目標(biāo)背景區(qū)分更明顯。ΦHLH在精度上略有影響,但在魯棒性上有明顯改善。因此,選取恰當(dāng)?shù)募?jí)聯(lián)方式,調(diào)節(jié)頻率信息融合比例,可提高圖像特征的表達(dá)能力,實(shí)現(xiàn)魯棒跟蹤,其中ΦHLL模塊的級(jí)聯(lián)方式效果最佳。
本文提出一種目標(biāo)跟蹤頻率特征補(bǔ)償網(wǎng)絡(luò),采用頻率調(diào)節(jié)單元改變圖像中的頻率信息比例,通過(guò)級(jí)聯(lián)調(diào)節(jié)單元的方式為網(wǎng)絡(luò)提供指定頻率區(qū)間的特征補(bǔ)償。突出邊緣紋理等高頻特征并保留用于完善圖像的低頻特征,使特征圖兼具區(qū)分性和完整性。經(jīng)實(shí)驗(yàn)驗(yàn)證,本文算法可以有效提高模型的特征提取能力,改善了目標(biāo)出現(xiàn)非剛性變形、相機(jī)快速移動(dòng)等情況下的跟蹤效果,具有良好的魯棒性。