洪培欽,羅靈鯤,劉 冰,方 元,胡士強(qiáng)
1.上海交通大學(xué) 航空航天學(xué)院,上海 200240
2.中國(guó)航空無線電電子研究所,上海 200241
目標(biāo)跟蹤技術(shù)在智能視頻監(jiān)控、安防偵察、自動(dòng)駕駛、可疑目標(biāo)追蹤、人員搜救等場(chǎng)景有廣泛的應(yīng)用。目標(biāo)跟蹤技術(shù)通過對(duì)用戶感興趣的目標(biāo)進(jìn)行提取和分析,在連續(xù)的視頻幀中,實(shí)時(shí)跟蹤目標(biāo),反饋目標(biāo)的邊界框,即目標(biāo)的位置和尺寸信息,從而為視頻分析提供可靠的依據(jù)。
目標(biāo)跟蹤算法主要分為生成式模型和判別式模型。生成式模型如光流法[1]、均值漂移[2]等難以抵抗目標(biāo)跟蹤中尺度變化、目標(biāo)形變、相似干擾等基本難題。而判別式模型很好地進(jìn)行了解決,主流的判別式目標(biāo)跟蹤算法主要分為相關(guān)濾波算法和深度學(xué)習(xí)算法。
基于相關(guān)濾波的目標(biāo)跟蹤算法中,MOSSE[3]、CSK[4]、KCF[5]、DSST[6]等都是最具代表性的算法,其中KCF在CSK的基礎(chǔ)上引入高斯核函數(shù),使用嶺回歸的方法訓(xùn)練濾波模板,用循環(huán)矩陣的方式簡(jiǎn)化計(jì)算,大幅提升了運(yùn)算速度。
基于深度學(xué)習(xí)的目標(biāo)跟蹤算法有許多研究方向。近年來,孿生神經(jīng)網(wǎng)絡(luò)被廣泛研究,DTCNNMI[7]算法使用孿生神經(jīng)網(wǎng)絡(luò)解決發(fā)動(dòng)機(jī)失火檢測(cè)問題,F(xiàn)atima等[8]使用孿生神經(jīng)網(wǎng)絡(luò)檢測(cè)黑胡椒中的木瓜種子摻假問題,DASNet[9]使用孿生神經(jīng)網(wǎng)絡(luò)解決衛(wèi)星圖像變化檢測(cè)的問題。SINT[10]是目標(biāo)跟蹤領(lǐng)域使用孿生神經(jīng)網(wǎng)絡(luò)的開山之作,SiamFC[11]算法在SINT的基礎(chǔ)上,使用AlexNet作為特征網(wǎng)絡(luò),引入全連接的卷積思想,通過模板圖特征對(duì)搜索圖特征做卷積,獲得相似度得分,但是仍然采用金字塔解決多尺度問題,影響了跟蹤效率。DSiam[12]提出了一個(gè)快速的通用變換學(xué)習(xí)模型,能夠有效地在線學(xué)習(xí)目標(biāo)外觀變化并抑制背景,但是在線學(xué)習(xí)損失了模型的實(shí)時(shí)能力。RASNet[13]探索了不同類型的注意力機(jī)制在SiamFC方法中模板圖特征上的作用效果,包括一般注意力、殘差注意力、通道注意力,但是RASNet沒有在搜索圖特征上做注意力網(wǎng)絡(luò)的探索。SA-Siam[14]提出了雙特征分支,分別為語義分支和外觀分支,有效地提高了算法的泛化性,但是兩個(gè)分支單獨(dú)訓(xùn)練,僅在推理的時(shí)候組合,喪失了耦合性。SiamRPN[15]在SiamFC的基礎(chǔ)上引入了區(qū)域提議網(wǎng)絡(luò)(region proposal network,RPN),區(qū)域提議網(wǎng)絡(luò)將孿生神經(jīng)網(wǎng)絡(luò)提取的特征送入分類分支和回歸分支,使用預(yù)定義的錨框作為邊界框回歸值的參考,速度和精度上有很大的提高,SiamRPN算法還有一定的改進(jìn)空間。SiamMask[16]在SiamRPN的基礎(chǔ)上引入分割分支,獲取目標(biāo)的像素級(jí)位置,能在測(cè)試數(shù)據(jù)集中獲得更高的重疊率,但是模型比較復(fù)雜,嚴(yán)重影響了算法實(shí)時(shí)性。SiamRPN++[17]在SiamRPN的基礎(chǔ)上改進(jìn)網(wǎng)絡(luò)模型和訓(xùn)練數(shù)據(jù),使用分層的RPN網(wǎng)絡(luò)融合方法,使用ResNet作為特征網(wǎng)絡(luò)提高算法精度,SiamAttn[18]、TrSiam[19]、TransT[20]、ThrAtt-Siam[21]、SCS-Siam[22]分別在孿生神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上引入了注意力網(wǎng)絡(luò),這些算法的改進(jìn)對(duì)算法性能有提升,但是引入的網(wǎng)絡(luò)帶來很大運(yùn)算消耗,算法實(shí)時(shí)能力嚴(yán)重下降,沒有做到準(zhǔn)確率和實(shí)時(shí)性的平衡。
綜上,基于相關(guān)濾波的目標(biāo)跟蹤算法在實(shí)時(shí)性上表現(xiàn)較好,但是由于提取的特征屬性比較單一,準(zhǔn)確率難以提升;現(xiàn)有的孿生神經(jīng)網(wǎng)絡(luò)目標(biāo)跟蹤算法準(zhǔn)確率高,但是算法的網(wǎng)絡(luò)復(fù)雜度高,運(yùn)算速度受限,實(shí)時(shí)性表現(xiàn)差。本文針對(duì)以上問題,提出了一種引入輕量注意力的孿生神經(jīng)網(wǎng)絡(luò)目標(biāo)跟蹤算法,命名為SiamNL。具體貢獻(xiàn)如下:(1)針對(duì)跟蹤算法實(shí)時(shí)性受限的問題,在SiamRPN的基礎(chǔ)上,引入了深度級(jí)卷積相關(guān),減少了網(wǎng)絡(luò)的參數(shù)量和運(yùn)算量,提升了跟蹤算法的運(yùn)算速度;(2)針對(duì)跟蹤算法準(zhǔn)確率受限的問題,引入輕量注意力網(wǎng)絡(luò)Non-Local,增強(qiáng)了特征圖的自編碼和互編碼能力,提升算法準(zhǔn)確率且同時(shí)保證了實(shí)時(shí)性;(3)將所設(shè)計(jì)的算法SiamNL在現(xiàn)有的主流目標(biāo)跟蹤數(shù)據(jù)集上進(jìn)行測(cè)試,測(cè)試結(jié)果表明,算法在準(zhǔn)確率和魯棒性上有很大的提升,并且有很好的實(shí)時(shí)性。
本文提出的SiamNL算法,借鑒了SiamRPN算法的網(wǎng)絡(luò)結(jié)構(gòu)。SiamNL算法的完整流程如圖1所示,主要流程分為以下四步:
圖1 SiamNL算法完整流程圖Fig.1 Complete flow chart of SiamNL algorithm
(1)孿生神經(jīng)網(wǎng)絡(luò)特征提取。輸入模板圖Z和搜索圖X,兩者經(jīng)過權(quán)值共享的五層AlexNet網(wǎng)絡(luò),分別輸出模板圖特征fZ和搜索圖特征fX。
(2)自注意力網(wǎng)絡(luò)。fZ和fX各自通過SNL注意力網(wǎng)絡(luò),完成空間注意力和通道注意力的自相關(guān)運(yùn)算,分別得到f*Z和f*X。
(3)互注意力網(wǎng)絡(luò)。以搜索圖特征f*X為原矩陣,模板圖特征f*Z為編碼矩陣,輸入CNL注意力網(wǎng)絡(luò),得到互相關(guān)編碼的搜索圖特征f**X。
(4)區(qū)域提議網(wǎng)絡(luò)(region proposal network,RPN)邊界框運(yùn)算。f*Z和f**X進(jìn)入?yún)^(qū)域提議網(wǎng)絡(luò),分類分支中進(jìn)行一層卷積和深度級(jí)相關(guān),最終得到分類得分結(jié)果;回歸分支中同樣進(jìn)行一層卷積和深度級(jí)相關(guān),最終得到邊界框的回歸結(jié)果。
孿生神經(jīng)網(wǎng)絡(luò)目標(biāo)跟蹤算法SiamRPN借鑒了SiamFC的基本網(wǎng)路結(jié)構(gòu)。網(wǎng)絡(luò)的輸入為模板圖Z和搜索圖X,其中模板圖Z在跟蹤過程中不做更新。模板圖和搜索圖經(jīng)過權(quán)值共享的特征網(wǎng)絡(luò)φ,將編碼對(duì)應(yīng)的模板圖特征和搜索圖特征,然后將兩個(gè)特征輸入?yún)^(qū)域提議網(wǎng)絡(luò)。
其中,“*”代表交叉相關(guān)運(yùn)算(本質(zhì)是卷積運(yùn)算),“*”之前為被卷積矩陣,“*”之后為卷積核;“cls”為分類分支,“reg”為回歸分支,兩個(gè)分支最終都輸出特征圖A,特征圖的寬高為w=17,h=17,其中k為錨框數(shù)量,為可調(diào)節(jié)參數(shù),可參考FasterR-CNN[23]中的區(qū)域提議網(wǎng)絡(luò)有關(guān)理論。
SiamRPN網(wǎng)絡(luò)的結(jié)構(gòu)中,特征網(wǎng)絡(luò)使用AlexNet,區(qū)域提議網(wǎng)絡(luò)使用2k個(gè)模板圖卷積核對(duì)搜索圖特征進(jìn)行卷積交叉相關(guān),如圖2(a)所示。當(dāng)k=5時(shí),經(jīng)過逐步累加推算,原SiamRPN網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù)量為2.263 3×107,點(diǎn)運(yùn)算量為5.790 GFLOPS,其中網(wǎng)絡(luò)參數(shù)量約有75%的比例在區(qū)域提議網(wǎng)絡(luò)中,僅做邊界框回歸用途的區(qū)域提議網(wǎng)絡(luò)可以降低參數(shù)量。本文使用深度級(jí)交叉相關(guān)(depth-wisecross correlation,DWXCorr)代替普通交叉相關(guān)(cross correlation,XCorr),如圖2(b)所示。普通交叉相關(guān)運(yùn)算即普通卷積,如圖3(a)所示。深度級(jí)交叉相關(guān)運(yùn)算即深度級(jí)卷積,如圖3(b)所示,卷積核和被卷積矩陣通過深度級(jí)分離,按照通道數(shù)各自分離成C層二維矩陣,每層對(duì)應(yīng)進(jìn)行卷積,卷積結(jié)果再進(jìn)行拼接。
圖2 區(qū)域提議網(wǎng)絡(luò)修改對(duì)比圖Fig.2 Region proposal network modification comparison chart
此處以分類分支為例說明深度級(jí)交叉相關(guān)對(duì)參數(shù)量的降低作用,兩種交叉相關(guān)的最終目的都是獲得17×17×2k的分類分支輸出。普通交叉相關(guān)和深度級(jí)交叉相關(guān)的運(yùn)算過程對(duì)比如圖4所示。
圖4 深度級(jí)交叉相關(guān)和普通交叉相關(guān)對(duì)比圖Fig.4 Comparison of depth-wise cross correlation and ordinary
在普通交叉相關(guān)中,為了獲得17×17×2k的輸出,需要2k組形如圖3(a)的卷積對(duì),即需要2k個(gè)4×4×256的卷積核,這些卷積核由一個(gè)6×6×256的模板圖特征得來,則中間一層卷積的卷積核尺寸為3×3×256×256×2k。綜上,普通交叉相關(guān)需要的參數(shù)量為3×3×256×256×2k。
圖3 深度級(jí)卷積和普通卷積對(duì)比圖Fig.3 Comparison of depth-wise convolution and ordinary
在深度級(jí)交叉相關(guān)中,直接使用1個(gè)4×4×256的卷積核就可以通過深度級(jí)分離和交叉相關(guān)得到17×17×256的結(jié)果矩陣。為獲得1個(gè)4×4×256的卷積核,中間一層卷積的卷積核尺寸為3×3×256×256。為了在最終得到17×17×2k的輸出,17×17×256的結(jié)果矩陣需要經(jīng)過通道壓縮,需要的卷積核尺寸為3×3×256×2k。綜上,深度級(jí)交叉相關(guān)需要的參數(shù)量為3×3×256×(256+2k)。
各個(gè)卷積核對(duì)應(yīng)的參數(shù)量同時(shí)標(biāo)注在圖2中,當(dāng)k較小時(shí),深度級(jí)交叉相關(guān)的參數(shù)量約為普通交叉相關(guān)的1/2k。
所以,當(dāng)深度級(jí)交叉相關(guān)都用于分類分支和回歸分支后,區(qū)域提議網(wǎng)絡(luò)的參數(shù)量約降低為原有的1/2k。
最終,通過修改區(qū)域提議網(wǎng)絡(luò)內(nèi)部的卷積細(xì)節(jié),將普通卷積替換為深度級(jí)卷積,當(dāng)取k=5時(shí),將整體網(wǎng)絡(luò)參數(shù)量由2.263 3×107下降為6.251×106。
區(qū)域提議網(wǎng)絡(luò)經(jīng)過深度級(jí)卷積改進(jìn)后的SiamRPN算法在實(shí)時(shí)性上有很大的提升,但是準(zhǔn)確率依然受限。
為了提高算法的準(zhǔn)確率,提高特征矩陣的表達(dá)能力是最有效的方法,骨干網(wǎng)絡(luò)AlexNet難有改進(jìn)空間,因此使用注意力網(wǎng)絡(luò)可以進(jìn)一步提高骨干特征的表達(dá)能力。
注意力網(wǎng)絡(luò)借鑒了人類觀察事物的注意力機(jī)制,如圖5(a)所示,在該海報(bào)中,人類優(yōu)先觀察寶寶的臉和文本標(biāo)題、文本正文開頭等關(guān)鍵元素,注意力網(wǎng)絡(luò)的訓(xùn)練目的就是使得目標(biāo)圖像的關(guān)鍵元素對(duì)輸出結(jié)果產(chǎn)生增益。如圖5(b)所示,在目標(biāo)跟蹤任務(wù)中,當(dāng)跟蹤目標(biāo)為中間的運(yùn)動(dòng)員時(shí),特征矩陣中表征目標(biāo)運(yùn)動(dòng)員的元素其數(shù)值將得到增強(qiáng),從而增加跟蹤的準(zhǔn)確率。
圖5 注意力網(wǎng)絡(luò)理論效果Fig.5 Comparison of score heat maps
本文注意力網(wǎng)絡(luò)的模型方案主要包括自注意力和互注意力。自注意力可以編碼特征自身元素和通道之間的相關(guān)性,在目標(biāo)跟蹤任務(wù)中,可以幫助特征更好地突出對(duì)跟蹤任務(wù)有益的特征元素。互注意力可以編碼兩個(gè)不同特征之間的元素相關(guān)性,在目標(biāo)跟蹤任務(wù)中,作用于搜索圖特征和模板圖特征,提前讓搜索圖的特征元素針對(duì)模板圖特征元素的影響,完成一次權(quán)重分配,更有利于交叉相關(guān)結(jié)果的準(zhǔn)確率。
同時(shí),考慮到對(duì)實(shí)時(shí)性的影響,所以本文引入的輕量級(jí)注意力網(wǎng)絡(luò)是Non-Local,引入的網(wǎng)絡(luò)在參數(shù)量和浮點(diǎn)運(yùn)算量上都將產(chǎn)生極小的影響,且能夠有效地提高骨干特征的表達(dá)。
Non-Local[24]是一種非局部網(wǎng)絡(luò)操作,所謂非局部操作,即與卷積、循環(huán)運(yùn)算等局部操作相反,Non-Local可以捕獲輸入特征中每個(gè)元素的長(zhǎng)距離依賴,是一種信息極其豐富的依賴關(guān)系。結(jié)構(gòu)圖如圖6所示,分別有輸入A∈HA×WA×C和B∈HB×WB×C,可以是同一個(gè)矩陣或不同矩陣。矩陣A輸入后與B進(jìn)行殘差矩陣的運(yùn)算。殘差矩陣運(yùn)算的輸入有query、key、value三個(gè)矩陣,其中query矩陣由A賦值,key和value矩陣由B賦值,分別經(jīng)過1×1×C的卷積核編碼,然后做矩陣維度變換,經(jīng)過兩次矩陣相乘運(yùn)算和最后的1×1×C卷積運(yùn)算,輸出為殘差矩陣A+,與原矩陣A進(jìn)行相加運(yùn)算得到最終的輸出A*。各個(gè)運(yùn)算步驟的表達(dá)式如下:
圖6 Non-Local網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.6 Non-Local neural network structure diagram
其中“?”為矩陣相乘,“⊕”為矩陣逐元素相加,“T”為矩陣轉(zhuǎn)置?!??)M”代表矩陣第一維和第二維組合。θ、φ、g分別為query、key、value三個(gè)輸入的卷積運(yùn)算子。
1.2.1 自注意力網(wǎng)絡(luò)SNL
本文所設(shè)計(jì)的自注意力網(wǎng)絡(luò)(self-non-local,SNL)是將特征矩陣自身做注意力相關(guān)。具體地,在圖1中,將模板圖特征和搜索圖特征分別各自做SNL運(yùn)算。以模板圖特征為例,輸入矩陣A和B都是模板圖特征fZ,對(duì)于模板圖特征fZ和搜索圖fX特征的SNL網(wǎng)絡(luò),表達(dá)式如下:
其中f*Z是SNL注意力編碼后的模板圖特征,f*X是SNL注意力編碼后的搜索圖特征。
特征矩陣fZ被SNL網(wǎng)絡(luò)編碼后,自身的每個(gè)特征元素與其余元素都進(jìn)行了相關(guān)性計(jì)算,得到f*Z。相比沒有編碼前的特征矩陣fZ,f*Z中具備跟蹤目標(biāo)語義信息的元素被增強(qiáng),從而在分類分支中獲得更好的得分,f*Z中的背景元素被削弱,對(duì)分類分支的得分結(jié)果產(chǎn)生更小的干擾。最終目標(biāo)語義信息豐富的元素,其特征數(shù)值被放大,無關(guān)元素的特征數(shù)值被縮小。自注意力所表示的元素間的相關(guān)性影響,映射到原圖中,如圖7所示。
圖7 自注意力元素關(guān)系例圖Fig.7 Example diagram of element relationships of self-attention
圖7所示的原圖,其特征矩陣被SNL網(wǎng)絡(luò)編碼后,蝴蝶的核心語義元素(圖中黃色點(diǎn))經(jīng)過周圍元素的注意力影響,發(fā)生數(shù)值增強(qiáng),而編碼背景的元素被削弱,這使得特征更加關(guān)注核心元素,有利于提高目標(biāo)物中心位置在分類分支上的得分結(jié)果。
1.2.2 互注意力網(wǎng)絡(luò)CNL
互注意力網(wǎng)絡(luò)(cross-non-local,CNL)把搜索圖特征作為query,模板圖特征作為key和value,輸入到Non-Local網(wǎng)絡(luò)中,網(wǎng)絡(luò)使搜索圖特征f*Z編碼模板圖特征f*X對(duì)它的注意力影響,模板圖中的有關(guān)元素將對(duì)搜索圖中的核心語義元素產(chǎn)生特征增強(qiáng),表達(dá)式如下:
其中f**X是經(jīng)過CNL編碼后的搜索圖特征,f*X是經(jīng)過SNL編碼后的搜索圖特征,f*Z是經(jīng)過SNL編碼后端模板圖特征。
特征矩陣f*X被CNL網(wǎng)絡(luò)編碼后,其自身的每個(gè)元素都與f*Z的每個(gè)元素進(jìn)行了相關(guān)性計(jì)算,得到輸出f**X。相比f*X,f**X中具備跟蹤目標(biāo)語義信息的元素受到f*Z的影響而增強(qiáng),無關(guān)的背景元素被削弱,并且相當(dāng)于在進(jìn)行區(qū)域提議網(wǎng)絡(luò)的交叉相關(guān)之前,搜索圖特征提前感知了模板圖特征的屬性,提高了搜索圖特征的泛化能力。此后,f*Z和f**X將分別進(jìn)入設(shè)計(jì)了深度級(jí)卷積的分類分支和回歸分支。
圖8所示的搜索圖原圖,其特征矩陣被CNL網(wǎng)絡(luò)編碼后,蝴蝶的核心語義元素(圖中黃色點(diǎn))經(jīng)過模板圖特征元素的注意力影響,發(fā)生數(shù)值增強(qiáng),而編碼背景的元素被削弱,這使得特征更加關(guān)注搜索圖特征中的核心元素,有利于提高目標(biāo)物中心位置在分類分支上的得分結(jié)果,同時(shí)在回歸分支中的結(jié)果更加準(zhǔn)確。
圖8 互注意力元素關(guān)系例圖Fig.8 Example diagram of element relationships of cross-attention
1.2.3 融合的注意力網(wǎng)絡(luò)
融合的注意力網(wǎng)絡(luò)由圖1網(wǎng)絡(luò)結(jié)構(gòu)中的(b)、(c)兩個(gè)模塊組合表示。融合的注意力模塊首先使用SNL網(wǎng)絡(luò)將模板圖特征fZ編碼為f*Z,將搜索圖特征fX編碼為f*X,之后CNL網(wǎng)絡(luò)將f*X和f*Z作為輸入,輸出編碼了模板圖相關(guān)影響的搜索圖特征f**X。所使用的融合注意力網(wǎng)絡(luò)一方面增強(qiáng)了模板圖特征和搜索圖特征各自的目標(biāo)特征語義,一方面讓模板圖中的目標(biāo)對(duì)搜索圖中的目標(biāo)元素產(chǎn)生有利于跟蹤的影響,總體上來說可以增加跟蹤的準(zhǔn)確率。
融合注意力網(wǎng)絡(luò)具有極低的運(yùn)算量。SiamNL算法的浮點(diǎn)運(yùn)算量為5.670 GFLOPS,其中模板圖的SNL網(wǎng)絡(luò)所占浮點(diǎn)運(yùn)算量為0.010 GFLOPS,搜索圖SNL網(wǎng)絡(luò)所占浮點(diǎn)運(yùn)算量為0.247 GFLOPS,而CNL網(wǎng)絡(luò)占0.077 GFLOPS。即所引入的注意力網(wǎng)絡(luò)共需要0.334 GFLOPS的運(yùn)算量,占總運(yùn)算量的5.89%,所以可以說所引入的注意力網(wǎng)絡(luò)是輕量級(jí)的。
本文算法基于pytorch深度學(xué)習(xí)框架進(jìn)行搭建,所使用的硬件為單卡NVIDIAGeForceGTX 1080顯卡,顯存8 GB。使用預(yù)訓(xùn)練的AlexNet網(wǎng)絡(luò)作為孿生骨干網(wǎng)絡(luò),僅微調(diào)后兩層參數(shù),區(qū)域提議網(wǎng)絡(luò)使用錨框數(shù)量k=5。使用交叉熵?fù)p失函數(shù),其中分類損失權(quán)重為1,回歸損失權(quán)重為1.2。學(xué)習(xí)率從0.01開始遞減至0.000 5,訓(xùn)練epoch為50,batch為256。
訓(xùn)練數(shù)據(jù)集為ILSVRC2015[25]和COCO[26],使用漂移、尺度變化、模糊、顏色變化等訓(xùn)練數(shù)據(jù)增強(qiáng)方法進(jìn)行訓(xùn)練。所用測(cè)試數(shù)據(jù)集包括VOT2016[27]、VOT2018[28]、OTB100[29]、VisDrone[30]。
將提出的SiamNL算法分別與KCF[5]、Staple[31]、ECOHC[32]、C-COT[33]、MDNet[34]、SiamFC[11]、SiamRPN[15]、C-RPN[35]、CMKCF[36]、ThrAtt-Siam[21]、SCS-Siam[22]、GradNet[37]、DensSiam[38]、DSiam[39]、CFNet[40]、StructSiam[41]進(jìn)行了對(duì)比,對(duì)比結(jié)果通過表格給出。
2.3.1 VOT數(shù)據(jù)集評(píng)價(jià)指標(biāo)
與以往的目標(biāo)跟蹤測(cè)試數(shù)據(jù)集不同的是,VOT數(shù)據(jù)集引入了重啟機(jī)制,即在跟蹤器跟丟目標(biāo)后重新初始化跟蹤器,這樣可以充分利用數(shù)據(jù)集的所有視頻幀。
VOT數(shù)據(jù)集采用的評(píng)價(jià)指標(biāo)包括準(zhǔn)確率(Accuracy),魯棒性(Robustness),EAO。準(zhǔn)確率用來評(píng)價(jià)跟蹤器的準(zhǔn)確度,其數(shù)值越大說明跟蹤器跟蹤得越準(zhǔn)確。在每一幀圖像中,跟蹤的準(zhǔn)確率由交并比(IoU)來表示,定義為:
其中AG代表人工標(biāo)注的邊界框,AT代表跟蹤器預(yù)測(cè)的邊界框。
魯棒性用來評(píng)價(jià)跟蹤器的穩(wěn)定性,跟蹤器重啟次數(shù)越多,魯棒性數(shù)值越大,說明跟蹤器越不穩(wěn)定。EAO則是根據(jù)所有視頻序列跟蹤的交并比、重啟間隔和次數(shù)等綜合評(píng)價(jià)得出的一個(gè)指標(biāo),可以反映跟蹤器的綜合性能。
2.3.2 OTB數(shù)據(jù)集評(píng)價(jià)指標(biāo)
OTB100數(shù)據(jù)集和VisDrone數(shù)據(jù)集的評(píng)價(jià)指標(biāo)相同,分別為成功率(success)和精確率(precision)。成功率即所有視頻幀中跟蹤成功的比率,設(shè)定閾值,使用交并比來判斷是否成功。精確率則注重算法預(yù)測(cè)的目標(biāo)中心位置與標(biāo)注中心位置是否相近,當(dāng)兩者距離小于閾值代表精確,并評(píng)估所有幀中精確的比率。
為了更好地反映算法性能,成功率圖(success plot)和精確率圖(precision plot)是一種直觀的方法,將所設(shè)置的不同閾值對(duì)應(yīng)的成功率或精確率結(jié)果繪制成曲線,方便進(jìn)行對(duì)比,從而避免固定閾值帶來的偶然對(duì)比誤差。為了使用單一指標(biāo)來反映跟蹤器的能力,將曲線中的所有關(guān)鍵點(diǎn)坐標(biāo)做數(shù)值平均,得到平均成功率和平均精確率。
2.4.1 VOT2016數(shù)據(jù)集
VOT2016數(shù)據(jù)集總共包含60個(gè)視頻序列,所有視頻序列均由以下視覺屬性標(biāo)注:遮擋、光照變化、運(yùn)動(dòng)變化、尺寸變化、攝像機(jī)運(yùn)動(dòng)。VOT2016所采用的標(biāo)注方法是像素級(jí)分割標(biāo)注和最貼合邊界框,其中最貼合邊界框并非以往的橫向?qū)ΨQ邊界框,而是斜向邊界框,由分割標(biāo)注換算而來。
本文的提出的SiamNL算法在VOT2016數(shù)據(jù)集上同時(shí)對(duì)比了多項(xiàng)目標(biāo)跟蹤算法,結(jié)果如表1所示。在VOT2016數(shù)據(jù)集的對(duì)比結(jié)果中,SiamNL相比SiamRPN算法,準(zhǔn)確率提高了0.051,魯棒性提高了0.052,EAO指標(biāo)提高了0.032,同時(shí)比C-RPN提高了0.013的EAO指標(biāo)。
表1 VOT2016數(shù)據(jù)集實(shí)驗(yàn)結(jié)果Table 1 Experimental results of VOT2016 dataset
2.4.2 VOT2018數(shù)據(jù)集
VOT2018數(shù)據(jù)集繼續(xù)保持60個(gè)視頻序列,其中一部分保留了2016年的序列,另一部分用新序列替代了原先不具有挑戰(zhàn)性的序列。而視覺屬性上仍然保持五種基本屬性。所有視頻標(biāo)注都進(jìn)行了調(diào)整和優(yōu)化。
SiamNL算法在VOT2018數(shù)據(jù)集上的測(cè)試對(duì)比結(jié)果如表2所示。SiamNL算法獲得了最好的結(jié)果,相比SiamRPN算法,準(zhǔn)確率提高了0.062,魯棒性提高了0.006,EAO提高了0.020。
表2 VOT2018數(shù)據(jù)集實(shí)驗(yàn)結(jié)果Table 2 Experimental results of VOT2018 dataset
2.4.3 OTB100數(shù)據(jù)集
OTB100數(shù)據(jù)集共有98個(gè)視頻序列和100個(gè)標(biāo)注對(duì)象,所采用的標(biāo)注方法是左右對(duì)稱的矩形邊界框。本文提出的SiamNL算法在OTB100數(shù)據(jù)集上的對(duì)比結(jié)果如表3所示。從實(shí)驗(yàn)結(jié)果看出,SiamNL在OTB100數(shù)據(jù)集上相比SiamRPN算法,在成功率上有提升,在精確率上保持相當(dāng)。
表3 OTB100數(shù)據(jù)集實(shí)驗(yàn)結(jié)果Table 3 Experimental results of OTB100 dataset
2.4.4 VisDrone數(shù)據(jù)集
VisDrone單目標(biāo)跟蹤數(shù)據(jù)集包含多種視覺屬性標(biāo)注,本文所提出的SiamNL算法在面對(duì)背景干擾、低分辨率、高速運(yùn)動(dòng)等視覺屬性問題上,相比SiamRPN算法有一定的提升,對(duì)比結(jié)果如表4所示。
表4 VisDrone數(shù)據(jù)集實(shí)驗(yàn)結(jié)果Table 4 Experimental results of VisDrone dataset
在VisDrone數(shù)據(jù)集中,帶有的背景干擾屬性的數(shù)據(jù)集在SiamNL上的平均成功率高出SiamRPN 0.008,平均
SiamNL算法相比于其他的目標(biāo)跟蹤算法,在VOT2016、VOT2018、OTB100三個(gè)權(quán)威數(shù)據(jù)集的平均指標(biāo)結(jié)果上都有提升,這主要由于所設(shè)計(jì)的輕量級(jí)注意力網(wǎng)絡(luò)結(jié)構(gòu)SNL和CNL增強(qiáng)了模板圖特征和搜索圖特征中核心語義元素的表達(dá),從而提升了跟蹤過程中跟蹤框框取的精確度(通過VOT數(shù)據(jù)集的accuracy、OTB數(shù)據(jù)集的success和precision指標(biāo)反映),并降低了跟蹤的丟失概率(通過VOT數(shù)據(jù)集的robustness指標(biāo)反映)。精確率高出0.021;帶有低分辨率屬性的數(shù)據(jù)集在SiamNL上的平均成功率高SiamRPN 0.029,平均精確率高了0.017;帶有高速運(yùn)動(dòng)屬性的數(shù)據(jù)集在SiamNL上的平均成功率高SiamRPN0.037,平均精確率高0.002。結(jié)果說明,SiamNL算法由于引入了注意力網(wǎng)絡(luò)進(jìn)行了特征的影響系數(shù)分配,核心語義元素的系數(shù)提高,使得其在面對(duì)常見的目標(biāo)跟蹤難題場(chǎng)景下能更好地表達(dá)語義并定位跟蹤目標(biāo),從而擁有比SiamRPN更好的表現(xiàn)。
2.4.5 實(shí)時(shí)性實(shí)驗(yàn)
所提出的SiamNL算法相比SiamRPN有很好的實(shí)時(shí)性提升,并且參數(shù)量大幅度下降,運(yùn)算量和參數(shù)量對(duì)比如表5所示。
表5 運(yùn)算量和參數(shù)量對(duì)比表Table 5 Comparison table of calculation amount andparameter amount
表5中所示結(jié)果由255×255×3和127×127×3尺寸的模板圖和搜索圖作為輸入,可以看到SiamNL算法在參數(shù)量上約為原有參數(shù)量的30%,運(yùn)算量降低了0.012 GFLOPS,其中SiamNL的運(yùn)算量中僅5.89%為所引入的輕量注意力網(wǎng)絡(luò)帶來。SiamNL和SiamRPN算法在PC及嵌入式平臺(tái)上的運(yùn)算速度測(cè)試結(jié)果如表6所示。
表6 運(yùn)算速度實(shí)驗(yàn)結(jié)果Table 6 Experimental results of computing speed
所測(cè)試的PC平臺(tái)顯卡為NVIDIAGeForceGTX 1080,所測(cè)試的嵌入式平臺(tái)為NVIDIAJetsonXavierNX。所設(shè)計(jì)的算法能夠在NX開發(fā)板中充分地實(shí)時(shí)運(yùn)行,而且SiamNL算法占用內(nèi)存相比SiamRPN更低,有助于嵌入式平臺(tái)接入更多運(yùn)算需求。
2.4.6 實(shí)驗(yàn)結(jié)果總結(jié)
在背景干擾、低分辨率、高速運(yùn)動(dòng)的挑戰(zhàn)場(chǎng)景中,使用VisDrone數(shù)據(jù)集為標(biāo)桿,與SiamRPN算法進(jìn)行對(duì)比,各場(chǎng)景的平均指標(biāo)結(jié)果都有提升。在背景干擾的場(chǎng)景中,可能存在復(fù)雜背景和相似目標(biāo)等問題,注意力網(wǎng)絡(luò)可以削弱背景特征元素的值,從而減少背景對(duì)跟蹤效果的影響。在低分辨率的場(chǎng)景中,目標(biāo)占據(jù)較少的像素點(diǎn),細(xì)節(jié)特征不足,但是注意力網(wǎng)絡(luò)可以增強(qiáng)目標(biāo)特征元素的語義表達(dá),從而更加準(zhǔn)確地判別跟蹤目標(biāo)。在高速運(yùn)動(dòng)的挑戰(zhàn)場(chǎng)景中,目標(biāo)產(chǎn)生運(yùn)動(dòng)模糊,細(xì)節(jié)特征將會(huì)被弱化,注意力網(wǎng)絡(luò)同樣可以增強(qiáng)目標(biāo)的語義表達(dá)能力,在模糊狀態(tài)下也能準(zhǔn)確地獲取跟蹤目標(biāo)。所以在各種目標(biāo)跟蹤挑戰(zhàn)數(shù)據(jù)集中,注意力網(wǎng)絡(luò)都能體現(xiàn)出它增強(qiáng)目標(biāo)弱化背景的優(yōu)勢(shì),而在實(shí)時(shí)目標(biāo)跟蹤任務(wù)中,由于輕量注意力網(wǎng)絡(luò)所占運(yùn)算量極低,跟蹤算法具有較好的實(shí)時(shí)性,高速運(yùn)動(dòng)帶來的幀間目標(biāo)大距離位移將很少出現(xiàn),這同樣有利于跟蹤算法更準(zhǔn)確地跟蹤目標(biāo)。
在實(shí)時(shí)性實(shí)驗(yàn)中,SiamNL算法主要對(duì)比于SiamRPN算法,由于設(shè)計(jì)了深度級(jí)卷積的網(wǎng)絡(luò)結(jié)構(gòu),使用更小的運(yùn)算量在區(qū)域提議網(wǎng)絡(luò)中完成了相似的特征矩陣卷積相關(guān)運(yùn)算,使得SiamNL算法的參數(shù)量和運(yùn)算量下降,體現(xiàn)在運(yùn)算速度上帶來明顯的提升。在嵌入式平臺(tái)中也進(jìn)行了運(yùn)算速度實(shí)驗(yàn),更好地說明了所設(shè)計(jì)跟蹤算法的實(shí)時(shí)性效果。
2.5.1 跟蹤序列對(duì)比
為了驗(yàn)證所設(shè)計(jì)的算法在實(shí)際視頻序列中的有效提升,選取了一些具有復(fù)雜干擾元素的視頻序列作為可視化結(jié)果,并進(jìn)行定性分析,如圖9所示。
圖9 視頻序列跟蹤結(jié)果對(duì)比Fig.9 Comparison of video sequence tracking results
第一段Biker序列中,中間幀出現(xiàn)目標(biāo)頭盔的高速移動(dòng),產(chǎn)生運(yùn)動(dòng)模糊,其中SiamRPN、KCF、Staple都出現(xiàn)了跟蹤丟失,只有SiamNL完全地跟蹤在了目標(biāo)頭盔上。第二段Freeman序列由灰度圖片組成,跟蹤到最后只有SiamNL沒有發(fā)生丟失,Staple發(fā)生漂移,其余跟蹤器都丟失了目標(biāo)。第三段Girl序列跟蹤目標(biāo)為騎滑板車的女孩,背景是一處公園,跟蹤過程中會(huì)發(fā)生遮擋和背景干擾等情況,而SiamNL算法全程跟準(zhǔn)目標(biāo),其余跟蹤器都產(chǎn)生了跟蹤漂移和跟蹤丟失。第四段Jump序列,由于運(yùn)動(dòng)員目標(biāo)的形狀多變,跟蹤框內(nèi)的背景極易對(duì)跟蹤產(chǎn)生影響,實(shí)際說明SiamNL算法抵抗干擾的能力很強(qiáng),可以很好地跟蹤目標(biāo)。第五段Liquor序列跟蹤目標(biāo)為酒瓶,視頻序列中多個(gè)酒瓶都對(duì)目標(biāo)產(chǎn)生相似性干擾,SiamNL算法準(zhǔn)確跟蹤目標(biāo)的同時(shí),跟蹤框精準(zhǔn)度很高,而其他跟蹤算法在跟蹤過程中都被相似目標(biāo)所干擾。
綜上分析,SiamNL算法有很好地抵抗背景干擾、相似干擾等影響的能力,所設(shè)計(jì)的注意力網(wǎng)絡(luò)的作用得到了印證。
2.5.2 特征圖對(duì)比
從區(qū)域提議網(wǎng)絡(luò)的匹配得分圖上分析SiamNL的提升效果,本文選取了三個(gè)跟蹤幀進(jìn)行對(duì)比,將得分平滑地映射到搜索圖上,如圖10所示。
圖10 得分熱力圖對(duì)比Fig.10 Comparison of score heat maps
所選取的三個(gè)序列包含不同的主要屬性特征。第一段序列Ants的屬性為相似目標(biāo),SiamRPN算法被相似目標(biāo)干擾嚴(yán)重,而SiamNL則沒有;第二段序列Dancer的屬性為灰度顏色空間,SiamNL對(duì)灰度圖像的抗干擾能力較好;第三段序列Motocross的屬性為高速運(yùn)動(dòng),SiamNL算法的得分熱力圖比SiamRPN更加集中。綜合以上熱力圖對(duì)比結(jié)果,可以知道SiamNL算法引入注意力網(wǎng)絡(luò)后可以更好地重視核心區(qū)域元素,對(duì)各種干擾因素有更好的抵抗能力。
本文設(shè)計(jì)了引入輕量注意力網(wǎng)絡(luò)的孿生神經(jīng)網(wǎng)絡(luò)目標(biāo)跟蹤算法SiamNL。在SiamRPN算法的基礎(chǔ)上,使用深度級(jí)卷積改進(jìn)區(qū)域提議網(wǎng)絡(luò)模型,減少了參數(shù)量和運(yùn)算量。在孿生神經(jīng)網(wǎng)絡(luò)提取的特征圖后增加了自注意力網(wǎng)絡(luò)和互注意力網(wǎng)絡(luò),自注意力網(wǎng)絡(luò)增加了模板圖和搜索圖的自編碼能力,經(jīng)過自編碼的模板圖和搜索圖突出了圖像的核心目標(biāo)區(qū)域;互注意力網(wǎng)絡(luò)增加了模板圖對(duì)搜索圖的互編碼,在進(jìn)入分類分支和回歸分支之前,搜索圖提前編碼了模板圖的有用信息,從而提升了分類分支當(dāng)中目標(biāo)區(qū)域的交叉相關(guān)得分。引入的注意力網(wǎng)絡(luò)對(duì)運(yùn)算量的影響很小,所以認(rèn)為是輕量級(jí)的。
本文在VOT2016、VOT2018、OTB100、VisDrone數(shù)據(jù)集上進(jìn)行了對(duì)比測(cè)試,并做了實(shí)時(shí)性分析和視頻序列、熱力圖的定性分析。實(shí)驗(yàn)結(jié)果表明,SiamNL算法在SiamRPN的基礎(chǔ)上,降低了運(yùn)算資源占用,提高了運(yùn)算速度,提升了跟蹤效果。所設(shè)計(jì)的SiamNL算法由于在各種挑戰(zhàn)場(chǎng)景下有很好的跟蹤效果,且表現(xiàn)出了在準(zhǔn)確率和實(shí)時(shí)性上很好的平衡性。本文的下一步工作將對(duì)SiamNL算法的特征提取骨干網(wǎng)絡(luò)AlexNet進(jìn)行改進(jìn),設(shè)計(jì)具備更好的特征提取能力且運(yùn)算高效的骨干網(wǎng)絡(luò)。