南京工程學(xué)院 陶媛媛
目標(biāo)跟蹤是計(jì)算機(jī)視覺領(lǐng)域的作用是舉足輕重的,它在生活的各個領(lǐng)域中都有極其重要的研究價值。然而,大多數(shù)目標(biāo)跟蹤算法由于其只使用離線訓(xùn)練的方法,一定程度上存在著局限性。故本文將提出一種基于SiamRPN與自適應(yīng)模板更新的目標(biāo)跟蹤方法,以SiamRPN算法為基礎(chǔ)進(jìn)行目標(biāo)的特征提取,通過利用目標(biāo)物體在初始模板、累積模板及預(yù)測模板的信息以及UpdateNet,并采用了相應(yīng)的殘差策略,從而得到需要的更新模板,以此來提升算法的魯棒性。
數(shù)十年以來,盡管眾多研究者對目標(biāo)跟蹤中出現(xiàn)的問題進(jìn)行了持續(xù)地理論研究,也得到了對應(yīng)的可行方案。但是鑒于目標(biāo)跟蹤過程中復(fù)雜的變化特性,想要真正將其廣泛應(yīng)用于生活中任然需要不斷地對目標(biāo)跟蹤模型進(jìn)行優(yōu)化。目前而言,目標(biāo)跟蹤面臨幾個問題:形狀及光照變化,快速移動、旋轉(zhuǎn)、背景模糊、干擾物遮蔽等情況。盡管許多基于孿生網(wǎng)絡(luò)的跟蹤算法都表現(xiàn)出了十分優(yōu)越的性能,但大多數(shù)目標(biāo)跟蹤器總是默認(rèn)的在選取模板幀時,將目光鎖定在了視頻序列的第一幀,同時在后面的跟蹤過程中不會對模板進(jìn)行更新。因此,當(dāng)目標(biāo)物體受到干擾時得到的預(yù)測結(jié)果往往會相差甚大。傳統(tǒng)的模板更新策略是線性的,由于目標(biāo)在每一幀的變化范圍都是不一樣的,線性模板必然是無法使得我們得到理想結(jié)果的。故為解決這一問題,本文提出一種基于SiamRPN的一種自適應(yīng)模板更新機(jī)制,使得目標(biāo)跟蹤的結(jié)果較為準(zhǔn)確。
SiamRPN是在SiamFC的基礎(chǔ)上加入了區(qū)域生成網(wǎng)絡(luò)的基于區(qū)域生成網(wǎng)絡(luò)的目標(biāo)跟蹤算法。全卷機(jī)孿生網(wǎng)絡(luò)(SiamFC)是Luca Bertinetto等人提出的最早的Siamese結(jié)構(gòu),它能夠得到一個較大的搜索圖像,并將之輸入到卷積神經(jīng)網(wǎng)絡(luò)中并求得模板之間的相似度。為使得網(wǎng)絡(luò)可以完成分類和回歸任務(wù)的聯(lián)合跟蹤,SiamRPN在孿生網(wǎng)絡(luò)中加入了區(qū)域機(jī)制(RPN)。RPN利用了一個可變長寬比值的邊界框來預(yù)估目標(biāo)的初始位置,與原始的模型相比,在速度上擁有一定的優(yōu)勢。
視覺跟蹤的關(guān)鍵是神經(jīng)網(wǎng)絡(luò)對于特征的表達(dá)能力,而對卷積層進(jìn)行疊加這個方法,在模型訓(xùn)練過程中會造成一些梯度消失的難題。傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)在深度增加的情況下,甚至?xí)霈F(xiàn)網(wǎng)格退化的問題,為此,在ILSVRC2015競賽成績中突出的深度殘差網(wǎng)絡(luò)ResNet-50結(jié)構(gòu)很好地解決了上述問題,并且受到了廣泛的應(yīng)用。因此在本文中,我們將在SiamRPN的基礎(chǔ)上,利用ResNet50代替AlexNet,同時加入多層融合,從而提高跟蹤精度。
本文以SiamRPN算法為基礎(chǔ),利用原有的特征提取模型和深度殘差網(wǎng)絡(luò)進(jìn)行對目標(biāo)的特征提取。首先通過互相關(guān)的操作將問題轉(zhuǎn)為模板匹配的問題,利用一個嵌入式空間來計(jì)算出與目標(biāo)模板匹配的最佳位置。其次利用SiamRPN算法中的區(qū)域候選網(wǎng)絡(luò)來產(chǎn)生候選目標(biāo)的范圍并提取特征向量,從而生成回歸邊界的預(yù)測框。在對候選邊界框進(jìn)行篩選時,利用非極大值抑制來確定預(yù)定義錨點(diǎn)框,再選出相應(yīng)錨點(diǎn)框與真實(shí)目標(biāo)框的長寬比例數(shù)據(jù),進(jìn)而對錨點(diǎn)框進(jìn)行坐標(biāo)回歸,最后得到最終的預(yù)測框。
據(jù)上文所述,本文提出了一種自適應(yīng)模板融合的更新機(jī)制。該機(jī)制將通過對一個殘差計(jì)算函數(shù)進(jìn)行學(xué)習(xí)從而得到更新模板。該函數(shù)利用卷積神經(jīng)網(wǎng)絡(luò)UpdateNet實(shí)現(xiàn),該網(wǎng)絡(luò)能夠較好地表達(dá)出特征,同時具有較強(qiáng)的學(xué)習(xí)能力。自適應(yīng)模板更新網(wǎng)絡(luò)將需要三個輸入:視頻序列中第一幀的初始模板、前一幀的累積模板和當(dāng)前幀的預(yù)測模板。殘差計(jì)算函數(shù)通過集成當(dāng)前幀來更新上一幀的累積模板。此外,為了提高該函數(shù)的魯棒性,還考慮了初始模板,提高了生成的更新模板的可靠性。
首先,對初始幀的真實(shí)邊界框信息進(jìn)行提取得到目標(biāo)模板特征。其次利用累積模板特征來預(yù)測得到當(dāng)前幀模板的特征,進(jìn)而得到目標(biāo)位置,并得到相應(yīng)的特征信息。在UpdateNet中僅僅使用到了第一幀的真實(shí)準(zhǔn)確信息,其他的后續(xù)輸入都是由目標(biāo)跟蹤算法預(yù)測得到的,故需要采取相應(yīng)的殘差策略,以便后續(xù)更好的跟蹤。處理幀之間的殘差計(jì)算模塊中有兩個組卷積層,分別為通道混洗模塊和跳連操作。第一個組卷積層主要提取輸入信號特征信息,并完成降維。通道混洗模塊讓組卷積的輸入和輸出通道處于完全相關(guān)的狀態(tài)。第二個組卷積層則進(jìn)一步提取特征信息,并完成升維。
本文采用VOT測試集中的VOT2018。該數(shù)據(jù)集包含6種視覺屬性:相繼移動、光照變化、目標(biāo)尺寸變化、目標(biāo)動作變化和未退化。它的主要評估指標(biāo)包括準(zhǔn)確性(A)、魯棒性(R)以及預(yù)期平均重疊率(EAO)。
在進(jìn)行自適應(yīng)模板更新的參數(shù)設(shè)置時,本文僅在LaSOT標(biāo)準(zhǔn)數(shù)據(jù)集中挑選了20個訓(xùn)練視頻圖像序列。通過實(shí)驗(yàn)發(fā)現(xiàn),自適應(yīng)模板更新網(wǎng)絡(luò)并不適用于較大的訓(xùn)練集,附加數(shù)據(jù)并不會大幅度提升模板更新網(wǎng)絡(luò)的性能。自適應(yīng)模板更新網(wǎng)絡(luò)中兩個卷積層的尺寸分別為1×1×1536×192,1×1×192×512。所有的實(shí)驗(yàn)是利用Pytorch進(jìn)行的,為評估本文算法的性能,對自適應(yīng)模板更新在相應(yīng)數(shù)據(jù)集上進(jìn)行測試,部分結(jié)果如表1所示。
表1 在VOT2018數(shù)據(jù)集上實(shí)驗(yàn)結(jié)果對比
從表1中可以看出,本文提出的目標(biāo)跟蹤算法具有一定的性能優(yōu)勢,能夠達(dá)到較高的準(zhǔn)確性和較低的跟蹤次數(shù),一定程度上證明了算法是可行的。即使在跟蹤速度上不如一些算法,但在跟蹤次數(shù)上展現(xiàn)了良好的跟蹤效果。
現(xiàn)如今,大多數(shù)基于孿生網(wǎng)絡(luò)的目標(biāo)跟蹤算法對在線模板更新機(jī)制的關(guān)注較少,僅用視頻序列的第一幀不一定能得到目標(biāo)處于干擾情況下的預(yù)測位置,故利用自適應(yīng)模板更新策略是有必要的。為解決該問題,本文將目標(biāo)的初始模板、前一幀的累積模板和預(yù)測模板輸入到殘差計(jì)算模塊中,通過利用具有可學(xué)習(xí)的模板更新策略的卷積神經(jīng)網(wǎng)絡(luò)UpdateNet來實(shí)現(xiàn)殘差計(jì)算函數(shù),從而自適應(yīng)當(dāng)前幀的特定更新要求。實(shí)驗(yàn)表明,本文提出的算法雖然在某些指標(biāo)上不如一些主流的目標(biāo)跟蹤算法,但在跟蹤丟失次數(shù)和準(zhǔn)確性上具有一定的提升效果,這也證明了本文算法的可行性。