孫吉宇
摘要: 本文提出一種新的目標(biāo)跟蹤架構(gòu),該架構(gòu)由專用的目標(biāo)估計(jì)和分類組件組成。通過(guò)廣泛的離線學(xué)習(xí)將高級(jí)知識(shí)納入目標(biāo)估計(jì)。訓(xùn)練目標(biāo)估計(jì)部分以預(yù)測(cè)目標(biāo)對(duì)象與估計(jì)的邊界框之間的重疊。通過(guò)仔細(xì)整合特定于目標(biāo)的信息,實(shí)現(xiàn)了較高的邊界框精度。進(jìn)一步引入了一個(gè)在線訓(xùn)練的分類組件,以保證在干擾物存在的情況下具有高辨別力。我們的最終跟蹤框架在五個(gè)具有挑戰(zhàn)性的基準(zhǔn)測(cè)試中設(shè)置了最新的先進(jìn)技術(shù)。
關(guān)鍵詞:目標(biāo)跟蹤;研究
中圖分類號(hào):TP391.41文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1672-9129(2020)13-0034-01
1引言
通用的在線視覺(jué)跟蹤是一個(gè)困難和不適定的問(wèn)題。跟蹤方法必須在最小監(jiān)督下在線學(xué)習(xí)目標(biāo)的外觀模型,通常是視頻中的單個(gè)起始幀。然后,模型需要概括到目標(biāo)外觀的不可見(jiàn)方面,包括不同的姿勢(shì),視點(diǎn)等。跟蹤問(wèn)題可以分解為分類任務(wù)和估計(jì)任務(wù)。在前一種情況下,目的是通過(guò)將圖像區(qū)域分類為前景和背景來(lái)穩(wěn)健地提供圖像中目標(biāo)的粗略位置。然后,第二個(gè)任務(wù)是估計(jì)目標(biāo)狀態(tài),通常由邊界框表示。
本文著手彌合目標(biāo)分類和視覺(jué)對(duì)象跟蹤估計(jì)之間的性能差距。引入了一種新穎的跟蹤架構(gòu),包括兩個(gè)專門用于目標(biāo)估計(jì)和分類的組件。受最近提出的IoU-Net的啟發(fā),訓(xùn)練目標(biāo)估計(jì)組件以預(yù)測(cè)聯(lián)合交叉(IoU)重疊,在目標(biāo)和估計(jì)的邊界框之間。由于最初的IoU-Net是特定類別的,因此不適用于通用跟蹤,我們提出了一種新的架構(gòu),用于將目標(biāo)特定信息集成到IoU預(yù)測(cè)中。我們通過(guò)引入基于調(diào)制的網(wǎng)絡(luò)組件來(lái)實(shí)現(xiàn)這一點(diǎn),該網(wǎng)絡(luò)組件將目標(biāo)外觀合并到參考圖像中以獲得目標(biāo)特定的IoU估計(jì)。這進(jìn)一步使目標(biāo)估計(jì)組件能夠在大規(guī)模數(shù)據(jù)集上離線訓(xùn)練。在跟蹤期間,通過(guò)簡(jiǎn)單地最大化每幀中的預(yù)測(cè)IoU重疊來(lái)找到目標(biāo)邊界框。
2通過(guò)重疊最大化的目標(biāo)評(píng)估
在這項(xiàng)工作中,提出了一種新穎的跟蹤方法,包括兩個(gè)組成部分:1)離線學(xué)習(xí)的目標(biāo)估計(jì)模塊;2)在線學(xué)習(xí)的目標(biāo)分類模塊。也就是說(shuō),按照物體檢測(cè)的現(xiàn)代趨勢(shì),我們將目標(biāo)分類和估計(jì)的子問(wèn)題分開(kāi)。然而,這兩項(xiàng)任務(wù)都集成在統(tǒng)一的多任務(wù)網(wǎng)絡(luò)架構(gòu)中。
我們?yōu)槟繕?biāo)分類和估算任務(wù)使用相同的骨干網(wǎng)絡(luò)。為簡(jiǎn)單起見(jiàn),我們使用在ImageNet上訓(xùn)練的ResNet-18模型,并避免在此工作中微調(diào)骨干。目標(biāo)估計(jì)由IoU預(yù)測(cè)器網(wǎng)絡(luò)執(zhí)行。該網(wǎng)絡(luò)在大規(guī)模視頻跟蹤和物體檢測(cè)數(shù)據(jù)集上離線訓(xùn)練,并且在線跟蹤期間其權(quán)重被凍結(jié)。IoU預(yù)測(cè)器采用四個(gè)輸入:1)來(lái)自當(dāng)前幀的主干特征,2)當(dāng)前幀中的邊界框估計(jì),3)來(lái)自參考幀的主干特征,4)參考幀中的目標(biāo)邊界框。然后,它輸出每個(gè)當(dāng)前幀邊界框估計(jì)的預(yù)測(cè)的聯(lián)合交叉(IoU)分?jǐn)?shù)。在跟蹤期間,通過(guò)使用梯度上升最大化IoU分?jǐn)?shù)來(lái)獲得最終邊界框。
目標(biāo)分類由另一個(gè)神經(jīng)網(wǎng)絡(luò)執(zhí)行。與目標(biāo)估計(jì)組件不同,分類網(wǎng)絡(luò)在在線跟蹤期間被完全學(xué)習(xí)。它被專門訓(xùn)練以通過(guò)基于從當(dāng)前幀提取的主干特征預(yù)測(cè)目標(biāo)置信度得分來(lái)區(qū)分目標(biāo)與場(chǎng)景中的其他對(duì)象。訓(xùn)練和預(yù)測(cè)都以完全卷積的方式進(jìn)行,以確保效率和覆蓋范圍。然而,使用傳統(tǒng)方法在線培訓(xùn)這樣的網(wǎng)絡(luò),例如隨機(jī)梯度下降,對(duì)于在線目的而言并不是最理想的。因此,我們建議使用基于共軛梯度的優(yōu)化策略,以實(shí)現(xiàn)快速在線學(xué)習(xí)。
狀態(tài)估計(jì)組件的目的是在粗略的初始估算下確定目標(biāo)邊界框。從IoU-Net中獲得啟發(fā),該IoU-Net最近被提出用于對(duì)象檢測(cè),作為典型的基于錨定邊界框回歸技術(shù)的替代方法。與傳統(tǒng)方法相比,IoU-Net經(jīng)過(guò)訓(xùn)練可預(yù)測(cè)圖像對(duì)象與物體之間的IoU 輸入邊界框候選。然后通過(guò)最大化IoU預(yù)測(cè)來(lái)執(zhí)行邊界框估計(jì)。
網(wǎng)絡(luò)架構(gòu):為了進(jìn)行目標(biāo)檢測(cè),需要為每個(gè)對(duì)象類別訓(xùn)練獨(dú)立的IoU網(wǎng)絡(luò)。但是,在跟蹤目標(biāo)類別時(shí)通常是未知的。此外,與對(duì)象檢測(cè)不同,目標(biāo)不需要屬于任何預(yù)定義類別集或在任何現(xiàn)有的訓(xùn)練數(shù)據(jù)集中表示。因此,特定于類別的IoU預(yù)測(cè)器很少用于通用視覺(jué)跟蹤,而是通過(guò)利用第一幀中的目標(biāo)注釋來(lái)要求特定于目標(biāo)的IoU預(yù)測(cè)。由于IoU預(yù)測(cè)任務(wù)的高級(jí)性質(zhì),在單個(gè)框架上在線訓(xùn)練甚至微調(diào)IoU-Net都是不可行的。因此,我們認(rèn)為目標(biāo)估計(jì)網(wǎng)絡(luò)需要脫機(jī)訓(xùn)練以學(xué)習(xí)IoU預(yù)測(cè)的一般表示。
訓(xùn)練:可以使用帶邊界框注釋的圖像對(duì)以端對(duì)端的方式訓(xùn)練整個(gè)IoU預(yù)測(cè)網(wǎng)絡(luò)。使用最近引入的大規(guī)模單對(duì)象跟蹤(LaSOT)數(shù)據(jù)集和TrackingNet的訓(xùn)練方式。我們從視頻中采樣圖像對(duì),最大間隔為50幀。使用來(lái)自COCO數(shù)據(jù)集的合成圖像對(duì)來(lái)擴(kuò)充訓(xùn)練數(shù)據(jù),以具有更多不同的類別。在參考圖像中,對(duì)以目標(biāo)為中心的正方形補(bǔ)丁進(jìn)行采樣,其面積約為目標(biāo)面積的52倍。從測(cè)試圖像中,采樣了一個(gè)類似的圖像塊,在位置和比例上有一些干擾,以模擬跟蹤情況。然后將這些裁剪區(qū)域調(diào)整為固定大小。對(duì)于每個(gè)圖像對(duì),通過(guò)將高斯噪聲添加到地面真實(shí)坐標(biāo)來(lái)生成16個(gè)候選邊界框,同時(shí)確保最小IoU為0:1。使用圖像翻轉(zhuǎn)和色彩抖動(dòng)進(jìn)行數(shù)據(jù)增強(qiáng)并將IoU歸一化為[-1,1]。
3快速在線學(xué)習(xí)的目標(biāo)分類
雖然目標(biāo)估算模塊提供了準(zhǔn)確的邊界框輸出,但是它缺乏可靠地區(qū)分目標(biāo)物體和背景干擾物的能力,因此在估算模塊上增加了第二個(gè)網(wǎng)絡(luò)頭,其唯一目的是執(zhí)行這種區(qū)分。與估計(jì)組件不同,目標(biāo)分類模塊僅在網(wǎng)上進(jìn)行培訓(xùn),以預(yù)測(cè)目標(biāo)置信度得分。由于目標(biāo)分類模塊的目標(biāo)是提供對(duì)象的大致坐標(biāo)位置,因此希望它不會(huì)改變目標(biāo)的大小和比例。相反,它應(yīng)該通過(guò)最小化錯(cuò)誤檢測(cè)來(lái)強(qiáng)調(diào)魯棒性。
4實(shí)驗(yàn)驗(yàn)證
我們?cè)谖鍌€(gè)具有挑戰(zhàn)性的跟蹤數(shù)據(jù)集上介紹了我們的跟蹤器與最新方法的比較。我們對(duì)數(shù)據(jù)集的30 FPS版本進(jìn)行評(píng)估。
5總結(jié)
本文提出了一種新穎的跟蹤體系結(jié)構(gòu),其中包含用于目標(biāo)估計(jì)和分類的組件。估計(jì)組件在大規(guī)模數(shù)據(jù)集上進(jìn)行離線訓(xùn)練,以預(yù)測(cè)目標(biāo)和邊界框估計(jì)之間的IoU重疊。分類組件由兩層全卷積網(wǎng)絡(luò)頭組成,并使用專用的優(yōu)化方法進(jìn)行在線培訓(xùn)。
參考文獻(xiàn):
[1]張靜,王文杰.基于多信息融合的多目標(biāo)跟蹤方法研究[J].計(jì)算機(jī)測(cè)量與控制,2020,28(09):233-237.
[2]孟琭,李誠(chéng)新.雙特征模型核相關(guān)濾波目標(biāo)跟蹤算法[J].中國(guó)圖象圖形學(xué)報(bào),2019,24(12):2183-2199.