單 彬,丁昕苗,王銘淏,郭 文
(山東工商學(xué)院 信息與電子工程學(xué)院,山東 煙臺(tái) 264009)
由于目標(biāo)跟蹤[1-8]存在幾項(xiàng)有獨(dú)特特性的問題而被深入研究,例如:跟蹤過程中由于物體的劇烈形變、物體旋轉(zhuǎn)、嚴(yán)重遮擋以及視頻幀的光照變化等原因造成的跟蹤不穩(wěn)定,還有跟蹤過程中能夠獲取的正樣本數(shù)量有限問題。
現(xiàn)有的視覺跟蹤器大多由3個(gè)部分組成:特征表示(外觀模型)、模型更新器和集成后處理器[9]。在這3個(gè)組件中,“特征表示器”和“模型更新器”是兩個(gè)重要的組件,它們?cè)谀繕?biāo)跟蹤中起著關(guān)鍵作用,但卻面臨著以下挑戰(zhàn):
(1)判別特征表示缺乏多樣性:單一特征的目標(biāo)表示始終會(huì)限制跟蹤器的跟蹤性能。在跟蹤領(lǐng)域,跟蹤數(shù)據(jù)可以通過不同類型的視覺視圖來表示,包括Color[10]、LBP[11]和HoG[12]等。由于目標(biāo)表示的方式在不斷發(fā)展,它在不同的特征空間中具有不同的區(qū)分度。在跟蹤過程中總是會(huì)忽略這種多樣化的區(qū)別,這可能會(huì)導(dǎo)致外觀模型的區(qū)域更新不正確。然后分類錯(cuò)誤將累積并最終使跟蹤器漂移[13]。
(2)目標(biāo)定位過于模糊:由于目標(biāo)的外觀變化較大、目標(biāo)旋轉(zhuǎn)、嚴(yán)重的遮擋以及視頻幀中的光照變化,傳統(tǒng)的目標(biāo)跟蹤算法無法非常準(zhǔn)確定位目標(biāo),因此使跟蹤器在后續(xù)視頻中漂移。
(3)正樣本的數(shù)量:被跟蹤目標(biāo)的正樣本數(shù)量特別受到視覺跟蹤的限制,這使得建立基于學(xué)習(xí)的外觀模型和基于學(xué)習(xí)的目標(biāo)定位模型變得極為困難。
為了解決上述問題,本文提出了一種基于多視圖專家組的區(qū)域建議網(wǎng)絡(luò)的預(yù)測目標(biāo)跟蹤方法(multi-view multi-expert region proposal prediction for tracking,M2RT)。多專家組跟蹤框架(MEEM)[14]是一種采用熵極小化的跟蹤框架,本文將多視圖網(wǎng)絡(luò)結(jié)構(gòu)與專家組學(xué)習(xí)的方法相結(jié)合,利用多樣的特征語義信息解決了判別特征缺乏多樣性的問題,從而提高了跟蹤器性能。
雖然跟蹤目標(biāo)的正樣本數(shù)量是有限的,但是在通常情況下所采集到的負(fù)樣本數(shù)量是足夠多的。因此,本文的方法按照方法[14]圍繞目標(biāo)物體的大概位置擴(kuò)展出了一組邊界框,并多次迭代執(zhí)行細(xì)粒度搜索算法,將通過這樣的方法識(shí)別出的更加精確的負(fù)樣本作為負(fù)樣本。通過在擴(kuò)展的邊界框上建立多個(gè)SVM模型的輸出以預(yù)測最優(yōu)的目標(biāo)位置,本方法因此可以同時(shí)解決跟蹤目標(biāo)定位模糊和正樣本數(shù)量有限的問題。
本文的主要貢獻(xiàn)可以歸納為3個(gè)方面:
首先,本文提出了一種全新的基于多視圖的頂層特征的區(qū)域建議網(wǎng)絡(luò)預(yù)測學(xué)習(xí)跟蹤器(M2RT),該跟蹤器可以通過使用細(xì)粒度搜索算法,來找到更準(zhǔn)確的目標(biāo)位置。它可以通過細(xì)粒度的搜索算法,在大概的預(yù)測位置周圍使用一些區(qū)域的建議候選框來找到更精確的目標(biāo)位置。
其次,本文設(shè)計(jì)了一種基于多特征集成的多專家最小化修復(fù)方案。與以前的工作[14]不同之處在于本文提出的工作是通過同時(shí)考慮不同專家在不同視圖之間共享的潛在關(guān)聯(lián)對(duì)預(yù)測的跟蹤進(jìn)行判斷,本文的方法不僅能夠糾正錯(cuò)誤的模型更新,而且還可以利用互相關(guān)聯(lián)的多視圖表示進(jìn)行魯棒的外觀建模。
最后,本文建立了一個(gè)閉環(huán)的解決方案,以橋接區(qū)域建議網(wǎng)絡(luò)預(yù)測學(xué)習(xí)跟蹤器和多視圖多專家修復(fù)方案,從而可以協(xié)同的提高其跟蹤性能?;鶞?zhǔn)評(píng)估表明,本文提出的跟蹤器在比例變化和遮擋方面更魯棒、更準(zhǔn)確,并且可以得到顯著提升的性能。
本章節(jié)簡要的回顧一下目標(biāo)跟蹤和多視圖目標(biāo)跟蹤中目標(biāo)表示的幾項(xiàng)最具代表性工作。這些方法與本文提出的跟蹤算法密切相關(guān)。
已有的來描述跟蹤目標(biāo)表示的方法有很多,例如彩色圖像[10]、局部二值模式直方圖[11]、定向梯度直方圖[12]、前后幀關(guān)聯(lián)[15]、主成分分析[16]、邊緣檢測[17]、稀疏模型[18]、循環(huán)結(jié)構(gòu)[19]以及卷積神經(jīng)網(wǎng)絡(luò)[20]等。直方圖是一種有效的方法,該方法被證明對(duì)描述跟蹤區(qū)域的外觀表示是非常有效的。例如,顏色直方圖是一種不考慮圖像中的空間信息的顏色分布的表示。然而,通過這種方法獲得的目標(biāo)的直方圖缺少可靠的空間信息,因此,在跟蹤目標(biāo)時(shí)很容易失敗。一些研究人員現(xiàn)已將空間信息添加到直方圖中,以提高跟蹤性能。例如,空間分布圖[10]在每個(gè)直方圖單元中都包含空間均值和協(xié)方差。該空間信息有助于捕獲對(duì)目標(biāo)的更豐富描述,并提高跟蹤的魯棒性。局部二值模式直方圖[11]是從局部二值模式(local binary patterns,LBP)描述符獲得的,該描述符對(duì)于由自然現(xiàn)象(例如光照變化)導(dǎo)致的任何單調(diào)灰度級(jí)變化均具有較強(qiáng)的魯棒性。定向梯度直方圖(histogram of oriented gradient,HoG)[12]包含局部空間和邊緣方向信息,并且是目標(biāo)檢測的有效描述符。一些研究人員建議將LBP與HoG分類器結(jié)合使用,因?yàn)樗鼈兊慕Y(jié)合可以產(chǎn)生最佳的人體檢測結(jié)果,甚至可以處理部分目標(biāo)為人體時(shí)的遮擋情況。主成分分析子空間(principal component analysis,PCA)[16]學(xué)習(xí)可以保留的空間信息并可以適應(yīng)外觀變化,但是其計(jì)算又太過于復(fù)雜。
最近,大量的循環(huán)結(jié)構(gòu)特征跟蹤器[14]蓬勃發(fā)展并引起了廣泛關(guān)注。在借助循環(huán)矩陣的作用下,所有關(guān)注的目標(biāo)周圍的平行排列樣本都可以被采集并直接用于訓(xùn)練而不需要降低過多的運(yùn)行速度。以上所介紹的特征表示方法都能在一定程度上使得視覺跟蹤取得較好的效果。
多視圖視覺跟蹤結(jié)合了多個(gè)功能描述符,以提高視覺跟蹤性能。由于跟蹤目標(biāo)表示具有不同的特征模型且具有不同的判別力,因此有必要組合多個(gè)特征以進(jìn)行目標(biāo)跟蹤。
Grabner等[21]設(shè)計(jì)了一個(gè)自適應(yīng)集成跟蹤算法,其中采用了多種功能來增強(qiáng)選擇最有判別性的信息。在文獻(xiàn)[24]中,提出了一種創(chuàng)新性的視覺跟蹤方法,這種方法以通過加權(quán)熵使用多特征融合,并將他們通過最小化用于目標(biāo)表示的加權(quán)熵技術(shù)來尋求最佳特征組合。Hong等[22]提出了一種新穎的多任務(wù)多視圖稀疏學(xué)習(xí)跟蹤器。他們構(gòu)建了一個(gè)自適應(yīng)特征字典,該字典由不同稀疏特征表示的線性組合構(gòu)建而成。Yong等[23]利用具有不同特征描述符的多個(gè)跟蹤器通過概率方式構(gòu)建了一個(gè)魯棒的跟蹤器。Danelljan等[25]提出了一種用于實(shí)時(shí)視覺跟蹤的自適應(yīng)顏色屬性,并且該方法組合了多通道顏色信號(hào)進(jìn)行跟蹤。為了降低顏色屬性的高維計(jì)算復(fù)雜度,他們采用了自適應(yīng)維降技術(shù)并取得了不錯(cuò)的效果。本文提出的方法與現(xiàn)有的專家學(xué)習(xí)跟蹤器不同,相關(guān)的跟蹤器僅關(guān)注多個(gè)特征向量組合或目標(biāo)的選擇,而本文提出的多視圖多專家視覺跟蹤器將多個(gè)特征視為一種多專家選擇機(jī)制,以使模型更新器更魯棒和更多樣化。
近年來,深度學(xué)習(xí)在計(jì)算機(jī)視覺中的各大領(lǐng)域都取得了巨大研究成果,隨著圖像檢測方向中深度學(xué)習(xí)算法發(fā)展不斷壯大,深度學(xué)習(xí)在跟蹤領(lǐng)域中的研究應(yīng)用不斷涌現(xiàn)。Hyeonseob Nam等提出的MDNet[26]使用了一種多域?qū)W習(xí)的策略,利用難樣本挖掘和邊界框回歸結(jié)合的方法在2015年打敗了相關(guān)濾波等傳統(tǒng)跟蹤算法獲得了最優(yōu)的性能,而SiamFC[27]是之后最為流行的孿生網(wǎng)絡(luò)跟蹤架構(gòu)的開創(chuàng)性工作,CFNet[28]為CVPR2017中首個(gè)端到端的深度學(xué)習(xí)與相關(guān)濾波結(jié)合的跟蹤工作。李博等提出的SiamRPN[29]中使用了檢測領(lǐng)域中的RPN[30]檢測器,通過將模板特征與當(dāng)前幀的特征的相互交叉關(guān)聯(lián)來重新檢測模板,這種新的網(wǎng)絡(luò)結(jié)構(gòu)大幅改善了跟蹤精度,避免了跟蹤漂移問題。最近幾年的跟蹤方法里,對(duì)SiamRPN進(jìn)行改進(jìn)成為了目前一個(gè)比較主流的研究方向,使用更深層次的架構(gòu)(SiamRPN++[31])和改善的模板更新機(jī)制(UpdateNet[33])使視覺跟蹤器在準(zhǔn)確性和魯棒性上有了顯著提升。趙越等提出了互注意力指導(dǎo)的方法[32]也取得了不錯(cuò)的進(jìn)展。
在本節(jié)中,將詳細(xì)描述本文提出的基于多視圖的區(qū)域建議網(wǎng)絡(luò)跟蹤(M2RT)算法。其框架如圖1所示。提出的跟蹤方法包括兩個(gè)相互相關(guān)的階段:多視圖MEEM[14]跟蹤和用于目標(biāo)定位的多區(qū)域建議網(wǎng)絡(luò)預(yù)測學(xué)習(xí)。支持向量機(jī)SVM的訓(xùn)練樣本是從真實(shí)值周圍兩倍大的區(qū)域中采集到的。
圖1 M2RT跟蹤器的流程
通過采用不同的特征視圖來擴(kuò)展多專家跟蹤,以構(gòu)成多樣化的專家組。多視圖MEEM跟蹤器將粗略的目標(biāo)位置作為頂層區(qū)域建議網(wǎng)絡(luò)的初始輸入。M2RT跟蹤器結(jié)果的一些快照也通過反饋回路被引入多專家集成器,這可以提高模型更新器的多樣性和魯棒性。
在根據(jù)先檢測后跟蹤這樣一個(gè)主流的兩階段的框架中,許多跟蹤方法都依賴于之前視頻幀的預(yù)測結(jié)果。但是,當(dāng)前一幀得到的結(jié)果是錯(cuò)誤的,就會(huì)導(dǎo)致下一幀的更新出現(xiàn)偏差,多次迭代后致使跟蹤失敗。因此,對(duì)于目標(biāo)的精確定位在視覺跟蹤中起著重要的作用。在本文中,我們利用到了一種基于頂層特征的區(qū)域建議網(wǎng)絡(luò)來精確定位目標(biāo)。
通過使用大規(guī)模標(biāo)記的視頻幀對(duì)CNN的特征檢測器進(jìn)行整形來實(shí)現(xiàn)這種可能性,從而使網(wǎng)絡(luò)能夠提取與跟蹤高度相關(guān)的特征。然而,在實(shí)踐中大規(guī)模地收集這種標(biāo)記的數(shù)據(jù)是困難的。而我們的目標(biāo)是消除集成和特征工程,而無需任何帶標(biāo)簽的視頻幀的支持。該方法的基本思想是,如果跟蹤器能夠使用新穎的損失函數(shù)來利用區(qū)域建議網(wǎng)絡(luò)和跟蹤之間的概念相似性,則網(wǎng)絡(luò)應(yīng)該能夠生成相關(guān)的跟蹤特征。在整個(gè)網(wǎng)絡(luò)過程中,本算法遵循了通用的在線跟蹤框架,對(duì)區(qū)域建議性網(wǎng)絡(luò)(RPN)做出了以下改動(dòng)。
2.1.1 感受野和輸入尺寸
本網(wǎng)絡(luò)的第一個(gè)設(shè)計(jì)是選擇合適的輸入圖像尺寸。大多數(shù)目標(biāo)跟蹤任務(wù)的輸入圖像尺寸數(shù)值的產(chǎn)生是憑借經(jīng)驗(yàn)得來,而本文利用改變感受野尺寸產(chǎn)生的特性來指導(dǎo)算法對(duì)于輸入尺寸的選擇。在CNN卷積的過程中,特定神經(jīng)元的感受野是指輸入圖像中相關(guān)像素的數(shù)量。例如,如果神經(jīng)元是由5×5卷積濾波器直接在輸入圖像上生成的,則該神經(jīng)元的感受野將具有5×5像素。由于在卷積中輸入的圖像是大圖像塊,該圖像塊覆蓋了整個(gè)對(duì)象,因此,如果所選層中神經(jīng)元的感受野小于輸入圖像,則特征可能太局限,無法牢固地捕獲對(duì)象外觀。另一方面,如果神經(jīng)元的感受野可能比當(dāng)前輸入圖像覆蓋更大的圖像,則該功能可能太多余了。
本網(wǎng)絡(luò)選取了ZFNet[34]作為區(qū)域建議網(wǎng)絡(luò)的主干,在該網(wǎng)絡(luò)中,對(duì)conv5層進(jìn)行訓(xùn)練以生成區(qū)域建議。該層的感受野為171×171,根據(jù)文獻(xiàn)[29]中的相關(guān)介紹,這樣選擇尺寸是讓輸入圖像覆蓋感受野對(duì)象之外的一部分背景內(nèi)容。因此輸入圖像的正確大小為203×203,在本算法使用的RPN中,兩個(gè)相鄰圖像之間錨的步幅設(shè)置對(duì)應(yīng)于輸入圖像中的16個(gè)像素點(diǎn)。
2.1.2 錨框的匹配與跟蹤
本算法由多視圖處理算法將輸入的單幀圖像處分別以4種方式得到4種特征集合,并通過在線的視圖支持向量機(jī)以分類的方法將跟蹤當(dāng)作一種特殊的分類問題,輸出多個(gè)粗略的定位框,此時(shí)的框并不具有尺度信息和精度,通過多視圖分類結(jié)果框作為輸出送進(jìn)區(qū)域建議網(wǎng)絡(luò)得到更加精確且唯一的預(yù)測目標(biāo)結(jié)果框,在算法中采用這種處理方式主要有以下考慮:
首先,它提供了一個(gè)來探索頂層的內(nèi)部結(jié)構(gòu)特征的工具。為了優(yōu)化跟蹤性能,可以測試不同的錨的匹配策略。
其次,每個(gè)匹配的錨可以被認(rèn)為是一個(gè)數(shù)據(jù)樣本,因?yàn)樗鼈兌加兄趽p失函數(shù)對(duì)于參數(shù)的調(diào)整。與單一的分類輸出相比,該方法有效地增加了訓(xùn)練數(shù)據(jù)的數(shù)量。它顯著降低了在線訓(xùn)練的過擬合風(fēng)險(xiǎn)。
2.1.3 優(yōu)化損失函數(shù)
通常情況下,科研人員對(duì)于區(qū)域建議網(wǎng)絡(luò)應(yīng)用的損失函數(shù)可以被定義為
(1)
根據(jù)前面的傳統(tǒng)損失函數(shù),跟蹤器想要實(shí)現(xiàn)的損失函數(shù)應(yīng)該能夠同時(shí)考慮跟蹤精度和邊框坐標(biāo)回歸。如果算法不對(duì)這個(gè)目標(biāo)進(jìn)行優(yōu)化,過程中累積的誤差將不可避免地導(dǎo)致跟蹤失敗?;陧攲犹卣鞯膮^(qū)域建議網(wǎng)絡(luò)的關(guān)鍵思想是使用另一種版本的錨來設(shè)計(jì)損失,以利用對(duì)象性和跟蹤之間的強(qiáng)相關(guān)性,為跟蹤精度提供一個(gè)強(qiáng)大的基礎(chǔ)。同時(shí),邊界框的質(zhì)量也應(yīng)該用一個(gè)新的參數(shù)來規(guī)范,這樣就不會(huì)受到標(biāo)記邊界框數(shù)據(jù)不足的影響。該算法使用的損失函數(shù)為
(2)
圖2 錨點(diǎn)結(jié)構(gòu)
本文將驗(yàn)證這種設(shè)置非常適用,然后在OTB100這樣一個(gè)主流跟蹤基準(zhǔn)上選取了前50個(gè)視頻片段測試并展示最終的優(yōu)良表現(xiàn)。
這項(xiàng)工作中的基本分類器采用的是在線SVM跟蹤器,該跟蹤器始終將跟蹤表達(dá)為二分類問題。
(3)
其中,w,b為一般條件下SVM的超平面參數(shù),ξi是鉸鏈損失函數(shù),該損失函數(shù)將原型集Q和新數(shù)據(jù)集P各自的損失L結(jié)合為
(4)
訓(xùn)練后,將來自新訓(xùn)練數(shù)據(jù)的支持向量添加到原型中。專家組中的某些刪除和合并操作與MEEM跟蹤器完全相同。
MEEM跟蹤器提出了一種多專家還原方案作為模型更新輔助。為了全面,準(zhǔn)確地表示目標(biāo),本算法使用特征的多個(gè)視圖(即Color,HoG和LBP)來描述目標(biāo)。根據(jù)在不同時(shí)間點(diǎn)獲得的多個(gè)視圖結(jié)果,跟蹤器使用其之前快照在下一時(shí)刻繼續(xù)更新傳入幀的信息。
首先跟蹤模塊假設(shè)ht,ct,lt分別表示獲得的快照,它們具有不同的視圖,即在t時(shí)刻的學(xué)習(xí)分類器的Color,HoG,LBP,則專家組可以表示為M={ht1,ht2,…,ct1,ct2,…,lt1,lt2…}, 其中E表示集合中的專家。然后,我們可以根據(jù)最近時(shí)間范圍內(nèi)的累積損失來確定最佳專家
(5)
第二步,跟蹤器需要在M2RT跟蹤器模型中設(shè)計(jì)合適的損失函數(shù)。并且,我們通過使用擴(kuò)展的半監(jiān)督部分標(biāo)簽學(xué)習(xí)(PLL)[35]解決了跟蹤問題。給定訓(xùn)練樣本$={(xd,zd)}, 可以使用MAP框架求解PLL,該框架可使Θ參數(shù)化的模型的對(duì)數(shù)后驗(yàn)概率最大化
(Θ,λ|$)=L(Θ|$)-λH(y|x,z;$,Θ)
(6)
其中,L(Θ|$) 表示模型的對(duì)數(shù)似然率參數(shù)Θ和H(y|x,z;$,Θ) 表示以訓(xùn)練數(shù)據(jù)和可能的標(biāo)簽集為條件的類別標(biāo)簽的經(jīng)驗(yàn)條件熵。MAP框架通過熵正則化項(xiàng)提供了一種支持低模糊性模型的有效方法。
在本文提出的多視圖多專家跟蹤過程中,可以獲得隨時(shí)間變化的每一幀的目標(biāo)分布。在每一幀中,給定新樣本$={(xd,zd)}, 而本算法需要預(yù)測目標(biāo)的位置。在這當(dāng)中,$={(xd,zd)} 表示表征信息,{hd,zd},{cd,zd} 和 {ld,zd} 表示關(guān)聯(lián)的不同視圖,并且yd∈Y={-1,+1}?zd表示有可能的標(biāo)簽集合,由該標(biāo)簽集合對(duì)跟蹤問題的特定約束進(jìn)行編碼。根據(jù)式(6),式(5)中的損失函數(shù)可以重寫為
RE(x,z)=-L(ΘE|x,z)+λH(y|x,z;ΘE)
(7)
對(duì)數(shù)似然定義為
L(ΘE,|x,z)=argmaxy∈zlogp(y|x;ΘE)
(8)
熵項(xiàng)定義為
H(y|x,z;ΘE)=
(9)
這里的p(y|x,z;ΘE) 是新特征x的分類器分?jǐn)?shù)值,可以定義為
(10)
如果y∈z, 則函數(shù)δz(y) 取1,否則為0。
本文提出的M2RT跟蹤器充分利用了多視圖SVM和區(qū)域建議網(wǎng)絡(luò)學(xué)習(xí)方法的優(yōu)勢。本算法又更好地利用了具有不同視圖的各種樣本來構(gòu)建更魯棒的外觀模型以進(jìn)行視覺跟蹤。
提出的跟蹤器應(yīng)用了SVM來粗略定位目標(biāo)的初始位置,然后,利用區(qū)域建議網(wǎng)絡(luò)學(xué)習(xí)將在真實(shí)值附近更準(zhǔn)確地檢測縮放到實(shí)際目標(biāo)。此外,區(qū)域建議網(wǎng)絡(luò)學(xué)習(xí)的結(jié)果將反饋到專家組中,這肯定會(huì)提高多視圖SVM的性能,這種融合將相互促進(jìn)多視圖SVM和區(qū)域建議網(wǎng)絡(luò)在跟蹤上的性能。
算法1概述了M2RT跟蹤器的整個(gè)跟蹤過程。我們對(duì)實(shí)驗(yàn)中所有視頻使用了相同的設(shè)置,接下來將通過OTB跟蹤基準(zhǔn)[2]實(shí)驗(yàn)來驗(yàn)證本文算法的魯棒性。
算法1:本文算法M2RT跟蹤算法
輸入:n視頻的視頻幀I1,…,In, 真實(shí)值的框r1。
步驟1 初始化:為第一幀I1訓(xùn)練SVM分類器。
步驟2 對(duì)于每一幀Ij:
在時(shí)間間隔Δ內(nèi),生成專家E,多余數(shù)量時(shí)丟棄最遠(yuǎn)的專家;
對(duì)于每一個(gè)E,從E中獲取實(shí)例包和標(biāo)簽集 (x,z), 出現(xiàn)一個(gè)錯(cuò)誤結(jié)果時(shí),通過式(10)~式(13)計(jì)算RE;
通過式(8)最小化局部專家跟蹤器;
通過式(6)使用Q和P更新跟蹤器;
利用SVM輸出一個(gè)粗略的位置作為初始區(qū)域。
對(duì)于RPN模塊迭代:
輸出一個(gè)大致位置作為頂層區(qū)域建議網(wǎng)絡(luò)的初始區(qū)域;
進(jìn)行絕對(duì)背景對(duì)比搜索;
通過式(1)和式(5)找到最佳預(yù)測區(qū)域,輸出最終結(jié)果,反饋給專家集合。
使用Ij和bj重新訓(xùn)練跟蹤器。
步驟3
輸出:預(yù)測框r1,…,rn。
在本章的實(shí)驗(yàn)中,圖像區(qū)域被標(biāo)準(zhǔn)化為32×32以進(jìn)行特征提取。SVM的負(fù)樣本是從圍繞地面真相的兩倍大的區(qū)域中匯集的。HOG描述符的窗口大小為5像素,方向?yàn)?,LBP描述符在10像素的窗口上工作。多專家跟蹤的參數(shù)設(shè)置與MEEM[14]完全相同。所有實(shí)驗(yàn)均在Matlab和C中在具有16 GB RAM的Intel 2.70 GHz CPU和 NVIDIA RTX 2070 s顯卡上實(shí)現(xiàn)。
本章測試了提出的方法,并將其與包含50個(gè)視頻的大型基準(zhǔn)[2]上的其他視覺跟蹤器進(jìn)行了比較。我們的方法的性能是通過使用的3個(gè)指標(biāo)進(jìn)行定量評(píng)估的,包括距離精度(DP)、中心位置誤差(CLE)和重疊成功率(OS)。DP分?jǐn)?shù)定義為視頻中幀的百分比,其中跟蹤預(yù)測值和真實(shí)值質(zhì)心之間的歐幾里德距離小于閾值。OS得分計(jì)算為視頻中幀的百分比,其中跟蹤預(yù)測值和真實(shí)值質(zhì)心之間的交點(diǎn)超過某個(gè)閾值。
為了驗(yàn)證本文所提出的M2RT算法的有效性,本章節(jié)對(duì)多特征模塊,專家組模塊以及預(yù)取建議預(yù)測模塊進(jìn)行了單獨(dú)實(shí)驗(yàn)。以下為對(duì)本跟蹤器用到的具體模塊對(duì)于該算法做出的特定貢獻(xiàn)做消融實(shí)驗(yàn)細(xì)節(jié)。為了評(píng)估多視圖融合的特定貢獻(xiàn),首先使用原始跟蹤器實(shí)現(xiàn)了多視圖MEEM。通過3種特征視圖獲得不同的置信度得分:Color,HoG和LBP。
測試數(shù)據(jù)集中的Jogging-2這個(gè)視頻表明,有兩個(gè)女人在跑道上慢跑,并穿過一根燈桿。該序列由移動(dòng)的攝像機(jī)捕獲。跟蹤的困難來自于混雜背景、運(yùn)動(dòng)和表觀變化。
白色光柱和左側(cè)跑步的女人之間的遮擋發(fā)生在第75到85幀。如圖3所示,圖中列出了慢跑各個(gè)部分的跟蹤結(jié)果(由于片段較長,本實(shí)驗(yàn)采用隔幀選取的方式展現(xiàn)跟蹤實(shí)例)。從圖中可以看出,多視圖MEEM可以比單視圖MEEM快約4幀的速度恢復(fù)到對(duì)象,這表明使用多視圖的改進(jìn)。如圖4所示,圖中給出了兩種算法在中心錯(cuò)誤率和重疊率上的差距,從中可以看到在跟蹤測試基準(zhǔn)具有不同的衡量指標(biāo)的重要性。
圖3 視頻Jogging-2中第50幀到64幀跟蹤結(jié)果比較
圖4 視頻Jogging-2的中心錯(cuò)誤率和真值重疊率的比較
其次,為了驗(yàn)證多專家組模型和頂層區(qū)域建議網(wǎng)絡(luò)在提出的算法中起到了相互提升學(xué)習(xí)的作用,本章節(jié)進(jìn)行了消融實(shí)驗(yàn),從表1可以觀察到,與MEEM算法相比,在最初的多專家算法模型的基礎(chǔ)上加入了區(qū)域建議預(yù)測模塊,本文的算法性能獲得了顯著的提升,這說明了本算法所加入了區(qū)域建議模塊有助于改善跟蹤器的性能,還有效降低了跟蹤目標(biāo)表觀旋轉(zhuǎn)而導(dǎo)致跟蹤失敗的概率。提出的M2RT算法無論是從精度還是目標(biāo)跟蹤成功率等多個(gè)角度都得到了全面的提升,提出的算法所使用的這種融合特征的網(wǎng)絡(luò)模型都可以更有效追蹤目標(biāo)位置,從而降低了目標(biāo)發(fā)生漂移的風(fēng)險(xiǎn),從而在數(shù)據(jù)集測試中獲得更好的效果。
表1 OTB中做的消融實(shí)驗(yàn)
可視化實(shí)驗(yàn)提升效果:從圖中可以看出提出的M2RT跟蹤器,以區(qū)域建議網(wǎng)絡(luò)跟蹤顯示比MEEM更準(zhǔn)確視圖專家組區(qū)域建議預(yù)測的視覺跟蹤的對(duì)象定位。CarScale顯示汽車正在接近灌木叢和樹木,并且比例變化和遮擋是此視頻的最大挑戰(zhàn)。這是測試跟蹤器是否具有對(duì)象定位功能的完美視頻(由于實(shí)例片段過長,在如圖5所示中采用隔4幀的方式展示跟蹤實(shí)例)。從其頂部子圖可以看出,在汽車進(jìn)入灌木叢之前,跟蹤器的重疊率比MEEM大。在相同的跟蹤精度下,我們的重疊率也更大,這意味著我們的跟蹤器可以更好地處理比例變化。發(fā)生遮擋后,MEEM會(huì)從物體上漂移,而我們的跟蹤器仍能成功地繼續(xù)跟蹤汽車。實(shí)驗(yàn)結(jié)果表明,我們的跟蹤器可以通過區(qū)域建議網(wǎng)絡(luò)學(xué)習(xí)來更精確定位對(duì)象。
圖5 視頻CarScale中第152幀到180幀跟蹤結(jié)果比較
在流行的CVPR2013基準(zhǔn)[36]上評(píng)估了所提出的方法,該基準(zhǔn)包含不同場景下的50個(gè)具有挑戰(zhàn)性的圖像序列。將提出的方法與其它34種不同的視覺跟蹤器進(jìn)行了比較。在這些比較算法中,MEEM[14]為本次提升算法的baseline,作為參考比較,DSST[19]、KCF[4]作為具有代表性的機(jī)器學(xué)習(xí)與相關(guān)濾波跟蹤算法,作為比較對(duì)象,F(xiàn)CNT[29]是2015年首次應(yīng)用CNN結(jié)合跟蹤的深度學(xué)習(xí)跟蹤算法,SiamFC[27]是近年比較流行的孿生網(wǎng)絡(luò)跟蹤架構(gòu)的首個(gè)代表作,CFNet[28]為CVPR2017中首個(gè)端到端的深度學(xué)習(xí)與相關(guān)濾波結(jié)合的跟蹤工作,而MDNet[15],C-COT[16]是近幾年算法競賽中取得好成績的跟蹤器。我們采用了這些跟蹤器的原始實(shí)現(xiàn)方式(使用默認(rèn)參數(shù)來自作者網(wǎng)站的源代碼)。
此外,結(jié)果使用精度圖和成功圖表示。在精度圖中,在一定范圍內(nèi)的閾值上繪制了平均距離精度。在圖例中,報(bào)告了每種方法在20個(gè)像素處的平均DP得分。平均重疊精度繪制在成功圖中,曲線下的面積(AUC)包括在圖例中。根據(jù)最近發(fā)表的工作[27,30]中的實(shí)驗(yàn)設(shè)置,本文使用單次通過評(píng)估(OPE)[2]策略進(jìn)行實(shí)驗(yàn),以將本文提出的方法與其他最新方法進(jìn)行比較。
3.3.1 總體性能評(píng)估
如圖6所示,本章節(jié)顯示了基準(zhǔn)上總體性能比較的精度和成功曲線。圖例中顯示了排名前10位的跟蹤器平均距離和重疊精度。曲線的線型是由圖中相應(yīng)跟蹤器的等級(jí)決定的,而不是由跟蹤器的名稱決定的。
圖6 平均精度曲線和成功曲線
本文的方法(M2RT)達(dá)到了最佳性能,在跟蹤成功率繪圖中的平均值為83.3%,在跟蹤精度繪圖中的平均值為90.4%。精度圖和成功圖表明,我們的方法優(yōu)于除了MDNet以外的其它方法。
3.3.2 基于屬性的評(píng)估
基準(zhǔn)測試中的圖像序列帶有10個(gè)屬性,以描述跟蹤問題中的不同挑戰(zhàn),例如背景雜波、變形、比例尺變化等。這些屬性有助于在不同情況下分析跟蹤器的性能。我們?cè)趫D6中說明了10個(gè)具有挑戰(zhàn)性的屬性的結(jié)果。我們的方法相對(duì)于其他最新的跟蹤器具有良好的性能,這表明所提出的方法可以有效地建模對(duì)象外觀并準(zhǔn)確地定位對(duì)象以進(jìn)行視覺跟蹤。
本文提出了一種全新的用于視覺跟蹤的多視圖聯(lián)合專家組區(qū)域建議網(wǎng)絡(luò)預(yù)測學(xué)習(xí)算法??紤]到目標(biāo)物體外觀的多視圖屬性,提出的跟蹤器利用多種視覺特征來生成外觀的綜合表示,捕獲物體的多種判別性特征。提出的算法使用區(qū)域建議網(wǎng)絡(luò)預(yù)測學(xué)習(xí),以大大提高對(duì)象定位的準(zhǔn)確性。通過實(shí)驗(yàn)驗(yàn)證了該跟蹤算法相比于其他相關(guān)跟蹤器具有良好的跟蹤精度和魯棒性。在后續(xù)的研究中,本文發(fā)現(xiàn)通過加入高斯回歸作為概率算法輔助作用可以提升特征判別的準(zhǔn)確性,在后續(xù)工作中,我們會(huì)通過實(shí)驗(yàn)分析驗(yàn)證這一方法。