王 寧,宋慧慧,張開(kāi)華
(1.江蘇省大數(shù)據(jù)分析技術(shù)重點(diǎn)實(shí)驗(yàn)室(南京信息工程大學(xué)),南京 210044;2.江蘇省大氣環(huán)境與裝備技術(shù)協(xié)同創(chuàng)新中心(南京信息工程大學(xué)),南京 210044)
目標(biāo)跟蹤是計(jì)算機(jī)視覺(jué)領(lǐng)域中一項(xiàng)關(guān)鍵的基礎(chǔ)性任務(wù),其難點(diǎn)在于無(wú)法事先預(yù)知目標(biāo)信息,僅在跟蹤時(shí)定義目標(biāo),并要求推理出后續(xù)視頻中目標(biāo)的位置及其尺度信息,這是一種典型的訓(xùn)練樣本少、待推理樣本多的小樣本學(xué)習(xí)任務(wù)(Few-Shot-Learning)。目標(biāo)跟蹤技術(shù)廣泛應(yīng)用于人機(jī)交互、自動(dòng)駕駛、智能安防、交通監(jiān)控、警務(wù)偵查和國(guó)防安全等重要場(chǎng)景。盡管此類(lèi)技術(shù)的相關(guān)研究[1]已取得顯著進(jìn)展,但跟蹤算法在處理非剛性形變、快速運(yùn)動(dòng)、目標(biāo)干擾等復(fù)雜情況時(shí)仍存在嚴(yán)重不足,因此,視頻目標(biāo)跟蹤問(wèn)題依然具有極高的研究?jī)r(jià)值。
本文主要討論短時(shí)的單目標(biāo)跟蹤問(wèn)題。解決單目標(biāo)跟蹤問(wèn)題的算法主要有三類(lèi):基于檢測(cè)的算法、基于孿生網(wǎng)絡(luò)的算法以及基于相關(guān)濾波的跟蹤算法。隨著目標(biāo)檢測(cè)領(lǐng)域的快速發(fā)展,涌現(xiàn)出了一系列優(yōu)秀的檢測(cè)相關(guān)跟蹤算法[2-3],此類(lèi)跟蹤算法利用檢測(cè)器檢測(cè)視頻中的感興趣目標(biāo),并對(duì)視頻圖像之間的時(shí)序關(guān)系進(jìn)行建模,來(lái)獲得感興趣目標(biāo)的運(yùn)動(dòng)軌跡。此類(lèi)算法在一定程度上解決了目標(biāo)遮擋、目標(biāo)消失重現(xiàn)問(wèn)題;但由于檢測(cè)速度受限,基于檢測(cè)的跟蹤算法難以滿足實(shí)際應(yīng)用場(chǎng)景的需求。近幾年受全卷積孿生網(wǎng)絡(luò)(Fully-Convolutional Siamese Network,Siam-FC)[4]跟蹤算法的啟發(fā),研究人員提出了一系列的基于孿生網(wǎng)絡(luò)的跟蹤算法[5-6],其原理是利用卷積神經(jīng)網(wǎng)絡(luò)將目標(biāo)和搜索區(qū)域的圖像映射到高維的特征空間中,并在特征空間中計(jì)算目標(biāo)向量與搜索區(qū)域向量之間的特征相似程度,從而尋找到相似程度最大向量的空間位置,從而實(shí)現(xiàn)跟蹤定位。此類(lèi)算法采用第一幀圖像作為模板進(jìn)行匹配,避免了在線訓(xùn)練更新模型,從而顯著提高了算法運(yùn)行速度,推動(dòng)了跟蹤算法領(lǐng)域的進(jìn)一步發(fā)展。然而孿生網(wǎng)絡(luò)的算法也存在明顯不足:首先,因其采用“以圖搜圖”的機(jī)制,僅利用第一幀的目標(biāo)區(qū)域作為模板進(jìn)行匹配,難以處理相似物體較多的場(chǎng)景;其次,由于缺乏完備的在線更新機(jī)制,孿生網(wǎng)絡(luò)算法應(yīng)對(duì)目標(biāo)外觀劇烈變化場(chǎng)景的泛化能力不足;最后,孿生網(wǎng)絡(luò)跟蹤算法模型在離線訓(xùn)練時(shí)需要海量的數(shù)據(jù),并預(yù)設(shè)較多人工設(shè)計(jì)的超參數(shù),對(duì)計(jì)算資源需求較大,在處理未知物體的跟蹤場(chǎng)景中表現(xiàn)不佳,遇到了發(fā)展瓶頸。
基于相關(guān)濾波的跟蹤算法明顯區(qū)別于前述兩種類(lèi)型。此類(lèi)算法同時(shí)利用圖像目標(biāo)和背景區(qū)域訓(xùn)練一個(gè)分類(lèi)器(相關(guān)濾波器),用以對(duì)新視頻幀的目標(biāo)和背景區(qū)域進(jìn)行分類(lèi),從而實(shí)現(xiàn)定位。伴隨著卷積神經(jīng)網(wǎng)絡(luò)的快速發(fā)展,此類(lèi)算法從傳統(tǒng)手工特征提取逐漸向深度神經(jīng)網(wǎng)絡(luò)特征提取過(guò)渡,出現(xiàn)了一系列相關(guān)濾波與深度特征結(jié)合的跟蹤算法[7-11],此類(lèi)跟蹤算法需定時(shí)重新優(yōu)化分類(lèi)器的參數(shù),以保證其強(qiáng)判別能力。但相較于基于孿生網(wǎng)絡(luò)的最新算法,相關(guān)濾波類(lèi)的算法在估計(jì)目標(biāo)尺度的準(zhǔn)確度方面依然存在巨大的差距。準(zhǔn)確地估計(jì)目標(biāo)物體的尺度對(duì)于衡量算法的性能至關(guān)重要,因此本文從改進(jìn)相關(guān)濾波類(lèi)算法的尺度估計(jì)方面進(jìn)行深入研究。
針對(duì)相關(guān)濾波類(lèi)跟蹤算法中的跟蹤漂移和尺度估計(jì)精度低的問(wèn)題,本文提出了一種基于距離加權(quán)的重疊度估計(jì)和橢圓擬合優(yōu)化的精確目標(biāo)跟蹤算法(Accurate object tracking algorithm based on Distance Weighting Overlap Prediction and Ellipse Fitting Optimization,DWOP-EFO),此算法考慮了跟蹤過(guò)程中的空間位置信息以提高算法穩(wěn)定性;同時(shí),引入目標(biāo)分割思想優(yōu)化目標(biāo)的輪廓,以得到最佳旋轉(zhuǎn)矩形框,提升精度,進(jìn)而提升算法整體性能。將本文算法應(yīng)用在基線算法上,并在兩個(gè)通用標(biāo)準(zhǔn)數(shù)據(jù)集上進(jìn)行了對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果驗(yàn)證了本文算法的有效性。
本文跟蹤算法主要包括兩個(gè)部分:距離加權(quán)的重疊度估計(jì)和橢圓擬合優(yōu)化輸出。如圖1 所示:前者包含動(dòng)態(tài)錨框生成模塊、特征提取網(wǎng)絡(luò)、特征調(diào)制信息提取器、目標(biāo)定位分類(lèi)器、距離加權(quán)的錨框質(zhì)量評(píng)價(jià)器(Distance weighted Intersection Over Union Predictor,DIOU)和錨框優(yōu)化模塊;后者包括目標(biāo)分割模塊、橢圓擬合模塊和狀態(tài)輸出模塊。該算法主要思想是從跟蹤任務(wù)的角度看待動(dòng)態(tài)錨框的空間位置信息對(duì)跟蹤性能的影響,從而提出將錨框的中心與目標(biāo)中心之間的距離因素作為評(píng)價(jià)錨框的質(zhì)量分?jǐn)?shù)的因素之一。與此同時(shí),隨著視頻內(nèi)容分析應(yīng)用的快速發(fā)展,復(fù)雜場(chǎng)景對(duì)跟蹤器的跟蹤精度提出了新要求,為了進(jìn)一步提升跟蹤器的性能,本文提出一種將目標(biāo)跟蹤與目標(biāo)分割相結(jié)合的算法,并采用橢圓擬合的方式對(duì)分割結(jié)果進(jìn)行優(yōu)化,以進(jìn)一步提升算法的精度。本文算法的簡(jiǎn)要步驟是:定位、優(yōu)化最佳的動(dòng)態(tài)矩形框、分割目標(biāo)區(qū)域、橢圓擬合輸出旋轉(zhuǎn)矩形框、根據(jù)置信度的狀態(tài)輸出最佳結(jié)果。
圖1 本文算法框架Fig.1 Framework of proposed algorithm
基于相關(guān)濾波的跟蹤任務(wù)可分解為兩個(gè)子任務(wù):第一是目標(biāo)定位任務(wù),第二是尺度估計(jì)任務(wù)。采用深度特征網(wǎng)絡(luò)的相關(guān)濾波算法展現(xiàn)出了較強(qiáng)判別能力,在跟蹤器穩(wěn)定性上實(shí)現(xiàn)了大幅提升。此類(lèi)算法利用參考幀圖像及其標(biāo)簽在線訓(xùn)練一個(gè)具有前、背景判別能力的相關(guān)濾波器,進(jìn)而對(duì)目標(biāo)執(zhí)行定位操作,訓(xùn)練濾波器時(shí)的目標(biāo)函數(shù)表達(dá)如式(1):
其中:xj表示提取模板圖像所得訓(xùn)練樣本特征;ω表示相關(guān)濾波器參數(shù);f(xj;ω)表示變量執(zhí)行互相關(guān)操作;yj是樣本的標(biāo)簽信息,是由標(biāo)注信息矩形框轉(zhuǎn)化得到的高斯偽標(biāo)簽;γj是第j個(gè)樣本權(quán)重表示樣本對(duì)相關(guān)濾波器的影響程度;λk是權(quán)重參數(shù)ωk的正則化系數(shù)。通過(guò)最小化目標(biāo)函數(shù)L(ω)的值,來(lái)優(yōu)化相關(guān)濾波器ω的參數(shù),經(jīng)過(guò)一定次數(shù)的迭代即可訓(xùn)練優(yōu)化得到高判別性的相關(guān)濾波器參數(shù),從而可實(shí)現(xiàn)對(duì)后續(xù)圖像中的目標(biāo)的定位。
為了準(zhǔn)確地估計(jì)出目標(biāo)的最佳矩形框,ATOM[9]借鑒了基于獲取定位置信度的準(zhǔn)確目標(biāo)檢測(cè)算法IOU-Net[13]的思想,在目標(biāo)定位點(diǎn)(錨點(diǎn))附近隨機(jī)生成n個(gè)動(dòng)態(tài)錨框,通過(guò)預(yù)測(cè)動(dòng)態(tài)錨框的質(zhì)量分?jǐn)?shù)的方式優(yōu)化出質(zhì)量分?jǐn)?shù)最大的目標(biāo)預(yù)測(cè)框,使跟蹤器性能得到了大幅提升。但這種評(píng)價(jià)錨框的質(zhì)量分?jǐn)?shù)的算法僅考慮了重疊度這一因素,無(wú)法處理以下情況,如圖2 所示:實(shí)線框?yàn)槟繕?biāo)真實(shí)標(biāo)簽,虛線框是在定位點(diǎn)附近隨機(jī)生成一個(gè)動(dòng)態(tài)錨框。當(dāng)圖2 中的動(dòng)態(tài)錨框(圖中虛線框)尺寸相同即重疊度值相同,如式(2)所表達(dá),但空間位置不同,如圖2(a)、(b)、(c)中情況。
其中:IOU為實(shí)線框與虛線框交集面積與并集面積之比值。目前現(xiàn)有的錨框質(zhì)量評(píng)價(jià)網(wǎng)絡(luò)認(rèn)為圖中的三個(gè)虛線框的質(zhì)量是相同的,此時(shí)無(wú)法選出最優(yōu)的結(jié)果。但實(shí)際上在視頻跟蹤過(guò)程中,越靠近目標(biāo)中心的錨框的質(zhì)量應(yīng)該越高,原因在于跟蹤器在線更新過(guò)程中會(huì)將預(yù)測(cè)結(jié)果作為新的樣本信息進(jìn)行訓(xùn)練,偏離目標(biāo)中心位置的錨框信息容易使得分類(lèi)器累積過(guò)多誤差,導(dǎo)致跟蹤定位漂移到其他目標(biāo)上。設(shè)動(dòng)態(tài)錨框的實(shí)際質(zhì)量為Q,那么圖2 中動(dòng)態(tài)錨框的客觀質(zhì)量應(yīng)為:Qa<Qb<Qc。由此可見(jiàn),僅采用區(qū)域重疊度指標(biāo)來(lái)評(píng)價(jià)動(dòng)態(tài)錨框質(zhì)量的方式,存在指標(biāo)單一,不適應(yīng)于跟蹤任務(wù)的問(wèn)題。
圖2 IOU相同但空間位置不同對(duì)比Fig.2 Comparison of same IOU with different spatial location
通常目標(biāo)尺度估計(jì)算法有:尺度金字塔搜索[12]、區(qū)域推薦網(wǎng)絡(luò)[13]和區(qū)域重疊度估計(jì)法[14]。此三種尺度估計(jì)方式在目標(biāo)檢測(cè)領(lǐng)域得到了成熟應(yīng)用,并且尺度金字塔搜索和區(qū)域推薦網(wǎng)絡(luò)技術(shù)也廣泛應(yīng)用在跟蹤領(lǐng)域中,目標(biāo)尺度估計(jì)的性能得到了提升。基于重疊度最大化的準(zhǔn)確跟蹤(Accurate Tracking by Overlap Maximization,ATOM)算法[9]首次將重疊度估計(jì)[14]的思想應(yīng)用于跟蹤領(lǐng)域,并顯著提升了目標(biāo)尺度估計(jì)的性能指標(biāo)。
區(qū)域重疊度估計(jì)算法是通過(guò)預(yù)測(cè)動(dòng)態(tài)錨框的質(zhì)量分?jǐn)?shù)來(lái)篩選出目標(biāo)最佳矩形框。其中動(dòng)態(tài)錨框是在定位點(diǎn)周?chē)S機(jī)生成的多個(gè)不同尺度的矩形框。其質(zhì)量分?jǐn)?shù)采用預(yù)測(cè)框與標(biāo)注框之間的區(qū)域重疊度交并比(Intersection Over Union,IOU)表示。通過(guò)對(duì)各動(dòng)態(tài)錨框的質(zhì)量分?jǐn)?shù)進(jìn)行排序即可優(yōu)化得到目標(biāo)的最佳尺度。這種預(yù)測(cè)動(dòng)態(tài)錨框質(zhì)量分?jǐn)?shù)的算法,相較于尺度金字塔搜索[11]和區(qū)域推薦網(wǎng)絡(luò)[12],具有尺度搜索空間小、尺度比例變化靈活、計(jì)算量少、搜索速度快的優(yōu)點(diǎn)。
但上述錨框質(zhì)量分?jǐn)?shù)的計(jì)算算法僅僅考慮了矩形框集合之間的關(guān)系,并未考慮視頻跟蹤任務(wù)的定位需求,忽略了錨框與真實(shí)目標(biāo)空間上的相對(duì)位置對(duì)跟蹤性能的重要影響。在跟蹤任務(wù)中,早期的定位誤差會(huì)隨視頻流而放大,導(dǎo)致跟蹤過(guò)程中發(fā)生模型漂移、跟蹤失敗等問(wèn)題。
為了解決現(xiàn)有錨框質(zhì)量評(píng)價(jià)方式單一、不適合跟蹤任務(wù)的問(wèn)題,本文改進(jìn)原有錨框質(zhì)量評(píng)價(jià)網(wǎng)絡(luò),設(shè)計(jì)了一個(gè)考慮區(qū)域中心距離的新的錨框質(zhì)量評(píng)價(jià)網(wǎng)絡(luò)。如圖3所示,矩形S表示目標(biāo)區(qū)域,矩形框R表示動(dòng)態(tài)錨框,圖3(a)表示僅采用重疊度分?jǐn)?shù)值作為計(jì)算指標(biāo),其值為兩個(gè)集合的交集與這兩個(gè)集合并集的商,計(jì)算方式如式(3):
為了將空間距離因素考慮到目標(biāo)的質(zhì)量評(píng)價(jià)中來(lái),受目標(biāo)檢測(cè)算法[15]啟發(fā),在目標(biāo)跟蹤算法中引入空間距離d,其中d表示目標(biāo)區(qū)域S與矩形框區(qū)域R的區(qū)域中心點(diǎn)之間歐氏距離,從而形成新的錨框的質(zhì)量評(píng)價(jià)器:距離加權(quán)的錨框質(zhì)量評(píng)價(jià)器(DIOU),如圖3(b)、(c)所示為IOU 和DIOU 分?jǐn)?shù)計(jì)算算法示意圖,其中DIOU計(jì)算如式(4)所示:
其中:c2表示兩框并集的最小閉包框的對(duì)角線歐氏距離的平方,用來(lái)歸一化不同尺度的矩形框;d2(S,R)表示計(jì)算區(qū)域S和區(qū)域R中心點(diǎn)之間的歐氏距離d的平方。可以發(fā)現(xiàn)DIOU是在IOU 的基礎(chǔ)上增加了距離因素的懲罰項(xiàng),用來(lái)衡量動(dòng)態(tài)錨框的空間位置對(duì)其質(zhì)量分?jǐn)?shù)的影響。經(jīng)過(guò)離線訓(xùn)練的DIOU 預(yù)測(cè)網(wǎng)絡(luò)能夠從跟蹤算法的角度對(duì)動(dòng)態(tài)錨框的質(zhì)量進(jìn)行客觀準(zhǔn)確評(píng)價(jià),最終優(yōu)化出重疊度高同時(shí)又處于目標(biāo)中心附近的結(jié)果。
圖3 IOU和DIOU分?jǐn)?shù)計(jì)算算法示意圖Fig.3 Schematic diagram of computing algorithm for IOU and DIOU scores
隨著人工智能技術(shù)快速發(fā)展,高性能計(jì)算設(shè)備快速迭代,為性能更好的跟蹤器提供了硬件基礎(chǔ)。視覺(jué)目標(biāo)跟蹤領(lǐng)域的競(jìng)賽(Video Object Tracking,VOT)[16]每年都會(huì)提出非常具有挑戰(zhàn)性的評(píng)測(cè)數(shù)據(jù),來(lái)評(píng)判算法的跟蹤性能。其數(shù)據(jù)集人工標(biāo)注的效果如圖4(a)所示,從早期標(biāo)注的邊長(zhǎng)垂直坐標(biāo)軸的正矩形框演變?yōu)槿缃褡钚聵?biāo)注的旋轉(zhuǎn)矩形框。數(shù)據(jù)集標(biāo)注形式越精細(xì),對(duì)跟蹤算法的性能要求就越高,給跟蹤器的設(shè)計(jì)帶來(lái)了巨大挑戰(zhàn)。能否輸出高精度的旋轉(zhuǎn)矩形框成為提升算法性能的關(guān)鍵。受孿生網(wǎng)絡(luò)系列算法[17]啟發(fā),本文提出在相關(guān)濾波跟蹤網(wǎng)絡(luò)框架中增加輕量化的離線訓(xùn)練的目標(biāo)分割網(wǎng)絡(luò)分支[18]來(lái)實(shí)現(xiàn)對(duì)跟蹤目標(biāo)鄰域前、背景的分割,借助分割算法獲取目標(biāo)的精確輪廓,實(shí)現(xiàn)精度進(jìn)一步提升。
圖4 本文算法在不同階段的跟蹤結(jié)果。Fig.4 Tracking results of proposed algorithm in different stages
網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示,目標(biāo)分割網(wǎng)絡(luò)對(duì)跟蹤器可以表示如式(5):
其中:Icroped表示所裁剪的跟蹤目標(biāo)及其附近范圍的圖像;Fθ()表示提取圖像特征的骨架網(wǎng)絡(luò);Mask()是分割網(wǎng)絡(luò)模型,用來(lái)對(duì)目標(biāo)前、背景進(jìn)行分割;Output表示網(wǎng)絡(luò)輸出的分割結(jié)果,如圖4(b)所示中的汽車(chē),分割蒙板(mask)將汽車(chē)覆蓋住,呈現(xiàn)淺色。目標(biāo)分割網(wǎng)絡(luò)分支將目標(biāo)從背景區(qū)域內(nèi)分割出來(lái)為后續(xù)進(jìn)一步獲取目標(biāo)輪廓、優(yōu)化目標(biāo)尺度、輸出目標(biāo)的旋轉(zhuǎn)矩形框提供了可能。
分割蒙版(mask)經(jīng)過(guò)形態(tài)學(xué)處理可以直接得到目標(biāo)輪廓以及輪廓的最小閉包框,如一種快速在線目標(biāo)跟蹤與分割的統(tǒng)一算法SiamMask[17]。但由于受到分割噪聲的干擾,直接求最小閉包框的方式容易導(dǎo)致目標(biāo)矩形框尺度變化過(guò)快、抖動(dòng)劇烈、無(wú)法正確反映目標(biāo)的真實(shí)外觀姿態(tài),對(duì)跟蹤器的性能產(chǎn)生不利影響。而基于旋轉(zhuǎn)矩形框的快速跟蹤算法SiamMask-E[19]中提出的旋轉(zhuǎn)矩形框估計(jì)的算法需要復(fù)雜的矩陣變換優(yōu)化操作,會(huì)嚴(yán)重影響算法的運(yùn)行速度,不利于跟蹤器實(shí)時(shí)快速跟蹤。為實(shí)現(xiàn)快速輸出穩(wěn)定目標(biāo)尺度,本文采用基于最小二乘法的橢圓擬合算法[20],對(duì)目標(biāo)輪廓進(jìn)行優(yōu)化。具體步驟如下:
1)對(duì)分割得到的蒙版執(zhí)行形態(tài)學(xué)操作,即可找到其連通域面積最大的輪廓,該輪廓上的點(diǎn)組成集合D。
2)利用集合D優(yōu)化出一個(gè)最佳的橢圓E,使得集合D中的所有的點(diǎn)到橢圓曲線上的距離之和最短,算法原理如下:
已知橢圓方程(式(6)):
其中:集合D中的點(diǎn)Pi=(xi,yi)到二次曲線F(A,X)=0 的歐氏距離為F(Ai,Xi)。擬合橢圓問(wèn)題簡(jiǎn)化為動(dòng)態(tài)優(yōu)化出所有觀測(cè)點(diǎn)到橢圓曲線上的距離之和的最小橢圓解,依據(jù)最小二乘原理,可利用圖像處理工具包OpenCV 中的函數(shù)快速優(yōu)化出最佳橢圓,如圖4(c)所示。優(yōu)化結(jié)果將輸出橢圓的中心點(diǎn)坐標(biāo)、長(zhǎng)短軸值及其旋轉(zhuǎn)角度,進(jìn)而可以得到該橢圓狀態(tài)所對(duì)應(yīng)的旋轉(zhuǎn)矩形框的頂點(diǎn)坐標(biāo)。
由于跟蹤視頻中常存在運(yùn)動(dòng)模糊、劇烈的光照變化等極端情況,這對(duì)目標(biāo)分割網(wǎng)絡(luò)分支的輸出極為不利,容易導(dǎo)致橢圓優(yōu)化輸出的蒙版存在一定噪聲,為此本文專(zhuān)門(mén)設(shè)計(jì)了尺度置信度門(mén)控輸出模塊。定義尺度置信度分?jǐn)?shù)為旋轉(zhuǎn)矩形框與DIOU-Net 網(wǎng)絡(luò)輸出的垂直矩形框之間的重疊度,并根據(jù)計(jì)算得到的尺度置信度分?jǐn)?shù)來(lái)決定是否采信橢圓估計(jì)輸出的旋轉(zhuǎn)矩形框結(jié)果。當(dāng)尺度置信度分?jǐn)?shù)IOUR&A>0.3,并且旋轉(zhuǎn)矩形框的像素面積與垂直矩形框的面積之比時(shí),輸出旋轉(zhuǎn)矩形框結(jié)果,用BoxR表示;否則輸出正矩形框,用BoxA表示。
根據(jù)式(9)中控制結(jié)果Output的數(shù)值,從而達(dá)到門(mén)控輸出跟蹤狀態(tài)的目的。
基于相關(guān)濾波的算法通常每隔一定周期會(huì)利用定位效果較好的樣本對(duì)相關(guān)濾波器進(jìn)行更新參數(shù)。本文算法得到的旋轉(zhuǎn)矩形框結(jié)果如圖5 所示,在生成高斯標(biāo)簽時(shí)需要將旋轉(zhuǎn)矩形框轉(zhuǎn)換為邊長(zhǎng)平行于坐標(biāo)軸的正矩形框,為了盡可能地減少背景區(qū)域?qū)V波器訓(xùn)練的干擾,本文算法采用保守的標(biāo)簽生成策略:對(duì)目標(biāo)的外接正矩形框進(jìn)行尺度上的縮放??s放比例為旋轉(zhuǎn)矩形框與外接正矩形框面積之比的平方根。縮放比例計(jì)算方式如式(10):
圖5 矩形框之間的轉(zhuǎn)換Fig.5 Transformation between bounding boxes
實(shí)驗(yàn)在Ubuntu16.04、Inter Core i7-8700CPU @3.20 GHz、64 GB 內(nèi)存、2*RTX2080Ti顯卡平臺(tái)上進(jìn)行訓(xùn)練和測(cè)試。將本文算法應(yīng)用在18 層的殘差特征提取骨架網(wǎng)(Deep Residual Learning for Image Recognition,ResNet18)[20]上得到算法命名為OURS-18,應(yīng)用到50 層的殘差特征提取骨架網(wǎng)絡(luò)ResNet50[21]上得到的算法命名為OURS-50,兩者均借助深度跟蹤算法框架Pytracking[9,11]進(jìn)行代碼實(shí)現(xiàn)。為了公平比較,在訓(xùn)練“考慮空間距離的動(dòng)態(tài)錨框質(zhì)量評(píng)價(jià)網(wǎng)絡(luò)DIOU-Net”時(shí),實(shí)驗(yàn)參數(shù)與ATOM 算法保持一致,在跟蹤框架中集成目標(biāo)分割網(wǎng)絡(luò)DeepMask[18]以實(shí)現(xiàn)在線跟蹤過(guò)程中的對(duì)目標(biāo)快速分割。算法采用Python 語(yǔ)言、PyTorch 框架以及OpenCV 等工具包實(shí)現(xiàn),并采用流行的PySot-toolkit[5-6]工具對(duì)跟蹤結(jié)果進(jìn)行評(píng)估。
為了評(píng)估本文算法的有效性,在兩個(gè)廣泛使用的具有挑戰(zhàn)性標(biāo)準(zhǔn)評(píng)測(cè)數(shù)據(jù)集VOT2018(the sixth Visual Object Tracking challenge results)[16]和 OTB100(Object Tracking Benchmark)[22]上進(jìn)行實(shí)驗(yàn),并與基于孿生網(wǎng)絡(luò)和相關(guān)濾波的代表性算法進(jìn)行了比較。
VOT2018 評(píng)測(cè)數(shù)據(jù)集是視覺(jué)目標(biāo)跟蹤比賽的標(biāo)準(zhǔn)數(shù)據(jù)集,包含60 個(gè)人工精細(xì)標(biāo)注的極具挑戰(zhàn)性的視頻序列。相較于其他的評(píng)估數(shù)據(jù)集,具有相似目標(biāo)多、目標(biāo)非剛性形變大、目標(biāo)物體尺度小、運(yùn)動(dòng)失真多等特點(diǎn)。其特有的跟蹤失敗再重啟的機(jī)制,能夠提高數(shù)據(jù)的利用率,全方位評(píng)估算法的性能。VOT 競(jìng)賽官方規(guī)定的跟蹤器性能評(píng)價(jià)指標(biāo)為魯棒性(Robustness)和精度(Accuracy)。魯棒性反映了跟蹤器跟蹤目標(biāo)的穩(wěn)定程度,其指標(biāo)值與評(píng)測(cè)過(guò)程中跟蹤器丟失目標(biāo)次數(shù)正相關(guān)。丟失次數(shù)越少,該指標(biāo)值越低,反映算法魯棒性越好,穩(wěn)定程度越高。精度反映了跟蹤算法估計(jì)物體尺度的精確程度,其分值為預(yù)測(cè)矩形框與標(biāo)簽矩形框之間的平均區(qū)域重疊度,分值越高,反映算法性能越好。VOT競(jìng)賽官方將兩個(gè)指標(biāo)融合為平均期望重疊率(Expected Average Overlap,EAO)指標(biāo)來(lái)綜合評(píng)價(jià)跟蹤器的性能。由此可知,跟蹤器性能比較時(shí),魯棒性值越低,精度值越高,EAO值越高,跟蹤器性能越好。
圖6顯示了本文算法在VOT2018數(shù)據(jù)集的短時(shí)單目標(biāo)跟蹤賽道上的平均期望重疊率排名。從圖6 中排名可以發(fā)現(xiàn),在同一特征提取網(wǎng)絡(luò)前提下,本文OURS-50 算法以EAO 值為0.459 排名第一,超過(guò)第二名基于可學(xué)習(xí)的判別模型跟蹤器DiMP-50(learning Discriminative Model Prediction for Tracking)[11]的結(jié)果1.9個(gè)百分點(diǎn);OURS-18以EAO指標(biāo)0.423排名第三,超過(guò)第四名ATOM[9]的結(jié)果2.2 個(gè)百分點(diǎn)。同時(shí)OURS-50 和OURS-18 分別超過(guò)VOT2018 的冠軍SiamRPN(High performance visual tracking with Siamese Region Proposal Network)[6]的結(jié)果7.6 和4.0 個(gè)百分點(diǎn),證明了本文算法的競(jìng)爭(zhēng)力。
圖6 VOT2018數(shù)據(jù)集上的平均期望重疊分?jǐn)?shù)排名Fig.6 Excepted average overlap score ranking on VOT2018 dataset
如表1 所示,給出了本文算法與幾個(gè)性能領(lǐng)先的跟蹤器各指標(biāo)的對(duì)比,其中包括孿生網(wǎng)絡(luò)系列算法SiamMask[5]、SiamPRN++(Evolution of Siamese visual tracking with very deep networks)[23]、SiamMask-E[19]以及相關(guān)濾波算ATOM[9]和DiMP[11]實(shí)驗(yàn)結(jié)果表明,本文算法OURS-18的跟蹤精度指標(biāo)比ATOM 算法高1.0 個(gè)百分點(diǎn),OURS-50 比DiMP[11]高2.0 個(gè)百分點(diǎn),精度得到了顯著提升。對(duì)比相關(guān)濾波算法和孿生網(wǎng)絡(luò)算法,當(dāng)算法的精度水平相當(dāng)時(shí),相關(guān)濾波類(lèi)的算法比孿生網(wǎng)絡(luò)判別能力更強(qiáng),具有更強(qiáng)魯棒性,綜合性能更優(yōu)。表1 中:箭頭向上表示其值越高,性能越好;箭頭向下表示其值越低,性能越好。
表1 不同算法在VOT2018數(shù)據(jù)集上的對(duì)比Tab.1 Comparison of different algorithms on VOT2018 dataset
OTB100[22]是視覺(jué)跟蹤領(lǐng)域廣泛使用的標(biāo)準(zhǔn)評(píng)測(cè)數(shù)據(jù)庫(kù),包含100 個(gè)人工標(biāo)注的視頻序列,并包含不同的難度屬性,例如尺度變換、非剛性形變、平面內(nèi)旋轉(zhuǎn)、遮擋等11 種情況。在OTB100數(shù)據(jù)集中,算法性能主要由成功率衡量。成功率表示數(shù)據(jù)集中重疊度IOU 得分超過(guò)閾值0.5 的幀數(shù)占視頻總幀數(shù)的百分比。OTB100 數(shù)據(jù)集標(biāo)注形式不同于前述的VOT 數(shù)據(jù)集,OTB100 采用正矩形框的方式對(duì)目標(biāo)進(jìn)行標(biāo)注,評(píng)測(cè)方式中無(wú)重啟機(jī)制,僅在視頻的第一幀提供標(biāo)簽,然后運(yùn)行跟蹤算法得到成功率,采用一次通過(guò)測(cè)試(One Pass Evaluation,OPE)的方式進(jìn)行評(píng)估算法性能。表2 分別顯示了本文所提OURS-18 跟蹤算法和9 個(gè)先進(jìn)算法在OTB100 數(shù)據(jù)集上跟蹤結(jié)果對(duì)比,表2中粗體部分表示該列指標(biāo)最好。對(duì)比的9個(gè)算法分別是:ATOM、ECO-HC(Efficient Convolution Operators for tracking with Hand-Crafted features)[7]、SiamRPN[6]、DeepSRDCF(Deep Spatially Regularized Discriminative Correlation Filter)[24]、Staple[25]、HDT(Hedged Deep Tracking)[26]、CNN-SVM(Convolutional Neural Network-Support Vector Machine)[27]、DSST(Discriminative Scale Space Tracker)[28]和具有3種尺度估計(jì)框的SiamFC-3s[4]。表2 展示了總成功率、非剛性形變成功率和平面內(nèi)旋轉(zhuǎn)成功率三個(gè)屬性的性能指標(biāo)。觀察可知,本文算法成功率指標(biāo)0.677 超過(guò)ATOM 算法[9]1.3 個(gè)百分點(diǎn);超過(guò)ECO-HC[7]3.2 個(gè)百分點(diǎn);超過(guò)SiamRPN 算法[6]3.8 個(gè)百分點(diǎn),綜合性能提升顯著。非剛性形變和平面內(nèi)旋轉(zhuǎn)場(chǎng)景對(duì)于跟蹤器來(lái)難度較大,本文算法在這兩個(gè)屬性上效果顯著,非剛性形變成功率上相較于第二名ATOM[9]提升了2個(gè)百分點(diǎn),達(dá)到0.653;平面內(nèi)旋轉(zhuǎn)屬性上相較于第二名ATOM[9]高4.8 個(gè)百分點(diǎn),達(dá)到0.685。
表2 不同算法在OTB100數(shù)據(jù)集上的對(duì)比Tab.2 Comparison of different algorithms on OTB100 dataset
為了直觀展現(xiàn)本文所提算法的效果,對(duì)跟蹤結(jié)果進(jìn)行了可視化,如圖7 所示。本文算法在跟蹤第一行的籃球運(yùn)動(dòng)員時(shí),盡管有多個(gè)相似目標(biāo)的干擾,仍能準(zhǔn)確地將其從背景中分割出來(lái),體現(xiàn)了所提算法的魯棒性和精度。跟蹤第二行的騎自行車(chē)的孩子時(shí),盡管受到灌木叢遮擋,但仍能準(zhǔn)確地跟蹤并分割,體現(xiàn)了跟蹤的魯棒性。在跟蹤第三行的賽馬時(shí),跟蹤器能夠?qū)ⅠR與人準(zhǔn)確地區(qū)分,不容易發(fā)生模型漂移??梢暬瘜?shí)驗(yàn)驗(yàn)證了本文所提算法有效性。
圖7 本文算法的跟蹤效果示例Fig.7 Examples of tracking results of proposed algorithm
本文從跟蹤算法的魯棒性和精度兩個(gè)方面對(duì)現(xiàn)有的相關(guān)濾波類(lèi)的算法進(jìn)行了改進(jìn):一是指出空間位置信息在跟蹤任務(wù)的重要作用,突破了既有算法僅考慮重疊率的局限性;二是在跟蹤算法中引入分割的思想,以此提高跟蹤器對(duì)目標(biāo)的估計(jì)精度。實(shí)驗(yàn)結(jié)果表明,空間位置加權(quán)重疊度與分割網(wǎng)絡(luò)結(jié)合的方法能夠顯著提升跟蹤器的綜合性能。
隨著計(jì)算機(jī)性能的逐步提高,視覺(jué)跟蹤任務(wù)將逐步從“矩形框”級(jí)別跟蹤,逐漸過(guò)渡到“像素”級(jí)別跟蹤。本文提出的方法縮小了目標(biāo)跟蹤任務(wù)與目標(biāo)分割任務(wù)之間的差距,后續(xù)可基于本文,將視覺(jué)目標(biāo)跟蹤與視覺(jué)目標(biāo)分割兩個(gè)任務(wù)統(tǒng)一結(jié)合起來(lái)進(jìn)行深入研究,有望進(jìn)一步提升算法的性能。