孫炯寧,呂太之,張 娟,郭海濤
(1.江蘇海事職業(yè)技術(shù)學(xué)院 信息工程學(xué)院,江蘇 南京 211170;2.華南理工大學(xué) 土木交通學(xué)院,廣東 廣州 510640)
視覺目標(biāo)跟蹤是計(jì)算機(jī)視覺中的熱點(diǎn)問題,在行為分析、智能監(jiān)控、交通監(jiān)管、自動(dòng)監(jiān)控、汽車導(dǎo)航和高級(jí)人機(jī)交互等諸多領(lǐng)域都扮演著重要的角色[1]。目標(biāo)跟蹤作為計(jì)算機(jī)視覺領(lǐng)域的研究熱點(diǎn),近年來有了較大的發(fā)展,但由于受到姿勢(shì)、形狀變化,雜波背景,亮度、視角變化、噪聲及遮擋等因素的影響,實(shí)現(xiàn)健壯的視覺目標(biāo)跟蹤仍極具挑戰(zhàn)[2-3]。
隨著機(jī)器學(xué)習(xí)技術(shù)的發(fā)展,視覺目標(biāo)跟蹤技術(shù)取得了突飛猛進(jìn)的發(fā)展,尤其是深度學(xué)習(xí)方法在視頻跟蹤領(lǐng)域的應(yīng)用并取得良好效果,推動(dòng)了視覺跟蹤技術(shù)發(fā)展的新方向[4-6]。2016年研究人員[7]提出利用CNN全卷積網(wǎng)絡(luò)的SiamFC跟蹤方法,大幅度地改善了深度學(xué)習(xí)在處理視頻跟蹤過程中的效率低下問題;到2018年,文獻(xiàn)[8]提出將SiameseFC和Faster RCNN中的Region Proposal Network(RPN)融合處理,在提升跟蹤精度的同時(shí),也進(jìn)一步改善了跟蹤效率,并在VOT2018的全球比賽中奪冠;2019年,SiamMask算法采用半監(jiān)督分割訓(xùn)練的方法,開啟了視覺目標(biāo)跟蹤技術(shù)的新思路[9],在給定的數(shù)據(jù)庫(kù)上實(shí)現(xiàn)了精度最高、速度最快的處理系統(tǒng),并在開源的實(shí)時(shí)跟蹤系統(tǒng)中表現(xiàn)非凡,但是在實(shí)際的應(yīng)用場(chǎng)景中,由于背景的復(fù)雜性及遮擋性、目標(biāo)特征的差異性和環(huán)境影響的隨機(jī)性等因素,存在著不同的跟蹤誤差[10-13]。
針對(duì)現(xiàn)有方法在動(dòng)態(tài)目標(biāo)跟蹤過程中存在的分割困難、復(fù)雜背景下跟蹤精度低的問題,研究了一種聯(lián)合深度學(xué)習(xí)和時(shí)空預(yù)測(cè)的目標(biāo)跟蹤方法。該方法的主要?jiǎng)?chuàng)新點(diǎn)是在傳統(tǒng)基于SiamMask網(wǎng)絡(luò)的深度學(xué)習(xí)框架內(nèi),通過引入興趣區(qū)域(Region of Interest,ROI)檢測(cè)實(shí)現(xiàn)輸入序列中興趣目標(biāo)的自動(dòng)精確提取,克服了干擾導(dǎo)致的誤差累積效應(yīng);同時(shí),為改善環(huán)境干擾、目標(biāo)遮擋等復(fù)雜環(huán)境對(duì)跟蹤精度的影響,在深度跟蹤系統(tǒng)中融入了時(shí)空上下文目標(biāo)跟蹤算法(STC),根據(jù)目標(biāo)時(shí)空關(guān)系的在線學(xué)習(xí),預(yù)測(cè)新的目標(biāo)位置并對(duì)SiamMask網(wǎng)絡(luò)進(jìn)行算法校正,實(shí)現(xiàn)視頻序列中的目標(biāo)快速識(shí)別與跟蹤。實(shí)驗(yàn)結(jié)果表明,同傳統(tǒng)基于SiamMask網(wǎng)絡(luò)的深度學(xué)習(xí)方法和STC方法相比,本文方法在精準(zhǔn)度和魯棒性方面有較大的提高,并且保持著較高的實(shí)時(shí)性,在跟蹤精度和實(shí)時(shí)性方面實(shí)現(xiàn)了很好的折中。
本文通過在PyTorch深度學(xué)習(xí)框架內(nèi)引入SiamMask模型進(jìn)行目標(biāo)的快速檢測(cè)和分割。為增加算法的實(shí)時(shí)性和工程可應(yīng)用性,采用離線訓(xùn)練的方法對(duì)PyTorch深度學(xué)習(xí)框架進(jìn)行訓(xùn)練,同時(shí)在分割結(jié)果中引入損失函數(shù)對(duì)離線訓(xùn)練網(wǎng)絡(luò)進(jìn)行優(yōu)化,動(dòng)態(tài)調(diào)整優(yōu)化路徑和參量。離線訓(xùn)練獲取參數(shù)以后,SiamMask在既定參量的基礎(chǔ)上,對(duì)各種輸入目標(biāo)進(jìn)行未知分割標(biāo)記(Mask),具體過程如圖1所示[15]。
圖1 基于SiamMask網(wǎng)絡(luò)的深度檢測(cè)框架Fig.1 Depth detection framework based onSiamMask network
標(biāo)記網(wǎng)絡(luò)采用2層卷積形式,通道數(shù)目為256,通過動(dòng)態(tài)調(diào)整實(shí)現(xiàn)不同分辨率輸入目標(biāo)的融合。如圖1所示,孿生網(wǎng)絡(luò)通過共享權(quán)值,提取目標(biāo)模板和候選區(qū)域特征后,通過卷積實(shí)現(xiàn)相似區(qū)域的生成。圖1中,響應(yīng)值為Row,目標(biāo)標(biāo)記為Mask,預(yù)測(cè)得分和結(jié)果為Score和Box,權(quán)重疊加表示為*d,CNN、目標(biāo)、預(yù)測(cè)目標(biāo)、預(yù)測(cè)以及響應(yīng)預(yù)測(cè)的得分處理函數(shù)分別表示為fθ,hφ,bσ,sφ,pω[5]。通過離線訓(xùn)練,該網(wǎng)絡(luò)可以實(shí)現(xiàn)對(duì)目標(biāo)的實(shí)時(shí)處理,采用聯(lián)想X1電腦可以實(shí)現(xiàn)28 幀/秒的處理速度,對(duì)于研究而言具有較好的實(shí)時(shí)性、便捷性和經(jīng)濟(jì)性。如果應(yīng)用于工業(yè)場(chǎng)景,考慮環(huán)境的適應(yīng)性,建議采用GPU處理器。
從上面的分析可以看出,盡管深度學(xué)習(xí)較好地改善了跟蹤精度,但是在背景噪聲干擾以及相似特征影響下,跟蹤錯(cuò)誤明顯?;赟iamMask網(wǎng)絡(luò)的深度檢測(cè)結(jié)果如圖2所示。由圖2可以明顯看出,在正常狀態(tài)下跟蹤結(jié)果優(yōu)秀,精度高且穩(wěn)定性好。但是當(dāng)周圍出現(xiàn)了背景干擾,例如背景光線變化(如圖2(b)所示),以及在相似人體特征干擾目標(biāo)情況下(如圖2(c)所示),系統(tǒng)會(huì)出現(xiàn)較大的跟蹤誤差,甚至跟蹤錯(cuò)誤。產(chǎn)生這種錯(cuò)誤的主要原因是:① 目標(biāo)初始檢測(cè)區(qū)域的精確性,如果檢測(cè)區(qū)域較大,就會(huì)引入較多的干擾因素;② 跟蹤失敗后無法自適應(yīng)校正,即使目標(biāo)再回到穩(wěn)定環(huán)境中,跟蹤效果仍然很差。
(a) 正常狀態(tài)
針對(duì)以上2個(gè)方面,本文提出了2點(diǎn)修正:① 在算法中引入興趣區(qū)域(ROI)的自適應(yīng)檢測(cè)算法,提高目標(biāo)自動(dòng)檢測(cè)精度;② 在跟蹤過程中融入時(shí)空上下文跟蹤算法(STC),對(duì)跟蹤目標(biāo)進(jìn)行匹配預(yù)測(cè)跟蹤。因?yàn)閭鹘y(tǒng)深度算法中初始標(biāo)記對(duì)后續(xù)跟蹤的影響較大,為避免過多的誤差累計(jì)效應(yīng),通過ROI的引入可以精確地分離目標(biāo)和背景,消除背景干擾,降低誤差累積效應(yīng)的影響。同時(shí),STC充分考慮了目標(biāo)和背景的關(guān)系,充分利用目標(biāo)和背景的區(qū)分行實(shí)現(xiàn)跟蹤,其跟蹤速度和精度在同類算法中都具有較大的優(yōu)勢(shì)。本文算法的總體流程框圖如圖3所示。其中,Pk為系統(tǒng)輸入的第k幀圖像,P′k為融入STC算法的預(yù)測(cè)結(jié)果,Φ為本文算法的判斷函數(shù)。
系統(tǒng)實(shí)現(xiàn)ROI精確分割過程主要包括ROI范圍的設(shè)定和幀圖像中運(yùn)動(dòng)的檢測(cè)這2個(gè)方面。其中,ROI范圍的設(shè)定包括起點(diǎn)位置的設(shè)定和區(qū)域分辨率的設(shè)定。假設(shè)通過先驗(yàn)信息知道ROI區(qū)域的起點(diǎn)像素為A(x,y),且起點(diǎn)位于輸入圖像左上角,在給定輸入畫面寬度l′w和高度l′h的情況下,ROI的高度和寬度分別可以表示為lh和lw,具體計(jì)算為[16]:
(1)
基于以上分析思路,在給定輸入圖像的情況下,可以獲得ROI自動(dòng)提取結(jié)果。其中,圖像的運(yùn)動(dòng)情況主要是采用灰度差值的方法獲取,假設(shè)像素點(diǎn)z(xz,yz)的灰度值為Ik(z),當(dāng)2幀圖像之間的差值大于給定的閾值時(shí),即認(rèn)為是運(yùn)動(dòng)信息,通過試驗(yàn)測(cè)試情況,設(shè)定判斷閾值ΔIT=30。
針對(duì)光照變化、相似特征干擾等影響,該部分在修正后深度學(xué)習(xí)框架內(nèi)融入STC算法,通過目標(biāo)的時(shí)空預(yù)測(cè)獲取目標(biāo)的置信圖,并根據(jù)置信圖的似然概率獲取目標(biāo)的最新位置信息。假設(shè)當(dāng)前目標(biāo)上下文集合Tc={c(z)=(I(z),z)|z∈Ωc(t*)},在給定SiamMask模型第k幀目標(biāo)Pk的情況下,基于STC預(yù)測(cè)的目標(biāo)表示為P′k,通過設(shè)定分析函數(shù)Φ,對(duì)Pk與P′k的相似度進(jìn)行判斷分析,并根據(jù)判斷結(jié)果進(jìn)行模板的實(shí)時(shí)更新,獲取跟蹤軌跡。其中,t*(xt,yt)是目標(biāo)中心,I(z)是目標(biāo)像素z的灰度值,Ωc(t*)是由目標(biāo)確定的上下文區(qū)域的圖像灰度與位置的統(tǒng)計(jì)建模,c(z)為置信圖函數(shù),整個(gè)跟蹤過程可以描述為:
步驟1:計(jì)算k-1幀ROI區(qū)域置信圖
(2)
式中,o為所跟蹤的目標(biāo);P為上下文先驗(yàn)?zāi)P停?/p>
(3)
式中,ωσ(z)=a×e-z2/σ2是一個(gè)權(quán)重函數(shù),a為歸一化參數(shù),取值為[0,1],σ是一個(gè)尺度參數(shù),σ2為高斯函數(shù)方差;hsc(t-z)為時(shí)空上下文模型,是傅里葉變換后的頻率域計(jì)算變形。
步驟2:計(jì)算k-1幀Ωc(t*)上下文區(qū)域的空間上下文模型
(4)
式中,b為歸一化參數(shù);α為尺度參數(shù);β為目標(biāo)形變參數(shù)。
步驟3:更新空間上下文hsc(x)模型
(5)
(6)
式中,ρ為模型更新的學(xué)習(xí)速率。
步驟4:在第k幀計(jì)算上下文先驗(yàn)?zāi)P图爸眯艌D
(7)
(8)
步驟5:將第k幀得到的置信圖極值點(diǎn)作為目標(biāo)在k幀的位置輸出
(9)
網(wǎng)絡(luò)訓(xùn)練采用Object Tracking Benchmark(OTB 2015)數(shù)據(jù)庫(kù)[17],該數(shù)據(jù)庫(kù)包含了光照變化、運(yùn)動(dòng)模糊、形變、遮擋以及目標(biāo)尺度變化等豐富的復(fù)雜干擾背景,且所有目標(biāo)的真實(shí)位置都有精確的人工標(biāo)注,非常便于網(wǎng)絡(luò)的訓(xùn)練,近年來被廣泛應(yīng)用于深度學(xué)習(xí)網(wǎng)絡(luò)的訓(xùn)練。為加快訓(xùn)練速度,參考SiamMask網(wǎng)絡(luò),將Warmup預(yù)訓(xùn)練獲取的權(quán)重作為后續(xù)網(wǎng)絡(luò)的初始參數(shù),提升迭代速度的同時(shí),也保證了網(wǎng)絡(luò)參數(shù)的穩(wěn)定性。為避免常規(guī)梯度訓(xùn)練中參數(shù)的局部極值問題,采用沖量算法對(duì)參數(shù)進(jìn)行迭代更新。
實(shí)驗(yàn)在i7處理器,CPU主頻率3.5 GHz,內(nèi)存16 GB的RAM環(huán)境中運(yùn)行Matlab 2015進(jìn)行分析,基于OTB 2015的相關(guān)視頻進(jìn)行實(shí)驗(yàn)分析,主要背景干擾包括遮擋、光照變化以及變形等。為對(duì)比分析算法性能,將傳統(tǒng)基于SiamMask網(wǎng)絡(luò)的深度學(xué)習(xí)方法(SSM)[15]和基于STC[18]的方法進(jìn)行對(duì)比。
本文方法的檢測(cè)跟蹤結(jié)果如圖4所示。選取了3個(gè)同時(shí)包含多種挑戰(zhàn)因素的視頻序列來對(duì)算法進(jìn)行定性評(píng)估。
(a) Shaking(8,70,120幀)
其中,Shaking視頻中存在光照突變、形變等干擾,由于傳統(tǒng)SSM方法嚴(yán)重依賴訓(xùn)練特征和初始輸入?yún)⒘?,?幀時(shí)因光照變化導(dǎo)致輸入?yún)⒘繖?quán)重降低、特征漂移,SSM方法產(chǎn)生了跟蹤漂移,第70幀時(shí)明顯跟蹤失敗。傳統(tǒng)STC方法因?yàn)楸尘案蓴_導(dǎo)致置信圖漂移,也產(chǎn)生了一定的跟蹤誤差,本文算法一直保持著對(duì)光照突變和形變的較好魯棒性。Girl2視頻中由于遮擋的干擾,傳統(tǒng)SSM方法和STC方法在目標(biāo)遮擋后跟蹤失敗,而本文方法因?yàn)橐肓伺d趣目標(biāo)的自動(dòng)檢測(cè),能夠很好地恢復(fù)跟蹤性能,從第1 451幀的完全遮擋到第1 465幀的遮擋后恢復(fù),可以看出本文方法對(duì)遮擋恢復(fù)后的目標(biāo)仍然能夠保持較好的跟蹤效果。Freeman4視頻存在分辨率低以及遮擋干擾。從第211幀開始,SSM方法和STC方法都出現(xiàn)了漂移,第280幀時(shí)2種方法基本上都是跟蹤失敗狀態(tài),但是本文方法仍然保持了較高的跟蹤精度。
參考業(yè)界目前普遍采用的度量指標(biāo),該部分針對(duì)跟蹤目標(biāo)的中心位置誤差(CLE)和重疊率(OR)進(jìn)行量化的性能分析[19]。通常情況下,CLE越小、OR越大,跟蹤精度越高。3種不同算法針對(duì)測(cè)試序列的相關(guān)量化指標(biāo)如表1和表2所示。從表1和表2可以看出,針對(duì)測(cè)試視頻,本文方法始終保持著較高的跟蹤精度。為了進(jìn)一步分析本文方法的運(yùn)行效率和實(shí)時(shí)性,針對(duì)全部的OTB 2015測(cè)試序列進(jìn)行了平均運(yùn)行分析。SSM的平均跟蹤速率為18 幀/秒,STC的平均跟蹤速率為49 幀/秒,本文方法的平均跟蹤速率為37 幀/秒。由此可以看出,因?yàn)橐肓伺d趣目標(biāo)自動(dòng)檢測(cè)和迭代權(quán)重的自適應(yīng)更新,導(dǎo)致跟蹤速率有所降低,但其幀處理速度仍然大于37 幀/秒,滿足實(shí)時(shí)性需求,在跟蹤精度和運(yùn)行實(shí)時(shí)性方面實(shí)現(xiàn)了很好的折中。
表1 CLE計(jì)算列表Tab.1 CLE calculation list 單位:pixel
表2 OR計(jì)算列表Tab.2 OR calculation list
針對(duì)復(fù)雜背景下視頻目標(biāo)穩(wěn)健跟蹤問題,提出了一種融合深度學(xué)習(xí)和時(shí)空預(yù)測(cè)的魯棒單目標(biāo)跟蹤方法,其創(chuàng)新點(diǎn)主要表現(xiàn)在2個(gè)方面:
① 在傳統(tǒng)基于SiamMask網(wǎng)絡(luò)的深度學(xué)習(xí)框架內(nèi),通過引入興趣區(qū)域(ROI)檢測(cè)實(shí)現(xiàn)輸入序列中興趣目標(biāo)的自動(dòng)精確提取,在提升系統(tǒng)自動(dòng)檢測(cè)跟蹤精度的同時(shí),有效地克服了背景干擾導(dǎo)致個(gè)跟蹤誤差累積效應(yīng);
② 在深度跟蹤系統(tǒng)中融入了時(shí)空上下文目標(biāo)跟蹤算法(STC),根據(jù)目標(biāo)時(shí)空關(guān)系的在線學(xué)習(xí),預(yù)測(cè)新的目標(biāo)位置并對(duì)SiamMask網(wǎng)絡(luò)進(jìn)行算法校正,實(shí)現(xiàn)視頻序列中的目標(biāo)快速識(shí)別與跟蹤,有效地改善環(huán)境干擾、目標(biāo)遮擋等復(fù)雜背景導(dǎo)致的跟蹤漂移問題。
本文方法較好地改善了目標(biāo)在復(fù)雜應(yīng)用背景中的檢測(cè)與跟蹤問題,但是對(duì)于多目標(biāo)檢測(cè)問題尚在探索有效的檢測(cè)跟蹤手段,是后續(xù)走向應(yīng)用需要進(jìn)一步突破的瓶頸所在。