朱強(qiáng),王超毅,張吉慶,尹寶才,魏小鵬,楊鑫
(大連理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,遼寧 大連 116000)
如今無(wú)人機(jī)已在各個(gè)領(lǐng)域發(fā)揮著不可替代的作用,而目標(biāo)跟蹤是無(wú)人機(jī)一項(xiàng)極為重要的功能,當(dāng)無(wú)人機(jī)僅搭載RGB相機(jī)時(shí),無(wú)法有效適應(yīng)較為復(fù)雜的跟蹤場(chǎng)景:(1)由于槳葉拉力和離心力產(chǎn)生共振和受外界風(fēng)力影響,拍攝的圖像較模糊,無(wú)法有效利用計(jì)算機(jī)視覺(jué)算法進(jìn)行單目標(biāo)跟蹤;(2)無(wú)人機(jī)的工作環(huán)境較為復(fù)雜,用傳統(tǒng)相機(jī)結(jié)合視覺(jué)算法在復(fù)雜光照?qǐng)鼍跋卖敯粜缘停谝归g或過(guò)曝光場(chǎng)景下無(wú)法有效跟蹤物體。為解決上述無(wú)人機(jī)視角下的目標(biāo)跟蹤問(wèn)題,本文采用無(wú)人機(jī)搭載動(dòng)態(tài)和有源像素視覺(jué)傳感器(DAVIS)事件相機(jī)[1]的方法進(jìn)行目標(biāo)跟蹤。利用DAVIS事件相機(jī)特殊的成像機(jī)制,避免因目標(biāo)物體快速運(yùn)動(dòng)出現(xiàn)成像模糊,從而有效適應(yīng)無(wú)人機(jī)抖動(dòng)、特殊光照等復(fù)雜場(chǎng)景,采集的待跟蹤物體的邊緣信息較RGB相機(jī)更有效。據(jù)此,設(shè)計(jì)了基于事件與灰度圖的雙模態(tài)融合跟蹤網(wǎng)絡(luò),有效利用事件域數(shù)據(jù)的邊緣信息和APS域數(shù)據(jù)的紋理信息。為更好地訓(xùn)練事件與灰度圖雙模態(tài)融合跟蹤網(wǎng)絡(luò),用運(yùn)動(dòng)捕捉系統(tǒng)Vicon制作了無(wú)人機(jī)視角下的目標(biāo)跟蹤Event-APS 28數(shù)據(jù)集。實(shí)驗(yàn)結(jié)果證明,設(shè)計(jì)的網(wǎng)絡(luò)能更好地適應(yīng)無(wú)人機(jī)復(fù)雜的跟蹤場(chǎng)景。
相關(guān)濾波跟蹤算法最初在信號(hào)處理與分析領(lǐng)域用于描述2個(gè)信號(hào)之間的相似程度。BOLME等[2]最早提出最小平方誤差輸出總和(MOSSE)算法,將相關(guān)濾波應(yīng)用于目標(biāo)追蹤。對(duì)待跟蹤的目標(biāo)視頻幀需要尋找其對(duì)應(yīng)的濾波模板,并和視頻幀做相關(guān)性操作,得到響應(yīng)圖。為加快運(yùn)算速度,MOSSE算法還引入了快速傅里葉變換[3]操作,將卷積操作變換為點(diǎn)乘操作,從而大大降低了模型的計(jì)算量。
基于MOSSE算法的循環(huán)結(jié)構(gòu)跟蹤相關(guān)濾波(CSK)算法[3],在MOSSE算法基礎(chǔ)上加入了正則項(xiàng),且為防過(guò)擬合,引入了核函數(shù)和循環(huán)矩陣。核化相關(guān)濾波(KCF)算法[4]將多通道梯度直方圖作為輸入,以提高目標(biāo)跟蹤的精度,采用“嶺回歸”和“核函數(shù)”等技巧簡(jiǎn)化運(yùn)算,是對(duì)CSK算法的進(jìn)一步改進(jìn)。相關(guān)濾波跟蹤器具有較高的跟蹤速度,應(yīng)用廣泛。
雖然相關(guān)濾波跟蹤方法在目標(biāo)跟蹤中具有不錯(cuò)的效果,但仍存在一些問(wèn)題。首先,魯棒性較差,遇到遮擋等情況難以滿足跟蹤要求;另外,準(zhǔn)確率不及深度學(xué)習(xí)跟蹤算法。
近年來(lái),隨著深度學(xué)習(xí)的發(fā)展,單目標(biāo)跟蹤領(lǐng)域涌現(xiàn)出很多優(yōu)于傳統(tǒng)跟蹤方法的深度學(xué)習(xí)算法。BERTINETTO等[5]提出基于全卷積孿生網(wǎng)絡(luò)的單目標(biāo)跟蹤算法(fully convolutional siamese network,SiamFC),顧名思義,孿生神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)是對(duì)稱的,2個(gè)分支的輸入分別是第1幀的目標(biāo)區(qū)域和待搜索的視頻幀,如果輸入的視頻幀不符合尺度要求,則需要用均值進(jìn)行填充。SiamFC通過(guò)AlexNet[6]提取2個(gè)分支的圖像特征,并對(duì)得到的模板幀特征和搜索幀特征進(jìn)行互相關(guān)操作,得到待搜索視頻幀的目標(biāo)框。之后BO等[7]在SiamFC基礎(chǔ)上引入了區(qū)域推薦生成網(wǎng)絡(luò)(region proposal network,RPN),實(shí)現(xiàn)了多個(gè)尺度的圖像處理,準(zhǔn)確回歸出目標(biāo)位置。WANG等[8]提出的SiamMask,通過(guò)在SiamFC網(wǎng)絡(luò)上添加mask分支,以適應(yīng)由物體形狀位置實(shí)時(shí)生成的包圍框。
基于循環(huán)神經(jīng)網(wǎng)絡(luò)的目標(biāo)跟蹤算法不同于基于卷積網(wǎng)絡(luò)的跟蹤算法,可針對(duì)視頻跟蹤序列的時(shí)序信息進(jìn)行建模,利用循環(huán)神經(jīng)網(wǎng)絡(luò)保存視頻的幀連續(xù)性信息[9]。經(jīng)典的有結(jié)構(gòu)關(guān)注網(wǎng)絡(luò)(SANet)、基于動(dòng)態(tài)記憶網(wǎng)絡(luò)等跟蹤算法。
雖然基于深度學(xué)習(xí)的算法已表現(xiàn)出優(yōu)異的性能,但由于RGB相機(jī)有限的幀率和有限的動(dòng)態(tài)范圍,使得無(wú)人機(jī)在復(fù)雜光照?qǐng)鼍跋碌聂敯粜暂^差,在夜間低光照或過(guò)曝光場(chǎng)景下無(wú)法有效跟蹤目標(biāo)。
事件相機(jī)在流體力學(xué)、顯微鏡、粒子跟蹤、熒光成像、機(jī)器人等領(lǐng)域有廣泛應(yīng)用[9]。傳統(tǒng)的RGB相機(jī)因受成像機(jī)制影響,存在數(shù)據(jù)冗余、欠采樣和處理延遲等不足,而仿生的事件相機(jī)其成像機(jī)制類似于視網(wǎng)膜,采用的是異步事件驅(qū)動(dòng)機(jī)制,當(dāng)某個(gè)像素的亮度變化累計(jì)達(dá)到一定閾值時(shí),輸出一個(gè)“事件”?!笆录笔蔷哂袡M縱坐標(biāo)值、像素極性、時(shí)間戳的一個(gè)四維向量:
其中,posi為事件的像素坐標(biāo),ti為發(fā)生該事件的時(shí)間戳,pi為極性,其值為-1和+1,分別表示光強(qiáng)的減弱和增強(qiáng)。
首先,引入DAVIS事件相機(jī),用其代替?zhèn)鹘y(tǒng)的RGB相機(jī),DAVIS事件相機(jī)既可以傳輸事件信息(Event圖像),又可以傳輸灰度圖(APS圖像);其次,設(shè)計(jì)事件與幀圖像融合的目標(biāo)網(wǎng)絡(luò)。在網(wǎng)絡(luò)中設(shè)計(jì)事件成像和APS成像的特征融合模塊,有效利用事件域和APS域的優(yōu)點(diǎn),以應(yīng)對(duì)復(fù)雜光照、快速抖動(dòng)等場(chǎng)景下無(wú)人機(jī)的目標(biāo)跟蹤。為更好地訓(xùn)練網(wǎng)絡(luò),用事件相機(jī)和Vicon運(yùn)動(dòng)捕捉系統(tǒng)構(gòu)建了無(wú)人機(jī)視角下的Event圖像和APS圖像跟蹤數(shù)據(jù)集。
為同時(shí)利用事件域信息和APS域信息,設(shè)計(jì)了能融合2個(gè)模態(tài)的信息特征提取網(wǎng)絡(luò),APS圖像能有效描述待跟蹤目標(biāo)的紋理信息,而在低光照、快速運(yùn)動(dòng)場(chǎng)景下,Event圖像更注重目標(biāo)物的邊界輪廓信息,且受光照影響較小。目前的開源目標(biāo)跟蹤數(shù)據(jù)集中尚未見(jiàn)APS和事件相機(jī)相融合的數(shù)據(jù)集,為更好地訓(xùn)練網(wǎng)絡(luò),筆者制作了Event-APS 28目標(biāo)跟蹤數(shù)據(jù)集。
本文用DAVIS事件相機(jī)和Vicon運(yùn)動(dòng)捕捉系統(tǒng)采集數(shù)據(jù)集,通過(guò)相機(jī)校準(zhǔn)、創(chuàng)建對(duì)象、跟蹤拍攝等步驟得到數(shù)據(jù)集中待跟蹤物體的目標(biāo)框,避免人工標(biāo)注每幀的真值。Vicon主要基于計(jì)算機(jī)圖形學(xué)原理,通過(guò)用分布在空間不同角度的相機(jī)記錄待跟蹤目標(biāo)物,得到不同時(shí)間維度的空間坐標(biāo)(x,y,z)。用12個(gè)光學(xué)相機(jī)環(huán)繞場(chǎng)地,在待跟蹤物體的邊界用雙面膠粘貼“Marker”反光點(diǎn)[10],運(yùn)動(dòng)捕捉系統(tǒng)的視覺(jué)識(shí)別設(shè)備實(shí)時(shí)記錄Marker在三維空間中的位置信息,當(dāng)粘貼了Marker的物體運(yùn)動(dòng)時(shí),相機(jī)會(huì)連續(xù)拍攝其運(yùn)動(dòng)圖像,并保存標(biāo)志點(diǎn)的軌跡序列,事件相機(jī)也進(jìn)行同步拍攝。對(duì)無(wú)法遙控的模型,用吊繩懸掛,通過(guò)牽引使其運(yùn)動(dòng)。
為模擬無(wú)人機(jī)的視角目標(biāo)跟蹤,選用28種目標(biāo)模型物體制作Event-APS 28數(shù)據(jù)集,包括迷彩目標(biāo)物體、工程車輛、民用交通工具、動(dòng)物、其他常見(jiàn)運(yùn)動(dòng)物體5個(gè)類別,分別占28%,16%,24%,24%,8%。表1為Event-APS 28數(shù)據(jù)集與目前主流的事件數(shù)據(jù)集對(duì)比。
表1 Event-APS 28數(shù)據(jù)集與其他事件數(shù)據(jù)集對(duì)比Table 1 Comparison of Event-APS 28 dataset and other event datasets
Event-APS 28數(shù)據(jù)集分為正常光照、過(guò)曝光、運(yùn)動(dòng)模糊和低光照4種場(chǎng)景。圖1從上到下依次為這4種場(chǎng)景下數(shù)據(jù)集視頻序列展示圖,4種場(chǎng)景圖中,上方的為APS圖像,下方的為疊加Event圖像。
圖1 Event-APS 28數(shù)據(jù)集部分展示Fig.1 Partial display of the Event-APS 28 dataset
借鑒ATOM網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計(jì)思想,將目標(biāo)跟蹤分為目標(biāo)分類器和目標(biāo)框回歸模塊兩部分。目標(biāo)分類器用于目標(biāo)分類,對(duì)目標(biāo)進(jìn)行粗跟蹤,目標(biāo)框回歸模塊用于精細(xì)定位目標(biāo)。圖2為本文設(shè)計(jì)的事件與灰度圖雙模態(tài)融合跟蹤網(wǎng)絡(luò),該網(wǎng)絡(luò)包含2個(gè)孿生分支,上半部分為參考分支(reference),下半部分為測(cè)試分支(test)。參考分支輸入的為參考幀的灰度圖與兩幀之間疊加的事件域圖像;測(cè)試分支輸入的為當(dāng)前視頻幀的灰度圖與兩幀之間疊加的事件域圖像。提取特征部分借鑒的是遷移學(xué)習(xí)的思想,即訓(xùn)練網(wǎng)絡(luò)加在線微調(diào)的思想,其中預(yù)訓(xùn)練網(wǎng)絡(luò)采用已在ImageNet[13]數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練的VGG-16網(wǎng)絡(luò)。
圖2 事件與灰度圖雙模態(tài)融合目標(biāo)跟蹤網(wǎng)絡(luò)架構(gòu)Fig.2 Target tracking nework architecture of event and grayscale image dual-mode fusion
在參考分支中,APS域與事件域的特征提取網(wǎng)絡(luò)采用預(yù)訓(xùn)練好的VGG-16網(wǎng)絡(luò),提取VGG-16網(wǎng)絡(luò)第10個(gè)卷積層(低維特征)與第13個(gè)卷積層(高維特征)的中間結(jié)果輸出,分別得到參考分支APS域的低維特征與高維特征,參考分支事件域的低維特征與高維特征。通過(guò)特征融合模塊(feature fusion module),將對(duì)應(yīng)維度的APS域特征與事件域特征融合,得到融合后的結(jié)果:
由于本文采用的是孿生網(wǎng)絡(luò)結(jié)構(gòu),參考分支與測(cè)試分支結(jié)構(gòu)相同,同理可得測(cè)試分支低維特征信息與高維特征信息融合后的中間結(jié)果:
高維特征具有更強(qiáng)的語(yǔ)義信息,但分辨率很低,對(duì)細(xì)節(jié)的感知能力較差;而低維特征的分辨率較高,包含的細(xì)節(jié)信息更多[14],故將2個(gè)分支的APS域和事件域的低維特征信息融合,得到低維特征圖,并將其輸入分類器,完成目標(biāo)分類任務(wù)。分類器的網(wǎng)絡(luò)結(jié)構(gòu)較為簡(jiǎn)單,首先,對(duì)參考分支低維特征信息的中間結(jié)果進(jìn)行卷積和精準(zhǔn)區(qū)域池化(PrPooling)操作,將得到的中間結(jié)果視作卷積核,對(duì)測(cè)試分支融合后的低維特征信息進(jìn)行卷積操作。分類器對(duì)輸入特征信息的操作可表示為
其中,C3代表對(duì)特征圖進(jìn)行3×3卷積操作,Scorecls為概率矩陣。
在設(shè)計(jì)目標(biāo)框回歸模塊時(shí),綜合利用低維特征和高維特征的優(yōu)點(diǎn),將兩者共同作為輸入,將參考分支的特征信息經(jīng)3×3卷積操作、通道注意力機(jī)制(CA)和PrPooling操作后,分別與通過(guò)3×3卷積操作的測(cè)試分支特征進(jìn)行元素級(jí)乘,并將得到的特征圖分別經(jīng)過(guò)一個(gè)全連接層(FC),得到中間結(jié)果φL,φH:
目標(biāo)框回歸模塊,利用2個(gè)維度的中間結(jié)果進(jìn)行連接組合操作,最后通過(guò)全連接層得到最終結(jié)果:
其中,中括號(hào)代表2個(gè)特征按照通道進(jìn)行串聯(lián)組合的操作。
事件域與APS域雙模態(tài)融合網(wǎng)絡(luò)的損失函數(shù)為
其中,Loss由分類器的損失函數(shù)Lcls和目標(biāo)框回歸模塊的損失函數(shù)共同組成,超參數(shù)μ為加權(quán)系數(shù),用以平衡目標(biāo)分類器和目標(biāo)框回歸模塊2個(gè)分支,IoUi和IoUgt分別為目標(biāo)框回歸模塊的預(yù)測(cè)值和真實(shí)值,Nreg為預(yù)測(cè)的IoU數(shù)。
雖然回歸模塊可提供精準(zhǔn)的目標(biāo)框,但為增強(qiáng)其判別能力[15],本文增加了分類器模塊,為分類器模塊設(shè)計(jì)的L2目標(biāo)函數(shù)為
其中,ω為網(wǎng)絡(luò)層權(quán)重,Ncls為預(yù)測(cè)模塊數(shù),γm為對(duì)應(yīng)訓(xùn)練樣本的權(quán)重,描述其重要程度,xm和ym分別為網(wǎng)絡(luò)的輸入和輸出。為防止出現(xiàn)過(guò)擬合,在L2目標(biāo)函數(shù)后添加了正則項(xiàng),ρk為正則項(xiàng)系數(shù)。
為有效提取事件域和APS域圖像的特征,采取遷移學(xué)習(xí)中的預(yù)訓(xùn)練網(wǎng)絡(luò)與在線微調(diào)的方法。用經(jīng)ImageNet數(shù)據(jù)集預(yù)訓(xùn)練的VGG-16網(wǎng)絡(luò),提取事件域和APS域2個(gè)模態(tài)的信息特征,VGG-16網(wǎng)絡(luò)由13個(gè)卷積層加3個(gè)全連接層組成,采用的卷積核較?。?×3),其中比較特殊的1×1卷積核,可視作對(duì)圖像特征圖進(jìn)行線性空間映射,網(wǎng)絡(luò)的前幾層為卷積層,后幾層為全連接層,最后為softmax層[16]。
通過(guò)VGGNet網(wǎng)絡(luò)提取的低層特征感受野較小,保留了細(xì)粒度的空間信息,便于跟蹤器精確定位待跟蹤物體;而高層特征的感受野較大,主要反映的是圖像的目標(biāo)語(yǔ)義特征,對(duì)目標(biāo)變化的魯棒性較好。本文在參考分支提取事件域和APS域特征時(shí),用第10個(gè)卷積層的輸出作為低維特征信息、第13個(gè)卷積層的輸出作為高維特征信息(式(12)~式的計(jì)算式分別為:
由于本文采用孿生網(wǎng)絡(luò)結(jié)構(gòu),參考分支和測(cè)試分支具有相同的分支結(jié)構(gòu),同理可得測(cè)試分支APS域和事件域的低維與高維特征信息:
APS域包含更多待跟蹤物體的紋理信息,而DAVIS事件相機(jī)拍攝的事件域數(shù)據(jù)更關(guān)注目標(biāo)的邊緣信息,為使網(wǎng)絡(luò)更好地適應(yīng)無(wú)人機(jī)場(chǎng)景下的目標(biāo)跟蹤,針對(duì)事件域與APS域成像的特點(diǎn),設(shè)計(jì)了特征融合模塊(feature fusion module,F(xiàn)FM)。圖3為FFM的網(wǎng)絡(luò)架構(gòu)圖,其本質(zhì)是利用事件域信息引導(dǎo)APS域圖像的表達(dá)。
圖3 FFM網(wǎng)絡(luò)架構(gòu)Fig.3 Network architecture of FFM
FFM的輸入為事件域特征E與APS域特征A,針對(duì)事件域的特征信息,求每個(gè)通道的均值,并用Sigmoid激活函數(shù)處理,Avg表示均值操作,得到特征圖τE:
將通過(guò)Sigmoid激活函數(shù)處理的特征圖τE與E進(jìn)行元素級(jí)乘,得到的結(jié)果送入通道注意力(channel attention,CA)模塊,得到中間結(jié)果φE:
中間結(jié)果φE與輸入的APS域特征進(jìn)行元素級(jí)乘,得到融合后的特征圖fout:
將融合后的低維特征圖fout作為后續(xù)分類器的輸入,融合后的高維與低維特征信息作為目標(biāo)框回歸模塊的共同輸入。
為更好地融合事件域與APS域的特征信息,在FFM中引入CA。FFM在訓(xùn)練網(wǎng)絡(luò)過(guò)程中會(huì)增加重要通道的權(quán)重,減小不重要通道的權(quán)重,從而有效提高網(wǎng)絡(luò)的性能。FFM中采用的CA機(jī)制網(wǎng)絡(luò)架構(gòu)如圖4所示。
圖4 CA機(jī)制網(wǎng)絡(luò)架構(gòu)Fig.4 Network architecture of CA mechanism
對(duì)輸入后的特征圖X,其特征的通道數(shù)為C0,用C個(gè)卷積核進(jìn)行卷積得到特征圖U;對(duì)特征圖U,通道數(shù)為C,將通道數(shù)分為上、下2個(gè)分支,其中上分支中,一部分采用全局池化的方法將每個(gè)通道的二維特征(H×W)壓縮為一維特征,計(jì)算式為
通過(guò)對(duì)特征圖U(C×H×W)全局池化得到Z(1×1×C);另一部分將生成特征圖Z中通道對(duì)應(yīng)的權(quán)重值。首先通過(guò)全連接層,壓縮特征的維度,再通過(guò)ReLU函數(shù)激活,第2個(gè)全連接層負(fù)責(zé)將前面的特征值變?yōu)镃個(gè)通道,最后通過(guò)Sigmoid函數(shù)激活。經(jīng)Sigmoid函數(shù)激活處理,依次得到C個(gè)通道的權(quán)重,其中全連接層的參數(shù)隨損失函數(shù)更新。
根據(jù)事件域與APS域融合跟蹤網(wǎng)絡(luò)的特點(diǎn),為有效平衡學(xué)習(xí)率過(guò)大和過(guò)小問(wèn)題,采用Poly策略對(duì)學(xué)習(xí)率進(jìn)行動(dòng)態(tài)更新:
其中l(wèi)rnew表示當(dāng)前學(xué)習(xí)率,lrbase表示初始學(xué)習(xí)率,iter表示當(dāng)前訓(xùn)練的迭代次數(shù),itermax表示總的訓(xùn)練迭代次數(shù),power控制該函數(shù)曲線的凸凹性。
事件域與APS域雙模態(tài)融合跟蹤網(wǎng)絡(luò)在一臺(tái)配置了20核i9-10900K 3.7 GHz CPU,64GB RAM和NVIDIA RTX3090 GPU的電腦上進(jìn)行訓(xùn)練。網(wǎng)絡(luò)訓(xùn)練選用自制的Event-APS 28數(shù)據(jù)集,用TenosrFlow網(wǎng)絡(luò)框架進(jìn)行編寫,訓(xùn)練的初始學(xué)習(xí)率為0.001,epoch為50,BatchSize為16,采用Poly策略實(shí)時(shí)更新學(xué)習(xí)率。
將拍攝的數(shù)據(jù)集分為正常光照、過(guò)曝光、運(yùn)動(dòng)模糊和低光照4種場(chǎng)景,每種場(chǎng)景均按7∶3的比例劃分訓(xùn)練集和測(cè)試集,并在Event-APS 28數(shù)據(jù)集上將傳統(tǒng)方法和其他深度學(xué)習(xí)方法與本文方法進(jìn)行比較,對(duì) 比 實(shí) 驗(yàn) 中 的 傳 統(tǒng) 方 法 有MIL[17]、KCF、TLD[18]、MedianFlow;深 度 學(xué) 習(xí) 方 法 有SiamFC、CLNet[19]、ATOM、PrDiMP[20]。其中傳統(tǒng)方法通過(guò)OpenCV提供的工具包實(shí)現(xiàn),深度學(xué)習(xí)的對(duì)比實(shí)驗(yàn)利用了這幾種算法在Github的開源代碼[12],由于上述深度學(xué)習(xí)方法并未結(jié)合事件域信息,因此,實(shí)驗(yàn)時(shí)用APS域目標(biāo)跟蹤視頻序列并進(jìn)行對(duì)比。為有效對(duì)比各算法的優(yōu)劣,繪制不同顏色、不同格式的矩形框,以便定性對(duì)比算法效果。
圖5為4類場(chǎng)景下各算法跟蹤結(jié)果的定性對(duì)比,其中,(a)為正常光照?qǐng)鼍暗母櫧Y(jié)果對(duì)比,場(chǎng)景為在跑道上運(yùn)動(dòng)的模型卡車,干擾因素為背景雜斑,傳統(tǒng)的MedianFlow、MIL、TLD算法跟蹤失敗,KCF算法能持續(xù)跟蹤,但精度和成功率不及深度學(xué)習(xí)算法。由于正常光照低速運(yùn)動(dòng)的場(chǎng)景較為簡(jiǎn)單,APS域圖像可提供較為豐富的信息,因此在初始階段,幾種深度學(xué)習(xí)算法表現(xiàn)均較好,在后續(xù)跟蹤過(guò)程中,本文算法和PrDiMP算法效果相差不大,均略優(yōu)于ATOM算法,SiamFC算法偏移較大。(b)為運(yùn)動(dòng)模糊場(chǎng)景的跟蹤結(jié)果對(duì)比,場(chǎng)景為在木質(zhì)圖案壁紙下快速運(yùn)動(dòng)的模型油罐車,干擾因素為快速運(yùn)動(dòng)產(chǎn)生的運(yùn)動(dòng)模糊和目標(biāo)尺度變化,傳統(tǒng)的TLD、MIL算法均無(wú)法跟蹤,由于目標(biāo)物體運(yùn)動(dòng)速度較快,KCF和MedianFlow算法丟失目標(biāo),由于目標(biāo)尺度發(fā)生變化,SiamFC、ATOM算法的預(yù)測(cè)精度大大降低,PrDiMP略優(yōu)于SiamFC算法,雖然本文算法和PrDiMP算法均發(fā)生了不同程度的輕微漂移,但跟蹤效果明顯優(yōu)于其他算法。(c)為過(guò)曝光場(chǎng)景的跟蹤結(jié)果對(duì)比,場(chǎng)景為在較強(qiáng)光強(qiáng)下運(yùn)動(dòng)的模型飛機(jī),主要干擾因素為光強(qiáng)和目標(biāo)物體的尺寸變化,其中MIL、KCF、TLD、MedianFlow、SiamFC、PrDiMP算法丟失跟蹤目標(biāo),ATOM跟蹤偏移較大,而由于本文算法事件域成像不受特殊光照強(qiáng)度影響,APS域圖像雖然丟失目標(biāo)信息,但可在事件域的特征中學(xué)習(xí)目標(biāo)位置信息,跟蹤結(jié)果優(yōu)于其他算法。(d)為低光照?qǐng)鼍暗母櫧Y(jié)果對(duì)比,場(chǎng)景為在低光照條件下運(yùn)動(dòng)的球體,干擾因素為特殊光照強(qiáng)度、尺寸變化和場(chǎng)景中存在相似物體,在初始階段,本文算法和PrDiMP算法均保持前幾幀的學(xué)習(xí)特征對(duì)目標(biāo)物體進(jìn)行定位,隨著運(yùn)動(dòng)的持續(xù),目標(biāo)物體尺寸變小,捕捉難度增大,加上在低光照條件下目標(biāo)紋理信息不豐富,PrDiMP算法出現(xiàn)定位不準(zhǔn)確情況,進(jìn)而丟失目標(biāo);KCF、TLD、MedianFlow、SiamFC、ATOM等算法均在后續(xù)的跟蹤中丟失目標(biāo);而本文算法由于事件相機(jī)不受特殊光照強(qiáng)度影響,在低光照條件下仍可從事件域中學(xué)習(xí)目標(biāo)物體的位置信息,雖然預(yù)測(cè)框有輕微偏差,但跟蹤效果總體上優(yōu)于同類算法。
圖5 不同算法跟蹤結(jié)果對(duì)比Fig.5 Comparison of tracking of different algorithms
為客觀評(píng)價(jià)不同目標(biāo)跟蹤網(wǎng)絡(luò)在Event-APS 28數(shù)據(jù)集上的性能,用目標(biāo)跟蹤領(lǐng)域常用的2個(gè)評(píng)判指標(biāo):精確度(precision plot,PR)和成功率(success rate,SR)衡量跟蹤算法的優(yōu)劣。PR是視頻序列中網(wǎng)絡(luò)預(yù)測(cè)的真值中心位置坐標(biāo)和中心位置的距離誤差小于給定閾值的視頻幀數(shù)量的百分比[21]。對(duì)于SR,首先計(jì)算目標(biāo)跟蹤視頻序列中幀的網(wǎng)絡(luò)預(yù)測(cè)目標(biāo)框與該幀的真實(shí)值的重疊面積比,若該比值大于給定閾值,認(rèn)為成功;反之,則認(rèn)為失敗。
圖6為本文算法與其他8種算法在Event-APS 28數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)曲線,其中,(a)為PR曲線,橫坐標(biāo)為位置誤差閾值,縱坐標(biāo)為PR;(b)為SR曲線,橫坐標(biāo)為重疊率閾值,縱坐標(biāo)為SR。由圖6可知,本文算法優(yōu)于其他算法,本文算法能有效適應(yīng)無(wú)人機(jī)場(chǎng)景下的目標(biāo)跟蹤。
圖6 各算法對(duì)比實(shí)驗(yàn)Fig.6 Comparative experimental of different algorithms
表2為各算法在低光照、運(yùn)動(dòng)模糊、過(guò)曝光和正常光照4種場(chǎng)景下低速運(yùn)動(dòng)時(shí)跟蹤的SR與PR對(duì)比,每欄的第1行為SR,第2行為PR,本文中SR的重疊率閾值選擇65%,PR的位置誤差閾值選擇20。由表2可知,在3種挑戰(zhàn)性場(chǎng)景下,本文算法均優(yōu)于其他算法,在正常光照?qǐng)鼍跋?,本文算法PR略低于PrDiMP算法。本文算法SR的整體性能指標(biāo)達(dá)60.2%,PR的整體性能指標(biāo)達(dá)81.6%,均優(yōu)于其他算法。
表2 SR和PR對(duì) 比Table 2 Comparison of SR and PR
通過(guò)以上對(duì)實(shí)驗(yàn)結(jié)果的定性和定量對(duì)比知,在常規(guī)場(chǎng)景下,本文算法和其他幾種深度學(xué)習(xí)算法性能相近,但在富有挑戰(zhàn)性的場(chǎng)景下,尤其是在受特殊光照影響丟失圖像信息時(shí),本文算法可通過(guò)在事件域?qū)W到的物體位置信息彌補(bǔ)APS域的不足,從而具有更高的SR和PR。
根據(jù)事件相機(jī)的成像特點(diǎn),提出了無(wú)人機(jī)搭載事件相機(jī)進(jìn)行單目標(biāo)跟蹤的方法。由于目前開源的與事件相機(jī)相關(guān)的目標(biāo)跟蹤數(shù)據(jù)集較少,本文利用DAVIS事件相機(jī)和運(yùn)動(dòng)捕捉系統(tǒng)Vicon制作了包含正常光照、過(guò)曝光、運(yùn)動(dòng)模糊和低光照4種場(chǎng)景的目標(biāo)跟蹤Event-APS 28數(shù)據(jù)集。根據(jù)事件域信息特點(diǎn),設(shè)計(jì)了事件與灰度圖雙模態(tài)融合的跟蹤網(wǎng)絡(luò),將事件域和APS域的特征信息送入特征融合模塊進(jìn)行融合,將低維特征信息送入目標(biāo)分類器,低維和高維特征信息送入目標(biāo)框回歸模塊,得到最終的預(yù)測(cè)結(jié)果。用PR和SR衡量跟蹤算法的優(yōu)劣,實(shí)驗(yàn)結(jié)果的定性和定量分析表明,在Event-APS 28數(shù)據(jù)集上,本文算法均優(yōu)于其他目標(biāo)跟蹤算法,尤其在富有挑戰(zhàn)性的場(chǎng)景下,APS域信息失效,本文算法仍可在事件域?qū)W習(xí)目標(biāo)物體的輪廓信息,進(jìn)而實(shí)現(xiàn)對(duì)目標(biāo)的跟蹤。