周小龍,劉倩倩,產(chǎn)思賢,陳勝勇,3
1(浙江工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,杭州310023) 2(衢州學(xué)院 電氣與信息工程學(xué)院,浙江 衢州324000) 3(天津理工大學(xué) 計(jì)算機(jī)與通信工程學(xué)院,天津 300384)
目標(biāo)跟蹤作為計(jì)算機(jī)視覺(jué)領(lǐng)域中熱門(mén)研究方向之一,在智能監(jiān)控系統(tǒng)、虛擬現(xiàn)實(shí)、無(wú)人駕駛、人機(jī)交互和工業(yè)機(jī)器人等領(lǐng)域有著廣泛的應(yīng)用[1].目標(biāo)跟蹤所要解決的基本問(wèn)題是從給定圖像幀的序列中選擇感興趣的目標(biāo),通過(guò)計(jì)算機(jī)視覺(jué)算法求解出目標(biāo)在每一幀中的位置.自上世紀(jì)五十年代起始至今,雖已經(jīng)研究出大量算法并取得廣泛應(yīng)用,但在復(fù)雜的環(huán)境條件下往往難以實(shí)現(xiàn)高速準(zhǔn)確跟蹤,主要面臨的挑戰(zhàn)有光照、形變、遮擋、尺度變化、圖像模糊以及快速運(yùn)動(dòng)等等.一般來(lái)說(shuō),當(dāng)前目標(biāo)跟蹤算法是基于由傳統(tǒng)的CMOS相機(jī)[2]捕獲的一系列圖像幀的運(yùn)動(dòng)序列,并且這些算法已相當(dāng)成熟.一些早期的經(jīng)典跟蹤算法如卡爾曼濾波、粒子濾波[3]等使用生成式模型,通過(guò)匹配搜索來(lái)執(zhí)行跟蹤,現(xiàn)在的跟蹤算法如基于相關(guān)濾波的跟蹤器[4-7]使用判別類(lèi)模型,將目標(biāo)與背景信息分開(kāi)訓(xùn)練分類(lèi)器,從而確定目標(biāo)位置.隨著深度學(xué)習(xí)的興起,深度學(xué)習(xí)在目標(biāo)跟蹤上也顯示出出色的性能[8-11].由于這些跟蹤算法是基于傳統(tǒng)相機(jī)的圖像幀,而這些幀具有高冗余、高延遲和高數(shù)據(jù)量的缺點(diǎn).每個(gè)像素曝光需要統(tǒng)一的時(shí)間,在物體快速運(yùn)動(dòng)時(shí)會(huì)造成圖像模糊、信息丟失等問(wèn)題,另外,在跟蹤應(yīng)用時(shí)會(huì)受到復(fù)雜的場(chǎng)景如光照條件和目標(biāo)與場(chǎng)景間的遮擋等現(xiàn)實(shí)中不可避免因素的影響.因此出現(xiàn)了一種新型的視覺(jué)傳感器.受到生物視網(wǎng)膜啟發(fā)的基于事件的傳感器,提供了連續(xù)的輸出異步事件流.像素異步工作觸發(fā)的事件僅輸出光強(qiáng)度發(fā)生變化的像素的地址和信息,而不是被動(dòng)地讀取幀中的每個(gè)像素信息.因此,具有場(chǎng)景變化、圖像超稀疏表示以及事件異步輸出的實(shí)時(shí)高動(dòng)態(tài)響應(yīng)的特性,可廣泛用于高速目標(biāo)跟蹤、實(shí)時(shí)監(jiān)控和機(jī)器人視覺(jué).
事件相機(jī)不同于傳統(tǒng)相機(jī)以固定速率采集圖像,它通過(guò)測(cè)量每個(gè)像素的亮度變化來(lái)輸出異步信號(hào),這將引起一系列“事件”,這些事件編碼亮度變化的時(shí)間、位置及極性.圖1為一個(gè)黑點(diǎn)在圓盤(pán)上旋轉(zhuǎn)時(shí)傳統(tǒng)相機(jī)和事件相機(jī)的輸出比較[12],事件相機(jī)輸出稀疏事件流,沒(méi)有冗余數(shù)據(jù),僅提供像素事件信息或沒(méi)有事件,因此,它能克服傳統(tǒng)相機(jī)的一些局限性,比如高時(shí)間分辨率、高動(dòng)態(tài)范圍、低延遲以及低功耗等.此外,事件相機(jī)可以在具有高亮度對(duì)比度的挑戰(zhàn)性場(chǎng)景和在高速、高動(dòng)態(tài)范圍視覺(jué)應(yīng)用中發(fā)揮強(qiáng)大優(yōu)勢(shì).正因?yàn)樯鲜鲞@些優(yōu)勢(shì),基于事件相機(jī)的視覺(jué)算法在同步定位、三維重建、視覺(jué)檢測(cè)與跟蹤以及目標(biāo)識(shí)別等領(lǐng)域有著廣泛的應(yīng)用[13-16].
圖1 黑點(diǎn)在圓盤(pán)上旋轉(zhuǎn)時(shí)普通相機(jī)和事件相機(jī)比較[12]Fig.1 Comparison of the output of the normal camera and the event camera when a black dot rotates on a disc[12]
本文將對(duì)事件相機(jī)及其在跟蹤領(lǐng)域的算法作詳細(xì)的介紹,文章結(jié)構(gòu)如下:第2節(jié)將簡(jiǎn)要介紹事件相機(jī)的類(lèi)型及獨(dú)特的優(yōu)勢(shì)和面臨的挑戰(zhàn),第3、4節(jié)將介紹與分析基于事件相機(jī)的跟蹤算法和有關(guān)數(shù)據(jù)集,最后對(duì)本文進(jìn)行總結(jié)以及對(duì)該領(lǐng)域未來(lái)的研究趨勢(shì)進(jìn)行了展望.
2.1.1 動(dòng)態(tài)視覺(jué)傳感器
事件相機(jī)是由生物視網(wǎng)膜啟發(fā)的傳感器,動(dòng)態(tài)視覺(jué)傳感器(DynamicVision Sensor,DVS)屬于其中一種,它最早在2008年由Tobi小組提出[17],被視為第一代動(dòng)態(tài)視覺(jué)傳感器或基于事件的圖像傳感器,可以異步檢測(cè)像素亮度變化.不同于普通相機(jī),它的像素結(jié)構(gòu)更為復(fù)雜,分為四個(gè)部分如圖2所示[2],工作原理如圖3所示[17],圖3給出了DVS傳感器兩個(gè)關(guān)鍵信號(hào)的波形實(shí)例.DVS具有獨(dú)立、異步的像素,這些像素響應(yīng)其光強(qiáng)對(duì)數(shù)(即L=log(I))的變化,僅輸出尖峰事件流.事件被觸發(fā)以地址-事件表示結(jié)合了事件的位置、時(shí)間和極性(亮度變化的信號(hào)).觸發(fā)的事件表示為:
e=[x,y,t,p]T
(1)
其中,事件e表示在相機(jī)傳感器上位于u=[x,y]T處的像素響應(yīng)于時(shí)間t上的亮度變化而產(chǎn)生的變化事件.亮度變化的信號(hào)編碼為p∈[-1,1],p=1表示ON事件,即正事件代表亮度增加,反之表示OFF事件,即負(fù)事件代表亮度減少.被觸發(fā)的事件意味著距離上次事件亮度增加達(dá)到了預(yù)先設(shè)定的閾值C,理想情況下,即:
ΔL(u,t)=pC
(2)
其中,
ΔL(u,t)=L(u,t)-L(u,t-Δt)
(3)
Δt表示從像素u上次觸發(fā)事件開(kāi)始時(shí)所經(jīng)過(guò)的時(shí)間.
2.1.2 基于異步時(shí)間的圖像傳感器
不同于DVS,基于異步時(shí)間的圖像傳感器(Asynchronous Time-based Image Sensor,ATIS)[18]不僅能輸出DVS所提供的事件像素的位置、時(shí)間及極性信息,還能輸出絕對(duì)的灰度值,滿(mǎn)足了視覺(jué)研究人員對(duì)圖像強(qiáng)度值的需求.ATIS的像素包含觸發(fā)另一個(gè)子像素以讀取絕對(duì)強(qiáng)度的子像素,觸發(fā)器將電容器重置為高電壓,然后在另一個(gè)二極管從電容器中放電,光線越強(qiáng),放電越快,ATIS讀取放電事件時(shí)對(duì)兩個(gè)閾值電壓之間的時(shí)間進(jìn)行編碼,從而得到強(qiáng)度值,因此,只有變化的像素才提供新的強(qiáng)度值,光照越強(qiáng),事件之間的時(shí)間越短,可以實(shí)現(xiàn)較高的動(dòng)態(tài)范圍[19].然而,當(dāng)在較暗的環(huán)境下,放電速度不夠快,讀取強(qiáng)度值時(shí)可能會(huì)被新的事件打斷,從而導(dǎo)致信息丟失.
圖2 DVS像素在塊水平上的結(jié)構(gòu)[2]Fig.2 Block-level structure of DVS pixels[2]
圖3 DVS的工作原理[17]Fig.3 DVS working principle[17]
2.1.3 動(dòng)態(tài)主動(dòng)像素視覺(jué)傳感器
動(dòng)態(tài)主動(dòng)像素視覺(jué)傳感器(Dynamic and Active Pixel Vision Sensor,DAVIS)[20]是將DVS和主動(dòng)像素傳感器(Active Pixel Sensor,APS)[21]結(jié)合的傳感器,通過(guò)共享兩者的光電二極管,且加裝一個(gè)讀出電路僅將DVS像素面積增加了5%.因此,它的像素尺寸比ATIS小很多.通過(guò)分析DVS事件,可以按需觸發(fā)強(qiáng)度幀,能夠同時(shí)輸出事件流和圖像灰度信息.另外,它能讀出對(duì)應(yīng)感興趣區(qū)如與運(yùn)動(dòng)有關(guān)區(qū)域的絕對(duì)光強(qiáng)度,可以應(yīng)用在更多的計(jì)算機(jī)視覺(jué)應(yīng)用中.然而,APS讀出時(shí)有動(dòng)態(tài)范圍限制,當(dāng)像素不改變的情況下,會(huì)在時(shí)間和空間上造成冗余[22].
事件相機(jī)不是以固定速率捕獲圖像幀,而是異步地測(cè)量每個(gè)像素的亮度變化,因此能克服傳統(tǒng)相機(jī)的一些局限性并且擁有絕佳的屬性,比如低延遲、高動(dòng)態(tài)范圍、高時(shí)間分辨率、低功耗以及不受運(yùn)動(dòng)模糊影響等,在高速和高動(dòng)態(tài)范圍場(chǎng)景中有著廣闊的應(yīng)用空間.具體數(shù)據(jù)比較見(jiàn)表1.
表1 事件相機(jī)與傳統(tǒng)相機(jī)的屬性數(shù)據(jù)比較Table 1 Comparison of the attribute data between event camera and traditional camera
相反,事件相機(jī)作為代表視覺(jué)信息獲取的范式轉(zhuǎn)變,也面臨著一些挑戰(zhàn)[19]:
1)數(shù)據(jù)的獲取:事件相機(jī)作為一種新型傳感器,研發(fā)尚未成熟,目前在市面上并未普及,而且價(jià)格昂貴,只應(yīng)用于一些高級(jí)實(shí)驗(yàn)室研發(fā),因此,對(duì)其數(shù)據(jù)的獲取并不容易.
2)全新的算法:當(dāng)前計(jì)算機(jī)視覺(jué)算法是基于圖像幀,對(duì)于事件相機(jī)來(lái)說(shuō)已不適用,事件不僅取決于場(chǎng)景亮度變化,還取決于場(chǎng)景和相機(jī)之間的過(guò)去和當(dāng)前的運(yùn)動(dòng)變化,因此開(kāi)發(fā)一種新的算法已成為必然趨勢(shì).
3)信息的處理:每個(gè)事件只提供二進(jìn)制信息(亮度增加或減少,以事件的極性表示),雖說(shuō)ATIS能輸出絕對(duì)灰度值,但在未來(lái)的應(yīng)用研究中,二進(jìn)制表示的信息是否足夠完成視覺(jué)任務(wù)成為一種可能.
4)噪聲和動(dòng)態(tài)效應(yīng):由于傳感器本身攜帶大量的噪聲事件,當(dāng)物體或相機(jī)運(yùn)動(dòng)時(shí)也會(huì)產(chǎn)生一系列噪聲事件,因此如何對(duì)噪聲以及非理想效應(yīng)建模并從中提取有效事件信息也是研究者所要解決的問(wèn)題.
隨著事件相機(jī)的發(fā)展,基于事件的算法在計(jì)算機(jī)視覺(jué)領(lǐng)域取得廣泛應(yīng)用.跟蹤作為計(jì)算機(jī)視覺(jué)中的低層次應(yīng)用之一,也取得了較好的效果.根據(jù)對(duì)事件信息的不同處理方法,可將跟蹤算法分為基于事件驅(qū)動(dòng)機(jī)制的事件流跟蹤算法和基于事件和圖像幀的跟蹤算法.
早期的跟蹤算法側(cè)重于事件驅(qū)動(dòng)視覺(jué)系統(tǒng)的低延遲和低處理特性,通過(guò)事件源聚類(lèi)塊[23,24]、圓[25]或線條[26,27]形式來(lái)跟蹤簡(jiǎn)單的移動(dòng)的目標(biāo).文獻(xiàn)[23]在2006年提出使用單目DVS的嵌入式視覺(jué)系統(tǒng)的車(chē)輛跟蹤算法.作者受均值漂移算法啟發(fā),通過(guò)歐式距離準(zhǔn)則將傳入的事件分配給圓形聚類(lèi)簇,其中,事件的位置由簇的搜索半徑評(píng)估,簇的移動(dòng)趨向于大多最近添加的事件.文獻(xiàn)[26]在2009年提出基于事件的自適應(yīng)霍夫變換方法來(lái)跟蹤線條.類(lèi)似的方法[25]在2012年被提出,不同之處在于文獻(xiàn)[25]利用霍夫圓變換來(lái)跟蹤移動(dòng)微粒產(chǎn)生的事件流.文獻(xiàn)[27]在2014年提出跟蹤高速四旋翼激動(dòng)的6-DOF姿態(tài)估計(jì)的一組線條.實(shí)驗(yàn)證明該算法即使在旋轉(zhuǎn)速度1200°/s的情況下也可以逐事件估計(jì)四旋翼狀態(tài).
隨后,許多研究工作者使用迭代最近點(diǎn)算法(ICP)[28]、蒙特卡羅(Monte-Carlo)[29]、粒子濾波算法[30]等逐事件自適應(yīng)跟蹤復(fù)雜的、高對(duì)比度的預(yù)定義的形狀.文獻(xiàn)[28]在2012年提出基于事件的迭代最近點(diǎn)算法(EICP)直接應(yīng)用于DVS的輸出,應(yīng)用在微型夾持器的高速穩(wěn)定,它允許以4kHZ的頻率跟蹤操縱工具.文獻(xiàn)[29]在2015年提出基于事件的多核跟蹤,使用各種核如Gaussian、Gabor、Gabor函數(shù)的組合以及任意用戶(hù)定義的核來(lái)處理目標(biāo)在位置上、尺度上和方向上的變化.通過(guò)蒙特卡羅算法將事件與模板的旋轉(zhuǎn)和縮放版本的均采樣集進(jìn)行匹配.同年,文獻(xiàn)[31]使用類(lèi)似于文獻(xiàn)[29]中的循環(huán)核,通過(guò)一組立體的DVS進(jìn)行四旋翼飛行器的回避操作來(lái)跟蹤球.事件相機(jī)允許在15ms內(nèi)進(jìn)行球檢測(cè),軌跡外推和碰撞預(yù)測(cè)少于普通30HZ相機(jī)兩幀之間時(shí)間的一半.文獻(xiàn)[32]在2016年提出使用無(wú)限脈沖響應(yīng)濾波器代替ICP算法,結(jié)合2D和3D標(biāo)準(zhǔn)的基于事件的更新來(lái)跟蹤一組線條組成的模型3D姿態(tài).文獻(xiàn)[30]在2017年提出一種粒子濾波器的變體來(lái)跟蹤由基于事件的霍夫變換算法組成的聚類(lèi).改進(jìn)的粒子濾波器提供多假設(shè)濾波器技術(shù),在視覺(jué)空間和時(shí)間空間上進(jìn)行采樣,自動(dòng)調(diào)整目標(biāo)觀測(cè)的時(shí)間窗口,即使在相對(duì)目標(biāo)運(yùn)動(dòng)較低的時(shí)段也可以進(jìn)行一致的檢測(cè).該方法可用于跟蹤事件空間中的目標(biāo),同時(shí)摒棄了相機(jī)自身運(yùn)動(dòng)引起的背景雜波,實(shí)現(xiàn)了自由運(yùn)動(dòng)的相機(jī)與目標(biāo)之間相對(duì)速度變化的魯棒性.但該算法在目標(biāo)丟失時(shí)濾波器的初始化和恢復(fù)尚未實(shí)現(xiàn).
圖4 高斯混合模型的事件聚類(lèi)Fig.4 Event clustering of Gaussian mixture model
最近,文獻(xiàn)[33]設(shè)計(jì)出768 × 640像素的動(dòng)態(tài)視覺(jué)傳感器,可緩解DVS相機(jī)圖像分辨率較低的問(wèn)題.為了保護(hù)在監(jiān)視公共空間執(zhí)行人員跟蹤時(shí)涉及的隱私,文獻(xiàn)[34]使用此傳感器在2019年提出層次聚類(lèi)的目標(biāo)跟蹤算法.該算法首先用一個(gè)基于相鄰事件的濾波器作為預(yù)處理,然后處理層次聚類(lèi)事件,最后跟蹤聚類(lèi)質(zhì)心.算法通過(guò)將連續(xù)事件流切成固定時(shí)間長(zhǎng)度的非重疊塊并對(duì)每個(gè)塊處理而實(shí)現(xiàn)跟蹤.提出的方法簡(jiǎn)單快速,但只在自己記錄的小型數(shù)據(jù)集上進(jìn)行驗(yàn)證測(cè)試,而且方法中幾乎未考慮到每個(gè)事件的時(shí)間信息,這是有待改進(jìn)解決的.
以上提出的基于事件流的跟蹤算法都是針對(duì)于無(wú)復(fù)雜紋理的目標(biāo)以及沒(méi)有雜亂背景的場(chǎng)景下的,而在復(fù)雜場(chǎng)景下對(duì)目標(biāo)執(zhí)行邊界框跟蹤的算法卻很少.為解決事件流形狀的快速變化、噪聲事件以及背景雜亂等問(wèn)題,文獻(xiàn)[35]在2019年提出速率編碼事件流目標(biāo),通過(guò)預(yù)訓(xùn)練的CNN模型對(duì)目標(biāo)特征進(jìn)行表示并利用相關(guān)濾波機(jī)制執(zhí)行跟蹤.提出的算法在復(fù)雜的場(chǎng)景中取得良好效果并達(dá)到實(shí)時(shí)性能.同年文獻(xiàn)[36]通過(guò)將異步事件轉(zhuǎn)換成幀,提出基于自適應(yīng)時(shí)間曲面的異步檢測(cè)跟蹤.首先將事件中的時(shí)空信息扭曲為帶有線性時(shí)間衰減的自適應(yīng)時(shí)間曲面(ATSLTD)幀表示,然后在ATSLTD幀上執(zhí)行基于邊界框的基于事件的目標(biāo)檢測(cè)跟蹤(ETD).ETD算法分兩步:第1步將提出的ETD檢測(cè)器在第一ATSLTD幀中指定的目標(biāo)對(duì)象的每個(gè)順序幀上生成一組目標(biāo)協(xié)議;第2步使用基于聯(lián)合交叉點(diǎn)的跟蹤器從生成的目標(biāo)協(xié)議中選擇最佳目標(biāo)協(xié)議當(dāng)作當(dāng)前幀的跟蹤結(jié)果.在此基礎(chǔ)上,文獻(xiàn)[37]在2020年提出將ATSLTD幀序列反饋到一個(gè)新型的視網(wǎng)膜運(yùn)動(dòng)回歸網(wǎng)絡(luò)(RMRNet)中,以執(zhí)行端到端的5-DoF目標(biāo)運(yùn)動(dòng)回歸,算法在ECD[38]和EED[39]數(shù)據(jù)集上進(jìn)行測(cè)試,與基于幀的主流跟蹤算法如ATOM[40]、SiameseFc[41]等進(jìn)行實(shí)驗(yàn)對(duì)比,展現(xiàn)出該方法的優(yōu)越性,以及在快速運(yùn)動(dòng)、低光條件以及高動(dòng)態(tài)范圍場(chǎng)景的挑戰(zhàn)性情況下能實(shí)現(xiàn)準(zhǔn)確跟蹤.雖說(shuō)此類(lèi)方法能夠處理復(fù)雜場(chǎng)景下的目標(biāo),但是并不能發(fā)揮出事件流的本質(zhì)優(yōu)勢(shì).
圖5 特征點(diǎn)檢測(cè)與跟蹤算法圖Fig.5 Feature detection and trackingalgorithm
此外,也有研究者提出處理有關(guān)目標(biāo)遮擋問(wèn)題.文獻(xiàn)[42]在2012年提出在嚴(yán)重高遮擋場(chǎng)景下的多人跟蹤算法.該算法的目的是檢索場(chǎng)景中移動(dòng)目標(biāo)的軌跡,提出將移動(dòng)目標(biāo)產(chǎn)生的事件流表示為時(shí)空中的事件云,并使用高斯混合模型將事件分組聚類(lèi)為簇,如圖4所示,通過(guò)找到基礎(chǔ)數(shù)據(jù)的最佳模型參數(shù),使用最大后驗(yàn)算法進(jìn)行簇更新,從而跟蹤有遮擋的簇.實(shí)驗(yàn)結(jié)果表明提出的算法即使軌跡相交也能跟蹤到目標(biāo).文獻(xiàn)[43]在2015年提出基于ATIS的計(jì)算高效、魯棒的自適應(yīng)模式跟蹤方法.該方法建立了目標(biāo)與已知模型之間的對(duì)應(yīng)關(guān)系,算法設(shè)計(jì)包括3個(gè)部分:模式表示、變換模型和最優(yōu)變換參數(shù)估計(jì)的跟蹤準(zhǔn)則.每個(gè)輸出事件一旦被接收,該算法就會(huì)處理并根據(jù)到達(dá)的事件來(lái)迭代更新模型的位置和方向.通過(guò)使用位置和強(qiáng)度信息來(lái)建立基于事件云(2D點(diǎn)集)的事件模型,對(duì)于每個(gè)到達(dá)的事件,先根據(jù)事件的時(shí)空特性進(jìn)行空間匹配,然后進(jìn)行幾何變換以更新模型.該算法可解決基于普通相機(jī)幀因目標(biāo)遮擋造成的模糊問(wèn)題.實(shí)驗(yàn)結(jié)果表明,該算法可以以200kHz的等效幀率進(jìn)行高速形狀跟蹤,并驗(yàn)證了基于事件的相機(jī)在機(jī)器視覺(jué)中的應(yīng)用.文獻(xiàn)[44]在2017年提出立體目標(biāo)跟蹤,同時(shí)將3D重建和聚類(lèi)跟蹤相結(jié)合,在兩個(gè)任務(wù)中加入反饋信息,以改善各自性能.聚類(lèi)的算法類(lèi)似文獻(xiàn)[42],通過(guò)改進(jìn)文獻(xiàn)[23]的跟蹤算法跟蹤具有遮擋的目標(biāo).算法在四個(gè)不同的實(shí)驗(yàn)中得到驗(yàn)證,實(shí)驗(yàn)表明即使在發(fā)生遮擋的情況下,也可以在立體設(shè)置中跟蹤兩個(gè)目標(biāo)的3D位置.
基于圖像幀的目標(biāo)跟蹤算法歷史悠久,發(fā)展比較成熟,現(xiàn)階段研究主要集中于相關(guān)濾波類(lèi)和深度學(xué)習(xí).最近,為解決目標(biāo)出現(xiàn)遮擋、模糊或尺度發(fā)生變化時(shí)造成的跟蹤失敗問(wèn)題,文獻(xiàn)[6]提出融合多種特征如傳統(tǒng)特征和卷積特征等的跟蹤方法,并加入尺度池估計(jì).文獻(xiàn)[7]將改進(jìn)后的HOG與顏色特征相結(jié)合進(jìn)行特征融合采樣,通過(guò)在運(yùn)動(dòng)方向場(chǎng)與區(qū)域響應(yīng)因子結(jié)合來(lái)估計(jì)當(dāng)前目標(biāo)的運(yùn)動(dòng)狀態(tài),調(diào)整模型更新機(jī)制找回丟失后的目標(biāo),最后針對(duì)尺度變化問(wèn)題加入自適應(yīng)尺度因子來(lái)提高算法的適應(yīng)性.但兩種方法均有著較大的計(jì)算量,導(dǎo)致跟蹤速度下降,并且實(shí)時(shí)性能也不高.針對(duì)基于深度學(xué)習(xí)的網(wǎng)絡(luò)模型更新不及時(shí)以及缺乏訓(xùn)練樣本等問(wèn)題,文獻(xiàn)[8]在孿生卷積神經(jīng)網(wǎng)絡(luò)中加入SE-Net以用于特征提取,并在跟蹤階段利用區(qū)域推薦網(wǎng)絡(luò)定位目標(biāo)和線性微調(diào)邊界框.提出的算法保證了跟蹤的準(zhǔn)確性但不能很好的處理目標(biāo)的遮擋和模糊問(wèn)題.另外當(dāng)目標(biāo)或相機(jī)快速移動(dòng)時(shí),目標(biāo)的尺度和縱橫比也會(huì)發(fā)生變化,基于此,文獻(xiàn)[9]利用全卷積網(wǎng)絡(luò)的表達(dá)能力,將跟蹤問(wèn)題作為一個(gè)并行分類(lèi)和回歸,提出基于anchor-free的SiamBAN跟蹤框架,避免了候選框的超參數(shù)和先驗(yàn)知識(shí),并獲得較好的泛用性,與SiamRPN[10]類(lèi)算法相比,提高了準(zhǔn)確性和魯棒性,但與在線更新類(lèi)如DIMP[11]算法相比,魯棒性較弱,這是有待完善的.
基于幀的跟蹤容易受到光照影響,并且當(dāng)目標(biāo)運(yùn)動(dòng)過(guò)快時(shí)會(huì)導(dǎo)致圖像模糊或信息丟失,因此,通過(guò)利用事件相機(jī)的優(yōu)勢(shì),越來(lái)越多的文獻(xiàn)利用事件流和圖像幀相結(jié)合的方式進(jìn)行目標(biāo)跟蹤.文獻(xiàn)[45]在2012年最早提出DVS事件可用于指導(dǎo)卷積神經(jīng)網(wǎng)絡(luò)(CNN)技術(shù)在DAVIS相機(jī)中的應(yīng)用,以用于目標(biāo)檢測(cè)和跟蹤.跟蹤過(guò)程分3步:首先,DAVIS產(chǎn)生的二進(jìn)制事件由基于聚類(lèi)的跟蹤方法生成感興趣區(qū),然后根據(jù)DAVIS捕獲的灰度幀由CNN粗略檢測(cè)大致的目標(biāo)區(qū)域,最后采用粒子濾波算法從感興趣區(qū)域中推斷目標(biāo)位置.實(shí)驗(yàn)結(jié)果表明,基于事件和圖像幀結(jié)合的相機(jī)的CNN跟蹤速度約為全幀CNN跟蹤的70倍.跟蹤性能的測(cè)量采用精度測(cè)量的中心定位誤差,該精度是與DVS的輸出像素事件兼容的亞像素精度測(cè)量.
文獻(xiàn)[46]在2016年利用DAVIS相機(jī)輸出的事件組合幀,提出基于結(jié)合圖像幀和事件流的特征點(diǎn)檢測(cè)與跟蹤算法.該算法首先在灰度幀上進(jìn)行特征點(diǎn)檢測(cè),然后使用事件流在幀之間的盲時(shí)間內(nèi)異步跟蹤特征.檢測(cè)的特征點(diǎn)不同于文獻(xiàn)[29]僅限于手工制定的內(nèi)核,而是自然的紋理特征.首先對(duì)原始灰度圖提取邊緣和Harris角點(diǎn)特征,然后以特征點(diǎn)為中心的方形區(qū)塊內(nèi)的邊緣圖進(jìn)行二值化,形成模型點(diǎn)集.此后的跟蹤過(guò)程類(lèi)似于文獻(xiàn)[43]提到的形狀跟蹤,通過(guò)對(duì)檢測(cè)到的特征點(diǎn)建模,使用最新到達(dá)的事件不斷更新特征模型.算法思想如圖5所示,提出的方法可以實(shí)現(xiàn)異步跟蹤,但其采用原始圖像作為初始化,也為后續(xù)研究者提出作為缺點(diǎn)和不足.
文獻(xiàn)[47]對(duì)文獻(xiàn)[46]中的方法進(jìn)行改進(jìn),利用基于事件的ICP算法[38]跟蹤局部邊緣模式進(jìn)行視覺(jué)測(cè)距.由于在ICP過(guò)程中,每個(gè)像素被賦予不同的權(quán)值,因此,當(dāng)某個(gè)區(qū)域內(nèi)發(fā)生的事件越多,說(shuō)明這個(gè)像素點(diǎn)最為重要,從而賦予更多的權(quán)值.此外,作者利用二維直方圖對(duì)所跟蹤特征的位置進(jìn)行細(xì)化,能夠提高長(zhǎng)距離跟蹤能力.該文提出的方法將跟蹤轉(zhuǎn)換為幾何、點(diǎn)集問(wèn)題,但該方法一方面會(huì)丟失有關(guān)邊緣強(qiáng)度的信息,另一方面需要為基于ICP的注冊(cè)建立事件和模板之間的顯示對(duì)應(yīng)關(guān)系(即數(shù)據(jù)關(guān)聯(lián)).因此,文獻(xiàn)[48]在2017年對(duì)文獻(xiàn)[47]進(jìn)行擴(kuò)展,提出一種基于概率的軟數(shù)據(jù)關(guān)聯(lián)模型,依賴(lài)于事件的概率分配給模型后,將事件分組到模型中并計(jì)算光流.其中特征取代先前的邊緣模式由運(yùn)動(dòng)補(bǔ)償事件構(gòu)建,然后使用期望最大化ICP以軟方式計(jì)算對(duì)應(yīng)關(guān)系,以此產(chǎn)生基于點(diǎn)集的模板,將新事件注冊(cè)到模板中.但由于構(gòu)建的事件圖像受相機(jī)運(yùn)動(dòng)的影響很大,當(dāng)相機(jī)快速移動(dòng)時(shí),跟蹤性能受到限制.另外該文在計(jì)算數(shù)據(jù)關(guān)聯(lián)時(shí),對(duì)滑窗中所有的事件點(diǎn)之間的關(guān)聯(lián)概率都進(jìn)行了計(jì)算,這會(huì)使得計(jì)算復(fù)雜度變高,同時(shí)采用的期望最大化迭代求解方法,或許達(dá)不到實(shí)時(shí)性能.通過(guò)對(duì)文獻(xiàn)[47,48]的改進(jìn),文獻(xiàn)[49]在2018年直接使用原始強(qiáng)度圖像的空間梯度作為模板,第一次提出通過(guò)生成事件模型將事件直接與幀中的像素強(qiáng)度關(guān)聯(lián)起來(lái).實(shí)驗(yàn)結(jié)果表明該方法的特征軌跡與先進(jìn)算法相比更準(zhǔn)確(亞像素精度)、更長(zhǎng).但用于預(yù)測(cè)事件的生成事件模型是一種近似模型,沒(méi)有考慮嚴(yán)重的動(dòng)態(tài)變化和噪聲影響.
最近,在文獻(xiàn)[48]的基礎(chǔ)上,類(lèi)似于文獻(xiàn)[49]的思想,文獻(xiàn)[16]主要考慮了相機(jī)運(yùn)動(dòng)的影響,但不使用原始強(qiáng)度圖像,在2020年提出在XYT-域中使用三維Bezier曲線的事件對(duì)齊和特征跟蹤算法,跟蹤到的特征以用于估計(jì)三維相機(jī)姿態(tài)的精度.文中沿Bezier曲線在固定時(shí)間間隔內(nèi)對(duì)齊事件,將其引入到補(bǔ)丁圖像中,不同于直線對(duì)齊它可以極大地減少未對(duì)齊的情況.另外由于相機(jī)的運(yùn)動(dòng)是未知的,因此估計(jì)Bezier曲線可以最大化扭曲事件像素的方差.提出的局部特征跟蹤算法不同于用于跟蹤的初始補(bǔ)丁,而是通過(guò)對(duì)事件進(jìn)行時(shí)間積分來(lái)構(gòu)造模板圖像補(bǔ)丁,并基于上述事件對(duì)齊來(lái)估計(jì)特征的運(yùn)動(dòng).作者分別在合成和真實(shí)的數(shù)據(jù)集上進(jìn)行測(cè)試,實(shí)驗(yàn)結(jié)果與文獻(xiàn)[48]進(jìn)行比較,證明了該方法無(wú)論在跟蹤特征長(zhǎng)度上和年齡上均優(yōu)于文獻(xiàn)[48],并且獲得了較強(qiáng)的魯棒性.該文提出的算法能有效地對(duì)在三維時(shí)空空間中生成的事件流進(jìn)行對(duì)齊,同時(shí)解決了事件與特征之間的數(shù)據(jù)關(guān)聯(lián)問(wèn)題和運(yùn)動(dòng)估計(jì)問(wèn)題.
此外,文獻(xiàn)[50]在2018年提出基于局部滑動(dòng)窗口的長(zhǎng)時(shí)間在線學(xué)習(xí)檢測(cè)跟蹤.這是一項(xiàng)突破性的成果,打開(kāi)了基于事件的長(zhǎng)時(shí)間并實(shí)時(shí)跟蹤的大門(mén).提出的e-TLD算法借鑒基于幀的TLD算法[51],整合一個(gè)局部搜索的跟蹤器和一個(gè)全局搜索的檢測(cè)器,采用區(qū)分性分類(lèi)方案將目標(biāo)與背景分離,通過(guò)在線學(xué)習(xí)對(duì)目標(biāo)進(jìn)行識(shí)別,并在目標(biāo)回到視野中時(shí)再對(duì)其進(jìn)行檢測(cè)和重新跟蹤.此外,采用的貝葉斯自舉可用于輔助實(shí)時(shí)處理并增強(qiáng)目標(biāo)表示的判別能力.算法在公開(kāi)的數(shù)據(jù)集[38]上進(jìn)行測(cè)試,實(shí)驗(yàn)表明可以檢測(cè)和跟蹤各種形狀和大小的任意目標(biāo).但該文采用的基于事件的滑動(dòng)窗口沿用早期的方法,因此一些更有效的方法或許會(huì)更好的處理.
為了以更好的格式集成事件和幀,從而生成按需灰度幀和具有低延遲或無(wú)延遲的灰度事件.因此,不同于以上的傳感器,文獻(xiàn)[52]提出一個(gè)新型的運(yùn)動(dòng)傳感器,即Celex sensor,該傳感器是混合基于普通幀和基于事件的動(dòng)態(tài)傳感器.基于該傳感器,文獻(xiàn)[53]在2018年通過(guò)對(duì)基于幀的跟蹤算法SSVM[54]進(jìn)行改進(jìn),提出自適應(yīng)事件引導(dǎo)支持向量機(jī)(ESVM)的跟蹤算法,用于跟蹤高速運(yùn)動(dòng)的目標(biāo),實(shí)現(xiàn)了高精度和實(shí)時(shí)性能.算法結(jié)構(gòu)如圖6所示,該算法首先處理輸入的數(shù)據(jù)將低幀速率的全幀與時(shí)間連續(xù)的灰度事件流集成在一起.事件流的高時(shí)間分辨率可以捕獲高速移動(dòng)目標(biāo)的整個(gè)運(yùn)動(dòng)軌跡,而基于幀的普通相機(jī)則記錄離散的目標(biāo)位置.事件的位置用于生成目標(biāo)定位的自適應(yīng)搜索區(qū)域,同時(shí)異步事件中的嵌入強(qiáng)度有助于目標(biāo)檢測(cè)的特征重建.后續(xù)的跟蹤過(guò)程則遵循傳統(tǒng)的SSVM框架.在多個(gè)跟蹤基準(zhǔn)的序列中進(jìn)行實(shí)驗(yàn),與最近的SiameseFc[41]等跟蹤器相比,該方法提高了準(zhǔn)確性和跟蹤速度,并且速度達(dá)到了93.8fps.
圖6 ESVM算法結(jié)構(gòu)圖Fig.6 ESVM algorithm structure
與普通相機(jī)相比,事件相機(jī)發(fā)展尚未成熟,基于事件的跟蹤還在起步階段,雖說(shuō)目前已提出大量的跟蹤算法,但缺乏統(tǒng)一的數(shù)據(jù)集進(jìn)行評(píng)估,而且缺少完整的性能比較,因此不能充分證明文獻(xiàn)中所提算法的突出優(yōu)越性.本節(jié)僅簡(jiǎn)要介紹并分析了一些以上基于事件相機(jī)的跟蹤算法性能.
在文獻(xiàn)[49]的工作中,作者分別在模擬和真實(shí)的數(shù)據(jù)集上進(jìn)行評(píng)估,其中數(shù)據(jù)集在帶有遮擋和亮度變化的高對(duì)比度和自然場(chǎng)景中獲得.評(píng)估依據(jù)為將每個(gè)真值樣本與時(shí)間上兩個(gè)最接近的特征位置的線性插值所給出的特征位置進(jìn)行比較,并對(duì)真值與估計(jì)位置之間的歐式距離進(jìn)行平均計(jì)算誤差.實(shí)驗(yàn)結(jié)果表明提出的算法在模擬數(shù)據(jù)集上能準(zhǔn)確跟蹤特征并獲得0.4像素的平均誤差.在真實(shí)的高紋理和自然場(chǎng)景中數(shù)據(jù)集上與文獻(xiàn)[47,48]進(jìn)行對(duì)比,結(jié)果如表2所示,文獻(xiàn)[49] 在6個(gè)數(shù)據(jù)集上的平均像素誤差均小于1,而文獻(xiàn)[47,48]均遠(yuǎn)大于1,誤差較大.由此可見(jiàn),從跟蹤精度上來(lái)講,文獻(xiàn)[49]優(yōu)于兩者.從跟蹤軌跡上看,在黑白場(chǎng)景下的數(shù)據(jù)集shapes_6dof,checkerboard中,文獻(xiàn)[49]的特征年齡遠(yuǎn)大于兩者,而在高紋理場(chǎng)景下的數(shù)據(jù)集poster_6dof,boxes_6dof和自然場(chǎng)景下的數(shù)據(jù)集bicycles,rocks中,文獻(xiàn)[49]與文獻(xiàn)[48]將近持平,但均大于文獻(xiàn)[47].由此可見(jiàn),文獻(xiàn)[49]提出的算法能實(shí)現(xiàn)準(zhǔn)確的跟蹤,且跟蹤特征軌跡與先進(jìn)算法相比更準(zhǔn)確(亞像素精度)、更長(zhǎng).
表2 平均像素誤差和平均特征年齡在不同數(shù)據(jù)集上的比較Table 2 Comparison of average pixel error and average feature age on different datasets
圖7 DVS聚類(lèi)與openCV的6種跟蹤器的路徑距離計(jì)算比較[34]Fig.7 Calculated path distances for DVS-clustering and six different object trackers implemented by openCV[34]
文獻(xiàn)[34]使用自己設(shè)計(jì)的真實(shí)場(chǎng)景下行人或自行車(chē)交叉、部分被樹(shù)遮擋的小型數(shù)據(jù)集進(jìn)行實(shí)驗(yàn).為考慮到隱私概念,作者將數(shù)據(jù)集進(jìn)行差分圖像和二值化處理,采用動(dòng)態(tài)時(shí)間彎曲距離將跟蹤路徑與真值距離比較的評(píng)估標(biāo)準(zhǔn),通過(guò)根據(jù)所選目標(biāo)的跟蹤路徑與openCV庫(kù)中的6個(gè)跟蹤器進(jìn)行對(duì)比,結(jié)果如圖7所示.整體上來(lái)講,提出的DVS事件聚類(lèi)算法在7個(gè)記錄中的平均動(dòng)態(tài)時(shí)間彎曲距離小于openCV庫(kù)中的跟蹤器,跟蹤較準(zhǔn)確,表現(xiàn)良好,而KCF[6]跟蹤器表現(xiàn)最差.在記錄7的數(shù)據(jù)集上,由于DVS聚類(lèi)過(guò)濾了大量的事件,沒(méi)有達(dá)到最小聚類(lèi)的條件,因此丟失了對(duì)目標(biāo)的持續(xù)跟蹤,從而導(dǎo)致跟蹤失敗.
事件相機(jī)價(jià)格昂貴,發(fā)展尚未成熟,因此目前還并不普及,為了幫助研究者處理基于事件的視覺(jué)輸入算法,從而允許將不同方法與統(tǒng)一的測(cè)試標(biāo)準(zhǔn)進(jìn)行比較,數(shù)據(jù)集成為其算法開(kāi)發(fā)和測(cè)試的重要工具.蘇黎世大學(xué)工作組公布一組公用的基于事件的視覺(jué)數(shù)據(jù)集和模擬器(1)http://github.com/uzh-rpg/event-based_vision_resources,它們?cè)谝曈X(jué)上的任務(wù)分為目標(biāo)運(yùn)動(dòng)估計(jì)(回歸)任務(wù)和目標(biāo)識(shí)別(分類(lèi)),前者用于光流估計(jì)、SLAM和目標(biāo)跟蹤等,后者用于目標(biāo)和動(dòng)作識(shí)別.
文獻(xiàn)[55]在2016年提出使用DAVIS捕獲公共圖像序列用于目標(biāo)跟蹤、動(dòng)作識(shí)別和目標(biāo)識(shí)別的基準(zhǔn)數(shù)據(jù)集.然而該數(shù)據(jù)集中的事件流由捕獲監(jiān)視器上顯示的圖像序列生成,因此數(shù)據(jù)采集存在明顯的不足,而且選擇的用于事件流生成的圖像序列通常以30fps記錄,使在時(shí)域連續(xù)記錄和輸出數(shù)據(jù)的DVS功能受到極大的限制.
文獻(xiàn)[38]在2017年提出并發(fā)布了在各種合成和真實(shí)環(huán)境中用DAVIS捕獲的數(shù)據(jù)集,用于姿態(tài)估計(jì)、視覺(jué)測(cè)距和SLAM.這是世界上第一個(gè)且最流行的基于事件相機(jī)高速高動(dòng)態(tài)范圍機(jī)器人技術(shù)的數(shù)據(jù)集.該數(shù)據(jù)集不僅提供異步事件流和全局快門(mén)強(qiáng)度圖像,還提供運(yùn)動(dòng)采集系統(tǒng)的慣性測(cè)量和相機(jī)位姿的真值.它應(yīng)用在跟蹤領(lǐng)域上的如角檢測(cè)器評(píng)估[14,56]以及特征跟蹤[47,49]等.
文獻(xiàn)[39]在2018年提出的跟蹤算法中,制作并開(kāi)放了用DAVIS捕獲的極端事件數(shù)據(jù)集,數(shù)據(jù)分別在四旋翼和手持式安裝下搭建捕獲,包括多個(gè)目標(biāo)在挑戰(zhàn)性情況下(如低光照和極端燈光變化包括頻閃的閃光燈)移動(dòng).文獻(xiàn)[35]在2019年提出的跟蹤算法實(shí)驗(yàn)中使用7個(gè)數(shù)據(jù)集序列,其中的3個(gè)由作者通過(guò)DVS128傳感器捕獲,包括在一個(gè)場(chǎng)景中移動(dòng)的數(shù)字、手中的玩偶以及人臉;其余4個(gè)由DAVIS 捕獲.作者將捕獲的數(shù)據(jù)集記錄分成多段,并對(duì)其目標(biāo)標(biāo)記了帶有邊界框的真值,而且分別歸屬所面臨的噪聲事件、遮擋、尺度變化、姿態(tài)變化等挑戰(zhàn).另外,作者也開(kāi)放了實(shí)驗(yàn)中所用的數(shù)據(jù)集.
本文簡(jiǎn)要介紹了事件相機(jī)的基本原理,分析了現(xiàn)有的基于事件相機(jī)的跟蹤算法以及有關(guān)的數(shù)據(jù)集.總的來(lái)說(shuō),基于事件相機(jī)的跟蹤不僅能極大降低計(jì)算成本,為高實(shí)時(shí)性能應(yīng)用(如自動(dòng)駕駛汽車(chē)導(dǎo)航)提供潛在的解決方案,還能利用動(dòng)態(tài)DVS事件中包含的補(bǔ)充信息,在時(shí)域中連續(xù)檢測(cè)和輸出運(yùn)動(dòng),捕獲自然界中完整的運(yùn)動(dòng)軌跡.
然而,盡管目前有大量的基于事件相機(jī)的跟蹤算法,但與基于幀的跟蹤算法相比還不夠成熟,因此,基于事件的跟蹤在跟蹤領(lǐng)域中還有很大的研究空間,以后的研究方向可以從以下幾個(gè)方面進(jìn)行展開(kāi):
1)僅使用二進(jìn)制事件流的跟蹤會(huì)在復(fù)雜的場(chǎng)景中受到限制,基于事件和幀的跟蹤算法會(huì)受到相機(jī)延遲、高動(dòng)態(tài)范圍和運(yùn)動(dòng)模糊的影響.因此,如何有效處理事件流信息并減少噪聲事件以足夠完成視覺(jué)跟蹤任務(wù)為后續(xù)研究提供了很大的潛力.
2)在現(xiàn)有的大多數(shù)算法中,參數(shù)由跟蹤的目標(biāo)在實(shí)驗(yàn)中被定義,因此自適應(yīng)調(diào)整參數(shù)以增加跟蹤器的操作范圍為這一研究后續(xù)發(fā)展提供了方向,基于學(xué)習(xí)的跟蹤算法也為此提供了廣闊空間.
3)現(xiàn)階段提出的算法缺少有效的評(píng)價(jià)指標(biāo),而且用于評(píng)價(jià)精度的基于幀的真值并不適用于基于事件的跟蹤.另外當(dāng)前基于事件的跟蹤缺少統(tǒng)一的測(cè)試數(shù)據(jù)集,大多數(shù)算法很少在通用數(shù)據(jù)集上進(jìn)行統(tǒng)一評(píng)估以進(jìn)行完整的性能比較,因此建立基準(zhǔn)數(shù)據(jù)集和評(píng)估方法將進(jìn)一步促進(jìn)這一方向的發(fā)展.