方應(yīng)紅, 徐 偉, 樸永杰, 馮汝鵬, 鄭亮亮
(1. 中國(guó)科學(xué)院 長(zhǎng)春光學(xué)精密機(jī)械與物理研究所,吉林 長(zhǎng)春 130033; 2. 中國(guó)科學(xué)院大學(xué),北京 100049)
如今相機(jī)已經(jīng)廣泛地應(yīng)用在工業(yè)、商業(yè)、軍事、科研試驗(yàn)、太空探索、日常生活等領(lǐng)域。傳統(tǒng)相機(jī)使用一種基于幀的視覺(jué)傳感器,它通過(guò)預(yù)置一定的曝光時(shí)間,來(lái)逐幀獲取場(chǎng)景信息。這種基于幀的視覺(jué)傳感器有幾個(gè)不足:第一,無(wú)法得到曝光時(shí)間內(nèi)場(chǎng)景的變化信息,使得其在有快速運(yùn)動(dòng)的場(chǎng)景中應(yīng)用受限;第二,由于每次曝光得到的圖像包含場(chǎng)景所有內(nèi)容,在研究運(yùn)動(dòng)物體時(shí),那些沒(méi)有變化的像素會(huì)產(chǎn)生較大的信息冗余,這會(huì)增加傳輸帶寬、功耗、存儲(chǔ)容量和信息處理的負(fù)擔(dān);第三,由于傳統(tǒng)相機(jī)需要獲取場(chǎng)景的絕對(duì)灰度值,當(dāng)場(chǎng)景的光照強(qiáng)度過(guò)高或者過(guò)低時(shí),傳統(tǒng)相機(jī)會(huì)出現(xiàn)過(guò)曝光或者欠曝光的情況[1]。
早在20世紀(jì)初,研究者們就致力于生物學(xué)視覺(jué)傳感器的研究。研究發(fā)現(xiàn),人眼獲取的場(chǎng)景信息是異步地輸出給大腦神經(jīng)網(wǎng)絡(luò)的,而且人眼對(duì)發(fā)生運(yùn)動(dòng)的物體有著更強(qiáng)的關(guān)注力?;谶@些生物學(xué)現(xiàn)象,一種基于事件的視覺(jué)傳感器逐漸發(fā)展起來(lái)[2-3]。這種基于事件的視覺(jué)傳感器(將使用這種傳感器的相機(jī)稱(chēng)為事件相機(jī))與基于幀的視覺(jué)傳感器(將使用這種傳感器的相機(jī)稱(chēng)為傳統(tǒng)相機(jī))有著本質(zhì)的區(qū)別:事件相機(jī)的每個(gè)像素獨(dú)立檢測(cè)光照強(qiáng)度對(duì)數(shù)的變化,并當(dāng)變化量達(dá)到一定閾值時(shí),輸出一個(gè)包含時(shí)間、位置、極性信息的事件。傳感器中所有像素同時(shí)異步地檢測(cè)光強(qiáng)對(duì)數(shù)變化情況并輸出事件信息,形成了異步事件流。事件相機(jī)沒(méi)有幀率的限制,而是主動(dòng)檢測(cè)場(chǎng)景中發(fā)生光強(qiáng)變化的位置并輸出變化信息,減少了數(shù)據(jù)量,并擁有很高的動(dòng)態(tài)范圍,這很好地彌補(bǔ)了傳統(tǒng)相機(jī)的不足。
自從基于事件的視覺(jué)傳感器問(wèn)世之后,它低延遲、高時(shí)間分辨力、高動(dòng)態(tài)范圍、低功耗的優(yōu)點(diǎn)吸引了許多研究學(xué)者的興趣,事件相機(jī)的功能和性能也被一步步地改進(jìn)和完善。2008年,事件相機(jī)實(shí)現(xiàn)商業(yè)化,而鑒于可視化的需求,研究者們又開(kāi)發(fā)了既能夠輸出事件又能夠輸出灰度信息的事件相機(jī),這使得事件相機(jī)在一些應(yīng)用場(chǎng)景,已經(jīng)能夠比肩傳統(tǒng)相機(jī)。
基于事件的傳感器的發(fā)展是受到生物學(xué)的啟發(fā),最初是以硅視網(wǎng)膜[3]的形式被少量研究者采用。在20世紀(jì)80年代末,加州理工學(xué)院的Carver Mead引入了“神經(jīng)形態(tài)”的概念來(lái)描述包含模擬和異步數(shù)字電子電路的系統(tǒng),這一概念徹底改變了計(jì)算和神經(jīng)生物學(xué)的前沿,引出了一門(mén)新的工程學(xué)科,其目標(biāo)是設(shè)計(jì)和構(gòu)建人工神經(jīng)系統(tǒng),如視覺(jué)系統(tǒng)、聽(tīng)覺(jué)處理器或自主漫游機(jī)器人,該領(lǐng)域被稱(chēng)為神經(jīng)形態(tài)工程學(xué)[4-7]。神經(jīng)形態(tài)工程學(xué)的發(fā)展促進(jìn)了一種新型的生物啟發(fā)的視覺(jué)傳感器的開(kāi)發(fā)和實(shí)現(xiàn)。這種傳感器中像素自主工作,通過(guò)產(chǎn)生異步數(shù)字脈沖(“尖峰”事件)響應(yīng)光照強(qiáng)度的變化。這些脈沖通過(guò)異步仲裁數(shù)據(jù)總線(地址事件表示,AER[8-10])觸發(fā)包含相應(yīng)像素陣列地址的數(shù)據(jù)包傳輸。2006年,Lichtsteiner等人提出了一個(gè)128×128的異步時(shí)間對(duì)比視覺(jué)傳感器[11]。2008年,Posch等人在時(shí)間對(duì)比視覺(jué)傳感器的基礎(chǔ)上,提出了時(shí)間對(duì)比度紅外傳感器[12-13],這意味著動(dòng)態(tài)視覺(jué)傳感器(DVS)的問(wèn)世,標(biāo)志著基于事件的視覺(jué)傳感器的研究進(jìn)入到一個(gè)新的階段,事件相機(jī)開(kāi)始投入商用。
事件相機(jī)在各領(lǐng)域應(yīng)用中的出色表現(xiàn),吸引了一大批研究者,他們的研究又促進(jìn)了事件相機(jī)的快速發(fā)展。由于DVS能夠輸出的場(chǎng)景數(shù)據(jù)太少,很難做到可視化,于是對(duì)能夠輸出灰度信息的事件相機(jī)的需求激勵(lì)了新一代事件相機(jī)的問(wèn)世。
Posch等在2011年提出了ATIS,它在DVS的結(jié)構(gòu)上增加了一個(gè)曝光結(jié)構(gòu),讓兩個(gè)光感受器同時(shí)工作,使得在輸出事件信息時(shí)能夠根據(jù)光強(qiáng)變化同步地曝光,得到一些灰度信息。然而ATIS的曝光方式存在一些缺點(diǎn),當(dāng)光強(qiáng)變化較慢時(shí),容易出現(xiàn)曝光異常的情況[14]。Delbruck等在2013年提出了DAVIS,這是一種將傳統(tǒng)APS相機(jī)與事件相機(jī)結(jié)合的產(chǎn)品,通過(guò)利用事件相機(jī)的光感受器來(lái)進(jìn)行同步曝光,可以同時(shí)獲得事件信息和場(chǎng)景灰度信息。這種相機(jī)雖然容易做到可視化,但它的APS部分保留了傳統(tǒng)相機(jī)的缺陷,也沒(méi)有充分利用事件相機(jī)的優(yōu)點(diǎn)[15-16]。Cho等在2014年對(duì)生物視覺(jué)傳感器的發(fā)展與應(yīng)用的綜述中,認(rèn)為在需要快速視覺(jué)反饋的視覺(jué)跟蹤和控制領(lǐng)域,考慮到速度和計(jì)算負(fù)荷,DVS相機(jī)幾乎可以替代傳統(tǒng)的基于幀的相機(jī)。而在與識(shí)別相關(guān)的領(lǐng)域中,DAVIS有著很好的應(yīng)用前景[17]。
硬件的研發(fā)到DAVIS已經(jīng)發(fā)展到了比較成熟的階段,而對(duì)于事件相機(jī)的應(yīng)用算法和數(shù)據(jù)庫(kù)的創(chuàng)建和更新,成了開(kāi)發(fā)事件相機(jī)的主流。目前,比較成熟的算法主要應(yīng)用在跟蹤與監(jiān)測(cè)、模式識(shí)別、SLAM和光流估計(jì)等方面。
截止目前,事件相機(jī)的巨大潛力使之成為一個(gè)熱門(mén)的技術(shù)和話題,許多機(jī)構(gòu)都在致力于事件相機(jī)的開(kāi)發(fā)和研究,較為出色的有法國(guó)Prophesee、瑞士iniVation、新加坡CelePixel、韓國(guó)Samsung等。2017年6月,首屆基于事件的視覺(jué)國(guó)際研討會(huì)在新加坡舉行,這是事件相機(jī)誕生以來(lái)的第一次國(guó)際會(huì)議;2019年6月,在美國(guó)加州長(zhǎng)灘舉行了第二屆國(guó)際研討會(huì),這次研討會(huì)由華為公司贊助,這表明華為也在從事事件相機(jī)領(lǐng)域的研究;2021年6月,舉行了第三屆研討會(huì)。通過(guò)這些會(huì)議,募集到了許多關(guān)于事件相機(jī)的資源,包括在各個(gè)應(yīng)用領(lǐng)域的各種計(jì)算機(jī)算法以及相應(yīng)的數(shù)據(jù)集和模擬器、處理器和硬件平臺(tái)、各國(guó)研究人員的論文等,極大地促進(jìn)了事件相機(jī)的發(fā)展。
目前被廣泛應(yīng)用的事件相機(jī)可大致分成3類(lèi):動(dòng)態(tài)視覺(jué)傳感器(Dynamic Vision Sensor, DVS),基于異步時(shí)間的圖像傳感器(Asynchronous Time-based Image Sensor, ATIS),動(dòng)態(tài)主動(dòng)像素視覺(jué)傳感器(Dynamic and Active Pixel Vision Sensor, DAVIS)[2,18-21]。
DVS是最基本的也是最先發(fā)展的一種事件相機(jī)。它的每個(gè)像素單獨(dú)檢測(cè)環(huán)境中的光照強(qiáng)度,并以光強(qiáng)對(duì)數(shù)的形式進(jìn)行記錄和比較。當(dāng)檢測(cè)到的光照強(qiáng)度的變化達(dá)到一定閾值時(shí),便會(huì)輸出一個(gè)包含時(shí)間、像素所在地址、亮度增加(ON)或減少(OFF)的事件。所有的像素同時(shí)異步地進(jìn)行光強(qiáng)檢測(cè),并異步地持續(xù)輸出這樣的事件,形成了事件流。其電路結(jié)構(gòu)圖如圖1所示。電路由對(duì)數(shù)光感受器(Photoreceptor)、差分電路(Differencing)和兩個(gè)比較器(Comparators)組成。
圖1 DVS像素電路結(jié)構(gòu)[17]Fig.1 Circuit structure of DVS pixel[17]
通常,DVS輸出的事件ek包含該事件發(fā)生的像素地址、時(shí)間和事件的類(lèi)型(極性)。即ek=(xk,tk,pk),其中xk=(xk,yk)T,表示像素地址;tk表示該事件發(fā)生的時(shí)間;pk∈{+1,-1}表示事件的極性,pk=+1為變亮事件,pk=-1為變暗事件。規(guī)定像素xk在tk時(shí)刻的光強(qiáng)對(duì)數(shù)表示為:
L(xk,tk)=log(I(xk,tk)),
(1)
其中I表示光照強(qiáng)度。事件ek被激發(fā),意味著像素xk上的光強(qiáng)對(duì)數(shù)與該像素上一次激發(fā)事件時(shí)的光強(qiáng)對(duì)數(shù)之差,達(dá)到了預(yù)先設(shè)置的閾值±C,即:
ΔL(xk,tk)=pkC,
(2)
其中:
ΔL(xk,tk)=L(xk,tk)-L(xk,tk-Δtk),
(3)
Δtk表示從像素xk上次激發(fā)事件開(kāi)始經(jīng)過(guò)的時(shí)間。
上述的事件生成模型,是在沒(méi)有噪聲的理想情況下建立的。實(shí)際上,任何相機(jī)都會(huì)受到來(lái)自感光器的外部及內(nèi)部電路引起的噪聲的影響,DVS也不例外。通過(guò)設(shè)置閾值C的大小,可以調(diào)節(jié)DVS對(duì)噪聲的敏感度:閾值C越大,DVS對(duì)噪聲越不敏感,但是DVS捕捉到的事件也會(huì)相應(yīng)地減少。閾值C越小,DVS捕捉到的事件越多,但信噪比會(huì)嚴(yán)重降低。
像素上亮度的變化可以由場(chǎng)景亮度的改變、場(chǎng)景中的物體或相機(jī)自身發(fā)生了移動(dòng)造成。并且,當(dāng)場(chǎng)景亮度變化越快、場(chǎng)景中的物體或相機(jī)自身移動(dòng)越快時(shí),單位時(shí)間內(nèi)DVS產(chǎn)生的事件就越多。根據(jù)硬件和設(shè)計(jì)的不同,DVS輸出速率可高達(dá)300 Meps(events persecond,eps),延遲可低至3 μs,動(dòng)態(tài)范圍可達(dá)130 dB。這樣的特性讓DVS在捕捉高速運(yùn)動(dòng)的物體、應(yīng)對(duì)高動(dòng)態(tài)范圍的光照環(huán)境、低延遲控制等應(yīng)用上有著巨大的優(yōu)勢(shì)。
單純的DVS輸出的事件,只提供了事件的像素地址、時(shí)間和極性,然而這些信息無(wú)法滿足對(duì)可視化的需求,給后期數(shù)據(jù)處理帶來(lái)了很大的困擾。能夠在提供事件信息的同時(shí)還能提供一定灰度信息的需求,促使了ATIS的誕生。ATIS像素結(jié)構(gòu)[14]分成兩個(gè)部分(A和B),包含兩個(gè)感光器,如圖2所示。
(a) A部分(a) Part A
(b) B部分(b) Part B圖2 ATIS像素電路結(jié)構(gòu)[14]Fig.2 Circuit structure of ATIS pixel[14]
A部分包含完整的DVS像素結(jié)構(gòu),它可以檢測(cè)光強(qiáng)的變化并激發(fā)相應(yīng)的事件;與此同時(shí),B部分包含的感光器檢測(cè)光照強(qiáng)度的變化并進(jìn)行曝光。ATIS像素中B部分的曝光方式與傳統(tǒng)APS相機(jī)的曝光方式不同。傳統(tǒng)相機(jī)的曝光方式是預(yù)置曝光時(shí)間,通過(guò)測(cè)定曝光后電容兩端電壓的大小來(lái)確定像素的灰度值。因此,光照強(qiáng)度越大、電壓差值越大,像素的灰度值越大。而ATIS像素中的B部分采用一種基于時(shí)間的曝光方式:在A子像素激發(fā)事件的同時(shí),B子像素內(nèi)的一個(gè)電容被重置為高電平,隨著B(niǎo)子像素持續(xù)受到光照,電容兩端的電壓下降,其兩端電壓從高電平下降到低電平所需的時(shí)間決定了該像素的灰度值。電壓下降時(shí)間越短,說(shuō)明該像素上光照強(qiáng)度越強(qiáng),灰度值越高;下降時(shí)間越長(zhǎng),則說(shuō)明灰度值越低。像素的灰度信息是以獨(dú)立的事件流的形式輸出的。
這種由事件觸發(fā)的基于時(shí)間的曝光方式,使得ATIS相機(jī)在高動(dòng)態(tài)范圍的場(chǎng)景下也能獲得較好的灰度信息(傳統(tǒng)APS相機(jī)容易過(guò)曝或欠曝),并且只有產(chǎn)生事件的像素會(huì)輸出灰度信息,主要的輸出是場(chǎng)景中物體的邊緣像素的灰度信息,減少了信息的時(shí)間冗余和空間冗余。然而ATIS相機(jī)也有一定的缺陷:在亮度過(guò)低的情況下曝光時(shí)間過(guò)長(zhǎng),當(dāng)曝光時(shí)間超過(guò)下一次事件觸發(fā)的時(shí)間,電容會(huì)被強(qiáng)行重置導(dǎo)致曝光異常終止,從而導(dǎo)致信息丟失。
DAVIS相機(jī)將DVS相機(jī)和傳統(tǒng)的APS(有源像素傳感器)相機(jī)結(jié)合起來(lái),能夠同時(shí)輸出場(chǎng)景事件和灰度信息。圖3為其電路結(jié)構(gòu)圖。
圖3 DAVIS像素電路結(jié)構(gòu)[17]Fig.3 Circuit structure of DAVIS pixel[17]
DAVIS的像素結(jié)構(gòu)[17]也分成兩個(gè)部分:APS和DVS。其中DVS檢測(cè)光強(qiáng)的變化并輸出異步的事件流信息,與此同時(shí),APS進(jìn)行同步曝光獲得場(chǎng)景的灰度信息。與ATIS不同的是,DAVIS的兩個(gè)部分共用一個(gè)感光器,這使得在體積上比ATIS小很多。通過(guò)DAVIS獲取的灰度圖像,與通過(guò)傳統(tǒng)APS相機(jī)獲取的灰度圖像一樣,包含那些光強(qiáng)變化較小或沒(méi)有變化的像素,具有時(shí)間冗余性和空間冗余性,并且APS部分無(wú)法承受高動(dòng)態(tài)范圍的環(huán)境。
根據(jù)原理上的差異,表1中列出了這3種事件相機(jī)的特點(diǎn)和它們的一般用途。
表1 3種事件相機(jī)特點(diǎn)和用途的比較
從上述事件相機(jī)的原理能夠發(fā)現(xiàn),相比于傳統(tǒng)攝像機(jī),事件相機(jī)有著高動(dòng)態(tài)范圍、低延遲、高時(shí)間分辨率、能耗低的優(yōu)點(diǎn),非常適合應(yīng)用于高速運(yùn)動(dòng)的追蹤和高動(dòng)態(tài)范圍的目標(biāo)識(shí)別等場(chǎng)景。然而,作為一種新型的相機(jī),事件相機(jī)有著和傳統(tǒng)相機(jī)不同的輸出信息,這就帶來(lái)了算法和數(shù)據(jù)處理等方面的挑戰(zhàn)[22]。
(1)數(shù)據(jù)的處理:事件相機(jī)輸出的事件僅包含少量與場(chǎng)景有關(guān)的信息(亮度的變化和位置),目前僅利用這些信息去還原場(chǎng)景或者提取場(chǎng)景中感興趣的對(duì)象仍很困難,仍然需要獲得足夠多的灰度信息來(lái)支撐,但在未來(lái)的應(yīng)用研究中,這些事件信息是否能足夠完成視覺(jué)任務(wù)仍有待研究。
(2)算法的更新:當(dāng)前計(jì)算機(jī)視覺(jué)算法大多是基于圖像幀,這些算法并不適用于事件相機(jī),因此需要開(kāi)發(fā)出新的適用于事件相機(jī)的各種應(yīng)用算法,創(chuàng)建適用于事件相機(jī)的數(shù)據(jù)集和評(píng)價(jià)體系。
(3)噪聲:由于事件相機(jī)是從像素的層面上進(jìn)行事件輸出,加上電路中差分電路的影響,使得噪聲對(duì)事件相機(jī)的輸出有較大的影響,如何設(shè)計(jì)算法能夠從輸出信息中濾除噪聲而保留有用信息是一個(gè)亟需解決的問(wèn)題。
圖4 事件相機(jī)的應(yīng)用Fig.4 Application of event-based camera
相比于事件相機(jī),人們對(duì)傳統(tǒng)相機(jī)的應(yīng)用已經(jīng)相當(dāng)充分,傳統(tǒng)相機(jī)能夠提供足夠多的目標(biāo)信息特征,這使得其在視覺(jué)傳感器的地位很難被動(dòng)搖。然而傳統(tǒng)相機(jī)存在的缺陷限制了一些特殊場(chǎng)合的應(yīng)用,事件相機(jī)的獨(dú)特性能可以為這些難題提供新的解決方案。針對(duì)事件相機(jī)的特點(diǎn),在一些與之契合的視覺(jué)應(yīng)用領(lǐng)域,比如快速運(yùn)動(dòng)的跟蹤與監(jiān)測(cè)、小數(shù)據(jù)量的目標(biāo)識(shí)別、即時(shí)定位與地圖構(gòu)建(SLAM),已經(jīng)有了較大的突破。下面介紹一些應(yīng)用事件相機(jī)的研究,這些研究在應(yīng)用事件相機(jī)的同時(shí)也在不斷為事件相機(jī)的發(fā)展提供助力。圖4對(duì)事件相機(jī)的應(yīng)用進(jìn)行了羅列。
跟蹤與監(jiān)測(cè)是指使用視覺(jué)傳感器來(lái)監(jiān)測(cè)和定位場(chǎng)景中我們感興趣的目標(biāo),我們希望這種監(jiān)測(cè)能夠不間斷,定位能夠足夠精準(zhǔn)。相比于傳統(tǒng)相機(jī),事件相機(jī)低延遲、高動(dòng)態(tài)范圍的優(yōu)勢(shì)使得它在目標(biāo)跟蹤領(lǐng)域有著很好的應(yīng)用前景。
早期用事件相機(jī)進(jìn)行跟蹤只是單純地跟蹤對(duì)象,而且其背景還需要相對(duì)簡(jiǎn)單。Ramesh等提出了一種用于事件攝像機(jī)的長(zhǎng)期目標(biāo)跟蹤算法,跟蹤框架通過(guò)在線學(xué)習(xí)來(lái)對(duì)對(duì)象使用區(qū)別性表示,并在對(duì)象返回視野時(shí)檢測(cè)和重新跟蹤對(duì)象。其中一個(gè)關(guān)鍵的創(chuàng)新是使用了基于事件的本地滑動(dòng)窗口技術(shù),該技術(shù)在背景混亂和有紋理的場(chǎng)景中表現(xiàn)可靠[22]。
Tedaldi等提出利用DAVIS提供的幀和事件數(shù)據(jù)來(lái)檢測(cè)和跟蹤視覺(jué)特征。首先在灰度幀中檢測(cè)特征,然后使用事件流在幀之間的盲時(shí)間中異步跟蹤特征。他們還提出了一種基于事件的算法,使用迭代的幾何配準(zhǔn)方法來(lái)跟蹤特征,并且用DAVIS獲得的真實(shí)數(shù)據(jù)評(píng)估了該方法的有效性[23]。
Mitrokhin等認(rèn)為現(xiàn)代基于事件的視覺(jué)傳感器空間分辨率極低,會(huì)產(chǎn)生大量噪聲。針對(duì)這個(gè)問(wèn)題,他們提出了一種新穎的事件流表示方式,它能夠利用事件流的動(dòng)態(tài)(時(shí)間)成分的信息。他們還基于此方式,提出了一種異步攝像機(jī)目標(biāo)跟蹤方法,用參數(shù)模型來(lái)近似事件流的3D幾何形狀,從而對(duì)攝像機(jī)進(jìn)行運(yùn)動(dòng)補(bǔ)償,然后在迭代過(guò)程中檢測(cè)不符合模型的運(yùn)動(dòng)對(duì)象,來(lái)獲得目標(biāo)的運(yùn)動(dòng)從而實(shí)現(xiàn)跟蹤。在實(shí)驗(yàn)中,根據(jù)可能出現(xiàn)的場(chǎng)景的性質(zhì),將記錄分成5個(gè)序列,然后以成功率的形式定義評(píng)估指標(biāo),對(duì)來(lái)自DAVIS傳感器的RGB幀對(duì)應(yīng)的每個(gè)時(shí)間片計(jì)算單獨(dú)的成功率,作為與RGB幀中可見(jiàn)的物體重疊至少50%的被檢測(cè)物體的百分比。序列得分的平均值見(jiàn)表2,可見(jiàn)該方法有一定的可行性[24]。
表2 數(shù)據(jù)集上傳遞途徑的評(píng)估[24]Tab.2 Evaluation of the pipeline on the proposed dataset
Boettiger等將事件相機(jī)與傳統(tǒng)相機(jī)就高動(dòng)態(tài)范圍檢測(cè)和快速跟蹤能力進(jìn)行了實(shí)驗(yàn)對(duì)比,得出事件相機(jī)雖然存在很大優(yōu)勢(shì),但仍然被長(zhǎng)時(shí)間的數(shù)據(jù)處理所限制。他們提出了一種將基于幀和基于事件的傳感器相結(jié)合的處理方法——“偽幀(Pseudo-frames)”。他們通過(guò)實(shí)驗(yàn)證明“偽幀”的處理效果是最好的,但“偽幀”沒(méi)有真正充分利用事件相機(jī)低功耗、低數(shù)據(jù)、高速和高動(dòng)態(tài)范圍的特性,這表明在檢測(cè)和跟蹤領(lǐng)域,仍存在較大的研究空間[25]。
事件相機(jī)還能用于微觀粒子跟蹤與測(cè)速方面。Wang等提出了一種新的算法框架(圖5),它是一種使用一對(duì)事件相機(jī)來(lái)檢索流體速度場(chǎng)的密集3D測(cè)量。首先,跟蹤兩個(gè)事件序列內(nèi)的粒子以估計(jì)它們?cè)趦蓚€(gè)圖像序列中的2D速度;然后,執(zhí)行立體匹配步驟來(lái)檢索它們的3D位置。這些中間輸出被合并到一個(gè)優(yōu)化框架中,該框架還包括物理上的正則化,以便檢索3D速度場(chǎng)[26]。
圖5 立體事件PTV框架的架構(gòu)概述。兩個(gè)事件攝像機(jī)捕捉流體內(nèi)部粒子的運(yùn)動(dòng)。它們產(chǎn)生兩個(gè)事件序列,這里用x-y-t空間表示。2D跟蹤步驟為每個(gè)序列提供捕獲粒子的2D速度。然后使用立體匹配步驟建立一個(gè)稀疏的三維速度場(chǎng),用來(lái)估計(jì)密集的三維流體流動(dòng)[26]。Fig.5 Overview of the architecture of our stereo-event PTV framework. The two event cameras capture the motion of the particles inside the fluid. They generate two sequence of events, represented here in the x-y-t space. A 2D tracking step provide the 2D velocity of the captured particles for each sequence. Then, using a stereo matching step we build a sparse 3D velocity field in order to estimate the dense 3D fluid flow.
目標(biāo)識(shí)別是指根據(jù)傳感器收集到的視覺(jué)信息,從中提取感興趣的特征信息,根據(jù)這些特征信息來(lái)判斷該信息的種類(lèi)或內(nèi)容。目前比較流行的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的目標(biāo)識(shí)別都是以基于幀的圖像信息為輸入內(nèi)容。然而,圖像信息中真正有用的信息占比很小,也就是說(shuō)信息冗余量較大,這減慢了數(shù)據(jù)處理過(guò)程。事件相機(jī)輸出的事件流信息和一些變化的邊緣灰度信息(ATIS)已經(jīng)足夠用來(lái)進(jìn)行一些簡(jiǎn)單的目標(biāo)識(shí)別,開(kāi)發(fā)出一種基于事件的目標(biāo)識(shí)別的算法,可以提高在一些簡(jiǎn)單的場(chǎng)合的識(shí)別速率。
Damien等將深度學(xué)習(xí)算法與基于事件的數(shù)據(jù)集成到人工框架中的研究中,通過(guò)實(shí)驗(yàn)發(fā)現(xiàn),灰度圖像中可能只有35%的信息可能會(huì)在訓(xùn)練中被用到,而通過(guò)事件相機(jī)得到的數(shù)據(jù)信息所達(dá)到的效果和這35%的信息幾乎一致,這表明傳統(tǒng)相機(jī)存在大量的數(shù)據(jù)冗余,而事件相機(jī)擁有巨大優(yōu)勢(shì)[27]。
在目標(biāo)識(shí)別和檢測(cè)過(guò)程中,為了追求精度,很多基于事件的視覺(jué)算法在很大程度上依賴于使用深度神經(jīng)網(wǎng)絡(luò)同步批量處理事件,然而,這種方式丟棄了事件數(shù)據(jù)的稀疏性和異步性。Messikommer等提出了一個(gè)通用框架,用于將基于同步圖像類(lèi)事件表示的模型轉(zhuǎn)換為具有相同輸出的異步模型,從而直接利用事件數(shù)據(jù)的內(nèi)在異步和稀疏特性,大幅降低了高容量同步神經(jīng)網(wǎng)絡(luò)的計(jì)算復(fù)雜性和延遲,而不犧牲精度[28]。
針對(duì)當(dāng)時(shí)事件相機(jī)空間分辨率較低、缺乏大規(guī)模的訓(xùn)練數(shù)據(jù)集、缺乏完善的基于事件處理的深度學(xué)習(xí)架構(gòu)等問(wèn)題,Perot等公開(kāi)發(fā)布了第一個(gè)用于對(duì)象檢測(cè)的高分辨率大規(guī)模數(shù)據(jù)集。另外,他們還引入了一種新的基于事件檢測(cè)的遞歸體系結(jié)構(gòu)和一種訓(xùn)練性能更好的時(shí)間一致性損失。值得注意的是,他們提出的方法不需要從事件重建任何強(qiáng)度圖像,可以直接從原始事件信息來(lái)訓(xùn)練,這比通過(guò)中間強(qiáng)度圖像更有效、更準(zhǔn)確。從表3的數(shù)據(jù)中可以看到,他們提出的方法在1 M像素?cái)?shù)據(jù)集上達(dá)到了與Gray-Retainet相同的平均精度均值(mAP),這說(shuō)明他們的事件相機(jī)檢測(cè)器具有與常用幀相機(jī)檢測(cè)器相當(dāng)?shù)木?。然而,這種方法仍然需要密集的事件表示,這意味著丟棄了事件信息的稀疏性[29]。
表3 兩個(gè)汽車(chē)檢測(cè)數(shù)據(jù)集的評(píng)價(jià)[29]
Wang等為了處理事件攝像機(jī)的獨(dú)特輸出,將事件流視為一組三維時(shí)空點(diǎn),即時(shí)空事件云。他們使用PointNet神經(jīng)網(wǎng)絡(luò)架構(gòu)來(lái)分析事件云和進(jìn)行手勢(shì)識(shí)別的訓(xùn)練,通過(guò)實(shí)驗(yàn)證明該方法的識(shí)別率高達(dá)97.08%,從而證明了他們提出的事件云概念是一種對(duì)事件流的有效表示[30]。
即時(shí)定位與地圖構(gòu)建(SLAM)是指通過(guò)移動(dòng)來(lái)獲取位置信息進(jìn)行自身定位并據(jù)此來(lái)構(gòu)建增量式地圖,從而實(shí)現(xiàn)自主定位和導(dǎo)航,主要用于機(jī)器人、無(wú)人機(jī)等領(lǐng)域。
Monforte等在研究機(jī)器人的軌跡預(yù)測(cè)時(shí),使用事件攝像機(jī)來(lái)檢測(cè)快速移動(dòng)的目標(biāo),他們使用基于長(zhǎng)短期記憶(LSTM)架構(gòu)的機(jī)器學(xué)習(xí)的方法來(lái)獲取高度非線性的軌跡,研究了LSTM模型如何適應(yīng)事件相機(jī)數(shù)據(jù),并通過(guò)實(shí)驗(yàn)分析證明,異步空間采樣優(yōu)于固定速率采樣,LSTM與事件攝像機(jī)相結(jié)合,是一種有前途的學(xué)習(xí)方法[31]。
Zhu等提出了一種基于事件的視覺(jué)慣性里程計(jì)算法,根據(jù)從里程計(jì)濾波器獲得的流量和旋轉(zhuǎn)估計(jì),產(chǎn)生魯棒的特征軌跡,再將特征軌跡與慣性測(cè)量單元的輸出融合,來(lái)獲得全6自由度姿態(tài)的精確度量跟蹤。通過(guò)數(shù)據(jù)集測(cè)試,他們得出,與基于圖像的技術(shù)相比,基于事件的特征跟蹤通常能夠在更長(zhǎng)的時(shí)間內(nèi)跟蹤更多的特征[32]。
為了獲得更敏捷的機(jī)器人,Censi等人提出了一種使用DVS和能主動(dòng)高頻(大于1 000 Hz)閃爍的發(fā)光二極管標(biāo)記器(ALMs)進(jìn)行低延遲姿態(tài)跟蹤的方法。DVS可以檢測(cè)不同頻率的閃爍進(jìn)行身份標(biāo)記,然后將不同的標(biāo)記放到一個(gè)“身份地圖”中獲得不同的姿態(tài)信息。他們的算法丟失追蹤時(shí)間平均為(0.35±0.10) s,而PTAM丟失追蹤的時(shí)間平均為(0.80±0.33) s,比翻轉(zhuǎn)一次的時(shí)間(0.56±0.15 s)還要長(zhǎng)。實(shí)驗(yàn)表明,一旦發(fā)光二極管再次閃爍,DVS能夠以可忽略的延遲重新獲得穩(wěn)定的跟蹤,而不會(huì)遭受運(yùn)動(dòng)模糊的影響,DVS在恢復(fù)軌跡丟失方面比PTAM方法更快。他們預(yù)測(cè)這項(xiàng)技術(shù)是實(shí)現(xiàn)飛行機(jī)器人高度自主機(jī)動(dòng)的最有前途的候選技術(shù)[33]。
除此之外,還有許多研究人員在原來(lái)的基礎(chǔ)上開(kāi)發(fā)新的效率更高的傳感器和算法。其中Jing等提出了一個(gè)具有像素渲染機(jī)制和評(píng)估異步絕對(duì)強(qiáng)度能力的光流運(yùn)動(dòng)傳感器和一種事件驅(qū)動(dòng)跟蹤算法,以實(shí)現(xiàn)高精度和實(shí)時(shí)性的跟蹤和光流應(yīng)用。與ATIS和DAVIS相比,其設(shè)計(jì)的傳感器沒(méi)有曝光時(shí)間,有助于高速物體的快速響應(yīng)成像。除了檢測(cè)照明變化之外,他所提出的運(yùn)動(dòng)傳感器中的像素是互連的,并且通過(guò)像素渲染模塊相互傳遞事件狀態(tài)。每個(gè)活動(dòng)像素及其4個(gè)相鄰像素報(bào)告灰度事件,以在梯度提取中提供足夠的數(shù)據(jù),可以從根本上解決現(xiàn)有事件驅(qū)動(dòng)的由事件稀疏性和事件強(qiáng)度缺乏引起的光流估計(jì)的準(zhǔn)確性問(wèn)題。其提出的算法利用在線自適應(yīng)搜索區(qū)域來(lái)實(shí)現(xiàn)更精確的定位,運(yùn)動(dòng)傳感器生成的事件包的灰度級(jí)強(qiáng)度被用來(lái)重建附加樣本并隨時(shí)間更新跟蹤器模型。這種跟蹤系統(tǒng)在跟蹤靜態(tài)背景下的單個(gè)或多個(gè)運(yùn)動(dòng)目標(biāo)時(shí)具有優(yōu)越的性能。然而,當(dāng)背景和前景目標(biāo)同時(shí)移動(dòng)時(shí),這種用于自適應(yīng)搜索區(qū)域的事件引導(dǎo)方法將不適用[34]。
事件相機(jī)有著非常突出的優(yōu)點(diǎn):低延遲、高時(shí)間分辨力、高動(dòng)態(tài)范圍、低功耗。然而在不同的應(yīng)用領(lǐng)域,又有不同的缺陷阻礙著它的發(fā)展:在目標(biāo)跟蹤與監(jiān)測(cè)領(lǐng)域,相機(jī)本身的運(yùn)動(dòng)和場(chǎng)景迅速變化,使得事件生成速率大大提高,特別是高速運(yùn)動(dòng)的物體,這給數(shù)據(jù)處理帶來(lái)了巨大的壓力,容易造成數(shù)據(jù)混亂和數(shù)據(jù)缺失;在目標(biāo)識(shí)別領(lǐng)域,獲取特征往往需要目標(biāo)的灰度信息甚至彩色信息,對(duì)可視化的要求較高,而事件相機(jī)輸出的事件包能保留的信息太少,無(wú)法做到可視化,盡管DAVIS能夠獲得一定的灰度信息,但它還是會(huì)受到傳統(tǒng)相機(jī)缺點(diǎn)的影響,設(shè)計(jì)出一款能夠?qū)⑹录突叶刃畔⒔Y(jié)合而不受到傳統(tǒng)相機(jī)限制的傳感器仍是一個(gè)困難的工作;在機(jī)器人、無(wú)人駕駛等領(lǐng)域,需要很好的可靠性,還需要強(qiáng)大的控制和處理能力,事件相機(jī)的輸出數(shù)據(jù)的形式使之應(yīng)用很受限制,復(fù)雜的場(chǎng)景的快速變化會(huì)輸出大量事件,如何從這些事件中提取出有用的信息并加以控制和決策,是這個(gè)領(lǐng)域亟需解決的問(wèn)題;噪聲的處理是事件相機(jī)非常重要的一個(gè)問(wèn)題,由于事件的輸出形式的特性和差分器的作用,使事件相機(jī)的噪聲的影響很大,這是限制事件相機(jī)發(fā)展的一個(gè)重要因素。
在諸多應(yīng)用中,事件相機(jī)低帶寬通信、低重量、低功率和高速的特點(diǎn),使其充分滿足航空航天領(lǐng)域?qū)鞲衅鞯目量桃?。目前,事件相機(jī)在航空航天領(lǐng)域的研究仍較少,顯然,在這方面事件相機(jī)還有很大的發(fā)展?jié)摿?。如果將事件相機(jī)應(yīng)用在導(dǎo)彈、航天飛機(jī)、超快速戰(zhàn)斗機(jī)、海上軍艦等軍事目標(biāo)的追蹤上,由于這些目標(biāo)有著顯著的外觀特征,而且它們的運(yùn)動(dòng)速度一般很快,或許可以獲得比傳統(tǒng)遙感相機(jī)更好的效果。另外,將事件相機(jī)應(yīng)用于天基空間態(tài)勢(shì)感知,也為監(jiān)測(cè)衛(wèi)星和星體提供了新的解決方案。未來(lái),在航空航天和軍事領(lǐng)域上,事件相機(jī)也將會(huì)有更加迅猛的發(fā)展。