劉熠晨,余磊,余淮,楊文
武漢大學(xué)電子信息學(xué)院,武漢 430072
視覺場(chǎng)景識(shí)別(visual place recognition,VPR)算法(Lowry 等,2016)是視覺同步定位與建圖(visual simultaneous localization and mapping,VSLAM)算法(Saputra 等,2018)中閉環(huán)檢測(cè)模塊的重要組成部分,是移動(dòng)機(jī)器人與AR/VR(augmented reality/virtual reality)等領(lǐng)域的關(guān)鍵算法,對(duì)于消除視覺里程計(jì)算法的累積誤差、維持位姿估計(jì)與建圖的全局一致性以及無GPS(global positioning system)環(huán)境下的快速重定位具有重要作用(Campos 等,2021)。
傳統(tǒng)視覺場(chǎng)景識(shí)別算法通過對(duì)光學(xué)相機(jī)圖像進(jìn)行圖像匹配以實(shí)現(xiàn)場(chǎng)景識(shí)別。圖像匹配通常分為以下幾個(gè)步驟:首先通過SIFT(scale-invariant feature transform)(Ng 和Henikoff,2003)與ORB(oriented fast and rotated brief)(Rublee 等,2011)等人工設(shè)計(jì)的算子提取圖像的局部特征,再通過BoW(bag of words)(Galvez-López 和Tardos,2012)及VLAD(vector of locally aggregated descriptors)(Jegou 等,2010)等局部描述符聚合方法獲得圖像的全局特征,并根據(jù)全局特征在向量空間的相似度進(jìn)行匹配。隨著深度學(xué)習(xí)的興起,卷積神經(jīng)網(wǎng)絡(luò)作為可訓(xùn)練的多通道特征提取器替代了傳統(tǒng)的人工設(shè)計(jì)的局部特征提取器。對(duì)于局部特征的聚合,DenseVLAD(Torii 等,2015)和NetVLAD(Arandjelovic 等,2016)使用神經(jīng)網(wǎng)絡(luò)重構(gòu)了VLAD 計(jì)算過程,首先通過卷積神經(jīng)網(wǎng)絡(luò)提取圖像的多通道特征,然后通過聚合網(wǎng)絡(luò)將多通道特征聚合為全局描述符向量作為圖像的表示。圖像的檢索與匹配方法中,SeqSLAM(Milford 和Wyeth,2012)通過短序列搜索提高了場(chǎng)景識(shí)別性能。然而,光學(xué)相機(jī)存在時(shí)間分辨率較低、動(dòng)態(tài)范圍較小的問題:1)高速運(yùn)動(dòng)場(chǎng)景下,相機(jī)難以連續(xù)捕捉到場(chǎng)景在成像平面中位置的快速變化,導(dǎo)致輸出圖像存在運(yùn)動(dòng)模糊;2)高動(dòng)態(tài)范圍場(chǎng)景下,光學(xué)相機(jī)輸出圖像會(huì)出現(xiàn)欠曝光與過曝光等退化現(xiàn)象。上述問題使得圖像紋理與結(jié)構(gòu)信息缺失,導(dǎo)致傳統(tǒng)視覺場(chǎng)景識(shí)別方法在高速和高動(dòng)態(tài)范圍場(chǎng)景下識(shí)別性能不佳(Lowry等,2016)。
事件相機(jī)是受生物視覺啟發(fā)的一類新型視覺傳感器(Gallego 等,2022)。與光學(xué)相機(jī)曝光一段時(shí)間內(nèi)的像素陣列圖像不同,事件相機(jī)感知場(chǎng)景亮度的變化,各像素輸出異步事件數(shù)據(jù),具有低時(shí)延、高動(dòng)態(tài)范圍的特性(Gallego 等,2022)。事件相機(jī)的低時(shí)延(<1 μs)的特性使其能夠避免在高速運(yùn)動(dòng)場(chǎng)景下產(chǎn)生運(yùn)動(dòng)模糊(付婧祎 等,2023),高動(dòng)態(tài)范圍(約130 dB)的特性使其可以捕獲更大的場(chǎng)景亮度范圍信息(余磊 等,2023)。因此,利用事件相機(jī)低時(shí)延與高動(dòng)態(tài)范圍的特性可以有效提升視覺場(chǎng)景識(shí)別算法在高速和高動(dòng)態(tài)范圍場(chǎng)景等極端場(chǎng)景下的性能。Milford等人(2015)首次提出基于事件的視覺場(chǎng)景識(shí)別方法,將事件流在時(shí)間窗口內(nèi)累積計(jì)數(shù)為灰度圖像,并通過基于圖像序列的SeqSLAM 進(jìn)行檢索與匹配。Fischer 和Milford(2020)提出了基于事件重建的視覺場(chǎng)景識(shí)別方法,通過事件重建方法(Rebecq等,2021;Scheerlinck等,2020)對(duì)等時(shí)間間隔劃分的事件進(jìn)行亮度圖像重建,然后再基于重建出的圖像序列完成場(chǎng)景識(shí)別。Lee 和Kim(2021)通過事件信息重建場(chǎng)景邊緣圖像,再利用NetVLAD 進(jìn)行特征生成及匹配,實(shí)現(xiàn)了從事件到事件的視覺場(chǎng)景識(shí)別。Kong 等人(2022)提出了從事件到事件的端到端匹配的視覺場(chǎng)景識(shí)別方法。然而,現(xiàn)有基于事件相機(jī)的視覺場(chǎng)景識(shí)別方法都僅利用事件與事件進(jìn)行同模態(tài)匹配或僅利用事件與參考圖像數(shù)據(jù)庫進(jìn)行跨模態(tài)匹配。而事件具有極低的信噪比,且僅包含稀疏的邊緣特征(Gallego 等,2022),限制了上述方法的場(chǎng)景識(shí)別性能。
綜上,融合圖像與事件的信息,同時(shí)利用事件的低延時(shí)、高動(dòng)態(tài)范圍的性質(zhì)以及圖像豐富的紋理細(xì)節(jié)與亮度信息,可以有效提升視覺場(chǎng)景識(shí)別算法的性能。本文提出了融合事件相機(jī)的視覺場(chǎng)景識(shí)別算法,如圖1 所示。該方法將查詢圖像和其曝光期間內(nèi)的事件信息與參考圖像數(shù)據(jù)庫中的圖像進(jìn)行比較,最終篩選出與查詢圖像場(chǎng)景最相似的參考圖像作為查詢結(jié)果圖像。為了對(duì)不同模態(tài)信息進(jìn)行比較,本文方法首先將參考圖像數(shù)據(jù)庫中質(zhì)量良好的圖像輸入圖像特征提取模塊得到參考圖像特征;然后,將查詢圖像及其曝光時(shí)間區(qū)間內(nèi)的事件信息輸入多模態(tài)特征融合模塊(multimodal feature fusion module,MFF)得到融合特征;最后,通過特征匹配查找與查詢圖像最相似的參考圖像。
圖1 融合事件相機(jī)的視覺場(chǎng)景識(shí)別示意Fig.1 Illustration of VPR with fusion event cameras
本文的主要貢獻(xiàn)如下:1)提出了一種融合事件相機(jī)的視覺場(chǎng)景識(shí)別方法,結(jié)合光學(xué)圖像信息和事件信息的優(yōu)勢(shì),解決了高速、高動(dòng)態(tài)范圍場(chǎng)景下傳統(tǒng)場(chǎng)景識(shí)別算法識(shí)別性能下降的問題;2)提出了多尺度特征融合模塊,在不同尺度融合了圖像和事件兩種不同模態(tài)的信息,解決了多模態(tài)信息有效融合的問題;3)在不同數(shù)據(jù)集上,對(duì)本文方法與現(xiàn)有視覺場(chǎng)景識(shí)別算法在高速、高動(dòng)態(tài)范圍場(chǎng)景下進(jìn)行了召回率與識(shí)別精度的評(píng)估與比較,驗(yàn)證了提出方法在高速、高動(dòng)態(tài)范圍場(chǎng)景下相對(duì)于現(xiàn)有視覺場(chǎng)景識(shí)別算法具有更好的場(chǎng)景識(shí)別性能。
基于光學(xué)圖像的視覺場(chǎng)景識(shí)別算法通過圖像信息查詢參考圖像數(shù)據(jù)庫,從而獲得與查詢圖像最相似的參考圖像。然而,高速、高動(dòng)態(tài)范圍場(chǎng)景會(huì)導(dǎo)致查詢圖像出現(xiàn)運(yùn)動(dòng)模糊、曝光不足或過曝光現(xiàn)象,進(jìn)而導(dǎo)致這類算法的性能下降?;谑录囊曈X場(chǎng)景識(shí)別算法通過事件信息查詢參考圖像數(shù)據(jù)庫并獲取與查詢事件信息所處場(chǎng)景一致的參考圖像。然而,事件信息缺少場(chǎng)景的光照強(qiáng)度與紋理信息,并且需要場(chǎng)景變化才能夠產(chǎn)生有效的事件,這也限制了這類算法的場(chǎng)景識(shí)別性能。
本文提出融合事件相機(jī)的視覺場(chǎng)景識(shí)別算法解決上述問題。該算法通過光學(xué)圖像B及其曝光時(shí)間區(qū)間T內(nèi)的事件集合ε,從參考圖像數(shù)據(jù)庫J 中檢索與查詢圖像B所對(duì)應(yīng)的場(chǎng)景最匹配的參考圖像Im。由于輸入的查詢信息是多模態(tài)信息,與參考圖像不能直接比較,因此,要對(duì)多模態(tài)查詢信息進(jìn)行有效地融合,并且將多模態(tài)查詢信息與參考圖像信息映射到同一特征空間內(nèi)進(jìn)行比較。
本文方案的網(wǎng)絡(luò)架構(gòu)如圖2 所示。對(duì)于質(zhì)量良好的參考圖像輸入,通過圖像特征提取模塊(image feature enhance module,IFE)提取圖像的特征FI;對(duì)于多模態(tài)查詢信息輸入,首先將事件集合ε通過事件預(yù)處理模塊(event to frame module,EFM)轉(zhuǎn)換為固定張量Tε,然后與查詢圖像B一同輸入多尺度特征融合模塊(multi scale fusion module,MSF)以生成融合特征Fp。參考圖像和查詢圖像的場(chǎng)景越相近,參考圖像特征與查詢信息的融合特征的向量相似度越高,反之越低,從而能夠通過向量相似度檢索與查詢圖像場(chǎng)景最相似的參考圖像。
圖2 提出方案的網(wǎng)絡(luò)架構(gòu)示意Fig.2 Illustration of the architecture of the proposed method
1.2.1 事件預(yù)處理模塊EFM
不同于光學(xué)相機(jī)定時(shí)曝光圖像,事件相機(jī)受外界環(huán)境變化驅(qū)動(dòng),各像素異步且獨(dú)立地根據(jù)該像素捕獲到的亮度變化輸出事件(Gallego 等,2022)。事件相機(jī)在像素位置x處連續(xù)檢測(cè)對(duì)數(shù)域的光強(qiáng)變化,當(dāng)t時(shí)刻的光強(qiáng)相較該像素上一次產(chǎn)生事件的時(shí)刻tref記錄的光強(qiáng)在對(duì)數(shù)域變化超過閾值C(C>0)時(shí),事件相機(jī)在該像素處輸出一個(gè)事件,具體為
式中,I(x,t)與I(x,tref)分別表示t時(shí)刻與tref時(shí)刻在像素x處的瞬時(shí)光強(qiáng),ΔI是兩時(shí)刻光強(qiáng)在對(duì)數(shù)域的變化值。事件的極性p定義為
事件被定義為e={x,t,p},其中,x是事件觸發(fā)的像素坐標(biāo),t是觸發(fā)事件時(shí)對(duì)應(yīng)的時(shí)間戳,極性p∈{-1,+1}反映該像素是變亮(p=+1)還是變暗(p=-1)。
由于事件集合是三元組的集合,與圖像的固定張量表示不同,不利于通過通用卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)對(duì)圖像信息與事件信息進(jìn)行融合。本文方法通過事件預(yù)處理模塊EFM將事件集合ε轉(zhuǎn)換為固定張量Tε以解決該問題。
如圖3 所示,本文將事件集合對(duì)應(yīng)的時(shí)間區(qū)間切片平均為K份以更充分地利用事件的高時(shí)間分辨率特性。切片得到若干個(gè)事件子集合,并按照事件極性分別進(jìn)行事件累積計(jì)數(shù)(Maqueda 等,2018),從而得到2K×H×W的張量。其中,2K表示K份時(shí)間切片兩種不同極性的累積。本文取時(shí)間切片數(shù)K=48,H×W表示事件相機(jī)的空間分辨率。
圖3 事件集合時(shí)間區(qū)間切片示意Fig.3 Illustration of event stream time interval slice
1.2.2 多尺度特征融合模塊MSF
高速、高動(dòng)態(tài)范圍場(chǎng)景下的光學(xué)相機(jī)捕獲的圖像會(huì)產(chǎn)生運(yùn)動(dòng)模糊、欠曝光或過曝光等現(xiàn)象,而利用事件的低時(shí)延與高動(dòng)態(tài)范圍特性能夠?qū)ζ溥M(jìn)行增強(qiáng)。
本文提出多尺度特征融合模塊MSF,在不同尺度對(duì)圖像與事件信息進(jìn)行特征融合,并通過空間通道注意力模塊CBAM(convolutional block attention module)(Woo 等,2018)篩選特征圖中位置和通道兩個(gè)層面上的有效信息,以充分利用事件信息增強(qiáng)圖像特征。
如圖4 所示,圖像B和事件張量Tε輸入到MSF模塊并最終生成融合特征。MSF模塊由Pre-Fusion、Fusion 和Final-Fusion 子模塊組成,在不同尺度對(duì)多模態(tài)的輸入信息進(jìn)行融合并最終得到多模態(tài)融合特征。
圖4 網(wǎng)絡(luò)模塊架構(gòu)與網(wǎng)絡(luò)細(xì)節(jié)示意Fig.4 Schematic diagram of network module architecture and network details
Pre-Fusion 模塊輸入圖像B和事件張量Tε,通過Conv 與DConv 子模塊,分別生成圖像與事件張量特征FB0,F(xiàn)ε0,并將特征連接后通過ResBlock 子模塊生成最初尺度下的融合特征FF0。
Fusion 模塊輸入第n個(gè)尺度下的圖像特征FBn、事件張量特征FEn及融合特征FFn,通過DConv 子模塊生成第n+1 個(gè)尺度下圖像特征FB(n+1)及事件張量特征Fε(n+1),然后將融合特征FFn通過DConv 子模塊后與上述特征一并連接,并通過ResBlock 子模塊生成第n+1個(gè)尺度下的融合特征FF(n+1)。
Final-Fusion 模塊輸入第N個(gè)尺度下的圖像特征FBN、事件張量特征FεN及融合特征FFN,首先將上述特征連接后通過ResBlock子模塊得到初始多尺度融合特征FP0;然后通過CBAM 模塊篩選特征圖位置與通道兩個(gè)層面上的有效信息,得到融合特征圖;最終將特征圖展開為向量并進(jìn)行L2 歸一化得到融合特征向量Fp。
其中,Conv 是步長(zhǎng)為1 的單層卷積層,DConv 是步長(zhǎng)為2 的下采樣卷積層與步長(zhǎng)為1 的卷積層的組合,ResBlock 是含殘差連接的卷積層(He 等,2016)。所有卷積層的卷積核大小為3×3,其后連接的激活函數(shù)為ReLU(rectified linear unit)。
1.2.3 圖像特征提取模塊IFE
圖像特征提取模塊IFE 的目標(biāo)是將參考圖像數(shù)據(jù)庫中質(zhì)量良好的圖像映射到特征向量空間中。
如圖4 所示,圖像特征提取IFE 模塊由Conv、DConv 和ResBlock 子模塊組成。各子模塊與1.2.2節(jié)中的定義一致。通過IFE 模塊可以將輸入?yún)⒖紙D像I通過多尺度卷積映射為特征圖。然后將特征圖展開為向量并進(jìn)行L2 歸一化即得到參考圖像特征向量FI。
1.2.4 網(wǎng)絡(luò)訓(xùn)練方法
本文通過三元組損失(Schroff 等,2015)端到端監(jiān)督多模態(tài)特征融合模塊MFF 和圖像特征提取模塊IFE 的參數(shù)學(xué)習(xí),使得上述兩模塊生成的特征向量的相似度能夠反映其輸入視覺信息的場(chǎng)景相似程度。
如圖5 所示,網(wǎng)絡(luò)訓(xùn)練首先構(gòu)造查詢、正例與負(fù)例三元組。其中,查詢是光學(xué)圖像B及其曝光時(shí)間區(qū)間內(nèi)的事件集合ε,正例Ip是與查詢圖像B場(chǎng)景相似的圖像,負(fù)例In是與查詢圖像B場(chǎng)景不同的圖像。然后,將三元組通過對(duì)應(yīng)的網(wǎng)絡(luò)映射為特征向量Fp,,并通過三元組損失約束各特征向量間的關(guān)系,具體為
圖5 網(wǎng)絡(luò)訓(xùn)練方法示意Fig.5 Schematic diagram of network training method
式中,函數(shù)max 取兩輸入中的較大值,d求輸入兩向量間的L2距離,M是相似度距離常數(shù)。
三元組損失驅(qū)動(dòng)網(wǎng)絡(luò)向查詢特征Fp與正例特征距離(記為正例距離)更小、與負(fù)例特征距離(記為負(fù)例距離)更大的方向?qū)W習(xí),直到負(fù)例距離與正例距離的差值不小于相似度距離常數(shù)M,從而能夠根據(jù)在特征向量空間的相似度區(qū)分與查詢圖像視場(chǎng)相似以及視場(chǎng)不同的參考圖像,并進(jìn)一步完成視覺場(chǎng)景識(shí)別任務(wù)。
2.1.1 實(shí)驗(yàn)數(shù)據(jù)集介紹
實(shí)驗(yàn)數(shù)據(jù)集需要同時(shí)滿足:1)包含質(zhì)量良好的參考圖像集合及其曝光區(qū)間內(nèi)的事件集合;2)包含與參考圖像視場(chǎng)一致的、高速高動(dòng)態(tài)范圍場(chǎng)景下的光學(xué)圖像及其曝光區(qū)間內(nèi)的事件集合。然而目前暫未有滿足上述條件的數(shù)據(jù)集,因此本文通過質(zhì)量良好的參考圖像集合及其曝光區(qū)間內(nèi)的事件集合仿真高速高動(dòng)態(tài)范圍場(chǎng)景下與參考數(shù)據(jù)對(duì)應(yīng)的數(shù)據(jù)。
為了便于仿真數(shù)據(jù)集的構(gòu)造與網(wǎng)絡(luò)訓(xùn)練三元組的構(gòu)造,本文選擇MVSEC(multi vehicle stereo event camera dataset)數(shù)據(jù)集(Zhu 等,2018)和RobotCar 數(shù)據(jù)集(Maddern 等,2017)進(jìn)行實(shí)驗(yàn)。兩數(shù)據(jù)集原始數(shù)據(jù)不存在運(yùn)動(dòng)模糊、曝光適中且記錄的場(chǎng)景是連續(xù)的。
MVSEC 數(shù)據(jù)集使用DAVIS346 事件相機(jī)同時(shí)記錄時(shí)間連續(xù)且時(shí)空對(duì)齊的圖像序列及事件信息,空間分辨率為260×346像素,幀率約為45 幀/s。實(shí)驗(yàn)選擇兩個(gè)圖像質(zhì)量良好且視場(chǎng)不重復(fù)的時(shí)間序列,且兩序列記錄的場(chǎng)景有明顯差異。數(shù)據(jù)集兩序列包含共36 000 幅圖像及其曝光時(shí)間區(qū)間內(nèi)的事件集合。
RobotCar 數(shù)據(jù)集使用光學(xué)相機(jī)記錄時(shí)間連續(xù)且視場(chǎng)不重復(fù)的圖像序列,空間分辨率為960×1 280像素,幀率約為16 幀/s。實(shí)驗(yàn)選擇了圖像質(zhì)量良好的日間陰天序列,首先將其空間分辨率通過雙三次插值下采樣為240×320 像素,然后通過RIFE(realtime intermediate flow estimation)(Huang 等,2022)將圖像時(shí)間分辨率上采樣16 倍并輸入ESIM 事件生成器(Gehrig 等,2020)生成模擬事件流,并添加30%的均勻隨機(jī)分布噪聲(Wang等,2020)模擬真實(shí)場(chǎng)景的事件。最后將序列均分為兩個(gè)視場(chǎng)不重合且有明顯差異的序列,每個(gè)序列包含10 000 幅圖像及其曝光時(shí)間區(qū)間內(nèi)的模擬事件集合。
2.1.2 仿真數(shù)據(jù)集生成
1)高速高動(dòng)態(tài)范圍場(chǎng)景下的圖像生成流程。根據(jù)模糊圖像產(chǎn)生的物理過程仿真模糊圖像,通過將原始圖像Ii前后連續(xù)S幅清晰圖像集合平均得到模糊圖像(Zhang 和Yu,2022),具體為
式中,Iis是Ii前后連續(xù)S幅清晰圖像集合中的第s幅清晰圖像,本文實(shí)驗(yàn)中S=7。
通過動(dòng)態(tài)范圍的裁剪模擬低動(dòng)態(tài)范圍圖像的產(chǎn)生過程(Liu 等,2020)。首先將模糊圖像與變換參數(shù)α相乘完成線性光度變換,然后fclip將線性光度變換的結(jié)果限制在區(qū)間[Ll,Lh]中并對(duì)光度值取整。該過程生成高速高動(dòng)態(tài)范圍場(chǎng)景下的圖像Bi,具體為
式中,本文實(shí)驗(yàn)取Ll=10,Lh=255。對(duì)MVSEC 數(shù)據(jù)集,光度變換參數(shù)α在模擬低光強(qiáng)與高光強(qiáng)條件時(shí)分別設(shè)置為0.25 和4。而RobotCar 數(shù)據(jù)集原始數(shù)據(jù)亮度均值較MVSEC 數(shù)據(jù)集更高,因此對(duì)RobotCar 光度變換參數(shù)α在模擬低光強(qiáng)與高光強(qiáng)條件時(shí)分別設(shè)置為0.15和2。得到的圖像Bi的曝光區(qū)間是M幅清晰圖像曝光區(qū)間的并集,并且記曝光區(qū)間內(nèi)的事件集合為εi;Bi的時(shí)間戳與曝光中心時(shí)刻圖像Ii保持一致。
2)高速高動(dòng)態(tài)范圍場(chǎng)景下的事件仿真。在高速場(chǎng)景下事件觸發(fā)率增大,事件相機(jī)會(huì)產(chǎn)生數(shù)據(jù)阻塞進(jìn)而導(dǎo)致時(shí)間戳偏移(Gallego 等,2022),因此實(shí)驗(yàn)對(duì)每一事件流εi添加參數(shù)為100 μs 均勻分布的時(shí)間戳隨機(jī)噪聲以仿真高速條件下的事件流。低光照強(qiáng)度場(chǎng)景下,事件相機(jī)輸出的背景噪聲事件會(huì)增多(Gallego 等,2022),實(shí)驗(yàn)通過對(duì)每一事件流εi添加10%背景噪聲事件仿真低光強(qiáng)條件下的事件流。高光照強(qiáng)度場(chǎng)景下,事件相機(jī)輸出的背景噪聲事件會(huì)減少(Gallego 等,2022),實(shí)驗(yàn)通過對(duì)每一事件流εi進(jìn)行背景噪聲濾波仿真高光強(qiáng)條件下的事件流,濾波過程濾除近鄰的5×5 像素都無事件觸發(fā)的像素激發(fā)的事件。
由前述仿真方法,可以由參考圖像數(shù)據(jù)庫及其曝光區(qū)間內(nèi)的事件集合仿真生成高速高動(dòng)態(tài)范圍場(chǎng)景下與參考數(shù)據(jù)對(duì)應(yīng)的數(shù)據(jù)。
本實(shí)驗(yàn)使用PyTorch 深度學(xué)習(xí)框架通過1.2.4節(jié)的網(wǎng)絡(luò)訓(xùn)練方法對(duì)網(wǎng)絡(luò)進(jìn)行端到端的訓(xùn)練,網(wǎng)絡(luò)使用SGD(stochastic gradient descent)優(yōu)化器(Bottou,2010)進(jìn)行訓(xùn)練,學(xué)習(xí)率的初始值為10-4,并采用余弦學(xué)習(xí)率衰減策略,當(dāng)?shù)螖?shù)達(dá)到最大值100時(shí)學(xué)習(xí)率衰減到0。
實(shí)驗(yàn)數(shù)據(jù)集的各個(gè)序列按照60%、20%和20%劃分為訓(xùn)練集、驗(yàn)證集與測(cè)試集。此外,對(duì)實(shí)驗(yàn)數(shù)據(jù)集中所有的空間分辨率為260×346 像素及240×320 像素的張量隨機(jī)裁剪為224×224 像素的張量以進(jìn)行數(shù)據(jù)增強(qiáng),并將裁剪后的張量作為網(wǎng)絡(luò)的輸入。
對(duì)高速高動(dòng)態(tài)場(chǎng)景下的查詢圖像B及其曝光區(qū)間內(nèi)的事件集合ε,由于本文兩個(gè)數(shù)據(jù)集記錄時(shí)間連續(xù)的視頻,因此可以隨機(jī)在查詢所在序列選擇圖像時(shí)間戳與B的時(shí)間戳差值在1 s 以內(nèi)的圖像Ip作為與查詢視場(chǎng)相近的圖像,即正例;又由于本文實(shí)驗(yàn)的兩個(gè)數(shù)據(jù)集都被分為兩組視場(chǎng)有明顯差異的序列,因此,一序列的查詢可以直接在另一序列中隨機(jī)選擇圖像In作為視場(chǎng)不同的圖像,即負(fù)例。查詢、正例與負(fù)例三元組的示例可視化如圖6 所示。此外,訓(xùn)練過程中高速高動(dòng)態(tài)范圍場(chǎng)景下的查詢隨機(jī)從仿真的高速低光強(qiáng)與高速高光強(qiáng)數(shù)據(jù)中挑選,以平衡網(wǎng)絡(luò)對(duì)低光強(qiáng)與高光強(qiáng)場(chǎng)景的處理能力。
圖6 訓(xùn)練三元組的可視化Fig.6 Visualization of training triples
由于數(shù)據(jù)集的時(shí)間連續(xù)特性,與三元組挑選的規(guī)則類似,若用于查詢的光學(xué)圖像B的時(shí)間戳與查詢結(jié)果圖像Im的時(shí)間戳差值小于1 s時(shí),則認(rèn)為兩者場(chǎng)景相似,匹配成功。實(shí)驗(yàn)評(píng)估指標(biāo)為召回率Recall@1 與識(shí)別精度Acc@10。召回率Recall@1 記為測(cè)試數(shù)據(jù)集上的匹配成功率。Acc@10 記為測(cè)試數(shù)據(jù)集上所有查詢圖像識(shí)別精度的平均值。其中,每幅查詢圖像的識(shí)別精度定義為
式中,k是每幅查詢圖像檢索結(jié)果的前10 幅圖像中滿足上述匹配成功條件的數(shù)量。
為了驗(yàn)證本文方法在高速高動(dòng)態(tài)范圍場(chǎng)景下的識(shí)別性能,實(shí)驗(yàn)在2.1.2 節(jié)構(gòu)建的包含高速高動(dòng)態(tài)范圍場(chǎng)景下的圖像與事件以及與之對(duì)應(yīng)的參考圖像的仿真數(shù)據(jù)集上進(jìn)行。并分別與基于圖像、基于事件以及同時(shí)利用圖像與事件的視覺場(chǎng)景識(shí)別方法進(jìn)行比較。
2.3.1 實(shí)驗(yàn)對(duì)比方法
基于圖像的視覺場(chǎng)景識(shí)別對(duì)比方法為NetVLAD(Arandjelovic 等,2016)。此外,由于存在基于圖像的動(dòng)態(tài)范圍增強(qiáng)算法和圖像去模糊算法,因此實(shí)驗(yàn)還構(gòu)造了對(duì)比方法HDR-MIMO。HDR-MIMO由圖像動(dòng)態(tài)范圍增強(qiáng)算法HDRUNet(Chen 等,2021)與圖像去模糊算法MIMO-UNet(Cho 等,2021)及視覺場(chǎng)景識(shí)別算法NetVLAD 級(jí)聯(lián),該方法首先增強(qiáng)高速高動(dòng)態(tài)范圍場(chǎng)景下的圖像質(zhì)量,再進(jìn)行視覺場(chǎng)景識(shí)別。
基于事件的視覺場(chǎng)景識(shí)別對(duì)比方法為E2VIDVPR,該方法首先通過事件強(qiáng)度圖像重建方法E2VID(Rebecq 等,2021)由事件生成強(qiáng)度圖像,然后根據(jù)該強(qiáng)度圖像利用基于圖像的NetVLAD 進(jìn)行視覺場(chǎng)景識(shí)別。
由于暫未有同時(shí)利用圖像和事件的視覺場(chǎng)景識(shí)別方法及融合事件的圖像動(dòng)態(tài)范圍增強(qiáng)的開源方法,因此實(shí)驗(yàn)構(gòu)造了HDR-eSL 方法作為同時(shí)利用圖像和事件的對(duì)比方法。HDR-eSL由圖像動(dòng)態(tài)范圍增強(qiáng)算法HDRUNet(Chen 等,2021)與事件增強(qiáng)的圖像去模糊算法eSL-Net(Wang 等,2020)及NetVLAD級(jí)聯(lián),該方法同時(shí)利用圖像和事件信息,增強(qiáng)高速高動(dòng)態(tài)范圍場(chǎng)景下的圖像質(zhì)量,再進(jìn)行視覺場(chǎng)景識(shí)別。
由于HDRUNet 與MIMO-UNet 的預(yù)訓(xùn)練場(chǎng)景與本文數(shù)據(jù)集的駕駛場(chǎng)景區(qū)別較大,因此對(duì)其在本文訓(xùn)練數(shù)據(jù)集上進(jìn)行了微調(diào)。除此之外,上述提到的其余網(wǎng)絡(luò)均使用其預(yù)訓(xùn)練模型進(jìn)行測(cè)試。
2.3.2 實(shí)驗(yàn)結(jié)果與分析
在MVSEC 與RobotCar 數(shù)據(jù)集上的定量實(shí)驗(yàn)結(jié)果分別如表1 與表2 所示,其中01 與02 表示各數(shù)據(jù)集的序列編號(hào),高速低光強(qiáng)和高速高光強(qiáng)表示測(cè)試數(shù)據(jù)集查詢數(shù)據(jù)的場(chǎng)景條件。本文方法在兩個(gè)數(shù)據(jù)集不同場(chǎng)景下的測(cè)試示例的可視化如圖7 所示,其中B,ε分別是查詢圖像及其曝光區(qū)間內(nèi)的事件,I是參考圖像,Im是本文算法得到的與參考圖像最匹配的圖像。
表1 高速高動(dòng)態(tài)范圍場(chǎng)景下各算法在MVSEC數(shù)據(jù)集的召回率與識(shí)別精度Table 1 Recall rates and precision of each algorithm in MVSEC dataset under high-speed and high-dynamic scenarios/%
表2 高速高動(dòng)態(tài)范圍場(chǎng)景下各算法在RobotCar數(shù)據(jù)集的召回率與識(shí)別精度Table 2 Recall rates and precision of each algorithm in RobotCar dataset under high-speed and high-dynamic scenarios/%
圖7 實(shí)驗(yàn)數(shù)據(jù)集測(cè)試示例的可視化Fig.7 Visualization of experimental dataset test examples((a)MVSEC dataset;(b)RobotCar dataset)
基于圖像的方法中,NetVLAD 直接將高速高動(dòng)態(tài)場(chǎng)景下的圖像輸入網(wǎng)絡(luò)得到特征并用于查詢。然而,如圖8(b)所示,當(dāng)圖像模糊且曝光不佳時(shí)損失了結(jié)構(gòu)紋理與光度信息,進(jìn)而導(dǎo)致該方法識(shí)別性能不佳。HDR-MIMO 通過對(duì)輸入圖像進(jìn)行動(dòng)態(tài)范圍增強(qiáng)以及去模糊提升了圖像質(zhì)量后再通過NetVLAD 方法進(jìn)行匹配與識(shí)別,該方法恢復(fù)的圖像如圖8(c)所示。由表3 可知,該方法恢復(fù)的圖像相對(duì)查詢圖像在峰值信噪比(peak signal-to-noise ratio,PSNR)和結(jié)構(gòu)相似度(structural similarity,SSIM)兩個(gè)指標(biāo)上均有較大的提升。得益于圖像質(zhì)量的提升,該方法性能優(yōu)于NetVLAD 方法,然而單幅圖像盲去模糊的不適定性會(huì)限制其去模糊的性能(Zhang和Yu,2022)。此外,多級(jí)網(wǎng)絡(luò)級(jí)聯(lián)的誤差累積也限制了其識(shí)別性能。E2VID-VPR 方法僅利用事件信息,在事件充足且持續(xù)一定的時(shí)間后才能得到紋理與結(jié)構(gòu)信息較為豐富的重建圖像。此外,事件重建圖像的過程缺乏亮度信息的引導(dǎo),因此重建圖像與參考圖像的亮度有明顯差異,如圖8(e)所示。由表3可知,其圖像質(zhì)量指標(biāo)峰值信噪比PSNR 和結(jié)構(gòu)相似度SSIM 極低。上述問題導(dǎo)致該方法的識(shí)別性能不佳。HDR-eSL 方法同時(shí)利用圖像和事件信息,首先將原始圖像動(dòng)態(tài)范圍增強(qiáng)后通過基于事件的去模糊網(wǎng)絡(luò)得到質(zhì)量較好的圖像,再通過NetVLAD 方法進(jìn)行匹配與識(shí)別。該方法恢復(fù)的圖像如圖8(d)所示,得益于事件相機(jī)的高時(shí)間分辨率,HDR-eSL方法恢復(fù)的圖像較HDR-MIMO 的結(jié)果更清晰。由表3可知,該方法恢復(fù)的圖像在PSNR 和SSIM 兩個(gè)定量指標(biāo)上均優(yōu)于HDR-MIMO 方法。然而,其沒有利用事件的高動(dòng)態(tài)特性對(duì)圖像進(jìn)行動(dòng)態(tài)范圍增強(qiáng),且多級(jí)網(wǎng)絡(luò)級(jí)聯(lián)的誤差累積也限制了其識(shí)別性能。本文方法利用事件信息的低延時(shí)與高動(dòng)態(tài)范圍特性對(duì)圖像進(jìn)行隱式增強(qiáng),使得生成的融合特征能夠隱式表示清晰且曝光良好的場(chǎng)景圖像。為了驗(yàn)證該論述,首先固定本文多模態(tài)特征融合模塊的網(wǎng)絡(luò)權(quán)重,然后在后續(xù)添加上采樣網(wǎng)絡(luò)將融合特征解碼為圖像,記該級(jí)聯(lián)網(wǎng)絡(luò)為HD(HDR-Deblur)。訓(xùn)練采用參考圖像作為監(jiān)督信號(hào),以完成上采樣網(wǎng)絡(luò)的訓(xùn)練。通過HD 網(wǎng)絡(luò)恢復(fù)的圖像如圖8(f)所示,相對(duì)其他算法,HD網(wǎng)絡(luò)恢復(fù)的圖像更清晰且曝光良好。定量指標(biāo)如表3 所示,該方法在PSNR 與SSIM 兩個(gè)指標(biāo)上均優(yōu)于對(duì)比方法。該實(shí)驗(yàn)表明本文方法生成的融合特征能夠隱式表示清晰且曝光良好的場(chǎng)景,且恢復(fù)圖像質(zhì)量高于對(duì)比方法。
表3 各方法所得圖像的定量指標(biāo)(真值為參考圖像)Table 3 Quantitative indicators of the images obtained by each method(the ground truth is the reference image)
圖8 對(duì)比方法的可視化Fig.8 Visualization of comparison methods((a)reference image;(b)query image;(c)image reconstructed by HDR-MIMO;(d)image reconstructed by HDR-eSL;(e)image reconstructed by E2VID;(f)image reconstructed by HD)
測(cè)試數(shù)據(jù)集的特征距離矩陣如圖9 所示。其中橫縱軸都為時(shí)間,該矩陣中坐標(biāo)為(t1,t2)的值表示在t1時(shí)刻記錄的高速高動(dòng)態(tài)范圍場(chǎng)景下的圖像及其對(duì)應(yīng)事件集合生成的融合特征與在t2時(shí)刻記錄的參考圖像生成的圖像特征之間的向量歐氏距離。由圖9可知,總體來說,多模態(tài)查詢信息與圖像信息的時(shí)間差越小,也即拍攝位置的物理距離越近、場(chǎng)景越相似,通過本文方法生成的特征距離就越小,反之亦然。這說明通過本文方法生成的特征的向量相似度能夠有效地表示場(chǎng)景的相似度。
圖9 測(cè)試數(shù)據(jù)集的特征距離矩陣Fig.9 The feature distance matrix of the test dataset((a)MVSEC dataset;(b)RobotCar dataset)
由于本文方法結(jié)合了光學(xué)相機(jī)圖像紋理與結(jié)構(gòu)信息豐富的特點(diǎn)以及事件信息低時(shí)延、高動(dòng)態(tài)范圍的優(yōu)勢(shì),且端到端的特征生成過程也避免了多級(jí)級(jí)聯(lián)帶來的誤差累積,因此本文方法在兩個(gè)實(shí)驗(yàn)數(shù)據(jù)集上均取得了所有方法中最優(yōu)的識(shí)別性能。
本節(jié)對(duì)提出的網(wǎng)絡(luò)模塊與場(chǎng)景運(yùn)動(dòng)模糊程度進(jìn)行消融實(shí)驗(yàn),以進(jìn)一步說明本文提出模塊的作用,并證明本文方法在不同運(yùn)動(dòng)模糊程度下的場(chǎng)景具有較好的魯棒性。
2.4.1 網(wǎng)絡(luò)模塊消融實(shí)驗(yàn)
現(xiàn)有事件相機(jī)信息和圖像信息融合的圖像增強(qiáng)算法往往直接將圖像與事件的通道合并,再進(jìn)行多層卷積(Wang 等,2020),或是在單一尺度下將圖像特征與事件特征融合(Shang等,2021)。本文提出的多尺度特征融合模塊MSF 和最終融合模塊CBAM,與現(xiàn)有方法不同,多尺度特征融合模塊在不同尺度對(duì)圖像與事件兩種不同模態(tài)的信息進(jìn)行了多模態(tài)融合,最終融合模塊CBAM 對(duì)輸出特征圖進(jìn)行了空間和通道兩個(gè)層面上的信息篩選。本節(jié)將對(duì)上述兩個(gè)模塊進(jìn)行消融實(shí)驗(yàn)。
對(duì)于多尺度融合策略的消融,采用僅在最終尺度下將多模態(tài)信息融合作為對(duì)比;對(duì)于最終融合模塊CBAM,考慮將其去除作為對(duì)比。記僅最終尺度融合且去除CBAM 模塊的方法為w/o all,僅最終尺度融合但保留CBAM 的方法為w/o MSF,僅去除CBAM模塊的方法為w/o CBAM,完整方法為 w/all。
消融實(shí)驗(yàn)在MVSEC 數(shù)據(jù)集上進(jìn)行并統(tǒng)計(jì)兩個(gè)序列召回率與識(shí)別精度的加權(quán)均值。高速低光強(qiáng)和高速高光強(qiáng)表示測(cè)試數(shù)據(jù)集的場(chǎng)景條件。定量結(jié)果如表4 所示。從定量結(jié)果可以看出,相對(duì)于僅在最終尺度進(jìn)行多模態(tài)特征融合,多尺度特征融合模塊MSF在不同尺度多次對(duì)兩種模態(tài)信息進(jìn)行多模態(tài)融合,有助于充分融合圖像與事件信息,提升融合特征隱式表示場(chǎng)景的能力。最終融合模塊CBAM 有助于篩選生成融合特征的有效信息。兩個(gè)模塊均使得方法的場(chǎng)景識(shí)別性能得到提高。
表4 不同模塊策略下本文方法在MVSEC數(shù)據(jù)集上的召回率與識(shí)別精度Table 4 Recall rates and precision of proposed method on MVSEC dataset under different module strategies/%
2.4.2 不同運(yùn)動(dòng)模糊程度下的場(chǎng)景識(shí)別實(shí)驗(yàn)
本文在2.1.2 節(jié)介紹了高動(dòng)態(tài)范圍運(yùn)動(dòng)模糊圖像的仿真方法,前述實(shí)驗(yàn)中控制模糊圖像生成的參數(shù)M設(shè)置為7,現(xiàn)將參數(shù)M分別設(shè)置為3,7,13,以仿真不同程度的模糊圖像。高動(dòng)態(tài)范圍生成過程與2.1.2節(jié)的生成過程一致。實(shí)驗(yàn)在MVSEC數(shù)據(jù)集上進(jìn)行并統(tǒng)計(jì)兩個(gè)序列的召回率和識(shí)別精度的加權(quán)均值。定量結(jié)果如表5所示。
表5 不同運(yùn)動(dòng)模糊程度場(chǎng)景下本文方法在MVSEC數(shù)據(jù)集的召回率與識(shí)別精度Table 5 Recall rates and precision of proposed method on MVSEC dataset under different motion blur scenarios/%
從定量結(jié)果可以看出,得益于事件信息低延時(shí)的特性,對(duì)于不同模糊程度下的場(chǎng)景,本文方法的召回率與識(shí)別精度波動(dòng)較小,且均能夠得到較好的視覺場(chǎng)景識(shí)別性能。該實(shí)驗(yàn)說明本文方法在不同運(yùn)動(dòng)模糊程度下的場(chǎng)景具有較好的魯棒性。
針對(duì)傳統(tǒng)視覺場(chǎng)景識(shí)別算法在高速、高動(dòng)態(tài)范圍等場(chǎng)景條件下存在由于圖像質(zhì)量下降而導(dǎo)致算法性能下降的問題,本文提出融合事件相機(jī)的視覺場(chǎng)景識(shí)別算法,通過多模態(tài)特征融合模塊將光學(xué)圖像亮度與紋理信息豐富的優(yōu)勢(shì)以及事件相機(jī)低時(shí)延與高動(dòng)態(tài)范圍的優(yōu)勢(shì)結(jié)合,以在高速高動(dòng)態(tài)場(chǎng)景條件下取得良好的識(shí)別性能。實(shí)驗(yàn)結(jié)果表明,本文方法相對(duì)現(xiàn)有視覺場(chǎng)景識(shí)別方法在MVSEC 與RobotCar數(shù)據(jù)集上召回率分別最高有5.39%與3.36%的提升,精度分別最高有8.55%與4.41%的提升。
盡管本文方法在高速高動(dòng)態(tài)范圍場(chǎng)景條件下具有較好的場(chǎng)景識(shí)別性能,但仍具有一些局限。由于事件相機(jī)的事件由場(chǎng)景變化驅(qū)動(dòng),當(dāng)場(chǎng)景速度較慢或靜止且場(chǎng)景動(dòng)態(tài)范圍較廣時(shí),事件相機(jī)的事件觸發(fā)率低,使得提出方法難以利用事件信息增強(qiáng)圖像動(dòng)態(tài)范圍而導(dǎo)致性能下降。因此,在今后的研究中,可以在當(dāng)前方法的基礎(chǔ)上融合紅外相機(jī)等不依賴光度的視覺傳感器,從而在不同速度的高動(dòng)態(tài)場(chǎng)景下都能取得較好的場(chǎng)景識(shí)別性能。