鄒 偉 殷國棟 劉昊吉 耿可可 黃文涵 吳 愿 薛宏偉
東南大學(xué)機(jī)械工程學(xué)院,南京,211189
實(shí)時(shí)有效的環(huán)境感知是自主駕駛車輛安全行駛的前提和基礎(chǔ)。目前,國內(nèi)外研究者應(yīng)用深度學(xué)習(xí)技術(shù)在車道、車輛、 行人、標(biāo)識(shí)感知識(shí)別方面做了大量工作,識(shí)別率和實(shí)時(shí)性也獲得了極大的提高,尤其很多針對(duì)理想環(huán)境下的行人和車輛的目標(biāo)檢測(cè)算法[1-6]受到廣泛關(guān)注。但大量的研究工作以理想環(huán)境為背景,缺乏針對(duì)復(fù)雜環(huán)境下特征不明顯的低辨識(shí)目標(biāo)檢測(cè)算法研究。自主駕駛車輛在真實(shí)場景下行駛的過程中不可避免地會(huì)遇到各種復(fù)雜環(huán)境,尤其是雨雪天、夜間等環(huán)境下目標(biāo)特征不明顯,各種傳感器會(huì)受到很大的影響,此時(shí)由具有特定特征的圖像訓(xùn)練得到的模型將不能很好地識(shí)別出低辨識(shí)目標(biāo)。
近年來,計(jì)算機(jī)視覺領(lǐng)域的學(xué)者也初步開展了復(fù)雜環(huán)境下目標(biāo)智能識(shí)別方法的研究,尤其在多模態(tài)圖像的融合和辨識(shí)方面提出了很多富有創(chuàng)新性的想法。SIMON等[7]使用卷積神經(jīng)網(wǎng)絡(luò)( convolutional neural network, CNN)融合彩色圖像、深度圖、紅外圖像實(shí)現(xiàn)對(duì)人臉的檢測(cè),實(shí)驗(yàn)結(jié)果表明,相比單模態(tài)檢測(cè)方法,多模態(tài)的融合方法極大地提高了識(shí)別的準(zhǔn)確率。ZHOU等[8]提出了一種新穎的夜間視覺增強(qiáng)算法,通過導(dǎo)引濾波器來實(shí)現(xiàn)紅外圖像和彩色圖像的融合。另外,許多研究人員試圖解決在不利照明條件下行人和車輛檢測(cè)的問題。GONZALEZ等[9]比較了由彩色圖像、紅外圖像、彩色圖像和紅外圖像組合訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)的性能,結(jié)果表明,兩種模態(tài)的圖像結(jié)合的方式可以提高行人檢測(cè)的識(shí)別率,尤其是在夜晚的環(huán)境條件下,這種提高特別明顯,即紅外圖像可以提高夜間行人的辨識(shí)。CAI等[10]提出了一種基于視覺顯著性的夜間行人檢測(cè)算法,該算法使用遠(yuǎn)紅外圖像,首先使用基于融合顯著性的方法檢測(cè)包含可疑行人的區(qū)域;然后使用支持向量機(jī)分類器對(duì)行人進(jìn)行最終分類,與某些現(xiàn)有的行人檢測(cè)算法相比,該算法在真實(shí)的遠(yuǎn)紅外圖像數(shù)據(jù)集上具有更好的檢測(cè)率和處理速度性能。KONIG等[11]提出了一種基于預(yù)先訓(xùn)練的非常深的卷積網(wǎng)絡(luò)VGG-16的新型多光譜區(qū)域建議網(wǎng)絡(luò),進(jìn)一步使用增強(qiáng)決策樹分類器來減少該網(wǎng)絡(luò)的潛在假陽性檢測(cè),在KAIST多光譜行人檢測(cè)基準(zhǔn)測(cè)試的測(cè)試集上,對(duì)數(shù)平均漏檢率為29.83%。XU 等[12]使用一種新穎的交叉模式學(xué)習(xí)框架來檢測(cè)不利照明條件下的行人,首先采用深度卷積網(wǎng)絡(luò)來學(xué)習(xí)非線性映射,從而對(duì)RGB與紅外數(shù)據(jù)之間的關(guān)系進(jìn)行建模,然后將學(xué)習(xí)得到的特征表示轉(zhuǎn)移到第二深度網(wǎng)絡(luò),該第二深度網(wǎng)絡(luò)接收RGB圖像作為輸入并輸出檢測(cè)結(jié)果,該方法在KAIST多光譜行人數(shù)據(jù)集和Caltech數(shù)據(jù)集上表現(xiàn)出色。SAVASTURK等[13]用紅外圖像中的單眼視覺分析了立體視覺在可見域中的優(yōu)勢(shì),提出了可見光圖像和紅外圖像的組合算法并用于車輛檢測(cè),結(jié)果表明,在紅外圖像中對(duì)車輛進(jìn)行額外的檢測(cè)可以顯著提高車輛的檢測(cè)率。
目前,針對(duì)多模態(tài)輸入的目標(biāo)檢測(cè)任務(wù),研究者設(shè)計(jì)的網(wǎng)絡(luò)大部分針對(duì)不同的模態(tài)數(shù)據(jù)(如RGB-D數(shù)據(jù))分別建立了獨(dú)立的網(wǎng)絡(luò)來提取不同模態(tài)數(shù)據(jù)的特征[14-15],然后以一定的方式將兩個(gè)網(wǎng)絡(luò)得到的結(jié)果融合得到最終的輸出。上述方法思路很直接,既然有多個(gè)模態(tài)的數(shù)據(jù),則為每個(gè)模態(tài)的數(shù)據(jù)構(gòu)建一個(gè)網(wǎng)絡(luò),這些網(wǎng)絡(luò)往往也是利用預(yù)訓(xùn)練網(wǎng)絡(luò)做微調(diào),但是這種方法也面臨一些現(xiàn)實(shí)的難題,目前很多的多模態(tài)數(shù)據(jù)集(如RGBN-D,RGB-thermal)規(guī)模都比較小,而且缺乏大量的人工標(biāo)注,若要獲得與Imagenet一樣規(guī)模的數(shù)據(jù)集,則需要耗費(fèi)大量的時(shí)間和人力。
本文構(gòu)建了用于深度卷積神經(jīng)訓(xùn)練和測(cè)試的多模態(tài)數(shù)據(jù)集MMPVD(multi-modal pedestrain and vehicle dataset),該數(shù)據(jù)集包含三個(gè)模態(tài)(彩色、紅外、經(jīng)過偏振片濾鏡的彩色)圖像對(duì),目標(biāo)包括行人、轎車、越野車、運(yùn)輸車輛。建立的多模態(tài)數(shù)據(jù)集在模態(tài)數(shù)量、規(guī)模、數(shù)據(jù)質(zhì)量(圖像配準(zhǔn)精度、圖像清晰度)、目標(biāo)類型及環(huán)境復(fù)雜度上均超過當(dāng)前公開的雙模態(tài)數(shù)據(jù)集KAIST[16]?;贔aster R-CNN算法[17]設(shè)計(jì)了雙模態(tài)及三模態(tài)目標(biāo)檢測(cè)融合算法,融合CNN網(wǎng)絡(luò)提取彩色圖像、偏振圖像、紅外圖像特征,搭建多模態(tài)傳感器視覺感知平臺(tái),實(shí)現(xiàn)對(duì)復(fù)雜環(huán)境下特征不明顯的低辨識(shí)目標(biāo)的實(shí)時(shí)且有效的檢測(cè),提高多模態(tài)目標(biāo)檢測(cè)算法在自主駕駛車輛行駛過程中面臨不同環(huán)境時(shí)的魯棒性和泛化性能。
事實(shí)證明,相對(duì)于傳統(tǒng)的檢測(cè)算法,基于深度CNN網(wǎng)絡(luò)的目標(biāo)檢測(cè)方法無論在檢測(cè)精度還是在泛化性能等方面都具有無可比擬的優(yōu)勢(shì)并且取得了巨大的成功。目前基于CNN網(wǎng)絡(luò)的目標(biāo)檢測(cè)算法主要分為兩階段的目標(biāo)檢測(cè)(two-stage detection)和單階段的目標(biāo)檢測(cè)(one-stage detection)。兩階段的目標(biāo)檢測(cè)算法以R-CNN系列為代表,發(fā)展出Fast R-CNN[18]、Faster R-CNN等性能優(yōu)越的算法。經(jīng)典的單階段的目標(biāo)檢測(cè)算法有YOLO[19]系列、SSD[20]、FPN[21]等。單階段的目標(biāo)檢測(cè)算法的優(yōu)勢(shì)在于運(yùn)算速度快,滿足實(shí)時(shí)性要求,但存在正負(fù)樣本比例失衡問題,檢測(cè)精度上稍遜于兩階段網(wǎng)絡(luò)。兩階段網(wǎng)絡(luò)存在候選框提取操作,檢測(cè)精度較高,但相對(duì)于單階段網(wǎng)絡(luò),兩階段網(wǎng)絡(luò)檢測(cè)的速度較慢。本文選取VGG-16深度卷積神經(jīng)網(wǎng)絡(luò)作為骨干網(wǎng)絡(luò)(backbone),對(duì)不同模態(tài)圖像的特性進(jìn)行提取,將得到的特征圖進(jìn)行卷積融合,基于兩階段的Faster R-CNN算法設(shè)計(jì)多模態(tài)目標(biāo)檢測(cè)算法。
深度學(xué)習(xí)采用的典型網(wǎng)絡(luò)結(jié)構(gòu)是卷積神經(jīng)網(wǎng)絡(luò)CNN。CNN 在圖像目標(biāo)檢測(cè)中具有位移不變性、 縮放不變性及其他形式的扭曲不變性[22]。由CNN 的卷積核通過訓(xùn)練數(shù)據(jù)進(jìn)行學(xué)習(xí),所以在使用 CNN時(shí),避免了人工的特征設(shè)計(jì)和抽取,隱式地從訓(xùn)練數(shù)據(jù)中進(jìn)行特征學(xué)習(xí)。
圖1為CNN的一般架構(gòu)圖,CNN采用卷積層與池化層交替設(shè)置,卷積層用于學(xué)習(xí)輸入數(shù)據(jù)中的特征,池化層用于降低卷積層所學(xué)到的特征的維度,用以提高網(wǎng)絡(luò)的魯棒性,這樣卷積層提取出圖像特征,再進(jìn)行組合形成對(duì)圖片對(duì)象描述的更抽象特征,最后將所有參數(shù)歸一化到一維數(shù)組中形成全連接層,進(jìn)行目標(biāo)特征訓(xùn)練或檢測(cè)。相對(duì)于全連接網(wǎng)絡(luò),CNN網(wǎng)絡(luò)最大的特點(diǎn)在于局部連接性和權(quán)值共享性。局部連接的方式有效地減少了權(quán)值參數(shù)的個(gè)數(shù);權(quán)值共享是指同一個(gè)卷積核所連接的權(quán)值相同,大大減少了連接權(quán)值的個(gè)數(shù)。卷積層的計(jì)算公式為
C=σ(M?W+b)
(1)
式中,C為卷積后的矩陣;σ為激活函數(shù);M為圖像對(duì)應(yīng)的矩陣;W為卷積核權(quán)重;b為偏置項(xiàng)。
圖1 CNN網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Network of CNN
VGG-16的網(wǎng)絡(luò)結(jié)構(gòu)[23]如圖2a所示,進(jìn)行特征提取時(shí),其輸入是一個(gè)224×224×3的三維矩陣(表示一個(gè)大小為224×224的三通道RGB圖像),對(duì)輸入圖像的預(yù)處理是從每個(gè)像素中減去在訓(xùn)練集上的RGB均值,輸出是圖像分類的結(jié)果(1000種)。VGG-16共有5個(gè)卷積塊,每個(gè)卷積塊都包含數(shù)次卷積操作,卷積核的大小均為3×3,在卷積之前都進(jìn)行了填充處理,使得卷積操作不會(huì)改變輸入輸出矩陣大?。欢诿總€(gè)卷積塊的最后添加最大池化層,在2×2的像素窗口上進(jìn)行最大池化,步長為2,每次池化輸出特征的長和寬變?yōu)檩斎氲?/2。在一維卷積池化操作后是3個(gè)全連接層,前2層都是4096維,第3層為1000維的ILSVRC分類,包含1000個(gè)輸出,每個(gè)輸出對(duì)應(yīng)一個(gè)類別,最后一層為soft-max分類層。
在Faster R-CNN目標(biāo)檢測(cè)算法中,使用VGG-16卷積網(wǎng)絡(luò)的中間層輸出,去掉了最后一個(gè)池化層,選取第5個(gè)卷積塊的第3個(gè)卷積網(wǎng)絡(luò)(Conv5/Conv5_3)的輸出作為最后得到的特征圖。具體的網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)見表1。
表1 VGG-16網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)
1.3.1網(wǎng)絡(luò)結(jié)構(gòu)
Faster R-CNN包括CNN特征提取層、區(qū)域建議網(wǎng)絡(luò)(region proposal network, RPN)、感興趣區(qū)池化層(region of interest pooling, ROI pooling)、決策層(fast R-CNN)四個(gè)部分。CNN特征提取層對(duì)輸入的圖像數(shù)據(jù)經(jīng)過多次卷積和池化操作進(jìn)行特征的提取和降維,得到特征圖。RPN層提取候選框并對(duì)候選框進(jìn)行初步的回歸,將候選框映射到特征圖上,由于候選框的尺度不同,對(duì)應(yīng)的候選框的特征的尺度不同,故通過ROI pooling層將每個(gè)候選框的特征歸化到同樣的尺度,方便輸送到后面的全連接層,對(duì)目標(biāo)進(jìn)行分類和邊界框的回歸。Faster R-CNN網(wǎng)絡(luò)結(jié)構(gòu)如圖2b所示。RPN網(wǎng)絡(luò)在最后一層卷積特征圖上進(jìn)行候選框的提取,具體方法如圖3所示。
(a)VGG-16網(wǎng)絡(luò)結(jié)構(gòu)[23]
(b)Faster R-CNN網(wǎng)絡(luò)結(jié)構(gòu)圖2 模型網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Network structure of models
RPN的核心在于采用錨(anchor)機(jī)制,可以理解為將卷積特征圖上的每一個(gè)點(diǎn)(或?qū)?yīng)原圖上的某些點(diǎn))作為錨點(diǎn),以這些錨點(diǎn)為中心,在每一個(gè)錨點(diǎn)上選取m種縱橫比、n種尺度、共k個(gè)初始的anchor作為候選框,文中m=3,n=3,k=9。對(duì)所有的候選框做二分類,判斷其為前景或背景的概率,并對(duì)這些候選框做簡單的邊界框初次回歸。如此多的候選框中,根據(jù)二分類的結(jié)果從中選取部分較好的候選框,用以進(jìn)行后續(xù)的運(yùn)算。
圖3 RPN提取候選框示意圖Fig.3 RPN making proposal boxes
1.3.2損失函數(shù)
Faster R-CNN 包括兩部分損失:RPN網(wǎng)絡(luò)的損失和 Fast R-CNN 網(wǎng)絡(luò)的損失,其中每個(gè)損失又包括分類損失和回歸損失[17]。分類損失使用的是交叉熵函數(shù),回歸損失使用的是smooth L1 函數(shù)。訓(xùn)練RPN網(wǎng)絡(luò),給每個(gè)anchor分配一個(gè)二進(jìn)制的標(biāo)簽(是否包含前景),正標(biāo)簽的anchor是與任意真實(shí)包圍盒(ground truth,GT)的交并比(intersection over union, IoU)大于0.7的anchor,負(fù)標(biāo)簽的 anchor 是與所有GT的IoU均小于0.3的anchor,剩下的anchor(即與GT的IoU介于0.3~0.7的anchor)不參與RPN網(wǎng)絡(luò)的訓(xùn)練。本文采用 Fast R-CNN 中的多任務(wù)損失最小化目標(biāo)函數(shù)。損失函數(shù)定義如下:
(2)
(3)
回歸損失計(jì)算公式為
(4)
其中,R是Faster R-CNN中定義的魯棒損失函數(shù),其計(jì)算公式為
(5)
本文沿用Faster R-CNN中上述損失函數(shù)。
1.4.1雙模態(tài)目標(biāo)檢測(cè)算法
基于Faster R-CNN目標(biāo)檢測(cè)算法框架,設(shè)計(jì)了雙通道的深度卷積特征提取網(wǎng)絡(luò)分別提取紅外圖像和彩色圖像特征,選取VGG-16作為骨干(backbone)特征提取網(wǎng)絡(luò),雙模態(tài)目標(biāo)檢測(cè)網(wǎng)絡(luò)結(jié)構(gòu)[24]如圖4a所示,網(wǎng)絡(luò)的輸入分別為彩色圖像和紅外圖像,圖中虛線框?yàn)閮蓚€(gè)模態(tài)的 VGG-16 特征提取網(wǎng)絡(luò),分別提取彩色圖像特征和紅外圖像特征。實(shí)驗(yàn)證明,相對(duì)于傳統(tǒng)的單模態(tài)目標(biāo)檢測(cè)算法,基于雙模態(tài)特征融合的深度卷積神經(jīng)網(wǎng)絡(luò)對(duì)復(fù)雜環(huán)境下的低辨識(shí)目標(biāo)具有更好的檢測(cè)和識(shí)別性能,且在VGG-16的中間階段將紅外圖像特征和彩色圖像特征融合為最優(yōu)的方式。
1.4.2多模態(tài)目標(biāo)檢測(cè)算法
本文基于Faster R-CNN目標(biāo)檢測(cè)算法,設(shè)計(jì)3個(gè)通道的深度卷積特征提取網(wǎng)絡(luò)來融合紅外圖像、偏振圖像和彩色圖像特征,選取VGG-16作為骨干(backbone)特征提取網(wǎng)絡(luò),三模態(tài)目標(biāo)檢測(cè)網(wǎng)絡(luò)結(jié)構(gòu)如圖4b所示。
網(wǎng)絡(luò)的輸入分別為彩色圖像、偏振圖像和紅外圖像,圖4b中虛線框?yàn)?個(gè)通道的VGG-16特征提取網(wǎng)絡(luò),分別提取彩色圖像特征、偏振圖像和紅外圖像特征。數(shù)據(jù)集中存在很多遠(yuǎn)距離拍攝分辨率較低的目標(biāo),像素信息較少,為了提高此類目標(biāo)的檢測(cè)性能,去除了VGG-16的最后一個(gè)池化層,提高高層特征的分辨率,保留更多圖片的細(xì)節(jié),防止下采樣過度造成小目標(biāo)丟失。對(duì)于多模態(tài)目標(biāo)檢測(cè)任務(wù),需要解決的最基本問題是如何將多個(gè)模態(tài)的信息加以融合,以便更好地完成目標(biāo)檢測(cè)任務(wù)。在深度學(xué)習(xí)目標(biāo)檢測(cè)中,該問題意味著選擇合適的層來將多個(gè)模態(tài)的信息(特征)加以融合。LIU等[15]設(shè)計(jì)了4種卷積網(wǎng)絡(luò)融合架構(gòu),這些架構(gòu)在不同的深度神經(jīng)網(wǎng)絡(luò)階段將兩分支卷積網(wǎng)絡(luò)融合在一起,他們?cè)贙AIST數(shù)據(jù)集行人基準(zhǔn)測(cè)試中的實(shí)驗(yàn)結(jié)果表明,基于中段卷積特征的中間融合(halfway fusion)模型具有最佳性能,因此,本文采取中間融合方式。
左右模塊分別是在VGG-16的第4和第5個(gè)卷積塊之后將來自不同模態(tài)的特征圖進(jìn)行融合的網(wǎng)絡(luò)示意圖見圖5。綠色塊、淺綠色和橘色塊分別表示不同模態(tài)的卷積層,得到不同模態(tài)圖像的卷積特征,黃色表示融合后的網(wǎng)絡(luò)層,紅色虛線框表示融合層。
(a)雙模態(tài)目標(biāo)檢測(cè)網(wǎng)絡(luò)結(jié)構(gòu)[24]
(b)三模態(tài)目標(biāo)檢測(cè)網(wǎng)絡(luò)結(jié)構(gòu)圖4 多模態(tài)目標(biāo)檢測(cè)網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 Structure of multi-modal object detection network
圖5 兩種融合方式Fig.5 Two fusion methods
融合層的詳細(xì)結(jié)構(gòu)如圖6所示。將來自3個(gè)模態(tài)的特征圖在最后一個(gè)維度(通道)進(jìn)行串接,則原來均為512層的彩色圖像特征圖、偏振圖像特征圖和紅外圖像特征圖變?yōu)?536層(通道數(shù)變?yōu)?倍)的堆疊特征圖,再通過1×1的卷積核將特征圖進(jìn)行融合并將1536維度降低到原來的512,最后得到512維的融合特征圖。本文沿用Faster R-CNN中各部分損失函數(shù),融合層的1×1的卷積核的參數(shù)參與模型的訓(xùn)練,融合后的特征圖將繼續(xù)經(jīng)過后面的RPN層以及ROI池化層,最終到達(dá)全連接層,將3個(gè)模態(tài)的信息逐層傳遞進(jìn)行最后的分類和邊界框回歸。網(wǎng)絡(luò)訓(xùn)練同樣采用反向傳播算法,整個(gè)網(wǎng)絡(luò)可以看作由節(jié)點(diǎn)構(gòu)成的計(jì)算圖,從后向前逐層更新參數(shù)。
圖6 融合層網(wǎng)絡(luò)結(jié)構(gòu)Fig.6 Structure fusion layer network
多模態(tài)目標(biāo)檢測(cè)網(wǎng)絡(luò)配置文件的超參數(shù)設(shè)置如下:網(wǎng)絡(luò)訓(xùn)練的學(xué)習(xí)率為0.001,并在第50 000步迭代之后學(xué)習(xí)率設(shè)置為0.0001;RPN網(wǎng)絡(luò)部分的錨點(diǎn)橫縱比為[1,2,0.5],尺度為[8,16,32];模型訓(xùn)練需要對(duì)輸入的圖像進(jìn)行標(biāo)準(zhǔn)化,求得RGB圖像的像素均值為[85.38,107.37,103.21],紅外圖像的像素均值為[99.82,53.63,164.85],偏振圖像的像素均值為[79.68,88.75,94.55];模型訓(xùn)練采用的優(yōu)化器為Momentum優(yōu)化器,動(dòng)量超參數(shù)設(shè)置為0.9;模型訓(xùn)練迭代105步。
本文構(gòu)建了彩色圖像、偏振圖像和紅外圖像三模態(tài)數(shù)據(jù)集MMPVD(multi-modal pedestrain and vehicle dataset)。多模態(tài)圖像數(shù)據(jù)集的圖像分辨率為640 pixel×480 pixel,場景包含城市道路、鄉(xiāng)村道路和校園場景,目標(biāo)包括行人、轎車、越野車、運(yùn)輸車輛,環(huán)境覆蓋晴天、黃昏、夜間、雨天、霧天等不同能見度和照度的天氣。
低辨識(shí)目標(biāo)包含被遮擋超過50%以上的目標(biāo)或在非良好行駛環(huán)境條件下的目標(biāo)。良好行駛環(huán)境條件是指良好的照度(大于500lx)和良好的能見度(大于2000 m)。低辨識(shí)度數(shù)據(jù)子集是指在非良好行駛環(huán)境條件(如夜間、雨天等)下拍攝的圖像數(shù)據(jù)集。在測(cè)試數(shù)據(jù)集中,目標(biāo)遮擋率主要為50%~60%,而沒有遮擋的遮擋率則為0~10%。
目前已經(jīng)完成各種環(huán)境條件下大約6萬對(duì)多模態(tài)圖像的采集,使用公開的標(biāo)注工具LabelImg完成了其中46 065對(duì)熱成像-可見光-偏振光圖像對(duì)的人工標(biāo)注,共計(jì)產(chǎn)生大約134 000個(gè)標(biāo)注結(jié)果(圖像中可能包含多個(gè)行人和不同車輛種類目標(biāo))。其中,70%的數(shù)據(jù)作為訓(xùn)練集,30%的數(shù)據(jù)作為測(cè)試集。圖像數(shù)據(jù)分布統(tǒng)計(jì)見表2。MMPVD的幾種典型低辨識(shí)目標(biāo)數(shù)據(jù)集示例見圖7。
表2 圖像數(shù)據(jù)統(tǒng)計(jì)
圖7 MMPVD典型低辨識(shí)目標(biāo)圖像數(shù)據(jù)Fig.7 Typical low observable target image dataof MMPVD
圖8 多模態(tài)傳感器視覺感知平臺(tái)及圖像采集系統(tǒng)Fig.8 Multi-modal sensor visual perception platformand image acquisition system
為了獲得成對(duì)的彩色圖像、紅外圖像、偏振圖像數(shù)據(jù),搭建多模態(tài)傳感器視覺感知平臺(tái),如圖8所示。RGB彩色相機(jī)選用CGimagetech單目攝像頭,搭配4~12 mm工業(yè)鏡頭,分辨率為640 pixel×480 pixel,幀率為30幀/秒,USB串口傳輸;紅外相機(jī)選用大力DM66紅外熱成像儀,分辨率為640 pixel×480 pixel,幀率為50幀/秒,視場角為15°×11°,網(wǎng)絡(luò)傳輸;偏振相機(jī)選用CGimagetech單目攝像頭,搭配4~12 mm工業(yè)鏡頭,加裝工業(yè)鏡頭偏振鏡,偏振鏡由兩片偏振片組成。試驗(yàn)系統(tǒng)使用自制的鋁合金架搭載RGB相機(jī)、紅外相機(jī)和偏振相機(jī),以3臺(tái)設(shè)備的拍攝軸線定位,保證其拍攝軸線在同一垂直平面內(nèi)。針對(duì)可見光相機(jī)和紅外相機(jī)的傳感器曝光方式、觸發(fā)機(jī)制和幀率均不相同的問題,使用ROS(robot operating system)系統(tǒng)中的時(shí)間同步器(time synchronizer)模塊接收來自3個(gè)相機(jī)的圖像消息實(shí)現(xiàn)多模態(tài)相機(jī)的同步采集。同時(shí),對(duì)彩色圖像、紅外圖像和偏振圖像進(jìn)行同步后的配準(zhǔn)操作,使得多模態(tài)圖像采集系統(tǒng)可以實(shí)時(shí)獲取同一時(shí)間具有相同視角和重疊區(qū)域的目標(biāo)圖像對(duì)。多模態(tài)圖像數(shù)據(jù)采集計(jì)算平臺(tái)使用Nvidia Xavier處理器。
因兩個(gè)可見光相機(jī)和紅外相機(jī)不在同一空間位置且視野范圍也有較大差別,故需要對(duì)獲取的原始三模態(tài)圖像進(jìn)行配準(zhǔn)處理。對(duì)圖像對(duì)進(jìn)行配準(zhǔn),需要提取與匹配圖像對(duì)當(dāng)中的對(duì)應(yīng)特征點(diǎn),通過特征點(diǎn)求取圖像之間的變換矩陣。
單應(yīng)性(homography)定義了兩幅圖像之間的變換關(guān)系,一張圖像上的點(diǎn)在另一個(gè)圖像上有且只有一個(gè)對(duì)應(yīng)點(diǎn),它在計(jì)算機(jī)視覺領(lǐng)域是一個(gè)非常重要的概念,在圖像校正、圖像拼接、相機(jī)位姿估計(jì)、視覺SLAM等領(lǐng)域有非常重要的作用[25]。單應(yīng)性矩陣就是描述從一張圖像到另一張圖像的映射關(guān)系的3×3變換矩陣:
(6)
單應(yīng)性變換矩陣為
(7)
其中,(x1,y1)與(x2,y2)為圖像對(duì)上對(duì)應(yīng)的一組特征點(diǎn)坐標(biāo)。為了求得兩幅圖像之間的單應(yīng)性矩陣,至少需要一組圖形對(duì)上的4組對(duì)應(yīng)特征點(diǎn)[25]。以紅外相機(jī)為基準(zhǔn),分別求取RGB相機(jī)、偏振相機(jī)相對(duì)紅外相機(jī)的單應(yīng)性矩陣H1、H2,實(shí)現(xiàn)3個(gè)模態(tài)圖像的像素級(jí)配準(zhǔn)。對(duì)于紅外相機(jī)的成像方式,通過特征點(diǎn)自動(dòng)提取算法在紅外圖上提取準(zhǔn)確度不高,導(dǎo)致多個(gè)模態(tài)圖像匹配點(diǎn)求取有誤,進(jìn)而影響后續(xù)圖像對(duì)校準(zhǔn)的效果,因此采用手動(dòng)選取圖像對(duì)上對(duì)應(yīng)的特征點(diǎn)來求取兩個(gè)圖像對(duì)之間的單應(yīng)性矩陣,可實(shí)現(xiàn)多模態(tài)圖像對(duì)的配準(zhǔn)。通過穩(wěn)定平臺(tái)固定3個(gè)相機(jī)的相對(duì)位置,并保持各自的鏡頭焦距不變,因此只需要求取一次單應(yīng)性矩陣。具體的多模態(tài)圖像的配準(zhǔn)算法步驟如下:
(1)固定RGB相機(jī)、紅外相機(jī)以及有偏振相機(jī)鏡頭焦距,加熱自制鐵標(biāo)定板,移動(dòng)標(biāo)定板,拍攝20對(duì)三模態(tài)圖像。
(2)取20組RGB相機(jī)和紅外相機(jī)圖片對(duì),每組先在RGB圖像上選取4個(gè)特征點(diǎn),再在紅外圖像上選擇相同位置的特征點(diǎn),得到4對(duì)特征點(diǎn),計(jì)算RGB相機(jī)平面到紅外相機(jī)的矩陣H,對(duì)得到的20組H矩陣取均值,并保存為H1。
(3)取20組有偏振相機(jī)和紅外相機(jī)拍攝的圖片對(duì),每組先在有偏振圖像上選取4個(gè)特征點(diǎn),再在紅外圖像上選擇相同位置的特征點(diǎn),計(jì)算偏振相機(jī)平面到紅外相機(jī)的矩陣H,對(duì)得到的20組H矩陣取均值,并保存為H2。
圖9所示為配準(zhǔn)前的三模態(tài)圖像對(duì)示例,可以看到RGB相機(jī)及偏振相機(jī)的視野范圍更大,需要進(jìn)行單應(yīng)性變換,對(duì)圖像進(jìn)行配準(zhǔn)。變換位置,拍攝這樣的圖像對(duì)20組,求得標(biāo)定結(jié)果如下:
(8)
(9)
圖9 未配準(zhǔn)前的多模態(tài)圖像對(duì)Fig.9 Multi-modal image pairs before registration
得到H1、H2矩陣后,即可將RGB相機(jī)、偏振相機(jī)平面映射到紅外相機(jī)平面,對(duì)變換后的圖像對(duì)進(jìn)行剪裁操作,保留3個(gè)模態(tài)圖像最大相同區(qū)域,得到以紅外圖像為基準(zhǔn)的配準(zhǔn)后的多模態(tài)圖像對(duì)。配準(zhǔn)結(jié)果如圖10所示。通過求得的單應(yīng)性矩陣H1、H2對(duì)多模態(tài)傳感器視覺感知平臺(tái)得到的圖像對(duì)進(jìn)行實(shí)時(shí)同步和配準(zhǔn),得到配準(zhǔn)過后的三模態(tài)圖像對(duì)對(duì)齊結(jié)果,如圖11所示,彩色圖像、偏振圖像均與紅外圖像對(duì)齊。
圖10 配準(zhǔn)結(jié)果Fig.10 Registration results
(a)RGB圖像和紅外圖像(b)偏振圖像和紅外圖像圖11 配準(zhǔn)后的多模態(tài)圖像對(duì)齊Fig.11 Multi-modal image alignment after registration
深度學(xué)習(xí)模型的權(quán)重訓(xùn)練在實(shí)驗(yàn)室的高性能圖像處理工作站上完成,工作站配置見表3,主要包括Intel i9-7980XE(CPU),32GB內(nèi)存,雙GTX 1080Ti GPU,22GB顯存,1TB 固態(tài)硬盤+12TB混合硬盤(RAID 1冗余備份陣列)。
表3 工作站配置
針對(duì)多模態(tài)目標(biāo)檢測(cè)網(wǎng)絡(luò)的訓(xùn)練,本文沿用前文的Faster R-CNN各部分損失函數(shù)。由于所設(shè)計(jì)的多通道的目標(biāo)識(shí)別網(wǎng)絡(luò)采用3個(gè)VGG-16網(wǎng)絡(luò)作為骨干特征提取網(wǎng)絡(luò),網(wǎng)絡(luò)層數(shù)較深,結(jié)構(gòu)復(fù)雜,參數(shù)較多,因此,為了防止模型在自建的MMPVD數(shù)據(jù)集上出現(xiàn)過擬合的現(xiàn)象以及縮短模型收斂的時(shí)間,需要選擇合適的初始值初始化網(wǎng)絡(luò)模型中3個(gè)不同模態(tài)的VGG-16。紅外熱像儀和可見光相機(jī)的成像原理不同導(dǎo)致紅外圖像和可見光圖像差異較大,所以在MMPVD訓(xùn)練集上分別訓(xùn)練單模態(tài)的紅外圖像目標(biāo)檢測(cè)網(wǎng)絡(luò)和單模態(tài)的可見光圖像目標(biāo)檢測(cè)網(wǎng)絡(luò),分別得到適合紅外圖像和可見光圖像(包括彩色圖像、偏振圖像)的特征提取網(wǎng)絡(luò)VGG-16,以此作為三模態(tài)目標(biāo)檢測(cè)網(wǎng)絡(luò)中不同模態(tài)VGG-16的初始化,模型初始化示意圖見圖12。
圖12 VGG-16模型初始化Fig.12 Initialization of VGG-16
在該配置環(huán)境下,多模態(tài)深度學(xué)習(xí)網(wǎng)絡(luò)在整個(gè)MMPVD訓(xùn)練集上完成105次迭代需要約15 h,網(wǎng)絡(luò)模型訓(xùn)練的損失(loss)函數(shù)變化過程如圖13所示。其中,綠色和紅色虛線分別代表訓(xùn)練單模態(tài)的紅外圖像目標(biāo)檢測(cè)網(wǎng)絡(luò)損失和單模態(tài)的可見光圖像目標(biāo)檢測(cè)網(wǎng)絡(luò)損失,藍(lán)色實(shí)線為多模態(tài)目標(biāo)檢測(cè)網(wǎng)絡(luò)損失。由圖13可知,在經(jīng)過105次迭代后,模型均達(dá)到很好的收斂效果。還可從圖13的局部放大圖中看到,相對(duì)于單模態(tài)網(wǎng)絡(luò)的訓(xùn)練,多模態(tài)目標(biāo)識(shí)別網(wǎng)絡(luò)訓(xùn)練的損失變化得更加平穩(wěn),模型收斂得更快。
圖13 損失曲線Fig.13 Loss curve
平均精度(average precision, AP)是查準(zhǔn)率(precision)和查全率(recall)綜合計(jì)算的結(jié)果,是機(jī)器學(xué)習(xí)中檢測(cè)算法性能的重要評(píng)價(jià)方法之一。以查準(zhǔn)率為縱軸、查全率為橫軸作圖,就得到查準(zhǔn)率-查全率曲線,簡稱“P-R曲線”。平均精度為P-R曲線在橫坐標(biāo)[0,1]區(qū)間上的定積分,反映了模型的性能,面積越大,平均精度越大,性能越好?!捌胶恻c(diǎn)”(break-even point,BEP)是查準(zhǔn)率等于查全率的取值。BEP越大,性能越好[26]。mAP是子類中平均精度的平均值。測(cè)試集為MMPVD測(cè)試集中低辨識(shí)目標(biāo)測(cè)試子集,用于驗(yàn)證多模態(tài)目標(biāo)檢測(cè)算法在復(fù)雜環(huán)境下對(duì)低辨識(shí)目標(biāo)的檢測(cè)性能。
在VGG-16的第4和第5個(gè)卷積塊之后,不同融合方式在MMPVD測(cè)試集上的測(cè)試結(jié)果性能對(duì)比如圖14所示,其中Conv4和Conv5分別表示在VGG-16的第4和第5個(gè)卷積塊后進(jìn)行多模態(tài)特征的融合,以單模態(tài)的Faster R-CNN作為算法性能對(duì)比基準(zhǔn)。測(cè)試集為MMPVD三模態(tài)數(shù)據(jù)集中的全部測(cè)試子集,涵蓋全部采集場景和環(huán)境條件,包括良好駕駛環(huán)境條件和非良好駕駛環(huán)境下的目標(biāo)。
圖14a、圖14b分別為本算法在測(cè)試集上人員、車輛目標(biāo)的P-R曲線與平衡點(diǎn),圖14c為所有識(shí)別目標(biāo)的AP值統(tǒng)計(jì)直方圖。由圖14可以發(fā)現(xiàn):基于多模態(tài)特征融合的深度卷積神經(jīng)網(wǎng)絡(luò)能夠獲得更高的AP值,P-R曲線完全覆蓋單模態(tài)目標(biāo)檢測(cè)網(wǎng)絡(luò),平衡點(diǎn)處的取值也大于單模態(tài)目標(biāo)檢測(cè)網(wǎng)絡(luò)。因此,相對(duì)于傳統(tǒng)的單模態(tài)目標(biāo)檢測(cè)算法,多模態(tài)目標(biāo)檢測(cè)算法對(duì)復(fù)雜環(huán)境下的低辨識(shí)目標(biāo)具有更好的檢測(cè)和識(shí)別性能。而且實(shí)驗(yàn)發(fā)現(xiàn),在VGG-16的第5個(gè)卷積塊后將來自不同模態(tài)的特征進(jìn)行融合的效果稍優(yōu)于在第4個(gè)卷積塊后融合的效果。
(a)人員P-R曲線與平衡點(diǎn)
(b)車輛P-R曲線與平衡點(diǎn)
(c)AP值直方圖圖14 不同融合方式對(duì)比結(jié)果Fig.14 Comparison results of different fusion methods
縱向?qū)Ρ葐文B(tài)、雙模態(tài)和三模態(tài)目標(biāo)識(shí)別算法性能,同時(shí)以MMPVD三模態(tài)數(shù)據(jù)集中的低辨識(shí)目標(biāo)為測(cè)試數(shù)據(jù)子集(涵蓋了不同駕駛場景中低照度、低能見度下的低辨識(shí)目標(biāo),且多包含RGB圖像受到光斑、耀斑嚴(yán)重影響的多模態(tài)圖像對(duì)),驗(yàn)證多模態(tài)目標(biāo)檢測(cè)算法在自動(dòng)駕駛真實(shí)駕駛復(fù)雜環(huán)境下針對(duì)低辨識(shí)目標(biāo)的檢測(cè)性能,以單模態(tài)的Faster R-CNN作為算法性能對(duì)比基準(zhǔn),測(cè)試結(jié)果如圖15所示。由圖15可以發(fā)現(xiàn):在MMPVD低辨識(shí)目標(biāo)測(cè)試數(shù)據(jù)集上,相對(duì)于單模態(tài)目標(biāo)檢測(cè)算法,基于雙模態(tài)及三模態(tài)特征融合的深度卷積神經(jīng)網(wǎng)絡(luò)目標(biāo)檢測(cè)算法取得了更好的AP值,其P-R曲線完全覆蓋單模態(tài)目標(biāo)檢測(cè)網(wǎng)絡(luò)Faster R-CNN的P-R曲線,平衡點(diǎn)處的取值也大于單模態(tài)目標(biāo)檢測(cè)網(wǎng)絡(luò)的取值,而且融合了偏振圖像特征的多模態(tài)目標(biāo)檢測(cè)算法的檢測(cè)性能優(yōu)于雙模態(tài)目標(biāo)檢測(cè)算法的性能。
(a)人員P-R曲線與平衡點(diǎn)
(b)車輛P-R曲線與平衡點(diǎn)
(c)AP值直方圖圖15 不同模態(tài)對(duì)比結(jié)果Fig.15 Comparison results of different modalities
針對(duì)低能見度、低照度環(huán)境條件下受到嚴(yán)重的光斑、耀斑影響的低辨識(shí)目標(biāo),融合紅外圖像特征、RGB圖像特征及偏振圖像特征的多模態(tài)目標(biāo)檢測(cè)算法的檢測(cè)性能優(yōu)勢(shì)更加明顯,當(dāng)RGB圖像上的目標(biāo)特征不明顯時(shí),單模態(tài)目標(biāo)檢測(cè)算法檢測(cè)性能急劇下降,而紅外圖像特征由于成像方式的特殊性可以很好地進(jìn)行特征信息補(bǔ)充,且偏振圖像能夠有效濾除偏振光在影像上所形成的亮斑、耀斑,改善圖像清晰度的光學(xué)特性的同時(shí)也從另一個(gè)方面補(bǔ)充了特征信息,從而提高了自動(dòng)駕駛在真實(shí)駕駛環(huán)境下的視覺感知能力。
相對(duì)于傳統(tǒng)的單模態(tài)目標(biāo)檢測(cè)算法,雙模態(tài)和三模態(tài)目標(biāo)檢測(cè)算法對(duì)復(fù)雜環(huán)境下的低辨識(shí)目標(biāo)均具有更好的檢測(cè)和識(shí)別性能,而且三模態(tài)目標(biāo)檢測(cè)算法檢測(cè)性能在某些特殊場景下優(yōu)于雙模態(tài)的目標(biāo)檢測(cè)算法,尤其是針對(duì)低能見度、低照度環(huán)境條件下受到嚴(yán)重的光斑、耀斑影響的低辨識(shí)目標(biāo)具有更明顯的優(yōu)勢(shì)。
考慮到自主駕駛車輛對(duì)環(huán)境感知實(shí)時(shí)性的要求,對(duì)比分析多模態(tài)目標(biāo)檢測(cè)算法在圖像處理工作站上的處理速度,算法幀率實(shí)驗(yàn)對(duì)比結(jié)果如下:單模態(tài)、雙模態(tài)、三模態(tài)的幀率分別為23幀/秒、18幀/秒、14幀/秒。相對(duì)于單模態(tài)的目標(biāo)檢測(cè)算法,多模態(tài)目標(biāo)檢測(cè)算法的卷積層的參數(shù)數(shù)量更大,網(wǎng)絡(luò)結(jié)構(gòu)更加復(fù)雜,所以幀率有所下降。三模態(tài)目標(biāo)檢測(cè)算法前向處理一幀圖像對(duì)約需要0.07 s,雙模態(tài)目標(biāo)識(shí)別網(wǎng)絡(luò)需要0.05 s,滿足實(shí)時(shí)檢測(cè)的要求。
圖16 實(shí)時(shí)檢測(cè)系統(tǒng)框架圖Fig.16 Framework of real-time detection system
設(shè)計(jì)基于ROS系統(tǒng)的多模態(tài)目標(biāo)實(shí)時(shí)檢測(cè)系統(tǒng),系統(tǒng)框架如圖16所示。在自主駕駛車輛上搭載Nvidia Xavier嵌入式處理器,實(shí)現(xiàn)多模態(tài)圖像數(shù)據(jù)的實(shí)時(shí)采集,然后基于ROS系統(tǒng)實(shí)現(xiàn)多模態(tài)圖像的同步和配準(zhǔn),獲取配準(zhǔn)過后的多模態(tài)圖像對(duì),將得到的多模態(tài)圖像對(duì)通過基于TCP協(xié)議的網(wǎng)絡(luò)傳輸算法傳輸?shù)竭h(yuǎn)程的阿里云服務(wù)器,本地的圖像處理工作站作為客戶端實(shí)時(shí)獲取遠(yuǎn)程服務(wù)器上的多模態(tài)圖像對(duì)視頻流,將得到的視頻流輸入多模態(tài)目標(biāo)檢測(cè)算法實(shí)現(xiàn)對(duì)自主駕駛車輛周圍環(huán)境的實(shí)時(shí)感知。多模態(tài)目標(biāo)檢測(cè)系統(tǒng)檢測(cè)結(jié)果可視化如圖17所示。
圖17 多模態(tài)實(shí)時(shí)目標(biāo)檢測(cè)系統(tǒng)可視化Fig.17 Visualization of multi-modal and real-timeobject detection system
圖18、圖19分別為多模態(tài)目標(biāo)檢測(cè)算法和單模態(tài)目標(biāo)檢測(cè)算法在MMPVD測(cè)試集上的部分檢測(cè)結(jié)果。可以看到,針對(duì)復(fù)雜環(huán)境下的低辨識(shí)目標(biāo),本文所設(shè)計(jì)的多模態(tài)目標(biāo)檢測(cè)算法具有更高的分類置信度(confidence)和較好的檢測(cè)結(jié)果,而單模態(tài)目標(biāo)檢測(cè)算法存在嚴(yán)重的漏檢現(xiàn)象。
(a)雙模態(tài)1 (b)單模態(tài)1
(c)雙模態(tài)2 (d)單模態(tài)2
(e)雙模態(tài)3 (f)單模態(tài)3
(g)雙模態(tài)4 (h)單模態(tài)4圖18 MMPVD雙模態(tài)測(cè)試結(jié)果對(duì)比Fig.18 Comparison testing results of dual-modal MMPVD
(a)三模態(tài)(RGB+紅外+偏振,置信度:0.918)
(b)雙模態(tài)(RGB+紅外,置信度:0.768)(c)單模態(tài)(RGB,置信度:0)
(d)三模態(tài)(RGB+紅外+偏振,置信度:0.753,0.961)
(e)雙模態(tài)(RGB+紅外,置信度:0.603,0.682)(f)單模態(tài)(RGB,置信度:0,0.560)
(g)三模態(tài)(RGB+紅外+偏振,置信度:0.933)
(h)雙模態(tài)(RGB+紅外,置信度:0.833)(i)單模態(tài)(RGB,置信度:0.719)
(j)三模態(tài)(RGB+紅外+偏振,置信度:0.760)
(k)雙模態(tài)(RGB+紅外,置信度:0.639)(l)單模態(tài)(RGB,置信度:0)圖19 MMPVD三模態(tài)測(cè)試結(jié)果對(duì)比Fig.19 Comparison testing results of 3-modal MMPVD
(1)本文針對(duì)自主駕駛車輛復(fù)雜環(huán)境下的低辨識(shí)目標(biāo)識(shí)別問題,設(shè)計(jì)基于多模態(tài)特征融合的目標(biāo)檢測(cè)算法。融合彩色圖像、偏振圖像、紅外圖像特征,實(shí)現(xiàn)對(duì)低辨識(shí)目標(biāo)的有效檢測(cè)。實(shí)驗(yàn)結(jié)果表明,在MMPVD多模態(tài)低辨識(shí)目標(biāo)測(cè)試集上,相對(duì)于傳統(tǒng)的單模態(tài)目標(biāo)檢測(cè)算法,基于多模態(tài)特征融合的深度卷積神經(jīng)網(wǎng)絡(luò)對(duì)復(fù)雜環(huán)境下的低辨識(shí)目標(biāo)具有更好的檢測(cè)和識(shí)別性能,而且三模態(tài)目標(biāo)檢測(cè)算法檢測(cè)性能在某些特殊場景下優(yōu)于雙模態(tài)的目標(biāo)檢測(cè)算法,尤其是針對(duì)低能見度、低照度環(huán)境條件下受到嚴(yán)重的光斑、耀斑影響的低辨識(shí)目標(biāo),融合了偏振圖像特征的多模態(tài)目標(biāo)檢測(cè)算法的檢測(cè)性能具有更明顯的優(yōu)勢(shì)。
(2)構(gòu)建了彩色圖像、偏振圖像和紅外圖像三模態(tài)數(shù)據(jù)集MMPVD,該數(shù)據(jù)集在模態(tài)數(shù)量、規(guī)模、數(shù)據(jù)質(zhì)量(圖像配準(zhǔn)精度、圖像清晰度)、目標(biāo)類型及環(huán)境復(fù)雜度上均超過當(dāng)前公開的雙模態(tài)數(shù)據(jù)集KAIST。
(3)針對(duì)自主駕駛車輛對(duì)環(huán)境感知實(shí)時(shí)性要求,搭建多模態(tài)傳感器視覺感知平臺(tái),基于ROS系統(tǒng)構(gòu)建多模態(tài)目標(biāo)實(shí)時(shí)檢測(cè)系統(tǒng),探索多模態(tài)圖像特征融合在自動(dòng)駕駛視覺感知系統(tǒng)中的應(yīng)用。實(shí)驗(yàn)結(jié)果表明,本算法滿足目標(biāo)檢測(cè)實(shí)時(shí)性要求。
下一步研究可以考慮通過優(yōu)化多模態(tài)目標(biāo)檢測(cè)網(wǎng)絡(luò)結(jié)構(gòu)、擴(kuò)充低辨識(shí)度目標(biāo)數(shù)據(jù)集及模型壓縮,從而提高自主駕駛車輛視覺感知的準(zhǔn)確性和實(shí)時(shí)性。