于龍姣,于 博,李春庚,安居白
(大連海事大學(xué) 信息科學(xué)技術(shù)學(xué)院,遼寧 大連 116026)
夜間環(huán)境下的人車檢測(cè)與識(shí)別一直是計(jì)算機(jī)視覺(jué)領(lǐng)域中一項(xiàng)非常重要的研究工作。2018年Uber 無(wú)人車發(fā)生撞人事故,當(dāng)?shù)鼐炀珠L(zhǎng)Sylvia Moir 透露:“在觀看過(guò)車載錄像之后,我們發(fā)現(xiàn)無(wú)論處于哪種模式(自動(dòng)駕駛模式或人工駕駛模式),本次碰撞都難以避免,因?yàn)槭芎θ耸菑陌堤幫蝗魂J入機(jī)動(dòng)車道的?!闭{(diào)查報(bào)告顯示在撞擊發(fā)生的前6s,激光雷達(dá)的決策過(guò)程發(fā)生了誤判,而可見(jiàn)光攝像機(jī)由于處在黑暗環(huán)境中,無(wú)法檢測(cè)到行人,也沒(méi)有發(fā)揮任何警示作用[1]。在現(xiàn)有的夜間安防監(jiān)控中,大部分的紅外攝像機(jī),受光照條件和照射距離的影響,極易產(chǎn)生噪聲及過(guò)度曝光的問(wèn)題,導(dǎo)致不能及時(shí)發(fā)現(xiàn)可疑人員和車輛。因此,在夜間環(huán)境中尋找一種有效檢測(cè)與識(shí)別人車的途徑顯得尤為重要。本文所使用的是紅外熱成像攝像機(jī)拍攝的圖像[2],其不同于紅外攝像機(jī)。紅外攝像機(jī)使用不加裝紅外線過(guò)濾片的鏡頭,并利用紅外LED 點(diǎn)陣發(fā)射出的近紅外光源照射來(lái)呈現(xiàn)出圖像。紅外熱成像攝像機(jī)又稱熱像儀,其原理為通過(guò)鏡頭鏡片材質(zhì)選擇過(guò)濾掉絕大多數(shù)的光線,只允許較窄取值范圍的遠(yuǎn)紅外自發(fā)光照射到攝像機(jī)傳感器從而達(dá)到成像效果[3]。熱成像攝像機(jī)不受外界光照條件影響,只取決于物體本身的熱量大小,因此可在夜間環(huán)境下拍攝到人體、車輛等自身可以散發(fā)出熱量的目標(biāo),不會(huì)像紅外攝像機(jī)那樣將很多細(xì)節(jié)呈現(xiàn)出來(lái),這一定程度上減小了初始圖像的噪聲,熱成像攝像機(jī)還具有探視距離較遠(yuǎn)的優(yōu)點(diǎn)。上述3 種攝像機(jī)的參數(shù)已在表1 列出。經(jīng)過(guò)綜合考慮,采用熱成像攝像機(jī)進(jìn)行夜間人車的檢測(cè)與識(shí)別在自動(dòng)駕駛、安防等領(lǐng)域中具有良好的應(yīng)用前景。
圖1 的3 幅圖像是用不同相機(jī)對(duì)同一街景的拍攝效果。在(a)圖像中,使用可見(jiàn)光攝像機(jī)拍攝,即使有路燈照射,可我們幾乎看不到遠(yuǎn)處有行人出現(xiàn)。在(b)圖像中,使用紅外攝像機(jī)拍攝,畫面大致可以看出存在行人與車輛,但是受路燈等其他光照影響,產(chǎn)生了光斑噪聲,這會(huì)影響系統(tǒng)的判斷。在(c)圖像中使用熱成像攝像機(jī)拍攝,可以觀察到近處的車輛和較遠(yuǎn)處的行人,因不受環(huán)境光照等影響,圖像噪聲較少。
近些年來(lái),一些專家學(xué)者們也對(duì)夜間黑暗環(huán)境下物體的檢測(cè)與識(shí)別進(jìn)行了研究。Urban Meis 使用基于統(tǒng)計(jì)分類器的像素點(diǎn)、區(qū)域的分割算法和多項(xiàng)式分類器來(lái)檢測(cè)和分類熱成像圖像中的對(duì)象。第一個(gè)分類器找到有潛在對(duì)象的感興趣區(qū)域,基于區(qū)域的分割算法用于重新分割這些ROI(Region Of Interest),二次多項(xiàng)式分類器確定對(duì)象的類型,重新分類模塊進(jìn)行最終檢測(cè)正確與分類錯(cuò)誤的改進(jìn)[4]。Yunyun Cao 提出了一種改進(jìn)的局部二值模式(Local Binary Pattern)特征提取方法,用于夜間黑暗環(huán)境下的行人檢測(cè),方法是:①利用幅度分量對(duì)LBP 碼進(jìn)行加權(quán);②使用多分辨率降低噪聲的影響;③利用多尺度信息來(lái)獲得灰度模式的更多共現(xiàn)信息。該方法可以克服部分夜間黑暗環(huán)境中低對(duì)比度、圖像模糊和圖像噪聲的問(wèn)題[5]。Thou-Ho (Chao-Ho) Chen 利用顏色變化和前燈信息的特征來(lái)實(shí)現(xiàn)夜間交通場(chǎng)景中的車輛分割。從初始物體掩模中盡可能地減少地面的照明來(lái)獲得較好的結(jié)果。使用前燈信息實(shí)現(xiàn)車輛流量的統(tǒng)計(jì),而不是使用整個(gè)車身。實(shí)驗(yàn)結(jié)果表明,在中等車流量的條件下,駕駛員通常會(huì)在黑暗環(huán)境中打開(kāi)大燈,此時(shí)便可以檢測(cè)到車輛[6]。
近幾年隨著人工智能的火熱,深度學(xué)習(xí)越來(lái)越多地用于計(jì)算機(jī)視覺(jué)領(lǐng)域,深度學(xué)習(xí)通過(guò)組合低層特征形成更加抽象的高層來(lái)表示屬性類別或特征,以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示,繼而學(xué)習(xí)樣本數(shù)據(jù)的內(nèi)在規(guī)律和表示層次。因此采用深度卷積神經(jīng)網(wǎng)絡(luò)來(lái)進(jìn)行圖像的檢測(cè)與識(shí)別可以取得非常好的效果[7]。經(jīng)過(guò)RCNN(Regions with CNN)[8]和Fast RCNN[9]的積淀,Ross B.Girshick 在 2016年提出了新的 Faster RCNN[10]。Faster RCNN 在結(jié)構(gòu)上已經(jīng)將特征抽?。╢eature extraction),建議框的生成(proposalgenerate),邊框回歸( bounding box regression )和分類(classification)都整合在了一個(gè)網(wǎng)絡(luò)中,綜合性能有了較大提高,在檢測(cè)精度和運(yùn)行速度上也優(yōu)于前兩種方式,因此很多目標(biāo)檢測(cè)識(shí)別算法都紛紛開(kāi)始針對(duì)自己的數(shù)據(jù)集對(duì)Faster RCNN 算法進(jìn)行優(yōu)化改進(jìn)。吳曉鳳提出基于Faster R-CNN 的手勢(shì)識(shí)別算法。首先修改Faster R-CNN 框架的關(guān)鍵參數(shù),達(dá)到同時(shí)檢測(cè)和識(shí)別手勢(shì)的目的,然后提出擾動(dòng)交疊率算法,避免訓(xùn)練模型的過(guò)擬合問(wèn)題,進(jìn)一步提高識(shí)別準(zhǔn)確率[11]。由于本文使用的為熱成像圖像,較普通可見(jiàn)光圖像有其獨(dú)特的性質(zhì)與屬性,我們針對(duì)這些特性在檢測(cè)網(wǎng)絡(luò)上做了更好的優(yōu)化,來(lái)提高檢測(cè)的精度。首先在基礎(chǔ)的特征提取網(wǎng)絡(luò)層后面加入了多通道的優(yōu)化卷積核技術(shù),來(lái)適應(yīng)熱成像圖像的灰度及尺度特性。然后使用全局平均池化層代替了原有的3 個(gè)全連接層,這使得網(wǎng)絡(luò)的參數(shù)值大大減少,不僅提升了網(wǎng)絡(luò)的計(jì)算性能,而且非常適合本文的少類別分類設(shè)置,同時(shí)有效地避免了過(guò)擬合的發(fā)生。最后,在特征提取卷積層的激活層前加入了批標(biāo)準(zhǔn)化(Batch Normalization)層,使得每個(gè)特征提取層都可以很好的控制數(shù)據(jù)的分布形態(tài),防止反向傳播時(shí)可能出現(xiàn)的梯度消失或爆炸,加快了網(wǎng)絡(luò)的收斂速度。經(jīng)過(guò)大量實(shí)驗(yàn)的驗(yàn)證,本文提出的算法與熱成像技術(shù)的組合可有效地檢測(cè)到夜間環(huán)境下的人車,在精度和速度上都有較好的表現(xiàn),為計(jì)算機(jī)視覺(jué)領(lǐng)域夜間黑暗環(huán)境中的人車檢測(cè)與識(shí)別提供了一種全新的參考方法。
表1 可見(jiàn)光、紅外、熱成像攝像機(jī)屬性參數(shù)對(duì)照表Table 1 Table of visible, infrared, thermal imaging camera property parameters comparison
圖1 不同攝像機(jī)拍攝圖像對(duì)比Fig.1 Comparison of images taken by different cameras
本文在Faster RCNN 的基礎(chǔ)上,針對(duì)熱成像人車的檢測(cè)與識(shí)別從如下3 個(gè)方面做了優(yōu)化,我們稱之為FIR (Far Infrared) Faster RCNN。
卷積神經(jīng)網(wǎng)絡(luò)大多數(shù)被用于尋找圖像的深度特征[12],F(xiàn)aster RCNN 首先使用卷積網(wǎng)絡(luò)提取圖像的特征圖,該特征圖被共享用于后續(xù)RPN(Region Proposal Network)層和ROI Pooling 層。
在通常狀況下,卷積運(yùn)算是對(duì)兩個(gè)函數(shù)的一種數(shù)學(xué)運(yùn)算,即:
式中:x為輸入函數(shù);w稱為核函數(shù);s為輸出函數(shù);t為當(dāng)前時(shí)刻;a為時(shí)間段中的某時(shí)刻。在涉及到圖片和文本等數(shù)據(jù)時(shí),由于數(shù)據(jù)是離散的,所以時(shí)刻t需要取整數(shù)值,即離散形式的卷積運(yùn)算為:
對(duì)于本文的圖像來(lái)說(shuō),輸入的是一個(gè)二維數(shù)組I,核函數(shù)也是一個(gè)二維數(shù)組K,所以卷積公式為:
由于熱成像圖像在最終處理時(shí)已經(jīng)去掉了顏色信息,只使用灰度值的大小來(lái)表示圖像中不同的目標(biāo),所以輸入圖像在一定程度上損失了空間的顏色信息,且使用的低分辨率圖像在目標(biāo)的細(xì)節(jié)輪廓特征上也有所缺失,繼而卷積過(guò)程中的w參數(shù)學(xué)習(xí)也隨之減少。因此我們需要學(xué)習(xí)更多的尺度大小信息來(lái)提升識(shí)別的準(zhǔn)確率[13]。通常我們會(huì)再次加深網(wǎng)絡(luò)來(lái)尋找更深層次的特征屬性,但更深的模型意味著需要更多的參數(shù),計(jì)算資源的消耗開(kāi)始增加,模型也比較容易出現(xiàn)過(guò)擬合,因此盲目的增加模型的深度可能會(huì)適得其反。2014年,Google Net 提出了使用Inception 模塊[14],它的目的是設(shè)計(jì)一種具有高性能的局部拓?fù)浣Y(jié)構(gòu)網(wǎng)絡(luò),目的是對(duì)輸入圖像并列的執(zhí)行多個(gè)卷積運(yùn)算和池化操作,最終將所有輸出結(jié)果結(jié)合為某一層的特征圖。其使用3 個(gè)不同大小的濾波器(1×1、3×3、5×5)對(duì)輸入進(jìn)行卷積,此外還會(huì)執(zhí)行最大池化操作。最終各個(gè)層的輸出被合并起來(lái),再傳遞至下一個(gè)Inception 模塊。在之后的V2 和V3 版本中[15],作者為了減少特征的表征性瓶頸,又將5×5 的卷積分解為兩個(gè)3×3 的卷積運(yùn)算來(lái)提高運(yùn)行速度。一個(gè)5×5的卷積核在消耗成本上是一個(gè)3×3 卷積的2.78 倍。因此這種改變?cè)谛阅苌蠒?huì)有所提升。此后又提出將n×n的卷積核尺寸分解為1×n和n×1 兩個(gè)卷積。例如,一個(gè)3×3 的卷積核相當(dāng)于先執(zhí)行一個(gè)1×3 的卷積核,然后再執(zhí)行3×1 的卷積核。同時(shí)還發(fā)現(xiàn)這種方法在成本上比使用單個(gè)3×3 的卷積核降低了33%。
本文為了在加深網(wǎng)絡(luò)深度的同時(shí)可以獲得更多尺度上的目標(biāo)屬性,使用了3 種不同的卷積核來(lái)對(duì)應(yīng)不同的感受野,幫助提升熱成像圖像的檢測(cè)精度與效率,我們稱作多尺度模塊(Multi-Scale module,MSM)。1×1 卷積核只有一個(gè)參數(shù),對(duì)應(yīng)到特征圖上就是對(duì)每一個(gè)像素點(diǎn)進(jìn)行遍歷,這樣可以對(duì)特征圖的細(xì)節(jié)學(xué)習(xí)的更加透徹。1×3 和3×1 卷積核的加入使得網(wǎng)絡(luò)不再僅是一直加深,而且加寬了網(wǎng)絡(luò),讓網(wǎng)絡(luò)對(duì)尺度的適應(yīng)性更強(qiáng)。據(jù)此我們?cè)赩GG16 網(wǎng)絡(luò)的基礎(chǔ)上修改了它的第四與第五卷積層,分別在這兩個(gè)卷積層的3個(gè)分卷積層之后增加了1×1,1×3 與3×1。經(jīng)多次試驗(yàn)驗(yàn)證,對(duì)于本文的熱成像圖像來(lái)說(shuō),由于尺度的大小是特征提取的重要因素,若使用與Inception 結(jié)構(gòu)相同的卷積塊,特征提取的效果略顯不足,所以我們開(kāi)創(chuàng)性的使用了7×7 的卷積核,并用1×3 和3×1的卷積核組合成5×5 的卷積核大小,將這幾種卷積核組合為卷積塊,在提取出不同尺度的特征后,合并輸出,最終進(jìn)行最大池化操作,送入下一個(gè)卷積層。相比于VGG16[16]加深了網(wǎng)絡(luò),比VGG19 又加寬了網(wǎng)絡(luò),同時(shí)提升了感受野的尺度。這種優(yōu)化使得網(wǎng)絡(luò)需要學(xué)習(xí)的權(quán)重?cái)?shù)量大幅下降,訓(xùn)練時(shí)間也有了一定程度的縮短。圖2 為優(yōu)化后網(wǎng)絡(luò)的結(jié)構(gòu)模型。
圖2 FIR Faster RCNN 示意圖Fig.2 Schematic diagram of the FIR Faster RCNN
在現(xiàn)有的很多基于卷積神經(jīng)網(wǎng)絡(luò)的檢測(cè)分類網(wǎng)絡(luò)中,都會(huì)將最后一個(gè)卷積層得到的映射特征矢量化,然后加上全連接層來(lái)接入Softmax 層進(jìn)行邏輯回歸分類。這種設(shè)計(jì)很好地將卷積層結(jié)構(gòu)和傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)分類器結(jié)合起來(lái),將卷積神經(jīng)網(wǎng)絡(luò)作為一種特征提取器,然后將得到的特征(x1~xn)使用式(4)(5)(6)的傳統(tǒng)方式對(duì)其進(jìn)行分類:
式中:w為參數(shù)權(quán)重值;b為偏置項(xiàng)。
再通過(guò)鏈?zhǔn)椒▌t求得loss 對(duì)xk的偏導(dǎo)數(shù):
由于網(wǎng)絡(luò)隱藏層中有許多我們無(wú)法解讀的數(shù)據(jù)分布,有時(shí)設(shè)計(jì)幾個(gè)全連接層可以提升卷積神經(jīng)網(wǎng)絡(luò)的分類性能,因此全連接層經(jīng)常會(huì)被用在神經(jīng)網(wǎng)絡(luò)的末端,F(xiàn)aster RCNN 算法也不例外。但是上述運(yùn)算容易發(fā)生過(guò)擬合,使得網(wǎng)絡(luò)的泛化能力不足[17],且參數(shù)量過(guò)大,每層全連接都有4096 個(gè)神經(jīng)單元,特別是與最后ROI Pooling 層相連的全連接層。這大大降低了網(wǎng)絡(luò)的運(yùn)行效率。在Network In Network 一文中[18],作者提出使用全局平均池化,其做法是針對(duì)每一個(gè)類別,都從特征提取層的最后一個(gè)卷積層中生成一個(gè)對(duì)應(yīng)的特征圖,然后對(duì)特征圖上的所有點(diǎn)求得均值,最后將這些點(diǎn)直接連接到Softmax 分類器上,代替了原來(lái)使用卷積層的特征點(diǎn)連接到全連接層后再連接至Softmax 的做法。首先,這種結(jié)構(gòu)使得特征圖和分類器在卷積結(jié)構(gòu)層面有著更強(qiáng)的連接響應(yīng),因此特征圖可以很好地被解釋成為分類置信度圖。其次,由于這種做法不會(huì)使用到任何新的參數(shù),因此不需要對(duì)參數(shù)進(jìn)行優(yōu)化,同時(shí)避免了過(guò)擬合的發(fā)生。此外,全局平均池化層對(duì)空間域的特征整合較好,在理解輸入特征的空間特征時(shí)具有很好的魯棒性。
對(duì)于本文設(shè)計(jì)的多通道網(wǎng)絡(luò)模型來(lái)說(shuō),特征提取的誤差主要來(lái)自兩個(gè)方面:①感受野大小的變化造成的估計(jì)值方差變大;②卷積層參數(shù)誤差造成估計(jì)均值的偏移。因此我們選擇使用全局平均池化層(Global-Average-Pooling,實(shí)驗(yàn)中簡(jiǎn)稱GAP)來(lái)代替全連接層,來(lái)適應(yīng)我們的小樣本低分辨率熱成像圖像。池化的結(jié)果使得最終得到的特征圖被優(yōu)化為一個(gè)分類置信度,使用得到的置信度神經(jīng)單元連接到只有3 類(含背景)的Softmax 分類器上。上述操作可以對(duì)整個(gè)網(wǎng)絡(luò)在結(jié)構(gòu)上做正則化防止過(guò)擬合,去掉了無(wú)法理解的隱藏神經(jīng)元的信息,直接賦予了每個(gè)通道實(shí)際的內(nèi)在意義。此外還有效地保持了旋轉(zhuǎn)、平移、伸縮的不變性,同時(shí)提高了訓(xùn)練速度。
全連接層被代替后,大部分需要優(yōu)化的權(quán)值參數(shù)都集中在了前半部分的特征提取層部分。由于我們的網(wǎng)絡(luò)在設(shè)計(jì)時(shí)進(jìn)行了加深與加寬,而深層神經(jīng)網(wǎng)絡(luò)在進(jìn)行非線性變換前的激活輸入值x1(a1=ω1x1+b1)隨著網(wǎng)絡(luò)深度的加深,在訓(xùn)練過(guò)程中其概率分布逐漸發(fā)生偏移和端化。也就是整體分布逐漸向非線性函數(shù)取值區(qū)間的上下限兩端慢慢逼近(對(duì)于Sigmoid 激活函數(shù)來(lái)說(shuō),意味著激活輸入值x1會(huì)向0 或1 值靠近)。因此導(dǎo)致了反向傳播時(shí)低層神經(jīng)網(wǎng)絡(luò)的梯度消失或爆炸,從而使深層神經(jīng)網(wǎng)絡(luò)訓(xùn)練時(shí)收斂越來(lái)越慢。而批標(biāo)準(zhǔn)化層[19](Batch-Normalization layer,實(shí)驗(yàn)中簡(jiǎn)稱BNL)就是通過(guò)一定的規(guī)范化手段,將每層神經(jīng)網(wǎng)絡(luò)任意神經(jīng)元的權(quán)重值分布強(qiáng)行拉回到均值為0 方差為1 的標(biāo)準(zhǔn)正態(tài)分布上,也就是將權(quán)重從逐漸偏離的數(shù)據(jù)分布強(qiáng)制拉回到比較標(biāo)準(zhǔn)的分布,這樣使得激活輸入值可以落在非線性函數(shù)對(duì)輸入比較敏感的區(qū)域。此時(shí)參數(shù)上較小的變化,便能在損失函數(shù)上體現(xiàn)出較大的變化。從而使梯度變大,避免梯度消失或爆炸的問(wèn)題產(chǎn)生,而且梯度變大意味著學(xué)習(xí)收斂速度快,能有效地提升訓(xùn)練速度。具體過(guò)程如下:
先對(duì)小批量送入網(wǎng)絡(luò)訓(xùn)練的d維參數(shù)x=(x(1)…x(d))進(jìn)行單獨(dú)標(biāo)準(zhǔn)化,使其具有零均值和單位方差。
式中:E為求取其均值;Var 為求取其方差。
然后要確保插入到網(wǎng)絡(luò)中的變換可以表示恒等變換。因此對(duì)于每一個(gè)激活X(k),都會(huì)引入成對(duì)的參數(shù)γ(k)和β(k),它們會(huì)歸一化和標(biāo)準(zhǔn)化輸入值。即:
因此首先根據(jù)式(12)求出輸入值的均值,然后根據(jù)式(13)求出輸入值的方差,根據(jù)式(14)將輸入值標(biāo)準(zhǔn)化后,訓(xùn)練參數(shù)γ(k)和β(k)的值,最終使其成為一個(gè)批標(biāo)準(zhǔn)化的恒等映射。
式中:xi為輸入?yún)?shù);μB為其均值;σB2為其方差;ε為偏置項(xiàng);yi為最終輸出;BN 為批標(biāo)準(zhǔn)化操作。
在將批標(biāo)準(zhǔn)化層加入我們?cè)O(shè)計(jì)的網(wǎng)絡(luò)實(shí)驗(yàn)時(shí)發(fā)現(xiàn),根據(jù)式(16)~(21)的鏈?zhǔn)椒▌t進(jìn)行反向傳播計(jì)算損失值時(shí),若將其加在特征網(wǎng)絡(luò)基本層的所有卷積層后,網(wǎng)絡(luò)雖能有效地快速收斂,但在測(cè)試的準(zhǔn)確率上卻沒(méi)有突出的表現(xiàn)。經(jīng)研究發(fā)現(xiàn),由于原有基本特征提取層的訓(xùn)練值使用的為預(yù)訓(xùn)練模型的參數(shù)值,在數(shù)據(jù)初始分布上已經(jīng)有了比較好的標(biāo)準(zhǔn)化,再次進(jìn)行本操作意義不大,且可能對(duì)數(shù)據(jù)分布產(chǎn)生噪聲影響。因此我們修改為只在優(yōu)化后加深與加寬的多通道網(wǎng)絡(luò)上使用批標(biāo)準(zhǔn)化功能。此時(shí),訓(xùn)練后的梯度分布便可以較好地反映到需要調(diào)整參數(shù)較多的多通道卷積層中,同時(shí)也不會(huì)影響到原有預(yù)訓(xùn)練網(wǎng)絡(luò)模型的參數(shù)分布。
本文使用FLIR One Pro3 熱成像攝像機(jī)進(jìn)行圖像的采集,選擇3 種典型的夜間場(chǎng)景:①明亮處,一般在城市中心或者活動(dòng)廣場(chǎng),行人與車輛較多,光照效果好。②明暗交替處,大部分公路、街道等區(qū)域都處在這種環(huán)境,有路燈照射,但光照區(qū)域覆蓋不全,此種場(chǎng)景行人與車輛數(shù)量適中。③黑暗處,無(wú)光源照射的街道馬路,關(guān)閉的商場(chǎng)商店,鄉(xiāng)村小路以及燈光昏暗的行人步道等,這些場(chǎng)景的行人與車輛一般較少。在這些場(chǎng)景中共采集了6 段視頻,每段視頻半小時(shí),使用平均時(shí)間間隔的方法,每5 s 從視頻中截圖一次,抽取了2000 張圖像制作成數(shù)據(jù)集,數(shù)據(jù)集文件夾形式和公共數(shù)據(jù)集VOC 相同[20],使用labelImg 工具進(jìn)行圖像的標(biāo)注并自動(dòng)生成.xml 文件,標(biāo)注的類別為人與車輛(person,vehicle)。
由于本文使用的為低分辨率圖像,在場(chǎng)景①下,可能會(huì)因?yàn)槟繕?biāo)出現(xiàn)較多導(dǎo)致目標(biāo)輪廓不清晰,這對(duì)圖像標(biāo)注的準(zhǔn)確度造成影響??紤]到在有光源照射處可見(jiàn)光攝像機(jī)還會(huì)捕捉到一些圖像信息,本文提出了運(yùn)用可見(jiàn)光攝像機(jī)拍攝到的圖像進(jìn)行邊緣檢測(cè),然后將熱成像圖像和進(jìn)行邊緣檢測(cè)后的圖像進(jìn)行融合,在融合圖像上做標(biāo)記,最后將位置與分類信息存入文件,有效解決了標(biāo)記困難的問(wèn)題,從而為低分辨率圖像的訓(xùn)練任務(wù)提供了先行條件。下面詳細(xì)介紹一下融合方法中涉及到的圖像處理過(guò)程。
3.1.1 可見(jiàn)光圖像的邊緣檢測(cè)
在處理過(guò)程中,若使用可見(jiàn)光圖像直接進(jìn)行融合,融合后的圖像會(huì)有更多的噪聲導(dǎo)致無(wú)法標(biāo)記。所以本文提出對(duì)可見(jiàn)光圖像進(jìn)行邊緣檢測(cè),然后融合到熱成像圖像上的方法,有效地在熱成像圖像上呈現(xiàn)出了清晰的目標(biāo)輪廓。圖3 列出了常用的3 種邊緣檢測(cè)算法在本文圖像上的效果。通過(guò)對(duì)比,Sobel 對(duì)人物及車輛產(chǎn)生較好的邊緣檢測(cè)效果,同時(shí),由于其引入了局部平均,使其受噪聲的影響也較小,效果好。Laplace 對(duì)噪聲具有無(wú)法接受的敏感性,檢測(cè)效果不好。Canny 是目前理論上相對(duì)最完善的一種邊緣檢測(cè)算法,但在檢測(cè)人物與車輛細(xì)節(jié)上有一些缺失,效果較好,但細(xì)節(jié)不如Sobel。綜上所述,我們最后選擇Sobel 邊緣檢測(cè)算法來(lái)進(jìn)行圖像融合。
3.1.2 圖像融合標(biāo)記
首先找到肉眼無(wú)法分辨輪廓或類別的熱成像圖像,根據(jù)名稱對(duì)應(yīng)找到可見(jiàn)光攝像機(jī)拍攝的圖像。使用可見(jiàn)光圖像進(jìn)行Sobel 邊緣檢測(cè)得到邊緣檢測(cè)圖,因?yàn)閮蓚€(gè)攝像機(jī)在同時(shí)拍攝時(shí)的物理位置上有一定距離,所以在融合前需要找到一個(gè)合適的偏移量,然后根據(jù)此參數(shù)對(duì)圖像進(jìn)行位置偏移。由于熱成像攝像機(jī)和可見(jiàn)光攝像機(jī)的物理距離是固定的,所以找到此參數(shù)后便可反復(fù)使用。將偏移好的邊緣檢測(cè)圖像與成像不清晰的熱成像圖像進(jìn)行疊加融合,便可得到較清晰的融合圖像。在融合時(shí),使用邊緣檢測(cè)圖像進(jìn)行左右移動(dòng)來(lái)匹配熱成像圖像,成功匹配后進(jìn)行標(biāo)記,由于熱成像圖像和融合圖像的大小與人車的相對(duì)位置都已對(duì)應(yīng),所以可將分類與位置信息直接存入.xml 文件。
在圖4(a)中,購(gòu)物廣場(chǎng)的環(huán)境光照較充足,可見(jiàn)光攝像機(jī)能捕捉到一些圖像信息,可用來(lái)輔助熱成像圖像的標(biāo)注工作。(b)中因行人較多,在熱成像圖像中會(huì)有重疊和模糊現(xiàn)象的存在,導(dǎo)致看不清到底有幾個(gè)人。(c)中因?yàn)閮蓚€(gè)攝像機(jī)在安裝時(shí)會(huì)有物理上的距離,將邊緣檢測(cè)后的可見(jiàn)光圖像和熱成像圖像融合后,出現(xiàn)了位置不對(duì)應(yīng)的情況,比如圖中圈出人的輪廓與實(shí)際位置不對(duì)應(yīng)。(d)中經(jīng)過(guò)偏移融合后,我們可以清晰地看出圖像中每個(gè)目標(biāo)的輪廓,圈中人的位置也可以正確對(duì)應(yīng),大大提高了圖像標(biāo)注的準(zhǔn)確度與效率。
圖3 常用邊緣檢測(cè)算法對(duì)比Fig.3 Comparison of common edge detection algorithms
圖4 不同形式的圖像對(duì)比Fig.4 Comparison of different forms of images
本文使用一塊Nvidia GTX1080Ti 11G 顯存的GPU 進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)環(huán)境為Ubuntu16.04+Cuda8.0+Cudnn5.1+TensorFlow1.2.0。數(shù)據(jù)集共有2000 張圖像,采用平均隨機(jī)分布的方法從中抽取1400 張圖像作為訓(xùn)練集,從剩下的600張中用相同的方法抽取200張圖像作為測(cè)試集,剩余400 張為驗(yàn)證集。經(jīng)多次實(shí)驗(yàn),在訓(xùn)練40000 次后loss 值基本穩(wěn)定收斂,故將訓(xùn)練的次數(shù)設(shè)置為40000,學(xué)習(xí)率開(kāi)始設(shè)置為0.005,隨后每10000 次衰減50%。圖像大小固定尺寸至1440×1080。BN 層的decay 參數(shù)設(shè)置為0.9,將基礎(chǔ)特征網(wǎng)絡(luò)的前兩層is training 設(shè)置為False。
首先驗(yàn)證熱成像方法的有效性,在測(cè)試時(shí),對(duì)于可見(jiàn)光圖像使用Faster RCNN 網(wǎng)絡(luò)(VGG16)進(jìn)行測(cè)試,對(duì)于熱成像圖像,使用FIR Faster RCNN 網(wǎng)絡(luò)測(cè)試,測(cè)試圖像均為同一場(chǎng)景下使用不同攝像機(jī)拍攝的,且未被訓(xùn)練。根據(jù)圖5 的檢測(cè)效果來(lái)看,本文提出的網(wǎng)絡(luò)在熱成像圖像中可有效地檢測(cè)與識(shí)別人車目標(biāo),且在類似場(chǎng)景(3)的環(huán)境下,檢測(cè)效果顯著優(yōu)于可見(jiàn)光圖像。
圖5 檢測(cè)效果對(duì)比圖Fig.5 Comparison of inspection results
其次驗(yàn)證優(yōu)化后網(wǎng)絡(luò)的可靠性,圖6 所示的依據(jù)Tensor Board 統(tǒng)計(jì)數(shù)值畫出的曲線我們可以得到,在訓(xùn)練的過(guò)程中,本文提出的優(yōu)化網(wǎng)絡(luò)最終的總體損失終值為0.11,各個(gè)參數(shù)的損失值都可以隨著訓(xùn)練次數(shù)的增加而逐漸收斂到一個(gè)穩(wěn)定的數(shù)值。表2 的數(shù)據(jù)說(shuō)明了本文引入與設(shè)計(jì)的各個(gè)模塊對(duì)于模型最終結(jié)果的影響程度。多通道卷積核有效提升了模型的預(yù)測(cè)精度;對(duì)于本文的小樣本數(shù)據(jù)集,全局平均池化可顯著優(yōu)化模型的過(guò)擬合能力;批標(biāo)準(zhǔn)化的使用使得模型可以快速收斂并得到模型的最優(yōu)結(jié)果。圖5 中,本文方法可較好地檢測(cè)出目標(biāo),邊框回歸位置也比較精準(zhǔn),特別是在少樣本的車類別檢測(cè)與識(shí)別中,相對(duì)其他兩種網(wǎng)絡(luò)表現(xiàn)較好。
圖6 網(wǎng)絡(luò)訓(xùn)練總體收斂曲線對(duì)比Fig.6 Network training overall convergence curves comparison
表2 各模塊性能對(duì)比Table 2 Performance comparison of each module
使用平均精確度(Average Precision)指標(biāo)來(lái)對(duì)所有測(cè)試集圖像進(jìn)行分析。針對(duì)數(shù)據(jù)集D和學(xué)習(xí)器f而言:
1)錯(cuò)誤率:分類錯(cuò)誤的樣本數(shù)占總樣本的比例,即:
2)精度:分類正確的樣本數(shù)占總樣本的比例,即:
對(duì)于本文的檢測(cè)類別(人)來(lái)說(shuō),在測(cè)試集中的一張圖像里,精確度(Precision)=此圖像識(shí)別正確的人的數(shù)量/此圖像標(biāo)簽中人的總數(shù)。平均精確度=對(duì)含有人的圖像精確度求和/含有人的圖像總數(shù)??傮w平均精確度(mean Average Precision)=對(duì)人和車的平均精確度求和/2。最后在自制的數(shù)據(jù)集上使用兩種方法分別進(jìn)行測(cè)試。
表2 和表3 的數(shù)值可以量化分析識(shí)別的準(zhǔn)確率,驗(yàn)證網(wǎng)絡(luò)的識(shí)別效果。根據(jù)表中數(shù)據(jù)我們可以看出本文方法在平均準(zhǔn)確度上高于VGG16 及VGG19。VGG19 雖然在人的識(shí)別準(zhǔn)確率上較高,但其受小樣本目標(biāo)分布不均衡的影響較大,在車的分類準(zhǔn)確率上表現(xiàn)不佳,不具有泛化能力。最終上述各項(xiàng)指標(biāo)的結(jié)果證明了本文網(wǎng)絡(luò)設(shè)計(jì)方案的可行性及泛化能力。
從圖5 和表3、4 中可以看出,本文設(shè)計(jì)的優(yōu)化網(wǎng)絡(luò)較先前方法可較好地檢測(cè)出目標(biāo)行人,但由于數(shù)據(jù)圖像的分辨率較低,部分與人體溫度接近的背景目標(biāo)與人體邊界處并不能有效地在圖像中呈現(xiàn),導(dǎo)致目標(biāo)回歸框的定位仍有偏差。場(chǎng)景①中由于行人目標(biāo)較小,存在漏檢的情況。針對(duì)上述問(wèn)題,在下一步的研究工作中,考慮設(shè)計(jì)一種基于深度學(xué)習(xí)的顯著圖融合模型來(lái)增強(qiáng)遠(yuǎn)紅外圖像中的行人目標(biāo),并嘗試使用超分辨率網(wǎng)絡(luò)來(lái)對(duì)低分辨率的熱成像數(shù)據(jù)進(jìn)行分辨率增強(qiáng),使其盡可能的被銳化,提升對(duì)于小目標(biāo)行人的檢測(cè)識(shí)別率。同時(shí)在我們研究的過(guò)程中,其他機(jī)構(gòu)也發(fā)布了一些分辨率較高的熱成像圖像,我們會(huì)在此基礎(chǔ)上繼續(xù)深入的研究。
表3 類別AP 值Table 3 Class AP Values
表4 mAP 值及效率Table 4 mAP values and detection times
針對(duì)傳統(tǒng)方法在夜間環(huán)境下人車檢測(cè)與識(shí)別效果不佳的情況,本文提出了使用小樣本低分辨率熱成像圖像和優(yōu)化卷積網(wǎng)絡(luò)組合的方式來(lái)提升檢測(cè)與識(shí)別的精度。分別在明亮,明暗交替和黑暗3 種典型的夜間場(chǎng)景進(jìn)行了實(shí)驗(yàn)。根據(jù)實(shí)驗(yàn)結(jié)果顯示,優(yōu)化后的網(wǎng)絡(luò)可以較好地檢測(cè)到物體并準(zhǔn)確分類,實(shí)際效果明顯優(yōu)于可見(jiàn)光圖像。在之后的工作中,我們也會(huì)繼續(xù)尋找優(yōu)化方法來(lái)提升識(shí)別準(zhǔn)確率,助力熱成像技術(shù)在計(jì)算機(jī)視覺(jué)領(lǐng)域里的普及。綜上所述,使用小樣本低分辨率紅外熱成像圖像和優(yōu)化卷積神經(jīng)網(wǎng)絡(luò)來(lái)進(jìn)行夜間環(huán)境下的人車檢測(cè)與識(shí)別取得了良好的效果,在自動(dòng)駕駛和安防等領(lǐng)域具有較高的普適性和實(shí)用價(jià)值。