程勇策,鄭 堯,趙 濤
(1.中國電子科技集團第三研究所,北京 100015;2.陸航研究所,北京 101121)
目前,目標檢測能力在光電偵查、光電監(jiān)視及導航制導等領域的應用受到越來越多的重視[1-3]。單純依靠圖像信息進行檢測方法存在實時性較差、弱小目標檢測困難以及易受環(huán)境影響等問題。因此,為獲得更為精確的目標檢測和識別率,光電偵查系統(tǒng)往往采用多光(如可見光和紅外等)架構,或借助激光或毫米波雷達的信息對目標識別進行輔助判別。多源信息融合可以對同一目標進行全面詳盡的描述,異源信息可以提高互補性,增加對圖像理解的可靠性,但這也極大地增加了系統(tǒng)的復雜度。
目前,基于多源信息融合的目標檢測方法受到研究人員越來越多的關注,其更多地應用在自動駕駛和光電監(jiān)測等領域??突仿〈髮W的Urmson等人[4]在自動駕駛的研究中,提出使用激光雷達和彩色圖像信息融合的目標檢測方法,實現(xiàn)車輛周圍環(huán)境的快速感知。
SAIC公司推出了一款光電與雷達融合監(jiān)控系統(tǒng)[5]。該系統(tǒng)用于地空、海洋、陸地或者岸基警戒等安全領域,可將光電與雷達的數(shù)據(jù)進行軟件集成,使用導航雷達探測目標后,自動引導光電調(diào)整到位進行目標進一步識別。Karpathy等人[6]開展了基于紅外和可見光圖像數(shù)據(jù)源融合的行人和車輛目標檢測方法的研究,提出了基于孿生深度卷積神經(jīng)網(wǎng)絡,在不同融合機制下,很好地實現(xiàn)了目標檢測和分類。Zhang等人[7]根據(jù)監(jiān)視臺站長期積累的可見光圖像和紅外圖像,建立了相關多光譜的數(shù)據(jù)集,利用Matlab的深度學習組件對雙光譜的艦船圖像進行了訓練,并且在可見光圖像無法獲取目標時,利用紅外光譜圖像對目標進行識別。上海大學的奚玉鼎等人提出一種紅外、可見光以及雷達融合探測的低、慢、小目標識別系統(tǒng),系統(tǒng)可針對?;桶痘膽眠M行調(diào)整,信息處理系統(tǒng)可以將雷達、紅外及可見光圖像進行融合,實現(xiàn)目標的融合判決。國防科技大學的項目[8]提出以激光雷達和可見光立體視覺為基礎,基于深度學習的方法,實現(xiàn)障礙物識別以及行人和車輛感知。雖然采用多光譜相機或者加裝雷達和激光等設備后,光電監(jiān)視系統(tǒng)對目標特性的檢測能力大大增強,尤其在距離信息與速度信息提取方面更具有優(yōu)勢,但是這將大大增加系統(tǒng)的成本,同時,存在系統(tǒng)待處理數(shù)據(jù)量過大的情況,這也對信息處理硬件的處理能力提出了很高的要求。
本文提出一種基于Dezert-Smarandache(D-S)信息融合理論的目標識別方法。該方法采用了準確率較高且可以在移動硬件端部署的輕量級網(wǎng)絡——MobileNet+SSD的卷積神經(jīng)網(wǎng)絡作為圖像信息的依據(jù)。在該網(wǎng)絡中,通過密集鏈接實現(xiàn)特征層的快速增廣,有效降低了模型的參數(shù)數(shù)據(jù)量,實現(xiàn)了模型的輕量化。該方法借助光電伺服系統(tǒng)提供的目標空間特征,獲取目標的空地位置、角速度及速度等信息,最終采用Dezert-Smarandache理論對識別結果進行融合判決,實現(xiàn)對目標類型(人、車、船及飛機)的檢測和分類。
目前,移動設備端的計算能力很難滿足當前表現(xiàn)較好的目標檢測網(wǎng)絡對計算能力的需求,因此需要對網(wǎng)絡進行結構剪枝和參數(shù)蒸餾等操作。MobileNet+SSD系列卷積神經(jīng)網(wǎng)絡是一種新結構的輕量型目標檢測網(wǎng)絡[9],可以在保持較高檢測準確率的情況下,有效減少網(wǎng)絡中的參數(shù)量與計算量。因此本文選取MobileNetV2網(wǎng)絡作為特征提取網(wǎng)絡并進行適當改進。相較于MobileNetV1網(wǎng)絡,MobileNetV2網(wǎng)絡引入了線性瓶頸(Linear Bottlenecks)和 反 向 殘 差 塊(Inverted Residual block)。在網(wǎng)絡輸出維度較小層后,線性瓶頸只采用線性激活函數(shù)而非ReLu非線性激活函數(shù),這種改進降低了使用ReLu非線性激活函數(shù)造成的信息損失。反向殘差塊的設計采用了先升維、后降維的結構,與傳統(tǒng)的殘差塊先降維、后升維的結構相反。反向殘差的結構可以解決訓練時隨著網(wǎng)絡深度增加而出現(xiàn)的梯度消失問題,使得反向傳播過程中深度網(wǎng)絡的淺層網(wǎng)絡也能得到梯度,使得淺層網(wǎng)絡的參數(shù)也可被訓練,從而增加了特征表達能力。MobilenetV2的瓶頸結構如圖1所示。
圖1 MobilenetV2瓶頸圖
瓶頸層中圖像參數(shù)的輸入與輸出情況如表1所示。其中,k和k′分別是瓶頸層輸入和輸出圖像的通道數(shù);h和w分別是輸入圖像的高度和寬度,t是擴張系數(shù);s是步長。
表1 MobilenetV2瓶頸層的輸入輸出
瓶頸的設計還采用了反向殘差塊的整體結構模式,特征圖在計算中采用先升維、后降維的策略。本文采用的瓶頸結構如圖2所示。與原網(wǎng)絡不同的是,借鑒在s=1時的殘差連接結構,在輸出特征圖大小一致的瓶頸之間采用圖像拼接代替殘差連接。實驗證明,這樣的結構可以借助特征復用來提升信息和梯度在網(wǎng)絡中的傳輸效率。盡管特征圖拼接會造成瓶頸輸出通道數(shù)的快速增加,從而導致網(wǎng)絡參數(shù)和計算量的增加,但通過適當降低瓶頸的擴張系數(shù)t,可以實現(xiàn)對網(wǎng)絡規(guī)模的控制。
圖2 本文的瓶頸結構
在網(wǎng)絡設計方面,本文將Dense-Net的密集連接應用于MobileNetV2+SSD的網(wǎng)絡中。本文的特征提取網(wǎng)絡MobileNetV2沒有采用多個輸出通道堆疊的方式,而是對瓶頸的輸出通道數(shù)進行放大,最終實現(xiàn)通道的增長。結構中首先堆疊數(shù)個步長為1的瓶頸,并采用密集連接對輸出通道進行拼接,以提高網(wǎng)絡通道數(shù)量。同時,為了保證網(wǎng)絡的復雜度與特征提取能力,使用了t=1、s=1的瓶頸和t=1、s=1的瓶頸的組合來完成輸出通道數(shù)縮小。改進的MobileNetV2+SSD網(wǎng)絡的結構如圖3所示。
在MobileNet特征提取網(wǎng)絡中,瓶頸結構的拼接在一定程度上可以代替或者部分代替擴張系數(shù)對于通道數(shù)的擴張作用。本網(wǎng)絡在卷積層較深的位置采用了較小的擴張系數(shù),如第13、14、17及16個bottleneck部分。
圖3 改進的MobileNet+SSD網(wǎng)絡結構
瓶頸參數(shù)的計算方法為:
式中:p為網(wǎng)絡參數(shù)數(shù)量;t為擴張系數(shù);Cin為圖像通道數(shù);Cout為輸出通道數(shù)。
MobileNet網(wǎng)絡結構中,關鍵特征提取層對應的輸入輸出參數(shù)和計算量如表2所示。改進網(wǎng)絡的參數(shù)量為245 864個,較之前的網(wǎng)絡結構參數(shù)量減少約17%,計算量減少了約13%。網(wǎng)絡結構經(jīng)過改進后,計算量與參數(shù)量都有明顯的降低。參數(shù)與計算量減少的原因為:在原網(wǎng)絡中s=2的瓶頸會對輸出的通道數(shù)進行放大,這些輸入經(jīng)過多層傳遞后必然會產(chǎn)生更多的計算量。而拼接結構s=2的瓶頸的輸出通道數(shù)較少,即這些瓶頸內(nèi)的參數(shù)與計算量也較少。通過拼接的方式不會進行多余的計算。
MobileNetV2+SSD網(wǎng)絡結構共有29層網(wǎng)絡結構。其中,MobileNetV2特征提取網(wǎng)絡有17層,其余12層由17層網(wǎng)絡衍生而成,其作用是為SSD提供不同尺度的特征圖。本文沿用了SSD的基礎結構,未對其進行改進。
表2 MobileNet網(wǎng)絡部分計算參數(shù)以及計算量
基于伺服信息的目標組分類是通過光學倉伺服控制系統(tǒng)的陀螺和GPS提供的轉(zhuǎn)臺的方位角度、俯仰角度、相應的角速度以及位置信息來判斷目標的大致類型。由伺服提供的信息和圖像信息,雖然不需要伺服信息和圖像在時間上進行融合,但是需要傳感器和伺服系統(tǒng)在時間上的同步輸出數(shù)據(jù)。根據(jù)伺服系統(tǒng)陀螺儀工作手冊,其采樣頻率為1 000 Hz,圖像傳感器的采樣頻率為25 Hz。以采樣速率慢的傳感器為基準向下兼容,在第40 ms、80 ms、120 ms等時間節(jié)點,在伺服和相機報文刷新時,進行信息采集和融合工作。其時間同步如圖4所示。
圖4 伺服和相機時間同步示意圖
基于伺服信息的目標識別流程如圖5所示。首先,根據(jù)伺服的GPS信息判斷系統(tǒng)的安裝位置和安裝高度;其次,通過俯仰信息判斷得到觀測物體的大致俯仰陀螺的方位信息(光軸的指向),判斷其為地面物體還是空中物體;最后,通過方位陀螺的角速度信息近似判斷物體的速度。最終形成地面低速、地面高速、空中低速以及空中高速4大類物體特征。
多源信息目標智能判決技術主要通過對圖像識別結果和伺服轉(zhuǎn)臺信息進行融合判決的形式對目標進行判別,篩選那些判別概率最大的結果。由于低、慢、小目標輻射噪聲的多源信息是在光電探測器和伺服信息在不同機制下獲取的,多源信息之間配準困難,因此,本文采用D-S證據(jù)理論的目標融合驗證方法,如圖6所示。
根據(jù)D-S判決理論[10],將判決的光電伺服跟蹤目標種類的所有可能結果通過識別框架Θ進行表示,且Θ中的元素是互不相融的,Θ中所有子集為2Θ。定義Θ上的函數(shù)m:2Θ→[0,1]滿足:
式中:m(A)為A的基本概率賦值,表示對識別結果A的信任度。空集的信任度為0,識別結果信任度之和為1。
在識別結果中存在子集A滿足m(A)>0,則稱A為識別結果的一個焦元。定義識別框架Θ上的置信函數(shù)為B,函數(shù)可以表示為:
識別結果的合成規(guī)則為:將多個組識別結果轉(zhuǎn)化為一個融合的識別結論,從而實現(xiàn)多識別結果的融合。即可以通過求解同一焦元的子集基本概率賦值的正交和,求得該焦元的合成概率指派:
圖5 基于伺服信息的目標識別流程
圖6 D-S目標信息判決理論智能判決技術
融合判決對基于伺服信息的判斷設定為:當判定地面低速目標時,該焦元的基本概率賦值設定為0.7,地面高速目標的概率賦值設定為0.3,其他焦元設定為0,其他情況同理。
本文的實驗環(huán)境為Linux Ubuntu 18.04系統(tǒng),核心處理器為Intel i7 9700,內(nèi)存為16 GB,圖形計算單元為 GTX 1080 Ti,采用 PyTorch1.2,Cuda10.0,Cudnn7.5,用的數(shù)據(jù)集為COCO 2012數(shù)據(jù)集中人、車、船、飛機部分數(shù)據(jù)以及自主采集數(shù)據(jù),網(wǎng)絡訓練選擇人、車、船及飛機的圖像各2 000張,測試圖像各200張。
測試的loss曲線如圖7所示。從圖7可以看出,loss曲線在訓練最初下降速度較快,而后loss值變化趨于平緩。改進后,loss平穩(wěn)后的值與原始網(wǎng)絡相近,說明在對原始網(wǎng)絡的規(guī)模進行縮減時并沒有使網(wǎng)絡的訓練變得困難。
圖7 loss曲線
網(wǎng)絡在測試集上的準確率變化如圖8所示。從圖8以看出,在測試集上,改進網(wǎng)絡和原始MobileNetV2網(wǎng)絡在典型圖像場景檢測任務方面都有著較高的準確率。其總體趨勢為:交并比(IoU)越高,召回越低,并且在整個訓練測試中,改進網(wǎng)絡的表現(xiàn)優(yōu)于原始的MobileNetv2網(wǎng)絡。例如,在召回率為0.8時,改進網(wǎng)絡的IoU提高了約5%。
圖8 網(wǎng)絡在測試集的準確率變化曲線
根據(jù)D-S證據(jù)理論對外場試驗采集的圖像進行檢測并和伺服參數(shù)進行融合判決。僅取圖像檢測時4個結果的可能性作為4個焦元,并將圖像檢測和根據(jù)伺服參數(shù)估計的結果作為證據(jù)信息融合圖像檢測結果,如圖9所示。其中,對圖像9(a)的判決結果如表3所示。針對圖9(b)基于D-S信息融合的伺服空間和圖像信息融合結果如表3所示。可以看到,僅僅依靠圖像信息,汽車的檢測的置信度僅為38%,而飛機的置信度為44%,出現(xiàn)了明顯的判讀誤差。但是根據(jù)轉(zhuǎn)臺提供的空間信息對汽車判別,根據(jù)式(4)進行融合判決時,可以看到檢測目標的識別種類為汽車,檢測置信度上升到81%,極大地提高了檢測的準確率。
圖9 圖像融合檢測結果
表3 基于D-S信息融合的伺服空間和圖像信息融合結果
本文提出了一種基于圖像識別信息與伺服系統(tǒng)提供的空間信息相融合的目標檢測和識別算法。該技術的圖像識別算法采用了改進的MobileNetV2+SSD圖像檢測算法,圖像檢測較原MobileNet+SSD網(wǎng)絡計算量降低12%左右,檢測精度最高能達到81%。信息融合采用D-S信息融合方法,對弱小目標的判別準確率可以達到70%,較之前提高21.5%,尤其針對圖像網(wǎng)絡難以識別的小目標,檢測準確率提高明顯。