侯毅葦,李林漢,王 彥
(1.河北金融學(xué)院, 大數(shù)據(jù)科學(xué)學(xué)院,河北 保定 071051; 2.河北金融學(xué)院, 金融創(chuàng)新與風(fēng)險(xiǎn)管理研究中心,河北 保定 0710051; 3.中國(guó)電子科技集團(tuán)公司第五十四所 信息傳輸與分發(fā)技術(shù)重點(diǎn)實(shí)驗(yàn)室,河北 石家莊050081)
關(guān)鍵字:目標(biāo)識(shí)別;紅外顯著性;目標(biāo)導(dǎo)引;深度學(xué)習(xí);YOLO-V3;智能裝備
隨著新軍事變革的不斷推進(jìn)和發(fā)展,戰(zhàn)場(chǎng)形態(tài)將走向智能化與信息化,主要作戰(zhàn)方式也朝著整個(gè)武器裝備體系間的對(duì)戰(zhàn)發(fā)展,未來(lái)裝備對(duì)于目標(biāo)自主捕獲功能的需求越來(lái)越迫切[1]。然而,現(xiàn)有裝甲裝備火控系統(tǒng)大多數(shù)采用人為指定目標(biāo),啟動(dòng)跟蹤器實(shí)施對(duì)特定目標(biāo)的跟蹤,無(wú)法對(duì)可能出現(xiàn)的威脅目標(biāo)進(jìn)行檢測(cè)與識(shí)別。因此,如何提高火控系統(tǒng)的目標(biāo)自主/半自主識(shí)別性能將是未來(lái)智能裝甲裝備的發(fā)展方向[2]。
目標(biāo)自主檢測(cè)與識(shí)別是指利用機(jī)器學(xué)習(xí)及人工智能方法在圖像中自動(dòng)獲取目標(biāo)類別和位置?,F(xiàn)有的方法大都是對(duì)典型目標(biāo),如飛機(jī)、來(lái)襲導(dǎo)彈、艦船、橋梁等進(jìn)行識(shí)別。在實(shí)戰(zhàn)環(huán)境下,實(shí)時(shí)預(yù)警檢測(cè)系統(tǒng)需要具備復(fù)雜背景中廣域目標(biāo)探測(cè)與識(shí)別[3]。由于缺乏目標(biāo)的先驗(yàn)信息,現(xiàn)有算法存在虛警率高、實(shí)時(shí)性偏低等問(wèn)題,限制了實(shí)戰(zhàn)環(huán)境下的廣泛應(yīng)用。迄今為止,國(guó)內(nèi)外廣域目標(biāo)檢測(cè)與識(shí)別項(xiàng)目仍然處于試驗(yàn)階段,還沒(méi)有軍品上可靠的型號(hào)產(chǎn)品,迫切要求研究大范圍遠(yuǎn)距離成像條件下的穩(wěn)健目標(biāo)檢測(cè)識(shí)別算法。
眾所周知,復(fù)雜背景下自主識(shí)別能力和實(shí)時(shí)性成為制約人工智能技術(shù)實(shí)用性的關(guān)鍵。現(xiàn)有的大多數(shù)算法是利用低層次特征進(jìn)行支持向量機(jī)(Support Vector Machine,SVM)分類。文雄志等人提出了一種基于河流先驗(yàn)信息的橋梁識(shí)別方法,該方法利用橋梁大概率位于河流之上的先驗(yàn)信息,通過(guò)提取河流上的疑似區(qū)域特征,然后通過(guò)分類器的判斷,實(shí)現(xiàn)橋梁的檢測(cè)[4]。Yao 等人利用機(jī)場(chǎng)跑道特有特征,設(shè)計(jì)了一種多尺度模式分類方法,能夠從大范圍搜索區(qū)域中識(shí)別目標(biāo)[5]。雖然這些方法已經(jīng)能夠較高精度地識(shí)別典型目標(biāo),但該類方法對(duì)圖像的質(zhì)量與目標(biāo)特性要求較高。一旦目標(biāo)的形狀改變,識(shí)別率大大降低。因此,現(xiàn)有的裝備還并不具備完全依靠系統(tǒng)自身識(shí)別能力進(jìn)行打擊。航天九院的出口型“彩虹”無(wú)人機(jī)仍然是利用數(shù)據(jù)鏈由人在回路進(jìn)行目標(biāo)打擊,其識(shí)別系統(tǒng)主要用于輔助識(shí)別。目前,以卷積神經(jīng)網(wǎng)絡(luò)為代表的深度學(xué)習(xí)方法已經(jīng)在可見(jiàn)光圖像識(shí)別領(lǐng)域取得了不錯(cuò)的成績(jī),從RCNN[6]、SPP-Net[7]、Fast-RCNN[8]、Faster- RCNN[9]、YOLO[10]、SSD[11]、YOLO-v2[12]到Y(jié)OLO-v3[13]正在逐步刷新目標(biāo)檢測(cè)與識(shí)別的精度和速度。與傳統(tǒng)人工設(shè)計(jì)特征不同,深度網(wǎng)絡(luò)通過(guò)非線性網(wǎng)絡(luò)結(jié)構(gòu)逐層學(xué)習(xí)潛在特征,獲得目標(biāo)最本質(zhì)的特征信息。
由于地面裝備的特殊性,直接將現(xiàn)有模型應(yīng)用到目標(biāo)檢測(cè)與識(shí)別中,效果不太理想。首先,車載裝備需要實(shí)時(shí)的對(duì)目標(biāo)進(jìn)行識(shí)別,而神經(jīng)網(wǎng)絡(luò)模型復(fù)雜度太高,很難滿足實(shí)時(shí)性的要求;其次,車輛行駛過(guò)程的煙塵嚴(yán)重影響成像質(zhì)量,導(dǎo)致目標(biāo)識(shí)別率不高。因此,針對(duì)深度神經(jīng)網(wǎng)絡(luò)模型很少直接應(yīng)用于裝甲光電系統(tǒng),且實(shí)時(shí)性較差的問(wèn)題,本文提出一種結(jié)合紅外顯著性目標(biāo)導(dǎo)引的改進(jìn)YOLO 網(wǎng)絡(luò)的智能裝備目標(biāo)識(shí)別系統(tǒng),該方法利用紅外與電視的互補(bǔ)特征,通過(guò)均值漂移聚類快速地獲取疑似目標(biāo),并通過(guò)改進(jìn)的YOLO 模型進(jìn)行可見(jiàn)光目標(biāo)識(shí)別。實(shí)驗(yàn)仿真結(jié)果表明,本文提出的方法對(duì)地面目標(biāo)識(shí)別精度較高,能夠用于戰(zhàn)場(chǎng)環(huán)境下態(tài)勢(shì)感知、區(qū)域監(jiān)控及目標(biāo)打擊應(yīng)用。
YOLO-v3 網(wǎng)絡(luò)是目前目標(biāo)識(shí)別領(lǐng)域較好的一種深度學(xué)習(xí)模型,該網(wǎng)絡(luò)是從YOLO 和YOLO-v2 網(wǎng)絡(luò)演變而來(lái)[13]。與基于候選區(qū)域的深度學(xué)習(xí)網(wǎng)絡(luò)相比,YOLO 網(wǎng)絡(luò)將檢測(cè)問(wèn)題轉(zhuǎn)化為回歸問(wèn)題,該網(wǎng)絡(luò)不需要窮舉候選區(qū)域,直接通過(guò)回歸生成目標(biāo)的置信度和邊界框坐標(biāo)。與Faster-RCNN 網(wǎng)絡(luò)相比,大大提高了檢測(cè)速度。
YOLO 檢測(cè)模型如圖1 所示。網(wǎng)絡(luò)將訓(xùn)練集中的每個(gè)圖像分成S×S(S=13)網(wǎng)格。如果真實(shí)目標(biāo)的中心落入網(wǎng)格中,則該網(wǎng)格負(fù)責(zé)檢測(cè)目標(biāo)的類別。在每個(gè)網(wǎng)格中預(yù)測(cè)出來(lái)多個(gè)邊界框,并且要為每個(gè)預(yù)測(cè)出來(lái)的邊界框評(píng)分,以便表示該邊界框完全包含目標(biāo)的置信度(Confidence),其定義如下:
式中:Pr(object)表示邊界框中包含目標(biāo)的概率(若存在目標(biāo)Pr(object)=1,反之等于0);則表示預(yù)測(cè)結(jié)果和基準(zhǔn)邊框之間的重疊度(Intersection over Union, IoU)。置信度反映了網(wǎng)格是否包含目標(biāo)以及預(yù)測(cè)邊界框的準(zhǔn)確性。當(dāng)多個(gè)邊界框檢測(cè)到同一目標(biāo)時(shí), YOLO 使用非最大抑制( Non-Maximum Suppression,NMS)方法選擇最佳邊界框。
圖1 YOLO 模型識(shí)別流程Fig.1 Recognition process in YOLO model
雖然YOLO 獲得了更快的檢測(cè)速度,但它的檢測(cè)準(zhǔn)確率不如Faster R-CNN。為了解決這個(gè)問(wèn)題,YOLO-v2 改進(jìn)了網(wǎng)絡(luò)結(jié)構(gòu),并使用卷積層替換YOLO輸出層中的完全連接層。同時(shí),YOLO-v2 還引入了批量歸一化、維度聚類、細(xì)粒度特征、多尺度訓(xùn)練等策略,與YOLO 相比大大提高檢測(cè)精度的其他方法。YOLO-v3 是YOLO-v2 的改進(jìn)版,通過(guò)使用多尺度預(yù)測(cè)來(lái)檢測(cè)最終目標(biāo),其網(wǎng)絡(luò)結(jié)構(gòu)比YOLO-v2 更復(fù)雜。YOLO-v3 可以預(yù)測(cè)不同尺度的邊界框,相比YOLO-v2 能更有效地檢測(cè)小目標(biāo)。
現(xiàn)有的地面裝備光電系統(tǒng)將電視攝像機(jī)和紅外熱像儀集成于光電平臺(tái)上,通過(guò)平臺(tái)的轉(zhuǎn)動(dòng)對(duì)指定區(qū)域進(jìn)行圖像采集,然后送出圖像處理單元進(jìn)行分析,實(shí)現(xiàn)目標(biāo)檢測(cè)與跟蹤,為作戰(zhàn)人員提供精確指示,進(jìn)而實(shí)現(xiàn)對(duì)目標(biāo)打擊[14]。紅外熱像儀可實(shí)現(xiàn)廣域遠(yuǎn)距離目標(biāo)搜索,但是獲取的遠(yuǎn)距離目標(biāo)圖像信噪比偏低,不利于目標(biāo)識(shí)別;電視攝像機(jī)可以獲取豐富的紋理細(xì)節(jié)的目標(biāo)圖像,有利于虛假目標(biāo)的剔除以及真目標(biāo)識(shí)別。因此,結(jié)合紅外和可見(jiàn)光探測(cè)器互補(bǔ)思想,利用目標(biāo)熱特性實(shí)現(xiàn)目標(biāo)定位,再由可見(jiàn)光圖像進(jìn)行識(shí)別,降低YOLO 深度識(shí)別網(wǎng)絡(luò)對(duì)疑似區(qū)域識(shí)別時(shí)間,其系統(tǒng)框圖如圖2 所示。
大多數(shù)深度識(shí)別網(wǎng)絡(luò)在訓(xùn)練前需要設(shè)定初始的目標(biāo)尺度,近似的尺度將獲得更加準(zhǔn)確的位置,使得模型更加容易收斂。目前存在兩類先驗(yàn)框計(jì)算方法:第一種是直接對(duì)尺寸大小進(jìn)行預(yù)測(cè);第二種是錨點(diǎn)框(anchor box)候選模板[12]。這兩種方法都是在訓(xùn)練過(guò)程進(jìn)行尺度微調(diào),但前者受誤差影響較大容易往更大尺度的邊界框變化,后者則不能保證先驗(yàn)框就是最優(yōu)尺度,容易陷入局部最小。
為了提取目標(biāo),需要從紅外圖像中提取目標(biāo)像素點(diǎn),并對(duì)像素點(diǎn)進(jìn)行特征描述,實(shí)現(xiàn)特征聚類。為了簡(jiǎn)化運(yùn)算,本文采用均值分割對(duì)疑似目標(biāo)進(jìn)行粗分割,然后采取均值漂移聚類進(jìn)行目標(biāo)定位,最后利用目標(biāo)的結(jié)構(gòu)特性篩選出待識(shí)別的目標(biāo)。
為了實(shí)現(xiàn)目標(biāo)檢測(cè)并定位,需要對(duì)疑似目標(biāo)區(qū)域進(jìn)行聚類分析。在未知目標(biāo)先驗(yàn)信息的情況下,本文采用均值漂移算法進(jìn)行聚類。均值漂移算法(Mean Shift)是一種非參數(shù)概率密度估計(jì)方法[15],通過(guò)逐步密度梯度偏移實(shí)現(xiàn)最優(yōu)聚類,其偏移量定義為概率密度f(wàn)(x)的局部極大值,也就是概率密度的梯度?f(x)為0 的點(diǎn)。假定d維空間Rd中存在n個(gè)樣本點(diǎn)x1,i=1, …,n,在x點(diǎn)的均值漂向量定義如下:
式中:G(x)表示高斯核函數(shù);w(xi)是采樣點(diǎn)xi的權(quán)值,w(xi)≥0;h是帶寬,一般設(shè)置為30,主要依賴于目標(biāo)的最小可識(shí)別尺寸。由于均值漂移向量Mh(x)指向概率密度梯度方向,其本質(zhì)是在指定帶寬范圍內(nèi)尋找最大概率密度函數(shù)梯度的收斂點(diǎn)。等式(2)經(jīng)過(guò)變換可重寫為如下等式:
因此,給定一個(gè)初始點(diǎn)x,核函數(shù)G(x),允許誤差ε=5,若先假定均值漂移算法可以采用交替迭代沿著概率密度梯度的方向不斷移動(dòng),最終獲得最優(yōu)聚類中心。因此,通過(guò)對(duì)所有像素點(diǎn)進(jìn)行協(xié)同的聚類分析,得到不同的類集合。
由于粗分割與定位獲得了大量疑似目標(biāo)區(qū)域,為了降低識(shí)別網(wǎng)絡(luò)處理的復(fù)雜度,本文采用目標(biāo)空間結(jié)構(gòu)特性剔除虛假目標(biāo)。紅外目標(biāo)空間結(jié)構(gòu)特性往往與形狀特征、大小特征、位置布局特征等有密切關(guān)系,是實(shí)現(xiàn)主觀視覺(jué)判讀和機(jī)器解譯分析的主要參考依據(jù)。本文采用長(zhǎng)寬比與矩形度作為目標(biāo)的空間幾何特征進(jìn)行目標(biāo)篩選。
圖2 紅外目標(biāo)位置引導(dǎo)下的深度學(xué)習(xí)目標(biāo)識(shí)別算法框架Fig.2 Framework of deep learning based object recognition guided by the location of infrared object
對(duì)典型目標(biāo)的統(tǒng)計(jì)分析表明大多數(shù)目標(biāo)在長(zhǎng)寬比與矩形度上符合某個(gè)范圍約束,例如:車輛的長(zhǎng)寬比一般在2~3,軍用艦船一般大于5,因此結(jié)合長(zhǎng)寬比能很快排除一些背景干擾,抑制虛警。目標(biāo)的矩形度用來(lái)描述目標(biāo)形狀的復(fù)雜程度,其值越小,表明目標(biāo)越接近矩形。大多數(shù)地面典型目標(biāo)的形狀都是接近于一個(gè)矩形。
通過(guò)上述目標(biāo)幾何結(jié)構(gòu)特征的分析,可以快速剔除虛假目標(biāo),為下一步目標(biāo)識(shí)別提供可靠的目標(biāo)位置,縮小搜索范圍,降低處理時(shí)間。
由于YOLO 網(wǎng)絡(luò)中存在大量卷積和下采樣操作,在訓(xùn)練神經(jīng)網(wǎng)絡(luò)的同時(shí)降低了特征圖的數(shù)量,造成特征信息的損失。因此,為了增強(qiáng)目標(biāo)特征的表征能力,本文提出采用密集連接神經(jīng)網(wǎng)絡(luò)(Dense Net)[16]來(lái)更有效地捕獲特征信息,該策略是利用前饋模式將每個(gè)層信息連接到其他層。也就是說(shuō),第l層接收前面l-1 層的所有特征圖作為輸入:
式中:x0,x1, …,xl-1是前l(fā)-1 層的特征映射的級(jí)聯(lián),Hl則是用于處理級(jí)聯(lián)特征的函數(shù)。密集網(wǎng)絡(luò)可以減輕梯度消失問(wèn)題,增強(qiáng)特征傳播,促進(jìn)特征復(fù)用,并大大減少參數(shù)數(shù)量。雖然密集連接塊的結(jié)構(gòu)使得特征圖得到了重用,但帶來(lái)利用率高的同時(shí)也導(dǎo)致了越到深層的網(wǎng)絡(luò),特征圖的數(shù)量也就越多,計(jì)算的內(nèi)存需求也逐步提升,因此本文采用文獻(xiàn)[16]提出的優(yōu)化策略進(jìn)行。
本文提出的改進(jìn)YOLO-v3 識(shí)別網(wǎng)絡(luò)仍然是以Darknet-53 為基礎(chǔ)網(wǎng)絡(luò)架構(gòu),并使用DenseNet 代替具有較低分辨率的原始轉(zhuǎn)移層,以增強(qiáng)特征傳播,復(fù)用和融合,其模型結(jié)構(gòu)如圖3 所示。YOLO-v3 并沒(méi)有采用Softmax 函數(shù)作為最終的預(yù)測(cè)分類器,而是采用獨(dú)立的邏輯回歸函數(shù)(sigmoid 函數(shù))來(lái)預(yù)測(cè)每個(gè)邊界框的多標(biāo)簽分類。也就是說(shuō),紅外導(dǎo)引的每個(gè)邊界框可以屬于多個(gè)類別,如掩體和坦克,此操作對(duì)于復(fù)雜戰(zhàn)場(chǎng)環(huán)境下多目標(biāo)并存場(chǎng)景是非常有用的。為了滿足多目標(biāo)識(shí)別的需要并驗(yàn)證算法的有效性,本文對(duì)網(wǎng)絡(luò)的末端進(jìn)行了修改,將目標(biāo)類別的數(shù)目改為五類(履帶裝甲、輪式裝甲、人、掩體,靶標(biāo))。所有的輸入圖像首先調(diào)整為512×512像素,代替原有的256×256像素圖像。然后,改進(jìn)網(wǎng)絡(luò)中的32×32 和16×16 原始轉(zhuǎn)移層與下采樣層被DenseNet 結(jié)構(gòu)取代。在本文中,傳遞函數(shù)Hl使用函數(shù)BN-ReLU-Conv(1×1)- BN-ReLU-Conv(3×3),它是卷積算子(Conv),批量歸一化(Batch Normalization,BN),線性整流函數(shù)(Rectified Linear Unit, ReLU)的組合。Hl通過(guò)對(duì)x0,x1, …,xl-1層的數(shù)據(jù)非線性變換,緩減梯度消失,其中xi由64 個(gè)特征提取層組成,每層的分辨率為32×32。特征逐漸前向傳遞,最終得到大小為16×16×1024 的多層次深度特征。
在訓(xùn)練階段,當(dāng)圖像特征被轉(zhuǎn)移到較高分辨率層時(shí),后一特征層將在密集網(wǎng)絡(luò)中接收其前面的所有特征層的特征,從而減少特征損失。另外,通過(guò)這種方式,可以在低分辨率的卷積層之間實(shí)現(xiàn)特征復(fù)用,提高特征的表征能力。
為了驗(yàn)證提出的結(jié)合紅外顯著性目標(biāo)引導(dǎo)的改進(jìn)YOLO 網(wǎng)絡(luò)的目標(biāo)識(shí)別模型,本章將從改進(jìn)的YOLO 模型性能與識(shí)別精度兩方面進(jìn)行分析。本文實(shí)驗(yàn)環(huán)境為:Intel 酷睿i9-9900k @ 3.6 GHz (×8),16 GB×4 (DDR4 3200 MHz),NVIDIA TESLA P100 16G×2,Ubuntu 16.04,64 位操作系統(tǒng)。
圖3 改進(jìn)的YOLO v3 識(shí)別網(wǎng)絡(luò)Fig.3 Improved YOLO v3 recognition networks
為了定性定量地評(píng)價(jià)本節(jié)所提出的識(shí)別模型的有效性,采用自建數(shù)據(jù)集和PASCAL VOC 公共數(shù)據(jù)集進(jìn)行深度學(xué)習(xí)訓(xùn)練和測(cè)試。自建數(shù)據(jù)集是利用中海外九洲(陜西)防務(wù)科技有限公司研制的GD/PD-2801A 光電探測(cè)設(shè)備,其紅外圖像分辨率是640×512,電視圖像分辨率是1280×720。為確保不同探測(cè)器獲取圖像場(chǎng)景一致,紅外與電視視場(chǎng)大小調(diào)到相同大小,且光軸重合。試驗(yàn)從外場(chǎng)采集了46280張紅外及其電視圖像,該數(shù)據(jù)集主要以地面環(huán)境下車輛及人員目標(biāo)的可見(jiàn)光及紅外圖像為主,目標(biāo)類別數(shù)為10。選取32150 幅圖像作為訓(xùn)練樣本,14130 幅圖像作為測(cè)試樣本。標(biāo)注數(shù)據(jù)主要采用耶魯大學(xué)的Autolable 工具[17],實(shí)驗(yàn)所需訓(xùn)練圖像均按照PASCAL VOC 2012 數(shù)據(jù)集格式進(jìn)行了人工標(biāo)注。PASCAL VOC 公共數(shù)據(jù)集是圖像識(shí)別和分類領(lǐng)域優(yōu)秀的數(shù)據(jù)集,被用來(lái)訓(xùn)練本文提出的YOLO 模型,并驗(yàn)證模型的收斂性能。
實(shí)驗(yàn)選擇了YOLO-V3[13],Cascaded RCNN[18],R-FCN-3000[19]和RNOD[20]作為對(duì)比算法,所有的對(duì)比算法都采用作者給出的源代碼或可執(zhí)行文件,并且都用相同的訓(xùn)練集進(jìn)行訓(xùn)練。本次實(shí)驗(yàn)將從算法的均值平均精度(Mean Average Precision,mAP)、幀率(Frames Per Second,F(xiàn)PS)、IoU 三個(gè)方面進(jìn)行分析。
Faster RCNN、FCN 和 SSD 使用 Inception Resnet-v2 作為特征提取網(wǎng)絡(luò),而本文提出的改進(jìn)YOLO-V3 識(shí)別網(wǎng)絡(luò)是以Darknet-53 為基礎(chǔ)網(wǎng)絡(luò)架構(gòu),其網(wǎng)絡(luò)初始化參數(shù)如表1 所示。為了提高模型的檢測(cè)精度,輸入圖像被調(diào)整為 512×512 像素以適應(yīng)Darknet 框架。動(dòng)量、初始學(xué)習(xí)率、權(quán)重衰減正則化等參數(shù)與YOLO-V3 模型中的原始參數(shù)一致;學(xué)習(xí)速率初始化設(shè)置為0.001,然后在訓(xùn)練到第40000 步后降至0.0001,在50000 步后降至0.00001。訓(xùn)練過(guò)程中的準(zhǔn)確度和損失變化如圖4(a)和圖4(b)所示。訓(xùn)練集與測(cè)試集實(shí)驗(yàn)結(jié)果表明,本文改進(jìn)的基于改進(jìn)YOLO 識(shí)別算法具有較高的收斂速度與識(shí)別精度。
為解決復(fù)雜地面環(huán)境下低對(duì)比度目標(biāo)檢測(cè)問(wèn)題,本文提出了一種基于紅外顯著性目標(biāo)引導(dǎo)的改進(jìn)YOLO 網(wǎng)絡(luò)的智能裝備目標(biāo)識(shí)別方法,該方法利用了紅外與可見(jiàn)光圖像的互補(bǔ)特性,通過(guò)疑似目標(biāo)檢測(cè)、多層卷積層特征提取、多尺度置信度模型完成檢測(cè)與識(shí)別任務(wù)。表2 是不同的深度模型對(duì)所有測(cè)試圖像的定量指標(biāo)結(jié)果,其中mAP 是評(píng)價(jià)檢測(cè)算法對(duì)所有類別物體的檢測(cè)性能,即所有類的平均正確率(AveragePrecision, AP)的均值。可以看出,Cascaded RCNN通過(guò)級(jí)聯(lián)幾個(gè)檢測(cè)網(wǎng)絡(luò)達(dá)到不斷優(yōu)化預(yù)測(cè)結(jié)果,其檢測(cè)網(wǎng)絡(luò)是是基于不同IOU 閾值進(jìn)行訓(xùn)練,其精度是所有模型中較高的,但實(shí)時(shí)性太差;RNOD 是兩個(gè)全連接層和NMS 模塊引入目標(biāo)語(yǔ)義模塊中,通過(guò)關(guān)聯(lián)分析提升識(shí)別的精度,但該模型容易引起誤判,尤其是針對(duì)戶外采集的低質(zhì)量的圖像,其識(shí)別精度較低;R-FCN-3000 是提出了解耦分類支路實(shí)現(xiàn)多目標(biāo)分類,在保證速度(30FPs)的情況下將R-FCN 的分類類別數(shù)延伸至3000 類。由于本文類別設(shè)置不多,其識(shí)別精度與YOLO-V3 相當(dāng);本文的算法首先對(duì)紅外圖像進(jìn)行顯著性快速目標(biāo)導(dǎo)引,利用目標(biāo)幾何特點(diǎn),聚類計(jì)算目標(biāo)框尺度;然后使用改進(jìn)的YOLO 網(wǎng)絡(luò)實(shí)現(xiàn)目標(biāo)檢測(cè)與識(shí)別。實(shí)驗(yàn)結(jié)果表明本文提出的模型的識(shí)別準(zhǔn)確率比YOLO V3 略有提升,但實(shí)時(shí)性得到了很大的提升。在相同分辨率的情況下,幀頻接近74。
表1 初始網(wǎng)絡(luò)參數(shù)Table 1 Initialization network parameters
圖4 訓(xùn)練過(guò)程Fig.4 Training process
表2 不同方法的識(shí)別準(zhǔn)確率Table 2 Different methods of recognition accuracy
圖5是YOLO與本文算法的檢測(cè)識(shí)別性能的視覺(jué)效果,實(shí)驗(yàn)選用了一張具有代表性的圖像進(jìn)行分析。圖5(a)為YOLO 目標(biāo)檢測(cè)結(jié)果,沒(méi)有加人紅外位置引導(dǎo);圖5(b)為本文算法的裝甲目標(biāo)檢測(cè)結(jié)果,該方法利用紅外顯著性快速目標(biāo)導(dǎo)引提供的目標(biāo)質(zhì)心位置與目標(biāo)尺度,右圖是在同分辨率可見(jiàn)光圖像以及在目標(biāo)位置導(dǎo)引下的深度網(wǎng)絡(luò)檢測(cè)結(jié)果。可以看到本文提出的方法具有較好的性能。為了分析本文所提的算法對(duì)戶外場(chǎng)景的識(shí)別效果,圖6 是不同識(shí)別算法的定性分析結(jié)果。本文提出的算法能夠識(shí)別場(chǎng)景中的大部分目標(biāo),尤其是針對(duì)土堆旁邊的士兵也也能準(zhǔn)確定位,但也存在將工事識(shí)別成城墻的情況;Cascaded RCNN的識(shí)別精度較高,主要依賴于該方法對(duì)IOU 的自適應(yīng)分析,目標(biāo)定位精度高,但也存在識(shí)別不全的情況,尤其是將多個(gè)坦克識(shí)別成一個(gè)。RNOD 算法對(duì)孤立目標(biāo)識(shí)別精度較高,但對(duì)遮擋目標(biāo)差異較大;R-FCN-3000 能識(shí)別圖像的大多數(shù)目標(biāo),由于關(guān)聯(lián)性的分析,容易把目標(biāo)識(shí)別成多個(gè)目標(biāo),例如將裝甲上的附著物識(shí)別成人。
圖5 YOLO-V3 與本文算法的檢測(cè)識(shí)別定性對(duì)比Fig.5 Qualitative comparison of detection and recognition performance between YOLO-V3 and the proposed algorithm
圖6 不同算法的識(shí)別結(jié)果對(duì)比Fig.6 Comparison of recognition results for different algorithms
為了提升作戰(zhàn)環(huán)境下目標(biāo)檢測(cè)識(shí)別的性能,本文提出了一種基于紅外顯著性目標(biāo)引導(dǎo)的改進(jìn)YOLO網(wǎng)絡(luò)的智能裝備目標(biāo)識(shí)別算法,該算法利用紅外圖像提供目標(biāo)可能的位置引導(dǎo)可見(jiàn)光圖像中的深度自主學(xué)習(xí)目標(biāo)檢測(cè),從而加速檢測(cè)的速度。本文提出的改進(jìn)YOLO-v3 識(shí)別網(wǎng)絡(luò)是以Darknet-53 為基礎(chǔ)網(wǎng)絡(luò)架構(gòu),并使用DenseNet 代替具有較低分辨率的原始轉(zhuǎn)移層,以增強(qiáng)特征傳播,復(fù)用和融合。大量定性定量的實(shí)驗(yàn)結(jié)果表明,本文提出的模型可以有效地提高現(xiàn)有目標(biāo)檢測(cè)與行為識(shí)別網(wǎng)絡(luò)的性能。
本文提出的算法僅僅是利用紅外導(dǎo)引下進(jìn)行自然圖像識(shí)別,雖然測(cè)試數(shù)據(jù)集的識(shí)別性能較好。然而,本文算法適用范圍較小,不具備全天候全天時(shí)的態(tài)勢(shì)感知、區(qū)域監(jiān)控及目標(biāo)打擊應(yīng)用。下一步,項(xiàng)目組將融合紅外與可見(jiàn)光的互補(bǔ)特征,提升算法的全方位泛化能力。