亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于改進(jìn)YOLO網(wǎng)絡(luò)的雙通道顯著性目標(biāo)識別算法

2020-12-04 08:54:58段輝軍王志剛

激光與紅外 2020年11期

段輝軍,王志剛,王彥

(1.湖南財經(jīng)工業(yè)職業(yè)技術(shù)學(xué)院電子信息系,湖南衡陽 421002；2.電子科技大學(xué)計算機(jī)科學(xué)與工程學(xué)院,四川成都 610054； 3.中國電子科技集團(tuán)公司第五十四所信息傳輸與分發(fā)技術(shù)重點實驗室,河北石家莊 050081)

1 引言

隨著作戰(zhàn)模式由平臺中心戰(zhàn)向一體化聯(lián)合作戰(zhàn)轉(zhuǎn)變,地面裝甲突擊系統(tǒng)承擔(dān)的任務(wù)日益復(fù)雜,迫切需要通過智能化手段提高平臺作戰(zhàn)效能,以及多平臺協(xié)同作戰(zhàn)的能力。同時,陸戰(zhàn)場環(huán)境比較復(fù)雜,敵方目標(biāo)善于偽裝且機(jī)動性大,如何快速檢測、識別并鎖定目標(biāo)是戰(zhàn)場成敗與態(tài)勢感知的關(guān)鍵[1]。

圖像是自然景物的客觀反映,也是環(huán)境感知的關(guān)鍵數(shù)據(jù)[2]。大多數(shù)裝備都是利用采集的視頻序列實現(xiàn)對外環(huán)境探測、觀測與瞄準(zhǔn),最終由操作手完成目標(biāo)的鎖定與打擊,其識別、鎖定目標(biāo)精度的高低將直接影響打擊目標(biāo)的效果。為了降低操作手的捕獲誤差,國內(nèi)外的武器裝備集成了各種輔助功能。例如,坦克火控系統(tǒng)利用電子穩(wěn)像設(shè)備使炮長瞄準(zhǔn)線的雙向穩(wěn)定,確保坦克瞄得更準(zhǔn)[3]；目標(biāo)指示器具備動目標(biāo)檢測功能,檢測出視場中的運動目標(biāo),并編號,提升炮手的反應(yīng)時間[4]；美軍的全球鷹無人機(jī)集成了基于機(jī)器學(xué)習(xí)的智能增強(qiáng)系統(tǒng),無需人在回路也能獲得高精度的識別效果,但最終也是需要操作手對結(jié)果進(jìn)行判別[5]?？梢钥闯?這些輔助策略仍然需要人工輔助進(jìn)行決策,并沒有真正意義上實現(xiàn)智能識別。

隨著智能信號處理技術(shù)的發(fā)展,學(xué)術(shù)上也提出了大量的智能識別算法,但這些算法大都是針對單模態(tài)圖像進(jìn)行處理,其應(yīng)用環(huán)境局限性較大。例如,裝甲目標(biāo)在迷彩偽裝、夜晚、能見度低的情況下,可見光的目標(biāo)識別能力有限,而紅外圖像具有作用距離遠(yuǎn),穿透力強(qiáng),且不受光照影響,但其圖像模糊,空間分辨率較低[6]。眾所周知,現(xiàn)有的地面裝備光電設(shè)備大都集成了紅外熱像儀與電視攝像機(jī),并輸出兩路獨立的視頻信號。光電系統(tǒng)輸出的多路視頻信號存在大量互補(bǔ)信息和冗余信息,有利于提高目標(biāo)檢測與識別的精度。近年來,國內(nèi)外專家學(xué)者的研究方向大都集中在將不同類型圖像的互補(bǔ)信息結(jié)合起來,生成信息量更大的合成圖像,以此增強(qiáng)同一場景的圖像表征能力[7]。文獻(xiàn)[8]提出了基于多尺度變換的紅外與可見光融合算法,通過互信息配準(zhǔn)基礎(chǔ)上對不同尺度特征進(jìn)行融合,具有較高的融合精度,但易受抖動、噪聲的影響。文獻(xiàn)[9]在多模融合的基礎(chǔ)上對目標(biāo)進(jìn)行識別,其識別性能嚴(yán)重依賴于配準(zhǔn)與融合的精度。劉佶鑫等人[10]利用類字典稀疏識別方法對融合后的可見光-近紅外HSV圖像進(jìn)行場景分類。由于該方法采用了搜索樹特征和分層梯度方向直方圖進(jìn)行特征提取,其場景分類性能僅僅適用簡單場景下的典型目標(biāo)。

隨著智能硬件技術(shù)的突飛猛進(jìn)和大數(shù)據(jù)建模工具的利用,深度學(xué)習(xí)模型在圖像識別領(lǐng)域獲得極大的發(fā)展,涌現(xiàn)了許多優(yōu)秀的網(wǎng)絡(luò)模型,如Faster R-CNN[11],Mask R-CNN[12],YOLO-v3[13]等。江澤濤等人[14]使用加權(quán)融合算法對紅外和可見光圖像融合,然后利用改進(jìn)的深度絡(luò)提取融合圖像的有效特征向量,再進(jìn)行分類與識別。Sarfraz等人[15]提出了一種跨模態(tài)的深度識別算法,該算法使用多模態(tài)圖像的不同特征形式分別訓(xùn)練四個獨立的深度卷積神經(jīng)網(wǎng)絡(luò),分別學(xué)習(xí)出不同且互補(bǔ)的目標(biāo)特征信息,最終提高目標(biāo)的識別精度,其核心模塊是引用了特征對齊模塊與像素對齊模塊?？梢钥闯?基于深度學(xué)習(xí)的紅外-可見光圖像的識別算法大都是在圖像配準(zhǔn)的基礎(chǔ)上進(jìn)行融合,然后采用深度學(xué)習(xí)算法進(jìn)行目標(biāo)識別。雖然深度模型提高了雙模態(tài)圖像的互補(bǔ)特征的表征能力,但現(xiàn)有的算法都是在已配準(zhǔn)圖像上進(jìn)行獨立網(wǎng)絡(luò)訓(xùn)練與識別,且資源消耗較大。然而,光電系統(tǒng)的紅外圖像與可見光圖像視場大小存在偏差,光軸也并不是完全重合,直接采用紅外與可見光圖像進(jìn)行深度識別,其效果不利于軍事裝備工程應(yīng)用。因此,本文提出一種基于改進(jìn)YOLO網(wǎng)絡(luò)的雙通道顯著性目標(biāo)識別算法,該算法首先結(jié)合雙通道網(wǎng)絡(luò)提取紅外與可見光圖像的融合特征進(jìn)行圖像融合,然后利用融合圖像目標(biāo)顯著性特性可以快速獲取疑似目標(biāo)區(qū)域,最后通過改進(jìn)的YOLO模型提高目標(biāo)識別精度。仿真結(jié)果表明,本文提出的模型可以有效地提高現(xiàn)有目標(biāo)檢測與識別的性能。

2 相關(guān)技術(shù)

YOLO系列網(wǎng)絡(luò)是目標(biāo)檢測領(lǐng)域常用的一種端到端深度網(wǎng)絡(luò),該網(wǎng)絡(luò)將檢測問題轉(zhuǎn)化為回歸問題,可以預(yù)測邊界框坐標(biāo)的同時,在端到端網(wǎng)絡(luò)中對目標(biāo)進(jìn)行分類,大大提高了檢測速度[13]。與R-CNN系列的兩級網(wǎng)絡(luò)相比,這種網(wǎng)絡(luò)結(jié)構(gòu)思路更明晰,并不需要窮舉疑似區(qū)域,網(wǎng)絡(luò)更簡潔。

YOLO網(wǎng)絡(luò)衍生出許多高效率的改進(jìn)網(wǎng)絡(luò),如YOLO-v1,YOLO-v2,YOLO-v3,YOLO-v3-tiny等[16]。YOLO系列網(wǎng)絡(luò)的主干網(wǎng)絡(luò)模型如圖1所示。YOLO 目標(biāo)檢測方法將輸入圖像劃分為S×S個互補(bǔ)重疊的網(wǎng)格,其中每個網(wǎng)格最多預(yù)測K個邊界框。每個邊界框的特定類別置信分?jǐn)?shù)可以用如下等式表示:

(1)

xl=f(yl)=f(xl-1?wl+bl)

(2)

卷積神經(jīng)網(wǎng)絡(luò)中第l層的輸入表示為xl；激活函數(shù)為f(·)。中間變量表示為yl=xl-1?wl+bl,其中wl是卷積核的權(quán)重,bl是偏置參數(shù),?表示卷積。YOLO的網(wǎng)絡(luò)可以預(yù)測出多個邊界框及其類概率,最終選擇輸出具有最高IoU的檢測結(jié)果。為了防止輸出過多的虛假冗余邊界框,YOLO采用了閾值策略消除了大多數(shù)無用的邊界框。由于單個目標(biāo)的預(yù)測結(jié)果可能同時包含多個邊界框,從而導(dǎo)致不同邊界框?qū)?yīng)同一個目標(biāo)。YOLO采用非極大值抑制算法來組合多個預(yù)測邊界框,從而消除預(yù)測置信度較低的邊界框,并將具有較高置信度得分的預(yù)測邊界框選擇為目標(biāo)檢測框。最終,預(yù)測邊界框的損失函數(shù)由四部分組成,如下所示:

L=loss1+loss2+loss3+loss4

(3)

其中,loss1是預(yù)測中心坐標(biāo)的損失;loss2是預(yù)測邊界框的寬度和高度的損失;loss3是預(yù)測類別的損失;loss4是預(yù)測的置信度損失。隨著卷積網(wǎng)絡(luò)前向傳播,其損失函數(shù)L的梯度可以表示為:

(4)

以上分析可以看出,YOLO將圖像分成固定尺度的網(wǎng)絡(luò),雖然可以獲得較快的檢測速度,但其邊界框的定位不準(zhǔn)確,且對小目標(biāo)檢測精度不高。為了解決這個問題,YOLO-v2引入了錨框(anchor)機(jī)制的思想,并使用聚類方法生成合適的先驗邊界框。隨著網(wǎng)絡(luò)的不斷加深,在訓(xùn)練過程中存在梯度消失或梯度爆炸問題,YOLO-v3引入了殘差結(jié)構(gòu),采用Darknet-53作為主干網(wǎng)絡(luò),主要由53個卷積層組成,并包含大量3×3、1×1卷積內(nèi)核。在進(jìn)入殘差模塊之前將特征與殘差模塊輸出的特征進(jìn)行組合可以提取更抽象的深度特征。

3 紅外顯著性快速目標(biāo)檢測

現(xiàn)有的光電系統(tǒng)大都如圖2所示,集成了電視攝像機(jī)和紅外熱像儀兩種探測設(shè)備。紅外圖像可以全天候全天時獲取場景圖像信息,但由于輻射成像原理的限制,紅外圖像存在對比度低、細(xì)節(jié)模糊,目標(biāo)檢測與識別精度低；而可見光圖像分辨率高,細(xì)節(jié)豐富,符合人眼視覺習(xí)慣,但容易遭受煙霧、光線、天氣的影響[17]。紅外圖像與可見光圖像間信息存在冗余和互補(bǔ),利用雙通道目標(biāo)融合識別,可提高目標(biāo)的識別精度。本文采用文獻(xiàn)[18]提出的圖像融合算法進(jìn)行紅外與可見光圖像融合,該算法在稀疏編碼和融合過程中,充分考慮了每個局部圖像塊的信息及其空間上下文信息,并利用魯棒稀疏表示確保空間相鄰圖像塊之間的局部一致性。實驗結(jié)果表明,該算法對未經(jīng)校正的多源圖像的融合效果也非常理想。

圖2 光電系統(tǒng)

為了定位到目標(biāo)的具體位置,大多數(shù)檢測算法通常會把圖像分成許多子塊,并提取子塊的特征進(jìn)行識別。目前存在兩類子塊劃分策略:滑動窗口法與選擇性搜索法,前者通過窮舉整個區(qū)域獲得大量疑似區(qū)域,再進(jìn)行類別分類,但復(fù)雜度太高；后者則有效地去除冗余候多尺度選區(qū)域,使得計算量大大的減小,但需要先驗信息進(jìn)行輔助。

為了有效地利用光電系統(tǒng)不同通道的互補(bǔ)數(shù)據(jù),提升目標(biāo)識別的精度與速度,本文提出了一種雙通道顯著性目標(biāo)識別算法,如圖3所示。首先利用融合策略獲取紅外圖像與電視圖像的融合結(jié)果,然后采用顯著性檢測獲取紅外圖像中的疑似目標(biāo)區(qū)域；最后在融合結(jié)果基礎(chǔ)上利用改進(jìn)YOLO網(wǎng)絡(luò)對疑似區(qū)域進(jìn)行多層次目標(biāo)識別。

圖3 雙通道顯著性目標(biāo)識別算法

3.1 基于特征聚類的顯著性粗分割

由于視距內(nèi)的裝甲目標(biāo)紅外特征明顯,其目標(biāo)特征與背景存在一定的差異。即便是沙漠地帶,典型目標(biāo)仍然可以通過顯著性檢測進(jìn)行定位。為了實現(xiàn)目標(biāo)顯著性檢測,本文采用了一種基于特征聚類的顯著性檢測算法,該方法逐點提取特征向量,并在先驗信息未知情況下利用均值漂移算法進(jìn)行目標(biāo)聚類。本文選用的特征向量xi涵蓋區(qū)域的強(qiáng)度、對比度、空間屬性等多種特征,其可以有效地捕獲顯著性區(qū)域中的對比度和空間信息,便于后續(xù)特征聚類。

假定d維空間Rd中存在n個樣本點xi(i=1,…,n),在x點的核密度函數(shù)估計可以表示為如下等式:

(5)

其中,h是核密度估計函數(shù)的帶寬,一般設(shè)置為30；K(x)=ck(‖x‖2)是核函數(shù)。等式(5)的核密度梯度可以為:

(6)

其中,c=3。核函數(shù)表征了樣本密度分布估計情況,工程應(yīng)用中常采用高斯核函數(shù)作為核密度估計公式中的加權(quán)函數(shù)。假定G(x)是高斯核函數(shù)；w(xi)(w(xi)≥0)是樣本xi所對應(yīng)的權(quán)值,因此均值偏移向量Mh(x)可以表示為如下等式:

(7)

因此,給定一個初始點x,核函數(shù)G(x),此過程可以通過交替迭代沿著梯度的方向不斷移動,并采用xt+1=xt+Mh(xt)進(jìn)行更新,最終獲得最優(yōu)的聚類結(jié)果。在聚類結(jié)果的基礎(chǔ)上對圖像進(jìn)行分塊,計算每個塊的質(zhì)心i。以質(zhì)心i為中心點,計算特征向量xi。若與xi相鄰的圖像塊xj的歐式距離d(xi,xj)比其他任意的圖像塊都大時,則該點的特征是顯著的。

3.2 多尺度顯著特征融合

由于基于特征聚類的顯著性粗分割結(jié)果中包含大量的虛假目標(biāo),大大提高了后續(xù)檢測的復(fù)雜度。因此,為同時均衡檢測效率與檢測精度,本文采用消除虛假目標(biāo),同時利用空間特征篩選出疑似目標(biāo)。

(8)

經(jīng)過多尺度融合的顯著性區(qū)域大大地消減了不必要的背景干擾,其覆蓋的區(qū)域最能代表目標(biāo)所在的位置、大小與尺度信息。然而,紅外場景內(nèi)的顯著性目標(biāo)類型多樣,且形態(tài)各異,僅僅靠多層次顯著性目標(biāo)差異,很難排除虛假目標(biāo)的干擾。由于裝甲目標(biāo)具有明顯的形狀特性,因此本文采用裝甲目標(biāo)的結(jié)構(gòu)性特征剔除虛假目標(biāo)區(qū)域。最直觀的策略就是采用幾何特性進(jìn)行判別。文獻(xiàn)[19]采用長寬比對目標(biāo)的幾何特性進(jìn)行判斷,其車輛的長寬比在2～3之間。文獻(xiàn)[20]采用SVM分類對顯著性區(qū)域的幾何特征進(jìn)行分類,其中幾何特征包括方向梯度、Hu不變矩等,然后采用SVM進(jìn)行訓(xùn)練與學(xué)習(xí),最終可以實現(xiàn)橋梁、車輛、建筑等典型目標(biāo)的識別。由于本章的目的僅僅是消除虛假區(qū)域,縮短后續(xù)深度學(xué)習(xí)的識別時間,并不需要獲得準(zhǔn)確的車輛顯著性目標(biāo)。因此,本章采用簡單的幾何特征進(jìn)行判斷,不增加漏檢概率的情況下,盡可能的剔除虛假區(qū)域,為下一步目標(biāo)識別提供可靠的目標(biāo)位置,縮小識別的空間復(fù)雜度。

4 改進(jìn)的目標(biāo)識別網(wǎng)絡(luò)

目前，依靠更深的網(wǎng)絡(luò)層提取目標(biāo)特征并增強(qiáng)卷積層的語義信息來提高識別精度是一種常見的網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計方法。然而，由于紅外與電視融合圖像的疑似目標(biāo)區(qū)域已經(jīng)明確，為了降低處理時間其識別網(wǎng)絡(luò)的深度也不宜太深，尤其是小目標(biāo)在多次卷積與池化后，其特征表征能力也在下降。因此，本文提出了一種基于改進(jìn)YOLO-v3的目標(biāo)識別網(wǎng)絡(luò)，該網(wǎng)絡(luò)增加了一路輔助網(wǎng)絡(luò)，改善整個特征提取網(wǎng)絡(luò)的性能；并采用注意機(jī)制對輔助網(wǎng)絡(luò)和骨干網(wǎng)絡(luò)的特征信息融合，增強(qiáng)有效信息通道，抑制無效信息通道，提高網(wǎng)絡(luò)識別效率。

與單一結(jié)構(gòu)的YOLO-v3網(wǎng)絡(luò)相比,本文增加了一個特征提取輔助網(wǎng)絡(luò),其規(guī)模比骨干網(wǎng)絡(luò)略小。主干網(wǎng)的原始?xì)埐钅K使用3×3卷積核提取特征,而輔助網(wǎng)絡(luò)中的殘差模塊使用兩個連續(xù)的3×3卷積核進(jìn)行殘差提取,獲得5×5的感受野,然后將提取的特征融合到骨干網(wǎng)中。輔助網(wǎng)絡(luò)中使用的感受野大小為5×5。特征圖上使用大的感受野進(jìn)行全局特征提取有助于得到目標(biāo)區(qū)域特征,因此輔助網(wǎng)絡(luò)將獲取的位置特征傳輸?shù)焦歉删W(wǎng)絡(luò)。骨干網(wǎng)絡(luò)結(jié)合使用3×3局部感受野和輔助網(wǎng)絡(luò)提供的目標(biāo)位置信息,可以更準(zhǔn)確地學(xué)習(xí)目標(biāo)詳細(xì)特征。因此,輔助網(wǎng)絡(luò)在一定程度上促進(jìn)了高級和低級語義特征的融合,從而大大提高了網(wǎng)絡(luò)的識別性能。YOLO-v3的原始網(wǎng)絡(luò)具有很深的深度。如果將輔助網(wǎng)絡(luò)添加到整個骨干網(wǎng)絡(luò),則會引入更多計算,從而導(dǎo)致運行速度變慢?；谏鲜鲈?改進(jìn)的網(wǎng)絡(luò)僅將輔助網(wǎng)絡(luò)添加到Y(jié)OLO-v3的三個相應(yīng)尺度檢測的特征提取層中。

本文中輔助網(wǎng)絡(luò)和主干網(wǎng)的連接方式是在兩個網(wǎng)絡(luò)之間添加注意機(jī)制。當(dāng)網(wǎng)絡(luò)達(dá)到一定深度時,特征越容易聚合成針對任務(wù)的更高級語義特征。本文增加的輔助模塊主要完成對有效特征的處理和傳輸,對無效特征進(jìn)行信道抑制。兩個網(wǎng)絡(luò)之間的注意機(jī)制的實現(xiàn)使用了SE模塊(Squeeze-and-Excitation模塊),該模塊結(jié)構(gòu)簡單,易于部署。添加SE模塊的目的是重新校準(zhǔn)輔助模塊的輸出特性。首先對特征映射進(jìn)行壓縮,通過平均池化將二維特征通道轉(zhuǎn)化為一維。此時,將特征圖的大小轉(zhuǎn)換為1×1×C,將二維特征圖合并成一維特征圖的目的是為了更好地顯示該層各通道特征值的分布情況。在特征圖壓縮完成后,將激發(fā)一維特征圖,其計算公式為:

Sc=Fex(Z,W)=σ(W2·ReLU(W1Z))

(9)

其中,Sc是激勵后的特征圖；σ是sigmoid激活函數(shù)；Z表示壓縮后的輸入一維卷積層,其維度是1×1×C；W1Z表示全連接操作,W1的維數(shù)是C/r*C的全連接層； r是尺度例因子,其功能主要是壓縮通道數(shù)量以減少參數(shù)量；W2也是一個全連接層,其尺寸為C*C/r。W1Z輸出結(jié)果將通過W2連接后輸出1×1×C的特征圖,最后將其激活處理獲得特征圖Sc。Sc是連接模塊的核心,用于指示輔助模塊輸出的通道權(quán)重。通過將不同的信道值乘以不同的權(quán)重,可以增加對關(guān)鍵信道域的關(guān)注。最后,輔助殘差模塊通過SE模塊重定向,然后進(jìn)入骨干網(wǎng)絡(luò)以完成特征融合。

5 實驗結(jié)果與討論

本文提出的雙通道顯著性目標(biāo)識別算法主要分為雙模圖像融合(double-model fusion,DMF)、顯著性檢測(Saliency Detection,SD)與目標(biāo)識別(Object Recognition,OR)三個模塊。為了驗證所提出模型的性能,尤其是各種模塊之間的組合對目標(biāo)識別性能的影響,本實驗主要從消融角度進(jìn)行分析。本文提出的算法采用Python 3.5進(jìn)行開發(fā),選用TensorFlow作為深度學(xué)習(xí)框架,所有實驗均在均在戴爾服務(wù)器上進(jìn)行,其配置如下:Intel core i9-9900k @ 3.6 GHz(×8),16 GB×4(DDR4 3200 MHz),NVIDIA GeForce GTX1050TI 16G×4,Ubuntu 16.04,64位操作系統(tǒng)。值得注意的是,不加優(yōu)化的情況下,4個GPU對現(xiàn)有數(shù)據(jù)集進(jìn)行YOLO-v3訓(xùn)練大約需要一天的時間才能收斂。為了提高優(yōu)化效率,采用ADAM優(yōu)化算法,其參數(shù)設(shè)定為:alpha=0.001,beta1=0.9,beta2=0.999和epsilon=10-8。實際訓(xùn)練過程中每次調(diào)整參數(shù)前所選取的樣本數(shù)量,學(xué)習(xí)率的初始值,隨機(jī)梯度下降的動量和衰減分別設(shè)置為16、0.01、0.9和10-6。圖像融合采用的西電張強(qiáng)教授提出的基于雙層次決策規(guī)則的圖像融合,其算法是開源的；目標(biāo)顯著性檢測采用本文第3節(jié)提出的方法,其c=3,h=30,長寬比為3.1。

5.1 實驗數(shù)據(jù)及其評價指標(biāo)

為了實現(xiàn)對所提模型進(jìn)行訓(xùn)練、測試與驗證,并進(jìn)行定性定量分析,實驗采用公開數(shù)據(jù)集與自建數(shù)據(jù)集進(jìn)行對比實驗,其中公開數(shù)據(jù)集是國際公開配準(zhǔn)紅外與可見光圖像TNO數(shù)據(jù)；自建數(shù)據(jù)集則是利用圖2所示的光電系統(tǒng)進(jìn)行采集的地面車輛數(shù)據(jù),所有數(shù)據(jù)都時間標(biāo)記,并根據(jù)靶板參數(shù)映射到相同的尺寸。實驗最終收集了從8000對紅外與可見光數(shù)據(jù)對,隨機(jī)選擇了4500個用于訓(xùn)練,2450個用于驗證,1050個用于測試。為了便于性能對比,本文將地面裝甲車輛分為履帶式裝甲、輪式裝甲、貨車、面包車及其他車輛。

實驗選擇了YOLO-v3[13],DenseNet[20],ResNet[22],EfficientDet[23],R-FCN-3000[24]和ATSS[25]作為對比算法,所有的對比算法都采用作者給出的源代碼或可執(zhí)行文件。由于對比算法是對自然影像的檢測,為了便于公平的定性定量的對比,所有的深度算法模型都用相同的訓(xùn)練集進(jìn)行訓(xùn)練。本文采用已被廣泛應(yīng)用于目標(biāo)識別評估的平均精度均值(Mean Average Precision,mAP)和每秒幀率(Frames Per Second,FPS)作為衡量模型的標(biāo)準(zhǔn),其中 mAP是指多個類別精度均值(Average Precision,AP)的平均值,每個類別都可以根據(jù)準(zhǔn)確率(Precision)和召回率(recall)繪制一條PR曲線。

5.2 訓(xùn)練性能分析

為了便于分析該模型的識別效果,本實驗不使用顯著性檢測的結(jié)果進(jìn)行訓(xùn)練,而是直接采用YOLO-v3的選取錨點框的方法進(jìn)行區(qū)域選擇,然后進(jìn)行相關(guān)的訓(xùn)練。在訓(xùn)練過程中,可以通過繪制損失曲線來直觀地觀察訓(xùn)練的動態(tài)過程。圖4顯示了本文算法訓(xùn)練期間的平均損失曲線的變換,其中橫坐標(biāo)表示訓(xùn)練迭代次數(shù),縱坐標(biāo)表示訓(xùn)練期間的損失值?？梢钥闯?本文算法的訓(xùn)練與測試機(jī)上的精度與損失度類似,整個網(wǎng)絡(luò)迭代到3000次就實現(xiàn)了收斂,充分表明模型的泛化能力較好,適合復(fù)雜戰(zhàn)場環(huán)境下的工程應(yīng)用。

圖4 訓(xùn)練過程

5.3 消融實驗分析

本文提出的雙通道顯著性目標(biāo)識別算法主要應(yīng)用于光電系統(tǒng)下目標(biāo)指示與識別,其處理流程是首先對紅外與可見光圖像進(jìn)行多模態(tài)融合,然后采用顯著性檢測標(biāo)注出若干疑似顯著性區(qū)域,最后采用改進(jìn)的目標(biāo)識別算法進(jìn)行識別。為了對不同模塊的性能進(jìn)行消融分析,本章設(shè)計了如下對比算法:改進(jìn)的識別算法在可見光圖像上的識別效果(CCD-Reco),改進(jìn)的識別算法紅外圖像上的識別效果(IR-Reco),改進(jìn)的識別算法在融合圖像上的識別效果(Fusion-Reco),改進(jìn)識別算法在顯著性區(qū)域上的識別效果(Sal-reco),以及本文提出的模型,表1展示了不同模塊下的消融結(jié)果。實驗數(shù)據(jù)可以看出,CCD-Reco與IR-Reco的識別準(zhǔn)確率僅僅相差2 %,檢測結(jié)果中紅外與CCD精度存在互補(bǔ)性。也就是說,紅外圖像目標(biāo)不明顯的區(qū)域,在電視下的比較明顯,最后導(dǎo)致CCD-Reco的精度優(yōu)于IR-Reco,反之亦然。經(jīng)過融合后的圖像具有二者的互補(bǔ)特性,最終在識別結(jié)果上達(dá)到了78.7 %的識別精度。以上三種對比算法主要是驗證多模態(tài)影像融合對最終識別精度的影響,但其識別速度都在30幀左右。在實際應(yīng)用中,只有較高的識別速度,才能有助于工程應(yīng)用。從表1最后一列數(shù)據(jù)也可以看出,增加了顯著性目標(biāo)檢測的識別算法獲得了51幀的檢測速度,完全適合50 Hz的工程應(yīng)用。本文設(shè)計的顯著性目標(biāo)是提升識別速度的關(guān)鍵,通過顯著性檢測性能對比得知道,該算法能覆蓋大多數(shù)目標(biāo),其最小顯著性目標(biāo)可以檢測到15×15,但此時肉眼識別目標(biāo)也比較困難。即便識別算法不能識別出典型目標(biāo),但目標(biāo)指示器也會給出虛框指示,便于操作手判斷。若識別算法給出較高置信度,則可以自動導(dǎo)引對準(zhǔn)目標(biāo)。因此,從消融角度分析可知,本文設(shè)計的三種模塊都是非常合適,且能提升精度與速度。

表1 不同模塊性能分析

5.4 定性定量對比分析

本章的選用的對比算法都是具有源碼的深度網(wǎng)絡(luò)模型,主要應(yīng)用于自然圖像的目標(biāo)檢測與識別。針對本文主要應(yīng)用光電系統(tǒng)的多模態(tài)二維灰度圖像上的目標(biāo)識別,因此所有的網(wǎng)絡(luò)都是在融合后的圖數(shù)據(jù)集上進(jìn)行訓(xùn)練。表2展示了不同的深度模型對所有融合圖像的檢測識別結(jié)果。從定量測試結(jié)果來看,本文提出網(wǎng)絡(luò)的識別精度高于ATSS,和EfficientDet的識別率幾乎相同。YOLO-v3是單階段識別網(wǎng)絡(luò),但我們的算法的mAP僅僅比其略高0.2 %,但是檢測速度確高得多。也就是說,本文所提出的網(wǎng)絡(luò)在識別精度和識別速度方面具有良好的性能。圖5展示了本文模型與其他對比算法之間的PR曲線以便進(jìn)一步比較不同算法之間的性能差異。EfficientDet和ATSS都是CVPR2020中提出并開源的目標(biāo)檢測網(wǎng)絡(luò),前者從網(wǎng)絡(luò)在特征金字塔網(wǎng)絡(luò)的基礎(chǔ)上,提出一種高效的雙向多尺度的自適應(yīng)加權(quán)融合方法,后者則能夠利用目標(biāo)區(qū)域的相關(guān)統(tǒng)計自動選擇合適的錨框作為正樣本,在不增加額外計算量和參數(shù)的情況下,大幅提升模型的泛化性能。這兩種網(wǎng)絡(luò)是目前最優(yōu)的深度學(xué)習(xí)網(wǎng)絡(luò),具有較高的精度與速度。

表2 不同方法的識別準(zhǔn)確率

圖5 不同檢測識別模型的PR曲線

圖6是YOLO-v3與本文算法的檢測識別定性對比，其中圖6(a)與圖6(b)分別是可見光探測器與紅外熱像儀獲得的CCD圖像與IR圖像,圖6(c)是紅外與可見光圖像融合結(jié)果,圖6(d)是YOLO-v3與本文算法對圖6(c)中融合圖像的識別結(jié)果?？梢钥闯?，本文所提模型對融合圖像的識別結(jié)果較好，而YOLO-v3雖然沒有出現(xiàn)漏檢，但結(jié)果存在定位誤差以及誤檢。改進(jìn)的識別模型能夠很好地識別目標(biāo)，顯著性檢測模塊已經(jīng)大大消除了背景雜波的干擾。實際上，訓(xùn)練過程中未加框的區(qū)域?qū)⒛J(rèn)標(biāo)記為背景區(qū)域，改進(jìn)的識別算法只在顯著性區(qū)域進(jìn)行識別，即便顯著性區(qū)域存在目標(biāo)粘連，識別算法也進(jìn)行區(qū)分。顯著性檢測的目的就是大大降低背景干擾，縮小感興趣區(qū)域的范圍，進(jìn)一步降低復(fù)雜度。從這點可以看出，本文改進(jìn)的YOLO-v3可以提供較高的分類精度。

圖6 YOLO-v3(黑框)與本文算法(白框)的檢測識別定性對比

圖7是不同算法的識別結(jié)果對比。可以看出添加輔助網(wǎng)絡(luò)后,相比原始YOLO-v3網(wǎng)絡(luò)結(jié)果,本文模型提高了小目標(biāo)檢測的有效性和準(zhǔn)確性。例如,原始的YOLO-v3無法檢測到圖中的較小的裝甲車輛,但是經(jīng)過改進(jìn)的網(wǎng)絡(luò)可以有效地檢測目標(biāo),即使在廣域復(fù)雜戰(zhàn)場環(huán)境中,改進(jìn)的網(wǎng)絡(luò)仍然可以準(zhǔn)確地檢測和識別。除了常規(guī)的模型指標(biāo)測試外,本文還添加了干擾狀態(tài)的單個目標(biāo)測試。外場采集圖像時,人為釋放了煙霧,干擾目標(biāo)的成像質(zhì)量。受限于篇幅,本文選用了一張圖像進(jìn)行對比分析。識別結(jié)果表明,本文改進(jìn)的識別算法也能才準(zhǔn)確識別出目標(biāo)。主要歸咎于結(jié)果紅外與可見光的融合圖像有助于提升目標(biāo)的抗干擾能力,以及改進(jìn)網(wǎng)絡(luò)具有較高的泛化能力。以上分析表明,本文改進(jìn)網(wǎng)絡(luò)的邊界框位置與基準(zhǔn)目標(biāo)之間的擬合度也比對比算法更為準(zhǔn)確,充分驗證了結(jié)合注意機(jī)制的輔助網(wǎng)絡(luò)有助于提高目標(biāo)的識別精度。

圖7 不同算法的識別結(jié)果對比

本文的算法首先對紅外圖像與可見光圖像進(jìn)行融合,然后進(jìn)行顯著性檢測快速鎖定疑似目標(biāo)區(qū)域；然后利用改進(jìn)的識別網(wǎng)絡(luò)對疑似區(qū)域進(jìn)行識別,大大降低了搜索范圍,提高了識別速度。實驗結(jié)果表明,改進(jìn)網(wǎng)絡(luò)其識別準(zhǔn)確率比現(xiàn)有最優(yōu)檢測網(wǎng)絡(luò)略有提升,但實時性得到了大大增強(qiáng)。

6 結(jié) 語

本文提出了一種基于改進(jìn)YOLO網(wǎng)絡(luò)的雙通道顯著性目標(biāo)識別算法,該算法利用紅外圖像與可見光互補(bǔ)特性進(jìn)行多尺度融合,并在融合圖像上采用顯著性檢測獲取疑似目標(biāo)區(qū)域,最后利用改進(jìn)的識別網(wǎng)絡(luò)對疑似區(qū)域進(jìn)行多層次目標(biāo)識別。改進(jìn)的YOLO識別網(wǎng)絡(luò)增加了一路輔助網(wǎng)絡(luò),改善整個特征提取網(wǎng)絡(luò)的性能,并采用注意機(jī)制對輔助網(wǎng)絡(luò)和骨干網(wǎng)絡(luò)的特征信息融合,增強(qiáng)有效信息通道,抑制無效信息通道,提高網(wǎng)絡(luò)識別效率。實驗結(jié)果表明,本文提出的模型可以有效地提高現(xiàn)有網(wǎng)絡(luò)的性能。下一步,項目組將進(jìn)行工程化研制,全面提升裝備的智能化水平。