郝帥,李嘉豪,馬旭,何田,孫思雅,李彤
(西安科技大學(xué) 電氣與控制工程學(xué)院,西安 710054)
圖像融合作為一種重要的圖像增強(qiáng)方法,旨在從同一場景不同模態(tài)傳感器捕獲的圖像中提取互補(bǔ)信息并進(jìn)行融合,從而增強(qiáng)視覺效果,輔助人們對(duì)場景進(jìn)行理解[1-2]。紅外熱成像和可見光成像作為兩種最常用的探測(cè)手段已有廣泛應(yīng)用。紅外傳感器主要通過目標(biāo)場景的熱輻射信息成像,能夠捕獲物體的熱顯著目標(biāo),具有不易受外界天氣、光照強(qiáng)度等環(huán)境因素影響的優(yōu)點(diǎn),但其圖像分辨率往往較低,紋理細(xì)節(jié)信息相對(duì)較少??梢姽鈧鞲衅饕罁?jù)物體的反射光線成像,能夠捕獲豐富的細(xì)節(jié)及背景信息,其圖像細(xì)節(jié)分辨能力強(qiáng),但易受外界光照強(qiáng)度變化、異物遮擋等因素干擾[3-4]。因此,結(jié)合兩類圖像各自優(yōu)勢(shì),將其進(jìn)行融合,可以得到紋理細(xì)節(jié)豐富、目標(biāo)顯著及視覺效果好的圖像。目前,該方法已在目標(biāo)檢測(cè)[5]、目標(biāo)跟蹤[6]、偵察[7]和醫(yī)學(xué)圖像分析[8]等領(lǐng)域展開廣泛研究和應(yīng)用。
根據(jù)特征信息提取方式不同,紅外與可見光圖像融合算法可以分為兩類:傳統(tǒng)融合算法和基于深度學(xué)習(xí)的融合算法。傳統(tǒng)融合算法主要通過相關(guān)數(shù)學(xué)模型來獲取原始圖像不同層次信息,再通過手工設(shè)計(jì)合適的規(guī)則對(duì)信息進(jìn)行融合,主要包括基于多尺度變換和基于表示學(xué)習(xí)的融合算法?;诙喑叨茸儞Q的融合算法主要將原始圖像在頻域中分解為不同分辨率、不同尺度的若干層子圖像,然后根據(jù)設(shè)定的融合規(guī)則對(duì)分解的子圖像進(jìn)行組合,最后通過多尺度逆變換得到融合圖像。常見的多尺度變換方法有金字塔變換、小波變換、輪廓波變換等。CHEN Jun 等[9]利用拉普拉斯金字塔變換將原始圖像分別分解為低頻帶和高頻帶,對(duì)高頻帶使用最大絕對(duì)值融合規(guī)則,低頻帶由分解的紅外低頻信息來確定融合權(quán)重,最后使用拉普拉斯逆變換來重建融合圖像?;诒硎緦W(xué)習(xí)的融合算法是直接在空間域上處理圖像像素,常用的主要包含稀疏表示和低秩表示。LU Xiaoqi 等[10]利用核密度估計(jì)聚類和奇異值分解數(shù)學(xué)模型提取出目標(biāo)區(qū)域,并對(duì)背景信息進(jìn)行稀疏表示,從而實(shí)現(xiàn)紅外與可見光圖像融合。然而,這些傳統(tǒng)融合算法通常需要手工設(shè)計(jì)融合規(guī)則,計(jì)算過程較為復(fù)雜。
近年來,由于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)具有較強(qiáng)的特征提取能力,基于深度學(xué)習(xí)的融合算法被相繼提出。LI Hui 等[11]提出了用于紅外和可見光圖像融合的DenseFuse,該算法通過設(shè)計(jì)編碼器和解碼器網(wǎng)絡(luò)來分別提高特征提取能力和重建能力。LIU Yu 等[12]基于CNN 構(gòu)建了圖像融合模型,通過活動(dòng)水平測(cè)量和權(quán)重分配來實(shí)現(xiàn)圖像融合。JIAN Lihua 等[13]結(jié)合殘差網(wǎng)絡(luò)構(gòu)建了一種對(duì)稱編碼器-解碼器結(jié)構(gòu),該結(jié)構(gòu)可以有效保留每層卷積提取的特征信息。然而,由于紅外與可見光圖像融合任務(wù)難以定義融合效果標(biāo)準(zhǔn),且沒有Ground Truth 指導(dǎo)網(wǎng)絡(luò)訓(xùn)練,導(dǎo)致該類方法在訓(xùn)練過程中無法有效估計(jì)原始圖像特征分布,易產(chǎn)生特征分布不均衡的融合結(jié)果。
MA Jiayi 等[14]提出了一種基于生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)[15]的融合算法,生成器負(fù)責(zé)提取紅外與可見光圖像特征并生成融合圖像,而判別器用于將融合圖像與可見光圖像進(jìn)行區(qū)分,使融合圖像在對(duì)抗博弈中能夠保留足夠的梯度信息。在此基礎(chǔ)上,MA Jiayi 等[16]又構(gòu)建了雙判別器生成對(duì)抗網(wǎng)絡(luò)模型,通過設(shè)計(jì)紅外和可見光雙判別器網(wǎng)絡(luò)來區(qū)分融合圖像與原始圖像之間的結(jié)構(gòu)差異,從而使融合結(jié)果能夠同時(shí)保留原始圖像特征信息。
基于GAN 的融合算法在一定程度上解決了傳統(tǒng)融合算法的不足,可以更高效地提取圖像特征信息,且通過網(wǎng)絡(luò)模型對(duì)抗訓(xùn)練有效地平衡了原始圖像特征分布,但依然存在不足:1)現(xiàn)有的融合算法主要集中在融合模型的構(gòu)建,并未考慮原始圖像質(zhì)量對(duì)最終融合效果的影響;2)生成器中大都采用單一尺度卷積提取圖像特征,易造成圖像特征提取不充分,進(jìn)而導(dǎo)致融合圖像無法全面保留原始特征信息;3)由于沒有考慮原始圖像局部特征的全局依賴性,使得局部特征沒有得到細(xì)化和增強(qiáng),從而導(dǎo)致融合圖像丟失重要目標(biāo)特征信息。
針對(duì)上述問題,本文提出一種基于特征優(yōu)化和GAN 的紅外與可見光圖像融合算法??紤]到原始圖像質(zhì)量對(duì)融合結(jié)果的影響,設(shè)計(jì)了一種基于變色龍算法(Chameleon Swarm Algorithm,CSA)[17]的目標(biāo)函數(shù)自適應(yīng)特征優(yōu)化模塊以增強(qiáng)可見光圖像的紋理細(xì)節(jié)和紅外圖像的對(duì)比度。為解決生成器中采用單一尺度卷積層提取特征造成特征提取不充分的問題,構(gòu)造了一種多尺度密集連接模塊(Feature extraction module based on Multi-Scale Dense Connection,MSDC-Fem),從而增大網(wǎng)絡(luò)感受野特征提取范圍,以全面提取圖像的深層語義特征和淺層紋理特征。為減小融合過程中重要目標(biāo)特征信息損失,在特征融合層設(shè)計(jì)了基于空間和通道的并聯(lián)型注意力模型。通過將紅外與可見光圖像特征信息分別同時(shí)送入空間和通道注意力模型中,捕捉不同模態(tài)特征之間的相關(guān)性和依賴關(guān)系,提高網(wǎng)絡(luò)對(duì)關(guān)鍵信息的表達(dá)能力,從而更好地聚焦紅外圖像中的熱顯著目標(biāo)和可見光圖像中的紋理細(xì)節(jié)。
低秩表示(Low Rank Representation,LRR)[18]是在確定學(xué)習(xí)字典情況下,將原始數(shù)據(jù)矩陣表示為字典矩陣下的線性組合且表示系數(shù)矩陣低秩,以實(shí)現(xiàn)數(shù)據(jù)的空間分割與特征提取。但LRR 無法保留圖像局部結(jié)構(gòu)信息,在LRR 基礎(chǔ)上,潛在低秩表示(Latent Low Rank Representation,LatLRR)[19]通過考慮隱藏?cái)?shù)據(jù)信息對(duì)學(xué)習(xí)字典的影響來提取數(shù)據(jù)全局結(jié)構(gòu)信息和局部結(jié)構(gòu)信息,其相較于LRR 具有更強(qiáng)的特征提取能力。LatLRR 的數(shù)學(xué)模型可表示為
式中,B為原始數(shù)據(jù)最優(yōu)的LRR 系數(shù)矩陣,D為顯著系數(shù)矩陣,N為稀疏噪聲矩陣,‖ ? ‖*為核范數(shù),‖ ? ‖1為L1范數(shù),X為原始數(shù)據(jù)矩陣,λ為正則化平衡參數(shù)且大于0。
將式(1)通過增廣拉格朗日乘子法求解,得到系數(shù)B和D。以紅外圖像為例,假設(shè)紅外圖像為XI,經(jīng)過LatLRR 分解后可表示為
式中,BXI表示低秩分量,DXI表示顯著分量。
GAN 是使用對(duì)抗性模型來估計(jì)樣本分布并生成新數(shù)據(jù)的無監(jiān)督網(wǎng)絡(luò)模型,它主要由生成器(Generator,G)和判別器(Discriminator,D)兩部分構(gòu)成。生成器學(xué)習(xí)訓(xùn)練集數(shù)據(jù)特征,并在判別器指導(dǎo)下,將隨機(jī)噪聲分布盡量擬合為訓(xùn)練數(shù)據(jù)的真實(shí)分布,從而生成具有訓(xùn)練集特征的相似數(shù)據(jù)。判別器負(fù)責(zé)區(qū)分輸入是真實(shí)數(shù)據(jù)或生成器生成的假數(shù)據(jù),并將判斷結(jié)果反饋給生成器。兩個(gè)網(wǎng)絡(luò)交替訓(xùn)練,直到生成器生成的數(shù)據(jù)能夠以假亂真,并與判別器的能力達(dá)到一種納什均衡狀態(tài)。G 與D 的對(duì)抗關(guān)系為
式中,x表示輸入樣本,z表示輸入到生成器的噪聲,Pdata(x)表示真實(shí)數(shù)據(jù)分布,Pz(z)表示噪聲分布,D(x)表示判別器判斷真實(shí)數(shù)據(jù)是否真實(shí)的概率,D(G(z))表示判別器判斷生成數(shù)據(jù)是否真實(shí)的概率。
由于GAN 具有在無監(jiān)督情況下學(xué)習(xí)真實(shí)數(shù)據(jù)分布的能力,故利用生成器生成融合圖像,并通過判別器以期使融合圖像在對(duì)抗學(xué)習(xí)中能夠盡可能地保留原始圖像的豐富信息。
本文所提算法框圖如圖1 所示,主要由三部分構(gòu)成:特征優(yōu)化模塊、生成器和判別器。特征優(yōu)化模塊旨在對(duì)原始紅外和可見光圖像進(jìn)行增強(qiáng),提高其特征表達(dá)能力;生成器的主要任務(wù)是對(duì)輸入圖像的特征進(jìn)行提取、融合及重構(gòu),生成融合圖像;判別器由可見光判別器(Discriminator-VIS)和紅外判別器(Discriminator-IR)兩部分構(gòu)成,分別與生成器進(jìn)行對(duì)抗學(xué)習(xí),從而保證融合圖像中既保留紅外圖像的對(duì)比度信息又具有可見光圖像的梯度信息。
圖1 本文算法框圖Fig.1 Block diagram of the proposed algorithm
由于受外界環(huán)境影響,可見光圖像會(huì)因光照強(qiáng)度變化導(dǎo)致紋理細(xì)節(jié)不清晰,而紅外圖像受熱輻射成像機(jī)理影響,易出現(xiàn)目標(biāo)對(duì)比度低等問題,會(huì)影響最終的圖像融合效果。為此,設(shè)計(jì)了一種自適應(yīng)特征優(yōu)化模塊,以增強(qiáng)原始圖像特征表達(dá)能力。首先,利用LatLRR 對(duì)原始圖像進(jìn)行分解;然后,構(gòu)建目標(biāo)函數(shù)并設(shè)計(jì)優(yōu)化模型對(duì)其進(jìn)行迭代尋優(yōu);最后,得出優(yōu)化因子y,進(jìn)而獲得優(yōu)化圖像,為后續(xù)圖像融合奠定基礎(chǔ)。優(yōu)化圖像可表示為
式中,Io為優(yōu)化后的圖像,y為優(yōu)化因子,IB為圖像低秩層,ID為圖像顯著層。
2.1.1 基于LatLRR 的圖像分解
由于LatLRR 充分考慮了圖像數(shù)據(jù)的全局結(jié)構(gòu)、局部結(jié)構(gòu)和稀疏噪聲等方面,不僅能夠從源圖像中提取全局結(jié)構(gòu)信息和局部結(jié)構(gòu)信息,還可以在一定程度上分離圖像中的噪聲分量,減小視覺偽影。因此利用LatLRR 分別對(duì)原始紅外與可見光圖像進(jìn)行分解,并得到各自對(duì)應(yīng)的低秩層和顯著層,如圖2 所示。從圖中可以看出,低秩層主要包含目標(biāo)整體及背景細(xì)節(jié)信息,顯著層則主要體現(xiàn)局部顯著區(qū)域及邊緣信息。
圖2 LatLRR 分解結(jié)果Fig.2 LatLRR decomposition results
2.1.2 目標(biāo)函數(shù)構(gòu)建
為了較好地增強(qiáng)原始圖像紋理細(xì)節(jié),突出顯著目標(biāo),選取梯度變化、對(duì)比度變化和內(nèi)容損失作為約束條件,構(gòu)造目標(biāo)函數(shù)F為
式中,LAG為平均梯度函數(shù),LSD為標(biāo)準(zhǔn)差函數(shù),LCON為內(nèi)容損失函數(shù),λ表示保持兩項(xiàng)平衡的正則化參數(shù),取λ=1/300。
平均梯度(Average Gradient,AG)用來度量圖像梯度信息,且可以在一定程度上反映圖像的細(xì)節(jié)紋理[20]。AG 值越大,圖像包含的梯度信息越多,LAG定義為
式中,?Iox(i,j)=Io(i,j)-Io(i+1,j),?Ioy(i,j)=Io(i,j)-Io(i,j+1),M和N為圖像寬和高,(i,j)為圖像橫、縱坐標(biāo)。
標(biāo)準(zhǔn)差(Standard Deviation,SD)主要用來反映圖像對(duì)比度信息[21],SD 值越大,圖像的對(duì)比度越高,視覺效果越好,LSD定義為
式中,?表示圖像的平均值。
為了衡量優(yōu)化過程中的目標(biāo)信息損失程度,設(shè)計(jì)了內(nèi)容損失函數(shù)LCON,定義為
式中,I表示原始圖像。
2.1.3 基于CSA 的目標(biāo)函數(shù)自適應(yīng)優(yōu)化
為得到優(yōu)化因子y,采用變色龍優(yōu)化算法(CSA)進(jìn)行求解。CSA 主要模擬了變色龍?jiān)跇淠?、沙漠和沼澤附近尋找食物時(shí)動(dòng)態(tài)行為。該算法具有尋優(yōu)能力強(qiáng)、收斂速度快、精度高等特點(diǎn)。為此,針對(duì)設(shè)計(jì)的目標(biāo)函數(shù)F,即式(5),將CSA 引入到優(yōu)化機(jī)制中,利用CSA 進(jìn)行尋優(yōu),從而求解優(yōu)化因子y。CSA 步驟為:
1)初始化。初始種群是根據(jù)搜索空間中均勻隨機(jī)初始化的變色龍數(shù)量和空間的維數(shù)創(chuàng)建的,即
式中,yi為第i個(gè)變色龍的初始位置,uj和lj分別表示搜索區(qū)域在第j維的下界和上界,r為[0,1]范圍內(nèi)均勻生成的隨機(jī)數(shù)。
2)搜索獵物。變色龍覓食過程中的運(yùn)動(dòng)行為可以采用以下位置更新策略進(jìn)行建模。
式中,T為最大迭代次數(shù),t為當(dāng)前迭代次數(shù),γ、α、β用于控制搜索和發(fā)現(xiàn)的能力,分別設(shè)置為1、3.5、3。
3)眼睛旋轉(zhuǎn)發(fā)現(xiàn)獵物。變色龍的眼睛能360°旋轉(zhuǎn)進(jìn)行獵物搜索,并根據(jù)獵物的位置來更新自己的位置,位置更新數(shù)學(xué)描述為
4)捕獲獵物。當(dāng)獵物離變色龍較近時(shí),變色龍便利用舌頭攻擊并捕獲獵物。位置更新數(shù)學(xué)描述為
綜上,通過搜索獵物、眼睛旋轉(zhuǎn)發(fā)現(xiàn)獵物和捕獲獵物三階段的位置迭代更新可求得最佳位置y。在迭代尋優(yōu)過程中,針對(duì)變色龍的位置解,利用目標(biāo)函數(shù)F計(jì)算其適應(yīng)度值,變色龍個(gè)體根據(jù)當(dāng)前的位置和適應(yīng)度值,采取一定的策略進(jìn)行移動(dòng),并尋找更優(yōu)的位置。根據(jù)新位置再次計(jì)算更新后的適應(yīng)度值,進(jìn)而更新全局最優(yōu)解。如果達(dá)到最大迭代次數(shù)或滿足目標(biāo)函數(shù)F的要求,則優(yōu)化結(jié)束,輸出最優(yōu)解y,否則繼續(xù)進(jìn)行迭代更新尋找最優(yōu)解,進(jìn)而得到優(yōu)化因子。偽代碼如表1 所示,原始圖像優(yōu)化前后效果如圖3 所示。
表1 基于CSA 的目標(biāo)函數(shù)自適應(yīng)優(yōu)化Table 1 Adaptive optimization of objective function based on CSA
圖3 優(yōu)化前后對(duì)比Fig.3 Comparison chart before and after optimization
從圖3 紅色框標(biāo)注區(qū)域可以看出,相較于原始圖像,經(jīng)過特征優(yōu)化模塊后,可見光圖像的紋理細(xì)節(jié)和目標(biāo)輪廓更清晰,紅外圖像的對(duì)比度和清晰度也更加明顯,為后續(xù)圖像融合奠定了良好基礎(chǔ)。
2.2.1 生成器
生成器網(wǎng)絡(luò)主要由特征提取、特征融合以及特征重構(gòu)三部分構(gòu)成。
2.2.1.1 基于多尺度密集連接的特征提取模塊
紅外和可見光圖像具有不同的成像機(jī)理,其特征表現(xiàn)形式往往有所差異。為此,設(shè)計(jì)了雙支路特征提取網(wǎng)絡(luò),分別提取可見光圖像的梯度信息和紅外圖像的對(duì)比度信息,如圖1 所示。兩條支路結(jié)構(gòu)相同、參數(shù)獨(dú)立,能夠有效降低模型復(fù)雜度。同時(shí),為解決單一尺寸卷積核特征提取不全面的問題,構(gòu)造了一種基于多尺度密集連接的特征提取模塊(MSDC-Fem),如圖4 所示。
圖4 MSDC-Fem 結(jié)構(gòu)Fig.4 MSDC-Fem structure diagram
以經(jīng)過特征優(yōu)化后的紅外圖像IR_O 為例,首先,分別使用三個(gè)卷積核大小為3×3、5×5、7×7 的卷積層對(duì)輸入圖像進(jìn)行多尺度特征提取。然后,為避免特征提取時(shí)中間層信息丟失問題,在每個(gè)不同尺度的卷積分支后分別接入密集連接網(wǎng)絡(luò)(Densely Connected Convolutional Network,DenseNet)[22]進(jìn)行更深層次特征提取,增強(qiáng)特征傳遞及重用,使生成器能夠更有效地利用原始圖像特征信息,同時(shí)還可以減輕網(wǎng)絡(luò)梯度消失。該密集連接網(wǎng)絡(luò)模塊由3 個(gè)密集連接的卷積層組成,各卷積層的卷積核大小均為3×3。最后,將提取的多尺度深層特征進(jìn)行融合得到局部融合特征。因?yàn)樵谔卣饔?jì)算時(shí)所采用的補(bǔ)0 策略都是“SAME”,所以不同尺度卷積得到的特征圖尺度一樣,可以直接進(jìn)行相加。圖4中,利用MSDC-Fem 對(duì)輸入圖像進(jìn)行特征提取時(shí),可以表示為
式中,F(xiàn)a3、Fa5、Fa7分別表示不同尺度的特征圖,F(xiàn)in為輸入圖像,*表示卷積操作,f3×3、f5×5、f7×7分別表示3 個(gè)不同尺寸的卷積核。
x0、x1和x2分別為三個(gè)卷積層的輸入,x3為密集塊的末端輸出,以3×3 卷積支路為例,x0~x3分別表示為
式中,?表示通道連接,Φa3為3×3 支路得到的深層特征。同上,可分別得到另外兩條支路的深層特征Φa5和Φa7。最終,紅外圖像局部融合特征可表示為
同理,經(jīng)過MSDC-Fem 模塊可獲得可見光圖像局部融合特征ΦV。
2.2.1.2 基于雙通道注意力特征融合網(wǎng)絡(luò)
在融合層設(shè)計(jì)雙通道注意力模型,以使網(wǎng)絡(luò)從空間和通道兩個(gè)方向同時(shí)聚焦重要目標(biāo)特征信息,且通過并聯(lián)連接,網(wǎng)絡(luò)可以將不同層次的特征信息進(jìn)行整合,更好地強(qiáng)化重要的空間位置信息和通道特征信息,從而提高網(wǎng)絡(luò)對(duì)關(guān)鍵信息的表達(dá)能力。同時(shí),相比于串聯(lián)方式,并聯(lián)的雙通道注意力機(jī)制可以在不同的輸入之間進(jìn)行自由的信息交互,能夠更好地捕捉輸入特征之間的相關(guān)性和依賴關(guān)系。具體過程為:將可見光和紅外圖像對(duì)應(yīng)的局部融合特征ΦV和ΦI經(jīng)過空間注意力模型,可得到空間區(qū)域信息加強(qiáng)后的注意力融合特征圖ΦsaF,經(jīng)過通道注意力模型,可對(duì)局部融合特征的通道信息進(jìn)行增強(qiáng),得到通道注意力融合特征圖ΦcaF。最后,采用加權(quán)平均融合規(guī)則將兩種注意力融合特征圖進(jìn)行融合,得到全局融合特征圖ΦF,如圖5 所示。
圖5 注意力融合過程Fig.5 Attention fusion process
1)空間注意力模型
對(duì)ΦV∈RH×W×C和ΦI∈RH×W×C分別通過計(jì)算像素向量沿通道維數(shù)方向的LP范數(shù)得到其初始注意力圖[23],即
將空間加權(quán)圖與局部融合特征圖進(jìn)行相乘,分別得到紅外和可見光圖像的通道注意力圖,即
最后,將兩者進(jìn)行線性疊加得到空間注意力特征圖,即
2)通道注意力模型
首先,計(jì)算每個(gè)通道上特征映射的LP范數(shù),得到初始通道注意向量,即
將通道加權(quán)圖與局部融合特征圖進(jìn)行相乘,分別得到對(duì)應(yīng)的紅外和可見光圖像空間注意力圖,即
最后,將兩者線性疊加得到通道注意力特征圖為
3)加權(quán)融合
2.2.1.3 特征重構(gòu)模塊
在特征重構(gòu)部分,通過4 層卷積的解碼網(wǎng)絡(luò)對(duì)全局融合注意力特征圖ΦF進(jìn)行重構(gòu),進(jìn)而得到融合圖像,如圖6 所示。在解碼網(wǎng)絡(luò)中,各卷積層均采用(Conv3×3)+BN+ReLU 結(jié)構(gòu),濾波器數(shù)分別設(shè)置為128、64、32 和1。
圖6 特征重構(gòu)模塊Fig.6 Feature reconstruction module
2.2.2 雙判別器
判別器網(wǎng)絡(luò)主要用于判斷生成器生成的圖像是否服從真實(shí)樣本分布。為了同時(shí)保留可見光的紋理細(xì)節(jié)信息和紅外圖像的顯著目標(biāo)信息,構(gòu)造了雙判別器結(jié)構(gòu),如圖7 所示。Discriminator-VIS 用于區(qū)分融合圖像和可見光圖像,Discriminator-IR 用于區(qū)分融合圖像和紅外圖像。考慮到兩個(gè)判別器之間的平衡,使其具有相同的網(wǎng)絡(luò)結(jié)構(gòu),均由4 個(gè)卷積層和1 個(gè)線性層組成,4 個(gè)卷積層均使用3×3 卷積核和ReLU 激活函數(shù),每個(gè)卷積層的步長設(shè)置為2,濾波器組參數(shù)分別為32、64、128 和256。線性層將輸入與前4 個(gè)卷積層提取的特征進(jìn)行區(qū)分,并輸出分類概率。此外,卷積層C1~C3 加入批歸一化以緩解網(wǎng)絡(luò)梯度消失問題。
損失函數(shù)由生成器損失LG和判別器損失LD兩部分構(gòu)成,生成器損失LG包括對(duì)抗損失Ladv和內(nèi)容損失Lcontent,即
式中,λ1為權(quán)重系數(shù),用于兩者之間的平衡。
式中,N表示融合圖像的數(shù)量,表示生成的融合圖像,D(?)表示判別器分類結(jié)果,a1和a2分別表示兩個(gè)判別器的輸出概率。對(duì)于生成器,不期望判別器能夠區(qū)分融合圖像和真實(shí)圖像,故取a1=a2=0.7~1.2 之間隨機(jī)。
內(nèi)容損失由對(duì)比度損失Lcon和梯度損失Lgrad構(gòu)成,Lcon約束目標(biāo)物體與背景的對(duì)比度,Lgrad約束融合圖像的紋理細(xì)節(jié)信息,即
式中,ξ1和ξ2是平衡兩者的正則化參數(shù)。Lcon和Lgrad分別表示為
式中,Ifused表示融合圖像,Iir表示原始紅外圖像,Ivis表示原始可見光圖像,‖ · ‖F(xiàn)表示Frobenius 范數(shù),?表示梯度計(jì)算。
通過判別器損失函數(shù)可以平衡判定融合圖像與原始圖像的真假性,進(jìn)而與生成網(wǎng)絡(luò)模型對(duì)抗博弈,使生成的融合圖像更趨向于原始圖像真實(shí)數(shù)據(jù)分布。判別器損失由紅外判別器損失和可見光判別器損失兩部分構(gòu)成,即
式中,air為輸入的紅外優(yōu)化圖像,bvis為輸入的可見光優(yōu)化圖像,d表示融合圖像標(biāo)簽,在0~0.3 之間隨機(jī)選取。
實(shí)驗(yàn)所使用的硬件平臺(tái)配置:CPU 為AMD Ryzen 5 5600X 6-Core Processor,主頻3.70 GHz;GPU 為NVIDIA GeForce RTX 3070 8GB。訓(xùn)練和測(cè)試在Windows10 系統(tǒng)上,并采用Pytorch 框架完成。
采用TNO image fusion 公開數(shù)據(jù)集[24]進(jìn)行實(shí)驗(yàn),從中任選32 組已配準(zhǔn)的不同場景下的紅外和可見光圖像,先經(jīng)過特征優(yōu)化模塊得到優(yōu)化后的圖像,再將此圖像作為訓(xùn)練數(shù)據(jù)集。為了訓(xùn)練一個(gè)良好的模型,增強(qiáng)模型的魯棒性,需對(duì)數(shù)據(jù)集進(jìn)行擴(kuò)充。采用滑窗方式對(duì)32 組優(yōu)化后的圖像進(jìn)行裁剪,裁剪步長設(shè)為12,裁剪圖像塊尺寸為120×120,獲取24 200 組紅外與可見光圖像對(duì),并將其灰度值范圍轉(zhuǎn)換為[0,1]。
生成器和判別器采用迭代訓(xùn)練方式,兩者訓(xùn)練次數(shù)之比為p。同時(shí),batchsize 大小為b,總的訓(xùn)練epochs為M。實(shí)驗(yàn)中,取p=1/2、b=16、M=300。采用Adam 優(yōu)化器對(duì)網(wǎng)絡(luò)模型參數(shù)進(jìn)行優(yōu)化,學(xué)習(xí)率設(shè)為1×10-4。損失函數(shù)參數(shù)設(shè)置為λ1=0.1、ξ1=2、ξ2=5,具體訓(xùn)練過程見表2。
表2 網(wǎng)絡(luò)模型的訓(xùn)練過程Table 2 Training process of network model
3.2.1 主觀評(píng)價(jià)
為驗(yàn)證本文算法優(yōu)勢(shì),從TNO 數(shù)據(jù)集中任選6 組紅外和可見光圖像進(jìn)行主觀評(píng)價(jià)。將本文算法與DenseFuse[11]、FusionGAN[14]、ResNet-ZCA[25]、MDLatLRR[26]、PMGI[27]以及RFN-Nest[28]進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果如圖8 所示。為了便于觀察和分析,對(duì)融合結(jié)果局部細(xì)節(jié)用紅框進(jìn)行標(biāo)注。
圖8 主觀實(shí)驗(yàn)結(jié)果對(duì)比Fig.8 Subjective experimental results comparison
從圖8 可以看出:DenseFuse 算法由于采用卷積網(wǎng)絡(luò)作為特征提取和重建模塊,融合圖像中較好地保留了紋理細(xì)節(jié),但其對(duì)紅外圖像的特征提取能力有一定的限制,所以紅外目標(biāo)信息存在一定的損失,如第4 組圖像中人物目標(biāo)信息不突出;FusionGAN 算法一定程度上保留了紅外顯著目標(biāo),但由于其采用單一判別器結(jié)構(gòu),造成可見光紋理細(xì)節(jié)信息的部分丟失,如第1 組圖像中樹枝和第6 組圖像中飛機(jī)底支架的紋理細(xì)節(jié)不豐富、邊緣輪廓較為模糊;MDLatLRR 算法采用多級(jí)分解并使用不同的融合策略,能夠較好地保留原始圖像的細(xì)節(jié)信息,圖像的輪廓信息也較為清晰,但紅外目標(biāo)不突出,如第3 組圖像中汽車前端紅外信息損失嚴(yán)重;RFN-Nest 算法采用兩階段訓(xùn)練,使用自動(dòng)編碼器更注重于紋理細(xì)節(jié)的保留,而忽略了紅外目標(biāo)特征的保留,如第2 組和第4 組圖像中人物熱目標(biāo)不突出、邊緣較為模糊;PMGI 算法基于均方誤差構(gòu)建了像素強(qiáng)度和梯度約束,可以生成較清晰的融合圖像,但一些局部紋理細(xì)節(jié)信息不能有效保存,如第5 組圖像中路燈邊緣較模糊;ResNet-ZCA 算法通過計(jì)算權(quán)值圖并與原始圖像結(jié)合獲得融合圖像,取得了較好的融合效果,但目標(biāo)區(qū)域沒有突出顯示,如第5 組圖像中人物背部紅外信息不明顯;而本文算法通過構(gòu)造特征優(yōu)化模塊增強(qiáng)圖像特征表達(dá)能力,并設(shè)計(jì)融合注意力模型的GAN 網(wǎng)絡(luò),使得融合結(jié)果紋理細(xì)節(jié)信息豐富、紅外目標(biāo)突出、目標(biāo)邊緣清晰及視覺效果好,相比于其他對(duì)比算法具有明顯優(yōu)勢(shì)。
3.2.2 客觀評(píng)價(jià)
為了客觀評(píng)價(jià)本文算法優(yōu)勢(shì),從TNO 數(shù)據(jù)集中隨機(jī)選取21 組圖像進(jìn)行定量分析。選取的客觀評(píng)價(jià)指標(biāo)[29]包括:信息熵(Entropy,EN)、空間頻率(Spatial Frequency,SF)、相關(guān)熵(Joint Entropy,JE)、視覺保真度(Visual Information Fidelity,VIF)、結(jié)構(gòu)相似性(Structure Similarity Index Measure,SSIM)和梯度信息指標(biāo)(Gradient-based fusion performance,QAB/F)。上述評(píng)價(jià)指標(biāo)的數(shù)值越大,圖像的融合效果越好,對(duì)比實(shí)驗(yàn)得到的客觀評(píng)價(jià)指標(biāo)如圖9 所示。
圖9 客觀實(shí)驗(yàn)結(jié)果對(duì)比Fig.9 Objective experimental result comparison
從圖9 可以看出,本文所提算法在EN、SF、JE、VIF 和QAB/F5 項(xiàng)指標(biāo)中取得最優(yōu)平均值,且相比于DenseFuse 算法,客觀指標(biāo)分別提高了16.11%、65.46%、7.96%、42.67%和33.24%。SF、JE 和VIF 較高表明融合圖像不僅具有較強(qiáng)的細(xì)節(jié)表達(dá)能力,而且符合人類視覺感知。QAB/F和EN 較高表明融合圖像信息量更豐富。對(duì)于SSIM,其反映了融合圖像與原始圖像的結(jié)構(gòu)相似性。由于所提算法引入了注意力融合模塊,要同時(shí)保留紅外圖像的顯著度信息和可見光圖像的紋理細(xì)節(jié)信息,而融合過程通過優(yōu)化平衡原始特征映射,會(huì)導(dǎo)致融合圖像中的某些結(jié)構(gòu)和邊緣弱化,進(jìn)而使SSIM 相對(duì)較低。
3.2.3 算法運(yùn)行時(shí)間比較
為了進(jìn)一步評(píng)估算法的復(fù)雜性和運(yùn)行效率,在測(cè)試集上對(duì)比了各算法的平均運(yùn)行時(shí)間,比較結(jié)果如表3所示。實(shí)驗(yàn)結(jié)果表明,本文算法的平均運(yùn)行時(shí)間低于DenseFuse 和RFN-Nest,這是因?yàn)楸疚乃惴ㄒ肓硕喑叨让芗B接模塊和注意力融合模塊,增加了模型的計(jì)算量。
表3 不同算法平均運(yùn)行時(shí)間(單位:秒)Table 3 Average running time of different algorithms (units: s)
3.2.4 算法收斂性分析
本文算法訓(xùn)練過程中的loss 下降曲線如圖10 所示,可以看出,網(wǎng)絡(luò)僅訓(xùn)練30 輪損失值即下降至0.05,約在100 輪之后達(dá)到平衡且最終穩(wěn)定在0.024 2 左右,表明本文算法取得了較好的訓(xùn)練效果,即損失函數(shù)收斂快,穩(wěn)定數(shù)值小,網(wǎng)絡(luò)訓(xùn)練穩(wěn)定,圖像融合精度高。
圖10 損失函數(shù)曲線Fig.10 Loss function curve
所提算法主要包括特征優(yōu)化模塊、MSDC-Fem 模塊及注意力融合模塊。為驗(yàn)證各模塊的有效性,通過加入不同模塊對(duì)TNO 數(shù)據(jù)集21 組圖像和6 個(gè)評(píng)價(jià)指標(biāo)進(jìn)行消融實(shí)驗(yàn),所有實(shí)驗(yàn)均使用相同的數(shù)據(jù)集和參數(shù)設(shè)置。為了描述方便,將3 個(gè)模塊分別簡記為模塊A、模塊B 和模塊C。其中,在未使用特征優(yōu)化模塊時(shí),網(wǎng)絡(luò)的輸入是原始可見光和紅外圖像;在未使用MSDC-Fem 模塊時(shí),網(wǎng)絡(luò)改用普通單一尺度卷積提取特征;在未使用注意力融合模塊時(shí),網(wǎng)絡(luò)采用線性疊加的融合規(guī)則。21 組圖像消融實(shí)驗(yàn)客觀指標(biāo)平均值的對(duì)比結(jié)果如表4 所示,最優(yōu)值用粗體標(biāo)注。
表4 消融實(shí)驗(yàn)客觀結(jié)果對(duì)比Table 4 Ablation experiments objectively results comparison
從表4 可以看出,相比于原始融合網(wǎng)絡(luò)(3 個(gè)模塊均不加入),引入特征優(yōu)化模塊,SF 和QAB/F分別提升了10.30%和14.29%,表明特征優(yōu)化模塊可使得融合結(jié)果在感知上更加清晰,細(xì)節(jié)更加豐富。引入MSDCFem 特征提取模塊,SF 提升了21.59%,表明在特征提取過程中多尺度模塊增大了網(wǎng)絡(luò)感受野特征提取范圍,密集連接模塊加強(qiáng)了特征的有效傳遞和重用,進(jìn)而增強(qiáng)了融合結(jié)果的細(xì)節(jié)和結(jié)構(gòu)。引入注意力融合模塊,SF 和VIF 分別提升了6.68%和3.85%,表明注意力模型使得紅外與可見光圖像的關(guān)鍵特征得到更好的保留和強(qiáng)化。不同模塊協(xié)同訓(xùn)練的結(jié)果表明:模塊A+模塊B,EN、SF 和SSIM 分別提升了7.10%、35.67%和6.18%;模塊A+模塊C,VIF 和QAB/F分別提升了6.71%和22.44%;模塊B+模塊C,SF、JE 和VIF 分別提升了45.91%、4.22%和25.49%。本文算法通過融合3 個(gè)設(shè)計(jì)模塊,在EN、SF、JE、VIF 和QAB/F5 個(gè)指標(biāo)取得最優(yōu)值,且分別提升了12.20%、70.64%、5.81%、30.77%和48.99%,驗(yàn)證了算法各模塊的優(yōu)勢(shì)。
本文提出了一種基于特征優(yōu)化和GAN 的紅外與可見光圖像融合算法。通過設(shè)計(jì)基于CSA 的自適應(yīng)特征優(yōu)化模塊,解決了原始圖像紋理細(xì)節(jié)不清晰、目標(biāo)對(duì)比度差等問題。在生成器中,構(gòu)造了多尺度密集連接模塊,可以使提取的特征更全面豐富;同時(shí),在特征融合網(wǎng)絡(luò)中設(shè)計(jì)并聯(lián)式雙通道注意力模型,有效地避免了原始重要信息的丟失。在判別器中,設(shè)計(jì)雙判別器網(wǎng)絡(luò)結(jié)構(gòu),既保留了可見光紋理細(xì)節(jié)信息又保留了紅外熱顯著度信息。實(shí)驗(yàn)結(jié)果表明,與其他6 種融合方法相比,本文方法不僅具有更好的主觀效果,且在客觀評(píng)價(jià)指標(biāo)EN、SF、JE、VIF 和QAB/F中取得最優(yōu)值。相比于DenseFuse,客觀評(píng)價(jià)指標(biāo)分別提高了16.11%、65.46%、7.96%、42.67%和33.24%,表明本文方法具有較好的融合效果。