楊艷春,高曉宇,黨建武,王陽萍
基于WEMD和生成對抗網(wǎng)絡重建的紅外與可見光圖像融合
楊艷春*,高曉宇,黨建武,王陽萍
(蘭州交通大學 電子與信息工程學院,甘肅 蘭州 730070)
針對紅外與可見光圖像融合中邊緣模糊、對比度較低的問題,提出一種二維窗口經(jīng)驗模式分解(WEMD)和生成對抗網(wǎng)絡重建的紅外與可見光圖像融合算法。將紅外和可見光圖像進行WEMD分解得到內(nèi)蘊模式函數(shù)分量和殘余分量,將內(nèi)蘊模式函數(shù)分量通過主成分分析進行融合,殘余分量用加權(quán)平均進行融合,重構(gòu)得到初步融合圖像,再將初步融合圖像輸入生成對抗網(wǎng)絡中與可見光圖像進行對抗博弈,補全背景信息,得到最終的融合圖像。客觀評價指標采用平均梯度、邊緣強度、熵值、結(jié)構(gòu)相似性和互信息,與其他5種方法相比,本文算法的各項指標分別平均提高了46.13%,39.40%,19.91%,3.72%,33.10%。實驗結(jié)果表明,該算法較好地保留了源圖像的邊緣及紋理細節(jié)信息,同時突出了紅外圖像的目標,具有較好的可視性,而且在客觀評價指標方面也有明顯的優(yōu)勢。
圖像融合;紅外與可見光圖像;窗口經(jīng)驗模式分解;生成對抗網(wǎng)絡
圖像融合是從不同傳感器捕獲的圖像中提取最有意義的信息,并將多個源圖像的互補信息生成一幅信息更完備、對后續(xù)應用更有利的圖像[1]。具體來說,可見光圖像容易受天氣、光照等因素的影響,無法有效突出目標。紅外成像通過捕捉熱輻射信息差異形成紅外圖像,與可見光圖像相比,紅外圖像對成像環(huán)境的魯棒性更強,所捕獲的紅外圖像具有顯著的對比度,能有效地將熱目標與背景區(qū)分開。然而在對比度、分辨率和細節(jié)刻畫等方面,紅外圖像又遠不如可見光圖像。通過紅外與可見光圖像融合實現(xiàn)兩種圖像的優(yōu)勢互補,生成的圖像既能突出目標區(qū)域又有豐富的紋理細節(jié)。目前,這種技術(shù)廣泛應用于軍事[2]、安全監(jiān)控[3]、醫(yī)療科學技術(shù)[4]、遙感[5]和機器視覺[6]等領(lǐng)域。
隨著圖像融合領(lǐng)域的不斷發(fā)展,新的融合方法不斷提出,融合效率也明顯提高?;诙喑叨茸儞Q的方法是圖像融合中的有力工具,比如小波[7]、金字塔[8]、曲波[9]以及它們的改進方法。這些方法取得了一定的融合效果,但得到的融合結(jié)果耗時長、效率低。經(jīng)驗模態(tài)分解(Emperical Mode Decomposition,EMD)[10]是Huang在1998年提出的,它可以分解為一維非線性和非平穩(wěn)信號。諸多學者將一維信號分解擴展到二維圖像信號分解,并且已經(jīng)逐步地發(fā)展成熟。文獻[11]提出了一種基于二維經(jīng)驗模態(tài)分解(BEMD)的圖像融合方法,利用BEMD進行分解,各自分量對應一個融合規(guī)則,最后各自分量相加得到融合結(jié)果。文獻[12]提出了一種分級多尺度融合的水下偏振圖像處理方法,基于BEMD分別將偏振參量融合圖像與偏振強度圖像進行多尺度變換,對得到的高低頻子圖像分別進行加權(quán)平均融合,融合權(quán)重是采用窮舉搜索法計算得到的,最后,將高低頻融合結(jié)果反變換得到最終的融合圖像。深度學習可以自動從數(shù)據(jù)中提取獨有的特征,無需人工干預,在圖像融合中得到了廣泛的應用。文獻[13]利用深度學習框架生成源圖像特征的單幅圖像,較好地保留了源圖像的重要特征,取得了較好的融合效果。文獻[14]用生成對抗網(wǎng)絡(Generative Adversarial Networks,GAN)來融合紅外與可見光這兩種類型的信息,其中生成器的目標是生成具有主要紅外強度和附加可見梯度的融合圖像,鑒別器的目標是迫使融合圖像具有可見光圖像中存在的更多細節(jié),這使得最終的融合圖像同時保持紅外圖像中的熱輻射和可見光圖像中的紋理信息。
目前,紅外與可見光圖像融合存在以下問題:(1)部分方法利用BEMD的優(yōu)良分解特性,在使用BEMD算法分解圖像時存在信號隱藏問題,無法完全分離信號,對圖像邊緣和紋理提取不充分;(2)生成對抗網(wǎng)絡訓練過程中會產(chǎn)生梯度消失的現(xiàn)象,無法達到納什均衡。為解決以上問題,本文提出一種基于窗口經(jīng)驗模態(tài)分解(Window Empirical Mode Decomposition,WEMD)和GAN重建的紅外與可見光圖像融合算法。利用WEMD算法的高頻細節(jié)信息強獲取能力,可以更好地提取可見光中的背景信息,分解成殘余分量和內(nèi)蘊模式函數(shù)分量(Intrinsic Mode Function,IMF)。殘余分量則相當于低頻信息,融合規(guī)則采用加權(quán)平均的方法,重構(gòu)得到初步的融合圖像。代表高頻信息的IMF分量采用主成分分析(Principle Component Analysis,PCA)的融合規(guī)則進行融合,生成初步融合圖。將得到的初步融合圖像輸入GAN中,針對訓練不穩(wěn)定的問題,將GAN的目標函數(shù)由交叉熵損失替換為最小二乘損失,增強圖像細節(jié)特征的提取能力。為了驗證算法的有效性,與其他5種方法進行對比,本文方法在解決信號隱藏問題的基礎(chǔ)上,保留了圖像的邊緣及紋理等細節(jié)信息,具有較好的可視性。
傳統(tǒng)BEMD存在著信號隱藏和收斂速度慢的問題,因為BEMD在計算平均包絡時運用了插值算法,插值算法在端點處和頻率變化較大的區(qū)域會出現(xiàn)較大的擺動,隨著分解層數(shù)的增加,得到的分解數(shù)據(jù)會出現(xiàn)嚴重的失真。BEMD的分解停止條件是通過計算標準差來決定的,而這種篩選過程不具備快速收斂性,影響運算速度。本文提出了一種二維WEMD算法,在BEMD的基礎(chǔ)上,增加了一個自適應窗口,替代了BEMD中通過插值算法計算出上下包絡的方法,很好地克服了信號隱藏問題[15],舍棄了根據(jù)標準差的停止篩選條件,有效提高了算法的運算速度。WEMD可以很好地解決信號隱藏問題,如圖1所示。
圖1 窗口經(jīng)驗模式分解
它的基本算法流程如下:
(2)對當前第層,進行加窗處理:
③=+2,如果<,轉(zhuǎn)到步驟②;否則求;
④計算下一像素,轉(zhuǎn)到步驟②,直到計算完所有像素點;
GAN將生成模型設(shè)計成一個學習概率參數(shù)的模型,為了使真實分布數(shù)據(jù)和生成模型之間的散度最小化,通過一個最大、最小博弈對抗過程同時訓練兩個模型來估計生成模型:生成模型G和鑒別模型D[16]。生成器G將生成的一個樣本去欺騙鑒別器D,鑒別器D則是區(qū)分真假圖像。在訓練過程中進行對抗學習來提高兩個模型的性能,產(chǎn)生更高質(zhì)量的圖像。它的目標函數(shù)為:
當訓練G時,鑒別器D中的參數(shù)是不變的。G和D的對抗過程構(gòu)成了最小最大博弈,其中G試圖愚弄D,而D被訓練來鑒別生成的數(shù)據(jù)。因此,鑒別器很難區(qū)分生成的樣本和真實數(shù)據(jù)?,F(xiàn)有的基于GAN的融合方法僅僅應用GAN來迫使融合圖像在可見光圖像中獲得更多細節(jié),而紅外圖像中的熱輻射僅通過內(nèi)容損失獲得。隨著對抗博弈的進行,融合后的圖像與可見光圖像更加相似,熱目標的突出度逐漸降低。利用雙鑒別器可以很好地解決以上的問題。
將源圖像通過WEMD分解得到殘余分量和IMF分量,通過加權(quán)平均對殘余分量進行融合。IMF分量則采用PCA主成分分析法進行融合,PCA方法的降維處理方式應用在圖像處理上往往容易獲得大尺度下的紋理和細節(jié)信息,將PCA應用于IMF分量的融合,可以很好地對IMF分量中的細節(jié)、線條和邊緣進行捕捉和刻畫,從而保留圖像主要的細節(jié)信息。最后,將得到的各分量的融合圖像累加得到初步的融合圖像,將初步融合圖像輸入GAN中進行細節(jié)重建,得到最終的融合圖像?;赪EMD的算法流程如圖2所示,具體步驟如下:
(2)選用加權(quán)平均來融合殘余分量,利用PCA融合IMF分量,得到各個分量的融合圖,重構(gòu)得到初步的融合圖像;
(3)再將得到的初步融合圖像輸入GAN中進行細節(jié)重建得到最終的融合圖像。
圖2 基于窗口經(jīng)驗模式分解算法流程
(8)將得到的兩部分融合圖重構(gòu)得到初步的融合圖像。
細節(jié)重建部分是將得到的初步融合圖像輸入GAN,通過生成器來生成虛假樣本,利用雙鑒別器與生成器對抗的過程中補全紅外圖像和可見光圖像的信息。
321生成器的網(wǎng)絡架構(gòu)
生成器的網(wǎng)絡結(jié)構(gòu)如圖3所示。由圖可知,它是一個簡單的五層卷積神經(jīng)網(wǎng)絡,其中第一層和第二層使用5×5濾波器,第三層和第四層使用3×3濾波器,最后一層使用1×1濾波器。每層的步幅設(shè)置為1。對于紅外和可見光圖像融合,每個下采樣過程都會丟失源圖像中的一些細節(jié)信息,這對融合很重要。因此,只引入卷積層。這也可以保持輸入和輸出的大小相同,因此,轉(zhuǎn)置卷積層在我們的網(wǎng)絡中是不必要的。此外,為了避免梯度消失的問題,遵循深度卷積GAN的規(guī)則進行批量歸一化和激活函數(shù)。為了克服對數(shù)據(jù)初始化的敏感性,在前四層采用了批量歸一化,批量歸一化層可以使模型更加穩(wěn)定,也可以幫助梯度有效地反向傳播到每一層。為了避免隨著網(wǎng)絡加深出現(xiàn)的誤差,引入殘差網(wǎng)絡。在前四層使用ReLU激活函數(shù),最后一層使用tanh激活函數(shù)。
圖3 生成器的網(wǎng)絡架構(gòu)
322鑒別器的網(wǎng)絡架構(gòu)
鑒別器的網(wǎng)絡結(jié)構(gòu)每一層都只有卷積操作,如圖4所示。從第一層到第四層,卷積層中使用3×3的濾波器,在沒有填充的情況下將步幅設(shè)置為2。鑒別器是一個分類器,它先從輸入圖像中提取特征圖,然后對它們進行分類。因此,將步幅設(shè)置為2,它的工作方式與匯集層相同。為了不引入噪聲,只在第一層對輸入圖像執(zhí)行填充操作,在其余三個卷積層不執(zhí)行填充。從第二層到第四層,使用批處理規(guī)范化層。隨著層數(shù)的增加,為了避免誤差,引入殘差網(wǎng)絡。每一層的激活函數(shù)都是Leaky ReLU函數(shù),最后是線性層。
圖4 鑒別器的網(wǎng)絡架構(gòu)
323網(wǎng)絡訓練
為了解決GAN在網(wǎng)絡訓練中不穩(wěn)定的問題,在訓練中引入內(nèi)容丟失。因此,生成器不僅被訓練成欺騙鑒別者,而且約束生成的圖像和內(nèi)容中的源圖像之間的相似性的任務。因此,生成器的損失函數(shù)由兩部分構(gòu)成,損失函數(shù)定義為:
為驗證本文算法的可行性與有效性,實驗中選取6組經(jīng)過配準的紅外與可見光圖像進行融合,其大小分別為632×496,640×480,620×450,360×270,595×328和768×576 pixel。網(wǎng)絡模型運用tensorflow框架。實驗的仿真平臺采用配置為Intel酷睿i5-4210H CPU,運行內(nèi)存8 GB,操作系統(tǒng)為Win 10,編程環(huán)境為Python 3.6。如圖5所示,將本文方法與自適應稀疏表示(ASR)[17]、通過紅外特征提取和視覺信息保存實現(xiàn)紅外與可見光圖像融合(EP)[18]、基于卷積稀疏性的形態(tài)學成分分析方法(CSMCA)[19]、集成卷積神經(jīng)網(wǎng)絡方法(ECNN)[20]和GAN[14]進行對比。
圖5中,第一組EP方法很好地突出了高亮區(qū)域,但遺漏了很多可見光圖像中的信息,而其他方法沒有很好突出紅外信息,本文方法在保持細節(jié)信息的同時,得到了足夠的紅外信息。第二組對比方法的融合結(jié)果丟失了一些紅外信息,本文方法中很好地體現(xiàn)出了飛機螺旋槳的紅外信息,對比度更高。本文方法很好地體現(xiàn)了紅外目標信息,并保有一定的背景細節(jié)信息。第三組很好地保留了房子周圍樹木的紋理細節(jié),EP方法有明顯的遮擋,GAN方法保留了目標建筑物的顯著性,但周邊樹木的紋理結(jié)構(gòu)卻不夠豐富,而本文方法則很好地突出了紅外目標的信息。第四組圖像在標出的路面上損失了很多背景信息,CSMCA方法和ECNN方法融合得到的圖像雖然突出了前景目標信息,但兩個方法丟失了部分細節(jié)、紋理信息。相比而言,本文算法對路面的紋理保留得最好,且有效地突出了高亮區(qū)域。第五組EP和ECNN具有明顯的融合處理痕跡,比如樹林的背景被虛化、人體線條失真,且源圖像區(qū)域間成像特性差異越大、特征變化越急劇,這種效應越明顯,對比之下,ASR和本文方法則較為自然。從第六組圖片可以看出,房子周圍的樹木模糊,天空中的云出現(xiàn)失真的現(xiàn)象,本文算法可以清晰地看到樹木和云朵的紋理信息,相比其他方法具有明顯優(yōu)勢。
為了更好地評價圖像質(zhì)量,本文采用了5種客觀評價指標,如表1所示,對多組圖像進行評價。這5種評價指標分別是平均梯度[23](Average Gradient,AG),邊緣強度[24](Edge Intensity,EI),熵值[25](Entropy,EN),結(jié)構(gòu)相似性[26](Structural Similarity,SSIM)和互信息[27](Mutual Information,MI)。
圖6 指標折線圖
表1圖像融合對比實驗的客觀評價指標
Tab.1 Objective evaluation index of image fusion contrast experiment
如表1所示,本文效果優(yōu)于對比融合方法。本文算法較好地保留了圖像的邊緣及紋理細節(jié)信息,同時突出了紅外圖像的目標,具有較好的對比度和清晰度。
運行效率也是評估算法性能的重要標準之一。統(tǒng)計了不同方法在TNO數(shù)據(jù)集上的運行時間,結(jié)果如表2所示。因為EP方法運用了傳統(tǒng)方法,所以運行時間較短,其他方法需要通過字典或網(wǎng)絡來生成融合圖像,本文所提方法在TNO數(shù)據(jù)集上的運行效率比多數(shù)方法都快。
表2各方法在TNO數(shù)據(jù)集上的運行時間
Tab.2 Running time of each method on TNO dataset?。╯)
本文提出了一種基于WEMD和GAN重建的紅外與可見光圖像融合方法,不僅能夠有效地解決圖像分解中信號隱藏的問題,而且保持了邊緣和紋理等細節(jié)信息,提高了圖像的對比度。WEMD算法對圖像各層的細節(jié)信息進行提取,將圖像分解為殘余分量和IMF分量,IMF分量可以通過閾值將細節(jié)和背景分離開來,更好地提取高頻信息。最后重構(gòu)得到初步的融合圖像,初步融合圖像再通過GAN的細節(jié)重建,補全丟失的細節(jié)紋理信息。與其他方法相比,本文提出的方法能獲得紋理和細節(jié)更加豐富的圖像,提高了圖像的對比度和清晰度,是一種有效的融合方法。與ASR,EP,CSMCA,ECNN和GAN 5種方法相比,平均梯度(AG),邊緣強度(EI),熵值(EN),結(jié)構(gòu)相似性(SSIM)和互信息(MI)分別平均提高了46.13%,39.40%,19.91%,3.72%,33.10%。不過,基于WEMD和GAN的方法在圖像融合中會受到噪聲的影響,提出更具魯棒性的融合規(guī)則是今后努力的方向。
[1] 劉先紅,陳志斌,秦夢澤. 結(jié)合引導濾波和卷積稀疏表示的紅外與可見光圖像融合[J]. 光學精密工程, 2018, 26(5): 1242-1253.
LIU X H, CHEN ZH B, QIN M Z. Infrared and visible image fusion using guided filter and convolutional sparse representation[J]., 2018, 26(5): 1242-1253. (in Chinese)
[2] SINGH R, VATSA M, NOORE A. Integrated multilevel image fusion and match score fusion of visible and infrared face images for robust face recognition[J]., 2008, 41(3): 880-893.
[3] HAN J, BHANU B. Fusion of color and infrared video for moving human detection[J]., 2007, 40(6): 1771-1784.
[4] REINHARD E, ADHIKHMIN M, GOOCH B,. Color transfer between images[J]., 2001, 21(5): 34-41.
[5] 馮維,吳貴銘,趙大興,等. 多圖像融合Retinex用于弱光圖像增強[J]. 光學精密工程, 2020, 28(3): 736-744.
FENG W, WU G M, ZHAO D X,. Multi images fusion Retinex for low light image enhancement[J]., 2020, 28(3): 736-744. (in Chinese)
[6] 殷明,段普宏,褚標,等. 基于非下采樣雙樹復輪廓波變換和稀疏表示的紅外和可見光圖像融合[J]. 光學精密工程, 2016, 24(7): 1763-1771.
YIN M, DUAN P H, CHU B,. Fusion of infrared and visible images combined with NSDTCT and sparse representation[J]., 2016, 24(7): 1763-1771. (in Chinese)
[7] ALI S S, RIAZ M M, GHAFOOR A. Fuzzy logic and additive wavelet-based panchromatic sharpening[J]., 2014, 11(1): 357-360.
[8] CHEN G, LI L, JIN W Q,. Weighted sparse representation and gradient domain guided filter pyramid image fusion based on low-light-level dual-channel camera[J]., 2019, 11(5): 1-15.
[9] CHOI M, KIM R Y, NAM M R,. Fusion of multispectral and panchromatic Satellite images using the curvelet transform[J]., 2005, 2(2): 136-140.
[10] HUANG N E, SHEN Z, LONG S R,. The empirical mode decomposition and the Hilbert spectrum for nonlinear and non-stationary time series analysis[J].:,, 1998, 454(1971): 903-995.
[11] YANG J K, GUO L, YU S W,. A new multi-focus image fusion algorithm based on BEMD and improved local energy[J]., 2014, 9(9): 2329-2334.
[12] 王慧斌,廖艷,沈潔,等. 分級多尺度變換的水下偏振圖像融合法[J]. 光子學報, 2014, 43(5): 192-198.
WANG H B, LIAO Y, SHEN J,. Method of underwater polarization image fusion based on hierarchical and multi-scale transform[J]., 2014, 43(5): 192-198. (in Chinese)
[13] LI H, WU X J, KITTLER J. Infrared and visible image fusion using a deep learning framework[C].201824()2024,2018,,, 2018: 2705-2710.
[14] MA J Y, YU W, LIANG P W,. FusionGAN: a generative adversarial network for infrared and visible image fusion[J]., 2019, 48: 11-26.
[15] 朱攀,黃戰(zhàn)華. 基于二維經(jīng)驗模態(tài)分解和高斯模糊邏輯的紅外與可見光圖像融合[J]. 光電子·激光, 2017, 28(10): 1156-1162.
ZHU P, HUANG ZH H. Fusion of infrared and visible images based on BEMD and GFL[J]., 2017, 28(10): 1156-1162. (in Chinese)
[16] RADFORD A, METZ L, CHINTALA S.Unsupervised representation learning with deep convolutional generative adversarial networks[J]., 2015(1): arXiv:1511.06434.
[17] LIU Y, WANG Z F. Simultaneous image fusion and denoising with adaptive sparse representation[J]., 2015, 9(5): 347-357.
[18] ZHANG Y, ZHANG L J, BAI X Z,. Infrared and visual image fusion through infrared feature extraction and visual information preservation[J]., 2017, 83: 227-237.
[19] LIU Y, CHEN X, WARD R K,. Medical image fusion via convolutional sparsity based morphological component analysis[J].,2019, 26(3): 485-489.
[20] AMIN-NAJI M, AGHAGOLZADEH A, EZOJI M. Ensemble of CNN for multi-focus image fusion[J]., 2019, 51: 201-214.
[21] SHEN Y, WU Z D, WANG X P,. Tetrolet transform images fusion algorithm based on fuzzy operator[J]., 2015, 9(9): 1132-1138.
[22] XYDEAS C S, PETROVIC? V. Objective image fusion performance measure[J]., 2000, 36(4): 308.
[23] 閆莉萍,劉寶生,周東華. 一種新的圖像融合及性能評價方法[J]. 系統(tǒng)工程與電子技術(shù), 2007, 29(4): 509-513.
YAN L P, LIU B SH, ZHOU D H. Novel image fusion algorithm with novel performance evaluation method[J]., 2007, 29(4): 509-513. (in Chinese)
[24] MA J Y, MA Y, LI C. Infrared and visible image fusion methods and applications: a survey[J]., 2019, 45: 153-178.
[25] QU G H, ZHANG D L, YAN P F. Information measure for performance of image fusion[J]., 2002, 38(7): 313-315.
Infrared and visible image fusion based on WEMD and generative adversarial network reconstruction
YANG Yanchun*,GAO Xiaoyu,DANG Jianwu,WANG Yangping
(,,730070,),:102
To overcome the problem of blurred edges and low contrast in the fusion of infrared and visible images, a two-dimensional window empirical mode decomposition (WEMD) and infrared and visible light image fusion algorithm for GAN reconstruction was proposed. The infrared and visible light images were decomposed using WEMD to obtain the intrinsic mode function components (IMF) and residual components. The IMF components were fused through principal component analysis, and the residual components were fused by the weighted average. The preliminary fused image was reconstructed and input into the GAN to play against the visible light image, and some background information was supplemented to obtain the final fusion image. The average gradient (AG), edge strength (EI), entropy (EN), structural similarity (SSIM), and mutual information (MI) are used for objective evaluation, and they increased by 46.13%, 39.40%, 19.91%, 3.72%, and 33.10%, respectively, compared with the other five methods. The experimental results show that the proposed algorithm achieves better retention of the edge and texture details of the sources image while simultaneously highlighting the target of the infrared image, has better visibility, and has obvious advantages in terms of objective evaluation indicators.
image fusion; infrared and visible image; window empirical mode decomposition; generative adversarial network
TP391
A
10.37188/OPE.20223003.0320
1004-924X(2022)03-0320-11
2021-05-27;
2021-07-01.
長江學者和創(chuàng)新團隊發(fā)展計劃資助項目(No.IRT_16R36);國家自然科學基金資助項目(No.62067006);甘肅省科技計劃資助項目(No.18JR3RA104);甘肅省高等學校產(chǎn)業(yè)支撐計劃資助項目(No.2020C-19);蘭州市科技計劃資助項目(No.2019-4-49);蘭州交通大學天佑創(chuàng)新團隊資助項目(No.TY202003);蘭州交通大學-天津大學聯(lián)合創(chuàng)新基金資助項目(No.2021052)
楊艷春(1979),女,新疆五家渠人,副教授,博士,碩士生導師,2002年、2007年、2014年于蘭州交通大學分別獲得學士、碩士和博士學位,主要從事圖像融合和圖像處理的研究。E-mail:yangyanchun102@sina.com
高曉宇(1997),男,內(nèi)蒙古烏蘭察布人,碩士研究生,2019年于蘭州交通大學大學獲得學士學位,主要從事圖像融合和圖像處理的研究。E-mail:xiaoyu19971101@163.com