王紅君,楊一鳴,趙 輝,岳有軍
基于PIE和CGAN的無人農(nóng)機(jī)紅外與可見光圖像融合
王紅君,楊一鳴,趙 輝,岳有軍
(天津理工大學(xué) 電氣工程與自動(dòng)化學(xué)院 天津市復(fù)雜系統(tǒng)控制理論與應(yīng)用重點(diǎn)實(shí)驗(yàn)室,天津 300384)
為了使無人農(nóng)機(jī)在復(fù)雜環(huán)境的生產(chǎn)過程中及時(shí)感知環(huán)境信息,避免安全事故發(fā)生,本文提出了一種PIE(Poisson Image Editing)和CGAN(Conditional Generative Adversarial Networks)相結(jié)合的紅外與可見光圖像融合算法。首先,利用紅外圖像及其對(duì)應(yīng)的紅外圖像顯著區(qū)域?qū)GAN網(wǎng)絡(luò)進(jìn)行訓(xùn)練;然后,將紅外圖像輸入訓(xùn)練好的網(wǎng)絡(luò),即可得到顯著區(qū)域掩膜;在對(duì)其進(jìn)行形態(tài)學(xué)優(yōu)化后進(jìn)行基于PIE的圖像融合;最后,對(duì)融合結(jié)果進(jìn)行增強(qiáng)對(duì)比度處理。該算法可以實(shí)現(xiàn)快速圖像融合,滿足無人農(nóng)機(jī)實(shí)時(shí)感知環(huán)境的需求,并且該算法保留了可見光圖像的細(xì)節(jié)信息,又能突出紅外圖像中行人和動(dòng)物等重要信息,在標(biāo)準(zhǔn)差、信息熵等客觀指標(biāo)上表現(xiàn)良好。
紅外圖像;圖像融合;生成對(duì)抗網(wǎng)絡(luò)
近年來,為了進(jìn)一步提高農(nóng)業(yè)生產(chǎn)效率,解決農(nóng)村勞動(dòng)力資源短缺的問題,農(nóng)機(jī)裝備被列為“中國制造2025”十大重點(diǎn)研究領(lǐng)域之一[1]。作為智能農(nóng)機(jī)的重要組成部分,無人農(nóng)機(jī)的環(huán)境感知能力對(duì)于提升作業(yè)效率、保證作業(yè)安全十分重要。為了提高復(fù)雜農(nóng)業(yè)環(huán)境下(大霧、沙塵天氣以及夜晚作業(yè)等)無人農(nóng)機(jī)環(huán)境感知能力,研究適合無人農(nóng)機(jī)的紅外與可見光圖像融合方法具有重要意義。
傳統(tǒng)的紅外與可見光圖像融合方法大多基于多尺度分解,即將源圖像進(jìn)行多尺度變換后得到一系列的子圖像或系數(shù),然后針對(duì)融合需求制定不同的統(tǒng)合框架和融合規(guī)則,融合分解得到的子圖像或系數(shù),最后經(jīng)過相對(duì)應(yīng)的逆變換得到融合圖像[2]。文獻(xiàn)[3]提出了一種基于目標(biāo)增強(qiáng)的多尺度變換分解的紅外和可見光圖像融合。文獻(xiàn)[4]提出了一種基于多尺度變換和范數(shù)優(yōu)化的紅外和可見光圖像融合方法。文獻(xiàn)[5]提出了一種基于顯著性檢測和雙尺度變換分解的紅外和可見光圖像融合。上述方法融合規(guī)則比較復(fù)雜,處理速度偏慢,難以滿足無人農(nóng)機(jī)對(duì)環(huán)境的實(shí)時(shí)監(jiān)控需求。
基于深度學(xué)習(xí)的紅外與可見光融合方法,一般基于改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行圖像融合,文獻(xiàn)[6]提出了一種生成對(duì)抗網(wǎng)絡(luò)框架下基于深度可分離卷積的紅外與可見光圖像融合方法。文獻(xiàn)[7]提出了一種基于離散小波變換和生成對(duì)抗網(wǎng)絡(luò)來融合高光譜圖像和多光譜圖像的方法。文獻(xiàn)[8]提出了紅外與可見光圖像注意力生成對(duì)抗融合方法。此類方法融合質(zhì)量一般取決于訓(xùn)練集的質(zhì)量好壞。
Pérez等人提出的泊松圖像編輯(Poisson Image Editing,PIE)[9],可以將兩幅圖像自然融合,但是在融合過程中需要手動(dòng)制作紅外圖像顯著區(qū)域掩膜,無法滿足無人農(nóng)機(jī)實(shí)時(shí)處理環(huán)境信息的要求,本文通過引入深度學(xué)習(xí)技術(shù)實(shí)現(xiàn)紅外圖像顯著區(qū)域掩膜的自動(dòng)生成。在農(nóng)機(jī)實(shí)際生產(chǎn)過程中,復(fù)雜的環(huán)境會(huì)影響紅外圖像顯著區(qū)域掩膜生成的準(zhǔn)確性,農(nóng)機(jī)環(huán)境感知能力不僅要具備實(shí)時(shí)性,而且要能夠在復(fù)雜環(huán)境中精確處理大量的圖像。本文通過自制適合本文背景的數(shù)據(jù)集來訓(xùn)練條件生成對(duì)抗網(wǎng)絡(luò)CGAN自動(dòng)生成紅外圖像顯著區(qū)域掩膜并對(duì)生成的掩膜進(jìn)行形態(tài)學(xué)優(yōu)化,簡化紅外圖像顯著區(qū)域掩膜的生成過程并加快了生成速度。使用Adam算法和隨機(jī)梯度下降算法優(yōu)化網(wǎng)絡(luò)權(quán)重,并采用學(xué)習(xí)率衰減來減小成本函數(shù)收斂到最優(yōu)解時(shí)的振蕩。對(duì)融合結(jié)果采用直方圖均衡化進(jìn)行增強(qiáng)對(duì)比度處理。
泊松圖像編輯是利用基于泊松方程的通用插值機(jī)制來實(shí)現(xiàn)不同圖像之間的無縫融合,如圖1所示。將可見光圖像背景中與周圍環(huán)境對(duì)比度低的區(qū)域替換為紅外圖像中高亮的區(qū)域,?表示合成邊界。
圖1 泊松圖像編輯插值圖示
要使在插入的同時(shí)內(nèi)容平滑,邊界無縫過渡,中的像素值應(yīng)該滿足以下條件:
在融合的過程中,需要對(duì)背景圖像和目標(biāo)圖像進(jìn)行Mask操作,得到和區(qū)域,其表示如下:
?(,)=Mask(,)×?IR(,)+
(1-Mask(,))×?VIS(,) (4)
式中:?(,)、?IR(,)和?VIS(,)分別為融合后圖像、紅外圖像和可見光圖像在(,)處的梯度,Mask(,)為紅外圖像經(jīng)過Mask操作后得到的顯著區(qū)域。
CGAN原理如圖2所示,由生成器以及判別器構(gòu)成[10]。采用U-net網(wǎng)絡(luò)作為生成器,結(jié)構(gòu)如圖3(a)所示。它是一個(gè)5層卷積神經(jīng)網(wǎng)絡(luò),每層網(wǎng)絡(luò)都包含卷積層、ReLu激活層[11]和歸一化層[12],解碼器包含反卷積層、激活層和歸一化層。編碼器的作用是特征提取,而解碼器的作用是恢復(fù)圖像。判別器采用馬爾可夫判別器[13],結(jié)構(gòu)如圖3(b)所示。馬爾可夫判別器采用全卷積形式,圖像輸入作為一個(gè)×矩陣,原圖中的每一小塊都對(duì)應(yīng)著×矩陣中的一個(gè)元素。
圖2 CGAN基本原理圖
CGAN經(jīng)過訓(xùn)練可以實(shí)現(xiàn)從觀察到的圖像和隨機(jī)噪聲向量到輸出圖像,即::{,}?。目標(biāo)函數(shù)如式(5)所示:
在CGAN網(wǎng)絡(luò)訓(xùn)練過程中,生成器與判別器之間互相對(duì)抗。經(jīng)過訓(xùn)練后生成器生成的結(jié)果無法與“真實(shí)”的圖像相區(qū)分。而經(jīng)過訓(xùn)練的判別器則盡可能地區(qū)分生成器生成結(jié)果圖像的真?zhèn)危c此同時(shí),CGAN網(wǎng)絡(luò)生成一幅和參考值很相似的圖像。為了更好地恢復(fù)圖像的低頻信息,引入下式1距離:
本文所使用的損失函數(shù)如下式所示:
式中:為循環(huán)一致性損失系數(shù),其數(shù)值為10。
首先,在公開TNO數(shù)據(jù)集中提取85幅紅外圖像和可見光圖像,將圖像的尺寸批量壓縮到300×300并使用Photoshop軟件繪制紅外圖像對(duì)應(yīng)的掩膜圖像,通過MATLAB進(jìn)行裁剪,最終得到765幅256×256紅外圖像及對(duì)應(yīng)的圖像顯著性掩膜,舍棄其中165幅顯著信息缺失的圖像,將剩余的600對(duì)圖像進(jìn)行逐個(gè)配對(duì)。配對(duì)后的600幅圖像為訓(xùn)練集。圖4為訓(xùn)練數(shù)據(jù)集中部分紅外圖像以及對(duì)應(yīng)的掩膜圖像。
圖4 訓(xùn)練集中部分圖像。(a) 紅外圖像;(b)紅外圖像對(duì)應(yīng)的掩膜圖像
網(wǎng)絡(luò)訓(xùn)練過程中為了優(yōu)化網(wǎng)絡(luò)權(quán)重,使用Adam算法和隨機(jī)梯度下降算法,且每一輪迭代時(shí)都對(duì)學(xué)習(xí)率進(jìn)行衰減。訓(xùn)練在一臺(tái)個(gè)人計(jì)算機(jī)(AMD Ryzen 7 4800H、2.9GHz、16GB內(nèi)存、NVIDIA GeForce 1650 Ti、4GB顯存)上進(jìn)行,用時(shí)4.5h完成訓(xùn)練。
采用TNO數(shù)據(jù)集中未經(jīng)裁剪和MSRS數(shù)據(jù)集中共85幅紅外圖像作為測試數(shù)據(jù)集。經(jīng)過測試,訓(xùn)練后的網(wǎng)絡(luò)模型可以一次性快速得到測試數(shù)據(jù)集對(duì)應(yīng)的掩膜圖像,85幅圖像用時(shí)僅需8s。圖5為得到的部分圖像掩膜測試結(jié)果。
經(jīng)過網(wǎng)絡(luò)生成的掩膜圖像中會(huì)有小的空洞,并且輪廓會(huì)存在不平滑的現(xiàn)象,所以,本文對(duì)生成的掩膜圖像做形態(tài)學(xué)優(yōu)化處理,即圖像的閉運(yùn)算,先膨脹,后腐蝕。閉運(yùn)算可以在不改變目標(biāo)大小的前提下平滑輪廓的一部分,可以消除細(xì)小的空洞,彌合高亮部分與高亮部分中較窄的間斷,填補(bǔ)一部分輪廓的斷裂。優(yōu)化前后對(duì)比如圖6所示。
圖6 優(yōu)化前后對(duì)比
本文融合算法框架結(jié)構(gòu)如圖7所示。
使用泊松無縫融合可能會(huì)對(duì)融合結(jié)果有一定的影響,比如會(huì)對(duì)邊緣產(chǎn)生不必要的平滑,顯著目標(biāo)與周圍環(huán)境顏色趨于一致等問題,所以對(duì)融合結(jié)果采用直方圖均衡化進(jìn)行增強(qiáng)對(duì)比度處理。融合結(jié)果選用測試集中7組圖片,使用本文融合結(jié)果與傳統(tǒng)的紅外與可見光圖像融合算法結(jié)果,包括加權(quán)平均方法(Weighted average、WA)[14]、PCA變換法[15]和小波變換法(Wavelet transform、WT)[16]進(jìn)行對(duì)比,對(duì)比結(jié)果如圖8所示。
圖7 融合算法流程圖
為了評(píng)價(jià)融合結(jié)果的質(zhì)量,本文采用3個(gè)客觀評(píng)價(jià)指標(biāo)。評(píng)價(jià)指標(biāo)分別是圖像標(biāo)準(zhǔn)差[17]、信息熵[18]和平均梯度[19],分別對(duì)應(yīng)為下式:
式中:為圖像平均亮度值。SD值越大表明融合圖像的對(duì)比度越高。
式中:為圖像灰度等級(jí);F()為融合圖像中灰度級(jí)級(jí)出現(xiàn)的概率,EN值越大表明融合圖像中信息越豐富。
式中:?F(,)=(,)-(+1,),?F(,)=(,)-(,+1)。AG值越大表明融合后圖像邊緣保留程度越好[20]。
評(píng)價(jià)對(duì)象為主觀對(duì)比圖中的7組圖像??陀^對(duì)比數(shù)據(jù)如表1所示。
為進(jìn)一步證明本文算法有效性,對(duì)測試集中85組圖像進(jìn)行客觀對(duì)比試驗(yàn),客觀數(shù)據(jù)SD平均值與標(biāo)準(zhǔn)差如表2所示。
客觀數(shù)據(jù)EN平均值與標(biāo)準(zhǔn)差如表3所示。
客觀數(shù)據(jù)AG平均值與標(biāo)準(zhǔn)差如表4所示。
根據(jù)圖表綜合對(duì)比分析,本文所提方法能在保留紅外圖像中顯著目標(biāo)高對(duì)比度的同時(shí),保留更多的可見光圖像細(xì)節(jié)。同時(shí),融合后的圖像在各項(xiàng)指標(biāo)上表現(xiàn)優(yōu)異,能保留更多的有效信息,更加符合人眼感知情況。
表2 客觀數(shù)據(jù)SD對(duì)比
表3 客觀數(shù)據(jù)EN對(duì)比
表4 客觀數(shù)據(jù)AG對(duì)比
本文提出了一種基于CGAN和PIE的紅外與可見光圖像融合方法,該方法通過引入深度學(xué)習(xí)技術(shù)解決了傳統(tǒng)PIE方法掩膜生成的問題,而且相比于傳統(tǒng)融合方法,本文方法得到的融合圖像質(zhì)量更高,可讀性更強(qiáng)。本文算法即保留了紅外圖像中與周圍環(huán)境有溫差的目標(biāo)的對(duì)比度,又保留了可見光圖像中的環(huán)境細(xì)節(jié)。對(duì)比結(jié)果證明了本文算法的有效性??梢詾闊o人農(nóng)機(jī)在能見度低的環(huán)境下提供較好的環(huán)境感知能力,是一種可行有效的融合方法。不過該方法在融合過程中可能會(huì)受到其他非行人高溫目標(biāo)的干擾,更精確的融合方法是今后努力的目標(biāo)。
[1] 鄭國偉. 《中國制造2025》簡介與相關(guān)情況[J]. 中國儀器儀表, 2018(10): 25-28.
ZHENG Guowei. Introduction and related situation of "Made in China 2025" [J]., 2018(10): 25-28.
[2] 安影. 基于多尺度分解的紅外與可見光圖像融合算法研究[D]. 西安: 西北大學(xué), 2020. Doi: 10.27405/d.cnki.gxbdu.2020.000953.
Anying. Study on infrared and visible light image fusion algorithms based on multi -scale decomposition[D]. Xi'an: Northwest University, 2020. Doi: 10.27405/d.cnki.gxbdu.2020.000953.
[3] CHEN Jun, LI Xuejiao, LUO Linbo, et al. Infrared and visible image fusion based on target-enhanced multiscale transform decomposition[J]., 2020, 508: 64-78.
[4] LI G, LIN Y, QU X. An infrared and visible image fusion method based on multi-scale transformation and norm optimization[J]., 2021, 71(2): 109-129.
[5] ZHANG S, LI X, ZHANG X, et al. Infrared and visible image fusion based on saliency detection and two-scale transform decomposition[J]., 2021, 114(3): 103626.
[6] 王海寧, 廖育榮, 林存寶, 等. 基于改進(jìn)生成對(duì)抗網(wǎng)絡(luò)模型的紅外與可見光圖像融合[J/OL]. 電訊技術(shù), [2022-06-08]. http://kns.cnki. net/kcms/detail/51.1267.tn.20220509.1228.004.html.
WANG Haining, LIAO Yurong, LIN Cunbao, et al. Based on the integration of infrared and visible light images that are improved to generate network models [J/OL]., [2022-06-08]. http://kns.cnki.net/kcms/detail/51.1267.tn.20220509.1228.004.html.
[7] 孫佳敏, 宋慧慧. 基于DWT和生成對(duì)抗網(wǎng)絡(luò)的高光譜多光譜圖像融合[J]. 無線電工程, 2021, 51(12): 1434-1441.
SUN Jiamin, SONG Huihui. Hyperspectral multispectral image fusion based on DWT and generative adversarial network[J]., 2021, 51(12): 1434-1441.
[8] 武圓圓, 王志社, 王君堯, 等. 紅外與可見光圖像注意力生成對(duì)抗融合方法研究[J]. 紅外技術(shù), 2022, 44(2): 170-178.
WU Yuanyuan, WANG Zhishe, WANG Junyao, et al. Infrared and visible light image attention generating confrontation fusion methods [J]., 2022, 44(2): 170-178.
[9] Hussain K F, Mahmoud R. Efficient poisson image editing[J]., 2015, 14(2): 45-57.
[10] Chandani P, Nayak S. Generative adversarial networks: an overview[J]., 2020, 7(3): 753-758.
[11] MOON S. ReLU network with bounded width is a universal approximator in view of an approximate identity[J]., 2021, 11(1): 427-427.
[12] WU S, LI G, DENG L, et al. L1-norm batch normalization for efficient training of deep neural networks[J]., 2019, 30(7): 2043-2051.
[13] Abdeimotaal H, Abdou A, Omar A, et al. Pix2pix conditional generative adversarial networks for scheimpflug camera color-coded corneal tomography image generation[J]., 2021, 10(7): 21-21.
[14] 甄媚, 王書朋. 可見光與紅外圖像自適應(yīng)加權(quán)平均融合方法[J]. 紅外技術(shù), 2019, 41(4): 341-346.
ZHEN Mei, WANG Shupeng. Visible light and infrared images adaptive weighted average fusion method[J]., 2019, 41(4): 341-346.
[15] 張影. 衛(wèi)星高光譜遙感農(nóng)作物精細(xì)分類研究[D]. 北京: 中國農(nóng)業(yè)科學(xué)院, 2021. DOI:10.27630/d.cnki.gznky.2021.000383.
ZHANG Ying. Satellite High Spectrum Remote Sensing Crop Fine Classification Study[D]. Beijing: Chinese Academy of Agricultural Sciences, 2021. Doi: 10.27630/d.cnki.gznky.2021.000383.
[16] 倪釧. 紅外與可見光圖像融合方法研究[D]. 溫州: 溫州大學(xué), 2020.Doi:10.27781/d.cnki.gwzdx.2020.000124.
NI Yan. Research on the Fusion Method of Infrared and Visible Light Image[D]. Wenzhou: Wenzhou University, 2020. Doi: 10.27781/d.cnki. gwzdx.2020.000124.
[17] CHEN J, LI X, LUO L, et al. Infrared and visible image fusion based on target-enhanced multiscale transform decomposition[J]., 2020, 508: 64-78.
[18] 劉娜, 曾小暉. 基于信息熵引導(dǎo)耦合復(fù)雜度調(diào)節(jié)模型的紅外圖像增強(qiáng)算法[J]. 國外電子測量技術(shù), 2021, 40(12): 37-43. Doi: 10.19652/j.cnki. femt.2102956.
LIU Na, ZENG Xiaohui. Based on information entropy guidance coupling complexity adjustment model of infrared image enhancement algorithm [J]., 2021, 40(12): 37-43. Doi: 10.19652/J.CNKI.FEMT.2102956.
[19] KONG X, LIU L, QIAN Y, et al. Infrared and visible image fusion using structure-transferring fusion method[J]., 2019, 98: 161-173.
[20] 王瑜婧. 顯著性檢測的紅外與可見光圖像融合算法研究[D]. 西安: 西安科技大學(xué), 2021. Doi:10.27397/d.cnki.gxaku.2021.000608.
WANG Yujing. Research on Infrared and Visible Light Image Fusion Algorithms of Significant Detection[D]. Xi'an: Xi'an University of Science and Technology, 2021. Doi: 10.27397/d.cnki.gxaku.2021.000608.
Infrared and Visible Image Fusion of Unmanned Agricultural Machinery Based on PIE and CGAN
WANG Hongjun,YANG Yiming,ZHAO Hui,YUE Youjun
(School of Electrical Engineering and Automation, Tianjin University of Technology/Tianjin Key Laboratory of Complex System Control Theory and Application, Tianjin 300384, China)
In this study, we proposed an infrared and visible image fusion algorithm that combines PIE and CGAN to make unmanned agricultural machinery perceive environmental information promptly and avoid accidents during production in complex environments. First, we trained the CGAN using an infrared image and corresponding saliency regions. The infrared image is input into the trained network to obtain the saliency region mask. After morphological optimization, we performed image fusion based on the PIE. Finally, we enhanced the fusion results by contrast processing. This algorithm can realize fast image fusion and satisfy the requirements for real-time environmental perception of unmanned agricultural machines. In addition, the algorithm retains the details of visible images and highlights important information concerning humans and animals in infrared images. It performs well in standard deviation and information entropy.
infrared image, image fusion, generative adversarial network
TP391
A
1001-8891(2023)11-1223-07
2022-06-14;
2022-08-10.
王紅君(1963-),女,碩士,教授,研究方向?yàn)閺?fù)雜系統(tǒng)智能控制理論及應(yīng)用,流程工業(yè)綜合自動(dòng)化理論與技術(shù)、電力系統(tǒng)及其自動(dòng)化,農(nóng)業(yè)信息化與精準(zhǔn)農(nóng)業(yè)智能監(jiān)控理論與技術(shù)、微機(jī)控制技術(shù)、農(nóng)業(yè)機(jī)器人技術(shù)。E-mail: hongewang@126.com。
楊一鳴(1997-),碩士研究生,主要研究方向?yàn)閳D像處理。E-mail:1046147950@qq.com。
天津市科技支撐計(jì)劃項(xiàng)目(19YFZCSN00360, 18YFZCNC01120)。