劉锃亮,張 宇,呂恒毅
(1.中國(guó)科學(xué)院長(zhǎng)春光學(xué)精密機(jī)械與物理研究所,吉林 長(zhǎng)春 130033;2.中國(guó)科學(xué)院大學(xué) 光電學(xué)院,北京 100039)
圖像融合屬于圖像增強(qiáng)技術(shù),目的是為了將不同的圖像融合在一起生成信息豐富的圖像,從而方便進(jìn)行進(jìn)一步處理。為了滿足人們生產(chǎn)生活中在各種復(fù)雜環(huán)境下的需要,多源圖像的融合引起了廣泛的重視。紅外圖像可基于輻射差異將目標(biāo)與背景區(qū)分開來,同時(shí)可見光圖像可提供符合人類視覺感知的具有高空間分辨率和清晰度的紋理細(xì)節(jié)[1]。為了取得令人滿意的融合效果,關(guān)鍵是有效的圖像信息提取和合適的融合原則。
圖像融合算法目前已經(jīng)發(fā)展多種不同的方案,包括多尺度變換[2]、稀疏表示[3]、神經(jīng)網(wǎng)絡(luò)[4]、子空間[5]、混合模型[6]和其他方法[7]?,F(xiàn)有方法通常在融合過程中對(duì)不同的源圖像使用相同的變換或表示,然而它不適用于紅外和可見光圖像,因?yàn)榧t外圖像中的熱輻射和可見光圖像中的細(xì)節(jié)紋理是2種不同現(xiàn)象的表現(xiàn)。此外,大多數(shù)現(xiàn)有方法中的圖像信息提取和融合規(guī)則都是手工設(shè)計(jì)的,并且變得越來越復(fù)雜,受實(shí)現(xiàn)難度和計(jì)算成本的限制[8]。
受最近兩年在CVPR會(huì)議上香港科技大學(xué)李鐸、陳啟峰團(tuán)隊(duì)[9]提出的一種多尺度卷PSConv和天津大學(xué)王啟龍團(tuán)隊(duì)[10]改進(jìn)的輕量級(jí)注意力模塊ECA-Net的啟發(fā),在融合生成對(duì)抗網(wǎng)絡(luò)FusionGAN[11]的基礎(chǔ)上,在其殘差網(wǎng)絡(luò)中引入了PSConv,以提升特征提取的細(xì)粒度與深度,再經(jīng)過ECA網(wǎng)絡(luò)增強(qiáng)對(duì)有用信息的收集,從而使最終融合后的圖像具有更豐富的細(xì)節(jié)特征和紋理信息。
FusionGAN的原理是將紅外與可見光融合的過程公式化成一個(gè)對(duì)抗的過程,其結(jié)構(gòu)包括生成器G(Generate)和辨別器D(Discriminator),訓(xùn)練過程與測(cè)試過程如圖1和圖2所示。訓(xùn)練時(shí),首先將紅外圖像Ir與可見圖像Iv疊加在一起傳送給生成器G,融合后的圖像既包含了紅外的熱輻射信息,又保留可見光圖像的梯度信息;再將生成融合后的圖像If與可視圖像Iv一同發(fā)送給辨別器D,讓其區(qū)分二者;最后將辨別的結(jié)果形成一個(gè)反饋,輸送回生成器G,形成一個(gè)對(duì)抗的反饋網(wǎng)絡(luò)。經(jīng)過大量的訓(xùn)練之后,當(dāng)辨別器無法辨別Ir與Iv時(shí),說明生成的融合圖像已經(jīng)達(dá)到了好的效果,訓(xùn)練完成。再進(jìn)行測(cè)試時(shí),只需要用到已經(jīng)訓(xùn)練好的生成器G即可。
圖1 訓(xùn)練過程
圖2 測(cè)試過程
FusionGAN的損失函數(shù)主要包括生成器G的損失函數(shù)與辨別器D的損失函數(shù)兩部分。
1.2.1 生成器損失函數(shù)
生成器損失函數(shù)為:
(1)
其主要由2個(gè)部分組成,VFusionGAN(G)代表生成器與辨別器之間的對(duì)抗損耗,即:
(2)
(3)
式中,‖·‖F(xiàn)為矩陣范數(shù);H和W為輸入圖像的高度和寬度;為梯度算子;為保留紅外圖像的熱輻射信息;為保留可見光圖像的梯度信息;ξ為控制2項(xiàng)之間權(quán)衡的參數(shù)。
1.2.2 辨別器損失函數(shù)
辨別器基于可見圖像中提取的特征來區(qū)分融合圖像和可見圖像,使用最小二乘作為損失函數(shù)使訓(xùn)練過程更加穩(wěn)定,損失函數(shù)收斂速度更加迅速:
(4)
式中,a和b為融合后圖像和可見圖像的標(biāo)簽;D(Iv)與D(If)為可見圖像和融合圖像的分類結(jié)果。
雖然FusionGAN算法能很好地平衡紅外與可見圖像中的有效信息,與其他方法相比圖像融合的質(zhì)量更高,但是在細(xì)節(jié)紋理和深度特征提取上還不夠,因此新增加了一個(gè)即插即用卷積PSConv與一個(gè)超輕量級(jí)的注意力模塊ECA Module。改進(jìn)后的算法網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。輸入的紅外圖像與可見圖像分別經(jīng)過各自的3層卷積和1層殘差網(wǎng)絡(luò)后,在第2層殘差塊中引入上述2個(gè)模塊,加深了網(wǎng)絡(luò)的深度,有利于深度特征的提取,最后再經(jīng)過3次反卷積生成最后融合的圖像。雖然增加了2個(gè)模塊,但是由于都是輕量級(jí)網(wǎng)絡(luò),使整個(gè)模型增加的運(yùn)算量不大,接下來將分別介紹這2個(gè)模塊。
圖3 改進(jìn)后的算法結(jié)構(gòu)
1.3.1 PSConv
圖4 PSConv示意
(5)
擴(kuò)張卷積則可描述為:
(6)
而PSConv則可描述為:
(7)
從上述卷積計(jì)算公式可以看出,PSConv將多尺度卷積歸入同一個(gè)計(jì)算過程中,且不同尺度卷積計(jì)算按通道交替執(zhí)行,是一種更細(xì)粒度的多尺度操作。
1.3.2 ECA-Net
圖5 SE與ECA結(jié)構(gòu)對(duì)比
(8)
式中,|t|odd表示離t最近的奇數(shù);γ和b在本文中取2和1;K取5。相比之下,ECA-Net結(jié)構(gòu)更加輕量化增加可以忽略不計(jì)的參數(shù)量的同時(shí),帶來性能明顯的提升。
為了增強(qiáng)實(shí)驗(yàn)結(jié)果的準(zhǔn)確性與可靠性,選用公開并且校準(zhǔn)好的紅外與可見光數(shù)據(jù)集TNO與INO。其中TNO數(shù)據(jù)集包含軍事場(chǎng)景和其他一些不同場(chǎng)景下的近紅外和長(zhǎng)波紅外或熱紅外夜間圖像與可見光圖像,適用于復(fù)雜場(chǎng)景下的圖像融合算法研究。INO數(shù)據(jù)集來自加拿大國(guó)家光學(xué)研究所,包含了許多在不同天氣條件下拍攝的不同的城市道路街景。
選取來自TNO和INO數(shù)據(jù)集中的1 200張紅外圖像與可見光圖像作為訓(xùn)練集,為了驗(yàn)證算法的性能,再?gòu)腡NO數(shù)據(jù)集中單獨(dú)挑選出20對(duì)可見與紅外圖像作為測(cè)試集。訓(xùn)練集融合的結(jié)果如圖6所示,模型訓(xùn)練好之后測(cè)試集融合的結(jié)果如圖7所示。
圖6 訓(xùn)練集結(jié)果
圖7 測(cè)試集結(jié)果
本實(shí)驗(yàn)將幾種目前比較常用的先進(jìn)的圖像融合方法與本文的方法進(jìn)行比較,其中包括曲波變換(CVT)[14]、雙樹復(fù)小波變換(DTCWT)[15]、加權(quán)最小二乘優(yōu)化法(WLS)[16]和原融合生成對(duì)抗網(wǎng)絡(luò)FusionGAN等圖像融合方法,并且采用主觀評(píng)價(jià)與客觀評(píng)價(jià)相結(jié)合的方法,使實(shí)驗(yàn)結(jié)果更具有真實(shí)性和可靠性。
2.3.1 主觀評(píng)價(jià)
選取了5對(duì)紅外與可見圖像的融合結(jié)果作為主觀評(píng)價(jià)指標(biāo),上述不同的融合方法對(duì)來自TNO數(shù)據(jù)集中5對(duì)圖像的融合結(jié)果如圖8所示。為了體現(xiàn)改進(jìn)的算法與FusionGAN的不同,在圖8(f)和(g)中加入了一些方框用于細(xì)節(jié)的比較,并且將其放大,放在原圖的右下角。通過融合后的結(jié)果可以看出,上述方法均能對(duì)紅外圖像與可見圖像進(jìn)行成功融合,融合后的圖像均能包含紅外與可見圖像的特征信息。雖然CVT和DTCWT方法融合的結(jié)果含有足夠的細(xì)節(jié)特征,但紅外的目標(biāo)不夠顯著。而與CVT和DTCWT方法相比,WLS方法具有更強(qiáng)的目標(biāo)追蹤性,但在背景部分損失了較多的紅外信息。FusionGAN方法在目標(biāo)追蹤和細(xì)節(jié)紋理特征保留之間取得了較好的實(shí)現(xiàn),但是背景信息中的細(xì)節(jié)特征仍不夠豐富。與上述方法相比,本文采用的方法既保留了紅外目標(biāo)的顯著性,又在背景中包含了足夠的細(xì)節(jié)紋理與邊緣信息。
(a)源紅外圖像
2.3.2 客觀評(píng)價(jià)
為了增強(qiáng)實(shí)驗(yàn)的準(zhǔn)確性與客觀性,采用多種評(píng)價(jià)指標(biāo)進(jìn)行定量分析。選取熵(EN)[17]、平均梯度(AG)[18]、空間頻率(SF)[19]和結(jié)構(gòu)相似指數(shù)(SSIM)[20]這4種常用評(píng)價(jià)指標(biāo)。EN主要是度量圖像包含信息量多少的一個(gè)客觀量,熵值越大,表明融合圖像中的信息越豐富,而噪聲也會(huì)對(duì)EN的結(jié)果造成影響,一般不單獨(dú)使用。AG度量融合圖像中包含的梯度信息,反映了細(xì)節(jié)和紋理,AG值越大,表明融合圖像中所含梯度信息越多。SF可以有效衡量圖像的梯度分布,SF越大,融合的圖像具有更豐富的邊緣信息和紋理特征。SSIM是用于模擬圖像畸變和失真的一種評(píng)價(jià)方法,SSIM越大,說明融合算法的效果越好,失真與畸變?cè)叫 ?種指標(biāo)下不同方法的平均性能如表1所示,20對(duì)圖像的數(shù)據(jù)結(jié)果用Matlab繪制成折線圖,如圖9~圖12所示。從表和圖中可以看出,在上述4種評(píng)價(jià)指標(biāo)下,5種方法在客觀的定量分析上有差距,本文所用的方法在AG,SF,SSIM這3種指標(biāo)上取得了不錯(cuò)的效果。結(jié)果表明,本文方法的試驗(yàn)結(jié)果中包含了更多的細(xì)節(jié)紋理與梯度信息,得到的融合圖像與源圖像之間的畸變小于CVT,DTCWT和WLS,F(xiàn)usionGAN雖然能包含更多的信息熵,但在空間頻率信息與結(jié)構(gòu)相似性上遠(yuǎn)不如改進(jìn)后的方法。
表1 5種算法在指標(biāo)下的平均性能
圖9 EN指標(biāo)下對(duì)TNO數(shù)據(jù)集中20對(duì)圖像對(duì)的試驗(yàn)結(jié)果
圖10 AG指標(biāo)下對(duì)TNO數(shù)據(jù)集中20對(duì)圖像對(duì)的試驗(yàn)結(jié)果
圖11 SF指標(biāo)下對(duì)TNO數(shù)據(jù)集中20對(duì)圖像對(duì)的試驗(yàn)結(jié)果
圖12 SSIM指標(biāo)下對(duì)TNO 數(shù)據(jù)集中 20對(duì)圖像對(duì)的試驗(yàn)結(jié)果
針對(duì)可見光與紅外圖像融合中所存在的問題,提出了一種改進(jìn)的FusionGAN方法。分析了FusionGAN的原理和2個(gè)引入模塊PSConv與ECA-Net的架構(gòu)。PSConv對(duì)圖像細(xì)節(jié)處理更好,ECA-Net能更好地提取圖像中的有用信息,使用了數(shù)據(jù)集驗(yàn)證了新算法的可行性與效果,加入的模塊使改進(jìn)后的算法與原算法相比在AG上提升了6.2%,在SF上提升了14.4%,在SSIM上提升了18.6%。本文引入注意力機(jī)制模塊與插入式卷積,為圖像融合算法的改進(jìn)與提高提供了新的思路,更適用于復(fù)雜場(chǎng)景下的紅外與可見圖像融合,為今后繼續(xù)研究深度神經(jīng)網(wǎng)絡(luò)用于圖像融合打下了基礎(chǔ)。