張洲宇,曹云峰,丁 萌,陶 江
(1.南京航空航天大學(xué) 航天學(xué)院,南京 210016;2.南京航空航天大學(xué) 民航學(xué)院,南京 211106)
由于傳感器成像特性的差異,紅外傳感器與可見(jiàn)光傳感器拍攝的圖像往往具有較強(qiáng)的互補(bǔ)性[1]。紅外圖像在低能見(jiàn)度條件下依然可以清晰的捕獲目標(biāo),但是圖像的邊緣、紋理等細(xì)節(jié)不夠豐富??梢?jiàn)光圖像具有較強(qiáng)的細(xì)節(jié)保存能力,但是成像質(zhì)量極易受到光照變化的影響。為了最大程度地結(jié)合兩種圖像類型的優(yōu)點(diǎn),將紅外圖像與可見(jiàn)光圖像進(jìn)行融合從而彌補(bǔ)傳感器的固有缺陷成為了一條行之有效的思路。紅外圖像與可見(jiàn)光圖像融合目前已廣泛地應(yīng)用于智能監(jiān)控、目標(biāo)監(jiān)視、視頻分析等領(lǐng)域[2]。
現(xiàn)有的圖像融合算法根據(jù)所選取的融合信息可分為像素級(jí)、特征級(jí)、決策級(jí)3個(gè)層級(jí),其中像素級(jí)圖像融合直接對(duì)源圖像進(jìn)行融合,所保存的細(xì)節(jié)信息最為完備,因此在過(guò)去數(shù)十年中得到了廣泛的關(guān)注[3]。像素級(jí)圖像融合又可以進(jìn)一步分為空間域融合與變換域融合兩類,空間域融合無(wú)需對(duì)圖像進(jìn)行任何變換操作,因此實(shí)現(xiàn)較為簡(jiǎn)單,但是易于導(dǎo)致融合圖像低對(duì)比度及塊狀分布等缺陷。為了克服上述不足,變換域圖像融合采取的方案是對(duì)源圖像進(jìn)行適當(dāng)?shù)膱D像變換,并對(duì)轉(zhuǎn)換后的圖像信息進(jìn)行融合。變換域圖像融合的基本流程分為:1)圖像變換,將源圖像由空間域映射到變換域;2)活性度衡量,衡量變換后向量的重要程度;3)融合規(guī)則設(shè)計(jì),采取恰當(dāng)?shù)娜诤弦?guī)則完成活性層的篩選。顯然,變換域圖像融合的核心在于由空間域到變換域的變換方式[4]。
早期的變換域圖像融合所采取的變換方法包括小波變換、金字塔變換等,通過(guò)人工構(gòu)建的小波基與金字塔基實(shí)現(xiàn)源圖像的變換。由于人工構(gòu)建的圖像變換的圖像表示能力始終有限,該類方法始終難以獲取圖像中所有隱藏的信息。為克服早期圖像變換的局限性,壓縮感知(compressive sensing,CS)理論通過(guò)預(yù)訓(xùn)練的過(guò)完備字典實(shí)現(xiàn)源圖像的變換,由于過(guò)完備字典是從大量的訓(xùn)練樣本中學(xué)習(xí)得到的,CS理論的圖像表示能力具有顯著的優(yōu)勢(shì),在過(guò)去10年中受到了廣泛的研究[5]?;贑S理論的圖像融合方法可分為3個(gè)步驟:首先將源圖像分解為若干均等大小的圖像塊,對(duì)每一個(gè)圖像塊利用預(yù)訓(xùn)練的過(guò)完備字典計(jì)算與其對(duì)應(yīng)的稀疏向量;其次,對(duì)同一位置對(duì)應(yīng)的稀疏向量進(jìn)行融合,獲取融合后的向量;最后,利用融合后的向量結(jié)合過(guò)完備字典完成融合圖像的重建。CS理論應(yīng)用于圖像融合最大的不足在于:1)基于圖像塊的建模方式破壞了源圖像的語(yǔ)義結(jié)構(gòu),難以有效提取源圖像中包含的空間上下文信息。2)基于圖像塊的建模、融合與重建對(duì)于兩幅圖像的匹配關(guān)系提出了嚴(yán)苛的要求,因此對(duì)于誤匹配的容忍度較低[6]。為克服上述不足,近年來(lái)的相關(guān)研究工作開始嘗試使用全局建模的方式對(duì)源圖像進(jìn)行變換,其中最為有效的變換方式為卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)與卷積稀疏表示(convolutional sparse representation,CSR)。
CNN根據(jù)所需解決任務(wù)屬性的不同可以分為分類式CNN與回歸式CNN兩類[7]。分類式CNN目前已在視覺(jué)目標(biāo)檢測(cè)、識(shí)別與分類等任務(wù)中得到了廣泛應(yīng)用,傳統(tǒng)的視覺(jué)識(shí)別流程總體上可分為3個(gè)步驟,即特征表示、特征選取與特征分類,分類式CNN最大的優(yōu)勢(shì)在于通過(guò)多層卷積神經(jīng)網(wǎng)絡(luò)將上述3個(gè)步驟聯(lián)合實(shí)現(xiàn)[8-12]。Liu等[4]指出,早期的變換域圖像融合方法所包含的3個(gè)步驟與傳統(tǒng)視覺(jué)識(shí)別的3個(gè)步驟具有極大的相似性,因此將分類式CNN應(yīng)用于圖像融合成為了一條可行的思路。回歸式CNN又稱為全卷積神經(jīng)網(wǎng)絡(luò)(fully convolutional neural network,FCN),一般采用端對(duì)端的方式實(shí)現(xiàn)視覺(jué)信息的分析與處理?;貧w式CNN目前已在低級(jí)視覺(jué)任務(wù)中得到了大量應(yīng)用,例如圖像分割、超分辨率重建等。因此,如果給定融合圖像的真值圖,即可訓(xùn)練回歸式CNN通過(guò)端對(duì)端的方式獲取融合結(jié)果。然而,無(wú)論是分類式CNN還是回歸式CNN,其共性不足在于難以獲取大量帶標(biāo)簽的訓(xùn)練樣本用于網(wǎng)絡(luò)訓(xùn)練[13]。
CSR的基本思路源于Zeiler等[14]所設(shè)計(jì)的反卷積網(wǎng)絡(luò),其目的在于通過(guò)非監(jiān)督的方式從自然圖像中提取中級(jí)與高級(jí)特征。CSR的基本原理是通過(guò)一組預(yù)先訓(xùn)練的卷積字典濾波器將源圖像分解為一系列卷積稀疏響應(yīng)圖,每一張卷積稀疏響應(yīng)圖都包含了目標(biāo)不同層級(jí)的信息。作為一種非監(jiān)督機(jī)器學(xué)習(xí)方法,CSR已被成功地用于解決許多視覺(jué)處理任務(wù),例如目標(biāo)跟蹤、背景建模以及圖像去噪等。在圖像融合領(lǐng)域,CSR可以視為一種有效的圖像變換方法[15]。由于CSR的圖像建模方式無(wú)需對(duì)源圖像進(jìn)行分解,避免了基于稀疏表示(sparse representation,SR)的圖像融合算法[3]的局部建模所帶來(lái)的語(yǔ)義信息缺失與對(duì)誤匹配的低容忍度兩大缺陷,因此CSR已在圖像融合領(lǐng)域得到了成功的應(yīng)用。Zeiler等[14]指出,當(dāng)基于CSR的反卷積網(wǎng)絡(luò)的層數(shù)加深時(shí),網(wǎng)絡(luò)學(xué)習(xí)得到的圖像特征將由邊緣向整個(gè)目標(biāo)轉(zhuǎn)移,考慮到紅外與可見(jiàn)光圖像融合的初衷在于凸顯源圖像中的目標(biāo),為此本文設(shè)計(jì)了一種面向紅外與可見(jiàn)光圖像融合的多層卷積稀疏表示網(wǎng)絡(luò)。
本文所設(shè)計(jì)的面向紅外與可見(jiàn)光圖像融合的多層卷積稀疏網(wǎng)絡(luò)如圖1所示,該網(wǎng)絡(luò)共包含5層,采用前饋的方式實(shí)現(xiàn)紅外與可見(jiàn)光源圖像的融合。
圖1 基于多層卷積稀疏表示的紅外與可見(jiàn)光圖像融合網(wǎng)絡(luò)
網(wǎng)絡(luò)的第1、2層為卷積稀疏層,通過(guò)預(yù)先訓(xùn)練的多層字典濾波器將源圖像變換為一組卷積稀疏響應(yīng)圖。網(wǎng)絡(luò)的第3層為融合層,通過(guò)對(duì)活性度衡量以獲得卷積稀疏響應(yīng)圖的融合結(jié)果。網(wǎng)絡(luò)的第4、5層為重建層,通過(guò)融合后的卷積稀疏響應(yīng)圖結(jié)合預(yù)先訓(xùn)練的多層字典濾波器實(shí)現(xiàn)融合圖像的重建。
相比于SR、CSR、CNN等現(xiàn)有圖像融合方法,本文所設(shè)計(jì)的圖像融合網(wǎng)絡(luò)具有以下優(yōu)勢(shì):
1)與SR的局部變換方式不同,本文所設(shè)計(jì)的圖像融合網(wǎng)絡(luò)采用全局變換的方式,有效抑制了SR應(yīng)用于圖像融合所導(dǎo)致的語(yǔ)義信息損失以及對(duì)細(xì)節(jié)信息的低容忍度兩大缺陷。
2)相比于基于CSR的圖像融合方法,本文借鑒了卷積神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì)思路。Papyan等[16]通過(guò)理論分析已經(jīng)證明了多層卷積稀疏表示網(wǎng)絡(luò)與CNN的結(jié)構(gòu)存在著緊密的聯(lián)系,多層卷積稀疏表示可以實(shí)現(xiàn)更有效的圖像變換。
3)區(qū)別于CNN的監(jiān)督學(xué)習(xí)特性,本文所設(shè)計(jì)的多層卷積稀疏網(wǎng)絡(luò)采取的學(xué)習(xí)方式是非監(jiān)督的,無(wú)需大量帶有標(biāo)簽的訓(xùn)練樣本完成網(wǎng)絡(luò)的訓(xùn)練,在實(shí)現(xiàn)上更為簡(jiǎn)單。
4)本文算法的計(jì)算復(fù)雜度相比于SR具有明顯的優(yōu)勢(shì),相比于CSR不會(huì)明顯上升。假設(shè)SR與CSR所使用的字典維度均為k,輸入圖像的大小均為D×D,基于SR的圖像融合方法計(jì)算復(fù)雜度為O(D2×k2);基于CSR的圖像融合方法計(jì)算復(fù)雜度為O(k×D×log(D)),明顯低于SR的計(jì)算復(fù)雜度[17];本文算法共包含兩層卷積稀疏層,因此計(jì)算復(fù)雜度為O(2k×D×log(D)),較CSR更高,但依然低于SR。
給定輸入圖像I∈RA×B,以及一組相同大小的圖像濾波器fi∈Ra×b,i=1,2,…,m,這樣一組濾波器被定義為卷積字典濾波器。CSR的基本思想在于任意一幅輸入圖像I都可以表示為卷積字典濾波器以及與之對(duì)應(yīng)的卷積稀疏響應(yīng)圖si∈RA×B,i=1,2,…,m乘積的和。CSR的目標(biāo)函數(shù)如下式所示:
(1)
式中λ為稀疏正則項(xiàng)。
由于卷積稀疏響應(yīng)S可被視為m張大小為A×B的圖像集合,S中的每一張卷積稀疏響應(yīng)圖可以進(jìn)一步地被另一個(gè)卷積字典濾波器F′∈Ra′×b′×m′和與之對(duì)應(yīng)的卷積稀疏響應(yīng)圖表示,以此類推,可獲得K層的卷積稀疏響應(yīng)圖。如定義1所示,這種類型的CSR被稱為多層CSR。壓縮感知理論的基本思想可視為通過(guò)對(duì)過(guò)完備字典D中原子的組合來(lái)表示輸入信號(hào),多層CSR的基本思想與壓縮感知理論相似,但是區(qū)別于壓縮感知理論所用到的字典原子,多層CSR用于表征信號(hào)的是采用多層字典的復(fù)雜組合Dl1Dl2…DlK,與壓縮感知理論中的字典原子對(duì)應(yīng),這一類的字典組合被稱為“分子”[16]。
……
(2)
式(2)可視為經(jīng)典的基追蹤問(wèn)題的卷積形式,可通過(guò)交替方向乘子算法(Alternating direction method of multipliers,ADMM)有效求解。
為了引入ADMM求解式(2)的優(yōu)化問(wèn)題,將式(2)轉(zhuǎn)換為如式(3)所示的交替形式,對(duì)式(3)的優(yōu)化過(guò)程通過(guò)迭代的方式進(jìn)行,從第t步至第t+1步的迭代如式(4)~式(6)所示:
(3)
(4)
(5)
(6)
式中u為引入的輔助變量。
(7)
(8)
(9)
(10)
(11)
(12)
(13)
(14)
(15)
C={x∈RA×B:(I-PPT)x=0,‖x‖2=1}
(16)
(17)
通過(guò)引入輔助變量h以及參數(shù)ρ,式(15)可以改寫為式(18)的形式從而采用ADMM求解,從第t步至第t+1步的迭代過(guò)程如式(19)~式(21)所示。
(18)
(19)
(20)
(21)
(22)
(23)
(24)
(25)
(26)
至此,多層卷積字典學(xué)習(xí)的定義歸納如下。
……
如圖1所示,給定一組配準(zhǔn)后的紅外圖像IIN與可見(jiàn)光圖像IVI,本文所設(shè)計(jì)的圖像融合網(wǎng)絡(luò)共包含5層,以前饋的方式實(shí)現(xiàn)。
(27)
(28)
(29)
最終,第4、5層的重建層利用預(yù)先訓(xùn)練的卷積字典逐層地重建恢復(fù)融合圖像,第4層的重建過(guò)程如式(30)所示,第5層的重建過(guò)程如式(31)所示。
(30)
(31)
至此,基于多層卷積稀疏網(wǎng)絡(luò)的紅外與可見(jiàn)光圖像融合算法歸納如下。
如圖2所示,3組配準(zhǔn)后的紅外圖像與可見(jiàn)光圖像被選為實(shí)驗(yàn)用源圖像。為了衡量圖像融合的實(shí)驗(yàn)結(jié)果,本文采用主觀評(píng)價(jià)與客觀評(píng)價(jià)相結(jié)合的方式來(lái)評(píng)判融合結(jié)果的優(yōu)劣。主觀評(píng)價(jià)單純依靠人眼衡量融合結(jié)果,而客觀評(píng)價(jià)通過(guò)一系列圖像質(zhì)量的評(píng)價(jià)指標(biāo)來(lái)衡量融合結(jié)果。本文所選取的圖像質(zhì)量評(píng)價(jià)指標(biāo)包括空間頻率(spatial frequency,SF),熵(Entropy,EN),互信息(mutual information,MI)以及梯度評(píng)價(jià)指標(biāo)QAB/F,各項(xiàng)評(píng)價(jià)指標(biāo)的含義如下:
1)SF代表融合結(jié)果的清晰度與紋理豐富度,SF越高,融合效果越好。
2)EN代表融合結(jié)果包含的信息量與紋理,EN越高,融合效果越好。
3)MI代表融合結(jié)果的互信息,MI越高,融合效果越好。
4)QAB/F代表融合結(jié)果的梯度信息,QAB/F越高,融合效果越好。
圖2 實(shí)驗(yàn)圖像
對(duì)于本文所設(shè)計(jì)的多層卷積稀疏表示網(wǎng)絡(luò)而言,預(yù)訓(xùn)練的卷積稀疏字典對(duì)于網(wǎng)絡(luò)的融合效果有著至關(guān)重要的影響,因此有必要針對(duì)字典的選取對(duì)網(wǎng)絡(luò)融合效果的影響展開分析。由上一節(jié)的理論分析可知,給定訓(xùn)練樣本,學(xué)習(xí)參數(shù)λ,迭代次數(shù)t,卷積字典的長(zhǎng)度與卷積字典的大小對(duì)于卷積字典的學(xué)習(xí)有重要的影響。本文用于第1卷積稀疏層的訓(xùn)練樣本為200幅自然圖像,用于第2卷積稀疏層的訓(xùn)練樣本為200幅卷積稀疏響應(yīng)圖,學(xué)習(xí)參數(shù)λ,迭代次數(shù)t設(shè)置為500。
3.2.1 卷積字典的尺寸對(duì)融合效果的影響
如表1所示,當(dāng)?shù)?、2卷積稀疏層的卷積字典長(zhǎng)度固定為32時(shí),卷積字典的大小取值為8×8,16×16,32×32和64×64。由于第2卷積稀疏層的卷積字典訓(xùn)練樣本為卷積稀疏響應(yīng)圖而非自然圖像,因此可以直觀地看出Dl2比Dl1更稀疏。
表1 不同尺寸的卷積字典
源圖像1,2,3在不同尺寸字典下的圖像融合客觀評(píng)價(jià)指標(biāo)如圖3~5所示。由圖中結(jié)果可知,Dl1中字典尺寸變化帶來(lái)的影響較Dl2更大,導(dǎo)致該現(xiàn)象的原因是:1)在字典訓(xùn)練的迭代次數(shù)一致的前提下,當(dāng)字典的尺寸增大時(shí),對(duì)于源圖像變換的重建誤差將隨之上升,從而影響最終圖像融合的效果;2)與卷積神經(jīng)網(wǎng)絡(luò)類似,淺層的網(wǎng)絡(luò)對(duì)于提取圖像的邊緣信息更有效,且底層網(wǎng)絡(luò)所提取的邊緣信息是后續(xù)網(wǎng)絡(luò)提取語(yǔ)義信息的基礎(chǔ),因此第1層的重建誤差將傳播至第2層,影響最終的圖像融合結(jié)果。
圖3 源圖像1在不同字典尺寸下融合結(jié)果的客觀評(píng)價(jià)指標(biāo)
圖4 源圖像2在不同字典尺寸下融合結(jié)果的客觀評(píng)價(jià)指標(biāo)
3.2.2 卷積字典的長(zhǎng)度對(duì)融合效果的影響
如表2所示,當(dāng)?shù)?、2卷積稀疏層的卷積字典尺寸固定為16×16,卷積字典的長(zhǎng)度為16,32,64和128。源圖像1,2,3在不同尺寸字典下的圖像融合客觀評(píng)價(jià)指標(biāo)如圖6~8所示。由圖中結(jié)果可知,相比于卷積字典的尺寸,卷積字典的長(zhǎng)度對(duì)融合結(jié)果的影響較小。當(dāng)卷積字典的長(zhǎng)度增加時(shí),圖像融合的效果會(huì)有微弱的改善,且Dl2對(duì)融合結(jié)果的影響較Dl1更大。上述現(xiàn)場(chǎng)產(chǎn)生的原因?yàn)椋?)圖像變換對(duì)于信息的表示能力極大地取決于特征的維度,而多層CSR的特征維度與字典的長(zhǎng)度緊密相關(guān),因此當(dāng)字典長(zhǎng)度增加時(shí),融合效果會(huì)有相應(yīng)的改善;2)與CNN的結(jié)構(gòu)類似,從網(wǎng)絡(luò)深層提取的信息相較于淺層信息的表示能力更強(qiáng),因此Dl2對(duì)融合結(jié)果有更大的影響。
圖5 源圖像3在不同字典尺寸下融合結(jié)果的客觀評(píng)價(jià)指標(biāo)
表2 不同長(zhǎng)度的卷積字典
本文采用了3種經(jīng)典的圖像融合算法與本文設(shè)計(jì)的算法進(jìn)行對(duì)比,3種對(duì)比算法分別是:基于稀疏表示(SR)的圖像融合算法[3],基于卷積稀疏表示(CSR)的圖像融合算法[15],基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的圖像融合算法[9]。每一種融合算法所對(duì)應(yīng)的融合結(jié)果剛見(jiàn)表3,根據(jù)融合結(jié)果采用主觀評(píng)價(jià)可知,本文所設(shè)計(jì)圖像融合算法獲得的結(jié)果在保留細(xì)節(jié)(例如可見(jiàn)光圖像中的植被、建筑等)的同時(shí)顯著增強(qiáng)了圖像中的目標(biāo)。
圖6 源圖像1在不同字典長(zhǎng)度下融合結(jié)果的客觀評(píng)價(jià)指標(biāo)
圖7 源圖像2在不同字典長(zhǎng)度下融合結(jié)果的客觀評(píng)價(jià)指標(biāo)
圖8 源圖像3在不同字典長(zhǎng)度下融合結(jié)果的客觀評(píng)價(jià)指標(biāo)
表3 融合結(jié)果對(duì)比
進(jìn)一步對(duì)本文所設(shè)計(jì)的算法進(jìn)行客觀評(píng)價(jià),客觀評(píng)價(jià)指標(biāo)對(duì)比結(jié)果如圖9所示。由客觀評(píng)價(jià)指標(biāo)的計(jì)算結(jié)果分析可知,本文所提出的圖像融合算法相比于同類算法具有一定的優(yōu)勢(shì)。
圖9 不同方法的融合結(jié)果客觀評(píng)價(jià)指標(biāo)對(duì)比
針對(duì)3組實(shí)驗(yàn)圖像,對(duì)4種算法的實(shí)時(shí)性進(jìn)一步進(jìn)行驗(yàn)證分析。本文的算法實(shí)現(xiàn)平臺(tái)為Matlab 2016b,計(jì)算機(jī)主頻為3.4 GHz,內(nèi)存為8 GB,采用Matlab的tic toc命令,對(duì)于4種算法的運(yùn)行時(shí)間進(jìn)行統(tǒng)計(jì),統(tǒng)計(jì)結(jié)果見(jiàn)表4。由表4可知,本文算法相比于SR和CNN在計(jì)算時(shí)間方面具有明顯的優(yōu)勢(shì);相比于CSR,由于前饋式的網(wǎng)絡(luò)結(jié)構(gòu)導(dǎo)致需要進(jìn)行兩次卷積稀疏運(yùn)算,因此計(jì)算時(shí)間略有增長(zhǎng)。
表4 融合計(jì)算時(shí)間對(duì)比
1)本文設(shè)計(jì)了一種多層卷積稀疏表示網(wǎng)絡(luò),且給出了針對(duì)該網(wǎng)絡(luò)的卷積稀疏字典訓(xùn)練方法與卷積稀疏響應(yīng)圖求解方法,作為一種有效的圖像變換方法,該網(wǎng)絡(luò)不僅可用于紅外與可見(jiàn)光圖像融合,同樣可被擴(kuò)展于目標(biāo)檢測(cè)、跟蹤等領(lǐng)域。
2)與基于稀疏表示的圖像融合方法對(duì)比,本文所設(shè)計(jì)的多層卷積稀疏表示網(wǎng)絡(luò)所具備的全局建模能力在誤匹配條件下具有明顯的優(yōu)勢(shì)。
3)作為一種基于非監(jiān)督學(xué)習(xí)的融合網(wǎng)絡(luò),本文所設(shè)計(jì)的圖像融合方法無(wú)需大量帶有標(biāo)簽的訓(xùn)練樣本即可完成參數(shù)的學(xué)習(xí),因此該網(wǎng)絡(luò)同樣可被用于解決其他類型的圖像融合問(wèn)題,例如多焦點(diǎn)圖像融合、醫(yī)學(xué)圖像融合等。