李 揚(yáng),楊海濤,孔 卓,張長(zhǎng)弓,王晉宇
1.航天工程大學(xué) 研究生院,北京 101400
2.航天工程大學(xué) 航天信息學(xué)院,北京 101400
圖像融合作為一種圖像增強(qiáng)技術(shù),通過將不同傳感器或者不同位置、時(shí)間、亮度等的同一場(chǎng)景的兩幅或者多幅圖像的所有信息疊加互補(bǔ),形成對(duì)于人類視覺或者后續(xù)圖像處理更有用的融合圖像[1]。傳統(tǒng)圖像融合方法發(fā)展成熟,已經(jīng)實(shí)現(xiàn)了很多優(yōu)秀的融合算法。深度學(xué)習(xí)的發(fā)展推動(dòng)了圖像融合技術(shù)的發(fā)展,神經(jīng)網(wǎng)絡(luò)強(qiáng)大的特征提取和重構(gòu)能力使融合結(jié)果具有廣闊的前景。
隨著圖像融合技術(shù)的研究呈不斷上升的趨勢(shì),應(yīng)用領(lǐng)域也遍及遙感圖像處理、可見光圖像處理、紅外圖像處理、醫(yī)學(xué)圖像處理等,此外還有多曝光圖像融合在攝影中的應(yīng)用、紅外與可見光融化在視頻監(jiān)控中的應(yīng)用、MRI和PET的融合、MRI與CT的融合在醫(yī)學(xué)中的應(yīng)用等等。
國(guó)內(nèi)外學(xué)者專家在該領(lǐng)域已發(fā)表多篇綜述,例如北方民族大學(xué)的周濤等[2]將多尺度融合算法分為多尺度分解和子帶融合算法兩部分,并對(duì)其分別進(jìn)行了歸納總結(jié)。沈英等[3]對(duì)紅外與可見光方向的論文進(jìn)行了歸納整理,并根據(jù)場(chǎng)景對(duì)不同方法進(jìn)行了實(shí)驗(yàn)總結(jié)。湖南大學(xué)的李樹濤等[4]將圖像融合按照源圖像來源劃分為九類典型獲取方式,并分別進(jìn)行了歸納總結(jié)。
除了綜述性文章,專家學(xué)者發(fā)表了許多對(duì)算法評(píng)價(jià)的指標(biāo)的總結(jié)性文章。華中科技大學(xué)的王海暉等[5]將圖像融合質(zhì)量總結(jié)為圖像的可檢測(cè)性、可分辨性和可測(cè)量性三方面,并提出一些有意義的建議。Zhang在2020年總結(jié)性地對(duì)2011年以后發(fā)表的算法以信息論指標(biāo)CE、EN、圖像融合指標(biāo)AG、EI等共十三個(gè)指標(biāo)進(jìn)行了整體評(píng)價(jià)[6]。
圖像融合技術(shù)是20世紀(jì)70年代被提出的一種圖像處理方法[7]。此后該技術(shù)得以快速發(fā)展。圖像融合的基本邏輯是利用算法將兩幅或多幅圖像融合作為一幅新的圖像,融合結(jié)果能利用兩幅(或多幅)圖像在時(shí)空上的相關(guān)性及信息上的互補(bǔ)性,并使得融合后得到的圖像對(duì)場(chǎng)景有更全面、清晰的描述,從而更有利于人眼的識(shí)別和高級(jí)任務(wù)的分類或者識(shí)別。
目前普遍認(rèn)為,圖像融合存在三個(gè)基本規(guī)則[7]:第一,融合后的圖像必須保持源圖像的明顯特征仍然突出;第二,融合過程不可加入人為信息;第三,對(duì)噪聲等無價(jià)值的信息盡可能抑制。
圖像的融合根據(jù)層級(jí)可以劃分為三類,以認(rèn)知為基礎(chǔ)的決策級(jí)融合、需要提取特征信息的特征級(jí)以及以像素為處理單元的像素級(jí)融合,如圖1。
圖1 圖像融合層級(jí)Fig.1 Image fusion hierarchy
像素級(jí)的圖像融合是最基礎(chǔ)的融合類型,如圖2,其對(duì)輪廓邊緣、紋理和色彩變化的融合能力強(qiáng),融合圖像有利于圖像的后續(xù)處理分析、判讀解譯。
圖2 像素級(jí)融合流程Fig.2 Pixel-level fusion process
像素級(jí)融合存在如下問題:融合時(shí)間長(zhǎng)。由于需要對(duì)圖像像素處理,算法實(shí)現(xiàn)實(shí)時(shí)融合困難。源圖像質(zhì)量要求高。融合結(jié)果對(duì)源圖像的噪聲敏感,源圖像過曝或欠曝同樣會(huì)導(dǎo)致融合結(jié)果欠佳。配準(zhǔn)要求高。配準(zhǔn)精度直接影響融合效果。
特征級(jí)融合是將源圖像中邊緣、建筑、人物等明顯特征分離提取,通過分析處理,融合得到新的特征融合圖像,如圖3。融合時(shí)只考慮特征部分區(qū)域,因此融合結(jié)果的目標(biāo)識(shí)別強(qiáng)度高于源圖像。且融合中不處理特征之外的環(huán)境細(xì)節(jié)信息,所以處理速度快、實(shí)時(shí)性好,且融合過程對(duì)像素的依賴性不強(qiáng),所以對(duì)于配準(zhǔn)要求不高。但是也存在丟失大量細(xì)節(jié)特征的問題。
圖3 特征級(jí)融合流程Fig.3 Feature-level fusion process
決策級(jí)圖像融合是一種具有層次高、抽象性強(qiáng)的基于認(rèn)知的融合類型,如圖4。決策層的融合計(jì)算量相對(duì)于其他兩個(gè)是最小的,且不受源圖像的噪聲影響。缺點(diǎn)是圖像清晰度相對(duì)特征級(jí)與像素級(jí)較差,且對(duì)特征級(jí)融合有較強(qiáng)的依賴性,由于對(duì)此方向研究較少,程序?qū)崿F(xiàn)困難。
圖4 決策級(jí)融合流程Fig.4 Decision level convergence process
圖像數(shù)據(jù)集是圖像處理的基礎(chǔ),選擇合適的數(shù)據(jù)集對(duì)算法的研究十分關(guān)鍵。對(duì)于紅外與可見光融合算法,常用的數(shù)據(jù)集如表1所示。
圖像融合算法發(fā)展迅速,基本可以分為傳統(tǒng)方法和基于深度學(xué)習(xí)的方法兩大類。
傳統(tǒng)的圖像融合算法發(fā)展成熟、衍生方法多。大致可以總結(jié)為三步:將源圖像分解;將分解的圖像按照預(yù)定的融合規(guī)則分別融合;對(duì)分層融合的圖像進(jìn)行分解逆變換,得到最終融合圖像。
表1 常用融合數(shù)據(jù)集Table 1 Commonly used fused data sets
圖像分解算法是圖像融合的第一步,圖像分解是為了將源圖像分割為包含不同特征的幾幅圖像,進(jìn)而通過圖像融合規(guī)則分別進(jìn)行融合,保證生成的融合圖像既有明顯的紅外特征,也能保留可見光圖像中的細(xì)節(jié)與紋理。
2.1.1 基于空間域的圖像分解
其一是加權(quán)平均方法。加權(quán)平均方法通過對(duì)源圖像所有像素的灰度值加權(quán)平均的方法來產(chǎn)生新的融合圖像,這也是最簡(jiǎn)單直接的一種融合方法,其優(yōu)點(diǎn)是融合算法簡(jiǎn)單速度快速且圖像的信噪比高于源圖像,缺點(diǎn)是最終融合圖像對(duì)比度低、融合圖像對(duì)目標(biāo)凸顯明顯。
其二是基于最大最小值選取的圖像融合方法。在融合過程中,通過比較源圖像對(duì)應(yīng)位置處像素的灰度值大小作為依據(jù),按照需要選擇其大值或者小值作為融合圖像對(duì)應(yīng)位置的像素灰度值。此方法應(yīng)用場(chǎng)景有限,很少使用。
其三是基于PCA的圖像融合方法。這一方法可以簡(jiǎn)要分為三步。第一步是通過三個(gè)或以上波段數(shù)據(jù)求出源圖像之間對(duì)應(yīng)像素的相關(guān)系數(shù)矩陣,以相關(guān)系數(shù)矩陣為基礎(chǔ)計(jì)算對(duì)應(yīng)的特征值與特征向量,最后求出主分量圖像;第二步是把高分辨率圖像對(duì)比度進(jìn)行拉伸,并將其與第一分量圖像比較,將其均值與方差保持一致;第三步是將拉伸后的高分辨率圖像作為第一分量,將其加上其他分量進(jìn)行PCA逆變換。通過三步即可實(shí)現(xiàn)融合。
PCA圖像融合方法相對(duì)于其他空間域方法更適用于多光譜圖像融合,但是由于其不會(huì)考慮圖像各波段的光譜信息,所以會(huì)損失一部分低分辨率圖像的信息。
2.1.2 基于多尺度變換的圖像分解
基于多尺度變換的圖像融合方法在眾多融合方法中,最受關(guān)注和歡迎。多尺度變換的融合規(guī)則如圖5,第一,對(duì)源圖像進(jìn)行多尺度分解,將圖像分為一系列尺度不同的子圖像;第二,設(shè)計(jì)一種基于多尺度變換的融合規(guī)則,對(duì)不同尺度的圖像進(jìn)行融合,使得該尺度下的特征能夠被保留;第三,對(duì)復(fù)合的多尺度圖像逆變換操作,最終得到融合后的圖像。
圖5 多尺度分解示意Fig.5 Multiscale decomposition
多尺度融合主要由金字塔分解方法、小波變換、多尺度幾何分解三種方法組成,本文梳理了三類方法的主要發(fā)展并進(jìn)行了對(duì)比分析。
(1)基于金字塔變換的圖像分解
金字塔變換最早由Burt等于1984年提出,他使用的拉普拉斯金字塔和基于像素最大值的融合方法實(shí)現(xiàn)了人眼立體視覺的融合[11]?;谙袼刈畲笾档姆椒▽?shí)際上是指選取局部亮度差異較大的部分作為融合重點(diǎn)。初期的拉普拉斯金字塔變換融合結(jié)構(gòu)受噪聲影響過大、分層沒有考慮方向性的問題、塔中的各層存在較多冗余等問題,但為圖像融合提出了一種行之有效的方法。
Toet[12]根據(jù)拉普拉斯金字塔提出的對(duì)比度金字塔,解決了拉普拉斯金字塔得到融合圖像對(duì)比度降低的問題,其核心思想是先通過高斯變換得到多層金字塔,再求出各層之間的比率得到對(duì)比度金字塔,從而提升融合圖像的對(duì)比度。
Burt[13]提出的一種基于梯度金字塔的融合算法,通過對(duì)高斯金字塔的各層進(jìn)行梯度方向?yàn)V波,提高了融合算法對(duì)噪聲的抗性。陳錦等提出一種拼接(Splice)金字塔融合算法[14],該算法在濾波的同時(shí)加入了采樣的操作,融合圖像的清晰度得到提升。胡學(xué)龍等[15]將中值濾波運(yùn)用到圖像融合算法當(dāng)中,由于中值濾波本身具有較高的魯棒性和自適應(yīng)性,所融合的圖像更加光滑,對(duì)噪聲抗性更高。2011年,崔顥[16]提出一種基于方向可控金字塔的圖像融合方法,加入了遞歸卷積與抽樣的步驟,使得此方法具有了平移不變性和旋轉(zhuǎn)不變性。
近年來,劉斌等[17]改進(jìn)了對(duì)比度金字塔提出一種方向?qū)Ρ榷冉鹱炙?,該方法通過加入對(duì)高頻分量的方向?yàn)V波操作從而保留了更多的融合圖像的細(xì)節(jié)和方向信息,但也使得算法復(fù)雜度上升。Kou等[18]提出了混合平滑金字塔,后者在降低偽影現(xiàn)象的同時(shí)很好地處理了算法復(fù)雜度和性能之間的關(guān)系,但整體融合效果和先進(jìn)算法相比略微不足。
劉斌等[19]提出一種基于不可分拉普拉斯金字塔的融合算法,該方法首先建立圖像的非采樣不可分小波塔形分解,根據(jù)不可分小波金字塔建立非采樣不可分拉普拉斯金字塔。從而解決了拉普拉斯金字塔不能實(shí)現(xiàn)平移不變性的問題。以上方法的優(yōu)點(diǎn)與不足總結(jié)如表2。
表2 金字塔變換方法對(duì)比Table 2 Comparison of pyramid transformation methods
基于金字塔分解的圖像融主要步驟為:對(duì)源圖像金字塔濾波得到尺度不同的分解圖像,再依據(jù)融合規(guī)則分別融合不同層的分解圖像,最后使用金字塔逆分解的方法將圖像重構(gòu),得到最后的融合圖像。該類融合算法優(yōu)點(diǎn)是考慮了不同空間分辨率下圖像的重要部位和特征,并能夠相應(yīng)地融合和保留。缺點(diǎn)是會(huì)造成圖像的冗余分解,并且在金字塔底端的高頻信息在分解后信息損失較大,最終的融合結(jié)果細(xì)節(jié)損失較多。
(2)基于小波變換的圖像分解
小波變換具有良好的方向選擇性、正交性、可變的時(shí)頻域分辨率等優(yōu)點(diǎn)而廣受關(guān)注,并成為圖像融合領(lǐng)域一種十分有用的理論。相對(duì)于其他方法,小波變換的特性在直觀上更便于理解也更符合人的視覺。
小波變換總結(jié)來說可以分為三步:首先對(duì)源圖像進(jìn)行小波分解,得到各個(gè)方向和頻率的金字塔結(jié)構(gòu);其次根據(jù)不同融合策略分別融合子頻帶;最后對(duì)融合好的子頻帶做小波重構(gòu),得到的重構(gòu)圖像就是最終的融合圖像。
小波變換是由Mallat[20]在1989年提出的一種方法,方法提出以后受到了廣泛關(guān)注和應(yīng)用。1995年,Li等[21]在小波變換基礎(chǔ)上提出一種離散小波(DWT)變換的圖像融合方法,通過對(duì)小波變換的尺度和位移以2的冪次實(shí)現(xiàn)離散化,從而降低了圖像中噪聲的不良影響,但離散的特性也使得其特征表達(dá)能力不足[22]。Uytterhoeven和Bultheel[23]提出一種Red-Black小波變換,該方法是一種基于五株型采樣的不可提升小波,相對(duì)于小波變換算法它不僅能夠消除行和列方向的相關(guān)性,還能消除對(duì)角線方向的相關(guān)性,劉斌基于此方法提出一種圖像融合方法,融合結(jié)果表示光譜質(zhì)量和空間信息均有較體現(xiàn),但由于Red-Black小波分解時(shí)特征方向受限,使得特征提取不充分。
Kingsbury[24]為了解決離散小波變換不具有平移不變性和方向性的問題,在離散小波的基礎(chǔ)上提出了一種雙樹復(fù)小波(dual-tree complex wavelet transform,DT-CWT)變換,該方法具有計(jì)算效率高、數(shù)據(jù)冗余有限的特點(diǎn),相較于小波變換,DT-CWT可以對(duì)圖像在多個(gè)方向上分解,從而提升了分解能力[25]。Ioannidou基于DT-CWT設(shè)計(jì)了一種圖像融合算法,結(jié)合全色圖像高頻部分和多光譜圖像低頻部分求得融合圖像,取得了良好效果。
Lee等[26]提出一種提升靜態(tài)小波變換(lifting stationary wavelet transform,LSWT),該方法刪除了傳統(tǒng)提升小波的奇偶分解部分,并在濾波器系數(shù)中加入一定個(gè)數(shù)的零來延展濾波器。因此,該方法不僅具有初始的低通濾波特性并且具有了平移不變性,對(duì)源圖像的紋理和細(xì)節(jié)信息的提取能力也得到了提升。但該方法需要將數(shù)據(jù)分為兩個(gè)子集,使得變換后子帶信號(hào)減半,改變了原數(shù)值而不是平移,由此導(dǎo)致了融合結(jié)果的失真,降低了準(zhǔn)確性[27]。
Bayro-Corrochano[28]提出了四元樹小波變換(quaternion wavelet transform,QWT),該方法基于四元數(shù)代數(shù)、四元數(shù)傅里葉變換以及Hibert變換,相較于離散小波和雙數(shù)復(fù)小波變換,具有近似平移不變性、豐富的相位信息和有限數(shù)據(jù)冗余的優(yōu)點(diǎn),用于圖像融合中,能夠進(jìn)一步改善融合圖像的對(duì)比度、細(xì)節(jié)和邊緣結(jié)構(gòu)。Chai等[29]基于QWT分解圖像得到高頻和低頻部分,并以一種基于低頻子帶相位和幅度以及空間方差的加權(quán)平均融合規(guī)則來融合低頻子帶,以一種基于系數(shù)對(duì)比度和能量的choose-max融合規(guī)則來融合高頻子帶。最后在多焦點(diǎn)圖像、醫(yī)學(xué)圖像、紅外可見圖像和遙感圖像上進(jìn)行了算法的有效性驗(yàn)證。
王衛(wèi)星、曾基兵[30]提出冗余提升不可分離小波變換,該算法將快速提升算法中的分裂轉(zhuǎn)化為復(fù)制,避免了數(shù)據(jù)量變化導(dǎo)致的失真。融合結(jié)果的整體效果相對(duì)于快速提升算法得到了優(yōu)化。
Gilles[31]提出一種協(xié)同經(jīng)驗(yàn)小波變換方法,該方法的特點(diǎn)是根據(jù)數(shù)據(jù)的傅里葉特性,對(duì)數(shù)據(jù)的頻譜自適應(yīng)地劃分,構(gòu)造相應(yīng)的濾波器組。在用于解決多源圖像融合時(shí)自適應(yīng)分解不協(xié)同的問題時(shí),融合結(jié)果得到了較好的改善[32],但仍存在一定的虛假模態(tài)現(xiàn)象和混頻現(xiàn)象。
宮睿等[33]提出了一種基于可協(xié)調(diào)經(jīng)驗(yàn)小波變換(CEWT)的圖像融合算法,該算法同時(shí)利用兩個(gè)生成濾波器保證融合圖像的譜帶和頻譜劃分相同,避免了頻譜混疊現(xiàn)象。該算法在融合結(jié)果的邊緣以及細(xì)節(jié)處相對(duì)于其他算法有更好的表現(xiàn)。
小波變換方法總結(jié)如表3。
表3 小波變換方法對(duì)比Table 3 Comparison of wavelet transform methods
(3)多尺度幾何分解
多尺度幾何分解相對(duì)于小波變換和金字塔變換最大的優(yōu)勢(shì)在于,多尺度分解在原理上具有方向性和各向異性。對(duì)應(yīng)高維數(shù)據(jù)有更強(qiáng)的分析能力,缺點(diǎn)是算法復(fù)雜度更高。
脊波(Ridgelet)變換是一種適合分析高維奇異性的數(shù)學(xué)工具,由Candès[34]在1999年時(shí)提出。與小波變換比較,脊波有以下幾個(gè)優(yōu)勢(shì):能夠通過Radon變換將線性特征轉(zhuǎn)化為點(diǎn)狀奇異特征,克服了小波變換無法提取圖像沿邊特征的問題;在保持小波變換的頻域和空域特性的同時(shí),有很強(qiáng)的方向性,對(duì)于圖像的邊緣有更強(qiáng)的提取能力,可以在融合圖像中體現(xiàn)更清晰;并且脊波具有更好的稀疏性,能夠把特征集中在較少從的維度中,變換后的信息更加集中。
曲線波(Curvelet)變換由Candes和Donoho[35]在1998年提出,這是一種基于Ridgelet變換改進(jìn)的分解算法,Curvelet對(duì)邊緣結(jié)構(gòu)的表示能力更強(qiáng),從而間接地提高了融合圖像的分辨率,并且Curvelet相對(duì)于Ridgelet有更小的分析冗余度。Curvelet首次被用于圖像融合是由Choi等[36]提出,他們?cè)诙喙庾V圖像和全色圖像的融合使用了Curvelet變換并得到了較好的結(jié)果,融合圖像有了更豐富的空間信息和光譜信息。張強(qiáng)等[37]提出的基于Curvelet變換的算法降低了高頻噪聲對(duì)融合圖像的影響,最終的融合指標(biāo)和直觀效果相比小波變換更優(yōu)。
條帶波(Bandelet)變換是Pennec和Mallat[38]在2005年提出的一種基于邊緣的圖像表示方法,該方法的優(yōu)點(diǎn)是可以自動(dòng)適應(yīng)圖像的幾何正則方向。Bandelet變換的主要思想是將圖像的幾何特征看作矢量場(chǎng),通過矢量場(chǎng)描述圖像空間結(jié)構(gòu)的灰度變化。楊揚(yáng)等[39]基于非下采樣的Bandelet的方法提出一種圖像融合方法,該方法刪除了原算法的下采樣操作,變換結(jié)果包含了部分冗余數(shù)據(jù),因此可以為融合步驟提供更豐富的信息。該實(shí)驗(yàn)效果相對(duì)于WT和NSWT有更好的視覺效果和量化標(biāo)準(zhǔn),并且降低了偽吉布斯效應(yīng)的影響。
輪廓波(Contourlet)由Laplacian pyramid(LP)和directional filter bank(DFB)兩部分組成。其中,LP處理低頻帶通信號(hào),避免頻率混亂;DFB用于處理高頻信號(hào),檢測(cè)圖像的方向信息。由于輪廓波變換缺少平移不變性這一重要特點(diǎn),da Cunha等[40]提出了非下采樣輪廓波變換(nonsubsampled contourlet,NSCT),NSCT的分解過程如圖6所示,先利用非下采樣金字塔濾波(not sampling pyramid,NSP)對(duì)源圖像分解得到低頻子帶和高頻子帶,低頻子帶繼續(xù)用NSP處理分解,高頻子帶則使用非下采樣方向?yàn)V波器組(non-downsampling direction filter bank,NSDFB),得到不同方向和尺度的子帶系數(shù)。
NSCT將Contourlet中方向?yàn)V波器的下采樣替換為非下采樣金字塔結(jié)構(gòu)(NSP),將方向?yàn)V波器中的下采樣轉(zhuǎn)換為非下采樣的方向?yàn)V波器(NSDFB),從而使算法具有了平移不變性,修復(fù)了融合圖像出現(xiàn)偽吉布斯效應(yīng)的問題。
NSCT在圖像融合領(lǐng)域應(yīng)用頗多,Goyal等[41]設(shè)計(jì)了一種基于NSCT的醫(yī)學(xué)圖像融合算法,實(shí)現(xiàn)了較高的融合效率和融合效果。與其他方法相結(jié)合也是研究人員廣泛嘗試的融合方法。裴高樂等[42]將NSCT與脈沖耦合神經(jīng)網(wǎng)絡(luò)(AR-PCNN)相結(jié)合,應(yīng)用于圖像融合處理,得到了質(zhì)量較高的結(jié)果。
圖6 NSCT分解流程Fig.6 NSCT decomposition process
但NSCT中使用了固定的方向?yàn)V波器,對(duì)于復(fù)雜的空間結(jié)構(gòu)的處理能力較弱。Guo和Labate[43]在2007年提出了剪切波(Shearlet)變換,剪切波變換的算法復(fù)雜度較低,計(jì)算效率相對(duì)于其他算法較高,且不限制剪切的支撐大小和方向個(gè)數(shù),有較強(qiáng)的應(yīng)用價(jià)值。但是剪切波在處理圖像后會(huì)出現(xiàn)偽吉布斯現(xiàn)象[44]。
針對(duì)剪切波的缺點(diǎn),Easley等[45]于2008年提出了非下采樣剪切波變換(non-subsampled Shearlet transform,NSST)變換,NSST的分解過程如圖7所示,首先通過NSP分解得到L′個(gè)高頻子帶和1個(gè)低頻子帶,再將得到的高頻子帶通過改進(jìn)剪切波濾波(shear filtering,SF)處理得到相應(yīng)頻帶的多個(gè)分量,NSST將剪切波變換中的下采樣變更為卷積,從而有效地抑制了偽吉布斯現(xiàn)象。Wei等[46]基于NSST和魯棒主成分分析(RPCA)設(shè)計(jì)了一種圖像融合算法應(yīng)用于紅外與可見光圖像融合。首先通過RPCA分解源圖像得到稀疏矩陣,再通過NSST分解得到子帶,將子帶融合得到目標(biāo)圖像。實(shí)驗(yàn)結(jié)果取得了目標(biāo)更明顯、背景更豐富的融合結(jié)果。
圖7 NSST分解流程Fig.7 NSST decomposition process
Krommweh[47]提出了一種Tetrolet變換,這是一種自適應(yīng)的四格拼板的Haar小波變換,Tetrolet變換首先把源圖像分解為4×4的塊,對(duì)其分解得到4個(gè)低頻部分和12個(gè)高頻部分;再對(duì)低頻部分進(jìn)行分解為4×4的小塊,以此類推。Tetrolet變換不僅具有哈爾小波變換的多分辨率特征,還擁有比哈爾小波變換更豐富的方向分量,因此可以更好地表示圖像的高維特征信息,但會(huì)導(dǎo)致融合圖像的分辨率降低。苑玉彬等[48]在通過Tetrolet變換與自適應(yīng)脈沖神經(jīng)網(wǎng)絡(luò)結(jié)合的方式,解決了融合圖像色彩對(duì)比度低的問題。
以上總結(jié)如表4。
表4 多尺度幾何分解方法對(duì)比Table 4 Comparison of wavelet transform methods
圖像融合的第二部是分層融合,這一步需要根據(jù)高頻和低頻子帶不同特征設(shè)計(jì)合適的融合規(guī)則。圖像融合規(guī)則設(shè)計(jì)與算子選擇對(duì)于圖像融合的結(jié)果十分重要,會(huì)直接影響融合效果,本節(jié)將圖像融合規(guī)則按照方法歸為像素融合規(guī)則、區(qū)域融合規(guī)則以及其他融合規(guī)則。
2.2.1 基于像素的融合規(guī)則
基于像素的融合方法是通過計(jì)算圖像中各個(gè)像素點(diǎn)來融合圖像的,優(yōu)點(diǎn)是計(jì)算速度快、算法簡(jiǎn)單容易實(shí)現(xiàn),缺點(diǎn)是不考慮相鄰像素的關(guān)系,容易出現(xiàn)振鈴現(xiàn)象等問題。
(1)低頻子帶融合
基于像素的低頻子帶融合規(guī)則有以下幾種。第一,平均融合或加權(quán)平均規(guī)則,對(duì)兩幅源圖像的每個(gè)像素點(diǎn)求平均值或者加權(quán)平均值,作為融合圖像的值。通常情況下,低頻部分的圖像都會(huì)采用這一方法,但是會(huì)導(dǎo)致圖像對(duì)比度降低,效果較差,Chavan等[49]和Dogan等[50]在融合時(shí)采用了該方法。第二是像素絕對(duì)值最大融合規(guī)則,這一方法關(guān)注了源圖像的邊緣特征,提高了融合后圖像的對(duì)比度、降低了邊緣模糊的問題,相對(duì)于平均融合規(guī)則,能夠保留更豐富的紅外與可見光圖像的信息,Jin等[51]和沈瑜等[52]在算法中使用了該方法。第三是自適應(yīng)加權(quán)平均規(guī)則,會(huì)根據(jù)給出的規(guī)則自動(dòng)調(diào)整像素點(diǎn)的融合權(quán)重,這一方法相對(duì)于加權(quán)平均更加靈活,融合效果更好。Cheng等[53]在論文中使用顯著圖作為權(quán)重融合低頻子帶,取得了較好的融合結(jié)果。
(2)高頻子帶融合
相對(duì)于只需要平滑特征的低頻子帶融合規(guī)則不同的是,高頻子帶融合時(shí)需要保留和融合高頻子帶中豐富的特征和細(xì)節(jié)信息。平均融合、加權(quán)平均以及自適應(yīng)平均等方法不能處理相鄰像素之間的關(guān)系,不能夠很好地處理高頻子帶。
基于像素的高頻子帶一般的處理方法一般有以下幾種方法。第一,系數(shù)最大值規(guī)則,通過保留圖像像素值變化最大的邊緣特征來融合高頻子帶。這一方法對(duì)圖像邊緣信息可以較好地保留,Meng等[54]、Aishwarya和Thangammal[55]、Cheng等[56]和Chen等[57]均在處理高頻信息時(shí)使用了系數(shù)最大值規(guī)則,實(shí)現(xiàn)了較好的融合效果。第二,像素最大SML值,拉普拉斯能量和(sum of modified Laplacian,SML)是一種能夠較好地體現(xiàn)圖像的高頻特征的值,Liu等[58]使用了該規(guī)則融合了高頻子帶,實(shí)驗(yàn)效果較好。第三,像素最大NSML值,是改進(jìn)的拉普拉斯能量和。Ullah等[59]選擇分解圖像中NSML值高的子帶作為融合圖像,這一方法提高了圖像的對(duì)比度,實(shí)現(xiàn)了更好的融合效果。
2.2.2 基于區(qū)域的融合規(guī)則
基于區(qū)域的融合規(guī)則相比于基于像素的融合規(guī)則加入了對(duì)相近像素的區(qū)別的考慮,在融合時(shí)加入了臨近像素點(diǎn)的相關(guān)性,提高了融合的效果。
(1)低頻子帶融合
對(duì)于低頻子帶融合,基于區(qū)域的融合規(guī)則有以下幾種。第一,主成分分析法。PCA的主要作用是突出特征,將源圖像數(shù)據(jù)壓縮到更少的維度,通過減少維度提取層數(shù),增大方差,提高特征分量。第二,區(qū)域方差最大值。區(qū)域方差最大值算法是利用區(qū)域方差求取融合圖像的像素值,計(jì)算兩幅源圖像低頻子帶的區(qū)域方差,取大作為融合圖像該點(diǎn)的像素灰度值,這一方法可有效提高融合質(zhì)量。Ding等[60]采用了PCA算法融合低頻信息,能夠在融合圖像中較好地體現(xiàn)源圖像中特征的輪廓信息。第三,局部能量最大值。Meng等[61]針對(duì)平均融合方法導(dǎo)致的偽影問題,使用局部能量最大值的規(guī)則融合低頻信息,有效地避免了融合圖像中出現(xiàn)偽影的問題。第四,Canny邊緣檢測(cè)器。Canny邊緣檢測(cè)器是一種檢測(cè)圖像邊緣信息的算法。使用該算法融合低頻子帶可以保留更多的圖像細(xì)節(jié)信息。Vishwakarma等[62]使用尺度相乘的Canny邊緣檢測(cè)器和Hessian特征疊加的方法來融合低頻信息,實(shí)驗(yàn)效果較好。
(2)高頻子帶融合
基于區(qū)域的高頻子帶融合規(guī)則主要關(guān)注融合圖像中重要特征的邊緣,通過加強(qiáng)特征邊緣強(qiáng)度,達(dá)到提高高頻特征和融合效果的目的。此類方法主要有以下幾種。第一,最大邊緣強(qiáng)度融合規(guī)則。最大邊緣強(qiáng)度融合規(guī)則通過保留源圖像中高對(duì)比度的邊緣特征可以在融合圖像中體現(xiàn)盡可能多的細(xì)節(jié)和邊緣特征。Anandhi和Valli[63]首先通過NSCT進(jìn)行分解源圖像,然后使用了最大邊緣強(qiáng)度融合規(guī)則處理分解得到的高頻部分,融合結(jié)果較好,保留了源圖像大部分的邊緣信息和紋理信息。第二,導(dǎo)向?yàn)V波器。導(dǎo)向?yàn)V波器是Liu等[64]基于冗余提升不可分剪切波改進(jìn)提出的一種保邊濾波器,作為融合規(guī)則可以較好地保留圖像細(xì)節(jié)并且可以一定程度地避免偽影現(xiàn)象。第三,平均梯度及其改進(jìn)規(guī)則。平均梯度的優(yōu)勢(shì)在于能夠保留圖像的邊緣結(jié)構(gòu),且算法簡(jiǎn)單快速。但是平均梯度會(huì)造成振鈴現(xiàn)象,影響最終的融合效果。Cheng等[65]在平均梯度的基礎(chǔ)上增加了對(duì)角梯度變換,改進(jìn)后的平均梯度算法可以提取更多的邊緣并保留它們。第四,反銳化掩膜融合規(guī)則。這一方法通過提高高頻子帶系數(shù)來提高邊緣高對(duì)比度特征信息,比平均梯度的規(guī)則更加簡(jiǎn)潔。該規(guī)則由Vishwakarma等[62]提出,并在該論文中應(yīng)用,融合效果較好,算法復(fù)雜度低。
在深度學(xué)習(xí)的發(fā)展歷程中,許多有價(jià)值的深度學(xué)習(xí)方法都被應(yīng)用到圖像融合算法當(dāng)中。例如深度神經(jīng)網(wǎng)絡(luò)DNN(deep neural network)、卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN),以及生成對(duì)抗網(wǎng)絡(luò)(generative adversarial net,GAN)等。深度學(xué)習(xí)的方法在圖像融合領(lǐng)域展現(xiàn)了良好的性能。
DenseNet是一種具有密集連接的卷積神經(jīng)網(wǎng)絡(luò)。Li等[66]在DenseNet基礎(chǔ)上提出了DenseFuse網(wǎng)絡(luò)模型。這是一種基于殘差網(wǎng)絡(luò)的圖像融合算法,能夠?qū)D像特征傳入更深層的網(wǎng)絡(luò)中,避免過快地出現(xiàn)梯度爆炸。網(wǎng)絡(luò)設(shè)計(jì)了更優(yōu)的規(guī)則以及兩個(gè)融合層,能夠從源圖像中繼承更多有用的feature,最后通過解碼層重構(gòu)融合圖像,得到融合結(jié)果。殘差塊(dense block)可以在編解碼網(wǎng)絡(luò)中保留更多的深度特征,以及在最終融合時(shí)保留所有顯著特征。此方法相對(duì)于現(xiàn)有的算法,在主觀評(píng)價(jià)于客觀評(píng)價(jià)兩個(gè)方面均有較好的水平。
Huo等[67]提出一種紅外和可見圖像融合的無監(jiān)督框架,該架構(gòu)通過兩個(gè)共享權(quán)重的dense network取得源圖像的深層特征,并直接將深層特征疊加作為融合層,最后對(duì)融合結(jié)果進(jìn)行五次卷積重建融合圖像。這一網(wǎng)絡(luò)相對(duì)于其他融合網(wǎng)絡(luò),計(jì)算復(fù)雜度不高,融合結(jié)果與DenseFuse類似,但更著重于Vis和Ir的融合。
生成對(duì)抗網(wǎng)絡(luò)是Goodfellow在2014年提出的一種深度學(xué)習(xí)網(wǎng)絡(luò),GAN網(wǎng)絡(luò)強(qiáng)大的生成能力是它廣受關(guān)注的主要原因。2019年,Wei等[68]提出了FusionGAN網(wǎng)絡(luò)模型,這是首個(gè)使用GAN網(wǎng)絡(luò)完成紅外和可見光圖像融合任務(wù),其中生成器旨在生成具有主要紅外信息和更多可見梯度的融合圖像,而判別器旨在強(qiáng)制融合更多可見圖像中的細(xì)節(jié)。這使得最終的融合圖像能夠同時(shí)保持紅外圖像中的熱輻射和可見圖像中的紋理。FusionGAN作為一個(gè)端到端模型,避免了傳統(tǒng)算法設(shè)計(jì)復(fù)雜的活動(dòng)水平測(cè)量和融合規(guī)則。融合結(jié)果具有清晰的突出目標(biāo)和豐富的細(xì)節(jié),整體結(jié)果優(yōu)于先進(jìn)的算法。
2020年,Xu等[69]提出一種具有雙判別器的DDcGAN,該網(wǎng)絡(luò)用其中一個(gè)鑒別器判斷生成圖像與Vis圖像的真?zhèn)?,用另一個(gè)鑒別器判斷Ir與降采樣以后的生成圖像的真?zhèn)?。算法效果較好,但訓(xùn)練過程時(shí)間長(zhǎng)、難度大。
同年Yu等[70]針對(duì)現(xiàn)有算法在多光譜與全色圖像融合中對(duì)全色圖像空間信息保留度低的問題,提出一種Pan-GAN網(wǎng)絡(luò),這是一種無監(jiān)督全色圖像銳化框架,這一框架由生成器、光譜判別器、空間判別器組成,算法結(jié)果優(yōu)秀,提高了融合圖像的空間信息。
Zhang等[71]提出了一種新的融合框架,具有多分類約束的生成對(duì)抗網(wǎng)絡(luò)(GANMcC),該融合框架將圖像融合轉(zhuǎn)化為多分布同時(shí)估計(jì)問題,以更合理的方式融合紅外和可見圖像。并且采用具有多分類的生成對(duì)抗網(wǎng)絡(luò)來同時(shí)估計(jì)可見光和紅外域的分布,其中多分類判別博弈會(huì)使融合結(jié)果的分布更加平衡,從而具有顯著的對(duì)比度和豐富的紋理細(xì)節(jié)。該融合框架對(duì)質(zhì)量較差的源圖像,例如過曝光圖像,仍能夠取得較好的融合結(jié)果。
Zhang等[72]提出了一種壓縮分解網(wǎng)絡(luò)(SDNet)用于多模態(tài)數(shù)字圖像的即時(shí)融合。該網(wǎng)絡(luò)將圖像融合分解為強(qiáng)度項(xiàng)和梯度項(xiàng),使用自適應(yīng)的決策塊,依據(jù)像素尺度上的細(xì)節(jié)豐富度來決定梯度項(xiàng)分布的優(yōu)化程度,通過強(qiáng)度損失權(quán)重值,改變圖像不同部位強(qiáng)度信息的大小。該網(wǎng)絡(luò)具有較好的即時(shí)性。
Ma等[73]提出一種基于顯著目標(biāo)檢測(cè)的紅外和可見圖像融合網(wǎng)絡(luò),稱為STDFusionNet,它可以較好地保留紅外圖像中的熱目標(biāo)和可見圖像中的紋理結(jié)構(gòu)。STDFusionNet作為一種端到端模型,可以以隱式方式完成顯著目標(biāo)檢測(cè)和關(guān)鍵信息融合。算法的速度更快,并且融合結(jié)果看起來像高質(zhì)量的可見光圖像,且具有清晰的高亮紅外目標(biāo)。
NestFuse[74]是一種基于通道注意力和空間注意力的融合模型。算法首先對(duì)源圖像進(jìn)行多尺度特征提取,通過融合策略來分別融合每個(gè)尺度下的特征,最后通過nest-connection解碼器重構(gòu)融合圖像。實(shí)驗(yàn)表示對(duì)于一般源圖像,融合結(jié)果在可見光的細(xì)節(jié)部分和紅外的目標(biāo)特征部分均表現(xiàn)良好,但對(duì)低質(zhì)量圖像的融合能力不足。
SeAFusion[75]是一種高級(jí)視覺任務(wù)驅(qū)動(dòng)的圖像融合框架。由一個(gè)輕量級(jí)的融合網(wǎng)絡(luò)和一個(gè)語義分割網(wǎng)絡(luò)組合而成。融合網(wǎng)絡(luò)同時(shí)接受內(nèi)容損失和語義損失的調(diào)整。整體網(wǎng)絡(luò)結(jié)構(gòu)較為簡(jiǎn)單,但提供了一種全新的融合思路,并且實(shí)現(xiàn)了較好的融合結(jié)果。
以上深度學(xué)習(xí)類方法總結(jié)對(duì)比如表5。
表5 深度學(xué)習(xí)算法對(duì)比Table 5 Deep learning algorithm comparison
根據(jù)以上綜述內(nèi)容可以總結(jié)得到,紅外與可見光圖像融合在各方面的研究及應(yīng)用中仍有很大發(fā)展?jié)摿Γ嬖谝韵聠栴}亟待研究和解決:
(1)即時(shí)圖像融合
融合效果與融合時(shí)間始終是相互矛盾的,在實(shí)際應(yīng)用中,視頻融合的需求對(duì)融合速度的要求嚴(yán)格,因此,實(shí)時(shí)處理是圖像融合未來發(fā)展的重要趨勢(shì)。
(2)結(jié)合融合目的的融合方法
目前,大部分算法在嘗試提升基于評(píng)價(jià)指標(biāo)的融合效果,高評(píng)價(jià)指標(biāo)和是否利于后續(xù)圖像處理,例如語義分割、目標(biāo)檢測(cè)、目標(biāo)識(shí)別并不是線性相關(guān)的。通過融合目的直接指導(dǎo)圖像融合的方法是一個(gè)有意義的發(fā)展方向。
(3)惡劣條件下的圖像融合
目前的圖像融合算法對(duì)于極端條件的源圖像處理能力不高,針對(duì)此類圖像研究不多。通常需要先進(jìn)行曝光修正再進(jìn)行圖像融合。因此,如何實(shí)現(xiàn)極端條件的快速圖像融合是一個(gè)需要解決的問題。
(4)跨分辨率的圖像融合
在工程應(yīng)用中,通常紅外與可見光的分辨率是不同且相差較大的。目前大部分算法難以勝任。若先對(duì)紅外進(jìn)行超分辨率重構(gòu)則會(huì)延長(zhǎng)算法運(yùn)行時(shí)間。因此如何直接融合不同分辨率的圖像在實(shí)際應(yīng)用中十分重要。
(5)全面、普適的評(píng)估準(zhǔn)則
恰當(dāng)、準(zhǔn)確的評(píng)估準(zhǔn)則對(duì)于圖像融合的算法性能的評(píng)估至關(guān)重要,目前的算法研究中,作者缺少合適、權(quán)威的準(zhǔn)則來對(duì)比不同算法的性能。