李 揚,楊海濤,孔 卓,張長弓,王晉宇
1.航天工程大學(xué) 研究生院,北京 101400
2.航天工程大學(xué) 航天信息學(xué)院,北京 101400
圖像融合作為一種圖像增強技術(shù),通過將不同傳感器或者不同位置、時間、亮度等的同一場景的兩幅或者多幅圖像的所有信息疊加互補,形成對于人類視覺或者后續(xù)圖像處理更有用的融合圖像[1]。傳統(tǒng)圖像融合方法發(fā)展成熟,已經(jīng)實現(xiàn)了很多優(yōu)秀的融合算法。深度學(xué)習(xí)的發(fā)展推動了圖像融合技術(shù)的發(fā)展,神經(jīng)網(wǎng)絡(luò)強大的特征提取和重構(gòu)能力使融合結(jié)果具有廣闊的前景。
隨著圖像融合技術(shù)的研究呈不斷上升的趨勢,應(yīng)用領(lǐng)域也遍及遙感圖像處理、可見光圖像處理、紅外圖像處理、醫(yī)學(xué)圖像處理等,此外還有多曝光圖像融合在攝影中的應(yīng)用、紅外與可見光融化在視頻監(jiān)控中的應(yīng)用、MRI和PET的融合、MRI與CT的融合在醫(yī)學(xué)中的應(yīng)用等等。
國內(nèi)外學(xué)者專家在該領(lǐng)域已發(fā)表多篇綜述,例如北方民族大學(xué)的周濤等[2]將多尺度融合算法分為多尺度分解和子帶融合算法兩部分,并對其分別進行了歸納總結(jié)。沈英等[3]對紅外與可見光方向的論文進行了歸納整理,并根據(jù)場景對不同方法進行了實驗總結(jié)。湖南大學(xué)的李樹濤等[4]將圖像融合按照源圖像來源劃分為九類典型獲取方式,并分別進行了歸納總結(jié)。
除了綜述性文章,專家學(xué)者發(fā)表了許多對算法評價的指標(biāo)的總結(jié)性文章。華中科技大學(xué)的王海暉等[5]將圖像融合質(zhì)量總結(jié)為圖像的可檢測性、可分辨性和可測量性三方面,并提出一些有意義的建議。Zhang在2020年總結(jié)性地對2011年以后發(fā)表的算法以信息論指標(biāo)CE、EN、圖像融合指標(biāo)AG、EI等共十三個指標(biāo)進行了整體評價[6]。
圖像融合技術(shù)是20世紀(jì)70年代被提出的一種圖像處理方法[7]。此后該技術(shù)得以快速發(fā)展。圖像融合的基本邏輯是利用算法將兩幅或多幅圖像融合作為一幅新的圖像,融合結(jié)果能利用兩幅(或多幅)圖像在時空上的相關(guān)性及信息上的互補性,并使得融合后得到的圖像對場景有更全面、清晰的描述,從而更有利于人眼的識別和高級任務(wù)的分類或者識別。
目前普遍認(rèn)為,圖像融合存在三個基本規(guī)則[7]:第一,融合后的圖像必須保持源圖像的明顯特征仍然突出;第二,融合過程不可加入人為信息;第三,對噪聲等無價值的信息盡可能抑制。
圖像的融合根據(jù)層級可以劃分為三類,以認(rèn)知為基礎(chǔ)的決策級融合、需要提取特征信息的特征級以及以像素為處理單元的像素級融合,如圖1。
圖1 圖像融合層級Fig.1 Image fusion hierarchy
像素級的圖像融合是最基礎(chǔ)的融合類型,如圖2,其對輪廓邊緣、紋理和色彩變化的融合能力強,融合圖像有利于圖像的后續(xù)處理分析、判讀解譯。
圖2 像素級融合流程Fig.2 Pixel-level fusion process
像素級融合存在如下問題:融合時間長。由于需要對圖像像素處理,算法實現(xiàn)實時融合困難。源圖像質(zhì)量要求高。融合結(jié)果對源圖像的噪聲敏感,源圖像過曝或欠曝同樣會導(dǎo)致融合結(jié)果欠佳。配準(zhǔn)要求高。配準(zhǔn)精度直接影響融合效果。
特征級融合是將源圖像中邊緣、建筑、人物等明顯特征分離提取,通過分析處理,融合得到新的特征融合圖像,如圖3。融合時只考慮特征部分區(qū)域,因此融合結(jié)果的目標(biāo)識別強度高于源圖像。且融合中不處理特征之外的環(huán)境細節(jié)信息,所以處理速度快、實時性好,且融合過程對像素的依賴性不強,所以對于配準(zhǔn)要求不高。但是也存在丟失大量細節(jié)特征的問題。
圖3 特征級融合流程Fig.3 Feature-level fusion process
決策級圖像融合是一種具有層次高、抽象性強的基于認(rèn)知的融合類型,如圖4。決策層的融合計算量相對于其他兩個是最小的,且不受源圖像的噪聲影響。缺點是圖像清晰度相對特征級與像素級較差,且對特征級融合有較強的依賴性,由于對此方向研究較少,程序?qū)崿F(xiàn)困難。
圖4 決策級融合流程Fig.4 Decision level convergence process
圖像數(shù)據(jù)集是圖像處理的基礎(chǔ),選擇合適的數(shù)據(jù)集對算法的研究十分關(guān)鍵。對于紅外與可見光融合算法,常用的數(shù)據(jù)集如表1所示。
圖像融合算法發(fā)展迅速,基本可以分為傳統(tǒng)方法和基于深度學(xué)習(xí)的方法兩大類。
傳統(tǒng)的圖像融合算法發(fā)展成熟、衍生方法多。大致可以總結(jié)為三步:將源圖像分解;將分解的圖像按照預(yù)定的融合規(guī)則分別融合;對分層融合的圖像進行分解逆變換,得到最終融合圖像。
表1 常用融合數(shù)據(jù)集Table 1 Commonly used fused data sets
圖像分解算法是圖像融合的第一步,圖像分解是為了將源圖像分割為包含不同特征的幾幅圖像,進而通過圖像融合規(guī)則分別進行融合,保證生成的融合圖像既有明顯的紅外特征,也能保留可見光圖像中的細節(jié)與紋理。
2.1.1 基于空間域的圖像分解
其一是加權(quán)平均方法。加權(quán)平均方法通過對源圖像所有像素的灰度值加權(quán)平均的方法來產(chǎn)生新的融合圖像,這也是最簡單直接的一種融合方法,其優(yōu)點是融合算法簡單速度快速且圖像的信噪比高于源圖像,缺點是最終融合圖像對比度低、融合圖像對目標(biāo)凸顯明顯。
其二是基于最大最小值選取的圖像融合方法。在融合過程中,通過比較源圖像對應(yīng)位置處像素的灰度值大小作為依據(jù),按照需要選擇其大值或者小值作為融合圖像對應(yīng)位置的像素灰度值。此方法應(yīng)用場景有限,很少使用。
其三是基于PCA的圖像融合方法。這一方法可以簡要分為三步。第一步是通過三個或以上波段數(shù)據(jù)求出源圖像之間對應(yīng)像素的相關(guān)系數(shù)矩陣,以相關(guān)系數(shù)矩陣為基礎(chǔ)計算對應(yīng)的特征值與特征向量,最后求出主分量圖像;第二步是把高分辨率圖像對比度進行拉伸,并將其與第一分量圖像比較,將其均值與方差保持一致;第三步是將拉伸后的高分辨率圖像作為第一分量,將其加上其他分量進行PCA逆變換。通過三步即可實現(xiàn)融合。
PCA圖像融合方法相對于其他空間域方法更適用于多光譜圖像融合,但是由于其不會考慮圖像各波段的光譜信息,所以會損失一部分低分辨率圖像的信息。
2.1.2 基于多尺度變換的圖像分解
基于多尺度變換的圖像融合方法在眾多融合方法中,最受關(guān)注和歡迎。多尺度變換的融合規(guī)則如圖5,第一,對源圖像進行多尺度分解,將圖像分為一系列尺度不同的子圖像;第二,設(shè)計一種基于多尺度變換的融合規(guī)則,對不同尺度的圖像進行融合,使得該尺度下的特征能夠被保留;第三,對復(fù)合的多尺度圖像逆變換操作,最終得到融合后的圖像。
圖5 多尺度分解示意Fig.5 Multiscale decomposition
多尺度融合主要由金字塔分解方法、小波變換、多尺度幾何分解三種方法組成,本文梳理了三類方法的主要發(fā)展并進行了對比分析。
(1)基于金字塔變換的圖像分解
金字塔變換最早由Burt等于1984年提出,他使用的拉普拉斯金字塔和基于像素最大值的融合方法實現(xiàn)了人眼立體視覺的融合[11]?;谙袼刈畲笾档姆椒▽嶋H上是指選取局部亮度差異較大的部分作為融合重點。初期的拉普拉斯金字塔變換融合結(jié)構(gòu)受噪聲影響過大、分層沒有考慮方向性的問題、塔中的各層存在較多冗余等問題,但為圖像融合提出了一種行之有效的方法。
Toet[12]根據(jù)拉普拉斯金字塔提出的對比度金字塔,解決了拉普拉斯金字塔得到融合圖像對比度降低的問題,其核心思想是先通過高斯變換得到多層金字塔,再求出各層之間的比率得到對比度金字塔,從而提升融合圖像的對比度。
Burt[13]提出的一種基于梯度金字塔的融合算法,通過對高斯金字塔的各層進行梯度方向濾波,提高了融合算法對噪聲的抗性。陳錦等提出一種拼接(Splice)金字塔融合算法[14],該算法在濾波的同時加入了采樣的操作,融合圖像的清晰度得到提升。胡學(xué)龍等[15]將中值濾波運用到圖像融合算法當(dāng)中,由于中值濾波本身具有較高的魯棒性和自適應(yīng)性,所融合的圖像更加光滑,對噪聲抗性更高。2011年,崔顥[16]提出一種基于方向可控金字塔的圖像融合方法,加入了遞歸卷積與抽樣的步驟,使得此方法具有了平移不變性和旋轉(zhuǎn)不變性。
近年來,劉斌等[17]改進了對比度金字塔提出一種方向?qū)Ρ榷冉鹱炙?,該方法通過加入對高頻分量的方向濾波操作從而保留了更多的融合圖像的細節(jié)和方向信息,但也使得算法復(fù)雜度上升。Kou等[18]提出了混合平滑金字塔,后者在降低偽影現(xiàn)象的同時很好地處理了算法復(fù)雜度和性能之間的關(guān)系,但整體融合效果和先進算法相比略微不足。
劉斌等[19]提出一種基于不可分拉普拉斯金字塔的融合算法,該方法首先建立圖像的非采樣不可分小波塔形分解,根據(jù)不可分小波金字塔建立非采樣不可分拉普拉斯金字塔。從而解決了拉普拉斯金字塔不能實現(xiàn)平移不變性的問題。以上方法的優(yōu)點與不足總結(jié)如表2。
表2 金字塔變換方法對比Table 2 Comparison of pyramid transformation methods
基于金字塔分解的圖像融主要步驟為:對源圖像金字塔濾波得到尺度不同的分解圖像,再依據(jù)融合規(guī)則分別融合不同層的分解圖像,最后使用金字塔逆分解的方法將圖像重構(gòu),得到最后的融合圖像。該類融合算法優(yōu)點是考慮了不同空間分辨率下圖像的重要部位和特征,并能夠相應(yīng)地融合和保留。缺點是會造成圖像的冗余分解,并且在金字塔底端的高頻信息在分解后信息損失較大,最終的融合結(jié)果細節(jié)損失較多。
(2)基于小波變換的圖像分解
小波變換具有良好的方向選擇性、正交性、可變的時頻域分辨率等優(yōu)點而廣受關(guān)注,并成為圖像融合領(lǐng)域一種十分有用的理論。相對于其他方法,小波變換的特性在直觀上更便于理解也更符合人的視覺。
小波變換總結(jié)來說可以分為三步:首先對源圖像進行小波分解,得到各個方向和頻率的金字塔結(jié)構(gòu);其次根據(jù)不同融合策略分別融合子頻帶;最后對融合好的子頻帶做小波重構(gòu),得到的重構(gòu)圖像就是最終的融合圖像。
小波變換是由Mallat[20]在1989年提出的一種方法,方法提出以后受到了廣泛關(guān)注和應(yīng)用。1995年,Li等[21]在小波變換基礎(chǔ)上提出一種離散小波(DWT)變換的圖像融合方法,通過對小波變換的尺度和位移以2的冪次實現(xiàn)離散化,從而降低了圖像中噪聲的不良影響,但離散的特性也使得其特征表達能力不足[22]。Uytterhoeven和Bultheel[23]提出一種Red-Black小波變換,該方法是一種基于五株型采樣的不可提升小波,相對于小波變換算法它不僅能夠消除行和列方向的相關(guān)性,還能消除對角線方向的相關(guān)性,劉斌基于此方法提出一種圖像融合方法,融合結(jié)果表示光譜質(zhì)量和空間信息均有較體現(xiàn),但由于Red-Black小波分解時特征方向受限,使得特征提取不充分。
Kingsbury[24]為了解決離散小波變換不具有平移不變性和方向性的問題,在離散小波的基礎(chǔ)上提出了一種雙樹復(fù)小波(dual-tree complex wavelet transform,DT-CWT)變換,該方法具有計算效率高、數(shù)據(jù)冗余有限的特點,相較于小波變換,DT-CWT可以對圖像在多個方向上分解,從而提升了分解能力[25]。Ioannidou基于DT-CWT設(shè)計了一種圖像融合算法,結(jié)合全色圖像高頻部分和多光譜圖像低頻部分求得融合圖像,取得了良好效果。
Lee等[26]提出一種提升靜態(tài)小波變換(lifting stationary wavelet transform,LSWT),該方法刪除了傳統(tǒng)提升小波的奇偶分解部分,并在濾波器系數(shù)中加入一定個數(shù)的零來延展濾波器。因此,該方法不僅具有初始的低通濾波特性并且具有了平移不變性,對源圖像的紋理和細節(jié)信息的提取能力也得到了提升。但該方法需要將數(shù)據(jù)分為兩個子集,使得變換后子帶信號減半,改變了原數(shù)值而不是平移,由此導(dǎo)致了融合結(jié)果的失真,降低了準(zhǔn)確性[27]。
Bayro-Corrochano[28]提出了四元樹小波變換(quaternion wavelet transform,QWT),該方法基于四元數(shù)代數(shù)、四元數(shù)傅里葉變換以及Hibert變換,相較于離散小波和雙數(shù)復(fù)小波變換,具有近似平移不變性、豐富的相位信息和有限數(shù)據(jù)冗余的優(yōu)點,用于圖像融合中,能夠進一步改善融合圖像的對比度、細節(jié)和邊緣結(jié)構(gòu)。Chai等[29]基于QWT分解圖像得到高頻和低頻部分,并以一種基于低頻子帶相位和幅度以及空間方差的加權(quán)平均融合規(guī)則來融合低頻子帶,以一種基于系數(shù)對比度和能量的choose-max融合規(guī)則來融合高頻子帶。最后在多焦點圖像、醫(yī)學(xué)圖像、紅外可見圖像和遙感圖像上進行了算法的有效性驗證。
王衛(wèi)星、曾基兵[30]提出冗余提升不可分離小波變換,該算法將快速提升算法中的分裂轉(zhuǎn)化為復(fù)制,避免了數(shù)據(jù)量變化導(dǎo)致的失真。融合結(jié)果的整體效果相對于快速提升算法得到了優(yōu)化。
Gilles[31]提出一種協(xié)同經(jīng)驗小波變換方法,該方法的特點是根據(jù)數(shù)據(jù)的傅里葉特性,對數(shù)據(jù)的頻譜自適應(yīng)地劃分,構(gòu)造相應(yīng)的濾波器組。在用于解決多源圖像融合時自適應(yīng)分解不協(xié)同的問題時,融合結(jié)果得到了較好的改善[32],但仍存在一定的虛假模態(tài)現(xiàn)象和混頻現(xiàn)象。
宮睿等[33]提出了一種基于可協(xié)調(diào)經(jīng)驗小波變換(CEWT)的圖像融合算法,該算法同時利用兩個生成濾波器保證融合圖像的譜帶和頻譜劃分相同,避免了頻譜混疊現(xiàn)象。該算法在融合結(jié)果的邊緣以及細節(jié)處相對于其他算法有更好的表現(xiàn)。
小波變換方法總結(jié)如表3。
表3 小波變換方法對比Table 3 Comparison of wavelet transform methods
(3)多尺度幾何分解
多尺度幾何分解相對于小波變換和金字塔變換最大的優(yōu)勢在于,多尺度分解在原理上具有方向性和各向異性。對應(yīng)高維數(shù)據(jù)有更強的分析能力,缺點是算法復(fù)雜度更高。
脊波(Ridgelet)變換是一種適合分析高維奇異性的數(shù)學(xué)工具,由Candès[34]在1999年時提出。與小波變換比較,脊波有以下幾個優(yōu)勢:能夠通過Radon變換將線性特征轉(zhuǎn)化為點狀奇異特征,克服了小波變換無法提取圖像沿邊特征的問題;在保持小波變換的頻域和空域特性的同時,有很強的方向性,對于圖像的邊緣有更強的提取能力,可以在融合圖像中體現(xiàn)更清晰;并且脊波具有更好的稀疏性,能夠把特征集中在較少從的維度中,變換后的信息更加集中。
曲線波(Curvelet)變換由Candes和Donoho[35]在1998年提出,這是一種基于Ridgelet變換改進的分解算法,Curvelet對邊緣結(jié)構(gòu)的表示能力更強,從而間接地提高了融合圖像的分辨率,并且Curvelet相對于Ridgelet有更小的分析冗余度。Curvelet首次被用于圖像融合是由Choi等[36]提出,他們在多光譜圖像和全色圖像的融合使用了Curvelet變換并得到了較好的結(jié)果,融合圖像有了更豐富的空間信息和光譜信息。張強等[37]提出的基于Curvelet變換的算法降低了高頻噪聲對融合圖像的影響,最終的融合指標(biāo)和直觀效果相比小波變換更優(yōu)。
條帶波(Bandelet)變換是Pennec和Mallat[38]在2005年提出的一種基于邊緣的圖像表示方法,該方法的優(yōu)點是可以自動適應(yīng)圖像的幾何正則方向。Bandelet變換的主要思想是將圖像的幾何特征看作矢量場,通過矢量場描述圖像空間結(jié)構(gòu)的灰度變化。楊揚等[39]基于非下采樣的Bandelet的方法提出一種圖像融合方法,該方法刪除了原算法的下采樣操作,變換結(jié)果包含了部分冗余數(shù)據(jù),因此可以為融合步驟提供更豐富的信息。該實驗效果相對于WT和NSWT有更好的視覺效果和量化標(biāo)準(zhǔn),并且降低了偽吉布斯效應(yīng)的影響。
輪廓波(Contourlet)由Laplacian pyramid(LP)和directional filter bank(DFB)兩部分組成。其中,LP處理低頻帶通信號,避免頻率混亂;DFB用于處理高頻信號,檢測圖像的方向信息。由于輪廓波變換缺少平移不變性這一重要特點,da Cunha等[40]提出了非下采樣輪廓波變換(nonsubsampled contourlet,NSCT),NSCT的分解過程如圖6所示,先利用非下采樣金字塔濾波(not sampling pyramid,NSP)對源圖像分解得到低頻子帶和高頻子帶,低頻子帶繼續(xù)用NSP處理分解,高頻子帶則使用非下采樣方向濾波器組(non-downsampling direction filter bank,NSDFB),得到不同方向和尺度的子帶系數(shù)。
NSCT將Contourlet中方向濾波器的下采樣替換為非下采樣金字塔結(jié)構(gòu)(NSP),將方向濾波器中的下采樣轉(zhuǎn)換為非下采樣的方向濾波器(NSDFB),從而使算法具有了平移不變性,修復(fù)了融合圖像出現(xiàn)偽吉布斯效應(yīng)的問題。
NSCT在圖像融合領(lǐng)域應(yīng)用頗多,Goyal等[41]設(shè)計了一種基于NSCT的醫(yī)學(xué)圖像融合算法,實現(xiàn)了較高的融合效率和融合效果。與其他方法相結(jié)合也是研究人員廣泛嘗試的融合方法。裴高樂等[42]將NSCT與脈沖耦合神經(jīng)網(wǎng)絡(luò)(AR-PCNN)相結(jié)合,應(yīng)用于圖像融合處理,得到了質(zhì)量較高的結(jié)果。
圖6 NSCT分解流程Fig.6 NSCT decomposition process
但NSCT中使用了固定的方向濾波器,對于復(fù)雜的空間結(jié)構(gòu)的處理能力較弱。Guo和Labate[43]在2007年提出了剪切波(Shearlet)變換,剪切波變換的算法復(fù)雜度較低,計算效率相對于其他算法較高,且不限制剪切的支撐大小和方向個數(shù),有較強的應(yīng)用價值。但是剪切波在處理圖像后會出現(xiàn)偽吉布斯現(xiàn)象[44]。
針對剪切波的缺點,Easley等[45]于2008年提出了非下采樣剪切波變換(non-subsampled Shearlet transform,NSST)變換,NSST的分解過程如圖7所示,首先通過NSP分解得到L′個高頻子帶和1個低頻子帶,再將得到的高頻子帶通過改進剪切波濾波(shear filtering,SF)處理得到相應(yīng)頻帶的多個分量,NSST將剪切波變換中的下采樣變更為卷積,從而有效地抑制了偽吉布斯現(xiàn)象。Wei等[46]基于NSST和魯棒主成分分析(RPCA)設(shè)計了一種圖像融合算法應(yīng)用于紅外與可見光圖像融合。首先通過RPCA分解源圖像得到稀疏矩陣,再通過NSST分解得到子帶,將子帶融合得到目標(biāo)圖像。實驗結(jié)果取得了目標(biāo)更明顯、背景更豐富的融合結(jié)果。
圖7 NSST分解流程Fig.7 NSST decomposition process
Krommweh[47]提出了一種Tetrolet變換,這是一種自適應(yīng)的四格拼板的Haar小波變換,Tetrolet變換首先把源圖像分解為4×4的塊,對其分解得到4個低頻部分和12個高頻部分;再對低頻部分進行分解為4×4的小塊,以此類推。Tetrolet變換不僅具有哈爾小波變換的多分辨率特征,還擁有比哈爾小波變換更豐富的方向分量,因此可以更好地表示圖像的高維特征信息,但會導(dǎo)致融合圖像的分辨率降低。苑玉彬等[48]在通過Tetrolet變換與自適應(yīng)脈沖神經(jīng)網(wǎng)絡(luò)結(jié)合的方式,解決了融合圖像色彩對比度低的問題。
以上總結(jié)如表4。
表4 多尺度幾何分解方法對比Table 4 Comparison of wavelet transform methods
圖像融合的第二部是分層融合,這一步需要根據(jù)高頻和低頻子帶不同特征設(shè)計合適的融合規(guī)則。圖像融合規(guī)則設(shè)計與算子選擇對于圖像融合的結(jié)果十分重要,會直接影響融合效果,本節(jié)將圖像融合規(guī)則按照方法歸為像素融合規(guī)則、區(qū)域融合規(guī)則以及其他融合規(guī)則。
2.2.1 基于像素的融合規(guī)則
基于像素的融合方法是通過計算圖像中各個像素點來融合圖像的,優(yōu)點是計算速度快、算法簡單容易實現(xiàn),缺點是不考慮相鄰像素的關(guān)系,容易出現(xiàn)振鈴現(xiàn)象等問題。
(1)低頻子帶融合
基于像素的低頻子帶融合規(guī)則有以下幾種。第一,平均融合或加權(quán)平均規(guī)則,對兩幅源圖像的每個像素點求平均值或者加權(quán)平均值,作為融合圖像的值。通常情況下,低頻部分的圖像都會采用這一方法,但是會導(dǎo)致圖像對比度降低,效果較差,Chavan等[49]和Dogan等[50]在融合時采用了該方法。第二是像素絕對值最大融合規(guī)則,這一方法關(guān)注了源圖像的邊緣特征,提高了融合后圖像的對比度、降低了邊緣模糊的問題,相對于平均融合規(guī)則,能夠保留更豐富的紅外與可見光圖像的信息,Jin等[51]和沈瑜等[52]在算法中使用了該方法。第三是自適應(yīng)加權(quán)平均規(guī)則,會根據(jù)給出的規(guī)則自動調(diào)整像素點的融合權(quán)重,這一方法相對于加權(quán)平均更加靈活,融合效果更好。Cheng等[53]在論文中使用顯著圖作為權(quán)重融合低頻子帶,取得了較好的融合結(jié)果。
(2)高頻子帶融合
相對于只需要平滑特征的低頻子帶融合規(guī)則不同的是,高頻子帶融合時需要保留和融合高頻子帶中豐富的特征和細節(jié)信息。平均融合、加權(quán)平均以及自適應(yīng)平均等方法不能處理相鄰像素之間的關(guān)系,不能夠很好地處理高頻子帶。
基于像素的高頻子帶一般的處理方法一般有以下幾種方法。第一,系數(shù)最大值規(guī)則,通過保留圖像像素值變化最大的邊緣特征來融合高頻子帶。這一方法對圖像邊緣信息可以較好地保留,Meng等[54]、Aishwarya和Thangammal[55]、Cheng等[56]和Chen等[57]均在處理高頻信息時使用了系數(shù)最大值規(guī)則,實現(xiàn)了較好的融合效果。第二,像素最大SML值,拉普拉斯能量和(sum of modified Laplacian,SML)是一種能夠較好地體現(xiàn)圖像的高頻特征的值,Liu等[58]使用了該規(guī)則融合了高頻子帶,實驗效果較好。第三,像素最大NSML值,是改進的拉普拉斯能量和。Ullah等[59]選擇分解圖像中NSML值高的子帶作為融合圖像,這一方法提高了圖像的對比度,實現(xiàn)了更好的融合效果。
2.2.2 基于區(qū)域的融合規(guī)則
基于區(qū)域的融合規(guī)則相比于基于像素的融合規(guī)則加入了對相近像素的區(qū)別的考慮,在融合時加入了臨近像素點的相關(guān)性,提高了融合的效果。
(1)低頻子帶融合
對于低頻子帶融合,基于區(qū)域的融合規(guī)則有以下幾種。第一,主成分分析法。PCA的主要作用是突出特征,將源圖像數(shù)據(jù)壓縮到更少的維度,通過減少維度提取層數(shù),增大方差,提高特征分量。第二,區(qū)域方差最大值。區(qū)域方差最大值算法是利用區(qū)域方差求取融合圖像的像素值,計算兩幅源圖像低頻子帶的區(qū)域方差,取大作為融合圖像該點的像素灰度值,這一方法可有效提高融合質(zhì)量。Ding等[60]采用了PCA算法融合低頻信息,能夠在融合圖像中較好地體現(xiàn)源圖像中特征的輪廓信息。第三,局部能量最大值。Meng等[61]針對平均融合方法導(dǎo)致的偽影問題,使用局部能量最大值的規(guī)則融合低頻信息,有效地避免了融合圖像中出現(xiàn)偽影的問題。第四,Canny邊緣檢測器。Canny邊緣檢測器是一種檢測圖像邊緣信息的算法。使用該算法融合低頻子帶可以保留更多的圖像細節(jié)信息。Vishwakarma等[62]使用尺度相乘的Canny邊緣檢測器和Hessian特征疊加的方法來融合低頻信息,實驗效果較好。
(2)高頻子帶融合
基于區(qū)域的高頻子帶融合規(guī)則主要關(guān)注融合圖像中重要特征的邊緣,通過加強特征邊緣強度,達到提高高頻特征和融合效果的目的。此類方法主要有以下幾種。第一,最大邊緣強度融合規(guī)則。最大邊緣強度融合規(guī)則通過保留源圖像中高對比度的邊緣特征可以在融合圖像中體現(xiàn)盡可能多的細節(jié)和邊緣特征。Anandhi和Valli[63]首先通過NSCT進行分解源圖像,然后使用了最大邊緣強度融合規(guī)則處理分解得到的高頻部分,融合結(jié)果較好,保留了源圖像大部分的邊緣信息和紋理信息。第二,導(dǎo)向濾波器。導(dǎo)向濾波器是Liu等[64]基于冗余提升不可分剪切波改進提出的一種保邊濾波器,作為融合規(guī)則可以較好地保留圖像細節(jié)并且可以一定程度地避免偽影現(xiàn)象。第三,平均梯度及其改進規(guī)則。平均梯度的優(yōu)勢在于能夠保留圖像的邊緣結(jié)構(gòu),且算法簡單快速。但是平均梯度會造成振鈴現(xiàn)象,影響最終的融合效果。Cheng等[65]在平均梯度的基礎(chǔ)上增加了對角梯度變換,改進后的平均梯度算法可以提取更多的邊緣并保留它們。第四,反銳化掩膜融合規(guī)則。這一方法通過提高高頻子帶系數(shù)來提高邊緣高對比度特征信息,比平均梯度的規(guī)則更加簡潔。該規(guī)則由Vishwakarma等[62]提出,并在該論文中應(yīng)用,融合效果較好,算法復(fù)雜度低。
在深度學(xué)習(xí)的發(fā)展歷程中,許多有價值的深度學(xué)習(xí)方法都被應(yīng)用到圖像融合算法當(dāng)中。例如深度神經(jīng)網(wǎng)絡(luò)DNN(deep neural network)、卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN),以及生成對抗網(wǎng)絡(luò)(generative adversarial net,GAN)等。深度學(xué)習(xí)的方法在圖像融合領(lǐng)域展現(xiàn)了良好的性能。
DenseNet是一種具有密集連接的卷積神經(jīng)網(wǎng)絡(luò)。Li等[66]在DenseNet基礎(chǔ)上提出了DenseFuse網(wǎng)絡(luò)模型。這是一種基于殘差網(wǎng)絡(luò)的圖像融合算法,能夠?qū)D像特征傳入更深層的網(wǎng)絡(luò)中,避免過快地出現(xiàn)梯度爆炸。網(wǎng)絡(luò)設(shè)計了更優(yōu)的規(guī)則以及兩個融合層,能夠從源圖像中繼承更多有用的feature,最后通過解碼層重構(gòu)融合圖像,得到融合結(jié)果。殘差塊(dense block)可以在編解碼網(wǎng)絡(luò)中保留更多的深度特征,以及在最終融合時保留所有顯著特征。此方法相對于現(xiàn)有的算法,在主觀評價于客觀評價兩個方面均有較好的水平。
Huo等[67]提出一種紅外和可見圖像融合的無監(jiān)督框架,該架構(gòu)通過兩個共享權(quán)重的dense network取得源圖像的深層特征,并直接將深層特征疊加作為融合層,最后對融合結(jié)果進行五次卷積重建融合圖像。這一網(wǎng)絡(luò)相對于其他融合網(wǎng)絡(luò),計算復(fù)雜度不高,融合結(jié)果與DenseFuse類似,但更著重于Vis和Ir的融合。
生成對抗網(wǎng)絡(luò)是Goodfellow在2014年提出的一種深度學(xué)習(xí)網(wǎng)絡(luò),GAN網(wǎng)絡(luò)強大的生成能力是它廣受關(guān)注的主要原因。2019年,Wei等[68]提出了FusionGAN網(wǎng)絡(luò)模型,這是首個使用GAN網(wǎng)絡(luò)完成紅外和可見光圖像融合任務(wù),其中生成器旨在生成具有主要紅外信息和更多可見梯度的融合圖像,而判別器旨在強制融合更多可見圖像中的細節(jié)。這使得最終的融合圖像能夠同時保持紅外圖像中的熱輻射和可見圖像中的紋理。FusionGAN作為一個端到端模型,避免了傳統(tǒng)算法設(shè)計復(fù)雜的活動水平測量和融合規(guī)則。融合結(jié)果具有清晰的突出目標(biāo)和豐富的細節(jié),整體結(jié)果優(yōu)于先進的算法。
2020年,Xu等[69]提出一種具有雙判別器的DDcGAN,該網(wǎng)絡(luò)用其中一個鑒別器判斷生成圖像與Vis圖像的真?zhèn)?,用另一個鑒別器判斷Ir與降采樣以后的生成圖像的真?zhèn)巍K惴ㄐЧ^好,但訓(xùn)練過程時間長、難度大。
同年Yu等[70]針對現(xiàn)有算法在多光譜與全色圖像融合中對全色圖像空間信息保留度低的問題,提出一種Pan-GAN網(wǎng)絡(luò),這是一種無監(jiān)督全色圖像銳化框架,這一框架由生成器、光譜判別器、空間判別器組成,算法結(jié)果優(yōu)秀,提高了融合圖像的空間信息。
Zhang等[71]提出了一種新的融合框架,具有多分類約束的生成對抗網(wǎng)絡(luò)(GANMcC),該融合框架將圖像融合轉(zhuǎn)化為多分布同時估計問題,以更合理的方式融合紅外和可見圖像。并且采用具有多分類的生成對抗網(wǎng)絡(luò)來同時估計可見光和紅外域的分布,其中多分類判別博弈會使融合結(jié)果的分布更加平衡,從而具有顯著的對比度和豐富的紋理細節(jié)。該融合框架對質(zhì)量較差的源圖像,例如過曝光圖像,仍能夠取得較好的融合結(jié)果。
Zhang等[72]提出了一種壓縮分解網(wǎng)絡(luò)(SDNet)用于多模態(tài)數(shù)字圖像的即時融合。該網(wǎng)絡(luò)將圖像融合分解為強度項和梯度項,使用自適應(yīng)的決策塊,依據(jù)像素尺度上的細節(jié)豐富度來決定梯度項分布的優(yōu)化程度,通過強度損失權(quán)重值,改變圖像不同部位強度信息的大小。該網(wǎng)絡(luò)具有較好的即時性。
Ma等[73]提出一種基于顯著目標(biāo)檢測的紅外和可見圖像融合網(wǎng)絡(luò),稱為STDFusionNet,它可以較好地保留紅外圖像中的熱目標(biāo)和可見圖像中的紋理結(jié)構(gòu)。STDFusionNet作為一種端到端模型,可以以隱式方式完成顯著目標(biāo)檢測和關(guān)鍵信息融合。算法的速度更快,并且融合結(jié)果看起來像高質(zhì)量的可見光圖像,且具有清晰的高亮紅外目標(biāo)。
NestFuse[74]是一種基于通道注意力和空間注意力的融合模型。算法首先對源圖像進行多尺度特征提取,通過融合策略來分別融合每個尺度下的特征,最后通過nest-connection解碼器重構(gòu)融合圖像。實驗表示對于一般源圖像,融合結(jié)果在可見光的細節(jié)部分和紅外的目標(biāo)特征部分均表現(xiàn)良好,但對低質(zhì)量圖像的融合能力不足。
SeAFusion[75]是一種高級視覺任務(wù)驅(qū)動的圖像融合框架。由一個輕量級的融合網(wǎng)絡(luò)和一個語義分割網(wǎng)絡(luò)組合而成。融合網(wǎng)絡(luò)同時接受內(nèi)容損失和語義損失的調(diào)整。整體網(wǎng)絡(luò)結(jié)構(gòu)較為簡單,但提供了一種全新的融合思路,并且實現(xiàn)了較好的融合結(jié)果。
以上深度學(xué)習(xí)類方法總結(jié)對比如表5。
表5 深度學(xué)習(xí)算法對比Table 5 Deep learning algorithm comparison
根據(jù)以上綜述內(nèi)容可以總結(jié)得到,紅外與可見光圖像融合在各方面的研究及應(yīng)用中仍有很大發(fā)展?jié)摿Γ嬖谝韵聠栴}亟待研究和解決:
(1)即時圖像融合
融合效果與融合時間始終是相互矛盾的,在實際應(yīng)用中,視頻融合的需求對融合速度的要求嚴(yán)格,因此,實時處理是圖像融合未來發(fā)展的重要趨勢。
(2)結(jié)合融合目的的融合方法
目前,大部分算法在嘗試提升基于評價指標(biāo)的融合效果,高評價指標(biāo)和是否利于后續(xù)圖像處理,例如語義分割、目標(biāo)檢測、目標(biāo)識別并不是線性相關(guān)的。通過融合目的直接指導(dǎo)圖像融合的方法是一個有意義的發(fā)展方向。
(3)惡劣條件下的圖像融合
目前的圖像融合算法對于極端條件的源圖像處理能力不高,針對此類圖像研究不多。通常需要先進行曝光修正再進行圖像融合。因此,如何實現(xiàn)極端條件的快速圖像融合是一個需要解決的問題。
(4)跨分辨率的圖像融合
在工程應(yīng)用中,通常紅外與可見光的分辨率是不同且相差較大的。目前大部分算法難以勝任。若先對紅外進行超分辨率重構(gòu)則會延長算法運行時間。因此如何直接融合不同分辨率的圖像在實際應(yīng)用中十分重要。
(5)全面、普適的評估準(zhǔn)則
恰當(dāng)、準(zhǔn)確的評估準(zhǔn)則對于圖像融合的算法性能的評估至關(guān)重要,目前的算法研究中,作者缺少合適、權(quán)威的準(zhǔn)則來對比不同算法的性能。