張麗霞,曾廣平,宣兆成
(1.天津職業(yè)技術(shù)師范大學(xué)信息技術(shù)工程學(xué)院,天津 300222;2.北京科技大學(xué)計算機與通信工程學(xué)院,北京 100083)
多源圖像存在的原因有二:(1)由于成像機理不同,同一場景下不同設(shè)備拍攝的圖像信息不同(如醫(yī)學(xué)圖像);(2)由于硬件設(shè)備的局限性,一次拍攝僅能采集有限的數(shù)據(jù)信息(如聚焦區(qū)域不同的照片)。多源圖像具有冗余和互補的特性,為了提高圖像的清晰度,增強圖像的識別度,學(xué)者們提出了圖像融合思想[1]:從2幅或多幅同一場景的多源圖像中提取清晰有用的信息,融合成信息完整的清晰圖像。融合的圖像克服了源圖像在物理屬性、分辨率和信息量等方面的局限性,抑制了噪聲,減少了決策過程中的不確定因素,增強了圖像信息聚集度,提供了更豐富的有用信息[2]。
圖像融合的研究至今已有40余年,研究方法已有很多,應(yīng)用領(lǐng)域也很廣泛。為了便于對圖像融合的深刻理解,本文參閱中外參考文獻,對圖像融合的典型方法、關(guān)鍵技術(shù)、常用評價指標(biāo)及其分類進行評述,并結(jié)合其影響因素和技術(shù)發(fā)展,從5個方面論述了亟待解決的問題。其中,本文的源圖像均來自于文獻[3],多聚焦圖像的融合結(jié)果由文獻[4]計算獲得,多模態(tài)圖像的融合結(jié)果由文獻[5]計算獲得。
眾所周知,灰度圖像是呈現(xiàn)黑色與白色之間不同級別顏色深度的圖像,主要為亮度信息。而彩色圖像的每個像素值包括了R、G、B 3個基色分量,每個分量決定了其基色的強度。因此,在圖像融合時,不同圖像采用不同的融合方法。本文對其分別進行了分析。在下文中,圖中的IX,IY均為輸入的源圖像,IF為融合結(jié)果。
通常,像素級圖像融合方法按照域的選擇分為空間域和變換域2大類[6],此分類方法過于泛化。由此,依據(jù)融合策略,將像素級圖像融合方法分為4類:直接操作像素點的空間域方法(Spatial Method);處理圖像變換后系數(shù)的多尺度多分辨率的變換域方法MST(Multi-Scale Transform Method);采用特定數(shù)學(xué)模型精準(zhǔn)提取圖像特征的基于模型的融合方法(Model-based Method);和2種或2種以上方法組合的混合融合方法(Hybrid Method)。表1列舉了4類方法及其包含的典型算法。
Table 1 Classification of multi-source image fusion methods and its classic algorithms
2.1.1 空間域方法
基于空間域的圖像融合方法的融合過程如圖1所示,直接操作圖像的像素值。最簡單的融合策略是最大值法和加權(quán)平均法,此2種方法計算簡單、運算速度快,能夠較好地保留結(jié)果圖像的整體效果,但是邊緣、輪廓等細節(jié)信息丟失嚴(yán)重。對此,人們提出基于信息統(tǒng)計的活動級方法,如文獻[7]利用空間頻率完成圖像融合??紤]到局部區(qū)域內(nèi)像素的相關(guān)性,基于區(qū)域分割的圖像融合也應(yīng)運而生,使得細節(jié)信息的提取效果有了很大的提高,例如,Zhang等[4]與Aslantas等[8]分別利用差分進化算法來自適應(yīng)確定圖像塊大小的融合方法均取得了較好的融合效果。
Figure 1 Fusion process of spatial method圖1 空間域融合方法的融合過程
主成分分析PCA(Principle Component Analysis)是一種典型的空間域方法,通過降維尋找圖像的主成分,根據(jù)主成分來確定各融合圖像的權(quán)重并完成融合。Wan等[10]提出了基于魯棒性的主成分分析RPCA(Robust Principle Component Analysis)的多聚焦圖像融合方法,采用滑窗技術(shù)和標(biāo)準(zhǔn)差參數(shù)對低秩分解得到的稀疏矩陣進行劃分生成決策圖完成圖像融合。除此之外,Mitianoudis等[11]提出的基于獨立成分分析ICA(Independent Component Analysis)的圖像融合方法和Jiang等[12]提出的基于形態(tài)學(xué)成分分析MCA(Morphological Component Analysis)的圖像融合方法等也都屬于空間域方法。
2013年,He等[13]提出圖像引導(dǎo)濾波GF(Guided Filtering)方法,利用像素間的線性關(guān)系,實現(xiàn)圖像間結(jié)構(gòu)的復(fù)制,達到保留邊緣、平滑噪聲的目的。由于計算復(fù)雜度低且邊緣清晰,GF被廣泛地應(yīng)用在圖像融合等圖像處理相關(guān)領(lǐng)域。Li等[14]首先將圖像引導(dǎo)濾波應(yīng)用到圖像融合并取得了較好的效果;Zhu等[15]提出了基于梯度域的圖像引導(dǎo)濾波的多尺度圖像融合方法;2019年,Zhang等[16]提出了交替引導(dǎo)濾波多聚焦圖像融合方法,但是由于圖像引導(dǎo)濾波方法使用了濾波器進行線性運算,所以部分邊緣偶有模糊現(xiàn)象。
除此之外,模糊集[17]、隨機場[18]等也用在了空間域圖像融合中??臻g域融合方法簡單直觀、融合速度快,適合實時處理。但是,基于簡單的疊加運算的融合規(guī)則會大幅度降低融合圖像的信噪比和對比度。
2.1.2 MST方法
變換域融合的處理對象是源圖像變換后的分解系數(shù)。其融合過程主要包括3步:首先利用變換算法將源圖像分解為高低頻率系數(shù);然后對不同的系數(shù)采用不同的融合策略,分層次分方向地完成融合;最后通過逆變換實現(xiàn)圖像的融合。MST融合方法的融合過程如圖2所示。其中,LX和LY分別為源圖像IX和IY分解后的低頻系數(shù)。HX和HY為分解后的高頻系數(shù)。LF和HF分別為融合后的低頻系數(shù)和高頻系數(shù)。
Figure 2 Fusion process of MST method圖2 MST融合方法的融合過程
金字塔變換是最早應(yīng)用于圖像融合中的多尺度變換方法。采用隔行隔列降2采樣獲得的一系列分辨率逐漸降低的圖像集合與分解獲得的低分辨率系數(shù)和高分辨率系數(shù),凸顯了圖像的重要特征和細節(jié)信息。金字塔算法較多,例如,拉普拉斯金字塔LP(Laplacian Pyramid)[19]、對比金字塔[20]、梯度金字塔[21]和形態(tài)學(xué)金字塔[22]等,均獲得了良好的融合效果?;诮鹱炙儞Q的融合方法計算效率非常高,融合效果較為理想,至今仍然被廣泛應(yīng)用。但是,金字塔分解也存有以下缺點:冗余分解,無方向性,隨著分解層的逐漸增加,分辨率會越來越小,邊界越來越模糊。
隨后,小波變換應(yīng)運而生,它將圖像分解為表示輪廓的低頻近似系數(shù)和表示圖像細節(jié)的多層3個方向(水平、垂直和對角)的高頻細節(jié)系數(shù),充分反映了源圖像的局部變化特征[23,24]。優(yōu)點是分解后信息無冗余,具有方向性,克服了基于金字塔變換方法的缺點[25]。但是,Li等[2]在多尺度變換實驗中驗證了小波平移不變性的重要性,不具備平移不變性的方法匹配不完好的圖像時效果不理想。由此,學(xué)者們提出了改進的小波變換,例如多小波[26]、雙樹復(fù)小波變換[27]、輪廓波[28]、曲線波[29]和剪切波[30]等,它們不但具有平移不變性,也具有方向選擇性。當(dāng)前,應(yīng)用最廣泛的是非下采樣輪廓波變換NSCT(Non-Subsampled Contourlet Transform)[31]和非下采樣剪切波變換NSST(Non-Subsampled Shearlet Transform)[32,33]。NSCT是在輪廓波基礎(chǔ)上提出的非降采樣變換,計算量大,耗時長,效率低。而NSST是在剪切波基礎(chǔ)上提出的非降采樣變換,速度快,具有多方向性,融合效果更理想。
除此之外,多尺度變換的分解層數(shù)直接影響著融合效果:分解層數(shù)越大,提取的細節(jié)信息越多,融合質(zhì)量越高,但是執(zhí)行時間也會隨之增加。如何平衡分解層、融合質(zhì)量和時間效率之間的關(guān)系成為亟待解決的問題。Li等[2]通過實驗驗證了多分辨率變換、小波基和分解層對融合效果的影響,結(jié)果表明4層是最佳選擇。Liu等[34]研究與稀疏表示法相結(jié)合的多尺度變換時,指出融合不同圖像的最優(yōu)分解層:多聚焦圖像融合為1層,而像醫(yī)學(xué)圖像等的多模態(tài)圖像融合為4層。
整體來看,MST方法的特征提取精準(zhǔn)度較高,融合效果較好,優(yōu)于空間域方法。但是,MST方法也存在一定的局限性:費時,實時性較差。
2.1.3 基于模型的融合方法
由于傳統(tǒng)的多尺度變換方法采用預(yù)定義的固定函數(shù)實現(xiàn)特征的提取,如空間頻率和梯度能量等,缺乏特征的泛化性。為了特征的自適應(yīng),學(xué)者們提出了一些自適應(yīng)提取圖像特征的新的數(shù)學(xué)模型應(yīng)用于圖像融合,例如,稀疏表示SR(Sparse Representation)、脈沖耦合神經(jīng)網(wǎng)絡(luò)PCNN(Pulse Coupled Neural Network),以及最新提出的基于卷積神經(jīng)網(wǎng)絡(luò)CNN(Convolutional Neural Network)的深度學(xué)習(xí)模型。為了便于與其他方法進行區(qū)分,將這些融合方法統(tǒng)稱為基于模型的融合方法。
(1)稀疏表示。
稀疏表示是在保留圖像細節(jié)特征的基礎(chǔ)上,將圖像有效地分解為一組非零原子的線性組合。過完備字典和稀疏表示模型是稀疏表示的核心內(nèi)容。
過完備字典為稀疏表示提供原子庫,是稀疏表示方法的基礎(chǔ)。一般來說,過完備字典的獲取有2種方法。一是針對某種特定類型的圖像,用已有的固定的信號模型構(gòu)造原子,簡單且易于實現(xiàn)。二是采用學(xué)習(xí)方法,例如奇異值分解K-SVD(K-Singular Value Decomposition)算法和PCA等,對大量的實驗樣本進行訓(xùn)練構(gòu)造字典,是一種自學(xué)習(xí)的字典,冗余度更高。稀疏表示模型選擇過完備字典中的小部分原子,采用某種線性組合重構(gòu)圖像,目的是降低數(shù)據(jù)維度和特征向量間的依賴性。目前,稀疏表示的模型有:SR基本模型[35]、組稀疏模型[37,38]、強健的SR RSR(Robust Sparse Representation)模型[39]和交叉稀疏表示JSR(Joint Sparse Representation)模型[40]等。
稀疏表示的融合過程如圖3所示,首先構(gòu)建過完備字典,接著依據(jù)過完備字典將源圖像轉(zhuǎn)換為一個由字典中原子線性組合的單尺度特征向量,然后對特征向量進行活動級測量和融合,重構(gòu)得到融合結(jié)果。
Figure 3 Fusion process of SR-based method圖3 基于稀疏表示的圖像融合過程
基于稀疏表示的圖像融合方法有很多。例如,2013年,Liu等[36]提出了基于自適應(yīng)空間域的稀疏表示的融合方法,解決了噪聲問題,其效果明顯優(yōu)于傳統(tǒng)方法的。尹雯等[35]利用高、低分辨率過完備字典計算獲取全色圖像和多光譜MS(Multi-Spectral)圖像的稀疏表示系數(shù)。張曉等[38]在2016年依據(jù)圖像塊間的相似性提出了基于結(jié)構(gòu)組稀疏表示的圖像融合方法。Zhang等[40]利用交叉稀疏表示模型完成了特征的抽取和融合。
稀疏表示的優(yōu)點是模型構(gòu)建簡單,易理解,對噪聲誤差的處理較理想。但是,稀疏表示方法復(fù)雜度高、計算效率低,模糊了源圖像中的細節(jié)信息,如邊緣和紋理。
(2)脈沖耦合神經(jīng)網(wǎng)絡(luò)。
脈沖耦合神經(jīng)網(wǎng)絡(luò)PCNN模型是通過對貓的視覺皮層神經(jīng)元脈沖串同步震蕩現(xiàn)象分析得到哺乳動物神經(jīng)元模型的基礎(chǔ)上提出的。由于PCNN模型的每個神經(jīng)元對應(yīng)一個像素,像素的清晰度由神經(jīng)元的點火次數(shù)確定。圖4為PCNN融合過程,通過比較輸入圖像的神經(jīng)元點火總數(shù)來確定清晰度。此方法具有提取局部細節(jié)信息能力強、目標(biāo)識別率高等特點,又由于圖像的清晰度的確定與圖像的紋理等特征無關(guān),所以,此方法具有一定的普適性,深受學(xué)者們的喜愛,并提出了很多PCNN方法[41 - 43]。
圖4中,TS[N]為某神經(jīng)元的點火總次數(shù),S∈{X,Y}表示源圖像的下標(biāo)。輸入圖像經(jīng)PCNN,通過比較點火總次數(shù)確定圖像的清晰區(qū)域。越清晰的像素點火次數(shù)越多。傳統(tǒng)的PCNN模型如圖5所示,由多個神經(jīng)元組成,包含多個環(huán)形結(jié)構(gòu),形成了制約關(guān)系。S為輸入圖像,Sij為像素位置(i,j)上的值。Fij和Lij分別為像素位置(i,j)上神經(jīng)元的反饋和連接輸入。Uij為內(nèi)部活動項。Yij用于判斷神經(jīng)元的狀態(tài)。Eij為動態(tài)閾值。而αF,αL,αE,VF,VL,VE,β,M,W都是可調(diào)節(jié)的參數(shù),其值影響結(jié)果精度。由此可知,傳統(tǒng)的PCNN方法的實現(xiàn)需由多個迭代計算組合而成,具有運算耦合度高、參數(shù)較多、耗時較長等缺點。
Figure 4 Fusion process of PCNN-based method圖4 基于PCNN圖像融合方法的融合過程
Figure 5 Diagram of traditional PCNN model圖5 傳統(tǒng)的PCNN模型示意圖
為了降低PCNN模型的耦合性和計算復(fù)雜性,文獻[42]提出了簡化的PCNN模型。簡化了反饋輸入、連接輸入和連接強度等,即減少了PCNN模型的迭代次數(shù)和參數(shù)個數(shù)。圖6為基于脈沖皮質(zhì)模型SCM(Spiking Cortical Model)的簡化的PCNN模型SPCNN(Simple PCNN),其輸入?yún)?shù)變少了,迭代計算減少了。
Figure 6 Diagram of SCM-based SPCNN model圖6 基于SCM的SPCNN模型示意圖
PCNN參數(shù)較多,其值是通過大量的訓(xùn)練獲取,而其融合結(jié)果和性能受參數(shù)值的影響較大,由此,學(xué)者們在研究SPCNN模型的基礎(chǔ)上,提出了自適應(yīng)確定PCNN參數(shù)的方法。例如,苗啟廣等[43]使用圖像逐像素的局部對比度設(shè)置PCNN對應(yīng)神經(jīng)元的鏈接強度;Ganasala等[44]采用特征激勵自適應(yīng)設(shè)置SPCNN的鏈接強度;文獻[45]采用空間頻率激勵自適應(yīng)設(shè)置PCNN的鏈接強度。但是,當(dāng)前方法自適應(yīng)設(shè)置的參數(shù)個數(shù)較少,尚未達到所有參數(shù)的自適應(yīng),所以,所有參數(shù)的自適應(yīng)是PCNN融合方法的未來研究方向。
(3)卷積神經(jīng)網(wǎng)絡(luò)。
卷積神經(jīng)網(wǎng)絡(luò)CNN是當(dāng)前圖像處理領(lǐng)域非常流行的模型之一。作為一種深度學(xué)習(xí)模型,CNN是基于GPU的并行計算,速度快,效率高。其特征提取是基于數(shù)據(jù)驅(qū)動的,經(jīng)大量數(shù)據(jù)樣本訓(xùn)練自動生成參數(shù)的值,通常數(shù)量級為上萬,所以CNN融合方法提取的特征具有很強的泛化性。且隨著網(wǎng)絡(luò)深度的加深,逐漸摒棄了物理等特性的影響,其特征越來越抽象,越來越精準(zhǔn),具有平移、旋轉(zhuǎn)和縮放不變性的特性。
Krizhevsky等[63]將CNN模型應(yīng)用于圖像分割,開啟了CNN在圖像領(lǐng)域的應(yīng)用。在過去的5年里,CNN模型被成功地引入到計算機視覺的各個方面,例如,臉部識別[64]、語義分割[65]和圖像超分辨率重建[66]等。2017年,Liu等[46]首次成功地將CNN應(yīng)用到圖像融合,開啟了CNN模型用于圖像融合的新篇章。Du等[49]為了融合多聚焦圖像,提出了多尺度CNN MSCNN(Multi-Scale CNN)的融合方法。2019年,Xia等[50]為融合醫(yī)學(xué)圖像,提出了改進的CNN模型。Mostafa等[51]提出了用于多聚焦圖像的集成CNN方法。圖7為基于CNN模型的圖像融合過程。CNN模型助力圖像融合是未來研究的熱點問題之一。
Figure 7 Fusion process of CNN-based method圖7 基于CNN模型的圖像融合過程
CNN圖像融合方法具有分層學(xué)習(xí)特征的能力,特征表達更具有多樣性,判別性能更強,泛化性能更好。其缺點是訓(xùn)練數(shù)據(jù)耗時較長,無專門的訓(xùn)練集。由于數(shù)據(jù)樣本的局限性,CNN通常針對專門圖像進行訓(xùn)練,所以普適性的CNN融合方法是一研究難題。
2.1.4 混合型融合方法
由于前文的方法都有優(yōu)缺點,為了獲得更好的融合效果,學(xué)者們提出了多種方法相結(jié)合的融合方法。例如,牛曉暉等[52]提出了離散小波變換DWT(Discrete Wavelet Transform)與PCA相結(jié)合的方法DWT+PCA,即近似系數(shù)采用PCA技術(shù),高頻細節(jié)系數(shù)采用自適應(yīng)局部區(qū)域方差的方法。Tian等[54]采用自適應(yīng)拉普拉斯金字塔算法求解小波細節(jié)系數(shù)的局部清晰度,在一定程度上提高保留的信息量和清晰度,降低扭曲程度。2015年,Liu等[34]提出了將多尺度變換和稀疏表示法相結(jié)合的多聚焦圖像融合方法,在保留了圖像的邊緣信息和梯度信息的基礎(chǔ)上,提高了圖像的空間細節(jié)信息量,提升了融合質(zhì)量。王威等[55]在2017年為提高空間分辨率,提出了基于引導(dǎo)濾波和稀疏表示的融合方法,通過引導(dǎo)濾波算法,將全色圖像作為向?qū)D,對多光譜亮度圖注入細節(jié),加強局部細節(jié),空間分辨率和光譜的保留度都優(yōu)于其它方法。除此之外,基于NSCT和稀疏表示的多聚焦圖像融合方法[57]、基于非下采樣雙樹復(fù)輪廓波變換NSDTCCT(Non-Subsampled Dual-Tree Complex Contourlet Transform)和稀疏表示的紅外和可見光圖像融合方法[58]等也取得了較好的效果。
PCNN模型與其他方法也有結(jié)合。文獻[59]提出PCNN與NSCT相結(jié)合的融合方法;文獻[60]提出NSST域下雙PCNN方法用于紅外與可見光圖像融合;文獻[61]給出NSCT域下稀疏表示與PCNN相結(jié)合的醫(yī)學(xué)圖像融合方法,這些方法從多層次多方向提取了圖像細節(jié),較好地改善了融合質(zhì)量。為進一步加快融合速度,提高融合質(zhì)量,學(xué)者們將自適應(yīng)PCNN與其他方法進行了結(jié)合。例如,Ganasala等[44]在NSST域下,采用特征激勵自適應(yīng)PCNN實現(xiàn)醫(yī)學(xué)圖像融合;戴文戰(zhàn)等[62]提出基于人眼視覺特性與自適應(yīng)PCNN的醫(yī)學(xué)圖像融合方法。
總之,混合型融合方法是融合了2種或2種以上的方法,各取所長,優(yōu)勢互補,提高了融合質(zhì)量。通?;旌闲偷娜诤戏椒▋?yōu)于單一融合方法。
彩色圖像色彩斑斕,細節(jié)豐富,貼近自然,深得眾人喜愛。為了保障融合方法的普適性,學(xué)者們在研究彩色圖像融合方法時,通常是在基于灰度圖像融合方法的基礎(chǔ)上展開,根據(jù)彩色空間的信息表達形式來設(shè)計。目前,已有了多種融合方法,通常分為2類:一類是多幅彩色圖像的融合,另一類是彩色圖像與灰度圖像的融合。
(1)2幅彩色圖像的融合。
圖8為2幅彩色圖像融合的示例。圖8a為近景聚焦的彩色圖像;圖8b為遠景聚焦的彩色圖像;圖8c為融合后的效果圖。融合結(jié)果由文獻[66]的CNN方法計算獲得。
Figure 8 Fusion of two color images圖8 2幅彩色圖像的融合
通常,彩色圖像按照三基色RGB分成三通道(R通道、G通道、B通道)分別融合,最后將三通道的融合結(jié)果合并成為彩色結(jié)果圖像。該方法實現(xiàn)較為簡單。但是,由于彩色圖像本身的復(fù)雜性和細節(jié)信息的多樣性,三通道圖像會出現(xiàn)偏色、失真等致命問題。而且,該方法運行時間較長,是普通灰度圖像融合時長的3倍。所以,另一種融合方法應(yīng)運而生。
公式I=0.2989R+0.5870G+0.1140B是在保留圖像清晰度和亮度的基礎(chǔ)上,將彩色圖像去除色彩信息,轉(zhuǎn)換為灰度圖像的方法。借助此式,先將輸入的彩色源圖像轉(zhuǎn)換為灰度圖像;然后根據(jù)灰度圖像的融合策略,獲得圖像的決策圖;最后根據(jù)彩色圖像的清晰度與灰度圖像的一致性,將灰度決策圖轉(zhuǎn)換為三通道決策圖,并采用加權(quán)平均法融合源圖像形成彩色融合圖像。
在變換域融合方法中,需要進行逆變換運算,所以,通常選擇三通道方法進行融合。而其他不涉及變換域的融合方法,在融合彩色圖像時,既可以采用三通道方法來實現(xiàn),也可以借助彩色空間轉(zhuǎn)換公式將彩色圖像轉(zhuǎn)換為灰度圖像來完成融合。
(2)彩色圖像與灰色圖像的融合。
圖9為灰度圖像與彩色圖像融合的效果。圖9a為核磁共振MR(Magnetic Resonance)圖像;圖9b為正電子發(fā)射計算機斷層顯像PET(Positron Emission computed Tomography)彩色圖像;圖9c為融合后的效果圖。此類圖像融合的結(jié)果由文獻[47]的CNN方法獲得。
Figure 9 Fusion of gray and color images圖9 灰度圖像與彩色圖像的融合
彩色圖像亮度信息與灰度圖像相對應(yīng),其分離通常利用顏色空間的轉(zhuǎn)換模型來實現(xiàn),例如,Lab色彩模型、YUV色彩模型和HSV色彩模型等。YUV色彩模型是常用方法之一,由亮度信號Y(Luminance)和2個色度(Chrominance)信號U、V組成。其中,U和V用于描述色彩和飽和度,即色彩信息。式(1)~式(3)為RGB轉(zhuǎn)換為YUV的過程,實現(xiàn)彩色圖像細節(jié)信息的分離,其中Y為提取的亮度信息。式(4)~式(6)為YUV轉(zhuǎn)換為RGB的過程,將融合的灰度圖像和分離的色度信號U、V融合,轉(zhuǎn)換為RGB圖像。
Y=0.299R+0.587G+0.114B
(1)
U=-0.147R-0.289G+0.436B
(2)
V=0.615R-0.515G-0.100B
(3)
R=Y+1.14V
(4)
G=Y-0.39U-0.58V
(5)
B=Y+2.03U
(6)
其融合過程如圖10所示。其中,IL為從彩色圖像IY提取的亮度灰度圖像。IF_G為灰度圖像IX和亮度圖像IL的融合結(jié)果。其融合過程包括3步:
Figure 10 Fusion process of gray and color images圖10 灰度圖像與彩色圖像的融合過程
(1)利用顏色空間轉(zhuǎn)換,將彩色圖像的亮度通道分離,形成單通道的灰度圖像。
(2)融合亮度通道的灰度圖像與輸入的單通道灰度圖像完成灰度圖像的融合。
(3)對融合的灰度圖像與彩色圖像分離的其他2種圖像通過顏色空間逆變換,形成RGB色彩空間的彩色圖像,即最終的融合圖像。
盡管此方法取得了較好的效果,但是它并沒有充分考慮彩色圖像的特殊性。又由于人眼視覺對色彩信息較為敏感,因此色彩信息的融合是未來的研究熱點之一。
圖像融合的一般過程分為特征提取、后期優(yōu)化和圖像融合3個步驟。特征提取是通過數(shù)學(xué)模型,從源圖像中提取圖像特征的過程,一般包括圖像分割、特征表示和特征選擇3步。后期優(yōu)化是利用中心像素與鄰域內(nèi)像素的關(guān)系對特征進行優(yōu)化。最后,圖像融合是采用加權(quán)平均等規(guī)則完成圖像的合并。其中,特征提取、后期優(yōu)化為研究的重點,也是學(xué)者們的關(guān)注點。
特征提取是通過一定的方法,從源圖像中提取能夠體現(xiàn)圖像特點的特征。一般包括3步:圖像分割、特征表示和特征選擇。
(1)圖像分割。
圖像分割是依據(jù)算法將圖像分割成獨立處理的單位,即粒度劃分。如圖11所示,通常分為2種類型:以像素(分解系數(shù))為單位的分割和以區(qū)域為單位的分割。
Figure 11 Diagram of segmentation granularity圖11 分割粒度示意圖
基于像素(分解系數(shù))的分割是以像素點(分解系數(shù))為單位分割的最簡單的方法。通過比較多幅圖像的對應(yīng)像素點的某特征值來獲取圖像的融合結(jié)果。此方法簡單、快速,但是效果不理想,對噪聲和誤匹配敏感,易出現(xiàn)模糊區(qū)域。
基于區(qū)域的分割是根據(jù)區(qū)域相關(guān)性將多個像素(分解系數(shù))組合成一組。基于固定尺寸的劃分被稱為基于窗口的分割,是按照一定的算法將圖像(分解系數(shù))直接分割成相同大小的塊,通常為3×3,5×5或者7×7。例如Zhan等[67,68]采用了7×7的固定尺寸的分割方法,但此方式?jīng)]考慮內(nèi)容間關(guān)系。自適應(yīng)分割是以內(nèi)容相關(guān)性計算出一定準(zhǔn)則下塊的最優(yōu)尺寸[8],例如以圖像中具體對象為單位分割,在一定程度上考慮了圖像內(nèi)容的相關(guān)性,融合效果優(yōu)于其他方法,但塊效應(yīng)明顯。
滑窗技術(shù)是另一種分割方法,即重疊的分區(qū)技術(shù),樣本像素點的特征值是以此樣本為中心的區(qū)域特征值。此方法避免了塊效應(yīng),但是計算效率不高,原因是塊數(shù)較多。假設(shè)圖像的大小為H×W,滑窗大小為n×n,則能從該圖像中提取出的塊數(shù)T可用式(7)求得。
(7)
(2)特征表示。
特征表示是從前期結(jié)果中獲得能夠表達圖像特征的表達式,通常被稱為活動級。常用的活動級為基于自適應(yīng)區(qū)域或固定窗口的信息統(tǒng)計,充分考慮了圖像內(nèi)容的相關(guān)性。Li等[6]采用空間頻率SF(Spatial Frequency)作為活動級用于測量圖像塊的清晰度;Eltoukhy等[9]采用梯度能量EOG(Energy Of Gradient)作為活動級測量圖像的特征。為測量不同活動級對融合質(zhì)量的影響,2007年,Huang等[69]評述了改進的拉普拉斯能量和SML(Sum-Modified-Laplacian)、拉普拉斯能量EOL(Energy Of Laplacian)、梯度能量EOG和空間頻率SF等作為活動級的優(yōu)缺點。在不考慮執(zhí)行時間時,SML的效果最佳。2015年,為了抑制噪聲的影響,Zhan等[67]將相位一致性作為活動級測量多聚焦圖像的聚焦度,采用最大值法實現(xiàn)融合??紤]到人類視覺對圖像灰度的局部對比敏感度不同的情況,蒲恬等[70]選取了基于小波變換的對比度的絕對值表示特征。
除此之外,不同的數(shù)學(xué)模型有不同的特征表示。在PCNN方法中,利用神經(jīng)元的點火次數(shù)來表示圖像的特征,像素點越清晰,點火次數(shù)越多,反之亦然;在CNN方法中,通過卷積和池化操作,獲得圖像的特征圖,表征了圖像的清晰程度;在SR方法中,活動級測量分別為L0范式、L1范式和L2范式。
(3)特征選擇。
特征選擇采用某種數(shù)學(xué)方法對特征值進行比較和標(biāo)注,形成圖像融合的權(quán)值圖,其值為二值圖,通常被稱為融合決策圖。如圖12所示。圖12a為左聚焦源圖像,圖12b為右聚焦源圖像,圖12c為融合決策圖。結(jié)果由文獻[8]方法計算獲得。
Figure 12 Fused decision diagram圖12 融合決策圖
特征選擇通常采用最大值、絕對值最大值或加權(quán)平均等方法。Zhan 等[68]采用最大值法比較活動級EOL的值;Li等[37]提出了基于加權(quán)平均的引導(dǎo)濾波的融合規(guī)則。在PCNN模型中,采用點火總次數(shù)最大值法完成像素的選擇。SR模型中,常用的融合規(guī)則是最大值法。例如,Liu等[36]采用了基于L1范式的最大值法實現(xiàn)自適應(yīng)稀疏表示特征的選擇,實現(xiàn)了MST中低頻系數(shù)向量的融合。在CNN中,活動級為全連接輸出的特征圖,Liu等[46]采用了逐特征值最大值法實現(xiàn)特征選擇。
混合型融合方法采用多種特征表示和特征選擇策略。Liu等[34]在MST和SR相結(jié)合的方法中采用最大值與加權(quán)平均的規(guī)則分別完成不同系數(shù)的融合;文獻[61]的低頻子帶采用L1范式取大的規(guī)則,高頻子帶利用系數(shù)點火總次數(shù)最大值規(guī)則分別完成系數(shù)選擇;在文獻[62]的融合方法中,低頻子帶的活動級為區(qū)域能量和梯度奇異值的結(jié)合,采用差異比取大的規(guī)則完成選取,高頻子帶以PCNN迭代200次后的每個系數(shù)點火總次數(shù)取大的規(guī)則來選取。
特征表示和特征選擇通常被稱作融合策略。在同等條件下,不同的融合策略有不同的融合結(jié)果。為了取得更好的融合結(jié)果,融合策略一直是學(xué)者們研究的重要方向之一。
決策圖是源圖像在融合圖像時的權(quán)重,是經(jīng)融合策略計算獲得的。由于初始決策圖存在大量孔洞或邊界模糊、斷裂等問題,所以,為了提升圖像融合效果,獲得清晰的融合圖像,需在圖像融合之前優(yōu)化決策圖,消除噪聲,此過程稱為后期優(yōu)化。常用的方法有眾數(shù)濾波(Majority Filter)、圖像引導(dǎo)濾波和形態(tài)學(xué)方法。
(1)眾數(shù)濾波。
眾數(shù)濾波是最常用的優(yōu)化方法之一,以塊為單位,利用相鄰像素之間的相關(guān)性處理像素。判斷準(zhǔn)則是:如果中心像素(分解系數(shù))來源于圖像IX,而相鄰像素(分解系數(shù))大部分來源于圖像IY,則中心像素(分解系數(shù))改為來源于圖像IY,反之亦然,目的是填充決策圖的小孔洞。
(2)圖像引導(dǎo)濾波。
圖像引導(dǎo)濾波GF是依據(jù)像素與其鄰近像素的線性關(guān)系,利用圖像結(jié)構(gòu)一致性原理,將源圖像的結(jié)構(gòu)信息復(fù)制到?jīng)Q策圖的過程。引導(dǎo)圖像提供結(jié)構(gòu)信息,輸入圖像利用引導(dǎo)圖像像素間的線性關(guān)系修改圖像,其目的是實現(xiàn)圖像結(jié)構(gòu)和邊界的復(fù)制。
(3)形態(tài)學(xué)方法。
形態(tài)學(xué)方法是以形態(tài)表示為基礎(chǔ),用結(jié)構(gòu)元素去度量和提取圖像中的對應(yīng)元素,達到對圖像處理的目的。原理是利用基礎(chǔ)運算(腐蝕和膨脹)實現(xiàn)消除小孔洞、平滑邊界和連接邊緣等操作。
此3種優(yōu)化方法都取得了較好的效果,在實際中得到廣泛應(yīng)用。例如,Li 等[14,68]分別引入圖像引導(dǎo)濾波(GF)優(yōu)化決策圖。Li 等[71]根據(jù)局部融合權(quán)重一致的原則,采用形態(tài)學(xué)方法的膨脹填充或腐蝕刪除小區(qū)域,完成了結(jié)構(gòu)一致性的檢驗。
融合質(zhì)量的好壞需從以下3方面來評價:(1)所有源圖像的清晰區(qū)域是否都保留;(2)冗余信息和噪聲是否都清除;(3)融合后是否加入額外噪聲,以及對匹配不完美圖像處理的魯棒性。目前,評價方法主要分為2種:主觀評價和客觀評價。
主觀評價是根據(jù)觀察者的主觀感知對圖像進行評估,例如邊緣是否清晰,所有對象是否清晰,對比度是否降低,有沒有引入噪聲等。通常,主觀評價的尺度采用5分制(很差、差、一般、好和非常好)的評分標(biāo)準(zhǔn),分別用1~5來表示(國際上規(guī)定的圖像評價五級制)。但是,受一定因素的影響,主觀評價方法并沒有得到大規(guī)模應(yīng)用,其原因如下:
(1)評價者必須具備專業(yè)的背景知識,對圖像很熟悉才能從質(zhì)和量方面對圖像進行評價。而且,如果2幅圖像的差異細微,評價者難以用肉眼區(qū)分。
(2)環(huán)境因素,例如,顯示屏分辨率、評價者與屏幕的距離和光線強弱等都會影響人的感觀和判斷。
(3)組織開展主觀評價成本高,需要人力、物力和財力的支持。因此,當(dāng)前的主觀評價局限于部分專家和實驗人員完成可靠性和魯棒性的簡單評估。
客觀評價是利用某種數(shù)學(xué)算法對圖像質(zhì)量進行定量評價。均方差MSE(Mean Square Error)、峰值信噪比PSNR(Peak Signal-to-Noise Ratio)和互信息MI(Mutual Information)等方法簡單、易于實現(xiàn),是最常用的客觀評價指標(biāo)。Xydeas等[72]提出的基于邊緣相似性的客觀評價指標(biāo),不僅考慮邊緣的方向,同時也考慮了粗細程度。王超等[73]設(shè)計了比較源圖像和融合圖像的梯度場的相似性來評價融合效果。羅曉清等[74]設(shè)計了一種基于區(qū)域相似性的評價指標(biāo),通過綜合加權(quán)該區(qū)域圖像的灰度、紋理和邊緣等信息,計算該區(qū)域的相似性。羅蘭等[75]提出了多尺度局部方法的圖像融合標(biāo)準(zhǔn),通過分析不同尺度的分解圖像,層層比較源圖像和融合圖像的相似性,最后合并所有層的相似度,實現(xiàn)最終圖像評價。
客觀評價方法較多,人們通常都是根據(jù)經(jīng)驗來選擇。為了有針對性地選取,部分專家對評價指標(biāo)進行了分類。表2列舉了常用的2種分類方法的對應(yīng)關(guān)系。
Table 2 Popular assessment metrics
第1種是Jagalingam等[76]從有無參考圖像方面對評價指標(biāo)進行分類,分為全參考圖像的評價方法、半?yún)⒖紙D像的評價方法和無參考圖像的評價方法。全參考圖像的客觀評價指標(biāo)有均方根誤差RMSE(Root-Mean-Square Error)和MI等,無參考圖像的評價指標(biāo)有標(biāo)準(zhǔn)差和熵等。而半?yún)⒖紙D像評價指標(biāo)幾乎沒有。由于融合圖像的參考圖像難以實現(xiàn),所以全參考圖像評價指標(biāo)的值為源圖像與融合圖像的計算結(jié)果。
Liu等[77]將客觀評價方法分為4類:(1)基于信息理論的評價指標(biāo):標(biāo)準(zhǔn)差、信息熵和互信息;(2)基于圖像特征的評價指標(biāo):空間頻率、梯度和相位一致性;(3)基于結(jié)構(gòu)相似性的評價指標(biāo):基于多尺度結(jié)構(gòu)相似性的客觀評價指標(biāo)和基于結(jié)構(gòu)相似性矩陣的客觀評價指標(biāo);(4)基于人類視覺的評價指標(biāo):Chen和Varshney等人提出的人類視覺的評價指標(biāo)和Chen和Blum等人提出的人類視覺的評價指標(biāo)。此分類方法是大多數(shù)研究者選擇評價指標(biāo)的核心依據(jù)。
除此之外,張小利等[78]從原理上把評價指標(biāo)分為3種:基于統(tǒng)計特征的評價指標(biāo)(均方差、峰值信噪比、空間頻率、平均梯度和相關(guān)系數(shù))、基于信息量的評價指標(biāo)(信息熵、互信息)和基于人類視覺系統(tǒng)的評價指標(biāo)(基于邊緣信息的客觀評價指標(biāo)、結(jié)構(gòu)相似模型和基于顯著性的集合測評法等)。
目前,為多方位評價融合結(jié)果,通常依據(jù)Liu等[77]分類法,從不同角度選擇客觀評價指標(biāo)。例如,Liu等[46]依據(jù)Liu分類法,選取了4個評價指標(biāo):歸一化互信息、梯度、Yang的結(jié)構(gòu)相似性和Chen-Blum的人類視覺感知。文獻[79]也按照Liu的分類,選擇了歸一化互信息、非線性相關(guān)信息熵、平均梯度、相位一致性、Yang的結(jié)構(gòu)相似性和Chen-Blum的人類視覺感知6個評價指標(biāo)。
多源圖像融合方法已被廣泛應(yīng)用到很多領(lǐng)域,如攝影攝像、安保系統(tǒng)和醫(yī)學(xué)等。表3為3個常見領(lǐng)域圖像融合的典型方法及未來發(fā)展方向。
Table 3 Typical fusion methods and future development trends in various fields
攝影攝像是多聚焦圖像應(yīng)用領(lǐng)域之一。其使用的融合技術(shù)是提取多幅圖像的聚焦區(qū)域,融合成一幅全聚焦圖像,相當(dāng)于擴大了鏡頭的景深,如圖13所示。圖13a為左聚焦圖像,圖13b為右聚焦圖像,圖13c為融合結(jié)果。其核心思想是鑒別圖像中的清晰區(qū)域,融合清晰區(qū)域,合并成一幅全清晰圖像。用于測量聚焦區(qū)域的活動級(又被稱作聚焦度),常用的聚焦度有空間頻率、梯度能量等。其融合方法囊括了前文的4種方法,融合效果已滿足了人們的視覺要求。
Figure 13 Example of photographic image fusion圖13 攝影攝像圖像融合示例
伴隨著技術(shù)的發(fā)展,攝影攝像應(yīng)用越來越廣泛,人們對圖像融合提出了更高的要求。未來攝影攝像圖像融合的研究主要有2大方向:(1)將圖像融合方法嵌入到電子產(chǎn)品中,用軟件彌補硬件的不足,實現(xiàn)一站式圖像融合,減少圖像處理的復(fù)雜度,縮短圖像處理時間;(2)由于環(huán)境因素的影響,例如,天氣變化、光照變化,以及移動物體的參與等噪聲,嚴(yán)重影響了圖像的質(zhì)量,如何改進融合方法,提升對不完美狀態(tài)圖像處理的魯棒性是未來研究的方向之一。
由于成像機理的不同,不同模態(tài)的圖像對場景的關(guān)注點存在顯著差異,單一類型圖像往往無法提供全面的信息。如圖14所示的醫(yī)學(xué)領(lǐng)域中的圖像,圖14a為展示人體骨骼和植入物位置信息的計算機斷層掃描CT(Computed Tomography)圖像,圖14b為顯示人體軟組織細節(jié)信息的MR圖像,圖14c為融合結(jié)果。圖15所示為夜視場景下的圖像,圖15a為紅外圖像,圖15b為可見光圖像,圖15c為融合結(jié)果。由于圖像的互補性和冗余性,最常用的方式是與多尺度變換方法相結(jié)合的基于模型的混合式融合方法。
Figure 14 Example of medicine image fusion圖14 醫(yī)學(xué)領(lǐng)域圖像融合示例
Figure 15 Example of image fusion in security field圖15 安保領(lǐng)域圖像融合示例
未來多模態(tài)圖像融合的研究方向有3個:首先是誤匹配的處理。多模態(tài)圖像是利用不同設(shè)備、不同參數(shù)對同一對象(場景)的多次拍攝而獲得,其結(jié)果將導(dǎo)致源圖像的空間位置存有偏差,當(dāng)前的實驗圖像都是經(jīng)過精確配準(zhǔn)的,所以,實現(xiàn)配準(zhǔn)與融合一體化的方法是未來的挑戰(zhàn)。第2是實時處理。由于安保系統(tǒng)需及時了解場景的詳細信息,而紅外線和可見光圖像的成像原理不同,將紅外線拍攝的人物及時定位到可見光拍攝的場景中是亟待解決的問題。第3是多幅圖像的快速融合。醫(yī)學(xué)領(lǐng)域中的PET、MR、CT等圖像都具有顯著特征,將多于2幅以上的多源圖像快速融合,更便于臨床上病情的診斷。
隨著技術(shù)的發(fā)展,圖像融合的方法越來越多,圖像融合的效果已達到了很高的水平。但是,當(dāng)前還存在一些問題亟待研究和解決。
(1)從算法的可靠性和魯棒性來考慮,當(dāng)前的方法需引入新的數(shù)學(xué)模型或理論。
為了克服環(huán)境等因素造成的圖像模糊或扭曲等問題,圖像拍攝前需做大量的準(zhǔn)備:盡量減少移動對象的數(shù)量、選擇適宜的天氣和適宜的光線等。為提高融合方法的性能,應(yīng)借助更新的數(shù)學(xué)理論或模型,設(shè)計滿足更多類型圖像和不完美配準(zhǔn)圖像融合的方法,進一步提升算法的可靠性和魯棒性。
(2)從時間效率角度考慮,當(dāng)前的方法需進一步改進和優(yōu)化。
當(dāng)前大部分方法僅在實驗室完成,設(shè)計目的是追尋融合圖像的質(zhì)量更優(yōu),對時間成本考慮較少。隨著社會的發(fā)展,人們對圖像處理時間的容忍度越來越短,希望能夠?qū)崿F(xiàn)實時融合。所以,在以后的研究中,需拓寬思路,引入概率論等理論概念,改進和優(yōu)化融合策略,優(yōu)化融合過程,實現(xiàn)一站式的快速融合,提高方法的時間效率。這在實際應(yīng)用方面具有很大的價值,也是富有挑戰(zhàn)性的課題之一。
(3)從數(shù)據(jù)特征方面來看,特征提取應(yīng)更加多元化。
目前多源圖像融合時,提取的特征多為單一特征,例如,梯度能量、方差、空間頻率和拉普拉斯能量等。并且針對不同模態(tài)圖像,提取的特征也不一樣。除此之外,當(dāng)前方法的特征是通過理論分析人為定制的,沒有考慮圖像特征的語義。而深度學(xué)習(xí)的基本思想是從語義角度構(gòu)建具有多個層次的學(xué)習(xí)模型,通過自主學(xué)習(xí)提取多層次的特征,不需要預(yù)先對圖像進行分割。所以,如何使用深度學(xué)習(xí)實現(xiàn)無監(jiān)督精準(zhǔn)地提取顯著特征是值得研究的一個熱點問題。
(4)從算法的普適性考慮,特征提取需更加精準(zhǔn)。
由于不同圖像具有不同的特征,所以,當(dāng)前大部分算法都具有針對性,例如,面向多模態(tài)圖像、面向多聚焦圖像等。個別具有通用性的算法也是基于灰度圖像展開的,特征的提取也僅僅考慮了灰度圖像。而彩色圖像的融合通常是借助灰度圖像來實現(xiàn)。為此,在未來的研究中,改進特征的數(shù)學(xué)模型,提升特征精準(zhǔn)表達,提升方法的普適性,既滿足不同模態(tài)灰度圖像的融合效果,同時也提升彩色圖像的融合效果,是亟待解決的問題之一。
(5)從評估角度考慮,評估方法需進一步規(guī)范化。
評價指標(biāo)是衡量融合方法的唯一途徑。目前,人們通常根據(jù)經(jīng)驗選擇評價指標(biāo)。所以,為了更好地客觀評價圖像質(zhì)量,后續(xù)研究側(cè)重于以大數(shù)據(jù)和多類型圖像為基礎(chǔ),規(guī)范化選取規(guī)則,遴選出多項指標(biāo)組成的綜合評價指標(biāo),規(guī)范化評價標(biāo)準(zhǔn),提升評價質(zhì)量。
(6)為提升應(yīng)用范圍,當(dāng)前的方法應(yīng)將配準(zhǔn)與融合相結(jié)合實現(xiàn)一站式融合。
當(dāng)前圖像融合研究所用的實驗樣本均為經(jīng)像素級或亞像素級配準(zhǔn)的圖像,融合方法僅考慮特征的提取,無需關(guān)注空間位置是否對齊、是否變形和扭曲等問題。而在現(xiàn)實生活中,完好配準(zhǔn)的圖像少之又少,為了方法的普適性,應(yīng)將圖像配準(zhǔn)和圖像融合相結(jié)合作為研究目標(biāo),實現(xiàn)一站式融合,降低輸入圖像的要求,進一步擴大融合圖像的范圍。