毛義坪 馬茂源
(重慶師范大學(xué)計算機(jī)與信息科學(xué)學(xué)院 重慶 401331)
近年來,圖像融合成為了圖像處理的一個特別重要的子領(lǐng)域,同時也是研究者們的熱點(diǎn)課題[1]。圖像融合是將同一場景的兩幅或者多幅附帶不同信息圖像融合成一幅圖像的過程。融合后的圖像比原始單個圖像包含更多的信息,及融合后的圖像具有每個原始圖像的能量。由于視覺成像的相機(jī)景深是有限的,所以不能完美地使相機(jī)成像里的每個部分都聚焦。因此只要相機(jī)聚焦了某個點(diǎn),相應(yīng)的其他部分就不能聚焦。不在聚焦范圍內(nèi)的部分給人的感覺就是模糊不清的。多聚焦圖像融合技術(shù)就是研究這樣的實(shí)際的問題,目的是使圖像的每個部分清楚。在此技術(shù)上,同一場景的每個原始圖像聚焦點(diǎn)不同。同時,多聚焦圖像融合技術(shù)也是圖像融合技術(shù)的一個子塊,大多數(shù)多聚焦圖像融合算法簡單修改或不改也可以用到其他的圖像融合上。比如,紅外與可見光圖像融合、多模態(tài)醫(yī)學(xué)圖像融合等。反之亦然。從某角度講,研究多聚焦融合是圖像處理中比較熱門的問題。
幾十年來,研究者們提出了很多圖像融合的可行方法,簡單地可以分為兩類,即變換域法和空域法[2]。最早提出圖像融合的變換域法是基于多尺度分解(multi-scale transform,MST)的算法。其中最早基于拉普拉斯金字塔變換[3]的方法已經(jīng)提出三十多年的歷史。其他經(jīng)典的基于多尺度變換方法也相繼提了出來,如:基于離散小波的方法(discrete wavelet transform,DWT)[4]、基于雙樹復(fù)小波方法[5]。在高維情況下,小波分析不能充分利用數(shù)據(jù)本身的幾何特性,不能用最優(yōu)的或最稀疏的函數(shù)去表示信號,不具有平移不變性。因此,二十世紀(jì)后學(xué)者們提出了多尺度幾何分析(multi-scale geometric analysis,MGA),目的是發(fā)展最新最優(yōu)的高維信號表示法。該方法也應(yīng)用到了圖像融合領(lǐng)域。2007年,Nencini等[6]提出基于曲波圖像融合方法;2009年,Zhang等[7]提出了基于無下采樣輪廓波方法。通常上述基于多尺度分析方法一般有三個步驟:變換圖像、融合系數(shù)、反變換重組圖像[8]。一般被變換后的圖像分為高頻系數(shù)和低頻系數(shù),低頻是對原始圖像的近似,高頻是圖像的細(xì)節(jié)。除了分解方法以外,系數(shù)融合也對融合質(zhì)量好壞有比較大的影響。在大多數(shù)的基于多尺度分解的方法中,系數(shù)的融合規(guī)則是高頻取絕對值最大,低頻取均值。
近幾年來,學(xué)者提出了一種新的基于變換域的方法[9-11],并且迅速成為了圖像融合領(lǐng)域熱門方法。與多尺度分析方法不同的是,此方法利用比較先進(jìn)的信號表示理論把原始圖像變換成單一尺度特征空間,如獨(dú)立成分分析理論、稀疏表示理論(sparse representation,SR)。為了保證融合圖像結(jié)果的平移不變性,此類方法通常會用到滑動窗口技術(shù)。最重要的問題是探索最有效的特征域來表示圖像的高頻信息?;谙∈璞硎纠碚揫10]的圖像融合技術(shù)就是把圖像塊映射到稀疏領(lǐng)域,用稀疏系數(shù)的L0范數(shù)來表示圖像塊的重要信息。自從2010年基于稀疏表示的方法提出,很多研究者對其十分感興趣,紛紛提出一些新的或改進(jìn)的算法。有些是改進(jìn)求稀疏解的算法,如正交匹配追蹤[12],有些是改進(jìn)字典的方法,如,Yin[13]提出基于多尺度學(xué)習(xí)字典的方法。組成一個好的字典是融合質(zhì)量的關(guān)鍵。為了提高字典的有效性,Kim[14]提出了基于局部塊字典的方法。由于局部塊字典是直接提取于源圖像,難免有些冗余和相應(yīng)的效應(yīng)。為了降低字典的冗余度提高相應(yīng)的緊湊性。2016年,Kim等[15]提出了基于聯(lián)合塊聚類的學(xué)習(xí)字典,其原理是先對原始圖像塊聚類(水平邊緣、垂直邊緣、平坦邊緣)分別組成一個子字典,然后對子字典組成的母字典用PCA分析法進(jìn)行分析,最終得到一個緊湊的字典。此方法比以前的字典效率明顯提高。更多基于稀疏表示的方法可以參考文獻(xiàn)[16]。
空域法圖像融合方法是基于圖像空域來處理的,不用對圖像進(jìn)行某種轉(zhuǎn)換或映射到其他空間的形式。最簡單的空域法就是均值法,把原始圖像對應(yīng)像素點(diǎn)相加除以原始融合圖像的數(shù)目。當(dāng)然這樣的方法會丟失很多細(xì)節(jié)。早期空域法是把圖像分塊,然后比較原始圖像對應(yīng)位置的聚焦程度,聚焦值大的塊作為融合圖像的相應(yīng)塊。以此類推,比較所有原始塊。聚焦程度一般采用空間頻率、拉普拉斯算子和、方差等表示[17]。此類方法對融合結(jié)果有較大的影響,比如遇到復(fù)雜圖像,不能良好地區(qū)分到底哪塊是聚焦圖像塊,而且很容易引入塊效應(yīng)。由于手動分塊會產(chǎn)生上述問題,Aslantas等[18]提出了采用差分進(jìn)化算法自適應(yīng)分塊算法,彌補(bǔ)了手動分塊算法的不足。相應(yīng)的還有基于形態(tài)學(xué)的四叉樹結(jié)構(gòu)聚焦檢測法[19],它能靈活地選擇原始圖像塊,比原始手工分塊的融合效果提高了不少。其他類型的空域法是基于圖像的分割[20]。分割方法與基于分塊法的道理類似,只是融合結(jié)果對分割精度的依賴性比較高,即要求盡量清楚分割聚焦區(qū)與非聚焦區(qū)域。2015年,Liu等[21]提出了基于DSIFT(Dense scale invariant features transform)的多聚焦圖像融合,其融合方法是用DSIFT對原圖做活躍程度度量,結(jié)合滑動窗口技術(shù)和一定策略形成決策圖,最后通過加權(quán)融合得到融合圖像。該算法克服了塊效應(yīng)和一些傳統(tǒng)算法的缺點(diǎn),得到了很好的融合效果。
上述基于多尺度分析方法中,由于低頻按平均值來融合,所以結(jié)果圖像對比度很容易降低,相應(yīng)的低頻信息就丟失了。基于稀疏表示的方法中,字典一般情況表達(dá)能力不足,相應(yīng)的融合圖像的紋理易丟失,且此方法時間復(fù)雜度較高,不能用到實(shí)時項目中。早期空域法是通過分塊或基于圖像分割,可能引起塊效應(yīng)果區(qū)域模糊。為了克服這些問題,本文提出基于高斯拉普拉斯算子(LOG)的多聚焦融合算法。首先利用高斯拉普拉斯算子度量原始圖像的活躍度;為了不引入塊效應(yīng),采用滑動窗口技術(shù)得到?jīng)Q策圖;最后通過決策圖對原始圖像加權(quán)的方式得到融合圖像。實(shí)驗(yàn)結(jié)果驗(yàn)證了其有效性。
在圖像處理中,高斯拉普拉斯算子主要作為邊緣檢測之一,對噪聲與離散點(diǎn)的圖像有一定的魯棒性。如果圖像聚焦,圖像中的邊緣即那些灰度發(fā)生跳變的區(qū)域就會更亮,所以把高斯拉普拉斯算子應(yīng)用在度量圖像活躍程度中。
高斯卷積函數(shù)定義為:
(1)
原圖像f(x,y)與高斯卷積可以定義為:
Δ|Gσ(x,y)*f(x,y)|=|ΔGσ(x,y)|*f(x,y)=
LOG*f(x,y)
(2)
LOG可以通過先對高斯函數(shù)進(jìn)行偏導(dǎo)操作,然后進(jìn)行卷積求解,公式表示為:
(3)
(4)
因此LOG核函數(shù)定義為:
(5)
為了編程方便,高斯拉普拉斯模板如圖1所示。
圖1 高斯拉普拉斯模板
由于高斯拉普拉斯算子在圖像中的邊緣即那些灰度發(fā)生跳變的區(qū)域十分敏感,于是將其應(yīng)用到多聚焦圖像融合中,用于度量圖像活躍程度。塊內(nèi)絕對值越大,證明圖像越活躍。
這里以融合兩幅圖像為例,多幅圖像可以以此類推。(1) 首先對原始圖像O1進(jìn)行高斯拉普拉斯算子變換,得到高斯拉普拉斯算子變換矩陣O11。(2) 取O11矩陣的絕對值,得到|O11|。(3) 最后|O11|為聚焦度量圖A1。同理,對原始圖像O2操作得到其圖像的聚焦度量圖A2。然后通過一定策略比較聚焦度量圖得到?jīng)Q策圖。
文獻(xiàn)[21]提出了借助滑動窗口技術(shù)比較度量圖法。單獨(dú)像素點(diǎn)的比較容易受奇異點(diǎn)的影響,為了進(jìn)一步提高圖像區(qū)域的聚焦度量,采用分塊與滑動窗口配合法。比較聚焦度量圖A1、A2相同坐標(biāo)的塊,塊內(nèi)所有值之和大的,相應(yīng)的得分圖區(qū)域+1,最終通過得分圖來形成決策圖。具體形成過程如下:
圖2 聚焦得分示意圖
(3) 根據(jù)聚焦得分圖M1、M2,可以把原始圖像對應(yīng)像素分為聚焦、散焦、不確定。對于原始圖O1像,分類規(guī)則為:
(6)
對于原始圖像O2,分類規(guī)則為:
(7)
對于上述分類規(guī)則,O1(x,y)、O2(x,y)、M1(x,y)、M2(x,y)表示為對應(yīng)的像素點(diǎn)。為了嚴(yán)謹(jǐn),只有同時滿足M1得分和M2不得分的情況下O1(x,y)才聚焦,O2(x,y)同理,否則為不確定。
然后對聚焦像素賦值1,對不聚焦或者不確定的賦值為0,由于圖像復(fù)雜且不確定,賦值后的聚焦圖會出現(xiàn)一些小洞,然后用MATLAB自帶函數(shù)(bwareaopen)修復(fù)小洞。
于是按照上面的分類標(biāo)準(zhǔn)得到融合決策圖:
(8)
通過上面的決策圖規(guī)則得到?jīng)Q策圖,決策圖只含三個值1、0、0.5。最后得到融合圖像策略如下:
F(x,y)=D(x,y)O1(x,y)+(1-D(x,y))O2(x,y)
(9)
實(shí)驗(yàn)比較了近三年提出的基于結(jié)合多尺度分析、稀疏表示法(MST_SR)[22]和卷積稀疏表示法(Convolutional Sparse Representation,CSR)[23]。在文獻(xiàn)[22]中,多尺度分解用的拉普拉斯金字塔,字典大小256,用的是正交匹配追蹤算法求稀疏系數(shù)。具體參數(shù)見文獻(xiàn)[24]。仿真計算機(jī)參數(shù)為Inter(R)Core(TM)i5-3210M CPU@2.5 GHz,內(nèi)存4 GB,軟件為MATLAB 2014a。
(1) 峰值信噪比(Peak signal-to-noise ratio,PSNR)。
PSNR是信號可能的最大功率與影響信號表示精度破壞性噪音功率之間的比值。PSNR的值越大證明信號保持度越好。其表達(dá)式為:
(10)
式中:MAX是信號的最大可能功率,MSE表示均方誤差,即各數(shù)據(jù)的誤差平方的平均數(shù)。
(2) 互信息量(Mutual Information,MI)。
MI[25]的定義是輸入和輸出后的信息互相包含的總和量,數(shù)值越大證明輸入輸出的交互信息越多,融合效果越好。其定義公式為:
(11)
式中:PX(x)表示信息X的邊緣概率密度,PY(y)表示信息Y的邊緣概率密度,PXY(xy)表示兩個信息量X、Y的聯(lián)合概率密度,MIXY(xy)即為X、Y兩信息的互信息量。
(3) 梯度相關(guān)指標(biāo)QAB/F。
QAB/F[26]是一個常用的圖像融合評價指標(biāo),原理是基于梯度信息的,一般用于檢測原始圖像到處理后圖像之間梯度信息保留的程度。定義是:
(12)
實(shí)驗(yàn)選取了幾對不確定聚焦圖像進(jìn)行測試,如圖3所示[27]。
(c) clock (d) pepsi圖3 原始多聚焦圖像
圖3(a)中,左圖是近景對焦,右圖是遠(yuǎn)景對焦,左圖書架看起來模糊,時鐘看起來清晰,右圖恰好相反。圖3(b)中,左圖近景聚焦,圖像里人物就沒有聚焦,看起來十分模糊。圖3(c)、(d)與(a)、(b)差不多,都是部分清晰,即圖像部分對焦其他區(qū)域散焦。
融合后的圖像如圖4-圖7所示。融合圖像從視覺上看,在圖像邊緣處,LOG算法優(yōu)于其他算法,原因是在正確判斷圖像聚焦區(qū)域下,LOG算法融合結(jié)果就是源圖像本身,這樣就不會出現(xiàn)失真或邊緣模糊。然而多尺度算法因采樣方式或融合策略(比如,高頻取最大絕對值,低頻取平均值)可能會丟失較多信息。稀疏表示因字典表達(dá)能力不足,使邊緣或紋理出現(xiàn)模糊現(xiàn)象。LPFOG算法也可能出現(xiàn)判斷聚焦區(qū)域失敗而導(dǎo)致平均化失真。
圖4 “clock”三方法融合結(jié)果
圖5 “l(fā)ab”三方法融合結(jié)果
圖6 “clocks”三方法融合結(jié)果
圖7 “pepsi”三方法融合結(jié)果
“clock”圖像融合指標(biāo)結(jié)果如表1所示,可以看出,對于第一個指標(biāo)PSNR,MST_SR算法融合結(jié)果略優(yōu)于LOG算法。但從其他指標(biāo)可以看出,LOG算法都優(yōu)于其他算法。尤其是MI指標(biāo),明顯優(yōu)于其他算法。表2“l(fā)ab”融合指標(biāo)結(jié)果與表1有些類似,在PSNR指標(biāo)中,都是MST_SR融合算法略高一些,其他指標(biāo)均是提出的LOG表現(xiàn)最好。
表1 “clock”圖像融合指標(biāo)
表2 “l(fā)ab”圖像融合指標(biāo)
表3中列出的是“clocks”圖像融合結(jié)果。從結(jié)果上看,提出的LOG算法都優(yōu)于對比算法。相對來說,基于卷積的稀疏表示法在PSNR指標(biāo)中效果次于其他算法?!皃epsi”原始圖像融合結(jié)果如表4所示。其融合指標(biāo)結(jié)果也是全部優(yōu)于比較算法。MST_SR算法與提出的LPF算法在QAB/F指標(biāo)上比較接近,但提出算法還是略高M(jìn)ST_SR算法。
表3 “clocks”圖像融合指標(biāo)
表4 “pepsi”圖像融合指標(biāo)
由于圖像的不確定性與復(fù)雜性,在PSNR指標(biāo)中,基于多尺度與稀疏表示算法指標(biāo)在前兩對測試圖像上稍微高于提出的LPF算法,但總體看,提出的基于LOG算法優(yōu)于MST-SR和CSR算法。
根據(jù)高斯拉普拉斯算子,對圖像進(jìn)行掩膜卷積計算。將計算結(jié)果絕對值作為聚焦度量圖,然后用滑動窗口對聚焦度量圖打分,進(jìn)行一定的策略得到?jīng)Q策圖,最后對決策圖乘以相應(yīng)的權(quán)重,得到融合圖像。本算法通過判斷是否為聚焦區(qū)域來劃分,如果判斷是聚焦區(qū)域,就把此區(qū)域劃為最終融合結(jié)果。這樣得到的融合區(qū)域是原始圖像,即沒有對原始圖像采樣或某種近似表達(dá),質(zhì)量是非常好的。所以不論從主觀還是客觀評價指標(biāo)上看,基于高斯拉普拉斯算子算法效果優(yōu)于傳統(tǒng)的算法。本算法主要核心是判斷圖像聚焦區(qū)域,類似于劃分聚焦于散焦的分界線。如果可以準(zhǔn)確劃分聚焦區(qū)域,融合質(zhì)量自然理想,如何又快又好劃分聚焦區(qū)域是要繼續(xù)研究探討的問題。