王紀(jì)委,曲懷敬,魏亞南,謝 明,徐 佳,張志升,張漢元
(山東建筑大學(xué)信息與電氣工程學(xué)院,山東 濟南 250101)
多聚焦圖像融合(multi-focus image fusion, MFIF)是圖像融合領(lǐng)域一個重要的分支。因為相機成像系統(tǒng)的特點,很難獲得一幅完全聚焦的圖像。一種流行的解決這種問題的技術(shù)是針對同一場景將不同焦距下所獲取的多張源圖像融合為一幅全聚焦圖像,稱為MFIF。目前,MFIF技術(shù)廣泛應(yīng)用于顯微成像、文物修復(fù)、遙感和計算機視覺等領(lǐng)域[1]。
傳統(tǒng)的MFIF方法一般可分為基于空域的方法和基于變換域的方法。具體而言,基于空域的方法是直接在空間域中操作,可以進一步分為即基于像素[2]、基于塊[3]和基于區(qū)域[4]的3類方法。相比之下,基于變換域的方法首先將圖像變換到另一個域中,然后使用變換后的系數(shù)進行融合,最后通過相應(yīng)的逆變換得到融合圖像。到目前為止,已經(jīng)提出了許多基于變換域的方法,如稀疏表示方法[5-7]、多尺度方法[8-10]、基于梯度域的方法[11]和混合方法[12]等。
近年來,研究者開始使用深度學(xué)習(xí)技術(shù)來解決MFIF的問題[13]。目前,基于深度學(xué)習(xí)的融合方法主要分為有監(jiān)督[13-15]和無監(jiān)督[16-18]2種類型的MFIF方法。更具體地說,許多深度學(xué)習(xí)模型,例如CNNs[13-16]、GANs[17]等,都已被用于MFIF領(lǐng)域。
現(xiàn)有的MFIF方法在一些方面仍需要改進。首先,基于變換域的方法在融合變換域系數(shù)和逆變換時往往會丟失一些有用信息,從而導(dǎo)致在融合圖像中出現(xiàn)對比度降低和產(chǎn)生偽影等問題。其次,在基于空域的方法中廣泛使用基于固定大小塊的策略,而塊大小會影響融合質(zhì)量,往往還會出現(xiàn)塊效應(yīng)。另一方面,與傳統(tǒng)的MFIF方法相比,由于缺乏大型的訓(xùn)練數(shù)據(jù)庫,深度學(xué)習(xí)方法在融合性能和效率上目前還沒有優(yōu)勢[1]。因此,本文研究的重點是對傳統(tǒng)的MFIF方法進行改進。
針對上述問題,本文提出一種基于四叉樹(Quad-tree, QT)分解和自適應(yīng)焦點測度的MFIF方法。首先,設(shè)計一種新的基于SML和導(dǎo)向濾波的焦點測度,得到源圖像的焦點圖。然后,采取一種新的QT分解策略,將源圖像分解成最優(yōu)大小的樹塊對;由互補樹塊對的焦點信息確定初始決策圖;對初始決策圖進行優(yōu)化和一致性驗證后,構(gòu)成最終的決策圖。最后,根據(jù)最終決策圖,通過加權(quán)平均規(guī)則重構(gòu)出一幅全聚焦融合圖像。通過利用公共多聚焦圖像數(shù)據(jù)集進行實驗,并與11種先進的MFIF方法進行視覺質(zhì)量和客觀指標(biāo)比較,實驗結(jié)果驗證了本文方法的可行性和有效性;同時還表明,本文方法既克服了傳統(tǒng)基于塊方法對塊的大小敏感的問題,又基本消除了融合圖像中存在的邊界偽影,從而顯著地增強了融合圖像的質(zhì)量。
本文研究主要的工作包括以下4個方面:
1)提出一種分區(qū)域處理的基于SML與導(dǎo)向濾波的焦點測度。
2)根據(jù)多聚焦圖像的特點,提出一種有效的QT分解策略。
3)通過將QT分解策略與焦點測度有機結(jié)合,提出一種有效的MFIF算法。
4)通過大量實驗驗證本文方法在定性和定量方面都優(yōu)于其他11種最新的MFIF方法。
導(dǎo)向濾波由He等人[19]提出。導(dǎo)向濾波的工作原理簡述如下。對于半徑為r的滑動窗口wk,引導(dǎo)圖像I和輸出圖像q存在著如式(1)的局部線性關(guān)系:
qi=akIi+bk,i∈wk
(1)
其中,ak、bk為待求系數(shù)。
根據(jù)式(1),定義一個如式(2)的損失函數(shù):
(2)
這是一個求解最優(yōu)值的問題。其中,為了防止ak過大,引入一個正則化參數(shù)ε。運用最小二乘法求解極小值,并利用極小值處偏導(dǎo)數(shù)為0,得式(2)的解為:
(3)
(4)
最后,將線性模型(1)應(yīng)用于整個圖像的所有局部窗口,得到如式(5)的輸出:
(5)
修正的拉普拉斯能量和(Sum-modified-Laplacian, SML)是一種有效的焦點測度[20]。為了防止計算圖像f的拉普拉斯變換時,x和y方向的二階導(dǎo)數(shù)可能出現(xiàn)因相反的符號而相互抵消現(xiàn)象,Nayar等人[21]提出了修正拉普拉斯,它取拉普拉斯變換中二階導(dǎo)數(shù)的絕對值。修正拉普拉斯的離散形式近似可以表示為:
ML(i,j)=|2f(i,j)-f(i-s,j)-f(i+s,j)|+
|2f(i,j)-f(i,j-s)-f(i,j+s)|
(6)
其中,s表示像素間的可變間距,用于適應(yīng)圖像的紋理基元大小的可能變化。
這樣,在圖像位置(i,j)附近的一個小窗口內(nèi)可計算出位置(i,j)處的SML,如式(7):
(7)
其中,T為設(shè)定的閾值,用于計算SML的窗口大小為(2N+1)×(2N+1)。
MFIF的目標(biāo)是從互補的多聚焦源圖像中生成一幅全聚焦融合圖像。為了實現(xiàn)這一目標(biāo),本文提出一種基于QT分解和自適應(yīng)焦點測度的MFIF方法,其融合過程如圖1所示。下面對具體的內(nèi)容進行詳細(xì)的描述。
圖1 本文方法流程圖
為了精確地檢測出聚焦區(qū)域,本文提出一種分塊處理的焦點測度,即基于SML與導(dǎo)向濾波的焦點測度。與傳統(tǒng)的焦點測度相比,本文提出的焦點測度的不同之處在于,它通過充分考慮圖像的不同區(qū)域之間像素聚焦情況的差異,對這些區(qū)域分開進行焦點判別處理,這樣可以得到源圖像中更為精確的焦點信息,從而更準(zhǔn)確地檢測出聚焦區(qū)域。
2.1.1 基于SML與導(dǎo)向濾波的焦點測度
焦點測度在區(qū)分聚焦區(qū)域和散焦區(qū)域方面起著至關(guān)重要的作用。目前,廣泛采用的焦點測度包括:圖像梯度能量(EOG)、圖像拉普拉斯能量(EOL)、修正拉普拉斯能量和(SML)等。在文獻[20]中,實驗結(jié)果表明SML優(yōu)于其他焦點測度。但在一些平坦區(qū)域,SML無法準(zhǔn)確地區(qū)分出聚焦區(qū)域與相應(yīng)的散焦區(qū)域的像素。此外,SML對噪聲較為敏感。
為了克服這些問題,本文將SML和導(dǎo)向濾波相結(jié)合設(shè)計一種新的焦點測度。首先,將源圖像進行分塊處理,利用圖像塊對的梯度信息(本文使用的是SML),判斷圖像塊對的類型。然后,根據(jù)不同類型的圖像塊對,利用SML和導(dǎo)向濾波器自身的特點,對提出的焦點測度進行自適應(yīng)的調(diào)整。實現(xiàn)的步驟描述如下:
1)將源圖像變換為灰度圖像,并將灰度圖像分成大小相同的子塊。然后,采用一個遍歷窗口從源圖像左上角開始直至遍歷整個源圖像,將得到的每個子塊圖像作為下一階段的輸入。
(8)
(9)
(10)
3)定義一個元素都為1,大小與對應(yīng)子塊相同的矩陣FFMB,即:
(11)
其中,H和W分別為子塊的高度和寬度。FFMB表示一個理想的全聚焦與全散焦互補子塊對經(jīng)過式(9)和式(10)得到的二值圖。
4)定義一個子塊的全聚焦焦點圖的和(SFFMB)與焦點圖的和(SFMB),分別由式(12)~式(14)計算得到。即
SFFMB=∑∑FFMB(x,y)
(12)
(13)
(14)
5)根據(jù)SFFMB與SFMB,由式(15)求得閾值S。
S=SFMB/SFFMB
(15)
由于SFMB表示一對圖像子塊整體的聚焦情況;而SFFMB表示圖像子塊對在一種理想情況下(即一個塊為全聚焦,另一個塊為全散焦)SFMB的最大值,因此兩者的比值可以作為判斷圖像塊對聚焦情況的條件。
(16)
(17)
(18)
9)將各子塊圖像的粗略焦點圖按原位置重組,從而得到與源圖像大小相同的粗略焦點圖RFGi。
10)導(dǎo)向濾波中引導(dǎo)圖像的高頻信息可以有效地遷移到輸出圖像中。因此,用源圖像Ii作為引導(dǎo)圖像、以粗略焦點圖RFGi為輸入圖像的導(dǎo)向濾波輸出圖像可以增強粗略焦點圖的高頻信息、細(xì)化粗略焦點圖的顯著結(jié)構(gòu)。本文將此輸出圖像作為最終焦點圖FGi。即:
FGi=Gf(r0,ε0)(Ii(x,y),RFGi(x,y)),i=1,2
(19)
其中,Gf(r0,ε0)為導(dǎo)向濾波算子,其中r0、ε0為導(dǎo)向濾波的2個參數(shù),在本文中分別設(shè)置為3和0.05。
2.1.2 參數(shù)選擇
這一節(jié)將確定相關(guān)參數(shù)的選擇原則,依此提高焦點測度的精度。
1)參數(shù)p的選擇。
圖像塊對一般分為2種情況:1)一個塊完全聚焦,另一個塊完全散焦,稱為情形1;2)兩者都是部分聚焦,稱為情形2。從源圖像得到的子塊中,包含“平坦”區(qū)域的子塊大都屬于情形1,而包含聚焦與散焦區(qū)域邊界的子塊屬于情形2。這2種情形的子塊圖像對應(yīng)著聚焦區(qū)域檢測的2個難點。因此,為了更準(zhǔn)確地檢測聚焦區(qū)域,本文將子塊圖像分為上述2種情形進行不同的處理。對于情形1的子塊圖像,由于包含了較多的“平坦”區(qū)域,因此基于梯度的焦點測度SML對于它們的敏感性較差。換言之,對屬于情形1的子塊圖像,參數(shù)p設(shè)置為0,依此可更精確地檢測出聚焦區(qū)域。
另一方面,對于情形2的圖像塊,由于含有聚焦與散焦區(qū)域的邊界,一般具有較大的梯度信息,SML對于它們具有較高的敏感性。通常,SML能夠準(zhǔn)確地刻畫圖像的梯度信息,此時再結(jié)合導(dǎo)向濾波保持邊緣的效果,就可以更準(zhǔn)確地得到圖像的焦點信息。綜上所述,對屬于情形2的子塊圖像,參數(shù)p的值應(yīng)設(shè)置為1。
考慮式(15)的閾值S等于SFMB與SFFMB的比值,它反映一般圖像的聚焦信息,可以根據(jù)S的大小來判斷圖像塊是屬于情形1,還是屬于情形2。通常,SFMB總是小于等于SFFMB,當(dāng)兩者較為接近時,代表圖像塊屬于情形1。綜上分析,并結(jié)合實驗驗證,本文將參數(shù)p設(shè)置為:
(20)
2)參數(shù)r和ε的選擇。
r和ε是導(dǎo)向濾波的2個可調(diào)節(jié)參數(shù)。根據(jù)1.1節(jié)的內(nèi)容可知,當(dāng)假設(shè)輸入圖像p與引導(dǎo)圖像I相同時,導(dǎo)向濾波為一個保邊濾波器。相應(yīng)地,參數(shù)(ak,bk)的計算公式變?yōu)椋?/p>
(21)
bk=(1-ak)pk
(22)
(23)
(24)
3)參數(shù)w的選擇。
w為均值濾波的濾波半徑。w需要結(jié)合上述導(dǎo)向濾波參數(shù)r和ε的設(shè)置情況而進行設(shè)置。結(jié)合實驗驗證,當(dāng)w取以下值時,融合實驗取得最優(yōu)的結(jié)果。即:
(25)
4)其他參數(shù)的選擇。
在本文中,式(6)和式(7)中的參數(shù)s和T分別設(shè)置為1和3;窗口大小設(shè)置為3×3。另外,本文將圖像子塊大小設(shè)置為32×32。
本文設(shè)計一種有效策略用于圖像的QT分解。前述,對于多聚焦圖像塊對只可能出現(xiàn)2種情形,其中對于情形1,全聚焦的塊和全散焦的塊是完全可區(qū)分的。因此,塊對的分解準(zhǔn)則可以根據(jù)塊對的2種情形簡單地描述為:如果塊對符合情形1,則在該塊對中可以找到完全聚焦的塊;否則,如果塊對符合情形2,則其中每個塊再分別細(xì)分為4個子塊。下面對本文提出的分解策略進行詳細(xì)的描述。
1)根據(jù)2.1節(jié)中提出的焦點測度,計算出每個源圖像的焦點圖{FGi,i=1,2}。
(26)
需要強調(diào)的是,在實際源圖像中,樹塊對中任何一個塊都可能存在一些噪聲。因此,對于情形1中樹塊對的SFMB通常比相應(yīng)的SFFMB略小一些??紤]這種情況,以及通過實驗驗證,本文選擇0.99作為這種情形的判別閾值。即對于一個樹塊對,如果SFMB>0.99×SFFMB,則它屬于情形1;否則,這個樹塊對屬于情形2。
圖2為一個多聚焦圖像的QT分解示例。由圖2可見,本文提出的分解策略能夠很好地將源圖像分解成最優(yōu)大小的塊,這也驗證了所提出的QT分解策略的有效性。
圖2 本文提出的QT分解策略示例
利用本文提出的QT分解策略可以從源圖像中有效地檢測出聚焦塊,最后由聚焦塊組合成初始決策圖。具體做法為:首先,將2幅源圖像以及對應(yīng)于源圖像的焦點圖作為輸入;將源圖像設(shè)置為QT結(jié)構(gòu)的第1級的樹塊對;對于當(dāng)前樹塊對,如果SFMB>0.99×SFFMB,則該塊對屬于情形1,可通過計算塊對的聚焦度量值,找到聚焦度量值較大的樹塊標(biāo)記為聚焦區(qū)域,否則該塊對屬于情形2,每個樹塊將進一步被分為4個子樹塊。然后,上述過程在較小的塊對上重復(fù)進行,直到所有樹塊對滿足聚焦條件或達(dá)到分解條件的最大級別。最后,對標(biāo)記的聚焦塊進行組合,構(gòu)成初始決策圖。
為了去除噪聲像素,本文采用小區(qū)域去除策略。即,如果某一區(qū)域的像素數(shù)小于N,則該區(qū)域被視為小區(qū)域。在本文中,將N小于源圖像總像素數(shù)的1%的區(qū)域視為小區(qū)域。
根據(jù)最終決策圖FDM,通過對應(yīng)像素的加權(quán)平均將源圖像I1、I2融合在一起,得到最終的融合圖像F,即:
F(x,y)=FDM(x,y)I1(x,y)+(1-FDM(x,y))I2(x,y)
(27)
此外,為了消除融合圖像中潛在的偽影,本文利用導(dǎo)向濾波對優(yōu)化決策圖進行一致性驗證,得到最終決策圖FDM。FDM能夠較好地保真聚焦區(qū)與散焦區(qū)的邊界信息,并能有效地減少邊界偽影。
本文將所提出的方法與其他11種先進的MFIF方法進行了比較。其中,傳統(tǒng)方法包括DTCWT[8]、NSCT[9]、GFF[10]、ASR[5]、MWGF[11]、ICA[22]和NSCT-SR[12];深度學(xué)習(xí)的方法包括CNN[13]、MADCNN[14]、MFF-GAN[17]和SESF[18]。實驗在Lytro數(shù)據(jù)集[23]上進行,并利用5個廣泛使用的客觀指標(biāo)進行性能評估。具體而言,它們是歸一化互信息QMI[24]、非線性相關(guān)信息熵QNCIE[25]、基于梯度的度量QG[26]、基于結(jié)構(gòu)相似性的度量QY[27]、基于人類感知的度量QCB[28]。對于這些指標(biāo),其值越大表示融合效果越好。
各種融合方法在Lytro-1圖像對中的融合結(jié)果如圖3所示。為了進行更好的觀察,在融合圖像中聚焦和散焦部分邊界附近的區(qū)域被放大并顯示在圖像的右下角。由圖3可知,對于DTCWT、ASR、MADCNN和MFF-GAN方法的融合圖像放大區(qū)域,在肩膀邊緣處明顯地呈現(xiàn)出不希望的偽影;MWGF方法的融合圖像在放大區(qū)域處的“高爾夫球”完全模糊了;而DTCWT、ASR、MWGF、ICA、NSCT-SR和SESF方法在融合圖像的“人物”的左手臂和“球桿”邊緣出現(xiàn)不同程度的光環(huán)和偽影??偟貋碚f,NSCT、GFF和CNN的融合結(jié)果整體觀感較好,但在它們?nèi)诤蠄D像的放大區(qū)域可以看出整體的清晰度較低。而本文方法相比于其他方法,能夠產(chǎn)生更自然清晰的視覺效果。
圖3 針對圖像Lytro-1不同融合方法得到的融合圖像
圖4和圖5分別是各種融合方法針對Lytro-10圖像對的融合圖像與圖4中源圖像A和源圖B之間的殘差圖。它們是通過從每個融合圖像分別減去源圖像A和B而生成的差值圖像。由圖4和圖5可以觀察到,圖4和圖5呈現(xiàn)出了相似的實驗結(jié)果。其中DTCWT、NSCT、ICA、MADCNN和MFF-GAN方法的殘差圖中呈現(xiàn)出大量的噪聲像素,這說明這些方法沒有將源圖像A和源圖像B的聚焦區(qū)域信息很好地轉(zhuǎn)移到融合圖像中。此外,由圖4和圖5還可見,來自GFF、ASR、MWGF、NSCT-SR和SESF方法的殘差圖呈現(xiàn)出較多的偽影,這意味著這些方法的融合圖像沒有在這些區(qū)域或邊界中融合足夠多的聚焦信息??偟貋碚f,CNN方法和本文提出的方法獲得了不錯的結(jié)果;通過仔細(xì)觀察圖4和圖5的源圖像和殘差圖,可以看出提出的方法在聚焦與散焦區(qū)域的交界處過渡得更加自然,因此本文方法可以提供更好的融合效果。
圖4 由不同融合方法得到的Lytro-10融合圖像與源圖像A之間的殘差圖
圖5 由不同融合方法得到的Lytro-10融合圖像與源圖像B之間的殘差圖
此外,有關(guān)由本文方法所得到的更多圖像融合結(jié)果如圖6所示。由圖6可知,針對廣泛使用的多聚焦源圖像對,本文方法在QT分解、最終決策圖和融合圖像等方面均取得了較好的結(jié)果,這充分地驗證了其有效性和可行性。
圖6 提出方法的更多圖像融合結(jié)果
表1中的結(jié)果顯示了不同融合方法在Lytro數(shù)據(jù)集的20對圖像中每個客觀評價指標(biāo)得分的平均值。對于每個指標(biāo),性能表現(xiàn)最好的結(jié)果以粗體顯示,括號中顯示了一種方法優(yōu)于其他所有方法的圖像對的數(shù)量。由表1數(shù)據(jù)可知,在12種融合方法中,本文所提出的方法在所有指標(biāo)都顯著優(yōu)于其他融合方法。綜合考慮上述定性和定量的比較結(jié)果,它們都充分地說明了本文方法的性能總體上優(yōu)于其他方法,從而驗證了其有效性和先進性。
表1 不同融合方法對Lytro數(shù)據(jù)集的平均實驗結(jié)果
表2列出了在融合2幅大小為520×520像素的灰度源圖像時,不同方法的平均花費時間。由表2的數(shù)據(jù)可以看出,本文方法在計算效率上達(dá)到了較好的一檔。雖然本文方法的計算成本略高于某些變換域方法和一些深度學(xué)習(xí)的方法,但從定性和定量綜合評價上看,本文方法都優(yōu)于這些方法。綜上所述,本文提出的方法能夠很好地實現(xiàn)多聚焦圖像的融合。
表2 不同融合方法的平均運行時間
本文提出了一種新的基于QT分解和自適應(yīng)焦點測度的MFIF方法。首先,根據(jù)一種新的焦點測度,較精確地得到了源圖像的焦點圖。然后,采用一種有效的QT分解策略,檢測出了源圖像的聚焦區(qū)域,構(gòu)成了初始決策圖。最后,通過對初始決策圖進行優(yōu)化和一致性驗證,重構(gòu)出了一幅全聚焦的融合圖像。本文方法既有效地克服了基于塊方法對塊大小敏感的問題,又基本消除了融合圖像中存在的邊界偽影,從而顯著地增強了融合圖像的質(zhì)量。通過對公共多聚焦圖像數(shù)據(jù)集進行實驗,并與11種先進的MFIF方法進行視覺質(zhì)量和客觀指標(biāo)比較,實驗結(jié)果表明,本文所提出的融合方法取得了更好的性能。