王 杰,趙文義,潘細(xì)朋,楊輝華
(1.北京郵電大學(xué)自動(dòng)化學(xué)院,北京 100876;2.桂林電子科技大學(xué)計(jì)算機(jī)與信息安全學(xué)院,廣西 桂林 541004)
在圖像采集過(guò)程中,由于相機(jī)景深有限,相機(jī)焦平面附近的物體在像平面上成像清晰,遠(yuǎn)離焦平面的物體會(huì)在相平面上出現(xiàn)模糊,因此難以將一幅圖像中的所有物體都清晰成像。多聚焦圖像融合[1]技術(shù)將多幅不同聚焦區(qū)域的圖像融合成為一幅全聚焦圖像,使得圖像場(chǎng)景中的所有物體都能較為清晰的顯示,在醫(yī)學(xué)圖像處理[2]、軍事偵察、工業(yè)檢測(cè)等領(lǐng)域有著非常廣泛的應(yīng)用。
目前,多聚焦圖像融合算法主要包括空間域與變換域兩類研究方法。變換域融合算法的主要思想是將原始圖像經(jīng)過(guò)某種特定的多尺度變換分解為高頻部分與低頻部分,然后分別在各個(gè)頻段上依照一定的融合規(guī)則對(duì)變換域系數(shù)進(jìn)行融合,最后執(zhí)行相應(yīng)的多尺度逆變換得到融合圖像。為此,Sun等人[3]提出的基于拉普拉斯金字塔(Laplacian Pyramid,LP)的方法,通過(guò)計(jì)算拉普拉斯能量和來(lái)計(jì)算源圖像中的聚焦區(qū)域,然后使用基于密度的區(qū)域增長(zhǎng)算法來(lái)分割圖像的聚焦區(qū)域決策圖,最后通過(guò)分解決策圖金字塔來(lái)監(jiān)督在源圖像拉普拉斯金字塔上的區(qū)域。Zheng[4]等人通過(guò)改進(jìn)小波變換(Wavelet Transform,WT)并引入四元數(shù)構(gòu)建上下文隱馬爾可夫模型,來(lái)對(duì)四元數(shù)小波變換系數(shù)進(jìn)行建模。除此之外,非下采樣輪廓波變換(Non-Subsampled Contourlet Transform,NSCT)[5]的融合方法也取得了優(yōu)異的效果,宋[6]等人利用非下采樣輪廓波變換的系數(shù)優(yōu)勢(shì),設(shè)計(jì)了變換域中高中低域的融合規(guī)則,然后結(jié)合基于區(qū)域分割的邊緣檢測(cè)方法完成多聚焦圖像融合。這些變換域方法得到的融合圖像,在多尺度變換與逆變換過(guò)程中容易丟失部分有用信息,導(dǎo)致融合圖像信息表達(dá)不完整。
基于空間域的方法主要是通過(guò)尋求一種圖像清晰度的描述方法,根據(jù)該方法評(píng)價(jià)源圖像對(duì)在相同位置的清晰程度,取較為清晰圖像在該位置的像素區(qū)域,遍歷整幅圖像,從而得到一幅全聚焦融合圖像。周[7]通過(guò)引入能夠反映多尺度邊緣和拐點(diǎn)結(jié)構(gòu)清晰度的聚焦區(qū)域度量方式來(lái)檢測(cè)圖像的聚焦區(qū)域。屈[8]通過(guò)提出一種基于源圖像共享相似度的方案來(lái)生成決策區(qū)域,并且自動(dòng)估計(jì)從物體到焦平面的距離。劉[9]通過(guò)使用密集的SIFT描述符來(lái)測(cè)量源圖像的聚焦區(qū)域從而得到最終融合結(jié)果。此類基于空間域的方法需要手動(dòng)設(shè)計(jì)圖像塊的大小及圖像清晰度度量等具體的融合規(guī)則,因此融合規(guī)則的設(shè)計(jì)很大程度上影響著融合圖像的質(zhì)量。近年來(lái),深度學(xué)習(xí)技術(shù)在許多圖像處理任務(wù)中都取得了很好的進(jìn)展[10-12],為了克服傳統(tǒng)方法中手動(dòng)設(shè)計(jì)融合規(guī)則存在的問(wèn)題。許多基于深度神經(jīng)網(wǎng)絡(luò)的圖像融合方法[13]被引入到多聚焦圖像融合任務(wù)中,主要包括基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)[14-15]的方法。其主要方法為通過(guò)神經(jīng)網(wǎng)絡(luò)對(duì)源圖像的圖像塊進(jìn)行分類來(lái)完成聚焦區(qū)域的檢測(cè)。但是由于圖像塊的大小需要進(jìn)行手動(dòng)設(shè)置,且在圖像塊較小的情況下分類效果較差,容易存在聚焦邊緣分割不準(zhǔn)確的問(wèn)題。
針對(duì)現(xiàn)有研究方法聚焦區(qū)域無(wú)法精確提取,導(dǎo)致融合圖像邊界模糊、關(guān)鍵信息丟失的問(wèn)題。本文提出了一種新的基于編解碼網(wǎng)絡(luò)多聚焦圖像融合算法。相對(duì)于其它基于神經(jīng)網(wǎng)絡(luò)的方法,本文引入像素矯正模塊與結(jié)構(gòu)相似性損失函數(shù),通過(guò)對(duì)一對(duì)源圖像上每個(gè)像素進(jìn)行分類確定聚焦區(qū)域得分圖,從而提取更加精細(xì)的聚焦區(qū)域,得到表達(dá)能力更強(qiáng)的融合圖像。
本文采用編解碼網(wǎng)絡(luò)處理多聚焦圖像融合問(wèn)題。使用生成的訓(xùn)練數(shù)據(jù)集來(lái)訓(xùn)練編解碼網(wǎng)絡(luò)。該網(wǎng)絡(luò)使用一對(duì)多聚焦圖像作為輸入,輸出一張與源圖像相同大小的得分圖,其中每個(gè)像素的數(shù)值代表該像素是前景的概率。然后通過(guò)得分圖融合這一對(duì)多聚焦圖像得到一張較高質(zhì)量的融合圖像。整個(gè)過(guò)程如圖1所示。
圖1 基于編解碼網(wǎng)絡(luò)的多聚焦圖像融合過(guò)程
網(wǎng)絡(luò)輸入是一組經(jīng)過(guò)灰度變換的多聚焦圖像沿著通道維度連接起來(lái)構(gòu)成的2通道圖像,整個(gè)網(wǎng)絡(luò)由編碼器網(wǎng)絡(luò)和解碼器網(wǎng)絡(luò)組成。編碼器網(wǎng)絡(luò)采用兩分支結(jié)構(gòu)使得輸出結(jié)果能夠獲取到低層的空間位置信息與高層的上下文語(yǔ)義信息。編碼器端包括13個(gè)卷積層與5個(gè)下采樣池化層。其中每個(gè)卷積層均采用大小為3×3的卷積核來(lái)減小網(wǎng)絡(luò)的參數(shù)量,并采用零填充使得通過(guò)卷積層前后的特征圖大小不變。因此,編碼器網(wǎng)絡(luò)的輸出特征圖大小只與下采樣池化層的數(shù)量有關(guān),為輸入圖像大小的 。解碼器網(wǎng)絡(luò)采用了比編碼器網(wǎng)絡(luò)更小的網(wǎng)絡(luò),包括5個(gè)反池化層和5個(gè)卷積層。輸出與輸入圖像大小相同的聚焦區(qū)域得分圖。除了最后一層網(wǎng)絡(luò)的激活函數(shù)采用Sigmoid函數(shù)對(duì)特征圖上的每個(gè)像素點(diǎn)的類別映射至0到1的概率區(qū)間,其余卷積層的激活函數(shù)均采用線性整流函數(shù)(Rectified Linear Unit,ReLU) 進(jìn)行非線性映射。對(duì)于每一層激活結(jié)果,采用批量歸一化(Batch Normalization,BN)來(lái)加快網(wǎng)絡(luò)訓(xùn)練速度,防止模型過(guò)擬合。歸一化的公式如下
(1)
式中,xi為在像素點(diǎn)i處經(jīng)過(guò)激活函數(shù)輸出的激活值,yi為在像素點(diǎn)i處歸一化以后的激活值,m為每一次訓(xùn)練輸出圖像的批量值,γ與β為可學(xué)習(xí)的參數(shù),隨著訓(xùn)練的迭代而更新。
由于解碼器網(wǎng)絡(luò)的輸入特征圖較小,單個(gè)像素誤差就能夠造成32個(gè)像素的解碼誤差??紤]到在編碼器之中的低層特征圖包含較多且準(zhǔn)確的低層空間位置信息,而解碼器中的高層語(yǔ)義信息無(wú)法較好的恢復(fù)特征的空間坐標(biāo)。為了減小誤差,引入像素矯正模塊(Pixel Correction Module,PCM),其結(jié)構(gòu)如圖1左下所示。橙色輸入特征圖為對(duì)特征映射進(jìn)行上采樣得到的特征圖,藍(lán)色輸入為編碼器網(wǎng)絡(luò)中的特征圖。編碼器網(wǎng)絡(luò)中的特征圖通過(guò)一個(gè)3×3與一個(gè)1×1的卷積得到矯正特征圖,其中3×3的卷積采用線性整流函數(shù)進(jìn)行非線性映射,1×1的卷積采用Sigmoid激活函數(shù)。把矯正特征圖與解碼器網(wǎng)絡(luò)中的上采樣的結(jié)果進(jìn)行相加得到矯正后的輸出特征圖。PCM模塊的矯正特征圖為聚焦區(qū)域的粗略分割結(jié)果,通過(guò)把粗略分割結(jié)果與上采樣的結(jié)果相加,增加了聚焦區(qū)域的置信度,減小下采樣中的像素誤差。
網(wǎng)絡(luò)采用了兩個(gè)損失函數(shù)。第一個(gè)采用均方誤差損失函數(shù),定義為標(biāo)簽得分圖與預(yù)測(cè)得分圖在每個(gè)像素的均方差值之和。由于絕對(duì)值不可微分,使用以下?lián)p失函數(shù)近似得到
(2)
第二個(gè)損失函數(shù)采用結(jié)構(gòu)相似性損失函數(shù)(structural similarity,SSIM),表示兩幅圖像的結(jié)構(gòu)相似性之差。其計(jì)算公式如下
(3)
(4)
(5)
SSIM(X,Y)=L(X,Y)·C(X,Y)·S(X,Y)
(6)
SSIM的值越逼近1說(shuō)明處理后的結(jié)構(gòu)與原圖結(jié)構(gòu)極為近似,即生成的結(jié)果圖更好。當(dāng)兩幅圖像完全相同時(shí)SSIM=1。故實(shí)際中LSSIM取
LSSIM=1-SSIM(imgout,imgGT)
(7)
式中imgout是編解碼網(wǎng)絡(luò)輸出的得分圖與兩個(gè)輸入圖像通過(guò)式(10)得到,imgGT為全聚焦目標(biāo)圖像。
imgout=imgA·score+imgB·(1-score)
(8)
式中,imgA、imgB為兩張輸入源圖像,score為編解碼網(wǎng)絡(luò)輸出的得分圖。
最終損失函數(shù)為兩個(gè)損失的加權(quán)和,定義如下,α為0.5。
Lall=α·La+(1-α)·LSSIM
(9)
為了驗(yàn)證本文算法的性能,本文首先建立了適用的高精度多聚焦圖像融合訓(xùn)練數(shù)據(jù)集并對(duì)模型進(jìn)行訓(xùn)練,然后使用20對(duì)多聚焦圖像數(shù)據(jù)集“Lytro”圖像進(jìn)行測(cè)試。測(cè)試圖像集的一部分如圖2所示。本文在測(cè)試圖像集上把本文提出的算法與四種代表性算法進(jìn)行對(duì)比,這些算法包括基于多尺度梯度加權(quán)的融合(MWGF)[7]算法、使用自相似性和深度信息的融合(SSDI)[8]算法、基于密集尺度不變特征變換(DSIFT)[9]的融合算法、基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)[14]的融合算法,同時(shí),在相同訓(xùn)練集上訓(xùn)練了無(wú)像素矯正模塊的模型進(jìn)行對(duì)比。本文仿真平臺(tái)采用酷睿i7-8700 6核12線程CPU,顯卡型號(hào)為Geforce GTX1080 8G,內(nèi)存16GB,深度學(xué)習(xí)框架為PyTorch。
圖2 部分多聚焦圖像測(cè)試集
現(xiàn)有公開數(shù)據(jù)當(dāng)中可用于多聚集融合圖像訓(xùn)練的標(biāo)注數(shù)據(jù)較少,難以滿足神經(jīng)網(wǎng)絡(luò)對(duì)于數(shù)據(jù)量的需求。而現(xiàn)有基于卷積神經(jīng)網(wǎng)絡(luò)[14]的方法主要通過(guò)對(duì)無(wú)標(biāo)注圖像進(jìn)行處理來(lái)生成訓(xùn)練數(shù)據(jù)。其具體步驟為:首先將一張較為清晰的彩色圖像轉(zhuǎn)換為單通道的灰度圖像,然后通過(guò)高斯模糊得到對(duì)應(yīng)灰度圖像的模糊圖像,然后將這兩幅單通道圖像在通道維度連接起來(lái)作為神經(jīng)網(wǎng)絡(luò)的輸入,將模糊圖像與清晰圖像的通道索引定義為類別標(biāo)簽。由于此類方法需要對(duì)圖像中的每一個(gè)圖像塊上進(jìn)行分類,當(dāng)圖像塊中同時(shí)包含聚焦區(qū)域與非聚焦區(qū)域時(shí)容易造成分類錯(cuò)誤,難以精確的提取到聚焦區(qū)域。因此具有精細(xì)像素級(jí)標(biāo)注的數(shù)據(jù)集對(duì)多聚焦圖像融合來(lái)說(shuō)是非常必要的。
現(xiàn)今多聚焦圖像的像素級(jí)標(biāo)注成本較高,而圖像分割的數(shù)據(jù)集具有精細(xì)的像素級(jí)標(biāo)注。對(duì)此本文提出一種方法,生成與現(xiàn)實(shí)情況相似并且易于獲得的訓(xùn)練數(shù)據(jù)集。通過(guò)選取現(xiàn)有具有精細(xì)標(biāo)注的數(shù)據(jù)集,將其標(biāo)注的前景圖像作為前景數(shù)據(jù),選擇公開數(shù)據(jù)集中無(wú)明顯散焦的圖像充當(dāng)背景,通過(guò)把前景和背景區(qū)域分別當(dāng)作聚集區(qū)域與非聚焦區(qū)域,生成與現(xiàn)實(shí)情況相似的合成數(shù)據(jù)集。
對(duì)于前景圖像和背景圖像,通過(guò)以下融合規(guī)則得到最終的一組融合圖像,其中GT代表圖像前景標(biāo)注,Gauss(A)表示經(jīng)過(guò)高斯模糊的圖像A。FG為前景圖像,BG為背景圖像,imgA與imgB為兩張生成的多聚焦源圖像,imgGT為對(duì)應(yīng)的全聚焦圖像。
圖4 不同算法對(duì)源圖像“Boy”融合結(jié)果
imgA=FG·GT+Gauss(BG)·(1-GT)
(10)
imgB=Gauss(FG)·GT+BG·(1-GT)
(11)
imgGT=FG·GT+BG·(1-GT)
(12)
生成過(guò)程如圖3所示。左側(cè)三張圖分別為前景圖像、背景圖像與前景圖像的標(biāo)注圖像,右側(cè)三張圖中,上面兩張圖為合成的一組多聚焦圖像,最下面一張圖為全聚焦圖像。
圖3 訓(xùn)練數(shù)據(jù)生成過(guò)程
本文使用Alpha Matting的標(biāo)注數(shù)據(jù)充當(dāng)合成圖像的前景圖像。這個(gè)數(shù)據(jù)集包含27張帶標(biāo)注的訓(xùn)練圖像和8張測(cè)試圖像。對(duì)于每張前景圖像選擇1000張來(lái)自MS COCO 2014訓(xùn)練數(shù)據(jù)集中的背景圖像生成訓(xùn)練數(shù)據(jù)集。雖然訓(xùn)練數(shù)據(jù)集有27000張圖像,但是只有27個(gè)對(duì)應(yīng)的前景圖像。因此共有27000對(duì)有標(biāo)注的訓(xùn)練圖像以及8000對(duì)測(cè)試圖像用于編解碼網(wǎng)絡(luò)的訓(xùn)練。為了更好的使用訓(xùn)練數(shù)據(jù)并且避免過(guò)擬合,使用了以下的訓(xùn)練方法。首先隨機(jī)選取聚焦區(qū)域的邊緣點(diǎn),以該點(diǎn)為中心裁剪大小為320×320、480×480和640×640的圖像對(duì)。并將其統(tǒng)一調(diào)整為320×320。最后將每個(gè)訓(xùn)練對(duì)以0.5的概率隨機(jī)進(jìn)行翻轉(zhuǎn)。使得數(shù)據(jù)集具有多個(gè)尺度,盡可能的包含多種同時(shí)具有聚焦與散焦的場(chǎng)景圖像。
圖4是以上算法在測(cè)試圖像“Boy”上的融合結(jié)果。由圖4融合結(jié)果可以看出,以上算法在源圖像聚焦區(qū)域與非聚焦區(qū)域中易分辨區(qū)域上融合效果相差無(wú)幾,相交區(qū)域的融合效果決定著算法的最終融合效果。觀察圖4 中每張圖片左下角的局部區(qū)域的放大圖,可以發(fā)現(xiàn)本文提出的方法在紅色虛線矩形框內(nèi),較好的保留了源圖像中的豎線細(xì)節(jié),保留了源圖像中的局部特征。
由于融合結(jié)果的優(yōu)劣難以區(qū)分,為了進(jìn)一步證明編解碼網(wǎng)絡(luò)用于多焦點(diǎn)圖像融合的有效性,本文比較了各種方法生成的聚焦區(qū)域得分圖。在實(shí)際情況中,通過(guò)一個(gè)固定閾值把聚焦區(qū)域得分圖轉(zhuǎn)化為一個(gè)只包含0與1的二進(jìn)制得分圖,也就是最后的決策圖。這其中,由于光照等原因,一些像素會(huì)被錯(cuò)誤分類,從而導(dǎo)致在得分圖中出現(xiàn)一些小的孔洞。因此,采用形態(tài)學(xué)中的開運(yùn)算來(lái)消除這些孔洞形成最后的得分圖。6對(duì)輸入源圖像的得分圖對(duì)比如圖5所示,可以看出本文方法對(duì)大多數(shù)像素均能夠正確分類,并且在邊界有較好的分類效果以上情況均假設(shè)源圖像只有兩個(gè)聚焦區(qū)域。對(duì)于超過(guò)兩個(gè)聚焦區(qū)域的多聚焦圖像,先選擇任意兩張圖像進(jìn)行融合得到中間融合圖像,然后將中間融合圖像與剩余源圖像繼續(xù)融合,直到把所有源圖像都融合進(jìn)去,得到最終融合結(jié)果。圖6為多個(gè)聚焦圖像的實(shí)驗(yàn)結(jié)果。
圖5 不同算法在其它測(cè)試圖片上的決策圖對(duì)比
圖6 多個(gè)圖像的融合結(jié)果。從左至右依次為三張?jiān)磮D像與融合結(jié)果
除了視覺效果的直觀對(duì)比,使用四種融合圖像質(zhì)量評(píng)價(jià)方法對(duì)融合圖像進(jìn)行比較。四種客觀評(píng)價(jià)指標(biāo)分別為:歸一化互信息熵(QMI)、基于梯度信息的評(píng)價(jià)指標(biāo)(QG)、基于結(jié)構(gòu)相似性的評(píng)價(jià)指標(biāo)(QY)和基于人類感知的指標(biāo)(QCB)。其中QMI表示融合圖像與源圖像之間的互信息量,QG可以衡量融合圖像對(duì)源圖像空間細(xì)節(jié)的保留程度,QY表示融合圖像中保留的結(jié)構(gòu)信息量,QCB表示人類視覺系統(tǒng)的感知評(píng)價(jià)。
使用不同算法對(duì)20對(duì)測(cè)試圖像進(jìn)行圖像融合實(shí)驗(yàn),得到的相應(yīng)評(píng)價(jià)指標(biāo)如表2所示。觀察發(fā)現(xiàn)本文算法在歸一化互信息熵、基于梯度信息的評(píng)價(jià)指標(biāo)、以及在基于結(jié)構(gòu)相似性的評(píng)價(jià)指標(biāo)上均優(yōu)于其它幾種算法。綜上可得,本文算法得到的融合結(jié)果能夠攜帶更多源圖中的有效信息,保留更多的源圖像細(xì)節(jié)信息與邊緣信息,在視覺上與評(píng)價(jià)指標(biāo)上都取得了較好的效果。
表1 不同算法在20對(duì)測(cè)試圖像上的平均評(píng)價(jià)指標(biāo)
本文提出了一種基于編解碼網(wǎng)絡(luò)的多聚焦圖像融合方法。首先,利用現(xiàn)有公開數(shù)據(jù)集生成具有精確標(biāo)注的多聚焦圖像模擬數(shù)據(jù)集;然后在編解碼網(wǎng)絡(luò)設(shè)計(jì)像素矯正模塊與損失函數(shù),該網(wǎng)絡(luò)以一對(duì)源圖像作為輸入,輸出源圖像對(duì)中的聚焦信息精確得分圖;最后,根據(jù)聚焦信息得分圖,將所有聚焦區(qū)域進(jìn)行融合,構(gòu)成融合圖像。理論分析和實(shí)驗(yàn)結(jié)果表明,本文算法在主觀視覺效果與客觀評(píng)價(jià)指標(biāo)上皆獲得較好效果,能夠保留更多的源圖像有效信息,在融合圖像的細(xì)節(jié)、輪廓處更令人滿意。