亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于多尺度特征融合網(wǎng)絡(luò)的多聚焦圖像融合技術(shù)

2021-11-08 00:55:30呂晶晶張榮福

光學(xué)儀器 2021年5期

呂晶晶，張榮福

（上海理工大學(xué) 光電信息與計(jì)算機(jī)工程學(xué)院，上海 200093）

引言

圖像融合技術(shù)是指將多張圖像中的重要信息組合到一張圖像中，比單一源圖像具有更豐富的細(xì)節(jié)[1]。由于受到景深的限制，光學(xué)器件很難捕捉到畫面中所有清晰的物體[2]。針對(duì)這一問(wèn)題，本文提出了一種多聚焦圖像融合算法，其目的是將焦點(diǎn)不同的圖像組合成全聚焦圖像。作為擴(kuò)展光學(xué)透鏡景深的一種有效且低成本的方法，多聚焦圖像融合技術(shù)在生物學(xué)、醫(yī)學(xué)、工業(yè)、農(nóng)業(yè)等領(lǐng)域具有廣闊的應(yīng)用空間[3-4]。

過(guò)去的二十年里，人們提出了很多種圖像融合方法，這些方法大致可分為基于變換域和基于空間域的兩大類方法。在這兩類方法中，基于變換域的方法符合人的視覺(jué)特征，其中的多尺度變換域方法具有更好的特征表示能力，而變換域的選擇和融合規(guī)則的設(shè)計(jì)是融合過(guò)程中最關(guān)鍵的兩個(gè)因素。典型的變換域方法包括金字塔變換[5]、小波變換[6]、非下采樣剪切變換[7]、稀疏表示[8]等?？臻g域融合可分為基于像素的融合方法[9]和基于塊的融合方法[10]?；谙袼氐姆椒ê?jiǎn)單明了，能很好地保存圖像細(xì)節(jié)，易于實(shí)現(xiàn)。但是，基于像素的融合算法只考慮局部鄰域的焦點(diǎn)信息，可能會(huì)造成對(duì)比度失真或塊狀偽影?；趬K的方法可以避免基于像素的融合算法的一些缺點(diǎn)。但是，塊大小的選擇是一個(gè)問(wèn)題，因?yàn)楫?dāng)塊選擇較大時(shí)，不能保證聚焦區(qū)域的精度，而當(dāng)塊選擇較小時(shí)，可能無(wú)法檢測(cè)到重點(diǎn)區(qū)域。因此，塊大小的選擇可能會(huì)限制融合的性能。

由于具有優(yōu)越的圖像特征獲取和信息分析能力，深度學(xué)習(xí)受到了廣泛的關(guān)注，并在一些圖像處理和計(jì)算機(jī)視覺(jué)任務(wù)中獲得了巨大的突破[11]。本文使用多尺度特征融合網(wǎng)絡(luò)代替?zhèn)鹘y(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)，在增加網(wǎng)絡(luò)寬度和深度的同時(shí)減少了參數(shù)量，提取到多層特征使系統(tǒng)對(duì)不同情況更具魯棒性。圖像融合的過(guò)程是將源圖像輸入本文訓(xùn)練的模型中，得到初始聚焦圖。然后對(duì)得到的聚焦圖進(jìn)行初始分割、形態(tài)學(xué)算子和小區(qū)域?yàn)V波等后處理，生成最終的決策圖，最后利用決策圖和源圖像獲得融合圖像。使用深度學(xué)習(xí)方法來(lái)解決多聚集圖像融合任務(wù)具有很大的優(yōu)勢(shì)，不僅可以克服測(cè)量活動(dòng)水平和人工設(shè)計(jì)融合規(guī)則的困難，更重要的是通過(guò)訓(xùn)練網(wǎng)絡(luò)模型，聯(lián)合生成活動(dòng)水平測(cè)量和融合規(guī)則，大大地提高了融合圖像的質(zhì)量[3]。

1 網(wǎng)絡(luò)設(shè)計(jì)

1.1 卷積神經(jīng)網(wǎng)絡(luò)

卷積神經(jīng)網(wǎng)絡(luò)（CNN）是一種流行的深度學(xué)習(xí)網(wǎng)絡(luò)模型[12]，成功地應(yīng)用于各種圖像融合任務(wù)，并獲得了不錯(cuò)的效果。在一般的CNN 架構(gòu)中都會(huì)有卷積層（Conv）、整流線性單元（ReLU）、池化層（子采樣）和全連接層（FC）。在CNN 中每個(gè)卷積層將一定數(shù)量的輸入圖像轉(zhuǎn)換為一定數(shù)量的特征圖，然后下一個(gè)卷積層通過(guò)使用一組過(guò)濾器的卷積運(yùn)算將這一特征圖量轉(zhuǎn)換為另一特征圖量。ReLU 激活函數(shù)的作用也很重要，它能使網(wǎng)絡(luò)稀疏，提高運(yùn)算效率，還能引入非線性因素，使得神經(jīng)網(wǎng)絡(luò)能夠更好地解決更加復(fù)雜的問(wèn)題。ReLU 表達(dá)式如下：

式中：Kij為卷積核；bj為偏置；? 為卷積運(yùn)算。在卷積操作之后，為了防止過(guò)擬合還會(huì)使用池化層來(lái)降低特征維數(shù)。全連接層一般是CNN的最后一層，它是一個(gè)核大小為1×1 的卷積層。其原理如圖1 所示。

圖1 CNN 原理圖Fig.1 Schematic diagram of CNN

1.2 網(wǎng)絡(luò)結(jié)構(gòu)

本文將多聚焦圖像融合的過(guò)程看作一個(gè)二分類問(wèn)題[13]，把圖像融合中活動(dòng)水平的測(cè)量看作特征提取，融合規(guī)則類似于一般分類任務(wù)中的分類器，所以采用CNN 在理論上是可行的[3]。在本文提出的方法中，構(gòu)建了一個(gè)多尺度融合的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，如圖2 所示。網(wǎng)絡(luò)結(jié)構(gòu)可以分為三個(gè)部分：多尺度特征提取、特征融合和分類。

圖2 多尺度融合的卷積神經(jīng)網(wǎng)絡(luò) (MFCNN) 結(jié)構(gòu)Fig.2 Schematic diagram of MFCNN structure

在多尺度特征提取部分，網(wǎng)絡(luò)有3 個(gè)分支。中間的分支有3 個(gè)卷積層、1 個(gè)最大池化層和1 個(gè)上采樣。其中3 個(gè)卷積層分別有64、128、256 個(gè)濾波器，它們的卷積核大小都為1×1，步長(zhǎng)為1×1，填充為1×1，此外每一個(gè)卷積層后面都連接著一個(gè)激活函數(shù)ReLU，增加神經(jīng)網(wǎng)絡(luò)模型的非線性。最大池化層的尺寸為2×2，步數(shù)為2×2，與平均池化相比最大池化引入了平移不變性，增加了網(wǎng)絡(luò)的非線性。為了統(tǒng)一維度，采用雙線性插值法進(jìn)行上采樣。卷積神經(jīng)網(wǎng)絡(luò)在淺層能夠?qū)W習(xí)一些邊緣和紋理特征，在深層學(xué)習(xí)一些語(yǔ)義和類別信息。為了充分利用卷積過(guò)程中產(chǎn)生的淺層和深層特征，本文把第一層卷積得到的淺層特征連接1×1 卷積進(jìn)行處理，這樣可以做到在不丟失大量信息的情況下降低輸入層的維數(shù)，從而避免過(guò)擬合。在第二個(gè)卷積層之后得到的特征也連接1×1 卷積進(jìn)行處理。在多尺度融合層，將前面提取到的多尺度特征進(jìn)行concatenation操作及向量化拼接融合，得到大小為16×32×352 的特征。在分類層中，全連接層會(huì)綜合所提取的特征，生成向量直接送入Softmax 層中進(jìn)行分類。網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)細(xì)節(jié)如表1 所示。

表1 網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)細(xì)節(jié)Tab.1 Network structure details

2 數(shù)據(jù)集構(gòu)建及訓(xùn)練

訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)需要大量的標(biāo)記訓(xùn)練圖像，這樣才能學(xué)習(xí)到更多有用的特征。目前還沒(méi)有公開的具有聚焦和離焦標(biāo)記的圖像數(shù)據(jù)庫(kù)，因此本文考慮在開源數(shù)據(jù)集的基礎(chǔ)上，創(chuàng)建一個(gè)包含正確標(biāo)記的聚焦圖像和離焦圖像的訓(xùn)練數(shù)據(jù)集，以滿足訓(xùn)練要求。本文利用Coco 數(shù)據(jù)集中的2 200 多張高質(zhì)量圖像建立了訓(xùn)練數(shù)據(jù)集[3]。Coco 數(shù)據(jù)集里的圖像都是從自然中捕獲的聚焦圖像，一些隨機(jī)選擇的Coco 數(shù)據(jù)集的圖像樣本如圖3 所示。

圖3 Coco 數(shù)據(jù)集Fig.3 Coco dataset

創(chuàng)建數(shù)據(jù)集時(shí)，首先將選取的圖像轉(zhuǎn)換為灰度圖像，為了模擬出離焦情況的圖片，每一個(gè)從Coco 數(shù)據(jù)集中選擇的圖像都通過(guò)4 個(gè)不同的高斯濾鏡生成4 個(gè)版本的模糊圖像，標(biāo)準(zhǔn)差分別為9×9，11×11，13×13 和15×15。接著把清晰圖像和經(jīng)過(guò)模糊處理的圖像裁切成貼片上下相連組合到一起，操作過(guò)程如圖4 所示。貼片的尺寸選取也至關(guān)重要，如果貼片太小，很難學(xué)習(xí)可用的特性；如果貼片尺寸過(guò)大，一張訓(xùn)練貼片可能會(huì)同時(shí)包含聚焦和離焦部分，影響訓(xùn)練效果。

圖4 構(gòu)建數(shù)據(jù)集的過(guò)程Fig.4 The process of building a dataset

最終本文選擇把貼片的大小定為16×16，然后分別在清晰和模糊圖像中的對(duì)應(yīng)位置取出16×16 大小的貼片PA 和PB 垂直排列組合成16×32的貼片。與其他方法中單獨(dú)將兩個(gè)貼片分別投入網(wǎng)絡(luò)中相比，本文將貼片對(duì)組合到一起投入網(wǎng)絡(luò)中，可以提高分類的準(zhǔn)確性。如果上面是清晰貼片下面是模糊貼片的，上焦點(diǎn)組合被標(biāo)記為0，相反上面是模糊貼片下面是清晰貼片的，下焦點(diǎn)組合則被標(biāo)記為1。這樣便生成了本文訓(xùn)練所需要的數(shù)據(jù)集，包括100 000 對(duì)訓(xùn)練貼片和10 000對(duì)驗(yàn)證貼片，示例貼片對(duì)如圖5 所示。

圖5 數(shù)據(jù)集示例Fig.5 Example dataset

本方法中的網(wǎng)絡(luò)使用隨機(jī)梯度下降優(yōu)化器（SGD）進(jìn)行訓(xùn)練，這是深度學(xué)習(xí)網(wǎng)絡(luò)中最常見的優(yōu)化器。在本文的訓(xùn)練過(guò)程中，學(xué)習(xí)率指定為0.000 1，批量大小為128 個(gè)樣本，動(dòng)量為0.9，重量衰減為0.000 5，更新權(quán)重規(guī)則如下：

式中：v是動(dòng)量變量；i是迭代指標(biāo)；α 是學(xué)習(xí)率；L是損失函數(shù)；是損失相對(duì)于權(quán)重wi的導(dǎo)數(shù)。

3 設(shè)計(jì)融合方案

在進(jìn)行圖像融合處理之前，輸入的圖像已經(jīng)通過(guò)圖像預(yù)處理進(jìn)行濾波降噪、校正配準(zhǔn)，如果沒(méi)有進(jìn)行圖像預(yù)處理，融合圖像的質(zhì)量將很難保證。如果需要融合兩張以上的照片，可以采取串聯(lián)的方式依次融合。輸入的多聚焦圖像是彩色圖像，則需要將其轉(zhuǎn)換為灰度圖像，然后輸入預(yù)訓(xùn)練好的網(wǎng)絡(luò)中，網(wǎng)絡(luò)會(huì)輸出清晰度數(shù)值。融合步驟如圖6 所示?？梢钥闯鼍劢剐畔⒈粶?zhǔn)確地檢測(cè)到，細(xì)節(jié)豐富的區(qū)域的清晰度值接近1（黑色）或0（白色），而平緩區(qū)域的值往往接近0.5（灰色）。由于網(wǎng)絡(luò)中的跨步操作，網(wǎng)絡(luò)輸出的初始焦點(diǎn)圖大小與原始圖像不同。要生成與源圖像大小相同的全聚焦圖像，只需將每個(gè)值分配給其對(duì)應(yīng)的色塊，然后對(duì)重疊像素進(jìn)行平均，即可獲得。

圖6 圖像融合的過(guò)程Fig.6 The process of image fusion

在獲得分?jǐn)?shù)矩陣后，采用流行的選擇最大值策略處理矩陣。本文將矩陣轉(zhuǎn)換為二值化圖，閾值定為0.5，其處理方法如下：

式中：r,c為圖像矩陣中的坐標(biāo)。二值化圖中可能會(huì)包含一些錯(cuò)誤分類的像素，為了解決這個(gè)問(wèn)題，本文利用小區(qū)域過(guò)濾器清除孤立區(qū)域或填充小孔。另外本文使用形態(tài)過(guò)濾器中的腐蝕來(lái)處理過(guò)渡部分常常存在細(xì)線和毛刺的問(wèn)題，從而使連接部分更加平滑，獲得了比較滿意的最終分割圖D。最后按照逐像素加權(quán)平均規(guī)則，計(jì)算出融合圖像F：

式中：A(r,c)，B(r,c) 為輸入的多聚焦圖像。

4 實(shí)驗(yàn)與結(jié)果分析

為了驗(yàn)證所用方法的有效性，本文將提出的方法與影響力較高的一些方法進(jìn)行了主、客觀兩方面的比較，參與對(duì)比的方法包括基于塊（sssdi）的方法，基于稀疏表示（sr）的方法，基于多尺度分解（gff）的方法，基于像素（misf）的方法，基于卷積神經(jīng)網(wǎng)絡(luò)（cnn）的方法。

4.1 客觀評(píng)價(jià)

客觀評(píng)價(jià)在圖像融合效果的評(píng)價(jià)中起著重要作用，融合效果主要由多個(gè)指標(biāo)的定量得分來(lái)綜合評(píng)估。Liu 等[3]將常用的指標(biāo)分為4 類：基于信息論，基于圖像特征，基于圖像結(jié)構(gòu)相似性和基于人類感知。在這項(xiàng)研究中，本文從每個(gè)類別中選擇一個(gè)指標(biāo)進(jìn)行評(píng)估。選擇的4 個(gè)度量是：歸一化互信息QMI[14]、基于梯度的指標(biāo)QG[15]、基于結(jié)構(gòu)相似性的度量QY[16]、基于人類感知的度量QCB[17]。其中指標(biāo)QMI表示融合圖像和源圖像之間的互信息量，QG表示從源圖像注入融合圖像的空間細(xì)節(jié)的程度，QY表示源圖像和融合圖像之間的感知差異，QCB表示在融合圖像中的源圖像的對(duì)比度信息。

表2、表3 分別描述的是20 對(duì)彩色圖像和10 對(duì)灰色圖像，采用6 種融合方法質(zhì)量評(píng)估指標(biāo)的平均值，數(shù)值較大表示有較好的性能。雖然本文所提出的方法無(wú)論是彩色圖像融合還是灰度圖像融合實(shí)驗(yàn)，指標(biāo)QMI都略微落后，但是從4 個(gè)客觀評(píng)價(jià)指標(biāo)綜合來(lái)看，本文方法在客觀指標(biāo)評(píng)價(jià)方面優(yōu)于其他方法。

表2 彩色圖像評(píng)價(jià)指標(biāo)對(duì)比Tab.2 Comparison of color image evaluation indicators

表3 灰度圖像評(píng)價(jià)指標(biāo)對(duì)比Tab.3 Comparison of gray image evaluation indicators

4.2 主觀評(píng)價(jià)

主觀評(píng)價(jià)方法是評(píng)價(jià)者通過(guò)人眼視覺(jué)感知來(lái)對(duì)融合圖像進(jìn)行評(píng)價(jià)，主要的評(píng)價(jià)標(biāo)準(zhǔn)有：1) 最終融合圖像的清晰度和對(duì)比度是否和源圖像中的清晰區(qū)域保持一致，是否存在圖像質(zhì)量的嚴(yán)重降低；2) 融合圖像中離焦和聚焦結(jié)合區(qū)域是否存在偽影、暈影之類的不清晰情況。

圖7 展示了lytro 數(shù)據(jù)集中的“model girl”圖像對(duì)的6 種方法融合結(jié)果。從圖中可以看出，由于圖像中靠近肩部區(qū)域的背景區(qū)域中存在不希望出現(xiàn)的噪聲，因此gff 方法的融合結(jié)果非常差。sssdi、misf 和sr 方法的融合結(jié)果比gff 方法更好，但是仍存在一些多余的模糊像素?；赾nn的方法可產(chǎn)生良好的融合圖像，然而邊界周圍包含一些模糊偽影。本文所提出的方法產(chǎn)生的融合結(jié)果非常清晰，輪廓鮮明，并且?guī)缀醪话吔绺浇哪：袼亍Ｒ虼?，在視覺(jué)主觀感知方面，本文提出的方法保留了邊緣信息并生成了比其他圖像融合方法更好的融合圖像。

圖7 6 種彩色圖像融合方法的對(duì)比Fig.7 Comparison of the results of the six color image fusion methods

圖8 是來(lái)自“clock”圖像對(duì)的6 種方法融合結(jié)果。其中sr 方法生成的結(jié)果圖整體質(zhì)量較差，畫質(zhì)模糊。sssdi、cnn 比sr 方法生成的結(jié)果圖的質(zhì)量稍好，不過(guò)在這兩種方法的結(jié)果圖中，小時(shí)鐘與大時(shí)鐘交叉部分輪廓都有部分模糊的情況，有分割不準(zhǔn)確的問(wèn)題。gff 方法生成的圖像較為完整，美中不足在于大時(shí)鐘邊框有些許偽影。misf 方法和本文提出的方法生成的圖像清晰度高，精準(zhǔn)提取聚焦區(qū)域，細(xì)節(jié)保留較完整。

圖8 6 種灰度圖像融合方法的對(duì)比Fig.8 Comparison of the results of the six gray image fusion methods

5 結(jié)論與展望

多聚焦圖像融合的過(guò)程可以概括為從源圖像中提取聚焦區(qū)域的信息，然后將這些信息組合形成全聚焦圖像。本文使用深度學(xué)習(xí)的方法來(lái)解決多聚焦圖像融合任務(wù)，采用多級(jí)特征融合的手段，將淺層提取的信息和深層提取的信息相結(jié)合，充分利用提取到的特性，從而減少了邊界上的模糊偽影，提高了融合圖像的清晰度。實(shí)驗(yàn)結(jié)果表明，與現(xiàn)有技術(shù)相比，該方法在主觀評(píng)價(jià)和客觀評(píng)價(jià)方面均有很大的提高。后續(xù)工作可以將此技術(shù)應(yīng)用到具體的場(chǎng)景中，比如顯微鏡操作平臺(tái)，可以達(dá)到擴(kuò)展顯微成像設(shè)備景深的目的。