徐少平,李 芬,陳孝國(guó),陳曉軍,江順亮
(南昌大學(xué)數(shù)學(xué)與計(jì)算機(jī)學(xué)院,江西南昌 330031)
近十年來(lái),深度學(xué)習(xí)因其強(qiáng)大的非線性映射、特征學(xué)習(xí)與表達(dá)能力被廣泛地應(yīng)用于圖像降噪領(lǐng)域,并取得了巨大成功[1,2].以DnCNN(Denoising Convolutional Neural Network)[3]、FFDNet(Fast and Flexible Denoising convolutional neural Network)[4]和VDN(Variational Denoising Network)[5]為代表的基于深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)的有監(jiān)督降噪模型在降噪效果上較傳統(tǒng)經(jīng)典方法體現(xiàn)出顯著優(yōu)勢(shì).然而,基于有監(jiān)督DNN 降噪模型要想獲得令人滿意的降噪效果,必須確保有大量的訓(xùn)練數(shù)據(jù)集,而且這些訓(xùn)練圖像集應(yīng)與待降噪的噪聲圖像y在圖像內(nèi)容以及受噪聲干擾程度上必須近似.對(duì)于任意給定的噪聲圖像y,如果用于訓(xùn)練模型的圖像集與噪聲圖像在受噪聲干擾程度和圖像內(nèi)容上相差較大,DNN 降噪模型很難獲得最佳的降噪效果.尤其是在訓(xùn)練圖像采集困難的情況下,甚至連降噪模型都難以獲得.因此,DNN 降噪模型具有數(shù)據(jù)依賴(data dependency)缺陷.
近年來(lái),Dmitry 等人[6]基于DNN 網(wǎng)絡(luò)提出了一種被稱為深度圖像先驗(yàn)(Deep Image Prior,DIP)的新型降噪模型.DIP 模型采用U 型編碼器-解碼器(encoderdecoder)網(wǎng)絡(luò)架構(gòu)作為骨干網(wǎng)絡(luò)[6,7]獲取噪聲圖像y中的底層統(tǒng)計(jì)特征(low-level statistics),以隨機(jī)生成的張量(tensor)z作為網(wǎng)絡(luò)輸入,將網(wǎng)絡(luò)輸出圖像與噪聲圖像y(作為目標(biāo)圖像)之間的均方誤差(Mean Square Error,MSE)定義為L(zhǎng)oss 函數(shù).以Loss 函數(shù)值最小化為優(yōu)化目標(biāo),在在線訓(xùn)練模式下通過(guò)不斷調(diào)整網(wǎng)絡(luò)的參數(shù)值,并采用早停(early stopping)技術(shù)[6]適時(shí)終止網(wǎng)絡(luò)訓(xùn)練從而完成降噪任務(wù),即基于噪聲圖像y獲得關(guān)于無(wú)失真圖像x的最佳估計(jì).DIP 降噪模型僅利用噪聲圖像自身的信息實(shí)現(xiàn)降噪,并不依賴于特定的圖像訓(xùn)練數(shù)據(jù)集(實(shí)際上無(wú)需訓(xùn)練圖像),屬于無(wú)監(jiān)督降噪模型.與主流有監(jiān)督DNN 網(wǎng)絡(luò)模型相比,DIP 降噪模型中的網(wǎng)絡(luò)參數(shù)值是與特定噪聲圖像相匹配的,不是固定不變的.所以,DIP 降噪模型最大的優(yōu)勢(shì)在于它沒(méi)有數(shù)據(jù)依賴問(wèn)題,具有一定的生成能力,不會(huì)像有監(jiān)督降噪模型那樣因使用固定不變的網(wǎng)絡(luò)參數(shù)值而在降噪后圖像中引入幻影(hallucinant)結(jié)構(gòu),且圖像中某些局部圖像細(xì)節(jié)可以得到更好地復(fù)原和保護(hù).然而,DIP 降噪模型的降噪效果在整個(gè)圖像全局上并不高,其降噪效果甚至有時(shí)候差于BM3D 算法[8].為全面提高DIP 降噪模型的降噪效果和執(zhí)行效率,本文從網(wǎng)絡(luò)結(jié)構(gòu)、網(wǎng)絡(luò)輸入和Loss 函數(shù)三個(gè)方面對(duì)其進(jìn)行改進(jìn)從而獲得一種改進(jìn)的深度圖像先驗(yàn)(Improved Deep Image Prior,IDIP)降噪模型.
本文從以下3個(gè)方面對(duì)DIP模型進(jìn)行改進(jìn).
(1)網(wǎng)絡(luò)結(jié)構(gòu).原DIP 模型采用了Skip 連接建立編碼器-解碼器中相同層級(jí)特征之間的聯(lián)系,雖然可以減少下采樣操作所引起的信息損失[9],但Skip連接過(guò)于簡(jiǎn)單、描述能力不強(qiáng).為了實(shí)現(xiàn)編碼器-解碼器同層級(jí)之間更為有效信息傳遞,IDIP 降噪模型通過(guò)新增非線性特征路徑構(gòu)成復(fù)雜連接的方式,允許解碼器在利用編碼器提取的底層圖像特征時(shí),讓圖像特征能被更為復(fù)雜的非線性過(guò)程處理,使得解碼器在解析圖像特征時(shí)具有更大的靈活性,從而為提高網(wǎng)絡(luò)整體的非線性映射能力打下基礎(chǔ).
(2)網(wǎng)絡(luò)輸入.原DIP 降噪模型的輸入是隨機(jī)生成的張量z,隨機(jī)張量z并沒(méi)有提供任何關(guān)于降噪的先驗(yàn)信息,這使得DIP網(wǎng)絡(luò)模型中參數(shù)值調(diào)整到達(dá)收斂點(diǎn)所需要時(shí)間非常漫長(zhǎng)(迭代次數(shù)多,訓(xùn)練時(shí)間長(zhǎng)).這啟示本文將DIP模型的輸入(即隨機(jī)張量z)替換為初步降噪圖像,初步降噪圖像采用某個(gè)主流降噪方法處理給定的噪聲圖像后獲得,具有較高的圖像質(zhì)量.這種改進(jìn)將原DIP 模型中隨機(jī)張量z與最佳估計(jì)圖像的映射關(guān)系改變?yōu)槌醪浇翟雸D像與最佳估計(jì)圖像,使得模型映射難度降低.
(3)Loss 函數(shù).原DIP 降噪模型采用噪聲圖像y作為目標(biāo)圖像構(gòu)建Loss函數(shù),導(dǎo)向能力有限.為解決該問(wèn)題,一個(gè)自然的想法就是給Loss 函數(shù)中新增一個(gè)子項(xiàng),增加一個(gè)圖像質(zhì)量較高的圖像參與構(gòu)建Loss 函數(shù)以改善其導(dǎo)向能力.具體地,利用某個(gè)降噪效果比較好的主流降噪模型先對(duì)噪聲圖像進(jìn)行降噪,降噪后所獲得圖像質(zhì)量大為改進(jìn)的圖像稱為初步降噪圖像(作為第二個(gè)目標(biāo)圖像).初步降噪圖像的圖像質(zhì)量較噪聲圖像顯著得到改善,故利用它參與構(gòu)建Loss 函數(shù)可調(diào)整IDIP 網(wǎng)絡(luò)模型演進(jìn)方向,使得網(wǎng)絡(luò)輸出圖像在圖像空間中朝著更為合理的方向演進(jìn)(即無(wú)失真圖像x).基于上述改進(jìn)措施,所提出IDIP 降噪模型的體系架構(gòu)如圖1所示.下文就具體實(shí)現(xiàn)細(xì)節(jié)進(jìn)行詳細(xì)介紹.
如圖1 中復(fù)雜連接圖例所示,E 和C 分別表示擴(kuò)展(expanding)和聯(lián)接(concatenation)操作.為了建立同層m∈RC×H×W特征與∈RC×H×W特征之間的復(fù)雜連接,分為以下三個(gè)步驟:(1)通過(guò)式(1)提取每個(gè)通道的統(tǒng)計(jì)信息fpool(·);(2)通過(guò)式(2)中的全連接層fFC(·)使用提取的mean來(lái)挖掘特征通道間相互的關(guān)系;(3)通過(guò)式(3)將式(2)提取的特征與原DIP 模型簡(jiǎn)單直通路徑聯(lián)合并經(jīng)卷積層融合后建立復(fù)雜連接,式(1)~(3)的具體定義為:
其中,fpool(·)表示平均池化操作,fFC(·)表示完全連接層,E(·)表示將ρ的空間維擴(kuò)展到m維,C(·)是連接操作,Conv(·)表示卷積層.從圖1 中給出的復(fù)雜連接實(shí)現(xiàn)中可以看出:復(fù)雜連接實(shí)際上是在原來(lái)簡(jiǎn)單連接的路徑之外,又拓展了一個(gè)非線性映射路徑,是增強(qiáng)擴(kuò)展版本.與原DIP 模型相比,在IDIP 降噪模型中使用復(fù)雜連接可以緩解特征尺度變化而導(dǎo)致的信息丟失問(wèn)題,模型所需要參數(shù)數(shù)量?jī)H需增加約2.4%.
圖1 IDIP降噪模型框圖
為了分析引入復(fù)雜連接技術(shù)對(duì)IDIP 降噪模型所帶來(lái)益處,在10張測(cè)試圖像集上完成了對(duì)比實(shí)驗(yàn)(圖像受σ=30 中等嚴(yán)重程度噪聲干擾),改進(jìn)后的模型記為IDIP-1(網(wǎng)絡(luò)的輸入和Loss 函數(shù)的設(shè)置與原DIP 模型相同).由表1 可知:IDIP-1 模型的降噪性能在9 張圖像上的降噪效果都優(yōu)于DIP降噪模型,尤其是在圖像內(nèi)容比較復(fù)雜的Barbara 圖像上,性能提升達(dá)到0.41 dB.盡管如此,IDIP-1降噪模型在降噪效果上相對(duì)于對(duì)DIP 模型而言,在均值和標(biāo)準(zhǔn)差兩項(xiàng)指標(biāo)上總體提升幅度并不是特別大,這表明對(duì)網(wǎng)絡(luò)結(jié)構(gòu)的改進(jìn)有一定的效果,為后續(xù)網(wǎng)絡(luò)的進(jìn)一步改進(jìn)打下了很好的基礎(chǔ).
表1 骨干網(wǎng)絡(luò)的改進(jìn)對(duì)降噪性能的影響(dB)
初步降噪圖像在IDIP 模型中作為網(wǎng)絡(luò)輸入替換了隨機(jī)張量z.為分析這種改進(jìn)對(duì)IDIP降噪模型所帶來(lái)的益處,在常用測(cè)試圖像上完成了測(cè)試.改進(jìn)后的模型記為IDIP-2(即網(wǎng)絡(luò)的輸入為預(yù)處理圖像,骨干網(wǎng)絡(luò)中采用復(fù)雜連接,Loss 函數(shù)與DIP 模型相同).由表2 可知:IDIP-2 模型的降噪性能顯著優(yōu)于DIP 降噪模型,PSNR 均值提升了1 dB 以上,同時(shí)標(biāo)準(zhǔn)差指標(biāo)也大幅度減少了;IDIP-2 模型的降噪效果已經(jīng)達(dá)到稍優(yōu)于主流FFDNet 降噪模型的水平(提升了0.08 dB),這充分說(shuō)明了利用初步降噪后圖像xˉ作為網(wǎng)絡(luò)的輸入可以有效提高降噪性能.
IDIP網(wǎng)絡(luò)采用了以下混合Loss函數(shù):
其中,表示迭代第i次時(shí)IDIP 網(wǎng)絡(luò)的輸出圖像,y代表噪聲圖像(第一個(gè)目標(biāo)圖像),表示經(jīng)過(guò)FFDNet 模型處理后所獲得的初步降噪后圖像(即作為第二目標(biāo)圖像).為了分析混合Loss函數(shù)的改進(jìn)對(duì)IDIP模型所帶來(lái)益處,將網(wǎng)絡(luò)輸入設(shè)置為初步降噪圖像,骨干網(wǎng)絡(luò)采用復(fù)雜連接,Loss 函數(shù)采用混合Loss 函數(shù)(上述配置即為本文所提出的IDIP 模型,Loss 函數(shù)僅采用噪聲目標(biāo)圖像的模型為IDIP-2模型).由表2可知,IDIP降噪模型的降噪性能明顯優(yōu)于IDIP-2 降噪模型,PSNR 均值進(jìn)一步提高了0.45 dB,標(biāo)準(zhǔn)差也減少了0.01,此時(shí)IDIP降噪模型的降噪效果已經(jīng)顯著超過(guò)主流FFDNet 降噪模型(作為對(duì)照模型),同時(shí)標(biāo)準(zhǔn)差也排名第二,表明使用初步降噪圖像構(gòu)造混合Loss函數(shù)能有效提高降噪效果.
表2 網(wǎng)絡(luò)輸入和Loss函數(shù)的改進(jìn)對(duì)降噪性能的影響(dB)
測(cè)試圖像集合分別為:(1)常用圖像集.由各個(gè)文獻(xiàn)中被廣泛使用的10 張測(cè)試圖像組成,包括House、Peppers、Barbara、Boat、Cameraman、Couple、Hill、Lena、Man 和Monarch;(2)BSD 圖像集,由BSD 數(shù)據(jù)庫(kù)[10]隨機(jī)挑選中的50 張圖像組成.所有算法都在相同硬件平臺(tái)(Intel(R)Xeon(R)CPU E5-1603 v4 @ 2.80 GHz RAM 16 GB)和軟件環(huán)境(Windows10)上運(yùn)行.
IDIP 模型選擇利用某個(gè)主流降噪方法對(duì)噪聲圖像降噪后所獲得的初步降噪圖像作為網(wǎng)絡(luò)的輸入來(lái)替換DIP降噪模型的隨機(jī)張量z.同時(shí),初步降噪圖像也作為第二目標(biāo)圖像參與構(gòu)建Loss 函數(shù).為分析使用主流降噪方法的不同對(duì)IDIP 模型性能所帶來(lái)的影響,本文選擇了代表性的DnCNN[3]、BM3D[8]、NCSR[11]、WNNM[12]和FFDNet[4]5種主流降噪方法參與比較,各種情況下的模型記為IDIP(DnCNN)、IDIP(BM3D)、IDIP(NCSR)、IDIP(WNNM)和IDIP(FFDNet).由表3 可知,IDIP 降噪模型使用不同的主流降噪方法獲得初步降噪圖像對(duì)最終的降噪效果會(huì)產(chǎn)生一定影響(最大差距可達(dá)0.18 dB,但是相對(duì)于網(wǎng)絡(luò)輸入和Loss 函數(shù)改進(jìn)而言幅度要小很多).根據(jù)實(shí)驗(yàn)數(shù)據(jù),使用WNNM 和DnCNN 也能獲得相近的降噪效果.但是,考慮到WNNM 算法自身執(zhí)行效率偏低,而DnCNN 降噪模型的通用性存在一定的缺陷(相對(duì)于FFDNet而言),故本文最終選定利用FFDNet獲得初步降噪圖像.下文的實(shí)驗(yàn)數(shù)據(jù)均是在此配置條件下獲得的.
表3 在噪聲水平σ=30下不同初步降噪圖像對(duì)降噪性能的影響(dB)
首先,在圖2 所示的降噪效果視覺(jué)對(duì)比中,在所有參與比較的方法中,僅有IDIP 和DIP 降噪模型很好地保留了圖像中較弱的邊緣細(xì)節(jié)(框內(nèi)箭頭所指處),而其他對(duì)比方法幾乎已經(jīng)將Lena 圖像中微弱的邊緣細(xì)節(jié)模糊化了,這表明IDIP 和DIP 降噪模型這類(lèi)基于深度圖像先驗(yàn)構(gòu)建的降噪模型更善于利用圖像自身的內(nèi)部結(jié)構(gòu)信息實(shí)現(xiàn)更好的降噪效果,而從圖像整體降噪效果而言,IDIP 降噪模型要遠(yuǎn)優(yōu)于DIP模型.
圖2 各對(duì)比方法在Lena圖像上的降噪效果對(duì)比
其次,由表4 和表5 可知:在常用和BSD 測(cè)試圖像集合上,IDIP降噪模型在各噪聲水平值σ下的降噪效果均顯著優(yōu)于各對(duì)比方法,且總體上是穩(wěn)健的.
表4 各對(duì)比方法在常用圖像上所獲得的PSNR均值比較(dB)
表5 各對(duì)比方法在50張BSD圖像上所獲得的PSNR均值比較(dB)
由表6 可知:達(dá)到DIP 降噪模型所獲得的最優(yōu)PSNR 值(表6 中第一行數(shù)據(jù),各圖像受噪聲水平值為σ=40 的高斯噪聲干擾),IDIP 模型所需的迭代次數(shù)和執(zhí)行時(shí)間均比DIP 模型減少了80%左右,遠(yuǎn)小于DIP 模型,執(zhí)行效率得到顯著提升.需要說(shuō)明的是:相對(duì)于DIP 模型,盡管IDIP 模型的執(zhí)行效率獲得了顯著提升,但是相對(duì)于當(dāng)前主流的有監(jiān)督降噪模型而言,由于網(wǎng)絡(luò)參數(shù)值仍然需要較多次數(shù)的迭代更新才能調(diào)整到最佳值,IDIP降噪模型的執(zhí)行效率仍然處于劣勢(shì).
表6 DIP與IDIP降噪模型執(zhí)行迭代次數(shù)和執(zhí)行時(shí)間的比較
本文對(duì)原DIP 降噪模型的網(wǎng)絡(luò)結(jié)構(gòu)、網(wǎng)絡(luò)輸入和Loss 函數(shù)三個(gè)方面進(jìn)行了全面改進(jìn),所獲得的IDIP 降噪模型在降噪效果和執(zhí)行效率兩個(gè)方面均顯著優(yōu)于原DIP 降噪模型.相對(duì)于其他當(dāng)前主流的降噪方法來(lái)說(shuō),IDIP 降噪模型在降噪效果上有顯著優(yōu)勢(shì).對(duì)于IDIP 模型執(zhí)行效率相對(duì)于主流降噪方法仍然偏低的問(wèn)題,未來(lái)可考慮通過(guò)研究快速初始化網(wǎng)絡(luò)參數(shù)值的方法,在Meta-Transfer Learning 技術(shù)[13]支撐下讓IDIP 降噪模型經(jīng)過(guò)少量迭代訓(xùn)練達(dá)到收斂,從而進(jìn)一步提升執(zhí)行效率.