歐陽(yáng)寧,曾夢(mèng)萍,林樂(lè)平
1.認(rèn)知無(wú)線電與信息處理省部共建教育部重點(diǎn)實(shí)驗(yàn)室(桂林電子科技大學(xué)),廣西 桂林 541004;2.桂林電子科技大學(xué) 信息與通信學(xué)院,廣西 桂林 541004)(*通信作者電子郵箱lin_leping@163.com)
基于并列卷積神經(jīng)網(wǎng)絡(luò)的超分辨率重建
歐陽(yáng)寧1,2,曾夢(mèng)萍2,林樂(lè)平1,2*
1.認(rèn)知無(wú)線電與信息處理省部共建教育部重點(diǎn)實(shí)驗(yàn)室(桂林電子科技大學(xué)),廣西 桂林 541004;2.桂林電子科技大學(xué) 信息與通信學(xué)院,廣西 桂林 541004)(*通信作者電子郵箱lin_leping@163.com)
為提取更多有效特征并提高模型訓(xùn)練的收斂速度,提出一種基于并列卷積神經(jīng)網(wǎng)絡(luò)的超分辨率重建方法。該網(wǎng)絡(luò)由兩路不同結(jié)構(gòu)的網(wǎng)絡(luò)組成:一路為簡(jiǎn)單的殘差網(wǎng)絡(luò),其優(yōu)化殘差映射比原始的映射更容易實(shí)現(xiàn);另一路為增加了非線性映射的卷積神經(jīng)網(wǎng)絡(luò),增強(qiáng)了網(wǎng)絡(luò)的非線性能力。隨著并行網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)雜化,收斂速度慢成為突出問(wèn)題。針對(duì)這個(gè)問(wèn)題,在卷積層后添加正則化處理,以簡(jiǎn)化模型參數(shù)、增強(qiáng)特征擬合能力,最終達(dá)到加快收斂的目的。實(shí)驗(yàn)結(jié)果表明,與基于深度卷積神經(jīng)網(wǎng)絡(luò)算法相比,該網(wǎng)絡(luò)結(jié)構(gòu)收斂速度更快,主觀視覺(jué)效果更好,峰值信噪比(PSNR)平均提高了0.2 dB。
并列卷積神經(jīng)網(wǎng)絡(luò);殘差網(wǎng)絡(luò);非線性映射;正則化處理;收斂速度
圖像超分辨(Super-Resolution, SR)重建的目的是從一組或一幅低分辨率(Low-Resolution, LR)圖像推測(cè)丟失的高頻信息來(lái)重建高分辨率(High-Resolution, HR)圖像[1]。單幅圖像超分辨率(Single Image SR, SISR)重建算法可分為三大類(lèi):基于插值算法[2]、基于重建算法[3],以及基于學(xué)習(xí)的算法[4-10]。由于基于學(xué)習(xí)的算法的重建效果更優(yōu),大多數(shù)學(xué)者的研究都是建立在這個(gè)基礎(chǔ)上。目前,學(xué)習(xí)算法通常是學(xué)習(xí)LR和HR圖像塊之間的映射關(guān)系。Chang等[6]提出的鄰域嵌入算法是插值圖像塊(Neighbor Embedding with Locally Linear Embedding, NE+LLE)子空間。Yang等[4-5]提出的稀疏編碼算法是利用稀疏表示關(guān)系來(lái)學(xué)習(xí)耦合字典。隨機(jī)森林[8]以及卷積神經(jīng)網(wǎng)絡(luò)[9-10]也被應(yīng)用于這個(gè)領(lǐng)域,同時(shí)精度得到很大的提高。其中:Dong等[9]提出了基于卷積神經(jīng)網(wǎng)絡(luò)的超分辨率重建(Learning a Deep Convolutional Network for Image SR),成功地將深度學(xué)習(xí)技術(shù)引用到SR鄰域中,該算法系統(tǒng)稱(chēng)為SRCNN。其主要特征是以端對(duì)端的方式直接學(xué)習(xí)LR與HR圖像塊之間的映射,只需極少量的預(yù)前和預(yù)后處理。而Yang等[4-7]提出的學(xué)習(xí)算法需要預(yù)處理過(guò)程,即塊的提取和整合,同時(shí)這個(gè)過(guò)程需要分開(kāi)處理。值得一提的是SRCNN算法的效果基本優(yōu)于Yang等[4-5,7]提出的算法。
但SRCNN依舊存在局限性。首先,該網(wǎng)絡(luò)學(xué)習(xí)到的特征少且單一;再者該網(wǎng)絡(luò)的學(xué)習(xí)速率低,訓(xùn)練網(wǎng)絡(luò)時(shí)間長(zhǎng)。
SRCNN模型證明了直接學(xué)習(xí)LR-HR之間端到端映射的可行性,因此可以推測(cè)增加更多的卷積層用于提取更多的特征可能提高SRCNN的重建效果,但更深的網(wǎng)絡(luò)難以訓(xùn)練且不易于收斂。因此本文引入了一種并列的網(wǎng)絡(luò)結(jié)構(gòu),該網(wǎng)絡(luò)訓(xùn)練過(guò)程是并列互不干擾的。通過(guò)兩路不同網(wǎng)絡(luò)結(jié)構(gòu)捕獲更多不同的有效特征,解決了SRCNN特征少且單一的問(wèn)題。由于并列網(wǎng)絡(luò)加寬了網(wǎng)絡(luò),增加了參數(shù)個(gè)數(shù)和特征數(shù)量,從而提高了模型重建效果。
為了解決模型復(fù)雜化的問(wèn)題,本文在卷積層后添加相對(duì)應(yīng)的局部響應(yīng)正則化(Local Response Normalization, LRN)層[10]。LRN模擬側(cè)抑制,迫使在特征映射中的特征以及相鄰特征映射進(jìn)行局部競(jìng)爭(zhēng),使得所有輸入特征映射都具有相似的方差。通過(guò)減少參數(shù)調(diào)整過(guò)程中不適定性帶來(lái)的噪聲干擾達(dá)到簡(jiǎn)明模型的參數(shù)的效果,最終使得模型可以使用比SRCNN高10倍的學(xué)習(xí)速率進(jìn)行訓(xùn)練。較高的學(xué)習(xí)速率能夠使訓(xùn)練不易陷入局部極小值,并能提高模型的收斂速度。在訓(xùn)練過(guò)程中,本文使用的相同的學(xué)習(xí)速率。而SRCNN為了使模型能穩(wěn)定地收斂,因此在不同的層使用不同的學(xué)習(xí)速率。
本文引入分離層[13]構(gòu)造并列網(wǎng)絡(luò)模型。該模型加寬了網(wǎng)絡(luò),增加了參數(shù)個(gè)數(shù),并有效地防止了過(guò)擬合現(xiàn)象;同時(shí)設(shè)計(jì)不同的兩路網(wǎng)絡(luò)結(jié)構(gòu)捕獲不同的有效特征,更多的有效特征有利于提高重建效果。
本文模型是由殘差支路和非線性支路組成的并列模型。該并列網(wǎng)絡(luò)的兩路輸入為相同的LR圖像,通過(guò)本文模型最終獲得HR圖像。整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)的基本框架如圖1所示。
圖1 并列網(wǎng)絡(luò)結(jié)構(gòu)
殘差支路:分離層中的一個(gè)輸出LR圖像作為該支路的輸入。首先用核大小為9×9的卷積層提取特征,該特征提取層相當(dāng)于是一個(gè)線性操作。激活函數(shù)Relu[15]對(duì)特征提取層輸出的所有特征映射進(jìn)行非線性處理,并對(duì)該激活函數(shù)輸出的所有特征映射進(jìn)行LRN處理。最后將LRN的響應(yīng)輸出作為殘差網(wǎng)絡(luò)的輸入。
非線性支路:該支路同樣使用9×9的卷積核進(jìn)行特征提取,隨之通過(guò)激活函數(shù)Relu對(duì)其輸出映射進(jìn)行非線性處理。添加LRN層,對(duì)非線性處理后的所有特征映射處理,最后將LRN的響應(yīng)輸出作為非線性層的輸入。
增加卷積層可以提高網(wǎng)絡(luò)模型的重建性能,但濾波器參數(shù)的增加會(huì)增加網(wǎng)絡(luò)的訓(xùn)練時(shí)間。因此網(wǎng)絡(luò)支路2選用非線性網(wǎng)絡(luò),是為了在不增加網(wǎng)絡(luò)復(fù)雜度的情況下增加網(wǎng)絡(luò)的非線性能力,并相對(duì)提高了網(wǎng)絡(luò)的重建質(zhì)量。
值得一提的是,殘差支路和非線性支路的訓(xùn)練過(guò)程是互不干擾的,這避免了其中一條支路的網(wǎng)絡(luò)參數(shù)值不適用于另一支路網(wǎng)絡(luò)的問(wèn)題。同時(shí),網(wǎng)絡(luò)結(jié)構(gòu)由兩條不同的支路構(gòu)成,這有利于兩條支路捕捉不同的有效特征,以便在重建過(guò)程中能夠擁有更多的有效信息,從而重建得到與原圖更相似的HR圖像。兩條支路和單條支路相比,加寬了網(wǎng)絡(luò),使得參數(shù)增加,特征數(shù)量也增加,同時(shí)還能有效防止過(guò)擬合。
重建層:將殘差網(wǎng)絡(luò)的輸出特征和非線性層輸出特征相加進(jìn)行特征融合,并用融合后的所有特征映射用核大小為5×5卷積層重建得到HR圖像。
為了提高模型中各分支網(wǎng)絡(luò)訓(xùn)練的收斂速度以及重建效果,本文對(duì)網(wǎng)絡(luò)結(jié)構(gòu)、學(xué)習(xí)速率等方面進(jìn)行了研究。在傳統(tǒng)的深度學(xué)習(xí)訓(xùn)練中,如果簡(jiǎn)單地設(shè)置高學(xué)習(xí)速率會(huì)導(dǎo)致梯度爆炸或梯度消失[14],因此本文加入LRN層達(dá)到簡(jiǎn)明模型的效果,解決訓(xùn)練過(guò)程中梯度消失及梯度爆炸問(wèn)題,最終使得網(wǎng)絡(luò)可以使用較高的學(xué)習(xí)速率學(xué)習(xí)整個(gè)網(wǎng)絡(luò)。較高的學(xué)習(xí)速率使得梯度損失相對(duì)大,同時(shí)參數(shù)的步伐相對(duì)大,使得網(wǎng)絡(luò)訓(xùn)練過(guò)程不易陷入局部極小值,也相對(duì)減少調(diào)整參數(shù)的次數(shù),從而提高網(wǎng)絡(luò)訓(xùn)練的收斂速度。
2.1 卷積神經(jīng)網(wǎng)絡(luò)中的LRN(局部正則化)
該層對(duì)輸入的特征映射依次處理,簡(jiǎn)明網(wǎng)絡(luò)模型。公式如下所示:
(1)
式(1)的原理是對(duì)每個(gè)特征圖相鄰的5幅特征圖的每個(gè)特征圖的每個(gè)相應(yīng)的像素點(diǎn)處理,然后求平均,但并不引入另外的濾波器參數(shù)。該處理過(guò)程是模擬側(cè)抑制,對(duì)局部輸入?yún)^(qū)域進(jìn)行歸一化。LRN通過(guò)對(duì)每次梯度下降調(diào)整后的參數(shù)再作一次約束處理,減少相鄰特征映射的參數(shù)方差,達(dá)到減少每次參數(shù)調(diào)整過(guò)程中引入噪聲的目的,從而簡(jiǎn)化模型參數(shù)。簡(jiǎn)化后的模型朝著滿足LRN約束條件的方向優(yōu)化,減少的噪聲干擾解決了參數(shù)調(diào)整過(guò)程中梯度爆炸的問(wèn)題,從而使得網(wǎng)絡(luò)模型能用較高的學(xué)習(xí)速率學(xué)習(xí)整個(gè)網(wǎng)絡(luò)。
2.2 殘差支路中的殘差網(wǎng)絡(luò)
本文使用的簡(jiǎn)單的殘差網(wǎng)絡(luò),框架如圖2所示。
圖2 簡(jiǎn)單的殘差網(wǎng)絡(luò)
該網(wǎng)絡(luò)的公式如下所示:
y=F(x,{Wi})+x
(2)
其中:x和y為殘差網(wǎng)絡(luò)的輸入和輸出;F(x,{Wi})表示的是網(wǎng)絡(luò)學(xué)習(xí)到的殘差映射,由圖2知該網(wǎng)絡(luò)總共有三層;F=W3σ(W2σ(W1x)),σ表示Relu,偏置省略了用來(lái)簡(jiǎn)化符號(hào)。F+x操作通過(guò)快捷連接和元素相加表示。
殘差網(wǎng)絡(luò)具有優(yōu)化殘差映射比優(yōu)化原始映射更加容易的優(yōu)點(diǎn)[16-17]。殘差網(wǎng)絡(luò)是快捷連接[18],直接跳躍一層或多層,因此殘差網(wǎng)絡(luò)優(yōu)化網(wǎng)絡(luò)參數(shù)的過(guò)程更加快捷。由圖2可知,在整個(gè)連接過(guò)程中既沒(méi)有增加額外的參數(shù)也沒(méi)有增加網(wǎng)絡(luò)的計(jì)算復(fù)雜度。整個(gè)網(wǎng)絡(luò)的訓(xùn)練依舊采用隨機(jī)梯度下降法。
考慮到網(wǎng)絡(luò)支路的結(jié)構(gòu)復(fù)雜度,以及訓(xùn)練時(shí)間等因素。本文采用三層的殘差網(wǎng)絡(luò),這三層分別為1×1,3×3,1×1的卷積層。在沒(méi)有增加模型復(fù)雜性的基礎(chǔ)上用1×1的卷積層增加網(wǎng)絡(luò)的非線性能力。值得一提的是,本文特地在中間層后添加了LRN層,對(duì)上層輸出的特征映射進(jìn)行處理,使得局部區(qū)域的特征映射相互競(jìng)爭(zhēng),進(jìn)行局部歸一化,達(dá)到簡(jiǎn)化模型參數(shù)的目的。
在殘差網(wǎng)絡(luò)中,本文采用的補(bǔ)零方法保證圖像維度一致。這也是選用簡(jiǎn)單的殘差網(wǎng)絡(luò)的原因,如果選擇的殘差網(wǎng)絡(luò)模型中的濾波器過(guò)大,則補(bǔ)零就會(huì)越多,這同時(shí)也增加了圖像的噪聲,進(jìn)而會(huì)降低圖像重建質(zhì)量。
2.3 網(wǎng)絡(luò)訓(xùn)練
本文實(shí)驗(yàn)使用91張圖像作為訓(xùn)練集,測(cè)試集用由set4以及set5組成,同時(shí)使用3倍放大因子進(jìn)行訓(xùn)練,以及估計(jì)圖像效果。
本文算法和比較算法都是在相同的實(shí)驗(yàn)平臺(tái)(IntelCPU3.20GHz和8GB內(nèi)存)上操作的,應(yīng)用的是MatlabR2014a以及Caffe。Caffe用于本文算法和SRCNN算法的網(wǎng)絡(luò)訓(xùn)練,其他幾種算法不需要此過(guò)程。值得注意的是基于深度學(xué)習(xí)算法的實(shí)驗(yàn)要保持?jǐn)?shù)據(jù)庫(kù)一致,避免了數(shù)據(jù)庫(kù)大小對(duì)重建精度的影響。本文網(wǎng)絡(luò)的輸入圖像為33×33 的子圖像,子圖像是在x(i)高分辨率圖像集裁剪出來(lái)的。其中網(wǎng)絡(luò)框架中特征提取層濾波器大小為9×9,殘差網(wǎng)絡(luò)濾波器大小分別為1×1,3×3,1×1,非線性層的濾波器設(shè)置為1×1,重建層濾波器大小為5×5。除了重建層濾波器個(gè)數(shù)為1,其他所有層濾波器個(gè)數(shù)均為64。以雙三次插值Bicubic方法作為基準(zhǔn)算法,同時(shí)還選擇基于稀疏編碼的圖像超分辨(SparsecodingbasedSuperResolution,ScSR)算法[5]、錨點(diǎn)鄰域回歸的(AnchoredNeighborhoodRegression,ANR)算法[7],以及SRCNN算法[9]作對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)中,本文采用了花、蝴蝶、人臉等常用的圖像測(cè)試,此外待重建LR圖尺度放大倍數(shù)s=3。
本文構(gòu)造的是并列網(wǎng)絡(luò)。并列網(wǎng)絡(luò)簡(jiǎn)單的理解是加寬了網(wǎng)絡(luò),增加了網(wǎng)絡(luò)參數(shù)個(gè)數(shù),以及增加了特征數(shù)量,能有效地提高重建視覺(jué)效果;再者本文應(yīng)用是兩個(gè)不同的支路構(gòu)成,捕捉了不同的有效圖像特征,更多的有效特征也有利于提高重建質(zhì)量。圖3為兩個(gè)網(wǎng)絡(luò)支路的任意的特征映射圖。
圖3 兩條支路特征映射圖
由圖3可知,兩條網(wǎng)絡(luò)支路都獲得了有效的特征信息:一條支路捕捉的是光滑信息,另一條捕捉的是輪廓信息。這驗(yàn)證了本文提到的不同的網(wǎng)絡(luò)結(jié)構(gòu)可以捕捉不同的有效特征。
實(shí)驗(yàn)結(jié)果如圖4~5所示,分別比較了bird、 ppt3圖用不同SR方法的重建結(jié)果,考察全景圖以及截取bird的眼角周?chē)鹈y理和ppt3的話筒等細(xì)節(jié)部分。從視覺(jué)觀測(cè)上來(lái)看,Bicubic基于平滑假設(shè),重建效果最差,細(xì)節(jié)不明顯,圖像模糊,整體表明較為平滑。ScSR方法的部分細(xì)節(jié)重建效果好但bird眼角周?chē)鹈诎捉惶孢吘壊粔蜃匀怀霈F(xiàn)振鈴現(xiàn)象;ANR算法中bird眼角周?chē)蚿pt3上的話筒相對(duì)較好,細(xì)節(jié)細(xì)膩但出現(xiàn)部分偽影信息。SRCNN算法雖然比以上方法不論是從視覺(jué)還是從評(píng)估參數(shù)上都有較大提高,但是在bird眼角周?chē)鹈恼疋彔钸€是需改善。而本文方法在bird羽毛邊緣的銳度和清晰度都得到明顯的改善,且重建的高頻信息豐富,視覺(jué)效果更好;同樣從圖5 ppt3圖像話筒的細(xì)節(jié)看出,本文算法恢復(fù)的局部細(xì)節(jié)信息清晰、細(xì)膩,整體效果與原始圖像更接近。
圖4 bird原始HR及各方法重建結(jié)果對(duì)比
本文首先對(duì)網(wǎng)絡(luò)的單支路加入LRN層作對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如圖6所示,從中可看出對(duì)于單支路加入LRN層能相對(duì)提高模型的收斂速度。
圖5 ppt3原始HR及各方法重建結(jié)果對(duì)比
另外,本文的兩條網(wǎng)絡(luò)支路結(jié)構(gòu)都很簡(jiǎn)單:一支路選用特征提取層以及最簡(jiǎn)單的殘差網(wǎng)絡(luò),和原有的映射相比,優(yōu)化殘差映射更容易;另一支路只由特征提取層和非線性層構(gòu)成。值得一提是,特地添加LRN層主要用于簡(jiǎn)化網(wǎng)絡(luò)參數(shù),減少參數(shù)調(diào)整過(guò)程中輸入噪聲的干擾,以至于本文利用使用0.001的學(xué)習(xí)速率。較高的學(xué)習(xí)速率使得整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)更容易收斂,同時(shí)也有利于提高重建精度。此外,本文還進(jìn)行了收斂速度測(cè)試,圖7展示了在數(shù)據(jù)集set5上的測(cè)試結(jié)果。由圖7可知對(duì)于傳統(tǒng)算法而言,不考慮收斂速度這個(gè)因素影響。因?yàn)檫@幾個(gè)重建算法都是訓(xùn)練好字典后然后進(jìn)行矩陣運(yùn)算,不存在網(wǎng)絡(luò)訓(xùn)練反向傳播次數(shù)這個(gè)因素的影響,所以隨著反向傳播次數(shù)的增加,它們的峰值信噪比(Peak Signal-to-Noise Ratio, PSNR)也保持不變,最終它們PSNR呈現(xiàn)的是直線。同時(shí)觀察到SRCNN算法重建精度優(yōu)于其他幾種算法,而本文算法相對(duì)而言是最優(yōu)的,其PSNR平均高于SRCNN 0.2 dB,這說(shuō)明本文算法確實(shí)可行有效。本文可以在反向傳播次數(shù)為2×108時(shí),測(cè)試set5平均值為32.42 dB就可以超過(guò)SRCNN在反向傳播次數(shù)為8×108的32.39 dB的效果,這說(shuō)明高學(xué)習(xí)速率有利于提高模型的收斂速度;而本文算法不論是視覺(jué)效果還是參數(shù)估計(jì)都優(yōu)于SRCNN。這說(shuō)明高學(xué)習(xí)速率也是有利于重建質(zhì)量,實(shí)驗(yàn)結(jié)果如表1~2所示。值得一提的是本文最終使用的反向傳播次數(shù)是4.0×108而SRCNN使用的是8.0×108。
圖6 單支路添加LRN與SRCNN比較曲線圖
圖7 本文算法和其他幾種算法測(cè)試set5收斂速度以及結(jié)果曲線圖
表1 本文測(cè)試圖像重建結(jié)果PSNR對(duì)比 dB
表2 本文測(cè)試圖像重建結(jié)果SSIM對(duì)比
本文提出了基于并列卷積網(wǎng)絡(luò)的超分辨率重建方法。該網(wǎng)絡(luò)證明了通過(guò)加寬網(wǎng)絡(luò)可以捕捉更多不同的有效特征,更多的有效特征信息有利于提高重建精度;同時(shí)還驗(yàn)證了通過(guò)LRN對(duì)局部輸入變量歸一化處理,可相對(duì)減少輸入噪聲的干擾達(dá)到簡(jiǎn)化網(wǎng)絡(luò)參數(shù)的目的。簡(jiǎn)化模型參數(shù)不僅可以增強(qiáng)網(wǎng)絡(luò)模型擬合特征的能力,而且使得網(wǎng)絡(luò)模型可用更高的學(xué)習(xí)速率進(jìn)行訓(xùn)練。較高的學(xué)習(xí)速率相對(duì)減少了參數(shù)調(diào)整的次數(shù),從而提高模型的收斂速度。本文不論是在主觀重建效果還是客觀評(píng)價(jià)參數(shù)上都有所提高。在接下來(lái)工作中研究的內(nèi)容包括在更深的網(wǎng)絡(luò)結(jié)構(gòu)如何使用更高的學(xué)習(xí)速率收斂網(wǎng)絡(luò),并通過(guò)增加網(wǎng)絡(luò)深度提高重建精度。
References)
[1] GLASNER D, BAGON S, IRANI M. Super-resolution from a single image[C]// Proceedings of the 2009 IEEE 12th International Conference on Computer Vision. Piscataway, NJ: IEEE, 2009: 349-356.
[2] ZHANG D, WU X. An edge-guided image interpolation algorithm via directional filtering and data fusion [J]. IEEE Transactions on Image Processing, 2006, 15(8): 2226-2238.
[3] RASTI P, DEMIREL H, ANBARJAFARI G. Image resolution enhancement by using interpolation followed by iterative back projection[C]// Proceedings of the 2013 21st Signal Processing and Communications Applications Conference (SIU). Piscataway, NJ: IEEE, 2013: 1-4.
[4] YANG J-C, WRIGHT J, HUANG T S, et al. Image super-resolution via sparse representation[J]. IEEE Transactions on Image Processing, 2010, 19(11): 2861-2873.
[5] YANG J, WRIGHT J, HUANG T, et al. Image super-resolution as sparse representation of raw image patches[C]// Proceedings of the 2008 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2008: 1-8.
[6] CHANG H, YEUNG D Y, XIONG Y. Super-resolution through neighbor embedding[C]// Proceedings of the 2004 Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2004, 1: I-I.
[7] TIMOFTE R, SMET V, GOOL L. Anchored neighborhood regression for fast example-based super-resolution[C]// Proceedings of the 2013 IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE, 2013: 1920-1927.
[8] SCHULTER S, LEISTNER C, BISCHOF H. Fast and accurate image upscaling with super-resolution forests[C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2015: 3791-3799.
[9] DONG C, LOY C C, HE K, et al. Learning a deep convolutional network for image super-resolution[C]// Proceedings of the 13th European Conference on Computer Vision, LNCS 8692. Berlin: Springer, 2014: 184-199.
[10] DONG C, LOY C C, HE K, et al. Image super-resolution using deep convolutional networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 38(2): 295-307.
[11] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[EB/OL]. [2016- 03- 10]. https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf.
[12] SHANKAR S, ROBERTSON D, IOANNOU Y, et al. Refining architectures of deep convolutional neural networks [EB/OL]. [2016- 03- 01]. https://arxiv.org/pdf/1604.06832v1.pdf.
[13] NAIR V, HINTON G E. Rectified linear units improve restricted Boltzmann machines[EB/OL]. [2016- 03- 01]. http://machinelearning.wustl.edu/mlpapers/paper_files/icml2010_NairH10.pdf.
[14] BENGIO Y, SIMARD P, FRASCONI P. Learning long-term dependencies with gradient descent is difficult [J]. IEEE Transactions on Neural Networks, 1994, 5(2): 157-166.
[15] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[EB/OL]. [2016-03- 01]. https://arxiv.org/pdf/1512.03385v1.pdf.
[16] SZEGEDY C, IOFFE S, VANHOUCKE V. Inception-v4, inception-ResNet and the impact of residual connections on learning[EB/OL]. [2016- 03- 01]. https://arxiv.org/pdf/1602.07261.pdf.
[17] BISHOP C M. Neural Networks for Pattern Recognition[M]. Oxford: Oxford University Press, 1995.
[18] LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.
This work is partially supported by National Natural Science Foundation of China (61362021, 616620211017), the Natural Science Foundation of Guangxi (2013GXNSFDA019030, 2014GXNSFDA118035), the Key Laboratory Director Foundation of Cognitive Radio and Information Processing (CRKL160104), the Scientific and Technological Innovation Ability and Condition Construction Plans of Guangxi (1598025-21), the Scientific and Technological Bureau of Guilin (20150103-6), the Innovation Project of Graduate Education in Guilin University of Electronic Technology (YJCXS201534).
OUYANG Ning, born in 1972, M. S., professor. His research interests include digital image processing, intelligent information processing.
ZENG Mengping, born in 1992, M. S. candidate. Her research interests include super-resolution reconstruction, deep learning.
LIN Leping, born in 1980, Ph. D. Her research interests include pattern recognition, intelligent information processing, image processing.
Parallel convolutional neural network for super-resolution reconstruction
OUYANG Ning1,2, ZENG Mengping2, LIN Leping1,2*
(1. Key Laboratory of Cognitive Radio and Information Processing of Ministry of Education (Guilin University of Electronic Technology), Guilin Guangxi 541004, China;2. School of Information and Communication, Guilin University of Electronic Technology, Guilin Guangxi 541004, China)
To extract more effective features and speed up the convergence of model training, a super-resolution reconstruction algorithm based on parallel convolution neural network was proposed. The network consists of two different network structures, one is a simple residual network structure, which has a easier optimal residual mapping than the original one; the other is a convolutional neural network with nonlinear mapping, which can increase the non-linearity of the network. As the complexity of the parallel network structure, the convergence speed is the key issue. Aiming at this problem, the Local Response Normalization (LRN) layer was added to the convolution layers to simplify the model parameters and enhance the feature fitting ability, thus accelerating the convergence. Experimental results show that, compared with algorithms based on deep convolutional neural network, the proposed method accelerates the convergence, improves the visual quality, and increases Peak Signal-to-Noise Ratio (PSNR) at least 0.2 dB.
parallel convolution neural network; residual network; nonlinear mapping; Local Response Normalization (LRN); convergence speed
2016- 08- 04;
2016- 12- 27。
國(guó)家自然科學(xué)基金資助項(xiàng)目(61362021,61661017);廣西自然科學(xué)基金資助項(xiàng)目(2013GXNSFDA019030,2014GXNSFDA118035);認(rèn)知無(wú)線電與信號(hào)處理重點(diǎn)實(shí)驗(yàn)室主任基金資助項(xiàng)目(CRKL160104);廣西科技創(chuàng)新能力與條件建設(shè)計(jì)劃項(xiàng)目(桂科能1598025-21);桂林科技開(kāi)發(fā)項(xiàng)目(20150103-6);桂林電子科技大學(xué)研究生教育創(chuàng)新計(jì)劃項(xiàng)目(YJCXS201534)。
歐陽(yáng)寧(1972—),男,湖南寧遠(yuǎn)人,教授,主要研究方向:數(shù)字圖像處理、智能信息處理; 曾夢(mèng)萍(1992—),女,湖北鄂州人,碩士研究生,主要研究方向:圖像超分辨率重建、深度學(xué)習(xí); 林樂(lè)平(1980—),女,廣西桂平人,博士,主要研究方向:模式識(shí)別、智能信息處理、圖像處理。
1001- 9081(2017)04- 1174- 05
10.11772/j.issn.1001- 9081.2017.04.1174
TP391.41
A