彭智勇, 黃揚(yáng)鈚, 秦祖軍, 梁紅珍
(1.桂林電子科技大學(xué)光電工程學(xué)院,廣西桂林 541004;2.桂林生命與健康職業(yè)技術(shù)學(xué)院,廣西桂林 541001)
影像超分辨率重建是指通過(guò)軟件算法從低分辨率的圖像、視頻中恢復(fù)出紋理清晰的高分辨率圖像或視頻,最早由Harris[1]和Goodman[2]提出。超分辨率重建是后期圖像識(shí)別、處理、測(cè)量的基礎(chǔ),是圖像處理領(lǐng)域中的基礎(chǔ)熱點(diǎn)問(wèn)題,特別是基于深度學(xué)習(xí)的影像超分辨率重建技術(shù)由于其高性能,近年很多學(xué)者進(jìn)行了深入的研究。基于深度學(xué)習(xí)的視頻超分辨率重建技術(shù)可以分為基于單幀圖像的幀內(nèi)超分辨率重建和基于多幀視頻的幀間超分辨率重建。
基于單幀圖像的幀內(nèi)超分辨率重建,有很多學(xué)者基于深度學(xué)習(xí)提出了超分辨率重建模型,如:VDSR[3]、ESPCN[4]、ClassSR[5]等?;趲瑑?nèi)圖像的超分辨率重建算法由于僅考慮幀內(nèi)特征信息,忽略了視頻序列的幀間相關(guān),性能較好的超分辨率重建算法計(jì)算量和內(nèi)存損耗過(guò)大;結(jié)構(gòu)簡(jiǎn)單算法則特征信息不能充分利用,重建效果不好?;诙鄮曨l的幀間超分辨率重建,有VESPCN[6]、FRVSR[7]、RBPN[8]等,此類算法往往將已經(jīng)完成超分辨率重建的幀作為后續(xù)特征提取的輸入,當(dāng)連續(xù)幀之間存在較大變化時(shí),往往存在嚴(yán)重偽影及誤差累積,并且現(xiàn)有深度學(xué)習(xí)超分辨率重建算法運(yùn)算復(fù)雜,還不能實(shí)現(xiàn)實(shí)時(shí)超分辨率重建。
本文設(shè)計(jì)了基于深度學(xué)習(xí)的實(shí)時(shí)視頻超分辨率重建研究型實(shí)驗(yàn)。針對(duì)視頻特點(diǎn),在利用幀內(nèi)特征的同時(shí)也利用幀間特征,解決處理速度慢的問(wèn)題,實(shí)現(xiàn)實(shí)時(shí)超分辨率重建。該實(shí)驗(yàn)將GhostModule 結(jié)構(gòu)應(yīng)用于循環(huán)遞歸神經(jīng)網(wǎng)絡(luò)并結(jié)合殘差結(jié)構(gòu)設(shè)計(jì)一個(gè)快速的視頻超分辨率網(wǎng)絡(luò),采用具有多級(jí)跳躍連接殘差映射,以解決循環(huán)卷積神經(jīng)網(wǎng)絡(luò)中存在梯度消失的風(fēng)險(xiǎn),從而能長(zhǎng)時(shí)間保存高頻紋理信息,在取得較好重建效果的情況下實(shí)現(xiàn)實(shí)時(shí)視頻超分辨率重建。
1.1.1 整體結(jié)構(gòu)設(shè)計(jì)
循環(huán)卷積神經(jīng)網(wǎng)絡(luò)(RCNN)[9]可以對(duì)時(shí)域特征進(jìn)行很好的建模,廣泛應(yīng)用于自然語(yǔ)言處理的研究,并可用于提煉視頻幀間時(shí)域特征。Kim等[3]提出的殘差結(jié)構(gòu)超分辨率重建網(wǎng)絡(luò)VDSR,該結(jié)構(gòu)加深了卷積神經(jīng)網(wǎng)絡(luò)的深度,具有較好的超分辨率重建性能,VDSR 采用的全局的殘差結(jié)構(gòu),盡管有效地把低層特征傳遞到高層,但沒(méi)有充分利用中間層的特征,導(dǎo)致重建的圖像紋理細(xì)節(jié)不夠清晰。本文在傳統(tǒng)RCNN 的基礎(chǔ)上,受到VDSR的啟發(fā),設(shè)計(jì)了結(jié)合殘差結(jié)構(gòu)的RCNN,實(shí)時(shí)視頻超分辨率重建網(wǎng)絡(luò)整體結(jié)構(gòu)(見(jiàn)圖1)。
圖1 實(shí)時(shí)視頻超分辨率重建網(wǎng)絡(luò)整體結(jié)構(gòu)示意圖
新的網(wǎng)絡(luò)結(jié)構(gòu)與VDSR 處理方法相似,網(wǎng)絡(luò)分為兩條支路。在初始階段,上面的支路對(duì)視頻當(dāng)前幀LRt進(jìn)行雙三次方線線性插值得到初始的高分辨率圖像;下面的支路進(jìn)行殘差學(xué)習(xí),對(duì)輸入進(jìn)行循環(huán)特征提取,并把得到的高頻特征信息輸入到亞像素卷積層對(duì)殘差圖像放大。最后通過(guò)殘差圖像和初始的高分辨率圖像相加,得到最后的當(dāng)前幀超分辨率圖像SRt。其中,PixelShuffler(2)是一放大2 倍的上采樣模塊,在圖1結(jié)構(gòu)中以放大4 倍為例通過(guò)2 個(gè)PixelShuffler(2)共放大到4 倍。在整體結(jié)構(gòu)上,新網(wǎng)絡(luò)與VDSR 不同的是,VDSR在當(dāng)前圖像輸入的特征行提取模塊之前就進(jìn)行放大,因此后面的特征提取是在高分辨率圖像上進(jìn)行運(yùn)算,這無(wú)疑增加了計(jì)算量。而本文實(shí)驗(yàn)針對(duì)低分辨率影像通過(guò)RNN網(wǎng)絡(luò)循環(huán)進(jìn)行特征提取,最后才對(duì)殘差圖像進(jìn)行放大,能有效減少計(jì)算量并保證處理效果。算法實(shí)現(xiàn)的重點(diǎn)為循環(huán)特征提取模型的設(shè)計(jì)。
1.1.2 循環(huán)特征提取模塊設(shè)計(jì)
GhostModule[10]網(wǎng)絡(luò)基于一組原始的特征圖,結(jié)合一系列線性變換,以很小的計(jì)算代價(jià)生成許多從原始特征發(fā)掘所需信息的“幻影”特征圖,從而通過(guò)低的計(jì)算成本生成了更多的特征圖。GhostModule 網(wǎng)絡(luò)結(jié)構(gòu)與傳統(tǒng)結(jié)構(gòu)參數(shù)量對(duì)比如下式表示:
式中:p1為傳統(tǒng)結(jié)構(gòu)的參數(shù)量;p2為GhostModule 網(wǎng)絡(luò)的參數(shù)量;假設(shè)特征提取模塊的輸入和輸出通道數(shù)量均為f;k為卷積核的大?。ㄟ@里取3 × 3);r為GhostModule的比例參數(shù)。由式(1)2 個(gè)參數(shù)之比得
當(dāng)k取值較大時(shí),分母后半部分可忽略不計(jì),此時(shí)c≈r,即相比于傳統(tǒng)網(wǎng)絡(luò)。GhostModule 具有更深的網(wǎng)絡(luò)結(jié)構(gòu),更大的感受野,且參數(shù)量是普通卷積層的1/r,從而GhostModule網(wǎng)絡(luò)具有強(qiáng)的特征提取能力及小的算法量。
圖2 所示為運(yùn)用GhostModule 設(shè)計(jì)循環(huán)特征提取模塊示意圖,其中圖2(b)為本文特征提取模塊內(nèi)部結(jié)構(gòu),與傳統(tǒng)的循環(huán)塊[見(jiàn)圖2(a)]相比,設(shè)計(jì)的循環(huán)塊由GhostModule和隱藏信息與輸出分支結(jié)構(gòu)兩部分組成。該循環(huán)塊采用具有多級(jí)跳躍連接層之間的殘差映射,解決了循環(huán)卷積神經(jīng)網(wǎng)絡(luò)中存在梯度消失的缺陷,同時(shí)確保了流暢的信息流,并能夠長(zhǎng)時(shí)間的保存高頻紋理信息,從而網(wǎng)絡(luò)更容易地處理更長(zhǎng)的視頻幀序列。
圖2 循環(huán)特征提取模塊示意圖
由圖2(b)可知,新的循環(huán)特征提取模塊把當(dāng)前幀It、前一幀It-1(t為影像幀編號(hào),t=0,1,…n-1),它們之間的隱藏信息和上一個(gè)循環(huán)特征提取模塊的輸出作為輸入,得到循環(huán)塊前部分(GhostModule)的輸出;同時(shí),將GhostModule的輸出分別輸入到2 條支路:左邊的支路作為本模塊的預(yù)期目標(biāo)輸出Ot(RGB三通道);右邊支路作為本模塊的隱藏(遺留)信息Ht。把每次通過(guò)循環(huán)塊得到的預(yù)期目標(biāo)輸出融合到n-1 個(gè)歷史預(yù)期目標(biāo)中,即
式中:n為循環(huán)塊執(zhí)行的次數(shù);St為n次循環(huán)塊預(yù)期目標(biāo)輸出的融合后的結(jié)果,其通道數(shù)為n×3。進(jìn)一步把融合后的結(jié)果St輸入到放大模塊,即可得到放大后的殘差圖像HRES。最后把HRES與初始雙三次插值放大的高分辨率HBICUBIC相加即可得到最終的超分辨率圖像
1.2.1 系統(tǒng)環(huán)境
實(shí)驗(yàn)采用的硬件環(huán)境為:CPU 型號(hào)為英特爾i9-10900K,內(nèi)存:32GB;系統(tǒng):Win 7;GPU 為NVIDIA RTX2080TI,GPU主要用于對(duì)算法并行加速計(jì)算。實(shí)驗(yàn)軟件環(huán)境為:ubuntu16.04、NVIDIA-3090、pytorch1.7.1、CUDA11.0 等。
1.2.2 測(cè)試數(shù)據(jù)及參數(shù)設(shè)置
本實(shí)驗(yàn)使用的訓(xùn)練數(shù)據(jù)集為Vidmeo-90K[11],該數(shù)據(jù)集大約包含90 000 個(gè)視頻序列,每個(gè)視頻序列包含7 幀視頻剪輯與各種運(yùn)動(dòng)和不同的場(chǎng)景圖像,其中隨機(jī)抽取8 000 個(gè)視頻序列用于訓(xùn)練,其余用于測(cè)試;實(shí)驗(yàn)的驗(yàn)證集為Vid4(包含4 個(gè)視頻序列)和UDM10(包含10 個(gè)視頻序列)。由于Vidmeo-90K 只提供高分辨率的目標(biāo)圖像,通過(guò)對(duì)高分辨率圖像進(jìn)行高斯模糊(均方差σ =1.6)下采樣到1/4 像素得到64 ×64 大小的低分辨率輸入塊。經(jīng)順時(shí)針隨機(jī)旋轉(zhuǎn)0°、90°、180°、270°,左右與上下翻轉(zhuǎn)得到8 倍于原始數(shù)據(jù)集的增強(qiáng)數(shù)據(jù)集。本文以Y 通道下重建高分辨率圖像的PSNR與SSIM作為實(shí)驗(yàn)的評(píng)價(jià)指標(biāo),同時(shí)評(píng)估模型的參數(shù)量、計(jì)算復(fù)雜度和運(yùn)算速度。
在訓(xùn)練循環(huán)卷積神經(jīng)網(wǎng)絡(luò)時(shí),學(xué)習(xí)速率最初被設(shè)置為0.000 1,經(jīng)過(guò)每20 個(gè)epoch學(xué)習(xí)率降低0.1 倍,共訓(xùn)練了60 個(gè)epoch。本文實(shí)驗(yàn)選用的優(yōu)化器為Adam,優(yōu)化器的相關(guān)參數(shù)設(shè)置:β1=0.9,β2=0.999 和權(quán)重衰減為0.000 5,以L1 作為損失函數(shù)進(jìn)行監(jiān)督訓(xùn)練,訓(xùn)練的批量數(shù)據(jù)大小為4。
本文以通道數(shù)C=128,循環(huán)特征提取模塊數(shù)量分別取B=5 和B=10 兩種網(wǎng)絡(luò)結(jié)構(gòu)與目前主流視頻超分辨率重建網(wǎng)絡(luò)VESPCN,F(xiàn)RVSR,RBPN、RVSRLTD[12],DRVSR[13],DUF-52L[14],PFNL[15]在VID4 數(shù)據(jù)集上進(jìn)行了PSNR與SSIM評(píng)價(jià)指標(biāo)對(duì)比測(cè)試,結(jié)果如表1 所示。由表1 可見(jiàn),本文算法在VID4 數(shù)據(jù)集4個(gè)場(chǎng)景的測(cè)試中,本文5-128 和10-128 比大多數(shù)傳統(tǒng)算法有更高的評(píng)價(jià)指標(biāo)。
表1 在VID4 上關(guān)于PSNR/SSIM性能的對(duì)比
與TOFlow,F(xiàn)RVSR 10-128,DUF-52L,RBPN 在UDM10 數(shù)據(jù)集上進(jìn)行參數(shù)量、速度對(duì)比測(cè)試,結(jié)果如表2 所示。由表2 可見(jiàn),本文5-128 的方法在參數(shù)量和計(jì)算量較小的前提下,測(cè)試指標(biāo)PSNR比TOFlow高1.81 dB,比FRVSR高0.98 dB;與較大的模型相比,本文10-128 結(jié)構(gòu)在PSNR 上比DUF-52L 低0.01 dB,比RBPN低0.19 dB。
表2 在UDM10 上關(guān)于速度的對(duì)比測(cè)試(×4)
以320 ×180 的低分辨率視頻序列為輸入進(jìn)行4倍放大輸入1280 ×720 的高分辨率視頻序列。與傳統(tǒng)較快速的FRVSR模型相比,F(xiàn)RVSR速度為129 ms/幀,本文5-128 速度為24 ms/幀,故本文的重建速度為FRVSR 的5.4 倍。本文的模型參數(shù)為FRVSR 的30.5%,在參數(shù)量上與TOFlow(1.41Mb)相近的基礎(chǔ)下,運(yùn)行速度是TOFlow(1 658 ms/幀)模型的34.5 倍,是高性能算法DUF-52L的28.8 倍。將本文算法應(yīng)用于超分辨率系統(tǒng),以1 920 ×1 080 作為高分辨率圖像,取B=5,C=128 的網(wǎng)絡(luò)結(jié)構(gòu),可以達(dá)到24 f/s的速度實(shí)現(xiàn)視頻超分辨率重建。
本文在效果圖上進(jìn)行了對(duì)比測(cè)試,在VID4 上對(duì)幾種經(jīng)典算法與本文算法的2 幅圖(共4 個(gè)場(chǎng)景)實(shí)際視覺(jué)效果對(duì)比,如圖3 所示。
圖3 VID4數(shù)據(jù)測(cè)試效果圖(A:第1幅圖,B:第2幅圖)
由第1、2 幅效果圖的綠框場(chǎng)景可見(jiàn),本文算法紋理明顯比其他的算法更清晰;在第2 幅圖的紅色場(chǎng)景區(qū)域,所有算法相比于原始的高清圖像,均存在一定的紋理丟失。
本文基于RCNN,引入GhostModule代替?zhèn)鹘y(tǒng)的卷積層,改進(jìn)了傳統(tǒng)的殘差結(jié)構(gòu),并搭建一個(gè)輕量級(jí)的循環(huán)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行視頻的超分辨率重建,實(shí)現(xiàn)視頻的實(shí)時(shí)超分辨率重建。實(shí)驗(yàn)結(jié)果表明:本新網(wǎng)絡(luò)的重建速度為FRVSR 的5.4 倍;在參數(shù)量上與TOFlow 相近的基礎(chǔ)下,運(yùn)行速度是TOFlow模型的34.5 倍;是高性能算法DUF-52L的28.8 倍。
同時(shí),本文基于前沿技術(shù)與工程應(yīng)用角度,將科研項(xiàng)目與教育教學(xué)結(jié)合,積極探索和開(kāi)設(shè)研究型教學(xué)實(shí)驗(yàn)[16-17],開(kāi)展了基于深度學(xué)習(xí)的實(shí)時(shí)視頻超分辨率重建研究型實(shí)驗(yàn)項(xiàng)目設(shè)計(jì),很好地鍛煉了學(xué)生的探索精神,培養(yǎng)學(xué)生運(yùn)用理論知識(shí)和實(shí)踐技能探索解決復(fù)雜問(wèn)題的能力,鍛煉學(xué)生積極探索精神與工程創(chuàng)新能力。