吳 昊,賴惠成,2,錢緒澤,陳 豪
1.新疆大學(xué) 信息科學(xué)與工程學(xué)院,烏魯木齊 830046
2.新疆大學(xué) 信號檢測與處理自治區(qū)重點實驗室,烏魯木齊 830046
分辨率是圖像質(zhì)量的重要指標,如何提高圖像和視頻的分辨率,以呈現(xiàn)出更加清晰的視覺效果,成為近年來圖像和視頻處理領(lǐng)域研究的熱點之一,現(xiàn)實中獲取高分辨率圖像的方法主要分為兩種:一種是通過硬件的方式,減小成像像素元器件的尺寸,從而在先前相同的區(qū)域內(nèi)獲取更多的信息;另一種是通過軟件來進行重構(gòu),來修復(fù)圖像的細節(jié)信息以及去除噪聲,這種方法被稱作圖像超分辨率技術(shù),視頻超分辨技術(shù)一般是由圖像超分辨技術(shù)衍生而來[1]。
視頻超分辨率技術(shù)的主要目的是將低分辨率視頻轉(zhuǎn)換為清晰的高分辨率視頻,還原原始視頻所忽略的信息,從而提高視頻的質(zhì)量,它不僅只是增加圖像的像素數(shù),還需要恢復(fù)圖像視頻的細節(jié)信息,隨著人們對視頻質(zhì)量的要求越來越高,視頻超分辨率在眾多領(lǐng)域都有重要的研究和應(yīng)用價值并且應(yīng)用廣泛,主要應(yīng)用領(lǐng)域有醫(yī)學(xué)圖像處理、視頻監(jiān)控復(fù)原、遙感衛(wèi)星圖像的增強以及視頻編解碼[2-5]。
雖然單圖像超分辨算法可以簡單應(yīng)用于視頻超分辨任務(wù)中,但是存在明顯的缺點:無法充分利用視頻相鄰幀的相關(guān)信息,圖1表示圖像超分辨率算法與視頻超分辨率算法在放大倍數(shù)為4的視覺效果的對比圖。視頻超分辨存在著一個特點,那就是往一組相鄰的低分辨幀存在相似性,也存在差異性,一般稱多幅圖像超分辨率算法為視頻超分辨率算法[6]。
圖1 圖像與視頻超分辨率算法的視覺效果對比圖(×4)Fig.1 Comparison of visual effects between image and video super-resolution algorithm(×4)
對于超分辨率重建而言,存在一種不確定性的問題,那就是對于一幅低分辨率圖像和視頻而言,都可能由多個高分辨率圖像以及視頻下采樣得到。而通過使用深度學(xué)習(xí)算法,可以直接學(xué)習(xí)從低分辨率端到高分辨率端的映射函數(shù),從而對整個重建過程進行約束和引導(dǎo)。視頻超分辨率算法主要分為:基于重建的方法[7-8]、基于樣例的方法[9-10],以及基于重建和基于樣例相結(jié)合的方法[11]。基于重建的多幀圖像超分辨率算法首先要對鄰近幀之間進行亞像素級精度的配準,然后通過幀與幀之間互補的信息來重建高分辨率圖像?;跇永亩喾鶊D像超分辨率算法通過使用機器學(xué)習(xí)以及深度學(xué)習(xí)的方法來學(xué)習(xí)低分辨率的視頻幀與高分辨率的視頻幀之間的非線性映射關(guān)系。本文就是基于重建和基于樣例相結(jié)合的方法,通過深度學(xué)習(xí)的方法來學(xué)習(xí)端到端的非線性映射關(guān)系。
Dong等[12]首次在2014年提出的超分辨率卷積神經(jīng)網(wǎng)絡(luò)(SRCNN),通過三層卷積網(wǎng)絡(luò)構(gòu)建了一個端到端的網(wǎng)絡(luò),證明了CNN具有學(xué)習(xí)LR和HR圖像之間的非線性映射的能力,并且能夠有好的精度和速度,深層CNN擁有提取多層次的特征的能力,但多數(shù)基于CNN的超分辨率模型不能完全利用這些特征。Kim等[13]在2016年提出了一種用于卷積神經(jīng)網(wǎng)絡(luò)的深度殘差學(xué)習(xí)結(jié)構(gòu)(VDSR),通過引入深度殘差學(xué)習(xí),他們只需要學(xué)習(xí)怎樣去預(yù)測殘差值,這使得深層網(wǎng)絡(luò)的訓(xùn)練變得簡單,從而使加深模型網(wǎng)絡(luò)來提升模型的性能成為可能。Lim等[14]在2017年提出了EDSR模型在引入殘差連接和殘差塊的同時,去除了BN層,因為BN層會對網(wǎng)絡(luò)提取的特征進行歸一化處理,從而丟失圖片的高頻信息。為了獲得更接近真實效果的超分辨圖像,Ledig等[15]首次在超分辨率領(lǐng)域引入對抗生成網(wǎng)絡(luò),利用生成網(wǎng)絡(luò)與對抗網(wǎng)絡(luò)相互競爭來學(xué)習(xí),從而得到更好的圖片效果。而彭宴飛等[16]在其基礎(chǔ)上遷移支持向量機中的hinge損失作為目標函數(shù),去掉了殘差塊和判別器中的批規(guī)范化層。唐家軍等[17]針對單一網(wǎng)絡(luò)存在層間聯(lián)系弱以及不能充分利用分層特征等問題,通過構(gòu)造多分支網(wǎng)絡(luò):一個子網(wǎng)絡(luò)用來提取圖像細節(jié)與運算,另一個子網(wǎng)絡(luò)用來消除圖像噪聲以及降噪,從而來減小計算開銷,穩(wěn)定模型訓(xùn)練。
近年來在視頻超分辨率領(lǐng)域提出了多幀超分辨率技術(shù),主要是利用輸入幀之間的相關(guān)性來提高網(wǎng)絡(luò)的性能指標。它一般考慮相鄰低分辨率幀之間的亞像素運動,以多個低分辨率的視頻幀作為輸入,通過深度學(xué)習(xí)的方法來學(xué)習(xí)視頻幀與視頻幀之間的運動信息,從而輸出高分辨率的視頻幀。
大多數(shù)基于深度學(xué)習(xí)的視頻超分辨率算法[18-20]一般包含特征提取、對齊、融合和重建等過程。首先在特征提取模塊,一般通過使用淺層的卷積神經(jīng)網(wǎng)絡(luò)對視頻幀進行特征提取,然后在對齊模塊,一般通過運動估計和補償來進行對齊和融合,為了更好地運用視頻幀與幀之間信息,通常都會將參考幀與其相鄰的幾幀進行對齊與融合,但同時它是一項困難的任務(wù),特別是相鄰幀之間出現(xiàn)復(fù)雜的運動或視差時,比如視頻中存在遮擋、復(fù)雜的運動等情況時,網(wǎng)絡(luò)很難準確地得到相鄰視頻幀之間的的偏移量,如果在運動估計和補償出現(xiàn)錯誤,很可能導(dǎo)致對齊和融合模塊出現(xiàn)偽影和噪聲。一般通常利用光流來預(yù)測中間幀和相鄰視頻幀之間的關(guān)系,然后通過它們相應(yīng)的關(guān)系來進行運動補償。因此,光流預(yù)測就顯得至關(guān)重要,,Kappeler等[21]首次將光流法運用在運動補償模塊,并提出一種自適應(yīng)運動補償(AMC)方案,以減少噪聲對視頻幀的影響,并將相鄰視頻幀的特征在不同的卷積層進行堆疊,從而充分利用相鄰幀之間的時空關(guān)聯(lián)性,然后,Caballero等[22]提出了第一個用于視頻超分辨率的端到端卷積網(wǎng)絡(luò)框架(即VESPCN),首先利用傳統(tǒng)的光流算法來估計相鄰幀的位移偏差,用估計的位移偏差對相鄰幀進行空間變換,將相鄰的兩幀進行對齊,然后將補償后的低分辨率幀串聯(lián)輸入到卷積網(wǎng)絡(luò)來重建高分辨率的視頻幀,又因為超分辨率重建過程與相鄰幀的估計都是通過卷積神經(jīng)網(wǎng)絡(luò)來實現(xiàn)的,所以它們構(gòu)建成的網(wǎng)絡(luò)可以進行端到端訓(xùn)練。然而這些方法都沒有考慮到每一幀在不同尺寸的潛在視覺信息以及不同的視頻幀或區(qū)域受到不完全對齊和模糊的影響。此外,輸入幀的數(shù)量對網(wǎng)絡(luò)也有影響,當減少輸入到網(wǎng)絡(luò)中的幀數(shù),可以有效地提高網(wǎng)絡(luò)建模復(fù)雜時間[23],但是輸入幀數(shù)的減少也意味著網(wǎng)絡(luò)可能收到的有用信息較少,網(wǎng)絡(luò)的性能將受到進一步的限制。
本文采用光流殘差網(wǎng)絡(luò)來預(yù)測高分辨率光流,通過金字塔的網(wǎng)絡(luò)結(jié)構(gòu)以及密集殘差塊模塊,對多個相鄰幀進行特征提取和運動估計,可以獲取被視頻幀所忽略的局部信息以及每一幀在不同尺寸的潛在視覺信息,再通過融合模塊來增強視頻的連貫性和質(zhì)量,從而構(gòu)建一個端到端的視頻超分辨率網(wǎng)絡(luò)框架,通過和其他算法的對比,證明了光流殘差網(wǎng)絡(luò)能夠擁有先進的性能。
提出一種基于光流殘差的視頻超分辨率算法,它由三部分組成:光流殘差估計模塊(OFDNET)、運動補償模塊(motion compendation)和超分辨率融合模塊(SRnet),如圖2所示。將連續(xù)輸入相鄰兩幀的低分辨率視頻幀作為網(wǎng)絡(luò)的輸入,將經(jīng)過超分辨率融合網(wǎng)絡(luò)得到的高分辨率視頻幀作為網(wǎng)絡(luò)的輸出。首先通過光流殘差估計模塊得到精確的高分辨率光流,使用亞像素卷積層將低分辨率的視頻幀映射到高分辨率空間進行超分辨率的重建得到高分辨率的視頻幀,然后在運動補償模塊上,將得到的高分辨率光流與輸入視頻的高分辨率幀進行運動補償,得到相應(yīng)的視頻幀的集合,再將其輸入超分辨率融合模塊,將視頻幀的集合進行深度的特征提取與融合,從而得到細節(jié)信息更加清晰的高分辨率視頻幀。在所有的網(wǎng)絡(luò)結(jié)構(gòu)中,如何獲得圖像深層的細節(jié)信息是非常重要的,所以在光流殘差估計模塊和超分辨率融合模塊,采用了深度殘差的網(wǎng)絡(luò)結(jié)構(gòu)來增加卷積神經(jīng)網(wǎng)絡(luò)的深度,更好地利用視頻幀之間的信息以及不同尺寸的潛在視覺信息,并且提出新的損失函數(shù)來訓(xùn)練網(wǎng)絡(luò),能夠更好地對時域和空域進行建模和約束,同時能夠更好解決因為光流法求解時存在較大誤差,從而導(dǎo)致運動補償后的結(jié)果出現(xiàn)偽影和噪聲,進而影響超分辨性能的問題,并且在降低運動補償誤差的同時,也可以提高視頻超分辨的精確度以及超分辨視頻的質(zhì)量。
圖2 基于光流殘差的視頻差分辨率網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Video differential resolution network structure based on optical flow residu
在光流殘差估計模塊(OFDNET),受到金字塔光流估計方法[24]的啟發(fā),設(shè)計一個3層的網(wǎng)絡(luò)框架,利用深度殘差的卷積神經(jīng)網(wǎng)絡(luò)對相鄰幀進行特征提取以及預(yù)測高分辨率的光流,通過設(shè)計金字塔結(jié)構(gòu)的卷積殘差神經(jīng)網(wǎng)絡(luò),對輸入網(wǎng)絡(luò)的多個低分辨視頻相鄰幀分別進行特征提取和融合。如圖3所示,初始的光流為0,以相鄰的兩幀、作為輸入,輸出和與相對應(yīng)光流,如公式(1)所示:FOFD表示光流殘差估計過程,f(θ)表示在光流殘差估計過程中的參數(shù)集。
圖3 光流殘差估計網(wǎng)絡(luò)框架Fig.3 Network framework of optical flow residual estimation
在第一層,首先對與進行采樣因子為2的下采樣得到與,然后,與初始的光流(初始值為0)連接一起經(jīng)過3×3的卷積層進行淺層的特征提?。ㄍǖ罃?shù)為32),再接3個密集殘差塊(residual dense block),每個密集殘差塊都有3層(每層的參數(shù)如表1所示,通道數(shù)為32)得到深層的特征,后將RDB的輸出融合在一起,通過2個卷積層,再與初始的光流疊加在一起得到預(yù)測光流。
表1 光流殘差估計網(wǎng)絡(luò)每一層網(wǎng)絡(luò)的參數(shù)Table 1 Parameters of each layer of optical flow residual estimation network
在第二層,首先對進行采樣因子為2的上采樣得到,再按照將向進行變換,后與融合一起在,從而得到視頻幀之間的相關(guān)性。后面的結(jié)構(gòu)與第一層相似,最后再與相加后得到預(yù)測光流。
在第三層,與第二層基本相似,只是在特征融合前加上亞像素卷積層進行分辨率增強,然后與上一層預(yù)測光流進行上采樣的進行相加后,得到高分辨率的光流(此次上采樣的放大因子r與亞像素卷積層的放大因子相同)。每次經(jīng)過一個卷積層時,后面都接個修正線性單元(rectified linear unit,ReLU)。其中每一層網(wǎng)絡(luò)的具體參數(shù)如表1所示。
通過光流殘差估計網(wǎng)絡(luò)得到高分辨率的光流,通過使用亞像素卷積層進行分辨率的放大,如圖4所示,首先通過一個卷積層將輸入圖片的通道數(shù)變?yōu)?×s×s(s為放大因子)再通過亞像素卷積模塊將低分辨率的視頻幀映射到高分辨率空間進行超分辨率的重建,從而得到與具有相同的維度的,如公式(2)所示:
圖4 亞像素卷積模塊Fig.4 Sub-pixel convolutional module
其中,ps是一個周期篩選算子,它將H×W×2S2張量的元素重新排列為形狀為SH×SW×2的張量,如公式(3)所示,其中H和W表示低分辨率視頻幀的尺寸。
然后,將高分辨率的光流以及高分辨率視頻幀進行運動補償,從而得到相鄰視頻幀之間的相關(guān)性。首先使用根據(jù)光流的速度場(u,v)對將中的每一個像素進行移動,從而得到運動補償后的視頻幀集。如公式(4)所示:
在超分辨率融合模塊,同樣使用殘差密集的網(wǎng)絡(luò)結(jié)構(gòu),使用密集殘差塊(RDB)來提取高分辨率視頻幀的所有分層特征層,來得到全局密集特征,從而在高分辨率空間將運動補償后對得到的視頻幀進行更好的融合。如圖5所示。輸入2N+1個連續(xù)的LR幀(,…,Ii L,…,),其中以Ii L作為輸入的中間幀,通過運動補償模塊后,得到高分辨率幀的集合,將其輸入到超分辨率融合模塊中去,進行特征的融合,輸出高分辨率幀ISR,如公式(5)所示:
圖5 超分辨率重建的網(wǎng)絡(luò)結(jié)構(gòu)Fig.5 Super-resolution reconstruction of network structure
首先使用2個卷積層(CONV1~CONV2)來對圖像進行淺層特征的提取,再通過3個密集殘差塊(RDB1~RDB3)(每個密集殘差塊都有3層,通道數(shù)為32)來提取深層特征,在每個RDB內(nèi)部,都有一個全局短連接,從而使網(wǎng)絡(luò)局域連續(xù)記憶;將上一個RDB地輸出直接送到當前RDB的輸入端,然后使用一個卷積層(CONV3)以及2個殘差結(jié)構(gòu)來進行淺層特征以及深層特征的結(jié)合,再通過將結(jié)合的特征以及RDB的分層特征進行融合,從而得到全局的密度特征,最后通過卷積層(CONV4)來進行通道數(shù)的轉(zhuǎn)換,得到具有全局密度特征的高分辨率視頻幀。
損失函數(shù)分為兩個部分:一個是超分辨率融合模塊的損失函數(shù)LSR,它對訓(xùn)練網(wǎng)絡(luò)的訓(xùn)練起決定性的作用,主要是通過計算超分辨率重建后的視頻幀與原始的高分辨率視頻幀的誤差來訓(xùn)練網(wǎng)絡(luò);另一個是光流殘差估計網(wǎng)絡(luò)的損失函數(shù)LOFD,而主要是來約束光流,如公式(6)所示:
其中,a=0.1,對于超分辨率融合模塊損失函數(shù)LSR,受到[25]的啟發(fā),使用L1以及LMS-SSIM來進行訓(xùn)練,并且使其使用其中參數(shù)的值,即β=0.84。LMS-SSIM代表多尺度結(jié)構(gòu)相似損失函數(shù),L1代表平均絕對誤差(MAE),它是值目標值與預(yù)測值之差絕對值的和,表示了預(yù)測值的平均誤差幅度。LMS-SSIM容易導(dǎo)致亮度的改變以及顏色的偏差,但它對局部結(jié)構(gòu)變化的感知敏感,能保留高頻信息(圖像的邊緣和細節(jié)),而損失函數(shù)L1能較好地保持亮度和顏色不變化。LSR損失函數(shù)定義如下:
代表經(jīng)過超分辨率融合后的視頻幀,IHRj代表原始的高分辨率視頻幀。
對于光流殘差估計網(wǎng)絡(luò)的損失函數(shù)LOFD,主要是用來約束光流估計過程,從而解決光流法求解時存在較大誤差的情況。它的損失函數(shù)由三部分組成,分別對應(yīng)它的三層網(wǎng)絡(luò)結(jié)構(gòu),分別是L1i、L2i、L3i:
本文采用REDS數(shù)據(jù)中適用于超分辨的作為訓(xùn)練集,它包含了240個視頻序列,每個序列均有100幀,使用Vid4數(shù)據(jù)集以及SPMCS數(shù)據(jù)集來測試本文的算法。
在訓(xùn)練與測試時,對高分辨率的視頻幀使用4倍的雙三次插值進行下采樣,得到對應(yīng)的低分辨率視頻幀,將輸入LR幀轉(zhuǎn)換為YCbCR顏色空間,并只提取亮度通道作為網(wǎng)絡(luò)的輸入。在訓(xùn)練階段,從LR視頻剪輯中隨機提取3個連續(xù)幀,并通過旋轉(zhuǎn)和反射進行數(shù)據(jù)增強,從而提高了網(wǎng)絡(luò)的泛化能力。本文使用Pytorch框架構(gòu)建網(wǎng)絡(luò),網(wǎng)絡(luò)參數(shù)初始化采用Kaiming初始化方法初始的學(xué)習(xí)率是10-4,訓(xùn)練30 000次,經(jīng)過20 000次學(xué)習(xí)率變成之前的一半,使用Adam優(yōu)化器。
首先在Vid4數(shù)據(jù)集與SPMCS數(shù)據(jù)集進行放大倍數(shù)為4的超分辨率重建實驗,為了測試輸出圖像的準確性,在客觀指標上使用PSNR/SSIM作為測試指標,對超分辨視頻幀和原高清視頻幀的亮度(Y)通道上逐幀求取PSNR和SSIM,PSNR和SSIM越高,表示重建視頻幀的質(zhì)量就越高,并且其中視頻的運動幅度都不相同。
在Vid4數(shù)據(jù)集,與SPMC[26]、RCAN[27]和SOF-VSR[28]等視頻超分辨率算法的性能進行了比較。對于RCAN和SOF-VSR使用作者提供的代碼來生成結(jié)果,對于SPMC使用其論文中報告的結(jié)果。在測試時,分別去除每個視頻中的第一幀和后一幀,然后再測試每個視頻序列中亮度通道的平均PSNR和SSIM的值。測試的結(jié)果由表2所示。從表中可以看出,本文的算法中PSNR和SSIM的值都優(yōu)于其他算法。
表2 不同的方法在Vid4數(shù)據(jù)集上的PSNR和SSIM(×4)Table 2 PSNR and SSIM(×4)on Vid4 data set by different methods
在SPMCS數(shù)據(jù)集上,每個視頻的種類都不相同,比較30個不同的視頻序列指標的平均值,在進行測試時,分別去掉第一幀和后二幀,然后再對比每個視頻序列平均的PSNR和SSIM的值。測試的結(jié)果如表3所示。
表3 不同的方法在SPMCS數(shù)據(jù)集上的PSNR和SSIM(×4)Table 3 PSNR and SSIM(×4)on SPMCS dataset by different methods
圖6表示不同的方法在Vid4數(shù)據(jù)集中calendar(第七幀)和foliage(第九幀)進行放大倍數(shù)為4的超分辨率重建后的視覺對比圖。兩幅圖分別表示運動幅度較慢的場景(日歷)以及相對較快的場景(輪胎)。從calendar中,可以看到通過RCAN所生成的圖片中的字母僅僅只有輪廓,清晰度比較低,線條都過于平滑,里面缺少較多的細節(jié)以及邊緣信息,而SPMC和SOF-VSR所生成的圖片中的字母的與本文的算法相比都過于模糊;從foliage可以看出,本文算法所生成的圖片中移動比較快的物體,比如輪胎部分中的紋理信息恢復(fù)的效果,也比其他算法更加清楚。
圖6 不同的方法在Vid4數(shù)據(jù)集中進行放大倍數(shù)為4的超分辨率重建的效果圖Fig.6 Super-resolution reconstruction of Vid4 data set by different methods with amplification factor of 4
圖7表示不同的方法在SPMCS數(shù)據(jù)集中hdclub_003_001(第28幀)和hk001_001(第10幀)進行放大倍數(shù)為4的超分辨率重建的效果圖,兩幅圖分別表示復(fù)雜的場景(城市)以及相對單一的場景(佛像)。從圖中可以看出,RCAN和SOF-VSR所生成的圖片較于本文的算法存在著一定的結(jié)構(gòu)失真以及一些噪聲,比如hdclub_003_001中的線條,RCAN中所生成圖片與原圖相比多了一條豎線,而SOF-VSR所生成的圖片又過于模糊;雖然通過SPMC所生成的圖片效果在某些方面比較好,比如hk001_001中臉的輪廓,但在細節(jié)信息比如紅點又過于模糊。
圖7 不同的方法在SPMCS數(shù)據(jù)集中進行放大倍數(shù)為4的超分辨率重建的效果圖Fig.7 Super-resolution reconstruction of SPMCS data set by different methods with amplification factor of 4
在總體上可以看出本文的算法相較于其他算法,尤其是對圖片中細節(jié)信息的恢復(fù)效果比其他算法都要好。在客觀指標上,在Vid4數(shù)據(jù)集上PSNR要比其他算法高出0.31 dB,在SPMCS數(shù)據(jù)集上PSNR要比其他算法高出0.88 dB,并且SSIM在兩個數(shù)據(jù)集上均有所提高,證明為了本文的網(wǎng)絡(luò)來預(yù)測高分辨率的光流是有效果的。
為了更好地分析光流殘差估計網(wǎng)絡(luò)作用、運動補償模塊機制的補償?shù)男Ч约皽\層特征和深層特征結(jié)合方式以及其有效性,對各個網(wǎng)絡(luò)及其子模塊的進行實驗和驗證。所有的實驗都在Vid4訓(xùn)練數(shù)據(jù)上進行了300 000次的訓(xùn)練和測試。
與其他的算法相比,增加第一層與第三層的網(wǎng)絡(luò)結(jié)構(gòu),主要是為了得到不同尺寸下的潛在視覺信息以及對光流進行低分辨率空間到高分辨率空間的轉(zhuǎn)換。為了說明第一層與第三層的作用,分別去掉光流殘差估計網(wǎng)絡(luò)的第一層、第三層在Vid4數(shù)據(jù)集上作為對比實驗。其中的PSNR、SSIM的指標如表4所示。NOFDETL1代表去除光流殘差估計網(wǎng)絡(luò)的第一層。NOFDETL3代表去除光流殘差估計網(wǎng)絡(luò)的第三層,此時得到的,將它與一起使用亞像素卷積模塊進行超分辨率的重建,然后輸入到超分辨率融合模塊。從表4可以知道去除光流殘差估計網(wǎng)絡(luò)的第一層以及第三層后,PSNR分別從26.32 dB下降到25.80 dB以及25.60 dB。
表4 流殘差估計網(wǎng)絡(luò)在Vid4上的有效性驗證Table 4 Validation of stream residual estimation network on Vid4
為了充分說明運動補償模塊的補償效果,作為對比,去除運動補償模塊,其結(jié)果如表5所示。w和w/o分別表示有和沒有運動補償模塊。從表5可知,如果沒有運動補償模塊,PSNR分別從26.32 dB下降到25.46 dB。
表5 運動補償模塊在Vid4上的有效性驗證Table 5 Validation of motion compensation module on Vid4
在超分辨率融合模塊,使用深度殘差網(wǎng)絡(luò)來進行淺層和深層特征的提取和融合。為了說明網(wǎng)絡(luò)的效果,去除超分辨率融合模塊中的殘差結(jié)構(gòu),只提取其中的深層特征,其結(jié)果如表6所示。No sr和sr分別表示有與沒有超分辨率融合模塊中的殘差結(jié)構(gòu)。
表6 融合模塊在Vid4上的有效性驗證Table 6 Validation of fusion module on Vid4
本文損失函數(shù)由光流殘差估計網(wǎng)絡(luò)的損失函數(shù)以及超分辨率融合模塊的損失函數(shù)組成。與其他算法相比,增加了對于光流殘差估計網(wǎng)絡(luò)的損失函數(shù),來約束光流估計的過程,從而得到精確的光流。a的值代表光流殘差估計網(wǎng)絡(luò)的損失函數(shù)權(quán)重,如果a值過大,就可能影響超分辨率融合模塊的損失函數(shù)LSR,從而影響網(wǎng)絡(luò)的訓(xùn)練。因此取小于0.5的值進行實驗,如表7。
表7 不同a值下Vid4實驗結(jié)果對比Table 7 Comparison of experimental results of Vid4 at different a values
在a=0.1的條件下,對于光流殘差估計網(wǎng)絡(luò)的損失函數(shù),其中γ1和γ2分別為對應(yīng)光流殘差估計網(wǎng)絡(luò)的第一層與第二層的損失函數(shù)的權(quán)重(第三層的系數(shù)為1),因此γ1小于γ2并且都應(yīng)該小于0.5。而γ3為L1正則化的系數(shù),使用通用的值0.1,如表8。
表8 不同的γ1和γ2值下Vid4實驗結(jié)果對比Table 8 Comparison of experimental results of Vid4 at differentγ1 andγ2 values
本文提出一個基于光流殘差的重建網(wǎng)絡(luò),利用視頻中相鄰幀間的相關(guān)性,在低分辨率空間通過光流殘差估計網(wǎng)絡(luò)來提取每一幀的特征,并利用深度殘差的卷積神經(jīng)網(wǎng)絡(luò)來預(yù)測高分辨率的光流,再通過高分辨率的光流進行運動補償,從而更加充分運用上下視頻幀之間的互補信息以及同尺寸的潛在視覺信息,并將補償后的視頻幀集輸入到超分辨率融合網(wǎng)絡(luò)對視頻幀進行更好的融合,使用和光流殘差估計網(wǎng)絡(luò)的損失函數(shù)以及超分辨率融合模塊的損失函數(shù)來訓(xùn)練網(wǎng)絡(luò),從而提高精度,增強超分辨視頻的清晰度。在公開數(shù)據(jù)集上的實驗表明,對于復(fù)雜的場景以及不同運動幅度視頻的重建效果在客觀指標和視覺效果方面均有一定提高,但是對于處理某些不會變化的部分(比如視頻的水?。┑男Ч写訌姟N磥砜梢钥紤]通過引入3D卷積[29]、可變性的ConvL-STM[30]來進行視頻幀之間的時間信息提取與校準。