亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度學習的兩階段多假設視頻壓縮感知重構算法

        2021-07-12 01:38:42楊春玲凌茜
        關鍵詞:關鍵幀殘差重構

        楊春玲 凌茜

        (華南理工大學 電子與信息學院,廣東 廣州 510640)

        壓縮感知重構算法旨在接收端利用觀測值恢復出原始信號,是壓縮感知研究任務的核心。圖像壓縮感知重構算法利用圖像信號的空間相關性獲得高質量的重構圖像,而視頻壓縮感知重構(Compressed Video Sensing,CVS)則在其基礎上通過挖掘視頻信號特有的時間相關性來提升重構質量。傳統基于分塊的CVS重構算法通常結合運動估計與運動補償算法(Motion Estimation/ Motion Compensation,ME/MC)實現時間相關性的有效利用。文獻[1- 2]提出“預測-殘差重構”的視頻重構框架,首先采用多假設預測算法(Multi Hypothesis,MH)在相鄰幀中搜索相似塊組成假設集,而后利用Tikhonov正則項求出各假設塊的預測權重,從而得到重構幀的預測信息,最后針對預測殘差更稀疏的特性,采用基于分塊的平滑投影迭代重構算法(Block Compressed Sensing based Smoothed Projected Landweber,BCS-SPL)[3]進行殘差重構提升重構質量;該框架結構簡單、重構性能好,是CVS領域經典的重構框架,基于此,多種改進算法被提出。為了優(yōu)化假設集的構成,文獻[4]在多個候選參考幀中選擇最優(yōu)參考幀進行多假設預測;文獻[5]同時利用多個參考幀對當前幀進行多假設預測;文獻[6]提出基于多參考幀的二階段多假設重構算法(Two-Stage Multi-Hypothesis Reconstruction,2sMHR),在觀測域多假設重構的基礎上引入第二階段圖像域重疊分塊多假設,有效地減輕了塊效應。為了提高假設塊權值的求解精度,文獻[7]引入彈性網模型,將l1范數與l2范數作為權值求解的正則約束項;文獻[8]則在此基礎上對l2范數正則化項進行權值調整。為了適應更稀疏的殘差信號的重構需求,文獻[9]利用MH[2]算法進行殘差重構,減少了BCS-SPL帶來的重構噪聲。結合ME/MC的多假設CVS重構算法能很好地挖掘幀間相關性,獲得了較好的重構質量。然而基于固定分塊的運動估計將導致塊內各像素的運動向量喪失差異性,從而產生不必要的偽影與錯誤重構,不適應運動較為復雜的序列。另外,此類算法由于繁瑣的搜索與迭代計算,復雜度往往較高,嚴重限制了傳統CVS算法的應用。

        近年來,深度神經網絡(Deep Neural Netwrok,DNN)在圖像壓縮感知重構領域取得了一系列的突破。文獻[10]首次利用深度神經網絡的方法,構建了由全連接層與卷積層組成的重構網絡實現圖像分塊壓縮感知重構,在提高重構質量的同時重構時間有數量級降低。在此基礎上,文獻[11]提出了基于深度學習的圖像壓縮感知算法(Deep Networks for Compressed Image Sensing,CSNet),設置了可學習的卷積采樣網絡以保留更多有效信息,并在重構端采用卷積全圖重構,有效地減輕了塊效應。文獻[12]結合傳統迭代閾值收縮算法(Iterative Shrinkage Thresholding Algorithm,ISTA)[13]與深度學習技術,提出了ISTA-Net+算法,具有一定理論可解釋性的同時實現圖像高質量快速重構。以上算法體現了深度學習在圖像壓縮感知與重構中的優(yōu)越性,也為視頻壓縮感知與重構算法的發(fā)展提供了思路。文獻[14]首次提出一個端到端視頻壓縮感知重構算法(A Learning Framework for Video Compressive Sensing,CSVideoNet),該算法在利用多層卷積層進行簡單的單幀圖像初始重構后,通過一個合成運動估計的長短期記憶網絡(Long Short-Term Memory,LSTM)將關鍵幀豐富的細節(jié)信息傳遞至非關鍵幀,實現了時間信息流動,然而LSTM很難建模像素空間相關性,且訓練難度大,影響了重構性能。文獻[15]在CSNet[11]重構的基礎上,引入多級特征補償卷積網絡,利用關鍵幀的多級特征補償非關鍵幀,然而基于卷積的神經網絡難以挖掘視頻信號的準確運動信息,對于運動較快且復雜的運動序列,重構性能不佳。

        為了解決上述問題,本研究提出一個基于深度學習的兩階段多假設視頻壓縮感知重構網絡(Two-stage Multi-hypothesis Network for Compressed Video Sensing,2sMHNet),包括幀內圖像壓縮感知重構網絡與幀間運動增強網絡兩部分。CSNet[11]由于結構簡單且性能優(yōu)良,是理想的幀內圖像重構網絡,但該網絡單純前饋式的重構方式容易導致重構誤差逐級傳播放大,基于此,本研究提出殘差重構模塊,利用觀測值的反饋進行監(jiān)督校正,提升重構質量。對于幀間運動增強重構網絡,傳統多假設重構算法雖然能高效地挖掘視頻時間相關性,但存在復雜度過高、塊效應嚴重、預測精度受限等不足,因此本研究提出基于深度學習的多假設預測網絡以及殘差重構網絡。前者通過時域可變形卷積對齊網絡實現基于深度學習的多假設預測,其自適應參數學習以及像素卷積的實現方式提高了預測質量,后者專項訓練的殘差重構網絡更適應殘差更稀疏的特性。為了盡可能利用圖像組已得到的視頻幀信息提升重構質量,本研究提出串行式兩階段多假設增強重構模式,針對信號特性在不同階段選擇不同的參考幀進行運動補償,更適應于運動快且復雜的序列。

        筆者針對該類研究的基本思想和初步實現——基于對齊預測與殘差重構的視頻壓縮感知重構算法(Compressed Video Sensing Network Based on Alignment Prediction and Residual Reconstruction,PRCVSNet)[16]已公開報道,文中的2sMHNet是對文獻[16]的改進與擴展,其改進包括以下幾個方面:首先,優(yōu)化了運動增強重構網絡,提出了兩階段的預測殘差增強重構網絡,提高了運動估計與補償的準確性與效率;第二,優(yōu)化了參考幀選擇機制,在第二階段選擇相關性較高的相鄰幀作為參考幀,適應運動較快的序列;第三,簡化了網絡結構,提高實現效率;第四,文中提供了更多的實驗結果和更全面對比分析。

        1 圖像與視頻壓縮感知重構

        1.1 圖像壓縮感知重構

        受限于壓縮端算法復雜度,壓縮感知通常利用觀測矩陣Φ來實現隨機采樣:

        y=Φx

        (1)

        (2)

        傳統圖像壓縮感知重構算法[2- 3,13]一般通過構造正則項,求解優(yōu)化問題得到重構圖像,然而此類算法由于復雜的迭代過程導致重構時延較長。近年來神經網絡監(jiān)督式學習優(yōu)化的思想為圖像壓縮感知與重構提供了新思路,其中CSNet[11]構建了端到端可學習的圖像壓縮感知采樣與重構網絡,取得了優(yōu)良的性能。在采樣端,CSNet利用N個核大小為B×B×1(M=B2)的可學習卷積核模擬分塊采樣矩陣Φ,使其更偏向于保留低頻結構信息。在重構端,CSNet采用全圖重構的模式,利用一個1×1的卷積層實現線性初始重構,n個3×3的卷積層進行后續(xù)深度重構,有效挖掘了圖像的空間相關性。然而該重構網絡僅在第一個卷積層中利用觀測值,未能充分利用觀測值中包含的豐富的準確信息。因此本研究提出殘差重構模塊,在后續(xù)重構中利用觀測值對重構信號進行校正,提升重構精度。

        1.2 視頻壓縮感知重構與運動估計補償

        視頻壓縮感知一般采用多采樣率采樣策略對視頻幀進行獨立采樣,該策略將視頻序列劃分為多個由一個關鍵幀與T-1個非關鍵幀組成的圖像組(Group of Picture,GOP),GOP中第一幀被指定為關鍵幀以較高采樣率rk進行采樣以保留更多細節(jié)信息,而其余的非關鍵幀則以極低的采樣率rnk進行單幀獨立采樣以降低平均采樣率,其平均采樣率表示為

        (3)

        由于視頻是圖像信號的集合,利用圖像重構算法進行獨立重構是最簡單的方式,然而該方式忽視了視頻信號中豐富的時間相關性,重構質量很差?,F有的基于深度學習的重構網絡[16- 17]多采用隱式的運動補償方式,無法針對性地挖掘運動信息,重構效果有限。近年來很多優(yōu)秀的基于深度學習的顯式運動估計與運動補償算法被提出。其中,基于神經網絡的光流法[18- 19]利用像素在時域上的變化以及像素相關性估計兩幀之間各像素的運動矢量,是常用的運動估計算法之一;然而,此類算法存在像素無法完全對應、估計誤差逐級傳遞等問題,不適用于初始重構質量較差、參考幀與待重構幀非近鄰的CVS重構問題,再者由于CVS數據集缺少光流標簽,嚴重影響了估計的準確性。時域可變形卷積對齊網絡[20- 21](Temporally Deformable Alignment Network,TDAN)則采用隱式的運動估計,減少了估計錯誤帶來的誤差;該算法利用多層級聯的可變形卷積在高階特征域利用卷積偏移實現了參考幀到當前幀的卷積對齊[22],取得了優(yōu)良的補償效果。利用可變形卷積實現的運動補償無需運動估計監(jiān)督,在初始重構質量較差,且兩幀運動較大時仍能取得良好的運動補償效果,更適合壓縮感知與重構問題。

        2 串聯式兩階段多假設重構網絡

        基于傳統多假設CVS重構算法可以有效地挖掘視頻時間相關性,而深度學習卷積網絡的重構方式則可以在大大縮短重構時間的同時通過大數據學習優(yōu)化重構參數提升重構性能,因此本研究結合其優(yōu)勢,提出了基于深度學習的兩階段多假設CVS重構算法2sMHNet,其壓縮與重構實現的整體框架如圖1所示。在采樣端,關鍵幀與非關鍵幀分別通過其對應的采樣矩陣實現獨立采樣,即輸入原始信號x0,得到觀測值y0=Φx0。由于可學習采樣矩陣優(yōu)越的性能,文中采用rB2個核大小為B×B×1的卷積濾波器模擬采樣矩陣,且在具體實現中,設置分塊大小B為16以提高復用效率。在重構端,本研究設置了幀內圖像壓縮感知重構網絡和幀間運動增強重構網絡,分別挖掘幀內空間相關性與幀間時間相關性。幀內圖像重構網絡在CSNet的基礎上增加了一個新的殘差重構模塊,利用原始觀測值補償重構過程中損失的細節(jié)信息。幀間運動增強網絡(Enhanced Reconstruction Network,ERecNet)引入時域可變形卷積對齊網絡與殘差重構模塊實現基于神經網絡的兩階段的串聯式多假設重構,充分挖掘圖像組中不同視頻幀的時間相關性。下文將詳細描述所提重構網絡的具體實現。

        圖1 2sMHNet的算法框架

        2.1 基于殘差重構的幀內圖像壓縮感知重構網絡

        在CVS重構中,幀內圖像壓縮感知重構方法至關重要,關鍵幀利用它得到重構結果,非關鍵幀依賴它獲得初始重構。不同于以往的圖像壓縮感知重構網絡通過單純前饋的方式學習測量值到重構圖像的非線性映射,本研究基于殘差重構思路,提出一個新的圖像壓縮感知重構算法ResRecNet,利用觀測值的殘差反饋來提升重構精度。

        在圖像壓縮感知重構問題中,從觀測值恢復重構原圖像的問題相當于采樣矩陣求逆問題,即:

        x0=Φ-1y0

        (4)

        然而該問題是病態(tài)問題,因此壓縮感知重構算法旨在得到Φ-1的最優(yōu)近似-1,其重構過程如下:

        x1=-1y0≈x0

        (5)

        由于卷積網絡的強擬合能力,ResRecNet采用圖2虛線框區(qū)域所示重構網絡來獲得初始粗重構圖像x1,該重構模塊與上文1.1節(jié)所描述的CSNet[11]重構網絡一致并設置深度重構網絡層數n=4。然而,此重構過程中仍然存在著信息丟失,表示為xres=x0-x1,因此可利用殘差信號xres對粗重構結果進行補償,提升重構精度。而在壓縮感知問題中,xres可由其觀測域殘差yres重構得到,即:

        yres=y0-y1=y0-Φx1

        (6)

        xres=Φ-1yres≈-1yres

        (7)

        如圖2實線框區(qū)域的殘差重構模塊所示,粗重構圖像x1通過采樣矩陣Φ得到其觀測域表示y1,y1與原始觀測值y0作差即獲得殘差信號的觀測域表示yres。而后,為了得到殘差信號的圖像域表示,yres再次通過重構模塊進行重構,如式(7)所示。最后ResRecNet通過將殘差信號xres與粗重構x1相加完成了殘差的補償,得到最終重構幀x2。

        圖2 ResRecNet網絡結構

        在訓練過程中,采樣矩陣與幀內圖像重構網絡進行端到端優(yōu)化,且重構網絡中兩個重構模塊的參數施行共享以減少參數量。本研究采用均方誤差衡量重構幀與真實幀的像素差異,并將其作為損失函數用于采樣矩陣與網絡參數的訓練,具體數學描述如式(8):

        (8)

        其中:xj表示不同階段的重構幀,x0為原始信號。

        為了保證網絡的每個模塊都實現其設計的功能,本研究對重構的每個階段都進行嚴格監(jiān)督,其損失函數表示為

        LResRecNet=L(x1,x0)+L(x2,x0)

        (9)

        2.2 用于非關鍵幀的兩階段多假設增強重構網絡

        經過視頻壓縮感知幀內初始重構之后,關鍵幀由于其高采樣率擁有較高的初始重構質量,而更多的非關鍵幀初始重構效果很差。因此本節(jié)幀間運動增強重構網絡旨在利用視頻幀間時間相關性提升非關鍵幀的重構質量。遵循“預測-殘差重構”的多假設重構框架,本研究設計了一個兩階段多假設重構網絡,如圖1所示,該網絡包含參數共享的兩個階段,每個階段都將包含一個多假設預測網絡和一個殘差重構模塊。

        2.2.1 多假設預測網絡

        傳統多假設預測算法以塊為單位搜索假設集并進行加權線性組合得到當前幀的預測幀,而本研究基于深度學習可變形卷積的概念實現了基于像素的多假設預測??勺冃尉矸e[22]是傳統卷積的一個優(yōu)化分支,通過學習像素的偏移使得卷積層從其規(guī)則的感受野之外獲得有用信息,提高了卷積的性能。而時域可變形卷積對齊網絡利用可變形卷積層學習兩幀之間的運動偏移[20- 21],并利用偏移指導參考幀到當前幀的對齊,實現了兩幀之間的運動補償。為了減少網絡負擔,本研究提出一個簡化版的時域對齊預測網絡,如圖3所示,該網絡通常分為3個步驟。

        圖3 時域可變形卷積對齊網絡的網絡結構

        首先,利用特征提取模塊將輸入的參考幀與當前幀(xc,xr)映射至其特征域(Fc,Fr)以充分利用高階的運動特征學習更準確的運動偏移,該特征提取模塊通常由一個3×3卷積層與3個殘差學習塊組成。

        (10)

        其中,wk為學習得到的第k個采樣位置的對應權重。為了保證假設集與待預測像素的運動相關性,可變形卷積網絡在全圖范圍內尋找匹配像素點,p0+pk+Δpk表示該匹配位置的位置信息,其中pk為卷積固定偏移,而Δpk為可學習的運動偏移,取決于當前幀與參考幀的運動關系,表示為

        Δpk=Woffsct(Fr⊕Fc)

        (11)

        其中,Woffsct為卷積層權重參數,⊕表示兩幀通道拼接操作。為了提高預測精度,本研究采用四層級聯的可變形卷積進行特征域的對齊,得到特征域預測幀Fp。

        最后,為了輸出預測圖像xp,利用一個卷積層實現特征域到像素域的映射。

        相比于傳統多假設預測,該網絡有以下3個優(yōu)點:①該網絡以像素為最小單位進行運動估計與補償,避免了分塊帶來的塊效應與偽影,同時提高了運動補償的靈活性與準確性;②通過端到端的學習,自適應得到特征域最優(yōu)偏移向量,從而得到最優(yōu)假設集;③通過卷積核參數學習得到線性加權的權重,提高假設集權值的求解精度。在具體實驗中,設置K=9,采用核大小為3×3的可變形卷積進行多假設預測,并且在訓練過程中對輸出的預測圖像進行監(jiān)督以保證預測網絡的正確學習,其損失函數為

        Lp=L(xp,x0)

        (12)

        2.2.2 殘差重構網絡

        多假設預測網絡可以很好地對齊參考幀與當前幀共有的信息,然而對于當前幀獨有的信息則難以實現有效預測,因此本研究再次引入殘差重構模塊,利用當前幀的原始觀測值補償預測幀遺失的運動信息與細節(jié)信息,也為下一階段的增強重構提供更準確的當前幀信息。該殘差重構模塊的網絡結構與上文2.1節(jié)中ResRecNet的殘差重構模塊相同,即輸入預測幀xp后,該模塊將其與原始觀測值y0在觀測域進行求殘差運算,得到殘差重構幀xr。在此過程中,殘差重構模塊中的重構網絡參數將重新訓練以適應更稀疏的殘差信號的重構需求。

        在壓縮感知問題中,重構圖像越接近于原始圖像,則它們的觀測值也將更為相似。因此本研究將在得到重構幀后聯合圖像域與觀測值域的均方誤差損失對重構過程進行監(jiān)督,表示為

        Lr=L(xr,x0)+L(yr,y0)

        (13)

        其中,yr、y0分別表示殘差重構幀xr與原始幀x0經過Φ采樣得到的觀測值。

        2.2.3 串行式兩階段增強重構

        運動補償過程中,參考幀的選擇是得到高質量預測幀的關鍵,而參考幀的選擇主要取決兩個因素:參考幀與待重構幀的相關程度(若相關程度較低,則容易出現運動信息匹配錯誤或者無法匹配的問題,導致運動補償效果較差)和參考幀的質量(低質量參考幀由于其自身高頻細節(jié)信息的缺乏無法在運動補償過程中提供高質量高頻信息,導致重構效果受限)。

        基于圖像組中各幀質量不均衡以及幀間相關程度差異等特點,本研究提出串行式兩階段多假設增強重構模式。第一階段由于關鍵幀初始重構質量遠遠高于非關鍵幀,因此選擇關鍵幀作為參考幀以提供更多細節(jié)信息。為了避免參考幀離關鍵幀過遠導致相關度過低,每個GOP的前?N/2」個非關鍵幀將選擇當前GOP的關鍵幀作為參考幀,而剩余幀選擇下一個GOP的關鍵幀為參考幀。第一階段重構后,關鍵幀與非關鍵幀重構質量的差異大大縮小,因此第二階段選擇幀間相關程度更高的相鄰幀作為參考幀來提高匹配效率。同樣的,每個GOP的前?N/2」個非關鍵幀選擇當前待重構幀的前一幀作為參考幀,而其余非關鍵幀選擇當前幀的后一幀作為參考幀。以GOP的大小N=8為例,兩個階段的參考幀的選擇方案如圖4所示,其中階段一的參考幀選擇由實線箭頭表示,階段二的參考幀選擇由虛線箭頭表示。在兩階段多假設增強重構過程中,每個增強重構階段都包含一個多假設預測網絡與殘差重構網絡以充分利用所選參考幀與當前幀的時間相關性。

        圖4 各階段參考幀的選擇(N=8)

        由于GPU顯存的限制,本研究共享每個階段增強網絡的網絡參數,且在訓練過程中固定采樣與初始重構網絡參數,對增強重構網絡獨立訓練。兩階段的增強重構皆設置了對應的監(jiān)督損失函數,因此該幀間運動增強重構網絡的損失函數表示為

        (14)

        其中,xpi、xri、yri分別表示第i階段的預測幀、殘差重構幀以及殘差重構幀的觀測域表示。

        3 仿真與分析

        3.1 網絡訓練

        由于網絡結構復雜且包含多個階段,因此選擇一個大的數據集對于網絡的充分訓練是很有必要的。與CSVideoNet相同,本研究選擇了UCF- 101數據集來進行兩個部分的網絡的訓練,該數據集包含101個類別的13 320個視頻序列,其龐大的數據量基本滿足了網絡的訓練需求。在具體實驗中,按照8∶1∶1的比例劃分訓練集、驗證集以及測試集,且為了加速訓練將每個序列的每幀圖像中心裁剪為160像素×160像素,并進行灰度化處理。

        自適應矩陣估計優(yōu)化器將被用于網絡參數的優(yōu)化,設置學習率為0.000 1,動量估計為0.9和0.999。使用PyTorch框架來實現文中提出的模型并且在NVIDIA 2080Ti進行訓練與測試。

        3.2 實驗結果與分析

        為了更好地評估本研究提出的2sMHNet的性能,將其與目前優(yōu)秀的CVS重構算法進行對比,并分析了網絡中各模塊的性能。

        3.2.1 與基于深度學習的圖像視頻壓縮感知重構算法的對比仿真實驗

        將2sMHNet與兩種深度學習圖像壓縮感知重構算法(ISTANet+[12],CSNet[11])、兩種加入了時間融合網絡的視頻壓縮感知重構算法(VCSNet[15],CSVideoNet[14]),以及筆者所在課題組前期研究提出的算法(PRCVSNet[16])進行對比?;谧髡呓o出的代碼,CSNet與ISTANet+的仿真結果容易獲得,但視頻壓縮感知重構網絡無源碼且仿真較復雜,因此本研究基于文獻[14- 15]給出的各采樣率下的實驗數據,訓練2sMHNet與之對比。

        表1 2sMHNet與幾種深度學習重構算法的重構結果對比

        2sMHNet與PRCVSNet的網絡參數量以及CIF序列每個GOP的平均重構重構時間的對比如表2所示。結果表明,2sMHNet相比于PRCVSNet,在降低了網絡復雜度的同時可以更有效地挖掘視頻的時間相關性,提高重構質量。

        表2 2sMHNet與PRCVSNet的算法復雜度對比

        由于實驗條件不同,文中算法將單獨與另一種優(yōu)秀的CVS重構算法CSVideoNet進行對比?;谠慕o出的實驗條件[14],即GOP大小為10,關鍵幀采樣率rk為0.2,非關鍵幀采樣率rnk分別為0.037、0.018、0.009,相應地平均采樣率分別為0.053、0.036、0.028。UCF- 101數據集中隨機抽取的10%序列將被用作測試集,其PSNR與SSIM的對比結果如表3所示。由表3可見,文中算法取得了更優(yōu)的重構結果,相比于CSVideoNet,PSNR平均提升了4.25 dB、SSIM平均提升了0.11。

        表3 2sMHNet與CSVideoNet的重構結果對比

        3.2.2 與傳統視頻壓縮感知重構算法的對比仿真實驗

        將2sMHNet與兩種具有代表性的傳統CVS重構算法(2sMHR[6],SSIM-InterF-GSR[17])進行比較。2sMHR為性能優(yōu)良的傳統分塊多假設算法;SSIM-InterF-GSR利用組稀疏特性融合時空相關性,是目前性能較好的傳統CVS重構算法?;谧髡呓o出的實現代碼,本研究在Matlab2016a中實現這兩種傳統算法,并且為了縮短傳統算法的重構時間,采用分辨率更小的6組QCIF格式的標準視頻序列進行仿真實驗,包括運動較快序列Soccer、Football、Ice與運動較慢序列Foreman、Hall、Su-zie。仿真測試了上文給出的平均采樣率分別為0.238、0.150、0.106、0.053、0.036、0.028的條件下各算法的重構性能,并且為了保證GOP大小改變時總幀數不相差過大,GOP大小設置為8的實驗中選取每個序列的前12個GOP進行重構,而GOP大小設置為10的實驗中則選取每個序列的前10個GOP進行重構。

        2sMHNet、PRCVSNet與傳統CVS重構算法重構結果的對比如表4所示;為了驗證運動增強網絡的性能,表4同時給出了2sMHNet與PRCVSNet的初始重構網絡ResRecNet的重構結果。

        表4 2sMHNet以及PRCVSNet與傳統重構算法的重構結果對比

        實驗結果表明,文中算法無論在快序列或者慢序列中都取得了最好的重構效果,并且隨著平均采樣率的降低該網絡重構質量提升效果更加明顯。當平均采樣率為0.238時,相較于2sMHR,在6個序列中的PSNR平均提升了2.87 dB、SSIM平均提升了0.031 3,相較于SSIM-InterF-GSR,PSNR平均提升了0.56 dB、SSIM平均提升了0.016 1;平均采樣率下降至0.028時,相較于2sMHR、SSIM-InterF-GSR,2sMHNet的PSNR平均提升了8.54、3.98 dB,SSIM平均提升了0.287 9、0.096 2。再者,文中算法2sMHNet相較于傳統方法在快序列與慢序列中的提升效果不一;對于快速運動序列,由于運動較快導致的幀間相關性較低使得傳統的視頻壓縮感知重構算法因難以找到合適的匹配塊而導致不準確運動估計,使得重構質量較差,在文中算法的重構網絡中,由于其較好的初始重構質量再加上增強重構網絡進一步地提升,重構質量較SSIM-InterF-GSR有了明顯改善;對于慢速序列,傳統方法可以利用準確的運動估計獲得優(yōu)秀的重構質量,而2sMHNet加入了兩階段預測殘差增強網絡之后,相較于其初始重構結果平均PSNR得到了較大地提升,高達2.1~9.5 dB。

        序列Hall在不同重構算法及不同平均采樣率下的重構結果如圖5所示。圖5(a)為平均采樣率0.150情況下第32幀的重構結果,觀察可知,圖像重構算法ResRecNet重構效果最差,傳統算法2sMHR與SSIM-InterF-GSR均出現了不同程度的模糊,特別是運動程度較大的人物腿部部分,而PRCVSNet與2sMHNet均能較準確地重構,且2sMHNet精度更高;圖5(b)為極低平均采樣率0.036時Hall序列第22幀的重構結果,觀察可知,不同算法的重構差異更為明顯,2sMHR幾乎無法重構,SSIM-InterF-GSR重構圖出現了嚴重的變形,細節(jié)信息缺失,但2sMHNet在初始重構質量較差的情況下仍舊能通過運動補償較好地重構出原信號。

        圖5 序列Hall在不同重構算法及不同平均采樣率下的視覺重構結果

        3.2.3 圖像殘差重構網絡的性能分析

        文中作為幀內圖像重構網絡的ResRecNet是在CSNet[11]的基礎上加入殘差重構模塊以進行殘差補償。為了驗證其殘差重構塊的性能,本研究對比了相同實驗條件下兩種圖像重構算法的重構性能。為了保證對比的公平,在CSNet的實驗條件下進行端到端訓練及測試,即設置采樣分塊大小為32,采用裁剪為96像素×96像素的圖像塊的BSDS500數據集,在Tensorflow框架GPU2080Ti加速下訓練迭代140 000次。文獻[11]給出CSNet重構網絡深度重構卷積層層數n=5,而為了減輕網絡的負擔,本研究在n=4,5的情況下分別訓練了兩個網絡深度不同的ResRecNet。對于各網絡,本研究用分辨率為512×512的Lena、Baby、Peper及分辨率為256×256的Butterfly、House、Barbara標準圖像進行了測試。表5給出3個采樣率(0.1,0.2,0.3)下各算法的重構結果。

        由表5所示結果可見,ResRecNet(n=5)相比于CSNet(n=5)在3個采樣率下,PSNR分別提升了-0.14、0.22、0.56 dB,SSIM分別提升了0.007、0.003、0.011,證明殘差重構塊在重構中確實有助于重構性能的提高。另外,ResRecNet(n=4)與ResRecNet(n=5)重構性能相差不大,甚至在較多情況下層數較少的ResRecNet(n=4)重構性能反而較高,因此本研究中視頻壓縮感知重構算法選用n=4的ResRecNet作為其初始重構。

        表5 不同采樣率下各算法的重構質量對比

        3.2.4 多假設增強重構網絡性能分析

        為了驗證多假設增強重構網絡各模塊的性能,文中列出了2sMHNet的初始重構幀,兩個階段的預測幀與殘差重構幀的PSNR重構結果如表6所示。與3.2.2節(jié)一致,在平均采樣率為0.150、0.036時對QCIF格式的快速運動序列(Soccer、Football、Ice)與慢速運動序列(Foreman、Hall、Suzie)進行測試。由表6可知,兩個階段的多假設預測網絡與殘差重構網絡都實現了其既定功能,有利于重構質量的提升。

        為了充分利用時間相關性,本研究引入了串行式的兩階段重構,由表6可見,平均采樣率分別為0.150與0.036情況下,快速運動序列的第二階段重構結果相較于第一階段分別提升了0.24、0.31 dB,而相同情況慢速運動序列僅僅提升了0.01、0.17 dB,證明了該重構模式在快速且復雜運動情景中的優(yōu)越性。

        表6 2sMHNet各個階段的預測幀與殘差重構幀的重構結果

        4 結論

        結合深度學習自適應優(yōu)化與傳統CVS多假設運動補償的思想,提出了深度學習兩階段多假設重構算法(2sMHNet)。該算法的幀內圖像重構部分基于CSNet提出了一個新的圖像重構算法ResRecNet,利用殘差重構塊補償了細節(jié)信息,不僅為視頻壓縮感知重構提供了更好的初始重構結果,也被應用于視頻的幀間重構網絡中利用觀測值進行校正。兩階段多假設增強重構網絡基于傳統多假設運動補償的思想,首先引入深度學習時域可變形卷積對齊網絡實現了基于像素的多假設預測,提升了預測精度,而后利用殘差重構模塊重構預測幀殘差再次進行提升。另外為了充分利用圖像組幀間相關性,本研究設置了串行式兩階段的重構模式,在不同階段選擇不同的參考幀以便獲得更好的預測效果。實驗結果表明,文中所提算法2sMHNet相較于目前優(yōu)秀的視頻壓縮感知重構算法有著更優(yōu)的重構性能。

        猜你喜歡
        關鍵幀殘差重構
        基于雙向GRU與殘差擬合的車輛跟馳建模
        長城敘事的重構
        攝影世界(2022年1期)2022-01-21 10:50:14
        基于殘差學習的自適應無人機目標跟蹤算法
        基于遞歸殘差網絡的圖像超分辨率重建
        自動化學報(2019年6期)2019-07-23 01:18:32
        北方大陸 重構未來
        北京的重構與再造
        商周刊(2017年6期)2017-08-22 03:42:36
        基于改進關鍵幀選擇的RGB-D SLAM算法
        論中止行為及其對中止犯的重構
        基于相關系數的道路監(jiān)控視頻關鍵幀提取算法
        基于聚散熵及運動目標檢測的監(jiān)控視頻關鍵幀提取
        av一区二区在线网站| 无国产精品白浆免费视| 日韩免费高清视频网站| 国产在线视频一区二区三区不卡 | 亚洲精品中文字幕二区| 久久久人妻一区二区三区蜜桃d| 国产丝袜美女| 精品熟女日韩中文十区| 91狼友在线观看免费完整版| 国产女主播福利在线观看| 久久人妻av一区二区软件| 亚洲av伊人久久综合密臀性色| 亚洲国产精品久久久性色av| 日本高清成人一区二区三区| 黑人大群体交免费视频| 野花社区视频www官网| 精品综合久久久久久8888| 国产精品视频一区二区久久| 成人艳情一二三区| 国产欧美亚洲精品a| 精品国产1区2区3区AV| 国产av丝袜熟女丰满一区二区| 特黄熟妇丰满人妻无码 | 亚洲精品国产品国语在线app| 邻居少妇太爽在线观看| 大又大又粗又硬又爽少妇毛片 | a级毛片免费观看在线播放| 国产a三级久久精品| 欧美在线Aⅴ性色| 美女视频一区二区三区在线| 日韩人妻无码精品久久免费一| 亚洲av日韩aⅴ永久无码| 国产精品一区二区三区成人| 国产精品国产三级国a| 少妇高潮惨叫久久久久电影69| 国产成人亚洲日韩欧美| 国产码欧美日韩高清综合一区| 国产不卡视频在线观看| 亚洲一区二区三区播放| 亚洲午夜无码AV不卡| 成人影院视频在线播放|