亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于時(shí)空融合的多幀壓縮視頻增強(qiáng)方法

        2022-08-16 09:39:28馬彥博
        圖學(xué)學(xué)報(bào) 2022年4期
        關(guān)鍵詞:特征提取特征融合

        馬彥博,李 琳,陳 緣,趙 洋,胡 銳

        基于時(shí)空融合的多幀壓縮視頻增強(qiáng)方法

        馬彥博1,李 琳1,陳 緣1,趙 洋1,胡 銳2

        (1. 合肥工業(yè)大學(xué)計(jì)算機(jī)與信息學(xué)院,安徽 合肥 230601;2. 蘇州科技大學(xué)信息化建設(shè)與管理中心,江蘇 蘇州 215009)

        為了減少視頻的存儲(chǔ)和傳輸開銷,通常對(duì)視頻進(jìn)行有損壓縮處理以減小體積,往往會(huì)在視頻中引入各類不自然效應(yīng),造成主觀質(zhì)量的嚴(yán)重下降?;趩螏膲嚎s圖像復(fù)原方法僅利用當(dāng)前幀有限的空間信息,效果有限。而現(xiàn)有的多幀方法則大多采用幀間對(duì)齊或時(shí)序結(jié)構(gòu)來利用相鄰幀信息以加強(qiáng)重建,但在對(duì)齊性能上仍有較大的提升空間。針對(duì)上述問題,提出一種基于多幀時(shí)空融合的壓縮視頻復(fù)原方法,通過設(shè)計(jì)的深度特征提取塊和自適應(yīng)對(duì)齊網(wǎng)絡(luò)實(shí)現(xiàn)更優(yōu)的對(duì)齊融合,充分地利用多幀時(shí)空信息以重建高質(zhì)量視頻。該方法在公開測(cè)試集上(HEVC HM16.5低延時(shí)P配置)優(yōu)于所有對(duì)比方法,并在客觀指標(biāo)上(峰值信噪比PSNR)相比于目前最先進(jìn)的方法STDF取得了平均0.13 dB的提升。同時(shí),在主觀比較上,該方法也取得了領(lǐng)先的效果,重建出更干凈的畫面,實(shí)現(xiàn)了良好的壓縮不自然效應(yīng)去除效果。

        壓縮圖像復(fù)原;塊效應(yīng)去除;視頻增強(qiáng);多幀對(duì)齊融合;可變形卷積

        如今,視頻已成為數(shù)字網(wǎng)絡(luò)流量的主要部分,且占比仍在不斷增長(zhǎng)。為了降低傳輸與存儲(chǔ)成本,視頻通常需要應(yīng)用壓縮處理技術(shù)以大幅降低編碼比特率[1]。然而,壓縮算法往往會(huì)在壓縮后的視頻中引入各種不自然效應(yīng),特別是在帶寬嚴(yán)重受限的情況下,可能會(huì)顯著降低視頻質(zhì)量,影響用戶的主觀體驗(yàn)。此外,低質(zhì)量壓縮視頻中的失真內(nèi)容還會(huì)影響諸如識(shí)別、檢測(cè)等后續(xù)視覺任務(wù)的研究。因此,壓縮視頻質(zhì)量增強(qiáng)的研究具有重要應(yīng)用價(jià)值。

        近些年,國(guó)內(nèi)外學(xué)者在單幅壓縮圖像復(fù)原方面做了大量工作[2-4]。隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,許多基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)的壓縮圖像增強(qiáng)工作[5-7]取得了令人印象深刻的結(jié)果,其通常以端到端的方式學(xué)習(xí)非線性映射,從大量的訓(xùn)練數(shù)據(jù)中直接重建更高質(zhì)量的圖像。但這些方法并不能直接應(yīng)用于壓縮視頻的處理,因?yàn)閱螏椒í?dú)立地處理視頻幀,并未利用相鄰幀之間的時(shí)間冗余信息,在去除不自然效應(yīng)后仍存在較明顯的抖動(dòng)和閃爍偽影,尤其當(dāng)視頻中存在大幅運(yùn)動(dòng)時(shí),此現(xiàn)象會(huì)更為嚴(yán)重。為了充分利用視頻序列的時(shí)間相關(guān)性,YANG等[8]首次提出了一種多幀質(zhì)量增強(qiáng)方法MFQE1.0 (multi-frame quality enhancement),利用壓縮視頻中的高質(zhì)量幀作為參考幀并通過多幀CNN來提高相鄰低質(zhì)量幀。此外,GUAN等[9]利用升級(jí)版的MFQE2.0進(jìn)一步提高了多幀CNN的效率,取得了更好的效果。為了解決視頻中存在的運(yùn)動(dòng)誤差,主流的多幀方法均使用了時(shí)間融合方案,結(jié)合密集光流來進(jìn)行運(yùn)動(dòng)補(bǔ)償[10-11]。然而,壓縮塊效應(yīng)可能會(huì)嚴(yán)重扭曲視頻內(nèi)容并破壞原有相鄰幀之間的像素對(duì)應(yīng)關(guān)系,很難學(xué)習(xí)到精準(zhǔn)的運(yùn)動(dòng)光流場(chǎng),從而導(dǎo)致無(wú)效的質(zhì)量增強(qiáng),反而會(huì)嚴(yán)重影響網(wǎng)絡(luò)的性能。DENG等[12]使用可變形卷積(deformable convolution,DCN)[13]來自適應(yīng)地進(jìn)行時(shí)空位置采樣,捕捉相關(guān)上下文以聚合其之間信息,同時(shí)避免顯示光流估計(jì)。然而,該方案直接在視頻幀上進(jìn)行自適應(yīng)采樣并簡(jiǎn)單地通過視頻幀并聯(lián)進(jìn)行幀重建,未充分挖掘相鄰幀的深度特征信息和時(shí)序信息。

        受文獻(xiàn)[12]的啟發(fā),本文提出一種深度時(shí)空特征融合的多幀質(zhì)量增強(qiáng)方法,通過所設(shè)計(jì)的深度特征提取塊高效提取空間信息并進(jìn)行成對(duì)對(duì)齊,同時(shí)使用帶有注意力機(jī)制的融合模塊對(duì)相鄰幀逐步融合以充分利用時(shí)序信息重建高質(zhì)量視頻。

        1 相關(guān)工作

        1.1 基于單幀的圖像質(zhì)量增強(qiáng)

        近年來,多數(shù)工作都集中在圖像質(zhì)量增強(qiáng)上。文獻(xiàn)[2]應(yīng)用逐點(diǎn)形狀自適應(yīng)離散余弦變換減少JPEG壓縮引起的振鈴和塊效應(yīng)。Jancsary等[14]采用回歸樹場(chǎng)(regression tree fields,RTF)降低JPEG圖像分塊效應(yīng)。此外,CHANG等[15]還嘗試?yán)孟∈杈幋a去除壓縮塊效應(yīng)。隨著深度學(xué)習(xí)的發(fā)展,基于CNN的端到端方法實(shí)現(xiàn)了更先進(jìn)的性能。文獻(xiàn)[5]首先使用4層的淺層卷積去除各類JPEG不自然效應(yīng)。ZHANG等[16]利用殘差學(xué)習(xí)方案,并嘗試學(xué)習(xí)非常深的網(wǎng)絡(luò)取得了更優(yōu)的效果。文獻(xiàn)[7]則通過更深的網(wǎng)絡(luò)和非局部注意力機(jī)制捕捉像素間的遠(yuǎn)程依賴關(guān)系從而恢復(fù)更高質(zhì)量的畫面。上述所有單幀圖像質(zhì)量增強(qiáng)方法直接應(yīng)用于視頻質(zhì)量增強(qiáng)而忽略了相鄰幀間的時(shí)序相關(guān)性,只關(guān)注當(dāng)前幀有限的空間信息使其在視頻質(zhì)量增強(qiáng)上的性能受到了限制。

        1.2 基于多幀的視頻質(zhì)量增強(qiáng)

        連續(xù)的視頻幀往往是高度相關(guān)的,除了利用當(dāng)前幀的空間信息,視頻序列的時(shí)序信息的合理利用也是進(jìn)一步提高重建質(zhì)量的關(guān)鍵。MFQE1.0率先應(yīng)用多幀CNN并同時(shí)利用時(shí)序信息進(jìn)行壓縮視頻質(zhì)量增強(qiáng),即用視頻序列中的高質(zhì)量幀來提高相鄰低質(zhì)量幀的質(zhì)量。首先通過支持向量機(jī)(support vector machine,SVM)分類器遵循無(wú)參考質(zhì)量評(píng)估方法[17]對(duì)壓縮視頻幀進(jìn)行質(zhì)量劃分,將局部最高質(zhì)量幀稱為峰值質(zhì)量幀,2個(gè)峰值質(zhì)量幀之間的其他幀稱為非峰值質(zhì)量幀,再運(yùn)用顯示光流對(duì)2個(gè)峰值質(zhì)量幀進(jìn)行運(yùn)動(dòng)估計(jì)以盡可能地利用相似信息對(duì)非峰值質(zhì)量幀進(jìn)行補(bǔ)償和增強(qiáng),取得了比以往大部分單幀方法更好的結(jié)果。文獻(xiàn)[9]提出的MFQE2.0在升級(jí)了MFQE1.0的幾個(gè)關(guān)鍵組件后取得了更優(yōu)的性能。但上述方法在很大程度上依賴精準(zhǔn)的光流估計(jì),而由于遮擋,受大運(yùn)動(dòng)或特定的壓縮塊效應(yīng)之問題的影響,很難獲得精確的光流。受視頻超分領(lǐng)域[18-19],即利用DCN[13,20]隱式運(yùn)動(dòng)對(duì)齊的啟發(fā),文獻(xiàn)[12]以目標(biāo)中間幀和相鄰幀為輸入聯(lián)合預(yù)測(cè)可變形卷積偏移并在單個(gè)可變形卷積中進(jìn)行對(duì)齊融合來聚合時(shí)空信息,以此省略了對(duì)光流的顯示估計(jì)。然而該方案直接對(duì)視頻幀進(jìn)行融合重建,一定程度上減少了計(jì)算量,但仍未充分挖掘視頻幀中包含的空間信息和時(shí)序信息,在細(xì)節(jié)重建上仍存在不足。本文通過深度特征提取塊進(jìn)行特征信息提取,以充分挖掘幀序列中的空間特征,減少信息損失,并在特征圖層面利用DCN進(jìn)行對(duì)齊,同時(shí)利用帶有注意力的逐步融合策略逐步融合相鄰幀以更好地整合時(shí)序信息從而重建更高質(zhì)量的結(jié)果。

        2 本文方法

        在給定壓縮視頻包含復(fù)雜不自然效應(yīng)的情況下,所提方法的目標(biāo)是去除這些不自然效應(yīng),盡可能提高視頻質(zhì)量。如圖1所示,本文方法主要由3個(gè)階段組成。首先,中間幀與前后若干相鄰幀一同輸入特征提取階段提取幀空間特征;其次,在對(duì)齊融合階段,按時(shí)序?qū)R相鄰幀特征獲取融合特征;最后,通過重建階段進(jìn)一步增強(qiáng)時(shí)空融合特征,以改善圖像細(xì)節(jié)并生成高質(zhì)量的中間幀。

        圖1 整體結(jié)構(gòu)圖

        2.1 深度特征提取

        極深CNN在圖像增強(qiáng)類任務(wù)中呈現(xiàn)出強(qiáng)大能力,而圖像特征信息的獲取,為網(wǎng)絡(luò)后續(xù)的重建提供了基礎(chǔ),在該階段,5個(gè)連續(xù)的低質(zhì)量壓縮輸入幀首先通過一個(gè)大小為3×3的卷積層進(jìn)行特征升維,再投入到深度特征塊進(jìn)行充分的空間特征提取,可表示為

        其中,為輸入幀;為提取的特征;為中間幀索引;為相鄰幀索引;3表示3×3卷積;為深度特征提取塊。

        在CNN中,殘差連接對(duì)提高網(wǎng)絡(luò)性能起著至關(guān)重要的作用。隨著網(wǎng)絡(luò)容量的不斷增加,深度殘差特征逐漸集中在輸入圖像的不同方面,對(duì)于重建空間細(xì)節(jié)是非常有用的。為了充分利用殘差分支中不同的層次特征,減少信息損失,本文提出一種密集殘差特征聚合結(jié)構(gòu),稱之為深度特征提取塊(deep feature extraction block,DFB),以提高深度特征提取的效率,其具體結(jié)構(gòu)如圖2所示。該模塊由若干3×3卷積層,1×1卷積層和ReLu激活層組構(gòu)成,特征維度為32。特別的,本文將卷積操作后得到的特征圖輸入該模塊進(jìn)行不同深度的再提取,不同層次的輸出分支會(huì)交叉地進(jìn)行密集連接和傳遞,每組輸入前還會(huì)通過1×1卷積進(jìn)行通道降維以減少計(jì)算量。與簡(jiǎn)單的堆疊多個(gè)殘差塊相比,本文模塊可以更高效地利用和傳播分層特征信息,從而獲得更具區(qū)分性的特征表示。

        圖2 深度特征提取塊結(jié)構(gòu)圖

        2.2 對(duì)齊融合

        相鄰幀特征包含了豐富的時(shí)間冗余信息,不同位置的差異化特征都有可能對(duì)重建的細(xì)節(jié)產(chǎn)生增益,但不同幀之間往往存在一定的運(yùn)動(dòng)差異,為了有效利用時(shí)序信息,需要對(duì)其進(jìn)行對(duì)齊處理。以往的視頻增強(qiáng)方法大多基于光流對(duì)齊[11,21]或采用3D卷積進(jìn)行時(shí)間跨度采樣[22],對(duì)于壓縮視頻增強(qiáng)任務(wù),這些方法均是次優(yōu)的。除了常見的遮擋和大運(yùn)動(dòng)等干擾情況,壓縮視頻中往往還包含各類復(fù)雜不自然效應(yīng),大大增加了學(xué)習(xí)準(zhǔn)確光流的成本和難度,而不準(zhǔn)確的光流估計(jì)會(huì)嚴(yán)重影響模型的后續(xù)性能。此外,還有些方法使用多個(gè)堆疊的3D卷積進(jìn)行時(shí)空信息聚合,造成了極大地計(jì)算負(fù)擔(dān),使得模型難以訓(xùn)練并影響了整體效率。對(duì)此,本文采用在視頻超分等任務(wù)中被廣泛采用的DCN隱式對(duì)齊來替代顯示的光流對(duì)齊。不同于STDF[12]直接對(duì)幀進(jìn)行對(duì)齊融合,本文在特征層面進(jìn)行成對(duì)的自適應(yīng)偏移學(xué)習(xí),獲得更豐富的時(shí)空信息表征,以充分地學(xué)習(xí)相鄰幀之間的運(yùn)動(dòng)信息。

        對(duì)于特征提取階段獲得的連續(xù)幀特征,本文依次將相鄰特征和中間參考幀成對(duì)投入偏移學(xué)習(xí)網(wǎng)絡(luò)學(xué)習(xí)對(duì)齊所需的偏移量,即

        其中,D為所學(xué)習(xí)的偏移量;(*)為偏移學(xué)習(xí)網(wǎng)絡(luò);[,]為并聯(lián)操作。偏移學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示,遵循通常在光流估計(jì)中采用的多尺度方法[23],相鄰的一組特征在所設(shè)計(jì)的Unet模塊中進(jìn)行多次下采樣和上采樣,以便用更大的感受野和多尺度動(dòng)態(tài)處理小位移和大位移,預(yù)測(cè)更合適的偏移。其中下采樣單元利用空洞為2的3×3卷積進(jìn)行下采樣,上采樣單元利用雙線性插值進(jìn)行特征放大。對(duì)于學(xué)習(xí)到的偏移DP+r,利用DCN對(duì)對(duì)應(yīng)的相鄰特征F+r進(jìn)行對(duì)齊,即

        其中,為DCN對(duì)齊操作;A+r為對(duì)齊后的對(duì)齊特征。

        由于壓縮視頻中不同幀之間存在質(zhì)量波動(dòng),簡(jiǎn)單的卷積聚合可能無(wú)法起到很好的效果,為了更高效地利用對(duì)齊后的特征,本文提出一種帶有通道注意力的逐步融合模塊,采用逐步融合的方式來感知不同幀特征之間的質(zhì)量差異,從而有效地進(jìn)行時(shí)間聚合。圖4中,上一步驟輸出的5幀對(duì)齊特征以局部連接的方式每3個(gè)一組投入到2層融合模塊中,通過多次局部融合獲得中心輸入幀對(duì)應(yīng)的融合特征。每組局部融合操作為

        圖3 對(duì)齊模塊結(jié)構(gòu)圖

        圖4 逐步融合模塊結(jié)構(gòu)圖

        其中,1為1×1卷積,用以通道降維;為由3個(gè)包含注意力層的殘差塊堆疊而成的融合塊。特別的,通道注意力采用ECA[24]的方案。每一層融合模塊共享參數(shù),從而降低了模型對(duì)內(nèi)存的要求。

        2.3 圖像重建

        最后,重建融合特征網(wǎng)絡(luò),其作用是挖掘融合后特征中的互補(bǔ)信息,進(jìn)行進(jìn)一步細(xì)節(jié)增強(qiáng),并將信息從特征空間映射到圖像空間。此外,為了減少信息損失,重建后的增強(qiáng)特征還需與對(duì)齊融合階段得到的融合特征進(jìn)行了殘差連接,即

        其中,R為上一階段得到的融合特征;為2個(gè)深度特征塊,其結(jié)構(gòu)與特征提取階段所用模塊相同;1為1×1卷積;O為輸出的重建圖像。

        3 實(shí)驗(yàn)與分析

        3.1 數(shù)據(jù)準(zhǔn)備

        本文實(shí)驗(yàn)采用基于MFQE2.0提出的數(shù)據(jù)集,從XIPH (xiph.org)和VQEG (VQEG) 2個(gè)數(shù)據(jù)庫(kù)中收集了108個(gè)不同分辨率和內(nèi)容的未壓縮視頻用于訓(xùn)練。為了驗(yàn)證實(shí)驗(yàn)結(jié)果,將來自視頻編碼聯(lián)合協(xié)作團(tuán)隊(duì)的數(shù)據(jù)集[25]用于測(cè)試,同時(shí)用于視頻質(zhì)量評(píng)估。由于實(shí)驗(yàn)GPU性能受限,無(wú)法對(duì)分辨率大于或等于1920×1080視頻序列進(jìn)行直接測(cè)試,因此只選用其余11個(gè)不同分辨率未壓縮視頻,每個(gè)視頻大約500幀。訓(xùn)練視頻和測(cè)試視頻均使用最新的H.265/HEVC[26]參考軟件HM16.52在低延時(shí)P (low delay P,LDP)配置下進(jìn)行壓縮,其中壓縮量化系數(shù)(quantization parameter,QP)設(shè)置為37。

        3.2 實(shí)驗(yàn)設(shè)置

        本文算法實(shí)現(xiàn)框架為PyTorch。從原始視頻和對(duì)應(yīng)的壓縮視頻中隨機(jī)裁剪尺寸為64×64的圖像塊作為訓(xùn)練圖像,同時(shí),采用旋轉(zhuǎn)、翻轉(zhuǎn)等基本數(shù)據(jù)增強(qiáng)手段以擴(kuò)充訓(xùn)練樣本。網(wǎng)絡(luò)訓(xùn)練使用ADAM優(yōu)化器,其各參數(shù)采用默認(rèn)值1=0.9,2=0.99,=10-8。多幀壓縮視頻增強(qiáng)網(wǎng)絡(luò)采用端到端方式進(jìn)行訓(xùn)練,批量數(shù)據(jù)規(guī)模設(shè)置為16,學(xué)習(xí)率參數(shù)初始化為10-4。網(wǎng)絡(luò)中使用的卷積核為3×3(涉及通道降維的卷積核為1×1),特征通道數(shù)設(shè)置為32(重建模塊為48)。訓(xùn)練采用的損失函數(shù)為Charbonnier函數(shù)[27],即

        其中,參數(shù)基于經(jīng)驗(yàn)設(shè)置為10-3,通過引用該參數(shù),可以更好地保留圖像邊緣信息以避免模糊,同時(shí)有益于網(wǎng)絡(luò)穩(wěn)定收斂,該損失函數(shù)已被廣泛用于各類圖像視頻增強(qiáng)任務(wù)。與以往工作相同,本文只對(duì)YUV空間中的Y通道(即亮度分量)進(jìn)行質(zhì)量增強(qiáng)。并采用增量峰值信噪比PSNR和結(jié)構(gòu)相似性SSIM測(cè)量增強(qiáng)視頻相對(duì)于壓縮視頻的改善,并從參數(shù)量和主觀圖像等方面對(duì)本文方法進(jìn)行評(píng)估和分析。

        3.3 實(shí)驗(yàn)分析

        將本文方法與目前最先進(jìn)的壓縮/視頻質(zhì)量增強(qiáng)方法DnCNN[16],RNAN[7],MFQE1.0,MFQE2.0和STDF進(jìn)行比較,所有方法均在相同的數(shù)據(jù)集上進(jìn)行訓(xùn)練和測(cè)試。表1為實(shí)驗(yàn)結(jié)果,其中DnCNN和RNAN是先進(jìn)的單幀壓縮圖像質(zhì)量增強(qiáng)算法,由于只利用了當(dāng)前低質(zhì)量幀的有限信息,增益較為有限,多幀方法聚合了相鄰幀空間位置上更豐富的時(shí)空信息,在測(cè)試序列上普遍表現(xiàn)出優(yōu)于單幀方法的性能。結(jié)果表明,本文方法在多種壓縮量化系數(shù)下均取得了最高增益,其中,在壓縮量化系數(shù)為37時(shí),相較于先進(jìn)的多幀方法STDF平均PSNR提升了0.13 dB。值得一提的是,DnCNN和MFQE2.0均為輕量方法,較淺的網(wǎng)絡(luò)帶來了優(yōu)異的推理速度。而STDF在空間域直接對(duì)輸入幀進(jìn)行融合和重建,節(jié)省了更多計(jì)算量,本文方法則強(qiáng)調(diào)更有效的對(duì)齊融合,在控制參數(shù)量的同時(shí)獲得了更高的性能提升。

        表1 QP = 37時(shí)在不同測(cè)試序列上的各算法ΔPSNR(dB)/SSIM(×10-2)比較

        注:加粗?jǐn)?shù)據(jù)為最優(yōu)值

        圖5給出了不同方法增強(qiáng)后圖像的主觀質(zhì)量比較。通過觀察可知,對(duì)于原始?jí)嚎s幀圖像,單幀方法效果有限,無(wú)法很好地去除其中的壓縮塊效應(yīng),在給定包含運(yùn)動(dòng)的畫面中,多幀方法能從相鄰幀中獲取更多的信息并進(jìn)行重建。得益于深度特征提取塊和融合模塊,本文方法相對(duì)于其他多幀方法能恢復(fù)更加干凈、清晰的畫面,從而明顯改善壓縮幀的主觀質(zhì)量。

        圖5 測(cè)試集主觀對(duì)比結(jié)果

        此外,為了進(jìn)一步驗(yàn)證本文方法及各模塊的有效性,對(duì)模型進(jìn)行了消融實(shí)驗(yàn),其客觀指標(biāo)見表2??梢园l(fā)現(xiàn),本文提出的深度特征提取塊和融合模塊均對(duì)圖像重建產(chǎn)生一定增益,且在組合訓(xùn)練時(shí)產(chǎn)生了最好效果,驗(yàn)證了模型的合理性。

        表2 模塊消融結(jié)果(dB)

        不同于單幀方法,多幀方法提取多個(gè)幀的信息用于重建,不同數(shù)量的輸入幀會(huì)給模型性能帶來影響。表3給出了不同數(shù)量輸入對(duì)模型性能產(chǎn)生的增益,可以發(fā)現(xiàn),增大輸入幀時(shí)間跨步可以提高重建結(jié)果的質(zhì)量,但同時(shí)也增大了計(jì)算量,出于性能和計(jì)算量的平衡,本文采用5幀輸入的方案。

        值得一提的是,訓(xùn)練數(shù)據(jù)基本由單一場(chǎng)景視頻構(gòu)成,但在實(shí)際測(cè)試和使用中,視頻中不可避免會(huì)遇到少量的場(chǎng)景轉(zhuǎn)換。實(shí)驗(yàn)發(fā)現(xiàn),本文逐步融合模塊可以相對(duì)更好地感知幀間差異,聚焦對(duì)重建結(jié)果更有益的相鄰特征,從而高效利用時(shí)序信息。圖6給出某一測(cè)試中存在場(chǎng)景轉(zhuǎn)換的相鄰幀,并列出了本文方法同對(duì)比方法的重建結(jié)果。通過觀察可知,STDF方法在面對(duì)場(chǎng)景轉(zhuǎn)換時(shí)可出現(xiàn)嚴(yán)重的重疊偽影,該方法對(duì)相鄰幀同時(shí)進(jìn)行時(shí)空特征提取,故在轉(zhuǎn)場(chǎng)時(shí)不可避免地引入不同場(chǎng)景的特征。本文方法的空間對(duì)齊和時(shí)序融合操作雖然是分開進(jìn)行的,但在未添加融合模塊的消融模型中也一定程度出現(xiàn)了重疊情況。相比而言,添加了融合模塊的完整模型雖然產(chǎn)生了更大的計(jì)算量,但在測(cè)試實(shí)驗(yàn)中較好地避免了重疊偽影。對(duì)于測(cè)試涉及場(chǎng)景轉(zhuǎn)換的相鄰幀,STDF的平均增益為0.05 dB,而本文方法則為0.31 dB。可以發(fā)現(xiàn),本文方法在場(chǎng)景邊緣的重建上帶來了更好的性能,這也進(jìn)一步驗(yàn)證了其帶有注意力逐步融合機(jī)制的有效性。

        圖6 融合模塊效果對(duì)比

        4 結(jié)束語(yǔ)

        本文提出的多幀壓縮視頻增強(qiáng)網(wǎng)絡(luò),能夠有效去除壓縮視頻中的復(fù)雜不自然效應(yīng)。為此,首先提出一種深度特征提取塊,輸入特征和不同層次的輸出分支交叉地進(jìn)行密集連接,以對(duì)輸入幀提取豐富的空間信息。其次,為了有效利用不同幀中的時(shí)空信息,緩解幀間運(yùn)動(dòng)差異,相鄰幀特征被成對(duì)地投入自適應(yīng)偏移網(wǎng)絡(luò)學(xué)習(xí)運(yùn)動(dòng)偏移并通過DCN進(jìn)行隱式對(duì)齊。同時(shí),為了進(jìn)一步利用多個(gè)幀中的時(shí)間信息感知質(zhì)量差異,本文還提出了一種帶有通道注意力的逐步融合模塊,帶有豐富時(shí)間信息的多通道特征被分組提取,使得網(wǎng)絡(luò)關(guān)注重要的時(shí)間信息。最后,帶有時(shí)空信息的融合特征被送入多個(gè)深度特征塊,進(jìn)行進(jìn)一步的質(zhì)量增強(qiáng)。在公開測(cè)試集上,本文方法在客觀指標(biāo)(PSNR/SSIM)和主觀表現(xiàn)上實(shí)現(xiàn)了明顯提升,恢復(fù)了更高視覺質(zhì)量的畫面。相較其他方法,本文方法在壓縮視頻增強(qiáng)任務(wù)上取得了更優(yōu)的性能。

        但本文方法同諸多對(duì)比方法一樣具有一定的局限性,在取得明顯增強(qiáng)效果的同時(shí)也帶來了不小的計(jì)算負(fù)擔(dān),無(wú)法在低性能設(shè)備端達(dá)到實(shí)時(shí)增強(qiáng),方法的效果與計(jì)算平衡性依舊有待挖掘。隨著底層視覺領(lǐng)域的不斷發(fā)展和推進(jìn),在后續(xù)的研究中將持續(xù)探索方法的輕量化和更廣地應(yīng)用場(chǎng)景,在結(jié)構(gòu)和效率方面不斷優(yōu)化,追求達(dá)到更優(yōu)的性能。

        [1] Wien M. High efficiency video coding[J]. Signals and Communication Technology, 2015, 36(11): 2340-2355.

        [2] FOI A, KATKOVNIK V, EGIAZARIAN K. Pointwise shape-adaptive DCT for high-quality denoising and deblocking of grayscale and color images[J]. IEEE Transactions on Image Processing: a Publication of the IEEE Signal Processing Society, 2007, 16(5): 1395-1411.

        [3] ZHANG X F, XIONG R Q, FAN X P, et al. Compression artifact reduction by overlapped-block transform coefficient estimation with block similarity[J]. IEEE Transactions on Image Processing: a Publication of the IEEE Signal Processing Society, 2013, 22(12): 4613-4626.

        [4] ZHAO Y, JIA W, LI L, et al. Filtered mapping-based method for compressed web image super-resolution[J]. IEEE Access, 2017, 5: 12682-12695.

        [5] DONG C, DENG Y B, LOY C C, et al. Compression artifacts reduction by a deep convolutional network[C]//2015 IEEE International Conference on Computer Vision. New York: IEEE Press, 2015: 576-584.

        [6] TAI Y, YANG J, LIU X M, et al. MemNet: a persistent memory network for image restoration[C]//2017 IEEE International Conference on Computer Vision. New York: IEEE Press, 2017: 4549-4557.

        [7] ZHANG Y L, LI K P, K L, et al. Residual non-local attention networks for image restoration[EB/OL]. (2019-03-24) [2021- 11-23]. https://arxiv.org/abs/1903.10082.

        [8] YANG R, XU M, WANG Z L, et al. Multi-frame quality enhancement for compressed video[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 6664-6673.

        [9] GUAN Z Y, XING Q L, XU M, et al. MFQE 2.0: a new approach for multi-frame quality enhancement on compressed video[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 43(3): 949-963.

        [10] CABALLERO J, LEDIG C, AITKEN A, et al. Real-time video super-resolution with spatio-temporal networks and motion compensation[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 2848-2857.

        [11] XUE T F, CHEN B A, WU J J, et al. Video enhancement with task-oriented flow[J]. International Journal of Computer Vision, 2019, 127(8): 1106-1125.

        [12] DENG J N, WANG L, PU S L, et al. Spatio-temporal deformable convolution for compressed video quality enhancement[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2020, 34(7): 10696-10703.

        [13] DAI J F, QI H Z, XIONG Y W, et al. Deformable convolutional networks[C]//2017 IEEE International Conference on Computer Vision. New York: IEEE Press, 2017: 764-773.

        [14] JANCSARY J, NOWOZIN S, ROTHER C. Loss-specific training of non-parametric image restoration models: a new state of the art[C]//2012 European Conference on Computer Vision. Heidelberg: Springer, 2012: 112-125.

        [15] CHANG H B, NG M K, ZENG T Y. Reducing artifacts in JPEG decompression via a learned dictionary[J]. IEEE Transactions on Signal Processing, 2014, 62(3): 718-728.

        [16] ZHANG K, ZUO W M, CHEN Y J, et al. Beyond a Gaussian denoiser: residual learning of deep CNN for image denoising[J]. IEEE Transactions on Image Processing: a Publication of the IEEE Signal Processing Society, 2017, 26(7): 3142-3155.

        [17] MITTAL A, MOORTHY A K, BOVIK A C. No-reference image quality assessment in the spatial domain[J]. IEEE Transactions on Image Processing: a Publication of the IEEE Signal Processing Society, 2012, 21(12): 4695-4708.

        [18] TIAN Y P, ZHANG Y L, FU Y, et al. TDAN: temporally- deformable alignment network for video super-resolution[C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2020: 3357-3366.

        [19] WANG X T, CHAN K C K, YU K, et al. EDVR: video restoration with enhanced deformable convolutional networks[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. New York: IEEE Press, 2019: 1954-1963.

        [20] ZHU X Z, HU H, LIN S, et al. Deformable ConvNets V2: more deformable, better results[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2019: 9300-9308.

        [21] KAPPELER A, YOO S, DAI Q Q, et al. Video super-resolution with convolutional neural networks[J]. IEEE Transactions on Computational Imaging, 2016, 2(2): 109-122.

        [22] KIM S Y, LIM J, NA T, et al. Video super-resolution based on 3D-CNNS with consideration of scene change[C]//2019 IEEE International Conference on Image Processing. New York: IEEE Press, 2019: 2831-2835.

        [23] DOSOVITSKIY A, FISCHER P, ILG E, et al. FlowNet: learning optical flow with convolutional networks[C]//2015 IEEE International Conference on Computer Vision. New York: IEEE Press, 2015: 2758-2766.

        [24] WANG Q L, WU B G, ZHU P F, et al. ECA-net: efficient channel attention for deep convolutional neural networks[C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2020: 11531-11539.

        [25] OHM J R, SULLIVAN G J, SCHWARZ H, et al. Comparison of the coding efficiency of video coding standards—including high efficiency video coding (HEVC)[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2012, 22(12): 1669-1684.

        [26] SULLIVAN G J, OHM J R, HAN W J, et al. Overview of the high efficiency video coding (HEVC) standard[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2012, 22(12): 1649-1668.

        [27] LAI W S, HUANG J B, AHUJA N, et al. Deep Laplacian pyramid networks for fast and accurate super-resolution[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 5835-5843.

        Multi-frame compressed video enhancement based on spatio-temporal fusion

        MA Yan-bo1, LI Lin1, CHEN Yuan1, ZHAO Yang1, HU Rui2

        (1. School of Computer Science and Information Engineering, Hefei University of Technology, Hefei Anhui 230601, China; 2. Information Construction and Management Center, Suzhou University of Science and Technology, Suzhou Jiangsu 215009, China)

        In order to reduce the storage and transmission cost of video, lossy compression is in frequent use, which however would incur various types of artifacts in the video and affect users’ subjective visual experience. The single frame method cannot be directly applied to video processing, because they independently process each video frame, limiting the use of spatial information and causing limited effectiveness. Inter-frame alignment or temporal structure was often adopted in multi-frame methods to enhance the reconstruction results by utilizing the temporal information, but there remains much room for improvement in alignment performance. To solve the above problems, a multi-frame spatio-temporal compression artifact removal method was proposed to achieve better alignment fusion through the alignment fusion design. This method efficiently utilized the multi-frame spatio-temporal information to reconstruct high quality videos.The experimental results show that the proposed method outperforms other comparative methods on a number of test compressed videos with different resolutions (HM16.5 under low delay P), and that it can achieve an average improvement of 0.13 dB on the objective index peak signal to noise ratio (PSNR) compared with the state-of-the-art multi-frame method STDF. Meanwhile, the proposed method can yield promising results in subjective comparisons, reconstructing a clearer picture with a good effect of compression artifact removal.

        compressed image restoration; block effect removal; video enhancement; multi-frame alignment fusion;deformable convolution

        23 November,2021;

        Key R&D and Transformation Program of Qinghai Province (2021-GX-111); National Natural Science Foundation of China (61972129); Natural Science Research Projects of Colleges and Universities in Jiangsu Province (20KJB520013)

        MA Yan-bo (1997-), master student. His main research interests cover image processing and computer vision. E-mail:ybma@mail.hfut.edu.cn

        TP 751.1

        10.11996/JG.j.2095-302X.2022040651

        A

        2095-302X(2022)04-0651-08

        2021-11-23;

        2022-02-24

        24 February,2022

        青海省科技重點(diǎn)研發(fā)與成果轉(zhuǎn)化專項(xiàng)(2021-GX-111);國(guó)家自然科學(xué)基金項(xiàng)目(61972129);江蘇省高等學(xué)校自然科學(xué)研究項(xiàng)目(20KJB520013)

        馬彥博(1997-),男,碩士研究生。主要研究方向?yàn)橛?jì)算機(jī)視覺與圖像處理。E-mail:ybma@mail.hfut.edu.cn

        趙 洋(1987-),男,副研究員,博士。主要研究方向?yàn)閳D像處理、計(jì)算機(jī)視覺等。E-mail:yzhao@hfut.edu.cn

        ZHAO Yang (1987-), associate researcher, Ph.D. His main research interests cover image processing, computer vision, etc. E-mail:yzhao@hfut.edu.cn

        猜你喜歡
        特征提取特征融合
        村企黨建聯(lián)建融合共贏
        融合菜
        從創(chuàng)新出發(fā),與高考數(shù)列相遇、融合
        《融合》
        如何表達(dá)“特征”
        基于Gazebo仿真環(huán)境的ORB特征提取與比對(duì)的研究
        電子制作(2019年15期)2019-08-27 01:12:00
        不忠誠(chéng)的四個(gè)特征
        抓住特征巧觀察
        一種基于LBP 特征提取和稀疏表示的肝病識(shí)別算法
        基于MED和循環(huán)域解調(diào)的多故障特征提取
        一区二区三区中文字幕在线观看| 精品人人妻人人澡人人爽牛牛| 少妇极品熟妇人妻无码| 亚洲人成影院在线高清| 国产一区二区三区在线影院| 国产乱码人妻一区二区三区| 无码日韩精品一区二区三区免费 | 亚洲av成人一区二区三区av| 午夜亚洲国产理论片亚洲2020| 人妻无码AⅤ中文系列久久免费| 色妞一区二区三区免费视频| 男女搞事在线观看视频| 内射白浆一区二区在线观看| 久久亚洲av无码西西人体| 国产专区国产av| 国产小毛片| 尤物yw午夜国产精品视频 | 在线观看av不卡 一区二区三区| 亚洲一区二区三区日韩在线观看| 亚洲综合精品亚洲国产成人| 亚洲欧美综合精品成人网站| 美女把尿囗扒开让男人添| 人妻精品无码一区二区三区 | 日本高清二区视频久二区| 男女视频网站在线观看| 亚洲av片无码久久五月| 爱性久久久久久久久| 伊人蕉久中文字幕无码专区| 国产午夜精品理论片| 开心五月婷婷综合网站| 久久精品人妻一区二三区| 国内嫩模自拍诱惑免费视频| 亚洲精品色婷婷在线影院| 四虎影视在线影院在线观看| 视频福利一区| 黑人一区二区三区在线| 你懂的视频网站亚洲视频| 公和我做好爽添厨房| 国产亚洲精品久久久ai换| 欧美日韩电影一区| 国产一区二区丁香婷婷|