劉雨墨,劉劍飛,郝祿國,曾文彬
(1.河北工業(yè)大學(xué)電子信息工程學(xué)院,天津 300131;2.河北工業(yè)大學(xué)電子與通信工程國家級(jí)實(shí)驗(yàn)教學(xué)示范中心,天津 300131; 3.廣東工業(yè)大學(xué)信息工程學(xué)院,廣東 廣州 510006;4.天津大學(xué)電氣自動(dòng)化與信息工程學(xué)院,天津 300072)
高效視頻編碼HEVC(High Efficiency Video Coding)作為一個(gè)新的視頻壓縮標(biāo)準(zhǔn),首次被ITU-T (International Telegraph Union Telecommunication standardization sector)和 ISO/IE(International Organization for Standardization/ International Electro technical Commission)聯(lián)合發(fā)布[1]。與上一版本H.264相比,HEVC引入了很多新的技術(shù)模塊,能夠在保證視頻編碼質(zhì)量的前提下,壓縮率提高40%~50%,但其復(fù)雜度也顯著增加。在龐大的數(shù)字視頻數(shù)據(jù)量的環(huán)境下,許多的電子設(shè)備,包括便攜式設(shè)備都要傳輸和存儲(chǔ)數(shù)字視頻,因此對(duì)數(shù)字視頻進(jìn)行高壓縮率處理的同時(shí),還需要降低HEVC的編碼復(fù)雜度。
在HEVC新引入的諸多技術(shù)模塊當(dāng)中,最核心的模塊之一是基于四叉樹的編碼單元CU(Coding Unit)靈活劃分結(jié)構(gòu)。根據(jù)編碼特性的不同,視頻圖像中包括了平緩區(qū)域和復(fù)雜區(qū)域。HEVC為了適應(yīng)不同區(qū)域,將圖像劃分為互不重疊、大小相等的正方形塊,稱作編碼樹單元CTU(Coding Tree Units)[2]。CTU基于四叉樹劃分結(jié)構(gòu)繼續(xù)向下劃分出若干個(gè)CU。編碼單元?jiǎng)澐植捎眠f歸劃分方案,其中每個(gè)編碼單元的節(jié)點(diǎn)又可以遞歸地細(xì)分為4個(gè)新節(jié)點(diǎn),直到達(dá)到最小的CU。CU的大小一般為64×64,32×32,16×16和8×8。若HEVC采用遞歸方式,編碼區(qū)需要掃描所有可能的CU,并通過自上而下的率失真優(yōu)化RDO(Rate Distortion Optimization)成本計(jì)算以及自下而上的成本比較,來選擇最優(yōu)結(jié)果。這個(gè)過程包含了大量的冗余計(jì)算,且非常耗時(shí),占據(jù)了80%以上的編碼時(shí)間。
為了降低HEVC的編碼復(fù)雜度,優(yōu)化編碼單元?jiǎng)澐诌^程,研究人員提出了多種針對(duì)HEVC編碼單元?jiǎng)澐值目焖俜椒?大致上可以分為2種:基于啟發(fā)式的方法和基于機(jī)器學(xué)習(xí)的方法?;趩l(fā)式的方法是根據(jù)當(dāng)前CU的中間特性以及相鄰CU的空間相關(guān)性實(shí)現(xiàn)跳過或提前終止某些模式。Shen等[3]根據(jù)CU與內(nèi)容的關(guān)聯(lián)程度,跳過一些內(nèi)容中很少使用的CU深度等級(jí)。文獻(xiàn) [4-6] 采用貝葉斯決策對(duì)所有的CU深度等級(jí)進(jìn)行提前終止和裁剪。文獻(xiàn) [7] 引入絕對(duì)變換誤差成本計(jì)算進(jìn)行模式選擇和雙向深度搜索,來實(shí)現(xiàn)CU的早期終止。這類方法相較于RDO遞歸過程節(jié)省了大量計(jì)算,但其不能全面地考慮各類視頻序列中的分割特性,導(dǎo)致在特定場(chǎng)景下RD(Rate Distortion)精確度不佳的問題尤為明顯。為克服這類方法的缺點(diǎn),一些研究人員采用機(jī)器學(xué)習(xí)的方法完成加速編碼過程。文獻(xiàn) [8,9] 采用支持向量機(jī)SVM(Support Vector Machine)快速提取圖像特征,根據(jù)特征對(duì)應(yīng)的CU復(fù)雜程度建立分類器再進(jìn)行CU深度決策。文獻(xiàn) [10]利用在線學(xué)習(xí)構(gòu)建精確模型以跳過不必要的模式。文獻(xiàn) [11] 通過數(shù)據(jù)挖掘技術(shù)訓(xùn)練分類器實(shí)現(xiàn)早期CU分類。文獻(xiàn) [12] 利用隨機(jī)森林分類器跳過或終止當(dāng)前CU深度等級(jí)。在基于機(jī)器學(xué)習(xí)的方法中,分割效果相當(dāng)程度上依賴輸入的特征,而特征的提取和功能設(shè)計(jì)需要大量的工作和經(jīng)驗(yàn)。諸多研究利用卷積神經(jīng)網(wǎng)絡(luò)CNN(Convolutional Neural Network)自動(dòng)學(xué)習(xí)特征的特點(diǎn),在幀內(nèi)編碼的過程中主要作用于提前預(yù)測(cè)CU劃分,從而避免RDO的冗余計(jì)算,降低HEVC的編碼復(fù)雜度。文獻(xiàn) [13,14]利用淺層CNN結(jié)構(gòu)并提出了一種友好的VLSI(Very Large Scale Integration)快速?zèng)Q策算法,以此來預(yù)測(cè)CU塊邊緣的概率向量,并跳過部分分割模式,但該方法并沒有完全擺脫RDO遞歸計(jì)算過程。文獻(xiàn) [15] 利用CNN模型在CU搜索過程中預(yù)測(cè)3種類型的CU劃分結(jié)果,將模型作為CU分區(qū)過程的分類器。文獻(xiàn) [16,17]嘗試跳過RDO的遞歸過程,將CTU分成3種尺度輸入到CNN,每種尺度深度等級(jí)不同,同時(shí)得到3個(gè)分割標(biāo)志,用3個(gè)CNN來判斷不同深度等級(jí)是否需要進(jìn)行分割,但分割標(biāo)志是基于當(dāng)前塊決定,不考慮整個(gè)CTU的信息。
為簡化窮舉法的RDO計(jì)算過程,本文利用深度學(xué)習(xí)方法對(duì)幀內(nèi)編碼單元?jiǎng)澐诌M(jìn)行提前預(yù)測(cè),即使用具有很強(qiáng)泛化能力的CNN有效地對(duì)視頻中不同紋理復(fù)雜程度的圖像進(jìn)行自適應(yīng)劃分,以此來降低HEVC的編碼復(fù)雜度。實(shí)驗(yàn)結(jié)果表明,本文設(shè)計(jì)的CNN網(wǎng)絡(luò)模型能夠有效泛化于不同分辨率的視頻序列,同時(shí)很大程度上縮短了視頻編碼的時(shí)間。本文工作可總結(jié)如下:
(1)選取5種不同分辨率的38個(gè)視頻序列,將視頻序列和對(duì)應(yīng)的編碼信息構(gòu)建成用于訓(xùn)練CNN模型的大規(guī)模數(shù)據(jù)集。
(2)根據(jù)CU劃分特點(diǎn)和U-Net網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)勢(shì),設(shè)計(jì)出多尺度特征融合的UcuNet(U-shape code unit Net)網(wǎng)絡(luò)結(jié)構(gòu),有效提取不同尺度的CTU特征并進(jìn)行拼接融合,同時(shí)引入非對(duì)稱卷積AC(Asymmetric Convolution)和CBAM(Convolutional Block Attention Module)注意力機(jī)制來提高網(wǎng)絡(luò)預(yù)測(cè)能力。
(3)通過實(shí)驗(yàn)驗(yàn)證了上述設(shè)計(jì)的有效性,與HEVC官方測(cè)試模型(HM16.20)相比,該設(shè)計(jì)縮短了68.13%的編碼時(shí)間,BD-BR(Bitrate- Distortion Bound Rate)的影響在可接受的2.63%范圍內(nèi)。
本文提出基于多尺度特征融合的網(wǎng)絡(luò)(UcuNet)來優(yōu)化HEVC結(jié)構(gòu)。在編碼一幀時(shí),添加新的線程啟用UcuNet,使其對(duì)輸入的一整幀圖像進(jìn)行處理。UcuNet是由不同視頻序列所構(gòu)建出的數(shù)據(jù)集訓(xùn)練得來。
UcuNet的流程如圖1所示。首先,視頻的每一幀圖像輸入后,被裁剪成大小為64×64的互不重疊的CTU,隨后進(jìn)行CTU編碼;然后,利用所提出的CNN網(wǎng)絡(luò)模型預(yù)測(cè)出所有CU的深度信息;最后,利用預(yù)測(cè)的深度信息進(jìn)行CU編碼,得到輸出的編碼結(jié)果。HEVC編碼過程中,原始的線程負(fù)責(zé)判斷,新的線程預(yù)測(cè)是否完成,待預(yù)測(cè)完成后,直接將預(yù)測(cè)的深度信息作為CU劃分深度進(jìn)行編碼。整個(gè)過程循環(huán)往復(fù),直到所有編碼完成。
Figure 1 Flow chart of UcuNet for fast partitioning of coding units圖1 UcuNet實(shí)現(xiàn)編碼單元快速劃分的流程圖
為了訓(xùn)練預(yù)測(cè)CU劃分的深度學(xué)習(xí)模型,需要構(gòu)建一個(gè)由圖像塊和對(duì)應(yīng)的深度信息組成的數(shù)據(jù)集。為了產(chǎn)生足夠多的訓(xùn)練樣本,同時(shí)防止訓(xùn)練過程出現(xiàn)過擬合,本文剔除了常用的JCT-VC(Joint Collaborative Team on Video Coding)測(cè)試序列,構(gòu)建了一個(gè)大規(guī)模的數(shù)據(jù)集。該數(shù)據(jù)集包含了5種不同分辨率的38個(gè)視頻序列,分辨率分別為:352×288, 704×576, 1280×720, 1920×1080和3840×2160。將這些序列分成3個(gè)子集,其中23個(gè)用作訓(xùn)練集、8個(gè)用作驗(yàn)證集和7個(gè)用作測(cè)試集。使用不同分辨率的視頻序列來制作數(shù)據(jù)集是為了保證訓(xùn)練數(shù)據(jù)的多樣性,從而提高CTU劃分的高效性。使用HEVC官方測(cè)試模型HM16.20在量化參數(shù)QP(Quantization Parameter)(4種取值:37,32,27,22)下對(duì)以上所有視頻序列進(jìn)行全幀內(nèi)編碼。將得到的每一個(gè)CTU劃分結(jié)構(gòu)情況和原始的64×64亮度像素值一起作為一個(gè)樣本。收集并統(tǒng)計(jì)所有CTU劃分的樣本情況。由于視頻圖像具有時(shí)間相關(guān)性,相鄰幀之間具有高度相似性,為了數(shù)據(jù)集的合理性,以及避免在訓(xùn)練時(shí)產(chǎn)生過擬合,采用隨機(jī)方式抽取部分幀進(jìn)行處理獲取隨機(jī)樣本RS(Random Samples)。這樣做的好處是,可以去除大部分重復(fù)數(shù)據(jù),同時(shí)增加樣本間的差異性。表1列出了不同分辨率下的視頻序列個(gè)數(shù)、總幀數(shù)、獲取到的原始樣本總量以及隨機(jī)抽取幀獲得的樣本總量。
Table 1 Information of the samples in the dataset表1 數(shù)據(jù)集中樣本的信息
基于隨機(jī)抽取幀獲取的樣本中,訓(xùn)練集、測(cè)試集和驗(yàn)證集的樣本數(shù)量分別占樣本總量的82%,8%和10%。
Figure 2 Structure of UcuNet圖2 UcuNet結(jié)構(gòu)
由于CU劃分的深度很大程度上與視頻圖像中的紋理復(fù)雜程度相關(guān),分析圖像的特征可以預(yù)測(cè)CU深度信息。CNN已經(jīng)被證實(shí)是一個(gè)能從圖像內(nèi)容中提取特征的強(qiáng)大工具,因此本文利用CNN設(shè)計(jì)了一個(gè)多尺度特征融合的網(wǎng)絡(luò)模型UcuNet來預(yù)測(cè)CU深度。圖2為UcuNet結(jié)構(gòu)。整體結(jié)構(gòu)除包含輸入層、卷積層、池化層和全連接層外,還為了滿足不同尺度的特征提取,尤其是CU特有的尺寸64×64,32×32,16×16和8×8,引入了非對(duì)稱卷積、下采樣和上采樣的處理方法,增加了卷積核的表征能力和特征圖的多樣性。輸入是處理原始CTU后得到的64×64 CTU亮度,即YUV(Y表示亮度,U表示色度,V表示濃度)視頻中Y分量組成的亮度像素塊。首先,通過7×7和5×5的卷積層獲取淺層特征,然后利用非對(duì)稱卷積AC模塊增強(qiáng)特征擬合,減少參數(shù)量和計(jì)算量的同時(shí),引入非線性激活函數(shù)來提高網(wǎng)絡(luò)模型的表達(dá)能力,然后再利用1×1的卷積層進(jìn)一步提取更深的特征并減少計(jì)算量,同時(shí)對(duì)特征通道升維。根據(jù)CU尺寸的特點(diǎn),經(jīng)過卷積處理后的特征進(jìn)入到本文網(wǎng)絡(luò)模型的主體部分,將其進(jìn)行下采樣后,對(duì)不同尺寸進(jìn)行卷積層和池化層的操作,然后采用雙線性插值法的上采樣后,繼續(xù)進(jìn)行卷積層和池化層的操作,最后將得到的每個(gè)尺寸下的特征進(jìn)行拼接融合,有效提升模型的特征學(xué)習(xí)能力。
接下來,通過1×1的卷積將特征通道升維后,再進(jìn)行全局池化,進(jìn)一步精簡特征。本文采用了卷積核為4的池化層處理,將所獲取的特征進(jìn)行過濾,能夠達(dá)到在保留主要特征的前提下減少大量冗余參數(shù)的效果。最后,通過全連接層把前面獲取的特征綜合起來進(jìn)行權(quán)重矩陣的匹配。整個(gè)過程均采用全局歸一化BatchNorm和ReLU非線性激活操作,以使訓(xùn)練數(shù)據(jù)更快地收斂。
本文UcuNet中的主干網(wǎng)絡(luò)是U型對(duì)稱的,其設(shè)計(jì)思路來源于U-Net[18]。U-Net在2015年的IEEE國際生物醫(yī)學(xué)成像研討會(huì)ISBI(International Symposium on Biomedical Imaging)比賽中應(yīng)用于圖像分割領(lǐng)域并獲得了冠軍。本文將U-Net結(jié)合CU劃分的特點(diǎn)加以修整。圖2左側(cè)稱為壓縮路徑,采用最大池化層進(jìn)行下采樣操作,其目的是提取低分辨率的特征信息。右側(cè)是擴(kuò)展路徑,采用雙線性插值法進(jìn)行上采樣操作,其目的是提取高分辨率的特征信息。通過2條不同類型的路徑,使得網(wǎng)絡(luò)能夠進(jìn)行端到端的訓(xùn)練,同時(shí)可以較為精確地獲取圖像中的上下文信息和精確的定位。整個(gè)過程包含了3種特征尺寸,分別為32×32,16×16和8×8,對(duì)應(yīng)CU劃分的深度1,2和3。每次下采樣過程包含了2個(gè)1×1的卷積層,相應(yīng)地,上采樣過程包含了2個(gè)1×1的卷積層(卷積與雙線性插值結(jié)合實(shí)現(xiàn)反卷積操作),并將擴(kuò)展路徑和壓縮路徑的同尺寸特征圖進(jìn)行基于通道的拼接處理。
最后,網(wǎng)絡(luò)利用CTU矩陣中重復(fù)數(shù)值塊最小的尺寸捕捉其紋理復(fù)雜度特征信息。其輸出的標(biāo)簽數(shù)值所取范圍均為0~3,表征每個(gè)CTU中所有CU劃分的深度信息。
為了讓網(wǎng)絡(luò)充分學(xué)習(xí)不同像素類別、通道特征以及上下文特征信息,在上采樣和下采樣的過程中引入CBAM注意力機(jī)制[19],CBAM的結(jié)構(gòu)如圖3所示。在每個(gè)尺寸特征圖中加入注意力機(jī)制,可以讓網(wǎng)絡(luò)對(duì)不同特征信息添加不同的權(quán)重,并且更為全面地獲取特征信息。CBAM是基于卷積模塊的注意力機(jī)制,相較于SENet(Squeeze-and-Excitation Networks)[20],CBAM的優(yōu)勢(shì)是同時(shí)結(jié)合了空間和通道的注意力機(jī)制模塊,且與原輸入特征圖相乘實(shí)現(xiàn)了自適應(yīng)特征修正。
Figure 3 Structure of CBAM圖3 CBAM的結(jié)構(gòu)
通道注意力模塊結(jié)合了全局平均池化(AvgPool)和最大池化(MaxPool)的處理,隨后將結(jié)果輸出到多層感知器MLP(MultiLayer Perceptron)進(jìn)行基于像素的相加處理,最后利用Sigmoid激活函數(shù)生成該模塊的特征圖F。它的數(shù)學(xué)計(jì)算公式如式(1)所示:
F=S(MLP(MaxPool(x))+
MLP(AvgPool(x)))
(1)
其中,x表示輸入特征,S表示Sigmoid函數(shù)。
空間注意力模塊與通道注意力模塊相互補(bǔ)充,通道注意力模塊的輸出和原始的輸入特征相乘后作為空間注意力模塊的輸入,然后利用全局平均池化和最大池化處理后拼接起來,再送入到卷積層將通道數(shù)變成1,最后利用Sigmoid函數(shù)激活后生成最終的特征F,如式(2)所示:
F=S(f7×7([MaxPool(x);AvgPool(x)]))
(2)
其中,f7×7表示卷積核為7×7大小的卷積層。
經(jīng)過CBAM的注意力機(jī)制后,輸出的新特征圖獲得通道和空間維度上的注意力權(quán)重,極大地增強(qiáng)了在通道和空間層面上每個(gè)特征之間的聯(lián)系,提高了獲取的目標(biāo)特征的有效性。
為了評(píng)價(jià)UcuNet CU劃分深度預(yù)測(cè)中的性能,本文將訓(xùn)練好的模型嵌入到HEVC官方測(cè)試模型HM16.20[21]中進(jìn)行多次實(shí)驗(yàn)。本文實(shí)驗(yàn)的硬件環(huán)境配置為:1.6 GHz主頻的Intel?CoreTMi5-8265U CPU、8 GB運(yùn)行內(nèi)存和64位Windows操作系統(tǒng)。在訓(xùn)練過程中,采用BP (Back Propagation)算法對(duì)CNN模型進(jìn)行迭代更新,并選擇Adam算法進(jìn)行優(yōu)化。優(yōu)化器的動(dòng)量衰減和重量衰減因子分別設(shè)為0.9和0.005。初始學(xué)習(xí)率設(shè)置為0.001,并且激活NVIDIA?GeFore?GTX 1080Ti GPU加速CNN模型的訓(xùn)練過程。CNN模型的訓(xùn)練和測(cè)試過程是在PyTorch架構(gòu)下完成的,其中配置文件采用encoder_intra_main.cfg,原因是本文只考慮降低HEVC幀內(nèi)編碼過程的復(fù)雜程度。實(shí)驗(yàn)共計(jì)對(duì)17個(gè)測(cè)試序列進(jìn)行實(shí)驗(yàn)比較。這些測(cè)試序列均來自標(biāo)準(zhǔn)JCT-VC測(cè)試集[22],其中包含5個(gè)類別,分別是A、B、C、D和E類。為了評(píng)估算法編碼效率、復(fù)雜度和主觀視頻質(zhì)量,分別使用指標(biāo)ΔT、BD-BR和BD-PSNR對(duì)所提出的基于深度學(xué)習(xí)的幀內(nèi)編碼單元?jiǎng)澐炙惴ê凸俜綔y(cè)試模型HM16.20算法進(jìn)行比較。3個(gè)指標(biāo)定義如下:
(1)ΔT:表示相較于原始編碼方式的編碼縮短時(shí)間,同時(shí)也表示編碼中計(jì)算復(fù)雜度的降低程度,計(jì)算公式如式(3)所示:
(3)
其中,Tprop表示本文提出算法對(duì)應(yīng)的實(shí)際編碼時(shí)間,THM16.20表示使用官方測(cè)試模型HM16.20算法對(duì)應(yīng)的編碼時(shí)間。編碼時(shí)間越短,表示復(fù)雜度的降低程度越高。
(2)BD-BR:表示在目標(biāo)視頻質(zhì)量相同的情況下,優(yōu)化算法與對(duì)比算法相比的比特率增量,計(jì)算公式如式(4)所示:
(4)
其中,DH和DL分別為RD輸出曲線的最大值和最小值,r1和r2為2個(gè)相對(duì)應(yīng)的比特率。BD-BR指保證相同圖像質(zhì)量的前提下對(duì)應(yīng)碼率的相對(duì)值,該值越小代表碼率越小,意味著編碼效率更佳。
(3)BD-PSNR(Bitrate-Distortion Peak Signal- to-Noise Ratio):表示在相同比特率下,優(yōu)化算法與對(duì)比算法相比視頻質(zhì)量的客觀改善程度,計(jì)算公式如式(5)所示:
(5)
其中,rH和rL分別為輸出碼率最大值和最小值,D1(r)和D2(r)為2個(gè)相對(duì)應(yīng)的RD輸出曲線。BD-PSNR指在保證相同碼率的前提下亮度分量對(duì)應(yīng)的峰值信噪比的大小,該值越小表示圖像視頻質(zhì)量損耗越小。
根據(jù)以上參數(shù),使用本文算法在4種QP值(22,27,32,37)下分別對(duì)A(2560×1600)、B(1920×1080)、C(832×480)、D(416×240)、E(1280×720)5類測(cè)試序列(選取其中14個(gè)測(cè)試視頻的前50幀)使用全幀內(nèi)編碼配置進(jìn)行編碼測(cè)試實(shí)驗(yàn),以充分測(cè)試不同視頻編碼方法的效果。
表2列出了利用本文設(shè)計(jì)對(duì)測(cè)試序列進(jìn)行編碼實(shí)驗(yàn)的結(jié)果,其中包含了BD-BR、BD-PSNR以及4種QP值下的編碼時(shí)間縮短量ΔT。結(jié)果表明,A和E類的編碼復(fù)雜度降低最多,C類和D類的編碼質(zhì)量損失最小。在測(cè)試序列中最多可縮短79.49%的編碼時(shí)間,最小編碼質(zhì)量損失BD-BR為1.19%,對(duì)應(yīng)BD-PSNR為-0.1 dB。
為了評(píng)估UcuNet在CU劃分預(yù)測(cè)上的表現(xiàn),本文完成了4組消融實(shí)驗(yàn)。4組實(shí)驗(yàn)分別采用了不同的CNN網(wǎng)絡(luò)結(jié)構(gòu)設(shè)置,如表3所示。具體來說,采用U-Net結(jié)合CU劃分尺寸特性的3層結(jié)構(gòu)中UcuNet-T是網(wǎng)絡(luò)主干,UcuNet-E1和UcuNet-E2表示不同模塊的消融,UcuNet-E3表示最終提出的方案。各模型結(jié)果需要在4種不同的QP值(22,27,32,37)下對(duì)每個(gè)序列的前10幀進(jìn)行測(cè)試。測(cè)試序列為隨機(jī)抽取的5種不同分辨率大小的視頻,具體視頻序列信息如表4所示。各網(wǎng)絡(luò)對(duì)應(yīng)的BD-BR和BD-PSNR測(cè)試結(jié)果如圖4所示,圖中數(shù)據(jù)越偏左上方對(duì)應(yīng)的預(yù)測(cè)效果越好??梢钥闯?對(duì)于CU劃分的深度預(yù)測(cè),網(wǎng)絡(luò)模型中不同模塊的使用都有明顯效果,其中最終網(wǎng)絡(luò)UcuNet-E3效果最佳。
Table 3 Configuration of 4 ablation experiments 表3 4組消融實(shí)驗(yàn)配置
Table 4 JCT-VC test sequences used in ablation experiments表4 消融實(shí)驗(yàn)使用的JCT-VC測(cè)試序列
Figure 4 Performance of each model of the ablation experiments圖4 消融實(shí)驗(yàn)各模型的性能結(jié)果
Table 2 Experimental results of UcuNet on JCT-VC testset
表5列出了本文設(shè)計(jì)和其他文獻(xiàn)中算法關(guān)于以上性能的比較,其中ΔTAve表示4種QP值下ΔT的平均值。整體上與之前工作相比,在通用測(cè)試條件下本文設(shè)計(jì)算法性能提高較為顯著,在編碼復(fù)雜度的降低程度上也表現(xiàn)更好,同時(shí)編碼質(zhì)量也只有相對(duì)較小程度的降低。主要原因是UcuNet-E3可以通過CNN網(wǎng)絡(luò)提取CTU塊不同尺度的特征,從而一次性完整地預(yù)測(cè)各個(gè)類型的CU深度并進(jìn)行編碼,減少了CU劃分過程中大量的冗余計(jì)算。由此可以看出,本文算法可以將編碼損耗控制在可接受范圍,更適合分辨率較高、實(shí)時(shí)傳輸方面的應(yīng)用場(chǎng)景。
Table 5 Performance comparison of UcuNet and other algorithms表5 UcuNet和其他算法性能比較
本文提出了多尺度特征融合的UcuNet網(wǎng)絡(luò)模型用于CU劃分的高效預(yù)測(cè),跳過了原始HEVC幀內(nèi)編碼中大量的冗余計(jì)算。整體結(jié)構(gòu)以亮度塊像素為基準(zhǔn),通過分層提取并拼接融合不同尺度CTU亮度塊的特征,并利用了非對(duì)稱卷積AC和CBAM注意力機(jī)制減少網(wǎng)絡(luò)的參數(shù)量,同時(shí)提高了特征提取能力。模型利用了38個(gè)視頻序列中的CTU和對(duì)應(yīng)的編碼信息作為樣本進(jìn)行訓(xùn)練。本文將此設(shè)計(jì)嵌入到HEVC官方測(cè)試模型HM16.20中進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,本文設(shè)計(jì)用可接受范圍內(nèi)的編碼性能損失為代價(jià),縮短了68.13%的編碼時(shí)間。目前本文設(shè)計(jì)的深度學(xué)習(xí)模型僅限于應(yīng)用在幀內(nèi)編碼當(dāng)中的CTU分區(qū),未來的工作可以擴(kuò)展到幀內(nèi)和幀間編碼部分中的PU(Prediction Unit)和TU(Transform Unit)分割預(yù)測(cè),實(shí)現(xiàn)RD性能下降在可接受范圍內(nèi),同時(shí)進(jìn)一步降低HEVC的復(fù)雜度。另外,此設(shè)計(jì)還可以擴(kuò)展到H.266/VCC中,但VCC中的分區(qū)過程比HEVC的更為復(fù)雜,未來需要開展更多相關(guān)的研究。