摘要:為提高新一代通用視頻編碼標(biāo)準(zhǔn)(H.266/VVC)中色度幀內(nèi)預(yù)測的準(zhǔn)確度,提出了采用輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)的跨分量預(yù)測方法。設(shè)計(jì)了亮度模塊和邊界模塊,從亮度和色度參考樣本中提取特征。設(shè)計(jì)了注意力模塊,構(gòu)建當(dāng)前亮度參考樣本和邊界亮度參考樣本之間的空間關(guān)系,并應(yīng)用于邊界色度參考樣本生成色度預(yù)測樣本。為降低編解碼復(fù)雜度,設(shè)計(jì)網(wǎng)絡(luò)在二維完成特征融合和預(yù)測,優(yōu)化了現(xiàn)有的同組參數(shù)處理不同塊大小的訓(xùn)練策略。并且,引入寬度可變卷積,根據(jù)不同的塊大小調(diào)整網(wǎng)絡(luò)參數(shù)。實(shí)驗(yàn)結(jié)果表明:與H.266/VVC測試模型VTM18.0相比,所提網(wǎng)絡(luò)在Y(亮度分量)、Cb(藍(lán)色色度分量)、Cr(紅色色度分量)上分別實(shí)現(xiàn)了0.30%、2.46%、2.25%的碼率節(jié)省。與其他基于卷積神經(jīng)網(wǎng)絡(luò)的跨分量預(yù)測方法相比,有效地降低了網(wǎng)絡(luò)參數(shù)和推理復(fù)雜度,分別節(jié)省了約10%的編碼時(shí)間和19%的解碼時(shí)間。
關(guān)鍵詞:通用視頻編碼;跨分量預(yù)測;輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò);注意力機(jī)制;寬度可變卷積
中圖分類號(hào):TN919.8 文獻(xiàn)標(biāo)志碼:A
DOI:10.7652/xjtuxb202502018 文章編號(hào):0253-987X(2025)02-0180-09
Cross-Component Prediction for H.266/Versatile Video Coding Based on Lightweight Convolutional Neural Network
ZOU Chengyi1, WAN Shuai1,2, ZHU Zhiwei1, YIN Yujie1
(1. School of Electronic and Information, Northwestern Polytechnical University, Xi’an 710129, China;
2. School of Engineering, Royal Melbourne Institute of Technology, Melbourne VIC3001, Australia)
Abstract:To improve the accuracy of intra chroma prediction in H.266/versatile video coding (VVC), a cross-component prediction method based on lightweight convolutional neural network was proposed in this paper. The luma module and chroma module were designed to extract features from luma and chroma reference samples, and the attention module was designed to leverage the attention mechanism to construct the spatial correlation between the current luma reference samples and the boundary luma reference samples. Finally, the attention mask was applied to the boundary chroma reference samples to generate chroma prediction value. To reduce the encoding and decoding complexity, the feature fusion and prediction in the network were achieved in two dimensions, the existing training strategy with shared parameters to handle variable block sizes was improved, and slimmable convolutions were introduced to adjust network parameters according to different block sizes. The experimental results show that the proposed algorithm achieved 0.30%/2.46%/2.25% BD-rate reduction on the Y/Cb/Cr component, respectively, compared with the H.266/VVC test model VTM18.0. Compared with other convolutional neural networks-based cross-component prediction methods, the proposed method effectively reduced the network parameters and inference complexity, saving 10% encoding time and 19% decoding time.
Keywords:versatile video coding; cross-component prediction; lightweight convolutional neural network; attention mechanism; slimmable convolution
近年來,隨著互聯(lián)網(wǎng)的迅速發(fā)展,4K/8K超高清視頻、高幀率視頻、大動(dòng)態(tài)范圍視頻、全景視頻等視頻業(yè)務(wù)層出不窮,相關(guān)應(yīng)用對(duì)高性能視頻編碼技術(shù)的需求與日俱增。如何進(jìn)一步降低編碼比特率,同時(shí)保持高視頻質(zhì)量,一直是學(xué)術(shù)界和工業(yè)界的研究熱點(diǎn)。新一代視頻編碼標(biāo)準(zhǔn)H.266/通用視頻編碼(versatile video coding,VVC)是最新的視頻編碼標(biāo)準(zhǔn)之一,相比于上一代視頻編碼標(biāo)準(zhǔn) H.265/高效視頻編碼(high efficiency video coding,HEVC)[1],在保證相同視頻圖像質(zhì)量的前提下,可節(jié)省近50%的碼率,滿足了對(duì)高效視頻壓縮的需求,并支持當(dāng)今更廣泛的媒體內(nèi)容和新興應(yīng)用[2-4]。
H.266/VVC提高幀內(nèi)編碼效率的方法之一是為亮度分量和色度分量引入獨(dú)立的劃分結(jié)構(gòu)。由于亮度塊是在色度塊之前編碼的,所以編碼的亮度信息可以用于色度預(yù)測,以進(jìn)一步減少分量之間的冗余。為實(shí)現(xiàn)這一點(diǎn),H.266/VVC利用了重構(gòu)的亮度信息進(jìn)行跨分量預(yù)測??绶至烤€性模型(cross-component linear model,CCLM)[5]是一種有效的色度分量編碼工具,它建立了一個(gè)跨分量線性預(yù)測模型,并將該模型應(yīng)用于下采樣的亮度重建樣本來預(yù)測色度。然而,簡單的線性映射無法準(zhǔn)確地表示分量之間的關(guān)系,在預(yù)測復(fù)雜的情況下性能有限。
近年來,卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)已成功用于跨分量預(yù)測[6-15]。文獻(xiàn)[6]首次提出了一種用于跨分量預(yù)測的混合神經(jīng)網(wǎng)絡(luò)。基于此,文獻(xiàn)[7]提出了變換域損失以獲得更高的預(yù)測性能。文獻(xiàn)[8]研究了超參數(shù)的影響,并實(shí)現(xiàn)了計(jì)算效率和壓縮性能之間的平衡。文獻(xiàn)[9]提出在編碼樹單元(coding tree unit,CTU)級(jí)別使用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行跨分量預(yù)測。自注意力機(jī)制可用于評(píng)估特定輸入變量對(duì)輸出的影響,文獻(xiàn)[10]將這個(gè)概念成功地?cái)U(kuò)展到跨分量預(yù)測,以評(píng)估每個(gè)邊界參考像素對(duì)當(dāng)前塊像素的影響。針對(duì)文獻(xiàn)[10]中的方法,文獻(xiàn)[11]提出了使用單個(gè)模型預(yù)測不同塊大小數(shù)據(jù)的訓(xùn)練方法以減少模型數(shù)量。文獻(xiàn)[12]提出了空間信息細(xì)化,進(jìn)一步提高了編碼性能。文獻(xiàn)[13]提出了一個(gè)輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)了更低的編解碼復(fù)雜度?;谖墨I(xiàn)[13]中的方法, 文獻(xiàn)[14]提出了樣本自適應(yīng)方法進(jìn)一步提高性能,并提出了簡化卷積的方法進(jìn)一步減少推理參數(shù)。
然而,上述方法中的網(wǎng)絡(luò)是在高維空間完成亮度和色度特征的融合,需要額外的卷積層將融合后的特征映射到二維色度空間,復(fù)雜度較高。而且,上述方法均采用單模型訓(xùn)練所有塊大小,該策略雖然可以節(jié)省總參數(shù)量,但大塊和小塊采用同樣的參數(shù)量并不合理。相對(duì)于大塊,小塊通常內(nèi)容更為簡單且容易被預(yù)測,應(yīng)采用更少的參數(shù)。本文提出了一種基于注意力的輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)用于跨分量預(yù)測,在保證網(wǎng)絡(luò)預(yù)測性能的前提下顯著降低了網(wǎng)絡(luò)參數(shù)量。并且,改變現(xiàn)有的同組參數(shù)處理不同塊大小的訓(xùn)練策略,提出了利用寬度可變卷積根據(jù)不同的塊大小調(diào)整網(wǎng)絡(luò)參數(shù),減少了小塊的推理復(fù)雜度。實(shí)驗(yàn)結(jié)果表明,與H.266/VVC測試模型VTM18.0相比,在相同重建視頻質(zhì)量下,本文所提出的方法在在Y(亮度分量)、Cb(藍(lán)色色度分量)、Cr(紅色色度分量)分量上可分別節(jié)省0.30%、2.46%和2.25%的碼率。與其他基于卷積神經(jīng)網(wǎng)絡(luò)的跨分量預(yù)測方法相比,本文網(wǎng)絡(luò)在提高色度編碼性能的同時(shí),實(shí)現(xiàn)了更少的編解碼時(shí)間。
1 相關(guān)研究
1.1 跨分量線性模型
YCbCr顏色空間的3個(gè)分量間存在相關(guān)性,去除分量間的冗余可以進(jìn)一步提高視頻編解碼性能。視頻編碼中重建的亮度像素可以用于色度幀內(nèi)預(yù)測。文獻(xiàn)[5]中首次引入了亮度和色度分量之間的線性模型,其中線性模型的參數(shù)可以通過顯式傳輸或隱式推導(dǎo)獲得?;诟咝б曨l編碼框架,文獻(xiàn)[15]設(shè)計(jì)了幾種改進(jìn)的色度亮度預(yù)測算法,稱為跨分量預(yù)測,具有優(yōu)異的性能。文獻(xiàn)[16]建議僅使用左鄰居或上鄰居采樣來推斷線性模型,文獻(xiàn)[17]中的工作提出了一種自適應(yīng)模板選擇方法來擴(kuò)展相鄰像素采樣,其中Cr分量可以從Y分量或Cb分量預(yù)測,或者從Y分量和Cb分量進(jìn)行預(yù)測。在文獻(xiàn)[18]中,相鄰像素的加權(quán)和被用作當(dāng)前色度像素的預(yù)測,其中加權(quán)因子由亮度和色度之間的相關(guān)性確定。文獻(xiàn)[19]對(duì)同一位置的亮度塊和色度塊進(jìn)行模板匹配,然后使用匹配的亮度塊的同一位置色度塊作為當(dāng)前色度塊的預(yù)測器。在文獻(xiàn)[20]中,引入了一種使用亮度殘差信號(hào)來補(bǔ)償色度殘差信號(hào)的去相關(guān)方法。
為進(jìn)一步提高跨分量線性模型的預(yù)測能力,在文獻(xiàn)[21-22]中,提出了多模型的CCLM(multi-model based cross-component linear model,MMLM)方法。該方法首先將當(dāng)前塊的重建亮度值劃分為組,并將線性模型應(yīng)用于每組。其次,設(shè)計(jì)了更多的亮度下采樣濾波器。最后,提出了一種結(jié)合角度幀內(nèi)預(yù)測和CCLM預(yù)測的預(yù)測方法。文獻(xiàn)[23]提出了多種梯度下采樣濾波器,利用亮度梯度構(gòu)建與色度之間的梯度線性模型。文獻(xiàn)[24]提出了卷積跨分量模型,使用相鄰模板構(gòu)建亮度和色度之間多對(duì)一的關(guān)系。
1.2 基于神經(jīng)網(wǎng)絡(luò)的跨分量預(yù)測
與簡單的線性模型無法準(zhǔn)確描述亮度和色度分量之間的相關(guān)性相比,神經(jīng)網(wǎng)絡(luò)善于建模更復(fù)雜的非線性映射,如圖1所示。
文獻(xiàn)[6]首次將混合神經(jīng)網(wǎng)絡(luò)引入色度幀內(nèi)預(yù)測,該網(wǎng)絡(luò)利用卷積神經(jīng)網(wǎng)絡(luò)和全連接網(wǎng)絡(luò)分別從重構(gòu)的亮度樣本和相鄰重構(gòu)的亮度和色度樣本中提取特征。然后,將這兩個(gè)特征進(jìn)行融合以預(yù)測色度樣本?;谶@種方法,文獻(xiàn)[7]提出了一個(gè)變換域損失函數(shù),有利于熵編碼過程。此外,文獻(xiàn)[7]還研究了超參數(shù)的影響,以實(shí)現(xiàn)計(jì)算效率和壓縮性能之間的平衡。文獻(xiàn)[8]提出了一種不同的卷積神經(jīng)網(wǎng)絡(luò),它使用亮度和色度樣本作為網(wǎng)絡(luò)的兩個(gè)模塊的輸入。此外,針對(duì)基于網(wǎng)絡(luò)的幀內(nèi)預(yù)測模式,提出了一種新的信令方案,并證實(shí)了絕對(duì)變換差分之和損失函數(shù)對(duì)訓(xùn)練預(yù)測網(wǎng)絡(luò)的好處。文獻(xiàn)[9]提出通過更深的神經(jīng)網(wǎng)絡(luò)和更多的參考像素來預(yù)測CTU級(jí)別的色度,小于CTU的塊將復(fù)制位于同一位置的預(yù)測。CCLM的預(yù)測值被生成作為色度初始化,并且編碼失真水平被引入作為網(wǎng)絡(luò)的輸入。然而,這種方法需要修改VVC的編碼和解碼流程,因?yàn)樵摼W(wǎng)絡(luò)是在CTU級(jí)別應(yīng)用的,并且預(yù)測值需要傳輸?shù)骄幋a單元級(jí)別。
注意力網(wǎng)絡(luò)被廣泛用于不同類型的深度學(xué)習(xí)任務(wù),以提高神經(jīng)網(wǎng)絡(luò)的性能。文獻(xiàn)[10]首次提出一種基于注意力的色度預(yù)測神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)使用注意力機(jī)制來建模參考樣本和預(yù)測樣本之間的空間關(guān)系。該網(wǎng)絡(luò)由4個(gè)模塊組成。前兩個(gè)模塊(跨分量邊界模塊和亮度卷積模塊)從相鄰的重構(gòu)樣本和并置的重構(gòu)亮度塊中提取跨分量信息和亮度空間信息。前兩個(gè)模塊的輸出特征由第3個(gè)基于注意力的模塊融合,最后一個(gè)預(yù)測頭模塊產(chǎn)生色度預(yù)測值。基于這項(xiàng)工作,文獻(xiàn)[11]提出了一個(gè)多模型用于處理可變的塊大小并簡化推理過程。此外,文獻(xiàn)[11]還提出了幾種簡化方案來進(jìn)一步降低原始多模型的復(fù)雜性,包括卷積運(yùn)算的復(fù)雜性降低框架、使用稀疏自動(dòng)編碼器的簡化跨分量邊界模塊以及具有整數(shù)精度近似的算法。為進(jìn)一步改進(jìn)色度預(yù)測,文獻(xiàn)[12]提出了兩種基于現(xiàn)有注意力結(jié)構(gòu)的空間信息細(xì)化方案,包括增加下采樣模塊和位置圖。 文獻(xiàn)[13]提出了面向輕量級(jí)的卷積神經(jīng)網(wǎng)絡(luò),并將Cb和Cr分量分別進(jìn)行預(yù)測,然而這樣大大提高了編解碼復(fù)雜度?;谖墨I(xiàn)[13]中的網(wǎng)絡(luò),文獻(xiàn)[14]提出了樣本自適應(yīng)方法利用更多的邊界參考樣本以進(jìn)一步提高預(yù)測性能,還提出了簡化卷積的方法進(jìn)一步減少推理參數(shù)以降低編解碼復(fù)雜度。然而,上述方法的網(wǎng)絡(luò)都是在高維空間完成特征融合,再通過預(yù)測模塊降維以完成最終預(yù)測,且大塊和小塊均采用相同的參數(shù)進(jìn)行訓(xùn)練和推理,這導(dǎo)致網(wǎng)絡(luò)設(shè)計(jì)和針對(duì)不同塊大小的訓(xùn)練策略都有進(jìn)一步的簡化空間。
2 采用輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)的H.266/VVC跨分量預(yù)測
本節(jié)首先詳細(xì)介紹了所提出的跨分量預(yù)測網(wǎng)絡(luò),然后提出了一種利用可變卷積訓(xùn)練不同塊大小的策略,以降低復(fù)雜度。
2.1 基于注意力的輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)
基于注意力的輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)框架如圖2所示。該網(wǎng)絡(luò)由邊界模塊、亮度模塊、注意力模塊組成。與傳統(tǒng)色度預(yù)測模式[25]不同,Cb和Cr分量的邊界樣本一起輸入。這樣,兩個(gè)色度分量只需要預(yù)測一次,而不需要預(yù)測兩次,可以顯著降低推理復(fù)雜度。此外,與其他色度預(yù)測網(wǎng)絡(luò)不同,亮度和色度邊界樣本是單獨(dú)輸入的,與文獻(xiàn)[10-12]相比,這可以更好地從不同的參考樣本中提取特征,同時(shí)節(jié)省了注意力模塊的復(fù)雜度。與文獻(xiàn)[13]和[14]相比,在提取特征后直接映射到二維預(yù)測,不需要額外的預(yù)測模塊得到Cb和Cr分量的預(yù)測值,從而大大降低了網(wǎng)絡(luò)復(fù)雜度。
由于在視頻編碼中經(jīng)常使用YCbCr 4∶2∶0格式,因此在預(yù)測同一位置的色度塊之前對(duì)重建的亮度塊進(jìn)行下采樣。值得注意的是,這里使用與CCLM相同的傳統(tǒng)下采樣操作,并且下采樣的亮度塊X∈H×W的大小設(shè)為H × W。在色度預(yù)測的過程中,拼接當(dāng)前塊的上邊界和左邊界作為亮度和色度邊界參考樣本BY∈d、 Bc∈2×d,其中d隨著編碼順序和塊大小變化而變化,Y是亮度分量,c∈{Cb,Cr}是當(dāng)前色度分量。
邊界模塊和亮度模塊并行地從邊界參考樣本和同一位置的亮度參考樣本中提取特征。邊界模塊被分為兩個(gè)分支,分別從亮度和色度邊界參考樣本中提取亮度和色度特征。這種方法清楚地分離不同的分量,直到最后的注意力模塊,然后可以根據(jù)亮度圖更有效地包裹色度特征。每個(gè)邊界分支的輸出特征圖S∈C×d可以表示為
S(B,W,b)=ReLU(WB+b)(1)
式中:W∈5×C×D和b∈C代表5×1卷積的權(quán)重和偏置,D為輸入通道數(shù);ReLU為激活函數(shù)修正線性單元。
亮度模塊并行地提取位于同一位置的亮度參考樣本X上的空間信息。使用步長為1的C維5×5卷積層來獲得亮度特征圖X1∈C×H×W,其在網(wǎng)絡(luò)中具有最大的卷積核大小。映射函數(shù)可以寫成
X1(X,WY,bY)=ReLU(WYX+bY)(2)
式中:WY∈5×5×C和bY∈C是5×5卷積的權(quán)重和偏置。
注意力模塊通過注意力機(jī)制對(duì)所有輸入特征進(jìn)行融合,以獲得融合特征。與文獻(xiàn)[10-12]中融合當(dāng)前亮度塊特征和跨分量邊界特征的注意力模塊不同,注意力圖是根據(jù)當(dāng)前亮度塊和亮度邊界的特征生成的。這種方法不僅可以更好地預(yù)測色度,還減少了對(duì)齊特征維度(即1×1卷積)的計(jì)算需求。與文獻(xiàn)[13-14]中的方法類似,注意力模塊將亮度參考特征通過1×1卷積將映射到更小的空間,從而得到F∈J×b和G∈J×H×W,不同的是色度邊界的特征會(huì)直接映射到2維空間,從而得到H∈2×b,這樣可以在注意力模塊直接完成最終的預(yù)測,而不需要多余的卷積再來實(shí)現(xiàn)多維特征到2維的映射,從而大大減少了參數(shù)量。然后,將F和G相乘得到注意力圖A=FTG,A∈b×H×W。通過對(duì)A應(yīng)用softmax函數(shù)以生成注意力掩碼M∈b×H×W,表示每個(gè)邊界位置對(duì)當(dāng)前塊的影響。A中每個(gè)值的計(jì)算方式為
αj,i=exp(mj,i)
∑b-1i=0exp(mj,i)(3)
式中:j=0,…,H×W-1代表了預(yù)測塊的樣本位置;i=0,…,b-1代表參考樣本位置;mj,i代表M中每個(gè)值。通過運(yùn)算=HM,將掩碼作用在色度邊界特征上,得到色度預(yù)測值∈2×H×W。
2.2 寬度可變卷積
文獻(xiàn)[11]提出了塊獨(dú)立的訓(xùn)練策略,可以使用單個(gè)網(wǎng)絡(luò)預(yù)測3種不同大小的塊,文獻(xiàn)[14]進(jìn)一步將這種方法運(yùn)用在所有尺寸的塊上。通常越小的塊越容易預(yù)測,所以預(yù)測小塊可以使用比預(yù)測大塊更少的參數(shù)。文獻(xiàn)[26]首次提出了寬度可變卷積的概念,針對(duì)不同硬件設(shè)備需要訓(xùn)練部署不同模型的問題,只需要訓(xùn)練一個(gè)網(wǎng)絡(luò)就可以根據(jù)實(shí)際硬件設(shè)備的資源限制動(dòng)態(tài)調(diào)整卷積寬度。文獻(xiàn)[27-28]分別將寬度可變卷積用于基于神經(jīng)網(wǎng)絡(luò)的圖像壓縮和視頻壓縮,以改變碼率失真的權(quán)衡并控制復(fù)雜度。受這些文獻(xiàn)的啟發(fā),本文提出采用寬度可變卷積的方法來控制不同塊大小所使用的參數(shù)量,在保證性能的基礎(chǔ)上極大減少了預(yù)測小塊的推理復(fù)雜度。
圖3展示了具有不同數(shù)量活動(dòng)通道的寬度可變卷積。以色度邊界分支和亮度分支為例,同樣的模型可以以多種不同的寬度(活動(dòng)通道數(shù)量)運(yùn)行,并且模型變體的參數(shù)是共享的,允許實(shí)現(xiàn)精度和效率之間的平衡。本文采用3種不同的寬度,1×代表使用所有的通道,0.75×代表使用前75%的通道,0.5×代表使用前一半的通道。
本文網(wǎng)絡(luò)完整的訓(xùn)練過程偽代碼如下。
輸入:
{XNm,BNm,ZNm}:當(dāng)前亮度塊,邊界參考樣本,基準(zhǔn)真實(shí)值。 其中,m∈[0,M]代表數(shù)據(jù)數(shù)量, N∈{16,32,64,128,256,512,1024}代表待預(yù)測塊的面積。
C: 可變寬度卷積的活動(dòng)通道數(shù)
θN(W(t)): N個(gè)網(wǎng)絡(luò)共享權(quán)重W(t)
L(t)reg: 訓(xùn)練t步的目標(biāo)函數(shù)
optimizer (g(t)): 優(yōu)化器函數(shù)
過程:
t←0初始化步長
while θN(W(t))未收斂 do:
for m∈[0,M) do
for N∈{16,32,64,128,256} do
if 16≤Nlt;64 do
C=32
if 64≤Nlt;256 do
C=48
if 256≤N≤1024 do
C=64
t←t+1
L(t)reg←MSE(ZNm,θN(XNm,BNm,W(t-1)))
g(t)←ΔWL(t)reg(獲取t步的梯度)
W(t)←optimizer(g(t))
end for
end for
end while
在訓(xùn)練第t步時(shí),首先根據(jù)預(yù)測塊的面積確定可變寬度卷積的活動(dòng)通道數(shù),本文最多使用64個(gè)活動(dòng)通道,最少使用32和活動(dòng)通道,即1×=64,0.75×=48,0.5×=32。確定活動(dòng)通道數(shù)后即可更新網(wǎng)絡(luò)參數(shù),獲得一組新的權(quán)重。為了讓預(yù)測值更接近于原始值,使用最小化均方誤差(mean-square error,MSE)作為目標(biāo)函數(shù)來更新網(wǎng)絡(luò)參數(shù),MSE公式如下
MSE(yi, i)=1n∑ni=1(yi-i)2 (4)
式中:yi為真實(shí)值;i為預(yù)測值;n為像素總數(shù)。
本文網(wǎng)絡(luò)的參數(shù)如表1所示。由于采用了寬度可變卷積,邊界模塊和亮度模塊的輸出通道及注意力模塊的輸入通道會(huì)根據(jù)塊的大小發(fā)生變化。
2.3 網(wǎng)絡(luò)訓(xùn)練
訓(xùn)練數(shù)據(jù)集由來自DIV2K數(shù)據(jù)集[29]的800張圖像和來自BVI-DVC數(shù)據(jù)集[30]的800張圖像組成。DIV2K數(shù)據(jù)集是一個(gè)高質(zhì)量的自然圖像數(shù)據(jù)集,包含800個(gè)訓(xùn)練樣本和100個(gè)驗(yàn)證樣本。DIV2K數(shù)據(jù)庫中圖像的最大分辨率為2K((2040×648)~(2040×2040)像素)。該數(shù)據(jù)庫還提供了3個(gè)較低分辨率版本((1020×324)~(1020×1020)像素,(680×216)~(680×680)像素,(510×162)~(510×510)像素),它們通過雙線性和未知濾波器按因子2、3、4進(jìn)行下采樣。對(duì)于每個(gè)數(shù)據(jù)實(shí)例,隨機(jī)選擇一個(gè)分辨率。值得注意的是,選擇高分辨率圖像的概率被設(shè)置為高于低分辨率圖像的選擇概率,并且圖像需要從PNG格式轉(zhuǎn)換YCbCr 4∶2∶0格式。BVI-DVC是一個(gè)YCbCr格式的代表性視頻數(shù)據(jù)庫,旨在訓(xùn)練基于CNN的視頻壓縮算法,其中包含270p~2160p的各種空間分辨率的800個(gè)序列。對(duì)于每個(gè)序列,隨機(jī)選擇一個(gè)幀,然后選擇多個(gè)H×W大小的塊。所有像素值都需要轉(zhuǎn)換為浮點(diǎn)數(shù),并歸一化到[0,1]范圍內(nèi)。所有尺寸的塊一起輸入到網(wǎng)絡(luò)中訓(xùn)練。
在本文中,Tensorflow/Keras被用于訓(xùn)練所提出的網(wǎng)絡(luò)。批量大小設(shè)置為16。所提出的網(wǎng)絡(luò)使用Adam優(yōu)化器,并以10-4的學(xué)習(xí)率開始訓(xùn)練。為了公平比較復(fù)雜度,本文只在訓(xùn)練網(wǎng)絡(luò)時(shí)使用GPU,在VTM推理時(shí)使用CPU。所使用CPU為Intel Core i9-12900K,GPU為NVIDIA GeForce RTX 3090。
2.4 H.266/VVC集成
將所提出的方法作為一種新模式加入到VTM18.0[31]中,與傳統(tǒng)色度預(yù)測模式(平面、直流、角度預(yù)測、CCLM)進(jìn)行率失真競爭。集成后,共有9種候選預(yù)測模式。在編碼端,所有候選預(yù)測模式通過計(jì)算率失真性能代價(jià)進(jìn)行模式選擇,選出損失最小的模式。這不僅需要修改預(yù)測過程,而且需要額外的二進(jìn)制塊級(jí)語法標(biāo)志來指示給定塊是否使用所提出的方法。如圖4所示,如果最佳模式是新模式,則設(shè)置為1。否則,指定為0。這樣,新模式只需要一個(gè)標(biāo)志,而其他模式有一個(gè)以上的標(biāo)志。與傳統(tǒng)模式不同,所提出的預(yù)測模式在編碼和解碼過程中只需一次執(zhí)行就可以獲得兩個(gè)色度分量(Cb和Cr)的預(yù)測值,這大大降低了編碼和解碼的復(fù)雜度。
3 實(shí)驗(yàn)與分析
3.1 編碼性能評(píng)估
編碼性能測試采用全幀內(nèi)配置配置,量化參數(shù)(quantization parameter,QP)設(shè)置為通用測試條件(common test conditions,CTC)[32]所建議的22、27、32、37。采用BD-rate(Bjntegaard delta bit rate, 用符號(hào)ΔR表示)來評(píng)估相對(duì)于VTM18.0的編碼性能。測試序列包括CTC推薦的22個(gè)不同分辨率的視頻序列,分為5個(gè)類別,分別為class A(6個(gè)視頻序列)、class B(5個(gè)視頻序列)、class C(4個(gè)視頻序列)、class D(4個(gè)視頻序列)和class E(3個(gè)視頻序列)。表2總結(jié)了本文網(wǎng)絡(luò)和其他網(wǎng)絡(luò)在VTM18.0的BD-rate對(duì)比結(jié)果。實(shí)驗(yàn)結(jié)果表明:在相同重建視頻質(zhì)量下,本文網(wǎng)絡(luò)在Y、Cb、Cr上分別平均節(jié)省了0.30%、2.46%和2.25%的編碼碼率。這表明本文網(wǎng)絡(luò)可提高壓縮效率,尤其是針對(duì)色度分量,并且與文獻(xiàn)[11]和文獻(xiàn)[14]相比,編碼性能更高。
3.2 復(fù)雜度分析
表3展示了網(wǎng)絡(luò)參數(shù)數(shù)量以分析網(wǎng)絡(luò)復(fù)雜性。
從表3可以看出:對(duì)于面積大于等于256的塊,本文網(wǎng)絡(luò)所使用的訓(xùn)練參數(shù)數(shù)量(4962)小于文獻(xiàn)[11]和文獻(xiàn)[14]中的網(wǎng)絡(luò)參數(shù)數(shù)量(7074和5538); 對(duì)于面積小于256的塊,本文網(wǎng)絡(luò)所使用的訓(xùn)練參數(shù)數(shù)量(2498和1266)遠(yuǎn)小于文獻(xiàn)[11,14]中的網(wǎng)絡(luò)參數(shù)數(shù)量(7074和5538)。這意味著本文提出的神經(jīng)網(wǎng)絡(luò)比文獻(xiàn)[11,14]中的網(wǎng)絡(luò)更輕量,且能根據(jù)塊大小靈活調(diào)整參數(shù)。
表4總結(jié)了本文網(wǎng)絡(luò)和其他網(wǎng)絡(luò)在VTM18.0的編解碼復(fù)雜度對(duì)比結(jié)果。其中,文獻(xiàn)[14]為目前最先進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)跨分量預(yù)測方法之一。實(shí)驗(yàn)結(jié)果表明:相比于VTM18.0,本文網(wǎng)絡(luò)編碼和解碼時(shí)間分別增加了20%和297%。與文獻(xiàn)[11,14]中的網(wǎng)絡(luò)相比,本文網(wǎng)絡(luò)在提高編碼性能的同時(shí),實(shí)現(xiàn)了更少的編碼時(shí)間和解碼時(shí)間。相比文獻(xiàn)[14]中的網(wǎng)絡(luò),本文網(wǎng)絡(luò)編碼和解碼時(shí)間分別降低了10%和19%。
4 結(jié) 論
本文提出了一種基于注意力的輕量級(jí)神經(jīng)網(wǎng)絡(luò)用于跨分量預(yù)測,該網(wǎng)絡(luò)能夠有效地對(duì)參考樣本和預(yù)測樣本之間的空間關(guān)系進(jìn)行建模。為降低復(fù)雜度,設(shè)計(jì)網(wǎng)絡(luò)在二維完成參考樣本的特征融合和Cb與Cr兩個(gè)色度分量的預(yù)測。并且,改變了現(xiàn)有跨分量預(yù)測網(wǎng)絡(luò)的訓(xùn)練策略,采用寬度可變卷積根據(jù)塊大小調(diào)整網(wǎng)絡(luò)參數(shù)。實(shí)驗(yàn)結(jié)果表明,新的預(yù)測模式有效,相對(duì)于最先進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)跨分量預(yù)測方法,在節(jié)省了比特率的同時(shí),大大減少了編解碼復(fù)雜度。
在未來的工作中,為進(jìn)一步提高編碼性能,可考慮使用更多的參考信息,并根據(jù)內(nèi)容設(shè)計(jì)不同的網(wǎng)絡(luò)進(jìn)行預(yù)測。
參考文獻(xiàn):
[1]SULLIVAN G J, OHM J R, HAN W J, et al. Overview of the high efficiency video coding (HEVC) standard [J]. IEEE Transactions on Circuits and Systems for Video Technology, 2012, 22(12): 1649-1668.
[2]BROSS B, CHEN Jianle, OHM J R, et al. Developments in international video coding standardization after AVC, with an overview of versatile video coding (VVC) [J]. Proceedings of the IEEE, 2021, 109(9): 1463-1493.
[3]萬帥, 霍俊彥, 馬彥卓, 等. 新一代通用視頻編碼標(biāo)準(zhǔn)H.266/VVC: 現(xiàn)狀與發(fā)展 [J]. 西安交通大學(xué)學(xué)報(bào), 2024, 58(4): 1-17.
WAN Shuai, HUO Junyan, MA Yanzhuo, et al. The new-generation versatile video coding standard H.266/VVC: state-of-the-art and development [J]. Journal of Xi’an Jiaotong University, 2024, 58(4): 1-17.
[4]萬帥, 霍俊彥, 馬彥卓, 等. 新一代通用視頻編碼H.266/VVC: 原理、標(biāo)準(zhǔn)與實(shí)現(xiàn) [M]. 北京: 電子工業(yè)出版社, 2022.
[5]LEE S H, CHO N I. Intra prediction method based on the linear relationship between the channels for YUV 4:2:0 intra coding [C]//2009 16th IEEE International Conference on Image Processing (ICIP). Piscataway, NJ, USA: IEEE, 2009: 1037-1040.
[6]LI Yue, LI Li, LI Zhu, et al. A hybrid neural network for chroma intra prediction [C]//2018 25th IEEE International Conference on Image Processing (ICIP). Piscataway, NJ, USA: IEEE, 2018: 1797-1801.
[7]LI Yue, YI Yan, LIU Dong, et al. Neural-network-based cross-channel intra prediction [J]. ACM Transactions on Multimedia Computing Communications and Applications, 2021, 17(3): 77.
[8]MEYER M, WIESNER J, SCHNEIDER J, et al. Convolutional neural networks for video intra prediction using cross-component adaptation [C]//2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Piscataway, NJ, USA: IEEE, 2019: 1607-1611.
[9]ZHU Linwei, ZHANG Yun, WANG Shiqi, et al. Deep learning-based chroma prediction for intra versatile video coding [J]. IEEE Transactions on Circuits and Systems for Video Technology, 2021, 31(8): 3168-3181.
[10]BLANCH M G, BLASI S, SMEATON A, et al. Chroma intra prediction with attention-based CNN architectures [C]//2020 IEEE International Conference on Image Processing (ICIP). Piscataway, NJ, USA: IEEE, 2020: 783-787.
[11]BLANCH M G, BLASI S, SMEATON A F, et al. Attention-based neural networks for chroma intra prediction in video coding [J]. IEEE Journal of Selected Topics in Signal Processing, 2021, 15(2): 366-377.
[12]]ZOU Chengyi, WAN Shuai, JI Tiannan, et al. Spatial information refinement for chroma intra prediction in video coding [C]//2021 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC). Piscataway, NJ, USA: IEEE, 2021: 1422-1427.
[13]ZOU Chengyi, WAN Shuai, MRAK M, et al. Towards lightweight neural network-based chroma intra prediction for video coding [C]//2022 IEEE International Conference on Image Processing (ICIP). Piscataway, NJ, USA: IEEE, 2022: 1006-1010.
[14]ZOU Chengyi, WAN Shuai, JI Tiannan, et al. Chroma intra prediction with lightweight attention-based neural networks [J]. IEEE Transactions on Circuits and Systems for Video Technology, 2024, 34(1): 549-560.
[15]KHAIRAT A, NGUYEN T, SIEKMANN M, et al. Adaptive cross-component prediction for 4∶4∶4 high efficiency video coding [C]//2014 IEEE International Conference on Image Processing (ICIP). Piscataway, NJ, USA: IEEE, 2014: 3734-3738.
[16]ZHANG Xingyu, GISQUET C, FRANOIS E, et al. Chroma intra prediction based on inter-channel correlation for HEVC [J]. IEEE Transactions on Image Processing, 2014, 23(1): 274-286.
[17]ZHANG Tao, FAN Xiaopeng, ZHAO Debin, et al. Improving chroma intra prediction for HEVC [C]//2016 IEEE International Conference on Multimedia amp; Expo Workshops (ICMEW). Piscataway, NJ, USA: IEEE, 2016: 1-6.
[18]LEE S H, MOON J W, BYUN J W, et al. A new intra prediction method using channel correlations for the H.264/AVC intra coding [C]//2009 Picture Coding Symposium. Piscataway, NJ, USA: IEEE, 2009: 1-4.
[19]YEO C, TAN Y, LI Zhengguo, et al. Chroma intra prediction using template matching with reconstructed luma components [C]//2011 18th IEEE International Conference on Image Processing. Piscataway, NJ, USA: IEEE, 2011: 1637-1640.
[20]KIM W S, PU Wei, KHAIRAT A, et al. Cross-component prediction in HEVC [J]. IEEE Transactions on Circuits and Systems for Video Technology, 2020, 30(6): 1699-1708.
[21]ZHANG Kai, CHEN Jianle, ZHANG Li, et al. Multi-model based cross-component linear model chroma intra-prediction for video coding [C]//2017 IEEE Visual Communications and Image Processing (VCIP). Piscataway, NJ, USA: IEEE, 2017: 1-4.
[22]ZHANG Kai, CHEN Jianle, ZHANG Li, et al. Enhanced cross-component linear model for chroma intra-prediction in video coding [J]. IEEE Transactions on Image Processing, 2018, 27(8): 3983-3997.
[23]KUO Chewei, LI Xinwei, XIU Xiaoyu, et al. Gradient linear model for chroma intra prediction [C]//2023 Data Compression Conference (DCC). Piscataway, NJ, USA: IEEE, 2023: 13-21.
[24]ASTOLA P. AHG12: convolutional cross-component model(CCCM) for intra prediction: JVET-Z0064 [EB/OL]. (2022-04-13) [2024-05-01]. https://jvet-experts.org/.
[25]BROSS B, WANG Yekui, YE Yan, et al. Overview of the versatile video coding (VVC) standard and its applications [J]. IEEE Transactions on Circuits and Systems for Video Technology, 2021, 31(10): 3736-3764.
[26]YU Jiahui, YANG Linjie, XU Ning, et al. Slimmable neural networks [C]//7th International Conference on Learning Representations. New York, USA: ICLR, 2019:1-12.
[27]YANG Fei, HERRANZ L, CHENG Yongmei, et al. Slimmable compressive autoencoders for practical neural image compression [C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Piscataway, NJ, USA: IEEE, 2021: 4996-5005.
[28]LIU Zhaocheng, HERRANZ L, YANG Fei, et al. Slimmable video codec [C]//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). Piscataway, NJ, USA: IEEE, 2022: 1742-1746.
[29]MA Di, ZHANG Fan, BULL D R. BVI-DVC: a training database for deep video compression [J]. IEEE Transactions on Multimedia, 2022, 24: 3847-3858.
[30]TIMOFTE R, AGUSTSSON E, GOOL L V, et al. NTIRE 2017 challenge on single image super-resolution: methods and results [C]//2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). Piscataway, NJ, USA: IEEE, 2017: 1110-1121.
[31]BROWNE A, YE Y, KIM S. Algorithm description for versatile video coding and test model 18(vtm 18): JVET-AB2002 [EB/OL]. (2022-10-28) [2024-05-01]. https://jvet-experts.org/.
[32]BOYCE J, SUEHRING K, LI L, et al. JVET common test conditions and software reference configurations: JVET-J1010 [EB/OL]. (2018-04-20) [2024-05-01]. https://jvet-experts.org/.
(編輯 陶晴 武紅江)