亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于CNN的QTBT劃分模式快速預(yù)測(cè)研究

2020-06-03 17:21:07吳海燕金智鵬

科技視界 2020年12期

吳海燕金智鵬

摘要為了降低編碼復(fù)雜度，提升編碼速度，快速編碼算法成為當(dāng)下研究熱點(diǎn)，以此為背景提出基于CNN的編碼單元快速選擇算法框架，將QTBT編碼單元選擇問題轉(zhuǎn)化為多分類問題，直接從編碼單元中學(xué)習(xí)和提取分類特征，而不需要手動(dòng)去設(shè)計(jì)和提取特征;也不需要時(shí)域和空域的相關(guān)性信息，有助于提高幀內(nèi)編碼的并行運(yùn)算和獨(dú)立解碼性能。本方法還設(shè)計(jì)了一個(gè)目標(biāo)函數(shù)，包括Hingeloss和類別懲罰項(xiàng)，能有效提高分類準(zhǔn)確。

關(guān)鍵詞快速編碼;分類特征;幀內(nèi)編碼;目標(biāo)函數(shù)

1 研究背景

視頻編碼技術(shù)是有效存儲(chǔ)和傳輸多媒體信息的關(guān)鍵技術(shù)之一，是現(xiàn)代信息技術(shù)中不可或缺的重要組成部分。視頻編碼技術(shù)已有30多年的發(fā)展歷史，視頻編碼標(biāo)準(zhǔn)的發(fā)展歷程如圖1所示。當(dāng)前，視頻技術(shù)的發(fā)展趨勢(shì)之一是追求更高的分辨率和清晰度[1]，以實(shí)現(xiàn)對(duì)自然景物更加真實(shí)、清晰的表征。例如，日本放送協(xié)會(huì)（NHK）一直致力于4K（3840×2160像素）甚至8K（7680×4320像素）超高清視頻節(jié)目的壓縮和傳輸技術(shù)研究。但是，超高分辨率帶來了視頻數(shù)據(jù)的急劇增加，使得視頻數(shù)據(jù)的儲(chǔ)存和傳輸變得十分困難[2]。當(dāng)前最新的視頻編碼國(guó)際標(biāo)準(zhǔn)HEVC主要面向高清（720P，1080i，1080P）視頻編碼[3]，對(duì)于當(dāng)前超高清、高動(dòng)態(tài)范圍、360°VR等新興視頻編碼需求已經(jīng)有些力不從心。因此，下一代超高清視頻編碼技術(shù)的研究與標(biāo)準(zhǔn)制定已顯得十分迫切。

為此，2015年10月，聯(lián)合視頻探索工作組（Joint Video Exploration Team，JVET）[4]在日內(nèi)瓦召開了第一次會(huì)議，確定探索面向超高清視頻的編碼技術(shù)和下一代視頻編碼標(biāo)準(zhǔn)的制作工作;并成立了Ad Hoc小組，分領(lǐng)域搜集和審閱技術(shù)提案。JVET沿用了傳統(tǒng)的預(yù)測(cè)+變換的混合編碼框架[5]，同時(shí)又創(chuàng)新性地引入了多項(xiàng)關(guān)鍵技術(shù)，如：四叉樹+二叉樹（Quadtree plus binary tree，QTBT）編碼單元結(jié)構(gòu)65種幀內(nèi)角度預(yù)測(cè)模式，位置相關(guān)的幀內(nèi)預(yù)測(cè)組合（Position dependent intra prediction combination，PDPC），4抽頭插值濾波，交叉分量線性預(yù)測(cè)（Cross-component linear model，CCLM），改進(jìn)的環(huán)路濾波等，顯著提高了壓縮效率。

圖2展示了JVET相對(duì)于HEVC的率失真性能和編碼復(fù)雜度對(duì)比情況。但是，當(dāng)前JVET的編碼效率距離BD-Rate降低50%的預(yù)期目標(biāo)還有較大差距，且當(dāng)前JVET編碼效率的提升是以極高的計(jì)算復(fù)雜度為代價(jià)的。因此，JVET工作組當(dāng)前的工作重點(diǎn)在于提高編碼質(zhì)量和降低編碼復(fù)雜度等兩大領(lǐng)域。

編碼質(zhì)量和計(jì)算復(fù)雜度之間的平衡是視頻編碼領(lǐng)域的核心技術(shù)。本研究將借鑒當(dāng)前在計(jì)算視覺領(lǐng)域獲得廣泛成功的深度學(xué)習(xí)技術(shù)，重點(diǎn)研究提高JVET幀內(nèi)預(yù)測(cè)編碼效率，具有重要的學(xué)術(shù)價(jià)值、應(yīng)用價(jià)值和社會(huì)效益。

2 國(guó)內(nèi)外研究現(xiàn)狀

從視頻編碼技術(shù)的發(fā)展歷程來看，如何在復(fù)雜度和時(shí)延受限的條件下，獲得最優(yōu)率失真性能，是視頻編碼技術(shù)的核心問題。傳統(tǒng)的快速編碼研究主要是基于統(tǒng)計(jì)特征建模和基于機(jī)器學(xué)習(xí)特征分析的方法。例如，Shen等人探索了編碼單元的RD Cost與空間相鄰塊的相關(guān)性，據(jù)此跳過使用概率低的劃分模式的RD Cost計(jì)算。JVET-F0063提出跳過第二個(gè)BT子塊的RD Cost計(jì)算，如果父塊和第一個(gè)BT子塊的RD Cost符合特定的約束條件。Zhang等人依據(jù)編碼單元尺寸設(shè)計(jì)了三類SVM分類器，逐層判斷是否需要把編碼單元?jiǎng)澐譃樽訅K。實(shí)驗(yàn)顯示，這些算法都大幅降低了編碼復(fù)雜度且保持了較好的率失真性能。但是這些算法的性能都依賴于手工設(shè)計(jì)的特征，對(duì)于復(fù)雜情況的處理能力相對(duì)較弱。

目前，基于深度學(xué)習(xí)的快速視頻編碼技術(shù)是快速編碼領(lǐng)域的新興研究方向之一。Liu等人首次將CNN引入到編碼模式快速判決算法中，提出了一種基于深度學(xué)習(xí)的端到端的快速編碼算法框架。該算法把每個(gè)編碼單元下采樣到統(tǒng)一尺寸的8*8矩陣，再送入CNN網(wǎng)絡(luò)進(jìn)行特征提取和分類判決，以確定當(dāng)前編碼單元是否需要進(jìn)一步分割為子塊。但是由于下采樣和網(wǎng)絡(luò)較淺等原因，該算法的BD-Rate損失高達(dá)4.79%。Li等人則為各個(gè)尺寸的編碼單元都訓(xùn)練不同的CNN網(wǎng)絡(luò)，各個(gè)QP下的網(wǎng)絡(luò)模型也分開訓(xùn)練;再加上該算法采用了較深較寬的CNN網(wǎng)絡(luò)，分類準(zhǔn)確率有了提升，BD-Rate損失平均為2.12%。雖然該類基于深度學(xué)習(xí)的算法為視頻快速編碼研究打開新的視角，但是現(xiàn)有算法的應(yīng)用靈活性較差，尤其是率失真性能損失太大。

3 基于CNN多分類的幀內(nèi)編碼單元快速選擇方法研究

JVET采用了許多新技術(shù)用以提高幀內(nèi)編碼質(zhì)量，其中影響最大的技術(shù)就是四叉樹+二叉樹（quad-tree plus binary-tree， QTBT）編碼單元?jiǎng)澐址椒?。相比于HEVC的HM16.9，JEM 5.0的幀內(nèi)編碼可以在同等質(zhì)量下降低20%的碼率。另一方面，編碼單元的QTBT結(jié)構(gòu)劃分導(dǎo)致了編碼復(fù)雜度的大幅增加，約增加523%[5]。因此，研究JVET的快速編碼算法，尤其是幀內(nèi)編碼單元快速選擇方法，是當(dāng)前的一個(gè)研究熱點(diǎn)。

在各種基于學(xué)習(xí)的快速編碼算法中，分類器的分類準(zhǔn)確率和魯棒性對(duì)于編碼性能有非常大的影響。深度學(xué)習(xí)系統(tǒng)相比于以往的機(jī)器學(xué)習(xí)算法，可以實(shí)現(xiàn)端到端的學(xué)習(xí)，無須再手動(dòng)設(shè)計(jì)和提取分類特征。但是，深度學(xué)習(xí)系統(tǒng)的分類準(zhǔn)確率受到分類類別、訓(xùn)練樣本、網(wǎng)絡(luò)結(jié)構(gòu)、網(wǎng)絡(luò)寬度和深度、訓(xùn)練的目標(biāo)函數(shù)等因素的綜合影響。所以，需要根據(jù)編碼單元QTBT劃分結(jié)構(gòu)特性，從QTBT多分類類別設(shè)置、訓(xùn)練樣本提取、網(wǎng)絡(luò)結(jié)構(gòu)和目標(biāo)函數(shù)優(yōu)化等方面，系統(tǒng)地研究基于CNN多分類的幀內(nèi)編碼單元快速選擇算法。在基于CNN多分類的幀內(nèi)編碼單元快速選擇方法研究中，我們將重點(diǎn)考慮解決以下幾個(gè)問題：

3.1 研究QTBT多分類類別設(shè)置及其對(duì)分類性能的影響

JVET的編碼單元采用四叉樹+二叉樹圖的QTBT劃分結(jié)構(gòu)，如圖3所示。編碼單元的QTBT劃分結(jié)構(gòu)具有高度的靈活性和寬闊的尺寸跨度，再加之JVET有67幀內(nèi)預(yù)測(cè)模式，這給快速編碼算法的設(shè)計(jì)帶來了挑戰(zhàn)。

本課題將QTBT劃分結(jié)構(gòu)優(yōu)化問題建模為多分類問題，依據(jù)32×32塊中子塊的最大劃分深度設(shè)置分類類別，如公式（1）。

鑒于JVET幀內(nèi)編碼中BT最大劃分尺寸為32×32像素[4]，因此以32×32塊作為分類基礎(chǔ)，既可以覆蓋所有的BT劃分范圍，也可以直接擴(kuò)展以適應(yīng)更大尺寸的QT劃分。

3.2 訓(xùn)練樣本的收集、制作、篩選，及其對(duì)分類性能的影響

本課題將通過默認(rèn)參數(shù)設(shè)置的JVET幀內(nèi)編碼來收集訓(xùn)練樣本。但是最佳QTBT劃分結(jié)構(gòu)是根據(jù)RD cost確定的，有些類別之間的差異非常小，這給分類訓(xùn)練帶了困擾，甚至導(dǎo)致訓(xùn)練失敗。鑒于此，本課題將研究確立分類類別之間的RD cost間隔及其對(duì)分類性能的影響，摒棄RD cost差異非常小的樣本，如公式（2）。

3.3 深度學(xué)習(xí)網(wǎng)絡(luò)的結(jié)構(gòu)探索，網(wǎng)絡(luò)結(jié)構(gòu)計(jì)算復(fù)雜度和分類性能、編碼性能的平衡

視頻編碼領(lǐng)域，編碼單元的劃分結(jié)構(gòu)很大程度上受到量化參數(shù)QP的影響，它們之間呈現(xiàn)一種復(fù)雜的非線性關(guān)系?，F(xiàn)有的基于機(jī)器學(xué)習(xí)的快速分類算法都是為不同的QP訓(xùn)練不同分類器，這限制了該類算法的實(shí)際應(yīng)用。

本課題將構(gòu)建一種CNN網(wǎng)絡(luò)，使其能提取圖像高層特征，并結(jié)合QP進(jìn)行非線性分類，網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。網(wǎng)絡(luò)的前半部分是基于ResNets結(jié)構(gòu)，主要功能是提取輸入圖像的高層特征用于后面的分類工作。網(wǎng)絡(luò)的后半部分是基于MLP結(jié)構(gòu)，主要功能是將QP與圖像高層特征的非線性融合，以實(shí)現(xiàn)多分類預(yù)測(cè)。

3.4 深度學(xué)習(xí)目標(biāo)函數(shù)的設(shè)計(jì)，及其對(duì)分類性能的影響

現(xiàn)有的深度學(xué)習(xí)分類器大多采用softmax算法結(jié)合cross-entropy損失函數(shù)來訓(xùn)練和優(yōu)化網(wǎng)絡(luò)參數(shù)。但是不同于Cifar、Imagenet等普通的自然物體分類，編碼單元QTBT劃分結(jié)構(gòu)的錯(cuò)誤分類預(yù)測(cè)將導(dǎo)致嚴(yán)重的編碼率失真性能損失。

本課題將為QTBT多分類問題設(shè)計(jì)一個(gè)帶有類別懲罰項(xiàng)的目標(biāo)函數(shù)，擬采用L2正則化的Hingeloss結(jié)合一個(gè)類別懲罰項(xiàng)來優(yōu)化網(wǎng)絡(luò)訓(xùn)練，提高網(wǎng)絡(luò)分類準(zhǔn)確。

這里，‖H‖表示L2正則化的Hingeloss，用于探索QTBT類別之間的最大分類間隔;P表示錯(cuò)誤分類預(yù)測(cè)的懲罰項(xiàng)，它反映了編碼單元?jiǎng)澐纸Y(jié)構(gòu)的率失真性能影響和本課題的類別設(shè)置特點(diǎn)，有利于提高網(wǎng)絡(luò)的分類準(zhǔn)確率。

4 結(jié)論

本項(xiàng)目提出基于CNN的編碼單元快速選擇算法框架，將QTBT編碼單元選擇問題轉(zhuǎn)化為多分類問題，直接從編碼單元中學(xué)習(xí)和提取分類特征，而不需要手動(dòng)去設(shè)計(jì)和提取特征;也不需要時(shí)域和空域的相關(guān)性信息，有助于提高幀內(nèi)編碼的并行運(yùn)算和獨(dú)立解碼性能。本方法還設(shè)計(jì)了一個(gè)目標(biāo)函數(shù)，包括Hingeloss和類別懲罰項(xiàng)，能有效提高分類準(zhǔn)確。針對(duì)4K以上超高清視頻編碼的迫切需求，本項(xiàng)目也可為基于深度學(xué)習(xí)的視頻編碼技術(shù)研究提供新思路和理論依據(jù)。

參考文獻(xiàn)

[1]Y. Ye， Y. He， and X. Xiu， "Manipulating Ultra-High Definition Video Traffic，" IEEE Multimedia， vol. 22， pp. 1-1， 2015.

[2]G. J. Sullivan， J. R. Ohm， W. J. Han， and T. Wiegand， "Overview of the High Efficiency Video Coding （HEVC） Standard，" IEEE Transactions on Circuits & Systems for Video Technology， vol. 22， pp. 1649-1668， 2013.

[3]T. K. Tan， R. Weerakkody， M. Mrak， N. Ramzan， V. Baroncini， J. R. Ohm， et al.， "Video Quality Evaluation Methodology and Verification Testing of HEVC Compression Performance，" IEEE Transactions on Circuits & Systems for Video Technology， vol. 26， pp. 76-90， 2016.

[4]WG11， "Joint Group on Future Video Coding Technology Exploration （JVET），" MPEG 113th meeting， N15897， Oct. 2015.

[5]J. Chen， E. Alshina， and G. J. Sullivan， "Algorithm Description of Joint Exploration Test Model 1，" JVET-A1001， 2015.

科技視界2020年12期

科技視界的其它文章: 信息化技術(shù)在公路日常養(yǎng)護(hù)管理中的應(yīng)用; 高校資助工作廉政風(fēng)險(xiǎn)防控研究; 高校學(xué)費(fèi)催繳工作探討; 職業(yè)院校宿舍欺凌案例與應(yīng)對(duì)策略; 農(nóng)村初中生家庭教育存在的問題及對(duì)策研究; 黃渡社衛(wèi)護(hù)理記事欄的優(yōu)化與應(yīng)用