亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于CNN的QTBT劃分模式快速預(yù)測(cè)研究

        2020-06-03 17:21:07吳海燕金智鵬
        科技視界 2020年12期

        吳海燕 金智鵬

        摘 要為了降低編碼復(fù)雜度,提升編碼速度,快速編碼算法成為當(dāng)下研究熱點(diǎn),以此為背景提出基于CNN的編碼單元快速選擇算法框架,將QTBT編碼單元選擇問題轉(zhuǎn)化為多分類問題,直接從編碼單元中學(xué)習(xí)和提取分類特征,而不需要手動(dòng)去設(shè)計(jì)和提取特征;也不需要時(shí)域和空域的相關(guān)性信息,有助于提高幀內(nèi)編碼的并行運(yùn)算和獨(dú)立解碼性能。本方法還設(shè)計(jì)了一個(gè)目標(biāo)函數(shù),包括Hingeloss和類別懲罰項(xiàng),能有效提高分類準(zhǔn)確。

        關(guān)鍵詞快速編碼;分類特征;幀內(nèi)編碼;目標(biāo)函數(shù)

        1 研究背景

        視頻編碼技術(shù)是有效存儲(chǔ)和傳輸多媒體信息的關(guān)鍵技術(shù)之一,是現(xiàn)代信息技術(shù)中不可或缺的重要組成部分。視頻編碼技術(shù)已有30多年的發(fā)展歷史,視頻編碼標(biāo)準(zhǔn)的發(fā)展歷程如圖1所示。當(dāng)前,視頻技術(shù)的發(fā)展趨勢(shì)之一是追求更高的分辨率和清晰度[1],以實(shí)現(xiàn)對(duì)自然景物更加真實(shí)、清晰的表征。例如,日本放送協(xié)會(huì)(NHK)一直致力于4K(3840×2160像素)甚至8K(7680×4320像素)超高清視頻節(jié)目的壓縮和傳輸技術(shù)研究。但是,超高分辨率帶來了視頻數(shù)據(jù)的急劇增加,使得視頻數(shù)據(jù)的儲(chǔ)存和傳輸變得十分困難[2]。當(dāng)前最新的視頻編碼國(guó)際標(biāo)準(zhǔn)HEVC主要面向高清(720P,1080i,1080P)視頻編碼[3],對(duì)于當(dāng)前超高清、高動(dòng)態(tài)范圍、360°VR等新興視頻編碼需求已經(jīng)有些力不從心。因此,下一代超高清視頻編碼技術(shù)的研究與標(biāo)準(zhǔn)制定已顯得十分迫切。

        為此,2015年10月,聯(lián)合視頻探索工作組(Joint Video Exploration Team,JVET)[4]在日內(nèi)瓦召開了第一次會(huì)議,確定探索面向超高清視頻的編碼技術(shù)和下一代視頻編碼標(biāo)準(zhǔn)的制作工作;并成立了Ad Hoc小組,分領(lǐng)域搜集和審閱技術(shù)提案。JVET沿用了傳統(tǒng)的預(yù)測(cè)+變換的混合編碼框架[5],同時(shí)又創(chuàng)新性地引入了多項(xiàng)關(guān)鍵技術(shù),如:四叉樹+二叉樹(Quadtree plus binary tree,QTBT)編碼單元結(jié)構(gòu)65種幀內(nèi)角度預(yù)測(cè)模式,位置相關(guān)的幀內(nèi)預(yù)測(cè)組合(Position dependent intra prediction combination,PDPC),4抽頭插值濾波,交叉分量線性預(yù)測(cè)(Cross-component linear model,CCLM),改進(jìn)的環(huán)路濾波等,顯著提高了壓縮效率。

        圖2展示了JVET相對(duì)于HEVC的率失真性能和編碼復(fù)雜度對(duì)比情況。但是,當(dāng)前JVET的編碼效率距離BD-Rate降低50%的預(yù)期目標(biāo)還有較大差距,且當(dāng)前JVET編碼效率的提升是以極高的計(jì)算復(fù)雜度為代價(jià)的。因此,JVET工作組當(dāng)前的工作重點(diǎn)在于提高編碼質(zhì)量和降低編碼復(fù)雜度等兩大領(lǐng)域。

        編碼質(zhì)量和計(jì)算復(fù)雜度之間的平衡是視頻編碼領(lǐng)域的核心技術(shù)。本研究將借鑒當(dāng)前在計(jì)算視覺領(lǐng)域獲得廣泛成功的深度學(xué)習(xí)技術(shù),重點(diǎn)研究提高JVET幀內(nèi)預(yù)測(cè)編碼效率,具有重要的學(xué)術(shù)價(jià)值、應(yīng)用價(jià)值和社會(huì)效益。

        2 國(guó)內(nèi)外研究現(xiàn)狀

        從視頻編碼技術(shù)的發(fā)展歷程來看,如何在復(fù)雜度和時(shí)延受限的條件下,獲得最優(yōu)率失真性能,是視頻編碼技術(shù)的核心問題。傳統(tǒng)的快速編碼研究主要是基于統(tǒng)計(jì)特征建模和基于機(jī)器學(xué)習(xí)特征分析的方法。例如,Shen等人探索了編碼單元的RD Cost與空間相鄰塊的相關(guān)性,據(jù)此跳過使用概率低的劃分模式的RD Cost計(jì)算。JVET-F0063提出跳過第二個(gè)BT子塊的RD Cost計(jì)算,如果父塊和第一個(gè)BT子塊的RD Cost符合特定的約束條件。Zhang等人依據(jù)編碼單元尺寸設(shè)計(jì)了三類SVM分類器,逐層判斷是否需要把編碼單元?jiǎng)澐譃樽訅K。實(shí)驗(yàn)顯示,這些算法都大幅降低了編碼復(fù)雜度且保持了較好的率失真性能。但是這些算法的性能都依賴于手工設(shè)計(jì)的特征,對(duì)于復(fù)雜情況的處理能力相對(duì)較弱。

        目前,基于深度學(xué)習(xí)的快速視頻編碼技術(shù)是快速編碼領(lǐng)域的新興研究方向之一。Liu等人首次將CNN引入到編碼模式快速判決算法中,提出了一種基于深度學(xué)習(xí)的端到端的快速編碼算法框架。該算法把每個(gè)編碼單元下采樣到統(tǒng)一尺寸的8*8矩陣,再送入CNN網(wǎng)絡(luò)進(jìn)行特征提取和分類判決,以確定當(dāng)前編碼單元是否需要進(jìn)一步分割為子塊。但是由于下采樣和網(wǎng)絡(luò)較淺等原因,該算法的BD-Rate損失高達(dá)4.79%。Li等人則為各個(gè)尺寸的編碼單元都訓(xùn)練不同的CNN網(wǎng)絡(luò),各個(gè)QP下的網(wǎng)絡(luò)模型也分開訓(xùn)練;再加上該算法采用了較深較寬的CNN網(wǎng)絡(luò),分類準(zhǔn)確率有了提升,BD-Rate損失平均為2.12%。雖然該類基于深度學(xué)習(xí)的算法為視頻快速編碼研究打開新的視角,但是現(xiàn)有算法的應(yīng)用靈活性較差,尤其是率失真性能損失太大。

        3 基于CNN多分類的幀內(nèi)編碼單元快速選擇方法研究

        JVET采用了許多新技術(shù)用以提高幀內(nèi)編碼質(zhì)量,其中影響最大的技術(shù)就是四叉樹+二叉樹(quad-tree plus binary-tree, QTBT)編碼單元?jiǎng)澐址椒?。相比于HEVC的HM16.9,JEM 5.0的幀內(nèi)編碼可以在同等質(zhì)量下降低20%的碼率。另一方面,編碼單元的QTBT結(jié)構(gòu)劃分導(dǎo)致了編碼復(fù)雜度的大幅增加,約增加523%[5]。因此,研究JVET的快速編碼算法,尤其是幀內(nèi)編碼單元快速選擇方法,是當(dāng)前的一個(gè)研究熱點(diǎn)。

        在各種基于學(xué)習(xí)的快速編碼算法中,分類器的分類準(zhǔn)確率和魯棒性對(duì)于編碼性能有非常大的影響。深度學(xué)習(xí)系統(tǒng)相比于以往的機(jī)器學(xué)習(xí)算法,可以實(shí)現(xiàn)端到端的學(xué)習(xí),無須再手動(dòng)設(shè)計(jì)和提取分類特征。但是,深度學(xué)習(xí)系統(tǒng)的分類準(zhǔn)確率受到分類類別、訓(xùn)練樣本、網(wǎng)絡(luò)結(jié)構(gòu)、網(wǎng)絡(luò)寬度和深度、訓(xùn)練的目標(biāo)函數(shù)等因素的綜合影響。所以,需要根據(jù)編碼單元QTBT劃分結(jié)構(gòu)特性,從QTBT多分類類別設(shè)置、訓(xùn)練樣本提取、網(wǎng)絡(luò)結(jié)構(gòu)和目標(biāo)函數(shù)優(yōu)化等方面,系統(tǒng)地研究基于CNN多分類的幀內(nèi)編碼單元快速選擇算法。在基于CNN多分類的幀內(nèi)編碼單元快速選擇方法研究中,我們將重點(diǎn)考慮解決以下幾個(gè)問題:

        3.1 研究QTBT多分類類別設(shè)置及其對(duì)分類性能的影響

        JVET的編碼單元采用四叉樹+二叉樹圖的QTBT劃分結(jié)構(gòu),如圖3所示。編碼單元的QTBT劃分結(jié)構(gòu)具有高度的靈活性和寬闊的尺寸跨度,再加之JVET有67幀內(nèi)預(yù)測(cè)模式,這給快速編碼算法的設(shè)計(jì)帶來了挑戰(zhàn)。

        本課題將QTBT劃分結(jié)構(gòu)優(yōu)化問題建模為多分類問題,依據(jù)32×32塊中子塊的最大劃分深度設(shè)置分類類別,如公式(1)。

        鑒于JVET幀內(nèi)編碼中BT最大劃分尺寸為32×32像素[4],因此以32×32塊作為分類基礎(chǔ),既可以覆蓋所有的BT劃分范圍,也可以直接擴(kuò)展以適應(yīng)更大尺寸的QT劃分。

        3.2 訓(xùn)練樣本的收集、制作、篩選,及其對(duì)分類性能的影響

        本課題將通過默認(rèn)參數(shù)設(shè)置的JVET幀內(nèi)編碼來收集訓(xùn)練樣本。但是最佳QTBT劃分結(jié)構(gòu)是根據(jù)RD cost確定的,有些類別之間的差異非常小,這給分類訓(xùn)練帶了困擾,甚至導(dǎo)致訓(xùn)練失敗。鑒于此,本課題將研究確立分類類別之間的RD cost間隔及其對(duì)分類性能的影響,摒棄RD cost差異非常小的樣本,如公式(2)。

        3.3 深度學(xué)習(xí)網(wǎng)絡(luò)的結(jié)構(gòu)探索,網(wǎng)絡(luò)結(jié)構(gòu)計(jì)算復(fù)雜度和分類性能、編碼性能的平衡

        視頻編碼領(lǐng)域,編碼單元的劃分結(jié)構(gòu)很大程度上受到量化參數(shù)QP的影響,它們之間呈現(xiàn)一種復(fù)雜的非線性關(guān)系?,F(xiàn)有的基于機(jī)器學(xué)習(xí)的快速分類算法都是為不同的QP訓(xùn)練不同分類器,這限制了該類算法的實(shí)際應(yīng)用。

        本課題將構(gòu)建一種CNN網(wǎng)絡(luò),使其能提取圖像高層特征,并結(jié)合QP進(jìn)行非線性分類,網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。網(wǎng)絡(luò)的前半部分是基于ResNets結(jié)構(gòu),主要功能是提取輸入圖像的高層特征用于后面的分類工作。網(wǎng)絡(luò)的后半部分是基于MLP結(jié)構(gòu),主要功能是將QP與圖像高層特征的非線性融合,以實(shí)現(xiàn)多分類預(yù)測(cè)。

        3.4 深度學(xué)習(xí)目標(biāo)函數(shù)的設(shè)計(jì),及其對(duì)分類性能的影響

        現(xiàn)有的深度學(xué)習(xí)分類器大多采用softmax算法結(jié)合cross-entropy損失函數(shù)來訓(xùn)練和優(yōu)化網(wǎng)絡(luò)參數(shù)。但是不同于Cifar、Imagenet等普通的自然物體分類,編碼單元QTBT劃分結(jié)構(gòu)的錯(cuò)誤分類預(yù)測(cè)將導(dǎo)致嚴(yán)重的編碼率失真性能損失。

        本課題將為QTBT多分類問題設(shè)計(jì)一個(gè)帶有類別懲罰項(xiàng)的目標(biāo)函數(shù),擬采用L2正則化的Hingeloss結(jié)合一個(gè)類別懲罰項(xiàng)來優(yōu)化網(wǎng)絡(luò)訓(xùn)練,提高網(wǎng)絡(luò)分類準(zhǔn)確。

        這里,‖H‖表示L2正則化的Hingeloss,用于探索QTBT類別之間的最大分類間隔;P表示錯(cuò)誤分類預(yù)測(cè)的懲罰項(xiàng),它反映了編碼單元?jiǎng)澐纸Y(jié)構(gòu)的率失真性能影響和本課題的類別設(shè)置特點(diǎn),有利于提高網(wǎng)絡(luò)的分類準(zhǔn)確率。

        4 結(jié)論

        本項(xiàng)目提出基于CNN的編碼單元快速選擇算法框架,將QTBT編碼單元選擇問題轉(zhuǎn)化為多分類問題,直接從編碼單元中學(xué)習(xí)和提取分類特征,而不需要手動(dòng)去設(shè)計(jì)和提取特征;也不需要時(shí)域和空域的相關(guān)性信息,有助于提高幀內(nèi)編碼的并行運(yùn)算和獨(dú)立解碼性能。本方法還設(shè)計(jì)了一個(gè)目標(biāo)函數(shù),包括Hingeloss和類別懲罰項(xiàng),能有效提高分類準(zhǔn)確。針對(duì)4K以上超高清視頻編碼的迫切需求,本項(xiàng)目也可為基于深度學(xué)習(xí)的視頻編碼技術(shù)研究提供新思路和理論依據(jù)。

        參考文獻(xiàn)

        [1]Y. Ye, Y. He, and X. Xiu, "Manipulating Ultra-High Definition Video Traffic," IEEE Multimedia, vol. 22, pp. 1-1, 2015.

        [2]G. J. Sullivan, J. R. Ohm, W. J. Han, and T. Wiegand, "Overview of the High Efficiency Video Coding (HEVC) Standard," IEEE Transactions on Circuits & Systems for Video Technology, vol. 22, pp. 1649-1668, 2013.

        [3]T. K. Tan, R. Weerakkody, M. Mrak, N. Ramzan, V. Baroncini, J. R. Ohm, et al., "Video Quality Evaluation Methodology and Verification Testing of HEVC Compression Performance," IEEE Transactions on Circuits & Systems for Video Technology, vol. 26, pp. 76-90, 2016.

        [4]WG11, "Joint Group on Future Video Coding Technology Exploration (JVET)," MPEG 113th meeting, N15897, Oct. 2015.

        [5]J. Chen, E. Alshina, and G. J. Sullivan, "Algorithm Description of Joint Exploration Test Model 1," JVET-A1001, 2015.

        久久免费区一区二区三波多野在| 一区二区三区在线观看日本视频 | 国产福利一区二区三区在线观看| 我和丰满妇女激情视频| 无码aⅴ免费中文字幕久久| 鲁一鲁一鲁一鲁一澡| 亚洲国产AⅤ精品一区二区不卡| 亚洲中文字幕视频第一二区| 色窝窝无码一区二区三区| 亚洲女同一区二区| 欧美性猛交xxxx富婆| 午夜丰满少妇性开放视频| 九九久久国产精品大片| 久久久精品人妻一区二区三区免费| 国产精品女老熟女一区二区久久夜| 亚洲精品乱码久久久久久日本蜜臀 | 99久久精品国产亚洲av天| 成人av综合资源在线| 国产伦精品一区二区三区妓女| 欧美国产日产一区二区| 国产粉嫩美女一区二区三| 国产一区亚洲二区三区极品| 国产精品∧v在线观看| 天躁夜夜躁狼狠躁| 无码国产精品一区二区AV| 亚洲成人av一区二区| av国产传媒精品免费| 国农村精品国产自线拍| 91色婷婷成人精品亚洲| 东京热日本av在线观看| 少妇丰满大乳被男人揉捏视频| 亚洲中文字幕在线爆乳| 丝袜人妻中文字幕首页| 国产精品爽爽ⅴa在线观看| 伊人久久精品久久亚洲一区| 麻豆变态另类视频在线观看| 白白色日韩免费在线观看| 免费观看交性大片| 91精品一区国产高清在线gif| 中国少妇和黑人做爰视频| 国产一区二区三区毛片|