李雪晴,何小海,吳小強(qiáng),林宏偉
(四川大學(xué) 電子信息學(xué)院圖像信息研究所,四川 成都 610064)
?
結(jié)合模式對應(yīng)與機(jī)器學(xué)習(xí)的HEVC降分辨率轉(zhuǎn)碼
李雪晴,何小海,吳小強(qiáng),林宏偉
(四川大學(xué) 電子信息學(xué)院圖像信息研究所,四川 成都610064)
摘要:HEVC是ITU-T VCEG 繼H.264之后所制定的新一代視頻編碼標(biāo)準(zhǔn),它提高了視頻的編碼效率,在保證相同視頻質(zhì)量的前提下,壓縮比與H.264相比提高了一倍。另外,隨著4G網(wǎng)絡(luò)的興起和智能手機(jī)的普及,移動終端成為人們觀看網(wǎng)上視頻的一大主流平臺。但是,網(wǎng)絡(luò)中存儲的視頻分辨率普遍要大于移動終端的屏幕分辨率,為解決這個問題,開展了針對HEVC的降分辨率轉(zhuǎn)碼研究工作,利用高分辨率視頻的編碼信息,通過模式對應(yīng)來簡化低分辨率視頻的編碼模式的計算過程,并采用機(jī)器學(xué)習(xí)的方法來確定降分辨率時的組塊閾值,以提高模式對應(yīng)的準(zhǔn)確性。實(shí)驗(yàn)結(jié)果表明,提出的算法與Trivial transcoder相比,在保持PSNR和比特率幾乎不變的同時,編碼時間平均節(jié)省了60%左右。
關(guān)鍵詞:降分辨率轉(zhuǎn)碼;HEVC;機(jī)器學(xué)習(xí);模式對應(yīng)
1HEVC簡介
高效視頻編碼(High Efficiency Video Coding,HEVC)是由ISO/IEC Moving Picture Experts Group(MPEG)和ITU-T Video Coding Experts Group(VCEG)聯(lián)合制定的新一代視頻編碼標(biāo)準(zhǔn)。作為H.264的繼任者, HEVC克服了H.264的宏塊機(jī)制在處理高清視頻上的缺陷,它更適合處理高清視頻,是未來很長一段時間內(nèi)的主流編碼標(biāo)準(zhǔn),并將在視頻電話、視頻會議和網(wǎng)絡(luò)流媒體視頻點(diǎn)播方面有著廣泛的應(yīng)用前景。
隨著科學(xué)技術(shù)的進(jìn)步,網(wǎng)絡(luò)視頻播放平臺已經(jīng)不局限于傳統(tǒng)的個人計算機(jī),手機(jī)、iPad等移動終端也占據(jù)很大的比重,再加上近年來4G網(wǎng)絡(luò)的興起,這一比重將會越來越大,因此移動終端上的網(wǎng)絡(luò)視頻播放具有廣闊的市場前景。然而,移動終端設(shè)備的屏幕分辨率普遍比網(wǎng)絡(luò)中存儲的視頻分辨率小很多,同時還要受限于移動終端接入的無線網(wǎng)絡(luò)的帶寬,因此需要對高分辨率視頻進(jìn)行降分辨率轉(zhuǎn)碼,使其適合于移動終端設(shè)備的播放。
顧名思義,降視頻分辨率轉(zhuǎn)碼就是將高分辨率的視頻轉(zhuǎn)換為低分辨率的視頻。降分辨率轉(zhuǎn)碼在使視頻分辨率降低的同時,也會相應(yīng)地減少碼流,在很大程度上降低了對網(wǎng)絡(luò)帶寬的需求,這對視頻在無線網(wǎng)絡(luò)中的傳輸十分有利。最簡單的HEVC降分辨率轉(zhuǎn)碼方法便是對輸入的HEVC碼流進(jìn)行全解碼得到解碼視頻,并對解碼視頻再進(jìn)行相應(yīng)的全編碼,這個過程被稱為Trivial transcoder,如圖1所示。Trivial transcoder在率失真方面可以取得最好的效果,但是其花費(fèi)的時間代價卻是巨大的。為了降低轉(zhuǎn)碼的計算復(fù)雜度,可以將原始視頻碼流中的編碼信息例如預(yù)測模式、運(yùn)動信息和編碼殘差等用于視頻的再次編碼當(dāng)中。此種加速在對高比特率視頻的轉(zhuǎn)碼中尤為關(guān)鍵,主要是其中涉及的數(shù)據(jù)量相當(dāng)大的原因。
2相關(guān)研究工作
降視頻空間分辨率轉(zhuǎn)碼屬于視頻的轉(zhuǎn)碼范疇,由于轉(zhuǎn)碼應(yīng)用十分廣泛,因此它一直是眾多學(xué)者研究的熱點(diǎn)問題。由于HEVC是最新提出的視頻編碼標(biāo)準(zhǔn),相關(guān)的降空間分辨率轉(zhuǎn)碼文獻(xiàn)較少,但是針對H.264的降分辨率轉(zhuǎn)碼研究十分成熟,相關(guān)的研究成果值得借鑒。湖南大學(xué)的雷靖[7]和武漢理工大學(xué)的袁衛(wèi)軍[8]等人分別提出一種MPEG-2到H.264/AVC的空間分辨率轉(zhuǎn)碼算法,利用MPEG-2解碼過程中得到的信息選擇H.264/AVC的編碼模式,從而節(jié)省編碼時間,這兩種方法對視頻質(zhì)量的影響都較?。槐本┼]電大學(xué)的王曉楠等提出分辨率轉(zhuǎn)碼中模式選擇與模式映射算法以及運(yùn)動重估計算法[10];湖南大學(xué)的陳步真等提出基于H.264/AVC的分辨率轉(zhuǎn)碼方法,利用輸入碼流中的宏塊模式信息并結(jié)合梯度,確定下采樣后宏塊幀內(nèi)編碼可能的模式和預(yù)測方向,從而減小計算量[11]。
目前隨著大數(shù)據(jù)和機(jī)器學(xué)習(xí)領(lǐng)域的飛速發(fā)展,很多研究者利用機(jī)器學(xué)習(xí)開展了一系列關(guān)于HEVC的轉(zhuǎn)碼研究工作:文獻(xiàn)[19] 提取H.264碼流中前10幀的數(shù)據(jù),并通過對提取的數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí)并建立預(yù)測模型,利用已知的H.264碼流信息來預(yù)測轉(zhuǎn)碼成HEVC碼流時的編碼模式,大大降低了H.264到HEVC轉(zhuǎn)碼的計算復(fù)雜度并保證了視頻的質(zhì)量;文獻(xiàn)[20]提出了基于功率譜的率失真優(yōu)化方法(PS-RDO),在該轉(zhuǎn)碼方法中,通過運(yùn)動矢量的變化和預(yù)測信號的功率譜估計運(yùn)動矢量的計算代價,PS-RDO被用于HEVC中編碼單元(CU)的劃分以及預(yù)測單元(PU)的運(yùn)動估計中。
通過分析上述研究成果可知,如何有效地將高分辨率視頻的編碼信息應(yīng)用到低分辨率視頻的編碼當(dāng)中,成為降分辨率轉(zhuǎn)碼研究的關(guān)鍵。在此思想的指導(dǎo)下,本文開展了基于機(jī)器學(xué)習(xí)和模式對應(yīng)的HEVC降分辨率快速幀間轉(zhuǎn)碼研究。
3本文提出的算法
3.1模式對應(yīng)
本文提出了基于機(jī)器學(xué)習(xí)與模式對應(yīng)的HEVC降視頻分辨率快速幀間轉(zhuǎn)碼算法,在對下采樣得到的低分辨率視頻進(jìn)行編碼時,利用從HEVC解碼端獲取的相應(yīng)的高分辨率視頻的編碼信息來快速確定低分辨視頻的CU尺寸及其PU預(yù)測模式,這可大大降低幀間編碼過程中預(yù)測模式判決的計算復(fù)雜度,從而達(dá)到減少編碼時間的目的。
本文以2倍下采樣得到的視頻為例開展了研究工作。在HEVC中,編碼的基本單位是最大編碼單元(LCU),大小為64×64,原始碼流解碼后得到的視頻通過二倍下采樣后,寬和高均為原始視頻的一半,那么原先的LCU的大小便變成32×32,如果直接進(jìn)行模式對應(yīng),那么在低分辨率視頻的編碼當(dāng)中最大的編碼單元尺寸是32×32,不符合HEVC處理的要求,因此不能簡單地直接進(jìn)行編碼模式的對應(yīng)。通過分析高分辨率視頻在HEVC中編碼模式和對應(yīng)的低分辨率視頻的編碼模式,發(fā)現(xiàn)在高分辨率視頻的4個相鄰的均為2N×2N的LCU,其運(yùn)動矢量各自之間的關(guān)系影響著對應(yīng)下采樣后視頻中對應(yīng)的LCU的編碼模式,但是不同視頻的運(yùn)動情況是不同的,鑒于此本文提出了基于機(jī)器學(xué)習(xí)與模式對應(yīng)的HEVC降空間分辨率幀間快速轉(zhuǎn)碼算法,具體內(nèi)容如下:
2)若臨近的4個LCU不滿足組合的條件,則不予組塊。CU尺寸為64×64,PU模式為2N×2N,對應(yīng)下采樣后CU尺寸為32×32,PU模式為2N×2N,初始運(yùn)動矢量取對應(yīng)位置運(yùn)動矢量的一半;CU 尺寸為64×64,PU模式為2N×N,對應(yīng)下采樣后CU尺寸為32×32,PU模式為2N×N、2N×nU或者2N×nD(由于64×64的CU沒有非對稱的PU模式,故下采樣后需考慮非對稱模式下的預(yù)測是否更準(zhǔn)確),上邊塊的初始運(yùn)動矢量取原MV0的一半, 下邊塊的初始運(yùn)動矢量取原MV1的一半;CU尺寸為64×64,PU模式為N×2N,對應(yīng)下采樣后CU為32×32,PU模式為N×2N、nL×2N或者nR×2N,左邊塊的初始運(yùn)動矢量取原MV0的一半, 右邊塊的初始運(yùn)動矢量取原MV1的一半,如圖3所示。
3)在CU尺寸為32×32的情況下,由于CU尺寸為32×32下的PU模式與CU尺寸為16×16下的PU模式相同,都是7種,因此可以將CU尺寸改小為16×16,PU模式一一對應(yīng),初始運(yùn)動矢量取對應(yīng)運(yùn)動矢量的一半。
4)CU尺寸為16×16,PU模式分別為2N×2N、2N×N、N×2N,對應(yīng)下采樣后CU為8×8,PU模式分別為2N×2N、2N×N、N×2N,初始運(yùn)動矢量取對應(yīng)位置運(yùn)動矢量的一半;而非對稱的PU模式中,2N×nU和2N×nD對應(yīng)下采樣后PU模式2N×N,nL×2N和nR×2N對應(yīng)下采樣后PU模式N×2N,初始運(yùn)動矢量分別取對應(yīng)區(qū)域運(yùn)動矢量平均值的一半,如圖4所示。
5)CU尺寸為8×8時,由于8×8已經(jīng)是HEVC中最小尺寸的編碼單元,下采樣后,沒有相應(yīng)的模式對應(yīng)。因此,4個8×8的CU,無論其PU模式是什么,下采樣后編碼測試CU尺寸為8×8下的全部3種PU模式,即2N×2N、2N×N、N×2N,初始運(yùn)動矢量則取對應(yīng)區(qū)域運(yùn)動矢量的面積加權(quán)平均值的一半,如圖5所示。
3.2利用機(jī)器學(xué)習(xí)確定組塊閾值θ
鑒于不同視頻序列其運(yùn)動的劇烈程度是不同的,組塊閾值θ的精確度成為決定組塊方案有效性重要因素。在HEVC幀間預(yù)測編碼中,滿足4個相鄰的編碼模式均為2N×2N的情況很多,通過分析滿足組塊條件的4個LCU的運(yùn)動矢量和對應(yīng)下采樣后的LCU的編碼模式之間的關(guān)系,采用機(jī)器學(xué)習(xí)的方法可以從中挖掘出特定視頻序列的組塊閾值θ。本文采用的機(jī)器學(xué)習(xí)軟件是懷卡托智能分析環(huán)境(WaikatoEnvironmentforKnowledgeAnalysis,WEKA),這是一款基于JAVA環(huán)境下開源的機(jī)器學(xué)習(xí)以及數(shù)據(jù)挖掘軟件,本文在WEKA平臺上,通過采用C4.5分類決策算法進(jìn)行組塊閾值的確定,算法流程如圖6所示。
首先是將HEVC高分辨率視頻碼流在HEVC解碼端進(jìn)行解碼并提取編碼信息,包括CU尺寸,PU模式、運(yùn)動矢量等;將解碼完成后獲得的解碼視頻進(jìn)行雙3次2倍下采樣獲得低分辨率視頻,然后將低分辨率視頻在HEVC編碼端編碼前20幀,并獲得每個LCU的編碼模式。
其次從上述操作中獲得的數(shù)據(jù)提取前20幀中所有的的4個相鄰的且編碼模式均為的LCU的運(yùn)動矢量之差以及對應(yīng)的低分辨率視頻中LCU的編碼模式寫入ARFF文件。
將完成的ARFF文件在WEKA中進(jìn)行采用C4.5進(jìn)行訓(xùn)練并生成決策樹,并將生成的決策樹用于預(yù)測該視頻20幀后的組塊情況。
4實(shí)驗(yàn)結(jié)果
為了驗(yàn)證所提算法的性能,本文在HM16.0上進(jìn)行實(shí)驗(yàn),對9個HEVC標(biāo)準(zhǔn)測試視頻序列的100幀進(jìn)行了實(shí)驗(yàn),并與Trivialtranscoder在編碼時間、比特率和PSNR三個方面進(jìn)行了比較,對比實(shí)驗(yàn)結(jié)果分別如表1~表3所示。其中,鑒于篇幅的原因,對于比特率和PSNR僅僅列出5個序列。
5小結(jié)
上述實(shí)驗(yàn)結(jié)果表明,本文所提算法與Trivialtranscoder相比,PSNR平均損失了0.09dB,平均編碼比特率上升了1.4%,而編碼時間卻大大降低,平均節(jié)省了63.51%。以上實(shí)驗(yàn)結(jié)果證明所提算法大大降低了低分辨率視頻編碼的編碼復(fù)雜度,表明所提算法效果明顯。本文對于機(jī)器學(xué)習(xí)的使用目前主要著眼于組塊閾值的確定上,在未來的研究中,還可以把機(jī)器學(xué)習(xí)使用在模式判決上,通過對原始碼流的相關(guān)信息和轉(zhuǎn)碼后視頻的編碼模式進(jìn)行機(jī)器學(xué)習(xí),建立決策樹,從而進(jìn)一步降低轉(zhuǎn)碼的復(fù)雜度。
參考文獻(xiàn):
[1]SULLIVANGJ,OHMJR,HANWJ,etal.Overviewofthehighefficiencyvideocoding(HEVC)standard[J].IEEEtranactionsoncircuitsandsystemsforvideotechnology, 2012, 22(12): 1649-1668.
表1本文算法和Trivialtranscoder在時間上的比較
[2]OKUBOS.VideocodecstandardizationinCCITTstudygroupXV[J].Signalprocessing:imagecommunication,1989,1(1):45-54.
[3]OSTERMANNJ,BORMANSJ,LISTP,etal.VideocodingwithH. 264/AVC:tools,performance,andcomplexity[J].IEEEtransactionsoncircuitsandsystemsmagazine,2004,4(1):7-28.
[4]BROSSB,HANWJ,OHMJR,etal.Highefficiencyvideocoding(HEVC)textspecificationdraft8[S].2012.
[5]PEIXOTOE,SHANABLEHT,IZQUIERDOE.H.264/AVCtoHEVCvideotranscoderbasedondynamicthresholdingandcontentmodeling[J].IEEEtransactionsoncircuitsandsystemsforvideotechnology,2014,24(1):99-112.
[6]王宇,張彩明.一種基于H.264的任意比例空間分辨率轉(zhuǎn)碼中的快速宏塊類型選擇方案倡[J].計算機(jī)應(yīng)用研究,2010,27(6):2359-2363.
[7]雷靖.H.264空間分辨率轉(zhuǎn)碼研究[D].長沙:湖南大學(xué),2008.
表2本文算法和Trivialtranscoder在編碼比特率上的比較
表3本文算法和Trivialtranscoder在PSNR上的比較
[8]袁衛(wèi)軍.MPEG-2到H.264降空間分辨率轉(zhuǎn)碼算法研究[D].武漢:武漢理工大學(xué),2010.
[9]程大功.基于H.264/AVC的視頻空間分辨率轉(zhuǎn)碼研究[D].武漢:華中科技大學(xué),2009.
[10]王曉楠.H. 264 碼率/分辨率下采樣轉(zhuǎn)碼的設(shè)計與實(shí)現(xiàn)[D].北京:北京郵電大學(xué),2009.
[11]陳步真.基于碼率轉(zhuǎn)換與分辨率轉(zhuǎn)換的視頻轉(zhuǎn)碼技術(shù)研究[D].長沙:湖南大學(xué),2010.
[12]張宏波.空間降分辨率視頻轉(zhuǎn)碼技術(shù)的研究[D].濟(jì)南:山東大學(xué),2008.
[13]向永生,傅明.H.264視頻流分辨率縮減轉(zhuǎn)碼的快速宏塊模式選擇算法[J].計算機(jī)應(yīng)用,2008,28(11):2890-2892.
[14]呂卓逸,賈克斌,蕭允治.低復(fù)雜度的快速降尺寸視頻轉(zhuǎn)碼算法[J]. 通信學(xué)報,2012,33(1):160-166.
[15]夏中超.面向移動視頻終端的視頻轉(zhuǎn)換編碼技術(shù)研究[D]. 長沙:湖南大學(xué), 2010.
[16]韓鎮(zhèn),胡瑞敏,陳皓,等.一種基于精確度的降分辨率視頻轉(zhuǎn)碼運(yùn)動矢量合成算法[J].中國圖象圖形學(xué)報,2010(1):7-14.
[17]劉娟,鐘國韻,王蕾,等.基于時域相關(guān)性的快速HEVC幀間模式判決方法[J].電視技術(shù),2014,38(13):1-6.
[18]李元,何小海,鐘國韻,等.基于時域相關(guān)性的HEVC快速幀內(nèi)預(yù)測算法[J].電視技術(shù),2012,36(9):1-4.
[19]PEIXOTOE,MACCHIAVELLOB,HUNGEM,etal.AnH.264/AVCtoHEVCvideotranscoderbasedonmodemapping[C]//Proc. 2013 20thIEEEInternationalConferenceonImageProcessing(ICIP). [S.l.]:IEEEPress, 2013: 1972-1976.
[20]ZHANGD,LIB,XUJ,etal.FasttranscodingfromH.264/AVCtohighefficiencyvideocoding[C]//Proc. 2012IEEEInternationalConferenceonMultimediaandExpo(ICME). [S.l.]:IEEEPress,2012: 651-656.
李雪晴(1990— ),女,碩士生,主研視頻圖像壓縮編碼;
何小海(1964— ),博士生導(dǎo)師,主研圖像處理與網(wǎng)絡(luò)通信、機(jī)器視覺與智能系統(tǒng);
吳小強(qiáng)(1969— ),高級工程師,主研圖像處理和模式識別;
林宏偉(1983— ),博士生,主研視頻圖像壓縮編碼。
責(zé)任編輯:時雯
Resolution reduction transcoder based on machine learning and mode mapping for HEVC
LI Xueqing, HE Xiaohai,WU Xiaoqiang, LIN Hongwei
(InstituteofImageInformation,CollegeofEletronicsandInformationEngineering,SichuanUniversity,Chengdu610064,China)
Key words:resolution reduction transcoding; HEVC; machine learning; mode mapping
Abstract:As the successor of H.264, HEVC is the newest video coding standard developed by ITU-T VCEG. It obtains tremendous progress on video coding efficiency. Compared with H.264, it can maintain the same video quality while the compression ratio is doubled. In addition, with the rise of 4G networks and the popularity of smart phones, mobile terminal has become a mainstream platform on which people watch online video. However, the resolution of the video stored in the network is larger than that of the mobile terminal. In order to address the problems described above, in this paper the resolution reduction transcoder for HEVC is proposed. By using the proposed transcoding scheme, the computational complexity of the resolution reduction transcoder is reduced through mode mapping on the coding modes between the high resolution video and the low one, and machine learning is utilized to determine the chunking threshold so as to improve the accuracy of the mode mapping. Experimental results show that compared with the trivial transcoder, with the bit rate and PSNR remain almost unchanged, the encoding time is saved by 60% averagely by using the proposed method .
中圖分類號:TN919.8
文獻(xiàn)標(biāo)志碼:A
DOI:10.16280/j.videoe.2016.01.001
基金項(xiàng)目:國家自然科學(xué)基金項(xiàng)目(61471248);四川省教育廳2014年研究生教育改革創(chuàng)新項(xiàng)目(2014-教-034)
作者簡介:
收稿日期:2015-06-28
文獻(xiàn)引用格式:李雪晴,何小海,吳小強(qiáng),等.結(jié)合模式對應(yīng)與機(jī)器學(xué)習(xí)的HEVC降分辨率轉(zhuǎn)碼[J].電視技術(shù),2016,40(1):1-6.
LI X Q, HE X H,WU X Q, et al. Resolution reduction transcoder based on machine learning and mode mapping for HEVC[J].Video engineering,2016,40(1):1-6.