袁梅冷,楊 張,2a,雷海軍
(1.深圳職業(yè)技術(shù)學院,廣東 深圳 518055;2.深圳大學 a.信息工程學院;b.計算機與軟件學院;c.廣東省普及型高性能計算機重點實驗室;
一種優(yōu)化的多視點視頻編碼預(yù)測結(jié)構(gòu)
袁梅冷1,楊 張1,2a,雷海軍2b,2c,2d
(1.深圳職業(yè)技術(shù)學院,廣東 深圳 518055;2.深圳大學 a.信息工程學院;b.計算機與軟件學院;c.廣東省普及型高性能計算機重點實驗室;
d.深圳市服務(wù)計算與應(yīng)用重點實驗室,廣東 深圳 518060)
首先分析了JMVC的參考預(yù)測結(jié)構(gòu),利用1個GoP(Group of Picture)中不同時間層上的幀與其參考幀之間的相關(guān)度不同和不同時間層上的幀數(shù)目也不同的特點,提出了去除奇數(shù)視點最高和次高時間層的視點間預(yù)測,并增加偶數(shù)視點非關(guān)鍵幀的最低和次低時間層的視點間預(yù)測的預(yù)測結(jié)構(gòu)。實驗結(jié)果表明,提出的預(yù)測結(jié)構(gòu)基本不影響視頻質(zhì)量,且表現(xiàn)出了更加出色的編碼效率,編碼的復(fù)雜度減少幅度高達15%,輸出碼率也有所減少,較好地改善了編碼的實時性能。
多視點視頻編碼;參考幀;預(yù)測結(jié)構(gòu);編碼復(fù)雜度
2d.ShenzhenKeyLaboratoryofServiceComputingandApplicationinShenzhen,ShenzhenUniversityShenzhen518060,China)
當前主流的視頻編碼標準均采用預(yù)測編碼結(jié)構(gòu),所以一個好的預(yù)測結(jié)構(gòu)對提高視頻編解碼效率起著至關(guān)重要的作用。預(yù)測結(jié)構(gòu)設(shè)計的合理與否不僅會影響視頻的質(zhì)量、壓縮性能,還會影響隨機讀取性能、快速解碼性能、可伸縮性和可并行性等,所以本文將對預(yù)測編碼結(jié)構(gòu)進行重點研究。
為了提高視頻壓縮效率,設(shè)計出性能優(yōu)良的預(yù)測結(jié)構(gòu)是很有必要的,優(yōu)良的預(yù)測結(jié)構(gòu)能有效去除時域、空域和各視點間的冗余信息。現(xiàn)階段,主流的預(yù)測結(jié)構(gòu)有順序預(yù)測結(jié)構(gòu)、GoP 預(yù)測結(jié)構(gòu)、優(yōu)化改進的預(yù)測結(jié)構(gòu)、分層B幀預(yù)測結(jié)構(gòu)和最小代價樹結(jié)構(gòu)[1-3]。為提高視頻幀的隨機訪問性能,日本的NTT 實驗室通過設(shè)置Inter GoP多個參考幀的策略,提出了GoP預(yù)測結(jié)構(gòu)[1],但是該預(yù)測結(jié)構(gòu)采用了多個I幀預(yù)測編碼,因而存在編碼效率不高且計算復(fù)雜度高等缺點。順序預(yù)測結(jié)構(gòu)[2]通過使用多參考幀的順序預(yù)測,有效地減少了相鄰幀和相鄰視點間的冗余信息,與GoP預(yù)測結(jié)構(gòu)相比,順序預(yù)測結(jié)構(gòu)的編碼效率相對較高,但是隨機訪問性能較差,且易導(dǎo)致誤差累積和錯誤傳遞等問題。德國HHI研究所的Merkle等人根據(jù)多視點視頻在時間和視點方向上的相關(guān)性設(shè)計了4種MVC預(yù)測結(jié)構(gòu):SIMULCAST,KS_IPP,KS_IBP,HBP[3]。對這4種預(yù)測結(jié)構(gòu)的研究結(jié)果表明,被選為宏塊最佳參考幀次數(shù)最多的方向依次為:時間方向、視點方向、時域和視點間混合方向,使用視點間預(yù)測與沒有使用視點間預(yù)測的情況相比,編碼率失真性能有明顯提高。由于混合方向預(yù)測結(jié)構(gòu)對率失真性能的提高作用不大,且選用多個參考幀會增加幀間預(yù)測的計算復(fù)雜度,因而多視點編碼預(yù)測結(jié)構(gòu)只選用時間方向和視點方向的參考幀。后續(xù)Merkle等人又提出了兩種利用視點間相關(guān)性的預(yù)測結(jié)構(gòu),分別是AS_IPP結(jié)構(gòu)和AS_IBP結(jié)構(gòu),與KS_IPP和KS_IBP預(yù)測結(jié)構(gòu)比較,區(qū)別在于在非錨時刻的不同視點間是否有參考關(guān)系,前者有,而后者沒有。大量實驗結(jié)果表明,基于分層B幀的時域預(yù)測和視點間預(yù)測相結(jié)合的編碼預(yù)測結(jié)構(gòu)HBP具有較高的編碼效率,因此多視點視頻編碼選用這兩種預(yù)測結(jié)構(gòu)作為參考預(yù)測結(jié)構(gòu)[4]。
近年來,國內(nèi)外眾多學者對MVC參考預(yù)測結(jié)構(gòu)進行了優(yōu)化和改進。文獻[5]提出了一種最小生成樹預(yù)測結(jié)構(gòu),該預(yù)測結(jié)構(gòu)的PSNR有一定的提高。文獻[6]利用基本視點的編碼信息在增強層視點的非關(guān)鍵幀使用雙向視點間預(yù)測,選擇最佳的預(yù)測方向,減少了編碼復(fù)雜度,但是這種預(yù)測結(jié)構(gòu)由于引入了非關(guān)鍵幀雙向視點間預(yù)測,提高的編碼效率有限。文獻[7-9]深入研究了多視點視頻編碼中各視點在時間和空間上的預(yù)測關(guān)系,統(tǒng)計出多視點視頻序列,提出優(yōu)化策略降低計算復(fù)雜度,提高編碼效率。
1.1 分層B幀預(yù)測結(jié)構(gòu)
分層B幀預(yù)測結(jié)構(gòu)由德國HHI實驗室提出,具有良好的編碼性能,因而被JVT選作多視點視頻測試軟件JMVC的參考預(yù)測結(jié)構(gòu)。多視點視頻編碼的幀類型與傳統(tǒng)的單路視頻一樣,包括I幀、P幀和B幀三種類型,它們分別采用幀內(nèi)預(yù)測、單向幀間預(yù)測和雙向幀間預(yù)測方式進行編碼。圖1給出了GoP=12的分層B幀預(yù)測結(jié)構(gòu)的時間分層示意圖,從中可以看出分層次B幀預(yù)測結(jié)構(gòu)中,包含了一個關(guān)鍵幀(通常為I幀或P幀)和若干個B幀[10]。圖像按照當前幀與其時間參考幀的時間間隔長短分成不同的時間層(Temporal Layer,TL),不同顏色的B幀處于不同時間層上,處于低時間層上的B幀可以使用較高時間層上的已編碼幀做參考。假設(shè)關(guān)鍵幀圖像的時間層最高,設(shè)為TL=0,1個GoP=12的分組長度內(nèi)B幀可分成4個層次,那么T6為B1,處于時間層TL=1上,水平方向參考幀為T0和T12;T3和T9為B2,處于時間層TL=2上,水平方向參考幀分別為T0、T6和T12和T6;時間層TL=3和TL=4的圖像及其參考關(guān)系依次類推。
圖1 GoP=12分層B幀預(yù)測結(jié)構(gòu)示意圖
由于在分層次的預(yù)測結(jié)構(gòu)中圖像編碼順序和顯示順序是獨立的,關(guān)鍵幀的編碼順序和顯示順序相同,非關(guān)鍵幀按照其所處的時間層順序從低至高進行編碼,顯示則按照實際的圖像順序進行顯示。
2.1 JMVC參考預(yù)測結(jié)構(gòu)分析
JMVC的預(yù)測結(jié)構(gòu)使用的是Hierarchical B預(yù)測結(jié)構(gòu),與Simulcast結(jié)構(gòu)的MVC編碼方案相比,JMVC采用的Hierarchical B預(yù)測結(jié)構(gòu)的編碼性能顯著提升,是因為在非基本視點的I/P幀引入了視點間預(yù)測編碼,以及對非關(guān)鍵幀B幀也進行相鄰視點間預(yù)測。但它通過增加視點間預(yù)測來提高編碼效率的同時,也相應(yīng)增大了編碼復(fù)雜度,降低了隨機訪問性能等,因此,有必要對JMVC 的預(yù)測結(jié)構(gòu)進行優(yōu)化。
由圖1給出了的分層B幀時間分級示意圖可知,不同時間層上的非關(guān)鍵幀與參考幀之間的間隔是有差別,時間層TL值越大,它們的時間間隔越短。同時由圖1也容易看出,不同時間層上圖像的數(shù)目也是不一樣的。當GoP=12時,TLmax=4,TL值為4,3,2,1,0的圖像數(shù)目分別為4,4,2,1,1。TL=3和TL=4的圖像數(shù)目比例各占有33%,二者加起來共占到總的圖像數(shù)目的66%。對于分層B幀結(jié)構(gòu)而言,TL的值越大,當前編碼幀與參考幀的間隔越短,時間相關(guān)性就越強。而對于視點間預(yù)測,由于錄制多視點視頻的各攝像頭間距離保持不變,因此當前編碼幀與相鄰視點之間的參考關(guān)系也保持不變,不會跟隨時間層的變化而改變。表1給出了最佳參考圖像在不同時間層的分布情況。
表1 最佳參考幀的分布情況
從表1可以看出,Ballroom和Exit兩個序列75%以上的編碼最佳參考圖像來自時間參考幀,隨著TL的增加,時間參考的比例越來越大,視點間參考的比例隨之減小。當TL=4時,時間參考比例達到了90%以上,視點間參考的比例小于10%,而Exit序列選用視點間參考的比例接近零,像此類情況便可只進行時間預(yù)測,從而減少編碼時間。
2.2 參考預(yù)測結(jié)構(gòu)優(yōu)化
從上節(jié)分析可知,一個GoP中不同時間層上的幀與其參考幀之間的相關(guān)度是不同的,TL值越大,在時間方向上當前編碼幀與參考幀的間隔越小,它們之間的相關(guān)性越強,這時時間預(yù)測的準確性就越高;不同時間層上圖像的數(shù)目也是不一樣的,TL值越大,圖像數(shù)目越多。在設(shè)計預(yù)測結(jié)構(gòu)時若能有效地利用這兩種差異,就能夠提高多視點視頻的編碼性能。據(jù)此,本文提出了如圖2所示的預(yù)測結(jié)構(gòu)。
圖2 改進的預(yù)測結(jié)構(gòu)圖
由圖2知,對B視點時間層為TL=3和TL=4的幀,其時間相關(guān)性很強,圖像數(shù)目占的比例高達66%,如不采用視點間預(yù)測,僅采用時間預(yù)測的改進預(yù)測結(jié)構(gòu),可以較好地降低計算復(fù)雜度,提高隨機訪問性能。
通過Hierarchical B預(yù)測結(jié)構(gòu)圖示分析可知,偶數(shù)視點在垂直方向上僅加入了關(guān)鍵幀的視點間參考,對非關(guān)鍵幀只有水平方向上時間預(yù)測,視點間的相關(guān)性也沒有達到充分的利用。為了減輕對預(yù)測結(jié)構(gòu)的簡化帶來的編碼效率下降,在此基礎(chǔ)上,對所有P視點的非關(guān)鍵幀時間層TL=1和TL=2增加視點間的預(yù)測,即參考上一個I/P視點同一時刻的圖像。由于時間層TL=1和TL=2上的圖像會作為B視點的視點間參考,如果將P視點在兩個時間層上的圖像預(yù)測精度提高,則可以減少B視點累積誤差,這將在一定程度上提高編碼效率。而且TL=1和TL=2上的圖像數(shù)目比例只占25%,小于TL=3和TL=4上的圖像數(shù)目比例66%,不會增加太大的編碼復(fù)雜度。
3.1 實驗條件配置
本文實驗的視頻序列采用了經(jīng)典的Ballroom和Exit序列,由MERL機構(gòu)提供,測試條件配置如表2所示。本文采用的多視點視頻編碼軟件測試平臺是JMVC8.5,實驗平臺為Win864位操作系統(tǒng),主機的配置是:內(nèi)存4Gbyte,Intel(R) Core(TM)i3-3227U CPU @1.90GHz。
表2 測試條件配置表
3.2 實驗結(jié)果及分析
表3和表4分別給出了優(yōu)化預(yù)測結(jié)構(gòu)(A)與JMVC參考預(yù)測結(jié)構(gòu)的編碼效率和編碼復(fù)雜度比較數(shù)據(jù)。
圖3為測試序列的率失真曲線,其中JMVC表示MVC參考預(yù)測結(jié)構(gòu),本文算法表示優(yōu)化后的預(yù)測結(jié)構(gòu)。由表3、表4和圖3可以看出,對BallRoom序列無論在碼率、峰值信噪比,還是在編碼復(fù)雜度,優(yōu)化后的預(yù)測結(jié)構(gòu)都明顯要優(yōu)于參考預(yù)測結(jié)構(gòu),其中碼率降低了約2%,峰值信噪比提升了0.002 7~0.0063dB,編碼時間減少了5.23%~15.61%。而對Exit序列,優(yōu)化后的預(yù)測結(jié)構(gòu)與參考預(yù)測結(jié)構(gòu)相比,在峰值信噪比降低幅度非常小的情況下獲得了較好的碼率和編碼復(fù)雜度,其中峰值信噪比減少幅度不超過0.005dB,碼率降低了0.6%~0.8%,編碼時間減少了10.75%~14.19%。
表3 編碼效率對比
表4 編碼復(fù)雜度對比
圖3 率失真曲線對比圖
本文分析了多視點視頻編碼標準的分層B幀預(yù)測結(jié)構(gòu),介紹了常見的預(yù)測結(jié)構(gòu)SIMULCAST,KS_IPP,KS_IBP和Hierarchical_IBP,并提出了一種優(yōu)化的預(yù)測結(jié)構(gòu)。在多視點視頻編碼測試平臺下,使用MERL機構(gòu)提供的兩個視頻序列Ballroom和Exit進行實驗測試,并對比分析了優(yōu)化的預(yù)測結(jié)構(gòu)和JMVC參考預(yù)測結(jié)構(gòu)在編碼時間、峰值信噪比和碼率方面的性能。實驗結(jié)果表明:優(yōu)化后的預(yù)測結(jié)構(gòu)表現(xiàn)出了更加出色的編碼效率,編碼的復(fù)雜度減少幅度高達15%,較好地改善了編碼的實時性能。
[1]ISO/IEC JTC1/SC29/WG11,Subjective test results for the CfP on multi-view video coding[S].2006.
[2]ISO/IEC JTC1/SC29/WG11,Survey of algorithms used for MVC[S].2005.
[3]MERKLE P,SMOLIC A,MULLER K,et al..Effieient Prediction structures for multiview video coding[J].IEEE Trans.Circuits and Systems for Video Technology,2007,17(11):1461-1473.
[4]ISO/IEC JTC1/SC29/WG11,Requirements on multi-view video coding[S].2005.
[5]LI D X,ZHENG W,XIE X H,et al.Optimizing inter-view prediction structure for multiview video coding with minimum spanning tree[J].Electronics Letters,2007,43(23):1269-1271.
[6]LIN J P,TANG A C W.A fast direction predictor of inter frame prediction for multi-view video coding[C]//Proc.IEEE International Symposium on Circuits and Systems(ISCAS).[S.l.]:IEEE Press,2009:2589-2592.
[7]OH K J,HO Y S.Multi-view video coding based on the lattice-like pyramid GoP structure[C]//Proc.Picture Coding Symp.,PCS 2006.Beijing,China:IEEE Press,2006:127-131.[8]CHENG X,SUN L,YANG S.A multiview video coding scheme using shared key frames for high interactive application[C]//Proc.Picture Coding Symp.,PCS 2006.Beijing,China:IEEE Press,2006:251-254.[9]YANG Y,JIANG G,YU M,et al.Hyper-space based multiview video coding scheme for free viewpoint television[C]//Proc.Picture Coding Symp.,PCS 2006.Beijing,China:IEEE Press,2006:169-174.
[10]黃俊鈞.多視點視頻編碼預(yù)測結(jié)構(gòu)評估與立體視頻編碼器優(yōu)化[D].杭州:浙江大學,2012.
袁梅冷,碩士,副教授,主要研究方向為計算機應(yīng)用;
楊 張,博士生,助理研究員,主要研究方向為信號處理、智能計算;
雷海軍,博士后,副教授,研究領(lǐng)域為為圖像處理、嵌入式系統(tǒng)、并行計算等。
責任編輯:時 雯
Research and Improvement of Prediction Structure on Multi-view Coding
YUAN Meileng1,YANG Zhang1,2a,LEI Haijun2b,2c,2d
(1.ShenzhenPolytechnic,Shenzhen518055,China;2a.CollegeofInformationEngineering;2b.CollegeofComputerScience&SoftwareEngineering;2c.GuangdongKeyLaboratoryofPopularHighPerformanceComputer;
JMVC reference prediction structure is analyzed in this paper.In a Group of Picture (GoP),the correlation between the reference frame and different time’s layer frame is different,and the number of frames on the different time’s layer is also different.These characteristics are used to adjust the MVC prediction structure by adding some inter-view prediction in even views and removing some inter-view prediction in odd views.Experimental results show that the proposed prediction structure of the multi-view video almost does not influence the quality,showing a more excellent coding efficiency,reducing the complexity of coding as much as 15%,output rate also is decreased,and the better time performance in encoding.
MVC;reference frames; prediction Structure; complexity of coding
【本文獻信息】袁梅冷,楊張,雷海軍.一種優(yōu)化的多視點視頻編碼預(yù)測結(jié)構(gòu)[J].電視技術(shù),2015,39(3).
國家自然科學基金廣東聯(lián)合重點項目(U1301252);國家“863”計劃項目(2012AA01A309);廣東省部產(chǎn)學研項目(2012B091100495);深圳市戰(zhàn)略性新興產(chǎn)業(yè)發(fā)展專項資金項目(JCYJ20120613113419607);深圳大學重點項目(2213k3190007)
TN919.81
A
10.16280/j.videoe.2015.03.007
2014-01-28