王曉龍
(中航工業(yè)洛陽電光設(shè)備研究所,河南洛陽 471009)
基于感興趣區(qū)域的自適應(yīng)幀內(nèi)更新編碼算法*
王曉龍**
(中航工業(yè)洛陽電光設(shè)備研究所,河南洛陽 471009)
針對視頻壓縮碼流對信道差錯異常敏感的問題,提出了一種基于感興趣區(qū)域的自適應(yīng)幀內(nèi)更新編碼算法。該算法利用人眼的視覺感知特性設(shè)計感興趣區(qū)域提取模型,根據(jù)信道差錯累積情況自適應(yīng)調(diào)整幀內(nèi)更新編碼策略,將更少的失真分配給人眼感興趣區(qū)域,提高差錯信道下傳輸視頻圖像的主客觀質(zhì)量。實驗結(jié)果表明,與基于端到端失真的幀內(nèi)更新算法相比,在不同的信道丟包條件下,所提算法可以獲得更好的主客觀質(zhì)量,感興趣區(qū)域的峰值信噪比(PSNR)平均提高0.87 dB左右,提高了差錯信道下視頻通信的魯棒性。
視頻通信;視頻壓縮;幀內(nèi)更新編碼;感興趣區(qū)域
視頻信源壓縮編碼和視頻信道編碼歷來是差錯信道下視頻通信研究熱點,其中,視頻壓縮編碼的目的是使壓縮碼流滿足信道傳輸帶寬的要求。為此,現(xiàn)有的視頻編碼算法廣泛采用了運動預(yù)測/補償和熵編碼等技術(shù),而這會導致視頻碼流對信道誤碼或丟包異常敏感,造成嚴重的誤碼擴散現(xiàn)象,大大降低重建視頻的質(zhì)量[1]。幀內(nèi)更新是一種簡單有效的抗差錯手段,它通過在模式選擇階段增加幀內(nèi)編碼宏塊的數(shù)量,從而阻止由于信道差錯造成的幀間誤碼擴散,提高視頻碼流的抗差錯魯棒性。
人們在觀看視頻圖像的時候,并不是對視頻圖像的所有區(qū)域都具有相同的注意力,而是對不同的區(qū)域有不同的注意力,該區(qū)域被稱為感興趣區(qū)域(Region of Interest,ROI)[2]。其中感興趣區(qū)域的信源編碼失真和信道傳輸失真對觀察者的主觀感受影響最大,而基于感興趣區(qū)域的幀內(nèi)更新算法的主要是將信道信源失真更多的轉(zhuǎn)移至非感興趣區(qū)域,從而提高端到端視頻的質(zhì)量。文獻[3]提出基于感興趣區(qū)域中的隨機幀內(nèi)更新算法,該算法根據(jù)信道丟包情況來更新感興趣區(qū)域的采用幀內(nèi)編碼宏塊的數(shù)量,而宏塊位置的選擇是隨機的。該算法簡單,但是抗差錯效果有限。此外,文獻[4]提出了通過引入信源信道聯(lián)合失真提出基于端到端率失真模型的感興趣區(qū)域幀內(nèi)更新編碼算法,該算法性能較文獻[3]性能更優(yōu),但是由于每幀編碼要進行像素級別的端到端失真計算,故運算量太大。為此,本文提出了一種低復雜度的基于感興趣區(qū)域的幀內(nèi)更新編碼算法,該算法通過統(tǒng)計宏塊的信道差錯累計情況來自適應(yīng)調(diào)整編碼策略,提高差錯信道下傳輸視頻圖像的主客觀質(zhì)量。
本節(jié)提出的感興趣區(qū)域提取模型是以人眼的視覺感知為基礎(chǔ),將膚色感知特性、運動感知特性、空間位置特性3個要素結(jié)合在一起,并進行不同的加權(quán)組合,得到視覺感知權(quán)重圖,最后即可得到符合人眼感知的ROI區(qū)域。在本節(jié)中以宏塊為基本單元,為每個宏塊計算感知權(quán)重以確定宏塊是否屬于感興趣區(qū)域。
在視頻通信應(yīng)用中,人往往是通信的主體,頭肩像也是最多的場景模式,因此本節(jié)采用文獻[5]提出的人臉膚色檢測模型,該模型具有精確性高和計算復雜度低的優(yōu)點,適用于實時性要求較高的應(yīng)用。該算法基于YCbCr的顏色空間,模型的具體數(shù)學表達式如式(1)和式(2)所示:
其中,cx=109.38,cy=152.02,θ=2.53(單位:rad),ecx=1.60,ecy=2.41,a=25.39,b=14.03。由于該算法得到的人臉膚色是以像素為單位的,而H.264/AVC是以宏塊(16 pixel×16 pixel)為基本編碼單位的,所以需要對結(jié)果進行后處理,變?yōu)橐院陦K為單位的人臉膚色視覺感知權(quán)重值。定義宏塊的膚色感知權(quán)重因子SAn(i,j)來描述第n幀第(i,j)個宏塊的膚色感知權(quán)重,如式(3)所示:
其中,A 是一個宏塊中的像素值的個數(shù),Ski,j(x,y)是檢測出來的膚色-非膚色的二值圖表達式,當其值為1表示該像素屬于膚色區(qū)域,值為0表示為非膚色區(qū)域。SAn(i,j)可見的數(shù)值位于閉區(qū)間[0,1]當中。
另外,視頻圖像中的運動區(qū)域也容易引起人眼的關(guān)注,在有全局運動的場景下,運動劇烈的區(qū)域比運動緩慢的區(qū)域更容易受到人眼的關(guān)注,因此應(yīng)該賦予運動劇烈的區(qū)域更高的感知權(quán)重。定義宏塊的運動權(quán)重因子MAn(i,j)來描述第n幀第(i,j)個宏塊的運動劇烈程度,MAn(i,j)的表達式如式(4)所示:
研究表明位于視頻圖像中央?yún)^(qū)域的部分也最容易引起人眼的注意,另外在常見的視頻場景中,攝像人員總是把觀眾最關(guān)注的主要目標放在鏡頭的中心區(qū)域,所以位于中央?yún)^(qū)域的圖像要比邊緣區(qū)域的圖像具有更高的重要性,定義空間位置權(quán)重因子PAn(i,j)來描述第n幀第(i,j)個宏塊的位置重要程度,如式(7)所示:
其中,i=0,1,2,…,N - 1 和 j=0,1,2,…,M - 1,(CX,CY)為位于圖像中心宏塊的位置,M和N分別是水平和垂直方向宏塊的數(shù)量,δ是修正因子??梢?,宏塊的位置感知權(quán)重位于閉區(qū)間[0,1]。其中,位于圖像邊緣的宏塊的權(quán)重為0,而位于中心位置宏塊的權(quán)重為1。
綜合式(3)、(4)和(7),對不同的感知特征進行不同的加權(quán)組合,得到最終的視覺感知權(quán)重圖,如式(8)所示:
其中,ks、km和kp分別表示以上3個感知特性所對應(yīng)的權(quán)重因子,在對視頻序列進行提取檢測的時候,預(yù)先設(shè)定閾值T,當宏塊的VSn(i,j)大于該值就認為該宏塊為感興趣區(qū)域,否則是非感興趣區(qū)域。圖1給出了測試序列Foreman的感興趣區(qū)域提取結(jié)果。
圖1 Foreman序列第26、89和244幀的原始圖像對應(yīng)的感興趣區(qū)域二值圖對比(ks=1,km=1,kp=1,kt=1,T=1.96)Fig.1 The comparison between original image frames and their ROI binary image for Foreman sequence(ks=1,km=1,kp=1,kt=1,T=1.96)
現(xiàn)有的視頻編碼框架是基于塊的編碼結(jié)構(gòu),H.264標準中支持多種塊大小的編碼模式,對宏塊最優(yōu)編碼模式的選擇是通過Lagrange乘子法的率失真優(yōu)化算法實現(xiàn)的[1],即在給定的碼率限制Rc下選擇最優(yōu)編碼模式,使得總的編碼失真D最小:
其中,Rc是信道速率,D(o)宏塊為編碼模式為m時的編碼失真,對應(yīng)碼流為R(x),λ為Lagrange乘子。
與幀間編碼模式相比,幀內(nèi)更新編碼會增加額外編碼比特,使得壓縮性能下降。因此,幀內(nèi)更新編碼技術(shù)的關(guān)鍵在于如何確定幀內(nèi)更新編碼宏塊的數(shù)量和位置。其中隨機幀內(nèi)更新算法根據(jù)信道丟包情況決定每一幀中進行幀內(nèi)更新宏塊的個數(shù),根據(jù)隨機或固定的方式?jīng)Q定宏塊更新的位置[6]。該種算法簡單但是不能夠根據(jù)視頻內(nèi)容特性采用幀內(nèi)編碼,因此抗差錯性能較差;而基于端到端失真的率失真優(yōu)化幀內(nèi)更新編碼算法,將信道失真引入率失真優(yōu)化的模式選擇過程中,對失真嚴重的宏塊進行幀內(nèi)編碼,因此可得到最優(yōu)的端到端的差錯控制效果,但是復雜度很高[7]。為此,本文提出基于感興趣區(qū)域的幀內(nèi)更新編碼算法,根據(jù)信道丟包情況估計每個宏塊的差錯擴散失真,并結(jié)合其對應(yīng)的視覺感知權(quán)重,若當前宏塊的失真(包括差錯擴散失真和感知權(quán)重失真)超過一定的更新閾值,則進行幀內(nèi)更新編碼,而該閾值是根據(jù)當前編碼比特消耗情況自適應(yīng)選取。
對宏塊的差錯傳播失真的推導是基于4×4子塊進行的。設(shè)第n幀的參考幀為第n-t幀,第n-t幀中第(x,y)個子塊的差錯估計為 dep((x,y),n-t),那么由于運動預(yù)測所造成的差錯擴散可以表示為
其中,(vx,vy)為相應(yīng)的運動矢量。
圖2所示為差錯傳播失真估計。
圖2 差錯傳播失真估計Fig.2 The estimation of error propagation distortion
由圖2可知,第 n-t幀的子塊(x+vx,y+vy)(圖中的灰色塊)可以和劃分的若干個子塊重疊,因此,dep((x,y),n)可以用與之重疊的子塊的加權(quán)和來表示:
則第n幀的第m個宏塊的差錯失真為其所有4×4塊的dep值之和,即為Dep(m,n),其中wi與重疊面積大小成正比。對于給定的閾值T,結(jié)合各個宏塊的視覺感知權(quán)重,當累積差錯超過閾值時,即
式中,f(*)是權(quán)重修正函數(shù),Th是提取感興趣區(qū)域的門限,δ為修正因子。設(shè)丟包率為p,那么正確接收數(shù)據(jù)包的概率是1-p,此時可得差錯估計為
如果宏塊丟失,則對該宏塊進行誤碼掩蓋算法,假設(shè)采用最簡單的誤碼掩蓋算法,即當前幀中的丟失宏塊由前一幀相應(yīng)位置的宏塊代替,此時差錯傳播由運動估計所造成的差錯傳播失真和誤碼掩蓋失真,即
每幀編碼時重復進行式(10)~(17),從而確定每幀的幀內(nèi)編碼宏塊。從式(12)可以看出,當閾值T越大,一個視頻幀中容許幀內(nèi)更新編碼的宏塊就越少,因此最終生成的編碼速率就會下降;當閾值T減小,一幀中容許幀內(nèi)編碼的宏塊就增多,視頻編碼速率也會隨之提高,因此閾值T的大小和編碼速率有關(guān),其數(shù)值可以通過實驗確定,具體在編碼過程中可以按照如下流程進行選取閾值T。
第1步:根據(jù)設(shè)定的目標碼率計算預(yù)分配的編碼比特Bf;
第2步:由預(yù)分配編碼比特Bf計算量化參數(shù)Q;
第3步:對當前第l個宏塊進行編碼,此時當前編碼的總比特為Rl;
第4步:按照式(18)和(19)更新閾值T:
其中,Ts為調(diào)整步長,β為給定系數(shù),L為視頻幀中總的宏塊數(shù)量。
為了測試算法的性能,采用JM10.2作為仿真測試平臺,將提出的基于感興趣區(qū)域的幀內(nèi)更新編碼算法在該參考軟件版本上進行實現(xiàn)。編碼器采用如下配置:采用所有幀間編碼模式,1個參考幀,采用CABAC熵編碼,幀率為15 frame/s,GOP結(jié)構(gòu)為IPPP。采用Slice編碼打包模式,I幀分為6個slice包,P幀分為4個slice包,采用隨機丟包,丟包率分別為5%、10%、15%和20%。誤碼掩蓋算法采用宏塊替代的時域誤碼掩蓋算法[8]。由于本算法主要針對中等運動及復雜度的視頻場景,故測試序列采用Foreman和Coastguard序列,圖像大小為CIF格式(352 pixel×288 pixel),目標碼率設(shè)為350 kb/s。通過多次實驗統(tǒng)計(本實驗中統(tǒng)計次數(shù)為50次)重建視頻的平均PSNR來評價算法的性能,并與隨機幀內(nèi)更新編碼算法(Random Intra Update,RIU)[9]和基于端到端率失真最優(yōu)的幀內(nèi)更新編碼算法(End to End Intra Update,E2EIU)[10]進行對比。
圖3(a)和圖4(a)分別給出了采用Foreman和Coastguard序列時不同算法在不同信道丟包率下的重建圖像的整體PSNR比較。相比于RIU算法,本算法在同樣的碼率約束下,對于Foreman序列重建視頻的平均 PSNR可以提高 1.01~2.28 dB,而較E2EIU算法的平均PSNR性能損失控制在0.3 dB左右,而RIU算法與其他算法的性能隨著信道條件的惡劣差距越來越明顯,這主要是因為RIU算法沒有考慮到信道差錯造成的傳播失真,隨著丟包率的增加,此時由信道差錯引入的傳播失真占據(jù)了主導地位。
圖3 Foreman序列不同算法性能比較Fig.3 The performance comparison between different algorithms for Foreman sequence
圖4 Coastguard序列不同算法性能比較Fig.4 The performance comparison between different algorithms for Coastguard sequence
圖3(b)和圖4(b)分別給出了 Foreman和Coastguard序列在不同的丟包率情況下重建視頻感興趣區(qū)域的平均PSNR,可以看出,本算法在圖像整體PSNR性能上比E2EIR算法略微下降,但是感興趣區(qū)域的平均PSNR要高于后者0.87 dB左右。圖5給出了在10%丟包的情況下對于Foreman序列各種算法的主觀效果比較情況,可以看出,本文算法的主觀感覺要明顯好于其他算法。
圖5 Foreman序列(第40幀)不同算法主觀效果比較圖Fig.5 The subjective effect comparison between different algorithms for Foreman sequence
本文首先利用人眼對視頻場景中的不同區(qū)域具有不同的視覺敏感性,從膚色感知特性、運動感知特性和位置感知特性入手建立了感興趣區(qū)域提取模型,隨后提出了基于感興趣區(qū)域的幀內(nèi)更新編碼算法,在差錯信道下通過對差錯的累積估計選擇幀內(nèi)編碼宏塊,從而顯著改善了端到端視頻通信的抗差錯性能。但是感興趣區(qū)域提取模型的應(yīng)用場景還具有一定局限性,對于復雜場景中感興趣區(qū)域提取算法的效果還不甚理想,而這將會影響算法最終的抗差錯性能以及算法的應(yīng)用場景,如何建立高效的感興趣區(qū)域提取模型將是下一步的研究方向。
[1]Richardson I E.The H.264 advanced video compression standard[M].New York:John Wiley & Sons,2011.
[2]路羊.率失真最優(yōu)的高效穩(wěn)健視頻編碼與傳輸技術(shù)研究[D].北京:清華大學,2008.
LU Yang.Research on Rate- distortion Optimizated Video Coding and Transmits Technology[D].Beijing:Tsinghua University,2008.(in Chinese)
[3]Krishnamurthy R,Sethuraman S.Region-based refresh strategy for video compression:U.S.Patent 6304295[P].2001-10-16.
[4]Chen Q,Chen Z,Gu X,et al.Attention - based adaptive intra refresh for error - prone video transmission[J].IEEE Communications Magazine,2007,45(1):52 -60.
[5]Hsu R,Moharmed A,Jain A.Face detection in color images[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2002,24(5):696 -706.
[6]Vanam R,Reznik Y.Error-resilient video coding for wireless video telephony applications[C]//Proceedings of 2012 SPIE.San Diegon,Calitorniai,USA:SPIE,2012:1 -9.
[7]Stuhlmuller K,F(xiàn)arber N,Link M,et al.Analysis of video transmission over lossy channels[J].IEEE Journal on Selected Areas in Communications,2000,18(6):1012 -1032.
[8]Wenger S.H.264/AVC over IP[J].IEEE Transactions on Circuits and Systems for Video Technology,2003,13(7):645-656.
[9]Cote G,Kossentini F.Optimal intra coding of blocks for robust video communication over the Internet[J].Signal Processing:Image Communication,1999,15(1):25 -34.
[10]Xiao J,Tillo T,Lin C,et al.Error- resilient video coding with end-to-end rate-distortion optimized at macroblock level[J].EURASIP Journal on Advances in Signal Processing,2011(1):1 -10.
Adaptive Intra Update Coding Algorithm Based on Region of Interest Video Coding
WANG Xiao-long
(Luoyang Institute of Electro - Optical Equipment,Aviation Industry Corporation of China,Luoyang 471009,China)
In view of the sensitivity of video coding stream to channel error,an intra refresh algorithm based on region of interest video coding is proposed.The algorithm first estimates the model for extracting region of interest using human visual perception,and then it chooses intra coding strategy adaptively according to the accumulation of errors for every macroblock,allocating less distortion to region of interest to improve the subjective and objective visual quality under lossy channel.Simulation shows that under various packet loss rates,the proposed algorithm can obtain a better subjective and objective quality of the reconstructed video and outperforms 0.87 dB in region of interest than the end-to-end intra update algorithm,thus improving the robustness of video communications under lossy channel.
video communication;video coding;intra update coding;region of interest
TN919.81
A
1001-893X(2014)05-0569-05
10.3969/j.issn.1001 -893x.2014.05.008
王曉龍.基于感興趣區(qū)域的自適應(yīng)幀內(nèi)更新編碼算法[J].電訊技術(shù),2014,54(5):569-573.[WANG Xiao-long.Adaptive Intra Update Coding Algorithm Based on Region of Interest Video Coding[J].Telecommunication Engineering,2014,54(5):569 - 573.]
2013-12-23;
2014-03-07
date:2013-12-23;Revised date:2014-03-07
**
heluoxiaolong@126.com Corresponding author:heluoxiaolong@126.com
王曉龍(1985—),男,河南洛陽人,2012年獲博士學位,現(xiàn)為工程師。
WANG Xiao- long was born in Luoyang,Henan Province,in 1985.He received the Ph.D.degree in 2012.He is now an engineer.
Email:heluoxiaolong@126.com