張淑娥 靳曉鵬
[摘要]介紹AVS視頻編碼標(biāo)準(zhǔn)的幀間預(yù)測(cè)技術(shù)特點(diǎn),對(duì)幀間預(yù)測(cè)算法進(jìn)行分析和研究,為視頻幀間編碼提供理論依據(jù)。
[關(guān)鍵詞]AVS 幀間編碼 幀間預(yù)測(cè)算法
中圖分類號(hào):TP3 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1671-7597(2009)0110031-01
2002年,國(guó)家信息產(chǎn)業(yè)部科學(xué)技術(shù)司批準(zhǔn)成立數(shù)字音視頻編解碼技術(shù)標(biāo)準(zhǔn)工作組,制定具有自主知識(shí)產(chǎn)權(quán)的AVS系列信源編碼標(biāo)準(zhǔn),AVS標(biāo)準(zhǔn)為《信息技術(shù)先進(jìn)音視頻編碼》系列標(biāo)準(zhǔn)的簡(jiǎn)稱,它包括了系統(tǒng)、視頻、音頻、版權(quán)管理、文件格式、網(wǎng)絡(luò)傳輸?shù)葟囊曨l壓縮技術(shù)到系統(tǒng)規(guī)范的一整套標(biāo)準(zhǔn),AVS標(biāo)準(zhǔn)的制定和推廣對(duì)減輕國(guó)內(nèi)的音視頻相關(guān)產(chǎn)業(yè)的專利費(fèi)負(fù)擔(dān)以及提升核心競(jìng)爭(zhēng)力具有極其重要的意義。
與MPEG-4 AVC/H.264的baseline profile相比,AVS視頻增加了B幀interlace等技術(shù),因此其壓縮效率明顯提高,而與MPEG-4 AVC/H.264的main profile相比,又減少了CABAC等實(shí)現(xiàn)難度大的技術(shù),從而增強(qiáng)了可實(shí)現(xiàn)性?;贏VS標(biāo)準(zhǔn)的上述優(yōu)點(diǎn),本文選擇對(duì)該標(biāo)準(zhǔn)進(jìn)行研究。
AVS視頻當(dāng)中具有特征性的核心技術(shù)包括:8×8整數(shù)變換、量化、幀內(nèi)預(yù)測(cè)、四分之一精度像素插值、特殊的幀間預(yù)測(cè)運(yùn)動(dòng)補(bǔ)償、以及熵編碼、去塊效應(yīng)環(huán)內(nèi)濾波等。
一、幀間預(yù)測(cè)算法研究
AVS標(biāo)準(zhǔn)采用了16×16、16×8、8×16和8×8的塊模式進(jìn)行運(yùn)動(dòng)補(bǔ)償,較少的塊模式(相比于MPEG-4 AVC/H.264),能降低運(yùn)動(dòng)矢量和塊模式編碼傳輸?shù)拈_銷,從而提高壓縮效率、降低編解碼實(shí)現(xiàn)的復(fù)雜度。而AVS采用不同的4抽頭濾波器進(jìn)行半像素插值和四分之一像素插值,在不降低性能的情況下減少了插值所需要的參考像素點(diǎn),降低了數(shù)據(jù)存取帶寬需求。AVS中的P幀預(yù)測(cè)可以利用至多2幀的前向參考幀,而B幀采用前后各1個(gè)參考幀,P幀與B幀(包括后向參考幀)的參考幀數(shù)相同,其參考幀存儲(chǔ)空間與數(shù)據(jù)存取的開銷均不多于傳統(tǒng)視頻編碼。另外,AVS中B幀的雙向預(yù)測(cè)的多種模式的設(shè)定,也有效的節(jié)省了運(yùn)動(dòng)矢量的編碼開銷。
視覺特性表明,人眼對(duì)活動(dòng)圖像中的靜止部分和運(yùn)動(dòng)部分有著不同的分辨率要求,即對(duì)靜止部分有較高的空間分辨力和較低的時(shí)間分辨力,而對(duì)運(yùn)動(dòng)部分有著較低的空間分辨力和較高的時(shí)間分辨力。因此可以將圖像分割成靜止部分和運(yùn)動(dòng)部分分別進(jìn)行處理。對(duì)于靜止部分可以重復(fù)上一幀的數(shù)據(jù),對(duì)于運(yùn)動(dòng)部分則需設(shè)法測(cè)定其位移量,以位移量來預(yù)測(cè)其運(yùn)動(dòng),并將運(yùn)動(dòng)信息發(fā)送給接收端,以壓縮運(yùn)動(dòng)部分的數(shù)據(jù)量,構(gòu)成完整的圖像,稱為圖像幀間編碼中的運(yùn)動(dòng)補(bǔ)償預(yù)測(cè)。
運(yùn)動(dòng)補(bǔ)償?shù)姆椒ㄊ歉櫘嬅鎯?nèi)的運(yùn)動(dòng)情況對(duì)其加以預(yù)測(cè)以后再加以補(bǔ)償。這項(xiàng)技術(shù)的關(guān)鍵是運(yùn)動(dòng)矢量計(jì)算。通常的方法是采用塊匹配法。運(yùn)動(dòng)估計(jì)和補(bǔ)償是活動(dòng)圖像編碼和計(jì)算機(jī)視覺領(lǐng)域的一項(xiàng)關(guān)鍵技術(shù)。
能夠?qū)σ曨l序列進(jìn)行幀間編碼主要有兩個(gè)方面的依據(jù):首先,從信源的角度看,自然景物大多處于相對(duì)不變或緩變狀態(tài),且其運(yùn)動(dòng)狀態(tài)必然是連續(xù)的,這是幀間相關(guān)性存在的前提條件。其次,在用攝像機(jī)攝取圖像時(shí),根據(jù)不同場(chǎng)合的需要有不同的取景方式,這樣幀間相關(guān)性表現(xiàn)的形式也不相同。目前視頻編碼中考慮的主要是一些簡(jiǎn)單形式。
幀間預(yù)測(cè)考慮的典型情況是頭肩序列,例如可視電話圖像,圖像的內(nèi)容通常是在一個(gè)細(xì)節(jié)不十分復(fù)雜的背景前,一個(gè)活動(dòng)量不大的單人圖像。假定人的位置在第K幀與第K-1幀相比有一定的位移,可以將畫面分成3個(gè)各具特點(diǎn)的區(qū)域:
1.背景區(qū):這部分圖像一般是靜止的,前后兩幀的絕大部分?jǐn)?shù)據(jù)相同,有著極強(qiáng)的相關(guān)性,且只是對(duì)人物起陪襯作用。
2.運(yùn)動(dòng)物體區(qū):如將物體看作簡(jiǎn)單的平面位移,則第K幀和第K-1幀的該部分?jǐn)?shù)據(jù)也是幾乎相同的,只是位置發(fā)生了改變,相關(guān)性還是極強(qiáng)的。這部分?jǐn)?shù)據(jù)需要運(yùn)動(dòng)估計(jì)和運(yùn)動(dòng)補(bǔ)償。
3.暴露區(qū):這是指運(yùn)動(dòng)后所暴露出來的原來被物體蓋住的區(qū)域。如果有存儲(chǔ)器將這些暴露區(qū)的數(shù)據(jù)暫時(shí)存儲(chǔ),則再次經(jīng)遮蓋再暴露出來的數(shù)據(jù)與原來存儲(chǔ)的數(shù)據(jù)也是相同的,還是有強(qiáng)相關(guān)性。
雖然以上三類區(qū)域的相關(guān)性是比較理想的劃分結(jié)果,實(shí)際中并無如此嚴(yán)格的劃分,但是它們?yōu)閹g編碼算法提供了重要依據(jù)。如果存在場(chǎng)景切換則談不上幀間相關(guān)性。
二、結(jié)論
研究表明,人類視覺對(duì)圖像中的靜止部分有較高的分辨率,必須給予充分的空間(spatial)分辨率,即在傳輸靜止圖像或序列圖像的靜止部分時(shí),要保證較高的水平和垂直分辨率;但與此同時(shí),卻可以減少傳輸幀數(shù),在接收端,依靠幀存儲(chǔ)器把未傳輸?shù)膸a(bǔ)充出來,而按照一定周期傳輸?shù)臄?shù)據(jù)對(duì)幀存儲(chǔ)器刷新。因此對(duì)傳輸序列圖像而言,可恰當(dāng)降低時(shí)間(temporal)分辨率。另一方面,人的視覺對(duì)于序列圖像中的運(yùn)動(dòng)物體的空間分辨率將隨著物體的運(yùn)動(dòng)速度的增加而顯著降低,攝像器材的靈敏度也會(huì)造成運(yùn)動(dòng)部分的靈敏度下降。此外,電視監(jiān)視器的顯示器件也有一定的積分模糊效應(yīng)。這樣在傳輸序列圖像中的運(yùn)動(dòng)物體時(shí),可以降低這部分圖像的清晰度,且這部分圖像的運(yùn)動(dòng)速度愈高,就可以用更低的圖像清晰度進(jìn)行傳輸。
綜上所述,根據(jù)圖像的內(nèi)容在清晰度和活動(dòng)性(幀頻)之間進(jìn)行調(diào)整,可使重建圖像在視覺上保持一致主觀效果,這種方法就叫做空間分辨率和時(shí)間分辨率的交換。
以上兩點(diǎn)的分析為視頻幀間編碼提供了理論依據(jù),幀間編碼作為視頻壓縮的有效技術(shù),被各種視頻壓縮標(biāo)準(zhǔn)所采用。
參考文獻(xiàn):
[1]IA-32 Intel Architecture Software Developer's Manual Volume 1:Basic Architecture,Order Number:245470-012.
[2]IA-32 Intel Architecture Software Developer's Manual Volume 1:Instruction Set Reference,Order Number:245471-012.
[3]丁嶸、蘇光大、林行剛,特征臉和彈性匹配人臉識(shí)別算法的比較,計(jì)算機(jī)工程與應(yīng)用,Vol.38,2002.7,1-2,19.
[4]蘇光大,圖像并行處理技術(shù),北京:清華大學(xué)出版社,2002.
[5]黎洪松,數(shù)字視頻技術(shù)及其應(yīng)用,北京:清華大學(xué)出版社,1997.
[6]謝深泉、朱珍民、葉施仁,多媒體基礎(chǔ)與應(yīng)用,北京:北京大學(xué)出版社,1997.
[7]馬華東,多媒體計(jì)算機(jī)技術(shù)原理,北京:清華大學(xué)出版社,1999.
[8]吳樂南,數(shù)據(jù)壓縮,北京:東南大學(xué)出版社,2000.
[9]朱秀昌、劉峰、胡棟,數(shù)字圖像處理與圖像通信,北京:北京郵電大學(xué)出版社,2002.
作者簡(jiǎn)介:
張淑娥,女,華北電力大學(xué)電子與通信工程系,副教授;靳曉鵬,男,華北電力大學(xué)電子與通信工程系,通信與信息系統(tǒng)碩士。