張 倩,張 遠(yuǎn),趙志軍
(中國傳媒大學(xué)信息工程學(xué)院,北京 100024)
視覺感知編碼方法綜述
張 倩,張 遠(yuǎn),趙志軍
(中國傳媒大學(xué)信息工程學(xué)院,北京 100024)
本文給出了視覺感知編碼方法的綜述。首先介紹了人類視覺系統(tǒng)(HVS)的特性,然后根據(jù)視覺感知編碼方法所利用的視覺特性不同將其分為三類,并分別介紹了各類方法的研究現(xiàn)狀。最后展望了視覺感知編碼的應(yīng)用前景和發(fā)展方向。
視頻編碼;視覺感知;HVS
隨著寬帶網(wǎng)絡(luò)和高清晰顯示器的發(fā)展,人們對視頻畫面的質(zhì)量有了更高的期望,這也給視頻編碼技術(shù)帶來了新的要求和挑戰(zhàn)。如何在計(jì)算復(fù)雜度受限的情況下,得到最優(yōu)的率失真性能是視頻編碼設(shè)計(jì)的核心問題。傳統(tǒng)的視頻編碼算法主要采用幀內(nèi)預(yù)測、幀間預(yù)測和熵編碼等技術(shù)來消除視頻中的冗余信息以達(dá)到改善視頻編碼率失真性能的目的。然而,傳統(tǒng)的視頻編碼算法并沒有充分考慮人類視覺系統(tǒng)(HVS)的特性。因此,如何有效地利用視覺感知原理,優(yōu)化現(xiàn)有的編碼算法具有重要的理論意義和應(yīng)用價(jià)值。
本文主要結(jié)合國內(nèi)外研究現(xiàn)狀,對視覺感知編碼方法進(jìn)行總結(jié)。
人類視覺系統(tǒng)由眼球、神經(jīng)系統(tǒng)及大腦的視覺中樞三部分構(gòu)成。當(dāng)人們注視視頻場景時(shí),入射光首先由瞳孔和水晶體調(diào)節(jié)、聚焦,使景物在視網(wǎng)膜上成像,然后由視網(wǎng)膜上的神經(jīng)元將光信號轉(zhuǎn)化成神經(jīng)信號并發(fā)送到視皮層,經(jīng)過視皮層以及腦部其它相關(guān)區(qū)域的進(jìn)一步處理后,形成對視頻場景的感知。
近幾年來,在視覺生理學(xué)、心理學(xué)的指導(dǎo)下,通過對人眼的某些視覺現(xiàn)象的觀察和研究,人們發(fā)現(xiàn)了HVS的很多特性。在視覺感知編碼中,一般應(yīng)用到的HVS特性主要有:對比敏感度、掩蔽效應(yīng)、中央凹特性、運(yùn)動(dòng)感知、視覺注意等[1-2]。
1)對比敏感度
對比敏感度(Contrast Sensitivity)是HVS最為基本的視覺特性,它包括空間對比敏感度和時(shí)間對比敏感度??臻g對比敏感度是指HVS對空間視頻信號的敏感程度,定義為觀察者能夠覺察到的測試激勵(lì)信號的最小對比度值的倒數(shù)。時(shí)間對比敏感度是指HVS對信號運(yùn)動(dòng)頻率的敏感程度。通常用對比敏感度函數(shù) (Contrast Sensitivity Function,CSF)來描述HVS對不同空間、時(shí)間頻率的視頻信號的敏感程度。
2)掩蔽效應(yīng)
視覺掩蔽效應(yīng)(Visual Masking Effect)是HVS較為重要的特性之一。它是指當(dāng)另外一個(gè)視覺信號存在時(shí),HVS會降低對目標(biāo)視覺信號的敏感度,特別是當(dāng)掩蔽信號與原始信號的頻率和方向相同時(shí),掩蔽效應(yīng)最強(qiáng)。譬如,相對于低頻的圖像區(qū)域,高頻的圖像區(qū)域?qū)σ曈X信號失真具有更強(qiáng)的掩蔽能力。
3)中央凹特性
在視網(wǎng)膜的中央凹(Fovea)上分布著密度極高的光感受器,并且其密度會隨著離心率(Eccentricity)的增大而快速下降。因此,當(dāng)人在注視視頻場景中的某一點(diǎn)時(shí),對于離注視點(diǎn)較近的區(qū)域,HVS感知的空間頻率分辨率較高,而對于離注視點(diǎn)較遠(yuǎn)的區(qū)域,HVS感知的空間頻率分辨率較低。
4)運(yùn)動(dòng)感知
HVS另外一個(gè)較為重要的視覺特性是運(yùn)動(dòng)感知。運(yùn)動(dòng)感知分為低級階段和高級階段。在視覺感知的低級階段,HVS主要對局部視覺特征進(jìn)行處理,如運(yùn)動(dòng)的速度、方向;在運(yùn)動(dòng)感知的高級階段,HVS會對生物運(yùn)動(dòng)產(chǎn)生感知響應(yīng),譬如人的臉部和手部運(yùn)動(dòng)。
5)視覺注意
當(dāng)注視視頻場景時(shí),人會快速地將注意力集中在感興趣的視頻內(nèi)容或者對象上,這種現(xiàn)象稱為HVS的視覺注意(Visual Attention)。視覺注意有兩種工作方式:一種是由外部激勵(lì)驅(qū)動(dòng)的自底向上(Bottom-up)的處理過程,這種工作方式屬于低級視覺研究范疇;一種是由任務(wù)驅(qū)動(dòng)的自上而下(Top-down)的處理過程,這種工作方式屬于高級視覺研究范疇。
視覺感知編碼的目的是利用已知的HVS特性,最大限度消除人眼無法感知的信息,用更少的比特資源提供視覺感知質(zhì)量更理想的視頻圖像。為此,研究人員提出了大量的視覺感知編碼方法。根據(jù)編碼方法所利用的HVS特性不同,把視覺感知編碼方法歸納為3類:基于視覺敏感度的編碼方法、基于視覺注意的編碼方法和混合的編碼方法。基于視覺敏感度的編碼方法主要利用人眼敏感度的有限性消除視覺冗余;基于視覺注意的編碼方法主要利用人眼對視頻畫面上不同內(nèi)容或?qū)ο笞⒁獬潭炔煌奶匦?,對視頻內(nèi)容進(jìn)行自適應(yīng)編碼;還有部分編碼方法是以上兩種編碼方法的綜合,把這類編碼方法叫做混合的編碼方法。
人眼的視覺敏感度是有限的,并且HVS對不同視頻信號的失真也有不同的敏感程度。這就為消除視覺冗余提供了可能。目前,基于視覺敏感度的編碼方法主要有3類:基于JND模型的編碼方法、基于SSIM的編碼方法和基于頻域加權(quán)量化的編碼方法。
2.1.1 基于JND模型的編碼方法
JND(Just Noticeable Distortion)指人眼能夠覺察到的最小失真,它表征了人眼對視頻信號的敏感程度。JND閾值會受到視頻信號的背景亮度、頻率、運(yùn)動(dòng)、紋理信息等因素的影響。通過JND模型調(diào)節(jié)量化參數(shù)和比特分配可以達(dá)到消除視覺冗余的目的。現(xiàn)有的JND模型主要分為兩類:一類是作用于像素域的JND模型;一類是作用于變換域(如DCT域、小波域)的JND模型。文獻(xiàn)[3]提出的JND模型綜合考慮了空域JND門限和時(shí)域JND門限,其中空域JND門限主要考慮背景亮度的自適應(yīng)性和紋理的掩蔽效應(yīng),時(shí)域JND門限則通過估計(jì)幀間的平均亮度差異得到。文獻(xiàn)[4]在文獻(xiàn)[3]的基礎(chǔ)上提出了非線性掩蔽效應(yīng)相加模型(Non-linear Additivity Model for Masking,NAMM)的概念,構(gòu)建了一個(gè)更加符合HVS特性的JND模型。它綜合考慮了多種掩蔽效應(yīng)同時(shí)作用的情況以及色度信息的掩蔽效應(yīng),基于人眼對邊界的失真更為敏感的特性,該模型區(qū)分了邊界區(qū)域和非邊界區(qū)域,以避免因過高的估計(jì)邊界區(qū)域上的掩蔽效應(yīng)而導(dǎo)致主觀質(zhì)量下降。實(shí)驗(yàn)表明,將上述JND模型移植到運(yùn)動(dòng)搜索算法中可以提高運(yùn)動(dòng)搜索算法的效率,采用該模型對運(yùn)動(dòng)補(bǔ)償后、DCT變換前的殘差數(shù)據(jù)進(jìn)行預(yù)濾波,可以提高視頻的主觀質(zhì)量。
雖然像素域的JND模型可以給出原始視頻圖像一個(gè)非常直觀的JND圖,但是它不能包含描述HVS對不同頻率敏感程度的對比敏感度函數(shù)(CSF),所以不能夠精確地模擬HVS的特性。因此,變換域的JND模型成為當(dāng)前的研究熱點(diǎn)。文獻(xiàn)[5]提出了一種作用在DCT域上的JND模型。該模型通過整合時(shí)—空域?qū)Ρ让舾卸群瘮?shù)、眼動(dòng)機(jī)制、亮度自適應(yīng)性和掩蔽效應(yīng),估計(jì)出一個(gè)更加符合HVS特性的JND門限值。然而,文獻(xiàn)[5]在估計(jì)JND門限值時(shí)只考慮了運(yùn)動(dòng)矢量的大小,而忽略了運(yùn)動(dòng)矢量的方向也會影響JND門限值的事實(shí)。文獻(xiàn)[6]在文獻(xiàn)[5]的基礎(chǔ)上做出了改進(jìn):通過引入非線性校正得到一個(gè)更加精確的亮度自適應(yīng)性函數(shù);由人眼對平滑區(qū)域和邊界的失真較為敏感的特性,將宏塊分為3類,并通過掩蔽效應(yīng)因子調(diào)節(jié)各類掩蔽效應(yīng)的大小;在傳統(tǒng)的時(shí)域CSF上考慮了視網(wǎng)膜運(yùn)動(dòng)補(bǔ)償特性和運(yùn)動(dòng)的方向。
2.1.2 基于SSIM的編碼方法
SSIM(Structural Similarity)是一種新的圖像質(zhì)量評價(jià)方法[7],該方法把對結(jié)構(gòu)信息的度量作為圖像感知質(zhì)量的近似。由于HVS的主要功能是從視野中提取結(jié)構(gòu)信息,所以,與PSNR相比,SSIM的評價(jià)結(jié)果更符合人的主觀感受。因此,可以用SSIM替換傳統(tǒng)的圖像質(zhì)量評價(jià)方法優(yōu)化編碼算法。文獻(xiàn)[8]提出了一種基于SSIM的運(yùn)動(dòng)估計(jì)算法,該算法在運(yùn)動(dòng)搜索時(shí)使用SSIM來尋找參考幀中的匹配塊。相比傳統(tǒng)的算法,該算法確定的數(shù)據(jù)塊與當(dāng)前塊的匹配程度更高。文獻(xiàn)[9]提出了一種基于SSIM的率失真優(yōu)化算法。該算法在率失真優(yōu)化過程中應(yīng)用SSIM來衡量重建塊的失真程度,據(jù)此得到更優(yōu)的編碼模式。由于該算法在運(yùn)動(dòng)搜索時(shí)仍然使用SAD來確定匹配塊,所以并未引入過多的計(jì)算復(fù)雜度,但同時(shí)也限制了該算法在無顯著運(yùn)動(dòng)和運(yùn)動(dòng)劇烈兩種情況下的率失真優(yōu)化增益;另外,采用靜態(tài)的拉格朗日因子使該算法缺乏一定的內(nèi)容自適應(yīng)性。文獻(xiàn)[10-11]均提出了基于SSIM的自適應(yīng)率失真優(yōu)化算法。文獻(xiàn)[10]通過已編碼幀的率失真模型來估計(jì)當(dāng)前編碼幀的拉格朗日因子。文獻(xiàn)[11]將塊分為平滑和非平滑兩類,并計(jì)算一幀中不需編碼系數(shù)的概率,由此根據(jù)輸入視頻序列的特性自適應(yīng)確定拉格朗日因子。為了更加合理的分配比特資源,文獻(xiàn)[12]將SSIM應(yīng)用到碼率分配和碼率控制過程中。實(shí)驗(yàn)表明該算法在降低碼率的同時(shí)保存了更多的圖像結(jié)構(gòu)信息,提高了視頻的主觀質(zhì)量。文獻(xiàn)[13]使用DCT域的SSIM系數(shù)來對DCT系數(shù)進(jìn)行標(biāo)準(zhǔn)化,使之符合視覺感受的一致性,并基于這種標(biāo)準(zhǔn)化方法定義了一個(gè)新的率失真模型進(jìn)行模式選擇。由于標(biāo)準(zhǔn)化因子是由預(yù)測宏塊得到的,因此量化矩陣可以根據(jù)視頻內(nèi)容的特性自適應(yīng)的調(diào)整,同時(shí)并沒有消耗額外的比特資源。實(shí)驗(yàn)表明,和H.264編碼算法相比,該算法在節(jié)省比特資源的同時(shí)也保證了視頻的主觀質(zhì)量。
2.1.3 基于頻域加權(quán)量化的編碼方法
基于頻域加權(quán)量化的編碼方法主要根據(jù)人眼對不同特性的編碼單元敏感度不同的特點(diǎn),將編碼單元分為不同類型,比如紋理復(fù)雜類、平滑類、邊界類等,不同的編碼單元適用不同的量化權(quán)重。這樣,在保證視頻主觀質(zhì)量的同時(shí)降低了非敏感區(qū)域的碼率。文獻(xiàn)[14]根據(jù)宏塊的特性將其分為6類,并且由不同的權(quán)重因子調(diào)整基本單元(BU)層碼率分配的估計(jì)值進(jìn)而調(diào)整量化步長。在H.264/AVC編碼模式選擇時(shí),細(xì)節(jié)豐富的區(qū)域通常采取較小的宏塊分割,而平滑的區(qū)域通常采取較大的宏塊分割。文獻(xiàn)[15]基于這點(diǎn)提出了一種宏塊級自適應(yīng)頻域加權(quán)量化的方法,該方法根據(jù)周圍宏塊的分割模式將當(dāng)前編碼宏塊分為3類,并分別采用不同的頻域加權(quán)量化方案,不僅使編碼結(jié)果更加符合人眼的視覺特性同時(shí)也沒有因?yàn)橐腩l率權(quán)重因子而消耗更多的比特資源。但是,該方法采用的量化矩陣是預(yù)先設(shè)定的,不能根據(jù)輸入的視頻內(nèi)容進(jìn)行調(diào)整。所以,這種方法缺乏一定的內(nèi)容自適應(yīng)性。
根據(jù)是否考慮HVS的中央凹特性,基于視覺注意的編碼方法可以分為兩類:基于感興趣區(qū)域的編碼方法和基于感興趣區(qū)域和中央凹特性聯(lián)合的編碼方法。
2.2.1 基于感興趣區(qū)域的編碼方法
基于感興趣區(qū)域(Region-of-Interest,RoI)的編碼方法的基本思想是:在視頻編碼前,對輸入的視頻場景進(jìn)行視覺感知分析確定感興趣區(qū)域。在編碼過程中,通過調(diào)整編碼參數(shù)來分別控制感興趣區(qū)域和非感興趣區(qū)域的失真程度,進(jìn)而改善感興趣區(qū)域的編碼質(zhì)量。
在基于感興趣區(qū)域編碼的過程中,編碼器依據(jù)視頻場景中不同圖像區(qū)域的感興趣程度來分配比特資源和計(jì)算資源。因此,對輸入的視頻序列,如何確定感興趣區(qū)域是一個(gè)關(guān)鍵的問題。經(jīng)典的可計(jì)算視覺注意模型是通過一種或整合多種視頻特征得到視頻畫面的顯著性圖(Saliency Map)進(jìn)而確定感興趣區(qū)域。視頻特征主要包括以下幾種類型:1)空間域視頻特征,比如膚色、亮度;2)時(shí)間域視頻特征,比如運(yùn)動(dòng);3)綜合考慮空間域和時(shí)間域的視頻特征,這種方法更符合HVS的感知原理。
人臉是最常見也是最容易引起觀看者注意的特征之一。適當(dāng)?shù)靥岣咭曨l中臉部的編碼質(zhì)量能有效地改善視頻整體的主觀質(zhì)量。文獻(xiàn)[16]首先確定了膚色的判定閾值,并通過此閾值來識別人臉的區(qū)域。然后對非感興趣區(qū)域進(jìn)行低通濾波以減少背景的高頻成分,最后通過控制宏塊級量化參數(shù)來控制不同區(qū)域的編碼質(zhì)量。文獻(xiàn)[17]在文獻(xiàn)[16]的基礎(chǔ)上將人臉以及人臉周圍的宏塊設(shè)定為感興趣區(qū)域以避免臉部周圍視覺感受的下降。在對視頻內(nèi)容進(jìn)行編碼時(shí),該算法在宏塊級使用一種線性QP值預(yù)測的方法來控制不同區(qū)域的編碼質(zhì)量。文獻(xiàn)[18]由膚色和紋理信息得到顯著性圖,并據(jù)此確定感興趣區(qū)域。然后在感興趣區(qū)域與非感興趣區(qū)域適用不同的量化參數(shù)、運(yùn)動(dòng)搜索范圍、參考幀數(shù)目。實(shí)驗(yàn)結(jié)果表明,該方法可以降低計(jì)算復(fù)雜度并且保證視頻的主觀質(zhì)量。由于這類方法沒有考慮視頻內(nèi)容的時(shí)域特性,所以有一定的局限性。
由于人眼更傾向于關(guān)注視頻場景中運(yùn)動(dòng)的物體,因此人對運(yùn)動(dòng)物體的失真比靜態(tài)物體更加敏感。文獻(xiàn)[19]根據(jù)運(yùn)動(dòng)矢量場得到運(yùn)動(dòng)顯著性圖,并由運(yùn)動(dòng)顯著性圖調(diào)節(jié)比特資源的分配。首先,作者根據(jù)不同模式的塊的運(yùn)動(dòng)矢量場得到各自的運(yùn)動(dòng)顯著性圖并將其融合為一個(gè)整體的運(yùn)動(dòng)顯著性圖,然后由運(yùn)動(dòng)顯著性圖調(diào)整幀級和宏塊級的碼率分配。這樣,更多的比特資源可以分配給運(yùn)動(dòng)信息顯著的幀和宏塊,進(jìn)而提高視頻的主觀質(zhì)量。
由于視頻場景中的時(shí)域和空域的視覺信息都會對HVS的感知結(jié)果造成影響,近年來,基于時(shí)空域視覺特征融合的感興趣區(qū)域編碼方法越來越受到視頻處理領(lǐng)域研究人員的關(guān)注。文獻(xiàn)[20]提出了一種應(yīng)用于實(shí)時(shí)視頻通話的感興趣區(qū)域編碼方法。該方法由膚色和幀間差異快速地得到顯著性圖,當(dāng)顯著性圖確定以后,更多的比特資源和計(jì)算資源可以分配到感興趣區(qū)域中。所以,很多編碼參數(shù)可以自適應(yīng)地調(diào)整,比如:量化參數(shù)、宏塊可選的編碼模式、參考幀數(shù)目、運(yùn)動(dòng)搜索的范圍、運(yùn)動(dòng)估計(jì)的精度。這樣,在降低了編碼復(fù)雜度的同時(shí),保證了視頻的主觀質(zhì)量。文獻(xiàn)[21]考慮亮度、色度、紋理、膚色、運(yùn)動(dòng)矢量因素來構(gòu)造顯著性圖,再通過一定的門限值判定得到感興趣區(qū)域。然后將目標(biāo)碼率分別分配給感興趣區(qū)域和非感興趣區(qū)域,不同區(qū)域的宏塊由所分配的碼率得到一個(gè)初始的QP值。然后,為了提高整體的視頻主觀質(zhì)量,根據(jù)一定的限制條件調(diào)整初始QP值確定該宏塊的QP值并進(jìn)行編碼。文獻(xiàn)[22]將紋理特征圖和運(yùn)動(dòng)特征圖融合得到顯著性圖,由于構(gòu)造運(yùn)動(dòng)特征圖時(shí)考慮了全局的運(yùn)動(dòng)信息,該顯著性圖可以較好的應(yīng)用于有攝像機(jī)運(yùn)動(dòng)的視頻內(nèi)容中。然后,由顯著性圖得出不同宏塊的視覺重要權(quán)重,并相應(yīng)地采用不同的DCT系數(shù)抑制矩陣。在抑制過程中,根據(jù)宏塊視覺重要程度的不同,宏塊的高頻系數(shù)也不同程度的裁減掉。這樣,節(jié)省了非感興趣區(qū)域的比特消耗,進(jìn)而將更多的比特資源分配到感興趣區(qū)域,提高主觀的視頻質(zhì)量。
2.2.2 基于感興趣區(qū)域和中央凹特性聯(lián)合的編碼方法
由HVS中央凹特性可知,相對于注視點(diǎn)中心區(qū)域,HVS對離注視點(diǎn)較遠(yuǎn)的圖像區(qū)域的細(xì)節(jié)分辨能力較低,因此應(yīng)當(dāng)適當(dāng)提高注視點(diǎn)中心區(qū)域的編碼質(zhì)量。將中央凹特性集成到基于感興趣區(qū)域的編碼方法中可以更好地消除視覺冗余并且提高視頻的主觀感受。文獻(xiàn)[23]提出了一種類似具有中央凹特性的濾波器的來減小視頻圖像在空間上的分辨率,并應(yīng)用濾波后的圖像優(yōu)化視頻編碼時(shí)的碼率控制技術(shù)。文獻(xiàn)[24]考慮顏色、方向、灰度、運(yùn)動(dòng)等因素構(gòu)造了一個(gè)自下而上的顯著性模型來確定視頻圖像中存在的注意焦點(diǎn),然后以注意焦點(diǎn)為中心,通過模擬中央凹的空間分辨率變化規(guī)律,對視頻內(nèi)容進(jìn)行低通濾波,最后對濾波后的視頻進(jìn)行編碼。這樣在注意焦點(diǎn)上保留更多圖像細(xì)節(jié)的同時(shí)減少了背景圖像的高頻成分,提高了編碼效率。文獻(xiàn)[25]提出了一種自動(dòng)選取注意焦點(diǎn)的可伸縮視覺感知編碼方法,該方法可以根據(jù)視頻場景自動(dòng)地確定多個(gè)注意焦點(diǎn),并根據(jù)視頻的內(nèi)容和網(wǎng)絡(luò)帶寬的情況進(jìn)行可伸縮編碼。該方法還應(yīng)用了一種自適應(yīng)的幀預(yù)測算法,該算法能夠有效地減少幀間預(yù)測時(shí)的誤差積累,減小預(yù)測誤差,提高視頻壓縮算法的性能。
基于感興趣區(qū)域和中央凹特性聯(lián)合的編碼方法雖然能夠提供更好的主觀視頻感受,但是自動(dòng)選取注意焦點(diǎn)和視覺注意力模型的計(jì)算復(fù)雜度很高,而編碼的性能又主要依賴于以上二者的精確程度。所以,該方法很難應(yīng)用于實(shí)時(shí)的視頻通信場合中。
混合的編碼方法是基于視覺敏感度的編碼方法和基于視覺注意的編碼方法的綜合,其編碼結(jié)果能夠進(jìn)一步提高視頻的主觀質(zhì)量。比如文獻(xiàn)[26]提出了一種包含視覺敏感性、視覺注意和中央凹特性的FJND(Foveated Just-Noticeable-Distortion)模型。由中央凹特性可知,隨著離心率的增大,HVS對圖像細(xì)節(jié)分辨能力將逐漸下降,所以JND門限也應(yīng)相應(yīng)提高。該FJND模型能夠更好地消除全局的視覺冗余。實(shí)驗(yàn)表明,將其應(yīng)用在H.264/AVC視頻編碼框架上可以明顯提高視頻的主觀質(zhì)量,并降低碼率。類似的還有文獻(xiàn)[27-28]。文獻(xiàn)[29-30]提出了一種基于視覺失真敏感度的比特分配算法。由于人眼對運(yùn)動(dòng)的物體和結(jié)構(gòu)性紋理較為敏感,此算法綜合考慮了視頻內(nèi)容的運(yùn)動(dòng)注意特性和紋理信息,得到視覺失真敏感值并根據(jù)此值調(diào)整宏塊級的量化步長。通過對視覺敏感度的分析可以把較少的比特分配到人眼對失真不敏感的區(qū)域,以達(dá)到節(jié)省比特的目的。文獻(xiàn)[31]利用膚色檢測算法,確定感興趣區(qū)域,并結(jié)合亮度和紋理信息對失真的掩蔽效應(yīng),確定不同區(qū)域的量化步長。這樣可以自適應(yīng)的為視頻內(nèi)容的前景和背景分配比特資源。但是由于該方法忽視了時(shí)域上的視覺特征,而且只能應(yīng)用在視頻電話場合,因此使用范圍較窄。文獻(xiàn)[32]綜合了視覺注意力模型、眼動(dòng)機(jī)制、視覺敏感度模型和掩蔽效應(yīng)模型得到一個(gè)時(shí)空域失真掩蔽度量值。該模型通過運(yùn)動(dòng)的強(qiáng)度和方向確定感興趣區(qū)域,然后對于非感興趣區(qū)域的宏塊,由空間頻率和塊的運(yùn)動(dòng)速度篩選出人眼不敏感的DCT系數(shù),通過上述系數(shù)的掩蔽門限得到該宏塊的時(shí)空域失真掩蔽度量值并由此值調(diào)整宏塊的量化參數(shù)。文獻(xiàn)[33]提出了一種更加符合人眼特性的率失真優(yōu)化算法。首先,該算法根據(jù)SSIM衡量重建塊的失真程度,這與人對失真的主觀感受更加相符。然后,通過DCT系數(shù)的標(biāo)準(zhǔn)差來確定拉格朗日因子,由于DCT系數(shù)的標(biāo)準(zhǔn)差能在一定程度上反映輸入視頻序列的特性,所以該方法具有一定的內(nèi)容自適應(yīng)性。最后,利用人眼對不同視頻區(qū)域失真程度注意度不同的特點(diǎn),利用視頻畫面的顯著性圖來確定宏塊的顯著性系數(shù),并由顯著性系數(shù)調(diào)整計(jì)算率失真代價(jià)時(shí)的失真權(quán)重。實(shí)驗(yàn)表明,該方法能節(jié)省相當(dāng)?shù)谋忍刭Y源,同時(shí)能提高感興趣區(qū)域的主觀視頻質(zhì)量。
混合的編碼方法能夠更好地模擬HVS的特性,較大程度地壓縮視覺冗余。但是如何降低計(jì)算復(fù)雜度是混合編碼方法面臨的一大難題。
本文介紹了人類視覺系統(tǒng)的特性,并總結(jié)了視覺感知編碼方法的研究現(xiàn)狀。分別詳細(xì)介紹了基于視覺敏感度的編碼方法、基于視覺注意的編碼方法和混合的編碼方法,并闡述了各類方法的優(yōu)點(diǎn)和局限性。
隨著視覺感知模型的發(fā)展和3D視頻、計(jì)算機(jī)圖形學(xué)以及高動(dòng)態(tài)光照渲染視頻等應(yīng)用的普及,視覺感知編碼技術(shù)的應(yīng)用領(lǐng)域日益擴(kuò)大。并且,由于人們對多媒體娛樂等視頻應(yīng)用的期望越來越高,給多媒體服務(wù)帶了新的需求和挑戰(zhàn),如何應(yīng)用視覺感知原理改善用戶體驗(yàn)也是視覺感知編碼的一項(xiàng)重大任務(wù)之一。
雖然研究人員在視覺感知編碼領(lǐng)域已經(jīng)取得了很大的成就,但是很多研究工作還有待完善。目前,視覺感知編碼可從以下幾個(gè)方面展開研究:1)更深入地探索人類視覺系統(tǒng)的特性;2)提高視覺感知編碼的編碼性能,進(jìn)一步壓縮視覺冗余;3)降低視覺感知編碼的計(jì)算復(fù)雜度;4)隨著3D技術(shù)的日益成熟,如何將視覺感知編碼技術(shù)融入3D技術(shù)也是一個(gè)很大的挑戰(zhàn)。更多跨學(xué)科的研究工作有望在視覺感知編碼領(lǐng)域?qū)崿F(xiàn)新的突破。
:
[1]WINKLER S.Digital video quality:vision models and metrics[M].New York:John Wiley&Sons,2005.
[2]鄭雅羽.基于視覺感知的H.264感興趣區(qū)域編碼研究[D].杭州:浙江大學(xué),2008.
[3]CHOU C H,CHEN C W.A perceptually optimized 3-D subband codec for video communication over wireless channels[J].IEEE Trans.Circuits and Systems for Video Technology,1996,6(2):143-156.
[4]YANG X K,LIN W,LU Z K,et al.Just noticeable distortion model and its applications in video coding[J].Signal Process:Image Commun ication,2005(20):662-680.
[5]JIA Y,LIN W,KASSIM A A.Estimating just-noticeable distortion for video[J].IEEE Trans.Circuits And Systems for Video Technology,2006,16(7):820-829.
[6]WEI Z,NGAN K N.Spatio-temporal just noticeable distortion profile for grey scale image/video in DCT domain[J].IEEE Trans.Circuits and Systems for Video Technology,2009,19(3):337-346.
[7]WANG Z,BOVIK A C,SHEIKH H R,et al.Image quality assessment:from error visibility to structural similarity[J].IEEE Trans.Image Prosess,2004,13(4):600-612.
[8]MAI Z Y,YANG C L,KUANG K Z,et al.A novel motion estimation method based on structural similarity for H.264 inter prediction[C]//Proc.2006 IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP 2006).Toulouse,F(xiàn)rance:IEEE Press,2006:913-916.
[9]YANG C,LEUNG R,PO L,et al.An SSIM-optimal H.264/AVC inter frame encoder[C]//Proc.ICIS.Shanghai:[s.n.],2009:291-295.
[10]HUANG Y,OU T,SU P,et al.Perceptual rate-distortion optimization using structural similarity index as quality metric[J].IEEE Trans.Circuits and Systems for Video Technology,2010(20):1614-1624.
[11]WANG S,MA S,GAO W.SSIM based perceptual distortion rate optimization coding[C]//Proc.VCIP .Huangshan:[s.n.],2010:1-10.
[12]OU T,HUANG Y,CHEN H.A perceptual-based approach to bit allocation for H.264 encoder[C]//Proc.VCIP.Huangshan:[s.n.],2010:7741.
[13]WANG S Q,REHMAN A,WANG Z,et al.SSIM-Inspired divisive normalization for perceptual video coding[C]//Proc.International Conference on Image Processing,2011.[S.l.]:IEEE Press,2011:1657-1660.
[14]MINOO K,NGUYEN T Q.Perceptual video coding with H.264[C]//Proc.39th Asilomar Conference on Signals,Systems,and Computers.Pacific Grove,CA:[s.n.],2005:741-745.
[15]CHEN J,ZHENG J,HE Y.Macroblock-level adaptive frequency weighting for perceptual video coding[J].IEEE Trans.Consumer Electronics,2007,53(2):775-781.
[16]CHEN M J,CHI M C,Hsu C T,et al.ROI video coding based on H.263+with robust skin-color detection technique[J].IEEE Trans.Consumer Electronics,2003,49(3):724-730.
[17]CHI M C,JHU J A,CHEN M J,et al.H.263+region-of-interest video coding with efficient skin-color extraction[C]//Proc.Consumer Electronics,2006.[S.l.]:IEEE Press,2006:381-382.
[18]WANG Minghui,ZHANG Tianruo,LIU Chen.Region-of-Interest based H.264 encoding parameter allocation for low power video communication[C]//Proc.Signal Processing & Its Applications.Kuala Lumpur:IEEE Press,2009:233-237.
[19]LIU Zhi,YAN Hongbo,SHEN Liquan,et al.A motion attention model based rate control algorithm for H.264/AVC[C]//Proc.Computer and Information Science.Shanghai:[s.n.],2009:568-573.
[20]LIU Yang,LI Zhengguo,SOH Y C .Region-of-Interest based resource allocation for conversational video vommunication of H.264/AVC[J].Circuits and Systems for Video,2008,18(1):134-139.
[21]CHIANG J C,HSIEH C S,CHANG G,et al.Region-of-interest based rate control scheme with flexible quality on demand[C]//Proc.Multimedia and Expo(ICME),2010.[S.l.]:IEEE Press,2010:238-242.
[22]ZHENG Yayu,F(xiàn)ENG Jie,MA Hanjie,et al.H.264 ROI coding based on visual perception[C]//Proc.Visual Information Engineering.Xi'an,China:[s.n.],2008:829-834.
[23]LEE S,PATTICHIS M S,BOVIK A C.Foveated video compression with optimal rate control[J].IEEE Trans.Image Process.,2001,10(7):977-992.
[24]ITTI L.Automatic foveation for video compression using a neurobiological model of visual attention[J].IEEE Trans.Image Proces.,2004,13(10):1304-1318.
[25]WANG Z,LU L,BOVIK A C.Foveation scalable video coding with automatic fixation selection[J].IEEE Trans.Image Process.,2003,12(2):243-254.
[26]CHEN Z,GUILLEMOT C.Perception-oriented video coding based on foveated JND Model[C]//Proc.Picture Coding Symposium,2009.Chicago:IEEE Press,2009:1-4.
[27]CHEN Z,GUILLEMOT C.Perceptually-Friendly H.264/AVC Video Coding[C]//Proc.Image Processing(ICIP),2009.Cairo:IEEE Press,2009:3417-3420.
[28]CHEN Z,GUILLEMOT C.Perceptually-friendly H.264/AVC video coding based on foveated just-noticeable-distortion model[J].IEEE Trans.Circuits and Systems for Video Technology,2010,20(6):806-819.
[29]TANG C W,CHEN C H,YU Y H,et al.Visual sensitivity guided bit allocation for video coding[J].IEEE Trans.Multimedia,2006,8(1):11-18.
[30]SUN C,WANG H J,KIM T H,et al.Perceptually adaptive Lagrange multiplier for rate-distortion optimization in H.264[C]//Proc.Future Generation Communication and Networking(FGCN 2007).Jeju:IEEE Press,2007:459-463.
[31]YANG X,LIN W,LU Z,et al.Rate control for videophone using local perceptual cues[J].IEEE Trans.Circuits System Video Technology,2005,15(4):496 –507.
[32]TANG C W.Spatiotemporal visual considerations for video coding[J].IEEE Trans.Multimedia,2007,9(2):231-238.
[33]WANG X,SU L,HUANG Q M,et al.Visual perception based lagrangian rate distortion optimization for video cxoding[C]//Proc.Image Processing(ICIP),2011.Brussels:IEEE Press,2011:1653-1656.
Overview of Perceptual Video Coding
ZHANG Qian,ZHANG Yuan,ZHAO Zhijun
(Information Engineering School,Communication University of China,Beijing 100024,China)
This paper reviews the methods of perceptual video coding.First,the physiological characteristics of HVS are introduced.Then,the development status of various methods of perceptual video coding is reviewed.Finally,future directions and challenges related to perceptual video coding are briefly discussed.
video coding;perception;HVS
TN919.81
A
【本文獻(xiàn)信息】張倩,張遠(yuǎn),趙志軍.視覺感知編碼方法綜述[J].電視技術(shù),2013,37(3).
國家自然科學(xué)基金項(xiàng)目(61001177)
張 倩(1988— ),女,碩士生,主研視頻編碼;
張 遠(yuǎn)(1973— ),女,教授,主研視頻處理與通信;
趙志軍(1970— ),女,副教授,主研數(shù)字電視技術(shù)。
責(zé)任編輯:魏雨博
2012-07-29