中文文本屏幕內(nèi)容圖像通用視頻編碼標(biāo)準(zhǔn)編碼感知失真研究

2024-04-10 07:49:24楊楷芳晁學(xué)敏蒙琴琴公衍超

西安交通大學(xué)學(xué)報(bào) 2024年4期

楊楷芳,晁學(xué)敏,蒙琴琴,公衍超

(1. 陜西師范大學(xué)計(jì)算機(jī)科學(xué)學(xué)院,710119,西安; 2. 現(xiàn)代教學(xué)技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室,710062,西安; 3. 陜西省教學(xué)信息技術(shù)工程實(shí)驗(yàn)室,710119,西安; 4. 西安郵電大學(xué)通信與信息工程學(xué)院,710121,西安)

隨著多媒體技術(shù)和云技術(shù)的快速發(fā)展,屏幕內(nèi)容圖像被廣泛應(yīng)用于遠(yuǎn)程會(huì)議、屏幕共享、在線教育等領(lǐng)域[1]。屏幕內(nèi)容圖像是由計(jì)算機(jī)或其他電子設(shè)備生成或渲染的圖像,通常包含文字、圖形、圖表、圖標(biāo)、動(dòng)畫等內(nèi)容[2]。在當(dāng)前公開的屏幕內(nèi)容圖像數(shù)據(jù)庫中,文字區(qū)域面積占比超過40%[1]。主要包含文字內(nèi)容的屏幕內(nèi)容圖像又被稱為文本類屏幕內(nèi)容圖像(text screen content image, TSCI)。相比于圖形、圖表、圖標(biāo)、自然場景等內(nèi)容,文字作為與人類先驗(yàn)知識(shí)密切相關(guān)的符號(hào),所攜帶的語義對圖像信息的準(zhǔn)確感知有重要影響。文獻(xiàn)[1, 3]研究表明,人眼對文字內(nèi)容的質(zhì)量感知更加敏感。所以,TSCI的感知質(zhì)量顯著影響遠(yuǎn)程會(huì)議、在線教育等視頻應(yīng)用中用戶的感知體驗(yàn),是決定這些視頻通信系統(tǒng)有效運(yùn)行的關(guān)鍵因素之一。

在遠(yuǎn)程會(huì)議、在線教育等通信系統(tǒng)中,TSCI需要經(jīng)過采集、編碼、傳輸、存儲(chǔ)、顯示、分析等操作[4]。編碼的目的是用更少的編碼碼率獲得更高質(zhì)量的重建TSCI。編碼通常是有損的,這不可避免地在重建TSCI中引入失真,顯著影響TSCI的感知質(zhì)量。當(dāng)前一些研究已經(jīng)關(guān)注了TSCI的感知質(zhì)量。文獻(xiàn)[3]通過分析主觀實(shí)驗(yàn)感知質(zhì)量分?jǐn)?shù)的統(tǒng)計(jì)特征發(fā)現(xiàn)文字區(qū)域的感知質(zhì)量與圖像總體感知質(zhì)量的相關(guān)性更強(qiáng),且文字的清晰度和完整性是人眼評價(jià)文本感知質(zhì)量的重要依據(jù)。然后,采用銳度相似度和亮度相似度作為文字清晰度和完整性的測度,并提出有效的TSCI質(zhì)量評價(jià)方法。文獻(xiàn)[5]指出文字區(qū)域含有豐富的高對比度邊界信息,這些信息與文本內(nèi)容的準(zhǔn)確表達(dá)密切相關(guān),而小波變換可以提供多尺度的邊界信息。因此,文獻(xiàn)[5]將文本圖像從像素域變換到小波域,并基于小波系數(shù)的幅值、方差、熵等信息提出了有效的TSCI質(zhì)量評價(jià)方法。與文獻(xiàn)[5]類似,文獻(xiàn)[2, 6-7]也關(guān)注到了文字邊界信息對TSCI感知質(zhì)量的重要影響,并分別提出了適用于編碼失真的質(zhì)量評價(jià)方法。不同的是,文獻(xiàn)[2]提取的是文字邊界對比度、邊界寬度和邊界方向特征,文獻(xiàn)[6]提取的是文字邊界的梯度和寬度特征,而文獻(xiàn)[7]提取的是基于Gabor濾波器的時(shí)空Gabor特征張量模型(spatiotemporal Gabor feature tensor-based model,SGFTM)特征。文獻(xiàn)[8]考慮屏幕內(nèi)容圖像中的文本形狀規(guī)則且包含大量細(xì)線條和銳利筆畫,因此提出利用像素的標(biāo)準(zhǔn)差分布特征衡量文本區(qū)域感知質(zhì)量。面向由JPEG、JPEG2000標(biāo)準(zhǔn)壓縮的圖像,文獻(xiàn)[9-11]分別提出了有效的質(zhì)量評價(jià)方法。文獻(xiàn)[9]采用梯度信息表征文字區(qū)域的結(jié)構(gòu)特征,并進(jìn)一步根據(jù)原始圖像和失真圖像的結(jié)構(gòu)特征相似度得到文字區(qū)域的質(zhì)量。文獻(xiàn)[10]通過分析文本區(qū)域和圖像區(qū)域標(biāo)準(zhǔn)差分布的差異,提出一種考慮局部標(biāo)準(zhǔn)差分布特征的質(zhì)量評價(jià)方法。文獻(xiàn)[11]則基于人眼對文本區(qū)域的先驗(yàn)知識(shí),提出了考慮文本區(qū)域感知重要性的質(zhì)量評價(jià)方法。但是當(dāng)前研究還存在以下明顯問題:

(1)都是面向的英文TSCI,未考慮中文TSCI。漢字是中華文化傳承和信息傳播的重要載體,是中文文本的符號(hào)系統(tǒng)。漢字作為一類由特定筆畫構(gòu)成的表意文字,也是目前世界上還在使用的人數(shù)最多的象形文字,其筆畫特征是影響漢字語義信息表達(dá)的重要因素[12-13]。英文作為一類表音文字,其源于拉丁字母,單個(gè)字母本身沒有含義,字母的特定組合形成單詞后才能表達(dá)語義[14]。因此,中英文文字系統(tǒng)的先天差別決定了中文TSCI和英文TSCI對應(yīng)的編碼失真特性也會(huì)存在明顯不同,需要針對中文TSCI的編碼感知特性進(jìn)行針對性研究。

(2)都是面向早期的編碼標(biāo)準(zhǔn),未考慮最新的通用視頻編碼標(biāo)準(zhǔn)(versatile video coding, VVC)標(biāo)準(zhǔn)。現(xiàn)有研究[2, 3, 5-11]中已經(jīng)關(guān)注的編碼標(biāo)準(zhǔn)包括1992年發(fā)布的JPEG標(biāo)準(zhǔn)、2000年發(fā)布的JPEG2000標(biāo)準(zhǔn)、2003年發(fā)布的H.264/AVC標(biāo)準(zhǔn)、2013年發(fā)布的HEVC標(biāo)準(zhǔn)和2017年發(fā)布的HEVC-SCC標(biāo)準(zhǔn)。JPEG、JPEG2000、H.264/AVC、HEVC標(biāo)準(zhǔn)在設(shè)計(jì)時(shí)并未考慮屏幕內(nèi)容圖像的典型特性,所以針對屏幕內(nèi)容圖像的編碼效率較低[15-16]。為了提升屏幕內(nèi)容圖像的編碼效率,第一個(gè)面向屏幕內(nèi)容圖像/視頻的編碼標(biāo)準(zhǔn),即HEVC-SCC標(biāo)準(zhǔn),應(yīng)運(yùn)而生。近幾年隨著屏幕內(nèi)容視頻朝高清化、多維度等方向快速發(fā)展,HEVC-SCC標(biāo)準(zhǔn)的編碼效率已經(jīng)很難滿足實(shí)際需求。相應(yīng)地,ITU-T和ISO/IEC聯(lián)合制定并發(fā)布了最新的通用視頻編碼(versatile video coding, VVC)標(biāo)準(zhǔn)[17]。相比于之前的標(biāo)準(zhǔn),VVC采用了大量先進(jìn)的編碼技術(shù),例如改進(jìn)的調(diào)色板模式、幀內(nèi)塊拷貝、塊差分脈沖編碼調(diào)制等。新的技術(shù)大幅提高了VVC編碼屏幕內(nèi)容視頻的效率,同時(shí)也顯著改變了屏幕內(nèi)容圖像的編碼失真類型和感知表現(xiàn)。但是,當(dāng)前針對TSCI的VVC編碼感知失真研究還是空白。

本文首次聚焦中文TSCI的VVC編碼感知失真研究,并首次構(gòu)建中文文本屏幕內(nèi)容圖像數(shù)據(jù)庫(Chinese text screen content image dataset, CT-SCID)。進(jìn)一步地,結(jié)合圖像主觀觀測實(shí)驗(yàn)和VVC混合編碼框架原理,探索分析VVC引起的TSCI感知失真類型及其發(fā)展路徑,理論分析及實(shí)驗(yàn)驗(yàn)證影響感知失真程度的因素,并總結(jié)當(dāng)前代表性的圖像質(zhì)量評價(jià)方法在評價(jià)這些感知失真時(shí)的性能表現(xiàn)。

1 中文文本屏幕內(nèi)容圖像數(shù)據(jù)庫

1.1 數(shù)據(jù)庫構(gòu)建

目前,涉及TSCI編碼感知質(zhì)量評估的數(shù)據(jù)庫包括SIQAD[3]、SCID[2]、QACS[5]、SCVD[7]、CSCVQ[8]、SCD[18]。涉及的編碼失真包括由JPEG、JPEG2000、H.264/AVC、HEVC和HEVC-SCC標(biāo)準(zhǔn)產(chǎn)生的失真。這些數(shù)據(jù)庫還存在以下明顯問題:①包含的TSCI絕大多數(shù)為英文TSCI,中文TSCI只有極少的幾幅,且未對中文漢字的失真特性做針對性的分析總結(jié);②未考慮VVC標(biāo)準(zhǔn),數(shù)據(jù)庫中沒有包含VVC編碼的失真圖像。所以,為了便于后續(xù)針對中文TSCI 開展VVC編碼感知失真的研究,需要首先建立中文TSCI數(shù)據(jù)庫。

在充分調(diào)研已有數(shù)據(jù)庫指標(biāo)及TSCI典型應(yīng)用場景的基礎(chǔ)上,本文構(gòu)建了中文文本屏幕內(nèi)容圖像數(shù)據(jù)庫(Chinese text screen content image dataset, CT-SCID),如圖1所示。CT-SCID共包括55幅原始圖像,涉及遠(yuǎn)程會(huì)議、在線教育、屏幕共享、網(wǎng)頁瀏覽等典型的TSCI應(yīng)用場景,包含各類辦公軟件、學(xué)術(shù)文獻(xiàn)、代碼編輯、網(wǎng)頁、新聞、廣告、游戲等豐富內(nèi)容。數(shù)據(jù)庫還考慮了文本對比度、字體大小、字體類型等因素。文本對比度的范圍為 [139,5 115],字體大小的范圍為 [327,3 509],范圍能夠覆蓋大部分實(shí)際場景。字體大小和文本對比度衡量測度的定義請分別參見第3.1節(jié)和第3.2節(jié)中相關(guān)內(nèi)容。字體類型考慮了宋體、楷體、微軟雅黑、黑體等主流字體。原始圖像的空間分辨率為1 920×1 080,這是當(dāng)前TSCI典型應(yīng)用場景中硬件終端廣泛支持的空間分辨率之一。圖像顏色空間為YCbCr 4∶4∶4,比特深度為8。

圖像作為由像素構(gòu)成的二維矩陣,其空域細(xì)節(jié)信息的多少也是衡量圖像特性的一個(gè)重要因素[19]。ITU-R BT.1788標(biāo)準(zhǔn)定義了空域感知信息(spatial perceptual information, SI)[19]衡量圖像的空域細(xì)節(jié)信息。為了適應(yīng)TSCI紋理邊緣較尖銳,甚至包含單像素邊界的特點(diǎn),本文計(jì)算SI時(shí)采用的是Canny算子,且計(jì)算的是二值圖像的標(biāo)準(zhǔn)差。SI越大表明圖像包含的空域細(xì)節(jié)信息越多,圖像越復(fù)雜。圖2給出了CT-SCID數(shù)據(jù)庫中55幅原始圖像的SI?？梢钥闯?圖中的數(shù)據(jù)點(diǎn)可以涵蓋SI較大的范圍,表明原始圖像對應(yīng)的空域細(xì)節(jié)信息分布較廣泛,能夠覆蓋大部分實(shí)際場景。

圖2 CT-SCID中原始圖像的SIFig.2 SI of the original images in CT-SCID

采用VVC官方推薦的測試模型VTM16.2[20]編碼原始圖像獲得對應(yīng)的失真圖像。VVC仍然沿用傳統(tǒng)的基于預(yù)測變換量化熵編碼的混合編碼框架[17, 21], 但是在每個(gè)編碼模塊中都采用了更加先進(jìn)的技術(shù)以提高視頻編碼的效率。例如,在預(yù)測模塊中,VVC采用了更靈活的編碼單元塊劃分和更豐富的幀內(nèi)幀間預(yù)測方向。在熵編碼模塊中,VVC采用了更靈活更高效的上下文模型。但是,預(yù)測、變換、熵編碼中的技術(shù)在原理上都是無損的,而量化才是引起視頻編碼失真的根本原因[4,21]。一方面,VVC采用多對一的量化映射機(jī)制,在減少變換系數(shù)取值空間的同時(shí)會(huì)顯著降低視頻細(xì)節(jié)信息的表達(dá)能力,導(dǎo)致視頻清晰度降低,視頻內(nèi)容變模糊,引入編碼失真。另一方面,考慮人類視覺系統(tǒng)對于視頻細(xì)節(jié)信息感知不敏感,VVC進(jìn)一步采用了量化矩陣技術(shù),對高頻系數(shù)使用更大的量化步長(quantization step, QS),這易導(dǎo)致高頻信息的丟失,從而使得視頻內(nèi)容進(jìn)一步變模糊,引入編碼失真。綜上可知,相比于其他編碼策略或技術(shù),量化中的QS是影響編碼失真的最重要因素[21]。當(dāng)前代表性的屏幕內(nèi)容圖像數(shù)據(jù)庫[3, 5, 8, 18]也都是考慮調(diào)整QS來獲得不同編碼失真程度的圖像。本文也是沿用這一思路。

在實(shí)際應(yīng)用中,VTM是通過選擇量化參數(shù)(quantization parameter, QP)來控制QS的取值。VVC規(guī)定的QP取值范圍為-6(η-8)～63,其中η表示比特深度。韋伯-費(fèi)希納定理[22]表明,人眼不可能感知兩幅圖像間較小的質(zhì)量差別,只有當(dāng)質(zhì)量差別超過一定閾值時(shí)人眼才能感知得到。當(dāng)圖像采用較小QP編碼時(shí),重建圖像與原始圖像之間的差別較小,人眼很難感知得到。所以,較小QP編碼產(chǎn)生的重建圖像感知質(zhì)量都處于與原始圖像感知質(zhì)量一樣的最好等級。當(dāng)圖像采用較大QP編碼時(shí),重建圖像已經(jīng)非常模糊,很難提取有用信息,這時(shí)不同QP對應(yīng)的重建圖像對應(yīng)的感知質(zhì)量等級是一樣的,都處于最差等級。

基于以上人眼感知的先驗(yàn)知識(shí)可知,數(shù)據(jù)庫中沒有必要包含較小或較大QP對應(yīng)的失真圖像,因?yàn)樗鼈兊母兄д娴燃壥谴_定的,且增加失真圖像也會(huì)顯著提高后續(xù)圖像主觀觀測實(shí)驗(yàn)的成本。所以,本文考慮的QP范圍為 32～60,采用VTM16.2編碼原始圖像獲得每一個(gè)QP對應(yīng)的失真圖像。其他主要編碼參數(shù)使用配置文件encoder_intra_vtm.cfg中的默認(rèn)配置,檔次為main_10_444_still picture。最終得到的CT-SCID共包含1 595幅失真圖像。

1.2 失真圖像主觀觀測實(shí)驗(yàn)

本節(jié)設(shè)計(jì)失真圖像主觀觀測實(shí)驗(yàn)以獲得失真圖像的感知質(zhì)量等級。主觀觀測實(shí)驗(yàn)涉及的關(guān)鍵因素和流程均嚴(yán)格按照ITU-R BT.500-13標(biāo)準(zhǔn)[23]中的規(guī)定執(zhí)行。具體地,實(shí)驗(yàn)共包括30名測試者,其中男性17名、女性13名,年齡在20～40歲之間。所有測試者都沒有圖像質(zhì)量評價(jià)領(lǐng)域的研究經(jīng)驗(yàn),且經(jīng)過檢測均具有正常的視力。采用side-by-side方式,將原始圖像和對應(yīng)的失真圖像同時(shí)顯示給測試者,測試者依據(jù)平均意見分?jǐn)?shù)(mean opinion score,MOS)五級量表給對應(yīng)的失真圖像質(zhì)量評級。MOS五級量表是ITU-R BT.500-13標(biāo)準(zhǔn)推薦的且被廣泛使用的圖像感知質(zhì)量評級測度,其將圖像的感知質(zhì)量劃分為5個(gè)等級,并用1～5分表示,分?jǐn)?shù)越高表示圖像的感知質(zhì)量越好。在實(shí)驗(yàn)開始前,會(huì)首先向測試者說明實(shí)驗(yàn)流程和注意事項(xiàng)。在實(shí)驗(yàn)過程中,當(dāng)測試者持續(xù)觀測時(shí)間達(dá)到20 min時(shí),強(qiáng)制讓測試者休息5 min,以避免視覺疲勞。

通過以上過程可獲得每一位測試者給每一幅失真圖像打的感知質(zhì)量分?jǐn)?shù)。但是,受個(gè)體差異性等因素的影響,這些數(shù)據(jù)中可能會(huì)存在一些異常值。本文應(yīng)用3σ準(zhǔn)則[24]篩選并剔除異常值。n幅失真圖像感知質(zhì)量分?jǐn)?shù)的均值μn和標(biāo)準(zhǔn)差σn為

(1)

(2)

式中:Sm,n表示第m位測試者對第n幅失真圖像打的感知質(zhì)量分?jǐn)?shù);α表示測試者數(shù)量。當(dāng)某位測試者對應(yīng)的感知質(zhì)量分?jǐn)?shù)處于(μn-3σn,μn+3σn)之外時(shí),則認(rèn)為其為異常點(diǎn)并將剔除。然后,計(jì)算剩余測試者對應(yīng)的感知質(zhì)量分?jǐn)?shù)均值,此均值即為第n幅失真圖像對應(yīng)的MOS。

圖3為CT-SCID中所有失真圖像對應(yīng)的MOS?？梢钥闯?CT-SCID數(shù)據(jù)庫中失真圖像的感知質(zhì)量等級范圍足夠廣,可用于后續(xù)中文TSCI的感知失真研究。

圖3 CT-SCID中失真圖像的MOS分布Fig.3 MOS distribution of distorted images in CT-SCID

2 中文TSCI VVC編碼感知失真類型

漢字作為由特定類型筆畫構(gòu)成的象形文字,其筆畫信息對漢字語義的感知具有決定性作用。筆畫信息屬于圖像的高頻信息。包含VVC在內(nèi)的傳統(tǒng)基于混合編碼框架的編碼技術(shù)考慮人眼對自然圖像高頻信息不敏感,通常會(huì)使用壓縮高頻信息的方式實(shí)現(xiàn)數(shù)據(jù)壓縮。但是,漢字筆畫信息的變化卻會(huì)對TSCI感知質(zhì)量產(chǎn)生重要影響。本文研究發(fā)現(xiàn),中文TSCI在經(jīng)過VVC編碼時(shí),隨著QP的增加,其對應(yīng)重建圖像中漢字的筆畫會(huì)發(fā)生多種類型變化,對應(yīng)產(chǎn)生多種類型的感知失真。本節(jié)將說明這些感知失真類型及其發(fā)展路徑。

2.1 感知失真類型分析

2.1.1 筆畫模糊

模糊是圖像編碼導(dǎo)致的一種常見失真。自然圖像和屏幕內(nèi)容圖像經(jīng)過有損編碼后都會(huì)出現(xiàn)模糊,但是具體的失真感知形式會(huì)有不同。圖4以“WebPage02”圖像中的區(qū)域?yàn)槔?展示漢字對應(yīng)的筆畫模糊失真。圖4(a)、(b)分別為原始圖像和QP為49時(shí)編碼得到的失真圖像,并將其中的“雙”字放大展示?？梢钥闯?原始圖像中的“雙”字筆畫邊界比較清晰,易識(shí)別其表示的語義,而失真圖像中的“雙”字筆畫邊界已經(jīng)不分明,筆畫相對模糊,出現(xiàn)了模糊失真。筆畫模糊會(huì)增加漢字語義識(shí)別的難度。

(a)原始圖像

2.1.2 筆畫丟失

除了筆畫模糊外,TSCI中的漢字還會(huì)出現(xiàn)筆畫丟失失真。圖5以“PDF01”圖像中的區(qū)域?yàn)槔?展示了漢字對應(yīng)的筆畫丟失失真。圖5(a)、(b)分別為原始圖像和QP為46時(shí)編碼得到的失真圖像,并將其中的“借”字放大展示。易看出,原始圖像中的“借”字筆畫清晰且筆畫結(jié)構(gòu)完整,而失真圖像中的“借”字雖然筆畫較清晰,但第9、10筆順對應(yīng)的兩個(gè)“橫”缺失了。筆畫丟失顯著影響原漢字語義的準(zhǔn)確感知,影響中文TSCI的感知質(zhì)量。

(a)原始圖像

2.1.3 筆畫增加

與筆畫丟失對應(yīng),TSCI中的漢字也會(huì)出現(xiàn)筆畫增加失真。圖6以“PPT01”圖像中的區(qū)域?yàn)槔?展示了漢字對應(yīng)的筆畫增加失真。圖6(a)、(b)分別為原始圖像和QP為48時(shí)編碼得到的失真圖像,并將其中的“情”字放大展示。易看出原始圖像中的“情”字筆畫清晰且筆畫結(jié)構(gòu)完整,而失真圖像中的“情”字雖然筆畫清晰,但其第9筆順 “橫折鉤”變?yōu)榱恕皺M折橫”,導(dǎo)致“情”字的下半部分“月”變成了“目”。筆畫增加也影響原漢字語義的準(zhǔn)確感知,影響中文TSCI的感知質(zhì)量。

(a)原始圖像

2.1.4 字符轉(zhuǎn)換

前面提到的失真類型,即筆畫模糊、筆畫丟失、筆畫增加,通常會(huì)影響漢字語義的識(shí)別難度,其導(dǎo)致的最嚴(yán)重情況是人眼難以識(shí)別漢字。但是,本節(jié)涉及的第4種失真,即字符轉(zhuǎn)換,則會(huì)導(dǎo)致漢字語義的錯(cuò)誤識(shí)別,對中文TSCI的感知質(zhì)量產(chǎn)生嚴(yán)重影響。

當(dāng)原始TSCI中的漢字經(jīng)過編碼后,漢字的筆畫發(fā)生了變化,使得變化后的字符轉(zhuǎn)換為了與原始漢字不同的其他漢字,本文將此種特殊失真類型定義為字符轉(zhuǎn)換。圖7以“PDF13”圖像中的區(qū)域?yàn)槔?展示了字符轉(zhuǎn)換失真。圖7(a)、(b)分別為原始圖像和QP為45時(shí)編碼得到的失真圖像,并將相應(yīng)的漢字放大展示。原始圖像中的“間”字筆畫清晰且筆畫結(jié)構(gòu)完整,但其在失真圖像中則轉(zhuǎn)換為了“問”字,且“問”字的筆畫也相對清晰?？梢哉J(rèn)為,字符轉(zhuǎn)換是漢字筆畫在增加或減少過程中出現(xiàn)的一種特殊情況,即增加或減少筆畫后的符號(hào)與漢字字庫中除原始漢字之外的某一個(gè)漢字的筆畫結(jié)構(gòu)趨近相同。區(qū)別于前3種失真類型,字符轉(zhuǎn)換傳遞給人眼虛假語義信息,欺騙人眼對于漢字語義的感知,嚴(yán)重影響中文TSCI的感知質(zhì)量。

(a)原始圖像

2.2 感知失真類型變化

原始中文TSCI在使用VTM編碼時(shí),隨著QP增大,失真圖像中漢字的筆畫出現(xiàn)各種變化,從而產(chǎn)生前述的各種失真類型。為了便于分析這些失真類型的發(fā)展路徑,將原始圖像中的漢字定義為原始漢字字符(original Chinese character,OCC),將其對應(yīng)在失真圖像中的漢字定義為失真漢字字符(distorted Chinese character,DCC)。表1直觀地展示了中文TSCI VVC編碼感知失真類型隨QP增大的發(fā)展路徑。圖8給出了兩個(gè)漢字形象的代表性示例。下面結(jié)合表1、圖8進(jìn)行說明。

表1 感知失真類型隨QP增大的發(fā)展路徑Table 1 Perceptual distortion type development path with increasing QP

圖8 “WebPage03”圖像中的“前”和“這”感知失真類型發(fā)展路徑Fig.8 Perceptual distortion types development path on “前” and “這” in “WebPage03” image

第1階段:筆畫感知無變化。當(dāng)QP較小時(shí),圖像高頻信息損失較少。通過韋伯-費(fèi)希納定理可知,人眼很難感知到筆畫信息的微小變化,主觀上可認(rèn)為DCC和OCC是一樣的。

第2階段:筆畫模糊,筆畫丟失,筆畫增加,字符轉(zhuǎn)換。當(dāng)編碼QP繼續(xù)增大到一定程度時(shí),其引起的筆畫變化已經(jīng)達(dá)到人眼感知的閾值。此時(shí),DCC對應(yīng)產(chǎn)生筆畫模糊、筆畫丟失、筆畫增加、字符轉(zhuǎn)換等失真。在本階段存在兩個(gè)重要感知現(xiàn)象:①定義第1個(gè)感知現(xiàn)象為空域耦合失真效應(yīng),即任一QP對應(yīng)的某一個(gè)DCC有可能呈現(xiàn)出一種失真類型,也有可能同時(shí)呈現(xiàn)出多種失真類型;②定義第2個(gè)感知現(xiàn)象為時(shí)域耦合失真效應(yīng),即隨著QP增大,任一DCC可能會(huì)出現(xiàn)筆畫模糊、筆畫丟失、筆畫增加、字符轉(zhuǎn)換中的任意幾個(gè)失真類型,而不是所有的失真類型都會(huì)出現(xiàn)。以上兩個(gè)感知現(xiàn)象見圖8。

第3階段:字符模糊。當(dāng)編碼QP繼續(xù)增加時(shí),圖像高頻信息損失嚴(yán)重,DCC的筆畫信息嚴(yán)重模糊。

第4階段:字符消失。當(dāng)QP取值很大時(shí),圖像高頻信息幾乎全部損失,DCC對應(yīng)的區(qū)域已經(jīng)沒有任何筆畫信息。字符模糊和字符消失可以認(rèn)為是筆畫模糊的極端情況。

下面以圖8為例直觀地說明感知失真的變化路徑。對于“WebPage03”圖像中的“前”和“這”兩個(gè)字,當(dāng)QP較小(為40)時(shí),DCC對應(yīng)著第一個(gè)階段,即筆畫無變化階段。隨著QP增大,“前”和“這”對應(yīng)的DCC先后進(jìn)入第二個(gè)階段。QP為46時(shí),“這”對應(yīng)的DCC同時(shí)出現(xiàn)了筆畫模糊和字符轉(zhuǎn)換兩種失真,此即空域耦合失真效應(yīng)?！扒啊睂?yīng)的DCC先后出現(xiàn)了筆畫丟失、筆畫增加和筆畫模糊,未出現(xiàn)字符轉(zhuǎn)換失真,此即時(shí)域耦合失真效應(yīng)。當(dāng)QP繼續(xù)增大到很大時(shí),“前”和“這”對應(yīng)的DCC先后進(jìn)入字符模糊和字符消失階段。

3 中文文本屏幕內(nèi)容圖像VVC編碼感知失真影響因素

前一節(jié)已經(jīng)說明了中文TSCI VVC編碼失真類型及其隨著QP增大的變化趨勢。從信號(hào)處理的角度看,中文TSCI編碼過程可以抽象為信源—技術(shù)—信宿的信號(hào)處理一般模型。中文TSCI是原始信源,其以像素域形式表達(dá)圖像中的信息。編碼器是信息處理技術(shù),通過預(yù)測、變換、量化和熵編碼等子技術(shù)達(dá)到數(shù)據(jù)壓縮的目的。編碼后的碼流是信宿端接收和存儲(chǔ)的數(shù)據(jù),以壓縮域形式表示圖像中的信息。結(jié)合以上分析易得出以下結(jié)論:①在實(shí)際應(yīng)用中,中文TSCI的編碼感知失真通常在信宿端出現(xiàn);②信宿端出現(xiàn)的編碼感知失真肯定會(huì)同時(shí)受信源和編碼技術(shù)的顯著影響。VVC編碼技術(shù)對TSCI感知失真的影響主要體現(xiàn)為QP的影響,這部分在第1.1節(jié)和第2節(jié)已經(jīng)分析。本節(jié)將從信源的角度分析影響中文TSCI VVC編碼感知失真程度的重要因素。這些因素具體包括字體大小和文本對比度。

3.1 字體大小

字體大小是漢字的一個(gè)重要屬性。定義中文TSCI的字體大小P為

(3)

式中:wc、hc分別表示圖像中第c個(gè)字符的寬度和高度;β表示圖像中字符的數(shù)量。在計(jì)算P之前采用投影分割法對圖像中漢字進(jìn)行分割[25],從而得到每個(gè)字符。

圖9(a)～(c)分別給出了P=578,401,245時(shí)對應(yīng)的3幅原始中文TSCI。對3幅圖像使用VTM16.2編碼,QP設(shè)置為49。得到的重建失真圖像分別如圖9(d)～(f)所示。原始圖像及失真圖像對應(yīng)的SI數(shù)據(jù)也給出,以客觀反映圖像的紋理復(fù)雜度。由圖9易知,字體大小顯著影響中文TSCI 編碼重建圖像的感知質(zhì)量,且字體越小圖像的感知質(zhì)量等級越低。VVC標(biāo)準(zhǔn)采用基于預(yù)測、變換、量化和熵編碼的混合編碼框架。原始圖像首先經(jīng)過幀內(nèi)預(yù)測技術(shù)去除圖像中的空域冗余。幀內(nèi)預(yù)測后的殘差值是后續(xù)變換量化的輸入。變換在去除一部分空域冗余的同時(shí)也使得能量更加集中。變換后的變換系數(shù)經(jīng)過量化模塊完成多對一的映射,顯著減小了信息的取值區(qū)間。量化后的量化系數(shù)再經(jīng)過熵編碼,進(jìn)一步去除熵冗余,最終達(dá)到數(shù)據(jù)壓縮的目的。

(a)原始圖像, P=578, SI為0.363

理論上,幀內(nèi)預(yù)測技術(shù)是無損的,且單獨(dú)使用該技術(shù)無法實(shí)現(xiàn)數(shù)據(jù)壓縮,但是其對于提升后續(xù)變換、量化和熵編碼等模塊的效率至關(guān)重要。通常,圖像紋理越復(fù)雜,臨近像素間的相關(guān)性就越弱,幀內(nèi)預(yù)測技術(shù)找到的最優(yōu)預(yù)測值與當(dāng)前編碼像素之間的差別就越大,即預(yù)測殘差就越大。如圖9(a)～(c)所示,圖像中的字體越小,即單位面積上的筆畫越密,圖像的紋理就越復(fù)雜,其對應(yīng)的SI也就越大。所以,字體越小的圖像對應(yīng)的預(yù)測殘差值也就更大。圖10給出了圖9(a)～(c) 3幅原始圖像在使用VTM16.2、QP為49編碼時(shí)得到的幀內(nèi)預(yù)測殘差值分布。可以看出,字體越小的圖像,預(yù)測殘差值接近0的像素越少,即其對應(yīng)的預(yù)測殘差值相對偏大。進(jìn)一步地,VVC采用的離散余弦變換、離散正弦變換等變換技術(shù),理論上是無損的,且滿足能量守恒定律。所以,基于量化多對一的映射原理,在同等QP下,更大的預(yù)測殘差易導(dǎo)致更大的量化失真。VVC采用的基于上下文的自適應(yīng)二進(jìn)制算術(shù)編碼(context-based adaptive binary arithmetic coding,CABAC)等熵編碼技術(shù)同樣是無損的,所以更大的量化失真最終會(huì)導(dǎo)致重建圖像中的失真更大,圖像質(zhì)量更差。

圖10 不同字體大小中文TSCI對應(yīng)的幀內(nèi)預(yù)測殘差分布Fig.10 Distribution of intra prediction residuals for Chinese TSCI with different font sizes

當(dāng)前,屏幕內(nèi)容圖像的質(zhì)量評價(jià)是一個(gè)研究熱點(diǎn),一些高水平方法被相繼提出。本文復(fù)現(xiàn)了一些代表性方法,包括ESIM[2]、GFM[26]、GSIM[27]、GSS[28]、MDOGS[29]、MSEA[30]。圖11為12幅測試圖像,是由VTM16.2在QP為49時(shí)編碼獲得地,P取值范圍為886～204。圖12為不同的質(zhì)量評價(jià)方法對12幅測試圖像的測試結(jié)果。除了上述6種針對屏幕內(nèi)容圖像設(shè)計(jì)的質(zhì)量評價(jià)方法,也給出了圖像質(zhì)量評價(jià)領(lǐng)域應(yīng)用最廣泛的兩個(gè)傳統(tǒng)質(zhì)量評價(jià)測度PSNR、SSIM[31]的評價(jià)結(jié)果和MOS值。特別地,GSS對應(yīng)的分?jǐn)?shù)越高說明圖像質(zhì)量越差,而其他方法對應(yīng)的分?jǐn)?shù)越高說明圖像質(zhì)量越好。

(a)P=886

對比圖11和12,可以從宏觀整體和微觀細(xì)節(jié)兩個(gè)角度得到以下結(jié)論:①在同樣QP下,隨著字體變小,失真圖像的質(zhì)量在宏觀整體上呈下降趨勢,圖12復(fù)現(xiàn)的所有評價(jià)方法都能描述這一整體變化趨勢;②對于字體接近的一些圖像,其圖像差別較少且不影響文本語義的感知,基于韋伯-費(fèi)希納定理和文本感知的特點(diǎn),大部分測試者認(rèn)為這些圖像的感知質(zhì)量是一樣的。但是,當(dāng)前大部分質(zhì)量評價(jià)方法很難準(zhǔn)確描述這一微觀差別。例如,圖11(a)、(b)兩幅圖像感知質(zhì)量明顯是一樣的,但圖12中大部分測度認(rèn)為這兩幅圖像的質(zhì)量是不一樣的,PNSN、GSS和 MSEA得出的分?jǐn)?shù)差別甚至還較大。綜上,本文認(rèn)為有必要針對中文TSCI的失真特性研究針對性的更加有效的質(zhì)量評價(jià)方法,且需要考慮字體大小的影響。

3.2 文本對比度

文本對比度是影響中文TSCI編碼失真程度的另一個(gè)重要屬性。應(yīng)用中文TSCI的文本對比度D為

(4)

式中:xi,j表示圖像第i行第j列的像素值;w、h分別表示圖像的寬度和高度。

圖13(a)～(c)分別展示了D=3 542,1 704,757時(shí)對應(yīng)的3幅原始中文TSCI。對這3幅圖像分別使用VTM16.2編碼,QP為46,得到如圖13(d)～(f)所示的重建失真圖像。結(jié)合圖像的SI數(shù)據(jù)可以看出,在對比度變化影響下,SI仍然可以有效衡量中文TSCI的紋理復(fù)雜度,例如圖13(a)～(c)包含的文字相同,其對應(yīng)的SI取值也一樣。由圖13易看出,文本對比度顯著影響中文TSCI 編碼重建圖像的感知質(zhì)量,且對比度越小圖像的感知質(zhì)量等級越低。

(a)原始圖像, D=3 542, SI為0.379

中文TSCI可以劃分為前景漢字和背景兩部分。并且,相比于自然圖像等其他內(nèi)容,漢字在內(nèi)容特性上具有以下顯著特點(diǎn):漢字筆畫的亮度或顏色相對單一,甚至經(jīng)常出現(xiàn)一種亮度或顏色的情況。所以,漢字筆畫區(qū)域上的像素相關(guān)性較強(qiáng)。使用幀內(nèi)預(yù)測編碼漢字筆畫上的像素時(shí),如果參考像素也來源于筆畫上的其他像素,則理論上其預(yù)測效率會(huì)較高,對應(yīng)的預(yù)測殘差值較小。但是,如圖13(a)～(c)所示,當(dāng)圖像文本對比度變小時(shí),文字筆畫像素取值與背景像素取值越接近。背景像素對筆畫像素最優(yōu)幀內(nèi)預(yù)測參考值選擇的干擾增大,筆畫像素對應(yīng)預(yù)測殘差值變大的概率也會(huì)增大。圖14給出了圖13(a)～(c)3幅原始圖像在使用VTM16.2、QP為46編碼時(shí)得到的幀內(nèi)預(yù)測殘差值分布。可以看出,文本對比度越小的圖像,預(yù)測殘差值接近0的像素越少,即其對應(yīng)的預(yù)測殘差值相對偏大。如第3.1節(jié)分析,在同等QP下,更大的預(yù)測殘差易導(dǎo)致更大的量化失真。更大的量化失真會(huì)導(dǎo)致重建圖像中失真更大,圖像質(zhì)量更差。

圖14 不同文本對比度中文TSCI對應(yīng)的幀內(nèi)預(yù)測殘差分布Fig.14 Distribution of intra prediction residuals for Chinese TSCI with different text contrasts

圖15為12幅測試圖像,由VTM16.2在QP為46時(shí)編碼獲得,D取值范圍為4 937～757,對應(yīng)現(xiàn)實(shí)中常見的文本對比度。圖16為不同的質(zhì)量評價(jià)方法對應(yīng)的測試圖像的質(zhì)量評價(jià)結(jié)果。

(a)D=4 937

(a)MOS

對比圖15和16可以得到以下結(jié)論:①在同樣QP下,隨著文本對比度變小,失真圖像的質(zhì)量在宏觀整體上呈下降趨勢,而圖16顯示,除PSNR外的所有方法都能描述這一整體變化趨勢。圖15(a)的感知質(zhì)量顯著好于圖15(l)的感知質(zhì)量,但是圖15(a)的PSNR值反而比圖15(l)的PSNR值低,這顯然是錯(cuò)誤的評價(jià)結(jié)果。②對于文本對比度引起的失真,人眼通常更關(guān)注文本的清晰度是否影響文本語義的準(zhǔn)確感知,而忽略背景對比度的變化[3]。當(dāng)前的大部分質(zhì)量評價(jià)方法很難準(zhǔn)確描述對比度變化對中文TSCI感知質(zhì)量的影響。例如,圖15(a)、(b)所示的兩幅圖像的差別很小,大部分測試者認(rèn)為其感知質(zhì)量是一樣的,但是圖16的所有質(zhì)量評價(jià)方法得出的這兩幅圖像對應(yīng)的質(zhì)量分?jǐn)?shù)顯示兩幅圖像的質(zhì)量均有差別,與人眼感知結(jié)果不符,甚至一些方法對應(yīng)的質(zhì)量分?jǐn)?shù)差別較大,例如GSIM、MSEA。綜上所述可知,有必要針對中文TSCI的失真特性研究針對性的更加有效的質(zhì)量評價(jià)方法,且需要考慮文本對比度的影響。

4 結(jié) 論

本文聚焦中文TSCT圖像的感知失真,基于構(gòu)建的中文文本屏幕內(nèi)容圖像數(shù)據(jù)庫,分析了中文TSCI的感知失真類型和發(fā)展路徑。在此基礎(chǔ)上,結(jié)合VVC混合編碼架構(gòu)原理對影響感知失真程度的因素進(jìn)行了分析,對比了中文TSCI在經(jīng)過VVC編碼后,當(dāng)前代表性的屏幕內(nèi)容圖像質(zhì)量評價(jià)方法的失真性能表現(xiàn),得到如下結(jié)論:

(1)作為由特殊筆畫構(gòu)成的象形文字,中文TSCI VVC編碼感知失真可以從筆畫變化的角度將失真類型進(jìn)行有效分類,并分為筆畫模糊、筆畫丟失、筆畫增加和字符變換4種類型;

(2)字符變換作為漢字編碼時(shí)出現(xiàn)的一類特殊的失真類型,會(huì)傳遞錯(cuò)誤的語義信息,欺騙人眼感知;

(3)隨著QP由小到大變化,中文TSCI VVC編碼感知失真類型的變化路徑分為4個(gè)階段,并在第二個(gè)階段呈現(xiàn)空域和時(shí)域耦合失真效應(yīng);

(4)字體大小和文本對比度是影響中文TSCI VVC編碼失真程度的關(guān)鍵因素,且字體越小或文本對比度越低,則對應(yīng)失真圖像的感知質(zhì)量等級越低;

(5)當(dāng)前提出的大部分質(zhì)量評價(jià)方法,能夠宏觀整體地描述中文TSCI VVC編碼失真圖像的質(zhì)量,但在微觀細(xì)節(jié)上還存在提升空間,需要針對中文TSCI VVC編碼失真圖像研究更加有效的質(zhì)量評價(jià)方法,且需要考慮字體大小與文本對比度的影響。

后續(xù)有價(jià)值的研究方向包括:適用于中文TSCI VVC編碼失真圖像的質(zhì)量評價(jià)方法,優(yōu)化中文TSCI 感知率失真性能的VVC高效編碼方法等。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

中文文本屏幕內(nèi)容圖像通用視頻編碼標(biāo)準(zhǔn)編碼感知失真研究

1 中文文本屏幕內(nèi)容圖像數(shù)據(jù)庫

1.1 數(shù)據(jù)庫構(gòu)建

1.2 失真圖像主觀觀測實(shí)驗(yàn)

2 中文TSCI VVC編碼感知失真類型

2.1 感知失真類型分析

2.2 感知失真類型變化

3 中文文本屏幕內(nèi)容圖像VVC編碼感知失真影響因素

3.1 字體大小

3.2 文本對比度

4 結(jié) 論