周 正 馮偉東 葉 露 王俊曦 賀 易
(國(guó)網(wǎng)湖北省電力公司信息通信公司 湖北 430077)
近年來(lái),我國(guó)視頻會(huì)議系統(tǒng)的市場(chǎng)規(guī)模不斷擴(kuò)大,其應(yīng)用范圍也越來(lái)越廣。視頻會(huì)議系統(tǒng)有著眾多優(yōu)點(diǎn),這使之逐漸成為各行各業(yè)用于政策宣貫、經(jīng)營(yíng)管理、應(yīng)急指揮和演練培訓(xùn)的一類(lèi)極為重要的通信業(yè)務(wù)。視頻會(huì)議圖像質(zhì)量的好壞不僅直接決定了眾多生產(chǎn)、經(jīng)營(yíng)管理重大決策的學(xué)習(xí)、宣貫和執(zhí)行,也直接影響了視頻會(huì)議使用方的社會(huì)形象。
而視頻會(huì)議系統(tǒng)的圖像從模擬信號(hào),到標(biāo)清數(shù)字信號(hào),到高清乃至超分辨率信號(hào)[1],其質(zhì)量大多是通過(guò)使用者的視覺(jué)觀測(cè)[2]來(lái)進(jìn)行主觀界定的[3]。誠(chéng)然,主觀上的圖像無(wú)失真十分重要,然而這并不意味著經(jīng)過(guò)編解碼和通信傳輸后的視頻圖像就真的做到了對(duì)原始圖像的高保真,尤其對(duì)一些重要信息和細(xì)節(jié)數(shù)據(jù)的呈現(xiàn),其圖像質(zhì)量就顯得格外重要。此外,視頻會(huì)議系統(tǒng)的投資通常較大[4],其系統(tǒng)復(fù)雜性又導(dǎo)致日常運(yùn)維管理困難,如何保護(hù)用戶(hù)投資,提高視頻會(huì)議系統(tǒng)建設(shè)的合理性,降低運(yùn)維成本都成為會(huì)議電視系統(tǒng)管理部門(mén)極為關(guān)心的問(wèn)題。
本文將研究分析視頻會(huì)議圖像質(zhì)量的評(píng)價(jià)方法,力求為視頻會(huì)議系統(tǒng)建設(shè)提供科學(xué)的質(zhì)量鑒定方式,為視頻會(huì)議系統(tǒng)運(yùn)維提供便捷、有效的技術(shù)指導(dǎo);同時(shí),本文還將針對(duì)視頻會(huì)議常見(jiàn)的圖像質(zhì)量問(wèn)題,研究探討圖像去噪、補(bǔ)償和增強(qiáng)的各類(lèi)方法。
視頻由一幀幀圖像組成,目前,針對(duì)視頻圖像的評(píng)價(jià)主要有兩種形式:主觀評(píng)價(jià)和客觀評(píng)價(jià)[5]。主觀評(píng)價(jià)需要一定人員按照一定規(guī)則來(lái)進(jìn)行評(píng)分,該方法復(fù)雜、費(fèi)時(shí),且主觀性強(qiáng),并不適合視頻通信這類(lèi)實(shí)時(shí)性要求很高的應(yīng)用場(chǎng)景;客觀評(píng)價(jià)則是通過(guò)檢測(cè)儀器或軟件對(duì)圖像質(zhì)量進(jìn)行自動(dòng)化的分析,通常能夠給出較為量化的客觀評(píng)價(jià)指標(biāo)。根據(jù)有無(wú)原始視頻作為評(píng)價(jià)參考,可以將圖像的客觀評(píng)價(jià)劃分為三大類(lèi):全參考型(Full-Reference,F(xiàn)R),部分參考型(Reduce-Reference,RR)和無(wú)參考型(No-Reference,NR)[6]。
1997年,ITU-T和ITU-R的研究小組聯(lián)合成立了視頻質(zhì)量專(zhuān)家組(Video Quality Experts Group,VQEG),專(zhuān)門(mén)從事視頻圖像質(zhì)量評(píng)價(jià)的研究和相關(guān)標(biāo)準(zhǔn)的制定。在主觀評(píng)價(jià)方面,VQEG已經(jīng)制定了標(biāo)準(zhǔn):選擇一批非專(zhuān)家的受測(cè)者,在一個(gè)受控的環(huán)境中,連續(xù)觀看一系列的測(cè)試序列大約10~30分鐘,然后采用各種方法讓他們對(duì)視頻序列的質(zhì)量進(jìn)行評(píng)分,最后求得平均判分(Mean Opinion Score,MOS)值。常用的主觀評(píng)價(jià)方法有:雙刺激連續(xù)質(zhì)量分級(jí)法(Double-Stimulus Continuous Quality Scale,DSCQS),單刺激連續(xù)質(zhì)量評(píng)價(jià)法(Single-Stimulus Continuous Quality Evaluation,SSCQE),雙刺激損傷分級(jí)法(Double-Stimulus Impair)等[6]。在客觀評(píng)價(jià)方面,VQEG下設(shè)全參考 TV組(FR-TV Group)、部分參考/無(wú)參考 TV組(RRNR-TV Group)、多媒體組(MM Group)和高清晰電視組(HDTV Group)。其中,F(xiàn)R-TV組是四個(gè)小組中成立最早、研究最全、進(jìn)展最快的工作組,已經(jīng)推出了不同環(huán)境下視頻質(zhì)量客觀評(píng)價(jià)法的測(cè)試計(jì)劃。至于非全參考評(píng)價(jià)領(lǐng)域,國(guó)際國(guó)內(nèi)均處在制定評(píng)價(jià)流程、規(guī)范評(píng)價(jià)文件、優(yōu)化數(shù)據(jù)處理方式和征集評(píng)價(jià)算法模型的階段。
VQEG于2000年3月發(fā)布了第一階段全參考客觀質(zhì)量評(píng)價(jià)方法性能的測(cè)試報(bào)告,報(bào)告分別給出了所提交的10個(gè)全參考客觀質(zhì)量評(píng)價(jià)方法的性能分析(包括PSNR,峰值信噪比),其結(jié)論是:在所有測(cè)試方法中,其它方法的總體性能都沒(méi)有超過(guò)PSNR。
部分參考型評(píng)價(jià)不但沒(méi)有全參考型評(píng)價(jià)可以獲得較高的與主觀評(píng)價(jià)相關(guān)的 MOS值,而且還需要額外的帶寬來(lái)傳輸源的相關(guān)視頻參數(shù),所以研究的空間并不大,很多文獻(xiàn)將部分參考型歸入無(wú)參考型的方法中進(jìn)行研究。
由于影響視頻圖像質(zhì)量的因素一般包括失真和損傷:編碼技術(shù)帶來(lái)的失真(如方塊效應(yīng)、振鈴效應(yīng)、模糊、噪聲等)和傳輸網(wǎng)絡(luò)的數(shù)據(jù)丟包或者時(shí)延帶來(lái)的失真(如馬賽克、抖動(dòng)等)。因此,大部分無(wú)參考型圖像質(zhì)量客觀評(píng)價(jià)方法的核心思想是基于描述以上失真或損傷的某幾種特征參數(shù)信息,確定特征參數(shù)與客觀評(píng)分之間的函數(shù)。無(wú)參考型客觀評(píng)價(jià)的另一類(lèi)重要方法是基于神經(jīng)網(wǎng)絡(luò)(Random Neural Network,RNN)的實(shí)時(shí)視頻圖像質(zhì)量評(píng)價(jià),即通過(guò)研究影響視頻質(zhì)量的多方面因素(包括編碼參數(shù)、網(wǎng)絡(luò)參數(shù)等等),來(lái)建立一個(gè)完整的基于神經(jīng)網(wǎng)絡(luò)的評(píng)價(jià)模型,然后根據(jù)視頻圖像的幾種可得參數(shù)進(jìn)行分類(lèi)識(shí)別從而得到評(píng)價(jià)結(jié)果。盡管目前無(wú)參考型視頻圖像質(zhì)量的評(píng)價(jià)結(jié)果與主觀 MOS值的相關(guān)度普遍不高,但視頻會(huì)議召開(kāi)時(shí)本就很難獲得原始圖像作為質(zhì)量評(píng)價(jià)的參考,這使得無(wú)參考型評(píng)價(jià)方法反而具有更高的實(shí)用價(jià)值。本文將重點(diǎn)針對(duì)各種主流的評(píng)價(jià)方法進(jìn)行研究分析。
在視頻會(huì)議通信過(guò)程中,將視頻圖像傳輸?shù)浇邮斩?,要?jīng)過(guò)采集、傳輸、處理和記錄等過(guò)程,所有這些技術(shù)環(huán)節(jié)性能的優(yōu)劣都會(huì)影響到最終的視頻圖像質(zhì)量。本文認(rèn)為引起視頻圖像失真的主要因素可以歸結(jié)如下表1所示的幾個(gè)方面:
表1 視頻圖像質(zhì)量降質(zhì)要素分析
在視頻圖像質(zhì)量的主觀評(píng)價(jià)方法中,理論上說(shuō),受測(cè)者越多,觀測(cè)時(shí)間越長(zhǎng),得到的評(píng)價(jià)結(jié)果越準(zhǔn)確。而主觀評(píng)價(jià)的結(jié)果還要受到受控環(huán)境的影響,包括觀測(cè)距離、觀測(cè)環(huán)境、觀測(cè)序列的選擇、序列顯示時(shí)間間隔等。因此,主觀評(píng)價(jià)結(jié)果的隨機(jī)性較大。
在國(guó)際上,視頻圖像質(zhì)量主觀評(píng)價(jià)方法的計(jì)分方式有兩種:質(zhì)量等級(jí)度量和失真等級(jí)度量,其評(píng)價(jià)標(biāo)準(zhǔn)如表2所示:
表2 視頻圖像主觀質(zhì)量評(píng)價(jià)標(biāo)準(zhǔn)
由于視頻圖像信息的最終接受者是人,所以主要評(píng)價(jià)方法的結(jié)果盡管有很大隨意性,但同時(shí)也是最忠于人的主觀感受的,是最重要的評(píng)價(jià)方法之一。但這種評(píng)價(jià)方法要消耗大量人力,實(shí)現(xiàn)起來(lái)復(fù)雜、費(fèi)時(shí),代價(jià)較高,且穩(wěn)定性差,因此,并不適合于視頻會(huì)議這樣的實(shí)時(shí)應(yīng)用場(chǎng)合。
(1)全參考型評(píng)價(jià)
目前,應(yīng)用最廣泛且最簡(jiǎn)單的全參考視頻圖像質(zhì)量客觀評(píng)價(jià)方法是峰值信噪比(PSNR)和均方誤差(MSE)評(píng)估法。但在有些情況下,通過(guò)MSE和PSNR方法得到的視頻圖像質(zhì)量評(píng)價(jià)結(jié)果會(huì)與人們的主觀感覺(jué)不一致。
為了使評(píng)價(jià)結(jié)果與人的主觀感受具有較高的一致性,在全參考評(píng)價(jià)方法中引入人類(lèi)視覺(jué)系統(tǒng)(HVS)特性是非常有必要的?;贖VS特性的圖像/視頻圖像質(zhì)量評(píng)價(jià)方法的基本框架如下圖1所示。其處理步驟主要包括預(yù)處理、CSF濾波、通道分解、誤差量化和誤差合并等。
圖1 基于HVS特性評(píng)價(jià)方法的一般框架
(2)部分參考型評(píng)價(jià)
部分參考視頻圖像質(zhì)量評(píng)價(jià)是指分別在原始參考視頻和失真視頻上施加某種運(yùn)算,各自得到少量的統(tǒng)計(jì)數(shù)據(jù),然后把提取出的統(tǒng)計(jì)數(shù)據(jù)按常規(guī)的回歸法分析,來(lái)判定失真視頻的失真程度。部分參考視頻圖像質(zhì)量評(píng)價(jià)的一般模型如下圖2所示:
圖2 部分參考視頻圖像質(zhì)量評(píng)價(jià)模型
有研究將基于數(shù)字水印的方法歸類(lèi)為無(wú)參考型視頻圖像質(zhì)量評(píng)價(jià)方法。雖然這種方法沒(méi)有利用原始視頻,但它利用了數(shù)字水印作為參考,所以也可將其視為部分參考型評(píng)價(jià)方法。它的基本思想是在視頻序列的發(fā)送端隱性嵌入數(shù)字水印,視頻經(jīng)過(guò)網(wǎng)絡(luò)傳輸后,在接收端提取水印并進(jìn)行分析,根據(jù)恢復(fù)的水印相對(duì)原始水印的失真情況來(lái)評(píng)估視頻圖像質(zhì)量的失真程度。這種評(píng)價(jià)方法的原理框圖如下圖3所示:
圖3 基于數(shù)字水印的視頻圖像質(zhì)量評(píng)價(jià)框圖
部分參考質(zhì)量評(píng)價(jià)無(wú)法獲得較高的與主觀評(píng)價(jià)相關(guān)的MOS值,還需要額外的帶寬來(lái)傳輸類(lèi)似數(shù)字水印的參數(shù),其研究空間并不大。
(2)無(wú)參考型評(píng)價(jià)
全參考視頻圖像質(zhì)量評(píng)價(jià)方法必須借助原始無(wú)失真的視頻作為參考,但在視頻會(huì)議的應(yīng)用場(chǎng)合下,由于網(wǎng)絡(luò)帶寬限制和實(shí)時(shí)性要求,難以獲得參考視頻。沒(méi)有原始視頻作為參考,也沒(méi)有額外信息而直接進(jìn)行評(píng)估的方法就是無(wú)參考(即盲估計(jì))視頻圖像質(zhì)量評(píng)價(jià)法。這種方法要比全參考和部分參考的評(píng)價(jià)困難得多。目前,無(wú)參考型視頻圖像質(zhì)量評(píng)價(jià)方法都是在對(duì)特定的某種失真類(lèi)型或某些特定的視頻場(chǎng)景下所研究出來(lái)的評(píng)價(jià)方法。
其中,主流的無(wú)參考視頻圖像質(zhì)量評(píng)價(jià)是一種基于神經(jīng)網(wǎng)絡(luò)的評(píng)估方法。這種方法的實(shí)現(xiàn)過(guò)程是把編碼參數(shù)(如比特率、編碼類(lèi)型和幀率等)和網(wǎng)絡(luò)參數(shù)(如延時(shí)、丟包率、抖動(dòng))等作為神經(jīng)網(wǎng)絡(luò)的輸入節(jié)點(diǎn),并對(duì)典型的樣本點(diǎn)進(jìn)行訓(xùn)練,把評(píng)分結(jié)果作為神經(jīng)網(wǎng)絡(luò)的輸出節(jié)點(diǎn)。知道測(cè)試視頻的網(wǎng)絡(luò)參數(shù)和編碼參數(shù)之后,就可以經(jīng)過(guò)這些訓(xùn)練后的神經(jīng)網(wǎng)絡(luò)對(duì)視頻進(jìn)行質(zhì)量評(píng)分。其評(píng)價(jià)模型如下圖4所示:
圖4 基于神經(jīng)網(wǎng)絡(luò)的無(wú)參考視頻圖像質(zhì)量評(píng)價(jià)模型
由于這種方法需要經(jīng)過(guò)對(duì)大量樣本的訓(xùn)練,所以評(píng)估的準(zhǔn)確性極大地受到訓(xùn)練樣本的影響。基于樣本訓(xùn)練形成的各類(lèi)無(wú)參考評(píng)價(jià)方法和神經(jīng)網(wǎng)絡(luò)法較為相似,均較為適用于某些特定場(chǎng)景下的視頻會(huì)議圖像質(zhì)量評(píng)價(jià)。
另一類(lèi)無(wú)參考視頻圖像質(zhì)量評(píng)價(jià)方法主要是利用圖像的失真特性,通過(guò)對(duì)失真特性的分析可以在一定程度上對(duì)視頻圖像的質(zhì)量進(jìn)行評(píng)估。這類(lèi)方法的評(píng)價(jià)模型如下圖5示意:
圖5 基于失真特征的視頻圖像質(zhì)量評(píng)價(jià)模型
由于目前人類(lèi)對(duì)HVS特性的了解有限,很難研究出一種對(duì)所有失真圖像或視頻都適用的無(wú)參考型質(zhì)量評(píng)價(jià)方法,現(xiàn)有的無(wú)參考型質(zhì)量評(píng)價(jià)方法只能是針對(duì)某一類(lèi)視頻圖像的應(yīng)用進(jìn)行設(shè)計(jì)。盡管無(wú)參考型視頻圖像質(zhì)量評(píng)價(jià)結(jié)果與主觀 MOS值的相關(guān)度普遍不高,但其較高的實(shí)用價(jià)值,必將成為視頻圖像質(zhì)量評(píng)價(jià)領(lǐng)域的研究熱點(diǎn)。
前文提到一種基于視頻圖像失真特性的無(wú)參考質(zhì)量評(píng)價(jià)方法,那么,基于該評(píng)價(jià)方法就能很輕易的找出視頻圖像的質(zhì)量問(wèn)題所在。針對(duì)失真特性質(zhì)量評(píng)價(jià)找到的問(wèn)題,對(duì)輸出視頻進(jìn)行后處理,就能實(shí)現(xiàn)解碼視頻圖像的質(zhì)量增強(qiáng)。常見(jiàn)的方法是對(duì)失真圖像進(jìn)行降噪處理,主要有三種算法:
(1)像素域降噪算法和轉(zhuǎn)換域降噪算法。像素域降噪算法是直接對(duì)像素值進(jìn)行操作,這種方法計(jì)算量小,效果較好;轉(zhuǎn)換域降噪算法的將視頻圖像的像素值轉(zhuǎn)換到另一個(gè)域,然后再進(jìn)行降噪,效果比像素域降噪好,但計(jì)算量較大,滿足不了視頻會(huì)議的實(shí)時(shí)性要求。
(2)濾波器降噪法。主要可分為時(shí)域二維濾波和空時(shí)三維濾波。三維濾波利用像素在相鄰幀中空間鄰域內(nèi)所有像素間的相關(guān)性;二維濾波只利用了圖像序列在時(shí)間維度上的相關(guān)性,因此,三維濾波在降噪方面比二維濾波更具優(yōu)勢(shì)。
(3)運(yùn)動(dòng)估計(jì)濾波降噪法。可分為基于運(yùn)動(dòng)估計(jì)和運(yùn)動(dòng)自適應(yīng)的濾波方法。視頻圖像序列中的運(yùn)動(dòng)使得各幀相同空間位置處的相關(guān)性隨時(shí)間而改變。運(yùn)動(dòng)估計(jì)降噪方法則直接利用運(yùn)動(dòng)估計(jì)過(guò)程找到當(dāng)前像素在參考幀中的對(duì)應(yīng)像素,然后再進(jìn)行對(duì)應(yīng)的補(bǔ)償。
盡管這些圖像降噪算法的計(jì)算復(fù)雜度較高,但視頻會(huì)議圖像的后處理是可選擇性的,在條件滿足的情況下,對(duì)輸出圖像進(jìn)行質(zhì)量增強(qiáng),能夠帶來(lái)更良好的視覺(jué)感受。
視頻圖像增強(qiáng)技術(shù)的另一個(gè)重要分支是對(duì)比度增強(qiáng)。人眼能夠根據(jù)周?chē)庹諚l件自適應(yīng)的調(diào)整接收動(dòng)態(tài)范圍,并且比所有視頻采集設(shè)備的調(diào)整范圍都要大得多。因此,由于照明條件問(wèn)題可能引起的視頻采集圖像失真問(wèn)題,往往能夠通過(guò)增強(qiáng)圖像的對(duì)比度來(lái)予以補(bǔ)償。這種技術(shù)在視頻圖像的增強(qiáng)方式中較為常見(jiàn),本文不再贅述。
視頻會(huì)議系統(tǒng)為我國(guó)成千上萬(wàn)個(gè)用戶(hù)提供著交互式的視頻、圖像和文字信息,極大地方便著人們的溝通交流。本文針對(duì)視頻會(huì)議圖像這一用戶(hù)體驗(yàn)中最關(guān)鍵和核心的環(huán)節(jié)展開(kāi)研究,通過(guò)大量視頻圖像質(zhì)量評(píng)價(jià)方法的分析比較,為主、客觀綜合評(píng)估視頻會(huì)議圖像質(zhì)量提供了多種適用選擇,并在此基礎(chǔ)上,探討了一些視頻圖像的增強(qiáng)方法。
上述視頻會(huì)議圖像質(zhì)量評(píng)價(jià)和增強(qiáng)的方法不僅能夠用于指導(dǎo)會(huì)議電視系統(tǒng)建設(shè),也能用于提高會(huì)議電視系統(tǒng)的運(yùn)維管理效率。但視頻會(huì)議的圖像呈現(xiàn)質(zhì)量還取決于視頻會(huì)場(chǎng)。會(huì)場(chǎng)的結(jié)構(gòu)布局,所使用的視頻設(shè)備,會(huì)場(chǎng)的燈光及色彩,裝飾材料的選用,背景的設(shè)計(jì)等對(duì)視頻圖像質(zhì)量的影響同樣很大。只有通過(guò)視頻會(huì)議設(shè)備、視頻會(huì)議質(zhì)量評(píng)價(jià)與增強(qiáng)手段和視頻會(huì)場(chǎng)環(huán)境之間的良好配合,才能帶給與會(huì)人員更高質(zhì)量的視頻感受。
[1]仲元昌等.視頻會(huì)議系統(tǒng)關(guān)鍵技術(shù)及應(yīng)用研究[J].電視技術(shù),2010.6.
[2]王楠楠,李桂苓.符合人眼視覺(jué)特性的視頻質(zhì)量評(píng)價(jià)模型[J].中國(guó)圖象圖形學(xué)報(bào):A,2001,16(6): 523-527.
[3]樊稚洋.淺談視頻會(huì)議系統(tǒng)的質(zhì)量評(píng)價(jià)方法[J].電視技術(shù),2010.3.
[4]YD/T 5033-2005,會(huì)議電視系統(tǒng)工程驗(yàn)收規(guī)范[S].2005.
[5]王新岱,楊付正.視頻質(zhì)量的主客觀評(píng)估方法研究,電視技術(shù),2003,(8),81-84.
[6]曾凱.無(wú)參考型自然圖像質(zhì)量評(píng)價(jià)算法研究.西安電子科技大學(xué)碩士學(xué)位論文,2009,14(10),2165- 2171.