蘭 夢,張 遠(yuǎn)
(中國傳媒大學(xué)信息工程學(xué)院,北京 100024)
責(zé)任編輯:薛 京
多媒體通信業(yè)務(wù)的飛速發(fā)展為用戶帶來了更加豐富的操作體驗,但同時也給運營商帶來了一個難題,即如何提升用戶的業(yè)務(wù)體驗質(zhì)量。在多媒體通信過程中,對多媒體通信的傳輸和接收質(zhì)量進行實時評價和監(jiān)測可有助于端到端業(yè)務(wù)質(zhì)量的實時管理和控制。
對視頻通信業(yè)務(wù)質(zhì)量的評價可通過主觀和客觀兩個方面展開。客觀評價常用于系統(tǒng)的設(shè)計、調(diào)整和實時監(jiān)控,主觀評價作為實際效果的最終檢驗。根據(jù)對原始參考視頻的依賴程度,客觀評價可劃分為全參考客觀評測方法(Full Reference,F(xiàn)R)、縮減參考客觀評測方法(Reduced Reference,RR)和無參考客觀評測方法(No Reference,NR)[1]三類。其中無參考評測方法不需要參考原始視頻,因此在移動通信的終端接收質(zhì)量評價中更為適用。近年來,無參考視頻客觀質(zhì)量評價方法得到業(yè)界很大的關(guān)注,國際組織VQEG也將無參考和縮減參考質(zhì)量評估標(biāo)準(zhǔn)化作為未來幾年的工作目標(biāo)之一。
在視頻通信中,終端接收到的視頻質(zhì)量由包含信源端編碼器、網(wǎng)絡(luò)傳輸狀態(tài)和信道端解碼器等多方面因素決定。通常把視頻通信終端的質(zhì)量損傷分為兩類,即編碼器帶來的的壓縮損傷和傳輸過程中的傳輸損傷。視頻編碼器的有損壓縮造成的圖像損傷主要包括塊效應(yīng)和邊緣模糊等現(xiàn)象。在包含變換、基于運動補償?shù)念A(yù)測和熵編碼技術(shù)的混合視頻壓縮編碼框架中,通常以像素塊為單位進行DCT變換。各個變換系數(shù)塊采用單獨量化,量化時高頻信息的丟失使得相鄰塊之間的相關(guān)性減弱,從而造成類似“馬賽克”的塊效應(yīng)現(xiàn)象。邊緣模糊則是由于圖像高頻細(xì)節(jié)部分的丟失而造成的圖像降質(zhì)現(xiàn)象。視頻圖像壓縮損傷效果如圖1所示。
圖1 塊效應(yīng)、邊緣模糊效果圖
傳輸信道不佳會造成數(shù)據(jù)的丟失和延時等問題,由此帶來了視頻圖像的降質(zhì),具體表現(xiàn)為不規(guī)則塊現(xiàn)象和圖像扭曲。在混合視頻編碼框架中,空間預(yù)測編碼技術(shù)容易造成圖像幀內(nèi)空間方向上的錯誤積累,而幀間預(yù)測由于采用已解碼視頻幀的某些塊進行運動補償,所以會帶來時間方向上的錯誤累積[2]。不規(guī)則塊現(xiàn)象就是由于丟包錯誤累積而在空域表現(xiàn)出來的圖像幀局部位置不規(guī)則的塊型損傷。當(dāng)錯誤積累嚴(yán)重時,常常造成圖像的部分錯位及變形,從而引起視頻圖像扭曲。傳輸損傷效果如圖2所示。
圖2 傳輸損傷效果圖
無參考視頻質(zhì)量評價方法無需任何原始視頻圖像的信息,只通過對視頻碼流和受損的解碼視頻進行特征提取和分析,最終給出評價結(jié)果。全參考和縮減參考質(zhì)量評價方法可以或多或少地提供原始視頻和可以代表其視覺質(zhì)量的特征參數(shù),而無參考視頻質(zhì)量評價方法由于缺少原始信息,因此在算法的設(shè)計和實現(xiàn)上存在較大難度。根據(jù)可獲取碼流信息的層次,無參考視頻質(zhì)量評價方法可分為基于比特流級(No Reference-Bitstream,NR-B)、像素級(No Reference-Pixel,NR-P)以及基于兩者混合參數(shù)(No Reference-Hybrid Parameters,NR-HR)的方法?;诒忍亓骷壍姆椒ㄐ枰糠纸馕龌蛘咄耆馕鰝鬏斠曨l包,不僅提取包頭信息,也需要提取與媒體相關(guān)的載荷信息來進行客觀質(zhì)量評價;基于像素級方法采用解碼端視頻包解碼過程中的信息或者完全解碼后的像素信息作為輸入,可獲取的信息較多;混合參數(shù)法處理的是像素級和比特流級兩者的混合信息,由于輸入信息的增加而在一定程度上提高了評價的準(zhǔn)確性。
NR-B模型通過提取視頻比特流的相關(guān)信息來獲得視頻的相關(guān)特征參數(shù),考慮了視頻內(nèi)容構(gòu)成對于圖像質(zhì)量的影響[3]。與需要全解碼信息的視頻評價模型相比,基于比特流級的模型具有更低的計算復(fù)雜度,適合于那些需要實際信道監(jiān)控和對圖像質(zhì)量問題采取及時預(yù)警的應(yīng)用。目前ITU-T SG12正在開展針對非介入比特流層模型質(zhì)量評價的研究項目——P.1202,其前身即 P.NBAMS。其中 P.1202.1 和 P.1202.2 分別針對低分辨率和高分辨率的應(yīng)用[4]。
現(xiàn)在各方研究較多的是通過提取參數(shù)進行一種純客觀的擬合,比如將基于比特流級的分析評價模型用于預(yù)測視頻圖像的峰值信噪比(PSNR)和VQM(Video Quality Metric)。PSNR在衡量圖像的壓縮損傷時并不能很好地反映視頻圖像的主觀質(zhì)量。但文獻[5]的研究成果表明如果在通信過程中遭受的傳輸損傷大于壓縮損傷,則用PSNR就可以很好地擬合實際的主觀感受。文獻[6-8]就是基于上述理論基礎(chǔ),它們均只針對壓縮損傷估計PSNR分?jǐn)?shù),而壓縮損傷主要又是由于量化誤差所引起,因此這類模型一般提取量化系數(shù)、量化步長等參數(shù)進行建模。文獻[6]中,Knee提出了一種基于MPEG-2碼流的無參考評價方法PAR。它以宏塊為單位,利用系統(tǒng)比特數(shù)、量化器參數(shù)、DCT系數(shù)分布統(tǒng)計特性進行量化噪聲評估,進而對PSNR進行預(yù)測,但是其需要前期進行參數(shù)校準(zhǔn)實驗,操作比較復(fù)雜。文獻[7]將量化因子和變換系數(shù)作為線性加權(quán)建模,文獻[8]中依靠分析DCT系數(shù)的統(tǒng)計特性來估計PSNR量化噪聲,并利用拉普拉斯概率密度函數(shù)來建模DCT系數(shù)統(tǒng)計分布。除了估計PSNR,Y.Wang等人[9-10]同時考慮了視頻壓縮和丟包所帶來的質(zhì)量損失,從單個傳輸包中提取MeanQP,NAL_SIZE等多種參數(shù)并按照重要性高低進行篩選,建立線性模型預(yù)測VQM質(zhì)量分?jǐn)?shù)。實驗測試表明預(yù)測的VQM與實際測量的VQM具有較高的相關(guān)性。
除了純客觀擬合之外,另外一種方向是搭建模型進行與主觀的擬合。比如還可以將視頻質(zhì)量與人類的主觀視覺感知相擬合,可以從丟包的可視性入手,評價實際傳輸中受到的損傷??梢圆捎靡活悩?gòu)造分類樹的方法,其按照特定的一些分類條件將損傷圖像逐步劃分歸類。文獻[11]中研究了由網(wǎng)絡(luò)丟包引起的傳輸損傷的可視性。通過將連續(xù)丟失像條個數(shù)、像條類型、運動活躍度等指標(biāo)與先前確定的閾值進行比較,逐步劃分歸類,建立了關(guān)于丟包可視與不可視的分類樹型結(jié)構(gòu),并利用交叉驗證的方法進行了準(zhǔn)確率計算。另外,在文獻[12]中YAMAGISHI也曾提出過可以處理丟包損傷的NR-B方法,它只利用了諸如丟包率、時延、比特率、編解碼類型等網(wǎng)絡(luò)傳輸信息在用戶終端估計視頻質(zhì)量,這種方式更適合應(yīng)用于在背景內(nèi)容較少的視頻會議業(yè)務(wù)中。
相比之下,通過與之前單獨進行的主觀測試實驗結(jié)果進行對比,往往能得到更加明顯的結(jié)論。不同于一般的線性擬合算法,如果模型中涉及到的特征信息較多,參數(shù)信息之間的關(guān)系比較復(fù)雜,則它們之間的關(guān)系一般不能簡單地用某個線性函數(shù)來表示。M.Naccari等人[13-14]針對有損信道中的傳輸,根據(jù)編碼模式、運動矢量和預(yù)測殘差等信息提出NORM和W-NORM兩種無參考方法,分別作為全參考PSNR和SSIM的近似。然后分別同之前得到的主觀測試結(jié)果DMOS(Differential Mean Opinion Scores)進行非線性擬合,評價兩種方法的優(yōu)劣。另外,神經(jīng)網(wǎng)絡(luò)算法也常用于客觀質(zhì)量評價,例如在文獻[15-16]中作者采用了人工神經(jīng)網(wǎng)絡(luò)訓(xùn)練的方法將客觀評價結(jié)果與主觀測試分?jǐn)?shù)進行非線性擬合,提取某些特征信息進行三層前饋網(wǎng)絡(luò)訓(xùn)練,按照誤差逆?zhèn)鞑ニ惴ǎㄟ^不斷地修正權(quán)值來逐漸收斂。其中文獻[15]的改進之處在于它還利用了主成分分析的思想,從9種待選的特征參數(shù)中篩選出了具有代表性的5種特征。它們既能很好地反映視頻序列的時空域特性,同時也簡化了算法復(fù)雜度,但它們也都只構(gòu)建了關(guān)于壓縮損傷的評價模型,而忽略了傳輸損傷。
基于像素級模型利用接收端視頻解碼后的信號來進行質(zhì)量評價,由于該算法可以在接收端實現(xiàn)對視頻圖像質(zhì)量的直接評價,因此具有較廣闊的應(yīng)用前景。相應(yīng)的規(guī)范有 J.144、J.249、J.mm -noref和 J.vqhdtv 等。其中 J.144/J.249主要是針對有線電視應(yīng)用的視頻質(zhì)量評價規(guī)范。J.mm-noref描述了在多媒體環(huán)境中感知視頻圖像質(zhì)量的無參考具體方法。J.vqhdtv描述了關(guān)于HDTV的多媒體客觀感知視頻質(zhì)量的測量方法,包括全參考、縮減參考和無參考三個方面,如今這一項目已經(jīng)進入到新階段,命名為J.341和J.342,分別工作于全參考評價和縮減參考評價[17-18]。
基于像素域客觀質(zhì)量評價方法的研究思路是通過直接對受損視頻進行特征提取,分析各類圖像缺陷對觀看質(zhì)量的影響,給出最終的評價結(jié)果。針對不同視頻損傷類型的特征分析是進行質(zhì)量評價的基礎(chǔ),目前已經(jīng)開展了大量研究??紤]到在未受損圖像或者受損較小的圖像中,其邊緣像素信息應(yīng)該差異較小,而由傳輸帶來的視頻圖像中通常會出現(xiàn)邊緣像素值的跳變。例如,相鄰宏塊行的邊緣失配度可用來衡量傳輸過程中遭受的損傷程度。文獻[19]根據(jù)解碼后圖像中的塊邊緣損傷所造成的空間不連續(xù)性,得到丟包損傷的長度和強度測量。另外一種衡量邊緣損傷的特征是塊邊緣的梯度。文獻[20]中認(rèn)為如果塊周圍空間區(qū)域的內(nèi)容活動劇烈,則塊邊緣的梯度損傷可以被掩蔽。Badu利用塊邊緣的差異性,采用標(biāo)準(zhǔn)差的統(tǒng)計方法,并同時計算8×8塊的邊緣梯度,兩者結(jié)合起來衡量邊緣損傷可視塊的數(shù)目。Yuen[21]提出的方法也是基于塊邊界梯度的計算,并根據(jù)人類視覺系統(tǒng)(HVS)對每一區(qū)域的權(quán)重函數(shù)進行調(diào)節(jié)。
如何利用圖像的結(jié)構(gòu)信息,對各種損傷進行加權(quán)以獲取最終的質(zhì)量度量是當(dāng)前主要的研究方向。在進行多種損傷的加權(quán)度量時,可采用多元統(tǒng)計回歸、人工神經(jīng)網(wǎng)絡(luò)等多種分析方法。比如文獻[22]建立了失配塊數(shù)目與SSCQE主觀數(shù)據(jù)之間的訓(xùn)練模型,用以監(jiān)測數(shù)字廣播中的網(wǎng)絡(luò)傳輸狀況,其客觀分?jǐn)?shù)與主觀評價之間的擬合度較高。通常視頻序列中相鄰圖像之間都具有較大的相關(guān)性,有些近似靜止的圖像相鄰幀甚至保持不變。文獻[23]正是利用這一特性以相鄰圖像為參考圖像,提出了一種針對自然場景下的無參考客觀質(zhì)量評價方法。根據(jù)視頻內(nèi)容中不同的圖像構(gòu)成,通過比較相鄰幀相同區(qū)域之間的差異來評價質(zhì)量圖像空域損傷。
在實際研究中,為了盡可能提取更多信息進行預(yù)測,提高質(zhì)量評價準(zhǔn)確度,同時也為了降低模型復(fù)雜度,往往將上述兩種模型進行組合,即基于混合參數(shù)構(gòu)建模型。正在進行的相關(guān)研究項目是 ITU-T SG9的 J.bitvqm(IPTV),它描述了混合參數(shù)模型的評估方法,使用比特流數(shù)據(jù)和經(jīng)處理過的視頻圖像信息作為輸入進行客觀視頻質(zhì)量測量。與只利用像素級信息的評價模型相比,該方法可以從比特流數(shù)據(jù)中獲取諸如比特率、編解碼類型、幀率等額外信息,具有更好的評價性能[24]。
混合參數(shù)法通常將由視頻碼流和解碼圖像中抽取的客觀參數(shù)與主觀測試結(jié)果聯(lián)系起來進行回歸分析。文獻[25]通過評估圖像運動復(fù)雜度和宏塊誤差區(qū)域邊緣亮度的不連續(xù)性兩個指標(biāo)確定錯誤隱藏失效宏塊數(shù)目,并同MSE值進行非線性回歸擬合。測試結(jié)果表明,文獻[25]中顯示的錯誤隱藏失效的宏塊數(shù)目與實驗實際的均方誤差之間有0.95的相關(guān)度,表明此方法具有較高的準(zhǔn)確性。Davis等在文獻[26]里建立了只關(guān)于兩個參數(shù)的混合模型,即取自比特流的序列平均量化參數(shù)AvQp和取自像素域的平均對比度CS,前者用以估計主觀質(zhì)量,后者用以表征視頻內(nèi)容的錯誤掩蔽特性。通過與主觀測試結(jié)果MOS進行多項式回歸分析,發(fā)現(xiàn)包含兩個參數(shù)的多項式模型具有較高的準(zhǔn)確性,目前此套系統(tǒng)已經(jīng)成功應(yīng)用于IPTV的質(zhì)量監(jiān)控中。文獻[27-28]中通過建模計算出比五分制評分更加可靠的平均無故障時間值(Mean Time Between Failure,MTBF)。計算MTBF是一種有效反映主觀質(zhì)量的評價方法,在此之前要先對損傷視頻序列進行錯誤統(tǒng)計,測試過程中只需要測試者在視頻發(fā)生受損的地方做出標(biāo)記而不需要進行具體評分,因此避免了人為因素帶來的誤差。Suresh提出了一種處理比較靈活的AVQ方法,它會首先考慮比特流級信息是否可用,否則就只針對像素信息分析。接著根據(jù)邊緣時空域的分布,通過提取量化步長、DCT系數(shù)等參數(shù)構(gòu)建線性加權(quán)模型,用以反映壓縮損傷CA和傳輸損傷NA,并最終計算MTBF。除此之外,還可以通過建立模型來評估各類失真,例如文獻[29]利用比特流和像素域信息,提出基于能量的評估運動補償邊緣損傷的方法。相比于其他評估塊效應(yīng)和模糊度的測量方法,文獻[29]具有更好的性能。
隨著通信產(chǎn)業(yè)的飛速發(fā)展,視頻業(yè)務(wù)質(zhì)量評價已經(jīng)成為廣大用戶和運營商的迫切需求。本文從如何提高用戶的視頻通信業(yè)務(wù)體驗(QoE)角度出發(fā),分析了客觀反映視頻通信質(zhì)量的測量方法??紤]到移動通信的自身特點,一般很難得到原始視頻信號,因此采用無參考視頻質(zhì)量評價方法,從像素級、比特流級以及混合參數(shù)級三個方面分別考慮,列舉了現(xiàn)在比較流行的分析方法,闡釋了通過信息提取從而構(gòu)建評價模型的過程,它和主觀評價方法具有較高的相關(guān)性,可以應(yīng)用于手機等移動終端。無參考視頻質(zhì)量評估方法在現(xiàn)實應(yīng)用中具有十分必要的意義,一方面它可以在很多無法獲取原始參考視頻的情況下進行正常評價,如移動終端和成像系統(tǒng);另一方面,它可以應(yīng)用于對網(wǎng)絡(luò)視頻傳輸?shù)膶崟r監(jiān)控,達到及時反饋、調(diào)整從而提升用戶體驗的目的。
[1]WINKLER S,MOHANDAS P.The evolution of video quality measurement:from PSNR to hybrid metrics[J].IEEE Trans.Broadcasting,2008,54(3):660-668.
[2]姚繼先,張遠(yuǎn),朱雨涵.視頻通信中的丟包損傷分析及客觀測量方法[J].電視技術(shù),2009,33(2):91-94.
[3]楊付正,萬帥.網(wǎng)絡(luò)視頻質(zhì)量評估技術(shù)研究現(xiàn)狀及發(fā)展動向[J].通信學(xué)報,2012(4):107-114.
[4]ITU-T Study Group 12.Development of parametric models and tools for audiovisual and multimedia quality measurement purposes[EB/OL].[2013-08-01].http://www.itu.int/itut/studygroups/com12/sg12-q14.html.
[5]REIBMAN A R,VAISHMPAYAN V A,SERMADEVI Y.Quality monitoring of video over a packet network[J].IEEE Trans.Multimedia,2004,6(2):327-334.
[6]KNEE M.A single-ended picture quality measure for MPEG-2[EB/OL].[2013-08-01].http://svc003.wic723dp.server-web.com/whitepapers/SnellWilcoxQualityMeasure_101.pdf.
[7]SUGIMOTO O,NAITO S.No reference metric of video coding quality based on parametric analysis of video bitstream[C]//Proc.IEEE International Conference on Image Processing.Brussels:IEEE Press,2011:3333-3336.
[8]TURAGA D,CHEN Y W,CAVIEDES J.No reference PSNR estimation for compressed pictures[C]//Proc.International Conference on Image Processing.[S.l.]:IEEE Press,2002:61-64.
[9]WANG Y,LIN T L,COSMAN P.Network-based model for video packet importance considering both compression artifacts and packet losses[C]//Proc.IEEE Global Telecommunications Conference.Miami,F(xiàn)L:IEEE Press,2010:1-5.
[10]WANG Y,LIN T L,COSMAN P.Packet dropping for H.264 videos considering both coding and packet-loss artifacts[C]//Proc.2010 IEEE 18th International Packet Video Workshop.Hong Kong:IEEE Press,2010:165-175.
[11]STAELENS N,VERCAMMEN N,DHONDT Y,et al.Viqid:a no-reference bit stream-based visual quality impairment detector[C]//Proc.IEEE Workshop on Quality of Multimedia Experience.Trondheim,Norway:IEEE Press,2010:206-211.
[12]YAMAGISHI K,HAYASHI T.Opinion model using psychological factors for interactive multimodal services[J].IEICE Trans.Communication,2006(2):281-288.
[13]NACCARI M,TAGLIASACCHI M,TUBARO S.Subjective evaluation of a no-reference video quality monitoring algorithm for H.264/AVC video over a noisy channel[C]//Proc.International Conference on Image Processing.Cairo,Egypt:IEEE Press,2009:4373-4376.
[14]NACCARI M,TAGLIASACCHI M,TUBARO S.No-reference video quality monitoring for H.264/AVC coded video[J].IEEE Trans.Multimedia,2008,11(5):932-946.
[15]WANG C,JIANG X,MENG F,et al.Quality assessment for MPEG-2 video streams using a neural network model[C]//Proc.2011 IEEE 13th International Conference on Communication Technology.[S.l.]:IEEE Press,2011:868-872.
[16]CHOE J,LEE K,LEE C.No-reference video quality measurement using neural networks[C]//Proc.IEEE International Conference on Digital Signal Processing.[S.l.]:IEEE Press,2009:1-4.
[17]YAMAGISHI K,HAYASHI T.Parametric packet-layer model for monitoring video quality of IPTV services[C]//Proc.IEEE International Conference on Communications.[S.l.]:IEEE Press,2008:110-114.
[18]CHOI K,CHOI J K,HONG J H,et al.Comparison of video streaming quality measurement methodologies[C]//Proc.International Conference on Advanced Communication Technology.Gangwon-Do:IEEE Press,2008:993-996.
[19]RUI H,LI C,QIU S.Evaluation of packet loss impairment on streaming video[EB/OL].[2013-08-01].http://link.springer.com/article/10.1631/jzus.2006.AS0131#page-1.
[20]BABU R V,BOPARDIKAR A S,PERKIS A,et al.No-reference metrics for video streaming applications[EB/OL].[2013-08-01].http://www-devel.cs.ubc.ca/~ krasic/cpsc538a-2005/papers/pv 2004_Babu.pdf.
[21]WU H R,YUEN M.A generalized block-edge impairment metric for video coding[J].IEEE Signal Process Letters,1997,4(11):317-320.
[22]MONTARD N,BRETILLON P.Objective quality monitoring issues in digital broadcasting networks[J].IEEE Trans.Broadcasting,2005,51(3):269-275.
[23]YANG F,WAN S,CHANG Y,et al.A novel objective no-reference metric for digital video quality assessment[J].IEEE Signal Processing Letters,2005,12(10):685-688.
[24]朱雨涵,張遠(yuǎn),張昊,等.視頻通信業(yè)務(wù)質(zhì)量客觀評價方法綜述[J].電視技術(shù),2009,33(6):108-115.
[25]YAMADA T,MIYAMOTO Y,SERIZAWA M.No-reference video quality estimation based on error-concealment effectiveness[C],IEEE Packet Video.Lausanne,Switzerland//Proc.IEEE Press,2007:288-293.
[26]DAVIS A G,BAYART D,HANDS D S.Hybrid no-reference video quality prediction[C]//Proc.IEEE International Symposium on Broadband Multimedia Systems and Broadcasting. Bilbao, Spain:IEEE Press,2009:1-6.
[27]SURESH N.Mean time between visible artifacts in visual communications[EB/OL].[2013-08-01].https://smartech.gatech.edu/handle/1853/16238.
[28]SURESH N,JAYANT N,YANG O.AVQ:a zeroreference metric for automatic measurement of the quality of visual communications[EB/OL].[2013-08-01].http://enpub.fulton.asu.edu/resp/vpqm/vpqm2007/papers/393.pdf.
[29]LEONTARIS A,COSMAN P C,REIBMAN A R.Quality evaluation of motion-compensated edge artifacts in compressed video[J].IEEE Trans.Image Processing,2007,16(4):943-956.