(北京工業(yè)大學(xué) 信號與信息處理研究室,北京 100124)
近年來,隨著網(wǎng)絡(luò)技術(shù)和多媒體技術(shù)的蓬勃發(fā)展,網(wǎng)絡(luò)視頻服務(wù)、可視電話、IPTV等應(yīng)用越來越普及。這些應(yīng)用系統(tǒng)需要對視頻質(zhì)量進(jìn)行實(shí)時(shí)監(jiān)控,以保證用戶的感受和體驗(yàn)。視頻質(zhì)量評價(jià)也由此成為各種網(wǎng)絡(luò)多媒體應(yīng)用系統(tǒng)中不可或缺的重要組成部分。
視頻質(zhì)量評價(jià)可以分為主觀質(zhì)量評價(jià)和客觀質(zhì)量評價(jià)兩種。主觀質(zhì)量評價(jià)需要受測者在特定環(huán)境下,觀察一系列的被測視頻,按照事先規(guī)定的評分標(biāo)準(zhǔn)進(jìn)行評分。主要的方法有:DSIS(Double Stimulus Impairment Scale)法,DSCQS (Double Stimulus Continuous Quality Scale)法,SSM(Single Stimulus Methods)法,SSCQE(Single Stimulus Continuous Quality Evaluation)法等。主觀質(zhì)量評價(jià)方法最常用的打分標(biāo)準(zhǔn)是平均意見分?jǐn)?shù)(Mean Opinion Score,MOS),如表1所示,其中“5”代表質(zhì)量最好,“1”代表質(zhì)量最差。主觀質(zhì)量評價(jià)是能最直接反映人對視頻質(zhì)量的感知程度的方法,但費(fèi)時(shí)費(fèi)力,且容易受到觀察者自身認(rèn)知水平的影響,因此不適于大規(guī)模應(yīng)用??陀^質(zhì)量評價(jià)一般通過數(shù)學(xué)計(jì)算的方法來對視頻序列進(jìn)行打分。根據(jù)對原始視頻的依賴程度不同,客觀質(zhì)量評價(jià)又可分為3類:全參考(Full-Reference,FR)、部分參考(Reduced-Reference,RR)和無參考(No-Reference,NR)。全參考模型需要原始視頻作為參考,常用的方法有峰值信噪比(Peak Signal Noise Ratio,PSNR)[1]、結(jié)構(gòu)相似性(Structural Similarity Index Measurement,SSIM)[2]、多尺度結(jié)構(gòu)相似性(Multi-Scale Structural Similarity Index Measurement,MS-SSIM)[3]等。部分參考模型需要利用原始視頻的部分信息,通常會提取原始視頻的某些特征值來評價(jià)視頻質(zhì)量。全參考和部分參考評價(jià)方法都需要額外的帶寬來傳輸原始視頻及相關(guān)特征信息,極大地影響了其實(shí)際應(yīng)用。相比之下,無參考方法不需要依賴任何與原始視頻相關(guān)的信息,直接根據(jù)待評價(jià)視頻的信息計(jì)算視頻質(zhì)量,具有更好的靈活性、適應(yīng)性和更廣泛的應(yīng)用價(jià)值,是目前主流的視頻質(zhì)量評價(jià)方法[4-6]。
無參考質(zhì)量評價(jià)方法可以進(jìn)一步分為基于像素域(Pixel-based)、基于碼流(Bitstream-based)以及混合方法等3種?;谙袼赜虻姆椒ɡ媒獯a后的視頻進(jìn)行質(zhì)量評價(jià);基于碼流的方法則不需解碼,直接從碼流中提取參數(shù)進(jìn)行質(zhì)量評價(jià);混合方法則是將二者結(jié)合起來進(jìn)行質(zhì)量評價(jià)。文獻(xiàn)[7]利用解碼像素的變換系數(shù)來估計(jì)量化水平,從而評估視頻質(zhì)量。文獻(xiàn)[8]從H.264壓縮碼流中提取QP、運(yùn)動(dòng)矢量在X、Y方向上的最大最小值、比特率等參數(shù),從像素域提取灰度共生矩陣的平方和、垂直灰度梯度、圖像熵、對比度等參數(shù),將這些參數(shù)結(jié)合起來形成特征參數(shù),使用線性回歸的方法建立特征參數(shù)與視頻感知質(zhì)量之間的關(guān)系模型。
總的來說,基于像素域和混合的方法都需要對視頻進(jìn)行解碼才能提取參數(shù),無法滿足對視頻質(zhì)量進(jìn)行實(shí)時(shí)評估的需求。因此,許多學(xué)者將研究重點(diǎn)放在了基于碼流的視頻質(zhì)量評價(jià)上。文獻(xiàn)[9]從H.264碼流中提取QP平均值、中值、標(biāo)準(zhǔn)差、I幀4×4塊所占比、跳過宏塊所占比等作為特征參數(shù),使用最小二乘回歸方法來計(jì)算各自權(quán)重,最終給出視頻質(zhì)量評價(jià)模型。文獻(xiàn)[10]從碼流中提取了QP、歸一化運(yùn)動(dòng)矢量、DCT系數(shù)、錯(cuò)誤隱藏距離等參數(shù)作為特征參數(shù),來評估H.264視頻的編碼失真,使用數(shù)學(xué)擬合的方法建立視頻質(zhì)量評價(jià)模型。
根據(jù)人眼視覺系統(tǒng)的掩蔽效應(yīng),人類對不同內(nèi)容的視頻具有不同的敏感程度。視頻的紋理和運(yùn)動(dòng)特性也是影響視頻感知質(zhì)量的重要因素。文獻(xiàn)[11]使用了像素域的特征信息,例如空間信息(Spatial Information,SI)和時(shí)間感知信息(Temporal Information,TI),并結(jié)合其他視頻參數(shù),通過數(shù)據(jù)擬合之后得出客觀分?jǐn)?shù)計(jì)算公式。文獻(xiàn)[12]的研究工作表明,量化參數(shù)QP是影響視頻失真的最主要因素,而視頻內(nèi)容,例如紋理豐富程度則次之。文獻(xiàn)[13]提出一種基于時(shí)間特征的比特流層模型,將運(yùn)動(dòng)的特征參數(shù)以及比特率用于質(zhì)量評估,但尚未考慮利用視頻的空間特性。文獻(xiàn)[14]從碼流中提取DCT系數(shù)來描述視頻的紋理豐富程度,同時(shí)考慮幀類型、丟包率等作為特征參數(shù),進(jìn)行視頻質(zhì)量評價(jià),但并未充分考慮利用視頻的運(yùn)動(dòng)劇烈程度。文獻(xiàn)[15]考慮了視頻的內(nèi)容特征,提高了質(zhì)量評估模型的精度。
本文提出了一種基于內(nèi)容的無參考視頻質(zhì)量評價(jià)模型,用于評估H.264碼流對應(yīng)的質(zhì)量,其流程圖如圖1所示。本文模型使用量化參數(shù)QP以及表征視頻內(nèi)容的參數(shù):小尺寸預(yù)測塊所占比例SPM_Ratio、I幀中平均每個(gè)4×4塊所包含ICT非零個(gè)數(shù)Ave_Coef、運(yùn)動(dòng)矢量信息后綴平均長度Ave_Mvlen及其方差MV_var,作為特征參數(shù),并使用BP神經(jīng)網(wǎng)絡(luò)方法建立其與主觀分?jǐn)?shù)MOS之間的映射模型,用于對H.264碼流的質(zhì)量進(jìn)行預(yù)測。
圖1 視頻質(zhì)量評價(jià)流程圖
人眼對于不同內(nèi)容的視頻具有不同的主觀感受,在進(jìn)行視頻質(zhì)量評價(jià)時(shí)要充分考慮到視頻內(nèi)容的具體特性。本文針對H.264的編碼結(jié)構(gòu),從H.264壓縮碼流中提取相關(guān)參數(shù),并對其進(jìn)行統(tǒng)計(jì)分析,分別描述視頻的紋理豐富程度和運(yùn)動(dòng)劇烈程度。
H.264標(biāo)準(zhǔn)采用的是運(yùn)動(dòng)估計(jì)/補(bǔ)償+分塊變換的基本編碼框架,如圖2所示。
對于幀內(nèi)預(yù)測編碼,H.264提供了9種4×4預(yù)測模式和4種16×16預(yù)測模式。研究結(jié)果表明,4×4預(yù)測模式往往對應(yīng)于視頻幀中的紋理豐富區(qū)域,而16×16則對應(yīng)于平坦區(qū)域。4×4塊數(shù)據(jù)經(jīng)過預(yù)測、ICT(Integer Cosine Transform)變換、量化后的數(shù)據(jù)表現(xiàn)出如下特性:非零ICT系數(shù)主要集中在低頻部分,包括了圖像的大部分內(nèi)容;而高頻ICT系數(shù)大部分是零。因此,ICT系數(shù)很大程度上反映了視頻的紋理豐富程度。
為此,本文定義了I幀小尺寸預(yù)測模式百分比SPM_Ratio和I幀中每個(gè)4×4塊包含的非零ICT個(gè)數(shù)平均值A(chǔ)ve_Coef來表征視頻的紋理程度。下面分別進(jìn)行介紹。
(1)SPM_Ratio。
本文提取了H.264碼流中的編碼模式參數(shù),然后定義了SPM_Ratio表征視頻的紋理程度。其定義公式如下:
圖2 H.264編解碼流程圖
(1)
幀內(nèi)4×4為小尺寸預(yù)測模式SPM(Small Prediction Mode)。式(1)中,小尺寸預(yù)測塊的個(gè)數(shù)總和記為SPM_total,所有預(yù)測塊的個(gè)數(shù)總和記為Prdmode_total。可以看出,SPM_Ratio表示的是小尺寸預(yù)測塊占所有預(yù)測塊總數(shù)的比例,可以用于表征視頻序列包含的細(xì)節(jié)豐富程度。SPM_Ratio的值越大,則視頻的紋理越豐富。
(2)Ave_Coef。
在H.264標(biāo)準(zhǔn)中,4×4塊數(shù)據(jù)經(jīng)過預(yù)測、變換、量化后,非零ICT系數(shù)主要集中在低頻部分,而高頻系數(shù)大部分是零。為此,本文定義了I幀中每個(gè)4×4塊包含的非零ICT個(gè)數(shù)平均值A(chǔ)ve_Coef來表示紋理的豐富程度,其定義公式如下:
(2)
式中,Coeff_Token為幀中所有4×4塊中非零ICT個(gè)數(shù)的總和;Inum為I幀的數(shù)目。從式(2)可以看出,Ave_Coef值越大,視頻序列所對應(yīng)的紋理越豐富。
運(yùn)動(dòng)矢量可以直接表示運(yùn)動(dòng)的劇烈程度。H.264標(biāo)準(zhǔn)采用的是預(yù)測方式對運(yùn)動(dòng)矢量進(jìn)行編碼,因此運(yùn)動(dòng)矢量殘差則可以在一定程度上表征視頻的運(yùn)動(dòng)劇烈程度。在H.264標(biāo)準(zhǔn)中,運(yùn)動(dòng)矢量殘差采用有符號指數(shù)哥倫布碼進(jìn)行編碼,運(yùn)動(dòng)矢量殘差v與待編碼code_num之間的映射關(guān)系如下:
(3)
式中,code_num指數(shù)哥倫布碼的碼字由3部分組成,可以表示為[Mzeros] [1] [INFO],其中Mzeros稱為前綴(prefix),對應(yīng)的INFO是一個(gè)M位的信息后綴(info_suffix)。每個(gè)碼字code_num的M和INFO值可以通過式(4)和式(5)計(jì)算得到:
M=floor(log2[code_num+1])
(4)
INFO=code_num+1-2M
(5)
可以看出,運(yùn)動(dòng)矢量殘差的幅值與碼字前綴的M值以及后綴的INFO值有著直接的關(guān)系,而運(yùn)動(dòng)矢量殘差的符號只由后綴INFO的最后一位比特決定。為此,本文定義運(yùn)動(dòng)矢量的信息后綴平均長度Ave_Mvlen來表征視頻的運(yùn)動(dòng)劇烈程度,計(jì)算公式如下:
(6)
式中,Infolen_tot表示信息后綴長度的總和;Infonum為運(yùn)動(dòng)矢量的總個(gè)數(shù)。Ave_Mvlen值越大,表明視頻的運(yùn)動(dòng)劇烈程度越高。
本文將量化參數(shù)QP與SPM_Ratio、Ave_Coef、Ave_Mvlen及其方差MV_var結(jié)合起來,作為輸入?yún)?shù),使用BP神經(jīng)網(wǎng)絡(luò)方法建立其與主觀分?jǐn)?shù)MOS之間的映射模型,用于對H.264碼流的質(zhì)量進(jìn)行預(yù)測。
下面介紹如何利用BP神經(jīng)網(wǎng)絡(luò)建立視頻質(zhì)量評價(jià)模型。
本文選取了常用的公開數(shù)據(jù)集中具有不同內(nèi)容的9個(gè)CIF格式的視頻序列用于主觀實(shí)驗(yàn),具體視頻序列如圖3所示。主觀實(shí)驗(yàn)采用DSIS(Double Stimulus Impairment Scale)的方法,由21個(gè)非專業(yè)人員嚴(yán)格按照ITU-T.P.910標(biāo)準(zhǔn)進(jìn)行打分,使用MOS來表示主觀感知質(zhì)量。
本文使用BP神經(jīng)網(wǎng)絡(luò)來建立H.264碼流的特征參數(shù)與MOS打分之間的關(guān)系模型。BP網(wǎng)絡(luò)是神經(jīng)網(wǎng)絡(luò)中使用最廣泛的一類,通常為3層前饋神經(jīng)網(wǎng)絡(luò):輸入層、隱含層和輸出層。層與層之間多采用全互連方式,同一層單元之間不存在相互連接。它能夠在事先不知道輸入輸出具體數(shù)學(xué)表達(dá)式的情況下,通過學(xué)習(xí)來建立這種復(fù)雜的映射關(guān)系模型。其網(wǎng)絡(luò)中參數(shù)的學(xué)習(xí)通常采用反向傳播的策略,借助最速梯度信息來尋找使網(wǎng)絡(luò)誤差最小化的參數(shù)組合。其中,各節(jié)點(diǎn)的傳遞函數(shù)f必須滿足處處可導(dǎo)的條件,最常用的為Sigmoid函數(shù)。
圖3 視頻測試序列
BP的誤差反向傳播思想可以概括為:利用輸出層的誤差來估計(jì)出其直接前導(dǎo)層的誤差,再借助于這個(gè)新的誤差來計(jì)算更前一層的誤差,按照這樣的方式逐層反傳下去便可以得到所有各層的誤差估計(jì)。
(7)
由于BP算法按照誤差函數(shù)E的負(fù)梯度修改權(quán)值,故權(quán)值的更新公式可表示為
(8)
式中,t為迭代次數(shù),對于輸出層神經(jīng)元權(quán)值的更新公式為
(9)
式中,δk為輸出層第k個(gè)神經(jīng)元的學(xué)習(xí)誤差。對隱含層神經(jīng)元權(quán)值的更新公式為
(10)
式中,δj為作隱含層第j個(gè)神經(jīng)元的學(xué)習(xí)誤差。
為了驗(yàn)證本文所提出的視頻質(zhì)量評價(jià)模型的準(zhǔn)確性,本文選取了9個(gè)標(biāo)準(zhǔn)視頻序列進(jìn)行實(shí)驗(yàn),每個(gè)視頻序列分別使用11個(gè)不同的QP值進(jìn)行編碼。如表2所示,為具體的H.264編碼參數(shù)設(shè)置。主觀實(shí)驗(yàn)針對編碼的99個(gè)碼流,由21個(gè)非專業(yè)人員打分,共得到2079組數(shù)據(jù),其中1683組用于模型訓(xùn)練,396組用于驗(yàn)證模型的準(zhǔn)確性。
表2 H.264編碼參數(shù)設(shè)置
皮爾遜系數(shù)(Pearson Linear Correlation Coefficient,PLCC)和斯皮爾曼系數(shù)(Spearman Rank-Order Correlation Coefficient,SROCC)常被用來衡量所建模型的性能。皮爾遜系數(shù)取值范圍是[-1,1],“-1”和“1”分別代表完全負(fù)相關(guān)和完全正相關(guān)。斯皮爾曼系數(shù)取值范圍是[-1,1],“-1”和“1”分別代表完全單調(diào)負(fù)相關(guān)和完全單調(diào)正相關(guān)。
本文使用BP神經(jīng)網(wǎng)絡(luò)進(jìn)行建模隱含層節(jié)點(diǎn)數(shù)為10,迭代次數(shù)為1000,BP網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。為了驗(yàn)證本文模型的性能,將模型預(yù)測結(jié)果與文獻(xiàn)[16]中的模型預(yù)測結(jié)果進(jìn)行了對比,結(jié)果如表3所示??梢钥闯霰疚哪P涂梢垣@得更好的預(yù)測結(jié)果,PLCC達(dá)到0.9624,SROCC達(dá)到了0.9464。
圖4 BP網(wǎng)絡(luò)結(jié)構(gòu)
模型PLCCSROCC本文模型0.96240.9464文獻(xiàn)[16]0.96000.9000
從表3可以看出,本文模型具有更高的MOS預(yù)測性能。
為了對比分析,本文還分別使用了支持向量回歸(Support Vector Regression,SVR)、RNN(Random Neural Network,RNN )、核偏最小二乘(Kernel Partial Least Square Regression,KPLSR)進(jìn)行建模。表4給出了使用不同建模方法得到的性能對比。圖5的(a)、(b)、(c)、(d)分別是各種模型預(yù)測的平均客觀分?jǐn)?shù)與主觀平均分?jǐn)?shù)MOS的散點(diǎn)圖。散點(diǎn)圖表現(xiàn)了模型預(yù)測的客觀分?jǐn)?shù)與主觀評價(jià)分?jǐn)?shù)的線性關(guān)系。
從圖5和表4可以看出,采用BP神經(jīng)網(wǎng)絡(luò)建立的模型可以得到更精確的預(yù)測結(jié)果,預(yù)測值與真實(shí)值更加吻合。
表4 采用SVR、KLPLSR、RNN和BP建模的性能對比
圖5 MOS-預(yù)測分?jǐn)?shù)散點(diǎn)圖
本文提出了一種基于內(nèi)容的無參考視頻質(zhì)量評價(jià)模型,該模型從碼流中提取參數(shù)表征視頻內(nèi)容的紋理和運(yùn)動(dòng)復(fù)雜度,通過BP網(wǎng)絡(luò)建立MOS與特征參數(shù)之間的映射模型。該模型能夠有效地利用H.264碼流,直接對不同內(nèi)容的H.264視頻碼流進(jìn)行實(shí)時(shí)的質(zhì)量監(jiān)控。
在面對外界刺激時(shí),人眼更加關(guān)注顯著區(qū)域,而非顯著區(qū)域的感知質(zhì)量則會在一定程度上被削弱。因此,下一步的工作中,將考慮顯著性區(qū)域和非顯著性區(qū)域的區(qū)別,分別建立視頻感知質(zhì)量評價(jià)模型。