杜 麟,田 暢,吳澤民,張兆豐,胡 磊,張 磊
(中國人民解放軍理工大學 通信工程學院,江蘇 南京 210007)
基于視敏度的Q-STAR模型參數(shù)預測*
杜 麟,田 暢,吳澤民,張兆豐,胡 磊,張 磊
(中國人民解放軍理工大學 通信工程學院,江蘇 南京 210007)
Q-STAR模型是現(xiàn)有的客觀視頻質(zhì)量評價中最接近主觀得分的模型,但是在解碼端難以從丟包解碼后的YUV視頻序列中提取與編碼端相一致的運動矢量信息,從而影響模型參數(shù)的預測。針對該問題,提出了基于視敏度信息的模型參數(shù)預測方法,從YUV視頻序列中提取時間域和空間域視敏度特征,并結(jié)合Q-STAR模型中提取的特征進行預測。通過實驗發(fā)現(xiàn),使用視敏度信息代替原有的運動矢量信息進行預測,所得模型參數(shù)值與Q-STAR基本相符,并且計算更為簡單。
視頻傳輸質(zhì)量保障;主觀感知;參數(shù)預測;視敏度信息
視頻傳輸質(zhì)量保障的最終目的是保障接收端視頻的服務質(zhì)量,首先需要建立與人的主觀感受相一致的視頻質(zhì)量評價模型。近年來,越來越多的研究著力于建立符合人眼視覺感知特性的評價指標[1-2]。常見的方法是對主觀評價結(jié)果進行分析,并建立相應的模型使得評價的結(jié)果逼近真實主觀評價的結(jié)果。文獻[3-4]首先從時間域和質(zhì)量域出發(fā),分別研究了幀率以及量化步長對主觀感知和碼率的影響,隨后在文獻[5]中加入分辨率對主觀感受的影響,并提出了聯(lián)合模型Q-STAR。文獻[6]中提出用視敏度評估視頻質(zhì)量,用相鄰的視頻幀之間像素之差表示時間信息,用源視頻與測試視頻的時間信息差異表示視頻的損傷,并通過回歸樹的方法估計主觀得分。
本文從YUV視頻序列中提取時間域和空間域視敏度信息作為新的特征值,并進行模型參數(shù)的預測。
文獻[5]從質(zhì)量域、時間域以及空間域三個方向出發(fā),分別研究了量化步長、幀率以及分辨率對視頻主觀感知質(zhì)量的影響,從而得到了聯(lián)合的視頻主觀感知模型Q-STAR,模型的計算表達式以及參數(shù)預測如下所示:
(1)
(2)
(3)
(4)
使用Q-STAR模型對6個視頻序列(city、crew、harbour、soccer、garden和foreman)進行參數(shù)預測。圖1為6個視頻序列的簡圖。預測的結(jié)果如表1所示。表2表示用最小二乘擬合對主觀得分進行擬合得到的模型參數(shù)值,將該數(shù)值作為模型參數(shù)預測的真實值,用于評價參數(shù)預測的好壞。(表格中視頻序列取前兩個字母表示)。
圖1 6個測試序列從左至右,從上至下一次為city、crew、harbour、soccer、garden和foreman
cicrhasogafoMSEαq誤差7.454.299.176.3710.764.380.20-0.22-0.480.060.08-0.190.246^αs誤差3.684.073.854.555.115.560.160-0.7300.28-0.380.360αf誤差3.993.352.762.152.953.690.110.26-0.07-0.080.15-0.110.144
表2 模型參數(shù)最小二乘擬合結(jié)果
對表1中的結(jié)果進行分析可以發(fā)現(xiàn),對于運動劇烈和場景復雜的視頻序列來說,Q-STAR模型參數(shù)的預測存在較大的誤差,分析原因在于模型參數(shù)的預測中使用了特征σDFD,而σDFD是基于運動估計的相鄰兩幀之間幀差均值的標準差。對于運動劇烈和場景復雜的視頻序列來說,運動矢量信息以及殘差信息遠大于其他的視頻序列,難以進行準確的運動估計,運動估計的不準確性導致運動補償之后的誤差增大,使得特征σDFD計算不準確,從而造成模型參數(shù)預測的誤差。另一方面,運動矢量信息需要從264碼流中提取,無法直接從YUV視頻序列中得到,在視頻傳輸過程中如果發(fā)生丟包,解碼后的視頻能難得到有效的運動矢量信息,因此,該預測只能用于編碼端或者是無丟包條件下的視頻質(zhì)量評價。為了解決以上問題,本文提出了一種基于視敏度的參數(shù)預測方法。
文獻[6]將視敏度[7-8]定義為視頻的感知質(zhì)量,并給出了一種在線計算視敏度的方法。視敏度是最基本的人眼視覺系統(tǒng)(Human Visual System,HVS)視覺處理機制,它表征了HVS對不同頻率視覺信號的響應強度,主要有時域?qū)Ρ让舾卸群涂沼驅(qū)Ρ让舾卸取?/p>
時域?qū)Ρ让舾卸戎饕从沉艘曨l序列受幀率的影響,表現(xiàn)在視頻序列的連貫性上,體現(xiàn)了幀與幀之間的差別。圖2分別表示同一視頻在幀率為3.75、7.5、15以及30時相同位置連續(xù)的5幀。從圖2可以看出幀率越大,幀與幀之間的差別較小,視頻序列的連貫性越好;而幀率越小,幀與幀之間差別較大,造成視頻序列的不連貫,出現(xiàn)“跳躍”的現(xiàn)象。
圖2 SOCCER序列在4種幀率下的對比
用時域信息Ti表示時域?qū)Ρ让舾卸龋琓i的計算表達式如下:
(5)
(6)
(7)
其中H和W分別代表視頻的高度和寬度;c代表顏色深度;Fn(i,j)代表視頻第n幀圖像中位于位置(i,j)的像素值;N代表視頻的幀數(shù)。
空域?qū)Ρ让舾卸戎饕芊直媛视绊?,體現(xiàn)在視頻序列的尺寸上,圖3分別表示了同一視頻在兩種分辨率下相同位置的幀。從圖3中可以看出分辨率越大,人眼的主觀感受越好;分辨率越小,越容易造成主觀感受的下降。
圖3 SOCCER序列在兩種分辨率下的對比
用空域信息Si表示空域?qū)Ρ让舾卸?,Si的計算表達式如下:
|Fn(i,j+1)-Fn(i,j)|)
(8)
(9)
(10)
為了解決模型參數(shù)預測中運動矢量信息的問題,分別計算了源視頻時域信息Tio以及空域信息Sio和測試視頻的時域信息Tit以及空域信息Sit,并把時域信息和空域信息的變化DTi和DSi作為新的特征,特征計算如下:
(11)
表3 視頻特征描述
從6個視頻序列中選取5個用于訓練,剩下一個視頻序列用于測試,求取預測結(jié)果與最小二乘擬合值之間的誤差,通過誤差大小進行特征組合的選取,表4表示了不同個數(shù)特征組合下最佳的特征組合以及其最小誤差。
表4 特征組合選取
通過表4可以看出,當K=4時誤差最小,而K=3時的誤差與K=4時僅相差0.013,因此,選擇DTi、η(μFD,σ)和Gm三種特征進行模型參數(shù)的預測,預測方程如式(12)所示。
(12)
表5 本文提出的方法預測結(jié)果
[1] 蔣剛毅, 朱亞培, 郁梅, 等. 基于感知的視頻編碼方法綜述[J]. 電子與信息學報, 2013, 35(2): 474-483.
[2] LEE J, EBRAHIMI T. Perceptual video compression: a survey[J]. IEEE Journal of Selected Topics in Signal Processing, 2012, 6(6): 684-697.
[3] OU Y F, MA Z, LIU T, et al. Perceptual quality assessment of video considering both frame rate and quantization artifacts[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2011, 21(3): 286-298.
[4] MA Z, XU M, OU Y F, et al. Modeling of rate and perceptual quality of compressed video as functions of frame rate and quantization stepsize and its applications[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2012, 22(5): 671-682.
[5] OU Y F, XUE Y, WANG Y. Q-STAR: a perceptual video quality model considering impact of spatial, temporal, and amplitude resolutions[J]. IEEE Transactions on Image Processing, 2014, 23(6): 2473-2486.
[6] BAIK E, PANDE A, STOVER C, MOHAPATRA P. Video acuity assessment in mobile devices[C]. 2015 IEEE Conference in Computer Communications (INFOCOM), HONG KONG, 2015: 1-9.
[7] LIN W, KUO C C J. Perceptual visual quality metrics: a survey[J]. Journal of Visual Communication & Image Representation, 2011, 22(4):297-312.
[8] BALACHANDRAN A, SEKAR V, AKELLA A, et al. Developing a predictive model of quality of experience for internet video[J]. ACM SIGCOMM Computer Communication Review, 2013, 43(4): 339-350.
[9] LI C, XIONG H, WU D. Delay-rate-distortion optimized rate control for end-to-end video communication over wireless channels[J]. IEEE Transactions on Circuits & Systems for Video Technology, 2015, 25(10):1665-1681.
The parameters prediction of Q-STAR model based on video acuity
Du Lin,Tian Chang,Wu Zemin, Zhang Zhaofeng, Hu Lei, Zhang Lei
(College of Communications Engineering, PLA University of Science and Technology, Nanjing 210007, China)
Q-STAR is now the best model whose objective evaluation is close to the real subjective scores. But in the decoding end, it’s difficult to extract the same information of motion vector from YUV sequences with packet loss, which influences the prediction of model parameters. In order to solve this problem, a new model parameters prediction method was proposed based on video acuity. Firstly, it extracts video acuity features of time domain and space domain from the sequence, and then predicts the model parameters with the features extracted in the Q-STAR. Experimental results demonstrate the new prediction method is close to the old prediction and makes the calculation easy.
video transmission quality metric; subjective perception; parameter prediction; video acuity
國家自然科學基金(61501509)
TN919.85
A
10.19358/j.issn.1674- 7720.2017.01.013
杜麟,田暢,吳澤民,等. 基于視敏度的Q-STAR模型參數(shù)預測[J].微型機與應用,2017,36(1):40-43.
2016-09-30)
杜麟(1992-),男,碩士,主要研究方向:視頻傳輸保障。
田暢(1963-),通信作者,男,博士,教授,主要研究方向:數(shù)據(jù)鏈系統(tǒng)與信息感知。E-mail:tianchang_cce@163.com。
吳澤民(1973-),男,博士,副教授,主要研究方向:信息融合。