趙 巖,孟麗茹,王世剛,陳賀新
(吉林大學 通信工程學院,長春130012)
21 世紀隨著互聯網以及多媒體技術的快速發(fā)展,人類對3D 視頻的關注度已高達72.5%[1],3D 視頻已成為人類視覺需求和高科技迅速發(fā)展的產物。3D 立體視頻在采集、處理以及傳輸過程中都可能會引起失真,為此視頻壓縮程度所允許的失真程度需要人眼來感知,也就是需要對其進行質量評價,以及作為對信道、編解碼器性能評估和優(yōu)化的判斷依據等。視頻質量評價對3D 產業(yè)的推廣起著推動作用。
傳統(tǒng)的視頻圖像質量評價方法一般可以分為兩大類:主觀評價和客觀評價。目前國際上廣泛使用的主觀質量評價標準有雙重刺激損傷標度(Double stimulus impairment scale,DSIS)和雙重刺激連續(xù)質量標度(Double stimulus continuous quality scale,DSCQS)。主觀評價方法需要大量的人力、物力、財力,且評價結果容易受到測試者的主觀因素和外界環(huán)境的影響,評價過程的復雜性嚴重影響方法的準確性和通用性,將其嵌入到實際視頻處理系統(tǒng)中有一定的困難。因此研究人員提出了許多客觀質量評價方法。均方根誤差和峰值信噪比是目前發(fā)展比較成熟的全參考視頻客觀質量評價方法;Wang 等[2]提出基于結構相似度(Structural similarity,SSIM)方 法,性 能 優(yōu) 于PSNR,但在評價嚴重模糊和壓縮圖像時主客觀評價并不完全一致[3];基于梯度的結構相似度(Gradient based structural similarity,GSSIM)方法[4],適合圖像質量評價,結合運動信息才可評價視頻質量;基于運動信息和結構信息視頻質量客觀評價(Motion information and structural similarity,MESSIM)方法[5],未考慮局部失真時邊緣結構信息,對壓縮視頻主客觀評價相差較大;基于失真度估計的無參考視頻質量評價方法[6]可以達到很好的精確度,但計算復雜度較高;基于結構相似的DCT 域圖像質量評價方法[7]較SSIM 和PSNR 更符合人眼的視覺特性,但DCT 變換系數量化粗糙會造成視頻圖像在塊邊界出現視覺上的不連續(xù);基于編碼前后視差圖的峰值信噪比(Disparity peak signal to noise ratio,DPSNR)方法以及基于深度的視頻質量評價方法考慮了第三維深度信息,同時也存在應用范圍上的局限性。
PSNR 評價方法是應用最廣的傳統(tǒng)圖像質量評價方法,但在立體重構圖像評價時,其與人眼視覺感知還存在差距。因此,本文提出了一種符合人眼視覺感知特性的改進PSNR 立體圖像質量評價方法,并進行了實驗驗證,進一步拓寬了PSNR方法的應用范圍。
一幅大小為M×N 的數字原始圖像f(x,y)及其失真圖像f0(x,y)的峰值信噪比如下:
式中:(2n-1)2為圖像中最大可能的信號值平方,其中n 為每個像素的比特數。
一般情況下,PSNR 值越大,代表失真越小,圖像質量相對越高,人眼觀看效果越好。分別在一幅圖像的高頻、中頻、低頻部分加入白噪聲干擾,對三種干擾圖像進行主客觀質量評價,結果高頻部分加入干擾的圖像主觀質量優(yōu)于其他兩種情況的主觀質量;但三者的客觀評價PSNR 值卻相同。這表明PSNR 值有時無法與人眼感知的視覺品質相符,即PSNR 并不能很好地表達人眼的視覺感知特性[8]。有可能PSNR 較高者看起來反而比PSNR 較低者差。這是因為人眼視覺對于誤差的敏感度不是絕對的,其感知結果會受到許多因素的影響而產生變化。通常人眼對較低的空間頻率和亮度對比度差異的敏感度較高,而且對一個區(qū)域的感知結果會受到其周圍鄰近區(qū)域的影響。綜上,PSNR 主要存在以下兩點問題:①人眼主觀對不同圖像的不同失真類型會有不同反映,而這些不同反映在PSNR 計算中無法被準確地區(qū)分出來;②PSNR 中對誤差進行簡單累加的方式與主觀判斷圖像損傷的方式有顯著不同,這也是通常造成主客觀評價不相符的原因[9]。
3D 立體視頻是基于雙目視差原理而產生的。當觀看者利用雙眼觀看時,由于雙眼之間存在一定的水平距離,使得雙眼從不同角度觀看并各自獨立成像(即左眼看到物體的左邊多一些,右眼看到物體的右邊多一些)。當這兩個具有微小角度差異的圖像對傳入大腦皮層后,經大腦皮層視覺中樞的融合處理就會產生具有深度感的“單一”圖像,從而使觀看者感受到立體特性。
PSNR 可以很好地評價平面圖像質量的好壞,一般情況下視覺效果較好的圖像的PSNR 值可以達到35 dB。但評價立體圖像時,會出現對具有良好的主觀觀看效果的圖像計算出的峰值信噪比卻很低的情況,造成主客觀的不一致性。對具有標準視差的立體圖像對來說,PSNR 必須充分考慮立體特性,才可以應用到立體圖像評價當中。
由于立體視頻解碼端得到的重構圖像與原始圖像之間通常存在微小的水平視差失真,而這種微小的水平視差失真并不影響人眼的立體感知,但影響客觀質量評價的PSNR 值,使PSNR 值不足以反映人眼的感知效果,造成PSNR 值與人眼感知的不一致。因此,針對峰值信噪比較低,但具有良好的主觀觀看效果的立體視頻解碼圖像,為使客觀PSNR 值能正確地反映人眼視覺感知,本文基于解壓縮立體圖像存在微小視差失真的特性,提出改進PSNR 方法,對立體視頻解碼端得到的重構圖像采取加權均值濾波、隸屬度函數、滑動窗函數三者融合的方法進行處理,通過像素之間的相關性來改變像素值的大小,使其能更好地反映人眼感知特性,即通過改進客觀PSNR 值,使其盡可能與人眼視覺感知相符。
本文將重構圖像的像素失真分為兩大類,其一,像素由左向右平移或由右向左平移,即進駐性的擴展平移;其二,由于像素丟失導致該點像素值的嚴重失真,與原始圖像像素點不匹配。針對第一種情況,在一定范圍內進行像素值搜索,發(fā)現有當前像素恢復值時,進行反方向像素平移。針對第二種情況,當像素值丟失時,利用該點像素與其周圍像素的相關性進行加權均值濾波、隸屬度函數處理。當圖像向左平移時,該點右側像素點的權值大于左側像素點的權值,反之亦然。當無法判定平移方向時,距該像素點物理位置較近像素點的權值大于物理位置較遠像素點的權值,權值大的點對濾波器輸出的影響要大于權值小的點。
加權均值濾波方法的實現如下:
式中:wi為簡單的最優(yōu)權重,且滿足為窗內像素點的灰度值;1×(2k+1)為一維窗函數大小。
加權均值濾波能在圖像空域下實現一種平滑作用,能夠完成圖像局部區(qū)域加權平均運算功能,將丟失像素和平移位置進行平滑處理。其中局部區(qū)域作為當前處理窗口,當窗口滑動完整幅圖像時,就完成了整幅圖像的一種局部區(qū)域平滑處理。窗函數模板應該是中心對稱的,使平滑作用沒有方向性。同時,窗函數越大,處理后的圖像也越模糊,畫面質量下降,所以窗函數不宜過大。
基于隸屬度函數方法的實現如下:
式中:r 為當前處理窗口中心像素點的灰度值;β為尺度函數,一般在一千到幾千范圍內。
選取1×(2k+1)的窗函數,以窗口中心像素灰度值為中心,按式(5)計算窗口內各個像素點隸屬于中心像素點的隸屬度,作為各個像素點的對應隸屬度權值[10];根據式(4)進行加權計算,得到基于隸屬度函數方法的改進值。可進一步對式(5)計算出的模糊隸屬度權值進行裁剪,即分別去除最大權值和最小權值來消除圖像受到沖激噪聲影響時改進PSNR 值的誤差。
對圖像中的任意一點(x,y)進行PSNR 值改進時,將重構圖像與原始圖像進行絕對差值處理,得到絕對差值圖像。當差值圖像(x,y)點為零時,表明該像素點完全恢復,沒有損傷;當差值圖像該點不為零時,將利用一個1×(2k+1)的滑動窗,對該像素進行左右k 個像素水平范圍內的區(qū)域搜索,當搜索到匹配像素值時,則進行平移,恢復當前像素值。未搜索到匹配像素值時,則保持原像素[11]。
本文算法流程如圖1 所示。
針對重構圖像邊緣像素,本方法采用將邊緣列像素值進行復制的原則進行擴展,然后對邊緣點也進行上述分析和處理。
圖1 本文算法流程圖Fig.1 Flow chart of proposed algorithm
圖2 Tsukuba 主觀效果圖Fig.2 Subjective effects of Tsukuba
圖3 Corridor 主觀效果圖Fig.3 Subjective effects of Corridor
圖4 Venus 主觀效果圖Fig.4 Subjective effects of Venus
圖5 Parkmeter 主觀效果圖Fig.5 Subjective effects of Parkmeter
為了驗證本文方法的有效性,采用文獻[12]提供的立體視頻圖像Tsukuba、Corridor、Venus、Parkmeter 的右視圖(見圖2 ~圖5)作為測試圖像進行實驗?;跁r域相關性的BP 恢復算法得到的重構圖像,在對象邊界部分出現的少量誤差,引起了對象邊界發(fā)生整體偏移,而對象內部的誤差很小。由于邊界上的偏差只有一到兩個像素的平移,不會影響到整幅圖像立體感知質量,圖像的觀看質量整體比較高,屬于可以被接受的范圍。即從主觀效果圖可以看出四幅重構圖像都具有良好的主觀觀看效果,但計算出來的PSNR 值卻較低,不能很好地反映人眼視覺感知,對此采取本文方法進行改進。
基于加權均值濾波得到的窗函數最優(yōu)權值如下:w[1]=0.15,w[2]=0.20,w[3]=0.30,w[4]=0.20,w[5]=0.15,由于水平視差只有一至兩個像素的平移,因此采取1×5 的一維窗進行實驗。針對有位置偏移的像素,當1×5 窗函數中已無法搜索到匹配的像素值時,進行1×5 窗口大小的簡單加權均值處理,w[1]、w[2]、w[3]、w[4]、w[5]分別為1×5 窗口內的相應權值。
根據大量的實驗統(tǒng)計數據,得到加權均值濾波器的最優(yōu)權值組合,針對不同圖像,權值設定會略有差別,但本實驗采取相同的窗函數權值組合進行實驗。實驗結果使PSNR 值最大的可能性得到了改進,可以更好地反映主觀視覺感知效果。
基于隸屬度函數方法,對不同圖像進行隸屬度函數β 值確定的實驗。表1 為Corridor 原始圖像與重構圖像采用1×5 窗函數時,不同β 值及其改進PSNR 值。
由表1 可知,β 值選取3000 時效果最佳,改變β 值 從1000 到9000,PSNR 值 只 改 變 了0.2877 dB,比較小,故β 值對實驗影響并不是很大。針對個別像素點有噪聲和沖擊響應影響時,隸屬度函數會有較好的恢復效果。根據大量實驗數據統(tǒng)計,不同圖像尺度函數β 值基本相同,均在3000 左右,故取3000 作為隸屬度函數中的β 值。
利用本文方法對Tsukuba、Venus、Corridor、Parkmeter 原始圖像與重構圖像進行實驗,實驗選擇最佳均值濾波器權值組合,最佳一維窗函數1×5,最優(yōu)β 值3000。得到改進PSNR 值,結果如表2 所示。
表1 改變隸屬度函數中的β 值結果Table 1 Results when changing β value of membership function
表2 PSNR 值對比結果Table 2 Comparison results of PSNR
由表2 可知,四組立體圖像改進的客觀PSNR值都可以很好地反映人眼主觀視覺感知圖像質量較好的事實,使得改進PSNR 值與人眼視覺感知相符,解決了用PSNR 方法評價立體重構圖像時PSNR 值與人眼視覺感知不一致的問題。
隨著圖像質量評價技術在圖像通信、多媒體技術、信息安全技術等領域越來越多的應用,圖像質量評價的研究越來越受到人們的重視。針對常用評價指標PSNR 有時并不能很好地反映立體重構圖像的人眼視覺感知特性問題,本文采用加權均值濾波、隸屬度函數和滑動窗三者融合的方法較好地解決了這一問題。改進的PSNR 方法較原始方法更加符合人眼視覺特征,從而能更精準、更方便地進行立體重構圖像質量評價,使其具有更廣泛的應用價值。針對本文估計公式中一些參數的確定,權值優(yōu)化以及提高方法通用性等方面的問題,將在進一步的實驗研究中加以探索和改進。
[1]健康問題難擋3D 電視市場普及[N].消費電子,2011-07-27.
[2]Wang Z,Bovik A C.Modern Image Quality Assessment[M].New York:Morgan and Clay Pool,2006.
[3]Winklera S.Digital Video Quality:Vision Models and Metrics[M].Switzeriand:John Wiley and Sons,2005:71-156.
[4]Chen Guan-h(huán)ao,Yang Chun-ling,Xie Sheng-li.Gradient-based structural similarity for image quality assessment[C]∥IEEE International Conference on Image Processing,2006:2929-2932.
[5]盧國慶,李均利,陳剛,等.基于運動信息和結構信息的視頻質量評價方法[J].計算機仿真,2010,27(6):262-266.Lu Guo-qing,Li Jun-li,Chen Gang,et al.Video quality assessment measurement based on motion information and structural distortion[J].Computer Simulation,2010,27(6):262-266.
[6]林翔宇,田翔,陳耀武.基于失真度估計的無參考視頻質量評價[J].吉林大學學報:工學版,2013,43(1):212-217.Lin Xiang-yu,Tian Xiang,Chen Yao-wu.No-reference video quality assessment based on distortion estimation[J].Journal of Jilin University(Engineering and Technology Edition),2013,43(1):212-217.
[7]呂丹,畢篤彥.基于結構相似的DCT 域圖像質量評價[J].吉林大學學報:工學版,2011,41(6):1771-1776.Lyu Dan,Bi Du-yan.Image quality assessment in DCT domain based on structural similarity[J].Journal of Jilin University(Engineering and Technology Edition),2011,41(6):1771-1776.
[8]李紅蕾,凌捷,徐少強.關于圖象質量評價指標PSNR 的注記[J].廣東工業(yè)大學學報,2004,21(3):74-78.Li Hong-lei,Ling Jie,Xu Shao-qiang.Note about image quality evaluation index PSNR[J].Journal of Guangdong University of Technology,2004,21(3):74-78.
[9]李永強,沈慶國,朱江,等.數字視頻質量評價方法綜述[J].電視技術,2006,6:74-77.Li Yong-qiang,Shen Guo-qing,Zhu Jiang,et al.Overview of video quality evaluation methods[J].Video Engineering,2006,6:74-77.
[10]蔡靖,楊晉生,丁潤濤.模糊加權均值濾波器[J].中國圖象圖形學報,2000,5(1):52-56.Cai Jing,Yang Jin-sheng,Ding Run-tao.Fuzzy weighted average filter[J].Journal of Image and Graphics,2000,5(1):52-56.
[11]Yuan Hai-dong,Ma Hua-dong,Huang Xiao-dong.Automatic pixel-shift detection and restoration in videos[C]∥IEEE International Conference on Multimedia and Expo,2008:1541-1544.
[12]馬行.基于四維矩陣的立體視頻壓縮算法研究[D].長春:吉林大學,2009.Ma Xing.Research on stereo video compression algorithm based on four dimensional matrix[D].Changchun:Jilin University,2009.