鄭 成,王國中,范 濤,趙海武
ZHENG Cheng,WANG Guozhong,FAN Tao,ZHAO Haiwu
上海大學 通信與信息工程學院,上海 200444
School of Communication and Information Engineering,Shanghai University,Shanghai 200444,China
香農(nóng)在經(jīng)典信息論里指出:精確重構信號的前提是對信號的采樣頻率不低于信號帶寬的兩倍,這是著名的奈奎斯特采樣定理。傳統(tǒng)的信號壓縮主要包括:采樣、變換、量化、熵編碼等過程,其中在奈奎斯特采樣速率下采樣后的數(shù)據(jù)大部分信息都在變換、量化過程中被丟掉了。所以說,按照奈奎斯特采樣速率得到的信號中有很多信息是利用不了的,這浪費了采樣的帶寬、存儲空間以及計算資源。Candes和Donoho等人提出的壓縮感知理論利用某些信號本身的稀疏性將采樣和壓縮合為一步,打破了奈奎斯特速率,實現(xiàn)了低采樣率下信號的采樣和重構,節(jié)省了計算資源和存儲資源。壓縮感知理論主要包括三方面:信號的稀疏性、非相關測量以及信號的重建。其中信號的稀疏性是指長度為N的一維離散信號x在某一個正交變換基ψ上展開,且大部分系數(shù)為零,則認為信號x在ψ上具有稀疏性,為變換矩陣。如式(1)所示:
其中si為展開系數(shù),如果滿足有K個非零值且K<<N,則稱信號x為K階稀疏信號。其中DCT基和小波基由于其對圖像較好的壓縮特性以及成熟的快速算法,常被用來發(fā)掘圖像信號的稀疏性。
測量矩陣Φ是一個M×N維的行滿秩的矩陣,其中M<<N,且Φ和ψ之間應該滿足不相關性,實際壓縮采樣過程如式(2)所示:
信號的重建即通過壓縮采樣得到的值y和觀測矩陣求解原始信號x的數(shù)學問題,顯然這是一個欠定方程,有無限多解。但由于原始信號在ψ上是稀疏的,故該方程的解可以由優(yōu)化類重構算法或貪婪類重構算法求解,式(3)所示的為約束優(yōu)化問題來重構原始信號:
綜上所述,壓縮感知理論中,信號的稀疏性是必要條件,最優(yōu)重構算法是原始信號重建的手段,而觀測矩陣和變換矩陣的不相關是最優(yōu)重構算法收斂的必要保證[1]。
在無線傳感網(wǎng)絡中,一方面,終端設備受電能有限、計算能力有限以及信道不穩(wěn)定等因素影響;另一方面,傳統(tǒng)的視頻編碼標準H.264、AVS等,在編碼端有復雜的幀內預測、運動估計以及運動補償。故傳統(tǒng)的視頻編碼標準在無線多媒體傳感器網(wǎng)絡中并不能發(fā)揮其應有的性能。壓縮感知是一種新型的采樣理論,壓縮視頻感知將它應用到視頻壓縮上,它利用信號本身的稀疏性將采樣和壓縮合二為一,打破了香農(nóng)理論中的奈奎斯特采樣理論極限,所以在壓縮視頻感知中,編碼端僅需要對數(shù)據(jù)進行壓縮采樣,將復雜的信號重構放在了解碼端?;谶@樣一個特點,壓縮視頻感知在無線多媒體傳感器網(wǎng)絡中、復雜環(huán)境下的視頻監(jiān)控中有著明顯的優(yōu)勢。另外一方面,由于壓縮采樣后得到的各低階稀疏信號對于圖像重建而言是等價的,不同于傳統(tǒng)視頻編碼標準中使用的DCT,低頻信號更為重要,所以壓縮視頻感知的魯棒性在理論上是要強于傳統(tǒng)視頻編碼標準的[2-3]。
壓縮視頻感知是在分布式視頻編碼[4]以及壓縮感知理論的基礎上發(fā)展起來的,其基本思想源于分布式視頻編碼。分布式視頻編碼將視頻序列分為關鍵幀和非關鍵幀(又稱為WZ幀),并且對這兩種幀類型采取不同的編碼方案。對于關鍵幀,由于它要為非關鍵幀的解碼提供高質量的邊信息(Side Information),所以在分布式視頻編碼中對關鍵幀的編碼采用了傳統(tǒng)的H.264中幀內編碼的方法,而對于非關鍵幀則采用Wyner-Ziv編碼器在像素域以及后來發(fā)展的變換域進行編碼[5-6]。Baron、Duarte等人在2009年提出了分布式壓縮感知[7],這使得將壓縮感知應用到分布式視頻編碼中成為了可能。Prades-Nebot等人于2009年首次提出一種分布式視頻壓縮感知,其中關鍵幀的編解碼采用傳統(tǒng)的H.264幀內編解碼,但是在非關鍵幀中采用了壓縮感知技術,這兩種不同的編碼方式無疑增加了系統(tǒng)復雜度[8]。隨后,Kang等人提出更為徹底壓縮視頻感知算法,將關鍵幀也用壓縮感知進行采樣編碼,初步構建了目前壓縮視頻感知的基礎理論與基本框架[9]。圖1給出了目前壓縮視頻感知的基本框架。
圖1中可以看出目前壓縮視頻感知中關鍵幀與非關鍵幀都采用分塊壓縮采樣的方法,只是關鍵幀的采樣率更高一點。這樣對于關鍵幀可以采用普通靜態(tài)圖像的重建方法進行較為高質量的重建,對于非關鍵幀目前較多采用參考幀與當前幀觀測向量的聯(lián)合空時域的重建,文獻[10]對此做了較為系統(tǒng)的研究與闡述。
圖1 壓縮視頻感知框架
眾所周知,近10多年來,對于壓縮感知的理論研究以及其應用領域都有了很大的發(fā)展,人們似乎忽略了在數(shù)字信號處理領域很重要的一步:量化。量化性能的好壞直接關系整個數(shù)字信號系統(tǒng)的性能好壞,在視頻壓縮領域,量化技術關系到視頻壓縮的率失真優(yōu)化、壓縮效率等重要性能參數(shù)。因此,一種高效、簡單的量化器是壓縮視頻感知中必不可少的一環(huán)。當前,在壓縮視頻感知中主要使用簡單非均勻量化、基于DPCM的非均勻量化等。近兩年來,有學者逐步關注了壓縮采樣后,數(shù)據(jù)的量化問題,文獻[11]提出了一種Analysis-by-Synthesis量化器,文獻[12]分析了量化對于壓縮視頻感知的影響。上述方法,尤其是Analysis-by-Synthesis量化器,對于重建圖像的質量幾乎接近了利用無限精度采樣數(shù)據(jù)重建的圖像,可惜的是它在量化時需要迭代,計算復雜度很高,在計算資源有限的情況下,圖像質量并不是CVS最關注的。本文結合文獻[13]中的DPCM方法和最佳標量量化準則,對壓縮采樣的數(shù)據(jù)特性進行分析后,設計了一種高效、簡單的量化器,提升了文獻[14]中所提CVS的性能。
在圖1所示的主流的壓縮視頻感知系統(tǒng)中,考慮到圖像尺寸、硬件編碼器的實現(xiàn)以及碼流的實時傳輸?shù)纫蛩?,對圖像均采用了分塊測量的方法。正如上文所述,各類采樣以及重建算法層出不窮,但是關于量化器的設計卻鮮有人關注。文獻[13]與文獻[14]提出了一種直接、高效的量化方法,它將DPCM和均勻標量、非均勻量化結合起來應用在圖像塊劃分測量系統(tǒng)中,在實時性以及RD性能上都有不錯的表現(xiàn)。
現(xiàn)簡單描述該算法在圖像分塊測量系統(tǒng)中的應用。首先將圖像分割成互不相交的N×N大小的塊,這樣就可以得到M個N×N的Y分量矩陣(以Y分量為例),此時將N×N的矩陣轉為一維向量,用xn表示。由式(2)可得當前塊的觀測值為yn,以此類推可以得到下一個塊的測量值yn+1,具體量化過程如圖2所示。
圖2 基于DPCM的量化器框架
從圖2中可以看出,量化器將當前塊的測量值減去預測值,得到殘差,將殘差進行量化輸出如式(4),需要注意的是量化器對殘差是進行單個殘差數(shù)值的標量量化,而不是直接對殘差向量進行矢量量化。另一方面,對殘差進行反量化,得到下個塊的預測值如式(5):
由于圖像中相鄰塊有較強的相關性,文獻[13]證明了圖像中相鄰塊在觀測域中也存在很強的相關性。故引入DPCM可以消除觀測域中的冗余,在相同的量化位寬下,PSNR通常比直接量化高6 dB左右[13]。
眾所周知,具有均勻概率密度分布的數(shù)據(jù)源幾乎是不存在的,故而在設計量化器時要對數(shù)據(jù)源進行分析統(tǒng)計,根據(jù)其概率密度分布來設計量化步長。本文中需要量化的為DPCM系統(tǒng)中的殘差數(shù)據(jù)dn+1即:
式中yn+1為下一個觀測值,y′n為當前預測值,它可以表示為當前觀測值加上量化誤差:
結合式(6)和式(7)就可以得到本文中需要量化的數(shù)據(jù)dn+1。式(7)中的量化誤差en用白噪聲模擬,其方差按照信噪比為30 dB計算得到。由于圖像分塊測量系統(tǒng)中DPCM量化器是對dn+1中每一個數(shù)分別進行標量量化的,故而將dn+1看成一個數(shù)據(jù)集合{ }dn+1,作為繪制殘差數(shù)據(jù)概率密度的樣本,用殘差數(shù)據(jù)d表示。本文選取HEVC中部分測試序列中的第一幀作為測試圖像,經(jīng)文獻[14]中CVS框架進行壓縮觀測,經(jīng)DPCM系統(tǒng)后得到的殘差數(shù)據(jù),再繪制其概率密度函數(shù)曲線。選取兩個序列的概率密度函數(shù)曲線如圖3所示。
圖3所示的概率密度函數(shù)與文獻[13]和文獻[14]中所展示的一樣,其在殘差數(shù)據(jù)服從高斯分布的基礎上,使用u律設計量化器碼書。本文對進一步殘差數(shù)據(jù)進一步分析。
本文使用Kolmogorov-Smirnov檢驗(下稱K-S檢驗)進行假設檢驗。K-S檢驗是一種非參數(shù)檢驗,它能夠推斷出樣本是否來自某個服從分布的總體,是一種擬合優(yōu)度的檢驗方法。具體而言,是以樣本數(shù)據(jù)的累計頻數(shù)分布與特定理論分布比較,若兩者間的差距很小,則推論該樣本取自某特定分布。本文在顯著性水平α為0.05時,提出假設檢驗問題,假設如下:
H0:殘差數(shù)據(jù)d不服從高斯分布
H1:殘差數(shù)據(jù)d服從高斯分布
令F0(x)為理論分布的分布函數(shù),F(xiàn)n(x)表示隨機樣本的累計分布函數(shù)。在本文中首先對殘差數(shù)據(jù)d進行參數(shù)檢驗,得到理論分布F0(x )的σ2和μ,然后令:
當D>D(n,α)時,則認為樣本的累計分布與理論分布在顯著性水平為0.05時有顯著差異。其中D(n,α)為樣本容量為n,顯著性水平為α時的拒絕臨界值,可以查表獲得。具體的,F(xiàn)0(x)與Fn(x)如圖4所示,可以看出殘差數(shù)據(jù)d的累計分布與理論分布的曲線不重合。進一步計算得,K-S檢驗中D=0.061 9可得檢驗接收H0,即殘差數(shù)據(jù)d不服從高斯分布。
圖3 殘差數(shù)據(jù)的概率密度
圖4 累計分布函數(shù)與理論分布函數(shù)曲線
檢驗結果為拒絕H1,即殘差數(shù)據(jù)d不服從高斯分布。根據(jù)勞埃德最佳標量量化器準則,量化器的設計需和被量化數(shù)據(jù)的分布特性相匹配才能使量化誤差最小。故而,本文根據(jù)勞埃德最佳標量量化器準則來設計量化器,具體如下。
3.2節(jié)證明了CVS系統(tǒng)中,量化器的設計需要根據(jù)最佳標量量化準則來設計。這里使用表示量化輸出值,用表示量化區(qū)間,即落在xi和xi+1間的值全部可以映射成yi,令輸入信號的概率密度函數(shù)為p(x),量化誤差準則為 f(x),那么量化誤差D可以用式(9)表示:
對yi以及xi求偏導數(shù),并令偏導數(shù)等于0可以得:
選用均方誤差作為誤差準則,那么由式(10)、式(11)可導出:
即量化區(qū)間與量化電平滿足式(12)和式(13)時,量化器的均方誤差最小。式(12)表明量化區(qū)間的端點為兩個量化電平的中點,式(13)表明量化電平是其所在量化區(qū)間的質心,如圖5所示。
圖5 最佳量化器設計準則
根據(jù)上述勞埃德設計準則,給出量化器設計步驟:
(1)獲得數(shù)據(jù)集,即對3.2節(jié)中殘差數(shù)據(jù)d歸一化到[-1,1]。該數(shù)據(jù)集用來計算待量化數(shù)據(jù)的概率密度函數(shù)。
(2)給定量化位寬N,由此獲得初始碼書C0如式(14),即碼書中的量化電平從以為步長,步進到。由初始碼書的生成方式可以看出初始碼書為N均勻量化的碼書。碼書中每一個碼字表示量化電平,根據(jù)勞埃德準則可以得到兩個量化電平間的端點。
(3)根據(jù)碼書Cm以及式(12)更新各量化區(qū)間的端點。
(4)根據(jù)步驟(3)得到的新的量化區(qū)間的端點以及式(13)更新碼書到Cm+1,并計算該碼書作為量化器碼書的量化為誤差Dm+1,一般用均方誤差表示。式(13)中積分使用梯形數(shù)值積分方法計算獲得。
(5)計算量化誤差下降程度ΔD=(Dm-Dm+1)/Dm,如果ΔD低于某個閥值,這里給出經(jīng)驗值5%,則認為碼書Cm+1為最佳量化器的碼書,否則繼續(xù)步驟(3)。
圖6給出了均勻量化的碼書相對于u律、本文量化器碼書的映射曲線。
圖6中可以看出本文提出的量化器碼書與傳統(tǒng)的u律區(qū)較大,結果也是證實了3.2節(jié)中的結論。
圖6 量化碼書映射曲線
本文從編碼器的性能來評價量化器性能。其中對編碼器的性能一般采用峰值性噪比差值(BDPSNR)、比特率差值(BD-Rate)兩個客觀指標來評判。實驗選取不同尺寸、不同紋理特征以及運動特征不同的視頻序列,以此驗證量化器在不同類型的視頻序列中的性能。實驗中所用量化器碼書是根據(jù)一定量的視頻序列按照3.3節(jié)中所述方法訓練而來。實際使用中可根據(jù)應用場景單獨訓練量化碼書,性能會更好。表1給出了本文設計的量化器相比于文獻[13]所提量化器在CVS中的性能比較。
從表1中可以看出本文所提的量化器相比于文獻[13]所提的量化器性能要好很多,主要體現(xiàn)在編碼器的壓縮效率上。以Keiba序列為例,BDPSNR為0.17表明,相同的碼率下,圖像的PSNR比文獻[13]高約0.17 dB;BD-Rate為10%表明,相同的圖像質量下,碼率比文獻[13]要低10%。進一步給出兩個有代表性的視頻序列的Rate-Distortion曲線(RD曲線),如圖7,其中Blowing-Bubbles色彩艷麗、紋理豐富、運動平穩(wěn);PKU_campus是AVS2監(jiān)控檔中的標清監(jiān)控序列。
從RD曲線中可以看出,本文所提量化器對于編碼器而言性能明顯優(yōu)于文獻[13]所提的量化器。高碼率時,圖像質量趨向于一個極限值,這個極限值是和圖像重建算法相關的,在同樣的圖像重建算法下本文所提量化器在較低碼率下即可逼近圖像質量的極限值。進一步分析PKU_campusAVS2監(jiān)控檔序列,這是個有代表性的監(jiān)控序列,前者前景運動多樣,背景穩(wěn)定。可以看出本文所設計量化器對于監(jiān)控視頻的壓縮效率有明顯提升,對于普通的視頻序列也有一定的提升。綜合BDPSNR、BD-Rate以及RD曲線可以認為,本文所提量化器在性能上優(yōu)于文獻[13]所提的量化器。
本文介紹了壓縮視頻感知和分布式編碼的發(fā)展狀況、應用場景,并重點研究了壓縮視頻感知編碼框架中量化器部分的設計,通過對壓縮采樣數(shù)據(jù)分布特性的研究,提出了一種基于DPCM的最佳量化器設計方法。實驗結果表明,該量化器使得編碼器的BD-Rate降低了14.2%,相同碼率下PSNR提升了0.11 dB,大大提升了該CVS的編碼性能。
不容忽視的是,當前壓縮視頻感知的壓縮效率遠遠低于傳統(tǒng)視頻編碼標準,但是考慮到其還沒有成熟的編碼標準與具體實現(xiàn),以及其應用場景壓縮視頻感知的方方面面都有很多值得挖掘的地方,例如:編碼端的熵編碼、解碼端的多幀參考、雙向預測等等。下一步,一方面應該深入挖掘不同觀測矩陣和變換矩陣對壓縮采樣數(shù)據(jù)統(tǒng)計特性的影響,設計出更加高效的量化器和熵編碼器提升編碼器性能;另一方面,需要利用視頻序列的時間相關性,充分挖掘幀間的信息參考,進一步降低重建圖像所需的信息量,使得CVS在保持編碼端實時采樣編碼的前提下,降低其碼率,提高壓縮效率。
表1 與文獻[13]所提量化器性能對比
圖7 Rate-Distortion曲線
參考文獻:
[1]Candès E J,Wakin M B.An introduction to compressive sampling[J].IEEE Signal Processing Magazine,2008,25(2):21-30.
[2]Sankaranarayanan A C,Studer C,Baraniuk R G.CS-MUVI:Video compressive sensing for spatial-multiplexing cameras[C]//2012 IEEE International Conference on Computational Photography(ICCP),2012:1-10.
[3]Haixiao L,Bin S,Hao Q,et al.A dictionary generation scheme for block-based compressed video sensing[C]//2011 IEEE International Conference on Signal Processing,Communications and Computing(ICSPCC),2011:1-5.
[4]Girod B,Aaron A M,Rane S,et al.Distributed video coding[J].Proceedings of the IEEE,2005,93(1):71-83.
[5]Aaron A,Zhang R,Girod B.Wyner-Ziv coding of motion video[C]//The Thirty-Sixth Asilomar Conference on Signals,Systems and Computers,2002:240-244.
[6]Brites C,Ascenso J,Pereira F.Improving transform domain Wyner-Ziv video coding performance[C]//Proceedings 2006 IEEE International Conference on Acoustics Speech and Signal Processing,2006.
[7]Baron D,Duarte M F,Wakin M B,et al.Distributed compressive sensing[J].arXiv preprint arXiv:0901.3403,2009.
[8]Prades-Nebot J,Ma Y,Huang T.Distributed video coding using compressive sampling[C]//2009 Picture Coding Symposium(PCS 2009),2009:1-4.
[9]Kang L W,Lu C S.Distributed compressive video sensing[C]//2009 IEEE International Conference on Acoustics,Speech and Signal Processing,2009:1169-1172.
[10]李然.圖像與視頻壓縮感知研究[D].南京:南京郵電大學,2014.
[11]Shirazinia A,Chatterjee S,Skoglund M.Analysis-by-synthesisquantization forcompressed sensing measurements[J].IEEE Transactions on Signal Processing,2013,61(22):5789-5800.
[12]Baig Y,Lai E M K,Lewis J P.Quantization effects on compressed sensing video[C]//2010 IEEE 17th International Conference on Telecommunications(ICT),2010:935-940.
[13]Qian C,Zheng B,Lin B.Nonuniform quantization for block-based compressed sensing of images in differential pulse-code modulation framework[C]//2014 2nd International Conference on Systems and Informatics(ICSAI),2014:791-765.
[14]Li R,Liu H,Xue R,et al.Compressive-Sensing-Based video codec by autoregressive prediction and adaptive residual recovery[J].International Journal of Distributed Sensor Networks,2015:151.
[15]Lloyd S.Leastsquaresquantization in PCM[J].IEEE Transactions on Information Theory,1982,28(2):129-137.