段宏偉
(山西職業(yè)技術(shù)學(xué)院 數(shù)控系, 山西 太原 030006)
視頻圖像具有可壓縮性和稀疏性, 它們可以在特定的正交基或框架下稀疏表示. 然而, 傳統(tǒng)的成像系統(tǒng)是對視頻圖像的所有數(shù)據(jù)進(jìn)行采集, 然后再對其進(jìn)行壓縮. 在這個過程中, 視頻圖像的稀疏性被忽略, 浪費(fèi)了有限而寶貴的資源. 研究表明, 壓縮感知(Compressive Sensing, CS)[1]理論具有開發(fā)視頻圖像方面的潛力, 該技術(shù)將視頻信號的采集和壓縮結(jié)合在一起, 并可直接獲取壓縮過的信號. 與傳統(tǒng)的成像系統(tǒng)不同, 該技術(shù)致力于最小化信號冗余的采集, 從而提高了采樣效率.
壓縮感知已成功應(yīng)用于視頻采集中. 文獻(xiàn)[2]提出了將2D小波變換CS應(yīng)用到視頻中的每一幀, 并提出了逐幀壓縮采樣的方法, 視頻中的每一幀被視為獨(dú)立的圖像. 這種方法利用視頻幀的空域冗余, 提高了視頻的采樣效率, 然而, 其未涉及視頻的空域冗余. 為了解決這個問題, 文獻(xiàn)[3]提出了幀間差異壓縮感知的方法, 對相鄰幀之間的差異而非原始幀進(jìn)行測量. 這種方法的缺點(diǎn)是, 所有的幀之間存在依賴性, 如果某一幀沒有得到很好的恢復(fù), 重建誤差會擴(kuò)散到后面的視頻幀, 甚至整個視頻.
視頻壓縮感知的另一種方法為三維變換壓縮感知, 將整個視頻看作一個數(shù)據(jù)塊, 對整個視頻同時進(jìn)行處理[2]. 這種方法可以有效利用視頻中的空域和時域稀疏性. 為了獲得更高的稀疏性, 文獻(xiàn)[4]中提出了使用Li-MAT[5]作為稀疏基的視頻壓縮感知方法, 該算法利用視頻相鄰幀之間的運(yùn)動補(bǔ)償, 獲得比其他常規(guī)的三維變換更高的稀疏度. 但是這種方法需要在多個尺度上計算相鄰幀的運(yùn)動矢量, 計算復(fù)雜度大. 為了利用有限的測量值進(jìn)行自適應(yīng)采樣, 一種基于視頻塊的采樣框架在文獻(xiàn)[6-7]中被提出, 首先每一幀被劃分成不重疊的小塊, 然后根據(jù)小塊的時域變化對其進(jìn)行分類. 然而實(shí)施小塊分類和不同的采樣策略增加了算法的時間成本, 而且該算法對分類器的設(shè)計過于敏感.
由于視頻在不同稀疏基上的稀疏性并不相同, 本文設(shè)計了一個新的基于過完備字典的視頻壓縮感知系統(tǒng). 在這個框架下, 視頻同樣被分為時間-空間的小塊, 為每個小塊采集相同數(shù)量的測量值. 為了視頻的有效重構(gòu), 系統(tǒng)使用K-SVD方法為視頻塊訓(xùn)練了一種嚴(yán)格稀疏的過完備字典, 這樣視頻塊的時間-空間稀疏性可以得到最大化的利用, 從而保證視頻的高質(zhì)量恢復(fù).
假設(shè)x∈RN是一個可以在某個正交基或框架上稀疏表示的信號,x=Ψα,α∈RN只有K?N個非零項, 則x是一個在稀疏基Ψ上K稀疏的信號. 壓縮感知允許對信號進(jìn)行非相干測量,y=Φx在隨機(jī)投影域?qū)π盘栠M(jìn)行采集. 根據(jù)壓縮感知理論, 為了從采樣值y重建原始信號x, 需要對下列問題進(jìn)行求解,
min‖α‖1s.t. ‖s-Φx‖2≤ε,(1)
式中: ‖·‖1表示l1范數(shù);ε為一個正常數(shù). 各國研究者已經(jīng)提過很多不同的算法來解決這個問題, 如正交匹配追蹤(OMP)[8], 分段正交匹配追蹤(StOMP)[9]和基追蹤(BP)[10]等. 此外, 對于圖像來講, 另一種還原方法是最小變分法. 設(shè)x為一個向量化后的圖像, 那么重構(gòu)問題可以寫為
(2)
其中,
‖x‖TV=
它可以看做圖像l1范數(shù)的梯度.
不同于傳統(tǒng)的視頻采集系統(tǒng), 本系統(tǒng)將視頻采樣和壓縮結(jié)合在一起, 可以同時有效利用視頻在空間和時間上的稀疏性. 此外, 所設(shè)計的算法還將視頻場景內(nèi)容的多樣性和視頻不同部分之間的差異性應(yīng)用于過完備字典的自適應(yīng)學(xué)習(xí)中.
如圖 1 所示, 視頻中的每一幀圖像被分為相同大小的n×n個不重疊的小塊, 然后使用矩陣Φi對各個小塊進(jìn)行測量.
圖 1 基于過完備字典的視頻壓縮感知結(jié)構(gòu)圖Fig.1 Block diagram of video compressive based on over-completed dictionary
式中:Φ為測量矩陣.
本節(jié)討論基于稀疏性約束的視頻塊過完備字典學(xué)習(xí)算法. 為了保證字典的通用性, 盡量使用具有復(fù)雜紋理和空域變化的視頻塊來對字典進(jìn)行初始化, 本文選擇了各種視頻, 如運(yùn)動的汽車, 流水, 騎馬和其它不同的紋理變化. 在本文所設(shè)計的字典中, 任何視頻的時間-空間小塊都可以被表示為有限個字典元素的線性和.
圖 2 部分過完備稀疏字典Fig.2 Part of over-completed dictionary
在字典訓(xùn)練的初始階段, 每個視頻塊都選自具有相同幀率的不同視頻, 每個視頻塊被裁剪為大小8×8×8. 為了保證視頻字典的多樣性, 將每個視頻字典原子進(jìn)行8個方向的旋轉(zhuǎn)并進(jìn)行前向和后向的播放. 總共選擇了100 000個原子作為初始字典并使用K-SVD訓(xùn)練方法[11]對字典進(jìn)行訓(xùn)練, 圖 2 展示了部分字典. 對于一個視頻塊E, 它將可以被表示為
E=Dα,(4)
式中:D為訓(xùn)練好的字典. 式(1)中所示的重構(gòu)問題將變?yōu)?/p>
(5)
為了測試系統(tǒng)的適應(yīng)性, 實(shí)驗在不同紋理復(fù)雜度和不同目標(biāo)運(yùn)動的視頻上進(jìn)行. 為了方便, 所有實(shí)驗中的視頻幀被裁剪為256×256, 它們被分割為8×8×8的時間-空間塊. 使用采樣比例來測量系統(tǒng)的有效性, 采樣比例為測量值數(shù)目和總像素數(shù)目的比值. 實(shí)驗對不同算法的視覺質(zhì)量和峰值信噪比進(jìn)行了比較, 每種算法都對相同的50個視頻進(jìn)行試驗并計算出平均值. 對所有算法使用相同的采樣比例和壓縮感知重構(gòu)算法, 系統(tǒng)使用“l(fā)1-magic”[12]工具箱中的內(nèi)點(diǎn)法進(jìn)行重構(gòu).
圖 3 所示為不同采樣比例下本文算法的重建結(jié)果. 很明顯, 本文所提方法在即使測量比例低至5%的情況下依然可以獲得令人滿意的結(jié)果. 在采樣比例逐漸提高的過程中, 重建結(jié)果獲得了質(zhì)量提升, 小塊之間的不兼容性逐漸減少, 到達(dá)25%采樣比例時幾乎所有的塊狀效應(yīng)都已經(jīng)消失. 幀內(nèi)部的紋理信息在低采樣率的情況下依然可以得到較好的恢復(fù).
圖 3 不同采樣比例下結(jié)果Fig.3 Visual comparison under different measurement ratio
圖 4 和圖 5 給出了在相同采樣比例下不同算法的重構(gòu)結(jié)果比較. 由于2.2節(jié)中所訓(xùn)練的字典可以使采集信號獲得更高的稀疏性, 在相同的采樣比例下, 本文算法可以獲得比其他現(xiàn)有算法更加優(yōu)秀的結(jié)果. 由圖4可見, 本文算法可以有效恢復(fù)出視頻的紋理和幀間的目標(biāo)運(yùn)動. 在采樣比例為5%時本文算法雖有塊狀效應(yīng), 但基本輪廓和紋理信息可見, 其它算法很難辨別出恢復(fù)結(jié)果.
由圖5可見, 在采樣比例為25%時, 本文算法的結(jié)果基本為原圖, 而其它算法的輪廓較為模糊, 內(nèi)部紋理信息不如本文算法優(yōu)秀.
圖 4 采樣比例為5%時不同算法相同采樣比例下的結(jié)果Fig.4 Visual comparison for different methods when the measurement ratio is 5%
圖 5 采樣比例為25%時不同算法相同采樣比例下的結(jié)果Fig.5 Visual comparison for different methods when the measurement ratio is 25%
本節(jié)比較了相同采樣比例下不同方法的峰值信噪比(PSNR). 使用了50個不同的視頻作為實(shí)驗對象并求平均值. 如圖 6 所示, 本文算法達(dá)到了最好的PSNR, 尤其當(dāng)采樣率較低時, 由于采用稀疏基下的系數(shù)求解而后得到重構(gòu)視頻, 稀疏度的影響在此框架下非常重大.
三維視頻字典的效率和效果非常明顯, 遠(yuǎn)優(yōu)于其他常規(guī)的標(biāo)準(zhǔn)正交基或分析基. 使用相同的測量值, 本文算法可以獲得最少的誤差, 同時可以獲得最好的視覺質(zhì)量.
圖 6 不同算法相同采樣比例下的峰值信噪比比較Fig.6 PSNR of different methods under the same measurement ratio
本文提出了一種新的視頻壓縮感知系統(tǒng), 該系統(tǒng)采用過完備字典作為稀疏基以獲得更高的稀疏度. 在此框架下, 視頻被分為不重疊的空間-時間小塊, 并對其進(jìn)行分別測量. 在重構(gòu)階段時間-空間小塊可以進(jìn)行聯(lián)合重構(gòu), 實(shí)驗表明重構(gòu)結(jié)果在高稀疏度的影響下更加優(yōu)化. 此外, 提出的視頻壓縮感知系統(tǒng)有效提高了視頻的采樣效率, 同時利用了視頻時間和空間上的冗余, 在采樣比例低至5%的情況下依然可以獲得了令人滿意的結(jié)果.
參考文獻(xiàn):
[1] Donoho D L. Compressive sensing[J]. IEEE Transactions on Information Theory, 2006, 52: 1289-1306.
[2] Wakin M, Laska J, Duarte M F, et al. Compressive imaging for video representation and coding[C]. Picture Coding Symp (PCS), Beijing, 2006: 716-731.
[3] Zheng J, Jacobs E L. Video compressive sensing using spatial domain sparsity[J]. Optical Engineering, 2010, 48(8): 1-10.
[4] Park J Y, Wakin M B. A multi-scale framework for compressive sensing of video[C]. Picture Coding Symp (PCS), Chicago, 2009: 1-4.
[5] Secker A, Taubman D. Lifting-based invertible motion adaptive transform framework for highly scalable video compression[J]. IEEE Transaction on Image Processing, 2003, 12(12): 1530-1542.
[6] Liu Z, Elezzabi A Y, Zhao H V, et al. Block-based adaptive compressed sensing for video[C]. IEEE International Conference on Image Processing (ICIP), HongKong, 2010: 133-142.
[7] Liu Z, Elezzabi A Y, Zhao H V, et al. Maximum frame rate video acquisition using adaptive compressed sensing[J]. IEEE Transaction on Circuits and Systems for Video Technology, 2011, 21(11): 1704-1718.
[8] Tropp J A, Gilbert A C. Signal recovery from random measurements via orthogonal matching pursuit[J]. IEEE Transactions on Information Theory, 2008, 53(12): 4655-4666.
[9] Drori D D, Donoho D L, Tsaig Y, et al. Sparse solution of underdetermined linear equations by stage-wise orthogonal matching pursuit[C]. IEEE Transactions on Information Theory, 2012, 58: 1094-1121.
[10] Candes E, Tao T. Robust uncertainty principles: exact signal reconstruction from highly incomplete frequency information[J]. IEEE Transactions on Information Theory, 2006, 52(2): 489-509.
[11] Aharon M, Elad M, Bruckstein A. K-SVD: an algorithm for designing over-complete dictionaries for sparse representation[J]. IEEE Transactions on Signal Processing, 2006, 54(11): 4311-4322.
[12] Candes E, Romberg J. l1-magic: recovery of sparse signals via convex programming[EB/OL]. http:∥users.ece.gatech.edu/ justin/l1magic, 2011-10-11.