武明虎,李 然,陳 瑞,朱秀昌
(1.湖北工業(yè)大學(xué) a.電氣與電子 工程學(xué)院;b.太陽能高效利用湖北省協(xié)同創(chuàng)新中心,湖北 武漢 430068;2.南京郵電大學(xué) 江蘇省圖像處理與圖像通信重點實驗室,江蘇 南京 210003;3.南京工程學(xué)院 通信工程學(xué)院,江蘇 南京 211167)
自適應(yīng)PCA稀疏基底的分布式視頻壓縮感知重構(gòu)
武明虎1a,1b,李 然2,陳 瑞3,朱秀昌2
(1.湖北工業(yè)大學(xué) a.電氣與電子 工程學(xué)院;b.太陽能高效利用湖北省協(xié)同創(chuàng)新中心,湖北 武漢 430068;2.南京郵電大學(xué) 江蘇省圖像處理與圖像通信重點實驗室,江蘇 南京 210003;3.南京工程學(xué)院 通信工程學(xué)院,江蘇 南京 211167)
為了提高分布式視頻壓縮感知(Distributed Video Compressive Sensing,DVCS)的率失真性能,提出利用自適應(yīng)稀疏基底進行聯(lián)合重構(gòu)。算法利用幀間運動信息形成樣本數(shù)據(jù)矩陣,再利用主成分分析(Principle Components Analysis,PCA)訓(xùn)練出其顯著主成分構(gòu)成稀疏字典,該稀疏字典不僅可根據(jù)視頻時空統(tǒng)計特征自適應(yīng)變化而且可有效地抑制噪聲。仿真實驗表明,該聯(lián)合重構(gòu)算法可有效地改善主客觀視頻重構(gòu)質(zhì)量,能夠以一定的計算復(fù)雜度為代價提高DVCS系統(tǒng)的率失真性能。
壓縮感知;分布式視頻壓縮感知;主成分分析;自適應(yīng)稀疏基底
壓縮感知(Compressive Sensing,CS)的基本思想是以欠奈奎斯特速率采樣信號,通過直接降維的方式在采樣的同時壓縮信號,并充分利用信號的稀疏先驗知識復(fù)原信號[1-2]。CS測量方式以線性內(nèi)積方式實現(xiàn),具有較低的計算復(fù)雜度,但重構(gòu)時卻需要利用高計算負擔的非線性優(yōu)化算法,這種“輕編碼、重解碼”的特點使得CS理論與分布式視頻編碼(Dis?tributed Video Coding,DVC)[3]相結(jié)合,形成了一種新的視頻壓縮技術(shù)——分布式視頻壓縮感知(Distributed Video Compres? sive Sensing,DVCS)[4-6],獲得了廣泛關(guān)注。
將CS應(yīng)用到三維視頻壓縮中時,需要先克服視頻CS測量所需內(nèi)存巨大的問題,目前存在兩種方案可有效解決該問題,第一種是采用結(jié)構(gòu)化隨機測量矩陣(Structurally Radom Matrices,SRMs)[7-8]實現(xiàn)視頻幀CS測量,SRMs矩陣可利用快速正交變換算法以算子形式等價實現(xiàn),從而避免構(gòu)造需耗費大量內(nèi)存的測量矩陣;另一種是采用分塊壓縮感知(Block Compressed Sensing,BCS)方式測量視頻幀[9],這種測量方式不僅可實現(xiàn)低內(nèi)存CS測量,且可逐塊測量逐塊發(fā)送,十分適合實時應(yīng)用場合,因此其在DVCS中普遍獲得使用[10-11]。在DVCS中,視頻流被拆分為關(guān)鍵幀和非關(guān)鍵幀,關(guān)鍵幀可使用傳統(tǒng)幀內(nèi)視頻編碼技術(shù)(例如H.264)進行編解碼或者以高測量率采樣視頻,并利用靜止圖像CS重構(gòu)算法[12-14]進行復(fù)原。由于非關(guān)鍵幀的測量率較低,所以需要充分利用幀間和幀內(nèi)相關(guān)性進行聯(lián)合重構(gòu)。文獻[5]利用前后參考幀運動補償內(nèi)插出非關(guān)鍵幀的邊信息SI(Side Information),再利用GPSR算法[15]重建非關(guān)鍵幀;文獻[6]利用在時間上相鄰的塊,構(gòu)造出基于關(guān)鍵幀的稀疏字典,再利用適當?shù)乃惴A(yù)測出SI,最后使用靜止圖像CS重建算法重構(gòu)出SI與原始幀的殘差以增強重構(gòu)精度;文獻[16]首先使用CS重構(gòu)算法進行獨立幀內(nèi)重構(gòu),再聯(lián)合前后參考幀采用運動估計和運動補償預(yù)測出SI,最后復(fù)原殘差;文獻[17]利用傳統(tǒng)視頻編碼中的多假設(shè)(Multiple Hypotheses,MH)概念構(gòu)造出各塊的候選塊集合,并以L2范數(shù)形式的Tikhonov正則化項代替L1范數(shù)形式的稀疏正則化項預(yù)測出非關(guān)鍵幀的SI,有效提升了重建速度和預(yù)測精度。
雖然上述方法獲得了較好的視頻重建質(zhì)量,但是視頻時空統(tǒng)計特性隨時間變化,非關(guān)鍵幀的稀疏基底無法根據(jù)參考幀重建質(zhì)量自適應(yīng)變化和消除噪聲。針對這個缺陷,本文提出一種自適應(yīng)稀疏基底構(gòu)造方法,該方法利用相鄰幀間的運動信息尋找到非關(guān)鍵幀各塊在參考幀的匹配塊,并抽取其鄰近塊形成數(shù)據(jù)矩陣,由于參考幀往往包含噪聲,因此利用主成分分析(Principle Components Analysis,PCA)計算出數(shù)據(jù)矩陣的主成分,挑選出其中較顯著的主成分形成最終的稀疏字典。利用PCA訓(xùn)練得到的稀疏字典與待重構(gòu)塊具有較大相關(guān)性,所以可充分地發(fā)掘非關(guān)鍵幀的稀疏性,從而提高了其重建精度。在進行大量的仿真并分析其結(jié)果后,可以表明本文提出的CS重構(gòu)算法,對分布式視頻壓縮感知系統(tǒng)的率失真性能有明顯的提升,可得到較好的主客觀視頻重建效果。
本文所提出的DVCS框架如圖1所示。
圖1 分布式視頻壓縮感知框架
首先,將原始視頻分為關(guān)鍵幀和非關(guān)鍵幀,并對關(guān)鍵幀和非關(guān)鍵幀都利用分塊壓縮感知BCS[9]進行測量
式中:ytn為長度為MB的觀測值向量;ΦB為高斯隨機測量矩陣;xtn為第n個子塊的列向量。定義測量率S=MB/B2。
針對非關(guān)鍵幀,利用參考幀和當前非關(guān)鍵幀xt的各塊CS觀測值ytn,形成相對應(yīng)的自適應(yīng)PCA稀疏基底正則化項,構(gòu)造出CS重構(gòu)模型并求解之,可得到當前非關(guān)鍵幀的預(yù)測幀(即SI)xSI。為了進一步提高非關(guān)鍵幀的重構(gòu)質(zhì)量,最后再進行殘差重構(gòu)。
視頻幀的統(tǒng)計特性是非平穩(wěn)的,并不存在最優(yōu)的固定稀疏基底(例如DCT基、小波基等)。為了能夠充分發(fā)掘視頻的稀疏性,應(yīng)構(gòu)造出與視頻幀內(nèi)容相關(guān)的自適應(yīng)稀疏基底。文獻[6,17]均直接利用待重構(gòu)塊在參考幀中的時間鄰域塊構(gòu)造出稀疏字典,這種基于時間鄰域塊的稀疏字典雖然可隨視頻統(tǒng)計特性自適應(yīng)變化,但其并不能始終保持與待重構(gòu)塊的高相關(guān)性,主要原因有兩點:1)幀間存在運動;2)重構(gòu)參考幀含有一定噪聲。為了克服這兩個缺陷,本文提出首先利用待重構(gòu)塊的CS觀測值進行運動估計,搜索到其在相鄰幀的最佳匹配塊,并利用最佳匹配塊的空間鄰域塊生成數(shù)據(jù)矩陣,由于數(shù)據(jù)矩陣包含噪聲,再利用PCA訓(xùn)練出數(shù)據(jù)矩陣的主成分,挑選出較顯著的主成分作為最終的稀疏基底以抑制噪聲。以P幀情形為例,具體的構(gòu)造步驟如下:
步驟1:設(shè)當前非關(guān)鍵幀待重構(gòu)塊xtn的CS觀測值為ytn,由于高斯隨機測量矩陣ΦB具有受限等距性(Restricted Isome?try Property,RIP)[18],因此xtn與其相鄰幀的候選匹配塊xcj之間的殘差能量在測量域近似保持不變
那么,基于塊匹配的運動估計可在測量域中直接進行
式中:S是尺寸為2S1×2S1的搜索窗口。如圖2所示,以最佳匹配塊xbn為中心,作半徑為S2的搜索窗口,在窗口內(nèi)逐像素抽取尺寸為B×B的塊xpk,然后拉成列向量并按列排序為數(shù)據(jù)矩陣Xp=[xp1,xp2,…,xpK],其中K=2S2×2S2。
圖2 數(shù)據(jù)矩陣Xp的構(gòu)造示意圖(P幀情形)
步驟2:由于構(gòu)成數(shù)據(jù)矩陣Xp的各塊xpk含有噪聲,因此直接使用其作為稀疏字典并不是最優(yōu)方案。采用PCA技術(shù)可訓(xùn)練出能夠消除塊xpk像素間統(tǒng)計冗余的正交變換矩陣P,利用該矩陣對圖像子塊作變換,可有效地分離數(shù)據(jù)矩陣Xp的有用信息和噪聲。
首先,計算Xp的d×d(d=B2)協(xié)方差矩陣Ωp,即
再計算出協(xié)方差矩陣Ωp的d個特征值η1≥η2≥…≥ηd和相對應(yīng)的規(guī)范化特征向量(主成分)p1,p2,…,pd,則可知正交變換矩陣P=[p1,p2,…,pd]。
步驟3:為了能夠有效地分離數(shù)據(jù)矩陣Xp的噪聲和有用信息,應(yīng)尋找到能盡可能稀疏表示Xp中所有塊xpn的稀疏字典Dn,即滿足如下公式
式中:Λn是Xp在Dn上的系數(shù)矩陣;||·||F為Frobenius范數(shù)??蓮恼蛔儞Q矩陣P中分離出r個最顯著的主成分形成字典Dnr=[p1,p2,…,pr],且在Dnr下的系數(shù)矩陣Λnr可簡便地計算,即Λnr=DnrT·Xp。在式(6)中的重構(gòu)誤差||Xp-DnrΛnr||F2將隨著r的升高而降低,而項||Λnr||1則會升高,所以r的最優(yōu)值r*可由式(7)決定
最后,得到待重構(gòu)塊xtn的稀疏字典Dn=[p1,p2,…,pr*]。
步驟4:利用通過PCA學(xué)習(xí)到的稀疏字典Dn,構(gòu)造如下的CS重構(gòu)模型
該式可利用GPSR算法求解出xtn在Dn下的稀疏表示系數(shù)αtn,最后重構(gòu)出預(yù)測塊
實驗采用的標準測試序列為:News,Bus,F(xiàn)oreman和Mo?bile。本文將偶數(shù)幀假設(shè)為非關(guān)鍵幀(P幀或B幀),奇數(shù)幀假設(shè)為關(guān)鍵幀(I幀)。本文所提出算法將在I-P-I模式和I-B-I模式兩種不同的預(yù)測模式下進行。關(guān)鍵幀采用MH-BCS-SPL算法[14]進行獨立幀內(nèi)重建;針對非關(guān)鍵幀,分別采用文獻[6]和文獻[16]的算法進行重建,并與本文所提出的聯(lián)合CS重建算法進行比較。本文算法,即重構(gòu)模型(8),命名為APCA。具體參數(shù)設(shè)置如下:關(guān)鍵幀的測量率SK=0.7,B=16,搜索窗口半徑S1=S2=B;圖像子塊半徑b=3;挑選圖像子塊的閾值t=20;正則化因子λ1=0.2和λ2=0.5/k;c=10。評價性能的指標分別為PSNR、SSIM[22]和重構(gòu)時間。
在模式為I-P-I時,各種算法重構(gòu)出所有非關(guān)鍵幀的平均PSNR值和SSIM值如表1所示。分析表1的數(shù)據(jù)可得出,APCA重構(gòu)出視頻的SSIM值和PSNR值均高于文獻[6]和文獻[16]的算法。圖3中顯示了Foreman第8幀,測量率SNK=0.3時,各算法重構(gòu)出的主觀效果,通過主觀視覺上的對比,可看出所提出算法可消除重構(gòu)視頻的模糊和塊效應(yīng)現(xiàn)象(嘴唇處),獲得良好的主觀視覺質(zhì)量。
表1 I-P-I模式下,不同測量率下各視頻重構(gòu)算法的性能比較
圖3 主觀視覺對比圖(Foreman第8幀)
表2列出了預(yù)測模式為I-B-I時,3種算法重構(gòu)出所有非關(guān)鍵幀的平均PSNR值和SSIM值。首先,與I-P-I預(yù)測模式對比,視頻的重構(gòu)質(zhì)量均得到改善,這是因為B幀情形不僅利用到了先前重構(gòu)幀的信息,而且利用了未來重構(gòu)幀的信息。各算法之間的性能差異與I-P-I預(yù)測模式相似,APCA算法重構(gòu)出視頻的PSNR值和SSIM值均高于文獻[6]和文獻[16]的算法。圖4顯示了測量率SNK=0.3時,各算法重構(gòu)出的Mobile第4幀,可看出所提出算法能夠獲得良好的主觀視覺質(zhì)量。
表2 I-B-I模式下,不同測量率下各視頻重構(gòu)算法的性能比較
圖4 主觀視覺對比圖(Mobile第4幀)
表3顯示當測量率SNK=0.3時,重構(gòu)Foreman序列的每一幀所需的平均時間。首先,可看出,I-P-I模式下所有算法的重構(gòu)時間低于I-B-I模式,因此可知I-B-I模式重構(gòu)質(zhì)量的改善是以增加一定計算復(fù)雜度為代價的。另外,在任一預(yù)測模式下,本文所提出算法均加大了計算復(fù)雜度以獲得視頻重構(gòu)質(zhì)量的升高,這主要因為無論是在重構(gòu)預(yù)測幀時還是在重構(gòu)殘差時,都引入了一定迭代。這也說明了本文算法的良好性能也是以增加一定計算復(fù)雜度為代價的。
表3 重構(gòu)Foreman序列的時間對比(SNK=0.3)
本文利用視頻幀間相關(guān)性構(gòu)造出自適應(yīng)PCA稀疏基底,提出了提高DVCS系統(tǒng)率失真性能的聯(lián)合CS重構(gòu)算法。由于視頻幀的時空統(tǒng)計特性隨時間變化,使用固定的稀疏基底無法有效地對視頻幀進行稀疏表示,而直接從鄰近參考幀抽取樣本形成的字典雖然可隨視頻內(nèi)容自適應(yīng)改變,但卻并不是最優(yōu)方案,其原因是基于樣本的稀疏字典缺乏幀間運動估計和參考幀包含噪聲。本文所提出的稀疏基底構(gòu)造法首先利用當前幀的CS觀測值在測量域進行運動估計,再利用運動信息在相鄰參考幀抽取樣本形成數(shù)據(jù)矩陣,然后利用PCA計算出數(shù)據(jù)矩陣的顯著主成分組成最終的稀疏字典以抑制噪聲。本文所提出的算法在損失一定計算復(fù)雜度的前提下,有效地提高了分布式視頻壓縮感知系統(tǒng)的率失真性能,獲得較好的主客觀視頻重建質(zhì)量。
[1] BARANIUK R G.Compressive sensing[J].IEEE Signal Process?ing Magazine,2007,24(4):118-121.
[2]ELDAR Y C,KUTYNIOK G.Compressed sensing:theory and ap?plications[M].Cambridge:Cambridge University Press,2012:1-5.
[3]GIROD B,ARON A M,RANE S,et al.Distributed video coding [J].Proceedings of the IEEE,2005,93(1):71-83.
[4]BARON D,DUARTEM F,WAKIN M B,et al.Distributed com?pressive sensing[EB/OL].[2014-02-12]. www. arxiv.org/abs/ 0901.3403.
[5] KANG L W,LU C S.Distributed video compressive sensing[C]// Proc.IEEE International Conference on Acoustics,Speech and Signal Processing.Taipei:IEEE Press,2009:1169-1172.
[6] DO T T,CHEN Y,NGUYEN D T,et al.Distributed com?pressed video sensin[C]//Proc.IEEE International Conference on Image Processing.Cario,Egypt:IEEE Press,2009:1393-1396.
[7] DO T,GAN L,NGUYEN N,et al.Fast and efficient compres?sive sensing using structurally random matrices[J].IEEE Trans.Signal Processing,2012,60(1):139-154.
[8] LIKezhi,GAN Lu,LING Cong.Convolutional compressed sens?ing using deterministic sequences[J].IEEE Trans.Signal Process?ing,2013,61(2):740-752.
[9] GAN L.Block compressed sensing of natural images[C]//Proc.In?ternational Conference on Digital Siagnal Processing.Cardiff,UK:IEEE Press,2007:403-406.
[10]OECHARD G,ZHANG J,SUO Y,et al.Real time compres?sive sensing video reconstruction in hardware[J].IEEE Journal on Emerging and Selected Topics in Circuits and Systems,2012,2(3):604-614.
[11] HOLLOWAY J,SANKARANARAYANAN A C,VEERA?RAGHAVAN A,et al.Flutter shutter video camera for compres?sive of videos[C]//Proc.IEEE International Conference on Com?putational Photography.Seattle,WA:IEEE Press,2012:1-9.
[12]WU X L,DONGW S,ZHANG X J,et al.Model-assisted adap?tive recovery of compressed sensing with imaging application[J].IEEE Trans.Image Processing,2012,21(2):451-458.
[13] MUN S,F(xiàn)OWLER JE.Block compressed sensing of images us?ing directional transforms[C]//Proc.International Conference on Image Processing.Cario,Egypt:IEEE Press,2009:3021-3024.
[14]CHEN C,TRAMEL E W,F(xiàn)OWLER J E.Compressed sensing recovery of images and video using multihypothesis predictions [C]//Proc.Conference Record of the Forty Fifth Asilomar Confer?ence.Pracific Grove,CA:IEEE Press,2011:1193-1198.
[15]FIGUEIREDO M A T,NOWAK R D,WRIGHT S J.Gradient projection for sparse reconstruction:application to compressed sensing and other inverse problems[J].IEEE Journal Selected Topics in Signal Processing,2007,1(4):586-597.
[16] MUN S,F(xiàn)OWLER JE.Residual reconstruction for block-based compressed sensing of video[C]//Proc.Data Compression Confer?ence.Snowbird,UT:IEEE Press,2011:183-192.
[17]TRAMEL E W,F(xiàn)OWLER J E.Video compressed sensing with multihypothesis[C]//Proc.Data Compression Conference.Snow?bird,UT:IEEE Press,2011:193-202.
[18] CANDES E,WAKIN M.An introduction to compressive sam?pling[J].IEEE Signal Processing Magazine,2008,25(2):21-30.
[19] REN Jie,ZHUO Yue,LIU Jiaying,et al.Illumination-invariant non-localmeans based video denoising[C]//Proc.19th IEEE In?ternational Conference on Image Processing.Orlando,F(xiàn)L:IEEE Press,2012:1185-1188.
[20]SHEN Y C,WANG P S,WU J L.Progressive side information refinement with non-local means based denoising process for Wyner-Ziv video coding[C]//Proc.Data Compression Confer?ence.Snowbird,UT:IEEE Press,2012:219-226.
[21]KIM D,KEUM B,AHN H,et al.Empirical non-local algorithm for image and video denoising[C]//Proc.IEEE International Con?ference on Consumer Electronics.Las Vegas,NV:IEEE Press,2013:498-499.
[22]WANG Z,BOVIK A C,SHEIKH H R,et al.Image quality as?sessment:from error visibility to structural similarity[J].IEEE Trans.Image Processing,2004,13(4):600-611.
責任編輯:時 雯
Distributed Video Com p ressive Sensing Reconstruction Based on Adaptive PCA Sparse Basis
WU Minghu1a,1b,LI Ran2,CHEN Rui3,ZHU Xiuchang2
(1a.School of Electrical and Electronic Engineering;1b.Hubei Collaborative Innovation Center for High-efficiency Utilization of Solar Energy,Hubei University of Technology,Wuhan 430068,China;2.Image Processing&Image Communication Key Lab,Nanjing University of Posts and Telecommunications,Nanjing 210003,China)3.School of Communication Engineering,Nanjing Institute of Technology,Nanjing 211167,China)
To improve the rate-distortion performance of distributed video compressive sensing(DVCS),the adaptive sparse basis is proposed to reconstruct the video signal in this paper.The proposed algorithm firstly generates the example-based data matrix using the motion information between frames,and then uses principle components analysis(PCA)to train its some significant principle components from which the sparse dictionary is constructed.This sparse dictionary can not only adaptively change in terms of the spatial-temporal characteristics,but also has ability to suppress noises.The simulation experiments show that the proposed joint reconstruction algorithm can effectively improve the objective and subjective quality of video,and enhance the rate-distortion performance of DVCS system at the cost of a certain computational complexity.
compressive sensing;distributed video compressive sensing;principle components analysis;adaptive sparse basis
TN911.73
A
10.16280/j.videoe.2015.02.017
2014-04-06
國家自然科學(xué)基金項目(61471162;61201160);湖北省自然科學(xué)基金(面上)項目(2014CFB589);湖北省教育廳科學(xué)研究計劃資助項目(D20141406);江蘇省自然科學(xué)基金(面上)項目(BK 20131377;BK 20141389)
【本文獻信息】武明虎,李然,陳瑞,等.自適應(yīng)PCA稀疏基底的分布式視頻壓縮感知重構(gòu)[J].電視技術(shù),2015,39(2).