楊森林,萬國賓
(1.西安文理學(xué)院 陜西省表面工程與再制造重點(diǎn)實(shí)驗(yàn)室, 陜西 西安 710065;2.西北工業(yè)大學(xué) 電子與信息學(xué)院, 陜西 西安 710072)
在未來無線多媒體視頻傳感器網(wǎng)絡(luò)系統(tǒng)中,將大量采用低成本和低復(fù)雜度的視頻傳感器。當(dāng)這種低功耗設(shè)備大規(guī)模部署時(shí),常規(guī)的H.26x預(yù)測(cè)視頻編碼在這種視頻傳感器編碼應(yīng)用中就會(huì)遇到嚴(yán)峻挑戰(zhàn)[1],傳統(tǒng)預(yù)測(cè)不適合低功耗無線視頻傳感器編碼。Candes和Romberg提出的壓縮感知(CS)理論[2],突破了傳統(tǒng)的奈奎斯特-香農(nóng)采樣定理的限制,能夠?qū)崿F(xiàn)信號(hào)的壓縮采樣,并通過優(yōu)化算法對(duì)原始信號(hào)精確重構(gòu)。視頻壓縮采集所需計(jì)算能力小、功耗低和帶寬窄,在接收節(jié)點(diǎn)完成視頻信息重構(gòu),非常適合于移動(dòng)視頻、無線多媒體網(wǎng)絡(luò)等應(yīng)用場(chǎng)合。根據(jù)CS理論,實(shí)現(xiàn)流媒體系統(tǒng)視頻的有效壓縮和精確重建需要對(duì)視頻信號(hào)進(jìn)行有效的稀疏表示和壓縮測(cè)量。在視頻壓縮研究中,通常采用離散余弦變換(DCT)或離散小波變換(DWT)對(duì)視頻幀進(jìn)行稀疏表示[3]。通常,由于全局壓縮采樣觀測(cè)矩陣所需的存儲(chǔ)需求大、重構(gòu)計(jì)算復(fù)雜度高,一般對(duì)視頻進(jìn)行分塊壓縮感知[4-5]。同時(shí),將視頻劃分為由關(guān)鍵幀和WZ幀構(gòu)成的圖像組(GOP)序列依次進(jìn)行壓縮采樣和重構(gòu)。然而,對(duì)采樣率低的WZ幀,常規(guī)單幀重構(gòu)算法重構(gòu)質(zhì)量較差。
為改善逐幀重構(gòu)的質(zhì)量,研究人員針對(duì)視頻序列的時(shí)間相關(guān)性進(jìn)行了探索。首先,Larson等采用基于幀間相關(guān)性的三維CS重構(gòu)方法[6],把一組MRI視頻幀作為一個(gè)3D數(shù)據(jù)體進(jìn)行重構(gòu)。3D重構(gòu)增加了數(shù)據(jù)維度,加劇了計(jì)算復(fù)雜度和內(nèi)存需求。Vaswani和Lu采用了已知的稀疏模式,對(duì)當(dāng)前視頻幀采用最小二乘或卡爾曼濾波進(jìn)行基于殘量預(yù)測(cè)的L1范數(shù)求解[7],也稱為修正的CS(Mod CS)。其次,基于視頻幀間的運(yùn)動(dòng)變化信息,Mun和Fowler將傳統(tǒng)視頻編碼端的運(yùn)動(dòng)矢量信息引入到重構(gòu)過程[8],提出采用兩幀之間運(yùn)動(dòng)殘量信息的CS重構(gòu)方法。進(jìn)而,基于高質(zhì)量的參考幀進(jìn)行運(yùn)動(dòng)估計(jì)與補(bǔ)償,Chen等采用k-t空間的焦點(diǎn)欠定系統(tǒng)求解策略(k-t FOCUSS)[9-10],并用于動(dòng)態(tài)MRI壓縮重構(gòu),該算法通過高質(zhì)量關(guān)鍵幀與非關(guān)鍵幀的殘量進(jìn)行雙向運(yùn)動(dòng)補(bǔ)償預(yù)測(cè)進(jìn)行壓縮重構(gòu),但k-t FOCUSS方法通常假設(shè)視頻場(chǎng)景的運(yùn)動(dòng)變化是緩慢的。此外,Fowler等提出了基于稀疏變換域的多尺度壓縮感知策略[11],對(duì)不同尺度采用多尺度非均勻采樣。然而,實(shí)際應(yīng)用中在變換域中多尺度非均勻壓縮采樣的硬件實(shí)現(xiàn)還比較困難。這些基于視頻相關(guān)性預(yù)測(cè)對(duì)于緩慢變化的視頻在一定程度上能提高壓縮重構(gòu)質(zhì)量,但是,對(duì)于一般視頻場(chǎng)景應(yīng)用和硬件實(shí)現(xiàn)受限,同時(shí)計(jì)算復(fù)雜度也較高,因此,還需要開展進(jìn)一步研究。
本質(zhì)上,常規(guī)的一維或二維信號(hào)的壓縮感知方法研究主要采用非自適應(yīng)的線性映射策略,事先假設(shè)這些信號(hào)具有固定不變的稀疏特點(diǎn),并用同樣的正交基和測(cè)量算子進(jìn)行固定采樣率的壓縮觀測(cè)。然而,實(shí)際場(chǎng)景的視頻幀信號(hào)往往是非平穩(wěn)的,其場(chǎng)景稀疏性也是隨場(chǎng)景內(nèi)容變化的。其實(shí),在壓縮感知理論前提下,要求被測(cè)量信號(hào)具有很好的稀疏特性,這是有少量觀測(cè)數(shù)據(jù)精確重構(gòu)原始信號(hào)的先決條件,在很大程度上影響壓縮觀測(cè)過程所需的觀測(cè)次數(shù)[12]。如果原始信號(hào)的稀疏特性變?nèi)?就必須進(jìn)行更多數(shù)目的壓縮觀測(cè)數(shù)據(jù)才可能完成高精度的信號(hào)重建,否則會(huì)嚴(yán)重影響信號(hào)的重構(gòu)質(zhì)量。顯然,基于實(shí)踐經(jīng)驗(yàn)設(shè)定的非自適應(yīng)壓縮感知如果用于視頻圖像的壓縮感知,將會(huì)嚴(yán)重影響視頻幀的重構(gòu)質(zhì)量,降低了視頻的觀看體驗(yàn)效果。相關(guān)人員已開展了一些自適應(yīng)壓縮感知的探索。例如,立足于構(gòu)造最優(yōu)化測(cè)量算子的貝葉斯壓縮感知[13],從理論上說能夠獲得最優(yōu)化測(cè)量矩陣并實(shí)現(xiàn)自適應(yīng)壓縮感知。然而,貝葉斯壓縮感知方法需用迭代過程優(yōu)化測(cè)量感知算子,該過程復(fù)雜耗時(shí)、不適用于海量視頻信號(hào)的實(shí)時(shí)感知。進(jìn)而,一些文獻(xiàn)采用統(tǒng)計(jì)模型實(shí)現(xiàn)信號(hào)稀疏度的自適應(yīng)逼近,包括基于拉普拉斯先驗(yàn)?zāi)P?、高斯混合模型、局部隱馬爾可夫決策驅(qū)動(dòng)模型以及自回歸模型等稀疏性的逼近方法[14-17]。其實(shí),這些視頻信號(hào)稀疏性的逼近模型是否合理還需要進(jìn)一步深入研究,給出可靠分析和論證。此外,還有文獻(xiàn)變采樣率的分塊壓縮觀測(cè)策略,通過對(duì)同一場(chǎng)景不同區(qū)域使用非均勻分采樣率來提高感知性能[18],但在實(shí)際場(chǎng)景中,難于對(duì)同一視頻場(chǎng)景的不同區(qū)域采用非均勻采樣率,因?yàn)闀?huì)影響視頻實(shí)時(shí)感知性能。本文在視頻分塊壓縮感知基礎(chǔ)上,給出了基于視頻幀稀疏度近似測(cè)量的自適應(yīng)壓縮感知,并充分挖掘視頻序列的結(jié)構(gòu)相關(guān)性和時(shí)間冗余性,來提高視頻GOP序列的重構(gòu)質(zhì)量。
對(duì)于任意一幅以列向量方式表示的視頻圖像f∈RN×1,假設(shè)采用正交基函數(shù)ψ∈RN×N能實(shí)現(xiàn)視頻f的K稀疏表示,并用矩陣運(yùn)算表示為f=ψμ,其中,μ∈RN×1,為視頻f的稀疏投影系數(shù),它可以用其中K?N個(gè)非零元素進(jìn)行近似逼近。根據(jù)壓縮感知理論,對(duì)任何K稀疏視頻幀圖像f,都能夠利用M=O(KlogN)個(gè)非自適應(yīng)線性投影系數(shù)g=Φf實(shí)現(xiàn)精確重建,其中,g∈RM×1,為任意K稀疏視頻f的壓縮觀測(cè)值,Φ∈RM×N(M?N)為測(cè)量矩陣。通常情況下,這個(gè)非自適應(yīng)線性投影變換是一個(gè)病態(tài)反問題,對(duì)應(yīng)無窮多個(gè)解。要精確重建視頻幀圖像f,測(cè)量算子Φ和稀疏表示基函數(shù)ψ對(duì)應(yīng)的傳感矩陣Ω=Φψ必須滿足2K階約束等距性(RIP)條件[2],即Ω的2K列線性無關(guān)。如果不對(duì)視頻幀進(jìn)行分塊處理,則屬于全局壓縮采樣的方式,其所需的存儲(chǔ)空間大、重建過程對(duì)應(yīng)的計(jì)算復(fù)雜度非常高。
為降低視頻幀壓縮觀測(cè)過程中存在的計(jì)算復(fù)雜度和減小存儲(chǔ)器需求的問題,采用分塊壓縮感知(BCS)實(shí)現(xiàn)壓縮采樣。對(duì)于輸入的任意一幀視頻圖像,將其劃分為I個(gè)圖像塊,設(shè)每個(gè)子塊包括B×B個(gè)像素,將這些圖像子塊矢量化排列和表示后,并用觀測(cè)矩陣對(duì)所有矢量化表示結(jié)果進(jìn)行壓縮采樣。令fk表示視頻幀中第k個(gè)子塊所對(duì)應(yīng)的矢量表示形式,則該視頻子塊所對(duì)應(yīng)的壓縮觀測(cè)結(jié)果為[4]
gk=ΦBfk,k=1,2,…,K。
(1)
對(duì)視頻幀的壓縮觀測(cè)而言,要完成高效的壓縮測(cè)量與高質(zhì)量重建,必須選取合適的觀測(cè)矩陣ΦB。對(duì)于任意一幀視頻,測(cè)量矩陣的選擇應(yīng)該綜合考慮運(yùn)算復(fù)雜度、存儲(chǔ)空間需求、重構(gòu)質(zhì)量和硬件實(shí)現(xiàn)便利性等因素[19]。然而,大部分的測(cè)量算子在這些方面并不同時(shí)具備較好的性能。例如,伯努利矩陣和隨機(jī)高斯矩陣作為觀測(cè)算子時(shí),具備很強(qiáng)的通用性能,并且能夠基于較少數(shù)目的壓縮采樣結(jié)果完成原始信號(hào)的精確重建。然而,伯努利矩陣或隨機(jī)高斯矩陣是非結(jié)構(gòu)化矩陣,這些矩陣元素對(duì)應(yīng)的存儲(chǔ)空間需求大,重構(gòu)復(fù)雜度高、重構(gòu)速度慢。當(dāng)然,有時(shí)也采用局部Fourier矩陣進(jìn)行壓縮觀測(cè),因?yàn)榫植縁ourier矩陣對(duì)應(yīng)重構(gòu)速度快,壓縮觀測(cè)的硬件系統(tǒng)實(shí)現(xiàn)復(fù)雜度低。但是,局部Fourier算子對(duì)應(yīng)的通用性較差,元素所需的存儲(chǔ)空間要求大。另外,某些二值稀疏矩陣也可用于壓縮采樣,而且具有較低的重構(gòu)計(jì)算復(fù)雜度。但這些測(cè)量算子一般只與特定稀疏表示基函數(shù)線性無關(guān),通用性較差。
結(jié)構(gòu)化隨機(jī)矩陣也能用于壓縮觀測(cè),而且具有綜合較優(yōu)的性能。首先,結(jié)構(gòu)化隨機(jī)矩陣與所有的正交矩陣和大部分的稀疏信號(hào)都線性無關(guān),具備很好的通用性能。同時(shí),結(jié)構(gòu)化隨機(jī)矩陣作為測(cè)量矩陣時(shí),能通過很少數(shù)目的壓縮觀測(cè)值高精度地和快速地重構(gòu)原始信號(hào)。另外,結(jié)構(gòu)化隨機(jī)矩陣還能有效地分解為多個(gè)塊對(duì)角矩陣或結(jié)構(gòu)化子矩陣的乘積表示,便于視頻序列的分塊壓縮采樣以及濾波處理。目前,已經(jīng)開發(fā)出了一些基于分塊壓縮采樣的CMOS壓縮成像集成圖像傳感器芯片。采用結(jié)構(gòu)化隨機(jī)矩陣,BCS將每個(gè)高分辨率的視頻幀轉(zhuǎn)化為數(shù)據(jù)點(diǎn)數(shù)很少的壓縮觀測(cè)結(jié)果,實(shí)現(xiàn)數(shù)據(jù)降維和壓縮的目的。
對(duì)于壓縮感知而言,重構(gòu)是一個(gè)關(guān)鍵的環(huán)節(jié),重構(gòu)視頻圖像的質(zhì)量或精確度是選擇重構(gòu)方法的關(guān)鍵考慮因素之一。與此同時(shí),重構(gòu)算法的計(jì)算復(fù)雜度是重構(gòu)策略選擇的另一個(gè)關(guān)鍵考慮因素。對(duì)于重構(gòu)方法,文獻(xiàn)中給出較多的策略,諸如線性規(guī)劃、全變分法、貪婪算法、梯度投影稀疏重構(gòu)和閾值投影法等[20-22]。在這些方法中,線性規(guī)劃和最小全變分法對(duì)應(yīng)的重構(gòu)過程計(jì)算復(fù)雜度高,即重構(gòu)速度慢。梯度投影稀疏重構(gòu)和貪婪算法的計(jì)算復(fù)雜度低、重構(gòu)速度快,但經(jīng)過相同迭代次數(shù)后重構(gòu)視頻幀質(zhì)量較差。迭代閾值投影法相對(duì)比較折中,具備較低的計(jì)算復(fù)雜度,同時(shí)也具有較好的重建精度。為此,本文選擇迭代閾值投影實(shí)現(xiàn)視頻圖像重構(gòu)[23]。假設(shè)在第n步的迭代重構(gòu)值為f(n),采用的閾值迭代函數(shù)為
(2)
(3)
χ(·)是迭代過程采用的閾值濾波處理函數(shù),在迭代過程,對(duì)于第n次迭代重構(gòu)結(jié)果f(n),采用閾值濾波變換處理,一般使用軟閾值處理方法,即
(4)
其中:η為軟閾值濾波所采用的閾值,并可采通用閾值方法對(duì)閾值η進(jìn)行估算。文中引入閾值濾波處理函數(shù)χ(·)是為了消除視頻幀分塊壓縮感知所導(dǎo)致的塊效應(yīng)問題。在空間域,還可使用3×3像素的局部維納濾波進(jìn)行平滑處理,以進(jìn)一步消除分塊效應(yīng),更好地提高重構(gòu)質(zhì)量。
對(duì)任意一幀視頻圖像的BCS壓縮觀測(cè)結(jié)果fi(i=1,2,…,I),閾值投影重構(gòu)的步驟為:
初始化:輸入壓縮觀測(cè)值fi(i=1,2,…,I)、測(cè)量算子ΦB、變換算子Θ、閾值參數(shù)η以及迭代誤差閾值ε,然后,進(jìn)入第1)步開始迭代;
2)對(duì)f(n-1)結(jié)果進(jìn)行3×3模板的維納濾波處理,結(jié)果記為f(n);
常規(guī)圖像信號(hào)的壓縮感知方法研究主要采用非自適應(yīng)的線性映射策略,并事先假設(shè)這些信號(hào)具有固定不變的稀疏特點(diǎn),并用同樣的正交基和測(cè)量算子進(jìn)行固定采樣率的壓縮觀測(cè)。然而,實(shí)際場(chǎng)景的視頻幀信號(hào)往往是非平穩(wěn)的,其場(chǎng)景稀疏性也是隨場(chǎng)景內(nèi)容變化的。常規(guī)的非自適應(yīng)壓縮采樣直接影響了視頻幀的重構(gòu)精度。如果能定量估算視頻幀的稀疏性,就能避免盲目地選擇壓縮觀測(cè)次數(shù)的問題,改善視頻壓縮重構(gòu)的質(zhì)量。
為有效改善視頻幀的壓縮測(cè)量并提高重構(gòu)性能,確定較優(yōu)的壓縮觀測(cè)數(shù)目,就必須定量近似計(jì)算視頻幀的稀疏性。為此,將視頻圖像先進(jìn)行二維稀疏變換,再對(duì)稀疏變換系數(shù)進(jìn)行處理,完成稀疏性的估算。比如,可以采用二維離散余弦變換(2D-DCT),其實(shí),2D-DCT也是視頻有損壓縮編碼的關(guān)鍵技術(shù)。對(duì)任一視頻幀f的2D-DCT為
(5)
其中,i,j為空間域坐標(biāo),u和v為變換域坐標(biāo),系數(shù)
(6)
顯然,2D-DCT是一種實(shí)數(shù)變換,分析基函數(shù)為二維余弦函數(shù),廣泛用于圖像和視頻的有損壓縮編碼,以及加水印信息隱藏算法。大部分圖像的2D-DCT系數(shù)具有很好的稀疏特性。2D-DCT變換后的能量集中于較少的大系數(shù)上,而大部分系數(shù)接近于零或等于零。為了近似定量估計(jì)視頻場(chǎng)景的稀疏特性,必須統(tǒng)計(jì)2D-DCT系數(shù)中占優(yōu)勢(shì)能量的較大系數(shù)占比。據(jù)此,給出一種近似的稀疏性估計(jì)方法:
1)用灰度變換方法將視頻幀轉(zhuǎn)換為灰度圖,并計(jì)算2D-DCT變換;
2)將2D-DCT系數(shù)按絕對(duì)值遞減的方式排序,并進(jìn)行能量歸一化處理;
3)確定優(yōu)勢(shì)能量閾值參數(shù)0?α<1;
4)統(tǒng)計(jì)遞減排序后的2D-DCT系數(shù),優(yōu)勢(shì)能量為α所需的較大系數(shù)的占比。
圖1(a)給出了PIG視頻其中一幀,含有768×1024個(gè)像素,圖1(b)為2D-DCT系數(shù)。圖2為按照降序排列的50 000個(gè)較大的2D-DCT系數(shù)。設(shè)定能量閾值為0.99,最大的有效能量點(diǎn)數(shù)為13 005個(gè),其中,總像素為786 432。該視頻幀的稀疏度估算結(jié)果為0.095。實(shí)際應(yīng)用中,為有效地近似估算稀疏性,需要選擇一個(gè)合適的參數(shù)α,而不同參數(shù)α對(duì)應(yīng)不同的稀疏度K。通常參數(shù)α在0.95至1之間選擇。考慮到壓縮測(cè)量過程中觀測(cè)次數(shù)M?N,結(jié)合M=O(KlogN)得
(7)
根據(jù)上文,K為視頻圖像的稀疏度參數(shù),若K不滿足式(7),則稀疏度近似結(jié)果不合理,或者參數(shù)α選擇不當(dāng)。一方面,稀疏變換基函數(shù)選取不恰當(dāng),則二維變換系數(shù)的稀疏性能欠佳;另一方面,參數(shù)α選取欠佳,使觀測(cè)次數(shù)M不合適,導(dǎo)致重構(gòu)精度差或觀測(cè)數(shù)目過多。
(a)視頻幀 (b)DCT 2系數(shù)圖1 PIG視頻幀和其2D-DCT系數(shù)Fig.1 One frame of PIG and its coefficients of 2D-DCT transform
圖2 降序排列后50 000個(gè)較大的2D-DCT系數(shù)Fig.2 The 50 000 larger 2D-DCT coefficients in descending order
按上述所提到壓縮采樣率選擇方法,用16×16的像素進(jìn)行分塊壓縮采樣。為便于分析與對(duì)比,采樣率分別選擇了0.05, 0.10和0.15三種情況進(jìn)行壓縮感知,并用ITP方法對(duì)圖1(a)進(jìn)行重構(gòu),重構(gòu)結(jié)果分別如圖3所示,PSNR分別為27.5 dB,37.6 dB,和40.9 dB,SSIM分別為0.67,0.98,和0.99。實(shí)驗(yàn)結(jié)果表明,對(duì)這3種壓縮采樣率,重構(gòu)后視頻幀的PSNR和SSIM總體上隨采樣率的升高而變好。為了獲到較好的視頻重構(gòu)精度,壓縮采樣率可設(shè)置為稀疏度估計(jì)結(jié)果的2~2.5倍。在此范圍內(nèi),壓縮采樣率的變化雖然達(dá)到1.5倍,但實(shí)驗(yàn)結(jié)果表明重構(gòu)視頻對(duì)應(yīng)的PSNR提高有限、且為非線性。同時(shí),在滿足稀疏性限定的最低采樣率下,都能給出較好的重構(gòu)結(jié)果,采樣率越高圖像重構(gòu)質(zhì)量越好。
圖3 壓縮采樣率為0.05, 0.1, 0.15時(shí)的重構(gòu)結(jié)果Fig.3 Reconstructed frames with subrate of 0.05, 0.1, and 0.15
(8)
(9)
(10)
(ΦBHi)Tgi,
(11)
對(duì)于正則化參數(shù)λ,需要選擇合適的值。實(shí)際應(yīng)用中可以通過比較分析選擇不同范圍λ得到的預(yù)測(cè)結(jié)果,從中優(yōu)選最合適的參數(shù)λ。
對(duì)幀內(nèi)所有圖像分塊,通過結(jié)構(gòu)相關(guān)性的預(yù)測(cè),就能在一定程度上提高重構(gòu)視頻的質(zhì)量。
(12)
(13)
同樣,利用參考幀和新的近似估計(jì)f′,又能進(jìn)行更加準(zhǔn)確的運(yùn)動(dòng)估計(jì)和運(yùn)動(dòng)補(bǔ)償。
對(duì)一個(gè)GOP序列來說,設(shè)其有N個(gè)幀(N為偶數(shù)),第一個(gè)幀為關(guān)鍵幀,而其余N-1幀為WZ幀。對(duì)于關(guān)鍵幀用較高的壓縮采樣率,幀重構(gòu)質(zhì)量較高;而WZ幀則用較低的采樣率,重構(gòu)的質(zhì)量較低??紤]以相鄰的兩個(gè)關(guān)鍵幀為起始幀,構(gòu)成N+1幀視頻序列,假設(shè)該序列已完成單幀壓縮重構(gòu)和結(jié)構(gòu)預(yù)測(cè),則可按如下順序進(jìn)行GOP運(yùn)動(dòng)補(bǔ)償。
1) 順序補(bǔ)償:對(duì)第2幀到第N/2幀,以其前一幀作為參考幀,按順序依次進(jìn)行運(yùn)動(dòng)補(bǔ)償;
2) 逆序補(bǔ)償:對(duì)第N幀到第(N/2)+2幀,以其后一幀為參考幀,按順序依次完成運(yùn)動(dòng)補(bǔ)償;
3) 雙向補(bǔ)償:對(duì)第(N/2)+1幀,以其前一幀與后一幀做為參考幀,分別進(jìn)行運(yùn)動(dòng)補(bǔ)償,然后用這兩種運(yùn)動(dòng)補(bǔ)償?shù)钠骄底鳛檫\(yùn)動(dòng)補(bǔ)償結(jié)果。
在結(jié)構(gòu)預(yù)測(cè)的基礎(chǔ)上,按照以上方式可完成所有GOP序列的運(yùn)動(dòng)估計(jì)與運(yùn)動(dòng)補(bǔ)償,進(jìn)一步提高GOP序列的重構(gòu)質(zhì)量。總之,結(jié)合單幀壓縮重構(gòu)、結(jié)構(gòu)預(yù)測(cè)和運(yùn)動(dòng)補(bǔ)償?shù)囊曨lGOP處理流程如圖4所示
圖4 視頻GOP序列處理流程示意圖Fig.4 Processing flow for GOP sequence in the video
通常,運(yùn)動(dòng)估計(jì)和運(yùn)動(dòng)補(bǔ)償計(jì)算復(fù)雜,比較耗時(shí)。在實(shí)際應(yīng)用中,除采用高效率的實(shí)現(xiàn)算法外,還可以將處理算法并行實(shí)現(xiàn)。比如,為了提高運(yùn)行效率,GOP各幀的單幀重構(gòu)過程可并行實(shí)現(xiàn),幀內(nèi)結(jié)構(gòu)預(yù)測(cè)也能并行實(shí)現(xiàn)。此外,運(yùn)動(dòng)補(bǔ)償過程中的順序補(bǔ)償和逆序補(bǔ)償兩個(gè)過程之間也可并行實(shí)現(xiàn)。
對(duì)于文中給出的算法,用視頻測(cè)試序列Susie進(jìn)行測(cè)試。該視頻序列每一幀尺寸大小為352×240,GOP大小為4,利用BCS算法對(duì)該序列進(jìn)行了分塊壓縮采樣,其中,關(guān)鍵幀采樣率為0.7,WZ幀采樣率為0.1。本實(shí)驗(yàn)所設(shè)計(jì)算法均在Matlab 7.1環(huán)境下編寫調(diào)試,并在2.80 GHz CPU和4GB內(nèi)存的單核PC機(jī)上運(yùn)行。
對(duì)于GOP中每一幀視頻,BCS壓縮采樣所用分塊尺寸B為16,因?yàn)楫?dāng)分塊尺寸為16時(shí),塊重構(gòu)時(shí)間較小、同時(shí)重構(gòu)精度也較好。對(duì)于該視頻GOP序列,按照?qǐng)D4所示的方法流程,首先進(jìn)行單幀壓縮重構(gòu),再進(jìn)行幀內(nèi)結(jié)構(gòu)預(yù)測(cè),最后進(jìn)行運(yùn)動(dòng)估計(jì)和運(yùn)動(dòng)補(bǔ)償。圖5給出了GOP中第4幀的原始圖像、單幀壓縮重構(gòu)、結(jié)構(gòu)預(yù)測(cè)和運(yùn)動(dòng)補(bǔ)償重構(gòu)結(jié)果。在各處理步驟中,GOP序列中每幀重構(gòu)的峰值信噪比(PSNR)變化趨勢(shì)如圖6所示。
從視覺上分析,單幀壓縮重構(gòu)圖像噪聲較大、質(zhì)量較差,在結(jié)構(gòu)預(yù)測(cè)之后重構(gòu)質(zhì)量有了較小改善,而運(yùn)動(dòng)估計(jì)和補(bǔ)償后的視頻重構(gòu)效果得到了較大的提升。對(duì)于關(guān)鍵幀而言,由于采樣率高,重構(gòu)精度也較高(39.55dB),在結(jié)構(gòu)預(yù)測(cè)后PSNR提高為40.88 dB。對(duì)于WZ幀來說,由于采樣率很低,所以,圖5(b)所示的單幀壓縮重構(gòu)質(zhì)量較差,PSNR為29.04 dB;圖5(c)所示的結(jié)構(gòu)預(yù)測(cè)小幅度地提高了重構(gòu)質(zhì)量,PSNR變?yōu)?9.95 dB;圖5(d)所示的運(yùn)動(dòng)補(bǔ)償較大幅度地提高了圖像重構(gòu)質(zhì)量,PSNR增至36.76 dB。通過結(jié)構(gòu)補(bǔ)償,WZ幀的PSNR提高了1~1.5 dB,而運(yùn)動(dòng)補(bǔ)償后,WZ幀的PSNR提高了6 dB左右。
圖5 對(duì)Susie視頻GOP序列第4幀的重構(gòu)結(jié)果Fig.5 Reconstruction of the 4th frame of the GOP sequence in Susie video
圖6 Susie視頻GOP序列的重構(gòu)PSNRFig.6 PSNRs of reconstructed GOP sequence in Susie video
另外, 還采用其他多種標(biāo)準(zhǔn)視頻測(cè)試序列進(jìn)行了測(cè)試, 表1給出了對(duì)5種不同標(biāo)準(zhǔn)視頻序列的關(guān)鍵幀恢復(fù)的PSNR, 表2給出了對(duì)WZ幀重構(gòu)的PSNR。 表1表明,通過幀內(nèi)的結(jié)構(gòu)預(yù)測(cè), 關(guān)鍵幀的重構(gòu)質(zhì)量有(1~5 dB)不同程度的改善。 表2表明,通過幀內(nèi)的結(jié)構(gòu)預(yù)測(cè),WZ幀的重構(gòu)質(zhì)量有(1~2 dB)不同程度的改善,在運(yùn)動(dòng)補(bǔ)償處理后,WZ幀的重構(gòu)質(zhì)量進(jìn)一步提高,為3~7 dB。
不同視頻序列仿真結(jié)果表明,在視頻GOP序列的壓縮采樣與重構(gòu)處理中,由于采樣率低,單幀重構(gòu)的WZ幀PSNR低,通過結(jié)構(gòu)預(yù)測(cè)和運(yùn)動(dòng)補(bǔ)償,有效地提高了WZ幀的重構(gòu)質(zhì)量。同時(shí),結(jié)構(gòu)補(bǔ)償也能改善關(guān)鍵幀的重構(gòu)質(zhì)量。
表1 關(guān)鍵幀的重構(gòu)PSNRsTab.1 PSNRs of reconstructed key-frames dB
表2 WZ幀的重構(gòu)PSNRsTab.2 PSNRs of reconstructed WZ frames dB
此外,當(dāng)視頻的關(guān)鍵幀采用較高壓縮采樣率(0.7),非關(guān)鍵幀采用0.1~0.5之間5種不同的壓縮采樣率時(shí),采用不同方法進(jìn)行重構(gòu),對(duì)10次重構(gòu)過程中的平均PSNR值進(jìn)行了對(duì)比。對(duì)于Foreman視頻,圖7給出了采用6種不同方法的重構(gòu)PSNR值。圖7中,采用的6種方法包括了三維分塊重構(gòu)(3D)、修正的壓縮感知重構(gòu)(Mod CS)、多尺度壓縮重構(gòu)(MS)3種不涉及運(yùn)動(dòng)補(bǔ)償?shù)闹貥?gòu)方法,以及基于兩幀之間運(yùn)動(dòng)補(bǔ)償?shù)闹貥?gòu)(MC),k-t Focuss焦點(diǎn)欠定求解方法,和本文給出的基于結(jié)構(gòu)補(bǔ)償和運(yùn)動(dòng)補(bǔ)償?shù)亩囝A(yù)測(cè)重構(gòu)。結(jié)果表明,在不同壓縮采樣率情況下,本文所提方法重構(gòu)結(jié)果對(duì)應(yīng)的PSNR最高,其次是基于運(yùn)動(dòng)補(bǔ)償?shù)姆謮K壓縮重構(gòu),修正的壓縮感知重構(gòu)精度最低,其余3種方法重構(gòu)效果居中。
圖7 Foreman視頻GOP序列的重構(gòu)PSNRsFig.7 PSNRs of reconstructed GOP sequence in Foreman video
提出了基于自適應(yīng)壓縮感知的視頻GOP序列重構(gòu)與質(zhì)量改善策略。在視頻GOP序列中,由于采樣率低,單幀重構(gòu)的WZ幀質(zhì)量較差。所提視頻自適應(yīng)壓縮感知方法相對(duì)于傳統(tǒng)方法有效減少了采樣個(gè)數(shù)、存儲(chǔ)空間與傳輸帶寬。幀內(nèi)結(jié)構(gòu)預(yù)測(cè)和運(yùn)動(dòng)補(bǔ)償通過視頻GOP序列的幀內(nèi)和幀間相關(guān)性預(yù)測(cè)和補(bǔ)償,提高視頻重構(gòu)質(zhì)量。對(duì)不同視頻序列,結(jié)構(gòu)預(yù)測(cè)能將單幀重構(gòu)視頻的PSNR提高1~2 dB,而運(yùn)動(dòng)補(bǔ)償進(jìn)一步將重構(gòu)視頻的PSNR提高3~7 dB。文中所提方法利用視頻幀內(nèi)和幀間的相關(guān)信息進(jìn)行預(yù)測(cè)補(bǔ)償,有效地提高了視頻GOP序列的重構(gòu)質(zhì)量。然而,該重構(gòu)策略在實(shí)現(xiàn)過程中需要雙向迭代重構(gòu),迭代步數(shù)較多時(shí),其計(jì)算復(fù)雜度會(huì)增加,重構(gòu)所需耗費(fèi)的時(shí)間也會(huì)增加,是本文方法的不足之處,建議在提高重構(gòu)過程中適當(dāng)減少GOP序列雙向預(yù)測(cè)的迭代次數(shù)。在今后的研究工作中,將開展基于深度學(xué)習(xí)的視頻GOP序列的、智能感知與編解碼研究,對(duì)不同視頻序列都能實(shí)現(xiàn)快速高精度重構(gòu),以進(jìn)一步改進(jìn)視頻GOP序列重構(gòu)性能。