近些年,隨著物聯(lián)網(wǎng)和移動互聯(lián)網(wǎng)的發(fā)展出現(xiàn)了如移動可視電話、無線可視會議等大量的視頻應(yīng)用。這些視頻應(yīng)用終端設(shè)備一般都具有計算和存儲能力有限的特點。而隨著圖像和視頻的使用在日常生活和工作中所占比重逐漸增大,龐大的多媒體數(shù)據(jù)給數(shù)據(jù)的采集、計算、存儲和傳輸帶來了巨大的挑戰(zhàn)。傳統(tǒng)的視頻編解碼標(biāo)準(zhǔn),如MPEG-x和H.26x,在編碼端由于要進行非常復(fù)雜的計算,其編碼設(shè)備往往需要具有較高的計算性能,這就導(dǎo)致傳統(tǒng)視頻編解碼標(biāo)準(zhǔn)很難適用于這類新興視頻應(yīng)用。
為解決上述問題,一種以無損編碼理論[1]和有損編碼理論[2]為基礎(chǔ)的無線視頻編碼方案——分布式視頻編碼(Distributed Video Coding,DVC)被提出并得到了廣泛的關(guān)注。與傳統(tǒng)視頻編解碼標(biāo)準(zhǔn)不同的是,分布式視頻編碼將視頻序列看做是統(tǒng)計相關(guān)的信源進行獨立編碼,在解碼端利用幀間相關(guān)性進行聯(lián)合譯碼。該方案在一定程度上降低了編碼端的復(fù)雜度,并且具有抗誤碼性能好、易形成分級編碼碼流等特點。但是其仍受奈奎斯特采樣定理限制,依然具有非常高的采樣率。
2006年,壓縮感知理論被提出[3],該理論指出對于稀疏信號可通過遠(yuǎn)低于奈奎斯特定理要求的采樣率進行采樣并且能高概率恢復(fù)。因此有研究學(xué)者將壓縮感知與分布式視頻編碼結(jié)合,提出了分布式視頻壓縮感知(Distributed Video Compressed Sensing,DVCS)方案。由于DVCS具備分布式視頻編碼與壓縮感知的雙重優(yōu)點,使其一直成為近些年的研究熱點。
近年來,深度學(xué)習(xí)技術(shù)在機器學(xué)習(xí)問題上取得了眾多令人矚目的成果,成為機器學(xué)習(xí)領(lǐng)域中最亮眼的一個分支[4]。由于其在特征提取和圖像分類方面有著明顯的優(yōu)勢,使其與壓縮感知技術(shù)的結(jié)合成為一種新的思路?;谏疃葘W(xué)習(xí)的壓縮感知視頻重建技術(shù)具有極高的重構(gòu)速度與可比的重構(gòu)質(zhì)量,目前也成為了視頻壓縮重構(gòu)領(lǐng)域的研究熱點之一。
壓縮感知突破了奈奎斯特采樣定理的瓶頸,可以實現(xiàn)在信號采樣的同時完成壓縮,并利用較少的采樣值對信號進行重建,實現(xiàn)了低復(fù)雜度的壓縮編碼。壓縮感知理論原理描述如下:
分布式視頻壓縮感知在分布式視頻編碼的基礎(chǔ)上引入了壓縮感知技術(shù),其可以直接對測量值進行量化傳輸,少了DVC中較多繁瑣的操作,因此具有較低的編碼計算復(fù)雜度,非常適合在近些年新興出現(xiàn)的無線視頻終端中應(yīng)用。
在早期,Prades-Nebot J等人在DVC的基礎(chǔ)上提出了基于壓縮感知的分布式視頻編碼系統(tǒng)DISCUS[5]。該系統(tǒng)針對關(guān)鍵幀依然采用傳統(tǒng)幀內(nèi)編碼方法,而對于CS幀則需要經(jīng)過CS測量、均勻量化和比特存儲等步驟。在解碼端,根據(jù)反饋信道傳輸?shù)谋忍財?shù)結(jié)合關(guān)鍵幀對CS幀進行重構(gòu)。該系統(tǒng)由于存在反饋信道,因此實時性較差,而且關(guān)鍵幀仍然采用傳統(tǒng)幀內(nèi)編碼方法,因此編碼端復(fù)雜度較高。之后Kang L W等人對DISCUS系統(tǒng)進行了改進,提出了一種新的DVCS方案[6],如圖1所示。該方案在編碼端對關(guān)鍵幀和CS幀均采用CS測量,而且去掉了反饋信道。在解碼端,利用重構(gòu)關(guān)鍵幀內(nèi)插生成的邊信息恢復(fù)CS幀。
圖1 Kang L W提出的DVCS方案
該方案雖然解決了實時性問題,但是由于其編碼端均是整幀測量,因此編碼端存儲開銷較大。
由于上述框架在視頻重構(gòu)質(zhì)量上與傳統(tǒng)框架仍有一定的差距,因此為了提高視頻重構(gòu)效果,有較多學(xué)者在上述框架基礎(chǔ)上進行了深入的研究,主要是如何突破以下幾個方面的問題:① 根據(jù)圖像結(jié)構(gòu)復(fù)雜程度,如何提出更高效的自適應(yīng)采樣率分配方案,以最大效率利用采樣值;② 探索更高效的重構(gòu)算法,使視頻信號的重構(gòu)更加精確;③ 如何根據(jù)視頻信號的時空相關(guān)性構(gòu)造更精確的邊信息,以達(dá)到更好的重構(gòu)效果。
針對第一個問題,文獻[7]根據(jù)圖像塊的復(fù)雜程度,利用圖像塊的全變差分值進行采樣率的自適應(yīng)分配。該算法雖然提高了重構(gòu)質(zhì)量,但是算法復(fù)雜度較高。文獻[8]對圖像進行小波變換分解,以均值及熵為標(biāo)準(zhǔn)進行自適應(yīng)采樣,實現(xiàn)了圖像塊的分類壓縮重構(gòu)。文獻[9]利用不同圖像塊間的不同統(tǒng)計特性對采樣率進行自適應(yīng)分配,提高了圖像的重構(gòu)質(zhì)量。文獻[10]根據(jù)視覺顯著特性提出了一種自適應(yīng)分塊壓縮感知算法,進一步提高了視頻的重構(gòu)質(zhì)量。
針對第二個問題,其主要依賴于單幀圖像的重構(gòu)算法。文獻[11]利用圖像梯度域具有稀疏性的特征,通過最小全變差算法重建二維圖像。該方法雖然能夠獲得較好的重構(gòu)質(zhì)量但是具有極大的重構(gòu)復(fù)雜度。平滑投影Landweber算 法[12](Smoothed Projected Landweber,SPL)專門針對圖像分塊測量情形,通過維納濾波有效消除了圖像的塊效應(yīng)。由于該算法的高效性,其被廣泛應(yīng)用于視頻圖像重構(gòu)。組稀疏重構(gòu)(Group-based Sparse Representation,GSR)算法[13]以相似塊組的奇異值具備稀疏性為前提,對每個相似塊組建立自適應(yīng)稀疏表示字典,進一步提高了圖像的重構(gòu)質(zhì)量。
對于第三個問題,文獻[14]將多假設(shè)預(yù)測運用到DVCS中,并利用SPL算法對視頻信號進行殘差重構(gòu),提出了多假設(shè)預(yù)測重構(gòu)算法(Multihypothesis Prediction BCS-SPL,MH-BCS-SPL)。該算法在一定程度上利用了視頻信號的時空相關(guān)性,但不夠充分。文獻[15]在MHBCS-SPL算法基礎(chǔ)上對假設(shè)集進行了改進,提高了多假設(shè)預(yù)測精度。文獻[16]提出一種基于彈性網(wǎng)的多假設(shè)視頻壓縮感知重構(gòu)算法,其通過求解彈性網(wǎng)回歸問題使得各假設(shè)塊的權(quán)值分配更加精確。由于GSR算法的出色表現(xiàn),文獻[17]通過強化圖像塊基本特征來提高相似塊匹配效果,同時引入結(jié)構(gòu)相似度標(biāo)準(zhǔn),提出了一種多假設(shè)局部增強重構(gòu)算法,有效提高了視頻重構(gòu)質(zhì)量。
基于壓縮感知的傳統(tǒng)視頻編解碼方法是建立在信號具有稀疏性這一先驗條件上的,并且需要進行多次的迭代才能達(dá)到一定的重構(gòu)質(zhì)量。這類方法一般存在兩個問題:(1)由于重構(gòu)算法多次迭代,重構(gòu)時間一般較長,難以實現(xiàn)實時性,限制了壓縮感知在視頻編解碼中的應(yīng)用。(2)自然信號在變換域中往往不是精確稀疏的,僅由稀疏性建模的重構(gòu)算法在重構(gòu)過程中會帶來一定質(zhì)量的下降。
近年來,深度學(xué)習(xí)在計算機視覺和圖像處理中顯示出良好的性能。因此,許多學(xué)者將深度學(xué)習(xí)引入到視頻壓縮感知重構(gòu)中。最先將深度學(xué)習(xí)技術(shù)與壓縮感知結(jié)合的是R.G.Baraniuk團隊,該團隊提出了一種利用SDA對欠采樣測量值進行重建的全連接框架[18]。
該框架將測量值分為線性測量和非線性測量兩種方式。重建網(wǎng)絡(luò)將SDA作為一種特征學(xué)習(xí)器來獲得信號中不同元素之間的統(tǒng)計相關(guān)性,以此提高信號重構(gòu)性能。文獻[19]使用DeepInverse深度卷積神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)從測量值到原始信號的逆變換。DeepInverse網(wǎng)絡(luò)框架如圖2所示,重建網(wǎng)絡(luò)的輸入為測量值,然后通過全連接層得到原始信號的估計值,最后通過卷積層重構(gòu)信號。文獻[20]在實現(xiàn)了圖像分塊處理的情況下提出了ReconNet網(wǎng)絡(luò)。該網(wǎng)絡(luò)是基于CNN設(shè)計的網(wǎng)絡(luò)結(jié)構(gòu),但由于卷積核較大且網(wǎng)絡(luò)層較少,影響了重構(gòu)精度。Bora等人利用生成模型構(gòu)建了一個基于深度學(xué)習(xí)的壓縮感知重構(gòu)框架[21]。該框架雖沒有利用到信號的稀疏特性,但是其假設(shè)信號接近生成模型的值域,因此能獲得一定的重構(gòu)性能保證。
圖2 DeepInverse網(wǎng)絡(luò)框架
由于壓縮感知在信號處理方面具有獨特的優(yōu)勢,現(xiàn)已廣泛應(yīng)用于視頻圖像處理領(lǐng)域。在傳統(tǒng)的分布式視頻壓縮感知方法中,由于迭代算法重構(gòu)復(fù)雜度較高,因此很難在有實時性要求的應(yīng)用中實現(xiàn)。此外,DVCS對非關(guān)鍵幀的重構(gòu)質(zhì)量也有待進一步提高。為了提高視頻圖像處理的速度和質(zhì)量,深度學(xué)習(xí)被應(yīng)用到壓縮感知視頻重構(gòu)中?;谏疃葘W(xué)習(xí)的壓縮感知視頻重構(gòu)算法具有著極高的重構(gòu)速度,能實現(xiàn)實時重構(gòu),但其靈活性較差,在不同采樣率下均需進行模型訓(xùn)練,并且重構(gòu)性能也有待提高??傊?,不論是分布式視頻壓縮感知方法還是基于深度學(xué)習(xí)的壓縮感知重構(gòu)方法,其重構(gòu)質(zhì)量與傳統(tǒng)編解碼方法對比還有一定差距。如何將DV1CS與深度學(xué)習(xí)有效結(jié)合還需要研究者們積極、共同的努力。