徐皓波,于鳳芹
江南大學 物聯(lián)網(wǎng)工程學院,江蘇 無錫 214122
基于稀疏預處理和循環(huán)觀測的語音壓縮感知
徐皓波,于鳳芹
江南大學 物聯(lián)網(wǎng)工程學院,江蘇 無錫 214122
Donoho提出的壓縮感知理論突破了奈奎斯特采樣定理的局限,只要要求信號在時域或變換域上具有稀疏性,通過一個觀測矩陣將原始的高維信號投影到低維空間上,由低維的觀測信號利用恢復算法就能以高概率重構出原始信號,實現(xiàn)一種采樣與壓縮同時進行的過程[1]。觀測矩陣與信號稀疏基之間的非相關性越強,由觀測精確重構原信號的幾率就越大[2],因此在壓縮感知中大部分采用具有高度非相關特性的高斯隨機矩陣作為觀測矩陣,但由于高斯隨機矩陣的每個元素是獨立的隨機數(shù),因而產(chǎn)生復雜、計算存儲量大。Candes提出了一種部分傅里葉矩陣作為觀測矩陣來代替高斯隨機矩陣[3],但由于傅里葉基僅與時域或頻域稀疏的信號不相關,其應用范圍受到限制[4]。文獻[5]從理論上分析了結構化的Toeplitz和循環(huán)矩陣恢復稀疏信號的效果證明其作為觀測矩陣的可行性。文獻[6]針對語音信號在DCT域能顯示出近似的稀疏性提出語音信號DCT域壓縮感知。文獻[7]在語音信號DCT域壓縮感知的基礎上提出幀間和幀內(nèi)兩種自適應方法確定觀測個數(shù),在一定的重構誤差下能保證更低的壓縮率。文獻[8]利用語音本身構造了一種自相關觀測矩陣進行觀測,同等重構性能下壓縮率比高斯隨機矩陣更低。
本文以語音信號為研究對象,就語音信號在DCT域近似稀疏的問題,提出在觀測前做一個將信號的DCT域小系數(shù)在一定閾值下置零后反變換回時域的預處理工作,得到在DCT域真正稀疏的一個近似信號,把它作為新的對象進行觀測?;诳焖俑道锶~變換原理使用傅里葉變換矩陣構造得到循環(huán)觀測矩陣進行觀測投影,并計算其與DCT基的互相關系數(shù)證明其非相關性能夠替代高斯隨機矩陣,且循環(huán)觀測矩陣存儲矩陣元素更少。最后利用OMP正交匹配追蹤[9]方法對觀測信號進行恢復。仿真實驗對比了一幀語音信號在四種壓縮率下循環(huán)觀測矩陣同高斯隨機矩陣的重構情況,并研究了不同壓縮率下各幀信噪比情況。
2.1 壓縮感知基本原理
假設信號 x=[x(1),x(2),…,x(N)]T∈RN可以用 N 維的基向量的線性組合表示,由可以形成一個 N×N 的基矩陣 Ψ=[ψ1,ψ2,…,ψN],信號 x 就可以表示成:域的表示。如果Θ中只有K個是非零的,且K?N,那么原信號就可以只由K個基向量的線性組合構成,說明信號x是K稀疏的。假設Φ為一個M×N維的觀測矩陣(M<N),長度為N信號通過Φ的投影得到了M個觀測值,記為 y=(y1,y2,…,yM),即 y=Φx=ΦΨΘ 。因為 M<N,由 y求出Θ是一個欠定問題,無確定解。但是如果Θ足夠稀疏,且觀測矩陣Φ同信號稀疏基Ψ不相關就能得到一個確定解,在觀測數(shù)目M≥4K的前提下可以利用一系列優(yōu)化算法求解出信號x的稀疏系數(shù)向量,然后進一步得到原信號。重構信號最直接的方法就是通過l0范數(shù)解決下式這個最優(yōu)化問題:
得到稀疏系數(shù)向量的估計。求解最小l0范數(shù)是一個NP難問題,可以利用BP基追蹤和OMP正交匹配追蹤等方法進行求解。
2.2 DCT域稀疏性
在對語音信號進行壓縮感知處理時,由觀測信號恢復原信號極大地依賴信號變換后的稀疏性。信號在變換域越稀疏,恢復的精度越高。由于語音信號具有類似余弦信號的周期特性,因此可以用DCT離散余弦變換來表示語音信號如下:
經(jīng)過DCT變換后的稀疏系數(shù)為:
則語音信號可表示為 x=ΨΘ,Ψ為離散余弦基矩陣。語音信號在DCT域是近似稀疏的,系數(shù)向量中含有大量的非零小系數(shù),為此本文提出將語音信號先在DCT域進行稀疏預處理的改進:將信號的DCT域小系數(shù)在一定閾值下置零后反變換回時域,以此改善變換域的稀疏性。
2.3 循環(huán)觀測矩陣的構造
循環(huán)矩陣的基本形式具有如公式(2)的特征。由于循環(huán)矩陣的特殊結構,循環(huán)矩陣與信號的乘積y=Cx相當于計算循環(huán)矩陣首列向量與信號的離散循環(huán)卷積y=A? x,A={a0,a1,…,aN-1},所以只需存儲矩陣的一列元素就能獲得矩陣全部的信息,計算觀測值也只需計算一次循環(huán)卷積,大大節(jié)省了存儲計算成本。構造一個N×N維的循環(huán)矩陣可以由傅里葉變換矩陣F如公式(3)和對角陣 Λ=diag(λ)通過C=F-1ΛF 得到[10]。
在壓縮感知理論中,觀測矩陣是M×N維的,所以必須從N×N維的循環(huán)矩陣中抽取M行組成觀測矩陣。通過觀察矩陣結構發(fā)現(xiàn),循環(huán)矩陣與同樣尺寸的高斯隨機矩陣相比擁有少得多的可變參數(shù),循環(huán)矩陣本身的隨機性并不強。
為了說明循環(huán)觀測矩陣同樣可以應用于對語音信號的壓縮感知,這里可以提出觀測矩陣Φ與變換基矩陣 Ψ 之間的互相關系數(shù) μ(D),D=ΦΨ=[d1,d2,…,dK]來衡量其非相關性能,定義如下:
μ(D)的值在(0,1)之間,其值越接近于0表明觀測矩陣Φ與變換基矩陣Ψ之間就越不相關,觀測矩陣的性能就越好,由觀測恢復的信號也越精確。
2.4 OMP重構
OMP正交匹配追蹤方法是MP算法的改進,本文利用它求解最小l0范數(shù)得到稀疏系數(shù)向量Θ的估計。MP算法的主要思想是從過完備的原子庫中通過計算信號與原子的內(nèi)積選擇一個與內(nèi)積最大的原子,該原子與待分解信號最為匹配,從而構建一個稀疏逼近,并求出信號殘差,然后繼續(xù)選擇與信號殘差最匹配的原子,反復迭代,若殘差值在可以忽略的范圍內(nèi)原信號可以由這些原子來線性近似表示。OMP算法以MP為基礎在分解的每一步對所選擇的全部原子進行正交化處理,這使得在精度要求相同的情況下其收斂速度更快。在利用OMP方法進行壓縮感知重構時,待分解信號就是觀測信號 y,原子庫為 D=ΦΨ,由估計得到稀疏系數(shù)向量Θ^還原的時域信號x^就是重構信號。
圖1 實現(xiàn)總流程圖
本文基于稀疏預處理和循環(huán)觀測的漢語語音壓縮感知實現(xiàn)如圖1。
詳細描述如下:
(1)首先將語音信號進行DCT域稀疏預處理,包括DCT變換、閾值置零和IDCT反變換,閾值可以設置為固定值,也可以根據(jù)變換域系數(shù)分布設置動態(tài)值。預處理使信號在DCT域絕對稀疏,同時也得到變換域上的非零個數(shù)K。
(2)由傅里葉變換矩陣F通過公式C=F-1ΛF得到一個N×N維循環(huán)矩陣,對角陣各元素呈隨機分布。再從N×N維方陣中隨機抽取M行構成M×N維的矩陣,該矩陣就是構造得到的循環(huán)觀測矩陣。
(3)經(jīng)過稀疏預處理后的信號 x′在循環(huán)觀測矩陣Φ下進行觀測投影得到觀測值y。
(4)由觀測信號 y進行OMP重構初始化階段:信號殘差r0=y,原子索引集合為空,過完備原子庫為D=ΦΨ。
(5)計算殘差與過完備原子庫每列dj的內(nèi)積,記錄內(nèi)積最大的那列所對應的列數(shù)
(6)更新原子索引 Λt=Λt-1∪{λt},存儲挑選出來的重建原子集合Dt=[Dt-1,dφ],并在 D 中剔除該列。t
(9)判斷是否跳出循環(huán),若循環(huán)次數(shù)t>K則停止迭代,否則繼續(xù)執(zhí)行殘差與過完備原子庫內(nèi)積計算。
(10)由得到的系數(shù)向量得到重構語音信號x^=ΨΘ^。
4.1 DCT域稀疏性分析及閾值選取
仿真實驗對象為男聲發(fā)音為“大衣”采樣率16 kHz的漢語語音信號,本節(jié)首先對一個語音幀(N=512)的DCT域系數(shù)分布進行分析,如圖2所示。
圖2 DCT域系數(shù)分布及其降序排列
觀察系數(shù)向量發(fā)現(xiàn)語音信號在DCT域并不是絕對稀疏而是近似稀疏,系數(shù)向量中含有大量的非零小系數(shù),將那些趨近于零的系數(shù)置零,反變換得到一段在DCT域絕對稀疏的語音信號。由于各幀的能量分布不同,其DCT域系數(shù)向量能量亦有差別,所以并不能對每幀統(tǒng)一閾值。并且閾值設置過低信號非零元個數(shù)K不滿足N>M≥4K稀疏性則達不到要求,設置過高重構精度則不理想。觀察分布可以發(fā)現(xiàn)其大系數(shù)幅值集中于低頻的前半幀,為此這里取前300個采樣點的平均值作為DCT域置零閾值:
這樣不同語音幀會根據(jù)自身變換域系數(shù)分布確定出一個動態(tài)閾值,同時也方便統(tǒng)計出系數(shù)中的非零個數(shù)。表1給出了閾值選取與稀疏性、信號精度的關系。
表1 閾值選取與稀疏性、信號精度的關系
4.2 循環(huán)觀測矩陣非相關性分析
本節(jié)使用互相關系數(shù)來衡量循環(huán)觀測矩陣對于DCT基的非相關性,并同高斯隨機矩陣和傅里葉矩陣進行對比。循環(huán)矩陣I由隨機產(chǎn)生的第一列循環(huán)得到;循環(huán)矩陣II是由傅里葉矩陣根據(jù)公式C=F-1ΛF得到,其特征值為±1的對稱伯努利隨機分布;循環(huán)矩陣III同II的構造類似,其特征值為復平面的單位球分布。然后再從N×N維的循環(huán)矩陣中隨機抽取M行構成M×N維的觀測矩陣。表2給出了三類循環(huán)矩陣與高斯隨機矩陣及傅里葉矩陣在DCT基下的互相關系數(shù)。
雖然循環(huán)矩陣I的互相關系數(shù)比高斯隨機矩陣要大,但循環(huán)矩陣II和III憑借傅里葉矩陣與變換基之間的極大的非相關性,互相關系數(shù)都接近于零。雖然傅里葉矩陣對于離散余弦變換矩陣呈現(xiàn)了相當顯著的非相關性,但是傅里葉矩陣對于非時域或頻域稀疏的信號重構效果不佳,應用范圍有限不及高斯隨機矩陣具有普適性。由傅里葉矩陣構造的循環(huán)矩陣是一種結構化的隨機矩陣,有著傅里葉矩陣強非相關性性能,在實際存儲和計算方面也比起高斯隨機矩陣更佳。
4.3 單幀重構誤差分析
本節(jié)對一幀語音信號在不同壓縮率不同觀測矩陣下,預處理前后的信號重構精度進行研究。定義壓縮率為r=M/N,重構精度用均方誤差來衡量。對于此幀信號,將DCT域中系數(shù)小于0.2的量都置為零,然后對反變換得到的語音信號再進行投影觀測。
表3給出的是不同壓縮率下三類觀測矩陣在DCT域是否進行稀疏預處理的重構誤差情況。
根據(jù)表3中數(shù)據(jù)可以得出壓縮率越高重構精度越高,在容許的誤差范圍之內(nèi)壓縮率盡量取到最小來獲得最佳的壓縮效果。從表3中可以發(fā)現(xiàn)誤差最小達到0.002 3且不能再小,原因是在DCT域進行稀疏預處理時,已將一部分幅值較小的系數(shù)置零,所以得到的新的語音信號較原語音信號本來存在著偏差,但是這一部分產(chǎn)生的誤差卻比預處理前要小,可見預處理達到了一定的效果。預處理后兩類循環(huán)矩陣在壓縮率為0.4時仍能保證良好的恢復精度,也從仿真角度證明了循環(huán)觀測矩陣比起高斯隨機矩陣的優(yōu)越性。
4.4 各幀信噪比分析
本節(jié)對整段信號進行仿真實驗,分析各幀信噪比情況。語音信號用漢明窗分幀,幀長512采樣點,幀移為二分之一幀長,采用循環(huán)矩陣II進行觀測。由于各幀的能量分布不同,對各幀設定動態(tài)閾值。定義重構信號第i幀信噪比為:
圖3中給出了不同壓縮率下各幀信噪比情況。
圖3 各幀語音信噪比
仿真實驗對每幀語音信號根據(jù)各幀稀疏系數(shù)不同分布,采取了一種簡單的自適應觀測數(shù)選擇方法:每幀觀測數(shù)目取每幀稀疏向量非零個數(shù)的四倍。采用自適應觀測后每幀信噪比能與壓縮率0.6以上的效果相當,但其壓縮率到達0.38,平均信噪比達到20.897 9 dB,每幀信噪比與固定每幀壓縮率為0.4的情況相比更穩(wěn)定,沒有出現(xiàn)個別語音幀信噪比急劇下降。此外,再使用主觀語音質(zhì)量評估(Perceptual Ealuation of Speech Quality,PESQ)[11]來衡量語音重構質(zhì)量。PESQ得分在1.0和4.5之間,得分越高說明語音重構質(zhì)量越好。對重構語音進行PESQ評分得分為3.211,播放重構語音人耳能清晰的聽到男聲“大衣”的發(fā)音。
本文根據(jù)語音信號在DCT域的近似稀疏性,將信號接近于零的變換域系數(shù)進行置零預處理,得到一個改善了變換域稀疏性的新信號,對其進行觀測。針對傳統(tǒng)壓縮感知中高斯隨機矩陣計算存儲復雜,提出了使用循環(huán)觀測矩陣對漢語語音信號進行觀測投影。利用最后利用OMP正交匹配追蹤方法對觀測信號進行恢復,仿真實驗表明改進方法不僅對單幀語音還是整段語音信號都能較精確重構,同時能保證比較低的壓縮比,對重構語音進行主觀評估也能得到不錯效果。本文主要思想建立在犧牲小部分信號精確度來換取信號在變換域的稀疏性,通過循環(huán)觀測矩陣進行觀測投影,恢復得到信號精度因此也存在局限。為此,對于漢語語音信號,保證信號精度的前提下尋找稀疏性更好的表示方式,構造性能更佳的觀測矩陣,仍是需要繼續(xù)研究的方面。
表2 各觀測矩陣互相關系數(shù)
表3 不同壓縮率下重構誤差比較
[1]Donoho D.Compressed sensing[J].IEEE Transactions on Information Theory,2006,52(4):1289-1306.
[2]Tsaig Y,Donoho D.Extensions of compressed sensing[J]. Signal Processing,2006,86(3):533-548.
[3]Candes E J,Romberg J.Sparsity and incoherence in compressive sampling[J].Inverse Problems,2007,23(3):969-985.
[4]Emmanuel C,Terence T.Near optimal signal recovery from random projections:universal encoding strategies[J]. IEEE Transactions on Information Theory,2006,52(12):5406-5425.
[5]Holger R.Circulant and Toeplitz matrices in compressed sensing[C]//SPARS’09,Saint Malo,2009.
[6]Moreno-Alvarado R G,Martinez-Garcia M.DCT-compressive sampling applied to speech signals[C]//21st International Conference on Electrical Communications and Computers,San Andres Cholula,Puebla,Mexico,2011:55-59.
[7]郭海燕,王天荊.DCT域的語音信號自適應壓縮感知[J].儀器儀表學報,2010,31(6):1262-1267.
[8]季云云,楊震.基于自相關觀測的語音信號壓縮感知[J].信號處理,2011(2):207-214.
[9]Pati Y C,Rezaifar R K.Orthogonal matching pursuit:recursive function approximation with applications to wavelet decomposition[C]//Proceedings of the 27th Annual Asilomar Conference in Signals,Systems and Computers,Pacific Grove,CA,USA,1993,1:40-44.
[10]Rao K R,Kim D N,Hwang J J.Fast Fourier transform:algorithms and applications[M].Arlington:Springer,2010:34-37.
[11]ITU-T.P.862-2001 Perceptual Evaluation of Speech Quality(PESQ):an objective method for end-to-end speech quality assessment of narrow-band telephone networks and speech codecs[S].2001.
XU Haobo,YU Fengqin
School of Internet of Things Engeneering,Jiangnan University,Wuxi,Jiangsu 214122,China
Based on the compressed sensing theory,it proposes a pre-treatment for the sparsity of transform-domain by zeroing the value below the threshold in the DCT domain.It builds the circulant measurement matrix in three ways instead of Gaussian random matrix,and proves the non-coherence between measurement matrix and DCT base.It uses the OMP method to recover the signal.Simulation experimental result demonstrates that after pre-treatment using circulant measurement matrix has lower restruction error in different compression rate.While analyzing the SNR of each frame,it guarantees a low compress rate and has a good score in PESQ.
speech compressed sensing;Discrete Cosine Transform(DCT)sparse pre-treatment;circulant measurement; Orthogonal Matching Pursuit(OMP)
基于壓縮感知原理提出將語音信號DCT域上的小系數(shù)在一定閾值下置零預處理來改善變換域稀疏性;用三種方法構造循環(huán)觀測矩陣作為觀測矩陣來代替高斯隨機矩陣,并證明了構造的觀測矩陣與DCT基之間的非相關性;利用OMP正交匹配追蹤方法對觀測信號進行恢復。仿真實驗結果表明,預處理后使用循環(huán)觀測在不同壓縮率下有更低的重構誤差,同時分析各幀信噪比情況保證在比較低的壓縮率下仍能得到良好的主觀評估。
語音壓縮感知;離散余弦變換(DCT)域稀疏預處理;循環(huán)觀測;正交匹配追蹤(OMP)
A
TN912.3
10.3778/j.issn.1002-8331.1304-0329
XU Haobo,YU Fengqin.Speech compressed sensing based on sparse pre-treatment and circulant measurement. Computer Engineering and Applications,2014,50(23):220-224.
國家自然科學基金(No.61075008)。
徐皓波(1988—),男,碩士研究生,主要研究領域:語音信號處理;于鳳芹(1962—),女,教授,主要研究領域:語音信號處理、非平穩(wěn)信號時頻分析。E-mail:xhb316@qq.com
2013-04-23
2013-06-13
1002-8331(2014)23-0220-05
CNKI網(wǎng)絡優(yōu)先出版:2013-08-22,http://www.cnki.net/kcms/detail/11.2127.TP.20130822.1408.010.html