陳 益,李文鈞
(杭州電子科技大學(xué) 電子信息學(xué)院,浙江 杭州 310018)
上世紀(jì)以來,奈奎斯特采樣定理[1]支配著所有的信息傳輸、處理及存儲。若要不失真地重構(gòu)出原信號,采樣頻率必須不小于奈奎斯特頻率的兩倍[2]。但由于采樣頻率越來越高,計(jì)算量越來越大,導(dǎo)致硬件的處理速度難以滿足現(xiàn)代人對信息處理的要求。
2006年美國斯坦福大學(xué)的Donoho和Candes從信號的分解和逼近理論提出了壓縮感知(Compressed Sensing,CS)[3]。壓縮感知理論認(rèn)為:若信號在某一個變換域上是可壓縮的或者稀疏的,則可利用一個與它的變換基不相關(guān)的觀測矩陣將其變換而得到的高維度的信號投影到一個低維度的空間上,根據(jù)少量的觀測值,通過求解其優(yōu)化性的問題,并可從少量的投影中以非常高的概率重構(gòu)出原始信號。
目前,壓縮感知理論在許多領(lǐng)域獲得廣泛的應(yīng)用研究,如醫(yī)學(xué)圖像處理、CS雷達(dá)、圖像采集設(shè)備開發(fā)等。目前,針對語音信號的CS理論研究尚處于剛起步的階段。Gemmeke和Granen利用CS技術(shù)原理對有噪聲的環(huán)境下的語音信號進(jìn)行識別,實(shí)驗(yàn)證明,識別系統(tǒng)的抗噪聲性能得到很大提高,顯示出CS技術(shù)在語音信號處理中的巨大前景[4]。進(jìn)一步說,如果利用CS技術(shù)進(jìn)行采樣,所需采樣的數(shù)據(jù)量將大為減少,再結(jié)合有損編碼技術(shù),即可以實(shí)現(xiàn)更低碼率上的高質(zhì)量語音編碼。
本文提出基于正交匹配追蹤算法(OMP)[5]的壓縮感知重構(gòu)算法實(shí)現(xiàn)對語音信號進(jìn)行信號重構(gòu)。仿真實(shí)驗(yàn)表明,相比于傳統(tǒng)的壓縮感知的重構(gòu)算法,本方法對含噪語音的去噪效果也會更好,重構(gòu)語音的效果會更高。
壓縮感知以信號的稀疏表示為基礎(chǔ),通過求解欠定線性方程組的最優(yōu)化問題進(jìn)而來實(shí)現(xiàn)對信號重構(gòu),觀測矩陣、稀疏變換基和恢復(fù)算法是其三大要素。壓縮感知是一種新的能夠在采樣的同時實(shí)現(xiàn)壓縮目的的技術(shù)。其壓縮的采樣過程可以分成3個步驟,其理論框圖如圖1所示。
首先,如果一個信號X∈RN在某個正交基上或者是在一個緊框架ψ上是能夠被壓縮的或者是稀疏的,就可以求出它的變換的系數(shù)θ=ψTX,θ是ψ的等價或逼近性的稀疏性示[6];
其次,設(shè)計(jì)構(gòu)造一個既平穩(wěn)又與變換基ψ不相干的,而且是M×N維度的觀測型的矩陣Φ,對θ進(jìn)行觀測可以得到一個觀測矩陣Y=Φθ=ΦψTX,此過程也可以表示:信號X通過矩陣ACS進(jìn)行的非自適應(yīng)性的觀測:Y=ACSX,其中ACS=ΦψT,ACS稱為CS信息算子[7];
min‖ψX‖0s.t.ACSX=Y
(1)
圖1 壓縮感知理論框圖
圖1中,第一步、第二步為低速壓縮采樣Y=ACSX。壓縮感知(CS)理論主要涉及以下幾個關(guān)鍵性的問題:(1)對于信號X∈RN,怎樣去找到某個緊框架ψ或者是正交基,使其在變換基ψ上的表示是稀疏性的,即信號的稀疏性的表示問題;(2)構(gòu)造一個平穩(wěn)且與變換基ψ不相關(guān)的M×N維度的觀測矩陣Φ,確保稀疏向量θ從N維降到M維時,其重要的信息不會被破壞,即信號的低速型采樣的問題[8];(3)關(guān)于如何設(shè)計(jì)快速性的重構(gòu)算法,從線性觀測Y=ACSX中恢復(fù)信號,也即信號的重構(gòu)問題。
本文先以原始語音信號為例,如圖2所示。通過Matlab實(shí)現(xiàn)了生成用于算例的語音觀測信號圖,圖3所示為基于Matlab的壓縮感知算法實(shí)現(xiàn)的原測試信號觀測結(jié)果圖。線性預(yù)測(Linear Prodiction,LP)分析是語音信號處理的核心技術(shù)之一。在語音編碼、識別以及合成等語音處理領(lǐng)域都有廣泛應(yīng)用。在AR(Autog Ressive)模型中,由于有語音樣點(diǎn)之間存在相關(guān)性的原因,所以一個語音信號的抽樣值x(n)可以用過去的p個取樣值的線性組合來逼近
(2)
其中,ai是預(yù)測系數(shù);e(n)是自回歸濾波器的激勵。通過最小均方誤差(Least Mean Square,LMS)準(zhǔn)則,可以使得語音信號采樣值與線性預(yù)測值最小,也可以確定唯一的一組線的預(yù)測系數(shù){ai}。由上式可以得到LP分析殘差e(n)為
(3)
可以將殘差寫成向量的形式e=Tx。其中
(4)
由上述LP分析可知,濁音殘差信號e是以基音周期為周期重復(fù)的單位脈沖的序列,也即殘差信號僅在基音周期的整數(shù)倍的位置上才會有較大的幅值。這進(jìn)一步說明了,矩陣T確實(shí)是去除了語音信號x在相鄰樣點(diǎn)之間的相關(guān)性,所以此時將矩陣T稱為分析矩陣。語音信號也可近似的表示為
x=R-1e=He
(5)
其中,H為分析矩陣T的逆矩陣T-1,將殘差信號e映射到語音信號域進(jìn)而實(shí)現(xiàn)信號的重構(gòu),所以將H矩陣稱為合成矩陣。本文語音信號具有較好的稀疏性,而清音信號卻不具有稀疏性。這是因?yàn)榍逡魩臍埐钚盘柎_是一個高斯白噪聲序列,如圖2所示。
圖2 一維語音信號的原始波形
圖3 原測試信號觀測結(jié)果圖
圖3中的每幀語音是以26次觀測為例。因?yàn)檎Z音的絕大部分能量都集中在濁音部分,而清音的能量比較小,因此,清音幀的非稀疏性對語音信號在H上的壓縮感知的性能的影響并不大。而基于Matlab的壓縮感知算法可以進(jìn)而實(shí)現(xiàn)原測試信號所對應(yīng)稀疏信號稀疏度圖,如圖4所示。
圖4 對應(yīng)稀疏信號稀疏度圖
利用FFT稀疏化方法對語音信號局部信號(1001~1005)稀疏化表示,圖5為稀疏化表示圖。再基于DCT稀疏化方法對語音信號局部信號(1001~1005)稀疏化表示,得到圖6稀疏化表示示意圖。
圖5 FFT基對語音信號局部信號稀疏化表示圖
圖6 DCT基對語音信號局部信號稀疏化表示圖
Candes在其2006年發(fā)表的論文中證明了,只要信號是可壓縮的或在某個變換域是稀疏的,就能以非常低的頻率即M?N的采樣信號近乎無損地重構(gòu)出原信號。基于線性預(yù)測(LP)分析的語音信號的壓縮感知模型如圖7所示。
圖7 算法原理
對經(jīng)漢明窗和矩形窗分幀的語音信號,分別利用LP分析的技術(shù)和CS技術(shù),提取線性預(yù)測系數(shù)向量α和觀測向量y。語音信號的重構(gòu)可以以線性預(yù)測系數(shù)向量α和觀測向量y為已知的條件,利用解優(yōu)化問題的方法來進(jìn)一步實(shí)現(xiàn)語音信號在H域上的信號重構(gòu)[9]。
語音信號壓縮可以分為兩個階段:第一階段,對語音信號進(jìn)行觀測,得到觀測向量y;第二階段,通過線性分析來獲取每幀語音信號的p個線性的預(yù)測系數(shù),用于構(gòu)造合成矩陣H[10]。
語音信號的重構(gòu)就是一個解優(yōu)化問題的過程,也即通過求解L1的優(yōu)化問題來進(jìn)一步獲得語音信號在稀疏域上的稀疏系數(shù),利用已經(jīng)合成的矩陣再將稀疏性的系數(shù)投影到語音的信號域,從而可以達(dá)到實(shí)現(xiàn)信號的再次重構(gòu),其原理如式(6)和式(7)所示。
(6)
(7)
本文使用的算例對象是語音(鈴聲)信息,是以216次觀測為例,觀測矩陣Φ為M×N的隨機(jī)高斯矩陣。本文主要研究語音信號在H上的CS性能和不同的變換矩陣上的重構(gòu)語音信號的信噪比以及分段的信噪比,并且給出了重構(gòu)語音信號的主觀性上的評價。重構(gòu)語音信號的質(zhì)量的客觀評價的方法為
其中,M為原始語音信號的總幀數(shù)。
如圖8所示,除了兩端的重構(gòu)語音與原始語音有一定的誤差外,基本實(shí)現(xiàn)了語音信號的精確重構(gòu),這是為進(jìn)一步獲取線性預(yù)測系數(shù),引入自相關(guān)函數(shù)時引起了誤差所導(dǎo)致。為了能夠盡可能多的去降低兩端誤差,在線性預(yù)測階段使用兩端具有平滑過渡特性的漢明窗[11],在壓縮感知(CS)的觀測階段使用可以確保語音信號時域特性的矩形窗。本文利用DCT基時CS恢復(fù)語音信號局部信號誤差隨觀測次數(shù)變換圖(觀測次數(shù)為216次),如圖9所示。
圖8 利用DCT基時局部信號CS恢復(fù)結(jié)果與原信號比對圖
圖9 利用DCT基時CS恢復(fù)語音信號局部信號誤差隨觀測次數(shù)變換圖
圖9給出了語音信號在利用DCT基時CS恢復(fù)語音信號局部信號誤差隨觀測次數(shù)變換圖。從圖中可以看出,語音信號在利用FFT基時CS恢復(fù)語音信號局部信號誤差隨觀測次數(shù)變換時,隨著觀測次數(shù)增加,信號的恢復(fù)誤差也在不斷衰減,因此得到的恢復(fù)信號也更加精確;反之,得到的恢復(fù)信號會越來越差,甚至得不到恢復(fù)信號。
圖10 利用FFT基時CS恢復(fù)語音信號局部信號誤差隨觀測次數(shù)變換圖
圖10給出了利用FFT基時CS恢復(fù)語音信號局部信號誤差隨觀測次數(shù)變換圖,從圖中可以看出,隨著觀測次數(shù)的增加,信號的恢復(fù)誤差呈階梯型遞減,這表明得到的恢復(fù)信號精度越來越高。反之,得到的恢復(fù)信號會越來越差,甚至得不到恢復(fù)信號。對比圖9和圖10,可以得到,語音信號在利用DCT基時CS恢復(fù)語音信號局部信號誤差隨觀測次數(shù)變換,相比于其在利用FFT基時CS恢復(fù)語音信號局部信號誤差隨觀測次數(shù)變換更好,因?yàn)樵谛枰_(dá)到同樣恢復(fù)誤差的情況下,語音信號在利用DCT基時CS恢復(fù)語音信號局部信號誤差隨觀測次數(shù)變換所需要的感測次數(shù),明顯小于語音信號在利用FFT基時CS恢復(fù)語音信號局部信號誤差隨觀測次數(shù)變換。經(jīng)過上述處理可以進(jìn)一步得到利用DCT基時語音信號局部信號CS恢復(fù)結(jié)果與原信號比對圖,如圖11所示。
圖11 恢復(fù)結(jié)果與原信號比對圖
從圖11可以看出,利用DCT基時的語音信號的局部恢復(fù)信號可以近乎無失真的還原出原語音信號,效果良好。
語音信號重構(gòu)是語音信號處理的重要內(nèi)容,利用正交匹配追蹤算法(OMP)對語音信號重構(gòu)進(jìn)行設(shè)計(jì),取得較好的效果,具有較高的應(yīng)用價值,值得進(jìn)一步深入研究。
[1] 李卓凡,閆敬文.壓縮感知及應(yīng)用[M].北京:國防工業(yè)出版社,2015.
[2] Donoho D L.Compressed sensing[J].IEEE Transactions on Information Theory,2006,52(2):489-509.
[3] 許小冬.基于壓縮感知理論的圖像重構(gòu)算法研究[D].蘭州:西北師范大學(xué),2015.
[4] 沈丹丹.基于壓縮感知的語音編碼研究[D].南京:南京郵電大學(xué),2012.
[5] Donoho D.Compressed Sensing[J].IEEE Transactions on Information Theory,2006,52(4):128-136.
[6] 金堅(jiān),谷源濤,梅順良.壓縮采樣技術(shù)及其應(yīng)用[J].電子與信息學(xué)報(bào),2010,32(2):470-475.
[7] 馬小薇.基于壓縮感知的OMP圖像重構(gòu)算法改進(jìn)[J].電子科技,2015,28(4):51-53.
[8] 石光明,劉丹華,高大化,等.壓縮感知理論及其研究進(jìn)展[J].電子學(xué)報(bào),2009,37(5):1070-1081.
[9] Donoho D,Tsaig Y.Compressed sensing[J].Signal Processing,2006,86(3):533-548.
[10] Candes E.Sparsity in compressive sampling[J].Inverse Problem,2007(3):969-985.
[11] 韓紀(jì)慶,張磊,鄭鐵然.語音信號處理[M].北京:清華大學(xué)出版社,2004.