高 悅 陳硯圃 閔 剛 杜 佳
(西安通信學院基礎部 西安 710106)
壓縮感知(Compressed Sensing, CS)理論是2006年 Donoho等人[1?3]首次提出的,其主要原理是利用非自適應線性投影以少數數據保持信號的原始結構,通過解決數值最優(yōu)化問題來近似重構原始信號。這一理論為信號處理理論帶來了革命性的突破,具有廣闊的應用前景。目前,壓縮感知理論在壓縮成像系統(tǒng)、模擬信息轉換、生物傳感等領域都有很好的應用[4]。
壓縮感知在實現(xiàn)邊采樣邊壓縮的同時,還可以實現(xiàn)對信息的加密,同時具有較強的抗干擾能力?;趬嚎s感知的這些優(yōu)點,人們開始將壓縮感知理論應用于語音信號。但是目前,關于語音信號的壓縮感知理論研究并不多見。Griffin等人[5]將CS理論應用于多通道語音信號處理,Giacobello等人[6]則將CS理論與語音編碼相結合,文獻[7]構造了一種沖擊響應矩陣來實現(xiàn)語音信號的稀疏化,并利用匹配追蹤算法實現(xiàn)了對語音信號的重構。Christensen等人[8]利用復正弦窗構成的字典對語音和音頻實信號進行稀疏分解,采用壓縮感知理論來實現(xiàn)語音和音頻信號的重構。在國內,南京郵電大學的楊震和解放軍理工大學的陳亮等開展了 CS理論在語音信號上的應用等一系列研究,發(fā)表了關于觀測矩陣、稀疏變換矩陣、語音端點檢測、說話人識別系統(tǒng)的抗噪和信息隱藏等方面的論文[9?15]。這些都表明 CS理論與語音信號處理技術相結合具有廣闊的研究前景。
本文根據語音信號自身的特點,利用語音信號的線性預測系數(Linear Prediction Coefficients,LPC),提出了一種將LPC與差分矩陣相結合的聯(lián)合稀疏變換方法,通過與快速傅里葉變換和LPC兩種稀疏變換方法的對比,分析了聯(lián)合變換法重構語音信號的性能。
其中sni為標量系數,且K?N,此時信號x可以被稱為是K“稀疏”(sparsity)的。如果能夠將式(1)表示為·x,則Y?1稱為x的稀疏化矩陣,s是只有K個未知非零元素的稀疏化向量。
其中T=FY稱為傳感矩陣。Baraniuk證明約束等距特性的等價條件是測量矩陣F和稀疏變換基Y不相關,Candés證明當F是高斯隨機矩陣時,傳感矩陣T能以較大概率滿足約束等距條件[16,17],因此本文采用高斯隨機矩陣作為測量矩陣。當M<N時,式(2)無唯一解。但如果信號具有K稀疏性,則可以基于以下數學最優(yōu)化問題求解:
人們已經提出了許多稀疏化問題的求解方法,如匹配追蹤算法、正交匹配追蹤算法[18]、梯度追蹤算法[19]、正則正交匹配追蹤算法[20]和壓縮采樣匹配追蹤算法[21]等。由于 OMP算法運算速度快且易于實現(xiàn),本文將采用 OMP算法來求解優(yōu)化問題并重構信號。
由壓縮感知理論可知,信號的稀疏化矩陣和測量矩陣是對信號進行壓縮感知的兩個重要因素。如何找到信號最佳的稀疏域,是壓縮感知理論應用的基礎和前提。同一信號在不同的稀疏變換域下,表達信號的稀疏程度和能量集中的程度會有所不同,經壓縮感知變換后重構信號的精度也會有很大差異。目前常用的稀疏變換域有FFT,離散余弦變換,離散小波變換,Curvelets, Gabor,冗余字典以及Karhunen-Loeve變換(KLT)[13,15]等。
無論這些稀疏化變換基如何,其原理都是對信號進行某種變換,使信號在變換域上有部分值較大,而其余值為0或接近于0。根據這個原理,考慮語音信號處理中常用的LPC分析,對于信號x=,可以用過去的p個樣點值來預測現(xiàn)在或未來的樣點值
則
由此可以通過在某種準則下使預測誤差 =[r(1),R最小的方法來得到唯一一組線性預測系數。利用線性預測系數可構成一個N×N矩陣A:
由于預測誤差R是在某種最佳準則下得到的最小值,因此其值多數是接近于0的,這與稀疏變換的定義相一致。如果將預測誤差R看作稀疏變換的結果,那么矩陣A就可以看作是一種稀疏變換域。本文將采用矩陣A作為稀疏變換的方法簡稱為LPC方法。
對于連續(xù)信號來說,相鄰樣點之間相關性較好。因此,如果采用差分矩陣,對信號相鄰的兩個樣點進行相減運算,就會得到包含很多近似零值的稀疏信號。一階差分矩陣為
任意信號與一階差分矩陣相乘,可得到相鄰兩個樣點值的差。LPC分析得到的預測誤差R本身可以看作是經過稀疏變換的結果,如果再與差分矩陣相乘,則可使預測誤差相鄰樣點兩兩相減,由此得到更多的近似零值,這樣在LPC基礎上將得到另外一種稀疏變換基,即
為了方便,這里將稀疏變換基?1=CA Y稱為聯(lián)合變換矩陣,這種稀疏化變換方法稱為聯(lián)合變換法。為了說明LPC法和聯(lián)合變換法的性能,本文將會對基于FFT法,LPC法和聯(lián)合變換法3種稀疏變換方法的信號重構性能進行比較和分析。
實驗語音為男聲“把悠遠而短暫的人生”,16 kHz采樣率,研究其中幀長為100樣點的濁音幀,如圖1所示。
可以看出,圖 1(a)所示的濁音信號,在分別經過FFT, LPC以及聯(lián)合變換基的稀疏變換后,在變換域都呈現(xiàn)出了稀疏性,滿足采用壓縮感知算法的條件。從變換域來看,聯(lián)合變換法的近似零點較多,稀疏域較好,在理論上應該重構效果最好。為了更好地比較這幾種稀疏變換域的性能,本文將采用OMP算法對語音信號進行重構,其中稀疏矩陣分別采用FFT, LPC及聯(lián)合變換矩陣,測量矩陣均采用高斯隨機矩陣。
圖2~圖4分別是利用FFT變換,LPC變換和聯(lián)合變換對圖 1(a)信號進行的壓縮重構。其中??梢钥闯觯肍FT法對信號進行稀疏化變換,得到的重構信號效果最差,這是由于語音信號的非周期性導致頻譜泄露而引起的。聯(lián)合變換法的重構效果最好,幾乎可以完全重構。這一結論與從變換域得到的結論相一致。
定義壓縮比b=M/N,x和分別表示原始信號和重構信號,則重構信號信噪比為
圖1 不同稀疏變換域的比較
圖2 FFT變換基重構信號
圖3 LPC變換基重構信號
圖4 聯(lián)合變換基重構信號
圖5所示是在不同壓縮比時,分別采用 FFT,LPC和聯(lián)合變換3種稀疏化矩陣下重構信號的信噪比。為了消除高斯隨機矩陣F產生的誤差,圖5所示曲線是對圖1(a)信號進行100次重構運算得到的平均信噪比。從圖中可以看出,無論壓縮比大小如何,LPC法和聯(lián)合變換法得到的重構信號,其性能都遠遠優(yōu)于FFT法得到的重構信號性能。在壓縮比小于0.4時,LPC法略優(yōu)于聯(lián)合變換法,而壓縮比較大時,聯(lián)合變換法的重構性能則比LPC法有了明顯的提高。
圖5 3種變換基在不同壓縮比時的SNR
圖6(a)為男聲“把悠遠而短暫的人生”中的一段語音,16 kHz采樣率,幀長100點,幀數50幀,分別采用3種稀疏變換方法,計算50幀重構語音的信噪比,壓縮比為0.5。同樣為了消除高斯隨機矩陣帶來的不確定性,圖6(b)所示的SNR為多次計算的平均信噪比??梢钥闯?,聯(lián)合變換法的重構信噪比最高,其次是LPC方法,F(xiàn)FT法最差。另外,圖6(a)所示語音包含一段靜音,比較圖6(a), 6(b)可以發(fā)現(xiàn),無論采用哪種稀疏化方法,濁音段的重構信噪比都比較高,靜音段的信噪比則較低。而實際上,這里得到的結論同樣適用于女聲以及清音信號。
圖7(a)為16 kHz采樣的女聲“運輸壓力加大”中的一段語音,同樣取50幀,幀長100點,其中包括部分清音。圖7(b)是這段語音在不同變換下的重構信噪比,壓縮比為0.6,圖中SNR也是多次計算得到的平均信噪比。從圖7(b)可以得到與圖6(b)相同的結論,即聯(lián)合變換的重構性能最好。另外,在清音段,3種方法的重構性能接近,重構信噪比都比較低。
無論采用哪種方法,由于在壓縮比較小時信號的重構信噪比總體較低,重構語音的音質較差,因此在分析時一般選擇壓縮比在 0.4以上。從以上的分析可以看出,在壓縮比大于 0.4時,聯(lián)合變換的方法是一種非常有效的信號稀疏化變換方法。語音信號通過聯(lián)合變換的方法進行稀疏化變換,會得到較高的重構信噪比。而從圖6(b)和圖7(b)可以看出,采用聯(lián)合變換的方法,濁音段的重構信噪比一般都在20 dB以上,即可以很好地重構濁音信號。
圖6 男聲語音及其重構信噪比
圖7 女聲語音及其重構信噪比
與濁音相比,清音段的重構性能則差得多。從圖6(b)和圖7(b)可以看出,對于清音部分,聯(lián)合變換法的重構性能與LPC法相當,比FFT法略好。這是由于壓縮感知的前提條件是信號具有稀疏性,濁音信號的相關性較強,說明濁音的可壓縮性較好,即稀疏性較好。而清音信號的相關性則差得多,因而稀疏性也較差。因此,無論采用哪種稀疏化方法,都很難對清音信號進行良好的稀疏化變換,這是清音信號重構信噪比都比較低的主要原因。
在CASIA標準漢語語音庫中隨機選取30段語音,其采樣頻率為16 kHz,每段語音以幀長為100樣點分幀,分別采用3種方法對語音進行稀疏化變換并重構,壓縮比為0.5。首先計算每段語音各幀的重構信噪比,然后再計算這段語音所有幀的平均重構信噪比,如圖8所示。可以看出,聯(lián)合變換法的語音重構質量最好,而FFT法則最差。
圖8 30段語音的平均重構信噪比
采用3種不同的稀疏變換方法,對16 kHz采樣的女聲“She turned in his hotel”進行分析。壓縮比分別取0.4~0.9,采用PESQ語音質量測評方法對重構語音進行MOS對比,如表1所示。從表1可以看出,在壓縮比為0.4時,LPC法的MOS值最高,但此時整體的 MOS值都比較低,重構語音的語音質量較差。在壓縮比大于 0.4時,聯(lián)合法重構語音的 MOS值都比另外兩種方法高,尤其在壓縮比為0.7以上時,重構語音的MOS值較高,這也說明,雖然采用聯(lián)合變換法沒有明顯提高重構清音的信噪比,但是對整段語音的重構效果影響不大,重構語音的 MOS值較高,其可懂度、清晰度和自然度也較好。
表1 不同壓縮比時重構語音的MOS值
本文根據語音信號LPC分析得到的殘差,提出了一種將 LPC分析和差分變換相結合的語音信號稀疏化變換方法。分別采用常用的FFT變換,LPC變換和聯(lián)合變換作為語音信號的稀疏變換矩陣,高斯隨機矩陣作為測量矩陣,以 OMP算法重構語音信號,對語音信號的重構性能進行了對比分析。實驗結果表明,在壓縮比大于 0.4時,以聯(lián)合變換的方法對語音信號進行稀疏變換,信號的重構性能最優(yōu)。非周期的語音信號在FFT變換域有頻譜泄露,影響了其重構性能。LPC分析法的信號重構性能比聯(lián)合變換的方法略差,主要因為其稀疏變換域的信號稀疏性相對較差。這也說明在信號重構性能相同時,聯(lián)合變換法的信號壓縮比最小。采用PESQ語音質量測評方法對采用3種方法重構的語音信號進行MOS對比,在壓縮比大于0.4時,聯(lián)合變換法的MOS值最高。這說明對于語音信號而言,基于LPC分析和差分變換的方法是一種很好的稀疏化變換方法,它能夠顯著提高重構語音信號的信噪比,如果將其應用于語音編碼中,則具有非常重要的理論探索意義。
[1] Donoho D. Compressed sensing.IEEE Transactions on Information Theory, 2006, 52(4): 1289-1306.
[2] Baraniuk R G. Compressive sensing.IEEE Signal Processing Magazine, 2007, 24(4): 118-121.
[3] Donoho D and Tsaig Y. Extensions of compressed sensing.Signal Processing, 2006, 86(3): 533-548.
[4] 石光明, 劉丹華, 高大化, 等. 壓縮感知理論及其研究進展.電子學報, 2009, 37(5): 1070-1081.Shi G M, Liu D H, Gao D H,et al.. Advances in theory and application of compressed sensing.Acta Electronica Sinica,2009, 37(5): 1070-1081.
[5] Griffin A and Tsakalides P. Compressed sensing of audio signals using multiple sensors. Proceedings 16th European Signal Processing Conference (EUSIPCO’08), Lausanne,Switzerland, August 25-29, 2008.
[6] Giacobello D, Christensen M G, Murthi M N,et al..Retrieving sparse patterns using a compressed sensing framework: applications to speech coding based on sparse linear prediction.IEEE Signal Processing Letters, 2010, 17(1):103-106.
[7] Sreenivas T V and Kleijn W B. Compressive sensing for sparsely excited speech signals. Proceedings of the 2009 IEEE International Conference on Acoustics, Speech and Signal Processing, Taipei, China, April 19-24, 2009: 4125-4128.
[8] Christensen M, Ostergaard J, and Jensen S H. On compressed sensing and its application to speech and audio signals. Proceedings of the 43rd Asilomar Conference on Signals, Systems and Computers (Asilomar’09), Monterey,California, Nov. 1-4, 2009: 356-360.
[9] 葉蕾, 孫林慧, 楊震. 基于壓縮感知觀測序列倒譜距離的語音端點檢測算法. 信號處理, 2011, 27(1): 67-72.Ye L, Sun L H, and Yang Z. Endpoint detection algorithm based on cepstral distance of compressed sensing measurements of speech signal.Signal Processing, 2011, 27(1):67-72.
[10] 季云云, 楊震. 基于自相關觀測的語音信號壓縮感知. 信號處理, 2011, 27(2): 207-214.Ji Y Y and Yang Z. Compressed speech signal sensing based on autocorrelative measurement.Signal Processing, 2011,27(2): 207-214.
[11] 葉蕾, 郭海燕, 楊震. 基于壓縮感知重構信號的說話人識別系統(tǒng)抗噪方法研究. 信號處理, 2010, 26(3): 321-326.Ye L, Guo H Y, and Yang Z. Research on antinoise method of speaker recognition system based on compressed sensing reconstruction signal.Signal Processing, 2010, 26(3):321-326.
[12] 孫林慧, 楊震. 基于壓縮感知的分布式語音壓縮與重構. 信號處理, 2010, 26(6): 824-829.Sun L H and Yang Z. Distributed speech compression and reconstruction based on compressed sensing theory.Signal Processing, 2010, 26(6): 824-829.
[13] 郭海燕, 楊震. 基于近似 KLT 域的語音信號壓縮感知. 電子與信息學報, 2009, 31(12): 2948-2952.Guo H Y and Yang Z. Compressed speech signal sensing based on approximate KLT.Journal of Electronics&Information Technology, 2009, 31(12): 2948-2952.
[14] Xu T T, Yang Z, and Shao X. Novel speech secure communication system based on information hiding and compressed sensing. 2009 Fourth International Conference on Systems and Networks Communications (ICSNC 2009),Porto, Portugal, 2009: 201-206.
[15] 肖強, 陳亮, 朱濤, 等. 基于準 KLT 域的線譜對參數壓縮感知量化研究. 電子與信息學報, 2011, 33(9): 2062-2067.Xiao Q, Chen L, Zhu T,et al.. Efficient compressed sensing quantization of LSP parameters based on the approximate KLT domain.Journal of Electronics&Information Technology, 2011, 33(9): 2062-2067.
[16] Candés E and Tao T. Decoding by linear programming.IEEE Transactions on Information Theory, 2005, 51(12):4203-4215.
[17] Candés E, Romberg J, and Tao T. Stable signal recovery from incomplete and inaccurate measurements.Communications on Pure and Applied Mathematics, 2006, 59(8): 1207-1223.
[18] Tropp J and Gilbert A C. Signal recovery from random measurements via orthogonal matching pursuit.IEEE Transactions on Information Theory, 2007, 53(12):4655-4666.
[19] Sreenivas T V and Kleijn W B. Compressive sensing for sparsely excited speech signals. 2009 IEEE International Conference on Acoustics, Speech, and Signal Processing(ICASSP 2009), Taipei, China, April 2009: 4125-4128.
[20] Needell D and Vershynin R. Signal recovery from incomplete and inaccurate measurements via regularized orthogonal matching pursuit.IEEE Signal Processing, 2010, 4(2):310-316.
[21] Needell D and Tropp J A. CoSaMP: iterative signal recovery from incomplete and inaccurate samples. ACM Technical Report 2008-01, California Institute of Technology, Pasadena,July 2008.