茅正沖, 邵朱宇
(江南大學(xué) 輕工過程先進(jìn)控制教育部重點(diǎn)實(shí)驗(yàn)室,江蘇 無錫 214122)
?
壓縮感知的改進(jìn)小波抗噪識(shí)別系統(tǒng)設(shè)計(jì)*
茅正沖, 邵朱宇
(江南大學(xué) 輕工過程先進(jìn)控制教育部重點(diǎn)實(shí)驗(yàn)室,江蘇 無錫 214122)
根據(jù)小波樹稀疏性的好壞自適應(yīng)分配觀測(cè)數(shù)目,然后由觀測(cè)數(shù)目調(diào)整小波樹的節(jié)點(diǎn)個(gè)數(shù),使小波樹中節(jié)點(diǎn)數(shù)目與觀測(cè)數(shù)目不匹配的問題得以解決。將預(yù)處理后的語音信號(hào)經(jīng)改進(jìn)小波去噪,進(jìn)而通過Gammatone濾波器組,提取特征參數(shù)GFCC。在高斯混合模型下仿真實(shí)驗(yàn)進(jìn)行。結(jié)果表明:該方法與傳統(tǒng)非稀疏性適應(yīng)觀測(cè)的小波去噪方法相比信噪比提高了14 %,有效削弱了語音信號(hào)中噪聲的影響,且系統(tǒng)的識(shí)別率與魯棒性都有明顯提高。
壓縮感知; 小波去噪; 稀疏性適應(yīng)觀測(cè); 抗噪算法; 識(shí)別率
壓縮感知作為近些年新興的信號(hào)處理技術(shù),是一種在采樣過程中利用較少數(shù)據(jù)就能有效提取信號(hào)信息,然后通過重構(gòu)算法從采樣信息中恢復(fù)原信號(hào)的方法[1]。信號(hào)的稀疏性是壓縮感知的前提和基礎(chǔ),但是正如語音和圖像等信號(hào),它們本身并不是稀疏的,但可以通過某種變換在其變換域中得到一個(gè)稀疏的信號(hào)以此來適用壓縮感知。對(duì)于語音信號(hào)通??梢赞D(zhuǎn)換到離散余弦變換(DCT)域、小波域等變換域來獲得稀疏信號(hào)。
本文提出的基于壓縮感知的改進(jìn)小波抗噪識(shí)別系統(tǒng),根據(jù)語音幀稀疏性的好壞為語音幀分配不同的觀測(cè)數(shù),再根據(jù)觀測(cè)數(shù)目調(diào)整小波樹節(jié)點(diǎn)的個(gè)數(shù),最后由觀測(cè)值重構(gòu)小波樹模型,得到經(jīng)小波處理后的語音信號(hào)。實(shí)驗(yàn)結(jié)果證明,與傳統(tǒng)小波抗噪方法相比,平均信噪比提高了14 %。
1.1壓縮感知基本原理
1.2語音信號(hào)小波樹模型
圖1 小波樹模型Fig 1 Wavelet tree model
雖然系數(shù)向量Θ具有一定的稀疏性,但是直接觀測(cè)并不能得到最好的重構(gòu)效果。為此利用壓縮排序選擇算法CSSA[4]對(duì)小波樹進(jìn)行修剪來獲得更好的稀疏性,且與原信號(hào)保持較小的誤差。定義k稀疏的小波樹模型信號(hào)為
(1)
Ω中的非零系數(shù)形成相連的子樹,以此逼近原始信號(hào)
S*=argmax{B(S)}
(2)
式中S為系數(shù)向量Θ的索引,代表節(jié)點(diǎn)位置,S*為小波樹中最大能量的節(jié)點(diǎn),B(S)為系數(shù)向量Θ的能量序列。尺度系數(shù)υ為初始默認(rèn)選中的節(jié)點(diǎn),若S*的父節(jié)點(diǎn)p(S*)在子樹中未被選中,則節(jié)點(diǎn)S*及其父節(jié)點(diǎn)p(S*)進(jìn)行壓縮合并成一個(gè)超節(jié)點(diǎn),并更新它們的取值為其平均值;若父節(jié)點(diǎn)p(S*)已被選中,則S*也標(biāo)記為選中。然后更新迭代次數(shù)
t=t+n(S*)
(3)
式中n(S*)為當(dāng)前節(jié)點(diǎn)S*包含的節(jié)點(diǎn)個(gè)數(shù),t為當(dāng)前迭代次數(shù)。當(dāng)t 1.3小波樹稀疏性適應(yīng)觀測(cè) 帶噪語音信號(hào)可以粗略分為噪聲段、帶噪清音段和帶噪濁音段。其中帶噪濁音段包含了絕大部分的語音信息,有著比較規(guī)律的諧波性,在變換域中呈現(xiàn)出良好的稀疏性,由于噪聲信號(hào)一般稀疏性較差,所以在重構(gòu)時(shí)能濾除該段部分噪聲[6];而其他聲音段語音信息量小,稀疏性差,重構(gòu)效果不理想。壓縮感知原理指出,觀測(cè)數(shù)目越多對(duì)于信號(hào)的重構(gòu)效果越好。為此,對(duì)稀疏性好信息量大的語音幀分配較多的觀測(cè)數(shù)目;對(duì)稀疏性差信息量小的語音幀則分配較少的觀測(cè)數(shù)目,雖然這會(huì)導(dǎo)致重構(gòu)不精確,但由于該部分語音幀信息量較小,較低的重構(gòu)信噪比并不會(huì)影響語音整體的重構(gòu)效果。在小波樹模型中,對(duì)系數(shù)向量Θ進(jìn)行稀疏性的判斷,這里用Gini系數(shù)[7]來表征信號(hào)的稀疏性 (4) Gammatone濾波器能很好地模擬人耳基底膜的分頻特性,本文通過該濾波器組提取特征參數(shù)GFCC。先對(duì)帶噪信號(hào)作預(yù)處理(預(yù)加重、分幀和加窗)和基于本文算法的壓縮重構(gòu),然后將恢復(fù)的信號(hào)通過一組64通道的Gammatone濾波器組,其中心頻率在50~8 000 Hz之間[8],時(shí)域表達(dá)形式如下 g(f,t)=kta-1e-2πbtcos(2πft+φ),t≥0 (5) 式中k為濾波器增益,a為濾波器階數(shù),f為中心頻率,φ為相位,b為衰減因子,該因子決定相應(yīng)的濾波器的帶寬,它與中心頻率f的關(guān)系為 b=24.7(4.37f/1000+1) (6) 由于Gammatone濾波器的時(shí)域表達(dá)式為沖擊響應(yīng)函數(shù),所以,將其進(jìn)行傅里葉變換就可以得到其頻率響應(yīng)特性。語音信號(hào)通過該濾波器時(shí),輸出信號(hào)Gm(i)的響應(yīng)表達(dá)式為 Gm(i)=[|g|(i,m)]1/2,i=0,…,N-1; m=0,…,M-1 (7) 式中N=64為濾波器的通道數(shù),M為采樣之后的幀數(shù)。這樣Gm(i)就構(gòu)成了一個(gè)矩陣,它的每一列稱為Gammatone特征系(GF)[9],一個(gè)GF特征矢量由64個(gè)頻率成分組成。由于相鄰的濾波器通道有重疊的部分,GF特征矢量相互之間存在相關(guān)性。為了減小GF特征矢量的維度和相關(guān)性,這里對(duì)每一個(gè)GF特征矢量進(jìn)行離散余弦變換(DCT),具體表示為 (8) 將系數(shù)Ci(j)稱為GFCC系數(shù)。在實(shí)際的說話人識(shí)別系統(tǒng)中,由于計(jì)算量大,并非取全部維數(shù)的GFCC系數(shù)。文獻(xiàn)[10]證明,由主成分分析(principalcomponentsanalysis,PCA)技術(shù),可以把64維GFCC系數(shù),按累積貢獻(xiàn)率不小于85 %的準(zhǔn)則,降到26維。降維后的GFCC特征參數(shù)表示為 G(i)={Cj(i)|j=1,…,26} (9) 基于壓縮感知的改進(jìn)小波抗噪識(shí)別系統(tǒng)的算法流程如下: 步驟1對(duì)帶噪語音信號(hào)進(jìn)行預(yù)處理,對(duì)一幀語音進(jìn)行多尺度小波分解,得到系數(shù)向量Θ。 步驟2計(jì)算Θ的Gini系數(shù)G(Θ)。若G(Θ)>0.9,取0.8M個(gè)觀測(cè)數(shù),M為常規(guī)非稀疏性觀測(cè)實(shí)驗(yàn)所取的觀測(cè)數(shù),按稀疏度k1修剪小波樹,k1的選擇由仿真實(shí)驗(yàn)中表1確定,若G(Θ)<0.9,取0.4M個(gè)觀測(cè)數(shù),按稀疏度k2修剪小波樹。 步驟3利用CSSA算法對(duì)原始稀疏向量Θ進(jìn)行小波樹的修剪,對(duì)不同觀測(cè)數(shù)目選擇合適的小波樹節(jié)點(diǎn)數(shù)量,即該向量的稀疏度。 步驟4對(duì)觀測(cè)信號(hào)y進(jìn)行小波樹模型的重構(gòu),重構(gòu)出系數(shù)向量,詳細(xì)步驟如下: 步驟6將重構(gòu)得到的降噪信號(hào)提取特征參數(shù)GFCC,然后在高斯混合模型中進(jìn)行識(shí)別。 實(shí)驗(yàn)所用的語音庫(kù)是用麥克風(fēng)錄制的,語音采用的是單聲道,8kHz的采樣頻率,16bit量化。語音庫(kù)由50個(gè)不同年齡段的男女所錄制而成,每個(gè)人錄制10段語音,時(shí)長(zhǎng)2~5s不等,總共500段。首先研究了一段麥克風(fēng)錄制的語音信號(hào)“咖啡”在小波分解下系數(shù)向量的稀疏性,對(duì)每一幀的多尺度小波分解系數(shù)用CSSA算法對(duì)小波樹修剪并計(jì)算其Gini系數(shù),結(jié)果如圖2。 圖2 各幀系數(shù)向量的Gini系數(shù)分布Fig 2 Gini coefficient distribution of each frame coefficient vector 對(duì)于原始向量,第1~5幀及24~28幀處Gini系數(shù)較低,表示其稀疏性較差,分析可以發(fā)現(xiàn)語音信號(hào)這幾幀的區(qū)間大部分都在聲母“k”和“f”的清音部分,其他幀則是在韻母“a”和“ei”的濁音部分,稀疏性較好。 對(duì)于小波樹模型,保留較少的小波樹節(jié)點(diǎn)雖然可以提高系數(shù)向量的稀疏性,但是卻增大了與原信號(hào)的誤差,在一定觀測(cè)數(shù)目下的壓縮重構(gòu)又需要較好的稀疏性。為此,本文對(duì)觀測(cè)數(shù)目和保留的小波樹節(jié)點(diǎn)數(shù)之間關(guān)系對(duì)重構(gòu)信號(hào)的影響進(jìn)行研究。分別選取聲母“k”“f”和韻母“a”“ei”各取一幀N=512來代表清音幀和濁音幀,結(jié)果如表1。 表1 觀測(cè)數(shù)、小波樹稀疏度同信噪比關(guān)系 分析表1發(fā)現(xiàn)在特定的觀測(cè)數(shù)目下,無論是清音還是濁音幀都可以唯一確定一個(gè)稀疏度來得到最好重構(gòu)效果,如表2。 表2 不同觀測(cè)數(shù)下的最佳稀疏度 通過確定特定觀測(cè)數(shù)目下的最佳稀疏度,對(duì)整段語音進(jìn)行基于稀疏性適應(yīng)的小波樹觀測(cè)壓縮重構(gòu),對(duì)于信息量高的濁音幀采取 個(gè)數(shù)目觀測(cè);對(duì)信息量低的清音幀采取 個(gè)數(shù)目觀測(cè)。語音段“咖啡”共有10幀清音44幀濁音,相當(dāng)于對(duì)整段語音信號(hào)每幀采用 個(gè)觀測(cè)數(shù)目。圖3對(duì)比了本文稀疏性適應(yīng)觀測(cè)方法同固定觀測(cè)數(shù)每幀為 非稀疏性適應(yīng)觀測(cè)方法的各幀重構(gòu)信噪比情況。 圖3 各幀重構(gòu)信噪比對(duì)比Fig 3 Comparison of reconstructed SNR of each frame 觀察圖3發(fā)現(xiàn)在清音幀部分,本文方法重構(gòu)信噪比不如非稀疏性方法,但在含有大多數(shù)語音信息的濁音幀部分,信噪比遠(yuǎn)高于非稀疏性方法。計(jì)算幀平均重構(gòu)信噪比,非稀疏性適應(yīng)方法只有20.23 dB,而稀疏性適應(yīng)方法達(dá)到了23.12 dB,幀平均信噪比上提高了14 %。 最后,選取本文語音庫(kù)中每個(gè)人的4段語音作為訓(xùn)練樣本集,用高斯混合模型(GMM)對(duì)其訓(xùn)練。另外6段語音作為測(cè)試樣本集,混入標(biāo)準(zhǔn)噪聲庫(kù)NOISEX—92中的白噪聲,信噪比分別為-5,0,5 dB和10 dB,用本文方法對(duì)其進(jìn)抗噪重構(gòu),然后通過Gammatone濾波器組提取特征參數(shù)GFCC,在GMM模型中進(jìn)行識(shí)別,GMM的混合數(shù)為16,結(jié)果如圖4??梢园l(fā)現(xiàn),本文方法的識(shí)別率要高于傳統(tǒng)非稀疏性適應(yīng)觀測(cè)方法。 圖4 白噪聲下的識(shí)別結(jié)果Fig 4 Recognition result under White noise 本文給出了一種基于壓縮感知的改進(jìn)小波抗噪識(shí)別系統(tǒng),先對(duì)帶噪語音信號(hào)作預(yù)處理,然后經(jīng)改進(jìn)小波壓縮重構(gòu),將重構(gòu)恢復(fù)的語音信號(hào)通過Gammatone濾波器組提取特征參數(shù)GFCC,最后在GMM模型中識(shí)別。該方法有效權(quán)衡語音信號(hào)稀疏性、觀測(cè)數(shù)目及重構(gòu)精度。實(shí)驗(yàn)結(jié)果證明:在相同壓縮比情形下,與非稀疏性適應(yīng)觀測(cè)方法相比本文有更高的重構(gòu)信噪比和識(shí)別率。雖然小波樹模型有較好的稀疏性,但模型較為固定并沒從信號(hào)本身構(gòu)造出更好的稀疏域。因此,為特定信號(hào)構(gòu)造一個(gè)更好的稀疏變換,同時(shí)使用一個(gè)快速有效的重構(gòu)算法仍是以后研究的重點(diǎn)。 [1]Donoho D.Compressed sensing[J].IEEE Transactions on Information Theory,2006,52(4):1289-1306. [2]雷穎,錢永青,孫洪.幀間自適應(yīng)語音信號(hào)壓縮感知[J].信號(hào)處理,2012,28(6):894-899. [3]Baraniuk R G.Optimal tree approximation with wavelets[C]∥SPIE’s International Symposium on Optical Science,Enginee-ring,and Instrumentation,International Society for Optics and Photonics,1999:196-207. [4]Baraniuk R G,Jones D L.A signal-dependent time-frequency representation: Optimal kernel design[J].IEEE Transactions on Signal Processing,1993,41(4):1589-1602. [5]Needell D,Tropp J A.CoSaMP:Iterative signal recovery from incomplete and inaccurate samples[J].Applied and Computational Harmonic Analysis,2009,26(3):301-321. [6]周小星,王安娜,孫紅英,等.基于壓縮感知過程的語音增強(qiáng)[J].清華大學(xué)學(xué)報(bào),2011,51(9):1234-1238. [7]Hurley N,Rickard S.Comparing measures of sparsity[J].IEEE Transactions on Information Theory,2009,55(10):4723-4741. [8]王玥,錢志鴻,王雪,等.基于伽馬通濾波器組的聽覺特征提取算法研究[J].電子學(xué)報(bào),2010,38(3):525-528. [9]Shao Yang,Jin Zhaozhang,Wang Deliang.An auditory-based feature for robust speech recognition[C]∥IEEE International Conference on Acoustics, Speech and Signal Processing,Institute of Electrical and Electronics Engineers,US,2009:4625-4628. [10] Zhang Wanfeng,Yang Yingchun,Wu Zhaohui,et al.Experimental evaluation of a new speaker identification framework using PCA[C]∥IIEEE International Conference on Systems,Man and Cybernetics,2003:4147-4152. Design of improved wavelet anti-noise recognition system based on compressive sensing* MAO Zheng-chong, SHAO Zhu-yu (Key Laboratory of Advanced Process Control for Light Industry,Ministry of Education,Jiangnan University,Wuxi 214122,China) Allocate observation numbers adaptively,according to sparsity in wavelet tree of speech frames,change number of wavelet tree nodes with different observation numbers.This method solves mismatching problem between the nodes number in the tree model and measurement of speech signal.Denoising the preprocessed speech signal by improved wavelet,then,through Gammatone filters to deal with the enhanced speech signal, extract feature parameters GFCC.Simulation experiment results demonstrate that SNR increases 14 % compared with traditional wavelet method,effectively reduce effect of noise in speech signal and the system recognition rate and robustness are improved obviously. compressive sensing; wavelet denoising; sparsity adapt to observation; anti-noise algorithm; recognition rate 2015—11—04 江蘇省自然科學(xué)基金資助項(xiàng)目(BK20131107); 國(guó)家自然科學(xué)基金資助項(xiàng)目(60973095) TP 391.4 A 1000—9787(2016)08—0094—04 茅正沖(1964-),男,江蘇啟東人, 副教授,研究生導(dǎo)師,主要研究方向?yàn)闄C(jī)器人視聽覺識(shí)別。 DOI:10.13873/J.1000—9787(2016)08—0094—042 Gammatone特征提取
3 算法流程
4 實(shí)驗(yàn)結(jié)果與分析
5 結(jié) 論