夏樂樂,孫永榮,王 勇
1.南京航空航天大學(xué) 自動化學(xué)院,南京 210016
2.中航工業(yè)雷達與電子設(shè)備研究院,江蘇 蘇州 215000
基于自適應(yīng)噪聲估計的語音增強技術(shù)
夏樂樂1,孫永榮1,王 勇2
1.南京航空航天大學(xué) 自動化學(xué)院,南京 210016
2.中航工業(yè)雷達與電子設(shè)備研究院,江蘇 蘇州 215000
在飛機座艙中,由于受飛機發(fā)動機轉(zhuǎn)動、機身與空氣的摩擦以及機載儀器噪聲等原因的影響,機載語音通信不可避免地會受到噪聲環(huán)境的干擾,帶有很強的背景噪聲的語音信號很難被機載語音系統(tǒng)識別,必須對機載語音進行增強處理,以消除背景噪聲,提高語音通信質(zhì)量與識別率。
目前語音信號的降噪方法大致有四類:噪聲對消法、諧波增強法、基于參數(shù)估計的語音再合成法和基于語音短時譜估計的增強算法[1]。其中基于語音短時譜估計的譜減法[2]是目前最常用的語音增強技術(shù)。這種方法的優(yōu)點是運算量小,易于實現(xiàn),在平穩(wěn)的聲學(xué)環(huán)境及較高信噪比時能取得較好的效果,但不適用于非平穩(wěn)以及低信噪比噪聲,并且會產(chǎn)生具有一定節(jié)奏性起伏、聽上去類似音樂的“音樂噪聲”[3]。
針對傳統(tǒng)譜減法的不足,研究人員提出了很多改進方法。例如:在傳統(tǒng)譜減法的基礎(chǔ)上增加了調(diào)節(jié)噪聲功率譜大小的系數(shù)和增強語音功率譜的最小值限制[4]、根據(jù)語音信號的信噪比自適應(yīng)調(diào)節(jié)語音增強的增益函數(shù)[5]、將人耳的掩蔽特性應(yīng)用到非線性譜減法的增強算法[6-8]、在估計語音信號概率密度函數(shù)的基礎(chǔ)上改進數(shù)譜估計[9]等方法。以上方法都不同程度地改善了傳統(tǒng)譜減法,使得噪聲明顯減少,殘留噪聲也得到了進一步抑制。但是在非平穩(wěn)以及低信噪比情況下去噪效果還是不太理想,并且有些算法的計算量較大。
本文針對基于自適應(yīng)噪聲估計的改進譜減法進行研究,以達到在非平穩(wěn)以及低信噪比噪聲環(huán)境下能有效地抑制音樂噪聲,并且提高機載語音系統(tǒng)在強噪聲環(huán)境下的識別正確率。
2.1 譜減法原理分析
譜減法的基本思路是:假設(shè)在加性噪聲與短時平穩(wěn)的語音信號相互獨立的條件下,從帶噪語音的功率譜中減去噪聲功率譜,得到較為純凈的語音頻譜,從而估計出原始語音[10-11]。譜減法的原理分析如下:
設(shè)s(t)為純凈的原始語音信號,n(t)為噪聲信號,則帶噪語音信號x(t)可表示為:
對式(1)兩端進行傅里葉變換,可以得到:
對式(2)兩端取模后再平方,可得:
由于假設(shè)噪聲信號服從高斯零均值分布,s(t)和n(t)相互獨立,cos(θS-θN)一項為0,可得:
由于相對平穩(wěn)的噪聲信號可認為變化甚小,所以可以通過發(fā)音前的“寂靜段”信號的功率譜來估計發(fā)音期間噪聲的功率譜,從而得到原始語音功率譜的估計值為:
根據(jù)人耳對語音信號相位不敏感的特點,可以用噪聲信號的相位來代替估計之后語音信號的相位,進行傅里葉逆變換,即可得到增強后語音的時域信號。
2.2 譜減法改進研究
在2.1節(jié)中假設(shè)cos(θS-θN)一項為零,而在機載座艙噪聲環(huán)境中,噪聲信號不服從高斯零均值分布,如果忽略此項,對噪聲功率譜的估計會出現(xiàn)較大誤差,影響語音增強效果,所以cos(θS-θN)一項不能忽略[12]。設(shè)λ=cos(θS-θN),-1≤λ≤1,將其帶入公式(3)中得:
在式(6)中將|S(ω)|作為未知數(shù),解此一元二次方程得(舍去非正解):
所以最終改進的譜減法原理公式為:
其中i表示幀數(shù),文中k的取值區(qū)間一般為[0.01,0.05]。
傳統(tǒng)譜減法假設(shè)噪聲是局部平穩(wěn)的,也即指發(fā)音間的噪聲具有和語音開始前那段噪聲相同的統(tǒng)計特性,且在整個語音段中保持不變。所以對整個語音段噪聲功率取相同的值。即公式(5)中的|N(ω)|2取定值。譜減法的關(guān)鍵之處在于對噪聲的估計。對噪聲的估計越準確,經(jīng)過譜減之后得到的噪聲就越接近于原來的純凈語音[13]。在實際機載座艙環(huán)境下的噪聲是非平穩(wěn)噪聲,所以用相同的噪聲功率值是不準確的,這樣做會使得語音段要么噪聲消除不夠,要么減除過多產(chǎn)生失真。為此,必須對噪聲估計開展研究。
其中 α>1,0<β<1。
由式(9)可以看出:要實現(xiàn)此自適應(yīng)噪聲估計需要對帶噪信號進行語音端點檢測來區(qū)分語音段以及非語音段。文獻[14]中使用已經(jīng)得到廣泛應(yīng)用的基于能量和過零率的語音端點檢測方法——兩級判決法來實現(xiàn)語音的端點檢測。由于需要端點檢測的語音信號帶有強噪聲,文中在檢測前先用傳統(tǒng)譜減法對帶噪語音信號進行去噪處理,然后再對其進行端點檢測。
參照文獻[15],文中端點檢測的算法流程為:
(1)先將經(jīng)過簡單去噪的語音信號進行分幀處理,每一幀記為xi(n),n=1,2,…,N,N表示幀長,i表示幀數(shù)。
(4)根據(jù)語音的平均能量設(shè)置一個較高的門限T1,用以確定語音開始,然后再根據(jù)背景噪聲的平均能量確定一個稍低的門限T2,用以確定第一級中的語音結(jié)束點。T2=ηEN,EN為噪聲段能量的平均值。完成第一級判決。
(5)第二級判決根據(jù)背景噪聲的平均過零率ZN,設(shè)置一個門限T3=μZN,用以判斷語音前端的清音和后端的尾音。
步驟(4)、(5)中的η、μ為經(jīng)過大量實驗獲得的經(jīng)驗值。本文中η=7,μ=5。
為了驗證本文所提的改進譜減法的有效性,分別求增強前后的語音信噪比(SNR),并通過已有的機載語音系統(tǒng)對增強前后的語音進行識別測試。
s(n)表示純凈語音,x(n)表示帶噪語音,n表示采樣點數(shù)。信噪比越高表示語音信號質(zhì)量越好。
實驗中采用的語音數(shù)據(jù)為若干段在安靜的實驗室環(huán)境下錄制的純凈語音,其內(nèi)容為“查詢天氣”。噪聲選自NOISEX-92數(shù)據(jù)庫,噪聲類型為F16戰(zhàn)斗機噪聲。語音信號和噪聲信號均單聲道16 kHz采樣,16 bit量化,對帶噪語音采用漢明窗進行分幀,每幀256個采樣點.幀間疊加128個采樣點。圖1為輸入信噪比為0 dB時的仿真結(jié)果。表1為5 dB、0 dB、-5 dB三種輸入信噪比下語音增強的效果比較。表2為在三種輸入信噪比情況下,在機載語音系統(tǒng)中各進行20次語音識別實驗后獲得的成功率比較。
表1 語音增強效果比較 dB
圖1(a)為在安靜的實驗室環(huán)境下錄制的純凈語音波形;圖1(b)為原始語音信號與戰(zhàn)斗機噪聲線性疊加獲得的加噪語音波形;圖1(c)為使用傳統(tǒng)譜減法[16]對加噪語音信號去噪后的波形;圖1(d)為對圖1(c)信號進行端點檢測后的結(jié)果,在此圖中將語音段中的語音幀按幀賦“1”,非語音幀賦“0”,便于后續(xù)噪聲自適應(yīng)計算;圖1(e)為使用本文算法去噪后的波形,將圖1(c)、圖1(e)分別與圖1(a)比較,本文方法對幅度譜的恢復(fù)結(jié)果明顯優(yōu)于傳統(tǒng)譜減法。
圖1 輸入信噪比為0 dB時仿真結(jié)果
將語音和噪聲按比例線性疊加生成不同信噪比(5 dB,0 dB,-5 dB)。對這三種不同信噪比的含噪語音分別用傳統(tǒng)譜減算法和本文所提的改進譜減法進行去噪實驗,文中 β取0.4,α取2,λ取0.1,實驗結(jié)果如表1所示。
從表1可以看出:用本文改進譜減算法增強后,其信噪比得到了進一步提高,增強效果明顯優(yōu)于傳統(tǒng)譜減算法。
由表2可以看出,隨著輸入信噪比的減小,機載語音識別系統(tǒng)的識別成功率越來越低,特別是在低信噪比的情況下甚至根本不能識別。經(jīng)過傳統(tǒng)譜減法去噪后的識別率略有提升,但是依然沒有達到要求,而經(jīng)過本文提出的改進譜減法去噪后的識別成功率大大提升,效果良好,在低輸入信噪比的時候也能保證很高的識別成功率,但是在-5 dB時還沒能達到100%的識別率,這是由于信噪比過低時端點檢測精度會降低,從而會影響去噪效果。
表2 機載語音識別系統(tǒng)識別成功率比較
由實驗結(jié)果可以看出本文提出的基于自適應(yīng)噪聲估計的改進譜減法能夠很好地解決強噪聲環(huán)境下輸入語音不能被機載語音系統(tǒng)識別的問題。它能夠較好地消除背景噪聲,并對“音樂噪聲”也有很大程度的抑制,對帶噪語音質(zhì)量的增強效果顯著,提高了機載語音識別系統(tǒng)對強噪聲語音的識別率。語音在個別語音幀上有一點失真,這是由于端點檢測不夠精確的原因造成的,但是這并不影響語音整體的可懂度和清晰度。
[1]劉興濤,王忠,張維.抑制坦克強背景噪聲的改進譜減法研究[J].計算機工程與應(yīng)用,2010,46(4):134-135.
[2]Boll S.Suppression of acoustic noise in speech using spectral subtraction[J].IEEE Transon AcousticSpeech and Signal Processing,1979,27(2):113-120.
[3]Miyazaki R,Saruwatari H,Inoue T,et al.Musical-noise-free speech enhancement based on optimized iterative spectral subtraction[J].IEEE Transactions on Audio,Speech,and Language Processing,2012,20(7):2080-2094.
[4]Berouti M,Schwartz R,Makhoul J.Enhancement of speech corrupted by acoustic noise[J].IEEE Transactions on Acoustics Speech,and Signal Processing,1979,27(4):208-211.
[5]Sim B L,Tong Y C,Changand J S,et al.A parametric formulation of the generalized spectral subtraction method[J]. IEEE Trans on Speech and Audio Processing,1998,6(7):328-337.
[6]Virag N.Single channel speech enhancement based on masking propertiesofhuman auditory system[J].IEEE Transactions on Speech and Audio Processing,1999,7(2):126-137.
[7]卜凡亮,王為民,戴啟軍,等.基于噪聲被掩蔽概率的優(yōu)化語音增強方法[J].電子與信息學(xué)報,2005,27(5):753-756.
[8]Jia Hairong,Zhang Xueying,Jin Chengsheng.A speech enhancement method based on wavelet packet and hearing masking effect[C]//ICSPS,2010,3:272-275.
[9]Cohen I.Relaxed statistical model for speech enhancement and a priori SNR estimation[J].IEEE Transactions on Speech and Audio Processing,2005,13(5):870-881.
[10]高留洋,朱文,桑振夏,等.一種基于改進的譜減法的語音增強算法[J].現(xiàn)代電子技術(shù),2012,35(17):60-62.
[11]趙力.語音信號處理[M].北京:機械工業(yè)出版社,2009:294-298.
[12]錢國青,趙鶴鳴.基于改進譜減算法的語音增強新方法[J].計算機工程與應(yīng)用,2005,41(35):42-43.
[13]Gao Liuyang,Guo Yunfei,Li Shaomei,et al.Speech enhancementalgorithm based on improved spectral subtraction[C]//ICIS,2009:140-143.
[14]程塨,郭雷,賀勝,等.一種基于實時噪聲估計的改進譜減法[J].計算機科學(xué),2010,38(11):212-213.
[15]張雪英.數(shù)字語音處理及MATLAB仿真[M].北京:電子工業(yè)出版社,2010:43-45.
[16]金學(xué)驥.語音增強算法的研究與實現(xiàn)[D].杭州:浙江大學(xué),2005:18-19.
XIA Lele1,SUN Yongrong1,WANG Yong2
1.College of Automation,Nanjing University of Aeronautics and Astronautics,Nanjing 210016,China
2.The Rader&Avionics Institute of AVIC,Suzhou,Jiangsu 215000,China
The recognition and communication accuracy of speech system is considered to be decreased under strong noise environment.To solve the problem,a speech enhancement method is presented which is based on adaptive noise estimation.In the new algorithm,the speech signal is divided into speech segments and non-speech segments by endpoint detection,and the noise amplitude spectrums of the two kings segments are estimated adaptively and respectively.This algorithm also improves the spectral subtraction principle formulas according to the research of hypothesis in spectral subtraction which is not common.The experimental result shows that the algorithm in this paper performs better in reducing musical noise,maintaining high clarity and intelligibility,and improving the speech recognition and communication accuracy under strong noise environment than traditional spectral subtraction.
speech enhancement;spectral subtraction;noise estimation;music noise
針對語音系統(tǒng)受外界強噪聲干擾而導(dǎo)致識別精度降低以及通信質(zhì)量受損的問題,提出一種基于自適應(yīng)噪聲估計的語音增強方法。通過端點檢測將語音信號分為語音段與非語音段,對這兩種情況的噪聲幅度譜分別進行自適應(yīng)估計,并對譜減法中不具有通用性的假設(shè)進行研究從而改進原理公式。實驗結(jié)果表明,相對于傳統(tǒng)譜減法,該方法能更好地抑制音樂噪聲,并保持較高清晰度和可懂度,提高了強噪聲環(huán)境下的語音識別精度和通信質(zhì)量。
語音增強;譜減法;噪聲估計;音樂噪聲
A
TN912.35
10.3778/j.issn.1002-8331.1305-0138
XIA Lele,SUN Yongrong,WANG Yong.Speech enhancement technology based on adaptive noise estimation.Computer Engineering and Applications,2014,50(23):225-228.
夏樂樂(1989—),男,碩士研究生,研究領(lǐng)域為語音信號處理與檢測;孫永榮(1969—),男,博士,教授,研究領(lǐng)域為信號處理、智能控制;王勇(1965—),男,副總工程師,研究領(lǐng)域為航空機載顯示技術(shù)。E-mail:lelxia2005@hotmail.com
2013-05-14
2013-07-02
1002-8331(2014)23-0225-04
CNKI網(wǎng)絡(luò)優(yōu)先出版:2013-08-22,http://www.cnki.net/kcms/detail/11.2127.TP.20130822.1410.012.html
◎工程與應(yīng)用◎