董 胡
(長沙師范學院 電子與信息工程系,湖南 長沙 410100)
低信噪比環(huán)境下改進的語音端點檢測算法
董 胡
(長沙師范學院 電子與信息工程系,湖南 長沙 410100)
端點檢測在語音識別中具有非常重要的作用,其準確性將直接影響語音識別系統(tǒng)的正確率。為了提高低信噪比環(huán)境下語音端點檢測的正確率,提出了一種基于多窗譜估計的改進譜減法和能量譜熵的端點檢測算法。該算法首先利用多窗譜估計改進譜減法對含噪語音進行去噪以提高語音信號信噪比,接著對去噪后的語音信號使用新的能量譜熵算法進行端點檢測。仿真實驗結(jié)果表明,同常見端點檢測算法相比較,該算法在低信噪比環(huán)境下具有較好的端點檢測正確率且有一定的魯棒性,證明了該算法的有效性。
多窗譜估計;改進譜減法;譜熵;語音增強;端點檢測
語音端點檢測是信號處理的一個重要方面[1]。特征參數(shù)的提取是一些常見的端點檢測方法所普遍重視的方面,卻往往忽略了之前的語音增強工作,這將會對端點檢測的準確度產(chǎn)生影響[2-5]。相對于短時能量特征,文獻[6]提出了對數(shù)能量特征。它較好地解決了小幅度的輔音和靜音混淆問題,更不會出現(xiàn)短時能量中噪聲段特征值過大的情況,能較好地區(qū)別語音、噪聲和靜音。然而,在非平穩(wěn)含噪環(huán)境下,能量較難區(qū)分語音與背景噪聲,而譜熵可克服能量這一缺點[7-8]。但是,在嘈雜噪聲和音樂噪聲之下,譜熵變得不穩(wěn)定,而能量卻可抑制該不足之處。根據(jù)能量的加性性質(zhì),語音與噪聲的能量之和大于噪聲能量。
基于上述考慮,文中提出了多窗譜估計[9-10]改進譜減和能量譜熵相結(jié)合的語音端點檢測算法。首先,通過多窗譜估計改進譜減法對含噪語音信號進行譜減增強;接著,使用新的能量譜熵算法進行端點檢測。仿真結(jié)果表明,在低信噪比環(huán)境下,文中提出的新算法與文獻[11]提出的改進語音端點檢測法相比,有更好的端點檢測效果及魯棒性。
針對同一數(shù)據(jù)序列,周期圖法僅用單個數(shù)據(jù)窗,而多窗譜用多個正交的數(shù)據(jù)窗依次求直接譜,接著求平均以得到譜估計,從而能得到較小的估計方差[12]。多窗譜與周期圖相比是一種更準確的譜估計方法。
多窗譜定義為:
(1)
式中:L為數(shù)據(jù)窗個數(shù);Smt為第k個數(shù)據(jù)窗的譜。
(2)
式中:x(n)為數(shù)據(jù)序列;N為序列長度;ak(n)為第k個數(shù)據(jù)窗,滿足多個數(shù)據(jù)窗互相正交。
(3)
數(shù)據(jù)窗也叫Slepian窗。Riedal和Siderenko提出下面的正弦窗:
(4)
正弦窗產(chǎn)生的局部偏差比Slepian窗更小,但卻具有大致一樣的頻譜集中度。
利用Matlab軟件對多窗譜估計函數(shù)和周期圖跟真實譜的差異進行對比。其中,周期圖使用Hamming窗,真實譜采用AR模型來估計。對比實驗采用兩個正弦信號疊加:
x(n)=cos(2π×50n)+3cos(2π×200n)
(5)
周期圖與多窗譜譜估計性能對比見圖1。
圖1 多窗譜與周期圖法譜估計性能對比
從圖1可知,周期圖法的方差性能要劣于多窗譜法。所以,采用多窗譜進行功率譜估計來實現(xiàn)語音增強,能更好地降低音樂噪聲。
利用Matlab的信號處理工具箱中的多窗譜功率譜估算函數(shù)pmtm,可估算多窗譜的功率譜密度,進而獲得譜減法中的增益因子,實現(xiàn)譜減語音增強運算[13]。具體步驟如下:
(1)令x(n)為帶噪語音,xi(n)為加窗分幀后信號,鄰幀之間有重疊。
(6)
以i幀為中心前后各取M幀,共有2M+1幀進行平均。實際中取M為1,即在3幀中進行平均。
(3)對分幀后的信號xi(m)進行多窗譜估計,可得多窗譜功率譜密度P(k,i)(i表示第i幀,k表示第k條譜線):
P(k,i)=PMTM[xi(m)]
(7)
式中,PMTM表示進行多窗譜功率譜密度估計。
(4)對多窗譜功率譜密度估計值也進行相鄰幀間平滑處理,計算平滑功率譜密度Py(k,i):
(8)
以i幀為中心前后各取M幀,共有2M+1幀進行平均。實際中取M為1,即在3幀中進行平均。
(5)已知前導無話段(噪聲)占有NIS幀,可以計算出噪聲的平均功率譜密度值Pn(k):
(9)
(6)利用譜減關系。
g(k,i)=
(10)
式中:α為過減因子;β為增益補償因子。
選擇恰當?shù)摩林的苡行魳吩肼暎林颠^大則會引起語音失真。
(11)
(12)
多窗譜估計的改進譜減算法見圖2。
3.1 對數(shù)能量
圖2 多窗譜估計的改進譜減算法示意圖
LE(i) =lg(E(i)+a)-lga
(13)
(14)
文獻[14]實驗表明,當a=5×105時,取得了較好的端點檢測性能。
3.2 譜 熵
令x(n)為含噪的時域信號,加窗分幀之后得到第i幀信號xi(m),通過FFT變換,得到第k條譜線頻率分量fk的能量譜Yi(k)。定義每個信號頻率分量的歸一化譜概率密度函數(shù)為[15]:
(15)
式中:pi(k)為第i幀中第k個頻率分量fk的概率密度;N為FFT長度。
語音幀的譜熵定義為[15]:
(16)
3.3 能量譜熵特征計算
首先,將含噪語音信號通過多窗譜估計的改進譜減法進行降噪處理;接著,對降噪后的信號進行分幀與加窗,再分別計算對數(shù)能量與譜熵;最后,將對數(shù)能量與譜熵作除法運算,其結(jié)果記為B(i)。具體計算表達式定義如下:
(17)
最終能量譜熵特征計算公式定義如下:
(18)
低信噪比環(huán)境下可利用譜熵進行端點檢測,而語音信號能量大小的變化則可通過對數(shù)能量反映。在無噪聲情況下,噪音幀和語音幀的對數(shù)能量區(qū)別非常明顯,因此將兩者相除,形成了新的特征參數(shù)——能量譜熵。結(jié)合兩種算法自身一定的抗噪能力,將二者結(jié)合起來,在低信噪比環(huán)境下的檢測能力也有了一定程度的提高,魯棒性得到增強。
實驗語音樣本使用TIMIT語音庫中450條連續(xù)語音,16 kHz采樣頻率,16 bit量化,單聲道wav格式。加噪數(shù)據(jù)使用NOISEX 92標準噪聲庫,分別添加white、pink、volvo噪聲至純凈語音樣本中,分別形成-5dB、0dB、5dB和10dB的含噪語信號1 500條。
含噪語音信號經(jīng)多窗譜估計改進譜減法增強之后,接著采用能量譜熵法進行端點檢測。為了檢驗文中提出的端點檢測算法的效果,分別在white、pink及volvo噪聲環(huán)境下,將其和文獻[11]提出的端點檢測法作比較,具體見圖3~5。
圖3 SNR=-5 dB時white環(huán)境下端點檢測效果比較
圖4 SNR=-5 dB時pink環(huán)境下端點檢測效果比較
圖5 SNR=5 dB時volvo環(huán)境下端點檢測效果比較
從圖3、圖5及表1可知,文中提出的能量譜熵算法和文獻[11]提出的端點檢測算法均可在低信噪比環(huán)境下檢測出語音的起止端點,但文獻[11]提出的端點檢測算法的端點檢測正確率卻低于文中提出的能量譜熵端點檢測法。
表1 端點檢測正確率比較
從圖4可知,文獻[11]提出的端點檢測算法能檢測出語音端點位置但存在漏檢,而文中提出的能量譜熵算法卻不存在。說明能量譜熵算法有更好的端點檢測特性,在低信噪比環(huán)境下有更高的端點檢測正確率。端點檢測正確率定義如下:
錯誤幀數(shù)=語音誤判為噪聲的幀數(shù)+噪聲誤判為語音的幀數(shù)
(19)
正確率=(總幀數(shù)-錯誤幀數(shù))/總幀數(shù)
(20)
文中提出了一種低信噪比環(huán)境下的語音端點檢測算法。該算法通過對含噪語音信號先用多窗譜估計改進譜減法進行增強,提高了語音信號的信噪比,接著采用能量譜熵算法進行端點檢測。仿真實驗結(jié)果表明,該算法在低信噪比環(huán)境下能較好地實現(xiàn)語音端點檢測,具有良好的抗噪性能,魯棒性較強,適于實際端點檢測應用,從而證明該算法是一種較有效的低信噪比端點檢測算法。但是,由于實際背景噪聲變化性大,如何進一步改善算法,使其適應更復雜的低信噪比環(huán)境將是今后研究工作的重點。
[1] 董 胡.倒譜距離和短時能量的語音端點檢測方法研究[J].計算機技術與發(fā)展,2014,24(7):77-79.
[2]RabinerLR,SamburMR.Analgorithmfordeterminingtheendpointsofisolatedutterances[J].BellSystemTechnicalJournal,1975,54(2):297-315.
[3] 武 薇,范影樂,龐 全.基于廣義維數(shù)距離的語音端點檢測方法[J].電子與信息學報,2007,29(2):465-468.
[4] 閆潤強,朱貽盛.基于信號遞歸度分析的語音端點檢測方法[J].通信學報,2007,28(1):35-39.
[5]JiaChuan,XuBo.Animprovedentropy-basedendpointdetectionalgorithm[C]//ProceedingsofISCSLP.Taiwan,China:[s.n.],2002:96-99.
[6] 肖述才,王作英.端點檢測中的一種新的對數(shù)能量特征[J].電聲技術,2004(6):37-41.
[7]HuangLS,YangCH.Anovelapproachtorobustspeechendpointdetectionincarenvironments[C]//ProcofIEEEinternationalconferenceonacoustics,speechandsignalprocessingproceedings.Istanbul,Turkey:IEEE,2000:1751-1754.
[8] 李榮榮,胡昌奎,余 娟.基于譜熵的語音端點檢測算法改進研究[J].武漢理工大學學報,2013,35(7):134-139.
[9] 武鵬鵬,趙 剛,鄒 明.基于多窗譜估計的改進譜減法[J].現(xiàn)代電子技術,2008,31(12):150-152.
[10] 彭 軍,王 忠,劉興濤,等.基于多窗譜相關加權語音增強[J].計算機仿真,2011,28(3):142-145.
[11] 魯遠耀,周 妮,肖 珂,等.強噪聲環(huán)境下改進的語音端點檢測算法[J].計算機應用,2014,34(5):1386-1390.
[12]ThomsonDJ.Spectrumestimationandharmonicanalysis[J].ProcofIEEE,1982,70(9):1055-1096.
[13]HuYi,LoizouPC.Incorporatingapsychoacousticalmodelinfrequencydomainspeechenhancement[J].IEEESignalProcessingLetters,2004,11(2):270-273.
[14] 王 民,孫 廣,沈利榮,等.基于對數(shù)能量倒譜特征的端點檢測算法[J].計算機工程與應用,2014,50(16):198-201.
[15]ZhaoH,ZhaoLX,ZhaoK,etal.Voiceactivitydetectionbasedondistanceentropyinnoisyenvironment[C]//Procof5thinternationaljointconferenceonINC,IMS,andIDC.Seoul,Korea:IEEEComputerSociety,2009:1364-1367.
Improved Speech Endpoint Detection under Low SNR Environment
DONG Hu
(Department of Electronic and Information Engineering,Changsha Normal University,Changsha 410100,China)
Endpoint detection has a very important role in speech recognition,its accuracy will directly affect the accuracy of speech recognition system.In order to improve the accuracy of speech endpoint detection under low SNR environment,an endpoint detection algorithm based on spectral subtraction of multitaper spectrum estimation and spectral entropy is proposed.Firstly,it uses improved spectral subtraction of multitaper spectrum estimation to denoise speech signal in order to improve signal to noise ratio,and then it utilizes energy-entropy-ratio algorithm to make endpoint detection for speech signal denoised.Simulation experiment results show that compared with common endpoint detection algorithm,this algorithm has good endpoint detection accuracy and certain robustness in low SNR environment.It proves the effectiveness of the proposed algorithm.
multitaper spectrum estimation;improved spectral subtraction;spectral entropy;speech enhancement;endpoint detection
2015-06-22
2015-09-24
時間:2016-02-18
湖南省科技計劃項目(2012FJ3010);湖南省教育科研項目(12C0952);長沙師范學院科研基金項目(XXZD201218);長沙師范學院大學生研究性學習和創(chuàng)新性實驗計劃項目(DXYC201510)
董 胡(1982-),男,講師,碩士,研究方向為信號處理及嵌入式設計。
http://www.cnki.net/kcms/detail/61.1450.TP.20160218.1636.064.html
TN912.35
A
1673-629X(2016)03-0071-04
10.3969/j.issn.1673-629X.2016.03.017