趙發(fā)
(安徽工程大學(xué),安徽 蕪湖 241000)
基于多窗譜估計(jì)譜減法和能熵比法的語(yǔ)音端點(diǎn)檢測(cè)算法
趙發(fā)
(安徽工程大學(xué),安徽 蕪湖 241000)
語(yǔ)音端點(diǎn)檢測(cè)是語(yǔ)音處理中非常關(guān)鍵的一個(gè)環(huán)節(jié),目前主要的語(yǔ)音端點(diǎn)檢測(cè)算法都側(cè)重于語(yǔ)音特征參數(shù)的提取而忽略了之前的語(yǔ)音增強(qiáng)。論文提出一種基于多窗譜估計(jì)譜減法和能熵比的語(yǔ)音端點(diǎn)檢測(cè)復(fù)合算法,該算法利用多窗譜估計(jì)譜減法將有噪聲環(huán)境下的語(yǔ)音信號(hào)減噪,提高性噪比,達(dá)到語(yǔ)音增強(qiáng)的效果,再結(jié)合能熵比法進(jìn)行端點(diǎn)檢測(cè)。仿真結(jié)果表明,算法在低信噪比情況下,可以提高語(yǔ)音端點(diǎn)檢測(cè)的正確率。
多窗譜估計(jì);譜減法;能熵比;端點(diǎn)檢測(cè)
語(yǔ)音端點(diǎn)檢測(cè)屬于語(yǔ)音信號(hào)處理的范疇[1],是語(yǔ)音識(shí)別、語(yǔ)音合成等語(yǔ)音應(yīng)用方面非常關(guān)鍵的一個(gè)環(huán)節(jié)[2];它是指從一個(gè)連續(xù)的語(yǔ)音流中檢測(cè)出有效的語(yǔ)音段,包括檢測(cè)出有效語(yǔ)音的起始點(diǎn)和結(jié)束點(diǎn)。
現(xiàn)在的語(yǔ)音端點(diǎn)檢測(cè)算法很多,但是主要的方法都是基于特征參數(shù)的提取,如基于短時(shí)能量和短時(shí)過零率的雙門限法、倒譜法、譜熵法[3-6]等,這些方法在針對(duì)實(shí)驗(yàn)室高信噪比語(yǔ)音信號(hào)端點(diǎn)檢測(cè)時(shí)能取得較好的效果,但是當(dāng)在更真實(shí)自然的帶噪聲語(yǔ)音環(huán)境中,由于信噪比的降低,信號(hào)的特征參數(shù)提取變得困難,這時(shí)端點(diǎn)檢測(cè)的性能將急劇下降。針對(duì)這種低信噪比的帶噪語(yǔ)音信號(hào),目前又提出一些改進(jìn)檢測(cè)算法,如基于短時(shí)能量和過零率相結(jié)合的能零比法,基于頻譜方差與譜減法的語(yǔ)音端點(diǎn)檢測(cè)算法,基于短時(shí)能量和譜熵相結(jié)合的能熵比法等。但以上算法都側(cè)重于語(yǔ)音特征參數(shù)的提取,而對(duì)之前的語(yǔ)音增強(qiáng)工作有所忽視,這對(duì)低信噪比下的語(yǔ)音端點(diǎn)檢測(cè)性能將會(huì)產(chǎn)生一定的影響。
本文提出一種基于多窗譜估計(jì)譜減法和能熵比法的語(yǔ)音端點(diǎn)檢測(cè)算法改進(jìn)算法,本算法通過多窗譜估計(jì)譜減法將有噪聲環(huán)境下的語(yǔ)音信號(hào)減噪,提高性噪比,達(dá)到語(yǔ)音增強(qiáng)的效果,之后利用能熵比法進(jìn)行語(yǔ)音端點(diǎn)檢測(cè)。仿真實(shí)驗(yàn)結(jié)果表明基于多窗譜估計(jì)的譜減法和能熵比的復(fù)合算法比單純的能熵比法在低信噪比的情況下檢測(cè)準(zhǔn)確率有了很大的提高。
譜減法[7]是利用語(yǔ)音信號(hào)的短時(shí)平穩(wěn)性,從帶噪語(yǔ)音信號(hào)中估算噪聲的短時(shí)譜,然后利用帶噪語(yǔ)音短時(shí)譜減去噪聲的短時(shí)譜,從而提高帶噪語(yǔ)音的信噪比,達(dá)到語(yǔ)音信號(hào)的增強(qiáng)效果。
設(shè)帶噪語(yǔ)音信號(hào)的時(shí)間序列為x(n),進(jìn)行加窗分幀后的第i幀帶噪語(yǔ)音信號(hào)為xi(m),幀長(zhǎng)為N,任何一幀語(yǔ)音信號(hào)xi(m)做DFT后為:
對(duì)Xi(k)求出每個(gè)分量的幅值和相角,幅值是,相角是
在譜減中要把這兩組數(shù)給予保存。
已知前導(dǎo)無(wú)話段(噪聲段)時(shí)長(zhǎng)為IS,對(duì)應(yīng)的幀數(shù)為NIS,可以求出該噪聲段的平均能量值為
譜減算法為
式中,a和b是兩個(gè)常數(shù),a稱為過減因子,b稱為增益補(bǔ)償因子。
圖1 譜減法的算法示意圖
多窗譜估計(jì)譜減法[8]是在譜減法的基礎(chǔ)上提出的一種改進(jìn)譜減法,譜減法通過一個(gè)窗來求出幅度譜及相位譜,而多窗譜估計(jì)譜減法是通過多個(gè)相互正交的數(shù)據(jù)窗分別來求直接譜,然后通過求多個(gè)直接譜的平均值來得到譜估計(jì),這樣就可以得到比較小的估計(jì)方差值。
多窗譜定義如下:
x(n)為數(shù)據(jù)序列;N為序列長(zhǎng)度;L為數(shù)據(jù)窗長(zhǎng)度;ak(n)為第k個(gè)數(shù)據(jù)窗并滿足:
多窗譜估計(jì)譜減法的算法示意圖如下:
圖2 多窗譜估計(jì)譜減法的算法示意圖
通過圖2與圖1的比較可知多窗譜估計(jì)譜減法是在分幀后進(jìn)行多窗譜功率譜計(jì)算的基礎(chǔ)上,分別計(jì)算了平滑功率譜和噪聲平均功率譜,從而導(dǎo)出譜減增益因子,利用譜減因子然后再進(jìn)行譜減計(jì)算,這樣可以得到更好的語(yǔ)音增強(qiáng)效果。
3.1 能熵比法
3.1.1 對(duì)數(shù)能量[9]計(jì)算
設(shè)含噪語(yǔ)音信號(hào)的時(shí)間序列為x(n),加窗分幀后得到的第i幀語(yǔ)音信號(hào)為xi(m),幀長(zhǎng)為N,則每一幀的能量為,在這里引入改進(jìn)的能量計(jì)算:
式中,AMPi是計(jì)算出的每幀的能量;a是一個(gè)常數(shù)。由于有a的存在,當(dāng)a取較大的數(shù)值時(shí),AMPi幅值有劇烈變化時(shí)將在LEi中得到緩和,所以適當(dāng)選擇a,可有助于區(qū)分噪聲和清音。
3.1.2 譜熵[10]計(jì)算
設(shè)含噪語(yǔ)音信號(hào)的時(shí)間序列為x(n),加窗分幀后得到的第i幀語(yǔ)音信號(hào)為xi(m),則經(jīng)過FFT變換后,設(shè)第k條譜線頻率分量fk的能量譜為Yi(m),則每個(gè)頻率分量的歸一化譜概率密度函數(shù)為
式中,pi(k)為第i幀第k個(gè)頻率分量fk所對(duì)應(yīng)的概率密度。每個(gè)語(yǔ)音幀的短時(shí)譜熵為
3.1.3 能熵比計(jì)算
3.2 算法實(shí)現(xiàn)步驟
(1)給帶噪語(yǔ)音x(n)進(jìn)行加窗分幀,采用漢明窗,相鄰幀有重疊,xi(m)為加窗分幀后的第i幀信號(hào)。
(2)對(duì)xi(m)進(jìn)行FFT,并計(jì)算出幅度譜以及相位譜,同時(shí)在相鄰幀做平滑處理,計(jì)算出平均幅度譜
以i幀為中心前后各取M幀,共有2M+1幀進(jìn)行平均。實(shí)際中可取M為1或2。
(3)對(duì)xi(n)進(jìn)行多窗譜估計(jì),計(jì)算平滑功率譜和噪聲平均功率譜,并計(jì)算出譜減增益因子。
(6)計(jì)算增強(qiáng)后信號(hào)的對(duì)數(shù)能量和譜熵,并由二者計(jì)算出能熵比。
(7)根據(jù)雙門限法進(jìn)行端點(diǎn)檢測(cè)。
針對(duì)本文提出的復(fù)合算法,利用MATALB進(jìn)行仿真并進(jìn)行分析。首先在實(shí)驗(yàn)室環(huán)境下錄制一段中文語(yǔ)音“電子信息工程”的純凈語(yǔ)音信號(hào),采樣頻率為8KHz,利用漢明窗對(duì)此段語(yǔ)音進(jìn)行加窗分幀,幀長(zhǎng)為240點(diǎn),幀移為80點(diǎn),相鄰幀重疊160點(diǎn);其次對(duì)信號(hào)進(jìn)行預(yù)加重,提升語(yǔ)音在高頻部分的能量;最后給此語(yǔ)音信號(hào)添加加性高斯白噪聲來形成帶噪語(yǔ)音信號(hào)。圖3、圖4是基于多窗譜估計(jì)譜減法和能熵比法的復(fù)合算法在信噪比是0 dB和-5 dB時(shí)的端點(diǎn)檢測(cè)波形;圖5、圖6是沒有進(jìn)行多窗譜估計(jì)譜減法的單純能熵比法的端點(diǎn)檢測(cè)波形。圖中的實(shí)線部分是有效語(yǔ)音的起始點(diǎn),虛線部分是有效語(yǔ)音的結(jié)束點(diǎn)。比較在低信噪比條件下本文算法與單純用能熵比算法的端點(diǎn)檢測(cè)的性能。從圖3、圖4可以看出,經(jīng)過多窗譜估計(jì)譜減法后,語(yǔ)音信號(hào)的信噪比有了很大的提高,SNR=0 dB時(shí),提高到11.01 dB;SNR=-5 dB時(shí),提高到6.79 dB;同時(shí),語(yǔ)音端點(diǎn)檢測(cè)效果也很好。而從圖5、圖6可以看出,在SNR=0 dB和-5 dB時(shí),由于信噪比的下降,純能熵比的端點(diǎn)檢測(cè)效果受到很大影響,甚至出現(xiàn)了檢測(cè)錯(cuò)誤的情況,如語(yǔ)音“電子信息工程”中的最后一個(gè)“程”字完全被漏檢。由以上分析可知,本文基于多窗譜估計(jì)譜減法和能熵比法的復(fù)合算法在處理低信噪比的帶噪語(yǔ)音信號(hào)時(shí),首先通過多窗譜估計(jì)譜減法大大提高了信噪比,然后再利用能熵比進(jìn)行端點(diǎn)檢測(cè)。這種復(fù)合算法的檢測(cè)效果比直接用能熵比法進(jìn)行端點(diǎn)檢測(cè)的效果要好很多。
圖3 SNR=0 dB時(shí)的復(fù)合算法端點(diǎn)檢測(cè)
圖4 SNR=-5 dB時(shí)的復(fù)合算法端點(diǎn)檢測(cè)
圖5 SNR=0 dB時(shí)的能熵比算法端點(diǎn)檢測(cè)
圖6 SNR=-5 dB時(shí)的能熵比算法端點(diǎn)檢測(cè)
為了更好地比較本文算法與純能熵比算法的性能,通過端點(diǎn)檢測(cè)正確率[11]來進(jìn)一步比較,端點(diǎn)檢測(cè)正確率定義為:
其中總幀數(shù)為語(yǔ)音的分幀后的總幀數(shù),錯(cuò)誤幀數(shù)為語(yǔ)音誤判為噪聲的幀數(shù)與噪聲被誤判為語(yǔ)音的幀數(shù)之和。通過表1可知,本文基于多窗譜估計(jì)譜減法和能熵比的復(fù)合算法的端點(diǎn)檢測(cè)正確率在低信噪比時(shí)要遠(yuǎn)遠(yuǎn)高于直接用能熵比進(jìn)行的端點(diǎn)檢測(cè)正確率;在高性噪比時(shí)要略高于直接用能熵比進(jìn)行的端點(diǎn)檢測(cè)正確率。
表1 端點(diǎn)檢測(cè)正確率比較
本文把多窗譜估計(jì)譜減法和能熵比法相結(jié)合,提出基于多窗譜估計(jì)譜減法和能熵比的端點(diǎn)檢測(cè)算法,多窗譜估計(jì)譜減法是在多窗譜功率譜計(jì)算的基礎(chǔ)上,分別計(jì)算了平滑功率譜和噪聲平均功率譜,從而導(dǎo)出譜減增益因子,改善了譜減功能。實(shí)驗(yàn)結(jié)果表明,本文復(fù)合算法與直接用能熵比算法相比較,本文算法在低信噪比環(huán)境下檢測(cè)效果更好,準(zhǔn)確率更高,并能改善信號(hào)的抗噪聲性能,該算法結(jié)合了多窗譜估計(jì)譜減法和能熵比的優(yōu)點(diǎn),使得該算法具有更好的端點(diǎn)檢測(cè)性能。
參考文獻(xiàn):
[1]董胡,錢盛友.改進(jìn)的能量譜熵端點(diǎn)檢測(cè)算法[J].測(cè)控技術(shù),2016,(6):26-29.
[2]李晉,劉甫,王玲,等.改進(jìn)的語(yǔ)音端點(diǎn)檢測(cè)技術(shù)[J].計(jì)算機(jī)工程與應(yīng)用,2009,(24):133-135.
[3]ZEDDELMANN D V.A feature-based approach to noise robust speech detection[J].ITG-Fachbericht,2012,(9):243-246.
[4]王民,孫廣,沈利榮.基于對(duì)數(shù)能量倒譜特征的端點(diǎn)檢測(cè)算法[J].計(jì)算機(jī)工程與應(yīng)用,2014,(16):198-201.
[5]董胡.倒譜距離和短時(shí)能量的語(yǔ)音端點(diǎn)檢測(cè)方法研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2014,(7):77-79.
[6]MA Y N,NISHIHARA A.Efficient voice activity detection algorithm using long-term spectral flatness measure[J].EURASIP Journal on Audio,Speech,and Music Processing,2013,(1):21.
[7]姜占才,孫燕,王得芳.基于譜減和LMS的自適應(yīng)語(yǔ)音增強(qiáng)[J].計(jì)算機(jī)工程與應(yīng)用,2012,(7):142-145.
[8]彭軍,王忠,劉興濤.基于多窗譜相關(guān)加權(quán)語(yǔ)音增強(qiáng)[J].計(jì)算機(jī)仿真,2011,(3):142-145.
[9]徐巖,孟靜.基于粉紅噪聲的語(yǔ)音增強(qiáng)算法性能評(píng)價(jià)研究[J].鐵道學(xué)報(bào),2011,(4):53-58.
[10]張滿,陶亮,周健.基于實(shí)值離散Gabor變換的譜減法語(yǔ)音增強(qiáng)[J].計(jì)算機(jī)工程與應(yīng)用,2012,(29):109-113.
[11]趙歡,王綱金,趙麗霞.一種新的對(duì)數(shù)能量譜熵語(yǔ)音端點(diǎn)檢測(cè)方法[J].湖南大學(xué)學(xué)報(bào)(自然科學(xué)版),2010,(7):72-77.
A STUDY OF ESTIMATING THE SPEECH ENDPOINT DETECTION AlGORITHM OF SPECTRAL SUBTRACTION AND ENERGY-ENTROPY RATIO BASED ON MULTI-TAPER SPECTRAL METHOD
ZHAO Fa
(Anhui Polytechnic University,Wuhu Anhui 241000)
Speech endpoint detection is a very important part of speech processing.At present,the main endpoint detection algorithms mainly focus on the extraction of phonetic characteristic parameters but ignore the previous speech enhancement.In this paper,a speech endpoint detection composite algorithm based on multi-taper spectral estimation of spectral subtraction and energy entropy ratio is proposed.The algorithm can denoise the speech signal in noisy environment and improve the SNR(signal-noise ratio)to achieve the effect of speech enhancement by using multi-taper spectral estimation of spectral subtraction.Then the energy entropy ratio method is used for endpoint detection.Simulation results show that under the condition of low SNR,the algorithm can improve the accuracy of speech endpoint detection.
Multi-taper spectral estimation;Spectral subtraction;Energy-entropy ratio;Endpoint detection
TN912.3
A
1672-2868(2016)06-0080-06
責(zé)任編輯:楊松水 校對(duì):袁宗文
2016-10-15
趙發(fā)(1983-),男,安徽巢湖人。安徽工程大學(xué)電氣與工程學(xué)院,講師。研究方向:信息處理。