黎 林,朱 軍,劉 穎,張 磊
1.安徽大學(xué) 計(jì)算機(jī)教學(xué)部,合肥 2306012.安徽大學(xué) 電子信息工程學(xué)院,合肥 230601
改進(jìn)動(dòng)量粒子群優(yōu)化神經(jīng)網(wǎng)絡(luò)的語音端點(diǎn)檢測(cè)
黎 林1,朱 軍2,劉 穎1,張 磊1
1.安徽大學(xué) 計(jì)算機(jī)教學(xué)部,合肥 230601
2.安徽大學(xué) 電子信息工程學(xué)院,合肥 230601
在語音識(shí)別系統(tǒng)中,端點(diǎn)檢測(cè)是極其重要的一個(gè)環(huán)節(jié),好的語音端點(diǎn)算法不僅可以準(zhǔn)確地從噪聲中提取出語音信息,有效降低噪聲對(duì)系統(tǒng)資源消耗,而且可以大幅提高系統(tǒng)識(shí)別率。大量研究表明,即使在理想條件下,語音識(shí)別錯(cuò)誤的發(fā)生一半以上都來自于端點(diǎn)檢測(cè),端點(diǎn)檢測(cè)作為語音識(shí)別的第一步,其重要性不容忽視[1]。
語音端點(diǎn)檢測(cè)的目標(biāo)是從信號(hào)流中分辨出語音信號(hào)和非語音信號(hào),并確定語音信號(hào)起點(diǎn)和終點(diǎn),當(dāng)前主要分為時(shí)域和頻域兩類語音端點(diǎn)檢測(cè)算法[2]。時(shí)域檢測(cè)算法主要包括短時(shí)能量、短時(shí)平均過零率和短時(shí)相關(guān)分析等[3-5],在低信噪比環(huán)境下,該類方法不能進(jìn)行正確語音端點(diǎn)檢測(cè),然而在實(shí)際語音檢測(cè)應(yīng)用中,很難保證有足夠高的信噪比,時(shí)域方法容易將噪聲誤當(dāng)成語音信號(hào)。頻域檢測(cè)算法有倒譜、信息熵、譜熵和頻帶方差等,該類檢測(cè)方法在理想條件下可以獲得較好的檢測(cè)效果[6-7],但在惡劣環(huán)境下,該類端點(diǎn)檢測(cè)準(zhǔn)確性仍然很差。為了獲取更優(yōu)的語音端點(diǎn)檢測(cè)效果,學(xué)者們提出了特征組合的端點(diǎn)檢測(cè)算法,顯著提高在低信噪比、噪聲動(dòng)態(tài)化的各種環(huán)境下的端點(diǎn)檢測(cè)性能[8]。傳統(tǒng)語音端點(diǎn)檢測(cè)器基本上均是基于線性建模方法,對(duì)環(huán)境噪聲變化不夠魯棒,虛檢率和漏檢率較高[9]。近些年,隨著非線性理論發(fā)展,出現(xiàn)神經(jīng)網(wǎng)絡(luò)(neural network)和支持向量(support vector machines)等非線性語音端點(diǎn)檢測(cè)算法,語音端點(diǎn)檢測(cè)率得以提高,尤其是BP神經(jīng)有較好的自學(xué)習(xí)和非線性映射能力,得到了廣泛應(yīng)用[8-9]。BP神經(jīng)網(wǎng)絡(luò)參數(shù)與端點(diǎn)檢測(cè)結(jié)果優(yōu)劣密切相關(guān),當(dāng)前主要采用遺傳算法、粒子群算法優(yōu)化BP神經(jīng)網(wǎng)絡(luò)參數(shù),它們均存在不向程度的缺陷。
為提高了語音端點(diǎn)檢測(cè)率,提出一種小波分析(WaveletAnalysis,WA)、改進(jìn)動(dòng)量粒子群優(yōu)化算法(Improved Momentum Particle Swarm Optimization algorithm,IMPSO)和BP神經(jīng)網(wǎng)絡(luò)(BP Neural Network,BPNN)相結(jié)合的語音端點(diǎn)檢測(cè)方法(WA-IMPSO-BP)。仿真結(jié)果表明,相對(duì)于傳統(tǒng)檢測(cè)算法,WA-IMPSO-BP算法具有更好的檢測(cè)效果,環(huán)境適應(yīng)性更較強(qiáng)。
語音端點(diǎn)檢測(cè)是對(duì)輸入語音信號(hào)進(jìn)行分析,然后把它們與噪聲門限閾值進(jìn)行比較,若超過門限閾值則表示當(dāng)前幀為有音片段,反之為無音片段語音,因此語音端點(diǎn)檢測(cè)本質(zhì)就是一種模式識(shí)別系統(tǒng),其包括兩個(gè)關(guān)鍵步驟:語音特征提取和選擇、端點(diǎn)檢測(cè)器設(shè)計(jì)[10]。
在語音識(shí)別系統(tǒng)中,噪聲類型比較復(fù)雜,尤其是語音信號(hào)清音部分與白噪聲比較相似,這給端點(diǎn)檢測(cè)造成了很大困難。小波分析(Wavelet Analysis,WA)在時(shí)域和頻域都能表征信號(hào)的局部特征,對(duì)信號(hào)的高頻部分有較好的時(shí)間分辨率,對(duì)低頻部分有較好的頻率分辨率,能夠滿足語音信號(hào)處理的要求[11],因此可以采用小波分析提取語音信號(hào)的特征量。BP神經(jīng)網(wǎng)絡(luò)具有很強(qiáng)的自適應(yīng)、并行性、魯棒性、非線性逼近能力,因此利用BP神經(jīng)網(wǎng)絡(luò)作為語音端點(diǎn)檢測(cè)器,對(duì)小波變換提取到的語音特征量進(jìn)行訓(xùn)練,同時(shí)采用IMPSO對(duì)BP參數(shù)進(jìn)行優(yōu)化,建立最優(yōu)語音端點(diǎn)檢測(cè)模型?;赪A-IMPSO-BP的語音端點(diǎn)檢測(cè)系統(tǒng)結(jié)構(gòu)如圖1所示。
圖1 WA-IMPSO-BP的語音端點(diǎn)檢測(cè)系統(tǒng)圖
2.1 語音信號(hào)的預(yù)處理
語音信號(hào)是一種非平穩(wěn)信號(hào),不能直接用于提取特征,對(duì)采集語音信號(hào)進(jìn)行預(yù)處理,英文單詞“eat”的預(yù)處理結(jié)果見圖2。
2.2 語音特征量提取采用Mallat算法對(duì)每幀信號(hào) f(n)進(jìn)行5層小波分解,即1235
根據(jù)小波多分辨率分析原理可知,d1(n)~d5(n)表征原信號(hào)所有的頻率信號(hào),計(jì)算各層小波子帶系、a5(n)可數(shù)的平均能量:
圖2 英文單詞“eat”的預(yù)處理
式中,si(n)代表d1(n)~d5(n)、a5(n)小波子帶中的某個(gè)子帶的小波系數(shù),N為小波系數(shù)的個(gè)數(shù)[12]。
計(jì)算6個(gè)小波子帶平均能量的均值Em和方差σ2:
共獲得8小波子帶平均能量E1~E6,一個(gè)Em和一個(gè)σ2,
2.3 BP神經(jīng)網(wǎng)絡(luò)
BP神經(jīng)網(wǎng)絡(luò)是一種包含輸入層、隱含層和輸出層的多層前饋型網(wǎng)絡(luò),大量實(shí)踐證明三層神經(jīng)網(wǎng)絡(luò)能夠以任意精度逼近任何的非線性函數(shù)[13]。BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)具體如圖3所示。
圖3 BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖
BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)性能優(yōu)劣與其網(wǎng)絡(luò)連接權(quán)值密切相關(guān),傳統(tǒng)動(dòng)量項(xiàng)法或經(jīng)驗(yàn)法難以獲得全局最優(yōu)絡(luò)連接權(quán)值,使網(wǎng)絡(luò)學(xué)習(xí)速率小,沒有足夠的能量躍過局部極小值點(diǎn),導(dǎo)致語音端點(diǎn)檢測(cè)率低。
2.4 自適應(yīng)逃逸粒子群優(yōu)化算法
粒子群算法(PSO)是一種模擬鳥群覓食行為的群智能優(yōu)化算法,通過個(gè)體之間的協(xié)作使得群體達(dá)到最優(yōu)化的目的[14]。PSO中的每一個(gè)粒子代表求解問題的一個(gè)候選解,首先初始化一群粒子,然后通過迭代生成新的粒子群,每一次迭代過程中,第i個(gè)粒子的速度和位置采用式(5)、(6)進(jìn)行更新。式中,n是種群中粒子的數(shù)量;t是迭代次數(shù);c1,c2是學(xué)習(xí)因子;r1,r2是[0,1]之間的隨機(jī)數(shù);w為慣性權(quán)重。
為改善粒子的搜索能力,將式(4)進(jìn)行改進(jìn),具體為:
式中,0≤mc<1。
式(7)實(shí)際上是對(duì)粒子的運(yùn)動(dòng)軌跡采用低通濾波器進(jìn)行平滑,即所謂的動(dòng)量粒子群優(yōu)化算法(momentum particle swarm optimization algorithm)。
MPSO算法通過粒子間相互協(xié)作和競(jìng)爭(zhēng),在解空間搜索最優(yōu)解,然而由于MPSO算法不具有交叉、變異等機(jī)制,當(dāng)某個(gè)粒子找到一個(gè)局部最優(yōu)解時(shí),其他粒子會(huì)受到該最優(yōu)解吸引,快速聚集到其附近,出現(xiàn)“早熟”現(xiàn)象。
遺傳算法是一種模擬生物進(jìn)化“優(yōu)勝劣汰”機(jī)制的啟發(fā)式搜索算法,其通過交叉、變異等操作增加種群的多樣性,不斷進(jìn)化最后找到最優(yōu)解[15]。因此,本研究鑒于遺傳算法的變叉操作,將其引入到MPSO算法中,增加和保持粒子群多樣性,當(dāng)陷入局部最優(yōu)解時(shí),幫助其逃逸局部最優(yōu)解,提高算法尋優(yōu)能力。具體交叉策略:將每一代中的每一個(gè)粒子和全局最優(yōu)粒子進(jìn)行交叉操作,然后將交叉后的個(gè)體與父代個(gè)體進(jìn)行比較,選擇較好的個(gè)體進(jìn)入下一代粒子群,使粒子以更快的速度收斂到當(dāng)前全局最優(yōu)解。
粒子個(gè)體交叉方式如下:
式中,ru為隨機(jī)變量。ru生成方式為:
式中,η為交叉參數(shù);u為0到1之間的隨機(jī)數(shù)。
對(duì)式(8)進(jìn)行分析可知:當(dāng)ru的值在1附近時(shí),引入交叉操作會(huì)使得粒子產(chǎn)生一個(gè)強(qiáng)加速,快速聚集于當(dāng)前全局最優(yōu)粒子,使算法快速收斂于當(dāng)前最優(yōu)解;當(dāng)ru較大時(shí),引入交叉操作對(duì)粒子產(chǎn)生一個(gè)變異作用,保持粒子群的多樣性,降低“早熟”現(xiàn)象出現(xiàn)的概率。
在QSO中,若對(duì)粒子加速導(dǎo)致其一維的速度(vi)超過該維的最大速度(vmax),那么vmax為該維速度;若粒子速度變?yōu)?時(shí),那么就要對(duì)該粒子速度進(jìn)行隨機(jī)初始化,具體為:
此外,若粒子飛出了邊界區(qū)域時(shí),則該粒子位置為將邊界位置,并從相反方向上搜索最優(yōu)位置,即
通過上述操作,可以將粒子限制在可行解空間內(nèi)搜索,又可以防止粒子在邊界堆積現(xiàn),從而提高算法的全局搜索能力。
2.5 自適應(yīng)逃逸粒子群優(yōu)化BP神經(jīng)網(wǎng)絡(luò)參數(shù)
為了解決BP神經(jīng)網(wǎng)絡(luò)存在的難題,采用智能優(yōu)化搜索方法——粒子群優(yōu)化算法對(duì)其網(wǎng)絡(luò)連接權(quán)值進(jìn)行優(yōu)化,獲得性能更優(yōu)的BP神經(jīng)網(wǎng)絡(luò),具體流程如圖4所示。
圖4 BP神經(jīng)網(wǎng)絡(luò)參數(shù)優(yōu)化流程圖
2.6 BP神經(jīng)網(wǎng)絡(luò)的語音檢測(cè)步驟
步驟1初始化BP神經(jīng)網(wǎng)絡(luò)、小波分析和IMPSO相關(guān)參數(shù)。
步驟2隨機(jī)選擇1段含語音段和噪聲的信號(hào),小波分析提取特征量作為BP神經(jīng)網(wǎng)絡(luò)輸入,人工標(biāo)示出每幀信號(hào)作為BP神經(jīng)網(wǎng)絡(luò)輸出,完成BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練樣本構(gòu)建。
步驟3將訓(xùn)練樣本輸入BP神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,由于隨機(jī)確定BP神經(jīng)網(wǎng)絡(luò)初始參數(shù)會(huì)導(dǎo)致檢測(cè)結(jié)果與實(shí)際結(jié)果間差異較大,因此通過IMPSO對(duì)BP神經(jīng)網(wǎng)絡(luò)優(yōu)化,使BP神經(jīng)網(wǎng)絡(luò)輸出與理想輸出值達(dá)到預(yù)設(shè)要求,從而完成BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練。
步驟4用訓(xùn)練好的BP神經(jīng)網(wǎng)絡(luò)對(duì)原來訓(xùn)練樣本進(jìn)行計(jì)算,并輸出檢測(cè)結(jié)果,門限值為0.5,輸出結(jié)果大于0.5,認(rèn)為當(dāng)前幀為語音幀,否則為非語音幀,然后將實(shí)際輸出結(jié)果與標(biāo)示好的信號(hào)語音幀進(jìn)行比較,如果神經(jīng)網(wǎng)絡(luò)訓(xùn)練效果不好,需要重新對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。
步驟5進(jìn)行語音端點(diǎn)檢測(cè)。取一段語音信號(hào),提取其特征量,然后采用訓(xùn)練好的BP神經(jīng)網(wǎng)絡(luò)對(duì)其進(jìn)行檢測(cè),最終輸出語音端點(diǎn)檢測(cè)結(jié)果。
3.1 仿真環(huán)境
為了檢驗(yàn)WA-IMPSO-BP算法對(duì)語單端點(diǎn)檢測(cè)有效性,在CPU P4 3.0 GHZ,內(nèi)存2 GB,Windows XP平臺(tái)下,采用Matlab 2007軟件實(shí)現(xiàn)仿真實(shí)驗(yàn)。為了使WA-IMPSO-BP算法的檢測(cè)結(jié)果更具有說服力,選擇短時(shí)能量特征+IMPSO-BP神經(jīng)網(wǎng)絡(luò)(BPNN1),小波分析+BP神經(jīng)網(wǎng)絡(luò)(BPNN2)、小波分析+線性模型(WA-LINER)進(jìn)行對(duì)比實(shí)驗(yàn)。采用檢測(cè)率、虛檢率、漏檢率和檢測(cè)速度作為算法性能的評(píng)價(jià)標(biāo)準(zhǔn)。
3.2 數(shù)據(jù)來源
實(shí)驗(yàn)使用帶噪語音是由aurora2.0語音庫中的130個(gè)干凈聲音和Noisex 92噪聲庫中的7種噪聲混合而成wav格式的聲音,每個(gè)千凈語音分別混合destroyerengine噪聲、pink噪聲、volvo噪聲、white噪聲、bueeaneer2噪聲等5種噪聲。聲音的位速為128 kb/s,音頻采樣大小為16位,頻道為單聲道,音頻的采樣級(jí)別為8 kHz,音頻格式為PCM。
3.3 結(jié)果與分析3.3.1 不同語音端點(diǎn)算法的檢測(cè)性能對(duì)比
不同信噪比的條件下,各種語音端點(diǎn)檢測(cè)算法的仿真結(jié)果見表1~3。
表1 語音端點(diǎn)檢測(cè)率比較 (%)
表2 語音端點(diǎn)檢測(cè)虛檢率比較 (%)
表3 語音端點(diǎn)檢測(cè)的漏檢率比較 (%)
根據(jù)表1~3對(duì)比結(jié)果可以得到如下結(jié)論:
(1)對(duì)于white噪聲語音信號(hào)進(jìn)行檢測(cè),各檢測(cè)算法均獲得了比較滿意的檢測(cè)效果,檢測(cè)率比較高。當(dāng)噪聲環(huán)境為estroyerengine噪聲、pink噪聲、volvo噪聲、bueeaneer2噪聲,全部語音端點(diǎn)檢測(cè)算法性能均有所下降,尤其是WA-LINER下降十分明顯,已基本失去區(qū)分能力,已經(jīng)不能達(dá)到實(shí)際應(yīng)用的要求,這主要是由于其基于線性建模,無法反映語音信號(hào)的動(dòng)態(tài)變化規(guī)律,而基于BP神經(jīng)網(wǎng)絡(luò)的檢驗(yàn)率仍然較高,說明BP神經(jīng)網(wǎng)絡(luò)具有很強(qiáng)的自適應(yīng)、并行性、魯棒性,對(duì)語音環(huán)境變化適應(yīng)性比較強(qiáng)。
(2)相對(duì)于BPNN1,WA-IMPSO-BP的檢測(cè)性能要優(yōu),這主要是由于采用小波分析不但可以反映信號(hào)的時(shí)域特征,還能反映信號(hào)的頻域特性,可以對(duì)語音信號(hào)有效特征進(jìn)行提取,而短時(shí)能量只適合于信噪比比較高的語音端點(diǎn)檢測(cè),因此BPNN1應(yīng)用范圍受限,WA-IMPSO-BP利用小波分析和BP神經(jīng)網(wǎng)絡(luò)相結(jié)合,達(dá)到了優(yōu)勢(shì)互補(bǔ),表現(xiàn)出更強(qiáng)的抗噪性,提高語音端點(diǎn)檢測(cè)率的同時(shí),有效降低了端點(diǎn)漏檢率和虛檢率。
(3)相對(duì)于BPNN2算法,WA-IMPSO-BP檢測(cè)性能也更優(yōu),這說明采用IMPSO對(duì)BP神經(jīng)網(wǎng)絡(luò)的參數(shù)進(jìn)行優(yōu)化,可以很好地克服BP神經(jīng)網(wǎng)絡(luò)因參數(shù)選擇不當(dāng)存在的缺陷,使BP神經(jīng)網(wǎng)絡(luò)的性能達(dá)到全局最優(yōu),進(jìn)一步提高了音端點(diǎn)檢測(cè)率。
3.3.2 算法檢測(cè)速度比較
采用運(yùn)行時(shí)間來衡量語音端點(diǎn)檢測(cè)速度,在Matlab2007平臺(tái)下,利用Tic和Toc命令記錄預(yù)測(cè)模型的訓(xùn)練和預(yù)測(cè)時(shí)間,WA-IMPSO-BP、BPNN1、BPNN2和WA-LINER的檢測(cè)時(shí)間如表4所示。
表4 各種算法的檢測(cè)速度對(duì)比s
從表4可知,相對(duì)于對(duì)比算法,無論是訓(xùn)練時(shí)間還是檢測(cè)時(shí)間,WA-IMPSO-BP均是最短的,這說明采用小波分析提取語音特征,以減少BP神經(jīng)網(wǎng)絡(luò)的輸入變量數(shù)目,降低了計(jì)算復(fù)雜度,同時(shí)采用IMPSO對(duì)模型參數(shù)進(jìn)行優(yōu)化,加快了學(xué)習(xí)效率,對(duì)比結(jié)果表明,WA-IMPSO-BP更適合于實(shí)時(shí)性要求比較高的語音端點(diǎn)檢測(cè)。
3.3.3 在現(xiàn)實(shí)噪聲環(huán)境下的有效性檢驗(yàn)
分別在純凈環(huán)境和噪聲環(huán)境中,對(duì)一段女生朗讀語音信號(hào)進(jìn)行采集,得到語音信號(hào)如圖5所示。然后采用WA-IMPSO-BP對(duì)該語音端點(diǎn)進(jìn)行檢測(cè),得到的檢測(cè)結(jié)果如圖6所示。其中,橫軸表示語音信號(hào)的采樣點(diǎn)數(shù),縱軸表示信號(hào)的幅。從圖6可知,WA-IMPSO-BP可以很好檢測(cè)到語音信號(hào)的起始點(diǎn)和終止點(diǎn),不僅具有良好的抗噪性能,而且具有較好的語音識(shí)別率。
圖5 現(xiàn)場(chǎng)采集的語音信號(hào)
圖6 WA-IMPSO-BP檢測(cè)結(jié)果
端點(diǎn)檢測(cè)是語音識(shí)別中極其重要的一項(xiàng)技術(shù),其準(zhǔn)確性對(duì)識(shí)別性能具有很大影響,在當(dāng)信噪比較小環(huán)境下,傳統(tǒng)檢測(cè)算法難以對(duì)語音端點(diǎn)進(jìn)行正確檢測(cè),為此提出一種強(qiáng)噪聲背景下的語音端點(diǎn)檢測(cè)算法。實(shí)驗(yàn)結(jié)果表明,相對(duì)于傳統(tǒng)檢測(cè)算法,WA-IMPSO-BP提高了語音端點(diǎn)檢測(cè)準(zhǔn)確率,抗噪性、魯棒性更好,具有更好的實(shí)際應(yīng)用性。
[1]蔡蓮紅,黃德智,蔡銳.現(xiàn)代語音技術(shù)基礎(chǔ)與應(yīng)用[M].北京:清華大學(xué)出版社,2003.
[2]Wu Bingfei,Wang Kunching.Robust endpoint detection algorithm based on the adaptive band-partitioning spectral entropy in adverse environments[J].IEEE Transactions on Speech and Audio Processing,2005,13(5):762-775.
[3]李王勁松,李柏巖,宋輝.基于小波分解和信號(hào)相關(guān)函數(shù)的語音端點(diǎn)檢測(cè)[J].計(jì)算機(jī)應(yīng)用與軟件,2011,28(7):103-105.
[4]Plapous C,Marro C,Scalart P.Reliable a posteriori signal-tonoise ratio features selection[C]//2005 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics. New Paltz,NY:[s.n.],2005:16-19.
[5]喬峰,張雪英.一種基于信息熵和神經(jīng)網(wǎng)絡(luò)的語音端點(diǎn)檢測(cè)方法[J].太原理工大學(xué)學(xué)報(bào),2007,12(38):145-147.
[6]Hung Wei-Wen,Wang Hsiao-Chuan.On the use of weighted filter bank analysis for the derivation of robust MFCC[J]. IEEE Signal Processing Letters,2001,8(3):70-73.
[7]樸春俊,馬靜霞,徐鵬.帶噪語音端點(diǎn)檢測(cè)方法研究[J].計(jì)算機(jī)應(yīng)用,2006,26(1):2685-2686.
[8]張鐵威.基于小波分析與神經(jīng)網(wǎng)絡(luò)的語音端點(diǎn)檢測(cè)研究[D].大連:大連理工大學(xué),2008.
[9]喬峰.基于信息熵和神經(jīng)網(wǎng)絡(luò)的語音端點(diǎn)檢測(cè)算法研究[D].太原:太原理工大學(xué),2007.
[10]Qi Li,Jin Songzheng,Tsai A,et al.Robust endpoint detection and energy normalization for real time speech and speakerrecognition[J].IEEE Transactions on Speech and Audio Processing,2002,10(3):146-152.
[11]朱恒軍,于泓博,王發(fā)智.小波分析和支持向量機(jī)相融合的語音端點(diǎn)檢測(cè)算法[J].計(jì)算機(jī)科學(xué),2012,6(39):244-246.
[12]李如瑋,鮑長(zhǎng)春.一種基于分帶譜熵和譜能量的語音端點(diǎn)檢測(cè)算法[J].北京工業(yè)大學(xué)學(xué)報(bào),2007,33(9):920-924.
[13]孫娓娓.BP神經(jīng)網(wǎng)絡(luò)的算法改進(jìn)及應(yīng)用研究[D].重慶:重慶大學(xué),2009.
[14]李愛國,覃征,鮑復(fù)民,等.粒子群優(yōu)化算法[J].計(jì)算機(jī)工程與應(yīng)用,2002,38(21):1-3.
[15]傅穎勛.遺傳算法的研究與改進(jìn)[D].北京:北京郵電大學(xué),2010.
LI Lin1,ZHU Jun2,LIU Ying1,ZHANG Lei1
1.Department of Computer Teaching,Anhui University,Hefei 230601,China
2.School of Electronics and Information Engineering,Anhui University,Hefei 230601,China
In order to improve detection rate of the speech endpoint,this paper proposes a speech endpoint detection method based on BP neural network optimized by improved momentum particle swarm optimization algorithm.The features of speech signals are extracted by wavelet analysis,then the features are input to BP neural network to build the speech endpoints detection model in which the BP neural network's parameters are optimized by particle swarm optimization algorithm,the simulation experiments are carried out on Matlab environments.The experimental results show that the proposed method improves the detection rate,and reduces the false detection rate and false negative rate effectively,WA-IMPSO-BP is a high detection rate and strong resistant noise performance speech detection algorithm.
wavelet analysis;neural network;speech endpoints;particle swarm optimization algorithm;feature selection
為了提高語音端點(diǎn)檢測(cè)率,提出一種改進(jìn)動(dòng)量粒子群優(yōu)化神經(jīng)網(wǎng)絡(luò)的語音端點(diǎn)檢測(cè)算法(WA-IMPSO-BP)。利用小波分析提取語音信號(hào)的特征量,將特征向量作為BP神經(jīng)網(wǎng)絡(luò)輸入進(jìn)行學(xué)習(xí),并采用粒子群算法優(yōu)化BP神經(jīng)網(wǎng)絡(luò)參數(shù),建立語音端檢測(cè)模型,在Matlab環(huán)境下進(jìn)行仿真實(shí)驗(yàn)。仿真結(jié)果表明,WA-IMPSO-BP提高了語音端點(diǎn)檢測(cè)率,有效降低了虛檢率和漏檢率,表示W(wǎng)A-IMPSO-BP是一種檢測(cè)率高,抗噪性能強(qiáng)的語音檢測(cè)算法。
小波分析;神經(jīng)網(wǎng)絡(luò);語音端點(diǎn);粒子群優(yōu)化算法;特征選擇
A
TN91
10.3778/j.issn.1002-8331.1211-0105
LI Lin,ZHU Jun,LIU Ying,et al.Speech endpoints detection based on BP neural network optimized by improved momentum particle swarm optimization algorithm.Computer Engineering and Applications,2013,49(5):225-229.
國家自然科學(xué)基金(No.61071168);安徽大學(xué)211三期質(zhì)量工程項(xiàng)目(No.40010014,No.39020014)。
黎林(1979—),男,碩士,主要研究領(lǐng)域?yàn)橛?jì)算機(jī)應(yīng)用、嵌入式應(yīng)用、信號(hào)采集與處理;朱軍(1968—),女,博士,副教授,碩士生導(dǎo)師,主要研究領(lǐng)域?yàn)橥ㄐ判畔⑻幚?、光通信網(wǎng)絡(luò)、多媒體通信;劉穎(1981—),女,博士,主要研究領(lǐng)域?yàn)橥ㄓ嵟c信息系統(tǒng)、網(wǎng)格計(jì)算。
2012-11-08
2012-12-25
1002-8331(2013)05-0225-05