摘 要:文章在研究語音識別系統(tǒng)中端點檢測基本算法的基礎(chǔ)上,分別對利用雙門限的端點檢測方法、利用小波變換的端點檢測方法、利用倒譜相關(guān)理論的端點檢測方法原理進行了闡述和說明,并對幾種端點檢測方法的特點進行了分析。
關(guān)鍵詞:端點檢測;雙門限;小波變換;倒譜
1 概述
就一般情況下來講,在語音通信過程當中,大多采用有線電話網(wǎng)的方式來進行,但是由于某些地區(qū)環(huán)境及場合需要等因素,則需要通過無線電臺來作為通信方式。與此同時,在其實際應(yīng)用過程中,整個通話過程由語音控制來實現(xiàn)。具體來講,有線方說話時本地無線電臺則處于發(fā)射狀態(tài),相對應(yīng)來講遠端無線電臺為接收狀態(tài),相反來講,當有線方沉默的時候,無線電臺工作狀態(tài)發(fā)轉(zhuǎn)。其中,語音端點檢測方法和技術(shù)是關(guān)鍵,基于從某段語音信號當中來準確判斷語音位置(起始點與終止點),從而有效地區(qū)分是否為語音信號這樣的目的。該技術(shù)對于減少數(shù)據(jù)的采集量、降低或者排除噪聲段的干擾以及提高系統(tǒng)識別性能等方面具有關(guān)鍵作用。
2 利用雙門限進行語音端點檢測
首先確定短時能量和短時過零率符合端點起點判定條件的幀,接著再根據(jù)短時過零率和短時能量符合端點終點判定條件的幀。除此之外,對于一些突發(fā)性噪聲檢測,比如由于門窗開關(guān)所引起的噪聲,相對應(yīng)來講我們可以通過設(shè)置最短時間門限來進行判斷。具體來講,當處于靜音這一語音信號端點檢測段時,如數(shù)值比低門限還低,與此同時最短時間門限大于計時長度,那么我們基本上可以確定這是一段噪音。
雙門限的檢測算法結(jié)合了短時能量和短時過零率的優(yōu)點,在得到的端點檢測結(jié)果中,其精確度和濁音檢測都能得到很好的保證?,F(xiàn)在有很多的端點檢測算法都是根據(jù)雙門限的算法進行不同的改進,能使其各有優(yōu)劣,從而適應(yīng)于不同的情況和環(huán)境。
3 利用小波變換進行語音端點檢測
小波變換屬于時頻分析的一種,具體來說是空間(時間)和頻率的局部變換,因而能有效的從信號中提取信息。小波變換能將信號在時域中表現(xiàn)不了的特征在頻域中表現(xiàn)出來。因此,利用小波變換的這一個特性,根據(jù)有效的說話人的聲音數(shù)據(jù)和背景噪聲數(shù)據(jù)的頻譜存在明顯差異的特征來進行端點檢測。一般有效的說話人的聲音數(shù)據(jù)的頻譜分布范圍很大,而且頻率的值也很大。而背景噪聲的頻譜變化不大,而且值也較小。因此先將語音數(shù)據(jù)分幀,將分幀后的數(shù)據(jù)進行一次小波變換,再對小波變換后的數(shù)據(jù)計算方差,如果計算的結(jié)果大于一定的閾值,那么這幀即被記為起始幀,若在起始幀存在的情況下計算的結(jié)果小于閾值,則被記為結(jié)束幀。
4 利用倒譜系數(shù)和倒譜距離進行語音端點檢測
(1)預(yù)處理:對8kHz采樣信號進行預(yù)加重處理,然后分幀加窗,幀長取16ms(128個采樣點),幀移4ms,對每一幀信號加128點的矩形窗。
(2)估計噪聲倒譜系數(shù)和倒譜距離:階數(shù)p取12,首先假定抽樣信號起始10幀是背景噪聲,利用這10幀的前5幀倒譜系數(shù)的統(tǒng)計平均值作為背景噪聲倒譜系數(shù)的估計值,用向量表示。同時計算這10幀的后5幀倒譜距離平均值作為背景噪聲倒譜距離的估計值,其中表示當前幀的倒譜系數(shù),為對應(yīng)的倒譜系數(shù)。
(3)逐幀計算值:逐幀計算倒譜系數(shù),然后由每幀信號的倒譜系數(shù)和噪聲倒譜系數(shù)的估計值計算倒譜距離。
(4)確定判決門限:采用類似于短時能量檢測法所使用的動態(tài)門限判決準則。
5 端點檢測方法的對比分析結(jié)論
在對三種算法的算法特性、適用情況、檢測精度和檢測速度做一個總體的統(tǒng)計分析比較,三種端點檢測方法的總體比較算法特征適用情況檢測精度檢測速度。
(1)雙門限時域范圍內(nèi)對聲音數(shù)據(jù)的能量和過零率分析高信噪比的環(huán)境低最快。
(2)小波檢測頻域范圍內(nèi)對聲音數(shù)據(jù)進行小波變換后,方差分析高或低信噪比的環(huán)境高慢。
(3)倒譜檢測頻域范圍內(nèi)對聲音數(shù)據(jù)進行倒譜變換后,計算倒譜距離高或低信噪比的環(huán)境高快。
通過對三種算法的比較,可以發(fā)現(xiàn)倒譜變換的端點檢測方法是最具有實用價值的。小波方法檢測的聲音數(shù)據(jù)雖然檢測的精度很高,但是檢測的速度很慢,相對適用于在實驗室的情況下進行端點檢測。
參考文獻
[1]張雄偉,等.現(xiàn)代語音處理技術(shù)及應(yīng)用[M].北京:機械工業(yè)出版社,2003.
[2]胡光銳.語音處理與識別[M].上海:上海科學技術(shù)文獻出版社,1994.
[3]蔡蓮紅,等.現(xiàn)代語音技術(shù)基礎(chǔ)及應(yīng)用[M].北京:清華大學出版社,2003.
[4]韓紀慶,等.語音信號處理[M].北京:清華大學出版社,2004.
[5]何湘智.語音識別的研究與發(fā)展[J].計算機與現(xiàn)代化,2002,79(3).
[6]趙高峰,張雪英,侯雪梅.一種基于小波系數(shù)方差的語音端點檢測方法[J].太原理工大學學報,2006,37(5).
[7]董力,陳宏欽,馬爭鳴.基于小波變換的語音段起止端點檢測算法[J].中山大學學報(自然科學版),2005,44(3).
[8]胡光銳,韋曉東.基于倒譜特征的帶噪語音端點檢測[J].電子學報,2000,10(9).
[9]NASSAR AM, KADER N S, Refat AM. End point s detection for noisy speech using a wavelet based algorit hm[M].Buda2 pest Kluwer Academic Publishers,1999:9032906.
[10]Haigh J A,Mason J S. Robust Voice Activity Detection Using Cep stral Features[J].Computer, Communication, Control and Power Engineering. Proceedings of the IEEE Region 10 Conference TENCON,1993,3(3).