王瑤,曾慶寧,龍超,謝先明,毛維
?
低信噪比環(huán)境下語(yǔ)音端點(diǎn)檢測(cè)改進(jìn)方法
王瑤,曾慶寧,龍超,謝先明,毛維
(桂林電子科技大學(xué)認(rèn)知無(wú)線電與信息處理教育部重點(diǎn)實(shí)驗(yàn)室,廣西桂林 541004)
針對(duì)語(yǔ)音端點(diǎn)檢測(cè)在低信噪比環(huán)境下普遍存在檢測(cè)性能急劇下降的問(wèn)題,提出一種將調(diào)制域(時(shí)間-頻率域)譜減法和自相關(guān)函數(shù)相結(jié)合的語(yǔ)音端點(diǎn)檢測(cè)算法。該算法首先利用調(diào)制域譜減法較好的消噪能力來(lái)提高含噪語(yǔ)音的信噪比;然后根據(jù)語(yǔ)音和噪聲的自相關(guān)函數(shù)的主峰最大值和次大值之比差異較大的特性,結(jié)合基于對(duì)數(shù)能量和自相關(guān)函數(shù)的端點(diǎn)檢測(cè)方法對(duì)消噪后的語(yǔ)音進(jìn)行端點(diǎn)檢測(cè)。實(shí)驗(yàn)結(jié)果表明,該算法在低信噪比的環(huán)境下能取得較好的端點(diǎn)檢測(cè)效果,并具有較好的穩(wěn)健性。
低信噪比;調(diào)制域;自相關(guān)函數(shù);對(duì)數(shù)能量;端點(diǎn)檢測(cè)
端點(diǎn)檢測(cè)(Endpoint Detection, ED)指的是從一段語(yǔ)音中辨別出語(yǔ)音信號(hào)和非語(yǔ)音信號(hào)并確定語(yǔ)音信號(hào)的起始點(diǎn)和結(jié)束點(diǎn),又稱為語(yǔ)音活動(dòng)檢測(cè)(Voice Activity Detection, VAD)。隨著智能語(yǔ)音信號(hào)處理技術(shù)的發(fā)展和應(yīng)用,研究復(fù)雜環(huán)境下仍能具有良好語(yǔ)音端點(diǎn)檢測(cè)效果的方法在語(yǔ)音定位、識(shí)別、增強(qiáng)、回波消除等方面[1-2]具有一定的實(shí)際價(jià)值。尤其是語(yǔ)音識(shí)別方面,文獻(xiàn)[3]中指出,即使是在安靜的環(huán)境下,語(yǔ)音識(shí)別中有一半的錯(cuò)誤源自于端點(diǎn)檢測(cè)。準(zhǔn)確的端點(diǎn)檢測(cè)不但可以縮短語(yǔ)音信號(hào)的處理時(shí)間,同時(shí)還排除了噪聲段的部分干擾。
由于端點(diǎn)檢測(cè)技術(shù)是各項(xiàng)技術(shù)的融合,目前并沒有系統(tǒng)的分類方式。本文根據(jù)采用的判決準(zhǔn)則和技術(shù),將其分為四類:(1) 基于門限判決方法,該方法以基于時(shí)域參數(shù)的檢測(cè)方法為主,最為經(jīng)典的就是基于短時(shí)能量和短時(shí)過(guò)零率的雙門限判決方法[4],這一類方法的提出最早,使用也最為廣泛;(2) 基于統(tǒng)計(jì)模型和模式分類的方法,該方法建立語(yǔ)音和噪聲的統(tǒng)計(jì)模型并采用隱馬爾可夫模型進(jìn)行判決[5];(3) 基于人工神經(jīng)網(wǎng)絡(luò)的方法,1991年,Ghiselli. Crippa等[6]首次將前饋神經(jīng)網(wǎng)絡(luò)運(yùn)用到端點(diǎn)檢測(cè)中,充分利用快速收斂訓(xùn)練算法得出網(wǎng)絡(luò)權(quán)重,以達(dá)到將語(yǔ)音、非語(yǔ)音和靜音逐一辨別出來(lái)的目的,之后較成熟的方法有徑向基函數(shù)網(wǎng)絡(luò)[7]、自適應(yīng)線性神經(jīng)網(wǎng)絡(luò)以及循環(huán)自組織模糊推理神經(jīng)網(wǎng)絡(luò)[8-9]等;(4) 基于時(shí)頻分析和小波變換的方法,該方法利用不同信號(hào)在不同分辨率的情況下相關(guān)性不同的特性,將小波分析引入端點(diǎn)檢測(cè)[10-11]。近年來(lái),雖然仍有大量的端點(diǎn)檢測(cè)方法被提出,但是在低信噪比情況下檢測(cè)質(zhì)量不佳仍然是個(gè)很大的問(wèn)題。
針對(duì)上述問(wèn)題,本文提出一種改進(jìn)的語(yǔ)音端點(diǎn)檢測(cè)方法。該方法首先使用調(diào)制域譜減法對(duì)語(yǔ)音質(zhì)量進(jìn)行提升,提高語(yǔ)音信號(hào)的信噪比,再使用改進(jìn)的對(duì)數(shù)能量與自相關(guān)函數(shù)(Auto-Correlation Function, ACF)相結(jié)合的方法進(jìn)行端點(diǎn)檢測(cè)。實(shí)驗(yàn)證明,該方法在低信噪比的情況下能較好地檢測(cè)出語(yǔ)音端點(diǎn)。
時(shí)域和頻域是處理語(yǔ)音信號(hào)中最常見的兩種方法,而近些年來(lái)隨著調(diào)頻技術(shù)的發(fā)展和頻率源的廣泛應(yīng)用[12],調(diào)制域漸漸走進(jìn)人們的視野。時(shí)域反映的是幅度與時(shí)間之間的關(guān)系,頻域反映的是幅度與頻率之間的關(guān)系,而調(diào)制域則反映的是頻率與時(shí)間的關(guān)系[13-14]。將三者的關(guān)系用空間直角坐標(biāo)表示,如圖1所示。
圖 1 時(shí)域、頻域、調(diào)制域之間的關(guān)系
假設(shè)信號(hào)由不相關(guān)的純凈語(yǔ)音和加性噪聲組成,含噪信號(hào)可以表示為
大多數(shù)改進(jìn)的譜減法都只對(duì)幅度做出相應(yīng)的調(diào)整,而忽視了含噪信號(hào)中相位的重要作用。相關(guān)研究表明,調(diào)制域相位相較于頻域相位能夠提取出更多的有用信息[15],處理調(diào)制相位可以進(jìn)一步抑制噪聲,改善語(yǔ)音可懂度,提高語(yǔ)音質(zhì)量[16]。在此基礎(chǔ)上,本文使用相位補(bǔ)償?shù)姆椒ㄟM(jìn)一步改進(jìn)該算法。
(8)
由此,得到調(diào)制域相位補(bǔ)償公式為
圖2為幾種消噪算法的時(shí)域圖。算法流程圖如圖3所示。
圖 2 消噪后的語(yǔ)音時(shí)域圖對(duì)比
由于本文研究的是低信噪比環(huán)境,所以圖2中的仿真是在-5 dB高斯白噪聲環(huán)境下去噪后的語(yǔ)音時(shí)域圖,其中圖2(a)、2(b)分別為純凈語(yǔ)音信號(hào)和加噪后的語(yǔ)音信號(hào),圖2(c)、2(d)、2(e)分別為使用了一般譜減法、對(duì)數(shù)最小均方誤差(logarithm Minimum Mean Square Error, logMMSE)和調(diào)制域譜減法進(jìn)行去噪后的語(yǔ)音信號(hào)。從圖2中可以看出,在低信噪比環(huán)境下,普通的譜減法效果已經(jīng)不是很明顯,而相較于噪聲抑制效果較好的logMMSE法,調(diào)制域譜減法的語(yǔ)音失真程度較小。所以,本文算法采用調(diào)制域譜減法對(duì)語(yǔ)音端點(diǎn)檢測(cè)做前端消噪以提高含噪語(yǔ)音的信噪比,從而提高語(yǔ)音端點(diǎn)檢測(cè)的性能。
語(yǔ)音信號(hào)和噪聲信號(hào)之間一個(gè)非常重要的區(qū)別就在于語(yǔ)音的濁音具有周期性而噪聲不具備周期性。如果一個(gè)信號(hào)是周期函數(shù),則其自相關(guān)函數(shù)為具有相同周期的周期函數(shù)。利用這一特性,信號(hào)的自相關(guān)函數(shù)也成為端點(diǎn)檢測(cè)的一個(gè)有效標(biāo)準(zhǔn)[17]。
圖 3 調(diào)制域譜減法算法流程圖
圖4為一段噪聲信號(hào)歸一化后的自相關(guān)函數(shù)。將該自相關(guān)函數(shù)最大值處放大,每個(gè)樣點(diǎn)值用點(diǎn)表示,如圖5所示。由圖5可見,除了最大值為1以外,次大值的幅度在0.1到0.15之間,可近似認(rèn)為次大值約為0.1。本文定義噪聲信號(hào)主峰的最大值與次大值的比值大約為10。
圖6為-5 dB白噪聲環(huán)境下一段語(yǔ)音信號(hào)的自相關(guān)函數(shù)。將圖6與圖4比較可以發(fā)現(xiàn),含噪語(yǔ)音的短時(shí)自相關(guān)函數(shù)呈明顯的周期性且在基音周期的各整數(shù)倍點(diǎn)上有峰值,而噪聲信號(hào)的自相關(guān)函數(shù)并不具備周期性且只在幀中間位置出現(xiàn)最大值,其余值都很小。含噪語(yǔ)音信號(hào)自相關(guān)函數(shù)的最大值和次大值比值約為1。由此可見,可以利用這一特性來(lái)區(qū)分有話幀和噪聲幀[19]。根據(jù)噪聲具體情況結(jié)合雙門限法設(shè)置兩個(gè)閾值1和2,當(dāng)相關(guān)函數(shù)最大值大于2時(shí)則將其判定為語(yǔ)音;當(dāng)相關(guān)函數(shù)值大于或小于1時(shí)則將其判定為語(yǔ)音的起止端點(diǎn)。
圖 4 噪聲幀自相關(guān)函數(shù)
圖 5 噪聲幀自相關(guān)函數(shù)最大值處
圖 6 含噪語(yǔ)音的自相關(guān)函數(shù)
但是,在實(shí)際情況中噪聲具有一定的不穩(wěn)定性且極有可能含有豐富的高頻成分,從而導(dǎo)致自相關(guān)函數(shù)主峰比值在噪聲段出現(xiàn)因起伏引起檢測(cè)錯(cuò)誤的情況。因此,加入對(duì)數(shù)能量來(lái)提高檢測(cè)的穩(wěn)定性和準(zhǔn)確度。
常用的雙門限法采用的是基于短時(shí)平均能量和短時(shí)平均過(guò)零率的端點(diǎn)檢測(cè)方法。本節(jié)提出的算法是基于對(duì)數(shù)能量和自相關(guān)函數(shù)主峰比值的檢測(cè)方法,使用對(duì)數(shù)能量替代短時(shí)平均能量,自相關(guān)函數(shù)主峰比值替代平均過(guò)零率。短時(shí)平均能量通常情況下在噪聲段比較平穩(wěn)、接近于0,而在語(yǔ)音部分有較高的幅值,這就導(dǎo)致信號(hào)的短時(shí)平均能量在語(yǔ)音段和噪聲段交替時(shí)會(huì)出現(xiàn)陡變,對(duì)短時(shí)平均能量取對(duì)數(shù)則可以緩和短時(shí)平均能量劇烈變化的值,在一定程度上平穩(wěn)了語(yǔ)音段的幅值。
則有每一幀的對(duì)數(shù)能量[20]為
式(15)中,為常數(shù),用于減小中某一數(shù)值與前后數(shù)值的差距。
最新研究表明,語(yǔ)音段能量的變化趨勢(shì)與過(guò)零率、自相關(guān)函數(shù)峰值比呈反比,即能量較大時(shí),過(guò)零率和自相關(guān)函數(shù)峰值比值較小[19]。將能量值除以過(guò)零率值即能-零比法,可進(jìn)一步拉大信號(hào)噪聲段和語(yǔ)音段的幅值差,從而提高端點(diǎn)檢測(cè)的準(zhǔn)確度。本節(jié)使用對(duì)數(shù)能量除以自相關(guān)函數(shù)峰值比的方法,相較于能-零比法,能更好地拉大差異,提高檢測(cè)質(zhì)量。
兩種方法歸一化后的圖形比較如圖7所示。由圖7可以發(fā)現(xiàn),對(duì)數(shù)能量除以自相關(guān)函數(shù)主峰比值的圖示效果在噪聲段的效果明顯要好于對(duì)數(shù)能量除以過(guò)零率的方法,不但噪聲與語(yǔ)音的邊界更加陡峭,而且在語(yǔ)音主峰部分也更加平緩。
綜上所述,本文采用的端點(diǎn)檢測(cè)方法的具體步驟為:
(1) 使用調(diào)制域譜減法提高了含噪語(yǔ)音的信噪比;
(2) 對(duì)增強(qiáng)后的語(yǔ)音分幀,并逐幀求自相關(guān)函數(shù)的主峰最大值與次大值之比以及對(duì)數(shù)能量;
(3) 將自相關(guān)函數(shù)主峰比值除以對(duì)數(shù)能量并對(duì)結(jié)果進(jìn)行歸一化;
(4) 在得到歸一化的對(duì)數(shù)能量除以自相關(guān)函數(shù)主峰比值的圖形后,結(jié)合2.1節(jié)提到的雙門限法,設(shè)定好兩個(gè)合理的閾值1、2,從而對(duì)語(yǔ)音信號(hào)進(jìn)行端點(diǎn)檢測(cè)。經(jīng)過(guò)大量的實(shí)驗(yàn)比較,本文選擇1為1.55,2為1.35。
圖 7 對(duì)數(shù)能量-自相關(guān)比法與對(duì)數(shù)能量-過(guò)零率比法
本次實(shí)驗(yàn)數(shù)據(jù)使用M-AUDIO公司的M-TRA-CK EGIHT音頻采集器完成,錄制背景為相對(duì)空曠安靜的天臺(tái),噪聲和語(yǔ)音在同樣的環(huán)境下進(jìn)行采集。噪聲采集使用了4種噪聲,分別為white、f16、volvo噪聲和腳步噪聲,語(yǔ)音和噪聲的采樣頻率均為8 kHz,采樣精度為16 bit。算法中對(duì)語(yǔ)音信號(hào)加漢明窗分幀處理,幀長(zhǎng)=256,幀移=64。
語(yǔ)音內(nèi)容為3個(gè)詞:“火災(zāi)”、“爆炸”、“搶劫”。由于本文研究的是低信噪比環(huán)境下的端點(diǎn)檢測(cè)算法,所以實(shí)驗(yàn)分別在信噪比為5 dB、0 dB、-5 dB的環(huán)境下進(jìn)行,同時(shí)針對(duì)實(shí)際環(huán)境中的各種場(chǎng)景,采用白噪聲、f16噪聲、volvo噪聲和室內(nèi)腳步聲4種環(huán)境噪聲進(jìn)行仿真。為驗(yàn)證本文算法的可行性,采用對(duì)數(shù)能量-過(guò)零率比法、對(duì)數(shù)能量-自相關(guān)峰值比法與本文的算法進(jìn)行對(duì)比。為方便起見,上述3種算法分別簡(jiǎn)稱為能-零比法、能-峰比法及本文算法。
圖8~10分別為信噪比在5 dB、0 dB、-5dB的高斯白噪聲環(huán)境下的檢測(cè)結(jié)果。由圖8可以看出,在信噪比相對(duì)較高的高斯白噪聲環(huán)境下,3種算法都有不錯(cuò)的檢測(cè)效果。從圖8~10綜合來(lái)看,在白噪聲的環(huán)境下,當(dāng)信噪比降到0 dB時(shí),能量與過(guò)零率比值法已經(jīng)有部分幅值較小的語(yǔ)音無(wú)法檢測(cè)出來(lái);當(dāng)信噪比降到-5 dB時(shí),能-峰比法也開始出現(xiàn)嚴(yán)重誤判,但是本文算法依然能很好地檢測(cè)出語(yǔ)音端點(diǎn)。同時(shí),從圖8~10三幅圖中不難發(fā)現(xiàn),在說(shuō)話起始的輕聲和尾音的檢測(cè)中,本文算法在低信噪比環(huán)境下都沒有讓其被噪聲淹沒,仍然能在不改變門限閾值的情況下較好地完成檢測(cè)。
圖9 信噪比為0 dB的白噪聲環(huán)境下的端點(diǎn)檢測(cè)
圖10 信噪比為-5 dB的白噪聲環(huán)境下的端點(diǎn)檢測(cè)
由于白噪聲的功率譜密度在整個(gè)頻域內(nèi)均勻分布而具有平坦功率譜的特性,所以與實(shí)際生活中常見的具有隨機(jī)性的非平穩(wěn)有色噪聲有著一定的差異,不具備普遍性。針對(duì)這一問(wèn)題,本實(shí)驗(yàn)對(duì)生活環(huán)境下的f16噪聲和volvo噪聲進(jìn)行了模擬。圖11~13、圖14~16分別為f16噪聲和volvo噪聲環(huán)境下3種算法的對(duì)比效果??紤]到上述噪聲具有一定的特性,從波形來(lái)看有相關(guān)的規(guī)律,同時(shí)為了驗(yàn)證本文算法的適用性,圖17~19將室內(nèi)環(huán)境下突發(fā)的腳步聲作為噪聲源進(jìn)行仿真。
由圖11~16中可以發(fā)現(xiàn),在低信噪比的有色噪聲環(huán)境下,能-零比值法的圖形并沒有在白噪聲環(huán)境下平緩有辨識(shí)度,在f16噪聲環(huán)境下尚能取得一定的檢測(cè)效果,但是在volvo噪聲環(huán)境下已經(jīng)出現(xiàn)比較嚴(yán)重的偏差;能-峰比法的檢測(cè)效果略好于能-零法,但是在強(qiáng)噪聲環(huán)境下,也有重大的誤判現(xiàn)象;本文提出的經(jīng)過(guò)調(diào)制域譜減后的能-峰比法則無(wú)論是在f16噪聲還是volvo噪聲環(huán)境下,都表現(xiàn)出良好的端點(diǎn)檢測(cè)質(zhì)量。
圖11 信噪比為5 dB的f16噪聲環(huán)境下的端點(diǎn)檢測(cè)
圖14 信噪比為5 dB的volvo噪聲環(huán)境下的端點(diǎn)檢測(cè)
在室內(nèi)環(huán)境下,突發(fā)的腳步聲對(duì)端點(diǎn)檢測(cè)有較大的影響,如圖17~19所示。能-零比法和能-峰比法無(wú)法較好地分辨背景腳步聲和說(shuō)話聲,從而導(dǎo)致了誤判,而本文算法通過(guò)調(diào)制域譜減法對(duì)突發(fā)噪聲進(jìn)行了有效的消噪處理,加上合適的閾值選擇,減少了誤判提高了端點(diǎn)檢測(cè)質(zhì)量。
圖 18 信噪比為0 dB的腳步噪聲環(huán)境下的端點(diǎn)檢測(cè)
目前語(yǔ)音識(shí)別在智能手機(jī)、智能家電方面的應(yīng)用越來(lái)越廣泛,智能識(shí)別語(yǔ)音口令、提取關(guān)鍵詞等相關(guān)技術(shù)也逐漸成為研究重點(diǎn)。本文提出了一種將調(diào)制域譜減法與改進(jìn)的對(duì)數(shù)能量和自相關(guān)峰值比相結(jié)合的語(yǔ)音端點(diǎn)檢測(cè)算法。該方法首先使用調(diào)制域譜減法對(duì)低信噪比的含噪語(yǔ)音進(jìn)行處理,提高語(yǔ)音信噪比,再使用對(duì)數(shù)能量-自相關(guān)峰值比法做端點(diǎn)檢測(cè)。
實(shí)驗(yàn)證明,本文算法在低信噪比的環(huán)境下,無(wú)論是平穩(wěn)的白噪聲環(huán)境下還是非平穩(wěn)的有色噪聲環(huán)境下,都能取得較好的語(yǔ)音端點(diǎn)檢測(cè)效果。另一方面,本文算法的仿真圖形在低信噪比環(huán)境下依然能保持峰值明顯平緩,這表明該算法還有進(jìn)一步挖掘的空間。本文算法由于加入去噪過(guò)程,兩次短時(shí)傅里葉變換增加了算法的復(fù)雜度,運(yùn)行時(shí)間相較于一般的端點(diǎn)檢測(cè)算法要長(zhǎng)出不少。如何在保持算法準(zhǔn)確度的同時(shí)縮短運(yùn)行時(shí)間是本文下一步的工作。
[1] 趙力. 語(yǔ)音信號(hào)處理[M]. 3版. 北京: 機(jī)械工業(yè)出版社, 2016.
ZHAO Li. Speech Signal Processing[M]. 3rd Edition. Beijing: China Machine Press, 2016.
[2] 韓立華, 王博, 段淑鳳. 語(yǔ)音端點(diǎn)檢測(cè)技術(shù)研究進(jìn)展[J]. 計(jì)算機(jī)應(yīng)用研究, 2010, 27(4): 1220-1226.
HAN Lihua, WANG Bo, DUAN Shufeng. Development of voice activity detection technology[J]. Application Research of Computers, 27(4): 1220-1226.
[3] LI J, ZHOU P, JING X, et al. Speech endpoint detection method based on TEO in noisy environment[J]. Procedia Engineering, 2012, 29(4): 2655-2660.
[4] 路青起, 白燕燕. 基于雙門限兩級(jí)判決的語(yǔ)音端點(diǎn)檢測(cè)方法[J]. 電子科技, 2012, 25(1): 13-15, 19.
LU Qingqi,BAI Yanyan. A speech endpoint detection algorithm based on dual-threshold two sentences[J]. Electronic Science and Technology, 2012, 25(1): 13-15, 19.
[5] JIE L I, YOU D. Enhanced speech based jointly statistical probability distribution function for voice activity detection[J]. Chinese Journal of Electronics, 2017, 26(2): 325-330.
[6] Ghiselli Crippa T. A fast neural net training algorithm and its application to voiced-unvoiced-silence classification of speech[C]// Proc. Int. Conf. Assp, 1991, 1: 441-444.
[7] 劉華平, 李昕, 徐柏齡, 等. 語(yǔ)音信號(hào)端點(diǎn)檢測(cè)方法綜述及展望[J]. 計(jì)算機(jī)應(yīng)用研究, 2008, 25(8): 2278-2283.
LIU Huaping, LI Xin, XU Boling, et al. Summary and survey of endpoint detection algorithm forspeech signals[J]. Application Research of Computers, 2008, 25(8): 2278-2283.
[8] WU G D, HUANG P H. A maximizing-discriminability-based self-organizing fuzzy network for classification problems[J]. IEEE Transactions on Fuzzy Systems, 2010, 18(2): 362-373.
[9] WU G D, HUANG P H. A vectorization-optimization-method-ba- sed type-2 fuzzy neural network for noisy data classification[J]. IEEE Transactions on Fuzzy Systems, 2013, 21(1): 1-15.
[10] AGHAJANI K, MANZURI M T, KARAMI M, et al. A robust voice activity detection based on wavelet transform[C]//Internation- al Conference on Electrical Engineering. IEEE, 2008: 1-5.
[11] 李樂(lè), 王玉英, 李小霞. 一種改進(jìn)的小波能量熵語(yǔ)音端點(diǎn)檢測(cè)算法[J]. 計(jì)算機(jī)工程, 2017, 43(5): 268-274.
LI Le, WANG Yuying,LI Xiaoxia. An improved wavelet energy entropy algorithm for speech endpoint detection[J]. Computer Engineering, 2017, 43(5): 268-274.
[12] PALIWAL K, WóJCICKI K, SCHWERIN B. Single-channel speech enhancement using spectral subtraction in the short-time modulation domain[J]. Speech Communication, 2010, 52(5): 450- 475.
[13] 周維權(quán). 調(diào)制域分析技術(shù)[J]. 電子信息對(duì)抗技術(shù), 1995(3): 38-43.
ZHOU Weiquan. Modulation domain analysis[J]. Electronic Information Warfare Technology, 1995(3): 38-43.
[14] 胡丹, 曾慶寧, 龍超. 調(diào)制域譜減法用于魯棒性語(yǔ)音識(shí)別[J]. 科學(xué)技術(shù)與工程, 2016, 16(4): 216-220.
HU Dan, ZENG Qingning, LONG Chao. Modulation Domain Spectral Subtraction for Robust Speech Recognition[J]. Science Technology and Engineering, 2016, 16(4): 216-220.
[15] SO S, PALIWAL K K. Modulation-domain kalman filtering for single-channel speech enhancement[J]. Speech Communication, 2011, 53(6): 818-829.
[16] 陳紫強(qiáng), 李欣陽(yáng), 謝躍雷. 結(jié)合相位譜補(bǔ)償?shù)恼{(diào)制域譜減法[J]. 信號(hào)處理, 2015, 31(4): 468-473.
CHEN Ziqiang, LI Xinyang, XIE Yuelei. Modulation domain spectral subtraction combined with phase spectrum compensation[J]. Journal of Signal Processing, 2015, 31(4): 468-473.
[17] 劉淑華, 胡強(qiáng), 覃團(tuán)發(fā), 等. 基于自相關(guān)函數(shù)最大值的語(yǔ)音端點(diǎn)檢測(cè)方法[J]. 電聲技術(shù), 2006(12): 47-50.
LIU Shuhua, HU Qiang, QIN Tuanfa, et al. A method of the voice endpoint detection based on maximum of autocorrelation function[J]. Audio Engineering, 2006(12): 47-50.
[18] VARY P, HEUTE U, HESS W F. Digital speech signal processing [M]. New York, USA: John Wiley & Sons, 2004.
[19] 陳澤偉, 曾慶寧, 謝先明, 等. 基于自相關(guān)函數(shù)的語(yǔ)音端點(diǎn)檢測(cè)方法[J]. 計(jì)算機(jī)工程與應(yīng)用, 2018, 54(6): 216-221, 256.
CHEN Zewei, ZENG Qingning, XIE Xianming, et al. Speech endpoint detection method based on the auto-correlation function[J]. Computer Engineering and Applications, 2018, 54(6): 216-221, 256.
[20] 孫戰(zhàn)先, 儲(chǔ)飛黃, 王江. 一種自適應(yīng)語(yǔ)音端點(diǎn)檢測(cè)算法[J]. 計(jì)算機(jī)工程與應(yīng)用, 2014, 50(1): 206-210.
SUN Zhanxian, CHU Feihuang, WANG Jiang. Self-adaptive algorithm of voice endpoint detection[J]. Computer Engineering and Applications, 2014, 50(1): 206-210.
An improved speech endpoint detection method under low SNR
WANG Yao,ZENG Qing-ning, LONG Chao, XIE Xian-ming, MAO Wei
(Key Laboratory of Cognitive Radio and Information Processing of Ministry of Education,Guilin University of Electronic Technology,Guilin 541004,Guangxi,China)
In this paper, a new approach combining the spectral subtraction in modulation (time-frequency)domain and the post processing for the autocorrelation functions of signal and noise is proposed to improve the performance of speech endpoint detection in low SNR environment. Firstly, the modified spectral subtraction used in modulation domain reduces the noise to increase SNR. Then, according to the feature we figure out that a quite difference in the ratio of maximum to secondary value of the peak of autocorrelation function exists between speech and noise, a method based on logarithmic energy and autocorrelation function is used for endpoint detection of the speech after denoising. Experiments show that the proposed method achieves a high performance and good robustness of speech endpoint detection under low SNR.
low SNR; modulation domain; autocorrelation function; logarithmic energy; endpoint detection
TN912.35
A
1000-3630(2018)-05-0457-11
10.16300/j.cnki.1000-3630.2018.05.010
2017-07-18;
2017-09-18
國(guó)家自然科學(xué)基金(61461011)、“認(rèn)知無(wú)線電與信息處理”教育部重點(diǎn)實(shí)驗(yàn)室2016年主任基金(CRKL160107)、廣西自然科學(xué)基金重點(diǎn)項(xiàng)目(2016GXNSFDA380014)
王瑤(1993-), 女, 江蘇南京人, 碩士研究生, 研究方向?yàn)檎Z(yǔ)音信號(hào)處理。
龍超, E-mail: bishe006@163.com