亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

低信噪比環(huán)境下語音識(shí)別的魯棒性方法研究

2020-01-19 05:35:52劉偉波曾慶寧羅瀛鄭展恒

聲學(xué)技術(shù) 2019年6期

關(guān)鍵詞：麥克風(fēng)時(shí)頻識(shí)別率

劉偉波，曾慶寧，羅瀛，鄭展恒

劉偉波，曾慶寧，羅瀛，鄭展恒

(桂林電子科技大學(xué)信息與通信學(xué)院，廣西桂林 541004)

針對(duì)噪聲環(huán)境下語音識(shí)別率急劇下降的問題，提出了一種基于語音時(shí)頻域稀疏性原理的改進(jìn)最小方差無畸變響應(yīng)波束形成與改進(jìn)維納濾波結(jié)合的算法。該算法首先利用麥克風(fēng)陣列語音信號(hào)的空間信息，通過基于時(shí)頻掩蔽的改進(jìn)最小方差無畸變響應(yīng)波束形成器，增強(qiáng)目標(biāo)聲源方向的語音信號(hào)，抑制其他方向噪聲的干擾，然后再使用改進(jìn)的維納濾波器去除殘留噪聲并提高語音可懂度，對(duì)增強(qiáng)后的語音信號(hào)提取梅爾頻率倒譜系數(shù)作為特征參數(shù)，使用隱馬爾可夫模型搭建語音識(shí)別系統(tǒng)。實(shí)驗(yàn)結(jié)果表明，該方法能夠有效提高低信噪比環(huán)境下的語音識(shí)別率，具有較好的魯棒性。

時(shí)頻掩蔽；最小方差無畸變響應(yīng)；改進(jìn)維納濾波；語音識(shí)別

0 引言

語音識(shí)別技術(shù)是模式識(shí)別的一個(gè)分支，主要目的是讓機(jī)器理解人類口述語言的內(nèi)容，從而進(jìn)行人機(jī)交互，涉及到包括信號(hào)處理、模式識(shí)別、發(fā)聲和聽覺機(jī)理在內(nèi)的多個(gè)領(lǐng)域。近年來，語音識(shí)別技術(shù)取得了顯著的進(jìn)步，逐步從理論研究走向市場(chǎng)應(yīng)用，廣泛應(yīng)用于工業(yè)、家庭服務(wù)、醫(yī)療等各個(gè)領(lǐng)域[1]。

目前應(yīng)用較為廣泛的語音識(shí)別方法主要有動(dòng)態(tài)時(shí)間規(guī)整(Dynamic Time Warping, DTW)、隱馬爾可夫模型(Hidden Markov Model, HMM)和深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network, DNN)等[2]。在這些識(shí)別系統(tǒng)中，一般是使用理想環(huán)境下采集的純凈語音訓(xùn)練模型，應(yīng)用在現(xiàn)實(shí)生活的實(shí)際場(chǎng)景中。但是在實(shí)際場(chǎng)景下，人的語音不可避免地受到周圍環(huán)境噪聲或干擾的影響，導(dǎo)致語音識(shí)別率急劇下降。近年來，如何提高噪聲環(huán)境下語音的識(shí)別率是現(xiàn)階段研究人員關(guān)注的焦點(diǎn)問題。為解決噪聲干擾問題、提高語音可懂度和語音識(shí)別率，研究人員提出了多種方法，如譜減法、基于維納濾波(Wiener Filter, WF)的方法、子空間分解法等[3]。這些算法雖然在一定程度上能夠有效去除噪聲，但同時(shí)也不同程度地產(chǎn)生語音畸變，導(dǎo)致增強(qiáng)后語音的識(shí)別率并沒有得到明顯的改善，而多通道麥克風(fēng)陣列算法與單通道語音增強(qiáng)算法相比，能更好地提取目標(biāo)方向語音的方位信息并抑制干擾，進(jìn)而提高語音信號(hào)的可懂度。較為常見的多通道處理方法有固定波束形成，廣義旁瓣抵消(Generalized Sidelobe Canceller, GSC)，相干濾波(Coherence Filter, CF)等。曾慶寧等[4]提出了基于子帶譜減與廣義旁瓣抵消的算法，該算法提高了語音通信系統(tǒng)在噪聲環(huán)境下的性能。ZHANG等[5]提出了一種基于深度神經(jīng)網(wǎng)絡(luò)的麥克風(fēng)陣列降噪算法，有效地提高了真實(shí)噪聲環(huán)境下的語音識(shí)別率。方義等[6]提出了一種抑制方向性噪聲的雙耳近場(chǎng)語音增強(qiáng)算法，該算法利用雙耳時(shí)間差和聲級(jí)差，在有效去除噪聲、提高語音可懂度的同時(shí)，保留了目標(biāo)語音的空間信息。

為進(jìn)一步提高噪聲環(huán)境下語音識(shí)別系統(tǒng)的識(shí)別率，本文使用聲學(xué)人工頭采集四通道麥克風(fēng)陣列的語音信號(hào)。首先利用基于時(shí)頻掩蔽的改進(jìn)最小方差無畸變響應(yīng)(Time Frequency Masking Minimum Variance Distortionless Response, TFMVDR)波束形成器增強(qiáng)目標(biāo)聲源方向的語音信號(hào)，抑制其它方向的干擾。然后再通過改進(jìn)維納濾波(Modify Wiener Filter, MWF)，去除波束形成后的噪聲殘留并提高語音的可懂度，實(shí)驗(yàn)結(jié)果表明，本文提出的TFMVDR- MWF算法對(duì)低信噪比環(huán)境下的語音，能夠有效提高其可懂度，并且能夠提升噪聲環(huán)境下的語音識(shí)別率。

1 基于時(shí)頻掩蔽的MVDR波束形成器

MVDR波束形成器是由Capon首先提出的一種自適應(yīng)麥克風(fēng)陣列波束形成器，是典型的約束最佳波束形成技術(shù)[7]。該波束形成器的原理是依據(jù)一定的優(yōu)化準(zhǔn)則，使目標(biāo)聲源信號(hào)在一定的約束條件下無失真地輸出，以達(dá)到使輸出噪聲方差最小，能夠有效抑制噪聲和降低干擾的目的。

時(shí)頻掩蔽作為一種新的對(duì)混合信號(hào)進(jìn)行盲源分離的算法而受到廣泛關(guān)注，主要應(yīng)用在語音增強(qiáng)、語音分離等領(lǐng)域。其利用語音信號(hào)在時(shí)頻域的近似稀疏性原理[8]，可以直接將語音時(shí)頻分量分解成各個(gè)源信號(hào)，在每個(gè)時(shí)頻點(diǎn)的混合信號(hào)可看做單個(gè)源信號(hào)的混合，即在每個(gè)時(shí)頻點(diǎn)至多有一個(gè)活躍的源信號(hào)。在短時(shí)傅立葉變換域，含噪語音信號(hào)可以看做是多個(gè)信號(hào)的混合，其中語音信號(hào)的能量要遠(yuǎn)大于其它噪聲信號(hào)的能量。本文利用語音信號(hào)這種在時(shí)頻域的稀疏性原理[9]，通過基于時(shí)頻掩蔽的改進(jìn)MVDR波束形成器增強(qiáng)目標(biāo)聲源方向的語音信號(hào)，能夠有效抑制噪聲干擾，其由三個(gè)部分組成，包括時(shí)頻掩蔽估計(jì)、導(dǎo)向矢量估計(jì)與波束形成，如圖1所示。

圖1 基于時(shí)頻掩蔽的MVDR波束形成器

1.1 波束形成

麥克風(fēng)采集到的含噪麥克風(fēng)陣列語音信號(hào)模型可表示為

1.2 時(shí)頻掩蔽估計(jì)

考慮到語音信號(hào)在時(shí)頻域的稀疏性，每個(gè)時(shí)頻點(diǎn)的語音信號(hào)可以通過聚類方法分為兩類[11]：一類是含噪語音信號(hào)，另一類是噪聲信號(hào)，在這種假設(shè)情況下，陣元接收到的語音信號(hào)可以改寫為

2 改進(jìn)維納濾波

式中，為修正系數(shù)，取值范圍為(0,1)，本文中取=0.2。對(duì)于幅度譜畸變大于6.02 dB的語音畸變區(qū)域進(jìn)行限制：

式中，為限制系數(shù)，取值范圍為(0,1)，本文取0.8。對(duì)修正后的語音幅度譜進(jìn)行逆傅里葉逆變換即得到最終增強(qiáng)后的語音[12]。

3 語音識(shí)別

本文采用基于高斯混合模型的隱馬爾可夫模型進(jìn)行語音識(shí)別系統(tǒng)的搭建，使用經(jīng)TFMVDR- MWF算法增強(qiáng)后的語音提取梅爾頻率倒譜系數(shù)(Mel-Frequency Cepstral Coefficients, MFCC)作為聲學(xué)特征，通過Viterbi解碼匹配最佳狀態(tài)序列從而得到識(shí)別結(jié)果[1]。考慮本文實(shí)驗(yàn)使用的語音庫的特點(diǎn)，采用適用于非特定人語音識(shí)別的連續(xù)混合密度隱馬爾可夫模型(Continuous Mixture Densities Hidden Markov Model, CMHMM)訓(xùn)練語音模型。

3.1 梅爾頻率倒譜系數(shù)(MFCC)

圖2 MFCC參數(shù)提取過程

3.2 隱馬爾可夫模型(Hidden Markov Model, HMM)

本文采用從左向右單向、帶自環(huán)、帶跨越的拓?fù)浣Y(jié)構(gòu)進(jìn)行建模，該結(jié)構(gòu)對(duì)于非特定人語音識(shí)別具有較好的識(shí)別效果。

4 實(shí)驗(yàn)與分析

本文中的實(shí)驗(yàn)數(shù)據(jù)在安靜、開放的實(shí)驗(yàn)室環(huán)境下，使用KEMAR人工頭設(shè)備以及M-Audio多路音頻采集器采集。研究表明，模擬人體頭部的雙耳特征采用四元麥克風(fēng)陣列結(jié)構(gòu)，左右兩邊分別放置兩個(gè)微型麥克風(fēng)構(gòu)成兩個(gè)子陣列，能夠充分利用其中既有距離較遠(yuǎn)又有距離很近的麥克風(fēng)的特點(diǎn)，更好地提取目標(biāo)聲源信號(hào)的空間方位信息，抑制其他方向的噪聲干擾[15]。本文采用左右各兩個(gè)微型麥克風(fēng)的四元麥克風(fēng)陣列，每個(gè)子陣列中的兩個(gè)微型麥克風(fēng)的間距為2 cm，兩個(gè)子陣的間距為16 cm，采集過程中，說話人位于雙耳陣列結(jié)構(gòu)中心線上正前方1～1.5 m處，噪聲源位于除說話人方向外的任意方向[18]。本文實(shí)驗(yàn)數(shù)據(jù)共有24人參與錄制，其中男18人，女6人，錄制的語音數(shù)據(jù)的內(nèi)容分別為：火災(zāi)、爆炸、搶劫、盜竊、中毒、溺水、暈倒、救命、危險(xiǎn)、受傷、救護(hù)車、消防車，每條語句的長(zhǎng)度在0.5～1.5 s之間，每人讀取兩遍，共576條語句[14]。抽取14人的語音作為訓(xùn)練樣本訓(xùn)練語音模型，另外10人的語音作為測(cè)試集。噪聲選用四種常見噪聲，分別為white噪聲、babble噪聲、pink噪聲和volvo噪聲。語音與噪聲采樣頻率為44.1 kHz，實(shí)驗(yàn)仿真時(shí)統(tǒng)一降采樣至16 kHz，采樣精度為16 bit，實(shí)驗(yàn)階段采用Hamming窗，幀長(zhǎng)為512點(diǎn)，幀移為256點(diǎn)。本文采用的特征參數(shù)為每幀包括12維梅爾頻率倒譜系數(shù)及其一階差分共24維的特征向量，模型采用包含4個(gè)狀態(tài)，每個(gè)狀態(tài)包含3個(gè)高斯概率密度函數(shù)的連續(xù)混合密度HMM模型。

4.1 實(shí)驗(yàn)一

為驗(yàn)證本文提出的TFMVDR-MWF算法對(duì)噪聲環(huán)境下語音可懂度的提升效果，實(shí)驗(yàn)采用GSC、CF-MVDR、CF-MVDR-MWF[14]以及本文提出的TFMVDR- MWF算法對(duì)噪聲的抑制效果進(jìn)行對(duì)比實(shí)驗(yàn)。表1列出了一段語音在white噪聲環(huán)境下且不同信噪比的主觀語音質(zhì)量評(píng)估(Perceptua Evaluation of Speech Quality, PESQ)得分[3](精確至小數(shù)點(diǎn)后兩位)。

表1 white噪聲環(huán)境下不同信噪比的PESQ得分

由表1可知，相比三種對(duì)比算法，本文提出的TFMVDR-MWF算法的PESQ值提升較為明顯。這表明其能夠有效去除噪聲，提高語音的可懂度，尤其在低信噪比環(huán)境下表現(xiàn)良好，因此可應(yīng)用于語音識(shí)別系統(tǒng)前端對(duì)語音進(jìn)行去噪處理，進(jìn)而提升語音識(shí)別的準(zhǔn)確率。

圖3、4分別為對(duì)測(cè)試的一段語音在加入white噪聲且信噪比為0的環(huán)境下進(jìn)行對(duì)比試驗(yàn)得到的語音信號(hào)增強(qiáng)后的時(shí)域仿真圖與語譜圖?？梢钥闯?，圖3(c)中CF-MVDR算法與圖3(d) 中GSC算法處理后依然有較多的噪聲殘留和毛刺產(chǎn)生，而圖3(e)中CF-MVDR-MWF算法有輕微噪聲殘留，但是經(jīng)人耳試聽明顯感覺語音畸變嚴(yán)重，這在實(shí)際場(chǎng)景中是難以接受的；由圖3(f)可以看出，經(jīng)TFMVDR- MWF處理后含噪語音中的噪聲得到明顯消除。由圖4(f)語譜圖可以看出經(jīng)TFMVDR-MWF處理后語音的可懂度得到提升，有輕微畸變，但經(jīng)多人主觀試聽，在人耳可以接受的范圍內(nèi)。經(jīng)以上實(shí)驗(yàn)可知，本文提出的TFMVDR-MWF算法具有良好的去噪效果，特別在低信噪比環(huán)境下依然具有較高的魯棒性，適合應(yīng)用在實(shí)際場(chǎng)景下的語音識(shí)別任務(wù)中。

4.2 實(shí)驗(yàn)二

本文語音識(shí)別實(shí)驗(yàn)中，采用由兩個(gè)子陣列構(gòu)成的麥克風(fēng)陣列，在安靜的實(shí)驗(yàn)室環(huán)境下錄制語音庫，其中14人的語音(共336句)作為訓(xùn)練樣本，使用連續(xù)HMM聲學(xué)模型訓(xùn)練語音模型，實(shí)驗(yàn)中使用音庫(共240句)中，含噪語音信號(hào)信噪比分別為-5、0、5、10、15 dB。在連續(xù) HMM模型中，用概率密度函數(shù)來表示輸出概率，一般選擇用多個(gè)高斯概率分布的加權(quán)求和來表示輸出概率密度函數(shù)，本文采用從左向右單向、帶自環(huán)、帶跨越的拓?fù)浣Y(jié)構(gòu)進(jìn)行建模。

圖3 信噪比為0時(shí)的white噪聲環(huán)境下不同算法處理后的語音時(shí)域仿真圖

圖4 信噪比為0的white噪聲環(huán)境下不同算法處理后語音語譜圖

取自Noise-92庫的white噪聲、babble噪聲、pink噪聲與volvo噪聲等四種噪聲添加到待測(cè)試語為驗(yàn)證本文TFMVDR-MWF算法對(duì)噪聲環(huán)境下語音識(shí)別的提升效果，采用3種算法做對(duì)比實(shí)驗(yàn)，分別為GSC、CF-MVDR、CF-MVDR-MWF。圖5分別為在white噪聲、babble噪聲、pink噪聲與volvo噪聲環(huán)境下經(jīng)4種算法增強(qiáng)后語音的識(shí)別率。通過圖5的對(duì)比試驗(yàn)結(jié)果可知，GSC算法對(duì)低信噪比環(huán)境下語音識(shí)別率的提升效果并不明顯，而CF-MVDR算法由于利用了麥克風(fēng)陣列的方位信息，取得了優(yōu)于GSC的效果；CF-MVDR-MWF算法相對(duì)于使用前兩種算法的識(shí)別率有明顯的提升，但是該算法的復(fù)雜度較高；本文的TFMVDR-MWF算法能夠準(zhǔn)確估計(jì)麥克風(fēng)陣列語音信號(hào)的導(dǎo)向矢量，充分利用了麥克風(fēng)陣列的方位信息，并對(duì)畸變較大的區(qū)域進(jìn)行修正，取得了較好的降噪效果，提升了語音的可懂度。在-5 dB white噪聲環(huán)境下的識(shí)別率提高到了60.3%，與CF-MVDR-MWF相比相對(duì)提升8.04%；在-5 dB pink噪聲環(huán)境下經(jīng)TFMVDR-MWF算法處理后語音的識(shí)別率提高到63.8%，與CF-MVDR-MWF相比相對(duì)提升了12.63%。實(shí)驗(yàn)表明，本文的TFMVDR-MWF算法取得了更好的效果，并且降低了算法復(fù)雜度。由于在實(shí)際場(chǎng)景中，white噪聲和pink噪聲的存在較為廣泛，其頻帶較寬而對(duì)語音識(shí)別率的影響較大，因此本文算法具有較高的使用價(jià)值，可應(yīng)用于家居型機(jī)器人、智能語音交互設(shè)備等方面。

圖5 不同背景噪聲環(huán)境下語音識(shí)別正確率

5 結(jié)論

為解決噪聲環(huán)境下語音識(shí)別率低的問題，本文提出了一種基于時(shí)頻掩蔽的改進(jìn)最小方差無畸變響應(yīng)波束形成與改進(jìn)維納濾波結(jié)合的算法。首先使用TFMVDR波束形成增強(qiáng)目標(biāo)聲源方向的語音信號(hào)，抑制其他方向的噪聲干擾，然后通過MWF對(duì)畸變較大的區(qū)域進(jìn)行修正，進(jìn)一步提高語音的可懂度。經(jīng)實(shí)驗(yàn)驗(yàn)證，該算法能夠有效提高噪聲環(huán)境下語音的可懂度，提升語音識(shí)別率，尤其在低信噪比環(huán)境下效果依然較為明顯，說明本文算法具有良好的魯棒性。

[1] 趙力. 語音信號(hào)處理[M]. 北京: 機(jī)械工業(yè)出版社, 2003.

ZHAO Li. Speech signal processing[M]. Beijing: Machinery Industry Press,2003.

[2] 王山海, 景新幸, 楊海燕. 基于深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的孤立詞語音識(shí)別的研究[J]. 計(jì)算機(jī)應(yīng)用研究, 2015, 32(8): 2289 -2291.

WANG Shanhai, JING Xinxing, YANG Haiyan. Study of isolated speech recognition based on deep learning neural network [J]. Application Research of Computers, 2015, 32(8): 2289-2291.

[3] LOIZOU P C. Speech enhancement: theory and practice[M]. Boca Raton: Crc Press, 2013.

[4] 曾慶寧, 肖強(qiáng), 王瑤, 等. 一種雙微陣列語音增強(qiáng)方法[J]. 電子與信息學(xué)報(bào), 2018, 40(5): 1187-1194.

ZENG Qingning, XIAO Qiang, WANG Yao, et al. A dual micro-array speech enhancement method[J]. Journal of Electronics & Information Technology, 2018, 40(5): 1187 -1194.

[5] ZHANG X L, WANG Z Q, WANG D L . A speech enhancement algorithm by iterating single- and multi-microphone processing and its application to robust ASR[C]//IEEE International Conference on Acoustics, Speech and Signal Processing. IEEE, 2017: 276-280.

[6] 方義, 馮海泓, 陳友元, 等. 一種抑制方向性噪聲的雙耳語音增強(qiáng)算法[J]. 聲學(xué)學(xué)報(bào), 2016, 41(6): 897-904.

FANG Yi, FENG Haihong, CHEN Youyuan, et al. A binaural speech enhancement algorithm that suppresses the directional noise[J]. Acta Acustica, 2016, 41(6): 897-904.

[7] CAPON J, GREENFIELD R J, KOLKER R J. Multidimensional maximum-like lihood processing of a large aperture seismic array. Proc. IEEE, 1967, 55(2): 192-211.

[8] 劉瑾. 基于盲源分離的語音增強(qiáng)方法研究[D]. 大連: 大連理工大學(xué), 2006.

LIU Jin. Study on blind source separation based speech enhancement methods[D]. Dalian: Dalian University of Technology, 2006.

[9] PENGCHENG M U, DAN L I, YIN Q Y, et al. Robust MVDR beamforming based on covariance matrix reconstruction[J]. Science China(Information Sciences), 2013, 56(4): 1-12.

[10] GOUDA A M, TAMAZIN M, KHEDR M. Robust automatic speech recognition system based on using adaptive time-frequency masking[C]//International Conference on Computer Engineering & Systems IEEE, 2017: 181-186.

[11] HIGUCHI T, ITO N, ARAKI S, et al. Online MVDR beamformer based on complex gaussian mixture model with spatial prior for noise robust ASR[J]. IEEE/ACM Transactions on Audio Speech & Language Processing, 2017, 25(4): 780-793.

[12] 郭利華, 馬建芬. 具有高可懂度的改進(jìn)的維納濾波的語音增強(qiáng)算法[J]. 計(jì)算機(jī)應(yīng)用與軟件, 2014, 31(11): 155- 157.

GUO Lihua, MA Jianfen. An improved wiener filtering speech enhancement algorithm with high intelligibility[J]. Computer Applications and Software, 2014, 31(11): 155-157.

[13] 王瑤, 曾慶寧, 龍超, 等. 低信噪比環(huán)境下語音端點(diǎn)檢測(cè)改進(jìn)方法[J]. 聲學(xué)技術(shù), 2018, 37(5): 55-65.

WANG Yao,ZENG Qingning, LONG Chao, et al. An improved speech endpoint detection method with low SNR[J]. Technical Acoustics, 2018, 37(5): 55-65.

[14] 王群, 曾慶寧, 鄭展恒. 低信噪比環(huán)境下的麥克風(fēng)陣列語音識(shí)別算法研究[J]. 科學(xué)技術(shù)與工程, 2017, 17(31): 101-107.

WANG Qun, ZENG Qingning, ZHENG Zhanheng. Speech recognition based on microphone array in low SNR[J]. Science Technology and Engineering, 2017, 17(31): 101-107.

[15] 宋知用. MATLAB在語音信號(hào)分析與合成中的應(yīng)用[M]. 北京: 北京航空航天大學(xué)出版社, 2013.

SONG Zhiyong. Application of MATLAB in speech signal analysis and synthesis[M]. Beijing: Beihang University Press, 2013.

[16] HIGUCHI T, ITO N, YOSHIOKA T, et al. Robust MVDR beamforming using time-frequency masks for online /offline ASR in noise[C]//IEEE International Conference on Acoustics, Speech and Signal Processing. IEEE, 2016: 5210-5214.

[17] 程小偉, 王健, 曾慶寧, 等. 噪聲環(huán)境下穩(wěn)健的說話人識(shí)別特征研究[J]. 聲學(xué)技術(shù), 2017, 36(5): 83-87.

CHENG Xiaowei, WANG Jian, ZENG Qingning, et al. A study of robust speaker recognition feature under noisy environment[J], Technical Acoustics, 2017, 36(5): 83-87.

[18] 毛維, 曾慶寧, 龍超. 雙微陣列語音增強(qiáng)算法在說話人識(shí)別中的應(yīng)用[J]. 聲學(xué)技術(shù), 2018, 37(3): 55-62.

MAO Wei, ZENG Qingning, LONG Chao. Application of dual-mini microphone array speech enhancment algorithm in speaker recognition[J]. Technical Acoustics, 2018, 37(3): 55-62.

Research on the robustness method of speech recognition in low SNR environment

LIU Wei-bo, ZENG Qing-ning, LUO Ying, ZHENG Zhan-heng

(School of Information and Communication, Guilin University of Electronic Technology, Guilin 541004, Guangxi, China)

Aiming at the sharp drop problem of speech recognition rate under noisy environment, an algorithm combining the improved minimum variance distortionless response beamforming and the improved Wiener filter based on time-frequency sparsity of speech is proposed in this paper. The algorithm first utilizes the spatial information of the microphone array speech signals to enhance the speech signal in the target sound source direction and to suppress the noise interference from other directions by the improved minimum variance distortionless response beamformer based on time-frequency masking, then uses an improved Wiener filter to remove residual noise and improve speech intelligibility. The mel-frequency cepstrum coefficients are extracted from the enhanced signal as characteristic parameters to build a speech recognition system of hidden Markov model. The experimental results show that the method proposed in this paper can effectively improve the speech recognition rate under low SNR environment and has strong robustness.

time-frequency masking; minimum variance distortionless response; modify wiener filter; speech recognition

TN912.34

1000-3630(2019)-06-0650-07

10.16300/j.cnki.1000-3630.2019.06.009

2018-05-16;

2018-07-18

國家自然科學(xué)基金項(xiàng)目(61461011)、“認(rèn)知無線電與信息處理”教育部重點(diǎn)實(shí)驗(yàn)室2016年主任基金(CRKL160107)、廣西自然科學(xué)重點(diǎn)基金(2016GXNSFDA380018)、桂林電子科技大學(xué)研究生科研創(chuàng)新項(xiàng)目(2017YJCX16、2017YJCX20)。

劉偉波(1991－), 男, 河南商丘人, 碩士研究生, 研究方向?yàn)檎Z音信號(hào)處理。

劉偉波,E-mail: wbl1975420119@yeah.net