亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        低信噪比環(huán)境下的語音識(shí)別方法研究

        2017-10-26 12:43:49王群曾慶寧謝先明鄭展恒
        聲學(xué)技術(shù) 2017年1期
        關(guān)鍵詞:畸變識(shí)別率信噪比

        王群,曾慶寧,謝先明,鄭展恒

        ?

        低信噪比環(huán)境下的語音識(shí)別方法研究

        王群,曾慶寧,謝先明,鄭展恒

        (桂林電子科技大學(xué)信息與通信學(xué)院,廣西桂林541004)

        單通道語音信號(hào)在信噪比較大的環(huán)境下經(jīng)過增強(qiáng)后再識(shí)別,能表現(xiàn)出較高的識(shí)別率。但是在低信噪比環(huán)境下,增強(qiáng)后語音信號(hào)的識(shí)別率急劇下降。針對(duì)此種情況,提出了一種用在識(shí)別系統(tǒng)前端的語音增強(qiáng)算法,該增強(qiáng)算法將采集到的帶噪語音信號(hào)先使用對(duì)數(shù)最小均方誤差(Logarithmic Minimum Mean Square Error,LogMMSE)提高其信噪比,然后再利用改進(jìn)的維納濾波去除噪聲殘留并提升語音可懂度,最后用梅爾頻率倒譜系數(shù)(Mel-Frequency Cepstral Coefficients,MFCC)和隱馬爾科夫模型(Hidden Markov Model,HMM)對(duì)增強(qiáng)后的語音信號(hào)做特征提取并識(shí)別。實(shí)驗(yàn)分析結(jié)果表明,該方法能有效地抑制背景噪聲并減少噪聲殘留,顯著提升低信噪比環(huán)境下語音識(shí)別的準(zhǔn)確性。

        語音增強(qiáng);低信噪比;改進(jìn)維納濾波;對(duì)數(shù)最小均方誤差算法;語音識(shí)別

        0 引言

        語音識(shí)別主要是指能夠讓機(jī)器聽懂人所說的話,即在特定或非特定環(huán)境下準(zhǔn)確識(shí)別出語音的內(nèi)容,并根據(jù)識(shí)別出的內(nèi)容去執(zhí)行相應(yīng)的操作。語音識(shí)別在車載導(dǎo)航、視頻監(jiān)控、網(wǎng)絡(luò)視訊等人機(jī)交互領(lǐng)域有著非常廣泛的應(yīng)用。例如視頻監(jiān)控往往存在較多盲區(qū),利用語音識(shí)別技術(shù)可有效識(shí)別出視頻盲區(qū)內(nèi)外的危險(xiǎn)語音信號(hào),對(duì)某些突發(fā)情況及時(shí)做出反應(yīng)。在識(shí)別系統(tǒng)中,一般是將理想環(huán)境下語音訓(xùn)練出的模型應(yīng)用于真實(shí)的含噪環(huán)境中。而在實(shí)際環(huán)境中,由于背景噪聲的影響,含噪語音的識(shí)別率急劇下降,甚至還會(huì)出現(xiàn)無法工作的現(xiàn)象。近些年來,理想環(huán)境下的語音識(shí)別技術(shù)發(fā)展迅速,單通道語音識(shí)別技術(shù)在理想環(huán)境中已經(jīng)達(dá)到了較高的識(shí)別率。而在低信噪比環(huán)境下,如何提高語音識(shí)別率成為人們關(guān)注的焦點(diǎn)。近年來在語音識(shí)別抗噪方面很多人做了大量研究,例如譜減算法、維納(Wiener)濾波、最小均方誤差(Minimum Mean Square Error,MMSE)估計(jì)等[1]。這些算法雖然能有效地去除噪聲,但都會(huì)不同程度地產(chǎn)生失真或引入音樂噪聲,反而使增強(qiáng)后的語音識(shí)別率更低。這在低信噪比環(huán)境下更為明顯。近年來有人提出最小控制遞歸平均(Improve Minima Controlled Recursive Averaging,IMCRA)改進(jìn)噪聲估計(jì)的對(duì)數(shù)最小均方誤差(Logarithmic Minimum Mean Square Error,LogMMSE)算法[2]。該算法具有一定的增強(qiáng)效果,但計(jì)算量大,且識(shí)別效果并不突出。針對(duì)此種現(xiàn)象,本文通過在識(shí)別系統(tǒng)前端先采用基于對(duì)數(shù)最小均方誤差算法提高含噪語音信噪比,再使用改進(jìn)的(Wiener)濾波去除噪聲殘留并提升語音可懂度,從而提高語音識(shí)別率。

        1 語音增強(qiáng)

        1.1 譜減算法

        譜減算法[3]的基本原理為假設(shè)信號(hào)是不相關(guān)的加性噪聲,通過快速傅里葉變換(Fast Fourier Transformation,F(xiàn)FT),從含噪語音中減去噪聲短時(shí)幅度譜,將計(jì)算所得純凈語音的短時(shí)幅度譜結(jié)合含噪語音的相位,再經(jīng)過快速傅里葉逆變換(Inverse Fast Fourier Transformation,IFFT),得到需要的純凈語音信號(hào),噪聲的短時(shí)幅度譜可以在語音的靜音段或者間隙進(jìn)行重估和更新?;究驁D如圖1所示。

        圖1 譜減法框圖

        1.2 對(duì)數(shù)最小均方誤差(LogMMSE)

        1.3 最小控制遞歸平均算法(IMCRA)

        第一次平滑由式(8)得到:

        第二次平滑如式(9)所示:

        最后得到條件概率估計(jì)值:

        1.4 改進(jìn)的Wiener濾波

        在Wiener濾波中用直接判決法估計(jì)先驗(yàn)信噪比會(huì)出現(xiàn)高估和低估的情況[8]。研究表明,在-10 dB以下的區(qū)域存在較多的高估,在放大畸變大于6.02 dB的區(qū)域存在較多的低估。高估和低估會(huì)導(dǎo)致語音信號(hào)增強(qiáng)效果不明顯或失真。所以,可以從兩方面對(duì)Wiener濾波器進(jìn)行改進(jìn)。

        首先分兩步來估計(jì)先驗(yàn)信噪比,第一步估計(jì)為式(13),在(13)基礎(chǔ)上進(jìn)行第二部估計(jì):

        對(duì)于在-10 dB以下的區(qū)域,人工引入偏差值修改正增益函數(shù),修正后可表示為

        文獻(xiàn)[9]中指出放大畸變大于6.02 dB時(shí),有:

        所以有:

        對(duì)增強(qiáng)后的語音幅度譜放大畸變大于6.02 dB的語音進(jìn)行限制:

        本文采用對(duì)數(shù)最小均方誤差(LogMMSE)和改進(jìn)Wiener濾波串聯(lián)形式對(duì)帶噪語音進(jìn)行增強(qiáng)處理。先經(jīng)過LogMMSE提高帶噪語音信噪比,再用改進(jìn)Wiener濾波去除噪聲殘留,同時(shí)還對(duì)容易產(chǎn)生畸變失真的區(qū)域進(jìn)行增益補(bǔ)償,最大限度地減小因去噪所造成的信號(hào)失真,以此提升識(shí)別率。

        圖2為L(zhǎng)ogMMSE和改進(jìn)Wiener在0 dB、白噪聲環(huán)境下級(jí)聯(lián)方式的對(duì)比分析。其中圖2(a)為純凈語音信號(hào);圖2(b)為L(zhǎng)ogMMSE去噪效果;圖2(c)為改進(jìn)Wiener去噪效果;圖2(d)為先經(jīng)過改進(jìn)Wiener后使用LogMMSE去噪效果;圖2(e)為本文所使用方式的去噪效果。從圖2中可以看出,采用LogMMSE+改進(jìn)Wiener的級(jí)聯(lián)方式去噪效果最佳。從圖2(b)、2(c)圖中可以看出LogMMSE相比于改進(jìn)Wiener在低信噪比有更好的去噪效果,產(chǎn)生毛刺較少。這樣先經(jīng)過LogMMSE處理后再使用改進(jìn)Wiener去除噪聲殘留效果更為明顯。若采用前置改進(jìn)Wiener先對(duì)信號(hào)做去噪處理,這樣得到的信號(hào)噪聲殘留較大,即使最后再使用LogMMSE去噪并不能達(dá)到理想去噪效果。所以本文采用LogMMSE后置改進(jìn)Wiener濾波的級(jí)聯(lián)方式。

        (a) 純凈語音

        (b) LogMMSE去噪

        (c) 改進(jìn)Wiener去噪

        (d) 改進(jìn)Wiener+LogMMSE

        (e) LogMMSE+改進(jìn)Wiener

        2 語音識(shí)別

        本文使用的識(shí)別系統(tǒng)為基于隱馬爾科夫模型(Hidden Markov Model,HMM)的非特定人語音識(shí)別。識(shí)別系統(tǒng)提取增強(qiáng)后語音的聲學(xué)特征,再通過維特比(Viterbi)算法解碼匹配到最佳狀態(tài)序列得到識(shí)別結(jié)果。該識(shí)別系統(tǒng)采用梅爾頻率倒譜系數(shù)(Mel-Frequency Cepstral Coefficients,MFCC)做特征提取,采用隱馬爾科夫(HMM)得到訓(xùn)練模型。

        2.1 梅爾倒譜系數(shù)(MFCC)

        2.2 隱馬爾科夫(HMM)

        圖3 HMM結(jié)構(gòu)

        3 仿真實(shí)驗(yàn)以及結(jié)果分析

        本次實(shí)驗(yàn)結(jié)合公共安防課題,解決傳統(tǒng)視頻監(jiān)控只能看不能聽的問題,利用語音識(shí)別技術(shù)對(duì)部分敏感詞匯進(jìn)行識(shí)別。數(shù)據(jù)使用M-AUFIO音頻采集器完成,錄制環(huán)境為相對(duì)安靜的樓頂天臺(tái)。噪聲和語音分別在同樣的環(huán)境下采集。本實(shí)驗(yàn)由20位同學(xué)參與錄制,有13位男生和7位女生。其中隨機(jī)抽取10人的語音(400條)作為訓(xùn)練樣本,另外10人的語音(240條)做測(cè)試用。每人分別錄制12個(gè)敏感詞匯:火災(zāi)、爆炸、搶劫、盜竊、中毒、溺水、暈倒、危險(xiǎn)、救命、受傷、救護(hù)車、消防車。噪聲采集使用三種,分別為白噪聲、F16和volvo噪聲,本文語音和噪聲的實(shí)驗(yàn)設(shè)備采樣頻率均為44.1 kHz,采樣精度為32 bit。在實(shí)際仿真中經(jīng)過了降采樣處理,采樣率為16 kHz,幀長(zhǎng)為512,幀移是256,窗函數(shù)為Hamming窗。特征參數(shù)采用12維的梅爾倒譜系數(shù),選用連續(xù)混合密度HMM,模型結(jié)構(gòu)如圖3所示,它包含4個(gè)狀態(tài),每狀態(tài)含有3個(gè)高斯概率密度函數(shù)。為了驗(yàn)證本文方法的可行性,選取以下三種方法做對(duì)比。分別為:譜減法、改進(jìn)Wiener濾波、LogMMSE-IMCRA。圖4為在F16噪聲干擾下各算法增強(qiáng)后時(shí)域仿真波形,選用的語音內(nèi)容為“救護(hù)車”,信噪比為0 dB。

        從圖4可以看出,譜減法增強(qiáng)效果并不理想。LogMMSE-IMCRA較改進(jìn)Wiener有更明顯的增強(qiáng)效果,但是兩者在時(shí)域波形上表現(xiàn)出較多的毛刺和噪聲殘留。本文所使用的增強(qiáng)方法效果明顯,雖然仍會(huì)產(chǎn)生部分失真,但在低信噪比的環(huán)境下是可以接受的。

        (a) 純凈語音

        (b) 加噪語音

        (c) 譜減增強(qiáng)

        (d) 改進(jìn)Wiener增強(qiáng)

        (e) LogMMSE-ICRMA增強(qiáng)

        (f) 本文算法增強(qiáng)

        圖4 F16噪聲環(huán)境下增強(qiáng)后的語音時(shí)域仿真圖

        Fig.4 The simulation diagrams of the speeches enhanced by different algorithms in F16 noise environment

        圖5為增強(qiáng)后的語譜圖,圖5中所列的語譜圖分別對(duì)應(yīng)圖4中的各時(shí)域仿真圖。從語譜圖來看,本文算法能更好地去除噪聲,減少語音畸變,信號(hào)能量在低頻段明顯,增強(qiáng)后與原始語音基本保持一致。

        圖6(a)、6(b)、6(c)分別是在白噪聲、F16和volvo噪聲環(huán)境下通過四種算法增強(qiáng)后的識(shí)別率。

        (a) 純凈語音

        (b) 加噪語音

        (c) 譜減增強(qiáng)

        (d) 改進(jìn)Wiener增強(qiáng)

        (e) LogMMSE-ICRMA增強(qiáng)

        (f) 本文算法增強(qiáng)

        圖5 F16噪聲環(huán)境下增強(qiáng)后語譜圖

        Fig.5 The spectrograms of the speeches enhanced by different algorithms in F16 noise environment

        (a) White噪聲識(shí)別率

        (b) F16噪聲識(shí)別率

        (c) volvo噪聲識(shí)別率

        從圖6中對(duì)比可以看到,譜減法表現(xiàn)出較低的識(shí)別率,這是由于譜減法在增強(qiáng)后引入音樂噪聲,使語音產(chǎn)生畸變從而降低識(shí)別率。改進(jìn)Wiener濾波比譜減法的識(shí)別率要高,是因?yàn)槠溆懈玫脑肼曇种菩ЧogMMSE-IMCRA算法通過準(zhǔn)確的噪聲估計(jì)來增強(qiáng)語音能有效提高識(shí)別率,但由于去噪后仍有較多噪聲殘留,識(shí)別率表現(xiàn)一般。使用本文算法增強(qiáng)后的識(shí)別率明顯提高,尤其在低信噪比環(huán)境下效果更為明顯。這是因?yàn)楸舅惴ú粌H對(duì)信號(hào)的增強(qiáng)去噪效果明顯,還針對(duì)語音信號(hào)消噪后容易產(chǎn)生畸變失真的區(qū)域,對(duì)其進(jìn)行增益補(bǔ)償,最大限度地減少語音失真以提高識(shí)別率。

        表1列舉了三種噪聲環(huán)境在-5dB環(huán)境下通過四種算法增強(qiáng)后的平均運(yùn)行時(shí)間,單位是秒(s)。四種算法的運(yùn)行環(huán)境均為在同一設(shè)備下運(yùn)行,實(shí)驗(yàn)仿真平臺(tái)為matlab2012(a),所使用的計(jì)算機(jī)CPU主頻為2.40×106kHz。從表1中可以看出,譜減法和改進(jìn)Wiener雖然運(yùn)行時(shí)間較短,但去噪效果并不明顯。LogMMSE-IMCRA由于引入了遞歸平均算法做噪聲估計(jì),所以運(yùn)行時(shí)間較長(zhǎng),而本文算法與其他算法相比在減少了運(yùn)算量的同時(shí)也達(dá)到了較好的去噪效果。

        表1 不同方法在-5 dB環(huán)境下語音增強(qiáng)的時(shí)間對(duì)比(s)

        表2列舉了白噪聲、F16和volvo噪聲在-5 dB環(huán)境下通過四種算法增強(qiáng)后的識(shí)別率??梢钥闯霰疚乃惴ㄔ趘olvo噪聲下相比較其他兩種噪聲表現(xiàn)出更高的識(shí)別效果,這是由于基于LogMMSE算法在提升語音可懂度方面相對(duì)于傳統(tǒng)增強(qiáng)算法在非平穩(wěn)噪聲中有更好的表現(xiàn)。而改進(jìn)的Wiener濾波又能有效降低語音畸變,進(jìn)一步提升語音可懂度。

        表2 不同方法在信噪比為-5 dB環(huán)境下語音增強(qiáng)后識(shí)別正確率對(duì)比(%)

        本文通過隨機(jī)抽取不同噪聲環(huán)境在-5 dB到5 dB的識(shí)別情況發(fā)現(xiàn),同一信噪比環(huán)境下的不同組,所識(shí)別不正確的單詞是不同的。也就是說低信噪比下識(shí)別錯(cuò)誤的單詞是隨機(jī)的。通過提取識(shí)別錯(cuò)誤的單詞發(fā)現(xiàn),其時(shí)域波形表現(xiàn)為仍有部分噪聲殘留或失真,所以導(dǎo)致識(shí)別錯(cuò)誤,這種情況隨著信噪比的提高而減小。另一種原因可能是有的參與錄制人員說話夾雜方言,在理想環(huán)境下可以有效識(shí)別,但經(jīng)過處理后識(shí)別效果下降。

        4 結(jié) 論

        針對(duì)低信噪比環(huán)境下識(shí)別率不高的問題。本文先用LogMMSE提高各通道信噪比,再利用改進(jìn)的Wiener濾波去除噪聲殘留并降低由于增強(qiáng)處理所導(dǎo)致的語音畸變,最后對(duì)增強(qiáng)后的信號(hào)進(jìn)行識(shí)別。實(shí)驗(yàn)表明本文方法相比較LogMMSE-IMCRA算法不僅取得了更好的識(shí)別效果,同時(shí)還減少了算法的計(jì)算量,而且更適用于低信噪比環(huán)境中。

        [1] Loizou P C. Speech enhancement: theory and practice[M]. The Chemical Rubber Company Press, 2013: 75-109.

        [2] 胡丹, 曾慶寧, 龍超, 等. 連續(xù)語音識(shí)別前端魯棒性研究[J]. 電視技術(shù), 2015, 39(24): 43-46. HU Dan, ZENG Qingning, LONG Chao, et al. Front-end robust study for continuous speech recognition[J]. Video Engineering, 2015, 39(24): 43-46.

        [3] 曹亮, 張?zhí)祢U, 高洪興, 等. 基于聽覺掩蔽效應(yīng)的多頻帶譜減語音增強(qiáng)方法[J]. 計(jì)算機(jī)工程與設(shè)計(jì), 2013, 34(1): 235-240. CAO Liang, ZHANG Tianqi, GAO Hongxing, et al. Multi-band spectral subtraction method for speech enhancement based on masking property of human auditory system[J]. Computer Engineering and Design, 2013, 34(1): 235-240.

        [4] Jose A Gonzalez, Antonio M Peinado, Ma N, et al. MMSE-Based missing-feature reconstruction with temporal modeling for robust speech recognition[J]. Audio Speech & Language Processing IEEE Transactions on, 2013, 21(3): 624-635.

        [5] Cohen I, Berdugo B. Speech enhancement for non-stationary noise environments[J]. Signal Processing, 2009, 81(11): 2403-2418.

        [6] 張東方, 蔣建中, 張連海. 一種改進(jìn)型IMCRA非平穩(wěn)噪聲估計(jì)算法[J]. 計(jì)算機(jī)工程, 2012, 38(13): 270-272. ZHANG Dongfang, JIANG Jianzhong, ZHANG Lianhai. Improved IMCRA non-stationary noise estimation algorithm[J]. Computer Engineering, 2012, 38(13): 270-272.

        [7] 張亮, 龔衛(wèi)國(guó). 一種改進(jìn)的(Wiener)濾波語音增強(qiáng)算法[J]. 計(jì)算機(jī)工程與應(yīng)用, 2010, 46(26): 129-131. ZHANG Liang, GONG Weiguo. Improve wiener filtering speech enhancement algorithm[J]. Computer Engineering and Applications, 2010, 46(26): 129-131.

        [8] Fei C, Loizou P C. Impact of SNR and gain-function over- and under-estimation on speech intelligibility[J]. Speech Communication, 2012, 54(2): 272-281.

        [9] 郭利華, 馬建芬. 具有高可懂度的改進(jìn)的(Wiener)濾波的語音增強(qiáng)算法[J]. 計(jì)算機(jī)應(yīng)用與軟件, 2014(11): 155-157. GUO Lihua, MA Jianfen. Animproved wiener filtering speech enhancement algorithm with high intelligibility[J]. Computer Applications and Software, 2014(11): 155-157.

        [10] 宋知用. MATLAB在語音信號(hào)分析與合成中的應(yīng)用[M]. 北京: 北京航空航天大學(xué)出版社, 2013. SONG Zhiyong. The application of MATLAB in speech signal analysis and synthesis[M]. Beijing: Beihang University Press, 2013.

        Research on speech recognition in low SNR environment

        WANG Qun, ZENG Qing-ning, XIE Xian-ming, ZHENG Zhan-heng

        (School of Information and Communication, Guilin University of Electronic Technology, Guilin 541004, Guangxi, China)

        The accuracy rate of single channel enhanced speech recognition in high SNR environment is acceptable, but not so in low SNR environment. In this case, speech enhancement based on logarithmic minimum mean square error (LogMMSE) algorithm and modified Wiener filter algorithm is presented. Firstly the gathered speech signals' SNR is improved by the LogMMSE algorithm. Then using the improved Wiener filter algorithm removes residual noise and improves the signal quality. Finally the enhanced speech is used for recognition by MFCC and HMM algorithms. Experimental results show that the proposed method can effectively remove the background noise and reduce the residual noise, significantly increase the accuracy of the automatic speech recognition in noisy environment.

        speech enhancement; low SNR; modified Wiener filter; LogMMSE algorithm; speech recognition

        TN912.34

        A

        1000-3630(2017)-01-0050-07

        10.16300/j.cnki.1000-3630.2017.01.010

        2016-07-20;

        2016-09-29

        國(guó)家自然科學(xué)基金(61461011)、教育部重點(diǎn)實(shí)驗(yàn)室2016年主任基金(CRKL160107)資助項(xiàng)目。

        王群(1990-), 男, 湖北隨州人, 碩士研究生, 研究方向?yàn)檎Z音信號(hào)增強(qiáng)、語音識(shí)別。

        鄭展恒, E-mail: glzzh@guet.edu.cn

        猜你喜歡
        畸變識(shí)別率信噪比
        基于類圖像處理與向量化的大數(shù)據(jù)腳本攻擊智能檢測(cè)
        基于深度學(xué)習(xí)的無人機(jī)數(shù)據(jù)鏈信噪比估計(jì)算法
        基于真耳分析的助聽器配戴者言語可懂度指數(shù)與言語識(shí)別率的關(guān)系
        低信噪比下LFMCW信號(hào)調(diào)頻參數(shù)估計(jì)
        提升高速公路MTC二次抓拍車牌識(shí)別率方案研究
        低信噪比下基于Hough變換的前視陣列SAR稀疏三維成像
        在Lightroom中校正鏡頭與透視畸變
        高速公路機(jī)電日常維護(hù)中車牌識(shí)別率分析系統(tǒng)的應(yīng)用
        保持信噪比的相位分解反褶積方法研究
        輻射誘導(dǎo)染色體畸變的快速FISH方法的建立
        公和我做好爽添厨房| 国内揄拍国内精品少妇国语| 无码AV高潮喷水无码专区线| 中文字幕成人乱码亚洲| 日韩精品一区二区三区乱码 | 婷婷丁香社区| 免费大学生国产在线观看p| 熟女一区二区国产精品| 成人内射国产免费观看| 中文字幕精品无码一区二区| 综合久久久久6亚洲综合| av免费一区二区久久 | 亚洲性啪啪无码av天堂| 亚洲国产A∨无码影院| 蜜桃av一区二区三区| 色欲色香天天天综合网www| 色八a级在线观看| 亚洲色图视频在线观看网站| 久久精品国产亚洲av豆腐| 中文字幕在线观看| 免费毛片a线观看| 欧美成aⅴ人高清免费| 日本视频一区二区二区| 国产精品主播在线一区二区| 97人妻碰碰视频免费上线| 久久频精品99香蕉国产| 久久亚洲国产高清av一级| 人妻激情偷乱视频一区二区三区| 无码专区天天躁天天躁在线| 无码久久精品蜜桃| 亚洲中文av中文字幕艳妇| 亚洲码国产精品高潮在线| 国产系列丝袜熟女精品视频| 性感的小蜜桃在线观看| 免费无码一区二区三区a片百度| 亚洲女人被黑人巨大进入| 岛国av一区二区三区| 一区二区三区人妻少妇| 中国丰满熟妇xxxx| 1234.com麻豆性爰爱影| 国产国拍精品亚洲av在线观看 |