張 勇,劉 軼
(1.北京大學(xué) 深圳研究院 深圳市智能媒體和語(yǔ)音重點(diǎn)實(shí)驗(yàn)室,廣東 深圳518057;2.深港產(chǎn)學(xué)研基地,廣東 深圳518057)
傳統(tǒng)的基于信號(hào)處理的語(yǔ)音增強(qiáng)方法在降噪的同時(shí)不可避免的會(huì)帶來(lái)語(yǔ)音失真和殘留噪聲[1,2],這也是一個(gè)一直困擾研究者的問(wèn)題。由于語(yǔ)音信號(hào)最后都要通過(guò)人耳所感知,而人耳有較強(qiáng)的抗噪性,如何利用人耳的掩蔽特性來(lái)提升語(yǔ)音增強(qiáng)算法的性能得到了國(guó)內(nèi)外學(xué)者的廣泛關(guān)注。
結(jié)合聽(tīng)覺(jué)掩蔽的語(yǔ)音增強(qiáng)并不是要將噪聲完全去除,而是通過(guò)處理將其能量降低到聽(tīng)覺(jué)掩蔽閾值以下使人耳無(wú)法察覺(jué),這樣也可以減小降噪處理帶來(lái)的語(yǔ)音失真。文獻(xiàn)[3,4]提出了基于掩蔽概率的改進(jìn)方法,其將輸入的帶噪語(yǔ)音按噪聲和語(yǔ)音之間的掩蔽關(guān)系分為不同的狀態(tài),每個(gè)狀態(tài)分別計(jì)算增益函數(shù)。然而,算法為了保留更多語(yǔ)音以及盡可能消除 “音樂(lè)噪聲”,殘留了比較多的背景噪聲,這些殘留噪聲降低了增強(qiáng)語(yǔ)音信號(hào)的主觀感知質(zhì)量。文獻(xiàn)[5-10]通過(guò)掩蔽閾值調(diào)節(jié)增益函數(shù)中的關(guān)鍵參數(shù),例如譜減參數(shù)[5-7]、先驗(yàn)信噪比[8]、小波閾值門限[9]、子空間噪聲特征值的抑制系數(shù)[10]等,實(shí)現(xiàn)基于感知的語(yǔ)音增強(qiáng)。上述算法不修改語(yǔ)音增強(qiáng)算法中的增益函數(shù),掩蔽閾值是一個(gè)相對(duì)控制量,算法通過(guò)掩蔽閾值的變化來(lái)調(diào)節(jié)關(guān)鍵參數(shù)進(jìn)而改變?cè)鲆婧瘮?shù)值。上述算法的缺點(diǎn)是掩蔽模型的處理不夠精細(xì),關(guān)鍵參數(shù)與掩蔽閾值通常無(wú)直接聯(lián)系,算法一般通過(guò)部分實(shí)驗(yàn)值或經(jīng)驗(yàn)值將兩者相關(guān)聯(lián),這會(huì)限制其應(yīng)用范圍,且為了減小語(yǔ)音失真,在增強(qiáng)后的語(yǔ)音信號(hào)中會(huì)殘留噪聲。
針對(duì)現(xiàn)有算法存在的問(wèn)題,本文提出了一種基于短時(shí)幅度譜估計(jì)和感知濾波相結(jié)合的兩級(jí)語(yǔ)音增強(qiáng)算法。算法將降噪和噪聲掩蔽分開(kāi)處理,首先利用短時(shí)幅度譜估計(jì)法對(duì)帶噪語(yǔ)音進(jìn)行降噪,然后利用人耳聽(tīng)覺(jué)掩蔽特性將降噪語(yǔ)音信號(hào)中的殘余噪聲掩蔽掉。實(shí)驗(yàn)結(jié)果表明,在各種非平穩(wěn)背景噪聲以及信噪比下,與傳統(tǒng)的語(yǔ)音增強(qiáng)算法相比,經(jīng)過(guò)本文算法處理的增強(qiáng)語(yǔ)音失真和殘余噪聲更小,極大提升了增強(qiáng)語(yǔ)音信號(hào)的主觀和客觀質(zhì)量。
圖1給出了本文算法的系統(tǒng)框架,帶噪語(yǔ)音首先經(jīng)過(guò)對(duì)數(shù)譜幅度最小均方誤差 (minimum mean-square error logspectral amplitude,MMSE-LSA)譜估計(jì)法增強(qiáng),第一級(jí)增強(qiáng)后的語(yǔ)音信號(hào)再通過(guò)第二級(jí)感知濾波去除第一級(jí)增強(qiáng)語(yǔ)音信號(hào)中的殘留噪聲,從而得到最終的增強(qiáng)語(yǔ)音。從圖1可知整個(gè)算法分為4個(gè)部分:MMSE-LSA 譜估計(jì)、噪聲估計(jì)、聽(tīng)覺(jué)掩蔽閾值計(jì)算和感知濾波。
圖1 語(yǔ)音增強(qiáng)算法系統(tǒng)框架
假設(shè)干凈語(yǔ)音信號(hào)為s(n),噪聲信號(hào)為d(n),帶噪語(yǔ)音信號(hào)為y(n),在只考慮加性噪聲的情況下可得
假設(shè)Y(k)、S(k)、D(k)分別為y(n)、s(n)、d(n)進(jìn)行FFT 變換后的第k個(gè)頻譜幅度分量,并且假定語(yǔ)音和噪聲統(tǒng)計(jì)獨(dú)立,則有
假定語(yǔ)音增強(qiáng)系統(tǒng)的譜增益函數(shù)為GH1(k),估計(jì)的干凈語(yǔ)音幅度譜為珟S(k),則有
由于人耳對(duì)頻譜強(qiáng)度的感受與幅度的對(duì)數(shù)成正比,相比于最小均方差 (minimum mean square error,MMSE)估計(jì)法[11],MMSE-LSA 估計(jì)法更符合人耳聽(tīng)覺(jué)特性,且能較好抑制噪聲,因此本文算法的第一級(jí)選擇MMSE-LSA 估計(jì)法。MMSE-LSA 估計(jì)法的譜增益函數(shù)GH1(k)定義為
式 (4)中ξ(k)為先驗(yàn)信噪比,再定義γ(k)為后驗(yàn)信噪比,則有
式 (5) 中λx(k)分別表示語(yǔ)音和噪聲第k 個(gè)譜分量功率的數(shù)學(xué)期望。
噪聲估計(jì)是語(yǔ)音增強(qiáng)算法中一個(gè)非常重要的部分。噪聲估計(jì)過(guò)高,則微弱語(yǔ)音將被去掉,增強(qiáng)語(yǔ)音會(huì)產(chǎn)生較大的失真;而估計(jì)過(guò)低,增強(qiáng)語(yǔ)音會(huì)殘留過(guò)多的背景噪聲。改進(jìn)的最小受控遞歸平均[12](improved minima controlled recursive average,IMCRA)能夠快速跟蹤非平穩(wěn)噪聲譜的突變,而且在信噪比較低時(shí)能防止弱語(yǔ)音段噪聲估計(jì)值的偏大。因此,在本算法中,噪聲估計(jì)選擇IMCRA 算法。
傳統(tǒng)心理聲學(xué)模型只適用于純凈語(yǔ)音輸入,因此,在計(jì)算掩蔽閾值前,需要對(duì)干凈語(yǔ)音進(jìn)行初估?,F(xiàn)有算法對(duì)干凈語(yǔ)音的初估通常采用功率譜減法,但是功率譜減法估計(jì)的干凈語(yǔ)音中通常含有較多的噪聲,其估計(jì)的掩蔽閾值不準(zhǔn)確。為了提升掩蔽閾值估計(jì)精度,本文結(jié)合兩步直接判決[13](two step direct decision,TSDD)法提出了一種新的掩蔽閾值估計(jì)方法。
文獻(xiàn) [13]中的增益函數(shù)GDD(k)定義如下
干凈語(yǔ)音初估步驟如下:
式中:k——頻譜系數(shù),l——幀數(shù),β=0.95為常數(shù)平滑因子,γpost(k,l)——后驗(yàn)信噪比。
上述步驟中式 (7)~式 (9)的推導(dǎo)過(guò)程可參考文獻(xiàn)[13]。得到改進(jìn)的譜增益函數(shù)GTSDD(k)后,將其與帶噪語(yǔ)音譜相乘可以得到干凈語(yǔ)音譜。得到上述干凈語(yǔ)音譜后,掩蔽閾值T(k)可根據(jù)Johnston模型計(jì)算得到。
假設(shè)經(jīng)過(guò)MMSE-LSA 處理后的第一級(jí)增強(qiáng)語(yǔ)音y′(n)表示為
式中:s(n)——純凈語(yǔ)音信號(hào),z(n)——經(jīng)過(guò)MMSELSA 處理后語(yǔ)音中的殘余噪聲,并且z(n)與s(n)不相關(guān)。
對(duì)信號(hào)做FFT 變換,對(duì)第k個(gè)短時(shí)幅度譜分量有
定義估計(jì)誤差E(k)
將式 (11)、式 (12)代入式 (13)可得
式 (14)右端由2部分組成,分別源于語(yǔ)音信號(hào)失真和殘差噪聲,分別用ES(k)和ER(k)表示,即
因?yàn)镚(k)≤1,容易看出,當(dāng)感知加權(quán)增益函數(shù)G(k)變化時(shí),ES(k)和ER(k)的變化趨勢(shì)相反,即語(yǔ)音增強(qiáng)不可能使得ES(k)和ER(k)同時(shí)變小,一個(gè)理想的增益函數(shù)G(k)應(yīng)該使得ES(k)和ER(k)有良好的均衡。結(jié)合人耳掩蔽效應(yīng),最優(yōu)的增益函數(shù)G(k)應(yīng)該使語(yǔ)音失真盡可能小的同時(shí),使殘差噪聲處于人耳掩蔽閾值之下,即應(yīng)滿足如下條件
式中:T(k)——第k個(gè)短時(shí)幅度譜分量的聽(tīng)覺(jué)掩蔽閾值估計(jì)值,T(k)由心理聲學(xué)模型計(jì)算得到。
為了得到最優(yōu)的感知增益函數(shù)G(k),我們構(gòu)造如下的Lagrange代價(jià)函數(shù)J(G,μ)
式中:μ(k)——Lagrange因子。將式 (15)、式 (16)代入式 (18)可得
為使式 (18)中Lagrange 代價(jià)函數(shù)最小,針對(duì)式(19)令=0,化簡(jiǎn)可得
當(dāng)式 (18)中Lagrange代價(jià)函數(shù)最小時(shí),式 (21)與式 (20)等價(jià),即
由式 (22)可得
將式 (23)代入式 (20)化簡(jiǎn)可得增益函數(shù)G(k)
上述推導(dǎo)中,殘余噪聲Z (k)的功率譜Pz(k)近似計(jì)算如下所示
式中:λd(k)——噪聲模塊估計(jì)得到的第k 個(gè)頻譜的噪聲功率,GH1(k)——式 (4)中MMSE-LSA 的增益函數(shù),Y(k)——原始帶噪語(yǔ)音信號(hào)y(n)的幅度譜。
仿真實(shí)驗(yàn)中背景噪聲分別為白噪聲 (white.wav)、F16座艙噪聲 (f16.wav)、餐廳內(nèi)嘈雜噪聲 (babble.wav)、驅(qū)逐艦機(jī)艙噪聲 (destroyerengine.wav)、工廠車間噪音(factory1.wav),噪聲均取自Noisex-92數(shù)據(jù)庫(kù)。實(shí)驗(yàn)用的語(yǔ)音數(shù)據(jù)為30段采自TIMIT 數(shù)據(jù)庫(kù)的干凈語(yǔ)音。實(shí)驗(yàn)中帶噪語(yǔ)音信號(hào)的信噪比 (signal-to-noise ratio,SNR)分別為-10dB、-5dB、0dB、5dB、10dB、15dB、20dB,其中SNR 定義為
式中:s(n)——干凈語(yǔ)音信號(hào),d(n)——噪聲信號(hào),N——輸入的干凈語(yǔ)音信號(hào)的總樣本數(shù)。語(yǔ)音增強(qiáng)算法對(duì)帶噪語(yǔ)音按幀進(jìn)行處理,每幀幀長(zhǎng)為512 點(diǎn),相鄰兩幀之間重疊256點(diǎn),每幀信號(hào)加512點(diǎn)的漢明窗。
仿真實(shí)驗(yàn)分為客觀實(shí)驗(yàn)和主觀實(shí)驗(yàn)兩部分??陀^實(shí)驗(yàn)將給出信號(hào)的時(shí)域波形圖和語(yǔ)譜圖,并計(jì)算增強(qiáng)語(yǔ)音信號(hào)的分段信噪比 (segmental signal-to-noise ratio,SegSNR),其公式如下所示
主觀實(shí)驗(yàn)主要驗(yàn)證經(jīng)過(guò)增強(qiáng)后語(yǔ)音的主觀感知質(zhì)量,主觀測(cè)試選用平均意見(jiàn)值 (mean opinion score,MOS)得分作為評(píng)價(jià)標(biāo)準(zhǔn)。在實(shí)驗(yàn)中,參考算法為以及最優(yōu)改進(jìn)對(duì)數(shù)譜幅度OM-LSA[14](optimally-modified log-spectral amplitude,MMSE-LSA)。在參考算法中,噪聲估計(jì)均采用IMCRA 算法。
主客觀仿真實(shí)驗(yàn)具體所述如下:
客觀實(shí)驗(yàn)1:時(shí)域波形圖和頻域語(yǔ)譜圖可以很好顯示殘留噪聲的細(xì)節(jié),因此客觀實(shí)驗(yàn)1中將給出對(duì)比信號(hào)的波形圖和語(yǔ)譜圖。
圖2給出了時(shí)域波形圖 (波形圖為Adobe Audition音頻編輯軟件的截圖),波形圖中橫軸為時(shí)間,縱軸幅度。圖中帶噪語(yǔ)音信號(hào)的SNR=0 dB,背景噪聲為白噪聲(white.wav)。
圖2 信號(hào)波形
圖3給出了圖2 中各語(yǔ)音信號(hào)的語(yǔ)譜圖 (語(yǔ)譜圖為adobe audition音頻編輯軟件的截圖),語(yǔ)譜圖中橫軸為時(shí)間,縱軸為頻率,顏色代表頻譜能量的高低,從深到淺,代表頻譜能量由低到高。
結(jié)合圖2和圖3可以看到,參考算法和本文算法均可以有效地消除背景噪聲,并且語(yǔ)音信號(hào)的低頻諧波得到了較好的保留。同時(shí),但相比參考算法,本文算法在去噪的同時(shí),殘留噪聲更小,語(yǔ)譜圖更 “干凈”,增強(qiáng)語(yǔ)音更接近純凈語(yǔ)音。從圖3還可以看到,本文算法和參考算法對(duì)信號(hào)的高頻成分都造成了一定的損傷,引起了語(yǔ)音失真,這主要是因?yàn)镸MSE-LSA 譜估計(jì)算法的局限。
圖3 信號(hào)語(yǔ)譜
客觀實(shí)驗(yàn)2:為了衡量增強(qiáng)語(yǔ)音信號(hào)的失真度以及殘余噪聲的大小,在本實(shí)驗(yàn)中對(duì)本文算法和參考算法在不同背景噪聲、不同信噪比環(huán)境下的增強(qiáng)語(yǔ)音計(jì)算分段信噪比以對(duì)比其性能。表1給出了本文算法和參考算法之間SegSNR的比較。
從表1的實(shí)驗(yàn)結(jié)果可以看到,相較參考算法,在各種非平穩(wěn)背景噪聲以及信噪比環(huán)境下,經(jīng)過(guò)本文算法處理后的增強(qiáng)語(yǔ)音的SegSNR 值都優(yōu)于參考算法,SegSNR 的平均值相比于MMSE-LSA 算法和OM-LSA 算法分別提高了0.94dB和0.68dB。上述結(jié)果表明,經(jīng)過(guò)本文算法處理的增強(qiáng)語(yǔ)音其失真和殘余噪聲更小,該結(jié)論與后續(xù)的主觀聽(tīng)力測(cè)試結(jié)果相一致。
從實(shí)驗(yàn)還可以看出:本文算法在white、f16、babble、destroyerengine、factory1這5種背景噪聲環(huán)境下,相比于MMSE-LSA 算法和OMSL算法SegSNR 的平均值分別提高了1.28dB、1.31dB、0.19dB、1.33dB、0.59dB和1.01 dB、0.99dB、0.12dB、0.74dB、0.55dB,即在white、f16、destroyerengine、factory1這4種背景噪聲環(huán)境下,本算法相比參考算法能夠更好的去噪,但是在babble背景噪聲下提升性能有限。其主要原因是babble噪聲為餐廳內(nèi)嘈雜噪聲,其噪聲含有比較多的人聲,增強(qiáng)算法較難區(qū)分真正的語(yǔ)音信號(hào)和噪聲語(yǔ)音,造成殘留背景噪聲較多。
主觀實(shí)驗(yàn):主觀評(píng)測(cè)符合人們聽(tīng)話時(shí)對(duì)語(yǔ)音質(zhì)量的感覺(jué),能真實(shí)的反映語(yǔ)音的質(zhì)量。為了進(jìn)一步評(píng)估算法性能,本文采用MOS得分測(cè)試法對(duì)算法性能進(jìn)行主觀評(píng)測(cè)。在測(cè)試時(shí),筆者邀請(qǐng)了15位試聽(tīng)者參與測(cè)試,這其中包括9位男性和6為女性。15位試聽(tīng)者中包括7位長(zhǎng)期從事語(yǔ)音信號(hào)處理而且工作經(jīng)驗(yàn)豐富的工程師,以及8位碩士研究生,他們中沒(méi)有人接觸過(guò)語(yǔ)音信號(hào)處理領(lǐng)域中的問(wèn)題。
表1 SegSNR 對(duì)比
進(jìn)行主觀測(cè)試時(shí),為了防止聽(tīng)力疲勞,每個(gè)實(shí)驗(yàn)者的每次測(cè)試時(shí)間不宜超過(guò)30min,因此主觀測(cè)試將主要測(cè)試本文算法和參考算法在0dB、5dB 和10dB 信噪比環(huán)境下的主觀性能。在測(cè)試過(guò)程中,實(shí)驗(yàn)者需要試聽(tīng)每一組測(cè)試的A、B、C、D 這4種聲音。其中,A 是純凈語(yǔ)音,而B(niǎo)、C、D 三者之間有一個(gè)是本文算法增強(qiáng)的語(yǔ)音信號(hào),而另兩個(gè)是參考算法增強(qiáng)的語(yǔ)音信號(hào),其分配是隨機(jī)的,實(shí)驗(yàn)者事先并不知道其相對(duì)位置。實(shí)驗(yàn)最后結(jié)果為所有實(shí)驗(yàn)者的評(píng)測(cè)結(jié)果的均值。表2給出了MOS得分評(píng)測(cè)結(jié)果。
表2 MOS得分評(píng)測(cè)結(jié)果
從實(shí)驗(yàn)結(jié)果來(lái)看,本文方法的MOS 分較高,相比于MMSE-LSA 和OM-LSA 算法,本算法的平均MOS分分別提高了0.45和0.19,并且信噪比越低,本文算法提升效果越明顯。在低信噪比情況下,由于參考算法增強(qiáng)后的語(yǔ)音殘留噪聲以及音樂(lè)噪聲較多,主觀感知質(zhì)量較差。大多數(shù)試聽(tīng)者表示本文算法增強(qiáng)的語(yǔ)音信號(hào)其語(yǔ)音其失真和殘余噪聲更小,總的主觀感知質(zhì)量更好,因而得分較高。
本文提出了一種非平穩(wěn)噪聲環(huán)境下結(jié)合人耳聽(tīng)覺(jué)感知的語(yǔ)音增強(qiáng)算法。增強(qiáng)算法分成兩級(jí),第一級(jí)利用MMSELSA 譜估計(jì)法對(duì)帶噪語(yǔ)音進(jìn)行降噪處理。針對(duì)第一級(jí)MMSE-LSA 處理后增強(qiáng)語(yǔ)音中的殘余噪聲,算法第二級(jí)結(jié)合人耳聽(tīng)覺(jué)掩蔽特性設(shè)計(jì)了感知增強(qiáng)濾波器對(duì)語(yǔ)音信號(hào)進(jìn)行感知增強(qiáng)濾波。實(shí)驗(yàn)結(jié)果表明在各種非平穩(wěn)背景噪聲以及信噪比下,與傳統(tǒng)的語(yǔ)音增強(qiáng)算法相比,經(jīng)過(guò)本文算法處理的增強(qiáng)語(yǔ)音其失真和殘余噪聲更小,平均SegSNR 和MOS分分別提高了0.94dB和0.45,增強(qiáng)語(yǔ)音信號(hào)的主觀和客觀質(zhì)量都得到了明顯提升。
[1]Loizou PC,Kim G.Reasons why current speech-enhancement algorithms do not improve speech intelligibility and suggested solutions[J].IEEE Transactions on Acoustics,Speech and Signal Processing,2011,19 (1):47-56.
[2]ZHANG Peng,ZHANG Yanning,F(xiàn)U Zhonghua,et al.Study of speech enhancement algorithm based on MMSE-LSA under non-stationary environments[J].Computer Engineering and Design,2007,28 (19):4695-4697 (in Chinese). [張鵬,張艷寧,付中華,等.基于MMSE-LSA 語(yǔ)音增強(qiáng)算法在非平穩(wěn)環(huán)境下的研究與實(shí)現(xiàn) [J].計(jì)算機(jī)工程與設(shè)計(jì),2007,28 (19):4695-4697.]
[3]CHEN Qi,GUO Ying,ZHANG Qun,et al.An improved LSAMMSE enhancement approach based on auditory perception [J].Signal Processing,2008,24 (6):1037-1040 (in Chinese). [陳琪,郭英,張群,等.基于聽(tīng)覺(jué)感知的LSA-MMSE改進(jìn)型語(yǔ)音增強(qiáng)方法[J].信號(hào)處理,2008,24 (6):1037-1040.]
[4]LI Ning,JIANG Jianzhong,GUO Junli.Speech enhancement algorithm based on auditory masking effect and wiener filter[J].Computer Engineering and Application,2011,47 (29):161-163 (in Chinese).[李寧,蔣建中,郭軍利.一種聽(tīng)覺(jué)掩蔽效應(yīng)和維納濾波的語(yǔ)音增強(qiáng)算法 [J].計(jì)算機(jī)工程與應(yīng)用,2011,47 (29):161-163.]
[5]LIU Yujun,KONG Zhong,XU Wanli,et al.Research of speech denoising technology based on improved spectral subtraction algorithm in armored vehicle [J].Computer Engineering and Design,2010,31 (21):4657-4660 (in Chinese).[劉玉軍,孔洲,徐萬(wàn)里,等.基于譜減法的裝甲車輛語(yǔ)音降噪研究[J].計(jì)算機(jī)工程與設(shè)計(jì),2010,31 (21):4657-4660.]
[6]CAO Liang,ZHANG Tianqi,GAO Hongxing,et al.Multiband spectral subtraction for speech enhancement based on masking property of human auditory system [J].Computer Engineering and Design,2013,34 (1):235-240 (in Chinese).[曹亮,張?zhí)祢U,高洪興,等.基于聽(tīng)覺(jué)掩蔽效應(yīng)的多頻帶譜減語(yǔ)音增強(qiáng)方法 [J].計(jì)算機(jī)工程與設(shè)計(jì),2013,34(1):235-240.]
[7]Cao L,Zhang TQ,Gao HX,et al.Multi-band spectral subtraction method combined with auditory masking properties for speech enhancement [C]//International Congress on Image and Signal Processing,2012:72-76.
[8]Rao CVR,Murthy MBR,Rao KS.Speech enhancement using perceptual wiener filter combined with unvoiced speech-a new scheme[C]//IEEE Recent Advances in Intelligent Computational Systems,2011:688-691.
[9]DING Wei,WANG Zhong.Speech enhancement using timefrequency wavelet threshold with auditory masking [J].Computer Engineering and Design,2011,32 (11):3768-3771 (in Chinese).[丁衛(wèi),王忠.結(jié)合聽(tīng)覺(jué)掩蔽效應(yīng)的時(shí)頻自適應(yīng)小波閾值增強(qiáng) [J].計(jì)算機(jī)工程與設(shè)計(jì),2011,32 (11):3768-3771.]
[10]JIA Hairong,ZHANG Xueying,BAI Jing.Subspace speech enhancement algorithm jointing audio masking effect [J].Computer Engineering,2011,37 (8):259-261 (in Chinese).[賈海蓉,張學(xué)英,白靜.聯(lián)合聽(tīng)覺(jué)掩蔽效應(yīng)的子空間語(yǔ)音增強(qiáng)算法[J].計(jì)算機(jī)工程,2011,37 (8):259-261.]
[11]YU Jianchao,ZHANG Ruilin.MMSE speech enhancement algorithm using modified gain function[J].Computer Engineering and Design,2010,31 (14):3287-3293 (in Chinese). [余建潮,張瑞林.改進(jìn)增益函數(shù)的MMSE語(yǔ)音增強(qiáng)算法[J].計(jì)算機(jī)工程與設(shè)計(jì),2010,31 (14):3287-3293.]
[12]Wu D,Zhu Weiping,Swamy MNS.Noise spectrum estimation with improved minimum controlled recursive averaging based on speech enhancement residue [C]//IEEE International Midwest Symposium on Circuits and Systems,2012:948-951.
[13]OU Shifeng,WANG Xianyun,GAO Ying,et al.Speech enhancement based on two-step noise reduction and gaussian statistical model[J].Signal Processing,2011,27 (8):1171-1178 (in Chinese).[歐世峰,王顯云,高穎,等.基于兩步噪聲消除技術(shù)與高斯統(tǒng)計(jì)模型的語(yǔ)音增強(qiáng)算法 [J].信號(hào)處理,2011,27 (8):1171-1178.]
[14]Li Kai,F(xiàn)u Qiang,Yan Yonghong.Dual-channel optimally modified log-spectral amplitude estimator using spatial information [C]//IEEE International Congress on Image and Signal Processing,2011:2404-2408.