劉郭杉++張小宇
摘 要:本文提出一種時(shí)域?yàn)V波中多頻帶語(yǔ)音增強(qiáng)的方法,通過(guò)將時(shí)域中的未處理語(yǔ)音過(guò)濾成各種等效的基于矩形帶寬的子帶,然后在每個(gè)頻帶中使用基于離散余弦變換(DCT)MMSE來(lái)估計(jì)清晰語(yǔ)音。該算法在0~10dB的SNR水平上優(yōu)于用于汽車、餐廳、列車、白色和工廠噪聲的現(xiàn)有技術(shù)。
關(guān)鍵詞:MMSE 多頻帶 DCT
中圖分類號(hào):TN91 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-3791(2017)10(a)-0030-02
語(yǔ)音通信系統(tǒng)的性能特征在于語(yǔ)音質(zhì)量和可懂度。然而,這些因素容易受到外部噪聲源干擾而劣化。在這些源中,背景噪聲是最常見的,并且以加法方式影響語(yǔ)音信號(hào)。
頻域語(yǔ)音增強(qiáng)的噪聲去除方法主要使用傅里葉變換(FT)衍生的頻譜。這種方法不僅可以增強(qiáng)未處理語(yǔ)音的幅度頻譜,同時(shí)可以保持未處理語(yǔ)音的相位不受干擾。雖然這些技術(shù)顯著改善了語(yǔ)音質(zhì)量,但是它們作為單個(gè)實(shí)體作用于整個(gè)頻帶,而語(yǔ)音和噪聲分量并不是均勻地分布在所有的頻帶上。因此,提出了改進(jìn)的多頻帶譜減法,將未處理語(yǔ)音頻譜線性或非線性劃分各個(gè)子帶,并且獨(dú)立地對(duì)每個(gè)子帶執(zhí)行噪聲去除,即通過(guò)傅里葉變換給每個(gè)頻帶不同的權(quán)重,將信號(hào)分解成含有不同權(quán)重的頻率分量。未處理語(yǔ)音由于噪聲的不均勻分布,頻域頻帶劃分將導(dǎo)致子帶具有不同的信噪比(SNR),當(dāng)每個(gè)子帶中的語(yǔ)音分量被增強(qiáng)時(shí),每個(gè)子帶的SNR改變,即頻率分量的分布也與之前的不同。所以,在使用導(dǎo)出原始未處理語(yǔ)音的權(quán)重就會(huì)導(dǎo)致純凈語(yǔ)音的不準(zhǔn)確估計(jì)。為了克服這些問(wèn)題,使用時(shí)域?yàn)V波可能會(huì)更合適。
1 全頻帶MMSE(DCT-C)
MMSE頻譜幅度估計(jì)器使用從UP語(yǔ)音頻譜分量估計(jì)的先驗(yàn)SNR和后驗(yàn)SNR來(lái)估計(jì)干凈語(yǔ)音頻譜。UP語(yǔ)音信號(hào)的DCT導(dǎo)出頻譜的MMSE估計(jì)器收斂到Weiner濾波器用于實(shí)變換,并且其由下式給出:
其中,是由決策指導(dǎo)方法估計(jì)的先驗(yàn)SNR,并且是當(dāng)前段是語(yǔ)音段的似然性。固定值表現(xiàn)出對(duì)特定情況(僅噪聲/語(yǔ)音)的偏差。另一方面,對(duì)于基于多頻段DCT的MMSE估計(jì)器,提出了一種基于全局和局部先驗(yàn)SNR來(lái)計(jì)算閾值的方法,并且在下面的部分中討論。
2 時(shí)域?yàn)V波多頻帶MMSE(TMB-MMSE)
當(dāng)前的工作中,使用頻帶特定的閾值來(lái)計(jì)算用于多頻帶MMSE的。在每個(gè)頻帶信號(hào)中,基于兩個(gè)因素,即(i)全局先驗(yàn)SNR()和(ii)局部先驗(yàn)SNR()來(lái)計(jì)算用于固定的閾值,其中前者是為UP全帶信號(hào),后者是為子帶信號(hào)估計(jì)的先驗(yàn)SNR。對(duì)全帶UP語(yǔ)音段和第i個(gè)子帶濾波段的第T段估計(jì)的全局1和局部2先驗(yàn)SNR由下式給出:
其中,是針對(duì)第T個(gè)語(yǔ)音段中的第n個(gè)樣本估計(jì)的先驗(yàn)SNR,并且N是段中的樣本的總數(shù)。
3 性能評(píng)價(jià)
語(yǔ)音增強(qiáng)算法使用從TIMIT語(yǔ)料庫(kù),NOISEX-92是一個(gè)噪聲數(shù)據(jù)庫(kù),包括8種不同的非固定噪聲、如工廠、機(jī)槍、白噪聲、粉紅噪聲等。將來(lái)自NOISEX-92和AURORA數(shù)據(jù)庫(kù)的噪聲以不同的SNR水平被添加到TIMIT和NOIZEUS數(shù)據(jù)庫(kù)中的干凈的語(yǔ)音中,獲得未處理語(yǔ)音信號(hào)。在這個(gè)系統(tǒng)中,以0~10dB的SNR水平,添加5個(gè)不同的噪聲,即,餐廳噪聲,白噪聲,工廠噪聲(選自NOISEX-92)、汽車噪聲和火車噪聲(選自AURORA)。UP語(yǔ)音信號(hào)是以25ms的幀大小和段之間50%重疊的漢明窗口。
TMB-MMSE與DFT-C和DCT-C的比較:TMB-MMSE,DFT-C和DCT-C算法的目標(biāo)質(zhì)量度量顯示如下。
所提出的方法(TMB-MMSE)導(dǎo)致所考慮的所有噪聲條件下PESQ評(píng)分的語(yǔ)音質(zhì)量得到改善。對(duì)于汽車,工廠和白噪聲,質(zhì)量提高了0.3~0.8,而對(duì)于火車和汽車噪聲,TMB-MMSE參考UP語(yǔ)音實(shí)現(xiàn)了0.2~0.4的改善(見表1)。
根據(jù)SD分?jǐn)?shù),TMB-MMSE與DCT-C和DFT-C相比較。
通過(guò)TMB-MMSE增強(qiáng)的語(yǔ)音中的殘余噪聲與DCT-C和DFT-C相比較,通過(guò)TMB-MMSE增強(qiáng)的語(yǔ)音中BD的減少對(duì)于汽車,白色和工廠噪聲為0.3~0.5左右,而對(duì)于混音和列車噪聲,分別減少了0.1和0.2(見表2)。
總而言之,TMB-MMSE通過(guò)DCT-C顯著地提高了整體增強(qiáng)的語(yǔ)音質(zhì)量,DCT-C提高了0.1~0.3,DFT-C提高了0.02~0.3。
4 結(jié)語(yǔ)
在這項(xiàng)工作中,使用DCT派生的頻譜開發(fā)了時(shí)域?yàn)V波多頻帶(基于ERB)語(yǔ)音增強(qiáng)算法。通過(guò)時(shí)域?yàn)V波克服了存在于頻域多頻帶方法中的相鄰頻帶頻率分量的影響。實(shí)驗(yàn)結(jié)果可以看出,本文提出的算法比傳統(tǒng)的語(yǔ)音增強(qiáng)方法增強(qiáng)效果好。PESQ值驗(yàn)證了改進(jìn)的算法具有更好的語(yǔ)音質(zhì)量。使用改進(jìn)的算法具有比傳統(tǒng)算法低的SD量和BD量。
參考文獻(xiàn)
[1] 于文慧.基于短時(shí)譜估計(jì)的MMSE語(yǔ)音增強(qiáng)算法研究[D].長(zhǎng)春:吉林大學(xué),2012.
[2] 寧礦鳳,王景芳.DCT域維納濾波語(yǔ)音增強(qiáng)[J].計(jì)算機(jī)工程與應(yīng)用,2015,51(8):226-230.endprint