亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于時(shí)域?yàn)V波多頻段譜減法的語(yǔ)音增強(qiáng)

2017-10-18 02:59:08張小宇劉云清趙馨

長(zhǎng)春理工大學(xué)學(xué)報(bào)(自然科學(xué)版) 2017年4期

關(guān)鍵詞：信號(hào)

張小宇，劉云清，趙馨

（長(zhǎng)春理工大學(xué) 電子信息工程學(xué)院，長(zhǎng)春 130022）

基于時(shí)域?yàn)V波多頻段譜減法的語(yǔ)音增強(qiáng)

張小宇，劉云清，趙馨

（長(zhǎng)春理工大學(xué) 電子信息工程學(xué)院，長(zhǎng)春 130022）

傳統(tǒng)的多頻段語(yǔ)音增強(qiáng)是將頻域分割成各個(gè)頻段，并對(duì)每個(gè)頻段單獨(dú)進(jìn)行語(yǔ)音增強(qiáng)，但是因?yàn)橄噜忣l帶的共振峰影響清晰語(yǔ)音估計(jì)，導(dǎo)致了語(yǔ)音識(shí)別效果不理想，為了減少相鄰頻帶的共振峰帶來(lái)的影響，提出了一種時(shí)域?yàn)V波中多頻帶語(yǔ)音增強(qiáng)的方法，通過(guò)將時(shí)域中的未處理語(yǔ)音過(guò)濾成各種等效的基于矩形帶寬的子帶，然后在每個(gè)頻帶中使用基于離散余弦變換（DCT）譜減法來(lái)估計(jì)清晰語(yǔ)音，并結(jié)合使用各個(gè)頻帶信噪比（SNR）獲得頻帶特定加權(quán)因子。在SNR為0～10dB的汽車噪聲、餐廳噪聲、列車噪聲、白色噪聲和工廠噪聲的環(huán)境下基于時(shí)域多頻段語(yǔ)音增強(qiáng)算法增強(qiáng)效果優(yōu)于現(xiàn)有的技術(shù)。

譜減法；多頻帶；DCT

語(yǔ)音通信系統(tǒng)的性能特征在于語(yǔ)音質(zhì)量和可懂度，然而，這些因素容易受到外部噪聲源干擾而劣化。在這些源中，背景噪聲是最常見(jiàn)的，并且其以加法方式影響語(yǔ)音信號(hào)。這需要有效的語(yǔ)音增強(qiáng)算法來(lái)提高語(yǔ)音信號(hào)的質(zhì)量和可理解性，從而提高系統(tǒng)的性能并降低聽(tīng)眾的疲勞［1］。語(yǔ)音增強(qiáng)算法的作用是去除噪聲并增強(qiáng)語(yǔ)音特定分量，從而產(chǎn)生清晰、無(wú)噪聲的語(yǔ)音。目前的工作重點(diǎn)是頻譜處理方法，其比較成功的方法是譜減法［2］。在文獻(xiàn)［4-7］中有對(duì)基本譜減法的一些改進(jìn)，這些語(yǔ)音增強(qiáng)算法需要對(duì)噪聲頻譜進(jìn)行估計(jì)，可以使用語(yǔ)音活動(dòng)檢測(cè)器［3］或使用噪聲估計(jì)算法［4］來(lái)估計(jì)。

頻域語(yǔ)音增強(qiáng)的噪聲去除方法主要使用傅里葉變換（FT）衍生的頻譜。這種方法不僅可以增強(qiáng)未處理語(yǔ)音的幅度頻譜，同時(shí)可以保持未處理語(yǔ)音的相位不受干擾，因?yàn)檫@是純凈語(yǔ)音可能的最佳相位［5］。然而，當(dāng)使用未處理語(yǔ)音的相位信息時(shí)，語(yǔ)音可以被增強(qiáng)的程度是有限的［6］。為了克服該限制，可以從提供符號(hào)信息的方法入手，而不是用相位的實(shí)際變換（諸如離散余弦變換（DCT））導(dǎo)出頻譜。此外，與FT相比，DCT提供了高分辨率和能量壓縮［7］。在文獻(xiàn)［8，9］中，作者使用閾值方法去除DCT域中的未處理語(yǔ)音中的噪聲。DCT的能量壓縮屬性在語(yǔ)音增強(qiáng)中是非常重要的，因?yàn)檎Z(yǔ)音的整體質(zhì)量受到有聲段質(zhì)量的影響，對(duì)于該有聲段，大多數(shù)能量被限制為低頻分量而不是無(wú)聲語(yǔ)音段。

雖然這些技術(shù)顯著改善了語(yǔ)音質(zhì)量，但是它們作為單個(gè)實(shí)體作用于整個(gè)頻帶，而語(yǔ)音和噪聲分量并不是均勻地分布在所有的頻帶上。因此提出了改進(jìn)的多頻譜譜減法，將未處理語(yǔ)音頻譜線性或非線性的劃分各個(gè)子帶，并且獨(dú)立地對(duì)每個(gè)子帶執(zhí)行噪聲去除。同時(shí)因?yàn)榇艠O相互作用的問(wèn)題，一個(gè)頻帶中的頻譜分量對(duì)相鄰頻帶中的頻譜分量是有影響的；并且與純凈語(yǔ)音不同，增強(qiáng)語(yǔ)音不能通過(guò)直接組合每個(gè)子帶中的頻率而使用逆傅里葉變換，即：通過(guò)傅里葉變換給每個(gè)頻帶不同的權(quán)重，將信號(hào)分解成含有不同權(quán)重的頻率分量；未處理語(yǔ)音由于噪聲的不均勻分布，頻域頻帶劃分將導(dǎo)致子帶具有不同的信噪比（SNR），當(dāng)每個(gè)子帶中的語(yǔ)音分量被增強(qiáng)時(shí)，每個(gè)子帶的SNR改變，即頻率分量的分布也與之前的不同。所以在使用導(dǎo)出原始未處理語(yǔ)音的權(quán)重就會(huì)導(dǎo)致純凈語(yǔ)音的不準(zhǔn)確估計(jì)。為了克服這些問(wèn)題，使用時(shí)域?yàn)V波可能更合適。

本文提出了改進(jìn)的語(yǔ)音增強(qiáng)技術(shù)，通過(guò)使用DCT在語(yǔ)音段中能量壓縮方面的優(yōu)點(diǎn)，以及用于時(shí)域?yàn)V波生成的多頻帶可以減少頻譜域?yàn)V波中極點(diǎn)之間的相互作用的優(yōu)點(diǎn)。在譜減法中，由于噪聲分量不均勻分布在所有的頻帶上，因此將頻帶特定的加權(quán)因子分配給每一個(gè)子帶，該帶特定加權(quán)因子在低SNR頻帶上大于高SNR頻帶，并且基于相應(yīng)頻帶SNR來(lái)計(jì)算。

1 基于DCT的譜減法（SSDCT）

譜減法是通過(guò)從未處理語(yǔ)音頻譜分量中減去噪聲分量來(lái)估計(jì)干凈的語(yǔ)音頻率分量。假設(shè)語(yǔ)音s(n)和噪聲分量d(n)不相關(guān)，并且所考慮的噪聲是背景噪聲，其本質(zhì)上是加性。

即：

一般使用FT將未處理語(yǔ)音變換到頻域，然而現(xiàn)在主要是利用DCT的優(yōu)點(diǎn)，使用DCT（類型II）：

其中，X(k)，S(k)和D(k)分別表示未處理語(yǔ)音，純凈語(yǔ)音和噪聲的DCT導(dǎo)出的幅度譜。噪聲的幅度D(k)是從未處理語(yǔ)音中的無(wú)音段估計(jì)的。

使用譜減法估計(jì)純凈語(yǔ)音頻譜幅度：

其中，α為增強(qiáng)高信噪比段的過(guò)減因子，β是噪聲的頻譜下限參數(shù)，類似于離散傅里葉變換（DFT），處理后的頻譜和相位（未處理語(yǔ)音頻譜分量的符號(hào)信息）組合以獲得增強(qiáng)的語(yǔ)音信號(hào)。

圖1 基于SSFT和SSDCT的譜減法算法的比較

為了進(jìn)行比較，該系統(tǒng)實(shí)現(xiàn)了基于全波段FT的譜減法（SSFT）算法［10］。如圖1（a）-（e）所示，給出了受0dB的餐廳噪聲影響的語(yǔ)音信號(hào)、噪聲語(yǔ)音信號(hào)的頻譜圖，通過(guò)SSFT和SSDCT算法增強(qiáng)的語(yǔ)音信號(hào)以及干凈的語(yǔ)音信號(hào)的頻譜圖。在圖1（c）中通過(guò)SSFT增強(qiáng)的語(yǔ)音中，話語(yǔ)的幾個(gè)低頻分量不被保留。然而，在圖1（d）中通過(guò)SSDCT增強(qiáng)的這些信息分量，通過(guò)保留提高語(yǔ)音質(zhì)量。為了進(jìn)一步改善語(yǔ)音質(zhì)量，在各種SNR水平下對(duì)未處理語(yǔ)音數(shù)據(jù)執(zhí)行時(shí)域?yàn)V波多頻帶譜減法（TMB-SS）。

2 時(shí)域?yàn)V波多頻段譜減法（TMBSS）

由于噪聲和語(yǔ)音頻譜分量不均勻分布在所有頻帶上，因此多頻帶譜減法優(yōu)于全頻譜減法。從子帶中的語(yǔ)音分量減去噪聲分量，則可以更好的降低噪聲。子帶語(yǔ)音頻譜可以通過(guò)將頻率段分成不同的頻帶或通過(guò)在時(shí)域中將信號(hào)濾波到不同的頻帶，然后估計(jì)頻譜來(lái)獲得。在這個(gè)系統(tǒng)中是通過(guò)時(shí)域?yàn)V波獲得多個(gè)子帶，因?yàn)樗梢詼p少相鄰頻帶頻譜分量的影響。提出的語(yǔ)音增強(qiáng)算法TMB-SS的框圖如圖2所示。為了進(jìn)一步改善子頻帶級(jí)別的降噪，基于等效矩形帶寬（ERB）尺度提取多個(gè)子帶。ERB尺度與人類聽(tīng)覺(jué)系統(tǒng)高度相關(guān)，并且與其他臨界頻帶尺度相比，它能更精確地模擬低頻分量［11］。ERB濾波器的帶寬計(jì)算為：

其中，fc是以Hz為單位的濾波器的中心頻率。濾波器的上限截止頻率和下限截止頻率（fu和fl）為：

然后未處理語(yǔ)音信號(hào)通過(guò)這些濾波器獲得臨界頻帶信號(hào)，未處理語(yǔ)音信號(hào)以臨界頻帶信號(hào)的組合表示：

其中，M表示臨界頻帶的數(shù)目，xi(n)是第i個(gè)臨界頻帶中的未處理語(yǔ)音信號(hào)。

在這個(gè)系統(tǒng)中，使用時(shí)域?yàn)V波是為了減少相鄰頻帶的影響，并且基于ERB將未處理語(yǔ)音信號(hào)劃分為子帶。SS-DCT單獨(dú)地應(yīng)用于每個(gè)頻帶，用于估計(jì)在臨界頻帶級(jí)的純凈語(yǔ)音頻譜。由于噪聲頻譜分量并不是均勻分布在所有臨界頻帶內(nèi)，因此在每個(gè)子帶信號(hào)中需要實(shí)現(xiàn)的噪聲減少量和信號(hào)失真（SD）是不同的。所以應(yīng)該在其它頻帶上增強(qiáng)一個(gè)子帶，減小低SNR頻帶與高SNR頻帶的SD，加權(quán)因子是在頻帶級(jí)別上提供對(duì)噪聲減少和SD的附加程度的控制。所以，基于相應(yīng)的頻帶SNR將頻帶特定加權(quán)因子γi引入每個(gè)臨界頻帶。過(guò)減因子（αi）通過(guò)僅處理子帶信號(hào)來(lái)強(qiáng)調(diào)段中的噪聲去除，而γi在頻帶級(jí)上提供對(duì)噪聲去除的附加程度的控制。因此，除了過(guò)減因子之外，在當(dāng)前工作中提出帶特定加權(quán)因子（γi）。估計(jì)的純凈語(yǔ)音頻譜由下式給出：

圖2 語(yǔ)音增強(qiáng)算法TMB-SS的框圖

其中，βi是取決于在每個(gè)臨界頻帶中估計(jì)的噪聲的頻譜下限參數(shù)。高SNR頻帶與低SNR頻帶相比具有較低的加權(quán)因子，并且基于使用單獨(dú)頻帶SNR計(jì)算的平均SNR來(lái)分類。根據(jù)經(jīng)驗(yàn)觀察，當(dāng)加權(quán)因子的范圍在1和2.5之間時(shí)，可以實(shí)現(xiàn)更好的噪聲去除。因此取最高SNR的頻帶的加權(quán)因子為1，最低SNR的頻帶的加權(quán)因子為2.5。對(duì)于具有中間SNR的頻帶，使用在1.08和2.04之間（步長(zhǎng)為0.08）的加權(quán)因子。使用客觀測(cè)量法來(lái)評(píng)估頻帶特定加權(quán)因子對(duì)所提出的語(yǔ)音增強(qiáng)算法（TMB-SS）的性能影響，所獲得的分?jǐn)?shù)在表1中列出。從得分可以看出，當(dāng)使用γi時(shí)，SD（SD）和背景失真（BD）的量減少，說(shuō)明改進(jìn)了語(yǔ)音增強(qiáng)的質(zhì)量。

最后，組合每個(gè)臨界頻帶估計(jì)的清晰語(yǔ)音信號(hào)，獲得如下式中的增強(qiáng)語(yǔ)音信號(hào)

3 實(shí)驗(yàn)結(jié)果

語(yǔ)音增強(qiáng)算法使用從TIMIT語(yǔ)料庫(kù)和NOIZEUS數(shù)據(jù)庫(kù)隨機(jī)選擇的句子進(jìn)行評(píng)估。NOIZEUS是一個(gè)未處理語(yǔ)音語(yǔ)料庫(kù)，包含30個(gè)話語(yǔ)，由三個(gè)男性和三個(gè)女性說(shuō)話者說(shuō)話，被來(lái)自AURORA數(shù)據(jù)庫(kù)的八個(gè)真實(shí)世界噪聲破壞。NOISEX-92是一個(gè)噪聲數(shù)據(jù)庫(kù)，包括八種不同的非固定噪聲，如工廠、機(jī)槍、白噪聲、粉紅噪聲等。將來(lái)自NOISEX-92和AURORA數(shù)據(jù)庫(kù)的噪聲以不同的SNR水平添加到TIMIT和NOIZEUS數(shù)據(jù)庫(kù)中干凈的語(yǔ)音中，獲得未處理語(yǔ)音信號(hào)。在這個(gè)系統(tǒng)中，以0-10dB的SNR水平，添加五個(gè)不同的噪聲，即：餐廳噪聲、白噪聲、工廠噪聲（選自NOISEX-92）、汽車噪聲和火車噪聲（選自AURORA）。

3.1 SSFT與SSDCT

從SSFT和SSDCT算法的目標(biāo)質(zhì)量測(cè)量獲得的觀察結(jié)果討論如下：

從PESQ值（參見(jiàn)表2）可以看出，在考慮所有的SNR條件下，對(duì)于列車噪聲（改善為0.1-0.4），SSDCT產(chǎn)生的質(zhì)量?jī)?yōu)于SSFT的語(yǔ)音。對(duì)于汽車，工廠和多余噪聲，SSDCT的性能與SSFT的性能非常相似。

?對(duì)于除白噪聲之外的所有噪聲，SSDCT獲得的整體質(zhì)量分?jǐn)?shù)與SSFT更接近，如表2所示。

?SSDCT的性能在SD和BD方面與SSFT相當(dāng)，如表3所示。對(duì)于餐廳噪聲，SSDCT將BD降低到與SSFT相比相當(dāng)大的量，并且通過(guò)較高的BD分?jǐn)?shù)來(lái)反映。

3.2 FMB-SS與TMB-SS

從FMB-SS和TMB-SS算法的客觀質(zhì)量測(cè)量，得出以下觀察結(jié)果：

?TMB-SS算法在所有SNR水平上從受列車、餐廳噪聲、白噪聲和工廠噪聲影響的語(yǔ)音中得出高度增強(qiáng)的語(yǔ)音，PESQ分?jǐn)?shù)比FMB-SS提高了0.1-0.4，如表2所示。

在汽車噪聲的情況下，TMB-SS執(zhí)行更接近FMB-SS，并且在SNR＞4dB（在PESQ值中改善0.1-0.3）時(shí)產(chǎn)生更好的性能。

由于TMB-SS比FMB-SS引入的背景和SD低，在表2中觀察到增強(qiáng)語(yǔ)音的整體質(zhì)量改善為0.1-0.3。

對(duì)于TMB-SS，在所有SNR級(jí)別的白噪聲和工廠噪聲，以及高于5dB SNR水平的汽車、火車和餐廳噪聲，增強(qiáng)語(yǔ)音信號(hào)中的殘留噪聲（由BD分?jǐn)?shù)測(cè)量）較低（參見(jiàn)表3），從而提高整體質(zhì)量。

在所考慮的大多數(shù)噪聲條件下，在語(yǔ)音增強(qiáng)中使用TMB-SS具有比FMB-SS低的SD量。

4 結(jié)論

表1 具有和不具有帶特定加權(quán)因子γi的TMB-SS的性能比較

表2 0-10dB各種噪聲PESQ和整體質(zhì)量的平均值

表3 0-10dB各種噪聲SD和BD的平均值

為了解決頻域多頻帶方法中的相鄰頻帶頻率分量的影響，提出了基于時(shí)域多頻段語(yǔ)音增強(qiáng)算法，從實(shí)驗(yàn)結(jié)果可以看出，本文提出的算法比傳統(tǒng)的語(yǔ)音增強(qiáng)方法增強(qiáng)效果好。PESQ值驗(yàn)證了改進(jìn)的算法具有更好的語(yǔ)音質(zhì)量，使用改進(jìn)的算法具有比傳統(tǒng)算法低的SD量和BD量。

［1］Lim JS，Oppenheim AV.Enhancement and bandwidth compression of noisy speech［J］.Proceeding of the IEEE，2005，67（12）：1586-1604.

［2］Boll S.Suppression of acoustic noise in speech using spectral subtraction［J］.IEEE Transactions on Acoustics Speech and Signal Process，1979，27（2）：13-120.

［3］陳歡，邱曉暉.改進(jìn)譜減法語(yǔ)音增強(qiáng)算法的研究［J］.計(jì)算機(jī)技術(shù)與發(fā)展，2014（04）：69-71+76.

［4］Plapous C，Marro C，Scalart P.Improved signal-tonoise ratio estimation for speech enhancement［J］.IEEE Trans Audio，Speech，Lang Process，2006，14（6）：2098-2108.

［5］符成山.一種改進(jìn)譜減法語(yǔ)音增強(qiáng)算法的研究［J］.信息通信，2016（06）：21-22.

［6］McAulay R，Malpass M.Speech enhancement using a soft-decision noise suppression filter［J］.IEEE Trans Acoust Speech Signal Process，1980，28（2）：137-145.

［7］Junqua JC，Reaves B，Mak B.A study of endpoint detection algorithms in adverse condition：incidence on a DTW and HMM recognizer［J］.Proc Of European Conf on Speech Communication and Technology，1991，3（2）：1371-1374.

［8］Martin R.Noise power spectral density estimation based on optimal smoothing and minimum statistics［J］.IEEE Trans Speech Audio Process，2001，9（5）：504-512.

［9］寧礦鳳，王景芳.DCT域維納濾波語(yǔ)音增強(qiáng)［J］.計(jì)算機(jī)工程與應(yīng)用，2015，51（8）：226-230.

［10］Cohen I，Berdugo B.Noise estimation by minima controlled recursive averaging for robust speech enhancement［J］.IEEE Signal Process Lett，2002，9（1）：12-15.

［11］張君昌，劉海鵬，樊養(yǎng)余.一種自適應(yīng)時(shí)移與閾值的DCT語(yǔ)音增強(qiáng)算法［J］.西安電子科技大學(xué)學(xué)報(bào)，2014，41（6）：155-159.

Speech Enhancement Based on Time Domain Filtering Multi-band Spectrum Subtraction

ZHANG Xiaoyu，LIU Yunqing，ZHAO Xin
（School of Electronic and Information Engineering，Changchun University of Science and Technology，Changchun 130022）

The traditional multi-band speech is enhanced due to the problem of the pole interaction between the various frequency bands，which leads to the unsatisfactory speech recognition effect.A method of multi-band speech enhancement in time domain filtering is proposed，clean speech is estimated by filtering unprocessed speech in the temporal domain into various equivalent rectangular bandwidth based subbands followed by discrete cosine transform（DCT）based spectral speech enhancement in each band using spectral subtraction and incorporates band-specific weighting factor obtained using respective band signal-tonoise ratio（SNR）.It is observed that DCT-derived spectrum based temporal-domain multiband speech enhancement algorithm outperforms the existing techniques for car，babble，train，white，and factory noise in the 0–10 dB SNR levels.

spectral subtraction；multi–band；DCT

TN912.35

1672-9870（2017）04-0078-05

2017-06-05

吉林省科技攻關(guān)項(xiàng)目（20160204003GX）

張小宇（1990-），女，碩士研究生，E-mail：1179353525@qq.com