張妍妮, 楊桂芹, 劉清華(蘭州交通大學(xué)電子與信息工程學(xué)院,甘肅 蘭州 730070)
白噪聲下基于各向異性濾波的語音增強(qiáng)算法研究①
張妍妮, 楊桂芹, 劉清華
(蘭州交通大學(xué)電子與信息工程學(xué)院,甘肅 蘭州 730070)
通過介紹各向異性濾波的模型,然后用語音信號(hào)的幅度去代替圖像的梯度,進(jìn)而利用各向異性濾波在圖像處理領(lǐng)域中的濾波原理對(duì)語音信號(hào)進(jìn)行處理,分析處理結(jié)果,并且將該方法的增強(qiáng)效果與其他三種經(jīng)典的語音增強(qiáng)算法做了比較.仿真結(jié)果表明:在白噪聲為背景噪聲的情況下,各向異性濾波方法具有較好的濾波性能,并且與其他三種經(jīng)典的語音增強(qiáng)算法相比,其算法復(fù)雜度低,計(jì)算量小,運(yùn)行時(shí)間短.
白噪聲;各向異性濾波;語音增強(qiáng)
在圖像處理過程中,各向異性濾波算法能夠通過擴(kuò)散矩陣獲取圖像的大量局部結(jié)構(gòu)信息[1],并且設(shè)定迭代次數(shù),從而能夠控制擴(kuò)散過程,達(dá)到更好的濾波效果.因此,本文將此算法引入到語音增強(qiáng)過程中,預(yù)期通過獲得帶噪語音的大量局部信息來控制濾波過程,進(jìn)而得到更好的去噪效果.研究表明,在白噪聲下,該方法具有較好的去噪性能,甚至在某些條件下,它的濾波效果優(yōu)于幾種經(jīng)典的語音增強(qiáng)算法.
傳統(tǒng)的濾波器可以更好地濾掉噪聲與平滑圖像,但是卻損傷了原信號(hào)的強(qiáng)度,沒有保留圖像中的有用細(xì)節(jié)(如線、邊緣等)[2],這與盡最大可能地保持信號(hào)不受到損失的同時(shí)又能盡可能除去噪聲的濾波原則不相符.1990年,Perona與Malik通過非線性理論,提出的基于偏微分方程的各向異性擴(kuò)散方程[3],根據(jù)圖像不同方向上的梯度來控制擴(kuò)散行為,平滑噪聲與保留細(xì)節(jié)的性能有了很大的提高,方程如下:
式中I是處理圖像,c(.)是擴(kuò)散系數(shù),div是散度算子,▽是梯度算子.為了控制模型的各向異性擴(kuò)散行為,Perona與 Malik提出了兩個(gè)擴(kuò)散系數(shù)[4],方程如下:
式中k是梯度閾值.則擴(kuò)散方程可寫為[5]:
其中Δx=1,故濾波后的圖像可表示為[6]
此擴(kuò)散方程的基本思想是,采用一個(gè)單調(diào)遞減的函數(shù)決定擴(kuò)散的強(qiáng)度,即在梯度小的地方擴(kuò)散較強(qiáng),在梯度大的地方擴(kuò)散較弱,從而實(shí)現(xiàn)既去噪又保留邊緣的目的[6].簡單來說,它是將圖像看做了一個(gè)熱量場,每個(gè)像素看做了熱流,根據(jù)當(dāng)前像素和周圍像素的關(guān)系,來確定是否要向周圍擴(kuò)散.比如某個(gè)鄰域像素和當(dāng)前像素差別較大,則代表這個(gè)鄰域像素很可能是個(gè)邊界,那么當(dāng)前像素就不向這個(gè)方向擴(kuò)散了,這個(gè)邊界也就得到保留了.相對(duì)各向同性的雙線性過濾與三線性過濾,各向異性過濾是一種新型的過濾方法.
圖1 是仿真出的最佳語音增強(qiáng)效果圖
圖2 PESQ值對(duì)比
在語音信號(hào)中,音節(jié)與音節(jié)之間存在著很大的相關(guān)性,而噪聲是隨機(jī)的,雜亂無章的,不存在這種相關(guān)性.因此,語音信號(hào)與噪聲的疊加后在幅度圖上會(huì)表現(xiàn)出很多的毛刺.本文的思想是用語音信號(hào)的幅度去代替圖像中的梯度,然后根據(jù)輸入信號(hào)的幅度變化去控制擴(kuò)散過程,從而達(dá)到濾波的目的.
令輸入信號(hào)的一維語音信號(hào)為f0,則偏微分方程的初始條件為
圖3 SegSNR值對(duì)比
令中心點(diǎn)距離為
一維卷積掩膜分別為
將輸入信號(hào)序列f0與一維卷積掩膜分別進(jìn)行卷積濾波得倒微分算子nL和nR,擴(kuò)散系數(shù)則隨著序列的變化、倒微分算子的改變而不斷更新,擴(kuò)散系數(shù)函數(shù)為
其中k為輸入語音信號(hào)的幅度閾值.離散的偏微分方程的解即濾波后的語音信號(hào)為
實(shí)驗(yàn)仿真中選用的干凈語音是在安靜的實(shí)驗(yàn)室環(huán)境下錄制的,采樣頻率是16kHz,編碼位數(shù)是16 bit.噪聲來源于NOISEX-92噪聲庫,噪聲類型為白噪聲,所加信噪比為5dB.圖1為仿真出的最佳語音增強(qiáng)效果圖,圖中分別顯示出了純凈語音信號(hào),帶噪語音信號(hào)與增強(qiáng)后的輸出語音信號(hào)的仿真圖譜.將三個(gè)信號(hào)圖譜進(jìn)行對(duì)比可以看出,相對(duì)于帶噪語音信號(hào),輸出語音信號(hào)的大部分噪聲被濾除,而且更接近于純凈語音信號(hào).試聽兩種信號(hào),結(jié)果表明輸出語音信號(hào)與純凈語音信號(hào)在聽覺感受上相差不大,不影響聽覺效果.
本實(shí)驗(yàn)先觀察了帶噪語音信號(hào)與處理后增強(qiáng)語音信號(hào)的仿真圖譜,并且在聽覺上主觀感受了恢復(fù)后的語音信號(hào),然后通過分段信噪比(SegSNR)和語音質(zhì)量感知評(píng)價(jià)方法(PESQ)值來評(píng)價(jià)語音增強(qiáng)后的效果.實(shí)驗(yàn)發(fā)現(xiàn):當(dāng)選取白噪聲作為背景噪聲并且迭代次數(shù)為20時(shí),分段信噪比達(dá)到最大,隨著迭代次數(shù)的增大,分段信噪比有所降低,而隨著迭代次數(shù)從10增大到100,PESQ的值一直在上升,但上升幅度較??;并且隨著帶噪語音信號(hào)的信噪比的增大,濾波效果有所較弱,說明在高信噪比下,該方法具有局限性.實(shí)驗(yàn)還發(fā)現(xiàn),此方法對(duì)有色噪聲如粉紅噪聲和工廠噪聲的濾波效果不佳.
本實(shí)驗(yàn)還選取了三種經(jīng)典的語音增強(qiáng)算法:信號(hào)子空間法、維納濾波與卡爾曼濾波在白噪聲為背景噪聲的情況下進(jìn)行仿真,通過增強(qiáng)后信號(hào)的Seg-SNR值與PESQ值定量的與本文算法進(jìn)行了對(duì)比.仿真圖如下圖2,3所示.
表1 白噪聲下信噪比為5dB時(shí)四種方法的運(yùn)行時(shí)間
從圖2中可以看出,不同的信噪比下,各向異性濾波方法增強(qiáng)后語音信號(hào)的PESQ值均大于其他三種經(jīng)典的語音增強(qiáng)算法,在噪聲較小時(shí),該方法的濾波效果稍次于信號(hào)子空間法,但是它的運(yùn)行時(shí)間卻遠(yuǎn)小于信號(hào)子空間法(見表1),這說明其算法的復(fù)雜度低,計(jì)算量小;從圖3可以看出,各向異性濾波增強(qiáng)后語音信號(hào)的SegSNR低于信號(hào)子空間法,卻高于維納濾波法與卡爾曼濾波法;從表1中可以看出,各向異性濾波的運(yùn)行時(shí)間均小于維納濾波、信號(hào)子空間和卡爾曼濾波.這些均證明,各向異性濾波在語音增強(qiáng)過程中具有較好的去噪性能.
本文將該方法引用到語音增強(qiáng)過程中,用語音信號(hào)的幅度變化去代替圖像信號(hào)的梯度變化,從而實(shí)現(xiàn)各向異性濾波在語音增強(qiáng)過程中的去噪功能.實(shí)驗(yàn)結(jié)果表明,該方法在語音增強(qiáng)領(lǐng)域里,同樣具有較好的去噪性能,甚至在某些條件下,它的濾波效果優(yōu)于幾種經(jīng)典的語音增強(qiáng)算法,并且它的算法復(fù)雜度低,計(jì)算量小,運(yùn)行時(shí)間短.
[1]張群會(huì),高翔.各向異性濾波算法在地震曲率屬性中的應(yīng)用[J].計(jì)算機(jī)應(yīng)用研究,2013,30(2):638-640.
[2]曾文權(quán),何擁軍,崔曉坤.基于各向異性濾波和空間FCM 的MRI圖像分割方法[J].計(jì)算機(jī)應(yīng)用研究,2014,31(1):316-320.
[3]朱麗琪,范雪峰,周志平.基于邊緣增強(qiáng)算子的各向異性濾波方法[J].電腦知識(shí)與技術(shù):學(xué)術(shù)交流,2011,7(9):6214 -6217.
[4]Perona P,Malik J.Scale-space and Edge Detection Using Anisotropic Diffusion[J].Pattern Analysis and Machine Intelligence,IEEE Transactions on,1990,12(7):629-639.
[5]Gerig G,Kübler O,Kikinis R,et al.Nonlinear Anisotropic Filtering of MRI data[J].Medical Imaging,IEEE Transactions on,1992,11(2):221-232.
[6]余錦華,汪源源.基于各向異性擴(kuò)散的圖像降噪算法綜述[J].電子測量與儀器學(xué)報(bào),2011,25(2):105-116.
Study of Algorithm for Speech Enhancement Based on Anisotropic Diffusion in White Noise
ZHANG Yan-ni, YANG Gui-qin, LIU Qing-hua
(College of Electronic&Information Engineering,Lanzhou Jiaotong University,Lanzhou 730070,China)
The anisotropic diffusion model was introduced,and the speech signal amplitude was used to replace the image gradient.Then,the speech signal was processed by the filtering theory of the anisotropic diffusion in the image processing field,and the processing results were analyzed.The comparison between the enhanced effect of this methods and the other three classic speech enhancement algorithm was made.The simulation results show that the anisotropic diffusion has the better filtering performance in the background noise of white noise,and the method has the lower algorithm complexity,the smaller calculation amount,the shorter running time compared with the other three classic speech enhancement algorithms.
white noise;anisotropic diffusion;speech enhancement
TN912.35
A
1008-1402(2015)06-0902-03
2015-11-02
國家自然科學(xué)基金項(xiàng)目(F011706).
張妍妮(1990-),女,甘肅慶陽人,碩士研究生在讀,研究方向現(xiàn)代數(shù)字信號(hào)處理.