陸 真,裴東興
(1.中北大學 電子測試技術國家重點實驗室,山西 太原 030051;
2.中北大學 儀器科學與動態(tài)測試教育部重點實驗室,山西 太原 030051)
?
基于連續(xù)小波閾值函數(shù)的語音增強技術
陸真1,2,裴東興1,2
(1.中北大學 電子測試技術國家重點實驗室,山西 太原 030051;
2.中北大學 儀器科學與動態(tài)測試教育部重點實驗室,山西 太原 030051)
摘要:在語音信號處理過程中,語音增強目的是盡可能恢復出純凈的原始語音信號。針對純凈語音易被環(huán)境噪聲污染的問題,提出一種連續(xù)的閾值函數(shù),并給出具體推導過程。該函數(shù)在一定程度上克服了傳統(tǒng)函數(shù)的非連續(xù)不可導等問題。語音小波系數(shù)經過該函數(shù)處理后,語音質量得到改善。仿真結果表明:該函數(shù)在一定程度上提高了語音識別系統(tǒng)前端預處理的抗干擾能力,輸入語音的信噪比得到了提高。
關鍵詞:語音增強;閾值函數(shù);信噪比;小波變換
在通信系統(tǒng)中語音會不可避免地受到來自周圍環(huán)境、傳輸媒介引入的噪聲干擾。這些干擾信號最終導致接收到的語音信號并非是純凈的原始語音信號。由于噪聲導致語音質量的下降會使許多語音處理系統(tǒng)的性能急劇惡化,所以,采用語音增強技術進行預處理,將有效地改善系統(tǒng)性能[1,2]。
小波分析是近年來迅速發(fā)展起來的一種時頻域局部分析法。在低頻部分具有較高的頻率分辨率和較低的時間分辨率,在高頻部分具有較高的時間分辨率和較低的頻率分辨率??朔硕虝r傅里葉變換固定分辨率的缺點,能夠將信號在多尺度分辨率上進行小波分解,特別適合用來分析處理語音這種非平穩(wěn)信號[3]。目前小波變換法實現(xiàn)語音增強主要有三種方法:小波閾值去噪法、小波模極大值去噪法、基于小波系數(shù)尺度空間相關性去噪法。
目前小波閾值去噪法的應用最廣,而噪聲閾值估計和合理的閾值函數(shù)是該算法的關鍵技術。Donoho D.L.在理論上證明了利用小波閾值去噪的合理性[4]。之后又提出了小波閾值變換法并提出了軟硬閾值函數(shù)[5]。隨后,學者們相互又提出多種改進的閾值函數(shù)[6],取得了一定的語音增強效果,克服了傳統(tǒng)函數(shù)的不足,但這些函數(shù)的不連續(xù)性,容易導致語音產生附加噪聲,降低了語音的舒適度。本文提出一種連續(xù)可導的小波閾值函數(shù),結合最佳閾值估計,來達到對噪聲污染語音進行增強的目的。
1小波閾值去噪技術
1.1語音信號特征
人的發(fā)聲器官由三部分組成:肺和氣管產生氣源;喉和聲帶組成聲源;咽腔、口腔、鼻腔組成聲道。空氣由肺部排入喉部,經過聲帶進入聲道,最后由嘴輻射出聲波,從而形成語音。在聲帶開啟時,空氣流從聲門噴射出來,形成一個脈沖,聲帶閉合時相應于脈沖序列的間隙期。此時,在聲門處產生一個準周期脈沖狀的空氣流,該空氣流經過聲道后最終從嘴唇輻射出聲波,產生濁音?;l是語音特征中的一個重要參數(shù),聲帶張開閉合的周期決定了基音頻率。男性的基因頻率為50~250 Hz,女性基音頻率一般為100~500 Hz。清音是肺部發(fā)出的空氣流不受影響的通過聲道或聲道突然完全閉合而形成。語音的共振峰是聲音在聲道傳輸中,其頻譜會受到聲道共振特性的影響,聲道而具有的一組共振頻率[7]。
聽覺感知主要是測試響度、音高和掩蔽效應。人耳界限頻率范圍大約為20 Hz~20 kHz,語音的感知強度范圍為0~130 dB[8]。圖1為聽覺模型的一般原理框圖。響度是頻率和強度級的函數(shù),音高被稱作基音,與響度互為補充。掩蔽效應是兩個響度不等的聲音作用于人耳時,響度較高的頻率成分會影響對響度較低頻率成分的感受,使其不容易被察覺。
圖1 聽覺模型一般原理框圖
1.2小波閾值去噪的理論
小波變換的定義為:
(1)
小波重構是小波變換的逆過程。由于處理的數(shù)字語音信號,為了減小計算量,縮減小波系數(shù)信息量的冗余,需要對小波變換進行離散化,即將(1)式中a=2-j,b=k2-j,j,k∈Z。為了提高小波變換的速度,Mallat提出了mallat算法。該算法大大降低了小波變換的計算量,成為處理非平穩(wěn)信號的一種強有力的工具。
小波閾值去噪法的基本思想是對小波變換后的語音高頻信號設定最優(yōu)閾值,大于該閾值的信號保留,屏蔽掉小于閾值的信號,經過閾值處理后的高頻小波系數(shù)和近似低頻信號重構出增強的語音。
1.3小波閾值的估計
小波語音增強過程是比較關鍵的,小波閾值的選取在整個語音增強過程中是比較關鍵的一步,一般需要通過經驗選取。閾值估計一般有局部閾值估計法、全局閾值估計法和區(qū)域閾值估計法。其中全局閾值估計更能適應于實際情況,但是其計算量要高于局部閾值估計[9]。通常選用閾值為:sqtwolog、rigrsure、heursure和minimaxi規(guī)則。
1) sqtwolog規(guī)則:被測信號中含有獨立同分布的噪聲時,經過小波變換后,其噪聲的小波變換系數(shù)是獨立同分布的。若具有獨立同分布的噪聲經過小波分解后,它的系數(shù)序列長度很長,根據(jù)通用閾值理論,存在一個閾值,使得該序列的所有小波系數(shù)都小于它。隨著分解層數(shù)的增大,小波系數(shù)的長度也越來越短,故在噪聲獨立分布的情況下,可以通過設置閾值函數(shù)來達到增強的目的。
2) rigrsure規(guī)則:該閾值是利用Stein的無偏估計求出的SURE閾值。其根據(jù)其閾值產生的風險函數(shù)曲線和最小風險點來確定Stein無偏風險閾值。
3) heursure規(guī)則:啟發(fā)式閾值是通用閾值和regrsure閾值的綜合體,是最優(yōu)的預測變量閾值選擇。當輸入信號的信噪比較小時,SURE的估計會有很大的誤差,此時應該采取固定的閾值準則。
4) minimaxi規(guī)則:極大極小閾值采用的是一種比較固定的閾值,它將產生一個最小均方誤差的極值,是有一定的誤差。
2閾值函數(shù)的選取
2.1傳統(tǒng)小波閾值函數(shù)
閾值函數(shù)與重構信號的精度和連續(xù)性有關,影響著小波去噪的效果。硬閾值函數(shù)和軟閾值函數(shù)是目前最常用的兩種閾值函數(shù),圖2(a)為硬閾值方法,圖2(b)為軟閾值方法,其中,ω是小波系數(shù)的大小,ωλ是施加閾值后小波系數(shù)的大小。
(a) 硬閾值函數(shù)示意圖(b) 軟閾值函數(shù)示意圖
圖2最常用的兩種閾值函數(shù)
硬閾值的性質決定了它處理的信號具有不連續(xù)性,軟閾值的性質決定了它具有比硬閾值更好的連續(xù)性,但它的導數(shù)卻是不連續(xù)的,估計小波系數(shù)與帶噪小波系數(shù)存在恒定偏差,而且對于大于閾值的系數(shù)進行定值壓縮與噪聲隨小波系數(shù)增大而減小的事實不符合。
2.2新的閾值函數(shù)
傳統(tǒng)的小波函數(shù)由于存在自身的不足,在處理信號后不能達到理想的效果。本文提出一種新的閾值函數(shù),它既能實現(xiàn)閾值函數(shù)的功能,又具有二階甚至更高階以上的連續(xù)導數(shù)。
利用指數(shù)函數(shù)的特點,引入一種新閾值函數(shù)為:
(2)
其中,α為一待求常數(shù)??梢?,上式與軟閾值函數(shù)的趨勢相符。令β=1,分別等于1、2、3代入上式,當α取不同值時,所對應的函數(shù)圖形差別較大,因此,在應用中必須選擇合適的α值才能得到最佳效果。
令x=-x代入上式后,得:
(3)
所以,改進的閾值函數(shù)是一個奇函數(shù)。若要求改進閾值函數(shù)單調遞增,則需要滿足:
(4)
對于分母,滿足:
(5)
(6)
由以上分析,進一步可得:
(7)
故當α=2/β時,f(x)取得最小值,故改進的閾值函數(shù)為:
(8)
圖3 本文閾值函數(shù)示意圖
如圖3所示,該函數(shù)對比閾值較小值進行一定的平滑度處理,并且在選定閾值處具有連續(xù)性,克服了傳統(tǒng)閾值函數(shù)的缺點,在大于選定閾值處,閾值趨于y=x直線,減小了固定偏差的問題。該函數(shù)具有連續(xù)性,且高階可導,減小了自身對語音信號的影響。
3實驗結果分析及評價
實驗條件:語音樣本通過Praat軟件錄制“中北大學電子測試重點實驗室”2.25 s語音,采樣頻率為8 kHz。通過高斯添加高斯白噪聲來控制語音信號的輸入信噪比。語音分析采用的幀長為256,選擇50%的重疊,窗函數(shù)為漢明窗,小波基選用db4,對語音幀進行3級分解。評價標準選用信噪比和均方誤差[10]。信噪比反映的是信號的感知質量,表達式如式(9);而均方誤差反映了估計值和實際值的相似程度,其值越小相似度越高,表達式如式(10)。以上評價指標定義如下:
(9)
(10)
表1為不同輸入信噪比下,三種閾值函數(shù)在Stein無偏風險估計閾值下增強語音的輸出信噪比SNRout和均方誤差MSE。
表1 三種閾值函數(shù)增強語音SNRout和MSE的數(shù)據(jù)比較
圖4 (a)原始語音波形,(b)輸入信噪比為1.68被污染的語音波形,
圖5 三種閾值函數(shù)語音增強效果的比較
圖4是輸入信噪比為1.68時,分別對其進行硬閾值函數(shù)、軟閾值函數(shù)和本文閾值函數(shù)得到的語音增強后歸一化波形。圖5為三種閾值函數(shù)下輸出信噪比與輸入信噪比的趨勢圖。
1) 在三種閾值函數(shù)去噪方法下,可以看出,改進閾值函數(shù)明顯優(yōu)于其它兩種方法;
2) 在輸入信噪比相同的情況下,本文閾值函數(shù)法的語音增強效果明顯,特別是在輸入信噪比小于零時;
3) 從語音的舒適感和可懂度上看,本文閾值函數(shù)的效果優(yōu)于軟、硬閾值函數(shù)。
4結論
由于噪聲來源眾多,在不同的應用場合其特性又各不相同,其增加了語音增強算法的復雜性。要實現(xiàn)對語音增強質量的客觀評價,需從語音的清晰度和可懂度兩個方面入手。傳統(tǒng)的閾值函數(shù)一般是分段函數(shù),由于它的不連續(xù)性容易導致處理后的語音產生畸變,如殘留的音樂噪聲,而影響了語音的質量。本文提出了一種閾值函數(shù),該函數(shù)具有連續(xù)可導性,并給出具體的數(shù)學推導表達式,并結合rigrsure規(guī)則下的閾值來對污染的語音信號增強。仿真結果表明:新閾值函數(shù)克服了傳統(tǒng)的閾值去噪的缺點,引入更少的噪聲且語音舒適感更強。
參考文獻
[1]李軼南,張雄偉,曾理,等.改進的稀疏字典學習單通道語音增強算法[J].信號處理,2014(1):44-50.
[2]趙力,黃程韋.實用語音情感識別中的若干關鍵技術[J].數(shù)據(jù)采集與處理,2014(2):157-170.
[3]陶華偉,査誠,梁瑞宇,等.面向語音情感識別的語譜圖特征提取算法[J].東南大學學報(自然科學版),2015(5):817-821.
[4]Donoho D L.De-noising by Soft-thresholding[J].IEEE Trans Inform Theory,1995,41(3):613-627.
[5]Donoho D L,Johnstone I M.Ideal Spatial Adaption by Wavelet Shrinkage[J].Biometrika,1994,81(2):425-455.
[6]徐志奪.基于小波變換的語音增強算法研究[D].哈爾濱:哈爾濱工程大學,2013.
[7]玄成君.基于語音頻率特性抑制音素影響的說話人特征提取[D].天津:天津大學,2014.
[8]顏利君.基于噪聲估計和掩蔽效應的語音增強[D].成都:西南交通大學,2014.
[9]周氏青香.聽覺特性及噪聲估計在語音增強算法中的研究[D].上海:華東理工大學,2013.
[10]張波.基于DSP助聽器的響度補償技術研究[D].太原:中北大學,2014.
The Algorithm of Image Denoising Based on the Optimized Wavelet Thresholding Function
Lu Zhen1,2, Pei Dongxing1,2
(1.NationalKeyLaboratoryforElectronicMeasurementTechnology,NorthUniversityofChina,TaiyuanShanxi030051,China;2.KeyLaboratoryofInstrumentationScience&DynamicMeasurementofMinistryofEducation,NorthUniversityofChina,TaiyuanShanxi030051,China)
Abstract:For the problem that the signal of digital hearing aid is interfered by background noise in the process of receiving and processing, a kind of optimized de-noising algorithm is put forward based on traditional method of wavelet threshold. It has the feature of higher order continuous differentiable, and additionally, the problem of indifferentiable with the traditional method of wavelet thresholding is solved. This threshold function can be used to process the wavelet coefficient of speech signal with noise to have a speech de-noising effect. Eventually, the simulation results show that compared to the noise ratio(SNR),the mean square error(MSE) and speech intelligibility of the speech de-noising signal with the new threshold function the signal are superior to the other non continuous differentiable thresholding function.
Key words:speech signal de-noising; wavelet transform; speech intelligibility; threshold de-noising
中圖分類號:TN912.35
文獻標識碼:A
文章編號:1674- 4578(2016)01- 0040- 03
作者簡介:陸真(1988- ),男,湖北襄陽人,碩士研究生,研究方向:動態(tài)測控與智能儀器、數(shù)字語音與圖像信號處理。
收稿日期:2015-09-21修回日期:2015-10-29