王 杰,楊程程,莫嘉永,王敦澤,王謝謝
WANG Jie1,YANG Chengcheng1,MO Jiayong2,WANG Dunze1,WANG Xiexie1
1.廣州大學 機械與電氣工程學院,廣州 510006
2.廣州市信息安全測評中心,廣州 510635
1.College of Mechanical and Electric Engineering,Guangzhou University,Guangzhou 510006,China
2.Guangzhou Information Technology Security Evaluation Center,Guangzhou 510635,China
目前,隨著業(yè)界對人工智能的日益關注,作為人機接口技術(shù)之一的語音信號處理技術(shù)得以快速發(fā)展。語音增強作為語音信號處理的關鍵技術(shù)的目的是從帶噪語音中恢復出純凈語音[1-7]。在單通道語音增強算法中,先驗信噪比估計算法已經(jīng)得到廣泛的應用[8-11],較為經(jīng)典的有Ephraim和Malah提出的極大似然(Maximum Likelihood,ML)估計算法[9]和直接判決(Decision-Directed,DD)算法[2],以及Plapous提出的改進算法(Two Step Noise Reduction,TSNR)[11]。這些算法在一定程度上都取得了較好的消噪效果,但在低信噪比的環(huán)境下,增強后的語音信號的高次諧波分量丟失十分嚴重,從而造成嚴重的語音失真。為了恢復丟失的高次諧波分量,Plapous等人以先驗信噪比估計的維納濾波法為基礎,提出了諧波重構(gòu)的方法[12],Shen也對此提出了相應的改進算法[13]。
先驗信噪比估計算法在較低的信噪比環(huán)境下無法準確估計出基音周期是諧波重構(gòu)的一個難點。已有實驗研究表明,對語音信號進行二次譜處理,在時域上可以增大聲門激勵產(chǎn)生的語音峰值的幅值,即增強語音的濁音信號;在頻域上可以使功率譜各諧波峰值更為清晰明顯,從而增強了語音信號的周期性[14]?;诖耍疚奶岢隽艘环N基于諧波重構(gòu)的先驗信噪比估計算法。在多種噪聲環(huán)境下的仿真實驗表明,經(jīng)過諧波重構(gòu)的先驗信噪比估計算法能夠有效地恢復諧波分量,提高信噪比,從而改善增強后的語音質(zhì)量。
假設語音信號模型為y(n)=x(n)+d(n),其中帶噪語音y(n)是由純凈語音x(n)和加性噪聲信號d(n)相加而獲得的。在頻域,語音信號模型可以表示為Y(k,l)=X(k,l)+D(k,l),其中 X(k,l),D(k,l)和Y(k,l)分別是x(n),d(n)和y(n)的傅里葉變換,k代表幀數(shù),l代表頻率。DD算法的先驗信噪比(k,l)可以如下表示[11]:
其中,αDD是常數(shù),典型值為0.92≤αDD≤0.98;GDD(k,l-1)是前一幀的增益函數(shù),(k,l-1)是前一幀的后驗信噪比估計值,(k,l)是當前幀的后驗信噪比估計值。
其中,βTSNR(k,l)是由DD算法的先驗信噪比估計值決定的,如下所示:
在先驗信噪比確定的情況下,Plapous算法和DD算法后續(xù)算法步驟是一致的,下面僅考慮DD算法的情況。
帶噪語音信號經(jīng)過DD算法處理后獲得增強后的頻域語音信號為(k,l):
由語音信號的激勵模型可知語音信號的濁音部分具有明顯的周期性,針對語音信號這一特性,可利用二次譜處理的非線性處理方法來增強語音的諧波分量和周期性。二次譜處理定義如下[14]:
根據(jù)文獻[15],對式(6)取傅里葉逆變換并取模,得到濁音語音信號的功率譜二次處理如下所示:
從式(7)中可以看出,輸入的濁音信號經(jīng)過二次譜處理后,是一列相關的函數(shù)串,且在基音周期處取得最大譜峰[15],即等效于二次譜處理后的濁音信號在基音周期處進行了加權(quán)處理,從而增強了語音信號的周期性。
為進一步驗證上述結(jié)論的有效性,對二次譜處理后的語音信號進行求倒譜運算,結(jié)果如圖1所示。
圖1 語音信號倒譜和二次譜處理后的倒譜
圖1是增強后的語音信號的倒譜和再經(jīng)過二次譜處理后的倒譜的對比圖。根據(jù)圖1(a)和圖1(b)對比可以發(fā)現(xiàn),經(jīng)過二次譜處理后的語音信號周期處的峰值明顯增強,語音信號的諧波峰值更加清晰明顯,所以經(jīng)過二次譜處理增強了語音信號的周期性。接下來將基于此進行諧波重構(gòu)。
經(jīng)過二次譜處理后的語音信號,在增強周期處峰值的同時,也抑制了部分幅值較小的共振峰處的信號;但可以根據(jù)濁音信號的諧波結(jié)構(gòu)特性來對丟失的諧波分量進行重構(gòu)。Plapous提出了一種簡單有效的諧波重構(gòu)算法[12],在這種方法中,對語音信號進行非線性處理,非線性處理函數(shù)定義如式(8)所示:
通過上述的分析可以知道,改進的諧波重構(gòu)算法能夠有效地增強語音信號的諧波分量,故本節(jié)將基于此以DD算法和Plapous改進算法為基礎來提升先驗信噪比算法的性能,從而提出經(jīng)過諧波重構(gòu)的DD-HR算法(DD combining with Harmonic Regeneration,DD-HR)和Plapous-HR算法(Plapous combining with harmonic regeneration,Plapous-HR),以DD-HR算法為例,算法可以分三步來實現(xiàn)。具體步驟如下所示:
(1)通過DD算法對帶噪語音信號進行處理,獲得增強后的語音信號()k,l。
圖2 諧波重構(gòu)先驗信噪比估計流程圖
作為測試樣本的純凈語音信號選自Timit Database庫;噪聲樣本選取Noisex-92噪聲庫的白噪聲、Babble噪聲和工廠噪聲。
語音和噪聲的采樣頻率均為8 kHz,幀長為160,步長為80,其余參數(shù)取值:α=0.93,a=5,β=0.84。
如圖3是時域波形圖的仿真結(jié)果,其中(a)為原始語音信號;(b)為信噪比SNR=0的帶噪語音信號,幾乎將原始語音信號淹沒;(c)為DD算法處理后的語音信號,仍然含有一些背景噪聲;(d)為經(jīng)過本文算法處理后的語音信號,可以看出噪聲得到進一步的消除,信號成分得到提升。
圖3 語音信號時域波形圖
圖4 語音信號語譜圖
如圖4是圖3時域波形圖對應的語譜圖。對比圖4中的(c)和(d),可以看出經(jīng)過諧波重構(gòu)的DD算法語譜圖的條紋更為清晰完善,并且相對于DD算法處理后的語音,高次諧波得到了明顯的增強,有效降低了語音失真。
為了進一步驗證算法的性能,對算法進行了主客觀測試,采用AB測試作為主觀測試方法;采用平均段輸出信噪比提高量SegSNRI[16]和噪聲段的平均噪聲抑制量NR[17]作為客觀評價指標。
平均段輸出信噪比提高量SegSNRI表達式如下式所示:
其中,SegSNRinput是輸入語音信號的平均段輸出信噪比,L表示語音段的幀數(shù),s為純凈語音信號,?為算法增強后輸出的語音信號,且在SegSNRI中,其提高量越高,主觀語音質(zhì)量就會越好。
平均噪聲抑制量NR表達式為:
其中,N為語音段的幀數(shù),且在NR中,其抑制量越大,殘留的噪聲就會少,語音質(zhì)量就會越好;y為帶噪語音信號。
將純凈語音信號加入不同類型的噪聲,得到輸入信噪比為0 dB、5 dB和10 dB的含噪語音信號,并采用Martin的MS算法估計噪聲功率譜[10]。
在主觀測試實驗中,隨機選取Timit Database庫中的10段純凈語音,加入白噪聲,得到信噪比為0 dB的10段帶噪語音,分別利用DD算法、Plapous算法及其相應的改進算法對帶噪語音進行處理,從而生成增強后的語音各10組。在AB測試中,定義原算法及其改進算法處理后的語音,測聽較優(yōu)的得“1”分,較差的得“0”分;實驗選取聽力正常,年齡在22~25歲之間7男3女共10人隨機聽取原算法及其改進算法處理的共20組語音,并統(tǒng)計測聽得分,如表1所示。
表1 改進前后的算法AB測試得分
由表1可以看出,在大多數(shù)情況下,經(jīng)諧波重構(gòu)改進的算法處理的語音平均得分較高,故在較強的白噪聲環(huán)境下,本文提出的算法能夠提升原算法的性能。
表2給出了四種算法在不同噪聲環(huán)境下的平均噪聲抑制量和平均段信噪比提高量的對比結(jié)果。
從表2中可以發(fā)現(xiàn),無論是對于平均輸出段信噪比提高量還是對于噪聲抑制量,在大多數(shù)情況下,經(jīng)過諧波重構(gòu)的先驗信噪比估計算法(DD-HR和Plapous-HR算法)的性能要優(yōu)于對應的DD算法和Plapous算法。故本文提出的算法對各類噪聲具有較強的魯棒性,在同等的噪聲環(huán)境下能夠使語音失真較小。
本文以諧波重構(gòu)算法和先驗信噪比估計算法為基礎,提出了基于諧波重構(gòu)的先驗信噪比估計算法。該方法在進行語音諧波信號重構(gòu)之前對語音信號進行二次譜處理,從而增強了語音信號的濁音部分,并突出了語音信號的周期性;然后將諧波增強后的語音信號帶入DD算法和Plapous改進算法中以更新先驗信噪比并獲得相應的增益函數(shù)。這樣不僅有效地抑制了DD算法和Plapous改進算法中殘留的背景噪聲,并且增強了語音信號的諧波分量,可以較好地恢復語音信號,減少語音失真。
表2 四種算法的SegSNRI和NR對比
參考文獻:
[1]Honesty J,Makino S,Chen J.Speechen hancement[M].Berlin:Springer,2005.
[2]Ephraim Y,Malah D.Speech enhancement using a minimum-meansquare error short-time spectral amplitude estimator[J].IEEE Transactions on Acoustics Speech and Signal Processing,2003,32(6):1109-1121.
[3]Scalart P,F(xiàn)ilho J.Speech enhancement based on a priori signal to noise estimation[C]//Proceedings of IEEE International Conference on Acoustics,Speech and Signal Processing,1996:629-632.
[4]熊民權(quán),曾以成,侯麗霞,等.運用MMSE先驗信噪比估計進行語音增強[J].計算機工程與應用,2011,47(27):152-154.
[5]姜占才,孫燕,王得芳.基于譜減和LMS的自適應語音增強[J].計算機工程與應用,2012,48(7):142-145.
[6]鄭成詩,周崟,李曉東.基于聯(lián)合語音出現(xiàn)概率的先驗信噪比估計算法[J].電子與信息學報,2008,30(7):1680-1683.
[7]鄭成詩,胡笑滸,周翊,等.基于噪聲譜結(jié)構(gòu)特性的譜減法[J].聲學學報,2010,35(2):215-222.
[8]Cohen I.Relaxed statistical model for speech enhancement and a priori SNR estimation[J].IEEE Transactions on Speech and Audio Processing,2005,13(5):870-881.
[9]Cappe O.Elimination of the musicaln oise phenomenon with the Ephraim and Malah noise suppressor[J].IEEE Transactions on Speech and Audio Processing,1997,2(3):345-349.
[10]Martin R.Spectral subtraction based on minimum statistics[C]//Proceedings of European Signal Processing Conference,1994:1182-1185.
[11]Plapous C,Marro C,Scalart P.Improved signal-to-noise ratio estimation for speech enhancement[J].IEEE Transactions on Speech and Audio Processing,2006,14(6):2098-2108.
[12]Plapous C,Marro C,Scalart P.Speech enhancement using harmonic regeneration[C]//Proceedings of IEEE International Conference on Acoustics,2005:157-160.
[13]Shen T W,Lun D P,Hsung T C.Speech enhancement using harmonic regeneration with improved wavelet based a-priori signal to noise ratio estimator[C]//Proceedings of International Symposium on Intelligent Signal Processing and communication systems,2010:1-4.
[14]朱建偉,孫水發(fā),但志平,等.改進的功率譜二次處理基音檢測法[J].計算機工程與科學,2010,32(5):140-146.
[15]張?zhí)祢U,張戰(zhàn),權(quán)進國,等.語音信號基音檢測的二次譜方法[J].計算機應用,2005,25(4):934-936.
[16]Rix A W,Beerends J G,Hollier M P,et al.Perceptual Evaluation of Speech Quality(PESQ)[C]//Proceedings of IEEE International Conference on Acoustics,Speech and Signal Processing,2001:749-752.
[17]Cohen I.Analysis of two-channel Generalized Sidelobe Canceller(GSC) with post-filtering[J].IEEE Transactions on Speech and Audio Processing,2003,11(6):684-699.