王 杰,楊程程,莫嘉永,王敦澤,王謝謝
WANG Jie1,YANG Chengcheng1,MO Jiayong2,WANG Dunze1,WANG Xiexie1
1.廣州大學(xué) 機(jī)械與電氣工程學(xué)院,廣州 510006
2.廣州市信息安全測(cè)評(píng)中心,廣州 510635
1.College of Mechanical and Electric Engineering,Guangzhou University,Guangzhou 510006,China
2.Guangzhou Information Technology Security Evaluation Center,Guangzhou 510635,China
目前,隨著業(yè)界對(duì)人工智能的日益關(guān)注,作為人機(jī)接口技術(shù)之一的語(yǔ)音信號(hào)處理技術(shù)得以快速發(fā)展。語(yǔ)音增強(qiáng)作為語(yǔ)音信號(hào)處理的關(guān)鍵技術(shù)的目的是從帶噪語(yǔ)音中恢復(fù)出純凈語(yǔ)音[1-7]。在單通道語(yǔ)音增強(qiáng)算法中,先驗(yàn)信噪比估計(jì)算法已經(jīng)得到廣泛的應(yīng)用[8-11],較為經(jīng)典的有Ephraim和Malah提出的極大似然(Maximum Likelihood,ML)估計(jì)算法[9]和直接判決(Decision-Directed,DD)算法[2],以及Plapous提出的改進(jìn)算法(Two Step Noise Reduction,TSNR)[11]。這些算法在一定程度上都取得了較好的消噪效果,但在低信噪比的環(huán)境下,增強(qiáng)后的語(yǔ)音信號(hào)的高次諧波分量丟失十分嚴(yán)重,從而造成嚴(yán)重的語(yǔ)音失真。為了恢復(fù)丟失的高次諧波分量,Plapous等人以先驗(yàn)信噪比估計(jì)的維納濾波法為基礎(chǔ),提出了諧波重構(gòu)的方法[12],Shen也對(duì)此提出了相應(yīng)的改進(jìn)算法[13]。
先驗(yàn)信噪比估計(jì)算法在較低的信噪比環(huán)境下無(wú)法準(zhǔn)確估計(jì)出基音周期是諧波重構(gòu)的一個(gè)難點(diǎn)。已有實(shí)驗(yàn)研究表明,對(duì)語(yǔ)音信號(hào)進(jìn)行二次譜處理,在時(shí)域上可以增大聲門激勵(lì)產(chǎn)生的語(yǔ)音峰值的幅值,即增強(qiáng)語(yǔ)音的濁音信號(hào);在頻域上可以使功率譜各諧波峰值更為清晰明顯,從而增強(qiáng)了語(yǔ)音信號(hào)的周期性[14]。基于此,本文提出了一種基于諧波重構(gòu)的先驗(yàn)信噪比估計(jì)算法。在多種噪聲環(huán)境下的仿真實(shí)驗(yàn)表明,經(jīng)過諧波重構(gòu)的先驗(yàn)信噪比估計(jì)算法能夠有效地恢復(fù)諧波分量,提高信噪比,從而改善增強(qiáng)后的語(yǔ)音質(zhì)量。
假設(shè)語(yǔ)音信號(hào)模型為y(n)=x(n)+d(n),其中帶噪語(yǔ)音y(n)是由純凈語(yǔ)音x(n)和加性噪聲信號(hào)d(n)相加而獲得的。在頻域,語(yǔ)音信號(hào)模型可以表示為Y(k,l)=X(k,l)+D(k,l),其中 X(k,l),D(k,l)和Y(k,l)分別是x(n),d(n)和y(n)的傅里葉變換,k代表幀數(shù),l代表頻率。DD算法的先驗(yàn)信噪比(k,l)可以如下表示[11]:
其中,αDD是常數(shù),典型值為0.92≤αDD≤0.98;GDD(k,l-1)是前一幀的增益函數(shù),(k,l-1)是前一幀的后驗(yàn)信噪比估計(jì)值,(k,l)是當(dāng)前幀的后驗(yàn)信噪比估計(jì)值。
其中,βTSNR(k,l)是由DD算法的先驗(yàn)信噪比估計(jì)值決定的,如下所示:
在先驗(yàn)信噪比確定的情況下,Plapous算法和DD算法后續(xù)算法步驟是一致的,下面僅考慮DD算法的情況。
帶噪語(yǔ)音信號(hào)經(jīng)過DD算法處理后獲得增強(qiáng)后的頻域語(yǔ)音信號(hào)為(k,l):
由語(yǔ)音信號(hào)的激勵(lì)模型可知語(yǔ)音信號(hào)的濁音部分具有明顯的周期性,針對(duì)語(yǔ)音信號(hào)這一特性,可利用二次譜處理的非線性處理方法來增強(qiáng)語(yǔ)音的諧波分量和周期性。二次譜處理定義如下[14]:
根據(jù)文獻(xiàn)[15],對(duì)式(6)取傅里葉逆變換并取模,得到濁音語(yǔ)音信號(hào)的功率譜二次處理如下所示:
從式(7)中可以看出,輸入的濁音信號(hào)經(jīng)過二次譜處理后,是一列相關(guān)的函數(shù)串,且在基音周期處取得最大譜峰[15],即等效于二次譜處理后的濁音信號(hào)在基音周期處進(jìn)行了加權(quán)處理,從而增強(qiáng)了語(yǔ)音信號(hào)的周期性。
為進(jìn)一步驗(yàn)證上述結(jié)論的有效性,對(duì)二次譜處理后的語(yǔ)音信號(hào)進(jìn)行求倒譜運(yùn)算,結(jié)果如圖1所示。
圖1 語(yǔ)音信號(hào)倒譜和二次譜處理后的倒譜
圖1是增強(qiáng)后的語(yǔ)音信號(hào)的倒譜和再經(jīng)過二次譜處理后的倒譜的對(duì)比圖。根據(jù)圖1(a)和圖1(b)對(duì)比可以發(fā)現(xiàn),經(jīng)過二次譜處理后的語(yǔ)音信號(hào)周期處的峰值明顯增強(qiáng),語(yǔ)音信號(hào)的諧波峰值更加清晰明顯,所以經(jīng)過二次譜處理增強(qiáng)了語(yǔ)音信號(hào)的周期性。接下來將基于此進(jìn)行諧波重構(gòu)。
經(jīng)過二次譜處理后的語(yǔ)音信號(hào),在增強(qiáng)周期處峰值的同時(shí),也抑制了部分幅值較小的共振峰處的信號(hào);但可以根據(jù)濁音信號(hào)的諧波結(jié)構(gòu)特性來對(duì)丟失的諧波分量進(jìn)行重構(gòu)。Plapous提出了一種簡(jiǎn)單有效的諧波重構(gòu)算法[12],在這種方法中,對(duì)語(yǔ)音信號(hào)進(jìn)行非線性處理,非線性處理函數(shù)定義如式(8)所示:
通過上述的分析可以知道,改進(jìn)的諧波重構(gòu)算法能夠有效地增強(qiáng)語(yǔ)音信號(hào)的諧波分量,故本節(jié)將基于此以DD算法和Plapous改進(jìn)算法為基礎(chǔ)來提升先驗(yàn)信噪比算法的性能,從而提出經(jīng)過諧波重構(gòu)的DD-HR算法(DD combining with Harmonic Regeneration,DD-HR)和Plapous-HR算法(Plapous combining with harmonic regeneration,Plapous-HR),以DD-HR算法為例,算法可以分三步來實(shí)現(xiàn)。具體步驟如下所示:
(1)通過DD算法對(duì)帶噪語(yǔ)音信號(hào)進(jìn)行處理,獲得增強(qiáng)后的語(yǔ)音信號(hào)()k,l。
圖2 諧波重構(gòu)先驗(yàn)信噪比估計(jì)流程圖
作為測(cè)試樣本的純凈語(yǔ)音信號(hào)選自Timit Database庫(kù);噪聲樣本選取Noisex-92噪聲庫(kù)的白噪聲、Babble噪聲和工廠噪聲。
語(yǔ)音和噪聲的采樣頻率均為8 kHz,幀長(zhǎng)為160,步長(zhǎng)為80,其余參數(shù)取值:α=0.93,a=5,β=0.84。
如圖3是時(shí)域波形圖的仿真結(jié)果,其中(a)為原始語(yǔ)音信號(hào);(b)為信噪比SNR=0的帶噪語(yǔ)音信號(hào),幾乎將原始語(yǔ)音信號(hào)淹沒;(c)為DD算法處理后的語(yǔ)音信號(hào),仍然含有一些背景噪聲;(d)為經(jīng)過本文算法處理后的語(yǔ)音信號(hào),可以看出噪聲得到進(jìn)一步的消除,信號(hào)成分得到提升。
圖3 語(yǔ)音信號(hào)時(shí)域波形圖
圖4 語(yǔ)音信號(hào)語(yǔ)譜圖
如圖4是圖3時(shí)域波形圖對(duì)應(yīng)的語(yǔ)譜圖。對(duì)比圖4中的(c)和(d),可以看出經(jīng)過諧波重構(gòu)的DD算法語(yǔ)譜圖的條紋更為清晰完善,并且相對(duì)于DD算法處理后的語(yǔ)音,高次諧波得到了明顯的增強(qiáng),有效降低了語(yǔ)音失真。
為了進(jìn)一步驗(yàn)證算法的性能,對(duì)算法進(jìn)行了主客觀測(cè)試,采用AB測(cè)試作為主觀測(cè)試方法;采用平均段輸出信噪比提高量SegSNRI[16]和噪聲段的平均噪聲抑制量NR[17]作為客觀評(píng)價(jià)指標(biāo)。
平均段輸出信噪比提高量SegSNRI表達(dá)式如下式所示:
其中,SegSNRinput是輸入語(yǔ)音信號(hào)的平均段輸出信噪比,L表示語(yǔ)音段的幀數(shù),s為純凈語(yǔ)音信號(hào),?為算法增強(qiáng)后輸出的語(yǔ)音信號(hào),且在SegSNRI中,其提高量越高,主觀語(yǔ)音質(zhì)量就會(huì)越好。
平均噪聲抑制量NR表達(dá)式為:
其中,N為語(yǔ)音段的幀數(shù),且在NR中,其抑制量越大,殘留的噪聲就會(huì)少,語(yǔ)音質(zhì)量就會(huì)越好;y為帶噪語(yǔ)音信號(hào)。
將純凈語(yǔ)音信號(hào)加入不同類型的噪聲,得到輸入信噪比為0 dB、5 dB和10 dB的含噪語(yǔ)音信號(hào),并采用Martin的MS算法估計(jì)噪聲功率譜[10]。
在主觀測(cè)試實(shí)驗(yàn)中,隨機(jī)選取Timit Database庫(kù)中的10段純凈語(yǔ)音,加入白噪聲,得到信噪比為0 dB的10段帶噪語(yǔ)音,分別利用DD算法、Plapous算法及其相應(yīng)的改進(jìn)算法對(duì)帶噪語(yǔ)音進(jìn)行處理,從而生成增強(qiáng)后的語(yǔ)音各10組。在AB測(cè)試中,定義原算法及其改進(jìn)算法處理后的語(yǔ)音,測(cè)聽較優(yōu)的得“1”分,較差的得“0”分;實(shí)驗(yàn)選取聽力正常,年齡在22~25歲之間7男3女共10人隨機(jī)聽取原算法及其改進(jìn)算法處理的共20組語(yǔ)音,并統(tǒng)計(jì)測(cè)聽得分,如表1所示。
表1 改進(jìn)前后的算法AB測(cè)試得分
由表1可以看出,在大多數(shù)情況下,經(jīng)諧波重構(gòu)改進(jìn)的算法處理的語(yǔ)音平均得分較高,故在較強(qiáng)的白噪聲環(huán)境下,本文提出的算法能夠提升原算法的性能。
表2給出了四種算法在不同噪聲環(huán)境下的平均噪聲抑制量和平均段信噪比提高量的對(duì)比結(jié)果。
從表2中可以發(fā)現(xiàn),無(wú)論是對(duì)于平均輸出段信噪比提高量還是對(duì)于噪聲抑制量,在大多數(shù)情況下,經(jīng)過諧波重構(gòu)的先驗(yàn)信噪比估計(jì)算法(DD-HR和Plapous-HR算法)的性能要優(yōu)于對(duì)應(yīng)的DD算法和Plapous算法。故本文提出的算法對(duì)各類噪聲具有較強(qiáng)的魯棒性,在同等的噪聲環(huán)境下能夠使語(yǔ)音失真較小。
本文以諧波重構(gòu)算法和先驗(yàn)信噪比估計(jì)算法為基礎(chǔ),提出了基于諧波重構(gòu)的先驗(yàn)信噪比估計(jì)算法。該方法在進(jìn)行語(yǔ)音諧波信號(hào)重構(gòu)之前對(duì)語(yǔ)音信號(hào)進(jìn)行二次譜處理,從而增強(qiáng)了語(yǔ)音信號(hào)的濁音部分,并突出了語(yǔ)音信號(hào)的周期性;然后將諧波增強(qiáng)后的語(yǔ)音信號(hào)帶入DD算法和Plapous改進(jìn)算法中以更新先驗(yàn)信噪比并獲得相應(yīng)的增益函數(shù)。這樣不僅有效地抑制了DD算法和Plapous改進(jìn)算法中殘留的背景噪聲,并且增強(qiáng)了語(yǔ)音信號(hào)的諧波分量,可以較好地恢復(fù)語(yǔ)音信號(hào),減少語(yǔ)音失真。
表2 四種算法的SegSNRI和NR對(duì)比
參考文獻(xiàn):
[1]Honesty J,Makino S,Chen J.Speechen hancement[M].Berlin:Springer,2005.
[2]Ephraim Y,Malah D.Speech enhancement using a minimum-meansquare error short-time spectral amplitude estimator[J].IEEE Transactions on Acoustics Speech and Signal Processing,2003,32(6):1109-1121.
[3]Scalart P,F(xiàn)ilho J.Speech enhancement based on a priori signal to noise estimation[C]//Proceedings of IEEE International Conference on Acoustics,Speech and Signal Processing,1996:629-632.
[4]熊民權(quán),曾以成,侯麗霞,等.運(yùn)用MMSE先驗(yàn)信噪比估計(jì)進(jìn)行語(yǔ)音增強(qiáng)[J].計(jì)算機(jī)工程與應(yīng)用,2011,47(27):152-154.
[5]姜占才,孫燕,王得芳.基于譜減和LMS的自適應(yīng)語(yǔ)音增強(qiáng)[J].計(jì)算機(jī)工程與應(yīng)用,2012,48(7):142-145.
[6]鄭成詩(shī),周崟,李曉東.基于聯(lián)合語(yǔ)音出現(xiàn)概率的先驗(yàn)信噪比估計(jì)算法[J].電子與信息學(xué)報(bào),2008,30(7):1680-1683.
[7]鄭成詩(shī),胡笑滸,周翊,等.基于噪聲譜結(jié)構(gòu)特性的譜減法[J].聲學(xué)學(xué)報(bào),2010,35(2):215-222.
[8]Cohen I.Relaxed statistical model for speech enhancement and a priori SNR estimation[J].IEEE Transactions on Speech and Audio Processing,2005,13(5):870-881.
[9]Cappe O.Elimination of the musicaln oise phenomenon with the Ephraim and Malah noise suppressor[J].IEEE Transactions on Speech and Audio Processing,1997,2(3):345-349.
[10]Martin R.Spectral subtraction based on minimum statistics[C]//Proceedings of European Signal Processing Conference,1994:1182-1185.
[11]Plapous C,Marro C,Scalart P.Improved signal-to-noise ratio estimation for speech enhancement[J].IEEE Transactions on Speech and Audio Processing,2006,14(6):2098-2108.
[12]Plapous C,Marro C,Scalart P.Speech enhancement using harmonic regeneration[C]//Proceedings of IEEE International Conference on Acoustics,2005:157-160.
[13]Shen T W,Lun D P,Hsung T C.Speech enhancement using harmonic regeneration with improved wavelet based a-priori signal to noise ratio estimator[C]//Proceedings of International Symposium on Intelligent Signal Processing and communication systems,2010:1-4.
[14]朱建偉,孫水發(fā),但志平,等.改進(jìn)的功率譜二次處理基音檢測(cè)法[J].計(jì)算機(jī)工程與科學(xué),2010,32(5):140-146.
[15]張?zhí)祢U,張戰(zhàn),權(quán)進(jìn)國(guó),等.語(yǔ)音信號(hào)基音檢測(cè)的二次譜方法[J].計(jì)算機(jī)應(yīng)用,2005,25(4):934-936.
[16]Rix A W,Beerends J G,Hollier M P,et al.Perceptual Evaluation of Speech Quality(PESQ)[C]//Proceedings of IEEE International Conference on Acoustics,Speech and Signal Processing,2001:749-752.
[17]Cohen I.Analysis of two-channel Generalized Sidelobe Canceller(GSC) with post-filtering[J].IEEE Transactions on Speech and Audio Processing,2003,11(6):684-699.