喬彬彬,江 冰,馬 勝
(1.河海大學(xué)計(jì)算機(jī)與信息學(xué)院,常州 213022;2.江蘇樂眾信息技術(shù)有限公司,常州 213022)
語音數(shù)據(jù)的輸入、輸出以及音頻數(shù)據(jù)處理質(zhì)量是衡量手機(jī)等移動(dòng)終端質(zhì)量的重要因素。目前國內(nèi)外對于手機(jī)音頻部分都有嚴(yán)格的測試標(biāo)準(zhǔn),如國際上的3GPP TS26.131、TS26.132 標(biāo)準(zhǔn),我國CTA 測試中的YD/T1538 -2011 標(biāo)準(zhǔn)等[1]。以下以手機(jī)設(shè)計(jì)為例,由于手機(jī)自身結(jié)構(gòu)和使用者所處環(huán)境因素的影響,通話會受到各種噪聲干擾,如:環(huán)境噪聲、會話回音等,從而導(dǎo)致語音質(zhì)量嚴(yán)重下降,因此,降噪技術(shù)顯得十分重要。
由于噪聲種類的多樣性,以及噪聲與噪聲之間特性的差異,針對不同的噪聲需采用不同的降噪方法。目前對于可加性噪聲的降噪處理算法可歸納為三大類:第一類是時(shí)域處理,如基于參數(shù)與模型的方法等;第二類是頻域處理,典型的有減譜法和自適應(yīng)濾波器算法等;其余的噪聲處理方法歸為第三類,這部分主要有小波變換法和聽覺隱藏法等。非加性噪聲的處理可以通過變換使其轉(zhuǎn)換為可加性噪聲來處理,如同態(tài)濾波法等[2-4]。
語音信號是一種平穩(wěn)的、時(shí)變的隨機(jī)信號,語音在生成過程中與發(fā)音器官的運(yùn)動(dòng)密切相關(guān)。由于人類的發(fā)生器官在發(fā)聲過程中的變化速度遠(yuǎn)小于語音信號的變化速度,因此可以假定語音信號是短時(shí)平穩(wěn)的,即在10~30ms 內(nèi)認(rèn)為其某些物理特性和頻譜特性保持不變。噪聲可以分為可加性噪聲和非可加性噪聲,可加性噪聲主要有:周期噪聲、脈沖噪聲、寬帶噪聲等。非可加性噪聲主要有殘響和傳送網(wǎng)絡(luò)的電路噪聲等[5]。
通常所要處理的環(huán)境噪聲可認(rèn)為是一種可加性的寬帶噪聲,其特點(diǎn)是噪聲頻譜遍布于語音信號頻譜中,處理起來難度較大。為此這里利用語音信號的短時(shí)平穩(wěn)特性以及噪聲信號相關(guān)性較弱的特點(diǎn),建立含噪語音的觀測模型,其形式如公式(1)所示:
其中s(t)為純凈的語音信號,n(t)認(rèn)為是近似白噪聲的干擾信號,y(t)為語音的噪聲觀察,即含噪語音。下文將基于此觀測模型對含噪語音信號進(jìn)行分析處理。
基于短時(shí)譜相估計(jì)的減譜法是一種發(fā)展較早的語音增強(qiáng)方法,減譜法具有算法簡單、運(yùn)算量小的特點(diǎn),便于信號的快速處理,同時(shí)獲得較高的輸出信噪比。
利用式(1)所示的語音信號觀察模型,并對y(t)進(jìn)行分幀加窗處理,可得語音信號的分幀觀測模型:
其中:m∈(0,M -1);t∈(0,T -1),m為語音幀編號,t為每幀語音信號的采樣點(diǎn)編號,M、T 分別是語音數(shù)據(jù)所分成的幀數(shù)以及每段語音幀的采樣點(diǎn)數(shù)。
分別設(shè)ym(t)、sm(t)、nm(t)的傅里葉變換為Yk(w)、Sk(w)、Nk(w),則有:
由上式可得:
由于語音信號sm(t)和噪聲信號nm(t)相互獨(dú)立,所以Sk(w)、Nk(w)也相互獨(dú)立,同時(shí)由于Nk(w)為0 均值的高斯分布,所以有:
代入上式得:
對于第m 幀的短時(shí)平穩(wěn)過程,有:
這里的噪聲通過MIC1 單獨(dú)采樣,所以nm(t)可認(rèn)為是已知量,所以有:
分別設(shè)ym(t)、sm(t)、nm(t)的功率譜為Py(w)、Ps(w)、Pn(w),由此可得原始語音的估計(jì)值為:
在具體運(yùn)算時(shí),為防止出現(xiàn)負(fù)功率譜的情況,當(dāng)Py(w)<Pn(w)時(shí),令Ps(w)=0,則減譜法運(yùn)算公式可歸納為:
減譜法語音增強(qiáng)技術(shù)的基本原理如圖1 所示,當(dāng)進(jìn)行頻域處理的過程中只考慮功率譜的變換,在最后IFFT 變換中借助相位譜來恢復(fù)降噪后的語音時(shí)域信號。
圖1 基本減譜法原理圖
由于人耳對相位變化不敏感的特點(diǎn),可以利用源語音信號的相位譜來代替估計(jì)后的語音信號相位譜從而恢復(fù)降噪后的語音時(shí)域信號。
由于語音的能量通常集中在某些頻段內(nèi),這些頻段內(nèi)的幅度相對較高,而基本減譜法是對整個(gè)語音段減去相同的噪聲功率譜。同時(shí)由于隨機(jī)噪聲的幀功率譜是隨機(jī)變化的,其大小值之間的比值可以達(dá)到幾個(gè)數(shù)量級,因此,減譜后仍會有較大的殘余噪聲。這里引入減譜噪聲系數(shù)α,在幅度較高的時(shí)域幀處減去αPn(w)(α >1),以更好的突出語音譜,提高系統(tǒng)的降噪處理能力。
其中α >1,b?1。
此外,還需要對功率譜進(jìn)行修正處理,以增加靈活性,通過引入功率譜系數(shù)β,由基本減譜法得到新的更具一般性的減譜法算法,其公式如(13)所示:
經(jīng)功率譜修正處理后,適當(dāng)?shù)恼{(diào)節(jié)功率譜系數(shù)β的值可以取得更佳的語音增強(qiáng)效果,其靈活性得到進(jìn)一步的提高。
基于以上的修改,基本減譜法的改進(jìn)形式可表示為:
其中,在語音能量較高的區(qū)域令α >1,以多減去一個(gè)噪聲分量,可起到突出語音頻譜的作用。功率譜系數(shù)β的作用是提高信噪比,增大系數(shù)β 值時(shí),系統(tǒng)信噪比可得到提高,反之則減小。
在減譜過程中,系數(shù)α、β 值需要在不同的語音幀處理中根據(jù)實(shí)際情況來動(dòng)態(tài)調(diào)整。這樣可以在減譜過程中提高信噪比的同時(shí)避免不必要的語音失真,以保證增強(qiáng)后語音信號的清晰度。
設(shè)P為信號幀功率譜,Pm為信號幀功率譜的最大值。
其中,M、N為根據(jù)語音數(shù)據(jù)實(shí)際情況來調(diào)整的系數(shù)。當(dāng)P 與Pm的比較小時(shí),此時(shí)噪聲分量較小,α 值較小;當(dāng)P 與Pm的比較大時(shí),此時(shí)噪聲分量較大,α 值較大。同理可得β 值的變化規(guī)律。
實(shí)驗(yàn)語音是一段電話通話錄音,干擾噪聲是從SPB的噪聲庫下載的純白噪聲和工廠背景噪聲,通過與語音信號的疊加得到含噪語音信號,數(shù)據(jù)采樣頻率為44100Hz,16bit的wav 文件。在程序設(shè)計(jì)中采用幀間重疊譜法進(jìn)行語音處理,每幀采樣點(diǎn)256個(gè),重疊區(qū)域185個(gè)點(diǎn),去前十幀為噪聲幀。算法實(shí)現(xiàn)結(jié)合圖1 減譜法基本原理,用C 語言對算法進(jìn)行編程驗(yàn)證。
圖2 白噪聲環(huán)境下降噪效果對比
圖3 工廠環(huán)境下降噪效果對比
圖2、圖3 分別給出了語音信號在純白噪聲干擾下和工廠背景噪聲干擾下基本減譜法和改進(jìn)減譜法的降噪結(jié)果。
通過主觀試聽以及對比處理前后的波形圖可知,在純白噪聲環(huán)境,即噪聲功率分布均勻的情況下,基本減譜法與改進(jìn)減譜法降噪效果區(qū)別不大;在工廠環(huán)境,即噪聲功率譜比較集中的情況下,改進(jìn)減譜法的降噪效果明顯優(yōu)于基本減譜法的降噪效果。實(shí)驗(yàn)驗(yàn)證了改進(jìn)減譜法的可行性以及對于噪聲處理的靈活性。
通過對基本減譜法的降噪原理分析,以短時(shí)譜相估計(jì)為基礎(chǔ),通過引入減譜噪聲系數(shù)α 和功率譜系數(shù)β 對基本減譜法進(jìn)行改進(jìn),實(shí)驗(yàn)對比了純白噪聲環(huán)境和工廠環(huán)境下的降噪效果。通過主觀試聽和波形觀察,得出改進(jìn)的減譜法能有效降低噪聲的干擾,大幅度提高帶噪語音的輸出信噪比。
[1]YD/T 1538 -2011.數(shù)字移動(dòng)終端音頻性能技術(shù)要求及測試方法[S].中國大陸:中國通信標(biāo)準(zhǔn)化協(xié)會,2011年5 月.
[2]王振力,張雄偉,楊吉斌,韓彥明.基于去相關(guān)NLMS 算法的自適應(yīng)回波抵消[J].應(yīng)用科學(xué)學(xué)報(bào),2006,24(1):21 -24.
[3]朱俊敏,張瀟,王旌陽,吳粵北.基于模極大值和尺度理論的音頻降噪方法[J].振動(dòng)與沖擊,2002,28(11):168 -172.
[4]黃玫,李雙田.改進(jìn)的正弦模型在音頻時(shí)域修正中的應(yīng)用[J].語音技術(shù),2008,32(3):49 -51.
[5]黃蘇雨,梁聲灼,黃蘇園.語音增強(qiáng)方法綜述[J].計(jì)算機(jī)與現(xiàn)代化,2006,46(10):1685 -1687.