李真,李郡,任慧
(1. 中國傳媒大學信息與通信工程學院,北京100024;2.視聽技術與智能控制系統(tǒng)文化和旅游部重點實驗室,北京100024;3.現(xiàn)代演藝技術北京市重點實驗室,北京100024)
語音增強是指通過降低或抑制背景噪聲,提高帶有噪聲的語音信號的質(zhì)量和可懂度,也稱作語音降噪[1-4]。2008年Kamil Wójcicki 等提出改變帶噪語音的相位譜,而不改變帶噪語音的幅度譜的相位譜補償(phase spectrum compensation PSC)語音增強方法[5][6]。PSC采用固定的參數(shù)對相位譜進行調(diào)整,其存在的問題是在噪聲強度較大的情況下,噪聲去除效果并不理想,會有殘留噪聲。為了解決這一問題,本文提出一種改進的相位譜補償算法(modified phase spectrum compensation MPSC),可根據(jù)分段信噪比設定可變的調(diào)整參數(shù)。取得了較好的語音增強效果。
設含加性噪聲的帶噪語音可表示為y(n)=x(n)+d(n),其中y(n)、x(n)、d(n)分別表示帶噪語音、純凈語音和噪聲的離散信號。其中帶噪語音的短時傅里葉變化表示為Y(n,k)=|Y(n,k)|ej∠Y(n,k),其中|Y(n,k)|表示其幅度譜,∠Y(n,k)表示其相位譜。帶噪語音信號因為其是實信號,所以其離散傅里葉變換是共軛對稱的,在信號重構階段,兩個共軛向量的和向量是最終重構后形成時域信號的關鍵,和向量在實軸上投影的大小決定了增強后時域信號的幅度的強弱,所以可以通過修改兩個向量的共軛關系來實現(xiàn)信號的壓縮。這就是相位譜補償方法的原理。
其相位補償過程如下:
首先,帶噪復頻譜被一個和頻率有關的實值函數(shù)Λ(k)補償
(1)
其中為了達到刪除效果,Λ(k)是關于Fs/2(采樣頻率的一半)非對稱的,采用如下的簡單反對稱函數(shù)
(2)
其中λ是實值常數(shù),N是頻率分析的長度,假設為偶數(shù)。
第二步,YΛ(n,k)通過反正切函數(shù)的四象限變換計算改變的相位譜
(3)
其中Im{·}和Re{·}指對YΛ(n,k)求虛部和實部。我們把改變的相位譜指定為偽相位譜,因為它不具備真實相位譜的性能。之后偽相位譜和帶噪語音的幅度譜進行重新合成產(chǎn)生改進的復頻譜。
(4)
信號幅值改變很有限
信號幅值發(fā)生明顯改變圖1 相位譜補償語音增強算法矢量原理圖
從圖1中可以看出,對于給定λ值,對不同信號段的影響是不同的。λ大于信號幅度值才會對信號造成明顯的衰減作用,如果想減弱噪聲的影響,則值應該大于噪聲幅度值。對于信噪比較高的語音信號,噪聲幅度相對較小,此時通過引入非對稱函數(shù)產(chǎn)生的相位補償作用能實現(xiàn)對噪聲的明顯消除。
該算法的關鍵是Λ(k)的選取,由式(2)知Λ(k)函數(shù)選取即λ值的選取。λ取值越大,對共軛向量的影響就越大,從而對帶噪語音信號的壓縮程度就越大,但是λ值選取過大有可能會造成信號失真,λ值選取過小,對噪聲壓縮程度較小,會使去噪效果較差,導致更多的殘留噪聲。文獻[6]中提出λ的經(jīng)驗值為3.74,在整個語音信號期間其值不變,實驗證明采用固定λ值雖然取得了較好的去噪效果,但是在噪聲強度比較大的情況下,如靜音段,噪聲去除效果并不理想,仍會有殘留噪聲,如圖2(c)所示,選取經(jīng)驗值λ=3.74,可以看到噪聲得到了很大幅度的消減,但是在靜音段仍殘留較多噪聲。所以能否調(diào)整λ的取值,使其在噪聲能量比較大的段(如語音間隙),取值較大,從而也可以較大限度消減噪聲。
(a)純凈語音波形圖 (b)10dB高斯白噪聲干擾信號波形圖
(c)采用λ=3.74相位譜補償后語音波形圖 (d)改進相位補償后語音波形圖圖2 語音時域波形圖
基于上面所提PSC算法所存在的問題,本文提出一個根據(jù)分段信噪比調(diào)整λ值的改進相位譜補償算法(Modified Phase Spectrum Compensation MPSC),使λ值根據(jù)噪聲強度進行調(diào)整。分段信噪比定義如式(5)。
(5)
在語音信號的靜音間隙期間的信號能量將非常小,進而導致大的負分段信噪比值,文獻[7]提出解決這個問題的方法是將SNRseg的值限制在[-10dB,35dB]。基于此,在靜音段設定SNRseg=-10dB。圖3所示是不同輸入信噪比語音信號所對應的分段信噪比,從圖中可以看出SNRseg<-5dB時,已基本處于無語音的靜音段,所以將SNRseg=-5dB作為臨界點,SNRseg>-5dB語音信號起主要作用,可選取經(jīng)驗值,設置λ=3.74,當SNRseg<-5dB時,噪聲信號起主要作用,此時λ取值可高于3.74,從而更加有效的壓縮噪聲,提高語音質(zhì)量?;诖颂岢靓嗽O置公式如式(6)所示。
圖3 白噪聲環(huán)境下不同信噪比語音信號的分段信噪比
(6)
λ*的選取越大越好,但是也不能過大,如何選取λ*的值,通過一系列實驗得到表1,是在不同信噪比下,不同λ*所對應的PESQ值,從表中可以看到λ*取18時,在輸入語音信噪比為0dB,5 dB,10 dB都可取得最好的語音質(zhì)量,在15dB時的語音質(zhì)量僅次于最優(yōu)值,所以確定非對稱函數(shù)的設置公式為式(7)。
(7)
改進相位補償算法的流程如圖4所示。首先對信號進行分幀、加窗,傅里葉變換,之后計算每一幀的信噪比,根據(jù)信噪比的臨界設定值,由式(7)確定λ值大小,根據(jù)式(1)、式(2)和式(3)確定該幀的補償相位譜,確定每幀的補償相位譜后,最終與帶噪語音幅度譜合成復頻譜,進行傅里葉逆變換,得到增強后的語音信號。
表1 不同信噪比時不同λ*取值所對應的PESQ值
圖4 改進相位譜補償算法流程圖
圖2(d)是改進相位補償法的時域語音波形圖,從圖中可以看出相比原相位補償法,其在語音間隙的噪聲進一步得到了抑制。圖5分別是white白噪聲、street噪聲及car噪聲情況下相位補償算法和改進相位補償算法對帶噪語音增強后提高的PESQ分值。從這三個圖可以看出在不同輸入信噪比,不同噪聲環(huán)境下改進相位譜補償法在語音質(zhì)量的提高上均比原來相位譜補償法取得更顯著效果。并且這幾種噪聲環(huán)境中,白噪聲環(huán)境下的ΔPESQ值最大,說明對白噪聲的增強效果最好。而且語音質(zhì)量提高隨著信噪比的提高而更明顯,進一步證明了相位譜補償法在高輸入信噪比情況下,對噪聲的抑制更大,語音增強效果更好。
(a)white噪聲 (b)street噪聲 (c)car噪聲圖5 不同噪聲環(huán)境下兩種相位譜補償法提高的ΔPESQ
本文對相位補償算法所存在的參數(shù)不可調(diào)整的問題進行改進,提出了根據(jù)分段信噪比調(diào)整參數(shù)的改進的相位譜補償算法,使得在噪聲強度較大的靜音段也能取得較好的語音增強效果,并將改進的相位譜補償算法和傳統(tǒng)的幅度譜估計算法結(jié)合。實驗結(jié)果表明該方法有效提高了帶噪語音中分段信噪比較低的部分的去噪效果,相比PSC方法取得了更好的語音增強質(zhì)量。