張國峰,丁 波
(珠海醫(yī)凱電子科技有限公司,廣東 珠海 519041)
通信系統(tǒng)中傳輸?shù)恼Z音通常都會受到外部環(huán)境噪聲和系統(tǒng)內(nèi)部噪聲的影響,這會影響通信系統(tǒng)的性能。語音增強(qiáng)是抑制噪聲干擾的重要手段,其目的是增強(qiáng)含噪語音中的有用信號,提高含噪語音的信噪比。在實(shí)際應(yīng)用中,語音增強(qiáng)系統(tǒng)的輸入通道可以分為單通道[1]、雙通道[2]和多通道[3]。一般來說,輸入通道越多,語音增強(qiáng)的效果就越好,所以基于麥克風(fēng)陣列的多通道語音增強(qiáng)技術(shù)優(yōu)于只有一個(gè)麥克風(fēng)的單通道語音增強(qiáng)。但是,麥克風(fēng)陣列算法的計(jì)算較為復(fù)雜,而且在很多場合中,只有一路輸入語音可用,此時(shí)仍然需要用到單通道語音增強(qiáng)技術(shù)。因此,對以譜減法[1]為代表的單通道語音增強(qiáng)進(jìn)行研究,仍然具有重要的意義。
語音增強(qiáng)技術(shù)不僅用于提高語音的可懂度,而且廣泛應(yīng)用于語音識別、語音合成等語音處理系統(tǒng)的前端[4-5]。直接對含噪語音進(jìn)行去噪處理,雖然可以提高含噪語音的信噪比,但是會導(dǎo)致語音失真,使待識別語音與訓(xùn)練語音的失配更加嚴(yán)重,從而影響語音識別系統(tǒng)的識別率,難以取得理想的識別效果。因此,在目前的魯棒語音識別技術(shù)中,對語音的增強(qiáng)都會結(jié)合后端識別器進(jìn)行,調(diào)整待識別語音的特征參數(shù),使其與后端識別器匹配;或者調(diào)整后端識別器的參數(shù),使其與待識別語音的特征參數(shù)匹配。目前,魯棒語音識別技術(shù)已經(jīng)取得了較好的效果,可以從含噪語音中實(shí)時(shí)提取背景噪聲的參數(shù)[5]。將語音識別系統(tǒng)實(shí)時(shí)提取的噪聲參數(shù)用于語音增強(qiáng),可以提高語音增強(qiáng)系統(tǒng)中噪聲均值估計(jì)的實(shí)時(shí)性,從而提高語音增強(qiáng)系統(tǒng)對非平穩(wěn)噪聲的實(shí)時(shí)跟蹤性能。本文研究語音識別在譜減法語音增強(qiáng)技術(shù)中的應(yīng)用,包括在實(shí)時(shí)噪聲估計(jì)中的應(yīng)用和在譜減系數(shù)估計(jì)中的應(yīng)用。
在傳統(tǒng)的譜減法語音增強(qiáng)中,噪聲的均值只在語音間隙期(非語音段)估計(jì)。但是,實(shí)際生活中的噪聲往往是非平穩(wěn)的,在語音存續(xù)期間(語音段)也可能發(fā)生變化。如果不及時(shí)更新噪聲的均值,就會給語音增強(qiáng)帶來較大的誤差。基于最優(yōu)平滑和最小統(tǒng)計(jì)的噪聲估計(jì)[6-7]是一種常見的連續(xù)噪聲估計(jì)方法,其基本思想是用一段時(shí)間內(nèi)含噪語音功率譜最小值的變化代表含噪語音功率譜的變化,對這段時(shí)間內(nèi)含噪語音功率譜的最小值進(jìn)行補(bǔ)償,得到含噪語音功率譜的均值。該方法的主要缺點(diǎn)是延遲較大,實(shí)時(shí)跟蹤性能較差,在延遲期間,語音增強(qiáng)的效果較差。在基于矢量泰勒級數(shù)的特征補(bǔ)償或模型補(bǔ)償[5]中,加性背景噪聲和乘性卷積噪聲的參數(shù)可以用期望最大(Expectation-Maximization,EM)算法[8]從含噪語音中實(shí)時(shí)提取。用語音識別系統(tǒng)提取的噪聲參數(shù)屬于倒譜特征向量,無法將其恢復(fù)為線性頻譜,不能直接用于語音增強(qiáng)。但是,可以用逆離散余弦變換將其變換到對數(shù)譜域,用每個(gè)通道對數(shù)譜能量的變化表示該通道噪聲電平的變化,從而求出該通道每個(gè)數(shù)字頻率處噪聲頻譜的均值。將估得噪聲頻譜的均值用于譜減法語音增強(qiáng),可以提高噪聲估計(jì)的實(shí)時(shí)性,增強(qiáng)噪聲估計(jì)對非平穩(wěn)噪聲的跟蹤能力,從而取得更好的增強(qiáng)效果。
譜減法語音增強(qiáng)的另一項(xiàng)關(guān)鍵技術(shù)是譜減系數(shù)估計(jì)。語音和噪聲都是典型的隨機(jī)信號,其時(shí)域信號和頻譜都是不可再現(xiàn)的。噪聲的隨機(jī)性很大,其頻譜的最大值可以達(dá)到平均值的6~7倍。在語音段,研究者無法得到每一幀含噪語音中噪聲的準(zhǔn)確頻譜,因而只能在含噪語音頻譜中減去噪聲頻譜的平均值。如果噪聲頻譜的實(shí)際值比平均值大得多,就會導(dǎo)致增強(qiáng)后的語音存在較多的殘留噪聲,嚴(yán)重影響語音增強(qiáng)的效果。如果噪聲頻譜的實(shí)際值比平均值小得多,就會損傷語音,導(dǎo)致增強(qiáng)后的語音存在較大的失真,嚴(yán)重影響增強(qiáng)后語音的可懂度。因此,在譜減法語音增強(qiáng)中,譜減系數(shù)不能設(shè)置為常數(shù)1,而是根據(jù)含噪語音的局部信噪比動態(tài)調(diào)整譜減系數(shù)。如果在某個(gè)頻段上,語音的能量較大,即信噪比較高,可以設(shè)置較小的譜減系數(shù)。這是因?yàn)檩^小的譜減系數(shù)可以避免語音的損傷,而且語音的能量遠(yuǎn)遠(yuǎn)大于噪聲的能量,即使殘留較多的噪聲,對語音可懂度的影響也較小。如果在某個(gè)頻段上,語音的能量較小,即信噪比較低,可以設(shè)置較大的譜減系數(shù)。因?yàn)樵擃l段語音的能量占語音總能量的比例較小,即使有所損失,對語音可懂度的影響也不大;而且,在該頻段信號的頻譜中,大部分是噪聲,設(shè)置較大的譜減系數(shù),可以最大可能地去除噪聲,提高增強(qiáng)后語音的信噪比。
譜減系數(shù)的設(shè)置除了與信噪比有關(guān)外,還與語音在每個(gè)頻段上存在的概率有關(guān)。語音可以劃分為若干個(gè)音節(jié),而每個(gè)音節(jié)語音的頻譜在每個(gè)頻段上的分布是不一樣的。有的音節(jié)主要分布在低頻段,有的音節(jié)在低頻段和中頻段都有較高的能量。這可以為譜減系數(shù)的設(shè)置提供一定的先驗(yàn)知識。如果語音在某個(gè)頻段上出現(xiàn)的概率較小,那么可以設(shè)置較大的譜減系數(shù),盡可能地抑制噪聲;如果語音在某個(gè)頻段上出現(xiàn)的概率較大,那么可以設(shè)置較小的譜減系數(shù),盡可能地保留語音。在譜減系數(shù)的估計(jì)中,引入語音存在的概率,可以減小信噪比估計(jì)的誤差對譜減系數(shù)設(shè)置的影響,提高譜減系數(shù)設(shè)置的精度。語音在每個(gè)頻帶上的存在概率可以用訓(xùn)練語音來計(jì)算,只需要統(tǒng)計(jì)每個(gè)音節(jié)語音的頻譜在每個(gè)頻帶上的分布,即可得到該音節(jié)語音在每個(gè)頻帶上的存在概率。在語音增強(qiáng)時(shí),先用語音識別系統(tǒng)識別出當(dāng)前語音屬于哪個(gè)音節(jié),即可得到當(dāng)前語音在每個(gè)頻帶上存在的概率;然后將語音存在概率用于對譜減系數(shù)的加權(quán),得到更加準(zhǔn)確的譜減系數(shù);最后,利用得到的譜減系數(shù)對含噪語音的幅度譜進(jìn)行譜減運(yùn)算,得到純凈語音幅度譜的估計(jì)值,并用逆傅里葉變換將其變換到時(shí)域,用重疊相加法連接各幀,得到完整的增強(qiáng)語音。
為了使語音的每個(gè)數(shù)字頻率k隸屬于一個(gè)唯一的美爾(Mel)子帶,首先在美爾頻域?qū)⒄Z音的有效頻率范圍劃分為D個(gè)互不重疊的Mel子帶,然后對每一幀信號進(jìn)行聲學(xué)預(yù)處理,快速傅里葉變換,Mel濾波,取對數(shù)和離散余弦變換,得到每一幀信號的美爾頻率倒譜系數(shù)(Mel-Frequency Cepstral Coefficients,MFCC),并以MFCC為語音識別系統(tǒng)的倒譜特征向量。
在訓(xùn)練階段,用一個(gè)含有M個(gè)高斯單元的高斯混合模型(Gaussian Mixture Model,GMM)描述純凈語音MFCC的概率分布
式中:xt表示第t幀純凈語音的MFCC;b(xt)表示xt的概率密度函數(shù);cm,μx,m和Σx,m分別表示第m個(gè)高斯單元的高斯混合系數(shù)、均值向量和協(xié)方差矩陣;D表示特征向量(MFCC)的維數(shù),即Mel通道的數(shù)量;上標(biāo)T表示矩陣或向量的轉(zhuǎn)置。
在測試階段,將含噪語音的特征向量(MFCC)代入GMM,通過EM算法反復(fù)迭代,即可得到噪聲均值μn的最大似然估計(jì)[5],即
式中:γm(t)=P(kt=m|yt,λ)表示給定先驗(yàn)參數(shù)λ時(shí),第t幀含噪語音特征向量(MFCC)yt屬于第m個(gè)高斯單元的后驗(yàn)概率;Um和φm的表達(dá)式分別為
式中:C表示離散余弦變換矩陣;C-1表示矩陣C的逆矩陣;μn0表示噪聲的初始均值,是上一次迭代的結(jié)果;diag()表示以括號中的向量為對角元素生成的對角矩陣。
因?yàn)镸FCC的提取屬于不可逆變換,無法將其還原為線性頻譜,所以用GMM提取的倒譜噪聲均值μn無法直接用于譜減法語音增強(qiáng)。為了得到噪聲的線性頻譜的實(shí)時(shí)估計(jì),首先將噪聲的倒譜均值向量變換倒對數(shù)譜域
式中:un表示噪聲的對數(shù)譜均值向量,維數(shù)為D,每個(gè)元素對應(yīng)一個(gè)Mel通道。設(shè)在當(dāng)前語音段的前一個(gè)非語音段得到的噪聲的對數(shù)譜均值向量和線性譜均值向量分別為un和N,且數(shù)字頻率k屬于第i個(gè)Mel通道,則語音段噪聲的線性譜均值向量N的第k個(gè)元素N(k)通過下式估計(jì)
式中:un(i)和un(i)分別表示向量un和的第i個(gè)元素表示向量N的第k個(gè)元素。得到N后,即可將其用于譜減法語音增強(qiáng)。
在語音識別系統(tǒng)中,以音節(jié)為基本語音單元,用每個(gè)音節(jié)的所有訓(xùn)練語音生成一個(gè)隱馬爾可夫模型,作為語音識別系統(tǒng)的聲學(xué)模型。第n個(gè)音節(jié)的語音在第i個(gè)Mel通道上存在的概率Pn(i)通過下式計(jì)算
式中:Mn,i表示第n個(gè)音節(jié)的語音在第i個(gè)Mel通道上存在語音的幀數(shù);Mn表示第n個(gè)音節(jié)語音的總幀數(shù)。
在幅度增強(qiáng)中,先用語音識別系統(tǒng)對當(dāng)前語音進(jìn)行識別。設(shè)當(dāng)前語音被識別為第n個(gè)音節(jié)的語音,則對第i個(gè)Mel通道上的每個(gè)數(shù)字頻率k,用加權(quán)譜減法對含噪語音進(jìn)行幅度增強(qiáng)
式中:E(i)表示第i個(gè)Mel通道的對數(shù)能量;Emin和Emax分別表示E(i)的最小值和最大值。在譜減系數(shù)β(i)的計(jì)算中,β(i)的最小值設(shè)置為1,最大值設(shè)置為6。由式(9)可知,第i個(gè)Mel通道上的譜減系數(shù)β(i)與該通道上語音存在的概率Pn(i)成反比,較大的語音存在概率對應(yīng)較小的譜減系數(shù),較小的語音存在概率對應(yīng)較大的譜減系數(shù)。這是因?yàn)?,較大的語音存在概率意味著當(dāng)前Mel通道語音的能量較大,設(shè)置較小的譜減系數(shù)一方面可以避免損傷語音;另一方面能量較高的語音對噪聲的抑制能力較強(qiáng),即使保留較多的噪聲,人耳也不易察覺。較小的語音存在概率意味著當(dāng)前Mel通道的頻譜中大部分是噪聲,設(shè)置較大的譜減系數(shù),可以盡可能地消除噪聲,提高增強(qiáng)后語音的信噪比;此外,即使當(dāng)前Mel通道存在少量語音,將其當(dāng)作噪聲去除,對語音可懂度的影響也較小,因?yàn)槠湓谡Z音總能量中的比例較小。
得到純凈語音幅度譜的估計(jì)值|X^(k)|后,首先將其與含噪語音的相位譜相乘,得到純凈語音的頻譜;然后對每幀語音的頻譜進(jìn)行逆傅里葉變換,得到該幀語音的時(shí)域信號;最后,對所有幀語音的時(shí)域信號用重疊相加法連接,得到增強(qiáng)后的數(shù)字語音。
譜減法是一種重要的單通道語音增強(qiáng)技術(shù),通過對含噪語音的幅度譜減去噪聲幅度譜的均值,達(dá)到增強(qiáng)語音的目的。譜減法的關(guān)鍵技術(shù)包括噪聲的實(shí)時(shí)估計(jì)和譜減系數(shù)的計(jì)算。將語音識別用于譜減法語音增強(qiáng),一方面可以通過GMM實(shí)時(shí)估計(jì)噪聲的均值,另一方面可以利用語音在每個(gè)Mel通道上存在的概率計(jì)算譜減法的過減系數(shù),提高語音增強(qiáng)的信噪比和可懂度。