何 瑜
(四川省南充市網(wǎng)絡(luò)輿情中心 四川 南充 637000)
在遠(yuǎn)場環(huán)景中,自動語音識別(Automatic Speech Recognition, ASR)的系統(tǒng)性能通常會顯著降低,這是由于設(shè)備接收的不僅僅是揚(yáng)聲器所發(fā)出的直達(dá)聲,還包含由直達(dá)聲經(jīng)過不同反射途徑(如墻面,鏡面)所得到的反射信號。后者通常稱之為混響,在實際一些應(yīng)用中通常需要被抑制。在研究中提出了一種約束MCLP的優(yōu)化手段用于自適應(yīng)語音去混響算法A-GWPE,但是非期望分量(后期混響)的過估計問題普遍存在,損害重建的語音信號的質(zhì)量。
最近,基于深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network, DNN)的方法被提出用于語音去混響,在數(shù)據(jù)不足的情況下解決功率譜密度(PSD)估計的問題,因此提出了一種更有效的方法,采用DNN去預(yù)測WPE算法中目標(biāo)信號的PSD。然而,在一些高混響的環(huán)境中,一般指混響時間(RT60)超過700ms, PSD估計變得更加困難。就像在一些低信噪比環(huán)境中的降噪問題一樣,輸入和目標(biāo)之間的信噪比跨度會導(dǎo)致估計值不準(zhǔn)確。
本文提出了一種基于漸進(jìn)式深度神經(jīng)網(wǎng)絡(luò)(Progressive Deep Neural Networks, PDNNs)的框架來對PSD進(jìn)行估計,從而改進(jìn)算法的性能。PDNNs具有積累和轉(zhuǎn)移其中組成它的基本DNNs學(xué)習(xí)到知識的能力,可以理解為積累先驗知識為后續(xù)所使用,這種能力被證明在高RT60環(huán)境中對于去混響是有益的。PDNNs的學(xué)習(xí)目標(biāo)是由直達(dá)聲加上不同長度的反射信號(由于不同反射路徑所產(chǎn)生),其次,每一個學(xué)習(xí)目標(biāo)的直混比(Direct-to-Reverberant Ratio, DRR)逐漸增加。最后一個DNN輸出被用作最終期望信號的PSD估計。實驗結(jié)果表明,本文提出的方法是可行有效的,該方法能有效地提高在高RT60的環(huán)境下的性能。
在這一部分,MCLP信號處理模型和基于MCLP處理邏輯的GWPE算法接下來被詳細(xì)介紹。
A.MCLP模型
考慮到一個混響房間中單揚(yáng)聲器和M個麥克風(fēng)的場景,讓ym(kn)代表第m個第n幀k頻點(diǎn)的帶混響麥克風(fēng)信號,期望信號xm(k,n)的輸出最終表示為:
B.自適應(yīng)優(yōu)化
在部分研究中,GWPE算法被拓展成A-GWPE算法,A-GWPE算法通過使用RLS算法來估計線性濾波器,以便解決下面的LS問題:
γ是遺忘因子,在(0,1)的范圍內(nèi),LS問題的解可以求得為
其中矩陣逆定理被應(yīng)用在RLS算法中,如下所示
并且其增益向量被定義為
然后預(yù)測系數(shù)矩陣可以通過下式更新得到
正如上述所提到的,期望信號的功率譜估計在基于MCLP的算法中扮演著極其重要的角色。在這一小節(jié),PSD估計的方法要首先被回顧。
A.基于統(tǒng)計模型的PSD估計
在傳統(tǒng)的方法中,期望信號的PSD估計一般是通過將晚期混響建模為一個指數(shù)衰減模型,如下所示
B.基于DNN模型的PSD估計
基于統(tǒng)計模型的PSD有個很大的問題是通常會導(dǎo)致未期望過估計問題,因此由于DNN這幾年的發(fā)展,基于DNN模型的PSD估計被提出來改善這個問題。在本文中,為了更好的單獨(dú)體現(xiàn)去混響算法的表現(xiàn),我們將實際中的背景噪聲忽略了,只考慮其混響部分。在訓(xùn)練階段,DNN被視作一個從混響語音的特征到期望信號的PSD的一個映射函數(shù),利用反向傳播去得到這個DNN的網(wǎng)絡(luò)參數(shù),在測試階段,訓(xùn)練好的模型可以通過混響語音來得到被估計的PSD。這里訓(xùn)練和測試階段我們估計的是對數(shù)PSD,這是為了壓縮其動態(tài)范圍,使得網(wǎng)絡(luò)可以更好去學(xué)習(xí)。然后我們將其得到的PSD應(yīng)用于經(jīng)典的上一小節(jié)提到的A-GWPE算法中。
A.基于PDNNs的PSD估計
基于上述提到的基于DNN的PSD估計,基于PDNNs被提出來用于去混響。其結(jié)構(gòu)如圖1所示,這里我們將其與DNN并行展示來做一個對比。通常,直達(dá)聲和早期混響(即期望信號)的區(qū)間是前50ms,所以基于DNN模型的訓(xùn)練目標(biāo)就是其直達(dá)聲和早期混響的信號(T<=50ms)的PSD,而PDNNs由三個階段組成,每個階段由一個基礎(chǔ)的DNN模塊組成,每個DNN模塊的學(xué)習(xí)目標(biāo)是由直達(dá)聲和不同區(qū)間的早期混響信號的對數(shù)PSD所構(gòu)成,而這個區(qū)間T被設(shè)計成逐漸變小,這樣相當(dāng)于將深度學(xué)習(xí)一次性的跨度學(xué)習(xí)改為分成了階梯狀的學(xué)習(xí),在本文,每個階梯的跨度被設(shè)置成了30ms,其對應(yīng)于不同的直混比,直混比表示為
圖1.(a)基于DNN的PSD估計 (b) 基于PDNNs的PSD估計
B.提出方法的優(yōu)點(diǎn)
PDNNs用于去混響的一個最大優(yōu)點(diǎn)是將從混響信號到期望信號分解為幾個階段,每個階段都在累計之前學(xué)習(xí)到的知識,用于后面的網(wǎng)絡(luò)訓(xùn)練。這樣輸入和目標(biāo)之前的直混比跨度也被分成了幾份,實驗發(fā)現(xiàn),這樣一種漸進(jìn)式學(xué)習(xí)在高混響環(huán)境取得了更好的效果。
仿真實驗證明了所提出的基于PDNNs的PSD估計的性能,我們將其對比了傳統(tǒng)的A-GWPE方法和基于DNN方法。
A.實驗配置
需要注意的是,2通道的語料被分為兩個單獨(dú)的單通道語料。7138個來自WSJO SI-84訓(xùn)練集的語音(約12小時)被用作干凈語料,首先用由RIR generator得到的[15]RIR卷積以獲得混響語音。生成的模擬房間大小為7*4*2.5cm,兩個傳聲器的中心位于距聲源315度。0.7s、0.8s和0.9s的RT60被用來生成了一個總共36小時的訓(xùn)練集。然后訓(xùn)練目標(biāo)為干凈的語音與相應(yīng)的不同長度h(n),即110ms、80ms和50ms。為了對系統(tǒng)性能進(jìn)行分析,隨機(jī)抽取了200個TIMIT數(shù)據(jù)集中語句,并且采用0.8s和0.9s的RT60進(jìn)行卷積,使得產(chǎn)生一個高混響環(huán)境中的測試集。在實驗中,對算法進(jìn)行評估,兩個評估指標(biāo)被用來進(jìn)行實驗的評估。PESQ是一個對于客觀音質(zhì)來說的經(jīng)典通信質(zhì)量指標(biāo)和倒譜距離(CD),它提供了一個量化的方法來評估語音失真。
B.性能評估
首先用在不同RT60場景的輸入混響語音進(jìn)行了語音去混響實驗。預(yù)測濾波器的長度Lc設(shè)置為20,自適應(yīng)算法的遺忘因子γ值需要在0.75和0.99之間選擇,本文設(shè)置為0.97。表1給出了詳細(xì)的PESQ和CD指標(biāo)的額比較結(jié)果,分別代表原始混響語音,A-GWPE后增強(qiáng)語音,基于DNN的增強(qiáng)語音和基于PDNNs的增強(qiáng)語音。從表一可以明顯觀察到與A-GWPE方法相比,DNN和PDNNs方法顯著提高語音去混響能力,而基于PDNNs的方法可以進(jìn)一步獲得額外的增益,這說明基于PDNNs的方法有助于更好地解決PSD估計。
圖2中顯示了0.9s RT60的語音頻譜圖??梢钥闯?,A-GWPE方法可以達(dá)到很好的混響抑制效果,但有嚴(yán)重的語音失真,而DNN和PDNNs都避免了嚴(yán)重的語音失真。對于提出的方法,增強(qiáng)語音包含較少的語音失真并且同時實現(xiàn)了很好的混響抑制。紅色實線顯示失真的差異。
表1 不同去混響系統(tǒng)的指標(biāo)對比
圖2 在0.9s RT60不同去混響系統(tǒng)的語譜圖(混響語音 (PESQ=1.058, CD=7.329), 干凈語音,A-GWPE (PESQ=1.301,CD=5.487), DNN (PESQ=1.619, CD=4.983), PDNNs (PESQ=1.653,CD=4.915).
本文提出了一種基于PDNNs的語音去混響算法,PDNNs可以從之前學(xué)習(xí)的目標(biāo)中積累經(jīng)驗從而成為下一目標(biāo)的先驗知識,這些目標(biāo)被設(shè)計直達(dá)聲加上不同長度的反射信號。利用這個方法,輸入特征與學(xué)習(xí)目標(biāo)之間的DRR跨度大的問題得到了減緩,從而提高了期望信號的PSD估計的準(zhǔn)確性。實驗結(jié)果表明該方法對比語音去混響中傳統(tǒng)的A-GWPE和DNN取得了更好的效果。