亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于漸進(jìn)式神經(jīng)網(wǎng)絡(luò)的自適應(yīng)去混響算法

2020-03-10 00:16:40何瑜

讀與寫 2020年31期

何瑜

(四川省南充市網(wǎng)絡(luò)輿情中心四川南充 637000)

1.緒論

在遠(yuǎn)場(chǎng)環(huán)景中，自動(dòng)語(yǔ)音識(shí)別(Automatic Speech Recognition, ASR)的系統(tǒng)性能通常會(huì)顯著降低，這是由于設(shè)備接收的不僅僅是揚(yáng)聲器所發(fā)出的直達(dá)聲，還包含由直達(dá)聲經(jīng)過(guò)不同反射途徑(如墻面，鏡面)所得到的反射信號(hào)。后者通常稱之為混響，在實(shí)際一些應(yīng)用中通常需要被抑制。在研究中提出了一種約束MCLP的優(yōu)化手段用于自適應(yīng)語(yǔ)音去混響算法A-GWPE，但是非期望分量(后期混響)的過(guò)估計(jì)問(wèn)題普遍存在，損害重建的語(yǔ)音信號(hào)的質(zhì)量。

最近，基于深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network, DNN)的方法被提出用于語(yǔ)音去混響，在數(shù)據(jù)不足的情況下解決功率譜密度(PSD)估計(jì)的問(wèn)題，因此提出了一種更有效的方法，采用DNN去預(yù)測(cè)WPE算法中目標(biāo)信號(hào)的PSD。然而，在一些高混響的環(huán)境中，一般指混響時(shí)間(RT60)超過(guò)700ms, PSD估計(jì)變得更加困難。就像在一些低信噪比環(huán)境中的降噪問(wèn)題一樣，輸入和目標(biāo)之間的信噪比跨度會(huì)導(dǎo)致估計(jì)值不準(zhǔn)確。

本文提出了一種基于漸進(jìn)式深度神經(jīng)網(wǎng)絡(luò)(Progressive Deep Neural Networks, PDNNs)的框架來(lái)對(duì)PSD進(jìn)行估計(jì)，從而改進(jìn)算法的性能。PDNNs具有積累和轉(zhuǎn)移其中組成它的基本DNNs學(xué)習(xí)到知識(shí)的能力，可以理解為積累先驗(yàn)知識(shí)為后續(xù)所使用，這種能力被證明在高RT60環(huán)境中對(duì)于去混響是有益的。PDNNs的學(xué)習(xí)目標(biāo)是由直達(dá)聲加上不同長(zhǎng)度的反射信號(hào)(由于不同反射路徑所產(chǎn)生)，其次，每一個(gè)學(xué)習(xí)目標(biāo)的直混比(Direct-to-Reverberant Ratio, DRR)逐漸增加。最后一個(gè)DNN輸出被用作最終期望信號(hào)的PSD估計(jì)。實(shí)驗(yàn)結(jié)果表明，本文提出的方法是可行有效的，該方法能有效地提高在高RT60的環(huán)境下的性能。

2.基于MCLP的語(yǔ)音去混響算法

在這一部分，MCLP信號(hào)處理模型和基于MCLP處理邏輯的GWPE算法接下來(lái)被詳細(xì)介紹。

A.MCLP模型

考慮到一個(gè)混響房間中單揚(yáng)聲器和M個(gè)麥克風(fēng)的場(chǎng)景，讓ym(kn)代表第m個(gè)第n幀k頻點(diǎn)的帶混響麥克風(fēng)信號(hào)，期望信號(hào)xm(k,n)的輸出最終表示為:

B.自適應(yīng)優(yōu)化

在部分研究中，GWPE算法被拓展成A-GWPE算法，A-GWPE算法通過(guò)使用RLS算法來(lái)估計(jì)線性濾波器，以便解決下面的LS問(wèn)題：

γ是遺忘因子，在(0,1)的范圍內(nèi)，LS問(wèn)題的解可以求得為

其中矩陣逆定理被應(yīng)用在RLS算法中，如下所示

并且其增益向量被定義為

然后預(yù)測(cè)系數(shù)矩陣可以通過(guò)下式更新得到

3.去混響算法的PSD估計(jì)

正如上述所提到的，期望信號(hào)的功率譜估計(jì)在基于MCLP的算法中扮演著極其重要的角色。在這一小節(jié)，PSD估計(jì)的方法要首先被回顧。

A.基于統(tǒng)計(jì)模型的PSD估計(jì)

在傳統(tǒng)的方法中，期望信號(hào)的PSD估計(jì)一般是通過(guò)將晚期混響建模為一個(gè)指數(shù)衰減模型，如下所示

B.基于DNN模型的PSD估計(jì)

基于統(tǒng)計(jì)模型的PSD有個(gè)很大的問(wèn)題是通常會(huì)導(dǎo)致未期望過(guò)估計(jì)問(wèn)題，因此由于DNN這幾年的發(fā)展，基于DNN模型的PSD估計(jì)被提出來(lái)改善這個(gè)問(wèn)題。在本文中，為了更好的單獨(dú)體現(xiàn)去混響算法的表現(xiàn)，我們將實(shí)際中的背景噪聲忽略了，只考慮其混響部分。在訓(xùn)練階段，DNN被視作一個(gè)從混響語(yǔ)音的特征到期望信號(hào)的PSD的一個(gè)映射函數(shù)，利用反向傳播去得到這個(gè)DNN的網(wǎng)絡(luò)參數(shù)，在測(cè)試階段，訓(xùn)練好的模型可以通過(guò)混響語(yǔ)音來(lái)得到被估計(jì)的PSD。這里訓(xùn)練和測(cè)試階段我們估計(jì)的是對(duì)數(shù)PSD，這是為了壓縮其動(dòng)態(tài)范圍，使得網(wǎng)絡(luò)可以更好去學(xué)習(xí)。然后我們將其得到的PSD應(yīng)用于經(jīng)典的上一小節(jié)提到的A-GWPE算法中。

4.提出的PSD估計(jì)算法

A.基于PDNNs的PSD估計(jì)

基于上述提到的基于DNN的PSD估計(jì)，基于PDNNs被提出來(lái)用于去混響。其結(jié)構(gòu)如圖1所示，這里我們將其與DNN并行展示來(lái)做一個(gè)對(duì)比。通常，直達(dá)聲和早期混響(即期望信號(hào))的區(qū)間是前50ms,所以基于DNN模型的訓(xùn)練目標(biāo)就是其直達(dá)聲和早期混響的信號(hào)(T<=50ms)的PSD，而PDNNs由三個(gè)階段組成，每個(gè)階段由一個(gè)基礎(chǔ)的DNN模塊組成，每個(gè)DNN模塊的學(xué)習(xí)目標(biāo)是由直達(dá)聲和不同區(qū)間的早期混響信號(hào)的對(duì)數(shù)PSD所構(gòu)成，而這個(gè)區(qū)間T被設(shè)計(jì)成逐漸變小，這樣相當(dāng)于將深度學(xué)習(xí)一次性的跨度學(xué)習(xí)改為分成了階梯狀的學(xué)習(xí)，在本文，每個(gè)階梯的跨度被設(shè)置成了30ms，其對(duì)應(yīng)于不同的直混比，直混比表示為

圖1.(a)基于DNN的PSD估計(jì) (b) 基于PDNNs的PSD估計(jì)

B.提出方法的優(yōu)點(diǎn)

PDNNs用于去混響的一個(gè)最大優(yōu)點(diǎn)是將從混響信號(hào)到期望信號(hào)分解為幾個(gè)階段，每個(gè)階段都在累計(jì)之前學(xué)習(xí)到的知識(shí)，用于后面的網(wǎng)絡(luò)訓(xùn)練。這樣輸入和目標(biāo)之前的直混比跨度也被分成了幾份，實(shí)驗(yàn)發(fā)現(xiàn)，這樣一種漸進(jìn)式學(xué)習(xí)在高混響環(huán)境取得了更好的效果。

5.實(shí)驗(yàn)

仿真實(shí)驗(yàn)證明了所提出的基于PDNNs的PSD估計(jì)的性能，我們將其對(duì)比了傳統(tǒng)的A-GWPE方法和基于DNN方法。

A.實(shí)驗(yàn)配置

需要注意的是，2通道的語(yǔ)料被分為兩個(gè)單獨(dú)的單通道語(yǔ)料。7138個(gè)來(lái)自WSJO SI-84訓(xùn)練集的語(yǔ)音(約12小時(shí))被用作干凈語(yǔ)料，首先用由RIR generator得到的[15]RIR卷積以獲得混響語(yǔ)音。生成的模擬房間大小為7*4*2.5cm,兩個(gè)傳聲器的中心位于距聲源315度。0.7s、0.8s和0.9s的RT60被用來(lái)生成了一個(gè)總共36小時(shí)的訓(xùn)練集。然后訓(xùn)練目標(biāo)為干凈的語(yǔ)音與相應(yīng)的不同長(zhǎng)度h(n),即110ms、80ms和50ms。為了對(duì)系統(tǒng)性能進(jìn)行分析，隨機(jī)抽取了200個(gè)TIMIT數(shù)據(jù)集中語(yǔ)句，并且采用0.8s和0.9s的RT60進(jìn)行卷積，使得產(chǎn)生一個(gè)高混響環(huán)境中的測(cè)試集。在實(shí)驗(yàn)中，對(duì)算法進(jìn)行評(píng)估，兩個(gè)評(píng)估指標(biāo)被用來(lái)進(jìn)行實(shí)驗(yàn)的評(píng)估。PESQ是一個(gè)對(duì)于客觀音質(zhì)來(lái)說(shuō)的經(jīng)典通信質(zhì)量指標(biāo)和倒譜距離(CD)，它提供了一個(gè)量化的方法來(lái)評(píng)估語(yǔ)音失真。

B.性能評(píng)估

首先用在不同RT60場(chǎng)景的輸入混響語(yǔ)音進(jìn)行了語(yǔ)音去混響實(shí)驗(yàn)。預(yù)測(cè)濾波器的長(zhǎng)度Lc設(shè)置為20，自適應(yīng)算法的遺忘因子γ值需要在0.75和0.99之間選擇，本文設(shè)置為0.97。表1給出了詳細(xì)的PESQ和CD指標(biāo)的額比較結(jié)果，分別代表原始混響語(yǔ)音，A-GWPE后增強(qiáng)語(yǔ)音，基于DNN的增強(qiáng)語(yǔ)音和基于PDNNs的增強(qiáng)語(yǔ)音。從表一可以明顯觀察到與A-GWPE方法相比，DNN和PDNNs方法顯著提高語(yǔ)音去混響能力，而基于PDNNs的方法可以進(jìn)一步獲得額外的增益，這說(shuō)明基于PDNNs的方法有助于更好地解決PSD估計(jì)。

圖2中顯示了0.9s RT60的語(yǔ)音頻譜圖?？梢钥闯?，A-GWPE方法可以達(dá)到很好的混響抑制效果，但有嚴(yán)重的語(yǔ)音失真，而DNN和PDNNs都避免了嚴(yán)重的語(yǔ)音失真。對(duì)于提出的方法，增強(qiáng)語(yǔ)音包含較少的語(yǔ)音失真并且同時(shí)實(shí)現(xiàn)了很好的混響抑制。紅色實(shí)線顯示失真的差異。

表1 不同去混響系統(tǒng)的指標(biāo)對(duì)比

圖2 在0.9s RT60不同去混響系統(tǒng)的語(yǔ)譜圖(混響語(yǔ)音 (PESQ=1.058, CD=7.329), 干凈語(yǔ)音，A-GWPE (PESQ=1.301,CD=5.487), DNN (PESQ=1.619, CD=4.983), PDNNs (PESQ=1.653,CD=4.915).

6.結(jié)論

本文提出了一種基于PDNNs的語(yǔ)音去混響算法，PDNNs可以從之前學(xué)習(xí)的目標(biāo)中積累經(jīng)驗(yàn)從而成為下一目標(biāo)的先驗(yàn)知識(shí)，這些目標(biāo)被設(shè)計(jì)直達(dá)聲加上不同長(zhǎng)度的反射信號(hào)。利用這個(gè)方法，輸入特征與學(xué)習(xí)目標(biāo)之間的DRR跨度大的問(wèn)題得到了減緩，從而提高了期望信號(hào)的PSD估計(jì)的準(zhǔn)確性。實(shí)驗(yàn)結(jié)果表明該方法對(duì)比語(yǔ)音去混響中傳統(tǒng)的A-GWPE和DNN取得了更好的效果。