杜志浩 韓紀(jì)慶
摘 要: 為提高語音識別系統(tǒng)在復(fù)雜聲學(xué)場景下的識別率,出現(xiàn)了以單通道語音增強(qiáng)(Monaural Speech Enhancement)技術(shù)作為前端處理的魯棒語音識別系統(tǒng)。盡管現(xiàn)有的單通道語音增強(qiáng)技術(shù)能夠提高混響干擾下的識別率,卻未能顯著提升寬帶非平穩(wěn)噪聲干擾下的系統(tǒng)識別率。為此,本文提出基于聽覺掩蔽生成對抗網(wǎng)絡(luò)的單通道增強(qiáng)方法,通過聽覺掩蔽增強(qiáng)模型和判別器構(gòu)成的對抗過程,來使增強(qiáng)后的語音特征滿足目標(biāo)語音的概率分布。實(shí)驗(yàn)結(jié)果表明,就語音識別率而言,所提出的聽覺掩蔽生成對抗網(wǎng)絡(luò)超越了現(xiàn)有的增強(qiáng)方法,能夠相對減少19.50%的詞錯(cuò)誤率,顯著提升語音識別系統(tǒng)的噪聲魯棒性。
關(guān)鍵詞: 聽覺掩蔽;生成對抗網(wǎng)絡(luò);單通道語音增強(qiáng);魯棒語音識別
文章編號: 2095-2163(2021)03-0209-06 中圖分類號:TP183 文獻(xiàn)標(biāo)志碼:A
【Abstract】To improve the accuracy of speech recognition system in the complex acoustic scene, monaural speech enhancement method is involved into the robust automatic speech recognition (ASR) system as a front-end processing. Although monaural speech enhancement has improved the recognition performance under the reverberant conditions, it failed to improve the accuracy of speeches interrupted by the wide-band non-stationary noises. To overcome this problem, the paper proposes the adversarial generative network based on auditory masking for monaural speech enhancement. Through the adversarial process between a discriminator and a masking-based enhancement model, the proposed method can make the enhanced speech features follow the distribution of target speeches. Experimental results show that, ?the proposed method outperforms current enhancement method in terms of recognition accuracy. It achieves 19.50% relative word error rate (WER) reduction for a robust ASR system, which indicates that the proposed method can further improve the noise robustness.
0 引 言
在語音識別領(lǐng)域,通常使用含有噪聲的語音和純凈語音共同訓(xùn)練自動語音識別(Automatic Speech Recognition,ASR)系統(tǒng),從而提高其在噪聲環(huán)境下的識別率。為進(jìn)一步提高ASR系統(tǒng)在復(fù)雜聲學(xué)場景下的識別率,出現(xiàn)了將單通道語音增強(qiáng)模型作為前端處理的識別系統(tǒng)。這類系統(tǒng)先使用增強(qiáng)模型盡可能地去除含噪語音中的噪聲干擾,接著將增強(qiáng)后的語音送入ASR系統(tǒng),從而得到識別文本。為使增強(qiáng)后的語音和識別系統(tǒng)所要求的輸入盡可能地匹配,通常需要利用增強(qiáng)后的語音重新訓(xùn)練ASR系統(tǒng)中的聲學(xué)模型[1-2],或者將聲學(xué)模型和增強(qiáng)模型堆疊,進(jìn)行聯(lián)合訓(xùn)練[3-4]。然而,上述這2種方法在增強(qiáng)模型改變時(shí)需要重新訓(xùn)練語音識別系統(tǒng),對實(shí)際應(yīng)用而言,這通常是不合理的。首先,重新訓(xùn)練語音識別系統(tǒng)非常耗時(shí),其次,增強(qiáng)模型一般運(yùn)行在終端設(shè)備,而識別系統(tǒng)則通常運(yùn)行在云端設(shè)備,可能無法對兩者進(jìn)行聯(lián)合優(yōu)化。
近年來,出現(xiàn)了基于生成對抗網(wǎng)絡(luò)(Adversarial Generative Network,GAN)[5]的單通道語音增強(qiáng)方法。該方法通過構(gòu)建增強(qiáng)模型和判別器之間的對抗過程,來使增強(qiáng)后的語音滿足目標(biāo)語音分布?;贕AN的增強(qiáng)方法能夠顯著提升增強(qiáng)后語音的可懂度和感知質(zhì)量[6]。受此啟發(fā),魯棒語音識別領(lǐng)域也出現(xiàn)了基于GAN的前端處理方法,以盡可能地減少增強(qiáng)模型輸出與識別系統(tǒng)所要求輸入之間的不匹配程度,從而直接提高增強(qiáng)后語音的識別率,而不需要聯(lián)合訓(xùn)練或重新訓(xùn)練聲學(xué)模型[7-8]。通過增強(qiáng)后語音特征和目標(biāo)語音特征之間的對抗訓(xùn)練,文獻(xiàn)[7]中的增強(qiáng)方法降低了混響干擾下語音識別系統(tǒng)14%~19%的相對字錯(cuò)誤率。在文獻(xiàn)[8]中,經(jīng)過對抗訓(xùn)練的增強(qiáng)模型能夠顯著提升純凈語音訓(xùn)練的ASR系統(tǒng),卻未能進(jìn)一步提高魯棒ASR系統(tǒng)的識別率。
為了進(jìn)一步提高魯棒ASR系統(tǒng)在寬帶非平穩(wěn)噪聲干擾下的識別率,本文提出基于聽覺掩蔽生成對抗網(wǎng)絡(luò)的單通道語音增強(qiáng)方法,并將其作為魯棒ASR系統(tǒng)的前端處理過程,以盡可能地去除背景噪聲的干擾,從而提高識別率。所提出的方法由基于聽覺掩蔽的特征增強(qiáng)模型和區(qū)分增強(qiáng)后語音和目標(biāo)語音特征的判別器構(gòu)成。特征增強(qiáng)模型的首要目標(biāo)是以含噪語音的聲學(xué)特征為輸入,來對目標(biāo)語音相應(yīng)的理想比率掩膜(Ideal Ratio Mask,IRM)進(jìn)行預(yù)測,而后利用聽覺掩蔽效應(yīng)得到增強(qiáng)后的聲學(xué)特征。增強(qiáng)模型的次要目標(biāo)則是通過欺騙判別器,使增強(qiáng)后的聲學(xué)特征盡可能地滿足目標(biāo)語音的概率分布,從而減少與目標(biāo)語音特征之間的差異,進(jìn)而提高增強(qiáng)后語音特征的識別率。
1 基于聽覺掩蔽生成對抗網(wǎng)絡(luò)的增強(qiáng)方法
首先給出基于聽覺掩蔽的有監(jiān)督語音增強(qiáng)方法,而后對所提出的聽覺掩蔽生成對抗網(wǎng)絡(luò)(Generative adversarial network based on auditory masking, GANAM)進(jìn)行介紹。GANAM主要由2部分構(gòu)成,分別是:基于聽覺掩蔽的特征增強(qiáng)模型E,以及用于區(qū)分增強(qiáng)后特征和目標(biāo)語音特征的判別器D。圖1給出了所提出方法的結(jié)構(gòu)示意圖。
1.1 基于聽覺掩蔽的有監(jiān)督增強(qiáng)方法
基于聽覺掩蔽的有監(jiān)督增強(qiáng)方法能夠有效提升含噪語音的可懂度和感知質(zhì)量[9],同時(shí)還能夠通過與聲學(xué)模型的聯(lián)合訓(xùn)練提高ASR系統(tǒng)的識別率[3]。因此,本文也采用基于聽覺掩蔽的增強(qiáng)模型。理想比率掩膜IRM[6]是基于聽覺掩蔽的增強(qiáng)模型最常用的學(xué)習(xí)目標(biāo)之一,其定義如下:
其中,M表示理想比率掩膜IRM;S和Y分別表示目標(biāo)語音和含噪語音的時(shí)頻特征;t和f分別表示時(shí)間幀序號和頻帶編號;[·]10表示對數(shù)值進(jìn)行截取,將其限制在0~1之間。
理想比率掩膜可以定義在不同的時(shí)頻特征上,包括能量譜FFT、對數(shù)能量譜log-FFT、梅爾能量譜fbank,以及對數(shù)梅爾能量譜log-fbank,其提取過程如下:
(1)對給定的語音波形進(jìn)行短時(shí)傅里葉變換,得到復(fù)數(shù)譜。
(2)對復(fù)數(shù)譜的每個(gè)時(shí)頻單元取模,再平方,得到能量譜FFT。
(3)對能量譜的每個(gè)時(shí)頻單元進(jìn)行對數(shù)壓縮,即可得到對數(shù)能量譜log-FFT。
(4)使用梅爾濾波器組對能量譜進(jìn)行濾波,得到梅爾能量譜fbank。
(5)對梅爾能量譜的每個(gè)時(shí)頻單元取對數(shù),得到對數(shù)梅爾能量譜log-fbank。
前期的實(shí)驗(yàn)表明,使用對數(shù)梅爾能量譜log-fbank能夠獲得較好的增強(qiáng)性能,因此本文后續(xù)的實(shí)驗(yàn)都以log-fbank作為聲學(xué)特征。
當(dāng)特征域確定后,即可訓(xùn)練增強(qiáng)模型E以含噪語音的聲學(xué)特征Y為輸入,來對目標(biāo)語音相應(yīng)的比率掩膜進(jìn)行估計(jì),即:
在訓(xùn)練時(shí),將理想比率掩膜真實(shí)值和預(yù)測值之間的均方誤差(Mean Square Error,MSE)作為損失函數(shù),通過最小化該損失函數(shù),來對增強(qiáng)模型E的參數(shù)θ進(jìn)行求解:
其中,T和F分別表示語音幀總數(shù)和頻帶總數(shù)。
1.2 聽覺掩蔽生成對抗網(wǎng)絡(luò)
聽覺掩蔽生成對抗網(wǎng)絡(luò)GANAM在有監(jiān)督語音增強(qiáng)模型的基礎(chǔ)上,另外添加了區(qū)分聲學(xué)特征純凈與否的判別器,從而能夠借助其與增強(qiáng)模型形成的對抗過程,使增強(qiáng)后的聲學(xué)特征更具判別性。
由于目標(biāo)語音的數(shù)值范圍較大,直接將其作為正例會增加生成對抗網(wǎng)絡(luò)的訓(xùn)練難度。因此,在GANAM中,判別器D將含噪語音特征Y與理想比率掩膜M的乘積作為正例S-:
在判別器盡可能區(qū)分增強(qiáng)后語音和目標(biāo)語音特征的同時(shí),增強(qiáng)模型則試圖通過改變其預(yù)測的比率掩膜,來欺騙判別器D,以獲得較高的分?jǐn)?shù):
其中,⊙表示對應(yīng)元素相乘。
單純以最小化對抗損失Ladv作為增強(qiáng)模型E的訓(xùn)練目標(biāo),會使預(yù)測出的比率掩膜缺少約束,因?yàn)槠渲恍枋乖鰪?qiáng)后的聲學(xué)特征滿足目標(biāo)語音的概率分布即可。這樣一來,增強(qiáng)后的語音和目標(biāo)語音特征之間就會缺乏對應(yīng)關(guān)系。因此,本文將比率掩膜的均方誤差與對抗損失相結(jié)合,提出對抗多任務(wù)損失函數(shù):
其中,·22表示L2范數(shù)的平方,λ是用來平衡重構(gòu)損失和對抗損失的超參數(shù),一般通過實(shí)驗(yàn)事先選取,本文取0.000 1。
1.3 聽覺掩蔽對抗訓(xùn)練有效性分析
由此可見,對抗訓(xùn)練最大化判別器的損失,實(shí)際上是在最小化目標(biāo)語音和增強(qiáng)后語音特征分布之間的JS散度。因此,對抗訓(xùn)練能夠使增強(qiáng)后的語音特征盡可能地滿足目標(biāo)語音的概率分布,從而有效提高ASR系統(tǒng)的識別率。
2 實(shí)驗(yàn)設(shè)置與評價(jià)指標(biāo)
2.1 數(shù)據(jù)集
本文使用第3屆語音分離與識別公開挑戰(zhàn)賽CHiME-3[10]所提供的語音數(shù)據(jù),來對所提出的方法進(jìn)行評價(jià)。由于該數(shù)據(jù)集包括多個(gè)通道的語音數(shù)據(jù),因此這里僅采用第5個(gè)通道的數(shù)據(jù)來進(jìn)行單通道語音增強(qiáng)和識別任務(wù)的訓(xùn)練和測試。CHiME-3數(shù)據(jù)集由模擬合成和真實(shí)錄制的2部分?jǐn)?shù)據(jù)構(gòu)成。對于模擬合成的數(shù)據(jù),其理想比率掩膜使用含噪語音和參與合成的目標(biāo)語音計(jì)算得到;對于真實(shí)錄制的數(shù)據(jù),則使用錄制到的遠(yuǎn)講語音和近講語音計(jì)算得到理想比率掩膜。為方便處理,所有的語音文件都采樣到16k Hz。另外,為模擬無混響的背景噪聲干擾,還將純凈語音和噪聲按照0 dB、3 dB和6 dB等信噪比進(jìn)行混合,以擴(kuò)充增強(qiáng)模型的訓(xùn)練集。
2.2 評價(jià)指標(biāo)
通過計(jì)算增強(qiáng)后語音在魯棒語音識別系統(tǒng)上的詞錯(cuò)誤率(Word Error Rate,WER),來評價(jià)增強(qiáng)模型的性能。一般而言,詞錯(cuò)誤率越低表示增強(qiáng)模型的性能越好,反之,詞錯(cuò)誤率越高則表示增強(qiáng)模型的性能越差。
本文使用CHiME-3挑戰(zhàn)賽中官方提供的魯棒語音識別系統(tǒng)對增強(qiáng)模型進(jìn)行評價(jià)。該系統(tǒng)由深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)和隱馬爾科夫模型(Hidden Markov Model,HMM)構(gòu)成。對其聲學(xué)模型而言,首先訓(xùn)練高斯混合模型(Gaussian Mixture Model,GMM)和HMM構(gòu)成的混合系統(tǒng),來進(jìn)行音素和語音幀之間的強(qiáng)制對齊,這里采用經(jīng)過決策樹聚類的三音素作為識別的基本單元。而后使用每幀的對數(shù)梅爾能量譜和三音素類別標(biāo)簽訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)DNN。為獲得良好的初始化參數(shù),先使用受限玻爾茲曼機(jī)對神經(jīng)網(wǎng)絡(luò)進(jìn)行逐層初始化,而后再進(jìn)行輸入特征和標(biāo)簽對應(yīng)的有監(jiān)督分類訓(xùn)練。為使該聲學(xué)模型盡可能地魯棒,訓(xùn)練集含有多種聲學(xué)場景下的語音數(shù)據(jù),包括純凈語音、近講語音、模擬的含噪語音,以及真實(shí)錄制的含噪語音。通過這種多條件的訓(xùn)練方式,聲學(xué)模型的噪聲魯棒性能夠獲得極大提升[11]。
語音識別系統(tǒng)的語言模型為華爾街日報(bào)(Wall Street Journal,WSJ)5000詞的trigram模型,這里使用Kaldi工具集中的加權(quán)有限狀態(tài)機(jī)(Weighted Finite-State Transducer,WFST)對其進(jìn)行建模。在對增強(qiáng)模型進(jìn)行評價(jià)時(shí),ASR系統(tǒng)的聲學(xué)模型和語言模型將固定不變,僅改變前端增強(qiáng)模型。
2.3 模型結(jié)構(gòu)
所提出的聽覺掩蔽生成對抗網(wǎng)絡(luò)GANAM是一種學(xué)習(xí)范式,對增強(qiáng)模型的具體結(jié)構(gòu)并沒有特殊要求。因此這里采用單通道語音增強(qiáng)算法中常用的雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)。為避免長時(shí)建模可能產(chǎn)生的梯度消失問題,該RNN網(wǎng)絡(luò)采用長短時(shí)記憶單元(Long Short-term Memory Unit,LSTM)作為隱層單元。增強(qiáng)模型共包含4個(gè)隱層,而每個(gè)隱層則由512個(gè)LSTM單元構(gòu)成。GANAM中的判別器與聲學(xué)模型的網(wǎng)絡(luò)結(jié)構(gòu)類似,其輸入為前后各擴(kuò)展12幀、共25幀聲學(xué)特征拼接而成的向量,而其輸出則是經(jīng)過sigmoid函數(shù)歸一化后的概率得分。判別器D共包含3個(gè)全連接層,每層由1 024個(gè)線性整流(Rectified Linear Unit,ReLU)神經(jīng)元構(gòu)成。
2.4 對比方法
為客觀評價(jià)所提出方法的性能,本文將其與最近提出的2種基于生成對抗網(wǎng)絡(luò)的增強(qiáng)方法進(jìn)行比較,可得到如下研究結(jié)論:
(1)MappingGAN是文獻(xiàn)[7]提出的增強(qiáng)方法。與本文基于聽覺掩蔽的增強(qiáng)方法不同,其增強(qiáng)模型以含噪語音的聲學(xué)特征為輸入,直接預(yù)測目標(biāo)語音的特征;其判別器則盡可能地發(fā)現(xiàn)增強(qiáng)后語音和目標(biāo)語音之間的差異。該方法可以有效提高混響干擾下魯棒ASR系統(tǒng)的識別率,但對于寬帶非平穩(wěn)噪聲的干擾還未進(jìn)行評估。
(2)PairGAN與本文的方法類似,也是基于聽覺掩蔽的增強(qiáng)方法[6]。不同的是,PairGAN將含噪語音與比率掩膜構(gòu)成的二元組作為正例或反例,而不是將增強(qiáng)后的語音或目標(biāo)語音特征作為正例或反例。該方法能夠有效提高增強(qiáng)后語音的可懂度和感知質(zhì)量,但對魯棒ASR系統(tǒng)識別率的影響還有待研究。
3 實(shí)驗(yàn)結(jié)果及分析
3.1 性能對比
表1給出了MappingGAN、PairGAN以及所提出的GANAM方法增強(qiáng)后語音的詞錯(cuò)誤率。從表1中可以看出:
(1)不管是驗(yàn)證集(dt)還是測試集(et),基于聽覺掩蔽的增強(qiáng)方法都能夠進(jìn)一步降低模擬合成語音(simu)和真實(shí)錄制(real)語音在魯棒ASR系統(tǒng)上的詞錯(cuò)誤率。這說明,前端增強(qiáng)方法是提升語音識別系統(tǒng)噪聲魯棒性的可行途徑。
(2)與有監(jiān)督方法相比,所提出的GANAM在所有評測條件下都能夠顯著降低增強(qiáng)后語音的詞錯(cuò)誤率,從而說明,GANAM能夠使增強(qiáng)后的語音特征更具判別性。
(3)與現(xiàn)有的增強(qiáng)方法MappingGAN和PairGAN相比,GANAM增強(qiáng)后的語音特征獲得了更低的詞錯(cuò)誤率。這就表明,相比于其他的對抗訓(xùn)練策略,基于聽覺掩蔽的生成對抗網(wǎng)絡(luò)能夠更加有效地提取和利用目標(biāo)語音聲學(xué)特征的概率分布。
(4)通過對比PairGAN和有監(jiān)督方法可以看出,不恰當(dāng)?shù)膶共呗苑堑荒芴岣逜SR系統(tǒng)的識別率,甚至還會降低ASR系統(tǒng)的識別性能。此外,PairGAN的實(shí)驗(yàn)結(jié)果還表明,提高增強(qiáng)后語音的可懂度、感知質(zhì)量等主觀指標(biāo),和提高語音識別率這一客觀指標(biāo)是2個(gè)不同的問題,能夠提高主觀指標(biāo)的增強(qiáng)方法并不一定能夠提高識別率。
3.2 判別器模型結(jié)構(gòu)對增強(qiáng)后語音詞錯(cuò)誤率的影響
對于生成對抗網(wǎng)絡(luò)而言,判別器的模型結(jié)構(gòu)也會對最終的性能產(chǎn)生影響。為了評估該影響,本節(jié)固定增強(qiáng)模型的網(wǎng)絡(luò)結(jié)構(gòu)不變,分別使用參數(shù)量相同的卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò),代替所采用的深度神經(jīng)網(wǎng)絡(luò)判別器。表2給出了不同網(wǎng)絡(luò)結(jié)構(gòu)的判別器對增強(qiáng)后語音識別率的影響。從表2中可以看出,判別器的模型結(jié)構(gòu)確實(shí)會對增強(qiáng)后語音的識別率產(chǎn)生顯著的影響。與有監(jiān)督方法(不含判別器的對抗訓(xùn)練)相比,基于卷積神經(jīng)網(wǎng)絡(luò)CNN和循環(huán)神經(jīng)網(wǎng)絡(luò)LSTM的判別器并不能提升增強(qiáng)后語音的識別率,而基于DNN的判別器則在真實(shí)錄制的測試集et_real上帶來了1.78%的詞錯(cuò)誤率下降。
3.3 聽覺掩蔽生成對抗網(wǎng)絡(luò)對增強(qiáng)后特征的影響
為探究聽覺掩蔽生成對抗網(wǎng)絡(luò)GANAM是如何影響增強(qiáng)后的語音特征,使其識別率得以提升,本節(jié)將不同模型增強(qiáng)后的聲學(xué)特征進(jìn)行可視化,如圖2所示。可以看出,有監(jiān)督增強(qiáng)方法只是在盡可能地最小化增強(qiáng)后語音和目標(biāo)語音特征之間的差異,而并不關(guān)心增強(qiáng)后語音是否滿足純凈語音的概率分布,從而使真實(shí)含噪語音增強(qiáng)后的特征依然可能含有較多的噪聲干擾。而所提出的GANAM增強(qiáng)方法則通過對抗訓(xùn)練的方式,來對純凈語音的概率分布進(jìn)行建模,從而盡可能地去除增強(qiáng)后語音特征中的噪聲干擾,得到更為干凈的語音特征,進(jìn)而提升增強(qiáng)后語音的識別率。
4 結(jié)束語
本文在基于聲學(xué)掩蔽有監(jiān)督增強(qiáng)方法的基礎(chǔ)上,通過引入額外的判別器,來對純凈語音的概率分布進(jìn)行建模,而后利用學(xué)習(xí)到的概率分布指導(dǎo)增強(qiáng)模型的訓(xùn)練,從而使其增強(qiáng)后的語音特征滿足目標(biāo)語音的概率分布,同時(shí)也更具判別性。實(shí)驗(yàn)結(jié)果表明,將所提出的聲學(xué)掩蔽生成對抗網(wǎng)絡(luò)增強(qiáng)方法GANAM作為語音識別系統(tǒng)的前端處理,能夠降低魯棒ASR系統(tǒng)在真實(shí)含噪語音上的詞錯(cuò)誤率,進(jìn)一步提高其噪聲魯棒性。
參考文獻(xiàn)
[1] HAN Kun, HE Yanzhang, BAGCHI D, et al.Deep neural network based spectral feature mapping for robust speech recognition[C]// 16th Annual Conference of the International Speech Communication Association(Interspeech). Dresden,Germany:isca-speech organization,2015:2484-2488.
[2] WENINGER F, ERDOGAN H, WATANABE S, et al. Speech enhancement with LSTM recurrent neural networks and its application to noise-robust ASR[M]//VINCENT E, YEREDOR A, KOLDOVSKY[DD(-*2]′[DD)] Z,et al. ?Latent variable analysis and signal separation. LVA/ICA 2015. Lecture Notes in Computer Science. Cham:Springer, 2015,9237:91-99.
[3] WANG Zhongqiu, WANG Deliang. A joint training framework for robust automatic speech recognition[J].IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2016, 24(4):796-806.
[4] LIU Bin, NIE Shuai, ZHANG Yaping, et al. Boosting noise robustness of acoustic model via deep adversarial training[C]// 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP).Calgary, AB, Canada:IEEE, 2018:3674-3679.
[5] GOODFELLOW I, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial nets[C]// NIPS. Montreal, QC, Canada: NIPS Foundation, 2014:2672-2680.
[6] PANDEY A, WANG Deliang. On adversarial training and loss functions for speech enhancement[C]// 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP).Calgary, AB, Canada:IEEE, 2018:5414-5418.
[7] WANG Ke, ZHANG Junbo, SUN Sining, et al. Investigating generative adversarial networks based speech dereverberation for robust speech recognition[C]//Interspeech. Hyderabad, India:dblp, 2018:1581-1585.
[8] DONAHUE C, LI Bo, PRABHAVALKAR R. Exploring speech enhancement with generative adversarial networks for robust speech recognition[C]// ICASSP. Calgary, AB, Canada:IEEE, 2018:5024-5028.
[9] WANG Yuxuan, NARAYANAN A, WANG Deliang. On training targets for supervised speech separation[J].IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2014, 22(12):1849-1858.
[10]BARKER J, MARXER R, VINCENT E, et al. The third ‘chime speech separation and recognition challenge: Dataset, task and baselines[C]// 2015 IEEE Workshop on Automatic Speech Recognition and Understanding. Scottsdale, AZ, USA:IEEE, 2015:504-511.
[11]LI Feipeng, NIDADAVOLU P, HERMANSKY H. A long, deep and wide artificial neural net for robust speech recognition in unknown noise[C]// Interspeech. Singapore:dblp, 2014:1-6.