王師琦,曾慶寧,龍 超,熊松齡,祁瀟瀟
桂林電子科技大學(xué) 信息與通信學(xué)院,廣西 桂林 541004
基于深度學(xué)習(xí)的語(yǔ)音增強(qiáng)通常是從單通道聲學(xué)信號(hào)中提取出特征,利用深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,DNN)進(jìn)行有監(jiān)督學(xué)習(xí),學(xué)習(xí)出各種嘈雜語(yǔ)音與干凈語(yǔ)音之間復(fù)雜的非線性關(guān)系[1]。其中,具有多個(gè)隱藏層的全連接前饋神經(jīng)網(wǎng)絡(luò)是應(yīng)用最廣泛的DNN模型之一,文獻(xiàn)[2]中,Wang等首次將其引入到語(yǔ)音分離任務(wù)中,相較許多單通道的傳統(tǒng)方法,基于深度學(xué)習(xí)的方法在非平穩(wěn)噪聲中的降噪、多說(shuō)話人的語(yǔ)音分離等方面均有著特殊的優(yōu)勢(shì),但由于其結(jié)構(gòu)比較簡(jiǎn)單,通常不能很好地挖掘語(yǔ)音中的深度特征。為了彌補(bǔ)這個(gè)缺點(diǎn),文獻(xiàn)[3]在輸入端從特征工程方向考慮,嘗試了多種語(yǔ)音特征,文獻(xiàn)[4]通過(guò)引入CNN(Convolutional Neural Networks,卷積神經(jīng)網(wǎng)絡(luò)),使得模型自身的特征提取能力得到提升。文獻(xiàn)[5]將LSTM應(yīng)用于語(yǔ)音分離,使得模型獲得了在長(zhǎng)序列上建模的能力,即使在不使用未來(lái)幀的情況下也可以取得很好的效果。
VAD是指從聲音信號(hào)中檢測(cè)是否存在人類語(yǔ)音的一類任務(wù)。其在語(yǔ)音信號(hào)處理中被廣泛地應(yīng)用,如語(yǔ)音電話、語(yǔ)音編碼、自動(dòng)語(yǔ)音識(shí)別、音頻監(jiān)控、語(yǔ)音增強(qiáng)、說(shuō)話人驗(yàn)證。經(jīng)典的VAD算法有:基于閾值決策準(zhǔn)則的算法[6]、基于統(tǒng)計(jì)模型的算法[7]。近年來(lái),越來(lái)越多的研究者開始將深度學(xué)習(xí)技術(shù)應(yīng)用在VAD任務(wù)中,文獻(xiàn)[8]提出了一種能充分利用上下文信息的VAD深度學(xué)習(xí)方法,文獻(xiàn)[9]提出了一種VAD與語(yǔ)音增強(qiáng)任務(wù)聯(lián)合訓(xùn)練的模型,憑借有監(jiān)督深度學(xué)習(xí)強(qiáng)大的數(shù)據(jù)驅(qū)動(dòng)能力,它們均取得了很好的效果,但目前,在低信噪比以及不匹配噪聲下的VAD仍是一個(gè)極具挑戰(zhàn)性的任務(wù)。
如今,深度學(xué)習(xí)技術(shù)越來(lái)越成熟,但目前的各種DNN模型往往復(fù)雜度大、參數(shù)多,導(dǎo)致其部署難度很大。即使可以通過(guò)知識(shí)蒸餾的方法減小網(wǎng)絡(luò)的規(guī)模[10],但如果需要在同一個(gè)終端上同時(shí)實(shí)現(xiàn)多個(gè)任務(wù)就必須同時(shí)部署多個(gè)模型,還是會(huì)對(duì)硬件帶來(lái)巨大壓力。語(yǔ)音增強(qiáng)與VAD這兩個(gè)最重要的前端處理任務(wù)具有很強(qiáng)的相關(guān)性,它們可以分別看作是在時(shí)頻域和時(shí)域估計(jì)語(yǔ)音存在的概率。多任務(wù)學(xué)習(xí)通過(guò)共享參數(shù),使其在抽象的層次具有相同的表達(dá),相當(dāng)于對(duì)參數(shù)施加了軟約束,這意味著任務(wù)的泛化能力都將得到改善。同時(shí)其通過(guò)參數(shù)共享的方式,以較少的參數(shù)就可以一次性同時(shí)完成兩個(gè)任務(wù)。
針對(duì)上述問(wèn)題,提出了一種多任務(wù)的在線模型,其貢獻(xiàn)主要有以下兩點(diǎn):第一,本文首次嘗試在多任務(wù)模型中平衡語(yǔ)音增強(qiáng)與VAD兩種任務(wù),并驗(yàn)證了其可行性;第二,本文使用LSTM作為模型的主要部分,其本質(zhì)上是一個(gè)因果系統(tǒng),可以實(shí)現(xiàn)逐幀輸入的在線處理,兩個(gè)任務(wù)能在同一個(gè)模型中并行完成,降低了運(yùn)算成本,這對(duì)于模型的部署具有重要的意義。
通常,DNN模型由于沒(méi)有時(shí)序建模的能力,因此需要將語(yǔ)音的上下文特征拼接起來(lái),組成語(yǔ)音的局部作為輸入,但這會(huì)使得語(yǔ)音預(yù)處理的復(fù)雜度大大增加,模型只能在延遲多幀的情況下,以緩存器的形式實(shí)現(xiàn)在線語(yǔ)音增強(qiáng)[11]。通常,VAD會(huì)作為語(yǔ)音信號(hào)處理流程中最前端的模塊。因此,往往要求VAD算法應(yīng)具有較低的延遲以及對(duì)噪聲具有很強(qiáng)的魯棒性,為了滿足這些要求,選擇了具有時(shí)間序列建模能力的LSTM網(wǎng)絡(luò)作為本文模型的重要組成部分。
循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)引入了循環(huán)和遞歸,非常適合處理序列數(shù)據(jù)。但簡(jiǎn)單的RNN只具有短期記憶的能力,當(dāng)訓(xùn)練輸入序列較長(zhǎng)時(shí),存在梯度爆炸和消失的問(wèn)題。為了改善這個(gè)問(wèn)題,文獻(xiàn)[12]提出了LSTM,這是一種特殊的門控循環(huán)神經(jīng)網(wǎng)絡(luò)。LSTM網(wǎng)絡(luò)引入了內(nèi)部狀態(tài)c t進(jìn)行線性的循環(huán)信息傳遞,同時(shí)輸出信息給隱藏層的外部狀態(tài)h t,定義公式如下:
其中f t、i t和o t分別為遺忘門、輸入門和輸出門,用于控制信息的傳遞,x t和h t-1代表當(dāng)前輸入和上一時(shí)刻外部狀態(tài),為向量元素乘積,σ表示Logistic函數(shù),tanh代表雙曲正切函數(shù),?是通過(guò)非線性函數(shù)得到的候選狀態(tài),定義公式如下:
憑借LSTM的時(shí)序信息記憶能力,即使逐幀輸入特征,也可以獲得足夠的語(yǔ)音局部信息,這對(duì)于需要在線實(shí)時(shí)運(yùn)行的場(chǎng)景具有重要的意義。
看似無(wú)關(guān)的許多任務(wù),由于數(shù)據(jù)和信息的共享而具有很強(qiáng)的依賴性。多任務(wù)學(xué)習(xí)指的是通過(guò)合并幾個(gè)任務(wù)中的樣例來(lái)提高模型泛化能力的一種機(jī)器學(xué)習(xí)方法[13]。語(yǔ)音增強(qiáng)和VAD任務(wù)的相關(guān)性意味著它們?cè)谀撤N抽象的層次中必定有很多相似的可共享的部分,基于深度學(xué)習(xí)的VAD在不匹配噪聲下的表現(xiàn)往往不盡如人意,其原因在于普通模型的泛化能力不夠,文獻(xiàn)[9,14]提出把語(yǔ)音增強(qiáng)加入模型,組成多任務(wù)學(xué)習(xí)模型,迫使模型必須在共享的部分更好地理解語(yǔ)音,從而改善VAD的泛化能力,例如:在較低的信噪比下也能檢測(cè)出語(yǔ)音的存在、在babble噪聲下正確的檢測(cè)和增強(qiáng)出目標(biāo)語(yǔ)音而不是背景人聲。文獻(xiàn)[9,14]的模型均是以VAD作為主任務(wù),語(yǔ)音增強(qiáng)僅僅作為訓(xùn)練時(shí)提升VAD泛化能力的輔助,在模型的預(yù)測(cè)階段,語(yǔ)音增強(qiáng)的層將會(huì)被移除。近年來(lái),深度學(xué)習(xí)被廣泛地應(yīng)用在語(yǔ)音信號(hào)處理的各個(gè)任務(wù)中,若要在終端同時(shí)部署多個(gè)大型的深度模型,將對(duì)硬件造成很大壓力,與文獻(xiàn)[9,14]的思路不同,本文將嘗試平衡兩個(gè)任務(wù),以硬共享的模式將其合并在一個(gè)模型中,使其能以較少的計(jì)算量并行地完成兩個(gè)任務(wù),對(duì)于模型的部署將具有重要的意義。
圖1是本文的多任務(wù)學(xué)習(xí)模型結(jié)構(gòu),該模型采用的是硬共享的參數(shù)共享模式[13],通過(guò)共享最底層的兩個(gè)LSTM層,每層具有512個(gè)單元,使兩個(gè)任務(wù)能夠共同提取一些通用特征。由于兩個(gè)任務(wù)具有強(qiáng)相關(guān)性,直接將兩個(gè)全連接的輸出層作為兩個(gè)任務(wù)的私有模塊,這樣的方式可以很大程度地減少整個(gè)網(wǎng)絡(luò)的參數(shù)量。
圖1 多任務(wù)學(xué)習(xí)模型結(jié)構(gòu)以及LSTM單元內(nèi)部結(jié)構(gòu)Fig.1 Structure of multi-task learning model and internal structure of LSTM unit
文獻(xiàn)[15]詳細(xì)研究了各種語(yǔ)音增強(qiáng)的訓(xùn)練目標(biāo),主要有直接譜映射和時(shí)頻掩蔽兩類。其中,時(shí)頻掩蔽的概念來(lái)自于計(jì)算聽覺(jué)場(chǎng)景分析(Computational Auditory Scene Analysis,CASA),將時(shí)頻掩蔽加權(quán)在嘈雜語(yǔ)音的時(shí)頻域上,可以很好地分離目標(biāo)語(yǔ)音和噪聲。CASA的主要目標(biāo)是理想二值掩蔽(Ideal Binary Mask,IBM),它以1和0分別表示時(shí)頻單元是目標(biāo)語(yǔ)音還是噪聲占主導(dǎo)地位。除了IBM還有很多種時(shí)頻掩蔽,其中應(yīng)用最廣泛的是理想浮值掩蔽(Ideal Ratio Mask,IRM),它是一個(gè)0到1之間的值,表示在每個(gè)時(shí)頻單元中語(yǔ)音所占的比重。本文的系統(tǒng)選用IRM作為訓(xùn)練目標(biāo),主要原因有兩點(diǎn):首先,將時(shí)頻掩蔽作為目標(biāo),比直接的譜映射訓(xùn)練方式要更容易訓(xùn)練;其次,使用時(shí)頻域的IRM作為增強(qiáng)的輸出結(jié)果,有利于在之后的工作中與很多先進(jìn)的信號(hào)處理方法結(jié)合[16]。對(duì)于VAD的訓(xùn)練目標(biāo),可以將VAD任務(wù)當(dāng)作一個(gè)二分類的問(wèn)題來(lái)處理,在語(yǔ)音的時(shí)間幀上的標(biāo)注語(yǔ)音是否存在即可得到訓(xùn)練目標(biāo)。
由于多層的LSTM本身具有很強(qiáng)的特征提取能力和時(shí)序建模能力,因此僅選用當(dāng)前幀的對(duì)數(shù)能量譜(Log-Power Spectral,LPS)作為輸入特征。LPS僅取對(duì)數(shù)抑制語(yǔ)音的動(dòng)態(tài)范圍,除此之外不對(duì)時(shí)頻域幅度譜做任何的處理,以保留更多的原始信息讓模型在訓(xùn)練中自主挖掘。
對(duì)于多任務(wù)的學(xué)習(xí)模式,模型的損失函數(shù)將會(huì)有多個(gè),通過(guò)采用超參數(shù)α加權(quán)求和的形式,可以將損失函數(shù)整合并同時(shí)優(yōu)化。LSE代表IRM的損失函數(shù),LVAD代表VAD的損失函數(shù),模型的損失函數(shù)LMTL可以定義為:
對(duì)于語(yǔ)音增強(qiáng)任務(wù),輸出的IRM是一個(gè)0到1之間的值,因此,采用了sigmoid函數(shù)作為輸出層的激活函數(shù),均方誤差(Mean-Square Error,MSE)作為損失函數(shù)。對(duì)于VAD任務(wù),可以將其看作是一個(gè)二分類的問(wèn)題,采用二元交叉熵作為損失函數(shù)。兩個(gè)損失函數(shù)定義如下:
其中,Y t為輸出的IRM向量,Z t為VAD輸出,和Z?t代表訓(xùn)練目標(biāo),T為幀數(shù),F(xiàn)為頻帶數(shù),由于本文中沒(méi)有將時(shí)頻信號(hào)轉(zhuǎn)化到其他變換域,因此F同時(shí)也是本文中特征值和輸出的維數(shù)。
本文中的實(shí)驗(yàn)數(shù)據(jù)集均混合自TIMIT數(shù)據(jù)集[17]。選取的噪聲有:NOISEX-92數(shù)據(jù)集[18]中的factory1噪聲、destroyerengine噪聲以及DEMAND數(shù)據(jù)集[19]中PCAFRETER噪聲的其中一個(gè)通道。將以上三種噪聲作為匹配噪聲以信噪比-5 dB、0 dB和5 dB與TIMIT中的語(yǔ)音加性混合,得到8 316句的訓(xùn)練集和840句的驗(yàn)證集?;旌线^(guò)程如下:
其中,s、n和x分別代表干凈語(yǔ)音信號(hào)、原始加性噪聲信號(hào)和混合信號(hào),I代表波形的采樣點(diǎn)個(gè)數(shù),SNR為理想的混合信噪比,通過(guò)β調(diào)整噪聲的能量來(lái)控制混合信號(hào)的信噪比。
選用TIMIT數(shù)據(jù)集的一個(gè)重要原因是,其作為一個(gè)主要用于語(yǔ)音識(shí)別的數(shù)據(jù)集,帶有音素級(jí)別的人工標(biāo)注信息,本文將音素h#、pau、epi、bcl、dcl、gcl、pcl、tck和kcl視為非語(yǔ)音段,其他音素視為語(yǔ)音段,以此方法生成的VAD標(biāo)簽具有很高的可靠性。
值得注意的是,TIMIT數(shù)據(jù)集的語(yǔ)音和非語(yǔ)音段占比約為78%,為了使VAD任務(wù)的性能評(píng)估更加準(zhǔn)確,在VAD實(shí)驗(yàn)中通常會(huì)在數(shù)據(jù)集的每個(gè)句子之間填充隨機(jī)的零段,使得數(shù)據(jù)集中的語(yǔ)音和非語(yǔ)言占比調(diào)整至相對(duì)平衡[10]。然而對(duì)于語(yǔ)音增強(qiáng)任務(wù)來(lái)說(shuō),在訓(xùn)練集中出現(xiàn)過(guò)多的非語(yǔ)音段將會(huì)對(duì)模型的訓(xùn)練產(chǎn)生影響,為了評(píng)估這一矛盾帶來(lái)的影響,分別生成了p=60%、p=70%和無(wú)填充(p=78%)三組訓(xùn)練集,其中p代表填充過(guò)后語(yǔ)音段的占比。三組訓(xùn)練集的時(shí)長(zhǎng)分別為7.10 h、7.95 h和9.28 h。
選取了NOISEX-92中的babble噪聲和factory2噪聲作為不匹配噪聲,factory1和babble噪聲分別與factory2和PCAFETER噪聲有相似之處,但卻是模型在訓(xùn)練階段沒(méi)有見(jiàn)過(guò)的噪聲,因此可以很好地測(cè)試模型的泛化能力。選取TIMIT核心測(cè)試集中說(shuō)話人的200個(gè)句子作為本文的測(cè)試集,依次以信噪比-5 dB、0 dB和5 dB與匹配噪聲和非匹配噪聲混合,得到匹配測(cè)試集和非匹配測(cè)試集。其中,保證訓(xùn)練集中的噪聲片段不會(huì)出現(xiàn)在驗(yàn)證集和匹配測(cè)試集中。
本實(shí)驗(yàn)中的所有信號(hào)均重采樣為16 kHz的采樣率,每幀的幀長(zhǎng)和幀移分別為512和256個(gè)采樣點(diǎn)。模型的輸入LPS和輸出IRM均為每幀257維。本文提出的模型在訓(xùn)練時(shí)使用Adam優(yōu)化器,一次輸入200個(gè)時(shí)間步長(zhǎng),批量大小為128。為平衡兩個(gè)任務(wù),根據(jù)實(shí)驗(yàn)中的經(jīng)驗(yàn),式(7)中的超參數(shù)α確定為0.2。
使用了PESQ和STOI兩種指標(biāo)來(lái)評(píng)估模型的語(yǔ)音增強(qiáng)效果,它們分別評(píng)價(jià)的是語(yǔ)音感知的兩個(gè)主要因素:語(yǔ)音質(zhì)量和可懂度。短時(shí)客觀可懂度(Short-Time Objective Intelligibility,STOI)是通過(guò)測(cè)量干凈語(yǔ)音與增強(qiáng)語(yǔ)音之間短時(shí)包絡(luò)的相關(guān)性得到的,其值的范圍在0到1之間,也通常以百分比表示[20]。語(yǔ)音質(zhì)量的感知估計(jì)(Perceptual Evaluation of Speech Quality,PESQ)應(yīng)用聽覺(jué)變換產(chǎn)生響度譜,并比較干凈語(yǔ)音和增強(qiáng)語(yǔ)音的響度譜,以產(chǎn)生與預(yù)測(cè)MOS得分相對(duì)應(yīng)的分?jǐn)?shù)[21],其分?jǐn)?shù)范圍在-0.5到4.5之間。
在基于深度學(xué)習(xí)的VAD任務(wù)中,接收者操作特征曲線(Receiver Operating Characteristic,ROC)是一種評(píng)價(jià)VAD性能的指標(biāo),與直接選定閾值得到VAD的準(zhǔn)確率不同,ROC通過(guò)變化不同的閾值,得到對(duì)應(yīng)的語(yǔ)音檢測(cè)率(Speech Hit Rate,SHR)和虛警率(False Alarm Rate,F(xiàn)AR),使得VAD的評(píng)價(jià)更加全面[8-9]。在實(shí)際應(yīng)用中,也有利于根據(jù)不同的應(yīng)用場(chǎng)景,選擇更適合的閾值。由于篇幅有限,本文將使用ROC曲線下面積(Area Under ROC Curve,AUC)作為ROC的定量指標(biāo)。
為了驗(yàn)證本文模型的結(jié)果,選擇了以下幾個(gè)具有代表性的單任務(wù)模型作為基線:
(1)DNN-SE:由4個(gè)全連接隱藏層組成的深度神經(jīng)網(wǎng)絡(luò),每層包含1 024個(gè)隱藏單元,這是早期經(jīng)典的深度學(xué)習(xí)語(yǔ)音增強(qiáng)(Speech Enhancement,SE)模型[3,15],由于模型本身不傳遞任何的時(shí)間信息,因此每次需要輸入當(dāng)前幀以及相鄰2幀一共5幀的特征信息。
(2)LSTM-SE:由兩個(gè)LSTM層和一個(gè)全連接的輸出層組成,每個(gè)LSTM層具有512個(gè)單元,輸出是257維的時(shí)頻掩蔽。由于LSTM屬于循環(huán)神經(jīng)網(wǎng)絡(luò),具有在時(shí)域上建模的能力,所以每次只需要輸入一幀的信息即可獲得不錯(cuò)的效果[16]。該模型本質(zhì)上是一個(gè)因果系統(tǒng),因此理論上可以實(shí)現(xiàn)逐幀處理的實(shí)時(shí)語(yǔ)音增強(qiáng)。
(3)Sohn:這是最經(jīng)典的基于統(tǒng)計(jì)模型的VAD算法之一[7],本實(shí)驗(yàn)將其語(yǔ)音活動(dòng)似然比作為輸出。
(4)LSTM-VAD:由兩個(gè)LSTM層和一個(gè)全連接的輸出層組成,LSTM層分別具有512和256個(gè)單元,輸出的是1維的VAD信息。和LSTM-SE一樣,LSTM-VAD也能以逐幀輸入的形式運(yùn)行。
值得注意的是,這些基線模型的超參數(shù)都已分別在本實(shí)驗(yàn)的數(shù)據(jù)集下調(diào)至最優(yōu)。其中,語(yǔ)音增強(qiáng)任務(wù)基線將使用非填充數(shù)據(jù)集訓(xùn)練,VAD任務(wù)基線和本文的多任務(wù)模型將使用填充數(shù)據(jù)集訓(xùn)練。由于PESQ和STOI均對(duì)填充的非語(yǔ)音段不敏感,因此,所有的模型在測(cè)試時(shí)都將使用p=60%的填充數(shù)據(jù)集。
圖2顯示了本文模型用(p=60%)和VAD基線模型在各種信噪比匹配與不匹配噪聲下的AUC比較結(jié)果?;谏疃葘W(xué)習(xí)的LSTM-VAD和本文算法在匹配噪聲下,要遠(yuǎn)好于經(jīng)典的Sohn方法。在5 dB的噪聲下,無(wú)論是匹配噪聲還是不匹配噪聲,兩個(gè)基于深度學(xué)習(xí)模型的AUC都可以達(dá)到97%以上。但是在不匹配噪聲測(cè)試中,信噪比的降低將會(huì)使基于深度學(xué)習(xí)的模型性能受到嚴(yán)重影響,但得益于本文中多任務(wù)學(xué)習(xí)的方法給模型帶來(lái)的泛化能力提升,在低信噪比下,本文模型的AUC均好于LSTM-VAD。如表1所示,在低信噪比的babble噪聲下,LSTM-VAD的性能嚴(yán)重下降,這是由于,在0 dB和-5 dB下,目標(biāo)語(yǔ)音與babble噪聲中的背景人聲能量相當(dāng),甚至更低,因此模型很難分辨出目標(biāo)語(yǔ)音是否存在。但本文的模型由于加入了語(yǔ)音增強(qiáng)任務(wù)的學(xué)習(xí),在低信噪比babble噪聲下判斷目標(biāo)語(yǔ)音是否存在的能力得到了提升,最終在-5 dB下AUC相較LSTM-VAD提升了7.4%,0 dB下提升了3.7%。
圖2 Sohn、LSTM-VAD和本文模型(p=60%)的AUC結(jié)果比較Fig.2 Comparison of AUC results of Sohn,LSTM-VAD and proposed model(p=60%)
表1 Sohn、LSTM-VAD和本文模型(p=60%)不匹配噪聲下的AUC結(jié)果比較Table 1 Comparison of AUC results of Sohn,LSTM-VAD and proposed model(p=60%)under unmatch noise %
圖3對(duì)比了本文模型(p=60%)與各種基線的語(yǔ)音增強(qiáng)結(jié)果,本文模型的增強(qiáng)效果介于LSTM-SE和DNN-SE之間,雖然差距很小,但本文模型的PESQ和STOI始終比LSTM-SE的結(jié)果要略差一些,這是因?yàn)橛?xùn)練數(shù)據(jù)集中填充零段使得語(yǔ)音段占比變低最終導(dǎo)致語(yǔ)音增強(qiáng)能力受到損失。為了研究這一問(wèn)題,使用了p=60%、p=70%和無(wú)填充(p=78%)三組訓(xùn)練集訓(xùn)練本文模型,并在p=60%的測(cè)試集中測(cè)試。值得注意的是,PESQ和STOI對(duì)于非語(yǔ)音段的感知較弱,填充的零段對(duì)于最終的增強(qiáng)評(píng)估結(jié)果幾乎沒(méi)有變化,但p=60%可以使得語(yǔ)音和非語(yǔ)言段占比相對(duì)平衡,使得AUC的評(píng)估結(jié)果更加準(zhǔn)確,因此,選擇了在p=60%中測(cè)試所有實(shí)驗(yàn)。如圖4所示,訓(xùn)練集填充越少,語(yǔ)音的PESQ和STOI的結(jié)果就越好,但總體來(lái)說(shuō)變化并不明顯。對(duì)于VAD任務(wù),訓(xùn)練集填充越多語(yǔ)音占比越平衡,VAD的性能就越好。因此,選擇使用p=60%的訓(xùn)練集訓(xùn)練模型,既可以獲得不錯(cuò)語(yǔ)音的增強(qiáng)效果,又可以得到最優(yōu)的VAD效果。
圖3 DNN-SE、LSTM-SE與本文模型(p=60%)的PESQ、STOI結(jié)果比較Fig.3 Comparison of PESQ and STOI results of DNN-SE,LSTM-SE and proposed model(p=60%)
截取了一段5 dB的PCAFRETER噪聲下的嘈雜語(yǔ)音在三種模型下的消噪結(jié)果,如圖5所示,PCAFRETER噪聲中有大量的背景人聲,LSTM-SE最終增強(qiáng)的語(yǔ)音質(zhì)量雖然會(huì)略好于本文方法,PESQ和STOI的得分更高,但是其會(huì)在非語(yǔ)音段錯(cuò)誤殘留了一些背景人聲,這對(duì)于聽感或識(shí)別會(huì)造成一定的影響。本文的方法由于在訓(xùn)練集中填充了零段,并加入了VAD信息的學(xué)習(xí),因此,模型能從PCAFRETER中理解背景人聲和目標(biāo)語(yǔ)音的區(qū)別,可以從圖4中看出,本文方法對(duì)非語(yǔ)言段的消噪效果更優(yōu),然而這方面的提升在PESQ和STOI中是無(wú)法體現(xiàn)的。
圖4 不同語(yǔ)音占比訓(xùn)練集對(duì)PESQ、STOI和AUC的影響Fig.4 Influenceof different speech proportion training sets on PESQ,STOI and AUC
圖5 DNN-SE、LSTM-SE與本文模型(p=60%)的消噪結(jié)果對(duì)比Fig.5 Comparison of denoising results of DNN-SE,LSTM-SE and proposed model(p=60%)
由于本文的多任務(wù)模型與單任務(wù)的LSTM-SE和LSTM-VAD都屬于可實(shí)時(shí)運(yùn)行的在線模型,因此可以通過(guò)比較完成兩個(gè)任務(wù)的實(shí)時(shí)率(Real Time Factor,RTF)來(lái)評(píng)估系統(tǒng)的效率。兩個(gè)方法均在Keras-CPU-2.3.1+Tensorflow-2.1.0的環(huán)境中運(yùn)行,終端CPU為Intel i5-4200U 1.60 GHz。如圖6所示,本文的多任務(wù)模型(p=60%)在語(yǔ)音增強(qiáng)質(zhì)量非常相近、VAD效果更優(yōu)的情況下,其速度比串行分別運(yùn)行兩個(gè)任務(wù)快了44.2%,這對(duì)于將深度學(xué)習(xí)模型部署在更低功耗更低性能的終端設(shè)備上將具有重要的意義。
圖6 多任務(wù)模型與單任務(wù)模型的實(shí)時(shí)率對(duì)比Fig.6 Comparison of real time factor between multi-task model and single-task model
在本文中,提出了一種多任務(wù)的在線實(shí)時(shí)模型,用于同時(shí)處理語(yǔ)音增強(qiáng)和VAD這兩項(xiàng)任務(wù)。首次嘗試在多任務(wù)模型中平衡了語(yǔ)音增強(qiáng)與VAD兩項(xiàng)任務(wù),使得兩項(xiàng)任務(wù)都可以作為最終的結(jié)果輸出,并驗(yàn)證了其有效性。結(jié)果表明,相較基線模型,本文模型在語(yǔ)音增強(qiáng)結(jié)果非常相近、VAD效果更優(yōu)的情況下,其速度比串行處理兩個(gè)任務(wù)快了44.2%,這對(duì)于將深度學(xué)習(xí)模型在各種終端上的應(yīng)用和部署具有重要的意義。在未來(lái)的工作中,將嘗試通過(guò)使用更大的數(shù)據(jù)集以及改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu),探索在多任務(wù)學(xué)習(xí)中能保證語(yǔ)音增強(qiáng)質(zhì)量不損失的方法。