張存遠(yuǎn),馬建芬+,張朝霞
(1.太原理工大學(xué) 信息與計(jì)算機(jī)學(xué)院,山西 晉中 030600;2.太原理工大學(xué) 物理與光電工程學(xué)院,山西 晉中 030600)
語(yǔ)音增強(qiáng)的目的是將目標(biāo)語(yǔ)音與噪聲干擾區(qū)分開。為解決傳統(tǒng)單聲道語(yǔ)音增強(qiáng)算法存在殘留噪聲的問(wèn)題,多名研究者提出了基于監(jiān)督性學(xué)習(xí)的語(yǔ)音掩蔽增強(qiáng)[1-5],常見的DNN掩蔽估計(jì)目標(biāo)有:理想二值掩蔽(IBM)[6]、理想比例掩蔽(IRM)[7]等,這些傳統(tǒng)的掩蔽算法僅增強(qiáng)語(yǔ)音的幅度譜而不考慮語(yǔ)音的相位信息。雖然這些方法能夠顯著抑制噪聲[8],但是近年研究發(fā)現(xiàn)[9],當(dāng)僅增強(qiáng)相位譜并且保持噪聲幅度不變時(shí),可以有效地提升語(yǔ)音質(zhì)量。為此,Williamson等提出了復(fù)數(shù)域理想掩蔽算法(cIRM)[10],但該方法沒有做到直接對(duì)相位估計(jì),僅能轉(zhuǎn)換到復(fù)雜的直角坐標(biāo)系中計(jì)算短時(shí)傅里葉變換后(STFT)的實(shí)部和虛部,同樣的相敏掩蔽(PSM)[11]可以簡(jiǎn)單概括為cIRM的實(shí)部,這些方法不能直接處理非結(jié)構(gòu)化特性的相位譜,且計(jì)算復(fù)雜影響其效率。近年,Zhang等指出相位譜補(bǔ)償方法(PSC)可以有效地修正相位譜信息[12],能夠大幅度提高語(yǔ)音質(zhì)量。但其參數(shù)固定無(wú)法適應(yīng)非平穩(wěn)噪聲的能量變化,且未能結(jié)合監(jiān)督性學(xué)習(xí)。
因此,在本文中我們提出了一種基于多目標(biāo)深度神經(jīng)網(wǎng)絡(luò)的相位譜補(bǔ)償和語(yǔ)音掩蔽聯(lián)合估計(jì)的語(yǔ)音增強(qiáng)算法,通過(guò)優(yōu)化傳統(tǒng)相位譜補(bǔ)償函數(shù),使其更適合作為訓(xùn)練目標(biāo),同時(shí)達(dá)到直接估計(jì)相位的目的。為了能夠提升相位譜補(bǔ)償適應(yīng)噪聲能量的波動(dòng),在其系數(shù)中添加SNR特性。具體的,本文將改進(jìn)的相位譜補(bǔ)償和幅度譜掩蔽共同作為訓(xùn)練目標(biāo),進(jìn)行聯(lián)合訓(xùn)練,所訓(xùn)練的網(wǎng)絡(luò)同時(shí)包含相位譜和幅度譜信息,將得到的網(wǎng)絡(luò)進(jìn)行語(yǔ)音增強(qiáng)。通過(guò)實(shí)驗(yàn)對(duì)比,進(jìn)一步探討本文方法的性能。
語(yǔ)音增強(qiáng)的目標(biāo)是在給定含噪語(yǔ)音信號(hào)的情況下,估計(jì)出干凈語(yǔ)音信號(hào)。假設(shè)x(n) 表示為干凈語(yǔ)音信號(hào),z(n) 表示為噪聲信號(hào),且x(n) 和z(n) 相互獨(dú)立,則含噪語(yǔ)音信號(hào)表示為y(n), 有
y(n)=z(n)+x(n)
(1)
對(duì)于干凈語(yǔ)音、噪聲信號(hào)和含噪語(yǔ)音,其相應(yīng)頻譜的時(shí)頻單元表示為X(k,l)、Z(k,l) 和Y(k,l)。 其中X(k,l) 表示干凈語(yǔ)音信號(hào)的第k幀位于頻帶l的頻譜分量。將其表示在極坐標(biāo)上,可以分解為幅度譜和相位譜
X(k,l)=|X(k,l)|ejθx(k,l)
(2)
式(2)表明,x(n) 經(jīng)過(guò)STFT之后得到該信號(hào)的短時(shí)幅度譜 |X(k,l)|, 和該信號(hào)的短時(shí)相位譜θx(k,l)。 本文主要致力于極坐標(biāo)上幅度和相位聯(lián)合的語(yǔ)音增強(qiáng),在極坐標(biāo)上能夠直接表示其幅度和相位的關(guān)系,其中幅度譜具有清晰的結(jié)構(gòu),在語(yǔ)音增強(qiáng)中的應(yīng)用十分受歡迎,而相位譜卻十分雜亂,但卻十分重要不可忽視。
雖然相位信息可以提高語(yǔ)音的感知質(zhì)量,但由于相位卷繞[13],相位譜呈現(xiàn)為高度非結(jié)構(gòu)化特征,我們很難通過(guò)現(xiàn)有的方法直接對(duì)相位進(jìn)行估計(jì)?,F(xiàn)有方法通常將極坐標(biāo)域轉(zhuǎn)換到由實(shí)部與虛部構(gòu)成的直角坐標(biāo)域上計(jì)算,無(wú)法直接對(duì)相位譜修正且造成了系統(tǒng)的冗余。Paliwal提出了相位譜補(bǔ)償算法(PSC)可以通過(guò)噪聲的特性對(duì)含噪語(yǔ)音的相位進(jìn)行修正,相位譜補(bǔ)償函數(shù)可以表示為
(3)
(4)
為克服相位譜非結(jié)構(gòu)化特性和傳統(tǒng)PSC在修正相位的問(wèn)題,本文提出將信噪比(SNR)作為影響相位譜補(bǔ)償?shù)囊蛩刂籟14],我們知道語(yǔ)音信噪比能夠影響干凈語(yǔ)音和含噪語(yǔ)音的相位差。本文對(duì)該方法進(jìn)行改進(jìn),將補(bǔ)償因子結(jié)合SNR構(gòu)建新的相位譜補(bǔ)償因子,則相位譜補(bǔ)償函數(shù)的表達(dá)式為式(5)所示。其中c為固定值設(shè)置為2.7
(5)
由式(5)可以看出如果當(dāng)前單元為語(yǔ)音單元,則SNR值增加,補(bǔ)償因子減小,則相位譜補(bǔ)償函數(shù)對(duì)含噪語(yǔ)音的影響降低,且滿足上述提到的SNR較大相位的可靠度高。
為此本文分別將提出的新的補(bǔ)償因子和傳統(tǒng)補(bǔ)償因子結(jié)合含噪語(yǔ)音的幅度譜進(jìn)行語(yǔ)音增強(qiáng),如圖1所示,圖1(a)為傳統(tǒng)的PSC,圖1(b)為改進(jìn)的PSC,可見改進(jìn)的PSC保留了更多的語(yǔ)音細(xì)節(jié),語(yǔ)音較噪聲能量更加突出,更適合作為網(wǎng)絡(luò)的訓(xùn)練目標(biāo),同時(shí)抑制噪聲的能力也比傳統(tǒng)強(qiáng)。將其二者進(jìn)行客觀評(píng)價(jià),改進(jìn)的PSC得到了比傳統(tǒng)PSC更高的評(píng)分。
圖1 不同補(bǔ)償因子的比較
以上本文提出了基于SNR改進(jìn)的相位譜補(bǔ)償因子,為了方便網(wǎng)絡(luò)的估計(jì),將式(5)中相位補(bǔ)償函數(shù)Λ(k,l) 寫作式(6)
Λ(k,l)=Ψ(l)×Q(k,l)
(6)
在網(wǎng)絡(luò)訓(xùn)練的時(shí)候,我們將此參數(shù)Q(k,l) 設(shè)置為訓(xùn)練標(biāo)簽,為了呼應(yīng)網(wǎng)絡(luò)輸出層sigmoid函數(shù)取值在0和1之間,需要將Q(k,l) 進(jìn)行歸一化記為ΩZ。 在Q(k,l) 中包含了噪聲信號(hào)的能量和干凈語(yǔ)音的能量,該參數(shù)容易獲得且計(jì)算簡(jiǎn)單,將Q設(shè)定為網(wǎng)絡(luò)的訓(xùn)練目標(biāo),簡(jiǎn)化了訓(xùn)練難度。將訓(xùn)練好的參數(shù)結(jié)合頻帶數(shù)恢復(fù)Ψ(l), 即可計(jì)算出相位譜補(bǔ)償。在相位譜補(bǔ)償函數(shù)中Ψ(l) 主要作用是產(chǎn)生一個(gè)反對(duì)稱函數(shù),如式(4),用于對(duì)相位的修正,在語(yǔ)音合成中可以起到抵消噪聲的因素。Λ的作用如式(7)所示
YΛ(k,l)=Y(k,l)+Λ(k,l)
(7)
式中:YΛ為補(bǔ)償后的頻譜,通過(guò)對(duì)補(bǔ)償后的頻譜進(jìn)行相位的提取,得到式(8)為補(bǔ)償后的相位譜∠YΛ, 其中arg(·) 表示提取相位的復(fù)數(shù)幅角函數(shù),通過(guò)該函數(shù)的反變換即能得到修正后的相位譜
∠YΛ(k,l)=arg(YΛ(k,l))
(8)
新建的PSC是網(wǎng)絡(luò)訓(xùn)練中訓(xùn)練目標(biāo)之一,通過(guò)網(wǎng)絡(luò)的訓(xùn)練計(jì)算出最優(yōu)的補(bǔ)償參數(shù)的值。為驗(yàn)證該方法結(jié)合DNN重構(gòu)相位的有效性,將聯(lián)合幅度譜掩蔽進(jìn)行語(yǔ)音增強(qiáng)。
為了能夠彌補(bǔ)傳統(tǒng)幅度譜掩蔽在增強(qiáng)階段相位合成的問(wèn)題,本文提出了基于DNN的相位譜補(bǔ)償聯(lián)合幅度譜估計(jì)的語(yǔ)音增強(qiáng)算法。將相位譜補(bǔ)償以及幅度譜掩蔽作為網(wǎng)絡(luò)的訓(xùn)練目標(biāo),以提升語(yǔ)音質(zhì)量和語(yǔ)音可懂度。聯(lián)合估計(jì)的實(shí)驗(yàn)框架如圖2所示。它包括兩個(gè)部分:訓(xùn)練部分和增強(qiáng)部分。本文將在訓(xùn)練部分介紹:特征提取、訓(xùn)練目標(biāo)的構(gòu)建以及代價(jià)函數(shù)的定義。在增強(qiáng)部分介紹:語(yǔ)音的合成及測(cè)試。
圖2 基于相位譜補(bǔ)償?shù)纳疃葘W(xué)習(xí)語(yǔ)音增強(qiáng)算法
本文的訓(xùn)練目標(biāo)分為相位譜和幅度譜,上章介紹了以PSC為訓(xùn)練目標(biāo)的相位譜修正,在本節(jié)中我們將介紹以幅度譜掩蔽為訓(xùn)練目標(biāo)的幅度譜修正。
歸一化的PSC具有和幅度譜掩蔽相似的形式,我們發(fā)現(xiàn)將幅度譜和相位譜同時(shí)作為網(wǎng)絡(luò)訓(xùn)練的目標(biāo),測(cè)試語(yǔ)音就能根據(jù)訓(xùn)練好的網(wǎng)絡(luò)得出目標(biāo)相位和幅度。由于傳統(tǒng)的深度神經(jīng)網(wǎng)絡(luò)(DNN)不能很好同時(shí)估計(jì)雙分類問(wèn)題,本文將采用多目標(biāo)神經(jīng)網(wǎng)絡(luò),如圖3所示。多目標(biāo)DNN輸出層分為兩個(gè)子層,一個(gè)用于估計(jì)干凈語(yǔ)音的幅度譜,另一個(gè)用于估計(jì)對(duì)應(yīng)的相位譜補(bǔ)償。輸出層中的這種Y形網(wǎng)絡(luò)結(jié)構(gòu)通常用于聯(lián)合估計(jì)相關(guān)目標(biāo),并且在這種情況下,它有助于確保從相同的輸入特征聯(lián)合估計(jì)幅度譜和相位譜補(bǔ)償?shù)闹怠?/p>
圖3 網(wǎng)絡(luò)結(jié)構(gòu)
常見的幅度譜掩蔽目標(biāo)有理想二值掩蔽(IBM)以及理想比例掩蔽(IRM),在本文中我們將使用IRM估計(jì)幅度部分
(9)
假設(shè)X(k,l) 和Z(k,l) 不相關(guān)的情況下,X(k,l)2和Z(k,l)2分別表示T-F單元內(nèi)的語(yǔ)音能量和噪聲能量,β為IRM中可調(diào)參數(shù),通常情況下設(shè)置為0.5。IRM的取值范圍為[0,1]上的實(shí)數(shù)。
綜上,本文將MIRM設(shè)置為幅度譜掩蔽的訓(xùn)練目標(biāo),ΩZ作為相位譜補(bǔ)償?shù)挠?xùn)練目標(biāo)。IRM以及歸一化后的ΩZ的輸出范圍都在[0,1],同時(shí)滿足了網(wǎng)絡(luò)輸出層sigmoid函數(shù)的輸出,這樣能最大化網(wǎng)絡(luò)的監(jiān)督性學(xué)習(xí)的作用。
2.3.1 網(wǎng)絡(luò)配置
本文實(shí)驗(yàn)的神經(jīng)網(wǎng)絡(luò)有3個(gè)隱藏層,每個(gè)隱藏層具有相同數(shù)量的單元為1024個(gè)。隱藏層的激活函數(shù)為ReLU(整流線型單元),兩個(gè)輸出層單元設(shè)置為sigmoid函數(shù),使用帶動(dòng)量的自適應(yīng)梯度下降用于優(yōu)化。本文采用80次 epoch 訓(xùn)練網(wǎng)絡(luò),前5次的動(dòng)量(moment)設(shè)置為0.5,其余的epoch設(shè)置為0.9。
2.3.2 特征提取
本文用于DNN訓(xùn)練的特征選用互補(bǔ)特征集[15],互補(bǔ)特征集已被證明能夠代表語(yǔ)音短時(shí)特性且適用于網(wǎng)絡(luò)的訓(xùn)練?;パa(bǔ)特征集包括:幅度調(diào)制頻譜圖(AMS)、感知線性預(yù)測(cè)(RASTA-PLP)、梅爾頻率倒譜系數(shù)(MFCC)、伽馬通頻率(GF)。輸入的特征提取后還要進(jìn)行歸一化的處理,其操作是為了方便DNN的參數(shù)調(diào)節(jié)。其次,為聯(lián)系語(yǔ)音的上下文,我們將輸入的單個(gè)語(yǔ)音幀作為中心,拓展到其左右兩幀,也就是說(shuō)將輸入的窗口長(zhǎng)度設(shè)置為2W+1,其中W為半個(gè)窗長(zhǎng)。
2.3.3 代價(jià)函數(shù)
對(duì)于該多目標(biāo)的神經(jīng)網(wǎng)絡(luò),我們將它的代價(jià)函數(shù)定義為
(10)
(11)
(12)
通過(guò)網(wǎng)絡(luò)估計(jì)得到的增強(qiáng)幅度譜和增強(qiáng)相位譜,可以計(jì)算出干凈語(yǔ)音的頻譜,記為
(13)
最后通過(guò)逆傅里葉變化(ISTFT)便能得到時(shí)域上的增強(qiáng)語(yǔ)音,達(dá)到最終去噪的目的。在下章節(jié)中會(huì)仿真我們提出的方法,同時(shí)通過(guò)客觀評(píng)價(jià)標(biāo)準(zhǔn)驗(yàn)證我們實(shí)驗(yàn)的性能。
在本章中將會(huì)介紹所使用的實(shí)驗(yàn)配置以及評(píng)價(jià)標(biāo)準(zhǔn)。我們會(huì)將本文提出的模型和幾種當(dāng)今流行的基于DNN的幅度譜掩蔽算法在同條件下進(jìn)行比較,增強(qiáng)結(jié)果將通過(guò)兩種客觀評(píng)價(jià)方法對(duì)增強(qiáng)語(yǔ)音進(jìn)行評(píng)價(jià),并對(duì)其結(jié)果進(jìn)行分析。
我們所使用的數(shù)據(jù)集來(lái)自TIMIT語(yǔ)料庫(kù),該語(yǔ)料庫(kù)中每位發(fā)言者有10條干凈的語(yǔ)音。我們選取了該語(yǔ)料庫(kù)中119位男性發(fā)言者進(jìn)行訓(xùn)練以及40位男性發(fā)言者進(jìn)行測(cè)試。每位發(fā)言者包含10條干凈語(yǔ)音,所以分別有1190條和400條干凈語(yǔ)音。我們從NOISEX-92數(shù)據(jù)庫(kù)中選擇了babble、factory2、buccaneer1噪聲,所挑選的噪聲分別表示為人群嘈雜的聲音、汽車生產(chǎn)車間的噪聲、駕駛室內(nèi)部噪聲。將所選噪聲分為兩部分,為保證測(cè)試語(yǔ)音噪聲段在訓(xùn)練階段不可見,前半部分用于訓(xùn)練集的合成,后半部分用于測(cè)試集的合成。將干凈語(yǔ)音和對(duì)應(yīng)噪聲段的5個(gè)隨機(jī)切分相結(jié)合構(gòu)建含噪語(yǔ)音,信噪比分別為-5 dB、0 dB、5 dB。最終的訓(xùn)練集包含17 850條含噪語(yǔ)音(119個(gè)發(fā)言人×10條語(yǔ)句×3個(gè)噪聲×5個(gè)隨機(jī)切分),測(cè)試集包含1200條含噪語(yǔ)音(40個(gè)發(fā)言人×10條語(yǔ)句×3個(gè)噪聲),并將900條含噪語(yǔ)音設(shè)置為交叉驗(yàn)證集(30個(gè)發(fā)言人×10條語(yǔ)句×3個(gè)噪聲)。
實(shí)驗(yàn)中所有的語(yǔ)音集的采樣率為16 kHz,然后對(duì)信號(hào)進(jìn)行分幀、加漢明窗,其中幀長(zhǎng)為40 ms,幀移為20 ms,再對(duì)一幀計(jì)算STFT,就可以將時(shí)域信號(hào)轉(zhuǎn)換為信號(hào)的頻譜。
提取頻譜中相位與幅度信息,將IBM、IRM、cIRM以及本文提出的IRM_PSC作為神經(jīng)網(wǎng)絡(luò)的訓(xùn)練目標(biāo),在訓(xùn)練的過(guò)程中,都使用帶動(dòng)量的梯度下降法優(yōu)化網(wǎng)絡(luò),將以上4種方法進(jìn)行同條件下去噪比較,并用客觀評(píng)價(jià)方法(能夠驗(yàn)證其語(yǔ)音質(zhì)量和語(yǔ)音可懂度的算法)對(duì)其評(píng)價(jià)。
本文使用兩種客觀評(píng)價(jià)算法評(píng)價(jià)語(yǔ)音的質(zhì)量和語(yǔ)音的可懂度,即為語(yǔ)音質(zhì)量的感知評(píng)估(PESQ)得分、短時(shí)目標(biāo)可懂度(STOI)得分。通過(guò)計(jì)算增強(qiáng)語(yǔ)音和其對(duì)應(yīng)的干凈語(yǔ)音進(jìn)行比較得到PESQ得分,所產(chǎn)生的分?jǐn)?shù)在[-0.5,4.5],得分越高代表語(yǔ)音的質(zhì)量越好。STOI得分由增強(qiáng)語(yǔ)音和干凈語(yǔ)音之間的短時(shí)時(shí)間包絡(luò)的相關(guān)性計(jì)算得到,所產(chǎn)生的分?jǐn)?shù)在[0,1],同樣得分高表示語(yǔ)音的可懂度越好。PESQ和STOI已被證明和人類語(yǔ)音的質(zhì)量和語(yǔ)音可懂度高度相關(guān),二者被廣泛用于語(yǔ)音評(píng)價(jià)中。
我們使用Mixture表示含噪語(yǔ)音,使用IBM、IRM分別表示兩種掩蔽算法通過(guò)DNN訓(xùn)練得到的增強(qiáng)語(yǔ)音的方法,cIRM表示為復(fù)數(shù)域理想比例掩蔽算法,將本文提出的方法表示為IRM_PSC。以上方法將在factory2(fac)、babble(bab)、buccaneer1(buc)的含噪語(yǔ)音下進(jìn)行去噪比較。且作為對(duì)比項(xiàng)的3種方法均為現(xiàn)階段較有代表性的基于DNN訓(xùn)練的方法。
表1~表3列出了在3種信噪比條件下,含噪語(yǔ)音以及4種不同的訓(xùn)練目標(biāo)訓(xùn)練后得到的增強(qiáng)語(yǔ)音的平均結(jié)果。從表中可以看出IRM_PSC的PESQ和STOI得分較IRM和IBM均有不同幅度的提升,再一次驗(yàn)證了相位增強(qiáng)可以進(jìn)一步提高語(yǔ)音質(zhì)量和語(yǔ)音可懂度。同時(shí)在-5 dB和5 dB工廠噪聲的條件和0 dB的所有條件下STOI得分IRM_PSC較cIRM有所提升,驗(yàn)證本文直接重構(gòu)相位譜的方法能夠有效提高語(yǔ)音可懂度。但-5 dB和5 dB在babble條件下較cIRM略有下降,這是因?yàn)樵谌嗽?bab)條件下與語(yǔ)音信號(hào)相位結(jié)構(gòu)類似,區(qū)分度不高,所以無(wú)法達(dá)到工廠(fac)和駕駛艙噪聲(buc)的水平。
表1 信噪比-5 dB噪聲條件下各訓(xùn)練目標(biāo)性能
表2 信噪比0 dB噪聲條件下各訓(xùn)練目標(biāo)性能
表3 信噪比5 dB噪聲條件下各訓(xùn)練目標(biāo)性能
根據(jù)表1~表3計(jì)算各方法PESQ均值,如圖4所示。本文方法取得最高PESQ得分2.27,較IBM和IRM提高0.27和0.10,較cIRM也有小幅度的提升,平均提升約0.03,驗(yàn)證本文方法能夠有效地提升語(yǔ)音質(zhì)量,且對(duì)比cIRM方法,直接修正相位譜能更好提升語(yǔ)音質(zhì)量。
圖4 各方法PESQ均值
結(jié)合表1可知,低信噪比下SNR為-5 dB時(shí),在不同的含噪環(huán)境中IRM_PSC較IBM和IRM,PESQ值分別平均提高了0.35和0.12,STOI值分別平均提高了0.12和0.04,均有較明顯的提升。驗(yàn)證本文方法在低信噪比環(huán)境下同樣適用。
進(jìn)一步分析語(yǔ)譜圖,如圖5所示。從圖5(b)可以看出含噪語(yǔ)音的語(yǔ)音信息被遮蓋,圖5(c)~圖5(e)中IRM、cIRM和IRM_PSC為處理過(guò)語(yǔ)音的語(yǔ)譜圖,三者都可以進(jìn)一步抑制殘留噪聲,但可以看出cIRM和IRM_PSC保留更多的語(yǔ)音信息,因此語(yǔ)音可懂度進(jìn)一步提高。圖5(c)語(yǔ)音信息被噪聲遮蓋,語(yǔ)音分段模糊,因此難以提升語(yǔ)音質(zhì)量和可懂度。圖5(d)雖然語(yǔ)音分段和基頻信息保留完整,但如圖5(d)中黑圈所示,后部語(yǔ)音無(wú)聲段噪聲殘留較多影響語(yǔ)音質(zhì)量和可懂度。觀察圖5(e)底部深黑色線條,基頻明確,低頻信號(hào)處理清晰,且通過(guò)本文方法處理的語(yǔ)音間斷較IRM更加明確,該方法通過(guò)改進(jìn)SNR特性在無(wú)聲段的處理效果明顯,優(yōu)于IRM和cIRM方法,如圖5(a)和圖5(e)中黑圈所示。因此語(yǔ)音可懂度和質(zhì)量得以進(jìn)一步提升,但在高頻處存在噪聲殘余。通過(guò)主觀試聽I(yíng)RM_PSC方法增強(qiáng)效果明顯,能夠?yàn)V除大多噪聲,保留清晰的語(yǔ)音信號(hào)。
圖5 語(yǔ)音語(yǔ)譜圖
本文提出了一種基于DNN的相位感知語(yǔ)音增強(qiáng)方法。該方法引入了相位譜補(bǔ)償為DNN訓(xùn)練的新目標(biāo)。它是傳統(tǒng)相位譜補(bǔ)償?shù)母倪M(jìn),使得傳統(tǒng)的相位譜補(bǔ)償能夠隨著噪聲語(yǔ)音的能量變化而變化,且更適合DNN的訓(xùn)練和估計(jì)。在DNN的訓(xùn)練階段我們采用了多目標(biāo)訓(xùn)練的神經(jīng)網(wǎng)絡(luò),網(wǎng)絡(luò)同時(shí)訓(xùn)練了語(yǔ)音相位譜補(bǔ)償以及幅度譜掩蔽,目的是能夠從相同輸入特征下聯(lián)合估計(jì)這兩個(gè)參數(shù)。且據(jù)我們所知,本方法也是第一次將相位譜補(bǔ)償聯(lián)合幅度譜通過(guò)監(jiān)督性學(xué)習(xí)進(jìn)行訓(xùn)練的方法。與此同時(shí),訓(xùn)練相位譜補(bǔ)償具有一般性,可與任何幅度譜估計(jì)方法進(jìn)行聯(lián)合訓(xùn)練,和IRM聯(lián)合后,實(shí)驗(yàn)結(jié)果表明,我們提出的方法在語(yǔ)音質(zhì)量和語(yǔ)音可懂度方面均優(yōu)于傳統(tǒng)不含相位的語(yǔ)音增強(qiáng)算法,且相位譜補(bǔ)償計(jì)算簡(jiǎn)化了間接轉(zhuǎn)換求相位的方法,保留了更多的語(yǔ)音細(xì)節(jié)。今后可以嘗試優(yōu)化網(wǎng)絡(luò),提升多目標(biāo)訓(xùn)練的效率。