摘 要:針對語音增強(qiáng)網(wǎng)絡(luò)對全局語音相關(guān)特征提取困難、對語音局部上下文信息的捕捉效果不佳的問題,提出了一種基于雙分支注意力U-Net的時域語音增強(qiáng)方法,該方法使用U-Net編碼器-解碼器結(jié)構(gòu),將單通道帶噪語音經(jīng)過一維卷積后得到的高維時域特征作為輸入。首先利用殘差連接設(shè)計了基于Conformer的殘差卷積來增強(qiáng)網(wǎng)絡(luò)降噪的能力。其次設(shè)計了雙分支注意力機(jī)制結(jié)構(gòu),利用全局和局部注意力獲取帶噪語音中更豐富的上下文信息,同時有效表示長序列特征,提取更多樣的特征信息。最后結(jié)合時域頻域損失函數(shù)構(gòu)建了加權(quán)損失函數(shù)對網(wǎng)絡(luò)進(jìn)行訓(xùn)練,提高網(wǎng)絡(luò)的語音增強(qiáng)性能。使用了多個指標(biāo)對增強(qiáng)語音的質(zhì)量和可懂度等進(jìn)行評價,在公開數(shù)據(jù)集Voice Bank+DEMAND上的增強(qiáng)后的語音感知質(zhì)量(PESQ)為3.11,短時可懂度(STOI)為95%,信號失真度(CSIG)為4.44,噪聲失真測(CBAK)為3.60,綜合質(zhì)量測度(COVL)為3.81,其中PESQ相較于SE-Conformer提高了7.6%,相較于TSTNN提高了5.1%。實(shí)驗(yàn)結(jié)果表明,所提方法在語音降噪的各個指標(biāo)都表現(xiàn)出更優(yōu)的實(shí)驗(yàn)結(jié)果,能夠完成語音增強(qiáng)任務(wù)的相關(guān)要求。
關(guān)鍵詞:語音增強(qiáng); 雙分支注意力機(jī)制; 時域; 單通道
中圖分類號:TN912.35文獻(xiàn)標(biāo)志碼: A文章編號:1001-3695(2024)04-022-1112-05
doi:10.19734/j.issn.1001-3695.2023.09.0374
Speech enhancement method based on two-branch attention and U-Net
Cao Jie Wang Chenzhang Liang Haopeng Wang Qiao Li Xiaoxu1
Abstract:Aiming at the problem that speech enhancement networks have difficulty in extracting global speech-related features and are ineffective in capturing local contextual information of speech. This paper proposed a two-branch attention and U-Net-based time-domain speech enhancement method, which used a U-Net encoder-decoder structure and took the high-dimensional time-domain features obtained from a single-channel noisy speech after one-dimensional convolution as input. Firstly, this paper designed Conformer-based residual convolution to enhance the noise reduction ability of network by utilizing residual connection. Secondly, this paper designed a two-branch attention mechanism structure, which utilized global and local attention to obtain richer contextual information in the noisy speech, and at the same time, to effectively represent the long sequence features and extract more diverse feature information. Finally, this paper constructed a weighted loss function by combining the loss function in the time domain and frequency domain to train the network and improve the performance in speech enhancement. This paper used several metrics to evaluate the quality and intelligibility of the enhanced speech, the enhanced speech perceptual evaluation of speech quality(PESQ) on the public datasets Voice Bank+DEMAND is 3.1 the short-time objective intelligibility(STOI) is 95%, the composite measure for predicting signal rating(CSIG) is 4.44, the composite measure for predicting background noise(CBAK) is 3.60, and the composite measure for predicting overall processed speech quality(COVL) is 3.8 in which the PESQ is improved by 7.6% compared to SE-Conformer, and improved by 5.1% compared to TSTNN improved by 5.1%. Experimental results show that the proposed method achieves better results in various metrics of speech denoising and meets the requirements for speech enhancement tasks.
Key words:speech enhancement; two-branch attention; time domain; single channel
0 引言
環(huán)境噪聲常常阻礙人類之間正常有效的語音交流,因此語音增強(qiáng)技術(shù)應(yīng)運(yùn)而生。語音增強(qiáng)的主要目的是利用技術(shù)手段抑制背景噪聲的干擾,從而提高帶噪聲語音信號的質(zhì)量和清晰度[1]。在語音相關(guān)領(lǐng)域,語音增強(qiáng)技術(shù)扮演著非常重要的角色,主要被應(yīng)用于自動語音識別、助聽器和移動通信等場景。
目前,常見的語音增強(qiáng)分為傳統(tǒng)語音增強(qiáng)方法和基于深度學(xué)習(xí)的增強(qiáng)方法。傳統(tǒng)語音增強(qiáng)方法包括譜減法[2]、子空間法 [3]、維納濾波法[4]等。傳統(tǒng)語音增強(qiáng)方法通?;谔囟ǖ臄?shù)學(xué)或物理?xiàng)l件,在處理平穩(wěn)噪聲時可以取得較好的效果,但當(dāng)面臨非平穩(wěn)噪聲和低信噪比情況,以及真實(shí)環(huán)境下的復(fù)雜噪聲時,此類方法往往不能有效地區(qū)分噪聲和純凈語音信號,也不能對噪聲進(jìn)行準(zhǔn)確的建模和估計,最終導(dǎo)致語音失真和音樂噪聲等問題。隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展,基于深度學(xué)習(xí)的語音增強(qiáng)方法得到廣泛研究。與傳統(tǒng)方法相比,基于深度學(xué)習(xí)的語音增強(qiáng)方法不需要對信號作出額外的條件假設(shè),并且在非平穩(wěn)噪聲環(huán)境下具有更好的魯棒性,因此可以有效處理低信噪比的帶噪語音信號。而根據(jù)信號域處理方式的不同,基于深度學(xué)習(xí)的語音增強(qiáng)方法分為頻域方法和時域方法。
在頻域方法中,原始信號首先通過短時傅里葉變換(short time Fourier transform,STFT)生成頻譜圖,然后利用基于深度學(xué)習(xí)的技術(shù)對頻譜圖進(jìn)行處理和估計,以重建純凈語音。然而,頻域方法需要同時處理幅度和相位信息,導(dǎo)致模型的復(fù)雜性增加。因此,頻域方法需要更多的訓(xùn)練數(shù)據(jù)和更高的計算能力來支持其訓(xùn)練和推理。時域方法直接從帶噪語音信號中估計純凈語音信號,避免了頻域方法中的短時傅里葉變換過程,降低了模型的復(fù)雜度和計算復(fù)雜度。此外,基于時域的方法能夠更好地處理語音信號中的時序信息,提高語音增強(qiáng)的穩(wěn)定性。但是,基于時域的方法也存在著挑戰(zhàn),例如需要解決信號的相位問題和語音中的非線性失真問題。
由于語音信號與時間序列直接相關(guān),所以建模時需要考慮上下文信息。獲取原始信號的全局依賴關(guān)系和局部信息建模是語音增強(qiáng)的重要環(huán)節(jié)。為此,循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)[5]通常被用于長距離語音序列的建模。RNN包括長短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)[6]和門控循環(huán)單元網(wǎng)絡(luò)(gated recurrent unit,GRU)等模型。Le等人[7]提出了具有頻帶分割的RNN,可以縮放網(wǎng)絡(luò)中的子帶特征。這些模型可以有效地學(xué)習(xí)上下文信息,但存在不能并行處理的缺點(diǎn),導(dǎo)致處理速度較慢,在面對語音這種較長時間相關(guān)的序列時,容易忘記之前提取的信息,因此對特征提取能力仍然有限。另一方面,基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)[8]的模型可以并行處理時間信息,但需要更多的卷積層來擴(kuò)大感受野,增加了模型訓(xùn)練的困難和時間成本,并且這種基于卷積的語音增強(qiáng)模型會對特征圖進(jìn)行縮小放大,很容易造成數(shù)據(jù)的丟失,且對語音的強(qiáng)時間序列相關(guān)性建模能力仍然有所欠缺,對局部信息的提取不充分。此外,CAUNet[9]提出了雙階段Transformer網(wǎng)絡(luò),應(yīng)用在傳輸層來獲取語音的上下文信息;Zheng等人[10]提出了具有動態(tài)注意力跨度的語音增強(qiáng)模型,可以自適應(yīng)地改變感受野;Hu等人[11]提出了對輸入噪聲進(jìn)行全局依賴性建模的wav2code以實(shí)現(xiàn)更多的特征提??;高戈等人[12]提出了基于映射的聲紋嵌入方法,避免了掩膜方案帶來的語音失真問題;U-Former[13]則是在傳輸層和跳躍連接應(yīng)用了多頭注意力來提高網(wǎng)絡(luò)的語音增強(qiáng)效果。雖然上述方法取得了一定的效果,但仍存在一些問題:a)使用大量擴(kuò)張密集塊和多頭注意力等方法,使得網(wǎng)絡(luò)參數(shù)量大且網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜,對語音長序列輸入的全局和局部特征的提取能力有限;b)大部分語音增強(qiáng)模型僅關(guān)注全局依賴關(guān)系,忽略了局部信息的重要性,無法充分利用局部信息,降低了語音增強(qiáng)模型的效果;c)僅使用時域或者頻域的損失函數(shù),無法同時學(xué)習(xí)語音的時域頻域特征,影響了模型在不同信噪比下的魯棒性。
為了解決上述問題,本文提出了一種包含全局和局部注意力機(jī)制的雙分支注意力機(jī)制(two-branch attention,TBA),并結(jié)合了U-Net[14]結(jié)構(gòu)構(gòu)建了單通道語音增強(qiáng)模型TBAU-Net。TBAU-Net采用編碼器-解碼器結(jié)構(gòu),其中編碼器端用于提取語音信號的特征,解碼器端用于重建增強(qiáng)語音。TBAU-Net內(nèi)部的雙分支注意力模塊包含全局和局部注意力,其中全局注意力負(fù)責(zé)捕獲全局語境信息,局部注意力負(fù)責(zé)提取局部語境信息,從而使網(wǎng)絡(luò)更好地適應(yīng)不同的語音場景。本文的主要貢獻(xiàn)如下:a)提出一種雙分支注意力機(jī)制,將全局注意力、局部注意力結(jié)合,同時關(guān)注輸入語音信號的全局特征和局部特征之間的差異與聯(lián)系;b)提出了具有殘差連接的殘差卷積塊,利用逐點(diǎn)卷積進(jìn)行殘差連接,防止重要特征丟失,進(jìn)一步提升網(wǎng)絡(luò)的特征提取能力;c)引入了一種聯(lián)合了時域和頻域的加權(quán)損失函數(shù),幫助網(wǎng)絡(luò)在訓(xùn)練過程中同時學(xué)習(xí)語音的時域和頻域特征,以取得更好的訓(xùn)練效果;d)設(shè)計了具有跳躍連接的U型編碼解碼器的雙分支注意力時域語音增強(qiáng)網(wǎng)絡(luò)TBAU-Net,顯著提高了增強(qiáng)語音的語音質(zhì)量感知評估指標(biāo)。
1 本文方法
1.1 TBAU-Net模型結(jié)構(gòu)
本文提出了一種具有雙分支的注意力機(jī)制,并結(jié)合 U-Net結(jié)構(gòu)設(shè)計了 TBAU-Net模型,結(jié)構(gòu)如圖1所示。TBAU-Net采用編碼器-解碼器結(jié)構(gòu),模型包含了卷積層、編碼器層、解碼器層、基于Conformer的殘差卷積模塊、雙分支注意力模塊和掩碼門。其中,卷積層用于提取輸入信號特征,編碼器層提取輸入語音的時域特征,解碼器層重建時域信號,基于Conformer的殘差卷積模塊將多個卷積組合起來提取更復(fù)雜的特征表示,雙分支注意力模塊用于提取上下文信息,掩碼門用來處理解碼器層的輸出,將掩碼門作用在最后一個解碼器的輸出得到掩碼。
基于TBAU-Net模型的數(shù)據(jù)增強(qiáng)方法流程介紹如下:含噪語音首先經(jīng)過上采樣等預(yù)處理之后,作為時域波形的方式輸入增強(qiáng)網(wǎng)絡(luò),并經(jīng)過1D卷積進(jìn)行處理,轉(zhuǎn)換為高維的時域特征。然后輸入到網(wǎng)絡(luò)主干TBAU-Net,通過在L層的編解碼器中的殘差Conformer卷積塊和雙分支注意力的處理,對輸入的特征進(jìn)行全局和局部維度的充分關(guān)注,之后經(jīng)過掩碼門過濾掉不相關(guān)的特征,與輸入的帶噪信號的時域特征相乘得到增強(qiáng)的語音,最后經(jīng)過1D反卷積還原純凈的語音信號。
1.2 編碼器層
編碼器層的作用是提取帶噪語音的時域特征。在編碼器層之前,模型使用一維卷積對輸入的帶噪語音進(jìn)行處理。一維卷積的輸入通道大小是1,并且會根據(jù)輸入信號自動調(diào)整輸出通道大小,將時域信號轉(zhuǎn)換為高維的時域特征。在卷積操作之后,模型會對輸出進(jìn)行批量歸一化來加速模型訓(xùn)練,并使用ReLU激活函數(shù)緩解潛在的梯度消失問題。
如圖1所示,編碼器由下采樣層和卷積模塊構(gòu)成,下采樣層用來縮減信號長度。該層由一個卷積層、批量歸一化和ReLU激活函數(shù)組成。編碼器與解碼器之間的瓶頸層使用線性連接來傳遞編碼器的輸出,并且每個編碼器的輸出都通過殘差連接和對應(yīng)的解碼器輸入相連,以便在解碼器層更好地重建原始信號。為了減少顯存使用,加速模型訓(xùn)練,模型只在最后一個編碼器層加入了雙分支注意力模塊。
1.3 解碼器層
解碼器是編碼器的對稱表示,與編碼器層一一對應(yīng)。解碼器層的作用是重建時域信號。每個解碼器層包含與編碼器層相同的卷積模塊,不同的是下采樣層被替換為上采樣層,并且每個解碼器都包含了雙分支注意力模型。對于從傳輸層傳輸?shù)臄?shù)據(jù),首先與相同層數(shù)的解碼器的輸出進(jìn)行殘差連接再進(jìn)行處理。該操作可以有效地避免過擬合并降低模型復(fù)雜度。上采樣層使用轉(zhuǎn)置卷積而不是卷積,可以將壓縮特征擴(kuò)大到原始輸入信號的尺寸,以便將信號恢復(fù)成原始長度。
1.4 基于Conformer的殘差卷積模塊盡
管Transformer[15]在自動語音識別領(lǐng)域取得了良好的效果,但是其仍有難以抽取細(xì)粒度的局部特征的局限性,而CNN可以對局部特征進(jìn)行有效建模,Conformer[16]將兩者結(jié)合起來執(zhí)行自動語音識別,取得了更好的效果。為了防止丟失重要信息,獲取豐富的信號表示,進(jìn)一步提升網(wǎng)絡(luò)提取特征的能力,本文在Conformer的基礎(chǔ)上,使用卷積層進(jìn)行殘差連接。如圖2所示,逐點(diǎn)卷積和深度卷積之后分別是GLU激活函數(shù)、批歸一化和swish激活函數(shù),再經(jīng)過dropout處理,最后使用卷積進(jìn)行殘差連接,結(jié)果經(jīng)過ReLU激活函數(shù)輸出。
綜上,帶有殘差連接的Conformer卷積塊可以在提取特征的時候保證重要特征的傳遞,提取輸入語音信號的細(xì)粒度局部特征,避免卷積操作帶來的因特征圖的縮放導(dǎo)致的數(shù)據(jù)丟失問題,進(jìn)一步優(yōu)化網(wǎng)絡(luò)提取局部特征的能力。
1.5 雙分支注意力
基于Transformer的語音增強(qiáng)模型大部分僅關(guān)注全局依賴,忽略了局部特征對語音增強(qiáng)的重要性。因此,為了充分挖掘語音特征的長短時相關(guān)性,充分提取輸入信號的上下文信息,本文提出了雙分支注意力。如圖3所示,輸入通過卷積層組成的兩個路徑,一維卷積的核大小均為3×1,步長為1。一維卷積將通道大小由N調(diào)整為N/2。雙分支注意力模塊將輸入分割成兩個路徑,分別使用了全局注意力和局部注意力對全局信息和局部信息進(jìn)行特征提取,可以更有效地對語音信息進(jìn)行建模。模型采用重疊率為50%的分塊方法拆分每個分支的輸入信號,其中P表示塊數(shù),C表示塊的大小。
1.6 掩碼門
掩碼門作用于解碼器的輸出得到掩碼m。如圖4所示,掩碼門由sigmoid、tanh和ReLU激活函數(shù)組成。解碼器層的輸出經(jīng)過sigmoid和tanh激活函數(shù)相乘來獲得估計的掩碼,然后再經(jīng)過ReLU激活,公式如下:
掩碼與帶噪語音經(jīng)過一維卷積之后,結(jié)果的每個元素相乘得到降噪后的語音信號。模型最后通過一維卷積將通道數(shù)從N減少至1。掩碼門過濾掉無關(guān)特征,使模型更精準(zhǔn)地學(xué)習(xí)到任務(wù)所需要的特征。
1.7 加權(quán)損失函數(shù)
語音增強(qiáng)的深度神經(jīng)網(wǎng)絡(luò)模型的輸入輸出特征和損失函數(shù)一般選擇相同的時域或頻域。但是時域語音增強(qiáng)的效果往往受限于均方誤差(mean square error,MSE)和平均絕對誤差(mean absolute error,MAE)的性能。并且頻域的語音增強(qiáng)建立的頻譜映射在最終轉(zhuǎn)換為時域波形時并不受學(xué)習(xí)過程的約束。因此為了讓損失函數(shù)在優(yōu)化網(wǎng)絡(luò)訓(xùn)練的過程中同時學(xué)習(xí)語音的時域頻域特征,提升增強(qiáng)語音的各項(xiàng)客觀主觀指標(biāo),本文提出結(jié)合L1(時域)損失和STFT損失(頻域)[17]來優(yōu)化模型。假設(shè)n是噪聲,輸入的信號定義為x=y+n。純凈語音和估計語音的損失是L1和STFT加權(quán)相加得到的。公式如下:
其中:α是可調(diào)參數(shù),用來平衡純凈語音與噪聲語音之間的比例,本文將其設(shè)置為0.7。綜上,結(jié)合了時域損失與頻域損失的聯(lián)合損失函數(shù)同時考慮了語音的時域和頻域信息,使模型可以更好地學(xué)習(xí)時域和頻域的特征,優(yōu)化了模型的訓(xùn)練,提高在面對不同信噪比時模型的魯棒性。
2 實(shí)驗(yàn)與結(jié)果分析
本文實(shí)驗(yàn)環(huán)境為14 vCPU Intel Xeon Gold 6330 CPU @ 2.00 GHz,GPU采用RTX 3090顯存24 GB,內(nèi)存80 GB。在此基礎(chǔ)上,服務(wù)器使用Ubuntu 20.04系統(tǒng),Python 3.8,CUDA11.3,PyTorch1.11.0的開發(fā)環(huán)境。
2.1 數(shù)據(jù)集
本文的數(shù)據(jù)集采用合成語音,數(shù)據(jù)集的純凈語音來自Voice Bank數(shù)據(jù)集[19],噪聲來自DEMAND數(shù)據(jù)集[20]。
該訓(xùn)練集包含11 572條話語,分別來自14名男性說話人和14名女性說話人。噪聲是從DEMAND數(shù)據(jù)集中隨機(jī)挑選10種噪聲,將純凈語音與噪聲混合生成帶噪語音。其中,訓(xùn)練集帶噪語音的信噪比包含15 dB、10 dB、5 dB和0 dB。測試集包含來自一名男性說話人和一名女性說話人的824個純凈語音,將其和從DEMAND數(shù)據(jù)庫中抽取的不同于訓(xùn)練集的噪聲混合作為帶噪語音。其中,測試集的信噪比包含17.5 dB、12.5 dB、7.5 dB和2.5 dB。模型使用訓(xùn)練集中的兩個說話人作為驗(yàn)證集。
2.2 實(shí)驗(yàn)設(shè)置
實(shí)驗(yàn)中,對所有的輸入音頻信號降采樣至16 kHz。在訓(xùn)練過程中,本文將信號分割為4 s,重疊部分為1 s,并設(shè)置batchsize為8。Epoch的總數(shù)設(shè)置為300。本文選取Adam作為優(yōu)化器來優(yōu)化模型,Adam的學(xué)習(xí)率設(shè)置為0.000 01。本文將保存在驗(yàn)證集表現(xiàn)最好的權(quán)重作為模型訓(xùn)練的結(jié)果,并在測試集上進(jìn)行評估。
2.3 評估指標(biāo)
為了全面評估TBAU-Net和其他模型,本文采用的語音增強(qiáng)的性能評價指標(biāo)主要有客觀質(zhì)量指標(biāo)和主觀測試指標(biāo)兩大類。這些常用的評價指標(biāo),對語音恢復(fù)質(zhì)量、噪聲去除程度和語音可懂度等方面各有側(cè)重。采用客觀質(zhì)量指標(biāo)進(jìn)行評價可以量化算法的表現(xiàn),但是客觀質(zhì)量指標(biāo)并不能完全反映人耳的主觀感受。因此還需要采用主觀測試指標(biāo)來對語音增強(qiáng)算法的性能進(jìn)行評價。本文采用的客觀評價指標(biāo)包含語音質(zhì)量感知評估(percepyual evaluation of speech quality,PESQ) [21],用于評估語音質(zhì)量,計算過程包括了預(yù)處理、時間對齊、感知濾波、掩蔽效果等,其評分為-0.5~4.5,PESQ值越高則表明被測試的語音具有越好的聽覺語音質(zhì)量;短時客觀可懂度(short-time objective intelligibility,STOI)[22],是衡量語音可懂度的重要指標(biāo)。對于語音信號中的一個單詞,只有能被聽懂和不能被聽懂兩種情況,從這個角度可以認(rèn)為可懂度是二值的,所以STOI的取值被量化在了0~1中,代表單詞被正確理解的百分比,其分?jǐn)?shù)為0~100%,用于描述語音清晰度數(shù)值,取值為1時表示語音能夠被充分理解。本文采用的主觀測試指標(biāo)包含預(yù)測語音信號失真的復(fù)合度量(composite measure for predicting signal rating,CSIG)[23],即語音信號的平均意見分;預(yù)測背景噪聲影響的復(fù)合度量(composite measure for predicting background noise,CBAK)[23],即背景噪聲影響的平均意見分;預(yù)測整體語音質(zhì)量的復(fù)合度量(composite measure for predicting overall processed speech quality,COVL)[23],即整體語音質(zhì)量的平均意見分。上述指標(biāo)均是數(shù)值越大,代表語音增強(qiáng)效果越好。
2.4 消融實(shí)驗(yàn)
為了驗(yàn)證算法及雙分支注意力模塊和加權(quán)損失函數(shù)對模型的有效性,本文還對這兩個部分做了消融實(shí)驗(yàn)。
從表1可以得知,加權(quán)損失函數(shù)使PESQ指標(biāo)提升了0.08,表明了同時學(xué)習(xí)時域和頻域信息對提高語音增強(qiáng)結(jié)果的有效性;在加入局部注意力模塊后,PESQ得分相較于僅使用加權(quán)損失函數(shù)提升了0.07,表明了學(xué)習(xí)語音的局部特征的有效性;在加入全局注意力后,PESQ得分略高于只加入局部注意力,提升了0.03,比僅加入加權(quán)損失提高了0.1,表明了學(xué)習(xí)語音全局特征的有效性,并且全局注意力在TBAU-Net中的作用略高于局部注意力;在同時加入全局注意力和局部注意力后,所得PESQ分?jǐn)?shù)最高,相較于僅使用加權(quán)損失提高了0.16,證明了同時學(xué)習(xí)語音的局部和全局特征,對提高語音增強(qiáng)效果起著重要作用。
2.5 結(jié)果分析
為了進(jìn)一步說明本文所提出的語音增強(qiáng)算法的有效性,與近年來的其他語音增強(qiáng)模型進(jìn)行比較?;€模型包括SEGAN[24]、Wave U-Net[25]、PHASEN[26]、TSTNN[27]、CAU-Net[8]、MetricGAN[28]、MetricGAN+[29]、DEMUCS(large)[17]和SE-Conformer[30]。為了客觀地評估本文模型的語音增強(qiáng)性能,在voice bank加demand數(shù)據(jù)集上與現(xiàn)有語音增強(qiáng)模型進(jìn)行對比,結(jié)果如表2所示,其中T代表模型基于時域,T-F表示模型基于時頻域。
由表2可知,相較于經(jīng)典和近幾年來的語音增強(qiáng)模型,本文模型在若干評價指標(biāo)上都取得了富有競爭力的結(jié)果。例如,SE-Conformer模型同時關(guān)注整個語音序列, 并在潛在空間中使用自我關(guān)注和CNN進(jìn)行序列建模,取得了良好的降噪效果。相較于SE-Conformer,本文模型在CSIG和COVL雖略低,但是在PESQ指標(biāo)上取得了7.6%的提升,在CBAK指標(biāo)取得了1.4%的提升。相較于優(yōu)化了損失并在模型中添加可學(xué)習(xí)的sigmoid函數(shù),對不同頻率段有更強(qiáng)適應(yīng)性的MetricGAN+, CSIG、CBAK、COVL分別提升了7.2%、13.9%、4.7%。與DEMUCS(large)和Wave U-Net相比,TBAU-Net的參數(shù)量分別減少了105.2 MB和16.8 MB,表明本文方法在實(shí)現(xiàn)較好的語音增強(qiáng)性能的同時參數(shù)較少。PESQ作為衡量語音增強(qiáng)結(jié)果的常用重要客觀指標(biāo),可以體現(xiàn)增強(qiáng)后的語音質(zhì)量的優(yōu)劣,本文模型取得了3.11的PESQ分?jǐn)?shù),高于現(xiàn)有的時域語音增強(qiáng)模型,表明本文模型可以完成語音增強(qiáng)的任務(wù)。
圖5為本文模型與時域方法DEMUCS(large)、TSTNN和Wave U-Net在輸入信號長度為1~10 s的條件下對運(yùn)行速度進(jìn)行的比較結(jié)果。結(jié)果表明,得益于較少的堆疊注意力層,TBAU-Net具有較快的運(yùn)行速度。
綜上,本文模型無論在客觀評價指標(biāo),還是在主觀測試指標(biāo)上均取得了較大的提升。這些結(jié)果可以說明本文模型在有著較好的語音降噪效果的情況下,還實(shí)現(xiàn)了較少的參數(shù)和較快的運(yùn)行速度。
圖6為本文對測試集結(jié)果的可視化,抽取了其中的一條語音,展示了混合噪聲之前的純凈語音、輸入的帶噪語音和增強(qiáng)后語音的波形圖和語譜圖。從圖6的波形圖結(jié)果可以看出,TBAU-Net模型增強(qiáng)的語音能有效去除噪聲信息,很大程度上接近純凈語音的波形圖。從圖6的語譜圖部分紅框標(biāo)注區(qū)域可以看出,經(jīng)過TBAU-Net模型增強(qiáng)的語音語譜圖很接近純凈語音的語譜圖,表明了TBAU-Net可以有效去除噪聲信息,達(dá)到語音增強(qiáng)的目的。這進(jìn)一步驗(yàn)證了所提出的雙分支注意力和時頻域聯(lián)合損失函數(shù),通過對語音全局和局部特征的學(xué)習(xí),以及結(jié)合時域和頻域的同時優(yōu)化訓(xùn)練的方法,有效還原了目標(biāo)語音。
3 結(jié)束語
針對目前深層神經(jīng)網(wǎng)絡(luò)面對語音增強(qiáng)任務(wù)中無法充分利用語音的全局相關(guān)性,以及對語音局部上下文信息的特征被忽略問題,本文提出了雙分支注意力,有效地獲得了語音的全局和局部特征,建立得到具有殘差連接的卷積塊,利用了被忽略的殘差特征,增強(qiáng)了網(wǎng)絡(luò)的性能,最后利用以上模塊構(gòu)建了TBAU-Net模型實(shí)現(xiàn)語音增強(qiáng)。此外,引入了加權(quán)損失函數(shù)提高了網(wǎng)絡(luò)在訓(xùn)練過程中的魯棒性。實(shí)驗(yàn)結(jié)果表明,與其他時域、頻域方法相比,本文模型取得了較好的降噪效果。
在今后的工作中,將針對模型降噪的性能、內(nèi)存利用率和實(shí)時性進(jìn)行研究,盡可能在不同維度優(yōu)化算法。并且本文使用的數(shù)據(jù)集和測試集均是合成語音,現(xiàn)實(shí)世界的聲音還包含混響、回聲等噪聲,實(shí)現(xiàn)真實(shí)場景的語音增強(qiáng)還需進(jìn)一步研究。
參考文獻(xiàn):
[1]Benesty J, Makino S, Chen J. Speech enhancement[M].[s.l.]: Springer Science amp; Business Medi 2006.
[2]Boll S. Suppression of acoustic noise in speech using spectral subtraction[J].IEEE Trans on Acoustics, Speech, and Signal Processing , 1979, 27 (2): 113-20.
[3]Ephraim Y, Van Tress H L. A signal subspace approach for speech enhancement[J].IEEE Trans on Speech and Audio Proces-sing , 1995, 3 (4): 251-66.
[4]Zalevsky Z, Mendlovic D. Fractional Wiener filter[J].Applied Optics , 1996,35 (20): 3930-6.
[5]Choi H S, Park S, Lee J H,et al . Real-time denoising and dereverberation with tiny recurrent U-Net[C]//Proc of IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway,NJ: IEEE Press, 2021: 5789-5793.
[6]Westhausen N L, Meyer B T. Dual-signal transformation LSTM network for real-time noise suppression[EB/OL]. (2020). https://arxiv.org/abs/2005.07551.
[7]Le Xiaohui, Chen Li, He Chao,et al . Personalized speech enhancement combining band-split RNN and speaker attentive module[C]//Proc of IEEE International Conference on Acoustics,Speech and Signal Processing. Piscataway,NJ:IEEE Press, 2023: 1-2.
[8]Kishore V, Tiwari N, Paramasivam P. Improved speech enhancement using TCN with multiple encoder-decoder layers[C]//Proc of InterSpeech. 2020: 4531-4535.
[9]Wang Kai, He Bengbeng, Zhu Weiping. CAUNet: context-aware U-Net for speech enhancement in time domain[C]// Proc of IEEE International Symposium on Circuits and Systems. Piscataway,NJ:IEEE Press, 2021: 1-5.
[10]Zheng Chengyu, Zhou Yuan, Peng Xiulian,et al . Real-time speech enhancement with dynamic attention span[C]//Proc of IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway,NJ:IEEE Press, 2023: 1-5.
[11]Hu Yuchen, Chen Chen, Zhu Qiushi,et al . wav2code: restore clean speech representations via codebook lookup for noise-robust ASR[J].IEEE/ACM Trans on Audio, Speech,and Language Proces-sing , 2024, 32 :1145-1156.
[12]高戈,曾邦,王霄,等. 基于聲紋嵌入的語音增強(qiáng)算法[J].計算機(jī)應(yīng)用研究, 2022, 39 (3):688-692. (Gao Ge,Zeng Bang,Wang Xiao, et al . Speech enhancement based on speaker embedding[J].Application Research of Computers , 2022, 39 (3):688-692.)
[13]Xu Xinmeng, Hao Jianjun. U-Former: improving monaural speech enhancement with multi-h(huán)ead self and cross attention[C]//Proc of International Conference on Pattern Recognition. Piscataway,NJ:IEEE Press, 2022: 663-369.
[14]Ronneberger O, Fischer P, Brox T. U-Net: convolutional networks for biomedical image segmentation[C]//Proc of Medical Image Computing and Computer-Assisted Intervention.Berlin:Springer International Press,2015: 234-241.
[15]Vaswani Shazeer N, Parmar N,et al . Attention is all you need[C]// Advances in Neural Information Processing Systems. Red Hook,NY:Curran Associate Inc., 2017:6000-6010.
[16]Gulati Qin J, Chiu C-C,et al . Conformer: convolution-augmented transformer for speech recognition[EB/OL]. (2020-05-06). https://arxiv.org/abs/2005.08100.
[17]Defossez Synnaeve G, Adi Y. Real time speech enhancement in the waveform domain[EB/OL]. (2020-06-03). https://arxiv.org/abs/2006.12847.
[18]Choi H S, Kim J H, Huh J,et al . Phase-aware speech enhancement with deep complex U-Net[C]//Proc of International Conference on Learning Representations. 2019.
[19]Veaux C, Yamagishi J, King S. The voice bank corpus: design, collection and data analysis of a large regional accent speech database[C]//Proc of International Conference Oriental COCOSDA Held Jointly with 2013 Conference on Asian Spoken Language Research and Evaluation. Piscataway,NJ:IEEE Press, 2013: 1-4.
[20]Thiemann J,Ito N,Vincent E. The diverse environments multi-channel acoustic noise database (demand): a database of multichannel environmental noise recordings[C]//Proc of Meetings on Acoustics.[S.l.]:AIP Press, 2013.
[21]Rix A W, Beerends J G, Hollier M P,et al . Perceptual evaluation of speech quality (PESQ)—a new method for speech quality assessment of telephone networks and codecs[C]//Proc of IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway,NJ:IEEE Press, 2001: 749-752.
[22]Taal C H, Hendriks R C, Heusdens R,et al . An algorithm for intelligibility prediction of time-frequency weighted noisy speech[J].IEEE Trans on Audio, Speech, and Language Processing , 201 19 (7): 2125-36.
[23]Hu Yi, Loizou P C. Evaluation of objective quality measures for speech enhancement[J].IEEE Trans on Audio, Speech, and Language Processing , 2007, 16 (1): 229-38.
[24]Pascual S, Bonafonte Serra J. SEGAN: speech enhancement gene-rative adversarial network[EB/OL]. (2017-06-09). https://arxiv.org/abs/1703.09452.
[25]Macartney C, Weyde T. Improved speech enhancement with the wave U-Net[EB/OL]. (2018-11-27). https://arxiv.org/abs/ 1811.11307.
[26]Yin Dacheng, Luo Chong, Xiong Zhiwei,et al . PHASEN: a phase-and-h(huán)armonics-aware speech enhancement network[C]//Proc of AAAI Conference on Artificial Intelligence. 2020: 9458-9465.
[27]Wang Kai, He Bengeng, Zhu Weiping. TSTNN: two-stage Transformer based neural network for speech enhancement in the time domain[C]//Proc of IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway,NJ:IEEE Press, 2021: 7098-7102.
[28]Fu S W, Liao C F, Tsao Y,et al . MetricGAN: generative adversarial networks based black-box metric scores optimization for speech enhancement[C]//Proc of International Conference on Machine Lear-ning. [S.l.]:PMLR, 2019: 2031-2041.
[29]Fu S W, Yu C, Hsieh T A,et al . MetricGAN+: an improved version of metricgan for speech enhancement[EB/OL]. (2021-06-04). https://arxiv.org/abs/ 2104.03538.
[30]Kim E, Seo H. SE-Conformer: time-domain speech enhancement using conformer[C]// Proc of InterSpeech. 2021: 2736-2740.
收稿日期:2023-09-11;修回日期:2023-10-31基金項(xiàng)目:甘肅省重點(diǎn)研發(fā)計劃資助項(xiàng)目(22YF7GA130)
作者簡介:曹潔(1966—),女,安徽宿州人,教授,博導(dǎo),博士,主要研究方向?yàn)闄C(jī)器學(xué)習(xí)、模式識別、語音和說話人識別(haop1115@163.com);王宸章(1999—),男,江蘇徐州人,碩士研究生,主要研究方向?yàn)檎Z音增強(qiáng);梁浩鵬(1995—),男,河南周口人,博士研究生,主要研究方向?yàn)樯疃葘W(xué)習(xí);王喬(1996—),女,甘肅民勤人,碩士研究生,主要研究方向?yàn)檎Z音處理;李曉旭(1982—),女,吉林白城人,教授,博導(dǎo),博士,主要研究方向?yàn)闄C(jī)器學(xué)習(xí)、圖像和視頻理解的應(yīng)用.