亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于信息提煉與殘差特征聚合網(wǎng)絡(luò)的單通道語音增強(qiáng)

        2023-07-27 14:50:22張?zhí)祢U羅慶予張慧芝
        信號(hào)處理 2023年7期
        關(guān)鍵詞:空洞殘差語音

        張?zhí)祢U 羅慶予 方 蓉 張慧芝

        (重慶郵電大學(xué)通信與信息工程學(xué)院,重慶 400065)

        1 引言

        在現(xiàn)實(shí)環(huán)境中,說話人的聲音往往會(huì)被各種背景或人為噪聲干擾,在語音處理應(yīng)用中,提高被干擾語音的質(zhì)量和可懂度始終是一個(gè)長期課題。其中單通道語音增強(qiáng)旨在單個(gè)麥克風(fēng)的條件下去除被污染語音中的噪聲干擾從而保證干凈語音的質(zhì)量和可懂度,主要分為基于時(shí)域和基于頻域的語音增強(qiáng)方法,由于頻譜的幅值更能表現(xiàn)出聲音的清晰紋理[1],故被廣泛使用。語音增強(qiáng)已經(jīng)作為其他聲學(xué)任務(wù)中重要的預(yù)處理階段,例如耳蝸植入、語音識(shí)別[2]、助聽器[3]等領(lǐng)域。

        過去數(shù)十年出現(xiàn)的如譜減法、維納濾波法、小波變換法[4]等傳統(tǒng)信號(hào)處理方法,不僅在非平穩(wěn)噪聲條件下的增強(qiáng)效果差,且難以適應(yīng)多變的語音增強(qiáng)場景而無法滿足市場對(duì)系統(tǒng)性能的苛刻要求。基于深度神經(jīng)網(wǎng)絡(luò)(DNN,Deep Neural Network)的語音增強(qiáng)方法在近幾年很大程度上解決了此問題[5],但DNN 存在參數(shù)量大且無法有效利用上下文信息等困擾。隨后提出了具有四個(gè)隱藏長短期記憶(LSTM,Long Short-Term Memory)層的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN,Recurrent Neural Network)[6]來捕獲信號(hào)長期依賴性,而高延遲和訓(xùn)練復(fù)雜限制了它的適用性。文獻(xiàn)[7]在此基礎(chǔ)上提出雙向LSTM 結(jié)構(gòu)(BiLSTM,Bi-Directional Long Short-Time Memory)來進(jìn)一步抑制噪聲,語音增強(qiáng)效果得到提升。TAN 等[8]在卷積循環(huán)網(wǎng)絡(luò)(CRN,Convolution Recurrent Network)[9]上引入殘差連接和門控機(jī)制提出門控殘差網(wǎng)絡(luò)(GRN,Gate Residual Network)來處理網(wǎng)絡(luò)深度增加而導(dǎo)致梯度消失的問題,但仍未充分利用到殘差分支上的特征且增強(qiáng)效果有限。

        隨著神經(jīng)網(wǎng)絡(luò)的不斷發(fā)展,基于卷積神經(jīng)網(wǎng)絡(luò)(CNN,Convolution Neural Network)的語音增強(qiáng)模型中訓(xùn)練參數(shù)量小且能準(zhǔn)確獲取局部信息的優(yōu)勢逐漸凸顯。2017 年,PARK 等[10]搭建了冗余卷積編解碼器(RCED,Redundant Convolution Encoder-And-Decoder),在U-Net[11]基礎(chǔ)上采用卷積層代替其上下采樣層和全連接層,提高了語音增強(qiáng)效果,其中編解碼結(jié)構(gòu)得到廣泛使用。隨后,OKTAY 等[12]又在U-Net 的跳躍連接上嵌入注意力門控(AG,Attention Gate)模塊,提出注意力U 型網(wǎng)絡(luò)(AU-Net,Attention U-Net),注意力機(jī)制使得解碼層獲得了更深層次、更豐富的特征,在小數(shù)據(jù)集下也能取得良好表現(xiàn),但針對(duì)全局的特征提取能力受限,上下文建模能力弱等問題依然存在。盡管現(xiàn)有基于CNN 的語音增強(qiáng)模型能起到一定效果,但不能對(duì)語音多尺度、多維度特征進(jìn)行充分捕獲,特別是網(wǎng)絡(luò)中存在的殘差學(xué)習(xí)僅作為一種減輕訓(xùn)練難度的策略,忽略了充分利用殘差分支及網(wǎng)絡(luò)中間層上的層次特征,隨著網(wǎng)絡(luò)層數(shù)增加,這些特征會(huì)逐漸集中在不同層面,這對(duì)重構(gòu)語音細(xì)節(jié)非常重要。

        針對(duì)上述問題,本文以AU-Net 為基線,并以最小化參數(shù)量、最大化語音增強(qiáng)效果為目的,設(shè)計(jì)了一種基于信息提煉和殘差特征聚合的新型卷積編解碼網(wǎng)絡(luò)結(jié)構(gòu),在編解碼層部分,提出一種2 維的層次細(xì)化殘差(HRR)模塊,該模塊借鑒了文獻(xiàn)[13]中的多尺度特征提取和全局卷積網(wǎng)絡(luò)(GCN,Global Convolutional Network)[14]中的非對(duì)稱性,并結(jié)合了空洞卷積,在增大實(shí)際感受野獲取豐富全局上下文信息的同時(shí),減少了訓(xùn)練參數(shù);在傳輸層,根據(jù)文獻(xiàn)[15]的思想,提出一種輕量級(jí)的1 維通道自適應(yīng)注意力模塊(1D-CAA),引入門控機(jī)制和范數(shù)歸一化,動(dòng)態(tài)地為時(shí)序信息各通道分配不同的權(quán)重,并將該模塊結(jié)合門控線性單元和殘差學(xué)習(xí)設(shè)計(jì)出一種1 維的門控通道注意(GCA,Gating Channel Attention)模塊,其能夠選擇性地傳遞信息并增強(qiáng)對(duì)時(shí)序信息的獲取,然后在此基礎(chǔ)上,搭建出一種殘差特征聚合(GRFA)網(wǎng)絡(luò),對(duì)8 個(gè)GCA 模塊進(jìn)行堆疊組合,充分利用局部殘差特征并加強(qiáng)層級(jí)信息傳遞。此外,保留AU-Net 中對(duì)應(yīng)編解碼層的跳躍連接以及嵌入的AG 模塊,使得解碼層獲得具有魯棒性的深層特征。本文在Librispeech 語料庫和21 種環(huán)境噪聲下,驗(yàn)證了所提網(wǎng)絡(luò)的有效性和魯棒性,實(shí)現(xiàn)了模型復(fù)雜度與模型精度的良好平衡。

        2 系統(tǒng)結(jié)構(gòu)

        設(shè)語音模型為:

        y、x和n分別表示含噪語音、純凈語音和噪聲的時(shí)域波形。語音增強(qiáng)的目的是從帶噪語音y中消除噪聲n,得到純凈語音x。首先對(duì)時(shí)域波形進(jìn)行短時(shí)傅里葉變換(STFT,Short time Fourier transform)將其轉(zhuǎn)換為時(shí)頻域,故式(1)可重寫為:

        其中Yt,f、Xt,f、Nt,f分別代表了含噪語音、純凈語音、噪聲在時(shí)間幀t和頻點(diǎn)f上的幅度值,∠Yt,f、∠Xt,f、∠Nt,f分別表示三者對(duì)應(yīng)的相位譜,含噪語音幅度譜Yt,f再通過式(3)求得出對(duì)數(shù)功率譜值Y,令Y作為本文網(wǎng)絡(luò)的輸入特征[16],通過網(wǎng)絡(luò)從已知語音和噪聲中學(xué)習(xí)映射得到的增強(qiáng)語音的對(duì)數(shù)功率幅度譜,然后通過式(4)求出增強(qiáng)語音幅度譜:

        最后結(jié)合含噪語音的相位譜∠Yt,f進(jìn)行短時(shí)傅里葉逆變換(ISTFT,Inverse Short time Fourier transform),還原到時(shí)域空間,最終重構(gòu)出增強(qiáng)語音的波形:

        2.1 基線注意力U型網(wǎng)絡(luò)

        本文方法采用的基線網(wǎng)絡(luò)是解決醫(yī)學(xué)圖像分割問題所提出的注意力U 型網(wǎng)絡(luò)(AU-Net),它具有結(jié)合更寬泛的上下文信息來提取豐富特征等優(yōu)點(diǎn),其中的注意力機(jī)制不僅能捕捉元素間的相關(guān)性,還能對(duì)深層次特征進(jìn)行二次提取,賦予元素全局感受野[12]。圖1(a)所示為一個(gè)基于AU-Net 的語音增強(qiáng)模型,網(wǎng)絡(luò)輸入特征為含噪語音的對(duì)數(shù)功率幅度譜,最終的輸出結(jié)合含噪語音相位還原得到增強(qiáng)語音時(shí)域波形。AU-Net 大致分為編碼層、中間層、解碼層和跳躍連接4 部分,網(wǎng)絡(luò)的每部分構(gòu)成和功能如下所述:

        圖1 基線AU-Net模型Fig.1 Baseline AU-Net model

        1)編碼層:編碼層的每一層都有由一個(gè)卷積模塊和一個(gè)池化層構(gòu)成,每個(gè)卷積模塊都由兩組2 維卷積層(Conv2d,Two-Dimensional Convolution)和修正線性單元(ReLU,Rectified Linear Unit)激活函數(shù)組成。池化層采用最大池化(Max Pooling),步長設(shè)置為2,可用于降采樣,每次降采樣后特征圖尺寸減半。首先對(duì)特征圖進(jìn)行卷積模塊的操作后,再通過最大池化得到每一編碼層的輸出。編碼部分經(jīng)過三層來逐層提取特征,每一層輸出的特征圖尺寸減半且通道數(shù)翻倍。

        2)中間層:中間層是編碼層和解碼層之間的過渡層,同時(shí)也是網(wǎng)絡(luò)的中間傳輸層,它由一個(gè)卷積模塊組成。

        3)解碼層:解碼層與編碼層對(duì)應(yīng),每一層是由一個(gè)卷積模塊和一個(gè)上采樣層構(gòu)成,解碼層每一層的卷積模塊與編碼層中的卷積模塊相對(duì)應(yīng),有相同的卷積核數(shù)量和大小。上采樣(Up-sampling)層步長設(shè)置為2,特征圖通過一個(gè)卷積模塊后,再通過上采樣層來恢復(fù)到與對(duì)應(yīng)編碼層輸出的特征圖尺寸。

        4)跳躍連接部分:在對(duì)應(yīng)的編解碼層之間的跳躍連接上嵌入AG 模塊,沿通道維度將每個(gè)AG 模塊的輸出與解碼層上一層輸出特征進(jìn)行拼接(Concatenate),共同作為當(dāng)前解碼層的輸入。本文采用的AG模塊結(jié)構(gòu)如圖1(b)所示,其計(jì)算公式為:

        其中,r、g分別為編碼層和與之對(duì)應(yīng)解碼層的輸出特征,*表示卷積運(yùn)算,Wo、Wr、Wg均表示卷積核大小步長為1×1的2維卷積,且三者卷積的輸出通道數(shù)均相同。⊕與?表示逐點(diǎn)相加與相乘,σ表示Sigmoid 激活函數(shù),OAG代表AG 模塊的輸出。AG 首先將來自編碼層與解碼層的特征合并,再通過Sigmoid 得到當(dāng)前層特征信息的注意力系數(shù)α,該系數(shù)與編碼層的特征相乘得到最終輸出。AG 模塊對(duì)來自編碼層的低層次特征圖進(jìn)行不同區(qū)域的聚焦,通過訓(xùn)練學(xué)習(xí)用不同權(quán)重來賦值,突出對(duì)增強(qiáng)任務(wù)重要的特征區(qū)域并抑制不相關(guān)的背景區(qū)域。

        2.2 空洞卷積

        在本文編解碼層所設(shè)計(jì)的模塊里保留了AUNet 中的池化操作,池化即降采樣能減少過擬合[12],但同時(shí)會(huì)讓特征圖丟失分辨率從而降低網(wǎng)絡(luò)獲取語音起止特征信息的準(zhǔn)確性,最終影響輸出端的語音質(zhì)量??斩淳矸e本質(zhì)是在普通卷積的卷積核中填充若干個(gè)0,在相同參數(shù)下,隨著空洞率d的增長,填充0 的個(gè)數(shù)增多,感受野呈指數(shù)級(jí)增長,從而提取到更加豐富的語音上下文特征[17]。因此,本文引入空洞卷積增大感受野不僅提高獲取語音全局信息的準(zhǔn)確性,還能降低池化操作帶來的負(fù)面影響。具體而言,2維空洞卷積的卷積核是沿時(shí)間、頻率兩個(gè)維度上擴(kuò)張,1 維空洞卷積僅在時(shí)間維度上擴(kuò)張,兩種方式都能有效擴(kuò)大網(wǎng)絡(luò)感受野,設(shè)空洞卷積核大小為k,則卷積帶來的實(shí)際感受野大小N為:

        若RL表示卷積第L層的感受野,RL+1表示第L+1層的感受野,則在經(jīng)過連續(xù)多層的空洞卷積后,將感受野表示為:

        2.3 門控機(jī)制

        門控機(jī)制最初是為了促進(jìn)信息在RNN 中隨時(shí)間流動(dòng)而設(shè)計(jì)的,本文模型的中間傳輸層著重處理一維序列信息的傳遞,在以往對(duì)一維信息流的處理中,常采用RNN 中的LSTM 和門控循環(huán)單元(GRU,Gated recurrent unit)來處理長序列信息,但隨著網(wǎng)絡(luò)深度的增加會(huì)出現(xiàn)梯度消失,文獻(xiàn)[18]提出了一種門控線性單元(GLU,Gate linear unit)來解決此問題,該單元保留了門控機(jī)制并采用全卷積運(yùn)算,有效減少參數(shù)量的同時(shí)保持網(wǎng)絡(luò)非線性,其具體表達(dá)式為:

        其中,WL,VL與BL,GL分別表示第L層的卷積核與偏置,*表示卷積運(yùn)算,?表示逐點(diǎn)相乘,σ表示Sigmoid 激活函數(shù),XL與XL+1表示第L層與第L+1 層網(wǎng)絡(luò)的輸出特征。式(10)所示,門控機(jī)制包含V1和V2兩分量,其中V1表示輸入特征在卷積后通過線性激活函數(shù)Linear 來緩解梯度消失的分量,V2表示輸入特征卷積后通過Sigmoid 進(jìn)行特征壓縮來維持網(wǎng)絡(luò)非線性特性的分量,網(wǎng)絡(luò)通過門控機(jī)制可選擇重要的信息進(jìn)行傳遞。

        2.4 1維通道自適應(yīng)注意力模塊

        最近通道注意力模塊在許多神經(jīng)網(wǎng)絡(luò)中取得令人深刻的表現(xiàn),其中最具有代表性的是壓縮與激勵(lì)網(wǎng)[19],對(duì)全局嵌入信息并在通道維度上調(diào)整特征圖,但其中的兩層全連接層帶來了計(jì)算成本、參量大且隱式訓(xùn)練學(xué)習(xí)得到的通道間關(guān)系具有不可知性等問題。另外在語音增強(qiáng)中,對(duì)網(wǎng)絡(luò)傳輸層中的一維信息流處理而提出的通道注意力機(jī)制并不多見,本文將編碼層輸出的2 維特征圖調(diào)整為1 維后傳遞給傳輸層,在傳輸層中的通道維度上融合了之前頻率與通道維度的能量分布,這與時(shí)間上下文信息分布一樣重要且具有信息量。因此,針對(duì)此問題,本文提出一個(gè)輕量級(jí)的1維通道自適應(yīng)注意力(1DCAA)模塊,具體結(jié)構(gòu)如圖2 所示,受文獻(xiàn)[15]的啟發(fā),該模塊結(jié)合范數(shù)歸一化和門控機(jī)制,自適應(yīng)的為各通道分配不同權(quán)重,并且輕量級(jí)的設(shè)置使其能夠容易集成到本文傳輸層的每一模塊中去。

        設(shè)傳輸層中特征圖X大小為T×C,其中T和C分別表示時(shí)間幀和融合后的通道數(shù),其中‖·‖2表示為L2 范數(shù),α、γ、β分別表示嵌入權(quán)重因子、門控權(quán)重因子、門控偏置因子,均為需要訓(xùn)練的參數(shù)。輸入特征X=[x1,x2,…,xC],c∈{1,2,…,C},其中xc表示輸入特征中通道c的特征向量,可以表示為xc=。

        首先通過L2 范數(shù)來代替全局平均池化(GAP,Global Average Pooling)聚合每個(gè)通道中的全局上下文信息,實(shí)現(xiàn)具有大感受野的全局上下文嵌入,同時(shí)還有效避免了特殊情況下GAP 輸入輸出恒定問題[20]。每通道特征向量進(jìn)行全局上下文嵌入后,再通過嵌入權(quán)重因子α=[α1,…,αC]來調(diào)節(jié)嵌入后的通道權(quán)重,具體表達(dá)式為:

        其中sc表示c通道嵌入后的輸出,ε表示一個(gè)極小的常數(shù)以避免在零點(diǎn)求導(dǎo)問題。

        然后,對(duì)所有得到的通道特征向量S=[s1,…,sC]進(jìn)行L2 范數(shù)歸一化操作,L2 范數(shù)歸一化更適合通道歸一化中的表征學(xué)習(xí)并且能使得通道間建立競爭或合作關(guān)系[21]。另外,所有特征元素進(jìn)行L2范數(shù)操作后的值除以以防止因通道數(shù)量過大造成歸一化后值過小,歸一化后的每通道特征向量可以表示為:

        最后,通過門控機(jī)制來調(diào)整原始輸入的通道特征向量xc,設(shè)門控權(quán)重因子γ=[γ1,…,γC],門控偏置因子β=[β1,…,βC],門控激活函數(shù)采用tanh 并同時(shí)引入殘差連接,避免出現(xiàn)0 或1 值導(dǎo)致訓(xùn)練中梯度消失,通過訓(xùn)練門控參數(shù)來自適應(yīng)調(diào)節(jié)通道特征向量間關(guān)系,這與全連接層中的大量參數(shù)相比要輕量許多,門控函數(shù)表達(dá)式如式(13)所示:

        其中⊙表示逐點(diǎn)相乘,CAA對(duì)每通道特征向量進(jìn)行的上述所有操作可概括為式(14),其中Fc表示為對(duì)通道c執(zhí)行的一系列非線性運(yùn)算操作。

        2.5 層次細(xì)化殘差模塊

        在網(wǎng)絡(luò)編碼層中,建立一個(gè)有效的特征提取模塊來保留語音中重要的細(xì)粒度特征對(duì)后續(xù)處理和目標(biāo)語音重建十分重要。AU-Net 中的普通卷積模塊只使用了單分支的3×3 卷積核來粗糙提取特征,很難覆蓋大尺寸特征圖;GCN[14]中采用雙分支非對(duì)稱分解卷積,相對(duì)僅使用單分支性能略有改善;而文獻(xiàn)[13]中使用了4個(gè)不同卷積核大小的并行卷積來提取多尺度特征但加大了計(jì)算成本。受上述啟發(fā),故本文在網(wǎng)絡(luò)編解碼層中提出一種多分支結(jié)構(gòu)的2 維層次細(xì)化殘差(HRR)模塊,如圖3(a)所示。通過使用具有不同感受野的多分支卷積來提取豐富的特征信息,其中部分分支采用非對(duì)稱分解卷積來減少參數(shù)量且不降低網(wǎng)絡(luò)精度,并保留了AU-Net編解碼層中的池化和上采樣操作。另外,將空洞卷積和普通卷積相結(jié)合來進(jìn)一步擴(kuò)大單層特征提取的感受野,減少池化及上采樣分支帶來的額外信息損失,捕獲更豐富的語音上下文信息。

        在HRR 模塊中,令輸入特征圖大小為T×F×C,參數(shù)分別表示為時(shí)間幀、頻率維度和通道數(shù)。首先輸入特征圖通過一個(gè)卷積核為1×1的Conv2d將通道數(shù)減半為C/2 以控制網(wǎng)絡(luò)參數(shù)量,然后通過4 個(gè)并行分支:最左側(cè)分支采用卷積核大小為3×3的普通2 維卷積來捕獲局部特征;中間左側(cè)分支采用空洞率d相同的兩個(gè)2 維空洞卷積來擴(kuò)大模塊實(shí)際感受野,卷積核大小分為1×5和5×1;中間右側(cè)分支則采用卷積核大小為7×1和1×7的2維普通卷積;最右側(cè)分支由全局平均池化(GAP)層和上采樣層構(gòu)成,用于獲取全局信息。4 個(gè)分支最后沿通道維度拼接,合并后再通過一個(gè)卷積核大小為1×1的Conv2d 來還原通道數(shù)C,最后引入殘差連接與模塊輸入逐點(diǎn)相加得到輸出,防止梯度消失和深層網(wǎng)絡(luò)過擬合。另外,所有卷積后依次跟批次歸一化(BN,Batch Normalization)層、指數(shù)線性單元(ELU,Exponential Linear Unit)激活函數(shù)層,且卷積層中步長均設(shè)置為1。

        2.6 門控通道注意力模塊

        在傳輸層中,針對(duì)編碼層壓縮后的序列信息,本文設(shè)計(jì)了一種1 維門控通道注意(GCA,Gating Residual Channel Attention)模塊來對(duì)一維信息有效處理,如圖3(b)所示。此模塊結(jié)合了門控機(jī)制與上文提出的1維通道自適應(yīng)注意力模塊(1D-CAA),其中門控機(jī)制能夠有效判別序列相關(guān)信息,同時(shí)引入殘差學(xué)習(xí)來解決多層堆疊模塊后出現(xiàn)的梯度消失問題,并加入空洞卷積來擴(kuò)大感受野。設(shè)GCA 模塊輸入特征的通道數(shù)為C,模塊包含上下兩個(gè)并行卷積層,其中上半部分為兩個(gè)1維空洞卷積,卷積核大小均為5,步長均為1,空洞率d保持一致,并且兩卷積輸出通道數(shù)減半以減少后續(xù)運(yùn)算參數(shù)量。下半部分分為兩個(gè)并行的1維普通卷積,卷積核大小、步長均為1,且兩卷積將輸出通道數(shù)還原為C,其中主分支輸出將作為下一GCA 模塊的輸入,另一分支作為跳躍連接輸出。在跳躍連接分支上的卷積層前引入CAA 模塊,允許該分支動(dòng)態(tài)為通道分配不同權(quán)重,突出重要特征信息后再輸出。另外,為確保網(wǎng)絡(luò)保持非線性,模塊的所有卷積層后都依次加入BN層、ELU激活函數(shù)。

        通過在傳輸層對(duì)GCA 模塊進(jìn)行堆疊,并不斷增大空洞率擴(kuò)大感受野,從而得到更加豐富的語音相關(guān)信息,詳情見2.7小節(jié)。

        2.7 門控殘差特征聚合網(wǎng)絡(luò)

        在目前的CNN 網(wǎng)絡(luò)中,隨著網(wǎng)絡(luò)深度的增加,每個(gè)卷積層中的特征將是具有不同感受野的分層結(jié)構(gòu)。采用簡單殘差連接并不能充分利用中間層信息,尤其是深層特征更容易忽略前面干凈的淺層特征從而使自身只起到局部作用,導(dǎo)致網(wǎng)絡(luò)性能下降。文獻(xiàn)[22]提出采用Dense-net 即每一層的輸入都來自所有先前層的輸出以解決此問題,但隨網(wǎng)絡(luò)層數(shù)逐漸增大,其中拼接后的通道數(shù)累加且模型參數(shù)激增,反而不利于計(jì)算資源有限的語音增強(qiáng)任務(wù)。因此,針對(duì)以上問題,本文在中間層部分搭建了一個(gè)門控殘差特征聚合(GRFA)網(wǎng)絡(luò),圖4展示了GRFA網(wǎng)絡(luò)的細(xì)節(jié)。

        圖4 門控殘差特征聚合網(wǎng)絡(luò)Fig.4 Gating residual feature aggregation

        GRFA 主要有3 個(gè)1 維卷積層(Conv1d)與8 個(gè)1維的門控通道注意力模塊(GCA)模塊組成,Conv1d的卷積核大小和步長均為1,網(wǎng)絡(luò)首尾的2 個(gè)的Conv1d 用來調(diào)整輸入輸出維度。首先中間部分由8 個(gè)GCA 模塊堆疊,8 個(gè)模塊的跳躍連接與最后一個(gè)GCA 模塊的輸出沿通道維度拼接,然后拼接后的輸出通過1 個(gè)Conv1d 來進(jìn)行特征融合,最后再與原始輸入特征進(jìn)行逐元素相加操作。為更好利用跳躍連接分支上的局部特征,該分支上的1 維通道自適應(yīng)模塊注意力(1D-CAA)模塊使GRFA 網(wǎng)絡(luò)的中間層次特征能有效聚集在關(guān)鍵通道中,增強(qiáng)了對(duì)局部殘差特征的提取與模塊間的信息傳遞以產(chǎn)生更具有代表性的特征,最后所有層級(jí)的有用特征細(xì)節(jié)都能無損失地傳輸?shù)皆揋RFA網(wǎng)絡(luò)的末端以實(shí)現(xiàn)聚合目的。8 個(gè)GCA 模塊的空洞率d大小依次設(shè)置為1,2,5,9,2,5,9,17。可以將GRFA 網(wǎng)絡(luò)中第L層GCA模塊對(duì)下一層的輸出表示為:

        其中,F(xiàn)L+1代表了第L+1層中包括卷積、BN與激活函數(shù)ELU 等一系列非線性運(yùn)算操作,XL+1與XL分別表示第L+1層和第L層GCA模塊的輸出。

        2.8 網(wǎng)絡(luò)整體結(jié)構(gòu)

        在基線AU-Net基礎(chǔ)上,本文網(wǎng)絡(luò)在編碼層和解碼層采用2 維卷積的方式對(duì)特征進(jìn)行處理,在文獻(xiàn)[23]所述中,2 維卷積能夠限制變換過程中過多去關(guān)注局部區(qū)域,能夠保留原始語音結(jié)構(gòu)的同時(shí)進(jìn)行特征變換。而本文的中間傳輸層則采用1維卷積的方式,因?yàn)? 維卷積能夠更好捕捉整體特征與特征維數(shù)之間的關(guān)系,網(wǎng)絡(luò)整體結(jié)構(gòu)如圖5所示。

        圖5 網(wǎng)絡(luò)整體結(jié)構(gòu)Fig.5 Overall network structure

        編碼層(Encoder)主要由HRR和Conv2d兩模塊構(gòu)成,3 個(gè)HRR 模塊用來獲取豐富的語音全局上下文信息并且補(bǔ)償感受野的損失,其空洞率依次設(shè)置為1、2、5。另外4 個(gè)Conv2d 模塊中,第一個(gè)Conv2d提取初始語音特征,后3 個(gè)Conv2d 模塊用于壓縮特征圖尺寸,這兩類模塊交替放置對(duì)信號(hào)特征進(jìn)行提取壓縮,輸出層次信息豐富的低維特征給傳輸層。

        傳輸層(1D-Transfer)主要由GRFA 網(wǎng)絡(luò)構(gòu)成,為了更有效的捕獲整體特征相關(guān)性,先將2 維特征圖重塑(Reshape)到1 維再進(jìn)行傳遞,輸出時(shí)再還原為2 維,中間通過GRFA 網(wǎng)絡(luò)得到層次特征有效聚合后的輸出。

        解碼層(Decoder)主要由HRR 與2 維反卷積(Deconv2d)兩模塊構(gòu)成,且為編碼層的逆過程,3 個(gè)HRR 與編碼層模塊相互對(duì)應(yīng)一致以對(duì)特征信息補(bǔ)償恢復(fù),且空洞率同編碼層依次設(shè)置為1、2、5。4個(gè)Deconv2d 模塊用來恢復(fù)壓縮特征維度,其中最后一個(gè)Deconv2d 模塊作為最終輸出層將特征圖還原回初始輸入維度,并采用tanh作激活函數(shù)。

        另外,對(duì)應(yīng)層級(jí)的編碼層與解碼層之間采用AU-Net中的跳躍連接以及嵌入的AG 模塊,AG 模塊由第1 個(gè)解碼層依次向后疊加,本文方法在網(wǎng)絡(luò)嵌入4 個(gè)AG 模塊時(shí)性能最佳。注意力機(jī)制能使得高分率特征與低分辨率特征相結(jié)合以提升解碼過程中的特征恢復(fù)和本文網(wǎng)絡(luò)的精度[12],同時(shí)改善網(wǎng)絡(luò)中空洞卷積帶來的局部語音信息丟失問題和語音質(zhì)量問題。

        網(wǎng)絡(luò)模型的參數(shù)設(shè)置如表1 所示,其中輸入輸出維度按照T×F×C的格式,這三個(gè)參數(shù)分別表示時(shí)間幀T,頻率維度F,特征圖通道數(shù)C,另外超參數(shù)k、s、d和c分別表示卷積核大小、步長、空洞率和輸出通道數(shù),c1 表示傳輸層GRFA 網(wǎng)絡(luò)中通過首層Conv1d 后的每層模塊輸出通道數(shù),整體網(wǎng)絡(luò)的輸入輸出維度為128×128×1。

        表1 網(wǎng)絡(luò)模型的參數(shù)設(shè)置Tab.1 Parameters of network model

        2.9 損失函數(shù)

        本文方法采用一種包含參數(shù)δ的分段Huber 函數(shù)作為目標(biāo)損失函數(shù),它綜合了絕對(duì)值誤差(MAE,Mean absolute error)和最小均方誤差(MSE,Mean square error)的優(yōu)點(diǎn),其中δ作為判決閾值,根據(jù)訓(xùn)練過程來動(dòng)態(tài)調(diào)整損失函數(shù)的選擇。當(dāng)網(wǎng)絡(luò)估計(jì)目標(biāo)語音的對(duì)數(shù)功率譜與真實(shí)值差異范圍在[-δ,δ]內(nèi)時(shí),損失函數(shù)為MSE 函數(shù),反之為MAE 函數(shù),其具體表達(dá)式為:

        其中超參數(shù)δ設(shè)置為1,t表示幀數(shù)t∈{1,2,…,T},f表示頻率范圍f∈{1,2,…,F(xiàn)},表示對(duì)數(shù)功率譜第t幀中第f個(gè)頻點(diǎn)的特征值。Huber作為損失函數(shù)不僅對(duì)異常點(diǎn)具有較強(qiáng)的魯棒性,還能迅速求出穩(wěn)定解并在語音指標(biāo)上表現(xiàn)良好,具有較高訓(xùn)練精度和誤差敏感度。

        3 實(shí)驗(yàn)與結(jié)果分析

        3.1 數(shù)據(jù)集及參數(shù)設(shè)置

        實(shí)驗(yàn)中使用的純凈語音選自Librispeech 語料庫[24],其中每條語音時(shí)長在10 s 左右,選取17980 條純凈語音用于訓(xùn)練,1230 條用于測試,選取的語音中男女聲均各占一半。使用的噪聲選自DEMAN 噪聲庫、Noise92噪聲庫與其他常見的100種環(huán)境噪聲,共21種涉及多個(gè)場景的噪聲,隨機(jī)選取其中15種為參與訓(xùn)練的噪聲,又在訓(xùn)練噪聲中隨機(jī)選取部分作為測試的匹配噪聲,其余未參與訓(xùn)練的噪聲作為測試的不匹配噪聲,表2 為數(shù)據(jù)集噪聲的具體劃分。將所有測試噪聲拼接為一條長矢量,每次隨機(jī)切割出與訓(xùn)練語音等長的噪聲,含噪語音由純凈語音與切割噪聲按照-5 dB 到10 dB(間隔為1 dB)內(nèi)隨機(jī)選取信噪比來混合得到,并將含噪語音訓(xùn)練集的30%作為驗(yàn)證集。每輪次(Epoch)訓(xùn)練結(jié)束后用驗(yàn)證集來驗(yàn)證性能。而后,用匹配噪聲測試集來評(píng)估本文方法的增強(qiáng)效果,用不匹配噪聲測試集來評(píng)估本文方法的泛化能力,匹配噪聲測試集和不匹配噪聲測試集分別把測試純凈語音同匹配噪聲與不匹配噪聲按上述方法混合得到,測試集的混合信噪比分別為-5 dB、0 dB、5 dB、10 dB。

        表2 噪聲類型Tab.2 Noise Types

        所使用的模型均由Keras 搭建,開發(fā)環(huán)境基于CUDA11.2 與CUDNN,實(shí)驗(yàn)中批處理大小為32,迭代次數(shù)為100 次,使用誤差函數(shù)Huber 來計(jì)算輸入特征與輸入標(biāo)簽之間的差值,通過反向傳播誤差來更新網(wǎng)絡(luò)層中各節(jié)點(diǎn)的權(quán)值。采用Adam 優(yōu)化器優(yōu)化網(wǎng)絡(luò)參數(shù),優(yōu)化器參數(shù)為β1=0.9,β2=0.999,初始學(xué)習(xí)率為0.001,若每10 個(gè)訓(xùn)練輪次內(nèi)驗(yàn)證損失未下降,設(shè)置學(xué)習(xí)率減半。在此學(xué)習(xí)率下通過梯度下降的方式來降低誤差值實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)有監(jiān)督式的訓(xùn)練。最后,訓(xùn)練結(jié)束保存驗(yàn)證集上最佳權(quán)值的參數(shù)集。

        所有語音信號(hào)均采樣到8 kHz,幀長為31.875 ms,幀移為8 ms,輸入特征為含噪語音的對(duì)數(shù)功率譜。為使訓(xùn)練過程更加穩(wěn)定,將CAA 中的嵌入權(quán)重因子初始化設(shè)置為1,門控權(quán)重因子和門控偏置因子設(shè)置為0。另外,根據(jù)STFT 后的頻譜具有共軛對(duì)稱性,取每幀頻率維度一半來減少運(yùn)算,最終本文網(wǎng)絡(luò)輸入特征維度為128×128×1。

        3.2 評(píng)價(jià)指標(biāo)及對(duì)比方法

        實(shí)驗(yàn)采用客觀與主觀指標(biāo)來評(píng)估網(wǎng)絡(luò)性能??陀^指標(biāo)采用語音感知質(zhì)量測評(píng)(PESQ,Perceptual Evaluation of Speech Quality),分?jǐn)?shù)范圍為[-0.5,4.5],分?jǐn)?shù)越高表示語音聽覺感受越好[25];采用短時(shí)客觀可懂度(STOI,Short Time Objective Intelligibility),分?jǐn)?shù)范圍為[0,1],分?jǐn)?shù)越高語音可懂度越高[26],下文用百分?jǐn)?shù)(%)表示;采用對(duì)數(shù)譜距離(LSD,Log Spectral Distance)來評(píng)估語音的失真程度,得分越低目標(biāo)語音失真程度越低;語音主觀評(píng)價(jià)的3 種指標(biāo)分別為信號(hào)失真測度(CSIG),噪聲失真測度(CBAK)和綜合質(zhì)量測度(COVL),分?jǐn)?shù)范圍均為[1,5],得分越高性能越好[27]。

        為了驗(yàn)證本文模型的性能,首先縱向比較了在不同參數(shù)、不同模塊配置下對(duì)本文模型語音增強(qiáng)效果的分別影響,再用本文方法與多種性能優(yōu)異的語音增強(qiáng)方法橫向比較。橫向?qū)Ρ确椒ǔ嘶€AUNet 外還包括了RCED[10],BiLSTM[7],GRN[8],門控殘差卷積編解碼網(wǎng)絡(luò)[28](本文簡稱為GR-CED),以及噪聲感知注意力門控網(wǎng)絡(luò)(NAAGN,Noise-Aware Attention-Gated Network)[29]。其中,RCED 是典型卷積編解碼結(jié)構(gòu),BiLSTM 中每層雙向LSTM 設(shè)置512個(gè)神經(jīng)元,而NAAGN 與文獻(xiàn)[21]中的主體結(jié)構(gòu)保持一致,其余網(wǎng)絡(luò)的參數(shù)和結(jié)構(gòu)保持原論文設(shè)置。各個(gè)方法的模型在訓(xùn)練時(shí),均保持網(wǎng)絡(luò)的輸入輸出維度,損失函數(shù)等模型參數(shù)與本文方法一致,且網(wǎng)絡(luò)均達(dá)到收斂,在訓(xùn)練集、測試集相同情況下,觀察這幾種模型的語音增強(qiáng)效果。

        3.3 結(jié)果對(duì)比及性能分析

        表3為探究網(wǎng)絡(luò)中不同層模塊在設(shè)置不同的空洞率下對(duì)增強(qiáng)語音PESQ 和STOI(%)的影響,其中PESQ 和STOI(%)為其他參數(shù)保持一致的條件下的匹配噪聲測試集的平均值。表3 可以看出當(dāng)編解碼層的空洞率依次設(shè)置為1,2,5,中間層的空洞率依次設(shè)置為1,2,5,9,2,5,9,17 時(shí),網(wǎng)絡(luò)相比其他情況獲得較高的指標(biāo),這說明此時(shí)空洞率盡可能地減少了空洞卷積中的網(wǎng)格效應(yīng)[30],網(wǎng)絡(luò)最大程度獲取了有用的特征信息。在同樣測試集下,表4縱向比較了基于本文網(wǎng)絡(luò)結(jié)構(gòu)的5 種模型,分別命名為AU-Net、HRR-AU-Net、GRFA-AU-Net、HRRGR-AU-Net、HRR-GRFA-AU-Net,這5 種模型分別代表了基線網(wǎng)絡(luò)結(jié)構(gòu)、編解碼層替換為HRR 模塊的基線網(wǎng)絡(luò)結(jié)構(gòu)、加入中間層GRFA 網(wǎng)絡(luò)的基線網(wǎng)絡(luò)結(jié)構(gòu)、去掉CAA 模塊的本文網(wǎng)絡(luò)結(jié)構(gòu)(即中間層僅為門控殘差網(wǎng)絡(luò)GR)、本文網(wǎng)絡(luò)結(jié)構(gòu),其中所有加入或替換模塊的個(gè)數(shù)及內(nèi)部參數(shù)均遵循本文網(wǎng)絡(luò)提出的設(shè)置。從表4 可以觀察出,本文針對(duì)特征提取提出的HRR 模塊加強(qiáng)了語音多尺度特征的獲取,為網(wǎng)絡(luò)提供了更多有用的信息,而有殘差特征聚合功能的GRFA 網(wǎng)絡(luò)對(duì)中間層中一維信息流的有效處理也使得網(wǎng)絡(luò)有一定的提升,兩者的結(jié)合為本文方法帶來明顯優(yōu)勢。另外,CAA 模塊加入的通道注意力機(jī)制使得本文方法在PESQ 和STOI指標(biāo)上均有改善。

        表3 網(wǎng)絡(luò)層中不同空洞率對(duì)增強(qiáng)語音PESQ和STOI(%)的影響Tab.3 Effect of different dilated ratio in network layer on enhancement speech PESQ and STOI(%)

        表4 不同模塊對(duì)增強(qiáng)語音PESQ和STOI(%)的影響Tab.4 Effect of different model on enhancement speech PESQ and STOI(%)

        表5 和表6 分別是各方法在匹配噪聲和不匹配噪聲下的增強(qiáng)語音不同信噪比的平均PESQ和STOI(%)。由表5 可知,在匹配噪聲下,RCED 增強(qiáng)效果有限,整體PESQ 和STOI 值均偏低,可能是由于對(duì)非平穩(wěn)噪聲特征捕獲能力較弱,加入了循環(huán)網(wǎng)絡(luò)的BiLSTM 的增強(qiáng)效果得到提升,GRN 與AU-Net 的平均語音質(zhì)量和可懂度相近,兩者均實(shí)現(xiàn)了進(jìn)一步改善,這說明其中的殘差學(xué)習(xí)和注意力機(jī)制分別均促進(jìn)了語音信息的提取,網(wǎng)絡(luò)學(xué)習(xí)到了更加豐富的特征。此外,GR-CED 和NAAGN 可能是在門控機(jī)制作用下均取得較為優(yōu)異的性能。相比于基線AU-Net,本文方法在兩指標(biāo)上取得明顯提升,STOI(%)均值約提升了4.47,PESQ 均值約提升了0.261。而相比與上述所有方法,本文在各信噪比下PESQ 均值提升了0.069~0.425,STOI(%)均值提升了6.58~0.77,說明本文網(wǎng)絡(luò)對(duì)噪聲抑制效果較好,增強(qiáng)語音具有更高的質(zhì)量和可懂度。對(duì)比表6 可知,在不匹配噪聲下,各對(duì)比方法的指標(biāo)均有一定下降,本文方法指標(biāo)下降值較少。本文方法在各信噪比下的PESQ 和STOI(%)平均值均高于其他方法,但在信噪比為-5 dB下的PESQ略低于NAAGN,原因可能是在低信噪比下本文語音質(zhì)量改善有限,而NAAGN 方法的頻譜損失相對(duì)更小,但本文方法的PESQ 均值仍為最高,PESQ 均值提升了0.451~0.039,STOI(%)均值提升了7.21~0.51,這說明本文方法泛化能力強(qiáng),具有更好魯棒性。

        表5 匹配噪聲下各方法的平均PESQ和STOI(%)Tab.5 Average PESQ and STOI(%)of each method under matched noise

        表6 不匹配噪聲下各方法的平均PESQ和STOI(%)Tab.6 Average PESQ and STOI(%)of each method under unmatched noise

        表7為各方法的3種主觀評(píng)價(jià)指標(biāo)(CSIG,CBAK和COVL)得分,在主觀評(píng)測過程中,隨機(jī)在匹配噪聲測試集中抽取50 條含噪語音,選取20 位聽力正常的試聽者,令試聽者依次對(duì)各方法下的增強(qiáng)語音進(jìn)行評(píng)分,每個(gè)方法計(jì)算50條樣本對(duì)應(yīng)指標(biāo)下的平均值。由表7 可知,本文方法的3 種主觀指標(biāo)得分均為最高,其中CSIG 的提升幅度相對(duì)最大,這說明本文方法在訓(xùn)練過程中導(dǎo)致語音的失真程度最小,能有效抑制干擾噪聲,更多的恢復(fù)語音成分,與客觀評(píng)價(jià)指標(biāo)分析的結(jié)果一致。

        表7 各方法的CSIG、CBAK、COVL得分Tab.7 CSIG,CBAK,COVL scores of each method

        圖6 所示是在匹配噪聲測試集下各信噪比的LSD 均值,可以看出本文的LSD 在各信噪比下均取得最低值,在0 dB 時(shí),本文方法與其他方法LSD 值比較相近,在10 dB 時(shí),LSD 值明顯降低,這說明高信噪比條件下,本文方法目標(biāo)語音短時(shí)功率譜差異最小、恢復(fù)最好。另外相比于基線AU-Net,本文方法在各個(gè)信噪比下的LSD都有大幅度下降。

        圖6 各方法不同信噪比下的平均LSDFig.6 The average LSD of different methods in different SNR

        為更加直觀比較各方法的語音增強(qiáng)效果,如下圖7 所示,以一條信噪比為0 dB 且含babble 噪聲的女聲為例,對(duì)比了各方法的增強(qiáng)語音語譜圖,其中還包含了純凈語音和含噪語音的語譜圖。從圖7(c)可以看出RCED 方法對(duì)babble 噪聲處理能力較差,難以復(fù)原基本語譜圖形狀,BiLSTM、GRN和AU-Net 方法能夠恢復(fù)一定的語音成分,但語音的諧波成分保留較少,存在一定的背景噪聲。GRCED 進(jìn)一步降低了背景噪聲,提升了增強(qiáng)效果。與上述方法相比,NAAGN 取得了較好的增強(qiáng)效果,但本文方法相比于NAAGN 在語音恢復(fù)和噪聲抑制上有更好的表現(xiàn),明顯恢復(fù)出更多語音成分,并且清濁音部分都得到了有效恢復(fù),綜合增強(qiáng)效果最為顯著。

        圖7 語譜圖Fig.7 Spectrogram

        圖8比較了上述各方法的參數(shù)量,可以明顯觀察出,本文所提方法以相對(duì)少量參數(shù)就能達(dá)到其他先進(jìn)方法的性能,并且客觀與主觀指標(biāo)上的優(yōu)異表現(xiàn)使得本文模型具有明顯優(yōu)勢。因此,本文方法在計(jì)算資源有限的條件下能取得更好的語音增強(qiáng)效果,實(shí)現(xiàn)模型復(fù)雜度與性能間的良好平衡,具有一定的實(shí)用性。

        圖8 不同方法參數(shù)對(duì)比Fig.8 Comparison of parameters of different methods

        4 結(jié)論

        針對(duì)現(xiàn)有基于CNN 的語音增強(qiáng)模型對(duì)特征提取尺度單一及網(wǎng)絡(luò)層間信息流動(dòng)不充分、深層網(wǎng)絡(luò)中特征細(xì)節(jié)被忽略等問題,本文在AU-Net基礎(chǔ)上搭建了一種新型卷積編解碼網(wǎng)絡(luò)來提煉語音的多尺度上下文信息并同時(shí)充分利用且有效聚合了被忽略的殘差特征,增強(qiáng)層間信息流動(dòng)。針對(duì)不同維度的語音特征,設(shè)計(jì)出層次細(xì)化殘差模塊,通道自適應(yīng)注意力機(jī)制,門控殘差特征聚合網(wǎng)絡(luò)來對(duì)其有效處理。在Librispeech 語料庫以及21 種噪聲下進(jìn)行評(píng)估實(shí)驗(yàn),本文方法取得了相比于其他先進(jìn)語音增強(qiáng)模型更高的主客觀指標(biāo),并具有相對(duì)強(qiáng)的泛化能力和魯棒性,同時(shí)以更小的參數(shù)而具有明顯優(yōu)勢。后續(xù)研究會(huì)繼續(xù)調(diào)整網(wǎng)絡(luò)內(nèi)部模塊結(jié)構(gòu),減小計(jì)算復(fù)雜度,并進(jìn)一步優(yōu)化網(wǎng)絡(luò)目標(biāo)損失函數(shù),提升模型在語音評(píng)價(jià)指標(biāo)上的表現(xiàn)。

        猜你喜歡
        空洞殘差語音
        基于雙向GRU與殘差擬合的車輛跟馳建模
        基于殘差學(xué)習(xí)的自適應(yīng)無人機(jī)目標(biāo)跟蹤算法
        魔力語音
        基于MATLAB的語音信號(hào)處理
        電子制作(2019年14期)2019-08-20 05:43:38
        基于遞歸殘差網(wǎng)絡(luò)的圖像超分辨率重建
        基于MQ3與MP3的價(jià)廉物美的酒駕語音提醒器
        電子制作(2019年9期)2019-05-30 09:42:10
        對(duì)方正在輸入……
        小說界(2018年5期)2018-11-26 12:43:42
        空洞的眼神
        用事實(shí)說話勝過空洞的說教——以教育類報(bào)道為例
        新聞傳播(2015年20期)2015-07-18 11:06:46
        平穩(wěn)自相關(guān)過程的殘差累積和控制圖
        河南科技(2015年8期)2015-03-11 16:23:52
        亚洲av无码国产精品色软件| 亚洲成在人线av| 在线视频一区二区日韩国产| 国产亚洲美女精品久久| 日本一区免费喷水| 日本免费一区二区在线| 亚洲女同av在线观看| av在线免费高清观看| 午夜久久久久久禁播电影| 无码熟妇人妻av在线影片最多| 欧美猛少妇色xxxxx猛交| 久久精品免费一区二区三区| 久久久无码中文字幕久...| 少妇白浆高潮无码免费区| 131美女爱做视频| 一区欧美在线动漫| 国产在线视频一区二区三| 少妇又骚又多水的视频| 国产亚洲超级97免费视频| 天天摸天天做天天爽水多| 久久99精品久久水蜜桃| 久久精品人人做人人综合| 成人免费视频在线观看| 久久国产综合精品欧美| 国产精品欧美成人片| 日韩精品一级在线视频| 精品婷婷国产综合久久| 粉嫩国产av一区二区三区| 久久午夜福利无码1000合集| 国产乱码一区二区三区爽爽爽| 小宝极品内射国产在线| 粗了大了 整进去好爽视频| 精品一区二区三区四区少妇| 国产一区二区亚洲av| 91人妻人人做人人爽九色| 国产婷婷成人久久av免费| 永久免费毛片在线播放| 麻豆一区二区三区蜜桃免费| 欧美国产精品久久久乱码| 欧美人与动zozo| av资源吧首页在线观看|