亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于RefineNet 的端到端語音增強(qiáng)方法

        2022-03-10 11:04:34錢宇欣
        自動(dòng)化學(xué)報(bào) 2022年2期
        關(guān)鍵詞:時(shí)域損失語音

        藍(lán) 天 彭 川 李 森 錢宇欣 陳 聰 劉 嶠

        基于端到端的語音增強(qiáng)方法不依賴于頻域表示,可以有效地利用時(shí)域信號(hào)的相位信息,避免了信號(hào)在時(shí)域和時(shí)頻域之間來回切換,簡(jiǎn)化處理流程.Qian 等[9]考慮到WaveNet[10]對(duì)語音波形的強(qiáng)大建模能力,提出將語音先驗(yàn)分布引入到WaveNet框架進(jìn)行語音增強(qiáng);Rethage 等[11]也在WaveNet的基礎(chǔ)上開展語音增強(qiáng)研究,通過非因果的(Noncausal)擴(kuò)張卷積來預(yù)測(cè)目標(biāo),在主觀評(píng)價(jià)指標(biāo)上取得了比維納濾波更好的效果.Pascual 等[12]將生成對(duì)抗網(wǎng)絡(luò)[13-14](Generative adversarial nets,GAN)引入語音增強(qiáng)領(lǐng)域并提出SEGAN (Speech enhancement generative adversarial network),并用其對(duì)時(shí)域波形信號(hào)直接處理,取得了一定的增強(qiáng)效果,但是在客觀評(píng)價(jià)指標(biāo)語音質(zhì)量感知評(píng)價(jià)(Perceptual evaluation of speech quality,PESQ)上略低于維納濾波.Fu 等[15-16]提出全卷積神經(jīng)網(wǎng)絡(luò)并將其作用于整句語音波形信號(hào),提升了語音增強(qiáng)的性能.這些基于端到端的方法都是直接將一維時(shí)域波形映射到目標(biāo)語音,然而時(shí)域波形信號(hào)本身并不能表現(xiàn)出明顯的特征結(jié)構(gòu)信息,直接對(duì)時(shí)域信號(hào)建模比較困難,而且低信噪比環(huán)境下信號(hào)更復(fù)雜,建模難度會(huì)進(jìn)一步提高.有學(xué)者考慮將神經(jīng)網(wǎng)絡(luò)作為前端短時(shí)傅立葉變換(Short-time Fourier transform,STFT)替代方案[17-19],我們?cè)谄浠A(chǔ)上修改擴(kuò)展,提出了一個(gè)時(shí)頻分析網(wǎng)絡(luò)來模擬STFT變換過程的基函數(shù),將一維時(shí)域信息映射到一個(gè)類似于時(shí)頻表示的高維空間中以獲取更多的信息;相比于常見的神經(jīng)網(wǎng)絡(luò)方法中使用時(shí)頻域幅度譜或功率譜值的方式,時(shí)頻分析網(wǎng)絡(luò)能更充分地利用輸入信號(hào)中的相位信息.

        語音和噪聲信號(hào)在時(shí)域相鄰幀以及頻域相鄰頻帶間具有很強(qiáng)的相關(guān)性,這種時(shí)頻域的局部相關(guān)性與圖像中的相鄰像素間的相關(guān)性非常相似.由于在語音增強(qiáng)領(lǐng)域使用卷積神經(jīng)網(wǎng)絡(luò)可以獲得與深度神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent neural network,RNN)相當(dāng)或更好的增強(qiáng)效果[8,20-22],為進(jìn)一步提高語音增強(qiáng)的性能,本文考慮使用卷積神經(jīng)網(wǎng)絡(luò)中的一種重要網(wǎng)絡(luò) — RefineNet[23]來進(jìn)行端到端的語音增強(qiáng).它是一個(gè)通用的多路徑優(yōu)化網(wǎng)絡(luò),通過顯式利用下采樣過程中的所有可用信息,并使用較長范圍的殘差連接來實(shí)現(xiàn)高分辨率預(yù)測(cè).通過這種方式,可以利用前期卷積的細(xì)粒度特性捕獲更深層的高級(jí)特征;RefineNet 的各個(gè)組件使用了帶有Identity mappings[24]的殘差連接,這樣梯度就可以通過不同跨度的殘差連接直接傳播,從而實(shí)現(xiàn)高效的端到端訓(xùn)練.

        在語音增強(qiáng)領(lǐng)域的神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中,通常將均方誤差(Mean square error,MSE)作為損失函數(shù),而在客觀評(píng)價(jià)中往往使用PESQ 或STOI 等評(píng)價(jià)指標(biāo),這種損失函數(shù)與評(píng)價(jià)指標(biāo)之間的差異性并不能保證訓(xùn)練后的模型在應(yīng)用中能夠提供最優(yōu)的性能;Fu 等[16]和Zhao 等[25]將STOI 評(píng)價(jià)指標(biāo)融入到了損失函數(shù)中,一定程度上提高了語音增強(qiáng)性能.受此啟發(fā),我們提出將STOI和SDR 同時(shí)融入到損失函數(shù)中,并且采用多目標(biāo)聯(lián)合優(yōu)化策略,利用神經(jīng)網(wǎng)絡(luò)根據(jù)不同目標(biāo)之間的共性和差異性建模.

        本文提出了基于RefineNet 的端到端語音增強(qiáng)模型(RefineNet-based speech enhancement,RNSE),首先利用時(shí)頻分析網(wǎng)絡(luò)模仿STFT,學(xué)習(xí)時(shí)域波形在模擬的二維時(shí)頻空間表示;然后利用RefineNet 整合不同大小特征圖的能力,對(duì)不同粒度的模擬時(shí)頻空間特征進(jìn)行綜合分析;最后通過時(shí)頻分析網(wǎng)絡(luò)逆處理得到增強(qiáng)語音的估計(jì).在訓(xùn)練階段,我們將STOI 與SDR 評(píng)價(jià)指標(biāo)融入到損失函數(shù)中進(jìn)行聯(lián)合優(yōu)化,從而得到更好的增強(qiáng)效果.

        1 基于RefineNet 的端到端語音增強(qiáng)模型

        RNSE 模型的網(wǎng)絡(luò)結(jié)構(gòu)由時(shí)頻分析網(wǎng)絡(luò)TFANet (Time-frequence analysis network)和RefineNet 兩部分構(gòu)成,其結(jié)構(gòu)如圖1 所示.TFANet是一個(gè)用于模擬短時(shí)傅里葉變換及其逆變換過程的時(shí)頻分析神經(jīng)網(wǎng)絡(luò),在RNSE 前端,TFANet 將一維時(shí)域語音信號(hào)映射為二維特征表示;在RNSE 后端,TFANet 將神經(jīng)網(wǎng)絡(luò)輸出的增強(qiáng)后特征圖重構(gòu)成一維時(shí)域語音信號(hào).RefineNet 是RNSE 的主體部分,用于對(duì)特征圖進(jìn)行精煉分析,并與TFANet結(jié)合,實(shí)現(xiàn)從時(shí)域的含噪語音信號(hào)到時(shí)域的純凈語音信號(hào)的直接映射.

        圖1 RNSE 模型結(jié)構(gòu)圖Fig.1 The diagram for RNSE architecture

        1.1 時(shí)頻分析神經(jīng)網(wǎng)絡(luò)

        Venkataramani 等在語音分離任務(wù)中提出了實(shí)值轉(zhuǎn)換方法[19],通過卷積和平滑操作對(duì)原始時(shí)域波形進(jìn)行預(yù)處理,然后輸入到后續(xù)神經(jīng)網(wǎng)絡(luò)中進(jìn)行增強(qiáng).為了充分保留卷積結(jié)果中的原始信息,我們?nèi)コ似交僮?提出了時(shí)頻分析網(wǎng)絡(luò)TFANet.該網(wǎng)絡(luò)包含編碼分析階段和解碼生成階段,在編碼分析階段將時(shí)域信號(hào)處理為二維特征圖表示并輸入到RefineNet 中,在解碼生成階段將RefineNet 輸出的增強(qiáng)語音的特征圖重構(gòu)成一維語音信號(hào).假設(shè)含噪語音信號(hào)為s[n],那么STFT 計(jì)算可表示為:

        鄉(xiāng)土正義代表村莊社會(huì)關(guān)系網(wǎng)絡(luò)和生存結(jié)構(gòu)中各種特定利益的集合,人情法則、臉面機(jī)制、鄉(xiāng)土權(quán)威構(gòu)成了配置、平衡這些特定利益的社會(huì)控制機(jī)制。這里的特定利益并非與司法正義中所主張的法律權(quán)利相互抵牾,只是在村莊社會(huì)語境中,這些利益具有鄉(xiāng)土特點(diǎn),利益的獲取、主張都不是按照現(xiàn)代規(guī)則來運(yùn)作;相反,有時(shí)吃虧也并非現(xiàn)代法律意義上的遭受侵害。此外,即便涉及村莊利益沖突,由于社會(huì)交往密度較高,利益早已模糊化,只要不觸犯底線,利益相關(guān)者都能夠以容忍的方式來確保鄉(xiāng)村秩序。

        式(1)中,xt[f]是語音在第t幀第f頻點(diǎn)的STFT 結(jié)果,最終組成一個(gè)T幀F(xiàn)個(gè)頻點(diǎn)的矩陣,N是每幀的采樣點(diǎn)個(gè)數(shù),H是相鄰幀間的位移,w是窗函數(shù)系數(shù),bf[i]是對(duì)應(yīng)的STFT 變換系數(shù).令k=w·b,可以將式(1)變換成卷積形式:

        TFANet 通過一個(gè)卷積層來模擬實(shí)現(xiàn)上式的計(jì)算過程,其中包含F(xiàn)個(gè)大小為N且系數(shù)為kf的卷積核,我們將卷積步長設(shè)為H,輸出設(shè)為x.通過試驗(yàn)參數(shù),本文將H設(shè)置為64,T、F、N均為512,這層卷積的輸出為512×512 的2 維矩陣.在非端到端的方法中,通常將時(shí)域語音信號(hào)通過STFT 處理為幅度譜表示,經(jīng)由模型增強(qiáng)后,再結(jié)合原始含噪語音的相位譜合成增強(qiáng)后的時(shí)域語音波形.如圖1 所示,類比這種語音增強(qiáng)過程,我們通過對(duì)x取絕對(duì)值|x|來模擬STFT 的幅度譜,然后將|x|作為特征圖輸入到RefineNet 中學(xué)習(xí)含噪語音到純凈語音的復(fù)雜映射關(guān)系.這里RNSE 模型保留了x的正負(fù)號(hào)表示p是對(duì)原始信號(hào)相位的模擬,用于增強(qiáng)語音的重構(gòu).

        由于RefineNet 的輸出特征圖的長和寬是其輸入的1/4,在解碼生成階段,我們使用步長為4 的解卷積層將特征圖恢復(fù)為原大小,同時(shí)微調(diào)特征圖.接著將特征圖與編碼分析階段保留的p相乘,輸入到解卷積層,模擬語音重構(gòu)過程的短時(shí)傅里葉逆變換,最終得到對(duì)時(shí)域純凈語音的估計(jì).

        1.2 RefineNet 神經(jīng)網(wǎng)絡(luò)

        RefineNet 是在ResNet[26]框架上的改進(jìn),為了在增加神經(jīng)網(wǎng)絡(luò)深度的同時(shí)不影響模型訓(xùn)練,Res-Net 采用了殘差連接,將一層或多層疊加的隱含層輸出F(x)與輸入x相加,作為最終輸出:

        本文通過實(shí)驗(yàn)最終確定的ResNet 結(jié)構(gòu)如圖2所示.ResNet 的輸入依次經(jīng)過卷積核大小為7×7步長為2 的卷積層,步長為2 的池化層,進(jìn)入4 個(gè)疊加的網(wǎng)絡(luò)塊(ResBlock).每個(gè)ResBlock 包含7個(gè)結(jié)構(gòu)相似的卷積層,以ResBlock 1 為例,它是一個(gè)輸出通道為256 的堆疊卷積層,每個(gè)卷積層步長均為1;在ResBlock 1 中包含2 個(gè)三層堆疊卷積層,每個(gè)三層堆疊的卷積層與ResBlock 的輸出通道相同,且除了第二層卷積核大小為3×3 且步長與ResBlock 相同外,其他層卷積核大小均為1×1 且步長為1;在ResBlock 中通過殘差連接的方式將輸入輸出連接起來,提升網(wǎng)絡(luò)的表征能力.其余3 個(gè)ResBlock 的結(jié)構(gòu)與ResBlock 1 的結(jié)構(gòu)相似,不再贅述.

        圖2 ResNet 模型結(jié)構(gòu)圖(Conv 后用,分隔的分別是卷積層的輸出通道數(shù)、步長,若未指明步長,默認(rèn)為1)Fig.2 The diagram for ResNet architecture

        4 個(gè)ResBlock 輸出的特征圖逐塊縮小,感受野變大,特征更加抽象,從而能捕獲更高層次的全局和上下文信息,并且計(jì)算量隨之減少,但是精細(xì)特征也會(huì)逐漸丟失.RefineBlock 是一種神經(jīng)網(wǎng)絡(luò)塊,可以把不同大小的特征圖融合,從而利用高層的抽象特征和底層的精細(xì)特征,其結(jié)構(gòu)如圖3 所示,包含殘差卷積單元RCU (Residual convolution unit)、自適應(yīng)卷積(Adaptive convolution)模塊、多分辨率融合(Multi-resolution fusion)模塊、鏈?zhǔn)綒埐畛鼗?Chained residual pooling)模塊、RefineBlock輸出卷積(RefineBlock output convolution)模塊等.自適應(yīng)卷積模塊用于在融合前微調(diào)特征圖,由2 個(gè)RCU 構(gòu)成,每個(gè)RCU 包含2 層帶ReLU 激活的卷積,每個(gè)特征圖輸入與第2 層卷積輸出相加構(gòu)成殘差連接.RefineBlock 4 只有1 個(gè)特征圖輸入,而其他RefineBlock 有2 個(gè)輸入.

        圖3 RefineBlock 結(jié)構(gòu)圖Fig.3 The diagram for RefineBlock architecture

        多分辨率融合模塊用于將不同分辨率的特征圖合成一張圖.首先,特征圖通過一層卷積做融合前的微調(diào),然后以分辨率最高的特征圖為基準(zhǔn),對(duì)所有分辨率較低的新特征圖通過雙線性插值上采樣,最后直接相加,得到一張高分辨率的特征圖.鏈?zhǔn)綒埐畛鼗K使用更大的感受野從輸入特征圖中提取抽象特征.特征圖首先經(jīng)過ReLU 激活函數(shù),池化壓縮圖大小,提取主要特征,再通過卷積層微調(diào),得到的新特征圖在進(jìn)行下一次的池化和卷積的同時(shí),通過殘差連接與原特征圖融合,形成鏈?zhǔn)降臍埐畛鼗Y(jié)構(gòu).RefineBlock 輸出卷積模塊由1 個(gè)RCU 組成.

        RefineNet 的總體結(jié)構(gòu)如圖1 所示,ResBlock 4 的特征圖輸入到RefineBlock 4 中,經(jīng)過微調(diào)輸入RefineBlock 3,與ResBlock 3 的特征圖融合,再依次通過RefineBlock 2、1 與ResBlock 2、1 的特征圖融合,最后經(jīng)過輸出卷積模塊做最后的微調(diào).輸出卷積模塊包含2 個(gè)RCU,以及1 個(gè)卷積核大小為1×1 的卷積層.

        2 評(píng)價(jià)指標(biāo)與損失函數(shù)融合

        基于深度學(xué)習(xí)的語音增強(qiáng)模型常用均方誤差MSE 作為優(yōu)化目標(biāo),在時(shí)域可表示為:

        其中α、β、λ是各優(yōu)化目標(biāo)的權(quán)重系數(shù),Cstoi、Csdr表示計(jì)算STOI、SDR 的函數(shù),下面是對(duì)兩優(yōu)化目標(biāo)的詳細(xì)介紹.

        1) SDR 優(yōu)化目標(biāo)

        SDR 是增強(qiáng)語音信號(hào)中純凈語音分量與其他分量的能量比值.計(jì)算公式如下:

        2) STOI 優(yōu)化目標(biāo)

        STOI 用于評(píng)估語音的可理解性,輸入是純凈語音y和增強(qiáng)語音.首先去除對(duì)語音可懂度無貢獻(xiàn)的無聲區(qū)域,然后對(duì)信號(hào)做STFT,對(duì)兩個(gè)信號(hào)進(jìn)行時(shí)頻分解,通過將兩個(gè)信號(hào)分割為50 %重疊的帶漢寧窗的幀,得到與聽覺系統(tǒng)中語音表征性質(zhì)相似的特征.接著進(jìn)行1/3 倍頻帶分析,劃分共15個(gè)1/3 倍頻帶,其中頻帶中心頻率范圍為150 Hz至4.3 kHz.純凈語音的短時(shí)時(shí)間包絡(luò)zj,m可表示如下:

        其中Y∈R15×M是由劃分得到的15 個(gè)1/3 倍頻帶,M代表該段語音的總幀數(shù),j∈{1,2,···,15}是15個(gè)1/3 倍頻帶的索引,m為幀的索引,L=30,其代表分析語音段長度為384 ms.

        3 實(shí)驗(yàn)和結(jié)果分析

        3.1 實(shí)驗(yàn)數(shù)據(jù)及設(shè)置

        實(shí)驗(yàn)中使用的語音數(shù)據(jù)來自于TIMIT 數(shù)據(jù)集,噪聲數(shù)據(jù)集采用ESC-50 作為訓(xùn)練集,為了驗(yàn)證本文提出模型的泛化性能,我們也將Noisex92 噪聲數(shù)據(jù)集用于測(cè)試.TIMIT 數(shù)據(jù)集總共包含6 300 條語音,由630 人每人錄制10 個(gè)句子得到,男女比率為7:3.其中,每人錄制的句子中有7 個(gè)是重復(fù)的,為了去除重復(fù)句子對(duì)模型訓(xùn)練與測(cè)試的影響,本實(shí)驗(yàn)只取句子均不相同的1 890 條語音.將其中約80 %的語音作為訓(xùn)練集,另外20 %作為測(cè)試語音,且男女比例與TIMIT 總體分布相同.ESC-50 數(shù)據(jù)集包含2 000 條帶標(biāo)簽的環(huán)境錄音集合,共分為5 個(gè)主要類別:動(dòng)物、自然音景與水聲、非語音人聲、室內(nèi)聲音、城區(qū)聲音.Noisex92 是常用于語音增強(qiáng)測(cè)試的數(shù)據(jù)集,本文使用Babble、Factory1、White、HFChannel 四種常見噪聲進(jìn)行不同噪聲環(huán)境的測(cè)試,用所有15 種Noisex92 噪聲做不可見噪聲測(cè)試,用所有ESC-50 噪聲做可見噪聲測(cè)試.

        3.2 對(duì)比方法及評(píng)價(jià)指標(biāo)

        本文選擇4 個(gè)經(jīng)典算法對(duì)比:a) Log-MMSE,是一種常用的基于統(tǒng)計(jì)模型的語音增強(qiáng)方法[28];b)CNN-SE[29],采用CNN 對(duì)語音進(jìn)行增強(qiáng),并且通過添加跳連接的方式融合神經(jīng)網(wǎng)絡(luò)低層和高層的信息;c) WaveUnet[30],基于Unet 模型結(jié)構(gòu)所提出的一種應(yīng)用于時(shí)域語音波形信號(hào)的神經(jīng)網(wǎng)絡(luò)模型[31];d) AET[19],通過神經(jīng)網(wǎng)絡(luò)模仿STFT 前端變換過程,直接在時(shí)域語音波形上建模,其中b)、c)、d)均為基于端到端的語音增強(qiáng)方法.

        本文采用的評(píng)估指標(biāo)為STOI、PESQ 及SDR,其中STOI 是短時(shí)客觀可懂度,用于衡量語音可懂度,得分范圍為0~ 1,分值越高表明可懂度越高;PESQ 用于語音質(zhì)量感知評(píng)估,它是ITU-T (國際電信聯(lián)盟電信標(biāo)準(zhǔn)化部)推薦的語音質(zhì)量評(píng)估指標(biāo),其得分范圍為-0.5~ 4.5,值越大表明質(zhì)量越好.SDR 測(cè)試增強(qiáng)語音中純凈語音的分量與其他分量的參量比值,范圍理論上為整個(gè)實(shí)數(shù)域,值越大表明增強(qiáng)效果越好.

        3.3 實(shí)驗(yàn)結(jié)果與分析

        本文評(píng)估了RNSE 與其他非端到端方法的性能差異.圖4 展示了在幾種常見噪聲條件下各模型的指標(biāo)對(duì)比,我們可以看出在不同噪聲環(huán)境和不同信噪比條件下,RNSE 方法相比于時(shí)頻域方法有顯著的性能提升,在每種評(píng)估指標(biāo)下幾乎均取得了最佳結(jié)果.我們還注意到,即使在 -10 dB 的極限信噪比下,RNSE 方法仍然可以取得比部分基線方法在-5 dB 下相當(dāng)或更好的性能,這意味著RNSE 更適合于在低信噪條件下的復(fù)雜環(huán)境中挖掘語音信號(hào)的信息.我們通過在可見和不可見噪聲下做測(cè)試,進(jìn)一步驗(yàn)證RNSE 模型的泛化性,表1和表2 分別給出了已知噪聲和未知噪聲下的客觀評(píng)價(jià)指標(biāo);由表1和表2 可以看出,RNSE 在已知噪聲環(huán)境和未知噪聲環(huán)境下均取得了最佳的結(jié)果,而且遠(yuǎn)優(yōu)于其他端到端對(duì)比方法;同時(shí),我們注意到相比于其他基線方法,WaveUnet 方法在STOI 上,取得了相對(duì)更高的客觀評(píng)估指標(biāo).為了更加直觀的比較各種算法的增強(qiáng)效果,我們對(duì)各個(gè)網(wǎng)絡(luò)增強(qiáng)后的語音的語譜圖進(jìn)行了比較分析,圖5 為在0 dB 的Babble 噪聲下使用不同算法得到的增強(qiáng)語音的語譜圖,橫軸表示時(shí)間T,縱軸表示語音信號(hào)頻率F.從語譜圖中可以看出,各種算法都在一定程度上對(duì)含噪語音進(jìn)行了有效的處理,CNN-SE 與WaveUnet 方法在增強(qiáng)含噪語音的過程中,存在相對(duì)較多的噪聲殘留;AET 方法在增強(qiáng)過程中,對(duì)噪聲的抑制能力更強(qiáng),但在去除大量噪聲的過程中也去除了一些語音成分信息.由于時(shí)域波形信號(hào)的復(fù)雜性,通過神經(jīng)網(wǎng)絡(luò)直接挖掘時(shí)域特征時(shí),無法較為準(zhǔn)確地辨識(shí)語音和噪聲,導(dǎo)致在增強(qiáng)過程中,會(huì)引入一些噪聲或增強(qiáng)過度.RNSE 方法利用TFANet 將時(shí)域信號(hào)映射到二維表達(dá)空間,保留其正負(fù)號(hào)特征并用于后期波形重構(gòu).通過這種方式引導(dǎo)神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過程中對(duì)原始信息的利用,可以緩解模型在增強(qiáng)過程中的增強(qiáng)不足或增強(qiáng)過度的問題.

        圖4 不同噪聲不同信噪比下實(shí)驗(yàn)結(jié)果圖(從第一行到第三行評(píng)價(jià)指標(biāo)分別為PESQ、STOI 與SDR,圖(a)~ (c)、圖(d)~ (f)、圖(g)~ (i)、圖(j)~ (l)分別為Babble,Factory1,White,HFChannel 噪聲下的結(jié)果;每簇信噪比中的柱狀圖從左至右依次對(duì)應(yīng)Log-MMSE,CNN-SE,WaveUNet,AET 以及RNSE)Fig.4 Experimental results under different noise and SNR

        表1 可見噪聲的測(cè)試結(jié)果Table 1 The performance of baseline systems compared to the proposed RNSE approach in seen noise condition

        表2 不可見噪聲的測(cè)試結(jié)果Table 2 The performance of baseline systems compared to the proposed RNSE approach in unseen noise condition

        圖5 0 dB 的Babble 噪聲下的語音增強(qiáng)語譜圖示例Fig.5 An example of spectrogram of enhanced speech under Babble noise at 0 dB SNR

        通過在各種噪聲和信噪比環(huán)境下的測(cè)試表明RNSE 模型在復(fù)雜環(huán)境下具有較強(qiáng)的魯棒性.在RNSE 模型訓(xùn)練階段,我們把評(píng)估指標(biāo)融入到損失函數(shù)中,為了比較融入的評(píng)價(jià)指標(biāo)對(duì)語音增強(qiáng)性能的影響,我們比較了在不同組合的損失函數(shù)下RNSE 模型的增強(qiáng)性能,圖6 展示了不同信噪比下的增強(qiáng)效果對(duì)比.從圖中可以看出,在使用單一目標(biāo)作為損失函數(shù)時(shí),基于SDR 的損失函數(shù)在PESQ和SDR 評(píng)價(jià)指標(biāo)上均取得了相對(duì)更好的性能,基于STOI 的損失函數(shù)在STOI 指標(biāo)上也取得了更好的性能;但是不同的損失函數(shù)存在與其他評(píng)估指標(biāo)不兼容的情況,比如基于STOI 的損失函數(shù)在PESQ 與SDR 指標(biāo)上的性能較低,這是由于STOI 的計(jì)算是基于增強(qiáng)語音的時(shí)間包絡(luò),其作為訓(xùn)練的損失函數(shù)時(shí)會(huì)引導(dǎo)神經(jīng)網(wǎng)絡(luò)模型過多關(guān)注增強(qiáng)語音與純凈語音之間的時(shí)間包絡(luò)關(guān)系,導(dǎo)致在PESQ和SDR 方面的性能不佳.同時(shí)我們注意到兩兩組合的損失函數(shù)相比于單一目標(biāo)損失函數(shù)可以取得相對(duì)更好的性能,基于STOI 與SDR 融合的損失函數(shù)取得了比其他組合或單一目標(biāo)損失函數(shù)更好的評(píng)估結(jié)果.進(jìn)一步地,沿著這個(gè)思路,我們將STOI和SDR 與RMSE 按照一定的權(quán)重組合起來聯(lián)合訓(xùn)練優(yōu)化調(diào)參.

        圖6 基于不同損失函數(shù)的測(cè)試結(jié)果Fig.6 Results based on different objective functions

        在調(diào)參的過程中,先單獨(dú)使用STOI、SDR 以及RMSE 作為損失函數(shù)進(jìn)行訓(xùn)練,觀察他們分別訓(xùn)練的損失函數(shù)值,當(dāng)其收斂到某一個(gè)數(shù)量級(jí)時(shí),再通過調(diào)節(jié)超參數(shù)α、β以及λ對(duì)相應(yīng)的損失函數(shù)值進(jìn)行收縮,將他們的范圍都限制到 -1~ +1 的范圍內(nèi),然后在此基礎(chǔ)上微調(diào),從而得到模型各超參數(shù)的最佳匹配.圖中STOI+SDR+MSE 組合對(duì)應(yīng)于式(5)中的超參數(shù)α=10、β=1、λ=5×103.由此,我們從實(shí)驗(yàn)直觀地證明了損失函數(shù)與評(píng)價(jià)指標(biāo)的不匹配會(huì)導(dǎo)致語音增強(qiáng)性能無法達(dá)到最佳,我們通過將評(píng)估指標(biāo)與損失函數(shù)按照一定的權(quán)重比例組合并輸入到神經(jīng)網(wǎng)絡(luò)中聯(lián)合訓(xùn)練,顯著提高了語音增強(qiáng)的性能,表明損失函數(shù)與評(píng)估指標(biāo)的結(jié)合可以有效地提高語音增強(qiáng)的性能,而且本文提出的將評(píng)估指標(biāo)融合到損失函數(shù)中聯(lián)合訓(xùn)練的思想并不是只適用于語音增強(qiáng)領(lǐng)域,還可以普適性地應(yīng)用到其他各領(lǐng)域.

        4 結(jié)論

        本文提出了一個(gè)端到端的語音增強(qiáng)算法.首先構(gòu)建一個(gè)時(shí)頻分析網(wǎng)絡(luò)對(duì)語音信號(hào)編碼分析,然后利用RefineNet 網(wǎng)絡(luò)學(xué)習(xí)含噪語音到純凈語音的特征映射,最后解碼生成增強(qiáng)的語音信號(hào).在此基礎(chǔ)上,我們提出將評(píng)價(jià)指標(biāo)與訓(xùn)練損失函數(shù)相融合的改進(jìn)方法以及將STOI 與SDR 同時(shí)作為優(yōu)化目標(biāo)的多目標(biāo)學(xué)習(xí)策略.在不同噪聲環(huán)境和不同信噪比下的測(cè)試中,本文提出的方法在STOI、PESQ 以及SDR 方面的指標(biāo)顯著優(yōu)于具有代表性的傳統(tǒng)方法和端到端的深度學(xué)習(xí)方法,證明它能更好地提高語音的清晰度和可懂度;通過對(duì)不同損失函數(shù)的對(duì)比實(shí)驗(yàn),本文驗(yàn)證了將評(píng)價(jià)指標(biāo)與損失函數(shù)融合的策略在深度學(xué)習(xí)模型上的有效性.

        猜你喜歡
        時(shí)域損失語音
        少問一句,損失千金
        胖胖損失了多少元
        魔力語音
        基于MATLAB的語音信號(hào)處理
        電子制作(2019年14期)2019-08-20 05:43:38
        基于MQ3與MP3的價(jià)廉物美的酒駕語音提醒器
        電子制作(2019年9期)2019-05-30 09:42:10
        玉米抽穗前倒伏怎么辦?怎么減少損失?
        基于時(shí)域信號(hào)的三電平逆變器復(fù)合故障診斷
        對(duì)方正在輸入……
        小說界(2018年5期)2018-11-26 12:43:42
        基于極大似然準(zhǔn)則與滾動(dòng)時(shí)域估計(jì)的自適應(yīng)UKF算法
        基于時(shí)域逆濾波的寬帶脈沖聲生成技術(shù)
        精品久久久久久久久久中文字幕| 亚洲精品98中文字幕| 熟女一区二区三区在线观看| 玩中年熟妇让你爽视频| 久久国产36精品色熟妇| 美女黄频视频免费国产大全| av一区二区三区综合网站| 日韩网红少妇无码视频香港| 久久人人妻人人做人人爽| 白色橄榄树在线免费观看| 久久99免费精品国产| 久久婷婷色香五月综合缴缴情| 中文字幕亚洲欧美日韩2019| 福利视频一二区| 91精品国产综合久久国产| 成人丝袜激情一区二区| 搡老熟女老女人一区二区| 九一成人AV无码一区二区三区| 亚洲天堂一区二区三区| (无码视频)在线观看| 真人二十三式性视频(动)| yy111111少妇影院| 青青草免费手机直播视频| 亚洲熟妇久久精品| a级毛片免费观看视频| 中文字幕成人精品久久不卡| 久久精品av在线观看| 精品无码日韩一区二区三区不卡| YW亚洲AV无码乱码在线观看| 久久精品国产亚洲av试看| 精人妻无码一区二区三区| 久久久久亚洲av无码专区导航| 99RE6在线观看国产精品| 最新国产女主播在线观看| 久久9精品区-无套内射无码| 人妻无码中文专区久久综合| 中文字幕亚洲中文第一| 成 人 免 费 黄 色| 国产高潮刺激叫喊视频| 国产极品嫩模大尺度在线播放| 日韩欧美中文字幕公布|