亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        注意力機(jī)制對(duì)生成對(duì)抗網(wǎng)絡(luò)語(yǔ)音增強(qiáng)遷移學(xué)習(xí)模型的影響

        2021-03-10 07:59:18曹中輝黃志華葛文萍
        聲學(xué)技術(shù) 2021年1期
        關(guān)鍵詞:注意力語(yǔ)音卷積

        曹中輝,黃志華,葛文萍,黃 浩

        (新疆大學(xué)信息科學(xué)與工程學(xué)院,信號(hào)檢測(cè)與處理新疆維吾爾自治區(qū)重點(diǎn)實(shí)驗(yàn)室,新疆烏魯木齊830001)

        0 引 言

        語(yǔ)音增強(qiáng)[1]是從帶噪信號(hào)中恢復(fù)出原始信號(hào)的一種信號(hào)處理技術(shù)。譜減法、維納濾波等基于統(tǒng)計(jì)模型的方法是語(yǔ)音增強(qiáng)領(lǐng)域中廣泛使用的經(jīng)典方法[2-4],但是傳統(tǒng)語(yǔ)音增強(qiáng)方法對(duì)于非平穩(wěn)噪聲的增強(qiáng)效果有限。近些年來(lái),深度學(xué)習(xí)技術(shù)在語(yǔ)音增強(qiáng)領(lǐng)域取得顯著進(jìn)步,基于降噪自編碼器,深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network, DNN)、卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)、長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Long Short-Term Memory, LSTM)的語(yǔ)音增強(qiáng)方法先后被提出[5-8],這些基于深度神經(jīng)網(wǎng)絡(luò)的增強(qiáng)模型能有效抑制非平穩(wěn)噪聲。2014 年,Goodfellow 等[9]提出生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Network, GAN)。2017年,Santiago等[10]將 GAN應(yīng)用在語(yǔ)音增強(qiáng)上,提出一種端到端的GAN語(yǔ)音增強(qiáng)框架(Speech Enhancement GAN,SEGAN),在客觀和主觀測(cè)評(píng)指標(biāo)上均優(yōu)于傳統(tǒng)維納濾波方法。Daniel等[11]提出條件GAN (Conditional GAN, cGAN)結(jié)構(gòu)進(jìn)行語(yǔ)音增強(qiáng),測(cè)評(píng)結(jié)果在主觀語(yǔ)音質(zhì)量評(píng)估(Perceptual Evaluation of Speech Quality, PESQ)指標(biāo)上優(yōu)于基于最小均方誤差的短時(shí)幅度譜增強(qiáng)方法(Short-time Spectral Amplitude Minimum Mean Square Error, STSA-MMSE)和基于DNN的理想比值掩模(Ideal Ratio Mask, IRM)增強(qiáng)算法。2018年,Li等[12]將GAN應(yīng)用在語(yǔ)音去混響上,與權(quán)重預(yù)測(cè)誤差(Weighted Prediction Error,WPE)系統(tǒng)和基于 DNN的去混響方法相比,PESQ和語(yǔ)音混響調(diào)制能量比(Speech to Reverberation Modulation Energy Ratio, SRMR)值更高?,F(xiàn)有增強(qiáng)方法雖然取得有效的增強(qiáng)效果,但均采用單一語(yǔ)言數(shù)據(jù)對(duì)增強(qiáng)模型進(jìn)行訓(xùn)練,并未探討單一語(yǔ)言增強(qiáng)模型對(duì)新語(yǔ)言語(yǔ)音的增強(qiáng)效果。2014年,Xu等[13]對(duì)基于DNN語(yǔ)音增強(qiáng)框架進(jìn)行模型遷移實(shí)現(xiàn)了跨語(yǔ)言語(yǔ)音增強(qiáng),對(duì)于低資源新語(yǔ)言語(yǔ)音的增強(qiáng)效果優(yōu)于低資源單語(yǔ)言語(yǔ)音訓(xùn)練出的模型。2017年,Santiago等[14]用SEGAN遷移學(xué)習(xí)模型對(duì)新語(yǔ)言帶噪語(yǔ)音進(jìn)行去噪,采用英語(yǔ)單語(yǔ)言增強(qiáng)模型對(duì)網(wǎng)絡(luò)進(jìn)行參數(shù)初始化,低資源語(yǔ)音采用韓語(yǔ)和加泰羅尼亞語(yǔ),以遷移學(xué)習(xí)的方式訓(xùn)練 SEGAN,對(duì)低資源帶噪語(yǔ)音的去噪效果與直接用低資源語(yǔ)音數(shù)據(jù)訓(xùn)練的 SEGAN相比,在評(píng)測(cè)指標(biāo)分段信噪比(Segmental Signal Noise Ratio, SSNR)上提升了10 dB,PESQ值提升了將近1。

        研究表明,在卷積神經(jīng)網(wǎng)絡(luò)中引入注意力機(jī)制可進(jìn)一步提升網(wǎng)絡(luò)的分類(lèi)準(zhǔn)確性[15-16]。本文提出一種在生成對(duì)抗網(wǎng)絡(luò)中引入注意力機(jī)制的遷移學(xué)習(xí)模型(Attention Transfer Learning Generative adversarial Network, ATGAN),有效提高了低資源語(yǔ)言場(chǎng)景下少量語(yǔ)音的去噪效果。

        1 GAN語(yǔ)音增強(qiáng)

        GAN是一種基于生成對(duì)抗思想訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型,由生成模型(Generator)G和判別模型(Discriminator)D兩部分組成。GAN的結(jié)構(gòu)圖如圖1所示。

        圖1 生成對(duì)抗網(wǎng)絡(luò)(GAN)的結(jié)構(gòu)圖Fig.1 GAN structure diagram

        G將隨機(jī)噪聲生成盡可能符合真實(shí)數(shù)據(jù)分布的數(shù)據(jù),D負(fù)責(zé)區(qū)分輸入數(shù)據(jù)是G生成的數(shù)據(jù)還是真實(shí)數(shù)據(jù)。對(duì)于給定的真實(shí)數(shù)據(jù)x,D為其打上標(biāo)簽1;對(duì)于給定的生成數(shù)據(jù)G(n),D為其打上標(biāo)簽0。在對(duì)抗訓(xùn)練過(guò)程中,傳給D的生成數(shù)據(jù)G(n),則盡可能讓D為其打上標(biāo)簽1。D將判決結(jié)果誤差傳遞給G模型,直到D對(duì)于給定數(shù)據(jù)預(yù)測(cè)為真的概率逼近0.5,達(dá)到納什均衡。這一過(guò)程可表示為[10]

        其中:n表示噪聲,x為真實(shí)數(shù)據(jù)。為了更好地控制生成數(shù)據(jù)的質(zhì)量,常在G和D中加入條件y,此時(shí)目標(biāo)函數(shù)為

        GAN語(yǔ)音增強(qiáng)模型中的G即為語(yǔ)音增強(qiáng)部分,可由CNN或者LSTM網(wǎng)絡(luò)構(gòu)成。干凈語(yǔ)音為x,n為帶噪語(yǔ)音,達(dá)到均衡后的G輸出即為增強(qiáng)后的語(yǔ)音。

        2 引入注意力機(jī)制的生成對(duì)抗網(wǎng)絡(luò)語(yǔ)音增強(qiáng)遷移學(xué)習(xí)模型

        遷移學(xué)習(xí)是將模型在某一領(lǐng)域?qū)W到的知識(shí)遷移到相近或者不同領(lǐng)域的技術(shù)。遷移學(xué)習(xí)使模型能夠在已有知識(shí)的基礎(chǔ)上快速有效解決新目標(biāo)域的問(wèn)題,其在機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘領(lǐng)域具有重要研究?jī)r(jià)值[17]。本文提出一種在 GAN網(wǎng)絡(luò)中引入注意力機(jī)制的GAN語(yǔ)音增強(qiáng)遷移學(xué)習(xí)模型(ATGAN),進(jìn)一步提高GAN語(yǔ)音增強(qiáng)遷移學(xué)習(xí)模型對(duì)低資源帶噪語(yǔ)音的去噪效果。ATGAN語(yǔ)音增強(qiáng)模型注意力機(jī)制示意圖如圖2所示。

        圖2 ATGAN語(yǔ)音增強(qiáng)模型注意力機(jī)制示意圖Fig.2 Attention mechanism in ATGAN speech enhancement model

        給定輸入特征圖F,通過(guò)通道注意力模塊,得到通道注意力權(quán)重C(F),然后與輸入特征圖相乘,結(jié)果F1送入空間注意力模塊,得到空間注意力權(quán)重S(F1),與中間輸入F1相乘,得到修正后的特征圖F2,數(shù)學(xué)描述為

        式(3)、(4)中的?表示點(diǎn)乘。C表示通道注意力模塊映射函數(shù),S表示空間和注意力模塊映射函數(shù)。

        生成模型G由22層包含跳躍連接的對(duì)稱(chēng)U型卷積和反卷積層構(gòu)成[18]。網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。

        圖3 ATGAN語(yǔ)音增強(qiáng)模型生成模型G的結(jié)構(gòu)Fig.3 Structure of generator G in ATGAN speech enhancement model

        音頻數(shù)據(jù)經(jīng)過(guò)預(yù)處理,送入G的維度為16 384×1,卷積操作為一維卷積,激活函數(shù)為Prelu,卷積核寬為31,步長(zhǎng)為2。卷積部分結(jié)束輸出維度為 8×1 024,然后從相應(yīng)維度的標(biāo)準(zhǔn)正態(tài)分布中采樣,與卷積結(jié)果拼接,送入與卷積部分對(duì)稱(chēng)的反卷積網(wǎng)絡(luò)。

        D的結(jié)構(gòu)如圖4所示,由編碼和注意力模塊組成,編碼部分為9層下采樣卷積層,由一維反卷積和正則化層構(gòu)成,激活函數(shù)為L(zhǎng)relu,卷積核大小為31,步長(zhǎng)為 2。下采樣結(jié)束得到 8×1 024維度的編碼結(jié)果,送入注意力模塊,經(jīng)過(guò)最大池化和平均池化以及sigmoid函數(shù)操作,得到經(jīng)通道注意力權(quán)重修正后的特征圖,然后結(jié)果經(jīng)過(guò)最大池化和平均池化處理后進(jìn)行拼接,再送入一維卷積,卷積核大小為 7,個(gè)數(shù)為 1,得到經(jīng)空間注意力權(quán)重修正的特征圖,最后得到更為準(zhǔn)確的分類(lèi)結(jié)果,流程圖如圖5所示。

        圖4 ATGAN語(yǔ)音增強(qiáng)模型判別模型D的結(jié)構(gòu)Fig.4 Structure of discriminator D in ATGAN speech enhancement model

        圖5 注意力模塊結(jié)構(gòu)流程圖Fig.5 Structure flowchart of attention module

        參考文獻(xiàn)[19],損失函數(shù)(loss)設(shè)計(jì)如下:

        生成對(duì)抗網(wǎng)絡(luò)引入注意力機(jī)制后,通過(guò)高資源(文中的資源是指訓(xùn)練模型數(shù)據(jù)資源的豐富程度,高資源指訓(xùn)練數(shù)據(jù)充足的場(chǎng)景,低資源是指訓(xùn)練數(shù)據(jù)非常少的場(chǎng)景,直接采用低資源場(chǎng)景下的訓(xùn)練模型無(wú)法達(dá)到較好的增強(qiáng)效果)語(yǔ)音數(shù)據(jù)訓(xùn)練得到網(wǎng)絡(luò)權(quán)重參數(shù)更為合理的預(yù)訓(xùn)練模型,然后采用低資源場(chǎng)景下的少量語(yǔ)音數(shù)據(jù),對(duì)預(yù)訓(xùn)練模型進(jìn)行權(quán)重遷移,得到引入注意力機(jī)制的GAN語(yǔ)音增強(qiáng)遷移學(xué)習(xí)模型。

        3 實(shí)驗(yàn)與討論

        3.1 數(shù)據(jù)集準(zhǔn)備與網(wǎng)絡(luò)參數(shù)設(shè)置

        為了評(píng)估和分析本文提出的ATGAN語(yǔ)音增強(qiáng)模型對(duì)低資源語(yǔ)音的去噪效果,采用英語(yǔ)數(shù)據(jù)訓(xùn)練的模型遷移到對(duì)維吾爾語(yǔ)進(jìn)行增強(qiáng)的ATGAN上。英語(yǔ)數(shù)據(jù)集采用Voice Bank語(yǔ)料庫(kù)[20],訓(xùn)練集由28位說(shuō)話人組成,包括14位男性、14位女性;為了獲得帶噪語(yǔ)音數(shù)據(jù)集,從 Demand數(shù)據(jù)集中選擇kitchen,field,washing,station,river,park,hallway,meeting,restaurant,traffic,metro 11 種噪聲[21],分別以0、5、10、15 dB的信噪比與干凈語(yǔ)音合成,得到帶噪語(yǔ)音訓(xùn)練集,共11 572條。維吾爾語(yǔ)數(shù)據(jù)集采用THUYG-20[22],帶噪語(yǔ)音訓(xùn)練集的合成方法及噪聲條件與英語(yǔ)帶噪語(yǔ)音一致,共300條維吾爾語(yǔ)帶噪語(yǔ)音;測(cè)試集從Demand數(shù)據(jù)集中選擇bus,cafeteria,square,living,office 5 種噪聲類(lèi)型(不在訓(xùn)練集內(nèi)),以2.5、7.5、12.5、17.5 dB的信噪比與干凈語(yǔ)音合成得到。

        ATGAN網(wǎng)絡(luò)參數(shù)設(shè)置如下:學(xué)習(xí)率為0.000 2,批大小為 100,迭代期數(shù)(epoch)大小為 340。優(yōu)化算法采用RMSprop算法[23]。

        為了評(píng)估ATGAN語(yǔ)音增強(qiáng)模型的去噪效果,我們采用對(duì)數(shù)譜距離(Log Spectral Distance, LSD),PESQ、短時(shí)客觀可懂度(Short-Time Objective Intelligibility, STOI) 3種客觀評(píng)價(jià)指標(biāo),LSD越小,表明增強(qiáng)效果越好,PESQ和STOI越大,表明增強(qiáng)效果越好。

        3.2 ATGAN語(yǔ)音增強(qiáng)模型去噪效果

        為了評(píng)估ATGAN語(yǔ)音增強(qiáng)模型的去噪性能,基線模型采用遷移學(xué)習(xí) SEGAN(TSEGAN)作為對(duì)比實(shí)驗(yàn)算法,實(shí)驗(yàn)結(jié)果如表 1~3所示。從表中可看出,ATGAN語(yǔ)音增強(qiáng)模型增強(qiáng)效果均優(yōu)于TSEGAN模型,ATGAN可進(jìn)一步提升對(duì)低資源帶噪語(yǔ)音的增強(qiáng)效果,語(yǔ)音的客觀質(zhì)量、感知效果和可懂度均有提高。分析認(rèn)為,在遷移學(xué)習(xí)生成對(duì)抗網(wǎng)絡(luò)中引入注意力機(jī)制,經(jīng)語(yǔ)音數(shù)據(jù)訓(xùn)練得到的預(yù)訓(xùn)練模型的權(quán)重參數(shù)更為合理,然后進(jìn)行權(quán)重遷移,注意力機(jī)制有助于生成模型重點(diǎn)關(guān)注和捕獲噪聲與純凈語(yǔ)音之間的關(guān)系,降低語(yǔ)種因素對(duì)重建干凈語(yǔ)音的影響。

        表1 ATGAN和TSEGAN的LSD指標(biāo)比較Table 1 LSD comparison between ATGAN and TSEGAN

        表2 ATGAN和TSEGAN的PESQ指標(biāo)比較Table 2 PESQ comparison between ATGAN and TSEGAN

        表3 ATGAN和TSEGAN的STOI指標(biāo)比較Table 3 STOI comparison between ATGAN and TSEGAN

        3.3 ATGAN語(yǔ)音增強(qiáng)模型的噪聲遷移魯棒性能分析

        為了驗(yàn)證ATGAN語(yǔ)音增強(qiáng)模型的增強(qiáng)性能對(duì)不同類(lèi)型、不同信噪比噪聲的遷移魯棒性,分析了五種噪聲在四種信噪比下的增強(qiáng)效果,結(jié)果如圖 6所示,圖中實(shí)線表示ATGAN語(yǔ)音增強(qiáng)模型的去噪結(jié)果,圖注中用(at)表示,虛線表示直接采用SEGAN模型訓(xùn)練的得到的去噪結(jié)果,圖注中用(se)表示。從圖6中的LSD和PESQ指標(biāo)可看出,對(duì)于bus,office,square噪聲,模型的增強(qiáng)結(jié)果最優(yōu),而cafe噪聲的遷移效果最差。通過(guò)頻譜分析,發(fā)現(xiàn)bus噪聲的能量主要分布在0~1 000 Hz頻率段,而cafe噪聲不僅在0~1 000 Hz的頻率段內(nèi)能量較高,在1 000~2 000 Hz內(nèi)也具有較高的能量,而且分布更為均勻,這可能是兩種噪聲遷移去噪效果有差別的原因之一。從測(cè)試曲線圖中還可看出,信噪比越低,模型的提升效果越明顯。

        圖6 ATGAN語(yǔ)音增強(qiáng)模型對(duì)不同噪聲的去噪效果Fig.6 Denoising effects of ATGAN speech enhancement model on different noises

        4 結(jié) 論

        本文提出一種引入注意力機(jī)制的GAN語(yǔ)音增強(qiáng)遷移學(xué)習(xí)模型,利用已有語(yǔ)言語(yǔ)音訓(xùn)練的增強(qiáng)模型,再結(jié)合極少量的新語(yǔ)言語(yǔ)音資源對(duì)模型進(jìn)行訓(xùn)練,可以對(duì)新語(yǔ)言低信噪比語(yǔ)音進(jìn)行有效增強(qiáng),提高增強(qiáng)后語(yǔ)音的質(zhì)量。同時(shí),訓(xùn)練GAN語(yǔ)音增強(qiáng)模型的時(shí)間和所需數(shù)據(jù)量均大大減少。實(shí)驗(yàn)結(jié)果表明,ATGAN語(yǔ)音增強(qiáng)模型相對(duì)于 SEGAN遷移學(xué)習(xí)模型,去噪后語(yǔ)音的感知質(zhì)量和可懂度都有進(jìn)一步提升。本文也討論了ATGAN在不同信噪比下對(duì)不同噪聲的遷移增強(qiáng)性能,結(jié)果表明,ATGAN對(duì)集外噪聲有更好的去噪效果。本文結(jié)論可為建立低資源新語(yǔ)言場(chǎng)景下的語(yǔ)音增強(qiáng)模型提供參考。在今后的工作中,將進(jìn)一步研究采用生成對(duì)抗網(wǎng)絡(luò)不同層進(jìn)行權(quán)重遷移對(duì)語(yǔ)音增強(qiáng)效果的影響。

        猜你喜歡
        注意力語(yǔ)音卷積
        讓注意力“飛”回來(lái)
        基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
        魔力語(yǔ)音
        基于MATLAB的語(yǔ)音信號(hào)處理
        電子制作(2019年14期)2019-08-20 05:43:38
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        基于MQ3與MP3的價(jià)廉物美的酒駕語(yǔ)音提醒器
        電子制作(2019年9期)2019-05-30 09:42:10
        對(duì)方正在輸入……
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
        A Beautiful Way Of Looking At Things
        亚洲va欧美va国产综合| 亚洲伊人久久成人综合网| 亚洲高清国产品国语在线观看| 我的极品小姨在线观看| 国产18禁黄网站免费观看 | 日本熟妇另类一区二区三区| 亚洲欧美日韩综合一区二区| 国产精品自在线拍国产| 欧美a在线播放| 国内偷拍视频一区二区| 蜜桃国产精品视频网站| 国产成人av一区二区三区在线观看| 品色永久免费| 亚洲丁香婷婷综合久久小说| 国产丝袜高跟美腿一区在线| 日韩一区三区av在线| 男人天堂这里只有精品| 国产婷婷色综合av蜜臀av| 少妇极品熟妇人妻无码| 曰本亚洲欧洲色a在线| 亚洲毛片免费观看视频| 欧洲乱码伦视频免费| 999国内精品永久免费视频| 久99久精品免费视频热77| 国产成人亚洲系列毛片| 色偷偷av一区二区三区| 在线播放无码高潮的视频| 国产成人一区二区三区高清| 中文字幕人妻久久久中出| 中文在线中文a| 欧美巨大xxxx做受l| 国产精品白浆免费观看| 成人免费av色资源日日| 韩日午夜在线资源一区二区| 色综合久久综合欧美综合图片| 色偷偷av一区二区三区人妖| 人妻中文字幕在线一二区| 精品人妻码一区二区三区剧情| 色一情一乱一伦一区二区三区日本| 国产精品11p| 人妻av一区二区三区高|