亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種改進(jìn)LSTM 訓(xùn)練的語音分離技術(shù)

        2021-06-11 03:53:54郭佳敏李鴻燕
        電子設(shè)計(jì)工程 2021年11期
        關(guān)鍵詞:優(yōu)化模型

        郭佳敏,李鴻燕

        (太原理工大學(xué)信息與計(jì)算機(jī)學(xué)院,山西太原 030024)

        人耳可以輕易地將感興趣的語音從背景噪聲中分辨出來,為了使機(jī)器學(xué)會(huì)這一能力,文中將目標(biāo)語音從背景噪聲中有效地區(qū)分出來,即“雞尾酒會(huì)問題”[1]。語音分離的主要任務(wù)是解決雞尾酒會(huì)問題,并將其應(yīng)用到實(shí)際場景中。隨著人工智能、深度學(xué)習(xí)等相關(guān)知識(shí)的迅速發(fā)展,很多算法相繼被提出。文獻(xiàn)[2]將深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)運(yùn)用到語音分離的研究中,在大規(guī)模訓(xùn)練的基礎(chǔ)上,使語音分離性能實(shí)現(xiàn)了顯著的提升。文獻(xiàn)[3]將深度神經(jīng)網(wǎng)絡(luò)的語音分離系統(tǒng)進(jìn)一步優(yōu)化,并取得了顯著的效果。文獻(xiàn)[4]將長短時(shí)記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)運(yùn)用到語音分離任務(wù)中,通過其記憶功能,能有效獲取信號(hào)的上下文信息,提升語音分離的性能,相較于DNN,可以有效提升分離語音的短時(shí)可懂度指標(biāo),但在語音質(zhì)量等其他方面表現(xiàn)欠佳。同時(shí),由于其結(jié)構(gòu)復(fù)雜,參數(shù)眾多,計(jì)算復(fù)雜度較高,導(dǎo)致訓(xùn)練時(shí)間成本較大。文中通過簡化長短時(shí)記憶網(wǎng)絡(luò)模型結(jié)構(gòu)和參數(shù),使用門控循環(huán)單元(Gated Recurrent Unit,GRU)[5]縮短訓(xùn)練時(shí)間,降低了計(jì)算復(fù)雜度。

        為實(shí)現(xiàn)系統(tǒng)語音分離性能的綜合提升,根據(jù)人耳的掩蔽效應(yīng),針對信號(hào)的時(shí)頻(Time Frequency,T-F)單元,結(jié)合注意力機(jī)制進(jìn)行建模,并提出將噪聲和語音主導(dǎo)T-F 單元分類方法與回歸任務(wù)中常用的均方誤差(Mean-Square Error,MSE)[6]相結(jié)合的方法,構(gòu)建新的損失函數(shù),對模型的訓(xùn)練過程進(jìn)行優(yōu)化,以獲得性能更好的語音分離模型。

        1 算法結(jié)構(gòu)

        圖1 所示是語音分離算法結(jié)構(gòu)框圖。系統(tǒng)分為訓(xùn)練和測試兩個(gè)階段,根據(jù)算法各部分功能,各模塊可歸為數(shù)據(jù)處理和模型優(yōu)化兩個(gè)部分。其中,數(shù)據(jù)處理部分包括時(shí)頻分解、目標(biāo)計(jì)算和特征抽取。在訓(xùn)練階段,數(shù)據(jù)由干凈語音和噪聲在固定信噪比下混合得到,通過時(shí)頻分解后,提取混合語音特征作為輸入,計(jì)算干凈語音作為輸出,通過大量的“特征-目標(biāo)對”訓(xùn)練模型得到二者之間的映射關(guān)系,獲得分離模型。在測試階段,運(yùn)用訓(xùn)練好的分離模型,將帶噪語音通過時(shí)頻分解、抽取特征值輸入模型,獲得估計(jì)的目標(biāo)語音,進(jìn)行性能測試。針對傳統(tǒng)LSTM 語音分離系統(tǒng)中存在的問題,文中從分離模型的結(jié)構(gòu)簡化、輸入優(yōu)化和損失函數(shù)改進(jìn)3 個(gè)方面出發(fā),通過對原有算法的改進(jìn),最終達(dá)到提升語音分離性能的目的。

        圖1 語音分離系統(tǒng)結(jié)構(gòu)框圖

        1.1 數(shù)據(jù)處理

        1.1.1 時(shí)頻分解

        系統(tǒng)的時(shí)頻分解部分采用短時(shí)傅里葉變換算法[7],將輸入時(shí)間域的干凈語音信號(hào)、噪聲信號(hào)以及混合得到的帶噪語音信號(hào)通過分幀、加窗、快速傅里葉變化轉(zhuǎn)化為二維的時(shí)域信號(hào):

        其中,ω(t)=ω(-t)是一個(gè)長度為N的實(shí)對稱窗函數(shù),每次移動(dòng)N/2,X(t,f)是一維時(shí)域信號(hào)x(t)在第t個(gè)時(shí)間幀,f個(gè)頻段的短時(shí)傅里葉變換系數(shù)。

        1.1.2 目標(biāo)計(jì)算

        使用時(shí)頻掩蔽可以很好地保留語音的共振峰特性,有效提高分離語音的可懂度,通過傅里葉逆變換可以直接合成目標(biāo)語音分波形[8-9]。文中以理想二值掩蔽(Ideal Binary Mask,IBM)作為計(jì)算目標(biāo),信號(hào)在短時(shí)譜中語音能量大于噪聲能量時(shí)值為1,否則為0:

        其中,LC是設(shè)定的局部閾值,SNR(t,f)是混合信號(hào)的信噪比。為更好地獲得目標(biāo)語音的能量譜,將LC設(shè)置為小于SNR(t,f)。

        1.1.3 特征抽取

        根據(jù)人耳的特性,提取混合語音信號(hào)的梅爾倒譜系數(shù)(Mel-Frequency Cepstral Coefficients,MFCC)[10],可以更好地展現(xiàn)語音感知特性的相對譜變換-感知 線性預(yù)測(Relative Spectral Transform-Perceptual Linear Prediction)[11]特征。提取的特征組合中包含了許多與目標(biāo)語音無關(guān)的噪聲信息,對語音分離的效果造成一定影響。

        1.2 模型優(yōu)化

        1.2.1 模型結(jié)構(gòu)優(yōu)化

        LSTM 作為一種時(shí)序模型,比起深度神經(jīng)網(wǎng)絡(luò),在其隱層間增加了反饋連接,對時(shí)序信號(hào)的短時(shí)動(dòng)態(tài)信息進(jìn)行建模,使網(wǎng)絡(luò)具備記憶功能。其輸入門it用于控制當(dāng)前時(shí)態(tài)輸入xt是否融入當(dāng)前細(xì)胞狀態(tài)ct;輸出門ot用于判斷隱層向量ht對上一時(shí)間細(xì)胞狀態(tài)ct-1部分的保留與否;遺忘門ft用于控制上一時(shí)間細(xì)胞狀態(tài)ct-1是否影響當(dāng)前細(xì)胞狀態(tài)ct。細(xì)胞狀態(tài)ct綜合了每個(gè)時(shí)刻的當(dāng)前輸入xt和上一時(shí)刻細(xì)胞的狀態(tài)ct-1。

        如圖2 所示,為簡化LSTM 計(jì)算,保留了其核心功能,采用兩個(gè)門結(jié)構(gòu)的GRU,將細(xì)胞狀態(tài)ct融入隱層向量ht中,輸入門it和遺忘門ft合并,為更新門zt選擇控制xt輸入,重置門rt替換輸出門ot。其前向計(jì)算原理如下:

        圖2 LSTM單元結(jié)構(gòu)簡化

        其中,σ(·)表示sigmoid 函數(shù),W表示連接不同門的權(quán)重矩陣,表示隱層向量當(dāng)前時(shí)刻的記憶候選向量。使用簡化后的LSTM 單元構(gòu)建網(wǎng)絡(luò),循環(huán)層沿時(shí)間反向傳播,保留上下文信息,其循環(huán)的單元數(shù)隨輸入數(shù)據(jù)的時(shí)間長度變化,在每個(gè)時(shí)間點(diǎn)上將信息分別輸出到下一個(gè)隱層。模型采用單循環(huán)層的結(jié)構(gòu),并通過兩個(gè)全連接層調(diào)整數(shù)據(jù)的輸出維度。循環(huán)層采用dropout 算法,各層間采用Batch Normalization 算法對網(wǎng)絡(luò)訓(xùn)練過程進(jìn)行優(yōu)化。

        1.2.2 模型輸入的優(yōu)化

        針對抽取特征值無法避免噪聲影響的問題,結(jié)合注意力機(jī)制原理以及人耳的掩蔽效應(yīng),對獲得的語音特征進(jìn)行篩選。根據(jù)人耳的掩蔽效應(yīng),弱的聲音會(huì)被較強(qiáng)的聲音覆蓋,輸入特征序列的T-F 單元可以被區(qū)分為由噪聲或目標(biāo)語音分別主導(dǎo)。對模型輸入施加注意力機(jī)制,使模型輸入更關(guān)注于目標(biāo)語音主導(dǎo)的T-F 單元,使用Transformer 模型中的自注意力機(jī)制[12],計(jì)算T-F 單元之間的相似性,得到對應(yīng)的注意力權(quán)重,從而獲得可以弱化噪聲影響的特征序列。

        其中,Attention(·)表示一次注意力的計(jì)算過程,Q、K、V分別對應(yīng)注意力機(jī)制計(jì)算中的元素內(nèi)容矩陣、尋址矩陣和對應(yīng)的值矩陣,dk表示矩陣K的維度。僅通過一次Attention計(jì)算無法很好地區(qū)分噪聲和目標(biāo)語音主導(dǎo)的時(shí)頻單元,需要經(jīng)過多次計(jì)算,獲得疊加的權(quán)值系數(shù)。將輸入矩陣映射到不同子空間,并采用縮放點(diǎn)積的形式對數(shù)據(jù)進(jìn)行編碼,即多頭自注意力計(jì)算,從而實(shí)現(xiàn)對輸入T-F 單元之間相似度的反復(fù)計(jì)算和權(quán)重疊加。

        其中,headi對應(yīng)輸入的不同子空間,concat(·)表示對每個(gè)head的拼接計(jì)算,A表示注意力模型的權(quán)重參數(shù)。由于目標(biāo)語音主導(dǎo)的單元數(shù)量在整個(gè)特征序列中占大多數(shù),因此經(jīng)過多頭自注意力編碼后的特征序列,可以加強(qiáng)目標(biāo)語音在輸入中的重要程度,對噪聲實(shí)現(xiàn)有效的抑制,最終作為優(yōu)化后的訓(xùn)練數(shù)據(jù)輸入分離模型。

        1.2.3 訓(xùn)練準(zhǔn)則——損失函數(shù)的優(yōu)化

        使用IBM 作為目標(biāo)時(shí),語音分離任務(wù)可以自然地看作是0-1分類的問題,命中率減誤報(bào)率(HIT-FA)可以直接作為語音性能評(píng)價(jià)指標(biāo),該指標(biāo)與分離語音效果呈現(xiàn)正相關(guān)關(guān)系,可以客觀地反映語音分離系統(tǒng)的性能[13]。通過直接比較干凈語音理想二值掩蔽和模型估計(jì)的目標(biāo)語音理想二值掩蔽,可得到命中率-誤報(bào)率。

        根據(jù)表1 所示的計(jì)算方式,并通過模型估計(jì)的二值掩蔽和理想二值掩蔽表示,HIT-FA可表示為:

        表1 二值掩蔽評(píng)價(jià)指標(biāo)計(jì)算表示方式

        其中,st和yt分別對應(yīng)當(dāng)前時(shí)刻t混合語音經(jīng)過模型估計(jì)得到的二值掩蔽和干凈語音的理想二值掩蔽。HIT表示預(yù)測結(jié)果中,分類正確的目標(biāo)語音主導(dǎo)T-F 單元在所有目標(biāo)語音主導(dǎo)T-F 單元中所占的比例,HIT越大,對應(yīng)的語音分離結(jié)果越好。FA計(jì)算的是預(yù)測結(jié)果中被錯(cuò)誤分類為目標(biāo)語音主導(dǎo)的噪聲T-F 單元在全部噪聲主導(dǎo)T-F 單元中所占的比重,F(xiàn)A越小,對應(yīng)的語音分離結(jié)果越好。

        在模型訓(xùn)練時(shí),損失函數(shù)計(jì)算為模型估計(jì)值與理想輸出之間的距離,為網(wǎng)絡(luò)中每一個(gè)需要更新的權(quán)重找到對應(yīng)的梯度,尋找最優(yōu)解。MSE作為模型訓(xùn)練中最為常見的損失函數(shù),在短時(shí)可懂度等方面具有較好的表現(xiàn),但不能很好地匹配其他語音分離的評(píng)價(jià)指標(biāo)。優(yōu)化模型結(jié)構(gòu)可以有效提高語音的可懂度,但在語音質(zhì)量等方面表現(xiàn)出不平衡現(xiàn)象。以IBM 作為語音分離目標(biāo),可以自然地將語音分離任務(wù)轉(zhuǎn)化為分類問題。通過對比幾種不同損失函數(shù)對語音分離結(jié)果的影響,并根據(jù)HIT-FA的計(jì)算原理,將錯(cuò)誤估計(jì)的噪聲T-F 單元數(shù)量作為分子即FP,實(shí)際語音主導(dǎo)的T-F 單元數(shù)量作為分母即P,構(gòu)成損失函數(shù)LH-F:

        LH-F對估計(jì)為目標(biāo)語音主導(dǎo)的T-F 單元進(jìn)行判斷,錯(cuò)誤估計(jì)的單元數(shù)量越多,LH-F越大,通過訓(xùn)練使LH-F最小,從而抑制被噪聲主導(dǎo)的時(shí)頻單元對語音分離效果的影響。最小化LH-F可實(shí)現(xiàn)語音評(píng)價(jià)指標(biāo)HIT-FA的最大化,但無法刻畫預(yù)測值與真實(shí)值之間的差距。結(jié)合在STOI 等方面表現(xiàn)較好的MSE,其損失函數(shù)為:

        綜合LH-F和LMSE的性能,在縮小預(yù)測值與真實(shí)值之間距離的同時(shí),抑制噪聲T-F 單元錯(cuò)誤分類對結(jié)果的影響,提出一種新的損失函數(shù)L:

        這里采用加權(quán)調(diào)和平均將二者融合構(gòu)成新的損失函數(shù),α大小反映函數(shù)LH-F在計(jì)算中的重要程度,α=1 時(shí),表示兩個(gè)函數(shù)同等重要,α設(shè)置越大,對應(yīng)LH-F在計(jì)算中越重要。通過訓(xùn)練獲取一個(gè)閾值,使二者同時(shí)實(shí)現(xiàn)最小化,以獲得分離語音性能在HIT-FA和STOI方面的最佳表現(xiàn),實(shí)現(xiàn)對模型訓(xùn)練過程的改進(jìn)。

        根據(jù)計(jì)算,自定義的損失函數(shù)L是可導(dǎo)可微的,滿足自定義函數(shù)的條件。配合優(yōu)化后的LSTM 網(wǎng)絡(luò),沿時(shí)間反向傳播,通過適當(dāng)?shù)膶W(xué)習(xí)率lr實(shí)現(xiàn)梯度的下降迭代對模型參數(shù)進(jìn)行更新,網(wǎng)絡(luò)權(quán)值和偏差最終通過時(shí)間展開后積累得到。

        新的損失函數(shù)、學(xué)習(xí)率等參數(shù)的設(shè)置以及梯度下降優(yōu)化算法的選擇也影響著整個(gè)系統(tǒng)的性能。基于模型結(jié)構(gòu)特點(diǎn)、訓(xùn)練速度等多方面因素,使用配合歷史信息動(dòng)量加速的隨機(jī)梯度下降法(Stochastic Gradient Descent,SGD)、自適應(yīng)學(xué)習(xí)率的RMSProp(Root Mean Square Prop)算法和Adam 算法3 種算法分別對訓(xùn)練過程進(jìn)行優(yōu)化。

        在優(yōu)化結(jié)構(gòu)后的網(wǎng)絡(luò)中,分別運(yùn)用3 種不同的優(yōu)化器算法對訓(xùn)練過程中的自定義損失函數(shù)進(jìn)行可視化[14-20],如圖3 所示,縱軸為損失函數(shù)值,橫軸為迭代次數(shù)。同時(shí)觀察訓(xùn)練過程,可驗(yàn)證該函數(shù)是否可以實(shí)現(xiàn)有效收斂。根據(jù)結(jié)果,自定的損失函數(shù)L在模型訓(xùn)練中可以實(shí)現(xiàn)有效的收斂。根據(jù)訓(xùn)練過程的損失函數(shù)值變化曲線的收斂速度和收斂效果來看,使用RMSProp 和Adam 算法進(jìn)行優(yōu)化的表現(xiàn)相當(dāng),對比訓(xùn)練過程中損失函數(shù)的最小值,最終選擇RMSProp 算法對模型進(jìn)行優(yōu)化。

        圖3 SGD、RMSProp、Adam算法對比

        2 實(shí) 驗(yàn)

        2.1 實(shí)驗(yàn)配置

        實(shí)驗(yàn)基于深度學(xué)習(xí)原理構(gòu)建LSTM 的語音分離系統(tǒng),并進(jìn)一步優(yōu)化。從語料庫中抽取720 條干凈語音及一種工廠噪聲作為數(shù)據(jù)來源,分別在-2 dB、0 dB、2 dB 和5 dB 信噪比下生成600 條混合語音信號(hào),用于模型訓(xùn)練,另生成120 條混合語音信號(hào)用于測試訓(xùn)練好的模型。為證明算法性能的提升,在相同實(shí)驗(yàn)環(huán)境下,使用傳統(tǒng)的LSTM 語音分離系統(tǒng)同優(yōu)化后的LSTM 語音分離系統(tǒng)進(jìn)行對比。數(shù)據(jù)處理部分采用Matlab2016a 實(shí)現(xiàn),包括對原始語音數(shù)據(jù)的混合處理以及時(shí)頻分解,計(jì)算干凈語音的IBM 和混合語音的特征值組合構(gòu)成訓(xùn)練集和測試集。模型搭建、優(yōu)化和損失函數(shù)的自定義通過Python 和Pytorch平臺(tái)實(shí)現(xiàn),同時(shí)利用TensorboardX 對整個(gè)訓(xùn)練過程進(jìn)行監(jiān)控。

        測試中,為了可視化地對比語音分離的效果,計(jì)算處理后語音的短時(shí)包絡(luò)相關(guān)性,使用短時(shí)客觀可懂度指標(biāo)(Short-Time Objective Intelligibility,STOI)作為客觀語音清晰度指標(biāo),該指標(biāo)取值范圍在[0,1]之間,且值越大性能越好。同時(shí),采用與語音主觀評(píng)價(jià)MOS 值相關(guān)的語音質(zhì)量感知評(píng)價(jià)指標(biāo)(Perceptual Evaluation of Speech Quality,PESQ)對測試合成語音的質(zhì)量性能進(jìn)行評(píng)估測試,該指標(biāo)取值范圍在[-0.5,4.5]之間,值越大對應(yīng)性能越好。同時(shí),針對分類問題,使用模型分類精確度(Accuracy)和HIT-FA 對系統(tǒng)性能進(jìn)行評(píng)估。此外,為縮短訓(xùn)練時(shí)間,實(shí)驗(yàn)訓(xùn)練過程使用GPU 進(jìn)行加速。

        2.2 實(shí)驗(yàn)結(jié)果

        首先,為驗(yàn)證優(yōu)化模型結(jié)構(gòu)后性能的變化,分別使用優(yōu)化前后的模型在-2 dB 信噪比條件下進(jìn)行測試,并記錄測試結(jié)果,如表2 所示。

        表2 優(yōu)化后的LSTM模型性能測試結(jié)果

        分析表2 數(shù)據(jù)可以得出,相較于傳統(tǒng)的LSTM 模型,優(yōu)化結(jié)構(gòu)后的LSTM 模型在簡化計(jì)算后,各項(xiàng)性能指標(biāo)均獲得了一定的提升,并且在完成100 次迭代訓(xùn)練時(shí),耗時(shí)縮短了約21%??梢缘贸?,LSTM 經(jīng)過優(yōu)化后,仍然可以很好地保留語音的時(shí)序信息,使其在STOI 方面獲得較明顯的提升,且計(jì)算復(fù)雜度降低,訓(xùn)練速度更快,但在語音質(zhì)量PESQ 方面表現(xiàn)仍有待提升。

        為驗(yàn)證結(jié)合注意力機(jī)制在模型輸入的改進(jìn)是否有效,在不同信噪比條件下分別使用結(jié)合注意力機(jī)制改進(jìn)前后的模型進(jìn)行訓(xùn)練和測試,記錄測試結(jié)果,并取平均值,如表3 所示。

        表3 結(jié)合注意力機(jī)制優(yōu)化前后的模型性能測試結(jié)果

        實(shí)驗(yàn)結(jié)果表明,優(yōu)化模型輸入后,各性能指標(biāo)都得到了一定的提升。結(jié)合注意力機(jī)制對模型輸入進(jìn)行優(yōu)化,通過計(jì)算T-F 單元之間的相似性,可以將訓(xùn)練的注意力集中在語音主導(dǎo)的T-F 單元上,有效抑制噪聲在模型計(jì)算過程中的影響,實(shí)現(xiàn)各個(gè)語音分離性能的綜合提升。

        最后,使用提出的損失函數(shù)對分離性能提升的有效性進(jìn)行驗(yàn)證。首先,確定L中α的取值,在2 dB信噪比條件下,分別取α=0.5、α=1 和α=2 進(jìn)行訓(xùn)練,結(jié)果如表4 所示。

        表4 不同α取值的測試結(jié)果

        結(jié)果表明,取α=1 時(shí),在訓(xùn)練中將L中的LH-F和LMSE計(jì)算視為同等重要,分離結(jié)果在Accuracy、HIT-FA、STOI 和PESQ 性能方面的表現(xiàn)較α=0.5 和α=2 時(shí)好。

        令α=1,同時(shí)考慮其泛化性能,分別在-2 dB、0 dB、2 dB和5 dB信噪比條件下,使用式(12)與式(11)以及式(13)作為對比,在優(yōu)化結(jié)構(gòu)和輸入后的模型中進(jìn)行訓(xùn)練,測試分離語音性能,并記錄實(shí)驗(yàn)結(jié)果,如圖4 所示。

        圖4 損失函數(shù)對比測試結(jié)果

        如圖4 所示,根據(jù)訓(xùn)練提出的損失函數(shù)L,在Accuracy 方面的表現(xiàn)與單獨(dú)訓(xùn)練LMSE損失和LH-F損失時(shí)大致相當(dāng)。通過對HIT-FA 原理改進(jìn)后,訓(xùn)練L得到的HIT-FA 指標(biāo)性能相較于訓(xùn)練LMSE時(shí)獲得較明顯的提升。而且,由于HIT-FA 指標(biāo)與主觀聽音測試存在正相關(guān)關(guān)系,因此通過其原理改進(jìn)損失函數(shù)后,相較于兩種損失函數(shù)單獨(dú)訓(xùn)練時(shí),在STOI 和PESQ 方面都表現(xiàn)出較好的性能。實(shí)驗(yàn)結(jié)果表明,提出的結(jié)合語音分離指標(biāo)HIT-FA 改進(jìn)均方誤差構(gòu)成的損失函數(shù)L不僅可以在訓(xùn)練中有效收斂,同時(shí)可以實(shí)現(xiàn)語音分離系統(tǒng)HIT-FA、STOI 和PESQ 性能方面的提升。

        將優(yōu)化后的語音分離系統(tǒng)算法與傳統(tǒng)的LSTM語音分離系統(tǒng)作對比,取不同信噪比條件下分離語音結(jié)果的平均值,如圖5 所示,文中構(gòu)建的語音分離系統(tǒng)算法在Accuracy、HIT-FA、STOI 和PESQ 方面都獲得了較好的表現(xiàn),實(shí)現(xiàn)了對系統(tǒng)優(yōu)化的目的。

        圖5 算法性能測試對比結(jié)果

        3 結(jié)束語

        文中將IBM 作為目標(biāo),采用LSTM 網(wǎng)絡(luò)構(gòu)建語音分離模型并進(jìn)行優(yōu)化,為實(shí)現(xiàn)訓(xùn)練時(shí)間的縮短,簡化其單元結(jié)構(gòu),結(jié)合注意力機(jī)制對抽取的語音MFCC及RASTA-PLP 特征組合進(jìn)一步優(yōu)化,對輸入特征中的噪聲予以抑制,優(yōu)化數(shù)據(jù)在訓(xùn)練過程中的計(jì)算,減少噪聲對最終結(jié)果的影響。由于通過模型結(jié)構(gòu)的優(yōu)化無法實(shí)現(xiàn)系統(tǒng)綜合性能的全面提升,提出一種新的損失函數(shù)對模型訓(xùn)練過程進(jìn)行改進(jìn),將與語音評(píng)價(jià)指標(biāo)HIT-FA 直接相關(guān)的函數(shù)與傳統(tǒng)的MSE損失函數(shù)相結(jié)合運(yùn)用到模型訓(xùn)練中,從而更好地匹配語音分離性能指標(biāo)。為驗(yàn)證算法的泛化性,在不同信噪比條件下,將干凈語音和噪聲進(jìn)行混合分別進(jìn)行訓(xùn)練和測試。實(shí)驗(yàn)證明,從模型的單元結(jié)構(gòu)和輸入對傳統(tǒng)LSTM 系統(tǒng)進(jìn)行優(yōu)化,實(shí)現(xiàn)了訓(xùn)練時(shí)間的縮短,同時(shí)結(jié)合注意力機(jī)制對模型輸入進(jìn)行優(yōu)化,使訓(xùn)練過程中的計(jì)算更集中在目標(biāo)語音上,系統(tǒng)各性能實(shí)現(xiàn)提升。最后,將提出的損失函數(shù)運(yùn)用到訓(xùn)練中,可以更好地與語音分離各性能相匹配,實(shí)現(xiàn)系統(tǒng)性能的綜合提升。

        猜你喜歡
        優(yōu)化模型
        一半模型
        超限高層建筑結(jié)構(gòu)設(shè)計(jì)與優(yōu)化思考
        民用建筑防煙排煙設(shè)計(jì)優(yōu)化探討
        關(guān)于優(yōu)化消防安全告知承諾的一些思考
        一道優(yōu)化題的幾何解法
        由“形”啟“數(shù)”優(yōu)化運(yùn)算——以2021年解析幾何高考題為例
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        3D打印中的模型分割與打包
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        综合激情中文字幕一区二区| 久久精品国产亚洲av大全| 久久天天躁夜夜躁狠狠躁2022| 91亚洲欧洲日产国码精品| 亚洲综合国产精品一区二区| 亚洲国产av无码精品无广告| 日韩激情无码免费毛片| 91av视频在线| 亚洲国产都市一区二区| 久久午夜av一区二区三区| 特级做a爰片毛片免费看无码| 天天躁日日躁狠狠躁一区| 男女啪啪免费视频网址| 日本精品一区二区三区二人码| 黑人巨茎大战欧美白妇| 无套中出丰满人妻无码| 一本无码人妻在中文字幕免费| 天堂最新在线官网av| 日韩激情视频一区在线观看| 97人伦影院a级毛片| 丰满少妇愉情中文字幕18禁片| 无码av永久免费大全| 国语对白在线观看免费| 一本色道久久综合无码人妻 | 伊人22综合| 日韩精品一级在线视频| 亚洲一区二区女搞男| 中文字幕日本最新乱码视频| 人妻无码一区二区19P| 精品久久综合日本久久综合网| 亚洲熟妇久久国产精品| 国产精品免费久久久免费| 亚洲一区二区三区ay| 男女肉粗暴进来动态图| 亚洲av久久无码精品九九| 蜜桃成人永久免费av大| 99久久免费看精品国产一| 国产98在线 | 日韩| 亚洲欧美日韩精品久久亚洲区色播| 国产亚洲一本二本三道| 亚洲日韩一区精品射精|