亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于生成對抗網(wǎng)絡(luò)的語音信號分離

        2020-01-16 07:32:30袁浩期王俊影
        計(jì)算機(jī)工程 2020年1期
        關(guān)鍵詞:人聲時(shí)頻時(shí)域

        劉 航,李 揚(yáng),袁浩期,王俊影

        (廣東工業(yè)大學(xué) 機(jī)電工程學(xué)院,廣州 510006)

        0 概述

        語音信號分離是指在不知源信號和傳輸信道任何先驗(yàn)知識的情況下,僅根據(jù)輸入語音源信號的統(tǒng)計(jì)特征(時(shí)域和頻域信息),通過觀察信號來恢復(fù)出各獨(dú)立源信號的過程[1]。目前,語音信號分離主要應(yīng)用于自動語音識別(Automatic Speech Recognition,ASR)、助聽器設(shè)計(jì)和移動語音通信等方面。一個(gè)性能良好的前端語音分離模塊可以提高自動識別的目標(biāo)語音質(zhì)量[2]。然而,在非平穩(wěn)噪聲和單聲道條件下,語音分離較為困難,語音分離技術(shù)的性能仍有較大的提升空間。

        已有的語音信號分離方法大致可以分為兩類。一類是基于信號濾波(包括估計(jì)噪聲的功率譜或理想維納濾波器[3])的方法,如譜減法和維納濾波法。其中,維納濾波法是在極小均方誤差計(jì)算函數(shù)下分離純凈語音的最優(yōu)濾波器。基于信號濾波的方法在假定語音與噪聲相互獨(dú)立的條件下,將語音信號與噪聲信號疊加為混合語音信號,對混合語音信號進(jìn)行短時(shí)傅里葉變換(STFT),將其轉(zhuǎn)化為二維的時(shí)頻信號,在此基礎(chǔ)上,推斷出語音的頻譜系數(shù)。在噪聲為平穩(wěn)或者慢變的情況下[4],這些信號濾波方法能夠取得較好的分離效果。但是在現(xiàn)實(shí)情況中,上述條件通常難以滿足,特別是在低信噪比條件下,分離方法的性能會大幅下降。另一類是基于統(tǒng)計(jì)建模的方法。其中,基于淺層模型的非負(fù)矩陣分解[5]方法利用混合前的純凈信號分別構(gòu)建語音和噪聲模型,其能挖掘非負(fù)數(shù)據(jù)中的局部表示,但是處理高維數(shù)據(jù)的能力有限,很難通過拓展上下文時(shí)間幀來挖掘語音信號中的時(shí)頻相關(guān)性,且非負(fù)矩陣分解的推斷過程較費(fèi)時(shí)[6],嚴(yán)重依賴事先訓(xùn)練的語音和噪聲模型。

        基于深度學(xué)習(xí)的語音信號分離方法通常需要結(jié)合計(jì)算聽覺場景分析(Computational Auditory Scene Analysis,CASA)[7]。CASA通過模擬人耳對聲音的處理機(jī)制以及人耳的聽覺掩蔽功能來實(shí)現(xiàn)語音信號分離[8],其能夠極大地提高語音的可懂度[9]。然而,以聽覺掩蔽即時(shí)頻掩蔽的計(jì)算作為神經(jīng)網(wǎng)絡(luò)的直接或間接計(jì)算目標(biāo),均不是最優(yōu)的,如通過混合信號直接預(yù)測時(shí)頻掩蔽,在語音信號與噪聲信號幅度譜相加的計(jì)算中需要人為選取一個(gè)α值,或通過混合信號直接估算目標(biāo)信號源[11-13],并根據(jù)估值計(jì)算間接得到時(shí)頻掩蔽,但在這個(gè)過程中,時(shí)頻掩蔽的質(zhì)量嚴(yán)重依賴于神經(jīng)網(wǎng)絡(luò)映射的輸出,且計(jì)算過程需要一個(gè)明確的時(shí)頻掩蔽函數(shù),常見的時(shí)頻掩蔽計(jì)算函數(shù)是理想二值掩蔽和理想浮值掩蔽[14],其時(shí)頻掩蔽的計(jì)算函數(shù)并非神經(jīng)網(wǎng)絡(luò)中的一部分(僅目標(biāo)語音信號),故時(shí)頻掩蔽的生成是不可學(xué)習(xí)的。

        本文基于生成對抗網(wǎng)絡(luò)(Generative Adversarial Networks,GAN)[15]提出一種可學(xué)習(xí)的時(shí)頻掩蔽生成方法,在語音生成階段引入一種遞歸推導(dǎo)算法和稀疏編碼器以改進(jìn)時(shí)頻掩蔽的生成結(jié)果,將生成的語音信號以及真實(shí)語音信號輸入至判別器進(jìn)行分類,在此基礎(chǔ)上,依據(jù)收斂的時(shí)頻掩蔽獲得最終的目標(biāo)語音信號。

        1 設(shè)計(jì)原理

        本文提出一種基于GAN的語音信號分離算法。GAN在計(jì)算機(jī)視覺領(lǐng)域得到廣泛應(yīng)用,其能生成逼真的圖像用于語義分割與數(shù)據(jù)增強(qiáng)等[16-18]。本文利用時(shí)頻分解技術(shù)提取時(shí)頻單元級別的特征并作為輸入[19],將混合信號與目標(biāo)語音信號看作2種不同概率分布的信號并進(jìn)行非線性映射?;贕AN的語音信號分離算法結(jié)構(gòu)如圖1所示。

        圖1 基于GAN的語音信號分離算法結(jié)構(gòu)

        Fig.1 Structure of speech signal separation algorithm based on GAN

        1.1 時(shí)頻掩蔽計(jì)算

        (1)

        (2)

        其中,|·|表示矩陣的絕對值,α是根據(jù)假定語音的概率分布選取的指數(shù)。

        1.2 生成對抗網(wǎng)絡(luò)原理

        受博弈論中二元零和博弈的啟發(fā),GAN模型中包含一對相互對抗的模型:生成模型G和判別模型D。判別器D盡可能正確地判斷輸入的數(shù)據(jù)是來自真實(shí)樣本還是來自偽樣本,生成器G則盡量去學(xué)習(xí)真實(shí)數(shù)據(jù)樣本的數(shù)據(jù)分布。GAN模型結(jié)構(gòu)如圖2所示。

        圖2 GAN模型結(jié)構(gòu)

        為在博弈中勝出,判別器的判別過程與生成器的學(xué)習(xí)過程相互對抗并迭代優(yōu)化,使得判別器和生成器的性能不斷提升,優(yōu)化的目標(biāo)是尋找兩者間的納什均衡。在上述極小-極大的優(yōu)化過程中,生成器和判別器的優(yōu)化目標(biāo)函數(shù)為:

        Ez~PG(z)[lg(1-D(G(z)))]

        (3)

        其中,x是服從Pdata(x)的真實(shí)數(shù)據(jù)樣本,G(z)代表PG(z)分布的數(shù)據(jù)樣本,在本文中其具體表示真實(shí)語音信號和由生成器生成的語音信號,VCGAN表示待優(yōu)化的目標(biāo)函數(shù)。

        假定有一個(gè)額外的約束條件向量y作為輔助信息,生成器G(z,y)在y的約束下生成語音信號,判別器D(x,y)也在y的約束下對真假語音信號進(jìn)行判別[21],則目標(biāo)函數(shù)轉(zhuǎn)換為:

        Ez~PG(z),y~Pdata(y)[lg(1-D(G(z,y),y))]

        (4)

        2 算法設(shè)計(jì)

        2.1 生成對抗網(wǎng)絡(luò)設(shè)計(jì)

        GAN模型結(jié)構(gòu)由生成器G和判別器D 2個(gè)部分組成。本文提出一種可學(xué)習(xí)的時(shí)頻掩蔽生成器,該生成器引入了一個(gè)具有神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的遞歸推導(dǎo)算法和一個(gè)用于生成時(shí)頻掩蔽Mj的稀疏編碼層[22-23]。其中,生成器由多層遞歸神經(jīng)網(wǎng)絡(luò)(RNN)和稀疏編碼層組成,RNN輸出到稀疏編碼層,稀疏編碼層的輸出為相應(yīng)的時(shí)頻掩蔽Mj。該方法省去了后續(xù)的信號濾波等處理過程,也無需人工定義神經(jīng)網(wǎng)絡(luò)的層數(shù)。

        如圖2所示,生成器將一層雙向遞歸神經(jīng)網(wǎng)絡(luò)作為編碼器(Renc)、一層遞歸神經(jīng)網(wǎng)絡(luò)作為解碼器(Rdec)及一層前饋神經(jīng)網(wǎng)絡(luò)作為稀疏編碼層FFFN。稀疏編碼層的輸出(即時(shí)頻掩蔽Mj)再與混合信號進(jìn)行矩陣元素相乘,即得到目標(biāo)語音信號。判別器由一層前饋神經(jīng)網(wǎng)絡(luò)(作為編碼器)和另外一層前饋神經(jīng)網(wǎng)絡(luò)(作為解碼器)組成,并輸出[0,1]區(qū)間的值。生成器與判別器經(jīng)過迭代優(yōu)化,得到最優(yōu)時(shí)頻掩蔽Mj,并以此估算目標(biāo)語音信號的幅度譜,然后結(jié)合混合信號的相位譜以短時(shí)傅里葉逆變換(ISTFT)重建時(shí)域信號。

        2.2 輸入語音處理

        2.3 可學(xué)習(xí)時(shí)頻掩蔽生成器

        在經(jīng)過輸入語音處理后,以|Yfilter|作為編碼器Renc的輸入,Renc采用雙向RNN(Bi-GRU),每一時(shí)間幀的輸出ht隨時(shí)間幀t的迭代而更新,并采用殘差網(wǎng)絡(luò)進(jìn)行疊加,疊加過程為[24]:

        henct=ht+|yfiltert|

        |Yfilter| = [|yfilterT|,|yfilterT-1|,…,|yfiltert|,…,

        (5)

        其中,henct表示每一時(shí)間幀t的輸出ht疊加|yfiltert|后的幅度譜向量,殘差網(wǎng)絡(luò)有利于加快訓(xùn)練速度[24]。

        (6)

        算法1遞歸推導(dǎo)算法

        2.for i∈{1,2,…,Niter}do

        5.break

        (7)

        其中,修正線性單元(ReLU)函數(shù)的定義如下:

        (8)

        (9)

        其中,|Yfilter|為生成器的真實(shí)輸入。

        2.4 判別器

        (10)

        2.5 訓(xùn)練目標(biāo)

        根據(jù)生成器與判別器的輸入,本文調(diào)整目標(biāo)函數(shù)為:

        E[lgD(1-D(G(Yin),Yin))]

        (11)

        其中,Yj是真實(shí)語音信號,Yin為輸入混合信號,G為生成語音信號。

        3 實(shí)驗(yàn)結(jié)果與分析

        3.1 實(shí)驗(yàn)設(shè)計(jì)

        本文實(shí)驗(yàn)環(huán)境為Ubuntu 14.04,使用Python2.7以及Tensorflow1.1進(jìn)行編程,并采用MIR-1K作為數(shù)據(jù)集[25],輸入設(shè)置如2.2節(jié)所描述,每一段語音的采樣頻率為44.1 kHz并維持在4 s~13 s范圍內(nèi)。這些語音片段是110首分別由男聲和女聲演唱的歌曲,本文隨機(jī)選擇80%的語音片段用于訓(xùn)練,10%用于驗(yàn)證,10%用于測試。設(shè)生成器輸入的語音序列初始長度T=50,實(shí)驗(yàn)驗(yàn)證大約為0.5 s,重疊時(shí)間段L=10,所有參數(shù)使用Adam算法作為梯度下降方法[26],學(xué)習(xí)率為1×e-4,批量訓(xùn)練數(shù)據(jù)B=16,整個(gè)訓(xùn)練集的10%用作交叉驗(yàn)證,最大迭代次數(shù)為10 000。

        (12)

        根據(jù)式(12)對預(yù)測信號的分解,定義如下3個(gè)度量標(biāo)準(zhǔn):

        (13)

        SIR、SAR和SDR分別反映分離算法對干擾信號的抑制能力、分離算法對引入噪聲的抑制能力及分離算法的綜合分離效果。三者的數(shù)值越大,信號的分離效果越好[27]。

        3.2 性能對比分析

        本文分別對利用深度神經(jīng)網(wǎng)絡(luò)(DNN)來預(yù)測目標(biāo)語音信號對應(yīng)的浮值掩蔽方法[10](記為方法1)、基于編解碼器結(jié)構(gòu)預(yù)測目標(biāo)語音信號方法[13](記為方法2)、基于遞歸神經(jīng)網(wǎng)絡(luò)(RNN)并引入遞歸推導(dǎo)算法的時(shí)頻掩蔽生成器(記為方法3)以及本文加入判別器的生成對抗網(wǎng)絡(luò)(記為方法4)進(jìn)行實(shí)驗(yàn)驗(yàn)證,其中,輸入特征均保持一致且僅采用幅度譜作為特征。首先,對方法1進(jìn)行實(shí)驗(yàn)分析,其首層隱藏單元個(gè)數(shù)為輸入的維度,中間隱藏層單元個(gè)數(shù)為512,神經(jīng)網(wǎng)絡(luò)層數(shù)分別采用2層、3層和4層,當(dāng)神經(jīng)網(wǎng)絡(luò)層數(shù)為3時(shí)方法1取得較優(yōu)效果,而層數(shù)達(dá)到4時(shí),SDR、SIR、SAR都為下降的趨勢,說明過多的神經(jīng)元增加了方法1的網(wǎng)絡(luò)復(fù)雜度,導(dǎo)致了過擬合現(xiàn)象;在方法3中,遞歸推導(dǎo)算法在最大迭代次數(shù)Niter=3、閾值τterm=1×e-2和最大迭代次數(shù)Niter=10、閾值τterm=1×e-3時(shí)(分別記為方法3-1、方法3-2),SIR和SDR均取得最高值。各方法針對人聲與背景音的SDR、SIR和SAR對比結(jié)果如表1、表2所示。

        表1 各方法針對人聲的SDR、SIR和SAR結(jié)果

        Table 1 SDR,SIR and SAR results of each method for human voice

        方法SDR/dBSIR/dBSAR/dB方法16.0311.529.65方法26.5412.138.41方法3-19.7414.669.98方法3-210.5813.849.22方法412.2816.5318.88

        表2 各方法針對背景音的SDR、SIR和SAR結(jié)果

        Table 2 SDR,SIR and SAR results of each method for background sound

        方法SDR/dBSIR/dBSAR/dB方法15.9613.189.12方法26.8212.198.30方法3-19.3615.289.44方法3-210.9513.299.63方法411.3518.2716.33

        從表1、表2可以看出,方法1與方法2在人聲分離效果上相差不大,方法1的SAR值要高于方法2,說明以時(shí)頻掩蔽為計(jì)算目標(biāo)的分離在噪聲抑制上效果較優(yōu)。方法3相比方法1和方法2在SIR和SDR上有顯著提升,可驗(yàn)證語音信號在時(shí)域和頻域上具有很強(qiáng)的相關(guān)性,且根據(jù)時(shí)序進(jìn)行建模能體現(xiàn)語音信號中時(shí)序的相關(guān)性。在方法3的基礎(chǔ)上引入判別器進(jìn)行分類,即為方法4。將生成器生成的目標(biāo)語音信號與真實(shí)語音信號在真實(shí)帶噪環(huán)境下進(jìn)行判別分類,可以看出,方法4的SIR和SDR高于方法3-1、方法3-2,且在SAR上取得了較好效果,說明生成對抗網(wǎng)絡(luò)對引入噪聲的抑制能力較強(qiáng)。

        針對方法3(人聲),分析不同的輸入時(shí)間步長T對分離效果的影響,輸入步長分別取T=50、T=100和T=500,其余設(shè)置保持不變,結(jié)果如表3所示。從表3可以看出,當(dāng)T=100時(shí),SIR、SDR及SAR均較高,此時(shí)實(shí)際實(shí)驗(yàn)時(shí)間為5 s~6 s左右,與實(shí)驗(yàn)中輸入的語音片段更接近,說明時(shí)間步長需要與輸入的語音片段長度保持一致,過大的時(shí)間步長會提高時(shí)間復(fù)雜度。

        表3 方法3中不同時(shí)間步長對應(yīng)的指標(biāo)結(jié)果

        Table 3 SDR,SIR and SAR results corresponding to different time steps in method 3

        輸入時(shí)間步長SDR/dBSIR/dBSAR/dB505.2110.736.101009.0113.288.355007.1511.417.22

        將通過方法4分離的目標(biāo)語音信號與原純凈語音信號同時(shí)轉(zhuǎn)化為時(shí)域波形,圖3為真實(shí)人聲與分離人聲時(shí)域波形圖,圖4為真實(shí)背景音與分離背景音的時(shí)域波形圖。從圖3、圖4可以看出,人聲的分布較密集集中,而背景音分布較均勻且變換波動大,分離語音包絡(luò)線與原語音包絡(luò)線形狀逼近,且人聲與背景音分離的平均誤差僅為 0.14 dB。

        圖3 人聲分離時(shí)域波形圖

        圖4 背景音分離時(shí)域波形圖

        Fig.4 Time domain waveform of background sound separation

        將時(shí)域波形圖轉(zhuǎn)化為二維時(shí)頻功率譜并進(jìn)行對比分析,結(jié)果如圖5~圖9所示。從圖5、圖6可以看出,真實(shí)人聲比分離人聲略多出細(xì)微毛刺,形狀極為相似,且圖6結(jié)果可驗(yàn)證在訓(xùn)練階段忽略大于頻率F的高頻部分以減少訓(xùn)練參數(shù)量完全可行,原因是高頻部分信號的能量值小(近乎為0)且人耳聽覺對其不敏感。

        圖5 混合語音信號二維時(shí)頻功率譜

        Fig.5 Two dimensional time-frequency power spectrum of mixed speech signal

        圖6 真實(shí)人聲二維時(shí)頻功率譜

        Fig.6 Two dimensional time-frequency power spectrum of real human voice

        圖7 真實(shí)分離人聲二維時(shí)頻功率譜

        Fig.7 Two dimensional time-frequency power spectrum of real separated human voice

        圖8 背景音二維時(shí)頻功率譜

        Fig.8 Two dimensional time-frequency power spectrum of background sound

        圖9 分離背景音二維時(shí)頻功率譜

        Fig.9 Two dimensional time-frequency power spectrum of separated background sound

        4 結(jié)束語

        本文提出一種應(yīng)用于單聲道語音信號分離的生成對抗網(wǎng)絡(luò)深度學(xué)習(xí)方法。將時(shí)頻掩蔽與目標(biāo)語音信號的幅度譜融入到神經(jīng)網(wǎng)絡(luò)中,作為生成器中的學(xué)習(xí)目標(biāo),并將生成的語音信號輸入至判別器進(jìn)行分類,以降低信號源之間的擾動。實(shí)驗(yàn)結(jié)果表明,相對傳統(tǒng)非負(fù)矩陣分解以及深度神經(jīng)網(wǎng)絡(luò)等方法,該方法具有更好的信號分離性能。在實(shí)際應(yīng)用中,測試環(huán)境與訓(xùn)練環(huán)境匹配率較低,因此,下一步將利用半監(jiān)督與聚類相結(jié)合的方式來解決信號源不對稱等問題。

        猜你喜歡
        人聲時(shí)頻時(shí)域
        阿卡貝拉人聲合唱團(tuán)的基本訓(xùn)練研究
        基于時(shí)域信號的三電平逆變器復(fù)合故障診斷
        愛樂之城
        民主(2017年3期)2017-05-12 09:48:52
        基于極大似然準(zhǔn)則與滾動時(shí)域估計(jì)的自適應(yīng)UKF算法
        基于時(shí)域逆濾波的寬帶脈沖聲生成技術(shù)
        基于時(shí)域波形特征的輸電線雷擊識別
        電測與儀表(2015年2期)2015-04-09 11:28:50
        基于時(shí)頻分析的逆合成孔徑雷達(dá)成像技術(shù)
        高中音樂選修課程《人聲極致“阿卡貝拉”》的開發(fā)和實(shí)施
        風(fēng)流者——他將雜沓人聲留在身后,張先生,走好
        小說月刊(2014年12期)2014-04-19 02:40:13
        對采樣數(shù)據(jù)序列進(jìn)行時(shí)頻分解法的改進(jìn)
        自拍偷自拍亚洲一区二区| 亚洲一区二区三区久久不卡| 水蜜桃视频在线观看免费18| 亚洲一区亚洲二区视频在线| 一本色道久久爱88av| 狠狠色丁香久久婷婷综合蜜芽五月| 久久中文字幕久久久久| 免费在线观看草逼视频| 伊人久久大香线蕉午夜av| 日韩高清在线观看永久| 国产一级三级三级在线视| 日本成年少妇人妻中文字幕| 色偷偷激情日本亚洲一区二区| 中文字幕在线观看亚洲日韩 | 国产精品毛片久久久久久l| 国产av在线观看91| 麻豆精品导航| 丰满人妻被黑人中出849| 96精品免费视频大全| 亚洲乱码中文字幕三四区| 国产乱妇无乱码大黄aa片| 亚洲av之男人的天堂| 青青手机在线视频观看| 国产在线一区二区三区四区不卡| 特黄特色的大片观看免费视频| 小12箩利洗澡无码视频网站| 久久综合加勒比东京热| а天堂中文在线官网在线| 999久久久免费精品国产| 久久精品视频按摩| 亚洲国产av一区二区四季| 伊人激情av一区二区三区| 免费无码中文字幕A级毛片| 亚洲美女一区二区三区三州| 亚洲精品无码专区| 亚洲国际无码中文字幕| 亚洲一区二区三区一站| 亚洲国产精品成人天堂| 成年午夜无码av片在线观看| 亚洲最大av免费观看| 女人av天堂国产在线|