亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度學(xué)習(xí)特征融合和聯(lián)合約束的單通道語音分離方法

        2022-09-22 03:36:36孫林慧梁文清李平安
        電子與信息學(xué)報(bào) 2022年9期
        關(guān)鍵詞:單通道約束語音

        孫林慧 王 燦 梁文清 李平安

        (南京郵電大學(xué)通信與信息工程學(xué)院 南京 210003)

        1 引言

        在日常生活中,語音是人類溝通的重要媒介之一。當(dāng)兩個(gè)說話人同時(shí)在講話時(shí),人類可以準(zhǔn)確分辨他們各自說了哪些話;但對于智能機(jī)器來說卻不是一件輕松的事情,這可能導(dǎo)致人機(jī)交互的體驗(yàn)變差。單通道語音分離是指將目標(biāo)語音從單個(gè)通道混合語音信號中分離出來,屬于盲源分離[1-3]的一個(gè)分支。經(jīng)典的基于短時(shí)譜估計(jì)的單通道語音分離算法有譜減法[4]、維納濾波法[5]等。隨著AI席卷全球?qū)W術(shù)研究的各個(gè)領(lǐng)域,深度學(xué)習(xí)得到了迅猛的發(fā)展。近年來,深度人工神經(jīng)網(wǎng)絡(luò)憑借其優(yōu)秀的建模能力、高度抽象的預(yù)測能力以及優(yōu)秀的關(guān)系映射能力,成為當(dāng)下計(jì)算機(jī)領(lǐng)域的寵兒。近幾年來,基于深度學(xué)習(xí)的單通道語音分離算法在語音分離領(lǐng)域中被廣泛的應(yīng)用和研究[6-10]。

        根據(jù)預(yù)測目標(biāo)的不同,基于深度學(xué)習(xí)的語音分離方法可分為基于時(shí)頻(T-F)掩蔽的方法和基于頻譜映射的方法?;跁r(shí)頻掩蔽的方法旨在學(xué)習(xí)從混合信號到時(shí)頻掩蔽的映射,然后使用估計(jì)的掩蔽和混合信號計(jì)算得到分離后的語音。Wang[11]于2005年提出了一種理想二值掩蔽(Ideal Binary Mask,IBM)作為訓(xùn)練目標(biāo),用于聽覺場景分析。IBM將語音分離問題抽象為一個(gè)二分類問題,如果一個(gè)時(shí)頻單元的信噪比超過了閾值就判定為1,否則為0。Kim等人[12]于2009年利用高斯混合模型(Gaussian Mixture Model, GMM)來學(xué)習(xí)目標(biāo)和干擾的概率分布,然后用貝葉斯分類器來估計(jì)IBM。Han等人[13]用支持向量機(jī)來估計(jì)IBM,實(shí)驗(yàn)得出用支持向量機(jī)估計(jì)IBM比基于GMM的效果要好。由于IBM是一種硬判決,很多時(shí)候會造成目標(biāo)語音信息丟失。因此,文獻(xiàn)[14]于2006年提出了一種比值型的訓(xùn)練目標(biāo),即理想比值掩蔽(Ideal Ratio Mask, IRM),該訓(xùn)練目標(biāo)可以基于能量、幅度、功率等的比值。大量的研究發(fā)現(xiàn),相比于IBM,IRM能夠更好地保留分離目標(biāo)的語音信息。Zhang等人[15]提出一種利用組合學(xué)習(xí)(Deep Neural Network, DNN)來預(yù)測IRM的方法,該方法層層疊加多個(gè)深度神經(jīng)網(wǎng)絡(luò)DNN,多層DNN聯(lián)合估計(jì),這使得估計(jì)的IRM更加準(zhǔn)確。Huang等人[16]構(gòu)建了一個(gè)用于語音分離的循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN),IRM作為一個(gè)處理層嵌入到網(wǎng)絡(luò)的輸出層,實(shí)驗(yàn)驗(yàn)證了該方法優(yōu)于NMF(Nonnegative Matrix Factorization)方法?;陬l譜映射的方法是一種從混合語音當(dāng)中直接學(xué)習(xí)目標(biāo)語音頻譜的估計(jì)方法。Du等人[17]利用輸入語音信號的信噪比正負(fù)性分別訓(xùn)練正負(fù)DNN,用于估計(jì)目標(biāo)語音的幅度譜,在分離系統(tǒng)后接入語音識別系統(tǒng)用來判斷分離語音質(zhì)量,實(shí)驗(yàn)驗(yàn)證該方法比基于GMM-HMMs模型的效果好。在此之后,Wang等人[18]又提出一種基于性別檢測的多DNN的無監(jiān)督單通道語音分離算法。首先利用DNN進(jìn)行性別組合檢測,然后在各個(gè)子類中選擇相應(yīng)的DNN分離模型用于估計(jì)目標(biāo)語音幅度譜,分離語音的質(zhì)量得到了提升。由于在一般場景中基于頻譜映射比基于時(shí)頻掩蔽的方法性能要差,目前基于深度神經(jīng)網(wǎng)絡(luò)的單通道語音分離算法大多基于時(shí)頻掩蔽方法。

        基于深度學(xué)習(xí)的語音分離算法是在損失函數(shù)約束下實(shí)現(xiàn)深度神經(jīng)網(wǎng)絡(luò)參數(shù)訓(xùn)練的,損失函數(shù)設(shè)置的好壞對系統(tǒng)性能有直接的影響。Li等人[19]提出了一種基于語音頻譜變化感知損失函數(shù)的DNN語音分離算法,該算法的損失函數(shù)與語音頻譜變換相關(guān),并引入了增益函數(shù),使得分離語音質(zhì)量比傳統(tǒng)方法要高。我們團(tuán)隊(duì)[20]提出了一種基于雙輸出DNN的單通道語音分離聯(lián)合約束算法,該算法的損失函數(shù)不僅約束了雙輸出的掩蔽誤差,還約束了雙輸出分離信號掩蔽的聯(lián)合關(guān)系,使得分離語音的性能得到了提升。傳統(tǒng)的基于掩蔽的單輸出語音分離算法的損失函數(shù)只考慮了預(yù)測掩蔽值和真實(shí)值的誤差,這使得分離后的語音與純凈語音之間誤差較大。本文提出了一種新的聯(lián)合約束損失函數(shù),該損失函數(shù)不僅約束了預(yù)測掩蔽值和真實(shí)值的誤差,還懲罰了預(yù)測值對應(yīng)幅度譜和目標(biāo)語音幅度譜之間的誤差。需要強(qiáng)調(diào)的是,文獻(xiàn)[20]針對的是雙輸出分離系統(tǒng),約束了雙輸出信號掩蔽間的聯(lián)合關(guān)系。而本文針對更常用的單輸出分離系統(tǒng),聯(lián)合約束了掩蔽和幅度譜的預(yù)測誤差,并且引入正則系數(shù)α調(diào)節(jié)二者的約束力度。另外,在單通道語音分離算法中,常常利用混合語音幅度譜作為輸入特征來訓(xùn)練分離模型,由于輸入特征單一,模型的分離效果有限。為了解決該問題,本文提出一種基于深度學(xué)習(xí)特征融合和聯(lián)合約束的單通道語音分離方法,該方法首先基于具有融合功能的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)得到融合特征,然后在聯(lián)合損失函數(shù)約束下訓(xùn)練語音分離模型來提升單通道語音分離效果。

        2 基于深度學(xué)習(xí)的單通道語音分離

        2.1 語音分離模型

        根據(jù)語音混合方式常用的語音分離模型分為兩種:線性混合語音模型和卷積混合語音模型。線性混合語音模型是指將多個(gè)語音信號線性加權(quán)疊加形成混合信號,這個(gè)過程不考慮語音信號之間的相關(guān)性和時(shí)延。卷積混合語音模型則是由各語音信號相互卷積而混合的信號模型,可能存在時(shí)延。本文研究的信號分離模型為線性混合模型,可以表示為

        2.2 基于深度學(xué)習(xí)的單通道語音分離架構(gòu)

        深度神經(jīng)網(wǎng)絡(luò)具有強(qiáng)大的數(shù)據(jù)挖掘能力,可以很好地映射網(wǎng)絡(luò)輸入輸出間的非線性關(guān)系。與傳統(tǒng)基于現(xiàn)代信號處理理論的單通道語音分離算法相比,基于深度學(xué)習(xí)的單通道語音分離算法在語音分離模型的構(gòu)建上更加準(zhǔn)確,語音分離也更加有效?;谏疃葘W(xué)習(xí)的單通道語音分離主要學(xué)習(xí)混合語音到預(yù)測目標(biāo)的映射關(guān)系,該映射關(guān)系由深度神經(jīng)網(wǎng)絡(luò)的參數(shù)決定。常用的深度神經(jīng)網(wǎng)絡(luò)有DNN, CNN和RNN等。CNN的卷積層提取小塊區(qū)域特征,可以很好地保留語音特征的空間信息,另外池化層對冗余信息進(jìn)行篩選,可以減少計(jì)算量,CNN具有更為出色的語音特征映射能力。以兩個(gè)源語音混合信號的分離為例,基于CNN網(wǎng)絡(luò)的單通道語音分離系統(tǒng)框圖如圖1所示。

        圖1 基于CNN的單通道語音分離系統(tǒng)框圖

        基于CNN網(wǎng)絡(luò)的語音分離包含兩個(gè)階段:訓(xùn)練階段和分離階段。在訓(xùn)練階段,提取兩個(gè)源語音信號的聲學(xué)特征以及兩源語音混合后信號的聲學(xué)特征,對其進(jìn)行歸一化等處理后,利用這些特征和預(yù)測目標(biāo)在損失函數(shù)的約束下訓(xùn)練CNN。在測試階段,首先提取混合語音的聲學(xué)特征,然后將其作為訓(xùn)練好的CNN的輸入得到分離語音的預(yù)測目標(biāo),結(jié)合相位信息得到頻域信號,最后通過短時(shí)傅里葉逆變換得到重構(gòu)語音的時(shí)域波形。

        3 基于CNN特征融合的單通道語音分離聯(lián)合約束算法

        3.1 具有融合功能的CNN分離模型

        在基于傳統(tǒng)CNN結(jié)構(gòu)的語音分離中,當(dāng)輸入單一特征時(shí)得到的分離語音質(zhì)量有限。主要由于CNN對語音特征信息進(jìn)行高度抽象化,導(dǎo)致部分全局信息丟失。為了提高分離語音的質(zhì)量,本文提出了一種含特征融合層的CNN結(jié)構(gòu),該結(jié)構(gòu)在傳統(tǒng)CNN基礎(chǔ)上增加了特征融合層,利用CNN提取多通道輸入特征的深度特征,在融合層中將深度特征與聲學(xué)特征融合,該融合特征用于訓(xùn)練語音分離模型。

        受圖像信號RGB處理方式啟發(fā),本文將語音多種聲學(xué)特征以多通道形式作為CNN的輸入,提取語音更加全面的深度特征。在基于深度學(xué)習(xí)的單通道語音分離中,混合信號的幅度譜是最常見的輸入特征[17];另外,由于本文最終需要重建目標(biāo)語音幅度譜,輸入多種與幅度譜相關(guān)的特征可以捕捉到多元化的目標(biāo)語音信息,便于高質(zhì)量重建分離目標(biāo)?;谶@兩方面的考慮,本文將歸一化后語音信號的幅度譜特征、功率譜特征以及對數(shù)功率譜特征作為CNN的3通道輸入用于提取深度特征。這里的多通道輸入語音的多個(gè)特征,其實(shí)也是一種在特征維度方面的融合,可以使提取的高度抽象深度特征具有更豐富的表征能力。

        為了充分利用多種特征的互補(bǔ)性,本文在傳統(tǒng)的CNN架構(gòu)中加入了一個(gè)特征融合層,用于將CNN提取的語音深度特征和語音的幅度譜特征進(jìn)行融合。這樣做不僅可以彌補(bǔ)CNN多層特征提取造成的全局特征信息丟失,而且讓分離模型的特征更加豐富。這里選擇幅度譜特征與深層特征融合是有考究的,首先所使用的特征必須具有表征語音信號全局信息的能力,幅度譜特征具備此能力;其次所選取的特征必須與深層特征有相關(guān)性,由于語音的幅度譜特征也是CNN的輸入之一,所以與深層特征一定相關(guān);另外,模型的輸出IRM是為了重構(gòu)目標(biāo)語音的幅度譜,因此相對于在幅度譜基礎(chǔ)上計(jì)算得到的功率譜和對數(shù)功率譜特征,幅度譜特征與重建目標(biāo)更具有直接相關(guān)性。本文提出的含融合層的CNN語音分離模型結(jié)構(gòu)框圖如圖2所示,該圖展示了含有2個(gè)卷積層、2個(gè)池化層、1個(gè)融合層和1個(gè)全連接層的用于語音分離的卷積神經(jīng)網(wǎng)絡(luò)。首先提取語音的多種聲學(xué)特征,以多通道的方式輸入到CNN中,然后通過多組的“卷積+池化”操作提取輸入特征的深度特征。經(jīng)過CNN提取的深度特征進(jìn)行拉平操作后得到1維特征,然后在融合層將深度特征和混合語音的原始輸入特征融合作為全連接層的輸入,最后得到分離語音的掩蔽或幅值。

        圖2 含融合層的CNN語音分離模型

        含融合層的CNN結(jié)構(gòu)具體設(shè)計(jì):為了挖掘語音信號幀間的空間信息,首先將每個(gè)通道相鄰2幀512維的信號合并成1024維,再將其轉(zhuǎn)化為32 ×32的特征,最后形成3通道的3 × 32 × 32的聲學(xué)特征。然后選取2個(gè)卷積層和2個(gè)池化層,對輸入的3通道特征提取深層特征。第1層的3個(gè)卷積核的大小是3 × 3,池化核的大小是2 × 2的,步長是1。因?yàn)椴捎昧藀adding操作,輸出特征的大小變?yōu)? ×32 × 32。第2層卷積核的大小是1 × 1,池化核的大小是2 × 2,步長是2,輸出特征大小為1 × 16 ×16。得到深層特征后,利用flatten操作將其轉(zhuǎn)化為大小為256 × 1的特征。然后將深層特征和512 ×1的混合語音幅度譜特征在融合層進(jìn)行融合得到768 × 1的融合特征,作為全連接層的輸入。全連接網(wǎng)絡(luò)的結(jié)構(gòu)是768-1024-1024-512。需要說明的是,由于挖掘空間信息時(shí)打破了語音信號的時(shí)序性,因此深度特征與幅度譜特征融合既可以利用空間信息又可以保證時(shí)序性信息不丟失。

        3.2 具有聯(lián)合約束作用的損失函數(shù)

        在大多數(shù)基于深度學(xué)習(xí)的單通道語音分離算法中,由于語音分離任務(wù)是一種線性回歸的深度學(xué)習(xí)預(yù)測過程,一般采用最小均方誤差(Minimum Mean Squared Error, MMSE)作為損失函數(shù)的誤差測量標(biāo)準(zhǔn)。通用的損失函數(shù)可以表示為

        CNN分離模型的訓(xùn)練包含兩個(gè)過程,即前向傳播(Forward Propagation, FP)和反向傳播(Backward Propagation, BP)。CNN的FP階段是通過隨機(jī)初始化權(quán)重和偏置粗略估計(jì)輸出的過程。輸入特征利用每層網(wǎng)絡(luò)參數(shù)進(jìn)行線性加權(quán)運(yùn)算,在激活函數(shù)作用下得到該層的輸出。再依次向后面的網(wǎng)絡(luò)層傳播,最后得到輸出層的預(yù)測值。BP與FP階段的差別在于計(jì)算的起點(diǎn)不同,BP從輸出層出發(fā),從后向前反向運(yùn)算,控制反向調(diào)參的主體是損失函數(shù)。通過梯度下降算法對損失函數(shù)進(jìn)行尋優(yōu),使目標(biāo)損失函數(shù)盡可能接近最小值。每個(gè)訓(xùn)練周期不斷調(diào)整各層網(wǎng)絡(luò)的權(quán)重和偏置逐步完成整個(gè)網(wǎng)絡(luò)的訓(xùn)練。本文CNN分離模型的全連接層在MMSE準(zhǔn)則下每幀信號的損失函數(shù)為

        3.3 基于CNN特征融合的單通道語音分離聯(lián)合約束算法

        本文提出的基于CNN特征融合的單通道語音分離聯(lián)合約束算法包含3個(gè)階段:訓(xùn)練階段、分離階段和語音重構(gòu)階段,以估計(jì)第1個(gè)目標(biāo)信號為例,具體流程見表1。在訓(xùn)練階段,首先提取語音的多個(gè)幅度相關(guān)聲學(xué)特征,作為CNN的多通道輸入來提取深度特征;然后與語音信號幅度譜特征在融合層進(jìn)行融合,將融合后特征作為全連接網(wǎng)絡(luò)的輸入;最后以IRM為目標(biāo)在聯(lián)合約束損失函數(shù)(式(3))的約束下,利用整合優(yōu)化算法尋優(yōu)語音分離模型。IRM的計(jì)算公式可以表示為

        表1 基于CNN特征融合的單通道語音分離聯(lián)合約束算法流程

        在分離階段輸入測試混合語音的3通道特征,經(jīng)過訓(xùn)練好的具有融合功能的CNN網(wǎng)絡(luò),得到分離語音的IRM估計(jì)值。在語音重構(gòu)階段,將IRM估計(jì)值與混合語音的幅度譜相乘得到估計(jì)的目標(biāo)幅度譜:

        4 實(shí)驗(yàn)仿真

        本文采用的語音庫是GRID[21],該語料庫的語種是英文,由34個(gè)說話人(18位男性和16位女性)組成,每個(gè)說話人錄有1000條語句,每條語句的持續(xù)時(shí)間大概為1~2 s左右。實(shí)驗(yàn)的訓(xùn)練集、測試集、驗(yàn)證集都來自此語料庫。整個(gè)實(shí)驗(yàn)的任務(wù)是對兩個(gè)說話人的混合語音進(jìn)行分離,因此基于性別進(jìn)行劃分可分為男-男組合、男-女組合、女-女組合,因此至少需要2位男性和2位女性。實(shí)驗(yàn)中,從整個(gè)語料庫中隨機(jī)選取2位男性和2位女性的語音,每2個(gè)人的語音以混合系數(shù)為1進(jìn)行疊加構(gòu)成混合信號1000條。在這1000條混合語音中,隨機(jī)選取500條語句作為訓(xùn)練集,然后在余下的500條語句中選擇100條語句作為驗(yàn)證集,剩下的400條語句中隨機(jī)選擇50條語句作為測試集,實(shí)驗(yàn)結(jié)果是50條語句結(jié)果的平均值。每條語音的采樣率為25 kHz,這里將語音的采樣率下采樣到16 kHz,通過512點(diǎn)STFT獲得語音的幅度譜,窗函數(shù)使用的是窗長為512的漢明窗,幀移為1/2的窗長。

        本文采用多個(gè)語音指標(biāo)來衡量所提算法的準(zhǔn)確性和有效性,包括PESQ, SDR和STOI,這些指標(biāo)的數(shù)值與語音分離性能都是正相關(guān)的。

        4.1 實(shí)驗(yàn)超參數(shù)設(shè)置

        (1)損失函數(shù)的正則化系數(shù)對于分離性能的影響。由于不同性別組合聯(lián)合約束的約束程度不同,本小節(jié)分析正則項(xiàng)系數(shù)α對3種性別組合的影響程度。從語料庫中隨機(jī)選取2男2女的語料混合作為實(shí)驗(yàn)對象,這里可劃分成3個(gè)性別組合,分別是男-男(M-M)、男-女(F-M)和女-女(F-F)。α的取值范圍為[0,1],每次遞增0.1。這里以分離后語音的PESQ為例討論正則項(xiàng)系數(shù)α對語音分離性能影響,實(shí)驗(yàn)結(jié)果如圖3所示。

        從圖3可以看出,本文提出的聯(lián)合約束的正則項(xiàng)對語音分離性能提升有明顯作用。當(dāng)α=0時(shí)就是傳統(tǒng)損失函數(shù)的分離性能,當(dāng)α>0時(shí)是聯(lián)合損失函數(shù)的分離性能,增加的正則項(xiàng)對損失函數(shù)的約束起到了很好的提升效果。當(dāng)α<0.5時(shí),3種組合的分離語音PESQ都是隨著α的增大而增加,在FM組合下增長速度最為明顯,這表明在一定范圍內(nèi),這個(gè)正則項(xiàng)對損失函數(shù)都是有約束作用的,約束程度隨著α的調(diào)節(jié)而改變。但α并不是越大越好,在F-F組合中,當(dāng)α>0.7之后,分離語音質(zhì)量降低;在F-M組合中,當(dāng)α>0.5之后,分離語音質(zhì)量降低;在M-M組合中,當(dāng)α>0.7之后,分離語音質(zhì)量降低。這表明,不同性別組合語音特征的差異性使得最佳約束力度不相同。因此在不同的性別組合分離實(shí)驗(yàn)當(dāng)中設(shè)置不同的正則化系數(shù),F(xiàn)-M組合時(shí)α=0.5, F-F和M-M組合時(shí)α=0.7。

        圖3 不同正則化系數(shù)對應(yīng)的分離語音PESQ

        (2)CNN超參數(shù)設(shè)置。本小節(jié)從卷積層的個(gè)數(shù)和池化層的池化方式角度分析CNN的超參數(shù)設(shè)置。在這兩個(gè)參數(shù)對比實(shí)驗(yàn)中,以F-F組合實(shí)驗(yàn)結(jié)果為例進(jìn)行展示。

        首先通過實(shí)驗(yàn)驗(yàn)證了當(dāng)CNN結(jié)構(gòu)中含有兩個(gè)卷積層時(shí),語音分離的效果較好。CNN卷積層的個(gè)數(shù)分別為1, 2和3時(shí)的實(shí)驗(yàn)結(jié)果如圖4所示。實(shí)驗(yàn)中使用1層卷積的卷積核大小是3 × 3;使用兩層卷積時(shí)第1層卷積核大小也為3 × 3,第2層卷積核設(shè)置為1 × 1的大小,這樣可以保持特征的維度不變;使用3層卷積時(shí),第1層卷積核的大小是3 × 3,第2層和第3層卷積核大小都為1 × 1。從圖4可以看出,以SDR為指標(biāo)時(shí),兩個(gè)卷積層的分離效果比單個(gè)卷積層要高1.54 dB;然而使用3個(gè)卷積層比2個(gè)卷積層的分離性能略微有些下降,這是因?yàn)榫矸e層過多容易造成全局特征信息過度丟失。因此,后續(xù)實(shí)驗(yàn)中的CNN結(jié)構(gòu)都使用兩個(gè)卷積層來提取深度特征。

        圖4 選取不同卷積層數(shù)的性能比較

        然后考察池化層池化方式對分離語音性能的影響。池化核的大小選取要得當(dāng),否則在進(jìn)行均值池化或者最大值池化時(shí),會造成語音信號特征的信息由于壓縮降維產(chǎn)生信息丟失的問題。實(shí)驗(yàn)中使用池化核的大小為2 × 2,步長大小為1。使用的兩種池化方式的實(shí)驗(yàn)結(jié)果如圖5所示??梢钥吹?,在使用平均池化時(shí)比使用最大值池化時(shí),分離語音的效果要好,在SDR, PESQ和STOI指標(biāo)上分別高了0.70 dB,0.15和0.08。因此,本文后續(xù)實(shí)驗(yàn)使用均值池化方式。

        圖5 池化方式的性能比較

        4.2 與單輸入和無融合層的算法對比

        (1)與單通道單一輸入特征CNN分離算法對比。為了解決在單一特征輸入時(shí)語音分離模型的分離性能提升有限的問題,選擇多種與幅度譜相關(guān)的聲學(xué)特征作為CNN的輸入。用于對比實(shí)驗(yàn)的兩個(gè)含有融合層的CNN除了輸入特征不一樣外,其他部分的設(shè)置相同。輸入特征都是歸一化聲學(xué)特征,單通道輸入是512點(diǎn)幅度譜特征,多通道輸入是幅度譜特征、功率譜特征以及對數(shù)功率譜特征構(gòu)成的3 ×512的多特征。實(shí)驗(yàn)結(jié)果如圖6所示。

        從圖6可以看出,多通道的多輸入特征在每個(gè)性別組合實(shí)驗(yàn)中的分離性能都表現(xiàn)得比單通道的單一輸入特征的分離性能要好,最明顯的差異是在SDR這個(gè)指標(biāo)上,在M-M, F-M, F-F這3個(gè)性別組合中分別高了1.14 dB, 1.76 dB, 0.80 dB,也可以看出本算法針對F-M性別組合分離的能力更出色一些。實(shí)驗(yàn)結(jié)果驗(yàn)證了使用多通道多特征用于提取深度特征的效果比單通道單一特征的效果要好,主要因?yàn)檩斎雴我坏姆茸V特征包含的語音信息相對較少,導(dǎo)致高度抽象的深度特征表征的語音信息不豐富,后續(xù)實(shí)驗(yàn)使用多通道多特征。另外,無論輸入的是單一特征還是多通道特征,F(xiàn)-M組合的分離效果要比其他兩個(gè)性別組合的分離效果要好,說明異性相對同性更容易區(qū)分;M-M性別組合的分離效果稍微比F-F組合差一點(diǎn),由于兩說話人是隨機(jī)選取的,兩說話人的語音相似度可能導(dǎo)致不同性別組合分離性能不一。

        圖6 多通道多特征與單通道單一特征性能對比

        (2)與不含特征融合層的CNN語音分離算法對比。對本文提出算法與沒有特征融合的CNN分離算法進(jìn)行性能對比,驗(yàn)證在傳統(tǒng)的CNN結(jié)構(gòu)中加入特征融合層的有效性。兩個(gè)網(wǎng)絡(luò)模型都使用3通道特征作為輸入,使用的卷積核與池化層的設(shè)置相同,CNN最后的拉平操作的維度都是256維,最后的全連接網(wǎng)絡(luò)層的設(shè)置也相同。區(qū)別主要在全連接層的輸入,一個(gè)是深度特征和聲學(xué)特征的融合特征,一個(gè)是深度特征。實(shí)驗(yàn)的結(jié)果如圖7所示。

        從圖7可以看出,本文提出的含有特征融合層算法在分離性能上比沒有特征融合的CNN分離算法的性能要好。無論是哪種性別組合下沒有特征融合的CNN分離算法的分離效果都非常得不理想。特別在F-M實(shí)驗(yàn)中本文算法在SDR, PESQ, STOI上與對比算法相比分別提升了4.45 dB, 1.01, 0.27?;趥鹘y(tǒng)的CNN架構(gòu)的算法中,CNN能夠提取到語音信號的深度特征,但是在卷積層提取特征時(shí)一些淺層的聲學(xué)特征信息被丟失了,從而損失了語音的一些全局信息特征。另外,語音分離任務(wù)是預(yù)測分離后的語音或者比值掩蔽,較少維數(shù)的深度特征不能準(zhǔn)確地表征語音信號的所有信息,導(dǎo)致分離模型的性能較低。本文方法將深度特征與淺層聲學(xué)特征相融合,可以彌補(bǔ)信息丟失問題,使得語音分離模型能夠更加準(zhǔn)確地分離和重構(gòu)語音。

        圖7 有無特征融合層的CNN分離效果對比

        4.3 與其他算法的對比實(shí)驗(yàn)

        (1)與基于聯(lián)合約束DNN架構(gòu)的語音分離方法比較。本文方法與文獻(xiàn)[20]中DNN架構(gòu)方法進(jìn)行對比。為了更好地驗(yàn)證在本文提出的聯(lián)合約束下使用CNN來提取語音信號的融合特征是優(yōu)秀的,單輸出的DNN架構(gòu)的單通道語音分離模型也采用本文的聯(lián)合約束損失函數(shù)?;诼?lián)合約束DNN架構(gòu)的單通道語音分離的輸入特征是歸一化的混合語音幅度譜,采用的DNN結(jié)構(gòu)是512-1024-1024-1024-512,即輸入輸出層有512個(gè)神經(jīng)元節(jié)點(diǎn),有3個(gè)隱層,每個(gè)隱層的神經(jīng)元節(jié)點(diǎn)個(gè)數(shù)是1024。本文方法利用CNN提取功率譜、對數(shù)功率譜和幅度譜的深度特征,然后再與語音的幅度譜融合作為全連接層的輸入。實(shí)驗(yàn)所得到的結(jié)果如表2所示。

        從表2可以看到,對于3種性別組合方式,基于CNN特征融合的單通道語音分離算法都比基于DNN的單通道語音分離算法的表現(xiàn)要好。F-M性別組合實(shí)驗(yàn)的效果是最好的,因?yàn)槟行哉Z音信號和女性語音信號的差異性較大,他們混合之后的幅度譜的貼合沒有同性別組合的那么緊密,因此相對于同性別組合來說更容易分離。本文提出的基于CNN特征融合的方法相比于基于DNN的方法的分離性能,在SDR, PESQ以及STOI指標(biāo)上F-M組合分別提升了1.7 dB, 0.26和0.08,F(xiàn)-F組合中分別提升了1.1 dB, 0.26和0.08,M-M組合中分別提升了0.9 dB,0.27和0.06。這說明,利用CNN提取的語音信號深層特征和幅度譜特征的融合起了效果,使得分離語音的質(zhì)量得到了提升。整體算法在短時(shí)客觀可懂度(STOI)上有提升但不大,主要是因?yàn)樵撝档姆秶褪窃?和1之間。本次選取的兩個(gè)女性組合的實(shí)現(xiàn)效果比較好,最主要的原因是兩個(gè)選取的說話人語音之間的相似度比較低,比較容易區(qū)分,因此分離的效果比較好,而選擇的兩位男性說話人的語音相似度比較高,因此分離的效果略低于女性別組合方式??梢园l(fā)現(xiàn)同性別下信號相似度影響語音分離性能。但整體來說,所提出的算法優(yōu)于基于DNN的算法,分離語音性能有了進(jìn)一步的提升。另外,從男女混合信號中恢復(fù)的語音信號的時(shí)域波形圖如圖8所示,可以看出,與基于DNN的單通道語音分離算法相比,無論是男生語音還是女生語音,本文方法恢復(fù)的語音信號波形與純凈語音波形的包絡(luò)更加接近。

        圖8 本文方法和文獻(xiàn)[20]時(shí)域波形對比

        表2 本文方法與基于DNN方法性能對比

        (2)與其他損失函數(shù)和其他訓(xùn)練目標(biāo)的性能比較。首先對文獻(xiàn)[15]使用的損失函數(shù)和本文的聯(lián)合約束損失函數(shù)進(jìn)行語音分離實(shí)驗(yàn),并對它們的分離性能進(jìn)行比較分析,來驗(yàn)證所提的聯(lián)合約束損失函數(shù)可以提高分離語音的質(zhì)量。然后將本文所提算法用于文獻(xiàn)[17]中以TMS為目標(biāo)的語音分離,來觀察本文算法在不同的訓(xùn)練目標(biāo)下的分離性能差異。實(shí)驗(yàn)結(jié)果如表3所示。

        表3 不同損失函數(shù)和訓(xùn)練目標(biāo)性能對比

        從表3可以觀察到不同的損失函數(shù)對于本文所提算法的分離性能的影響是很大的,所提出的聯(lián)合約束函數(shù)對于本文算法的網(wǎng)絡(luò)結(jié)構(gòu)的參數(shù)訓(xùn)練有很強(qiáng)的指導(dǎo)作用。當(dāng)以IRM為目標(biāo)時(shí),本文基于聯(lián)合約束損失函數(shù)的分離效果比文獻(xiàn)[15]損失函數(shù)的分離效果要突出,在F-F性別組合下SDR, PESQ和STOI上分別高了1.44 dB, 0.22和0.06。在F-M性別組合下SDR, PESQ和STOI上分別高了0.93 dB,0.23和0.07。在M-M性別組合下SDR, PESQ和STOI上分別高了1.09 dB, 0.12和0.07。由于STOI指標(biāo)的范圍在0到1之間,性能提高數(shù)值表現(xiàn)上相對不太明顯。另外,3種性別組合下以IRM為訓(xùn)練目標(biāo)比文獻(xiàn)[17]以TMS為訓(xùn)練目標(biāo)的分離效果要好。而且TMS對于在F-F和M-M這兩組性別實(shí)驗(yàn)中得到的分離效果基本相近,但在以IRM為訓(xùn)練目標(biāo)的這兩組性別實(shí)驗(yàn)中,F(xiàn)-F的分離性能是要優(yōu)于M-M的分離性能的,這是因?yàn)門MS是直接預(yù)測分離目標(biāo)的幅度譜,對單通道兩分離語音信號之間的相似度比較敏感,容易受其影響??傊?,在本文提出的具有聯(lián)合約束關(guān)系的損失函數(shù)的指導(dǎo)下,訓(xùn)練出來的分離模型的分離性能要比其他損失函數(shù)的優(yōu)越。本文提出的基于CNN特征融合和聯(lián)合約束的單通道語音分離算法是非常優(yōu)秀的。

        5 結(jié)束語

        本文針對輸入單一特征和基于傳統(tǒng)損失函數(shù)訓(xùn)練分離模型時(shí)分離語音質(zhì)量提升有限的問題,提出了基于CNN特征融合的單通道語音分離聯(lián)合約束算法。該算法在傳統(tǒng)的損失函數(shù)基礎(chǔ)上,通過增加一個(gè)正則項(xiàng)對網(wǎng)絡(luò)參數(shù)進(jìn)行聯(lián)合約束,不僅使預(yù)測的比值掩蔽接近理想值,而且使恢復(fù)出的目標(biāo)信號幅度譜和實(shí)際的幅度譜接近,從而提高了分離模型的準(zhǔn)確性。另外,該算法充分利用CNN在提取深層次特征時(shí)的出色能力,首先提取了多通道聲學(xué)特征的深度特征,然后再將混合信號的幅度譜特征與深度特征在融合層進(jìn)行融合來訓(xùn)練分離模型。由于輸入的特征所包含的語音信息更加豐富,因此語音分離系統(tǒng)性能進(jìn)一步得到了提升。實(shí)驗(yàn)結(jié)果表明,本文所提算法可以有效提升分離語音的清晰度和可懂度。

        猜你喜歡
        單通道約束語音
        基于聯(lián)合聚類分析的單通道腹部心電信號的胎心率提取
        “碳中和”約束下的路徑選擇
        約束離散KP方程族的完全Virasoro對稱
        魔力語音
        基于MATLAB的語音信號處理
        電子制作(2019年14期)2019-08-20 05:43:38
        基于MQ3與MP3的價(jià)廉物美的酒駕語音提醒器
        電子制作(2019年9期)2019-05-30 09:42:10
        對方正在輸入……
        小說界(2018年5期)2018-11-26 12:43:42
        基于擴(kuò)頻碼周期性的單通道直擴(kuò)通信半盲分離抗干擾算法
        適當(dāng)放手能讓孩子更好地自我約束
        人生十六七(2015年6期)2015-02-28 13:08:38
        采用6.25mm×6.25mm×1.8mm LGA封裝的雙通道2.5A、單通道5A超薄微型模塊穩(wěn)壓器
        中文字幕久无码免费久久| 亚洲国产国语对白在线观看 | 国产69精品久久久久999小说| 国产一区二区精品在线观看| 亚洲中文字幕有码av| 狼人伊人影院在线观看国产| 五月丁香综合激情六月久久| 国内大量揄拍人妻在线视频| 涩涩国产在线不卡无码| 蜜桃视频羞羞在线观看| av色欲无码人妻中文字幕| vr成人片在线播放网站| 国产av无码专区亚洲aⅴ| 亚洲成人激情深爱影院在线| 男女做爰高清免费视频网站| 99久久免费看少妇高潮a片特黄| 国产精品无码mv在线观看| 日韩av在线不卡一区二区| 日韩精品久久无码中文字幕| 狠狠躁夜夜躁人人爽超碰97香蕉| 国产精品日韩中文字幕| 久久99热只有频精品8国语| 欧美成人在线视频| 亚洲国产精品国自产电影| 日韩av综合色区人妻| 亚洲人成网站在线播放2019| 亚洲美免无码中文字幕在线| 狠狠综合亚洲综合亚色| av在线高清观看亚洲| 免费无码a片一区二三区| 久久国产精品国产精品日韩区 | 日韩无码视频淫乱| 日本成人三级视频网站| 亚洲深深色噜噜狠狠网站 | 国产欧美精品在线一区二区三区| av成人资源在线播放| 成人免费自拍视频在线观看| 亚洲av无码一区二区三区四区 | 国产精品反差婊在线观看| 国产丝袜美腿在线播放| 男人进去女人爽免费视频|