亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于嵌入式注意機(jī)制的目標(biāo)語(yǔ)音提取算法

        2023-10-28 10:47:20郭志楷楊明堃蔣國(guó)峰劉歡歡馬紅強(qiáng)
        計(jì)算機(jī)測(cè)量與控制 2023年10期
        關(guān)鍵詞:語(yǔ)音混合函數(shù)

        郭志楷,楊明堃,蔣國(guó)峰,陶 祁,劉歡歡,馬紅強(qiáng)

        (空軍工程大學(xué)航空機(jī)務(wù)士官學(xué)校 航空電子工程系,河南 信陽(yáng) 464099)

        0 引言

        單聲道語(yǔ)音分離是將說話人語(yǔ)音信號(hào)從混合語(yǔ)音中分離出來,也被稱為雞尾酒會(huì)問題[1]。人類的聽覺系統(tǒng)可以很容易的從混合語(yǔ)音中分離感興趣的源信號(hào),但是這對(duì)于計(jì)算機(jī)識(shí)別系統(tǒng)來講并不容易,尤其是在單聲道情況下,提取目標(biāo)語(yǔ)音非常困難。因而關(guān)于語(yǔ)音信號(hào)處理的大多數(shù)研究都集中在單聲道語(yǔ)音分離(SCSS,single channel speech separation)[2-4]。非負(fù)矩陣分解(NMF,nonnegative matrix factorization)[5]和計(jì)算聽覺場(chǎng)景分析(CASA,computational auditory scene analysis)[6]都是SCSS的常用方法。在文獻(xiàn)[5]中,NMF為每個(gè)源都訓(xùn)練一個(gè)非負(fù)基的集合,以此來進(jìn)行語(yǔ)音分離。在文獻(xiàn)[6]中,CASA由語(yǔ)音的客觀質(zhì)量評(píng)估(OQAS,objective quality assessment of speech)指導(dǎo),解決了語(yǔ)音質(zhì)量與分離過程相結(jié)合的問題。但是對(duì)于多個(gè)說話人混合的語(yǔ)音,NMF和CASA取得的分離效果有限。

        近幾年,深度學(xué)習(xí)技術(shù)在很多領(lǐng)域都得到了很好的應(yīng)用。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,研究學(xué)者們已經(jīng)提出了很多基于深度學(xué)習(xí)的語(yǔ)音分離方法[7-10],SCSS技術(shù)取得了很大的進(jìn)步?;谏疃壬窠?jīng)網(wǎng)絡(luò)(DNN,deep neural network)的語(yǔ)音分離通常在以下3種情況下應(yīng)用:1)聲音與樂器之間的分離;2)多個(gè)說話者的分離;3)嘈雜語(yǔ)音的分離。基于DNN的單聲道語(yǔ)音大體可分為兩種主要形式,第一種是將混合信號(hào)的特征直接通過DNN映射到源信號(hào)的特征[11],第二種是將混合信號(hào)映射到各種頻譜掩蔽,以解釋混合信號(hào)中每個(gè)源的貢獻(xiàn)。眾多研究表明,二進(jìn)制掩蔽相比較比例掩蔽分離性能低,比例掩蔽表示混合信號(hào)中源信號(hào)所占的真實(shí)能量比[12]。大多數(shù)關(guān)于混合語(yǔ)音的分離研究,都是針對(duì)所有源信號(hào)的分離。然而在實(shí)際情況下,例如,單個(gè)揚(yáng)聲器向個(gè)人移動(dòng)設(shè)備發(fā)出語(yǔ)音查詢,或者自動(dòng)語(yǔ)音識(shí)別設(shè)備對(duì)說話人的語(yǔ)音識(shí)別,在這些場(chǎng)景下更傾向于恢復(fù)單個(gè)目標(biāo)揚(yáng)聲器,同時(shí)降低噪聲和干擾揚(yáng)聲器的影響,這個(gè)問題被定義為目標(biāo)說話人提取[13-14]。與語(yǔ)音分離相比,提取目標(biāo)說話者可以有效解決置換不變訓(xùn)練(PIT,permutation invariant training)[15]、說話者數(shù)量未知的說話人跟蹤等問題。當(dāng)網(wǎng)絡(luò)僅專注于目標(biāo)說話者語(yǔ)音提取時(shí),總體分離性能可能會(huì)更好。

        大多數(shù)針對(duì)提取目標(biāo)說話人的研究,都是在目標(biāo)說話人語(yǔ)音基礎(chǔ)上只訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò),以此建立專門用來提取說話人的模型[16-18]。在這些提取模型的訓(xùn)練過程中,目標(biāo)說話者和干擾者的語(yǔ)音都被使用,而訓(xùn)練的目的只是為了估計(jì)目標(biāo)說話人的掩蔽,單一的網(wǎng)絡(luò)難以充分考慮語(yǔ)音樣本的深度特征。

        Zhao等人[19]發(fā)現(xiàn)頻譜映射在去混響中比時(shí)頻掩蔽更有效,而掩蔽在去噪和分離方面比頻譜映射更好。因此構(gòu)造了兩個(gè)階段的DNN,其中第一階段執(zhí)行掩蔽去噪,第二階段執(zhí)行頻譜映射去混響。受此啟發(fā),利用這兩種方法的優(yōu)點(diǎn),可以開發(fā)一個(gè)包含頻譜特征映射分離和掩蔽提取功能的框架,可在目標(biāo)說話人提取過程中同時(shí)融入這兩種方法的優(yōu)勢(shì)[20]。與單一網(wǎng)絡(luò)相比,聯(lián)合網(wǎng)絡(luò)識(shí)別目標(biāo)語(yǔ)音的精度更高[21]。

        本文著重進(jìn)行了目標(biāo)說話人語(yǔ)音提取研究,提出了一個(gè)包含語(yǔ)音分離和提取相結(jié)合的注意機(jī)制模型,基于語(yǔ)音數(shù)據(jù)的迭代訓(xùn)練過程,仿真了模型訓(xùn)練的收斂性,利用訓(xùn)練好的網(wǎng)絡(luò)模型進(jìn)行了目標(biāo)說話人語(yǔ)音提取實(shí)驗(yàn),并給出部分實(shí)驗(yàn)的處理結(jié)果。

        1 語(yǔ)音提取問題描述

        對(duì)于單聲道語(yǔ)音提取問題,可理解為從線性混合的單聲道語(yǔ)音y(t)中提取目標(biāo)說話人語(yǔ)音s0(t)的過程?;旌闲盘?hào)為:

        (1)

        式中,si(t)為任何數(shù)量的干擾者語(yǔ)音或者是噪聲(在實(shí)驗(yàn)中考慮了干擾者);i=1,2,…,I為干擾說話人或者是噪聲的索引。

        通過短時(shí)傅里葉變換(STFT,short time fourier transform)將混合信號(hào)y(t)轉(zhuǎn)化為Y(t,f):

        (2)

        式中,t和f分別為時(shí)間和頻率索引;Y(t,f)、S0(t,f)和Si(t,f)分別為y(t)、s0(t)和si(t)在時(shí)頻域的表示。

        在語(yǔ)音增強(qiáng)[22-23]和語(yǔ)音分離[24-25]的研究中表明,對(duì) DNN訓(xùn)練時(shí),采用信號(hào)幅度譜近似(SA,signal approximation)損失收斂方法比理想比例掩蔽(IRM,ideal ratio mask)和估計(jì)的幅值譜掩蔽(SMM,spectral magnitude mask)之間的近似損失收斂方法性能更好。

        (3)

        (4)

        2 目標(biāo)值

        在基于DNN的監(jiān)督語(yǔ)音分離系統(tǒng)中,語(yǔ)音的分離工作通常分兩階段進(jìn)行,首先是模型的訓(xùn)練階段,其次是測(cè)試分離階段。我們要講的是在訓(xùn)練階段中目標(biāo)的獲取,目標(biāo)的選取一般都是基于干凈的目標(biāo)語(yǔ)音和背景干擾得到的,合適有效的目標(biāo)對(duì)于模型的學(xué)習(xí)能力和系統(tǒng)的分離性能起著重要的作用。目前使用的目標(biāo)主要分為兩類:基于時(shí)頻掩蔽的目標(biāo)和基于語(yǔ)音幅度譜估計(jì)的目標(biāo)。這里簡(jiǎn)單介紹下主要的四種分離目標(biāo)。

        2.1 理想二值掩蔽

        理想二值掩蔽(IBM,ideal binary mask)經(jīng)常作為深度神經(jīng)網(wǎng)絡(luò)模型學(xué)習(xí)的目標(biāo),該目標(biāo)是一個(gè)二值函數(shù)(0或1),該二值掩蔽的取值是根據(jù)語(yǔ)音信號(hào)時(shí)頻譜的每個(gè)時(shí)頻單元中語(yǔ)音能量和噪聲能量的大小關(guān)系決定。首先設(shè)定一個(gè)閾值,如果一個(gè)時(shí)頻單元中局部信噪比大于閾值,則對(duì)應(yīng)的單元掩蔽值設(shè)為1,反之為0。IBM表示為:

        (5)

        其中:SNR(t,f)表示語(yǔ)音信號(hào)時(shí)頻單元的局部信噪比,IBM(t,f)表示理想二值掩蔽,LC是設(shè)置的閾值。

        2.2 理想比例掩蔽

        Wang等人首先提出了理想比例掩蔽(IRM,ideal ratio mask),IRM是一種軟函數(shù)類型的目標(biāo)[12]。該目標(biāo)計(jì)算公式如下:

        (6)

        其中:IRM(t,f)是在時(shí)間t和頻率為f的時(shí)頻單元掩蔽值,S2(t,f)和N2(t,f)分別表示語(yǔ)音能量和噪聲能量,β是一個(gè)可調(diào)節(jié)參數(shù),而Wang等人已經(jīng)通過實(shí)驗(yàn)證明,β為0.5時(shí),模型的訓(xùn)練結(jié)果是最好的。IRM的值在[0,1]之間是連續(xù)的,這樣在分離語(yǔ)音的時(shí)候可以提高目標(biāo)語(yǔ)音能量譜完整性。

        2.3 幅度譜掩蔽

        幅度譜掩蔽(SMM,spectral magnitude mask)由目標(biāo)語(yǔ)音和帶噪語(yǔ)音的STFT譜計(jì)算得到,表示如下:

        (7)

        |S(t,f)|和|M(t,f)|分別表示目標(biāo)語(yǔ)音和帶噪語(yǔ)音幅度譜,利用兩者的比值得到SMM目標(biāo)。由于SMM目標(biāo)用來估計(jì)目標(biāo)語(yǔ)音的幅度譜,所以在信號(hào)的重構(gòu)時(shí)需要結(jié)合帶噪語(yǔ)音信號(hào)或目標(biāo)語(yǔ)音信號(hào)的相位,經(jīng)過STFT得到重構(gòu)的目標(biāo)語(yǔ)音的時(shí)域信號(hào)。

        2.4 信號(hào)近似估計(jì)

        信號(hào)近似估計(jì)(SA,signal approximation)的思想就是最小化目標(biāo)語(yǔ)音和估計(jì)輸出的語(yǔ)音幅度之間的誤差,當(dāng)誤差逐漸收斂時(shí),默認(rèn)為此時(shí)的模型參數(shù)最優(yōu),損失函數(shù)如下:

        SA(t,f)=(RM(t,f)|Y(t,f)|-|S(t,f)|)2

        (8)

        其中:RM(t,f)是網(wǎng)絡(luò)模型的輸出,可直接認(rèn)為是估計(jì)的掩蔽,也可以通過用SMM目標(biāo)估計(jì)RM(t,f)來訓(xùn)練模型參數(shù),然后通過上述目標(biāo)函數(shù)最小化對(duì)模型參數(shù)進(jìn)行微調(diào)得到最優(yōu)解。

        3 頻譜映射分離網(wǎng)絡(luò)

        3.1 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

        DNN是模仿人類神經(jīng)系統(tǒng)而設(shè)計(jì)的信息分析處理結(jié)構(gòu),由神經(jīng)元作為基本單元組成。一組輸入經(jīng)過加權(quán)進(jìn)入神經(jīng)單元,然后對(duì)加權(quán)后的輸入進(jìn)行激活計(jì)算,最后產(chǎn)生某種輸出。其結(jié)構(gòu)如圖1所示。

        圖1 神經(jīng)單元結(jié)構(gòu)

        基本神經(jīng)單元中含有多個(gè)輸入、一組權(quán)重、一個(gè)加法器、一個(gè)激活函數(shù)和一個(gè)輸出,其計(jì)算原理為:

        (9)

        其中:xi表示輸入數(shù)據(jù),wi表示權(quán)重和偏置(i=0),F(xiàn)表示激活函數(shù),yk表示第k層神經(jīng)單元的輸出。

        激活函數(shù)F有多種表達(dá)式,常用的激活函數(shù)有:線性函數(shù)、雙曲正切函數(shù)(Tanh)、Sigmoid函數(shù)、線性整流函數(shù)(ReLU,rectified linear units)。

        1)線性函數(shù):

        F(x)=x

        (10)

        2)Tanh函數(shù):

        (11)

        3)Sigmoid函數(shù):

        (12)

        4)ReLU函數(shù):

        F(x)=max(0,x)

        (13)

        除了上述四種激活函數(shù)外,還有閾值函數(shù)等。激活函數(shù)是影響神經(jīng)網(wǎng)絡(luò)功能的重要因素之一,不同的激活函數(shù)實(shí)現(xiàn)的功能是不一樣的,例如Tanh函數(shù)在特征相差明顯時(shí)效果會(huì)更好,ReLU函數(shù)的稀疏性可解決網(wǎng)絡(luò)訓(xùn)練時(shí)的梯度消失現(xiàn)象。連續(xù)平滑的Sigmoid函數(shù)和具有稀疏性的ReLU函數(shù)常用于語(yǔ)音分離任務(wù)中。

        深度神經(jīng)網(wǎng)絡(luò)又包含三種屬性層,即輸入層、隱藏層、輸出層,深度的大小取決于神經(jīng)網(wǎng)絡(luò)的隱藏層個(gè)數(shù)。圖2展示了一個(gè)三層的神經(jīng)網(wǎng)絡(luò)。

        圖2 三層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

        3.2 附加掩蔽層的頻譜映射網(wǎng)絡(luò)

        頻譜映射分離網(wǎng)絡(luò)主要由單個(gè)DNN體系結(jié)構(gòu)組成,其中每個(gè)揚(yáng)聲器對(duì)應(yīng)一個(gè)輸出層,而利用譜映射分離后的兩個(gè)語(yǔ)音幅度譜之和不等于混合語(yǔ)音的幅度譜,表明直接映射分離語(yǔ)音幅度譜是有缺陷的。因此,一個(gè)掩蔽層被添加到網(wǎng)絡(luò)輸出端,很好地解決了這個(gè)問題,其網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。

        圖3 附加掩蔽層的頻譜映射分離網(wǎng)絡(luò)

        (14)

        (15)

        頻譜映射分離網(wǎng)絡(luò)將說話人選擇機(jī)制包括在其分離框架中,在輸出層之后進(jìn)行說話人語(yǔ)音的選擇,然而目前還不清楚這是否會(huì)提供最佳的說話人語(yǔ)音。因此本文將基于頻譜映射的分離解釋為內(nèi)部分離機(jī)制的頻譜映射,如圖4所示。

        由此,可以認(rèn)為分離機(jī)制存在于兩個(gè)模塊中,其中一個(gè)分離模塊生成了對(duì)應(yīng)每個(gè)源信號(hào)的內(nèi)部嵌入向量Zi,另一個(gè)掩蔽估計(jì)模塊生成來自內(nèi)部嵌入向量的時(shí)頻掩蔽Mi,如式(16)、 (17)函數(shù)所示:

        (16)

        Mi= MaskEstimator (Zi) (i= 1,...I)

        (17)

        其中:Separator(·)為內(nèi)部嵌入向量分離器;i為Separator(·)源信號(hào)對(duì)應(yīng)的嵌入向量的索引;MaskEstimator(·)為基于嵌入向量的掩蔽估計(jì)器。假設(shè)I個(gè)源共用MaskEstimator(·),并且其中shared表示參數(shù)和網(wǎng)絡(luò)層激活函數(shù)共享,linear是DNN中的線性運(yùn)算。

        4 多任務(wù)學(xué)習(xí)的嵌入式注意機(jī)制模型

        對(duì)于人耳聽力來講,在一個(gè)多人說話的環(huán)境中只關(guān)注自己感興趣的語(yǔ)音是很容易的。然而這對(duì)于人機(jī)交互的語(yǔ)音識(shí)別設(shè)備來說是很困難的,因此為了更好地識(shí)別感興趣的說話人,就需要提取目標(biāo)說話人的語(yǔ)音信息而忽略其他人聲音。為了解決這個(gè)問題,本文提出的基于注意機(jī)制的多任務(wù)學(xué)習(xí)語(yǔ)音提取算法,它成功地提取出了目標(biāo)說話人信息,同時(shí)輔助信息的利用更好地提高了說話人語(yǔ)音質(zhì)量。

        4.1 分離和提取相結(jié)合的嵌入式注意機(jī)制

        本文提出的分離系統(tǒng)可以擴(kuò)展到更多源信號(hào)混合的分離工作,為了簡(jiǎn)化說明,只考慮兩個(gè)源信號(hào)混合的分離提取工作(目標(biāo)語(yǔ)音s1,干擾語(yǔ)音s2)。

        基于分離和提取相結(jié)合的嵌入式注意機(jī)制模型如圖5所示,意在實(shí)現(xiàn)一個(gè)分離和提取雙重標(biāo)準(zhǔn)下的語(yǔ)音處理系統(tǒng)。該模型由分離器、注意機(jī)制模塊和掩膜估計(jì)器三部分串聯(lián)而成,分離器分離出不同說話人的嵌入向量{Zi}Ii=1,在注意機(jī)制模塊中與說話人輔助語(yǔ)音譜特征相結(jié)合運(yùn)算,提取出目標(biāo)說話人的嵌入向量Ztar,進(jìn)而在掩蔽估計(jì)器中得出目標(biāo)說話人對(duì)應(yīng)的時(shí)頻掩蔽Mtar。

        該模型通過在分離器和掩蔽估計(jì)器之間添加說話人注意機(jī)制模塊,該模塊可以有針對(duì)性的選擇對(duì)應(yīng)目標(biāo)說話人的嵌入向量,從而集成了說話人感知提取功能。下列功能函數(shù)可表示基于嵌入式注意機(jī)制的分離和提取進(jìn)程:

        (18)

        (19)

        Mtar=MaskEstimator(Ztar)

        (20)

        (21)

        (22)

        在嵌入注意機(jī)制中多層感知器的輸出端使用了雙曲正切函數(shù),該函數(shù)在特征相差明顯時(shí)效果會(huì)很好,循環(huán)過程中不斷擴(kuò)大特征效果。其計(jì)算如下:

        (23)

        (24)

        式中,w,WΓ,WAUX為網(wǎng)絡(luò)可訓(xùn)練的權(quán)重;b為網(wǎng)絡(luò)模型偏置參數(shù);γ為設(shè)置的超參數(shù)。

        4.2 多任務(wù)學(xué)習(xí)進(jìn)程

        LMTL=αLSEPA+(1-α)LEXTR

        (25)

        (26)

        (27)

        5 實(shí)驗(yàn)及結(jié)果分析

        為了驗(yàn)證目標(biāo)語(yǔ)音提取算法的有效性和優(yōu)越性,設(shè)計(jì)了兩組實(shí)驗(yàn)。第一組實(shí)驗(yàn)證明了本算法的有效性,同時(shí)探討了說話人性別對(duì)目標(biāo)語(yǔ)音提取的影響。第二組實(shí)驗(yàn)分別使用不同的訓(xùn)練目標(biāo)作為目標(biāo)語(yǔ)音提取的對(duì)比試驗(yàn),驗(yàn)證了算法的優(yōu)越性。

        5.1 實(shí)驗(yàn)數(shù)據(jù)

        實(shí)驗(yàn)所用語(yǔ)音數(shù)據(jù)由TIMIT[27]數(shù)據(jù)庫(kù)提供,分別從TIMIT數(shù)據(jù)庫(kù)中選取兩個(gè)不同性別的說話人語(yǔ)音片段,針對(duì)每個(gè)說話人截取了40秒時(shí)長(zhǎng)的語(yǔ)音,前8秒作為測(cè)試樣本,中間16秒作為訓(xùn)練樣本,最后16秒作為輔助語(yǔ)音樣本。然而為了研究說話人性別和語(yǔ)種影響,采集了兩段相同時(shí)長(zhǎng)的母語(yǔ)為漢語(yǔ)的說話人語(yǔ)音數(shù)據(jù)。根據(jù)采集得到的數(shù)據(jù),利用Matlab軟件對(duì)信號(hào)進(jìn)行處理分析,將兩說話人語(yǔ)音進(jìn)行混合,混合的信噪比(SNR,signal-to-noise ratio)從0~5 dB均勻分布。采樣頻率為16 000 Hz。

        5.2 實(shí)驗(yàn)設(shè)置

        本實(shí)驗(yàn)分離和提取的統(tǒng)一網(wǎng)絡(luò)采用五層結(jié)構(gòu)的DNN,一個(gè)輸入層,三個(gè)隱藏層和一個(gè)輸出層,其每層網(wǎng)絡(luò)的單元數(shù)為[513 1024 1024 1024 513]。

        預(yù)訓(xùn)練:掩蔽估計(jì)網(wǎng)絡(luò)采用玻爾茲曼機(jī)(RBM,restricted boltzmann machine)進(jìn)行預(yù)訓(xùn)練,訓(xùn)練迭代次數(shù)為20,語(yǔ)音數(shù)據(jù)最小批次大小為256(幀數(shù)),學(xué)習(xí)率為0.003。通過RBM預(yù)訓(xùn)練,得到網(wǎng)絡(luò)的初始權(quán)重和偏置。

        實(shí)驗(yàn)使用RBM預(yù)訓(xùn)練方法初始化網(wǎng)絡(luò)參數(shù),將前一層的輸出作為下一層的輸入以這種數(shù)據(jù)傳遞方式訓(xùn)練RBM模型,其模型如圖6所示。

        圖6 玻爾茲曼機(jī)模型

        RBM是一種無方向的兩層神經(jīng)網(wǎng)絡(luò),嚴(yán)格意義上并不算深層網(wǎng)絡(luò)。在圖6中,下面一層神經(jīng)元組成了可見層(輸入層),用v表示可見層的神經(jīng)單元值,上面一層神經(jīng)元組成了隱藏層(輸出層),用h表示隱藏層的神經(jīng)單元值??梢妼雍碗[藏層是全連接的,兩層之間的權(quán)重由w表示。RBM工作時(shí),首先獲取一個(gè)訓(xùn)練樣本v,計(jì)算隱藏層節(jié)點(diǎn)概率,然后在這基礎(chǔ)上獲取隱藏層激活的樣本h,計(jì)算v和h的外積作為“正梯度”。反過來從h中獲取重構(gòu)的可見層激活向量樣本v′,然后從v′再次獲得隱藏層激活向量h′,計(jì)算v′和h′的外積作為“負(fù)梯度”。利用正負(fù)梯度差乘上學(xué)習(xí)率更新權(quán)重w。

        精調(diào):預(yù)訓(xùn)練得到初始化網(wǎng)絡(luò)參數(shù),在此基礎(chǔ)上利用反向傳播算法有監(jiān)督的訓(xùn)練神經(jīng)網(wǎng)絡(luò),使用隨機(jī)梯度下降法更新權(quán)重,并且在訓(xùn)練過程中引入了可變動(dòng)量項(xiàng),訓(xùn)練的前十次動(dòng)量項(xiàng)為0.5,后續(xù)的迭代過程中動(dòng)量項(xiàng)為0.9的可變化學(xué)習(xí)率,其值在區(qū)間[0.08,0.004]中均勻減小,自適應(yīng)學(xué)習(xí)率改善了固定學(xué)習(xí)率在學(xué)習(xí)權(quán)重時(shí)精確性差的問題。精調(diào)階段的訓(xùn)練次數(shù)為180,隱藏層和輸出層的激活函數(shù)分別是ReLU函數(shù)和Sigmoid函數(shù)。

        ReLU(x)=max(0,x)

        (28)

        (29)

        Sigmoid函數(shù)的連續(xù)光滑性質(zhì),使網(wǎng)絡(luò)輸出在一定范圍內(nèi),數(shù)據(jù)在傳遞過程中不易發(fā)散,ReLU函數(shù)的稀疏性可解決網(wǎng)絡(luò)訓(xùn)練時(shí)的梯度消失現(xiàn)象。

        掩蔽估計(jì)網(wǎng)絡(luò)的目標(biāo)函數(shù)為L(zhǎng)MTL,參數(shù)α設(shè)為0.5,多次試驗(yàn)表明γ=2時(shí)分離性能最優(yōu),其收斂曲線如圖7所示,曲線逐漸趨于收斂,這表示網(wǎng)絡(luò)的訓(xùn)練是有效的。

        圖7 多任務(wù)學(xué)習(xí)的損失曲線

        為了評(píng)估說話人語(yǔ)音的提取性能,實(shí)驗(yàn)采用了BSS_EVAL工具箱中的三個(gè)評(píng)估指標(biāo):源信號(hào)失真比(SDR,source to distortion ratio)、源信號(hào)偽影比(SAR,source to artifacts ratio)、源信號(hào)干擾比(SIR,source to interference ratio)。SDR反映了綜合分離效果,SAR反映算法對(duì)產(chǎn)生噪聲的抑制能力,SIR 反映算法對(duì)干擾信號(hào)的抑制能力。三者數(shù)值越大就說明分離提取性能越高。

        5.3 實(shí)驗(yàn)結(jié)果

        首先對(duì)算法的有效性進(jìn)行了實(shí)驗(yàn)評(píng)估,實(shí)驗(yàn)結(jié)果以波形圖和語(yǔ)譜圖的形式展示,如圖8和圖9所示。

        圖8 語(yǔ)音時(shí)域信號(hào)波形圖

        圖9 目標(biāo)說話人的估計(jì)掩

        圖8分別展示目標(biāo)語(yǔ)音、干擾語(yǔ)音、混合語(yǔ)音和算法提取的目標(biāo)說話人語(yǔ)音的波形圖。波形圖的橫軸表示時(shí)間,縱軸表示波形的幅值大小。通過對(duì)比提取的目標(biāo)說話人波形和混合語(yǔ)音的波形,可以看出算法具有提取目標(biāo)人語(yǔ)音的功能,提取的目標(biāo)說話人波形與目標(biāo)源語(yǔ)音波形的相似程度體現(xiàn)了算法模型對(duì)目標(biāo)說話人語(yǔ)音提取性能的優(yōu)劣。

        圖9和圖10分別表示目標(biāo)說話人的估計(jì)掩蔽插圖和語(yǔ)譜圖。掩蔽插圖橫坐標(biāo)為時(shí)間幀,縱坐標(biāo)為網(wǎng)絡(luò)輸出通道數(shù)。該掩蔽插圖由掩蔽值歸一化后描繪而成,其圖上的白色部分是有值的,在0~1之間取值。黑色背景代表很小的值,接近于0。注意下列圖右上角的矩形框區(qū)域,在掩蔽插圖和目標(biāo)語(yǔ)音語(yǔ)譜圖框內(nèi)黑色占主導(dǎo),說明此區(qū)域的譜值絕大多數(shù)很小或?yàn)?,而對(duì)應(yīng)的干擾語(yǔ)音和混合語(yǔ)音矩形框內(nèi)具有不同顏色值,說明此區(qū)域的譜值大于0,最終提取的目標(biāo)說話人語(yǔ)音語(yǔ)譜圖在相應(yīng)位置也是黑色占主導(dǎo),這在時(shí)頻域里體現(xiàn)了掩蔽提取目標(biāo)說話人的本質(zhì)。

        圖10 語(yǔ)音頻域信號(hào)語(yǔ)譜

        除了驗(yàn)證所提算法的有效性,同時(shí)也在相同信噪比混合情況下,探討了說話人的性別對(duì)提取算法的影響,實(shí)驗(yàn)結(jié)果如表1所示。

        表1 混合信噪比為0 dB下的男1目標(biāo)語(yǔ)音提取性能 dB

        利用這4個(gè)人的語(yǔ)音分別得到了以上5種組合方式,其中男1和女1為不同性別的目標(biāo)說話人,選自是TIMIT數(shù)據(jù)集中的說話人語(yǔ)音。男2和女2是干擾說話人,為課題組錄制的說話人語(yǔ)音。通過分析表1和表2指標(biāo),可以發(fā)現(xiàn),相比較同性別混合語(yǔ)音,不同性別混合語(yǔ)音中的提取效果更好。在同性別混合語(yǔ)音中,女聲的提取效果由于男聲的提取效果,這可能與說話人的音質(zhì)和音色有一定的關(guān)系。除了說話人性別對(duì)語(yǔ)音的提取有影響以外,干擾說話人語(yǔ)音的說話內(nèi)容和語(yǔ)種對(duì)目標(biāo)語(yǔ)音提取性能也有關(guān)系。同語(yǔ)種的混合的說話人提取效果要比不同語(yǔ)種混合的說話人提取效果好。這表明由同語(yǔ)種混合語(yǔ)音訓(xùn)練的網(wǎng)絡(luò)模型,對(duì)本語(yǔ)種語(yǔ)音信號(hào)的提取更有效。而對(duì)于不同語(yǔ)種的語(yǔ)音來講,特征可能相差較大,無法在同一特征水平上進(jìn)行很好的分離提取。

        表2 混合信噪比為0 dB下的女1目標(biāo)語(yǔ)音提取性能 dB

        為了探究混合信噪比對(duì)提取性能的影響,因此在不同混合語(yǔ)音信噪比下進(jìn)行了語(yǔ)音提取性能測(cè)試,由表3分析可知,隨著干擾混合信噪比的增大,語(yǔ)音提取性能也不斷提高。這表明在目標(biāo)語(yǔ)音信號(hào)功率越大時(shí),提取性能越高。

        表3 不同信噪比下的語(yǔ)音提取性能 dB

        為了驗(yàn)證所提算法的優(yōu)越性,分別使用幅度譜掩蔽(SMM,spectral magnitude mask)和信號(hào)近似估計(jì)(SA,signal approximation)目標(biāo)方法進(jìn)行了對(duì)比實(shí)驗(yàn),結(jié)果如表4所示。

        表4 混合信噪比為0 dB下不同方法的目標(biāo)語(yǔ)音提取性能 dB

        根據(jù)表4的實(shí)驗(yàn)結(jié)果表明,相比較SA和SMM這兩種方法,本文提出的基于多任務(wù)學(xué)習(xí)的嵌入式注意機(jī)制語(yǔ)音提取算法在SDR分別取得了0.877 1 dB和3.290 4 dB的提高。對(duì)于SAR和SIR指標(biāo),本文算法也均優(yōu)于其它兩種方法。

        6 結(jié)束語(yǔ)

        在這篇文章中,針對(duì)目標(biāo)說話人語(yǔ)音的提取,我們提出了一種基于分離和提取多任務(wù)學(xué)習(xí)的嵌入式注意機(jī)制目標(biāo)語(yǔ)音提取算法。本文的算法模型主要分為分離模塊、嵌入式注意機(jī)制模開、語(yǔ)音提取模塊三部分,在分離和提取的多任務(wù)優(yōu)化標(biāo)準(zhǔn)下,充分利用了說話人輔助信息,更加集中地對(duì)目標(biāo)說話人語(yǔ)音進(jìn)行提取。實(shí)驗(yàn)結(jié)果表明,本文提出的算法利用較少的訓(xùn)練數(shù)據(jù)集,可實(shí)現(xiàn)相對(duì)較高的提取性能。

        本文的不足之處在于使用的數(shù)據(jù)集單一,下一步努力方向是擴(kuò)大數(shù)據(jù)集總類,保證語(yǔ)音信號(hào)質(zhì)量的前提下,提高模型的普適性。同時(shí)可探究在其他各種噪聲環(huán)境下目標(biāo)說話人語(yǔ)音的提取性能。

        猜你喜歡
        語(yǔ)音混合函數(shù)
        混合宅
        二次函數(shù)
        第3講 “函數(shù)”復(fù)習(xí)精講
        二次函數(shù)
        函數(shù)備考精講
        一起來學(xué)習(xí)“混合運(yùn)算”
        魔力語(yǔ)音
        基于MATLAB的語(yǔ)音信號(hào)處理
        電子制作(2019年14期)2019-08-20 05:43:38
        基于MQ3與MP3的價(jià)廉物美的酒駕語(yǔ)音提醒器
        電子制作(2019年9期)2019-05-30 09:42:10
        對(duì)方正在輸入……
        小說界(2018年5期)2018-11-26 12:43:42
        日本道免费一区日韩精品| 国产农村乱子伦精品视频| 亚洲成aⅴ人在线观看| 一区二区三区免费视频网站| 丰满人妻被公侵犯的视频| 欧美性xxxxx极品老少| 国产97在线 | 免费| 偷亚洲偷国产欧美高清| 国产性感主播一区二区| 日本强伦姧人妻一区二区| 中文字幕在线亚洲日韩6页| 狠狠躁天天躁无码中文字幕图 | 亚洲av精二区三区日韩| 性欧美videofree高清精品| av中文字幕不卡无码| 日本一区二区三区在线视频观看| 手机看片久久第一人妻| 婷婷亚洲久悠悠色悠在线播放 | 亚洲成人精品久久久国产精品| 插我一区二区在线观看| 999久久久精品国产消防器材| 岛国av一区二区三区| 国产精品一区二区黑丝| 免费少妇a级毛片人成网| 亚洲Av午夜精品a区| 久久精品亚洲成在人线av| 亚洲熟女精品中文字幕| 国产成人综合在线视频| 少妇熟女淫荡丰满| 偷拍综合在线视频二区日韩| 97精品超碰一区二区三区| 精品国产一区二区三区AV小说| 99久久精品国产一区色| 成年丰满熟妇午夜免费视频| 嫖妓丰满肥熟妇在线精品| 无码中文字幕久久久久久| 日本一区二区在线高清| 超清精品丝袜国产自在线拍| 国产成人亚洲精品77| 精品女厕偷拍视频一区二区区| 日本熟日本熟妇中文在线观看 |