亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于卷積神經(jīng)網(wǎng)絡(luò)的時(shí)域語(yǔ)音盲分離方法研究

        2021-09-03 10:01:58孫浩源
        關(guān)鍵詞:特征方法

        景 源,孫浩源

        (遼寧大學(xué) 信息學(xué)院,遼寧 沈陽(yáng)110036)

        0 引言

        現(xiàn)實(shí)的復(fù)雜聲學(xué)環(huán)境,通常需要利用語(yǔ)音分離的方法來(lái)達(dá)到語(yǔ)音增強(qiáng)的目的.正因?yàn)檎Z(yǔ)音分離對(duì)語(yǔ)音處理技術(shù)顯得尤為重要,所以語(yǔ)音分離技術(shù)得到了廣泛的研究,眾多方法被相繼提出以實(shí)現(xiàn)對(duì)語(yǔ)音信號(hào)的盲分離.例如,一些學(xué)者通過(guò)研究語(yǔ)音混合信號(hào)的時(shí)頻特性來(lái)探索語(yǔ)音盲分離的可行性,同時(shí)還提出了一些利用語(yǔ)音時(shí)頻特征的語(yǔ)音盲分離的方法.雖然,一些其他研究希望跳過(guò)時(shí)頻特征,從其他角度來(lái)處理語(yǔ)音盲分離問(wèn)題.但這些眾多其他系統(tǒng)的性能無(wú)法與時(shí)頻方法的性能相提并論,尤其無(wú)法將其縮放和泛化到大數(shù)據(jù)集方面.

        目前的語(yǔ)音盲分離方法大多都是基于混合語(yǔ)音信號(hào)的時(shí)頻域表示特征的基礎(chǔ)上實(shí)現(xiàn)的,使用短時(shí)傅立葉變換(STFT)從混合頻譜中近似估計(jì)出各個(gè)聲源各自的純凈頻譜[1],然后再通過(guò)使用非線性回歸技術(shù)直接將混合頻譜中的每個(gè)語(yǔ)音源信號(hào)的頻譜近似表示出來(lái)[2-4],最后還原成分離后的語(yǔ)音波形.基于此原理,一些算法被提出可以先估計(jì)每個(gè)聲源信號(hào)的加權(quán)函數(shù)(掩碼),然后用其來(lái)掩蓋在混合頻譜中每個(gè)時(shí)頻點(diǎn)上以恢復(fù)出各個(gè)源信號(hào)[5-7].由已有的一些文獻(xiàn)可以看出,時(shí)頻掩蔽方法現(xiàn)今仍然是最常見(jiàn)的語(yǔ)音盲分離手段,并且通過(guò)深度學(xué)習(xí)的訓(xùn)練手段來(lái)有效提高掩碼估計(jì)的準(zhǔn)確性,從而極大地提高了時(shí)頻掩蔽方法的分離性能.在直接分離方法和基于時(shí)頻掩碼的語(yǔ)音盲分離方法中,每個(gè)聲源的波形都是通過(guò)對(duì)聲源的幅度譜估計(jì)值、混合聲的原始相位或修改過(guò)的相位進(jìn)行短時(shí)傅立葉逆變換(iSTFT)而得到的.

        雖然在語(yǔ)音信號(hào)盲分離方法中,時(shí)頻掩蔽方法比較常見(jiàn),且可以取得不錯(cuò)的性能,但該類方法依然存在以下一些問(wèn)題:第一,傅里葉變換只是通用的信號(hào)變換方法,但是并不說(shuō)明它對(duì)語(yǔ)音信號(hào)盲分離具有最優(yōu)的性能,大量研究正在尋找其更好的代替方法;第二,對(duì)干凈聲源的相位進(jìn)行精確重建是一個(gè)重要且關(guān)鍵的問(wèn)題,盡管已有一些方法在語(yǔ)音時(shí)頻圖譜上通過(guò)重建相位來(lái)試圖解決此問(wèn)題,但性能仍欠佳,尤其是不準(zhǔn)確的相位估計(jì)會(huì)限制重建音頻的質(zhì)量;第三,想要成功地從時(shí)頻表示中分離更干凈的聲源信號(hào),需要對(duì)混合信號(hào)進(jìn)行高分辨率的頻率分解,這需要較長(zhǎng)的時(shí)間窗來(lái)實(shí)現(xiàn)相關(guān)計(jì)算[8-10],這在一定程度上增加了系統(tǒng)的復(fù)雜度,進(jìn)而限制了其在實(shí)時(shí)、低延遲應(yīng)用中的適用性.

        以上這些問(wèn)題是在時(shí)頻域角度上進(jìn)行語(yǔ)音盲分離所引起的,因此本文嘗試在時(shí)域中利用數(shù)據(jù)驅(qū)動(dòng)的模型或方法來(lái)代替STFT,進(jìn)而獲得較好的語(yǔ)音盲分離性能[11-13].由于語(yǔ)音數(shù)據(jù)在數(shù)據(jù)信息上具有相當(dāng)大的時(shí)域連續(xù)關(guān)聯(lián)性,因此,可以通過(guò)利用時(shí)間卷積網(wǎng)絡(luò)(TCN)提取語(yǔ)音編碼特征[14-16].TCN在語(yǔ)音數(shù)據(jù)的卷積處理上允許對(duì)連續(xù)幀或片段進(jìn)行并行處理[17],Yi Luo曾提出為了提高特征提取運(yùn)算的整體感受野[18],卷積運(yùn)算由膨脹因子指數(shù)增長(zhǎng)的卷積層堆疊而成,此外,為了彌補(bǔ)由于大量零填充造成的這種空間層級(jí)化信息丟失,切割后的相鄰片段重疊率高達(dá)50%,相應(yīng)的多次計(jì)算重復(fù)數(shù)據(jù)等操作在一定程度上增加了系統(tǒng)延遲.

        為此,本文嘗試在卷積層中使用上一層有效數(shù)據(jù)代替卷積中的零填充來(lái)增加底層片段兩端的卷積參與率,并縮減相鄰的片段中的層疊部分長(zhǎng)度,以達(dá)到在保持編碼上下文高關(guān)聯(lián)性的同時(shí)減少底層特征數(shù)據(jù)損失的目的.本文提出,改進(jìn)的卷積時(shí)域分離網(wǎng)絡(luò),使用堆疊的膨脹一維卷積塊代替深層LSTM網(wǎng)絡(luò),該方法對(duì)含有兩個(gè)說(shuō)話人混合語(yǔ)音盲分離的過(guò)程中,表現(xiàn)出其系統(tǒng)性能優(yōu)于原時(shí)域語(yǔ)音分離網(wǎng)絡(luò)以及已有時(shí)頻掩蔽方法.

        1 卷積時(shí)頻語(yǔ)音分離網(wǎng)絡(luò)

        由參考文獻(xiàn)[18]可知,卷積時(shí)域音頻分離網(wǎng)絡(luò)(Conv-TasNet)由四個(gè)處理階段組成,如圖1所示.首先,編碼器模塊將混合信號(hào)的短片段編碼轉(zhuǎn)換為中間特征空間中的相應(yīng)表示[14-16],目的是為了計(jì)算混合音頻的權(quán)重;其次,使用該空間特征表示用來(lái)估計(jì)每一個(gè)源的乘法參數(shù)(掩碼);之后,用第二步生成的掩碼遮掩在第一步編碼后的混合音頻權(quán)重上;最后,解碼器模塊通過(guò)轉(zhuǎn)換掩蔽之后的特征編碼來(lái)重建源波形合成目的音頻,以達(dá)成最終分離的目的.

        圖1 TasNet 結(jié)構(gòu)示意圖

        1.1 卷積編碼器/解碼器

        s=E(xUT)

        (1)

        其中U∈RN×L包含了N個(gè)向量(編碼器基函數(shù)),每個(gè)向量長(zhǎng)為L(zhǎng).E()是一個(gè)可選的非線性函數(shù).有些文獻(xiàn)采用整流線性單元(ReLU)作為E()以確保輸出非負(fù)[11,17,19].

        解碼器使用一維轉(zhuǎn)置卷積運(yùn)算從該表示形式重建出波形,可以將其用矩陣乘法表示為:

        (2)

        盡管在實(shí)際操作中將卷積編碼器(Encoder)—解碼器(Decoder)的操作表示為矩陣乘法的形式,但在部分相關(guān)文獻(xiàn)中仍然使用了“自動(dòng)卷積編碼器”一詞,因?yàn)樵谀P蛯?shí)現(xiàn)中,卷積層和轉(zhuǎn)置卷積層可以較為輕松地處理相鄰段之間的重疊,從而表現(xiàn)為更短的訓(xùn)練時(shí)間和出色的收斂性.

        1.2 估計(jì)分離掩碼模塊

        此模塊是通過(guò)對(duì)C個(gè)說(shuō)話源進(jìn)行估計(jì)并總共輸出C個(gè)向量(掩碼)實(shí)現(xiàn)在每一幀上分離語(yǔ)音的步驟.mi∈R1×N,i=1,…,C,其中mi∈[0,1]表示非負(fù)且分離后編碼點(diǎn)的功率不能大于混合信號(hào)編碼點(diǎn)的功率,mi就是每個(gè)向量點(diǎn)的遮掩碼.將mi應(yīng)用到混合表示s上得到相應(yīng)的源表示:

        di=s⊙mi

        (3)

        其中⊙表示對(duì)應(yīng)點(diǎn)相乘.估計(jì)的每個(gè)源的波形信號(hào)i,i=1,…,C通過(guò)解碼器重建出來(lái):

        (4)

        基于編碼器—解碼器體系的結(jié)構(gòu)可以較為完整的重構(gòu)輸入的混合信號(hào)這一需求,且完整的相位信息將被納入掩碼的計(jì)算.

        1.3 卷積分離模塊

        堆積卷積模塊的設(shè)計(jì)是受時(shí)間卷積網(wǎng)絡(luò)(TCN)的啟發(fā)[14-17].該體系設(shè)計(jì)成一個(gè)由眾多一維膨脹卷積塊堆積而成的堆疊卷積分離模塊,如圖2所示.在分離體系中各種任務(wù)建模序列中使用TCN而不是RNN或CNN,這樣才能適應(yīng)時(shí)域表示中的各種相位信息的處理,并且TCN可以對(duì)連續(xù)幀或片段進(jìn)行并行處理,不用等待上一幀運(yùn)算的完成,下一幀的運(yùn)算可以同時(shí)進(jìn)行,大大增加了運(yùn)行效率.

        特征提取部分由多個(gè)膨脹因子逐漸等比增加的一維卷積塊組成[18],每一層的一維卷積都是時(shí)間卷積結(jié)構(gòu)中的隱藏層結(jié)構(gòu).在逐級(jí)輸出中隱藏層中的膨脹因子呈指數(shù)級(jí)的增長(zhǎng),以確保特征提取運(yùn)算中能獲取足夠的時(shí)間上下文窗口,提高系統(tǒng)的感受野,以利用語(yǔ)音信號(hào)的長(zhǎng)時(shí)依賴性.如圖2中的不同色塊所示,X個(gè)膨脹因子分別為1,2,4,…,2X-1的卷積塊按次序排列,每一次卷積運(yùn)算結(jié)果首先要輸出保存再傳輸進(jìn)入下一個(gè)卷積運(yùn)算中.

        圖2 Conv-TasNet系統(tǒng)流程圖

        X次運(yùn)算編成為一個(gè)次序的運(yùn)算排列,總共重復(fù)R遍次序運(yùn)算.每個(gè)塊的輸入都進(jìn)行遞補(bǔ)填充,以確保每一隱藏層輸出長(zhǎng)度與輸入的長(zhǎng)度一致,同時(shí)也減少由于逐次卷積導(dǎo)致片段邊緣信息參與度低下的失真.由于輸入的數(shù)據(jù)是定量2 ms的語(yǔ)音片段,所以在時(shí)間卷積運(yùn)算中,或可以進(jìn)行非因果運(yùn)算,將遞補(bǔ)數(shù)據(jù)填充在兩端.

        R重序列每個(gè)序列X重卷積總共輸出的R×X個(gè)結(jié)果作為TCN的輸出將被饋送到核大小為1的卷積塊(1×1-conv塊)以估計(jì)掩碼.1×1-conv塊與非線性激活函數(shù)一起為C個(gè)目標(biāo)源估計(jì)C個(gè)掩碼矢量,生成多個(gè)分離掩碼圖.

        圖3中顯示了每個(gè)一維卷積塊的設(shè)計(jì).這里的一維卷積塊的設(shè)計(jì)遵循之前某種早前方法[20],使用了殘差網(wǎng)絡(luò)(Residual network)和跳躍鏈接(Skip-Connection path).

        圖3 1-D 卷積塊設(shè)計(jì)圖

        一個(gè)卷積塊的殘差路徑(Residual path)輸出作為下一個(gè)卷積塊的輸入,而所有塊的跳躍鏈接路徑總和還要再經(jīng)過(guò)一次一維卷積計(jì)算,輸出的結(jié)果作為下一個(gè)激活函數(shù)的輸入.為了進(jìn)一步減少參數(shù)的總量以縮減模型的規(guī)模,這里采用深度可分離卷積(S-conv)替代每一個(gè)卷積塊中的原有標(biāo)準(zhǔn)卷積[21,22].以前的各種文獻(xiàn)證明,深度可分離卷積(也稱為分離卷積)在語(yǔ)音分離任務(wù)中是有效的并且不會(huì)降低效果.

        深度可分離卷積可將標(biāo)準(zhǔn)卷積運(yùn)算解耦為兩個(gè)連續(xù)的運(yùn)算,即深度卷積(D-conv)以及跟隨其后的逐點(diǎn)卷積(1×1-conv).深度卷積負(fù)責(zé)濾波,作用在輸入的每個(gè)通道上;逐點(diǎn)卷積負(fù)責(zé)轉(zhuǎn)換通道,作用在深度卷積的輸出特征映射上.實(shí)際操作表現(xiàn)為可分離卷積的輸入向量和可分離卷積的卷積核進(jìn)行卷積操作,也就是相應(yīng)行進(jìn)行卷積相乘,然后又通過(guò)逐點(diǎn)卷積進(jìn)行線性的空間特征變換.

        在第一個(gè)逐點(diǎn)卷積和深度卷積塊之后添加了非線性激活函數(shù)和歸一標(biāo)準(zhǔn)化操作(Normalization)[23].非線性激活函數(shù)是參數(shù)整流線性單位[11,17,19](PReLU):

        (5)

        其中α∈R是一個(gè)控制整流器負(fù)斜率的可訓(xùn)練標(biāo)量.網(wǎng)絡(luò)中歸一化方法的選擇取決于因果關(guān)系要求,本實(shí)驗(yàn)中基本采用的是非因果關(guān)系.對(duì)于非因果配置,有些文獻(xiàn)[23]認(rèn)為全局層歸一化(gLN)優(yōu)于所有其他歸一化方法.在gLN中,特征會(huì)在通道和時(shí)間維度上進(jìn)行歸一化:

        (6)

        (7)

        (8)

        其中F∈RN×T是特征,γ,β∈RN×1是可訓(xùn)練的參數(shù),ε是一個(gè)為了數(shù)值穩(wěn)定的小常量.

        為了確保分離模塊對(duì)于輸入的縮放不敏感,先將選擇的歸一化方法應(yīng)用到編碼器的輸出s上,然后再將該結(jié)果饋送到分離模塊.

        分離模塊的開(kāi)始處添加了一個(gè)線性1×1-conv塊作為瓶頸層(Bottleneck Layer)[20].這個(gè)塊確定了隨后卷積塊的輸入路徑和殘差路徑的通道數(shù).如果該線性瓶頸層擁有B個(gè)通道,則對(duì)于通道數(shù)為H且核大小為K的一維卷積塊,第一個(gè)1×1-conv塊和第一個(gè)深度卷積塊中的核大小應(yīng)分別為K1∈RB×H×1和KD∈RH×K,并且殘差路徑中的核大小應(yīng)為L(zhǎng)RS∈RH×B×1.跳躍連接路徑中的輸出通道數(shù)可以不同于B,將該路徑中的核大小表示為L(zhǎng)SC∈RH×SC×1.

        2 基于一維堆疊卷積的新方法

        本文基于已有時(shí)間卷積網(wǎng)絡(luò)(TCN),為了補(bǔ)充零填充失真計(jì)算的數(shù)據(jù)量,探索如何在穩(wěn)定基本計(jì)算量的基礎(chǔ)上獲得更好的計(jì)算模型.

        從實(shí)例驗(yàn)證的測(cè)量結(jié)果可以看到,對(duì)于頻率為fc=|2ft-fj|的互調(diào)發(fā)射,文獻(xiàn)[1]和文獻(xiàn)[2]能夠獲得與本文方法一致的測(cè)量結(jié)果,但對(duì)于其它類型的互調(diào)發(fā)射,或者受限于測(cè)量設(shè)備的動(dòng)態(tài)范圍,無(wú)法獲取測(cè)量數(shù)據(jù),或者難以判斷測(cè)量結(jié)果的準(zhǔn)確性;相較于文獻(xiàn)[3]的方法,本文的方法增加了線纜長(zhǎng)度調(diào)節(jié)和互耦項(xiàng)消除技術(shù)措施,使得測(cè)量方法更具廣泛性,而且VHF/UHF頻段的環(huán)形器的帶外插入損耗隨入射功率變化而變化,為獲取準(zhǔn)確的測(cè)量結(jié)果,文獻(xiàn)[3]的方法需對(duì)不同入射功率下的插入損耗進(jìn)行標(biāo)定,使得測(cè)試工作量非常大,本文的方法則有效避免了這一問(wèn)題.

        由于在原堆疊結(jié)構(gòu)在隱藏層和隱藏層之間的卷積運(yùn)算過(guò)程中,選擇使用零填充保持輸入輸出數(shù)據(jù)長(zhǎng)度的一致性.且因?yàn)楸鞠到y(tǒng)出現(xiàn)多次卷積運(yùn)算,其中大量的零填充導(dǎo)致原編碼向量在卷積提取特征中累計(jì)損失大量編碼數(shù)據(jù).此方法會(huì)造成原始數(shù)據(jù)失真,損害推理能力.因此,對(duì)無(wú)效數(shù)據(jù)進(jìn)行填充是一種更合理的方法.

        其次,由于數(shù)據(jù)預(yù)處理階段要把語(yǔ)音波形切割,為此會(huì)出現(xiàn)大量毫秒級(jí)的數(shù)據(jù)片段,且連續(xù)片段之間的重疊數(shù)據(jù)量會(huì)大大增加卷積計(jì)算量.在多次正交的實(shí)驗(yàn)中顯示,降低相鄰兩個(gè)連續(xù)片段的重疊幀數(shù),由原有的50%重疊數(shù)據(jù)量降低到30%,能明顯改善數(shù)據(jù)處理時(shí)間且輸出結(jié)果收斂.

        在非因果卷積中,每一層卷積操作,新生成的編碼段都需要在片段邊緣集中性的使用零填充來(lái)保持片段長(zhǎng)度,這種操作會(huì)誤差性的遮掩住來(lái)源于原始數(shù)據(jù)片段兩邊緣的數(shù)據(jù).這種特征提取的失真隨著卷積層的深入計(jì)算越來(lái)越多,承載的信息量每進(jìn)入下一個(gè)卷積層都會(huì)被壓縮,片段兩邊緣的信息則會(huì)被逐漸擠壓到尺寸更小的數(shù)據(jù)段中.在每一個(gè)堆疊卷積也就是擴(kuò)張因子從1擴(kuò)張到2X-1的隱藏層特征上遞過(guò)程中,承載信息數(shù)據(jù)的節(jié)點(diǎn)量將會(huì)被壓縮至一半.數(shù)據(jù)長(zhǎng)度雖然前后一致,但有效信息載荷將隨著流程的順序執(zhí)行而逐步累積失真.

        卷積層包含多個(gè)特征面,每個(gè)特征面中的神經(jīng)元通過(guò)卷積核與上一層的特征面進(jìn)行局部連接,使用非線性函數(shù)對(duì)局部加權(quán)進(jìn)行激活,從而獲得卷積層中每個(gè)神經(jīng)元的輸出值.卷積計(jì)算可描述為:

        Hi+1=F(Ai?Wi+1+bi+1)

        (9)

        Hi+1為卷積層的輸出特征矩陣;Ai為原始輸入矩陣或上一層輸出特征矩陣;Wi+1為第i+1層卷積核權(quán)重向量;?表示進(jìn)行卷積操作;bi+1為第i+1層的偏置;F()為非線性激活函數(shù).此公式可表現(xiàn)每一次卷積操作的輸出中,失真填充的數(shù)據(jù)損失會(huì)在下一層的卷積操作累計(jì)疊加,層數(shù)越多,失真數(shù)據(jù)的數(shù)量也將會(huì)成指數(shù)速度增長(zhǎng).

        此時(shí)的TCN是以最小化損失函數(shù)L(W,b)為網(wǎng)絡(luò)的訓(xùn)練目標(biāo),選用均方誤差(Mean Squared Error,MSE)作為損失函數(shù):

        (10)

        一個(gè)卷積層循環(huán)如圖4,所有隱藏層中需要零填充的節(jié)點(diǎn)由空白節(jié)點(diǎn)表示,第二層B1節(jié)點(diǎn)的零填充使得C2節(jié)點(diǎn)受到有效數(shù)據(jù)萎縮的影響,且C層還有C1和C16兩個(gè)節(jié)點(diǎn)需要繼續(xù)添加零節(jié)點(diǎn),之后的D層將繼續(xù)受到下兩層有效數(shù)據(jù)量減少的內(nèi)卷?yè)p失.到一個(gè)單循環(huán)結(jié)尾的E層的輸出中不僅兩邊需要補(bǔ)充一半的零節(jié)點(diǎn),而且中間核心八個(gè)節(jié)點(diǎn)也要經(jīng)受之前連續(xù)三個(gè)隱藏層計(jì)算的內(nèi)卷?yè)p失.最終輸出層(output)中的結(jié)果相較于原始數(shù)據(jù),數(shù)據(jù)邊緣的卷積參與率低下,且無(wú)效數(shù)據(jù)填充致使特征提取失真嚴(yán)重.

        圖4 非因果的零填充逐次卷積示意圖

        圖5 遞補(bǔ)填充的非因果示意圖

        依次填充直到進(jìn)入最后的E層,需要填充的數(shù)據(jù)量是單個(gè)數(shù)據(jù)片段長(zhǎng)度的一半.由圖5所示,新提出的數(shù)據(jù)進(jìn)位補(bǔ)償可以有效彌補(bǔ)零填充帶來(lái)的數(shù)據(jù)斷裂.

        此項(xiàng)填充方法將運(yùn)用于框架中所有時(shí)間卷積運(yùn)算中,總共有R×X個(gè)修正輸出,再經(jīng)歷一次加和運(yùn)算作為TCN的總輸出.

        3 實(shí)驗(yàn)結(jié)果及分析

        3.1 數(shù)據(jù)集

        實(shí)驗(yàn)使用WSJ0-2mix數(shù)據(jù)集[24]評(píng)估了所提出的新處理系統(tǒng)在兩說(shuō)話人混合信號(hào)上語(yǔ)音分離的性能.在數(shù)據(jù)集中生成了40 h的訓(xùn)練數(shù)據(jù)和12 h的驗(yàn)證數(shù)據(jù).通過(guò)從“華爾街日?qǐng)?bào)”數(shù)據(jù)集(WSJ0)中的不同說(shuō)話人中隨機(jī)選擇語(yǔ)音并以介于-5 dB和5 dB之間的隨機(jī)信噪比(SNR)進(jìn)行混合來(lái)生成混合語(yǔ)音[25].以相同的方式生成5 h的評(píng)估集,所有波形均重采樣到8 000次/s(Hz),2 ms片段共采樣16次[5,7].

        3.2 實(shí)驗(yàn)配置

        網(wǎng)絡(luò)在4 s長(zhǎng)的段上訓(xùn)練了100個(gè)epochs.初始學(xué)習(xí)率設(shè)置為1e-3.如果在3個(gè)連續(xù)的epochs內(nèi),驗(yàn)證集的準(zhǔn)確性沒(méi)有提高,則學(xué)習(xí)率將減半.優(yōu)化器使用Adam[26].卷積自動(dòng)編碼器使用30%的stride size(即連續(xù)幀之間有30%的重疊).訓(xùn)練期間應(yīng)用最大L2范數(shù)為5的漸變裁剪.標(biāo)準(zhǔn)化過(guò)程統(tǒng)一使用的是全局層歸一化(gLN)[23].

        根據(jù)以往的文獻(xiàn)中的經(jīng)驗(yàn),體系中一些超參數(shù)是固定的[18].編碼過(guò)程中濾波器的數(shù)量N為512個(gè),每個(gè)濾波器的長(zhǎng)度L為2 ms(采樣頻率為8 000 Hz,一個(gè)片段上共有16個(gè)采樣點(diǎn)),瓶頸和剩余濾鏡中的通道數(shù)B為128個(gè),殘差鏈接SC通道數(shù)為128個(gè).

        卷積塊中的通道數(shù)H為512個(gè),卷積核K的大小為3,膨脹因子最大為8也就是每一次重復(fù)中都要做8次卷積運(yùn)算,一共做3次重復(fù).

        3.3 訓(xùn)練目標(biāo)

        訓(xùn)練端到端系統(tǒng)的目的是最大化提高尺度不變的信噪比(SI-SNR)[27],該信噪比通常被用作評(píng)估源分離的指標(biāo)用以替代SDR.SI-SNR公式定義為:

        (11)

        3.4 評(píng)估指標(biāo)

        將尺度不變的信噪比改善(SI-SNRi)和信噪比改善(SDRi)作為評(píng)估分離準(zhǔn)確性的客觀指標(biāo)[27].

        3.5 與理想時(shí)頻掩碼方法的比較

        按照某些文獻(xiàn)中的常用配置[28],計(jì)算理想時(shí)頻掩碼時(shí),STFT的幀長(zhǎng)為32 ms,幀移為8 ms,使用的窗函數(shù)是Hanning窗.理想掩碼包括理想二值掩碼(IBM)和理想比例掩碼(IRM).

        3.6 實(shí)驗(yàn)結(jié)果與分析

        實(shí)驗(yàn)數(shù)據(jù)集WSJ0-2mix原本為兩個(gè)人的聲音,該示例的混合聲音是兩個(gè)說(shuō)話人的重疊語(yǔ)音.對(duì)編碼器和解碼器的基函數(shù)是按照其歐幾里德距離的相似性進(jìn)行排序[29].

        圖6和圖7是估計(jì)出的兩個(gè)掩碼,分別掩蓋在編碼器的輸出上,可以分別得到兩個(gè)分離后的功率向量.用估計(jì)出的兩說(shuō)話人掩碼重疊的功率向量圖與它們的編碼器表示非常相似,所以單一的掩碼可以抑制與干擾說(shuō)話人相對(duì)應(yīng)的編碼器輸出,并提取每個(gè)掩碼中的目標(biāo)說(shuō)話人.根據(jù)每個(gè)說(shuō)話人在每個(gè)時(shí)間點(diǎn)在相應(yīng)基輸出處的功率,對(duì)編碼器表示進(jìn)行著色(不同灰度分別表示一個(gè)人的編碼功率),這顯示出編碼器表示的稀疏性,如圖8所示.

        圖6 Speaker1 Mask

        圖7 Speaker2 Mask

        圖8 染色后的編碼器輸出

        表1顯示了在不同編碼器和估計(jì)激活參數(shù)的參與下,修正后的方法對(duì)算法的數(shù)據(jù)提升.在表2中比較了和其他先進(jìn)方法在同一個(gè)WSJ0-2mix數(shù)據(jù)集上的性能,并列出了文獻(xiàn)中報(bào)道的最佳結(jié)果.表中缺失的值是因?yàn)檠芯恐袥](méi)有報(bào)告這些數(shù)字,或者因?yàn)榻Y(jié)果是使用不同的STFT配置計(jì)算的.雖然依舊有一些算法的性能已經(jīng)超過(guò)了本文,但與以前的所有方法相比,本實(shí)驗(yàn)的模型尺寸明顯更小,從而具有可選擇性的優(yōu)勢(shì)性能.

        表1 新網(wǎng)絡(luò)中不同配置的分離效果

        表2 在數(shù)據(jù)集(WSJ-2mix)與其他常見(jiàn)方法的對(duì)比

        雖然在遞補(bǔ)填充代替零填充的步驟中引入了新的計(jì)算參數(shù),但是并沒(méi)有增加明顯的計(jì)算時(shí)延,而且在最終的輸出結(jié)果上有了數(shù)據(jù)意義上的進(jìn)步.

        4 結(jié)束語(yǔ)

        本文采用了在時(shí)域堆疊卷積上進(jìn)行遞補(bǔ)填充的框架,既縮小了切片重疊以減少輸入的數(shù)據(jù)總量,又保持了相鄰片段的數(shù)據(jù)相關(guān)性,修正了無(wú)內(nèi)容填充的數(shù)據(jù)偏移.該框架是一種用于時(shí)域語(yǔ)音分離的深度學(xué)習(xí)框架,解決了STFT域語(yǔ)音分離在包括相位和幅度的解耦和高延遲等一系列的劣勢(shì).這類時(shí)域卷積網(wǎng)絡(luò)同時(shí)具有高準(zhǔn)確性、低延遲和小模型尺寸的特點(diǎn),使得其成為離線、實(shí)時(shí)、低延遲語(yǔ)音處理應(yīng)用中的一個(gè)合適選擇,如嵌入式系統(tǒng)和可穿戴助聽(tīng)器等電信設(shè)備.

        然而由于使用固定的時(shí)間上下文長(zhǎng)度,本框架對(duì)單個(gè)說(shuō)話人的長(zhǎng)期跟蹤可能會(huì)數(shù)據(jù)特征丟失,特別是混合音頻中存在長(zhǎng)時(shí)間停頓的情況下,系統(tǒng)在單個(gè)聲源特征的提取是否能識(shí)別記憶.所以需要更進(jìn)一步的測(cè)試仿真混音和噪音下的泛化能力;適當(dāng)可以提高輸入信號(hào)維度和信息量的情況下測(cè)試輸出效果,例如當(dāng)有多個(gè)麥克可用時(shí),擴(kuò)展本框架來(lái)融合多通道輸入語(yǔ)音可能會(huì)增加系統(tǒng)的處理能力,特別是在惡劣語(yǔ)音輸入的情況下的收益可能會(huì)更加明顯.

        綜上所述,本改進(jìn)的框架是在語(yǔ)音分離算法中,為進(jìn)一步提高其精度、速度和降低計(jì)算成本,探索了新的研究方向和思路,這將使語(yǔ)音分離的自動(dòng)化成為實(shí)際應(yīng)用中每種語(yǔ)音處理技術(shù)所共同具有的必要特征.

        猜你喜歡
        特征方法
        抓住特征巧觀察
        新型冠狀病毒及其流行病學(xué)特征認(rèn)識(shí)
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        學(xué)習(xí)方法
        抓住特征巧觀察
        可能是方法不對(duì)
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        賺錢方法
        91久久国产精品视频| 亚洲精品一品区二品区三品区| 国产熟人av一二三区| 免费一区啪啪视频| 中文字幕日韩一区二区不卡| 国产亚洲人成在线观看| 97久久超碰国产精品旧版| 五十路熟妇亲子交尾| 亚洲AV无码日韩一区二区乱| 日本高清一区二区不卡| 国产欧美精品一区二区三区四区| 藏春阁福利视频| 亚洲免费毛片网| 精品久久中文字幕系列| 国产成人精品午夜二三区波多野| 日本丶国产丶欧美色综合| 午夜人妻中文字幕福利| 国产精品国产三级野外国产| www射我里面在线观看| 热99精品| 抖射在线免费观看视频网站| 国产自拍在线观看视频| 久久婷婷人人澡人人喊人人爽| 国产精品开放小视频| 91久久精品国产性色tv| 国内揄拍国内精品人妻久久| 无码少妇一区二区性色av| 亚洲国产成人无码影院| 国产精品午夜福利亚洲综合网| 日韩内射美女片在线观看网站| 少妇寂寞难耐被黑人中出| 无码专区无码专区视频网址| av影片手机在线观看免费网址| 日本真人做人试看60分钟| 欧美国产小视频| 国产精品成人久久a级片| 国产人妻鲁鲁一区二区| av天堂久久天堂av色综合| 国产午夜精品美女裸身视频69 | 亚洲最新精品一区二区| 免费国产黄网站在线观看可以下载|