亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于語音信號(hào)特性的沙漏網(wǎng)絡(luò)下的人聲與伴奏分離算法

        2023-07-07 03:10:12龔曉峰雒瑞森
        關(guān)鍵詞:人聲沙漏頻譜

        孫 超 余 勤 龔曉峰 雒瑞森

        (四川大學(xué)電氣工程學(xué)院 四川 成都 610065)

        0 引 言

        人工智能的不斷發(fā)展要求機(jī)器能“理解”人類的語言信息,從而使二者間的交互與合作更具便捷性和可操作性。自然語言處理[1]作為二者之間的一種特殊載體,為人工智能領(lǐng)域的發(fā)展做出了重要貢獻(xiàn)。人聲與伴奏分離,是指將混合語音信號(hào)中的人聲與伴奏分離出來,從而將分離出來的對(duì)應(yīng)源應(yīng)用于樂器識(shí)別、歌詞及歌手識(shí)別[2]等領(lǐng)域。由于語音信號(hào)的構(gòu)成復(fù)雜,所以針對(duì)傳統(tǒng)語音信號(hào)的統(tǒng)計(jì)學(xué)特征已經(jīng)不能滿足現(xiàn)在工作的需要,近年來,隨著神經(jīng)網(wǎng)絡(luò)在圖像處理領(lǐng)域的成功發(fā)展,一些在計(jì)算機(jī)視覺上效果良好的神經(jīng)網(wǎng)絡(luò)也逐步遷移到語音信號(hào)處理的領(lǐng)域中來。為了將一維語音信號(hào)序列通過神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)特征信息,可借助短時(shí)傅里葉變換(Short Time Fourier Transform,STFT)將一維信號(hào)轉(zhuǎn)換成二維頻譜圖,進(jìn)而輸入到各種神經(jīng)網(wǎng)絡(luò)中進(jìn)行訓(xùn)練和分離。

        基于神經(jīng)網(wǎng)絡(luò)下的人聲與伴奏分離算法主要是從卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Network,CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)來進(jìn)行分離的。基于卷積神經(jīng)網(wǎng)絡(luò)的算法通過卷積核對(duì)語音頻譜圖來提取譜圖的特征信息,用類似于人腦神經(jīng)元的結(jié)構(gòu)來獲得對(duì)應(yīng)譜圖的局部感受野,利用得到的人聲與伴奏各自有區(qū)分度的特征來進(jìn)行分離。文獻(xiàn)[3]利用深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,DNNs)來對(duì)大量的數(shù)據(jù)集進(jìn)行訓(xùn)練,使網(wǎng)絡(luò)的建模能力增強(qiáng)。文獻(xiàn)[4]提出了一種利用卷積神經(jīng)網(wǎng)絡(luò)對(duì)單通道語音信號(hào)進(jìn)行分離的方法,并且是低延遲的,與多層感知機(jī)(Multilayer Perceptron,MLP)相比,縮短了處理時(shí)間。對(duì)要分離的每個(gè)源單獨(dú)建模一個(gè)卷積去噪自動(dòng)編碼器(Convolutional Denoising Autoencoders,CDAEs)[5],并將其他源視為背景噪聲等干擾項(xiàng),也可以解決源分離的任務(wù),并且效果優(yōu)于前饋神經(jīng)網(wǎng)絡(luò)(Feedforward Neural Networks,FNNs)。文獻(xiàn)[6]把從醫(yī)學(xué)成像領(lǐng)域設(shè)計(jì)的U型網(wǎng)絡(luò)(U-net)遷移到了人聲與伴奏分離的任務(wù)中,U-net能捕獲語音頻譜圖的精細(xì)細(xì)節(jié),從而獲得高質(zhì)量的語音信號(hào)。由于循環(huán)神經(jīng)網(wǎng)絡(luò)具有特殊的記憶功能,所以在處理語音信號(hào)以及機(jī)器翻譯等序列型數(shù)據(jù)上具有優(yōu)勢(shì),文獻(xiàn)[7]將循環(huán)神經(jīng)網(wǎng)絡(luò)和時(shí)頻掩模二者整合起來,一起來訓(xùn)練神經(jīng)網(wǎng)絡(luò)的參數(shù),為分離工作提供了新的思路。董興寧等[8]利用循環(huán)神經(jīng)網(wǎng)絡(luò)來處理包含人聲和伴奏的混合歌曲,并且設(shè)計(jì)了在線分離的網(wǎng)頁系統(tǒng)。Yuan等[9]將卷積神經(jīng)網(wǎng)絡(luò)作為前端來提取語音信號(hào)的特征,后端利用循環(huán)神經(jīng)網(wǎng)絡(luò)來對(duì)序列的上下文信息進(jìn)行建模,分離效果相比單獨(dú)地利用卷積網(wǎng)絡(luò)或循環(huán)網(wǎng)絡(luò)有了進(jìn)一步的提升。

        但是大部分的神經(jīng)網(wǎng)絡(luò)還比較淺層,對(duì)于復(fù)雜的語音信號(hào)來說,無法提取其內(nèi)部深層次的語義特征。目前分離工作的主流思路就是利用深度學(xué)習(xí)的優(yōu)勢(shì),設(shè)計(jì)更深層次的網(wǎng)絡(luò)結(jié)構(gòu),Park等[10]將原本應(yīng)用于人體姿態(tài)估計(jì)的沙漏網(wǎng)絡(luò)[11]遷移到了語音分離的領(lǐng)域,把人體姿態(tài)中的不同關(guān)節(jié)點(diǎn)之間的聯(lián)系等價(jià)成語音信號(hào)上下文之間的聯(lián)系,通過重復(fù)的自上而下和自下而上的推理來捕獲語音頻譜圖中的精細(xì)細(xì)節(jié)和全局特征信息,使得遷移后的沙漏網(wǎng)絡(luò)在人聲與伴奏分離的任務(wù)上與其他方法相比,達(dá)到了最優(yōu)的效果。

        本文在沙漏網(wǎng)絡(luò)的基礎(chǔ)上,結(jié)合語音信號(hào)的特性,設(shè)計(jì)一個(gè)有助于沙漏網(wǎng)絡(luò)分離的損失函數(shù),進(jìn)一步對(duì)沙漏網(wǎng)絡(luò)進(jìn)行了優(yōu)化,提出基于語音信號(hào)特性的沙漏網(wǎng)絡(luò)下的人聲與伴奏分離算法。在MIR-1K數(shù)據(jù)集上的結(jié)果表明,本文算法超過了原始沙漏網(wǎng)絡(luò)以及其他方法,并且通過分離后人聲和伴奏對(duì)應(yīng)的指標(biāo)和頻譜圖來對(duì)分離效果進(jìn)行全面的分析。

        1 相關(guān)工作

        1.1 沙漏神經(jīng)網(wǎng)絡(luò)

        沙漏神經(jīng)網(wǎng)絡(luò)的形狀類似于沙漏式,是一種對(duì)稱的拓?fù)浣Y(jié)構(gòu)。在人體姿態(tài)估計(jì)中,重復(fù)使用自上而下和自下而上來推斷人體的關(guān)節(jié)點(diǎn)位置,在頂部使用一個(gè)跳躍連接,將前后相同分辨率的特征圖的信息連接起來,所以沙漏網(wǎng)絡(luò)可以利用不同尺度下的特征信息和空間信息,充分利用數(shù)據(jù)帶來的各個(gè)尺度上的信息。其網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。在人聲與伴奏分離中,這樣的拓?fù)浣Y(jié)構(gòu)可以捕捉語音頻譜圖中的頻率信息和時(shí)間信息,獲得上下文之間的語義聯(lián)系。其中圖1虛線框?yàn)閱蝹€(gè)沙漏模塊,將多個(gè)沙漏模塊按照端到端的方式連接起來,就構(gòu)成了堆疊沙漏網(wǎng)絡(luò)。這種堆疊式的操作可以使前一階段的沙漏模塊得到的信息傳遞到下一階段的沙漏模塊之中,所以前一階段的沙漏模塊作為下一個(gè)沙漏模塊的輸入可以使整個(gè)網(wǎng)絡(luò)獲取語音信號(hào)之間的相互關(guān)系,從而提升了分離性能。

        圖1 沙漏網(wǎng)絡(luò)結(jié)構(gòu)

        圖1虛線框內(nèi)部為一個(gè)四階的沙漏網(wǎng)絡(luò),它是在一階的基礎(chǔ)上嵌套而來的,一階沙漏網(wǎng)絡(luò)如圖2所示,整體結(jié)構(gòu)分為兩個(gè)分支,每個(gè)分支包含不等的卷積層,隨著卷積層的深入來提取語音譜圖更深層次的特征信息。假設(shè)輸入譜圖的維度為H×W×M(分別代表圖像的高度、寬度、輸出通道),上半分支不改變輸入譜圖的大小(即分辨率仍為H×W),下半分支先通過最大池化進(jìn)行下采樣(/2),使譜圖大小減半(即分辨率為((H/2)×(W/2)));再通過最近鄰上采樣(×2)使譜圖恢復(fù)成原來大小(即分辨率為H×W)。本文中設(shè)置沙漏網(wǎng)絡(luò)中卷積層的輸出通道數(shù)(或特征圖的數(shù)目)統(tǒng)一為256(即M=256)。如圖1所示,在沙漏網(wǎng)絡(luò)中,下半分支通過不斷深入的卷積層來提取語音譜圖較高層次的特征,上半分支不改變譜圖大小,即保留了原有層次的語音特征信息,上下分支最后再通過相加的操作使得不同層次之間的語音信息相融合。

        圖2 一階沙漏網(wǎng)絡(luò)

        將一階沙漏網(wǎng)絡(luò)下半分支(即圖2虛線框內(nèi))的卷積結(jié)構(gòu)嵌套成新的一階沙漏網(wǎng)絡(luò),則沙漏網(wǎng)絡(luò)的階數(shù)會(huì)相應(yīng)升高,稱作二階沙漏網(wǎng)絡(luò)。對(duì)于本文用的四階沙漏網(wǎng)絡(luò),本質(zhì)上即為四個(gè)一階沙漏網(wǎng)絡(luò)循環(huán)嵌套后的結(jié)構(gòu),如圖3所示。

        圖3 四階沙漏網(wǎng)絡(luò)

        1.2 基于語音信號(hào)特性的沙漏網(wǎng)絡(luò)

        分離的整體框架如圖4所示,我們使用四個(gè)四階沙漏模塊堆疊在一起,每個(gè)沙漏模塊會(huì)產(chǎn)生一個(gè)損失值,最后將四個(gè)損失相加,這種方式也叫做中繼監(jiān)督(Intermediate Supervision)[12]。對(duì)于傳統(tǒng)的網(wǎng)絡(luò)來說,損失只是通過對(duì)最后的預(yù)測(cè)值與真實(shí)值二者進(jìn)行均方誤差或交叉熵?fù)p失等。由于堆疊沙漏網(wǎng)絡(luò)每個(gè)階段的單獨(dú)沙漏模塊都是獨(dú)立完整的結(jié)構(gòu),因此將所有沙漏的損失相加的所預(yù)測(cè)的精度要遠(yuǎn)遠(yuǎn)高于只考慮最后一個(gè)沙漏預(yù)測(cè)的損失值。

        圖4 分離的總框架

        (1)

        (2)

        (3)

        (4)

        式中:⊙表示矩陣中的元素乘法;L1,1范數(shù)是矩陣中各個(gè)元素的絕對(duì)值之和。由于采用的是4個(gè)沙漏模塊堆疊而成的結(jié)構(gòu),故總的損失函數(shù)如下:

        (5)

        式中:j的范圍是1~2,對(duì)應(yīng)人聲源和伴奏源;k的范圍是1~4,分別對(duì)應(yīng)堆疊的四個(gè)沙漏模塊。

        受循環(huán)神經(jīng)網(wǎng)絡(luò)在人聲伴奏分離工作[7,9]的啟發(fā),我們針對(duì)分離構(gòu)造了一種新的損失函數(shù),它是在L1,1范數(shù)基礎(chǔ)上的附加項(xiàng),如式(6)所示。

        (6)

        另外,我們還在網(wǎng)絡(luò)中加入了批處理規(guī)范化(Batch Normalization, BN)[14]來調(diào)節(jié)沙漏神經(jīng)網(wǎng)絡(luò)層的輸入,穩(wěn)定沙漏網(wǎng)絡(luò)訓(xùn)練和學(xué)習(xí)過程,改善了反向梯度傳播。同時(shí)在網(wǎng)絡(luò)中加入Leaky-ReLU作為激活函數(shù),這種激活函數(shù)在語音增強(qiáng)和分離等信號(hào)處理的領(lǐng)域有著重要的價(jià)值。

        2 實(shí) 驗(yàn)

        基于語音信號(hào)特性的沙漏網(wǎng)絡(luò)下的人聲與伴奏分離算法是在Python語言下編譯的,使用單塊型號(hào)為Tesla P100的GPU ,深度環(huán)境為TensorFlow。

        2.1 數(shù)據(jù)集

        我們使用人聲與伴奏分離工作上的標(biāo)準(zhǔn)數(shù)據(jù)集MIR-1K[15],它包括1 000首由110首男性/女性演唱的中國卡拉OK歌曲中提取的4~13 s不等長的音頻數(shù)據(jù)。為了公平比較,我們使用與以前工作相同的男性(Abjones)和女性(Amy)作為訓(xùn)練集,共包含175個(gè)音頻數(shù)據(jù),其余825個(gè)音頻數(shù)據(jù)作為測(cè)試集。

        2.2 評(píng)價(jià)指標(biāo)

        (7)

        式中:etarget(t)是預(yù)測(cè)信號(hào);einterf(t)是干擾信號(hào);enoise(t)是噪聲信號(hào);eartif(t)是算法引入的偽像。通過上述分解方法,可以定義評(píng)價(jià)指標(biāo)如下:

        源-失真比(SDR):

        (8)

        源-干擾比(SIR):

        (9)

        源-噪聲比(SNR):

        (10)

        源-算法引入偽像比(SAR):

        (11)

        標(biāo)準(zhǔn)化的SDR(NSDR)也用于分離性能的評(píng)價(jià)上,定義如下:

        NSDR(Te,To,Tm)=SDR(Te,To)-SDR(Tm,To)

        (12)

        式中:Te定義為沙漏網(wǎng)絡(luò)預(yù)測(cè)的人聲/背景音樂;To為原始信號(hào)中純凈的人聲/背景音樂;Tm為原始混合信號(hào)。全局NSDR(GNSDR)、全局SIR(GSIR)和全局SAR(GSAR)分別計(jì)算為NSDR、SIR和SAR的加權(quán)平均值,其權(quán)重為音源長度。另外由于標(biāo)準(zhǔn)數(shù)據(jù)集不包含噪聲項(xiàng),所以enoise(t)為0。

        2.3 實(shí)驗(yàn)過程

        我們?cè)谕ㄟ^沙漏網(wǎng)絡(luò)之前,首先要通過傅里葉變換把一維的語音信號(hào)轉(zhuǎn)換成二維信號(hào),故要先對(duì)語音信號(hào)做預(yù)處理,統(tǒng)一成大小為512×64的頻譜圖,主要參數(shù)如表1和表2所示。

        表1 網(wǎng)絡(luò)主要參數(shù)設(shè)置

        表2 預(yù)處理卷積層參數(shù)設(shè)置

        預(yù)處理后,我們首先改變了原始的損失函數(shù),進(jìn)一步添加了符合語音信號(hào)特性的附加項(xiàng),通過損失曲線(圖5)可以看出,雖然我們是原有損失函數(shù)的附加項(xiàng),但是反而優(yōu)化了整個(gè)網(wǎng)絡(luò)的學(xué)習(xí)過程,使得損失函數(shù)的值進(jìn)一步減小,減小的幅度為原來的1/2左右,并且通過圖6和圖7可以看出無論是人聲還是伴奏的GNSDR、GSIR和GSAR共六項(xiàng)指標(biāo)的分貝數(shù)均為上升,證明分離出來的源的信噪比分貝數(shù)更高,即分離出來的源更加純凈。

        圖5 不同改進(jìn)后的損失函數(shù)曲線

        圖6 分離后的人聲在不同模型下的指標(biāo)

        圖7 分離后的伴奏在不同模型下的指標(biāo)

        進(jìn)一步地,我們?cè)诟淖儞p失函數(shù)基礎(chǔ)上又增加了批標(biāo)準(zhǔn)化和Leaky-ReLU激活函數(shù)。通過圖5的損失曲線可以看出,整個(gè)網(wǎng)絡(luò)的損失值會(huì)進(jìn)一步下降,并且圖6和圖7對(duì)應(yīng)的評(píng)價(jià)人聲和伴奏分離指標(biāo)上驗(yàn)證了效果,在人聲和伴奏上的GSIR有所下降,但是在0.06~0.07 dB之間,可以忽略不計(jì),此外人聲和伴奏的GNSDR和GSAR四項(xiàng)指標(biāo)均為上升。

        2.4 實(shí)驗(yàn)結(jié)果與分析

        最后,將本文算法與目前的分離算法進(jìn)行了對(duì)比,如表3所示,在分離后人聲的GNSDR上提高了0.18 dB,GSIR上提高了0.01 dB,GSAR上提高了0.26 dB。如表4所示,在分離后伴奏的GNSDR上提高了0.23 dB,GSIR上提高了0.15 dB,GSAR上提高了0.32 dB。

        表3 MIR-1K數(shù)據(jù)集下人聲部分不同算法對(duì)比 單位:dB

        表4 MIR-1K數(shù)據(jù)集下伴奏部分不同算法對(duì)比 單位:dB

        可以看出本文算法無論在人聲還是伴奏上的分離指標(biāo),均比原始沙漏模型有進(jìn)一步的提高,并且明顯優(yōu)于近年來的其他算法。

        我們進(jìn)一步地輸出了原始沙漏模型和本文算法下對(duì)應(yīng)分離出來的人聲頻譜圖和伴奏頻譜圖,如圖8所示。對(duì)比本文算法分離出來的人聲頻譜圖(圖8(a))和原始沙漏模型分離出來的人聲頻譜圖(圖8(c))可得,在0~1.2 s的時(shí)間段內(nèi)的2 000~4 000 Hz的頻率范圍內(nèi),我們產(chǎn)生了更少的偽影;在2.4~4.8 s時(shí)間段內(nèi)捕獲了更精細(xì)的細(xì)節(jié)和諧波信號(hào)。圖8(a)和圖8(b)分別是本文算法分離出的人聲與伴奏的頻譜圖;圖8(c)和圖8(d)分別是原始沙漏模型分離出的人聲與伴奏的頻譜圖;圖8(e)和圖8(f)分別是真實(shí)信號(hào)的人聲與伴奏的頻譜圖。

        圖8 分離算法效果對(duì)比

        3 結(jié) 語

        本文提出一種基于語音信號(hào)特性的沙漏網(wǎng)絡(luò)下的人聲與伴奏分離算法。針對(duì)語音信號(hào)的特性,為人聲與伴奏的分離構(gòu)造一種新的損失函數(shù),并且通過在網(wǎng)絡(luò)中加入了批標(biāo)準(zhǔn)化和Leaky-ReLU激活函數(shù)來優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)。在MIR-1K數(shù)據(jù)集上的實(shí)驗(yàn)驗(yàn)證了本文方法的有效性,相比目前其他算法提高了分離性能,減少了不必要的偽影。下一步將考慮不同階段的沙漏網(wǎng)絡(luò)之間的關(guān)聯(lián),從而利用語音信號(hào)的時(shí)間和空間特征信息,進(jìn)一步提高分離指標(biāo)。

        猜你喜歡
        人聲沙漏頻譜
        一種用于深空探測(cè)的Chirp變換頻譜分析儀設(shè)計(jì)與實(shí)現(xiàn)
        阿卡貝拉人聲合唱團(tuán)的基本訓(xùn)練研究
        一種基于稀疏度估計(jì)的自適應(yīng)壓縮頻譜感知算法
        有趣的沙漏
        DIY裝飾沙漏
        DIY裝飾沙漏
        愛樂之城
        民主(2017年3期)2017-05-12 09:48:52
        回憶的沙漏
        青年歌聲(2017年12期)2017-03-15 05:20:16
        認(rèn)知無線電頻譜感知技術(shù)綜述
        高中音樂選修課程《人聲極致“阿卡貝拉”》的開發(fā)和實(shí)施
        麻豆国产原创视频在线播放| 国产精品高清国产三级国产av| 精品亚洲第一区二区三区| 日韩人妻ol丝袜av一二区| 精品国产一区二区三区av 性色| 性做久久久久久久| 综合中文字幕亚洲一区二区三区| 婷婷色婷婷开心五月四| 波多野42部无码喷潮| 国产精品公开免费视频| 亚洲精品中文字幕尤物综合| 那有一级内射黄片可以免费看| 中文字幕乱码无码人妻系列蜜桃| 亚洲av无码一区二区乱子伦| 亚洲AV秘 片一区二区三区| 精品人妻少妇丰满久久久免| 人妻洗澡被强公日日澡电影| 国产精品永久免费视频| 国产成人自产拍免费视频| 国产久色在线拍揄自揄拍| 三级做a全过程在线观看| 国产精品久久久久久人妻精品| 国产精品国产自线拍免费| 国产精品成人一区二区在线不卡 | 香蕉免费一区二区三区| 国产亚洲精品久久久久久久久动漫| 国产精品国产三级国产AvkTV| 99久久国产免费观看精品| 四川丰满妇女毛片四川话| 最近高清中文在线字幕观看 | 人妻熟女中文字幕av| 国产aⅴ激情无码久久久无码| 欧洲人妻丰满av无码久久不卡| 日本少妇被爽到高潮的免费| 国产一区二区三区小向美奈子 | 亚洲三级香港三级久久| 亚洲人成电影网站色| 1000部拍拍拍18勿入免费视频下载 | 日本女优中文字幕看片| 日日噜噜噜夜夜狠狠久久蜜桃| 成人免费无码视频在线网站|