亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深層聲學特征的端到端語音分離①

        2019-10-18 06:40:40李娟娟李子晉
        計算機系統(tǒng)應用 2019年10期
        關(guān)鍵詞:聲學時域波形

        李娟娟,王 丹,李子晉

        1(復旦大學 計算機科學技術(shù)學院,上海 201203)2(盲信號處理國家級重點實驗室,上海 200434)3(中國音樂學院 音樂科技系,北京 100101)

        語音作為一項最為便捷的交流工具,實現(xiàn)了人類社會高效快速的信息交換,成為人類文明的一個重要助力.然而在現(xiàn)實環(huán)境中,感興趣的語音信號通常會被其他聲源干擾,嚴重損害了語音的可懂度,降低了語音交互的性能.為了解決以上問題,語音分離是最為關(guān)鍵的技術(shù)之一.

        語音分離是指從多個說話人的混合語音中分離得到想要的語音數(shù)據(jù),源于著名的“雞尾酒會問題”[1],主要是研究如何能夠從混合的語音信號中同時得到目標和干擾語音信號,它在語音識別、殘疾人助聽領(lǐng)域具有廣泛的應用.本文主要探究兩個說話人混合的情況.圖1是語音分離技術(shù)的示意圖,圖中左邊的兩張語譜圖分別是兩個說話人的語音的語譜圖,經(jīng)過混合后得到中間的混合語音的語譜圖,而經(jīng)過語音分離以后得到的是右邊分離出的語音的語譜圖.從圖1可以看出,由于不同的說話人的語音的發(fā)音特性有差異和說話內(nèi)容、語速等不同,以及語音信號這種時變信號本身具有一定的短時平穩(wěn)特性,從而使得語音分離具有可行性[2].

        圖1 語音分離技術(shù)示意圖

        語音分離作為一個重要的研究領(lǐng)域,幾十年來,受到國內(nèi)外研究者的廣泛關(guān)注和重視.近年來,監(jiān)督性語音分離技術(shù)取得了重要的研究進展,特別是深度學習的應用,極大地促進了語音分離的發(fā)展.在基于深度神經(jīng)網(wǎng)絡的語音分離算法中,特征提取是至關(guān)重要的步驟.傅里葉變換域特征是最常用的語音分離特征,Xu[3]、Huang[4]、Weninger[5]等使用傅里葉幅度譜或者傅里葉對數(shù)幅度譜作為語音分離的輸入特征.Wang等在文獻[6]中總結(jié)了Gammatone濾波變換域特征,并且利用Group Lasso的特征選擇方法得到AMS+RASTAPLP+MFCC的特征組合.Chen等在文獻[7]中提取的多分辨率特征MRCG具有明顯的優(yōu)勢,逐漸取代了組合特征成為語音分離中最常用的特征之一.然而以上這些傳統(tǒng)聲學特征的提取需要經(jīng)一系列復雜的操作,會造成語音能量損失以及長時間延遲.

        近年來,端到端的方法已經(jīng)用于語音識別、語音合成和語音增強等語音任務中,并在這些任務中取得了較優(yōu)的效果.Luo等人在文獻[8]中首次提出了基于非負矩陣分解思想的端到端語音分離,并取得了較優(yōu)的效果.為了進一步說明端到端的方法在語音分離這一方向的可行性,本文提出以語音信號的原始波形作為深度神經(jīng)網(wǎng)絡的輸入,通過網(wǎng)絡模型來學習語音信號的更深層次的深層聲學特征,實現(xiàn)端到端的語音分離.

        1 基于傳統(tǒng)聲學特征的語音分離

        語音分離旨在分離混合語音信號中的信號,這個過程能夠很自然地表達成一個監(jiān)督性學習問題[3-5].一個典型的監(jiān)督性語音分離系統(tǒng)通常通過監(jiān)督性學習算法,例如深度神經(jīng)網(wǎng)絡,學習一個從混合語音的傳統(tǒng)聲學特征到分離目標的映射函數(shù)[9].算法1為基于傳統(tǒng)聲學特征的語音分離算法.

        算法1.基于傳統(tǒng)聲學特征的語音分離算法1)時頻分解,通過信號處理的方法將輸入的時域信號分解成二維的時頻信號表示;2)特征提取,提取幀級別或者時頻單元級別的聽覺特征(短時傅里葉變換譜或者短時傅里葉功率譜等);3)模型訓練,利用大量的輸入輸出訓練對通過機器學習算法學習一個從混合語音特征到分離目標(理想二值掩蔽或者理想比例掩蔽等)的映射函數(shù);4)波形合成,利用估計的分離目標以及混合信號,通過逆變換(逆傅里葉變換或者逆聽覺濾波)獲得目標語音的波形信號.

        在提取傳統(tǒng)聲學特征時,先要進行時頻分解,一般都是將時域信號通過短時離散傅里葉變換(Short-time Fourier Transform,STFT)、離散余弦變換(Discrete Cosine Transform,DCT)或者通過一些聽覺濾波器組(如Gammatone濾波器組)得到二維的時頻域表示.在這個過程中產(chǎn)生了兩個問題.一是忽略了在提取特征的過程中造成語音的高頻部分以及相位信息的損失,以及在變換過程中可能會引入虛假的信息,從而對語音分離的性能造成影響.二是由于變換域中的有效語音分離對高頻分辨率的需求,導致相對較大的時間窗口長度,對于語音通常超過32毫秒[3,10-12],音樂分離超過90毫秒[13].因為系統(tǒng)的最小延遲受STFT時間窗的長度限制,所以當需要非常短的延遲時,這限制了此類系統(tǒng)的使用,例如電信系統(tǒng)或可聽設(shè)備這類實時性系統(tǒng).克服這些問題的一種自然方法是直接建模時域中的信號.有研究結(jié)果表明,語音原始波形相比基于傅里葉變換的梅爾倒譜系數(shù)等特征,在某些研究領(lǐng)域具有更好的語音性能[14].所以本文選擇以語音信號的原始波形作為深度神經(jīng)網(wǎng)絡的輸入,通過網(wǎng)絡模型來學習語音信號深層次的深層聲學特征(Deep Acoustic Feature,DAF),實現(xiàn)端到端的語音分離.

        2 基于深層聲學特征的端到端語音分離

        圖2是基于深層聲學特征的端到端語音分離算法的整體流程,主要分為4個部分:(1)信號預處理,對混合信號的原始波形進行分段及規(guī)整.(2)深層聲學特征提取,提取時域信號的DAF作為分離模型的輸入.(3)分離模型,訓練分離模型得到各個信號的特征掩蔽值.(4)信號重建,利用得到的信號的特征掩蔽值及混合信號的DAF,通過信號重建得到各個分離信號的時域波形.

        圖2 算法整體流程

        2.1 信號預處理

        數(shù)據(jù)預處理在許多機器學習算法中起著很重要的作用,如果輸入的特征向量在整個訓練集上均值接近零,那么模型的收斂速度會很快.語音信號的預處理模塊包括兩部分,分段、規(guī)整.

        首先將混合信號分成K段,每段長度為L,再對每段使用單元L2規(guī)整,Xk是分段后的信號,規(guī)整方式如下:

        單元L2規(guī)整即可以削弱時不變信道的影響,還能減少加性噪聲的影響,同時時域信號被縮放到相似的動態(tài)范圍內(nèi),使得后續(xù)模型的學習過程也能取得較好的效果.

        2.2 深層特征提取

        在基于深度神經(jīng)網(wǎng)絡的語音分離算法中,語音分離任務能夠被表達成一個學習問題,對于深度學習問題,特征提取是至關(guān)重要的步驟.提取好的特征能夠極大地提高語音分離的性能[15].

        針對傳統(tǒng)聲學特征提取方法需要經(jīng)過傅里葉變換、離散余弦變換等操作,提取復雜特征作為輸入,會造成能量損失的問題,本文選擇以語音信號的原始波形作為深度神經(jīng)網(wǎng)絡的輸入,通過網(wǎng)絡模型來學習語音信號深層次的聲學特征,DAF提取過程如圖3所示.

        圖3 DAF提取過程

        在DAF的提取過程中,參考語言建模[16]中的門限卷積方法,在第二層全連接層后引入門限機制如下:

        其中,ReLU為線性整流函數(shù),σ為Sigmoid激活函數(shù),⊙表示逐元素乘積操作.引入門限機制可以控制模型中的信息流動,幫助模型的神經(jīng)元之間有更加復雜的聯(lián)系.相比于語音建模中的門限卷積,本文中使用全連接代替卷積操作,雖然使用卷積操作能減少訓練參數(shù)從而縮短訓練時間,但是使用全連接操作能減少語音損失的能量,提取的特征也能更多地挖掘深層次的聲學特征,提升語音分離的性能.

        2.3 分離模型

        雙向長短時記憶網(wǎng)絡(Bi-derectional Long Short Term Memory,BiLSTM)結(jié)構(gòu)能夠有效抓住音頻數(shù)據(jù)中的長時依賴,對語音建模非常有效[17,18].本文中,分離網(wǎng)絡由4層深度BiLSTM后面接著一個全連接層構(gòu)成,在第二層隱藏層的輸出與第四層隱藏層的輸出之間增加了跳躍連接[19],改善了多層網(wǎng)絡反向傳播的梯度消散問題,提升網(wǎng)絡性能.

        網(wǎng)絡的輸入是混合信號的DAF,網(wǎng)絡的輸出是各個信號的掩蔽值.已有研究證明在語音分離任務中把掩蔽值(mask)作為分離目標能顯著地提高語音分離的可懂度和感知質(zhì)量.其中,最常使用的分離目標之一為理想比例掩蔽(Ideal Ratio Mask,IRM)[20].基于IRM的定義,本文中使用的信號的掩蔽值,特征比例掩蔽(Feature Ratio Mask,FRM)的定義如下:

        使用掩蔽值作為分離模型的輸出比使用特征DAF的效果更好.全連接層的激活函數(shù)為Softmax函數(shù).為了加速訓練進程及維持訓練過程中的穩(wěn)定性,對分離網(wǎng)絡的輸入即混合信號的DAF要進行層級歸一化.

        2.4 信號重建

        將混合信號的DAF逐元素乘以各個信號的FRM,經(jīng)過一層全連接層后.得到規(guī)整的目標信號的時域波形,最后通過逆規(guī)整和整合,重建各個信號的時域信號.

        2.5 損失函數(shù)

        網(wǎng)絡模型的最終輸出是估計的干凈信號的時域波形,由于模型效果的重要評價指標之一是尺度不變信噪比(Scale-invariant Source-to-noise Ratio,SI-SNR)[8],所以在這里不使用估計語音的時域波形和干凈的時域波形的均方誤差,而是基于SI-SNR來設(shè)計損失函數(shù).SI-SNR的定義如下:

        3 實驗結(jié)果和分析

        3.1 實驗配置

        華爾街日報語料庫(Wall Street Journal,WSJ0)是語音分離任務常用的數(shù)據(jù)集[11-13],每條語音大約在5 s左右.混合語音由隨機選取WSJ0訓練集si_tr_s中的任意兩個說話人,以隨機選取的0-5 dB信噪比混合而成,最終形成30個小時的訓練集和10小時的驗證集.測試集使用WSJ0的si_dt_05和si_et_05的未知說話人以相同的混合方式產(chǎn)生,最終生成5小時的測試集.

        實驗中所使用的語音波形文件具有8 kHz的采樣頻率.分段時的長度L=40 (5 ms),每段之間有50%的重疊,提取的DAF長度為500.深度BiLSTM采用4層隱藏層,每層隱藏層的結(jié)點是500,在第二層隱藏層的輸出與第四層隱藏層的輸出之間有跳躍連接,最后一層全連接層的結(jié)點數(shù)為1000,使用Softmax激活函數(shù).在訓練過程中,使用隨機初始化的網(wǎng)絡,采用的最小批訓練方法中每個最小批的訓練集包含128個樣本.初始的學習率設(shè)置為1e-3,當驗證集上的損失在連續(xù)3個迭代次數(shù)(epoch)沒有降低時,就將學習率設(shè)置為當前學習率的一半.當驗證集上的損失在連續(xù)10個epoch都沒有降低時停止訓練.選用Adam優(yōu)化函數(shù),Adam優(yōu)化器的超參數(shù)具有很好的解釋性,通常無需調(diào)整或僅需很少的微調(diào),適用于大規(guī)模數(shù)據(jù)及參數(shù)的場景.

        3.2 評價指標

        本實驗中采用的評價指標為BSS-EVAL指標.BSSEVAL工具箱通常用來評估模型的分離性能,它是由Vincent 等人在 2006年提出的語音分離指標[21],并開源的語音分離評估工具箱,廣泛被研究者用于語音分離評價中.根據(jù) BSS-EVAL 指標,語音分離評估使用3個定量值分別是,信噪干擾比(Source to Interference Ratio,SIR),信噪偽影比(Source to Artifact Ratio,SAR)和信噪失真比(Source to Distortion Ratio,SDR).3個值均是越高越好.其中,SDR計算分離聲音中存在多少總失真,SDR值越高表示語音分離系統(tǒng)整體上的失真越小,語音分離系統(tǒng)性能越好.SIR直接比較非目標聲源噪音與目標聲音的分離程度.SAR是指在語音分離過程中引入的人工誤差,SAR值越高,表明引入誤差對語音分離系統(tǒng)影響越小.

        3.3 實驗結(jié)果和分析

        (1)基于DAF的語音分離算法的效果

        表1為所提的基于DAF的語音分離算法在測試集(3000條語音)上的分離語音的平均SDR、SIR及SAR值,分別為11.60、22.58和12.38.從客觀評價指標來看,本文所提出的語音分離算法在測試集上的有效性.

        表1 測試集平均SDR、SIR、SAR值

        圖4是本文所提語音分離算法在測試集(3000條語音)上的SDR值(每條混合語音分離出來的兩條語音的SDR值取平均)的分布.其中分離后語音的SDR值大于10的有75%,分離效果很好,語音質(zhì)量清晰可懂.SDR值在5到10范圍內(nèi)的有8%,分離效果較好,語音不夠清晰,但是可懂.SDR值在0到5范圍內(nèi)的有10%,分離效果一般,不明顯.SDR值<0的有7%,分離效果差,分離前與分離后沒有差別.經(jīng)觀察分析,這7%的混合語音,混合的兩個不同的說話人基本是同性別并且發(fā)音特性較為相似,導致分離算法在這部分數(shù)據(jù)上處理效果不好.

        圖4 測試集上SDR值分布

        圖5分別是混合語音、分離語音1和2的DAF的可視圖.從圖中可以看出,DAF中有一條條的類似于頻譜圖中的“聲紋”的東西,并且不同的說話人對應的“聲紋”的位置不同,說明深度網(wǎng)絡確實可以從語音的時域信號中學習到不同說話人的聲音特性并且能做出相應的區(qū)分.

        圖5 語音DAF的可視圖

        圖6是所提語音分離算法的一個效果示例,每張小圖的上方是語音信號的原始波形,下方是其對應的語譜圖.圖中左邊的兩張小圖分別是測試集中的兩個說話人的語音,以0.27 dB的信噪比經(jīng)過混合后得到中間的混合語音,右邊是分離出的兩個說話人語音,分離后的SDR值分別為14.20和12.39.無論是從客觀評價指標SDR,還是從主觀地比較分離前后的語音原始波形和語譜圖,均能看出所提出語音分離算法的有效性.

        圖6 一個語音分離效果示例

        (2)不同聲學特征的效果對比

        在這一部分實驗中,為了探究本文使用的深層聲學特征的有效性,與語音分離任務中最常用的傳統(tǒng)聲學特征,經(jīng)過STFT變換的257維對數(shù)功率譜特征(Log Power Spectrum,LPS)做對比.同時為了驗證DAF中使用的門限機制的有效性,與單獨使用ReLU、Sigmoid激活函數(shù)做對比,其他實驗配置與3.1小節(jié)的配置相同.

        表2為使用不同聲學特征的測試集上的平均SDR、SIR和SAR值.使用門限機制DAF、單獨使用ReLU評價指標比使用LPS特征高,說明使用網(wǎng)絡去學習語音信號深層特征比使用傳統(tǒng)基于STFT的特征有效.而單獨使用Sigmoid的深層特征比使用LPS評價指標低,說明了提取深層特征中選取恰當激活函數(shù)的重要性,選取不當會導致沒有傳統(tǒng)特征效果好.另外,使用DAF特征比使用單獨ReLU和單獨使用Sigmoid的評價指標高,說明本文所提出的深度聲學特征中使用門限機制的有效性.

        表2 不同聲學特征的測試集平均SDR、SIR、SAR值

        (3)不同分離網(wǎng)絡的效果對比

        在這一部分實驗中,為了驗證分離網(wǎng)絡中使用的BiLSTM的雙向的有效性,使用普通LSTM(非雙向)與之做對比.深度LSTM網(wǎng)絡有4層隱藏層,每層隱藏層的結(jié)點為1000.其他實驗配置與3.1小節(jié)的配置相同.

        表3為使用不同分離網(wǎng)絡(BiLSTM vs 普通LSTM)在測試集上的平均SDR、SIR和SAR值.使用BiLSTM比使用普通LSTM的分離網(wǎng)絡的SDR值高了5左右.因為普通LSTM在時序上處理序列沒有考慮未來的上下文信息,忽略了未來時刻的影響.而使用BiLSTM看到未來信息對當前時刻的影響,更適用于本算法中的分離網(wǎng)絡.

        表3 不同分離網(wǎng)絡的測試集平均SDR、SIR、SAR值

        (4)不同損失函數(shù)的效果對比

        在本實驗中采用了1/SI-SNR的損失函數(shù),其他最常用的損失函數(shù)是直接基于時域信號的最小均方差(Minimum Mean Squared Error,MMSE)損失函數(shù),直接優(yōu)化估計語音與干凈語音的時域信號差.該損失函數(shù)定義如下:

        表4為使用不同損失函數(shù)(1/SI-SNRvs MMSE)在測試集上的平均SDR、SIR和SAR值.使用基于SI-SNR的損失函數(shù)比使用MMSE的SDR值高了4左右.因為SI-SNR本身就是評價語音分離效果的重要指標,SI-SNR越高則語音質(zhì)量越高,相對于直接優(yōu)化語音原始波形的損失,使用基于SI-SNR的損失函數(shù)更適用于本算法的模型優(yōu)化.

        表4 不同損失函數(shù)的測試集平均SDR、SIR、SAR值

        (5)不同語音分離算法的效果對比

        在這一部分實驗中,為了探究所提算法在語音分離任務上的性能優(yōu)劣,使用目前四種具有代表性的語音分離算法與之做對比,分別為深度聚類(Deep Clustering,DC)語音分離算法[10],置換不變性(Permutation Invariant Training,PIT)語音分離算法[11]、時域語音分離算法Tasnet[8]和在音樂分離任務上表現(xiàn)很好的多任務Chimera模型[13].這四種方法中有基于時域的方法,也有基于頻域的方法.在測試集上的測試結(jié)果如表5所示.這可以發(fā)現(xiàn),本文所提出的算法的在語音分離任務上的有效性.

        表5 不同語音分離算法的測試集平均SDR值

        (6)時間延遲

        在這部分實驗中,為了探究基于傳統(tǒng)聲學特征的分離算法和本文所提算法的時間延遲,選用最常用的STFT特征與之做對比,實驗結(jié)果如表6所示.算法延遲T等于建模所需的時域波形時間T1、特征提取所需的時間T2、分離網(wǎng)絡的時間T3和波形重建的時間T4的和.實驗中保證分離網(wǎng)絡的結(jié)構(gòu)相同,即T3相同,T4與T2成正比.所以實際的時間延遲由T1和T2決定.實驗所使用的GPU為GTX1070.在8 kHz的采樣率下,提取STFT特征時,每幀的采樣點數(shù)最少為256,對應時域波形為32 ms.本文對5 ms的時域波形進行建模,通過模型對5 ms提取DAF特征的時間為0.002 ms.5.002 ms遠小于32 ms,本文所提算法能極大地降低時間延遲.

        表6 時間延遲實驗(單位:ms)

        4 總結(jié)與展望

        本文提出了基于深層聲學特征的語音分離算法,該算法通過網(wǎng)絡模型來學習語音信號的更深層次的深層聲學特征,實現(xiàn)端到端的語音分離.在實驗部分,選取了SDR、SIR和SAR作為客觀評價指標在WSJ0數(shù)據(jù)集上進行了一系列對比實驗.結(jié)果表明,本文提出的深層聲學特征在語音分離任務中的有效性,提出的算法提升了語音分離的性能.并且本文對5 ms的時域波形進行建模,極大地降低了時間延遲.但是測試集中仍然有7%的數(shù)據(jù)分離效果不好,對于這部分發(fā)音特性較為相似的語音分離任務,是今后的研究重點.

        猜你喜歡
        聲學時域波形
        對《壓力容器波形膨脹節(jié)》2018版新標準的理解及分析
        愛的就是這股Hi-Fi味 Davis Acoustics(戴維斯聲學)Balthus 70
        Acoustical Treatment Primer:Diffusion談談聲學處理中的“擴散”
        Acoustical Treatment Primer:Absorption談談聲學處理中的“吸聲”(二)
        基于LFM波形的靈巧干擾效能分析
        基于時域信號的三電平逆變器復合故障診斷
        Acoustical Treatment Primer:Absorption 談談聲學處理中的“吸聲”
        基于極大似然準則與滾動時域估計的自適應UKF算法
        基于ARM的任意波形電源設(shè)計
        基于時域逆濾波的寬帶脈沖聲生成技術(shù)
        日本久久久精品免费免费理论| 亚洲无av在线中文字幕| 美女下蹲露大唇无遮挡| 亚洲自偷精品视频自拍| 国产美女自慰在线观看| 中文字幕无码无码专区| 国产精品欧美亚洲韩国日本 | 高清少妇二区三区视频在线观看| 久久精品国产亚洲av蜜点| 国产边摸边吃奶叫床视频| 亚洲av无码成人yellow| 91精品国产91| 日本高清长片一区二区| 精品人妻一区二区三区狼人| 日本一区二区视频免费在线看| 国产成人一区二区三区| 久久精品波多野结衣中文字幕 | 美女被强吻并脱下胸罩内裤视频| 日本边添边摸边做边爱喷水| 欧美巨大性爽| 综合色天天久久| 亚洲国产高清一区av| 中文字日产幕码三区的做法步| 精品人妻无码视频中文字幕一区二区三区 | 无码人妻aⅴ一区二区三区| 亚洲精品无码不卡在线播放he| 青青草国产成人99久久| 久久精品国产精品亚洲婷婷| 青青草在线成人免费视频| 精品视频一区二区三区日本| 国产精品天干天干| 亚洲va在线∨a天堂va欧美va| 亚洲国产精品综合福利专区| 久久日韩精品一区二区| 疯狂做受xxxx高潮视频免费| 成人片黄网站色大片免费观看app| 久久国产亚洲中文字幕| 国产一品二品三区在线观看| 色欲aⅴ亚洲情无码av| 九九九精品成人免费视频小说| 漂亮的小少妇诱惑内射系列|