亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        復(fù)高斯混合模型分布式語音分離方法研究

        2021-04-19 12:38:18郭心偉刁明芳鄭成詩李曉東
        信號處理 2021年4期
        關(guān)鍵詞:信號方法

        郭心偉 刁明芳 鄭成詩 李曉東

        (1. 中國科學(xué)院聲學(xué)研究所, 北京 100190; 2. 中國科學(xué)院大學(xué), 北京 100049;3. 中國人民解放軍總醫(yī)院第六醫(yī)學(xué)中心, 北京 100048)

        1 引言

        無線聲傳感網(wǎng)絡(luò)(Wireless Acoustic Sensor Networks, WASNs)一般由多個節(jié)點組成,每個節(jié)點包括一個或多個傳聲器、一個處理單元和一個能夠?qū)崿F(xiàn)節(jié)點之間交換數(shù)據(jù)的無線通信模塊[1-2]。相比于傳統(tǒng)的單傳聲器陣列,WASNs可以覆蓋更大范圍的區(qū)域,增加了存在靠近目標源的節(jié)點的可能,因此一些節(jié)點可以拾取到具有更高信噪比和直達混響比的信號[3- 4]。作為下一代的音頻獲取和處理技術(shù),WASNs有許多潛在的應(yīng)用,例如聲學(xué)事件監(jiān)測[5- 6]和智能家居系統(tǒng)[7- 8]。

        復(fù)高斯混合模型(Complex Gaussian Mixture Model, CGMM)是常用的多說話人分離模型,其利用語音信號的統(tǒng)計特性來進行多說話人分離。相比單傳聲器陣列,WASNs提供了更加豐富的空域信息,有望提升CGMM的分離性能。常規(guī)的集中式的CGMM要求每個節(jié)點發(fā)送自己的接收信號向量以便每個節(jié)點都能獲得WASNs的所有接收信號向量,因此在每個節(jié)點形成了維度非常高的信號向量。在CGMM用期望最大化(Expectation Maximization, EM)算法迭代估計后驗概率和模型參數(shù)的過程中,每個節(jié)點需要多次對該高維信號向量進行處理,例如空域協(xié)方差矩陣求逆[9-11],導(dǎo)致了非常高的計算復(fù)雜度和非常高的能量消耗。此外,CGMM迭代估計的分離性能與EM算法的初始值密切相關(guān)[12]。當(dāng)只有一個說話人存在時,通??梢杂媒邮招盘柕南嚓P(guān)矩陣進行空域協(xié)方差矩陣的初始化。當(dāng)有多個說話人存在時,通常需要預(yù)先對訓(xùn)練數(shù)據(jù)集進行處理來實現(xiàn)不同說話人的空域協(xié)方差矩陣的初始化;而在實際應(yīng)用場景中,訓(xùn)練數(shù)據(jù)集通常很難獲取。

        本文提出了一個復(fù)高斯混合模型下的分布式多說話人分離及其基于到達角度(Direction of Arrival, DOA)量測自聚類的空域協(xié)方差矩陣初始化方法。在不同節(jié)點之間的接收信號向量條件獨立的前提假設(shè)下[13-14],本文推導(dǎo)出分布式CGMM迭代過程中的所有接收信號向量對應(yīng)的空域協(xié)方差矩陣的求逆和后驗概率等參數(shù)的估計可以逐節(jié)點進行;然后,每個節(jié)點融合其他節(jié)點的接收信號向量對應(yīng)的空域協(xié)方差矩陣和后驗概率等參數(shù)來更新全局的相關(guān)參數(shù)。基于此,本文提出用基于DOA的導(dǎo)向矢量的相關(guān)矩陣來初始化每個節(jié)點的空域協(xié)方差矩陣。考慮該方法存在DOA模糊問題,即不同節(jié)點上具有相同索引的DOA并不一定對應(yīng)同一個說話人。為了解決DOA模糊問題以使不同節(jié)點能夠協(xié)同工作,本文進一步提出了基于DOA量測自聚類的方法來從不同節(jié)點上選出對應(yīng)同一個說話人的DOA量測值組合。同時,這個方法從空域上區(qū)分了不同的說話人,避免了分離問題中常見的排序問題[15-16]。最后的實驗結(jié)果證實了本文提出的方法的有效性。

        2 信號模型

        (1)

        其中,f代表頻率索引,l代表幀索引,上標T代表轉(zhuǎn)置,yj(f,l)是第j個節(jié)點的接收信號向量。

        若有K個說話人,y(f,l)可建模如下:

        (2)

        3 集中式復(fù)高斯混合模型

        考慮到語音信號在時頻域的稀疏性[17],即每個時頻點至多只有一個說話人,接收信號可聚集到K+1個類別,其中每個類別只包含一個說話人的含噪語音或者只包含噪聲。因此,式(2)中的信號模型可表示為[9]:

        y(f,l)=h(ν)(f)s(ν)(f,l) (ν=d(f,l))

        (3)

        其中,d(f,l)代表時頻點(f,l)的類別索引。ν可以取值k+n或n,其對應(yīng)的類別分別為第k個說話人的含噪語音s(k+n)(f,l)或噪聲s(n)(f,l)。

        假設(shè)s(ν)(f,l)服從一個復(fù)高斯分布:

        (4)

        其中,φ(ν)(f,l)對應(yīng)信號方差。因此,當(dāng)已知時頻點(f,l)的類別索引時,接收信號y(f,l)的條件分布為:

        (5)

        其中,R(ν)(f)為空域協(xié)方差矩陣且對應(yīng)h(ν)(f)h(ν)H(f)。通過對類別索引d(f,l)求邊緣分布,可得接收信號y(f,l)服從的CGMM為

        (6)

        CGMM的參數(shù)α(ν)(f),φ(ν)(f,l)和R(ν)(f)可以通過最大似然法估計。最大似然法估計可以通過EM算法實現(xiàn)。根據(jù)[9],代表d(f,l)=ν的后驗概率λ(ν)(f,l)可以通過下式計算:

        (7)

        其中,Θ′代表上一次參數(shù)估計的集合。在M-step中,CGMM的參數(shù)更新如下:

        (8)

        在收斂以后,λ(ν)(f,l)可以作為時頻點(f,l)的掩蔽的估計。

        集中式CGMM要求每個節(jié)點發(fā)送自己的接收信號向量以使每個節(jié)點都能獲得WASNs的所有接收信號向量,因此在每個節(jié)點形成了M×1的高維信號向量y(f,l)。在式(7)和式(8)的迭代過程中,需多次對該高維信號向量對應(yīng)的不同類別的R(ν)(f)求逆,計算復(fù)雜度高且能量消耗大。

        4 分布式復(fù)高斯混合模型

        復(fù)高斯混合模型下的分布式多聲源分離算法(Distributed Complex Gaussian Mixture Model, DCGMM)利用了不同節(jié)點之間的接收信號向量條件獨立的前提假設(shè)[13-14],使得EM算法迭代過程中的空域協(xié)方差矩陣的求逆、信號方差和后驗概率的估計可以逐節(jié)點局部進行。然后,每個節(jié)點融合其他節(jié)點對應(yīng)的參數(shù)來更新全局的參數(shù)。最后,EM算法收斂后即可獲得全局后驗概率λ(ν)(f,l)。

        4.1 分布式復(fù)高斯混合模型推導(dǎo)

        根據(jù)不同節(jié)點之間的接收信號向量條件獨立的前提假設(shè),式(6)中的所有接收信號向量對應(yīng)的空域協(xié)方差矩陣即R(ν)(f)有如下的塊對角形式:

        (9)

        (10)

        (11)

        此時,對于DCGMM來說,其E-step為:

        (12)

        其M-step為:

        (13)

        其中,Blkdiag(·)表示R(ν)(f)具有式(9)的塊對角形式。

        表1 計算復(fù)雜度對比

        4.2 分布式復(fù)高斯混合模型的空域協(xié)方差矩陣初始化

        圖1 DOA模糊示意圖.θ1,1,θ1,2和θ2,1,θ2,2分別是node 1和node 2估計的兩個說話人的DOA.但是,node 1和 node 2并不知道對方的哪個DOA量測值和自己的DOA量測值對應(yīng)同一個說話人Fig.1 The illustration of DOA ambiguity. θj,k, j∈[1,2],k∈[1,2] are the DOA measurements about the two speakers including speaker 1 and speaker 2 at node j. However, it is unclear that which DOA measurements from different nodes correspond to the same speaker

        (14)

        其中,A(j,∶)代表矩陣A的第j行,b(j)代表向量b的第j個元素。

        (15)

        對應(yīng)固定密度,即rk固定的樣本點分布橢圓上。這個橢圓的面積Vk衡量了樣本點相對于中心的分散程度,且可以表示為:

        (16)

        因此,行列式det(Σk)1/2與Vk在數(shù)學(xué)意義上等價,可以用作衡量樣本點分散程度的代價函數(shù),越大的det(Σk)1/2意味著樣本點越發(fā)散。

        (17)

        我們的目標是尋找最優(yōu)的DOA量測值組合:

        (18)

        (19)

        去進行初始化。

        4.3 3-step啟發(fā)式聚類算法

        窮舉最大似然方法需要計算所有可能的DOA量測值組合對應(yīng)的橢圓面積來尋找對應(yīng)同一個說話人的DOA量測值組合。隨著說話人個數(shù)K或節(jié)點個數(shù)J的增加,組合個數(shù)將急劇增加,導(dǎo)致計算復(fù)雜度不能接受。因此,本文提出了一個基于自聚類量測組合的3-step啟發(fā)式聚類算法。它首先選擇初始節(jié)點,并且組合它們的DOA量測值來獲得潛在的說話人位置。然后,用潛在說話人位置去匹配剩余節(jié)點的DOA量測值來預(yù)先拒絕錯誤的組合。最后,使用不同說話人的被選中的DOA量測值組合去構(gòu)造分組矩陣,以便最終選擇對應(yīng)同一個說話人的DOA量測值組合。

        4.3.1 選擇初始節(jié)點去估計潛在說話人位置

        Algorithm 1 組合m個初始節(jié)點的DOA量測值for k=1 to K q=0 Bk是一個空矩陣 for κ2=1 to K ? for κm=1 to K q=q+1 Row (Bk)q=[k,κ2,…,κm]∥m個索引被存儲在匹配矩陣Bk的第q行 end endend

        4.3.2 匹配剩余節(jié)點的DOA去預(yù)先拒絕錯誤的組合

        逐個添加剩余節(jié)點并用潛在說話人位置去匹配它們的DOA量測值以便預(yù)先拒絕掉許多錯誤的DOA量測值組合。

        (20)

        角度差的誤差βk,q, j的定義如下:

        (21)

        對節(jié)點j∈[m+2,J]重復(fù)上面的匹配過程,同時,更新Bk和ρ。對每個說話人k∈[1,K]執(zhí)行該步驟,從而極大降低錯誤的DOA組合數(shù)目。

        4.3.3 構(gòu)造分組矩陣去最終選擇對應(yīng)同一個說話人的DOA量測值組合

        經(jīng)過上面的匹配步驟后,對于每一個說話人,有ρ個被選中的組合,即Bk∈Nρ×J。根據(jù)式(17),可以獲得Bk中的每個組合對應(yīng)的橢圓面積。把Bk對應(yīng)的ρ個橢圓面積按從小到大的順序排列,然后只保留前ρ2個橢圓面積對應(yīng)的組合(為了避免丟失對應(yīng)同一個說話人的DOA量測值組合,ρ2通常需要取較大的值,例如,ρ2=2K)。

        從每個匹配矩陣Bk,k∈[1,K]中挑選一個DOA量測值組合去構(gòu)造一個K×J的分組矩陣,該矩陣的第k行對應(yīng)第k個說話人。由于一個說話人只能使用每個節(jié)點的一個DOA量測值,因此,如果一個分組矩陣的某一列中有重復(fù)的索引,那么該分組矩陣將被刪除,如 Algorithm 2。對于每一個分組矩陣,求它的K個橢圓面積的和。最終,對應(yīng)最小和的分組矩陣將被選中?;诒贿x中的分組矩陣中每一行的DOA索引,可以選出對應(yīng)K個說話人的DOA量測值組合,并根據(jù)式(19)對DCGMM的空域協(xié)方差矩陣進行初始化。

        Algorithm 2 構(gòu)造K個說話人的分組矩陣q=0 for q1=1 to ρ2 ? for qk=1 to ρ2 ? for qK=1 to ρ2 F=Row(B1)q1?Row(Bk)qk?Row(BK)qKé?êêêêêêêù?úúúúúúú∥構(gòu)造一個K×J的分組矩陣 ifF 的每一列中沒有重復(fù)的索引 then q=q+1 Gq=F end end endend

        5 算法測試與分析

        仿真房間的長寬高分別是5 m、5 m和3 m。WASNs有J=4個節(jié)點,分別為node 1~node 4,每個節(jié)點有Mj=6個傳聲器,這些傳聲器組成了陣元間距為3 cm的均勻線陣。房間內(nèi)有K=2個說話人,且這2個說話人功率相等。圖2展示了節(jié)點和說話人的位置。除語音信號外,還有高斯白噪聲,輸入信噪比記為SNR。

        圖2 仿真用到的聲學(xué)場景.每個節(jié)點位于每面墻的中央,且距墻30 cm,節(jié)點和說話人距地面的高度為1.5 mFig.2 The acoustic scenario used in the simulation. The nodes are located at the center of each of the four walls, 30 cm from the walls. All nodes and all sources are in the same horizontal plane, 1.5 m above ground level

        觀察圖3(a)發(fā)現(xiàn),node 1、node 3與node 2、node 4上具有相同索引的DOA并不對應(yīng)同一個說話人,即存在DOA模糊問題。圖3(b)展示了不同的DOA量測誤差下的失配比例,即沒有從不同節(jié)點上找到對應(yīng)同一個說話人的DOA量測值組合的次數(shù)與Monte-Carlo次數(shù)的比例。當(dāng)DOA量測值誤差項的標準差σ不超過4°時,在每一次的Monte-Carlo中,自聚類量測組合方法總能找到對應(yīng)同一個說話人的DOA量測值組合。當(dāng)σ大于4°時,開始出現(xiàn)失配,并且隨著誤差項的增大,失配比例也增大;這是因為對應(yīng)同一個說話人的DOA量測值組合的子集對應(yīng)的位置估計的誤差增大,導(dǎo)致不同子集對應(yīng)的位置估計的發(fā)散程度,即式(16)中的橢圓面積增大,甚至大于不是對應(yīng)同一個說話人的DOA量測值組合的橢圓面積。

        圖3 自聚類量測組合方法解決DOA模糊問題的結(jié)果Fig.3 The result of the self-clustering measurement combination method to solve the DOA ambiguity problem

        具有理想初始值(每個說話人對應(yīng)的空域協(xié)方差矩陣已知)的集中式算法和本文提出的分布式算法分別記為Oracle 1和Oracle 2,使用本文提出的初始化方法的分布式算法記為SC-MC。圖4對比了在混響時間T60=0.3 s和 SNR=30 dB的情況下,不同方法在60次Monte-Carlo運行下分離的說話人信號的平均SDR、STOI和PESQ。圖5對比了某一次Monte-Carlo運行下不同方法分離的說話人信號的語譜圖。觀察發(fā)現(xiàn),當(dāng)具有理想初始值時,本文提出的分布式算法的性能要優(yōu)于集中式算法,這得益于在分布式算法的推導(dǎo)過程中使用了式(9)中的具有塊對角形式的空域協(xié)方差矩陣,這個結(jié)果與[19- 20]中的結(jié)論一致。當(dāng)使用本文提出的初始化方法時,分布式算法的性能接近具有理想初始值的集中式算法,且?guī)缀鯖]有隨DOA誤差的增大而下降,這表明了本文提出的初始化方法的魯棒性。

        圖4 不同方法分離的說話人信號的SDR,STOI和PESQ (T60=0.3 s, SNR=30 dB)Fig.4 SDR, STOI, and PESQ of the speech signals obtained by different methods under T60=0.3 s and SNR=30 dB

        圖5 不同方法分離的第2個說話人信號的語譜圖(T60=0.3 s,SNR=30 dB)Fig.5 The spectrograms of the speaker 2 obtained by different methods under T60=0.3 s and SNR=30 dB

        圖6對比了在混響時間T60=0.5 s和 SNR=30 dB的情況下,不同方法分離的說話人信號的平均SDR、STOI和PESQ??梢园l(fā)現(xiàn),本文提出的SC-MC甚至比具有理想初始值的集中式算法Oracle 1具有更好的性能。

        圖6 不同方法分離的說話人信號的SDR,STOI和PESQ (T60=0.5 s, SNR=30 dB)Fig.6 SDR, STOI, and PESQ of the speech signals obtained by different methods under T60=0.5 s and SNR=30 dB

        圖7對比了在混響時間T60=0.3 s和 SNR=10 dB的情況下,不同方法分離的說話人信號的平均SDR、STOI和PESQ。可以發(fā)現(xiàn),相比于Oracle 1和 Oracle 2, 本文提出的SC-MC的性能有一些降低,這表明SC-MC對噪聲比較敏感。

        圖7 不同方法分離的說話人信號的SDR,STOI和PESQ (T60=0.3 s, SNR=10 dB)Fig.7 SDR, STOI, and PESQ of the speech signals obtained by different methods under T60=0.3 s and SNR=10 dB

        6 結(jié)論

        本文研究了CGMM下的分布式語音分離及其空域協(xié)方差矩陣初始化的問題。通過使用塊對角形式的空域協(xié)方差矩陣,降低了CGMM參數(shù)迭代估計過程中的計算復(fù)雜度。DOA量測自聚類方法確保了用基于DOA的導(dǎo)向矢量的相關(guān)矩陣去初始化每個節(jié)點對應(yīng)的空域協(xié)方差矩陣時,不同節(jié)點仍能協(xié)同工作。這種初始化方法從空域角度區(qū)分了不同的說話人,避免了排序問題,而且獲得了與具有理想初始值的集中式算法十分接近的性能。

        猜你喜歡
        信號方法
        信號
        鴨綠江(2021年35期)2021-04-19 12:24:18
        完形填空二則
        學(xué)習(xí)方法
        孩子停止長個的信號
        可能是方法不對
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        基于LabVIEW的力加載信號采集與PID控制
        一種基于極大似然估計的信號盲抽取算法
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        賺錢方法
        国产亚洲视频在线观看播放| 亚洲av无码一区二区乱孑伦as| 无码中文字幕人妻在线一区二区三区| 亚洲一区二区高清精品| 美女性色av一区二区三区| 曰批免费视频播放免费| 亚洲中文字幕无码爆乳| 国产亚洲午夜精品| 韩国黄色三级一区二区| 国产精品理论片在线观看| 亚洲人成色777777老人头| 麻豆密入视频在线观看| 亚洲最大不卡av网站| 性无码一区二区三区在线观看| 丰满人妻被中出中文字幕| 天天射色综合| 亚洲岛国一区二区三区| 亚洲性无码一区二区三区| 伊人久久网国产伊人| 中文字幕成人乱码亚洲| 亚洲国产精品一区二区毛片| 国产成人无码免费视频在线| 中文字幕在线观看国产双飞高清| 国产91在线精品观看| 国产亚洲精品美女久久久m| 国产看黄网站又黄又爽又色| 久久洲Av无码西西人体| 一区二区三区日韩亚洲中文视频| 鸭子tv国产在线永久播放| 夜夜爽无码一区二区三区| 亚洲av大片在线免费观看| 欧美人与善在线com| 国产精品美女久久久浪潮av| 国产一级片内射在线视频| 一本大道道久久综合av| 韩国无码av片在线观看网站| 久久这里有精品国产电影网| 亚洲不卡免费观看av一区二区| 粗大的内捧猛烈进出视频| 无码之国产精品网址蜜芽| 日本国产一区在线观看|