肖明,高峰,孫功憲,謝勝利
(1. 廣東石油化工學(xué)院 廣東省石化裝備故障診斷重點(diǎn)實(shí)驗(yàn)室,廣東 茂名 525000;2. 華南理工大學(xué) 電子與信息學(xué)院,廣東 廣州 510640)
欠定盲信號(hào)分離的特征是混疊信號(hào)個(gè)數(shù)少于源信號(hào)個(gè)數(shù),解決欠定盲信號(hào)分離的基本策略是基于稀疏表示的兩步法[1~9]。兩步法分為矩陣估計(jì)和源估計(jì)2個(gè)步驟。矩陣估計(jì)最具有代表性的算法有DUET[5]、TIFROM[6]和 MRISSI[7],源估計(jì)最具代表性的算法有最短路徑法[3]、l0-范數(shù)解[8]、l1-范數(shù)解[9]和DUET算法[5]。其中,二進(jìn)制時(shí)頻掩碼方法是欠定系統(tǒng)解混的重要方法,它與最短路徑法、l1-范數(shù)解、l0-范數(shù)解有明顯的區(qū)別:它要求源信號(hào)相互不重疊,即在時(shí)頻域的每個(gè)頻率點(diǎn)都僅有一個(gè)源信號(hào)。雖然實(shí)際混疊并不能保證該條件,但是可以近似地視為源信號(hào)相互不重疊。DUET算法正是利用了二進(jìn)制時(shí)頻掩碼,取得了很好的分離效果。在非完全稀疏的情況下,改善源信號(hào)恢復(fù)性能,一直是一個(gè)挑戰(zhàn)性問題,DUET算法也需要進(jìn)一步地改善。
本文針對(duì)上述問題,融合DUET算法和非完全稀疏信號(hào)的盲提取算法[10,11],提出了基于時(shí)頻掩碼的盲提取算法。該算法先通過時(shí)域盲提取方法形成2個(gè)新的混疊信號(hào),再經(jīng)時(shí)頻掩碼方法提取源信號(hào),以此類推,逐一提取每個(gè)源信號(hào)。最后,用幾個(gè)語音信號(hào)的實(shí)驗(yàn)來驗(yàn)證算法的性能和實(shí)用性。
在無噪聲和回波的時(shí)候,所接收到的n個(gè)混疊信號(hào)x(t)為
其中,矩陣A是線性混疊矩陣,s(t)是m個(gè)源信號(hào)的矢量。本文僅考慮 2個(gè)混疊信號(hào)的情況( 2n= ),混疊信號(hào)矢量為混疊矩陣為
式中角度θk表示第k個(gè)源方向的方向角,而源方向?yàn)榫仃嘇的列矢量 ak=[cosθks in θk]T( k = 1 ,2,… ,m ),符號(hào) [· ]T表示矩陣的轉(zhuǎn)置。
根據(jù)非完全稀疏情況下的盲提取算法[10],提取第j個(gè)源信號(hào),需要先確定源方向 aj的法矢量:
則 bjaj=0,用法矢量 bj乘以混疊信號(hào)矢量可得到不包含第j個(gè)源的新混疊信號(hào):
又設(shè)
則信號(hào)x0(t)含有第j個(gè)源信號(hào),并存在其他源的干擾。于是引入系數(shù)λ,設(shè)即用信號(hào)y1(t)來降低干擾?,F(xiàn)計(jì)算信號(hào)y2(t)的平均功率:
其中,E[·]是數(shù)學(xué)期望。在式(7)中,為了希望y2(t)中的干擾最小,必須使其功率最小,即
易得:
將式(9)代入式(6)得
再將式(4)、式(5)代入式(10)得
式中jw是源信號(hào)的提取矢量。這里的最小干擾是在源信號(hào)保持源信號(hào)完好不變的情況下的最小干擾,所以y2(t)仍然包含較大的干擾。
將jb和jw組成了非奇異矩陣對(duì)混疊信號(hào)和混疊矩陣進(jìn)行線性變換。線性變換后,混疊信號(hào)變?yōu)?y (t) = [y1( t) y2( t )]T,混疊矩陣變?yōu)?/p>
更新后的混疊信號(hào)和疊矩陣所具有的特征:①第j個(gè)源信號(hào)為提取源,在2個(gè)混疊信號(hào)中,前一個(gè)混疊信號(hào)不含提取源,后一個(gè)混疊信號(hào)的提取源成分非常強(qiáng),非提取源的干擾已經(jīng)被抑制。②非提取源的散落點(diǎn)已經(jīng)遠(yuǎn)離提取的源信號(hào)方向T[0 1];③更新是一個(gè)線性變換,源信號(hào)僅僅按比例被縮小或放大,其波形沒有變化。
以上3個(gè)特征將確保后續(xù)的時(shí)頻掩碼方法有更好的源提取效果。同時(shí),從式(12)可知,提取矢量與源信號(hào)幅度強(qiáng)弱有關(guān),在不等幅的情況下,混疊信號(hào)的更新能夠更加有效地抑制非提取源的干擾。
下面以SiSEC2008[11]提供的混疊矩陣和源信號(hào)為例,觀察混疊矩陣和混疊信號(hào)更新后的變化情況。SiSEC2008提供的源方向角度分別為70°、50°、37.5°和 22.5°,源方向用實(shí)線在圖 1中標(biāo)注。因?yàn)橄噜?個(gè)源方向的角平分線是確定時(shí)頻掩碼的分界線,所以作它們的角平分線,角度分別60°、43.75°、30.0°和-53.75°,用虛線表示。SiSEC2008提供的源信號(hào)為4個(gè)女講話聲,在實(shí)驗(yàn)1中,4個(gè)女聲的功率相同,在實(shí)驗(yàn)2中,縮小第2、3個(gè)源信號(hào)的幅度為實(shí)驗(yàn)1中的0.3倍。根據(jù)式(3)和式(12),計(jì)算法矢量jb和提取矢量jw,然后更新混疊矩陣和混疊信號(hào)。4個(gè)源信號(hào)有4個(gè)提取矢量,需4次更新混疊矩陣和混疊信號(hào)。
圖1 4個(gè)源方向
觀測(cè)2組實(shí)驗(yàn)中源方向的變換情況,對(duì)比圖2和圖 3可知,因?yàn)樵葱盘?hào)強(qiáng)度不同,所以更新后的源方向發(fā)生了變化,其角度變化參見表 1。同樣,對(duì)比圖4和圖5中信號(hào)的實(shí)部和虛部的散落圖可知,源方向的變化與源信號(hào)的強(qiáng)度有密切關(guān)系。
圖2 實(shí)驗(yàn)1中4次更新后的源方向
表1 源方向角(°)的比較
圖3 實(shí)驗(yàn)2中4次更新后的源方向
圖4 實(shí)驗(yàn)1中4次更新后的源方向和散落圖(Re表示復(fù)數(shù)的實(shí)部)
在圖4中,散落點(diǎn)沿4個(gè)源方向較均勻分布;在圖5中,散落點(diǎn)主要集中在第1、4個(gè)源方向附近。
在文獻(xiàn)[10]中,不完全稀疏性的盲提取算法,僅依賴自己的源方向,在本文中,源提取的前提是在混疊矩陣已經(jīng)被估計(jì)。
經(jīng)上述變換更新混疊信號(hào)和混疊矩陣,最后還需要經(jīng)時(shí)頻掩碼方法逐一提取源信號(hào)。下面引入二進(jìn)制時(shí)頻掩碼方法提取源信號(hào)的方法。
圖5 實(shí)驗(yàn)2中4次更新后的源方向和散落圖
本節(jié)介紹二進(jìn)制時(shí)頻掩碼盲提取方法,其時(shí)頻掩碼方法的詳細(xì)理論參見文獻(xiàn)[5]。
在時(shí)頻域中,其混疊模型為
其中,X(k,τ)是在時(shí)頻域更新后的混疊信號(hào),S ( k,τ)是在時(shí)頻域的源信號(hào),更新后的混疊矩陣的第j個(gè)源方向?yàn)?aj=[0 1]T。如果將混疊矩陣A以列 ai表示,式(16)可為
其中, ai=[cosφis in φi]T, Si( k,τ)是S(k,τ)的第i個(gè)元素。
信號(hào)在時(shí)頻域的稀疏性含義:在很多時(shí)頻點(diǎn)上,僅有一個(gè)源信號(hào)非零,其他源信號(hào)為0或較小,稀疏性也稱為不重疊性。
根據(jù)經(jīng)時(shí)頻掩碼解混的DUET算法[5],源信號(hào)必須是不重疊或近似不重疊,即在任意時(shí)頻點(diǎn)(k,τ),僅僅存在一個(gè)源信號(hào)是非零,其他源是零或很小。假定第j個(gè)源在時(shí)頻點(diǎn)(k,τ)上滿足該條件,則從式(17)可得
于是第j個(gè)源為
從式(19)可知,DUET算法中源的估計(jì)為接收信號(hào)矢量在源方向的投影。
對(duì)于非完全稀疏的情況,在一些時(shí)頻點(diǎn)上,存在2個(gè)或多個(gè)源信號(hào)是非零,則混疊信號(hào)矢量與源方向不一致,僅僅是靠近源方向。此時(shí),DUET算法先檢查每個(gè)時(shí)頻點(diǎn)的混疊信號(hào)矢量最靠近哪一個(gè)源方向,以確定哪一個(gè)源信號(hào)為非零。
確定源信號(hào)的時(shí)頻掩碼是采用混疊信號(hào)矢量在每個(gè)源方向的投影。設(shè)在ja上投影值最大的時(shí)頻點(diǎn)的集合即其中符號(hào)表示復(fù)數(shù)的模。因此,確定第j個(gè)源信號(hào)的時(shí)頻掩碼:
源信號(hào)的估計(jì):
則第j 個(gè)提取源的估計(jì):
該算法是以計(jì)算提取矢量和確立時(shí)頻掩碼方法為核心,故稱之為經(jīng)時(shí)頻掩碼的盲提?。˙E-TFMask, blind extraction via time-frequency mask)。BE-TFMask算法概括如下:
1) 估計(jì)混疊矩陣;
2) for j=1:n
按式(3)和式(12)計(jì)算提取源的法矢量 bj和提取矢量 wj;
按式(14)和式(15),更新混疊信號(hào)和混疊矩陣;
按式(20),確定提取源的時(shí)頻掩碼的集合Ωj;
按式(22),提取第j個(gè)源信號(hào)。
end
源信號(hào)估計(jì)性能的評(píng)價(jià)采用 E. Vincent所提出的方法。該方法已經(jīng)作為SiSEC2010年語音分離的評(píng)價(jià)方法[11~13]。E. Vincent將估計(jì)信號(hào)與源信號(hào) sj( t)的誤差投影成了目標(biāo)成分干擾成分和人造成分即
并利用最小方差投影設(shè)計(jì)一個(gè)FIR濾波器(詳見文獻(xiàn)[11,12]),得到信號(hào)與失真的比率 (SDR,signal to distortion ratio)、信號(hào)與干擾的比率(SIR,signal to interference ratio)和信號(hào)與人造成分的比率(SAR, signal to artifacts ratio),即
在實(shí)驗(yàn)中,直接調(diào)用 SiSEC2008提供的MATLAB函數(shù)bss_eval_sources.m。
源信號(hào)(4個(gè)女聲語音、4男聲語音信號(hào))和混疊矩陣都來自SiSEC2008,混疊矩陣為
源方向角度分別為 70°、50°、37.5°和 22.5°。在混疊矩陣的估計(jì)中,實(shí)驗(yàn)使用 MRISSI算法[7],混疊矩陣估計(jì)的角度偏差分別為0.017°、0.015 6°、0.211 7°和 0.121 2°。
在源信號(hào)的估計(jì)中,實(shí)驗(yàn)進(jìn)行了 DUET和BE-TFMask算法仿真,其性能指標(biāo)列于表2中。從表2的結(jié)果可知,BE-TFMask算法的SDR和SAR 2項(xiàng)指標(biāo)有明顯的改進(jìn),表明BE-TFMask算法的性能果優(yōu)于DUET算法。
本節(jié)中的源信號(hào)和混疊矩陣與實(shí)驗(yàn)1中相同,混疊信號(hào)的波形如圖6所示,源信號(hào)與估計(jì)信號(hào)的波形如圖7所示。
圖6 混疊信號(hào)波形
圖7 源信號(hào)與估計(jì)信號(hào)波形
在混疊信號(hào)中,第 2、3個(gè)源信號(hào)的幅度縮小為原幅度的 0.3倍。混疊矩陣的估計(jì)采用 MRISSI算法[7],它的角度偏差分別為0.133 9°、0.073 2°、0.034 7°和 0.078 9°。
表2 在實(shí)驗(yàn)1中DUET和BE-TFMask算法的SDR、SIR和SAR
表3 在實(shí)驗(yàn)2中的DUET和BE-TFMask算法的SDR、SIR和SAR
在源信號(hào)的估計(jì)中,實(shí)驗(yàn)進(jìn)行 DUET和BE-TFMask算法仿真,其性能指標(biāo)列在表3中。從表3的結(jié)果可知,在SDR和SAR 2項(xiàng)指標(biāo)有明顯的改進(jìn),它表明BE-TFMask算法的性能優(yōu)于DUET算法,也體現(xiàn)了 BE-TFMask算法在源信號(hào)不等幅度的情況下有更優(yōu)越的性能。
本文討論了非完全稀疏信號(hào)的源恢復(fù)問題,提出了一個(gè)基于時(shí)頻掩碼的盲提取算法。算法吸取了盲提取算法和時(shí)頻掩碼的優(yōu)點(diǎn),用線性變換更新了混疊信號(hào)和混疊矩陣,改進(jìn)了盲提取算法和時(shí)頻掩碼方法。實(shí)驗(yàn)仿真的結(jié)果證實(shí)了 BE-TFMask算法的性能和實(shí)用性。
[1] LEE T W, LEWICKI M S, GIROLAMI M, et al. Blind source separation of more sources than mixtures using overcomplete representations[J]. IEEE Signal Processing Letter, 1999,6(4): 87-90.
[2] ZIBULEVSKY M, PEARLMUTTER B A. Blind source separation by sparse decomposition in a signal dictionary[J]. Neural Computation,2001,13(4): 863-882.
[3] BOFILL P, ZIBULEVSKY M. Underdetermined blind source separation using sparse representations[J]. Signal Processing. 2001, 81(11):2353-2362.
[4] DELGADO K K, MURRAY J F, ENGAN K, et al. Dictionary learning algorithms for sparse representation[J]. Neural Computation, 2003,15(2): 349-396.
[5] YILMAZ O, RICKARD S. Blind separation of speech mixtures via time-frequency masking[J]. IEEE Tran on Signal Processing. 2004,52(7):1830-1847.
[6] ABRARD F, DEVILLE Y A. Time-frequency blind signal separation method applicable to underdetermined mixtures of dependent sources[J]. Signal Processing , 2005, 85(7):1389-1403.
[7] 肖明,謝勝利,傅予力. 基于頻域單源區(qū)間的具有延遲的欠定盲分離[J].電子學(xué)報(bào),2007,35(12):2279-2283.XIAO M, XIE S L, FU Y L. Underdetermined blind delayed source separation based on single source intervals in frequency domain[J].Acta Electronica Sinica, 2007, 35(12): 2279-2283.
[8] VINCENT E. Complex nonconvex LP norm minimization for underdetermined source separation[A]. Proc Int Conf on Independent Component Analysis and Blind Source Separation (ICA)[C]. Madrid, Spain,2007.430-437.
[9] LI Y, AMARI S, CICHOCKI A, et al. Underdetermined blind source separation based on sparse representation[J]. IEEE Transactions on Signal Processing, 2006, 54(2): 423-437.
[10] 謝勝利, 孫功憲, 肖明等. 欠定和非完全稀疏性的盲信號(hào)提取[J].電子學(xué)報(bào),2010, 38 (5): 1028-1031.XIE S L, SUN G X, XIAO M, et al. Underdetermined and incompletely sparse blind signal extraction[J]. Acta Electronica Sinica, 2010,38 (5): 1028-1031.
[11] VINCENT E, ARAKI S, BOFILL P. The 2008 signal separation evaluation campaign: a community-based approach to large-scale evaluation[A]. Proc ICA[C]. Paraty, Brazil, 2009. 734-741.
[12] EMIYA V, VINCENT E, HARLANDER N, et al. Subjective and objective quality assessment of audio source separation[J]. IEEE Trans on Audio, Speech and Language Processing. 2011, 19(7): 2046-2057.
[13] SHOKO A, ALEXEY O, VIKRHAM G. The 2010 signal separation evaluation campaign (SiSEC2010): audio source separation[A]. Proc ICA Latent Variable Analysis and Signal Separation[C]. Saint-Malo Cedex, France, 2010. 114-122.