蔣茂松,王冬霞,牛芳琳,曹玉東
語音增強(qiáng)旨在提高被各種各樣噪聲干擾的語音質(zhì)量和可懂度,它是語音通信、語音編碼和語音識(shí)別等諸多領(lǐng)域的基礎(chǔ),是語音信號(hào)處理領(lǐng)域重要的分支。
單通道語音增強(qiáng)算法包括最小均方誤差(Minimum Mean Square Error, MMSE)估計(jì)[1]、譜減法[2]、子空間[3]及近年來提出的深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network, DNN)方法[4-5]等。這些方法在一定程度上改善了帶噪語音的質(zhì)量。這些增強(qiáng)算法或是基于統(tǒng)計(jì)模型或是較少使用語音和噪聲的先驗(yàn)信息,因此,在不同環(huán)境噪聲條件下,尤其是在非平穩(wěn)噪聲環(huán)境下語音增強(qiáng)的性能下降。
非負(fù)矩陣分解(Non-negative Matrix Factorization, NMF)是一種新的矩陣分解算法[6],與傳統(tǒng)的矩陣分解算法相比,它具有物理意義強(qiáng)、實(shí)現(xiàn)簡(jiǎn)單、存儲(chǔ)空間小等優(yōu)點(diǎn)?;诜秦?fù)矩陣分解的語音增強(qiáng)算法[7]充分利用了帶噪語音的先驗(yàn)信息,通過提取純凈語音和噪聲信號(hào)子空間譜,建模為非負(fù)激活系數(shù)加權(quán)到基向量的線性組合,進(jìn)而彌補(bǔ)了常規(guī)典型算法的不足。
非負(fù)矩陣分解的語音增強(qiáng)算法大致可分為無監(jiān)督和有監(jiān)督兩大類[8]。前者不需要先驗(yàn)信息、簡(jiǎn)單易實(shí)現(xiàn),但在非平穩(wěn)噪聲環(huán)境下性能較差;后者需要先驗(yàn)信息,但在非平穩(wěn)噪聲環(huán)境下,可以獲得更好的增強(qiáng)效果,具有更加明顯的優(yōu)勢(shì)。
由于訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)的不完全一致性,故有監(jiān)督NMF算法存在著訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)間語音特征不匹配的問題,易影響算法的性能。考慮到語音在時(shí)頻域存在稀疏性,有學(xué)者將稀疏約束引入有監(jiān)督NMF中,提出了稀疏NMF(Sparse NMF, SNMF)算法,提高了收斂速度和語音與噪聲信號(hào)區(qū)分度,很好的解決了兩者之間語音特征不匹配的問題[9-10]??紤]到DNN特性,有學(xué)者提出聯(lián)合DNN和NMF的語音增強(qiáng)算法[11]。這些算法雖然能夠達(dá)到預(yù)期效果,但是在處理數(shù)據(jù)時(shí)產(chǎn)生的誤差具有隨機(jī)性且易受到異常噪聲等各種因素的影響。此外,NMF分解后的基矩陣和系數(shù)矩陣的稀疏度難以控制,容易造成過度擬合和大量殘余噪聲剩余,導(dǎo)致重構(gòu)語音的嚴(yán)重失真和算法對(duì)噪聲魯棒性下降。
針對(duì)上述問題,文獻(xiàn)[12]通過在目標(biāo)函數(shù)中引入噪聲約束項(xiàng),提出了一種魯棒NMF(Robust NMF,RNMF)算法,以修正非負(fù)矩陣分解過程中產(chǎn)生的隨機(jī)誤差??紤]到數(shù)據(jù)的稀疏性,文獻(xiàn)[13]在目標(biāo)函數(shù)中引入系數(shù)矩陣的稀疏約束項(xiàng),提出了一種稀疏RNMF算法,以控制其稀疏度。但是,這兩種算法采用的是歐氏距離來度量原始數(shù)據(jù)與重構(gòu)數(shù)據(jù)間的誤差,計(jì)算目標(biāo)函數(shù)時(shí)存在數(shù)據(jù)點(diǎn)冗余的平方,造成了異常點(diǎn)的誤差被放大而影響算法性能。
考慮到語音信號(hào)的時(shí)間連續(xù)性[14]和幅度譜的統(tǒng)計(jì)先驗(yàn)知識(shí)[15]的一致性,在NMF目標(biāo)函數(shù)中添加由噪聲項(xiàng)和稀疏約束項(xiàng)所構(gòu)成的正則項(xiàng),以保證分解的數(shù)據(jù)具有原始語音信號(hào)特征,本文在文獻(xiàn)[12-13]的基礎(chǔ)上進(jìn)行了改進(jìn),提出了一種稀疏正則NMF(Sparsity-regularized Robust NMF, SRNMF)的語音增強(qiáng)算法。該算法既能提高不同環(huán)境噪聲下的魯棒性,又能減少過度擬合,進(jìn)而減小重構(gòu)數(shù)據(jù)中的殘余噪聲和異常噪聲對(duì)算法的影響,加快收斂,增強(qiáng)語音性能。
(1)
為了使W和H的乘積結(jié)果盡可能地逼近矩陣V,定義一個(gè)度量函數(shù)D,使其產(chǎn)生最佳的分解結(jié)果,即
(2)
s.t.W≥0,H≥0
文獻(xiàn)[12-13]以歐氏距離來度量誤差散度函數(shù),這樣易造成異常點(diǎn)的誤差被放大。在文獻(xiàn)[10]中,假設(shè)噪聲服從泊松分布,求解非負(fù)矩陣W和H的最大對(duì)數(shù)似然解,得到KL(Kullback-Leibler)散度下的目標(biāo)函數(shù)。然而,標(biāo)準(zhǔn)NMF語音增強(qiáng)算法處理數(shù)據(jù)時(shí)產(chǎn)生的誤差具有隨意性,算法性能達(dá)不到預(yù)測(cè)效果。為減弱這些問題的影響,引入噪聲項(xiàng)E=[ek,l]∈RK×L,即:V≈WH+E,能夠保護(hù)基矩陣W和系數(shù)矩陣H免受干擾,且增強(qiáng)對(duì)噪聲等不利因素的抵抗能力,即KL散度下的目標(biāo)函數(shù)為:
(3)
為了加強(qiáng)式(3)的稀疏性,在目標(biāo)函數(shù)中添加噪聲項(xiàng)E的L0范數(shù)稀疏約束,優(yōu)化目標(biāo)函數(shù)為:
(4)
s.t.W≥0,H≥0,‖E‖≤τ
其中:τ是參數(shù),表示E中最大的非零元素。因?yàn)榍驦0范數(shù)很困難,所以采用L1范數(shù)替代L0范數(shù)的稀疏正則,這是解決稀疏問題的標(biāo)準(zhǔn)方法。然后,式(4)的改寫形式為:
(5)
s.t.W≥0,H≥0
由于語音信號(hào)在時(shí)頻域存在稀疏性,因此通過引入稀疏因子來控制系數(shù)矩陣H的稀疏度[15],使得基矩陣W成為完備基。故在式(5)中目標(biāo)函數(shù)添加系數(shù)矩陣H的稀疏懲罰項(xiàng),用于控制系數(shù)矩陣的稀疏性和重構(gòu)時(shí)語音的失真度,將式(3)代入式(5),目標(biāo)函數(shù)為:
λ‖E‖1+γ‖H‖1
(6)
其中:P為目標(biāo)函數(shù);γ≥0為稀疏因子,決定系數(shù)矩陣H的稀疏度。
結(jié)合文獻(xiàn)[12],采用固定W和H更新優(yōu)化噪聲項(xiàng),引入軟閾值算子[16]操作能夠有效地解決更新時(shí)出現(xiàn)的凸優(yōu)化問題,有利于對(duì)異常點(diǎn)的處理,使其不受噪聲形式的限制,提高算法適應(yīng)性。定義軟閾值函數(shù)softλ(·)表達(dá)式為:
(7)
其中:x∈R和λ>0為閾值。式(7)可以擴(kuò)展到向量和矩陣。
由于目標(biāo)函數(shù)最優(yōu)解沒有唯一性,所以利用文獻(xiàn)[17]方法對(duì)W的列和H的行進(jìn)行歸一化處理,保持目標(biāo)函數(shù)值不變。然后采用梯度下降法優(yōu)化代價(jià)函數(shù)式(6),得到如下乘法迭代規(guī)則[12]:
(8)
(9)
E←softλ(V-WH)
(10)
其中:“.*”和“./”代表矩陣的點(diǎn)乘和點(diǎn)除,即對(duì)應(yīng)元素相乘相除;T代表矩陣的轉(zhuǎn)置;1K×L∈RK×L為元素全1矩陣。
假設(shè)語音信號(hào)和噪聲信號(hào)均為加性信號(hào)且互不相關(guān),則帶噪語音信號(hào)y(t)表示為:
y(t)=s(t)+n(t)
(11)
其中:s(t)是純凈語音信號(hào);n(t)是加性噪聲信號(hào)。算法結(jié)構(gòu)如圖1所示,即包括訓(xùn)練和增強(qiáng)兩個(gè)階段。
圖1 SRNMF語音增強(qiáng)算法框架
訓(xùn)練階段:首先分別利用STFT收集語料庫純凈語音和噪聲信號(hào)的信息,分別將純凈語音和噪聲信號(hào)的短時(shí)幅度譜作為目標(biāo)矩陣,即VS≥0和VN≥0;然后通過SRNMF算法迭代式(8)~(10)將語音幅度譜分解為基矩陣WS、將噪聲幅度譜分解為WN,將分解的基矩陣WS和WN聯(lián)合保存起來為字典矩陣,即W=[WSWN],作為增強(qiáng)階段的先驗(yàn)信息。
增強(qiáng)階段:分為系數(shù)矩陣的在線更新和語音重構(gòu)兩個(gè)部分。
V≈WH=[WSWN][HSHN]T=
(12)
2)語音重構(gòu)階段,在重構(gòu)出語音和噪聲的幅度譜之后,利用文獻(xiàn)[18]的維納濾波簡(jiǎn)單易實(shí)現(xiàn)的優(yōu)點(diǎn),以提高算法的降噪能力與適應(yīng)性。求得帶噪語音增益函數(shù)G,即
G=(WSHS)./(WSHS+WNHN)
(13)
實(shí)驗(yàn)中所用的純凈語音信號(hào)取自標(biāo)準(zhǔn)TIMIT語音庫,噪聲取自標(biāo)準(zhǔn)Noise-92噪聲庫,其中采樣頻率為16 kHz。采用三種背景噪聲:Factory1工廠車間噪聲1、Hfchannel高頻信道噪聲和Babble餐廳內(nèi)嘈雜噪聲,這些噪聲屬于非平穩(wěn)噪聲。信號(hào)采樣率均下采樣至8 kHz,用16 bit量化。選用20名說話人的語音(10名男性和10名女性),從每個(gè)說話人中選擇一個(gè)句子,即20個(gè)句子約60 s作為純凈語音的訓(xùn)練數(shù)據(jù)。每個(gè)訓(xùn)練和測(cè)試語音信號(hào)由6 s(2個(gè)句子)信號(hào)組成,并且所有的訓(xùn)練和測(cè)試數(shù)據(jù)互不交叉。通過將純凈語音信號(hào)與噪聲信號(hào)混合,分別生成信噪比分別為-5 dB、0 dB、5 dB和10 dB的帶噪語音信號(hào)。增強(qiáng)算法所采用幀長(zhǎng)為512點(diǎn),幀移為128點(diǎn),窗選擇漢明窗。基向量數(shù)滿足M≤K×L/(K+L)標(biāo)準(zhǔn),在訓(xùn)練階段純凈語音和噪聲維基向量數(shù)M為30,最大迭代次數(shù)為50,分別生成大小為257×30純凈語音和噪聲字典矩陣,組合成先驗(yàn)聯(lián)合字典矩陣。
通過利用驗(yàn)證集觀察性能來確定權(quán)衡系數(shù)λ(λ∈{0.005,0.01,0.05,0.07})和稀疏因子γ(γ∈[0,2])。圖2表示了當(dāng)輸入信噪比(Signal-to-Noise Ratio,SNR)為0 dB時(shí),Factory1噪聲背景下的帶噪語音經(jīng)過增強(qiáng)處理后信源失真率(Source-to-Distortion Ratio, SDR)值與λ和γ之間的關(guān)系。
圖2 在輸入信噪比為0 dB時(shí)Factory1噪聲下增強(qiáng)語音的平均SDR值
分別對(duì)Hfchannel和Babble噪聲背景下的帶噪語音進(jìn)行實(shí)驗(yàn)仿真。通過分析可知,隨權(quán)衡系數(shù)λ的增加,增強(qiáng)信源失真率SDR平均值趨于平穩(wěn),可以通過改變稀因子γ來再度提高算法性能。最后,實(shí)驗(yàn)選取λ=1.8和γ=0.05作為最佳參數(shù),為了更好地驗(yàn)證本文算法的性能,后續(xù)的算法評(píng)估均使用該參數(shù)。
將本文SRNMF算法與NMF算法、文獻(xiàn)[12]算法和文獻(xiàn)[13]算法進(jìn)行性能比較。采用客觀質(zhì)量評(píng)估(Perceptual Evaluation of Speech Quality, PESQ)方法[19]和信源失真率SDR[20]作為語音增強(qiáng)算法性能客觀評(píng)估標(biāo)準(zhǔn)。PESQ用來衡量增強(qiáng)語音的質(zhì)量,能夠反映主觀聽覺測(cè)試結(jié)果,較高的PESQ值,說明其語音質(zhì)量越好;SDR用來衡量增強(qiáng)語音的失真率,能夠反映增強(qiáng)語音中殘余噪聲所占比,SDR越大說明殘余噪聲越少,語音質(zhì)量越好。
表1 不同算法訓(xùn)練時(shí)間比較 s
表1為四種算法單次訓(xùn)練聯(lián)合字典矩陣所耗時(shí)間情況。雖然文獻(xiàn)[12]算法、文獻(xiàn)[13]算法和本文SRNMF算法都在目標(biāo)函數(shù)中引入正則項(xiàng)增加了計(jì)算負(fù)擔(dān),但是NMF算法的訓(xùn)練時(shí)間仍然是它們的2~3倍,而且本文SRNMF算法耗時(shí)最少。說明使用KL散度下的目標(biāo)函數(shù)及其正則約束,可以提高算法收斂速度,減小字典訓(xùn)練時(shí)間,提高算法實(shí)用性。
表2為三種背景噪聲和不同信噪比下的PESQ和SDR平均值比較。在實(shí)驗(yàn)中,標(biāo)準(zhǔn)NMF算法沒有特別針對(duì)噪聲處理的措施,故在不同噪聲環(huán)境下的增強(qiáng)語音的PESQ值有明顯的差別,而文獻(xiàn)[12]算法和文獻(xiàn)[13]算法在求解目標(biāo)函數(shù)時(shí)都引入了噪聲項(xiàng),能夠在一定程度上削弱噪聲的影響,但是效果不是十分明顯。雖然在不同背景噪聲環(huán)境下本文SRNMF算法有一定的差別,但是這種差異不大,說明背景噪聲變化對(duì)其性能影響較弱,體現(xiàn)了該算法具有較好魯棒性。隨著信噪比提高,語音質(zhì)量也相應(yīng)地提高,且總體上高于其他算法,較穩(wěn)定。
表2 不同算法增強(qiáng)語音的PESQ和SDR平均值比較
對(duì)各算法在不同背景噪聲環(huán)境下進(jìn)行比較,由表2可知,使用這些算法增強(qiáng)語音的SDR值有明顯的差別,尤其是在低信噪比條件下的Factory1和Babble噪聲,且Babble噪聲最為突出。如圖3所示,通過分析實(shí)驗(yàn)中的背景噪聲頻譜可知,Factory1和Babble噪聲的頻率分量功率主要分布在低頻段,而Hfchannel在中低頻段。說明這些算法主要適用于頻率分量功率分布在中低頻段的噪聲,較難對(duì)低頻段噪聲產(chǎn)生作用。然而,觀察SDR評(píng)估值可知,SRNMF算法增強(qiáng)效果明顯優(yōu)于其他算法,能夠較好地保存語音特征處理低頻段噪聲,削弱了環(huán)境的變化對(duì)算法性能的影響。
圖3 三種背景噪聲頻域幅度分布
綜上所述,說明了各算法在三種背景噪聲環(huán)境和不同信噪比條件下的PESQ和SDR平均值的對(duì)比情況。可見,同一算法在相同信噪比及不同背景噪聲條件下的性能總趨勢(shì)為Hfchannel>Factory1>Babble,而且各種算法在Hfchannel噪聲背景下性能最優(yōu),SRNMF算法在該噪聲環(huán)境下表現(xiàn)出較強(qiáng)的增強(qiáng)效果。隨著信噪比提高,其優(yōu)勢(shì)逐漸下降,而SRNMF算法仍能保證較強(qiáng)的增強(qiáng)性能。這是由于該算法在目標(biāo)函數(shù)中正則項(xiàng)的引入,能夠較好地保護(hù)語音時(shí)頻域特性,削弱了非平穩(wěn)類噪聲的影響,同時(shí)也降低了誤差隨機(jī)性,使其具有較強(qiáng)的魯棒性,發(fā)揮了NMF算法在低信噪比條件下的優(yōu)勢(shì)。在高信噪比條件下,SRNMF算法對(duì)提高語音質(zhì)量?jī)?yōu)勢(shì)較弱。在低信噪比環(huán)境下,SRNMF算法增強(qiáng)效果較為顯著,說明該算法對(duì)噪聲的抵抗能力較強(qiáng),能夠削弱異常噪聲的影響。總體來看,雖然,SRNMF算法在所有噪聲環(huán)境下的平均PESQ值變化不大,但是該算法有較高的SDR值??梢?本文算法增強(qiáng)效果比其他算法要好。
圖4為不同算法在輸入信噪比為0 dB,背景噪聲為Hfchannel噪聲時(shí)的語譜圖。語譜圖上顏色的深淺反映語音數(shù)據(jù)能量的大小,顏色越深說明語音能量越強(qiáng)。由圖4可知,NMF、文獻(xiàn)[12]算法和文獻(xiàn)[13]算法消噪能力較低,語音段明顯存在大量的殘余噪聲。通過分析實(shí)驗(yàn)數(shù)據(jù)可知,雖然在目標(biāo)函數(shù)中引入噪聲約束項(xiàng)或稀疏項(xiàng)可以達(dá)到增強(qiáng)的目的,但是這種性能增量相對(duì)于NMF算法較低。對(duì)比圖4及圖中的矩陣框可知,SRNMF算法靜音段和幀間殘余噪聲明顯減少,說明該算法具有較好的噪聲消除能力。因此,該算法能夠有效地減少失真,提高語音質(zhì)量和可懂度。
圖4 輸入信噪比為0 dB時(shí)Hfchannel噪聲下各算法的語譜圖比較
針對(duì)非負(fù)矩陣分解在單通道語音增強(qiáng)算法中應(yīng)用存在的一些問題,本文提出了稀疏正則非負(fù)矩陣分解的語音增強(qiáng)算法。該算法通過在目標(biāo)函數(shù)中的正則項(xiàng)中引入噪聲項(xiàng)及稀疏約束項(xiàng),對(duì)帶噪語音進(jìn)行增強(qiáng),較好地保留了語音信號(hào)的基本信息,具有較好的噪聲抑制能力。實(shí)驗(yàn)結(jié)果表明,在不同環(huán)境噪聲和不同信噪比條件下,本文算法比NMF算法和文獻(xiàn)[12-13]算法能夠更好地抑制背景噪聲,提高語音質(zhì)量和可懂度。但是在實(shí)際應(yīng)用中,語音還存在空間信息,而單通道語音增強(qiáng)算法缺少該項(xiàng)特征,需要進(jìn)一步研究多通道語音增強(qiáng)算法下的性能。
參考文獻(xiàn)(References)
[1] EPHRAIM Y, MALAH D. Speech enhancement using a minimum-mean square error short-time spectral amplitude estimator [J]. IEEE Transactions on Acoustics Speech & Signal Processing, 2003, 32(6): 1109-1121.
[2] 蔡宇, 郝程鵬, 侯朝煥. 采用子帶譜減法的語音增強(qiáng)[J]. 計(jì)算機(jī)應(yīng)用, 2014, 34(2): 567-571.(CAI Y, HAO C P, HOU C H. Speech enhancement based on subband spectrum subtraction algorithm[J]. Journal of Computer Applications, 2014,34(2): 567-571.)
[3] JABLOUN F, CHAMPAGNE B. Incorporating the human hearing properties in the signal subspace approach for speech enhancement [J]. IEEE Transactions on Speech & Audio Processing, 2010, 11(6): 700-708.
[4] XU Y, DU J, DAI L R, et al. An experimental study on speech enhancement based on deep neural networks [J]. IEEE Signal Processing Letters, 2014, 21(1): 65-68.
[5] XU Y, DU J, DAI L R, et al. A regression approach to speech enhancement based on deep neural networks [J]. IEEE/ACM Transactions on Audio Speech & Language Processing, 2015, 23(1): 7-19.
[6] LEE D D, SEUNGH S. Algorithms for non-negative matrix factorization[C]// NIPS 2000: Proceedings of the 13th International Conference on Neural Information Processing Systems. Cambridge, MA: MIT Press, 2000: 556-562.
[7] KWON K, SHIN J W, KIM N S. NMF-based speech enhancement using bases update [J]. IEEE Signal Processing Letters, 2015, 22(4): 450-454.
[8] MOHAMMADIHA N, SMARAGDIS P, LEIJON A. Supervised and unsupervised speech enhancement using nonnegative matrix factorization [J]. IEEE Transactions on Audio, Speech, and Language Processing, 2013, 21(10): 2140-2151.
[9] 盧宏, 趙知?jiǎng)? 楊小牛. 基于行列式和稀疏性約束的NMF的欠定盲分離方法[J]. 計(jì)算機(jī)應(yīng)用, 2011, 31(2): 553-555.(LU H, ZHAO Z J, YANG X N. Algorithm for underdetermined blind source separation based on DSNMF [J]. Journal of Computer Applications, 2011, 31(2): 553-555.)
[10] O’GRADY P D, PEARLMUTTERB A. Discovering speech phones using convolutive non-negative matrix factorisation with a sparseness constraint [J]. Neurocomputing, 2008, 72(1/2/3): 88-101.
[11] VU T T, BIGOT B, CHNG E S. Combining non-negative matrix factorization and deep neural networks for speech enhancement and automatic speech recognition[C]// Proceedings of the 2016 IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway, NJ: IEEE, 2016: 499-503.
[12] ZHANG L, CHEN Z, ZHENG M, et al. Robust non-negative matrix factorization [J]. Frontiers of Electrical & Electronic Engineering in China, 2011, 6(2): 192-200.
[13] HE W, ZHANG H Y, ZHANG L P. Sparsity-regularized robust non-negative matrix factorization for hyperspectral unmixing [J]. IEEE Journal of Selected Topics in Applied Earth Observations & Remote Sensing, 2016, 9(9): 4267-4279.
[14] MYSORE G J, SMARAGDIS P. A non-negative approach to semi-supervised separation of speech from noise with the use of temporal dynamics[C]// Proceedings of the 2011 IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway, NJ: IEEE, 2011: 17-20.
[15] CHUNG H, PLOURDE E, CHAMPAGNE B. Regularized NMF-based speech enhancement with spectral components modeled by Gaussian mixtures[C]// Proceedings of the 2014 IEEE International Workshop on Machine Learning for Signal Processing. Piscataway, NJ: IEEE, 2014: 1-6.
[16] HALE E T, YIN W, ZHANG Y. Fixed-point continuation for l1- minimization: methodology and convergence[J]. SIAM Journal on Optimization, 2008, 19(3): 1107-1130.
[17] XU W, LIU X, GONG Y. Document clustering based on nonnegative matrix factorization [C]// Proceedings of the 26th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 2003: 267-273.
[18] WILSON K W, RAJ B, SMARAGDIS P, et al. Speech denoising using nonnegative matrix factorization with priors[C]// ICASSP 2008: Proceedings of the 2008 IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway, NJ: IEEE,2008: 4029-4032.
[19] RIX A W, BEERENDS J G, HOLLIER M P, et al. Perceptual Evaluation of Speech Quality(PESQ) — a new method for speech quality assessment of telephone networks and codecs[C]// ICASSP 2001: Proceedings of the 2001 IEEE International Conference on Acoustics, Speech, and Signal Processing. Piscataway, NJ: IEEE, 2001: 749-752.
[20] VINCENT E, GRIBONVAL R, FEVOTTE C. Performance measurement in blind audio source separation [J]. IEEE Transactions on Audio Speech & Language Processing, 2006, 14(4): 1462-1469.
This work is partially supported by the Scientific Public Welfare Research Foundation of Liaoning Province (20170056).