許銘,王冬霞,周城旭,張偉
改進的Kullback-Leibler復(fù)非負矩陣分解語音增強算法
許銘,王冬霞,周城旭,張偉
(遼寧工業(yè)大學(xué)電子與信息工程學(xué)院,遼寧錦州 121001)
針對單通道非負矩陣分解語音增強算法忽略相位信息的問題,提出了一種改進的Kullback-Leibler復(fù)非負矩陣分解的語音增強算法。該算法考慮到傳統(tǒng)非負矩陣分解算法在復(fù)頻域中增強語音時目標函數(shù)的影響,構(gòu)建了一種適用于復(fù)頻域的Kullback-Leibler散度下的目標函數(shù),同時采用頻譜一致性約束相位譜補償算法,使其重構(gòu)出的語音數(shù)據(jù)相位譜得到進一步的調(diào)制。實驗結(jié)果表明,對于不同的非平穩(wěn)噪聲,所提出的算法在不同信噪比下均取得了較好的語音增強效果,尤其在低信噪比條件下(0 dB以下)語音增強效果較為明顯,性能評估指標的增量較高,較好地克服了由傳統(tǒng)相位譜補償算法造成的信源失真率較低的缺點,進一步減少失真,抑制背景噪聲,實現(xiàn)語音增強。
復(fù)非負矩陣分解;相位譜補償;語音增強
語音增強旨在去除帶噪語音信號中的噪聲成分,以獲得較為純凈的語音信號,從而提高語音信號的質(zhì)量和語音可懂度。經(jīng)典的單通道語音增強算法包括譜減法[1]、統(tǒng)計模型法[2]、子空間分解[3]等算法。這些算法在平穩(wěn)噪聲條件下具有良好的噪聲抑制效果,但在非平穩(wěn)噪聲環(huán)境下卻不盡人意,語音增強的性能有限。
非負矩陣分解(Non-negative Matrix Factorization, NMF)是一種良好的機器學(xué)習(xí)和數(shù)據(jù)挖掘的方法[4]。研究表明,該算法可以將帶噪語音信號的幅度(或功率)譜近似分解為時變系數(shù)頻譜與靜態(tài)基頻譜的乘積,然后在訓(xùn)練純凈語音和噪聲信號的子空間譜的基礎(chǔ)上,更新帶噪語音的系數(shù)矩陣,最后重構(gòu)原始純凈語音[5]。
但是該算法往往假設(shè)幅度(或功率)譜具有可加性,沒有考慮到重構(gòu)時原始語音相位信息的影響。為了解決這一缺點,有學(xué)者提出復(fù)非負矩陣分解(Complex Non-negative Matrix Factorization, CNMF)算法[6-7],該算法在復(fù)頻域?qū)τ^測信號進行處理,利用信號每個頻點的相位譜信息來獲得幅度譜的最優(yōu)估計。由于復(fù)頻域的限制,該算法在度量原始信號復(fù)頻譜與重構(gòu)的復(fù)頻譜間誤差的目標函數(shù)時具有局限性,僅限于采用歐幾里得距離(Euclidean Distance, EUC)模型,且該模型在度量原始數(shù)據(jù)與重構(gòu)數(shù)據(jù)間的誤差時,采用平方運算而導(dǎo)致異常點誤差被放大,影響重構(gòu)數(shù)據(jù)的精度[8-9]。因此,本文利用(Kullback-Leibler, KL)散度模型構(gòu)建目標函數(shù)來度量誤差,以提高CNMF算法的性能。
考慮到重構(gòu)原始純凈語音時采用帶噪語音相位譜會造成語音信號失真,限制增強性能[10],故文獻[11]提出了相位譜補償算法(Phase Spectrum Compensation,PSC)調(diào)制帶噪語音的相位譜,以提高增強后語音信號的質(zhì)量和可懂度,但該方法在不同的背景噪聲環(huán)境下參數(shù)很難確定,且反對稱函數(shù)的應(yīng)用造成部分相位譜的偏差被放大,降低了信源失真率(Source Distortion Rate, SDR)。
因此,為了有效的利用相位信息,本文提出改進的KL-CNMF算法相位譜補償語音增強模型,在提高CNMF算法噪聲抑制能力的同時,根據(jù)帶噪語音、噪聲信號與純凈語音的矢量關(guān)系,引入傅里葉變換一致性約束[12-13]改進文獻[11]的算法,進一步減少在不同環(huán)境噪聲下由相位信息的影響而造成的語音失真現(xiàn)象,較好地保留了語音信號的基本信息,減少了殘留噪聲,提高了語音質(zhì)量和可懂度。
故利用式(6)、(7)的不等關(guān)系可將式(5)右側(cè)進一步改寫為
迭代算法總結(jié)如下:
改進的PSC算法雖然造成了帶噪語音信號與估計的噪聲信號向量大小與角度的改變,但其針對每個頻點相位譜的失真,利用頻譜一致性約束進行調(diào)制,保證了調(diào)制算法的時變性,同時使相加后得到的相位譜進一步接近純凈語音相位譜且不會因反對稱函數(shù)造成相位譜失真被放大的現(xiàn)象。
圖1 PSC算法與改進的PSC算法相位估計向量圖
補償后的純凈語音頻譜估計為
語音增強算法結(jié)構(gòu)如圖2所示,即包括兩個階段:學(xué)習(xí)和增強。
圖2 改進的KL-CNMF相位補償語音增強算法框圖
增強階段包括3個部分:(1) 系數(shù)矩陣更新、(2)相位調(diào)制、(3) 增強信號重構(gòu)。
(1) 系數(shù)矩陣更新階段
(2) 相位調(diào)制階段
利用式(22)分別估計出經(jīng)過STFT的帶噪語音信號和經(jīng)過KL-CNMF算法估計出的噪聲信號的頻譜一致性約束,然后,利用式(23)、(24)進行相位譜補償,最后,得到修正的相位譜如下:
(3) 增強信號重構(gòu)階段
采用維納濾波求帶噪語音信號增益的原理,輸入重構(gòu)出的語音和噪聲幅度譜,求得帶噪語音增益函數(shù),即
結(jié)合式(28)求得的帶噪語音增益與改進的KL-CNMF算法估計出增強的相位譜和幅度譜,得到純凈語音譜為
最后,利用逆STFT變換得到時域上的語音增強信號。
實驗中選擇3種非平穩(wěn)背景噪聲:噪聲能量主要分布在低頻段的Factory1工廠車間噪聲、Babble餐廳內(nèi)嘈雜噪聲,以及Hfchannel噪聲,將本文提出改進的KL-CNMF語音增強算法與標準NMF算法、文獻[7]算法、KL-CNMF語音增強算法、文獻[11]算法的性能指標進行比較。采用客觀質(zhì)量評估方法(Perceptual Evaluation of Speech Quality, PESQ)、信源失真率(Source Distortion Rate, SDR)、語音的短時客觀可懂度(Short Term Objective Intelligibility, STOI)和分段信噪比(Segmental Signal-to-Noise Ratio, SSNR)作為語音增強算法性能的客觀評估標準。
如圖3給出了標準NMF(KL)、文獻[7]與KL-CNMF算法的目標函數(shù)關(guān)于迭代次數(shù)與度量誤差的關(guān)系圖。如圖3所示,隨迭代次數(shù)的增加,各算法逐漸收斂,且KL-CNMF算法收斂速度較快,這說明在復(fù)頻域NMF算法的收斂速度要明顯快于標準頻域NMF算法。在迭代次數(shù)到達約35次前,在復(fù)頻域NMF算法的誤差值較小。當(dāng)?shù)螖?shù)超過35次以后,文獻[7]算法的誤差值不降反增,而KL-CNMF算法誤差值一直保持收斂且最小,即采用KL散度計算目標函數(shù)的精度要高于歐式距離模型,可以較好地提高目標函數(shù)度量誤差的精度,保證算法的性能。
圖3 各算法目標函數(shù)關(guān)于迭代次數(shù)與誤差的收斂圖
表1為四種不同的NMF算法單次學(xué)習(xí)聯(lián)合字典矩陣所消耗時間的情況(設(shè)置迭代次數(shù)為50)??梢?,文獻[7]算法與基于EUC模型的標準NMF算法訓(xùn)練耗時較長,而本文提出KL-CNMF算法與基于KL散度模型的標準NMF算法訓(xùn)練耗時約降低了50%。這說明本文提出的算法雖然增加了計算的復(fù)雜度,但是應(yīng)用KL散度模型下的目標函數(shù)仍能夠保持其應(yīng)用在標準NMF算法中的特質(zhì),降低了字典的訓(xùn)練時間,提高了算法的實用性。
表1 不同算法的訓(xùn)練時間比較
表2為3種背景噪聲和不同的信噪比條件下的PESQ與SDR平均值比較,而圖4、圖5和圖6表示為3種背景噪聲和不同信噪比下各平均值增量比較[14],可以看出在同一種噪聲條件下,隨著信噪比(Signal Noise Rate, SNR)的增加,各算法SDR、STOI、SSNR評估值的增長量逐漸下降,PESQ評估值增量較為穩(wěn)定。這說明雖然各算法增強性能逐漸減弱,但其仍能夠在一定程度上提高語音質(zhì)量和可懂度,本文提出算法在不同的噪聲條件下均具有更高的性能指標,且其增長量較高,說明該算法無論在低頻或高頻背景噪聲條件下均具有較好的穩(wěn)定性與增強性能。對比各算法在相同信噪比及不同噪聲條件下的評估值增量,發(fā)現(xiàn)同一算法的PESQ、STOI、SSNR評估值的增量總體趨勢為Factory1>Hfchannel>Babble,SDR評估值增量的總體趨勢為Hfchannel >Factory1> Babble,這說明在同一信噪比不同噪聲的影響下,各語音增強算法均能夠提高語音質(zhì)量與可懂度,且在Factory1背景噪聲條件下各算法的性能較好,而在Hfchannel背景噪聲條件下,各算法增強后的語音失真較少,且可以看出本文提出算法具有較強的噪聲抑制能力,在Hfchannel噪聲條件下性能最優(yōu)。
表2 不同噪聲背景下不同語音增強算法PESQ與SDR平均值比較
在不同的背景噪聲環(huán)境下,各語音增強算法的PESQ、STOI、SDR、SSNR平均值如圖4~圖6所示,對比標準NMF算法與其他算法的評估值增量,可以看出在復(fù)頻域進行NMF語音增強具有明顯優(yōu)勢,有效提高了語音增強的性能。對比文獻[7]、KL-CNMF語音增強算法評估值可知,在同一背景噪聲環(huán)境下進行比較,隨著信噪比的增加,KL-CNMF語音增強算法具有更高的評估值,PESQ與STOI值約提升0.08~0.3,SDR值約提升0.5~2,SSNR值約提升0.2~0.5,說明采用該算法進行語音增強能夠在一定程度上削弱噪聲的影響,減少相位信息的損失,提高語音質(zhì)量。原因在于文獻[7]算法采用了歐氏距離作為目標函數(shù),其異常點誤差易被放大,而采用KL散度函數(shù)度量誤差可以有效克服了這一缺點。
(a) PESQ評分增量
(b) STOI評分增量
(c) SDR評分增量
(d) SSNR評分增量
圖4 Factory1背景噪聲環(huán)境下不同語音增強算法的PESQ, STOI, SDR, SSNR平均值
Fig.4 Average values of PESQ, STOI, SDR and SSNR for different speech enhancement algorithms under Factory1 noise background
(a) PESQ評分增量
(b) STOI評分增量
(c) SDR評分增量
(d) SSNR評分增量
圖5 Babble背景噪聲環(huán)境下不同語音增強算法的PESQ, STOI, SDR, SSNR平均值
Fig.5 Average values of PESQ, STOI, SDR and SSNR for different speech enhancement algorithms under Babble Babble noise background
結(jié)合表2與圖4~6可以看出,對相位譜進行調(diào)制后的KL-CNMF算法(文獻[11]算法與本文算法)能夠較好地提高該算法性能,但是,在同一背景噪聲環(huán)境、不同信噪比條件下,采用文獻[11]算法進行相位譜調(diào)制,在較好地提高了PESQ值約0.02~0.15、SSNR值約2~3的同時,明顯降低了STOI值約0.03~0.06、SDR值約1~2。這說明采用文獻[11]算法雖然能夠較好地提高語音質(zhì)量和可懂度,但重構(gòu)語音清晰度不僅沒有提高,且造成語音失真,尤其是在低信噪比條件下這種影響最為突出。而本文算法提高了SDR值約1~2.5、STOI值約0.05~0.1,且相比文獻[11]算法,PESQ值約提升0.1~0.2,SSNR值約提升0.5~1.5,這說明本文提出的改進的PSC算法采用STFT一致性約束較好地彌補了由文獻[11]算法固定參數(shù)與反對稱函數(shù)的應(yīng)用而造成的失真現(xiàn)象,并結(jié)合KL-CNMF算法構(gòu)成的語音增強模型能夠在不犧牲語音可懂度的條件下,較好地提高了重構(gòu)語音的質(zhì)量與可懂度。
(a) PESQ評分增量
(b) STOI評分增量
(c) SDR評分增量
(d) SSNR評分增量
圖6 Hfchannel背景噪聲環(huán)境下不同語音增強算法的PESQ, STOI, SDR, SSNR平均值
Fig.6 Average values of PESQ, STOI, SDR and SSNR for different speech enhancement algorithms under Hfchannel noise background
圖7給出了不同的CNMF算法的語譜圖,其中輸入信噪比為0 dB,背景噪聲為Factory1噪聲。由語譜圖上顏色的深淺和其對應(yīng)的評估值大小來反映語音增強效果,顏色越深說明語音頻譜的能量越強。由圖7可知,KL-CNMF算法語譜圖相比文獻[7]算法中幀間的殘余噪聲相對較少且語譜更加清晰,說明采用KL散度模型度量誤差的CNMF算法可以達到語音增強的目的,且相比于傳統(tǒng)算法具有更好的噪聲抑制能力,但語音段仍存在較多殘余噪聲。
(a) 純凈語音
(b) 帶噪語音(PESQ=1.56, SDR=0.39, STOI=0.77, SSNR=-2.98)
(c) 文獻[7]算法(PESQ=2.01, SDR=6.09, STOI=0.76, SSNR=0.31)
(d) KL-CNMF算法(PESQ=2.32, SDR=7.91, STOI=0.89, SSNR=0.64)
(e) 文獻[11]算法(PESQ=2.51, SDR=6.45, STOI=0.87, SSNR=2.47)
(f) 本文算法(PESQ=2.66, SDR=9.24, STOI=0.91, SSNR=2.98)
圖7 輸入信噪比為0 dB的Factory1背景噪聲環(huán)境下各算法語譜圖
Fig.7 Spectrograms for different speech enhancement algorithms underFactory 1 noise background with input SNR of 0 dB
結(jié)合圖7中矩形框可以看出,圖7(e)與圖7(f)語音段的殘余噪聲相對較少,這是由于其對重構(gòu)語音的相位譜進行了補償,而非直接采用帶噪語音相位譜重構(gòu)語音,但圖7(e)顏色明顯較淺且其SDR和STOI評估值偏低,這說明文獻[11]算法以犧牲語音清晰度為代價,提高重建語音質(zhì)量。而圖7(f)顏色較深且各評估值均有提高,這說明本文采用的語音增強算法不僅在復(fù)頻域中有效地利用了相位信息重構(gòu)增強信號的幅度譜,且采用STFT一致性約束有效的克服了文獻[11]算法造成的語音失真現(xiàn)象,進一步修正語音信號的相位譜。因此,該算法能夠有效地減少失真,提高噪聲抑制的能力,較好地保證重構(gòu)語音質(zhì)量,實現(xiàn)語音增強。
對于單通道非負矩陣分解語音增強算法忽略相位信息的問題,本文提出了改進的KL復(fù)非負矩陣分解語音增強算法。該算法在復(fù)頻域中構(gòu)建了KL散度下的目標函數(shù)度量誤差,克服了傳統(tǒng)CNMF算法的缺點,并結(jié)合改進的相位譜調(diào)制算法,進一步減少了相位信息的丟失,保證了重構(gòu)語音的質(zhì)量,實現(xiàn)了語音增強。實驗結(jié)果表明,在不同的環(huán)境噪聲和信噪比條件下,本文算法相比文獻[7]算法更好地抑制了背景噪聲,提高了重構(gòu)增強語音的清晰度,并克服了文獻[11]算法SDR較低的缺點,進一步提高語音質(zhì)量與可懂度,減少了語音失真。
目前單通道語音增強算法較少利用相位信息進行增強語音,修正的相位譜對語音質(zhì)量和可懂度有較大提升,所以針對語音信號相位譜的修正算法還需進一步研究。
[1] 蔡宇, 郝程鵬, 侯朝煥. 采用子帶譜減法的語音增強[J]. 計算機應(yīng)用, 2014, 34(2): 567-571.
CAI Yu, HAO Chengpeng, HOU Chaohuan. Speech enhancement using subband spectral subtraction[J]. Computer applications, 2014, 34(2): 567-571.
[2] BORGSTROM B J, ALWAN A. Log-spectral amplitude estimation with generalized Gamma distributions for speech enhancement[C]//IEEE International Conference on Acoustics, Speech and Signal Processing, IEEE, 2011: 4756-4759.
[3] JABLOUN F, CHAMPAGNE B. Incorporating the human hearing properties in the signal subspace approach for speech enhancement[J]. Speech & Audio Processing IEEE Transactions on, 2010, 11(6): 700-708.
[4] LEE D D, SEUNG H S. Algorithms for non-negative matrix factorization[C]//International Conference on Neural Information Processing Systems, MIT Press, 2000: 535-541.
[5] CHUNG H, PLOURDE E, CHAMPAGNE B. Basis compensation in non-negative matrix factorization model for speech enhancement[C]//IEEE International Conference on Acoustics, Speech and Signal Processing. IEEE, 2016: 2249-2253.
[6] MAGRON P, BADEAU R, DAVID B. Complex NMF under phase constraints based on signal modeling: Application to audio source separation[C]//2016 IEEE International Conference on Acoustics, Speech and Signal Processing(ICASSP), Shanghai, 2016: 46-50.
[7] KAMEOKA H. Complex NMF: A new sparse representation for acoustic signals[C]//IEEE International Conference on Acoustics, Speech and Signal Processing, IEEE Computer Society, 2009: 3437-3440.
[8] HE W, ZHANG H Y, ZHANG L P. Sparsity-regularized robust non-negative matrix factorization for hyperspectral unmixing[J]. IEEE Journal of Selected Topics in Applied Earth Observations & Remote Sensing, 2016, 9(9): 4267-4279.
[9] FEVOTTE C, IDIER J. Algorithms for nonnegative matrix factorization with the-divergence[J]. Neural Computation, 2011, 23(9): 2421-2456
[10] STARK A P, WOJCICKI K, LYONS J, et al. Noise driven short time phase spectrum compensation procedure for speech enhancement[C]//Proceedings INTERSPEECH, Australia, 2008: 549-552.
[11] LI Z, WU W, ZHANG Q, et al. Speech enhancement using magnitude and phase spectrum compensation[C]//Ieee/acis, International Conference on Computer and Information Science. IEEE, 2016: 1-4.
[12] ROUX J L, KAMEOKA H, ONO N, et al. Phase initialization schemes for faster spectrogram consistency based signal reconstruction[C]//Acoustical Society of Japan Autumn Meeting, No. 2010, 601-602.
[13] ROUX J L, VINCENT E, MIZUNO Y, et al. Consistent wiener filtering generalized time-frequency masking respecting spectrogram consistency[C]//International Conference on Latent Variable Analysis and Signal Separation, Springer-Verlag Berlin Heidelberg, 2010: 89-96.
WILSON K W, RAJ B, SMARAGDIS P, et al. Speech denoising using nonnegative matrix factorization with priors[C]//IEEE International Conference on Acoustics, Speech and Signal Processing, IEEE, 2008: 4029-403.
Speech enhancement based on improved Kullback-Leibler complex non-negative matrix factorization
XU Ming, WANG Dong-xia, ZHOU Cheng-xu, ZHANG Wei
(College of Electronic and Information Engineering, Liaoning University of Technology, Jinzhou 121001, Liaoning, China)
Considering the problem that the single channel non-negative factorization speech enhancement algorithm neglects phase information, a speech enhancement algorithm based on improved Kullback-Leibler complex non-negative matrix factorization is proposed in this paper. This algorithm takes into account the influence of the objective function when the traditional non-negative matrix factorization (NMF) algorithm is used to enhance the speech in the complex frequency domain, an objective function under Kullback-Leibler divergence in the complex frequency domain is constructed, and the phase spectrum of the reconstructed speech data is further corrected by the phase spectrum compensation algorithm (PSC) with spectral consistency constraints. Experimental results show that the proposed algorithm has obvious speech enhancement effect under different non-stationary environments especially in low signal-to-noise ratio (below 0 dB), and the increment of performance evaluation index is higher; moreover, it can overcome the disadvantage of low source distortion rate caused by the traditional phase spectrum compensation algorithms, further reduce speech distortion and restrain background noise to realize speech enhancement.
complex nonnegative matrix factorization; phase spectrum compensation; speech enhancement
TN912.35
A
1000-3630(2019)-05-0560-08
10.16300/j.cnki.1000-3630.2019.05.013
2018-06-12;
2018-08-18
遼寧省科學(xué)事業(yè)公益研究基金項目(20170056)、遼寧省自然科學(xué)基金資助(201302022)項目。
許銘(1994-), 男, 遼寧沈陽人, 碩士研究生, 研究方向為現(xiàn)代信號處理與多媒體技術(shù)。
王冬霞,E-mail: dxwang_lg@126.com