姜開(kāi)宇 吳 超 國(guó)雁萌 付 強(qiáng) 顏永紅
?
基于頻域逐級(jí)回歸的聲學(xué)回聲控制
姜開(kāi)宇*吳 超 國(guó)雁萌 付 強(qiáng) 顏永紅
(中國(guó)科學(xué)院聲學(xué)研究所 北京 100190)(中科院語(yǔ)言聲學(xué)與內(nèi)容理解重點(diǎn)實(shí)驗(yàn)室 北京 100190)
傳統(tǒng)聲學(xué)回聲控制算法一般采用基于隨機(jī)梯度法更新的頻域分塊自適應(yīng)濾波(PBFDAF)方法,但在以語(yǔ)音為主要回聲信號(hào)的室內(nèi)混響環(huán)境中,由于回聲路徑不穩(wěn)定,往往收斂速度較慢,難以實(shí)現(xiàn)足夠的回聲抑制。該文提出一種基于頻域逐級(jí)回歸的聲學(xué)回聲控制算法。通過(guò)逐級(jí)回歸分析遠(yuǎn)端信號(hào)和麥克風(fēng)信號(hào)之間的線性關(guān)系,可以在保持較小的偏差的同時(shí)實(shí)現(xiàn)收斂較快的系統(tǒng)估計(jì)。同時(shí),由于逐級(jí)分析了兩通道間的短時(shí)相干性,因而該算法無(wú)需像常見(jiàn)方法一樣,額外進(jìn)行基于通道間相干函數(shù)的殘余回聲抑制或雙講檢測(cè),從而保持系統(tǒng)的緊湊性。若進(jìn)一步假定近端背景噪聲準(zhǔn)平穩(wěn),則可利用基于近端信號(hào)非平穩(wěn)程度的自適應(yīng)平滑因子,在實(shí)現(xiàn)系統(tǒng)估計(jì)快速收斂的同時(shí)確保其穩(wěn)定性。實(shí)驗(yàn)表明,該方法在常見(jiàn)的近端環(huán)境噪聲水平下,在收斂速度和穩(wěn)態(tài)誤差上相對(duì)傳統(tǒng)方法有顯著優(yōu)勢(shì),非常適合應(yīng)用在室內(nèi)遠(yuǎn)講模式下的聲學(xué)回聲控制中。
語(yǔ)音信號(hào)處理;聲學(xué)回聲控制;逐級(jí)回歸;聲學(xué)回聲抵消;聲學(xué)回聲抑制
在語(yǔ)音通信和交互系統(tǒng)中,由于近端存在語(yǔ)音和背景噪聲,遠(yuǎn)端揚(yáng)聲器信號(hào)和近端麥克風(fēng)信號(hào)之間的線性關(guān)系會(huì)受到干擾,這通常被稱作“雙講”問(wèn)題。而且,由于室內(nèi)混響的影響,經(jīng)常需要較多參數(shù)才能較精確地建?;芈暵窂健8匾氖?,回聲路徑可能時(shí)變,甚至因環(huán)境擾動(dòng)而出現(xiàn)突變,因此只能基于有限時(shí)長(zhǎng)內(nèi)的觀測(cè)數(shù)據(jù)進(jìn)行無(wú)偏估計(jì),這將導(dǎo)致估計(jì)方差較大。另外由于遠(yuǎn)端信號(hào)是語(yǔ)音,在時(shí)頻分布上比較稀疏,能量較弱的頻帶因?yàn)檠蜎](méi)在近端噪聲中而無(wú)法被有效辨識(shí),因而回聲路徑的估計(jì)相對(duì)于真實(shí)值經(jīng)常是有差異的。因此,在實(shí)際環(huán)境下,要保持以較小的方差獲得回聲路徑的無(wú)偏估計(jì),往往不太可能。相對(duì)而言,一個(gè)偏差不大,但收斂快速的系統(tǒng)估計(jì),對(duì)于確保算法在各種情況下都有足夠的回聲消除量,從而保證系統(tǒng)的穩(wěn)定性尤為重要。
基于以上考慮,本文提出在復(fù)頻域的逐級(jí)回歸方法,將兩通道之間的線性關(guān)系建模為逐級(jí)回歸模型,并利用逐級(jí)的短時(shí)譜估計(jì)實(shí)現(xiàn)長(zhǎng)系統(tǒng)的辨識(shí),在保持偏差較小的同時(shí),不僅能夠?qū)崿F(xiàn)系統(tǒng)估計(jì)的快速收斂,而且具有抗瞬態(tài)干擾(近端語(yǔ)音)的能力。在本文的逐級(jí)回歸中,每級(jí)只進(jìn)行一個(gè)單參數(shù)的簡(jiǎn)單回歸,所以不必進(jìn)行矩陣求逆就能求得逐級(jí)的最小二乘估計(jì),能夠達(dá)到較快的收斂速度。此外,如果估計(jì)時(shí)使用了足夠多的獨(dú)立樣本,則該估計(jì)對(duì)于非持續(xù)的干擾(近端語(yǔ)音)將保持魯棒。這是因?yàn)?,如果用恒定方差的白噪聲序列?duì)近端信號(hào)(包括近端語(yǔ)音和背景噪聲)建模,即使其分布不是高斯的,根據(jù)Gauss-Markov定理,最優(yōu)的線性無(wú)偏估計(jì)子為最小二乘估計(jì)。盡管逐級(jí)回歸相對(duì)于多元線性回歸通常有一定偏差[17],但它具有更快的收斂速度和對(duì)雙講的魯棒性。同時(shí),通過(guò)對(duì)回聲路徑衰減形狀的合理假設(shè),可以預(yù)先合理確定逐級(jí)回歸中引入回歸變量的次序,并對(duì)估計(jì)得到的回歸系數(shù)做出合理約束,從而將系統(tǒng)估計(jì)的偏差和均方誤差控制在一個(gè)較低的范圍內(nèi),因而它非常適合于以語(yǔ)音為主要回聲信號(hào)的非平穩(wěn)混響環(huán)境。為防止因快速收斂特性而可能導(dǎo)致的快速發(fā)散,本文還提出利用基于近端信號(hào)非平穩(wěn)程度的自適應(yīng)平滑因子,從而保證了算法的穩(wěn)定性。
本文后續(xù)部分安排如下:首先介紹用于聲學(xué)回聲控制的模型近似及頻域逐級(jí)回歸算法,同時(shí)提出一個(gè)時(shí)頻依賴的平滑因子及隨機(jī)幅度譜最小值約束,從而實(shí)現(xiàn)一個(gè)完整的聲學(xué)回聲控制算法。然后,對(duì)該方法和一個(gè)分塊頻域自適應(yīng)濾波器(PartitionedBlock Frequency Domain Adaptive Filter, PBFDAF)結(jié)合自適應(yīng)控制的實(shí)現(xiàn)[2,3,18]進(jìn)行了多種條件下的性能對(duì)比測(cè)試,最后給出結(jié)論。
設(shè)麥克風(fēng)信號(hào)表示為
相應(yīng)的殘差為
由于本文的方法具有快速收斂的特性,可以不必采用基于相干函數(shù)估計(jì)的后處理。但是在混響環(huán)境中,實(shí)際回聲路徑的模型階數(shù)較高,所以可能存在建模不足問(wèn)題。而且,第2.1節(jié)中的模型近似會(huì)帶來(lái)一定偏差,可能導(dǎo)致一定殘余回聲。為進(jìn)一步抑制回聲,可以考慮采用幅度譜過(guò)減,并通過(guò)在時(shí)間維度上加入平滑處理來(lái)消除過(guò)減帶來(lái)的音樂(lè)噪聲。然而,這種處理會(huì)在近端語(yǔ)音的起始時(shí)刻引入失真。為此,本文不采用時(shí)間維度上的平滑,而利用隨機(jī)的幅度譜最小值約束,不僅避免了音樂(lè)噪聲,而且保持了語(yǔ)音起始端的音質(zhì)。隨機(jī)幅度譜最小值約束不需引入額外的隨機(jī)噪聲添加模塊,并能獲得更自然的背景噪聲。在此約束下,近端語(yǔ)音的過(guò)減估計(jì)為
采用上述構(gòu)架,可以在需要時(shí)方便的加入背景噪聲抑制處理,本文在此不作進(jìn)一步討論。
根據(jù)引言分析,相對(duì)于傳統(tǒng)方法,本文提出的估計(jì)子具有更快的收斂速度以及對(duì)雙講和回聲路徑突變的相對(duì)魯棒性。并且,由于近端持續(xù)存在的背景噪聲對(duì)系統(tǒng)辨識(shí)的方差下界的制約,可以預(yù)期模型近似和逐級(jí)回歸的偏差在近端存在一定水平噪聲時(shí)表現(xiàn)不明顯。實(shí)驗(yàn)中,對(duì)本文提出的方法和PBFDAF結(jié)合自適應(yīng)控制方法的一個(gè)公開(kāi)實(shí)現(xiàn)Speex[2,3,18],在不同的回聲和本地平穩(wěn)噪聲比值的條件下進(jìn)行了對(duì)比測(cè)試。
算法的瞬態(tài)特性通過(guò)短時(shí)上的ERLE和LSD來(lái)考察?;芈暫捅镜仄椒€(wěn)噪聲比(Echo-to-Noise-Ratio, ENR)為10 dB和20 dB時(shí)的情形分別如圖1,圖2所示。為更清晰地進(jìn)行對(duì)比,圖中縱軸表示本文算法相對(duì)Speex的ERLE提高量。在兩種情況下,本文方法的收斂速度都更快,并在0~4 s和10~14 s的時(shí)間段上取得了更高的ERLE。當(dāng)ENR=20 dB,即近端背景噪聲相對(duì)回聲較弱時(shí),Speex在部分時(shí)段取得相對(duì)本文算法稍高的ERLE。但是,當(dāng)近端信號(hào)中包含一定程度的背景噪聲時(shí),如ENR=10 dB時(shí),本文算法在幾乎整個(gè)20 s的時(shí)間上都取得了更高的ERLE。由此可見(jiàn),本文算法非常適合于以語(yǔ)音為主要回聲信號(hào)的室內(nèi)混響環(huán)境。另外,本文算法50%和25%幀移的表現(xiàn)較為接近,但25%幀移的表現(xiàn)相對(duì)更好。
表1~表4顯示的結(jié)果由10次隨機(jī)抽取音頻后的測(cè)試指標(biāo)平均得到,以綜合考察非平穩(wěn)的近端語(yǔ)音和回聲信號(hào)在不同的時(shí)頻重疊情況下的算法表現(xiàn)。ERLE在整個(gè)時(shí)間段上計(jì)算。從表1,表2中可以看出,本文的方法在各種情況下均取得了更大的回聲衰減量,而表3和表4顯示近端語(yǔ)音損傷沒(méi)有增大,可懂度并沒(méi)有受到太大影響。同時(shí),25%幀移的情況性能表現(xiàn)總體更好,但計(jì)算量更大。
圖1 10 dB回聲噪聲比時(shí),單講情況下的短時(shí)ERLE對(duì)比測(cè)試
圖2 20 dB回聲噪聲比時(shí),單講情況下的短時(shí)ERLE對(duì)比測(cè)試
由于常見(jiàn)的室內(nèi)遠(yuǎn)講或免提語(yǔ)音通信和人機(jī)交互應(yīng)用環(huán)境中,通常存在一定程度的背景噪聲以及不可避免的電路噪聲,且聲學(xué)環(huán)境可能存在各種因素引起的擾動(dòng)或者突變,本文方法相對(duì)于傳統(tǒng)方法會(huì)在總體回聲抑制量上表現(xiàn)出顯著優(yōu)勢(shì)。另外在非正式的主觀測(cè)聽(tīng)中,本文注意到由于本文方法較快的收斂速度和自適應(yīng)的隨機(jī)幅度譜最小值約束,殘余回聲通常較白,因而也相對(duì)不容易被聽(tīng)覺(jué)感知。
表2 “雙講”時(shí)的ERLE(dB)
表3 “雙講”時(shí)的LSD(dB)
表4 “雙講”時(shí)的STOI
針對(duì)聲學(xué)回聲控制應(yīng)用中,作為回聲的語(yǔ)音信號(hào)非白,以及實(shí)際聲學(xué)環(huán)境中常見(jiàn)的回聲路徑較長(zhǎng)且往往不能確保持續(xù)穩(wěn)定的特點(diǎn),本文提出了一種將逐級(jí)回歸分析方法在頻域處理框架下應(yīng)用于聲學(xué)回聲控制問(wèn)題的算法。分級(jí)的加權(quán)最小二乘估計(jì)確保了算法的快速收斂和抗近端非平穩(wěn)干擾的穩(wěn)健特性。同時(shí)在不同近端噪聲水平下的實(shí)驗(yàn)表明,本文的算法在常見(jiàn)噪聲水平下的語(yǔ)音應(yīng)用中,能夠獲得很好的模型近似,估計(jì)偏差較小。與一個(gè)公開(kāi)的PBFDAF結(jié)合自適應(yīng)控制的算法實(shí)現(xiàn)的對(duì)比實(shí)驗(yàn)顯示,在存在系統(tǒng)突變的環(huán)境下,本文方法在總體回聲抑制量上顯示出明顯的優(yōu)勢(shì),同時(shí)在雙講時(shí)很好地保持了近端語(yǔ)音質(zhì)量。進(jìn)一步的研究可以考慮針對(duì)具體應(yīng)用場(chǎng)景的特點(diǎn),在建模誤差和估計(jì)偏差以及方差之間取得更適當(dāng)?shù)钠胶狻?/p>
[1] Sondhi M. An adaptive echo canceller[J]., 1967, 46(3): 497-511.
[2] Soo J S and Pang K K. Multidelay block frequency domain adaptive filter[J].,, 1990, 38(2): 373-376.
[3] Valin J M. On adjusting the learning rate in frequency domain echo cancellation with double-talk[J]., 2007, 15(3): 1030-1034.
[4] Gupta V K, Chandra M, and Sharan S N. Acoustic echo and noise cancellation system for hand-free telecommunication using variable step size algorithms[J]., 2013, 22(1): 200-207.
[5] Mayyas K. A variable step-size selective partial update LMS algorithm[J]., 2012, 23(1): 75-85.
[6] 張琦, 王霞, 王磊, 等. 自適應(yīng)回波抵消中變步長(zhǎng) NLMS 算法[J]. 數(shù)據(jù)采集與處理, 2013, 28(1): 64-68.
Zhang Qi, Wang Xia, Wang Lei,..Variable step-size NLMS algorithm in echo cancellation[J].&, 2013, 28(1): 64-68.
[7] Gansler T, Hansson M, Ivarsson C J. A double-talk detector based on coherence[J]., 1996, 44(11): 1421-1427.
[8] Tashev I J. Coherence based double talk detector with soft decision[C]. IEEE International Conference on Acoustics, Speech and Signal Processing, Kyoto, Japan, 2012: 165-168.
[9] Benesty J, Morgan D, and Cho J H. A new class of doubletalk detectors based on cross-correlation[J]., 2000, 8(2): 168-172.
[10] Schuldt C, Lindstrom F, and Claesson I. A delay-based double-talk detector[J]., 2012, 20(6): 1725-1733.
[11] Avendano C. Acoustic echo suppression in the STFT domain[C]. 2001 IEEE Workshop on the Applications of Signal Processing to Audio and Acoustics,New Platz, NY, USA,2001: 175-178.
[12] Faller C and Chen Jing-dong. Suppressing acoustic echo in a spectral envelope space[J]., 2005, 13(5): 1048-1062.
[13] Wada T S and Juang B H. Enhancement of residual echo for robust acoustic echo cancellation[J]., 2012, 20(1): 175-189.
[14] Shrawankar U and Thakare V M. Acoustic echo cancellation postfilter design issues for speech recognition system[J]., 2011, 1(5): 38-43.
[15] Gustafsson S, Martin R, and Vary P. Combined acoustic echo control and noise reduction for hands-free telephony[J]., 1998, 64(1): 21-32.
[16] Enzner G, Martin R, and Vary P. Partitioned residual echo power estimation for frequency-domain acoustic echo cancellation and postfiltering[J]., 2002, 13(2): 103-114.
[17] Draper N R and Smith H. Applied Regression Analysis[M]. New York: Wiley Series in Probability and Mathematical Statistics, 1981: 337-341.
[18] Jonathan Rouach:Ported Speex AEC mdf algorithm from C to Matlab[OL]. https://github.com/wavesaudio/Speex-AEC- matlab. 2014.01.
[19] Doblinger G. Computationally efficient speech enhancement by spectral minima tracking in subbands[C]. Proceedings of EUROSPEECH, Madrid, Spain, 1995: 1513-1516.
[20] Cohen I. Analysis of two-channel generalized sidelobe canceller (GSC) with post-filtering[J]., 2003, 11(6): 684-699.
姜開(kāi)宇: 男,1986年生,博士生,研究方向?yàn)檎Z(yǔ)音信號(hào)處理、陣列信號(hào)處理.
吳 超: 男,1988年生,博士生,研究方向?yàn)檎Z(yǔ)音信號(hào)處理.
國(guó)雁萌: 女,1976年生,副研究員,研究方向?yàn)檎Z(yǔ)音信號(hào)處理、傳聲器陣列、語(yǔ)音識(shí)別.
付 強(qiáng): 男,1972年生,研究員,研究方向?yàn)檎Z(yǔ)音信號(hào)處理、傳聲器陣列.
顏永紅: 男,1967年生,研究員,研究方向?yàn)檎Z(yǔ)音識(shí)別、語(yǔ)音搜索、機(jī)器學(xué)習(xí)、模式識(shí)別.
Acoustic Echo Control Based on Frequency-domain Stage-wise Regression
Jiang Kai-yu Wu Chao Guo Yan-meng Fu Qiang Yan Yong-hong
(,,100190,)(,,100190,)
Traditional echo control techniques as Partitioned Block Frequency Domain Adaptive Filter (PBFDAF) with stochastic gradient adaptive method usually endure slow convergence and insufficient echo suppression in reverberant room when the echo is speech and the echo path is unstable. An algorithm based on frequency domain stage-wise regression is proposed for acoustic echo control to achieve faster convergence of the system estimation with insignificant bias. Commonly used additional double-talk detector and inter-channel coherence based residual echo suppressor are not needed since short-time coherence analysis is performed in each stage. By further making mild assumptions on the quasi-stationarity of the near-end background noise, both fast convergence and stability of the estimation can be achieved simultaneously with a non-stationarity controlled smoothing factor. Experiments are carried out to show the superiority of the proposed approach in terms of convergence speed and steady state error in distant talking mode in ordinary room environment with various common levels of background noise.
Speech signal processing; Acoustic echo control; Stage-wise regression; Acoustic echo cancellation; Acoustic echo suppression
TN912.3
A
1009-5896(2014)12-2896-06
10.3724/SP.J.1146.2014.00131
姜開(kāi)宇 jiangkaiyu@hccl.ioa.ac.cn
2014-01-20收到,2014-04-18改回
國(guó)家自然科學(xué)基金(10925419, 90920302, 61072124, 11074275, 11161140319)和中國(guó)科學(xué)院戰(zhàn)略性先導(dǎo)科技專項(xiàng)(XDA06030100)資助課題