陳長海
(福州瑞芯微電子股份有限公司,福建 福州 350003)
一種結合直達聲補償策略的混響抑制算法
陳長海
(福州瑞芯微電子股份有限公司,福建 福州350003)
混響是聲音經過室內墻壁等物體反射、吸收后多徑傳播疊加產生的,是導致語音識別系統性能下降的主要因素之一?;赥F-GSC的混響消除算法在估計混響功率譜時可能會出現過估計的現象,導致輸出語音失真。提出一種直達聲補償策略,并將其應用到混響抑制算法中去。實驗結果表明,直達聲補償策略減小了輸出語音失真,提高了輸出語音質量。
混響;TF-GSC;直達聲補償;混響功率譜估計
隨著人工智能技術研究與應用的興起,越來越多的產品可以實現人機交互,人們可以通過語音控制機器執(zhí)行一些操作。例如智能電視,用戶可以通過語音控制換臺、音量的調整,甚至可以利用智能電視進行一些社交活動[1]。實時語音識別系統是實現人機交互的橋梁[2],隨著人機交互應用場景的復雜化,對語音識別系統性能的要求也越來越高。
室內麥克風采集到的語音信號通常包含噪聲和混響,使得語音信號的保真度和清晰度下降,從而導致實時語音識別系統性能的降低。其中,混響是聲音經過室內墻壁等物體反射、吸收后,由多徑傳播產生的。麥克風接收到的語音信號在時序上可以分為三個部分:直達聲、早期反射聲、后期混響聲。后期混響會掩蓋弱語音部分,影響語音的清晰度[3-4]。為了提高語音識別系統的性能,必須抑制后期混響?,F有的混響處理算法可以分為兩大類:混響消除和混響抑制[5]?;祉懴乃悸肥菍Ψ块g聲學系統求逆,因此需要對房間聲學系統進行估計,計算量較大;混響抑制算法利用譜增強策略來抑制語音中的混響,避免了房間聲學系統估計這一難題。
本文提出了一種直達聲補償策略,并將其應用到基于TF-GSC的混響消除算法中,從而改善算法的性能。
房間混響信號是由聲源信號s(n)和房間聲學沖激響應函數h(n)卷積產生的。h(n)可分為三個部分:直達路徑、前期反射和后期反射,如圖1所示。
圖1 房間沖激響應示意
混響時間為400 ms的某一房間的房間沖激響應如圖2所示。
圖2 混響時間為400 ms的房間沖激響應
對于第i路麥克風在某離散時間n時的混響信號可以表示為:
(1)
因此,第i路麥克風接收到的信號可以表示為:
xi(n)=zi(n)+vi(n)
(2)
其中vi(n)表示背景噪聲。
對輸入的陣列語音信號加窗分幀(每幀長度在30 ms以內)后,通過短時傅里葉變換[6]由時域變換到頻域,式(2)的頻域表示如下:
Xi(m,k)=Zi(m,k)+Vi(m,k)
=Di(m,k)+Ri(m,k)+Vi(m,k)
(3)
其中m表示幀索引,k表示頻率索引,Di和Ri分別表示第i路麥克風輸入信號中的直達聲(包括直達聲和早期反射,為了簡化統稱直達聲)和后期混響聲。混響消除算法的目的是盡可能地去除Ri(m,k)。
HABETS E[7]等人提出了一種基于TF-GSC的噪聲和混響消除算法,算法的原理圖如圖3所示(以4麥克風為例)。
圖3 基于TF-GSC的混響抑制算法框圖
由圖3可知,算法主要包含四個部分,分別是TF-GSC、噪聲功率譜估計[8]、混響功率譜估計以及后置單通道濾波器。
基于傳輸函數的廣義旁瓣抵消器(TF-GSC)是廣義旁瓣抵消器的改進形式,其結構理論上可以處理任何的聲學傳輸函數,適合混響等復雜條件下陣列語音信號的處理[9]。其基本結構如圖3虛線框中部分所示。它主要由非自適應部分和自適應部分組成,非自適應部分主要是一個固定波束形成器,自適應部分由一個阻塞矩陣和一個自適應濾波器組成。
對輸入陣列信號進行時延補償[10],使得各路輸入信號中的期望信號時域同步,加窗分幀后通過短時傅里葉變換由時域轉換到頻域。傳輸函數比(Transfer Function Ratio)矢量如下:
(4)
其中Ai(k)表示聲源到第i路麥克風的傳輸函數的頻域形式。
固定波束形成器的系數矩陣為:
(5)
阻塞矩陣B相當于一個空域濾波器,目的是阻塞期望方向上的信號,留下非期望方向的干擾信號組合;TF-GSC的阻塞矩陣的頻域形式如下:
(6)
其中*表示共軛。
實際環(huán)境中的Ai(k)是未知的,因此傳輸函數比也是未知的,需要對其進行估計,通常是利用信號之間互功率譜密度的來進行求解,如式(7)所示。
(7)
其中Φxix1表示第i路麥克風的輸入與第1路麥克風的輸入之間的互功率譜密度,〈 〉表示幀平均。
自適應濾波部分采用的是自適應LMS算法,自適應濾波器的系數矩陣G計算如下:
G(m+1,k)=G(m,k)+μU(m,k)Y*(m,k)
(8)
U(k,m)=B?(k)X(m,k)
(9)
其中μ表示LMS算法的步長,U(k,m)表示阻塞矩陣的輸出,?表示共軛轉置,*表示共軛,XT(m,k)表示輸入:
XT(m,k)=[X1(m,k),X2(m,k),X2(m,k),X4(m,k)]
(10)
最終的輸出:
Y(m,k)=W?(k)X(m,k)-G?(m,k)U(k,m)
(11)
Habets算法估計后期混響采用的是Polack混響統計模型,這種隨機模型對大部分的聲學環(huán)境的模擬都是相當精準的。KUTTRUF H[11]認為只有當聲源到麥克風的距離大于臨界距離時,Polack混響統計模型才有效,這里的臨界距離是指此距離上的直達聲能量與前期和后期反射的能量相等。這也就意味著當直達聲的能量小于前期和后期反射信號的能量時,Polack模型才有效。實際處理過程中,某些幀的語音信號可能不滿足臨界條件,導致后期混響功率譜出現過估計,造成輸出信號的譜失真,如圖4所示。
圖4 Habets算法輸入輸出語譜圖對比
利用Polack混響模型估計后期混響時可能會出現過估計的現象[7]。輸入陣列語音包含直達聲(包含早期反射)、后期混響以及外界噪聲,假設噪聲的估計準確,則剩下的直達聲和后期混響的總功率譜密度是定值,后期混響的過估計會導致直達聲的估計出現偏差,導致系統的輸出結果出現失真現象。本文提出了一種直達聲補償策略,引入動態(tài)變量κi(m)利用下面的式子來估計混響聲(包括直達聲和后期混響,即輸入信號去掉噪聲后的剩余部分):
(12)
其中κi(m)表示第i路麥克風的第m幀的直達聲補償系數,這個系數與直達聲和后期混響的能量有關。
(13)
直達聲補償系數κi(m)的更新滿足以下策略:
因此,κi(m)的值的更新可以根據下面的式子進行自動調整:
(14)
其中μk表示步長,且滿足0<μk<1。
利用基于TF-GSC的混響抑制算法去除混響時,利用本文提出的直達聲補償策略估計混響功率譜,可以防止混響功率譜出現過估計。
本次仿真實驗采用間距為10 cm的線性麥克風陣列,麥克風數目為4,房間大小為4 m×5 m×3.5 m,聲源到麥克風陣列的距離設置成3種情況:1.5 m、2 m和2.5 m,墻壁的吸聲系數設置為[0.8,0.8,0.8,0.8,0.7,0.4]。純凈聲源取自TIMIT標準語音庫,采樣頻率為16 kHz,長度為3.5 s,語音信號的內容為:She had your dark suit in greasy wash water all year。利用Eric A. Lehmann編寫的Image-source method 工具箱來獲取仿真混響語音信號。
仿真房間沖激響應曲線圖和純凈源語音的波形圖以及語譜圖如圖5和圖6所示。
圖5 仿真實驗環(huán)境房間沖激響應
圖6 純凈語音的波形圖和語譜圖
混響程度不同的幾組仿真語音波形圖和語譜圖分別如圖7和圖8所示。
圖7 混響時間分別為0.4 s、0.8 s以及1.2 s的混響語音信號與純凈語音信號波形對比
圖8 混響時間分別為0.4 s、0.8 s以及1.2 s的混響語音信號與純凈語音信號語譜圖對比
由圖7和圖8可以發(fā)現,混響會導致語音中聲音的間隔變得模糊,導致語音的質量嚴重下降。
為了驗證本文提出的直達聲補償策略的有效性,分別用沒有結合直達聲補償策略的基于TF-GSC的混響消除算法和結合直達聲補償策略的基于TF-GSC的混響消除算法對混響語音進行處理,混響時間為0.4 s的混響語音經過兩種算法處理后的波形圖和語譜圖如圖9和10所示。
圖9 直達聲補償策略應用前后波形圖對比
圖10 直達聲補償策略應用前后語譜圖對比
觀察圖9和圖10可以發(fā)現,基于TF-GSC的混響抑制算法結合直達聲補償策略后,輸出語音失真減小,圖9虛線方框選中部分十分明顯,由此可以證明本文提出的直達聲補償策略是有效的。
傳統的基于TF-GSC的混響抑制算法需要估計混響的功率譜,有時會出現過估計的現象。本文提出一種直達聲補償策略,并將其應用到混響抑制算法中去。經實驗驗證,本文提出的直達聲補償策略能夠防止混響功率譜出現過估計,減小算法輸出的失真。該策略適用于語音識別系統的前端處理模塊,能夠很好地對輸入語音進行預處理。
[1] 袁洪,鄧忠平. 智能電視發(fā)展趨勢與挑戰(zhàn)[J].網絡新媒體技術,2012,1(1):4-9.
[2] 謝凌云. 實時語音識別系統的快速算法研究[D].北京:中國科學院聲學研究所,2004.
[3] 栗曉麗,徐柏齡. 混響聲場中語音識別方法研究[J]. 南京大學學報(自然科學),2003,39(4):525-531.
[4] OMOLOGO M,SVAIZER P,MATASSONI M. Environmental conditions and acoustic transduction in hands-free speech recognition[J]. Speech Communication,1998,25(1-3):75-95.
[5] MCAULAY R,MALPASS M. Speech enhancement using a soft-decision noise suppression filter[J]. IEEE Transactions on Acoustics Speech & Signal Processing,1980,28(2):137-145.
[7] HABETS E. Single and multi-microphone speech dereverberation using spectral enhancement[D]. Technische Universiteitndhoven,2007.
[6] 朱冰蓮,楊磊. 心音信號的短時傅立葉變換分析[J]. 重慶大學學報(自然科學版),2004,27(8):83-85.
[8] COHEN I. Noise spectrum estimation in adverse environments: improved minima controlled recursive averaging[J]. IEEE Transactions on Speech & Audio Processing,2003,11(5):466-475.
[9] EPHRAIM Y,MALAH D. Speech enhancement using a minimum-mean square error short-time spectral amplitude estimator[J]. IEEE Transactions on Acoustics Speech & Signal Processing,1985,33(2):443-445.
[10] 崔瑋瑋,曹志剛,魏建強.聲源定位中的時延估計技術[J]. 數據采集與處理,2007,22(1):90-99.
[11] KUTTRUFF H. Room acoustics[M]. Spon Press,London,Taylor & Francis,2000.
A speech dereverberation algorithm with the combination of direct path strategy
Chen Changhai
(Fuzhou RockChip Electronics Co.,Ltd.,Fuzhou 350003,China)
The reverberation is generated when the speech signal is reflected and absorbed by wall and other objects,and is superimposed by multipath propagation,which is one of the main reasons that degrade the performance of speech recognition systems. The dereverberation algorithm based on TF-GSC may lead to excessive estimation of reverberation power spectrum,resulting in the distortion of output. In this paper,a direct path compensation strategy is proposed and applied to the dereverberation algorithm. The experimental results show that the direct path compensation strategy reduces the output speech distortion and improves the quality of output speech.
reverberation; TF-GSC; direct path compensation; reverberation power spectrum
TP312
A
10.19358/j.issn.1674-7720.2017.24.010
陳長海.一種結合直達聲補償策略的混響抑制算法J.微型機與應用,2017,36(24):32-36.
2017-06-23)
陳長海(1984-),男,碩士研究生,主要研究方向:智能音頻和智能車載產品。