張毅 顏博 王可佳
混響環(huán)境下基于倒譜BRIR的雙耳互相關(guān)聲源定位算法
張毅1顏博2王可佳2
在實際封閉環(huán)境中,針對存在混響而導致聲源定位性能下降的問題,提出一種基于倒譜雙耳房間脈沖響應(Binaural room impulse response,BRIR)的雙耳互相關(guān)聲源定位方法.該方法通過從倒譜BRIR中減去混響分量,然后反變換到時域得到估計的脈沖響應,再與數(shù)據(jù)庫中的頭部脈沖響應(Head related impulse response,HRIR)進行互相關(guān)運算,最大互相關(guān)值相對應的位置就是所估計的聲源位置.仿真實驗結(jié)果表明,提出的算法能減少混響環(huán)境中帶來的定位誤差,提高聲源定位的精度.
聲源定位,雙耳互相關(guān),倒譜,魯棒性
引用格式張毅,顏博,王可佳.混響環(huán)境下基于倒譜BRIR的雙耳互相關(guān)聲源定位算法.自動化學報,2016,42(10): 1562-1569
混響環(huán)境下的聲源定位技術(shù)在很多領(lǐng)域有著廣泛并且極其重要的應用,例如,在室內(nèi)服務機器人或者視頻會議系統(tǒng)中,語音識別、語音增強和助聽器裝置等方面的應用.
在各種復雜環(huán)境下,人耳都能精確地進行聲源定位.這一事實表明可以通過模仿人耳聽覺系統(tǒng)的機制,實現(xiàn)有效的人工雙耳聲源定位[1-2].基于生理科學以及物理科學的研究都表明,聽覺定位中的全部線索形成于聲波從聲源到鼓膜之間的傳遞過程之中[3].主要的定位線索是聲波到達雙耳時的時間差(Interaural time difference,ITD)、強度差(Interaural level difference,ILD)以及聲波中包含的頻率成分[4-5],這些要素可以統(tǒng)一用頭部相關(guān)傳遞函數(shù)(Head related transfer function,HRTF)來描述.定位所包含的信息形成是在耳膜以前完成的,因而HRTF包含了所有物理上的定位信息[6].頭部脈沖響應(Head related impulse response,HRIR)是HRTF的時域表示.混響環(huán)境下,雙耳房間脈沖響應(Binaural room impulse response,BRIR)是通過HRIR與房間脈沖響應(Room impulse response,RIR)卷積獲取,表示從聲源到左右耳接收信號的脈沖響應.目前有很多定位算法都是通過最大化雙耳互相關(guān)值[7],或者是ITD/ILD估計來確定聲源的位置[8-9].雖然這些方法在無干擾環(huán)境下有很好的定位效果,但是在混響環(huán)境下的定位性能急劇下降[10-12].等[13]提出在提取ITD前采用倒譜預濾波方法,有效地減少了混響對聲源定位的影響.該算法對接收信號進行最小相位分解消去混響分量[14],提高了雙耳聲源定位方法對混響的魯棒性.Mosayyebpour等[15]在的基礎上改進了廣義互相關(guān)算法提取ITD.然而,接收信號的倒譜參數(shù)主要體現(xiàn)語音的基音和共振峰特性,大多用于語音識別中,并不能反映HRTF方位信息的特征[16],而且在倒譜域中會丟失相位信息,以致丟失ITD的信息,造成聲源定位誤差.
本文提出了一種基于倒譜BRIR的雙耳互相關(guān)聲源定位算法.仿真實驗證明,該算法在混響環(huán)境下具有更好的定位效果.
在混響環(huán)境下,左右耳接收到的信號在離散時間域表示為
式中,hi(n)為雙耳房間脈沖響應,包含了所有的混響成分,s(n)表示聲源信號,ni(n)表示加性噪聲,通常為一個與源信號不相關(guān)的、零均值的平穩(wěn)高斯隨機噪聲.
離散信號x(n)的倒譜形式表示為
式中,X(W)為x(n)的傅里葉變換,F(xiàn)-1{·}為反傅里葉變換,log是對數(shù)運算,k是倒譜域變量.在時域中,信號的卷積在倒譜域相當于信號相加.
式中,Ni(W),Hi(W)和S(W)分別為ni(n),hi(n)和s(n)的傅里葉變換.為后文分析方便,假設背景噪聲足夠低,忽略噪聲的影響.但在評價定位性能時包括噪聲的影響.
倒譜濾波是在每一幀的基礎上進行的,假設聲源信號的倒譜MPC是在幀與幀之間變化的,而且均值為零.信道倒譜MPC是緩慢變化的,可以通過時間平均獲取.
為了避免倒譜法的不足以及接收信號倒譜對定位的作用,并且充分體現(xiàn)HRTF中的定位信息,本文在文獻[13]中算法的基礎上提出基于倒譜BRIR的雙耳互相關(guān)聲源定位算法.
3.1倒譜BRIR互相關(guān)法
基于倒譜BRIR的雙耳互相關(guān)聲源定位的基本步驟為:
步驟1.在接收信號xl(n)和xr(n)的每一幀上加上指數(shù)窗ω(n)=αn,0≤n≤K-1,其中K是窗長,0<α≤1;
步驟2.對各信號進行倒譜處理,并計算倒譜域接收信號和BRIR的最小相位分量
其中,0<μ<1,m表示幀數(shù).
步驟4.從倒譜BRIR中減去混響分量,得到去混后的倒譜BRIR,即
步驟6.設置適當?shù)幕ハ嚓P(guān)閾值,其中最大互相關(guān)值相對應的方位角即為所求.
3.2倒譜BRIR互相關(guān)方位角估計
為了得到有效的倒譜預處理效果,在倒譜預處理前,為將X(W)的零極點移動到單位圓內(nèi),在每一幀上加上一個指數(shù)窗函數(shù).指數(shù)窗的目的是盡可能地集中最小相位分量,以便盡可能多地減去混響分量,減少混響對聲源定位的影響.針對算法中接收信號的倒譜參數(shù)并不能反映HRTF方位信息的特征的問題,在基于倒譜BRIR的互相關(guān)定位算法中得到后,反變換到時域hei(n),與數(shù)據(jù)庫中選擇的HRIR hi(n,θ)進行互相關(guān)運算.
其中,n∈{na,···,nb},⊕為互相關(guān)運算符號,因此聲源方位角為
考慮到噪聲的影響,選擇閾值來確定頻譜的峰值及相關(guān)聲源位置.
本研究描述的系統(tǒng)直接引用CIPIC數(shù)據(jù)庫中subject003仰角為0時的各個方位角的HRTF數(shù)據(jù)庫,其中采樣率為44.1kHz.使用PASCAL CHiME Speech Separation and Recognition Challenge的語音信號建立語音庫,采樣率為16kHz,16bit的信號.雙耳信號則為源信號與RIR和HRIR相卷積所得.
經(jīng)驗值數(shù)據(jù)如下:μ=0.08,α的取值取決于窗長K的值,K=1024,同時相對應的經(jīng)驗值α=0.994.本實驗分別在混響時間RT為0s,0.30s,0.50s,0.70s,0.90s的混響環(huán)境下,同時在信噪比(Signal noise ratio,SNR)為20dB的環(huán)境下進行仿真實驗.圖1~5是在不同混響時間下,三種聲源定位算法在方位角15°時的定位效果比較.其中,圖(a)表示的是文獻[13]倒譜濾波后基于互相關(guān)時延估計定位法(CEP-CC-ITD),圖(b)表示的是文獻[15]倒譜濾波后基于廣義互相關(guān)時延估計定位法(CEP-GCC-ITD),圖(c)表示基于倒譜BRIR的雙耳互相關(guān)聲源定位法(CEP-BRIR-CC).橫坐標表示方位角,縱坐標表示時間,灰度深淺表示歸一化互相關(guān)值的大小.0°表示聲源在正前方,正角度表示聲源在右邊,負角度表示聲源在左邊.
圖1 RT=0s時,三種算法對方位角15°定位Fig.1 Three algorithms for positioning the azimuth 15° when RT=0s
從圖1~5可以看出,在不同混響時間下,CEPBRIR-CC聲源定位法較CEP-CC-ITD和CEPGCC-ITD聲源定位法的圖像能更突出地顯示出方位角的位置.此外,隨著混響時間的增大,圖像顯示越來越模糊,定位精度有所降低,但CEP-BRIR-CC聲源定位法的圖像依然比較穩(wěn)定,具有一定的魯棒性.這是由于CEP-BRIR-CC聲源定位法的互相關(guān)運算是比較兩個脈沖響應的相似性,克服了倒譜法中丟失ITD的缺點,穩(wěn)定性比較好,而且避開了接收信號倒譜對定位的作用,充分利用HRTF中的定位信息,提高了在混響環(huán)境中的定位性能.
圖2 RT=0.30s時,三種算法對方位角15°定位Fig.2 Three algorithms for positioning the azimuth 15° when RT=0.30s
圖3 RT=0.50s時,三種算法對方位角15°定位Fig.3 Three algorithms for positioning the azimuth 15° when RT=0.50s
圖6所示為聲源方位角15°時,混響時間分別為0s,0.30s,0.50s,0.70s,0.90s時,CEP-BRIRCC、CEP-CC-ITD和CEP-GCC-ITD聲源定位法的均方值誤差圖.從圖6可以看出,CEP-BRIR-CC聲源定位法的均方值誤差小于CEP-CC-ITD和CEP-GCC-ITD聲源定位法的均方值誤差,表明CEP-BRIR-CC聲源定位法估計的方位角與實際方位角的偏差更小,具有更好的定位精度.
表1是混響時間分別為0s,0.3s,0.5s,目標聲源在方位角為0°,10°,15°,20°,30°和35°時,CEP-BRIR-CC、CEP-GCC-ITD和CEP-CC-ITD聲源定位法的聲源方位估計和絕對定位誤差實驗數(shù)據(jù).由表1中可知,CEP-BRIR-CC聲源定位法在混響時間分別為0s,0.3s,0.5s時的絕對定位誤差平均值分別為0.165,0.842,1.17.CEP-GCC-ITD聲源定位法在混響時間分別為0s,0.3s,0.5s時的絕對定位誤差平均值分別為0.553,1.707,2.728.CEPCC-ITD聲源定位法在混響時間分別為0s,0.3s,0.5s時的絕對定位誤差平均值分別為0.78,1.94,3.385.
圖4 RT=0.70s時,三種算法對方位角15°定位Fig.4 Three algorithms for positioning the azimuth 15° when RT=0.70s
圖5 RT=0.90s時,三種算法對方位角15°定位Fig.5 Three algorithms for positioning the azimuth 15° when RT=0.90s
從表1可以看出,在不同混響環(huán)境下,兩種方法的定位絕對誤差隨著混響時間的增大而增大;在相同的混響環(huán)境下,CEP-BRIR-CC聲源定位法定位誤差相對較小.同時CEP-BRIR-CC聲源定位法估計的聲源方位角度的絕對誤差都在2°范圍以內(nèi).因為CEP-CC-ITD和CEP-GCC-ITD聲源定位法都涉及到接收信號的倒譜和時延估計的互相關(guān)計算,會對定位造成一定的影響.而CEP-BRIR-CC聲源定位法很好地避免了這些問題,具有更準確的定位精度和更好的魯棒性.
表1 在不同混響時間下三種定位方法的聲源方位估計Table 1 Sound source azimuth estimation of three location methods in different reverberation time
圖6 方位角為15°不同混響時間下的RMSE比較Fig.6 RMSE comparison of azimuth for 15°in different reverberation time
為驗證算法的實際性能,用兩個麥克風連接同一計算機采集語音進行場景測試.圖7為實驗環(huán)境示意圖.實驗房間大小為2.2m×2.2m×3m,兩個麥克風位置分別為(0.8,0.5,1.3)和(1.04,0.5,1.3),聲源位置距離兩麥克風連線中點1m,測試角度為-75°~75°,測試間隔為15°,聲源與麥克風在同一水平面上并且位于麥克風前方,此房間的混響時間大約0.3s.使用Adobe Audition進行語音采集,信號采樣率為16kHz/s.
實驗中對三種方法分別進行了多次測試,統(tǒng)計的平均結(jié)果如表2所示.從表2可以看出,CEPBRIR-CC、CEP-GCC-ITD和CEP-CC-ITD聲源定位法在實際場景中的平均定位誤差分別為4.38°,7.42°和8.72°.CEP-BRIR-CC定位法的定位誤差相對較小,能夠進行更準確的定位,這一結(jié)論與理論計算趨勢是一致的.與仿真結(jié)果相比,真實場景下各定位法的定位誤差都相對較大,這是由于測試并非是在純凈環(huán)境下進行的,實際環(huán)境中的信噪比問題有可能對實驗造成一定的影響.
表2 三種定位方法的統(tǒng)計結(jié)果Table 2 The statistical results of three localization methods
圖7 實驗環(huán)境示意圖Fig.7 Schematic diagram of experimental environment
本文研究了一種在混響環(huán)境中聲源定位方法,在仿真和真實場景中建立了一個完整的聲源定位系統(tǒng)模型.與CEP-GCC-ITD和CEP-CC-ITD聲源定位法相比,本文的CEP-BRIR-CC聲源定位法有較高的定位精度,且魯棒性較好.然而,如何在強混響環(huán)境下精確定位仍然是個難點.本文提出的方法雖然在混響環(huán)境下有一定的定位效果,但計算量比較大,還有很多可以改進的地方.同時該模型在如何進行運動聲源定位和多源定位以及三維定位方面仍需繼續(xù)探索研究.
References
1 Li H,Hong X.Binaural auditory localization of signals processed by speech enhancement methods.In:Proceedings of the 7th International Congress on Image and Signal Processing.Dalian,China:IEEE,2014.883-887
2 Wu X,Talagala D S,Zhang W,Abhayapala T D.Binaural localization of speech sources in 3-D using a composite feature vector of the HRTF.In:Proceedings of the 2015 IEEE International Conference on Acoustics,Speech and Signal Processing.South Brisbane,QLD:IEEE,2015.2654-2658
3 Zhou Hui-Yu.Dual-channel Stereo Virtual Retransmission Technology Research[Master dissertation],University of Electronic Science and Technology,China,2006.(周蕙瑜.雙通道立體聲的虛擬重發(fā)技術(shù)研究[碩士學位論文],電子科技大學,中國,2006.)
4 Portello A,Bustamante G,Dan`es P,Mifsud A.Localization of multiple sources from a binaural head in a known noisy environment.In:Proceedings of the 2014 IEEE/RSJ International Conference on Intelligent Robots and Systems. Chicago,USA:IEEE,2014.3168-3174
5 Liu H,Zhang J.A binaural sound source localization model based on time-delay compensation and interaural coherence. In:Proceedings of the 2014 IEEE International Conference on Acoustics,Speech,and Signal Processing.Florence,Italy: IEEE,2014.1424-1428
6 Bai Zhen-Hua.Study of HRTF in Auditory Localization[Master dissertation],Southeast University,China,2003.(白振華.聽覺定位中HRTF的研究[碩士學位論文],東南大學,中國,2003.)
7 Luo Yuan,Chen Kai,Zhang Yi.A sound source localisation algorithm based on the combination of auditory masking and binaural cross-correlation.Computer Applications and Software,2015,32(3):141-144(羅元,陳凱,張毅.一種結(jié)合聽覺掩蔽與雙耳互相關(guān)的聲源定位算法.計算機應用與軟件,2015,32(3):141-144)
8 Raspaud M,Viste H,Evangelista G.Binaural source localization by joint estimation of ILD and ITD.IEEE Transactions on Audio,Speech,and Language Processing,2010,18(1):68-77
9 Wu Yu-Xiu,Meng Qing-Hao,Zeng Ming.Sound based relative localization for distributed multi-robot systems.Acta Automatica Sinica,2014,40(5):798-809(吳玉秀,孟慶浩,曾明.基于聲音的分布式多機器人相對定位.自動化學報,2014,40(5):798-809)
10 Zannini C M,Parisi R,Uncini A.Binaural sound source localization in the presence of reverberation.In:Proceedings of the 17th International Conference on Digital Signal Processing.Corfu,Greece:IEEE,2011.1-6
11 Woodruff J,Wang D L.Binaural localization of multiple sources in reverberant and noisy environments.IEEE Transactions on Audio,Speech,and Language Processing,2012,20(5):1503-1512
12 Barker J,Vincent E,Ma N,Christensen H,Green P.The PASCAL CHiME speech separation and recognition challenge.Computer Speech and Language,2013,27(3):621-633
13 St`ephenne A,Champagne B.A new cepstral prefiltering technique for estimating time delay under reverberant conditions.Signal Processing,1997,59(3):253-266
14 Qu Dan,Yang Xu-Kui,Zhang Wen-Lin.Feature space eigenvoice speaker adaptation.Acta Automatica Sinica,2015,41(7):1244-1252(屈丹,楊緒魁,張文林.特征空間本征音說話人自適應.自動化學報,2015,41(7):1244-1252)
15 Mosayyebpour S,Lohrasbipeydeh H,Esmaeili M,Gulliver T A.Time delay estimation via minimum-phase and all-pass component processing.In:Proceedings of the 2013 IEEE International Conference on Acoustics,Speech,and Signal Processing.Vancouver,BC:IEEE,2013.4285-4289
16 Ma Hao,Wu Zhen-Yang,Zhang Jie,Hu Hong-Mei.Binaural character extraction and clustering of head related transfer function.Journal of Circuits and Systems,2007,12(5):58-64(馬浩,吳鎮(zhèn)揚,張杰,胡紅梅.與頭相關(guān)傳遞函數(shù)的雙耳特征提取與分類.電路與系統(tǒng)學報,2007,12(5):58-64)
張 毅重慶郵電大學先進制造工程學院教授.主要研究方向為機器人及應用,語音信號處理,聲源定位.
E-mail:zhangyi@cqupt.edu.cn
(ZHANGYiProfessoratthe School of Advanced Manufacturing Engineering,ChongqingUniversityof Posts and Telecommunications.His research interest covers robot and its applications,speech signal processing,and sound source localization.)
顏 博重慶郵電大學自動化學院碩士研究生.主要研究方向為語音信號處理,聲源定位.本文通信作者.
E-mail:yanbo19921102@sina.com
(YAN BoMaster student at the School of Automation,Chongqing University of Posts and Telecommunications.Her research interest covers speech signal processing and sound source localization. Corresponding author of this paper.)
王可佳重慶郵電大學自動化學院碩士研究生.主要研究方向為語音信號處理,語音識別,聲紋識別.
E-mail:qw.123woaini@foxmail.com
(WANG Ke-JiaMaster student at the School of Automation,Chongqing University of Posts and Telecommunications.Her research interest covers processing of speech signal,speech recognition,and voiceprint recognition.)
Sound Source Localization Algorithm Based on Cepstral BRIR Binaural Cross-correlation in Reverberant Environment
ZHANG Yi1YAN Bo2WANG Ke-Jia2
In an actual closed environment,for the presence of reverberation causes sound source localization performance degradation,a sound source localization algorithm based on a cepstral binaural room impulse response(BRIR)binaural cross-correlation is proposed.The method is based on subtracting the reverberation component from the BRIR,and the estimated time domain impulse response is derived from the cepstral BRIR inverse transformation.Then by performing cross-correlation operation with the database HRIR(head related impulse response),the maximum cross-correlation value corresponds to the position corresponding to the estimated location of the sound source.Simulation results show that the proposed algorithm can reduce positioning errors caused by reverberation environment,and improve sound localization accuracy.
Sound source localization,binaural cross-correlation,cepstral,robustness
Manuscript December 9,2015;accepted May 17,2016
10.16383/j.aas.2016.c150828
Zhang Yi,Yan Bo,Wang Ke-Jia.Sound source localization algorithm based on cepstral BRIR binaural cross-correlation in reverberant environment.Acta Automatica Sinica,2016,42(10):1562-1569
2015-12-09錄用日期2016-05-17
重慶市科學技術(shù)委員會項目(cstc2015jcyjBX0066)資助
Supported by Chongqing Science and Technology Commission Project(cstc2015jcyjBX0066)
本文責任編委謝永芳
Recommended by Associate Editor XIE Yong-Fang
1.重慶郵電大學先進制造工程學院 重慶 4000652.重慶郵電大學自動化學院重慶400065
1.School of Advanced Manufacturing Engineering,Chongqing University of Posts and Telecommunications,Chongqing 400065 2.School of Automation,Chongqing University of Posts and Telecommunications,Chongqing 400065