王 永,王青云
(1.徐州工業(yè)職業(yè)技術(shù)學(xué)院信息與電氣工程學(xué)院,江蘇 徐州 221140;2.南京工程學(xué)院通信工程學(xué)院,南京 211167)
一種基于四元十字麥克風(fēng)陣的聲源定位算法*
王 永1*,王青云2
(1.徐州工業(yè)職業(yè)技術(shù)學(xué)院信息與電氣工程學(xué)院,江蘇 徐州 221140;2.南京工程學(xué)院通信工程學(xué)院,南京 211167)
實(shí)現(xiàn)了一種基于四元十字麥克風(fēng)陣列的聲源定位系統(tǒng)。選取四元十字陣作為麥克風(fēng)陣列的陣型,推導(dǎo)了基于四元十字麥克風(fēng)陣列的聲源定位算法的公式。針對傳統(tǒng)互相關(guān)時(shí)延估計(jì)算法在低信噪比、混響大的環(huán)境下魯棒性較差的問題,系統(tǒng)采用廣義互相關(guān)算法來進(jìn)行定位的時(shí)延估計(jì),并使用Cortex-A8嵌入式平臺實(shí)現(xiàn)了魯棒的聲源定位系統(tǒng)。
麥克風(fēng)陣列;聲源定位;嵌入式系統(tǒng)
麥克風(fēng)是最簡單的語音信號采集設(shè)備,是語音信號處理系統(tǒng)的入口。隨著技術(shù)的發(fā)展以及人們的需求日益增長,單個(gè)麥克風(fēng)已經(jīng)不能滿足現(xiàn)代語音信號處理系統(tǒng)的需求[1]。如果改變聲源位置,就需要重新選擇麥克風(fēng)的位置,以拾取較高質(zhì)量的信號;環(huán)境中的噪聲和混響都會大大降低單麥克風(fēng)采集信號的質(zhì)量,影響處理的效果。因此,用多個(gè)麥克風(fēng)組成的陣列來處理語音信號的技術(shù)[2]3]受到了人們的廣泛關(guān)注與重視。目前,麥克風(fēng)陣列主要應(yīng)用于遠(yuǎn)程電話會議[4-5]、語音識別[6-7]、機(jī)器人聽覺[8]、汽車環(huán)境中語音拾取[9-10]、回響環(huán)境中聲音拾取[11-12]、大房間中的會議錄音[13]和助聽設(shè)備[14]等。
聲源定位技術(shù)在基于麥克風(fēng)陣列的語音信號處理中處于核心地位。其不但可以提供位置信息,而且對基于麥克風(fēng)陣列的語音增強(qiáng)技術(shù)具有重要的作用。此外,利用聲源定位技術(shù),還可以改善基本的盲源分離技術(shù)在聲音混迭的環(huán)境的性能,解決語音信號的重構(gòu)問題,顯著改善恢復(fù)的語音信號的質(zhì)量。聲源定位是多年來國內(nèi)外研究的重點(diǎn)課題,剛開始是應(yīng)用在軍事上,但隨著時(shí)代的發(fā)展,聲源定位技術(shù)也逐漸地應(yīng)用到了日常生活當(dāng)中,比如機(jī)器人眼追蹤[15],視頻會議系統(tǒng)通過定位發(fā)言者的位置,自動將攝像頭對準(zhǔn)發(fā)言者等?;邴溈孙L(fēng)陣列的聲源定位技術(shù)已經(jīng)成為一大研究熱點(diǎn),對其開展研究具有很強(qiáng)的理論意義和實(shí)踐價(jià)值[16]?,F(xiàn)有的大部分定位系統(tǒng)使用的算法的計(jì)算量較大,實(shí)時(shí)性較差,不能滿足實(shí)時(shí)性要求高的場合。所以提高聲源定位的實(shí)時(shí)性,對于提高基于麥克風(fēng)陣列的語音信號處理的響應(yīng)速度具有非常重要的意義。本文提出了一種基于廣義互相關(guān)時(shí)延估計(jì)的四元十字陣實(shí)時(shí)聲源定位算法,并使用Cortex-A8嵌入式平臺實(shí)現(xiàn)了這個(gè)聲源定位系統(tǒng)。仿真實(shí)驗(yàn)表明,提出的算法的魯棒性優(yōu)于傳統(tǒng)互相關(guān)法的聲源定位算法。
聲源定位系統(tǒng)的主要功能就是對采集到的聲音信號進(jìn)行處理,給出定位結(jié)果。在設(shè)計(jì)實(shí)際的系統(tǒng)時(shí),我們既要有效地采集聲源信號,又要準(zhǔn)確地實(shí)現(xiàn)聲源的定位。在選擇處理器時(shí),即要考慮處理器的成本,又要考慮其運(yùn)算能力以及未來方便升級算法等因素。本文經(jīng)過綜合比較分析后,決定選擇使用三星的S5PV210作為處理器[17],選擇使用WM8960來實(shí)現(xiàn)音頻編碼。系統(tǒng)的硬件框圖如圖1所示。
圖1 聲源定位系統(tǒng)的硬件框圖
圖1中的嵌入式最小硬件系統(tǒng),由S5PV210處理器、SDRAM、NAND Flash、電源模塊、時(shí)鐘模塊和復(fù)位電路組成。其主要功能是穩(wěn)定可靠地運(yùn)行操作系統(tǒng)。
系統(tǒng)采用4個(gè)麥克風(fēng)組成四元十字陣來估計(jì)聲源位置,具體的算法將在下一小節(jié)中推導(dǎo)。麥克風(fēng)采集到模擬聲信號后,送到WM8960音頻編解碼芯片進(jìn)行編碼。編碼后的數(shù)字信號送往S5PV210處理,用定位算法計(jì)算出聲源位置。再利用超級終端通過串口與嵌入式系統(tǒng)進(jìn)行交互,最終結(jié)果打印在超級終端上。其中SD卡和USB模塊用于嵌入式系統(tǒng)程序的燒寫和未來系統(tǒng)的升級。
本文采用四元十字陣聲源定位算法。建立四元十字陣列分別由麥克風(fēng)M1、M2、M3和M4組成,陣元間距為L,以陣列中心位置為原點(diǎn)O,建立如圖2所示的直角坐標(biāo)系。
圖2 四元十字陣結(jié)構(gòu)圖
4個(gè)陣元的直角坐標(biāo)分別為M1(L/2,L/2,0),M2(-L/2,L/2,0),M3(-L/2,-L/2,0),M4(L/2,-L/2,0)。假設(shè)聲源所在位置坐標(biāo)為S(x,y,z),聲源距離坐標(biāo)原點(diǎn)的距離為r,仰角為θ,方位角為φ。R1為聲源S到陣元M1的距離,d12、d13、d14為陣元之間的聲程差,則根據(jù)目標(biāo)和聲陣的幾何位置關(guān)系有:
(1)
將方程組整理并化簡可得:
(2)
將式(2)代入方程組并整理可得:
(3)
式中:d12=τ12C,d13=τ13C,d14=τ14C。τ12、τ13、τ14為參考陣元M1與其他陣元間的時(shí)間差,C為聲速。通過方程組(3),只要估算出時(shí)時(shí)間差便可求得x、y、z和R1,同時(shí)可以得到方位角:
φ=arctan(y/x)
(4)
仰角:
(5)
在實(shí)際應(yīng)用中,該陣型的幾何算法還可簡化為:
φ=arctan(dy/dx)
(6)
(7)
式中:
(8)
上面兩式是平面四元方陣的最佳算法。
四元十字陣定位中聲源的方向角和仰角的均方誤差表達(dá)式是:
(9)
式中:δd表示聲程差dij估計(jì)的均方誤差。
四元十字陣可以使估計(jì)方位角時(shí)精度提高,但是,該陣在估計(jì)距離時(shí)會產(chǎn)生一定估計(jì)誤差,因此,時(shí)延估計(jì)算法的選取很重要,時(shí)延估計(jì)算法是利用時(shí)延估計(jì)來完成目標(biāo)的聯(lián)合測向和測距,其中時(shí)延就是聲源到達(dá)各麥克風(fēng)的時(shí)間差。聲源的位置是由傳聲器陣列中各組時(shí)延值和傳聲器陣列的幾何關(guān)系得到的。本文中我們選取廣義互相關(guān)時(shí)延估計(jì)法來進(jìn)行時(shí)延估計(jì)。廣義互相關(guān)法以基本互相關(guān)為理論基礎(chǔ),通過求兩信號之間的互功率譜,并在功率譜域內(nèi)給予一定的加權(quán),再反變換到時(shí)域得到兩信號之間的互相關(guān)函數(shù),最終估計(jì)出兩信號之間的時(shí)延。
3.1 傳統(tǒng)互相關(guān)法
設(shè)麥克風(fēng)1、2接收信號的離散時(shí)間信號模型為:
x1(n)=α1s(n-τ1)+n1(n)
(10)
x2(n)=α2s(n-τ2)+n2(n)
(11)
式中:s(n)為聲源信號,n1(n)、n2(n)是高斯白噪聲。s(n)、n1(n)和n2(n)兩兩互不相關(guān),τ1、τ2分別是是聲波從聲源到麥克風(fēng)1、麥克風(fēng)2的傳播時(shí)間,τ=τ1-τ2是兩麥克風(fēng)間的時(shí)延。x1(n)、x2(n)的互相關(guān)函數(shù)R12(τ)可表示為:
R12(τ)=E[x1(n)x2(n-τ)]
(12)
將式(10)和式(11)代入式(12),可得:
R12(τ)=α1α2E[s(n-τ1)s(n-τ2-τ)]+
α1E[s(n-τ1)n2(n-τ)]+
α2E[s(n-τ2-τ)n1(n)]+E[n1(n)n2(n-τ)]
(13)
由于s(n)、n1(n)和n2(n)兩兩互不相關(guān),式(13)變?yōu)?/p>
R12(τ) =α1α2E[s(n-τ1)s(n-τ1-τ)]
=α1α2Rss(τ-(τ1-τ2))
(14)
根據(jù)自相關(guān)函數(shù)的性質(zhì):Rss(τ)≤|Rss(0)|,可知當(dāng)τ-(τ1-τ2)=0時(shí),R12(τ)取其最大值,因此求得R12(τ)取最大值時(shí)對應(yīng)的τ,就是兩個(gè)麥克風(fēng)之間的時(shí)延τ12。
3.2 廣義互相關(guān)法
傳統(tǒng)互相關(guān)時(shí)延估計(jì)法原理簡單,運(yùn)算量小。然而在實(shí)際環(huán)境中,由于噪聲和混響的影響,相關(guān)函數(shù)的最大峰值會被弱化,有時(shí)還會出現(xiàn)多個(gè)峰值,這些都造成了實(shí)際峰值檢測的困難[18]。廣義互相關(guān)法以基本互相關(guān)為理論基礎(chǔ),通過求兩信號之間的互功率譜,并在功率譜域內(nèi)給予一定的加權(quán),再反變換到時(shí)域得到兩信號之間的互相關(guān)函數(shù),最終估計(jì)出兩信號之間的時(shí)延,其原理圖如圖3所示,其中()*表示共軛運(yùn)算。
圖3 廣義互相關(guān)法原理框圖
根據(jù)以上分析,我們先把兩路信號的自相關(guān)函數(shù)做傅里葉變換,得第1個(gè)和第2個(gè)麥克風(fēng)接收信號的互功率譜:
Φx1x2(ω)=α1α2Φss(ω)e-jωτ12
(15)
式中:Φx1x2(ω)、Φss(ω)分別為R12(τ)、Rss(τ)對應(yīng)的功率譜。對式(15)加權(quán)后做反傅里葉變換,可得到廣義互相關(guān)函數(shù):
(16)
式中:Ψ12(ω)為廣義加權(quán)函數(shù),實(shí)際應(yīng)用時(shí),可針對不同的噪聲和混響情況可以選擇不同的Ψ12(ω)。
Φx1x2(ω)表示x1(n)、x2(n)的互功率譜。|γ12(ω)|2的定義為:
(17)
廣義互相關(guān)法建立在非混響模型基礎(chǔ)上的,由于受此種模型影響,廣義互相關(guān)法不適用于有多個(gè)聲源以及方向性的干擾噪聲的情況。該方法在單聲源、非相關(guān)噪聲和低混響的環(huán)境中效果很好。另外它還具有運(yùn)算量小、算法復(fù)雜度低、易于實(shí)現(xiàn)等優(yōu)點(diǎn)。
圖4 聲源信號波形及端點(diǎn)檢測結(jié)果
仿真中選取一段語音段長為1.12 s、采樣頻率為44 100 Hz的信號作為聲源。首先對信號進(jìn)行預(yù)處理,再將經(jīng)過端點(diǎn)檢測的信號,即含語音信號,用來做時(shí)延估計(jì),這樣降低了計(jì)算量。聲源信號的波形如圖4所示,其中紅色豎線為語音端點(diǎn)檢測的結(jié)果。
在仿真實(shí)驗(yàn)中,房間的尺寸為6 m×6 m×3 m,聲源坐標(biāo)為[4 m,4 m,1 m],兩個(gè)麥克風(fēng)的坐標(biāo)分別為[1 m,1 m,1 m]、[4 m,1 m,1 m]。用Image法產(chǎn)生房間脈沖響應(yīng),考慮無混響的情況下,設(shè)置房間墻壁反射系數(shù)為0,圖5為聲源到兩麥克風(fēng)的傳遞函數(shù)。再將聲源信號與傳遞函數(shù)卷積,就分別得到了兩個(gè)麥克風(fēng)的接收信號。由圖5可以看出,兩麥克風(fēng)間的時(shí)延差為59個(gè)點(diǎn)。
圖5 無混響時(shí)聲源到兩個(gè)麥克風(fēng)的傳遞函數(shù)
圖6 無混響情況下兩種互相關(guān)算法在不同信噪比時(shí)的對比
實(shí)驗(yàn)分別在信噪比為10 dB、0 dB、-5 dB情況下分別對傳統(tǒng)相關(guān)算法和廣義互相關(guān)算法進(jìn)行了對比。該實(shí)驗(yàn)中幀長為2 048,使用的聲源波形如圖6所示。
從圖6可以看出,在無混響、高信噪比的情況下,廣義互相關(guān)算法都有較高的穩(wěn)定性。隨著信噪比的降低,兩種互相關(guān)算法的波動都有所增加,廣義互相關(guān)算法相對傳統(tǒng)互相關(guān)算法較為穩(wěn)定。
本文提出了一種基于廣義互相關(guān)時(shí)延估計(jì)的四元十字陣的實(shí)時(shí)聲源定位算法,在此基礎(chǔ)上設(shè)計(jì)了一套實(shí)時(shí)聲源定位系統(tǒng)。在綜合考慮功耗限制,算法復(fù)雜度,數(shù)據(jù)處理能力,多路音頻輸入及接口限制等等因素后,選擇了以Cortex-A8嵌入式平臺的聲源定位系統(tǒng),并對系統(tǒng)硬件的設(shè)計(jì)等做了闡述。仿真實(shí)驗(yàn)表明,提出的算法的魯棒性優(yōu)于傳統(tǒng)互相關(guān)法的聲源定位算法。
[1] 杜江,朱柯. 智能麥克風(fēng)陣列語音分離和說話人跟蹤技術(shù)研究[J]. 電子學(xué)報(bào),2005,33(2):382-384.
[2] 柯昆. 聲源定位技術(shù)研究[D]. 西安:西安電子科技大學(xué),2010.
[3] 劉真旭. 基于麥克風(fēng)陣列的實(shí)時(shí)聲源定位[J]. 計(jì)算機(jī)應(yīng)用與軟件,2010,27(6):43-45.
[4] Flanagan J L.Bandwidth Design for Speech-Seeking Microphone Arrays[C]//Proceedings of ICASSP85,Tampa,FL,1985:732-735.
[5] Kellerman W.A Self-Steering Digital Microphone Array[C]//Proceedings of ICASSP91,Toronto,CA,1991:3581-3584.
[6] Che C,Q Lin.Microphone Arrays and Neural Networks for Robust Speech Recognition[C]//Proceedings of the Human Language Technology Workshop,Plainsboro,NJ,1994:342-347.
[7] Giuliani D,M Omologo. Talker Localization and Speech Recognition Using a Microphone Array and a Cross-Power Spectrum Phase Analysis[C]//Proceedings of ICSLP,1994,Volume 3:1243-1246.
[8] Michel O,Clergeot H. Multiple Source Tracking Using a High Resolution Method[J]. Acoustics,Speech,and Signal Processing,1991,Volume 2:1277-1280.
[9] Grenier Y.A Microphone Array for Car Environments[C]//Proceedings of ICASSP92,San Francisco,CA,1992,VolumeⅠ:305-309.
[10] Oh S,V Viswanathan. Hands-Free Voice Communication in an Automobile with a Microphone Array[C]//Proceedings of ICASSP92,San Francisco,CA,1992:Volume I:281-284.
[11] Flanagan J,Surendran A. Spatially Selective Sound Capture for Speech and Audio Processing[J]. Speech Communication,1993,13(1-2):207-222.
[12] Jan E,Svaizer P. Matched-Filter Processing of Microphone Array for Spatial Volume Selectivity[C]//Proceedings of ISCAS95,Piscataway,NJ,USA,1995:1460-1463.
[13] Flanagan,Johnson J D. Computer-Steered Microphone Arrays for Sound Transduction in Large Rooms[J]. Acoust Soc Amer,1985,78(5),1508-1518.
[14] Greenberg J E,Zurek P M. Evaluation of an Adaptive Beamforming Method for Hearing Aids[J]. Acoust Soc Amer,1992,91:1992-1676.
[15] Michel O,Clergeot H. Multiple Source Tracking using a High Resolution Method[J]. Acoustics,Speech,and Signal Processing,1991,2:1277-1280.
[16] 崔瑋瑋,曹志剛,魏建強(qiáng). 基于雙麥克風(fēng)的2維平面定位算法[J]. 信號處理,2008,24(2):299-302.
[17] Samsung. S5PV210 RISC Microprocessor User’s Manual Revision 1.10. 2010:1-15.
[18] 李雪梅,陶然,王越,等. 時(shí)延估計(jì)技術(shù)研究[J]. 雷達(dá)科學(xué)與技術(shù),2010,8(4):362-367.
AcousticSourceLocalizationAlgorithmBasedonFour-ElementsCrossMicrophoneArray*
WANG,Yong1*,WANG,Qinyun2
(1.School of Information and Electrical Engineering,College of Industrial Technology,Xuzhou Jiangsu 221140 China;2.School of Communication Engineering,Institute of Nanjing Technology,Nanjing 211167,China)
A sound source location system based on four-elements cross microphone array is realized. Four-elements cross array is selected as the microphone array and the formulas of sound source localization algorithm based on four-elements cross microphone array are also derived. To solve the question that the robustness of cross-correlation time delay estimation method is poor in low signal-to-noise ratio and reverberation environment,the system uses generalized cross correlation algorithm to estimate the location of the delay,and the cortex-A8 embedded platform to achieve a robust sound source localization system.
microphone array;sound source localization;embedded system
10.3969/j.issn.1005-9490.2017.05.033
項(xiàng)目來源:國家自然科學(xué)基金項(xiàng)目(61375028)
2016-08-02修改日期2016-09-26
TN912.34
A
1005-9490(2017)05-1224-05
王永(1972-),男,江蘇銅山人,碩士,副教授,徐州工業(yè)職業(yè)技術(shù)學(xué)院,主要研究方向?yàn)橛?jì)算機(jī)應(yīng)用與電子通信技術(shù),wy_040618@163.com。