孫 昊,仲維燦,劉賀洋,祖麗楠
( 河北工業(yè)大學 控制科學與工程學院,天津 300130 )
基于TDOA的聲源定位模型中陣列位姿與定位誤差之間關系的研究
孫 昊,仲維燦,劉賀洋,祖麗楠
( 河北工業(yè)大學 控制科學與工程學院,天津 300130 )
基于聲達時間差(TDOA)和正四面體麥克風陣列的聲源定位模型中,影響定位的精度的因素除了陣元安裝的位置誤差、時間延遲和環(huán)境噪聲之外,還受到陣列自身位姿的影響,麥克風陣列位姿的不確定,其直接導致聲達時間差的不確定,進而影響定位結果.以全范圍內(nèi)聲源目標定位為應用背景,利用基于RBF神經(jīng)網(wǎng)絡聲源定位模型研究麥克風陣列位姿的不確定對聲源定位誤差產(chǎn)生的影響.
聲達時間差;聲源定位模型;陣列位姿;RBF 神經(jīng)網(wǎng)絡
基于麥克風陣列的語音信號處理技術早已成為研究的熱點,具有廣泛的實際意義和應用前景[1].運用麥克風陣列進行聲源定位是語音信號處理領域的重要內(nèi)容,麥克風陣列是指由若干個麥克風按照一定的幾何結構排列而形成的陣列,該陣列可以接收空間聲源信號,并對接收到的聲源信號進行空時處理.基于麥克風陣列的聲源定位技術早已在軍事偵察,雷達和機器人聽覺定位等方面得到了廣泛的應用[2].
基于聲達時間差的麥克風陣列聲源定位技術分為兩個步驟進行,首先估計陣列中陣元間聲達時間差(TDOA);然后利用已獲取的 TDOA,結合陣元的空間坐標求出聲源的位置[3].然而,根據(jù)麥克風陣列的模型和聲源傳播模型構建的聲源定位模型是一組復雜的非線性方程,一般的方法是通過求解方程組得到時延和聲源坐標的數(shù)值關系.但是在解方程組的過程中進行簡化運算,從而約減得到近似的結果.但是當聲源位于近場時,即當陣列中麥克風之間的距離相對于聲源到陣列的距離不能忽略時,此時假設和約減就不能成立了,這樣也減少了聲源定位模型的適用范圍.然而人工神經(jīng)網(wǎng)絡不僅提供了解決復雜的非線性問題的方法并且可以按照給定的精度逼近復雜的非線性系統(tǒng)[4].因此,可以應用神經(jīng)網(wǎng)絡表達這種復雜的非線性方程,實驗表明該算法運算速度快、聲源定位精度高、魯棒性好.
本文采用正四面體麥克風陣列,利用基于 RBF 神經(jīng)網(wǎng)絡聲源定位模型,研究全范圍內(nèi)(即目標聲源在近場及遠場的環(huán)境下)麥克風陣列位姿的不確定對定位的方位角和俯仰角的誤差產(chǎn)生的影響.正四面體陣列具有結構簡單,性能優(yōu)良的特點,相對于平面陣列此陣列對于二維和三維空間內(nèi)的目標聲源具有良好的定位性能[5].
假設目標聲源目標 S ,空間坐標為 x,y,z ,陣列由 4 個全向型麥克風組成正四面體結構,其中每個麥克風之間的距離即正四面體的棱長 a=0.24m.圖1 表示正四面體麥克風陣列模型.
聲源 S 在平面上的投影為 S',是 OS'與 x 正方向的夾角,為聲源的方位角是與軸正方向的夾角,為聲源的俯仰角.則4個麥克風在三維空間中坐標分別為 M1(3a/3,0,6 a/12),M2(3 a/6,a/2,6 a/12),M3(3 a/6,a/2,6 a/12),M4(0,0,6 a/4).假設目標聲源 S到原點的距離為r,水平距離為 L.以麥克風 M4為參考點,d10為聲源 S 到麥克風 M1的聲程,d21,d31,d41表示聲源 S 到麥克風 M1與到麥克風 M2, M3,M4的距離差.c表示聲音傳播速度,則有 di1=SMiSM1=c × ti1,ti1表示目標聲源到達麥克風 Mi和 M1的時間差,其中(i=2,3,4).
圖1 正四面體麥克風陣列模型Fig.1 The regular tetrahedronmicrophonearraymodel
2.1 RBF 神經(jīng)網(wǎng)絡的結構
徑向基RBF(RadialBasisFunction)神經(jīng)網(wǎng)絡作為一種特殊類型的單隱層前饋神經(jīng)網(wǎng)絡,它采用局部接受域來執(zhí)行整函數(shù)映射的功能[6].RBF 神經(jīng)網(wǎng)絡結構簡單、訓練時間短、學習和收斂速度快、具有最佳的逼近性質(zhì),目前廣泛應用于模式識別領域,目標預測和工程插值計算[7].
基于 RBF 神經(jīng)網(wǎng)絡的定位模型中輸入層的 3 個數(shù)據(jù)是聲源到達麥克風 M1和 Mi的聲達時間差 ti1(i=2,3,4),網(wǎng)絡的輸出是聲源的位置,即方位角,俯仰角和距離.聲源定位模型中采用 RBF 神經(jīng)網(wǎng)絡,主要利用了 RBF 神經(jīng)網(wǎng)絡的高度非線性映射的特性,它可以映射出時延值作為網(wǎng)絡的輸入、聲源位置作為網(wǎng)絡輸出兩者之間的關系[10].網(wǎng)絡的隱含層非線性激活函數(shù)選用高斯函數(shù),實現(xiàn)輸入層和隱含層之間的非線性變換,輸出層對應為聲源的坐標位置,選擇適當?shù)膶W習算法進行訓練,獲取相應的網(wǎng)絡參數(shù)[11].
2.2 RBF 神經(jīng)網(wǎng)絡的訓練數(shù)據(jù)選擇與歸一化處理
圖1 所示的麥克風陣列是正四面體結構,陣元 M1,M2,M3,M4位于以為球心,以 o 為半徑的正四面體外接球的球面上.實驗中,選取神經(jīng)網(wǎng)絡訓練的輸出數(shù)據(jù)即聲源的位置位于以 o 為球心,半徑為 4.3m 的球的上半球球面上,聲源在 xoy 平面上投影以 o 為圓心,半徑 0.3m 到 4.3m 間隔為 0.4m 的 10 個同心圓圓周上,在同一個圓周上相鄰兩個聲源投影的間隔為 20,總 180 組位置坐標.取聲速為 340m/s,根據(jù)定位模型和聲源位置的幾何關系,計算時間差,得到 1 800 組的輸入及輸出數(shù)據(jù)作為神經(jīng)網(wǎng)絡訓練數(shù)據(jù).測試數(shù)據(jù)的選擇:在訓練數(shù)據(jù)聲源位置取值的上半球內(nèi),以半徑 0.3m 到 1.5m 的同心球環(huán)內(nèi)的點為近場聲源位置,1.5 m 到 4.3m 的同心球環(huán)內(nèi)的點為遠場聲源位置;在近場和遠場所屬的四個象限內(nèi)每個象限分別隨機生成的 25組位置坐標,并計算時間差,近場和遠場分別選取 100 組作為神經(jīng)網(wǎng)絡的測試數(shù)據(jù),用來檢測神經(jīng)網(wǎng)絡定位模型的性能.
訓練和測試數(shù)據(jù)采用最大最小法進行歸一化處理.數(shù)據(jù)的歸一化處理是利用神經(jīng)網(wǎng)絡進行預測前必須完成的,其目的是為了避免由于數(shù)據(jù)的維數(shù)不同和數(shù)量級的差異而引起神經(jīng)網(wǎng)絡預測產(chǎn)生較大的誤差[12].
3.1 MATLAB 仿真及分析
聲源定位采用基于RBF神經(jīng)網(wǎng)絡以實現(xiàn)對目標聲源的跟蹤為目的,預測出方位角和俯仰角,確定目標聲源的空間方向從而實現(xiàn)對聲源的跟蹤.為了驗證設計的網(wǎng)絡在遠場和近場對聲源的定向情況,分別選取遠場和近場測試樣本各 100 組數(shù)據(jù),用已訓練好的RBF網(wǎng)絡進行預測,實驗結果如圖2、圖3 和圖4 所示.
圖2 遠場聲源測試誤差Fig.2 Far-field sound source testerror
圖3 近場聲源測試誤差Fig.3 Near-field sound source testerror
圖2 為遠場聲源 100 組預測數(shù)據(jù)的方位角和俯仰角的預測誤差,其中方位角的誤差范圍為 ± 0.6 °之間,俯仰角的誤差范圍為 ± 0.6 °之間.圖3 近場聲源為 100 組預測數(shù)據(jù)的方位角和俯仰角的預測誤差,其中方位角的誤差范圍為 ± 2°之間,俯仰角的誤差范圍為 ± 2°之間.
分析2:由知,焦點F(1,0)為△ABC的重心,設A、B、C在拋物線y2=4x上的橫坐標分別為x1,x2,x3,則x1+x2+x3=3×1=3.根據(jù)拋物線的焦半徑公式,=+(x1+x2+x3)=3+3=6
對比圖2和圖3可知,相比于近場聲源,定位模型對于遠場聲源的定向精度較高,這是由于聲源在近場環(huán)境中,陣列中陣元間的時延值之間的差值相對較小,神經(jīng)網(wǎng)絡的擬合與預測能力也有限.
圖4 遠場聲源定位距離誤差Fig.4 Far-field sound source localization error distance
圖4 為遠場聲源 100 組數(shù)據(jù)的距離預測誤差,由圖2和圖4可知,即使聲源位于遠場、方位角誤差很小的情況下,RBF神經(jīng)網(wǎng)絡定位模型對聲源距離的預測誤差也很大.這是因為實驗中,麥克風陣列屬于小型陣列,陣元間的距離僅為 0.24 m,遠小于陣列與聲源之間的距離,因此,基于RBF神經(jīng)網(wǎng)絡的定位模型無法對聲源距離參數(shù)做出準確的預測,故文中只對方位角和俯仰角誤差做出分析.
上述 MATLAB 仿真實驗證明了基于 RBF 神經(jīng)網(wǎng)絡的聲源定位模型,在輸入相應的時延數(shù)據(jù)的條件下,無論目標聲源是處于遠場還是近場的環(huán)境下,都可以比較精確的預測其方位角和俯仰角,從而,說明了該定位模型的適用性強、定位精度高.
利用基于RBF神經(jīng)網(wǎng)絡的聲源定位模型研究麥克風陣列位姿的不確定對聲源目標定位精度產(chǎn)生的影響是下一步進行的工作.首先研究聲源在近場情況下,麥克風陣列位姿的不確定對聲源定位的方位角和俯仰角誤差的影響,取聲源與陣列的水平距離 L=0.5m,實驗結果分別如圖5 和 6 所示.
圖5 近場聲源方位角誤差Fig.5 Near-field sound source azimuth error
圖6 近場聲源俯仰角誤差Fig.6 Near-field sound source pitch angle error
為了進一步驗證聲源在近場情況下,研究麥克風陣列位姿的不確定對定位的方位角和俯仰角誤差的影響,取聲源與陣列的水平距離 L=1m,實驗結果分別如圖7和8所示.
由圖8對比圖6可知:當聲源在近場的環(huán)境下,陣列位姿的不確定對俯仰角誤差的影響比較大;隨著聲源和陣列之間距離的增大,影響的程度在逐漸的減?。?/p>
為了研究聲源在遠場情況下,麥克風陣列位姿的不確定對定位的方位角和俯仰角誤差的影響,取L=2m,實驗結果分別如圖9和 10所示.
由圖9可知:相比較于聲源在近場時,當聲源位于遠場的情況下,方位角誤差也呈現(xiàn)出規(guī)律性的變化,但是麥克風陣列位姿的不確定對方位角誤差的影響比較??;當陣列與聲源之間的夾角的為 0°、± 60°、± 120 °、± 180 °時,此時聲源的方位角誤差最??;在方位角一定時,隨著俯仰角的增大,方位角的誤差只是略有增大.
圖7 近場聲源方位角誤差Fig.7 Near-field sound source azimuth error
圖8 近場聲源俯仰角誤差Fig.8 Near-field sound source pitch angle error
圖9 遠場聲源方位角誤差Fig.9 Far-field sound source azimuth error
圖10 遠場聲源俯仰角誤差Fig.10 Far-field sound source pitch angle error
由圖10可知,相比較于聲源在近場時,當聲源位于遠場的情況下,俯仰角一定時,誤差也呈現(xiàn)出規(guī)律性的變化,但是麥克風陣列位姿的不確定對俯仰角誤差的影響比較?。?/p>
3.2 仿真結果分析
由圖5~圖10可知:在全范圍聲源目標定位中,當聲源位于近場的情況下,麥克風陣列的位姿的不確定對方位角和俯仰角的定位誤差的影響比較大,隨著陣列和聲源的距離的增大,影響的程度而逐漸的減?。划斅曉次挥谶h場時,陣列位姿的不確定對方位角和俯仰角的定位誤差的影響都比較小.
3.3 定位模型的性能評價
為了驗證上述根據(jù)理論值仿真所得出陣列位姿的不確定對定位精度產(chǎn)生影響的結論,采用實驗室環(huán)境作為實驗數(shù)據(jù)采集環(huán)境,采集聲達時間差,利用實測值進行仿真.實驗室房間大小為8m×6m×3m,數(shù)據(jù)采集平臺包括:正四面體麥克風陣列、數(shù)據(jù)采集卡、激光測距儀、卷尺、音箱等,聲源音頻內(nèi)容為發(fā)令槍聲.
測試聲源在 xoy 平面上投影以 o 為圓心,半徑 0.5m和 1.2m 的 2 個同心圓圓周上,在同 1 個圓周上相鄰兩個聲源投影的間隔為 4 °,音箱固定在支架上,聲源相對高度約為 0.07m,2 個同心圓周上聲源的俯仰角分別為 82.3 °和 86.8 °,每個圓周取樣 90 組數(shù)據(jù),測試數(shù)據(jù)共 180 組,激光測距儀的測量精度為 ±1.5mm.數(shù)據(jù)記錄表格如表1和表2所示.
表1 聲源在半徑為 0.5m 的圓周上時的聲達時間差值Tab.1 Sound sources in a 0.5m radiusof the circum ference of the time difference ofarrival
表2 聲源在半徑為1m的圓周上時的聲達時間差值Tab.2 Sound sources in a 1m radiusof the circum ference of the time differenceof arrival
采用已建立的基于RBF神經(jīng)網(wǎng)絡的聲源定位模型驗證上文闡述的麥克風陣列位姿的不確定對聲源目標定位精度產(chǎn)生影響的結論,實驗結果分別如圖11 和 12 所示.
由圖11 可知,聲源位于半徑 0.5m 圓周上,俯仰角為 82.3 °時,根據(jù)實測數(shù)據(jù)可得出:陣列位姿的不確定對方位角誤差的影響比較大,誤差范圍為 4°~4°,并且誤差也呈現(xiàn)出規(guī)律性的變化;俯仰角誤差范圍 4°~ 2°;對比圖5和圖6中俯仰角為90°時的仿真曲線可以看出利用理論值和實測值仿真所得的結論是相似的.
由圖12可知,聲源位于半徑 1 m 圓周上,俯仰角為 86.8 °時,根據(jù)實測數(shù)據(jù)可得出:此時方位角的誤差范圍為 2°~ 2°,并且誤差也呈現(xiàn)出規(guī)律性的變化;俯仰角誤差范圍 1.5 °~0 °;對比圖7 和圖8 中俯仰角為 90 °時的仿真曲線也可以看出利用理論值和實測值仿真所得的結論是相似的.
圖11 聲源位于半徑為 0.5m圓周上的定位誤差Fig.11 Sound sources in 0.5m radiusof the circum ference of the localization error
本文首先設計了一種基于 RBF 神經(jīng)網(wǎng)絡聲源定位模型,利用 MATLAB 仿真實驗證明了其適應性強和精確度高.然后,利用該模型研究了麥克風陣列位姿的不確定對聲源定位中方位角和俯仰角誤差的影響,最后利用實驗平臺測得數(shù)據(jù)進行了驗證,從而說明了結論的可靠性.但是由于單次定位的局限性以及神經(jīng)網(wǎng)絡擬合能力有限,該模型并不能很好地預測聲源的空間距離.因此,如何實現(xiàn)對空間距離的準確預測及陣列位姿的不確定對定距產(chǎn)生的影響是下一步要做的工作.
圖12 聲源位于半徑為1m圓周上的定位誤差Fig.12 Sound sources in 1m radiusof the circum ferenceof the localization error
[1] 金光明,謝植,張傳義.基于麥克風陣列多聲源定位的新方法 [J].東北大學學報:自然科學版,2012,33(6):769-773.
[2] 李曉飛,劉宏.機器人聽覺聲源定位研究綜述 [J].智能系統(tǒng)學報,2012,7(1):9-20.
[3] 王震.基于互功率譜相位時延估計的聲源定位系統(tǒng)研究 [D].天津:天津大學,2010.
[4] 國蓉,何鎮(zhèn)安.基于多級神經(jīng)網(wǎng)絡的被動聲定位算法研究倡 [J].計算機應用研究,2011,28(6).
[5] 陸灝銘,陳瑋,劉壽寶.基于麥克風陣列的聲源定位系統(tǒng)設計 [J].傳感器與微系統(tǒng),2012,31(4):79-81.
[6] 彭顯剛,胡松峰,呂大勇.基于 RBF 神經(jīng)網(wǎng)絡的短期負荷預測方法綜述 [J].電力系統(tǒng)保護與控制,2011,39(17):144-148.
[7] 喬俊飛,韓紅桂.RBF 神經(jīng)網(wǎng)絡的結構動態(tài)優(yōu)化設計 [J].自動化學報,2010,36(6):865-872.
[8] 張雨濃,李克訥,譚寧.中心-方差及權值直接確定的 RBF 神經(jīng)網(wǎng)絡分類器 [J].計算技術與自動化,2009,28(3):5-9.
[9] 雷升鍇,劉紅陽,何嘉,等.動態(tài) K-均值聚類算法在 RBF 神經(jīng)網(wǎng)絡中心選取中的應用 [J].信息系統(tǒng)工程,2011 (6):83-85.
[10]Arslan G,Sakarya F A.A unified neural-network-based speaker localization technique[J].IEEE Transactionson Neural Networks,2000,11(4):997-1002.
[11]Arslan G,Sakarya F A,Evans B L.Speaker localization for far field and near field wideband sources using neural networks[J].Proc IEEE EURASIPWorkshop on Nonlinear Signal and Image Processing,1999,2:569-573.
[12] 楊鵬,邢鈺姣,孫昊,等.基于 BP 神經(jīng)網(wǎng)絡的正四面體陣列聲源定向研究 [J].傳感器與微系統(tǒng),2012,31(5):8-9.
[責任編輯 代俊秋]
Research on the relationship between the array pose of sound source localizationmodelbased on TDOA w ith localization error
SUN Hao, ZHONG Wei-can, LIU He-yang, ZU Li-nan
( School of Control Science and Engineering, Hebei University of Technology, Tianjin 300130, China )
The precision of sound source localizationmodel based on the time difference of arrival(TDOA)and tetrahedralm icrophone array is affected notonly by the installation location of the array element error,time delay and ambientnoise,butalso by themicrophonearray pose.Theunpredictability ofarray pose causesdirectly theuncertainty of time difference of arrival,and it influences further the results of localization.Taking the full range of the target sound source localization application as thebackground,the RBF neuralnetworkmodelof the sound source localization were used to research them icrophone array pose uncertainty on the impactof sound source localization error.
time difference of arrival;sound source localizationmodel;array pose;RBF neuralnetwork
1007-2373(2014)05-0008-07
TP242.6
A
10.14081/j.cnki.hgdxb.2014.05.002
2014-04-08
國家自然科學基金(61305101);河北省自然科學基金(F2014202121,F(xiàn)2010000137)
孫昊(1979-),男(漢族),講師,博士.