吳 迪,唐勇奇
(湖南工程學院 電氣信息學院,湘潭 411101)
?
強噪聲環(huán)境下基于改進粒子濾波的麥克風陣列定位
吳迪,唐勇奇
(湖南工程學院 電氣信息學院,湘潭 411101)
針對噪聲和混響環(huán)境下說話人定位不準確的問題,提出了一種基于迭代無味粒子濾波的麥克風陣列聲源定位方法.利用迭代無味卡爾曼濾波產(chǎn)生的建議分布函數(shù)對粒子濾波算法進行改進形成迭代無味粒子濾波,在該算法的框架下通過計算麥克風陣列波束形成器的輸出能量構(gòu)造似然函數(shù).實驗結(jié)果表明,該方法提高了說話人的定位精度,增強了說話人跟蹤系統(tǒng)的抗噪聲和抗混響能力.
說話人定位;迭代無味粒子濾波;麥克風陣列;建議分布函數(shù);似然函數(shù)
基于麥克風陣列的說話人定位與跟蹤是人機交互研究中的一個重要課題,它在多媒體系統(tǒng)、視頻會議系統(tǒng)、移動機器人等領域有著廣泛的應用[1].傳統(tǒng)的麥克風陣列聲源定位方法主要是通過計算麥克風陣列接收語音信號當前時刻的時間延遲估計說話人的位置,在自由聲場情況下,該方法取得了很好的定位跟蹤效果,但是當房間背景噪聲強度較大或混響時間較長的情況下,會導致大量虛假聲源的產(chǎn)生,從而影響了定位的精確性.
近年來,隨著非線性濾波技術的發(fā)展,研究人員采用狀態(tài)空間方法對說話人運動軌跡進行建模處理,通過適當?shù)膭討B(tài)方程模擬說話人的運動狀態(tài),將當前時刻的信息和過去的歷史信息綜合處理,有效克服了復雜噪聲環(huán)境下虛擬聲源的影響,較好地提高了說話人跟蹤系統(tǒng)的精確性和魯棒性.Vermaak 等人[2]通過建立合理的說話人運動模型來抑制虛假聲源的影響,根據(jù)時延估計構(gòu)造似然函數(shù),通過粒子濾波實現(xiàn)聲源的有效定位.Ward等人[3]在此基礎上做了改進,對聲源跟蹤方法進行總結(jié),并利用波束形成的輸出能量構(gòu)造似然函數(shù),通過粒子濾波實現(xiàn)說話人聲源的準確跟蹤.殷福亮等人[4,5]在對粒子濾波算法改進的基礎上分別根據(jù)時延估計和SRP-PHAT波束形成器的輸出能量構(gòu)造似然函數(shù),對說話人進行跟蹤定位.金乃高等人[6]采用量子進化方法對粒子濾波進行改進,并將改進的粒子濾波算法應用到說話人跟蹤中,取得了較好的效果.以上方法在混響時間短、信噪比大的環(huán)境中可對說話人進行準確定位,但在強噪聲環(huán)境中依然不能有效跟蹤說話人.
本文針對混響時間長,信噪比小時說話人定位不準確的問題,綜合考察量測信息和說話人運動模型在抑制房間混響時的作用,提出一種基于迭代無味粒子濾波的聲源定位方法.該方法采用麥克風陣列采集的語音信號作為觀測信息,通過計算麥克風陣列可控波束形成的輸出能量構(gòu)造似然函數(shù).其次,將迭代無味粒子濾波引入到音頻定位中,通過與其它濾波算法進行對比分析驗證了該濾波算法在音頻定位中的有效性.
1.1無味粒子濾波
在說話人跟蹤系統(tǒng)中,運動模型的變化信息是很難完全掌握的,而標準粒子濾波算法為了求解方便,一般選取先驗概率密度作為建議分布函數(shù),但是,這種方法丟失了當前時刻的量測值,使得當前時刻的狀態(tài)嚴重依賴于模型,當模型不準確,或者量測噪聲突然增大時,這種選取方法將不能有效的表示真實的建議分布函數(shù).而利用無味卡爾曼濾波(Unscented Kalman Filter,UKF)來產(chǎn)生建議分布函數(shù),可以很好的融入最新的量測信息,從而提高粒子濾波的跟蹤性能.無味粒子濾波(Unscented Particle Filter,UPF)算法的具體過程如下:
(1)
(2)
(2)重要性采樣.
(3)
j=1,2,…,nx
(4)
j=nx+1,nx+2,…,2nx
(5)
(6)
(7)
(8)
時間更新:
(9)
(10)
(11)
(12)
(13)
量測更新:
(14)
(15)
(16)
(17)
(18)
采樣粒子
(19)
其中,N(·)表示高斯函數(shù).
計算權(quán)值
(20)
其中,i=1,2,…,Ns,歸一化權(quán)值
(21)
(22)
1.2迭代卡爾曼濾波算法
迭代卡爾曼濾波(Iterated Kalman Filter, IKF)算法思想是在上次濾波得到狀態(tài)估計值的基礎上進行線性化,得到的一種迭代卡爾曼濾波結(jié)構(gòu),是一種最大后驗逼近,迭代卡爾曼算法的修正步驟如下:
序列{xi}和{Pi}定義為:
Pi+1=(I-KiHi)P
Hi=h′(xi),R為量測噪聲的協(xié)方差矩陣,I為單位矩陣.
本文通過對UPF算法進行改進,加入IKF算法來修正UKF算法更新的狀態(tài)均值和方差,優(yōu)化建議分布函數(shù),改進后的算法稱為IUPF算法.IUPF算法實現(xiàn)步驟如下:
(1)利用(1)-(22)產(chǎn)生量測更新的狀態(tài)均值和方差.
(2)迭代更新
采樣粒子
(23)
其中,N(·)表示高斯函數(shù).
計算權(quán)值
(24)
其中,i=1,2,…,Ns,歸一化權(quán)值
(25)
(3)重采樣過程.
(4)狀態(tài)估計.
(26)
3.1說話人的運動模型
(27)
3.2說話人的定位函數(shù)
SRP-PHAT聲源定位算法[11]將波束形成方法的魯棒性、短時分析特性與相位變換方法對環(huán)境的不敏感性相結(jié)合,使聲源定位系統(tǒng)對噪聲和混響的靈敏度降低,提高了系統(tǒng)的魯棒性和定位的精確性.
設聲源信號s(t)經(jīng)多徑傳播后到達麥克風陣列,第i個麥克風接收到的信號mi(t)可以表示為:
mi(t)=s(t)*hi(t)+vi(t)
(28)
其中vi(t)為噪聲,hi(t)是聲源與第i個麥克風之間的沖激響應,它是麥克風位置和聲源位置的函數(shù),“*”為卷積運算符.SRP-PHAT聲源定位算法是通過計算麥克風陣列的波束輸出能量來定位,定位函數(shù)如下:
(29)
3.3似然函數(shù)構(gòu)建
似然函數(shù)的作用是評價粒子權(quán)值,定位函數(shù)是空間位置的連續(xù)函數(shù),因而可用作似然函數(shù),稱之為偽似然函數(shù)(PseudoLikelihood).構(gòu)建的偽似然函數(shù)為:
(30)
其中,ξ=0,其作用是確保似然函數(shù)的非負性.γ為正實數(shù),用來使似然函數(shù)更尖銳,使得似然函數(shù)更適合于說話人定位,一般取值為γ=3.
3.4基于IUPF的說話人定位算法實現(xiàn)
基于迭代無味粒子濾波算法的說話人定位具體實現(xiàn)步驟如下:
(2)采樣粒子.k=1,2,…,利用IUPF算法和說話人運動模型以及定位函數(shù),得出k時刻的采樣粒子
(31)
(4)重采樣過程.
(32)
(6)判斷語音信號是否結(jié)束.如果結(jié)束則停止運行,否則轉(zhuǎn)到步驟2.
4.1實驗參數(shù)設置
仿真實驗模擬普通會議室的聲學環(huán)境,其中房間設置為5m×7m×3m,在X,Y兩個方向上,分別放置兩組包含兩個麥克風的線性陣列,麥克風之間的距離為1m,說話人在房間內(nèi)沿X軸斜45°方向勻速運動,說話人運動的起點為(1,1),如圖1所示,并保持持續(xù)發(fā)聲狀態(tài).房間混響的沖激響應函數(shù)由IMAGE模型產(chǎn)生,采用的噪聲類型為高斯白噪聲,麥克風陣列獲取的語音信號以fs=16kHz的采樣率進行16比特采樣,說話人的高度為固定值.
圖1 麥克風陣列的擺放位置
為了驗證IUPF算法在說話人定位中的性能,本文將其與PF、UPF兩種算法進行了比較,文中引入了均方誤差(RMSE)作為衡量精度的標準.
4.2實驗結(jié)果與分析
在不同信噪比和混響時間(T60)的情況下,比較了PF、UPF和本文所用的方法對說話人的定位效果.圖2是SNR=15dB,T60=100ms時,X方向三種算法的定位效果.圖3是SNR=15dB,T60=100ms時,Y方向三種算法的定位效果.圖4是SNR=5dB,T60=200ms時,X方向三種算法的定位效果.圖5是SNR=5dB,T60=200ms時,Y方向三種算法的定位效果.其中橫軸表示時間,豎軸表示各方向的位置.實驗中分別在兩種不同信噪比和混響時間(T60)情況下,各做了50次仿真,得出來RMSE的平均值如表1和表2所示.
圖2 SNR=15 dB,T60=100 ms X方向三種算法的跟蹤結(jié)果比較
圖3 SNR=15 dB,T60=100 ms Y方向三種算法的跟蹤結(jié)果比較
圖4 SNR=5 dB,T60=200 ms X方向三種算法的跟蹤結(jié)果比較
濾波算法RMSEXYPF0.06270.0578UPF0.04150.0451IUPF0.03330.0318
表2 SNR=5 dB,T60=200 msRMSE值對比
由圖2和圖3可以看出,在信噪比較大、混響時間較短的情況下,PF和UPF定位結(jié)果粗糙,定位不精確.相比PF和UPF算法的定位效果,本文算法可以實現(xiàn)說話人的精確定位.該實驗說明本文所提方法在定位的準確性方面優(yōu)于PF和UPF算法.
由圖4和圖5可以看出,隨著信噪比減小,混響時間增加.三種算法的定位精度都出現(xiàn)不同程度的降低,其中,PF和UPF算法出現(xiàn)很明顯的估計誤差,而本文算法仍然能夠保持較好的定位精度.該實驗說明在定位的穩(wěn)定性方面本文算法優(yōu)于PF和UPF算法.通過對比表1和表2的均方誤差可以明顯看出,IUPF算法的均方誤差最小,其定位精度相比標準粒子濾波提高了50%~60%,相比無味粒子濾波提高了10%~30%.說明本文的算法具有更好的定位精度.綜上,在房間混響較強、信噪比較低的情況下,PF和UPF算法會出現(xiàn)較大的定位誤差,IUPF利用UKF和IKF相結(jié)合產(chǎn)生建議分布函數(shù),通過融入最新量測信息提高了抽樣粒子對真實狀態(tài)后驗分布的逼近程度,很好的提高了說話人定位的精度.
為了提高跟蹤精度,本文對粒子濾波進行了改進,并提出了一種基于迭代無味粒子濾波算法(IUPF)的說話人定位方法,該算法通過UKF和IKF算法相結(jié)合產(chǎn)生建議分布函數(shù)對粒子濾波進行改進,并在改進的算法框架下,采用SRP-PHAT構(gòu)建似然函數(shù)實現(xiàn)對說話人的跟蹤定位.仿真實驗表明,本文算法的定位精度相比PF算法和UPF有明顯的提高.
[1]金乃高,殷福亮,陳喆.基于加權(quán)子空間擬合的聲源定位于跟蹤方法[J].電子與信息學報,2008,30(9):2134-2137.
[2]JVermaak,ABlake.NonlinearFilteringforSpeakerTrackinginNoisyandReverbe-rantEnvironments[C].inProc.IEEEInt.Conf.Acoust.Speech,SignalProcessing(ICASSP-01),SaltLakeCity,UT,2001.
[3]DBWard,RCWilliamson.ParticleF-ilterBeamformingforAcousticSourceLo-calizationinaReverberantEnvironment[C].inProc.IEEEInt.Conf.Acoust,Spe-ach,SignalProcessing(ICASSP-02),Or-lando,FL,2003.
[4]侯代文,殷福亮. 基于粒子濾波的交互式多模型說話人跟蹤方法[J].電子學報. 2010,38(4):835-841.
[5]金乃高,殷福亮,陳喆.基于分層采樣粒子濾波的麥克風陣列說話人跟蹤方法[J].電子學報,2008,36(1):194-198.
[6]金乃高,殷福亮.量子進化粒子濾波算法及其在說話人跟蹤中的應用[J].信號處理,2008,24(6):982-987.
[7]GordonN,SalmondD,SmithA.NovelApproachtoNonlinear/non-GaussianBay-esianStateEstimation[C].ProceedingofInstituteElectricEngineering, 1993, 140(2):107-113.
[8]潘泉,楊峰,葉亮,梁彥,程詠梅. 一類非線性濾波器-綜述[J]. 控制與決策,2005,20(5):481-489.
[9]ShmaliyYS.AnIterativeKalman-LikeAlgorithmIgnoringNoiseandInitialConditions[J].IEEETransactionsonSignalProcessing,2011,59(6):2465-2473.
[10]侯代文,殷福亮,陳喆.基于擬蒙特卡洛濾波的說話人跟蹤方法研究[J].自動化學報,2009,35(7):1016-1021.
[11]DanteA.Blauth,VicenteP.Minotto,ClaudioR.Jung,BowonLee,TonKalker.VoiceActivityDetectionandSpeakerLocalizationUsingAudiovisualCues[J].PatternRecognitionLetters,2012,33(4):373-380.
AcousticSourceLocalizationBasedonIterativeUnscentedParticleFilter
WUDi,TANGYong-qi
(CollegeofElect.andInformationEngineering,HunanInstituteofEngineering,Xiangtan411101,China)
Inordertosolvetheproblemofinaccuratelocalizationinnoiseandreverberationenvironment,anewmicrophonearraysoundsourcelocalizationmethodbasedonIterativeUnscentedParticleFilterisproposedinthispaper.First,theIterativeUnscentedParticleFilterisintroducedtotheacousticsourcelocalization.Then,thelikelihoodfunctionisconstructedbycalculatingthemicrophonearray’soutputenergyintheframeworkoftheimprovedparticlefilteringalgorithm.Finally,theexperimentresultsshowthattheproposedlocationmethodcannotonlyimprovethepositioningaccuracy,butalsoenhancetheabilityofacousticsourcetracingsystemtoresistnoiseandreverberation.
speakerlocalization;IterativeUnscentedParticleFilter(IUPF);microphonearray;proposaldistribution;likelihoodfunction
2015-09-10
國家科技支撐計劃資助項目(1214ZGA008),國家自科基金資助項目(61263031),湖南省重點學科建設資助項目(081101),重慶市教委自然科學基金資助項目(KJ1400628),湖南工程學院博士科研啟動基金(15045).
吳迪(1985-),男,博士,研究方向:多源信息融合及智能信息處理.
TP391.41
A
1671-119X(2016)01-0001-05