林青,廖逢釵
(三明學(xué)院數(shù)學(xué)與計(jì)算機(jī)科學(xué)系,福建三明365004)
二值子帶加權(quán)時(shí)延估計(jì)及其應(yīng)用
林青,廖逢釵
(三明學(xué)院數(shù)學(xué)與計(jì)算機(jī)科學(xué)系,福建三明365004)
闡述了基于廣義互相關(guān)(GCC)的互功率譜相位(CPSP)時(shí)延估計(jì)算法的基本原理,指出它在處理麥克風(fēng)陣列接收信號(hào)時(shí),使用整個(gè)頻帶估計(jì)時(shí)延存在的不足.提出了二值子帶加權(quán)互功率譜相位時(shí)延估計(jì)算法(BSBW-CPSP).首先,在時(shí)域?qū)λ型ǖ赖慕邮招盘?hào)進(jìn)行子帶分解;之后,根據(jù)目標(biāo)信號(hào)非活動(dòng)時(shí),各個(gè)子帶的能量大小,給每個(gè)子帶賦予一個(gè)二值權(quán)重;接著,在所有權(quán)重為1的子帶分別利用CPSP算法估計(jì)時(shí)延;最后,求它們的平均值作為最終的時(shí)延估計(jì)值,并把它應(yīng)用于聲源定位.實(shí)驗(yàn)結(jié)果表明,與CPSP算法相比,BSBW-CPSP時(shí)延估計(jì)算法具有更高的精度,算法是有效可行的.
麥克風(fēng)陣列;聲源定位;二值子帶加權(quán);廣義互相關(guān);時(shí)延估計(jì)
聲源定位技術(shù)是根據(jù)傳聲器接收到的數(shù)據(jù)自動(dòng)確定聲源的位置.聲源定位技術(shù)具有廣闊的應(yīng)用前景,它在魯棒語音識(shí)別[1]、智能機(jī)器人、可視電話、視頻會(huì)議、助聽設(shè)備等領(lǐng)域有著廣泛的應(yīng)用[2].目前,利用麥克風(fēng)陣列的聲源定位是最常見的方法,它經(jīng)過分析與處理麥克風(fēng)陣列采集的多路聲音信號(hào),估計(jì)出一個(gè)或多個(gè)聲源在平面或空間中的坐標(biāo).
麥克風(fēng)陣列信號(hào)處理的核心思想是:在時(shí)域和頻域的基礎(chǔ)上增加一個(gè)空間域,對(duì)接收的聲源信號(hào)進(jìn)行空時(shí)處理.基于麥克風(fēng)陣列的聲源定位技術(shù)大致可分為三類:基于最大輸出功率的可控波束形成的定位技術(shù)[3,4];基于子空間的定位技術(shù);基于時(shí)延估計(jì)(Time Delay estimation,TDE)的定位技術(shù)[2].其中,基于時(shí)延估計(jì)的聲源定位方法是應(yīng)用最為廣泛的方法,它算法簡單,容易實(shí)時(shí)實(shí)現(xiàn).TDE聲源定位的關(guān)鍵技術(shù)是時(shí)延估計(jì),它的精確性直接決定了聲源定位系統(tǒng)的有效性.它首先估計(jì)出聲源到達(dá)麥克風(fēng)陣列各陣元的相對(duì)時(shí)間差,再利用時(shí)間差算出聲源到達(dá)各陣元的距離差,最后用搜索或幾何算法確定聲源的位置[5].
本文在研究廣義互相關(guān)(Generalized Cross Correlation, GCC)時(shí)延估計(jì)的基礎(chǔ)上,提出了二值子帶加權(quán)CPSP時(shí)延估計(jì)算法(Binary Sub-Band Weighted Cross Power SpectruMPhase,BSBW-CPSP).并通過實(shí)驗(yàn)驗(yàn)證算法可以有效改善聲源定位的精度.
在不考慮空間混響等因素影響的情況下,麥克風(fēng)陣列中第i個(gè)麥克風(fēng)接收到的信號(hào)xi(t)可表示為
其中s(t)是目標(biāo)聲源信號(hào),αi為聲波傳播的衰減系數(shù)(0<αi<1)[6].τ是第i個(gè)麥克風(fēng)接收的信號(hào)相對(duì)于第一個(gè)麥克風(fēng)的時(shí)間延遲,ni(t)為第i個(gè)麥克風(fēng)接收的噪聲,M是麥克風(fēng)陣列的陣元數(shù),并假設(shè)s(t)和ni(t)(i=1,2,Λ,M)彼此不相關(guān).
廣義互相關(guān)(GCC)函數(shù)時(shí)延估計(jì)算法[7]是運(yùn)用最廣泛且最簡單的一種算法.GCC算法的實(shí)現(xiàn)流程如圖1所示.麥克風(fēng)陣列的不同陣元間接收到信號(hào)的相對(duì)時(shí)延是通過計(jì)算它們之間的互相關(guān)函數(shù),并檢測互相關(guān)函數(shù)的峰值獲得.但在實(shí)際應(yīng)用中,由于背景噪聲等因素的干擾,互相關(guān)函數(shù)相應(yīng)的峰值會(huì)減弱,甚至有可能出現(xiàn)偽峰,這樣加大了峰值檢測的難度.廣義互相關(guān)(GCC)函數(shù)法是通過求得兩信號(hào)之間的互功率譜,并在頻域內(nèi)給予一定的加權(quán),在一定程度上抑制了噪聲和反射干擾的影響,使相關(guān)函數(shù)在時(shí)延處的峰值更為突出,再反變換到時(shí)域,得到兩信號(hào)之間的互相關(guān)函數(shù),最終可估計(jì)出兩信號(hào)間的相對(duì)時(shí)延.
假設(shè)S為聲源,考察M1、Mi兩個(gè)麥克風(fēng),它們接收的信號(hào)分別為x1(t)、xi(t),接收的噪聲信號(hào)分別為n1(t)和ni(t).τ為目標(biāo)聲源傳播到兩個(gè)麥克風(fēng)的時(shí)間差.采用傳統(tǒng)的GCC算法,可得信號(hào)x1(t)和xi(t)的互相關(guān)函數(shù)Rx1xi(τ)為
其中,Gx1xi(ω)=E{X1(ω)Xi*(ω)}是麥克風(fēng)M1、Mi接收信號(hào)的互相關(guān)譜,ψ1i(ω)是權(quán)函數(shù),Φx1xi(ω)=ψ1i(ω)Gx1xi(ω)為廣義互相關(guān)譜,這樣x1(t)、xi(t)相對(duì)時(shí)延為
式(2)選取不同的權(quán)函數(shù)ψ1i(ω)可得到不同的時(shí)延估計(jì)算法.在實(shí)際應(yīng)用中,可根據(jù)實(shí)際的聲學(xué)環(huán)境選擇相應(yīng)的權(quán)函數(shù),使得互相關(guān)函數(shù)Rx1xi(τ)有個(gè)比較尖銳的峰值,得到較好的時(shí)延估計(jì)效果.文獻(xiàn)[7]給出了各種GCC加權(quán)函數(shù),并闡明了它們的優(yōu)缺點(diǎn).其中互功率譜相位(Cross Power SpectruMPhase,CPSP)算法使用的加權(quán)函數(shù)是:
圖1 GCC算法的實(shí)現(xiàn)流程圖
該加權(quán)函數(shù)相當(dāng)于白化濾波,它使信號(hào)的互功率譜變得平坦,從而銳化信號(hào)的廣義互相關(guān)函數(shù).
CPSP算法是在信號(hào)的整個(gè)頻帶上進(jìn)行時(shí)延估計(jì).在實(shí)際聲場中,有些頻帶可能噪聲很大,信噪比很低,甚至幾乎沒有目標(biāo)信號(hào)成分,在這種情況下,CPSP的時(shí)延估計(jì)精度不可避免要受到影響.下面提出BSBW-CPSP算法,算法流程如圖2所示.
圖2 BSBW-CPSP定位算法的原理框圖
帶通濾波器模塊是對(duì)陣列各陣元接收的信號(hào)分別進(jìn)行頻帶分解.它使用的頻帶分解濾波器是橢圓濾波器[8]:
其中,函數(shù)ellipord可以得到數(shù)字橢圓型濾波器的最小階數(shù)N和截止頻率wn,并使濾波器在通帶內(nèi)(0,wp)的波紋系數(shù)小于通帶最大衰減Ap,阻帶內(nèi)(ws,1)的波紋系數(shù)大于阻帶最小衰減As.ellip函數(shù)的功能是設(shè)計(jì)濾波器,它利用ellipord函數(shù)得到的最小階數(shù)N和截止頻率wn,可以設(shè)計(jì)低通、或帶通濾波器.返回參數(shù)b和a分別是橢圓濾波器系統(tǒng)函數(shù)分子多項(xiàng)式和分母多項(xiàng)式的系數(shù).
VAD(Voice Activity Detect語音活動(dòng)檢測)用于輔助檢測各頻帶噪聲強(qiáng)還是弱,決定哪些頻帶用于時(shí)延估計(jì),哪些頻帶將被舍棄.在靜音時(shí)(目標(biāo)信號(hào)非活動(dòng)時(shí)),檢測各個(gè)頻帶的能量,能量大的頻帶,噪聲大,信噪比低,在時(shí)延估計(jì)時(shí),放棄該頻帶的估計(jì)結(jié)果.據(jù)此可以得到各個(gè)頻帶的二值加權(quán)系數(shù):
這里,k是頻帶分解后的頻帶數(shù),下標(biāo)l表示第幾個(gè)頻帶.
把所有子帶的估計(jì)結(jié)果求平均,得最終的估計(jì)結(jié)果:
算出各陣元間接收信號(hào)的相對(duì)時(shí)延后,利用三角幾何關(guān)系就可以推算聲源的位置[9].
3.1 實(shí)驗(yàn)原理
實(shí)驗(yàn)是在一間普通的實(shí)驗(yàn)室進(jìn)行.以實(shí)驗(yàn)室的一個(gè)墻角為坐標(biāo)原點(diǎn)O,建立直角坐標(biāo)系,Ox和Oy分別與兩面墻與地面的兩條交線平行.實(shí)驗(yàn)時(shí),麥克風(fēng)陣列的拓?fù)浣Y(jié)構(gòu)和聲源S的位置如圖3所示.三個(gè)麥克風(fēng)M1、M2、M3的坐標(biāo)分別是(0,60.7),(0,0)和(60.2,0)(單位:cm),d1、d2、d3分別是目標(biāo)聲源S到M1、M2、M3的距離.
實(shí)驗(yàn)裝置的原理框圖如圖4所示:由麥克風(fēng)陣列、信號(hào)預(yù)處理、A/D同步數(shù)據(jù)采集和時(shí)延估計(jì)四個(gè)模塊組成.麥克風(fēng)陣列是三個(gè)電容式麥克風(fēng),信號(hào)預(yù)處理模塊是三個(gè)信號(hào)放大器,數(shù)據(jù)采集模塊采用BC425同步數(shù)據(jù)采集模塊. BC425是一款USB2.0總線14位8路同步并行數(shù)據(jù)采集模塊,可以最高80KHz/通道(周期12.5μs)的速度對(duì)8個(gè)輸入通道進(jìn)行模數(shù)轉(zhuǎn)換.BC425內(nèi)置512K Byte FIFO緩沖區(qū),支持實(shí)時(shí)不間斷數(shù)據(jù)采集.它提供內(nèi)、外部觸發(fā)采集及多種時(shí)鐘模式.
經(jīng)過BC425同步采集后的數(shù)據(jù)傳輸?shù)綍r(shí)延估計(jì)模塊,該模塊中的軟件利用不同的時(shí)延估計(jì)與定位算法計(jì)算出聲源的位置.
圖4 聲源定位裝置的原理框圖
假設(shè)聲源S到M1、M2的距離差為△d12,聲源S到M2、M3的距離差△d23,e12、e23分別是△d12、△d23的估計(jì)誤差.下面實(shí)驗(yàn)是通過比較不同算法△d12、△d23大小,判斷各種算法的時(shí)延估計(jì)效果.實(shí)驗(yàn)時(shí),頻帶分解后的頻帶數(shù)k=3.
3.2 實(shí)驗(yàn)結(jié)果
表1至表5是實(shí)驗(yàn)得到的數(shù)據(jù)和處理結(jié)果.BSBW-CPSP表示本文提出的二值子帶加權(quán)CPSP時(shí)延估計(jì)算法.實(shí)驗(yàn)結(jié)果表明,在不同噪聲源位置、不同信噪比的情況下,相比于CPSP算法,使用BSBW-CPSP算法,聲源定位的效果有明顯改善.
表1 不同算法聲源定位結(jié)果比較(SNR=7.39dB,單位:cm)
表2 不同算法聲源定位結(jié)果比較(SNR=4.69dB,單位:cm)
表3 不同算法聲源定位結(jié)果比較(SNR=7.35dB,單位:cm)
表4 不同算法聲源定位結(jié)果比較(SNR=4.72dB,單位:cm)
表5 不同算法聲源定位結(jié)果比較(SNR=0.75dB,單位:cm)
麥克風(fēng)陣列接收的信號(hào)在時(shí)域上分解成多個(gè)頻帶,利用VAD模塊給出各頻帶的二值權(quán)重,然后在權(quán)重為1的各個(gè)子帶上用CPSP算法估計(jì)時(shí)延,最后求它們的平均值作為最終的時(shí)延估計(jì)值.實(shí)驗(yàn)結(jié)果表明,BSBW-CPSP算法,相對(duì)于CPSP算法的時(shí)延估計(jì)結(jié)果更為精確.
〔1〕Yamada,S.Nakamura and K.Shikano.Distant-talking speech recognition based on a 3-D Viterbi search using a microphone array[J].Speech Audio Processing,2000,(10): 48-56.
〔2〕廖逢釵,李鵬,劉文舉.采用聽覺濾波器的寬帶MUSIC聲源定位方法[J].聲學(xué)學(xué)報(bào),2012(6):642-650.
〔3〕M.Wax,T.Kailat.0IptimuM10 calization of multiple sources by passiVe afrays[J].Speech and Signal Processing,1983,31(5):1210~1217.
〔4〕陳可,汪增福.基于聲壓幅度比的聲源定位[J].計(jì)算機(jī)仿真學(xué)報(bào),2004,21(1):85~89.
〔5〕Dirk Bechler,Kristian Kroschel.Reliability Criteria Evaluation for TDOA Estimates in a Variety of Real Environments[C].Conf.Acoustics,Speech and Signal Processing(ICASSP).Pennsylvania,Philadelphia,USA,2005: 985-988.
〔6〕戎曉政,劉加.聲源定位中的時(shí)延估計(jì)方法研究[J].電聲基礎(chǔ)學(xué)報(bào),2010,34(2):42-46.
〔7〕王宏禹,邱天爽,自適應(yīng)噪聲抵消和時(shí)間延遲估計(jì)[M].大連:大連理工大學(xué)出版社,1999.
〔8〕張晨燕,申維新.利用MATLAB函數(shù)設(shè)計(jì)IIR數(shù)字濾波器[J].中國民航飛行學(xué)院學(xué)報(bào),2006,17(1):24-28.
〔9〕Feng-chai LIAO,Su-xia CHEN.Intelligent mobile robots localization systeMcombined ZigBee and distributed microphone array[C].Jianping Chen.ISISE2012. USA:IEEE Computer Society CPS,2012:52-55.
TN119.7
A
1673-260X(2013)07-0116-03
福建省自然科學(xué)基金(2009J01296);三明學(xué)院大學(xué)生創(chuàng)新實(shí)驗(yàn)項(xiàng)目(ZL1113/CS)