章宇棟,黃惠祥,童 峰
(廈門大學 海洋與地球學院,水聲通信與海洋信息技術教育部重點實驗室,福建 廈門 361102)
麥克風陣列技術如今已廣泛應用于智能機器人、視頻會議、可穿戴設備、語音增強等領域.麥克風陣列的語音增強功能主要通過先對聲源定位,再對其方位進行波束增強,抑制旁瓣來實現(xiàn).實際應用中如會議等具有多說話人的場景,語音增強設備需不斷重新定位語音增強方向,在此類場景下,如何分辨多人同時說話以及進行定位語音增強成為了新的挑戰(zhàn).
麥克風陣列聲源定位技術主要分為3大類:1) 基于最大輸出功率的可控波束形成的聲源定位技術[1]在實際使用過程中需要進行全局搜索,運算量較大,還會影響到定位的實時性,同時還需要提前得到信號源頻譜特性與環(huán)境噪聲先驗知識的關系,因此不易實現(xiàn);2) 基于高分辨率譜估計的聲源定位技術[2]主要運用于窄帶信號,對于語音信號這樣的寬帶信號,會導致算法運算量增加,同樣不利于實現(xiàn);3) 基于互相關時延估計的聲源定位技術[3]計算量較小、易實現(xiàn),但在室內(nèi)混響嚴重及低信噪比環(huán)境下性能下降嚴重.
相位變換加權的可控響應功率(SRP-PHAT)定位算法[4]結合了可控響應功率和相位變換加權的優(yōu)點,比基于時延估計的定位算法具有更好的性能,但在混響和噪聲較強的環(huán)境下,該聲源定位算法性能驟降.此外傳統(tǒng)的麥克風陣列針對多聲源定位的方法,如時延估計的L型麥克風陣列進行多聲源波達方向(DOA)估計[5]以及利用L型的麥克風陣列獲得多聲源的頻率及到達角的聯(lián)合估計方法[6],均是采用L型麥克風陣列來獲得到達角的空間位置及時延關系,從而對多聲源進行定位,而本研究則基于壓縮感知(CS)理論對多聲源進行定位與分辨.
CS理論最重要的意義在于可以極大地減輕信號采集端的復雜度,在采集端低采樣率的情況下,信號的接收端能以比較大的概率重構出原始信號.在水聲信道估計中,CS信道估計可利用信道稀疏特性提高估計性能[7].CS理論突破了原有的奈奎斯特采樣定理的束縛,當信號滿足稀疏信號的條件時,可線性投影到低維空間上,若CS矩陣滿足約束等距性(RIP)條件,則可根據(jù)低維的壓縮采樣信號實現(xiàn)高概率的準確重構[8].
趙小燕等[9]基于CS的聲源定位算法,通過將麥克風接收的信號轉換至頻域,將聲源可能存在的空間位置所對應的房間頻域響應定為特征字典,再利用正交匹配追蹤(OMP)算法重構出信號,加強聲源的位置信息,從而獲得更為魯棒的聲源位置估計.在高混響低信噪比的仿真實驗條件下,CS-OMP算法的定位性能要明顯優(yōu)于SRP-PHAT算法.但該算法需要事先測量各聲源可能存在的空間位置的房間沖激響應,在實際應用背景下仍有較大的不便性[10].
在CS-OMP算法的基礎上,本研究在高混響低信噪比環(huán)境下直接利用麥克風陣列陣元間的時延關系構造房間沖激響應,并進行了在此環(huán)境下的多說話人聲源方位估計的實驗.對SRP-PHAT、DS、CS-OMP以及本研究基于構造房間沖激響應CS(CRR-CS)的DOA估計算法在不同信噪比等多種條件下對多聲源的分辨能力進行對比和評估.
對于一個處在室內(nèi)環(huán)境中的M元線性麥克風陣列,第m個麥克風接收到的信號為
xm(n)=hm(rs,n)*s(n)+wm(n),
m=1,2,…,M,
(1)
其中,*表示卷積運算,n為離散時間序列,s(n)為聲源信號,wm(n)為第m個麥克風接收到的噪聲,hm(rs,n)為聲源位置rs到第m個麥克風的房間沖激響應.
假定N×1維復矢量Y=[Y1,Y2,…,YN]T可用基矩陣Ψ=[Ψ1,Ψ2,…,ΨN]T線性表示為
(2)
其中,S=[S1,S2,…,SN]T表示N×1維的系數(shù)矢量.
若矢量S中非零的個數(shù)‖S‖0滿足
‖S‖0=P?N,
(3)
則稱信號Y為基矩陣Ψ上的稀疏信號.式中,‖·‖為l0范數(shù),P為Y的稀疏度,Ψ為稀疏基.
在CS理論中,若Y在某已知基矩陣Ψ上的系數(shù)是稀疏的,則稀疏的信號Y可以線性投影到低維空間上,利用低維的壓縮采樣信號可高概率地無損重構出高維的原始信號.通常用一個M×N維觀測矩陣Φ對信號Y進行線性變換,得到M×1維的觀測矢量
X=ΦY=ΦΨS=ΘS.
(4)
其中,X=[X1,X2,…,XM]T(M?N)為觀測矢量,Θ=ΦΨ為CS矩陣.
當隨機觀測矩陣Φ滿足M≥CPlog(N/P)時(C是一個與恢復精度有關的常數(shù)),CS矩陣Θ能夠以較大概率滿足RIP條件.若CS矩陣Θ滿足RIP條件,則可實現(xiàn)高概率準確的信號重構[11].在實際情況中,噪聲往往無法避免,需對欠定方程(4)引入加性噪聲項,即
X=ΘS+W,
(5)
其中,W為有界噪聲.
在Y為稀疏信號的前提條件下,式(5)可以通過l0范數(shù)最小化方式求解,即
s.t. ‖X-ΘS‖2≤ε,
(6)
其中,ε是與噪聲相關的常量.
CS理論的核心問題是信號的重構,目前已有的重構算法有OMP算法、基追蹤(BP)算法等,本研究采用OMP算法.
麥克風陣元接收到的信號xm(n)加窗后,經(jīng)離散傅里葉變換得到頻域信號Xm(k).假如房間沖激響應的長度遠小于窗函數(shù)的長度,再將其用矢量描述為
X(k)=H(rs,k)S(k)+W(k).
(7)
其中:S(k)為聲源信號的頻域矢量;X(k)為麥克風接收信號的頻域矢量,X(k)=[X1(k),X2(k),…,XM(k)]T;H(rs,k)為聲源rs處的房間頻域響應矢量,H(rs,k)=[H1(rs,k),H2(rs,k),…,HM(rs,k)]T;W(k)為噪聲的頻域矢量,W(k)=[W1(k),W2(k),…,WM(k)]T.
聲源可能存在的空間位置集為{r1,r2,…,rI},則ri對應的房間頻域響應矢量為H(ri,k),假定空域離散位置的個數(shù)即稀疏度I,當其遠大于目標聲源的個數(shù)時,則冗余的房間頻域響應矩陣為
D(k)=[H(r1,k),H(r2,k),…,H(rI,k)].
(8)
將式(8)中冗余房間頻域響應矩陣D(k)稱為字典,在此條件下,可將式(7)改寫為
(9)
(10)
(11)
(12)
hm(rs,n)=δ(n,tm),
(13)
其中,
(14)
其中,θ為信號入射方向與陣列夾角,c為聲速,fs為采樣率[13].
實驗在空間尺寸約為30 m×20 m×6 m的廈門大學藝術學院音樂廳進行.麥克風陣列為陣元間距13.5 cm的7元均勻線陣,語音信號為TIMIT標準語音信號[14],通過Marshall藍牙音箱播放,采樣率為16 kHz.將2個聲源分別放置在陣列前方30°,0°兩個方位上進行播放,對比不同算法性能的多聲源DOA估計性能.此外利用Marshall藍牙音箱播放噪聲進行實錄以用于疊加構成不同信噪比場景.
麥克風陣列的波束方向性函數(shù)為[15]:
(15)
其中,N為麥克風數(shù),f為語音段頻率,ψ為定位角.波束寬度為主極大值到理論上出現(xiàn)零時的角度,假定入射角θ=90°,f=2 kHz,d=13.5 cm,可以求得理論波束寬度約為21.9°,故實驗中將掃描精度設置為15°,略小于理論波束寬度.由于是對多聲源進行定位與分辨,雙聲源若設置間隔太遠,則易于分辨;若設置角度間隔小于理論波束寬度,則會導致雙聲源的信號強度都最大而無法判定是否準確分辨.故雙聲源角度間隔設置為略大于理論波束寬度的30°.
原始語音信號信噪比為15.66 dB,通過疊加實錄的噪聲來構造不同信噪比的測試信號,用來對SRP-PHAT、DS,以及CRR-CS算法在不同信噪比條件下對多聲源定位估計的分辨性能.其中,通過實測獲得的各空間位置到麥克風陣列的沖激響應用于CS-OMP算法構造稀疏恢復方程.算法實驗參數(shù)設置見表1.
表1 實驗參數(shù)設置
2.2.1不同信噪比下各算法對多聲源的分辨性能
當I=2,η=0.15時,不同信噪比條件下各算法對多聲源的分辨能力如圖1所示.
從圖1可以看出,在不同信噪比條件下CRR-CS算法曲線在不同聲源方向都有尖銳的指向性,可見CRR-CS算法對兩個聲源的方位估計具有很強的分辨能力,且定位效果很好;DS算法能夠大致估計出聲源的位置,但無法分辨兩個不同的聲源;SRP-PHAT算法也能夠分辨出兩個不同的聲源位置,但指向性尖銳程度及分辨性能都要低于CRR-CS算法;CS-OMP算法分辨兩個聲源的能力較差.同時在圖中可以發(fā)現(xiàn)隨著信噪比的下降,各算法對于多聲源的分辨能力也在下降,但CRR-CS算法仍明顯優(yōu)于其他算法.
圖1 不同信噪比下各算法對多聲源的分辨性能Fig.1 Resolving performance of multiple sources for each algorithm at different signal noise ratios
考慮到實驗設置的分辨率為15°,故采用樣條插值法進行均方根誤差(RMSE,εRMSE)性能評估[16].各算法信號強度最高的兩處分別通過樣條插值法獲得預測角度,真值方向為聲源所在的角度,通過式(16)計算各算法的RMSE,考慮到DS算法無法分辨出2個不同的聲源,故不參與比較.
圖2 不同頻點閾值下各算法對多聲源的分辨性能Fig.2 Resolving performance of multiple sources for each algorithm at different frequency threshold
(16)
從表2可以看出各算法隨著信噪比的下降,RMSE總體上有增加的趨勢,但CRR-CS的結果不但誤差較小,且增長小于其余兩種算法,而CS-OMP算法在6.57 dB信噪比環(huán)境下的預測角度出現(xiàn)了明顯的錯誤.
表2 不同信噪比下各算法DOA估計的RMSE
2.2.2不同頻點閾值下各算法對多聲源的分辨性能
當I=2,信噪比為15.67 dB時,不同算法頻點閾值條件下各算法對多聲源的分辨能力如圖2所示.
由于DS算法與SRP-PHAT算法中無需設置頻點閾值,故此部分沒有參數(shù)發(fā)生變化,故DS算法與SRP-PHAT算法的結果在此處僅作參考.從圖2中可以看出隨著頻點閾值η的增大,CS-OMP算法與CRR-CS算法的分辨能力都有所提升,但CRR-CS算法性能要明顯優(yōu)于CS-OMP算法.
2.2.3不同稀疏度下各算法對多聲源的分辨性能
當信噪比為15.67 dB,η=0.15時,不同聲源數(shù)I條件下各算法對多聲源的分辨能力如圖3所示.
圖3 不同稀疏度下各算法對多聲源的分辨性能Fig.3 Resolving performance of multiple sources for each algorithm at different sparseness
考慮到實際應用場景中往往無法準確獲知聲源準確數(shù)量,文中對設置不同聲源數(shù)時傳統(tǒng)OMP算法與CRR-CS算法的性能變化信息評估.在實驗中分別設I為1,2,3,對比CS-OMP和CRR-CS算法在不同稀疏度下的分辨性能.I=1時,CS-OMP算法無法成功定位出聲源位置且不能分辨多聲源,I為2和3時能夠定位準確但分辨效果差;盡管CRR-CS算法隨著稀疏度的增加分辨性能有所下降,但仍舊遠優(yōu)于CS-OMP算法.可見CRR-CS算法對于設置不同聲源數(shù)的情況下,其估計結果仍具有一定的穩(wěn)健性.
本研究將基于CS的麥克風陣列定位算法應用于多聲源環(huán)境當中,在CS-OMP算法的基礎上,考慮到多聲源場景,通過利用陣元間時延關系直接產(chǎn)生的房間沖激響應進行混合矩陣構造.結果表明,本文中提出的CRR-CS算法對多聲源的方位估計能力相比SRP-PHAT和DS算法更優(yōu)秀,且在不同信噪比環(huán)境中均對多聲源有更好的分辨能力.同時,在聲源數(shù)未知及不同頻點閾值的情況下,CRR-CS算法的分辨及定位性能要比CS-OMP算法強.可見:文中利用麥克風陣列陣元之間的時延關系構造房間沖激響應既減少了需要進行實測的房間沖激響應的步驟,又提高了多聲源分辨能力.
參考文獻:
[1]WAX M,KAILATH T.Optimum localization of multiple sources by passive arrays[J].IEEE Transaction on Acoustics,Speech,and Signal Processing,1983,31(5):1210-1217.
[2]GUSTAFSSON T,RAO B D,TRIVEDI M.Source localization in reverberant environments:modeling and statistical analysis[J].IEEE Transactions on Speech and Audio Processing,2003,11(6):791-803.
[3]HUANG L,WU S J,ZHANG L R.A novel MUSIC algorithm for direction-of-arrival estimation without the estimate of covariance matrix and its eigendecomposition[C]∥Proceedings of IEEE International Conference on Vehicular Technology.Stockholm:IEEE,2005:16-19.
[4]ZHAO X Y,TANG J,ZHOU L,et al.Accelerated steered response power method for sound source localization via clustering search[J].Science China Physics,Mechanics and Astronomy,2013,56(7):1329-1338.
[5]張艷娜.基于麥克風陣列的多聲源定位算法研究[D].沈陽:沈陽航空航天大學,2014:11-15
[6]付金山,李秀坤.聲矢量陣 DOA 估計的稀疏分解理論研究[J].哈爾濱工程大學學報,2013,34(3):281-286.
[7]伍飛云,童峰.塊稀疏水聲信道的改進壓縮感知估計[J].聲學學報,2017,42(1):27-36.
[8]金光明.基于麥克風陣列多聲源定位的新方法[J].東北大學學報(自然科學版),2012,33(6):769-773.
[9]趙小燕,周琳,吳鎮(zhèn)揚.基于壓縮感知的麥克風陣列聲源定位算法[J].東南大學學報(自然科學版),2015,45(2):203-207.
[10]李劍汶,章宇棟,童峰.一種采用旁瓣增強的麥克風陣列抗混響算法[J].廈門大學學報(自然科學版),2017,56(5):711-717.
[11]CANTLES E,ROMBERG J.Uncertainty principles:exact signal reconstruction from highly incomplete frequency information [J].IEEE Transactions on Information Theory,2006,52(2):489-509.
[12]TROPP J A,GILBERT A C.Signal recovery from random measurements via orthogonal matching pursuit[J].IEEE Transactions on Information Theory,2007,53(12):4655-4666.
[13]李芳蘭,周躍海,童峰.采用可調(diào)波束形成器的GSC麥克風陣列語音增強方法[J].廈門大學學報(自然科學版),2013,52(2):186-189.
[14]GAROFOLO J S,LAMEL L F,FISHER W M,et al.TIMIT acoustic-phonetic continuous speech corpus LDC93S1.[DB/OL].[2017-06-22].https:∥catalog.ldc.upenn.edu/LDC93S1.
[15]BENESTY J,CHEN J,HUANG Y.Microphone array signal processing[M].Berlin Heidelberg:Springer Science & Business Media,2008:43-46.
[16]GANGNLY A,REDDY C,HAO Y,et al.Improving sound localization for hearing aid devices using smartphone assisted technology[C]∥2016 IEEE International Workshop on Signal Processing Systems (SiPS).Dallas:IEEE,2016:165-170.