亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于頻域Bark 子帶的聲源定向方法

2020-12-16 08:52:30張小博

電聲技術(shù) 2020年7期

王荔，張小博，陳龍

（1.北京中電慧聲科技有限公司，北京 100015；2.中國電子科技集團公司第三研究所，北京 100015）

基于麥克風(fēng)陣列的聲源定向是語音信號處理中的一個重要問題，在視頻會議、智能監(jiān)控、人機語音交互等領(lǐng)域有著廣泛應(yīng)用［1-3］?；邴溈孙L(fēng)陣列的聲源定向方法大致可以分為基于到達時間差的定向方法、基于最大輸出功率的可控波束形成方法和基于高分辨譜估計的定向方法［4-6］3 類。本文研究的基于頻域Bark 子帶的波束掃描聲源定向方法屬于基于高分辨譜估計的定向方法。

由于語音信號屬于寬帶信號，傳統(tǒng)基于高分辨譜估計的聲源定向方法在處理寬帶信號時大多采用子帶波束掃描方法，根據(jù)均勻子帶劃分的方式，將語音信號按照頻帶連續(xù)的原則分割成若干個相同帶寬間隔的子帶。先在各子帶求取空間譜，再將多個窄帶空間譜進行平均，最終得到譜估計［7］。然而，語音信號能量大多集中在低頻段（小于3 400 Hz），并不是在每個頻段都一直包含語音成分，如有些波段可能僅包含了噪聲［8］。傳統(tǒng)方法并未充分利用語音信號的頻率特性，采用全頻帶定向，易受噪聲波段影響，存在定向精度有限和計算復(fù)雜度高的問題，且在低信噪比情況下算法極易失效。

人的耳蝸在處理聲音信號時，具有與頻譜分析儀類似的功能。耳蝸的基底膜對聲音信號有頻率選擇作用。在20～22 050 Hz 范圍內(nèi)的頻率，可劃分為25 個頻率群。頻率群的劃分相當于將基底膜劃分成許多很小的部分，每部分對應(yīng)一個頻率群。這個頻率群的頻率范圍被稱為不等帶寬（Bark）子帶。人耳所聽到的聲音在同一頻率群中能量互相疊加，構(gòu)成了人耳聽覺特性的臨界帶頻率分布［9-10］。受人耳聽覺選擇性的啟發(fā)，考慮Bark 子帶具有以下優(yōu)點：（1）Bark 子帶劃分充分利用人耳聽覺的感知特點，對信號低頻刻畫較細致；（2）用較少Bark子帶計算代替大量頻帶計算，能降低運算復(fù)雜度，便于實時實現(xiàn)。因此，本文提出了一種基于Bark子帶的波束掃描聲源定向方法。

全文結(jié)構(gòu)設(shè)計如下：第1 節(jié)將介紹寬帶麥克風(fēng)陣列輸出信號模型，第2 節(jié)將介紹提出的方法，第3 節(jié)給出計算機仿真實例來驗證算法的性能，第4節(jié)總結(jié)全文。

1 寬帶麥克風(fēng)陣列輸出信號模型

以均勻圓陣為例，建立信號處理數(shù)學(xué)模型。假設(shè)寬帶信號s(t)從遠場入射到一個由N個各向同性麥克風(fēng)均勻分布的圓陣上，圓陣半徑為r，令陣列中心（圓心）為參考原點。設(shè)入射信號俯仰角為φ0=90°，方位角為θ0∈[0°,360°]。各個麥克風(fēng)陣元的噪聲為空間白噪聲，即各個噪聲之間相互獨立。此外，噪聲與信號之間相互獨立。均勻圓陣觀測模型及遠場信號傳播示意圖如圖1 所示。

信號s(t)的傳播矢量為：

用dn表示陣元n的位置矢量，則信號到達陣元n相對于到達參考原點的傳播時延τn為：

式中，c為信號傳播速度。

于是，第n個陣元時域輸出可以寫為：

式中，vn(t)為第n個陣元的噪聲。

假設(shè)陣列數(shù)據(jù)觀測時間為T0（T0＞＞τn,n=1,…,N），第n個陣元頻域輸出可以寫為：

式中，S(ωk)為頻點ωk處信號的有限時間傅里葉變換，vn(ωk)為頻點ωk處第n個陣元上噪聲的有限時間傅里葉變換。

對于N元陣列，陣列頻域輸出信號矢量具有下述形式：

式中，a(ωk,θ0)為信號在頻點ωk處的導(dǎo)向矢量，v(ωk)為頻點ωk處的噪聲矢量。

2 算法原理

經(jīng)典的子帶波束掃描方法是根據(jù)均勻子帶劃分的方式，將寬帶信號按照頻帶連續(xù)的原則分割成若干個相同帶寬間隔的子帶，再分別對每個子帶數(shù)據(jù)求取空間譜，然后對所有子帶空間譜進行平均，利用平均空間譜搜索，估計最終寬帶信號的波達方向。由于語音信號并不是在每個頻段都一直包含語音成分，很大部分時間里有些波段可能僅包含噪聲特點，因此采用全頻帶定向很容易出現(xiàn)較大角度估計誤差，且計算復(fù)雜度高，很難實時處理。為解決上述問題，結(jié)合語音信號的頻譜特性和耳蝸的分頻特性，提出了一種基于Bark 子帶的波束掃描定向方法。

本文采用Capon 設(shè)計準則，即要求對應(yīng)于頻點ωk的子帶波束主瓣指向某一方向θ的輸出功率不變，使總輸出功率最小化，則子帶波束形成器的權(quán)矢量可按式（8）進行設(shè)計：

式中，Rxx(ωk)為頻點ωk處陣列頻域輸出的協(xié)方差矩陣。它的估計方法是先選取陣列數(shù)據(jù)觀測時間T0內(nèi)snap幀語音數(shù)據(jù)，每幀點數(shù)wlen，利用離散傅里葉變換將snap幀數(shù)據(jù)分別變換至wlen個公共處理頻點，然后對各幀所得到的對應(yīng)于相同頻點的頻域數(shù)據(jù)進行平均，即：

式中，xp(k)為第p幀語音數(shù)據(jù)的離散傅里葉變換在頻點ωk處的值。

利用拉格朗日乘子法，可得式（8）的解：

于是，對應(yīng)于頻點ωk的子帶空間譜表達式為：

受人耳聽覺系統(tǒng)啟發(fā)，人耳耳蝸不同的區(qū)域能夠感受不同頻率范圍的聲音?；啄た梢钥闯墒且唤M頻帶重疊的非線性帶通濾波器。這組帶通濾波器將整個頻帶劃分為若干個不等寬頻帶，稱為Bark 濾波器。Bark 濾波器的中心頻率如表1 所示。

同時，考慮語音信號能量通常集中在較高的低頻段（小于3 400 Hz），所以選取Bark 濾波器前17個頻帶中心頻率作為聲源定向感興趣頻點的選擇。又考慮到50 Hz 通常會引入工頻噪聲，所以將第一感興趣頻率修改為60 Hz。為防止頻點溢出，除第一頻率只采用向上取整，其他感興趣頻率f對應(yīng)的頻點都采用向上向下取整，計算公式如下：

式中，fs為信號采樣率。

用K表示感興趣頻點總數(shù)，則最終平均空間譜表達式為：

表1 Bark 濾波器的中心頻率

利用Capon 平均空間譜并在全部角度區(qū)域上搜索其峰值，即可估計出聲源方向。

3 實驗分析

下面通過計算機仿真來驗證所提方法的有效性，實驗結(jié)果為30 次獨立重復(fù)實驗的平均值。定向質(zhì)量評價指標采用分辨概率和角度估計均方根誤差兩個，定義如下。

對于分辨概率（Resolution Probability，RP），假設(shè)信號估計角度和實際角度偏差的絕對值不超過10°，且空間譜中的最大譜峰值比可能的偽峰高1 dB 以上，則認為信號被成功分辨，則分辨概率定義為：

式中，Ts為所有實驗中判為成功的次數(shù)，T為獨立重復(fù)實驗總次數(shù)。

對于角度估計均方根誤差（Root Mean Square Error，RMSE），有：

式中，θ0為信號的真實入射角度，為信號的估計入射角度，T為獨立重復(fù)實驗總次數(shù)。

3.1 實驗1

采用半徑為6 cm 的均勻圓陣，陣元個數(shù)為6。語音信號從遠場入射，方位角為300°，真實語音數(shù)據(jù)在消聲室采集，采樣率為16 kHz。噪聲為高斯白噪聲。陣列數(shù)據(jù)觀測時間T0內(nèi)取16 幀語音數(shù)據(jù)，每幀點數(shù)256?？臻g譜搜索步徑設(shè)置為1°。圖2和圖3 分別給出信噪比為5 dB 和20 dB 情況下本文方法和傳統(tǒng)方法平均空間譜對比圖。實驗結(jié)果表明，在所設(shè)定實驗條件下，本文方法能準確檢測出信號，而傳統(tǒng)方法偽峰較多，在低信噪比情況下幾乎失效。

3.2 實驗2

實驗條件同實驗1，陣列數(shù)據(jù)觀測時間T0內(nèi)取16 幀語音數(shù)據(jù)，每幀點數(shù)256。圖4 給出兩種方法分辨概率隨輸入信噪比變化圖。實驗結(jié)果表明，在設(shè)定的實驗條件下，兩種方法的分辨概率隨輸入信噪比的增加而增加。本文方法的分辨概率優(yōu)于傳統(tǒng)方法，在信噪比大于7.5 dB時，分辨概率接近于1；傳統(tǒng)方法受偽峰影響較大，在低信噪比情況下分辨概率接近于0。

3.3 實驗3

實驗條件同實驗1，陣列數(shù)據(jù)觀測時間T0內(nèi)取16 幀語音數(shù)據(jù)，每幀點數(shù)256。圖5 給出兩種方法角度估計均方根誤差隨輸入信噪比變化圖。實驗結(jié)果表明，在設(shè)定的實驗條件下，兩種方法的角度估計均方根誤差隨輸入信噪比的增加而減小。本文方法的角度估計均方根誤差控制在7°以內(nèi)，當信噪比大于10 dB 時，角度估計均方根誤差小于2°。

3.4 實驗4

實驗條件同實驗1，比較兩種方法的平均計算時間。仿真所用計算機配置如下：CPU 為Intel（R） Core（TM） i7-7700K CPU@4.20GHz，內(nèi)存16.0 GB，系統(tǒng)為Windows64 位操作系統(tǒng)；MATLAB版本為2016b。表2 為兩種方法不同空間譜搜索步徑在30 次獨立實驗下的平均計算時間。從表2 可以看出，本文方法的計算復(fù)雜度遠低于傳統(tǒng)方法。

表2 兩種方法計算時間比較

4 結(jié)語

本文提出了一種基于Bark 子帶的波束掃描聲源定向方法，從語音信號能量集中低頻的特點和人耳聽覺系統(tǒng)耳蝸具有分頻的特性出發(fā)，以Bark 子帶的中心頻率為主頻點進行非均勻頻點選取，利用Capon 平均空間譜搜索確定聲源方向。相比于傳統(tǒng)均勻子帶波束掃描法，本文方法具有更高的分辨概率和更小的角度估計均方根誤差，同時減少計算復(fù)雜度，實用性強。