摘要:聲源定位的準確程度對語音增強的效果影響很大,因而成為語音增強領(lǐng)域的重要研究方向。本文提出一種基于語音活動檢測的實時處理聲源定位方法,僅在目標語音段進行判定。相對傳統(tǒng)聲源定位方法,可以明顯提高判定的有效性. 仿真實驗表明本文方法在實時處理系統(tǒng)中能更有效的實現(xiàn)聲源定位。
關(guān)鍵詞:聲源定位;語音活動檢測;語音增強
中圖分類號:TP302 文獻標識碼:A 文章編號:1009-3044(2017)04-0251-02
A Sound Source Localization Method Based on Voice Activity Detection
YANG Li-chun
(Institute of Intelligent Control Technology, Zhejiang Wanli University, Ningbo 315101, China)
Abstract: The accuracy of sound source localization has a great influence on speech enhancement, which is an important study direction in the field of speech enhancement. This paper proposes a real-time processing of sound source localization method based on voice activity detection which decision lie only in target speech segments. Compared with the traditional sound source localization method, the proposed method can significantly improve the effectiveness of the determination. The simulation experiment shows that the proposed method is more effective in real-time system for realize sound source localization than that its counterpart.
Key words: Sound Source Localization;Voice Activity Detection;Speech Enhancement
麥克風(fēng)陣列語音增強[1]是語音通訊和交互領(lǐng)域的關(guān)鍵技術(shù),其效果直接影響目標語言質(zhì)量的好壞,而聲源定位則是麥克風(fēng)陣列語音增強的重要支持。當前語音定位技術(shù)是利用時延估計實現(xiàn)的,時延估計技術(shù)主要包括廣義互相關(guān)(Generalized Cross Correlation, GCC)[2]算法和最小均方自適應(yīng)(Least Mean Square, LMS)[3]濾波兩種方法,其思想都是尋找語音段內(nèi)能量最強的方向。在實時處理系統(tǒng)中,由于各種環(huán)境干擾,如語音、音樂、機器以及汽車等,造成無法有效和正確估計目標信號的方向。
為了解決這個問題,本文提出一種基于語音活動檢測(Voice Activity Detection, VAD)的目標語音定位方法,使得聲源定位僅在語音段進行,可以規(guī)避在非語音段進行聲源定位而導(dǎo)致的定位錯誤發(fā)生,進而可以提高聲源定位的有效性。
1基于語音活動檢測的廣義互相關(guān)的聲源定位
為了獲得目標聲源的位置,需要得到其在兩個麥克風(fēng)的時延,本文的方法是基于GCC的無偏互相關(guān)函數(shù)實現(xiàn)時延估計。假定目標聲源與噪聲獨立不相關(guān),則兩個麥克風(fēng)獲得的信號分別可用式(1)和(2)表示:
其中:x1與x2分別表示兩個麥克風(fēng)獲得的信號;t表示時刻;s表示目標語音信號;v1,v2表示兩個麥克風(fēng)接收到的噪聲信號;τ表示兩個麥克風(fēng)接收到目標語音信號的時延。
則兩個麥克風(fēng)接收到信號的互相關(guān)函數(shù)可表示為式(3)形式:
其中
其中T為觀測時間。由于實際采集的是離散信號,所以式(4)可改寫成式(5)的形式:
其中n表示采樣點。在式(5)中,我們可以近似認為
本文的語音活動檢測方法是基于WebRtc[4]中的VAD算法,該方法首先在頻域內(nèi)把信號分成6個子帶,并分別計算每個子帶的能量;然后使用高斯混合模型 (Gaussian Mixture Model, GMM)分別計算語音和非語音存在的概率,并通過相應(yīng)的概率來判斷語音和噪聲。GMM的噪聲和語音模型如式(6)所示:
其中:xk是選取的特征量,在WebRtc的VAD中具體是指子帶能量;rk是包括均值uz和方差sita的參數(shù)集合;z=0,代表噪聲;z=1,代表語音。
2 仿真實驗
實驗中,不失一般性,我們采用2個麥克風(fēng)組成一個小陣列進行聲源定位,陣元間距為4cm,采樣率為16KHz。分別利用傳統(tǒng)的廣義互相關(guān)算法和本文提出的基于VAD的算法進行驗證。
實驗環(huán)境在一個普通會議室內(nèi),測試10次,每次語速和目標語音間隔不同,信噪比均為10dB左右,干擾源為風(fēng)扇、機器以及嘈雜說話聲(babble),每次錄音時,目標聲源分別在位于陣列中心0°到180°每隔20°共10個位置分別說一句話,以模擬聲源移動。每次實驗錄音長度均選取45秒,然后使用本文算法和GCC方法對這10個錄音進行計算,對結(jié)果進行平均,其結(jié)果如圖1所示:
從圖1中可以看出,本文的算法在實時系統(tǒng)中無論目標聲源位于哪個位置,估計的方向與實際方向誤差很小,因而表明本文提出的方法具有較好的準確性和魯棒性。
3 總結(jié)
實際應(yīng)用中,由于目標信號位置可能會發(fā)生變化,因此實時處理系統(tǒng)需不斷判定目標聲源位置,本文提出的僅在語音段進行聲源位置判定,可以有效避免在非語音段判定造成的定位錯誤,因而具有較好的理論意義和實際應(yīng)用價值。
參考文獻:
[1] 楊立春, 葉敏超, 錢沄濤. 基于多任務(wù)稀疏表達的二元麥克風(fēng)小陣列語音增強算法[J]. 通信學(xué)報, 2014, 35(2):87-94.
[2] Knapp C H,Carter G C, The Generalized Correlation Method for Estimation of Time Delay[J]. IEEE Transactions on Acoustics, Speech and Signal Processing. 1976, 24(4):320-327.
[3] Widrow B, Hoff M E. Adaptive switching circuits[J]. WESCON Conv. Rec, 1960, 5(3): 96-104.
[4] https://webrtc.org