范忠奇,王善斌
(山東理工大學(xué) 計算機(jī)學(xué)院,山東 淄博255049)
多通道語音增強(qiáng)技術(shù)是近年來發(fā)展起來的一種多功能麥克風(fēng)系統(tǒng)。多通道語音增強(qiáng)算法主要包括經(jīng)典波束形成算法、多通道維納算法、多通道子空間算法、多通道最小失真算法以及多通道統(tǒng)計估計算法。這些多通道語音增強(qiáng)算法可以在增加麥克風(fēng)數(shù)量的同時減少語音失真的背景噪聲,但不同情況其性能不同。多通道維納算法在平穩(wěn)噪聲情況下獲得了良好的性能,但在非平穩(wěn)噪聲情況下性能較差。多通道子空間算法比維納算法在非平穩(wěn)噪聲情況具有更好的性能,多通道統(tǒng)計估計算法通過假設(shè)清潔語音信號和噪聲信號的傅里葉系數(shù)服從一定的概率分布,從而降低了背景噪聲。卡爾曼濾波被稱為一種有效的語音增強(qiáng)技術(shù),不需要假設(shè)信號的平穩(wěn)性,現(xiàn)有的用于語音增強(qiáng)的卡爾曼濾波算法都是通過提高卡爾曼濾波的AR參數(shù)的精度來實現(xiàn)的。本文提出了一種在有色噪聲環(huán)境下的時域分布式多通道語音增強(qiáng)濾波算法。該算法是基于卡爾曼濾波的時域多通道語音增強(qiáng)算法。仿真結(jié)果表明,該算法優(yōu)于幾種傳統(tǒng)的多通道語音增強(qiáng)算法,實現(xiàn)了更高的降噪和低信號失真。
分布式麥克風(fēng)系統(tǒng),它可以準(zhǔn)確地及時去除M嘈雜的發(fā)言。分布式多通道麥克風(fēng)模型可描述為:
其中M是通道的數(shù)量,yi(n)和vi(n)是噪聲并且是第n個樣本和通道i中的噪聲語音和背景噪聲,si(n)是真正的源信號,ci∈[0、1]是時間不變衰減因子。在特殊情況下,M=1和c1=1,分布式多通道模型成為一個眾所周知的單通道模型。我們的目標(biāo)是從M嘈雜的信號觀測{yi(n)}Mi-1中估計語音信號s(n)。
本文提出了一種基于卡爾曼濾波算法的分布式多通道語音增強(qiáng)的時間域在有色噪聲的情況下,讓語音信號s(n)被建模為AR過程:
ai是AR語音模型參數(shù),u(n)是方差的高斯白噪聲。用向量形式可表示為:
其中s(n)=[s(n-p+1),..s(n)]T,u=[0,..,0,u(n)]T,F(xiàn)是pxp矩陣定義為:
考慮到每個通道的語音信號都被有色噪聲所破壞。讓第i信道噪聲vi(n)被建模為AR過程:
bij是AR噪聲模型參數(shù)和wi(n)均為零均值和方差為(n)的白高斯噪聲。式(4)可以寫成向量形式:
其中vi(n)=[vi(n-q+1),..,vi(n)]T,wi(n)=[0,.,0,wi(n)]T,Gi是qxq矩陣
其中:
e1=[0,...,0,1]是1×p向量,e2=[0,0,…1]是1×q向量。
使用以下遞歸方程可以獲得標(biāo)準(zhǔn)卡爾曼濾波估計:
在上述卡爾曼濾波估計的基礎(chǔ)上,提出了一種分布式多通道語音增強(qiáng)的卡爾曼濾波算法,由L和N分別表示幀長度和幀數(shù)的算法,I(p+qM)×(p+qM)是(p+qM)×(p+qM)統(tǒng)一矩陣和e2=[0,0,1,0,.,0]是一個1×(p+qM)向量與qth元素是1和其他元素是0。通過該算法獲取增強(qiáng)后的語音信號s^(n)。
在實驗環(huán)境中,房間是長10m,寬8m,高6m,聲源位于(2、4、1.6)處。10個全方位麥克風(fēng)的均勻線性分布麥克風(fēng)陣列,相鄰麥克風(fēng)之間的間距約為30cm。第i麥克風(fēng)位于(2.2,4+0.3x(i-1),1.6)。測試話語和噪聲信號來自NOIZEUS語料庫,所有信號的采樣都是8kHz。隨機(jī)從NOIZEUS數(shù)據(jù)庫中選擇20個不同的語音句子。這些句子連接在一起是一個清晰的信號。然后,將這些干凈的語音加到噪聲中,輸入信噪比分別為5dB。在這里使用雜噪音。在MATLAB環(huán)境下進(jìn)行了仿真。
實驗中采用分段信噪比(SSNR)的改善評估降噪效果。SSNR定義為:
其中s(n)是原始語音信號,s^(n)是增強(qiáng)信號,N是原始語音信號的長度,Nl是l段語音長度。更大的SSNR值意味著更好的性能。
圖1 在信噪比為5dB的雜音噪聲中,6種算法與麥克風(fēng)數(shù)量對SSNR的改善效果
在實驗中,本文將所提出的算法與其他5種算法進(jìn)行了比較。當(dāng)麥克風(fēng)數(shù)M=1,2,…,10時,輸入信噪比為5dB。設(shè)p=6,q=6。圖1描述了在輸入信噪比是5db,以及在雜噪聲的情況下當(dāng)MMSE-LSA、MMSE-MSS、Wiener、子空間和KEMD-LP作為麥克風(fēng)的數(shù)目M從1到10時,該算法的SSNR變化。首先看到,該算法在SSNR改善優(yōu)于其他5種算法,特別是在增加麥克風(fēng)數(shù)量方面。這表明,在麥克風(fēng)數(shù)量大的情況下,該算法具有最大的降噪能力。通過增加麥克風(fēng)的數(shù)量,可以大大提高算法的性能。圖2顯示了當(dāng)輸入信噪比值為5dB和M=4時,純凈信號、受有色噪聲污染的噪聲信號和6種增強(qiáng)信號的波形。結(jié)果表明,該算法產(chǎn)生的增強(qiáng)信號的波形比其他5種算法更接近于原語音信號。
圖2 在M=4、輸入信噪比為5dB的雜音噪聲情況下,6種算法處理后的純凈信號、噪聲信號和6種算法處理后的增強(qiáng)信號的波形
本文提出了一種基于卡爾曼濾波的有色噪聲分布式多通道語音增強(qiáng)算法。仿真結(jié)果表明,與傳統(tǒng)的分布式多信道語音增強(qiáng)算法相比,該算法具有更高的降噪效果。