馬意彭 王震 董雨楠 鐘雅婷 南京郵電大學(xué)電子與光學(xué)工程學(xué)院
引言:聲紋信息是生物特征的一項重要組成部分,具有數(shù)據(jù)易取性、身份認(rèn)證準(zhǔn)確性等特點。這些特點使得聲紋識別技術(shù)具有較高的研究價值。本文在聲紋識別算法研究的基礎(chǔ)上,對已有的聲紋識別算法進行了改進,并取得良好的識別效果。
說話人發(fā)出的語音信號既有聲紋特征又有說話內(nèi)容。,所以為了提高聲紋識別的準(zhǔn)確性,必須對說話人發(fā)出的語音信號進行預(yù)處理。其步驟如下:
原始語音信號為模擬信號,經(jīng)ADC采樣及量化后可轉(zhuǎn)換為離散的數(shù)字信號。由于語音信號受聲門激勵和口鼻輻射的影響,所以800HZ以上的高頻分量會有所衰減。為了使得頻譜平坦,所以采用預(yù)加重的方法提高高頻分量。
經(jīng)采樣和預(yù)加重處理后的信號依舊是一個時變信號,所以只有在一個極其短的時間內(nèi)才能表現(xiàn)出較穩(wěn)定的聲紋特征。故我們將語音信號在8ms~22ms的短時間內(nèi)作為一幀,采用漢明窗對語音信號進行提取。為了提取對聲紋識別有效的聲段,我們采用了短時能量分析的方法。只有當(dāng)某一幀內(nèi)語音信號的平均幅度高于某一閾值時,才將其作為有效幀進行聲紋特征提取,這樣可以提高識別效率。
美 爾 頻 標(biāo) 倒 譜 系 數(shù)(Mel Frequency Cepstrum Coefficient,MFCC)是基于Mel 頻標(biāo)的非線性譜的倒譜,具有識別能力強、抗噪能力強等特點。Mel 譜可以由Mel頻率濾波器組獲得。MFCC以傅里葉變換和倒譜分析為基礎(chǔ),對音頻幀上的每個頻點進行能量計算,即可得到MFCC。
本設(shè)計采用壓縮感知-美爾頻標(biāo)倒譜系數(shù)(Compressed sensing- Mel Frequency Cepstrum Coefficient , CS-MFCC)作為語音信號的特征。由于語音信號在正交空間具有稀疏性所以可以采用壓縮感知的方法對信號進行重構(gòu),這樣可以大大降低采樣信號的頻率,提高采樣效率。
高斯混合模型(Gaussian Mixed Model,GMM)指的是多個高斯分布函數(shù)的線性組合,理論上GMM可以擬合出任意類型的分布,通常用于解決同一集合下的數(shù)據(jù)包含多個不同的分布的情況。由于每個說話人的語音信號的特征分布是不同的,故可以采用GMM模擬說話人的語音信號特征分布并作為說話人的識別依據(jù)。
由于注冊時說話人的數(shù)據(jù)具有稀疏性,所以通常使用通用背景模型(Universal Background Model,UBM)和少量的說話人數(shù)據(jù)對說話人模型進行訓(xùn)練,然后通過自適應(yīng)算法得到目標(biāo)說話人模型。一般情況下,當(dāng)GMM-UBM模型的每個混合對象得到100幀左右的訓(xùn)練樣本時,就可以得到較高且較穩(wěn)定的識別率。
圖1 聲紋識別算法設(shè)計框圖
本系統(tǒng)采用中、英、法三種語言進行測試,其效果如圖2所示。由圖2可知,CS-MFCC32階GMM具有較好的識別效果,證明本系統(tǒng)的有效性及實用性。
圖2 聲紋識別系統(tǒng)績效評估
本文在聲紋識別算法研究的基礎(chǔ)上,提出了CS-MFCC聲紋特征提取方法及基于GMM-UBM說話人識別算法,并取得了良好的識別效果,為聲紋識別算法的發(fā)展提供了新的思路。