羅春梅,張風雷
(遼東學院化工與機械學院,遼寧丹東 118000)
說話人識別是通過分析語音的個性特征實現(xiàn)說話人辨識的技術,已經(jīng)在安全領域、司法鑒定等應用中廣泛使用[1]。但由于實際環(huán)境中各種干擾的存在,實際環(huán)境中說話人識別系統(tǒng)失配而性能下降,因此,如何提高系統(tǒng)對不同背景噪聲的適應性,成為近年來該領域的研究熱點[2-3]。
為減小識別系統(tǒng)的環(huán)境失配,噪聲信息被融入到純凈語音模型中。牛曉可等[4]借鑒神經(jīng)元時空濾波機制對聽覺尺度-速率圖進行二次提取,并與梅爾頻率倒譜系數(shù)(Mel Frequency Cepstrum Coefficient,MFCC)相結合,提高特征對環(huán)境噪聲的容忍性能;仲偉峰等[5]通過融合深、淺層級特征以實現(xiàn)不同層次特征表達信息的互補,從而提高特征的魯棒性;Zhang等[6]受到干凈幀的啟發(fā),用高斯通用模型推導出基于總變化矩陣的通用加權背景模型,并進行了聯(lián)合估計規(guī)則更新,有效提升了算法對背景噪聲的適應性。
隨著深度學習技術的成熟,深度神經(jīng)網(wǎng)絡(Deep Neural Network, DNN)在說話人識別系統(tǒng)中逐漸展開研究,并取得較好的魯棒性[7]。陳湟康等[8]以深度學習的長短期記憶(Long and Short Term Memory, LSTM)網(wǎng)絡為基礎構建多模態(tài)模型,并以深度門對各層單元進行上下連接,以提高層特征聯(lián)系的緊密性和分類性能;Abdelmajid等[9]對多模態(tài)LSTM網(wǎng)絡在決策層進行分類融合,提高了模型識別性能,但模型相關性約束需加強;李煦等[10]將深度神經(jīng)網(wǎng)絡與非負矩陣分解相結合來估計權值分配,結合特征字典實現(xiàn)說話人語音增強和識別。
已有DNN算法難以描述語音段的深度信息[11],為此在已有研究基礎上,提出基于自適應高斯均值矩陣特征和改進深度卷積神經(jīng)網(wǎng)絡的說話人識別算法,通過均值矩陣增強信號的幀間關聯(lián)和特征,通過幀間信息對準提高特征對背景噪聲環(huán)境的適應性,實驗結果驗證了該算法的有效性。
說話人語音識別即為采用一定的方法提取帶有背景噪聲的語音的分類特征,然后根據(jù)分類特征進行說話人特征匹配,從而確定說話人身份,文中基于改進DNN網(wǎng)絡的說話人識別過程如圖1所示,算法結合了傳統(tǒng)特征提取方法和DNN網(wǎng)絡的優(yōu)點,主要包括特征提取、高斯均值矩陣計算和DNN網(wǎng)絡三部分。
圖1 基于改進深度神經(jīng)網(wǎng)絡的說話人識別過程Fig.1 Speaker recognition based on improved deep neural network
MFCC特征基于人耳聽覺感知特性,其不需要做出前提假設,且其與說話人所說的語音內(nèi)容不相關,能夠較好地反應語音信號特征。
設原始含噪信號為s(n),對其進行時域分幀,對幀信號x(n)進行離散余弦變換(Discrete Cosine Transform, DCT)變換,得到頻譜X(k),提取其能量譜P(k)為[2]
式中:N為DCT變換點數(shù)。采用M階Mel頻率濾波器Hm(k)進行濾波處理,得到
式中:m為濾波器序號,0≤m≤M,對Pm(k)取對數(shù)并進行離散余弦變換,可得MFCC,即[2]:
高斯混合模型(Gaussian Mixture Model, GMM)通過概率密度函數(shù)描述說話人的語音特征,并通過最大期望算法(Expectation Maximization,EM)提取描述語音特征的模型參數(shù)。GMM通過M個單高斯分布來擬合信號的不同分量特征,并通過線性組合擬合語音的特征分布,即[7]:
在計算高斯模型后,文中采用基于高斯模型的均值矩陣作為識別特征,其將GMM模型的特征向量分別送入通用背景模型(Universal Background Model, UBM)中,然后經(jīng)過MPA(Message Passing Algorithm)自適應后,計算輸出特征的均值矩陣。
由于特征分量對最終的語音識別率的影響不同且對背景噪聲的抗噪性能也不同,文中補償算法采用半升正弦函數(shù)(Half Raised-Sine Function,HRSF)對特征進行非線性提升,對特征的不同分量分配不同的權重,以削弱抗噪性能較差的低階分量對識別率的貢獻度[8],其補償過程為:
(1) 對噪聲及純凈語音信號的模型參數(shù)進行頻譜域變換,得到對數(shù)譜域參數(shù)和線性頻譜,即:
式中:C為DCT變換矩陣、L為提升矩陣,其計算式為L(i) =1+ sin (π (i-1) /N)/2,參數(shù)ux,m和Σx,m為GMM模型的第m個高斯單元均值矩陣和協(xié)方差矩陣,下標x表示純凈語音信號,上標ln和lin分別對數(shù)譜域和線性頻譜域。
(2) 將語音信號與噪聲的參數(shù)進行非線性合并,得到含噪信號的GMM模型參數(shù),即:
式中:G為模型的補償增益因子,下標n和y表示噪聲及含噪語音信號。
(3) 將式(9)得到的含噪GMM模型參數(shù)變換到對數(shù)譜域和倒譜域,并優(yōu)化協(xié)方差矩陣,去除非對角元素,提高運算效率,即:
采用基于多層非線性變換的深度神經(jīng)網(wǎng)絡模型有助于描述語音特征的結構信息與層次信號,為此,文中設計了基于改進深度卷積神經(jīng)網(wǎng)絡(Deep CNN, DCNN)的說話人語音識別算法,其網(wǎng)絡結構如圖2所示。
圖2 改進的DCNN網(wǎng)絡結構Fig.2 Improved DCNN network structure
網(wǎng)絡結構改進主要體現(xiàn)在最后的全連接層中用直接目標向量計算替代Softmax層的設計上。盡管結構加深、節(jié)點增多或濾波器增多能有效提高網(wǎng)絡模型的識別性能,但同時也帶來網(wǎng)絡模型的高復雜度和訓練的不穩(wěn)定性。結合文中語音識別特點和數(shù)據(jù)規(guī)模,改進模型結構設計為3個卷積層的2個1024節(jié)點的全連接層,網(wǎng)絡輸入層為上文提取的特征矩陣,第一層卷積層包含64個尺寸為7×7的濾波器,第二層和第三層卷積層包含128個尺寸為3×3的濾波器,濾波器的步長統(tǒng)一設置為1×1;激活函數(shù)層后面為3個濾波器尺寸3×3、步長2×2的池化層;輸出層為一個129點全連接層。
深度的增加也帶來梯度弱化,反而不利于提高識別率,深度殘差網(wǎng)絡以網(wǎng)絡殘差獲得更穩(wěn)健的特征表達,通過在網(wǎng)絡層間增加殘差連接避免梯度消失問題,從而提高網(wǎng)絡的識別準確率,其網(wǎng)絡函數(shù)設計為理想映射H(x) =F(x) +x的形式,如圖3所示,其中,F(xiàn)(x)為殘差映射,對H(x)求偏導可得:
由圖3和式(11)可以看出,增加殘差連接后,解決了梯度隨網(wǎng)絡深度消失的問題。
圖3 殘差網(wǎng)絡模塊Fig.3 Residual network module
為驗證文中基于改進DCNN網(wǎng)絡的說話人識別模型的識別性能,實驗從TIMIT數(shù)據(jù)庫[12]隨機選取180人共3 600條語音,以Noisex92噪聲庫作為實驗用背景噪聲,所有數(shù)據(jù)采樣率調(diào)整為8 kHz,分幀長度為64 ms(512點),幀移為32 ms,將每一條語音數(shù)據(jù)的前80%作為訓練數(shù)據(jù),而后20%作為測試數(shù)據(jù),采用39維MFCC頻譜系數(shù)作為識別特征,GMM混合度設置為32[13],特征補償因子初始值為G=0.5,當背景噪聲較小或無噪聲時,補償算法會調(diào)整增益因子G。
將NoiseX-92數(shù)據(jù)庫中的Factory、Babble及混合Mixed噪聲與純凈訓練數(shù)據(jù)按一定的分段信噪比進行混合,作為實驗數(shù)據(jù),以文獻中已有的身份認證向量(identity vector, i-vector)識別框架[14]加MFCC和Gammatone頻譜倒譜系數(shù)(Gammatone Frequency Cepstrum Coefficients, GFCC)特征(分別記為IPMFCC和IPGFCC)、GMM-UBM框架[15]加MFCC和補償MFCC特征(分別記為GUMFCC和GUGFCC)及文中改進的DCNN識別網(wǎng)絡加MFCC和補償MFCC特征(分別記為IDMFCC和IDCMFCC),共6種說話人識別算法進行實驗比較,各算法的說話人識別正確率實驗結果如圖4所示,圖中所示為多次實驗結果的平均值[11]。
從圖4中的實驗結果可以看出,隨著信噪比的提高,各算法的識別準確率都大幅提高,但在低信噪比情況下,各個算法的識別率均不高,但文中模型在各個信噪比時均取得較優(yōu)的識別準確率,尤其在低信噪比時,優(yōu)勢更加明顯,這主要因為識別網(wǎng)絡的改進,在考慮了語音信號特征基礎上,兼顧了網(wǎng)絡性能和訓練難度,并通過殘差網(wǎng)絡增強了層間梯度,而識別特征的補償,增強了特征對強背景噪聲的抗干擾能力,從而使算法整體上具有較好的抗背景噪聲干擾性能。
圖4 不同背景噪聲下各算法的識別率Fig.4 Recognition rate of each algorithm under different background noises
如圖5所示為三種識別框架在不同訓練階段的均方誤差(Mean Squared Error, MSE)。從圖5可以看出,文中改進DCNN網(wǎng)絡的均方誤差最小,進一步說明該網(wǎng)絡的優(yōu)勢。
圖5 各算法訓練階段的均方誤差Fig.5 The mean square error in training stage of each algorithm
傳統(tǒng)MFCC等聲學特征大多基于語音信號的短時譜信息,缺乏語音段深度信息,而深度神經(jīng)網(wǎng)絡缺乏直觀的物理聲學特征描述。為此,在已有研究基礎上,提出基于高斯增值矩陣特征和改進DCNN網(wǎng)絡的說話人識別算法。算法通過自適應高斯均值矩陣增強語音信號的幀間關聯(lián)和說話人特征信息,采用改進的DCNN網(wǎng)絡進一步提高說話人識別的特征學習和背景噪聲環(huán)境的適應性。實驗結果表明,相比于i-vector和GMM-UBM等識別框架及傳統(tǒng)MFCC特征,文中算法取得最優(yōu)的識別準確率和識別均方誤差。