王家盛,郭其威,吳 松,馬建敏
(1. 復(fù)旦大學(xué)航空航天系,上海200433;2. 上海宇航系統(tǒng)工程研究所,上海201109)
聲紋識別技術(shù)是生物識別技術(shù)的一種,借助人體生物特征或者行為特征對身份進(jìn)行識別。與其他生物識別技術(shù)相比,說話人識別具有簡便經(jīng)濟(jì),隱藏性高以及獲取成本廉價等優(yōu)勢,可廣泛應(yīng)用于公共安全、金融服務(wù)、智能硬件等應(yīng)用場景。
在聲紋識別中,影響識別率最大的就是特征參數(shù)的提取與選擇。目前主流的說話人特征主要是提取以梅爾倒譜系數(shù)(Mel Frequency Cepstrum Coefficient, MFCC)為代表的基于人耳聽覺感知特性的特征參數(shù),類似的特征還有伽馬通頻率倒譜系數(shù)(Gammatone Frequency Cepstral Coefficients, GFCC)、耳蝸濾波器特征參數(shù)(Cochlear Filter Cepstral Coefficients, CFCC)等。其中,在大量的實(shí)驗(yàn)中已證實(shí)MFCC具有優(yōu)異的識別率表現(xiàn),故對MFCC特征參數(shù)的優(yōu)化與改進(jìn)一直都是說話人識別研究中的重點(diǎn)。目前以優(yōu)化特征的方式去改善聲紋識別性能的研究,主要可分為三個方向,即針對特征提取過程的改進(jìn)、特征融合以及差異化特征分量。
在MFCC的提取過程中,實(shí)際上存在許多的簡單設(shè)定,并不能很好地模擬人耳聽覺效應(yīng)。如傳統(tǒng)的傅里葉變換僅能提供2π/N等分的固定頻率分辨率,單個三角帶通濾波器呈中心對稱分布等。張怡然等通過引入多窗譜估計(jì)代替?zhèn)鹘y(tǒng)的加漢明窗求頻譜的操作,減少了頻譜估計(jì)的方差值,能使特征更好地反映出聲道的結(jié)構(gòu)[1]。章熙春等將彎折傅里葉變換(Wrapped Discrete Fourier transform, WDFT)應(yīng)用到MFCC特征中以提高低頻段的頻率分辨率[2],鄧?yán)俚炔捎脧澱蹫V波器組(Warped Filter Banks,WFBS)基于人耳基底膜感知頻率群在低頻處密集、高頻處寬松的分布特性,更好地模擬出人耳的聽覺機(jī)理[3]。Chakroborty等提出了翻轉(zhuǎn)梅爾倒譜濾波器組,目的是補(bǔ)償抑制高頻后的說話人信息缺失[4]。曹孝玉則進(jìn)一步在翻轉(zhuǎn)梅爾倒譜率濾波器的基礎(chǔ)上提出混合型濾波器[5]。
為了彌補(bǔ)MFCC特征自身的局限,加入其他特征參數(shù)以提升系統(tǒng)識別正確率與應(yīng)用場景,即特征融合。最典型的就是在靜態(tài) MFCC的基礎(chǔ)上加入動態(tài)差分特征,補(bǔ)償說話人動態(tài)行為特征。唐宗渤將 MFCC與離散小波變換結(jié)合得到離散小波加權(quán)系數(shù)(Discrete Wavelet Transform Weighted Coefficient, DWTWC)特征[6]。呂霄云等將短時能量信息與 MFCC特征作為混合參數(shù)應(yīng)用于異常聲音的識別[7]。沈凌潔等加入了韻律特征,在聲調(diào)識別場景有不錯的表現(xiàn)[8]。柯晶晶等將差分動態(tài)特征和加權(quán)后的Mel倒譜進(jìn)行特征融合,提升了說話人系統(tǒng)的識別率[9]。茅正沖等利用Teager能量算子導(dǎo)出信號的瞬時相位信息,將其與耳蝸倒譜系數(shù)進(jìn)行融合[10]。周萍等將MFCC與魯棒性更強(qiáng)的GFCC參數(shù)相互融合,提高了特征的識別性能和抗噪性[11]。
常規(guī)的特征提取或者進(jìn)行簡單的特征堆疊勢必會導(dǎo)致大量的信息冗余現(xiàn)象,大量實(shí)驗(yàn)已經(jīng)證明,并不是特征的維數(shù)越高越好,各個維度的識別性能也存在不同的差異。故需要將識別性能強(qiáng)或者包含說話人身份信息的特征維度加強(qiáng),讓低識別性的特征權(quán)重減少或消失。魏丹芳等將一階和二階動態(tài)系數(shù)加權(quán)合并成一個向量,能夠提高復(fù)雜場景環(huán)境下的分類正確率[12]。鮮曉東等基于Fisher比值對三類 MFCC特征參數(shù)進(jìn)行篩選并組成一種混合特征參數(shù),提高語音中高頻信息的識別精細(xì)度[13]。魏君穎等也采用了此方法結(jié)合翻轉(zhuǎn)梅爾倒譜系數(shù)選出區(qū)分度大的特征分量,提升了特征在噪聲環(huán)境下的魯棒性[14]。
本文基于強(qiáng)化特征差異的方法,借助 GMMUBM基線系統(tǒng),對各維度MFCC分量的表征能力進(jìn)行了分析,利用增減分量法定量計(jì)算出各維度對識別率的貢獻(xiàn)度,基于此對MFCC特征進(jìn)行了二次提取,改進(jìn)了特征分量的權(quán)重系數(shù),提高了說話人識別的準(zhǔn)確率。
聲道特性通常被認(rèn)為是聲紋識別中包含說話人信息量最多的部分,由短時功率譜的包絡(luò)表征,即共振峰。如何準(zhǔn)確地表達(dá)這個包絡(luò)成為聲紋特征構(gòu)造的關(guān)鍵。
1940年Stevens和Volkmann對人耳主觀感知頻域的非線性進(jìn)行了研究,給出了Mel標(biāo)度與實(shí)際頻率f的定量近似關(guān)系[15]:
Mel頻率倒譜系數(shù)(MFCC)作為人耳聽覺感知特性的代表參數(shù),能夠更好地仿真人耳主觀感知頻域與實(shí)際接收的聲音頻率的非線性關(guān)系。
MFCC特征的提取大致可以分為以下兩個部分。首先,需要對采樣后的離散數(shù)字信息進(jìn)行預(yù)處理。預(yù)處理主要包含去除寂靜幀、預(yù)加重、分幀和加窗等步驟。
預(yù)加重的目的在于彌補(bǔ)發(fā)聲系統(tǒng)所抑制的高頻分量損失,消除口鼻輻射端的影響,強(qiáng)化語音信號與聲道間的聯(lián)系,表達(dá)式為
其次,將預(yù)處理后的信息經(jīng)過FFT變換可以得到信號的能量譜,將其作為基本特征傳入Mel三角濾波器組中,將每個子帶中的對數(shù)能量再進(jìn)行一次離散余弦變換,可以得到一組系數(shù)。目前通常的方式是舍棄第1維參數(shù),保留2~13維作為MFCC靜態(tài)特征。若僅用靜態(tài) MFCC特征去訓(xùn)練模型會損失掉動態(tài)幀的信息,一般會在后面加入一階差分動態(tài)特征和二階差分動態(tài)特征。
通過上述的MFCC提取過程可知,存在以下兩個步驟會導(dǎo)致特征的重復(fù)冗余:(1) 分幀步驟中為了保證短時范圍內(nèi)提取的特征平滑變化,需使相鄰幀中有一部分重疊;(2) 為了彌補(bǔ)靜態(tài)MFCC特征的表征局限,引入語音特征向量的動態(tài)變換特性,動態(tài)特征一定程度上能提升識別率,但其計(jì)算過程中重復(fù)調(diào)用了前后幀的信息,且過多的動態(tài)特征引入反而不利于模型的識別。
為了使提取后的特征最大程度地包含說話人個性信息,可以對原始 MFCC特征序列進(jìn)一步處理,即進(jìn)行二次特征提取,提取后的特征更具區(qū)分性。提高特征參數(shù)區(qū)分性的方法有兩種:特征篩選和特征加權(quán)。
特征篩選,是指從原始特征參數(shù)中選取出表征能力強(qiáng)的部分分量進(jìn)行模型訓(xùn)練與識別。常用Fisher比值(簡稱F比)來判斷特征分量的區(qū)分能力,F(xiàn)比計(jì)算公式為
圖 1為 TIMIT數(shù)據(jù)集下 30位說話人的靜態(tài)MFCC各維Fisher比分布情況。
圖1 MFCC 參數(shù)各維 Fisher 比Fig.1 Fisher ratios of various dimensions of MFCC
由圖1可知,MFCC第13維的F比最高。但根據(jù)經(jīng)驗(yàn),高維特征分量值太小易受到噪聲影響,區(qū)分性好的特征并非一定能訓(xùn)練出識別性能高的說話人識別模型,故特征與模型之間還存在一個匹配問題。雖然F比計(jì)算簡便,但它假設(shè)特征分量之間是相互獨(dú)立的,沒有考慮到參數(shù)之間的相關(guān)性。
特征加權(quán),是通過對特征參數(shù)內(nèi)部設(shè)置不同的加權(quán)系數(shù),放大或者縮小指定特征分量在識別時的作用。常采用升半正弦函數(shù)對 MFCC參數(shù)進(jìn)行加權(quán),公式[16]為
其中: p =1,2, … ,P,P是特征參數(shù)的維數(shù)。rp代表第p維分量上的權(quán)重系數(shù)。升半正弦函數(shù)的數(shù)學(xué)特征呈現(xiàn)兩端低中間高,代表對易受噪聲干擾的低階特征分量以及數(shù)值相對較小的高階分量進(jìn)行衰減,對魯棒性較好的中部分量則維持不變。但升半正弦函數(shù)僅粗糙地設(shè)置了權(quán)重系數(shù),沒有定量刻畫出每個分量在識別時的重要度。
基于此,本文對升半正弦公式進(jìn)行優(yōu)化。首先通過實(shí)驗(yàn)得出各維特征分量對識別率的相對貢獻(xiàn)度。再據(jù)此,定量計(jì)算出各個特征分量上的權(quán)重系數(shù)。具體步驟如下:
(1) 采用增減分量法[17]定量計(jì)算不同特征分量對識別率的貢獻(xiàn)度,平均貢獻(xiàn)度計(jì)算公式為
式中:p( i, j)是從i階到j(luò)階特征系數(shù)的識別率;n是倒譜階數(shù)。
本文隨機(jī)選取TIMIT數(shù)據(jù)集中100人的10句話作為實(shí)驗(yàn)數(shù)據(jù)集,從語音中提取13維MFCC倒譜參數(shù)作為靜態(tài)特征,再分別作一階、二階差分得到各13維的動態(tài)特征,構(gòu)成39維特征向量。依次計(jì)算 MFCC各特征分量的順序組合在說話人識別系統(tǒng)中的識別率情況,結(jié)果如圖2所示。
圖2中每一條曲線的繪制方式如下,從下側(cè)標(biāo)簽中選擇第i維特征Ci作為MFCC組合特征中的起始特征分量,依次計(jì)算Ci~Ci+1,Ci~Ci+2,… ,直至Ci~C39組合下的識別率,并將結(jié)果依次連接形成曲線??紤]到單獨(dú)一維特征在模型中的識別率太低,結(jié)果已經(jīng)失去參考意義,加入會影響到貢獻(xiàn)度的計(jì)算,故實(shí)驗(yàn)中所有測試特征向量的長度最低為2維。
圖2 MFCC不同起始特征分量的特征組合識別率Fig.2 Recognition rates of different combinations of MFCC with different initial features
根據(jù)式(7)計(jì)算出 MFCC各維分量的平均貢獻(xiàn)度,得到貢獻(xiàn)率柱狀圖如圖3所示。
從圖3中可以發(fā)現(xiàn),第一,靜態(tài)特征對最終識別率的貢獻(xiàn)度明顯大于動態(tài)特征對最終識別率的貢獻(xiàn)度,貢獻(xiàn)度越高,一定程度上反映的就是特征中包含說話人信息量也越多,此結(jié)果表明最有用的說話人的信息是包含在第 1~13維靜態(tài)特征之中的。第二,從圖3(a)中可以看出特征分量貢獻(xiàn)度的分布規(guī)律并不完全呈現(xiàn)出一種半正弦趨勢,反映的是一種類波浪分布,其中第 3~7維帶來更高的識別率。第三,動態(tài)特征是在靜態(tài)特征的基礎(chǔ)上差分得到的,從實(shí)際的測試結(jié)果看,貢獻(xiàn)度變化也符合前者的波浪走勢。
(2) 仿照升半正弦系數(shù)的構(gòu)造方式,對 MFCC的第1~13維特征分量計(jì)算權(quán)重系數(shù),如圖3(a)所示,第 11維特征分量的識別率貢獻(xiàn)度最低,設(shè)置其權(quán)重系數(shù)為 0.5,用于保證倒譜分量不至于完全衰減;貢獻(xiàn)度最高的第5維分量權(quán)重則設(shè)置為1,其余權(quán)重系數(shù)根據(jù)min-max標(biāo)準(zhǔn)化方法將數(shù)值放縮至[0.5, 1]區(qū)間內(nèi)。
圖3 MFCC靜態(tài)及其差分特征對識別率的貢獻(xiàn)度Fig.3 Contribution of MFCC feature and its differential features to recognition
為了泛化實(shí)驗(yàn)結(jié)果,同時也考慮到各分量本質(zhì)上反映的是譜包絡(luò)的變化信息,權(quán)重需平滑過渡才能更好地體現(xiàn)分量間的相互依賴關(guān)系。使用Matlab軟件自帶的曲線擬合工具箱對放縮后的權(quán)重系數(shù)進(jìn)行傅里葉擬合,并將擬合曲線對應(yīng)特征序號上的離散值作為改進(jìn)后的權(quán)重系數(shù),權(quán)重系數(shù)為
式中: q =1,2,… ,Q。rq代表第 q維分量上經(jīng)過放縮和擬合處理后的權(quán)重系數(shù)。本文將此系數(shù)稱為貢獻(xiàn)度擬合權(quán)重系數(shù)。
圖4比較了升半弦權(quán)重系數(shù)和貢獻(xiàn)度擬合權(quán)重系數(shù)的分布特性。由圖4可以看出貢獻(xiàn)度擬合權(quán)重系數(shù)呈類波浪分布,相對于升半弦權(quán)重系數(shù),能更準(zhǔn)確地反映出各特征分量的識別能力表現(xiàn)。
圖4 不同權(quán)重系數(shù)分布對比Fig.4 Comparison of different weight coefficient distribution
(3) 將貢獻(xiàn)度擬合權(quán)重系數(shù)對MFCC特征各個分量進(jìn)行加權(quán),即可得改進(jìn)后的MFCC特征參數(shù):
為了實(shí)現(xiàn)說話人識別,需要將提取后的特征建立相應(yīng)的說話人識別模型,目前比較常用的理論模型是高斯混合模型(Gaussian Mixture Model,GMM)。在此基礎(chǔ)上發(fā)展出來的聯(lián)合因子分析(Joint Factor Analysis, JFA)[18]和全因子模型(i-vector)[19]都是對高斯混合模型的一種改進(jìn)。每個GMM分量可以被認(rèn)為是對隱性的聲學(xué)特征進(jìn)行建模,從統(tǒng)計(jì)意義上來說,同一個人身上提取若干段語音片段,并將從這些語音中提取出的特征放入相應(yīng)的特征空間中,可以發(fā)現(xiàn)模型生成的方式是基本一致的。其中需要估計(jì)的多元混合高斯分布參數(shù)為
式中:M是高斯混合模型中分量的個數(shù);cm是各個高斯分量的權(quán)重;μm是第m個高斯分量的均值;Σm是第m個高斯分量的協(xié)方差矩陣。
此外,為解決GMM由于訓(xùn)練語音不足導(dǎo)致擬合不充分等問題,挑選出除數(shù)據(jù)集外的所有說話人進(jìn)行建模得到通用背景模型(Universal Background Model, UBM)[20],其本質(zhì)就是一個與說話人無關(guān)的高斯混合模型。
說話人識別系統(tǒng)框圖如圖5所示。說話人識別系統(tǒng)主要由三個模塊構(gòu)成:特征提取、模型訓(xùn)練以及說話人識別。特征提取中,使用貢獻(xiàn)度擬合權(quán)重系數(shù)對提取后的特征各分量進(jìn)行加權(quán)。其中涉及的參數(shù)如下:幀長為20 ms,幀移為10 ms,漢寧窗,Mel濾波器的個數(shù)為24,選擇信號的對數(shù)能量作為第1維特征分量,再與從語音中提取到的12維倒譜系數(shù)組合成為13維靜態(tài)MFCC。
圖5 說話人識別系統(tǒng)框圖Fig.5 Framework of speaker recognition system
在模型的訓(xùn)練階段根據(jù)UBM理論以及期望最大化(Expectation-Maximum, EM)算法生成每一個說話人所對應(yīng)的高斯聚類模型,選定擬合高斯分布的數(shù)量為 32個。在識別階段,計(jì)算待測語音特征在所有模型中的對數(shù)似然概率,選擇得分最高的模型作為最終的識別結(jié)果。
最終的識別率計(jì)算公式為
本文采用的是 TIMIT語音庫,是由德州儀器(TI)、麻省理工學(xué)院(MIT)和斯坦福研究院(SRI)合作構(gòu)建的。由來自美國八個主要方言地區(qū)的630個人每人說出給定的 10個句子。其主要的特點(diǎn)是人聲干凈、發(fā)音清晰、沒有環(huán)境噪聲的干擾。從語音庫中隨機(jī)選擇100人作為實(shí)驗(yàn)數(shù)據(jù)集,取第1句話作為訓(xùn)練集數(shù)據(jù),其余9句話用于測試。
首先,使用 Matlab軟件從語音信號中提取出13維MFCC特征向量,并用以下三種方法進(jìn)一步提取特征:(1) 使用圖1中計(jì)算出的Fisher比值進(jìn)行分量篩選,并將其組合成基于F比特征篩選的向量。(2) 使用公式(6)作為特征參數(shù)的權(quán)重系數(shù),計(jì)算得到基于升半正弦權(quán)重系數(shù)的特征加權(quán)向量。(3)同理,根據(jù)公式(8)可得基于貢獻(xiàn)度擬合權(quán)重系數(shù)的特征加權(quán)向量。
其次,對每個說話人建立高斯混合模型,并根據(jù)測試語音的似然概率得分對識別率進(jìn)行計(jì)算,改進(jìn)后的特征在TIMIT數(shù)據(jù)集上的識別率結(jié)果如表1所示。
表1 幾種改進(jìn)方式的識別率比較Table 1 Comparison of recognition rates of different improvement methods
根據(jù)表1可以發(fā)現(xiàn),基于Fisher準(zhǔn)則的維度篩選在2~10維的特征識別準(zhǔn)確率均不如原始特征,說明F比僅反映特征分量的區(qū)分性,篩選破壞了分量原有次序,只是將區(qū)分性較高的特征分量進(jìn)行簡單組合,并不能保證取得高識別率;特征加權(quán),本質(zhì)是差異化各維分量的表征能力,隨著特征維數(shù)的增加,各維分量間的區(qū)分性被不斷放大,將整體13維下的識別率作為特征加權(quán)改進(jìn)后的效果進(jìn)行分析。經(jīng)升半正弦系數(shù)加權(quán)后的特征在TIMIT數(shù)據(jù)集上表現(xiàn)不是很理想,比原始MFCC特征分量的識別率低4.18個百分點(diǎn),基于升半正弦的構(gòu)造原理,原因可能是通過犧牲純凈語音集下一定程度的識別率性能,換取了特征在噪聲環(huán)境下的魯棒性提升;貢獻(xiàn)度擬合權(quán)重系數(shù)以特征對識別率的貢獻(xiàn)度作為加權(quán)依據(jù),最終識別率比原始特征高出2.59個百分點(diǎn)。
特征提取是聲紋識別中的關(guān)鍵一環(huán),本文以傳統(tǒng)的 MFCC特征為例,利用增減分量法對 MFCC各維特征分量對語音的表征能力進(jìn)行了分析,并以此為基礎(chǔ)改進(jìn)特征的權(quán)重系數(shù),提出貢獻(xiàn)度擬合權(quán)重系數(shù)。與傳統(tǒng)的升半正弦系數(shù)相比,改進(jìn)后每維分量上的權(quán)重系數(shù)可以通過貢獻(xiàn)度分布確定,能更準(zhǔn)確地反映各維分量對識別性能的影響。實(shí)驗(yàn)結(jié)果表明,與基于Fisher比值的特征篩選和基于升半正弦系數(shù)的特征加權(quán)相比,經(jīng)貢獻(xiàn)度擬合權(quán)重系數(shù)加權(quán)后得到的特征能得到更高的識別率。