摘 要:支持向量機(SVM)是一種統(tǒng)計學(xué)習(xí)方法。針對蒙古語說話人識別問題,實驗中采用基于高斯核函數(shù)的SVM比較了MFCC和MFCC+△MFCC不同特征參數(shù)選取時的識別率。實驗結(jié)果表明,在文本有關(guān)情況下,當(dāng)蒙古語說話內(nèi)容為0~9的發(fā)音時,MFCC+△MFCC優(yōu)于MFCC,使用SVM算法的識別率能夠滿足說話人識別的實際要求。
關(guān)鍵詞:蒙古語;說話人識別;支持向量機;特征提取
中圖分類號:TN912.34
說話人識別,就像面部識別,是一種特殊的分類任務(wù),是指通過對說話人語音信號的分析處理,自動確認(rèn)說話人的技術(shù)。通過說話人識別技術(shù)[1],可以利用人本身的語音信號這一生物特性進行身份鑒別,具有廣泛的應(yīng)用前景,可應(yīng)用于語音驗證、司法查證、門禁系統(tǒng)的語音開啟等。
支持向量機是統(tǒng)計學(xué)習(xí)理論的一個重要的學(xué)習(xí)工具,是解決模式識別問題的一個有效的方法[2]。我們的研究先從解決小數(shù)據(jù)量情況下蒙古語說話人的識別問題出發(fā),選取美爾倒譜及其一階差分參數(shù)為特征參數(shù),通過支持向量機算法實現(xiàn)了與文本相關(guān)的蒙古語說話人辨認(rèn)系統(tǒng)。在仿真實驗中,用上述方法對自己建立的蒙古語語音庫進行分析,并給出了實驗結(jié)果。
1 蒙古語的特點
蒙古語作為世界上有影響的少數(shù)民族語言,在內(nèi)蒙古自治區(qū)和其它民族區(qū)域地區(qū)也是一種主要的交流語言,但蒙古語說話人識別算法的研究尚處于初級階段。選擇蒙古語說話人識別算法作為研究課題對于促進蒙古族語言文化的繁榮、發(fā)展和科技進步必將具有積極的意義。
蒙古語是是一種黏著類型的語言,屬于阿爾泰語系[3]。蒙古語有很多特殊的發(fā)音以及語言現(xiàn)象,如,蒙語是一種無聲調(diào)的語言,元音之間的搭配有陰性、陽性之分,長短元音具有區(qū)別意義的作用,同音字現(xiàn)象出現(xiàn)較為頻繁[4]。在建立自己的蒙古語語音庫時以察哈爾蒙古語方言為對象。察哈爾方言是蒙古語的標(biāo)準(zhǔn)音,且各方言土語之間的共性較多,特殊性較少[4]。
2 特征提取
2.1 基于聽覺特性的Mel倒譜系數(shù)(MFCC)
一種基于人耳聽覺特性的參數(shù)得到了廣泛應(yīng)用,這就是Mel倒譜系數(shù)(Mel-scaled Cepstrum Coefficients),簡稱為MFCC。MFCC是在頻譜上使用濾波器組的方法計算出來的,這組濾波器在頻率的美爾(Mel)坐標(biāo)上是等帶寬的。
人耳這一器官對聲音非常敏感,并有一些特殊的功能。這些功能使得人耳在嘈雜的環(huán)境中,以及各種變異情況下仍能正常地分辨出各種語音,其中耳蝸起了很關(guān)鍵的作用。耳蝸的濾波作用是在對數(shù)頻率尺度上進行的,在1000Hz以下為線性尺度,1000Hz以上為對數(shù)尺度,這就使得人耳對低頻信號比對高頻信號更敏感,研究者根據(jù)心理學(xué)實驗得到了類似于耳蝸作用的一組濾波器組,這就是Mel頻率濾波器組。公式(1)是美爾刻度與頻率的關(guān)系式。
2.2 Mel倒譜一階差分的提取
MFCC系數(shù)主要體現(xiàn)了語音參數(shù)的靜態(tài)特征,在說話人識別技術(shù)中起到關(guān)鍵作用的是語音參數(shù)的動態(tài)特征。在我們的仿真實驗中用到MFCC的一階差分來表示這種動態(tài)特性,公式如下:
雖然美爾倒譜一階差分系數(shù)能夠反映聲道的動態(tài)特征,但把有些與個性特征有關(guān)的信息丟棄了,如果單獨使用的話,其識別效果并不是很理想。本實驗分別使用MFCC和MFCC+△MFCC相結(jié)合兩種參數(shù)法,將語音參數(shù)的靜態(tài)特征和動態(tài)特征相結(jié)合,有效地提高了系統(tǒng)的識別性能,并對兩種參數(shù)下的識別率做了對比。
3 支持向量機模型
支持向量機(Support Vector Machine,SVM)是建立在統(tǒng)計學(xué)習(xí)理論的VC維理論和結(jié)構(gòu)風(fēng)險最小原理基礎(chǔ)上的一種通用學(xué)習(xí)機器。
支持向量機所追求的是求得有限樣本條件下的最優(yōu)解,而不僅僅是大樣本條件下的最優(yōu)值。這一特點正適合我們樣本量有限的蒙古語說話人識別系統(tǒng)。
3.1 SVM的兩類分類問題
傳統(tǒng)的SVM是對兩類模式進行分類的。SVM中最經(jīng)典的模型是最大間隔分類器。
在線性可分的情況下,希望尋找一個超平面能夠?qū)深悢?shù)據(jù)分開。該平面不僅能夠?qū)深愑?xùn)練樣本正確分開,而且還使分類間隔最大。另外為了使SVM算法能應(yīng)用于線性不可分情況,Cortes和Vapnik引入了軟間隔最優(yōu)超平面的概念,很好的解決了分類問題。
對于非線性分類問題,利用特征映射方法,引用非線性函數(shù),將非線性問題轉(zhuǎn)化為某個高維空間中的線性問題,在變換空間求最優(yōu)分類面。
3.2 SVM的多類分類問題
傳統(tǒng)的支持向量機思想是針對兩類的分類問題提出的,但在現(xiàn)實應(yīng)用中,我們更多遇到的是多類識別問題,包括說話人識別問題。為了獲得更廣泛的應(yīng)用,需要對基本的SVM進行改進,使其解決多類分類問題。解決思路是:將一個較大的分類問題劃分為一些較小的子分類問題。
在實際應(yīng)用中可以用多個二元支持向量機分類器來構(gòu)造多元分類器。由二元分類器構(gòu)成多元分類器通常有“一對多”和“一對一”兩種方法。
“一對多”方法中為了把該類同其他類分開為每個類都設(shè)計一個SVM。N個類對應(yīng)為N個SVM。這種方法的缺點是訓(xùn)練規(guī)模較大、訓(xùn)練數(shù)據(jù)不均衡,而且在加入一個新類時,所有SVM子分類器都需要重新訓(xùn)練,導(dǎo)致系統(tǒng)不易擴展。
“一對一”方法就是在每兩類之間訓(xùn)練一個SVM,用于將這兩類區(qū)別,則N個分類問題就需要建立N(N-1)/2個SVM子分類器[9]。“一對一”方法克服了“一對多”方法的缺點,體現(xiàn)出訓(xùn)練規(guī)模較小,訓(xùn)練數(shù)據(jù)均衡,易于擴展等優(yōu)點。
綜上所述,本文中采用“一對一”法來構(gòu)造多元分類器。
4 實驗結(jié)果及分析
5 結(jié)束語
本文研究了基于SVM的蒙古語說話人識別算法。機器學(xué)習(xí)方法中的一些難題,例如“過學(xué)習(xí)問題”和“維數(shù)災(zāi)難”問題,在該算法中都得到了很大程度上的解決。從實驗結(jié)果可以看出,基于高斯核函數(shù)的SVM在蒙古語說話人的識別率上有較好的效果。以后的研究工作主要集中在根據(jù)蒙古語發(fā)音特點選取特征參數(shù);不同核函數(shù)對蒙古語說話人識別率影響的比較。
參考文獻:
[1]胡航.語音信號處理[M].哈爾濱:哈爾濱工業(yè)大學(xué)出版社,2005.
[2]張麗麗,杜鵑,賈亮改.進的支持向量機SMO算法說話人識別系統(tǒng)研究[J].長春理工大學(xué)學(xué)報,2009(02).
[3]寶玉柱.蒙古語正藍旗土語元音和諧率研究[J].語言研究,2010(01).
[4]郭淑妮,圖雅,斯琴高娃.蒙古語語音合成語料庫的設(shè)計及韻律標(biāo)注規(guī)范的建立[J].電腦與電信,2012(03).
作者簡介:圖雅(1978-),女,蒙古族,副教授,主要從事蒙古文信息處理和數(shù)據(jù)庫應(yīng)用的研究。
作者單位:內(nèi)蒙古民族大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,內(nèi)蒙古通遼 028000
基金項目:國家社會科學(xué)基金項目(項目編號:12CMZ010);內(nèi)蒙古民族大學(xué)科學(xué)研究項目(項目編號:NMD1125)。