趙海君
摘要:針對現(xiàn)有SVM模型選擇方法中,人為指定核函數(shù)類型可能使得SVM性能難以達到最優(yōu)化,分析了現(xiàn)有核函數(shù)類型對語音分類率的影響。并把K-交叉驗證思想與網(wǎng)格搜索法、遺傳算法、粒子群優(yōu)化算法相結合進行參數(shù)尋優(yōu),應用到語音識別中。并對語音特征數(shù)據(jù)處理問題進行了研究。分析結果表明[-1,1]內對語音特征參數(shù)歸一化,且采用徑向基核函數(shù)、網(wǎng)格搜索法對參數(shù)尋優(yōu),能達到最優(yōu)的語音分類率。
關鍵詞:語音識別;語音特征參數(shù);SVM(支持向量機);模型選擇;歸一化;交叉驗證
中圖分類號:TP18 文獻標識碼:A 文章編號:1009-3044(2015)25-0133-02
Speaker Recognition Model Selection Analysis Based on SVM
ZHAO Hai-jun
(College of Information, Shanxi Agricultural University, Taigu 030800, China)
Abstract: For existing SVM model selection method, specified the type of man-made kernel may make it difficult to optimize the performance of SVM, it analyses the impact of existing kernel type to speech classification. Combining K-fold cross validation with grid searching and GA and PSO are used parameter optimization in speech recognition. Also it studies speech characteristic processing problem .Analysis results show that the normalization of [-1, 1] and using Radial Basis Function(RBF) and grid searching can achieve the best speech classification rate.
Key words: speaker recognition; voice feature parameter; Support Vector Machine(SVM); model selection; normalization; cross validation
1概述
語音識別(speaker recognition,SR)技術(也成聲紋識別技術),是生物認證技術的一種,是一項根據(jù)語音波形中反映說話人生理和行為特征的語音參數(shù),自動識別說話人身份的技術[1]。語音識別技術的核心是通過預先錄入說話人的樣本,提取說話人獨一無二的語音特征并保存在數(shù)據(jù)庫中,應用時將待驗證的聲音和數(shù)據(jù)庫中的特征進行匹配,從而決定說話人的身份。語音識別技術以其獨特的方便性、經(jīng)濟性和準確性受到世人矚目。
在語音識別中最常用的特征參數(shù)是基于聲道的LPCC、運用基于等響度曲線和臨界帶的PLP以及基于聽覺特性的MFCC[2-3],本文選取MFCC特征進行仿真實驗。首先分析了對特征參數(shù)的預處理問題,接著將現(xiàn)有的核函數(shù)類型對語音分類率的影響作了分析,然后還對分類器訓練中懲罰因子c和核函數(shù)參數(shù)[γ]進行優(yōu)化,從而來提高語音分類率。
2支持向量機原理
對于非線性可分問題,SVM的基本思想是:利用核函數(shù)將輸入特征的樣本點映射到高維特征空間中,數(shù)據(jù)被超平面分割,在高維空間中變得線性可分,轉化為線性可分模式,然后再對應于低維空間的非線性分類[4]。
對于線性可分模式,考慮訓練樣本[xi,yiNi=1],其中[xi]是輸入模式的第[i]個樣本,[yi∈-1,+1]。設用于分離的超平面:[w?x+b=0]其中w是超平面的法向量,b是超平面的常數(shù)項。SVM的主要思想是建立一個超平面作為決策曲面,使得正例和反例之間的隔離邊緣被最大化。即最優(yōu)分類超平面等價于求最大間隔。滿足下面條件的特殊數(shù)據(jù)點[xi,yi]稱為支持向量:[w?xi+b=-1,yi=-1]or[w?xi+b=1,yi=1]。支持向量是那些最靠近決策面的數(shù)據(jù)點。
3實驗結果與分析
Timit Database語音數(shù)據(jù)庫中,選取6個不同男性的聲音,都是說的相同的話。對每個語句提取相應的MFCC參數(shù),且選取前400組變換參數(shù)數(shù)據(jù),其中350組樣本數(shù)據(jù)作為實驗訓練樣本,50組樣本數(shù)據(jù)作為實驗測試樣本。識別模型為SVM支持向量機;MFCC特征維數(shù)為20;mel濾波器的組數(shù)為24;測試人數(shù):2、4、6人;測試次數(shù):每次識別運行10次。
實驗1
本實驗部分采用SVM默認下徑向基核函數(shù),用不同歸一化方式[5]作對比,最后測試集預測分類準確率如表1所示:
表1 不同歸一化方式對比表
從表1中數(shù)據(jù)可以看出,需要對原始數(shù)據(jù)先進行歸一化處理,才能提高最后的分類準確率,而且不同的歸一化方式對最后的準確率也會有一定影響。[-1,1]歸一化處理下2、4、6人的語音分類率比[0,1]歸一化處理的分別提高了4.84%、6.29%、9.03%。
實驗2
對于SVM中不同的核函數(shù)[6-8],測試集預測分類率的對比(統(tǒng)一采用[-1,1]歸一化)如表2所列:
4結束語
本文采用SVM方法用于語音分類,對提取的MFCC參數(shù)是否數(shù)據(jù)預處理進行了分析,并且對SVM的兩個關鍵要素:核函數(shù)、核參數(shù)問題進行了分析。由于語音特征參數(shù)的訓練樣本參數(shù)多、維數(shù)高,在樣本特征空間上分布廣,因此選擇徑向基核函數(shù)較為合適。本文把K-CV與網(wǎng)格搜索法、GA、PSO結合比較,也說明了網(wǎng)格搜索法運用到高維數(shù)、大樣本的語音數(shù)據(jù)中有明顯的優(yōu)勢。
參考文獻:
[1] 吳朝暉,楊瑩春.說話人識別模型與方法[M].北京:清華大學出版社,2009.
[2] 余建潮,張瑞林.基于MFCC和LPCC的說話人識別[J]. 計算機工程與設計,2009,30(5):1189-1191.
[3] CAO H,GAO L M.Research on sound fields generated by laster-induced liquid breakdown[J].Optica Applicata,2010,40(4):897-907.
[4] 李書玲,劉蓉,劉紅,等.基于改進型SVM算法的語音情感識別[J].計算機應用,2013,33(7):1938-1941.
[5] 史峰,王輝,郁磊,胡斐,等.MATLAB智能算法30個案例分析[M].北京:北京航空航天大學出版社,2010,112-132.
[6] 陳剛,王宏琦,孫顯.基于核函數(shù)原型和自適應遺傳算法的SVM模型選擇方法[J].中國科學院研究生院學報,2012,29(1):62-69.
[7] 劉華福.支持向量機Mercer核的若干性質[J].北京聯(lián)合大學學報,2005,19(1):45-56.
[8] 李盼池,許少華.支持向量機在模式識別中的核函數(shù)特性分析[J].計算機工程與設計,2005,26(2):302-304.