何 俊,賀前華,張清華,孫國璽,肖 明,左敬龍
(1.廣東石油化工學(xué)院,廣東 茂名 525000;2.華南理工大學(xué)電子與信息學(xué)院,廣東 廣州 510641)
基于共同向量的非常態(tài)語音說話人識(shí)別算法*
何 俊1,賀前華2,張清華1,孫國璽1,肖 明1,左敬龍1
(1.廣東石油化工學(xué)院,廣東 茂名 525000;2.華南理工大學(xué)電子與信息學(xué)院,廣東 廣州 510641)
針對(duì)預(yù)先給定參數(shù)求解共同向量所存在的不足,提出了一種基于共同向量的非常態(tài)語音說話人識(shí)別算法,首先,通過系統(tǒng)識(shí)別率自適應(yīng)調(diào)整求解共同向量的參數(shù);然后,將系統(tǒng)識(shí)別率最高的參數(shù)視為最優(yōu)參數(shù),為測試語音提取共同向量,并用SVM分類器進(jìn)行非常態(tài)語音說話人分類。實(shí)驗(yàn)結(jié)果表明:該算法所提取的共同向量,對(duì)輕微感冒語音說話人識(shí)別率為85.4%,比對(duì)特征不進(jìn)行處理的GMM算法、SVM和結(jié)合共同向量的GMM算法的識(shí)別率分別提高了16.9%、15.2%和3.2%。
非常態(tài)語音; 說話人識(shí)別;共同向量;支持向量機(jī)
目前,各種說話人識(shí)別和認(rèn)證系統(tǒng)的性能受語音質(zhì)量的影響較大,面臨非常態(tài)語音時(shí),識(shí)別率徘徊在30%~40%[1]。如何提高系統(tǒng)應(yīng)對(duì)非常態(tài)語音的能力,是近年來語音處理中發(fā)展起來的熱點(diǎn)問題之一,開始受到廣大學(xué)者的關(guān)注[2,3]。非常態(tài)語音種類繁多,力求研究所有類型的非常態(tài)語音事實(shí)是不可行的,生活中常見的因發(fā)音器官功能性病變引起的非常態(tài)語音在生物醫(yī)學(xué)工程得到廣泛的研究[4,5],如感冒、咽喉炎、淋巴炎、反胃酸。這類非常態(tài)語音的持續(xù)時(shí)間相對(duì)較長,其產(chǎn)生不需要特定時(shí)間和環(huán)境,并且其對(duì)語音的影響來自于生理層,對(duì)它們的研究更有利于對(duì)變異的本質(zhì)進(jìn)行理解。但是,目前在非常態(tài)語音數(shù)據(jù)相對(duì)缺少、而語音變異種類又較繁多的情況下,使用統(tǒng)計(jì)分析法難以獲得不同變異對(duì)語音特征層產(chǎn)生的影響。尋求一種能表征每個(gè)說話人共同特性的特征向量是廣大研究者努力的方向,基于子空間映射的共同向量方法最早用于識(shí)別孤立詞[6],通過對(duì)每一類的差分子空間進(jìn)行Gram-Schimidt正交變換得到與樣本空間維數(shù)相同的共同向量CV(Common Vector)。CV表示每一類特征的共同性質(zhì)[7],廣泛應(yīng)用于模式識(shí)別領(lǐng)域的人臉圖像識(shí)別中[8~10],并能取得較好的識(shí)別率。但是,在選取共同向量參數(shù)時(shí),人們常采用給定一個(gè)經(jīng)驗(yàn)值的方法,使得系統(tǒng)的識(shí)別率隨實(shí)驗(yàn)數(shù)據(jù)的變化而嚴(yán)重地下降。文獻(xiàn)[11]將共同向量方法引入到說話人識(shí)別,采用結(jié)合共同向量和高斯混合模型GMM(Gaussian Mixture Model)策略進(jìn)行文本無關(guān)的正常語音說話人識(shí)別。從文獻(xiàn)[11]中的實(shí)驗(yàn)結(jié)果得知,在保證GMM訓(xùn)練數(shù)據(jù)時(shí)其識(shí)別率并不比GMM好,在訓(xùn)練語音不足的情況下其識(shí)別率較GMM算法有所提高。
本文以非常態(tài)語音中的感冒語音CU(Cold Utterance)為研究對(duì)象,重點(diǎn)討論最優(yōu)說話人的共同向量提取和SVM(Support Vector Machine)的感冒語音說話人識(shí)別。在尋求每個(gè)說話人的共有特征屬性的情況下,以最低限度減小感冒對(duì)其說話人識(shí)別率影響為基礎(chǔ),結(jié)合共同向量和SVM多對(duì)多的分類器,提出一種基于CV和SVM的非常態(tài)語音說話人識(shí)別算法。通過自適應(yīng)調(diào)整類散度矩陣的特征值和和其共同正交特征向量的特征值和的比值,來解決系統(tǒng)的性能依賴人為參數(shù)的設(shè)定,根據(jù)說話人共同正交特征向量矩陣將待測語音分解成共同向量和差分向量,然后利用SVM對(duì)待測語音的共同向量進(jìn)行說話人識(shí)別分類。
從共同向量的角度出發(fā),特征向量可分為兩個(gè)主要部分:(1)殘差分量,即來自于共同成分的所有變化;(2)共有成分,即展示一個(gè)類里所有樣本的共同特性的成分或包含類不變的屬性。
2.1 共同向量CV
常用Gram-Schimidt正交化和類內(nèi)協(xié)方差矩陣變換法構(gòu)建共同向量。其中,把線性無關(guān)的向量x1,x2,…,xn轉(zhuǎn)換為標(biāo)準(zhǔn)正交向量組{μ1,μ2,…,μn}的方法,稱為Gram-Schimidt正交化[12]。
(1)
然后對(duì)Bj進(jìn)行Gram-Schimidt變換,得到正交向量集Vj,Vj可以表示如下:
(2)
(3)
其中,Bj和(Bj)⊥是一對(duì)互補(bǔ)子空間,其滿足如下兩個(gè)條件:
(4)
則有兩種途徑計(jì)算第j類樣本的共同向量:(1)通過類內(nèi)任意樣本特征向量本身減去其投影到差分子空間的正交向量的差,如式(5)所示;(2)類內(nèi)任意樣本特征向量投影到共性子空間的和,如式(6)所示:
(5)
(6)
(7)
每個(gè)說話人的散度矩陣可以定義如下:
(8)
其中,μi表示第i個(gè)說話人的所有語音樣本特征的均值。其定義如下:
(9)
在共同向量的訓(xùn)練方法中,訓(xùn)練集中的每個(gè)樣本的特征可以用如下等式表示:
(10)
(11)
(12)
(13)
其中,(P⊥)i表示第i個(gè)說話人其特征散度矩陣Φi中零特征值所對(duì)應(yīng)的正交特征向量(較小特征值對(duì)應(yīng)的正交特征向量)所張成的共量子空間,Pi表示第i個(gè)說話人其特征散度矩陣Φi中非零特征值所對(duì)應(yīng)的正交特征向量所張成的差分子空間。
2.2 最優(yōu)CV參數(shù)
在共同向量的構(gòu)建中,有一個(gè)關(guān)鍵的步驟就是如何有效地求解特征散度矩陣Φi中零特征值的正交特征向量。準(zhǔn)確地說,特征散度矩陣Φi沒有真正意義上的零特征值,只有非常接近零的特征值。在構(gòu)成共量子空間中,將第i個(gè)說話人特征散度矩陣Φi的特征值進(jìn)行升序排列,設(shè)其前z個(gè)特征值所對(duì)應(yīng)的正交特征向量構(gòu)成(P⊥)i,文獻(xiàn)[11]討論使用式(14)共同向量構(gòu)建:
(14)
(15)
式(15)中,μi表示Pj中那些特征向量的偏差小于其差異子空間特征向量
根據(jù)經(jīng)驗(yàn)設(shè)定δ,而實(shí)際應(yīng)用中δ的取值依賴具體應(yīng)用的數(shù)據(jù)。為了獲得最優(yōu)CV,本文通過調(diào)整δ,搜索使病變語音說話人的整體識(shí)別率ASRR(All Speaker Recognition Ratio)達(dá)到最大的CV,則整體識(shí)別率函數(shù)可定義為:
(16)
其中,Ti表示第i個(gè)說話人語音被正確識(shí)別為第i個(gè)說話人的數(shù)目,Ni表示第i個(gè)說話人的語音總數(shù)。
最優(yōu)CV參數(shù)δopt可表示為:
(17)
2.3 支持向量機(jī)SVM
SVM的出現(xiàn)及廣泛應(yīng)用于各種模式分類引起機(jī)器學(xué)習(xí)和模式識(shí)別領(lǐng)域的一場研究風(fēng)暴,近年來SVM廣泛應(yīng)用于語音識(shí)別領(lǐng)域[13~15]并取得一定成果。SVM是結(jié)構(gòu)化風(fēng)險(xiǎn)最小的一種統(tǒng)計(jì)學(xué)習(xí)方法,它通過尋找一個(gè)最優(yōu)超平面來訓(xùn)練一個(gè)分類器,使得核內(nèi)誘導(dǎo)特征空間中兩類數(shù)據(jù)的邊緣盡可能最大化。假設(shè)有m個(gè)訓(xùn)練樣本,每個(gè)樣本由(xk,yk)對(duì)組成,其中,xk∈RN是第k個(gè)樣本的特征向量,yk∈{+1,-1}是樣本的類標(biāo)簽。SVM的目標(biāo)就是在兩類數(shù)據(jù)之間找到一個(gè)最優(yōu)超平面w·x+b=0,對(duì)于一個(gè)測試樣本x,其決策函數(shù)可表述如下:
(18)
然后通過判定fd(x)的符號(hào)來決定測試樣本x所屬類別,即使用sgn(fd(x))。
SVM通過解決二次規(guī)劃問題來獲得最優(yōu)超平面,其二次規(guī)劃問題可以描述如下:
(19)
其中滿足:
(20)
3.1 實(shí)驗(yàn)設(shè)置
從PANSD[16,17]中選取8個(gè)說話人,平均每個(gè)說話人12條正常語音和15條非常態(tài)語音,每條語音時(shí)長約15 s,作為提取說話人最優(yōu)共同向量時(shí)正交特征向量的訓(xùn)練數(shù)據(jù)。選用8個(gè)說話人的500條非常態(tài)語音和300條正常語音為提取最優(yōu)CV參數(shù)的訓(xùn)練語音。選取8個(gè)說話人的706非常態(tài)語音和408條正常語音,每條語音在去掉靜音后時(shí)長13 s~15 s作為測試數(shù)據(jù)。為了便于本文算法的實(shí)驗(yàn)結(jié)果與GMM模型的結(jié)果相比較,使用每個(gè)說話人時(shí)長為1 min~2 min的正常語音訓(xùn)練16個(gè)高斯的GMM說話人模型,文中所提及的SVM算法中采用徑向基核函數(shù)。所有的數(shù)據(jù)都是單聲道的WAV格式,用Cooledit Pro 2.0將采樣調(diào)整為16 kHz,量化精度為16 bits。32 ms幀長,16 ms幀移,提取24階Mel頻率倒譜系數(shù)MFCC(Mel Frequency Cepstrum Coefficient)特征。
根據(jù)語音的變異程度,將706條非常態(tài)語音分三類:輕微變異、稍重變異、較重變異。詳細(xì)分類標(biāo)準(zhǔn)請(qǐng)參見文獻(xiàn)[17]。
3.2 實(shí)驗(yàn)結(jié)果與分析
本文先實(shí)驗(yàn)分析各種說話人識(shí)別算法對(duì)三類非常態(tài)變異語音的識(shí)別情況,為便于比較實(shí)驗(yàn)結(jié)果,把本文的算法簡稱為CV+SVM,具體識(shí)別情況可參見表1。
Table 1 Speaker recognition ratio of various algorithmsfor varying degrees abnormal speech表1 各類算法的不同程度非常態(tài)語音說話人識(shí)別
從表1可知,本文提出的算法對(duì)輕微非常態(tài)語音有較好的效果,相對(duì)文獻(xiàn)[11]算法識(shí)別率提高3.2%,但文獻(xiàn)[11]算法和本文算法對(duì)較重變異非常態(tài)語音基本不能識(shí)別。
整體識(shí)別即對(duì)所有的病變異常語音不分類的識(shí)別情況。使用整體識(shí)別率為各類說話人識(shí)別算法的性能評(píng)價(jià)指標(biāo)時(shí),得到如表2所示的結(jié)果。
Table 2 Speaker recognition ratio ofabnormal utterance for methods mentioned表2 各類算法的非常態(tài)語音說話人識(shí)別情況
從表2可知,簡單的GMM和SVM說話人識(shí)別算法,其性能在面對(duì)病變語音時(shí)急劇下降。同樣使用CV方法,文獻(xiàn)[11]算法的整體識(shí)別相對(duì)本文提出的算法要低2%,主要原因是文獻(xiàn)[11]中根據(jù)經(jīng)驗(yàn)設(shè)定最優(yōu)CV參數(shù),而本文依據(jù)數(shù)據(jù)的本身特點(diǎn)主動(dòng)調(diào)整最優(yōu)CV參數(shù),自適應(yīng)地使病變語音說話人識(shí)別能達(dá)到最優(yōu)。
從表1和表2可知,結(jié)合CV和SVM方法具有一定的非常態(tài)語音應(yīng)對(duì)能力。為說明本文算法對(duì)正常語音說話人識(shí)別的影響,本文采用正常語音進(jìn)行了說話人識(shí)別實(shí)驗(yàn),具體實(shí)驗(yàn)結(jié)果參見表3。
Table 3 Speaker recognition ratio ofvarious algorithms for normal speech表3 各類算法的正常語音說話人識(shí)別結(jié)果
從表3可知,本文所提算法和文獻(xiàn)[11]算法對(duì)正常語音說話人識(shí)別的性能有點(diǎn)影響,主要是因?yàn)檎UZ音情況下,提取共同向量會(huì)使語音失去能表征其個(gè)性特征的更細(xì)節(jié)成分。但是,當(dāng)語音發(fā)生非常態(tài)時(shí),提取共同向量保留其大部分表征說話人特性的特征,舍棄語音中的一些發(fā)生變化的成分。
本文提出一種基于共同向量的非常態(tài)語音說話人識(shí)別算法,語音發(fā)生非常態(tài)現(xiàn)象時(shí),其各階特征發(fā)生何種變化及變化程度如何與引起語音非常態(tài)因素有關(guān),而能引起語音非常態(tài)因素種類繁多,定性統(tǒng)計(jì)分析特征層的變化不現(xiàn)實(shí)。本文使用共同向量方法,建立每個(gè)說話人的特征的共同向量,然后對(duì)測試語音按最優(yōu)共同向量提取原則提取其共同向量并送進(jìn)SVM分類器。實(shí)驗(yàn)結(jié)果表明,采用本文所提算法對(duì)輕微異常語音說話人的識(shí)別率為85.4%,分別比GMM、SVM和文獻(xiàn)[11]識(shí)別率提高了16.9%、15.2%和3.1%。在輕微變異語音的說話人識(shí)別方面取得一點(diǎn)可喜結(jié)果,但在稍重變異和較重變異方面還需要繼續(xù)努力。
[1] Zhang Lei,Han Jin-qing,Wang Cheng-fa.Research progress of stressed speech processing[J].Acta Electronica Sinica,2003,31(3):411-418.(in Chinese)
[2] Furui S. 50 years of progress in speech and speaker recognition research[J]. ECTI Transactions on Computer and Information Technology, 2005, 1(2):1.
[3] Togneri R,Pullella D.An overview of speaker identification:Accuracy and robustness issues[J]. Circuits and Systems Magazine, IEEE, 2011, 11(2):23-61.
[4] Vaziri G,Almasganj F,Behroozmand R.Pathological assessment of patients’ speech signals using nonlinear dynamical analysis[J]. Computers in Biology and Medicine, 2010, 40(1):54-63.
[5] Baken R J. Clinical measures of speech and voice[M]. Baltimore:Singular, 1996.
[6] Gulmezoglu M B, Dzhafarov V, Keskin M, et al. A novel approach to isolated word recognition[J]. IEEE Transactions on Speech and Audio Processing, 1999, 7(6):620-628.
[7] Gulmezoglu M B, Dzhafarov V, Barkana A. The common vector approach and its relation to principal component analysis[J]. IEEE Transactions on Speech and Audio Processing, 2001, 9(6):655-662.
[8] Cevikalp H, Neamtu M, Wilkes M, et al. Discriminative common vectors for face recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2005, 27(1):4-13.
[9] Cevikalp H, Neamtu M, Barkana A. The kernel common vector method:A novel nonlinear subspace classifier for pattern recognition[J]. IEEE Transactions on Systems, Man, and Cybernetics, Part B:Cybernetics, 2007, 37(4):937-951.
[10] Wen Ying,Shi Peng-fei.An approach to face recognition based on common vector and 2DPCA[J]. ACTA Automatica Sinica,2009,35(2):202-205.(in Chinese)
[11] Sadi? S, Gülmezoglu M B. Common vector approach and its combination with GMM for text-independent speaker recognition[J]. Expert Systems with Applications, 2011, 38(9):11394-11400.
[12] Zhang Xian-da. Matrix analysis and applications[M]. Beijing:Tsinghua University Press,2004.(in Chinese)
[13] You Chang-huai, Lee Kong Aik, Li Hai-zhou. GMM-SVM kernel with a bhattacharyya-based distance for speaker recognition[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2010, 18(6):1300-1312.
[14] Ferras M,Leung Cheung-Chi,Barras C,et al.Comparison of
speaker adaptation methods as feature extraction for SVM-based speaker recognition[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2010, 18(6):1366-1378.
[15] Lin Keng-pei, Chen Ming-syan. On the design and analysis of the privacy-preserving SVM classifier[J]. IEEE Transactions on Knowledge and Data Engineering, 2011, 23(11):1704-1717.
[16] He Jun,Li Yan-xiong,He Qian-hua,et al.Speaker recognition algorithm for abnormal speech based on abnormal feature weighting[J].Journal of South China University of Technology,2012(3):106-111.(in Chinese)
[17] He Jun.Research on stragegies against abnormal speech in voiceprint recognition system[D]:Guangzhou:South China University of Technology,2012.(in Chinese)
附中文參考文獻(xiàn):
[1] 張磊, 韓紀(jì)慶, 王承發(fā). 變異語音處理的研究進(jìn)展[J]. 電子學(xué)報(bào), 2003,31(3):411-418.
[10] 文穎, 施鵬飛. 一種基于共同向量結(jié)合2DPCA的人臉識(shí)別方法[J]. 自動(dòng)化學(xué)報(bào), 2009, 35(2):202-205.
[12] 張賢達(dá). 矩陣分析與應(yīng)用[M]. 北京:清華大學(xué)出版社, 2004.
[16] 何俊, 李艷雄, 賀前華, 等. 變異特征加權(quán)的異常語音說話人識(shí)別算法[J]. 華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版), 2012(3):106-111.
[17] 何俊. 聲紋身份識(shí)別中非常態(tài)語音應(yīng)對(duì)方法研究[D]. 廣州:華南理工大學(xué), 2012.
HEJun,born in 1978,PhD,lecturer,his research interests include speech signal processing, speaker recognition, and information security.
Speakerrecognitionofabnormalvoicebasedoncommonvector
HE Jun1,HE Qian-hua2,ZHANG Qing-hua1,SUN Guo-xi1,XIAO Ming1,ZUO Jing-long1
(1.Guangdong University of Petrochemical Technology,Maoming 525000;2.School of Electronic and Information Engineering,South China University of Technology,Guangzhuo 510641,China)
A speaker recognition algorithm of abnormal voice based on common vector is proposed to overcome the drawback that exists when the traditional common vector is calculated by using the predefined parameters. The proposed algorithm uses the system recognition ratio to adaptively adjust the parameters of calculating the common vector, takes the parameter with the highest system recognition ratio as the optimal parameter so as to extract the common vector, and uses the SVM Classifier to categorize the speakers of abnormal voice. Experimental results show that, by using the common vector extracted by the proposed algorithm, the speaker recognition ratio of slight cold is 85.4%, which has the improvement of 16.9%,15.2% and 3.2% respectively in comparison to the methods of GMM,SVM and ref[6].
abnormal voice;speaker recognition;common vector;SVM
1007-130X(2014)08-1599-05
2012-11-01;
:2013-03-14
國家自然科學(xué)基金資助項(xiàng)目(60972132,61174113,61101160);廣東省自然科學(xué)基金資助項(xiàng)目(8152500002000011)
TP391.4
:A
10.3969/j.issn.1007-130X.2014.08.031
何俊(1978-),男,湖南邵陽人,博士,講師,研究方向?yàn)檎Z音信號(hào)處理、說話人識(shí)別和信息安全。E-mail:hejun_723@126.com
通信地址:525000 廣東省茂名市廣東石油化工學(xué)院石化裝備故障診斷檢測省重點(diǎn)實(shí)驗(yàn)室
Address:Guangdong Province Key Laboratory of Petrochemical Equipment Fault Diagnosis,Guangdong University of Petrochemical Technology,Maoming 525000,Guangdong,P.R.China