劉伶俐, 王朝立, 于 震
(上海理工大學(xué)光電信息與計(jì)算機(jī)工程學(xué)院,上海 200093)
隱馬爾科夫模型(HMM)作為語(yǔ)音信號(hào)的一種統(tǒng)計(jì)模型,語(yǔ)音識(shí)別效果好,能夠很好地描述語(yǔ)音信號(hào)的特點(diǎn),在數(shù)字語(yǔ)音處理中應(yīng)用非常廣泛.
HMM包括離散的模型(DHMM—Discrete HMM)、連續(xù)混合密度模型(CHMM—Continuous HMM)以及半連續(xù)模型(SCHMM—Semi-Continuous HMM).相比較DHMM,CHMM系統(tǒng)識(shí)別率更高,這是由于在CHMM中輸入向量X即觀察值向量,不需要經(jīng)過(guò)矢量量化轉(zhuǎn)變,這個(gè)輸入向量直接就是每一幀語(yǔ)音信號(hào)的特征矢量.基于CHMM系統(tǒng)識(shí)別率高的特點(diǎn),它的應(yīng)用非常廣泛.文獻(xiàn)[1]給出了基于性別的CHMM語(yǔ)音識(shí)別方法,文獻(xiàn)[2]研究了駕駛員意圖識(shí)別的可能性,文獻(xiàn)[3]討論了基于聲音的軸承故障診斷等.
在HMM模型建立后用Baum-Welch迭代算法求解HMM模型,其中一個(gè)重要的問(wèn)題就是初始模型的選?。?],不同的初始參數(shù)模型將產(chǎn)生不同的訓(xùn)練結(jié)果與識(shí)別結(jié)果.關(guān)于DHMM初值的研究,文獻(xiàn)[5]說(shuō)明了DHMM初始參數(shù)選擇的一般規(guī)律和最佳選擇方法,但是CHMM的初始參數(shù)至今還沒(méi)有一個(gè)最佳的選擇方法.傳統(tǒng)CHMM參數(shù)初始化方法是隨機(jī)分布之值、K均值算法,但是由于K-means方法存在對(duì)初始中心的依靠較重、對(duì)孤立點(diǎn)影響較大和聚類結(jié)果不穩(wěn)定的缺點(diǎn)[4,6],因此,有人提出了對(duì)初值中心選擇的改進(jìn)方法:基于密度的方法[7]和最大最小距離法[8].基于密度的方法首先去除孤立點(diǎn),在密度所在的區(qū)域內(nèi)隨機(jī)選擇初始中心,但是密度相似性大小相差較大時(shí),聚類結(jié)果不好;而最大最小距離方法雖然可以使類間相似性最弱,類內(nèi)相似性最強(qiáng),但是忽略了孤立點(diǎn)對(duì)聚類結(jié)果的影響.
本文在研究連續(xù)混合密度模型(CHMM)初始參數(shù)選擇時(shí),為了更好地平滑逼近語(yǔ)音特征,使語(yǔ)音特征矢量類間相似性最小,類內(nèi)相似性最大,采用最大距離選擇初始聚類中心、最小距離將語(yǔ)音特征矢量分類、平均距離去除類內(nèi)干擾點(diǎn)的K-means方法.這種方法不僅去除了聚類中的干擾點(diǎn),而且克服了傳統(tǒng)算法的缺點(diǎn),為語(yǔ)音訓(xùn)練識(shí)別節(jié)省了時(shí)間,提高了語(yǔ)音的識(shí)別率.
設(shè)S={Si},i=1,2,…,N,為模型的N狀態(tài)空間,CHMM常用M={S,X,A,B,π,F(xiàn) }6個(gè)模型參數(shù)來(lái)定義,不過(guò)一般簡(jiǎn)化用M=(A ,B,π)表示.
A表示狀態(tài)轉(zhuǎn)移概率矩陣,A={aij},aij=P[qt+1=j(luò)|qt=i],1≤i,j≤N,q為狀態(tài)序列;B表示概率密度分布函數(shù)集合,B={bj(X)},1≤j≤N;X為觀察向量;π表示系統(tǒng)初始狀態(tài)概率的集合,πi表示初始狀態(tài)是qi的概率即πi=p [q1=i],1≤i≤N;F為系統(tǒng)終了狀態(tài)矩陣.
研究對(duì)象選取連續(xù)的無(wú)跨越自左向右的CHMM,觀察參數(shù)矢量為X=x1,x2,…,xT,狀態(tài)序列為q=q1,q2,…,qn,狀態(tài)數(shù)為N,CHMM初始模型為λ=(A,B,π).
一般認(rèn)為π和A初值的選取對(duì)結(jié)果的影響不大,但B的初值對(duì)HMM的影響比較大[6].所以本文主要研究B的初值對(duì)CHMM的影響.
無(wú)跨越自左向右的CHMM,由于輸出的是連續(xù)值,不是有限的,所以不能用矩陣表示輸出概率[4],而用概率密度函數(shù)來(lái)表示,即用bj(X)表示.bj(X)稱為參數(shù)X的概率分布函數(shù),輸出X的概率可以通過(guò)bj(X)計(jì)算出來(lái).一般bj(X)用高斯密度函數(shù)表示,由于X是多維矢量,所以用多元高斯概率密度函數(shù)表示為
這里p是X的維數(shù),μj是概率密度的均值矢量,T為轉(zhuǎn)置,∑j是概率密度的協(xié)方差矩陣(為計(jì)算方便一般用對(duì)角協(xié)方差矩陣).
在實(shí)際的語(yǔ)音信號(hào)處理系統(tǒng)中,往往用一個(gè)高斯概率密度函數(shù)不足以表示語(yǔ)音參數(shù)X的輸出概率分布,所以常采用混合模型將所有的局部特征綜合在一起,形成一個(gè)更為全面的分布函數(shù).這里使用多個(gè)高斯概率分布的加權(quán)組合,表示輸出概率密度函數(shù)[4]為
這里ωjm是混合系數(shù),又叫分支概率,即第m個(gè)分量權(quán)重,滿足為分支概率密度,即表示狀態(tài)為j的第m個(gè)分量的高斯概率密度函數(shù).μjm和∑jm是狀態(tài)j中第m個(gè)混合分量的均值矢量和協(xié)方差矩陣.
bj(X)概率密度特性滿足由式(2)可以看出,混合概率密度函數(shù)由各個(gè)概率密度函數(shù)組合而成,概率密度函數(shù)可由均值矢量、協(xié)方差和混合分量來(lái)描述.為求得輸出概率密度必須要先確定初值μjm,∑jm,ωjm,這對(duì)后面參數(shù)的重估至關(guān)重要.對(duì)各狀態(tài)的混合高斯函數(shù)的均值、方差和權(quán)系數(shù)的初始化,傳統(tǒng)采用K均值算法.
K-means算法以每類的均值矢量和協(xié)方差矩陣為類中心作為分類準(zhǔn)則度量,則最終k個(gè)高斯分量的均值估計(jì)和方差估計(jì)即為每類數(shù)據(jù)的均值矢量和協(xié)方差矢量.
具體步驟如下:
a.由某一狀態(tài)的訓(xùn)練語(yǔ)音,隨機(jī)選取k個(gè)點(diǎn)(即特征矢量),每個(gè)點(diǎn)代表一個(gè)類的初始中心或平均值;
b.其余點(diǎn)根據(jù)相似度準(zhǔn)則(歐氏距離)將相同或相似的數(shù)據(jù)歸為一類;
c.如果相鄰的兩次聚類中心沒(méi)有任何變化,說(shuō)明對(duì)象調(diào)整結(jié)束,否則調(diào)整新的聚類中心,重復(fù)b;
d.計(jì)算每一類的均值矢量,作為高斯概率密度函數(shù)的均值估計(jì)和高斯概率密度函數(shù)的初值.
以上是傳統(tǒng)的計(jì)算方法,優(yōu)點(diǎn)是過(guò)程簡(jiǎn)單、操作容易.但是這種方法有很大的缺點(diǎn):第一,由于初始聚類中心是隨機(jī)選取,所以不同的初始中心可以得到不同的初始均值和方差,造成不同的局部最大,聚類結(jié)果穩(wěn)定性較差;第二,K-means算法對(duì)噪聲和孤立點(diǎn)數(shù)據(jù)比較敏感.
基于傳統(tǒng)算法的缺點(diǎn),本文提出一種改進(jìn)算法:首先選擇相互距離最遠(yuǎn)的k個(gè)對(duì)象作為初始聚類中心;然后按相似性最強(qiáng)分類,為不受干擾點(diǎn)的影響,聚類結(jié)束后去除每類中的干擾點(diǎn).這樣的好處是所選擇的初始中心更具有代表性,使得類內(nèi)相似性最強(qiáng),每類均值特征與語(yǔ)音特征偏離度較小,能更好地平滑逼近語(yǔ)音特征.
從式(1)中可以看出,bj(X)由均值和協(xié)方差矩陣決定,其實(shí)主要由均值決定.假定δii(x)是協(xié)方差矩陣中的元素,δii(x)表示X與μj(x)的偏離程度,按輸出概率密度最大來(lái)說(shuō),一般總希望δii(x)應(yīng)盡可能的?。ǖ荒転榱悖@樣X(jué)與μj(x)越接近,bj(X)就越大.
令
由式(3)可以看出,當(dāng)X與μj(x)的偏離程度最小時(shí),說(shuō)明它們的相似性最強(qiáng),即每個(gè)概率密度函數(shù)也就取得最大值,根據(jù)這個(gè)原則定義相似性.
定義1 樣本X中的元素xi是p維的,一個(gè)樣本特征向量與另一個(gè)樣本特征向量之間的相似性公式為
d的數(shù)值小說(shuō)明xi,xj的相似性強(qiáng),反之它們的相似性弱.式(4)選擇的是歐式距離的平方,相似性的判別與歐式距離相同,但是算法的效率要比歐式距離高.
該算法主要有3步:一是求距離;二是分類;三是去除干擾點(diǎn).將樣本分為k類的具體算法描述如下:
a.某一狀態(tài)的訓(xùn)練語(yǔ)音X=x1,x2…xt,按式(4)分別計(jì)算兩兩特征矢量(點(diǎn)與點(diǎn)間的)距離,各特征矢量間相互獨(dú)立;
b.選出距離最大的兩個(gè)點(diǎn)(xi,xj)作為兩個(gè)初始中心y1=xi,y2=xj,將X中的其余點(diǎn)以y1,y2為初始中心按式(4)求取距離,按最小距離的原則將X分為D1,D2兩類;
c.在D1,D2中找出與y1,y2相似性最弱的特征向量xi,xj,并分別代入式(4),得到d=max(max d(y1,xi),max d(y1,xj),max d(y2,xi),max d(y2,xj)),將距離最大的xi(xj)作為y3,并以y3為中心按式(4)分類;
d.在已經(jīng)找到的m個(gè)初始中心共有D1,D2,…,Dm類,按式(4)尋找與初始中心最遠(yuǎn)的點(diǎn),并按max(max d(yi,xi),max d(yi,xj),max d(yj,xi),max d(yj,xj))選下一個(gè)初始中心,并重新劃分歸類,直到分為k類;
e.分類結(jié)束后,計(jì)算每類中其它點(diǎn)與聚類中心的距離,并求平均距離,將與聚類中心距離大于平均距離的點(diǎn)從此類中刪除;
f.將每類中的剩余點(diǎn)計(jì)算均值;
g.ωjm的值等于每類中的特征矢量個(gè)數(shù),除以所有類中特征矢量個(gè)數(shù)之和.
以上算法是按兩點(diǎn)之間相似性的大小,進(jìn)行初始聚類中心的選擇,有一定的規(guī)律性,克服了一般K-means的初值選擇無(wú)序的狀況;而且根據(jù)所定義的相似性公式所選的初始聚類中心滿足協(xié)方差偏離程度最小,并且刪除了每類中的干擾點(diǎn),這樣所得的均值向量與特征值向量相似性最好,聚類效果好,有利于參數(shù)的估計(jì)和語(yǔ)音的識(shí)別.
連續(xù)無(wú)跨越自左向右的CHMM,系統(tǒng)初始狀態(tài)概率的集合為π=[1,0,0,…,0],即從第一個(gè)狀態(tài)開(kāi)始執(zhí)行.狀態(tài)轉(zhuǎn)移概率矩陣A,aij為A中的元素,0<aij<1,滿足
轉(zhuǎn)移概率矩陣初值選擇
B的初值分別由傳統(tǒng)K-means方法與改進(jìn)后的K-means方法進(jìn)行選擇.對(duì)于傳統(tǒng)K-means方法隨機(jī)選擇初始聚類中心,然后按最小距離準(zhǔn)則對(duì)輸入樣本分類,更新聚類中心,通過(guò)迭代最后得到初始參數(shù);而對(duì)于改進(jìn)的K-means方法先按照最大距離選擇k個(gè)相似性最弱的點(diǎn),然后按最小距離準(zhǔn)則對(duì)輸入樣本分類,更新聚類中心,最后將每類中的孤立點(diǎn)去除,計(jì)算每類的均值矢量、協(xié)方差矩陣以及混合權(quán)值作為初始參數(shù).
實(shí)驗(yàn)是在matlab 7.0環(huán)境下實(shí)現(xiàn),語(yǔ)音樣本為非特定人孤立數(shù)字0~9共400個(gè).每個(gè)數(shù)字錄音40個(gè),其中20個(gè)用于語(yǔ)音訓(xùn)練,20個(gè)用于語(yǔ)音識(shí)別.采用不同的初始化方法進(jìn)行語(yǔ)音識(shí)別所得到的識(shí)別率結(jié)果如表1所示.
表1 不同參數(shù)初始化方法Tab.1 Different parameters initialization ways
從表1可以看出,采用改進(jìn)后的K-means算法所得到的CHMM初始參數(shù)得到的識(shí)別率更好,這是因?yàn)榇朔椒朔藗鹘y(tǒng)算法的缺點(diǎn),并去除了干擾點(diǎn)對(duì)識(shí)別結(jié)果的影響.
研究了CHMM的初始參數(shù)概率密度函數(shù)的選擇,在傳統(tǒng)的初值選擇方法的基礎(chǔ)上提出了改進(jìn)后的K-means方法.在規(guī)定的條件下,改進(jìn)后的初值選擇方法,克服了語(yǔ)音在初值的選擇上不穩(wěn)定性和孤立點(diǎn)的影響,更逼近語(yǔ)音特征,提高了聚類的準(zhǔn)確性和語(yǔ)音的識(shí)別率.
[1] 張捍東,李金煒.基于性別識(shí)別的分類CHMM語(yǔ)音識(shí)別[J].計(jì)算機(jī)工程與應(yīng)用,2007,21(7):187-189.
[2] Jin L S,Hou H J,Jiang Y Y.Driver intention recognition based on continuous hidden Markov model[C]//International Conference on Transportation,Mechanical,and Electrical Engineering(TMEE).Changchun,2011:739-742.
[3] Wu B,Wang M J,Lou Y G.Cyclostationarity and CHMM based bearing fault diagnosis approach in start-up process[C]//2010 2nd International Conference on Computer Engineering and Technology(ICCET).Chengdu,2010:433-436.
[4] 趙力.語(yǔ)音信號(hào)處理[M].北京:機(jī)械工業(yè)出版社,2008.
[5] 馬明,張杰,王建宇,等.語(yǔ)音識(shí)別中隱馬爾科夫模型初值的估計(jì)[J].數(shù)據(jù)采集與處理,1997,2(7):96-100.
[6] 韓紀(jì)慶.語(yǔ)音信號(hào)處理[M].北京:清華大學(xué)出版社,2004.
[7] 汪中,劉貴全,陳恩紅,等.一種優(yōu)化初始中心點(diǎn)的K-means算法[J].模式識(shí)別與人工智能,2009,2(4):299-304.
[8] 蘇中,馬少平,楊強(qiáng).基于Web-Log Mining的Web文檔聚類[J].軟件學(xué)報(bào),2002,13(1):99-104.