亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        CHMM語(yǔ)音識(shí)別初值選擇方法的研究

        2012-03-22 02:20:46劉伶俐王朝立
        關(guān)鍵詞:概率密度函數(shù)初值協(xié)方差

        劉伶俐, 王朝立, 于 震

        (上海理工大學(xué)光電信息與計(jì)算機(jī)工程學(xué)院,上海 200093)

        隱馬爾科夫模型(HMM)作為語(yǔ)音信號(hào)的一種統(tǒng)計(jì)模型,語(yǔ)音識(shí)別效果好,能夠很好地描述語(yǔ)音信號(hào)的特點(diǎn),在數(shù)字語(yǔ)音處理中應(yīng)用非常廣泛.

        HMM包括離散的模型(DHMM—Discrete HMM)、連續(xù)混合密度模型(CHMM—Continuous HMM)以及半連續(xù)模型(SCHMM—Semi-Continuous HMM).相比較DHMM,CHMM系統(tǒng)識(shí)別率更高,這是由于在CHMM中輸入向量X即觀察值向量,不需要經(jīng)過(guò)矢量量化轉(zhuǎn)變,這個(gè)輸入向量直接就是每一幀語(yǔ)音信號(hào)的特征矢量.基于CHMM系統(tǒng)識(shí)別率高的特點(diǎn),它的應(yīng)用非常廣泛.文獻(xiàn)[1]給出了基于性別的CHMM語(yǔ)音識(shí)別方法,文獻(xiàn)[2]研究了駕駛員意圖識(shí)別的可能性,文獻(xiàn)[3]討論了基于聲音的軸承故障診斷等.

        在HMM模型建立后用Baum-Welch迭代算法求解HMM模型,其中一個(gè)重要的問(wèn)題就是初始模型的選?。?],不同的初始參數(shù)模型將產(chǎn)生不同的訓(xùn)練結(jié)果與識(shí)別結(jié)果.關(guān)于DHMM初值的研究,文獻(xiàn)[5]說(shuō)明了DHMM初始參數(shù)選擇的一般規(guī)律和最佳選擇方法,但是CHMM的初始參數(shù)至今還沒(méi)有一個(gè)最佳的選擇方法.傳統(tǒng)CHMM參數(shù)初始化方法是隨機(jī)分布之值、K均值算法,但是由于K-means方法存在對(duì)初始中心的依靠較重、對(duì)孤立點(diǎn)影響較大和聚類結(jié)果不穩(wěn)定的缺點(diǎn)[4,6],因此,有人提出了對(duì)初值中心選擇的改進(jìn)方法:基于密度的方法[7]和最大最小距離法[8].基于密度的方法首先去除孤立點(diǎn),在密度所在的區(qū)域內(nèi)隨機(jī)選擇初始中心,但是密度相似性大小相差較大時(shí),聚類結(jié)果不好;而最大最小距離方法雖然可以使類間相似性最弱,類內(nèi)相似性最強(qiáng),但是忽略了孤立點(diǎn)對(duì)聚類結(jié)果的影響.

        本文在研究連續(xù)混合密度模型(CHMM)初始參數(shù)選擇時(shí),為了更好地平滑逼近語(yǔ)音特征,使語(yǔ)音特征矢量類間相似性最小,類內(nèi)相似性最大,采用最大距離選擇初始聚類中心、最小距離將語(yǔ)音特征矢量分類、平均距離去除類內(nèi)干擾點(diǎn)的K-means方法.這種方法不僅去除了聚類中的干擾點(diǎn),而且克服了傳統(tǒng)算法的缺點(diǎn),為語(yǔ)音訓(xùn)練識(shí)別節(jié)省了時(shí)間,提高了語(yǔ)音的識(shí)別率.

        1 CHMM的基本元素

        設(shè)S={Si},i=1,2,…,N,為模型的N狀態(tài)空間,CHMM常用M={S,X,A,B,π,F(xiàn) }6個(gè)模型參數(shù)來(lái)定義,不過(guò)一般簡(jiǎn)化用M=(A ,B,π)表示.

        A表示狀態(tài)轉(zhuǎn)移概率矩陣,A={aij},aij=P[qt+1=j(luò)|qt=i],1≤i,j≤N,q為狀態(tài)序列;B表示概率密度分布函數(shù)集合,B={bj(X)},1≤j≤N;X為觀察向量;π表示系統(tǒng)初始狀態(tài)概率的集合,πi表示初始狀態(tài)是qi的概率即πi=p [q1=i],1≤i≤N;F為系統(tǒng)終了狀態(tài)矩陣.

        2 CHMM模型

        研究對(duì)象選取連續(xù)的無(wú)跨越自左向右的CHMM,觀察參數(shù)矢量為X=x1,x2,…,xT,狀態(tài)序列為q=q1,q2,…,qn,狀態(tài)數(shù)為N,CHMM初始模型為λ=(A,B,π).

        一般認(rèn)為π和A初值的選取對(duì)結(jié)果的影響不大,但B的初值對(duì)HMM的影響比較大[6].所以本文主要研究B的初值對(duì)CHMM的影響.

        無(wú)跨越自左向右的CHMM,由于輸出的是連續(xù)值,不是有限的,所以不能用矩陣表示輸出概率[4],而用概率密度函數(shù)來(lái)表示,即用bj(X)表示.bj(X)稱為參數(shù)X的概率分布函數(shù),輸出X的概率可以通過(guò)bj(X)計(jì)算出來(lái).一般bj(X)用高斯密度函數(shù)表示,由于X是多維矢量,所以用多元高斯概率密度函數(shù)表示為

        這里p是X的維數(shù),μj是概率密度的均值矢量,T為轉(zhuǎn)置,∑j是概率密度的協(xié)方差矩陣(為計(jì)算方便一般用對(duì)角協(xié)方差矩陣).

        在實(shí)際的語(yǔ)音信號(hào)處理系統(tǒng)中,往往用一個(gè)高斯概率密度函數(shù)不足以表示語(yǔ)音參數(shù)X的輸出概率分布,所以常采用混合模型將所有的局部特征綜合在一起,形成一個(gè)更為全面的分布函數(shù).這里使用多個(gè)高斯概率分布的加權(quán)組合,表示輸出概率密度函數(shù)[4]為

        這里ωjm是混合系數(shù),又叫分支概率,即第m個(gè)分量權(quán)重,滿足為分支概率密度,即表示狀態(tài)為j的第m個(gè)分量的高斯概率密度函數(shù).μjm和∑jm是狀態(tài)j中第m個(gè)混合分量的均值矢量和協(xié)方差矩陣.

        bj(X)概率密度特性滿足由式(2)可以看出,混合概率密度函數(shù)由各個(gè)概率密度函數(shù)組合而成,概率密度函數(shù)可由均值矢量、協(xié)方差和混合分量來(lái)描述.為求得輸出概率密度必須要先確定初值μjm,∑jm,ωjm,這對(duì)后面參數(shù)的重估至關(guān)重要.對(duì)各狀態(tài)的混合高斯函數(shù)的均值、方差和權(quán)系數(shù)的初始化,傳統(tǒng)采用K均值算法.

        2.1 傳統(tǒng)初始化方法

        K-means算法以每類的均值矢量和協(xié)方差矩陣為類中心作為分類準(zhǔn)則度量,則最終k個(gè)高斯分量的均值估計(jì)和方差估計(jì)即為每類數(shù)據(jù)的均值矢量和協(xié)方差矢量.

        具體步驟如下:

        a.由某一狀態(tài)的訓(xùn)練語(yǔ)音,隨機(jī)選取k個(gè)點(diǎn)(即特征矢量),每個(gè)點(diǎn)代表一個(gè)類的初始中心或平均值;

        b.其余點(diǎn)根據(jù)相似度準(zhǔn)則(歐氏距離)將相同或相似的數(shù)據(jù)歸為一類;

        c.如果相鄰的兩次聚類中心沒(méi)有任何變化,說(shuō)明對(duì)象調(diào)整結(jié)束,否則調(diào)整新的聚類中心,重復(fù)b;

        d.計(jì)算每一類的均值矢量,作為高斯概率密度函數(shù)的均值估計(jì)和高斯概率密度函數(shù)的初值.

        以上是傳統(tǒng)的計(jì)算方法,優(yōu)點(diǎn)是過(guò)程簡(jiǎn)單、操作容易.但是這種方法有很大的缺點(diǎn):第一,由于初始聚類中心是隨機(jī)選取,所以不同的初始中心可以得到不同的初始均值和方差,造成不同的局部最大,聚類結(jié)果穩(wěn)定性較差;第二,K-means算法對(duì)噪聲和孤立點(diǎn)數(shù)據(jù)比較敏感.

        2.2 一種改進(jìn)的CHMM參數(shù)初始化方法

        基于傳統(tǒng)算法的缺點(diǎn),本文提出一種改進(jìn)算法:首先選擇相互距離最遠(yuǎn)的k個(gè)對(duì)象作為初始聚類中心;然后按相似性最強(qiáng)分類,為不受干擾點(diǎn)的影響,聚類結(jié)束后去除每類中的干擾點(diǎn).這樣的好處是所選擇的初始中心更具有代表性,使得類內(nèi)相似性最強(qiáng),每類均值特征與語(yǔ)音特征偏離度較小,能更好地平滑逼近語(yǔ)音特征.

        從式(1)中可以看出,bj(X)由均值和協(xié)方差矩陣決定,其實(shí)主要由均值決定.假定δii(x)是協(xié)方差矩陣中的元素,δii(x)表示X與μj(x)的偏離程度,按輸出概率密度最大來(lái)說(shuō),一般總希望δii(x)應(yīng)盡可能的?。ǖ荒転榱悖@樣X(jué)與μj(x)越接近,bj(X)就越大.

        由式(3)可以看出,當(dāng)X與μj(x)的偏離程度最小時(shí),說(shuō)明它們的相似性最強(qiáng),即每個(gè)概率密度函數(shù)也就取得最大值,根據(jù)這個(gè)原則定義相似性.

        定義1 樣本X中的元素xi是p維的,一個(gè)樣本特征向量與另一個(gè)樣本特征向量之間的相似性公式為

        d的數(shù)值小說(shuō)明xi,xj的相似性強(qiáng),反之它們的相似性弱.式(4)選擇的是歐式距離的平方,相似性的判別與歐式距離相同,但是算法的效率要比歐式距離高.

        該算法主要有3步:一是求距離;二是分類;三是去除干擾點(diǎn).將樣本分為k類的具體算法描述如下:

        a.某一狀態(tài)的訓(xùn)練語(yǔ)音X=x1,x2…xt,按式(4)分別計(jì)算兩兩特征矢量(點(diǎn)與點(diǎn)間的)距離,各特征矢量間相互獨(dú)立;

        b.選出距離最大的兩個(gè)點(diǎn)(xi,xj)作為兩個(gè)初始中心y1=xi,y2=xj,將X中的其余點(diǎn)以y1,y2為初始中心按式(4)求取距離,按最小距離的原則將X分為D1,D2兩類;

        c.在D1,D2中找出與y1,y2相似性最弱的特征向量xi,xj,并分別代入式(4),得到d=max(max d(y1,xi),max d(y1,xj),max d(y2,xi),max d(y2,xj)),將距離最大的xi(xj)作為y3,并以y3為中心按式(4)分類;

        d.在已經(jīng)找到的m個(gè)初始中心共有D1,D2,…,Dm類,按式(4)尋找與初始中心最遠(yuǎn)的點(diǎn),并按max(max d(yi,xi),max d(yi,xj),max d(yj,xi),max d(yj,xj))選下一個(gè)初始中心,并重新劃分歸類,直到分為k類;

        e.分類結(jié)束后,計(jì)算每類中其它點(diǎn)與聚類中心的距離,并求平均距離,將與聚類中心距離大于平均距離的點(diǎn)從此類中刪除;

        f.將每類中的剩余點(diǎn)計(jì)算均值;

        g.ωjm的值等于每類中的特征矢量個(gè)數(shù),除以所有類中特征矢量個(gè)數(shù)之和.

        以上算法是按兩點(diǎn)之間相似性的大小,進(jìn)行初始聚類中心的選擇,有一定的規(guī)律性,克服了一般K-means的初值選擇無(wú)序的狀況;而且根據(jù)所定義的相似性公式所選的初始聚類中心滿足協(xié)方差偏離程度最小,并且刪除了每類中的干擾點(diǎn),這樣所得的均值向量與特征值向量相似性最好,聚類效果好,有利于參數(shù)的估計(jì)和語(yǔ)音的識(shí)別.

        3 不同CHMM參數(shù)初始化方法對(duì)識(shí)別結(jié)果的影響

        連續(xù)無(wú)跨越自左向右的CHMM,系統(tǒng)初始狀態(tài)概率的集合為π=[1,0,0,…,0],即從第一個(gè)狀態(tài)開(kāi)始執(zhí)行.狀態(tài)轉(zhuǎn)移概率矩陣A,aij為A中的元素,0<aij<1,滿足

        轉(zhuǎn)移概率矩陣初值選擇

        B的初值分別由傳統(tǒng)K-means方法與改進(jìn)后的K-means方法進(jìn)行選擇.對(duì)于傳統(tǒng)K-means方法隨機(jī)選擇初始聚類中心,然后按最小距離準(zhǔn)則對(duì)輸入樣本分類,更新聚類中心,通過(guò)迭代最后得到初始參數(shù);而對(duì)于改進(jìn)的K-means方法先按照最大距離選擇k個(gè)相似性最弱的點(diǎn),然后按最小距離準(zhǔn)則對(duì)輸入樣本分類,更新聚類中心,最后將每類中的孤立點(diǎn)去除,計(jì)算每類的均值矢量、協(xié)方差矩陣以及混合權(quán)值作為初始參數(shù).

        實(shí)驗(yàn)是在matlab 7.0環(huán)境下實(shí)現(xiàn),語(yǔ)音樣本為非特定人孤立數(shù)字0~9共400個(gè).每個(gè)數(shù)字錄音40個(gè),其中20個(gè)用于語(yǔ)音訓(xùn)練,20個(gè)用于語(yǔ)音識(shí)別.采用不同的初始化方法進(jìn)行語(yǔ)音識(shí)別所得到的識(shí)別率結(jié)果如表1所示.

        表1 不同參數(shù)初始化方法Tab.1 Different parameters initialization ways

        從表1可以看出,采用改進(jìn)后的K-means算法所得到的CHMM初始參數(shù)得到的識(shí)別率更好,這是因?yàn)榇朔椒朔藗鹘y(tǒng)算法的缺點(diǎn),并去除了干擾點(diǎn)對(duì)識(shí)別結(jié)果的影響.

        4 結(jié) 論

        研究了CHMM的初始參數(shù)概率密度函數(shù)的選擇,在傳統(tǒng)的初值選擇方法的基礎(chǔ)上提出了改進(jìn)后的K-means方法.在規(guī)定的條件下,改進(jìn)后的初值選擇方法,克服了語(yǔ)音在初值的選擇上不穩(wěn)定性和孤立點(diǎn)的影響,更逼近語(yǔ)音特征,提高了聚類的準(zhǔn)確性和語(yǔ)音的識(shí)別率.

        [1] 張捍東,李金煒.基于性別識(shí)別的分類CHMM語(yǔ)音識(shí)別[J].計(jì)算機(jī)工程與應(yīng)用,2007,21(7):187-189.

        [2] Jin L S,Hou H J,Jiang Y Y.Driver intention recognition based on continuous hidden Markov model[C]//International Conference on Transportation,Mechanical,and Electrical Engineering(TMEE).Changchun,2011:739-742.

        [3] Wu B,Wang M J,Lou Y G.Cyclostationarity and CHMM based bearing fault diagnosis approach in start-up process[C]//2010 2nd International Conference on Computer Engineering and Technology(ICCET).Chengdu,2010:433-436.

        [4] 趙力.語(yǔ)音信號(hào)處理[M].北京:機(jī)械工業(yè)出版社,2008.

        [5] 馬明,張杰,王建宇,等.語(yǔ)音識(shí)別中隱馬爾科夫模型初值的估計(jì)[J].數(shù)據(jù)采集與處理,1997,2(7):96-100.

        [6] 韓紀(jì)慶.語(yǔ)音信號(hào)處理[M].北京:清華大學(xué)出版社,2004.

        [7] 汪中,劉貴全,陳恩紅,等.一種優(yōu)化初始中心點(diǎn)的K-means算法[J].模式識(shí)別與人工智能,2009,2(4):299-304.

        [8] 蘇中,馬少平,楊強(qiáng).基于Web-Log Mining的Web文檔聚類[J].軟件學(xué)報(bào),2002,13(1):99-104.

        猜你喜歡
        概率密度函數(shù)初值協(xié)方差
        冪分布的有效估計(jì)*
        具非定常數(shù)初值的全變差方程解的漸近性
        一種適用于平動(dòng)點(diǎn)周期軌道初值計(jì)算的簡(jiǎn)化路徑搜索修正法
        三維擬線性波方程的小初值光滑解
        已知f(x)如何求F(x)
        不確定系統(tǒng)改進(jìn)的魯棒協(xié)方差交叉融合穩(wěn)態(tài)Kalman預(yù)報(bào)器
        一種基于廣義協(xié)方差矩陣的欠定盲辨識(shí)方法
        基于概率密度函數(shù)的控制系統(tǒng)性能評(píng)價(jià)
        非高斯隨機(jī)分布系統(tǒng)自適應(yīng)控制算法的研究
        具有無(wú)窮大初值的二維奇異攝動(dòng)問(wèn)題的漸近解
        亚洲国产精品一区二区| 免费无码av片在线观看网址| 国产高清吃奶成免费视频网站| 日本少妇比比中文字幕| 亚洲av迷人一区二区三区| 日本午夜精品一区二区三区电影| 亚洲中文久久精品无码ww16| 欧美亚洲h在线一区二区| 亚洲一区二区在线观看av | 18精品久久久无码午夜福利| 欧美日韩久久久精品a片| 国产亚洲曝欧美不卡精品| av网页免费在线观看| 国产精品a免费一区久久电影 | 国产亚洲精品精品精品| 日日摸夜夜添夜夜添无码免费视频 | 初尝人妻少妇中文字幕在线| 在线播放亚洲丝袜美腿| 内地老熟女老少配视频| 亚洲免费不卡| 天堂av一区二区麻豆| 久久久久久人妻无码| 天天摸日日摸狠狠添| 国产精品女同久久免费观看| 日韩少妇人妻精品中文字幕| 最新国产精品久久精品| 日韩欧美区| 亚洲黄片av在线免费观看| 国产成人综合久久久久久| 精品国产性色无码av网站| 天天爱天天做天天爽| 日本二区视频在线观看| 日韩av一区二区网址| 少妇放荡的呻吟干柴烈火动漫| 精品国产一区二区三区久久女人| 国产毛片视频一区二区三区在线| 国产精品a免费一区久久电影| 欧美成aⅴ人高清免费| 日韩在线视频不卡一区二区三区 | 国产美女胸大一区二区三区| 国产三级视频不卡在线观看|