亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

淺談?wù)f話人識別方法

2016-02-22 13:54:16朱宇軒

西部皮革 2016年10期

關(guān)鍵詞：特征參數(shù)矢量語音

朱宇軒

(西華大學(xué)，四川成都 610039)

淺談?wù)f話人識別方法

朱宇軒

(西華大學(xué)，四川成都 610039)

摘要：信息技術(shù)的發(fā)展使得生物識別技術(shù)越來越成熟，并在人們的生活中具有重要的作用。生物識別技術(shù)，就是提取人體固有的生理特征和行為特征，利用計算機(jī)等高科技方法進(jìn)行識別。生物識別技術(shù)主要包括指紋識別、人臉識別、虹膜識別、還有本文要介紹的語音識別中的說話人識別，也叫做聲紋識別。

關(guān)鍵詞：信息技術(shù)；生物識別

1引言

1945年，Bell實驗室的L.G.Kesta目視語譜圖匹配，提出了聲紋的概念。與傳統(tǒng)的身份識別方法相比，生物識別技術(shù)更加方便，它不容易丟失、遺忘或者被盜。目前這些技術(shù)廣泛應(yīng)用與許多領(lǐng)域中，如軍事領(lǐng)域、信息服務(wù)領(lǐng)域、安保環(huán)衛(wèi)領(lǐng)域、公安司法領(lǐng)域等。

一個說話人識別系統(tǒng)如圖1所示，它主要分為兩個階段：訓(xùn)練階段和識別階段。訓(xùn)練階段需要使用者的若干訓(xùn)練語音片段。提取這些語音片段的特征參數(shù)以作為標(biāo)準(zhǔn)對系統(tǒng)進(jìn)行訓(xùn)練學(xué)習(xí)，建立模板或模型參數(shù)參考集。在識別階段時，截取待識別者的語音片段，對其進(jìn)行特征參數(shù)的提取，然后參照建立的模板或模型參數(shù)參考集進(jìn)行比較，根據(jù)一定的相似準(zhǔn)則進(jìn)行判定。

2說話人識別分類

說話人識別任務(wù)根據(jù)識別方式的不同，可以分為三類：

說話人確認(rèn)(Speaker Verification，ASV)：判斷一段未知語音是否來自于一個特定人的語音片段，只需輸出“是”或“否”，是一個二元問題。

說話人鑒別(Speaker Identification，ASI)：判斷一段未知語音是來自于N個模型中的哪一個人所說的語音片段，多選一問題。

說話人探測跟蹤(Speaker Segmentation and Clustering，SSC)：指對一段包含多個說話人的語音，正確標(biāo)注在這段語音中說話人切換的時刻。在說話人鑒別系統(tǒng)中，可進(jìn)一步分為開集(open-set)的說話人鑒別和閉集(closed-set)說話人鑒別兩種。閉集說話人鑒別指系統(tǒng)具有這樣的先驗知識：測試的說話人肯定是在訓(xùn)練集中出現(xiàn)過的；反之，所測試的說話人沒有在訓(xùn)練集中出現(xiàn)過的則為開集說話人鑒別。開集的說話人鑒別和說話人確認(rèn)通常都通過一個閾值來判斷被測試的說話人是不是在訓(xùn)練集中。

3說話人識別模型的分類

(1)模式匹配法：模板匹配法的要點是，在訓(xùn)練過程中從說話人發(fā)出的訓(xùn)練語句中提取相應(yīng)的特征矢量，這些特征矢量能夠充分描寫各個說話人的個性特征。這些特征矢量稱為各個說話人的模板。在測試階段，按同樣的方法在說話人的測試語音里面提取測試模板，根據(jù)與相應(yīng)的參考模板相比較得到匹配程度也就是模板之間的距離來做出判斷。

動態(tài)時間規(guī)整模型(Dynamic Time Warping,DTW)

矢量量化(Vector Quantization,VQ)模型矢量量化技術(shù)是最早是用于聚類分析的數(shù)據(jù)壓縮編碼技術(shù)。它不直接在時域上進(jìn)行預(yù)處理，而是對倒譜參數(shù)進(jìn)行聚類，把每個人的特定文本訓(xùn)練成碼本，識別的時候根據(jù)類別失真度進(jìn)行判別，算法復(fù)雜度不高，且識別精度并不低。目前主要使用方法是作為其他方法的一種初值處理方法。

(2)概率統(tǒng)計方法：說話人的語音信息在較短時間內(nèi)可看作是平穩(wěn)信息，通過對穩(wěn)態(tài)特性的統(tǒng)計分析，根據(jù)特征參數(shù)的概率分布建立模型，然后可利用均值、方差等統(tǒng)計量和概率密度函數(shù)進(jìn)行分類判決，適合于文本無關(guān)的說話人識別。

①隱馬爾可夫模型(Hidden Markov Models,HMM)方法隱馬爾可夫模型是一種基于轉(zhuǎn)移概率和輸出概率所建立的隨機(jī)模型，可以描述語音隨時間變換的情況。最初的應(yīng)用是從Forward、Backward算法的得分中進(jìn)行判別，目前也有用HMM進(jìn)行LVCSR后從音素層面上進(jìn)行建模判別的，比如建立基于每個音素的GMM模型。HMM對噪聲的魯棒性較低，訓(xùn)練時計算量較大。

②高斯混合模型(Gaussian Mixture Model,GMM)方法高斯模型實際上是一種單狀態(tài)的HMM，通過用多個高斯分布的線性組合來近似多維矢量的連續(xù)概率分布，有效地刻畫了說話人的特征，在與文本無關(guān)的說話人識別中效果比較好。

參考文獻(xiàn)：

[1]吳朝暉,楊瑩春.說話人識別模型與方法[M].北京：電子工業(yè)出版社，1995.

[2]鄧英,歐貴文.基于 HMM 的性別識別[J].計算機(jī)工程與應(yīng)用,40(15): 74-75.

作者簡介：朱宇軒，男，漢族，四川南充，工人，大學(xué)本科，西華大學(xué)，研究方向：電子、計算機(jī)。

中圖分類號:TP18

文獻(xiàn)標(biāo)志碼：A

文章編號：1671-1602(2016)10-0019-01