張令通
(大理學(xué)院工程學(xué)院,云南大理 671003)
由于計(jì)算機(jī)應(yīng)用的日益普及,需要人與計(jì)算機(jī)進(jìn)行語音交互的場(chǎng)合越來越多,如語音撥號(hào)、語音監(jiān)聽、聲控家電、智能信息服務(wù)等。語音識(shí)別技術(shù)的研究目的是讓計(jì)算機(jī)聽懂人的語言,包括白族等少數(shù)民族語言。而目前國內(nèi)大多數(shù)語音識(shí)別的工作都是針對(duì)漢語普通話進(jìn)行的,對(duì)少數(shù)民族語言,僅有少數(shù)人對(duì)為數(shù)不多的幾種語言進(jìn)行了語音識(shí)別研究,而對(duì)白族語識(shí)別的研究目前尚屬空白。白族具有悠久的歷史,特別是經(jīng)歷了南詔、大理國時(shí)期的繁榮與發(fā)展,創(chuàng)造出了燦爛輝煌的民族文化,但在形式上,雖然曾經(jīng)創(chuàng)立了新、老兩種白族文字,但由于官方?jīng)]有進(jìn)行規(guī)范和推廣,白文一直沒能發(fā)展為全民族通用的文字,大多數(shù)白族文學(xué)藝術(shù)作品都是靠口頭創(chuàng)作,口耳相傳〔1〕。在當(dāng)今經(jīng)濟(jì)全球化的大環(huán)境中,在西方強(qiáng)勢(shì)文化的沖擊下,以及隨著漢語普通話在少數(shù)民族地區(qū)的進(jìn)一步普及,白族語和其他少數(shù)民族的語言一樣正面臨著消亡的危境。讓計(jì)算機(jī)能夠識(shí)別少數(shù)民族語音是保護(hù)和傳承民族文化的重要手段之一,因此研究計(jì)算機(jī)對(duì)少數(shù)民族語音的識(shí)別具有積極的意義。
通過對(duì)白族語音特征的分析和研究,根據(jù)白族語音輔音、元音及音調(diào)較漢語更為復(fù)雜,其聲、韻、調(diào)相互依存制約的關(guān)系非常密切,音節(jié)發(fā)音有松與緊的區(qū)別的特點(diǎn),提出了一種應(yīng)用隱馬爾可夫模型工具箱(Hidden Markov Model Toolkit,HTK)實(shí)現(xiàn)計(jì)算機(jī)對(duì)白族語音進(jìn)行識(shí)別的方法,以白族語音素為基本識(shí)別單元,通過提取白族語音信號(hào)的39維Mel頻率倒譜系數(shù)(Mel Frequency Cepstrum Coefficient,MFCC)為特征參數(shù),使用Viterbi算法完成隱馬爾可夫模型(Hidden Markov Model,HMM)參數(shù)的訓(xùn)練,然后用訓(xùn)練好的HMM模型與輸入的語音數(shù)據(jù)進(jìn)行匹配來實(shí)現(xiàn)識(shí)別。
白族語屬于漢藏語系藏緬語族,與漢藏語系的其他語言一樣,白族語也是單音節(jié)的詞根語,詞序和虛詞是表示語法意義的重要手段。由于和漢語、藏緬語密切而復(fù)雜的關(guān)系,白族語在語音、詞匯、語法上既有很多和藏緬語對(duì)應(yīng)的地方,也有不少特點(diǎn)和漢語相同或相似,但也有著其獨(dú)特的語言特征。白族語語音的一般特征如下:輔音方面,有雙唇、唇齒、舌尖、舌面、舌根5組,共21個(gè)輔音,此外,其中的怒江方言還另有舌尖后和小舌2組輔音,其塞音和塞擦音有清、濁對(duì)立;元音方面,分松緊2類,包括8個(gè)單元音,8個(gè)復(fù)元音和14個(gè)鼻化元音共30個(gè)。白族語輔、元音情況見表1和表2。聲調(diào)方面,有8個(gè)聲調(diào),聲調(diào)和聲母有密切聯(lián)系,并可按元音松緊分為松緊2類。詞匯上,單音節(jié)詞較多,多音節(jié)詞較少。構(gòu)詞形式有附加式、重疊式和復(fù)合式3類。白族語詞匯中還有大量的漢語借詞(用音譯的方式借用漢語詞匯),漢語借詞的聲調(diào)和白族語的聲調(diào)之間有明顯的對(duì)應(yīng)關(guān)系〔2〕。
表1 白族語輔音表
表2 白族語元音表
本文所提白族語音識(shí)別方法利用HTK工具對(duì)白族語音進(jìn)行訓(xùn)練和識(shí)別。訓(xùn)練作為識(shí)別的前提,其結(jié)果是提供能夠表征白族語音音頻信號(hào)特征的諸多模型參數(shù),而識(shí)別過程則是將輸入音頻信號(hào)與模型進(jìn)行模式匹配,計(jì)算各個(gè)模型的輸出概率。基于HTK的白族語音識(shí)別算法原理如圖1所示。
圖1 白族語音識(shí)別算法原理圖
2.1 HTK簡(jiǎn)介 HTK是由英國劍橋大學(xué)工程系(CUED)研發(fā)的一套基于HMM的工具箱,主要用于語音識(shí)別研究〔3〕。HTK由一系列實(shí)現(xiàn)語音分析,訓(xùn)練以及進(jìn)行識(shí)別結(jié)果分析的庫模塊構(gòu)成,包括C語言形式的可用工具,可自由下載。具有良好的可讀性和可擴(kuò)充性,以及強(qiáng)大的調(diào)試功能,可以極大地縮短開發(fā)人員的編程時(shí)間,提高系統(tǒng)開發(fā)效率。其缺點(diǎn)是由于是基于Linux環(huán)境開發(fā),因此只能以命令方式運(yùn)行〔4〕。
2.2 創(chuàng)建語料庫 為了對(duì)白族語音識(shí)別進(jìn)行研究,建立了白族語音語料庫。該語料庫分別收錄了包括數(shù)詞、名詞、動(dòng)詞、形容詞和代詞5大類13個(gè)小類355個(gè)白族語常用詞匯,由于不同性別、年齡人的發(fā)音有所不同,因此選擇了45位不同性別、年齡的白族人分別對(duì)上述355個(gè)詞匯進(jìn)行錄音得到45組音頻數(shù)據(jù),其中男性25、女性20人,年齡在20歲以下11人,20歲至35歲12人,36歲至50歲12人,51歲以上10人。音頻數(shù)據(jù)文件的格式均為單聲道、采樣速率16 kHz、解析度16 bit的WAV格式語音文件。
利用HTK的HSLab工具進(jìn)行語音信號(hào)的錄制和標(biāo)注。每次錄音均用一個(gè).wav格式文件保存。錄制完成后,要對(duì)語音信號(hào)進(jìn)行標(biāo)注,利用HSLab模塊的Mark功能,選擇你要打標(biāo)簽的區(qū)域進(jìn)行標(biāo)注,應(yīng)標(biāo)注3個(gè)連續(xù)的區(qū)域:開始停頓(標(biāo)記為sil)、錄音音頻信號(hào)、結(jié)束停頓(標(biāo)記為sil)。對(duì)于白族語音而言,由于其元、輔音及音調(diào)較多,且還有松、緊之分,同一詞匯在不同語境下發(fā)音會(huì)有不同,以單詞為基本識(shí)別單元對(duì)識(shí)別的準(zhǔn)確率有較大影響。因此采用音素作為識(shí)別的基本單元,以所有白族語的元、輔音作為音素,將每個(gè)單詞切分為若干個(gè)音素組合而成,以〔sil音素列表sil〕的格式進(jìn)行語音標(biāo)注。這三個(gè)區(qū)域不能重疊(即使它們之間間隙很小)。這三個(gè)標(biāo)注完成之后,將標(biāo)簽文件以.lab格式保存。將上述45組音頻信號(hào)進(jìn)行標(biāo)注后,分別作為訓(xùn)練數(shù)據(jù)和識(shí)別數(shù)據(jù)進(jìn)行訓(xùn)練和識(shí)別。以音素作為音頻信號(hào)的基本識(shí)別單元,能夠獲取到更多的音頻特征,從而保證了有較高的識(shí)別率。
2.3 聲學(xué)分析 語音識(shí)別工具不能直接處理波形語音,需要通過更簡(jiǎn)潔有效的方法來表示波形語音,這就是聲學(xué)分析〔5〕。聲學(xué)分析包含以下步驟。
(1)分幀
在實(shí)際處理時(shí)可以將語音信號(hào)分成很小的時(shí)間段,稱之為“幀”,作為語音信號(hào)處理的最小單位,幀與幀的非重疊部分稱為幀移,而將語音信號(hào)分成若干幀的過程稱為分幀。將語音信號(hào)分成連續(xù)的幀,一般每幀長度介于20~40 ms之間,幀移為幀長的1/3~1/2。
(2)預(yù)加重
預(yù)加重的目的是加強(qiáng)語音中的高頻共振峰,使語音信號(hào)的短時(shí)頻譜變得更為平坦,還可以起到消除直流漂移、抑制隨機(jī)噪聲和提高清音部分能量的效果,便于進(jìn)行頻譜分析和聲道參數(shù)分析。預(yù)加重采用一階零點(diǎn)數(shù)字濾波器來實(shí)現(xiàn)。
(3)加窗
加窗的目的是使信號(hào)主瓣更尖銳,旁瓣更低。語音信號(hào)數(shù)字處理中常用的窗函數(shù)是矩形窗和漢明窗,本文選取的是漢明窗,使每幀與窗函數(shù)相乘來實(shí)現(xiàn)加窗。
(4)特征提取
特征提取是對(duì)原始的語音信號(hào)運(yùn)用一定的數(shù)字信號(hào)處理技術(shù)進(jìn)行適當(dāng)?shù)奶幚?,從而得到一個(gè)矢量序列,這個(gè)矢量序列可以代表原始的語音信號(hào)所攜帶的信息,初步實(shí)現(xiàn)數(shù)據(jù)壓縮。特征參數(shù)主要有:能量、幅度、過零率、頻譜、倒譜和功率譜等,本文選用了Mel頻率倒譜系數(shù)(MFCC)進(jìn)行特征參數(shù)的提取。
利用HTK的HCopy工具可用來轉(zhuǎn)換原始波形文件,生成一系列聲學(xué)向量,其中包括.conf格式的配置文件,用于設(shè)置聲學(xué)系數(shù)提取參數(shù)。.txt格式的文本文件用于指定用于處理的每個(gè)波形文件的名稱和存放位置,以及目標(biāo)系數(shù)文件的名稱和存放位置。由于MFCC特征是基于人的聽覺特性利用人聽覺的屏蔽效應(yīng),在Mel標(biāo)度頻率域提取出來的倒譜特征參數(shù),它充分考慮了人的聽覺特性,而且沒有任何前提假設(shè),具有良好的識(shí)別性能和抗噪能力。因此,在配置文件中,使用了MFCC分析,對(duì)每個(gè)信號(hào)幀,提取39個(gè)MFCC系數(shù)向量。
2.4 定義HMM 識(shí)別模型的選擇是語音識(shí)別系統(tǒng)中最重要的環(huán)節(jié)。選擇識(shí)別模型的目的是在特征空間上把不同的識(shí)別基元區(qū)分開來。HMM模型能夠描述語音信號(hào)特征的動(dòng)態(tài)變化和統(tǒng)計(jì)分布,是準(zhǔn)平穩(wěn)時(shí)變信號(hào)的有利分析工具。該模型在語音識(shí)別系統(tǒng)中得到廣泛的應(yīng)用〔6〕。
每個(gè)聲學(xué)事件需要使用HMM隱馬爾可夫模型建模,設(shè)計(jì)一個(gè)HMM模型。首先要為每個(gè)HMM模型選擇一個(gè)priori結(jié)構(gòu)。選擇priori結(jié)構(gòu)主要應(yīng)考慮狀態(tài)數(shù)、觀察函數(shù)的形式(對(duì)應(yīng)每個(gè)狀態(tài))和狀態(tài)轉(zhuǎn)換排列。在這里,我們?yōu)槊總€(gè)HMM模型選擇如圖2所示的結(jié)構(gòu)。
圖2HMM模型結(jié)構(gòu)
該模型包含4個(gè)活動(dòng)狀態(tài){S2,S3,S4,S5}以及開始和結(jié)束狀態(tài){S1,S6},{S1,S6}是非發(fā)散狀態(tài)(無觀察函數(shù)),僅供HMM語音識(shí)別工具用于一些功能的實(shí)現(xiàn)。觀察函數(shù)bi是帶對(duì)角矩陣的高斯分布。aij表示由狀態(tài)i轉(zhuǎn)換到狀態(tài)j的可能性。aij為Null值則說明相應(yīng)的轉(zhuǎn)換不允許。其它值將被進(jìn)行強(qiáng)制初始化,只要保證矩陣的每行之和為1即可,在訓(xùn)練過程中再根據(jù)實(shí)際情況對(duì)其進(jìn)行修改。
在HTK中,HMM模型是通過文本文件來描述的〔7〕。在描述模型的文件中包含系數(shù)向量大?。?9個(gè)系數(shù))、系數(shù)類型(MFCC)、HMM模型名稱、模型的狀態(tài)總數(shù)、模型的觀察函數(shù)(使用帶有對(duì)角矩陣的單一高斯觀察函數(shù))、觀察函數(shù)的平均向量、觀察函數(shù)的變化向量、HMM模型的6×6轉(zhuǎn)換矩陣等信息。
2.5 HMM模型訓(xùn)練 構(gòu)建好的每一個(gè)HMM初始化模型使用Viterbi算法訓(xùn)練其每個(gè)HMM模型參數(shù),生成HMM模型庫。訓(xùn)練HMM模型就是通過重估迭代,估計(jì)HMM模型參數(shù)(每個(gè)觀察函數(shù)的變換可能性、加平均、變化向量等)的最佳值。利用HTK工具進(jìn)行模型訓(xùn)練的過程描述如圖3所示。
圖3 完整的訓(xùn)練過程
2.5.1 初始化 在訓(xùn)練過程開始之前,為了使得訓(xùn)練算法快速精準(zhǔn)收斂,HMM模型參數(shù)必須根據(jù)訓(xùn)練數(shù)據(jù)正確初始化。HTK提供了2個(gè)不同的初始化工具:HInit和 HCompv。
HInit工具是使用Viterbi算法通過訓(xùn)練數(shù)據(jù)的時(shí)間軸對(duì)HMM模型進(jìn)行初始化,由HInit輸出的HMM模型文件和輸入原型具有相同的名字。HCompv工具用來對(duì)模型進(jìn)行平坦初始化。HMM模型的每個(gè)狀態(tài)給定相同的在整個(gè)訓(xùn)練集上全局計(jì)算而得的平均向量和變化向量。
在訓(xùn)練迭代過程中,與特定HMM模型狀態(tài)相關(guān)聯(lián)的訓(xùn)練幀數(shù)可能很低。該狀態(tài)的估計(jì)變化值會(huì)很?。ㄈ绻挥幸粋€(gè)可用的訓(xùn)練幀的話,變化甚至為空Null)。這種情況下,可用基底來替代,避免變化值趨于極小(甚至產(chǎn)生計(jì)算錯(cuò)誤)〔8〕。
2.5.2 訓(xùn)練 訓(xùn)練的首要問題是估計(jì)模型的參數(shù)λ,使在此模型下,產(chǎn)生給定訓(xùn)練數(shù)據(jù)X的似然值P(X/λ)最大。在此采用高斯混合模型(GMM)來估計(jì)模型參數(shù)〔9〕。GMM是用多個(gè)N維高斯分布概率密度函數(shù)的加權(quán)組合來描述矢量在概率空間分布的混合模型。一個(gè)M階高斯混模型就是M個(gè)單高斯分布的加權(quán)組合。不同的M值將會(huì)產(chǎn)生不同的模型參數(shù),從而也會(huì)對(duì)識(shí)別結(jié)果產(chǎn)生影響。GMM個(gè)數(shù)M越大,將越逼近狀態(tài)空間的本來的分布,因而識(shí)別效果也將更好,但是隨著M增大,自由參數(shù)的數(shù)目也會(huì)迅速的增加,容易導(dǎo)致各個(gè)參數(shù)訓(xùn)練不充分,反而會(huì)降低系統(tǒng)識(shí)別效果。同時(shí)M增大也會(huì)大大增加計(jì)算量,因此M并非越大越好。
使用HTK的HRest工具可實(shí)現(xiàn)一次再估計(jì)迭代,估計(jì)HMM模型參數(shù)(每個(gè)觀察函數(shù)的變換可能性、加平均、變化向量)的最佳值,對(duì)于每個(gè)要訓(xùn)練的HMM模型,這個(gè)過程要重復(fù)許多次。每次HRest迭代(即當(dāng)前再估計(jì)迭代中的迭代)顯示在屏幕上,通過change量度標(biāo)示收斂性。一旦這個(gè)量度值不再從一個(gè)HRest迭代到下個(gè)迭代減少(絕對(duì)值),過程就該停止了。在實(shí)際應(yīng)用中,2或3次再估計(jì)迭代就足夠了。
2.6 識(shí)別 識(shí)別過程就是將待識(shí)別的音頻信號(hào)的特征與HMM模型進(jìn)行模式匹配〔10〕。首先利用HTK的HCopy工具對(duì)待識(shí)別音頻信號(hào)進(jìn)行聲學(xué)分析,得到其MFCC參數(shù)序列。根據(jù)所提取的特征,利用HTK的HVite工具與訓(xùn)練得到的HMM模板進(jìn)行匹配,然后使用Viterbi算法處理輸入觀察,該算法用來測(cè)試輸入觀察是否與識(shí)別器的HMM模型相一致。根據(jù)輸入的待識(shí)別音頻語音信號(hào)特征相對(duì)于HMM模型庫中的模板的輸出概率或失真距離來確認(rèn)識(shí)別結(jié)果。輸出概率越大或失真距離越小就說明待識(shí)別樣本語音信號(hào)與HMM模型庫中該樣本語音信號(hào)的模板更接近〔11〕。
3.1 實(shí)驗(yàn)?zāi)康暮蛯?shí)驗(yàn)數(shù)據(jù) 為了檢驗(yàn)基于HTK的白族語音識(shí)別算法的性能,搭建了以該算法為模型的系統(tǒng),通過實(shí)驗(yàn)分別獲得在不同MFCC維數(shù)和不同GMM個(gè)數(shù)條件下的基于單詞級(jí)特征和基于因素級(jí)特征的性能參數(shù)。
實(shí)驗(yàn)數(shù)據(jù)來自自建的白族語音語料庫中的45組,每組355個(gè)音頻數(shù)據(jù)。在實(shí)驗(yàn)中,選取44組數(shù)據(jù)用于模型訓(xùn)練,1組數(shù)據(jù)用于識(shí)別,為了避免因數(shù)據(jù)集有限而導(dǎo)致模型“欠訓(xùn)練”的問題,采用了十字交叉法進(jìn)行實(shí)驗(yàn),從而保證結(jié)果的準(zhǔn)確性、可靠性、普適性和完備性等特征。
3.2 評(píng)價(jià)方法說明 使用HTK性能評(píng)估工具HResults對(duì)識(shí)別結(jié)果進(jìn)行評(píng)價(jià)〔12〕。該工具對(duì)識(shí)別結(jié)果采用動(dòng)態(tài)規(guī)劃的方法,將其與參考序列進(jìn)行最優(yōu)對(duì)齊,計(jì)算它們之間的替代、刪除、插入誤差,以識(shí)別正確率A為最終評(píng)價(jià)指標(biāo)〔13〕:
其中,N:數(shù)據(jù)源中詞的總數(shù),
D:識(shí)別結(jié)果中刪除的詞的個(gè)數(shù),
S:識(shí)別結(jié)果中替換的詞的個(gè)數(shù),
I:識(shí)別結(jié)果中插入的詞的個(gè)數(shù)。
3.3 實(shí)驗(yàn)過程及結(jié)果 實(shí)驗(yàn)過程及結(jié)果如下。
(1)特征選取實(shí)驗(yàn)
將語料庫中的45組白族語音的音頻數(shù)據(jù)進(jìn)行標(biāo)注,從其中任選44組數(shù)據(jù)用于訓(xùn)練HMM模型,另外1組數(shù)據(jù)用于識(shí)別,并采用十字交叉法進(jìn)行實(shí)驗(yàn)。以基于音素級(jí)特征進(jìn)行實(shí)驗(yàn),并通過改變MFCC維數(shù)觀察識(shí)別結(jié)果。實(shí)驗(yàn)結(jié)果如表3所示。
表3 不同MFCC維數(shù)的識(shí)別率A
實(shí)驗(yàn)結(jié)果表明,對(duì)于白族語音,隨著MFCC維數(shù)的增加,識(shí)別率是成單調(diào)上升的。
(2)模型中參數(shù)M選取實(shí)驗(yàn)
在HMM模型下,GMM個(gè)數(shù)M大小對(duì)識(shí)別結(jié)果是有很大影響的,在實(shí)驗(yàn)中,通過改變M觀察對(duì)實(shí)驗(yàn)結(jié)果的影響。以39維MFCC參數(shù)為基準(zhǔn),實(shí)驗(yàn)結(jié)果如表4所示。
表4 不同GMM個(gè)數(shù)M識(shí)別率A的影響
實(shí)驗(yàn)結(jié)果表明,隨著GMM個(gè)數(shù)的增加,識(shí)別準(zhǔn)確率隨之上升,但當(dāng)M>6后,識(shí)別準(zhǔn)確率不再上升甚至有所下降,而M增大會(huì)大大增加計(jì)算量,所以M并非越大越好,由實(shí)驗(yàn)結(jié)果得出M的最佳值為6,最高識(shí)別準(zhǔn)確率為93.3%。
本文提出的基于HTK的白族語音識(shí)別的方法,經(jīng)過充分分析白族語發(fā)音特點(diǎn),將白族語音分割為音素的組合,以音素為基本識(shí)別單元,通過提取并處理音頻信號(hào)的MFCC特征參數(shù),建立HMM模型,采用Viterbi算法進(jìn)行模型訓(xùn)練和匹配。利用HTK工具搭建了系統(tǒng)原型,并采用自建語料庫中的白族語音音頻數(shù)據(jù)進(jìn)行了測(cè)試,實(shí)驗(yàn)結(jié)果表明,該方法具有較高的識(shí)別準(zhǔn)確率,為進(jìn)一步開展白族語大規(guī)模連續(xù)語音識(shí)別、不同方言白族語說話人識(shí)別奠定了良好的基礎(chǔ),同時(shí)也對(duì)其他少數(shù)民族語音識(shí)別研究具有較好的參考價(jià)值。
〔1〕趙金燦,閆正銳,張鈺芳.白族語言使用現(xiàn)狀及語言態(tài)度調(diào)查〔J〕.大理學(xué)院學(xué)報(bào),2012,11(8):31-35.
〔2〕徐琳,趙衍蓀.白語簡(jiǎn)志〔M〕.北京:民族出版社,1984.
〔3〕Lipeika Antanas,Lipeikiene Joana.On the use of the formant features in the dynamic time warping based recognition of isolated words〔J〕.Informatica,2008,19(2):213-226.
〔4〕Chaiwongsai,Jirabhorn.An architecture of HMM-based isolated-word speech recognition with tone detection function〔C〕//2008 International Symposium on Intelligent Signal Processing and Communication Systems.ISPACS,2008.
〔5〕魏巍,張海濤.一種基于HTK的數(shù)字語音識(shí)別系統(tǒng)〔J〕.計(jì)算機(jī)系統(tǒng)應(yīng)用,2011,20(9):17-21.
〔6〕王炳錫,屈丹,彭煊.實(shí)用語音識(shí)別基礎(chǔ)〔M〕.北京:國防工業(yè)出版社,2005.
〔7〕涂俊輝,續(xù)晉華.基于HTK的連續(xù)語音識(shí)別系統(tǒng)及其在TIMIT上的實(shí)驗(yàn)〔J〕.現(xiàn)代計(jì)算機(jī),2009,319(11):29-33.
〔8〕Yuan Lichi.An improved HMM speech recognition model〔C〕//2008 International Conference on Audio,Language and Image Processing.2008:1311-1315.
〔9〕楊建華,于小寧.說話人識(shí)別中語音特征參數(shù)研究〔J〕.大理學(xué)院學(xué)報(bào),2009,8(8):32-35.
〔10〕Fujimura H.N-Best rescoring by adaboost phoneme classifiers for isolated word recognition〔C〕//2011 IEEE Workshop on Automatic Speech Recognition&Understanding(ASRU).2011:83-85.
〔11〕Im Jung-Hui,Lee Soo-Young.Unified Training of Feature Extractor and HMM Classifier for Speech Recognition〔J〕.Signal Processing Letters,2012,19(2):111-114.
〔12〕曾妮,費(fèi)洪曉,姜振飛.基于HTK的特定詞語音識(shí)別系統(tǒng)〔J〕.計(jì)算機(jī)系統(tǒng)應(yīng)用,2011,20(3):157-160.
〔13〕Kazemi A R.Isolated word recognition based on intelligent segmentation by using hybrid HTD-HMM〔C〕//5th WSEAS International Conference on Circuits,Systems,Signal and Telecommunications(CISST'11).2011:38-41.