孫杰 吾守爾·斯拉木 熱依曼·吐爾遜
關(guān)鍵詞: 語音識別; 低資源; 柯爾克孜語; 跨語種聲學(xué)模型; CMN; 音素映射
中圖分類號: TN711?34; TP391 ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識碼: A ? ? ? ? ? ? ? ? ? ?文章編號: 1004?373X(2018)24?0132?05
Research on CMN?based recognition of Kirgiz with less resources
SUN Jie1,2, Wushour Silamu1, Reyiman Tursun1
(1. School of Information Science and Engineering, Xinjiang University, Urumqi 830046, China;
2. Department of Physics, Changji University, Changji 831100, China)
Abstract: As there exists low recognition rate caused by sparse training data during the speech recognition of minority languages, a cross?language acoustic model based on convolutional maxout networks (CMNs) is constructed in this paper for less?resource Kirgiz recognition. In the CMN model, the local sampling and weight sharing technologies of the convolutional neural network (CNN) are used to reduce network parameters. The convolutional kernel of the CNN is replaced by the maxout neuron to improve the extraction capability of network abstract features. The cross?language CMN is pre?trained by using the Uygur language with relatively?rich resources. The Dropout regularization training method is used to prevent over?fitting. The phoneme mapping set based on forced alignment of synonyms is created according to the similarities of the two languages. The to?be recognized Kirgiz data is marked. The CMN parameters are fine?tuned by using the limited corpus of the target language. The experimental results show that the word error rate of the proposed CMN acoustic model is 8.3% lower than that of the baseline CNN acoustic model.
Keywords: speech recognition; less resource; Kirgiz; cross?language acoustic model; CMN; phoneme mapping
“一帶一路”倡儀的提出使得我國與周邊國家的商貿(mào)往來和文化交流日趨頻繁。多語言特別是小語種的自動語言翻譯機(jī)成為地區(qū)間互聯(lián)互通的迫切需求。
小語種語音識別面臨的困難是標(biāo)注數(shù)據(jù)匱乏難以建立魯棒的聲學(xué)模型。目前,低資源條件下構(gòu)建跨語種聲學(xué)模型是一個研究的熱點問題。Schultz等人提出利用Bootstrap將多個單語種的聲學(xué)模型集成為跨語言的通用音素集,對瑞典語識別時獲得最低34.3%的音素錯誤率,但該方法不能將富語料語種音素的上下文關(guān)系轉(zhuǎn)移到目標(biāo)語聲學(xué)模型[1]。為此,Imseng等人使用KL距離(Kullback?Leibler divergence) 構(gòu)建了多語種三音素隱馬爾可夫模型HMM(Hidden Markov Model)。該模型的主要思想是用MLP(Multi?Layer Percetron)估計音素的后驗概率,用多項式分布描述HMM狀態(tài),利用相對熵作為損失函數(shù)度量兩者之間的距離[2]。實驗結(jié)果表明,在較小數(shù)據(jù)集情況下,KL?HMM模型比GMM?HMM[3]模型識別效果好。但該方法假定模型中每個音子的狀態(tài)轉(zhuǎn)移概率固定,會降低解碼精度。Miao,Joy等人在SGMM(Subspace Gaussian Mixture Model)基礎(chǔ)上提出了共享SGMM模型,分別使用多語言語料訓(xùn)練模型的共享參數(shù)和有限資源語料訓(xùn)練狀態(tài)特殊的向量,較單語種SGMM在字識別準(zhǔn)確率有5%的提升[4?5]。由于深度神經(jīng)網(wǎng)絡(luò)[6](Deep Neural Network,DNN)具有強(qiáng)大的抽象特征提取能力,Huang等人將經(jīng)過多語種訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)的隱藏層用于低資源語種的識別[7],稱為共享隱藏層技術(shù)(Shared Hidden Layers,SHL)。該方法取得很好的識別效果,但需要多個語種的大量數(shù)據(jù)對模型進(jìn)行充分訓(xùn)練。
為了更好利用dropout具有的近似模型平均的功能,Goodfellow提出一種新型前饋maxout網(wǎng)絡(luò)?;谶@種思想[8],Miao提出了DMN[9](Deep Maxout Networks)、Cai引入了SPMN[10](Stochastic Pooling Maxout Networks)方法對有限數(shù)據(jù)的語言進(jìn)行語音識別,在Babel數(shù)據(jù)集上的實驗結(jié)果表明該方法能有效降低對數(shù)據(jù)的需求。
受此啟發(fā),本文在對語料資源匱乏的柯爾克孜語識別時,提出跨語種的CMN聲學(xué)建模方法,與文獻(xiàn)[9]和文獻(xiàn)[10]相比本文的主要不同點是:
1) 借用同一個語系資源相對豐富的維吾爾語數(shù)據(jù)構(gòu)建交叉語種的CMN網(wǎng)絡(luò),作為識別系統(tǒng)的底層特征提取器獲得柯爾克孜語音素的后驗概率;
2) 使用maxout激活函數(shù)替換CNN[11] (Convolutional Neural Networks)的卷積操作,增強(qiáng)模型的非線性表達(dá)能力;
3) 通過maxout神經(jīng)元具有的仿射變換結(jié)構(gòu),在CMN訓(xùn)練時引入dropout方法,增加模型平均的能力。
最后,根據(jù)語言的相似性,對維語和柯語表示相同意義的詞進(jìn)行強(qiáng)制對齊,用數(shù)據(jù)驅(qū)動方法建立維語到柯語的音素映射集,并用映射結(jié)果標(biāo)注柯爾克孜語,利用有限標(biāo)注數(shù)據(jù)微調(diào)網(wǎng)絡(luò)參數(shù),進(jìn)一步提高柯爾克孜語的識別精度。
跨語種的CMN(Convolutional Maxout Networks)模型是一種前饋型網(wǎng)絡(luò),結(jié)構(gòu)類似于卷積神經(jīng)網(wǎng)絡(luò)CNN,不同點是將CNN的卷積層和ReLU層替換為仿射變換層和maxout激活層,并在訓(xùn)練時引入dropout正則化方法。CMN網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
1.1 ?仿射變換層和maxout激活層
CMN網(wǎng)絡(luò)中仿射變換層采用了CNN網(wǎng)絡(luò)局部采樣技術(shù)的思想。首先通過一組大小不同的滑動窗口(Window)沿語譜圖的頻域維度滑動,并將窗口中的每一個神經(jīng)元與仿射變換層中的[k]個神經(jīng)元進(jìn)行全連接;然后對局部輸入特征做仿射變換。與CNN卷積層類似,為減少網(wǎng)絡(luò)的待調(diào)節(jié)參數(shù),在CMN中定義一個滑動窗口對應(yīng)一個仿射變換矩陣[W],并通過固定[W]實現(xiàn)不同輸入單元共享權(quán)值。第[l]層第[i]個窗口對應(yīng)的仿射變換定義為:
[zli=Wlixl-1+bli] ?(1)
式中:[Wli∈Rk×d]是仿射變換矩陣;[xl-1∈Rd]是[l]-1層局部輸入向量,[d]代表滑動窗口的大小;[bli]為偏置量。
由式(1)可知仿射變換層中不同的滑動窗口產(chǎn)生不同的仿射特征圖,而maxout激活層通過maxout函數(shù)對上一層仿射特征圖中的[k]個節(jié)點取最大值,生成多張?zhí)卣饔成鋱D。maxout激活層中特征映射圖節(jié)點的激活值為:
[hli(x)=maxj∈[1,k]zl-1ij] (2)
maxout神經(jīng)元具有非常強(qiáng)的擬合能力,可以擬合任意的凸函數(shù)。文獻(xiàn)[8]證明當(dāng)[k]足夠大時,只需2個maxout神經(jīng)元就可擬合任意凸函數(shù)?;舅枷胧侨我獾耐购瘮?shù)都可由分段線性函數(shù)以任意精度擬合,而maxout層神經(jīng)元是取前一層k個節(jié)點的最大值,同時這些節(jié)點都是線性的。因此在不同的取值范圍內(nèi)最大值也被看作是分段線性的,分段的個數(shù)與k值相關(guān)。圖2是用maxout神經(jīng)元分別擬合正線性函數(shù)、絕對值函數(shù)和二次函數(shù)的情況。
1.2 ?跨通道聚合層
在CMN結(jié)構(gòu)中,兩個maxout層后通常接一個跨通道聚合層??缤ǖ谰酆蠈硬捎贸鼗╬ooling)技術(shù)將多個特征映射層相同位置的特征點整合為新的特征,其功能主要有兩個:一是壓縮maxout激活層的特征維度,減少網(wǎng)絡(luò)參數(shù),從而減少對訓(xùn)練數(shù)據(jù)的需求;二是提升CMN網(wǎng)絡(luò)聲學(xué)模型的魯棒性,即對輸入特征的微小變化保持不變性(旋轉(zhuǎn)、平移和伸縮等)。常用池化技術(shù)有最大池化(max?pooling)和均值池化(mean?pooling)等。本文采用均值池化,聚合后的神經(jīng)元為:
[Pmi=averagej∈i?k…(i+1)?k(hmj)] ?(3)
式中:[Pmi]是第m層第i個神經(jīng)元;k是采樣因子。
1.3 ?全連接層和HMM
CMN網(wǎng)絡(luò)末端是一個全連接層和一個softmax層以及一個HMM(Hidden Markov Model)模型。最后一個softmax層輸出為音素的后驗概率,其概率得分可以看作是隱馬爾科夫模型的發(fā)射概率,定義為:
[p(y(i)=jx(i);θ)=eθTjx(i)l=1keθTlx(i)] (4)
式中:[θ]是權(quán)重矩陣;[l=1keθTlx(i)]是歸一化因子。
1.4 ?Dropout正則化訓(xùn)練
深度神經(jīng)網(wǎng)絡(luò)DNN參數(shù)通常達(dá)百萬數(shù)量級,當(dāng)標(biāo)注數(shù)據(jù)不足時網(wǎng)絡(luò)會過度學(xué)習(xí)到訓(xùn)練集上的分類權(quán)重,在測試集上泛化性能較差。在CMN網(wǎng)絡(luò)中,除使用共享權(quán)值矩陣防止過擬合外,還可利用maxout層的仿射變換結(jié)構(gòu)引入dropout正則化訓(xùn)練方法,在每次訓(xùn)練時以一定的概率對網(wǎng)絡(luò)的神經(jīng)元進(jìn)行舍取,減少網(wǎng)絡(luò)待調(diào)節(jié)參數(shù)防止過擬合。應(yīng)用dropout后第[l]層上神經(jīng)元的激活值為:
[hl=σ(WTlhl-1+bl)?ml] ?(5)
式中:“[?]”代表向量對應(yīng)元素相乘;[ml]為二進(jìn)制掩碼且服從[Bernoulli(1-p)]分布,[p]通常稱為dropout的丟棄率。由于訓(xùn)練階段神經(jīng)元以[(1-p)]概率保持,測試時須還原出訓(xùn)練時的網(wǎng)絡(luò)行為,需要通過比例因子[(1-p)]縮放激活函數(shù),導(dǎo)致訓(xùn)練后模型不固定。反轉(zhuǎn)dropout基本思想與dropout基本一致,只是在訓(xùn)練時對神經(jīng)元激活值進(jìn)行比例縮放,測試時保持不變,達(dá)到一次定義模型的目的。訓(xùn)練時反轉(zhuǎn)dropout應(yīng)用于第[l]層神經(jīng)元的激活為:
[hl=(1-p)-1σ(WTlhl-1+bl)?ml] ?(6)
在交叉語種識別時要建立源語言到目標(biāo)語發(fā)音詞典的轉(zhuǎn)換,實現(xiàn)目標(biāo)語料的轉(zhuǎn)寫、發(fā)音詞典的構(gòu)建和識別結(jié)果的轉(zhuǎn)換。
2.1 ?維語與柯語的語言學(xué)關(guān)系
維語和柯語分別是維吾爾語與柯爾克孜語的簡稱,其文字均以阿拉伯字母書寫,同時輔以拉丁文進(jìn)行補(bǔ)充和完善。按照譜系關(guān)系,二者被歸于阿爾泰語系突厥語族,屬于有親屬關(guān)系的兩種語言。從語言學(xué)角度看,維語和柯語在語音、詞匯和語法規(guī)則上存在一定的相似關(guān)系:
1) 維語和柯語的元音和諧律部分相同。突厥語語音相近程度的主要衡量標(biāo)準(zhǔn)是元音和諧律類型的異同[12]。在維語和柯語各自16種和諧模式中存在8種相同的規(guī)律:/a/?/a/,/a/?/u/,/a/??/o/,/u/?/u/,/u/??/a/,/y/??/y/,
/?/??/y/,/i/?/i/(使用IPA轉(zhuǎn)寫)。
2) 在維語和柯語中,有部分表達(dá)同一意思的詞音節(jié)構(gòu)成有具有對應(yīng)關(guān)系,表現(xiàn)為元音之間的替換、增音和減音等。例如:“媽媽”/ana/(維語)?/ene/(柯語),“鴨子”/?d?k/(維語)?/?rd?k /(柯語),“學(xué)生”/oqu?u? ?i/(維語)?/oqu? ?u/(柯語)。另外,語言接觸過程中產(chǎn)生了一些共同詞匯,如:“爸爸”/ata/,“教育”/marip/等。
3) 維語和柯語表示不同語法意義是通過在詞根后線性添加不同詞綴實現(xiàn),如 “畫家的”/syr?t?i?ni?/(維語)?/syr?t?y?nin/(柯語),“我喝”/ i??i?m?n /(維語)?/i??e?men/(柯語)等。
2.2 ?維語和柯語的發(fā)音單元
維吾爾語和柯爾克孜語都是拼音文字,音素和音節(jié)都有本質(zhì)發(fā)音的特點。突厥語的一個共性特征是都含有8個基本元音,且元音是構(gòu)成音節(jié)的基礎(chǔ)。維吾爾語保持了8個基本元音??聽柨俗握Z除8個元音外,還增加了6個長元音。維吾爾語有24個輔音,柯爾克孜語有22輔音。另外,兩種語言大約各有5 000個音節(jié)[13]。目前,音素作為維吾爾語識別基元已經(jīng)成為一種共識[13?14]。
2.3 ?數(shù)據(jù)驅(qū)動的音素映射集
在維吾爾語和柯爾克孜語之間建立音素映射,最簡便的方法是利用國際音標(biāo)(International Phonetic Alphabet,IPA)分別轉(zhuǎn)寫維語和柯語的元音和輔音,然后尋找具有共同發(fā)音的音素組成映射對,本文稱為啟發(fā)式音素映射方法。對于一些不存在的音素使用發(fā)音最接近的音素進(jìn)行匹配,因此這種方法很大程度上受到主觀因素影響。
本文考慮到維語和柯語在語音、詞匯和語法方面具有一定的相似性,從語言學(xué)角度提出將維語和柯語中的同義詞進(jìn)行強(qiáng)制對齊,用概率統(tǒng)計的方法計算兩種語言之間音素映射頻率,本文稱為數(shù)據(jù)驅(qū)動音素映射方法。在給定兩個音素集W和K的情況下,基于詞強(qiáng)制對齊的數(shù)據(jù)驅(qū)動的音素映射表示為:
[K→W=argmaxWPwi kj] (7)
式中,[Pwi kj]表示統(tǒng)計詞對中音素[kj]出現(xiàn)時[wi]出現(xiàn)的概率,計算方法如下:
[Pwi kj=o=1Nt=1MCwio,t,kjo,to=1Nt=1MCkjo,t] (8)
式中:N表示詞的總個數(shù);M表示詞的長度;[Cwio,t,kjo,t]和[Ckjo,t]分別表示詞對o中第t個位置音素[wi,kj]同時出現(xiàn)的頻數(shù)和[kj]出現(xiàn)的總頻數(shù)。
圖3描述了漢語詞匯“牧民”使用IPA轉(zhuǎn)寫為柯爾克孜語/?aban/和維吾爾語/mal?i/后進(jìn)行音素映射的過程。容易看出柯爾克孜語音素/a/出現(xiàn)的總頻數(shù)為2,與維吾爾語音素/?/在同一位置出現(xiàn)的頻數(shù)為1,用式(8)計算映射概率P(w=‘?|k=‘a(chǎn))=0.5。
由于維語和柯語表示相同意義的語句長度不同,在計算維語和柯語音素映射概率之前,音素序列使用動態(tài)規(guī)劃(Dynamic Programming,DP)算法進(jìn)行對齊。
3.1 ?實驗數(shù)據(jù)
為使跨語種的CMN,CNN,DNN網(wǎng)絡(luò)聲學(xué)模型參數(shù)獲得較為充分的訓(xùn)練,本文使用兩個維吾爾語數(shù)據(jù)庫:THUYG?20[15]和《維吾爾語電話語音數(shù)據(jù)庫》。THUYG?20是清華大學(xué)公開的一個免費的20 h維吾爾語語音數(shù)據(jù)庫,共有9 468句使用麥克風(fēng)連接電腦錄制的維吾爾語語音;《維吾爾語電話語音數(shù)據(jù)庫》是由新疆大學(xué)多語種信息技術(shù)實驗室創(chuàng)建,目前提供給部分科研院所、公司和實驗室內(nèi)部使用,處于半開放狀態(tài),未來逐步全面公開。該數(shù)據(jù)庫通過手機(jī)收集了1 050對維吾爾族說話人自由交談的語音數(shù)據(jù),有效總時長約為500 h。柯爾克孜語語料由40個柯爾克孜族說話人(19男,21女)使用手機(jī)記錄的自然對話語音組成,有效總時長約5 h,共計2 160句。
3.2 ?實驗設(shè)計
實驗使用Kaldi語音識別工具箱分別搭建CMN?HMM,CNN?HMM和DNN?HMM識別系統(tǒng)。CMN網(wǎng)絡(luò)結(jié)構(gòu)input+2maxout+pool+2maxout+pool+2FC;CNN網(wǎng)絡(luò)結(jié)構(gòu)為input+2conv+pool+2conv+pool+2FC;DNN網(wǎng)絡(luò)結(jié)構(gòu)為input+4hiddens+softmax,隱層節(jié)點為1 024個;CMN,CNN和DNN的輸入層均為1 364維(由40維Fbank和其一階、二階差分,加上四維的韻律特征,進(jìn)行前后各5幀共計11幀拼接組成);其中CMN滑動窗口大小為3×3@64,每個窗口對應(yīng)仿射層神經(jīng)元為7個,池化窗口大小為2×2;CNN網(wǎng)絡(luò)的卷積層卷積核尺寸為3×3@64,池化窗口大小為2×2。實驗中所有訓(xùn)練和測試語音數(shù)據(jù)采用G.723.1算法進(jìn)行語音端點檢測(Voice Activity Detection,VAD)和倒譜均值減(Cepstral Mean Substract,CMS)技術(shù)做降噪處理。使用誤差反向傳播算法(Back Propagation,BP) 對CMN,CNN和DNN網(wǎng)絡(luò)訓(xùn)練,采用隨機(jī)梯度下降(Stochastic Gradient Descent,SGD)調(diào)整網(wǎng)絡(luò)參數(shù)。在訓(xùn)練過程中,對DNN和CNN在全連接層采用dropout方法,而CMN中的仿射變換和全連接層均采用dropout方法。在柯爾克孜語語音數(shù)據(jù)隨機(jī)挑選2 000句語音組成訓(xùn)練集,剩余160句語音作為測試集。
3.3 ?實驗結(jié)果
1) 實驗1
單語種CMN,CNN和DNN混合系統(tǒng)識別實驗。直接用柯爾克孜語數(shù)據(jù)訓(xùn)練DNN,CNN和CMN網(wǎng)絡(luò),訓(xùn)練時將dropout的丟棄率[p]分別設(shè)置為0.2,0.3和0.4;然后用最大似然準(zhǔn)則訓(xùn)練單音子HMM模型,使用決策樹算法做狀態(tài)綁定后獲得920個三音子狀態(tài)。最后將3種網(wǎng)絡(luò)和HMM模型結(jié)合對柯爾克孜語進(jìn)行識別實驗,并用WER(Word Error Rate)作為評價指標(biāo),識別結(jié)果見表1。
從表1三種網(wǎng)絡(luò)混合模型的識別結(jié)果可以看出,CMN?HMM模型在不同的dropout丟棄率下的WER均低于CNN?HMM和DNN?HMM,說明CMN網(wǎng)絡(luò)在單一語種且有限數(shù)據(jù)情況下的識別性能好于CNN和DNN。另外,由于DNN網(wǎng)絡(luò)參數(shù)數(shù)量巨大,識別準(zhǔn)確率隨dropout丟棄率增大有所提升,而CMN和CNN網(wǎng)絡(luò)模型在dropout為0.3時字錯誤率最低,當(dāng)繼續(xù)增加到0.4時WER開始變大,說明[p]=0.3時,網(wǎng)絡(luò)識別準(zhǔn)確率最佳。
2) 實驗2
跨語種的CMN?HMM,CNN?HMM和DNN?HMM混合模型識別實驗。首先使用維吾爾語數(shù)據(jù)對3種網(wǎng)絡(luò)做預(yù)訓(xùn)練,設(shè)置dropout丟棄率為0.3;分別用啟發(fā)式音素映射集和數(shù)據(jù)驅(qū)動音素映射集標(biāo)注柯爾克孜語音;然后用柯爾克孜語調(diào)優(yōu)網(wǎng)絡(luò)(分為調(diào)優(yōu)整個網(wǎng)絡(luò)和僅調(diào)優(yōu)softmax層);最后,使用EM算法訓(xùn)練單音子HMM模型,經(jīng)狀態(tài)綁定后獲得10 800三音子狀態(tài)。解碼時使用維語文本數(shù)據(jù)訓(xùn)練得到的3?gram語言模型。識別結(jié)果如表2所示。
表2是跨語種CMN?HMM,CNN?HMM和DNN?HMM混合系統(tǒng)識別柯爾克孜語的識別結(jié)果。對比表1可以看出跨語種的三類網(wǎng)絡(luò)模型均比單語種的網(wǎng)絡(luò)模型識別率高,說明深度神經(jīng)網(wǎng)絡(luò)經(jīng)過相似語種的預(yù)訓(xùn)練后可以獲得很好的初始化參數(shù),網(wǎng)絡(luò)的多層結(jié)構(gòu)和神經(jīng)元之間的非線性連接可以提取到語言之間更加抽象的關(guān)系。從表2實驗結(jié)果可以看出CMN網(wǎng)絡(luò)識別效果好于CNN網(wǎng)絡(luò),在跨語種聲學(xué)建模時仿射變換層要比卷積層更有優(yōu)勢。對比使用不同音素映射集標(biāo)注語料的識別結(jié)果,可以看出數(shù)據(jù)驅(qū)動音素集比啟發(fā)式音素集識別精度有1.8%~3.7%的提升。此外,單獨對softmax層調(diào)整權(quán)重的識別效果優(yōu)于對整個網(wǎng)絡(luò)參數(shù)調(diào)整的識別效果,識別字錯誤率有0.8%~4.1%的降低。總體而言,CMN?HMM混合系統(tǒng)在使用數(shù)據(jù)驅(qū)動音素集標(biāo)注低資源目標(biāo)語料且只對softmax層調(diào)參的情況下,識別準(zhǔn)確率最高,其WER為27.2%,相比CNN?HMM混合系統(tǒng)識別準(zhǔn)確率有8.3%的改進(jìn)。
本文結(jié)合卷積神經(jīng)網(wǎng)絡(luò)的特點和maxout神經(jīng)單元的特殊結(jié)構(gòu)提出跨語種的CMN網(wǎng)絡(luò)模型,用于低資源的少數(shù)民族語言識別的聲學(xué)模型構(gòu)建,并將dropout正則化訓(xùn)練方法運用到CMN網(wǎng)絡(luò)參數(shù)訓(xùn)練增強(qiáng)模型平均能量和防止過擬合。為進(jìn)一步提高系統(tǒng)的識別準(zhǔn)確率,采用概率統(tǒng)計方法獲得富語種和低資源語種音素映射集,標(biāo)注待識別語種數(shù)據(jù)。本文下一步的工作是在增加柯爾克孜語料的基礎(chǔ)上,進(jìn)一步完善CMN?HMM模型。
參考文獻(xiàn)
[1] SCHULTZ T, WAIBEL A. Experiments on cross?language acoustic modeling [C/OL]. [2011?09?14]. https://wenku.baidu.com/view/b6ced1edf8c75fbfc77db2d3.html.
[2] IMSENG D, BOURLARD H, GARNER P N. Using KL?divergence and multilingual information to improve ASR for under?resourced languages [C]// Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing. Kyoto: IEEE, 2012: 4869?4872.
[3] RABINER L R. A tutorial on hidden Markov models and selected applications in speech recognition [J]. Proceedings of the IEEE, 1989, 77(2): 257?286.
[4] MIAO Y, METZE F, WAIBEL A. Subspace mixture model for low?resource speech recognition in cross?lingual settings [C]// Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing. Vancouver: IEEE, 2013: 7339?7343.
[5] JOY N M, ABRAHAM B, NAVNEETH K, et al. Improved acoustic modeling of low?resource languages using shared SGMM parameters of high?resource languages [C]// Proceedings of 22nd National Conference on Communication. Guwahati: IEEE, 2016: 1?6.
[6] DAHL G E, DONG Y, LI D, et al. Context?dependent pre?trained deep neural networks for large?vocabulary speech recognition [J]. IEEE transactions on audio speech & language processing, 2012, 20(1): 30?42.
[7] HUANG J T, LI J, YU D, et al. Cross?language knowledge transfer using multilingual deep neural network with shared hidden layers [C]// Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing. Vancouver: IEEE, 2013: 7304?7308.
[8] GOODFELLOW I J, WARDE?FARLEY D, MIRZA M, et al. Maxout networks [C]// Proceedings of the 30th International Conference on Machine Learning. [S.l.: s.n.], 2013: 1319?1327.
[9] MIAO Y, METZE F, RAWAT S. Deep maxout networks for low?resource speech recognition [C]// Proceedings of IEEE Workshop on Automatic Speech Recognition and Understanding. Olomouc: IEEE, 2014: 398?403.
[10] CAI M, SHI Y, LIU J. Stochastic pooling maxout networks for low?resource speech recognition [C]// Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing. Florence: IEEE, 2014: 3266?3270.
[11] DAHL J V, KOCH K C, KLEINHANS E, et al. Convolutional networks and applications in vision [C]// Proceedings of IEEE International Symposium on Circuits and Systems. Paris: IEEE, 2010: 253?256.
[12] 吳宏偉.突厥語族語言的分類[J].語言與翻譯,1992(1):19?24.
WU Hongwei. The language classification of Turkic branch [J]. Language and translation, 1992(1): 19?24.
[13] 那斯?fàn)柦ね聽栠d,吾守爾·斯拉木.基于隱馬爾可夫模型的維吾爾語連續(xù)語音識別系統(tǒng)[J].計算機(jī)應(yīng)用,2009,29(7):2009?2011.
Nasirjan Tursun, Wushour Silamu. Uyghur continuous speech recognition system based on HMM [J]. Journal of computer applications, 2009, 29(7): 2009?2011.
[14] 楊雅婷,馬博,王磊,等.維吾爾語語音識別中發(fā)音變異現(xiàn)象[J].清華大學(xué)學(xué)報(自然科學(xué)版),2011,51(9):1230?1233.
YANG Yating, MA Bo, WANG Lei, et al. Uyghur pronunciation variations in automatic speech recognition systems [J]. Journal of Tsinghua University (Science & technology), 2011, 51(9): 1230?1233.
[15] 艾斯卡爾·肉孜,殷實,張之勇,等.THUYG?20:免費的維吾爾語語音數(shù)據(jù)庫[J].清華大學(xué)學(xué)報(自然科學(xué)版),2017,57(2):182?187.
Aisikaer Rouzi, YIN Shi, ZHANG Zhiyong, et al. THUYG?20: a free Uyghur speech database [J]. Journal of Tsinghua University (Science & technology), 2017, 57(2): 182?187.