亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

藏語語音識別研究進展和展望①

2020-03-18 07:54:30王福釗

計算機系統(tǒng)應用 2020年3期

王福釗,周雁

1(西藏大學信息科學技術(shù)學院,拉薩 850000)

2(北京理工大學珠海學院計算機學院,珠海 519088)

從狹義上講,自動語音識別(Auto-Speech Recognition,ASR)是指將人類語音信號自動轉(zhuǎn)換成相應的文本內(nèi)容的機器程序執(zhí)行過程.但就其廣義上講,語音識別是指能夠理解人類的語音信號的機器程序執(zhí)行過程,包括聲紋理解和內(nèi)容理解.語音識別是一門跨學科技術(shù),結(jié)合了物理聲學、語言學、信號處理學、生理學、計算機學和統(tǒng)計概率學.語音識別研究可追溯到20 世紀50 年代,貝爾實驗室成功研究實現(xiàn)了Audry 語音識別系統(tǒng)[1].自20 世紀80 年代以來,國內(nèi)漢語語音識別研究取得了空前的發(fā)展.到目前,以百度、科大訊飛為首的公司已將深度學習神經(jīng)網(wǎng)絡成功運用在漢語普通話和各方言的語音識別上,識別效果好,識別率高,識別技術(shù)成熟.

藏族是中華民族大家庭中重要的一員,其人口近630 萬人(來自第6 次人口普查數(shù)據(jù)),主要分布在我國康巴地區(qū)(西藏、四川、云南)、安多地區(qū)(西藏、甘肅、青海、四川)和衛(wèi)藏地區(qū)(西藏).藏語是藏族人民交流和溝通的主要載體.藏語起源可追溯至上古象雄語言學時期,其正式成文可追溯至七世紀吐蕃王朝松贊干布時期,后經(jīng)中世紀和近代語言學時期的發(fā)展形成了如今這具有統(tǒng)一的文字、語法、字法、詞法以及書寫法的獨特魅力語言[2].

隨著信息化和智能化時代的到來,藏語言語音識別具有不可替代的重要作用.首先,藏語言語音識別是藏區(qū)智能化發(fā)展過程中不可或缺的關鍵技術(shù).第二,藏語言語音識別對加強藏區(qū)內(nèi)各地區(qū)(衛(wèi)藏、康巴和安多)、藏區(qū)與其他地區(qū)的交流和溝通,進而有效加強民族融合、增進民族和諧方面具有突出的重要地位和意義.

1 藏語語音識別研究現(xiàn)狀

藏語語音識別是在英語、漢語的語音識別研究基礎上,從物理聲學、語言學角度出發(fā)結(jié)合藏語自身特點采用計算機技術(shù)實現(xiàn)自動語音轉(zhuǎn)換文本.國內(nèi)藏語語音識別的研究始于本世紀初,滯后于漢語語音識別.經(jīng)過十多年的快速發(fā)展,藏語語音識別研究取得了一定的成果.

2006 年,李洪波和于洪志研究了基于藏文音節(jié)和文字特性的藏語語音識別基元,選擇以音素為識別基元進行語音端點檢測,從而提高了噪音背景下語音識別效率[3].

2007 年,西北民族大學于洪志、李永宏、索南楞次等研究創(chuàng)建了安多藏語單音節(jié)文本庫、語音庫和聲學參數(shù)數(shù)據(jù)庫,并針對單音節(jié)的語音聲學特征進行了較為系統(tǒng)的研究[4];同年,劉靜萍和德熙嘉措通過提取LPCC 參數(shù)并使用DTW 實現(xiàn)了安多藏語小詞匯孤立詞語音識別系統(tǒng)[5];同年,武光利、戴玉剛等通過短時平均幅度和短時平均過零率相結(jié)合的方法來改進了藏語語音端點檢測技術(shù)[6];同年,李洪波和于洪志通過提取MFCC 參數(shù)進行語音識別而提高了識別效率[7].

2009 年,李勇、于洪志、達哇彭措研究提取了藏語語音韻律特征用于語音識別進而提高了語音識別效率[8];同年,姚徐、李永宏、單廣榮等提取了MFCC 特征參數(shù),并構(gòu)建了語音模板庫,采用DTW 技術(shù)實現(xiàn)了藏語語音識別系統(tǒng)[9].

2010 年,西藏大學德慶卓瑪以聲韻母作為識別基元,分別提取了LPCC 和MFCC 特征參數(shù)實現(xiàn)拉薩話藏語特定人小詞匯量語音識別系統(tǒng),并比較了兩者的識別效果[10];同年,韓清華改進了語音端點檢測,并對提取的MFCC 參數(shù)進行矢量量化,采用HMM 進行聲學建模實現(xiàn)了藏語安多方言非特定人孤立詞語音識別系統(tǒng)[11].

2011 年,西南交通大學劉巧鳳引入快速沃爾什變換對MFCC 提取進行改進,進而提高了藏語語音識別的特征有效性和性能優(yōu)越性[12].

2012 年,李冠宇分別以音素和聲韻母作為識別基元,通過HTK 工具包構(gòu)建了一個上下文相關的拉薩話藏語大詞量連續(xù)語音識別聲學模型[13].

2015 年,趙爾平對傳統(tǒng)的特征提取方法進行了改進,在MFCC 特征向量的基礎上結(jié)合拉薩話語音特點融入共振峰參數(shù),提高了拉薩話藏語孤立詞的語音識別率[14];同年,中央民族大學許彥敏引入了種子模型建立了藏語單音素和三音素聲學模型,并實現(xiàn)了基于sparse auto-encode 的英藏跨語言語音識別系統(tǒng)[15];同年,王輝、趙悅、劉曉鳳等將提取到的MFCC 特征提取使用稀疏自動編碼器提取了語音深度特征,進而實現(xiàn)了基于深度特征的藏語語音識別系統(tǒng)[16].

2016 年,中央民族大學劉曉鳳比較了基于MFCC特征參數(shù)、SA+MFCC 特征參數(shù)和DBN+MFCC 特征參數(shù)的藏語連續(xù)語音識別率,提出了通過DBN 模型處理MFCC 提取的深度特征對藏語連續(xù)語音識別有更高的識別效率[17];同年,西北師范大學張宇聰利用長短時記憶網(wǎng)絡模型提取深度特征,實現(xiàn)了基于深度學習的拉薩話藏語語音識別系統(tǒng)[18].

2017 年,中央民族大學周楠將深度神經(jīng)網(wǎng)絡提取的瓶頸特征與傳統(tǒng)MFCC 組合形成了復合特征.并對提取的復合特征和單瓶頸特征進行了在藏語語音識別率上的比較[19].

2018 年,中央民族大學趙悅、李要嬙、徐曉娜等采用基于主動學習的語音語料選取方法實現(xiàn)了利用少量語音樣本構(gòu)建了能夠代表大量語音樣本的高精度藏語拉薩話識別模型,成功降低了語音預處理過程中語音語料人工標注的工作復雜度[20].同年,梁寧娜、鄧彥松其中在傳統(tǒng)雙門限檢測法的基礎上進行了端點放松處理對端點檢測技術(shù)進行了改進,再采用DTW 實現(xiàn)藏語孤立詞語音識別,實驗成功的提高了在噪聲下的語音識別效率[21].同年,中科大的黃曉輝、李京利用RNN和連續(xù)時序分類算法實現(xiàn)了端到端的藏語語音聲學建模[22].同年,陜西師范大學李濤、曹輝、郭樂樂通過堆疊稀疏自編碼器組成深度自編碼器提取了深度特征并實現(xiàn)了基于深度特征的藏語語音識別[23].

2 藏語概述

2.1 藏文結(jié)構(gòu)

藏文類似于漢文屬于拼音型文字. 從狹義上講, 藏文是指藏語的符號; 但就廣義上講, 藏文除了符號外還包括藏文文法等. 藏文音節(jié)是現(xiàn)代藏文文本的基本組成單位, 藏文音節(jié)由30 個輔音字母和5 個元音字母(其中為省略不寫)組成[2]. 如表1 及表2 所示.

表1 藏文輔音字母及其拉丁轉(zhuǎn)寫

表2 藏文元音字母及其拉丁轉(zhuǎn)寫

圖1 藏文音節(jié)結(jié)構(gòu)

圖1 中, 基字: 30 個輔音字母皆可作為基字.

藏字在結(jié)構(gòu)上有嚴格的規(guī)則限制. 基字是組成藏字不可缺少的構(gòu)件, 其余各構(gòu)件通過構(gòu)字規(guī)則進行約束出現(xiàn).

2.2 藏語發(fā)音

藏語發(fā)音過程是通過聲帶按照音節(jié)拼讀規(guī)則振動產(chǎn)生聲音的過程.在藏語表達過程中,其聲音音素攜帶了語音信號的大量信息.藏字發(fā)音時基字發(fā)主音,前加字、上加字、下加字、后加字、再后加字發(fā)輔助音.藏字的拼讀發(fā)音順序為前加字→不帶元音的基字丁(不帶元音符號的縱向疊加部分)→元音→后加字→再后加字[16].

值得注意的是藏語三大方言雖文字相同,但發(fā)音存在較大差異.具體差異如下:(1)安多方言沒有聲調(diào)、復元音、長元音,而衛(wèi)藏和康巴方言有該特征,且安多方言復輔音比較豐富;(2)衛(wèi)藏方言沒有送氣清擦音、清化鼻音、濁塞擦音和濁塞音,而安多和康巴方言則具有,且衛(wèi)藏方言具有單輔音和復輔音;(3)康巴方言和安多方言很少有舌面擦音c 和ch,但衛(wèi)藏方言中有[24];(4)藏語拉薩話在發(fā)音上聲母發(fā)音不含濁音和塞音,這與漢語的發(fā)音不同.復輔音聲母出現(xiàn)較少,有真性復合和鼻化元音,聲調(diào)起伏波動不大,發(fā)音也較為平穩(wěn)[25].

藏字發(fā)音攜帶了特定的音素信息,故可以通過對音素進行特征提取來表達語音信號的內(nèi)容.在藏語拉薩話中有59 個音素[13].如表3 所示.

表3 藏語拉薩話音素及其拉丁轉(zhuǎn)寫

藏語同漢語一樣可以將一個音節(jié)分離成聲母和韻母來表示.藏語拉薩話包含了36 個聲母和45 個韻母[1].藏語拉薩話聲、韻母及其拉丁轉(zhuǎn)寫如表4、表5所示.

表4 藏語拉薩話韻母、音標及拉丁轉(zhuǎn)寫

3 藏語語音識別技術(shù)

藏語語音識別過程一般包括幾個重要階段:語音數(shù)字化、預處理、特征參數(shù)提取、模型訓練和模式匹配.其原理如圖2 所示.

(1)語音采集及處理.常使用CoolEdit 等工具采集一定頻率、聲道和分辨率的語音.對采集的語音通過語音增強技術(shù)進行去噪.

(2)語音信號預加重.由于語音由聲道產(chǎn)生后從嘴唇發(fā)出,此過程中受口腔輻射影響會有高頻損失,為彌補這些高頻信號損失,常使用高通數(shù)字濾波器來增強高頻語音信號[26].濾波器傳遞函數(shù)如式(1)所示.

(3)語音端點檢測.語音端點檢測是用于檢測語音信號段和非語音信號段.一般使用基于短時能量和短時平均過零率的端點檢測方法端點方法.

(4)語音特征參數(shù)提取.藏語的元音比輔音攜帶了更多聽覺感知信息.通常提取語音信號的LPCC(線性預測倒譜系數(shù))、MFCC(Mel 頻率倒譜系數(shù))、PLPC(基于聽覺模型的感知線性預測)和深度特征等.由于Mel 頻率更符合人耳聽覺感知,故一般提取MFCC 特征用于語音識別.聲音頻率和梅爾頻率之間的轉(zhuǎn)換關系如式(2)所示.

隨著語音技術(shù)的發(fā)展,現(xiàn)在已經(jīng)有更多的研究開始提取深度特征來代替原來的MFCC 特征.

(5)訓練與識別.模式創(chuàng)建過程即是模型訓練的過程,語音識別過程即是模式匹配的過程.藏語語音識別技術(shù)研究至今已經(jīng)有較大的進展,從提取的不同特征和識別原理上,可將藏語語音識別技術(shù)分為基于模板匹配的藏語語音識別技術(shù)、基于統(tǒng)計概率模型的藏語語音識別技術(shù)和基于人工神經(jīng)網(wǎng)絡的藏語語音識別技術(shù)3 類.

表5 藏語拉薩話聲母、音標及拉丁轉(zhuǎn)寫

圖2 語音識別原理圖

3.1 基于模板匹配的藏語語音識別技術(shù)

基于模板匹配的藏語語音識別技術(shù)是應用最早且、最成熟的藏語語音識別技術(shù).模板匹配的方法,顧名思義就是通過創(chuàng)建參考模板庫,再由測試模板與模板庫中的參考模板一一進行比較,輸出具有最大相似度的參考模板相對應的文本作為識別結(jié)果.其原理圖如圖3 所示.

基于模板匹配方法最常用的方法是動態(tài)時間規(guī)整(Dynamic Time Warping,DTW),其主要用來計算兩個不等時長語音之間的相似度.在模板訓練方面,有針對特定人群小詞匯量的偶然模板訓練法、有針對特定人群大詞匯量的多模板平均訓練法和針對非特定人群的聚類訓練法[10].在系統(tǒng)實現(xiàn)中根據(jù)實際應用場景進行模板訓練方法選擇.在語音識別上,通過計算歐幾里德距離獲得測試模板和參考模板之間的相似度,并將相似度最大的作為識別結(jié)果輸出.歐氏距離計算公式如式(3)所示.

圖3 基于模板庫匹配的藏語語音識別方法原理

3.2 基于統(tǒng)計概率模型的藏語語音識別技術(shù)

基于統(tǒng)計概率模型的藏語音識別方法是通過統(tǒng)計概率學知識構(gòu)建訓練語料語音音素序列的概率網(wǎng)絡,再根據(jù)該概率網(wǎng)絡找到測試語料語音的可能音素序列,從而實現(xiàn)語音識別.

利用GMM-HMM 訓練提取的MFCC 參數(shù)建立聲學模型,通過N-gram 方法建立語言模型.對于藏語聲學建模過程而言,首先,HMM 狀態(tài)序列是由藏語音節(jié)發(fā)音過程中選取的音素經(jīng)過一系列的過程變化構(gòu)成的.其次,觀測向量(即MFCC 特征向量)是由每一個音素以一定的概率密度函數(shù)生成.最后,使用高斯混合函數(shù)來擬合這種概率密度函數(shù)來表示具有隨機特性的語音信號[24].基于統(tǒng)計概率模型的藏語語音識別技術(shù)原理圖如圖4 所示.

圖4 基于統(tǒng)計概率模型的藏語語音識別方法原理

(1)語音語料庫創(chuàng)建.根據(jù)識別系統(tǒng)應用領域收集、整理文本語料形成文本語料庫.將文本語料按照特定語音規(guī)格進行錄制,再將錄制的語音文件整理標注后創(chuàng)建語音語料庫.

(2)發(fā)音字典創(chuàng)建.首先對文本語料進行音節(jié)統(tǒng)計,將統(tǒng)計的音節(jié)按照Wylie(威利)轉(zhuǎn)寫方案進行音節(jié)拉丁轉(zhuǎn)寫,其次將統(tǒng)計的音節(jié)通過基字丁拆分技術(shù)進行聲韻母拆分,最后由音節(jié)拉丁轉(zhuǎn)寫字符串和聲韻母拉丁轉(zhuǎn)寫字符串共同創(chuàng)建發(fā)音字典.

(3)特征參數(shù)提取.主要提取MFCC 特征,同時根據(jù)不同方言特點融入其他特征信息.

(4)語言建模.語言模型的引入是為了解決字、詞之間的上下文關系紊亂的問題.簡單來講,就是用來將識別出來的孤立字詞組合成一句完整的句子.通常創(chuàng)建基于bigram 和trigram 算法的具有上下文相關性的語言模型.

3.3 基于人工神經(jīng)網(wǎng)絡的藏語語音識別技術(shù)

由于人與動物的神經(jīng)網(wǎng)絡具有根據(jù)自然環(huán)境而自學習的能力,所以人工神經(jīng)網(wǎng)絡的引入是為了實現(xiàn)語音識別程序的差異語境自適應[27].基于人工神經(jīng)網(wǎng)絡的語音識別原理圖如圖5 所示.

神經(jīng)元是最小的信息處理單元,是聯(lián)絡和整合輸入信息并傳出信息的基本單位.在人工神經(jīng)網(wǎng)絡中的人工神經(jīng)元由3 個基本要素組成,其結(jié)構(gòu)如圖6 所示.

圖5 語音識別之人工神經(jīng)網(wǎng)絡原理

圖6 人工神經(jīng)元結(jié)構(gòu)

第一個要素為突觸或者稱為連接鏈集,可以用權(quán)值來表征其大小;第二個要素為加法器,即線性組合器,它將對每一個輸入信號進行加權(quán)求和;第三要素為激活函數(shù),它將調(diào)節(jié)信號的輸出范圍.

深度神經(jīng)網(wǎng)絡是人工神經(jīng)網(wǎng)絡的改進,是更高效的網(wǎng)絡結(jié)構(gòu).基于深度神經(jīng)網(wǎng)絡的藏語語音識別技術(shù)是一種利用DNN-HMM 提取深度特征并建立聲學模型的藏語連續(xù)語音識別技術(shù)[17,28].基于深度神經(jīng)網(wǎng)絡的語音識別技術(shù)具有高抗噪能力和高識別率的特點.基于深度神經(jīng)網(wǎng)絡的藏語語音識別方法原理圖如圖7.

基于深度神經(jīng)網(wǎng)絡的藏語語音識別根據(jù)深度特征提取方式的不同又分為常用的4 種:基于卷積神經(jīng)網(wǎng)絡(Convolutional Neural Networks,CNN)、深度置信網(wǎng)(Deep Belief Network,DBN)、稀疏自動編碼器(Sparse Auto-Encoder,SAE)和長短時記憶算法(Long Short Term Memory,LSTM)提取深度特征的藏語語音識別技術(shù).

圖7 基于深度特征的藏語語音識別方法原理

3.3.1 CNN

CNN 是一種較為實用的深層神經(jīng)網(wǎng)絡的基本模型,該模型由卷積和池化運算搭建而成[29].在CNN 中,下一層的輸入是上一層的輸出與某個卷積核進行卷積運算的結(jié)果,類似依次進行逐層運算,最終構(gòu)成神經(jīng)網(wǎng)絡[26].基于卷積神經(jīng)網(wǎng)絡的藏語語音特征提取模型如圖8 所示.

CNN 較其他網(wǎng)絡模型而言,訓練需要的參數(shù)較少且具有一定的平移不變性,是一種容易訓練的模型.在一般情況下,只要網(wǎng)絡結(jié)構(gòu)配置的合理,那么CNN 建模是不需要經(jīng)過預訓練階段的,并且有時候使用隨機的權(quán)值就可得到較好的特征提取結(jié)果[17].

圖8 基于CNN 的藏語語音深度特征提取模型

3.3.2 DBN

深度信念網(wǎng)DBN 的方法提出是為了解決局部最優(yōu)問題[16].DBN 是由一系列受限玻爾茲曼機(Restricted Boltzmann Machine,RBM)組成.RBM 模型如圖9所示.

RBM 網(wǎng)絡的特征提取層包括輸入層和隱含層兩層.如圖9 所示,其中表示觀測節(jié)點的偏移量,表示輸入層與隱含層之間的權(quán)重矩陣,表示隱含節(jié)點的偏移量.基于DBN 的藏語語音識別,就是將提取的MFCC傳統(tǒng)特征作為DBN 輸入,在DBN 的頂層用Softmax分類器來微調(diào)整個網(wǎng)絡參數(shù)進而提取深度特征,最終使用HMM-GMM 構(gòu)件模型實現(xiàn)藏語語音識別.基于DBN 的藏語語音深度特征提取模型如圖10 所示.

圖9 RBM 模型圖

圖10 基于DBN 的藏語語音深度特征提取模型

對于預訓練階段,首先單獨訓練一個RBM,再把該RBM 的輸出作為下一個RBM 的輸入,依次逐層疊加訓練.對于訓練階段,待預訓練結(jié)束后可根據(jù)誤差大小使用誤差傳播(Back-Propagation,BP)算法進行有監(jiān)督訓練進行權(quán)值微調(diào)從而到達自動修正層次之間權(quán)值的效果,最終形成具有深層結(jié)構(gòu)的神經(jīng)網(wǎng)絡[23].

3.3.3 SAE

利用SAE 對傳統(tǒng)的MFCC 聲學特征進行深度學習以提取深度特征.SAE 進行特征提取的過程就是將聲音頻率轉(zhuǎn)換為聽覺神經(jīng)稀疏觸動信號的過程,是一種有監(jiān)督的、簡單的深度特征提取方法[17].同DBN 深度特征提取模型類似,把提取的藏語語音MFCC 特征輸入到SAE 網(wǎng)絡中進行逐層迭代,在網(wǎng)絡頂層增加Softmax 分類器來細微調(diào)整全網(wǎng)絡的逐級參數(shù),最終提取得到深度學習特征.與DBN 不同的是SAE 采用自下而上的逐層無監(jiān)督預訓練和自上而下的權(quán)重調(diào)優(yōu)方式來獲取語音深度特征,這樣就能成功地擺脫了參數(shù)局部最優(yōu)和非稀疏性問題[29].基于SAE 的藏語深度特征提取模型如圖11 所示.

圖11 基于SAE 的藏語深度特征提取模型

對于訓練階段,SAE 的訓練過程和DBN 訓練過程一樣,使用貪心逐層預訓練算法.使用逐層貪心訓練算法訓練SAE 參數(shù)進行有監(jiān)督的特征提取分為預訓練和微調(diào)兩步.① 預訓練時將無標簽的數(shù)據(jù)樣本采用無監(jiān)督的方法訓練網(wǎng)絡獲得參數(shù);② 微調(diào)時將預訓練后帶標簽的結(jié)果數(shù)據(jù)使用BP 算法對所有層的參數(shù)同時進行微調(diào),最終提取到深度特征.在識別階段,同樣將待識別語音經(jīng)過SAE 進行特征提取,再將特征傳入已經(jīng)訓練好的代表聽覺中樞的HMM 模型中進行解碼,最終實現(xiàn)語音識別.

3.3.4 LSTM

采用LSTM 的輸出激活與傳統(tǒng)的MFCC 聲學特征相結(jié)合通過降維以提取深度特征[18].以提取的N維MFCC 作為輸入,經(jīng)網(wǎng)絡迭代生成M維輸出激活,將此M維輸出激活與N 維MFCC 特征相結(jié)合,生成M+N維特征,然后使用主成分分析(Principal Component Analysis,PCA)算法進行降維并提取最重要的R(N＜R＜M+N)維Tandem 特征作為HMM-GMM 模型的輸入,最后進行訓練[25].基于LSTM 的藏語特征提取流程如圖12 所示.

圖12 基于LSTM 的深度特征提取過程

對于訓練過程,需經(jīng)過步驟:(1)將輸入的藏語語音信號通過預處理,再提取出N 維MFCC 特征;(2)將提取的N為特征輸入到LSTM 網(wǎng)絡中處理,后輸出M維激活(也就是文本語料庫中音節(jié)的后驗概率);(3)將M維輸出激活與N維MFCC 特征結(jié)合生成M+N維特征,使用PCA 提取R維Tandem 特征;(4)將R維Tandem 特征輸入HMM-GMM 模型進行訓練.

對于識別過程,首先,需經(jīng)過訓練過程的步驟處理.其次,對照HMM 模型庫,將最相似模型的對應文本作為輸出完成識別.

3.4 技術(shù)小結(jié)

不同的藏語語音識別技術(shù)根據(jù)其特點應用到不同的場景中.3 種技術(shù)方法各自不同的特點如表6 所示.

基于模板匹配的藏語語音識別是簡單而易實現(xiàn)的方法,但是其局限在于僅適用于小詞匯量孤立詞、短語、短句的識別系統(tǒng);基于統(tǒng)計概率模型的藏語語音識別就是基于聲學模型和語音模型的語音識別方法,建模過程較為復雜,其可適用于大詞匯量的連續(xù)語音識別,但由于其在聲學建模過程中使用的每幀MFCC 特征包含較少的語音信息量,故抗噪聲性能力弱并且易受噪聲污染;基于深度神經(jīng)網(wǎng)絡的藏語語音識別是具體高抗燥能力以及高識別效率的大詞匯量連續(xù)語音識別方法,由于深度網(wǎng)絡的訓練過程較為復雜,導致整個方法在實現(xiàn)上較為困難.

表6 3 種語音識別技術(shù)比較

4 存在問題

藏語語音識別技術(shù)比英漢語音識別技術(shù)在研究實現(xiàn)上存在的困難要多得多.目前主要存在的問題有如下這些:

(1)在藏語表述中,協(xié)同發(fā)音出現(xiàn)的情況較普遍,故在語音端點檢測時分割各語音基元(如詞、音節(jié)、音素)間的邊界比較困難,在研究中可以考慮使用后音節(jié)對前音節(jié)元音尾作用的共振峰過渡回歸方程來解決協(xié)同發(fā)音問題.

(2)藏語雖分為衛(wèi)藏、康巴、安多三大方言,但它們各自的下屬方言還比較多.在研究中,基本采用一些代表性的方言進行研究,例如衛(wèi)藏方言以拉薩話為代表,安多方言以青海藏語為代表.因此,在研究結(jié)果應用上仍然存在較多困難.對于這些問題,目前只能采取“因地制宜”的研究策略.

(3)到目前為止,尚未有比較權(quán)威的研究用藏語語音語料庫資源,這就導致絕大多數(shù)的研究都是基于自己研究應用領域的私人語音語料進行的,造成研究的局限以及在一定程度上阻礙了藏語語音識別的發(fā)展.對于此問題,寄希望于各大研究機構(gòu)達成共識,并共同創(chuàng)建具有代表性和研究價值的開放語音語料庫.

(4)研究的人力和財力投入不足,也嚴重阻礙了藏語語音識別的研究發(fā)展.

5 結(jié)論與展望

經(jīng)過多年的研究發(fā)展,藏語語音識別技術(shù)已經(jīng)取得了良好的效果.然而,根據(jù)藏語各方言的發(fā)音特點,可以在語音識別的語音去噪、端點檢測方面進行技術(shù)優(yōu)化來提高識別率,其研究空間仍然很廣闊.隨著深度學習軟硬件資源的不斷發(fā)展,具有自學習能力、高抗噪能力和高識別率的深度學習神經(jīng)網(wǎng)絡將會成為藏語語音識別技術(shù)研究的熱點和重點,這將是未來藏語語音識別研究的趨勢.