王 輝,努爾麥麥提·尤魯瓦斯,2,吾守爾·斯拉木,2
(1. 新疆大學(xué) 信息科學(xué)與工程學(xué)院,新疆 烏魯木齊 830046;2. 新疆多語種信息技術(shù)重點實驗室,新疆 烏魯木齊 830046)
維吾爾語屬阿爾泰語系突厥語族,是維吾爾人所說的語言。現(xiàn)在中國境內(nèi)官方的維吾爾文是以阿拉伯字母為基礎(chǔ)的,同時以拉丁維吾爾文作為補充。維吾爾語音素包括8個元音[a,e,i,o,u,?,ü,?],及24個輔音[n,m,l,k,j,h,,g,f,d,,b,?,z,y,x,w,t,?,s,r,q,p,]。隨著維吾爾語語言語音聲學(xué)參數(shù)數(shù)據(jù)庫的建立,為維吾爾語語音識別提供了研究基礎(chǔ),而在維吾爾語語音聲學(xué)特性研究上,已取得一定進展,但大都以孤立詞作為研究語料。孤立詞發(fā)音語譜圖清晰,各音素邊界、重音、韻律特征明顯,語速較緩且一致,分析結(jié)果對大詞匯量連續(xù)語音識別研究指導(dǎo)意義不大。
本文進行維吾爾語連續(xù)語音條件下依照語速分類的音素聲學(xué)特征的分析,并將美爾頻率倒譜系數(shù)、共振峰特征、能量特征、特征差分的融合做音素識別對比研究,實驗表明,融入共振峰特征后濁音音素的識別率有了一定的提高,而通過時長的統(tǒng)計分析并結(jié)合實驗結(jié)果確定的聲學(xué)模型狀態(tài)數(shù),使得識別精確率與基線系統(tǒng)相比有了1%以上的提高。不同聲學(xué)特征的分析、融合及模型狀態(tài)數(shù)的確定對維吾爾語連續(xù)語音識別聲學(xué)模型的構(gòu)建有著重要的意義。
一般環(huán)境下(如無人的教室、辦公室等)錄制朗讀式連續(xù)語音。發(fā)音人是以高中以上學(xué)歷為主的18~30歲男女性成年人,發(fā)音人配置高寶立式麥克風,阻抗160om、靈敏度56±3dB、頻率范圍100~16 000Hz。采樣率選擇16KHz,采樣位選擇16Bit。語音數(shù)據(jù)以wav文件格式存儲,其音頻格式為PCM。
維吾爾語手工標注語料包含400句朗讀式連續(xù)語音,350句女聲,50句男聲,4 477個單詞,29 030個音素。400句語音的語速均值為每秒12.27±2.29個音素。語料中,元音[i]、[a]、[?]出現(xiàn)頻次較高,分別占音素總數(shù)的16.1%、8.62%和6.59%,而[e]、[ü]、[o]在2%左右,[?]最少,占0.84%。輔音中以[l]、[n]、[r]、[t]、[q]出現(xiàn)頻次較高,在3.6%~6.2%之間,[?]、[f]最少,分別占0.04%和0.17%。
維吾爾語連續(xù)語音語料庫的標注采用手工標注的方式。選用Praat軟件,進行詞和音素兩個層級的標注。元音發(fā)音在語譜圖上呈現(xiàn)出粗黑的橫杠,表明此區(qū)域語音能量較為聚集,故與相鄰區(qū)域有明顯的界限,便于做標注。輔音的發(fā)音過程分為“成阻”、“持阻”、“除阻”三個階段,塞音和塞擦音音長包括這三個階段。而擦音在持阻過程中發(fā)出聲音。擦音在語譜圖上沒有除阻的沖直條,從持阻開始就表現(xiàn)為送氣形成的亂紋,故沒有明顯的持阻與除阻的分界點。在標注時,輔音將這三個階段都包括在一個輔音音素時長內(nèi),而不是只標注除阻部分。
通過朗讀式連續(xù)語音的標注,對維吾爾語元音和部分濁輔音第一、第二、第三、第四共振峰頻率[1](單位: Hz)進行均值、標準差、離散度[2]的統(tǒng)計分析。傳統(tǒng)語音學(xué)中將一切不帶音的噪音,帶樂音成分的噪音稱為清輔音,將先有阻礙而跟上樂音的音稱為濁輔音。若按音系學(xué)的區(qū)別特征來分類,前者定為“輔音性”,后者定位“元音性”[3]。語譜圖上元音前三共振峰比較清晰,頻率固定。濁輔音只有第一共振峰最清晰,二峰以上較淡。濁輔音是具有共振峰特征的,故本文對元音及具有“元音性”的濁輔音共振峰頻率做統(tǒng)計分析(表1)。
由表1可知,元音[u]、[o]舌位靠后且較高,并為圓唇音,故其第一、第二共振峰靠的較近,而第二、第三距離較大。通過以上統(tǒng)計結(jié)果,繪制Joos型(F1、F2分別與舌位的高低、前后對應(yīng))聲學(xué)元音圖。
元音共振峰中[i](圖1陰影區(qū)域)、[ü]、[u]離散度較高,[i]幾乎覆蓋了[e]、[?]、[?]的分布區(qū)域。濁輔音中[l] (圖2陰影區(qū)域),[y]各共振峰離散度較高,邊音[l]、鼻音[n]、[m],半元音[w]、鼻音[]重疊程度較高。
圖1 元音Joos型共振峰分布圖
圖2 部分濁輔音Joos型共振峰分布圖
為了探知連續(xù)語音環(huán)境下,語速變化對各音素聲學(xué)特征的影響, 本文將400句語音分別統(tǒng)計出其朗讀語速(每秒發(fā)音音素個數(shù)),通過K-means做聚類,劃分出4個集合(集合1:每秒發(fā)音個數(shù)為9.50±0.73,共100句,5 902個音素;集合2:每秒發(fā)音個數(shù)為11.33±0.54,共107句,7 575個音素;集合3:每秒發(fā)音個數(shù)為13.21±0.59,共118句,9 292個音素;集合4:每秒發(fā)音個數(shù)為15.84±0.83,共75句,6 261個音素),并選出出現(xiàn)頻次較高、且離散度較低的元音做不同語速下的F1、F2均值分析,結(jié)果如圖3所示。
圖3 不同語速下的元音F1、F2均值
在連續(xù)發(fā)音條件下,當語速加快時,發(fā)音器官的發(fā)音動作并未完全到位,便進入到下一音素的發(fā)音過程之中,加之F1與發(fā)音開口度成正比關(guān)系、F2與前共振腔面積大小成反比關(guān)系[4],故如圖3所示,高語速導(dǎo)致了大部分元音F1的降低與F2的升高。
維吾爾語音長是以10ms為單位,求取音素發(fā)音過程起止時間之差,而語音強統(tǒng)計是以能量均值的方法來求取發(fā)音時長內(nèi)的音強,單位為dB(表2)。
表2 維吾爾語音素的音強及音長分析
在維吾爾語中,元音音強普遍強于輔音。音長低于輔音中的送氣音及擦音,與半元音、邊音、鼻音音長相近,其中[ü]的音長最短。非爆破輔音中,擦音音強較弱。發(fā)音時長與發(fā)音人性別、發(fā)音習慣及上下文(音素過渡)有一定關(guān)系,故音長離散度較大。由統(tǒng)計結(jié)果可知,元音音強較輔音音強強且與半元音、邊音、鼻音相近。
如圖4所示,通過對不同語速下的音素音強離散度分析發(fā)現(xiàn), 隨著語速的加快音強離散度值呈上升趨勢,這表明語速越高, 音素音強越不穩(wěn)定,最終可能導(dǎo)致識別錯誤率的提升。
圖4 不同語速下的音強離散度
根據(jù)維吾爾語連續(xù)語音下各元音及部分輔音音素(不包括塞音、塞擦音)共振峰、音強、音長的不同語速的離散度分析,發(fā)現(xiàn)各音素共振峰、音強、音長的離散度變化情況基本一致,且在元音范圍內(nèi)表現(xiàn)得尤為明顯。
連續(xù)語音環(huán)境下,當語速較快時,語音的緊縮、脫落現(xiàn)象[5]較為嚴重,造成語譜圖的各音素之間界限模糊,且清輔音與[i]、[u]、[ü]連用時易產(chǎn)生清化現(xiàn)象。本文從低語速集合1中的100句語音,做輔元(輔音+[a])結(jié)構(gòu)下,依照語譜圖中爆破音沖直條為界限的輔音無聲空間(GAP)與嗓音起始時間(VOT)標注,并統(tǒng)計輔音其后接元音F2、F3的均值。
由表3所列統(tǒng)計結(jié)果發(fā)現(xiàn),輔音中,濁塞音[b]、[d]比清塞音音強強,但濁塞音[g]較清塞音音強弱。送氣音比不送氣音長長,清塞音[p]的GAP最長,濁塞音[d]的GAP最短,且VOT內(nèi)音強值最大。輔元結(jié)構(gòu)中,清輔音VOT一般為非負值,而濁輔音VOT為負值,這與聲帶振動產(chǎn)生的濁音流出現(xiàn)在沖直條前后有關(guān)。塞擦音[]、[j]的|VOT|較長,當此二者后接元音[a]時,導(dǎo)致[a]的F2值,較與其他輔音連用時高。由輔音第一強頻區(qū)與后接元音第二共振峰的關(guān)系可知,塞擦音[]、[j]的強頻集中區(qū)頻率較高,其過渡音征為降渡。濁塞音[d]后接元音[a]的F2最低,故此過渡音征為升渡。
表3 維吾爾語塞音、塞擦音聲學(xué)特征分析
本文利用基于隱馬爾可夫模型(HMM)的HTK (HMMToolKit)[1]工具,提取美爾頻率倒譜系數(shù)(MFCC),幀能量及其一階、二階差分,共39維的聲學(xué)特征,并以 400句手工標注語料生成種子模型[6],之后加入1 200非手工標注的語料做聲學(xué)模型訓(xùn)練,測試數(shù)據(jù)包括400句朗讀式連續(xù)語音,構(gòu)建5狀態(tài)HMM基線系統(tǒng)。其中,詞典由32個音素構(gòu)成,且以基于二元文法的音素網(wǎng)絡(luò)做語言模型,以使識別時進行音素間競爭,而非詞間競爭。
在連續(xù)發(fā)音的情況下,并不是語速越低,識別正確率就越高。本文使用四個不同語速的訓(xùn)練做集內(nèi)測試集合1、集合2、集合3、集合4的識別率分別為53.17%、54.3% 48.9%、44.29%。由此可見,每秒發(fā)音個數(shù)為11.33±0.54的集合2獲得了最高的識別率。由圖5知,置換錯誤(置換錯誤=1-刪除錯誤-正確率)變化不顯著,但有下降趨勢,而圖中語速與刪除錯的正比關(guān)系,與插入錯誤的反比關(guān)系較為明顯。
圖5 不同語速測試集下的錯誤率
共振峰特征作為反映聲帶振動特性的主要特性,對元音及濁輔音的識別應(yīng)有一定影響。本文采用線性預(yù)測編碼(LPC)算法提取語音共振峰特征,包括四維共振峰頻率F1、F2、F3、F4及四維共振峰帶寬B1、B2、B3、B4。連續(xù)語音識別中常用的美爾頻率倒譜系數(shù)是從人耳的聽覺特征來考慮的,在有信道噪聲和頻譜失真情況下,MFCC參數(shù)比較穩(wěn)健。特征參數(shù)的一階差分(D)、二階差分(A)反映連續(xù)語音的動態(tài)特征,同時可以抑制平穩(wěn)噪聲。
特征融合是將各種特征(比如MFCC、能量特征(C0)、差分、共振峰特征等)融合成單一矢量,然后送入分類器進行識別。通過將共振峰特征、幀能量特征、靜態(tài)倒譜特征與動態(tài)差分特征信息的互補融合,來驗證加入共振峰特征后,對元音及濁輔音音素識別的影響(表4)。
表4 共振峰特征融合后部分濁音識別率
由上文表2知維吾爾語音素的發(fā)音時長特征長短不一,且離散度較高,故有一定的區(qū)分性,本文通過HMM狀態(tài)數(shù)的改變將時長特征融入語音識別過程中,通過表2的統(tǒng)計分析,確定了初始狀態(tài)數(shù)的分布。之后通過識別結(jié)果的混淆矩陣中,音素刪除錯誤及插入錯誤發(fā)生的概率,進行了部分調(diào)整,識別率最高時各音素的狀態(tài)數(shù)見表5。本文還通過對共振峰頻率及帶寬求取動態(tài)差分特征,并以不同的組合形式進行特征融合,結(jié)果見表6,其后三列為修改狀態(tài)數(shù)后的特征融合識別結(jié)果。
表5 維吾爾語易混淆音素對
續(xù)表
表6 加入共振峰動態(tài)特征及狀態(tài)數(shù)修改后實驗結(jié)果
基于MFCC_C0_D_A特征的音素識別,在改變各音素模型狀態(tài)數(shù)后,音素識別精確率(考慮插入錯誤對識別結(jié)果的影響)由49.92%提高至51.78%。而基于MFCC_C0_D_A_F1~F2的音素識別精確率由48.40%提高至50.40%。特征的融合從某種程度上可提高語音識別率,但是隨著特征維數(shù)的增多,帶來的運算量和復(fù)雜性是不可避免的,特征的直接疊加會使特征維數(shù)、冗余性增加,可能導(dǎo)致識別性能的降低。
在狀態(tài)數(shù)確定后,做基于MFCC_C0_D_A_F1~F4特征的識別實驗。通過產(chǎn)生的混淆矩陣,提取出誤識別音素數(shù)量所占此音素總數(shù)的百分比值較高的音素(誤識率3%以上)做統(tǒng)計分析。
由表5所列,音素[ü]易被誤識別為[i],發(fā)音舌位靠前且偏高,[ü]和[i]的F1、F2離散度較高且共振峰分布圖上分布區(qū)域重疊面積較大,表明此二者音位變體較多;音素[?]易被誤識別為[?],舌位較低,音強相近;音素[e]易被誤識別為[i],展唇音且舌位非低靠前,共振峰分布圖上[e]幾乎被包含在[i]的分布區(qū)域內(nèi),[e]也會因為弱化現(xiàn)象而被識別為[i];音素[o]易被誤識別為[u],圓唇音且舌位靠后,共振峰分布圖上分布區(qū)域重疊面積較大。[i]因為發(fā)音脫落及清化現(xiàn)象,而造成刪除錯誤率較高。此外,高元音因為發(fā)音時舌位較高,且要盡量緊閉,頂住齒齦,造成一定程度發(fā)音阻礙,可能會被誤識為輔音。輔音音素中, [m]易被誤識別為[n], [b]易被誤識別為[d],此二對發(fā)音方式及部位相似度較高。音素[j]易被誤識別為[],同為清擦音,發(fā)音方法相似。輔音弱化現(xiàn)象比較普遍,塞音和塞擦音都有弱化現(xiàn)象或向擦音化發(fā)展的趨勢[7]。維吾爾輔音音素[r]、[l]、[t]的脫落現(xiàn)象,導(dǎo)致[r]、[l]、[t]識別結(jié)果中刪除錯誤較多。刪除錯誤率由大到小依次為[w],[l],[ü],[h],[r],[i],[e],[],[p],[u],[b],[o],[y],[t],[k],[n],[q],[],[m],[d],[g],[s]。
綜上,音素的誤識別與音素發(fā)音部位,發(fā)音方法的相似程度、語速有關(guān),還與維吾爾語中音節(jié)的重清讀、元音和諧、輔音的同化及脫落等語音現(xiàn)象有關(guān)。
通過對維吾爾語元、輔音,根據(jù)不同語速下聲學(xué)特性的統(tǒng)計分析,揭示語速的快慢對音素特征及離散度的影響。在連續(xù)語音條件下,進行基于不同聲學(xué)特征的融合及模型狀態(tài)數(shù)修改識別實驗,其中加入音素發(fā)音時長特征的模型狀態(tài)數(shù)確定方法,使維吾爾語音素識別精確率有了1.86%的提高,加入共振峰特征的濁音音素識別也有了一定提高。本文還通過混淆矩陣得到易混淆音素,并做了誤識別原因分析,為不同語速下MFCC、共振峰、能量、動態(tài)聲學(xué)特征的融合改進及系統(tǒng)識別率的提高提供依據(jù)。
[1] Young S, Evermann G, Gales M. The HTK Book [EB/OL]. 2009, http://htk.eng.cam.ac.uk/.
[2] 鮑懷翹,阿西木. 維吾爾語元音的聲學(xué)語音學(xué)分析[J]. 民族語文,1988,(5):4-13.
[3] 吳宗濟,林茂燦. 實驗語音學(xué)概要[M]. 北京:高等教育出版社, 1989:87-124.
[4] 林燾,王理嘉. 語音學(xué)教程[M]. 北京:北京大學(xué)出版,1992:64-87.
[5] 麥熱哈巴·艾力,姜文斌,吐爾根·依布拉音. 維吾爾語詞法中音變現(xiàn)象的自動還原模型[J]. 中文信息學(xué)報,2012,26(1):91-95.
[6] 伊·達瓦,匂坂芳典,中村哲. 語料資源缺乏的連續(xù)語音識別方法的研究[J]. 自動化學(xué)報,2010,36(4):550-557.
[7] 趙相如,朱志寧. 維吾爾語簡志[M]. 民族出版社,1983:4-33.
[8] 那斯爾江·吐爾遜,吾守爾·斯拉木. 基于隱馬爾科夫模型的維吾爾語連續(xù)語音識別系統(tǒng)[J]. 計算機應(yīng)用,2009,29(7):2009-2012.
[9] 祖麗皮亞·阿曼,艾斯卡爾·艾木都拉. 基于音素及其特征參數(shù)的維吾爾語音合成技術(shù)[J]. 中文信息學(xué)報,2008,22(4):100-104.