蔡明琦 凌震華 戴禮榮
(中國科學技術大學電子工程與信息科學系,合肥,230027)
語音是從肺部呼出的氣流通過聲門、聲道等各種器官作用而發(fā)出的。聲道的形狀主要由唇、顎、舌等的位置決定。不同的聲道形狀決定了不同的發(fā)音[1]。人們用發(fā)音動作參數(shù)描述發(fā)音器官在發(fā)音過程中的位置及運動,這些發(fā)音器官包括舌、下顎、嘴唇等。發(fā)音動作參數(shù)可以通過多種技術來采集,例如 X 射線微束影像[2]、磁共振成像[3]、超聲波[4]、圖像采集外部發(fā)音器官運動[5]及電磁發(fā)音儀(Electro magnetic articulography,EMA)[6]等。發(fā)音動作參數(shù)不僅可以有效地描述語音特征,而且相對于聲學參數(shù)還具有以下優(yōu)勢:
(1)因為發(fā)音器官的物理運動能力有限,所以發(fā)音動作參數(shù)相對于聲學參數(shù)變化緩慢且平滑,更適合使用隱馬爾科夫模型(Hidden Markov model,HMM)進行建模。
(2)對語音中存在的某些現(xiàn)象,發(fā)音動作參數(shù)可以進行更直接的解釋。例如,語音中的第二共振峰從高到低的變化,可以通過發(fā)音動作參數(shù)解釋為舌位從前往后的運動。
(3)發(fā)音動作參數(shù)直接記錄發(fā)音器官的位置,它們不受聲學噪音的影響且較少受錄音環(huán)境的影響。因此發(fā)音動作參數(shù)相對于聲學參數(shù)更加魯棒[7]。
基于發(fā)音動作參數(shù)的以上優(yōu)點,已有研究人員將發(fā)音動作參數(shù)應用到語音識別與語音合成的方法研究中,例如將發(fā)音動作參數(shù)作為語音識別的額外特征參數(shù)以降低識別錯誤率[8],在語音合成中融合發(fā)音動作參數(shù)以提高合成語音的自然讀與靈活可控性[9]等。
此外,在給定文本或者語音輸入時的發(fā)音動作參數(shù)預測也是發(fā)音動作參數(shù)研究的熱點之一,其潛在的應用場景包括語音驅動的人臉動畫系統(tǒng)、語言學習中的發(fā)音位置問題檢測、基于調(diào)音的語音合成方法中的發(fā)音器官運動預測等。目前發(fā)音動作參數(shù)預測方法按照輸入主要分為兩類:(1)輸入文本:利用時間對齊的音素序列及高斯分布描述音素中點發(fā)音動作參數(shù)的分布,通過一個協(xié)同發(fā)音模型預測發(fā)音動作參數(shù)[10];利用目標逼近模型進行發(fā)音動作參數(shù)預測[11];基于HMM的發(fā)音動作參數(shù)預測[12]。(2)輸入語音:基于高斯混合模型的聲學-發(fā)音動作參數(shù)映射,并使用最大似然估計準則考慮動態(tài)參數(shù)[13];利用人工神經(jīng)網(wǎng)絡和最大似然參數(shù)生成(Maximum likelihood parameter generation,MLPG)算法訓練一個軌跡模型[14]。由于缺少中文發(fā)音動作參數(shù)數(shù)據(jù)庫,目前少有對中文發(fā)音動作參數(shù)的研究。
本文對基于HMM的中文發(fā)音動作參數(shù)預測方法進行研究。在模型訓練階段,利用電磁發(fā)音儀完成了中文連續(xù)語流的發(fā)音動作參數(shù)采集、處理與數(shù)據(jù)庫制作,構建了包含聲學與發(fā)音動作參數(shù)的雙流HMM模型來表征兩種參數(shù)之間的關系[12];在預測階段,利用輸入的文本及聲學參數(shù),基于最大似然準則實現(xiàn)發(fā)音動作參數(shù)的預測。此外,本文還研究了建模過程中不同的上下文屬性、模型聚類方式、流間相關性假設以及轉換矩陣綁定方式對于中文發(fā)音動作參數(shù)預測性能的影響。
利用EMA可以便捷、準確、實時地采集發(fā)音動作參數(shù)。本文采用NDI公司的Wave System設備錄制中文發(fā)音人連續(xù)語流的發(fā)音動作參數(shù)及語音波形,并經(jīng)過預處理制作成中文連續(xù)語流EMA數(shù)據(jù)庫。由于使用EMA采集發(fā)音動作參數(shù),因此后續(xù)介紹中“發(fā)音動作參數(shù)”也用“EMA參數(shù)”來表示。
本文設計的中文數(shù)據(jù)庫包括音素平衡的390句中文語句,由一名普通話女發(fā)音人在隔音密閉專業(yè)錄音室里采用AKG領夾式麥克風朗讀錄制。使用NDI公司的Wave System設備平行錄制語音波形與EMA參數(shù)。波形錄制使用16kHz采樣,16bit量化的PCM格式。通過在發(fā)音人的各發(fā)音器官放置小的傳感器,并利用電磁信號對發(fā)音過程中各傳感器進行定位來實現(xiàn)EMA數(shù)據(jù)的采集。實驗中分別在感興趣的6個發(fā)音器官位置放置了傳感器,其位置如圖1所示。利用 Wave System設備,可以采集每個傳感器在發(fā)音過程中的空間三維位置。
圖1 EMA傳感器位置示意圖Fig.1 Placement of EMA receivers in database
由于EMA參數(shù)是由EMA傳感器直接記錄的位置信息,在對EMA參數(shù)進行HMM建模前必須對其進行預處理。預處理主要分為兩個步驟:頭部運動規(guī)整和咬合面規(guī)整。
原始的EMA數(shù)據(jù)記錄的是發(fā)音器官相對于固定參考系的位置信息,而實際感興趣的信息是發(fā)音器官相對于發(fā)音人頭部的運動信息。因此,需要對EMA數(shù)據(jù)進行規(guī)整以消除頭部運動的影響。本文利用NDI公司W(wǎng)ave System提供的一個6D參考傳感器,并將這個參考傳感器放置在說話人鼻梁處(認為鼻梁在發(fā)音時始終與頭部保持相對靜止),可以較為便捷地得到其他傳感器發(fā)音器官相對此傳感器的頭部規(guī)整后的EMA數(shù)據(jù)。
將發(fā)音人牙齒自然咬合時所形成的平面定義為咬合面,如圖2所示,在一塊硬紙板上安置A,B,C三個傳感器(直線AB垂直于BC),讓發(fā)音人自然咬住硬紙板來測量發(fā)音人的咬合面。咬合面規(guī)整就是將原始以鼻梁參考點為中心的xyz坐標系變換成x′y′z′坐標系,其中x′y′平面為咬合面、y′z′平面為垂直于咬合面的頭部中軸面。利用咬合面對發(fā)音動作參數(shù)進行規(guī)整可以使發(fā)音動作參數(shù)物理意義更明顯,并且可以較好保證不同發(fā)音人EMA參數(shù)的可比性。
做完頭部運動規(guī)整的EMA數(shù)據(jù),每個傳感器分別有x,y,z三維數(shù)據(jù),如圖1所示,其中x表示左右方向位移、y表示前后方向位移、z表示上下方向位移。在圖2中,假設M點為需要規(guī)整的點,T為點M在咬合面的投影,S為TS在直線BC上的垂足。將MT,TS的長度作為z′,y′的模。由于所有傳感器均安置在發(fā)音人的頭部中軸面上,所以x′的模很小可以忽略。z′,y′的正負符號信息由BM與咬合面的法向量及AB直線夾角決定。經(jīng)過咬合面規(guī)整,每個傳感器所對應EMA數(shù)據(jù)由三維降為兩維。
圖2 咬合面規(guī)整過程示意圖Fig.2 Schematic diagram for occlusal surface normalization
將HMM用于中文發(fā)音動作參數(shù)預測,其框架類似于基于HMM的參數(shù)語音合成系統(tǒng)[15]。首先需要訓練統(tǒng)一的聲學-發(fā)音動作參數(shù)HMM模型以表示聲學參數(shù)與發(fā)音動作參數(shù)之間的關系;在生成過程中,利用最大似然準則和動態(tài)參數(shù)約束生成最優(yōu)發(fā)音動作參數(shù)[12]。
整個發(fā)音動作參數(shù)預測系統(tǒng)主要分為訓練和預測兩部分[7]。系統(tǒng)框架如圖3所示。
圖3 基于HMM的發(fā)音動作參數(shù)預測系統(tǒng)Fig.3 HMM-based articulatory movement prediction system
初始化上下文相關的HMM訓練后,用最小描述長度(Minimum description length,MDL)準則和上下文屬性問題集訓練一棵決策樹,利用該決策樹對HMM進行聚類[16],這樣可以解決由數(shù)據(jù)稀疏引起的過擬合問題。在對發(fā)音動作參數(shù)與聲學參數(shù)進行基于決策樹的模型聚類時,可以對兩種參數(shù)分別構建決策樹(獨立聚類);也可以為這兩種參數(shù)構建一棵共享的決策樹(共享聚類)。然后使用訓練得到的上下文相關HMM進行狀態(tài)切分并且訓練狀態(tài)的時長概率模型[17]。通過上述訓練流程,最后訓練得到的模型包括譜、基頻、時長及發(fā)音動作參數(shù)的聚類HMM以及各自的決策樹。
預測過程中,首先利用前端文本分析得到的結果和決策樹確定HMM序列,然后利用MLPG算法生成最優(yōu)發(fā)音動作參數(shù)[18]如下
因為聲學信號是由發(fā)音器官的運動引起的,所以聲學參數(shù)與發(fā)音動作參數(shù)是彼此相關的。因此在對聲學參數(shù)與發(fā)音動作參數(shù)建模時,應考慮這種相關性。根據(jù)發(fā)音的物理機制,本文選擇采用狀態(tài)同步系統(tǒng)[7],狀態(tài)同步系統(tǒng)假設聲學參數(shù)和發(fā)音動作參數(shù)是由相同的狀態(tài)序列生成的。在狀態(tài)同步系統(tǒng)的基礎上,對聲學參數(shù)和發(fā)音動作參數(shù)之間的依賴關系進行直接建模。此時聲學參數(shù)的生成不僅依賴于當前的上下文相關音素的聲學模型,還依賴于當前幀對應的發(fā)音動作參數(shù)。特征生成模型結構如圖4所示。
圖4 特征生成模型結構Fig.4 Feature production model for combined acoustic and articulatory modeling
在之前的工作中,作者采用一無偏置的線性變換來對聲學參數(shù)與發(fā)音動作參數(shù)的依賴關系進行直接建模[9,12]。本文在此基礎上改進為一有偏置的線性變換對聲學參數(shù)與發(fā)音動作參數(shù)的依賴關系進行建模,并且考慮該線性變換的分回歸類綁定以減少需要估計的模型參數(shù)數(shù)目。因此,聲學參數(shù)與發(fā)音動作參數(shù)的聯(lián)合分布可以寫成
發(fā)音動作參數(shù)生成公式見式(7),下面簡化這一優(yōu)化過程,只考慮發(fā)音動作參數(shù)在最優(yōu)狀態(tài)序列下的情況,因此式(7)可簡化為式(18)
采用迭代更新方法來交替更新發(fā)音動作參數(shù)與狀態(tài)序列,每一次迭代包括兩步[12]:
(1)在給定聲學特征Y與狀態(tài)序列q的情況下,優(yōu)化發(fā)音動作參數(shù)XS。
式中:i∈(1,2,…}表示第i次迭代,q0表示利用一個純聲學特征模型用Viterbi對齊算法對聲學特征序列Y切分出的初始狀態(tài)序列。如果假設X與Y在給定狀態(tài)序列下沒有依賴關系,采用傳統(tǒng)的MLPG算法可以直接求解式(19)。一旦在建模時考慮聲學參數(shù)與發(fā)音動作參數(shù)之間的依賴關系,如式(11)和式(19)中的聯(lián)合分布可以寫成式(20)。
其中
式中:K為 常 數(shù) 項。由 式 (26),ξt= [xTt,1]T,
(2)給定和Y優(yōu)化狀態(tài)序列q
更新的狀態(tài)序列將用在下一次的迭代中。
實驗使用一個中文女發(fā)音人連續(xù)語流EMA數(shù)據(jù)庫,它同時包含語音波形和EMA參數(shù),具體信息可參考第2節(jié)。本文采用40階線譜對(Line spectral pair,LSP)和1階增益作為頻譜聲學參數(shù),使用經(jīng)過咬合面規(guī)整的12維特征(6個傳感器,每個傳感器兩維)作為發(fā)音動作參數(shù)。選擇380句作訓練,剩余的10句用作測試。
為了研究上下文相關HMM訓練過程中使用的上下文屬性集對于發(fā)音動作參數(shù)預測系統(tǒng)的影響,本文訓練了3個模型系統(tǒng):單音素模型、三音素模型及完全上下文相關模型系統(tǒng)。這里,采用獨立聚類的頻譜模型與發(fā)音動作參數(shù)模型聚類方式,并且暫不考慮2.2節(jié)中提出的流間相關性建模。其中,三音素模型的上下文屬性包含當前音素及前后各一個音素;完全上下文相關模型的上下文屬性除了包含三音素模型中的音素特征,還包含一組廣泛的語言韻律特征。表1列出了其中一部分上下文屬性,表中L0表示音節(jié),L1表示韻律詞,L3表示韻律短語。
表1 完全上下文相關模型訓練中使用的部分上下文屬性列表Table 1 Some context descriptions used in full context dependent model
分別采用單音素模型、三音素模型和完全上下文相關模型,計算10句測試句生成LSP參數(shù)的均方根誤差(Root mean square error,RMSE)作為客觀評價標準。3個系統(tǒng)的實驗結果如圖5所示,單音素模型系統(tǒng)的系能明顯低于三音素模型、完全上下文相關模型系統(tǒng),因為后兩種上下文模型都考慮了當前音素與前后音素的協(xié)同發(fā)音現(xiàn)象。完全上下文相關模型相對三音素模型增加的上下文屬性主要體現(xiàn)的是對基頻、時長等韻律參數(shù)的影響,因此對于提升發(fā)音動作參數(shù)的預測精度作用不大。后續(xù)的實驗都將基于三音素模型進行。
圖5 采用單音素模型、三音素模型與完全上下文相關模型時的發(fā)音動作參數(shù)預測客觀測試結果Fig.5 Objective evaluation of articulatory RMSE on monophone model,triphone model and full context model
在本文的實驗數(shù)據(jù)庫上,分別采用共享聚類和獨立聚類的決策樹葉子節(jié)點數(shù)目如圖6所示。采用獨立聚類時,EMA參數(shù)的決策樹比采用共享聚類的決策樹要大,這表明發(fā)音動作參數(shù)對比聲學參數(shù)在發(fā)音變化上具有更好的區(qū)分性。
圖6 采用共享聚類與獨立聚類方式的各狀態(tài)決策樹葉子節(jié)點數(shù)目對比Fig.6 Node numbers of decision trees on each state for shared clustering and separate clustering
共享聚類與獨立聚類的客觀測試對比試驗結果如圖7所示。采用獨立聚類可以提高EMA參數(shù)的預測精確性。因此,之后的實驗都將采用獨立聚類的方式。
圖7 采用共享聚類與獨立聚類時的發(fā)音動作參數(shù)預測客觀測試結果Fig.7 Objective evaluation of articulatory RMSE on shared clustering system and separate clustering system
進一步驗證2.2節(jié)提出的流間相關性建模方法對于發(fā)音動作參數(shù)預測性能的影響。為了考慮流間相關性建模中轉換矩陣的數(shù)目對于系統(tǒng)的影響,采用回歸類的方法對轉換矩陣和決策樹葉子節(jié)點進行綁定。因此,本文訓練了5個系統(tǒng)進行回歸類影響的分析,如表2所示。
表2 回歸類方法實驗的系統(tǒng)配置Table 2 Configuration for different regression systems
實驗結果如圖8所示,可以看出加入聲學參數(shù)與發(fā)音動作參數(shù)之間的依賴性可以明顯提高預測的準確性。并且當增加轉換矩陣的數(shù)目時,可以提高發(fā)音動作參數(shù)的預測準確性,在綁定到每個葉子節(jié)點時得到最優(yōu)結果。
圖8 考慮流間相關性并采用不同綁定方式訓練轉換矩陣時的系統(tǒng)客觀測試結果Fig.8 Objective evaluation of articulatory RMSE on different regression systems
本文首先闡述了制作中文連續(xù)語流發(fā)音動作參數(shù)數(shù)據(jù)庫及發(fā)音動作參數(shù)預處理方法。并且在中文數(shù)據(jù)庫上進行了基于HMM的發(fā)音動作參數(shù)預測實驗,對比了不同上下文模型、聚類方式對發(fā)音動作參數(shù)預測性能的影響,結果表明采用三音素模型與單獨聚類的模型結構可以得到較好的結果。本文還采用有偏置的線性變換對流間相關性進行建模,并且對轉換矩陣的回歸類訓練方法進行研究。實驗表明,隨著使用的轉換矩陣回歸類數(shù)目的增多,預測的發(fā)音動作參數(shù)誤差明顯下降。未來計劃在聲學參數(shù)與發(fā)音動作參數(shù)聯(lián)合模型訓練準則、引入非線性變換表征兩種參數(shù)間依賴關系等方面開展進一步的研究工作。
[1] 趙力.語音信號處理[M].北京:機械工業(yè)出版社,2009:14-16.
Zhao Li.Speech signal processing[M].Beijing:China Machine Press,2009:14-16.
[2] Kiritani S.X-ray microbeam method for the measurement of articulatory dynamics:Technique and results[J].Speech Communication,1986,45:119-140.
[3] Bare T,Gore J C,Boyce S,et al.Application of MRI to the analysis of speech production[J].Magnetic Resonance Imaging,1987,5:1-7.
[4] Akgul Y,Kambhamettu C,Stone M.Extraction and tracking of the tongue surface from ultrasound image sequences[J].IEEE Comp Vision and Pattern Recog,1998,123:298-303.
[5] Summerfield Q.Some preliminaries to a comprehensive account of audio visual speech perception[M].Hillsdale,NJ England:Lawrence Evlbaum Associates,1987:3-51.
[6] Sch?nle P W,Gr?be K,Wening P,et al.Electromagnetic articulography:Use of alternating magnetic fields for tracking movements of multiple points inside and outside the vocal tract[J].Brain Lang,1987,31:26-35.
[7] 凌震華.基于聲學統(tǒng)計建模的語音合成技術研究[D].合肥:中國科學技術大學,2008.
Ling Zhenhua.Research on statistical acoustic model based speech synthesis[D].Hefei:University of Science and Technology of China,2008.
[8] Kirchhoff K,F(xiàn)ink G,Sagerer G.Conversation speech recognition using acoustic and articulatory in-put[C]//ICASSP.Istanbul,Turkey:IEEE,2000:1435-1438.
[9] Ling Zhenhua,Richmond K,Yamagishi J,et al.Integrating articulatory features into HMM-based parametric speech synthesis[J].IEEE Transacions on Audio,Speech,and Language Processing,2009,17(6):1171-1185.
[10]Blackburn C S,Young S.A self-learning predictive model of articulator movements during speech production[J].Acoustical Society of America,2000,107(3):1659-1670.
[11]Birkholz P,Kr?ger B J,Neuschaefer-Rube C.Model-based reproduction of articulatory trajectories for consonant-vowel sequences[J].IEEE Transactions on Audio,Speech,and Language Processing,2011,10(5):1422-1433.
[12]Ling Zhenhua,Richmond K,Yamagishi J.An analysis of HMM-based prediction of articulatory movements[J].Speech Communication,2010,52:834-846.
[13]Toda T,Black A W,Tokuda K.Statistical mapping between articulatory movements and acoustic spectrum using a Gaussian mixture model[J].Speech Communication,2008,50:215-227.
[14]Richmond K.Trajectory mixture density networks with multiple mixtures for acoustic-articulatory inversion[C]//NOLISP.Berlin,Heidelberg:Springer-Verlag,2007:263-272.
[15]Tokuda K,Zen H,Black A W.HMM-based approach to multilingual speech synthesis[M].United States:Prentice Hall,2004.
[16]Shinoda K,Watanabe T.MDL-based context-dependent sub-word modeling for speech recognition[J].Journal of Acoustical Society of Japan (E),2000,21(2):79-86.
[17]Yoshimura T,Tokuda K,Masuko T,et al.Duration modeling in HMM-based speech synthesis system[C]//ICSLP.Sydney,Australia:[s.n.],1998,2:29-32.
[18]Tokuda K,Yoshimura T,Masuko T,et al.Speech parameter generation algorithms for HMM-based speech synthesis[C]//ICASSP.Istanbul,Turkey:[s.n.],2000,3:1315-1318.