馬 亮 程 陳 任海軍 王文青 周 輝
(中國地震局 第二監(jiān)測中心,陜西 西安 710054)
語言是人與人之間信息交流意思表達最直接、最自然的手段,它由語音、詞匯、語法三部分組成。而口語是口頭交際時使用的語言,是最早被人類普遍應(yīng)用的語言形式。人們訓(xùn)練口語技能主要從語言表達的準(zhǔn)確性、流利度、是否得體、多樣性等為基準(zhǔn)。
語音聲紋識別技術(shù)是人機交互中的關(guān)鍵技術(shù)。語音聲紋識別技術(shù)就是讓機器通過構(gòu)建識別和理解過程把語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的高技術(shù)。語音聲紋識別技術(shù)除了特征提取技術(shù)、模式匹配準(zhǔn)則及模型訓(xùn)練技術(shù)之外,還涉及到有語音識別單元的選取,選擇識別單元是語音識別研究的第一步。語音識別單元有單詞(句)、音節(jié)和音素三種,而漢語則以音節(jié)單元識別為主[1]。
口語測試的評分一般分為兩種:一種是自動評分,一種為專家評分。在自動評分中可以盡可能脫離人的主觀因素對口語測試者的發(fā)音客觀評分,最大程度呈現(xiàn)測試者的真實水平,在實際中得到了廣泛運用。針對這一研究,我們主要用到的技術(shù)是運用語音識別和統(tǒng)計模型的相關(guān)理論,通過提取被測者語音信號的特征參數(shù),計算機對其經(jīng)過一系列數(shù)字信號處理,從而在統(tǒng)計模型中對它進行分析測評。特征參數(shù)提取采用的是Mel頻率倒譜參數(shù)(MFCC)。本文中以非線性的特征參數(shù)MFCC為主,結(jié)合LSP,提出了一種語音特征參數(shù)的混合使用方法 (M/L),使發(fā)音質(zhì)量判決系統(tǒng)的正確率有所改進。計算公式見式(1):
X=(x1,x2,...,xk)為參考模型的特征矢量,K 代表參數(shù)的維數(shù),Y=(y1,y2,...,yk)表示維數(shù)為 K 的被測模型特征矢量。
口語測評機制的建立是從聲學(xué)特征、韻律特征和感知特征三方面綜合考慮。本文所采用的是基于HMM和神經(jīng)網(wǎng)絡(luò)技術(shù)的評分機制,對標(biāo)準(zhǔn)語音的特征通過HMM技術(shù)進行訓(xùn)練建立相應(yīng)模型,然后與學(xué)習(xí)者語音的特征進行強制對齊得到三類得分,即聲學(xué)分?jǐn)?shù)、韻律分?jǐn)?shù)和感知分?jǐn)?shù),最后將這三類分?jǐn)?shù)通過評分機制得到最后評分,而這個評分機制是由神經(jīng)網(wǎng)絡(luò)對非標(biāo)準(zhǔn)語音的人工評分和機器評分訓(xùn)練得到。
聲學(xué)分?jǐn)?shù)主要是指語音內(nèi)容匹配的準(zhǔn)確度,它是對語音段進行評價,提取語音的12維MFCC特征和能量特征,并分別對這兩個特征做一階差分和二階差分,綜合得到一個39維的特征向量,然后對這個特征向量進行訓(xùn)練建立聲學(xué)模型。韻律分?jǐn)?shù)由韻律特征提取而定,我們可以提取語音的基音,研究基音隨時間的變化規(guī)律,如取基音均值可以作為一個韻律參數(shù),通過HMM技術(shù)建立韻律模型,通過比較標(biāo)準(zhǔn)語音和測試語音得到韻律分?jǐn)?shù)。感知分?jǐn)?shù)通過計算動態(tài)規(guī)整比較標(biāo)準(zhǔn)語音和測試語音的響度差異,由Zwicker公式得出響度,見式(2):
在Bark頻標(biāo)上計算每個臨界界帶的響度,頻率和臨界帶之間有擬合公式,見式(3):
聲學(xué)模型主要用來描述發(fā)音單元(如音子、音節(jié)和詞)在特征空間中的分布狀況以及這種分布隨時間的變化規(guī)律。聲學(xué)模型是識別系統(tǒng)的底層模型,并且是語音識別系統(tǒng)中最關(guān)鍵的一部分,其目的是提供一種有效的方法計算語音的特征矢量序列和每個發(fā)音模板之間的距離。聲學(xué)模型的設(shè)計和語言發(fā)音特點密切相關(guān)。聲學(xué)模型單元大?。ㄗ职l(fā)音模型、半音節(jié)模型或音素模型)直接影響著語音訓(xùn)練數(shù)據(jù)量大小、系統(tǒng)識別率以及靈活性。所以必須根據(jù)不同語言的特點、識別系統(tǒng)詞匯量的大小來決定識別單元的大小。
聲學(xué)模型的主要功能是對識別基元進行模式劃分。進行模式劃分的方法很多種,但目前語音識別系統(tǒng)中主流的聲學(xué)建模技術(shù)兩類:一類是基于隱式馬爾可夫模型的概率統(tǒng)計模型的方法;一類是基于人工神經(jīng)網(wǎng)絡(luò)的方法[2]。
神經(jīng)網(wǎng)絡(luò)能依靠權(quán)值進行長時間記憶和知識存儲,但是對輸入模式的瞬時相應(yīng)的記憶能力比較差;而隱馬爾科夫模型的短時記憶的能力比較強,但是假定的前提又與實際情況不符。因此,擬定采用HMM和ANN相結(jié)合的混合模型[3]。
在混合HMM/ANN模型方法中,采用分類網(wǎng)絡(luò)來估計HMM狀態(tài)的后驗概率。傳統(tǒng)的HMM/ANN模型是用神經(jīng)分類網(wǎng)絡(luò)代替了高斯概率密度分布混合器。因此可以用語法上下文相關(guān)的輸入模式作為神經(jīng)網(wǎng)絡(luò)的輸入,這樣就考慮了語音矢量間的時間相關(guān)性。神經(jīng)網(wǎng)絡(luò)輸出的后驗概率密度見式(4):
而HMM狀態(tài)需要的是似然概率密度p(x,lq,),應(yīng)用貝葉斯公式,我們就可以從后驗概率密度,導(dǎo)出尺度化的后驗概率密度,見式(5):
在進行識別時,因為p(x,)對所有的路徑來說是一樣的,所以尺度化的似然函數(shù)并不會改變識別的結(jié)果。因為分類網(wǎng)絡(luò)極大地體現(xiàn)了混合模型的精髓,所以我們采用它來建立語音識別系統(tǒng)。在用混合HMM/ANN模型進行語音識別時,ANN計算的是HMM狀態(tài)的尺度化觀察概率。整個識別過程分兩步進行:(1)計算t時刻所有HMM狀態(tài)的尺度化觀察概率;(2)計算t時刻激活路徑的路徑積累概率,并根據(jù)路徑積累概率進行剪枝[4-5],確定t+l時刻的激活路徑。
對上述概率統(tǒng)計結(jié)果進行了進一步分析后,基于一種新的隱節(jié)點數(shù)目確定方法實現(xiàn)了這種混合模型優(yōu)化。
(1)用迭代自組織數(shù)據(jù)分析方法得到訓(xùn)練數(shù)據(jù)的聚類中心數(shù)目,再為屬于不同類的一對聚類中心分配一個隱節(jié)點。這樣,隱節(jié)點就是對輸入模式形成高維空間,在這個空間中輸入節(jié)點更容易形成決策曲面。通過這樣就估計了一個對于訓(xùn)練和訓(xùn)練后的剪枝都合適的隱節(jié)點的數(shù)目N。
(2)訓(xùn)練具有N個隱節(jié)點的BP網(wǎng)絡(luò)。
(3)通過迭代去除網(wǎng)絡(luò)中的冗余隱節(jié)點,然后在保持原有輸入輸出關(guān)系的前提下,調(diào)整剩下隱節(jié)點的權(quán)值,最后得到一個最優(yōu)的網(wǎng)絡(luò)隱節(jié)點個數(shù)。即對于訓(xùn)練集中所有的模式見式(6):
語言模型特別適用于中、大詞匯量的語音識別系統(tǒng)。目前比較成功的語言模型通常是基于統(tǒng)計語法的語言模型與基于規(guī)則語法結(jié)構(gòu)命令語言模型。統(tǒng)計語言模型是用概率統(tǒng)計的方法來揭示語言單位內(nèi)在的統(tǒng)計規(guī)律,其中N-Gram簡單有效,被廣泛使用。N-Gram模型被稱為一階馬爾科夫鏈,該模型基于這樣一種假設(shè),第n個詞的出現(xiàn)只與前面N-1個詞相關(guān),而與其它任何詞都不相關(guān),整句的概率就是各個詞出現(xiàn)概率的乘積。這些概率可以通過直接從語料中統(tǒng)計N個詞同時出現(xiàn)的次數(shù)得到。常用的是二元的Bi-Gram和三元的Tri-Gram。
當(dāng)兩個歷史的最近的N-1個詞(或字)相同時,映射兩個歷史到同一個等價類,在此情況下的模型稱之為N-Gram模型。N的值不能太大,否則計算量太大。根據(jù)最大似然估計,給出語言模型的參數(shù),見式(7):
其中,C(w1w2…wi)表示w1w2…wi在訓(xùn)練數(shù)據(jù)中出現(xiàn)的次數(shù)。
漢語采用分層識別策略:假設(shè)漢語句子長度為L,對應(yīng)的漢字串為 W=(W1,W2,..,WL),對應(yīng)的又掉拼音串為 A=(A1,A2,..,AL),聲學(xué)觀測為 O=(O1,O2,..,OL)。 其中的 Wi,Ai,Oi(i=1,2,…,L)對應(yīng) S 中的第 i個字,分別在漢字集、有調(diào)拼音集和聲學(xué)觀測集上取值。設(shè)P(W|O)為聲學(xué)觀測為O時所說漢字串為W的概率,則語音識別的目標(biāo)是在得到聲學(xué)觀測O的情況下找到W?,見式(8):
其中,P(W,A)為漢語語言模型,P(O|A)為漢語聲學(xué)模型。
漢語普通話測評系統(tǒng)框架如圖1所示,該系統(tǒng)包括有檢測口語發(fā)音部分,所述的檢測口語發(fā)音部分包括以下步驟:標(biāo)準(zhǔn)發(fā)音人語料庫的建立;口語評測語料庫的收集;口語評測語料庫的標(biāo)注;標(biāo)準(zhǔn)語音聲學(xué)模型的建立;計算語音的檢錯參數(shù);建立檢錯參數(shù)向?qū)<宜鶚?biāo)注發(fā)音錯誤的檢錯映射模型。
圖1 普通話測評系統(tǒng)框圖
本系統(tǒng)擬定采用Visual Studio 2008開發(fā)工具下的C++語言搭建系統(tǒng)平臺界面,輔以外加設(shè)備,如耳麥、錄音設(shè)備等。系統(tǒng)主界面如圖2所示。
圖2 普通話測評系統(tǒng)主題界面
進入測評登記之后,首先錄入語音進行聲紋身份認(rèn)證并顯示核對信息,聲紋身份認(rèn)證通過與原始錄入數(shù)據(jù)進行比較而獲得。在語音測評階段,主要工作是進行語音錄入,并與系統(tǒng)原存儲的標(biāo)準(zhǔn)語音進行對比辨識語音進行測評,如圖3。該階段包括四個裝置:語音辨識裝置、存儲裝置、預(yù)處理器和語音決策裝置,通過模型比較,然后產(chǎn)生并輸出一個表明與輸入信號最佳匹配的一個附加模型的信號。
圖3 語音測評
根據(jù)語音識別技術(shù)開發(fā)的口語語音學(xué)習(xí)和測評系統(tǒng),可以對測試者的水平進行有效測評,對每句話、每個詞和甚至每個因素給出得分,提出改進建議。未來可以發(fā)展語音情感識別系統(tǒng),識別說話人的情感。
[1]王炳錫,屈丹,彭煊.實用語音識別基礎(chǔ)[M].2版.北京:國防工業(yè)出版社,2005:26-29.
[2]林坤輝,息曉靜,周昌樂.基于HMM與神經(jīng)網(wǎng)絡(luò)的聲學(xué)模型研究[J].廈門大學(xué)學(xué)報,2006,45(1):45-47.
[3]馬亮,等.基于 DSP 的 JPEG 視頻壓縮系統(tǒng)的實現(xiàn)[J].電子設(shè)計工程,17(9).
[4]趙雷.建立任務(wù)型對外漢語口語教學(xué)系統(tǒng)的思考[J].語言教學(xué)與研究,2008(3):64-66.
[5]宋芳芳,宋曉麗,馬青玉.基于語音識別技術(shù)的英語口語自學(xué)系統(tǒng)評分機制的研究[D].南京師范大學(xué)教育科學(xué)學(xué)院,20095(7):1726-1728.
[6]FERRASM,BARRAS C,GAUVAIN J.L.Lattice.based MLLR for speaker recognit ion [C]//ICASSP 2009:Proceedings of the 2009 IEEE International Conference on A coustics,Speech and Signal Processing.Washington,DC:IEEE Computer Society,2009:4537-4540.