亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于HMM和ANN漢語普通話口語測評系統(tǒng)的實現(xiàn)

2013-08-22 06:29:06任海軍王文青

科技視界 2013年20期

關鍵詞：見式聲學發(fā)音

馬亮程陳任海軍王文青周輝

（中國地震局第二監(jiān)測中心，陜西西安 710054）

0 引言

語言是人與人之間信息交流意思表達最直接、最自然的手段，它由語音、詞匯、語法三部分組成。而口語是口頭交際時使用的語言，是最早被人類普遍應用的語言形式。人們訓練口語技能主要從語言表達的準確性、流利度、是否得體、多樣性等為基準。

語音聲紋識別技術(shù)是人機交互中的關鍵技術(shù)。語音聲紋識別技術(shù)就是讓機器通過構(gòu)建識別和理解過程把語音信號轉(zhuǎn)變?yōu)橄鄳奈谋净蛎畹母呒夹g(shù)。語音聲紋識別技術(shù)除了特征提取技術(shù)、模式匹配準則及模型訓練技術(shù)之外，還涉及到有語音識別單元的選取，選擇識別單元是語音識別研究的第一步。語音識別單元有單詞（句）、音節(jié)和音素三種，而漢語則以音節(jié)單元識別為主[1]。

1 口語測評機制的建立

口語測試的評分一般分為兩種：一種是自動評分，一種為專家評分。在自動評分中可以盡可能脫離人的主觀因素對口語測試者的發(fā)音客觀評分，最大程度呈現(xiàn)測試者的真實水平，在實際中得到了廣泛運用。針對這一研究，我們主要用到的技術(shù)是運用語音識別和統(tǒng)計模型的相關理論，通過提取被測者語音信號的特征參數(shù)，計算機對其經(jīng)過一系列數(shù)字信號處理，從而在統(tǒng)計模型中對它進行分析測評。特征參數(shù)提取采用的是Mel頻率倒譜參數(shù)（MFCC）。本文中以非線性的特征參數(shù)MFCC為主，結(jié)合LSP，提出了一種語音特征參數(shù)的混合使用方法（M/L），使發(fā)音質(zhì)量判決系統(tǒng)的正確率有所改進。計算公式見式（1）：

X=（x1，x2，...，xk）為參考模型的特征矢量，K 代表參數(shù)的維數(shù)，Y=（y1，y2，...，yk）表示維數(shù)為 K 的被測模型特征矢量。

口語測評機制的建立是從聲學特征、韻律特征和感知特征三方面綜合考慮。本文所采用的是基于HMM和神經(jīng)網(wǎng)絡技術(shù)的評分機制，對標準語音的特征通過HMM技術(shù)進行訓練建立相應模型，然后與學習者語音的特征進行強制對齊得到三類得分，即聲學分數(shù)、韻律分數(shù)和感知分數(shù)，最后將這三類分數(shù)通過評分機制得到最后評分，而這個評分機制是由神經(jīng)網(wǎng)絡對非標準語音的人工評分和機器評分訓練得到。

聲學分數(shù)主要是指語音內(nèi)容匹配的準確度，它是對語音段進行評價，提取語音的12維MFCC特征和能量特征，并分別對這兩個特征做一階差分和二階差分，綜合得到一個39維的特征向量，然后對這個特征向量進行訓練建立聲學模型。韻律分數(shù)由韻律特征提取而定，我們可以提取語音的基音，研究基音隨時間的變化規(guī)律，如取基音均值可以作為一個韻律參數(shù)，通過HMM技術(shù)建立韻律模型，通過比較標準語音和測試語音得到韻律分數(shù)。感知分數(shù)通過計算動態(tài)規(guī)整比較標準語音和測試語音的響度差異，由Zwicker公式得出響度，見式（2）：

在Bark頻標上計算每個臨界界帶的響度，頻率和臨界帶之間有擬合公式，見式（3）：

2 聲紋識別系統(tǒng)模型的建立

2.1 聲學模型

聲學模型主要用來描述發(fā)音單元（如音子、音節(jié)和詞）在特征空間中的分布狀況以及這種分布隨時間的變化規(guī)律。聲學模型是識別系統(tǒng)的底層模型，并且是語音識別系統(tǒng)中最關鍵的一部分，其目的是提供一種有效的方法計算語音的特征矢量序列和每個發(fā)音模板之間的距離。聲學模型的設計和語言發(fā)音特點密切相關。聲學模型單元大?。ㄗ职l(fā)音模型、半音節(jié)模型或音素模型）直接影響著語音訓練數(shù)據(jù)量大小、系統(tǒng)識別率以及靈活性。所以必須根據(jù)不同語言的特點、識別系統(tǒng)詞匯量的大小來決定識別單元的大小。

聲學模型的主要功能是對識別基元進行模式劃分。進行模式劃分的方法很多種，但目前語音識別系統(tǒng)中主流的聲學建模技術(shù)兩類：一類是基于隱式馬爾可夫模型的概率統(tǒng)計模型的方法；一類是基于人工神經(jīng)網(wǎng)絡的方法[2]。

2.2 結(jié)合HMM與ANN的聲學模式研究

神經(jīng)網(wǎng)絡能依靠權(quán)值進行長時間記憶和知識存儲，但是對輸入模式的瞬時相應的記憶能力比較差；而隱馬爾科夫模型的短時記憶的能力比較強，但是假定的前提又與實際情況不符。因此，擬定采用HMM和ANN相結(jié)合的混合模型[3]。

在混合HMM/ANN模型方法中，采用分類網(wǎng)絡來估計HMM狀態(tài)的后驗概率。傳統(tǒng)的HMM/ANN模型是用神經(jīng)分類網(wǎng)絡代替了高斯概率密度分布混合器。因此可以用語法上下文相關的輸入模式作為神經(jīng)網(wǎng)絡的輸入，這樣就考慮了語音矢量間的時間相關性。神經(jīng)網(wǎng)絡輸出的后驗概率密度見式（4）：

而HMM狀態(tài)需要的是似然概率密度p(x，lq，)，應用貝葉斯公式，我們就可以從后驗概率密度，導出尺度化的后驗概率密度，見式（5）：

在進行識別時，因為p(x，)對所有的路徑來說是一樣的，所以尺度化的似然函數(shù)并不會改變識別的結(jié)果。因為分類網(wǎng)絡極大地體現(xiàn)了混合模型的精髓，所以我們采用它來建立語音識別系統(tǒng)。在用混合HMM/ANN模型進行語音識別時，ANN計算的是HMM狀態(tài)的尺度化觀察概率。整個識別過程分兩步進行：（1）計算t時刻所有HMM狀態(tài)的尺度化觀察概率；（2）計算t時刻激活路徑的路徑積累概率，并根據(jù)路徑積累概率進行剪枝[4－5]，確定t+l時刻的激活路徑。

對上述概率統(tǒng)計結(jié)果進行了進一步分析后，基于一種新的隱節(jié)點數(shù)目確定方法實現(xiàn)了這種混合模型優(yōu)化。

（1）用迭代自組織數(shù)據(jù)分析方法得到訓練數(shù)據(jù)的聚類中心數(shù)目，再為屬于不同類的一對聚類中心分配一個隱節(jié)點。這樣，隱節(jié)點就是對輸入模式形成高維空間，在這個空間中輸入節(jié)點更容易形成決策曲面。通過這樣就估計了一個對于訓練和訓練后的剪枝都合適的隱節(jié)點的數(shù)目N。

（2）訓練具有N個隱節(jié)點的BP網(wǎng)絡。

（3）通過迭代去除網(wǎng)絡中的冗余隱節(jié)點，然后在保持原有輸入輸出關系的前提下，調(diào)整剩下隱節(jié)點的權(quán)值，最后得到一個最優(yōu)的網(wǎng)絡隱節(jié)點個數(shù)。即對于訓練集中所有的模式見式（6）：

2.3 語言模型

語言模型特別適用于中、大詞匯量的語音識別系統(tǒng)。目前比較成功的語言模型通常是基于統(tǒng)計語法的語言模型與基于規(guī)則語法結(jié)構(gòu)命令語言模型。統(tǒng)計語言模型是用概率統(tǒng)計的方法來揭示語言單位內(nèi)在的統(tǒng)計規(guī)律，其中N-Gram簡單有效，被廣泛使用。N-Gram模型被稱為一階馬爾科夫鏈，該模型基于這樣一種假設，第n個詞的出現(xiàn)只與前面N-1個詞相關，而與其它任何詞都不相關，整句的概率就是各個詞出現(xiàn)概率的乘積。這些概率可以通過直接從語料中統(tǒng)計N個詞同時出現(xiàn)的次數(shù)得到。常用的是二元的Bi-Gram和三元的Tri-Gram。

當兩個歷史的最近的N-1個詞（或字）相同時，映射兩個歷史到同一個等價類，在此情況下的模型稱之為N-Gram模型。N的值不能太大，否則計算量太大。根據(jù)最大似然估計，給出語言模型的參數(shù)，見式（7）：

其中，C(w1w2…wi)表示w1w2…wi在訓練數(shù)據(jù)中出現(xiàn)的次數(shù)。

3 口語測評在漢語普通話測試系統(tǒng)中的應用

漢語采用分層識別策略：假設漢語句子長度為L，對應的漢字串為 W=（W1，W2，..,WL），對應的又掉拼音串為 A=(A1,A2，..,AL)，聲學觀測為 O=(O1，O2，..,OL)。其中的 Wi,Ai,Oi（i=1，2，…，L）對應 S 中的第 i個字，分別在漢字集、有調(diào)拼音集和聲學觀測集上取值。設P（W|O）為聲學觀測為O時所說漢字串為W的概率，則語音識別的目標是在得到聲學觀測O的情況下找到W?，見式（8）：

其中，P(W,A)為漢語語言模型，P(O|A)為漢語聲學模型。

漢語普通話測評系統(tǒng)框架如圖1所示，該系統(tǒng)包括有檢測口語發(fā)音部分，所述的檢測口語發(fā)音部分包括以下步驟：標準發(fā)音人語料庫的建立；口語評測語料庫的收集；口語評測語料庫的標注；標準語音聲學模型的建立；計算語音的檢錯參數(shù)；建立檢錯參數(shù)向?qū)＜宜鶚俗l(fā)音錯誤的檢錯映射模型。

圖1 普通話測評系統(tǒng)框圖

本系統(tǒng)擬定采用Visual Studio 2008開發(fā)工具下的C++語言搭建系統(tǒng)平臺界面，輔以外加設備，如耳麥、錄音設備等。系統(tǒng)主界面如圖2所示。

圖2 普通話測評系統(tǒng)主題界面

進入測評登記之后，首先錄入語音進行聲紋身份認證并顯示核對信息，聲紋身份認證通過與原始錄入數(shù)據(jù)進行比較而獲得。在語音測評階段，主要工作是進行語音錄入，并與系統(tǒng)原存儲的標準語音進行對比辨識語音進行測評，如圖3。該階段包括四個裝置：語音辨識裝置、存儲裝置、預處理器和語音決策裝置，通過模型比較，然后產(chǎn)生并輸出一個表明與輸入信號最佳匹配的一個附加模型的信號。

圖3 語音測評

4 結(jié)論

根據(jù)語音識別技術(shù)開發(fā)的口語語音學習和測評系統(tǒng)，可以對測試者的水平進行有效測評，對每句話、每個詞和甚至每個因素給出得分，提出改進建議。未來可以發(fā)展語音情感識別系統(tǒng)，識別說話人的情感。

［1］王炳錫，屈丹，彭煊.實用語音識別基礎[M].2版.北京：國防工業(yè)出版社，2005：26-29.

［2］林坤輝，息曉靜，周昌樂.基于HMM與神經(jīng)網(wǎng)絡的聲學模型研究[J].廈門大學學報，2006，45(1)：45-47.

［3］馬亮，等.基于 DSP 的 JPEG 視頻壓縮系統(tǒng)的實現(xiàn)[J].電子設計工程，17（9）.

［4］趙雷.建立任務型對外漢語口語教學系統(tǒng)的思考[J].語言教學與研究，2008（3）：64-66.

［5］宋芳芳，宋曉麗，馬青玉.基于語音識別技術(shù)的英語口語自學系統(tǒng)評分機制的研究[D].南京師范大學教育科學學院，20095(7)：1726-1728.

［6］FERRASM,BARRAS C,GAUVAIN J.L.Lattice.based MLLR for speaker recognit ion [C]//ICASSP 2009：Proceedings of the 2009 IEEE International Conference on A coustics,Speech and Signal Processing.Washington,DC：IEEE Computer Society,2009：4537-4540.