亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于HMM和ANN漢語普通話口語測評系統(tǒng)的實現(xiàn)

        2013-08-22 06:29:06任海軍王文青
        科技視界 2013年20期
        關鍵詞:見式聲學發(fā)音

        馬 亮 程 陳 任海軍 王文青 周 輝

        (中國地震局 第二監(jiān)測中心,陜西 西安 710054)

        0 引言

        語言是人與人之間信息交流意思表達最直接、最自然的手段,它由語音、詞匯、語法三部分組成。而口語是口頭交際時使用的語言,是最早被人類普遍應用的語言形式。人們訓練口語技能主要從語言表達的準確性、流利度、是否得體、多樣性等為基準。

        語音聲紋識別技術(shù)是人機交互中的關鍵技術(shù)。語音聲紋識別技術(shù)就是讓機器通過構(gòu)建識別和理解過程把語音信號轉(zhuǎn)變?yōu)橄鄳奈谋净蛎畹母呒夹g(shù)。語音聲紋識別技術(shù)除了特征提取技術(shù)、模式匹配準則及模型訓練技術(shù)之外,還涉及到有語音識別單元的選取,選擇識別單元是語音識別研究的第一步。語音識別單元有單詞(句)、音節(jié)和音素三種,而漢語則以音節(jié)單元識別為主[1]。

        1 口語測評機制的建立

        口語測試的評分一般分為兩種:一種是自動評分,一種為專家評分。在自動評分中可以盡可能脫離人的主觀因素對口語測試者的發(fā)音客觀評分,最大程度呈現(xiàn)測試者的真實水平,在實際中得到了廣泛運用。針對這一研究,我們主要用到的技術(shù)是運用語音識別和統(tǒng)計模型的相關理論,通過提取被測者語音信號的特征參數(shù),計算機對其經(jīng)過一系列數(shù)字信號處理,從而在統(tǒng)計模型中對它進行分析測評。特征參數(shù)提取采用的是Mel頻率倒譜參數(shù)(MFCC)。本文中以非線性的特征參數(shù)MFCC為主,結(jié)合LSP,提出了一種語音特征參數(shù)的混合使用方法 (M/L),使發(fā)音質(zhì)量判決系統(tǒng)的正確率有所改進。計算公式見式(1):

        X=(x1,x2,...,xk)為參考模型的特征矢量,K 代表參數(shù)的維數(shù),Y=(y1,y2,...,yk)表示維數(shù)為 K 的被測模型特征矢量。

        口語測評機制的建立是從聲學特征、韻律特征和感知特征三方面綜合考慮。本文所采用的是基于HMM和神經(jīng)網(wǎng)絡技術(shù)的評分機制,對標準語音的特征通過HMM技術(shù)進行訓練建立相應模型,然后與學習者語音的特征進行強制對齊得到三類得分,即聲學分數(shù)、韻律分數(shù)和感知分數(shù),最后將這三類分數(shù)通過評分機制得到最后評分,而這個評分機制是由神經(jīng)網(wǎng)絡對非標準語音的人工評分和機器評分訓練得到。

        聲學分數(shù)主要是指語音內(nèi)容匹配的準確度,它是對語音段進行評價,提取語音的12維MFCC特征和能量特征,并分別對這兩個特征做一階差分和二階差分,綜合得到一個39維的特征向量,然后對這個特征向量進行訓練建立聲學模型。韻律分數(shù)由韻律特征提取而定,我們可以提取語音的基音,研究基音隨時間的變化規(guī)律,如取基音均值可以作為一個韻律參數(shù),通過HMM技術(shù)建立韻律模型,通過比較標準語音和測試語音得到韻律分數(shù)。感知分數(shù)通過計算動態(tài)規(guī)整比較標準語音和測試語音的響度差異,由Zwicker公式得出響度,見式(2):

        在Bark頻標上計算每個臨界界帶的響度,頻率和臨界帶之間有擬合公式,見式(3):

        2 聲紋識別系統(tǒng)模型的建立

        2.1 聲學模型

        聲學模型主要用來描述發(fā)音單元(如音子、音節(jié)和詞)在特征空間中的分布狀況以及這種分布隨時間的變化規(guī)律。聲學模型是識別系統(tǒng)的底層模型,并且是語音識別系統(tǒng)中最關鍵的一部分,其目的是提供一種有效的方法計算語音的特征矢量序列和每個發(fā)音模板之間的距離。聲學模型的設計和語言發(fā)音特點密切相關。聲學模型單元大?。ㄗ职l(fā)音模型、半音節(jié)模型或音素模型)直接影響著語音訓練數(shù)據(jù)量大小、系統(tǒng)識別率以及靈活性。所以必須根據(jù)不同語言的特點、識別系統(tǒng)詞匯量的大小來決定識別單元的大小。

        聲學模型的主要功能是對識別基元進行模式劃分。進行模式劃分的方法很多種,但目前語音識別系統(tǒng)中主流的聲學建模技術(shù)兩類:一類是基于隱式馬爾可夫模型的概率統(tǒng)計模型的方法;一類是基于人工神經(jīng)網(wǎng)絡的方法[2]。

        2.2 結(jié)合HMM與ANN的聲學模式研究

        神經(jīng)網(wǎng)絡能依靠權(quán)值進行長時間記憶和知識存儲,但是對輸入模式的瞬時相應的記憶能力比較差;而隱馬爾科夫模型的短時記憶的能力比較強,但是假定的前提又與實際情況不符。因此,擬定采用HMM和ANN相結(jié)合的混合模型[3]。

        在混合HMM/ANN模型方法中,采用分類網(wǎng)絡來估計HMM狀態(tài)的后驗概率。傳統(tǒng)的HMM/ANN模型是用神經(jīng)分類網(wǎng)絡代替了高斯概率密度分布混合器。因此可以用語法上下文相關的輸入模式作為神經(jīng)網(wǎng)絡的輸入,這樣就考慮了語音矢量間的時間相關性。神經(jīng)網(wǎng)絡輸出的后驗概率密度見式(4):

        而HMM狀態(tài)需要的是似然概率密度p(x,lq,),應用貝葉斯公式,我們就可以從后驗概率密度,導出尺度化的后驗概率密度,見式(5):

        在進行識別時,因為p(x,)對所有的路徑來說是一樣的,所以尺度化的似然函數(shù)并不會改變識別的結(jié)果。因為分類網(wǎng)絡極大地體現(xiàn)了混合模型的精髓,所以我們采用它來建立語音識別系統(tǒng)。在用混合HMM/ANN模型進行語音識別時,ANN計算的是HMM狀態(tài)的尺度化觀察概率。整個識別過程分兩步進行:(1)計算t時刻所有HMM狀態(tài)的尺度化觀察概率;(2)計算t時刻激活路徑的路徑積累概率,并根據(jù)路徑積累概率進行剪枝[4-5],確定t+l時刻的激活路徑。

        對上述概率統(tǒng)計結(jié)果進行了進一步分析后,基于一種新的隱節(jié)點數(shù)目確定方法實現(xiàn)了這種混合模型優(yōu)化。

        (1)用迭代自組織數(shù)據(jù)分析方法得到訓練數(shù)據(jù)的聚類中心數(shù)目,再為屬于不同類的一對聚類中心分配一個隱節(jié)點。這樣,隱節(jié)點就是對輸入模式形成高維空間,在這個空間中輸入節(jié)點更容易形成決策曲面。通過這樣就估計了一個對于訓練和訓練后的剪枝都合適的隱節(jié)點的數(shù)目N。

        (2)訓練具有N個隱節(jié)點的BP網(wǎng)絡。

        (3)通過迭代去除網(wǎng)絡中的冗余隱節(jié)點,然后在保持原有輸入輸出關系的前提下,調(diào)整剩下隱節(jié)點的權(quán)值,最后得到一個最優(yōu)的網(wǎng)絡隱節(jié)點個數(shù)。即對于訓練集中所有的模式見式(6):

        2.3 語言模型

        語言模型特別適用于中、大詞匯量的語音識別系統(tǒng)。目前比較成功的語言模型通常是基于統(tǒng)計語法的語言模型與基于規(guī)則語法結(jié)構(gòu)命令語言模型。統(tǒng)計語言模型是用概率統(tǒng)計的方法來揭示語言單位內(nèi)在的統(tǒng)計規(guī)律,其中N-Gram簡單有效,被廣泛使用。N-Gram模型被稱為一階馬爾科夫鏈,該模型基于這樣一種假設,第n個詞的出現(xiàn)只與前面N-1個詞相關,而與其它任何詞都不相關,整句的概率就是各個詞出現(xiàn)概率的乘積。這些概率可以通過直接從語料中統(tǒng)計N個詞同時出現(xiàn)的次數(shù)得到。常用的是二元的Bi-Gram和三元的Tri-Gram。

        當兩個歷史的最近的N-1個詞(或字)相同時,映射兩個歷史到同一個等價類,在此情況下的模型稱之為N-Gram模型。N的值不能太大,否則計算量太大。根據(jù)最大似然估計,給出語言模型的參數(shù),見式(7):

        其中,C(w1w2…wi)表示w1w2…wi在訓練數(shù)據(jù)中出現(xiàn)的次數(shù)。

        3 口語測評在漢語普通話測試系統(tǒng)中的應用

        漢語采用分層識別策略:假設漢語句子長度為L,對應的漢字串為 W=(W1,W2,..,WL),對應的又掉拼音串為 A=(A1,A2,..,AL),聲學觀測為 O=(O1,O2,..,OL)。 其中的 Wi,Ai,Oi(i=1,2,…,L)對應 S 中的第 i個字,分別在漢字集、有調(diào)拼音集和聲學觀測集上取值。設P(W|O)為聲學觀測為O時所說漢字串為W的概率,則語音識別的目標是在得到聲學觀測O的情況下找到W?,見式(8):

        其中,P(W,A)為漢語語言模型,P(O|A)為漢語聲學模型。

        漢語普通話測評系統(tǒng)框架如圖1所示,該系統(tǒng)包括有檢測口語發(fā)音部分,所述的檢測口語發(fā)音部分包括以下步驟:標準發(fā)音人語料庫的建立;口語評測語料庫的收集;口語評測語料庫的標注;標準語音聲學模型的建立;計算語音的檢錯參數(shù);建立檢錯參數(shù)向?qū)<宜鶚俗l(fā)音錯誤的檢錯映射模型。

        圖1 普通話測評系統(tǒng)框圖

        本系統(tǒng)擬定采用Visual Studio 2008開發(fā)工具下的C++語言搭建系統(tǒng)平臺界面,輔以外加設備,如耳麥、錄音設備等。系統(tǒng)主界面如圖2所示。

        圖2 普通話測評系統(tǒng)主題界面

        進入測評登記之后,首先錄入語音進行聲紋身份認證并顯示核對信息,聲紋身份認證通過與原始錄入數(shù)據(jù)進行比較而獲得。在語音測評階段,主要工作是進行語音錄入,并與系統(tǒng)原存儲的標準語音進行對比辨識語音進行測評,如圖3。該階段包括四個裝置:語音辨識裝置、存儲裝置、預處理器和語音決策裝置,通過模型比較,然后產(chǎn)生并輸出一個表明與輸入信號最佳匹配的一個附加模型的信號。

        圖3 語音測評

        4 結(jié)論

        根據(jù)語音識別技術(shù)開發(fā)的口語語音學習和測評系統(tǒng),可以對測試者的水平進行有效測評,對每句話、每個詞和甚至每個因素給出得分,提出改進建議。未來可以發(fā)展語音情感識別系統(tǒng),識別說話人的情感。

        [1]王炳錫,屈丹,彭煊.實用語音識別基礎[M].2版.北京:國防工業(yè)出版社,2005:26-29.

        [2]林坤輝,息曉靜,周昌樂.基于HMM與神經(jīng)網(wǎng)絡的聲學模型研究[J].廈門大學學報,2006,45(1):45-47.

        [3]馬亮,等.基于 DSP 的 JPEG 視頻壓縮系統(tǒng)的實現(xiàn)[J].電子設計工程,17(9).

        [4]趙雷.建立任務型對外漢語口語教學系統(tǒng)的思考[J].語言教學與研究,2008(3):64-66.

        [5]宋芳芳,宋曉麗,馬青玉.基于語音識別技術(shù)的英語口語自學系統(tǒng)評分機制的研究[D].南京師范大學教育科學學院,20095(7):1726-1728.

        [6]FERRASM,BARRAS C,GAUVAIN J.L.Lattice.based MLLR for speaker recognit ion [C]//ICASSP 2009:Proceedings of the 2009 IEEE International Conference on A coustics,Speech and Signal Processing.Washington,DC:IEEE Computer Society,2009:4537-4540.

        猜你喜歡
        見式聲學發(fā)音
        高速公路下穿既有鐵路橋橋墩基底承載力驗算*
        公路與汽運(2024年1期)2024-03-07 03:02:06
        Hickory, Dickory, Dock
        低溫下船用鋼材彈塑性曲線研究
        河南科技(2023年1期)2023-02-11 12:17:04
        Effects of Landau damping and collision on stimulated Raman scattering with various phase-space distributions
        愛的就是這股Hi-Fi味 Davis Acoustics(戴維斯聲學)Balthus 70
        橋(門)式起重機起升機構(gòu)高速浮動軸設計
        Acoustical Treatment Primer:Diffusion談談聲學處理中的“擴散”
        Acoustical Treatment Primer:Absorption談談聲學處理中的“吸聲”(二)
        Acoustical Treatment Primer:Absorption 談談聲學處理中的“吸聲”
        Playing with h
        俺来也三区四区高清视频在线观看| 久久乐国产精品亚洲综合| 日本免费不卡一区| 黑丝美女被内射在线观看| 夜夜高潮夜夜爽免费观看| 好紧好爽免费午夜视频| 亚洲中文字幕无码久久2020| 久久亚洲av成人无码软件| 一区二区激情偷拍老牛视频av| 公和我做好爽添厨房| 久久99精品国产麻豆| 亚洲ⅤA中文字幕无码| 日韩产的人妻av在线网| 内射白浆一区二区在线观看| 夜夜躁狠狠躁2021| 女女同性黄网在线观看| 女同欲望一区二区三区| 无遮挡1000部拍拍拍免费| 国产精品白丝喷水在线观看| 国产精品国产三级国产专播| 亚洲精品一区二区三区四区| 乱老年女人伦免费视频| 国产精品99久久久久久宅男| 无码av永久免费大全| 亚洲av日韩专区在线观看| 无码人妻一区二区三区兔费| 亚洲国产精品久久久久久久| 蜜桃av噜噜一区二区三区香| 国产区女主播一区在线| 国产成熟人妻换╳╳╳╳| 国产亚洲精品A在线无码| 国产精品人成在线观看不卡| 18国产精品白浆在线观看免费| 精品国产18久久久久久| 无码制服丝袜中文字幕| 自由成熟女性性毛茸茸应用特色 | 国产裸拍裸体视频在线观看| 久久一区二区三区四区| 久久综合伊人有码一区中文字幕 | 中文字幕人妻互换av| 人妻少妇精品中文字幕av|