亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于HMM和ANN漢語普通話口語測評系統(tǒng)的實現(xiàn)

        2013-08-22 06:29:06任海軍王文青
        科技視界 2013年20期
        關(guān)鍵詞:見式聲學(xué)發(fā)音

        馬 亮 程 陳 任海軍 王文青 周 輝

        (中國地震局 第二監(jiān)測中心,陜西 西安 710054)

        0 引言

        語言是人與人之間信息交流意思表達最直接、最自然的手段,它由語音、詞匯、語法三部分組成。而口語是口頭交際時使用的語言,是最早被人類普遍應(yīng)用的語言形式。人們訓(xùn)練口語技能主要從語言表達的準(zhǔn)確性、流利度、是否得體、多樣性等為基準(zhǔn)。

        語音聲紋識別技術(shù)是人機交互中的關(guān)鍵技術(shù)。語音聲紋識別技術(shù)就是讓機器通過構(gòu)建識別和理解過程把語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的高技術(shù)。語音聲紋識別技術(shù)除了特征提取技術(shù)、模式匹配準(zhǔn)則及模型訓(xùn)練技術(shù)之外,還涉及到有語音識別單元的選取,選擇識別單元是語音識別研究的第一步。語音識別單元有單詞(句)、音節(jié)和音素三種,而漢語則以音節(jié)單元識別為主[1]。

        1 口語測評機制的建立

        口語測試的評分一般分為兩種:一種是自動評分,一種為專家評分。在自動評分中可以盡可能脫離人的主觀因素對口語測試者的發(fā)音客觀評分,最大程度呈現(xiàn)測試者的真實水平,在實際中得到了廣泛運用。針對這一研究,我們主要用到的技術(shù)是運用語音識別和統(tǒng)計模型的相關(guān)理論,通過提取被測者語音信號的特征參數(shù),計算機對其經(jīng)過一系列數(shù)字信號處理,從而在統(tǒng)計模型中對它進行分析測評。特征參數(shù)提取采用的是Mel頻率倒譜參數(shù)(MFCC)。本文中以非線性的特征參數(shù)MFCC為主,結(jié)合LSP,提出了一種語音特征參數(shù)的混合使用方法 (M/L),使發(fā)音質(zhì)量判決系統(tǒng)的正確率有所改進。計算公式見式(1):

        X=(x1,x2,...,xk)為參考模型的特征矢量,K 代表參數(shù)的維數(shù),Y=(y1,y2,...,yk)表示維數(shù)為 K 的被測模型特征矢量。

        口語測評機制的建立是從聲學(xué)特征、韻律特征和感知特征三方面綜合考慮。本文所采用的是基于HMM和神經(jīng)網(wǎng)絡(luò)技術(shù)的評分機制,對標(biāo)準(zhǔn)語音的特征通過HMM技術(shù)進行訓(xùn)練建立相應(yīng)模型,然后與學(xué)習(xí)者語音的特征進行強制對齊得到三類得分,即聲學(xué)分?jǐn)?shù)、韻律分?jǐn)?shù)和感知分?jǐn)?shù),最后將這三類分?jǐn)?shù)通過評分機制得到最后評分,而這個評分機制是由神經(jīng)網(wǎng)絡(luò)對非標(biāo)準(zhǔn)語音的人工評分和機器評分訓(xùn)練得到。

        聲學(xué)分?jǐn)?shù)主要是指語音內(nèi)容匹配的準(zhǔn)確度,它是對語音段進行評價,提取語音的12維MFCC特征和能量特征,并分別對這兩個特征做一階差分和二階差分,綜合得到一個39維的特征向量,然后對這個特征向量進行訓(xùn)練建立聲學(xué)模型。韻律分?jǐn)?shù)由韻律特征提取而定,我們可以提取語音的基音,研究基音隨時間的變化規(guī)律,如取基音均值可以作為一個韻律參數(shù),通過HMM技術(shù)建立韻律模型,通過比較標(biāo)準(zhǔn)語音和測試語音得到韻律分?jǐn)?shù)。感知分?jǐn)?shù)通過計算動態(tài)規(guī)整比較標(biāo)準(zhǔn)語音和測試語音的響度差異,由Zwicker公式得出響度,見式(2):

        在Bark頻標(biāo)上計算每個臨界界帶的響度,頻率和臨界帶之間有擬合公式,見式(3):

        2 聲紋識別系統(tǒng)模型的建立

        2.1 聲學(xué)模型

        聲學(xué)模型主要用來描述發(fā)音單元(如音子、音節(jié)和詞)在特征空間中的分布狀況以及這種分布隨時間的變化規(guī)律。聲學(xué)模型是識別系統(tǒng)的底層模型,并且是語音識別系統(tǒng)中最關(guān)鍵的一部分,其目的是提供一種有效的方法計算語音的特征矢量序列和每個發(fā)音模板之間的距離。聲學(xué)模型的設(shè)計和語言發(fā)音特點密切相關(guān)。聲學(xué)模型單元大?。ㄗ职l(fā)音模型、半音節(jié)模型或音素模型)直接影響著語音訓(xùn)練數(shù)據(jù)量大小、系統(tǒng)識別率以及靈活性。所以必須根據(jù)不同語言的特點、識別系統(tǒng)詞匯量的大小來決定識別單元的大小。

        聲學(xué)模型的主要功能是對識別基元進行模式劃分。進行模式劃分的方法很多種,但目前語音識別系統(tǒng)中主流的聲學(xué)建模技術(shù)兩類:一類是基于隱式馬爾可夫模型的概率統(tǒng)計模型的方法;一類是基于人工神經(jīng)網(wǎng)絡(luò)的方法[2]。

        2.2 結(jié)合HMM與ANN的聲學(xué)模式研究

        神經(jīng)網(wǎng)絡(luò)能依靠權(quán)值進行長時間記憶和知識存儲,但是對輸入模式的瞬時相應(yīng)的記憶能力比較差;而隱馬爾科夫模型的短時記憶的能力比較強,但是假定的前提又與實際情況不符。因此,擬定采用HMM和ANN相結(jié)合的混合模型[3]。

        在混合HMM/ANN模型方法中,采用分類網(wǎng)絡(luò)來估計HMM狀態(tài)的后驗概率。傳統(tǒng)的HMM/ANN模型是用神經(jīng)分類網(wǎng)絡(luò)代替了高斯概率密度分布混合器。因此可以用語法上下文相關(guān)的輸入模式作為神經(jīng)網(wǎng)絡(luò)的輸入,這樣就考慮了語音矢量間的時間相關(guān)性。神經(jīng)網(wǎng)絡(luò)輸出的后驗概率密度見式(4):

        而HMM狀態(tài)需要的是似然概率密度p(x,lq,),應(yīng)用貝葉斯公式,我們就可以從后驗概率密度,導(dǎo)出尺度化的后驗概率密度,見式(5):

        在進行識別時,因為p(x,)對所有的路徑來說是一樣的,所以尺度化的似然函數(shù)并不會改變識別的結(jié)果。因為分類網(wǎng)絡(luò)極大地體現(xiàn)了混合模型的精髓,所以我們采用它來建立語音識別系統(tǒng)。在用混合HMM/ANN模型進行語音識別時,ANN計算的是HMM狀態(tài)的尺度化觀察概率。整個識別過程分兩步進行:(1)計算t時刻所有HMM狀態(tài)的尺度化觀察概率;(2)計算t時刻激活路徑的路徑積累概率,并根據(jù)路徑積累概率進行剪枝[4-5],確定t+l時刻的激活路徑。

        對上述概率統(tǒng)計結(jié)果進行了進一步分析后,基于一種新的隱節(jié)點數(shù)目確定方法實現(xiàn)了這種混合模型優(yōu)化。

        (1)用迭代自組織數(shù)據(jù)分析方法得到訓(xùn)練數(shù)據(jù)的聚類中心數(shù)目,再為屬于不同類的一對聚類中心分配一個隱節(jié)點。這樣,隱節(jié)點就是對輸入模式形成高維空間,在這個空間中輸入節(jié)點更容易形成決策曲面。通過這樣就估計了一個對于訓(xùn)練和訓(xùn)練后的剪枝都合適的隱節(jié)點的數(shù)目N。

        (2)訓(xùn)練具有N個隱節(jié)點的BP網(wǎng)絡(luò)。

        (3)通過迭代去除網(wǎng)絡(luò)中的冗余隱節(jié)點,然后在保持原有輸入輸出關(guān)系的前提下,調(diào)整剩下隱節(jié)點的權(quán)值,最后得到一個最優(yōu)的網(wǎng)絡(luò)隱節(jié)點個數(shù)。即對于訓(xùn)練集中所有的模式見式(6):

        2.3 語言模型

        語言模型特別適用于中、大詞匯量的語音識別系統(tǒng)。目前比較成功的語言模型通常是基于統(tǒng)計語法的語言模型與基于規(guī)則語法結(jié)構(gòu)命令語言模型。統(tǒng)計語言模型是用概率統(tǒng)計的方法來揭示語言單位內(nèi)在的統(tǒng)計規(guī)律,其中N-Gram簡單有效,被廣泛使用。N-Gram模型被稱為一階馬爾科夫鏈,該模型基于這樣一種假設(shè),第n個詞的出現(xiàn)只與前面N-1個詞相關(guān),而與其它任何詞都不相關(guān),整句的概率就是各個詞出現(xiàn)概率的乘積。這些概率可以通過直接從語料中統(tǒng)計N個詞同時出現(xiàn)的次數(shù)得到。常用的是二元的Bi-Gram和三元的Tri-Gram。

        當(dāng)兩個歷史的最近的N-1個詞(或字)相同時,映射兩個歷史到同一個等價類,在此情況下的模型稱之為N-Gram模型。N的值不能太大,否則計算量太大。根據(jù)最大似然估計,給出語言模型的參數(shù),見式(7):

        其中,C(w1w2…wi)表示w1w2…wi在訓(xùn)練數(shù)據(jù)中出現(xiàn)的次數(shù)。

        3 口語測評在漢語普通話測試系統(tǒng)中的應(yīng)用

        漢語采用分層識別策略:假設(shè)漢語句子長度為L,對應(yīng)的漢字串為 W=(W1,W2,..,WL),對應(yīng)的又掉拼音串為 A=(A1,A2,..,AL),聲學(xué)觀測為 O=(O1,O2,..,OL)。 其中的 Wi,Ai,Oi(i=1,2,…,L)對應(yīng) S 中的第 i個字,分別在漢字集、有調(diào)拼音集和聲學(xué)觀測集上取值。設(shè)P(W|O)為聲學(xué)觀測為O時所說漢字串為W的概率,則語音識別的目標(biāo)是在得到聲學(xué)觀測O的情況下找到W?,見式(8):

        其中,P(W,A)為漢語語言模型,P(O|A)為漢語聲學(xué)模型。

        漢語普通話測評系統(tǒng)框架如圖1所示,該系統(tǒng)包括有檢測口語發(fā)音部分,所述的檢測口語發(fā)音部分包括以下步驟:標(biāo)準(zhǔn)發(fā)音人語料庫的建立;口語評測語料庫的收集;口語評測語料庫的標(biāo)注;標(biāo)準(zhǔn)語音聲學(xué)模型的建立;計算語音的檢錯參數(shù);建立檢錯參數(shù)向?qū)<宜鶚?biāo)注發(fā)音錯誤的檢錯映射模型。

        圖1 普通話測評系統(tǒng)框圖

        本系統(tǒng)擬定采用Visual Studio 2008開發(fā)工具下的C++語言搭建系統(tǒng)平臺界面,輔以外加設(shè)備,如耳麥、錄音設(shè)備等。系統(tǒng)主界面如圖2所示。

        圖2 普通話測評系統(tǒng)主題界面

        進入測評登記之后,首先錄入語音進行聲紋身份認(rèn)證并顯示核對信息,聲紋身份認(rèn)證通過與原始錄入數(shù)據(jù)進行比較而獲得。在語音測評階段,主要工作是進行語音錄入,并與系統(tǒng)原存儲的標(biāo)準(zhǔn)語音進行對比辨識語音進行測評,如圖3。該階段包括四個裝置:語音辨識裝置、存儲裝置、預(yù)處理器和語音決策裝置,通過模型比較,然后產(chǎn)生并輸出一個表明與輸入信號最佳匹配的一個附加模型的信號。

        圖3 語音測評

        4 結(jié)論

        根據(jù)語音識別技術(shù)開發(fā)的口語語音學(xué)習(xí)和測評系統(tǒng),可以對測試者的水平進行有效測評,對每句話、每個詞和甚至每個因素給出得分,提出改進建議。未來可以發(fā)展語音情感識別系統(tǒng),識別說話人的情感。

        [1]王炳錫,屈丹,彭煊.實用語音識別基礎(chǔ)[M].2版.北京:國防工業(yè)出版社,2005:26-29.

        [2]林坤輝,息曉靜,周昌樂.基于HMM與神經(jīng)網(wǎng)絡(luò)的聲學(xué)模型研究[J].廈門大學(xué)學(xué)報,2006,45(1):45-47.

        [3]馬亮,等.基于 DSP 的 JPEG 視頻壓縮系統(tǒng)的實現(xiàn)[J].電子設(shè)計工程,17(9).

        [4]趙雷.建立任務(wù)型對外漢語口語教學(xué)系統(tǒng)的思考[J].語言教學(xué)與研究,2008(3):64-66.

        [5]宋芳芳,宋曉麗,馬青玉.基于語音識別技術(shù)的英語口語自學(xué)系統(tǒng)評分機制的研究[D].南京師范大學(xué)教育科學(xué)學(xué)院,20095(7):1726-1728.

        [6]FERRASM,BARRAS C,GAUVAIN J.L.Lattice.based MLLR for speaker recognit ion [C]//ICASSP 2009:Proceedings of the 2009 IEEE International Conference on A coustics,Speech and Signal Processing.Washington,DC:IEEE Computer Society,2009:4537-4540.

        猜你喜歡
        見式聲學(xué)發(fā)音
        高速公路下穿既有鐵路橋橋墩基底承載力驗算*
        公路與汽運(2024年1期)2024-03-07 03:02:06
        Hickory, Dickory, Dock
        低溫下船用鋼材彈塑性曲線研究
        河南科技(2023年1期)2023-02-11 12:17:04
        Effects of Landau damping and collision on stimulated Raman scattering with various phase-space distributions
        愛的就是這股Hi-Fi味 Davis Acoustics(戴維斯聲學(xué))Balthus 70
        橋(門)式起重機起升機構(gòu)高速浮動軸設(shè)計
        Acoustical Treatment Primer:Diffusion談?wù)劼晫W(xué)處理中的“擴散”
        Acoustical Treatment Primer:Absorption談?wù)劼晫W(xué)處理中的“吸聲”(二)
        Acoustical Treatment Primer:Absorption 談?wù)劼晫W(xué)處理中的“吸聲”
        Playing with h
        最近中文字幕完整版免费| 婷婷色国产精品视频一区| 99久久国语露脸国产精品| 精品国产中文久久久免费| 无码乱肉视频免费大全合集| 国产乱xxⅹxx国语对白| 国产高潮精品久久AV无码| 男女男生精精品视频网站 | 亚洲人成绝费网站色www| 亚洲第一页视频在线观看 | 风流少妇一区二区三区91| 精品无码国产一区二区三区麻豆| 亚洲精品无码不卡在线播放he| 亚洲精品中国国产嫩草影院美女 | 午夜性刺激免费视频| 一区二区三区熟妇人妻18| 日本最新一区二区三区在线视频| 国产亚洲一本大道中文在线| 国产nv精品你懂得| 亚洲春色视频在线观看| 亚洲av午夜一区二区三| 亚洲日韩精品无码专区网站| 亚洲V在线激情| 国产少妇露脸精品自拍网站| 国产裸体美女永久免费无遮挡| 最近中文字幕在线mv视频在线| 国产AV高清精品久久| 亚洲精品98中文字幕| 国产成人精品午夜视频| 97色在线视频| 日本办公室三级在线看| 亚洲午夜精品一区二区| 亚洲av片不卡无码久久| 国产精品一区二区午夜久久| 熟女肥臀白浆一区二区| 久久精品国产网红主播| 日韩欧美第一区二区三区| 国产一区二区三区四区在线视频| 无码人妻一区二区三区免费视频 | 91日本精品国产免| 精品人妻久久av中文字幕|