亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于DHMM的語(yǔ)音識(shí)別算法及DSP實(shí)現(xiàn)

        2015-06-13 12:00:24兵,尹
        無(wú)線電工程 2015年8期
        關(guān)鍵詞:碼本碼字矢量

        陳 兵,尹 曼

        (中國(guó)電子科技集團(tuán)公司第五十四研究所,河北石家莊050081)

        0 引言

        語(yǔ)音識(shí)別技術(shù)是信息技術(shù)領(lǐng)域的重要發(fā)展方向,非特定人孤立詞識(shí)別是其一個(gè)具有廣泛應(yīng)用背景的分支,在工業(yè)控制、智能對(duì)話查詢系統(tǒng)、語(yǔ)音撥號(hào)系統(tǒng)、智能家電、聲控點(diǎn)歌系統(tǒng)及聲控智能玩具等領(lǐng)域有著重要的應(yīng)用價(jià)值。目前語(yǔ)音識(shí)別算法主要分為針對(duì)特定人的語(yǔ)音識(shí)別算法,如動(dòng)態(tài)時(shí)間規(guī)劃(DTW)技術(shù)[1,2]和線性預(yù)測(cè)編碼(LPC)分析技術(shù)[3,4]等;針對(duì)非特定人的語(yǔ)音識(shí)別算法,如人工神經(jīng)網(wǎng)絡(luò)(ANN)[5]和隱形馬爾科夫模型(HMM)[6]等算法。但這些算法存在針對(duì)特定人或運(yùn)算復(fù)雜及不利于實(shí)時(shí)處理等問(wèn)題。

        針對(duì)以上問(wèn)題,提出了一種基于離散隱形馬爾科夫模型的快速語(yǔ)音識(shí)別算法,通過(guò)仿真驗(yàn)證了算法對(duì)非特定人的孤立詞語(yǔ)音識(shí)別具有高識(shí)別正確率,并通過(guò)算法的DSP實(shí)現(xiàn)說(shuō)明了識(shí)別算法具有良好的處理時(shí)效性。

        算法首先對(duì)語(yǔ)音信號(hào)進(jìn)行預(yù)處理和端點(diǎn)檢測(cè)以提取有用信號(hào),進(jìn)而完成語(yǔ)音特征參數(shù)提取和矢量量化,最后采用DHMM模型利用Viterbi搜索算法實(shí)現(xiàn)語(yǔ)音識(shí)別,在訓(xùn)練階段完成碼本設(shè)計(jì)和DHMM模型參數(shù)的生成。該算法抗噪性能好,識(shí)別率高,具用實(shí)時(shí)處理能力和廣泛應(yīng)用前景。

        1 語(yǔ)音識(shí)別算法

        語(yǔ)音識(shí)別算法典型的實(shí)現(xiàn)流程如圖1所示。輸入語(yǔ)音信號(hào)首先要進(jìn)行預(yù)處理和端點(diǎn)檢測(cè),包括預(yù)加重、分幀和截取有用語(yǔ)音信息等。有用信號(hào)經(jīng)過(guò)特征提取和矢量量化后,實(shí)現(xiàn)特征參數(shù)提取和對(duì)特征參數(shù)的矢量量化,將一個(gè)特征矢量變成標(biāo)量。矢量量化后的特征標(biāo)量送入語(yǔ)音識(shí)別模塊,運(yùn)用DHMM模型采用相應(yīng)識(shí)別算法完成語(yǔ)音識(shí)別,得到識(shí)別結(jié)果。在語(yǔ)音訓(xùn)練階段,需要采用相應(yīng)算法完成對(duì)用于量化的碼本和用于識(shí)別的DHMM模型參數(shù)進(jìn)行訓(xùn)練。

        圖1 語(yǔ)音識(shí)別算法流程

        2 算法原理

        2.1 預(yù)處理

        由于語(yǔ)音信號(hào)是一種典型的非平穩(wěn)信號(hào),但它具有短時(shí)平穩(wěn)性,一般認(rèn)為在10~30 ms短時(shí)間內(nèi)是平穩(wěn)的[7]。因此需要對(duì)語(yǔ)音信號(hào)進(jìn)行分幀處理,以利于采用平穩(wěn)信號(hào)的數(shù)字處理算法。為了消除直流成分和50 Hz的工頻干擾,彌補(bǔ)高頻部分語(yǔ)音信號(hào)在傳輸中的衰減,需要對(duì)信號(hào)進(jìn)行預(yù)加重濾波,預(yù)加重濾波器的傳輸函數(shù)為1-0.9735z-1。本文采樣頻率設(shè)計(jì)為8 kHz,每幀數(shù)據(jù)長(zhǎng)度為256點(diǎn),每幀數(shù)據(jù)步進(jìn)為80點(diǎn)。

        2.2 端點(diǎn)檢測(cè)

        語(yǔ)音端點(diǎn)檢測(cè)主要是提取能夠區(qū)分語(yǔ)音和噪聲的語(yǔ)音特征參數(shù),找出二者的分界點(diǎn),從而實(shí)現(xiàn)有用語(yǔ)音信息的檢測(cè)。語(yǔ)音信號(hào)最基本組成單位是音素,音素分為濁音和清音2類。在實(shí)際語(yǔ)音中,濁音幅度較大,可通過(guò)短時(shí)能量來(lái)檢測(cè),清音幅度很小,接近噪聲,但其過(guò)零率遠(yuǎn)大于噪聲[5],因此采用短時(shí)能量和短時(shí)過(guò)零率聯(lián)合檢測(cè)語(yǔ)音端點(diǎn)。短時(shí)能量En和短時(shí)過(guò)零率ZCR的表達(dá)式為:

        式中,xn(m)為預(yù)處理后的語(yǔ)音信號(hào)幀;N為每幀數(shù)據(jù)長(zhǎng)度;sign是符號(hào)函數(shù)。圖2是對(duì)“山東”2個(gè)字的端點(diǎn)檢測(cè)仿真圖。

        圖2 端點(diǎn)檢測(cè)仿真

        2.3 特征提取

        特征提取是通過(guò)運(yùn)算獲得最能反映語(yǔ)音本質(zhì)特征的參數(shù),它是整個(gè)語(yǔ)音識(shí)別的基礎(chǔ),直接影響到語(yǔ)音識(shí)別結(jié)果。目前,語(yǔ)音特征提取的方法很多[8-10],本算法采用 Mel頻標(biāo)倒譜系數(shù)(MFCC)分析方法,由于其模擬了人對(duì)音調(diào)感知度近似正比于該音調(diào)頻率對(duì)數(shù)的聽(tīng)覺(jué)特征,因此MFCC參數(shù)具有抗噪能力強(qiáng)和識(shí)別率高等特點(diǎn)。

        Mel頻率與線性頻率的轉(zhuǎn)換公式為:

        同時(shí),人們并不能有效分辨所有頻率分量,只有當(dāng)2個(gè)頻率分量相差一定帶寬時(shí),才能將其區(qū)分,這個(gè)帶寬稱為臨界帶寬[11]。

        根據(jù)以上分析,可構(gòu)造臨界頻帶濾波器組來(lái)模擬人耳的感知特性。這組濾波器的中心頻率在Mel頻率域內(nèi)呈線性分布,其帶寬在臨界帶寬之內(nèi)。在8 kHz采樣率下,每幀數(shù)據(jù)N為256時(shí)設(shè)計(jì)的臨界頻帶濾波器組Hm(n),臨界濾波器數(shù)目M為24,采用漢明窗,臨界頻帶濾波器幅頻響應(yīng)如圖3所示。

        圖3 臨界頻帶濾波器幅頻響應(yīng)

        MFCC的參數(shù)計(jì)算流程如下:

        ①對(duì)每幀數(shù)據(jù)加漢明窗,進(jìn)行離散FFT運(yùn)算,取模平方得到離散功率譜 ()S n;

        ②計(jì)算 ()S n與Hm(n)在各離散頻率點(diǎn)上乘積之和,得到M個(gè)參數(shù)Pm;

        ③計(jì)算Pm的自然對(duì)數(shù),得到Lm;

        ④ 對(duì)Lm計(jì)算其離散余弦變換(DCT),得到Dm,消除Lm之間的相關(guān)性,舍去直流分量的D0,選擇 D1,D2,…DK,K=12。

        ⑤對(duì)Dm加倒譜提升窗,即對(duì)K個(gè)系數(shù)分別乘以不同的系數(shù)wm,wm的表達(dá)式為:

        ⑥計(jì)算差分倒譜參數(shù),得到語(yǔ)音參數(shù)的動(dòng)態(tài)特征。差分參數(shù)計(jì)算公式為:

        式中,c(n)為一幀靜態(tài)參數(shù);d(n)為差分參數(shù);k為差分階數(shù)。本算法選取k為2,將MFCC參數(shù)和由式(5)得到的差分參數(shù)合并,形成一個(gè)24階矢量,作為一幀語(yǔ)音信號(hào)的參數(shù)。

        從上可知,通過(guò)特征提取將每一幀256點(diǎn)的數(shù)據(jù)壓縮為24點(diǎn)數(shù)據(jù),有效減少了后續(xù)運(yùn)算量。

        2.4 矢量量化

        矢量量化(Vector Quantization)是將數(shù)值連續(xù)的矢量信號(hào)用離散數(shù)字值(稱為標(biāo)號(hào))來(lái)表示的過(guò)程。它是采用離散隱形馬爾科夫模型進(jìn)行語(yǔ)音識(shí)別前所必需的步驟,也有利于減少運(yùn)算負(fù)荷,提高算法處理的實(shí)時(shí)性。矢量量化的關(guān)鍵技術(shù)包括碼本設(shè)計(jì)和搜索策略兩方面。

        碼本是指矢量量化編碼器擁有的具有代表意義的矢量集合,碼本中矢量稱為碼字,矢量量化的過(guò)程就是將輸入矢量與碼本對(duì)照,尋找與輸入矢量最接近的碼字,用碼字的標(biāo)號(hào)代替輸入矢量,因此碼本設(shè)計(jì)的好壞直接關(guān)系到量化的質(zhì)量。

        LBG算法是碼本生成時(shí)最常采用的方法。LBG算法需要預(yù)先設(shè)置畸變改進(jìn)閾值δ和最大迭代次數(shù)L,δ<<1,以保證最后碼本收斂;閾值L保證算法在有限次數(shù)內(nèi)結(jié)束,防止發(fā)生振蕩而不能收斂的情況。同時(shí)算法中的初始碼字的選擇需要考慮,一般可采用分裂法。

        碼本容量是碼本設(shè)計(jì)中另一個(gè)值得注意的問(wèn)題。碼本容量過(guò)小,無(wú)法描述整個(gè)矢量空間;碼本容量太大,則存儲(chǔ)量和搜索所需計(jì)算量過(guò)大。實(shí)驗(yàn)結(jié)果表明,碼本容量>64時(shí),碼本容量對(duì)識(shí)別正確率的提高就不明顯了,因此,本文碼本容量為128。

        碼本搜索是指如何搜索出與輸入矢量最接近的碼字的過(guò)程??紤]到碼本的容量和DSP的運(yùn)算處理優(yōu)勢(shì),本文采用全搜索算法,比較所有碼字和輸入矢量的歐式距離,找出距離最小的碼字。

        因此,通過(guò)矢量量化以后,語(yǔ)音數(shù)據(jù)被進(jìn)一步壓縮,有原來(lái)每一幀24點(diǎn)數(shù)據(jù)壓縮為1個(gè)數(shù)據(jù)(即碼字的標(biāo)號(hào)),使后面的運(yùn)算由矢量運(yùn)算變?yōu)闃?biāo)量運(yùn)算。

        2.5 訓(xùn)練與識(shí)別

        2.5.1 HMM 模型

        馬爾可夫鏈?zhǔn)侵冈跁r(shí)刻t只能處于有限狀態(tài)θl(l=1,2,…,N)中的一個(gè),用 qt表示,且狀態(tài) qt為 θl中的哪一個(gè)的概率只取決于前一時(shí)刻所處的狀態(tài)qt-1。因此馬爾可夫鏈在任意時(shí)刻為何狀態(tài)的概率完全取決于初始狀態(tài)概率矢量π和狀態(tài)轉(zhuǎn)移概率矩陣A。

        若系統(tǒng)在任何時(shí)刻t所處的狀態(tài)qt隱藏在系統(tǒng)內(nèi)部,外界只能得到此時(shí)系統(tǒng)提供的一個(gè)隨機(jī)矢量ot,ot稱為觀測(cè)矢量。ot取何值的概率與時(shí)間t無(wú)關(guān),只和系統(tǒng)的狀態(tài)有關(guān),可用輸出概率矩陣B來(lái)表示,則此系統(tǒng)被稱為隱含馬爾可夫(HMM)模型。從定義可知,HMM模型可以由3項(xiàng)特征參數(shù)π,A,B來(lái)表示。

        HMM模型可以分為離散HMM(DHMM)和連續(xù)HMM模型(CDHMM)。當(dāng)訓(xùn)練數(shù)據(jù)充分且訓(xùn)練足夠時(shí),CDHMM的效果優(yōu)于DHMM,但很多情況下,充分訓(xùn)練是比較難達(dá)到??紤]到運(yùn)算量、存儲(chǔ)量和實(shí)時(shí)性等要求,本文選擇DHMM作為語(yǔ)音識(shí)別的模型。

        HMM模型是一個(gè)雙層隨機(jī)模型,內(nèi)部不可見(jiàn)的馬爾可夫狀態(tài)鏈用以表示語(yǔ)音中相對(duì)穩(wěn)定的短時(shí)特性,外部可見(jiàn)的觀測(cè)序列表示語(yǔ)音中可觀測(cè)的各種特征矢量,兩者用概率聯(lián)系。這樣就將語(yǔ)音信號(hào)多變的外部特征和內(nèi)在的本質(zhì)特征有機(jī)的聯(lián)系起來(lái)。

        2.5.2 HMM 模型訓(xùn)練

        語(yǔ)音信號(hào)通過(guò)預(yù)處理、端點(diǎn)檢測(cè)、特征提取和矢量量化后,生成一組碼本標(biāo)號(hào)序列。HMM模型訓(xùn)練過(guò)程就是根據(jù)這些標(biāo)號(hào)序列來(lái)確定HMM的3項(xiàng)特征參數(shù),而使系統(tǒng)生成此標(biāo)號(hào)序列的概率最大。本文采用一種基于隨機(jī)松弛算法[12](Stochastic Relaxation,SR算法)的DHMM參數(shù)全局優(yōu)化算法。該算法以相對(duì)較少的計(jì)算開(kāi)銷,避免了經(jīng)典的Baum-Welch算法易陷入局部最優(yōu)解的問(wèn)題,可提高識(shí)別系統(tǒng)的性能。SR算法進(jìn)行DHMM模型訓(xùn)練過(guò)程如圖4所示。

        圖4 SR算法DHMM模型訓(xùn)練過(guò)程

        圖4中初始溫度設(shè)置T0=4/128(碼本容量為128),降溫速度K一般取0.97~0.99。DHMM初始模型參數(shù)有初始概率矩陣 π =[1,0,0,0,0];輸出概率矩陣B均勻設(shè)置,bjk=1/128;轉(zhuǎn)移概率矩陣A為:

        還需設(shè)置最大迭代次數(shù)I及變量ξ作為是否完成收斂的判決條件,ξ的表達(dá)式為:

        式中,Pm(O|λ)為第m次時(shí)在模型參數(shù)λ=(π,A,B)下輸出變量為O的概率。本文ξ取為0.01;迭代次數(shù)I取為200。

        2.5.3 語(yǔ)音識(shí)別

        通過(guò)語(yǔ)音訓(xùn)練,為每個(gè)孤立詞建立DHMM模型。在本文中,語(yǔ)音識(shí)別過(guò)程是將輸入的語(yǔ)音信號(hào)與每個(gè)DHMM模型進(jìn)行Viterbi運(yùn)算,得到每個(gè)的輸出概率,并通過(guò)比較找到最大概率對(duì)應(yīng)的模型,進(jìn)而得到識(shí)別結(jié)果,語(yǔ)音識(shí)別流程如圖5所示。

        圖5 Viterbi算法語(yǔ)音識(shí)別過(guò)程

        3 仿真分析

        3.1 語(yǔ)音識(shí)別性能仿真

        仿真條件如下:采樣頻率fs=8 kHz,量化位數(shù)為16位,采用PCM編碼,存儲(chǔ)格式為wav格式。測(cè)試3個(gè)詞:“廣東”、“山東”、“貴州”。一共10個(gè)人參與錄音,其中男生7人和女生3人,每個(gè)人每個(gè)詞讀8遍。

        所有人每個(gè)詞的前6遍參與了碼本訓(xùn)練。有5個(gè)男生和2個(gè)女生的每個(gè)詞的前6遍參與DHMM模型的訓(xùn)練。所有樣本均參與識(shí)別仿真。語(yǔ)音識(shí)別的統(tǒng)計(jì)結(jié)果如表1所示。

        表1 識(shí)別結(jié)果統(tǒng)計(jì)

        由表1可知,本文算法可以完成非特定人孤立詞的識(shí)別,識(shí)別正確達(dá)到97.5%,由此可見(jiàn),算法能夠滿足大部分語(yǔ)音識(shí)別應(yīng)用的要求。

        3.2 DSP 實(shí)現(xiàn)仿真

        測(cè)試條件設(shè)置同語(yǔ)音識(shí)別性能仿真,算法在ADI公司Blackfin系列BF533芯片上進(jìn)行DSP實(shí)現(xiàn),采用Visual DSP++4.5開(kāi)發(fā)軟件進(jìn)行算法編程和功能仿真。DSP芯片主頻為600 MHz。語(yǔ)音識(shí)別算法占用時(shí)間(不含語(yǔ)音數(shù)據(jù)采集和碼本訓(xùn)練及DHMM模型訓(xùn)練占用時(shí)間)如表2所示。

        表2 識(shí)別算法占用時(shí)間

        從表2可知,本文語(yǔ)音識(shí)別算法占用時(shí)鐘周期最大為5 992 109個(gè),占用時(shí)間為9.986 848 ms,運(yùn)行時(shí)間優(yōu)于10 ms,識(shí)別算法具有實(shí)時(shí)處理能力,滿足實(shí)際工程應(yīng)用。

        4 結(jié)束語(yǔ)

        提出了一種基于離散隱形馬爾科夫模型的快速語(yǔ)音識(shí)別算法,詳細(xì)闡述了對(duì)非特定人孤立詞語(yǔ)音識(shí)別的算法原理和實(shí)現(xiàn)流程,進(jìn)行了識(shí)別算法的有效性仿真,并采用DSP芯片完成識(shí)別算法硬件實(shí)現(xiàn),驗(yàn)證了識(shí)別算法的處理實(shí)效性能。理論分析和仿真試驗(yàn)表明,本文算法具有抗噪性能好,識(shí)別率高和實(shí)時(shí)處理能力,在智能家電、智能汽車和人機(jī)交互等領(lǐng)域有廣泛應(yīng)用前景。

        [1]TTAKURA F.Minimum Prediction Residual Principle Applied to Speech Recognition[J].IEEE Trans.ASSP,1975,23(1):67 -72.

        [2]劉 靜,王 儒,曲金玉,等.基于DTW改進(jìn)算法的孤立詞語(yǔ)音識(shí)別仿真[J].山東理工大學(xué)學(xué)報(bào)(自然科學(xué)版),2013,27(1):63 -66.

        [3]MAKHOUL J.Linear Prediction:a Tutorial Review[J].Proceedings of the IEEE,1975(63):561 -581.

        [4]張玲華,鄭寶玉,楊 震.基于LPC分析的語(yǔ)音特征參數(shù)研究及其在說(shuō)話人識(shí)別中的應(yīng)用[J].南京郵電學(xué)院學(xué)報(bào),2005,27(6):1 -6.

        [5]王建雄,劉應(yīng)龍.基于人工神經(jīng)網(wǎng)絡(luò)的數(shù)字識(shí)別系統(tǒng)的研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2006,16(15):26-30.

        [6]WILPON J G,LEE C H,RABINER L R.Application of Hidden Markov Models for Recognition of a Limited Set of Words in Unconstrained Speech[C]∥ ICASSP,1989:24-30.

        [7]韓紀(jì)慶,張 磊,鄭鐵然.語(yǔ)音信號(hào)處理[M].北京:清華大學(xué)出版社,2004.

        [8]DAVIS S B,MERMELSTEIN P.Comparison of Parametric Representations for Monosyllabic Word Recognition in Continuously Spoken Sentences[J].IEEE Trans.On Acoustics,Speech,and SignalProcessing,1980,28(4):357-366.

        [9]HUNT M J,LEFEBVRE C.A Comparison of Several Acoustic Representations for Speech Recognition with Degraded and Undegraded Speech[C]∥Proceedings of ICASSP,1989:262 -265.

        [10]FAVERO R F,KING R W.Wavelet Parameterization for Speech Recognition:Variations in Translation and Scale Parameters[C]∥ Proc.International Symposium on Speech.Image Processing and Neural Networks,Hong Kong,1994:694 -697.

        [11]楊行峻,遲惠生.語(yǔ)音信號(hào)數(shù)字處理[M].北京:電子出版社,1995.

        [12]方紹武,戴蓓倩,李宵寒.一種離散隱Markov模型參數(shù)的全局優(yōu)化算法[J].電路與系統(tǒng)學(xué)報(bào),2000,5(3):78-81.

        猜你喜歡
        碼本碼字矢量
        Galois 環(huán)上漸近最優(yōu)碼本的構(gòu)造
        免調(diào)度NOMA系統(tǒng)中擴(kuò)頻碼優(yōu)化設(shè)計(jì)
        矢量三角形法的應(yīng)用
        基于有限域上仿射空間構(gòu)造新碼本
        放 下
        幾類近似達(dá)到Welch界碼本的構(gòu)造
        數(shù)據(jù)鏈系統(tǒng)中軟擴(kuò)頻碼的優(yōu)選及應(yīng)用
        放下
        基于矢量最優(yōu)估計(jì)的穩(wěn)健測(cè)向方法
        三角形法則在動(dòng)態(tài)平衡問(wèn)題中的應(yīng)用
        中国国产不卡视频在线观看| 丰满人妻久久中文字幕| 户外精品一区二区三区| 日本不卡高字幕在线2019| 青青草小视频在线播放| 一区二区二区三区亚洲 | 乱中年女人伦av三区| 少妇高潮惨叫喷水在线观看| 狼友AV在线| 精品的一区二区三区| 亚洲精品日本久久久中文字幕| 国产伦一区二区三区久久| 丁香婷婷六月综合缴清| 日韩亚洲精品国产第二页| 岳丰满多毛的大隂户| 久久久久久久波多野结衣高潮| 欧美aaaaaa级午夜福利视频| 大地资源中文在线观看官网第二页 | 精品香蕉一区二区三区| 插我一区二区在线观看| 一二三四在线观看免费视频| 九九视频在线观看视频6| 国产精品美女AV免费观看| 久久久精品国产视频在线| 日韩精品一区二区在线视| 一区二区三区成人av| 中文字幕女同人妖熟女| 色欲一区二区三区精品a片| 亚洲色大成网站www永久网站| 成人三级a视频在线观看| 丰满多毛少妇做爰视频| 欧美中出在线| 美腿丝袜一区在线观看| 在线观看一区二区三区在线观看 | 亚洲av免费高清不卡| 99久久婷婷国产精品综合网站| 男人天堂亚洲一区二区| 综合色免费在线精品视频| 国产精品久久久久9999无码| 国产精品久久久久久亚洲av| 四虎影视在线观看2413|