亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        多模板優(yōu)化的語音識別算法

        2015-03-16 09:53:37潘智剛姚敏鋒張晶
        電腦知識與技術(shù) 2015年1期
        關(guān)鍵詞:語音識別

        潘智剛 姚敏鋒 張晶

        摘要:論文旨在研究基于MATLAB平臺的特定人孤立詞小詞匯量的語音識別系統(tǒng)的實現(xiàn)。文章分別對語音信號的預(yù)處理過程、語音信號的特征提取及語音信號的識別算法等方面進(jìn)行深入研究和分析在端點檢測過程中,使用短時能量和過零率雙門限進(jìn)行檢測,應(yīng)用識別率較高的MFCC作為特征參數(shù),針對傳統(tǒng)DTW算法在語音識別中測試語音與參考語音模板匹配所需時間較長的問題,提出搜索路徑改進(jìn)算法,使得算法的運算速度有所提升。為了提升DTW的識別率,提出改進(jìn)的模板匹配方法——多模板匹配方法。實驗結(jié)果證明,采用改進(jìn)算法的語音識別系統(tǒng)有效地降低了識別時間,提高了系統(tǒng)的識別率。

        關(guān)鍵詞:語音識別;動態(tài)時間規(guī)整;端點檢測;多模板優(yōu)化

        中圖分類號:TP18 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2015)01-0146-04

        Multiple Templates in Speech Recognition Algorithm

        PAN Zhi-gang, YAO Min-feng, ZHANG Jing

        (Cisco Information Institute , Guangdong University of Foreign Studies , Guangzhou 5100061,China)

        Abstract:The thesis aims at realizing a speech recognition system, which can recognize single word of a specific person based on MATLAB. The thesis will introduce the system from the following aspects: preprocessing stage, voice signal extraction and speech recognition algorithm. The system uses short-time energy and zero-crossing rate as two restraints, MFCC which has a higher recognition rate as the characteristic parameter, high-efficiency DTW algorithm and multiple models to recognize speech and gains a comparatively high recognition rate.

        Key words:speech recognition; DTW; endpoint detection; multi templates optimization

        隨著語音識別技術(shù)的進(jìn)步,其應(yīng)用越來越廣泛,尤其是孤立詞語音識別系統(tǒng)的應(yīng)用前景非常廣闊,如語音控制系統(tǒng),為人們在手動控制以外提供了一種更安全、更方便的控制方法,特別是當(dāng)系統(tǒng)工作在一些特定的環(huán)境或針對一些特殊用戶的時候;如語音輸入系統(tǒng),用口述代替鍵盤向計算機(jī)輸入文字,會給辦公自動化和出版界帶來革命性的變化;基于對話系統(tǒng)的數(shù)據(jù)庫查詢系統(tǒng),為用戶提供了更加友好便捷的數(shù)據(jù)庫檢索或查詢,可以廣泛運用在銀行、交易所、民航等機(jī)構(gòu);除此之外,語音識別還可以用于口語翻譯系統(tǒng)、計算機(jī)輔助教學(xué)、自動身份確認(rèn)等領(lǐng)域。因此,針對特定人的孤立詞語音識別系統(tǒng)具有廣泛的實際意義。

        從目前語音識別理論發(fā)展現(xiàn)狀來看,非特定人、大詞匯量、連續(xù)語音識別是語音識別領(lǐng)域的三大難點。相對而言,特定人小詞匯量孤立詞語音識別的理論和實踐都已較為成熟完善。因此研制一些有限詞匯(有限命令集)識別系統(tǒng)對于將語音識別技術(shù)擴(kuò)大應(yīng)用范圍、推向市場以服務(wù)于社會有著非常重大的意義。該文在研究實現(xiàn)了特定人孤立詞小詞匯量的語音識別,采用了一種多模板匹配的方法,主要是針對特定人發(fā)聲可能產(chǎn)生的微小差異所采取的一種增加識別正確率的方法。

        1 語音信號預(yù)處理

        1.1 語音預(yù)加重

        語音信號的平均功率譜由于受聲門激勵和口鼻輻射的影響,高頻端大約在800Hz以上按6dB/Oct(倍頻程)衰減,因此,在求語音信號譜時,頻率越高相應(yīng)的成分越小,高頻部分的頻率比低頻部分的難求。因此,預(yù)加重的目的是加強(qiáng)語音中的高頻共振峰,使語音信號的短時頻譜變得更為平坦,便于進(jìn)行頻譜分析和聲道參數(shù)分析。通常的方法是使用一階零點數(shù)字濾波器實現(xiàn)預(yù)加重,其形式為式(1)

        [H(z)=1-μz-1,0.90≤μ≤0.98] (1)

        其中,[μ]為預(yù)加重系數(shù),通常取0.9~0.98之間。本系統(tǒng)取[μ]值為0.9375。

        1.2 語音信號分幀、加窗

        在本設(shè)計系統(tǒng)中,取幀長為30ms(每幀包含240個采樣點),采樣頻率為8KHz。矩形窗,主瓣較窄,具有較高的頻率分辨率,但具有較高的旁瓣,相鄰諧波干擾比較嚴(yán)重,相鄰諧波間隔內(nèi)有時疊加有時抵消而產(chǎn)生嚴(yán)重泄露。與矩形窗相比,海明窗得到的頻譜卻要平滑得多,而且海明窗也是用最為普遍的。論文中選用海明窗對語音信號進(jìn)行加窗。在求MFCC系數(shù)時對語音添加了海明窗。

        1.3 語音信號的端點檢測

        本系統(tǒng)選取短時能量和短時過零率兩個值共同作用確定語音信號的起點和終點。在開始進(jìn)行端點檢測前,首先為短時能量和過零率分別確定兩個門限。一個是比較低的門限,其數(shù)值比較小,對信號的變化比較敏感,很容易就會被超過。另一個是比較高的門限,數(shù)值比較大,信號必須達(dá)到一定的強(qiáng)度,該門限才可能被超過。低門限被超過未必就是語音的開始,有可能是時間很短的噪聲引起的。高門限被超過則可以基本確信是由于語音信號引起的。整個語音信號的端點檢測可以分為四段:靜音、過渡段、語音段、結(jié)束。程序中使用一個變量status來表示當(dāng)前所處的狀態(tài)。在靜音段,如果能量或過零率超越了低門限,就應(yīng)該開始標(biāo)記起始點,進(jìn)入過渡段。在過渡段中,由于參數(shù)的數(shù)值比較小,不能確信是否處于真正的語音段,因此只要兩個參數(shù)的數(shù)值都回落到低門限以下,就將當(dāng)前狀態(tài)恢復(fù)到靜音狀態(tài)。而如果在過渡段中兩個參數(shù)中的任何一個超過了高門限,就可以確信進(jìn)入語音段了。一些突發(fā)性的噪聲也可以引起短時能量或過零率的數(shù)值很高,但是往往不能維持足夠長的時間,如門窗的開關(guān)、物體的碰撞等引起的噪聲,這些都可以通過設(shè)定最短時間門限來判別。當(dāng)前狀態(tài)處于語音段時,如果兩個參數(shù)的數(shù)值降低門限以下,而且總的計時長度小于最短時間門限,則認(rèn)為這事一段噪音,繼續(xù)掃描以后的語音數(shù)據(jù)。否則就標(biāo)記好結(jié)束端點,并返回。圖1為英語單詞“orange”進(jìn)行端點檢測的有關(guān)圖示。最上面的為原始語音幅度進(jìn)行規(guī)整后的圖形。中間的圖形為短時能量圖,最后一幅為過零率圖。由三幅圖可以清晰的得到端點檢測的結(jié)果。

        2 語音特征的提取

        特征提取的實質(zhì)是對經(jīng)過預(yù)處理的語音信號經(jīng)過某種變換,去掉冗余部分,把代表語音信號本質(zhì)的特征參數(shù)抽取剝離出來.語音特征參數(shù)是分幀提取的,每幀特征參數(shù)一般構(gòu)成一個矢量,形成一個矢量序列,再經(jīng)過數(shù)據(jù)壓縮后便成為語音的模板。特征參數(shù)提取主要包括三種方法:線形預(yù)測編碼系數(shù)(LPC),以及當(dāng)前流行的兩種特征參數(shù)提取方法:線性預(yù)測倒譜系數(shù)(LPCC)和美爾頻標(biāo)倒譜系數(shù)(MFCC)。后兩者都是將語音信號從時域轉(zhuǎn)換到倒譜域上加以利用。論文采用MFCC特征提取算法。

        3 動態(tài)時間規(guī)整算法(DTW)

        在孤立詞語音識別中,最為簡單有效的方法是采用DTW(Dynamic Time Warping,動態(tài)時間歸整)算法,該算法基于動態(tài)規(guī)劃(DP)的思想,解決了發(fā)音長短不一的模板匹配問題,是語音識別中出現(xiàn)較早、較為經(jīng)典的一種算法。用于孤立詞識別,DTW算法與HMM算法在訓(xùn)練階段需要提供大量的語音數(shù)據(jù),通過反復(fù)計算才能得到模型參數(shù),而DTW算法的訓(xùn)練中幾乎不需要額外的計算。所以在孤立詞語音識別中,DTW算法仍然得到廣泛的應(yīng)用。

        3.1 改進(jìn)的DTW算法

        傳統(tǒng)的DTW算法的缺點是模板匹配的運算量太大,求累積距離時,對測試模板的各幀給予了相等的權(quán)重,當(dāng)兩個模板數(shù)增加較快時,訓(xùn)練和識別算法的運算量也快速增大。根據(jù)給定匹配路徑的限定規(guī)整斜率,在矩形內(nèi)許多網(wǎng)絡(luò)點是無法達(dá)到的,可以看成平行四邊形外的網(wǎng)格點不需計算的,如圖2所示,需要運算的交點都在平行四邊行內(nèi)。這樣減少了需要保存的匹配距離矩陣和累積距離矩陣,減少資源的消耗。改進(jìn)型DTW算法大大提高了運算效率,它的方法實際是把路徑分為三段,分別進(jìn)行處理:三段路徑為:[(1,Xa),(Xa+1,Xb),(Xb+1,N)],其中,根據(jù)坐標(biāo)計算可得出:

        [Xa=13(2M-N)] (1)

        [Xb=23(2N-M)] (2)

        [Xa]和[Xb]都取最相近的整數(shù)。由此得出了對M和N長度的限制條件:

        [2M-N≥32N-M≥2] (3)

        當(dāng)限制條件不滿足時,不進(jìn)行動態(tài)匹配,利用這一條件的判斷,減少了對認(rèn)為是相差條件太軟的模板之間的匹配,減少了系統(tǒng)開支。

        在X坐標(biāo)軸上的每一幀與Y坐標(biāo)軸上[[ymin,ymax]]間的幀做比較,[ymin,ymax]的計算公式如(4) (5) 。

        [ymin12x 0≤x≤Xb2x+(M-2N) Xb

        [ymax2x 0≤x≤Xa12x+(M-12N) Xa

        同理,若出現(xiàn)[Xa>Xb]的情況,此時匹配的路徑三段為[(1,Xb),(Xb+1,Xa),(Xa+1,N)].對于X坐標(biāo)軸每前進(jìn)一幀,雖然所要比較的Y坐標(biāo)軸的幀數(shù)不同,但規(guī)整特性是一致的,累積距離如式(6) 所示。

        [D(x,y)=d(x,y)+minD(x-1,y),D(x-1,y-1),D(x-1,y-2)] (6)

        其中D和d分別表示累積距離和幀匹配距離。

        3.2 基于DTW算法的語音多模板匹配

        3.2.1模板優(yōu)化概述

        模板優(yōu)化的思想為:取兩個模板為一個小組,采用動態(tài)規(guī)整的方法得到兩模板的匹配路徑。然后兩模板根據(jù)匹配路徑,讓對應(yīng)幀的特征參數(shù)相加之后取平均得到一個新模板。然后所有小組產(chǎn)生的新模板相加取平均,得到優(yōu)化模板。這個優(yōu)化模板與三個原始模板的都有很強(qiáng)的相關(guān)性,這種相關(guān)性與個人的發(fā)音本質(zhì)相對應(yīng),3原始個模板與優(yōu)化是一般性與特殊性的關(guān)系。這樣一來,優(yōu)化模板就很好地結(jié)合了多模板參與匹配的人性化思想,同時優(yōu)化模板只有一個,又有了單模板匹配的簡潔快速的特性。

        3.2.2尋找匹配路徑

        下面以[ai]與[bi]這個模板組為例來討論尋找匹配路徑的方法。設(shè)[ai(p)]為模板a的第i個信號的第p幀特征參數(shù),[Ni]為該信號的總幀數(shù);[bi(p)]為模板b的第i個信 號的第q幀特征參數(shù),[Mi]為該信號的總幀數(shù)。[Cipq]為到([ai(p),bi(p)])這個點的最小距離,[Dipq]為到([ai(p),bi(p)])這個點的前一個點的坐標(biāo)的縱坐標(biāo),使得其比前一幀的其他點到點([ai(p),bi(p)])距離小。

        首先根據(jù)如下方法獲得[Dipq][(1≤p≤Ni,1≤q≤Mi,1≤i≤10)] 初始化:

        [Dipq=zeros(Ni,Mi)]

        [Cipq=ones(Ni,Mi)*realmax]

        [Ci11=d(ai(1),bi(1)),Ci21=d(ai(1),bi(1))+d(ai(2),bi(1))]

        [Ci22=d(ai(1),bi(1)+d(ai(2),bi(2))]

        [Di21=Di22=1]

        迭代求值:[Cipq=d(ai(p),bi(q))+min(Ci(p-1)qCi(p-1)(q-1),CI(P-1)(Q-2))]

        [[u,g]=min(Ci(p-1)q,Ci(p-1)(q-1),Ci(p-1)(q-2))]

        [Dipq=q+1-g] [(2≤p≤Ni,3≤q≤Mi,1≤i≤10)]

        然后用如下算法將最優(yōu)匹配路徑表達(dá)出來:

        [n=Ni] m=[Mi]

        [mathPathi](n)=m;

        p=n-1;

        q=m

        for k=n:-1:2

        [mathPathi](p)=[Dikq];

        q=[mathPathi](p);

        p=p-1;

        end

        3.2.3優(yōu)化模板

        根據(jù)匹配路徑[mathPathi],對模板組內(nèi)部以及模板組間進(jìn)行取平均,然后生成優(yōu)化模板。生成優(yōu)化模板的方法如下:

        設(shè)[gi(x)]表示第i個信號的第x個模板組(共三個模板組)生成的模板,[fi]表示第i個信號的優(yōu)化模板,模板組內(nèi)部取平均:[gi(x)=(ai+bi(mathpathi',:))*0.5]; 模板間取平均:[fi=(gi(1)+gi(2)+gi(3))/3],即[fi]便為優(yōu)化模板。

        4 基于MATLAB的界面設(shè)計與實現(xiàn)

        本語音識別系統(tǒng)的的執(zhí)行界面如圖3所示。界面風(fēng)格簡潔明了。由五個按鈕以及面板和面板上的顯示圖片構(gòu)成。該界面的實現(xiàn)主要應(yīng)用了MATLAB 的GUI工具箱。在一個可視化界面下設(shè)計軟件界面。

        界面上共有五個按鈕, “開始識別”按鈕主要用來現(xiàn)場讀入特定人的語音,生成測試模板,并與參考模板進(jìn)行匹配并返回識別結(jié)果。“結(jié)束識別”按鈕則用來結(jié)束語音識別并關(guān)閉當(dāng)前窗口。訓(xùn)練模塊由“開始訓(xùn)練Z” 、“開始訓(xùn)練L” 、“開始訓(xùn)練D”三個按鈕來實現(xiàn)。這三個按鈕的主要功能通過調(diào)用按鈕的Callback回調(diào)函數(shù)實現(xiàn)。當(dāng)點擊其中任意一個按鈕時,屏幕會彈出如圖4所示的進(jìn)度條,表示此時正在訓(xùn)練模板。此時系統(tǒng)會生成一個用來存放語音特征系數(shù)的數(shù)據(jù)文件dtwSamplessZ.mat(dtwSamplessL.mat、dtwSamplessL.mat與按鈕上的英文字符對應(yīng))。當(dāng)訓(xùn)練完成時會彈出一個消息對話框如圖5所示,表示此時訓(xùn)練已經(jīng)完成。

        當(dāng)點擊“開始識別”按鈕時,系統(tǒng)調(diào)用此按鈕的Callback回調(diào)函數(shù),則系統(tǒng)將執(zhí)行run testword;語句。該語句主要用來調(diào)用testword.m文件,并執(zhí)行文件中的代碼。而該文件主要用來進(jìn)行實時語音識別,即先通過wavrecord函數(shù)讀取實時語音數(shù)據(jù),然后調(diào)用vad端點檢測函數(shù)來確定實時錄入語音的起始點x1和結(jié)束點x2,接著調(diào)用mfcc函數(shù)得到實時語音的mfcc系數(shù)矩陣,系數(shù)保存在test矩陣中。最后通過調(diào)用dtw函數(shù),計算參考模板sampless與測試模板test之間的距離,并通過比較得到與測試模板距離最小的參考模板。最后通過彈出消息對話框顯示匹配結(jié)果如圖6所示(以英文單詞orange為例):

        5 結(jié)束語

        論文在總結(jié)和分析了現(xiàn)有語音識別技術(shù)的各關(guān)鍵階段理論及算法后,在基于PC平臺上使用MATLAB軟件設(shè)計和實現(xiàn)特定人孤立詞小詞匯量的語音識別系統(tǒng)。針對語音預(yù)處理,特征提取和模式匹配等幾個階段各種算法的選擇做了一定的研究工作,在實現(xiàn)系統(tǒng)中有一定的創(chuàng)新,主要的工作及相應(yīng)的創(chuàng)新點歸納為以下幾點:

        1)對傳統(tǒng)的語音識別技術(shù)理論作了大量的研究,對語音識別各階段算法通過分析進(jìn)行比較。在語音的端點檢測模塊選擇了能有效的維持系統(tǒng)魯棒性的短時能量-短時過零率雙門限的方法。使端點檢測結(jié)果更為準(zhǔn)確。

        2) 通過對特征提取中的LPCC參數(shù)和MFCC參數(shù)的深入研究,最后選擇了識別效果較好的MFCC參數(shù)。通過對DTW算法的研究,使用了改進(jìn)的DTW算法,并加入了多模板匹配的思想,使匹配更加快捷和精準(zhǔn)。論文開發(fā)的系統(tǒng)基本達(dá)到了對于特定人的小詞匯量孤立詞語音識別的預(yù)期目標(biāo)。但是可以考慮進(jìn)行幾個方面的完善:

        1) 系統(tǒng)使用的DTW算法雖然有其本身的優(yōu)勢,但也存在缺點,而且只使用于特定人中,因此若論文研究的課題往下發(fā)展應(yīng)該在以詞為單位的基礎(chǔ)上對適合使用在非特定人識別的HMM算法進(jìn)行研究。

        2)系統(tǒng)著重在語音識別的準(zhǔn)確率上進(jìn)行改進(jìn),論文的多模板匹配雖然加強(qiáng)了識別的準(zhǔn)確度,但是卻增加了識別的復(fù)雜度。因此本系統(tǒng)還可以朝著提升語音識別的效率的方向進(jìn)行改進(jìn)。

        參考文獻(xiàn):

        [1] Bourlard H. Optimizing recognition and rejection performance in wordspotting systems[M]. ICA-SSP, 199914(2):358-364.

        [2] Christoph B,Bernd P.Permutation entropy:a natural complexity measure for time series[M].Phys Rev Lett,2002,88(17):1741021-1741024.

        [3] Dave Harrold. Industry Ethernet [J]. Control Engineering, 1999.

        [4] 何強(qiáng),何英.MATLAB擴(kuò)展編程[M].北京:清華大學(xué)出版社,2006.

        [5] 胡航.語音信號處理[M].哈爾濱:哈爾濱工業(yè)大學(xué)出版社,2000.

        [6] 拉賓納.語音識別的基本原理[M].北京:清華大學(xué)出版社,2002.

        [7] 羅承烈.近代語音識別[M].成都:電子科技大學(xué)出版社,1991:54-55.

        [8] 李邵梅,劉力雄,陳鴻昶.實時說話人識別系統(tǒng)中改進(jìn)的DTW算法[J].計算機(jī)工程,2008(4):218-219.

        [9] 樸春俊.噪聲環(huán)境下的語音識別性能研究[J].計算機(jī)測量與控制,2005,13(11):1276-1291.

        [10] 萬春.基于DTw的語音識別應(yīng)用系統(tǒng)研究與實現(xiàn)[J].集美大學(xué)學(xué)報:自然科學(xué)版,2002, 7(2):104-105.

        [11] 王亞濤,樸春俊.強(qiáng)噪聲情況下的多種端點檢測方法研究[J].信息技術(shù),2005(2):43-45.

        [12] 徐大為,吳邊,趙建偉,等.一種噪聲環(huán)境下的實時語音端點檢測算法.計算機(jī)工程與應(yīng)用[J],2003(1):115-117.

        [13] 易克初,語音信號處理[M].北京:國防工業(yè)出版社,2000.

        [14] [日]占井貞熙.數(shù)字聲音處理[M]. 朱家新,張國海,易武秀,譯.北京:人民郵電出版社,1993.

        [15] 趙力.語音信號處理[M].北京:機(jī)械工業(yè)出版社,2003.

        [16] 趙彥平.孤立詞小詞匯量抗噪聲語音識別方法的研究[D].吉林:吉林大學(xué),2006.

        [17] 朱淑琴,裘雪紅.一種精確檢測語音端點的方法[J].計算機(jī)仿真,2004,22(3):214-216.

        猜你喜歡
        語音識別
        空管陸空通話英語發(fā)音模板設(shè)計與應(yīng)用
        通話中的語音識別技術(shù)
        面向移動終端的語音簽到系統(tǒng)
        淺析智能語音技術(shù)及其應(yīng)用
        智富時代(2015年9期)2016-01-14 06:26:40
        語音識別的SVM模型選擇分析
        農(nóng)業(yè)物聯(lián)網(wǎng)平臺手機(jī)秘書功能分析與實現(xiàn)
        基于LD3320的非特定人識別聲控?zé)粝到y(tǒng)設(shè)計
        航天三維可視化系統(tǒng)中語音控制技術(shù)的研究與應(yīng)用
        基于語音識別的萬能遙控器的設(shè)計
        基于語音技術(shù)的商務(wù)英語移動學(xué)習(xí)平臺設(shè)計與實現(xiàn)
        巨爆乳中文字幕爆乳区| 国产做无码视频在线观看| 成人毛片一区二区| 欧美日韩性视频| 国产在视频线精品视频二代 | 伊人婷婷色香五月综合缴激情| 激情文学人妻中文字幕| 国语对白自拍视频在线播放| 亚洲av不卡一区男人天堂| 国产精品多人p群无码| 亚洲男人天堂| 久久久亚洲欧洲日产国码是AV| 亚洲av免费看一区二区三区 | 国产午夜精品av一区二区麻豆| 久久综合国产乱子伦精品免费| 秋霞午夜无码鲁丝片午夜精品 | 日韩精品亚洲一区二区| 国产高清在线精品一区二区三区| 少妇高潮喷水正在播放| 亚洲香蕉毛片久久网站老妇人 | 成人片黄网站色大片免费观看app 亚洲av无码专区亚洲av | 亚洲人成无码区在线观看| 欧美人与物videos另类xxxxx| 欧美深夜福利视频| 日韩精品视频中文字幕播放| 蜜臀久久99精品久久久久久| 丰满人妻被黑人中出849| 国产成人精品亚洲午夜| 日本黄色特级一区二区三区| 天天做天天爱夜夜爽女人爽| 蜜臀aⅴ国产精品久久久国产老师| 国产在线观看黄| 久久精品国产亚洲av一| 漂亮人妻洗澡被公强 日日躁| 成人免费777777被爆出| 免费一本色道久久一区| 午夜一区二区三区免费观看| 十八禁视频网站在线观看| 日本精品人妻无码77777| 亚洲AV无码AV色| 国产精品一区二区夜色不卡|