亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

動態(tài)時間規(guī)整DTW算法的研究楊潔

2016-03-16 16:58:10康寧

科技與創(chuàng)新 2016年4期

康寧

摘要：傳統(tǒng)的動態(tài)時間規(guī)整（Dynamic Time Warping）算法雖然可以有效解決語音信號特征參數(shù)序列比較時時長不等的問題，但計算量很大，嚴(yán)重影響了語音識別系統(tǒng)的響應(yīng)速度。對傳統(tǒng)的動態(tài)時間規(guī)整算法進(jìn)行改進(jìn)，主要目的是提高語音識別速率。首先對傳統(tǒng)DTW算法的原理進(jìn)行了詳細(xì)的分析，然后提出了改進(jìn)后新的DTW算法。對傳統(tǒng)的算法進(jìn)行改進(jìn)時，主要從以下兩方面入手：①對算法的搜索路徑進(jìn)行約束，使x軸上的每一幀不必再與y軸上的每一幀進(jìn)行比較，而只需要與y軸上限定范圍內(nèi)的幀進(jìn)行比較即可；②對齊松弛算法的起始點和終止點（不用完全對齊），并可以適當(dāng)放松起始點和終止點兩三幀。實驗表明，系統(tǒng)在失真度基本保持不變的基礎(chǔ)上，運行速率提高了近2倍。

關(guān)鍵詞：動態(tài)時間規(guī)整；DTW算法；特征參數(shù)；語音信號

中圖分類號：TP274+.2 文獻(xiàn)標(biāo)識碼：A DOI：10.15913/j.cnki.kjycx.2016.04.011

語音識別是接收人類的語音信號，并對其進(jìn)行模數(shù)轉(zhuǎn)換、降噪、濾波、預(yù)加重、加窗分幀、端點檢測，提取出相應(yīng)的特征，然后按照識別算法識別，從而讓機器“理解”人類的語言，完成相應(yīng)的任務(wù)，實現(xiàn)人對機器的控制。

目前，語音識別算法有許多，比較常用的3種模式匹配算法為人工神經(jīng)網(wǎng)絡(luò)（Artificial Neural Networks，ANN）、隱馬爾可夫模型（Hidden Markov Models，HMM）和動態(tài)時間規(guī)整（Dynamic Time Warping，DTW）算法。其中，ANN算法的缺點為存在時間規(guī)整問題、訓(xùn)練過程復(fù)雜和識別時間長等，因此，很難做到與語音信號的最佳匹配，一般不單獨使用。HMM算法建立在統(tǒng)計模型的基礎(chǔ)上，其優(yōu)點為識別性能高、穩(wěn)健性好等，缺點為占用資源較多、魯棒性不好和分類能力差等，適用于大詞匯量連續(xù)詞語音識別系統(tǒng)。DTW算法是20世紀(jì)60年代由日本學(xué)者板倉提出的，基于動態(tài)規(guī)劃的思想，解決了因發(fā)音長短不統(tǒng)一和說話速度不一致而產(chǎn)生的模式匹配問題，在小詞匯量孤立詞語音識別系統(tǒng)中取得了良好的應(yīng)用效果。由于DTW算法本身較容易實現(xiàn)，對系統(tǒng)硬件要求很低，而且是一種比較成熟的算法，因此，這一算法被廣泛應(yīng)用于語音識別領(lǐng)域。

雖然DTW算法在小詞匯量孤立詞語音識別系統(tǒng)中表現(xiàn)出色，但它仍然存在很多問題。首先，DTW算法的訓(xùn)練方法不能有效利用統(tǒng)計方法，很難將頂層和底層的知識應(yīng)用到識別算法中；其次，DTW算法運算量很大，其參考模板、測試模板分別為M幀和N幀，動態(tài)規(guī)劃要運用MN次運算才能實現(xiàn)；最后，DTW算法在語音識別的過程中是將一個單詞作為一個整體，沒有考慮到單詞的分段，當(dāng)需要識別的兩個詞語差別很小時，其搜索路徑會受到一定的影響，在距離上很難表現(xiàn)出來。針對上述問題，相關(guān)人員對DTW算法進(jìn)行了改進(jìn)，以提高語音識別系統(tǒng)的響應(yīng)速度，滿足實時性要求。

1 傳統(tǒng)DTW算法的原理

DTW算法是通過動態(tài)規(guī)劃使參考模板和測試模板在時間上實現(xiàn)最優(yōu)匹配。假設(shè)參考模板的特征參數(shù)序列為{R（1），R（2），…，R（m），…，R（M）}，其中，M為該模板的總幀數(shù)，m為幀的時序標(biāo)號，R（m）為對應(yīng)的特征矢量；測試模板的特征參數(shù)序列為{T（1），T（2），…，T（n），…，T（N）}，其中，N為該模板的總幀數(shù)，n為幀的時序標(biāo)號，T（n）為對應(yīng)的特征矢量。參考模板和測試模板采用相同的特征矢量、幀長、幀移和窗口函數(shù)。這樣，兩個模板才具有可比性。

為了比較參考模板R和測試模板T的相似程度，需計算這兩個模板各對應(yīng)幀的失真度，失真度越小，則相似度越高。為了直觀地顯示R和T之間各幀的對應(yīng)關(guān)系，將測試模板的幀號n=1，2，3，…，n標(biāo)在直角坐標(biāo)系的橫坐標(biāo)軸上，將參考模板的幀號m=1，2，3，…，m標(biāo)在直角坐標(biāo)系的縱坐標(biāo)軸上。這樣，連接橫、縱各個坐標(biāo)軸就可以形成一個矩形網(wǎng)絡(luò)，網(wǎng)絡(luò)中的每一個交叉點（n，m）表示R中一幀和T中一幀的交會點。R和T的對應(yīng)關(guān)系形成了一條起始于（0，0）而終止于（N，M）的路徑，如圖1所示。

圖1中路徑所經(jīng)過的交叉點就是參考模塊和測試模板中失真計算的幀號，沿著路徑對各個交叉點的失真度累加求和，就可以得到總體失真度。于是，本文所研究的問題就轉(zhuǎn)換成了如何通過動態(tài)規(guī)劃尋找最優(yōu)路徑。兩對應(yīng)幀之間的失真度公式如下：

式（1）中：p為特征矢量的維數(shù)。

總體失真度為：

在計算總體失真度時，如果 N=M，可以依次計算n=m=1，…，n=m=N=M各個幀之間的失真度并且求和；如果N≠M，用線性擴(kuò)張映射將多的映射成少的，然后再計算。

2 改進(jìn)后的DTW算法

傳統(tǒng)的DTW算法嚴(yán)重影響了系統(tǒng)的識別速率，因此需要改進(jìn)，以提高系統(tǒng)的識別速率。

2.1 DTW算法中的整體路徑約束

采用傳統(tǒng)的DTW算法進(jìn)行語音識別時，需要逐個對比參考模板與測試模板的每一幀，如圖2所示，這樣就會耗費大量的時間和資源，因此，需要對DTW算法的路徑進(jìn)行約束。

改進(jìn)后的DTW算法的路徑如圖4所示，其中，原有的DTW算法的路徑為虛線所圍區(qū)域，改進(jìn)后的DTW算法的路徑為豎線所圍區(qū)域。

2.2 放松起始點和終止點的對齊

DTW算法對端點檢測比較敏感，端點信息以獨立參數(shù)的形式呈現(xiàn)，要求兩個模板起點對應(yīng)起點、終點對應(yīng)終點，對端點檢測的精度要求非常高。當(dāng)周圍環(huán)境噪聲大或者有其他干擾時，端點檢測的精度會受到極大的影響。實際中，測試模板幀數(shù)和參考模板幀數(shù)不能完全對應(yīng)，人發(fā)聲會晚于計算機開始計算搜索路徑數(shù)據(jù)的時間，因此，可以適當(dāng)放松起始點和終止點。實驗表明，放寬5幀以上會影響到識別率，因此，本文選定放寬兩三幀，使搜索路徑的起點選擇具有一定的特性。這樣就克服了由于端點檢測的精度影響而造成的測試模板和參考模板起始點和終止點不能完全對齊的問題。實現(xiàn)路徑如圖5中網(wǎng)格區(qū)域所示。

3 實驗研究和分析

將傳統(tǒng)的DTW算法和改進(jìn)后的DTW算法進(jìn)行比較。以Linux系統(tǒng)為系統(tǒng)平臺，ARM為硬件平臺，在安靜的環(huán)境下，以頻率44.1 kHz、時長3 s對特定人發(fā)出的“開燈”和“關(guān)燈”這兩個詞進(jìn)行錄音。進(jìn)行10次測試，測試結(jié)果分別如表1、表2和表3所示。

從實驗數(shù)據(jù)可以看出，按照上述方法，在約束DTW算法的路徑，限定ymin和ymax的值和對起始點和終止點的對齊放寬兩三幀的優(yōu)化改進(jìn)后，與傳統(tǒng)的DTW算法相比，在保持系統(tǒng)識別率基本不變的提前下，識別速率得到了大幅度的提高，約為傳統(tǒng)DTW算法的2倍，證明本文對傳統(tǒng)DTW算法的改進(jìn)具有可行性。

4 結(jié)論

本文首先介紹了三種常用的模式匹配算法，然后對DTW算法進(jìn)行了詳細(xì)的闡述，分析了傳統(tǒng)的DTW算法的基本原理及其優(yōu)、缺點，并針對傳統(tǒng)DTW算法所存在的問題制定了兩種改進(jìn)方案，即對路徑進(jìn)行約束和放松起始點和終止點的對齊。通過實驗分析發(fā)現(xiàn)，改進(jìn)后的DTW算法在保持系統(tǒng)識別率幾乎不變的前提下，識別速率得到了大幅度的提升，約為傳統(tǒng)DTW算法的2倍。

參考文獻(xiàn)

[1]陳尚勤，羅承劣.近代語音識別[M].成都：電子科技大學(xué)出版社，1991.

[2]萬春.基于DTW的語音識別應(yīng)用系統(tǒng)研究與實現(xiàn)[J].集美大學(xué)學(xué)報（自然科學(xué)版），2002，7（2）.

[3]劉敬偉.基于DTW相似度的統(tǒng)計學(xué)習(xí)方法及其在模式識別中的應(yīng)用[D].北京：北京大學(xué)，2002.

[4]劉化蘭.DSP算法、應(yīng)用與設(shè)計[J].實驗技術(shù)與管理，2003，20（2）.

[5]Bian Z Q，Zhang X G.Pattern Recognition[M].The 2nd Edition.Beijing：Tsinghua University Press，2000.