吳 進(jìn), 張 青
(西安郵電大學(xué) 電子工程學(xué)院, 陜西 西安 710121)
一種改進(jìn)的孤立詞語音識別系統(tǒng)設(shè)計(jì)
吳進(jìn), 張青
(西安郵電大學(xué) 電子工程學(xué)院, 陜西 西安 710121)
摘要:針對孤立詞語音識別系統(tǒng)設(shè)計(jì)一個(gè)改進(jìn)的系統(tǒng)。該系統(tǒng)通過維納濾波濾除噪聲得到估計(jì)語音,對該語音進(jìn)行雙門限端點(diǎn)檢測和特征提取得到端點(diǎn)范圍內(nèi)的特征向量,采用改進(jìn)動(dòng)態(tài)時(shí)間規(guī)劃算法計(jì)算該特征向量與模板特征向量之間的歐式距離得到識別結(jié)果。仿真對比實(shí)驗(yàn)結(jié)果表明,改進(jìn)系統(tǒng)在識別效果和識別效率方面有提高。
關(guān)鍵詞:語音識別;雙門限端點(diǎn)檢測;特征提??;維納濾波;改進(jìn)的動(dòng)態(tài)時(shí)間規(guī)劃
語音識別技術(shù)把人類語言轉(zhuǎn)化為機(jī)器可讀語言[1],應(yīng)用于移動(dòng)通信,工業(yè)控制及醫(yī)療等領(lǐng)域。
語音信號在傳輸過程中會(huì)受到來自外界環(huán)境和通訊設(shè)備內(nèi)部噪聲的干擾,很多場合需要對語音信號減噪,提高語音質(zhì)量,達(dá)到好的識別效果。目前,減噪的方法有小波和子空間[2]、子帶能量規(guī)整的感知線性預(yù)測系數(shù)[3]、多頻帶譜減法[4]、最小均方誤差估計(jì)[5]、維納濾波[6],以及卡爾曼濾波[7]等,這些方法均可以提高語音識別系統(tǒng)的噪聲魯棒性,但系統(tǒng)存在計(jì)算量大,復(fù)雜度高等問題。
本文設(shè)計(jì)一個(gè)改進(jìn)孤立詞語音識別系統(tǒng)。擬采用維納濾波提高系統(tǒng)識別效果,利用改進(jìn)的動(dòng)態(tài)時(shí)間規(guī)劃算法(Dynamic Time Warping,DTW)降低復(fù)雜度和運(yùn)算量。
1基本原理
1.1維納濾波原理
維納濾波器是一種線性濾波器。輸入帶噪語音
y(n)=s(n)+d(n)(n=0,1,2,…,N)。
其中s(n)為純語音,d(n)為噪聲,經(jīng)過系統(tǒng)函數(shù)為h(n)的維納濾波,輸出估計(jì)語音[8]
(1)
根據(jù)正交性原理,系統(tǒng)函數(shù)h(n)對每個(gè)m滿足[8]
(2)
將式(1)代入式(2),并取傅里葉變換,可以得到維納濾波器的譜估計(jì)器[8]
(3)
式中Py(k)為y(n)的功率譜密度;Psy(k)為s(n)和y(n)的互功率譜密度。因信號和噪聲互不相關(guān),則有
Py(k)=Ps(k)+Pd(k)。
(4)
式中Ps(k)為語音功率譜密度,Pd(k)為噪聲功率譜密度,將式(4)代入式(3)可得
(5)
對式(1)進(jìn)行傅里葉變換得到估計(jì)信號的頻域表達(dá)式
(6)
1.2雙門限端點(diǎn)檢測及特征提取
1.2.1雙門限端點(diǎn)檢測
(7)
第i幀語音的短時(shí)過零率為
(8)
通過短時(shí)能量和短時(shí)過零率的取值設(shè)置門限,判決語音信號的起始端點(diǎn)。
1.2.2特征提取
梅爾倒譜系數(shù)[10](Mel-scale Frequency Cepstral Coefficients,MFCC)特征提取原理如圖1所示。
圖1 MFCC特征提取原理
MFCC特征提取步驟描述如下。
步驟1對濾波后的信號做預(yù)處理與離散傅里葉變換。
設(shè)語音信號的離散傅里葉變換為
其中輸入語音信號為x(n),傅里葉變換次數(shù)為N。
步驟2計(jì)算功率譜,并用三角濾波器組對功率譜進(jìn)行帶通濾波。
步驟3計(jì)算濾波器組輸出的對數(shù)能量
式中Hm(k)為三角濾波器的頻率響應(yīng),m為三角濾波器的個(gè)數(shù)。
步驟4對數(shù)功率譜經(jīng)離散余弦變換[10]得MFCC系數(shù)。
1.3DTW算法及其改進(jìn)
動(dòng)態(tài)規(guī)劃算法[11]是在網(wǎng)格中找到一條經(jīng)過若干格點(diǎn)的路徑。路徑通過的格點(diǎn),需計(jì)算幀的匹配距離。路徑從(1,1)開始到(N,M)結(jié)束,其原理如圖2所示。
圖2 DTW算法原理
DTW算法運(yùn)算量大,采用改進(jìn)的DTW算法[12]不必全部保存幀匹配距離矩陣和累計(jì)距離矩陣,只需計(jì)算平行四邊形之內(nèi)格點(diǎn)對應(yīng)幀的匹配距離即可,其原理如圖3所示。
圖3 改進(jìn)的DTW原理
X軸上的各個(gè)幀無需與Y軸上的各個(gè)幀進(jìn)行匹配,只需匹配與Y軸相鄰的部分幀,累計(jì)距離為
D(x,y)=d(x,y)+min[D(x-1,y),
D(x-1,y-1),D(x-1,y-2)],
由X軸上后一列用到前一列的累計(jì)距離,故整個(gè)距離矩陣由矢量D和d分別保存。
2改進(jìn)系統(tǒng)設(shè)計(jì)
改進(jìn)系統(tǒng)與基于維納濾波的孤立詞識別系統(tǒng)的區(qū)別在于應(yīng)用改進(jìn)的DTW算法,而與卡爾曼濾波的區(qū)別在于應(yīng)用維納濾波和改進(jìn)的DTW算法。其原理如圖4所示。
圖4 改進(jìn)系統(tǒng)原理
改進(jìn)系統(tǒng)關(guān)鍵步驟如下。
步驟1帶噪語音信號y(n)傅里葉變換到頻域。
步驟2利用最小均方誤差準(zhǔn)則使均方誤差ε最小,結(jié)合式(1)與式(2)以及純凈語音和噪聲互不相關(guān),可以得到維納濾波估計(jì)器的系統(tǒng)函數(shù)式(5)。
步驟4計(jì)算短時(shí)能量式(7)和短時(shí)過零率式(8),并根據(jù)其值設(shè)置門限,進(jìn)行雙門限端點(diǎn)檢測得到語音信號的起始端點(diǎn)。
步驟5利用梅爾倒譜系數(shù)提取特征向量,并截取起始端點(diǎn)范圍內(nèi)特征向量。
步驟6利用改進(jìn)的DTW計(jì)算參考模板與測試模板特征向量間的累計(jì)距離,得到孤立詞0~9的識別結(jié)果。
3仿真實(shí)驗(yàn)與結(jié)果分析
實(shí)驗(yàn)中所用語音文件均是在安靜的環(huán)境下錄制,噪聲文件取自Noisex數(shù)據(jù)庫中的高斯白噪聲,并在Matlab R2011b平臺上實(shí)現(xiàn)。先將基于維納濾波的孤立詞語音識別系統(tǒng)與基于卡爾曼濾波的孤立詞語音識別系統(tǒng)進(jìn)行識別效果對比,然后將基于維納濾波的孤立詞語音識別系統(tǒng)和改進(jìn)的系統(tǒng)進(jìn)行識別效率對比。
3.1識別效果對比
選取DTW模式匹配過程中的歐式距離作為對比參數(shù),對比基于維納濾波的孤立詞語音識別系統(tǒng)與基于卡爾曼濾波的孤立詞語音識別系統(tǒng)的識別效果,結(jié)果如表1、表2和圖5所示。其中表1為基于卡爾曼濾波系統(tǒng)測試語音與模板語音之間的歐式距離,表2為基于維納濾波系統(tǒng)測試語音與模板語音之間的歐式距離,圖5為兩種系統(tǒng)歐式距離對比折線圖(注:表1和表2的橫向代表模板語音0~9,縱向代表測試語音0~9,中間數(shù)據(jù)為識別過程中兩個(gè)模板間的歐式距離)。
表1 基于卡爾曼濾波系統(tǒng)測試語音與模板語音的歐式距離
表2 基于維納濾波系統(tǒng)測試語音與模板語音歐式距離
圖5 基于維納濾波與卡爾曼濾波識別的歐式距離
對比表1和表2可以看出,表1中對孤立詞0和3的識別,其匹配距離不是所在行列中最小的,表2中孤立詞0~9的匹配距離小于其所在的行列,故基于卡爾曼的系統(tǒng)識別效果相對不好,而基于維納濾波的系統(tǒng)識別效果好。由圖5可見,采用維納濾波的孤立詞語音識別系統(tǒng)的識別效果較好,系統(tǒng)具有魯棒性。
3.2識別效率對比
選取DTW模式匹配過程中的歐式距離作為對比參數(shù),對比改進(jìn)系統(tǒng)與基于維納濾波的孤立詞語音識別系統(tǒng)的識別效率,結(jié)果如表2、表3和圖6所示。其中表3為改進(jìn)系統(tǒng)測試語音與模板語音之間的歐式距離,圖6為兩種系統(tǒng)歐式距離對比折線圖(注:表3的橫向代表模板語音0~9,縱向代表測試語音0~9,中間數(shù)據(jù)為識別過程中兩個(gè)模板間的歐式距離) 。
表3 改進(jìn)系統(tǒng)測試語音與模板語音歐式距離
圖6改進(jìn)系統(tǒng)與基于維納濾波系統(tǒng)歐式距離
對比表2和表3可以看出,表3中對孤立詞0與3的識別,其匹配距離不是所在行列中最小的,說明改進(jìn)系統(tǒng)在識別效果方面較好,系統(tǒng)具有噪聲魯棒性。對比圖5和圖6可以看出,歐式距離最小的是改進(jìn)系統(tǒng),說明改進(jìn)系統(tǒng)降低了運(yùn)算量及復(fù)雜度,提高了系統(tǒng)識別效率。
4結(jié)束語
設(shè)計(jì)了一種改進(jìn)的孤立詞語音識別系統(tǒng),實(shí)現(xiàn)了系統(tǒng)的噪聲魯棒性,且提高了系統(tǒng)識別效率。通過仿真實(shí)驗(yàn)對比基于卡爾曼濾波的孤立詞語音識別系統(tǒng),基于維納濾波的孤立詞語音識別系統(tǒng)與改進(jìn)系統(tǒng),結(jié)果表明,改進(jìn)系統(tǒng)在噪聲魯棒性和系統(tǒng)性能方面有提高。
參考文獻(xiàn)
[1] 李曉霞,王東木,李雪耀.語音識別技術(shù)評述[J].計(jì)算機(jī)應(yīng)用研究,1999,10(1):1-3.
[2] 吳昊,魯周迅.Symlets小波和子空間聯(lián)合增強(qiáng)下的語音識別[J].計(jì)算機(jī)工程與應(yīng)用,2011,47(5):141-145.
[3] 蔡尚,金鑫,高圣翔,等.用于噪聲魯棒性語音識別的子帶能量規(guī)整感知線性預(yù)測系數(shù)[J].聲學(xué)學(xué)報(bào),2012,37(6):668-672.
[4] 萬義龍,張?zhí)扃鳎踔境?,?基于多頻帶譜減法的抗噪聲語音識別研究[J].電視技術(shù),2013,37(23):183-187.
[5] 容強(qiáng),肖漢.基于MMSE維納濾波語音增強(qiáng)方法研究與matlab實(shí)現(xiàn)[J].計(jì)算機(jī)應(yīng)用與軟件,2015,32(1):153-156.
[6] 白文雅,黃建群,陳智憐.基于維納濾波語音增強(qiáng)算法的改進(jìn)實(shí)現(xiàn)[J].語音技術(shù),2007,31(1): 44-46,50.
[7]SUMITHRA M G., RAMYA M S, THANUSKODI K. Noise Robust Isolated Word Recognition[C]//International Conference on Communication and Computational intelligence, Erode:IEEE, 2010:362-367.
[8] 宋知用.MATLAB在語音信號分析與合成中的應(yīng)用[M].北京:北京航空航天大學(xué)出版社,2013:195-197.
[9] 韋國剛,周萍,楊青.一種簡單的噪聲魯棒性語音端點(diǎn)檢測方法[J].測控技術(shù),2015,34(2):31-34.
[10]俸云,景新幸,葉懋.MFCC特征改進(jìn)算法在語音識別中的應(yīng)用[J].計(jì)算機(jī)工程與科學(xué),2009,31(12):146-148.
[11]朱淑琴,趙瑛.DTW語音識別算法研究與分析[J].微計(jì)算機(jī)信息,2012,8(5):150-151,163.
[12]胡金平,陳若珠,李戰(zhàn)明.語音識別中DTW改進(jìn)算法的研究[J].微型機(jī)與應(yīng)用,2011,30(3):30-32.
[13]VIKRAMJIT M,HOSUNG N,ESPY-WILSONil C Y, et al. Articulatory Information for Noise Robust Speech Recognition[J]. IEEE Transactions on Audio, Speech & Language Processing-TASLP, 2011, 19(7):1913-1924. DOI: 10.1109/TASL.2010.2103058.
[14]FARDKHALEGHI P, SAVOJI M H. New approaches to speech enhancement using phase correction in Wiener filtering [C]//2010 5th International Symposium on Telecommunications(IST),Tehran:IEEE, 2010:895-899.DOI:10.1109/ISTEL.2010.5734149.
[15]IBRAHIM A, MILNER B.Visually Derived Wiener Filters for Speech Enhancement[J].IEEE Transactions on Audio, Speech & Language Processing-TASLP, 2011, 19(6):1642-1651. DOI: 10.1109/TAS L.2010.2096212.
[16]SHARON G, COHER I. Speech Enhancement Based on the General Transfer Function GCS and Postfiltering [J].IEEE transaction on speech and audio processing-IEEE SAP, 2004, 12(6):561-571. DOI: 10.1109/ T SA .2004.834599.
[責(zé)任編輯:祝劍]
The design of an improved isolated word speech recognition system
WU Jin,ZHANG Qing
(School of Electrical Engineering,Xi’an University of Posts and Telecommunications,Xi’an 710121,China)
Abstract:An improved system is proposed for the isolated word speech recognition system. In this improved system, wiener filtering is used to filter out noise effectively and to obtain estimation of speech. Double threshold endpoint detection and feature extraction are carried out on the speech to obtain feature vector within the scope of the endpoint. Recognition results can then be got by using the improved dynamic time programming algorithm to calculate the Euclidean distance between the vector and template feature vector. Simulation experiments show that the improved system is better in terms of recognition effect and the recognition efficiency.
Keywords:speech recognition, double threshold endpoint detection, feature extraction, wiener filtering, modified dynamic time programming
doi:10.13682/j.issn.2095-6533.2016.01.015
收稿日期:2015-08-14
基金項(xiàng)目:國家自然科學(xué)基金資助項(xiàng)目(61272120)
作者簡介:吳進(jìn)(1975-),女,教授,從事信號與信息處理方向的研究。E-mil:huatao2000@126.com 張青(1990-),女,碩士,研究方向?yàn)殡娐放c系統(tǒng)。E-mil:984676981@qq.com
中圖分類號:TP391
文獻(xiàn)標(biāo)識碼:A
文章編號:2095-6533(2016)01-0076-05