亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

支持向量機(jī)在低信噪比語音識(shí)別中的應(yīng)用

2013-07-11 09:36:36張雪英劉曉峰

計(jì)算機(jī)工程與應(yīng)用 2013年5期

關(guān)鍵詞：實(shí)驗(yàn)

郭超，張雪英，劉曉峰

1.太原理工大學(xué) 信息工程學(xué)院，太原 0300242.太原理工大學(xué) 理學(xué)院數(shù)學(xué)系，太原 030024

支持向量機(jī)在低信噪比語音識(shí)別中的應(yīng)用

郭超1，張雪英1，劉曉峰2

1.太原理工大學(xué) 信息工程學(xué)院，太原 030024
2.太原理工大學(xué) 理學(xué)院數(shù)學(xué)系，太原 030024

語音識(shí)別技術(shù)的目的是使計(jì)算機(jī)能聽懂人類的語言，實(shí)現(xiàn)人機(jī)語言通信，方便自然快捷地操作計(jì)算機(jī)。傳統(tǒng)的語音識(shí)別模型，如隱馬爾可夫模型（Hidden Markov Models，HMM）和人工神經(jīng)網(wǎng)絡(luò)（Artificial Neural Network，ANN）都是基于統(tǒng)計(jì)學(xué)理論的，只有當(dāng)訓(xùn)練樣本集充分大時(shí)，識(shí)別性能才會(huì)最好。但實(shí)際問題中樣本數(shù)目有限，因而實(shí)際應(yīng)用中往往難以達(dá)到理想的效果。

支持向量機(jī)是20世紀(jì)90年代中期興起的一種模式識(shí)別方法，其理論基礎(chǔ)是統(tǒng)計(jì)學(xué)習(xí)的理論（Statistical Learning Theory）中的結(jié)構(gòu)風(fēng)險(xiǎn)最小化（Structural Risk Minimization）原理和VC（Vapnik-Chervonenkis）維理論。與HMM、ANN等傳統(tǒng)的模式識(shí)別方法相比，SVM能較好地解決小樣本、過學(xué)習(xí)和局部極小點(diǎn)等實(shí)際問題，具有更好的泛化能力和分類精確性。

支持向量機(jī)具有很強(qiáng)的非線性分類能力。它通過引入核函數(shù)（需滿足Mercer條件），將輸入空間的非線性劃分問題轉(zhuǎn)化為高維特征空間的線性劃分問題，有效解決了有限樣本條件下構(gòu)建高維數(shù)據(jù)模型的問題[1]。此外，采用核函數(shù)計(jì)算代替了高維空間中的內(nèi)積計(jì)算，避免了因維數(shù)升高而導(dǎo)致的計(jì)算困難，從而簡(jiǎn)化了計(jì)算。利用不同的核函數(shù)，可以構(gòu)造不同的支持向量機(jī)。

1 支持向量機(jī)

當(dāng)訓(xùn)練樣本集為線性近似可分時(shí)，需引入非負(fù)松弛變量ξi≥0，i=1，2，…，l，上述最優(yōu)分類超平面的求解問題變?yōu)椋?/p>

其中，C＞0稱為懲罰參數(shù)，C越大表示對(duì)錯(cuò)誤分類的懲罰越大。引入Lagrange乘子法可以將上述最優(yōu)化問題轉(zhuǎn)化為一個(gè)二次規(guī)劃對(duì)偶問題，即

其中，αi為與第i個(gè)樣本對(duì)應(yīng)的Lagrange乘子，非零αi對(duì)應(yīng)的樣本點(diǎn)就是支持向量。對(duì)問題（2）求解后，可以得到相應(yīng)的決策函數(shù)：

其中，α*i（至少有一個(gè)α*i≠0）為最優(yōu)解，b*為分類閾值，x為待識(shí)別的樣本。

對(duì)于非線性可分的數(shù)據(jù)集，可以通過一個(gè)非線性函數(shù)φ()·將訓(xùn)練集數(shù)據(jù)x映射到一個(gè)高維線性特征空間Z，其對(duì)應(yīng)的決策函數(shù)變?yōu)椋?/p>

其中，K(x ，xi)=φ(x)·φ(xi)稱為核函數(shù)，它是輸入空間中的兩個(gè)樣本矢量映射到高維線性空間的像的內(nèi)積，即用核函數(shù)來代替映射函數(shù)φ(·)的內(nèi)積運(yùn)算。因此，只需要知道核函數(shù)K(x ，xi)就可以確定一個(gè)支持向量機(jī)，而無需顯式地知道特征空間Z和映射函數(shù)φ(·)。

目前常用的核函數(shù)有以下幾種：（1）多項(xiàng)式核函數(shù)

（2）Gaussian徑向基（Radial Basis Function）核函數(shù)

（3）Sigmoid核函數(shù)

2 語音識(shí)別系統(tǒng)

典型的語音識(shí)別系統(tǒng)包括預(yù)處理、特征提取和訓(xùn)練識(shí)別網(wǎng)絡(luò)等三個(gè)部分。對(duì)語音信號(hào)的預(yù)處理主要包括反混疊失真濾波、預(yù)加重以及端點(diǎn)檢測(cè)等內(nèi)容。經(jīng)過預(yù)處理后，對(duì)語音信號(hào)進(jìn)行特征提取。將這些特征數(shù)據(jù)保存成特定的特征文件作為SVM的輸入來進(jìn)行訓(xùn)練和識(shí)別。

本實(shí)驗(yàn)預(yù)處理包括對(duì)原始語音信號(hào)進(jìn)行預(yù)加重、加窗和分幀等處理。預(yù)加重通過一個(gè)傳遞函數(shù)為H() z= 1-αz-1( ) 0.9＜α＜1.0的濾波器進(jìn)行濾波；加窗分幀選用Hamming窗。

經(jīng)過預(yù)處理后，本實(shí)驗(yàn)提取改進(jìn)的MFCC參數(shù)作為語音特征參數(shù)。傳統(tǒng)的MFCC特征提取算法過程如下：語音信號(hào)在預(yù)處理分幀加窗后，通過離散傅里葉變換（DFT）得到其頻譜，然后將語音能量譜通過一組Mel頻率上均勻分布的濾波器，求出各個(gè)濾波器輸出，對(duì)其取對(duì)數(shù)，并作離散余弦變換（DCT），即可得到MFCC參數(shù)。改進(jìn)的MFCC參數(shù)是將Bark小波變換取代DCT，由此得到的Mel頻率離散小波倒譜系數(shù)（Mel-Frequency Discrete Wavelet Cepstral Coefficients，MFDWCs）更符合人耳的聽覺特性，魯棒性更好[3]。MFDWCs特征參數(shù)經(jīng)動(dòng)態(tài)時(shí)間調(diào)整進(jìn)行時(shí)間歸一化處理后，得到統(tǒng)一的1 024維的語音特征矢量序列，即每個(gè)輸入樣本維數(shù)為1 024。改進(jìn)的MFCC參數(shù)與傳統(tǒng)的MFCC參數(shù)，利用SVM進(jìn)行語音識(shí)別的結(jié)果見表1。

表1 改進(jìn)的MFDWCs參數(shù)與傳統(tǒng)MFCC參數(shù)識(shí)別率比較（%）

提取出語音特征參數(shù)后，對(duì)特征參數(shù)進(jìn)行歸一化處理。歸一化的最大優(yōu)點(diǎn)在于統(tǒng)一基本度量單位，這樣可以避免同一維參數(shù)中，過大參數(shù)的權(quán)值作用掩蓋掉較小參數(shù)的權(quán)值作用。此外，歸一化還可以有效簡(jiǎn)化計(jì)算過程中的數(shù)值復(fù)雜度，加快收斂速度[4]。本文采用將參數(shù)值歸一化到[－1，1]的最大最小線性歸一法，對(duì)應(yīng)公式為：

其中x和y分別為歸一化前后的原始值和目標(biāo)值，MinValue 和MaxValue為同一維屬性中的最小值和最大值。

3 多類分類方法與實(shí)驗(yàn)環(huán)境

SVM本身是一個(gè)兩類問題的判別方法。對(duì)于小詞匯量的非特定人語音識(shí)別，需要將k個(gè)詞匯分開( ) N＞2。這是一個(gè)多類分類問題，因此涉及到多類問題到二類問題的轉(zhuǎn)換。本實(shí)驗(yàn)采用一對(duì)一分類法來進(jìn)行SVM多類分類[5]，即在k個(gè)不同類別訓(xùn)練集中找出所有不同類別的兩兩組合，構(gòu)建M=k( ) k-1 2個(gè)兩類分類器。將待識(shí)別樣本分別用M個(gè)SVM子分類器進(jìn)行測(cè)試，統(tǒng)計(jì)在M個(gè)決策函數(shù)結(jié)果中各類別的得票數(shù)。最后，得票數(shù)最多的類別為該待識(shí)別樣本的類別。若有兩個(gè)以上類別的得票數(shù)相等且最多，則判定該待識(shí)別樣本為標(biāo)號(hào)最小的類別。

本實(shí)驗(yàn)使用9人在不同SNR（0 dB，5 dB，10 dB，15 dB，20 dB，25 dB，30 dB，無噪音）下的發(fā)音作為訓(xùn)練數(shù)據(jù)庫，語音樣本分別為10詞、20詞、30詞、40詞、50詞韓語發(fā)音，且每人每個(gè)詞發(fā)音3次。因此，整個(gè)數(shù)據(jù)庫在不同SNR下分別有10、20、30、40、50個(gè)類別，對(duì)應(yīng)的訓(xùn)練樣本分別有270、540、810、1 080、1 350個(gè)。語音信號(hào)采樣率為11.025 kHz，語音幀長為256點(diǎn)，幀移為128點(diǎn)。語音中的噪聲為高斯白噪聲。使用另外7人在相應(yīng)SNR下的發(fā)音樣本作為識(shí)別數(shù)據(jù)庫。實(shí)驗(yàn)平臺(tái)為VC++6.0，實(shí)驗(yàn)工具為開放源碼的LIBSVM[4]。

實(shí)驗(yàn)中首先對(duì)SVM的懲罰參數(shù)C和Gaussian核參數(shù)γ利用網(wǎng)格搜索法進(jìn)行參數(shù)尋優(yōu)。將C分別取{20，21，22，…，214，215}等16個(gè)值，γ分別取{20，2-0.5，2-1，…，2-9.5，2-10}等21個(gè)值，使用這16×21對(duì)( ) C，γ組合分別利用訓(xùn)練數(shù)據(jù)庫訓(xùn)練SVM，從而將在不同詞匯量和不同信噪比情況下，綜合識(shí)別率最高的( ) C，γ組合作為最終的SVM參數(shù)。實(shí)驗(yàn)最終選定的參數(shù)為(C ，γ)=(29，2-9)，得到如表1的不同信噪比和不同詞匯量下的識(shí)別準(zhǔn)確率，并與基于RBF神經(jīng)網(wǎng)絡(luò)語音識(shí)別（輸入的特征參數(shù)為相同的MFDWCs）結(jié)果作比較。

4 實(shí)驗(yàn)結(jié)果與結(jié)論

從表2中可以看到，基于SVM識(shí)別網(wǎng)絡(luò)的語音識(shí)別系統(tǒng)比基于RBF人工神經(jīng)網(wǎng)絡(luò)更高的識(shí)別準(zhǔn)確率。在0～30 dB以及純凈語音的情況下，SVM的平均識(shí)別率均高于RBF人工神經(jīng)網(wǎng)絡(luò)的識(shí)別率。特別是在0 dB、5 dB低信噪比的情況下，SVM的識(shí)別率分別為87.53%、94.22%，而RBF的識(shí)別率分別為82.14%、91.98%，這表明SVM的識(shí)別精度下降比RBF要小很多，充分證明SVM具有非常良好的魯棒性和泛化性能。圖1是SVM與RBF在不同信噪比下的平均識(shí)別率的對(duì)比圖。

本文主要研究了基于支持向量機(jī)的小詞匯量語音識(shí)別系統(tǒng)。與RBF人工識(shí)別網(wǎng)絡(luò)相比，特別是在低信噪比情況下，支持向量機(jī)具有更高的識(shí)別率。今后的工作中，需要進(jìn)一步從理論上研究SVM具有優(yōu)良抗噪性能的原因。此外，將對(duì)支持向量機(jī)在更大詞匯量語音識(shí)別系統(tǒng)中的性能進(jìn)行實(shí)驗(yàn)研究。

表2 不同信噪比下SVM與RBF識(shí)別準(zhǔn)確率的比較（%）

圖1 SVM與RBF平均識(shí)別準(zhǔn)確率的比較

[1]Vapnik V N.Statistical learning theory[M].New York：John Wiley and Sons，1998.

[2]鄧乃揚(yáng)，田英杰.支持向量機(jī)——理論、算法與拓展[M].北京：科學(xué)出版社，2009.

[3]Zhang Xueying，Bai Jing，Liang Wuzhou.The speech recognition system based on bark wavelet MFCC[C]//8th International Conference on Signal Processing.Beijing：[s.n.]，2006：16-20.

[4]Chang Chih-Chung，Lin Chih-Jen.LIBSVM：a library for support vector machines[EB/OL].[2010-10-15].http：//www.csie. ntu.edu.tw/～cjlin/libsvm.

[5]Hsu Chih-Wei，Lin Chih-Jen.A comparison of methods for multiclass support vector machines[J].IEEE Transactions on Neural Networks，2002，13（2）.

GUO Chao1,ZHANG Xueying1,LIU Xiaofeng2

1.College of Information Engineering,Taiyuan University of Technology,Taiyuan 030024,China
2.Department of Math,College of Science,Taiyuan University of Technology,Taiyuan 030024,China

A low SNR speech recognition system for isolated words and non-specific speakers is constructed in this paper.Improved MFCC speech features（Mel-Frequency Discrete Wavelet Cepstral Coefficients,MFDWCs）are adopted and Support Vector Machines（SVM）is utilized as classification algorithm.The system obtains higher recognition accuracy,comparing to the results based on RBF Artificial Neural Network（ANN）.The experimental results show SVM possesses better robustness than RBF ANN,especially in low SNRs.

support vector machines;Gaussian kernel;speech recognition;low Signal Noise Ratio（SNR）

采用改進(jìn)的MFCC語音特征參數(shù)（Mel頻率離散小波倒譜系數(shù)），使用支持向量機(jī)作為分類算法，構(gòu)建了低信噪比環(huán)境下的孤立詞非特定人語音識(shí)別系統(tǒng)，取得了較高的識(shí)別率。將實(shí)驗(yàn)結(jié)果與基于RBF神經(jīng)網(wǎng)絡(luò)的識(shí)別結(jié)果進(jìn)行比較，結(jié)果表明在低信噪比時(shí)，SVM的識(shí)別率比使用RBF神經(jīng)網(wǎng)絡(luò)有較大提高，具有非常好的魯棒性。

支持向量機(jī)；Gaussian核；語音識(shí)別；低信噪比

TN912

10.3778/j.issn.1002-8331.1107-0460

GUO Chao,ZHANG Xueying,LIU Xiaofeng.Application of support vector machines in low SNR speech recognition. Computer Engineering and Applications,2013,49（5）：213-215.

國家自然科學(xué)基金（No.61072087）。

郭超（1987—），男，碩士研究生，主要研究領(lǐng)域?yàn)檎Z音信號(hào)處理；張雪英（1964—），女，教授，博士生導(dǎo)師，主要研究領(lǐng)域?yàn)檎Z音信號(hào)處理；劉曉峰（1979—），男，博士研究生，講師，主要研究領(lǐng)域?yàn)橹悄芩惴ā?shù)值計(jì)算。E-mail：tyzhangxy@163.com

2011-07-22

2011-09-23

1002-8331（2013）05-0213-03

CNKI出版日期：2011-11-14 http://www.cnki.net/kcms/detail/11.2127.TP.20111114.0939.030.html