田雪陽+楊宇++劉子寒+李淵
LI Yuan
(上海電機(jī)學(xué)院,上海 201306)
(Shanghai Dianji University,Shanghai 201306,China)
摘要:在基于虛擬儀器LabVIEW的環(huán)境中,通過與MATLAB相結(jié)合設(shè)計(jì)一個(gè)語音識(shí)別登陸系統(tǒng),對(duì)電腦聲卡采集到的語音信號(hào)進(jìn)行處理分析,提取聲音的特征參數(shù)Mel倒譜系數(shù)并保存,然后通過矢量量化的模式匹配來進(jìn)行身份確認(rèn)。
Abstract: The whole study is based on virtual instrument LabVIEW with the combination of MATLAB. This system processes and analyzes the voice signal collected by computers sound card, then extracts the signals characteristic parameters MFCC and save them in the computer. The parameters are designed through VQ algorithma to identify speaker.
關(guān)鍵詞:語音識(shí)別;LabVIEW;MATLAB;Mel倒譜系數(shù);矢量量化算法
Key words: speech recognition;LabVIEW;MATLAB;MFCC;VQ algorithm
中圖分類號(hào):TN912.3 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1006-4311(2017)21-0203-03
1 語音識(shí)別模型
語音識(shí)別系統(tǒng)是建立在一定的硬件平臺(tái)和操作系統(tǒng)之上的一套應(yīng)用軟件系統(tǒng)。語音識(shí)別一般分兩個(gè)步驟,第一步是訓(xùn)練階段,是建立識(shí)別基本單元的聲學(xué)模型以及進(jìn)行文法分析的語言模型等;第二步是語音識(shí)別階段,根據(jù)實(shí)際情況的要求采用一種語音識(shí)別的算法,采用語音分析方法分析出這種識(shí)別方法所要求的語音特征參數(shù),按照一定的準(zhǔn)則和測度與系統(tǒng)模型進(jìn)行比較,通過判決得出識(shí)別結(jié)果。
2 Mel倒譜系數(shù)
語音信號(hào)的時(shí)域分析通常是將一幀語音信號(hào)中的各個(gè)時(shí)域采樣值直接構(gòu)成一個(gè)參數(shù)矢量,這種分析方法的特點(diǎn)是表示語音信號(hào)比較直觀、物理意義明確、實(shí)現(xiàn)起來比較簡單、運(yùn)算量少等。語音信號(hào)的頻域分析就是分析語音信號(hào)的頻域特性,這種參數(shù)是將一幀語音信號(hào)進(jìn)行某種變化后而產(chǎn)生的參數(shù)矢量。在語音信號(hào)的頻域特征參數(shù)中,目前使用最為廣泛的是線性預(yù)測倒譜系數(shù)(Linear Predictive Cepstral Coding,LPCC)和Mel頻率倒譜系數(shù)(Mel Frequency Cepstral Coefficient,MFCC),由于MFCC更符合人耳的聽覺特性,因此本文語音識(shí)別系統(tǒng)采用的特征參數(shù)是MFCC。下面將著重介紹其相關(guān)理論和提取過程。
2.1 MFCC原理
4 系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
4.1 語音采集
系統(tǒng)運(yùn)行以后,點(diǎn)擊“樣本采集存儲(chǔ)”,此語音的特征參數(shù)相當(dāng)于是保存識(shí)別的“鑰匙”,圖2為語音信號(hào)采集的程序框圖。
4.2 語音分析
語音信號(hào)特征參數(shù)MFCC的提取,是通過使用LabVIEW中對(duì)MATLAB腳本節(jié)點(diǎn)調(diào)用的方法來實(shí)現(xiàn)的。將輸入的語音信號(hào)先降噪預(yù)處理,再提取其MFCC參數(shù),訓(xùn)練其VQ碼本,進(jìn)行語音識(shí)別時(shí)則計(jì)算樣本語音信號(hào)的VQ碼本和測試語音信號(hào)MFCC之間的歐氏距離,判斷其是否小于設(shè)定的閾值。
5 系統(tǒng)測試與結(jié)論
系統(tǒng)前面板的測試結(jié)果如圖3所示,左邊的為硬件控制面板,本系統(tǒng)與Arduino硬件進(jìn)行數(shù)據(jù)傳輸,可以將測試結(jié)果在Uno板上顯示。設(shè)定好采樣時(shí)間為10s,采集完樣本語音和測試語音信號(hào)后,點(diǎn)擊“語音對(duì)比”,語音信號(hào)的MFCC參數(shù)在前面板上顯示,語音匹配的LED指示燈亮起,失真測度顯示為3.87(設(shè)定的閾值為4.1)。
經(jīng)過測試,當(dāng)設(shè)定采樣時(shí)間為5s時(shí),語音識(shí)別的成功率為87%,設(shè)定采樣時(shí)間為10s時(shí),識(shí)別的成功率為96%;經(jīng)過多次測試,當(dāng)錄入的語音文本內(nèi)容不相同時(shí),得到的失真測度相差不大,并且都可以通過識(shí)別。同時(shí),使用頭戴式耳機(jī)比直接使用電腦聲卡直接采集語音信號(hào)的識(shí)別率更高。
可見,當(dāng)樣本語音錄入時(shí)間越長,那么提取的特征參數(shù)越精確,并且使用MFCC和VQ算法作為語音信號(hào)特征參數(shù)提取的語音登陸系統(tǒng),實(shí)現(xiàn)的是以文本內(nèi)容無關(guān)的說話人確認(rèn)。
在錄入語音文本內(nèi)容相同,錄入語音時(shí)間相同的情況下,使用頭戴式耳機(jī)的失真測度比直接使用電腦麥克風(fēng)收音的失真測度要低,即室內(nèi)噪聲對(duì)識(shí)別準(zhǔn)確度還是有一定的影響。
6 結(jié)束語
本系統(tǒng)采用的是基于提取語音特征參數(shù)Mel倒譜系數(shù)MFCC的基礎(chǔ)上,使用矢量量化VQ的識(shí)別算法進(jìn)行語音特征匹配。通過研究VQ的特性,并且通過對(duì)特征參數(shù)、碼本容量的大小和失真測度的選取,完全能夠進(jìn)行基本的語音識(shí)別,并且計(jì)算量也很小,識(shí)別速度也相對(duì)較快,具有一定的實(shí)用性。
參考文獻(xiàn):
[1]趙力.語音信號(hào)處理[M].二版.機(jī)械工業(yè)出版社,2009.
[2]周鵬.許鋼.馬曉瑜.汪石農(nóng).張明艷.精通LabVIEW信號(hào)處理[M].北京:清華大學(xué)出版社,2013.
[3]劉平.LabVIEW程序設(shè)計(jì)基礎(chǔ)[M].北京:清華大學(xué)出版社,2012.
[4]欒穎.MATLAB R2013a工程分析與仿真[M].北京:清華大學(xué)出版社,2014.