王彪
(寶雞文理學(xué)院 數(shù)學(xué)系,陜西 寶雞 721013)
語(yǔ)音識(shí)別(speech recognition)是機(jī)器通過(guò)識(shí)別和理解過(guò)程把人類(lèi)的語(yǔ)音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的技術(shù)。其根本目的是研究出一種具有聽(tīng)覺(jué)功能的機(jī)器,這種機(jī)器能直接接受人的語(yǔ)音,理解人的意圖,并做出相應(yīng)的反映[1]。
隨著計(jì)算機(jī)和語(yǔ)音處理技術(shù)的發(fā)展,語(yǔ)音識(shí)別技術(shù)已成為目前世界上最熱門(mén)的技術(shù)之一。它以語(yǔ)音為研究對(duì)象,涉及多個(gè)學(xué)科,目前發(fā)展已經(jīng)相當(dāng)成熟。但它仍然面臨很多問(wèn)題,嚴(yán)重制約其發(fā)展。不過(guò),隨著語(yǔ)音識(shí)別技術(shù)的不斷發(fā)展,相信問(wèn)題將會(huì)逐漸得到解決,從而反過(guò)來(lái)也會(huì)促使語(yǔ)音識(shí)別技術(shù)不斷完善,使其在我們的日常生活中發(fā)揮越來(lái)越重要的作用。例如:語(yǔ)音撥號(hào)系統(tǒng)、信息網(wǎng)絡(luò)查詢(xún)系統(tǒng)、旅游業(yè)及服務(wù)業(yè)的各種查詢(xún)系統(tǒng)、車(chē)用導(dǎo)航系統(tǒng)、家用電器遙控系統(tǒng)、語(yǔ)音訂票系統(tǒng)等等,這些領(lǐng)域都離不開(kāi)語(yǔ)音識(shí)別技術(shù)。
為了能夠達(dá)到識(shí)別簡(jiǎn)單語(yǔ)音的要求,筆者設(shè)計(jì)了一個(gè)基于LPCC參數(shù)的語(yǔ)音識(shí)別系統(tǒng)。該系統(tǒng)包含以下幾個(gè)主要功能:錄制語(yǔ)音、播放語(yǔ)音、預(yù)處理、分段濾波、特征提取和識(shí)別語(yǔ)音。 最后以“0,1,2,3,4,5,6,7,8,9”10 個(gè)語(yǔ)音為例進(jìn)行仿真實(shí)驗(yàn),實(shí)驗(yàn)驗(yàn)證了本系統(tǒng)基本能夠?qū)崿F(xiàn)識(shí)別簡(jiǎn)單語(yǔ)音的任務(wù),取得了預(yù)期的結(jié)果。
線性預(yù)測(cè)倒譜參數(shù)(LPCC)[2]是線性預(yù)測(cè)系數(shù)(LPC)在倒譜域中的表示。該特征是基于語(yǔ)音信號(hào)為自回歸信號(hào)的值時(shí),利用線性預(yù)測(cè)分析獲得倒譜系數(shù)。該特征是基于語(yǔ)音信號(hào)為自回歸信號(hào)的值時(shí),利用線性預(yù)測(cè)分析獲得倒譜系數(shù)。LPCC參數(shù)的優(yōu)點(diǎn)是計(jì)算量小,易于實(shí)現(xiàn),對(duì)元音有較好的描述能力,其缺點(diǎn)在于對(duì)輔音的描述能力差,抗噪聲性能較差。
由于通過(guò)自相關(guān)法求得的LPC系數(shù)保證了系統(tǒng)的穩(wěn)定性,使得式(1)所對(duì)應(yīng)的聲道模型傳輸函數(shù)具有最小相位。
利用這一特點(diǎn),可以推導(dǎo)出語(yǔ)音信號(hào)的倒譜和LPC系數(shù)之間的遞推關(guān)系:
或是由LPC得到
根據(jù)同態(tài)處理的概念和語(yǔ)音信號(hào)產(chǎn)生的模型,語(yǔ)音信號(hào)的倒譜 c(n)等于激勵(lì)信號(hào)的倒譜e^(n)與聲道傳輸函數(shù)的倒譜h^(n)之和。通過(guò)分析激勵(lì)信號(hào)的語(yǔ)音特點(diǎn)以及聲道傳輸函數(shù)的零極點(diǎn)分布情況,可知e^(n)的分布范圍很寬,c(n)從低時(shí)域延伸到高時(shí)域,而h^(n)主要分布于低時(shí)域中。語(yǔ)音信號(hào)所攜帶的語(yǔ)義信息主要體現(xiàn)在聲道傳輸函數(shù)上,因而在語(yǔ)言識(shí)別中通常取語(yǔ)音信號(hào)倒譜的低時(shí)域構(gòu)成LPC倒譜特征c,即
式中,q為L(zhǎng)PC倒譜特征的階數(shù)。
文中設(shè)計(jì)了一個(gè)基于MFCC參數(shù)的語(yǔ)音識(shí)別系統(tǒng),其基本能夠識(shí)別簡(jiǎn)單的語(yǔ)音單元。該系統(tǒng)主要功能有錄制語(yǔ)音、播放語(yǔ)音、預(yù)處理、分段濾波、特征提取和識(shí)別語(yǔ)音。平臺(tái)功能劃分如圖1所示。
圖1 系統(tǒng)功能模塊圖Fig.1 Module chart of system function
根據(jù)本系統(tǒng)的各個(gè)功能,將其分成3個(gè)大的核心模塊。分別是采集模塊、處理模塊和識(shí)別模塊。
1)錄制語(yǔ)音 通過(guò)麥克風(fēng)錄入聲音,并保存為.wav的格式,以備后用。
用函數(shù) wavrecord錄制語(yǔ)音,然后用函數(shù)wavwrite(y,filename)將變量y中儲(chǔ)存的數(shù)據(jù)寫(xiě)入名為filename的WAVE文件中。
2)播放語(yǔ)音 播放已錄制的語(yǔ)音WAVE文件,并輸出其波形圖和語(yǔ)譜圖。
在此,用wavread和sound函數(shù)分別讀取、播放語(yǔ)音。求取波形圖和語(yǔ)譜圖時(shí),要用到length函數(shù)和FFT變換。通過(guò)波形圖和語(yǔ)譜圖能夠得到語(yǔ)音信號(hào)的時(shí)域和頻域信息,把此二者結(jié)合起來(lái)能夠比較準(zhǔn)確的判斷其頻率、能量等有用信息,從而為后續(xù)的處理提供可靠的數(shù)據(jù)基礎(chǔ)。
1)預(yù)處理 對(duì)前面錄制的語(yǔ)音信號(hào)進(jìn)行去除噪聲和端點(diǎn)檢測(cè)處理,為后續(xù)工作提供更加清晰有效的信號(hào)。即去除語(yǔ)音信號(hào)在產(chǎn)生、傳輸及接收的過(guò)程中所污染到噪聲;端點(diǎn)檢測(cè)就是找到信號(hào)中有用的語(yǔ)音成分。這些工作都是語(yǔ)音信號(hào)處理工作所不可缺少的重要環(huán)節(jié)。
2)分段濾波 對(duì)經(jīng)預(yù)處理后語(yǔ)音信號(hào)進(jìn)行分段濾波,將不同頻率的語(yǔ)音信號(hào)分離開(kāi),從而能夠更好的識(shí)別語(yǔ)音信號(hào)。本文用濾波器組將語(yǔ)音信號(hào)分成M個(gè)子帶信號(hào)[3],根據(jù)每個(gè)子帶信號(hào)所具有的能量的不同,也即“重要性”不同,而進(jìn)行不同的對(duì)待和處理。
3)特征提取 語(yǔ)音的特征參數(shù)能有效地體現(xiàn)說(shuō)話(huà)人語(yǔ)音所包含的與其他說(shuō)話(huà)人不同的特點(diǎn),它在整個(gè)識(shí)別過(guò)程中起著至關(guān)重要的作用。文中提取語(yǔ)音信號(hào)的LPCC參數(shù)[4],以表征段語(yǔ)音,為后面的識(shí)別工作提供一個(gè)較為可靠的參考數(shù)據(jù)。
1)模式匹配 新錄入的語(yǔ)音經(jīng)特征提取后,將其特征參數(shù)與數(shù)據(jù)庫(kù)中參考模板的特征參數(shù)按照某種原則進(jìn)行匹配比較,找出相似度最高、失真率最低的參考模板所對(duì)應(yīng)的語(yǔ)音,此語(yǔ)音即為識(shí)別結(jié)果。
2)輸出結(jié)果 輸出前面的識(shí)別結(jié)果。輸出結(jié)果有兩種,待識(shí)別語(yǔ)音特征參數(shù)與數(shù)據(jù)庫(kù)中模板特征參數(shù)的相似度符合條件,則可以識(shí)別,輸出識(shí)別結(jié)果,如:待識(shí)別語(yǔ)音為“1”;否則,輸出“庫(kù)中無(wú)此語(yǔ)音!”。
1)語(yǔ)音模板的獲取
運(yùn)用系統(tǒng)的采集模塊錄制一個(gè)普通男聲聲音,錄制“0,1,2,3,4,5,6,7,8,9”10 個(gè)語(yǔ)音為實(shí)驗(yàn)對(duì)象, 分別命名為0a.wav、1a.wav、2a.wav、3a.wav、4a.wav、5a.wav、6a.wav、7a.wav、8a.wav、9a.wav。分析處理后,提取特征參數(shù)[5],經(jīng)過(guò)模板訓(xùn)練,為10個(gè)語(yǔ)音分別選取最合適的語(yǔ)音作為模板,存入數(shù)據(jù)庫(kù)建立參考模型庫(kù)。
2)待測(cè)語(yǔ)音的獲取
類(lèi)似, 錄制一組普通男聲的聲音, 同樣為“0,1,2,3,4,5,6,7,8,9”10 個(gè)語(yǔ)音,作為 10 個(gè)待測(cè)語(yǔ)音信號(hào)。分別命名為0b.wav、1b.wav、2b.wav、3b.wav、4b.wav、5b.wav、6b.wav、7b.wav、8b.wav、9b.wav。
3)語(yǔ)音識(shí)別
用文中的方法對(duì)10個(gè)待測(cè)語(yǔ)音進(jìn)行識(shí)別。首先讀入語(yǔ)音信號(hào)的wav文件,用函數(shù)wavread來(lái)完成;其次,對(duì)讀入信號(hào)進(jìn)行端點(diǎn)檢測(cè),應(yīng)用函數(shù)vad來(lái)處理;再次,提取其LPCC參數(shù)作為特征參數(shù),并將所有特征參數(shù)分別存入到參考模板的結(jié)構(gòu)數(shù)組中或待測(cè)語(yǔ)音的結(jié)構(gòu)數(shù)組中。接下來(lái),要求得所有待測(cè)語(yǔ)音和參考模板之間的距離,以進(jìn)行模式匹配,并將這些距離存入矩陣dist,然后用函數(shù)min找出最小累積距離,其對(duì)應(yīng)的模板即為所要的識(shí)別結(jié)果。
仿真實(shí)驗(yàn)結(jié)果如圖2所示。
從上圖中可以看出,程序完成了任務(wù)要求,獲得了正確的識(shí)別結(jié)果。進(jìn)而表示本系統(tǒng)的識(shí)別模塊能較好的完成識(shí)別簡(jiǎn)單語(yǔ)音的任務(wù)。
文中首先介紹了LPCC參數(shù)[6-7],然后敘述了文中語(yǔ)音識(shí)別系統(tǒng)的各個(gè)功能模塊,并對(duì)各個(gè)模塊進(jìn)行詳細(xì)設(shè)計(jì),最后通 過(guò) 實(shí) 驗(yàn) 驗(yàn) 證 本 文 系 統(tǒng) 的 可 行 性 。 以 “0,1,2,3,4,5,6,7,8,9”10 個(gè)語(yǔ)音為例,錄制多組語(yǔ)音,從中選定參考模板和待測(cè)語(yǔ)音,用本系統(tǒng)對(duì)待測(cè)語(yǔ)音進(jìn)行識(shí)別,從程序的輸出結(jié)果可以看出,識(shí)別得到了正確的結(jié)果。這充分說(shuō)明了本系統(tǒng)能夠完成識(shí)別簡(jiǎn)單語(yǔ)音的任務(wù)。
圖2 語(yǔ)音識(shí)別結(jié)果Fig.2 Speech recognition result
盡管本系統(tǒng)也存在一定的不足之處,如:對(duì)于整句語(yǔ)音不能很好處理,并且在復(fù)雜環(huán)境下(較高噪聲時(shí))也存在一定的局限性,這都是亟待改進(jìn)的地方。
[1]韓紀(jì)慶,張磊,鄭鐵然.語(yǔ)音信號(hào)處理[M].北京:清華大學(xué)出版社,2004.
[2]王炳錫,屈丹,彭煊,等.實(shí)用語(yǔ)音識(shí)別基礎(chǔ)[M].北京:國(guó)防工業(yè)出版社,2005.
[3]秦毅,秦樹(shù)人,毛永芳.連續(xù)小波變換快速帶通濾波實(shí)現(xiàn)算法的研究[J].振動(dòng)與沖擊,2008,27(12):23-27.
QIN Yi,QIN Shu-ren,MAO Yong-fang.Fash algorithm for continuous wavelet transform based on band-pass filtering[J].Journal of Vibration and Shock,2008,27(12):23-27.
[4]陳杰,張玲華,吳璽宏.基于小波包一LPCC的說(shuō)話(huà)人識(shí)別特征參數(shù) [J].南京郵電大學(xué)學(xué)報(bào):自然科學(xué)版,2007,27(6):54-56.
CHEN Jie,ZHANG Ling-hua,WU Xi-hong. Feature extraction based on waveletpacket-LPCC in speaker recognition[J].Journal of Nanjing University of Post and Telecommunications:Natrtal Science, 2007,27(6):54-56.
[5]李萓.語(yǔ)音特征參數(shù)提取方法研究[D].西安:西安電子科技大學(xué),2006.
[6]榮薇,陶智,顧濟(jì)華,等.基于改進(jìn)LPCC和MFCC的漢語(yǔ)耳語(yǔ)音識(shí)別[J].計(jì)算機(jī)工程與應(yīng)用, 2007,43(30):213-216.
RONG Wei,TAO Zhi,GU Ji-hua,et al.Identification of Chinese whispered speech based on modified LPCC and MFCC[J].Computer Engineering and Applicafiom,2007,43(30):213-216.
[7]余建潮,張瑞林.基于MFCC和LPCC的說(shuō)話(huà)人識(shí)別[J].計(jì)算機(jī)工程與設(shè)計(jì),2009,30(5):1189-1191.
YU Jian-chao,ZHANG Rui-1in.Speaker recognition method using MFCC and LPCC features[J].Computer Engineering and Design,2009,30(5):1189-1191.