羅 元,吳承軍,張 毅,黎小松,席 兵
(1.重慶郵電大學(xué) 光電信息感測(cè)與傳輸技術(shù)重點(diǎn)實(shí)驗(yàn)室,重慶 400065;2.重慶郵電大學(xué) 信息無障礙工程研發(fā)中心,重慶 400065)
?
Mel頻率下基于LPC的語音信號(hào)深度特征提取算法
羅元1,吳承軍1,張毅2,黎小松2,席兵1
(1.重慶郵電大學(xué) 光電信息感測(cè)與傳輸技術(shù)重點(diǎn)實(shí)驗(yàn)室,重慶 400065;2.重慶郵電大學(xué) 信息無障礙工程研發(fā)中心,重慶 400065)
摘要:針對(duì)傳統(tǒng)語音信號(hào)二次特征提取方法在保證識(shí)別率的前提下,實(shí)時(shí)性較差的問題,提出一種Mel頻率下基于線性預(yù)測(cè)系數(shù)(linear predictive coefficient,LPC)的改進(jìn)的語音信號(hào)深度特征提取算法。該方法根據(jù)人耳的聽覺特性把LPC在Mel頻率下進(jìn)行非線性變換,再進(jìn)行微分、高階微分和按比例重組等步驟,得到一種既考慮聲道激勵(lì)又兼顧人耳聽覺的新特征參數(shù),從而大大減少傳統(tǒng)語音信號(hào)深度特征提取的計(jì)算量,在不影響識(shí)別效率的情況下,極大提高系統(tǒng)的實(shí)時(shí)性。最后,將該算法在智能輪椅平臺(tái)進(jìn)行有效性驗(yàn)證,大量實(shí)驗(yàn)表明,語音控制系統(tǒng)實(shí)時(shí)性差的問題在使用該算法后能夠得到明顯改善,該算法既保證了特征提取識(shí)別率,也有效地改善了系統(tǒng)的實(shí)時(shí)性。在一定程度上使語音控制智能輪椅更具實(shí)用性。
關(guān)鍵詞:語音識(shí)別;線性預(yù)測(cè)系數(shù);Mel頻率倒譜系數(shù);Mel-LPC算法;深度特征提取
0引言
隨著語音識(shí)別技術(shù)廣泛應(yīng)用到各個(gè)領(lǐng)域,人們對(duì)語音識(shí)別系統(tǒng)在復(fù)雜環(huán)境下的實(shí)時(shí)性有了更高的要求。而由于目前孤立詞語音識(shí)別系統(tǒng)實(shí)時(shí)性差,人們無法在更多領(lǐng)域使用語音識(shí)別對(duì)一些設(shè)備進(jìn)行控制。因此,需要對(duì)語音信號(hào)的特征提取方法進(jìn)行改進(jìn),使語音識(shí)別系統(tǒng)具有更快的反應(yīng)速度。
目前,在語音信號(hào)的二次特征提取中,應(yīng)用較多的是對(duì)頻譜包絡(luò)特征尤其是倒譜特征進(jìn)行二次特征提取,主要有線性預(yù)測(cè)倒譜系數(shù)(linear prediction cepstrum coefficient, LPCC)和美爾倒譜系數(shù)(Mel-frequency cepstrum coefficients, MFCC)[1-4],以及微分后的LPCC與MFCC參數(shù)進(jìn)行加權(quán)和重組的方法。基于LPCC參數(shù)的二次特征提取算法簡(jiǎn)單,系統(tǒng)實(shí)時(shí)性較好,但其識(shí)別率較低,只有87%左右,而基于LPCC與MFCC參數(shù)結(jié)合的二次特征提取算法雖然識(shí)別率較高,但運(yùn)算量巨大,處理單一語音幀特征時(shí)間高達(dá)47 ms,故實(shí)時(shí)性較差[5]。
因此,我們提出了一種改進(jìn)的深度特征提取算法。該算法首先在線性預(yù)測(cè)系數(shù)(linear predictive coefficient,LPC)的基礎(chǔ)上,對(duì)特征參數(shù)進(jìn)行Mel頻率的尺度變換,然后再對(duì)特征參數(shù)進(jìn)行進(jìn)一步提取。與分別提取LPC和MFCC參數(shù)相比,該方法能大幅度減少運(yùn)算量,解決實(shí)時(shí)性差的問題;而且,算法融入了MFCC提取過程中模擬人耳聽覺機(jī)理,既具有LPC聲道激勵(lì)的優(yōu)點(diǎn),又具備MFCC的魯棒性,因此,能有效地提升系統(tǒng)的識(shí)別率。
1傳統(tǒng)語音信號(hào)二次特征提取原理
語音信號(hào)的特征提取,其本質(zhì)是對(duì)語音信號(hào)進(jìn)行降維,用較少的維度表現(xiàn)了時(shí)域上的語音信號(hào)[1,6],二次特征提取則是對(duì)已經(jīng)提取出的常用特征向量序列進(jìn)行再分析[7],常用的語音特征包括基音(pitch),共振峰(formant),MFCC,LPCC以及線譜對(duì)系數(shù)(linear specturm pairs,LSP)等[6]。圖1是將LPCC與MFCC融合的二次特征提取算法的語音識(shí)別基本流程。
此算法分別對(duì)LPCC與MFCC運(yùn)用加權(quán)、微分,并將二者按照一定比例進(jìn)行重組,得到新的特征參數(shù),根據(jù)不同算法的需要,為了達(dá)到最優(yōu)的識(shí)別效果,各方法先后次序可以調(diào)換并且多次使用。此方法的優(yōu)點(diǎn)是可以進(jìn)一步剝離隱藏在語音背后的潛在語音特征[8]。但由于其大量使用了LPCC,MFCC以及其一階、二階微分參數(shù),所以運(yùn)算量其實(shí)是相當(dāng)大的。經(jīng)過大量實(shí)驗(yàn)證明,這種傳統(tǒng)的二次特征提取方法不具有較好的實(shí)時(shí)性,且識(shí)別率并不是很高。
圖1 傳統(tǒng)語音二次特征提取流程圖Fig.1 Flow chart of traditional speech signal further features extraction
Mel-LPC特征是將LPC參數(shù)通過具有人的耳蝸效應(yīng)的Mel濾波器組[9-10]進(jìn)行變換的一種特征參數(shù),進(jìn)行改進(jìn)的二次特征提取,能夠進(jìn)一步提高本語音識(shí)別系統(tǒng)的實(shí)時(shí)性。
2基于Mel-LPC的深度特征提取
任何特定時(shí)間點(diǎn)的信號(hào),通過LPC,可以用該時(shí)間點(diǎn)以前的若干個(gè)任意時(shí)間點(diǎn)信號(hào)的線性加權(quán)來預(yù)測(cè),而MFCC與LPC不同,它是受人耳聽覺特性的啟發(fā)從而得到發(fā)展,它先將信號(hào)頻譜的頻率軸轉(zhuǎn)變?yōu)镸el刻度,再變換到倒譜域得到倒譜系數(shù)。將Mel頻率變換得到的Mel-LPC參數(shù)進(jìn)一步特征提取,得到F_Mel-LPC特征參數(shù),圖2為改進(jìn)的深度特征提取流程圖。
圖2 改進(jìn)的Mel-LPC深度特征提取流程圖Fig.2 Flow chart of improved Mel-LPC further features extraction
2.1線性預(yù)測(cè)系數(shù)
根據(jù)語音產(chǎn)生的模型,假設(shè)一個(gè)線性移不變穩(wěn)定因果系統(tǒng),它在受到信號(hào)激勵(lì)時(shí)產(chǎn)生輸出,這個(gè)輸出就是語音信號(hào)。而在時(shí)域中,將單位取樣響應(yīng)和激勵(lì)信號(hào)進(jìn)行卷積,即可得到該系統(tǒng)的語音信號(hào)。另外我們使用了全極點(diǎn)模型,即(1)式描述了語音信號(hào)產(chǎn)生的聲道模型。
(1)
根據(jù)最小均方誤差對(duì)該模型參數(shù)αp進(jìn)行估計(jì),就得到了LPC算法,求得的αp就是線性預(yù)測(cè)系數(shù),P是預(yù)測(cè)階數(shù)。
2.2Mel頻率濾波器
將語音頻譜的幅度或能量通過Mel濾波器組進(jìn)行濾波,即可得到Mel頻率,通常Mel頻率用以模擬耳蝸的頻率響應(yīng)。圖3為Mel濾波器組示意圖,為使圖像顯示的性能更直觀,圖3中縱坐標(biāo)采用歸一化單位。所謂Mel濾波器組,就是將若干個(gè)三角濾波器組配置在Mel頻率軸上,由Mel尺度得到該濾波器組的帶寬以及中心頻率,決定濾波器個(gè)數(shù)的因素主要是信號(hào)截止頻率,我們等間隔分配了Mel頻率軸上三角濾波器的中心頻率。
圖3 Mel頻率尺度濾波器組
(2)
(2)式中,L為濾波器的個(gè)數(shù)。
根據(jù)語音信號(hào)的線性頻譜Xn(k)求得每個(gè)三角濾波器的輸出為
(3)
(4)
(4)式中,o(l)可以用式(5)表示為
(5)
(5)式中:fl和fu分別為濾波器的頻率范圍的最低頻率和最高頻率;N為FFT變換窗寬,為采樣頻率;而B-l為B的逆函數(shù),表示為
(6)
2.3Mel-LPC特征參數(shù)
一般來說,語音信號(hào)是一種非平穩(wěn)的時(shí)變信號(hào),但由于發(fā)聲器官的狀態(tài)變化速度與聲音的振動(dòng)速度相比,要緩慢得多,同時(shí)為了簡(jiǎn)化系統(tǒng)模型,通常人們認(rèn)為非平穩(wěn)的語音信號(hào)在較短的時(shí)間內(nèi)(5-50ms)可以看作一種平穩(wěn)信號(hào)。因此,人們用短時(shí)譜來描述語音特征,比如倒譜。通過倒譜的定義可直接求得倒譜系數(shù),然而為了減少不必要的計(jì)算,通常情況下也可由線性預(yù)測(cè)系數(shù)遞推得到。在求得了LPC參數(shù)之后,根據(jù)人的聽覺特性把上述參數(shù)進(jìn)一步按Mel尺度進(jìn)行非線性變換,從而求出Mel-LPC特征參數(shù)。
(7)
(7)式中:Ck表示倒譜系數(shù);MCk表示美爾倒譜系數(shù);n為迭代次數(shù),k為美爾倒譜階數(shù),取n=k。當(dāng)抽樣頻率為8kHz時(shí),α為頻率扭曲因子,通過調(diào)節(jié)α值可以找到近似于美爾尺度的方法。Mel-LPC算法簡(jiǎn)單,因?yàn)榍彝瑫r(shí)考慮了聲道激勵(lì)和人耳聽覺,在移動(dòng)語音控制領(lǐng)域中具有相當(dāng)大的優(yōu)勢(shì)。
2.4改進(jìn)的深度特征提取算法
Mel-LPC雖然大大縮短了語音特征參數(shù)的提取時(shí)間,但其在特定環(huán)境下識(shí)別率較MFCC有所下降,針對(duì)此問題,我們需要對(duì)于提取出的Mel-LPC特征參數(shù)進(jìn)行深度特征提取,從而提高識(shí)別率。
語音信號(hào)x(n)經(jīng)過預(yù)加重、分幀、加窗等預(yù)處理工作后,計(jì)算每一幀的LPC系數(shù)α,α的長(zhǎng)度與一幀語音信號(hào)的長(zhǎng)度相等。每幀的LPC經(jīng)過快速傅立葉變換(fastFouriertransformation,FFT)得到離散頻譜xα(k)。然后取頻譜模的平方|xα(k)|2得到離散能量譜。通過Mel濾波器組對(duì)上述能量譜進(jìn)行濾波,計(jì)算每個(gè)三角濾波器的輸出對(duì)數(shù)能量,再經(jīng)過余弦變換得到Mel-LPC系數(shù)。
接下來是對(duì)Mel-LPC特征參數(shù)進(jìn)行微分,首先需要采集語音特征向量的連續(xù)動(dòng)態(tài)變化軌跡,這里我們使用特征微分來獲取。特征矢量的變化速度由一階微分獲得,特征矢量的變化加速度由二階微分獲得。
D_Feature(j)i=Feature(j)i-Feature(j-1)i
(8)
(8)式中:Feature是原始特征的向量序列,即Mel-LPC:D_Feature是原始特征向量序列的一階微分;i=0,1,…,P,j=1,2,…,N,P為特征階數(shù),N為特征向量數(shù)。
對(duì)于得到的Feature,D_Feature等一系列向量進(jìn)行組合,因?yàn)椴煌恼Z音微分向量表現(xiàn)出了說話人語音的不同特征,將它們用特定的比例加權(quán)重組,可以進(jìn)一步凸顯固化語音信號(hào)特征。將3種不同階數(shù)的特征向量按照不同的加權(quán)比率進(jìn)行重組,見式(9),得到一組全新的二次特征參數(shù)F_Mel-LPC。
F_Mel-LPC=
(9)
3實(shí)驗(yàn)及分析
3.1算法性能比較
本算法在Inter Pentium 2.5 GHz、內(nèi)存2 GByte的計(jì)算機(jī)上,通過Cool Edit采集采樣率為44.1 kHz,16位數(shù)的采樣精度的語音信號(hào),利用短時(shí)能量和平均過零率的兩級(jí)判決方法進(jìn)行語音端點(diǎn)檢測(cè),采用隱馬爾科夫模型(hidden markov model,HMM)作為語音識(shí)別模型[11-12]。從上萬次重復(fù)性語音控制指令中,選擇10名男性和10名女性的語音指令作為實(shí)驗(yàn)樣本,在MATLAB上進(jìn)行仿真實(shí)驗(yàn)。我們主要對(duì)LPCC,MFCC,與Mel-LPC的二次特征提取時(shí)間以及識(shí)別率進(jìn)行比較,分析了系統(tǒng)接收到語音信號(hào)后的反應(yīng)時(shí)間,驗(yàn)證了本算法是兼顧實(shí)時(shí)性與識(shí)別率的有效算法。圖4表現(xiàn)了頻率扭曲因子對(duì)F_LPCC,F(xiàn)_MFCC,Mel-LPC及F_Mel-LPC的識(shí)別率的影響。
圖4中橫坐標(biāo)表示α的值,縱坐標(biāo)代表了識(shí)別率百分比,圖4上不同的線分別代表了F_LPCC,F(xiàn)_MFCC,Mel-LPC及F_Mel-LPC算法的識(shí)別率隨著扭曲因子α的變化曲線??梢钥闯觯?dāng)α小于0.2時(shí),F(xiàn)_Mel-LPC算法識(shí)別率沒有明顯高于Mel-LPC,且二者識(shí)別率均低于傳統(tǒng)F_LPCC。但隨著α值的增加,F(xiàn)_Mel-LPC算法由于對(duì)原始特征進(jìn)行了深度提取,所以識(shí)別率較Mel-LPC有明顯提高,在α=0.3時(shí)已經(jīng)能夠達(dá)到傳統(tǒng)F_LPCC的識(shí)別效果,而當(dāng)α=0.4時(shí),F(xiàn)_Mel-LPC算法識(shí)別率要略高于其他幾種算法,對(duì)于孤立詞具有較好的識(shí)別效果。
圖4 頻率扭曲因子對(duì)4種算法識(shí)別率的影響Fig.4 Influence of frequency twist factor on this four algorithms
在MATLAB平臺(tái)上進(jìn)行語音識(shí)別特征提取研究及仿真實(shí)驗(yàn),分別運(yùn)用F_Mel-LPC,F(xiàn)_LPCC,F(xiàn)_MFCC及Mel-LPC對(duì)一些常用的孤立詞匯進(jìn)行特征提取,對(duì)比其性能。并通過在實(shí)際環(huán)境下進(jìn)行語音控制實(shí)驗(yàn),20人說出同一指令,計(jì)算其識(shí)別率,尋找出性能最佳的孤立詞語音特征提取算法。4種算法的識(shí)別結(jié)果如表1。
表1 4種算法的識(shí)別結(jié)果
表1統(tǒng)計(jì)了F_Mel-LPC算法和幾種主流算法的平均識(shí)別率,可以看出,經(jīng)過二次特征提取的F_Mel-LPC對(duì)比Mel-LPC識(shí)別率有明顯提高。下面測(cè)試幾種語音識(shí)別算法的反應(yīng)時(shí)間,在MATLAB中,使用tic/toc重復(fù)測(cè)試5次,分別測(cè)得F_Mel-LPC,F(xiàn)_LPCC,Mel-LPC及F_MFCC 4種算法將一幀語音信號(hào)提取所消耗的時(shí)間如圖5所示。另外,為了減少F_MFCC特征的提取時(shí)間,此次測(cè)試將MFCC提取步驟中的DFT(discrete Fourier transform)變換調(diào)整為FFT(fast Fourier transform),從而使提取MFCC特征的時(shí)間減少到原來的十分之一。
圖5 5次實(shí)驗(yàn)中4種特征提取算法所耗時(shí)間對(duì)比Fig.5 Time four algorithms spent in five tests
從圖5可以看出,由于F_Mel-LPC算法只是在線性預(yù)測(cè)分析的基礎(chǔ)上增加了Mel頻率濾波器,并對(duì)其進(jìn)行二次特征提取,因此,對(duì)于F_Mel-LPC算法的特征提取時(shí)間僅比F_LPCC略高,遠(yuǎn)小于F_MFCC。而即便是改進(jìn)了的F_MFCC特征提取方法,它的耗時(shí)仍遠(yuǎn)大于F_Mel-LPC算法。表2是幾種特征提取方法的平均提取一幀語音特征的時(shí)間。
表2 4種算法提取一幀語音特征的平均時(shí)間
由表1、圖5以及表2可知,在相同的環(huán)境下,F(xiàn)_Mel-LPC算法的識(shí)別率分別比F_LPCC和Mel-LPC高出了7.29%和2.48%,且與F_MFCC方法相比,識(shí)別率也高出了3.69%;在一幀語音特征提取所耗費(fèi)的時(shí)間上,F(xiàn)_Mel-LPC算法比F_LPCC高8 ms,比Mel-LPC高3 ms,但遠(yuǎn)低于F_MFCC的47 ms,所以具有更好的實(shí)時(shí)性。綜上所述,F(xiàn)_Mel-LPC算法改進(jìn)了基于Mel頻率的LPC特征提取方法,提高了孤立詞的語音識(shí)別率,同時(shí)具有較短的特征提取時(shí)間,具有更好的實(shí)時(shí)性。
3.2算法有效性驗(yàn)證
為了進(jìn)一步驗(yàn)證F_Mel-LPC算法的有效性,將“前進(jìn)、后退、左轉(zhuǎn)、右轉(zhuǎn)、停止”5個(gè)語音詞匯作為智能輪椅的控制指令。通過讓4位受試者分別使用基于傳統(tǒng)二次特征提取算法和深度二次特征提取算法對(duì)智能輪椅進(jìn)行重復(fù)性實(shí)驗(yàn),完成指定的路線(如圖6所示)。設(shè)定的輪椅控制方式為搭載2種算法的PC筆記本識(shí)別受試者的語音指令,通過串口將指令發(fā)送至智能輪椅控制系統(tǒng),最終實(shí)現(xiàn)語音對(duì)智能輪椅的基本控制。
圖6 實(shí)驗(yàn)路徑Fig.6 Path of experiments
圖7為試者采用2種算法操作智能輪椅完成該路線時(shí)在不同時(shí)間段的軌跡。
圖7 采用2種算法進(jìn)行人機(jī)交互的輪椅軌跡Fig.7 Wheelchair trajectory of using two algorithms
可以看出,由于傳統(tǒng)二次特征提取算法的實(shí)時(shí)性較差,導(dǎo)致智能輪椅反應(yīng)時(shí)間明顯比改進(jìn)算法要長(zhǎng),受試者很難完全掌控智能輪椅的路徑,產(chǎn)生了很多誤識(shí)別動(dòng)作。而經(jīng)過優(yōu)化后的F_Mel-LPC特征提取算法的路徑則有明顯的改進(jìn),整體比較規(guī)整,可操控性較強(qiáng)。
表3為采用2種算法的受試者完成指定路線所用的時(shí)間??梢钥闯觯茉囌咴诓捎脗鹘y(tǒng)二次特征提取算法時(shí),總體耗時(shí)較長(zhǎng),且穩(wěn)定性較差。而采用F_Mel-LPC算法進(jìn)行測(cè)試時(shí),平均耗時(shí)明顯降低,且穩(wěn)定性大大優(yōu)于前者。
表3 4位受試者采用2種算法完成指定路線所用時(shí)間
4結(jié)論
我們提出了一種基于Mel頻率下LPC的語音信號(hào)深度特征提取方法,該算法既保留了傳統(tǒng)LPCC算法的實(shí)時(shí)性,運(yùn)算量與傳統(tǒng)MFCC算法相比大幅減小,降低了系統(tǒng)的功耗,同時(shí)也提高了語音識(shí)別系統(tǒng)的識(shí)別率。所以,本算法將更適合應(yīng)用于對(duì)系統(tǒng)實(shí)時(shí)性要求比較高的特定功能語音控制設(shè)備,比如對(duì)智能輪椅的控制,能夠使智能輪椅語音識(shí)別系統(tǒng)的時(shí)效性和識(shí)別準(zhǔn)確率得到較大提高。
參考文獻(xiàn):
[1]LAWRENCE R R,RONALD W S. Theory and applications of digital speech processing[M]. Beijing: Publishing House of Electronics Industry,2011.
[2]GIACOBELLO D,CHRISTENSEN M G,MURTHI M N,et al. Sparse linear prediction and its applications to speech processing[J]. Audio, Speech, and Language Processing,2012,20(5):1644-1657.
[3]張毅,何春江,羅元,等. 基于改進(jìn)感知非均勻譜壓縮的魯棒語音識(shí)別算法[J]. 信息與控制,2013,42(5):565-569.
ZHANG Yi,HE Chunjiang,LUO Yuan,et al. A robust speech recognition method based on improved perception Non-uniform spectral compression[J]. Information and Control,2013,42(5):565-569.
[4]ISLAM M B,RAHMAN M M. Performance evaluation of blind equalization for Mel-LPC based speech recognition under different noisy conditions[J]. International Journal of Computer Applications,2013,65(4):4-8.
[5]蔡敏. 基于多特征組合優(yōu)化的漢語數(shù)字語音識(shí)別研究[J]. 電子器件,2013,36(2):282-284.CAI Min. Study of Chinese digital speech recognition based on various features combinatorial optimization[J]. Chinese Journal of Electron Devices,2013,36(2):282-284.
[6]KUO S M,LEE B H,TIAN W. Real-Time digital signal processing: fundamentals, implementations and applications[M]. New York:John Wiley & Sons,2013.
[7]李戰(zhàn)明,林娟,陳若珠.組合特征和二級(jí)判斷模型相結(jié)合的說話人識(shí)別[J].計(jì)算機(jī)工程與應(yīng)用,2011,47(10):180-182.
LI Zhanming,LIN Juan,CHEN Ruozhu. Speaker recognition method using combined features extraction and Two-stage decision model[J]. Computer Engineering and Applications,2011,47(10):180-182.
[8]項(xiàng)要杰,楊俊安,李晉徽,等.一種適用于說話人識(shí)別的改進(jìn)Mel濾波器[J].計(jì)算機(jī)工程,2013,39(11):214-217.
XIANG Yaojie,YANG Junan,LI Jinhui, et al. An improved Mel-frequency filter for speaker recognition[J]. Computer Engineering,2013,39(11):214-217.
[9]鄒欣,李萬龍,劉琚. 基于二維 ICA 變換的語音特征提取[J]. 山東大學(xué)學(xué)報(bào):工學(xué)版,2007,37(4):85-88.
ZOU Xin,LI Wanlong,LIU Ju. Speech feature extraction based on 2-D independent component analysis[J]. Journal of Shandong University:Engineering Science,2007,37(4):85-88.
[10] 姚敏鋒,李心廣,楊佳能.基于語音特征聚類的HMM語音識(shí)別系統(tǒng)研究[J].微計(jì)算機(jī)信息,2012,28(10):458-460.YAO Minfeng,LI Xinguang,YANG Jianeng. The study of speech recognition based on sound characteristic clustering and HMM[J]. Microcomputer Information,2012,28(10):458-460.
[11] HSU D,KAKADE S M,ZHANG T. A spectral algorithm for learning hidden Markov models[J]. Journal of Computer and System Sciences,2012,78(5):1460-1480.
A further speech signal features extraction algorithm based on LPC Mel frequency scale
LUO Yuan1, WU Chengjun1, ZHANG Yi2, LI Xiaosong2
(1. Key Lab of Optical Sensing Information and Transmission Technology, Chongqing University of Posts and Telecommunications,Chongqing 400065, P.R. China;2. Engineering Research & Development Center of Information Accessibility,Chongqing University of Posts and Telecommunications, Chongqing 400065, P.R. China)
Abstract:According to the bad real-time performance of the traditional further speech signal features extraction algorithm in the premise of ensuring the recognition rate, a further speech signal features extraction algorithm based on linear predictive coefficient(LPC) Mel frequency scale is put forward in this paper. This method transforms LPC with Mel-frequency in a nonlinear way, calculates the derivative, high order differential and combines the feature according to a certain proportion to realize a new features parameter which takes both the channel incentives and the human auditory into account. So the calculation quantity of the traditional speech signal further features extraction is decreased sharply. The real-time performance of the system is improved in the premise of ensuring the recognition rate. Through the intelligent wheelchair platform to verify the validity of the algorithm, a lot of experiments show that the problem of real-time performance is not good of traditional algorithm can be improved effectively; this algorithm can improve the real-time performance and the practicability, on the basis of ensuring the recognition rate of the further features extraction.
Keywords:speech recognition;linear prediction coefficient;Mel-frequency cepstrum coefficients;Mel-LPC algorithm;further features extraction
DOI:10.3979/j.issn.1673-825X.2016.02.006
收稿日期:2014-12-04
修訂日期:2015-10-04通訊作者:吳承軍wucj.summer@foxmail.com
基金項(xiàng)目:重慶市自然科學(xué)基金重點(diǎn)項(xiàng)目(CSTC2015jcyjB0241);重慶市教委科技項(xiàng)目(KJ13051)
Foundation Items:The Key Science and Tchnology Project of CQ CSTC (CSTC2015jcyjB0241);The Scientific and Technology Research Project of Chongqing Municipal Education Commission(KJ13051)
中圖分類號(hào):TN912.3/TP311
文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1673-825X(2016)02-0174-06
作者簡(jiǎn)介:
羅元(1972-),女,貴州貴陽人,教授,博士,主要研究領(lǐng)域?yàn)樾盘?hào)與信息處理,數(shù)字圖像處理。E-mail:luoyuan@cqupt.edu.cn。
吳承軍(1990-),男,江蘇徐州人,碩士研究生,主要研究領(lǐng)域?yàn)檎Z音識(shí)別與智能機(jī)器人。E-mail:wucj.summer@foxmail.com。
張毅(1966-),男,重慶人,教授,博士生導(dǎo)師,博士后,主要研究領(lǐng)域?yàn)橹悄軝C(jī)器人及應(yīng)用、生物信號(hào)處理及應(yīng)用、信息無障礙技術(shù)。E-mail:zhangyi99@263.net。
黎小松(1988-),男,湖南邵陽人,碩士研究生,主要研究領(lǐng)域?yàn)檎Z音識(shí)別。 E-mail: lxscqyddx@163.com。
席兵(1972-),男,江蘇沛縣人,碩士,主要研究領(lǐng)域?yàn)樾盘?hào)處理、通信網(wǎng)測(cè)試儀器儀表。E-mail:xibing@cqupt.edu.cn。
(編輯:張誠(chéng))