王彪
(寶雞文理學(xué)院 數(shù)學(xué)系,陜西 寶雞 721013)
一種改進(jìn)的LPCC參數(shù)提取方法研究
王彪
(寶雞文理學(xué)院 數(shù)學(xué)系,陜西 寶雞 721013)
為了提高語(yǔ)音信號(hào)的識(shí)別率,提出了一種改進(jìn)的LPCC參數(shù)提取方法。該方法先對(duì)語(yǔ)音信號(hào)進(jìn)行預(yù)加重、分幀加窗處理,然后進(jìn)行小波分解,在此基礎(chǔ)上提取LPCC參數(shù),從而構(gòu)成新向量作為每幀信號(hào)的特征參數(shù)。最后采用高斯混合模型(GMM)進(jìn)行說話人語(yǔ)音識(shí)別,實(shí)驗(yàn)表明新特征參數(shù)取得了較好的識(shí)別率。
特征提?。恍〔ㄗ儞Q;分解;LPCC參數(shù);語(yǔ)音信號(hào)
語(yǔ)音識(shí)別技術(shù)是新世紀(jì)一門十分熱門的技術(shù),涉及多個(gè)領(lǐng)域,在社會(huì)生活中具有舉足輕重的重要意義。而語(yǔ)音信號(hào)特征參數(shù)又是語(yǔ)言識(shí)別領(lǐng)域的重中之重,選取良好的特征參數(shù)有助于提高語(yǔ)音識(shí)別率。
語(yǔ)音信號(hào)是一種短時(shí)平穩(wěn)信號(hào),即時(shí)變的,十分復(fù)雜,攜帶很多有用的信息,這些信息包括語(yǔ)義、個(gè)人特征等等,其特征參數(shù)的準(zhǔn)確性和唯一性將直接影響語(yǔ)音識(shí)別率的高低,并且這也是語(yǔ)音識(shí)別的基礎(chǔ)。
小波分析具有多分辨率分析的特點(diǎn),在時(shí)頻兩域都具有表征信號(hào)局部特征的能力,很適合探測(cè)正常信號(hào)中夾帶的突變和噪聲,成為信號(hào)處理的重要工具之一。
為提高語(yǔ)音識(shí)別率,本文應(yīng)用小波分析的特點(diǎn),提出了一種改進(jìn)的語(yǔ)音信號(hào)LPCC參數(shù)提取方法。本文方法先對(duì)語(yǔ)音信號(hào)進(jìn)行預(yù)加重、分幀加窗處理,然后進(jìn)行小波分解,在此基礎(chǔ)上求取LPCC參數(shù),以此作為列向量,構(gòu)成一個(gè)新向量作為語(yǔ)音信號(hào)的特征向量,以此表征每幀信號(hào)。本文方法提取的特征參數(shù)具有唯一性,且是數(shù)字化的,在一定程度上提高了語(yǔ)音信號(hào)的識(shí)別率。
線性預(yù)測(cè)倒譜參數(shù)[1](LPCC)是線性預(yù)測(cè)系數(shù)(LPC)在倒譜域中的表示。該特征是基于語(yǔ)音信號(hào)為自回歸信號(hào)的值時(shí),利用線性預(yù)測(cè)分析獲得倒譜系數(shù)。該特征是基于語(yǔ)音信號(hào)為自回歸信號(hào)的值時(shí),利用線性預(yù)測(cè)分析獲得倒譜系數(shù)。LPCC參數(shù)的優(yōu)點(diǎn)是計(jì)算量小,易于實(shí)現(xiàn),對(duì)元音有較好的描述能力,其缺點(diǎn)在于對(duì)輔音的描述能力差,抗噪聲性能較差。
由于通過自相關(guān)法求得的LPC系數(shù)保證了系統(tǒng)的穩(wěn)定性,使得下面式(1)所對(duì)應(yīng)的聲道模型傳輸函數(shù)具有最小相位。
利用這一特點(diǎn),可以推導(dǎo)出語(yǔ)音信號(hào)的倒譜c(n)和LPC系數(shù)之間的遞推關(guān)系:
或是由LPC得到:
根據(jù)同態(tài)處理的概念和語(yǔ)音信號(hào)產(chǎn)生的模型,語(yǔ)音信號(hào)的倒譜c(n)等于激勵(lì)信號(hào)的倒譜(n)與聲道傳輸函數(shù)的倒譜(n)之和。通過分析激勵(lì)信號(hào)的語(yǔ)音特點(diǎn)以及聲道傳輸函數(shù)的零極點(diǎn)分布情況,可知(n)的分布范圍很寬,c(n)從低時(shí)域延伸到高時(shí)域,而(n)主要分布于低時(shí)域中。語(yǔ)音信號(hào)所攜帶的語(yǔ)義信息主要體現(xiàn)在聲道傳輸函數(shù)上,因而在語(yǔ)言識(shí)別中通常取語(yǔ)音信號(hào)倒譜的低時(shí)域構(gòu)成LPC倒譜特征c,即:
式中,q為L(zhǎng)PC倒譜特征的階數(shù)。
小波分析是一種將窗口大小固定不變,而其形狀可變,且時(shí)間窗和頻率窗都可以改變的時(shí)頻局部化分析方法。小波分析對(duì)非平穩(wěn)信號(hào)具有很好的自適應(yīng)性,這是因?yàn)槠渚哂性诟哳l部分有較高的時(shí)間分辨率及較低的頻率分辨率,而在低頻部分有較高的頻率分辨率及較低的時(shí)間分辨率的特性。小波分析發(fā)展了傳統(tǒng)的傅立葉變換思想,對(duì)非平穩(wěn)信號(hào)具有更好的分析能力。
設(shè)ψ(t)∈L2(R),(L2(R)為平方可積的實(shí)數(shù)空間),其傅里葉變換為(ω)。 當(dāng)(ω)滿足允許條件(Admissible Condition):
時(shí),稱ψ(t)為一個(gè)母小波(Mother Wavelet)。將母函數(shù)ψ(t)經(jīng)伸縮和平移后,可得到一個(gè)小波序列。
對(duì)于連續(xù)的情況,小波序列為:
其中,a為伸縮因子,b為平移因子。
對(duì)于離散的情況,小波序列為:
改進(jìn)的LPCC參數(shù)[3]提取過程如下:
1)對(duì)語(yǔ)音信號(hào)進(jìn)行預(yù)加重、分幀加窗處理。
預(yù)加重:為便于對(duì)語(yǔ)音信號(hào)進(jìn)行頻譜分析或聲道參數(shù)分析,需要對(duì)其進(jìn)行預(yù)加重處理。一般地,通過一個(gè)一階的預(yù)加重?cái)?shù)字濾波器來(lái)實(shí)現(xiàn)預(yù)加重處理,其傳遞函數(shù)為:
其中,u為預(yù)加重濾波器的系數(shù),其取值范圍是0.94~0.97。
分幀加窗:由于語(yǔ)音信號(hào)是一種典型的非平穩(wěn)信號(hào),其特性是隨時(shí)間變化的。為便于對(duì)其進(jìn)行分析,要將其分成一段一段的,每段信號(hào)稱為一幀,每幀長(zhǎng)度一般為10~30 ms,認(rèn)為在這個(gè)小時(shí)間段內(nèi)語(yǔ)音信號(hào)是平穩(wěn)的。我們用加窗函數(shù)來(lái)將語(yǔ)音信號(hào)進(jìn)行分幀處理。
2)對(duì)每幀信號(hào)進(jìn)行3層小波分解,提取第3層各結(jié)點(diǎn)的小波系數(shù),依次記為:s1、s2、s3、s4、s5、s6、s7、s8。
3)對(duì) s1、s2、s3、s4、s5、s6、s7、s8 分別求取 8 階 LPCC 參數(shù),參數(shù)向量記為 d1、d2、d3、d4、d5、d6、d7、d8。
4)將 d1、d2、d3、d4、d5、d6、d7、d8 作為列向量,構(gòu)成一個(gè)新向量T,即:
將T作為語(yǔ)音信號(hào)的特征向量,以此表征每幀信號(hào)。
改進(jìn)的LPCC參數(shù)提取過程如圖1所示。
圖1 改進(jìn)的LPCC參數(shù)提取過程圖Fig.1 Improved LPCC parameter extraction process Graph
采用高斯混合模型(GMM)進(jìn)行說話人語(yǔ)音識(shí)別,以驗(yàn)證新特征參數(shù)的效果。將GMM應(yīng)用于說話人識(shí)別的直觀解釋是[4]:每個(gè)說話人的語(yǔ)音聲學(xué)特征空間可以用一些聲學(xué)特征類來(lái)表示,這些聲學(xué)特征類代表一些廣義上的音素,如元音、清輔音、摩擦音等,并且能夠反映說話人的聲帶形狀。
錄制5個(gè)人的語(yǔ)音,每人錄制3句話:“今天”、“我是大學(xué)生”。語(yǔ)句逐漸復(fù)雜,從而能夠更好驗(yàn)證新特征參數(shù)的效果。分別提取語(yǔ)音信號(hào)的傳統(tǒng)LPCC參數(shù)和本文提出的新特征參數(shù),并分別建立GMM模型進(jìn)行測(cè)試。測(cè)試時(shí),對(duì)語(yǔ)音信號(hào)進(jìn)行染噪處理,分別對(duì)每個(gè)語(yǔ)音以信噪比0 dB、5 dB加入噪聲,在計(jì)算相似度之后,進(jìn)行規(guī)范化,最后得出每個(gè)語(yǔ)音的識(shí)別率結(jié)果。下表是語(yǔ)音信號(hào)在不同信噪比下的識(shí)別率。
表1 語(yǔ)音信號(hào)在不同信噪比下的識(shí)別率Tab.1 Speech signal in different signal to noise ratio of recognition rate
從上表可以看出:在不同噪聲環(huán)境下,如給語(yǔ)音分別以信噪比0 dB、5 dB加噪時(shí),采用本文方法進(jìn)行語(yǔ)音識(shí)別得到了比傳統(tǒng)LPCC參數(shù)方法更高的識(shí)別率。這說明本文方法能在一定程度上提高說話人的語(yǔ)音識(shí)別率,基本能夠達(dá)到預(yù)期的目的。
首先介紹了語(yǔ)音信號(hào)的傳統(tǒng)LPCC參數(shù)[5];其次敘述了小波分析;再次以此為基礎(chǔ),提出了一種新特征參數(shù)的提取方法;最后通過GMM模型進(jìn)行說話人識(shí)別,在不同噪聲環(huán)境下,分別對(duì)語(yǔ)音信號(hào)按傳統(tǒng)LPCC參數(shù)[6]方法和本文方法進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)表明新特征參數(shù)取得了較好的識(shí)別率。
當(dāng)然,本文還有一定的不足之處,如:能否更加精細(xì)、更加準(zhǔn)確的特征參數(shù)T。這是今后工作中亟待解決的問題。
[1]王炳錫,屈丹,彭煊,等.實(shí)用語(yǔ)音識(shí)別基礎(chǔ)[M].北京:國(guó)防工業(yè)出版社,2005.
[2]胡昌華,李國(guó)華,劉濤,等.基于MATLAB 6.X的系統(tǒng)分析與設(shè)計(jì)——小波分析[M].2版.西安:西安電子科技大學(xué)出版社,2004.
[3]陳杰,張玲華,吳璽宏.基于小波包一LPCC的說話人識(shí)別
特征參數(shù) [J].南京郵電大學(xué)學(xué)報(bào):自然科學(xué)版,2007,27(6):54-56.
CHEN Jie,ZHANG Ling-hua,WU Xi-hong. Feature extraction based on waveletPacket-LPCC in speaker recognition[J].Journal of Nanjing University of Post and Telecommunications:Natrtal Science,2007,27(6):54-56.
[4]韓紀(jì)慶,張磊,鄭鐵然.語(yǔ)音信號(hào)處理[M].北京:清華大學(xué)出版社,2004.
[5]榮薇,陶智,顧濟(jì)華,等.基于改進(jìn)LPCC和MFCC的漢語(yǔ)耳語(yǔ)音識(shí)別[J].計(jì)算機(jī)工程與應(yīng)用, 2007,43(30):213-216.
RONG Wei,TAO Zhi,GU Ji-hua,et al.Identification of Chinese whispered speech based on modified LPCC and MFCC[J].Computer Engineering and Applicafiom,2007,43(30):213-216.
[6]余建潮,張瑞林.基于MFCC和LPCC的說話人識(shí)別[J].計(jì)算機(jī)工程與設(shè)計(jì),2009,30(5):1189-1191.
YU Jian-chao,ZHANG Rui-1in.Speaker recognition method using MFCC and LPCC features[J].Computer Engineering and Design,2009,30(5):1189-1191.
An emproved LPCC parameter extraction method research
WANG Biao
(Mathematics Department,Baoji University of Arts and Sciences,Baoji721013,China)
In order to improve the speech recognition rate,an improved LPCC parameter extraction method is proposed.First the pre-emphasis, frames and windows processing is conducted to speech signal in the method,then wavelet decomposition is used, the LPCC parameter is extracted on the basis,thus a new vector is formed as each frame signal characteristic parameter.Finally, the Gauss mixed model (GMM) is used for speaker speech recognition, and experiment shows that the new characteristic parameters obtaines better recognition rate.
feature extraction;wavelet transform;decomposition;LPCC parameter;speech signals
TP311
A
1674-6236(2012)06-0029-02
2012-01-02稿件編號(hào):201201004
寶雞文理學(xué)院院級(jí)重點(diǎn)項(xiàng)目(ZK11127)
王 彪(1982—),男,天津人,碩士,助教。研究方向:信號(hào)處理。
book=33,ebook=357