楊順遼
長江大學(xué)電子信息學(xué)院,湖北荊州 434023
同態(tài)解卷處理在基音檢測中的應(yīng)用
楊順遼
長江大學(xué)電子信息學(xué)院,湖北荊州 434023
人類語音分為濁音和清音,其中發(fā)濁音時(shí)氣流通過聲門使得聲帶產(chǎn)生張弛震蕩式振動(dòng),從而產(chǎn)生準(zhǔn)周期氣流脈沖,該氣流脈沖激勵(lì)聲道就產(chǎn)生濁音。這種聲帶振動(dòng)的頻率稱為基頻,相應(yīng)的周期就稱為基音周期?;糁芷诰哂袝r(shí)變性和準(zhǔn)周期性,其大小與聲帶、發(fā)音習(xí)慣、發(fā)音者年齡、性別和發(fā)音時(shí)的情感有關(guān)[1]。基音周期的估計(jì)稱為基音檢測,是語音處理中一個(gè)重要參數(shù),基音檢測是語音處理中的關(guān)鍵環(huán)節(jié)和難點(diǎn)所在。
人們已經(jīng)提出了多種基音檢測方法,如自相關(guān)函數(shù)法[2]、平均幅度差函數(shù)法[3]、小波變換法[4]等,而基于同態(tài)濾波的基音檢測法也引起了研究者的重視[5]。
基音檢測的難點(diǎn)在于聲道特性對基音的影響難以去除。本文采用同態(tài)解卷處理,將聲門激勵(lì)信號和聲道特性進(jìn)行分離,并對處理結(jié)果采用頻率不變線性低通濾波器進(jìn)行濾波,然后再采用自相關(guān)法檢測基音周期,從而減小聲道特性和噪聲對基音檢測的影響,以提高基音檢測的精度。
語音信號產(chǎn)生過程較復(fù)雜,影響因素多,人們希望建立語音信號產(chǎn)生的數(shù)字模型,以利用數(shù)字信號處理技術(shù)來實(shí)現(xiàn)發(fā)音器官的模擬。1930年Duddley發(fā)明的聲碼器為語音信號產(chǎn)生模型的建立提供了依據(jù)。其基本思想是將語音產(chǎn)生過程分為激勵(lì)和系統(tǒng)兩個(gè)部分,語音信號就是激勵(lì)和系統(tǒng)的卷積結(jié)果,如圖1所示[6]。
圖1 語音信號產(chǎn)生模型
圖1所示語音產(chǎn)生模型表明,語音信號中濁音可以看做是一個(gè)周期信號激勵(lì)于系統(tǒng)的響應(yīng),而清音是隨機(jī)噪聲激勵(lì)于系統(tǒng)的響應(yīng)。顯然,濁音中的基音受到了聲門模型、聲道模型和口唇輻射模型的綜合影響,而這些模型會(huì)對從濁音中檢測出基音的準(zhǔn)確性產(chǎn)生影響。
基音頻率一般處于80~500 Hz之間,而聲道特性中的第一共振峰頻率與基音頻率最為接近,其對基音檢測影響最大。
3.1 基本原理
同態(tài)解卷處理是以倒譜和復(fù)倒譜為基礎(chǔ)的。所謂復(fù)倒譜,是對序列x(n)的傅里葉變換X(ejω)取對數(shù):
然后再進(jìn)行傅里葉逆變換所得序列x?(n)即為序列x(n)的復(fù)倒譜。顯然,如果將X(ejω)表示成幅度和相位的形式,則有:即包含了實(shí)部和虛部,實(shí)部為對數(shù)幅度譜,虛部為相位。
所謂倒譜是對序列x(n)的傅里葉變換X(ejω)的幅度取對數(shù),即
然后再進(jìn)行傅里葉逆變換所得序列cx(n)即為序列x(n)的倒譜。
如果有一個(gè)序列x(n)為兩個(gè)序列x1(n)和x2(n)的卷積,即
則其復(fù)倒譜x?(n)和倒譜cx(n)為:
也就是將兩序列的卷積運(yùn)算變成了加法運(yùn)算,即滿足廣義的疊加原理,滿足廣義疊加原理的系統(tǒng)就稱為同態(tài)系統(tǒng)[7]。
復(fù)倒譜是可逆的,也就是一個(gè)序列可由它的復(fù)倒譜恢復(fù)出來,即將復(fù)倒譜的傅里葉變換取指數(shù)運(yùn)算:
然后再作傅里葉逆變換即可恢復(fù)原序列x(n)。
既然復(fù)倒譜運(yùn)算可以將卷積運(yùn)算關(guān)系變?yōu)榫€性求和運(yùn)算關(guān)系,因此可以將激勵(lì)信號和系統(tǒng)單位脈沖響應(yīng)加以分離?;纛l率低于聲道的共振峰頻率,因此,在濁音的復(fù)倒譜中,“低時(shí)”部分對應(yīng)于頻率較高的聲道特性,而“高時(shí)”部分對應(yīng)于頻率較低的基音。所以可以采用頻率不變線性高通濾波器實(shí)現(xiàn)解卷處理,以減小聲道對基音檢測的影響。
3.2 基音檢測步驟
根據(jù)上述原理,可得出基于同態(tài)解卷處理的基音檢測步驟如下:
(1)對濁音進(jìn)行傅里葉變換;
(2)對變換結(jié)果取對數(shù)然后再進(jìn)行逆變換;
(3)進(jìn)行頻率不變線性濾波,取出“高時(shí)”部分;
(4)進(jìn)行傅里葉變換;
(5)對變換結(jié)果取指數(shù)運(yùn)算并進(jìn)行傅里葉逆變換;
(6)自相關(guān)法進(jìn)行基音檢測。
上述檢測流程如圖2所示。
圖2 基于同態(tài)解卷的基音檢測流程
4.1 理論模型的處理
為了驗(yàn)證本文方法的可行性,下面通過理論模型進(jìn)行處理。聲門及聲道諧振作用的綜合影響用下式進(jìn)行模擬[8]:
而發(fā)濁音時(shí)的激勵(lì)信號為:
其中β0=0.98,β1=1,α=r=0.9,θ=π/6,N0=15時(shí)的波形如圖3所示。其中圖3(c)為聲道和激勵(lì)信號的卷積,即聲音信號的模擬。
圖3(d)為利用同態(tài)解卷處理分離出的激勵(lì)信號,對復(fù)倒譜采用的是頻率不變線性高通濾波器濾波。顯然,采用同態(tài)解卷處理分離出的激勵(lì)與原始激勵(lì)信號模型基本相同,其周期性保留得較完整,而且基本不受聲門和聲道特性的影響。表明該方法用于提取基音能夠減少聲門和聲道特性的影響,從而可以提高基音檢測的精度。
4.2 實(shí)際語音的處理
下面通過一段實(shí)際的語音進(jìn)行基音檢測的驗(yàn)證。圖4(a)為成年男性發(fā)濁音“啊”時(shí)的一幀語音時(shí)域波形,采樣率為16 kHz,幀長為400,從圖中可以看出,基音周期為110個(gè)樣點(diǎn)數(shù),從時(shí)域波形中可估計(jì)出其基音頻率為16 kHz/110= 145.45 Hz。圖4(b)為該語音的自相關(guān)結(jié)果,顯然,自相關(guān)具有周期性,可以用來檢測基音周期,估計(jì)出的基音頻率也為145.45 Hz。但是,無論是從時(shí)域波形還是從其自相關(guān)結(jié)果來看,都具有明顯的高頻成分,在進(jìn)行基音檢測時(shí)易對檢測結(jié)果產(chǎn)生影響。
在基音檢測處理中為了減小聲道特性的影響,往往采用低通濾波預(yù)處理然后再進(jìn)行基音檢測,低通濾波器的截止頻率一般取900 Hz[5,9],這樣處理雖然在一定程度上能減小聲道特性的影響,但是仍然含有一定的高頻成分,對基音檢測還是會(huì)存在影響。圖4(a)的語音信號經(jīng)過900 Hz的低通濾波器濾波后的波形及其自相關(guān)如圖5所示。
圖3 理論模型及其處理結(jié)果
圖4 語音時(shí)域波形及其直接自相關(guān)
圖6(a)為采用本文方法進(jìn)行同態(tài)解卷所得到的基音激勵(lì)信號。圖中存在兩個(gè)明顯的類似于沖激的等間隔脈沖,其間隔為110個(gè)樣點(diǎn)數(shù)。圖6(b)為圖6(a)的自相關(guān)處理結(jié)果,圖6(b)中檢測出的基音周期為110個(gè)樣點(diǎn)數(shù),即145.45 Hz,與直接相關(guān)檢測結(jié)果相同。但是圖6(b)與圖4(b)和圖5(b)相比較,顯然圖6(b)中沒有明顯的其他周期成分,即減小了聲道特性對基音檢測的影響。
圖7為一段高信噪比(60 dB)濁音采用直接相關(guān)法、低通濾波后再相關(guān)處理法和本文同態(tài)解卷后再相關(guān)處理方法檢測的基音頻率檢測結(jié)果,其中橫坐標(biāo)為語音幀序號,縱坐標(biāo)為頻率,單位為Hz。
圖7表明在高信噪比語音中,三種方法均能較準(zhǔn)確地檢測出基音頻率,檢測出的頻率在145 Hz左右,與時(shí)域觀察結(jié)果一致。
圖6 同態(tài)解卷分離出的激勵(lì)信號及其自相關(guān)
圖7 高信噪比語音三種方法檢測基音頻率對比
圖8 低信噪比語音三種方法檢測基音頻率對比
圖8為受隨機(jī)噪聲干擾的濁音語音(信噪比為17 dB)采用上述三種方法檢測出的基音頻率。采用直接相關(guān)處理檢測的基音頻率中有16幀出現(xiàn)了錯(cuò)誤,誤檢率為61.5%,錯(cuò)誤頻率在500 Hz到1 000 Hz之間,處于聲道的第一共振峰頻率范圍內(nèi)。低通濾波處理后有11幀出現(xiàn)錯(cuò)誤,誤檢率為42.3%,錯(cuò)誤頻率處于聲道第一共振峰范圍內(nèi)。而采用本文方法檢測時(shí)沒有出現(xiàn)將聲道共振峰頻率錯(cuò)誤地檢測為基音頻率的情況。表明本文方法在基音檢測中性能優(yōu)于另外兩種方法,具有較好的抗聲道特性影響和抗噪聲性能。
表1中列出了不同信噪比時(shí)三種方法基音檢測的錯(cuò)誤率。隨著信噪比的降低,本文方法的錯(cuò)誤檢測率也會(huì)增加,但是,其誤檢率遠(yuǎn)小于另外兩種常用方法。
表1 不同信噪比時(shí)基音檢測結(jié)果對比
同態(tài)解卷處理可以將卷積運(yùn)算的兩個(gè)分量進(jìn)行分離,而語音中濁音的產(chǎn)生過程可以看做是基音周期性脈沖與聲道特性的卷積,因此,從語音中直接檢測基音不可避免地會(huì)受到聲道特性和噪聲的影響。將同態(tài)解卷技術(shù)用于語音基音檢測中,可以減小聲道特性和噪聲對基音檢測的影響。理論模型和實(shí)際語音處理結(jié)果均表明該方法的可行性和有效性,從而為基音檢測提供了一種思路。
[1]馮康,時(shí)慧琨.語音信號基音檢測的現(xiàn)狀及展望[J].微機(jī)發(fā)展,2004,14(3):95-98.
[2]Shimamura T,Kobayashi H.Weighted autocorrelation for pitch extraction of noisy speech[J].IEEE Trans on Speech Audio Processing,2001,9(7):727-730.
[3]李晉,江成,劉甫.改進(jìn)的基音檢測算法[J].計(jì)算機(jī)工程與應(yīng)用,2011,47(3):117-119.
[4]Kadambe S,Boudreaux-Bartels G F.Application on the wavelet transform for pitch detection of speech signals[J].IEEE Trans on Inform Theory,1992,38(2):917-924.
[5]胡立波,吳月萍,孫光中.基于同態(tài)濾波的基音檢測算法[J].微電子學(xué)與計(jì)算機(jī),2009,26(4):95-97.
[6]胡航.語音信號處理[M].哈爾濱:哈爾濱工業(yè)大學(xué)出版社,2005. [7]奧本海姆,謝弗.數(shù)字信號處理[M].董士嘉,譯.北京:科學(xué)出版社,1981.
[8]楊順遼,李永全.數(shù)字信號處理實(shí)現(xiàn)與實(shí)踐[M].武漢:華中科技大學(xué)出版社,2011.
[9]陳小利,徐金甫.利用小波變換加權(quán)自相關(guān)的基音檢測法[J].數(shù)據(jù)采集與處理,2007,22(4):463-467.
YANG Shunliao
Electronics and Information College of Yangtze University,Jingzhou,Hubei 434023,China
Pitch detection is one of the extremely important steps in speech signal processing,but the detection result usually has errors because pitch is influenced by vocal tract characteristics and noise.The excitation signal and vocal tract characteristics in voiced speech are separated by using homomorphism deconvolution,so as to reduce the influence of vocal tract characteristics and improve the pitch detection accuracy.Then autocorrelation is used to detect pitch in excitation signal.The feasibility is verified by theoretical model.The experiment results of real speech signal indicate that the vocal tract characteristics and noise have rarely influence on pitch detection using this method.
homomorphism deconvolution;pitch detection;speech;frequency invariant linear filter
語音處理中基音檢測是極為重要的環(huán)節(jié)之一,然而濁音中的基音往往會(huì)受到聲道特性和噪聲的影響而導(dǎo)致檢測結(jié)果的誤差。利用同態(tài)解卷處理,將濁音中的激勵(lì)信號和聲道特性進(jìn)行分離,然后再在激勵(lì)信號中利用自相關(guān)檢測基音,可以減小聲道特性和噪聲對基音檢測的影響,從而提高基音檢測的精度。通過理論模型驗(yàn)證了該方法的可行性,而且實(shí)際語音信號處理結(jié)果表明,該方法在基音檢測時(shí)可以基本不受聲道特性和噪聲的影響。
同態(tài)解卷;基音檢測;語音;頻率不變線性濾波器
A
TN912.3
10.3778/j.issn.1002-8331.1203-0044
YANG Shunliao.Application of homomorphism deconvolution processing in pitch detection.Computer Engineering and Applications,2013,49(24):214-218.
楊順遼(1973—),男,副教授,研究領(lǐng)域?yàn)樾盘柼幚?,語音,圖像處理。E-mail:robertysl@yahoo.com.cn
2012-03-02
2012-05-30
1002-8331(2013)24-0214-05
CNKI出版日期:2012-07-16http://www.cnki.net/kcms/detail/11.2127.TP.20120716.1501.050.html
◎工程與應(yīng)用◎