周孝進,張曉俊,趙鶴鳴,顧濟華,陶 智
(1.蘇州大學(xué)物理科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006;2.蘇州大學(xué)電子信息學(xué)院,江蘇 蘇州 215006)
基音頻率作為基本的聲學(xué)參數(shù)之一,精確估計的基頻是衍生聲學(xué)參數(shù)提取的基礎(chǔ),如基頻微擾、幅度擾動等,同時對病理嗓音的識別[1]及修復(fù)都具有重要的意義。目前學(xué)者們提出了許多基頻提取算法,主要有自相關(guān)法、平均幅度差法、倒譜法等。但這些傳統(tǒng)的算法易出現(xiàn)倍頻或二分頻誤差且魯棒性能較差[2],很難適用于提取病理嗓音的基頻。病理嗓音由于聲帶發(fā)生機理性病變[3],語音信號存在突變及高次諧波,同時共振峰嚴重影響了聲門信號的諧波結(jié)構(gòu),這些機理性變化增加了基頻提取的困難。Kadambe[4]等人利用經(jīng)典的小波變換提取了基音頻率。但病理嗓音信號存在基頻及幅度擾動,信號規(guī)則度較低,利用經(jīng)典的小波變換算法必將導(dǎo)致結(jié)果存在誤差。Everthon[5]等人采用多級離散小波分解,選擇重構(gòu)信號提取病理嗓音的基頻,提高了魯棒性,但離散小波變換的層數(shù)及重構(gòu)信號的選擇存在盲目性。文中提出了一種基于非線性參數(shù)自適應(yīng)選擇最優(yōu)重構(gòu)病理嗓音信號的基頻提取算法。首先利用Daubehies離散小波變換(DWT-db)對語音信號多級分解,根據(jù)奈奎斯特采樣定理,選擇合適的細節(jié)系數(shù)和近似系數(shù)進行信號重構(gòu),由于病理嗓音經(jīng)不同級別分解和重構(gòu)后,嗓音所含頻率成分不一,含諧波成分較多的重構(gòu)嗓音混沌性較強,故分別計算它們的LLE和ApEn,進一步選擇規(guī)整度最高的重構(gòu)信號計算基頻。實驗顯示,文中方法很好的濾去了病理嗓音的高次諧波及突變信號,具有較高的魯棒性。
離散小波分解(DWT)主要思想是多分辨率分析,是離散信號有效的時頻處理工具[6]。
式中,RA(j)為第j層低頻系數(shù)的重構(gòu)信號,RD(i)為第i層高頻系數(shù)的重構(gòu)信號。根據(jù)Nyquist采樣定理可知,由于文中實驗采用的病理嗓音的采樣率均為25 kHz,所以信號的最高截止頻率為12.5 kHz,經(jīng)過7級分解,得到各級低頻系數(shù)(Ai)和高頻系數(shù)(Di)。其中部分系數(shù)的頻率成分見表1。
表1 小波系數(shù)頻率成分Table 1 Contents of wavelet frequency
由于語音信號的基頻范圍為70~350 Hz,所以選擇 A5,A6,A7,D6,D7進行小波重構(gòu)得到相應(yīng)的重構(gòu)信號 RA5,RA6,RA7,RD6,RD7。
文中算法系統(tǒng)框圖如圖1所示,病理嗓音經(jīng)預(yù)處理后,利用 20階 Daubehies離散小波變換分解[7],根據(jù)以上分析選擇計算 RA5,RA6,RA7,RD6,RD7的LLE及ApEn,分別比較求得的值,選擇LLE及ApEn值同時最小的重構(gòu)信號提取基頻。
圖1 文中算法系統(tǒng)框Fig.1 Diagram of the system
文中算法利用了離散小波變換,從濾波器角度可知,小波可以視作一種鏡象濾波器。信號進過每級變換,相當于把信號進行高頻和低頻分量區(qū)分,并進行二分之一的減抽樣,得到相應(yīng)的細節(jié)系數(shù)和近似系數(shù)。如果對變換后的細節(jié)系數(shù)再進行變換,得到的將是更為平滑部分。逐級分解,就可以去除高次諧波和聲道信息,保留了基頻的成分。
第一步:利用Daubehies離散小波變換(DWT-db)對語音信號多級分解,根據(jù)原理分析可知,選擇重構(gòu)信號 RA5,RA6,RA7,RD6,RD7。圖 2 為隨機選擇的一個病理嗓音信號的重構(gòu)信號波形圖。
圖2 病理嗓音重構(gòu)信號波形Fig.2 Waveform of reconstruct signal
此語音的原始語音及重構(gòu)信號RA5,RA6,RA7,RD6,RD7的波形圖如圖2所示。從波形圖中可以看出,6個信號都存在一定的周期性,但RA7波形的周期最明顯,同時復(fù)雜性最低,適合用以提取基音頻率。
把多軸系統(tǒng)簡化成單軸系,把阻轉(zhuǎn)轉(zhuǎn)矩Mf折算至變頻電動機軸上為Mr,此時把Mr看作等效的阻轉(zhuǎn)轉(zhuǎn)矩。將計算軸作為計算基準點,以確保系統(tǒng)的功率傳輸關(guān)系和機械總動能一定為折算原則,將系統(tǒng)轉(zhuǎn)動慣量化為兩部分:變頻電機端轉(zhuǎn)動慣量的和標記為JⅠ;靠低速軸側(cè)的轉(zhuǎn)動慣量之和記作JⅡ[4],如圖2(b)所示。
第二步:提取參數(shù),計算重構(gòu)信號 RA5,RA6,RA7,RD6,RD7的非線性動力學(xué)參數(shù) LLE 和 ApEn[8]。
參數(shù)一(LLE)計算如下:設(shè)語音信號為x(t),其相重構(gòu)相空間為:
Xi(t)={x(ti),x(ti-τ),…,x(ti-(m-1)τ)}(2)式中,τ為延遲時間,m為嵌入維數(shù);取初始值x(t0),設(shè)其最近點X0(t0)的距離為d0,當?shù)竭_t1時刻時則保留 x(t1),并在x(t1)鄰近找另一個點 X1(t1),使 d1=,繼續(xù)上述過程直到時間序列終點N,迭代次數(shù)為M,得到LLE:
以同一個語音為例繪出其原始語音及重構(gòu)信號的相空間圖,如圖3所示。
圖3 重構(gòu)信號相空間Fig.3 Reconstruction of signals’phase space
參數(shù)二(ApEn)計算如下:語音信號x(t)按序組成2維的矢量X(i)={x(i),x(i+1)},其中 i=1~(N-1),其中兩矢量之間的距離為d[X(i),X(j)],計算如下:
得到近似熵為:
式中,r為預(yù)先設(shè)置的閾值,m一般值為2[9]。
選擇參考頻率在70~90 Hz的病理嗓音計算LLE及ApEn,參數(shù)盒圖如圖5所示。從圖5上可以看出第七層小波細節(jié)系數(shù)的重構(gòu)信號RA7的理論頻率成分為0~90.76 Hz,該重構(gòu)信號復(fù)雜性最小。從圖5中可以看出,第七級重構(gòu)信號RA7的最大李亞普諾夫指數(shù)(LLE)集中在0附近,同時該級重構(gòu)信號的近似熵(ApEn)在0.1以下,信號產(chǎn)生新模型的概率很小,信號混沌性較低,不存在高次諧波,與理論推導(dǎo)一致。
圖4 重構(gòu)信號的LLE及ApEn盒Fig.4 LLE and ApEn of reconstructed signals
采用美國KAY公司的MEEI[10]語音庫,語音的采樣率為25 kHz,單通道,16 bits。其中包括器質(zhì)性病理嗓音(角化病),神經(jīng)性病理嗓音(聲帶麻痹、發(fā)音障礙),功能性病理嗓音(聲帶小結(jié)、聲帶息肉)五種病理嗓音。性別及年齡分布如表2所示。
表2 本實驗所用語音分布Table 2 Distributions of speech used
文中算法的有效性,另采用傳統(tǒng)方法:自相關(guān)法,短時平均幅度差法,倒譜法(LPC法)進行對比實驗。實驗結(jié)果如圖5所示,橫坐標為各個語音,縱坐標為基頻。文中算法提取的基音頻率曲線趨勢與參考值一致,而其他三種方法出現(xiàn)了許多”野點”,這些點是倍頻點或二分頻點。
圖5 病理嗓音的基頻分布Fig.5 Frequencies of pathological voice
文中統(tǒng)計了基頻平均值、平均誤差、標準偏差及相關(guān)系數(shù),如表3所示,文中算法測得基音頻率平均值為 161.24 Hz,而參考值為 161.40 Hz,平均誤差僅為0.16 Hz,其他三種方法測得的平均誤差均高于文中算法。文中同時利用相關(guān)系數(shù)表現(xiàn)實驗結(jié)果與參考值的線性相關(guān)程度,文中算法測得的相關(guān)系數(shù)為0.99,接近1。實驗表明文中算法提取的基音頻率與參考值最接近。
表3 基頻對比分析Table 3 Comparison of frequencies
傳統(tǒng)算法是基于正常嗓音信號提出的,但病理嗓音由于聲帶組織發(fā)生病變,聲帶張力變小,同時聲道結(jié)構(gòu)功能性改變導(dǎo)致聲帶不規(guī)則振動,聲門出現(xiàn)高次諧波,共振峰結(jié)構(gòu)發(fā)生偏移。這些因素引起嗓音信號周期性發(fā)生改變,幅度及頻率出現(xiàn)擾動,存在聲門噪聲。傳統(tǒng)算法中在幅度發(fā)生突變處,自相關(guān)法和平均幅度差法都會出現(xiàn)峰值,易導(dǎo)致半頻及倍頻誤差。聲道結(jié)構(gòu)及共振峰發(fā)生變化會改變聲道模型,傳統(tǒng)倒譜法濾除聲道卷積信號時會發(fā)生誤差,故傳統(tǒng)算法提取病理嗓音基音頻率時易出現(xiàn)倍頻和二分頻誤差。
文中利用離散小波分解及重構(gòu),利用其濾波特性,濾除高次諧波及聲門噪聲,保留基頻成分,最后利用非線性動力學(xué)參數(shù)自適應(yīng)選擇復(fù)雜性最低的重構(gòu)嗓音信號提取基音頻率,從而提高了算法魯棒性及準確率。
文中提出了一種基于非線性動力學(xué)參數(shù)自適應(yīng)提取病理嗓音基音頻率的算法。此算法利用DWT-db處理病理嗓音信號,同時用非線性動力學(xué)參數(shù)選擇最優(yōu)重構(gòu)信號提取基頻。從對比實驗可知,文中方法的準確率高于傳統(tǒng)算法。今后將利用文中算法檢測的病理嗓音基音頻率提取其他衍生聲學(xué)參數(shù),作為特征參數(shù)進一步用于病理嗓音的修復(fù)及識別。
[1]莫麗花,周孝進,張曉俊,等.基于LPCC和MFCC參數(shù)的病理嗓音識別研究[J].通信技術(shù),2012,45(01):87-89.MO L H,ZHOU X J,ZHANG X J,et al.Identification of Pathological Voices based on LPCC and MFCC[J].Communications Technology,2012,45(01):87-89.
[2]LI H,DAI B Q,LU W.A Pitch Detection Algorithm based on AMDF and ACF[C]//IEEE International Conference on Acoustics Speech and Signal Processing.[s.l.]:IEEE,2006:377-400.
[3]JAMES C.Classifying Voice Quality via Pitch and Spectral Analysis[C]//Proceedings of the CUBE International Information Technology Conference.New York:[s.n.],2012:429-434.
[4]KADAMBE S,BOUDREAUX-BARTELS G F.Application of the Wavelet Transform for Pitch Detection of Speech Signal[J].IEEE Trans.on Information Theory,1992,38(02):917-924.
[5]EVERTHON S F,RODRIGO C G,PAULO R S,et al.Wavelet Time-frequency Analysis and Least Squares Support Vector Machines for the Identification of Voice Disorders[J].Computers in Biology and Medicine,2007,37(4):571-578.
[6]李冠,吳盡昭,范明鈺.基于小波的去噪分析[J].通信技術(shù),2010,43(09):79-84.LI G,WU J Z,F(xiàn)AN M Y.Signal De-noising Analysis based on Wavelet [J].Communications Technology,2010,43(09):79-84.
[7]WADI S Al,ISMAIL M T,KARIM S A A,et al.A Comparison between the Daubechies Wavelet Transformation and the Fast Fourier Transform in Analyzing Insurance Time Series Data[J].Far East Journal of Applied Mathematics,2013,45(01):53-63.
[8]JULIA KM,LI C,ZHANG Y,et al.Acoustic Analysis of Aperiodic Voice:Perturbation and Nonlinear Dynamic Properties in Esophageal Phonation [J].Journal of Voice,2009,23(03):283-290.
[9]CHON K H,SCULLY C,SHENG L,et al.Approximate Etropy for all Signals[J].IEEE Engineering in Medicine and Biology Magazine,2009,28(06):18-23.
[10]PATRICIA H,JESUS B A,MIGUEL A F,et al.Characterization of Healthy and Pathological Voice Through Measures Based on NonlinearDynamics[J].IEEE Transactions on Audio Speech and Language Processing,2009,17(06):1186-1195.