侯玉寶,王景芳
湖南涉外經(jīng)濟(jì)學(xué)院信息科學(xué)與工程學(xué)院,長(zhǎng)沙 410205
拉普拉斯混合分布語(yǔ)音模型研究
侯玉寶,王景芳
湖南涉外經(jīng)濟(jì)學(xué)院信息科學(xué)與工程學(xué)院,長(zhǎng)沙 410205
語(yǔ)音信號(hào)處理[1-2]以語(yǔ)音為研究對(duì)象,涉及心理學(xué)、生理學(xué)、語(yǔ)言學(xué)、人工智能和模式識(shí)別等多項(xiàng)研究領(lǐng)域,甚至還涉及到說(shuō)話時(shí)的表情、手勢(shì)等人的體態(tài)語(yǔ)言信息。由于語(yǔ)音是人們?cè)谌粘I钪械闹饕涣魇侄?,因此語(yǔ)音信號(hào)處理在現(xiàn)代信息社會(huì)中占有重要地位。近年來(lái),隨著語(yǔ)音信號(hào)處理技術(shù)的日益成熟,出現(xiàn)了新的基于語(yǔ)音識(shí)別的應(yīng)用方向,如語(yǔ)音撥號(hào)、呼叫中心、移動(dòng)設(shè)備中的嵌入式命令控制、發(fā)音學(xué)習(xí)以及基于關(guān)鍵詞檢出的口語(yǔ)會(huì)話系統(tǒng)等。隨著語(yǔ)音信號(hào)處理技術(shù)在實(shí)際生活中的應(yīng)用在不斷發(fā)展,語(yǔ)音信號(hào)處理技術(shù)已經(jīng)被廣泛地接受和使用。由于語(yǔ)音比其他形式的交互方式具有更多的優(yōu)勢(shì),因此這項(xiàng)技術(shù)已經(jīng)越來(lái)越貼近人們的生活。目前,語(yǔ)音信號(hào)處理技術(shù)處于蓬勃發(fā)展時(shí)期,不斷有新的產(chǎn)品被研制開發(fā),市場(chǎng)需求逐漸增加,具有良好的應(yīng)用前景。
語(yǔ)音研究離不開其分布模型[3-9],以往大多假設(shè)在正態(tài)分布基礎(chǔ)上;中心極限定理從理論上闡述了產(chǎn)生正態(tài)分布的條件,中心極限定理簡(jiǎn)單直觀的闡述是:如果決定某一隨機(jī)變量結(jié)果的是大量微小的、獨(dú)立的隨機(jī)因素之和,并且每一隨機(jī)因素的單獨(dú)作用相對(duì)均勻得小,沒(méi)有一種因素可起到壓倒一切的主導(dǎo)作用,那么這個(gè)隨機(jī)變量一般近似服從于正態(tài)分布。正態(tài)分布廣泛存在于自然現(xiàn)象、社會(huì)現(xiàn)象、科學(xué)技術(shù)以及生產(chǎn)活動(dòng)中,在實(shí)際中遇到的許多隨機(jī)現(xiàn)象都服從或者近似服從正態(tài)分布。但事實(shí)上語(yǔ)音是具有重尾特性的非平穩(wěn)過(guò)程。Laplace分布具有峰度為6的重尾特性,本文研究Laplace分布語(yǔ)音模型與混合Laplace分布語(yǔ)音模型,并將兩者語(yǔ)音模型進(jìn)行對(duì)比分析。
2.1 重尾與峰度
相對(duì)于正態(tài)分布而言,以四階中心矩為基礎(chǔ)。四階中心矩具有峰度(kurtosis)的含義,峰度是統(tǒng)計(jì)中描述分布狀態(tài)的一個(gè)重要特征值,用以判斷概率密度函數(shù)曲線相比于正態(tài)分布的尖平程度。如果將正態(tài)分布視為常峰態(tài),密度函數(shù)曲線的形狀比正態(tài)分布更高更瘦的稱為高峰態(tài),否則稱為低峰態(tài)。正態(tài)分布的峰度為3。Laplace分布的峰度為6。正態(tài)云分布峰度在3~9之間[10]。
圖1 正態(tài)云分布仿真結(jié)果
定義[7]隨機(jī)變量X稱為是重尾[11]的,如果峰度:
其中μ,σ分別為X的期望和標(biāo)準(zhǔn)差。
2.2 模型參數(shù)估計(jì)
2.3 實(shí)例驗(yàn)證與分析
取AURORA語(yǔ)音庫(kù)[12]純凈語(yǔ)音“The birch canoe slid on the smooth planks.”文件sp01.wav,背景噪聲選自Noisex-92數(shù)據(jù)庫(kù)[13]。用純語(yǔ)音、含babble噪聲信噪比SNR=5、0 dB語(yǔ)音的正態(tài)云分布仿真結(jié)果如圖1。圖上RMS為平均誤差,直方圖等分區(qū)間200個(gè)。
Laplace分布隨機(jī)變量X的峰度為:K(X)=6,單個(gè)Laplace分布應(yīng)用范圍受限制。有必要研究混合Laplace模型使其適用于超重尾信號(hào),如一般的純語(yǔ)音峰度大都大于9。
3.1 EM算法原理
EM算法是Dempster,Laind,Rubin[14-15]于1977年提出的求參數(shù)極大似然估計(jì)的一種方法,它可以從非完整數(shù)據(jù)集中對(duì)參數(shù)進(jìn)行MLE估計(jì),是一種非常簡(jiǎn)單實(shí)用的學(xué)習(xí)算法。這種方法可以廣泛地應(yīng)用于處理缺損數(shù)據(jù),截尾數(shù)據(jù),帶有噪聲等所謂的不完全數(shù)據(jù)(incomplete data)。
假定集合Z=(X,Y)由觀測(cè)數(shù)據(jù)X和未觀測(cè)數(shù)據(jù)Y組成,Z=(X,Y)和X分別稱為不完整數(shù)據(jù)和完整數(shù)據(jù)。假設(shè)Z的聯(lián)合概率密度被參數(shù)化地定義為P(X,Y|Θ),其中Θ表示要被估計(jì)的參數(shù)。Θ的最大似然估計(jì)是求不完整數(shù)據(jù)的對(duì)數(shù)似然函數(shù)L(X;Θ)的最大值而得到的:
EM算法包括兩個(gè)步驟:由E步和M步組成,它是通過(guò)迭代地最大化完整數(shù)據(jù)的對(duì)數(shù)似然函數(shù)Lc(X;Θ)的期望來(lái)最大化不完整數(shù)據(jù)的對(duì)數(shù)似然函數(shù),其中:
假設(shè)在算法第t次迭代后Θ獲得的估計(jì)記為Θ(t),則在(t+1)次迭代時(shí),
E-步為計(jì)算完整數(shù)據(jù)的對(duì)數(shù)似然函數(shù)的期望,記為:
M-步為通過(guò)最大化Q(Θ|Θ(t))來(lái)獲得新的Θ。
通過(guò)交替使用這兩個(gè)步驟,EM算法逐步改進(jìn)模型的參數(shù),使參數(shù)和訓(xùn)練樣本的似然概率逐漸增大,最后終止于一個(gè)極大點(diǎn)。直觀地理解EM算法,它也可被看作為一個(gè)逐次逼近算法:事先并不知道模型的參數(shù),可以隨機(jī)選擇一套參數(shù)或者事先粗略地給定某個(gè)初始參數(shù)λ0,確定出對(duì)應(yīng)于這組參數(shù)的最可能的狀態(tài),計(jì)算每個(gè)訓(xùn)練樣本的可能結(jié)果的概率,在當(dāng)前的狀態(tài)下再由樣本對(duì)參數(shù)修正,重新估計(jì)參數(shù)λ,并在新的參數(shù)下重新確定模型的狀態(tài),這樣,通過(guò)多次的迭代,循環(huán)直至某個(gè)收斂條件滿足為止,就可以使得模型的參數(shù)逐漸逼近真實(shí)參數(shù)。
EM算法的主要目的是提供一個(gè)簡(jiǎn)單的迭代算法計(jì)算后驗(yàn)密度函數(shù),它的最大優(yōu)點(diǎn)是簡(jiǎn)單和穩(wěn)定。
3.2 混合Laplace模型設(shè)計(jì)與實(shí)現(xiàn)
(1)數(shù)量性狀表型值的有限混合Laplace分布
假定數(shù)量性狀在某分離的表型值X為一隨機(jī)變量,其概率密度為:
(2)有限混合正態(tài)分布參數(shù)的極大似然估計(jì)(MLE)
圖2 EM仿真結(jié)果
(4)極大似然估計(jì)EM算法中成分分布數(shù)k的確定
EM迭代由確定k開始并完成,對(duì)于一個(gè)確定的k,EM迭代除了給出所估計(jì)的參數(shù)外,還給出相應(yīng)的對(duì)數(shù)似然函數(shù)值l?k)。
1977年,Akaike根據(jù)最大熵原理得出了極大似然函數(shù)與熵之間的關(guān)系。根據(jù)這個(gè)關(guān)系,有限混合正態(tài)分布參數(shù)的極大似然估計(jì)中,確定k的最佳方案應(yīng)使AIC準(zhǔn)則最小。
3.3 實(shí)例仿真
混合模型參與個(gè)數(shù)k=2,取上述純語(yǔ)音、含babble噪聲信噪比SNR=5,0 dB的語(yǔ)音。EM仿真結(jié)果見圖2。
純語(yǔ)音、含babble噪聲信噪比SNR=5,0 dB語(yǔ)音的混合Laplace分布模型的平均誤差RMS分別為5.38、0.45、0.59,它們的混合Laplace分布模型的平均誤差RMS分別為1.96、0.44、0.46,效率分別提升了63.57%、2.22%、22.03%。
本文研究了Laplace分布模型與Laplace混合分布模型,做了理論分析與實(shí)驗(yàn)仿真。Laplace混合分布模型階數(shù)的選定值可用AIC、BIC準(zhǔn)則確定,也可選密度函數(shù)的加權(quán)系數(shù)確定,先把階數(shù)給得稍大點(diǎn),若其最小的系數(shù)小于5%以下除去這項(xiàng),這樣就把參數(shù)估計(jì)與確定模型階數(shù)一并進(jìn)行。為了提高參數(shù)估計(jì)的軟件速度也可采用類似有限混合正態(tài)分布[8]估計(jì)方法,每步先估計(jì)各分密度的均值與方差,再依Laplace分布參數(shù)與它們之間的關(guān)系求出。本文提出了語(yǔ)音Laplace混合分布建模新思路,這些研究為語(yǔ)音增強(qiáng)、語(yǔ)音編碼、語(yǔ)音識(shí)別等提供了新的理論基礎(chǔ)。
[1]韓紀(jì)慶.語(yǔ)音信號(hào)處理[M].北京:清華大學(xué)出版社,2010.
[2]趙力.語(yǔ)音信號(hào)處理[M].北京:機(jī)械工業(yè)出版社,2009.
[3]周彬,鄒霞,張雄偉.基于多元Laplace語(yǔ)音模型的語(yǔ)音增強(qiáng)算法[J].電子與信息學(xué)報(bào),2012,43(7):1568-1573.
[4]鄒霞,吳其前,張雄偉.一種基于Laplacian語(yǔ)音模型的語(yǔ)音增強(qiáng)算法[J].信號(hào)處理,2007,23(2):195-199.
[5]Zou Xia,Zhang Xiongwei.Speech enhancement using an mmse short time dct coefficients estimator with supergaussian speech modeling[J].Journal of Electronics,2007,24(3):332-337.
[6]應(yīng)娜,趙曉暉,董婧,等.一種諧波正弦語(yǔ)音模型的最佳相位估計(jì)算法[J].電子學(xué)報(bào),2009,37(4):860-863.
[7]孫艷,于鳳芹.小波多分辨率的諧波正弦語(yǔ)音建模[J].計(jì)算機(jī)工程與應(yīng)用,2011,47(17):151-153.
[8]粱巖,鮑長(zhǎng)春,夏丙寅,等.基于高斯混合模型的壓縮域語(yǔ)音增強(qiáng)方法[J].電子學(xué)報(bào),2012,40(10):2031-2038.
[9]劉明輝,黃中偉.結(jié)合高斯混合模型和VOT特征的音素發(fā)音錯(cuò)誤檢測(cè)[J].科學(xué)技術(shù)與工程,2013(7):1789-1793.
[10]李德毅,劉常昱,淦文燕.正態(tài)云模型的重尾性質(zhì)證明[J].中國(guó)工程科學(xué),2011,13(4):20-23.
[11]陳琳,劉維奇.重尾分布族及其關(guān)系圖[J].高校應(yīng)用數(shù)學(xué)學(xué)報(bào),2009,24(2):166-174.
[12]Spib noise data[EB/OL].[2013-08-05].http://spib.rice.edu/ spib/select_noise.html.
[13]Speech&noise data[EB/OL].[2013-08-05].http://www. utdallas.edu/~loizou/speech/noizeus/.
[14]Dempster A P,Laird N M,Rubin D B.Maximum likelihood from incomplete data via the EM algorithm[J]. Journal of the Royal Statistical Society,Series B(Methodological),1977,39(1):1-38.
[15]譚鮮明.有限正態(tài)混合模型的參數(shù)估計(jì)與應(yīng)用[D].天津:南開大學(xué),2005.
HOU Yubao,WANG Jingfang
College of Information Science and Engineering,Hunan International Economics University,Changsha 410205,China
For overweight tail characteristics of the speech signal,this paper proposes a mixed-laplace distribution acoustic model.Laplace mixture distribution model parameter estimation is discussed theoretically,and which can be achieved from the principles and algorithms.The maximum expected(Expectation Maximization,EM)algorithm has been applied to obtaining good results.The hybrid Laplace model has been creatively used to study speech signal processing.
mixture Laplace model;speech signal;Expectation Maximization(EM);kurtosis;heavy-tailed distribution
針對(duì)具有超重尾特性的語(yǔ)音信號(hào),提出了混合拉普拉斯分布語(yǔ)音模型。從理論上探討了混合拉普拉斯分布模型的參數(shù)估計(jì),從原理與算法得以實(shí)現(xiàn)。通過(guò)最大期望(Expectation Maximization,EM)算法取得了良好效果。創(chuàng)新運(yùn)用混合拉普拉斯模型研究語(yǔ)音信號(hào)處理。
混合Laplace模型;語(yǔ)音信號(hào);最大期望算法;峰度;重尾分布
A
TPl82
10.3778/j.issn.1002-8331.1310-0328
HOU Yubao,WANG Jingfang.Mixture Laplace distribution speech model research.Computer Engineering and Applications,2014,50(18):202-205.
侯玉寶(1982—),男,講師,主要研究方向:信號(hào)處理。E-mail:matlab_wjf@126.com
2013-10-25
2013-12-15
1002-8331(2014)18-0202-04
CNKI網(wǎng)絡(luò)優(yōu)先出版:2014-01-26,http://www.cnki.net/kcms/doi/10.3778/j.issn.1002-8331.1310-0328.html