楊建香,佘玉梅,傅美君,和麗華,解雪琴,潘文林
(1.云南民族大學(xué) 數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,云南 昆明 650500;2.西南交通大學(xué) 信息科學(xué)與技術(shù)學(xué)院,四川 成都 611756)
本文課題來源于教育部、國家語委2015年啟動的中國語言資源保護(hù)工程(簡稱“語保工程”),該工程開展多年以來,錄制了大量少數(shù)民族語言和地方性方言,并人工對其進(jìn)行了國際音標(biāo)標(biāo)注,但在抽樣檢查中發(fā)現(xiàn)標(biāo)注信息并沒有達(dá)到可信可用的程度.如果再次對語料庫標(biāo)注信息進(jìn)行人工校對,需要花費(fèi)大量人力物力,因此語言學(xué)家急需一個(gè)國際音標(biāo)自動標(biāo)注系統(tǒng).而要完成該系統(tǒng),首先,需識別語料,再進(jìn)行語料自動標(biāo)注.本文選用語料庫中的佤語[1]為研究對象.
當(dāng)準(zhǔn)周期脈沖激勵(lì)進(jìn)入聲道時(shí)會引起共振發(fā)生,從而產(chǎn)生一組共振頻率,這樣的一組共振頻率稱之為共振峰頻率,簡稱共振峰[2].共振峰參數(shù)由共振峰頻率和頻帶寬度(帶寬)組成.而共振峰是區(qū)分不同元音的重要參數(shù),正常情況下,一個(gè)元音會產(chǎn)生3~5個(gè)共振峰,依次記為F1,F(xiàn)2,F(xiàn)3,F(xiàn)4,F(xiàn)5,一般F1,F(xiàn)2,F(xiàn)3,足以描述元音的聲學(xué)特性.共振峰信息包含在語音信號的頻譜包絡(luò)中,譜包絡(luò)中的極大值對應(yīng)的頻率值就認(rèn)為是共振峰頻率.
目前,國內(nèi)外對共振峰的研究主要基于語音信號的2種模型:語音信號的線性模型[3-4]和語音信號的非線性模型[5-7].線性模型主要的研究方法有:倒譜法[8-9]、 線性預(yù)測編碼(linear predictive coding,LPC)[3-10]等.楊鴻武[8]等提出一種利用加權(quán)Mel倒譜(weighted mel-cepstrum,WMCEP)提取語音信號共振峰的算法,該方法比倒譜法提取的共振峰誤差更小,在噪聲環(huán)境下具有較好的魯棒性.趙毅[9]等提出一種基于倒譜變換的共振峰頻率檢測算法,刪除偽峰值和甄別合并共振峰,克服倒譜方法用于共振峰頻率檢測的固有缺陷.BS Atal[3]等提出一種分析提取共振峰的方法.郁伯康[10]等提出采用相頻特性與對數(shù)幅頻特性提取語音信號共振峰,更有效地解決共振峰合并問題,提取到更精確的語音信號共振峰參數(shù).非線性模型主要的研究方法有:經(jīng)驗(yàn)?zāi)B(tài)分解(empirical mode decomposition,)[11]、集合經(jīng)驗(yàn)?zāi)B(tài)分解(ensemble empirical mode decomposition,)[12]、局部均值分解(local mean decomposition,)[13]、變分模態(tài)分解(variational mode decomposition,)[14]等.Huang[15]等提出一種基于希爾伯特-黃變換(Hilbert-Huang transform,)的語音共振峰頻率估計(jì)方法,研究結(jié)果表明,基于的語音共振峰估計(jì)方法不僅能更清晰地描述語音信號的非線性和非平穩(wěn)性,且能較好的描述語音信號的共振峰頻率.Zhao[16]等提出一種結(jié)合和的語音信號共振峰提取算法,該算法的誤差優(yōu)于加權(quán)倒譜法,當(dāng)信噪比很小時(shí),仍能準(zhǔn)確提取共振峰.但其他的非線性方法,用在共振峰提取領(lǐng)域還處于空白狀態(tài).針對少數(shù)民族語音識別方向所存問題,前期已獲得部分相關(guān)研究成果,陳紹雄等[17]實(shí)現(xiàn)了基于HTK的佤語孤立詞識別;楊花等[18]通過語譜圖特征,運(yùn)用支持向量機(jī)實(shí)現(xiàn)普米語語譜圖識別;郭琳等[19]研發(fā)了一種人機(jī)交互語音切分系統(tǒng),完成大規(guī)模的語音語料切分工作。
本征模態(tài)函數(shù)(intrinsic mode function,IMF)是一個(gè)窄帶調(diào)頻—調(diào)幅信號,其基本形式為:
uk(t)=Ak(t)cos(φk(t)).
(1)
式中,Ak(t)為uk(t)的瞬時(shí)振幅.ωk(t)為uk(t)的瞬時(shí)頻率,如下所示.
(2)
1)變分問題的構(gòu)造
在確保各IMF之和等于輸入信號x(t)的條件下,構(gòu)造K個(gè)IMF分量uk(t),使每個(gè)IMF的估計(jì)帶寬之和最小.
① 將信號通過希爾伯特變換,得到每個(gè)IMF的解析信號和單邊頻譜.
(3)
式中,δ(t)為脈沖函數(shù),H(uk(t))為希爾伯特變換作用于信號uk(t)的結(jié)果,“*”表示卷積運(yùn)算.
② 加入指數(shù)項(xiàng)調(diào)整每個(gè)IMF的中心頻率,將每個(gè)IMF的頻率調(diào)制到相應(yīng)基頻帶上.
(4)
③ 求解解調(diào)信號的梯度,并計(jì)算梯度的L2-范數(shù),估計(jì)各IMF的帶寬,假定信號x(t)被分解出K個(gè)IMF分量,則對應(yīng)的約束變分模型如(式5).
(5)
式中,{uk}={u1,…,uK}代表原始信號x(t)經(jīng)過分解后得到的K個(gè)IMF分量,{ωk}={ω1,…,ωK}表示相應(yīng)的IMF分量的中心頻率.
2)變分問題的求解
① 引入二次懲罰因子α和Lagrange算子λ(t),將條件約束變分問題轉(zhuǎn)換為無條件約束變分問題,其中α可保證信號x(t)的重構(gòu)精度,Lagrange算子λ(t)可加強(qiáng)約束,則拓展的Lagrange如(6)所示.
(6)
(7)
(8)
用ω-ωk代替第一項(xiàng)的變量ω,有:
(9)
將(9)轉(zhuǎn)換為非負(fù)頻率區(qū)間的積分形式,如(10)所示.
(10)
于是待求解的二次優(yōu)化問題解如(11)所示.
(11)
根據(jù)同樣的過程,把中心頻率的取值問題也轉(zhuǎn)換到頻域上,得(12).
(12)
(13)
根據(jù)上述分析,求解流程如下.
Step 2n=n+1,執(zhí)行整個(gè)外循環(huán);
Step 3 根據(jù)(12)和(13)更新uk與ωk;
Step 4k=k+1,重復(fù)Step 3執(zhí)行內(nèi)循環(huán),直至k=K;
已知周期信號x(t),如(14).
x(t)=x1(t)+x2(t)+x3(t).
(14)
1.3.1 模態(tài)數(shù)對變分模態(tài)分解的影響
對信號進(jìn)行VMD分解時(shí),需要預(yù)先給定分解模態(tài)數(shù)K,因K會影響到信號VMD分解的精度和效果.針對不同的K對周期信號x(t)進(jìn)行分解,并通過分析信號VMD分解后各IMF與原信號x(t)之間的相關(guān)系數(shù)ρ,確定“過分解”和“欠分解”現(xiàn)象是否發(fā)生.
1) 基于不同K(K=2、3、4、5)值對周期信號x(t)進(jìn)行VMD分解,結(jié)果如圖4所示.當(dāng)K=2時(shí)(圖4 a),分解出了288 Hz的余弦信號,而2 Hz與24 Hz的余弦信號卻疊加在了一起(“欠分解”);當(dāng)K=3時(shí)(圖4 b),2 Hz、24 Hz與288 Hz的余弦信號被完全分開;當(dāng)K=4時(shí)(圖4 c),分解出了2、24、288 Hz的余弦信號,分別對應(yīng)u1(t),u2(t),u4(t),同時(shí)也出現(xiàn)了虛假模態(tài)u3(t) (“過分解”);當(dāng)K=5時(shí)(圖4 d),分解出了2、24、288 Hz的余弦信號,分別對應(yīng)u1(t),u2(t),u4(t),同時(shí)也出現(xiàn)了虛假模態(tài)u3(t),u5(t) (“過分解”).
圖4 K=2,3,4,5; α=2 000時(shí),周期信號變分模態(tài)分解圖
表1 不同K值下VMD分解后各模態(tài)與x(t)之間的相關(guān)系數(shù)
2) 基于不同K(K=2、3、4、5)值對周期信號進(jìn)行VMD分解并記錄分解后各IMF與原信號之間的相關(guān)系數(shù)ρ,結(jié)果如表1所示.當(dāng)K=4時(shí),模態(tài)u3與原信號之間的相關(guān)系數(shù)ρ3=0.023 7;當(dāng)K=5時(shí),模態(tài)u3,u5與原信號之間的相關(guān)系數(shù)ρ3=0.009 8,ρ5=0.013 0,出現(xiàn)了虛假模態(tài).
1.3.2 平衡約束參數(shù)對變分模態(tài)分解的影響
圖5 不同α值下信號中心頻率變化曲線
通過對周期信號x(t)在不同K和α值的分析得出:K過小,VMD會出現(xiàn)“欠分解”現(xiàn)象;K過大,則會出現(xiàn)“過分解”現(xiàn)象;α越小,IMF帶寬越大,容易出現(xiàn)中心頻率重疊及“欠分解”現(xiàn)象,α越大,IMF帶寬越小,中心頻率重疊及“欠分解”現(xiàn)象消失,但計(jì)算量增大.基于以上分析,一般取α=1fs,并提出自適應(yīng)變分模態(tài)分解法(AVMD),該方法的具體步驟如下.
1)初始化ρ0,K=2,平衡約束參數(shù)α=1fs;
2)對信號進(jìn)行VMD分解,計(jì)算每一個(gè)IMF與原始信號的相關(guān)系數(shù)ρ;
3)判斷ρi,ρ0之間的關(guān)系,若ρi<ρ0,則停止分解;否則增加模態(tài)數(shù),繼續(xù)分解,直到滿足停止條件;
4)存儲最優(yōu)K值,輸出IMF.
1)正交性性能分析
Huang等人在經(jīng)驗(yàn)?zāi)J椒纸?EMD)中利用連續(xù)函數(shù)空間C[a,b]的內(nèi)積定義了所有IMF分量的整體正交性指標(biāo)IO,如(15)所示.
(15)
對任意兩個(gè)IMF分量的正交性指標(biāo)IOi,j定義為(16).
(16)
IO表征了各IMF分量之間的正交性,IO越小越好;當(dāng)IO=0時(shí),各IMF分量間完全正交.對周期仿真信號x(t)分別進(jìn)行EMD,LMD,AVMD分解,并計(jì)算分解后各IMF的整體正交性指標(biāo),結(jié)果如表2所示.當(dāng)選擇AVMD時(shí),IO=1.738 9×10-4,遠(yuǎn)小于其它分解后得到的IO值,這表明AVMD分解得到的IMF的整體正交性是最好的.
表2 EMD、LMD、AVMD的正交性指標(biāo)值比較
2)能量保存度分析
能量保存度(IEC)用于對各IMF分量的正交性能進(jìn)行評判,值越接近于1,能量泄漏越小,IEC的計(jì)算公式如(式17)所示.
(17)
式中,ci(t)為分解后得到的第i個(gè)IMF分量,rn(t)為趨勢項(xiàng).
表3 EMD、LMD、AVMD的“IEC” 值比較
對周期信號x(t)分別進(jìn)行EMD,LMD,AVMD分解,計(jì)算每種分解后能量保存度,結(jié)果如表3所示.當(dāng)選擇AVMD時(shí),IEC=0.985 1,大于其它分解方法得到的IEC值,這表明AVMD分解后得能量泄漏最小.
從語料庫中選取500個(gè)佤語孤立詞,每一個(gè)音節(jié)讀8遍,共計(jì)4 000條佤語語音.每一條語音的采樣頻率為8 000 Hz,幀長320、幀移80,加漢明窗,窗寬為幀長的1/4,分別對每一條語音進(jìn)行分幀、加窗、預(yù)加重處理.預(yù)加重的目的是降低基頻對共振峰檢測的干擾.然后利用AVMD分解,由于缺少標(biāo)準(zhǔn)佤語共振峰頻率標(biāo)注語料庫,最終選擇將所求結(jié)果與Praat提取的共振峰頻率做比對,若以Praat提取的共振峰頻率為標(biāo)準(zhǔn),則平均正確率可達(dá)85.50%,其中的一個(gè)共振峰提取圖如圖7.
通過對VMD的兩影響參數(shù):分解模態(tài)數(shù)K、平衡約束參數(shù)α進(jìn)行分析,并從基于K和α的相關(guān)系數(shù)ρ、中心頻率變換值、IO值等參數(shù)的變換結(jié)果,提出了自適應(yīng)變分模態(tài)分解法(AVMD).通過對本征模態(tài)函數(shù)的正交性能、能量保存度2個(gè)方面驗(yàn)證了該方法的可行性,并利用該方法成功提取到了佤語孤立詞的前3個(gè)共振峰頻率,實(shí)現(xiàn)了對佤語共振峰的估計(jì),平均正確率達(dá)到85.50%.由于變分模態(tài)分解在處理語音信號時(shí),存在端點(diǎn)效應(yīng),在接下來的工作中,如何消除端點(diǎn)效應(yīng)對語音信號的影響是進(jìn)行下一步實(shí)驗(yàn)的研究重點(diǎn).