王霞+劉婕+王光艷+王蒙軍
摘 要: 為了提高面罩語音的清晰度和可懂度,提出一種基于廣義回歸神經(jīng)網(wǎng)絡(luò)(GRNN)對(duì)線譜對(duì)(LSP)參數(shù)進(jìn)行非線性建模的面罩語音矯正方法。分別提取正常語音和面罩語音的LSP參數(shù),其次利用LSP參數(shù)對(duì)GRNN進(jìn)行訓(xùn)練,得到矯正模型,將面罩語音的LSP參數(shù)通過矯正模型進(jìn)行修正,并將結(jié)果作為參數(shù)用來合成新的語音。實(shí)驗(yàn)結(jié)果表明,利用GRNN訓(xùn)練出的矯正模型能夠有效地調(diào)整面罩語音的LSP參數(shù),在一定程度上能夠恢復(fù)其頻譜分布。
關(guān)鍵詞: 面罩語音; 線譜對(duì); 廣義回歸神經(jīng)網(wǎng)絡(luò); 語音合成
中圖分類號(hào): TN912.3?34 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2017)17?0060?04
Research on mask speech correction based on generalized regression neural network
WANG Xia1, LIU Jie1, WANG Guangyan2, WANG Mengjun1
(1. School of Electronics and Information Engineering, Hebei University of Technology, Tianjin 300401, China;
2. School of Information Engineering, Tianjin University of Commerce, Tianjin 300401, China)
Abstract: In order to improve the clarity and intelligibility of mask speech, a mask speech correction method based on generalized regression neural network (GRNN) for nonlinear modeling of line spectrum pair (LSP) parameters is proposed. The LSP parameters of normal speech and mask speech are extracted respectively, and then used to train GRNN to obtain the correction model. The LSP parameters of mask speech are modified based on the correction model, and its results are used as parameters for new speech synthesis. The experimental results show that the correction model trained by GRNN can adjust the LSP parameters of the mask speech effectively, and recover the spectral distribution of the mask speech to a certain extent.
Keywords: mask speech; LSP; GRNN; speech synthesis
0 引 言
消防員在佩戴防毒面具的情況下,由于面罩體積小和封閉的物理特性,發(fā)出的聲音通過面罩后變得發(fā)悶,帶有鼻音色彩和嗚嗚聲,稱之為“面罩語音”。面罩語音給人們的救援行動(dòng)帶來了交流上的阻礙,由此出現(xiàn)了矯正面罩語音這一課題。
國(guó)內(nèi)外針對(duì)面罩語音的研究較少,但其他類型的畸變語音(如氦語音、耳語音)的轉(zhuǎn)換方法同樣具有參考價(jià)值。在處理畸變語音的過程中,以合成語音模型為出發(fā)點(diǎn),重點(diǎn)研究如何修正特征參數(shù)。文獻(xiàn)[1?2]利用線性預(yù)測(cè)模型恢復(fù)耳語音和氦語音。之后,人們?yōu)榱耸怪亟ǖ恼Z音更貼近實(shí)際語音,開始研究用各種非線性的方法來修正特征參數(shù)。文獻(xiàn)[3?4]嘗試用神經(jīng)網(wǎng)絡(luò)對(duì)語音特征參數(shù)進(jìn)行非線性建模。文獻(xiàn)[5]為了使矯正后的頻譜分布和共振峰帶寬更加符合語音實(shí)際轉(zhuǎn)換的非線性要求,加入擴(kuò)展因子的雙線性變換函數(shù)分段處理耳語音的頻譜。文獻(xiàn)[6]提出一種完全參數(shù)化的雙線性頻率翹曲與振幅縮放結(jié)合的語音轉(zhuǎn)換方法,較傳統(tǒng)基于高斯混合模型的方法,轉(zhuǎn)換的語音質(zhì)量有了顯著改善。文獻(xiàn)[7]以正常語音的頻譜包絡(luò)為轉(zhuǎn)換目標(biāo),將受限玻爾茲曼機(jī)作為譜估計(jì)模型,利用深度學(xué)習(xí)技術(shù)重建語音,實(shí)驗(yàn)結(jié)果表明,深度學(xué)習(xí)技術(shù)能提高重建語音的質(zhì)量。
本文選擇在合成語音模型中更為強(qiáng)健的LSP作為特征參數(shù),利用具有強(qiáng)大非線性學(xué)習(xí)能力的GRNN模型對(duì)LSP進(jìn)行修正。
1 面罩語音特性
面罩語音的產(chǎn)生是由于聲音在面罩腔體內(nèi)傳播時(shí)發(fā)生了吸波、反射、共振等現(xiàn)象。本文從時(shí)域波形、短時(shí)能量、基音周期以及短時(shí)頻譜方面綜合觀察面罩語音的特性。
選用樣本語音“語音信號(hào)增強(qiáng)”,分別在正常環(huán)境下和佩戴封閉式面罩的條件下錄取正常語音和面罩語音。圖1,圖2是正常語音和面罩語音的時(shí)域分析和頻域分析的對(duì)比,其中,圖2用到的濁音幀和清音幀均從樣本語音中選取。
為了更好地研究面罩語音,將其特點(diǎn)歸結(jié)如下:
(1) 基音頻率不變。從時(shí)域波形和短時(shí)能量可以明顯看出面罩語音的有話段和無話段界限,并且與正常環(huán)境下的語音一致。從基音周期的對(duì)比中可以看出,面罩語音的基音頻率幾乎保持不變。
(2) 低頻分量增加,高頻分量減少。短時(shí)能量的下降解釋了面罩語音在聽覺上變得發(fā)悶的原因。從濁音幀和清音幀的頻譜分析中可以看出頻譜分量重新分配的特點(diǎn)是低頻分量增加,高頻分量減少。endprint
2 語音特征參數(shù)的提取
2.1 線譜對(duì)分析
線譜對(duì)(Line Spectrum Pair,LSP)是線性預(yù)測(cè)(LPC)系數(shù)在頻域中的另一種表達(dá),也同樣包含了共振峰中心頻率和帶寬的信息,因此,可以通過調(diào)整LSP參數(shù)達(dá)到矯正語音的目的。其次,LSP小的系數(shù)偏差帶來的譜誤差只是局部的,能夠確保合成濾波器的穩(wěn)定性。
2.2 LSP參數(shù)的求解
設(shè)階線性預(yù)測(cè)合成濾波器為:
(1)
線性預(yù)測(cè)逆濾波器的階對(duì)稱和反對(duì)稱實(shí)系數(shù)多項(xiàng)式如下:
(2)
(3)
設(shè)的零點(diǎn)為的零點(diǎn)為且滿足:
(4)
由式(1)~式(3)可得:
(5)
(6)
最后求出的和則是與LSP參數(shù)對(duì)應(yīng)的線譜頻率(Line Spectrum Frequency,LSF),它們決定于已知的LPC系數(shù)。
聲道幅度譜的特性在一定程度上可以通過LSP參數(shù)來反映,在參數(shù)分布集中的地方幅度大,反之較小。一對(duì)通常代表一個(gè)共振峰,在調(diào)整某個(gè)LSF參數(shù)時(shí),對(duì)應(yīng)的頻譜只在附近與原始語音頻譜有差異,而在其他頻域變化很小[8]。這一性質(zhì)為選擇LSP作為修正參數(shù)和重建語音參數(shù)提供了理論基礎(chǔ)。
3 基于GRNN神經(jīng)網(wǎng)絡(luò)的LSP參數(shù)矯正模型
3.1 GRNN神經(jīng)網(wǎng)絡(luò)
實(shí)際上,人的發(fā)音過程是十分復(fù)雜的,是非線性的。廣義回歸神經(jīng)網(wǎng)絡(luò)(Generalized Regression Neural Network,GRNN)是由徑向基神經(jīng)元和線性神經(jīng)元組合而成的四層前向神經(jīng)網(wǎng)絡(luò),具有很強(qiáng)的非線性映射能力和高度的容錯(cuò)性。相較BP和RBF神經(jīng)網(wǎng)絡(luò),GRNN的逼近能力和學(xué)習(xí)速度有更強(qiáng)的優(yōu)勢(shì),并且結(jié)果是全局收斂的,在樣本數(shù)據(jù)較少時(shí),預(yù)測(cè)結(jié)果也較好[9]。
GRNN由四層神經(jīng)元構(gòu)成,分別為輸入層、模式層、求和層和輸出層。其中輸入層神經(jīng)元的數(shù)目等于學(xué)習(xí)樣本中輸入向量的維數(shù),即單樣本LSP的階數(shù);模式層神經(jīng)元數(shù)量與學(xué)習(xí)樣本數(shù)量相同,即取決于有多少幀LSP樣本,模式層傳遞函數(shù)為徑向基函數(shù),常用的是高斯函數(shù);求和層中使用兩種神經(jīng)元分別進(jìn)行相應(yīng)算法的求和;輸出層將求和層的兩個(gè)結(jié)果相除,得到預(yù)測(cè)值。
GRNN模型的Matlab構(gòu)建代碼為net=newgrnn(SPREAD)。其中,和分別為輸入向量、目標(biāo)向量,SPREAD為徑向基函數(shù)的擴(kuò)展系數(shù)。SPREAD值越小,網(wǎng)絡(luò)對(duì)樣本的逼近性能越強(qiáng);系數(shù)值越大,逼近過程越光滑,但同時(shí)也會(huì)加大計(jì)算上的難度,可人為調(diào)節(jié)讓網(wǎng)絡(luò)達(dá)到最佳性能,針對(duì)本文的樣本,選擇最優(yōu)SPREAD=0.2。
3.2 矯正模型的構(gòu)建
本文引入GRNN模型構(gòu)建面罩語音LSP參數(shù)的非線性矯正模型,進(jìn)而恢復(fù)面罩語音。
訓(xùn)練模型的流程圖如圖3所示,具體步驟如下:
(1) 對(duì)面罩語音和正常語音分別做預(yù)處理、端點(diǎn)檢測(cè),找出有話段語音;
(2) 提取面罩語音和正常語音的LPC參數(shù)并轉(zhuǎn)換為L(zhǎng)SP;
(3) 通過動(dòng)態(tài)時(shí)間規(guī)整網(wǎng)絡(luò),將LSP參數(shù)規(guī)整為統(tǒng)一幀數(shù);
(4) 將面罩語音的LSP參數(shù)作為GRNN模型的輸入樣本,將正常語音的LSP參數(shù)作為GRNN模型的期望輸出樣本,試驗(yàn)并設(shè)置最佳模型參數(shù),訓(xùn)練模型。
將面罩語音的LSP參數(shù)通過訓(xùn)練好的面罩語音矯正模型得到矯正后的LSP參數(shù),通過LSP參數(shù)合成濾波器重建語音,如圖4所示。
4 實(shí)驗(yàn)過程和結(jié)果分析
在正常環(huán)境下錄取若干純凈語音,在佩戴封閉式防毒面具的條件下錄取對(duì)應(yīng)的面罩語音,將這些正常語音和面罩語音作為實(shí)驗(yàn)樣本。選用自錄單漢字語音作為實(shí)驗(yàn)語音樣本,采樣頻率均為8 000 Hz,幀長(zhǎng)為30 ms,幀移為10 ms,LSP階數(shù)為10,并且選取窗長(zhǎng)為256點(diǎn)的漢明窗分析語音。
10個(gè)正常語音樣本經(jīng)過動(dòng)態(tài)時(shí)間規(guī)整后,得到400幀LSP參數(shù),一幀包含10個(gè)LSF,將它們作為訓(xùn)練模型的輸入,對(duì)應(yīng)的面罩語音樣本經(jīng)過同樣的處理作為輸出。通過圖5可以看出,矯正后LSP參數(shù)更接近正常值。
圖6是語音“受”的正常語音、面罩語音以及用本文方法矯正后語音的語譜圖。對(duì)比語譜圖可以看出,矯正后語音的頻譜分布發(fā)生改變,高頻分量部分適當(dāng)增加,低頻分量部分適當(dāng)減少。
用語音質(zhì)量客觀評(píng)價(jià)方法來評(píng)判本文方法對(duì)面罩語音是否有矯正作用。分別計(jì)算矯正前、后語音與正常語音之間的對(duì)數(shù)譜距離(Log Spectral Dstance,LSD),計(jì)算結(jié)果取平均由1.756降低到1.522,表明矯正后語音的頻譜與正常語音的頻譜更相近。對(duì)數(shù)似然比測(cè)度(Log Likelihood Ratio Measure,LLR)也是一種頻譜距離的計(jì)算,主要強(qiáng)調(diào)對(duì)頻譜包絡(luò)相似度的評(píng)判,通過計(jì)算取平均的過程得出LLR從1.431降低到0.866,表明矯正后頻譜相似度提高,而在利用BP神經(jīng)網(wǎng)絡(luò)模型構(gòu)建矯正模型的實(shí)驗(yàn)結(jié)果中,LLR僅降低到0.918。在收斂速度上,本文的方法也更快,僅需要10.9 s,而利用BP神經(jīng)網(wǎng)絡(luò)模型的矯正方法需要150 s。
從結(jié)果分析中可以得出,利用GRNN模型調(diào)整LSP參數(shù)的方法不但可以有效得到矯正面罩語音,而且在效果和速度上都有一定的優(yōu)勢(shì)。
5 結(jié) 語
本文以探索面罩語音的語音特性為起點(diǎn),研究面罩語音的畸變規(guī)律,引入GRNN模型作為研究的工具。從語音質(zhì)量客觀評(píng)價(jià)方法的比較中可以看出,矯正后語音的頻譜相似度明顯提高。從語譜圖上也可以看出,利用本文方法可以在一定程度上改變面罩語音的頻譜分布,但是矯正后語音的頻譜出現(xiàn)了誤差分量。最優(yōu)的實(shí)驗(yàn)樣本需要正常語音與畸變語音嚴(yán)格一致,包括聲調(diào)、語速、音調(diào)等,但是由于客觀條件,錄音時(shí)并不是同時(shí)進(jìn)行,本文方法是應(yīng)對(duì)動(dòng)態(tài)規(guī)整實(shí)現(xiàn)這一需求,但對(duì)于后續(xù)合成語音并不是最佳的解決方式,并不能使本文方法的有效性達(dá)到最大化,這也是實(shí)驗(yàn)中出現(xiàn)誤差的根本原因,歸根結(jié)底,研究并發(fā)現(xiàn)面罩語音的畸變規(guī)律才是解決面罩語音的根源,也是未來研究工作中的首要任務(wù)。endprint
參考文獻(xiàn)
[1] MORRIS R W, CLEMENTS M A. Reconstruction of speech from whispers [J]. Medical engineering & physics, 2002, 24(7): 515?520.
[2] 張勇,趙曉群.基于線性預(yù)測(cè)模型的氦語音增強(qiáng)算法研究[J].聲學(xué)技術(shù),2007,26(1):111?116.
[3] 韓韜,陶智,顧濟(jì)華,等.基于BP神經(jīng)網(wǎng)絡(luò)的耳語音轉(zhuǎn)換為正常語音的研究[J].通信技術(shù),2009(2):152?155.
[4] TAO Z, TAN X D, HAN T, et al. Reconstruction of normal speech from whispered speech based on RBF neural network [C]// Proceedings of 2010 the Third International Symposium on Intelligent Information Technology and Security Informatics. Jian, China: IEEE, 2010: 374?377.
[5] 陶智,趙鶴鳴,談雪丹,等.采用擴(kuò)展型雙線性變換法將耳語音轉(zhuǎn)換為正常語音的研究[J].聲學(xué)學(xué)報(bào),2012,37(6):651?658.
[6] ERRO D, NAVAS E, HERNAEZ I. Parametric voice conversion based on bilinear frequency warping plus amplitude scaling [J]. IEEE transactions on audio speech & language processing, 2013, 21(3): 556?566.
[7] LI J J, MCLOUGHLIN I V, DAI L R, et al. Whisper?to?speech conversion using restricted Boltzmann machine arrays [J]. Electronics letters, 2014, 50(24): 1781?1782.
[8] 宋知用.Matlab在語音信號(hào)分析與合成中的應(yīng)用[M].北京:北京航空航天大學(xué)出版社,2013.
[9] 賈義鵬,呂慶,尚岳全.基于粒子群算法和廣義回歸神經(jīng)網(wǎng)絡(luò)的巖爆預(yù)測(cè)[J].巖石力學(xué)與工程學(xué)報(bào),2013,32(2):343?348.endprint