曾 歆,張雄偉,孫 蒙,苗曉孔,姚 琨
(陸軍工程大學(xué),江蘇南京210007)
語音轉(zhuǎn)換是一種在保留語義信息不變的前提下,修改源說話人的個性特征信息,使之具有目標(biāo)說話人個性特征的語音處理技術(shù)[1]。語音轉(zhuǎn)換要實現(xiàn)這一目的,就要提取表征個性特征信息的聲學(xué)特征,建立不同說話人對應(yīng)聲學(xué)特征的對應(yīng)關(guān)系,即轉(zhuǎn)換規(guī)則,然后進行轉(zhuǎn)換合成,得到轉(zhuǎn)換語音。
語音轉(zhuǎn)換是目前信號處理領(lǐng)域比較新的一個分支,該技術(shù)的研究兼具理論意義和實際應(yīng)用價值。在多媒體娛樂方面,可通過語音轉(zhuǎn)換實現(xiàn)特定人物配音;對于語音登入系統(tǒng),可以利用轉(zhuǎn)換語音攻擊說話人認(rèn)證系統(tǒng)。此外,還可以利用語音轉(zhuǎn)換來消除個人特征差異對語音識別的影響等。由此可見,語音轉(zhuǎn)換技術(shù)值得深入研究。
語音的特征信息大致劃分為3類:音段信息、超音段信息和語言學(xué)信息[2]。相關(guān)研究表明,超音段信息中的平均基頻和音段信息中的聲道譜包絡(luò)對說話人語音個人特征信息的貢獻最為重要[3]。相對于平均基頻而言,聲道譜包絡(luò)的建模、轉(zhuǎn)換更為復(fù)雜,且是制約語音轉(zhuǎn)換效果提升的瓶頸。因此,本文重點圍繞聲道譜轉(zhuǎn)換展開研究。
語音轉(zhuǎn)換技術(shù)研究可追溯到20世紀(jì)80年代。王志衛(wèi)等[4]采用了基于碼書映射的語音轉(zhuǎn)換方法,該方法基于統(tǒng)計得到的直方圖信息,通過加權(quán)求和的方法實現(xiàn)語音轉(zhuǎn)換。這種“硬聚類”的轉(zhuǎn)換方法雖然效果一般,但開辟了一條從統(tǒng)計學(xué)角度解決語音轉(zhuǎn)換的思路。Toda等[5]采用了基于高斯混合模型(Gaussian Mixture Model, GMM)的聲道譜轉(zhuǎn)換方法,對說話人的聲道譜空間參數(shù)進行建模映射。相比基于碼本映射的語音轉(zhuǎn)換方法,該方法極大地提升了頻譜平滑度,但基于概率的“軟聚類”也導(dǎo)致結(jié)果中存在參數(shù)過平滑問題。Sundermann等[6]采用動態(tài)頻率規(guī)整(Dynamic Frequency Warping, DFW)的方法進行語音轉(zhuǎn)換,即對源說話人聲道譜頻率進行DFW處理,使其共振峰位置匹配目標(biāo)說話人頻譜共振峰位置。此外,基于隱變量模型的轉(zhuǎn)換方法[7]、基于深度神經(jīng)網(wǎng)絡(luò)模型的轉(zhuǎn)換方法[8-9]等也相繼被廣泛研究和應(yīng)用。
在語音轉(zhuǎn)換系統(tǒng)中,聲道譜參數(shù)是反映說話人個性的重要特征參數(shù)。在眾多關(guān)于聲道譜包絡(luò)的建模轉(zhuǎn)換中,GMM 方法的使用較為普遍。相較于近年流行的神經(jīng)網(wǎng)絡(luò)方法,GMM 方法依然具有模型體積小、轉(zhuǎn)換耗時少、可本地化計算等優(yōu)點。因此,本文考慮選用GMM方法進行相應(yīng)的語音轉(zhuǎn)換研究。
語音信號中包含著豐富的特征參數(shù),不同的特征參數(shù)表征著不同的物理和聲學(xué)意義。特征參數(shù)的選擇對語音轉(zhuǎn)換系統(tǒng)的轉(zhuǎn)換效果至關(guān)重要。目前關(guān)于語音轉(zhuǎn)換的研究中,大多數(shù)轉(zhuǎn)換方法只選擇對單一聲道特征參數(shù)進行轉(zhuǎn)換,而忽略了不同聲道特征參數(shù)之間可能存在的互補性。本文在現(xiàn)有研究成果的基礎(chǔ)上,對不同的聲道特征參數(shù)進行聯(lián)合建模和轉(zhuǎn)換。具體來說,從語音信號中提取線性預(yù)測系數(shù)(Linear Prediction Coefficient, LPC)和梅爾頻率倒譜系數(shù)(Mel-Frequency Cepstral Coefficient, MFCC),聯(lián)合二者得到 LPC-MFCC特征參數(shù),并借助轉(zhuǎn)換性能較好的GMM,實現(xiàn)對LPC-MFCC特征參數(shù)的轉(zhuǎn)換。LPC是表征聲道信息的特征參數(shù),主要反映聲道響應(yīng);而MFCC是基于人聽覺的臨界帶效應(yīng),在梅爾標(biāo)度頻率域提取出來的倒譜特征參數(shù),更貼近人耳的聽覺特性。因此,LPC參數(shù)和MFCC參數(shù)存在一定的互補性。
在GMM建模階段,采用了對源和目標(biāo)聯(lián)合建模的方法。聯(lián)合建模一般選用并行語料,即源與目標(biāo)訓(xùn)練的語料一致,以此來保證動態(tài)時間規(guī)整(Dynamic Time Warping, DTW)后的聯(lián)合矢量源與目標(biāo)的對齊,為GMM訓(xùn)練做好準(zhǔn)備。轉(zhuǎn)換規(guī)則的確立一般選用最小二乘法來估計轉(zhuǎn)換函數(shù)的相關(guān)參數(shù)。與矢量量化語音轉(zhuǎn)換方法相比,GMM是對頻譜包絡(luò)特征參數(shù)進行軟分類,使得特征參數(shù)能夠以一定的概率屬于多個不同的類,在一定程度上克服了矢量量化的不連續(xù)性,改善了轉(zhuǎn)換后語音的音質(zhì)。使用該方法進行語音轉(zhuǎn)換能夠得到較為滿意的合成語音。
1.2.1 線性預(yù)測系數(shù)
語音線性預(yù)測的基本原理是:由于語音信號樣點之間存在相關(guān)性,因此一個語音的采樣值可以用過去若干語音采樣值的線性組合來逼近。通過使實際語音信號抽樣值和線性預(yù)測抽樣值之間的誤差在均方準(zhǔn)則下達到最小值來求解預(yù)測系數(shù),而預(yù)測系數(shù)就反映了語音信號的特征,故可以用這組語音特征參數(shù)進行語音轉(zhuǎn)換或語音合成等。
設(shè)n時刻的語音采樣值s(n)可由其前面p個語音采樣值的線性加權(quán)表示,則s(n)可以表示為
其中,ai表示權(quán)值,p個LPC參數(shù)可通過全極點模型進行求解。
線性預(yù)測最主要的優(yōu)勢在于可以較為精確地估計語音聲道參數(shù),能夠較好地反映語音信號的聲道特性。
1.2.2 基于LPC參數(shù)和GMM模型的語音轉(zhuǎn)換
在訓(xùn)練階段,首先分別提取源說話人和目標(biāo)說話人的LPC參數(shù);然后使用DTW算法對源和目標(biāo)說話人的LPC參數(shù)進行時間對齊;最后運用GMM訓(xùn)練網(wǎng)絡(luò),建立映射轉(zhuǎn)換規(guī)則。
在轉(zhuǎn)換階段,首先提取源說話人的LPC參數(shù);然后根據(jù)訓(xùn)練階段建立的映射轉(zhuǎn)換規(guī)則,對源說話人的 LPC參數(shù)進行轉(zhuǎn)換;最后利用轉(zhuǎn)換所得到的LPC參數(shù)合成轉(zhuǎn)換語音。
本文在基于LPC參數(shù)的GMM聲道譜轉(zhuǎn)換方法的基礎(chǔ)上,引入了更貼近于人耳聽覺特性的MFCC參數(shù),構(gòu)建了聯(lián)合特征參數(shù) LPC-MFCC并用于語音轉(zhuǎn)換。其語音轉(zhuǎn)換框圖如圖1所示,轉(zhuǎn)換步驟如下:
在訓(xùn)練階段:(1) 分別提取源說話人和目標(biāo)說話人的LPC參數(shù)和MFCC參數(shù);(2) 聯(lián)合LPC參數(shù)和MFCC參數(shù),得到新的特征參數(shù)LPC-MFCC;(3) 使用 DTW 算法對源和目標(biāo)說話人的LPC-MFCC特征參數(shù)進行時間對齊;(4) 使用GMM模型訓(xùn)練網(wǎng)絡(luò),建立映射轉(zhuǎn)換規(guī)則。
在轉(zhuǎn)換階段:(1) 提取源說話人的LPC參數(shù)和MFCC參數(shù);(2) 聯(lián)合LPC參數(shù)和MFCC參數(shù),得到LPC-MFCC聯(lián)合特征參數(shù);(3) 根據(jù)訓(xùn)練階段建立的映射轉(zhuǎn)換規(guī)則,對源說話人的 LPC-MFCC特征參數(shù)進行轉(zhuǎn)換,轉(zhuǎn)換所得 LPC-MFCC特征參數(shù)中包含LPC參數(shù)對應(yīng)轉(zhuǎn)換的生成部分和MFCC參數(shù)對應(yīng)轉(zhuǎn)換的生成部分;(4) 考慮到基于LPC參數(shù)的語音轉(zhuǎn)換方法的效果優(yōu)于基于 MFCC參數(shù)的語音轉(zhuǎn)換方法,因此選取LPC參數(shù)對應(yīng)轉(zhuǎn)換生成部分進行語音合成,得到轉(zhuǎn)換語音。
2.2.1 語音信號預(yù)處理
為了得到適合轉(zhuǎn)換處理的語音幀,首先對語音進行加窗分幀、端點檢測、預(yù)加重等前端預(yù)處理。其中,預(yù)加重的目的是為了對語音的高頻部分進行加重,去除口唇輻射的影響,增加語音的高頻分辨率。本文設(shè)置的預(yù)加重系數(shù)為0.9。
2.2.2 MFCC參數(shù)與LPC參數(shù)的提取
本步驟的目的是基于預(yù)處理后的語音幀,提取出反映信號特征的關(guān)鍵特征參數(shù)以便于后續(xù)處理。考慮到GMM模型更適用于低維度特征的建模,本文選取低維度的MFCC參數(shù)與LPC參數(shù)進行聯(lián)合。MFCC參數(shù)的提取過程如圖2所示[10]。
基于LPC特征參數(shù)的語音轉(zhuǎn)換在1.2節(jié)已經(jīng)詳細(xì)介紹,此處不再贅述。
2.2.3 LPC參數(shù)與MFCC參數(shù)的聯(lián)合
為了便于LPC參數(shù)和MFCC參數(shù)進行聯(lián)合,在LPC參數(shù)和MFCC參數(shù)提取之前,對語音信號做同樣的加窗分幀等預(yù)處理操作。本文實驗設(shè)定濾波器階數(shù)為12。
為了便于闡述參數(shù)的聯(lián)合過程,假設(shè)矩陣Alpc表示根據(jù)某一句語音提取得到的LPC參數(shù),階數(shù)為M×N,其中M表示幀數(shù),N表示特征維度。矩陣Amfcc表示根據(jù)同一語音提取得到的MFCC參數(shù),階數(shù)為M×N。對兩個矩陣按列拼接得到聯(lián)合矩陣,即LPC-MFCC特征參數(shù)對應(yīng)的矩陣,階數(shù)大小為M×2N。這一步對LPC參數(shù)的維度進行了擴充,使原本N維度的轉(zhuǎn)換問題變成 2N維度的轉(zhuǎn)換問題,同時也將LPC參數(shù)和MFCC參數(shù)之間可能存在的互補性納入考慮范圍。
圖1 基于GMM模型和LPC-MFCC聯(lián)合特征的轉(zhuǎn)換框圖Fig.1 Block diagram of voice conversion based on GMM model with LPC-MFCC
圖2 MFCC特征提取流程Fig.2 The procedure of extracting MFCC features
2.2.4 時間對齊
在建立源特征參數(shù)和目標(biāo)特征參數(shù)映射關(guān)系之前,需要先將源和目標(biāo)語音的特征參數(shù)進行時間對齊,確保轉(zhuǎn)換的是描述同一音節(jié)的特征參數(shù)。使用 DTW 算法對源說話人和目標(biāo)說話人的LPC-MFCC特征參數(shù)進行對齊,產(chǎn)生一對相等長度的源和目標(biāo)的特征序列。
2.2.5 模型訓(xùn)練及參數(shù)轉(zhuǎn)換
將源語音參數(shù)矢量X與目標(biāo)語音參數(shù)矢量Y構(gòu)成一個聯(lián)合矢量Z,Z= [XY]T,利用聯(lián)合概率P(X, Y)來訓(xùn)練高斯混合模型。假設(shè)用p個單高斯分布的加權(quán)求和來表征Z的概率分布,則GMM的概率分布函數(shù)表示為[11]
約束條件為
GMM的3個模型參數(shù)(αi,μi,Σi),可以通過期望最大(Expectation-Maximization, EM)算法進行迭代求取[11]。
首先找到輸入語音特征參數(shù)相對于源說話人GMM 模型對應(yīng)的分量,然后找到輸入語音特征參數(shù)相對于目標(biāo)說話人GMM模型對應(yīng)的分量,然后在這兩個分量之間建立轉(zhuǎn)換規(guī)則,這樣就可以將源語音的參數(shù)映射成目標(biāo)語音的參數(shù),從而實現(xiàn)對輸入語音特征的轉(zhuǎn)換。
運用上述的 GMM訓(xùn)練 LPC-MFCC特征參數(shù),建立映射轉(zhuǎn)換規(guī)則。在轉(zhuǎn)換階段,同樣對源目標(biāo)語音提取LPC-MFCC特征參數(shù),根據(jù)訓(xùn)練好的網(wǎng)絡(luò)模型進行轉(zhuǎn)換。在合成階段,只需取出LPC參數(shù)對應(yīng)的轉(zhuǎn)換部分,進行語音合成,從而得到轉(zhuǎn)換語音。
為了更好地對比語音轉(zhuǎn)換方法的性能,需要進行仿真實驗測試。本文采用主觀和客觀相結(jié)合的測試方法來對兩種方法的轉(zhuǎn)換性能進行綜合評價。
3.1.1 客觀測試
語音信號之間的差異一般采用語音信號頻譜上的距離測度來描述。理論上可以使用各種類型頻譜差測量來計算轉(zhuǎn)換語音和目標(biāo)語音之間的差異。轉(zhuǎn)換后的頻譜和目標(biāo)頻譜之間的距離越小,說明二者越接近,也即轉(zhuǎn)換效果越好。語音轉(zhuǎn)換相關(guān)文獻中使用最多的客觀測試衡量指標(biāo)是梅爾倒譜失真(Mel Cepstral Distance, MCD),單位dB,其計算方法為
其中,y和分別是目標(biāo)語音和轉(zhuǎn)換語音的梅爾倒譜特征向量。
3.1.2 主觀測試
主觀測試也是對轉(zhuǎn)換語音進行評價的一個很重要的方式。它根據(jù)一定的評價標(biāo)準(zhǔn)、靠人的主觀聽覺來對轉(zhuǎn)換后的語音進行判斷或打分,進而對語音轉(zhuǎn)換方法的性能進行評估。語音轉(zhuǎn)換相關(guān)文獻中使用最多的主觀測試衡量指標(biāo)是平均意見得分(Mean Opinion Score, MOS)測試。MOS測試的主要原理是讓測評人根據(jù)5個等級劃分對測試語音的主觀感受進行打分。它既可以用于對語音自然度進行主觀評價,也可以用于對說話人特征相似度的評價。測試要求測評人具有正常的聽覺感知能力,并多年從事語音技術(shù)研究。
本文使用由中國科學(xué)院自動化所(Institute of Automation, Chinese Academy of Sciences, CASIA)發(fā)布的 CASIA漢語情感語料庫進行了多組轉(zhuǎn)換實驗,包括:男聲到男聲(M-M)、男聲到女聲(M-F)、女聲到男聲(F-M)、女聲到女聲(F-F)的轉(zhuǎn)換。客觀測試結(jié)果如表1所示。其中優(yōu)化比率表示聯(lián)合特征參數(shù)方法相對于LPC參數(shù)方法的MCD的下降率。
結(jié)合表1分析可知,相比于基于GMM和LPC參數(shù)的語音轉(zhuǎn)換方法,基于 GMM 和 LPC-MFCC聯(lián)合特征參數(shù)的語音轉(zhuǎn)換方法,在男聲到男聲、男聲到女聲轉(zhuǎn)換時,客觀指標(biāo)MCD值有較明顯的下降;但是當(dāng)源目標(biāo)語音是女聲,目標(biāo)語音是女聲或者男聲時,兩種語音轉(zhuǎn)換方法的MCD測試結(jié)果相差不大。可能的原因是女聲音調(diào)高,將其作為待轉(zhuǎn)換語音會影響轉(zhuǎn)換效果。今后將會對其具體原因進行更深入的研究。
總體來說,基于聯(lián)合特征參數(shù)的轉(zhuǎn)換方法相比于基于LPC特征參數(shù)的轉(zhuǎn)換方法,MCD值明顯降低,降低比率為11%,客觀測試結(jié)果更佳。
表1 客觀測試的MCD結(jié)果比較Table 1 Comparison of MCD results in objective test
在主觀測試方面,依據(jù)轉(zhuǎn)換語音和目標(biāo)語音相似度的主觀測試結(jié)果如表2所示。其中優(yōu)化比率表示聯(lián)合特征參數(shù)方法相對于 LPC特征參數(shù)方法的MOS分提升率。
表2 主觀測試的MOS結(jié)果比較Table 2 Comparison of MOS results in subjective test
結(jié)合表2分析可知,相比于基于LPC參數(shù)的轉(zhuǎn)換方法,基于 LPC-MFCC聯(lián)合特征參數(shù)的轉(zhuǎn)換方法,在男聲到男聲、女聲到女聲兩組實驗中的相似度顯著提高;在男聲到女聲、女聲到男聲兩組實驗中略有提高。
總體來說,基于聯(lián)合特征參數(shù)的轉(zhuǎn)換方法,相比于基于LPC特征參數(shù)的轉(zhuǎn)換方法,轉(zhuǎn)換語音和目標(biāo)語音更相似,相似度提升達到25%,轉(zhuǎn)換性能更佳。
本文在基于GMM模型和LPC參數(shù)語音轉(zhuǎn)換方法的基礎(chǔ)上,引入了更貼近人耳聽覺特性的MFCC參數(shù),將LPC和MFCC參數(shù)之間可能存在的互補性納入考慮范圍,在此基礎(chǔ)上提出了一種基于GMM模型和LPC-MFCC聯(lián)合特征參數(shù)的語音轉(zhuǎn)換方法。主觀和客觀實驗表明,相比于基于GMM模型和LPC參數(shù)的語音轉(zhuǎn)換方法,基于GMM模型和LPC-MFCC聯(lián)合特征參數(shù)的語音轉(zhuǎn)換方法相似度更高,轉(zhuǎn)換效果更佳。但MFCC參數(shù)的引入同時也會對LPC的合成階段產(chǎn)生干擾,導(dǎo)致合成語音存在些許噪聲。如何解決這一問題將是下一步工作的重點。此外,本文語音轉(zhuǎn)換系統(tǒng)的輸入和輸出都是LPC-MFCC,且合成階段只選用LPC對應(yīng)的轉(zhuǎn)換部分進行語音合成。下一步擬繼續(xù)研究以LPC-MFCC為輸入,LPC或MFCC為輸出的語音轉(zhuǎn)換方法,并且在語音合成階段擬將MFCC納入考慮范圍,繼續(xù)探究LPC和MFCC參數(shù)之間的互補性,以進一步提高轉(zhuǎn)換語音的自然度和相似度。