張雄偉 苗曉孔 曾 歆 孫 蒙 曹鐵勇
(陸軍工程大學(xué),南京,210007)
隨著人工智能應(yīng)用領(lǐng)域的不斷擴(kuò)大和發(fā)展,智能語音交互、個(gè)性化語音生成等技術(shù)逐步受到人們的關(guān)注。語音轉(zhuǎn)換作為個(gè)性化語音生成的一種重要技術(shù)和手段,涉及語音信號(hào)處理、人工智能、模式識(shí)別、語音學(xué)等多方面學(xué)科領(lǐng)域,是當(dāng)今語音處理研究領(lǐng)域的熱點(diǎn)和難點(diǎn),近年來越來越引起學(xué)者的重視[1]。
廣義上講,人們把改變語音中說話人個(gè)性特征的語音處理技術(shù)統(tǒng)稱為語音轉(zhuǎn)換[2-5],廣義的語音轉(zhuǎn)換可分為非特定人語音轉(zhuǎn)換和特定人語音轉(zhuǎn)換兩大類。非特定人語音轉(zhuǎn)換是指通過技術(shù)處理,使得轉(zhuǎn)換后的語音不再像原說話人的聲音。而在實(shí)際研究和應(yīng)用中,語音轉(zhuǎn)換通常是指改變一個(gè)說話人,即源說話人(Source speaker)的語音個(gè)性特征,如頻譜、韻律等,使之具有另外一個(gè)特定說話人,即目標(biāo)說話人(Target speaker)的個(gè)性特征[6,7],同時(shí)保持語義信息不變的技術(shù)。一般來說,特定人語音轉(zhuǎn)換的技術(shù)難度要高于非特定人語音轉(zhuǎn)換。
語音轉(zhuǎn)換研究的相關(guān)工作最早可追溯至20世紀(jì)六七十年代,至今已經(jīng)有50多年的研究歷史,但真正受到學(xué)術(shù)界和產(chǎn)業(yè)界廣泛關(guān)注則是近十多年的事情。近年來,語音信號(hào)處理和機(jī)器學(xué)習(xí)等技術(shù)的進(jìn)步,以及大數(shù)據(jù)獲取能力和大規(guī)模計(jì)算性能的提高有力地推動(dòng)了語音轉(zhuǎn)換技術(shù)的研究及發(fā)展[8]。特別是基于人工神經(jīng)網(wǎng)絡(luò)(Artificial neural network,ANN)的語音轉(zhuǎn)換方法的興起,使得轉(zhuǎn)換語音的質(zhì)量進(jìn)一步得到提升。國內(nèi)較早進(jìn)行語音轉(zhuǎn)換研究的機(jī)構(gòu)包括中國科學(xué)院、中國科學(xué)技術(shù)大學(xué)、國防科技大學(xué)、亞洲微軟研究院、IBM中國研究院等[9]。近年來,東南大學(xué)、南京郵電大學(xué)、華南理工大學(xué)、蘇州大學(xué)、哈爾濱工業(yè)大學(xué)、西北工業(yè)大學(xué)、陸軍工程大學(xué)等多所高校以及騰訊、科大訊飛和百度等多家企業(yè)也開始此項(xiàng)技術(shù)研究,并相繼取得了一些的研究成果。2016年,來自中、日、英等國語音轉(zhuǎn)換領(lǐng)域的科學(xué)家組織了VCC2016語音轉(zhuǎn)換競(jìng)賽,在統(tǒng)一的數(shù)據(jù)集上,對(duì)17個(gè)國際著名的語音研究小組提交的系統(tǒng)做了統(tǒng)一的評(píng)價(jià)和分析,為語音轉(zhuǎn)換研究提供了數(shù)據(jù)平臺(tái)和性能標(biāo)尺。2018年VCC2018也如期舉辦,語音轉(zhuǎn)換方法再次推陳出新,且轉(zhuǎn)換語音的質(zhì)量也得到明顯提升。
本文在簡(jiǎn)要介紹語音轉(zhuǎn)換原理的基礎(chǔ)上,重點(diǎn)梳理了語音轉(zhuǎn)換的相關(guān)方法和研究進(jìn)展,歸納了語音轉(zhuǎn)換的關(guān)鍵技術(shù)和應(yīng)用,并總結(jié)了目前語音轉(zhuǎn)換中仍存在的問題和挑戰(zhàn),對(duì)語音轉(zhuǎn)換未來的發(fā)展方向作出展望。
研究表明,語音中的聲道譜信息、共振峰頻率和基音頻率等參數(shù)是影響語音個(gè)性特征的主要因素[10]。了解語音轉(zhuǎn)換的原理和過程,將有助于提取語音成分中的個(gè)性特征,更好地實(shí)現(xiàn)語音轉(zhuǎn)換。語音轉(zhuǎn)換的基本原理如圖1所示。
圖1 語音轉(zhuǎn)換原理圖Fig.1 Schematic design of voice conversion
通常一個(gè)完整的語音轉(zhuǎn)換方案由反映聲源特性的韻律轉(zhuǎn)換和反映聲道激勵(lì)特性的頻譜(或聲道譜)轉(zhuǎn)換兩部分組成[11-13]。韻律的轉(zhuǎn)換主要包括基音周期的轉(zhuǎn)換、時(shí)長(zhǎng)的轉(zhuǎn)換和能量的轉(zhuǎn)換[9],而聲道譜轉(zhuǎn)換表現(xiàn)為共振峰頻率、共振峰帶寬、頻譜傾斜等轉(zhuǎn)換。因?yàn)槁暤雷V包含人更多的聲音個(gè)性特征,且轉(zhuǎn)換建模相對(duì)復(fù)雜,是制約語音轉(zhuǎn)換效果的主要原因。因此,目前的語音轉(zhuǎn)換研究也主要集中在對(duì)聲道譜的轉(zhuǎn)換方面[11]。
根據(jù)圖1的語音轉(zhuǎn)換原理可知,一個(gè)語音轉(zhuǎn)換系統(tǒng)通常包含訓(xùn)練和轉(zhuǎn)換兩個(gè)階段。訓(xùn)練階段,首先對(duì)源說話人和目標(biāo)說話人的語音進(jìn)行分析和特征提取,然后對(duì)提取特征進(jìn)行映射處理,最后對(duì)這些映射特征進(jìn)行模型訓(xùn)練,進(jìn)而得到轉(zhuǎn)換模型。轉(zhuǎn)換階段,對(duì)待轉(zhuǎn)換源語音進(jìn)行分析、特征提取和映射,然后用訓(xùn)練階段獲取的轉(zhuǎn)換模型對(duì)映射特征進(jìn)行特征轉(zhuǎn)換,最后將轉(zhuǎn)換后的特征用于語音合成得到轉(zhuǎn)換語音。
目前實(shí)現(xiàn)語音轉(zhuǎn)換的方法中多數(shù)采用的是源和目標(biāo)說話人語音特征參數(shù)間的匹配映射方式,且均在同一個(gè)語音分析合成的模型框架下進(jìn)行。隨著信息技術(shù)的不斷進(jìn)步,出現(xiàn)了序列到序列、波形到波形等語音轉(zhuǎn)換方法,而且可用于語音轉(zhuǎn)換的模型也越來越多。
為了便于實(shí)現(xiàn)語音轉(zhuǎn)換,本節(jié)介紹了聲道譜轉(zhuǎn)換和韻律轉(zhuǎn)換兩方面的研究現(xiàn)狀。通過對(duì)研究現(xiàn)狀的分析可知,目前語音轉(zhuǎn)換研究主要集中在對(duì)聲道譜的建模和轉(zhuǎn)換規(guī)則方面,而對(duì)韻律的建模和轉(zhuǎn)換研究尚不夠充分。
聲道譜轉(zhuǎn)換中較為常用的參數(shù)有幅度譜、對(duì)數(shù)譜、倒譜、線性預(yù)測(cè)系數(shù)等基本參數(shù)以及動(dòng)態(tài)差分、本征空間短時(shí)譜[14]等變換參數(shù)。目前,對(duì)聲道譜轉(zhuǎn)換模型的研究通常是在對(duì)源和目標(biāo)說話人語音進(jìn)行統(tǒng)計(jì)分析的基礎(chǔ)上,通過參數(shù)映射方式實(shí)現(xiàn)。聲道譜轉(zhuǎn)換研究經(jīng)歷了從離散映射到連續(xù)映射、從單幀映射到音段映射、從線性映射到非線性映射、從單一方法到多方法融合的過程,轉(zhuǎn)換性能不斷提升。訓(xùn)練條件也從大數(shù)據(jù)量、平行語音到小數(shù)據(jù)量、非平行語音過渡[9]。聲道譜轉(zhuǎn)換是語音轉(zhuǎn)換中的重點(diǎn)和難點(diǎn),也是目前語音轉(zhuǎn)換需重點(diǎn)解決的問題。
2.1.1 基于碼書映射的轉(zhuǎn)換方法
碼書映射的方法首先通過矢量量化的方法有效減少源與目標(biāo)語音的特征數(shù)量,然后將最接近源碼書的質(zhì)心矢量通過聚類方法轉(zhuǎn)換成相應(yīng)的目標(biāo)碼書,從而實(shí)現(xiàn)語音轉(zhuǎn)換。Abe等[15]于1988年首次提出將該方法用于語音轉(zhuǎn)換,方法的轉(zhuǎn)換流程圖如圖2所示[16]。但由于這種方法在量化時(shí)會(huì)造成特征空間的不連續(xù),且忽略了幀間信息,所以轉(zhuǎn)換效果不夠理想。
此后,針對(duì)上述問題的改進(jìn)方案陸續(xù)被提出,1991年,Shikano等[17]提出模糊矢量量化算法的碼書映射;1997年,Kim[18]提出利用隱馬爾科夫解決幀間信息的碼書映射;1999年,Arslan[19]構(gòu)建了一種碼字線性加權(quán)的碼書映射方法。這些方法均是通過解決碼書映射不連續(xù)問題來提高轉(zhuǎn)換語音的質(zhì)量,但同時(shí)也造成了過平滑等其他問題的產(chǎn)生。此后,2005年,Wang等[20]通過引入分級(jí)碼書的方法來解決轉(zhuǎn)換精度的問題。2011年,Eslami等[21]提出在連續(xù)語音段上利用碼書映射,在解決碼書不連續(xù)問題的同時(shí)保留較好譜結(jié)構(gòu)信息。2015年,胡芳等[22]提出基于碼書映射的語音轉(zhuǎn)換改進(jìn)算法,通過基于轉(zhuǎn)換權(quán)重預(yù)測(cè)重構(gòu)碼書映射關(guān)系的方法提升轉(zhuǎn)換語音質(zhì)量??偟膩碚f,碼書映射的方法實(shí)現(xiàn)原理簡(jiǎn)單,量化矢量均來自目標(biāo)特征空間,語音頻譜信息保留較為完整,但存在過平滑問題,且語音轉(zhuǎn)換的精度還有待進(jìn)一步提升。
2.1.2 基于高斯混合模型的轉(zhuǎn)換方法
高斯混合模型(Gaussian mixture model,GMM)是一種采用若干個(gè)基于高斯概率密度的函數(shù)來精確量化事物的概率模型,即采用一組高斯函數(shù)的加權(quán)求和結(jié)果來表達(dá)觀測(cè)數(shù)據(jù)的概率分布,如式(1)所示[16,23,24]
圖2 基于碼書映射的語音轉(zhuǎn)換流程圖[16]Fig.2 Voice conversion flow chart based on codebook mapping[16]
式中:x為觀測(cè)數(shù)據(jù),p為其維度;αi為權(quán)重系數(shù)(需要滿足αi≥0且其中m為高斯分量數(shù)目,則N(x;μi,Σi)表示均值為μi、協(xié)方差矩陣為Σi的高斯分布。
針對(duì)碼書映射中特征空間不連續(xù)的問題,Stylianou等[25]提出引入GMM對(duì)聲道譜特征進(jìn)行建模,使用基于概率的“軟”聚類代替基于矢量量化的“硬”聚類,該方法獲得了很好的效果,提升了語音轉(zhuǎn)換的質(zhì)量。但這種方法僅在源特征矢量上進(jìn)行估計(jì),而不是聯(lián)合特征矢量估計(jì),也就是說幀間信息考慮不足,所以極易出現(xiàn)過擬合和過平滑問題。受此啟發(fā),對(duì)基于高斯混合的統(tǒng)計(jì)映射模型改進(jìn)的研究逐步展開。
在經(jīng)典GMM的基礎(chǔ)上,Chen等[26]提出采用最大后驗(yàn)概率自適應(yīng)來轉(zhuǎn)換聲道函數(shù);申毅等[27]提出依據(jù)后驗(yàn)概率大小和前后語音相關(guān)性來改進(jìn)基于GMM模型的轉(zhuǎn)換系統(tǒng)。Toda等[28]提出采用最大似然估計(jì)來改進(jìn);Helander等[29]則將最小二乘法引入GMM統(tǒng)計(jì)映射方法中來解決訓(xùn)練中的過擬合問題。近年來,針對(duì)改進(jìn)GMM的方法仍在研究和發(fā)展中,例如在2012年,Helander等[30]提出了Dynamic Kernel PLS(DKPLS)轉(zhuǎn)換方法,把傳統(tǒng)的GMM方法中的線性映射拓展到非線性空間,提高了轉(zhuǎn)換精度;2013年,宋鵬等[31]提出基于混合Gauss歸一化的語音轉(zhuǎn)換方法,成功將該模型運(yùn)用到非對(duì)稱語料庫中;2015年,王明明[32]提出基于GMM和碼書映射相結(jié)合的語音轉(zhuǎn)換方法,減少GMM產(chǎn)生的過平滑問題;2016年,Kobayashi等[33]提出了倒譜殘差的GMM,將頻域變換轉(zhuǎn)變?yōu)闀r(shí)域?yàn)V波,提高了轉(zhuǎn)換時(shí)的計(jì)算效率。雖然基于GMM的方法不斷完善和發(fā)展,但是由于GMM本身存在非一一映射情況,導(dǎo)致的過平滑問題一直沒有得到根本解決,所以也限制該方法的進(jìn)一步普及和應(yīng)用。
2.1.3 基于隱馬爾科夫模型的轉(zhuǎn)換方法
隱馬爾科夫模型(Hidden Markov model,HMM)是常用的統(tǒng)計(jì)分析模型之一,在語音識(shí)別、行為識(shí)別、自然語言處理等領(lǐng)域得到廣泛應(yīng)用。與GMM相比較,HMM在聲道譜轉(zhuǎn)換上的最大優(yōu)勢(shì)在于可利用自身的隱含狀態(tài)及狀態(tài)轉(zhuǎn)移概率矩陣來對(duì)語音信號(hào)的動(dòng)態(tài)變化進(jìn)行建模[16]。1997年,Kim等[18]提出并實(shí)現(xiàn)了基于HMM的語音信號(hào)的頻譜建模和轉(zhuǎn)換。隨后基于HMM的轉(zhuǎn)換方法得到進(jìn)一步的研究和發(fā)展,2004年,Duxans等[34]提出將GMM的轉(zhuǎn)換思路拓展到HMM中,采用聯(lián)合HMM的方法將動(dòng)態(tài)信息納入考慮范疇,因而轉(zhuǎn)換過程的魯棒性更強(qiáng)。2006年,Wu等[35]提出一種基于Bi-HMM模型的語音轉(zhuǎn)換算法,該方法利用HMM中的狀態(tài)持續(xù)時(shí)間來刻畫音素的時(shí)長(zhǎng)信息,并采用Gamma函數(shù)分布來描述狀態(tài)持續(xù)時(shí)間變量?;贐i-HMM的語音轉(zhuǎn)換不僅降低了轉(zhuǎn)換后語音與目標(biāo)語音的譜距離,而且極大地改善了語音韻律特性的轉(zhuǎn)換,特別有利于語音情感特性的控制和轉(zhuǎn)換。2010年,Qiao等[36]提出了一種基于HMM的幀序列到單幀的轉(zhuǎn)換方法,有效解決了轉(zhuǎn)換過程中幀間不連續(xù)問題。2011年,Zen等[37]提出了基于軌跡HMM的連續(xù)概率映射方法,有效地解決了傳統(tǒng)HMM考慮動(dòng)態(tài)特征參數(shù)后訓(xùn)練和轉(zhuǎn)換不一致的問題。雖然HMM的語音轉(zhuǎn)換方案也在不斷更新完善,但由于HMM的隱含狀態(tài)數(shù)目受限,造成了語音信號(hào)的動(dòng)態(tài)變化范圍受限,進(jìn)而制約了轉(zhuǎn)換處理精度,故該方法在實(shí)際轉(zhuǎn)換應(yīng)用中也有一定局限。
2.1.4 基于頻率彎折轉(zhuǎn)換方法
基于頻率彎折的語音轉(zhuǎn)換方法是指通過沿頻率軸拉伸或壓縮頻譜,來調(diào)整共振峰的位置和帶寬,并通過幅度縮放來調(diào)整每個(gè)頻率中的能量大小,從而實(shí)現(xiàn)源到目標(biāo)說話人的頻譜映射。其轉(zhuǎn)換示意圖如圖3所示。
圖3 分段線性頻率彎折示意圖[8]Fig.3 Diagram of piecewise linear frequency warping[8]
基于頻率彎折的語音轉(zhuǎn)換方法主要分為基于動(dòng)態(tài)規(guī)劃的頻率彎折(Dynamic frequency warping,DFW)和基于映射共振峰的頻率彎折[38]兩類。采用頻率彎折的語音轉(zhuǎn)換方法最早于1992年由Valbret等[39]提出,雖然該方法最大程度地保留了頻譜的結(jié)構(gòu)信息,但由于頻譜調(diào)整幅度的限制,導(dǎo)致轉(zhuǎn)換語音自然度高,但相似度較低。針對(duì)該問題,Sündermann等[40]結(jié)合聲道譜歸一化技術(shù)提出了單參數(shù)彎折函數(shù)和多參數(shù)分段線性函數(shù)的頻率彎折方法,對(duì)源說話人語音聲道譜進(jìn)行彎折處理。雙志偉等[41]提出將頻率彎曲與單元挑選相結(jié)合來提高相似度的方法。后續(xù)關(guān)于頻率彎折的研究還有很多,近些年將頻率彎折方法與GMM、字典映射、最大譜相關(guān)等方法結(jié)合起來實(shí)現(xiàn)語音轉(zhuǎn)換的方法也陸續(xù)出現(xiàn)[42-46]。綜上,采用基于頻率彎折來實(shí)現(xiàn)語音轉(zhuǎn)換的方法,能夠最大程度地保持語音自然度,且轉(zhuǎn)換語音質(zhì)量較高,但是其在相似度方面略顯不足,還需結(jié)合其他方法以獲得進(jìn)一步提升。
2.1.5 基于神經(jīng)網(wǎng)絡(luò)的轉(zhuǎn)換方法
ANN模仿人類神經(jīng)網(wǎng)絡(luò)行為特征,為一種模仿動(dòng)物神經(jīng)網(wǎng)絡(luò)行為特征并進(jìn)行分布式并行信息處理的數(shù)學(xué)模型。這種網(wǎng)絡(luò)依靠系統(tǒng)的復(fù)雜程度,通過調(diào)整內(nèi)部大量節(jié)點(diǎn)之間相互連接的關(guān)系,從而達(dá)到處理信息的目的[47]。因?yàn)樯窠?jīng)網(wǎng)絡(luò)對(duì)非線性轉(zhuǎn)換具有良好的效果,所以在語音轉(zhuǎn)換過程中也得到了應(yīng)用。早期采用神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)語音轉(zhuǎn)換的方法主要集中于對(duì)神經(jīng)網(wǎng)絡(luò)隱層個(gè)數(shù)和邏輯單元上的改進(jìn),但一般不超過3個(gè)隱層且大多為前饋神經(jīng)網(wǎng)絡(luò)[48-50]。近幾年在深度學(xué)習(xí)技術(shù)的推動(dòng)下,能有效表示高維序列數(shù)據(jù)的深度神經(jīng)網(wǎng)絡(luò)不斷發(fā)展,如全卷積神經(jīng)網(wǎng)絡(luò)(Fully convolutional network,FCN)、生成對(duì)抗網(wǎng)絡(luò)(Generative adversarial network,GAN)、雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Bidirectional long short term memory,BLSTM)等均被用來實(shí)現(xiàn)譜序列到序列的高精度轉(zhuǎn)換。例如:Huang等[51]提出基于結(jié)合變分自動(dòng)編碼器和全卷積網(wǎng)絡(luò)的語音轉(zhuǎn)換研究,Kaneko等通過序列到序列(seq2seq)的GAN模型初步研究了語音轉(zhuǎn)換[52]以及語音質(zhì)量增強(qiáng)中的過平滑問題[53],Huang等[54]提出的自動(dòng)化評(píng)價(jià)指標(biāo)可作為GAN的判別器,Esteban等[55]提出了適用于時(shí)間序列預(yù)測(cè)的循環(huán)式GAN用于生物數(shù)據(jù)建模,Takuhiro等[56]在循環(huán)GAN的基礎(chǔ)上進(jìn)行改進(jìn),進(jìn)一步提升語音轉(zhuǎn)換效果。由于BLSTM網(wǎng)絡(luò)兼顧了語音序列的上下文信息同時(shí)也是一種序列映射的神經(jīng)網(wǎng)絡(luò),所以其轉(zhuǎn)換的語音質(zhì)量相對(duì)較好[57]。同時(shí),將神經(jīng)網(wǎng)絡(luò)與其他轉(zhuǎn)換模型結(jié)合的方法也不斷涌現(xiàn),Hsu等[58]提出了一種針對(duì)譜轉(zhuǎn)換任務(wù)中高維數(shù)據(jù)的非負(fù)矩陣分解問題的字典更新方法,Seyed等[59]提出了具有獨(dú)立于說話人預(yù)訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)語音轉(zhuǎn)換。通過預(yù)訓(xùn)練好的深層自編碼器和ANN權(quán)值構(gòu)造了一個(gè)深層神經(jīng)網(wǎng)絡(luò),然后利用反向傳播對(duì)網(wǎng)絡(luò)權(quán)值進(jìn)行微調(diào)最終實(shí)現(xiàn)對(duì)特征的轉(zhuǎn)換。Chen等[60]提出一種新的基于深度神經(jīng)網(wǎng)絡(luò)的譜包絡(luò)轉(zhuǎn)換方法,通過DNN對(duì)級(jí)聯(lián)不同模型的網(wǎng)絡(luò)進(jìn)行訓(xùn)練進(jìn)而實(shí)現(xiàn)語音轉(zhuǎn)換。
隨著神經(jīng)網(wǎng)絡(luò)模型的不斷改進(jìn)和發(fā)展,結(jié)合不同語音特征采用不同的網(wǎng)絡(luò)轉(zhuǎn)換模型方法不斷提出。神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換的本質(zhì)是參數(shù)的多元回歸模型,通過增加網(wǎng)絡(luò)訓(xùn)練層數(shù)、添加高維特征序列和增大訓(xùn)練數(shù)據(jù)量等多種手段可以有效提升轉(zhuǎn)換語音的質(zhì)量。隨著參數(shù)的增多,模型的表示能力不斷增強(qiáng)。但當(dāng)前表現(xiàn)優(yōu)異的深度學(xué)習(xí)模型,所依賴參數(shù)過多,在非合作模式下當(dāng)訓(xùn)練數(shù)據(jù)不充分時(shí),就會(huì)發(fā)生過擬合現(xiàn)象,導(dǎo)致性能急速下降。這也是基于神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)語音轉(zhuǎn)換方法所面臨的共性問題。同時(shí),對(duì)數(shù)據(jù)訓(xùn)練量的依賴也成為制約此類方法轉(zhuǎn)換效果的一個(gè)重要因素。
2.1.6 基于波形生成的轉(zhuǎn)換方法
針對(duì)轉(zhuǎn)換合成語音產(chǎn)生過平滑的問題,2016年Google公司的Deepmind團(tuán)隊(duì)提出采用WaveNet網(wǎng)絡(luò)直接生成音頻波形樣本點(diǎn)的方法來解決[61]。該方法主要基于一條件概率建模的深度自回歸模型,將語音的各種特征作為條件,如式(2)所示,通過訓(xùn)練找到合適的自回歸模型。同時(shí)網(wǎng)絡(luò)中還采用因果卷積、擴(kuò)張卷積等多種模型。
式中:T為樣本點(diǎn)總數(shù),θ為條件特征向量,t和r分別為采樣數(shù)量和接收域大小,xt為當(dāng)前時(shí)刻樣本點(diǎn)。
該方法最初被用于文本轉(zhuǎn)換為語音的系統(tǒng)(Text to speech,TTS)。通過這種條件建模方法產(chǎn)生的語音清晰度和自然度高、質(zhì)量好且沒有過平滑問題,但網(wǎng)絡(luò)生成速度較慢。隨著Fast-WaveNet網(wǎng)絡(luò)的提出,該網(wǎng)絡(luò)開始具有實(shí)用價(jià)值。2018年,Niwa等[62]首次提出將該網(wǎng)絡(luò)用于語音轉(zhuǎn)換,轉(zhuǎn)換流程圖如圖4所示。由圖4可知,轉(zhuǎn)換過程中無需語音合成的單獨(dú)步驟即可直接生成轉(zhuǎn)換語音。其后,采用該網(wǎng)絡(luò)的語音轉(zhuǎn)換方法不斷產(chǎn)生。
中國科學(xué)技術(shù)大學(xué)在VCC-2018大賽上提出了結(jié)合Bi-LSTM先轉(zhuǎn)換特征再進(jìn)行特征條件概率建模的方法,有效提升了語音質(zhì)量。Chen等[63]提出結(jié)合不同特征作為條件訓(xùn)練產(chǎn)生轉(zhuǎn)換語音,文獻(xiàn)[64-67]分別在此基礎(chǔ)上對(duì)WaveNet的合成速度和合成條件展開了進(jìn)一步研究。目前,基于WaveNet網(wǎng)絡(luò)的語音轉(zhuǎn)換正在發(fā)展中,還需不斷優(yōu)化結(jié)構(gòu)以提升轉(zhuǎn)換效率,針對(duì)該網(wǎng)絡(luò)中逐樣點(diǎn)生成語音波形易造成語音崩塌的現(xiàn)象,以及如何進(jìn)一步提升轉(zhuǎn)換語音自然度的問題仍有待深入研究。
圖4 基于WaveNet的語音轉(zhuǎn)換流程[62]Fig.4 Overview of the method of voice conversion based on WaveNet[62]
2.1.7 其他轉(zhuǎn)換方法
隨著深度學(xué)習(xí)的進(jìn)一步發(fā)展,多種多樣的網(wǎng)絡(luò)結(jié)構(gòu)被提出,除了上述介紹的幾類常見的聲道譜轉(zhuǎn)換方法外,還有一些其他轉(zhuǎn)換方法同樣值得關(guān)注,如:Wu等[68]提出了改進(jìn)了基于時(shí)頻模板的方法,既有效地保存了頻譜細(xì)節(jié),又減輕了轉(zhuǎn)換負(fù)擔(dān)。李娜等[69]將動(dòng)態(tài)核方法、宋鵬等[70]將主成分回歸用于聲道譜參數(shù)映射,孫健等[71]采用基于卷積非負(fù)矩陣分解實(shí)現(xiàn)了語音轉(zhuǎn)換,孫新建等[72]采用隱變量模型進(jìn)行的語音轉(zhuǎn)換,馬振等[73]提出基于語音個(gè)人特征信息分離的語音轉(zhuǎn)換等??梢娮值溆成滢D(zhuǎn)換、特征融合轉(zhuǎn)換以及支持向量回歸等方法都還有一定的應(yīng)用空間。隨著神經(jīng)網(wǎng)絡(luò)的不斷發(fā)展,多網(wǎng)絡(luò)模型融合的方法日益成為主流的轉(zhuǎn)換方法,因此如何基于小樣本數(shù)據(jù),高效率實(shí)時(shí)實(shí)現(xiàn)聲道譜轉(zhuǎn)換,在既保證轉(zhuǎn)換語音的高自然度和高相似度的同時(shí),又保證轉(zhuǎn)換算法的魯棒性是一個(gè)需要重點(diǎn)關(guān)注的問題。
除了聲道譜轉(zhuǎn)換外,激勵(lì)源轉(zhuǎn)換對(duì)整個(gè)語音轉(zhuǎn)換系統(tǒng)性能也舉足輕重,主要包括韻律和非周期分量的轉(zhuǎn)換。非周期分量作為激勵(lì)的一部分,不少轉(zhuǎn)換模型直接將其復(fù)制不做任何變換。Chen等[13]研究了基于深度神經(jīng)網(wǎng)絡(luò)的轉(zhuǎn)換方法。對(duì)于此部分,為盡可能減少對(duì)轉(zhuǎn)換效果貢獻(xiàn)較小的運(yùn)算,也可采用直接復(fù)制的方式,不對(duì)其進(jìn)行轉(zhuǎn)換。而韻律在反映目標(biāo)說話人特征、情感狀態(tài)、口音等特征上具有重要作用,所以韻律轉(zhuǎn)換也值得關(guān)注。韻律建模通常是通過基頻包絡(luò)來實(shí)現(xiàn),當(dāng)前的研究主要體現(xiàn)在情感轉(zhuǎn)換方面。由于韻律信息的復(fù)雜性及不穩(wěn)定性,所以目前韻律轉(zhuǎn)換主要集中在對(duì)基頻包絡(luò)F0的轉(zhuǎn)換,可直接取對(duì)數(shù)后做線性變換,如式(3)所示[74-76],或結(jié)合聲道譜參數(shù)做回歸分析。
式中:pt(Y)和pt(X)分別為轉(zhuǎn)換后的 logF0和原始 logF0,u(X)和u(Y)為各自的均值,σ(X)和σ(Y)為標(biāo)準(zhǔn)差。線性轉(zhuǎn)換的方法雖然簡(jiǎn)單,但映射穩(wěn)定,不易產(chǎn)生“陰陽怪調(diào)”的問題,因此目前韻律轉(zhuǎn)換仍基本采用上述方式。
除上述方法外,也有一些算法將語音分析后的殘差信號(hào)或激勵(lì)信號(hào)統(tǒng)一考慮,進(jìn)行處理以求獲取更精確的韻律模型。例如2004年,Ye等[77]在訓(xùn)練階段成對(duì)保存目標(biāo)說話人的激勵(lì)源殘差和聲道譜參數(shù),在轉(zhuǎn)換階段,以最近鄰方式尋找與轉(zhuǎn)換得到的聲道譜參數(shù)對(duì)應(yīng)的目標(biāo)說話人聲道譜參數(shù),進(jìn)而得到合成語音所需的激勵(lì)源信號(hào)。2007年,Percybrooks等[78]提出通過建立殘差轉(zhuǎn)移概率矩陣來模擬殘差信號(hào)幀間變化特性,收到良好效果。Kang等[79]提出采用音高目標(biāo)模型來實(shí)現(xiàn)轉(zhuǎn)換,通過GMM的方法訓(xùn)練轉(zhuǎn)換模型,但是由于并未考慮上下文信息影響,所以存在一定弊端。Ming等[80]提出使用DBLSTMRNN網(wǎng)絡(luò)轉(zhuǎn)換韻律中的F0,這個(gè)網(wǎng)絡(luò)能夠兼顧上下文信息,但原始F0的結(jié)構(gòu)信息未保留,會(huì)導(dǎo)致其與頻譜的合成過程中產(chǎn)生雜音,影響語音轉(zhuǎn)換的質(zhì)量。2015年,凌震華等[81]提出基于目標(biāo)逼近特征和雙向聯(lián)想貯存器的情感語音基頻轉(zhuǎn)換方法,可以在目標(biāo)情感數(shù)據(jù)較少的情況下取得更高的情感表現(xiàn)力。還有一些學(xué)者提出了F0的其他轉(zhuǎn)換方法[82,83],但是針對(duì)語音轉(zhuǎn)換中,有時(shí)候除了單純的韻律考慮外還需要考慮其頻譜信息,不考慮F0的結(jié)構(gòu)信息,依然得不到理想的語音轉(zhuǎn)換效果。
當(dāng)然韻律轉(zhuǎn)換還包含其他多方面的轉(zhuǎn)換內(nèi)容,單純地對(duì)基頻包絡(luò)的轉(zhuǎn)換達(dá)不到真正意義上的轉(zhuǎn)換效果,所以韻律轉(zhuǎn)換目前還存在很多難點(diǎn)和問題。
為更好地實(shí)現(xiàn)語音轉(zhuǎn)換,提升轉(zhuǎn)換語音的質(zhì)量,一個(gè)完整的語音轉(zhuǎn)換系統(tǒng)通常會(huì)涉及以下幾項(xiàng)關(guān)鍵技術(shù):語音分析與合成、語音特征參數(shù)提取、語音時(shí)間對(duì)齊、轉(zhuǎn)換模型和規(guī)則訓(xùn)練以及轉(zhuǎn)換效果評(píng)價(jià)[84]等,轉(zhuǎn)換模型和規(guī)則訓(xùn)練第2節(jié)已介紹,此處不再贅述。
為了實(shí)現(xiàn)語音轉(zhuǎn)換,語音信號(hào)分析與合成必不可少。早期的分析合成模型包括線性預(yù)測(cè)編碼(Linear prediction coding,LPC)[85]、基音同步疊加(Pitch synchronous overlap and add,PSOLA)[86]和波形相似疊加(Waveform similarity overlap and add,WSOLA)等[87]。這些方法中LPC建模的語音信號(hào)質(zhì)量較差,已逐漸淘汰,而后兩者方法建模語音質(zhì)量較高,但通常不具備語音分析和參數(shù)化能力,不適用于對(duì)語音個(gè)性特征的轉(zhuǎn)換。諧波噪聲模型(Harmonic noise model,HNM)[88]和STRAIGHT(Speech transformation and representation using adaptive interpolation of weighted spectrum)[89]因?yàn)橹貥?gòu)語音質(zhì)量高、參數(shù)容易控制而被廣泛采用。HNM不能靈活處理相位,不像源濾波器那樣可以靈活修改,但AHOCODER編碼器提供高質(zhì)量的HNM合成的工具包[90]。而STRAIGHT提出了一種基音自適應(yīng)時(shí)頻頻譜平滑算法模型,能夠減輕信號(hào)周期和頻譜之間的干擾,在此基礎(chǔ)上后來擴(kuò)展到TANDEM-STRAIGHT[91],而后CheapTrick和WORLD又在該模型的基礎(chǔ)上提出了一些改進(jìn)。HNM和STRAIGHT這兩種方法是目前主要的分析合成手段。
經(jīng)過語音分析合成器而獲得的語音特征,理論上是可以直接用作特征對(duì)進(jìn)行訓(xùn)練的,但是為了使所得信息能夠更好地表征語音信號(hào)的個(gè)性特征,往往還需要對(duì)其進(jìn)行進(jìn)一步處理,從而獲得更合適的映射特征。
表征語音個(gè)性的特征主要體現(xiàn)在3個(gè)層次上:一是音段信息,描述的是語音的音色特征,主要包括共振峰位置、共振峰帶寬、頻譜傾斜(Spectral tilt)、基音頻率、能量等;二是超音段特征,描述的是語音的韻律特征,主要包括音素的時(shí)長(zhǎng)、基音頻率的變化(音調(diào))、能量等;三是語言特征(Linguistic cues):包括習(xí)慣用語、方言、口音等[92]。目前語音轉(zhuǎn)換中所提取的映射參數(shù)特征主要是音段信息的局部特征和超音段信息的上下文特征兩類。局部特征主要是譜包絡(luò)、倒譜和共振峰等參數(shù),除此之外,較為常用的還有線譜對(duì)(Line spectrum frequency,LSF)參數(shù)[93]和考慮了人耳聽覺特性的梅爾頻率倒譜系數(shù)(Mel-frequency cepstral coefficients,MFCC)[94]。上下文特征主要是指語音幀間的動(dòng)態(tài)信息。
語音轉(zhuǎn)換過程中通常是利用源和目標(biāo)特征向量來訓(xùn)練源和目標(biāo)特征之間的映射函數(shù)。從不同說話人語音特征空間把那些具有相同語義信息的特征參數(shù)進(jìn)行匹配,然后利用這些配對(duì)參數(shù)設(shè)計(jì)和訓(xùn)練出轉(zhuǎn)換模型。這里配對(duì)就是時(shí)間對(duì)齊,也叫時(shí)間規(guī)整。
3.3.1 平行語料
平行語料指的是源和目標(biāo)說話人包括相同語言內(nèi)容的語句。平行語句確保了源和目標(biāo)語音具有時(shí)序一致、內(nèi)容相同的語義信息,只是在各音素的持續(xù)時(shí)間上呈現(xiàn)不同。因此,必須使用時(shí)間對(duì)準(zhǔn)方法來解決時(shí)間差異。最常用的方法是動(dòng)態(tài)時(shí)間規(guī)整(Dynamic time warping,DTW)[95],計(jì)算每個(gè)話語對(duì)或在每個(gè)音素對(duì)之間的最佳時(shí)間對(duì)準(zhǔn)。動(dòng)態(tài)時(shí)域規(guī)整后,最終產(chǎn)生的是一對(duì)相等長(zhǎng)度的源和目標(biāo)特征序列。圖5為2個(gè)時(shí)間序列的規(guī)整示意圖。
圖5中,上下兩條實(shí)線分別代表源特征序列X=[x1,x2,…,xm]和目標(biāo)特征序列Y=[y1,y2,…,yn]。2個(gè)序列之間的虛線代表2個(gè)時(shí)間序列之間的相似點(diǎn)。DTW使用所有這些相似點(diǎn)之間的距離的和,即歸整路徑距離,來衡量2個(gè)時(shí)間序列之間的相似性。
DTW對(duì)準(zhǔn)策略是假定源和目標(biāo)說話人的相同音素具有相似的特征(當(dāng)使用特定距離度量)時(shí)成立[96]。然而,這種方法有時(shí)也會(huì)導(dǎo)致次優(yōu)對(duì)準(zhǔn)問題的產(chǎn)生。為了改善對(duì)準(zhǔn)輸出,可以迭代地執(zhí)行目標(biāo)特征和轉(zhuǎn)換特征(而不是源特征)之間的對(duì)準(zhǔn),然后進(jìn)行訓(xùn)練和轉(zhuǎn)換,直至滿足收斂條件。
3.3.2 非平行語料
對(duì)于非平行語料,由于語義信息不同或者語義信息雖有重疊,但時(shí)間順序存在差異,因此此情況下的時(shí)間對(duì)齊算法相對(duì)復(fù)雜得多。但由于非平行語料相對(duì)于平行語料更易獲取,故針對(duì)非平行語料的對(duì)齊研究也在不斷發(fā)展。Sündermann等[97,98]針對(duì)非平行語料對(duì)齊問題先后提出基于分類的語音對(duì)齊和基于單元選擇的語音對(duì)齊。Salor等[99]也提出類似單元選擇的動(dòng)態(tài)編程方法來實(shí)現(xiàn)語音幀的時(shí)間對(duì)齊。此后,Saito等[100]提出了一種噪聲信道模型解決該問題。簡(jiǎn)志華等[101,102]提出的基于混合線性變換法和區(qū)域最鄰迭代訓(xùn)練法等都是為了解決非平行語料中時(shí)間對(duì)齊的問題。近些年隨著神經(jīng)網(wǎng)絡(luò)的不斷發(fā)展,通過設(shè)計(jì)網(wǎng)絡(luò)模型或中間變量直接實(shí)現(xiàn)音素級(jí)別的語音對(duì)齊方法也逐步發(fā)展起來。例如,Tian等[103]提出基于WaveNet的無聲碼器語音轉(zhuǎn)換方法,該方法不需要處理中間特征,而是利用波形網(wǎng)直接將語音后驗(yàn)器映射到波形樣本,這樣就避免了聲碼器和特征轉(zhuǎn)換引起的估計(jì)誤差。Kameoka等[104]提出了一種非并行多對(duì)多語音轉(zhuǎn)換方法,該方法使用了一種稱為輔助分類器的條件變量變分自動(dòng)編碼器來實(shí)現(xiàn)非平行語料對(duì)齊。Yeh等[105]提出利用循環(huán)一致性對(duì)抗網(wǎng)絡(luò)和變分自動(dòng)編碼器等模型應(yīng)用于無并行數(shù)據(jù)的語音轉(zhuǎn)換任務(wù)中。其他通過各式網(wǎng)絡(luò)解決該問題的方法也不斷出現(xiàn),非平行語料的時(shí)間對(duì)齊問題已經(jīng)逐步成為非平行語料的轉(zhuǎn)換問題,從單一步驟中的對(duì)齊問題轉(zhuǎn)化為由整個(gè)網(wǎng)絡(luò)設(shè)計(jì)解決,這也使該問題得到了更好的處理。
圖52個(gè)時(shí)間序列的規(guī)整示意圖Fig.5 Warping of two time series
對(duì)語音轉(zhuǎn)換方法性能的測(cè)試和評(píng)價(jià)是語音轉(zhuǎn)換研究的重要組成部分之一,設(shè)計(jì)一個(gè)可信、高效的評(píng)價(jià)方案對(duì)于提高轉(zhuǎn)換性能具有重要意義。目前,對(duì)語音轉(zhuǎn)換方法性能優(yōu)劣的測(cè)試和評(píng)價(jià)主要通過客觀和主觀2種手段來實(shí)現(xiàn)。
3.4.1 客觀評(píng)價(jià)
客觀評(píng)價(jià)建立在語音數(shù)據(jù)失真測(cè)度基礎(chǔ)上,利用某種距離準(zhǔn)則來測(cè)量轉(zhuǎn)換后語音和原始目標(biāo)語音間的相似程度,并由此得出對(duì)轉(zhuǎn)換方法優(yōu)劣的評(píng)價(jià)方法。主要的客觀評(píng)價(jià)指標(biāo)有均方誤差(Mean square error,MSE)、譜 失 真 (Spectral distortion,SD)和 梅 爾 倒 譜 失 真 (Mel cepstral distortion,MCD),MSE、SD和MCD的值越小,說明失真越小,轉(zhuǎn)換精度越高。
近幾年,隨著語音轉(zhuǎn)換挑戰(zhàn)賽事的舉辦,MCD成為評(píng)價(jià)轉(zhuǎn)換語音質(zhì)量的主要客觀衡量指標(biāo),MCD的表達(dá)式如下[106]
式中:micon和mitar分別為第i維轉(zhuǎn)換特征(con:converted)和目標(biāo)特征(tar:target)的梅爾倒譜系數(shù),I為梅爾倒譜總維度,MCD的單位為dB。
3.4.2 主觀評(píng)價(jià)
主觀評(píng)價(jià)就是以人為主體,通過人的主觀感受來對(duì)語音進(jìn)行測(cè)試。由于語音信號(hào)最終是用來給人聆聽的,因而人對(duì)語音轉(zhuǎn)換效果好壞的感受是最為重要的評(píng)價(jià)結(jié)果。相對(duì)于客觀評(píng)價(jià)來說,主觀評(píng)價(jià)結(jié)果更具有可信度。主觀方法對(duì)轉(zhuǎn)換效果的評(píng)價(jià)一般從語音質(zhì)量和說話人特征相似度2個(gè)角度進(jìn)行,采用的方法主要是平均意見分(Mean opinion score,MOS)和ABX。
(1) MOS測(cè)試
MOS測(cè)試的主要原理是讓測(cè)評(píng)人根據(jù)5個(gè)等級(jí)劃分對(duì)測(cè)試語音的主觀感受進(jìn)行打分,它既可以用于對(duì)語音質(zhì)量進(jìn)行主觀評(píng)價(jià),也可以用于對(duì)說話人特征相似度的評(píng)價(jià)。MOS分是對(duì)所有測(cè)試語句和所有測(cè)評(píng)人的綜合平均結(jié)果。其具體的評(píng)測(cè)標(biāo)準(zhǔn)請(qǐng)參考文獻(xiàn)[107]。
(2) ABX測(cè)試
ABX測(cè)試主要針對(duì)轉(zhuǎn)換后語音的說話人特征相似度進(jìn)行轉(zhuǎn)換效果評(píng)價(jià),借鑒了說話人識(shí)別的原理。測(cè)試過程中,測(cè)評(píng)人分別測(cè)聽3段語音A、B和X,并判斷在語音的個(gè)性特征方面語音A還是B更接近于X。其中,X是轉(zhuǎn)換后得到的語音,而A和B分別為源語音和目標(biāo)語音。最后統(tǒng)計(jì)所有測(cè)評(píng)人員的判決結(jié)果,計(jì)算出聽起來像目標(biāo)語音的百分比。
語音轉(zhuǎn)換之所以能夠得到重視和發(fā)展,是因?yàn)樗休^大的現(xiàn)實(shí)應(yīng)用和需求,尤其是人們對(duì)個(gè)性化語音的需求越來越廣泛,如導(dǎo)航、聽書軟件中希望聽到自己喜歡明星的聲音,希望能夠和已故的親人說說話,渴望與自己無法直接接觸的偶像對(duì)話等。具體來說,語音轉(zhuǎn)換可以應(yīng)用在以下幾方面。
多數(shù)語音可以通過TTS系統(tǒng)來合成,但是TTS合成的語音通常比較單一,缺乏情感和個(gè)性化特征。隨著科大訊飛在高德語音導(dǎo)航上實(shí)現(xiàn)合成林志玲等人的特色語音,使得個(gè)性化語音生成備受關(guān)注。但在TTS系統(tǒng)中想要實(shí)現(xiàn)個(gè)性化語音,就必須錄制大量相應(yīng)的語音數(shù)據(jù),建立起與個(gè)性化語音對(duì)應(yīng)的語音庫,而建立一個(gè)完整的語音庫,則涉及對(duì)所錄語音進(jìn)行切分、韻律標(biāo)注、韻律調(diào)整(如對(duì)音高、音長(zhǎng)、音強(qiáng)進(jìn)行調(diào)節(jié))等,費(fèi)時(shí)費(fèi)力,工作量相當(dāng)大。而且多個(gè)個(gè)性化特征的語音庫也會(huì)大大增加系統(tǒng)檢索及數(shù)據(jù)處理的時(shí)間。使用語音轉(zhuǎn)換技術(shù)可以將TTS系統(tǒng)生成的說話人轉(zhuǎn)換為所需要的具有特定人語音特征的語音,而轉(zhuǎn)換過程中所需參數(shù)及系統(tǒng)開銷將被極大降低,可以大大提高效率[108]。目前,谷歌、微軟、科大訊飛等公司都在進(jìn)行相關(guān)研究,日、美、中等國的多所大學(xué)也在進(jìn)行技術(shù)跟蹤研究。例如:2019年5月,搜狗輸入法上線了“變聲功能”,能將每個(gè)人不同的聲音轉(zhuǎn)換成系統(tǒng)內(nèi)置的明星、動(dòng)漫、游戲等形象的聲音,通過語音轉(zhuǎn)換技術(shù)輕松實(shí)現(xiàn)了對(duì)個(gè)性化語音的合成。
互聯(lián)網(wǎng)時(shí)代自媒體高度發(fā)達(dá),個(gè)人制作和發(fā)布的視頻占有越來越大的比重,而這些視頻所影響的范圍也越來越廣泛。利用語音轉(zhuǎn)換技術(shù)可為虛擬人物角色設(shè)定個(gè)性化語音,加深角色和情景帶入。同時(shí)很多動(dòng)畫片、電視節(jié)目等都是通過配音、講解等賦予人物角色或節(jié)目特色的,隨著配音、講解人員的更迭,同一卡通形象或者節(jié)目難以維持一貫的風(fēng)格或形象。而通過語音轉(zhuǎn)換則可使經(jīng)典的聲音常在,實(shí)現(xiàn)對(duì)經(jīng)典語音的重現(xiàn),保持卡通形象或節(jié)目的風(fēng)格。
在情報(bào)作戰(zhàn)中,按照預(yù)期任務(wù)制作假新聞、假視頻的需求不斷出現(xiàn)。2016年,德國馬克斯-普朗克研究所(Max Planck Institute,MPI)、埃朗根-紐倫堡大學(xué)和美國斯坦福大學(xué)的研究人員提出了表情捕捉復(fù)現(xiàn)技術(shù)(Face reenactment)。該技術(shù)能夠?qū)崟r(shí)重現(xiàn)一個(gè)人說話時(shí)的動(dòng)作和表情,并將其映射到視頻中另外一個(gè)人的臉上[109]。如果將該技術(shù)與語音轉(zhuǎn)換技術(shù)結(jié)合在一起,則能制作出以假亂真的目標(biāo)說話人的視頻,達(dá)到欺騙通信另一方的目的。可以說通過語音轉(zhuǎn)換技術(shù)既可以隱藏說話人身份、保護(hù)說話人自身和信息安全,也可以迷惑敵方正常通信、擾亂敵方的情報(bào)收集,如:2017年5月,由蒙特利爾大學(xué)深度學(xué)習(xí)實(shí)驗(yàn)室提供技術(shù)支持的加拿大初創(chuàng)公司琴鳥(Lyrebird)發(fā)布了一段由其新款人工智能語音系統(tǒng)合成的音頻Demo,模仿了特朗普、奧巴馬和希拉里3人對(duì)話的聲音。據(jù)稱,該軟件僅需目標(biāo)說話人1 min的語音,就可模仿其音色發(fā)聲。如果語音轉(zhuǎn)換技術(shù)可輕松實(shí)現(xiàn)這一功能將會(huì)對(duì)情報(bào)探測(cè)和分析帶來嚴(yán)重的影響。
隨著聲紋識(shí)別認(rèn)證的普及和應(yīng)用,越來越多的手機(jī)軟件開始采用語音認(rèn)證作為用戶安全登錄的密碼,例如微信、支付寶、手機(jī)銀行等APP中均增加了語音認(rèn)證模塊。通過語音轉(zhuǎn)換技術(shù)可以將源說話人語音轉(zhuǎn)換成目標(biāo)說話人語音,利用轉(zhuǎn)換語音攻擊語音認(rèn)證系統(tǒng),以此來檢驗(yàn)系統(tǒng)模塊的防護(hù)性和安全性,可有效提升網(wǎng)絡(luò)防護(hù)的安全性能,如:2017年10月24日,極棒(GeekPwn)安全實(shí)驗(yàn)室在國際安全極客大賽期間組織了一場(chǎng)AI仿聲驗(yàn)聲攻防賽——AI PWN,第一次在公開場(chǎng)合演示了通過特色合成或語音轉(zhuǎn)換制作的聲音在短時(shí)間內(nèi)破解預(yù)設(shè)聲紋鎖的設(shè)備的能力,也從側(cè)面說明了語音轉(zhuǎn)換給認(rèn)證領(lǐng)域所帶來的沖擊和挑戰(zhàn)。此外,在語音識(shí)別時(shí),也可利用語音轉(zhuǎn)換技術(shù)檢驗(yàn)語音識(shí)別的準(zhǔn)確性等。
除上述應(yīng)用外,語音轉(zhuǎn)換還廣泛存在于其他領(lǐng)域,如:語音情感的轉(zhuǎn)換,比如將悲傷情緒轉(zhuǎn)換為高興情緒;生物醫(yī)學(xué)的應(yīng)用,通過語音轉(zhuǎn)換將患有語音障礙的人的話語轉(zhuǎn)換為更易理解和交流的語音[110];在電信領(lǐng)域可以即時(shí)將說話人語音轉(zhuǎn)換為標(biāo)準(zhǔn)語音,再對(duì)轉(zhuǎn)換語音進(jìn)行相應(yīng)的壓縮編碼等處理,減少語音處理難度等。
語音轉(zhuǎn)換雖然已經(jīng)過了幾十年的發(fā)展,直到近幾年在神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)等技術(shù)發(fā)展的推動(dòng)下,才有了進(jìn)一步突破。新的技術(shù)帶來了新的問題和挑戰(zhàn)。目前,語音轉(zhuǎn)換所面臨的挑戰(zhàn)歸納起來主要有以下幾個(gè)方面:首先,對(duì)訓(xùn)練語音數(shù)據(jù)要求較大。無論是通過語音合成還是通過語音轉(zhuǎn)換來獲取帶有特定目標(biāo)說話人音色的語音,在技術(shù)實(shí)現(xiàn)上多采用統(tǒng)計(jì)學(xué)習(xí)中有監(jiān)督學(xué)習(xí)的手段,傳統(tǒng)的有監(jiān)督學(xué)習(xí)一般需要較大規(guī)模的數(shù)據(jù)才能獲得較好的效果。而在很多實(shí)際應(yīng)用場(chǎng)景中往往難以大規(guī)模獲取目標(biāo)說話人語音,轉(zhuǎn)換語音質(zhì)量對(duì)大數(shù)據(jù)量的依賴,一定程度上制約著語音轉(zhuǎn)換技術(shù)的發(fā)展,所以如何解決對(duì)訓(xùn)練數(shù)據(jù)量的依賴是目前乃至今后一段時(shí)間所要面臨的問題。其次,對(duì)目標(biāo)說話人的語料質(zhì)量要求過于苛刻。對(duì)于大多數(shù)語音轉(zhuǎn)換方法理論上都需要有高質(zhì)量的語音數(shù)據(jù)庫,但將語音轉(zhuǎn)換技術(shù)真正“落地”到生活或?qū)嶋H應(yīng)用中時(shí),人們會(huì)發(fā)現(xiàn),通常情況下難以獲取高質(zhì)量的目標(biāo)語音,除非特定的目標(biāo)說話人十分配合來制取其高質(zhì)量的語音數(shù)據(jù)庫,否則無論是日常生活中的隨意錄制,還是竊取該說話人的語音,都不可避免地受到各種噪聲的污染,難以直接獲得高質(zhì)量的語音庫。大多數(shù)情況下,由于錄音環(huán)境未知,噪聲及其統(tǒng)計(jì)特性都難以獲取,給語音轉(zhuǎn)換帶來了新的問題。再次,語音轉(zhuǎn)換算法的實(shí)時(shí)性有待提高,目前能產(chǎn)生高質(zhì)量語音的轉(zhuǎn)換算法實(shí)時(shí)性差,為使語音轉(zhuǎn)換能實(shí)際應(yīng)用于特定場(chǎng)合,既需要轉(zhuǎn)換后的語音質(zhì)量足夠高,還需要轉(zhuǎn)換過程足夠快。而當(dāng)前語音轉(zhuǎn)換方案在轉(zhuǎn)換質(zhì)量和實(shí)時(shí)處理的平衡性方面還存在一定的發(fā)展空間。此外,算法軟件在不同設(shè)備、不同平臺(tái)之間的可移植性也是制約語音轉(zhuǎn)換實(shí)際應(yīng)用的一個(gè)關(guān)鍵問題。同時(shí),轉(zhuǎn)換語音質(zhì)量還可進(jìn)一步提高,雖然目前語音轉(zhuǎn)換質(zhì)量相較于之前有了較大的提升和改善,但是與真正目標(biāo)語音相比仍存在一定差距,語音中的情感、韻律等描述特定說話人的屬性,還很難在近期的特色語音合成中被有效地量化建模。而這恰恰也是人們直觀感受上覺得某種語音與目標(biāo)說話人發(fā)音相似的關(guān)鍵之處。因此,如何進(jìn)一步提升轉(zhuǎn)換語音與目標(biāo)語音的相似度是一個(gè)值得持續(xù)關(guān)注的問題。最后還有非平行語料的轉(zhuǎn)換問題。目前大多數(shù)語音轉(zhuǎn)換算法依賴于平行語料,然而要使語音轉(zhuǎn)換成為一種主流,非平行語料的轉(zhuǎn)換則必不可免,因?yàn)樵趯?shí)際生活中,更多情況下人們獲取的是非平行語料,錄制大規(guī)模平行語料顯然不符合實(shí)際要求。雖然目前針對(duì)非平行語料的語音轉(zhuǎn)換已經(jīng)有相當(dāng)一部分研究,但是相比于平行語料的轉(zhuǎn)換還有一定差距,所以如何解決非平行語料的轉(zhuǎn)換,也是一個(gè)需要重視的方面。
總之,除了上述幾個(gè)主要方面外,語音轉(zhuǎn)換還存在其他有待提高和完善的地方,如:動(dòng)態(tài)模型的轉(zhuǎn)換,能夠?qū)⒁粋€(gè)轉(zhuǎn)換模型迅速調(diào)整使其適應(yīng)其他轉(zhuǎn)換場(chǎng)景;多對(duì)一的轉(zhuǎn)換,將不同說話人通過模型轉(zhuǎn)換成統(tǒng)一目標(biāo)說話人語音;完善的韻律建模,構(gòu)建一個(gè)更加符合實(shí)際的韻律轉(zhuǎn)換模型,實(shí)現(xiàn)情感語音的轉(zhuǎn)換等。這些都是語音轉(zhuǎn)換中尚未解決并值得進(jìn)一步研究的問題。
雖然目前語音轉(zhuǎn)換中還存在很多問題和挑戰(zhàn),但語音轉(zhuǎn)換實(shí)際需求也不斷擴(kuò)大,未來語音轉(zhuǎn)換將著力解決當(dāng)前語音轉(zhuǎn)換中存在的現(xiàn)實(shí)問題,朝著下述方向不斷發(fā)展。
5.2.1 魯棒語音轉(zhuǎn)換
當(dāng)前關(guān)于源說話人或目標(biāo)說話人語音中含噪聲的語音轉(zhuǎn)換的直接研究不多。Masaka等[111]在非負(fù)矩陣分解框架下,借助唇動(dòng)等視覺信息對(duì)源說話人語音中含噪聲情況下的語音轉(zhuǎn)換進(jìn)行了研究。Aihara等[112]在Masaka工作的基礎(chǔ)上,將源說話人語音中的噪聲模型和少量平行語料的自適應(yīng)仿射變換相結(jié)合,研究了小樣本情況下,源說話人語音含噪聲情況下的語音轉(zhuǎn)換。針對(duì)含噪語音,或許先通過處理得到較純凈語音,然后再進(jìn)行語音轉(zhuǎn)換,目前已有相關(guān)學(xué)者進(jìn)行這方面的研究。
5.2.2 小樣本訓(xùn)練的語音轉(zhuǎn)換
前文提到目前多數(shù)語音轉(zhuǎn)換效果在一定程度上依賴于訓(xùn)練語音數(shù)據(jù)庫的規(guī)模,訓(xùn)練數(shù)據(jù)集規(guī)模大則轉(zhuǎn)換語音效果高,否則轉(zhuǎn)換效果較差。未來的研究方向必定是小樣本語音的轉(zhuǎn)換,通過較少的數(shù)據(jù)實(shí)現(xiàn)高質(zhì)量的語音轉(zhuǎn)換,通過半監(jiān)督或者無監(jiān)督的網(wǎng)絡(luò)來訓(xùn)練生成新的樣本數(shù)據(jù),然后提升語音轉(zhuǎn)換效果。
5.2.3 實(shí)時(shí)語音轉(zhuǎn)換
訓(xùn)練數(shù)據(jù)越多,提取映射函數(shù)的時(shí)間越久,轉(zhuǎn)換語音耗費(fèi)的時(shí)間越長(zhǎng)。減小網(wǎng)絡(luò)規(guī)模,實(shí)現(xiàn)語音實(shí)時(shí)轉(zhuǎn)換將成為必要之選。因此,神經(jīng)網(wǎng)絡(luò)或深度學(xué)習(xí)模型的瘦身和加速是未來語音轉(zhuǎn)換模型發(fā)展不可或缺的環(huán)節(jié)。近年來,通過減枝、權(quán)重共享等技術(shù),深度神經(jīng)網(wǎng)絡(luò)模型的壓縮取得了較大進(jìn)展,相信針對(duì)這方面的研究也會(huì)逐步深入。
此外,輕量化模型、多對(duì)多建模及非合作式等語音轉(zhuǎn)換等也將成為未來語音轉(zhuǎn)換發(fā)展的趨勢(shì)。
隨著智能語音交互應(yīng)用的不斷發(fā)展,語音轉(zhuǎn)換技術(shù)的不斷提高,人們對(duì)于特定說話人語音的生成有著越來越高的需求和期望;在人工智能時(shí)代,個(gè)人媒體制作、聲紋認(rèn)證等越來越普及,語音代表個(gè)人身份特征的場(chǎng)景日益廣泛。未來的語音轉(zhuǎn)換技術(shù)一定會(huì)朝著轉(zhuǎn)換模型更小、轉(zhuǎn)換效率更高、轉(zhuǎn)換效果更好、轉(zhuǎn)換速度更快的方向發(fā)展,也必將進(jìn)一步推動(dòng)語音轉(zhuǎn)換技術(shù)在其他領(lǐng)域的應(yīng)用和發(fā)展。