儲(chǔ)有亮,李 梁
(重慶理工大學(xué),重慶 400054)
語(yǔ)音是人與人之間最常見(jiàn)的信息交互方式,但是很容易受到周圍噪聲的干擾而造成信息的丟失,怎樣在強(qiáng)噪聲等嘈雜環(huán)境下進(jìn)行無(wú)礙的語(yǔ)音信息交互,對(duì)于業(yè)界來(lái)說(shuō)是一個(gè)亟需突破的研究課題。骨導(dǎo)語(yǔ)音對(duì)噪聲具有很強(qiáng)的抗干擾性[1],這是由于骨導(dǎo)語(yǔ)音是使用高靈敏振動(dòng)傳感器收集人在說(shuō)話時(shí)發(fā)聲部位產(chǎn)生的振動(dòng)信號(hào)得到的。這使得骨導(dǎo)語(yǔ)音在廣場(chǎng)、碼頭甚至戰(zhàn)場(chǎng)等強(qiáng)噪聲的環(huán)境下有著較好的應(yīng)用前景。
骨傳導(dǎo)傳感器(Bone-Conduction Microphone,BCM)通過(guò)采集人說(shuō)話時(shí)由聲帶產(chǎn)生的激勵(lì)信號(hào)并由人體內(nèi)部骨骼以及相關(guān)組織傳遞到皮膚表面的震動(dòng),將其通過(guò)一系列的轉(zhuǎn)換最終采集到骨導(dǎo)語(yǔ)音[2]。這與通過(guò)氣導(dǎo)麥克風(fēng)(Air-Conduction Microphone,ACM)采集到的氣導(dǎo)語(yǔ)音有很大的不同。BCM語(yǔ)音由于其獨(dú)特的采集方式,因此對(duì)來(lái)自周圍環(huán)境中通過(guò)空氣傳播而產(chǎn)生的噪聲具有非常好的強(qiáng)抗噪性。但由于人體的骨骼具有低通性,這導(dǎo)致BCM語(yǔ)音的高頻信號(hào)損失嚴(yán)重,一般超過(guò)2.5 kHz的高頻信號(hào)會(huì)嚴(yán)重?fù)p失,同時(shí)由于BCM語(yǔ)音沒(méi)有經(jīng)過(guò)口腔、鼻腔等調(diào)音區(qū)域進(jìn)行調(diào)音,造成摩擦音、爆破音、清音等輔音音節(jié)的缺失,致使BCM語(yǔ)音聽(tīng)上去比較沉悶、語(yǔ)音清晰度也無(wú)法令人滿意[3],因此BCM語(yǔ)音在實(shí)際應(yīng)用上難以推廣。
通過(guò)轉(zhuǎn)換語(yǔ)音譜包絡(luò)、倒譜系數(shù)、線譜頻率等語(yǔ)音特征達(dá)到轉(zhuǎn)換目的是現(xiàn)今主流的BCM語(yǔ)音轉(zhuǎn)ACM語(yǔ)音的轉(zhuǎn)換方法。例如文獻(xiàn)[4]中利用四層全連接層建立BCM語(yǔ)音倒譜系數(shù)到ACM語(yǔ)音倒譜系數(shù)的映射關(guān)系;文獻(xiàn)[5]出于穩(wěn)定性的考慮,選擇線譜頻率(Linear Spectral Frequency,LSF)作為轉(zhuǎn)換特征,并且采用遞歸神經(jīng)網(wǎng)絡(luò)來(lái)完成LSF的特征轉(zhuǎn)換;文獻(xiàn)[6]通過(guò)深度神經(jīng)網(wǎng)絡(luò),實(shí)現(xiàn)LSF從BCM語(yǔ)音特征到ACM語(yǔ)音特征之間的映射;文獻(xiàn)[7]首先通過(guò)K-means算法將喉振傳感器(Throat Microphone,TM)語(yǔ)音的美爾廣義倒譜系數(shù)(Mel Generalized cepstral coefficients,MGC)分為若干類,然后再對(duì)每類 MGC分別構(gòu)建多層前饋神經(jīng)網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)MGC特征的映射,以此來(lái)提升轉(zhuǎn)換語(yǔ)音的效果;文獻(xiàn)[3]則利用(Speech Transformation And Representation Using Adaptive Interpolation of Weighted Spectrum,STRAIGHT)模型[8]將語(yǔ)音分解為基音周期、譜包絡(luò)特征與非周期成份這三種特征,利用高斯混合模型(Gaussian Mixture Model,GMM)建立非聲呢語(yǔ)(Non-Audible Murmur,NAM)與ACM語(yǔ)音之間的特征映射關(guān)系。文獻(xiàn)[9]借助深層雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(Deep Bidirectional Long and Short Term Memory Network,BLSTM)建立對(duì)數(shù)頻譜(Logarithmic Spectrum)之間的映射關(guān)系。文獻(xiàn)[10]在同為非正常音的耳語(yǔ)音中使用深層卷積神經(jīng)網(wǎng)絡(luò)建立譜包絡(luò)特征、基音周期和非周期成分之間的轉(zhuǎn)換關(guān)系,有效地提高了耳語(yǔ)音轉(zhuǎn)換的效果。文獻(xiàn)[11]使用WaveNet聲碼器來(lái)實(shí)現(xiàn)骨導(dǎo)語(yǔ)音和氣導(dǎo)語(yǔ)音之間的語(yǔ)音特征轉(zhuǎn)換。
以上介紹的轉(zhuǎn)換算法雖然可以較好地提高和改善BCM語(yǔ)音的轉(zhuǎn)換效果,但特征維數(shù)較低,因此導(dǎo)致頻譜的細(xì)節(jié)信息不能很好地恢復(fù)。同時(shí),對(duì)頻域維度上隱藏信息的提取沒(méi)有足夠地重視,因此轉(zhuǎn)換效果并不是很清晰,尚未達(dá)人耳可以清晰識(shí)別的程度。本文提出了一種基于特定說(shuō)話人(某一固定說(shuō)話人)的骨導(dǎo)語(yǔ)音轉(zhuǎn)換算法,該算法利用深度雙向長(zhǎng)短期記憶-深度卷積神經(jīng)網(wǎng)絡(luò)(Deep Bidirectional Long and Short Term Memory-Deep Convolutional Neural Network,DBLSTM-DCNN)模型直接建模BCM語(yǔ)音和ACM語(yǔ)音,通過(guò)WORLD模塊[12]提取出譜包絡(luò)、非周期性成分和基頻之間的映射關(guān)系,最終再通過(guò)WORLD模塊合成出轉(zhuǎn)換語(yǔ)音。實(shí)驗(yàn)結(jié)果表明,使用本論文提到的方法所轉(zhuǎn)換的ACM語(yǔ)音在語(yǔ)音質(zhì)量感知評(píng)價(jià)(Perceptual Evaluation of Speech Quality,PESQ)[13]、短時(shí)客觀可懂度(Short-Time Objective Intelligibility,STOI)[14]和對(duì)數(shù)譜距離(Log-spectral distance,LSD)[15]等客觀評(píng)價(jià)指標(biāo)上均有較好的表現(xiàn)。
訓(xùn)練階段如圖1所示,先使用WORLD模塊分別提取BCM語(yǔ)音以及ACM語(yǔ)音的譜包絡(luò)BCM_sp與ACM_sp(spectral envelope,sp)[16]、非周期成份BCM_ap與ACM_ap(Aperiodic component,ap)[17]和基頻(f0)[18]BCM_f0與ACM_f0這三種語(yǔ)音特征。本文從第8幀(初始幀通常為靜音幀)開(kāi)始,取語(yǔ)音特征的當(dāng)前幀及其前后各7幀(共15幀)作為DBLSTMDCNN的輸入。分別使用BCM語(yǔ)音與ACM語(yǔ)音的譜包絡(luò)、非周期成分和基頻建立BCM譜包絡(luò)與ACM語(yǔ)音譜包絡(luò)映射模型(DBLSTM-DCNN_sp)、BCM語(yǔ)音非周期成份與ACM語(yǔ)音非周期成份的映射模型(DBLSTM-DCNN_ap)以及BCM語(yǔ)音基頻與ACM語(yǔ)音基頻的映射模型(DBLSTM-DCNN_f0)。
圖1 基于DBLSTM-DCNN轉(zhuǎn)換網(wǎng)絡(luò)的訓(xùn)練階段語(yǔ)音處理Fig.1 Speech processing in the training phase based on DBLSTM-DCNN conversion network
轉(zhuǎn)換階段如圖2所示,首先利用WORLD模塊從待轉(zhuǎn)換的BCM語(yǔ)音中提取BCM_sp、BCM_ap和BCM_f0這三種語(yǔ)音特征,再分別輸入到之前訓(xùn)練好的語(yǔ)音特征映射模型DBLSTM-DCNN_sp、DBLSTM-DCNN_ap和DBLSTM-DCNN_f0中,然后得到預(yù)測(cè)的ACM語(yǔ)音譜包絡(luò)、非周期成分與基頻這三種語(yǔ)音特征,并將其輸入到WORLD模塊合成轉(zhuǎn)換后的正常語(yǔ)音。
圖2 基于DBLSTM-DCNN轉(zhuǎn)換網(wǎng)絡(luò)的轉(zhuǎn)換階段語(yǔ)音處理Fig.2 Speech processing in the transformation phase based on DBLSTM-DCNN conversion on network
雖然傳統(tǒng)的遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)算法可以記錄之前產(chǎn)生的歷史信息,并借此對(duì)語(yǔ)音信號(hào)的上下文信息進(jìn)行建模,但是傳統(tǒng)的RNN算法在訓(xùn)練過(guò)程中由于梯度的爆發(fā)和消失問(wèn)題而難以學(xué)習(xí)長(zhǎng)時(shí)間的依賴關(guān)系?;谶@些問(wèn)題,有學(xué)者提出了很多適合語(yǔ)音建模的RNN結(jié)構(gòu),在其中最著名的就是長(zhǎng)短期記憶網(wǎng)絡(luò)(Long and short term memory networks,LSTM)[19]。LSTM單元通過(guò)引入特殊的門(輸入門,輸出門和遺忘門)來(lái)促進(jìn)信息在網(wǎng)絡(luò)中的流動(dòng)和存儲(chǔ),從而緩解了梯度問(wèn)題。BLSTM是在LSTM基礎(chǔ)上引入了雙向的概念,不僅考慮語(yǔ)音信號(hào)的上文信息(即前向信息)對(duì)當(dāng)前語(yǔ)音幀的影響,還要考慮下文信息(即后向信息)對(duì)當(dāng)前語(yǔ)音幀的影響,因此BLSTM在時(shí)間維度上存在正向和反向兩個(gè)方向的信息傳遞過(guò)程,這樣可以更加容易地學(xué)習(xí)到上下文學(xué)習(xí)是如何對(duì)當(dāng)前語(yǔ)音幀產(chǎn)生影響的。
式中:it、ft、ct、ot分別為輸入門、遺忘門、記憶單元狀態(tài)和輸出門,δ代表sigmoid函數(shù)。如圖4所示,通過(guò)疊加多個(gè)BLSTM隱藏層來(lái)構(gòu)建DBLSTM體系結(jié)構(gòu),其中。
圖3 LSTM模塊Fig.3 LSTM module
圖4 BLSTM模塊Fig.4 BLSTMmodule
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)是一種包含卷積計(jì)算的前饋神經(jīng)網(wǎng)絡(luò)。在CNN的卷積層中,當(dāng)前層的每個(gè)神經(jīng)元都與前一層中對(duì)應(yīng)位置相同的神經(jīng)元作為中心的相鄰區(qū)域的多個(gè)神經(jīng)元相連(相鄰區(qū)域大小等于卷積核的大小),在將連續(xù)的相鄰若干幀語(yǔ)音特征作為輸入送到CNN網(wǎng)絡(luò)時(shí),下一個(gè)卷積層的輸入是由上一層某一區(qū)域內(nèi)的點(diǎn)通過(guò)卷積、池化等一些運(yùn)算計(jì)算得到。由于上一層內(nèi)的點(diǎn)同時(shí)包含了輸入語(yǔ)音特征的頻域信息與時(shí)域信息,因此使用卷積層可以提取出相鄰幀在頻域與時(shí)域上的相關(guān)性,二維卷積核計(jì)算公式為[20]
為了去除冗余信息,經(jīng)過(guò)卷積層提取的特征信息通常會(huì)再連接池化層來(lái)進(jìn)行特征選擇和信息過(guò)濾。池化層以壓縮特征為代價(jià)保留圖像背景信息與紋理信息[20],通常采用均值池化法或最大池化法。由于最大池化法可以更大程度保留紋理信息,因此在語(yǔ)音增強(qiáng)[21]和語(yǔ)音識(shí)別[22]等領(lǐng)域大都采用最大池化法。本文同樣也選擇最大池化。DCNN層最后的輸出最終將通過(guò)三層全連接層,全連接層的激活函數(shù)選擇RelU函數(shù)。
本文提出的DBLSTM-DCNN語(yǔ)音特征映射模型圖如圖5所示,其整體分為DBLSTM層與DCNN層前后兩個(gè)部分。DBLSTM層借助BLSTM能夠保存上下信息的特性,用來(lái)提取和保存相鄰幀之間隱藏信息。DCNN層則利用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)可以提取相鄰區(qū)域局部特征的功能來(lái)學(xué)習(xí)出相鄰頻域之間的隱藏信息。
本文首先將連續(xù)的15幀(前后各7幀)語(yǔ)音特征(譜包絡(luò)、非周期成分與基頻)輸入到由4層BLSTM構(gòu)成的DBLSTM層中,借助BLSTM提取和存儲(chǔ)上下文之間隱藏的時(shí)域相關(guān)性。DBLSTM層之后連接由4層CNN組成DCNN層,利用CNN能夠提取局部特征的特性來(lái)學(xué)習(xí)相鄰頻域之間的聯(lián)系,DCNN層之后的輸出最終將通過(guò)三層全連接層。全連接層作用主要有兩點(diǎn),一是對(duì)提取到的特征進(jìn)行降維,二是增加非線性擬合程度。DBLSTM-DCNN模型的輸入是上下文連續(xù)的15幀語(yǔ)音特征(前后各7幀),最終得到的輸出是估計(jì)的第8幀語(yǔ)音特征。通過(guò)實(shí)驗(yàn)也表明該模型能夠較好地實(shí)現(xiàn)BCM與ACM語(yǔ)音之間的語(yǔ)音特征映射。
圖5 DBLSTM-DCNN模塊Fig.5 DBLSTM-DCNN module
由于當(dāng)前沒(méi)有公開(kāi)可用的數(shù)據(jù)庫(kù),本文錄制了通過(guò)高靈敏振動(dòng)傳感器、信號(hào)放大器以及相關(guān)軟件得到的BCM語(yǔ)音與由普通麥克風(fēng)采集的ACM語(yǔ)音的平行語(yǔ)音數(shù)據(jù)庫(kù)。該數(shù)據(jù)庫(kù)的錄音語(yǔ)料來(lái)源于北京語(yǔ)言大學(xué)創(chuàng)辦的BCC語(yǔ)料庫(kù)中精心挑選的包含體育、藝術(shù)、生活等方面的500條具有代表性的語(yǔ)句。選擇年齡在20~24歲之間的兩名男性與兩名女性作為說(shuō)話人完成錄制,說(shuō)話人使用標(biāo)準(zhǔn)普通話進(jìn)行錄制。錄制的語(yǔ)音采樣率為32 kHz,并采用16 bit量化。每名說(shuō)話人錄制320句從語(yǔ)料庫(kù)中抽取的語(yǔ)句,每句話時(shí)長(zhǎng)約2~3 s,同時(shí)要求吐字清晰且語(yǔ)氣沒(méi)有明顯波動(dòng),其中300句作為訓(xùn)練集,20句作為測(cè)試集,并要求彼此之間沒(méi)有重復(fù)的語(yǔ)料。
由于要建立骨導(dǎo)語(yǔ)音轉(zhuǎn)正常音的模型首先需要不包含噪聲的氣導(dǎo)語(yǔ)音作為目標(biāo)訓(xùn)練集,將同步錄制骨導(dǎo)語(yǔ)音轉(zhuǎn)換成氣導(dǎo)語(yǔ)音。除此之外骨導(dǎo)語(yǔ)音是通過(guò)高靈敏振動(dòng)傳感器采集人說(shuō)話時(shí)在喉頭部位的振動(dòng),再通過(guò)信號(hào)放大器、數(shù)據(jù)采集卡和EM9118B虛擬儀器對(duì)信號(hào)進(jìn)行收集,最后在通過(guò)Matlab軟件將其轉(zhuǎn)換成對(duì)應(yīng)骨導(dǎo)語(yǔ)音。可見(jiàn)骨導(dǎo)語(yǔ)音的采集與周圍環(huán)境有無(wú)噪聲沒(méi)有關(guān)系。因此本文實(shí)驗(yàn)并未涉及在強(qiáng)噪聲環(huán)境下的語(yǔ)音轉(zhuǎn)換實(shí)驗(yàn)。
實(shí)驗(yàn)中為每名說(shuō)話人訓(xùn)練一個(gè)語(yǔ)音轉(zhuǎn)換模型。訓(xùn)練語(yǔ)句有300句,測(cè)試語(yǔ)句20句。訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)均被下采樣到16 kHz。在本文中設(shè)定幀長(zhǎng)為32 ms,幀移為10 ms,語(yǔ)音在進(jìn)行FFT變換時(shí)點(diǎn)數(shù)設(shè)置為512,故譜包絡(luò)與非周期性成份特征長(zhǎng)度為257維。該實(shí)驗(yàn)使用15幀作為特征窗口(前后各7幀),時(shí)間步長(zhǎng)也設(shè)置為15幀,因此在特征映射模塊中的BLSTM層的隱藏層中存儲(chǔ)有來(lái)自上下文的15幀信息。BLSTM層中每一層的隱藏單元數(shù)如表1所示,其中隱藏層激活單元為RelU。而包含15幀上下文信息的BLSTM層輸出序列在傳遞到DCNN層中,借助CNN能夠提取局部特征的功能,最終輸出中間幀的預(yù)測(cè)特征。DCNN中每層的卷積核大小都為3*3,池化層大小如表1所示。該實(shí)驗(yàn)中mini-batch設(shè)置為128,并且將均方誤差(Mean Squared Error,MSE)作為損失函數(shù)來(lái)訓(xùn)練網(wǎng)絡(luò)。初始學(xué)習(xí)率設(shè)置為 0.001,如果連續(xù)兩輪損失沒(méi)有減小,學(xué)習(xí)率將減少50%。
表1 DBLSTM-DCNN模型參數(shù)設(shè)置表Table 1 Parameter setting of DBLSTM-DCNN model
本文采用語(yǔ)音質(zhì)量感知評(píng)價(jià) PESQ,短時(shí)客觀可懂度STOI和對(duì)數(shù)譜距離LSD這三個(gè)指標(biāo)來(lái)客觀評(píng)估語(yǔ)音質(zhì)量。PESQ分?jǐn)?shù)衡量整體語(yǔ)音質(zhì)量(?0.5~4.5,分?jǐn)?shù)越高越好),STOI分?jǐn)?shù)衡量語(yǔ)音清晰度(0~1,分?jǐn)?shù)越高越高),而LSD衡量?jī)蓚€(gè)信號(hào)之間的對(duì)數(shù)頻譜距離(分?jǐn)?shù)越低越好)。
在平均主觀意見(jiàn)分(Mean Opinion Score,MOS)[23]測(cè)試中,聽(tīng)眾被要求使用5分制評(píng)分,分值為0~5,對(duì)應(yīng)的PESQ評(píng)分范圍為?0.5~4.5。4名志愿者(2男、2女)參與了這項(xiàng)測(cè)試。進(jìn)行平均意見(jiàn)評(píng)分(MOS)測(cè)試,獲得主觀評(píng)價(jià)。
本文的對(duì)比實(shí)驗(yàn)BLSTM模型來(lái)自文獻(xiàn)[9]提出的轉(zhuǎn)換模型。使用4層連續(xù)的BLSTM來(lái)實(shí)現(xiàn)BCM語(yǔ)音的轉(zhuǎn)換。4層BLSTM隱藏單元的數(shù)量為[257,512,512,257],激活函數(shù)設(shè)置為RelU,同時(shí)為了提高模型的非線性擬合能力以及防止過(guò)擬合,每層隱藏層之后都添加有dropout值為0.7的dropout層。而本文的另一個(gè)對(duì)比實(shí)驗(yàn)?zāi)P褪巧疃壬窠?jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN),一個(gè)包含3個(gè)隱藏層的DNN模型。該模型的網(wǎng)絡(luò)結(jié)構(gòu)為[514,512,512,512,257],并采用ReLU函數(shù)作為隱藏層的激活函數(shù),同時(shí)為了提高泛化能力,在每層隱藏層之后加入dropout值為0.7的dropout層。
為了證明本文提出的DBLSTM-DCNN轉(zhuǎn)換模型在骨導(dǎo)語(yǔ)音轉(zhuǎn)氣導(dǎo)語(yǔ)音的有效性,將本文所提方法與BLSTM模型進(jìn)行比較,實(shí)驗(yàn)結(jié)果如表2所示,其中BCM指每名說(shuō)話人的BCM語(yǔ)音與其ACM語(yǔ)音在不同評(píng)價(jià)指標(biāo)下的對(duì)比結(jié)果,BLSTM與DBLSTM-DCNN表示使用2種轉(zhuǎn)換算法轉(zhuǎn)換后的語(yǔ)音與ACM語(yǔ)音的對(duì)比結(jié)果。其中說(shuō)話人以M1、M2、F1、F2表示,M代表男性,F(xiàn)代表女性,M1即序號(hào)為1的男性。Avg是根據(jù)4名說(shuō)話人在不同轉(zhuǎn)換模型下的評(píng)價(jià)結(jié)果計(jì)算出來(lái)的平均值。
從表2可以看出,無(wú)論是DNN模型,BLSTM模型還是DBLSTM-DCNN模型,轉(zhuǎn)換后的語(yǔ)音LSD都明顯減小,說(shuō)明DNN模型一定程度上可以學(xué)習(xí)到骨導(dǎo)語(yǔ)音的高頻信息,BLSTM單元確實(shí)可以有效提取時(shí)域維度的隱藏特征,與DNN模型和BLSTM模型相比,DBLSTM-DCNN模型得到的轉(zhuǎn)換語(yǔ)音LSD分別降低了15%和5.36%,表明同時(shí)考慮到時(shí)域維度與頻域維度的DBLSTM-DCNN模型更適合BCM語(yǔ)音的轉(zhuǎn)換。同時(shí)相比于DNN模型和BLSTM模型,DBLSTM-DCNN模型在PESQ上也有所改善,PESQ分別提高了22.66%和12.07%,表明該深度神經(jīng)網(wǎng)絡(luò)能夠有效提高BCM語(yǔ)音的感知語(yǔ)音質(zhì)量。且DBLSTM-DCNN模型的STOI相比 DNN模型和BLSTM模型分別提高了11.3%和6.01%,表明DBLSTM-DCNN模型轉(zhuǎn)換得到的語(yǔ)音幅度譜更接近正常語(yǔ)音的幅度譜,且語(yǔ)音可懂度更高。表3給出了BLSTM模型與DBLSTM-DCNN模型轉(zhuǎn)換后語(yǔ)音的MOS值。由表3可看出,DBLSTM-DCNN轉(zhuǎn)換語(yǔ)音的MOS值比DNN和BLSTM方法分別提高了24.7%和18.91%,表明與BLSTM相比,DBLSTM-DCNN模型能夠得到更高質(zhì)量的轉(zhuǎn)換語(yǔ)音。
表2 BCN,DNN,BLSTM與DBLSTM-DCNN模型的評(píng)測(cè)標(biāo)準(zhǔn)PESQ、STOI、LSD對(duì)比表Table 2 Comparison table of the evaluation criteria PESQ,STOI and LSD for BCN,DNN,BLSTMand DBLSTM-DCNN models
圖4分別給出氣導(dǎo)語(yǔ)音、骨導(dǎo)語(yǔ)音、BLSTM及DBLSTM-DCNN模型轉(zhuǎn)換后語(yǔ)音的語(yǔ)譜圖。圖4(a)為氣導(dǎo)語(yǔ)音的語(yǔ)譜圖,說(shuō)話人在發(fā)音時(shí)聲帶產(chǎn)生的激勵(lì)信號(hào)會(huì)經(jīng)過(guò)口腔、鼻腔、嘴唇等調(diào)音區(qū),因此與其對(duì)應(yīng)的摩擦音、爆破音、清音等輔音音節(jié)保存比較完整。從圖4(b)中可以看出,骨導(dǎo)語(yǔ)音在高于3 kHz的部分幾乎完全衰減,能量趨近為0。圖4(a)在1.4~1.5 s的高頻部分是輔音音節(jié),輔音只有高頻部分,沒(méi)有低頻部分。圖4(a)中輔音音節(jié)保存完整,而骨導(dǎo)語(yǔ)音缺少高頻成分,可見(jiàn)圖4(b)中摩擦音、爆破音、清音等輔音音節(jié)丟失較為嚴(yán)重。從圖4(c)中可以看出,通過(guò)BLSTM模型轉(zhuǎn)換的語(yǔ)音在高頻部分雖然頻譜有所恢復(fù),但是頻譜的聲紋信息的細(xì)節(jié)與ACM語(yǔ)音相比仍有一些差別,這是由于BLSTM僅僅利用相鄰時(shí)域的相關(guān)性進(jìn)行建模,沒(méi)有考慮到骨導(dǎo)語(yǔ)音在高頻區(qū)域的特殊性,無(wú)法對(duì)骨導(dǎo)語(yǔ)音的相鄰頻域進(jìn)行頻域相關(guān)性的建模,轉(zhuǎn)換語(yǔ)音在高頻部分的預(yù)測(cè)效果也因此有所瑕疵。而從對(duì)比圖4(d)中可以看出,雖然DNN能夠一定程度上對(duì)骨導(dǎo)語(yǔ)音的高頻區(qū)域進(jìn)行建模,但是僅僅是包含部分能量,無(wú)法對(duì)頻譜細(xì)節(jié)進(jìn)行映射,這是由于DNN不能對(duì)頻域與時(shí)域相關(guān)性進(jìn)行很好的提取。對(duì)比圖4(a)、圖4(c)、圖4(d)和圖4(e)可以發(fā)現(xiàn),采用本文方法轉(zhuǎn)換的氣導(dǎo)語(yǔ)音和目標(biāo)氣導(dǎo)語(yǔ)音在頻譜結(jié)構(gòu)上擁有更高的相似度,比如在1.5~1.8 s之間,高頻部分聲紋信息比較清晰與完整、層次分明,而且低頻部分的頻譜細(xì)節(jié)也較為相似。同時(shí),從語(yǔ)譜圖4(a)~4(e)中1.4~1.5s之間的高頻區(qū)域可以看出,圖4(c)和4(e)都能較好的恢復(fù)骨導(dǎo)語(yǔ)音的輔音音節(jié),其中4(e)的輔音部分與4(a)更為接近。在 1.4~1.5 s之間,摩擦音、爆破音、清音等輔音音節(jié)恢復(fù)效果較好,可見(jiàn)使用本文方法轉(zhuǎn)換的語(yǔ)音更加接近氣導(dǎo)語(yǔ)音,表明本文方法轉(zhuǎn)換的語(yǔ)音優(yōu)于DNN模型和BLSTM模型轉(zhuǎn)換的語(yǔ)音。
表3 DNN,BLSTM與DBLSTM-DCNN模型轉(zhuǎn)換后的語(yǔ)音MOS值對(duì)比Table 3 Comparison of voice MOS values after speech conversion by DNN,BLSTMand DBLSTMDCNN models
語(yǔ)音信號(hào)具有很強(qiáng)的時(shí)域與頻域相關(guān)性。相比于傳統(tǒng)的GMM和BLSTM等專注于上下文信息(時(shí)域信息)的語(yǔ)音轉(zhuǎn)換算法,本文提出了一種基于DBLSTM-DCNN的依賴于說(shuō)話者的BCM語(yǔ)音轉(zhuǎn)換模型。該模型利用DBLSTM層來(lái)收集時(shí)域信息并保存,再通過(guò)DCNN層來(lái)提取頻域特征,最終達(dá)到同時(shí)考慮時(shí)域與頻域相關(guān)性的效果。
DBLSTM-DCNN模型的語(yǔ)音轉(zhuǎn)換是通過(guò)WORLD聲碼器先提取出來(lái)的譜包絡(luò)、非周期性成分和基頻三種特征,再分別利用DBLSTMDCNN_sp、DBLSTM-DCNN_ap和DBLSTMDCNN_f0模型實(shí)現(xiàn)上述三種特征轉(zhuǎn)換,最終由預(yù)測(cè)出來(lái)的三種氣導(dǎo)語(yǔ)音特征合成出轉(zhuǎn)換語(yǔ)音??陀^和主觀的評(píng)估結(jié)果表明,BCM語(yǔ)音質(zhì)量均有所提高。本文提出的DBLSTM-DCNN模型在一臺(tái)擁有GTX 1080Ti顯卡的電腦上進(jìn)行實(shí)驗(yàn)需要花費(fèi)60 h左右的時(shí)間。未來(lái)的研究工作包括優(yōu)化模型進(jìn)而縮減實(shí)驗(yàn)時(shí)間,將更高級(jí)的模型(如添加注意力機(jī)制)以縮小生成的骨導(dǎo)語(yǔ)音高頻成分與氣導(dǎo)語(yǔ)音高頻成分?jǐn)?shù)據(jù)分布間的差異,在BCM轉(zhuǎn)換中引入多模態(tài)特征(人在說(shuō)話時(shí)唇部視覺(jué)信息也包含語(yǔ)音信息)。