亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于權(quán)重比例分配的碼書映射語(yǔ)音轉(zhuǎn)換算法

2019-07-31 00:14:28鮑靜益徐寧

常州工學(xué)院學(xué)報(bào) 2019年2期

鮑靜益，徐寧

(1.常州工學(xué)院電氣信息工程學(xué)院，江蘇常州213032； 2.河海大學(xué)物聯(lián)網(wǎng)工程學(xué)院，江蘇常州213022)

0 引言

語(yǔ)音轉(zhuǎn)換技術(shù)是一種通過(guò)改變?cè)凑f(shuō)話人語(yǔ)音信號(hào)中的個(gè)人特征信息，使之具有目標(biāo)說(shuō)話人語(yǔ)音個(gè)人特征信息的技術(shù)[1-5]。語(yǔ)音轉(zhuǎn)換技術(shù)廣泛應(yīng)用于語(yǔ)音信號(hào)處理領(lǐng)域，尤其是在個(gè)性化語(yǔ)音合成、信息安全及多媒體娛樂(lè)領(lǐng)域有著非常廣闊的應(yīng)用前景。比如，通過(guò)語(yǔ)音轉(zhuǎn)換可偽造敵方人員聲音來(lái)突破聲紋識(shí)別準(zhǔn)入系統(tǒng)，又如角色配音。

目前語(yǔ)音轉(zhuǎn)換算法主要有：基于碼書映射的轉(zhuǎn)換算法[2—6]，以高斯混合模型(gaussian mixture model，GMM)為代表的基于統(tǒng)計(jì)映射的轉(zhuǎn)換算法[1—7]，以隱馬爾可夫模型為代表的基于時(shí)序模型的轉(zhuǎn)換算法[8]6925，以及基于人工神經(jīng)網(wǎng)絡(luò)的轉(zhuǎn)換算法[9]580等。其中比較有代表性的基于碼書映射的語(yǔ)音轉(zhuǎn)換算法利用矢量量化(vector quantization, VQ)實(shí)現(xiàn)語(yǔ)音轉(zhuǎn)換。Arslan等[10]211提出基于分段碼書的說(shuō)話人映射算法，將輸入語(yǔ)音幀按所屬音素類別進(jìn)行分類，采用線性頻率譜(line spectral frequency, LSF)作為特征參數(shù)建立源語(yǔ)音與目標(biāo)語(yǔ)音一一對(duì)應(yīng)的碼書映射?；诖a書映射的語(yǔ)音轉(zhuǎn)換算法，運(yùn)算復(fù)雜度低，轉(zhuǎn)換效率高，在計(jì)算性能資源受限的平臺(tái)或環(huán)境中，比如嵌入式系統(tǒng)中具有較大優(yōu)勢(shì)。但是傳統(tǒng)的基于碼書映射的語(yǔ)音轉(zhuǎn)換算法普遍存在轉(zhuǎn)換語(yǔ)音音質(zhì)較差、個(gè)性特征不明顯的問(wèn)題。

為了克服上述問(wèn)題，使轉(zhuǎn)換語(yǔ)音與目標(biāo)語(yǔ)言具有較高的相似度，同時(shí)保證轉(zhuǎn)換過(guò)程適用于資源受限平臺(tái)，本文提出一種基于權(quán)重比例分配的碼書映射語(yǔ)音轉(zhuǎn)換方法。

1 基于權(quán)重比例分配的碼書映射語(yǔ)音轉(zhuǎn)換系統(tǒng)框架

基于權(quán)重比例分配的碼書映射語(yǔ)音轉(zhuǎn)換系統(tǒng)工作主要分為2個(gè)階段：訓(xùn)練階段和轉(zhuǎn)換階段。訓(xùn)練階段建立源語(yǔ)音與目標(biāo)語(yǔ)音之間的映射關(guān)系，轉(zhuǎn)換階段利用該映射關(guān)系對(duì)語(yǔ)音信號(hào)的特征參數(shù)進(jìn)行轉(zhuǎn)換，合成轉(zhuǎn)換語(yǔ)音。圖1和圖2為2個(gè)階段的實(shí)現(xiàn)框圖。

圖1 訓(xùn)練階段的實(shí)現(xiàn)框圖

圖2 轉(zhuǎn)換階段的實(shí)現(xiàn)框圖

訓(xùn)練階段，本文采用諧波隨機(jī)模型(harmonic stochastic model, HSM)[7—8]。首先，HSM將語(yǔ)音信號(hào)模擬為大量基頻諧波正弦信號(hào)和一個(gè)類似于噪聲分量的結(jié)合。其次，將諧波聲道譜參數(shù)轉(zhuǎn)換為本文需要的線性頻率譜參數(shù)。建立轉(zhuǎn)換函數(shù)需要源語(yǔ)音和目標(biāo)語(yǔ)音的LSF參數(shù)對(duì)應(yīng)關(guān)系，所以本文采用動(dòng)態(tài)時(shí)間規(guī)整(dynamic time warping, DTW)[11]對(duì)齊算法進(jìn)行參數(shù)對(duì)齊，從中分別提取源與目標(biāo)碼書矩陣和訓(xùn)練特征參數(shù)矩陣。最后，計(jì)算源與目標(biāo)訓(xùn)練參數(shù)對(duì)應(yīng)于各自碼書各碼字的碼書權(quán)重值，訓(xùn)練源碼書權(quán)重與目標(biāo)碼書權(quán)重之間的映射關(guān)系。

在轉(zhuǎn)換階段，首先與訓(xùn)練階段相同，將源語(yǔ)音通過(guò)諧波隨機(jī)模型分析提取LSF參數(shù)，計(jì)算該參數(shù)對(duì)應(yīng)于訓(xùn)練階段得到的源碼書中各碼字的源碼書權(quán)重，然后利用訓(xùn)練階段得到的權(quán)重映射關(guān)系計(jì)算目標(biāo)碼書權(quán)重和目標(biāo)碼書，重構(gòu)出目標(biāo)特征參數(shù)，進(jìn)而合成轉(zhuǎn)換語(yǔ)音。具體映射、重構(gòu)和合成過(guò)程將在第2部分詳細(xì)介紹。

2 權(quán)重比例分配的碼書映射算法

傳統(tǒng)的基于碼書映射的語(yǔ)音轉(zhuǎn)換方法，直接將訓(xùn)練階段得到的源碼書權(quán)重Vx作為目標(biāo)碼書權(quán)重，計(jì)算得到轉(zhuǎn)換語(yǔ)音的特征參數(shù)[9—10]，這在一定程度上降低了轉(zhuǎn)換語(yǔ)音與目標(biāo)語(yǔ)音的相似度。針對(duì)這一問(wèn)題，本文提出基于權(quán)重比例分配的碼書映射語(yǔ)音轉(zhuǎn)換方法，建立源碼書權(quán)重Vx和目標(biāo)碼書權(quán)重Vy之間的映射關(guān)系。首先設(shè)置不同權(quán)重閾值，分析其對(duì)轉(zhuǎn)換語(yǔ)音的影響，找到最佳閾值并對(duì)權(quán)重矩陣進(jìn)行稀疏化處理；然后進(jìn)行權(quán)重的映射，在轉(zhuǎn)換階段通過(guò)源碼書權(quán)重Vx和映射關(guān)系得到目標(biāo)碼書權(quán)重Vy；最后利用該目標(biāo)碼書權(quán)重Vy和目標(biāo)碼書Y重構(gòu)出轉(zhuǎn)換語(yǔ)音的特征參數(shù)。與傳統(tǒng)方法相比，該方法能夠更精確地得到轉(zhuǎn)換語(yǔ)音。主要映射和轉(zhuǎn)換過(guò)程如下。

1)分析權(quán)重值大小對(duì)轉(zhuǎn)換結(jié)果的影響，即對(duì)權(quán)重矩陣設(shè)置不同閾值，將小于閾值的權(quán)重值設(shè)為零，對(duì)權(quán)重矩陣進(jìn)行稀疏化處理，將稀疏后的權(quán)重矢量直接用于轉(zhuǎn)換過(guò)程，合成轉(zhuǎn)換語(yǔ)音。分析轉(zhuǎn)換語(yǔ)音和目標(biāo)語(yǔ)音的LSF加權(quán)距離，可得到對(duì)轉(zhuǎn)換語(yǔ)音影響較大的那部分權(quán)重值，權(quán)重閾值及LSF加權(quán)距離分析結(jié)果見表1。

表1 LSF加權(quán)距離隨權(quán)重閾值的變化

權(quán)重閾值設(shè)置為10-2到10-7之間。以未設(shè)置權(quán)重閾值時(shí)的LSF加權(quán)距離13.69作為參考值，可以看出，當(dāng)權(quán)重閾值大于10-3時(shí)，直接采用源碼書權(quán)重進(jìn)行語(yǔ)音轉(zhuǎn)換時(shí)，源碼書權(quán)重值對(duì)轉(zhuǎn)換語(yǔ)音造成較大影響，而當(dāng)權(quán)重閾值小于10-4時(shí)，轉(zhuǎn)換語(yǔ)音與目標(biāo)語(yǔ)音的LSF加權(quán)距離與閾值為10-4時(shí)的距離已經(jīng)基本沒(méi)有差別，即將小于閾值的權(quán)重值進(jìn)行轉(zhuǎn)換時(shí)并不影響轉(zhuǎn)換語(yǔ)音與目標(biāo)語(yǔ)音的相似度，所以本文提出對(duì)大于權(quán)重閾值10-4的源碼書權(quán)重值進(jìn)行映射。

2)基于權(quán)重比例分配的碼書映射，每一幀源和目標(biāo)訓(xùn)練參數(shù)對(duì)應(yīng)于各自碼書矩陣都可以得到一個(gè)權(quán)重矢量。對(duì)于大于權(quán)重閾值的碼書權(quán)重，數(shù)值越大對(duì)轉(zhuǎn)換語(yǔ)音影響越大，據(jù)此提出新的碼書映射方法。

③循環(huán)第②步，直到該對(duì)碼書權(quán)重矢量值小于權(quán)重閾值，則停止該幀參數(shù)對(duì)應(yīng)的權(quán)重矢量映射，進(jìn)入下一幀映射。

④循環(huán)①—③步，完成訓(xùn)練參數(shù)矩陣對(duì)應(yīng)于碼書矩陣的所有權(quán)重矢量的統(tǒng)計(jì)映射。此時(shí)得到的矩陣B即為新的碼書映射矩陣。

3)合成轉(zhuǎn)換語(yǔ)音。在轉(zhuǎn)換階段，首先求取源語(yǔ)音的聲道特征參數(shù)(LSF參數(shù))對(duì)應(yīng)于源語(yǔ)音碼書中各碼字的碼書權(quán)重；然后依據(jù)上述已經(jīng)建立的映射關(guān)系，對(duì)權(quán)重進(jìn)行轉(zhuǎn)換，得到目標(biāo)語(yǔ)音對(duì)應(yīng)于目標(biāo)碼書中各碼字的碼書權(quán)重：

Vy=VxBT

對(duì)目標(biāo)LSF參數(shù)進(jìn)行重構(gòu)，得到轉(zhuǎn)換后的LSF參數(shù)ωy,完成LSF參數(shù)的轉(zhuǎn)換：

3 清音轉(zhuǎn)換

本文基于碼書對(duì)清音幀進(jìn)行轉(zhuǎn)換。清音信號(hào)轉(zhuǎn)換框圖如圖3。

圖3 清音信號(hào)的轉(zhuǎn)換框圖

訓(xùn)練過(guò)程中，從對(duì)齊的清音幀參數(shù)對(duì)中提取濾波器系數(shù)建立源與目標(biāo)語(yǔ)音的濾波器系數(shù)碼書。

在轉(zhuǎn)換過(guò)程中，當(dāng)前輸入幀的基音頻率為零時(shí)即判定為清音幀并進(jìn)行清音轉(zhuǎn)換。諧波隨機(jī)模型對(duì)清音采用帶寬隨機(jī)噪聲表示，帶寬隨機(jī)噪聲可以看作通過(guò)全極點(diǎn)濾波器濾波的高斯白噪聲。首先用一個(gè)p階全極點(diǎn)濾波器對(duì)清音幀進(jìn)行建模，獲得全極點(diǎn)濾波器的能量，以及源濾波器系數(shù)矢量a=[a1,a2,…,ap]。然后基于碼書對(duì)源濾波器系數(shù)矢量a進(jìn)行轉(zhuǎn)換，得到轉(zhuǎn)換后的濾波器系數(shù)矢量a′。最后，將系數(shù)矢量a′、濾波器的能量和高斯白噪聲合成轉(zhuǎn)換后的語(yǔ)音。

4 結(jié)果與分析

本文采用的實(shí)驗(yàn)數(shù)據(jù)選自CMU ARCTIC語(yǔ)音數(shù)據(jù)庫(kù)，采樣頻率為16 kHz。從語(yǔ)音庫(kù)中隨機(jī)選取BDL(男)和 SLT(女) 兩位說(shuō)話人各100句的對(duì)稱語(yǔ)句數(shù)據(jù)，每句語(yǔ)音約3 s。采用10 ms窗長(zhǎng)、5 ms步移的漢明窗對(duì)語(yǔ)音進(jìn)行分幀處理，提取其中的濁音幀(約38 000幀)作為濁音語(yǔ)音數(shù)據(jù)庫(kù)，用于濁音碼書和訓(xùn)練數(shù)據(jù)的提取。另外再選取兩位說(shuō)話人各20句的對(duì)稱語(yǔ)句用于對(duì)轉(zhuǎn)換算法的評(píng)估。以下對(duì)本文的轉(zhuǎn)換算法從客觀和主觀兩方面進(jìn)行評(píng)估。

4.1 客觀測(cè)試

轉(zhuǎn)換后的聲道譜參數(shù)和目標(biāo)語(yǔ)音的聲道譜參數(shù)之間的相似度用失真標(biāo)準(zhǔn)來(lái)判斷，這里采用轉(zhuǎn)換語(yǔ)音與目標(biāo)語(yǔ)音間的LSF加權(quán)距離Δd作為度量標(biāo)準(zhǔn)[12]。LSF加權(quán)距離的優(yōu)點(diǎn)在于其計(jì)算加權(quán)值時(shí)考慮了LSF參數(shù)中的共振峰信息，計(jì)算公式如下：

將基于GMM[7]486和傳統(tǒng)的基于碼書映射[10]212的轉(zhuǎn)換算法作為對(duì)照，計(jì)算轉(zhuǎn)換后的聲道譜特征參數(shù)和目標(biāo)語(yǔ)音的聲道譜特征參數(shù)之間的加權(quán)距離，其中GMM算法在訓(xùn)練階段的高斯混合度取8。GMM算法、傳統(tǒng)算法、本文算法測(cè)得LSF加權(quán)距離分別為13.86、13.53、12.28。

基于GMM方法的逐幀轉(zhuǎn)換過(guò)程忽略了語(yǔ)音信號(hào)的幀間強(qiáng)相關(guān)性，導(dǎo)致轉(zhuǎn)換語(yǔ)音音質(zhì)下降，而傳統(tǒng)的基于碼書映射的語(yǔ)音轉(zhuǎn)換方法直接使用源碼書權(quán)重用于轉(zhuǎn)換語(yǔ)音特征參數(shù)重構(gòu)，導(dǎo)致轉(zhuǎn)換語(yǔ)音與目標(biāo)語(yǔ)音的個(gè)性特征相似度低。本文采用基于權(quán)重比例分配的碼書映射方法有效避免了上述方法中存在的問(wèn)題，另外該方法還分析了權(quán)重值大小對(duì)轉(zhuǎn)換語(yǔ)音的影響，對(duì)有較大影響的權(quán)重值進(jìn)行了映射轉(zhuǎn)換，避免了權(quán)重?cái)?shù)據(jù)冗余問(wèn)題。本文方法與基于GMM和傳統(tǒng)碼書映射方法相比，轉(zhuǎn)換語(yǔ)音與目標(biāo)語(yǔ)音間的LSF加權(quán)距離有明顯降低，說(shuō)明本文方法有效降低了轉(zhuǎn)換語(yǔ)音的失真度，大大提高了轉(zhuǎn)換語(yǔ)音與目標(biāo)語(yǔ)音個(gè)性特征的相似度。

為比較各算法的及時(shí)性，對(duì)該算法運(yùn)行時(shí)間進(jìn)行測(cè)試，測(cè)得GMM算法、傳統(tǒng)算法、本文算法的運(yùn)行時(shí)間分別為310.9、36.4、42.7 s。

可見，本文算法相比于GMM算法在運(yùn)行時(shí)間上大大減少，但是略高于傳統(tǒng)轉(zhuǎn)換算法。本文算法不僅有效提高了轉(zhuǎn)換語(yǔ)音的音質(zhì)，同時(shí)也保證系統(tǒng)運(yùn)行時(shí)間仍然處于較低值，可以很好地用于資源受限的平臺(tái)，比如嵌入式系統(tǒng)等。

4.2 主觀測(cè)試

本實(shí)驗(yàn)采用ABX測(cè)試分別對(duì)傳統(tǒng)的基于碼書映射語(yǔ)音轉(zhuǎn)換方法和本文方法得到的轉(zhuǎn)換語(yǔ)音與目標(biāo)語(yǔ)音的相似度進(jìn)行主觀測(cè)試，A表示傳統(tǒng)方法所得轉(zhuǎn)換語(yǔ)音，B表示本文方法所得轉(zhuǎn)換語(yǔ)音。5名測(cè)聽者被要求判斷給定的20句目標(biāo)語(yǔ)音與對(duì)應(yīng)的20句轉(zhuǎn)換語(yǔ)音A和 B哪個(gè)更接近。表2為ABX測(cè)試結(jié)果，從表中結(jié)果可以算出，目標(biāo)語(yǔ)音接近于A即傳統(tǒng)方法所得轉(zhuǎn)換語(yǔ)音的概率約為12%，而接近于B即本文方法所得轉(zhuǎn)換語(yǔ)音的概率可達(dá)82%。這說(shuō)明與傳統(tǒng)方法相比，本文方法所得轉(zhuǎn)換語(yǔ)音與目標(biāo)語(yǔ)音的個(gè)性特征更為接近，相似度更高。

表2 ABX測(cè)試結(jié)果句

5 結(jié)論

本文針對(duì)傳統(tǒng)的基于碼書映射的語(yǔ)音轉(zhuǎn)換方法中存在相似度不高的問(wèn)題，提出一種新的語(yǔ)音轉(zhuǎn)換算法。首先，設(shè)置權(quán)重閾值對(duì)碼書權(quán)重矩陣稀疏化,分析傳統(tǒng)碼書映射方法中不同碼書權(quán)重對(duì)轉(zhuǎn)換語(yǔ)音的影響。其次，將源與目標(biāo)碼書權(quán)重矩陣中大于權(quán)重閾值的值進(jìn)行訓(xùn)練,根據(jù)不同權(quán)重值對(duì)轉(zhuǎn)換語(yǔ)音的影響比例不同建立權(quán)重映射關(guān)系。最后，通過(guò)映射關(guān)系由源碼書權(quán)重得到目標(biāo)碼書權(quán)重，進(jìn)而合成轉(zhuǎn)換語(yǔ)音。實(shí)驗(yàn)結(jié)果表明，該方法有效解決了傳統(tǒng)的基于碼書映射的語(yǔ)音轉(zhuǎn)換方法中直接使用源碼書權(quán)重合成轉(zhuǎn)換語(yǔ)音與目標(biāo)語(yǔ)音存在相似度不高的問(wèn)題，同時(shí)考慮了不同權(quán)重值對(duì)轉(zhuǎn)換語(yǔ)音的不同影響，對(duì)應(yīng)不同權(quán)重在映射矩陣中累加不同映射數(shù)值，實(shí)現(xiàn)了更加準(zhǔn)確的碼書映射，進(jìn)一步提高了轉(zhuǎn)換語(yǔ)音的音質(zhì)和轉(zhuǎn)換語(yǔ)音與目標(biāo)語(yǔ)音的相似度。

常州工學(xué)院學(xué)報(bào)2019年2期

常州工學(xué)院學(xué)報(bào)的其它文章: 網(wǎng)絡(luò)教學(xué)平臺(tái)學(xué)生學(xué)習(xí)數(shù)據(jù)分析; 職業(yè)能力需求調(diào)研及對(duì)應(yīng)用型人才培養(yǎng)的啟示
——以機(jī)械設(shè)計(jì)制造及其自動(dòng)化專業(yè)為例; 常州文化創(chuàng)意企業(yè)融資模式研究; 人工智能背景下投資組合優(yōu)化問(wèn)題研究; 旋噴樁軟基段施工技術(shù); 土質(zhì)挖方邊坡錨索預(yù)應(yīng)力監(jiān)測(cè)及定量損失分析