亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        增強(qiáng)變分自編碼器做非平行語料語音轉(zhuǎn)換

        2018-07-26 05:40:30黃國捷俞一彪
        信號處理 2018年10期
        關(guān)鍵詞:語料編碼器平行

        黃國捷 金 慧 俞一彪

        (蘇州大學(xué)電子信息學(xué)院,江蘇蘇州 215006)

        1 引言

        語音轉(zhuǎn)換就是保持語義信息不變,僅改變一個說話人的語音個性特征(稱為源說話人),使其聽起來像是另一個說話人(稱為目標(biāo)說話人)的語音個性特征[1]。通過對語音轉(zhuǎn)換的研究,可以進(jìn)一步加強(qiáng)對語音相關(guān)參數(shù)的研究,探索人類的發(fā)音機(jī)理,控制語音信號的個性特征參數(shù),對語音信號轉(zhuǎn)換的研究可推動其他領(lǐng)域如:語音合成、語音識別、說話人識別等的發(fā)展,在文語轉(zhuǎn)換、說話人偽裝身份通信、多媒體娛樂、醫(yī)學(xué)領(lǐng)域的語音增強(qiáng)、極低速率的語音編碼方案[2]等領(lǐng)域有廣泛應(yīng)用價值。

        語音轉(zhuǎn)換最基本的內(nèi)容有兩個方面:韻律信息的轉(zhuǎn)換和頻譜特征參數(shù)的轉(zhuǎn)換,國內(nèi)外的研究主要集中在頻譜參數(shù)的轉(zhuǎn)換方法上,現(xiàn)有的絕大多數(shù)算法基于統(tǒng)計模型[3-5]。這些算法中很多需要源和目標(biāo)說話人的足量平行語料,這帶來了很多具體應(yīng)用限制和問題,比如,訓(xùn)練的數(shù)據(jù)對兩個說話人必須是相同的,訓(xùn)練的模型只能被應(yīng)用到特定的一對組合,說話人的語料不充足,對齊時可能會出現(xiàn)的幀間錯誤匹配等等。21世紀(jì)以來,一些學(xué)者積極探索基于非平行語料的語音轉(zhuǎn)換算法。其克服了平行語料語音轉(zhuǎn)換的部分問題,如不需要相同的訓(xùn)練數(shù)據(jù),模型可以被應(yīng)用于多對一的組合。2006年,Geoffery Hinton在Science發(fā)表文章[6],提出基于深度信念網(wǎng)絡(luò)(Deep Belief Networks, DBN)可使用非監(jiān)督的逐層貪心訓(xùn)練算法,掀起了深度學(xué)習(xí)理論在語音轉(zhuǎn)換上的研究浪潮[7- 8]。2015年香港中文大學(xué)的學(xué)者Lifa Sun利用自動語音識別系統(tǒng)對長短時記憶遞歸神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練,實(shí)現(xiàn)了多對一的語音轉(zhuǎn)換[9]。2016年,Hsu等人使用變分自編碼器進(jìn)行非平行語料的語音轉(zhuǎn)換[10]。該方法將源語音經(jīng)過編碼網(wǎng)絡(luò)生成服從高斯分布的語音編碼,再經(jīng)過解碼網(wǎng)絡(luò)將其重構(gòu)為指定的目標(biāo)語音,取得了較好的結(jié)果。

        本文提出了一個增強(qiáng)變分自編碼器,通過在變分自編碼器中增加一個增強(qiáng)網(wǎng)絡(luò),由于增強(qiáng)網(wǎng)絡(luò)是一個輸入對應(yīng)一個輸出的,這使得增強(qiáng)變分自編碼器有較好的去噪能力,從而可以部分克服變分自編碼器的缺點(diǎn),得到更好的語音轉(zhuǎn)換效果。此外,本文還引入了循環(huán)訓(xùn)練方法以改善轉(zhuǎn)換語音的目標(biāo)傾向性。本文的其余部分安排如下:第2部分簡要介紹基于變分自編碼器的語音轉(zhuǎn)換原理,第3部分闡述了如何改進(jìn)變分自編碼器,并介紹增強(qiáng)變分自編碼器結(jié)構(gòu)和訓(xùn)練流程,第4部分通過實(shí)驗(yàn)數(shù)據(jù)來驗(yàn)證本文提出的模型。最后,對本文的工作進(jìn)行了總結(jié)。

        2 變分自編碼器

        變分自編碼器是一種生成模型,它將深度學(xué)習(xí)的觀點(diǎn)與統(tǒng)計學(xué)習(xí)結(jié)合在一起。變分自編碼器運(yùn)用了貝葉斯的方法,它是在概率圖模型上執(zhí)行高效的近似推理和學(xué)習(xí),并且涉及到對后驗(yàn)概率的近似優(yōu)化[11]。

        圖1 變量x產(chǎn)生過程Fig.1 The process of generating a variable x

        則有:

        (1)

        由于KL散度是大于0的,則有:

        (2)

        其中:

        (3)

        圖2 變分自編碼器語音轉(zhuǎn)換過程Fig.2 The process of voice conversion based on variation auto-encoder

        3 增強(qiáng)變分自編碼器

        圖3 增強(qiáng)變分自編碼器Fig.3 Enhanced variation auto-encoder

        3.1 增強(qiáng)網(wǎng)絡(luò)

        本文在變分自編碼器上加入了增強(qiáng)網(wǎng)絡(luò),將編碼網(wǎng)絡(luò)的輸出均值直接輸入到解碼網(wǎng)絡(luò)中,再經(jīng)過增強(qiáng)網(wǎng)絡(luò)對轉(zhuǎn)換后的語音進(jìn)行一對一的訓(xùn)練,這使得增強(qiáng)網(wǎng)絡(luò)的訓(xùn)練目標(biāo)是穩(wěn)定的,從而使增強(qiáng)網(wǎng)絡(luò)擁有較好的去噪能力。

        (4)

        首先,建立一個編碼網(wǎng)絡(luò)f?(·),此時可以記輸入xs,n,xt,m為xn。它將輸入的幀編碼成均值變量μ和方差變量ε有:

        μ,ε=f?(xn)

        (5)

        (6)

        (7)

        之后,把(5)中得到的均值變量μ與標(biāo)簽變量yn聯(lián)合成向量(μ,yn)以重建源語音:

        (8)

        (9)

        3.2 循環(huán)訓(xùn)練

        Zhud等人在2018年提出了一個cyclegan網(wǎng)絡(luò)用于圖像翻譯[12]。其基本思想是:如果圖像A被成功翻譯成假圖像B′,那么假圖像B′同樣可以再次被翻譯成A′,且A′與A是完全相同的。

        本文的循環(huán)訓(xùn)練的方法采用了與此相似的優(yōu)化策略:一段源語音x被轉(zhuǎn)化成目標(biāo)語音x′,當(dāng)x′通過增強(qiáng)網(wǎng)絡(luò)再次變?yōu)樵凑Z音x時,可以被無失真復(fù)原,以此為優(yōu)化目標(biāo)來更新增強(qiáng)網(wǎng)絡(luò)的參數(shù)[13-14]。

        語音轉(zhuǎn)換階段,將源語音的標(biāo)簽替換為目標(biāo)語音的標(biāo)簽,增強(qiáng)變分自編碼器會輸出一個目標(biāo)語音。

        3.3 網(wǎng)絡(luò)損失函數(shù)

        本文使用KL散度來衡量編碼網(wǎng)絡(luò)的輸出與理想高斯分布的距離:

        (10)

        解碼網(wǎng)絡(luò)的損失為:

        (11)

        增強(qiáng)網(wǎng)絡(luò)的重建損失為:

        (12)

        增強(qiáng)網(wǎng)絡(luò)的循環(huán)損失為:

        (13)

        3.4 網(wǎng)絡(luò)參數(shù)

        表1 網(wǎng)絡(luò)結(jié)構(gòu)與參數(shù)

        注:解碼網(wǎng)絡(luò)最后一層不使用激活函數(shù)和Batchnorm操作。

        3.5 訓(xùn)練流程

        不斷循環(huán),當(dāng)所有損失函數(shù)的值不再有明顯變化則停止訓(xùn)練。

        4 實(shí)驗(yàn)結(jié)果與分析

        本文使用CMU ARCTIC語料庫[15]進(jìn)行跨性別語音轉(zhuǎn)換實(shí)驗(yàn)(男性對女性,女性對男性)。語音信號在16 kHz單聲道采樣,每一幀的長度為1024,幀移為256。從CMU ARCTIC語料庫用選取一個男生和女生的聲音,分別有1132條語音,每段語音時長約為3 s。其中一半劃分為非平行的訓(xùn)練語音,另一半劃分為測試語音。STRAIGHT(Speech Transformation And Representation and Interpolation Using Weighted Spectrogram,自適應(yīng)加權(quán)譜內(nèi)插)工具包提取語音參數(shù)并合成語音[16]。

        4.1 客觀評價

        (14)

        此外,需要對目標(biāo)語音和轉(zhuǎn)換語音做歸一化處理,以減少語音強(qiáng)度對譜失真的影響。將測試集上每一段語音的譜失真取平均值得到平均譜失真。譜失真數(shù)值越小表示該方法越好。結(jié)果如圖4所示。

        圖4 譜失真測度Fig.4 Spectral distortion measure

        由圖4可以看出,與變分自編碼器語音轉(zhuǎn)換系統(tǒng)相比,本文的語音轉(zhuǎn)換系統(tǒng)在譜失方面有所改善。且女性轉(zhuǎn)男性比男性轉(zhuǎn)女性效果更好,這也與聽覺效果是一致的。

        4.2 主觀評價

        首先從測試集中隨機(jī)抽取10個樣本,5個為男性轉(zhuǎn)女性,5個為女性轉(zhuǎn)男性。每一個樣本包含4個文件:源語音,目標(biāo)語音,轉(zhuǎn)換語音T1,轉(zhuǎn)換語音T2。T1,T2是被隨機(jī)打亂的,一個是本文的轉(zhuǎn)換語音,另一個是變分自編碼器轉(zhuǎn)換的語音。每個測試者需要將T1,T2與目標(biāo)語音比較,T1,T2哪一個更接近目標(biāo)語音,T1,T2哪一個清晰度更好。測試者有三個選項(xiàng)供選擇:T1更好,T2更好,T1和T2一樣好。本文記優(yōu)勝的方法得2分,失敗的方法得0分,兩種方法一樣好各得1分。主觀評價分?jǐn)?shù)越高,那么該方法越好。參與本次測試的共有17人。兩種方法得到的平均分如圖5所示。

        圖5 相似度與清晰度比較Fig.5 Comparison of similarity and clearness

        由圖5可以看出,本文的方法在相似度和清晰度指標(biāo)上都優(yōu)于變分自編碼器,在清晰度方面改善尤為明顯。

        此外,可以在https:∥github.com/huangguojie880/EVAE聽到變分自編碼器與增強(qiáng)變分自編碼器的語音轉(zhuǎn)換效果。

        5 結(jié)論

        本文提出了一個基于增強(qiáng)變分自編碼器的非平行語料語音轉(zhuǎn)換系統(tǒng),對變分自編碼器做出了進(jìn)一步的改進(jìn)。從跨性別語音轉(zhuǎn)換的客觀評價標(biāo)準(zhǔn)和主觀評價標(biāo)準(zhǔn)上看,本文的改進(jìn)工作頗有成效。但是,實(shí)驗(yàn)得到的語音轉(zhuǎn)換效果與理想的非平行語料語音轉(zhuǎn)換還存在一定的差距。增強(qiáng)變分自編碼器可以克服變分自編碼器本身的一些缺點(diǎn),這種改進(jìn)可以擴(kuò)展到其他領(lǐng)域,如圖像處理中。

        猜你喜歡
        語料編碼器平行
        向量的平行與垂直
        平行
        逃離平行世界
        基于FPGA的同步機(jī)軸角編碼器
        基于PRBS檢測的8B/IOB編碼器設(shè)計
        基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
        再頂平行進(jìn)口
        汽車觀察(2016年3期)2016-02-28 13:16:36
        JESD204B接口協(xié)議中的8B10B編碼器設(shè)計
        電子器件(2015年5期)2015-12-29 08:42:24
        華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
        《苗防備覽》中的湘西語料
        国产精品久久久久一区二区三区| 久久99久久99精品免观看女同| 久久99国产精一区二区三区| 国产精品久久一区二区三区| 女女同性黄网在线观看| 国产青青草视频在线播放| 亚洲成熟中老妇女视频| 丰满少妇按摩被扣逼高潮| 亚洲精品国偷拍自产在线观看 | 久久精品熟女亚洲av香蕉| 麻豆国产一区二区三区四区| 青草内射中出高潮| 人与嘼av免费| 久久精品国产亚洲av热一区| 中文字幕一区二三区麻豆| 国产国产精品人在线视| 久久久久88色偷偷| 蜜桃日本免费看mv免费版 | 免费a级毛片无码a∨男男| AV无码一区二区三区国产| 91蜜桃国产成人精品区在线| 色婷婷一区二区三区四| 丰满的少妇av一区二区三区| 亚洲色中文字幕无码av| 最近中文字幕在线mv视频在线| 国产成人自产拍免费视频| 久久熟女少妇一区二区三区| 无套内谢孕妇毛片免费看| 日夜啪啪一区二区三区| 国产在线视频国产永久视频| 日韩精品免费一区二区中文字幕| 久久99免费精品国产| 国产精品一区二区久久国产| 日韩精品无码中文字幕电影| 91久久久久无码精品露脸| 亚洲成人黄色av在线观看| 久久在一区二区三区视频免费观看| 国产伦精品免编号公布| 少妇人妻偷人精品无码视频| 日韩精品一区二区三区四区视频 | 国产精品视频自拍在线|