亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于前向注意力機(jī)制的長(zhǎng)句子語音合成方法

        2022-09-28 14:50:06田澤佳卓奕煒
        電子設(shè)計(jì)工程 2022年18期
        關(guān)鍵詞:機(jī)制模型

        田澤佳,門 豪,卓奕煒,劉 宇

        (1.武漢郵電科學(xué)研究院,湖北武漢 430074;2.南京烽火天地通信科技有限公司,江蘇 南京 210019)

        語音合成在人工智能領(lǐng)域有著十分廣泛的應(yīng)用場(chǎng)景。隨著對(duì)神經(jīng)網(wǎng)絡(luò)技術(shù)的深入研究,基于深度學(xué)習(xí)的語音合成極大程度上改進(jìn)了傳統(tǒng)語音合成技術(shù),降低了行業(yè)門檻。文獻(xiàn)[1-2]最早使用基于常規(guī)注意力機(jī)制的序列到序列方法進(jìn)行語音合成的探索。文獻(xiàn)[3]提出全新的語音合成模型Tacotron,其基于常規(guī)注意力機(jī)制實(shí)現(xiàn)了首個(gè)端到端的語音合成模型。針對(duì)語音合成長(zhǎng)句子存在的漏讀、重讀問題,有很多改進(jìn)的方法,如文獻(xiàn)[4]引入一個(gè)卷積窗的約束,對(duì)注意力機(jī)制本身進(jìn)行改進(jìn),將全局注意力機(jī)制轉(zhuǎn)換為帶卷積窗的注意力。文獻(xiàn)[5]模型使用了自注意力的方法,能夠在更少參數(shù)的情況下快速對(duì)齊語音幀。

        該文針對(duì)長(zhǎng)句子語音合成中存在的漏讀、重讀等問題,提出前向注意力機(jī)制,該機(jī)制能夠充分考慮文本序列中前后時(shí)刻的關(guān)系,利用前一時(shí)刻語音幀的注意力得分平滑當(dāng)前時(shí)刻的注意力得分,消除注意力計(jì)算過程中的異常點(diǎn),提高長(zhǎng)句子合成的質(zhì)量,比基線模型具有更快的收斂速度,提高了語音合成的效率。

        1 前向注意力機(jī)制

        該文提出的前向注意力機(jī)制主要對(duì)常規(guī)注意力[6]中注意力得分的計(jì)算過程進(jìn)行改進(jìn),其核心思想是利用前一時(shí)刻生成的正常得分來平滑當(dāng)前時(shí)刻的注意力得分。

        通常,注意力機(jī)制的基本結(jié)構(gòu)為編解碼器[7],其結(jié)構(gòu)由遞歸神經(jīng)網(wǎng)絡(luò)組成[8],在計(jì)算流程上,將輸入的文本序列x=(x1,x2,···,xt,···,xT)轉(zhuǎn)化為語音序列y=(y1,y2,···,yt)輸出,這里xt為第t幀特征向量;yt為當(dāng)前t時(shí)刻解碼器輸出;每個(gè)yt可能對(duì)應(yīng)一個(gè)或者多個(gè)xt。具體過程:首先通過編碼器將輸入的文本特征序列x生成相對(duì)應(yīng)的更適合注意力機(jī)制處理的特征序列H=(h1,h2,···,ht):

        其中,Encoder(·)是編碼器的操作,它通常由一個(gè)雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Bidirectional Long Short-Term Memory,BiLSTM)[9]組成。H∈RD×t為特征序列向量,D為網(wǎng)絡(luò)神經(jīng)元個(gè)數(shù),即特征序列向量的維度,ht為第t幀特征序列。

        其次是注意力部分,利用編碼器的輸出、前一時(shí)刻解碼器的輸出以及注意力部分的信息,計(jì)算當(dāng)前時(shí)刻的注意力得分αj:

        其中,Attend(·)為注意力的計(jì)算,qj-1為前一時(shí)刻解碼器的輸出,αj-1為前一時(shí)刻注意力的得分。

        通過對(duì)上述注意力機(jī)制的計(jì)算過程進(jìn)行分析發(fā)現(xiàn),在注意力得分的計(jì)算中沒有施加約束,而是只計(jì)算了單個(gè)語音幀的分?jǐn)?shù),但是實(shí)際上每個(gè)音素往往包含幾十個(gè)語音幀,這就會(huì)導(dǎo)致同一音素內(nèi)不同幀之間的注意力得分異常,導(dǎo)致相關(guān)語音幀存在較大偏差,從而造成語音重讀問題。因此,該文對(duì)上述注意力得分進(jìn)行了改進(jìn),將新的注意力得分記為,在計(jì)算得分時(shí),對(duì)當(dāng)前時(shí)刻的注意力得分用前一時(shí)刻l幀的注意力得分之和加以約束。同時(shí),為了簡(jiǎn)化計(jì)算,只考慮前一時(shí)刻關(guān)注的語音幀與其相鄰幀之間的關(guān)系,以提升平滑效率,公式如下:

        最后,再利用式(4)對(duì)式(3)得到的結(jié)果進(jìn)行歸一化處理,得到前向注意力得分。再利用得到的結(jié)合隱含狀態(tài)向量便得到上下文向量:

        上述方法利用了前一時(shí)刻得到的前向注意力得分來平滑當(dāng)前的異常分值,達(dá)到消除異常點(diǎn)的目的,同時(shí)保證不同語音幀注意力得分之間的連續(xù)性,確保合成語音的單調(diào)性,提高模型訓(xùn)練效率。在實(shí)際訓(xùn)練和后續(xù)測(cè)試中,長(zhǎng)句子合成質(zhì)量有明顯的提升,未出現(xiàn)重讀和漏讀問題。

        2 帶約束的前向注意力

        前文提出的前向注意力機(jī)制能夠有效解決長(zhǎng)句重讀、漏讀問題,但在分析其基本方法的過程中,發(fā)現(xiàn)式(3)中的在前l(fā)個(gè)語音幀中發(fā)揮影響的程度不一致,并且前一時(shí)刻關(guān)注的語音幀在當(dāng)前時(shí)刻不能保持完全相同,因此需要對(duì)前一時(shí)刻的前l(fā)語音幀添加新的約束,并動(dòng)態(tài)調(diào)整注意力得分的重要度,以自適應(yīng)的方式解決異常點(diǎn)問題,提高平滑效果,確保合成語音的自然度。因此,在前一方法的基礎(chǔ)上,提出了帶約束的前向注意力機(jī)制。具體的做法為采用具有一個(gè)隱藏層和sigmoid 激活單元的深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,DNN)作為過渡代理,產(chǎn)生約束因子uj,用來動(dòng)態(tài)地控制對(duì)齊過程中向前移動(dòng)或停留的動(dòng)作,如式(6)所示:

        其中,uj∈Rl為當(dāng)前時(shí)刻DNN 利用前一時(shí)刻qj-1、cj-1、oj-1產(chǎn)生的約束因子,qj-1為解碼器狀態(tài),cj-1為DNN目標(biāo)向量,oj-1為上一語音幀的輸出序列。

        利用式(6)產(chǎn)生的約束因子能夠?qū)η耙粫r(shí)刻的注意力得分加以約束,可以減少注意力得分之間的差值,注意力得分較高的語音幀重要度可能會(huì)下降,注意力得分較低的語音幀重要度可能會(huì)上升。通過引入該動(dòng)態(tài)調(diào)節(jié)機(jī)制可以使得分值更加平滑。于是對(duì)式(3)進(jìn)行改進(jìn),便得到如下新的計(jì)算公式:

        其中,uk,j代表當(dāng)前j時(shí)刻k個(gè)語音幀的約束因子,乘上該因子可以達(dá)到約束的目的。故通過式(4)對(duì)式(7)得到的結(jié)果進(jìn)行歸一化處理,可得到新的注意力得分

        前文中提出的帶約束的前向注意力機(jī)制也可以從專家產(chǎn)品模型[10](Product of Experts,PoE)的角度來思考。PoE 模型的核心思想是通過將各自獨(dú)立的模塊組合到一起,然后將模塊各自的輸出進(jìn)行歸一化,每個(gè)模塊相當(dāng)于一個(gè)軟約束。在該文提出的帶約束的前向注意力機(jī)制中,式(6)相當(dāng)于為單調(diào)對(duì)齊的任務(wù)添加一個(gè)約束,任務(wù)中的另一個(gè)約束為αi,j,即原注意力概率,帶約束的注意力得分便是基于這兩個(gè)約束的乘積。因此,不滿足單調(diào)對(duì)齊條件的路徑的注意力得分較低,以此達(dá)到單調(diào)對(duì)齊的目的。

        常規(guī)的序列到序列聲學(xué)模型難以做到控制合成語音速度,而該文提出的帶有約束的注意力機(jī)制可以實(shí)現(xiàn)該功能。在語音合成的過程中,對(duì)DNN 網(wǎng)絡(luò)[11]中的sigmoid 輸出單元添加正偏置或者負(fù)偏置,會(huì)使帶約束的注意力得分增加或者減少,進(jìn)而影響參與注意力計(jì)算的音素移動(dòng)的快慢,從而可以達(dá)到控制合成語音合成速度的目的。

        3 實(shí)驗(yàn)與分析

        3.1 實(shí)驗(yàn)條件

        該文中實(shí)驗(yàn)的操作系統(tǒng)為Ubuntu18.04,顯卡使用的是NVIDIA GeForce GTX 2070S,處理器為Intel i5-5200U,內(nèi)存為16 GB,主頻為3.2 GHz,程序基于Tensorflow 1.3.0 深度學(xué)習(xí)框架。

        實(shí)驗(yàn)中使用了公開的標(biāo)貝女聲數(shù)據(jù)集。該數(shù)據(jù)集為一位女性專業(yè)人士錄制的普通話語音數(shù)據(jù)集,整個(gè)數(shù)據(jù)集音頻有效時(shí)長(zhǎng)約為12 小時(shí),采樣格式為無壓縮PAM WAV 格式,采樣率為48 kHz。錄音語料涵蓋各類新聞、小說、科技、娛樂、對(duì)話等領(lǐng)域。數(shù)據(jù)集由10 000 個(gè)話語以及相對(duì)應(yīng)的文本拼音標(biāo)注組成,劃分為訓(xùn)練子集、驗(yàn)證子集和測(cè)試子集,分別包括8 000、1 200、800 條語句。

        3.2 實(shí)驗(yàn)過程

        該實(shí)驗(yàn)針對(duì)基線模型Tacotron2 語音合成模型[12]中存在的重讀、合成效率低等問題,采用控制變量的方法,使用該文提出的前向注意力機(jī)制替換原模型中的帶卷積窗的注意力,完整的網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示。完整的語音合成是基于序列到序列架構(gòu)的模型,模型分為兩部分,第一部分是頻譜預(yù)測(cè)網(wǎng)絡(luò),負(fù)責(zé)從文本和音頻中提取出特征序列向量,并通過注意力機(jī)制獲取兩個(gè)特征序列向量的映射,最終輸出預(yù)測(cè)的梅爾頻譜圖;第二部分為WaveNet 神經(jīng)聲碼器[13],用于將梅爾頻譜圖[14]轉(zhuǎn)化為聲音波形輸出。語音合成模型的核心為注意力機(jī)制,由編碼器和解碼器兩部分結(jié)構(gòu)組成。編碼器部分由3 個(gè)卷積層和一個(gè)BiLSTM 組成,卷積層的作用與N-gram 相似[15],具備感知上下文的能力,解碼器由預(yù)處理網(wǎng)絡(luò)和兩個(gè)LSTM 層組成。文本序列首先由卷積層提取上下文信息,然后傳遞到BiLSTM,用以生成編碼器隱狀態(tài),之后通過注意力機(jī)制生成編碼向量,再由解碼器將該向量和LSTM 的輸出連接后,送入到解碼器端的LSTM,計(jì)算出新的編碼向量,該向量再與LSTM 的輸出拼接后,進(jìn)入后處理網(wǎng)絡(luò),用以預(yù)測(cè)頻譜。整個(gè)實(shí)驗(yàn)中,采用的基線模型為帶卷積窗的注意力機(jī)制的Tacotron2 語音合成模型,其基本的編解碼器網(wǎng)絡(luò)結(jié)構(gòu)與該文所采用的網(wǎng)絡(luò)結(jié)構(gòu)相同,唯一不同的是注意力得分的計(jì)算部分。

        圖1 基于前向注意力機(jī)制的語音合成模型示意圖

        3.3 實(shí)驗(yàn)結(jié)果及分析

        該文討論了在不同注意力機(jī)制下的序列到序列模型在語音合成中的效果,以評(píng)估不同注意力機(jī)制下聲學(xué)特征生成的穩(wěn)定性。從測(cè)試集中隨機(jī)選擇120 條文本進(jìn)行語音合成,其中最長(zhǎng)的語句大致有100 個(gè)字,采用MOS 評(píng)分法[16-17]對(duì)合成的語句進(jìn)行主觀評(píng)估。該文共建立了4 種基于序列到序列的聲學(xué)模型,分別為基于常規(guī)注意力機(jī)制(記為Att_None)、帶卷積窗的注意力(記為Att_Win)、前向注意力(記為Att_For)、帶約束的前向注意力(記為Att_ForTA)。幾種注意力機(jī)制下的MOS 得分情況如表1 所示。

        表1 不同方法的MOS得分

        由表1 可以看出,在使用前向注意力機(jī)制方法后,合成的語音質(zhì)量相對(duì)于常規(guī)注意力機(jī)制和帶卷積窗的注意力機(jī)制都有了一定程度的提升,其中相比于基線模型Tacotron2,合成語音的MOS 得分提升了2.5%,原因在于該方法在不影響合成語音質(zhì)量的前提下,解決了長(zhǎng)句子合成中存在的重讀、漏音等問題,提升了語音合成的自然度。

        同時(shí),該文還使用前向注意力機(jī)制的聲學(xué)模型和基線模型合成同樣長(zhǎng)度的句子,對(duì)這兩種方法的特征預(yù)測(cè)網(wǎng)絡(luò)對(duì)齊情況和預(yù)測(cè)的梅爾聲譜圖進(jìn)行了對(duì)比,如圖2 所示。

        圖2 特征預(yù)測(cè)網(wǎng)絡(luò)對(duì)齊情況和梅爾聲譜圖對(duì)比

        在合成相同長(zhǎng)句子時(shí),左圖代表基線模型Tacotron2 的對(duì)齊情況和梅爾頻譜圖,右圖顯示的是前向注意力機(jī)制下的對(duì)齊情況和梅爾頻譜圖。由圖中可以看出,在合成相同長(zhǎng)度句子的情況下,基線模型在特征預(yù)測(cè)網(wǎng)絡(luò)對(duì)齊圖上出現(xiàn)了重疊現(xiàn)象,生成的梅爾頻譜圖出現(xiàn)了頻率譜的重復(fù),并且合成長(zhǎng)句子的時(shí)間較長(zhǎng),也就是合成效率較低;而使用了前向注意力機(jī)制模型的相同句子在特征對(duì)齊圖上未出現(xiàn)重疊現(xiàn)象,對(duì)應(yīng)的梅爾頻譜也未出現(xiàn)頻譜的重復(fù),同時(shí)整個(gè)句子的合成耗時(shí)較短,說明了該文方法有效地解決了長(zhǎng)句子合成中的問題,提高了語音合成的質(zhì)量,并且提高了合成效率。

        在對(duì)帶約束的前向注意力的方法測(cè)試中,該文對(duì)DNN 網(wǎng)絡(luò)中sigmoid 輸出單元添加正偏置或者負(fù)偏置,會(huì)使帶約束的注意力得分增加或者減少,進(jìn)而影響參與注意力計(jì)算的音素移動(dòng)的快慢,從而達(dá)到控制合成語音合成速度的目的。該文驗(yàn)證了該方法的有效性,具體做法是使用前一實(shí)驗(yàn)中合成的20 個(gè)話語進(jìn)行對(duì)比,從0 開始以步長(zhǎng)0.2 增加或減少偏置值,分別合成20 個(gè)話語,計(jì)算合成話語長(zhǎng)度和偏置為0 的話語長(zhǎng)度的平均比值,如圖3 所示,從圖中可看出,每次調(diào)整不同的偏置,能夠有效地實(shí)現(xiàn)對(duì)合成語句速度的控制。

        圖3 偏置值對(duì)合成語音速度的影響

        4 結(jié)束語

        該文提出的前向注意力機(jī)制能夠有效平滑注意力計(jì)算中出現(xiàn)的異常得分,消除異常點(diǎn),解決長(zhǎng)句子語音合成中出現(xiàn)的漏讀、重讀問題,提高語音合成質(zhì)量。更進(jìn)一步地,該文又提出了改進(jìn)的帶約束的前向注意力機(jī)制,通過對(duì)前一時(shí)刻的注意力得分引入約束因子來自適應(yīng)平滑當(dāng)前時(shí)刻的注意力得分,提高了長(zhǎng)句子語音合成的穩(wěn)定性且能夠自主控制合成語音速度。實(shí)驗(yàn)結(jié)果表明,相對(duì)于基線模型Tacotron2,前向注意力機(jī)制的長(zhǎng)句子語音合成方法在MOS 得分上提升了2.5%,且?guī)Ъs束的前向注意力能夠有效地控制合成語音的速度。

        猜你喜歡
        機(jī)制模型
        一半模型
        構(gòu)建“不敢腐、不能腐、不想腐”機(jī)制的思考
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        自制力是一種很好的篩選機(jī)制
        文苑(2018年21期)2018-11-09 01:23:06
        定向培養(yǎng) 還需完善安置機(jī)制
        3D打印中的模型分割與打包
        破除舊機(jī)制要分步推進(jìn)
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        注重機(jī)制的相互配合
        啦啦啦www在线观看免费视频| 五月激情在线观看视频| 2021年最新久久久视精品爱| 风流少妇一区二区三区 | 欧美日韩国产专区| 另类人妖在线观看一区二区| 亚洲天堂av中文字幕在线观看| 人妻少妇无码精品视频区| 曰本无码人妻丰满熟妇5g影院| 国产精品自线在线播放| 久久久精品国产av麻豆樱花| 无码国产精品一区二区av| 欧美性狂猛xxxxx深喉| 在线毛片一区二区不卡视频| 午夜一区二区三区福利视频| 亚洲日本人妻少妇中文字幕| 精品国产性色无码av网站| 亚洲另类激情综合偷自拍图 | 亚洲红杏AV无码专区首页| 一本色道久久亚洲av红楼| 免费a级毛片18禁网站app| 少妇人妻偷人精品无码视频| 在线不卡中文字幕福利| 亚洲va视频一区二区三区| 人妻聚色窝窝人体www一区| 色猫咪免费人成网站在线观看 | 亚洲二区精品婷婷久久精品| 亚洲国产熟女精品传媒| 亚洲精品无人区| 国产免费一级高清淫日本片| 亚洲无码激情视频在线观看 | 在线观看中文字幕二区| 亚洲国产午夜精品理论片在线播放| 国产色诱视频在线观看| 激情五月婷婷久久综合| 日本黑人乱偷人妻在线播放| 欧美寡妇xxxx黑人猛交| 久久久久久久妓女精品免费影院| 青青草视频在线你懂的| 熟女人妻中文字幕av| 在线观看热码亚洲av每日更新 |