亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

蒙古語(yǔ)單元拼接語(yǔ)音合成方法探討

2019-10-21 09:36:39郭淑妮

科學(xué)與信息化 2019年16期

關(guān)鍵詞：深度學(xué)習(xí)

郭淑妮

摘要本文對(duì)蒙古語(yǔ)單元拼接語(yǔ)音合成方法進(jìn)行了探討，并基于深度學(xué)習(xí)探究了蒙古語(yǔ)的相關(guān)語(yǔ)音合成，采用了硬拼接和軟拼接相結(jié)合的方法。

關(guān)鍵詞深度學(xué)習(xí);蒙古語(yǔ);單元拼接;語(yǔ)音合成

引言

通過對(duì)蒙古語(yǔ)中的語(yǔ)音韻律的參數(shù)進(jìn)行統(tǒng)計(jì)分析，總結(jié)出其中的韻律變化規(guī)則。使用時(shí)域基因同步疊加算法和頻域基因同步疊加算法相結(jié)合，對(duì)合成語(yǔ)音進(jìn)行韻律調(diào)整，從而提高蒙古語(yǔ)合成語(yǔ)音的自然度，在拼接算法上采用的是硬拼接和軟拼接相結(jié)合的方法，從而達(dá)到更好的語(yǔ)音合成效果。

1 語(yǔ)音合成方法

按照現(xiàn)代擁有的技術(shù)手段，語(yǔ)音合成方法主要分為參數(shù)合成法和波形拼接合成法。參數(shù)合成法也是一種比較復(fù)雜的分析合成法，它是基于音節(jié)和音素為合成單位，對(duì)合成單元進(jìn)行相應(yīng)的語(yǔ)音分析，并提取出相應(yīng)的特征參數(shù)，經(jīng)過編碼后形成相應(yīng)的語(yǔ)音庫(kù)。使用該方法進(jìn)行語(yǔ)音合成時(shí)，是根據(jù)需要合成語(yǔ)音的信息從語(yǔ)音庫(kù)中提出相應(yīng)的合成參數(shù)，它是對(duì)人的發(fā)音過程進(jìn)行直接的模擬。

波形拼接合成法是基于基因同步疊加算法而實(shí)現(xiàn)，它的合成單位包括語(yǔ)句、短語(yǔ)和音節(jié)等單位，不同于傳統(tǒng)的將不同的語(yǔ)音單元進(jìn)行簡(jiǎn)單的拼接，這種方法需要使用大量的語(yǔ)言庫(kù)，在語(yǔ)音庫(kù)中選擇出最合適的語(yǔ)音單元進(jìn)行拼接，這期間會(huì)涉及許多復(fù)雜的技術(shù)，一般包括統(tǒng)計(jì)學(xué)技術(shù)和神經(jīng)網(wǎng)絡(luò)技術(shù)，在最后拼接時(shí)采用的是PSOLA算法，修改合成語(yǔ)音的韻律特征，經(jīng)過相應(yīng)的解碼之后進(jìn)行語(yǔ)音輸出，這種技術(shù)也是目前語(yǔ)音合成的主流技術(shù)[1]。

2 基于時(shí)域基因同步和頻域基因同步疊加算法相結(jié)合進(jìn)行韻律調(diào)整

2.1 時(shí)域基因同步和頻域基因同步疊加算法介紹

TD-PSOLA算法是PSOLA中較為簡(jiǎn)單并且計(jì)算效率最高的一個(gè)版本。通過把相應(yīng)的分析信號(hào)在時(shí)間軸上進(jìn)行移位，就能夠得到這種算法。在這個(gè)過程中省去了對(duì)短時(shí)信號(hào)的頻域變換，對(duì)某些短時(shí)分析信號(hào)只是進(jìn)行簡(jiǎn)單的刪除或者重復(fù)，通過對(duì)分析信號(hào)間同步標(biāo)記的距離進(jìn)行改變，來改變其基頻，在實(shí)時(shí)系統(tǒng)中得到廣泛的應(yīng)用[2]。

關(guān)于FD-PSOLA算法，其最終合成信號(hào)是通過對(duì)分析信號(hào)進(jìn)行頻域變換和反變換后得到的。通過使用傅里葉變換求出相應(yīng)的短時(shí)分析信號(hào)的短時(shí)譜以及譜包絡(luò)，在匹配合成基頻時(shí)需要對(duì)兩個(gè)譜進(jìn)行相應(yīng)的修改。

2.2 基于TD-PSOLA和FD-PSOLA算法結(jié)合的韻律調(diào)整

把時(shí)長(zhǎng)修改因子作為常數(shù)，根據(jù)時(shí)長(zhǎng)因子對(duì)短時(shí)信號(hào)數(shù)量進(jìn)行增加刪除就可以。選擇適當(dāng)?shù)男薷囊蜃硬粫?huì)造成太大的噪聲，對(duì)于大于等于2的修改因子，其會(huì)造成清音的短時(shí)相關(guān)，這樣聽起來會(huì)有噪聲的感覺。在實(shí)際應(yīng)用過程中，可以采用將時(shí)軸的重復(fù)部分進(jìn)行部分倒置的方法來解決，如果要使用較大的修改因子則可以結(jié)合FD-PSOLA算法來實(shí)現(xiàn)噪聲的避免。

對(duì)基頻進(jìn)行調(diào)整是與時(shí)長(zhǎng)的調(diào)整相互交叉的，通過對(duì)語(yǔ)音基音同步標(biāo)記時(shí)間的間距進(jìn)行改變，從而實(shí)現(xiàn)對(duì)基頻的調(diào)整。一般情況下時(shí)長(zhǎng)和基頻的修改因子是沒有關(guān)系的，對(duì)短時(shí)分析信號(hào)就要進(jìn)行相應(yīng)的復(fù)制或者刪除。在實(shí)際情況中，時(shí)長(zhǎng)和基頻的修改都是在一步之內(nèi)同時(shí)完成的，如果時(shí)長(zhǎng)因子的倒數(shù)比較大，在進(jìn)行濁摩擦音的音高增強(qiáng)并減慢其語(yǔ)速時(shí)，會(huì)產(chǎn)生很小的噪音。對(duì)于振幅的調(diào)整，語(yǔ)音波形的幅度對(duì)應(yīng)于相應(yīng)的音強(qiáng)，改變音強(qiáng)只需要進(jìn)行加權(quán)波形數(shù)據(jù)就行，對(duì)于一些重音有變化的音節(jié)，有時(shí)也需要改變其幅度包絡(luò)。

3 蒙古語(yǔ)語(yǔ)音合成系統(tǒng)的實(shí)現(xiàn)

隨著深度學(xué)習(xí)方法的發(fā)展，基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)言模型在語(yǔ)音識(shí)別系統(tǒng)中已經(jīng)得到相應(yīng)的應(yīng)用。針對(duì)蒙古語(yǔ)語(yǔ)音識(shí)別基線系統(tǒng)，本文作了以下研究。

3.1 相關(guān)實(shí)驗(yàn)數(shù)據(jù)準(zhǔn)備

傳統(tǒng)蒙古文書寫時(shí)如果不考慮字符的發(fā)音及內(nèi)碼，只是注重外形，很容易在輸入時(shí)造成拼寫錯(cuò)誤。蒙古語(yǔ)屬于黏著語(yǔ)，詞匯的構(gòu)造形式是由詞干加后綴拼接組成，并且在一個(gè)詞干后邊可以拼接不同的后綴，這樣會(huì)形成大量意義不相同的詞。本文對(duì)發(fā)音詞典和文本語(yǔ)料庫(kù)構(gòu)建時(shí)進(jìn)行了詞干后綴分割操作，切詞前后發(fā)音詞典部分對(duì)照表如表1所示。

3.2 蒙古語(yǔ)語(yǔ)音識(shí)別基線系統(tǒng)建立

本文基于Kaldi語(yǔ)音識(shí)別開發(fā)平臺(tái)建立了蒙古語(yǔ)語(yǔ)音識(shí)別基線系統(tǒng)。首先對(duì)于提取的包含噪音干擾的語(yǔ)音特征進(jìn)行倒譜均值方差歸一化，使得特征向量的概率密度函數(shù)與無(wú)噪聲環(huán)境中計(jì)算得到的PDF更加接近，進(jìn)而降低訓(xùn)練集和測(cè)試集之間的差異性。使用線性判別分析與最大似然線性變換結(jié)合，將歸一后的上下文的高維特征進(jìn)行區(qū)分性投影，以此降低特征向量維數(shù)，保留具有分辨率的特征成分，并讓其處于對(duì)角線上，滿足對(duì)聲學(xué)模型影響最小的情況下構(gòu)建對(duì)角矩陣。

4 結(jié)束語(yǔ)

通過對(duì)蒙古語(yǔ)語(yǔ)音識(shí)別基線系統(tǒng)進(jìn)行簡(jiǎn)單的分析，對(duì)基于深度學(xué)習(xí)蒙古語(yǔ)語(yǔ)音合成技術(shù)的研究提供一定的借鑒。

參考文獻(xiàn)

[1] 王勇和.基于深度學(xué)習(xí)的蒙古語(yǔ)語(yǔ)音識(shí)別聲學(xué)模型研究[D].呼和浩特：內(nèi)蒙古大學(xué)，2018.

[2] 包春梅.基于動(dòng)詞詞干詞綴的蒙古語(yǔ)語(yǔ)音合成系統(tǒng)的研究[D].呼和浩特：內(nèi)蒙古大學(xué)，2009.

*[項(xiàng)目編號(hào)]內(nèi)蒙古民族大學(xué)科學(xué)研究項(xiàng)目。編號(hào)：NMDYB1768。中國(guó)民族語(yǔ)言文字信息技術(shù)國(guó)家民委-教育部重點(diǎn)實(shí)驗(yàn)室開放課題。

編號(hào)：KFJJ201608。