郭淑妮
摘 要 本文對(duì)蒙古語(yǔ)單元拼接語(yǔ)音合成方法進(jìn)行了探討,并基于深度學(xué)習(xí)探究了蒙古語(yǔ)的相關(guān)語(yǔ)音合成,采用了硬拼接和軟拼接相結(jié)合的方法。
關(guān)鍵詞 深度學(xué)習(xí);蒙古語(yǔ);單元拼接;語(yǔ)音合成
引言
通過對(duì)蒙古語(yǔ)中的語(yǔ)音韻律的參數(shù)進(jìn)行統(tǒng)計(jì)分析,總結(jié)出其中的韻律變化規(guī)則。使用時(shí)域基因同步疊加算法和頻域基因同步疊加算法相結(jié)合,對(duì)合成語(yǔ)音進(jìn)行韻律調(diào)整,從而提高蒙古語(yǔ)合成語(yǔ)音的自然度,在拼接算法上采用的是硬拼接和軟拼接相結(jié)合的方法,從而達(dá)到更好的語(yǔ)音合成效果。
1 語(yǔ)音合成方法
按照現(xiàn)代擁有的技術(shù)手段,語(yǔ)音合成方法主要分為參數(shù)合成法和波形拼接合成法。參數(shù)合成法也是一種比較復(fù)雜的分析合成法,它是基于音節(jié)和音素為合成單位,對(duì)合成單元進(jìn)行相應(yīng)的語(yǔ)音分析,并提取出相應(yīng)的特征參數(shù),經(jīng)過編碼后形成相應(yīng)的語(yǔ)音庫(kù)。使用該方法進(jìn)行語(yǔ)音合成時(shí),是根據(jù)需要合成語(yǔ)音的信息從語(yǔ)音庫(kù)中提出相應(yīng)的合成參數(shù),它是對(duì)人的發(fā)音過程進(jìn)行直接的模擬。
波形拼接合成法是基于基因同步疊加算法而實(shí)現(xiàn),它的合成單位包括語(yǔ)句、短語(yǔ)和音節(jié)等單位,不同于傳統(tǒng)的將不同的語(yǔ)音單元進(jìn)行簡(jiǎn)單的拼接,這種方法需要使用大量的語(yǔ)言庫(kù),在語(yǔ)音庫(kù)中選擇出最合適的語(yǔ)音單元進(jìn)行拼接,這期間會(huì)涉及許多復(fù)雜的技術(shù),一般包括統(tǒng)計(jì)學(xué)技術(shù)和神經(jīng)網(wǎng)絡(luò)技術(shù),在最后拼接時(shí)采用的是PSOLA算法,修改合成語(yǔ)音的韻律特征,經(jīng)過相應(yīng)的解碼之后進(jìn)行語(yǔ)音輸出,這種技術(shù)也是目前語(yǔ)音合成的主流技術(shù)[1]。
2 基于時(shí)域基因同步和頻域基因同步疊加算法相結(jié)合進(jìn)行韻律調(diào)整
2.1 時(shí)域基因同步和頻域基因同步疊加算法介紹
TD-PSOLA算法是PSOLA中較為簡(jiǎn)單并且計(jì)算效率最高的一個(gè)版本。通過把相應(yīng)的分析信號(hào)在時(shí)間軸上進(jìn)行移位,就能夠得到這種算法。在這個(gè)過程中省去了對(duì)短時(shí)信號(hào)的頻域變換,對(duì)某些短時(shí)分析信號(hào)只是進(jìn)行簡(jiǎn)單的刪除或者重復(fù),通過對(duì)分析信號(hào)間同步標(biāo)記的距離進(jìn)行改變,來改變其基頻,在實(shí)時(shí)系統(tǒng)中得到廣泛的應(yīng)用[2]。
關(guān)于FD-PSOLA算法,其最終合成信號(hào)是通過對(duì)分析信號(hào)進(jìn)行頻域變換和反變換后得到的。通過使用傅里葉變換求出相應(yīng)的短時(shí)分析信號(hào)的短時(shí)譜以及譜包絡(luò),在匹配合成基頻時(shí)需要對(duì)兩個(gè)譜進(jìn)行相應(yīng)的修改。
2.2 基于TD-PSOLA和FD-PSOLA算法結(jié)合的韻律調(diào)整
把時(shí)長(zhǎng)修改因子作為常數(shù),根據(jù)時(shí)長(zhǎng)因子對(duì)短時(shí)信號(hào)數(shù)量進(jìn)行增加刪除就可以。選擇適當(dāng)?shù)男薷囊蜃硬粫?huì)造成太大的噪聲,對(duì)于大于等于2的修改因子,其會(huì)造成清音的短時(shí)相關(guān),這樣聽起來會(huì)有噪聲的感覺。在實(shí)際應(yīng)用過程中,可以采用將時(shí)軸的重復(fù)部分進(jìn)行部分倒置的方法來解決,如果要使用較大的修改因子則可以結(jié)合FD-PSOLA算法來實(shí)現(xiàn)噪聲的避免。
對(duì)基頻進(jìn)行調(diào)整是與時(shí)長(zhǎng)的調(diào)整相互交叉的,通過對(duì)語(yǔ)音基音同步標(biāo)記時(shí)間的間距進(jìn)行改變,從而實(shí)現(xiàn)對(duì)基頻的調(diào)整。一般情況下時(shí)長(zhǎng)和基頻的修改因子是沒有關(guān)系的,對(duì)短時(shí)分析信號(hào)就要進(jìn)行相應(yīng)的復(fù)制或者刪除。在實(shí)際情況中,時(shí)長(zhǎng)和基頻的修改都是在一步之內(nèi)同時(shí)完成的,如果時(shí)長(zhǎng)因子的倒數(shù)比較大,在進(jìn)行濁摩擦音的音高增強(qiáng)并減慢其語(yǔ)速時(shí),會(huì)產(chǎn)生很小的噪音。對(duì)于振幅的調(diào)整,語(yǔ)音波形的幅度對(duì)應(yīng)于相應(yīng)的音強(qiáng),改變音強(qiáng)只需要進(jìn)行加權(quán)波形數(shù)據(jù)就行,對(duì)于一些重音有變化的音節(jié),有時(shí)也需要改變其幅度包絡(luò)。
3 蒙古語(yǔ)語(yǔ)音合成系統(tǒng)的實(shí)現(xiàn)
隨著深度學(xué)習(xí)方法的發(fā)展,基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)言模型在語(yǔ)音識(shí)別系統(tǒng)中已經(jīng)得到相應(yīng)的應(yīng)用。針對(duì)蒙古語(yǔ)語(yǔ)音識(shí)別基線系統(tǒng),本文作了以下研究。
3.1 相關(guān)實(shí)驗(yàn)數(shù)據(jù)準(zhǔn)備
傳統(tǒng)蒙古文書寫時(shí)如果不考慮字符的發(fā)音及內(nèi)碼,只是注重外形,很容易在輸入時(shí)造成拼寫錯(cuò)誤。蒙古語(yǔ)屬于黏著語(yǔ),詞匯的構(gòu)造形式是由詞干加后綴拼接組成,并且在一個(gè)詞干后邊可以拼接不同的后綴,這樣會(huì)形成大量意義不相同的詞。本文對(duì)發(fā)音詞典和文本語(yǔ)料庫(kù)構(gòu)建時(shí)進(jìn)行了詞干后綴分割操作,切詞前后發(fā)音詞典部分對(duì)照表如表1所示。
3.2 蒙古語(yǔ)語(yǔ)音識(shí)別基線系統(tǒng)建立
本文基于Kaldi語(yǔ)音識(shí)別開發(fā)平臺(tái)建立了蒙古語(yǔ)語(yǔ)音識(shí)別基線系統(tǒng)。首先對(duì)于提取的包含噪音干擾的語(yǔ)音特征進(jìn)行倒譜均值方差歸一化,使得特征向量的概率密度函數(shù)與無(wú)噪聲環(huán)境中計(jì)算得到的PDF更加接近,進(jìn)而降低訓(xùn)練集和測(cè)試集之間的差異性。使用線性判別分析與最大似然線性變換結(jié)合,將歸一后的上下文的高維特征進(jìn)行區(qū)分性投影,以此降低特征向量維數(shù),保留具有分辨率的特征成分,并讓其處于對(duì)角線上,滿足對(duì)聲學(xué)模型影響最小的情況下構(gòu)建對(duì)角矩陣。
4 結(jié)束語(yǔ)
通過對(duì)蒙古語(yǔ)語(yǔ)音識(shí)別基線系統(tǒng)進(jìn)行簡(jiǎn)單的分析,對(duì)基于深度學(xué)習(xí)蒙古語(yǔ)語(yǔ)音合成技術(shù)的研究提供一定的借鑒。
參考文獻(xiàn)
[1] 王勇和.基于深度學(xué)習(xí)的蒙古語(yǔ)語(yǔ)音識(shí)別聲學(xué)模型研究[D].呼和浩特:內(nèi)蒙古大學(xué),2018.
[2] 包春梅.基于動(dòng)詞詞干詞綴的蒙古語(yǔ)語(yǔ)音合成系統(tǒng)的研究[D].呼和浩特:內(nèi)蒙古大學(xué),2009.
*[項(xiàng)目編號(hào)]內(nèi)蒙古民族大學(xué)科學(xué)研究項(xiàng)目。編號(hào):NMDYB1768。中國(guó)民族語(yǔ)言文字信息技術(shù)國(guó)家民委-教育部重點(diǎn)實(shí)驗(yàn)室開放課題。
編號(hào):KFJJ201608。