亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        多項(xiàng)式函數(shù)擬合實(shí)現(xiàn)漢語聲調(diào)的語音合成

        2021-08-06 02:32李建文王咿卜
        關(guān)鍵詞:聲調(diào)漢語情感

        李建文 王咿卜

        摘 要:漢語語音的聲調(diào)是個(gè)人語氣與情感狀態(tài)最直接的表達(dá),是體現(xiàn)漢語語言狀態(tài)最重要的特征之一。為了使得語音合成的逼真度得到有效的提高,講話者的話語更加具有區(qū)分度,通過加入聲調(diào)參數(shù)特征實(shí)現(xiàn)語音語調(diào)變換,以期成為情感識(shí)別和語音識(shí)別的準(zhǔn)確度最有力的助推劑,彌補(bǔ)語音合成結(jié)果在情感特征以及語音演唱方面的不足。分別對(duì)漢語陰平、陽平、上聲、去聲采用基頻提取的方式進(jìn)行聲調(diào)的分析、研究,將得到的基頻曲線采用多項(xiàng)式函數(shù)擬合的方法對(duì)漢語4種聲調(diào)進(jìn)行重新構(gòu)建,從數(shù)學(xué)角度對(duì)漢語聲調(diào)進(jìn)行分析、重構(gòu),采用三角函數(shù)曲線模擬隨時(shí)間變化的語音基頻曲線,根據(jù)共振峰頻率將曲線進(jìn)行疊加,達(dá)到了95.91%的滿意的識(shí)別結(jié)果。結(jié)果表明:采用多項(xiàng)式函數(shù)擬合方法實(shí)現(xiàn)漢語4種聲調(diào)的語音合成,更好地還原了語音的數(shù)學(xué)本質(zhì),使得抽象化的語音表現(xiàn)得更直觀可控。

        關(guān)鍵詞:語音合成;函數(shù)擬合;基頻提取;漢語;聲調(diào);情感

        中圖分類號(hào):TN 912.33

        文獻(xiàn)標(biāo)志碼:A

        文章編號(hào):1672-9315(2021)03-0506-10

        DOI:10.13800/j.cnki.xakjdxxb.2021.0316

        Abstract:The tone of Chinese speech is the most direct expression of personal mood and emotional state,and it is one of the most important characteristics of the state of Chinese language.In order to effectively improve the fidelity of speech synthesis and make the speakers speech more distinguishable,the tone transformation is realized by adding tone parameter features,so as to become the most powerful booster for the accuracy of emotion recognition and speech recognition,and to make up for the shortcomings of speech synthesis results in emotion features and voice singing.The high and level tone,rising tone,falling-rising tone and falling tone of Standard Chinese are analyzed and examined by the way of fundamental frequency extraction.Finally,the method of polynomial function fitting is used to reconstruct the four tones of Chinese.The four tones are analyzed and reconstructed mathematically.Trigonometric function curve is used to simulate the fundamental frequency curves of Chinese tones with time.According to the formant frequency,the curves are superposed with the recognition result 95.91%.The synthesis results show that:the polynomial function fitting method may be used to realize speech synthesis of four tones in Chinese,which can better restore the mathematical nature of the voice and make the abstract speech more intuitive and controllable.Key words:speech synthesis;function fitting;fundamental frequency extraction;Chinese;tone;emotion

        0 引 言

        語音是人與人傳遞信息和表達(dá)情感最有效的方式之一。中國(guó)漢字大約有十萬個(gè),是一種獨(dú)特的聲調(diào)表意語言[1-2]。在計(jì)算機(jī)對(duì)字符進(jìn)行編碼過程中,漢字在眾多語言中所占存儲(chǔ)空間最大,導(dǎo)致編碼過程中極為不便,但若從拼音角度出發(fā),按不同聲調(diào)對(duì)漢字進(jìn)行歸類,卻可以把漢字?jǐn)?shù)目縮減到約原始容量的1/4,極大的縮減了工作量且保證了語音的逼真度。在如今人工智能高速發(fā)展的時(shí)代,語音識(shí)別及語音合成要做的不僅是算法準(zhǔn)確度的提高,更應(yīng)該注重其智能化和逼真度[3-4]。語音識(shí)別與合成的結(jié)果固然重要,但忽略了不同情景下語音相關(guān)合適聲調(diào)的選擇,就難以真正實(shí)現(xiàn)智能化。個(gè)性化的語音合成,需要把話語中聲調(diào)所表達(dá)的情感狀態(tài)作為考察的特征之一[5-8]。同樣的語言,不同環(huán)境、情緒,會(huì)使語音發(fā)出者使用不同聲調(diào)。在醫(yī)學(xué)中,針對(duì)聽力障礙者推出的人工耳蝸產(chǎn)品也并未考慮聲調(diào)、語調(diào)等特征的感知[1-2]。因此,從數(shù)學(xué)角度出發(fā),考慮漢語4種聲調(diào)的特征參數(shù)以及之間參數(shù)的變換很有必要。

        劉夢(mèng)媛設(shè)計(jì)了基于HMM的語音合成系統(tǒng),選取緬甸語事物聲母及帶聲調(diào)事物韻母作為合成基元,解決了變音和變調(diào)問題[9];王國(guó)梁設(shè)計(jì)了端到端的語音合成系統(tǒng)Tacotron 2,在語料不足的情況下使用預(yù)訓(xùn)練解碼器,并通過多層感知機(jī)代替變線性變化對(duì)停止符進(jìn)行預(yù)測(cè)[10];宋剛基于Target模型進(jìn)行語調(diào)分析,總結(jié)了4種聲調(diào)的基頻曲線變化規(guī)律,采用分段擬合方法,將各個(gè)聲調(diào)分為兩段來研究,擬合過程中所需特征參數(shù)有各段音調(diào)的斜率、音高變化的調(diào)域及所占時(shí)間[11];薛健采用線性多項(xiàng)式進(jìn)行聲調(diào)模型的構(gòu)建,主要從歸一化的規(guī)范模型出發(fā),建模的參數(shù)需要從原始語音得到中值頻率、不同音調(diào)基頻變化的調(diào)域、同一音調(diào)但調(diào)型不同的變化調(diào)域[12]。上述研究中,前兩者基于深度學(xué)習(xí)進(jìn)行語音合成,但深度學(xué)習(xí)需要極大容量語料包,過程繁瑣,且失去了對(duì)語音音調(diào)的數(shù)理本質(zhì)的探究,而基于Tacotron的方法現(xiàn)在更適合對(duì)英語的處理,目前對(duì)漢語等多文字的語言應(yīng)用尚不成熟。后2篇論文從基頻軌跡出發(fā),討論了基頻曲線與漢語4種音調(diào)的關(guān)系,并未涉及到基頻軌跡擬合4種聲調(diào)在語音合成方面的實(shí)際應(yīng)用。文中研究旨在從漢語4種聲調(diào)的角度出發(fā),基于歸一化模型的思想,研究并提取漢語4種聲調(diào)基頻軌跡之間的共性,采用高次多項(xiàng)式對(duì)其進(jìn)行擬合,最終以函數(shù)形式實(shí)現(xiàn)一種音高和音長(zhǎng)變化可控、所需參數(shù)少且適應(yīng)于各種發(fā)音的聲調(diào)變換模型,以期在語音合成、情感分析領(lǐng)域?qū)φZ音逼真度和情感度的提高方面提供參考,以及在醫(yī)學(xué)領(lǐng)域?qū)θ斯ざ伒臉?gòu)造和聲調(diào)康復(fù)訓(xùn)練方面提供參考[1]。

        1 漢語聲調(diào)規(guī)范

        1.1 發(fā)音原理

        聲音的形成,主要由肺、氣管、喉和聲道等器官參與,語音發(fā)音原理如圖1所示??諝馔ㄟ^肺器官輸出直流氣流,產(chǎn)生發(fā)音的動(dòng)力,進(jìn)入喉,喉部位的聲帶作為聲源,產(chǎn)生振動(dòng),輸出交流氣流,再通過聲道對(duì)交流氣流產(chǎn)生諧振,對(duì)聲音進(jìn)行調(diào)整,從聲道輸出的速度波最終經(jīng)過口唇輻射輸出聲壓波,產(chǎn)生了人耳中聽到的聲音[8]。

        從圖1可得,聲音的發(fā)出主要是由聲帶周期性的振動(dòng)產(chǎn)生。無論是漢語還是其他語言,語音都可按照聲帶的參與分為濁音和清音。濁音的發(fā)出伴隨著聲帶的振動(dòng),清音是氣流與空氣摩擦產(chǎn)生,沒有聲帶振動(dòng)的參與,因此,從濁音角度出發(fā)進(jìn)行語音聲調(diào)研究。

        1.2 五度制音高標(biāo)記

        語言之所以能夠體現(xiàn)人類的情感,最主要的特征就在于說話人對(duì)于聲音聲調(diào)的選擇。相同的話語,不同的抑揚(yáng)頓挫也會(huì)使得情感的偏重點(diǎn)有所差別。雖然每個(gè)人說話的腔調(diào)與講話節(jié)奏都不同,但相同聲調(diào)在走向上都是大體一致的,拼音ɑ和拼音o的4種聲調(diào)的語音頻譜圖(稱語譜圖),如圖2、圖3所示。

        a1,a2,a3,a4分別代表拼音ɑ一聲、二聲、三聲、四聲。

        o1,o2,o3,o4分別代表拼音o一聲、二聲、三聲、四聲。

        將圖2和圖3相同的音調(diào)進(jìn)行對(duì)比,可以看出相同音調(diào)語譜圖的曲線走向大致相同。在漢語中,普通話可以按照聲調(diào)分為4種,分別是陰平、陽平、上聲、去聲4種音調(diào)[11]。漢語的五度制音高標(biāo)記法,如圖4所示。

        從圖4可以看出,五度最高,一度最低,根據(jù)聲調(diào)的不同,選擇的音高也不同,每個(gè)漢語都有其對(duì)應(yīng)的音調(diào),即相應(yīng)的音高走向,但相同音調(diào)曲線走向具有同樣的共性。

        1.3 基頻

        在分析語音信號(hào)時(shí),主要考察2個(gè)重要的參數(shù),其中之一為基頻。已知聲音的發(fā)聲源是由聲帶的周期性振動(dòng)產(chǎn)生,聲帶一次的開啟與閉合稱為一個(gè)周期,這種周期的倒數(shù)稱為基音頻率(簡(jiǎn)稱基頻)[8,13-14],人們所說的聲調(diào)指的是基頻關(guān)于時(shí)間的曲線。在語譜圖上,橫坐標(biāo)為時(shí)間,縱坐標(biāo)為頻率,基頻指的是位置最低的一條橫線對(duì)應(yīng)的縱坐標(biāo)的值,該值稱為基音頻率[15-17]。

        提取基頻,首先對(duì)語音信號(hào)進(jìn)行加窗與分幀的處理,連續(xù)信號(hào)被分為時(shí)域離散信號(hào),m為起始時(shí)間量,得到第i幀的語音信號(hào)為xi(m),長(zhǎng)度為M,對(duì)第i幀的語音信號(hào)xi(m)進(jìn)行自相關(guān)運(yùn)算[17-18],得到Ri(k),見式(1)。

        式中 k為時(shí)間的延遲量;N為語音信號(hào)經(jīng)過分幀處理后每一幀的長(zhǎng)度;xi(m+k)為移位k步的語音信號(hào)。

        已知周期性函數(shù)進(jìn)行自相關(guān)計(jì)算后,得到的函數(shù)同樣具有周期性,一個(gè)周期內(nèi)自相關(guān)函數(shù)圖像為遞增函數(shù),在周期的整倍數(shù)位置處獲得最大值[18-20]。由于語音信號(hào)的基頻具有周期性,周期值為P,因此采用自相關(guān)計(jì)算得到的函數(shù)也具有周期性,周期仍為P,且在P的整倍數(shù)位置處自相關(guān)函數(shù)會(huì)達(dá)到最大值max(Ri(k)),見式(2)、式(3)。

        從式(3)知,當(dāng)k=0時(shí),R(P)為最大值[18]。根據(jù)這一原理,采用式(1)進(jìn)行對(duì)語音信號(hào)進(jìn)行自相關(guān)函數(shù)運(yùn)算,在R(k)中通過尋找最大值的周期性來確定每一幀語音信號(hào)的周期值P[15]。

        1.4 共振峰

        語音信號(hào)另一個(gè)重要的參數(shù)為共振峰。在發(fā)音過程中,基頻由聲帶振動(dòng)產(chǎn)生,由于傳輸?shù)铰暤腊l(fā)生諧振會(huì)產(chǎn)生各次諧波,這些諧波同一時(shí)刻所對(duì)應(yīng)的頻率值為相應(yīng)基頻的整倍數(shù)[8]。在語譜圖上,各次諧波有亮有暗,亮區(qū)域的波對(duì)應(yīng)的頻率值便是共振峰的頻率值[16]。從圖1可知,當(dāng)不考慮口唇輻射作用時(shí),語音信號(hào)是由n時(shí)刻的聲門脈沖激勵(lì)u(n)(即基頻的周期信號(hào))經(jīng)聲道響應(yīng)v(n)濾波得到,即

        由式(5)可得,在倒譜域中,聲門脈沖激勵(lì)與聲道響應(yīng)兩者相分離[21-22]。為了提取共振峰,采用倒譜法來獲取共振峰的頻率值,具體操作如下。

        x(n)是一個(gè)長(zhǎng)度為M的語音信號(hào),將第i幀的語音信號(hào)xi(n)進(jìn)行N點(diǎn)傅里葉變換得式(6)

        將式(8)中的窗函數(shù)與倒譜序列(n) 相乘得到hi(n),見式(9),再進(jìn)行FFT變換得到Hi(k)包絡(luò)線,見式(10),N為傅里葉變化的區(qū)間長(zhǎng)度 N≥M,在包絡(luò)線上取最大值,即得共振峰頻率值[22-24]。

        某一幀信號(hào)進(jìn)行共振峰提取步驟,如圖5所示。最終獲得的一聲拼音ɑ語音包絡(luò)線,如圖6所示,虛線對(duì)應(yīng)的橫坐標(biāo)的值為共振峰頻率。

        2 四聲聲調(diào)分析

        2.1 聲調(diào)提取

        從圖2、圖3可以看出,語音的聲調(diào)由基頻曲線的頻率走向決定,因此采用基頻提取的方式對(duì)聲調(diào)進(jìn)行分析。實(shí)際情況下提取出來拼音ɑ的4種聲調(diào)基頻散點(diǎn)圖,如圖7所示。

        從圖4與圖7對(duì)比可得,實(shí)際情況下提取出來的四聲調(diào)散點(diǎn)圖與理論上的音高走向差異很大。主要區(qū)別有以下幾點(diǎn):

        1)陰平聲調(diào)的基頻走向并不是簡(jiǎn)單的直線,在開始與結(jié)束位置存在小幅度的起伏變換。

        2)實(shí)際情況下,陽平聲調(diào)的基頻變化值由起初F0·45到最終F0,與理論上F0·35到F0不同。曲線趨勢(shì)分為上升段與下降段,拐點(diǎn)更接近前端[11]。

        3)實(shí)際情況下,上聲聲調(diào)的基頻變化值由起初F0·35到F0·15再到最終F0,與理論上F0到F0·15不同。曲線趨勢(shì)分為上升段和下降段,拐點(diǎn)位置居中,其幅度變化比陽平變化幅度大[11]。

        4)實(shí)際情況下,去聲聲調(diào)的基頻變化值由起初F0·65到最終F0·35,與理論上F0·25到 F0·15再到F0·35不同。曲線趨勢(shì)變化快,時(shí)間短。

        為了使得2.2節(jié)的語音合成更具有逼真性,根據(jù)理論與實(shí)際相結(jié)合的方式進(jìn)行語音聲調(diào)的函數(shù)擬合。

        2.2 聲調(diào)擬合

        2.2.1 函數(shù)最高次數(shù)選擇

        為了使得擬合曲線更接近實(shí)際情況下的聲調(diào),采用n次多項(xiàng)式對(duì)實(shí)際情況下提取出來的各個(gè)音調(diào)基頻進(jìn)行擬合。

        式中 yl為第l音調(diào)的擬合結(jié)果(l=1為陰平,l=2為陽平,l=3為上聲,l=4為去聲);i為次數(shù);ai為次數(shù)為i次的系數(shù);x為時(shí)間序列;ai為x的系數(shù)。

        對(duì)于次數(shù)n,由多項(xiàng)式性質(zhì)可得,當(dāng)n選擇越高,函數(shù)擬合效果越好,誤差越小,但過高會(huì)導(dǎo)致過擬合越來越嚴(yán)重。為了防止過擬合且保證有較小的誤差,統(tǒng)一采用相同的有限次數(shù)對(duì)4種聲調(diào)進(jìn)行擬合。在4種聲調(diào)中,由于上聲聲調(diào)的基頻曲線變化最復(fù)雜,因此選擇上聲調(diào)為例進(jìn)行不同次數(shù)擬合,表1為多項(xiàng)式不同次數(shù)擬合結(jié)果。

        綜合分析各種次數(shù)的擬合結(jié)果,確定了當(dāng)次數(shù)n大于等于4時(shí)擬合效果較好,由于當(dāng)n大于4時(shí),各項(xiàng)次數(shù)的系數(shù)值過于大,基本在e+04以上,且擬合效果的提高程度很小。因此,在擬合函數(shù)時(shí),選擇n=4來進(jìn)行函數(shù)擬合,不僅可以有效的保證了聲調(diào)的匹配程度,而且簡(jiǎn)化了參數(shù),減小了運(yùn)算量。不同拼音的四聲調(diào)走向有其共性,選擇n=4來進(jìn)行擬合,也可以更好的使擬合函數(shù)適應(yīng)不同的語音,避免過擬合。

        2.2.2 函數(shù)系數(shù)

        由于采用多項(xiàng)式函數(shù)進(jìn)行曲線擬合,因此在擬合過程中,采用最小二乘法進(jìn)行n次擬合。

        2.2.3 擬合步驟

        由于語音波形可以分解為多個(gè)三角函數(shù),同樣,也可以經(jīng)過三角函數(shù)的疊加構(gòu)成語音波形。三角函數(shù)的頻率為基頻,其各次諧波為基頻的整倍數(shù)級(jí),三角函數(shù)的幅值為基頻及各次諧波的強(qiáng)度,由此,進(jìn)行曲線擬合,如圖8所示。

        根據(jù)圖8流程,可將聲調(diào)合成分為以下幾步:

        1)將獲取的基頻連續(xù)曲線y(t)進(jìn)行預(yù)處理,首先對(duì)聲調(diào)經(jīng)過分幀處理,得到離散點(diǎn),初始橫軸位置為n0,聲調(diào)頻率最高位置為y0,將曲線移至橫軸初始位置y(n-n0),為使得擬合函數(shù)統(tǒng)一并且方便處理,將曲線縱軸初始位置設(shè)置為0,即y(n-n0)-y0,得y0(n)。

        2)為了使擬合函數(shù)能夠根據(jù)實(shí)際情況進(jìn)行音高控制,將得到的n時(shí)刻的y0(n)進(jìn)行歸一化,讓曲線的頻率最高值為1,最低點(diǎn)為0。根據(jù)式(15)得y1(n)。

        3)對(duì)y1(n)采用二項(xiàng)式定理確定多項(xiàng)式的系數(shù),得到擬合函數(shù)。

        4)由于音調(diào)的頻率變化差值較大,因此需要對(duì)擬合函數(shù)進(jìn)行縱軸的擴(kuò)頻以實(shí)現(xiàn)真實(shí)的幅度變化,通過獲取原始語音的音高差

        max(y(n))-min(y(n))來對(duì)擬合函數(shù)進(jìn)行擴(kuò)頻,以實(shí)現(xiàn)正確的音高變化,見式(16)得到y(tǒng)3(n)。

        5)擴(kuò)頻之后的擬合函數(shù)y3(n)與實(shí)際曲線y(n)的音高仍存在差異,因此要通過移位使得擬合函數(shù)的初始頻率達(dá)到原始音頻的初始頻率,由擬合函數(shù)y3(n)的中值頻率y3c與實(shí)際曲線y(n)的頻率中值yc的差值決定移位量,更好的保證了合成的基頻曲線不受原始語音基頻兩端不穩(wěn)定點(diǎn)的影響。最終由式(17)得到擬合結(jié)果y41。

        將擬合結(jié)果進(jìn)行語音參數(shù)讀取,得到聲調(diào)變化的時(shí)域信息(初始位置為t0,結(jié)束位置為t1),采用矩形窗進(jìn)行時(shí)域截取,見式(18)。為了使得聲調(diào)變化時(shí)長(zhǎng)可控,設(shè)最終發(fā)音時(shí)長(zhǎng)為t2,fs為采樣率,N為語音信號(hào)分幀后的長(zhǎng)度,進(jìn)行擴(kuò)展最終得到y(tǒng)4(n),見式(19)。

        2.2.4 Pitch模型

        通過上述步驟依次可得4種聲調(diào)的擬合函數(shù)模型的參數(shù)分布及擬合結(jié)果,見表2。

        從表2可得,陰平的基頻曲線變化幅度較小,陽平次之,上聲和去聲的基頻曲線變化幅度較大。根據(jù)最終得到確定系數(shù)與極限值1相比可得,4次所多項(xiàng)式進(jìn)行語音基頻擬合方法可行。

        3 實(shí)驗(yàn)及結(jié)果

        根據(jù)表2中4種聲調(diào)的擬合函數(shù)參數(shù),令發(fā)音時(shí)長(zhǎng)為1,基頻的頻率最大值為300 Hz,最終得到4種聲調(diào)基頻發(fā)音曲線,如圖9所示。

        從圖9(a)可得,陰平的曲線在實(shí)際情況下并不是單一的直線,在最高頻率300 Hz時(shí),有較小幅度的波動(dòng)。圖9(b)中陽平的基頻曲線有拐點(diǎn),拐點(diǎn)之前為斜率遞增,拐點(diǎn)之后斜率遞減。圖9(c)中上聲的基頻曲線有拐點(diǎn),拐點(diǎn)之前為斜率遞減,拐點(diǎn)之后斜率遞增。圖9(d)中去聲基頻曲線在發(fā)音中間階段先有小幅度的頻率波動(dòng)。

        由文中2.2.2知,語音可以經(jīng)過多個(gè)三角函數(shù)疊加構(gòu)成,見式(20)。

        式中 Amp(Amplitude)為幅度,控制聲音的響度,w為聲帶振動(dòng)頻率,t為時(shí)間,φ控制聲音發(fā)音時(shí)間的移位。由于w=2·π·f,f為基頻周期。則式(21)變化為如下函數(shù)。

        在語音合成過程中,要實(shí)現(xiàn)聲調(diào)控制,需要將固定的聲帶振動(dòng)頻率即式(20)中的定值w變?yōu)殡S著時(shí)間有相應(yīng)聲調(diào)起伏變化的函數(shù),即y1(n),實(shí)驗(yàn)合成語音選取的采樣頻率為8 kHz,因此在合成過程中,時(shí)間的間隔n值非常小,即離散的采樣取值可以等效為連續(xù)時(shí)間變化

        式中 yl(t),l=1,2,3,4為式(12)中4種聲調(diào)擬合函數(shù);k為基頻的整倍數(shù)級(jí);2·π·k·yl(t)為共振峰頻率。

        根據(jù)上式(22)最終從數(shù)學(xué)原理角度出發(fā)實(shí)現(xiàn)了帶有音調(diào)控制的語音合成。經(jīng)過Adobe Audition的分析,原聲和合成的拼音ɑ的4種音調(diào)的語譜對(duì)比,如圖10,11,12,13所示。(左側(cè)為原聲語譜圖,右側(cè)為合成語音語譜圖)。

        從處理結(jié)果看,由于現(xiàn)實(shí)情況下,人受身體狀態(tài)與發(fā)音器官構(gòu)造的差異,使得語音的發(fā)出在語譜圖上會(huì)呈現(xiàn)一些有干擾的陰影,影響發(fā)音效果[3]。對(duì)于越標(biāo)準(zhǔn)的發(fā)音,基頻與共振峰曲線越清晰,存在的陰影越少。為合成清晰度高、干擾小的語音,采用函數(shù)擬合方法可以很好的去除外界對(duì)發(fā)音的影響,使得發(fā)音結(jié)果更標(biāo)準(zhǔn)。圖10,11,12,13對(duì)應(yīng)的一聲、二聲、三聲聲調(diào)都能夠得到很好的擬合結(jié)果,而四聲調(diào)存在偏差是因?yàn)樵趯?shí)際情況下,基頻的變化不是從剛開始就下降,一般先保持一段水平進(jìn)而開始走低,由于這段水平發(fā)音時(shí)間很短且保持一聲,因此在進(jìn)行函數(shù)擬合時(shí),可以利用平緩的下降來進(jìn)行擬合,得到擬合結(jié)果。

        現(xiàn)在大部分考慮聲調(diào)的語音合成系統(tǒng),主要采用Target模型及二次曲線擬合方法。在該模型中,4種聲調(diào)被簡(jiǎn)單地劃分為斜率為零、上聲、下降不同且變化趨勢(shì)單一的直線,結(jié)合二次曲線計(jì)算基頻曲線拐點(diǎn)位置進(jìn)行擬合[11]。由于三聲調(diào)曲線變化最復(fù)雜,因此以三聲調(diào)為例進(jìn)行實(shí)驗(yàn)對(duì)比,拼音ɑ上聲的原聲和以Target模型為基礎(chǔ)的語音合成結(jié)果,如圖14所示。對(duì)于拼音ɑ上聲采用高次多項(xiàng)式和以Target模型為基礎(chǔ)的語音合成結(jié)果,如圖15所示。

        從圖14,圖15可以看出,由于語調(diào)曲線變化不是單一的,而是變化復(fù)雜且拐點(diǎn)較多,因此采用高次多項(xiàng)式,較以Target模型為基礎(chǔ)進(jìn)行帶語調(diào)的語音合成結(jié)果得到的擬合效果更好。

        利用支持向量機(jī)的方法對(duì)聲調(diào)擬合參數(shù)進(jìn)行訓(xùn)練、分類,最終得到2種方法關(guān)于4種聲調(diào)的識(shí)別結(jié)果,見表3。

        從表3可知,對(duì)于陰平和去聲來說,由于2種聲調(diào)的基頻變化曲線都是單一的,因此2種方法的識(shí)別率幾乎沒有差別,而對(duì)于陽平與上聲音調(diào)來說,采用多項(xiàng)式進(jìn)行基頻曲線擬合效果更好,總體識(shí)別率也更高。雖然采用多項(xiàng)式曲線擬合方法進(jìn)行轉(zhuǎn)換之后,陽平和上聲較陰平和去聲識(shí)別結(jié)果的正確率較低。但總體上看,此曲線擬合技術(shù)已經(jīng)可以達(dá)到使用的效果。

        4 結(jié) 論

        1)語音發(fā)音2個(gè)重要的參數(shù):基頻和共振峰。對(duì)語音的某一幀頻率值進(jìn)行自相關(guān)運(yùn)算,在周期P處存在極大值。基頻值采用自相關(guān)運(yùn)算求極大值方法求得。共振峰的頻率值可根據(jù)倒譜法求得。

        2)4種語調(diào)的基頻曲線在實(shí)際情況下,一聲語調(diào)存在波形變化,二聲與三聲語調(diào)基頻與五度制音高標(biāo)記法描述的音高走向不同,拐點(diǎn)更接近前端,四聲語調(diào)基頻下降趨勢(shì)更快,時(shí)間更短。

        3)采用多項(xiàng)式進(jìn)行基頻曲線擬合,選擇四階多項(xiàng)式擬合與原始曲線相似度可達(dá)到97.98%,同時(shí)避免了曲線過擬合。

        4)對(duì)發(fā)音的數(shù)學(xué)原理進(jìn)行分析,提取了語音的基頻以及共振峰2個(gè)重要參數(shù),最終通過三角函數(shù)的疊加以及4種音調(diào)的控制實(shí)現(xiàn)了聲調(diào)可控的語音合成。相比傳統(tǒng)的基頻提取,文中能夠通過函數(shù)擬合來靈活調(diào)整語調(diào),相比機(jī)器學(xué)習(xí),文中方法對(duì)語料包的要求更低。經(jīng)過驗(yàn)證,達(dá)到了95.91%的識(shí)別率。對(duì)于今后語音合成、情感分析、語音識(shí)別的智能化、準(zhǔn)確度有很好的參考價(jià)值,對(duì)探究發(fā)音的數(shù)學(xué)原理有參考意義。

        參考文獻(xiàn)(References):

        [1] 亓貝爾,古鑫,劉子夜,等.漢語普通話人工耳蝸使用者對(duì)聲調(diào)識(shí)別的分析研究[J].中國(guó)耳鼻咽喉頭頸外科,2017,24(4):175-179.

        QI Beier,GU Xin,LIU Ziye,et al.Lexical tone perception in native-mandarin cochlear implant users[J].Chinese Archives of Otolaryngology-Head and Neck Surgery,2017,24(4):175-179.[2]楊麗萍,盧嶺,劉莉,等.人工耳蝸使用者漢語聲調(diào)感知與音樂感知相關(guān)性研究[J].中華耳科學(xué)雜志,2019,17(6):905-909.YANG Liping,LU Ling,LIU Li,et al.Lexical tone perception and melodic pitch perception in mandarin-speaking cochlear implant users[J].Chinese Journal of Otology,2019,17(6):905-909.[3]張丹烽,李冠宇,趙英娣.語音合成技術(shù)發(fā)展綜述與研究現(xiàn)狀[J].科技風(fēng),2017,328(22):78

        -79.ZHANG Danfeng,LI Guanyu,ZHAO Yingdi.The development and research status of speech synthesis technology[J].Technology Wind,2017,328(22):78-79.[4]王劍輝,姜龍濱,穆寶良.關(guān)于MEDLINE-Abstracts文獻(xiàn)的語法規(guī)則的構(gòu)建與實(shí)現(xiàn)[J].西安科技大學(xué)學(xué)報(bào),2007,27(1):111-114.WANG Jianhui,JIANG Longbin,MU Baoliang.Construction and implementation of grammatical rules for processing of the English sublanguage of MEDLINE-Abstracts[J].Journal of Xian University of Science and Technology,2007,27(1):111-114.[5] LUO X,LAUREN H.Vibrotactile stimulation based on the fundamental frequency can improve melodic contour identification of normal-hearing listeners with a 4-Channel cochlear implant simulation.[J].Frontiers in neuroscience,2019,13(10):1145-1158.[6]YU Keke,LI Li,CHEN Yuan,et al.Effects of native language experience on Mandarin lexical tone processing in proficient second language learners.[J].Psychophysiology,2019,56(11):13448-13462.[7]HAN Y Q,MARTIJN G,MARIA M,et al.Relative contribution of auditory and visual information to mandarin Chinese tone identification by native and tone-nave listeners[J].Language and Speech,2019,63(4):856-876.[8]宋知用.MATLAB在語音信號(hào)分析與合成中的應(yīng)用[M].北京:北京航空航天大學(xué)出版社,2013.[9]劉夢(mèng)媛,楊鑒.基于HMM的緬甸語語音合成系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].云南大學(xué)學(xué)報(bào)(自然科學(xué)版),2020,42(1):19-27.LIU Mengyuan,YANG Jian.Design and implementation of Burmese speech synthesis system based on HMM[J].Journal of Yunnan University:Natural Sciences Edition,2020,42(1):19-27.[10]王國(guó)梁,陳夢(mèng)楠,陳蕾.一種基于Tacotron 2的端到端中文語音合成方案[J].華東師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2019(4):111-119.WANG Guoliang,CHEN Mengnan,CHEN Lei.An end-to-end Chinese speech synthesis scheme based on Tacotron 2[J].Journal of East China Normal University:Natural Science,2019(4):111-119.[11]宋剛,姚艷紅.用于漢語單音節(jié)聲調(diào)識(shí)別的基頻軌跡擬合方法[J].計(jì)算機(jī)工程與應(yīng)用,2008(29):239-240,244.SONG Gang,YAO Yanhong.Curve fitting of pitch contour used for tone recognition of isolated mandarin syllables[J].Computer Engineering and Applications,2008(29):239-240,244.[12]薛健,蔡蓮紅.一種基于聲調(diào)規(guī)范模型的聲調(diào)變換方法[J].計(jì)算機(jī)工程與應(yīng)用,2005(10):40-43,85.XUE Jian,CAI Lianhong.A tone transformation method based on standard tone model[J].Computer Engineering and Applications,2005(10):40-43,85.

        [13]THALES A D L,MRJORY D C A.A survey on automatic speech recognition systems for Portuguese language and its variations[J].Computer Speech & Language,2020,62(7):101055-101071.[14]張濤,馬宏偉,郭長(zhǎng)立,等.傳輸矩陣法研究薄膜體聲波諧振器[J].西安科技大學(xué)學(xué)報(bào),2010,30(2):251-254.ZHANG Tao,MA Hongwei,GUO Changli,et al.Research of thin film bulk acoustic resonators(FBAR)using transmission matrix method[J].Journal of Xian University of Science and Technology,2010,30(2):251-254.[15]WU H,DONG X X,WANG Q M.New principle of busbar protection based on a fundamental frequency polarity comparison.[J].PloS one,2019,14(3):1-25.[16]李永,范雪,楊鴻波.聲譜圖在漢語普通話聲調(diào)識(shí)別中的應(yīng)用[J].信息通信,2017(7):89-92.LI Yong,F(xiàn)AN Xue,YANG Hongbo.Application of spectrogram in tone recognition of Mandarin[J].Information and Communications,2017(7):89-92.[17]SAMPAIO M C,BOHLENDERJ E,BROCKMANNB-AUSERM.Fundamental frequency and intensity effects on cepstral measures in vowels from connected speech of speakers with voice disorders[J].Journal of Voice,2019,11(19):30347-30349.[18]馬效敏,鄭文思,陳琪.自相關(guān)基頻提取算法的MATLAB實(shí)現(xiàn)[J].西北民族大學(xué)學(xué)報(bào)(自然科學(xué)版),2010,31(4):54-58,63.MA Xiaomin,ZHANG Wensi,CHEN Qi.Implementation of pitch detection based on ACF by Matlab[J].Journal of Northwest University for Nationalities(Natural Science),2010,31(4):54-58,63.[19]曹夢(mèng)霞,鄭永果,鄭尚新.基于歸一化自相關(guān)的語音基頻特征提取[J].信息技術(shù)與信息化,2014(2):49-51.CAO Mengxia,ZHENG Yongguo,ZHENG Shangxin.Fundamental frequency feature extraction of speech based on the normalized cross correlation function[J].Information Technology and Informatization,2014(2):49-51.[20]吳樹興.一種語音信號(hào)基音周期時(shí)域估計(jì)算法[J].電腦知識(shí)與技術(shù),2019,15(22):214-216.WU Shuxing.A time domain estimation algorithm for speech signal pitch period[J].Computer Knowledge and Technology,2019,15(22):214-216.[21]DE CARVALHO CLSTENES C,DA SILVA DANIELLE MELO,DE CARVALHO ANTONIO D,et al.Evaluation of the association between voice formants and difficult facemask ventilation[J].European Journal of Anaesthesiology,2019,36(12):972-973.

        [22]白燕燕,胡曉霞.基于基音周期和共振峰頻率檢測(cè)的倒譜特征研究[J].電子測(cè)試,2019(17):48-49.BAI Yanyan,HU Xiaoxia.Study on cepstrum characteristics based on pitch period and formant frequency detection[J].Electronic Test,2019(17):48-49.[23]王碩,MANNELLR,NEWALL P,等.共振峰信息在漢語聲調(diào)感知中的作用[J].中國(guó)耳鼻咽喉頭頸外科,2012,19(1):14-17.WANG Shuo,MANNELLR,NEWALL P,et al.Role of formants in Mandarin lexical tone perception[J].Chinese Archives of Otolaryngology-Head and Neck Surgery,2012,19(1):14-17.[24]HU G X,DETERMAN S C,DONG Y,et al.Spectral and temporal envelope cues for human and automatic speech recognition in noise[J].Journal of the Association for Research in Otolaryngology:JARO,2019,21(1):73-87.[25]張勤.最小二乘估計(jì)在曲線擬合中應(yīng)用的研究[J].成功(教育),2011(18):302-303.ZHANG Qin.Study on the application of least square estimation in curve fitting[J].Success(Education),2011(18):302-303.[26]魏引尚,鄭活勃,王寧.采空區(qū)自燃“三帶”特征的最小二乘法分析[J].西安科技大學(xué)學(xué)報(bào),2015,35(2):159-164.WEI Yinshang,ZHENG Huobo,WANG Ning.Characteristic analysis of spontaneous combustion“three-zone”in goaf by least square method[J].Journal of Xian University of Science and Technology,2015,35(2):159-164.[27]劉霞,王運(yùn)鋒.基于最小二乘法的自動(dòng)分段多項(xiàng)式曲線擬合方法研究[J].科學(xué)技術(shù)與工程,2014,14(3):55-58.LIU Xia,WANG Yunfeng.Research of automatically piecewise polynomial curve-fitting method based on the least-square principle[J].Science Technology and Engineering,2014,14(3):55-58.

        猜你喜歡
        聲調(diào)漢語情感
        聲調(diào)歌
        拼音寶寶扛聲調(diào)
        學(xué)漢語
        拼音寶寶扛聲調(diào)
        情感
        單韻母扛聲調(diào)
        臺(tái)上
        追劇宅女教漢語
        漢語與拼音
        主題素材閱讀之“情感”篇
        国内精品久久久久影院一蜜桃| 亚洲精品一区二区三区蜜臀| 偷拍熟女露出喷水在线91| 91国产精品自拍在线观看| 欧美 日韩 人妻 高清 中文| 99re8这里有精品热视频免费| 另类人妖在线观看一区二区| av天堂中文亚洲官网| 国产一区二区三区三区四区精品| av狠狠色丁香婷婷综合久久| 特黄a级毛片免费视频| 96精品免费视频大全| 亚洲一区二区av免费观看| 亚洲人不卡另类日韩精品 | 精品在线亚洲一区二区三区| 户外精品一区二区三区| 免费观看18禁无遮挡真人网站| 亚洲永久精品ww47| 国产亚洲视频在线观看播放| 蜜桃视频一区视频二区| 亚洲av中文无码乱人伦在线观看| 小鲜肉自慰网站| 伊人久久大香线蕉在观看| 91在线观看国产自拍| 亚洲国产中文字幕无线乱码| 国产精品特级毛片一区二区三区| 亚洲av无码电影网| 熟妇与小伙子露脸对白| 杨幂一区二区系列在线| 中文字幕精品一区二区精品| 天天看片视频免费观看| 亚洲国产日韩在线精品频道| 中文字幕人乱码中文字幕乱码在线 | 狠狠综合久久av一区二区三区| 精品福利一区二区三区蜜桃 | 亚州中文热码在线视频| 国产综合色在线视频区| 国产成人无码精品午夜福利a| 国产美女av一区二区三区| 狂插美女流出白浆视频在线观看 | 国产成人亚洲精品91专区高清 |