任鵬輝,張雪英,孫 穎
(太原理工大學(xué)信息工程學(xué)院,山西 太原 030024)
隨著人機(jī)交互技術(shù)的發(fā)展,語音技術(shù)已在科學(xué)研究與應(yīng)用等領(lǐng)域中起到了很重要的作用[1]。其中,語音情感計(jì)算是一項(xiàng)研究如何模擬或識(shí)別說話人語音信號(hào)中的喜怒哀樂等情緒和情感因素的研究課題,具有很大的研究意義[2-3]。語音情感計(jì)算主要包括語音情感識(shí)別與情感語音合成。其情感識(shí)別率與合成的語音質(zhì)量、情感表達(dá)都與語音庫(kù)原音選擇有直接關(guān)系,因此越來越多的研究人員開始致力于情感語音庫(kù)的構(gòu)建與研究[4]。
目前,國(guó)外已有多家機(jī)構(gòu)組織建立了情感語音數(shù)據(jù)庫(kù)[5],如 Belfast Database,Belfast Natural,Albelin,Banse and Schere,Mozziconacci,Reading-Leeds Database 等,這些數(shù)據(jù)庫(kù)涉及到英語、德語、瑞典語、荷蘭語等多個(gè)語種,國(guó)內(nèi)情感語音庫(kù)有中科院情感語音庫(kù)、CESD,一些高校如清華大學(xué)、浙江大學(xué)、江蘇大學(xué)等也都建立了自己的情感語音庫(kù)。上述語音庫(kù)的情感誘發(fā)方式,數(shù)據(jù)收集,收錄情感狀態(tài)、規(guī)模以及發(fā)音人數(shù)量都不盡相同,以滿足不同需求的情感語音研究。
語音庫(kù)的構(gòu)建為情感計(jì)算的應(yīng)用提供了重要的應(yīng)用基礎(chǔ)。在情感識(shí)別中,語音庫(kù)經(jīng)訓(xùn)練形成供輸入語音匹配的情感模板庫(kù)。在情感語音合成中,語音庫(kù)經(jīng)參數(shù)提取形成情感語音模板,輸入文本利用模板來合成出相應(yīng)情感的語音。一般來說,可滿足語音合成需求的語音庫(kù)也可滿足情感識(shí)別。本語音庫(kù)的特點(diǎn)有:數(shù)據(jù)規(guī)模要求比較大、特定人發(fā)音、語音標(biāo)注準(zhǔn)確、以句子為收錄單位、情感表達(dá)準(zhǔn)確等?,F(xiàn)有數(shù)據(jù)庫(kù)由于版權(quán)、規(guī)模、費(fèi)用、功能用途等方面原因很難滿足現(xiàn)有的語音合成系統(tǒng)要求。因此,本文設(shè)計(jì)了一種利用錄音截取與韻律特征修改這種創(chuàng)新方法,建立了既可滿足情感語音合成又可滿足情感識(shí)別需求的多用途情感語音庫(kù)。
語音庫(kù)的建立流程可分為3個(gè)階段:1)文本篩選及錄音截取階段。首先運(yùn)用貪婪算法對(duì)文本源語料進(jìn)行篩選,然后對(duì)文本所對(duì)應(yīng)的語音文件進(jìn)行截取。2)韻律調(diào)整階段。對(duì)截取出的語音韻律特征進(jìn)行調(diào)整,得到高興、憤怒、悲傷等不同情感的語音。3)數(shù)據(jù)篩選階段。運(yùn)用本文所提出的一種改進(jìn)的模糊綜合評(píng)價(jià)方法對(duì)情感語音數(shù)據(jù)的聽辨與評(píng)選。下文將對(duì)每個(gè)階段作詳細(xì)說明。其制作流程如圖1所示。
圖1 情感語音庫(kù)制作流程
構(gòu)建語料庫(kù)要求文本覆蓋語言中的各種語言單元,同時(shí)又要求語料庫(kù)的規(guī)模不能過大。與語音識(shí)別語料庫(kù)不同的是語音合成語料庫(kù)要求語料遵循語音單元的自然平衡規(guī)律,音素在語料中出現(xiàn)的概率貼近于自然,讓稀少的音素出現(xiàn)頻率小,讓常用的音素出現(xiàn)頻率大。所以,需要篩選出最有利用價(jià)值的句子來組成文本語料庫(kù)。
本文選擇了美國(guó)之音VOA新聞稿作為文本源,該語音由Steve Ember播音,其特點(diǎn)是資源開放、發(fā)音標(biāo)準(zhǔn)、語音純凈、朗讀風(fēng)格,涵蓋涉及文化、軍事、農(nóng)業(yè)等廣泛內(nèi)容,其語義不包含某一方面的情感傾向,有較高的情感自由度。選取了3500句播音文本作為語料集,每句朗讀時(shí)長(zhǎng)5 s以上。參考HTS demo,從中選出1000句作為最終的語料庫(kù)。語料篩選采用一種改進(jìn)的貪婪算法(S={所有句子的集合},U={要覆蓋的音素集合},C=空集)[6]:
1)將文本轉(zhuǎn)化成音素,統(tǒng)計(jì)每種音素在文本中所出現(xiàn)的概率P。
2)逐一統(tǒng)計(jì)S中句子i的分值
式中:K為句子中所有音素分值之和;將1/P作為該音素的權(quán)值;n為句子中語音單元的個(gè)數(shù)。
3)刪除S中分值最高的1000個(gè)句子,并將其歸入集合C,并從U中刪除這1000個(gè)句子中所包含的單元。
4)若U不為空集,則將S中包含U中剩余音素得分最高的句子替換C中分?jǐn)?shù)最低的句子。
5)C即為語料庫(kù)集合。
按照已篩選出的語料文本用Cool Edit Pro軟件截取出其對(duì)應(yīng)的1000句語音文件,由于原始新聞朗讀語音不帶有其他情感色彩,所以可以直接作為中立情感語句。再通過調(diào)整其韻律特征,修改成高興、憤怒、悲傷等其他情感語句。
2.2.1 情感語句韻律分析
參考Russell采用4個(gè)象限的概念來定義情感種類[7],本文采用了4種主要情感:憤怒、高興、中立和悲傷。這4種情感模型的好處是情感粒度大,容易區(qū)分辨別[8]。說話者在不同的情感狀態(tài)下說出的語音對(duì)應(yīng)著不同的韻律特征,韻律特征主要有基音頻率、幅度和時(shí)長(zhǎng)等[9]。所以對(duì)語音信號(hào)中的情感信息研究首先需要對(duì)韻律特征進(jìn)行研究。表1所示為語句“生活是這樣的”分別在中立、高興、悲傷、憤怒4種情感下的韻律特征的具體數(shù)值。
表1 各種情感語句韻律特征的具體數(shù)值
通過大量情感語句的比對(duì),可以總結(jié)出:“高興”的基頻最高、語速最快;“憤怒”次之,但能量略高于“高興”;“悲傷”的各項(xiàng)韻律特征數(shù)值均低于其他3種情感。另外,各種情感狀態(tài)的波形在重音部分是否加強(qiáng),頭尾部形狀也不盡相同,運(yùn)用以上規(guī)律,可以很清楚地把“高興”、“憤怒”與“悲傷”情感語音區(qū)分開來。
2.2.2 情感韻律修改
根據(jù)已統(tǒng)計(jì)的韻律參數(shù)規(guī)律對(duì)截取的中立語音進(jìn)行相關(guān)韻律參數(shù)的修改,可以得到其他帶有情感的語音[10]。其修改方法為:通過調(diào)整基頻曲線,提高或者減小整體基頻數(shù)值,再對(duì)重音、頭尾部形狀做相應(yīng)修改。通過調(diào)整語音時(shí)長(zhǎng),改變不同情感狀態(tài)下的語速快慢。通過調(diào)整語音音量,控制其能量大小。
本文中將Steve Ember的1000句中立語音通過Cool Edit Pro與praat軟件修改成為高興、憤怒、悲傷3種情感語音各1000句,其修改數(shù)值經(jīng)大量主觀辯聽實(shí)驗(yàn)驗(yàn)證及相關(guān)文獻(xiàn)的參考[11],可基本滿足其他3種情感表達(dá)的需求。另外,修改數(shù)值還跟發(fā)音人的音質(zhì)有直接的關(guān)系,所以除了遵循韻律參數(shù)的大致規(guī)律外,還需依靠人工主觀辯聽修改語音細(xì)節(jié),以求得到更加真實(shí)、情感表達(dá)更加準(zhǔn)確的語音。修改規(guī)則如表2所示(以中立語音為參考值)。
表2 特征修改規(guī)則
修改過程中主要以人的主觀辯聽為參考因素,以語音通順、自然流暢為前提。
為了保證所采集的情感語料的可靠性,對(duì)語音情感數(shù)據(jù)進(jìn)行了主觀聽辨與評(píng)選[12]。由于本數(shù)據(jù)庫(kù)不同于傳統(tǒng)數(shù)據(jù)庫(kù),需考慮語音情感表達(dá)準(zhǔn)確度、清晰度、自然度等多方面因素來綜合驗(yàn)證數(shù)據(jù)的可靠性,因此本文運(yùn)用了一種改進(jìn)的模糊綜合評(píng)價(jià)方法對(duì)語音數(shù)據(jù)進(jìn)行評(píng)測(cè)。其步驟如下:
1)確定綜合因素評(píng)價(jià)集 V={V1,V2,…,V6}。其中,V1,V2,…,V6分別代表情感表達(dá)、情景感、清晰度、自然度、流暢度、噪音影響等6個(gè)子集。
2)根據(jù)各子集對(duì)整體的影響大小,約定各子集的權(quán)重,得權(quán)重集 A={a1,a2,…,a6}={0.30,0.20,0.10,0.10,0.10,0.20}。
3)10位評(píng)測(cè)人對(duì)某條語句打分,打分細(xì)則如表3所示。
表3 語句打分表
4)歸一化后的數(shù)據(jù)構(gòu)成一個(gè)V的模糊評(píng)價(jià)矩陣
式中:?為模糊矩陣乘法符號(hào)。歸一化得
5)求得此條語句的總得分,可以對(duì)5個(gè)級(jí)別分別賦以分值,如約定好為100分,較好為85分,中為65分,較差為35分,差為0分,則總得分
6)如果語句得分大于等于60分,則保留;否則,認(rèn)為此條語句不合格,剔除之后重新修改。
將語音情感識(shí)別系統(tǒng)與情感語音合成系統(tǒng)有機(jī)地結(jié)合在一起,使計(jì)算機(jī)能夠與人進(jìn)行情感語音交流是人機(jī)交互應(yīng)用研究的熱點(diǎn)之一。目前,此類技術(shù)已經(jīng)在語音搜索、人工智能、交通醫(yī)療等領(lǐng)域都有了相當(dāng)規(guī)模的應(yīng)用,如谷歌Voice Search、蘋果的Siri通過人類語音信號(hào)即可實(shí)現(xiàn)人機(jī)互動(dòng)。此類技術(shù)的前端方面,即面向用戶和用戶交互(User Interface,UI)的技術(shù),主要就是語音識(shí)別以及語音合成技術(shù),在其中加入情感信息可使人機(jī)交流變得更加人性化。語音識(shí)別技術(shù)是把用戶的口語轉(zhuǎn)化成文字,其中需要強(qiáng)大的語音知識(shí)庫(kù),需要用到“云計(jì)算”技術(shù)。而語音合成則是把返回的文字結(jié)果轉(zhuǎn)化成語音輸出,這個(gè)技術(shù)理論上本地就能完成。這里主要介紹情感語音庫(kù)在語音情感識(shí)別與情感語音合成兩方面的應(yīng)用。
語音情感識(shí)別是利用計(jì)算機(jī)識(shí)別發(fā)音人情感狀態(tài)的技術(shù)。其流程包括預(yù)處理、特征提取和模式匹配3個(gè)部分,如圖2所示。
圖2 語音情感識(shí)別系統(tǒng)框圖
語音情感識(shí)別系統(tǒng)本質(zhì)上是一種模式識(shí)別系統(tǒng),語音庫(kù)中的情感語音信號(hào)經(jīng)過預(yù)處理后進(jìn)行特征參數(shù)提取,然后將不同情感的特征參數(shù)訓(xùn)練成不同的模板庫(kù)。待識(shí)別的語音信號(hào)特征參數(shù)與模板庫(kù)進(jìn)行模式匹配即可得到情感識(shí)別結(jié)果。因此識(shí)別結(jié)果與語音庫(kù)質(zhì)量好壞、模板是否準(zhǔn)確都有直接的關(guān)系。語音庫(kù)的建立為整個(gè)語音情感識(shí)別過程提供了重要的前提工作與基礎(chǔ)。
情感語音合成就是利用語音合成技術(shù)實(shí)現(xiàn)文本到帶有人類情感語音的轉(zhuǎn)換,使機(jī)器也能發(fā)出帶模擬人類情感的語音。本文主要介紹語音庫(kù)在基于HMM情感語音合成法中的應(yīng)用,如圖3所示。
圖3 基于HMM語音合成訓(xùn)練部分流程圖
基于HMM的語音合成系統(tǒng)包括訓(xùn)練和合成兩個(gè)部分。在訓(xùn)練部分中需從情感語音庫(kù)中提取激勵(lì)參數(shù)與譜參數(shù),利用上下文相關(guān)因素,對(duì)聲道譜、基頻和時(shí)長(zhǎng)進(jìn)行建模[13]。在之后的合成部分中,輸入的文本利用這些模型通過參數(shù)合成器合成出情感語音。所合成出的情感語音同樣與語音庫(kù)的情感表達(dá)準(zhǔn)確度、語音質(zhì)量等因素有直接的關(guān)系。
本文首先利用貪婪算法對(duì)數(shù)據(jù)進(jìn)行篩選,然后通過錄音截取與韻律特征修改這種創(chuàng)新方法設(shè)計(jì)并建立了一種面向語音合成的情感語音庫(kù)。包括中立、悲傷、高興、憤怒4種情感,每種1000句,共4000句情感語音。最后利用模糊綜合評(píng)價(jià)方法對(duì)情感語音數(shù)據(jù)的聽辨與評(píng)選來確保語料的可靠性。同時(shí)簡(jiǎn)要論述了本語音庫(kù)在語音情感識(shí)別與情感語音合成方面的應(yīng)用。
本文總結(jié)了各種情感狀態(tài)下韻律特征規(guī)律。按照此規(guī)律,通過主觀辯聽調(diào)整中立語音得到情感的語音,這也是本文中的難點(diǎn)。其語音質(zhì)量受到發(fā)音人與主觀辯聽調(diào)整的較大影響,每句語音的具體修改數(shù)值也不盡相同。所以總結(jié)出一套更加具體、完善的韻律特征修改方案是今后工作的研究重心。建立一個(gè)發(fā)音自然度高、情感表達(dá)準(zhǔn)確的語音庫(kù)才是語音情感計(jì)算進(jìn)入實(shí)際應(yīng)用的一個(gè)重要基礎(chǔ)和前提工作。
[1]GUDNASON J,THOMAS M R P,ELLIS D P W,et al.Data-driven voice source waveform analysis and synthesis[J].Speech Communication,2012,54(2):199-211.
[2]周沽,趙力,鄒采榮.情感語音合成的研究[J].電聲技術(shù),2005,29(10):57-73.
[3]陳潔,張雪英,孫穎.基于HMM的可訓(xùn)練情感語音合成研究[J].電聲技術(shù),2012,36(3):43-46.
[4]ELLEN D C,NICK C,RODDY C,et al.Emotional speech:towards a new generation of databases[J].Speech Communication,2003,40(1):33-60.
[5]徐露,徐明星,楊大利.面向情感變化檢測(cè)的漢語情感語音數(shù)據(jù)庫(kù)[J].清華大學(xué)學(xué)報(bào):自然科學(xué)版,2009,49(S1):1413-1418.
[6]龐敏輝.語音庫(kù)自動(dòng)構(gòu)建技術(shù)的研究[D].青島:中國(guó)海洋大學(xué),2010.
[7]LIEBERMAN P,MICHAELS S B.Some aspects of fundamental frequency and envelop amplitude as related to the emotional content of speech[J].Journal of the Acoustical Society of Ametica,1962,34(7):922-927.
[8]SCHERER K R,BANZIGER T.Emotional expression in prosody:a review and an agenda for future researeh[C]//Proc.Speech Prosody,2004.Nava,Japan:ISCA Speech,2004:359-366.
[9]蔣丹寧,蔡蓮紅.基于語音聲學(xué)特征的情感信息識(shí)別[J].清華大學(xué)學(xué)報(bào):自然科學(xué)版,2006,46(l):56-89.
[10]ELLIOT M II,MARK C,JOHN P,et al.Comparing objective feature statistics of speech for classifying clinical depression[J].IEEE Engineering in Medicine and Biology Society,2004,26(1):17-20.
[11]黨培霞.基于情感基音模板的情感語音合成[D].長(zhǎng)沙:中南大學(xué),2010.
[12]黃程韋,金赟,趙艷,等.實(shí)用語音情感數(shù)據(jù)庫(kù)的設(shè)計(jì)與研究[J].聲學(xué)技術(shù),2010,29(4):396-399.
[13]張雪英,陳潔,孫穎.改進(jìn)的HMM合成系統(tǒng)在英語合成中的研究[J].太原理工大學(xué)學(xué)報(bào),2012,43(1):16-19.