亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

面向語音情感計(jì)算的數(shù)據(jù)庫(kù)的構(gòu)建與應(yīng)用研究

2012-06-07 04:15:16任鵬輝張雪英

電視技術(shù) 2012年21期

任鵬輝，張雪英，孫穎

(太原理工大學(xué)信息工程學(xué)院，山西太原 030024)

隨著人機(jī)交互技術(shù)的發(fā)展，語音技術(shù)已在科學(xué)研究與應(yīng)用等領(lǐng)域中起到了很重要的作用[1]。其中，語音情感計(jì)算是一項(xiàng)研究如何模擬或識(shí)別說話人語音信號(hào)中的喜怒哀樂等情緒和情感因素的研究課題，具有很大的研究意義[2－3]。語音情感計(jì)算主要包括語音情感識(shí)別與情感語音合成。其情感識(shí)別率與合成的語音質(zhì)量、情感表達(dá)都與語音庫(kù)原音選擇有直接關(guān)系，因此越來越多的研究人員開始致力于情感語音庫(kù)的構(gòu)建與研究[4]。

目前，國(guó)外已有多家機(jī)構(gòu)組織建立了情感語音數(shù)據(jù)庫(kù)[5]，如 Belfast Database，Belfast Natural，Albelin，Banse and Schere，Mozziconacci，Reading－Leeds Database 等，這些數(shù)據(jù)庫(kù)涉及到英語、德語、瑞典語、荷蘭語等多個(gè)語種，國(guó)內(nèi)情感語音庫(kù)有中科院情感語音庫(kù)、CESD，一些高校如清華大學(xué)、浙江大學(xué)、江蘇大學(xué)等也都建立了自己的情感語音庫(kù)。上述語音庫(kù)的情感誘發(fā)方式，數(shù)據(jù)收集，收錄情感狀態(tài)、規(guī)模以及發(fā)音人數(shù)量都不盡相同，以滿足不同需求的情感語音研究。

語音庫(kù)的構(gòu)建為情感計(jì)算的應(yīng)用提供了重要的應(yīng)用基礎(chǔ)。在情感識(shí)別中，語音庫(kù)經(jīng)訓(xùn)練形成供輸入語音匹配的情感模板庫(kù)。在情感語音合成中，語音庫(kù)經(jīng)參數(shù)提取形成情感語音模板，輸入文本利用模板來合成出相應(yīng)情感的語音。一般來說，可滿足語音合成需求的語音庫(kù)也可滿足情感識(shí)別。本語音庫(kù)的特點(diǎn)有:數(shù)據(jù)規(guī)模要求比較大、特定人發(fā)音、語音標(biāo)注準(zhǔn)確、以句子為收錄單位、情感表達(dá)準(zhǔn)確等?，F(xiàn)有數(shù)據(jù)庫(kù)由于版權(quán)、規(guī)模、費(fèi)用、功能用途等方面原因很難滿足現(xiàn)有的語音合成系統(tǒng)要求。因此，本文設(shè)計(jì)了一種利用錄音截取與韻律特征修改這種創(chuàng)新方法，建立了既可滿足情感語音合成又可滿足情感識(shí)別需求的多用途情感語音庫(kù)。

1 語音庫(kù)構(gòu)建概述

語音庫(kù)的建立流程可分為3個(gè)階段:1)文本篩選及錄音截取階段。首先運(yùn)用貪婪算法對(duì)文本源語料進(jìn)行篩選，然后對(duì)文本所對(duì)應(yīng)的語音文件進(jìn)行截取。2)韻律調(diào)整階段。對(duì)截取出的語音韻律特征進(jìn)行調(diào)整，得到高興、憤怒、悲傷等不同情感的語音。3)數(shù)據(jù)篩選階段。運(yùn)用本文所提出的一種改進(jìn)的模糊綜合評(píng)價(jià)方法對(duì)情感語音數(shù)據(jù)的聽辨與評(píng)選。下文將對(duì)每個(gè)階段作詳細(xì)說明。其制作流程如圖1所示。

圖1 情感語音庫(kù)制作流程

2 面向語音情感計(jì)算的數(shù)據(jù)庫(kù)構(gòu)建

2.1 文本篩選

構(gòu)建語料庫(kù)要求文本覆蓋語言中的各種語言單元，同時(shí)又要求語料庫(kù)的規(guī)模不能過大。與語音識(shí)別語料庫(kù)不同的是語音合成語料庫(kù)要求語料遵循語音單元的自然平衡規(guī)律，音素在語料中出現(xiàn)的概率貼近于自然，讓稀少的音素出現(xiàn)頻率小，讓常用的音素出現(xiàn)頻率大。所以，需要篩選出最有利用價(jià)值的句子來組成文本語料庫(kù)。

本文選擇了美國(guó)之音VOA新聞稿作為文本源，該語音由Steve Ember播音，其特點(diǎn)是資源開放、發(fā)音標(biāo)準(zhǔn)、語音純凈、朗讀風(fēng)格，涵蓋涉及文化、軍事、農(nóng)業(yè)等廣泛內(nèi)容，其語義不包含某一方面的情感傾向，有較高的情感自由度。選取了3500句播音文本作為語料集，每句朗讀時(shí)長(zhǎng)5 s以上。參考HTS demo，從中選出1000句作為最終的語料庫(kù)。語料篩選采用一種改進(jìn)的貪婪算法(S={所有句子的集合}，U={要覆蓋的音素集合}，C=空集)[6]:

1)將文本轉(zhuǎn)化成音素，統(tǒng)計(jì)每種音素在文本中所出現(xiàn)的概率P。

2)逐一統(tǒng)計(jì)S中句子i的分值

式中:K為句子中所有音素分值之和;將1/P作為該音素的權(quán)值;n為句子中語音單元的個(gè)數(shù)。

3)刪除S中分值最高的1000個(gè)句子，并將其歸入集合C，并從U中刪除這1000個(gè)句子中所包含的單元。

4)若U不為空集，則將S中包含U中剩余音素得分最高的句子替換C中分?jǐn)?shù)最低的句子。

5)C即為語料庫(kù)集合。

2.2 語音截取與情感韻律修改

按照已篩選出的語料文本用Cool Edit Pro軟件截取出其對(duì)應(yīng)的1000句語音文件，由于原始新聞朗讀語音不帶有其他情感色彩，所以可以直接作為中立情感語句。再通過調(diào)整其韻律特征，修改成高興、憤怒、悲傷等其他情感語句。

2.2.1 情感語句韻律分析

參考Russell采用4個(gè)象限的概念來定義情感種類[7]，本文采用了4種主要情感:憤怒、高興、中立和悲傷。這4種情感模型的好處是情感粒度大，容易區(qū)分辨別[8]。說話者在不同的情感狀態(tài)下說出的語音對(duì)應(yīng)著不同的韻律特征，韻律特征主要有基音頻率、幅度和時(shí)長(zhǎng)等[9]。所以對(duì)語音信號(hào)中的情感信息研究首先需要對(duì)韻律特征進(jìn)行研究。表1所示為語句“生活是這樣的”分別在中立、高興、悲傷、憤怒4種情感下的韻律特征的具體數(shù)值。

表1 各種情感語句韻律特征的具體數(shù)值

通過大量情感語句的比對(duì)，可以總結(jié)出:“高興”的基頻最高、語速最快;“憤怒”次之，但能量略高于“高興”;“悲傷”的各項(xiàng)韻律特征數(shù)值均低于其他3種情感。另外，各種情感狀態(tài)的波形在重音部分是否加強(qiáng)，頭尾部形狀也不盡相同，運(yùn)用以上規(guī)律，可以很清楚地把“高興”、“憤怒”與“悲傷”情感語音區(qū)分開來。

2.2.2 情感韻律修改

根據(jù)已統(tǒng)計(jì)的韻律參數(shù)規(guī)律對(duì)截取的中立語音進(jìn)行相關(guān)韻律參數(shù)的修改，可以得到其他帶有情感的語音[10]。其修改方法為:通過調(diào)整基頻曲線，提高或者減小整體基頻數(shù)值，再對(duì)重音、頭尾部形狀做相應(yīng)修改。通過調(diào)整語音時(shí)長(zhǎng)，改變不同情感狀態(tài)下的語速快慢。通過調(diào)整語音音量，控制其能量大小。

本文中將Steve Ember的1000句中立語音通過Cool Edit Pro與praat軟件修改成為高興、憤怒、悲傷3種情感語音各1000句，其修改數(shù)值經(jīng)大量主觀辯聽實(shí)驗(yàn)驗(yàn)證及相關(guān)文獻(xiàn)的參考[11]，可基本滿足其他3種情感表達(dá)的需求。另外，修改數(shù)值還跟發(fā)音人的音質(zhì)有直接的關(guān)系，所以除了遵循韻律參數(shù)的大致規(guī)律外，還需依靠人工主觀辯聽修改語音細(xì)節(jié)，以求得到更加真實(shí)、情感表達(dá)更加準(zhǔn)確的語音。修改規(guī)則如表2所示(以中立語音為參考值)。

表2 特征修改規(guī)則

修改過程中主要以人的主觀辯聽為參考因素，以語音通順、自然流暢為前提。

2.3 情感語音數(shù)據(jù)的聽辨與評(píng)選

為了保證所采集的情感語料的可靠性，對(duì)語音情感數(shù)據(jù)進(jìn)行了主觀聽辨與評(píng)選[12]。由于本數(shù)據(jù)庫(kù)不同于傳統(tǒng)數(shù)據(jù)庫(kù)，需考慮語音情感表達(dá)準(zhǔn)確度、清晰度、自然度等多方面因素來綜合驗(yàn)證數(shù)據(jù)的可靠性，因此本文運(yùn)用了一種改進(jìn)的模糊綜合評(píng)價(jià)方法對(duì)語音數(shù)據(jù)進(jìn)行評(píng)測(cè)。其步驟如下:

1)確定綜合因素評(píng)價(jià)集 V={V1，V2，…，V6}。其中，V1，V2，…，V6分別代表情感表達(dá)、情景感、清晰度、自然度、流暢度、噪音影響等6個(gè)子集。

2)根據(jù)各子集對(duì)整體的影響大小，約定各子集的權(quán)重，得權(quán)重集 A={a1，a2，…，a6}={0.30，0.20，0.10，0.10，0.10，0.20}。

3)10位評(píng)測(cè)人對(duì)某條語句打分，打分細(xì)則如表3所示。

表3 語句打分表

4)歸一化后的數(shù)據(jù)構(gòu)成一個(gè)V的模糊評(píng)價(jià)矩陣

式中:?為模糊矩陣乘法符號(hào)。歸一化得

5)求得此條語句的總得分，可以對(duì)5個(gè)級(jí)別分別賦以分值，如約定好為100分，較好為85分，中為65分，較差為35分，差為0分，則總得分

6)如果語句得分大于等于60分，則保留;否則，認(rèn)為此條語句不合格，剔除之后重新修改。

3 情感語音庫(kù)的應(yīng)用研究

將語音情感識(shí)別系統(tǒng)與情感語音合成系統(tǒng)有機(jī)地結(jié)合在一起，使計(jì)算機(jī)能夠與人進(jìn)行情感語音交流是人機(jī)交互應(yīng)用研究的熱點(diǎn)之一。目前，此類技術(shù)已經(jīng)在語音搜索、人工智能、交通醫(yī)療等領(lǐng)域都有了相當(dāng)規(guī)模的應(yīng)用，如谷歌Voice Search、蘋果的Siri通過人類語音信號(hào)即可實(shí)現(xiàn)人機(jī)互動(dòng)。此類技術(shù)的前端方面，即面向用戶和用戶交互(User Interface，UI)的技術(shù)，主要就是語音識(shí)別以及語音合成技術(shù)，在其中加入情感信息可使人機(jī)交流變得更加人性化。語音識(shí)別技術(shù)是把用戶的口語轉(zhuǎn)化成文字，其中需要強(qiáng)大的語音知識(shí)庫(kù)，需要用到“云計(jì)算”技術(shù)。而語音合成則是把返回的文字結(jié)果轉(zhuǎn)化成語音輸出，這個(gè)技術(shù)理論上本地就能完成。這里主要介紹情感語音庫(kù)在語音情感識(shí)別與情感語音合成兩方面的應(yīng)用。

3.1 在語音情感識(shí)別方面的應(yīng)用

語音情感識(shí)別是利用計(jì)算機(jī)識(shí)別發(fā)音人情感狀態(tài)的技術(shù)。其流程包括預(yù)處理、特征提取和模式匹配3個(gè)部分，如圖2所示。

圖2 語音情感識(shí)別系統(tǒng)框圖

語音情感識(shí)別系統(tǒng)本質(zhì)上是一種模式識(shí)別系統(tǒng)，語音庫(kù)中的情感語音信號(hào)經(jīng)過預(yù)處理后進(jìn)行特征參數(shù)提取，然后將不同情感的特征參數(shù)訓(xùn)練成不同的模板庫(kù)。待識(shí)別的語音信號(hào)特征參數(shù)與模板庫(kù)進(jìn)行模式匹配即可得到情感識(shí)別結(jié)果。因此識(shí)別結(jié)果與語音庫(kù)質(zhì)量好壞、模板是否準(zhǔn)確都有直接的關(guān)系。語音庫(kù)的建立為整個(gè)語音情感識(shí)別過程提供了重要的前提工作與基礎(chǔ)。

3.2 在情感語音合成方面的應(yīng)用

情感語音合成就是利用語音合成技術(shù)實(shí)現(xiàn)文本到帶有人類情感語音的轉(zhuǎn)換，使機(jī)器也能發(fā)出帶模擬人類情感的語音。本文主要介紹語音庫(kù)在基于HMM情感語音合成法中的應(yīng)用，如圖3所示。

圖3 基于HMM語音合成訓(xùn)練部分流程圖

基于HMM的語音合成系統(tǒng)包括訓(xùn)練和合成兩個(gè)部分。在訓(xùn)練部分中需從情感語音庫(kù)中提取激勵(lì)參數(shù)與譜參數(shù)，利用上下文相關(guān)因素，對(duì)聲道譜、基頻和時(shí)長(zhǎng)進(jìn)行建模[13]。在之后的合成部分中，輸入的文本利用這些模型通過參數(shù)合成器合成出情感語音。所合成出的情感語音同樣與語音庫(kù)的情感表達(dá)準(zhǔn)確度、語音質(zhì)量等因素有直接的關(guān)系。

4 小結(jié)

本文首先利用貪婪算法對(duì)數(shù)據(jù)進(jìn)行篩選，然后通過錄音截取與韻律特征修改這種創(chuàng)新方法設(shè)計(jì)并建立了一種面向語音合成的情感語音庫(kù)。包括中立、悲傷、高興、憤怒4種情感，每種1000句，共4000句情感語音。最后利用模糊綜合評(píng)價(jià)方法對(duì)情感語音數(shù)據(jù)的聽辨與評(píng)選來確保語料的可靠性。同時(shí)簡(jiǎn)要論述了本語音庫(kù)在語音情感識(shí)別與情感語音合成方面的應(yīng)用。

本文總結(jié)了各種情感狀態(tài)下韻律特征規(guī)律。按照此規(guī)律，通過主觀辯聽調(diào)整中立語音得到情感的語音，這也是本文中的難點(diǎn)。其語音質(zhì)量受到發(fā)音人與主觀辯聽調(diào)整的較大影響，每句語音的具體修改數(shù)值也不盡相同。所以總結(jié)出一套更加具體、完善的韻律特征修改方案是今后工作的研究重心。建立一個(gè)發(fā)音自然度高、情感表達(dá)準(zhǔn)確的語音庫(kù)才是語音情感計(jì)算進(jìn)入實(shí)際應(yīng)用的一個(gè)重要基礎(chǔ)和前提工作。

[1]GUDNASON J，THOMAS M R P，ELLIS D P W，et al.Data－driven voice source waveform analysis and synthesis[J].Speech Communication，2012，54(2):199－211.

[2]周沽，趙力，鄒采榮.情感語音合成的研究[J].電聲技術(shù)，2005，29(10):57－73.

[3]陳潔，張雪英，孫穎.基于HMM的可訓(xùn)練情感語音合成研究[J].電聲技術(shù)，2012，36(3):43－46.

[4]ELLEN D C，NICK C，RODDY C，et al.Emotional speech:towards a new generation of databases[J].Speech Communication，2003，40(1):33－60.

[5]徐露，徐明星，楊大利.面向情感變化檢測(cè)的漢語情感語音數(shù)據(jù)庫(kù)[J].清華大學(xué)學(xué)報(bào):自然科學(xué)版，2009，49(S1):1413－1418.

[6]龐敏輝.語音庫(kù)自動(dòng)構(gòu)建技術(shù)的研究[D].青島:中國(guó)海洋大學(xué)，2010.

[7]LIEBERMAN P，MICHAELS S B.Some aspects of fundamental frequency and envelop amplitude as related to the emotional content of speech[J].Journal of the Acoustical Society of Ametica，1962，34(7):922－927.

[8]SCHERER K R，BANZIGER T.Emotional expression in prosody:a review and an agenda for future researeh[C]//Proc.Speech Prosody，2004.Nava，Japan:ISCA Speech，2004:359－366.

[9]蔣丹寧，蔡蓮紅.基于語音聲學(xué)特征的情感信息識(shí)別[J].清華大學(xué)學(xué)報(bào):自然科學(xué)版，2006，46(l):56－89.

[10]ELLIOT M II，MARK C，JOHN P，et al.Comparing objective feature statistics of speech for classifying clinical depression[J].IEEE Engineering in Medicine and Biology Society，2004，26(1):17－20.

[11]黨培霞.基于情感基音模板的情感語音合成[D].長(zhǎng)沙:中南大學(xué)，2010.

[12]黃程韋，金赟，趙艷，等.實(shí)用語音情感數(shù)據(jù)庫(kù)的設(shè)計(jì)與研究[J].聲學(xué)技術(shù)，2010，29(4):396－399.

[13]張雪英，陳潔，孫穎.改進(jìn)的HMM合成系統(tǒng)在英語合成中的研究[J].太原理工大學(xué)學(xué)報(bào)，2012，43(1):16－19.