亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向語音情感計(jì)算的數(shù)據(jù)庫(kù)的構(gòu)建與應(yīng)用研究

        2012-06-07 04:15:16任鵬輝張雪英
        電視技術(shù) 2012年21期
        關(guān)鍵詞:音素韻律語料

        任鵬輝,張雪英,孫 穎

        (太原理工大學(xué)信息工程學(xué)院,山西 太原 030024)

        隨著人機(jī)交互技術(shù)的發(fā)展,語音技術(shù)已在科學(xué)研究與應(yīng)用等領(lǐng)域中起到了很重要的作用[1]。其中,語音情感計(jì)算是一項(xiàng)研究如何模擬或識(shí)別說話人語音信號(hào)中的喜怒哀樂等情緒和情感因素的研究課題,具有很大的研究意義[2-3]。語音情感計(jì)算主要包括語音情感識(shí)別與情感語音合成。其情感識(shí)別率與合成的語音質(zhì)量、情感表達(dá)都與語音庫(kù)原音選擇有直接關(guān)系,因此越來越多的研究人員開始致力于情感語音庫(kù)的構(gòu)建與研究[4]。

        目前,國(guó)外已有多家機(jī)構(gòu)組織建立了情感語音數(shù)據(jù)庫(kù)[5],如 Belfast Database,Belfast Natural,Albelin,Banse and Schere,Mozziconacci,Reading-Leeds Database 等,這些數(shù)據(jù)庫(kù)涉及到英語、德語、瑞典語、荷蘭語等多個(gè)語種,國(guó)內(nèi)情感語音庫(kù)有中科院情感語音庫(kù)、CESD,一些高校如清華大學(xué)、浙江大學(xué)、江蘇大學(xué)等也都建立了自己的情感語音庫(kù)。上述語音庫(kù)的情感誘發(fā)方式,數(shù)據(jù)收集,收錄情感狀態(tài)、規(guī)模以及發(fā)音人數(shù)量都不盡相同,以滿足不同需求的情感語音研究。

        語音庫(kù)的構(gòu)建為情感計(jì)算的應(yīng)用提供了重要的應(yīng)用基礎(chǔ)。在情感識(shí)別中,語音庫(kù)經(jīng)訓(xùn)練形成供輸入語音匹配的情感模板庫(kù)。在情感語音合成中,語音庫(kù)經(jīng)參數(shù)提取形成情感語音模板,輸入文本利用模板來合成出相應(yīng)情感的語音。一般來說,可滿足語音合成需求的語音庫(kù)也可滿足情感識(shí)別。本語音庫(kù)的特點(diǎn)有:數(shù)據(jù)規(guī)模要求比較大、特定人發(fā)音、語音標(biāo)注準(zhǔn)確、以句子為收錄單位、情感表達(dá)準(zhǔn)確等?,F(xiàn)有數(shù)據(jù)庫(kù)由于版權(quán)、規(guī)模、費(fèi)用、功能用途等方面原因很難滿足現(xiàn)有的語音合成系統(tǒng)要求。因此,本文設(shè)計(jì)了一種利用錄音截取與韻律特征修改這種創(chuàng)新方法,建立了既可滿足情感語音合成又可滿足情感識(shí)別需求的多用途情感語音庫(kù)。

        1 語音庫(kù)構(gòu)建概述

        語音庫(kù)的建立流程可分為3個(gè)階段:1)文本篩選及錄音截取階段。首先運(yùn)用貪婪算法對(duì)文本源語料進(jìn)行篩選,然后對(duì)文本所對(duì)應(yīng)的語音文件進(jìn)行截取。2)韻律調(diào)整階段。對(duì)截取出的語音韻律特征進(jìn)行調(diào)整,得到高興、憤怒、悲傷等不同情感的語音。3)數(shù)據(jù)篩選階段。運(yùn)用本文所提出的一種改進(jìn)的模糊綜合評(píng)價(jià)方法對(duì)情感語音數(shù)據(jù)的聽辨與評(píng)選。下文將對(duì)每個(gè)階段作詳細(xì)說明。其制作流程如圖1所示。

        圖1 情感語音庫(kù)制作流程

        2 面向語音情感計(jì)算的數(shù)據(jù)庫(kù)構(gòu)建

        2.1 文本篩選

        構(gòu)建語料庫(kù)要求文本覆蓋語言中的各種語言單元,同時(shí)又要求語料庫(kù)的規(guī)模不能過大。與語音識(shí)別語料庫(kù)不同的是語音合成語料庫(kù)要求語料遵循語音單元的自然平衡規(guī)律,音素在語料中出現(xiàn)的概率貼近于自然,讓稀少的音素出現(xiàn)頻率小,讓常用的音素出現(xiàn)頻率大。所以,需要篩選出最有利用價(jià)值的句子來組成文本語料庫(kù)。

        本文選擇了美國(guó)之音VOA新聞稿作為文本源,該語音由Steve Ember播音,其特點(diǎn)是資源開放、發(fā)音標(biāo)準(zhǔn)、語音純凈、朗讀風(fēng)格,涵蓋涉及文化、軍事、農(nóng)業(yè)等廣泛內(nèi)容,其語義不包含某一方面的情感傾向,有較高的情感自由度。選取了3500句播音文本作為語料集,每句朗讀時(shí)長(zhǎng)5 s以上。參考HTS demo,從中選出1000句作為最終的語料庫(kù)。語料篩選采用一種改進(jìn)的貪婪算法(S={所有句子的集合},U={要覆蓋的音素集合},C=空集)[6]:

        1)將文本轉(zhuǎn)化成音素,統(tǒng)計(jì)每種音素在文本中所出現(xiàn)的概率P。

        2)逐一統(tǒng)計(jì)S中句子i的分值

        式中:K為句子中所有音素分值之和;將1/P作為該音素的權(quán)值;n為句子中語音單元的個(gè)數(shù)。

        3)刪除S中分值最高的1000個(gè)句子,并將其歸入集合C,并從U中刪除這1000個(gè)句子中所包含的單元。

        4)若U不為空集,則將S中包含U中剩余音素得分最高的句子替換C中分?jǐn)?shù)最低的句子。

        5)C即為語料庫(kù)集合。

        2.2 語音截取與情感韻律修改

        按照已篩選出的語料文本用Cool Edit Pro軟件截取出其對(duì)應(yīng)的1000句語音文件,由于原始新聞朗讀語音不帶有其他情感色彩,所以可以直接作為中立情感語句。再通過調(diào)整其韻律特征,修改成高興、憤怒、悲傷等其他情感語句。

        2.2.1 情感語句韻律分析

        參考Russell采用4個(gè)象限的概念來定義情感種類[7],本文采用了4種主要情感:憤怒、高興、中立和悲傷。這4種情感模型的好處是情感粒度大,容易區(qū)分辨別[8]。說話者在不同的情感狀態(tài)下說出的語音對(duì)應(yīng)著不同的韻律特征,韻律特征主要有基音頻率、幅度和時(shí)長(zhǎng)等[9]。所以對(duì)語音信號(hào)中的情感信息研究首先需要對(duì)韻律特征進(jìn)行研究。表1所示為語句“生活是這樣的”分別在中立、高興、悲傷、憤怒4種情感下的韻律特征的具體數(shù)值。

        表1 各種情感語句韻律特征的具體數(shù)值

        通過大量情感語句的比對(duì),可以總結(jié)出:“高興”的基頻最高、語速最快;“憤怒”次之,但能量略高于“高興”;“悲傷”的各項(xiàng)韻律特征數(shù)值均低于其他3種情感。另外,各種情感狀態(tài)的波形在重音部分是否加強(qiáng),頭尾部形狀也不盡相同,運(yùn)用以上規(guī)律,可以很清楚地把“高興”、“憤怒”與“悲傷”情感語音區(qū)分開來。

        2.2.2 情感韻律修改

        根據(jù)已統(tǒng)計(jì)的韻律參數(shù)規(guī)律對(duì)截取的中立語音進(jìn)行相關(guān)韻律參數(shù)的修改,可以得到其他帶有情感的語音[10]。其修改方法為:通過調(diào)整基頻曲線,提高或者減小整體基頻數(shù)值,再對(duì)重音、頭尾部形狀做相應(yīng)修改。通過調(diào)整語音時(shí)長(zhǎng),改變不同情感狀態(tài)下的語速快慢。通過調(diào)整語音音量,控制其能量大小。

        本文中將Steve Ember的1000句中立語音通過Cool Edit Pro與praat軟件修改成為高興、憤怒、悲傷3種情感語音各1000句,其修改數(shù)值經(jīng)大量主觀辯聽實(shí)驗(yàn)驗(yàn)證及相關(guān)文獻(xiàn)的參考[11],可基本滿足其他3種情感表達(dá)的需求。另外,修改數(shù)值還跟發(fā)音人的音質(zhì)有直接的關(guān)系,所以除了遵循韻律參數(shù)的大致規(guī)律外,還需依靠人工主觀辯聽修改語音細(xì)節(jié),以求得到更加真實(shí)、情感表達(dá)更加準(zhǔn)確的語音。修改規(guī)則如表2所示(以中立語音為參考值)。

        表2 特征修改規(guī)則

        修改過程中主要以人的主觀辯聽為參考因素,以語音通順、自然流暢為前提。

        2.3 情感語音數(shù)據(jù)的聽辨與評(píng)選

        為了保證所采集的情感語料的可靠性,對(duì)語音情感數(shù)據(jù)進(jìn)行了主觀聽辨與評(píng)選[12]。由于本數(shù)據(jù)庫(kù)不同于傳統(tǒng)數(shù)據(jù)庫(kù),需考慮語音情感表達(dá)準(zhǔn)確度、清晰度、自然度等多方面因素來綜合驗(yàn)證數(shù)據(jù)的可靠性,因此本文運(yùn)用了一種改進(jìn)的模糊綜合評(píng)價(jià)方法對(duì)語音數(shù)據(jù)進(jìn)行評(píng)測(cè)。其步驟如下:

        1)確定綜合因素評(píng)價(jià)集 V={V1,V2,…,V6}。其中,V1,V2,…,V6分別代表情感表達(dá)、情景感、清晰度、自然度、流暢度、噪音影響等6個(gè)子集。

        2)根據(jù)各子集對(duì)整體的影響大小,約定各子集的權(quán)重,得權(quán)重集 A={a1,a2,…,a6}={0.30,0.20,0.10,0.10,0.10,0.20}。

        3)10位評(píng)測(cè)人對(duì)某條語句打分,打分細(xì)則如表3所示。

        表3 語句打分表

        4)歸一化后的數(shù)據(jù)構(gòu)成一個(gè)V的模糊評(píng)價(jià)矩陣

        式中:?為模糊矩陣乘法符號(hào)。歸一化得

        5)求得此條語句的總得分,可以對(duì)5個(gè)級(jí)別分別賦以分值,如約定好為100分,較好為85分,中為65分,較差為35分,差為0分,則總得分

        6)如果語句得分大于等于60分,則保留;否則,認(rèn)為此條語句不合格,剔除之后重新修改。

        3 情感語音庫(kù)的應(yīng)用研究

        將語音情感識(shí)別系統(tǒng)與情感語音合成系統(tǒng)有機(jī)地結(jié)合在一起,使計(jì)算機(jī)能夠與人進(jìn)行情感語音交流是人機(jī)交互應(yīng)用研究的熱點(diǎn)之一。目前,此類技術(shù)已經(jīng)在語音搜索、人工智能、交通醫(yī)療等領(lǐng)域都有了相當(dāng)規(guī)模的應(yīng)用,如谷歌Voice Search、蘋果的Siri通過人類語音信號(hào)即可實(shí)現(xiàn)人機(jī)互動(dòng)。此類技術(shù)的前端方面,即面向用戶和用戶交互(User Interface,UI)的技術(shù),主要就是語音識(shí)別以及語音合成技術(shù),在其中加入情感信息可使人機(jī)交流變得更加人性化。語音識(shí)別技術(shù)是把用戶的口語轉(zhuǎn)化成文字,其中需要強(qiáng)大的語音知識(shí)庫(kù),需要用到“云計(jì)算”技術(shù)。而語音合成則是把返回的文字結(jié)果轉(zhuǎn)化成語音輸出,這個(gè)技術(shù)理論上本地就能完成。這里主要介紹情感語音庫(kù)在語音情感識(shí)別與情感語音合成兩方面的應(yīng)用。

        3.1 在語音情感識(shí)別方面的應(yīng)用

        語音情感識(shí)別是利用計(jì)算機(jī)識(shí)別發(fā)音人情感狀態(tài)的技術(shù)。其流程包括預(yù)處理、特征提取和模式匹配3個(gè)部分,如圖2所示。

        圖2 語音情感識(shí)別系統(tǒng)框圖

        語音情感識(shí)別系統(tǒng)本質(zhì)上是一種模式識(shí)別系統(tǒng),語音庫(kù)中的情感語音信號(hào)經(jīng)過預(yù)處理后進(jìn)行特征參數(shù)提取,然后將不同情感的特征參數(shù)訓(xùn)練成不同的模板庫(kù)。待識(shí)別的語音信號(hào)特征參數(shù)與模板庫(kù)進(jìn)行模式匹配即可得到情感識(shí)別結(jié)果。因此識(shí)別結(jié)果與語音庫(kù)質(zhì)量好壞、模板是否準(zhǔn)確都有直接的關(guān)系。語音庫(kù)的建立為整個(gè)語音情感識(shí)別過程提供了重要的前提工作與基礎(chǔ)。

        3.2 在情感語音合成方面的應(yīng)用

        情感語音合成就是利用語音合成技術(shù)實(shí)現(xiàn)文本到帶有人類情感語音的轉(zhuǎn)換,使機(jī)器也能發(fā)出帶模擬人類情感的語音。本文主要介紹語音庫(kù)在基于HMM情感語音合成法中的應(yīng)用,如圖3所示。

        圖3 基于HMM語音合成訓(xùn)練部分流程圖

        基于HMM的語音合成系統(tǒng)包括訓(xùn)練和合成兩個(gè)部分。在訓(xùn)練部分中需從情感語音庫(kù)中提取激勵(lì)參數(shù)與譜參數(shù),利用上下文相關(guān)因素,對(duì)聲道譜、基頻和時(shí)長(zhǎng)進(jìn)行建模[13]。在之后的合成部分中,輸入的文本利用這些模型通過參數(shù)合成器合成出情感語音。所合成出的情感語音同樣與語音庫(kù)的情感表達(dá)準(zhǔn)確度、語音質(zhì)量等因素有直接的關(guān)系。

        4 小結(jié)

        本文首先利用貪婪算法對(duì)數(shù)據(jù)進(jìn)行篩選,然后通過錄音截取與韻律特征修改這種創(chuàng)新方法設(shè)計(jì)并建立了一種面向語音合成的情感語音庫(kù)。包括中立、悲傷、高興、憤怒4種情感,每種1000句,共4000句情感語音。最后利用模糊綜合評(píng)價(jià)方法對(duì)情感語音數(shù)據(jù)的聽辨與評(píng)選來確保語料的可靠性。同時(shí)簡(jiǎn)要論述了本語音庫(kù)在語音情感識(shí)別與情感語音合成方面的應(yīng)用。

        本文總結(jié)了各種情感狀態(tài)下韻律特征規(guī)律。按照此規(guī)律,通過主觀辯聽調(diào)整中立語音得到情感的語音,這也是本文中的難點(diǎn)。其語音質(zhì)量受到發(fā)音人與主觀辯聽調(diào)整的較大影響,每句語音的具體修改數(shù)值也不盡相同。所以總結(jié)出一套更加具體、完善的韻律特征修改方案是今后工作的研究重心。建立一個(gè)發(fā)音自然度高、情感表達(dá)準(zhǔn)確的語音庫(kù)才是語音情感計(jì)算進(jìn)入實(shí)際應(yīng)用的一個(gè)重要基礎(chǔ)和前提工作。

        [1]GUDNASON J,THOMAS M R P,ELLIS D P W,et al.Data-driven voice source waveform analysis and synthesis[J].Speech Communication,2012,54(2):199-211.

        [2]周沽,趙力,鄒采榮.情感語音合成的研究[J].電聲技術(shù),2005,29(10):57-73.

        [3]陳潔,張雪英,孫穎.基于HMM的可訓(xùn)練情感語音合成研究[J].電聲技術(shù),2012,36(3):43-46.

        [4]ELLEN D C,NICK C,RODDY C,et al.Emotional speech:towards a new generation of databases[J].Speech Communication,2003,40(1):33-60.

        [5]徐露,徐明星,楊大利.面向情感變化檢測(cè)的漢語情感語音數(shù)據(jù)庫(kù)[J].清華大學(xué)學(xué)報(bào):自然科學(xué)版,2009,49(S1):1413-1418.

        [6]龐敏輝.語音庫(kù)自動(dòng)構(gòu)建技術(shù)的研究[D].青島:中國(guó)海洋大學(xué),2010.

        [7]LIEBERMAN P,MICHAELS S B.Some aspects of fundamental frequency and envelop amplitude as related to the emotional content of speech[J].Journal of the Acoustical Society of Ametica,1962,34(7):922-927.

        [8]SCHERER K R,BANZIGER T.Emotional expression in prosody:a review and an agenda for future researeh[C]//Proc.Speech Prosody,2004.Nava,Japan:ISCA Speech,2004:359-366.

        [9]蔣丹寧,蔡蓮紅.基于語音聲學(xué)特征的情感信息識(shí)別[J].清華大學(xué)學(xué)報(bào):自然科學(xué)版,2006,46(l):56-89.

        [10]ELLIOT M II,MARK C,JOHN P,et al.Comparing objective feature statistics of speech for classifying clinical depression[J].IEEE Engineering in Medicine and Biology Society,2004,26(1):17-20.

        [11]黨培霞.基于情感基音模板的情感語音合成[D].長(zhǎng)沙:中南大學(xué),2010.

        [12]黃程韋,金赟,趙艷,等.實(shí)用語音情感數(shù)據(jù)庫(kù)的設(shè)計(jì)與研究[J].聲學(xué)技術(shù),2010,29(4):396-399.

        [13]張雪英,陳潔,孫穎.改進(jìn)的HMM合成系統(tǒng)在英語合成中的研究[J].太原理工大學(xué)學(xué)報(bào),2012,43(1):16-19.

        猜你喜歡
        音素韻律語料
        新目標(biāo)英語七年級(jí)(上)Starter Units 1-3 STEP BY STEP 隨堂通
        依托繪本課程,培養(yǎng)學(xué)生英語音素意識(shí)
        小學(xué)英語課堂中音素意識(shí)與自然拼讀整合訓(xùn)練的探索
        春天的韻律
        中華詩詞(2019年1期)2019-08-23 08:24:12
        ?不定冠詞a與an
        韻律之美——小黃村
        基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
        華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
        維吾爾語話題的韻律表現(xiàn)
        韻律
        国产chinese男男gay视频网| 国产亚洲一区二区毛片| 亚洲视频在线观看第一页| 2021亚洲国产精品无码| 国产男女猛烈无遮挡免费网站 | 亚洲va欧美va人人爽夜夜嗨| 玩弄丝袜美腿超短裙校花| 99精品国产综合久久麻豆| 国产做无码视频在线观看| 欧美成人午夜精品久久久| 麻豆国产巨作AV剧情老师| 亚洲av人片在线观看调教| 黄色精品一区二区三区| 深夜爽爽动态图无遮无挡| 久久亚洲色www成人欧美| 亚洲αⅴ无码乱码在线观看性色| 精品人妻一区二区久久| 日本一区二区在线高清| 日韩精品无码一区二区| 中文字幕亚洲情99在线| 91久久国产情侣真实对白| 精品久久人妻一区二区| 国产情侣自拍一区视频| 玩50岁四川熟女大白屁股直播| 黑人巨大videos极度另类| 色中文字幕视频在线观看| 中文字幕亚洲精品在线免费| 曰韩无码无遮挡a级毛片| 国产亚洲日韩在线三区| 免费视频成人 国产精品网站| 中文字幕文字幕一区二区| 天天干天天日夜夜操| 少妇无码av无码专区| 婷婷色综合成人成人网小说| 一区二区视频资源在线观看| 一本久道高清视频在线观看| √新版天堂资源在线资源| 欧美黑人又粗又大久久久| 久久中文字幕av第二页 | 美女露出粉嫩小奶头在视频18禁| 欧美人和黑人牲交网站上线|