魯小勇,楊鴻武,郭威彤,裴 東
1.西北師范大學(xué) 計算機(jī)科學(xué)與工程學(xué)院,蘭州 730070 2.西北師范大學(xué) 物理與電子工程學(xué)院,蘭州 730070
基于PAD三維情緒模型的情感語音韻律轉(zhuǎn)換
魯小勇1,楊鴻武2,郭威彤2,裴 東2
1.西北師范大學(xué) 計算機(jī)科學(xué)與工程學(xué)院,蘭州 730070 2.西北師范大學(xué) 物理與電子工程學(xué)院,蘭州 730070
語音信號不僅包含了要表達(dá)的文本內(nèi)容,而且還蘊(yùn)含了大量的情感信息。而情感信息不僅是語音自然度和表現(xiàn)力的重要組成部分,更是人類智能的重要表現(xiàn)方面之一。
目前的合成語音系統(tǒng),雖然在可懂度和自然度上已普遍被用戶所接受,但合成語音仍主要以中性語調(diào)(Neutral Intonation)的方式呈現(xiàn)給用戶,缺乏豐富的情感表達(dá)。因此,高表現(xiàn)力語音合成的研究成為了近年來言語工程領(lǐng)域中一個重要的研究熱點(diǎn)[1]。情感語音的合成主要采用基于隱馬爾可夫模型的統(tǒng)計參數(shù)語音合成方法[2]和基于大規(guī)模語料庫的拼接語音合成方法[3]。前者雖然能夠利用說話人自適應(yīng)變換[4-5]等方法實現(xiàn)情感語音的合成,但統(tǒng)計參數(shù)語音合成的音質(zhì)仍難以被用戶接受。拼接語音合成方法雖然能獲得高質(zhì)量的合成語音,但錄制不同情感的語料庫非常困難。為此,部分研究提出了通過韻律轉(zhuǎn)換實現(xiàn)情感語音合成的方法。文獻(xiàn)[6]選取了喜、怒、哀、樂四種基本情感,進(jìn)行了相應(yīng)的韻律及情感特征研究。文獻(xiàn)[7-8]將PAD三維情緒模型引入高表現(xiàn)力語音合成,文獻(xiàn)[9]利用PAD三維情緒模型實現(xiàn)了情感語音的轉(zhuǎn)換,文獻(xiàn)[10]利用SVR預(yù)測情感韻律參數(shù)。但以上的工作缺乏對基頻曲線的建模,只能簡單修改基頻均值、斜率等參數(shù),不能修改基頻包絡(luò)的形狀,而基頻包絡(luò)的形狀在不同情感的表達(dá)中起著重要的作用。
為了在情感語音的轉(zhuǎn)換中,能夠?qū)l包絡(luò)進(jìn)行轉(zhuǎn)換,設(shè)計了11種典型情感的文本語料,錄制了相應(yīng)的語音語料,采用心理學(xué)的方法標(biāo)注了語音語料的PAD值,運(yùn)用五度字調(diào)模型[11]建立了音節(jié)的基頻模型,并利用廣義回歸神經(jīng)網(wǎng)絡(luò)(Generalized Regression Neural Network,GRNN)構(gòu)造了情感語音韻律參數(shù)的預(yù)測模型。根據(jù)語句的PAD值和語境特征預(yù)測目標(biāo)情感語音的韻律參數(shù),采用STRAIGHT[12]算法實現(xiàn)情感語音的轉(zhuǎn)換。實驗結(jié)果表明,提出的方法得到的轉(zhuǎn)換后的語音,能夠較好地表現(xiàn)出相應(yīng)的情感。
情感描述[13]的主要方法包括離散的情感范疇表示方法和在連續(xù)變化的維度上描述情感的維度表示方法。范疇描述的方法無法表示出情感之間的相對關(guān)系及變化,也難以描述混合情感的情況。因此,本文采用了PAD三維情緒模型來描述情感語音,以便能將情感語音的研究擴(kuò)展為量化情感的計算性研究。
PAD三維情緒模型[14]由三個維度組成:(1)愉悅度(Pleasure-Displeasure),表示情緒狀態(tài)的正、負(fù)性;(2)激活度(Arousal-Nonarousal),表示情緒生理激活水平和警覺性;(3)優(yōu)勢度(Dominance-Submissiveness),表示情緒對他人和外界環(huán)境的控制力和影響力。
在PAD三維情緒模型中,每一種情感都與PAD空間中的位置相對應(yīng)。當(dāng)PAD得分被標(biāo)準(zhǔn)化以后,可以用一組三維坐標(biāo)來唯一表示。三維坐標(biāo)具有高置信度的評價,三個維度基本獨(dú)立。而且,PAD情感坐標(biāo)的評定是通過一套精心設(shè)計的量表來完成的,每一種情感都可以看作是在PAD三維坐標(biāo)系中的一個點(diǎn)。Mehrabian[14]提出了簡化版本的PAD情感量化表,總結(jié)出了常見情感狀態(tài)和對應(yīng)的PAD坐標(biāo)之間的映射關(guān)系。中科院心理所又進(jìn)一步對簡化版PAD情感量表進(jìn)行了中國化的修訂,得到了適用于評定中國人和漢語情感的量化表。
3.1 文本語料設(shè)計
文本語料的設(shè)計,要以有利于情感的激發(fā)與保持為首要目標(biāo),還要兼顧可能產(chǎn)生影響的語音學(xué)和心理學(xué)要素,以及保證與PAD三維空間中選取的典型情感的一致性。同時,情感在PAD情感空間上的選取不能只局限于基本感情,選擇時需要盡量分布均勻,區(qū)分性要強(qiáng)。為了能夠收集到最自然的情感語音,避免語義因素和音素固有聲學(xué)特征的影響,從PAD三維空間的每個象限中各選取了能夠代表該象限的一至兩種常見情感,共10種,分別包括放松、驚奇、溫順、喜悅、輕蔑、厭惡、恐懼、悲傷、焦慮、憤怒。再加上中性情感,共選取了11種典型情感。
文本語料的內(nèi)容既要考慮需要具有一定長度,還要具備豐富的情感特征。在文本語料的設(shè)計方案中,采用了將無情感偏向的句子嵌入到含有11種典型情感的語段中的方式。這樣處理,比單個孤立的句子更容易激發(fā)出所需要的情感特征。實驗中為每種情感各設(shè)計了10個基于特定情景的情感語段,每個情感語段各嵌入一個無情感偏向的語句,最后形成110個不同的語段。在無情感偏向的語句選取上,采取長短結(jié)合的方法,有5到6個語句較長,約為150個音節(jié);有4到5個語句較短,約為50個音節(jié)。這樣,共設(shè)計得到了約2 200個音節(jié)。
每種情感語段的語境信息,包括音節(jié)的聲調(diào)和位置信息,都利用自己開發(fā)的基于TBL算法的韻律邊界標(biāo)注工具[15]和文本分析工具標(biāo)注并手工校對。
表1 部分情感的文本語料
3.2 語音語料的錄制
在特定的情景下,情景激發(fā)[9]的方式比直接地要求產(chǎn)生一種情感更加容易,并且得到的語音表達(dá)也更自然真實。因此,借鑒心理學(xué)領(lǐng)域的經(jīng)驗,通過內(nèi)心模擬情景的方式來激發(fā)所需情感。
在錄音中,選擇了一位女性普通話錄音人在錄音棚中錄音,錄音人不是專業(yè)演員。要求首先錄制中性語音,然后錄制情感語音。在錄制中性語音時,要求錄音人用無表情的、語調(diào)和語速基本不變化的方式朗讀錄音文本。在錄制其他10種情感語音時,首先設(shè)置特定的場景激發(fā)出錄音人相應(yīng)的情感表露,然后再去朗讀文本并錄音。比如,在錄制悲傷情感語音時,利用觀看悲傷的電影片段、觀看悲傷的圖片等來激發(fā)出錄音人的悲傷情感。錄音人的情感被激發(fā)出來后,讓錄音人按照自然的情感表達(dá)方式說出10段情感語句。實驗最終錄制的語音用16 kHz采樣、16 bit量化后以單聲道WAV文件格式保存。
3.3 PAD評定
語音語料錄制結(jié)束后,采用中科院心理所改進(jìn)的漢化版情感量表[16]評測了錄制的語音語料的PAD值,如表2所示。從表2可以看出,錄制的情感語音基本表達(dá)了選取的11種情感。
4.1 轉(zhuǎn)換框架
提出了一種基于GRNN的情感語音韻律轉(zhuǎn)換框架,如圖1所示,包括訓(xùn)練和轉(zhuǎn)換兩部分。
圖1 情感語音韻律轉(zhuǎn)換框架圖
表2 語音語料庫中無情感偏向文本的11種情感PAD得分
在訓(xùn)練過程中,首先從文本語料中提取音節(jié)的語境特征參數(shù),將每個音節(jié)的語境參數(shù)和評定所得到的語句的PAD值作為訓(xùn)練GRNN的輸入?yún)?shù)。同時,從語音語料提取音節(jié)的基頻曲線、時長和停頓時長,利用五度字調(diào)模型對基頻曲線建模,將模型參數(shù)和時長、停頓時長作為GRNN的輸出參數(shù)。利用輸入?yún)?shù)和輸出參數(shù),訓(xùn)練轉(zhuǎn)換模型。
在轉(zhuǎn)換階段,首先根據(jù)文本語料獲得待轉(zhuǎn)換語音的音節(jié)語境參數(shù),與目標(biāo)語音的PAD值同時作為GRNN的輸入?yún)?shù),來預(yù)測目標(biāo)情感語音的音節(jié)的五度字調(diào)模型參數(shù)、時長和停頓時長,并利用五度字調(diào)模型生成目標(biāo)語音的音節(jié)基頻包絡(luò)。同時,對待轉(zhuǎn)換語音,利用STRAIGHT獲得語音的頻譜參數(shù)和非周期索引。最后,利用生成的基頻包絡(luò)、預(yù)測的時長和停頓時長以及STRAIGHT分析獲得的頻譜參數(shù)和非周期索引,合成出目標(biāo)情感語音。
4.2 基于五度字調(diào)模型的基頻建模
因生理、年齡等方面存在差異,人的音高變化也不近相同。但對于一個特定的人或一群人來說,可以找到一個音高的基準(zhǔn)值,語流的音高是在此基準(zhǔn)值上下變動。而且,聲調(diào)的音高變化范圍是相對穩(wěn)定的,有一定的調(diào)域存在。對某一聲調(diào)的單音節(jié)而言,發(fā)音人不同和時長不同時,基頻的依時變化雖有差異,但大體趨勢是相同的,即調(diào)型大體相同?;诖?,本文利用式(1)所示的歸一化五度字調(diào)模型,來刻畫不同調(diào)值的基頻曲線。
其中,t是歸一化的時間,范圍為[ ] 0..1。fc是對數(shù)表示的體現(xiàn)嗓音高低的中值基頻,fd是對數(shù)表示的基頻變化的調(diào)域,f0i(t)是一個如式(2)所示的四次曲線,代表四個聲調(diào)的調(diào)型函數(shù),i代表陰平、陽平、上聲、去聲四種聲調(diào)。F0i(t)是生成的基頻曲線。
利用原始基頻值,得到每個音節(jié)的基頻中值及調(diào)域。然后,根據(jù)音節(jié)基頻點(diǎn)數(shù)算得相應(yīng)音節(jié)的歸一化時間,通過式(2)擬合求得基于音節(jié)的四次多項式系數(shù)。最后,再通過式(1)在歸一化時間下得到基于五度字調(diào)模型的音節(jié)基頻曲線。
4.3 基于GRNN的預(yù)測模型
4.3.1 GRNN的結(jié)構(gòu)
1.1 一般資料 2010年10月至2015年3月共30例惡性腫瘤患者治療前后在復(fù)旦大學(xué)附屬中山醫(yī)院核醫(yī)學(xué)科行18F-FDG PET/CT顯像,其中男性20例,女性10例;年齡15~87歲,平均(56.17±14.96)歲。30例中,肺癌5例,胰腺癌4例,非霍奇金淋巴瘤19例,慢性淋巴細(xì)胞白血病/小B細(xì)胞淋巴瘤1例,背部多形性未分化肉瘤1例。
GRNN是一種基于徑向基函數(shù)網(wǎng)絡(luò)結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò),利用非線性回歸理論,從訓(xùn)練數(shù)據(jù)中估計輸入輸出之間的映射關(guān)系。設(shè)向量x是輸入向量,其對應(yīng)的輸出為標(biāo)量 y, x和y是隨機(jī)變量。
設(shè)向量x和標(biāo)量y是隨機(jī)變量,X和Y是測量值,定義f(x ,y)是連續(xù)概率密度函數(shù)。如果 f(x ,y)已知,容易得到y(tǒng)在x上的回歸為:
其中,ωij為對應(yīng)于輸入訓(xùn)練矢量 χi和輸出 j的目標(biāo)輸出,hi=exp[- D2
i/(2σ2)]為隱層神經(jīng)元的輸出,Di2=(X-Xi)T(X-Xi)
為輸入矢量和訓(xùn)練矢量距離的平方,σ稱其為光滑因子spread。
GRNN由四層構(gòu)成,它們分別為輸入層(input layer)、模式層(pattern layer)、加和層(summation layer)和輸出層(output layer)。輸入層的各單元是簡單的線性單元,直接將輸入變量傳遞給模式層;模式層又稱隱回歸層,每個單元對應(yīng)于一個訓(xùn)練樣本,以高斯函數(shù)e-d(xo,xi)為活化核函數(shù),xi為各單元核函數(shù)的中心矢量,共有n個單元;加和層有兩個單元,其一計算模式層各單元輸出的加權(quán)和,權(quán)為各訓(xùn)練樣品的 yi值,算得式(4)的分子,稱為分子單元,另一單元計算模式層各單元的輸出之和,算得式(4)的分母,稱為分母單元;輸出層單元將加和層分子、分母單元的輸出相除,算得y的估算值。
4.3.2 GRNN的輸入輸出參數(shù)
以語句的PAD值、音節(jié)的聲調(diào)信息和位置信息作為GRNN的輸入?yún)?shù),以音節(jié)基頻包絡(luò)的五度字調(diào)模型參數(shù)和音節(jié)的時長、停頓時長作為GRNN的輸出參數(shù),設(shè)計了如圖2所示的情感語音韻律預(yù)測模型。GRNN的輸入?yún)?shù)和輸出參數(shù)見表3和表4。
圖2 GRNN情感語音韻律預(yù)測模型圖
表4 GRNN的輸出參數(shù)
5.1 五度字調(diào)基頻模型的性能評測
為了能夠更加精確地構(gòu)建基于GRNN的情感語音韻律轉(zhuǎn)換模型,在訓(xùn)練GRNN模型之前,利用五度字調(diào)模型轉(zhuǎn)換了所有情感音節(jié)的基頻曲線,建立了各個音節(jié)的基頻模型。圖3示例了一句語音的原始基頻曲線和五度字調(diào)模型生成的基頻曲線。圖中,虛點(diǎn)曲線代表原始基頻曲線,實線曲線代表五度字調(diào)模型生成的基頻曲線。原始的基頻曲線利用STRAIGHT算法計算獲得。從圖中可以看出,五度字調(diào)模型產(chǎn)生的基頻曲線能夠很好地逼近原始基頻曲線,而且比原始基頻曲線更為光滑。
圖3 語料10在焦慮情感下兩種算法基頻曲線對比圖
表3 GRNN的輸入?yún)?shù)
為了進(jìn)一步檢驗五度字調(diào)模型對音節(jié)基頻包絡(luò)的建模性能,文中計算了五度字調(diào)模型產(chǎn)生的基頻曲線與原始基頻曲線之間的均方根誤差(Root-Mean-Square Error,RMSE),如表5所示。RMSE的計算如式(5)所示:
其中,di為測量值與平均值的偏差,其中i=1,2,…,n。
表5列出了五度字調(diào)模型對不同情感的音節(jié)基頻包絡(luò)建模的RMSE值,從表中可以看出,恐懼情感的誤差最大,放松情感的誤差最小,但最大誤差不超過6.9 Hz。因此,五度字調(diào)模型能夠滿足對基頻曲線建模的要求。
表5 五度字調(diào)模型對各類情感的基頻包絡(luò)建模的RMSE
5.2 GRNN預(yù)測模型的性能評測
按照本文模型的轉(zhuǎn)換框架,在訓(xùn)練階段,將實驗語料的4/5,用于GRNN模型的訓(xùn)練中。在對該模型進(jìn)行了多次的訓(xùn)練并利用交叉驗證的方法后,尋找得到了在spread值為0.7時,模型達(dá)到了最優(yōu)狀態(tài)。在此基礎(chǔ)上,將剩余的1/5實驗語料作為測試數(shù)據(jù),應(yīng)用于訓(xùn)練階段得到的GRNN模型中,預(yù)測得到了相應(yīng)情感語句的五度字調(diào)模型參數(shù)、時長和停頓時長,并利用五度字調(diào)模型生成了音節(jié)的基頻包絡(luò)。圖4和圖5分別顯示了恐懼和焦慮情感下的預(yù)測結(jié)果,其文本內(nèi)容為“去忙你的事情吧!”。從圖中可以看出,預(yù)測得到的基頻曲線范圍及其走勢都比較接近原始的情感語音。
圖4 原始恐懼情感曲線與預(yù)測恐懼情感曲線對比圖
圖5 原始焦慮情感曲線與預(yù)測焦慮情感曲線對比圖
為了進(jìn)一步觀察GRNN模型的性能,利用式(5)計算了預(yù)測的基頻、時長和停頓時長的RMSE值,如表6所示。
表6 GRNN模型預(yù)測的基頻、時長和停頓時長的RMSE
同時,為了進(jìn)一步驗證GRNN的性能,對模型預(yù)測值和原始值進(jìn)行了相關(guān)分析,如表7所示。
表7 11種情感下所有特征相關(guān)系數(shù)的平均值
表7中,R為相關(guān)系數(shù),當(dāng)R=1時,為完全相關(guān)。從中可以看到中性、放松、溫順、焦慮等情感,在模型中所有預(yù)測特征達(dá)到了較好的相關(guān)。
5.3 轉(zhuǎn)換結(jié)果的主觀評測
采用情感平均評定得分(Emotion Mean Opinion Score,EMOS),對轉(zhuǎn)換后的情感語音進(jìn)行主觀評測。EMOS評測方法主要側(cè)重于對情感表達(dá)程度的評測,它用5級評分標(biāo)準(zhǔn)來評價變換后語音相對于原始語音而言情感表達(dá)的相似度。EMOS評測將語音質(zhì)量分為優(yōu)、良、中、差和劣5個等級,各等級分別給以5分、4分、3分、2分、1分的權(quán)值。在實驗中,選擇了10名從未接觸過EMOS打分的本科生,五男五女。將實驗轉(zhuǎn)換得到的440句語句,每人從中隨機(jī)選取110句進(jìn)行評測。在評測時,首先播放原始情感語音,作為自然語音的標(biāo)準(zhǔn),該語音的EMOS得分為5分,然后根據(jù)被測試語音的情感相似度進(jìn)行EMOS打分。最后,將各聽音人對所評測語音的打分結(jié)果平均后計算出最終的EMOS得分,并且計算了其95%的置信區(qū)間,如圖6所示。
圖6 EMOS主觀評測結(jié)果及95%置信區(qū)間
從圖6中可以分析發(fā)現(xiàn),類似于輕蔑、恐懼、悲傷和憤怒等一些典型情感的體現(xiàn),其不僅僅是在其韻律特征上,而是更注重語音、面部表情、心理等多方面綜合的反映。如果僅用語音的一些聲學(xué)韻律特征,還不能夠較為充分地體現(xiàn)其相應(yīng)的情感成分的。所以,才導(dǎo)致了部分典型情感的EMOS得分偏低的結(jié)果。
通過PAD三維情緒模型以及基于五度字調(diào)模型的基頻建模,利用GRNN神經(jīng)網(wǎng)絡(luò)建立了一個人不同情感語音轉(zhuǎn)換的韻律特征模型,最終得到了其相應(yīng)的情感語音。實驗表明,在語料庫數(shù)據(jù)較少的情況下,從聽音測試結(jié)果顯示了本文所給出的轉(zhuǎn)換方法還是一個比較可行的方法。但是,由于情感語音的變化不僅僅體現(xiàn)在基頻的變化上,因此,還需要加入其他一些語音參數(shù)進(jìn)行設(shè)置深入分析。進(jìn)一步的工作包括將PAD三維情緒模型應(yīng)用于統(tǒng)計參數(shù)語音合成,實現(xiàn)基于HMM的情感語音合成。
[1]蔡蓮紅,賈珈,鄭方.言語信息處理的進(jìn)展[J].中文信息學(xué)報,2011,25(6):137-141.
[2]Zen H,Tokuda K,Black A W.Statistical parametric speech synthesis[J].Speech Communication,2009,51(11):1039-1064.
[3]蔡蓮紅,崔丹丹,蔡銳.漢語普通話語音合成語料庫TH-CoSS的建設(shè)和分析[J].中文信息學(xué)報,2007,21(2):94-99.
[4]YamagishiJ,KobayashiT,NakanoY,etal.Analysisof speaker adaptation algorithms for HMM-based speech synthesis and a constrained SMAPLR adaptation algorithm[J]. IEEE Transactions on Audio,Speech,and Language Processing,2009,17(1):66-83.
[5]Nose T,Tachibana M,Kobayashi T.HMM-based style control for expressive speech synthesis with arbitrary speaker's voice using modeladaptation[J].IEICE Trans on Inf& Syst,2009,E92-D(3):489-497.
[6]徐俊,蔡蓮紅.面向情感轉(zhuǎn)換的層次化韻律分析與建模[J].清華大學(xué)學(xué)報:自然科學(xué)版,2009,49(S1):1274-1277.
[7]YangHongwu,MengH M,CaiLianhong.Modelingthe acousticcorrelatesof expressiveelementsin text genres for expressive text-to-speech synthesis[C]//Proceedings of International Conference on Spoken Language Processing. Pittsburg,USA:[s.n.],2006:1806-1809.
[8]Wu Zhiyong,Meng H M,Yang Hongwu,et al.Modeling the expressivity of input text semantics for chinese text-to-speech synthesisin a spoken dialog system[J].IEEE Transactions on Audio,Speech,and Language Processing,2009,17(8):1567-1577.
[9]崔丹丹.情感語音分析與變換的研究[D].北京:清華大學(xué),2007.
[10]周慧,楊鴻武,蔡蓮紅.基于SVR的情感語音變換[J].西北師范大學(xué)學(xué)報:自然科學(xué)版,2009,45(1):62-66.
[11]Guo Weitong,Yang Hongwu,Pei Dong,et al.Prosody conversion of Chinese northwest mandarin dialect based on five degree tone model[J].International Journal of Digital ContentTechnology and its Applications,2012,6(17):323-332.
[12]Kawahara H,Masuda-Katsuse I,de Cheveigne A.Restructuring speech representations using a pitch-adaptive time-frequency smoothing and an instantaneous-frequency-based F0 extraction:possible role of a repetitive structure in sounds[J]. Speech Communication,1999,27(3/4):187-207.
[13]Cowie R,Cornelius R R.Describing the emotional states thatare expressed in speech[J].Speech Communication,2003,40:5-32.
[14]Mehrabian A.Correlations of the PAD emotion scales with self-reported satisfaction in marriage and work[J].Genet Soc Gen Psychol Monogr,1998,124(3).
[15]楊鴻武,王曉麗,陳龍,等.基于語法樹高度的漢語韻律短語預(yù)測[J].計算機(jī)工程與應(yīng)用,2010,46(36):139-143.
[16]Li Xiaoming,Zhou Haotian.The reliability and validity of the Chinese version of abbreviated PAD emotion scales[J]. Affective Computing and Intelligent Interaction,2005,3784 (1):513-518.
LU Xiaoyong1,YANG Hongwu2,GUO Weitong2,PEI Dong2
1.College of Computer Science and Engineering,Northwest Normal University,Lanzhou 730070,China 2.College of Physics and Electronic Engineering,Northwest Normal University,Lanzhou 730070,China
This paper proposes a framework for prosody conversion of emotional speech based on PAD three dimensional emotion model.It designs an emotional speech corpus including 11 kinds of emotional utterances.Each utterance is labelled the emotional information with PAD value.A five-scale tone model is employed to model the pitch contour of emotional speech at the syllable level.It builds a Generalized Regression Neural Network(GRNN)based prosody conversion model to realize the transformation of pitch contour,duration and pause duration of emotional speech according to the PAD values of emotion and context information of text.Speech is then re-synthesized with the STRAIGHT algorithm by modifying pitch contour,duration and pause duration.Experimental results on Emotional Mean Opining Score(EMOS)demonstrate that the modified speeches achieve 3.6 of average Emotional Mean Opining Score(EMOS).
PAD emotion model;five degree tone model;Generalized Regression Neural Network(GRNN);STRAIGHT algorithm;prosody conversion
提出了一種基于PAD三維情緒模型的情感語音韻律轉(zhuǎn)換方法。選取了11種典型情感,設(shè)計了文本語料,錄制了語音語料,利用心理學(xué)的方法標(biāo)注了語音語料的PAD值,利用五度字調(diào)模型對情感語音音節(jié)的基頻曲線建模。在此基礎(chǔ)上,利用廣義回歸神經(jīng)網(wǎng)絡(luò)(Generalized Regression Neural Network,GRNN)構(gòu)建了一個情感語音韻律轉(zhuǎn)換模型,根據(jù)情感的PAD值和語句的語境參數(shù)預(yù)測情感語音的韻律特征,并采用STRAIGHT算法實現(xiàn)了情感語音的轉(zhuǎn)換。主觀評測結(jié)果表明,提出的方法轉(zhuǎn)換得到的11種情感語音,其平均EMOS(Emotional Mean Opinion Score)得分為3.6,能夠表現(xiàn)出相應(yīng)的情感。
PAD情緒模型;五度字調(diào)模型;廣義回歸神經(jīng)網(wǎng)絡(luò)(GRNN);STRAIGHT算法;韻律轉(zhuǎn)換
A
TP391
10.3778/j.issn.1002-8331.1211-0193
LU Xiaoyong,YANG Hongwu,GUO Weitong,et al.Prosody conversion of emotional speech based on PAD three dimensional emotion model.Computer Engineering and Applications,2013,49(5):230-235.
國家自然科學(xué)基金(No.61263036,No.60875015);甘肅省自然科學(xué)基金(No.1107RJZA112,No.1208RJYA078)。
魯小勇(1982—),男,講師,主研方向:語音合成;楊鴻武,通訊作者,男,博士,教授;郭威彤,女,助教;裴東,男,副教授。E-mail:yanghw@nwnu.edu.cn
2012-11-19
2013-01-14
1002-8331(2013)05-0230-06