陳鵬展,張 欣,徐芳萍
(華東交通大學(xué)電氣與自動(dòng)化工程學(xué)院,江西 南昌 330013)
基于語(yǔ)音信號(hào)與文本信息的雙模態(tài)情感識(shí)別
陳鵬展,張 欣,徐芳萍
(華東交通大學(xué)電氣與自動(dòng)化工程學(xué)院,江西 南昌 330013)
情感識(shí)別已成為人機(jī)交互不可或缺的部分,目前單模態(tài)情感識(shí)別具有識(shí)別率低、可靠性差的特點(diǎn),故提出一種融合語(yǔ)音信號(hào)與文本信息的雙模態(tài)情感識(shí)別方法。首先,采集特定情感狀態(tài)下的語(yǔ)音信號(hào)及文本信息;然后提取語(yǔ)音相關(guān)特征參數(shù)以及文本情感關(guān)鍵詞特征參數(shù)并對(duì)其進(jìn)行優(yōu)化;最后,對(duì)兩個(gè)單模態(tài)識(shí)別器的輸出結(jié)果進(jìn)行加權(quán)融合獲得識(shí)別結(jié)果。針對(duì)所提算法進(jìn)行了相關(guān)實(shí)驗(yàn)研究,結(jié)果表明雙模態(tài)情感識(shí)別技術(shù)具有更高識(shí)別精度。
語(yǔ)音信號(hào);文本識(shí)別;參數(shù)優(yōu)化;高斯混合模型
情感是人類交流的具體體現(xiàn),在人機(jī)交互中起著重要的作用。而情感識(shí)別是情感計(jì)算的基礎(chǔ),能否進(jìn)行情感識(shí)別直接影響情感計(jì)算的實(shí)現(xiàn)。語(yǔ)音信息作為人類最直接的交流手段,其本身能傳遞豐富的信息資源[1-3],但介于音頻信號(hào)本身存在一些固有缺陷,如信號(hào)弱、噪聲強(qiáng)等,從單一的模型獲得正確的情感狀態(tài)很難滿足當(dāng)前情感識(shí)別系統(tǒng)的需求。多模態(tài)的融合利用語(yǔ)音、生理信號(hào)、面部表情等多個(gè)通道的情感信息互補(bǔ)性提高分類器的識(shí)別性能,從而提高識(shí)別分類器的準(zhǔn)確度。多模態(tài)融合的優(yōu)勢(shì)在于,當(dāng)某一個(gè)通道的特征或者識(shí)別過(guò)程受到缺失或者影響時(shí),另一個(gè)通道仍能保證較好識(shí)別率,使識(shí)別系統(tǒng)具有一個(gè)良好的魯棒性。
以語(yǔ)音信號(hào)與文本信息為基礎(chǔ),研究語(yǔ)音信號(hào)與文本信息的相應(yīng)的情感特征分析及融合算法。通過(guò)對(duì)語(yǔ)音識(shí)別與文本識(shí)別判決結(jié)果進(jìn)行加權(quán)融合,構(gòu)建基于雙模態(tài)分類器,并比較了基于語(yǔ)音信號(hào)與文本信息的單模態(tài)分類器以及基于雙模態(tài)分類器的識(shí)別率。
在人機(jī)交互中,情感識(shí)別技術(shù)所面臨的最大挑戰(zhàn)之一是評(píng)價(jià)說(shuō)話者的情緒。通常對(duì)于說(shuō)話者情緒的判斷,從音頻中提取特征,而語(yǔ)音信號(hào)所表述的文本信息也可以用來(lái)被監(jiān)測(cè)說(shuō)話者的情緒。通過(guò)音頻信號(hào)與文本信息的雙模態(tài)融合,計(jì)算機(jī)可以識(shí)別“誰(shuí)說(shuō)”、“說(shuō)的是什么”、“如何說(shuō)”,以更正確、更自然的實(shí)現(xiàn)與人的互動(dòng)。同時(shí),該技術(shù)具有很高的應(yīng)用價(jià)值,如呼叫中心、電子服務(wù)中心、電子學(xué)習(xí)及娛樂(lè)等。
1.1 語(yǔ)音信號(hào)特征提取
在語(yǔ)音的情感識(shí)別中,能夠表示語(yǔ)音的情感相關(guān)的特征相對(duì)較多[4-6],除一些較為廣泛認(rèn)同的參數(shù),如能量、共振峰、語(yǔ)速、語(yǔ)調(diào)、基音等,還有其他參數(shù),如能量譜分布、線性預(yù)測(cè)倒譜系數(shù)(LPCC)、Mel頻率倒譜系數(shù)(MFCC)。
針對(duì)語(yǔ)音信號(hào)的時(shí)域和頻域特性,經(jīng)過(guò)序列浮動(dòng)前向選擇算法(sequential floating forward selection,SFFS)[7]對(duì)特征集進(jìn)行反復(fù)實(shí)驗(yàn),最終選取了74個(gè)全局統(tǒng)計(jì)特征,其中,特征1~10為基音及其一階差分的均值、最大值、最小值、中值、方差,特征11~20為短時(shí)能量及其差分的均值、最大值、最小值、中值、方差,特征21~25為基因頻率的均值、最大值、最小值、中值、方差,特征26~45為第1~第4共振峰均值、最大值、最小值、中值、方差,特征46~50過(guò)零率均值、最大值、最小值、中值、方差,特征51~74為24階MFCC均值。
圖1 語(yǔ)音信號(hào)分析圖Fig.1 Analysis of speech signal
圖2 同一語(yǔ)句四種情感狀態(tài)下能量波形對(duì)比圖Fig.2 Comparison of energy waveforms of four emotional states under the same statement
1.2 文本信息特征提取
文本信息的特征分析主要在于文本的預(yù)處理和文本向量化表述。文本預(yù)處理主要有語(yǔ)句拆分、簡(jiǎn)化等。句子拆分是將文本分割成一系列單獨(dú)的單詞文本,便于后面的測(cè)試,分詞采用的是大連理工信息檢索研究室整理及標(biāo)注的中文情感詞庫(kù)。
去除停用詞處理在于去除對(duì)分類沒(méi)有意義的詞語(yǔ)減少文本特征向量的維度和不必要的運(yùn)算量。根據(jù)創(chuàng)建的停用詞表使用布隆過(guò)濾器來(lái)去掉所有文本中的停用詞。特征提取采用信息增益(X)[8],名詞Q的X值定義為
其中:Ak(其中k=1,…,m)表示第k類;p(Ak)是在訓(xùn)練樣本集中是Ak類的概率;分別是名詞Q在訓(xùn)練樣本集,不在訓(xùn)練樣本集中出現(xiàn)的概率;分別是名詞Q出現(xiàn)的前提下樣本是Ak類的概率,及名詞Q不出現(xiàn)的前提下樣本是Ak類的概率。X值越高,對(duì)分類預(yù)測(cè)提供的信息就越多。通過(guò)設(shè)定閾值,可以將X值小于閾值的名詞刪除掉,從而降低特征空間維度。
2.1 單通道語(yǔ)音情感識(shí)別模型
音頻情感識(shí)別模型創(chuàng)建思想是:對(duì)原始語(yǔ)音信號(hào)進(jìn)行適當(dāng)?shù)念A(yù)處理獲得有效音頻信號(hào),如分幀、加窗、端點(diǎn)監(jiān)測(cè)等,然后運(yùn)用SFFS算法對(duì)語(yǔ)音信號(hào)所提取的特征進(jìn)行選擇獲得獲取最優(yōu)特征子集,總共包含74個(gè)特征向量,再通過(guò)創(chuàng)建訓(xùn)練樣本與測(cè)試樣本,進(jìn)行高斯混合模型分類器(gaussian mixture model,GMM)[9]進(jìn)行樣本比對(duì),獲得語(yǔ)音情感識(shí)別結(jié)果?;趩瓮ǖ赖恼Z(yǔ)音模型分類器的識(shí)別框架如圖3所示。
2.2 單通道文本情感識(shí)別模型
文本情感識(shí)別模型主要是通過(guò)對(duì)句子中情感關(guān)鍵詞的鎖定進(jìn)行判斷。通過(guò)對(duì)文本內(nèi)容進(jìn)行預(yù)處理、特征提取及相應(yīng)向量轉(zhuǎn)化,然后通過(guò)GMM算法進(jìn)行情感狀態(tài)的測(cè)定。而基于單通道文本分類器識(shí)別框圖如圖4所示。
圖3 語(yǔ)音情感識(shí)別流程圖Fig.3 Flow chart of speech emotion recognition
圖4 文本情感識(shí)別流程圖Fig.4 Flow chart of text emotion recognition
2.3 雙模態(tài)融合識(shí)別模型創(chuàng)建
針對(duì)語(yǔ)音信號(hào)與文本信息的雙模態(tài)融合識(shí)別框圖如圖5所示。該方法可使得單通道情感識(shí)別效果最大化。兩個(gè)單通道識(shí)別結(jié)果作為融合的輸入,通過(guò)行加權(quán)融合實(shí)現(xiàn)雙模態(tài)情感識(shí)別分類。
圖5 雙模態(tài)情感識(shí)別系統(tǒng)框圖Fig.5 Block diagram of double-modal emotion recognition system
本文對(duì)兩種單模態(tài)分類器均采用GMM算法來(lái)進(jìn)行生氣、高興、平靜、悲傷四種情感識(shí)別。高斯混合模型是m個(gè)單高斯分布的加權(quán)和,表示形式如下
式中:xt為第t個(gè)單高斯分布的D維隨機(jī)向量;ai為第i個(gè)單高斯分布的權(quán)值,且為單高斯分布函數(shù),其均值矢量為μi,協(xié)方差矩陣為∑i,即
式中協(xié)方差矩陣可以用滿矩陣,也可以用簡(jiǎn)化對(duì)角矩陣。高斯混合分布密度如公式(4)所示。其中,GMM模型的參數(shù)估計(jì)采用EM算法來(lái)完成,使得GMM能夠最佳的表示樣本的分布概率。
由于單通道在工作環(huán)境中存在一定干擾,本文采用自適應(yīng)加權(quán)融合算法[10]實(shí)現(xiàn)對(duì)兩個(gè)通道信息進(jìn)行更新和融合,各分類器加權(quán)系數(shù)根據(jù)其對(duì)當(dāng)前樣本可靠性進(jìn)行動(dòng)態(tài)調(diào)整,置信度高的分類器所占權(quán)重更高,算法以自適應(yīng)的方式找到每個(gè)分類器的最優(yōu)加權(quán)因子,利用得到的加權(quán)因子實(shí)現(xiàn)雙模態(tài)數(shù)據(jù)融合,獲得最終的分類結(jié)果。對(duì)于待測(cè)樣本特征y,假設(shè),兩個(gè)子分類器均給出了四種情感類的GMM似然度,分別記為P(y|λk),其中k代表情感類別,取值為1~4。各類別的GMM似然度直接決定該分類器的判決置信度的高低。子分類器融合權(quán)值表達(dá)式如公式5所示,其中n為分類器編碼,取1,2。
子分類器的判決置信度的高低與樣本所處概率分布模型的非重疊區(qū)域有關(guān),更直接的表現(xiàn)在分類器給出的似然度值的分散程度,似然值較為分散的分類器,其判決置信度較高,性能則較為可靠。最后,通過(guò)對(duì)兩個(gè)子分類器的判決進(jìn)行加權(quán)融合,獲得最終的分類結(jié)果,加權(quán)融合表示形式如下
其中:Y為雙模態(tài)分類器最終識(shí)別結(jié)果;An表示子分類器分類結(jié)果,由公式(7)求得。當(dāng)I1>I2時(shí),則Y=A1;同理,當(dāng)I2>I1時(shí),則Y=A1。
驗(yàn)證通過(guò)3個(gè)試驗(yàn)結(jié)果對(duì)比來(lái)實(shí)現(xiàn),分別為采用單模態(tài)語(yǔ)音的情感識(shí)別,采用單模態(tài)文本的情感識(shí)別以及采用雙模態(tài)融合的情感識(shí)別。圖6顯示了單模態(tài)語(yǔ)音情感識(shí)別、單模態(tài)文本識(shí)別和基于語(yǔ)音與文本的雙模太融合識(shí)別對(duì)情感的平均識(shí)別率。由圖6可見(jiàn),多模態(tài)的情感識(shí)別技術(shù)對(duì)每類情感的識(shí)別精度均有所提高。
圖6 3種方法識(shí)別率對(duì)比圖Fig.6 Comparison of the recognition rate of three methods
表1 雙模態(tài)融合算法分類情況Tab.1 Classification of the dual mode fusion algorithm %
表1顯示了雙模態(tài)融合方法對(duì)每類情感的正確分類數(shù)。由表1可知,通過(guò)融合算法減少了每類情感的誤判率,其中生氣,高興,平靜,悲傷的誤判率分別為3%,7%,5%,9%。
目前的情感識(shí)別系統(tǒng)多數(shù)是采用單通道情感數(shù)據(jù)進(jìn)行識(shí)別研究,而本文通過(guò)加權(quán)融合方法將兩種不同來(lái)源的數(shù)據(jù)的分類結(jié)果進(jìn)行再次融合,實(shí)現(xiàn)基于語(yǔ)音信號(hào)與文本信息的雙模態(tài)情感識(shí)別系統(tǒng)的研究,進(jìn)行了單模態(tài)語(yǔ)音信號(hào)、文本信息的分類實(shí)驗(yàn)及雙模態(tài)語(yǔ)音信號(hào)與文本信息融合情感識(shí)別實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,基于語(yǔ)音信號(hào)和文本信息的雙模態(tài)融合相對(duì)于單模態(tài)分類器識(shí)別率、魯棒性均得到提高。
參考文獻(xiàn):
[1]VINCIARELLI A,PANTIC M,BOURLARD H,et al.Social signal processing survey of an emerging domain[J].Image Vis Comput J,2009,27(12):1743-1759.
[2]CASALE S,RUSSO A,SCEBBA G,et al.Speech emotion classification using machine learning algorithms[C]//20008 IEEE Internat ional Conference on Semantic Computing.IEEE,Cgnta Clara,CA,USA,2008:158-165.
[3]ZENG Z,PANTIC M,ROISMAN G I,et al.A survey of affect recognition methods audio,visual and spontaneous expressions[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2009,31(1):39-58.
[4]韓文靜,李海峰,阮華斌,等.語(yǔ)音情感識(shí)別研究進(jìn)展綜述[J].軟件學(xué)報(bào),2014,25(1):37-50.
[5]ZHANG X,SUN Y,DUAN S.Progress in speech emotion recognition[J].TENCON 2015-2015 IEEE Region 10 Conference,2015:1-6.
[6]張躍進(jìn),劉邦桂,謝昕.噪聲背景下語(yǔ)音識(shí)別中的端點(diǎn)檢測(cè)[J].華東交通大學(xué)學(xué)報(bào),2007,24(5):135-138.
[7]OVA B N.Floating search methods in feature selection[J].Pattern Recognition Letters,2010,15(11):1119-1125.
[8]申紅,呂寶糧,內(nèi)山將夫,等.文本分類的特征提取方法比較與改進(jìn)[J].計(jì)算機(jī)仿真,2006,23(3):222-224.
[9]黃程韋,金赟,王青云,等.基于語(yǔ)音信號(hào)與心電信號(hào)的多模態(tài)情感識(shí)別[J].東南大學(xué)學(xué)報(bào):自然科學(xué)版,2010,40(5):895-900.
[10]葉云青,王長(zhǎng)征,周日貴.基于最佳指數(shù)因子的自適應(yīng)權(quán)值圖像融合[J].華東交通大學(xué)學(xué)報(bào),2011,28(2):74-79.
Multimodal Emotion Recognition Based on Speech Signal and Text Information
Chen Pengzhan,Zhang Xin,Xu Fangping
(School of electrical and Automation Engineering,East China Jiaotong University,Nanchang 330013,China)
Emotion recognition has become an indispensable part of human-computer interaction.This paper propsesa fusion method of speech signal and the text information in emotion recognition,because of the low recognition rate and poor reliability of single modal emotion recognition.First of all,collecting specific emotional state of the speech signal and text information;then extracting the speech feature parameters and keywords emotional characteristic parameters of text information and optimize it;finally,recognition results are obtained by weighted fusion of the output results of two single modal identification devices.According to the results of experimaental,it showed that the dualmodal emtoion recognition technology has higher recognition accuracy.
speech signal;text recognition;parameter optimization;gauss mixture model
TP391
A
1005-0523(2017)02-0100-05
(責(zé)任編輯 姜紅貴)
2016-10-24
國(guó)家自然科學(xué)基金資助項(xiàng)目(61164011);江西省研究生創(chuàng)新專項(xiàng)資金項(xiàng)目(YC2015-S242);江西省博士后科研擇優(yōu)資助項(xiàng)目(2015KY19)
陳鵬展(1975—),男,副教授,博士,研究方向?yàn)閭鞲芯W(wǎng)絡(luò)、人機(jī)交互。