韓志艷,王 健
(渤海大學(xué) 工學(xué)院,遼寧 錦州 121000)
多模式情感識(shí)別特征參數(shù)融合算法研究
韓志艷,王 健
(渤海大學(xué) 工學(xué)院,遼寧 錦州 121000)
為了克服單模式情感識(shí)別存在的局限性,文中以語(yǔ)音信號(hào)和面部表情信號(hào)為研究對(duì)象,提出了一種新型的多模式情感識(shí)別算法。首先,將提取的語(yǔ)音信號(hào)和面部表情信號(hào)特征進(jìn)行融合,然后通過(guò)有放回地抽樣獲得各訓(xùn)練樣本集,并利用Adaboost算法訓(xùn)練獲得各子分類(lèi)器。再采用雙誤差異性選擇策略來(lái)度量?jī)蓛煞诸?lèi)器之間的差異性。最后運(yùn)用多數(shù)投票原則進(jìn)行投票,得到最終識(shí)別結(jié)果。實(shí)驗(yàn)結(jié)果表明,該方法充分發(fā)揮了決策層融合與特征層融合的優(yōu)點(diǎn),使整個(gè)情感信息的融合過(guò)程更加接近人類(lèi)情感識(shí)別,情感識(shí)別率達(dá)91.2%。
多模式;情感識(shí)別;語(yǔ)音信號(hào);面部表情信號(hào)
近年來(lái),情感識(shí)別的研究工作在人機(jī)交互領(lǐng)域中已經(jīng)成為一個(gè)熱點(diǎn)問(wèn)題。國(guó)內(nèi)外情感識(shí)別的研究主要有兩大類(lèi):一類(lèi)是單模式情感識(shí)別;另一類(lèi)是多模式情感識(shí)別。所謂單模式情感識(shí)別,為只從單一信息通道中獲得當(dāng)前對(duì)象的情感狀態(tài),如從語(yǔ)音信號(hào)、面部表情信號(hào)或生理信號(hào)(血壓、體溫、脈搏、心電、腦電、皮膚電阻等)等。
對(duì)于語(yǔ)音情感識(shí)別,1990年麻省理工大學(xué)多媒體實(shí)驗(yàn)室構(gòu)造了一個(gè)“情感編輯器”對(duì)外界各種情感信號(hào)進(jìn)行采樣來(lái)識(shí)別各種情感,并讓機(jī)器對(duì)各種情感做出適當(dāng)?shù)姆磻?yīng)[1]。顏永紅等[2]采用非均勻子帶濾波器來(lái)挖掘?qū)φZ(yǔ)音情感有益的信息,加大了各類(lèi)情感之間的鑒別性,提高了情感識(shí)別的性能。毛峽等[3]通過(guò)用相關(guān)密度和分形維數(shù)作為情感特征參數(shù)來(lái)進(jìn)行語(yǔ)音情感識(shí)別,獲得了較好的性能。鄒采榮等[4]提出了一種基于改進(jìn)模糊矢量量化的語(yǔ)音情感識(shí)別方法,有效地改善了現(xiàn)有模糊矢量量化方法的情感識(shí)別率。Attabi等[5]將錨模型的思想應(yīng)用到了語(yǔ)音情感識(shí)別中,改進(jìn)了識(shí)別系統(tǒng)的性能。Zheng等[6]通過(guò)對(duì)傳統(tǒng)的最小二乘回歸算法進(jìn)行改進(jìn),提出了不完稀疏最小二乘回歸算法,能同時(shí)對(duì)標(biāo)記和未標(biāo)記語(yǔ)音數(shù)據(jù)進(jìn)行情感識(shí)別。Mao等[7]通過(guò)使用卷積神經(jīng)網(wǎng)絡(luò)來(lái)選擇對(duì)情感有顯著影響的特征,取得了很好的效果。
雖然單一地依靠語(yǔ)音信號(hào)、面部表情信號(hào)和生理參數(shù)來(lái)進(jìn)行情感識(shí)別的研究取得了一定的成果,但卻存在著很多局限性,因?yàn)槿祟?lèi)是通過(guò)多模式的方式表達(dá)情感信息的,它具有表達(dá)的復(fù)雜性和文化的相對(duì)性[16]。比如,在噪聲環(huán)境下,當(dāng)某一個(gè)通道的特征受到干擾或缺失時(shí),多模式方法能在某種程度上產(chǎn)生互補(bǔ)的效應(yīng),彌補(bǔ)了單模式的不足,所以研究多模式情感識(shí)別的方法十分必要。例如,Kim等[17]融合了肌動(dòng)電流、心電、皮膚電導(dǎo)和呼吸4個(gè)通道的生理參數(shù),并采用聽(tīng)音樂(lè)的方式來(lái)誘發(fā)情感,實(shí)現(xiàn)了對(duì)積極和消極兩大類(lèi)情感的高效識(shí)別。黃程韋等[18]通過(guò)融合語(yǔ)音信號(hào)與心電信號(hào)進(jìn)行了多模式情感識(shí)別,獲得較高的融合識(shí)別率。但是上述方法均為與生理信號(hào)相融合,而生理信號(hào)的測(cè)量必須與身體接觸,因此對(duì)于此通道的信號(hào)獲取有一定的困難,所以語(yǔ)音和面部表情作為兩種最為主要的表征情感的方式,得到了廣泛研究。例如,Busso等[19]分析了單一的語(yǔ)音情感識(shí)別與人臉表情識(shí)別在識(shí)別性能上的互補(bǔ)性。Hoch等[20]通過(guò)融合語(yǔ)音與表情信息,在車(chē)載環(huán)境下進(jìn)行了正面(愉快)、負(fù)面(憤怒)與平靜共3種情感狀態(tài)的識(shí)別。Sayedelahl等[21]通過(guò)加權(quán)線性組合的方式在決策層對(duì)音視頻信息中的情感特征進(jìn)行融合識(shí)別。
從一定意義上說(shuō),不同信道信息的融合是多模式情感識(shí)別研究的瓶頸問(wèn)題,它直接關(guān)系到情感識(shí)別的準(zhǔn)確性。因此,文中以語(yǔ)音信號(hào)和面部表情信號(hào)為基礎(chǔ),提出了一種多模式情感識(shí)別算法,對(duì)高興、憤怒、驚奇、悲傷和恐懼五種人類(lèi)基本情感進(jìn)行識(shí)別。
系統(tǒng)結(jié)構(gòu)框架如圖1所示。首先對(duì)情感數(shù)據(jù)進(jìn)行一系列預(yù)處理,然后提取語(yǔ)音情感特征和面部表情特征,最后進(jìn)行融合識(shí)別。
圖1 系統(tǒng)結(jié)構(gòu)框架
3.1 語(yǔ)音情感參數(shù)提取
以往對(duì)情感特征參數(shù)的有效提取主要以韻律特征為主,然而近年來(lái)通過(guò)深入研究發(fā)現(xiàn),音質(zhì)特征和韻律特征相互結(jié)合才能更準(zhǔn)確地識(shí)別情感。Tato等[22]研究發(fā)現(xiàn),音質(zhì)類(lèi)特征對(duì)于區(qū)分激活維接近的情感有較好的效果,證實(shí)了共振峰等音質(zhì)類(lèi)特征與效價(jià)維度的相關(guān)性較強(qiáng)。
為了盡可能地利用語(yǔ)音信號(hào)中所包含的有關(guān)情感方面的信息,文中選取了語(yǔ)句發(fā)音持續(xù)時(shí)間與相應(yīng)的平靜語(yǔ)句持續(xù)時(shí)間的比值、基音頻率平均值、基音頻率最大值、基音頻率平均值與相應(yīng)平靜語(yǔ)句的基音頻率平均值的差值、基音頻率最大值與相應(yīng)平靜語(yǔ)句的基音頻率最大值的差值、振幅平均能量、振幅能量的動(dòng)態(tài)范圍、振幅平均能量與相應(yīng)平靜語(yǔ)句的振幅平均能量的差值、振幅能量動(dòng)態(tài)范圍與相應(yīng)平靜語(yǔ)句的振幅能量動(dòng)態(tài)范圍的差值、第一共振峰頻率的平均值、第二共振峰頻率的平均值、第三共振峰頻率的平均值、諧波噪聲比的均值、諧波噪聲比的最大值、諧波噪聲比的最小值、諧波噪聲比的方差,作為情感識(shí)別用的特征參數(shù)。
對(duì)全市排灌泵站相關(guān)信息進(jìn)行統(tǒng)一管理,實(shí)現(xiàn)排灌泵站信息的錄入、增加、刪除、修改等操作,并可按給定條件(尺寸、流量、河道、圩區(qū)、功率、區(qū)域范圍、建設(shè)日期等)進(jìn)行信息搜索,同時(shí)根據(jù)需求形成相應(yīng)報(bào)表實(shí)現(xiàn)導(dǎo)出及打印功能。
3.2 面部表情參數(shù)提取
目前面部表情特征的提取根據(jù)圖像性質(zhì)的不同可分為靜態(tài)圖像特征提取和序列圖像特征提取,靜態(tài)圖像中提取的是表情的形變特征,而序列圖像特征是運(yùn)動(dòng)特征。文中以靜態(tài)圖像為研究對(duì)象,采用Gabor小波變換來(lái)提取面部表情參數(shù)。具體過(guò)程如下:
(1)將預(yù)處理后的人臉圖像網(wǎng)格化為25×25像素,所以每張臉共有4行3列共12個(gè)網(wǎng)格。
(2)用Gabor小波和網(wǎng)格化后的圖像進(jìn)行卷積,公式如下:
r(x,y)=?I(ε,η)g(x-ε,y-η)dεdη
(1)
(3)取卷積結(jié)果的?!瑀(x,y)‖的均值和方差作為面部表情參數(shù)。
(4)用主成分分析法(PCA)對(duì)上述特征進(jìn)行降維處理,獲得的面部表情特征參數(shù)作為特征融合的特征參數(shù)。
具體實(shí)施步驟如下:
第一步:通過(guò)噪聲刺激和觀看影視片段等誘發(fā)方式,采集相應(yīng)情感狀態(tài)下的語(yǔ)音信號(hào)和面部表情信號(hào),并將二者綁定存儲(chǔ)。對(duì)于語(yǔ)音數(shù)據(jù),在提取特征之前要進(jìn)行一階數(shù)字預(yù)加重、分幀、加漢明窗和端點(diǎn)檢測(cè)等預(yù)處理。對(duì)于面部表情數(shù)據(jù),在提取特征之前要首先用膚色模型進(jìn)行臉部定位,然后進(jìn)行圖像幾何特性歸一化處理和圖像光學(xué)特性的歸一化處理。其中,圖像幾何特性歸一化主要以兩眼位置為依據(jù),而圖像光學(xué)特性的歸一化處理包括先用直方圖均衡化方法對(duì)圖像灰度做拉伸,以改善圖像的對(duì)比度,然后對(duì)圖像像素灰度值進(jìn)行歸一化處理,使標(biāo)準(zhǔn)人臉圖像的像素灰度值為0,方差為1,如此可以部分消除光照對(duì)識(shí)別結(jié)果的影響。
第二步:根據(jù)3.1節(jié)和3.2節(jié)的方法提取語(yǔ)音情感參數(shù)和面部表情參數(shù)。
第三步:將提取的語(yǔ)音情感參數(shù)和面部表情參數(shù)順序組合起來(lái),獲得多模式特征向量u1,以此類(lèi)推,獲得了原始訓(xùn)練樣本集中所有的多模式特征向量u2,…,ur,…,uW。其中,r=1,2,…,W,W為原始訓(xùn)練樣本集中語(yǔ)音信號(hào)樣本數(shù),即面部表情信號(hào)樣本數(shù)。
第四步:通過(guò)對(duì)多模式特征向量集有放回地抽樣N次獲得訓(xùn)練樣本集S1,然后依次繼續(xù)抽取樣本獲得訓(xùn)練樣本集S2,…,SM,即獲得M個(gè)訓(xùn)練樣本集。
第五步:利用Adaboost算法對(duì)上述M個(gè)訓(xùn)練樣本集Sk,k=1,2,…,M,分別進(jìn)行訓(xùn)練,獲得每個(gè)訓(xùn)練樣本集上的強(qiáng)分類(lèi)器。其中,以三層BP神經(jīng)網(wǎng)絡(luò)作為弱分類(lèi)器。
第六步:采用雙誤差異性選擇策略來(lái)度量?jī)蓛蓮?qiáng)分類(lèi)器之間的差異性,并挑選出大于平均差異性的強(qiáng)分類(lèi)器作為識(shí)別分類(lèi)器,其強(qiáng)分類(lèi)器Hi和Hj(i≠j)之間的差異性公式如下:
(2)
其中,numab表示兩兩強(qiáng)分類(lèi)器分類(lèi)正確/錯(cuò)誤的樣本數(shù),a=1和a=0分別表示強(qiáng)分類(lèi)器Hi分類(lèi)正確和錯(cuò)誤,b=1和b=0分別表示強(qiáng)分類(lèi)器Hj分類(lèi)正確和錯(cuò)誤。
第七步:運(yùn)用多數(shù)優(yōu)先投票原則進(jìn)行投票,得到最終識(shí)別結(jié)果。
為證明文中方法的識(shí)別效果,將單模式條件下與多模式條件下的識(shí)別結(jié)果進(jìn)行對(duì)比。原始訓(xùn)練樣本集包含每種情感的200條語(yǔ)音數(shù)據(jù)樣本與200條面部表情數(shù)據(jù)樣本,測(cè)試集包含每種情感的100條語(yǔ)音數(shù)據(jù)樣本和100條面部表情數(shù)據(jù)樣本。
在單模式條件下,僅通過(guò)語(yǔ)音信號(hào)進(jìn)行識(shí)別的情感識(shí)別正確率如表1所示,僅通過(guò)面部表情信號(hào)進(jìn)行識(shí)別的情感識(shí)別正確率如表2所示。
表1 僅通過(guò)語(yǔ)音信號(hào)進(jìn)行識(shí)別的正確率 %
表2 僅通過(guò)面部表情信號(hào)進(jìn)行識(shí)別的正確率 %
由表1和表2可知,僅通過(guò)語(yǔ)音信號(hào)進(jìn)行識(shí)別的平均識(shí)別正確率是81.4%;僅通過(guò)面部表情信號(hào)進(jìn)行識(shí)別的平均識(shí)別正確率是77.8%。因此,單純依靠語(yǔ)音信號(hào)或面部表情信號(hào)進(jìn)行識(shí)別在實(shí)際應(yīng)用中會(huì)遇到一定的困難,因?yàn)槿祟?lèi)是通過(guò)多模式的方式表達(dá)情感信息的,所以研究多模式情感識(shí)別的方法十分必要。
在多模式條件下,通過(guò)簡(jiǎn)單組合文中的語(yǔ)音信號(hào)和面部表情信號(hào)特征進(jìn)行識(shí)別的情感識(shí)別正確率如表3所示,通過(guò)文中方法進(jìn)行識(shí)別的情感識(shí)別正確率如表4所示。
注:表中第i行第j列的元素表示真實(shí)情感狀態(tài)是i的樣本被判別成j的比例。
表3 通過(guò)簡(jiǎn)單組合語(yǔ)音信號(hào)和面部表情信號(hào)進(jìn)行識(shí)別的正確率 %
表4 文中方法進(jìn)行識(shí)別的情感識(shí)別正確率 %
從表3可以看出,通過(guò)簡(jiǎn)單組合語(yǔ)音信號(hào)和面部表情信號(hào)進(jìn)行識(shí)別的正確率有所提高,但是提高的并不太明顯,因此不同模式信息的融合是多模式情感識(shí)別研究的瓶頸問(wèn)題,它直接關(guān)系到情感識(shí)別的準(zhǔn)確性。從表4可以看出,情感識(shí)別的平均正確率達(dá)到了91.2%,因此文中方法充分發(fā)揮了決策層融合與特征層融合的優(yōu)點(diǎn),使整個(gè)融合過(guò)程更加接近人類(lèi)情感識(shí)別,從而提高了情感識(shí)別的平均正確率。
文中充分發(fā)揮了決策層融合與特征層融合的優(yōu)點(diǎn),提出了一種新型的多模式情感識(shí)別算法,從而提高了情感識(shí)別的正確率。但是文中只是針對(duì)特定文本的語(yǔ)音情感進(jìn)行識(shí)別,要達(dá)到實(shí)用的程度尚需一定距離,所以非特定文本的語(yǔ)音情感識(shí)別將是下一步的研究方向。
[1] 余伶俐,蔡自興,陳明義.語(yǔ)音信號(hào)的情感特征分析與識(shí)別研究綜述[J].電路與系統(tǒng)學(xué)報(bào),2007,12(4):76-84.
[2] 顏永紅,周 瑜,孫艷慶,等.一種用于語(yǔ)音情感識(shí)別的語(yǔ)音情感特征提取方法:中國(guó),2010102729713[P].2010.
[3]MaoX,ChenLJ.Speechemotionrecognitionbasedonparametricfilterandfractaldimension[J].IEICETransonInformationandSystems,2010,93(8):2324-2326.
[4] 鄒采榮,趙 力.一種基于改進(jìn)模糊矢量量化的語(yǔ)音情感識(shí)別方法:中國(guó),2008101228062[P].2008.
[5]AttabiY,DumouchelP.Anchormodelsforemotionrecognitionfromspeech[J].IEEETransonAffectiveComputing,2013,4(3):280-290.
[6]ZhengWM,XinMH,WangXL,etal.Anovelspeechemotionrecognitionmethodviaincompletesparseleastsquareregression[J].IEEESignalProcessingLetters,2014,21(5):569-572.
[7]MaoQR,DongM,HuangZW,etal.Learningsalientfeaturesforspeechemotionrecognitionusingconvolutionalneuralnetworks[J].IEEETransonMultimedia,2014,16(8):2203-2213.
[8]EkmanP,FriesenW.Facialactioncodingsystem:atechniqueforthemeasurementoffacialmovement[M].PaloAlto:ConsultingPsychologistsPress,1978.
[9] 梁路宏,艾海舟,徐光祐,等.人臉檢測(cè)研究綜述[J].計(jì)算機(jī)學(xué)報(bào),2002,25(5):449-458.
[10]RahulamathavanY,PhanRCW,ChambersJA,etal.Facialexpressionrecognitionintheencrypteddomainbasedonlocalfisherdiscriminantanalysis[J].IEEETransonAffectiveComputing,2013,4(1):83-92.
[11] 文 沁,汪增福.基于三維數(shù)據(jù)的人臉表情識(shí)別[J].計(jì)算機(jī)仿真,2005,22(7):99-103.
[12]ZhengWM.Multi-viewfacialexpressionrecognitionbasedongroupsparsereduced-rankregression[J].IEEETransonAffectiveComputing,2014,5(1):71-85.
[13]PetrantonakisPC,HadjileontiadisLJ.EmotionrecognitionfromEEGusinghigherordercrossings[J].IEEETransonInformationTechnologyinBiomedicine,2010,14(2):186-197.
[14] 林時(shí)來(lái),劉光遠(yuǎn),張慧玲.蟻群算法在呼吸信號(hào)情感識(shí)別中的應(yīng)用研究[J].計(jì)算機(jī)工程與應(yīng)用,2011,47(2):169-172.
[15]ZacharatosH,GatzoulisC,ChrysanthouYL.Automaticemotionrecognitionbasedonbodymovementanalysis:asurvey[J].IEEEComputerGraphicsandApplications,2014,34(6):35-45.
[16]ZengZ,PanticM,RoismanGI,etal.Asurveyofaffectrecognitionmethods:audio,visual,andspontaneousexpressions[J].IEEETransonPatternAnalysisandMachineIntelligence,2009,31(1):39-58.
[17]KimJ,AndreE.Emotionrecognitionbasedonphysiologicalchangesinmusiclistening[J].IEEETransonPatternAnalysisandMachineIntelligence,2008,30(12):2067-2083.
[18] 黃程韋,金 赟,王青云,等.基于語(yǔ)音信號(hào)與心電信號(hào)的多模態(tài)情感識(shí)別[J].東南大學(xué)學(xué)報(bào):自然科學(xué)版,2010,40(5):895-900.
[19] Busso C,Deng Z,Yildirim S,et al.Analysis of emotion recognition using facial expressions,speech and multimodal information[C]//Proc of the sixth international conference on multimodal interfaces.USA:IEEE,2004:205-211.
[20] Hoch S,Althoff F,Mcglaun G,et al.Bimodal fusion of emotional data in an automotive environment[C]//Proc of IEEE international conference on acoustics,speech,and signal processing.USA:IEEE,2005:1085-1088.
[21] Sayedelahl A,Araujo R,Kamel M S.Audio-visual feature-decision level fusion for spontaneous emotion estimation in speech conversations[C]//Proc of 2013 IEEE international conference on multimedia and expo workshops.USA:IEEE,2013:1-6.
[22] Tato R,Santos R,Kompe R,et al.Emotion space improves emotion recognition[C]//Proceedings of the 2002 international conference on speech and language processing.USA:IEEE,2002:2029-2032.
Research on Feature Fusion Algorithm for Multimodal Emotion Recognition
HAN Zhi-yan,WANG Jian
(College of Engineering,Bohai University,Jinzhou 121000,China)
In order to overcome the limitation of single mode emotion recognition,a novel multimodal emotion recognition algorithm is proposed,taking speech signal and facial expression signal as the research subjects.First,the speech signal feature and facial expression signal feature is fused,and sample sets by putting back sampling are obtained,and then sub-classifiers are acquired by Adaboost algorithm.Second,the difference is measured between two classifiers by double error difference selection strategy.Finally,the recognition result is obtained by the majority voting rule.Experiments show the method improves the accuracy of emotion recognition by giving full play to the advantages of decision level fusion and feature level fusion,and makes the whole fusion process close to human emotion recognition more,with a recognition rate 91.2%.
multimodal;emotion recognition;speech signal;facial expression signal
2015-08-14
2015-11-22
時(shí)間:2016-04-
國(guó)家自然科學(xué)基金資助項(xiàng)目(61403042,61503038);遼寧省教育廳項(xiàng)目(L2013423)
韓志艷(1982-),女,博士,副教授,研究方向?yàn)榍楦凶R(shí)別、語(yǔ)音識(shí)別。
http://www.cnki.net/kcms/detail/61.1450.TP.20160505.0828.080.html
TP391.4
A
1673-629X(2016)05-0027-04
10.3969/j.issn.1673-629X.2016.05.006