李霞 盧官明 閆靜杰 張正言
情感是人們?nèi)粘I钪谐R?jiàn)的一種心理現(xiàn)象.對(duì)情感的準(zhǔn)確識(shí)別是利用情感進(jìn)行交流的前提,在日常人際交往中有著重要的作用.對(duì)于智能機(jī)器,只有能夠?qū)θ说那楦袪顟B(tài)進(jìn)行快速準(zhǔn)確的判斷,才有可能進(jìn)一步理解和響應(yīng)人類(lèi)情感,從而實(shí)現(xiàn)與用戶(hù)進(jìn)行自然、友好、和諧地交互[1].例如在智能汽車(chē)系統(tǒng)中,對(duì)駕駛員的情感狀態(tài)進(jìn)行實(shí)時(shí)監(jiān)測(cè),并根據(jù)監(jiān)測(cè)結(jié)果給予必要的響應(yīng)便能夠有效避免事故的發(fā)生;在智能電話(huà)服務(wù)系統(tǒng)中,對(duì)來(lái)電者的情感狀態(tài)進(jìn)行自動(dòng)判斷,根據(jù)判斷結(jié)果給予合適的響應(yīng)或?qū)⒖刂凭€(xiàn)轉(zhuǎn)接給人工處理,便能有效地提高服務(wù)效率和質(zhì)量.
人的情感是通過(guò)面部表情、身體姿態(tài)、聲音以及生理信號(hào)等多種模態(tài)表現(xiàn)出來(lái)的.情感判斷可以基于這些模態(tài)中的一個(gè)或多個(gè)來(lái)進(jìn)行,但是單個(gè)模態(tài)的信息存在信息不全面、容易受噪聲干擾等缺陷,目前越來(lái)越多的研究者開(kāi)始綜合運(yùn)用多個(gè)模態(tài)的信息進(jìn)行情感判斷.多個(gè)模態(tài)的信息能夠互相印證、互相補(bǔ)充,從而可以為情感判斷提供更加全面準(zhǔn)確的信息,提高情感判斷的性能.D0Mello等[2]對(duì)2009~2013年出現(xiàn)的多模態(tài)情感識(shí)別系統(tǒng)進(jìn)行元數(shù)據(jù)分析發(fā)現(xiàn),相比于單模態(tài)情感識(shí)別系統(tǒng),平均性能提高了9.83%,這充分肯定了多模態(tài)信息融合對(duì)提高情感識(shí)別性能的有效性.
要對(duì)人的情感狀態(tài)進(jìn)行判斷,首要的任務(wù)是建立情感狀態(tài)的表示模型.在情感識(shí)別領(lǐng)域,常用的情感表示模型主要有離散情感模型和維度情感模型.離散情感模型使用快樂(lè)、悲傷、憤怒等形容詞標(biāo)簽表示情感,雖然此種表示方式非常簡(jiǎn)單、直觀(guān),但無(wú)法區(qū)分情感的細(xì)微差別,也無(wú)法描述情感的演變過(guò)程.維度情感模型用幾個(gè)取值連續(xù)的維度將情感刻畫(huà)為一個(gè)多維信號(hào)[3].由于每個(gè)維度的取值可以連續(xù)變化,因此可以對(duì)情感的細(xì)微差別進(jìn)行區(qū)分,同時(shí)可以通過(guò)對(duì)情感狀態(tài)的實(shí)時(shí)標(biāo)注跟蹤情感狀態(tài)的演變過(guò)程.同時(shí),心理學(xué)的研究表明,一些情感維度的取值情況與人的記憶、注意等認(rèn)知行為具有密切聯(lián)系[1],這使得機(jī)器更容易根據(jù)維度情感預(yù)測(cè)結(jié)果來(lái)理解和響應(yīng)用戶(hù)的情感行為.
隨著手機(jī)、平板等各種便攜錄像、錄音設(shè)備,以及iwatch等智能可穿戴設(shè)備的出現(xiàn),人們隨時(shí)隨地獲取視頻、音頻及生理信號(hào)成為可能,這為多模態(tài)維度情感預(yù)測(cè)提供了數(shù)據(jù)基礎(chǔ),拓展了多模態(tài)維度情感預(yù)測(cè)的應(yīng)用領(lǐng)域.在多模態(tài)交互式對(duì)話(huà)系統(tǒng)中,系統(tǒng)中的虛擬人可以根據(jù)用戶(hù)的語(yǔ)音、面部表情和姿態(tài)預(yù)測(cè)用戶(hù)的維度情感,并根據(jù)預(yù)測(cè)結(jié)果選擇合適的詞語(yǔ)與用戶(hù)進(jìn)行對(duì)話(huà),將用戶(hù)的情感狀態(tài)向某個(gè)特定的情感狀態(tài)進(jìn)行引導(dǎo).
多模態(tài)維度情感預(yù)測(cè)是綜合運(yùn)用情感的多個(gè)表現(xiàn)模態(tài)對(duì)各個(gè)情感維度的取值進(jìn)行預(yù)測(cè),是一個(gè)復(fù)雜工程,包括建立多模態(tài)維度情感數(shù)據(jù)庫(kù)、從各個(gè)模態(tài)中提取特征、選擇與設(shè)計(jì)預(yù)測(cè)模型、信息融合等環(huán)節(jié),每個(gè)環(huán)節(jié)的處理對(duì)最后的預(yù)測(cè)性能都具有重大影響.本文綜述了多模態(tài)維度情感預(yù)測(cè)各個(gè)環(huán)節(jié)的研究現(xiàn)狀,對(duì)比和分析了不同方法對(duì)預(yù)測(cè)性能的影響,并總結(jié)出多模態(tài)維度情感預(yù)測(cè)面臨的挑戰(zhàn)及發(fā)展趨勢(shì).
離散情感模型和維度情感模型是情感識(shí)別領(lǐng)域廣泛使用的兩種情感表示模型.離散情感模型使用形容詞標(biāo)簽將情感表示為幾種相對(duì)獨(dú)立的情感類(lèi)別(例如Ekman提出的快樂(lè)、悲傷、憤怒、恐懼、厭惡和驚訝六種基本情感[3]).離散情感模型因其簡(jiǎn)單直觀(guān)的優(yōu)點(diǎn),在情感識(shí)別領(lǐng)域得到了極其廣泛的應(yīng)用.但是存在許多缺點(diǎn):1)情感的類(lèi)別總是運(yùn)用某個(gè)詞語(yǔ)表示,導(dǎo)致運(yùn)用此模型能夠表示的情感范圍有限,同時(shí)導(dǎo)致情感的編碼與文化和語(yǔ)言具有密切的聯(lián)系[4],從而限制了情感編碼的普適性;2)很多情感類(lèi)別之間存在高度的相關(guān)性[5],但在此模型下很難對(duì)這種相關(guān)性進(jìn)行度量和處理;3)情感的產(chǎn)生、發(fā)展和消失是一個(gè)過(guò)程,而此模型無(wú)法描述情感的發(fā)展進(jìn)程.
為了克服離散情感模型的缺點(diǎn),研究者建立了維度情感模型.維度情感模型認(rèn)為情感是一種高度相關(guān)的連續(xù)體,運(yùn)用幾個(gè)取值連續(xù)的基本維度將情感狀態(tài)描述為多維空間中的某一個(gè)坐標(biāo),每個(gè)維度是對(duì)情感的某一方面的度量[5].對(duì)于情感具有哪些維度,心理學(xué)家并沒(méi)有統(tǒng)一的認(rèn)識(shí),其中認(rèn)同度最高的一種模型為“愉悅(Pleasure)–喚醒(Arousal)–支配(Dominance)”模型或PAD模型,此模型認(rèn)為情感具有愉悅維、喚醒維和支配維三個(gè)維度.愉悅維也稱(chēng)為效價(jià)(Valence)維,是對(duì)人的愉悅程度的度量,從一個(gè)極端(苦惱)到另一個(gè)極端(狂喜);喚醒維也稱(chēng)為激活(Activation)維,是對(duì)生理活動(dòng)和心理警覺(jué)水平的度量,如睡眠、厭倦等為低喚醒,清醒、緊張等為高喚醒;支配維也稱(chēng)為注意(Attention)維或能量(Power)維,是指影響周?chē)h(huán)境及他人或反過(guò)來(lái)受其影響的一種感受,高的支配度是一種有力、主宰感,而低的支配度是一種退縮、軟弱感[5?6].Russell在對(duì)PAD模型進(jìn)行深入研究時(shí)發(fā)現(xiàn),支配維更多地與認(rèn)知活動(dòng)有關(guān),愉悅和喚醒兩個(gè)維度就可以表示絕大部分不同的情感,他采用環(huán)狀結(jié)構(gòu)模型表示復(fù)雜的情感[5].在環(huán)狀結(jié)構(gòu)模型中,每個(gè)維度的取值極限構(gòu)成一個(gè)圓,圓的中心表示中性的情感[7],愉悅和喚醒是兩個(gè)相互正交的維度,情感均勻地分布在圓環(huán)的內(nèi)部[5],此模型稱(chēng)為愉悅–喚醒模型(也稱(chēng)為效價(jià)–喚醒模型或VA模型),運(yùn)用此模型可以表示多數(shù)基本情感,如圖1所示[8].由于愉悅–喚醒模型的簡(jiǎn)單和實(shí)用性,很多維度情感預(yù)測(cè)的研究都是在這兩個(gè)維度上進(jìn)行的.理論上講PAD模型能夠表示無(wú)窮多種情感,但它仍然不能表示人類(lèi)所能體驗(yàn)的所有情感,例如“驚訝”就處在了此情感空間的外部[2].為了更完整地描述情感,一些研究者將期望(Expectation/anticipation)維作為第四個(gè)維度,強(qiáng)度(Intensity)維作為第五個(gè)維度[9].期望維是對(duì)個(gè)體情感出現(xiàn)的突然性的度量,即個(gè)體缺乏預(yù)料和準(zhǔn)備程度的度量;強(qiáng)度指的是個(gè)體偏離冷靜的程度.Fontaine等[10]的研究表明,第四個(gè)維度的加入能夠?qū)ⅰ绑@訝”與其他的情感類(lèi)型區(qū)分開(kāi)來(lái),基本能夠區(qū)分日常生活中的所有情感.因此,在維度情感預(yù)測(cè)中,也有不少是基于前四個(gè)維度進(jìn)行的.
近年來(lái),維度情感預(yù)測(cè)受到了越來(lái)越多的關(guān)注.其主要優(yōu)勢(shì)在于:1)維度情感模型相比于離散情感模型具有更強(qiáng)的表示能力,尤其是在處理自然的數(shù)據(jù)時(shí)優(yōu)勢(shì)更加明顯,此時(shí)情感狀態(tài)的范圍非常廣泛,很難用有限的幾種情感類(lèi)型描述[4];2)運(yùn)用維度情感模型可以對(duì)情感的發(fā)展變化過(guò)程進(jìn)行跟蹤[4];3)運(yùn)用維度情感模型可以對(duì)情感的相似性和差異性進(jìn)行度量[9];4)心理學(xué)研究表明,人類(lèi)的決策、推理、記憶、注意等認(rèn)知都與PAD模型中的三個(gè)維度存在密切關(guān)系,例如,Lang等研究表明愉悅維度決定了欲求動(dòng)機(jī)系統(tǒng)和防御動(dòng)機(jī)系統(tǒng)哪個(gè)被情感刺激激活,而喚醒維度決定了每個(gè)動(dòng)機(jī)系統(tǒng)被激活的程度[11].由此可見(jiàn),在人機(jī)互動(dòng)中,運(yùn)用維度情感模型比運(yùn)用離散情感模型更利于機(jī)器充分理解人的情感并做出合適的反應(yīng).
圖1 愉悅–喚醒模型Fig.1 Pleasure-arousal model
維度情感模型雖然具有很多優(yōu)點(diǎn),但是維度情感預(yù)測(cè)直到最近幾年才得到人們的更多關(guān)注,主要原因是這種表示方式比較抽象,標(biāo)注比較困難.
維度情感標(biāo)注工作是基于情感量化理論完成的,目前沒(méi)有一個(gè)統(tǒng)一的方法.SAM(Self-assessment manikin)系統(tǒng)是一種被多數(shù)研究者認(rèn)可的維度情感量化方法,它基于PAD模型建立[12],使用卡通小人的形象表示PAD模型中三個(gè)維度的取值.圖2是效價(jià)維、喚醒維和支配維的取值分布[12],以卡通小人眉毛和嘴巴的變化表示效價(jià)維的取值;以心臟位置出現(xiàn)的震動(dòng)程度以及眼睛的有神程度表示喚醒維的取值;以圖片的大小表示受控制的程度.在某個(gè)維度標(biāo)注的過(guò)程中,只需從對(duì)應(yīng)的卡通小人中選出一個(gè)最符合當(dāng)前情感狀態(tài)的即可.使用的小人數(shù)目由對(duì)此維度進(jìn)行量化的數(shù)目決定,一般為5個(gè)或9個(gè).每個(gè)小人對(duì)應(yīng)的具體數(shù)值沒(méi)有一個(gè)嚴(yán)格規(guī)定,使用9個(gè)小人時(shí),對(duì)應(yīng)的9個(gè)數(shù)字可以是1~9的整數(shù),可以是?4~4的整數(shù),也可以是[?1,1]的9個(gè)等間隔的值[13].相比于其他情感量化方法,SAM系統(tǒng)具有簡(jiǎn)單、快速、直觀(guān)的優(yōu)點(diǎn),并且避免了不同人對(duì)同一詞語(yǔ)的不同理解造成的差異,從而獲得的標(biāo)注結(jié)果方差較小、不同標(biāo)注者間的一致性較高[14],因此SAM系統(tǒng)經(jīng)常被用于維度情感的標(biāo)注任務(wù)中.在每個(gè)卡通小人的下方標(biāo)注數(shù)字并與小人一起呈現(xiàn)于屏幕上,允許標(biāo)注者點(diǎn)擊兩個(gè)數(shù)字之間的任意位置,即可以實(shí)現(xiàn)對(duì)目標(biāo)維度的連續(xù)賦值[13].
圖2 SAM系統(tǒng)Fig.2 SAM system
情感是一個(gè)不斷變化的過(guò)程,為了對(duì)每個(gè)情感維度的取值進(jìn)行實(shí)時(shí)跟蹤,研究者開(kāi)發(fā)了很多標(biāo)記工具,FEELtrace[7]和ANNEMO[15]是兩個(gè)常用的標(biāo)記工具.FEELtrace是基于效價(jià)–喚醒環(huán)狀模型建立的,如圖3所示[7],將以效價(jià)維和喚醒維為主軸的圓呈現(xiàn)于電腦屏幕上,標(biāo)注者只需根據(jù)自己感知的情感用鼠標(biāo)拖動(dòng)圓形光標(biāo)到合適的位置即可同時(shí)對(duì)效價(jià)維和喚醒維賦值[7].ANNEMO是一種基于網(wǎng)頁(yè)的維度情感標(biāo)記工具,如圖4所示[15],它將視頻和標(biāo)記光標(biāo)同時(shí)顯示于一個(gè)窗口,用戶(hù)在觀(guān)看視頻的同時(shí),對(duì)視頻中對(duì)象的某個(gè)情感維度進(jìn)行時(shí)間連續(xù)的標(biāo)記[15].與FEELtrace相比,ANNEMO使用更加方便,而且一次只對(duì)一個(gè)維度進(jìn)行標(biāo)記,得到的結(jié)果更加精確.
圖4 ANNEMO標(biāo)注示例Fig.4 Example of ANNEMO annotation
維度情感預(yù)測(cè)問(wèn)題主要可以分為兩種類(lèi)型,一是根據(jù)一個(gè)或多個(gè)維度的取值將維度情感預(yù)測(cè)問(wèn)題退化為一個(gè)分類(lèi)問(wèn)題[9],此分類(lèi)問(wèn)題既可以是按照某個(gè)維度的取值分成正與負(fù)(或積極與消極)兩種類(lèi)型的兩分類(lèi)問(wèn)題[16],又可以是按照某個(gè)維度的取值分為低、中、高三種類(lèi)型的三分類(lèi)問(wèn)題[17],還可以是在效價(jià)–喚醒空間中用四個(gè)象限代表四個(gè)類(lèi)別的四分類(lèi)問(wèn)題[18]等;二是對(duì)每個(gè)維度的連續(xù)取值進(jìn)行預(yù)測(cè),此時(shí)維度情感預(yù)測(cè)問(wèn)題是一個(gè)回歸問(wèn)題[19].
當(dāng)維度情感預(yù)測(cè)問(wèn)題退化為分類(lèi)問(wèn)題時(shí),稱(chēng)為維度情感分類(lèi),此時(shí)預(yù)測(cè)性能的評(píng)價(jià)指標(biāo)與離散情感識(shí)別使用的評(píng)價(jià)指標(biāo)相同,主要有整體分類(lèi)準(zhǔn)確率(Accuracy)、召回率(Recall)、精確率(Precision)、F1-score等.設(shè)共有A,B兩種類(lèi)別,nTP是A類(lèi)樣本正確分類(lèi)的樣本數(shù),nFN是A類(lèi)樣本錯(cuò)誤分類(lèi)的樣本數(shù),nFP是B類(lèi)樣本錯(cuò)誤分類(lèi)的樣本數(shù),nTN是B類(lèi)樣本正確分類(lèi)的樣本數(shù).則整體分類(lèi)準(zhǔn)確率定義為
A類(lèi)樣本的分類(lèi)準(zhǔn)確率或召回率定義為[20]
A類(lèi)樣本的分類(lèi)精確率定義為[20]
A類(lèi)樣本的分類(lèi)F1-socre定義為[20]
當(dāng)維度情感預(yù)測(cè)為回歸問(wèn)題時(shí),稱(chēng)為連續(xù)維度情感預(yù)測(cè),此時(shí)預(yù)測(cè)性能的評(píng)價(jià)指標(biāo)是一個(gè)不斷探索的問(wèn)題,早期的文獻(xiàn)一般采用均方誤差(Mean squared error,MSE)度量估計(jì)的性能.設(shè)是估計(jì)標(biāo)簽,θ是真實(shí)標(biāo)簽,n為樣本數(shù)目,分別是和θ的方差,分別是和θ的期望,則MSE定義為[21]
MSE描述了預(yù)測(cè)與真值的偏差,但MSE對(duì)于異常值敏感,以及對(duì)θ與的相對(duì)變化趨勢(shì)無(wú)法進(jìn)行描述,因此并不能很好地描述預(yù)測(cè)與真值的吻合度.鑒于MSE的缺點(diǎn),Pearson相關(guān)系數(shù)(Pearson correlation coefficient,CC)被用來(lái)作為連續(xù)維度情感預(yù)測(cè)的評(píng)價(jià)指標(biāo),其定義為[21]
CC的取值范圍為[?1,1],反映了預(yù)測(cè)與真值具有線(xiàn)性關(guān)系的緊密程度.圖5給出了兩組效價(jià)維的預(yù)測(cè)與真值的對(duì)比圖[21],從圖5可以看出,CC能夠很好地反映預(yù)測(cè)與真值的協(xié)同變化關(guān)系.但是,由于CC對(duì)預(yù)測(cè)的幅值不敏感,無(wú)法對(duì)θ與的偏差進(jìn)行度量,因此仍不能很好地描述預(yù)測(cè)與真值的吻合程度.為了更好地描述預(yù)測(cè)與真值的吻合程度,AV+EC 2015[22]競(jìng)賽中開(kāi)始使用一致性相關(guān)系數(shù)(Concordance correlation coefficient,CCC)作為預(yù)測(cè)性能的評(píng)價(jià)指標(biāo),其定義為
CCC結(jié)合了CC與MSE的優(yōu)點(diǎn),既反映了預(yù)測(cè)與真值的協(xié)同變化關(guān)系,又反映了預(yù)測(cè)與真值的偏差,因此能夠更好地反映預(yù)測(cè)與真值的吻合程度,是目前廣泛使用的連續(xù)維度情感預(yù)測(cè)性能評(píng)價(jià)指標(biāo).圖6給出了CC相同,而CCC不同的預(yù)測(cè)與估計(jì)的吻合程度對(duì)比[23],顯然CCC高的吻合程度更高.
圖5 具有不同MSE和CC的效價(jià)維的預(yù)測(cè)與真值的對(duì)比圖Fig.5 Comparison of the prediction and truth values of valence dimension with different MSEs and CCs
人類(lèi)的情感可以通過(guò)面部表情、身體姿態(tài)、語(yǔ)音、生理信號(hào)等多個(gè)模態(tài)表現(xiàn)出來(lái).面部表情和身體姿態(tài)都是可視的,有時(shí)也將它們統(tǒng)一看作視覺(jué)模態(tài);語(yǔ)音信息可以從聽(tīng)覺(jué)途徑獲得,也稱(chēng)為聽(tīng)覺(jué)模態(tài).從這兩個(gè)(或多個(gè))模態(tài)中進(jìn)行情感判斷與我們的日常生活經(jīng)驗(yàn)相符,而且它們可以通過(guò)非侵入性的傳感器獲取,相對(duì)來(lái)說(shuō)簡(jiǎn)單方便成本低,因此一直以來(lái)基于這幾個(gè)模態(tài)中的一個(gè)或多個(gè)進(jìn)行情感判斷都是一個(gè)重要的課題.近些年隨著可穿戴傳感器的出現(xiàn),使得生理信號(hào)的實(shí)時(shí)獲取成為可能,這促進(jìn)了生理信號(hào)在情感識(shí)別研究中的運(yùn)用.
面部表情是人們?nèi)粘=涣髦欣斫鈱?duì)方情感的主要線(xiàn)索之一[24?25].面部表情的最大優(yōu)點(diǎn)是它對(duì)六種基本情感的表現(xiàn)具有普遍性,并與文化背景無(wú)關(guān)[26].因此早期的情感識(shí)別主要集中于運(yùn)用面部表情進(jìn)行六種基本情感的識(shí)別.在維度情感模型下進(jìn)行情感預(yù)測(cè),面部表情自然也是經(jīng)常使用的重要線(xiàn)索之一.
圖6 CC相同的條件下喚醒維的預(yù)測(cè)與真值的對(duì)比圖Fig.6 Comparison of the prediction and truth values of arousal dimension with the same CC
Ekman和Friesen的研究[27]表明身體姿態(tài)比面部表情能夠?yàn)榫S度情感預(yù)測(cè)提供更多的信息.因此很多維度情感預(yù)測(cè)的工作是基于身體姿態(tài)進(jìn)行的,Gunes等[28]運(yùn)用頭部運(yùn)動(dòng)的幅度和方向,點(diǎn)頭和搖頭的頻率對(duì)五個(gè)情感維度的取值進(jìn)行了預(yù)測(cè).
目前,運(yùn)動(dòng)捕獲系統(tǒng)也經(jīng)常用于獲取面部和身體行為信息,它通過(guò)在面部和身體的固定位置放置一些標(biāo)記,記錄人的運(yùn)動(dòng)行為.IEMOCAP[14]和CreativeIT[29]數(shù)據(jù)庫(kù)都提供了由運(yùn)動(dòng)捕獲系統(tǒng)獲取的面部和身體行為數(shù)據(jù).
聽(tīng)覺(jué)模態(tài)是可用于情感識(shí)別的一個(gè)重要模態(tài),聲音信號(hào)中既有明確的語(yǔ)言信息又有非語(yǔ)言的聲學(xué)信息,這些信息都可用于情感狀態(tài)的推斷[9,30].很多實(shí)驗(yàn)[31?32]都表明使用音頻信息比視頻信息能夠獲得更好的維度情感預(yù)測(cè)效果.因此,不管是進(jìn)行單模態(tài)還是多模態(tài)維度情感預(yù)測(cè),聽(tīng)覺(jué)模態(tài)都非常重要.
心理學(xué)的研究表明,人的情感與人的中樞神經(jīng)系統(tǒng)和自主神經(jīng)系統(tǒng)等都具有密切的聯(lián)系.人的不同情感活動(dòng)會(huì)引起大腦的不同部位發(fā)生不同的反應(yīng)[33];能夠激起人的交感神經(jīng)系統(tǒng)活躍,從而引起腎上腺素和去甲腎上腺素分泌增多,心血管系統(tǒng)發(fā)生一系列變化[33];能夠引起內(nèi)外腺體變化,從而影響激素分泌量的變化[33]等.因此,腦電圖(Electroencephalography,EEG)、皮膚電活動(dòng)(Electrodermal activity,EDA)、肌電圖 (Electromyography,EMG)、心電圖(Electrocardiogram,EKG 或ECG)、眼電圖 (Electrooculogram,EOG)、心率、呼吸率等[4,34]生理信號(hào)也常用來(lái)進(jìn)行維度情感預(yù)測(cè).
上述這些模態(tài)可以單獨(dú)用于情感預(yù)測(cè),但是單個(gè)模態(tài)存在信息不全面、容易受噪聲干擾等固有缺陷,造成依賴(lài)單個(gè)模態(tài)的情感預(yù)測(cè)系統(tǒng)在魯棒性、精確性等方面都不能滿(mǎn)足使用要求,這在很大程度上限制了它的應(yīng)用[2].而且,心理學(xué)領(lǐng)域的研究和情感識(shí)別領(lǐng)域的實(shí)驗(yàn)結(jié)果都表明同時(shí)考慮多個(gè)模態(tài)的信息確實(shí)能夠提高情感識(shí)別的效果,因此,多模態(tài)情感預(yù)測(cè)受到了人們極大的重視.構(gòu)建一個(gè)多模態(tài)維度情感預(yù)測(cè)系統(tǒng)一般包括多模態(tài)維度情感數(shù)據(jù)的收集、各個(gè)模態(tài)中的特征提取、預(yù)測(cè)模型的設(shè)計(jì)和選擇、信息融合和其他影響因素的處理.
在日常生活中,各種情感狀態(tài)的出現(xiàn)具有不平衡性,為了獲取豐富而全面的情感數(shù)據(jù),情感數(shù)據(jù)的收集一般是在實(shí)驗(yàn)室進(jìn)行的.由于表演的情感與自然的情感在很多個(gè)方面都存在差異,目前一般不直接要求對(duì)象表演某種情感,而是設(shè)計(jì)某種場(chǎng)景來(lái)誘導(dǎo)對(duì)象的情感,這樣獲得的情感數(shù)據(jù)也被認(rèn)為是自然的數(shù)據(jù).近年來(lái)研究者們?cè)诙鄠€(gè)場(chǎng)景下收集了多模態(tài)情感數(shù)據(jù),并在不同的維度上進(jìn)行了標(biāo)注,常用的多模態(tài)維度情感數(shù)據(jù)庫(kù)有SEMAINE,RECOLA,IEMOCAP,CreativeIT,DEAP,VAM等.
SEMAINE(Sustained emotionally colored machine-human interaction using nonverbal expression)數(shù)據(jù)庫(kù)[35]是為了實(shí)現(xiàn)計(jì)算機(jī)能夠與人類(lèi)進(jìn)行流暢的、富有情感的對(duì)話(huà)而建立的.目前公開(kāi)的數(shù)據(jù)是在被稱(chēng)作Solid SAL(Sensitive artificial listener)的場(chǎng)景下獲取的,此場(chǎng)景模擬了人機(jī)對(duì)話(huà)的過(guò)程,由人扮演了機(jī)器角色與用戶(hù)進(jìn)行對(duì)話(huà).機(jī)器角色根據(jù)用戶(hù)的情感狀態(tài)選擇詞語(yǔ)與用戶(hù)進(jìn)行對(duì)話(huà),使得對(duì)話(huà)不中斷,并將用戶(hù)的情感狀態(tài)向某個(gè)特定的情感狀態(tài)引導(dǎo).共有24個(gè)用戶(hù)分別與四個(gè)不同性格的機(jī)器角色進(jìn)行對(duì)話(huà),每次對(duì)話(huà)都記錄了用戶(hù)和機(jī)器角色的正面視頻和音頻,以及用戶(hù)的側(cè)面視頻.標(biāo)注人員按照視頻幀率逐幀給出了用戶(hù)在對(duì)話(huà)過(guò)程中的情感狀態(tài)在喚醒維、效價(jià)維、支配維、期望維和強(qiáng)度維五個(gè)維度上的取值.
RECOLA(Remote collaborative and affective interactions)數(shù)據(jù)庫(kù)[15]共記錄了46個(gè)參與者的情感數(shù)據(jù),這些參與者兩人一組被分成23組,每組通過(guò)遠(yuǎn)程視頻會(huì)議討論某個(gè)災(zāi)難場(chǎng)景下逃生的方案,并達(dá)成一致意見(jiàn).數(shù)據(jù)庫(kù)中包含所有參與者在討論過(guò)程中的面部視頻和音頻數(shù)據(jù),以及其中35個(gè)參與者的ECG、EDA數(shù)據(jù).標(biāo)注人員按照視頻幀率逐幀給出了參與者前5分鐘討論過(guò)程中的情感狀態(tài)在效價(jià)維和喚醒維的值.
IEMOCAP數(shù)據(jù)庫(kù)[14]共記錄了10個(gè)演員(5男,5女)的情感數(shù)據(jù),這些演員一男一女組合被分成5組,每組按照腳本或即興進(jìn)行對(duì)話(huà)表演.同一對(duì)話(huà)內(nèi)容由相同的演員表演兩次,每次使用運(yùn)動(dòng)捕獲設(shè)備記錄對(duì)話(huà)一方的面部表情、頭部姿勢(shì)和手部運(yùn)動(dòng)數(shù)據(jù),同時(shí)記錄對(duì)話(huà)雙方的視頻和音頻數(shù)據(jù).數(shù)據(jù)庫(kù)中共有174段對(duì)話(huà),每一段對(duì)話(huà)都被分割成了語(yǔ)句,每個(gè)語(yǔ)句呈現(xiàn)的情感狀態(tài)在效價(jià)維、喚醒維和支配維三個(gè)維度上的值用1~5的整數(shù)進(jìn)行了標(biāo)記.
CreativeIT數(shù)據(jù)庫(kù)[29]共記錄了16個(gè)演員的情感數(shù)據(jù),這些演員兩人一組被分成了8組進(jìn)行即興表演,共進(jìn)行了50次表演.每次表演過(guò)程中,都記錄了表演雙方的視頻和音頻數(shù)據(jù),以及使用Vicon動(dòng)作捕獲系統(tǒng)獲取的演員全身動(dòng)作數(shù)據(jù).標(biāo)注人員按照視頻幀率逐幀給出了每個(gè)演員表演過(guò)程中的情感狀態(tài)在效價(jià)維、喚醒維和支配維三個(gè)維度的取值.
DEAP數(shù)據(jù)庫(kù)[13]記錄的是32個(gè)參與者在觀(guān)看音樂(lè)視頻時(shí)的EEG信號(hào)、外圍生理信號(hào),以及其中22個(gè)人的正面視頻.每個(gè)參與者都觀(guān)看了40段音樂(lè)視頻,并將自己在觀(guān)看音樂(lè)視頻過(guò)程中感受到的情感在喚醒維、效價(jià)維和支配維上給出了1~9之間的連續(xù)自我評(píng)估.
VAM數(shù)據(jù)庫(kù)[36]中的素材來(lái)自德國(guó)的電視脫口秀節(jié)目Vera am Mittag.其數(shù)據(jù)分為三部分:VAM-video集、VAM-audio集和VAM-faces集.VAM-video集中的數(shù)據(jù)是從節(jié)目中分割出的1421條語(yǔ)句對(duì)應(yīng)的嘉賓視頻.VAM-audio集中的數(shù)據(jù)是從上述語(yǔ)句中選出的1081條比較好的語(yǔ)句對(duì)應(yīng)的聲音信號(hào),并由標(biāo)注人員對(duì)每條語(yǔ)句展現(xiàn)的情感狀態(tài)在喚醒維、效價(jià)維和支配維三個(gè)維度上用[?1,1]的5個(gè)等間隔值進(jìn)行標(biāo)注.從VAM-video集中選取了大部分時(shí)間都是說(shuō)話(huà)者正面圖像的視頻,并從中提取出說(shuō)話(huà)者的面部圖像,構(gòu)成了VAM-faces集,共包含1867張圖片.標(biāo)注人員對(duì)VAM-faces集的圖片中對(duì)象的情感狀態(tài)在喚醒維、效價(jià)維和支配維三個(gè)維度上用[?1,1]的5個(gè)等間隔值進(jìn)行標(biāo)注.
表1總結(jié)了常用維度情感數(shù)據(jù)庫(kù)的數(shù)據(jù)獲取場(chǎng)景、參與者數(shù)目、記錄的模態(tài)、標(biāo)注的情感維度、標(biāo)注者人數(shù)、使用的標(biāo)注工具或標(biāo)注方法、標(biāo)簽的取值范圍及取值類(lèi)型.
現(xiàn)有的數(shù)據(jù)庫(kù)多數(shù)是在特定場(chǎng)景下誘導(dǎo)得到的,在一個(gè)場(chǎng)景下訓(xùn)練的系統(tǒng)在另一個(gè)場(chǎng)景下或在真正自然的場(chǎng)景下的泛化能力如何,是一個(gè)值得研究的問(wèn)題,這依賴(lài)于多個(gè)場(chǎng)景以及真正自然的場(chǎng)景下多模態(tài)維度情感數(shù)據(jù)庫(kù)的建立.構(gòu)建多模態(tài)維度情感數(shù)據(jù)庫(kù)與構(gòu)建多模態(tài)離散情感數(shù)據(jù)庫(kù)相比,除了要面臨情感狀態(tài)的出現(xiàn)不平衡、完整的多模態(tài)信息不容易捕捉等共同要面臨的困難外,維度情感標(biāo)簽的標(biāo)注也是一大困難.眾所周知,情感是一個(gè)變化的過(guò)程,對(duì)于多模態(tài)情感數(shù)據(jù)給出時(shí)間連續(xù)的維度情感標(biāo)簽比按段給出維度情感標(biāo)簽要更有使用價(jià)值.但時(shí)間連續(xù)的維度情感標(biāo)注不僅是一個(gè)耗時(shí)、耗力的乏味工作,而且由于時(shí)間連續(xù)的維度情感標(biāo)注是一個(gè)比較精細(xì)的過(guò)程,因此標(biāo)注結(jié)果與標(biāo)注者自身的偏好、經(jīng)驗(yàn)等都有著密切的關(guān)系.為了降低標(biāo)注者自身的因素對(duì)標(biāo)注結(jié)果的影響,常采取的方法[15]有:1)選擇多個(gè)標(biāo)注者共同完成標(biāo)注任務(wù);2)選擇與標(biāo)記對(duì)象具有相同母語(yǔ)的標(biāo)注者;3)在標(biāo)注工作開(kāi)始之前對(duì)標(biāo)注者進(jìn)行訓(xùn)練使其能夠盡量客觀(guān)地給出維度情感的標(biāo)注,并且能夠熟練地使用維度情感標(biāo)注工具;4)對(duì)多個(gè)標(biāo)注者的標(biāo)注結(jié)果進(jìn)行插值、標(biāo)準(zhǔn)化等一系列后期處理,進(jìn)一步減少標(biāo)注偏差.
無(wú)論是多模態(tài)還是單模態(tài)維度情感預(yù)測(cè),也無(wú)論是維度情感預(yù)測(cè)還是離散情感識(shí)別,各個(gè)模態(tài)的特征提取都是非常關(guān)鍵的.特征提取后得到的特征維數(shù)往往較高,并且可能包含過(guò)多的冗余信息,從而影響最后的預(yù)測(cè)性能,因此常在特征提取之后進(jìn)行特征選擇和降維.表2總結(jié)了維度情感預(yù)測(cè)文獻(xiàn)中使用的模態(tài)以及各個(gè)模態(tài)的特征提取、特征選擇和降維方法,同時(shí)總結(jié)了預(yù)測(cè)模型和信息融合方法.
所有可以用于情感識(shí)別的特征都可以用于多模態(tài)維度情感預(yù)測(cè)中.如,視覺(jué)模態(tài)的幾何特征、紋理特征(Gabor[37],LBP[38],HoG[39],Haar[40]等)、時(shí)空幾何特征和時(shí)空紋理特征(LBP-TOP[41],LPQTOP[42],LGBP-TOP[43],時(shí)空Haar[44]等);音頻信號(hào)中的聲學(xué)特征(梅爾倒譜系數(shù)、對(duì)數(shù)頻率能量系數(shù)、線(xiàn)性預(yù)測(cè)系數(shù)、線(xiàn)性預(yù)測(cè)倒譜系數(shù)、譜質(zhì)心、頻譜流量、感知線(xiàn)性預(yù)測(cè)系數(shù)、共振峰頻率及其帶寬、頻率微擾和振幅微擾、聲門(mén)參數(shù)等[4,8])及其函數(shù);音頻信號(hào)中的語(yǔ)言特征(BoW(Bag of words)[4],BoC(Bag of concepts)[4],BoNG(Bag-of-N-grams)[45],BoCNG(Bag-of-character-N-grams)[45]等);生理信號(hào)的時(shí)域特征(過(guò)零率、均值等)、頻域特征(高頻能量、低頻能量等)、時(shí)間–頻域特征(希爾伯特–黃譜、離散小波變換等)等[46?47],都可用于維度情感預(yù)測(cè)中.
特征提取后得到的特征維數(shù)往往比較高,并且可能包含的冗余信息過(guò)多,從而影響最后的識(shí)別性能.因此常在特征提取之后進(jìn)行特征選擇和降維,常用的特征選擇和降維方法CFS(Correlation-based feature subset selection)[18],PCA(Principal component analysis)[48],SPCA(Supervised PCA)[48],KPCA(Kernel principal component analysis)[50],LDA (Linear discriminant analysis)[50],GDA(General discriminant analysis)[50]等都可以用于維度情感預(yù)測(cè)中.這些經(jīng)典的特征提取、特征選擇和降維方法使用廣泛,在很多綜述文章(如文獻(xiàn)[4,8?9,70]等)都有論述.
表1 常用維度情感數(shù)據(jù)庫(kù)總結(jié)Table 1 Summary of the frequently used dimensional emotion database
表2 維度情感預(yù)測(cè)文獻(xiàn)總結(jié)Table 2 Literature review of the dimensional emotion prediction
表2 維度情感預(yù)測(cè)文獻(xiàn)總結(jié)(續(xù))Table 2 Literature review of the dimensional emotion prediction(continued)
近年來(lái),深度學(xué)習(xí)技術(shù)得到了突飛猛進(jìn)的發(fā)展,在很多領(lǐng)域都得到了比較成功的應(yīng)用.運(yùn)用深度學(xué)習(xí)技術(shù)進(jìn)行特征提取和選擇,不僅可以減少人工的干預(yù),減少手工提取和選擇特征的復(fù)雜性和盲目性,而且提取的特征對(duì)于識(shí)別問(wèn)題來(lái)說(shuō)能夠突出目標(biāo)本質(zhì)的差異性而忽略無(wú)關(guān)的差異性,從而能夠提高目標(biāo)識(shí)別的準(zhǔn)確性[71].因此,研究者們也將深度學(xué)習(xí)技術(shù)應(yīng)用到情感識(shí)別領(lǐng)域進(jìn)行各個(gè)模態(tài)的特征提取和選擇.
圖7 單層卷積神經(jīng)網(wǎng)絡(luò)的三個(gè)階段Fig.7 The tree phases of the single layer convolutional neural network
最常用于特征提取的深度網(wǎng)絡(luò)是卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network,CNN),它由多個(gè)單層卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行多次堆疊而成.單層卷積神經(jīng)網(wǎng)絡(luò)一般包括卷積、非線(xiàn)性變換和下采樣三個(gè)階段,如圖7所示[72].每層的輸入和輸出為由一組向量構(gòu)成的特征圖.卷積階段的卷積核決定了對(duì)輸入特征圖的觀(guān)測(cè)模式,不同的卷積核得到不同的特征;非線(xiàn)性變換對(duì)卷積階段得到的特征進(jìn)行篩選;下采樣也稱(chēng)作池化,其在減少數(shù)據(jù)量的同時(shí)能保留有用的信息.在CNN最后一層的輸出特征圖后接一個(gè)全連接層和分類(lèi)器,即可實(shí)現(xiàn)分類(lèi)或識(shí)別.CNN每一層的輸出都可看作是輸入信號(hào)的特征,可以單獨(dú)用于不同的任務(wù).卷積神經(jīng)網(wǎng)絡(luò)的特點(diǎn)決定了其非常適合對(duì)圖像進(jìn)行特征提取,因此在多模態(tài)維度情感預(yù)測(cè)中,CNN經(jīng)常被用于提取視覺(jué)模態(tài)的特征(如文獻(xiàn)[67?69]).對(duì)于其他模態(tài)的特征也可使用CNN進(jìn)行特征提取,例如Zheng等[73]將語(yǔ)音信號(hào)轉(zhuǎn)換為一系列二維矩陣,作為CNN的輸入來(lái)提取語(yǔ)音特征;Poria等[74]將文本中的每個(gè)詞語(yǔ)根據(jù)word2vec詞典以及詞性表示成一個(gè)306維的向量,一個(gè)句子中的所有詞語(yǔ)對(duì)應(yīng)的向量連接成一個(gè)向量作為CNN的輸入進(jìn)行特征提取.遺憾的是運(yùn)用CNN提取非視覺(jué)模態(tài)的特征只是用于離散情感識(shí)別中,在維度情感預(yù)測(cè)中未見(jiàn)文獻(xiàn)報(bào)告.使用CNN進(jìn)行特征提取遇到的問(wèn)題主要是數(shù)據(jù)量不足,從而導(dǎo)致過(guò)擬合現(xiàn)象,為了解決此問(wèn)題一般采取的方法是,先使用其他庫(kù)訓(xùn)練CNN,然后在目標(biāo)庫(kù)上進(jìn)行特征提取,例如Chao等[69]使用在CFW和FaceSrub數(shù)據(jù)庫(kù)上訓(xùn)練的CNN獲取面部的表示.
由于情感的產(chǎn)生、發(fā)展和消退是一個(gè)過(guò)程,為了獲取更多的情感信息,研究者們?cè)噲D使用各種時(shí)空特征(時(shí)空幾何特征[23,61]、時(shí)空紋理特征[23,61]等)來(lái)提高維度情感預(yù)測(cè)的性能.由于LSTM(Long short-term memory)具有對(duì)時(shí)間序列進(jìn)行建模的能力,因此也經(jīng)常用來(lái)提取特征或提高特征的區(qū)分能力.Zhang等[65]為了消除自然環(huán)境下的加性噪聲和卷積噪聲對(duì)維度情感預(yù)測(cè)的影響,基于LSTM的結(jié)構(gòu)構(gòu)建了循環(huán)去噪自編碼(Recurrent denoising autoencoder,RDA)系統(tǒng),對(duì)傳統(tǒng)聲學(xué)特征進(jìn)行特征增強(qiáng),獲得了很好的效果.W?llmer等[18]將LSTM與動(dòng)態(tài)Bayesian網(wǎng)絡(luò)(Dynamic Bayesian networks,DBN)相結(jié)合得到LSTM-DBN關(guān)鍵詞檢查器來(lái)獲取二值的語(yǔ)言特征.
堆疊自編碼(Stacked autoencoder,SAE)可以通過(guò)無(wú)監(jiān)督的預(yù)訓(xùn)練和有監(jiān)督的微調(diào)來(lái)確定系統(tǒng)的參數(shù)、提高特征的可區(qū)分性,因此也常用來(lái)進(jìn)行特征提取或?qū)鹘y(tǒng)特征進(jìn)行抽象.SAE是以自編碼器(AutoEncoder,AE)為基本單元堆疊而成的一種深度網(wǎng)絡(luò).AE的結(jié)構(gòu)如圖8所示,包括編碼器和解碼器兩部分,輸入信號(hào)通過(guò)編碼器得到編碼,再通過(guò)一個(gè)解碼器得到輸入信號(hào)的重構(gòu),重構(gòu)與輸入信號(hào)對(duì)比得到重構(gòu)誤差.編碼器的輸出編碼即為抽象化的特征并作為下一層AE的輸入.逐層最小化重構(gòu)誤差,確定編碼和解碼參數(shù),即可以實(shí)現(xiàn)SAE的無(wú)監(jiān)督預(yù)訓(xùn)練,在最頂層添加一個(gè)分類(lèi)器,運(yùn)用有標(biāo)簽樣本,通過(guò)有監(jiān)督學(xué)習(xí)可以實(shí)現(xiàn)對(duì)系統(tǒng)的參數(shù)微調(diào).但是對(duì)于SAE的層數(shù)以及每層神經(jīng)元的個(gè)數(shù)一般需要使用者根據(jù)自己的經(jīng)驗(yàn)確定.Yin等[20]提出了一種生理數(shù)據(jù)驅(qū)動(dòng)的方法確定SAE的結(jié)構(gòu),并使用SAE獲取了各種傳統(tǒng)生理信號(hào)特征的抽象表示,進(jìn)而實(shí)現(xiàn)維度情感分類(lèi).
圖8 自編碼器的結(jié)構(gòu)Fig.8 Structure of autoencoder
維度情感預(yù)測(cè)可以是一個(gè)分類(lèi)問(wèn)題也可以是一個(gè)回歸問(wèn)題,當(dāng)其是一個(gè)分類(lèi)問(wèn)題時(shí),常用的分類(lèi)器如支持向量機(jī)(Support vector machine,SVM)、K-最近鄰分類(lèi)器、隱馬爾科夫模型(Hidden Markov model,HMM)等[9]都可用于完成維度情感分類(lèi)的任務(wù);當(dāng)維度情感預(yù)測(cè)是一個(gè)回歸問(wèn)題時(shí),常用的回歸模型如支持向量回歸(Support vector regression,SVR)、關(guān)聯(lián)向量機(jī) (Relevance vector ma-chine,RVM)等[9]都可用于連續(xù)維度情感預(yù)測(cè).
情感的產(chǎn)生、發(fā)展和消退是一個(gè)過(guò)程,能夠?qū)Ω鱾€(gè)模態(tài)的時(shí)間動(dòng)態(tài)信息進(jìn)行建模,對(duì)提高維度情感預(yù)測(cè)的性能是有益的,而RNN(Recurrent neural networks)正具有這樣的優(yōu)點(diǎn),因此RNN及其變形經(jīng)常被用于維度情感預(yù)測(cè)中.RNN的網(wǎng)絡(luò)結(jié)構(gòu)如圖9所示,圖9右邊是左邊網(wǎng)絡(luò)按時(shí)間展開(kāi)的結(jié)果[71].t時(shí)刻的輸出不僅與t時(shí)刻的輸入有關(guān),而且還與歷史狀態(tài)有關(guān),因此它能夠?qū)r(shí)間序列進(jìn)行建模.但是當(dāng)t時(shí)刻依賴(lài)的信息越來(lái)越久遠(yuǎn)時(shí),RNN學(xué)習(xí)到這些信息會(huì)越來(lái)越困難,此時(shí)RNN的變形LSTM顯示了優(yōu)越性,它對(duì)長(zhǎng)期信息進(jìn)行有選擇的記憶是一種默認(rèn)行為,不需要付出很大的代價(jià),因此LSTM更加適合進(jìn)行維度情感預(yù)測(cè),很多文獻(xiàn)都使用了此模型(如[67?69]等).LSTM 模型只能使用歷史信息,但未來(lái)信息對(duì)維度情感預(yù)測(cè)也是有用的,為了將未來(lái)信息也用于維度情感預(yù)測(cè)中,一些文獻(xiàn)(如[21,31])使用了BLSTM(Bidirectional LSTM)模型,為了充分發(fā)掘特征與標(biāo)簽之間復(fù)雜的關(guān)系,也有很多文獻(xiàn)(如[62,64])使用了由BLSTM堆疊構(gòu)成的深度BLSTM(Deep BLSTM,DBLSTM)模型.
圖9 RNN的網(wǎng)絡(luò)結(jié)構(gòu)Fig.9 Network structure of RNN
傳統(tǒng)RNN以平方誤差為代價(jià)函數(shù),而維度情感預(yù)測(cè)的目標(biāo)是最大化預(yù)測(cè)標(biāo)簽與實(shí)際標(biāo)簽的相關(guān)性,同時(shí)最小化它們的平均偏差,為了更好地實(shí)現(xiàn)這個(gè)目的,Weninger等[75]將RNN的代價(jià)函數(shù)由平方誤差更改為CCC,大大提高了連續(xù)維度情感預(yù)測(cè)的性能.Banda等[76]為了發(fā)揮RNN能夠?qū)^長(zhǎng)的上下文依賴(lài)性進(jìn)行建模的優(yōu)點(diǎn),并加快收斂速度提高泛化能力,使用了NARX-RNN(Nonlinear AutoRegressive with eXogenous inputs recurrent neural network)模型進(jìn)行情感預(yù)測(cè),也獲得了不錯(cuò)的效果.Pei等[66]將深度神經(jīng)網(wǎng)絡(luò)(Deep neural network,DNN)與切換卡爾曼濾波器(Switching Kalman filter,SKF)相結(jié)合提出了DNN-SKF框架,先對(duì)輸入特征和情感維度之間復(fù)雜的非線(xiàn)性關(guān)系用DNN進(jìn)行建模,然后用分段線(xiàn)性的SKF對(duì)情感的時(shí)間動(dòng)態(tài)進(jìn)行建模,進(jìn)而實(shí)現(xiàn)連續(xù)維度情感預(yù)測(cè).
理論上講,綜合考慮多個(gè)模態(tài)以及其他信息能夠提高情感識(shí)別系統(tǒng)的性能,但是一個(gè)不恰當(dāng)?shù)娜诤戏椒ú粌H不能提高識(shí)別的性能,可能還會(huì)降低識(shí)別的性能,文獻(xiàn)[77]僅用音頻或視頻模態(tài)進(jìn)行情感識(shí)別,所得平均識(shí)別率分別為0.506和0.500,但是運(yùn)用音視頻雙模態(tài)融合進(jìn)行情感識(shí)別的平均識(shí)別率僅為0.47.近些年研究者對(duì)信息融合進(jìn)行了非常廣泛的研究,提出了很多融合方法,其中用于維度情感預(yù)測(cè)的融合方法除了常見(jiàn)的特征層融合、決定層融合和模型層融合方法外,針對(duì)維度情感預(yù)測(cè)的特殊性,很多研究者將各個(gè)維度之間的關(guān)系用于維度情感預(yù)測(cè)過(guò)程中,這類(lèi)融合方法稱(chēng)為標(biāo)簽層融合.
特征層融合也稱(chēng)早期融合,概念簡(jiǎn)單、容易理解和操作,被廣泛應(yīng)用于維度情感預(yù)測(cè)中[51,78].Eyben等[32]為了將多個(gè)模態(tài)的行為事件(例如微笑、搖頭、嘆息等)用于各個(gè)情感維度的預(yù)測(cè)中,使用特征層融合的思想提出了基于串的融合方法,這也可以看作特征層融合的一個(gè)變形.為了充分發(fā)掘不同模態(tài)之間復(fù)雜的非線(xiàn)性關(guān)系,研究者提出了很多深層的特征融合方法,并將其應(yīng)用于維度情感預(yù)測(cè)中,Yin等[20]提出的基于多融合層的SAE集成分類(lèi)器(Multiple-fusion-layer based ensemble classifier of SAE,MESAE)框架中,多個(gè)模態(tài)的生理信號(hào)特征先經(jīng)過(guò)SAE進(jìn)行抽象,再通過(guò)一個(gè)基于連通圖的分層融合網(wǎng)絡(luò)進(jìn)行融合得到最后的抽象融合特征.特征層融合中,最難處理是不同模態(tài)數(shù)據(jù)的異步性,為了處理這個(gè)難題,Chen等[63]在LSTM框架中將具有不同持續(xù)時(shí)間的特征輸入到網(wǎng)絡(luò)的不同層,短時(shí)音頻特征輸入到第一隱層,長(zhǎng)時(shí)視頻特征輸入到第二隱層,最長(zhǎng)時(shí)間的ECG特征輸入到第三隱層.
決定層融合也稱(chēng)后期融合,也是一種操作簡(jiǎn)單的融合方法,有著廣泛應(yīng)用.在多模態(tài)維度情感預(yù)測(cè)任務(wù)中,常用的決定層融合方法有求加權(quán)和[60]、求平均[79]、求中值[23]和線(xiàn)性回歸[22]等.為了對(duì)不同模態(tài)的預(yù)測(cè)結(jié)果之間復(fù)雜的關(guān)系進(jìn)行建模,近年來(lái)一些先進(jìn)的機(jī)器學(xué)習(xí)技術(shù)也被用來(lái)進(jìn)行決定層融合,如Kalman濾波器[67]、極端學(xué)習(xí)機(jī)(Extreme learning machine,ELM)[64]、DLSTM[62]等.但是,決定層融合中默認(rèn)的各個(gè)模態(tài)相互獨(dú)立的假定與實(shí)際情形不符,這也限制了最后的預(yù)測(cè)性能.
模型層的融合是設(shè)計(jì)一個(gè)模型將多個(gè)模態(tài)的信息以及其他方面的信息相結(jié)合來(lái)獲取最終的情感預(yù)測(cè)結(jié)果.設(shè)計(jì)同時(shí)實(shí)現(xiàn)多模態(tài)信息融合和維度情感預(yù)測(cè)的模型技巧性較強(qiáng)、困難較大,文獻(xiàn)中的工作也不是太多.Soladi′e等[55]設(shè)計(jì)了一個(gè)模糊推斷系統(tǒng),將視頻、音頻和上下文相關(guān)特征進(jìn)行融合,并對(duì)情感的效價(jià)維、喚醒維等四個(gè)維度的取值進(jìn)行預(yù)測(cè);Metallinou等[53]提出了一個(gè)高斯混合模型(Gaussian mixture model,GMM)融合多個(gè)音視頻特征,并對(duì)情感的喚醒維和支配維進(jìn)行跟蹤;Lin等[54]使用了誤差加權(quán)半耦合隱馬爾科夫模型(Error weighted semi-coupled hidden Markov model,EWSC-HMM)將音視頻特征在模型層面進(jìn)行融合,并實(shí)現(xiàn)維度情感分類(lèi);Wu等[80]提出了雙層半耦合隱馬爾科夫模型(Two-level hierarchical alignment-based SC-HMM,2H-SC-HMM),能夠?qū)σ曨l和音頻兩個(gè)模態(tài)的時(shí)間階段內(nèi)部以及時(shí)間階段之間的關(guān)系進(jìn)行對(duì)齊矯正,在此基礎(chǔ)上對(duì)音視頻信息進(jìn)行融合并實(shí)現(xiàn)維度情感分類(lèi).
上面三類(lèi)融合方法是經(jīng)典的信息融合方法,在多模態(tài)離散情感識(shí)別和多模態(tài)維度情感預(yù)測(cè)中都有應(yīng)用,但是對(duì)多模態(tài)維度情感預(yù)測(cè)來(lái)說(shuō),所能使用的信息除了多模態(tài)信息外,還有各個(gè)維度之間的關(guān)系,將這些信息融入到多模態(tài)維度情感預(yù)測(cè)的過(guò)程中對(duì)于提高維度情感預(yù)測(cè)的性能是有益的,這種融合方法稱(chēng)為標(biāo)簽層融合.Nicolaou等[21]基于心理學(xué)的研究結(jié)果(情感的各個(gè)維度之間是有密切聯(lián)系的)首次將情感的各個(gè)維度之間的關(guān)系應(yīng)用于多模態(tài)維度情感預(yù)測(cè)中,提出了一個(gè)輸出相關(guān)(Output-associative,OA)融合框架來(lái)利用各個(gè)情感維度間的相關(guān)性.在此框架中,對(duì)每個(gè)模態(tài)都使用LSTM分別對(duì)喚醒維和效價(jià)維進(jìn)行預(yù)測(cè),將每個(gè)維度在每個(gè)模態(tài)上的預(yù)測(cè)結(jié)果作為輸入再一次使用LSTM 得到每個(gè)維度的最終估計(jì),如圖10所示[21].此種OA融合框架與決定層融合類(lèi)似,最大的特點(diǎn)是使用了不同維度的預(yù)測(cè)結(jié)果來(lái)進(jìn)一步得到某一維度最后的預(yù)測(cè);此融合框架中共進(jìn)行了前后兩次回歸運(yùn)算,這兩次回歸運(yùn)算使用的回歸模型并不限于LSTM,可以使用其他的回歸模型代替.實(shí)際上很多文獻(xiàn)也做了這樣的工作,例如Nicolle等[56]使用了局部線(xiàn)性回歸來(lái)融合基于不同模態(tài)的各個(gè)維度的預(yù)測(cè).Nicolaou等[57]使用RVM代替LSTM,提出了OA-RVM回歸框架,并將輸入特征與初步預(yù)測(cè)一起輸入到一個(gè)RVM 中,得到最后的預(yù)測(cè).Huang等[61]在使用OA和OA-RVM時(shí)將某一個(gè)時(shí)刻及其之前某一段時(shí)間的預(yù)測(cè)和輸入特征連接,輸入到下一個(gè)回歸模型中實(shí)現(xiàn)對(duì)這一時(shí)刻的維度情感預(yù)測(cè),以此來(lái)對(duì)上下文信息進(jìn)行建模.Nicolaou等[59]為了利用每個(gè)情感維度之間以及每個(gè)維度與各個(gè)模態(tài)的特征之間的關(guān)系,借助CCA的思想提出了CSR(Correlatedspaces regression)模型,此模型先將所有模態(tài)的特征和標(biāo)簽運(yùn)用CCA映射到變換空間,然后在變換空間中學(xué)習(xí)特征到標(biāo)簽的映射,在測(cè)試集中只需將在變換空間中的估計(jì)映回原始標(biāo)簽空間即可.CSR模型使用了各個(gè)維度的相關(guān)性并且同時(shí)實(shí)現(xiàn)了特征的有監(jiān)督降維和多模態(tài)融合,也獲得了較好的效果.
圖10 OA融合框架Fig.10 OA fusion framework
多模態(tài)維度情感預(yù)測(cè)的性能不僅受多個(gè)模態(tài)的特征提取、預(yù)測(cè)模型選取以及信息融合的影響,而且受許多其他因素的影響,要獲取好的預(yù)測(cè)性能需要全面考察所有的影響因素.
在對(duì)每個(gè)情感維度進(jìn)行實(shí)時(shí)標(biāo)注時(shí),人的觀(guān)察、評(píng)估以及反應(yīng)都需要時(shí)間,這造成了標(biāo)注結(jié)果與情感表現(xiàn)之間有一個(gè)延時(shí),此延時(shí)與標(biāo)注者、標(biāo)注的維度、觀(guān)察的行為都有關(guān)系[81].用合適的方法處理這種延時(shí)有助于提高維度情感預(yù)測(cè)的性能.Huang等[61]將標(biāo)簽的前N幀和特征的后N幀去掉實(shí)現(xiàn)標(biāo)簽和特征在時(shí)間上的對(duì)齊,對(duì)最后的預(yù)測(cè)標(biāo)簽采用光滑濾波實(shí)現(xiàn)預(yù)測(cè)標(biāo)簽的延時(shí)以與基準(zhǔn)標(biāo)簽在時(shí)間上對(duì)齊.文中根據(jù)最后的預(yù)測(cè)性能尋找最佳延時(shí),獲得了很好的預(yù)測(cè)效果.Nicolle等[56]認(rèn)為特征與實(shí)際維度情感之間具有更強(qiáng)的相關(guān)性,于是利用特征與延時(shí)標(biāo)簽的相關(guān)系數(shù)構(gòu)建了延時(shí)概率分布,基于此概率分布進(jìn)行特征選擇,大大增強(qiáng)了預(yù)測(cè)結(jié)果的健壯性.Mariooryad等[81?82]通過(guò)最大化情感表現(xiàn)與延時(shí)標(biāo)簽的互信息獲取最佳延時(shí),并對(duì)標(biāo)簽進(jìn)行平移彌補(bǔ)延時(shí)造成的影響,在基于面部和聲音特征的維度情感分類(lèi)中,這種彌補(bǔ)相對(duì)于基準(zhǔn)獲得了超過(guò)7%的增益.
維度情感預(yù)測(cè)一般是在自然的數(shù)據(jù)庫(kù)上進(jìn)行的,這是一個(gè)比較困難的任務(wù).為了提高情感預(yù)測(cè)的性能,研究者在特征提取、信息融合、預(yù)測(cè)模型的設(shè)計(jì)以及發(fā)掘維度情感預(yù)測(cè)性能的影響因素等方面都做了不懈努力.但是,由于文獻(xiàn)使用的數(shù)據(jù)庫(kù)、實(shí)驗(yàn)方法、分析的時(shí)間粒度、性能評(píng)價(jià)指標(biāo)、使用的維度以及對(duì)每個(gè)維度的處理方法等都不盡相同,因此很難進(jìn)行詳盡的對(duì)比分析.這里僅對(duì)一些具有可比性的結(jié)果進(jìn)行對(duì)比分析.表3和表4是在常用數(shù)據(jù)庫(kù)上
進(jìn)行連續(xù)維度情感預(yù)測(cè)和維度情感分類(lèi)的對(duì)比總結(jié),給出的預(yù)測(cè)性能是相應(yīng)文獻(xiàn)中各個(gè)維度預(yù)測(cè)性能的平均值,其中文獻(xiàn)[22,47]中基于視頻特征的預(yù)測(cè)結(jié)果是基于紋理特征和幾何特征所得預(yù)測(cè)結(jié)果的平均值,文獻(xiàn)使用多種方法的,這里只列出獲得最好預(yù)測(cè)性能使用的方法.
表3 連續(xù)維度情感預(yù)測(cè)對(duì)比總結(jié)Table 3 Comparison and summary of continuous dimensional emotion prediction
表4 維度情感分類(lèi)對(duì)比總結(jié)Table 4 Comparison and summary of dimensional emotion classification
情感的產(chǎn)生、發(fā)展和消退是一個(gè)動(dòng)態(tài)過(guò)程,在特征提取時(shí)考慮時(shí)間變化,在模型設(shè)計(jì)時(shí)考慮上下文的依賴(lài)關(guān)系,都被證明對(duì)提高維度情感預(yù)測(cè)的性能是有效的.文獻(xiàn)[58,78]基于視頻的預(yù)測(cè)中,在相同條件下使用局部時(shí)空特征的預(yù)測(cè)結(jié)果明顯比使用靜態(tài)LBP特征的預(yù)測(cè)結(jié)果好.從2014年開(kāi)始,AVEC比賽都是以時(shí)空特征(包括時(shí)空紋理特征和幾何特征)為基準(zhǔn)視頻特征,雖然與AVEC 2012使用的數(shù)據(jù)庫(kù)不同,也大概可以看出,與AVEC 2012基于視頻特征的基準(zhǔn)預(yù)測(cè)結(jié)果相比有了大幅的提高.在選擇分類(lèi)/回歸模型時(shí),使用能夠?qū)ι舷挛牡膭?dòng)態(tài)依賴(lài)關(guān)系建模的模型比使用靜態(tài)模型的效果要好.文獻(xiàn)[31]采用LSTM模型對(duì)上下文信息進(jìn)行建模,使用AVEC 2011大賽組提供的音頻特征進(jìn)行維度情感分類(lèi),平均準(zhǔn)確率比AVEC 2011的基準(zhǔn)平均準(zhǔn)確率有了大幅度的提高.
各個(gè)模態(tài)的信息具有互為補(bǔ)充、互為印證的關(guān)系,合理地利用它們來(lái)提高各個(gè)情感維度的預(yù)測(cè)性能也是非常有效的.從表3可以看出,多模態(tài)維度情感預(yù)測(cè)系統(tǒng)的性能普遍優(yōu)于單模態(tài)維度情感預(yù)測(cè)系統(tǒng).多模態(tài)信息融合算法對(duì)預(yù)測(cè)性能的影響是巨大的,文獻(xiàn)[55]使用的多模態(tài)模糊推斷系統(tǒng)的預(yù)測(cè)結(jié)果與AVEC 2012基準(zhǔn)雙模態(tài)預(yù)測(cè)結(jié)果相比具有很大的提升.文獻(xiàn)[80]使用的2H-SC-HMM 模型,具有對(duì)音視頻兩個(gè)模態(tài)的時(shí)間階段內(nèi)部以及時(shí)間階段之間的關(guān)系進(jìn)行對(duì)齊矯正的能力,在SEMAINE庫(kù)上進(jìn)行維度情感分類(lèi)的平均準(zhǔn)確率達(dá)到了87.5%,相比文獻(xiàn)[54]使用的EWSC-HMM模型完成相同任務(wù)的平均準(zhǔn)確率78.13%有了大幅的提高.
多模態(tài)維度情感預(yù)測(cè)是一項(xiàng)復(fù)雜的工程,其性能受到多種因素的影響,好的預(yù)測(cè)系統(tǒng)往往綜合考慮了各個(gè)方面的影響因素.文獻(xiàn)[56]使用多尺度動(dòng)態(tài)視頻特征,考慮了反應(yīng)延時(shí)問(wèn)題,使用局部線(xiàn)性回歸融合從每個(gè)模態(tài)獲得的各個(gè)維度的預(yù)測(cè)結(jié)果,獲得了目前AVEC 2012數(shù)據(jù)庫(kù)上最好的預(yù)測(cè)性能(平均CC=0.46).文獻(xiàn)[61]處理了標(biāo)注延時(shí)的問(wèn)題,考慮了情感的各個(gè)維度的相關(guān)性問(wèn)題,使用基于輸出相關(guān)融合框架的多模態(tài)系統(tǒng)在AVEC 2015數(shù)據(jù)庫(kù)上獲得了優(yōu)異的預(yù)測(cè)性能(平均CCC=0.66).文獻(xiàn)[62]利用DBLSTM具有對(duì)上下文的依賴(lài)性進(jìn)行建模的優(yōu)點(diǎn),將其應(yīng)用于單模態(tài)預(yù)測(cè)和對(duì)每個(gè)模態(tài)的預(yù)測(cè)結(jié)果進(jìn)行融合的過(guò)程中,而且在進(jìn)行單模態(tài)預(yù)測(cè)時(shí)進(jìn)行了特征選擇,同時(shí)處理了標(biāo)注延時(shí)的問(wèn)題,獲得了AVEC 2015數(shù)據(jù)庫(kù)上目前最好的預(yù)測(cè)性能(平均CCC=0.68).
多模態(tài)維度情感預(yù)測(cè)涉及了心理學(xué)、生理學(xué)、社會(huì)科學(xué)等多個(gè)學(xué)科,它的發(fā)展依賴(lài)于多個(gè)領(lǐng)域的成果和發(fā)現(xiàn).隨著人工智能的發(fā)展和人機(jī)互動(dòng)的迫切需要,多模態(tài)維度情感預(yù)測(cè)受到越來(lái)越多研究者的關(guān)注,近年來(lái)取得了很大進(jìn)展.本文通過(guò)對(duì)多模態(tài)維度情感預(yù)測(cè)研究現(xiàn)狀的認(rèn)識(shí),思考總結(jié)出其面臨的挑戰(zhàn)及發(fā)展趨勢(shì)如下:
1)各個(gè)情感維度的標(biāo)記是一個(gè)十分耗費(fèi)時(shí)間和精力并且需要一定技巧的工作,這限制了維度情感數(shù)據(jù)集的建立.因此,充分應(yīng)用有限的現(xiàn)有數(shù)據(jù),采用弱監(jiān)督或半監(jiān)督學(xué)習(xí)提升預(yù)測(cè)的泛化能力是一個(gè)亟待解決的問(wèn)題.
2)多個(gè)模態(tài)的情感數(shù)據(jù)一般是通過(guò)多種傳感器獲取的,在獲取過(guò)程中很難做到記錄的同步性,并且不同的模態(tài)對(duì)情感狀態(tài)的表現(xiàn)也不是同步的,在進(jìn)行多模態(tài)維度情感預(yù)測(cè)中如何更好地處理這些異步性是一個(gè)挑戰(zhàn)性的問(wèn)題.
3)各個(gè)模態(tài)蘊(yùn)含的情感信息互為補(bǔ)充、互為印證,而且受數(shù)據(jù)的獲取條件以及個(gè)體的刻意控制等很多因素的影響,會(huì)出現(xiàn)一個(gè)或多個(gè)模態(tài)信息的缺失,因此如何更好地建立模型實(shí)現(xiàn)多模態(tài)信息融合是一個(gè)需要研究的問(wèn)題.
4)情感的維度信息與其他信息(如情感的類(lèi)別信息、社會(huì)行為信息等)都具有密切的關(guān)系,在維度情感預(yù)測(cè)過(guò)程中如何充分利用這些信息提高維度情感預(yù)測(cè)的性能是一個(gè)有趣的問(wèn)題.
5)在現(xiàn)有的多模態(tài)維度情感預(yù)測(cè)中,對(duì)于生理信號(hào)和語(yǔ)言信息(語(yǔ)音識(shí)別出的語(yǔ)言或文本中的語(yǔ)言)的使用十分有限,但是顯然這兩種信號(hào)能夠?yàn)榫S度情感預(yù)測(cè)提供有用的信息.因此如何從這兩種信號(hào)中挖掘出對(duì)維度情感預(yù)測(cè)有用的信息是值得研究的.
6)隨著深度學(xué)習(xí)技術(shù)的發(fā)展以及在各個(gè)領(lǐng)域的成功應(yīng)用,多模態(tài)維度情感預(yù)測(cè)領(lǐng)域也不可避免地受到影響,并且目前也有了一些應(yīng)用.但是如何更好的將深度學(xué)習(xí)技術(shù)應(yīng)用于維度情感預(yù)測(cè)的各個(gè)環(huán)節(jié),深度學(xué)習(xí)技術(shù)在各個(gè)環(huán)節(jié)的應(yīng)用能否優(yōu)于傳統(tǒng)的機(jī)器學(xué)習(xí)技術(shù),以及運(yùn)用深度學(xué)習(xí)技術(shù)提升的預(yù)測(cè)性能相對(duì)計(jì)算成本的增加是否相匹配等,都是需要充分研究的問(wèn)題.
7)由于人機(jī)互動(dòng)的實(shí)時(shí)性需要,提高多模態(tài)維度情感預(yù)測(cè)性能的同時(shí)降低計(jì)算量,使多模態(tài)維度情感預(yù)測(cè)能夠?qū)崟r(shí)地進(jìn)行具有很大的實(shí)際應(yīng)用意義.