宋冠軍,張樹(shù)東,衛(wèi)飛高
首都師范大學(xué) 信息工程學(xué)院,北京100048
人工智能的興起促使人機(jī)交互領(lǐng)域成為當(dāng)前研究的重點(diǎn)領(lǐng)域,而情感識(shí)別在模式識(shí)別中具有廣闊的應(yīng)用前景,同時(shí)也是實(shí)現(xiàn)人機(jī)交互的關(guān)鍵技術(shù)之一[1]。對(duì)于單模態(tài)的情感識(shí)別研究,例如單一地對(duì)語(yǔ)音信號(hào)、心電信號(hào)、人臉表情、身體姿勢(shì)等其他生理信號(hào)的研究都已經(jīng)取得了一定的進(jìn)展。但是人腦情感信息源的多樣性和單模態(tài)情感識(shí)別的不確定性等原因決定了單模態(tài)情感識(shí)別準(zhǔn)確率不高。因此,結(jié)合多種模態(tài)構(gòu)建多模態(tài)情感識(shí)別框架就成為了提高情感識(shí)別框架性能的有效手段[2]。多模態(tài)情感識(shí)別研究中多模態(tài)融合策略在充分利用了語(yǔ)音、面部表情等多個(gè)模態(tài)的互補(bǔ)信息的同時(shí)也消除了單模態(tài)的不穩(wěn)定性,從而在一定程度上提高了情感識(shí)別的準(zhǔn)確率。在人類(lèi)眾多的情感信號(hào)中語(yǔ)音信號(hào)和面部表情信號(hào)含有絕大多數(shù)的情感信息,故而大多數(shù)多模態(tài)情感識(shí)別研究集中于語(yǔ)音面部表情雙模態(tài)情感識(shí)別[3-6]。
2011年德國(guó)慕尼黑工業(yè)大學(xué)舉辦了第一屆多模態(tài)情感識(shí)別的競(jìng)賽(Audio/Visual Emotion Challenge,AVEC),該競(jìng)賽針對(duì)音視頻通過(guò)機(jī)器學(xué)習(xí)方法進(jìn)行情緒分析[7],之后該會(huì)議以每年一次的頻率召開(kāi),推進(jìn)了多模態(tài)情感識(shí)別研究的進(jìn)展[8-13]。而隨著計(jì)算機(jī)硬件計(jì)算能力的提高,使得深度學(xué)習(xí)方法應(yīng)用在多模態(tài)情感識(shí)別研究上成為了可能,例如卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Network,CNN)[14]、長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)[15]等多種深度學(xué)習(xí)模型,被廣泛應(yīng)用在情緒識(shí)別當(dāng)中。而在多模態(tài)情感識(shí)別研究中,根據(jù)融合不同模態(tài)的數(shù)據(jù)時(shí)所處階段,目前多模態(tài)特征融合策略主要分為特征層融合[16-17]和決策層融合[18-19]兩種,深度學(xué)習(xí)模型在這兩種融合策略中都有應(yīng)用。其中決策層融合的方法優(yōu)點(diǎn)在于不需要語(yǔ)音信號(hào)和面部表情信號(hào)之間嚴(yán)格的時(shí)序同步,而且解決了不同模態(tài)的特征可靠性不同等問(wèn)題。例如,Sahoo 等人在文獻(xiàn)[18]中提出一種基于決策規(guī)則的音視頻雙模態(tài)決策層融合的情感識(shí)別算法,文中首先單獨(dú)進(jìn)行語(yǔ)音和面部表情的單模態(tài)識(shí)別并進(jìn)行測(cè)試,然后設(shè)置決策規(guī)則,用以在決策層融合視聽(tīng)信息以識(shí)別情緒。文獻(xiàn)[20]采用核熵成分分析(Ker‐nel Entropy Component Analysis,KECA)方法和決策層融合方法研究人臉表情和語(yǔ)音雙模態(tài)情感識(shí)別,在兩個(gè)常用的情感庫(kù)上都取得了較高的雙模態(tài)情感識(shí)別率。文獻(xiàn)[21]中采用通用背景模型加上最大后驗(yàn)概率法再結(jié)合openSMILE 特征提取方法對(duì)音視頻信息進(jìn)行特征提取并進(jìn)行了決策層融合,然后在eNTERFACE 數(shù)據(jù)庫(kù)上進(jìn)行驗(yàn)證,取得了77.50%的識(shí)別率。但是決策層融合往往在訓(xùn)練過(guò)程中數(shù)據(jù)損失量大,這就對(duì)識(shí)別準(zhǔn)確率造成了影響。于是在保證語(yǔ)音信號(hào)與面部表情信號(hào)時(shí)序的絕對(duì)同步之下一些特征層融合的方法被提出。例如,在文獻(xiàn)[22]中,提出采用CNN 加上openSMILE 工具的方法對(duì)音視頻以及一些文本進(jìn)行了特征提取,并在特征層進(jìn)行了融合,在IEMOCAP 數(shù)據(jù)庫(kù)上進(jìn)行驗(yàn)證取得了76.85%的識(shí)別率。Tzirakis 等人在文獻(xiàn)[23]中提出了一種端到端的雙模態(tài)特征層融合算法,其中語(yǔ)音和面部表情模態(tài)分別使用CNN 和50 層的ResNet 網(wǎng)絡(luò)提取情感特征,然后對(duì)雙模態(tài)特征進(jìn)行直接級(jí)聯(lián),最后使用兩層LSTM 模型進(jìn)行時(shí)序建模,然后以端到端的方式訓(xùn)練系統(tǒng)。
然而,特征層融合的框架仍然有一些不足。首先,Sayedelahl 在文獻(xiàn)[24]中證明如果訓(xùn)練樣本的數(shù)量相對(duì)較少,增加特征的集合可能導(dǎo)致情感識(shí)別準(zhǔn)確率的降低。另外直接級(jí)聯(lián)后可能產(chǎn)生特征高維災(zāi)難、不同模態(tài)的特征可靠性不同等問(wèn)題。以上都是在雙模態(tài)特征直接級(jí)聯(lián)之后會(huì)導(dǎo)致情感識(shí)別準(zhǔn)確率降低的可能因素。其次,語(yǔ)音片段或面部表情信號(hào)包含有大量時(shí)序信息,而單向LSTM 選擇性地記憶先前的時(shí)序信息,這就不能更有效地學(xué)習(xí)全局信息。
針對(duì)上述問(wèn)題,本文以音視頻雙模態(tài)情感識(shí)別為對(duì)象設(shè)計(jì)了一種針對(duì)特征層融合的情感識(shí)別框架,如圖1所示。
圖1 音視頻雙模態(tài)特征層融合框架流程圖
在對(duì)語(yǔ)音信號(hào)和視頻信號(hào)分別進(jìn)行簡(jiǎn)單預(yù)處理之后,采用基于先驗(yàn)知識(shí)的特征提取方法對(duì)語(yǔ)音信號(hào)進(jìn)行語(yǔ)音特征提取,而在面部表情特征提取方面,本文采用VGGNet-19 網(wǎng)絡(luò)代替?zhèn)鹘y(tǒng)的ResNet 網(wǎng)絡(luò)提取面部表情特征。隨后對(duì)所得到的音視頻特征都進(jìn)行基于零均值標(biāo)準(zhǔn)化的特征歸一化處理以減少訓(xùn)練時(shí)間。然后在特征層將經(jīng)過(guò)時(shí)序絕對(duì)同步之后的音視頻特征進(jìn)行直接級(jí)聯(lián),完成雙模態(tài)特征融合。為了避免由于直接級(jí)聯(lián)融合特征可能產(chǎn)生的高維災(zāi)難,本文采用PCA 對(duì)融合之后的特征進(jìn)行降維處理。為了在對(duì)時(shí)序信息建模的同時(shí)考慮上下文信息,本文采用BLSTM替代傳統(tǒng)的LSTM進(jìn)行建模,得到最終的情感識(shí)別結(jié)果。
首先因?yàn)樵O(shè)備采集到的語(yǔ)音信號(hào)為模擬信號(hào),所以在特征提取之前要將其轉(zhuǎn)化為數(shù)字信號(hào),這樣才能繼續(xù)進(jìn)行后續(xù)處理。其次采集所得語(yǔ)音信號(hào)中混雜的環(huán)境和錄音設(shè)備帶來(lái)的無(wú)關(guān)噪聲會(huì)降低情感識(shí)別準(zhǔn)確率,為提高情感識(shí)別準(zhǔn)確率以及模型泛化能力,在情感特征提取之前,先對(duì)語(yǔ)音信號(hào)進(jìn)行預(yù)處理操作,然后再進(jìn)行特征提取。
步驟1將語(yǔ)音樣本下采樣到16 kHz,量化位數(shù)16 bit。這樣使得降低噪音干擾和保留有效情感信息兩方面要求都得到了滿(mǎn)足。
步驟2通過(guò)高通濾波器中一階數(shù)字濾波器進(jìn)行語(yǔ)音預(yù)加重處理達(dá)到抑制低頻信號(hào)提升高頻信號(hào)的目的。傳遞函數(shù)及濾波函數(shù)如式(1)和式(2)所示:
其中,α 為預(yù)加重系數(shù)(0.9 ≤α ≤1),本文設(shè)置α 為0.94。X(n)為第n時(shí)刻的語(yǔ)音采樣值,Y(n)為處理后的信號(hào)。
步驟3為了保障信號(hào)的平穩(wěn)性,使用窗口函數(shù)對(duì)語(yǔ)音信號(hào)進(jìn)行分割,分割后的片段為語(yǔ)音幀。為了保證語(yǔ)音信號(hào)的平滑過(guò)渡,相鄰語(yǔ)音幀之間有一定的重疊。這里采用avec2014競(jìng)賽[10]中的標(biāo)準(zhǔn),幀長(zhǎng)為3 s,幀移為1 s。
語(yǔ)音信號(hào)使用滑動(dòng)窗口與窗口函數(shù)加權(quán)的方式進(jìn)行分幀,常用的滑動(dòng)窗口函數(shù)有矩形窗和漢明窗兩種,矩形窗和漢明窗的窗函數(shù)的表達(dá)式如式(3)和式(4)所示:
在窗函數(shù)的表達(dá)式中,n代表第n個(gè)采樣點(diǎn),N 為語(yǔ)音幀內(nèi)采樣點(diǎn)的數(shù)量。通過(guò)對(duì)兩個(gè)窗函數(shù)進(jìn)行對(duì)比,發(fā)現(xiàn)漢明窗的主瓣寬度比矩形窗更寬。而主瓣較寬,語(yǔ)音信號(hào)起始和結(jié)束端的坡度較緩,窗口里信號(hào)將更加平穩(wěn),故選取漢明窗口函數(shù)進(jìn)行語(yǔ)音信號(hào)的分幀操作。
步驟4為避免受語(yǔ)音樣本中無(wú)聲片段影響而訓(xùn)練時(shí)間增長(zhǎng),使用雙門(mén)限端點(diǎn)檢測(cè)法對(duì)語(yǔ)音信號(hào)的起點(diǎn)與終點(diǎn)進(jìn)行判斷,從而對(duì)語(yǔ)音樣本無(wú)聲片段進(jìn)行剝離。其中使用基于短時(shí)能量的端點(diǎn)檢測(cè)法用來(lái)確定語(yǔ)音的起止點(diǎn),其表達(dá)式如式(5):
其中,X(n為)語(yǔ)音信號(hào),h(n)=ω2(n),ω(n)為窗函數(shù)。
使用基于過(guò)零率的端點(diǎn)檢測(cè)法[25]用來(lái)確定清輔音與無(wú)聲信號(hào)的分界點(diǎn),其表達(dá)式如式(6):
其中,sgn[]為符號(hào)函數(shù)。
步驟5語(yǔ)音信號(hào)預(yù)處理之后,通過(guò)對(duì)預(yù)處理之后的語(yǔ)音信號(hào)中的特征參數(shù)進(jìn)行提取和分析,得到語(yǔ)音信號(hào)特征。特征提取時(shí),采用基于先驗(yàn)知識(shí)的特征提取方法提取特征需要借助專(zhuān)家先驗(yàn)知識(shí)經(jīng)驗(yàn)選取含有情感信息的韻律學(xué)、譜和聲音質(zhì)量等聲學(xué)情感特征集合[26]。本文首先采用基于先驗(yàn)知識(shí)的特征提取方法對(duì)韻律學(xué)、譜和聲音質(zhì)量等低層次特征進(jìn)行特征提取,再借助openS‐MILE[27]進(jìn)行全特征提取。參照avec2014 競(jìng)賽[10]中的特征集合作為參考進(jìn)行情感特征提取,該特征集合具體特征種類(lèi)參數(shù)見(jiàn)表1。
對(duì)語(yǔ)音幀序列進(jìn)行特征提取之后,得到不同維度的語(yǔ)音情感特征。因?yàn)楫?dāng)不同特征參數(shù)取值范圍不同時(shí)情感模型訓(xùn)練將花費(fèi)大量時(shí)間,所以對(duì)特征進(jìn)行基于零均值標(biāo)準(zhǔn)化的特征歸一化,其表達(dá)式如式(7):
其中,X 為樣本的特征矩陣,μ為均值向量,σ 為均方誤差。
表1 特征種類(lèi)
因?yàn)橐曨l中部分圖像存在人臉遮擋現(xiàn)象會(huì)對(duì)模型訓(xùn)練產(chǎn)生一定的干擾,其次因?yàn)橐曨l中部分人臉圖像轉(zhuǎn)動(dòng)幅度大會(huì)使人臉特征提取速度變慢。針對(duì)這些問(wèn)題,需要在情感特征提取之前,先對(duì)視頻幀進(jìn)行預(yù)處理操作,然后再進(jìn)行特征提取。
步驟1對(duì)數(shù)據(jù)庫(kù)中視頻流使用OpenCV[28]工具將其轉(zhuǎn)變?yōu)橐曨l幀序列,之后剔除對(duì)人臉被遮擋的圖像。
步驟2面部表情情感識(shí)別需對(duì)人臉面部的紋理特征進(jìn)行特征提取與分析,但是實(shí)際采集的視頻流不僅包含面部而且包含人肩部以上圖像,所以直接對(duì)視頻幀操作時(shí)識(shí)別準(zhǔn)確率不高而且花費(fèi)大量訓(xùn)練時(shí)間。為解決上述問(wèn)題,同時(shí)也為了方便后續(xù)視頻幀的特征提取,使用Dlib[29]工具進(jìn)行面部圖像尺寸歸一化處理,如圖2所示。
圖2 視頻幀面部圖像歸一化處理
步驟3對(duì)采集過(guò)程中人臉位置不正的圖片進(jìn)行人臉對(duì)齊操作。這里使用68 個(gè)landmark 點(diǎn)(人臉關(guān)鍵特征點(diǎn))對(duì)人臉進(jìn)行標(biāo)記,然后利用標(biāo)記進(jìn)行人臉對(duì)齊操作,如圖3所示。
圖3 landmark點(diǎn)標(biāo)記人臉圖片
對(duì)所有標(biāo)記landmark 點(diǎn)取均值得到頭部標(biāo)準(zhǔn)姿勢(shì)模板,其他圖像以該圖像為模板進(jìn)行對(duì)齊操作。這里以?xún)蓚€(gè)外眼角點(diǎn)(36,45)和鼻尖點(diǎn)(30)為基準(zhǔn),對(duì)所有圖像做仿射變換。這樣轉(zhuǎn)正后人臉特征點(diǎn)位置相近,方便后續(xù)進(jìn)行特征提取操作。
步驟4預(yù)處理之后對(duì)面部表情特征進(jìn)行提取。深度卷積神經(jīng)網(wǎng)絡(luò)VGGNet[30]泛化性好常用來(lái)提取圖像特征,并有使用較小卷積核、增加網(wǎng)絡(luò)深度可以提升分類(lèi)與識(shí)別效果的特性。這里使用VGGNet-19[30]提取面部表情的情感特征,使用常規(guī)參數(shù)進(jìn)行網(wǎng)絡(luò)結(jié)構(gòu)初始化,其結(jié)構(gòu)如圖4所示。
VGGNet-19有5段卷積,每段卷積有2~3個(gè)卷積層,每段卷積后邊會(huì)緊跟最大池化層(maxpool)。其中卷積核也稱(chēng)濾波器,作用是提取局部特征,每個(gè)卷積核都會(huì)映射出一張新的2D 圖像。池化用來(lái)保留最顯著的特征,具有提升模型畸變?nèi)萑痰哪芰Α5玫讲煌S度的面部表情情感特征。同樣對(duì)提取后特征使用零均值標(biāo)準(zhǔn)化的方法進(jìn)行特征矩陣歸一化處理,其表達(dá)式同式(7)。
步驟1為進(jìn)行音視頻雙模態(tài)特征層融合,需要滿(mǎn)足語(yǔ)音信號(hào)和面部表情視頻幀時(shí)序的絕對(duì)同步。對(duì)于語(yǔ)音模態(tài),語(yǔ)音信號(hào)被使用窗口函數(shù)分割后,每個(gè)3 s的語(yǔ)音片段對(duì)應(yīng)一個(gè)語(yǔ)音特征向量,片段間1 s 的重疊。面部表情視頻流30 幀/s,每一幀對(duì)應(yīng)一個(gè)面部表情的特征向量。以語(yǔ)音片段的時(shí)間窗口為基準(zhǔn),對(duì)時(shí)間間隔里所有視頻幀的特征向量取均值作為時(shí)間片段內(nèi)所有幀的特征向量。這即滿(mǎn)足了語(yǔ)音信號(hào)和視頻幀信號(hào)的時(shí)序同步,同時(shí)也對(duì)所有幀的視頻幀的信息進(jìn)行了充分利用。然后對(duì)語(yǔ)音信號(hào)特征和視頻信號(hào)特征進(jìn)行直接級(jí)聯(lián),級(jí)聯(lián)之后每個(gè)3 s 的音視頻片段對(duì)應(yīng)3 s 語(yǔ)音片段維度數(shù)加上90 幀面部表情維度數(shù)的維度總數(shù)的特征向量。
步驟2當(dāng)訓(xùn)練集合的樣本不是足夠大時(shí),特征參數(shù)過(guò)多會(huì)降低情感識(shí)別精度,所以選擇對(duì)特征進(jìn)行降維操作[24]。PCA[31]算法將可能相關(guān)的特征向量進(jìn)行正交變換,并將變換后的特征向量按照方差遞減的順序進(jìn)行排序,選取方差較大的特征向量作為降維后的特征參數(shù)。雖然特征降維后特征有一定的數(shù)據(jù)損失,但特征之間的冗余得到了降低,從而抽取出最有代表性的情感特征。同時(shí),PCA 降維避免了訓(xùn)練集合的樣本數(shù)量不充足時(shí),增加特征集合可能降低情感識(shí)別的準(zhǔn)確率的問(wèn)題。使用PCA 無(wú)監(jiān)督學(xué)習(xí)的方法進(jìn)行特征降維,以90%作為特征向量方差的閾值。
步驟3當(dāng)人類(lèi)情感發(fā)生變化時(shí),臉部的眉毛、鼻子、嘴等器官周?chē)倪\(yùn)動(dòng)單元也會(huì)隨之運(yùn)動(dòng),這種變化具有連續(xù)性,所以面部表情信號(hào)和語(yǔ)音信號(hào)具有時(shí)序性。而且雙模態(tài)識(shí)別過(guò)程中,樣本信息既包括先前的語(yǔ)音信號(hào)和視頻幀又包括后續(xù)的語(yǔ)音信號(hào)和視頻幀,而且使用上下文信息有助于更好地學(xué)習(xí)全局信息。LSTM 只捕獲了上文信息,文獻(xiàn)[32]提出的雙向RNN模型同時(shí)考慮了歷史信息和未來(lái)信息。文獻(xiàn)[33]用LSTM記憶單元替代BRNN 中的隱藏層神經(jīng)元,構(gòu)建了BLSTM 模型,該模型有效地利用了序列數(shù)據(jù)的上文信息和下文信息,因此采用能選擇性記憶上下文時(shí)序信息的BLSTM進(jìn)行模型構(gòu)建。其結(jié)構(gòu)如圖5所示。
圖4 VGGNet各級(jí)網(wǎng)絡(luò)圖結(jié)構(gòu)
圖5 BLSTM結(jié)構(gòu)圖
圖5 中包含兩層隱含層單元,第一層傳播方向?yàn)閺那巴髠鞑?,用?lái)學(xué)習(xí)上文信息;第二層傳播方向?yàn)閺暮笸皞鞑?,用?lái)學(xué)習(xí)下文信息。在t 時(shí)刻,當(dāng)前時(shí)刻的輸入值、上文信息、下文信息共同作為輸入值,對(duì)三者的信息進(jìn)行判斷可以得到第t 時(shí)刻的輸出結(jié)果。
經(jīng)過(guò)BLSTM建模之后,特征層融合框架構(gòu)造完畢。
情感識(shí)別研究要建立在情感數(shù)據(jù)庫(kù)之上,情感識(shí)別框架性能也要通過(guò)情感數(shù)據(jù)庫(kù)來(lái)體現(xiàn)。為了評(píng)估設(shè)計(jì)的音視頻雙模態(tài)情感識(shí)別融合框架的性能,本文在AViD-Corpus 數(shù)據(jù)庫(kù)和SEMAINE 數(shù)據(jù)庫(kù)上進(jìn)行實(shí)驗(yàn),并與幾種不同的雙模態(tài)特征層融合框架進(jìn)行性能對(duì)比。
AViD-Corpus 數(shù)據(jù)庫(kù)是由PPT 引導(dǎo)的人機(jī)交互任務(wù),交互內(nèi)容包括兩部分:Northwind 和Freeform。數(shù)據(jù)采集設(shè)備為網(wǎng)絡(luò)攝像頭和智能手機(jī),總共采集了340 個(gè)音視頻文件。該庫(kù)收集自292 個(gè)說(shuō)話(huà)人,總時(shí)長(zhǎng)240 h。其中音視頻片段時(shí)長(zhǎng)20~50 min,平均時(shí)長(zhǎng)25 min。說(shuō)話(huà)人年齡分布在18~63 周歲,平均年齡31.5 周歲,年齡標(biāo)準(zhǔn)方差12.3。本文使用Northwind 部分進(jìn)行實(shí)驗(yàn)。其中,音視頻文件總共150 段,每段時(shí)長(zhǎng)35~45 s 不等。語(yǔ)音采樣頻率41 kHz,量化位數(shù)16位;視頻采樣幀率為30幀/s,像素為640×480。avec2013競(jìng)賽對(duì)該庫(kù)的Arousal和Valence維度進(jìn)行了標(biāo)注,avec2014競(jìng)賽對(duì)Dominance維度進(jìn)行了補(bǔ)充標(biāo)注,標(biāo)注范圍[-1,1]。
SEMAINE數(shù)據(jù)庫(kù)是由貝爾法斯特女王大學(xué)采集的英文音視頻維度情感數(shù)據(jù)庫(kù)。該庫(kù)由四種性格的(溫和、外向、生氣、悲傷)工作人員模擬機(jī)器工作的環(huán)境與20位被測(cè)者(8男,12女)進(jìn)行交互的方式收集。SEMAINE數(shù)據(jù)庫(kù)在專(zhuān)業(yè)錄音棚內(nèi)采集,采集時(shí)長(zhǎng)約7 h,音視頻文件時(shí)長(zhǎng)為3~5 min。其中,語(yǔ)音信號(hào)采樣頻率48 kHz、量化位數(shù)24 bit;視頻幀采樣頻率50幀/s、像素值為580×780。該庫(kù)含有95 個(gè)音視頻文件,在avec2011 和avec2012 競(jìng)賽中該庫(kù)Valence、Arousal、Power、Expectation 和Intensity維度被進(jìn)行了標(biāo)注,標(biāo)注范圍[-1,1]。
本文實(shí)驗(yàn)硬件環(huán)境為PC機(jī),有8塊8 GB內(nèi)存,操作系統(tǒng)為Ubuntu14.04.5,搭載Linux 內(nèi)核,同時(shí)借助GeForce GTX 1080 GPU進(jìn)行加速處理。
將音視頻文件按照7∶1∶2 比例劃分為訓(xùn)練集合、驗(yàn)證集合、測(cè)試集合三部分。其中AViD-Corpus 數(shù)據(jù)庫(kù)數(shù)據(jù)分為訓(xùn)練集合105個(gè),驗(yàn)證集合15個(gè),測(cè)試集合30個(gè)。SEMAINE 數(shù)據(jù)庫(kù)數(shù)據(jù)隨機(jī)選取90 個(gè)音視頻文件分為訓(xùn)練集合63 個(gè),驗(yàn)證集合9 個(gè),測(cè)試集合18 個(gè)。選取Valence和Arousal維度情感進(jìn)行識(shí)別。
使用設(shè)計(jì)的音視頻雙模態(tài)情感識(shí)別特征層融合框架對(duì)AViD-Corpus數(shù)據(jù)庫(kù)和SEMAINE數(shù)據(jù)庫(kù)的Valence和Arousal 維度情感進(jìn)行識(shí)別,之后使用兩個(gè)維度情感識(shí)別的RMSE和PCC的均值對(duì)識(shí)別結(jié)果進(jìn)行衡量。
為了驗(yàn)證本文提出的基于特征層融合的雙模態(tài)情感識(shí)別框架的有效性,將本文方法(方法(5))與文獻(xiàn)[23]提出的雙模態(tài)情感識(shí)別方法(方法(1))進(jìn)行了對(duì)比,并設(shè)計(jì)了幾種不同的對(duì)照方法(方法(2)、方法(3)、方法(4)),以下為幾種不同方法的具體細(xì)節(jié)及實(shí)驗(yàn)結(jié)果分析。
方法(1)ResNet+LSTM:參照文獻(xiàn)[23]提出的情感識(shí)別框架,面部表情特征采用ResNet 網(wǎng)絡(luò)提取,而語(yǔ)音特征使用工具包openSMILE 提取,然后對(duì)雙模態(tài)特征進(jìn)行直接級(jí)聯(lián),最后使用兩層LSTM模型進(jìn)行時(shí)序建模。
方法(2)ResNet+LSTM+PCA:在方法(1)中傳統(tǒng)的情感識(shí)別框架基礎(chǔ)引入PCA 降維,語(yǔ)音和面部表情模態(tài)分別使用工具包openSMILE 和ResNet 網(wǎng)絡(luò)提取情感特征,然后對(duì)雙模態(tài)特征進(jìn)行直接級(jí)聯(lián)并采用PCA 降維,最后使用兩層LSTM模型進(jìn)行時(shí)序建模。
方法(3)VGGNet-19+LSTM+PCA:語(yǔ)音和面部表情模態(tài)分別使用工具包openSMILE 和VGGNet-19 網(wǎng)絡(luò)提取情感特征,然后對(duì)雙模態(tài)特征進(jìn)行直接級(jí)聯(lián)并采用PCA降維,最后使用兩層LSTM模型進(jìn)行時(shí)序建模。
方法(4)ResNet+BLSTM+PCA:語(yǔ)音和面部表情模態(tài)分別使用工具包openSMILE 和ResNet 網(wǎng)絡(luò)提取情感特征,然后對(duì)雙模態(tài)特征進(jìn)行直接級(jí)聯(lián)并采用PCA 降維,最后使用BLSTM模型進(jìn)行時(shí)序建模。
方法(5)VGGNet-19+BLSTM+PCA:本文方法,即語(yǔ)音和面部表情模態(tài)分別使用工具包openSMILE 和VGGNet-19網(wǎng)絡(luò)提取情感特征,然后對(duì)雙模態(tài)特征進(jìn)行直接級(jí)聯(lián)并采用PCA 降維,最后使用BLSTM 模型進(jìn)行時(shí)序建模。
不同方案下實(shí)驗(yàn)結(jié)果如表2和表3所示。
表2 AViD-corpus數(shù)據(jù)庫(kù)實(shí)驗(yàn)結(jié)果
表3 SEMAINE數(shù)據(jù)庫(kù)實(shí)驗(yàn)結(jié)果
在表2 和表3 兩個(gè)不同數(shù)據(jù)庫(kù)的對(duì)比實(shí)驗(yàn)中,通過(guò)對(duì)比ResNet+LSTM 和ResNet+LSTM+PCA 的實(shí)驗(yàn)結(jié)果發(fā)現(xiàn)加入PCA 降維之后實(shí)驗(yàn)結(jié)果中RMSE 得到一定降低,PCC 得到一定提高。這證明了,PCA 降維在此兩個(gè)數(shù)據(jù)庫(kù)上對(duì)實(shí)驗(yàn)結(jié)果有一定改善。
通過(guò)對(duì)比ResNet+LSTM+PCA和VGGNet-19+LSTM+PCA 以及對(duì)比ResNet+BLSTM+PCA 和VGGNet-19+BLSTM+PCA 可以看出使用VGGNet-19 對(duì)面部表情進(jìn)行特征提取的RMSE要低于使用ResNet,使用VGGNet-19 進(jìn)行面部表情進(jìn)行特征提取的PCC 要高于使用ResNet。
通過(guò)對(duì)比ResNet+LSTM+PCA 和ResNet+BLSTM+PCA以及對(duì)比VGGNet-19+LSTM+PCA和VGGNet-19+BLSTM+PCA 可以看出使用BLSTM 進(jìn)行時(shí)序建模的RMSE 要低于使用使用兩層LSTM,使用BLSTM 進(jìn)行時(shí)序建模的PCC要高于使用兩層LSTM。
這證明了,在使用PCA 降維的四個(gè)實(shí)驗(yàn)中,三種基于VGGNet-19 或者BLSTM 的框架有效性和準(zhǔn)確性均優(yōu)于傳統(tǒng)的ResNet+LSTM框架。
綜上所述,本文設(shè)計(jì)的語(yǔ)音和面部表情雙模態(tài)情感識(shí)別融合框架在RMSE 和PCC 兩個(gè)評(píng)估指標(biāo)上均優(yōu)于其他對(duì)比方法。因此本文實(shí)驗(yàn)結(jié)果驗(yàn)證了本文提出的音視頻雙模態(tài)情感識(shí)別融合框架的有效性和準(zhǔn)確性。
為了解決音視頻雙模態(tài)情感識(shí)別框架準(zhǔn)確率低可靠性差的問(wèn)題,本文基于傳統(tǒng)的情感識(shí)別方法,在面部表情特征提取中采用了VGGNet-19 的方法,并在音視頻特征級(jí)聯(lián)之后融入PCA 降維,最后結(jié)合BLSTM 網(wǎng)絡(luò)以同時(shí)考慮上下文信息,構(gòu)建情感識(shí)別特征層融合框架,使用AViD-Corpus 數(shù)據(jù)庫(kù)和SEMAINE 數(shù)據(jù)庫(kù)對(duì)該算法進(jìn)行驗(yàn)證。結(jié)果顯示,本文提出框架對(duì)比現(xiàn)有框架,RMSE 得到下降,PCC 得到提升,有效提升了情感識(shí)別框架的準(zhǔn)確性和可靠性。