亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于感知重采樣和多模態(tài)融合的連續(xù)情感識(shí)別

        2023-02-21 00:11:32李健張倩陳海豐李晶王麗燕裴二成
        計(jì)算機(jī)應(yīng)用研究 2023年12期

        李健 張倩 陳海豐 李晶 王麗燕 裴二成

        摘 要:情感識(shí)別在人機(jī)交互中發(fā)揮著重要的作用,連續(xù)情感識(shí)別因其能檢測(cè)到更廣泛更細(xì)微的情感而備受關(guān)注。在多模態(tài)連續(xù)情感識(shí)別中,針對(duì)現(xiàn)有方法獲取的時(shí)序信息包含較多冗余以及多模態(tài)交互信息捕捉不全面的問題,提出基于感知重采樣和多模態(tài)融合的連續(xù)情感識(shí)別方法。首先感知重采樣模塊通過非對(duì)稱交叉注意力機(jī)制去除模態(tài)冗余信息,將包含時(shí)序關(guān)系的關(guān)鍵特征壓縮到隱藏向量中,降低后期融合的計(jì)算復(fù)雜度。其次多模態(tài)融合模塊通過交叉注意力機(jī)制捕捉模態(tài)間的互補(bǔ)信息,并利用自注意力機(jī)制獲取模態(tài)內(nèi)的隱藏信息,使特征信息更豐富全面。在UlmTSST和AffWild2數(shù)據(jù)集上喚醒度和愉悅度的CCC均值分別為63.62%和50.09%,證明了該模型的有效性。

        關(guān)鍵詞:情感識(shí)別;感知重采樣;多模態(tài)融合;注意力機(jī)制

        中圖分類號(hào):TP391?? 文獻(xiàn)標(biāo)志碼:A??? 文章編號(hào):1001-3695(2023)12-047-3816-05

        doi: 10.19734/j.issn.1001-3695.2023.04.0217

        Continuous emotion recognition based on perceiver resampling and multimodal fusion

        Abstract:Emotion recognition plays a crucial role in humancomputer interaction, and continuous emotion recognition has gained significant attention due to its ability to capture a broader range of emotions, including more subtle ones. In the field of multimodal continuous emotion recognition, this paper proposed a continuous emotion recognition method based on perceiver resampling and multimodal fusion for the problems that the temporal series information obtained by the existing methods contains more redundancy and the obtained multimodal interactive information is not comprehensive. Firstly, the perceiver resampling module removed redundant information, focused on key information, compressed the key features with temporal relationships into hidden vectors, and reduced the computational complexity of the later fusion. Secondly, the multimodal fusion module captured the interactive information between modalities through crossattention mechanism, and used the selfattention mechanism to obtain the hidden information within each modality, so as to make the feature information richer and more comprehensive. The mean CCC values of arousal and valence on the UlmTSST and AffWild2 datasets are 63.62% and 50.09%, respectively, which prove the effectiveness of the model.

        Key words:emotion recognition; perceiver resampling; multimodal fusion; attention mechanism

        0 引言

        隨著人工智能技術(shù)的發(fā)展,人機(jī)交互在很多領(lǐng)域都有了廣泛應(yīng)用,如醫(yī)學(xué)、監(jiān)控、學(xué)習(xí)和娛樂等。但情感分析和識(shí)別一直是人機(jī)交互的一個(gè)關(guān)鍵問題,讓計(jì)算機(jī)準(zhǔn)確識(shí)別人們的情感可以為用戶提供更優(yōu)質(zhì)的服務(wù),顯著提升用戶的體驗(yàn)。在情感識(shí)別任務(wù)中,情感通常分為離散情感[1]和連續(xù)情感[2]。離散情感根據(jù)Ekman[3]的研究被分成快樂、悲傷、憤怒、恐懼、驚訝和厭惡六種基本情緒。連續(xù)情感描述的是在時(shí)間上持續(xù)的情感狀態(tài),可以用連續(xù)的數(shù)值對(duì)情感進(jìn)行描述。本文基于arousalvalence進(jìn)行連續(xù)情感識(shí)別,其中:arousal代表喚醒度,表示情感的興奮程度;valence代表愉悅度,表示情感的積極程度。相較于離散情感的表示方法,連續(xù)情感描述的情感范圍更廣,粒度更細(xì),對(duì)情緒的動(dòng)態(tài)演變描述得更加準(zhǔn)確。近年來,深度學(xué)習(xí)技術(shù)被應(yīng)用到情感識(shí)別,極大地提高了情感識(shí)別的準(zhǔn)確率。同時(shí),AVEC[4]、ABAW[5]、MuSe[6,7]等推出的相關(guān)競(jìng)賽也在一定程度上促進(jìn)了該項(xiàng)技術(shù)的發(fā)展和進(jìn)步。

        人的情感是隨時(shí)間變化的,連續(xù)情感識(shí)別的一個(gè)重點(diǎn)是要抓住情感在時(shí)序上的相關(guān)性。Tran等人[8]將16幀的視頻剪輯送入3D卷積神經(jīng)網(wǎng)絡(luò)(3D convolutional neural network,3DCNN)中來獲取時(shí)間關(guān)系。同樣地,黃健[9]也利用3DCNN建模視頻數(shù)據(jù)的時(shí)空上下文信息來學(xué)習(xí)情感表征;Karas等人[10]提取當(dāng)前幀及前后相鄰幀的特征以獲得動(dòng)態(tài)的情緒信息。雖然上述方法可以捕捉情感的局部時(shí)間關(guān)系,但利用深度學(xué)習(xí)提取的特征包含很多噪聲,在情感識(shí)別過程中,這些噪聲會(huì)對(duì)預(yù)測(cè)結(jié)果產(chǎn)生負(fù)面影響,所以在獲取序列時(shí)序關(guān)系時(shí)去除冗余信息,關(guān)注富含情感的關(guān)鍵信息是非常重要的。本文采用感知重采樣(perceiver resampling)模塊,該模塊利用位置編碼獲得情感的時(shí)間關(guān)系,利用非對(duì)稱的交叉注意力機(jī)制去除不必要的噪聲影響,將模態(tài)中帶有時(shí)間關(guān)系的關(guān)鍵信息壓縮提取到一個(gè)自定義大小的隱藏向量中,減小后期的計(jì)算復(fù)雜度。

        不同的模態(tài)可以提供互補(bǔ)的情感線索,多模態(tài)融合數(shù)據(jù)包含的信息更全面、完整,如何使融合數(shù)據(jù)包含更多的情感信息是當(dāng)前研究的重點(diǎn)。不同模態(tài)表現(xiàn)出的情感互補(bǔ)可能體現(xiàn)在當(dāng)實(shí)驗(yàn)者不說話時(shí)用面部表情來表達(dá)感情,反之實(shí)驗(yàn)者也可能用表情表達(dá)情緒但并不發(fā)出聲音,由此可見音頻和視覺數(shù)據(jù)之間的有效交互能夠提供更全面的內(nèi)容,包含更多的情感信息,因此有必要對(duì)不同模態(tài)之間的互補(bǔ)關(guān)系進(jìn)行建模。Yoon等人[11]通過注意力機(jī)制對(duì)一種模態(tài)進(jìn)行調(diào)節(jié),實(shí)現(xiàn)對(duì)另一模態(tài)信息的選擇和聚合;Huang等人[12]提出跨模態(tài)注意力模塊來融合多模態(tài)信息。上述結(jié)果表明,多模態(tài)融合的識(shí)別效果比使用單一模態(tài)更好,但是數(shù)據(jù)在融合交互的過程中難免會(huì)有一些信息丟失。為了彌補(bǔ)這些缺失的信息,本文提出基于交叉和自注意力機(jī)制的多模態(tài)融合模塊,將自注意力機(jī)制提取的模態(tài)內(nèi)的隱藏信息作為交叉融合信息的補(bǔ)充,以獲得更全面的情感信息。

        綜上所述,本文的主要貢獻(xiàn)包括:

        a)提出一個(gè)結(jié)合感知重采樣和多模態(tài)融合的連續(xù)情感識(shí)別模型,該模型引入音頻和視覺模態(tài),壓縮提取模態(tài)特征序列中的時(shí)間信息和關(guān)鍵信息,然后進(jìn)行模態(tài)內(nèi)和模態(tài)間的信息交互,最后通過LSTM網(wǎng)絡(luò)完成情感預(yù)測(cè);

        b)感知重采樣模塊利用位置編碼建模情感局部時(shí)間關(guān)系,利用非對(duì)稱的注意力機(jī)制將帶有時(shí)間關(guān)系的關(guān)鍵信息進(jìn)行提取壓縮,增強(qiáng)特征序列的表達(dá)能力,減小特征序列的維度,并在一定程度上減輕了后期的計(jì)算壓力;

        c)多模態(tài)融合模塊通過交叉注意力機(jī)制獲得模態(tài)間的互補(bǔ)信息,利用自注意力機(jī)制獲得模態(tài)內(nèi)的隱藏信息,使情感信息更加飽滿豐富,以解決現(xiàn)有模型對(duì)特征表示不完全的問題。

        1 相關(guān)工作

        1.1 連續(xù)情感識(shí)別中的時(shí)序關(guān)鍵信息提取

        情感在時(shí)間上是連續(xù)的、平滑過渡的。對(duì)于連續(xù)情感的識(shí)別,不僅要考慮當(dāng)前時(shí)刻的情感特征,還要考慮情感的時(shí)間依賴特性。Ji等人[13]通過3DCNN從時(shí)間和空間維度提取視頻幀的特征,捕獲多個(gè)相鄰幀的特征信息以獲得動(dòng)態(tài)特征序列。Amiriparian等人[6]采用LSTM網(wǎng)絡(luò)提取不同模態(tài)或多模態(tài)融合的時(shí)間上下文信息。上述方法雖然可以有效提取情感的時(shí)間依賴,但是由于提取的特征中包含很多噪聲,例如:a)時(shí)空冗余,在連續(xù)音頻模態(tài)中,相鄰時(shí)間步之間可能存在相似的聲音特征,尤其是對(duì)于持續(xù)的聲音信號(hào),類似地,連續(xù)圖像模態(tài)中,相鄰幀之間可能存在相似的空間特征;b)靜態(tài)冗余,在連續(xù)音頻和圖像模態(tài)中,可能存在一些靜態(tài)或重復(fù)信息,例如音頻中持續(xù)的背景噪聲或環(huán)境聲音,圖形中持續(xù)的靜態(tài)背景或相同的物體,這些信息在相鄰時(shí)間步之間可能重復(fù)出現(xiàn);c)噪聲冗余,可能由于環(huán)境因素或數(shù)據(jù)采集過程中的干擾引起的噪聲或干擾信號(hào),也可能對(duì)時(shí)序關(guān)系的準(zhǔn)確性和穩(wěn)定性造成影響。這些噪聲會(huì)使模型對(duì)情感的分析和預(yù)測(cè)造成偏差,所以在處理時(shí)間連續(xù)的音頻和圖像模態(tài)時(shí),還需要減少冗余信息的影響,提取關(guān)鍵的時(shí)序關(guān)系并進(jìn)行適當(dāng)?shù)臄?shù)據(jù)處理和壓縮。

        注意力機(jī)制的提出,使得模型可以賦予關(guān)鍵信息更多的權(quán)值[14,15],將更多的關(guān)注集中在可以提升模型效果的數(shù)據(jù)上。Transformer[16]利用自注意力機(jī)制去除不相關(guān)的噪聲影響,使模型更加關(guān)注關(guān)鍵信息,提升了模型性能。Andayani等人[17]利用Transformer進(jìn)行情感預(yù)測(cè),獲得了更好的結(jié)果。雖然Transformer可以使模型將注意力集中在關(guān)鍵信息,但是深度學(xué)習(xí)提取的特征維度很高,Transformer在特征維度上的伸縮性很差,這會(huì)導(dǎo)致模型后期的計(jì)算量驟增。而Transformer的最新發(fā)展[18]表明,它可以通過非對(duì)稱的交叉注意力機(jī)制將高維數(shù)據(jù)壓縮到一個(gè)可學(xué)習(xí)的隱藏向量中,使用低維度的向量來表示輸入的信息。本文利用感知重采樣模塊[19] 的這種非對(duì)稱性將高維度輸入壓縮成富含情感信息的低維度輸出,并插入位置編碼獲取局部時(shí)間的上下文關(guān)系,最終獲得具有時(shí)間關(guān)聯(lián)的關(guān)鍵信息,減小了冗余信息對(duì)情感預(yù)測(cè)造成的影響。

        1.2 連續(xù)情感識(shí)別中的多模態(tài)融合

        利用多模態(tài)融合來提高情感預(yù)測(cè)系統(tǒng)的性能已成為近期研究的熱點(diǎn)。多模態(tài)融合常用的方法有特征級(jí)融合和決策級(jí)融合。Zhao等人[20]將音頻和視頻特征進(jìn)行簡(jiǎn)單拼接,融合后的識(shí)別精度有所提高,但是特征串聯(lián)的融合方式?jīng)]有對(duì)每個(gè)模態(tài)的特性進(jìn)行分析,且容易造成特征維度爆炸。Zhang等人[21]使用決策級(jí)融合得到不同模態(tài)的互補(bǔ)信息,但是決策級(jí)融合通常將各個(gè)模態(tài)獨(dú)立看待,忽略了不同模態(tài)之間情感特征的相互作用,未能挖掘模態(tài)間的信息交互。Chen等人[22]采用將特征級(jí)和決策級(jí)融合相結(jié)合的方法對(duì)情感進(jìn)行預(yù)測(cè)。Lee等人[23]使用基于注意力的多模態(tài)融合機(jī)制融合語言、音頻和視覺特征,為不同模態(tài)特征分配不同權(quán)重。Zhang等人[24]將靜態(tài)視覺特征和動(dòng)態(tài)多模態(tài)特征通過Transformer融合在一起,其輸出的綜合特征涵蓋了情感分析的關(guān)鍵信息。實(shí)驗(yàn)表明,不同模態(tài)之間存在互補(bǔ)信息,多模態(tài)融合可以包含更多的情感信息。

        跨模態(tài)交叉融合方法雖然捕獲了模態(tài)間的互補(bǔ)信息,但是在融合過程中可能會(huì)損失一些信息,比如在跨模態(tài)融合過程中可能會(huì)丟失圖像中的細(xì)節(jié)信息或語音中的上下文信息,導(dǎo)致信息的不完整或缺失;或者某個(gè)模態(tài)的特征在融合過程中可能被其他模態(tài)的特征所主導(dǎo),導(dǎo)致該模態(tài)的信息在最終表示中丟失或減弱等。為了彌補(bǔ)上述特征缺失,獲取單個(gè)模態(tài)內(nèi)的重要信息,本文采用交叉注意力機(jī)制和自注意力機(jī)制探索音頻和視覺模態(tài)的信息關(guān)聯(lián),兼顧模態(tài)內(nèi)和模態(tài)間的信息交互,用單模態(tài)內(nèi)的隱藏信息和重要信息補(bǔ)充融合信息的缺失,使情感特征更全面豐富。在交叉融合過程中還利用Tanh機(jī)制使單一模態(tài)更加平穩(wěn)地過渡到融合模態(tài)。

        2 方法模型

        本文提出一個(gè)感知重采樣和多模態(tài)融合網(wǎng)絡(luò)(perceiver resamping and multimodel fusion network,PRMFN),總體框架如圖1所示,它主要由感知重采樣模塊和多模態(tài)融合模塊組成。首先將提取的音頻和視覺特征及融合特征分別送入感知重采樣模塊進(jìn)行局部時(shí)間感知,去除冗余信息,壓縮關(guān)鍵信息。然后將音頻和視覺的感知重采樣輸出送到多模態(tài)融合模塊,該模塊由交叉注意力層和自注意力層以及前饋層組成,根據(jù)注意力權(quán)重從模態(tài)間和模態(tài)內(nèi)的角度傳播信息。輸出的序列集成后送到LSTM網(wǎng)絡(luò)中進(jìn)行情感喚醒度和愉悅度的預(yù)測(cè)。

        2.1 感知重采樣模塊

        感知重采樣模塊中包含三個(gè)感知器,每個(gè)感知器都有L層,每一層都由一個(gè)多頭交叉注意力(multihead crossattention, MCA)機(jī)制和一個(gè)前饋網(wǎng)絡(luò)(feedforward network, FFN)組成,如圖2所示。每個(gè)感知器的輸入不同,從圖1可以看出,三個(gè)輸入分別是音頻特征、視覺特征以及音頻視覺拼接特征??傮w來說,該模塊將模態(tài)局部時(shí)間內(nèi)的特征序列Xm和可學(xué)習(xí)的隱藏向量Hm作為輸入(隱藏向量一般比特征序列維度?。?,并將位置編碼添加到序列中獲得特征的時(shí)間上下文信息,通過交叉注意力機(jī)制,使Hm迭代地關(guān)注Xm中富含情感信息的關(guān)鍵特征,將帶有時(shí)序信息的特征映射到隱藏向量Hm中,從而實(shí)現(xiàn)關(guān)鍵信息壓縮的目的。

        該模塊的計(jì)算過程如式(1)~(3)所示。

        Hl′m=Hl-1m+MCA(Hl-1m,Xm)? l=1,…,L(1)

        Hlm=Hl′m+FFN(Hl′m) l=1,…,L(2)

        Hm=LN(HLm)(3)

        其中:LN代表線性歸一化;l表示第l層;L表示層數(shù)。Hm是可學(xué)習(xí)的隱藏向量,可自定義大小,作為查詢輸入到MCA中,第l層的隱藏向量表示為Hlm。Xm={x1m,x2m,…,xT′mm}T∈Euclid ExtraaBpT′m,dm作為鍵和值輸入,T′m表示局部時(shí)間內(nèi)的特征長度,dm是特征維度,m∈{a,v,a+v}。音頻和視覺的最后輸出分別為Ha和Hv,a+v表示將音頻和視覺特征串聯(lián),送入該模塊后得到Hmid。

        2.2 多模態(tài)特征融合

        本文采用基于交叉和自注意力機(jī)制的多模態(tài)融合模塊來學(xué)習(xí)模態(tài)間和模態(tài)內(nèi)的交互,利用交叉注意力模塊學(xué)習(xí)音頻和視覺模態(tài)間的互補(bǔ)信息,通過自注意力模塊學(xué)習(xí)模態(tài)內(nèi)的隱藏信息,將其作為融合信息的補(bǔ)充。

        1)交叉注意力模塊

        交叉注意力模塊包含L層交叉注意層,每層由一個(gè)多頭交叉注意機(jī)制和一個(gè)前饋網(wǎng)絡(luò)組成,如圖3所示。該模塊的注意力與感知器中的不同,該注意力機(jī)制輸入的是兩個(gè)不同的模態(tài)特征,通過交叉注意力機(jī)制學(xué)習(xí)兩種模態(tài)間的互補(bǔ)關(guān)系,然后根據(jù)所學(xué)的關(guān)聯(lián)將信息,從一種模態(tài)傳播到另一種模態(tài)。為了更好地融合模態(tài)信息,本文還采用Tanh門控機(jī)制,使模型可以從單純的音頻和視覺特征平穩(wěn)過渡到融合特征,提高訓(xùn)練的穩(wěn)定性和模型的表達(dá)能力。

        圖3兩側(cè)過程相同,以左側(cè)來具體說明,如式(4)~(6)所示。

        Hl′v=Hl-1v+tanh(MCA(Hl-1v,Ha))? l=1,…,L(4)

        Hlv=Hl′v+tanh(FFN(Hl′v))? l=1,…,L(5)

        Hcv=LN(HLv)(6)

        其中:Hv和Ha是經(jīng)過感知重采樣模塊處理后的視覺和音頻序列;Ha作為查詢輸入;Hv作為鍵和值輸入。該模塊從音頻模態(tài)傳播信息到視覺模態(tài),然后根據(jù)傳播的信息更新視覺模態(tài)的序列信息。為了增強(qiáng)特征的表示能力,將學(xué)到的加權(quán)信息送到完全連接層中,來獲得視覺和音頻的最終融合信息。本文在交叉注意和前饋層后面使用了tanh門控機(jī)制,最后,視覺和音頻的融合模態(tài)信息分別表示為Hcv和Hca。

        2)自注意力模塊

        為了解決在交叉融合過程中造成信息損失的問題,本文使用自注意力模塊對(duì)單模態(tài)信息進(jìn)行建模以作為融合信息的補(bǔ)充。自注意力模塊與交叉注意力模塊原理相似,不同點(diǎn)是每一層由一個(gè)多頭自注意力(MSA)機(jī)制和一個(gè)前饋網(wǎng)絡(luò)組成,查詢、鍵和值來自同一模態(tài)且沒有設(shè)置門控機(jī)制。自注意力機(jī)制可以挖掘模態(tài)內(nèi)信息間的聯(lián)系,并利用其引導(dǎo)獲得模態(tài)自身所包含的關(guān)鍵信息。兩個(gè)模態(tài)通過自注意力機(jī)制的最終輸出為Hsa和Hsv。

        最后,將(Hsa,Hsm,Hca,Hcv,Hmid)連接起來作為PRMFN模型的最終表示,送入LSTM網(wǎng)絡(luò)進(jìn)行喚醒度和愉悅度的預(yù)測(cè)。

        3 實(shí)驗(yàn)與結(jié)果分析

        3.1 數(shù)據(jù)集與模態(tài)特征

        1)數(shù)據(jù)集

        a)UlmTSST[7]。MuSe比賽中的MuSeStress挑戰(zhàn)提供了UlmTSST(Ulmtrier social stress test)數(shù)據(jù)集。在壓力測(cè)試中,受試者被記錄在一個(gè)誘發(fā)壓力的工作面試場(chǎng)景中,經(jīng)過短暫的準(zhǔn)備后進(jìn)行5 min的自由演講。最后由三位評(píng)分者以2 Hz的采樣率對(duì)喚醒度和愉悅度進(jìn)行標(biāo)注,以精確地記錄情緒的細(xì)微變化。UlmTSST包括69名參與者(其中49名為女性)的此類演講記錄,約6 h的數(shù)據(jù),年齡在18~39歲,訓(xùn)練集、驗(yàn)證集和測(cè)試集的比例是41∶14∶14(見表1)。

        b)AffWild2[25],第三屆自然場(chǎng)景下情感行為分析研討會(huì)和競(jìng)賽(ABAW3)提供的情感行為數(shù)據(jù)集。它包含的數(shù)據(jù)均來自YouTube,大多表現(xiàn)人類自發(fā)的情感行為。具體而言,AffWild2含有567個(gè)(有的視頻包含兩個(gè)主題,被分別標(biāo)注)標(biāo)注了喚醒和愉悅的視頻,其中341個(gè)作為訓(xùn)練集,71個(gè)作為驗(yàn)證集,152個(gè)作為測(cè)試集。

        2)多模態(tài)特征

        a)音頻特征。使用DeepSpectrum[26]特征作為PRMFN模型的語音特征,利用CNN架構(gòu)從音頻信號(hào)的視覺表示(如梅爾譜圖)中提取深度特征。該方法采用預(yù)訓(xùn)練的DENSENET121作為CNN主干,音頻被表示為具有128個(gè)頻帶的梅爾譜圖,采用viridis顏色映射。譜圖被送入DENSENET121中,在最后一個(gè)池化層輸出1 024維特征向量。

        b)視覺特征。從視頻幀中截取人臉,然后從個(gè)人面部獲得面部運(yùn)動(dòng)單元(facial unit,F(xiàn)AU)來作為視覺特征。Ekman等人[27]首次提出FAU與情感表達(dá)密切相關(guān),并在一定程度上獨(dú)立于個(gè)人文化背景,是一種比較流行的用于視覺情感預(yù)測(cè)的方法。

        3.2 評(píng)估協(xié)議

        UlmTSST和AffWild2數(shù)據(jù)集都采用比賽官方的數(shù)據(jù)集分區(qū)進(jìn)行實(shí)驗(yàn)。使用訓(xùn)練集(train)訓(xùn)練模型,由于測(cè)試集標(biāo)簽未公開,所以在驗(yàn)證集(devel)上驗(yàn)證模型效果。在實(shí)驗(yàn)中,使用喚醒度和愉悅度的一致性相關(guān)系數(shù)(concordance correlation coefficient,CCC)的平均值作為評(píng)估維度情感預(yù)測(cè)性能的評(píng)價(jià)指標(biāo)。CCC的取值為[-1,1],CCC值越接近1,說明預(yù)測(cè)與真值擬合得越好。CCC計(jì)算公式為

        3.3 實(shí)驗(yàn)環(huán)境和參數(shù)設(shè)置

        本文實(shí)驗(yàn)均在NVIDIA Tesla V100上進(jìn)行,使用Ubuntu 16.04.12版本操作系統(tǒng),Python 3.8.13,PyTorch 1.8.1版本對(duì)網(wǎng)絡(luò)模型進(jìn)行搭建。

        實(shí)驗(yàn)中對(duì)數(shù)據(jù)進(jìn)行分割訓(xùn)練,窗長設(shè)置為500,窗移設(shè)置為150,樣本批次大小設(shè)置為64。使用Adam優(yōu)化器,最大迭代次數(shù)為100,學(xué)習(xí)率初始設(shè)置為0.000 5。模型中感知重采樣模塊有兩層,輸入的局部時(shí)間內(nèi)的特征長度為2,自定義輸出大小是4×16。多模態(tài)融合模塊中交叉注意力模塊、自注意力模塊、LSTM的層數(shù)均設(shè)置為2。

        3.4 實(shí)驗(yàn)結(jié)果與分析

        由于情感是主觀體驗(yàn),連續(xù)情感難以準(zhǔn)確地進(jìn)行客觀標(biāo)注,無法通過實(shí)例來直接證明研究方法的有效性。為了驗(yàn)證PRMFN模型可以感受到人類情感的變化,隨機(jī)裁取UlmTSST驗(yàn)證集中情感變化明顯的一部分視頻(10 s)進(jìn)行情感預(yù)測(cè)。

        從圖4中可以明顯看出實(shí)驗(yàn)者的情緒波動(dòng),實(shí)驗(yàn)者一開始是嚴(yán)肅的,后來慢慢轉(zhuǎn)變?yōu)殚_心,在這個(gè)過程中,實(shí)驗(yàn)者的喚醒度和愉悅度都是上升的。本文模型的預(yù)測(cè)值雖然在數(shù)值上與標(biāo)注值有些差別,但是能夠正確判斷情感的變化趨勢(shì),說明該模型能夠依賴上下文信息對(duì)情感進(jìn)行預(yù)測(cè),同時(shí)也證明該模型在現(xiàn)實(shí)事例中也能發(fā)揮一定的作用。

        3.4.1 與其他方法的比較

        表2、3顯示了本文方法在不同數(shù)據(jù)集上的結(jié)果對(duì)比。在UlmTSST數(shù)據(jù)集上,PRMFN模型在喚醒度方面獲得了最高準(zhǔn)確率,均值也達(dá)到最高。在AffWild2數(shù)據(jù)集上,喚醒度、愉悅度和均值都獲得了比其他方法更好的結(jié)果。

        表2是在UlmTSST數(shù)據(jù)集上的結(jié)果對(duì)比。MuSe比賽使用LSTM作為基線模型[6],使用LSTM網(wǎng)絡(luò)提取情感的時(shí)間上下文關(guān)聯(lián),沒有對(duì)數(shù)據(jù)進(jìn)行處理,數(shù)據(jù)中的冗余信息可能會(huì)對(duì)結(jié)果造成影響。此外,對(duì)于模態(tài)融合采用的是簡(jiǎn)單的特征拼接方式,雖然捕獲了模態(tài)間的交互關(guān)系,但缺乏對(duì)單個(gè)模態(tài)內(nèi)信息交互的考慮。 Ma等人[28]使用決策層融合的方法得到了不同模態(tài)的互補(bǔ)信息,與特征拼接方法不同,決策層融合方式考慮了每個(gè)模態(tài)內(nèi)的信息交互,但未考慮模態(tài)間的信息交互。

        He等人[29]提出了多模態(tài)時(shí)間注意力(multimodal temporal attention,MMTA)方法,該方法考慮了所有模態(tài)對(duì)每個(gè)模態(tài)的時(shí)間影響。Li等人[30]提出結(jié)合自注意力機(jī)制和循環(huán)門控單元(gated recurrent unit,GRU)的方法來捕捉時(shí)序特征中的時(shí)間依賴關(guān)系。雖然考慮了時(shí)間的依賴關(guān)系,但對(duì)于連續(xù)情感來說,相鄰時(shí)間段內(nèi)會(huì)有大量的相同信息,這些信息可能會(huì)成為噪聲,所以對(duì)情感預(yù)測(cè)時(shí),要盡量減小冗余信息對(duì)結(jié)果帶來的影響。

        表3是在AffWild2數(shù)據(jù)集上的結(jié)果對(duì)比。ABAW比賽使用深度學(xué)習(xí)模型[5],通過卷積神經(jīng)網(wǎng)絡(luò)獲取音頻和圖像的特征,但忽略了圖像和音頻之間的聯(lián)系,也沒有考慮連續(xù)情感在時(shí)間上的聯(lián)系。Zhang等人[21]將音頻和視頻特征串聯(lián)融合,這種融合方式只對(duì)融合特征進(jìn)行處理,沒有對(duì)每個(gè)模態(tài)的特性進(jìn)行分析,沒有考慮到單一模態(tài)隱藏信息對(duì)情感預(yù)測(cè)的影響。

        Karas等人[10]提取當(dāng)前幀及前后相鄰幀的特征以獲得動(dòng)態(tài)的情緒信息。Sanchez等人[31]對(duì)模態(tài)的時(shí)間上下文建模進(jìn)行情感預(yù)測(cè)。上述方法只考慮了情感的時(shí)間關(guān)系,沒有考慮到冗余信息對(duì)情感預(yù)測(cè)的影響,且在多模態(tài)融合過程中,沒有考慮單一模態(tài)內(nèi)部隱藏信息對(duì)情感的作用。

        針對(duì)以上方法存在的問題,PRMFN模型既緩解了情感冗余信息帶來的不利影響,又通過自注意力機(jī)制彌補(bǔ)融合信息缺失的問題,不僅能學(xué)習(xí)多模態(tài)共享的情感特征,又學(xué)習(xí)了不同模態(tài)特有的情感信息,所以本文獲得了較好的結(jié)果。

        3.4.2 消融研究

        為了驗(yàn)證PRMFN模型的有效性,本文將兩個(gè)模態(tài)的數(shù)據(jù)通過全連接層映射為相同維度的向量后送入交叉融合模塊作為基線模型,在此基礎(chǔ)上添加感知重采樣模塊和自注意力模塊來證明所提模塊的有效性,實(shí)驗(yàn)結(jié)果如表4所示。UlmTSST數(shù)據(jù)集基線模型的喚醒度和愉悅度分別是0.533 9、0.521 4,均值是0.527 6;AffWild2數(shù)據(jù)集的喚醒度和愉悅度分別是0.465 4、0.416 9,均值是0.441 1。

        在基線模型中加入感知重采樣模塊后,UlmTSST數(shù)據(jù)集的喚醒度提高了0.026 7,愉悅度提高了0.057 5。AffWild2數(shù)據(jù)集的喚醒度提高了0.016 8,愉悅度提高了0.010 7。驗(yàn)證了本文提出的感知重采樣模塊對(duì)提高情感識(shí)別準(zhǔn)確率有積極影響。

        當(dāng)基線模型加入自注意力模塊后,UlmTSST數(shù)據(jù)集的喚醒度提高了0.004 7,愉悅度提高了0.075 8。AffWild2數(shù)據(jù)集的喚醒度提高了0.019 4,愉悅度提高了0.013 7。說明模態(tài)通過自注意力機(jī)制提取的隱藏信息包含了情感信息,將它作為融合信息的補(bǔ)充是有效果的,在一定程度上提高了情感識(shí)別的準(zhǔn)確率。

        當(dāng)感知重采樣模塊和自注意力機(jī)制模塊都加入到基線模塊中,UlmTSST數(shù)據(jù)集的喚醒度和愉悅度分別提高了0.075 8、0.141 3,AffWild2數(shù)據(jù)集的喚醒度和愉悅度分別提高了0.041 8、0.077 7。實(shí)驗(yàn)結(jié)果充分驗(yàn)證了本文所提兩個(gè)模塊的有效性。

        4 結(jié)束語

        本文提出了一個(gè)基于音頻和視覺的多模態(tài)情感識(shí)別模型。該模型通過感知重采樣模塊捕獲音頻和視覺特征的局部關(guān)鍵信息和時(shí)間上下文信息,并利用非對(duì)稱注意力機(jī)制進(jìn)行數(shù)據(jù)壓縮。然后利用融合模塊將它們集成到一起,充分挖掘模態(tài)間的互補(bǔ)信息和模態(tài)內(nèi)的隱藏信息。實(shí)驗(yàn)結(jié)果表明,去除冗余信息,探索模態(tài)的時(shí)序關(guān)系對(duì)提高模型準(zhǔn)確率有積極作用,不同模態(tài)的信息融合也有助于提高情感識(shí)別的準(zhǔn)確率。消融研究表明,感知重采樣模塊和多模態(tài)融合模塊都起到了改善情感識(shí)別性能的作用。此外,好的模態(tài)特征會(huì)影響模型的性能,由于本文使用的是已有方法提取模態(tài)特征,所以下一步的研究將會(huì)考慮如何提取有效的模態(tài)特征。

        參考文獻(xiàn):

        [1]Antonetti P,Valor C. A theorisation of discrete emotion spillovers: an empirical test for anger[J]. Journal of Marketing Management,2021,37(7-8): 599-625.

        [2]Liu Meng,Ince R A A,Chen Chaona,et al. Emotion categories are represented by a 2dimensional valencearousal space[J]. Journal of Vision,2020,20(11): 1224-1224.

        [3]Ekman P. An argument for basic emotions[J]. Cognition & Emotion,1992,6(3-4): 169-200.

        [4]Ringeval F,Schuller B,Valstar M,et al. AVEC 2019 workshop and challenge: stateofmind,detecting depression with AI,and crosscultural affect recognition[C]// Proc of the 27th ACM International Conference on Multimedia. New York: ACM Press,2019: 3-12.

        [5]Kollias D. ABAW: valencearousal estimation,expression recognition,action unit detection & multitask learning challenges[C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops.Piscataway,NJ:IEEE Press,2022:2327-2335.

        [6]Amiriparian S,Christ L,Knig A,et al. MuSe 2022 challenge: multimodal humour,emotional reactions,and stress[C]// Proc of the 30th ACM International Conference on Multimedia. New York: ACM Press,2022: 7389-7391.

        [7]Christ L,Amiriparian S,Baird A,et al. The MuSe 2022 multimodal sentiment analysis challenge: humor,emotional reactions,and stress[C]// Proc of the 3rd International on Multimodal Sentiment Analysis Workshop and Challenge. New York: ACM Press,2022: 5-14.

        [8]Tran D,Bourdev L,F(xiàn)ergus R,et al. Learning spatiotemporal features with 3D convolutional networks [C]// Proc of IEEE International Conference on Computer Vision. Piscataway,NJ: IEEE Press,2015: 4489-4497.

        [9]黃健. 基于時(shí)序上下文的連續(xù)情感識(shí)別研究[D]. 北京: 中國科學(xué)院大學(xué),2020. (Huang Jian. Research on continuous emotion recognition based on time series context[D]. Beijing: University of Chinese Academy of Sciences,2020.)

        [10]Karas V,Tellamekala M K,MallolRagolta A,et al. Timecontinuous audiovisual fusion with recurrence vs attention for inthewild affect recognition[C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. Piscataway,NJ: IEEE Press,2022: 2381-2390.

        [11]Yoon S,Byun S,Dey S,et al. Speech emotion recognition using multihop attention mechanism [C]// Proc of IEEE International Conference on Acoustics,Speech and Signal Processing. Piscataway,NJ: IEEE Press,2019: 2822-2826.

        [12]Huang Jian,Tao Jianhua,Liu Bin,et al. Multimodal transformer fusion for continuous emotion recognition [C]// Proc of IEEE International Conference on Acoustics,Speech and Signal Processing. Piscataway,NJ: IEEE Press,2020: 3507-3511.

        [13]Ji Shuiwang,Xu Wei,Yang Ming,et al. 3D convolutional neural networks for human action recognition[J]. IEEE Trans on Pattern Analysis and Machine Intelligence,2012,35(1): 221-231.

        [14]薛艷飛,毛啟容,張建明. 基于多任務(wù)學(xué)習(xí)的多語言語音情感識(shí)別方法[J]. 計(jì)算機(jī)應(yīng)用研究,2021,38(4): 1069-1073. (Xue Yanfei,Mao Qirong,Zhang Jianming. A multilingual speech emotion recognition method based on multitask learning[J]. Application Research of Computers,2021,38(4): 1069-1073.)

        [15]鄒蕓竹,杜圣東,滕飛,等. 一種基于多模態(tài)深度特征融合的視覺問答模型[J]. 計(jì)算機(jī)科學(xué),2023,50(2): 123-129. (Zou Yunzhu,Du Shengdong,Teng Fei,et al. A visual question answering model based on multimodal depth feature fusion[J]. Computer Science,2023,50(2): 123-129.)

        [16]Vaswani A,Shazeer N,Parmar N,et al. Attention is all you need[C]// Proc of the 31st International Conference on Neural Information Processing Systems. Red Hook,NY: Curran Associates Inc.,2017: 6000-6010.

        [17]Andayani F,Theng L B,Tsun M T,et al. Hybrid LSTMtransformer model for emotion recognition from speech audio files[J]. IEEE Access,2022,10(19): 36018-36027.

        [18]Jaegle A,Gimeno F,Brock A,et al. Perceiver: general perception with iterative attention[C]// Proc of the 38th International Conference on Machine Learning.New York:PMLR,2021:4651-4664.

        [19]Alayrac J B,Donahue J,Luc P,et al. Flamingo: a visual language model for fewshot learning [EB/OL]. (2022-11-15). https://arxiv.org/abs/2204.14198.

        [20]Zhao Sicheng,Ma Yunsheng,Gu Yang,et al. An endtoend visualaudio attention network for emotion recognition in usergenerated videos [C]// Proc of AAAI Conference on Artificial Intelligence.Palo Alto,CA: AAAI Press,2020: 303-311.

        [21]Zhang Wei,Guo Zunhu,Chen Keyu,et al. Prior aided streaming network for multitask affective recognitionat the 2nd ABAW2 competition[EB/OL].(2021-07-08).https://arxiv.org/abs/2107.03708.

        [22]Chen Haifeng,Deng Yifan,Cheng Shiwen,et al. Efficient spatial temporal convolutional features for audiovisual continuous affect recognition[C]// Proc of the 9th International on Audio/Visual Emotion Challenge and Workshop. New York: ACM Press,2019: 19-26.

        [23]Lee S,Han D K,Ko H. Multimodal emotion recognition fusion analysis adapting BERT with heterogeneous feature unification[J]. IEEE Access,2021,9: 94557-94572.

        [24]Zhang Wei,Qiu Feng,Wang Suzhen,et al. Transformerbased multimodal information fusion for facial expression analysis[C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. Piscataway,NJ: IEEE Press,2022: 2427-2436.

        [25]Kollias D,Zafeiriou S. Expression,affect,action unit recognition: AffWild2,multitask learning and ArcFace[EB/OL]. (2019-09-25). https://arxiv.org/abs/1910.04855.

        [26]Amiriparian S,Gerczuk M,Ottl S,et al. Snore sound classification using imagebased deep spectrum features[C] // Proc of InterSpeech. 2017: 3512-3516.

        [27]Ekman P,F(xiàn)riesen W V. Facial action coding system: a technique for the measurement of facial movement[EB/OL]. (1978-01). https://www.researchgate.net/publication/239537771_Facial_action_coding_system_A_technique_for_the_measurement_of_facial_movement.

        [28]Ma Ziyu,Ma Fuyan,Sun Bin,et al. Hybrid mutimodal fusion for dimensional emotion recognition[C]// Proc of the 2nd on Multimodal Sentiment Analysis Challenge. New York: ACM Press,2021: 29-36.

        [29]He Yu,Sun Licai,Lian Zheng,et al. Multimodal temporal attention in sentiment analysis[C]// Proc of the 3rd International on Multimodal Sentiment Analysis Workshop and Challenge. New York: ACM Press,2022: 61-66.

        [30]Li Jia,Zhang Ziyang,Lang Junjie,et al. Hybrid multimodal feature extraction,mining and fusion for sentiment analysis[C]// Proc of the 3rd International on Multimodal Sentiment Analysis Workshop and Challenge. New York: ACM Press,2022: 81-88.

        [31]Sanchez E,Tellamekala M K,Valstar M,et al. Affective processes: stochastic modelling of temporal context for emotion and facial expression recognition [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2021: 9070-9080.

        亚洲成a人网站在线看| av 日韩 人妻 黑人 综合 无码| 人妻 日韩精品 中文字幕| 51精品视频一区二区三区| 中文字幕人妻少妇精品| 黄片视频免费在线播放观看| 蜜桃久久精品成人无码av| 国产成人精品午夜福利在线| 蜜桃伦理一区二区三区| 国产一区二区三区在线视频观看| 欧美人伦禁忌dvd放荡欲情| 精精国产xxxx视频在线| 91自国产精品中文字幕| 在线中文字幕一区二区| 久久久久久亚洲av成人无码国产| 99久久久无码国产精品9| 青青手机在线视频观看| 国产日产在线视频一区| 又大又粗又爽18禁免费看| 亚洲无码专区无码| 中文字幕日本韩国精品免费观看 | 欲女在线一区二区三区| 久久精品国产亚洲av四虎| 国产欧美日韩综合一区二区三区| av在线不卡一区二区三区| 无码人妻久久一区二区三区免费丨 | 职场出轨的人妻中文字幕| 48沈阳熟女高潮嗷嗷叫| 欧美日韩精品一区二区三区高清视频 | 亚洲女同同性少妇熟女| 久久人妻一区二区三区免费| 亚洲va中文字幕| 国产91吞精一区二区三区| 亚洲精品综合一区二区| 欧美丰满老熟妇aaaa片| 国产成人精品无码播放| 国产小车还是日产的好| 国产桃色一区二区三区| 国产裸拍裸体视频在线观看| 欧美中文字幕在线看| 91精品国产高清久久福利|