亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        表情識(shí)別技術(shù)綜述

        2022-08-16 12:21:10洪惠群沈貴萍黃風(fēng)華
        計(jì)算機(jī)與生活 2022年8期
        關(guān)鍵詞:模態(tài)特征融合

        洪惠群,沈貴萍+,黃風(fēng)華

        1.陽(yáng)光學(xué)院 人工智能學(xué)院,福州350015

        2.陽(yáng)光學(xué)院 空間數(shù)據(jù)挖掘與應(yīng)用福建省高校工程研究中心,福州350015

        3.陽(yáng)光學(xué)院 福建省空間信息感知與智能處理重點(diǎn)實(shí)驗(yàn)室,福州350015

        表情、聲音、文本、姿態(tài)等,都可以用來(lái)表達(dá)人類(lèi)情感,面部表情是人類(lèi)情感表達(dá)的重要依據(jù)之一,因此,計(jì)算機(jī)可以嘗試通過(guò)分析人的面部表情來(lái)理解人的情感,并在眾多人機(jī)交互系統(tǒng)中融入,例如:各類(lèi)服務(wù)型機(jī)器人、輔助檢測(cè)疲勞駕駛、醫(yī)療服務(wù)、遠(yuǎn)程教育中學(xué)生學(xué)習(xí)狀態(tài)監(jiān)測(cè)等。盡管在人們社交過(guò)程中,逐漸演化出各種復(fù)雜的面部動(dòng)作和表情來(lái)表達(dá)內(nèi)心的情感,但是學(xué)術(shù)界普遍研究的都是由Friesen 和Ekman 等心理學(xué)家提出的6 種基本情感類(lèi)別,即“高興、憤怒、悲傷、吃驚、厭惡、恐懼”。

        隨著計(jì)算機(jī)視覺(jué)及人工智能技術(shù)的發(fā)展,人臉表情識(shí)別吸引著越來(lái)越多的學(xué)者進(jìn)行研究。表情識(shí)別側(cè)重于識(shí)別面部的表情及情感,而情感分析則可以根據(jù)面部表情、語(yǔ)音、文本、姿態(tài)、腦電信號(hào)等各種信號(hào)來(lái)進(jìn)行情感分析,在情感分析的過(guò)程中,有可能沒(méi)有對(duì)面部表情這一模態(tài)進(jìn)行分析。因此,可以將表情識(shí)別看作情感分析的一個(gè)研究方向。本文側(cè)重于從面部表情識(shí)別的角度去歸納總結(jié)。

        在面部表情識(shí)別過(guò)程中,研究者常常會(huì)嘗試結(jié)合語(yǔ)音、文本、姿態(tài)、腦電波等多種模態(tài)信息進(jìn)行分析,根據(jù)在面部表情識(shí)別過(guò)程中所使用的數(shù)據(jù)集是單一模態(tài)的面部表情數(shù)據(jù)還是面部表情數(shù)據(jù)結(jié)合其他模態(tài)的數(shù)據(jù)進(jìn)行情感識(shí)別的不同,本文將表情識(shí)別算法分為基于單模態(tài)數(shù)據(jù)的面部表情識(shí)別和基于多模態(tài)數(shù)據(jù)的面部表情識(shí)別。

        1 基于單模態(tài)數(shù)據(jù)的面部表情識(shí)別

        基于單模態(tài)數(shù)據(jù)的面部表情識(shí)別主要根據(jù)面部表情這一模態(tài)來(lái)進(jìn)行分析識(shí)別,包含如圖1 所示步驟:數(shù)據(jù)集采集、圖像的預(yù)處理、表情識(shí)別及判斷類(lèi)別等。

        圖1 單模態(tài)人臉表情識(shí)別主要步驟Fig.1 Main steps of unimodal facial expression recognition

        1.1 數(shù)據(jù)集采集

        表1 總結(jié)了常見(jiàn)的表情識(shí)別數(shù)據(jù)集的圖像特點(diǎn)、標(biāo)注類(lèi)別及圖像/視頻數(shù)。其中:A1 代表實(shí)驗(yàn)室受控環(huán)境下的數(shù)據(jù),A2 代表網(wǎng)站上非受控環(huán)境下的數(shù)據(jù);B1 代表數(shù)據(jù)很少,B2 代表數(shù)據(jù)較少。

        表1 常見(jiàn)的表情識(shí)別數(shù)據(jù)集Table 1 Common expression recognition datasets

        表1 所示的數(shù)據(jù)集中,部分?jǐn)?shù)據(jù)集為受控環(huán)境下的數(shù)據(jù),數(shù)據(jù)少且皆為正面清晰人臉,標(biāo)注可經(jīng)過(guò)心理學(xué)專(zhuān)家反復(fù)確認(rèn),一般認(rèn)為這些數(shù)據(jù)庫(kù)標(biāo)注是完全可靠的,如CK+、JAFFE 等。部分?jǐn)?shù)據(jù)集如RAFDB、AffectNet 等大規(guī)模數(shù)據(jù)集,是在非受控環(huán)境下取得的,受標(biāo)注者感知的主觀性影響較大,標(biāo)注質(zhì)量相對(duì)比較低。因此,現(xiàn)有的數(shù)據(jù)集在數(shù)量和質(zhì)量上均較為不足,數(shù)據(jù)量小,不足以很好地訓(xùn)練目前在人臉識(shí)別任務(wù)中取得良好效果的較大深度網(wǎng)絡(luò)結(jié)構(gòu)。此外,現(xiàn)有的數(shù)據(jù)集缺乏具有遮擋類(lèi)型和頭部姿態(tài)標(biāo)注的大型面部表情數(shù)據(jù)集,也會(huì)影響深度網(wǎng)絡(luò)解決較大類(lèi)內(nèi)差距,學(xué)習(xí)高效表情識(shí)別能力特征的需求。

        1.2 圖像預(yù)處理

        圖像預(yù)處理主要對(duì)原圖像進(jìn)行人臉對(duì)齊、數(shù)據(jù)增強(qiáng)及人臉歸一化等操作,是在計(jì)算特征之前,排除掉與臉無(wú)關(guān)的一切干擾。恰當(dāng)?shù)念A(yù)處理能夠減少因圖像質(zhì)量對(duì)識(shí)別效果的影響,同時(shí)也能提升算法的魯棒性。

        人臉對(duì)齊也叫人臉關(guān)鍵點(diǎn)定位,在人臉檢測(cè)的基礎(chǔ)上,找到眉毛、眼睛、鼻子、人臉輪廓等的位置,最少的有5 個(gè)關(guān)鍵點(diǎn),常見(jiàn)的有68 個(gè)關(guān)鍵點(diǎn)。

        數(shù)據(jù)增強(qiáng)是通過(guò)隨機(jī)改變訓(xùn)練集樣本,以降低網(wǎng)絡(luò)模型對(duì)某些屬性的依賴(lài),從而提高識(shí)別率,防止過(guò)擬合現(xiàn)象的發(fā)生。

        人臉歸一化主要指亮度歸一化和姿態(tài)歸一化。

        1.3 面部表情識(shí)別

        傳統(tǒng)的表情識(shí)別方法主要為淺層學(xué)習(xí)或采用人工設(shè)計(jì)特征,需要人工較多地參與,常見(jiàn)的算法有:基于全局特征的提取方法、基于局部的提取方法、混合提取方法的靜態(tài)圖像表情識(shí)別以及基于光流法的動(dòng)態(tài)視頻的表情識(shí)別。具體方法及優(yōu)缺點(diǎn)如表2 所示。

        表2 傳統(tǒng)表情特征提取方法Table 2 Traditional expression feature extraction methods

        基于深度學(xué)習(xí)面部表情識(shí)別方法大體也可以分為基于靜態(tài)圖像的深度表情識(shí)別網(wǎng)絡(luò)以及基于動(dòng)態(tài)視頻的深度表情識(shí)別網(wǎng)絡(luò)。鑒于目前人臉表情數(shù)據(jù)庫(kù)相對(duì)較小,直接進(jìn)行深度學(xué)習(xí)網(wǎng)絡(luò)訓(xùn)練,往往導(dǎo)致過(guò)擬合。為了緩解過(guò)擬合的問(wèn)題,通常有如下幾種方法:自建網(wǎng)絡(luò)、卷積網(wǎng)絡(luò)微調(diào)、分階段微調(diào)、多網(wǎng)絡(luò)融合、多通道級(jí)聯(lián)、生成對(duì)抗網(wǎng)絡(luò)、基于遷移學(xué)習(xí)的跨域人臉表情識(shí)別等,現(xiàn)總結(jié)如表3。

        表3 基于深度學(xué)習(xí)表情識(shí)別方法Table 3 Expression recognition methods based on deep learning

        基于單模態(tài)數(shù)據(jù)的表情識(shí)別準(zhǔn)確率普遍不高,目前仍停留在實(shí)驗(yàn)室研究階段,無(wú)法在實(shí)際生活中廣泛運(yùn)用。

        2 基于多模態(tài)數(shù)據(jù)的面部表情識(shí)別

        由上可知,基于單模態(tài)數(shù)據(jù)的表情識(shí)別具有一定的局限性,為了解決這些局限性,越來(lái)越多的學(xué)者們開(kāi)始研究基于多模態(tài)數(shù)據(jù)的表情識(shí)別,希望能提高識(shí)別的準(zhǔn)確率及穩(wěn)定性。基于多模態(tài)數(shù)據(jù)的表情識(shí)別中,需要分別處理各模態(tài)的數(shù)據(jù)和對(duì)處理后的數(shù)據(jù)進(jìn)行融合。在本文研究的多個(gè)模態(tài)中,有一個(gè)模態(tài)為面部表情數(shù)據(jù)。常見(jiàn)的輔助表情識(shí)別的模態(tài)有:語(yǔ)音、聲音情緒、頭部運(yùn)動(dòng)、手勢(shì)識(shí)別、眼神交流、身體姿勢(shì)、生理信號(hào)等?;诙嗄B(tài)數(shù)據(jù)的面部表情系統(tǒng)的處理框架如圖2所示,該系統(tǒng)包含各個(gè)模態(tài)特征提取及模態(tài)信息融合。需要注意的是,單一模態(tài)數(shù)據(jù)的處理效果和多模態(tài)融合方式都很重要。在特征提取階段,表情識(shí)別分析所采用的方法與上述基于單模態(tài)數(shù)據(jù)的面部表情的特征提取方法相同,模態(tài)融合的過(guò)程主要有三種方式:基于特征級(jí)、決策級(jí)以及混合。下面將分別總結(jié)常見(jiàn)的多模態(tài)數(shù)據(jù)集、多模態(tài)表情識(shí)別技術(shù)、模態(tài)融合技術(shù)等。

        圖2 多模態(tài)表情識(shí)別的框架Fig.2 Framework of multimodal expression recognition

        2.1 多模態(tài)數(shù)據(jù)集

        本文中所提到的多模態(tài)數(shù)據(jù)集應(yīng)包含表情圖片或視頻作為其中一個(gè)模態(tài),具體數(shù)據(jù)集總結(jié)如表4。

        表4 中的多模態(tài)數(shù)據(jù)集都有表情視頻或圖像模態(tài),輔以文字、音頻、腦電、身體姿態(tài)等模態(tài)中的一個(gè)或多個(gè),收集渠道有實(shí)驗(yàn)室錄制、網(wǎng)上視頻錄制、實(shí)際環(huán)境中錄制,包含有情緒或情感標(biāo)簽,基本都是小數(shù)據(jù)集。其中,數(shù)據(jù)模態(tài)的縮寫(xiě)規(guī)定如下:視頻(video,V)、生理信號(hào)(physiological signal,PS)、音頻(audio,A)、文字(text,T)、身體動(dòng)作(body movement,BM)、面部動(dòng)作(facial movements,F(xiàn)M)、圖像(image,I)等。

        表4 多模態(tài)情感數(shù)據(jù)集Table 4 Multimodal affective datasets

        2.2 基于多模態(tài)數(shù)據(jù)集的表情識(shí)別技術(shù)

        現(xiàn)有的文獻(xiàn)中,基于多模態(tài)數(shù)據(jù)集的表情識(shí)別技術(shù)主要根據(jù)面部表情、文本、語(yǔ)音以及腦電等的一個(gè)模態(tài)進(jìn)行分析。文獻(xiàn)[75-77]針對(duì)視頻和音頻模態(tài)進(jìn)行分析,文獻(xiàn)[78-79]針對(duì)視頻和腦電模態(tài)進(jìn)行分析,文獻(xiàn)[80]針對(duì)表情視頻和多模態(tài)傳感器采集數(shù)據(jù)如眼動(dòng)跟蹤器、音頻、腦電圖(electroencephalogram,EEG)、深度相機(jī)等模態(tài)進(jìn)行分析,具體分析方法及優(yōu)缺點(diǎn)如表5 所示。文獻(xiàn)[80]采用的視覺(jué)和非視覺(jué)傳感器集成到面部表情識(shí)別的整體框圖如圖3 所示。由表5 及圖3 可知,基于多模態(tài)數(shù)據(jù)集的情感識(shí)別與融合雖然能夠在一定程度上解決基于單模態(tài)表情識(shí)別的局限性,然而仍存在系統(tǒng)較復(fù)雜、識(shí)別準(zhǔn)確率不夠高等問(wèn)題,需要進(jìn)一步解決。

        圖3 視覺(jué)和非視覺(jué)傳感器集成到面部表情識(shí)別Fig.3 Integration of visual and nonvisual sensors into facial expression recognition

        表5 多模態(tài)情感識(shí)別Table 5 Multimodal emotion recognition

        2.3 多模態(tài)數(shù)據(jù)的融合方式

        在基于多模態(tài)數(shù)據(jù)的表情識(shí)別中,除了各個(gè)模態(tài)的特征識(shí)別外,模態(tài)融合也是十分重要的。因此選擇合適的模態(tài)融合方式可以提高識(shí)別的準(zhǔn)確性及穩(wěn)定性,融合是從不同模態(tài)中提取信息集成多模態(tài)特征。常見(jiàn)的融合方式有:特征級(jí)的融合、決策級(jí)的融合和混合融合等。

        特征級(jí)的融合屬于中間層級(jí)的融合,通常需要從原始信息中提取有效的特征,然后對(duì)這些特征信息進(jìn)行分析和處理。特征級(jí)的融合對(duì)信息壓縮有利,提取的特征與決策分析直接相關(guān),因此,特征級(jí)的融合結(jié)果能為決策分析提供所需的特征信息,但是當(dāng)不考慮模態(tài)間的關(guān)聯(lián)性,直接將各模態(tài)的特征進(jìn)行級(jí)聯(lián)時(shí),且當(dāng)過(guò)多模態(tài)融合時(shí),其產(chǎn)生的特征向量可能產(chǎn)生維度災(zāi)難。其融合框圖如圖4 所示。

        圖4 特征級(jí)的融合框圖Fig.4 Fusion block diagram of feature level

        多模態(tài)情感識(shí)別方法中,研究者大量使用基于特征級(jí)的融合方法,但大多研究是將不同模態(tài)的特征直接級(jí)聯(lián),鮮少考慮模態(tài)間的信息互補(bǔ)關(guān)聯(lián)。文獻(xiàn)[85]利用開(kāi)源軟件OpenEAR、計(jì)算機(jī)表情識(shí)別工具箱進(jìn)行語(yǔ)音和面部的情感特征的提取,刪除視頻中出現(xiàn)頻率低的單詞,剩余單詞與每個(gè)話(huà)語(yǔ)轉(zhuǎn)錄內(nèi)頻率的值相關(guān)聯(lián),得到簡(jiǎn)單的加權(quán)圖特征作為文本情感特征,并使用特征級(jí)融合法將三種特征融合,利用支持向量機(jī)分析得到情感極性。具體實(shí)現(xiàn)過(guò)程如圖5所示。

        圖5 多模態(tài)特征提取Fig.5 Multimodal feature extraction

        文獻(xiàn)[86]通過(guò)挖掘話(huà)語(yǔ)前后視頻頁(yè)面的關(guān)系,提出了基于LSTM 的情感分析模型。進(jìn)行特征提取時(shí),先用text-CNN、3D-CNN 和openSMILE 分別對(duì)單模態(tài)文本、圖像、語(yǔ)言數(shù)據(jù)進(jìn)行特征提取,這提取的是上下文無(wú)關(guān)的特征向量;然后將這些特征輸入LSTM 網(wǎng)絡(luò)捕捉上下文之間的關(guān)系;最后進(jìn)行特征融合得到判斷的結(jié)果。具體實(shí)現(xiàn)過(guò)程如圖6所示,其中Contextual LSTM 的實(shí)現(xiàn)過(guò)程是:首先將數(shù)據(jù)輸入到LSTM 中,得到了一個(gè)上下文有關(guān)的特征,然后經(jīng)過(guò)全連接層得到一個(gè)預(yù)測(cè)結(jié)果,再進(jìn)行一個(gè)Softmax得到預(yù)測(cè)概率。具體實(shí)現(xiàn)過(guò)程如圖7所示。

        圖6 提取上下文相關(guān)多模態(tài)話(huà)語(yǔ)特征的層次結(jié)構(gòu)Fig.6 Hierarchical architecture for extracting context dependent multimodal utterance features

        圖7 Contextual LSTM 網(wǎng)絡(luò)Fig.7 Contextual LSTM network

        文獻(xiàn)[87]提出了能識(shí)別面部表情、姿態(tài)、身體動(dòng)作和聲音的多模態(tài)情感識(shí)別框架,利用級(jí)聯(lián)三維卷積神經(jīng)網(wǎng)絡(luò)以及深度置信網(wǎng)絡(luò)得到新的深度時(shí)空特征,對(duì)視頻和音頻等呈現(xiàn)的時(shí)空信息進(jìn)行有效建模實(shí)現(xiàn)情感識(shí)別,并且提出了一種基于雙線(xiàn)性池理論的新的音視頻特征級(jí)融合算法,在多模態(tài)情感數(shù)據(jù)集eNTERFACE 以及FABO 中,都取得了不錯(cuò)的結(jié)果。

        文獻(xiàn)[88]提出了一種基于深度置信網(wǎng)絡(luò)的多模情緒識(shí)別方法。如圖8,首先,對(duì)語(yǔ)音和表達(dá)式信號(hào)進(jìn)行預(yù)處理和特征提取,獲得單模信號(hào)的高級(jí)特征;然后,利用雙模態(tài)深度置信網(wǎng)絡(luò)融合高級(jí)語(yǔ)音特征和表達(dá)特征,得到用于分類(lèi)的多模態(tài)融合特征,并去除模態(tài)之間的冗余信息;最后,利用LIBSVM 軟件對(duì)多模態(tài)融合特征進(jìn)行分類(lèi),實(shí)現(xiàn)最終的情感識(shí)別。在多模態(tài)特征融合階段,采用3 個(gè)隱藏層的多模態(tài)融合深度置信網(wǎng)絡(luò)(deep confidence network,DBN)結(jié)構(gòu)。在初始階段,兩個(gè)DBN 網(wǎng)絡(luò)分別訓(xùn)練。當(dāng)訓(xùn)練到第三隱含層時(shí),將第三層的兩個(gè)特征值結(jié)合起來(lái)輸入到后面反向傳播(back propagation,BP)層。在微調(diào)階段,根據(jù)分類(lèi)器的實(shí)際輸出對(duì)第三隱藏層進(jìn)行微調(diào)。從第三隱含層到兩個(gè)DBN 各自的隱含層,進(jìn)行微調(diào)。最后,提出了一種基于DBN 的多模態(tài)融合情感識(shí)別模型。DBN 訓(xùn)練后,確定其權(quán)重和偏差。對(duì)于訓(xùn)練樣本和測(cè)試樣本,輸入DBN,通過(guò)第三隱藏層提取的特征值為多模態(tài)融合后的特征值。然后進(jìn)入LIBSVM 分類(lèi)器進(jìn)行情感分類(lèi)。但數(shù)據(jù)集采用的是《老友記》十季的視頻片段,同一個(gè)人的臉部細(xì)節(jié)發(fā)生了變化,給表情識(shí)別帶來(lái)了更多的困難。

        圖8 多模態(tài)情感識(shí)別模型總體架構(gòu)Fig.8 Overall architecture of multimodal emotion recognition model

        決策級(jí)的融合通常是指對(duì)單模態(tài)的信息進(jìn)行逐個(gè)預(yù)處理及特征處理,然后經(jīng)過(guò)分類(lèi)器,得到各自的分類(lèi)結(jié)果后,再將各自的分類(lèi)結(jié)果按照某種形式進(jìn)行融合,得到最終的情感分類(lèi)結(jié)果。由于各個(gè)模態(tài)的分類(lèi)結(jié)果的量綱等通常是一致的,決策級(jí)的融合相較于特征級(jí)融合更為簡(jiǎn)單,但是決策級(jí)融合往往只是對(duì)單模態(tài)的情感識(shí)別結(jié)果進(jìn)行二次加工,并沒(méi)有對(duì)數(shù)據(jù)本身的特點(diǎn)進(jìn)行充分挖掘,產(chǎn)生結(jié)果容易受到某一模態(tài)的情感識(shí)別效果的影響。決策級(jí)的融合框圖如圖9 所示。

        圖9 決策級(jí)的融合框圖Fig.9 Fusion block diagram of decision level

        文獻(xiàn)[89]利用了三個(gè)模態(tài)(視頻、音頻、文本)的組合特征向量來(lái)訓(xùn)練一個(gè)基于多核學(xué)習(xí)的分類(lèi)器,同時(shí)提出了一種并行決策級(jí)數(shù)據(jù)融合方法,能更快得到結(jié)果,但是準(zhǔn)確率有待進(jìn)一步提高。

        文獻(xiàn)[90]提出了一種融合面部表情以及血容量脈沖BVP 生理信號(hào)的多模態(tài)情感識(shí)別法。該方法先對(duì)視頻進(jìn)行預(yù)處理獲取面部視頻,然后對(duì)面部視頻分別提取局部二值模式-3 維正交平面(local binary patterns from three orthogonal planes,LBPTOP)、梯度方向直方圖-3維正交平面(gradient direction histogram-3D orthogonal plane,HOG-TOP)兩種時(shí)空表情特征后,送入BP 分類(lèi)器進(jìn)行模型訓(xùn)練;同時(shí),利用視頻顏色放大技術(shù)獲取血容量脈沖(blood volume pulse,BVP)信號(hào),并提取生理信號(hào)情感特征,將特征送入BP 分類(lèi)器進(jìn)行模型訓(xùn)練。最后將分類(lèi)器得到的結(jié)果用模糊積分進(jìn)行決策級(jí)融合,并得出識(shí)別結(jié)果。具體實(shí)現(xiàn)流程如圖10 所示,但是生理信號(hào)情感判別的準(zhǔn)確率還是偏低。

        圖10 雙模態(tài)情感識(shí)別系統(tǒng)流程圖Fig.10 Flow chart of dual-modality emotion recognition

        混合融合是指將特征級(jí)的融合和決策級(jí)的融合相結(jié)合,比如,某個(gè)分類(lèi)器可以對(duì)面部模態(tài)和身體手勢(shì)模態(tài)進(jìn)行特征級(jí)的融合,另一個(gè)分類(lèi)器對(duì)語(yǔ)音模態(tài)、生理信號(hào)模態(tài)進(jìn)行特征級(jí)融合,這兩個(gè)分類(lèi)器上有另外的決策級(jí)分類(lèi)器可以處理兩個(gè)特征級(jí)分類(lèi)器的結(jié)果,并最終得到情感標(biāo)簽?;旌先诤系哪P碗y度和復(fù)雜度比較高,能結(jié)合特征級(jí)的融合和決策級(jí)的融合的優(yōu)點(diǎn),混合融合框圖如圖11所示,但實(shí)用性較差。

        圖11 混合融合框圖Fig.11 Hybrid fusion block diagram

        文獻(xiàn)[91]引入了面部表情、皮膚電反應(yīng)、腦電圖等模態(tài)進(jìn)行多模態(tài)識(shí)別與融合,采用基于混合融合的多模態(tài)情感分析,其中,采用CNNF 模型訓(xùn)練面部表情信號(hào),采用CNN模型和CNN模型訓(xùn)練EEG 和皮膚電反應(yīng)(galvanic skin response,GSR)信號(hào),加權(quán)單元分別計(jì)算CNN模型和CNN模型輸出的化合價(jià)和加權(quán)和,然后將結(jié)果送到距離計(jì)算器計(jì)算情感距離,并與CNN模型得到的面部識(shí)別結(jié)果一起送到?jīng)Q策樹(shù)進(jìn)行決策融合得到情感類(lèi)別。文獻(xiàn)[91]提出一種多模態(tài)情感識(shí)別的混合融合方法,采用潛在空間特征級(jí)融合方法,保持各模式之間的統(tǒng)計(jì)相關(guān)性,尋找共同的潛在空間來(lái)融合音頻和視頻信號(hào),采用基于DS(Dempster-Shafer)理論的證據(jù)融合方法來(lái)融合視聽(tīng)相關(guān)空間和文本模態(tài)。該方法解決了聲像信息的冗余和沖突的問(wèn)題,兼顧了特征級(jí)和決策級(jí)的融合,但存在DS 融合方法的證據(jù)沖突問(wèn)題。

        3 總結(jié)與展望

        隨著計(jì)算機(jī)處理能力的不斷提升,深度學(xué)習(xí)網(wǎng)絡(luò)及融合算法的不斷改進(jìn),基于多模態(tài)的數(shù)據(jù)的表情識(shí)別將得到快速的發(fā)展,本文通過(guò)總結(jié)基于單一模態(tài)數(shù)據(jù)的傳統(tǒng)面部表情特征提取方法、基于單一模態(tài)的深度學(xué)習(xí)算法、基于多模態(tài)數(shù)據(jù)的表情識(shí)別與融合算法,將面臨的挑戰(zhàn)和發(fā)展趨勢(shì)歸納如下:

        (1)人臉圖片的影響因素有很多,如角度旋轉(zhuǎn)、遮擋、模糊、光線(xiàn)、分辨率、頭部姿勢(shì)、個(gè)體屬性差別等,這些數(shù)據(jù)的處理技術(shù)不成熟,影響表情識(shí)別的進(jìn)展。

        (2)基于多模態(tài)的數(shù)據(jù)集偏少,大部分?jǐn)?shù)據(jù)集大多是由視覺(jué)、文本、語(yǔ)音等模態(tài)的數(shù)據(jù)組成,姿勢(shì)、腦電波及其他生理信號(hào)等模態(tài)的數(shù)據(jù)少。

        (3)數(shù)據(jù)集中的數(shù)據(jù)分布不均衡,常見(jiàn)的高興、傷心的表情多且容易識(shí)別,憤怒、蔑視等表情少且難捕獲。

        (4)現(xiàn)有的模態(tài)融合技術(shù)往往沒(méi)有深入挖掘模態(tài)之間的相關(guān)性,以提高表情識(shí)別的準(zhǔn)確性。

        (5)算法大多十分復(fù)雜,在多模態(tài)數(shù)據(jù)分析過(guò)程中,如果選用的模態(tài)過(guò)多,則融合的算法就十分復(fù)雜,如果選太少,可能無(wú)法提高識(shí)別準(zhǔn)確率。

        (6)基于單模態(tài)數(shù)據(jù)的處理方法及各模態(tài)間的融合算法的選擇是影響識(shí)別準(zhǔn)確率的關(guān)鍵因素之一。各個(gè)步驟算法的選擇都很重要。

        針對(duì)上述觀點(diǎn),今后可以在如下幾個(gè)方面做進(jìn)一步的研究。

        (1)構(gòu)建更多自然環(huán)境下高質(zhì)量的表情數(shù)據(jù)集或3D 人臉表情數(shù)據(jù)集,進(jìn)一步解決角度旋轉(zhuǎn)、遮擋、光線(xiàn)、頭部姿勢(shì)及個(gè)體屬性差異等復(fù)雜情況下的表情識(shí)別準(zhǔn)確率不高的問(wèn)題。如:加入智能傳感器用于解決諸如照明變化、主體依賴(lài)和頭部姿勢(shì)等重大挑戰(zhàn)。

        (2)構(gòu)建基于含姿勢(shì)、腦電波及其他生理信號(hào)等模態(tài)的多模態(tài)數(shù)據(jù)集,并研究多模態(tài)之間的模態(tài)相關(guān)性,以提高模型的泛化能力。

        (3)未來(lái)與來(lái)自三維人臉模型、神經(jīng)科學(xué)、認(rèn)知科學(xué)、紅外圖像和生理數(shù)據(jù)的深度信息相結(jié)合,可以成為一個(gè)很好的未來(lái)研究方向。

        (4)改進(jìn)現(xiàn)有的表情識(shí)別技術(shù),利用GAN 網(wǎng)絡(luò)提高表情數(shù)據(jù)增強(qiáng),解決表情數(shù)據(jù)量不平衡的問(wèn)題。

        (5)如何確定自然欺騙性面部表情的正確情緒狀態(tài)也是未來(lái)研究方面,隨著微表情在心理學(xué)領(lǐng)域的發(fā)展,可將現(xiàn)有的技術(shù)應(yīng)用于微表情的提取,制作微表情方面的數(shù)據(jù)集。

        (6)改進(jìn)模態(tài)融合時(shí)的權(quán)值問(wèn)題,對(duì)不同環(huán)境下,給不同模態(tài)不同的權(quán)值分配也是模態(tài)融合重點(diǎn)研究方向之一。

        (7)為了讓機(jī)器更全面、更有效地感知周?chē)氖澜?,需要賦予它理解、推理和融合多模態(tài)信息的能力,如語(yǔ)音、圖像、氣味和生理信號(hào)等。利用多模態(tài)融合特征提高跨媒體分析的性能,如視頻分類(lèi)、事件檢測(cè)、情感分析、跨模態(tài)翻譯等也是研究方向之一。同時(shí),多模態(tài)信息融合所產(chǎn)生的特征冗余、缺少關(guān)鍵特征等問(wèn)題仍有待解決。

        (8)基于多模態(tài)數(shù)據(jù)和深度學(xué)習(xí)網(wǎng)絡(luò)的表情識(shí)別技術(shù)需要大量的優(yōu)質(zhì)數(shù)據(jù)集及計(jì)算力,如何將復(fù)雜的基于多模態(tài)數(shù)據(jù)的算法部署在計(jì)算資源有限的機(jī)器人終端上,研究如何對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行剪枝及輕量化,也是未來(lái)的研究方向之一。

        4 結(jié)束語(yǔ)

        本文對(duì)現(xiàn)有的面部表情識(shí)別領(lǐng)域的研究成果進(jìn)行總結(jié),歸納出基于單模態(tài)數(shù)據(jù)集和傳統(tǒng)機(jī)器學(xué)習(xí)的表情識(shí)別技術(shù)、基于單模態(tài)數(shù)據(jù)集和深度學(xué)習(xí)的表情識(shí)別技術(shù)、基于多模態(tài)數(shù)據(jù)集表情識(shí)別技術(shù)及模態(tài)融合技術(shù)等領(lǐng)域的成果,概要地介紹了多模態(tài)數(shù)據(jù)庫(kù)。最后,對(duì)當(dāng)前表情識(shí)別存在的問(wèn)題與挑戰(zhàn)進(jìn)行總結(jié)和展望,指出后續(xù)表情識(shí)別的一些研究方向,如非正面人臉表情識(shí)別、微表情、多模態(tài)情感分析、輕量級(jí)神經(jīng)網(wǎng)絡(luò)等。

        猜你喜歡
        模態(tài)特征融合
        村企黨建聯(lián)建融合共贏
        融合菜
        從創(chuàng)新出發(fā),與高考數(shù)列相遇、融合
        《融合》
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        抓住特征巧觀察
        國(guó)內(nèi)多模態(tài)教學(xué)研究回顧與展望
        基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識(shí)別
        由單個(gè)模態(tài)構(gòu)造對(duì)稱(chēng)簡(jiǎn)支梁的抗彎剛度
        亚色中文字幕| 亚洲成a人片在线观看无码3d | 国产激情在线观看免费视频| 99999久久久久久亚洲| 精品无码国产自产野外拍在线| 日日爽日日操| 久久色悠悠综合网亚洲| 色与欲影视天天看综合网| 亚洲国产精品成人无码区| 亚洲人成人一区二区三区| 91麻豆精品久久久影院| 伊人久久大香线蕉午夜av| 成人黄色网址| 青春草在线视频精品| 日本黄网色三级三级三级| 波多野结衣不打码视频| 人妻激情偷乱一区二区三区| 丁香九月综合激情| 中文字幕人妻互换av| 极品少妇小泬50pthepon| 大香视频伊人精品75| 久久一二三四区中文字幕| 痴汉电车中文字幕在线| 中文字幕在线观看亚洲日韩| 日本韩国一区二区三区| 按摩偷拍一区二区三区| 国产乡下妇女做爰| 亚洲精品久久久久久| 熟女白浆精品一区二区| 人妻中文字幕日韩av| 日韩精品无码中文字幕电影| 色综合久久无码中文字幕app| 国产高清自产拍av在线| 欧美成人猛片aaaaaaa| aaaaa级少妇高潮大片免费看| 精品人妻一区二区三区蜜桃| 日本免费一区二区三区影院| 欧美大屁股xxxx| 精品视频专区| 69精品国产乱码久久久| 亚洲人成77777在线播放网站|