亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于深度學(xué)習(xí)的面部視頻情感識別方法

        2020-11-18 14:00:26雷單月安建偉
        現(xiàn)代計(jì)算機(jī) 2020年28期
        關(guān)鍵詞:模態(tài)特征融合

        雷單月,安建偉

        (北京科技大學(xué)計(jì)算機(jī)與通信工程學(xué)院,北京100036)

        0 引言

        情感是人類交往中的重要信息。面部表情、語音語調(diào)和身體姿態(tài)等可以傳達(dá)不同的情感。因此,如何讓機(jī)器識別人的喜怒哀樂等不同情緒,成為影響人機(jī)交互和機(jī)器智能發(fā)展的關(guān)鍵因素。通常面部包含的情感信息是最直接也是最豐富的,美國心理學(xué)家??寺‥kman,1984)經(jīng)過大量的研究表明,盡管人類有膚色、語言、社會地位等差異,但是面部表情、面部肌肉運(yùn)動的基本模式是一致的。

        目前為止,基于面部表情的情感識別研究趨于成熟,大量的研究開始轉(zhuǎn)向研究語音與表情、表情與姿態(tài)、表情與生理信號等雙模態(tài)或多模態(tài)情感識別研究。考慮到人機(jī)交互的一些特定場景,例如課堂聽講,疲勞駕駛檢測等僅能獲取到人的面部表情的場景,只考慮面部特征進(jìn)行情感識別是很有必要的。研究表明,面部視頻中包含有心率和呼吸頻率等生理信息[1]。而大多數(shù)的面部情感識別方法都只考慮了面部的表情特征,即基本的外觀特征,忽略了面部蘊(yùn)含的生理信息,導(dǎo)致識別率不能進(jìn)一步提升。文獻(xiàn)[2]文提出了一種基于面部表情和面部生理信號的雙模態(tài)視頻情感識別方法,該方法從面部視頻中提取生理信號,再進(jìn)行時(shí)頻域和非線性分析,手工設(shè)計(jì)生理信號的特征。然而當(dāng)視頻的時(shí)長較短時(shí),由于手工設(shè)計(jì)特征的方法提取的特征難以表示生理信號,以至于識別結(jié)果并不理想。

        基于上述問題,本文提出一種基于深度學(xué)習(xí)的面部視頻情感識別方法,該方法基于三維卷積神經(jīng)網(wǎng)絡(luò),自動提取面部表情特征與面部生理特征,然后分別送入分類器,最后將兩個(gè)分類器得到的結(jié)果進(jìn)行決策融合。

        1 相關(guān)研究

        1.1 視頻情感識別

        傳統(tǒng)的視頻分析方法有三個(gè)步驟。首先,將將視頻分為單個(gè)幀,然后,根據(jù)人臉的標(biāo)志點(diǎn),通過手工設(shè)計(jì)或卷積神經(jīng)網(wǎng)絡(luò)(CNN)提取人臉特征。最后,將每個(gè)幀的特征輸入分類器。但是這種方法的缺點(diǎn)是沒有考慮視頻圖像之間的時(shí)序關(guān)系,就像使用靜態(tài)圖像分類模型一樣。近年來,研究者們提出視頻中的時(shí)序信息是非常重要的,并做了一些相關(guān)的工作。主要有兩種方法,一種是用CNN 提取圖像特征,然后用長短時(shí)記憶網(wǎng)絡(luò)(LSTM)來理解時(shí)序特征。CNN 在分類任務(wù)方面具有最先進(jìn)的性能,LSTM 可以分析不同長度的視頻序列。這兩個(gè)強(qiáng)大的算法創(chuàng)建了一個(gè)適合于視頻分析的系統(tǒng)。文獻(xiàn)[3]將遞歸神經(jīng)網(wǎng)絡(luò)(RNN)與CNN 框架相結(jié)合,在2015 年的野外情緒識別(EmotiW)挑戰(zhàn)中的研究結(jié)果表明,RNNCNN 系統(tǒng)的性能優(yōu)于深度學(xué)習(xí)CNN 模型。文獻(xiàn)[4]分兩部分進(jìn)行情感識別。第一部分是CNN 結(jié)構(gòu)提取空間特征,第二部分利用第一部分的特征訓(xùn)練LSTM 結(jié)構(gòu)來理解時(shí)間信息。另一種是使用文獻(xiàn)[10]提出的三維卷積神經(jīng)網(wǎng)絡(luò)(C3D),對處理視頻分析類的任務(wù)非常有效。文獻(xiàn)[5]利用C3D 結(jié)合深度信念網(wǎng)絡(luò)(DBN)提取音頻和視頻流時(shí)空特征,獲得了多模態(tài)情感識別研究的先進(jìn)性能。文獻(xiàn)[6]結(jié)合RNN和C3D,其中RNN 在單個(gè)圖像上提取的外觀特征作為輸入,然后對運(yùn)動進(jìn)行編碼,而C3D 則同時(shí)對視頻的外觀和運(yùn)動進(jìn)行建模,顯著提高視頻情感識別的識別率。

        1.2 融合表情與生理信號情感識別

        雖然面部表情能夠直觀地反應(yīng)情感的變化,但是許多情感變化無法通過視覺感知,于是有學(xué)者提出通過生理信號來分析人體潛在的情感狀態(tài),彌補(bǔ)面部表情單模態(tài)情感識別的不足。文獻(xiàn)[7]從皮膚電信號和心率信號中提取人的生理特征,再結(jié)合面部表情特征進(jìn)行情感識別,實(shí)驗(yàn)結(jié)果表明皮膚電和心率信號具有與面部表情特征的互補(bǔ)信息,有助于情緒識別。文獻(xiàn)[8]提取了面部表情特征和ECG 生理特征,分別在特征層融合和決策層進(jìn)行了融合,實(shí)驗(yàn)結(jié)果表明基于決策層融合的方法識別率優(yōu)于特征層融合。由于一般生理信號的采集需要受試者佩戴專業(yè)的設(shè)備,因此采集過程較為困難和繁瑣且費(fèi)用較高。文獻(xiàn)[9]提出了一種提取面部血容量脈沖信號的情感識別方法,無需與人體進(jìn)行接觸就能獲取生理信號,最終的實(shí)驗(yàn)結(jié)果也證明了該方法的有效性。但這也存在一定的局限性,對于生理特征的提取,文獻(xiàn)[9]采用的是傳統(tǒng)的時(shí)頻域特征分析方法,容易受到噪聲的影響,魯棒性較差。

        2 雙模態(tài)情感識別方法

        本文提出的方法結(jié)合視頻中的面部表情特征和隱藏的面部生理特征進(jìn)行情感識別。首先對面部視頻進(jìn)行人臉檢測與裁剪,然后分別提取面部外觀特征和面部生理特征,并結(jié)合兩種模態(tài)的分類結(jié)果進(jìn)行最終的情感分類,模型框架如圖1 所示。

        圖1 雙模態(tài)融合情感識別框架

        2.1 視頻預(yù)處理

        由于原始視頻尺寸太大,包含很多不必要的背景信息,對模型的訓(xùn)練效率和準(zhǔn)確率都會造成一定的影響。所以首先要對視頻進(jìn)行人臉檢測與裁剪,對裁剪后的視頻進(jìn)行分幀。除此之外,為了增加數(shù)據(jù)的多樣性,提高模型的泛化能力,對從視頻中提取的人臉圖像進(jìn)行數(shù)據(jù)增強(qiáng)處理,包括平移、翻轉(zhuǎn)等操作。

        由于心臟周期性地收縮和擴(kuò)張,臉部血容量會發(fā)生相應(yīng)的變化,根據(jù)臉部血容量和面部其他組織器官對光線吸收不同的特點(diǎn),臉部血容量變化會引起臉部細(xì)微的顏色變化。為了獲取面部視頻中潛藏的生理信號,在視頻人臉裁剪之后,采用歐拉顏色放大算法[10]對人臉視頻進(jìn)行顏色放大處理,使面部微弱的顏色變化得到增強(qiáng),便于提取面部生理特征。

        歐拉視頻顏色放大首先是對輸入的視頻圖像進(jìn)行空間分解,將其分解為不同尺度的視頻圖像,其相當(dāng)于對視頻進(jìn)行空間濾波;然后將空間濾波后的視頻圖像進(jìn)行帶通濾波處理,再乘以一個(gè)放大因子得到放大后的視頻圖像;最后將前兩步得到的視頻圖像進(jìn)行金塔重構(gòu),得到放大后的視頻圖像。經(jīng)歐拉視頻顏色放大后的圖像如圖2 所示。

        圖2 視頻顏色放大前后對比圖

        2.2 C3D特征提取

        在二維卷積網(wǎng)絡(luò)中,卷積和池化操作僅在空間上應(yīng)用于二維靜態(tài)圖像。而在三維卷積網(wǎng)絡(luò)(C3D)中,添加了一個(gè)額外的時(shí)間維度,可以在時(shí)空上進(jìn)行卷積和池化[11]。二維卷積將多張圖像作為多個(gè)通道輸入,每次輸出一張輸出圖像的特征,因此每次卷積運(yùn)算后都會丟失輸入信號的時(shí)間信息。而三維卷積將多張圖像疊加成一個(gè)立方體作為一個(gè)通道輸入,輸出多張圖像的特征才能保留輸入信號的時(shí)間信息,從而提取序列的時(shí)間特征。

        本文訓(xùn)練了兩個(gè)C3D 網(wǎng)絡(luò),一個(gè)用于提取面部表情特征,一個(gè)用于提取面部生理特征,具體結(jié)構(gòu)細(xì)節(jié)在第3 節(jié)給出。

        2.3 雙模態(tài)融合

        多模態(tài)數(shù)據(jù)的融合可以通過不同的融合方法來實(shí)現(xiàn)。應(yīng)用適當(dāng)?shù)娜诤戏椒?,例如在低層(信號層的早期融合或特征融合)、中間層或高層(語義、后期融合或決策層的融合),以達(dá)到最佳精度。特征融合是一種常用的方法,它可以特征連接成一個(gè)高維特征向量,然后送入分類器。但是隨著組合特征中添加了大量的信息,訓(xùn)練效率和計(jì)算資源都會受到很大影響。而決策融合是給不同特征訓(xùn)練得到的分類器分配融合權(quán)重進(jìn)行融合,得到最終的判別結(jié)果,既融合了不同模態(tài)的結(jié)果,又不會增加訓(xùn)練負(fù)擔(dān)。

        決策融合關(guān)鍵的一步是如何分配不同模態(tài)的權(quán)重,常見的融合準(zhǔn)則有最值準(zhǔn)則、均值準(zhǔn)則和乘積準(zhǔn)則,但這些方法都是依據(jù)簡單的數(shù)學(xué)計(jì)算,并沒有考慮到準(zhǔn)則以外的其它權(quán)重分配的可能性。針對雙模態(tài)融合的權(quán)重分配,本文提出一種自動權(quán)重尋優(yōu)方法,從足夠多數(shù)量的權(quán)重組合中,找出兩種模態(tài)的最佳權(quán)重分配方案。雙模態(tài)融合結(jié)果的計(jì)算公式如下,

        其中,y 表示預(yù)測類別,wa表示表情特征識別結(jié)果的權(quán)重,wb表示生理特征識別權(quán)重,且wb=1-wa,proa為表情特征預(yù)測結(jié)果的類別概率,prob為生理特征預(yù)測結(jié)果的類別概率。

        自動權(quán)重尋優(yōu)策略的步驟如下,具體的測試結(jié)果在第4 節(jié)給出。

        (1)初始化權(quán)重wa,分別提取兩個(gè)模態(tài)的類別預(yù)測proa、prob,以及真實(shí)的標(biāo)簽值ytrue;

        (2)從wa=0.0 開始,以0.001 的步長增加,最大為1.0,wb=1-wa,共1000 組權(quán)重;

        (3)循環(huán)計(jì)算預(yù)測類別ypred=arg max(wa*proa+wb*prob),同時(shí)保存權(quán)重;

        (4)循環(huán)將預(yù)測標(biāo)簽ypred與真實(shí)標(biāo)簽ytrue對比,計(jì)算準(zhǔn)確率;

        (5)選擇最高的準(zhǔn)確率,并得到最高準(zhǔn)確率對應(yīng)的權(quán)重,即最優(yōu)權(quán)重。

        3 實(shí)驗(yàn)與分析

        3.1 實(shí)驗(yàn)數(shù)據(jù)集

        eNTERFACE'05 數(shù)據(jù)集包含44 名受試者,每個(gè)受試者表達(dá)憤怒、厭惡、恐懼、快樂、悲傷和驚訝六種情緒,數(shù)據(jù)庫總共包含1166 個(gè)視頻序列。

        RAVDESS 是一個(gè)多模態(tài)情感語音和歌曲視聽情感數(shù)據(jù)庫,該數(shù)據(jù)集由24 位專業(yè)演員(12 位女性,12位男性)錄制,包括平靜、快樂、悲傷、憤怒、恐懼、驚奇和厭惡中性8 種情緒,實(shí)驗(yàn)選取1440 個(gè)只包含視頻的數(shù)據(jù)集。

        3.2 實(shí)驗(yàn)環(huán)境與參數(shù)

        本文實(shí)驗(yàn)在64 位的Ubuntu 18.04 操作系統(tǒng)上進(jìn)行,使用NVIDIA GeForce RTX2080Ti 顯卡進(jìn)行GPU 加速。網(wǎng)絡(luò)的輸入大小為3×16×112×112,其中3 表示三種顏色通道,16 表示一次輸入的幀數(shù)量。在文獻(xiàn)[12]設(shè)計(jì)的C3D 網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上進(jìn)行微調(diào),該網(wǎng)絡(luò)有8個(gè)卷積層、5 個(gè)最大池化層和3 個(gè)完全連接層。各卷積層的卷積核數(shù)量。8 個(gè)卷積層的卷積核的數(shù)量分別為64、128、128、256、256、512、512、512;卷積核大小均為3,步長為1。池化層的核大小均為2,步長為2;前兩個(gè)全連接層的輸出特征數(shù)量為4096,第三個(gè)全連接層輸出特征數(shù)量為數(shù)據(jù)集的類別數(shù)。使用經(jīng)過預(yù)先訓(xùn)練的C3D 模型進(jìn)行訓(xùn)練,損失函數(shù)為交叉熵函數(shù),采用隨機(jī)梯度下降算法優(yōu)化損失函數(shù),使用20 個(gè)視頻片段的小批量訓(xùn)練網(wǎng)絡(luò),初始學(xué)習(xí)率為0.0001,每10 個(gè)epoch后,學(xué)習(xí)率縮小10 倍,一共訓(xùn)練50 個(gè)epoch。

        3.3 實(shí)驗(yàn)結(jié)果與分析

        為了驗(yàn)證本文提出的雙模態(tài)情感識別方法的性能,分別在RAVDESS 數(shù)據(jù)集和eNTERFACE'05 數(shù)據(jù)集上,對單模態(tài)模型與雙模態(tài)方法進(jìn)行了實(shí)驗(yàn),比較了面部表情模態(tài)、面部生理模態(tài)和雙模態(tài)融合的識別準(zhǔn)確率。

        首先在兩個(gè)數(shù)據(jù)集上分別進(jìn)行單模態(tài)情感識別實(shí)驗(yàn),然后將兩個(gè)數(shù)據(jù)集上單模態(tài)的分類概率分別進(jìn)行基于權(quán)重的決策融合,圖3 和圖4 為本文提出的自動權(quán)重尋優(yōu)策略在兩個(gè)數(shù)據(jù)集上尋找最優(yōu)權(quán)重分配的結(jié)果,橫軸表示面部表情的權(quán)重,則面部生理特征的權(quán)重為1 減去面部表情權(quán)重。由圖可知,當(dāng)面部表情的權(quán)重分別為0.465 和0.455 面部生理特征權(quán)重分別為0.535 和0.545 時(shí),兩個(gè)數(shù)據(jù)集上取得最佳識別率0.8873 和0.6122。

        圖3 權(quán)重尋優(yōu)結(jié)果(RAVDESS)

        圖4 權(quán)重尋優(yōu)結(jié)果(eNTERFACE’05)

        如表1 所示,本文的方法在RAVDESS 數(shù)據(jù)集上面部表情單模態(tài)識別率82.04%,面部生理信號單模態(tài)識別率為79.0%,基于決策層融合后,識別率為88.7%。在eNTERFACE’05 數(shù)據(jù)集上面部表情單模態(tài)識別率55.9%,面部生理信號單模態(tài)識別率為48.3%,基于決策層融合后,識別率為61.22%。相較于單模態(tài)情感識別,進(jìn)行雙模態(tài)融合后在RAVDESS 和eNTERFACE’05 上的識別率分別提升了6.66%和5.32%,驗(yàn)證了在只考慮面部信息的情況下,面部表情和面部蘊(yùn)含的生理信號具有互補(bǔ)的情感信息。

        表1 不同模態(tài)的識別率

        圖5 和圖6 分別為兩個(gè)數(shù)據(jù)集上測試集的雙模態(tài)融合結(jié)果的混淆矩陣,在兩個(gè)測試集上,相對于其他類別,“傷心”類別的分類錯(cuò)誤最多。

        圖5 雙模態(tài)混淆矩陣(RAVDESS)

        圖6 雙模態(tài)混淆矩陣(eNTERFACE’05)

        本文最后對比了其他方法得到的識別率,如表2示。結(jié)果表明本文的方法優(yōu)于文獻(xiàn)[13-16],進(jìn)一步證明了本文方法的可行性。

        表2 不同面部視頻情感識別方法識別率

        4 結(jié)語

        目前情感識別領(lǐng)域仍然是一個(gè)具有挑戰(zhàn)性的問題,如何只利用視頻中的面部信息進(jìn)行有效的情感識別是實(shí)現(xiàn)人機(jī)交互的關(guān)鍵。為了充分利用面部包含的情感信息,本文提出使用三維卷積網(wǎng)絡(luò)分別提取面部表情特征和面部生理特征進(jìn)行訓(xùn)練和分類,在決策層給不同模態(tài)分配相應(yīng)的權(quán)重進(jìn)行結(jié)果融合。實(shí)驗(yàn)結(jié)果證明使用卷積神經(jīng)網(wǎng)絡(luò)能夠提取面部表情與面部生理信號的互補(bǔ)特征。由于本文沒有對特征提取方法做詳細(xì)研究,在未來的研究中我們將探索如何使用更好的特征提取方法提取更具有代表性的特征。

        猜你喜歡
        模態(tài)特征融合
        村企黨建聯(lián)建融合共贏
        融合菜
        從創(chuàng)新出發(fā),與高考數(shù)列相遇、融合
        《融合》
        如何表達(dá)“特征”
        不忠誠的四個(gè)特征
        抓住特征巧觀察
        國內(nèi)多模態(tài)教學(xué)研究回顧與展望
        基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識別
        由單個(gè)模態(tài)構(gòu)造對稱簡支梁的抗彎剛度
        人妻少妇激情久久综合| 国内精品九九久久久精品| 国产免费一区二区三区最新不卡| 国产不卡在线免费视频| 日本一区二区三级在线| 久久婷婷五月国产色综合| 99精品国产兔费观看久久99| 亚洲欧洲综合有码无码| 亚洲中文字幕精品久久久| www国产亚洲精品久久麻豆| 中国老妇女毛茸茸bbwbabes | 国产精品久久国产精品99| y111111少妇影院无码| baoyu网址国产最新| 91九色国产老熟女视频| 熟女少妇精品一区二区| 激情另类小说区图片区视频区 | a级毛片免费观看视频| 极品美女尤物嫩模啪啪| 蜜桃传媒网站在线观看| 在线 | 一区二区三区四区 | 国产综合精品久久久久成人| 中文字幕亚洲高清视频| 成年女人vr免费视频| 怡春院欧美一区二区三区免费| 亚洲av综合日韩精品久久久| 亚洲精品一区二区高清| 黑人巨大精品欧美一区二区| 亚洲AV永久青草无码性色av| 一级黄片草逼免费视频| 无码av专区丝袜专区| 五月婷婷俺也去开心| 一区二区三区免费视频网站| 人妻中文久久人妻蜜桃| 狠狠精品久久久无码中文字幕| 自拍偷自拍亚洲精品播放| 亚洲中文字幕高清视频| 日韩精品综合一本久道在线视频| 国产成人综合亚洲精品| 尤物蜜芽福利国产污在线观看| 激情五月天在线观看视频|