龍英潮, 丁美榮, 林桂錦, 劉鴻業(yè), 曾碧卿
(華南師范大學(xué) 軟件學(xué)院, 佛山 528225)
隨著信息處理技術(shù)、網(wǎng)絡(luò)通信技術(shù)、大數(shù)據(jù)、人工智能等科技的迅猛發(fā)展, 計(jì)算機(jī)正逐漸地融入到人類的生活中, 并與人類協(xié)同工作. 在某些領(lǐng)域, 計(jì)算機(jī)甚至已經(jīng)取代人類去完成各種高挑戰(zhàn)性的工作. 為了讓人與計(jì)算機(jī)能夠更加高效地協(xié)同工作, 更加智能、自然地交互, 新型的人機(jī)交互(Human Machine Interaction, HMI)技術(shù)已經(jīng)成為社會(huì)各行各業(yè)關(guān)注和研究的熱點(diǎn). 擬人化必然是新型人機(jī)交互技術(shù)發(fā)展的重點(diǎn), 不僅要使計(jì)算機(jī)能夠通過(guò)類似于人的感官系統(tǒng)感知周圍環(huán)境、氣氛, 以及使用者的意圖、情感等, 還要使其能夠通過(guò)學(xué)習(xí)和模仿人類的認(rèn)知習(xí)慣與人類進(jìn)行交流、工作等. 研究表明, 在人機(jī)交互中需要解決的相互理解的問(wèn)題, 與人和人交流中相互影響的重要因素是一致的, 最關(guān)鍵的因素都是“情感智能”的能力[1-3]. 具有“情感智能”能力的計(jì)算機(jī)能夠高效地識(shí)別使用者的情感,從而調(diào)整與使用者的交流方式與環(huán)境, 實(shí)現(xiàn)更加智能、自然的交互.
近年來(lái), 情感識(shí)別技術(shù)逐漸被應(yīng)用在醫(yī)學(xué)、教育、安全駕駛、電子商務(wù)等領(lǐng)域. 例如, 在教育領(lǐng)域,智能教育系統(tǒng)通過(guò)分析學(xué)生們的學(xué)習(xí)情緒, 反饋學(xué)習(xí)數(shù)據(jù), 老師可以根據(jù)相關(guān)數(shù)據(jù)調(diào)整教學(xué)模式, 以滿足學(xué)生個(gè)性化學(xué)習(xí)的需求, 提高學(xué)習(xí)效率與效果; 在安全駕駛領(lǐng)域, 計(jì)算機(jī)使用情感識(shí)別技術(shù)分析駕駛者的情緒,可以根據(jù)駕駛者的情緒變化調(diào)整車速上限、規(guī)劃路線等, 從而避免危險(xiǎn)的發(fā)生, 保證駕駛者的安全. 隨著人機(jī)交互領(lǐng)域的不斷擴(kuò)張和情感識(shí)別領(lǐng)域的不斷發(fā)展,情感識(shí)別技術(shù)的應(yīng)用也越來(lái)越廣.
美國(guó)心理學(xué)家梅拉比安認(rèn)為, 情感表達(dá)=55%面部表情+38%聲音+7%其它[4,5]. 人的情感主要通過(guò)面部狀態(tài)、聲音以及文字等方式進(jìn)行表達(dá). 從生物角度來(lái)看, 人類主要通過(guò)視聽(tīng)覺(jué)感知系統(tǒng)來(lái)進(jìn)行情感識(shí)別, 即是主要在語(yǔ)音和圖像兩種模態(tài)上進(jìn)行情感識(shí)別. 在語(yǔ)音和圖像多模態(tài)情感識(shí)別的研究中, 許多學(xué)者已經(jīng)取得了一定的研究成果.
在語(yǔ)音模態(tài)上, 曹鵬等使用Mallat塔式算法與小波變換奇異點(diǎn)檢測(cè)算法相結(jié)合進(jìn)行基音頻率參數(shù)提取,并通過(guò)實(shí)驗(yàn)證實(shí)了該算法的有效性[3]. 屠彬彬等提出了一種基于樣本熵與Mel頻率倒譜系數(shù)融合的語(yǔ)音情感識(shí)別方法, 得到了較高的識(shí)別率[6]. 姚增偉等通過(guò)提取Mel頻率倒譜系數(shù)作為輸入, 分別使用卷積神經(jīng)網(wǎng)絡(luò)和長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)進(jìn)行特征提取, 并且在IEMOCAP語(yǔ)音情感語(yǔ)料庫(kù)中獲得51.7%的準(zhǔn)確率[7].
在面部圖像模態(tài)上, 鄒元彬等在JAFFE數(shù)據(jù)集上分別提取面部圖像的局部二值模式LBP和局部相位量LPQ特征, 并使用支持向量機(jī)SVM作為分類器進(jìn)行實(shí)驗(yàn), 得到了90.57%的識(shí)別率[8]. 陳津徽等提出了一種基于改進(jìn)VGG19網(wǎng)絡(luò)的人臉表情識(shí)別算法, 并在FER2013數(shù)據(jù)集上得到了72.69%的準(zhǔn)確率[9].
在語(yǔ)音和面部圖像的多模態(tài)研究中, 朱晨崗基于視聽(tīng)覺(jué)感知系統(tǒng), 分別使用基于Mel尺度小波包分解的子帶能量特征基于光流法提取的運(yùn)動(dòng)特征等, 并用循環(huán)神經(jīng)網(wǎng)絡(luò)作為分類器進(jìn)行多模態(tài)情感分類實(shí)驗(yàn)[10].賀奇基于語(yǔ)音和圖像進(jìn)行多模態(tài)情感識(shí)別研究, 分別使用92維語(yǔ)音情感特征和基于序列圖像臉部特征點(diǎn)提取方法提取的表情圖像特征進(jìn)行實(shí)驗(yàn), 并驗(yàn)證了基于語(yǔ)音和圖像的多模態(tài)情感識(shí)別比單一模態(tài)的識(shí)別效果更好[11]. 袁亮通過(guò)深度學(xué)習(xí)技術(shù)進(jìn)行情感識(shí)別研究,分別提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)的面部表情識(shí)別方法和一種基于長(zhǎng)短時(shí)間記憶網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)的語(yǔ)音情感識(shí)別方法, 并通過(guò)決策融合算法融合面部表情和語(yǔ)音模態(tài)的特征進(jìn)行實(shí)驗(yàn), 同樣驗(yàn)證了多模態(tài)的情感識(shí)別效果要優(yōu)于單模態(tài)的情感識(shí)別效果[12]. 因此, 多模態(tài)情感識(shí)別研究具有可行性, 同時(shí)從以上文獻(xiàn)成果可以發(fā)現(xiàn), 多模態(tài)融合實(shí)現(xiàn)的方法和實(shí)驗(yàn)選擇是比較靈活的. 融合的目的就是將各單模態(tài)下能反應(yīng)情感的特征數(shù)據(jù)合并成一個(gè)性能更優(yōu)的數(shù)據(jù)結(jié)果. 所以, 可以基于相同實(shí)驗(yàn)數(shù)據(jù), 嘗試對(duì)兩種模態(tài)進(jìn)行早期融合或晚期融合, 還可以通過(guò)調(diào)整其融合權(quán)重, 靈活選擇實(shí)驗(yàn)測(cè)試方法, 以達(dá)到更加精確的識(shí)別率.
本文對(duì)于情感識(shí)別的研究主要也是在語(yǔ)音和圖像兩種主流模態(tài)上進(jìn)行, 首先將視頻樣本切分為語(yǔ)音和圖像數(shù)據(jù), 然后分別提取兩種模態(tài)的情感特征, 并使用多個(gè)分類器進(jìn)行實(shí)驗(yàn), 得到多個(gè)基于單特征的表情識(shí)別模型, 最后采用晚期融策略進(jìn)行模型融合, 得到最優(yōu)的集成表情識(shí)別模型, 實(shí)驗(yàn)的主要流程如圖1所示.
圖1 實(shí)驗(yàn)流程圖
語(yǔ)音模態(tài)的特征主要包括Mel頻率倒譜系數(shù)MFCC、SoundNet卷積神經(jīng)網(wǎng)絡(luò)提取的特征以及IS09、IS11、IS13等幀級(jí)特征, 其中IS09、IS11、IS13等幀級(jí)特征使用openSMILE工具提取.
(1) Mel倒譜系數(shù)MFCC
Mel頻率倒譜系數(shù)MFCC的提取過(guò)程[13-15]如下:
首先, 對(duì)采樣得到的一幀離散語(yǔ)音序列x(n)作快速傅里葉變換FFT, 快速傅里葉變換的公式如下:
其中,N為幀長(zhǎng).
其次, 配置Mel濾波器組并計(jì)算濾波輸出, Mel濾波器的頻率響應(yīng)Hm(k)為:
其中,f(m)為濾波器的中心頻率.
然后, 計(jì)算每個(gè)濾波器組輸出的對(duì)數(shù)能量S(m).
其中,M為濾波器的個(gè)數(shù).
最后, 經(jīng)離散余弦變換DCT可得到MFCC系數(shù)C(n), 公式描述如下:
其中,L為MFCC系數(shù)的階數(shù).
(2) SoundNet卷積神經(jīng)網(wǎng)絡(luò)
SoundNet網(wǎng)絡(luò)是一種具有較高語(yǔ)音信息學(xué)習(xí)能力的深度卷積神經(jīng)網(wǎng)絡(luò)[16], 其實(shí)現(xiàn)的基本原理如下:
首先將視頻切割音頻和RGB圖像幀兩部分, RGB圖像幀部分分別使用了圖像類卷積神經(jīng)網(wǎng)絡(luò)ImageNet CNN和場(chǎng)景類神經(jīng)網(wǎng)絡(luò)Places CNN進(jìn)行識(shí)別分類, 并將RGB圖像幀分類的結(jié)果作為SoundNet網(wǎng)絡(luò)的監(jiān)督信息, 從而可以學(xué)習(xí)得到語(yǔ)音的相關(guān)信息. SoundNet網(wǎng)絡(luò)由8層卷積層和3層池化層組成, 損失函數(shù)為KL散度. 圖2為SounNet網(wǎng)絡(luò)結(jié)構(gòu)圖, 其中convn代表第n層卷積層, pooln代表第n層池化層, 下同.
圖2 SoundNet網(wǎng)絡(luò)結(jié)構(gòu)及實(shí)現(xiàn)原理圖
圖像模態(tài)的特征主要包括使用DenseNet、VGG等卷積神經(jīng)網(wǎng)絡(luò)提取的特征, 以及LBP-TOP特征描述子.
(1) DenseNet網(wǎng)絡(luò)
DenseNet網(wǎng)絡(luò)采用了一種密集連接的模式, 不需要重新學(xué)習(xí)冗余的特征映射, 具有減輕梯度消失、加強(qiáng)特征的傳遞以及高效利用特征等優(yōu)點(diǎn). 本文實(shí)驗(yàn)中使用的是DenseNet網(wǎng)絡(luò)中的一個(gè)特殊網(wǎng)絡(luò)DenseNet-BC網(wǎng)絡(luò).
DenseNet-BC網(wǎng)絡(luò)是包含了Bottleneck layer瓶頸層和Transition layer過(guò)渡層的特殊DenseNet網(wǎng)絡(luò)結(jié)構(gòu), 其中, 過(guò)渡層即由一層卷積層和一層池化層組成的網(wǎng)絡(luò)層. DenseNet-BC網(wǎng)絡(luò)包含了3個(gè)Dense Block和2層過(guò)渡層. 圖3為DenseNet-BC網(wǎng)絡(luò)結(jié)構(gòu)圖, 其中Dense blockn代表第n個(gè)密集塊.
圖3 DenseNet-BC網(wǎng)絡(luò)結(jié)構(gòu)圖
(2) VGG網(wǎng)絡(luò)
VGG網(wǎng)絡(luò)是使用3×3小卷積核和2×2最大池化層的深度卷積神經(jīng)網(wǎng)絡(luò), 并且極大地提升了網(wǎng)絡(luò)的深度, 其獨(dú)特的結(jié)構(gòu)特點(diǎn)在很大程度上提高了神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)能力. 本文實(shí)驗(yàn)中使用的是VGG系列網(wǎng)絡(luò)中的VGG-16網(wǎng)絡(luò). VGG-16網(wǎng)絡(luò)具有13個(gè)卷積層、5個(gè)池化層和3個(gè)全連接層. 圖4為VGG-16網(wǎng)絡(luò)結(jié)構(gòu)圖, 其中Fcn代表第n層全連接層.
圖4 VGG-16網(wǎng)絡(luò)結(jié)構(gòu)圖
在分類器方面, 本文選擇了多種分類器進(jìn)行實(shí)驗(yàn),包括支持向量機(jī)SVM和隨機(jī)森林RF等經(jīng)典分類器,同時(shí), 考慮到在將視頻樣本切分為圖像樣本時(shí), 得到的是長(zhǎng)序列的圖像幀, 而長(zhǎng)短期記憶網(wǎng)絡(luò)LSTM在處理長(zhǎng)序列數(shù)據(jù)具有較顯著的優(yōu)勢(shì), 所以設(shè)計(jì)了一個(gè)基于LSTM的分類器用以實(shí)驗(yàn).
(1)基于LSTM的分類器設(shè)計(jì)
基于LSTM設(shè)計(jì)的分類器的結(jié)構(gòu)如圖5所示, 輸入序列X為不同時(shí)間的特征, 在輸入層后添加一層批標(biāo)準(zhǔn)化層, 多個(gè)LSTM結(jié)點(diǎn)組成的LSTM陣列進(jìn)行特征信息的捕獲, 通過(guò)平均池化層對(duì)不同時(shí)間的特征信息平均并輸出到Softmax層進(jìn)行分類.
圖5 基于LSTM的分類器結(jié)構(gòu)圖
在多模態(tài)情緒識(shí)別領(lǐng)域, 加權(quán)投票法、加權(quán)平均法是較為常見(jiàn)的決策融合方法, 其中, 投票法更適用于決策融合中的各模型相互獨(dú)立的情況. 考慮到本文中各個(gè)模型的訓(xùn)練都相互獨(dú)立, 并不存在強(qiáng)依賴關(guān)系, 采用加權(quán)投票法進(jìn)行決策融合可能會(huì)帶來(lái)一定的提升.加權(quán)投票法具體實(shí)現(xiàn)如下:
設(shè)表情類別數(shù)目為M, 模型的數(shù)量為L(zhǎng),hi為第i個(gè)情感識(shí)別模型,wi第i個(gè)模型對(duì)融合模型決策結(jié)果的貢獻(xiàn)權(quán)重, 其中,wi的約束為:
對(duì)于樣本x, 設(shè)f(x)是基于加權(quán)投票法得到的各種表情類別的加權(quán)投票值的集合,y(x)是表情類別的決策結(jié)果, 則有:
其中,j=1, 2, …,M, 指示函數(shù)I的定義為:
權(quán)重的學(xué)習(xí)使用基于個(gè)體分類模型相對(duì)優(yōu)勢(shì)的投票權(quán)重學(xué)習(xí)方法[17].
本文主要基于AFEW數(shù)據(jù)集[18]來(lái)進(jìn)行多模態(tài)情感識(shí)別研究. 實(shí)驗(yàn)首先將AFEW數(shù)據(jù)集的視頻數(shù)據(jù)切分為音頻數(shù)據(jù)和圖片數(shù)據(jù), 分別進(jìn)行語(yǔ)音、圖像模態(tài)的情感特征提取.
在提取語(yǔ)音特征前, 需要對(duì)音頻文件進(jìn)行重采樣、分幀和加窗3個(gè)預(yù)處理操作, 其中幀長(zhǎng)為25 ms,幀移為10 ms, 窗函數(shù)為漢明窗, 然后提取MFCC、IS09、IS11、IS13等段級(jí)特征, 其中段長(zhǎng)度為整個(gè)話語(yǔ)段的長(zhǎng)度, IS09、IS11、IS13是基于openSMILE工具包提取的. 在使用SoundNet卷積神經(jīng)網(wǎng)絡(luò)提取特征時(shí), 把音頻文件的原始數(shù)據(jù)作為輸入, 提取后的特征標(biāo)記為SoundNet.
在提取圖像特征時(shí), 首先要對(duì)圖像進(jìn)行人臉檢測(cè)和人臉的校正裁剪兩個(gè)預(yù)處理操作. 由于AFEW數(shù)據(jù)集的作者已經(jīng)提供了大部分已經(jīng)裁剪好的人臉灰度圖像, 未提供的圖片數(shù)據(jù)僅為Train訓(xùn)練集下的17個(gè)視頻和Val驗(yàn)證集下的12個(gè)視頻. 因此, 我們僅對(duì)未提供的圖片數(shù)據(jù)進(jìn)行預(yù)處理操作, 在成功提取人臉灰度圖像后仍需進(jìn)行直方圖均衡化處理, 以減輕燈光對(duì)圖像的影響.
完成預(yù)處理操作后, 我們將預(yù)訓(xùn)練后的DenseNet-BC和VGG16卷積神經(jīng)網(wǎng)絡(luò)模型在FRE2013數(shù)據(jù)集上微調(diào), 然后將預(yù)處理后的圖像作為微調(diào)后的模型的輸入來(lái)提取圖像特征. 使用DenseNet-BC卷積神經(jīng)網(wǎng)絡(luò)提取特征時(shí), 將DenseNet-BC網(wǎng)絡(luò)的最后一個(gè)平均池化層的輸出作為特征, 該特征被標(biāo)記為DenseNetpooling3. 使用VGG卷積神經(jīng)網(wǎng)絡(luò)提取特征時(shí), 將VGG-16網(wǎng)絡(luò)的第13層卷積層和第1層全連接層的輸出作為特征, 分別被標(biāo)記為VGG-conv13、VGG-fc1.
基于LBP-TOP特征描述子提取的特征已經(jīng)被AFEW數(shù)據(jù)集的作者提供, 將該特征標(biāo)記為L(zhǎng)BP-TOP.
在完成語(yǔ)音和圖像模態(tài)的特征提取后, 使用支持向量機(jī)SVM、隨機(jī)森林RF以及基于LSTM的分類器進(jìn)行表情分類, 得到多個(gè)基于音頻、圖像單特征表情識(shí)別模型.
(1)基于語(yǔ)音單特征模型的分類結(jié)果, 如表1所示.
表1 基于音頻單特征表情識(shí)別模型及其準(zhǔn)確率
通過(guò)分析實(shí)驗(yàn)結(jié)果數(shù)據(jù), 可以得出以下幾點(diǎn)結(jié)論:
① LSTM分類器在語(yǔ)音特征MFCC、SoundNet上相較于支持向量機(jī)SVM、隨機(jī)森林RF等分類器有著3.4%~6.26%準(zhǔn)確率提升;
② 在語(yǔ)音單特征模型中, 基于IS09特征的模型取得最高準(zhǔn)確率為32.11%.
(2)基于圖像單特征模型的分類結(jié)果, 如表2所示.
表2 基于圖像單特征表情識(shí)別模型及其準(zhǔn)確率
通過(guò)分析實(shí)驗(yàn)結(jié)果, 可以發(fā)現(xiàn)以下幾點(diǎn):
① 基于LSTM的分類器在圖像特征VGG-conv13、VGG-fc1、DenseNet-pooling3上相較于分類器支持向量機(jī)SVM有著3.92%~6.27%準(zhǔn)確率提升;
② 在圖像單特征模型中, 基于VGG-conv13特征的模型取得最高準(zhǔn)確率為42.56%;
③ 基于圖像單特征的最優(yōu)模型比基于語(yǔ)音單特征的最優(yōu)模型的準(zhǔn)確率高11.23%.
(3)基于融合模型的分類結(jié)果, 如表3所示.
表3 3種融合模型及其準(zhǔn)確率
在進(jìn)一步實(shí)驗(yàn)中, 使用加權(quán)投票法對(duì)多個(gè)單特征模型進(jìn)行決策融合, 分別得到基于語(yǔ)音模態(tài)、圖像模態(tài)以及語(yǔ)音和圖像雙模態(tài)的3種融合模型.
通過(guò)對(duì)比3種融合模型的分類結(jié)果, 可以發(fā)現(xiàn)基于音頻和圖像雙模態(tài)融合模型的準(zhǔn)確率達(dá)到50.13%,此準(zhǔn)確率高于單模態(tài)融合模型的準(zhǔn)確率. 該雙模態(tài)融合模型在憤怒Angry、害怕Fear、高興Happy、中性Neutral等幾種情緒上的分類準(zhǔn)確率均達(dá)到60%以上,而在厭惡Disgust和驚訝Surprise兩種情緒上的識(shí)別效果較差, 其混淆矩陣數(shù)據(jù)如圖6所示.
圖6 融合模型的混淆結(jié)果矩陣
情緒識(shí)別的相關(guān)研究有很多. 本文提出的一種基于視聽(tīng)覺(jué)感知系統(tǒng)的多模態(tài)表情識(shí)別算法, 在AFEW數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)得到了50.13%的準(zhǔn)確率.
如表4所示, AFEW數(shù)據(jù)集是EmotiW比賽的官方數(shù)據(jù)集, 該數(shù)據(jù)集的準(zhǔn)確率基線Baseline為41.07%, 在該比賽中, 參賽者的平均準(zhǔn)確率50%左右, 最高準(zhǔn)確率為61.87%. 雖然本文的方案在準(zhǔn)確率上低于最高的準(zhǔn)確率, 但也保持在平均水平之上, 仍然具有一定的競(jìng)爭(zhēng)力.
表4 EmotiW比賽: 音視頻情緒分類的部分?jǐn)?shù)據(jù)[19]
本文提出了一種基于視聽(tīng)覺(jué)感知系統(tǒng)的多模態(tài)表情識(shí)別算法, 分別提取語(yǔ)音和圖像兩種模態(tài)的情感特征, 并設(shè)計(jì)多個(gè)分類器為單個(gè)情感特征進(jìn)行情緒分類實(shí)驗(yàn), 得到多個(gè)基于單特征的表情識(shí)別模型. 最后使用晚期融合策略進(jìn)行特征融合, 得到基于多個(gè)單特征模型的融合表情識(shí)別模型, 并通過(guò)對(duì)比實(shí)驗(yàn)證明語(yǔ)音和圖像雙模態(tài)融合表情識(shí)別模型的有效性.
本文使用AFEW數(shù)據(jù)集進(jìn)行表情識(shí)別實(shí)驗(yàn), 首先將AFEW數(shù)據(jù)集的視頻數(shù)據(jù)切分為音頻數(shù)據(jù)和圖片數(shù)據(jù), 分別進(jìn)行語(yǔ)音、圖像模態(tài)的情感特征提取. 在語(yǔ)音數(shù)據(jù)上, 提取的情感特征包括MFCC、IS09、IS11、IS13等段級(jí)特征, 以及使用卷積神經(jīng)網(wǎng)絡(luò)SounNet提取的特征. 在圖片數(shù)據(jù)上, 提取的情感特征包括使用深度卷積神經(jīng)網(wǎng)絡(luò)VGG-16和DenseNet提取的特征, 以及基于LBP-TOP特征描述子提取的特征. 然后, 使用了多個(gè)分類器對(duì)單個(gè)特征進(jìn)行了情緒分類實(shí)驗(yàn), 并證明了使用基于LSTM分類器相較于支持向量機(jī)SVM、隨機(jī)森林RF等分類器對(duì)實(shí)驗(yàn)效果有著小幅度的提高.最后使用加權(quán)投票法進(jìn)行模態(tài)融合實(shí)驗(yàn), 通過(guò)對(duì)比基于語(yǔ)音模態(tài)、圖像模態(tài)以及語(yǔ)音和圖像雙模態(tài)的3種融合模型的分類結(jié)果, 證明了基于語(yǔ)音和圖像雙模態(tài)融合模型的效果要優(yōu)于基于單模態(tài)融合模型的識(shí)別效果.
但本文仍然存在許多不足之處: 情感的體現(xiàn)過(guò)程一般為: 開始——高潮——結(jié)束, 情感主要體現(xiàn)在高潮部分, 而在音頻模態(tài)實(shí)驗(yàn)中, 提取的特征是基于整段語(yǔ)音樣本的, 其中包含過(guò)多冗余數(shù)據(jù), 影響了識(shí)別的準(zhǔn)確性, 考慮將語(yǔ)音樣本分段或許可以有效地降低數(shù)據(jù)的冗余; 在特征融合階段可以嘗試采用特征層融合策略進(jìn)行實(shí)驗(yàn)對(duì)比, 甚至根據(jù)應(yīng)用場(chǎng)景或應(yīng)用群體的需求,可以考慮基于文本、聲音、圖像、視頻等多種模態(tài)融合的情感識(shí)別實(shí)踐研究.