周奕雋,李冬冬,王 喆,高大啟
華東理工大學(xué) 信息科學(xué)與工程學(xué)院,上海 200237
情緒是一種特殊的、強(qiáng)烈的心理活動(dòng)[1],它可以透過聲音、文字、表情以及腦電波等多種表現(xiàn)媒介體現(xiàn)出來。近年來,隨著計(jì)算機(jī)技術(shù)不斷地進(jìn)步,人們對(duì)于更良好的人機(jī)交互體驗(yàn)的渴求越來越熱切,這使得情感識(shí)別逐漸成為一個(gè)熱點(diǎn)的研究話題。
腦電信號(hào)(EEG)是一種自發(fā)的、非平穩(wěn)、非線性的神經(jīng)電活動(dòng)[2],由中樞神經(jīng)系統(tǒng)產(chǎn)生,通過外界的刺激誘發(fā)而引起,常見的誘發(fā)因素有音樂、圖像等。有研究表明,腦電信號(hào)所包含的情感相較于語音、表情等都較為客觀、可靠,能夠反映一個(gè)人最為真實(shí)的情感狀態(tài)[3]。因此正確識(shí)別腦電信號(hào)所包含的情感信息對(duì)人們的日常生活都有著重要的意義。
識(shí)別EEG 信號(hào)所包含的情感分類首先需要提取EEG特征,常用的腦電特征提取方式是通過先對(duì)原始的EEG信號(hào)用小波變換的處理方式,濾波到多個(gè)平穩(wěn)的頻帶 Theta、Beta、Gamma 和 Alpha 波等,再對(duì)其提取對(duì)應(yīng)的特征信息。然而,單一的EEG 特征識(shí)別能力主要有兩個(gè)不足,一方面在于傳統(tǒng)的EEG 特征在表現(xiàn)EEG 低頻信號(hào)段的能力較弱,另一方面在于其容易受到噪音的干擾[4]。為了解決以上不足,本文考慮引入語音特征來增強(qiáng)EEG的特征表示。語音特征的類型有很多[5],每種類型的特征都有各自的特性,Temko等人[6]對(duì)EEG信號(hào)引入語音倒譜類特征,并在預(yù)測(cè)新生兒癲癇的識(shí)別問題中,倒譜特征的識(shí)別能力達(dá)到了93.1%的ROC 覆蓋面積。MFCC[7-8]在語音識(shí)別中是個(gè)常用的倒譜類特征,它的主要特性體現(xiàn)在對(duì)于信號(hào)的低頻段信息特征提取能力很好[9],以及有著不錯(cuò)的降低信號(hào)特征維度,減少噪音的能力[10]。而上述兩點(diǎn)優(yōu)勢(shì)可以彌補(bǔ)傳統(tǒng)的EEG 特征信息的缺點(diǎn)。因此,本文將語音倒譜特征MFCC 引入進(jìn)來,從小波變換后的EEG 信號(hào)中同時(shí)提取EEG 特征和語音MFCC 特征,并將二者融合在一起,從而豐富特征的情感信息與表示能力。此外,深度學(xué)習(xí)是近年來的研究熱點(diǎn),其優(yōu)秀的學(xué)習(xí)能力使得許多研究將深度學(xué)習(xí)模型引入到了EEG 的情感分類任務(wù)中,并也取得了不錯(cuò)的成績(jī)[11-12]。
本文選取了深度殘差網(wǎng)絡(luò)作為分類模型框架,一方面是因?yàn)槠淅脷埐顔卧亩逊e能顯著性地提高網(wǎng)絡(luò)的深度和學(xué)習(xí)的準(zhǔn)確度。另一方面是因?yàn)闅埐罹W(wǎng)絡(luò)有著比較好的可拓展性,方便后續(xù)工作對(duì)模型進(jìn)一步的疊加與研究。
基于上述討論,本文在DEAP這一公開數(shù)據(jù)集上開展了對(duì)所提特征與模型的相關(guān)研究與討論,通過分析結(jié)果,驗(yàn)證了該方法的可行性。
DEAP[13](Database for Emotion Analysis using Physiological Signals)是一個(gè)開放的多模態(tài)數(shù)據(jù)集,常常被用于從腦電圖信號(hào)中分析情感。該數(shù)據(jù)庫由32名受試者(16名男性和16名女性)通過觀看40個(gè)60 s的音樂視頻,并在他們頭部的額葉、頂葉、枕葉和顳葉四個(gè)區(qū)域配置了32個(gè)信號(hào)傳感器采集受試者在觀看音樂視頻時(shí)所產(chǎn)生的腦電信號(hào),32個(gè)傳感器位置如圖1所示。實(shí)驗(yàn)采集得到的信號(hào)包含開頭的3 s基線信號(hào)以及后60 s的視頻信號(hào)共計(jì)63 s的信號(hào)。受試者在觀看完視頻后,用 1~9 的數(shù)值,分別從 Arousal、Valence、Domination 和Liking等四個(gè)維度進(jìn)行打分量化,從而獲得一個(gè)對(duì)每段視頻盡可能客觀的評(píng)價(jià)分?jǐn)?shù)。
圖1 DEAP數(shù)據(jù)集32個(gè)電極示意圖
此外,本文選取的是該數(shù)據(jù)集中經(jīng)過預(yù)處理后的數(shù)據(jù)版本,該版本去除了眼電信號(hào)的干擾,并將原始的512 Hz 的采樣信號(hào)頻率降采樣到了128 Hz。即一段63 s 的信號(hào)長(zhǎng)度包含了共計(jì)128×63=8 064 個(gè)數(shù)據(jù)點(diǎn)。本文選取的信號(hào)特征是從后60 s 的腦電特征信號(hào)依次減去前3 s 的基線特征所得的最終信號(hào)特征共計(jì)128×60=7 860個(gè)數(shù)據(jù)點(diǎn)。
人類的情感非常的復(fù)雜,究竟何為情感,很難有個(gè)準(zhǔn)確的定義,通常說的情感的宏觀定義[14]可以為對(duì)于外界刺激所產(chǎn)生的肯定或否定的生理反應(yīng),但在實(shí)際應(yīng)用中,個(gè)體差異十分迥然。在眾多的情感分類研究中,學(xué)者們將情感大體分為了兩種表示方式:連續(xù)表示[15-16]和離散表示[17]。
識(shí)別EEG情感的方法常常采用的是基于連續(xù)表示的二維情感模型。如圖2 所示,該模型將情感按照Arousal 和Valence的程度量化到坐標(biāo)軸上進(jìn)行表示,其中Valence 是指人的情感的愉快程度,從消極情緒遞增到積極情緒;而Arousal指的是人的興奮程度,從平淡情緒遞增到興奮情緒。本文所做的情感分類同樣采用了二維情感模型,對(duì)EEG在Arousal和Valence兩個(gè)維度上進(jìn)行了二分類識(shí)別,其中,將取值為1~5 之間的樣本歸為一類,取值為5~9之間的樣本歸為另一類。
圖2 Arousal-Valence二維情感模型
EEG 特征提取流程如圖3 所示,由于Deap 數(shù)據(jù)集中,一段EEG 信號(hào)有60 s 的時(shí)間長(zhǎng)度,而長(zhǎng)時(shí)的信號(hào)是不穩(wěn)定的,容易帶來噪聲,且不利于后續(xù)的信號(hào)變換處理,因此需要對(duì)EEG信號(hào)進(jìn)行分幀處理,將EEG劃分為一個(gè)個(gè)短時(shí)的信號(hào)再提取特征。本文選取3 s 為一個(gè)幀,幀長(zhǎng)為3 s,即沒有重疊幀,總計(jì)3×128=384 個(gè)數(shù)據(jù)點(diǎn),從而將一個(gè)60 s 的信號(hào)長(zhǎng)度分割為20 個(gè)3 s 的短時(shí)信號(hào),再分別對(duì)每一個(gè)短時(shí)信號(hào)進(jìn)行特征提取。
圖3 EEG特征提取流程圖
其次,EEG 信號(hào)是不平穩(wěn)的時(shí)變信號(hào),需要用時(shí)頻分析的方法對(duì)其進(jìn)行處理。小波變換[18](Wavelet Transform,WT)就是一種典型的時(shí)頻分析方法,小波變換的定義式如式(1)所示:
其中,α是伸縮系數(shù),τ是平移量,ψ(?)是共軛復(fù)數(shù)。小波變換在傅里葉變換的基礎(chǔ)上,對(duì)時(shí)頻窗都采用了可變換的分析方法,使得腦電這種非平穩(wěn)的時(shí)變信號(hào)變得更易被處理。
本文通過對(duì)EEG 進(jìn)行小波變換,使得EEG 信號(hào)分解成4 種不同頻帶的信號(hào),Theta、Beta、Gamma 和Alpha波,如表1 所示。由于信號(hào)的采樣頻率是128 Hz,故有效的采樣頻率為64 Hz,將各層的信號(hào)分解到各個(gè)波段,選取的小波頻帶與各個(gè)分級(jí)頻帶相近。
表1 EEG信號(hào)的小波分解
再分別對(duì)這四種信號(hào)分別提取五個(gè)不同的特征。主要提取的特征有:
(1)差分熵
該式中Var(?)表示求取方差,x為選取的數(shù)據(jù)點(diǎn)集。
(2)均值
該式中N表示數(shù)據(jù)點(diǎn)集總數(shù),即384。
(3)標(biāo)準(zhǔn)差
(4)峰度
(5)功率譜密度
由式(2)~(6),分別對(duì)上述每個(gè)小波頻帶提取了差分熵、均值、標(biāo)準(zhǔn)差、峰度以及功率譜密度等五種常用的EEG特征。
MFCC[1(9]Mel-scale Frequency Cepstral Coefficients,MFCC)即梅爾倒譜系數(shù),是在語音識(shí)別及語音情感識(shí)別中都比較常用的一種語音倒譜特征。MFCC 的主要特點(diǎn)是擁有豐富的倒譜信息以及對(duì)低頻信號(hào)分辨率高,因此,本文將MFCC 特征應(yīng)用于EEG 信號(hào)來完成情感識(shí)別的任務(wù),MFCC的提取流程如圖4所示。
圖4 MFCC特征提取流程圖
如圖4所述,提取MFCC首先需要對(duì)原始的EEG信號(hào)進(jìn)行分幀以及小波變換處理,采取與上述提取EEG信號(hào)特征時(shí)同樣的分幀策略。其次,對(duì)小波變換后獲得的小波信號(hào)進(jìn)行快速傅里葉變換(FFT)獲得各幀在頻譜上的能量分布,F(xiàn)FT可由下式表示:
其中,x(n)為輸入的信號(hào),N表示傅里葉變換的點(diǎn)數(shù),本文取值為512。其次,為變換后的信號(hào)附加Mel三角濾波器組,同時(shí)計(jì)算每幀信號(hào)在每個(gè)通道上的對(duì)數(shù)能量E(m)。
其中,CMFCC(i)為第i階MFCC,L為MFCC的階數(shù),本文取L=13。
從傳統(tǒng)的EEG 情感識(shí)別的方法中,發(fā)現(xiàn)只用單一的EEG特征所獲得的情感信息在表現(xiàn)EEG低頻信號(hào)段的能力與去噪能力兩個(gè)方面上有所不足。為了解決這幾個(gè)問題,考慮采取融合特征的方法來優(yōu)化特征的情感信息,融合特征的優(yōu)勢(shì)在于能夠結(jié)合各類不同特征的自身的特點(diǎn),取長(zhǎng)補(bǔ)短,充分利用特征間的互補(bǔ)性,將原始樣本信息最大化體現(xiàn)出來,從而增加最終情感的識(shí)別準(zhǔn)確率。考慮到同樣是情感識(shí)別,語音情感識(shí)別中的倒譜特征MFCC能夠有效地識(shí)別不同的情感,且對(duì)于識(shí)別不同被試者,倒譜類的特征也尤為關(guān)鍵,因此本文考慮將語音倒譜特征MFCC 與EEG 特征相互融合,構(gòu)建一個(gè)穩(wěn)定性,互補(bǔ)性更強(qiáng)的融合特征。
由3.1 節(jié)與3.2 節(jié)得到EEG 信號(hào)特征和語音MFCC特征后再通過線性拼接便得到了本文所用的融合特征。拼接的方式如圖5所示。
圖5 融合特征提取圖
其中Time 指的是時(shí)序維度,αE表示在Alpha 波下提取的EEG 特征,αM表示在Alpha 波下提取的MFCC特征,Ci表示第i個(gè)通道。
本文的方法模型框架如圖6所示。首先通過對(duì)原始EEG 信號(hào)預(yù)處理,在分別從語音與腦電兩個(gè)維度提取MFCC和EEG的特征,再將這兩類特征融合獲得一個(gè)表述信息優(yōu)異的特征再通過后續(xù)的模型進(jìn)行分類識(shí)別。
本文選取的識(shí)別分類模型是深度殘差網(wǎng)絡(luò)(ResNet)[20],其優(yōu)勢(shì)在于能在增加網(wǎng)絡(luò)深度的同時(shí)解決梯度爆炸,模型退化等問題。深度殘差網(wǎng)絡(luò)的構(gòu)建是通過如圖7所示的殘差單元堆砌而成的。
在圖7 中,x在輸入到模型層時(shí),一部分通過權(quán)重層進(jìn)行學(xué)習(xí)訓(xùn)練,另一部分繞過訓(xùn)練的權(quán)重層,直接與訓(xùn)練后的輸出F(x)進(jìn)行累加,因此,一個(gè)殘差單元所得的輸出y可由式(10)所表示:
圖7 ResNet殘差學(xué)習(xí)單元
其中,wi表示第i個(gè)殘差單元的權(quán)重值。因此,不同于傳統(tǒng)深度模型訓(xùn)練時(shí)的逐層訓(xùn)練,殘差網(wǎng)絡(luò)一方面能學(xué)習(xí)前層所得到的深度特征表示,另一方面能將前層信息越過訓(xùn)練模塊,從而學(xué)習(xí)到特征的淺層的信息,這種優(yōu)勢(shì)使得網(wǎng)絡(luò)結(jié)構(gòu)可以構(gòu)筑得更深而不擔(dān)心梯度爆炸等問題。
關(guān)于ResNet 的網(wǎng)絡(luò)結(jié)構(gòu)的研究很多,常見的結(jié)構(gòu)有,ResNet18、ResNet34 以及 ResNet50 等,它們之間的主要區(qū)別在于堆砌的殘差網(wǎng)絡(luò)單元的數(shù)量不同。本文選取了ResNet18作為此次的分類模型的主要結(jié)構(gòu)。具體的結(jié)構(gòu)如表2所示。
表2 ResNet18結(jié)構(gòu)參數(shù)
本文首先對(duì)EEG信號(hào)在經(jīng)過小波變換后得到的各個(gè)波段所提出的特征分別進(jìn)行了對(duì)比的實(shí)驗(yàn)。探究各個(gè)單一波段與四個(gè)波段合并所得的特征信息之間的識(shí)別能力的差異性。
圖6 融合特征方法模型框架
如上文所述,每個(gè)受試者的實(shí)驗(yàn)數(shù)據(jù)被處理為40×7 680×32,其中40指的是看的音樂視頻數(shù)量,7 680指的是經(jīng)過處理后的信號(hào)長(zhǎng)度,32 則是額頭上的32 個(gè)電極通道。對(duì)于每一個(gè)樣本7 680×32,通過EEG的特征提取后,轉(zhuǎn)變?yōu)?0×20×32,其中前一個(gè)20 指的是分幀數(shù)量,后一個(gè) 20 指的是 4 個(gè)波段,即 Theta、Beta、Gamma 和Alpha各提取5個(gè)特征總計(jì)20個(gè)特征數(shù),32指的是電極通道。因此,對(duì)于一名受試者的一個(gè)視頻樣本,最終會(huì)被處理成一個(gè)一個(gè)20×20×32 的特征矩陣,用以后續(xù)的識(shí)別分類,而對(duì)于單一波段的特征則是20×4×32的特征矩陣大小。
本文基于Arousal-Valence二維情感模型,對(duì)各個(gè)樣本標(biāo)注了高 Arousal/低 Arousal、高 Valence/低 Valence 的標(biāo)簽,并分別對(duì)上述四個(gè)類別做各自的二分類任務(wù),實(shí)驗(yàn)從被試者獨(dú)立和被試者不獨(dú)立兩個(gè)角度分別進(jìn)行實(shí)驗(yàn),兩類實(shí)驗(yàn)均采用的是十折交叉驗(yàn)證方法。實(shí)驗(yàn)結(jié)果如圖8所示。
圖8 各個(gè)波段二分類實(shí)驗(yàn)結(jié)果
從圖8(a)被試者獨(dú)立的實(shí)驗(yàn)結(jié)果可知,在高Arousal/低Arousal 這一分類任務(wù)中,融合四個(gè)波段的特征能獲得最高的分類準(zhǔn)確率79.45%,其次為單一Beta 波段準(zhǔn)確率為79.29%,單一的Theta和Alpha波段準(zhǔn)確率相近,分別為78.44%和78.43%,單一Gamma波段的準(zhǔn)確率最低為77.66%。而在高Valence/低Valence 這一分類任務(wù)中,融合四個(gè)波段的特征也獲得了最高的分類準(zhǔn)確率80.85%,其次依照波頻的大小反向排列,即Theta 為80.73%,Alpha為80.54%,Beta為80.31%以及Gamma為79.06%。而在圖8(b)被試者不獨(dú)立的實(shí)驗(yàn)結(jié)果中,在高Arousal/低Arousal這一分類任務(wù)中,融合四個(gè)波段的特征同樣獲得了最高的準(zhǔn)確率58.46%,其后依次為Theta、Alpha、Beta與Gamma波段,分別為57.96%、57.80%、57.79%與56.72%。在高Valence/低Valence這一分類任務(wù)中,融合四個(gè)波段的特征也獲得了最高的分類準(zhǔn)確率59.96%,之后依次是Theta波段59.91%、Alpha波段59.18%、Beta波段58.85%以及Gamma波段58.83%。
基于以上的實(shí)驗(yàn)結(jié)果,可以發(fā)現(xiàn):(1)單一波段特征的準(zhǔn)確率不如四個(gè)波段的融合。(2)各個(gè)波段特征在Valence的二分類的識(shí)別任務(wù)中,其準(zhǔn)確率要高于Arousal的二分類的識(shí)別任務(wù)。(3)高頻波段Gamma波段的識(shí)別準(zhǔn)確率比較差。(4)由于不同被試者之間的腦波差異性存在,因此被試者獨(dú)立的識(shí)別準(zhǔn)確率要高于非獨(dú)立的情況。
基于對(duì)上一個(gè)實(shí)驗(yàn)的分析,本文將MFCC 特征與EEG 特征互相融合,從而獲得一個(gè)更好的特征表示,提升識(shí)別能力。
經(jīng)過EEG信號(hào)預(yù)處理后得到的一個(gè)受試者的語音特征MFCC 為40×20×52×32,其中40 指的是看的音樂視頻數(shù)量,20 指的是分幀數(shù)量,52 指的是MFCC 的所取維度在各個(gè)波段下的維度之和,即13×4=52,32 則是電極通道,通過與EEG特征相融合所得的一個(gè)樣本特征矩陣為20×(20+52)×32,實(shí)驗(yàn)策略同樣是對(duì)Arousal 和Valence的二分類和十折交叉驗(yàn)證,實(shí)驗(yàn)結(jié)果如表3所示。
表3 融合特征二分類實(shí)驗(yàn)結(jié)果 %
從表3的結(jié)果可知,結(jié)合了MFCC的新的融合特征相比較原始的單一EEG特征和MFCC特征在被試者獨(dú)立與不獨(dú)立這兩個(gè)實(shí)驗(yàn)中都有了一定的準(zhǔn)確率上的提升,其中在高Arousal/低Arousal 這一分類任務(wù)中,融合特征的準(zhǔn)確率在被試者不獨(dú)立的條件下有61.31%,而在被試者獨(dú)立的條件下有86.01%。相較于只用原始的EEG 特征分別提升了2.85%和6.56%。而在高Valence/低Valence 這一分類任務(wù)中,融合特征的準(zhǔn)確率在被試者不獨(dú)立的條件下有62.10%,而在被試者獨(dú)立的條件下有85.46%。相較于只用原始的EEG特征分別提升了2.15%和4.61%。實(shí)驗(yàn)結(jié)果表明,這種將MFCC 特征與EEG 特征進(jìn)行融合的方式,對(duì)于EEG 的情感識(shí)別分類是有效的。
此外,為了探究分析融合特征的對(duì)于不同受試者的魯棒性,本文在被試者獨(dú)立的實(shí)驗(yàn)基礎(chǔ)上對(duì)32 個(gè)被試者各自的分類結(jié)果做了研究,結(jié)果如圖9所示。
圖9 32個(gè)受試者分類結(jié)果比較
由圖9可知,融合特征的方法在兩個(gè)分類任務(wù)中對(duì)于各個(gè)受試者都能獲得相較于只用單一MFCC 特征或單一EEG特征比較好的結(jié)果,其分類結(jié)果的均值區(qū)間是最高的。只用單一EEG特征,最后的分類結(jié)果區(qū)間落差比較大,即意味著對(duì)于不同人的結(jié)果差異較大。而只用單一MFCC 特征,雖然對(duì)不同人的識(shí)別會(huì)相對(duì)穩(wěn)定,即區(qū)間落差小,但平均準(zhǔn)確率提升不高。而將兩個(gè)特征融合的方法,則使得特征之間信息互補(bǔ),從而發(fā)揮各自的優(yōu)勢(shì),彌補(bǔ)各自的不足,達(dá)到一個(gè)區(qū)間落差小,均值最好的效果,這也驗(yàn)證了本文提出的方法不僅有效,而且對(duì)于不同的受試者也能普遍魯棒,達(dá)到一個(gè)最好的準(zhǔn)確率。
本文將語音倒譜特征MFCC 引入EEG 信號(hào)之中,將傳統(tǒng)的EEG 特征與之融合,構(gòu)造了新融合而成的特征,新的融合特征結(jié)合了語音特征MFCC 與原始EEG特征各自的特點(diǎn),有著更為豐富的情感信息。
為了驗(yàn)證該方法的有效性,本文在常用的EEG 數(shù)據(jù)集DEAP數(shù)據(jù)集中開展了相關(guān)實(shí)驗(yàn)研究,利用了一個(gè)ResNet18神經(jīng)網(wǎng)絡(luò)來進(jìn)行分類識(shí)別,其優(yōu)勢(shì)在于能夠在增加網(wǎng)絡(luò)深度從而更好地學(xué)習(xí)特征信息的同時(shí)防止過深的神經(jīng)網(wǎng)絡(luò)所造成的梯度爆炸等問題。最終融合特征的分類準(zhǔn)確率在各個(gè)特征的比較中是最好,并且在不同受試者的實(shí)驗(yàn)結(jié)果中,該融合特征還體現(xiàn)了最好的魯棒性。
此外,本文所提的融合語音特征的方法可以為腦電信號(hào)的分類與識(shí)別提供參考和幫助,語音信號(hào)特征還有很多種別的類型,將各類的語音特征與EEG 特征相融合,值得后續(xù)深入研究。