李文書(shū) 王浩
摘 要: 作為人類(lèi)大腦神經(jīng)活動(dòng)的重要指標(biāo),腦電(EEG)信號(hào)能更深層次地反映人的情緒狀況,但當(dāng)前大多數(shù)深度學(xué)習(xí)模型通過(guò)EEG識(shí)別情緒不夠精確。本文提出基于連續(xù)卷積神經(jīng)網(wǎng)絡(luò)的3D腦電圖情緒識(shí)別模型,采用提取DE和PSD特征時(shí)得到的等價(jià)矩陣所構(gòu)造的三維腦電圖立方體作為輸入,舍棄卷積神經(jīng)網(wǎng)絡(luò)中的池化層。在DEAP數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),Arousal準(zhǔn)確率為95.77%,Valence準(zhǔn)確率為93.52%,表明該方法非常適用于情緒識(shí)別,能給后續(xù)相關(guān)研究提供參考。
關(guān)鍵詞: 腦電情緒識(shí)別; 連續(xù)卷積神經(jīng)網(wǎng)絡(luò); 深度學(xué)習(xí); DEAP數(shù)據(jù)集; 3D腦電圖
中圖分類(lèi)號(hào):TP183? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A? ? ?文章編號(hào):1006-8228(2023)09-96-05
Emotion recognition in 3D EEG based on continuous convolutional neural network
Li Wenshu, Wang Hao
(Laboratory of Intelligent Identification and Systems, School of Computer Science, Zhejiang Sci-Tech University, Hangzhou, Zhejiang 310018, China)
Abstract: As an important indicator of human brain neural activity, the electroencephalography (EEG) signal can reflect human emotional condition at a deeper level, but most current deep learning models are not accurate enough to identify emotions by EEG. A 3D EEG emotion recognition model based on continuous convolutional neural network is proposed, which uses the 3D EEG cube constructed from the equivalence matrix obtained when extracting DE and PSD features as input and discards the pooling layer in the convolutional neural network. Experiments are conducted on the DEAP dataset with an accuracy of 95.77% for Arousal and 93.52% for Valence, which shows that the method is suitable for emotion recognition tasks and can provide references for subsequent related research.
Key words: EEG emotion recognition; continuous convolutional neural network; deep learning; DEAP dataset; 3D-electroencephalogram
0 引言
“棄我去者,昨日之日不可留;亂我心者,今日之日多煩憂(yōu)”。此句出自詩(shī)人李白,其揭示的是情緒對(duì)日常生活的影響。如今,人工智能技術(shù)對(duì)于精確獲得人類(lèi)的情緒狀態(tài)起到至關(guān)重要的作用[1]。
人類(lèi)情緒可以通過(guò)面部表情、言語(yǔ)、眼動(dòng)信號(hào)和生理信號(hào)來(lái)檢測(cè)。前三種都容易受到被試者的主觀(guān)影響,而腦電圖(EEG)[2]、眼電圖(EOG)等生理信號(hào)是由人體自發(fā)產(chǎn)生的。腦電信號(hào)來(lái)自人腦,其變化可以直觀(guān)準(zhǔn)確地反映人類(lèi)情緒狀態(tài)。因此,許多研究者開(kāi)始使用腦電圖信號(hào)來(lái)研究情緒識(shí)別。
鄭偉龍研究腦電圖的情緒識(shí)別臨界頻帶,并得出beta和gamma頻帶更適合于任務(wù)[3]。一項(xiàng)關(guān)于腦電信號(hào)分布的研究也證實(shí)了高頻波段更能區(qū)分情緒狀態(tài)[4]。唐昊等人使用雙峰深度去噪自動(dòng)編碼器和雙峰-LSTM對(duì)情緒狀態(tài)進(jìn)行分類(lèi),平均準(zhǔn)確率為83.25%[5]。還有一種將多通道腦電圖數(shù)據(jù)轉(zhuǎn)換為二維幀表示的預(yù)處理方法,結(jié)合了CNN和RNN來(lái)識(shí)別情緒[6]。李友軍從不同的腦電圖通道中提取功率譜密度(PSD),構(gòu)建多維特征圖像(MFI),并結(jié)合CNN和LSTM來(lái)處理腦電圖MFI序列,識(shí)別人類(lèi)情緒[7]。楊儀龍從EEG信號(hào)中分頻提取微分熵(DE),對(duì)高頻波段分類(lèi)訓(xùn)練,集成CNN來(lái)識(shí)別情緒,平均準(zhǔn)確率為89.84%[8]。
大多數(shù)研究忽略了基礎(chǔ)信號(hào)(無(wú)刺激下記錄的腦電圖信號(hào))的重要性。據(jù)此分析,我們提出一種腦電圖片段的三維輸入形式(融合了微分熵DE和功率譜密度PSD),通過(guò)等價(jià)二維矩陣的方式將其輸入至連續(xù)卷積神經(jīng)網(wǎng)絡(luò),舍棄原卷積神經(jīng)網(wǎng)絡(luò)中的池化層,有效地提升了準(zhǔn)確率。
1 情緒維度理論及DEAP數(shù)據(jù)集介紹
1.1 情緒維度理論
情緒維度理論由美國(guó)心理學(xué)家威廉·詹姆士和丹麥生理學(xué)家卡爾蘭格提出,目前已成為情緒分類(lèi)標(biāo)準(zhǔn)的主流方案[9],如圖1所示。
情緒維度模型由兩個(gè)維度組成,橫軸表示效價(jià)度(Valence),縱軸表示喚醒度(Arousal)。人類(lèi)基本情感包括放松、沮喪、愉快、悲傷、恐懼等,均可映射到二維平面點(diǎn)上,四個(gè)象限依次為高喚醒高效價(jià),高喚醒低效價(jià),低喚醒高效價(jià),低喚醒低效價(jià)。
1.2 DEAP數(shù)據(jù)集
DEAP數(shù)據(jù)集是一個(gè)公開(kāi)可用的數(shù)據(jù)集[10],在情感計(jì)算和情緒識(shí)別研究中廣泛使用,其包含多種信號(hào)(EEG、周?chē)硇盘?hào)和音視頻記錄)。數(shù)據(jù)集包含32名參與者觀(guān)看40個(gè)時(shí)長(zhǎng)約一分鐘的音樂(lè)視頻,每段視頻數(shù)據(jù)由32導(dǎo)腦電信號(hào)和8導(dǎo)其他生理信號(hào)組成,然后要求其填寫(xiě)對(duì)效價(jià)和喚醒程度的自我評(píng)估。效價(jià)和喚醒等級(jí)從1到9(1代表悲傷/平靜,9代表快樂(lè)/興奮)。
2 方法
2.1 頻率分解和特征提取
數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行了降采樣處理,采樣頻率從512Hz降到128Hz。預(yù)處理階段,我們對(duì)腦電信號(hào)使用了帶通濾波器來(lái)進(jìn)行頻段分割工作。根據(jù)張等人的總結(jié)[11],腦電圖頻率模式及其對(duì)應(yīng)特征見(jiàn)表1所示,情感的興奮程度和頻段的頻率成正比,因此我們對(duì)原始腦電信號(hào)進(jìn)行頻段分解,分解后得到對(duì)情緒識(shí)別效果較好的后四個(gè)頻段。
2.2 三維輸入結(jié)構(gòu)
國(guó)際10-20系統(tǒng)是一種國(guó)際公認(rèn)的描述和應(yīng)用頭皮電極位置和大腦皮層底層區(qū)域的方法,如圖2所示,每個(gè)電極物理上相鄰多個(gè)電極,這些電極記錄大腦特定區(qū)域的EEG信號(hào)。為了保留多個(gè)相鄰?fù)ǖ乐g的空間信息,根據(jù)電極分布圖,將一維的DE和PSD特征變換為二維平面,0代表未使用該通道。
因此,我們得到每個(gè)腦電圖段的八個(gè)二維平面。下一步是將這些平面堆疊成三維腦電圖立方體作為CNN的輸入進(jìn)行訓(xùn)練。在計(jì)算機(jī)視覺(jué)領(lǐng)域中,圖像的分類(lèi)任務(wù)采用RGB彩色通道來(lái)組織圖像,0~255用于表示每個(gè)顏色通道中的顏色的強(qiáng)度,使用彩色圖像的表示法作為類(lèi)比[8],如圖3所示。
我們對(duì)不同波段的腦電信號(hào)提取微分熵(DE)和功率譜密度(PSD)來(lái)描述這些不同的波。PSD描述了信號(hào)中存在的功率,它是頻域中用于實(shí)現(xiàn)情感識(shí)別的最常用的特征之一[12],DE度量了信號(hào)的復(fù)雜度[13]。這兩種方式非常適用于提取腦電特征映射。PSD的提取公式為:
[h(X)=Xf(X)log(f(x))dx]? ? ⑴
其中,x是一個(gè)隨機(jī)變量,[f(x)]是x的概率密度函數(shù)。對(duì)于服從高斯分布的級(jí)數(shù)[X,N(μ,δ2)],DE的提取公式為:
[h(X)=-∞∞12πδ2ex-μ22δ2log12πδ2e-x-μ22δ2dx] ⑵
施[14]等人已經(jīng)證明了對(duì)于一個(gè)特定的頻帶i,微分熵可以定義為:
[hi(X)=12log2πeδ2i] ? ? ⑶
其中,[hi]和[δ2i]分別表示對(duì)應(yīng)的腦電圖信號(hào)在頻帶i上的差分熵和信號(hào)方差。因此,一段特定頻帶i的特征可以用一維向量來(lái)表示[Vi∈R32]。從原始腦電圖信號(hào)中提取每個(gè)波段的PSD和DE向量,然后根據(jù)32通道的等價(jià)二維矩陣將其轉(zhuǎn)換為二維平面,對(duì)于每個(gè)0.5秒的窗口,所有波段和特征的二維平面都被創(chuàng)建,而且深度堆疊。每個(gè)腦電圖立方體都是模型的輸入,高度為8,寬度為9,深度為9,如圖3的step3-4所示。
2.3 基礎(chǔ)信號(hào)處理
情緒是一種復(fù)雜的心理狀態(tài),外部因素的細(xì)微差別對(duì)人們的情緒有一定的影響。在DEAP數(shù)據(jù)集中,收集了參與者在無(wú)刺激下產(chǎn)生的三秒基礎(chǔ)信號(hào)。為了研究基礎(chǔ)信號(hào)的特征對(duì)最終分類(lèi)結(jié)果的影響,我們將三秒的基礎(chǔ)信號(hào)切割為三個(gè)一秒的片段,并用上述提取特征的方法將每個(gè)信號(hào)轉(zhuǎn)換為四對(duì)DE和PSD特征向量,然后計(jì)算這三個(gè)腦電圖立方體的DE和PSD特征值的和的平均值來(lái)表示基礎(chǔ)信號(hào)的DE和PSD特征。最后,計(jì)算實(shí)驗(yàn)?zāi)X電圖(刺激下)和基礎(chǔ)腦電圖(無(wú)刺激下)之間的DE和PSD的偏差來(lái)代表該部分的情緒狀態(tài)特征。其中,DE和PSD的權(quán)重相等,單步驟可以表示為:
[final_vij=exper_vij-k=13base_vik3] ⑷
其中,[exper_vij]表示頻段i在段落j上的特征向量,[base_vik]表示頻段i在基礎(chǔ)信號(hào)段落j上的特征向量,[final_vij]表示頻段i在j段落上的最終情緒狀態(tài)特征向量。
2.4 連續(xù)卷積神經(jīng)網(wǎng)絡(luò)
如圖3中構(gòu)建的三維腦電立方體可以被視為彩色圖像,這使得我們可以充分利用CNN從輸入中提取代表性的特征。在本文中,如圖4所示,我們使用了一個(gè)具有四個(gè)卷積層的連續(xù)卷積神經(jīng)網(wǎng)絡(luò)來(lái)從輸入立方體中提取特征,添加了一個(gè)具有退出操作的全連接層用于特征融合,傳入最終分類(lèi)?!斑B續(xù)”表示在兩個(gè)相鄰的卷積層之間沒(méi)有池化層。雖然在計(jì)算機(jī)視覺(jué)領(lǐng)域中,卷積層后面通常是池化層,其主要功能是以一些信息丟失為代價(jià)降低數(shù)據(jù)維數(shù),但由于三維腦電立方體的大小遠(yuǎn)小于計(jì)算機(jī)視覺(jué)場(chǎng)的大小,所以在本模型中池化層被丟棄。此外,在每個(gè)卷積層中,采用零填充來(lái)防止立方體邊緣信息丟失。在前三個(gè)卷積層中,內(nèi)核設(shè)置大小為4*4,步幅為1。在卷積運(yùn)算后,加入RELU激活函數(shù),使模型具有非線(xiàn)性特征變換能力。使用64個(gè)特征映射開(kāi)始第一個(gè)卷積層,并在接下來(lái)的兩個(gè)卷積層中將特征映射加倍,因此,在第二接層,層和第三層中有128個(gè)和256個(gè)特征映射。為了融合特征映射并降低計(jì)算成本,增加了一個(gè)包含64個(gè)特征映射的1*1卷積層。在這四個(gè)連續(xù)的卷積層之后,添加了一個(gè)全連以將64個(gè)9*9特征映射到最終的特征向量(1024),最終的分類(lèi)器接收[f∈R1024]以預(yù)測(cè)人類(lèi)的情緒狀態(tài)。
3 實(shí)驗(yàn)
3.1 實(shí)驗(yàn)環(huán)境及參數(shù)設(shè)置
實(shí)驗(yàn)中腦電圖數(shù)據(jù)為40*8064*8*32(視頻*樣本*波段*通道),將被試者在刺激下的腦電圖數(shù)據(jù)切成(40*N)段,每個(gè)段的長(zhǎng)度為L(zhǎng)。將這些片段分類(lèi)到相應(yīng)的標(biāo)簽中,分割后,腦電圖數(shù)據(jù)轉(zhuǎn)換為40*N*L*8*32(視頻*段*長(zhǎng)度*波段*通道)。
在我們的實(shí)驗(yàn)中,長(zhǎng)度L設(shè)置為128,即每個(gè)參與者身上有2400個(gè)片段,我們應(yīng)用所提出的方法從DEAP數(shù)據(jù)集中識(shí)別效價(jià)和喚醒。其中,我們選擇5作為閾值,根據(jù)喚醒和效價(jià)的評(píng)分水平(1-9)將標(biāo)簽分為兩個(gè)二元分類(lèi)問(wèn)題,即高/低效價(jià)、高/低喚醒。
本實(shí)驗(yàn)基于tensorflow2.3.0平臺(tái),采用Ubuntu 18.04LTS 64位操作系統(tǒng),搭載Intel E5-2620 CPU,NVIDIA GTX2080Ti GPU,顯存11G。采用截?cái)嗟恼龖B(tài)分布函數(shù)初始化核的權(quán)值,為了避免過(guò)擬合和提高泛化能力,加入L2正則化,CNN和MLP對(duì)L2的懲罰強(qiáng)度分別為0.5和0.05。相關(guān)參數(shù)如表2。
為了檢驗(yàn)基礎(chǔ)信號(hào)及分頻段對(duì)最終分類(lèi)結(jié)果的影響,我們?cè)O(shè)計(jì)了三種分類(lèi),對(duì)三種不同的分類(lèi)進(jìn)行了實(shí)驗(yàn),并比較了他們的結(jié)果。
分類(lèi)1表示丟棄基礎(chǔ)信號(hào)的特征的情況,分類(lèi)2表示只使用基礎(chǔ)信號(hào)的DE特征的情況,分類(lèi)3表示使用基礎(chǔ)信號(hào)的DE和PSD特征的情況,結(jié)果如表3、表4所示??梢钥闯?,使用雙基礎(chǔ)信號(hào)的特征能顯著提高情緒識(shí)別的準(zhǔn)確性。另外,頻帶越高,對(duì)情緒的識(shí)別度越精確,而且所有波段的組合可以相互補(bǔ)充,有助于取得更好的結(jié)果。
3.2 相關(guān)方法之間的結(jié)果比較
我們還將本實(shí)驗(yàn)結(jié)果與其他五種方法進(jìn)行了比較,如表5所示,所提出的使用三維腦電圖立方體作為輸入的連續(xù)卷積神經(jīng)網(wǎng)絡(luò)在喚醒和效價(jià)分類(lèi)任務(wù)上都優(yōu)于這五種方法。
4 結(jié)束語(yǔ)
本研究表明,基于腦電信號(hào)的DE和PSD雙特征可以比單特征提取顯著提高情緒識(shí)別的準(zhǔn)確性。實(shí)驗(yàn)信號(hào)的DE和PSD特征向量與基礎(chǔ)信號(hào)之間的偏差可以更好地表征情緒狀態(tài)。本文三維腦電圖的表示方法結(jié)合了來(lái)自不同頻段的信號(hào)特征,同時(shí)保持了各通道間的空間信息。我們發(fā)現(xiàn),可以顯著提高情緒識(shí)別性能的改進(jìn)是使用多模態(tài)方法,例如,與使用EEG信號(hào)提取特征相比,同時(shí)提取個(gè)體面部的相關(guān)特征[17]等可以組合成不同的模型,為我們提供一種有效的多模態(tài)情感識(shí)別方法。
參考文獻(xiàn)(References):
[1] 喬建中.情緒研究:理論與方法[M].南京:南京師范大學(xué)出版社,2003:16-17.
[2] 聶聃,王曉韡,段若男,等.基于腦電的情緒識(shí)別研究綜述[J].中國(guó)生物醫(yī)學(xué)工程學(xué)報(bào),2012,31(4):12.
[3] Zheng W L,? Lu B L. Investigating Critical Frequency Bandsand Channels for EEG-Based Emotion Recognition with Deep Neural Networks[J]. IEEE Transactions on Autonomous Mental Development,2015,7(3):1-1.
[4] Li J,? Zhang Z,? He H. Hierarchical Convolutional NeuralNetworks for EEG-Based Emotion Recognition[J]. Cognitive Computation,2017,10:368-380.
[5] Tang H,? Liu W,? Zheng W L, et al. Multimodal EmotionRecognition Using Deep Neural Networks[A] International Conference on Neural Information Processing[C].Springer, Cham,2017:812-818.
[6] Li X,? Song D,? Zhang P, et al. Emotion recognition frommulti-channel EEG data through Convolutional Recurrent Neural Network[A].IEEE International Conference on Bioinformatics & Biomedicine[C].IEEE,2016:352-359.
[7] Li Y, Huang J, Zhou H, et al. Human Emotion Recognitionwith Electroencephalographic Multidimensional Features by Hybrid Deep Neural Networks[J]. Applied Sciences,2017,7(10):1060.
[8] Yang Y,? Wu Q,? Fu Y, et al. Continuous Convolutional
Neural Network with 3D Input for EEG-Based Emotion Recognition[A].25th International Conference[C].Siem Reap: ICONIP 2018:433-443.
[9] MILAD M, HADI D.Synchronization of fractional order
hyper-chaotic systems based on a new adaptive sliding mode control[J].International Journal of Dynamics Control,2015,10(7):435-446.
[10] Koelstra, S. DEAP: A Database for Emotion Analysis;
Using Physiological Signals[J]. IEEE transactions on affective computing,2012.3(1):18-31.
[11] Zhang X,? Yao L,? Kanhere S S, et al. MindID: Person
Identification from Brain Waves through Attention-based Recurrent Neural Network[J],2017,2(3):1-23.
[12] Sarma P,? Barma S. Emotion recognition by
distinguishing appropriate EEG segments based on random matrix theory[J].Biomedical Signal Processing and Control,2022.70(9):1-13.
[13] Topic A,? Russo M. Emotion recognition based on EEG
feature maps through deep learning network[J]. Engineering Science and Technology an International Journal,2021,24(6):1442-1454.
[14] Shi L C,? Jiao Y Y,? Lu B L. Differential entropy feature
for EEG-based vigilance estimation[A]. 35th International Conference of the IEEE Engineering in Medicine & Biology Society[C].Osaka,EMBC,2013:6627-6630.
[15] Yin Z,? Zhao M,? Wang Y, et al. Recognition of emotions?using multimodal physiological signals and an ensemble deep learning model[J]. Computer Methods & Programs in Biomedicine,2017,140(Complete):93-110.
[16] Xie Y, Wang L P.EEG-Based Emotion RecognitionUsing Autoencoder and LSTM[D].Bachelor Degree,Singapore:NTU,2021.
[17] 李文書(shū),何芳芳,錢(qián)沄濤,等.基于A(yíng)daboost-高斯過(guò)程分類(lèi)的人臉表情識(shí)別[J].浙江大學(xué)學(xué)報(bào)(工學(xué)版),2012,46(1):79-83.