李景聰,潘偉健,林鎮(zhèn)遠(yuǎn),陳希昶,潘家輝
(華南師范大學(xué) 軟件學(xué)院,廣東 佛山 528200)
人對(duì)客觀世界事物的感情態(tài)度和相應(yīng)的行為反應(yīng)被稱為情緒[1]。近年來(lái),基于生理信號(hào)的情緒識(shí)別研究受到了廣泛關(guān)注。人在情緒體驗(yàn)中即時(shí)反應(yīng)所產(chǎn)生的生理信號(hào)具有實(shí)時(shí)性、客觀性、難以偽裝等特點(diǎn),因此使用生理信號(hào)進(jìn)行情緒識(shí)別能夠得到相對(duì)客觀真實(shí)的結(jié)果[2]。常用于情緒分析的生理信號(hào)有腦電(electroencephalogram,EEG)、心電(electrocardiogram,ECG)、肌電(electromyography,EMG)和皮膚溫度(skin temperature,SKT)等[3]。大量神經(jīng)元同步發(fā)生的電位之和稱為腦電信號(hào),腦電信號(hào)是大量腦神經(jīng)細(xì)胞的電生理活動(dòng)在頭皮上的匯總,常使用非侵入式電極對(duì)頭皮腦電信號(hào)進(jìn)行采集[4]。腦電信號(hào)包含了大量的生理信息,可以準(zhǔn)確地表征大腦的神經(jīng)活動(dòng),利用腦電信號(hào)研究情緒特征能夠獲得更多神經(jīng)活動(dòng)信息,提高情緒識(shí)別的準(zhǔn)確率[5]。
以往的研究表明,大腦皮層有兩個(gè)區(qū)域與情感活動(dòng)密切相關(guān),即杏仁核(位置靠近海馬體,在顳葉的前部)和額葉前皮層(覆蓋額葉的一部分)。在情緒體驗(yàn)期間,大腦皮層的某個(gè)特定部位通常會(huì)被激活,同時(shí)整個(gè)腦區(qū)也會(huì)呈現(xiàn)出全局特征,例如杏仁核的激活與消極情緒有關(guān),右額葉的激活與負(fù)面情緒有關(guān)[6]。不同腦區(qū)的神經(jīng)活動(dòng)在情緒體驗(yàn)期間具有內(nèi)在的聯(lián)系,而腦電極測(cè)得的腦電信號(hào)也能體現(xiàn)出不同腦區(qū)的某種內(nèi)在聯(lián)系。
情緒腦電的分類過(guò)程包括特征提取和分類兩個(gè)階段。腦電信號(hào)是一種高動(dòng)態(tài)、非線性的數(shù)據(jù),原始的腦電數(shù)據(jù)量大且具有冗余性,因此提取腦電數(shù)據(jù)的特征是至關(guān)重要的。腦電信號(hào)的特征分析方法主要分為時(shí)域方法、頻域方法、時(shí)頻分析、非線性動(dòng)力學(xué)分析等[7]。其中,被廣泛使用的腦電信號(hào)的頻域特征分析方法之一是將EEG信號(hào)分解為幾個(gè)頻帶如delta 頻帶(1~3 Hz)、theta頻帶(4~7 Hz)、alpha 頻帶(8~13 Hz)、beta 頻帶(14~30 Hz)和gamma 頻帶(>31 Hz)。Li 等[8]發(fā)現(xiàn)使用gamma 頻帶上的特征進(jìn)行情緒腦電分類時(shí)有更高的準(zhǔn)確率。另外,腦電信號(hào)的非線性特征分析也是一種主流的研究方法。常用的腦電信號(hào)非線性特征有轉(zhuǎn)移熵(symbolic transfer entropy)、排列熵(permutation entropy)、微分熵(differential entropy,DE)等。熵是描述信號(hào)不確定性的參數(shù),值越大信號(hào)的不確定性越高。Duan 等[9]發(fā)現(xiàn)在情緒腦電分類任務(wù)中使用微分熵特征的分類效果比使用其他特征的分類效果更加好,相較于傳統(tǒng)特征如能量譜 (energy spectrum,ES),使用微分熵的效果準(zhǔn)確性更高,穩(wěn)定性更好。
情緒腦電信號(hào)很微弱容易受到外界干擾,為了有效分析腦電信號(hào),提出了許多基于機(jī)器學(xué)習(xí)的腦電信號(hào)分析方法[4]。深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)分支,因?yàn)槠渚哂袕?qiáng)大的數(shù)據(jù)表征學(xué)習(xí)能力,研究人員開始把它應(yīng)用到了腦電情緒分類任務(wù)中,用來(lái)解碼復(fù)雜的情緒腦電。Alhagry 等[10]利用長(zhǎng)短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)對(duì)情緒腦電信號(hào)進(jìn)行分類,在DEAP 數(shù)據(jù)集上取得87.99%的準(zhǔn)確率。為了消除腦電信號(hào)的個(gè)體差異,Li 等[11]使用了一種深度自適應(yīng)網(wǎng)絡(luò)(domain adaptation networks,DAN),通過(guò)調(diào)整深度網(wǎng)絡(luò)結(jié)構(gòu)提高遷移特征的能力,并將其應(yīng)用于SEED 和SEED-IV 數(shù)據(jù)集上的情緒識(shí)別任務(wù),能夠很好地處理跨被試情緒識(shí)別任務(wù)。Li 等[12]提出一種Bi-HDM (bi-hemispheric discrepancy)模型,這個(gè)模型將腦電通道分為左半腦和右半腦,分別訓(xùn)練網(wǎng)絡(luò),結(jié)果證明了將非對(duì)稱差分信息納入腦電情緒識(shí)別的有效性。Liu 等[13]將眼動(dòng)信號(hào)和EEG 腦電信號(hào)特征融合在一起,提出了一種多模態(tài)的情緒腦電識(shí)別網(wǎng)絡(luò)(bimodal deep autoencoder,BDAE),在SEED 數(shù)據(jù)集上達(dá)到91.01%的準(zhǔn)確率。
深度學(xué)習(xí)方法中的卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)具有強(qiáng)大的建模能力,成功應(yīng)用于自然語(yǔ)言處理、圖像識(shí)別、時(shí)間序列預(yù)測(cè)等領(lǐng)域。卷積神經(jīng)網(wǎng)絡(luò)適合處理歐氏數(shù)據(jù)(Euclidean structure data),不能有效地處理非歐氏數(shù)據(jù)(non-Euclidean structure data),數(shù)據(jù)見文獻(xiàn)[14]。腦電信號(hào)通道分布排列不均勻,不滿足平移不變性,即每個(gè)通道節(jié)點(diǎn)都具有不相同的局部結(jié)構(gòu),適合使用圖數(shù)據(jù)表示。同時(shí),因?yàn)榍榫w腦電通道之間具有一定的聯(lián)系,而卷積神經(jīng)網(wǎng)絡(luò)無(wú)法捕捉腦電通道之間的依賴關(guān)系,因此在腦電信號(hào)情緒識(shí)別任務(wù)中表現(xiàn)不佳。圖神經(jīng)網(wǎng)絡(luò)在處理圖數(shù)據(jù)方面取得了令人矚目的成果,越來(lái)越多研究人員投入到圖神經(jīng)網(wǎng)絡(luò)的研究中。近期的研究表明,圖神經(jīng)網(wǎng)絡(luò)適用于腦電情緒識(shí)別任務(wù),其性能達(dá)到或超過(guò)了其他類型的方法[15]。為了探索腦電數(shù)據(jù)的圖結(jié)構(gòu)中更深層信息,Zhang 等[16]提出了一種名為GCB-net (graph convolutional broad network)的網(wǎng)絡(luò)模型,并在SEED 和DREAMER 數(shù)據(jù)集上取得了較高準(zhǔn)確率。Zhong 等[17]為了捕獲本地和全局通道間關(guān)系,提出了正則化圖神經(jīng)網(wǎng)絡(luò)(regularized graph neural network,RGNN),該網(wǎng)絡(luò)可以捕獲通道間的局部和全局聯(lián)系,同時(shí)減少噪音的干擾,從而提高了情緒腦信號(hào)識(shí)別的魯棒性。Song 等[18]提出了一種用于情感識(shí)別的動(dòng)態(tài)圖卷積神經(jīng)網(wǎng)絡(luò)(dynamical graph convolutional neural network,DGCNN),對(duì)EEG 信號(hào)通道建圖,網(wǎng)絡(luò)可以動(dòng)態(tài)地改變圖的拓?fù)浣Y(jié)構(gòu),挖掘出EEG電極通道間的功能聯(lián)系。目前,大多數(shù)情緒識(shí)別研究利用卷積神經(jīng)網(wǎng)絡(luò)提取腦電信號(hào)的特征,使用圖神經(jīng)網(wǎng)絡(luò)的研究較少。同時(shí),以往的研究一般利用神經(jīng)科學(xué)的結(jié)論選擇特定的通道進(jìn)行分析,而對(duì)情緒腦電通道間的聯(lián)系性還沒(méi)有深入研究,這導(dǎo)致無(wú)法更好地識(shí)別腦電通道的信號(hào)模式,因此分析腦電通道之間的聯(lián)系是必要的。
針對(duì)以上研究現(xiàn)狀及挑戰(zhàn),本文提出一種基于圖注意力網(wǎng)絡(luò)的腦電情緒識(shí)別方法,此方法將腦電信號(hào)建模為圖數(shù)據(jù)并結(jié)合到圖神經(jīng)網(wǎng)絡(luò)中,能夠?qū)W習(xí)各腦電通道之間的相關(guān)性[19]。本文在3個(gè)數(shù)據(jù)集(SEED、SEED-IV 和DREAMER)中進(jìn)行本方法的驗(yàn)證實(shí)驗(yàn),結(jié)果顯示本方法的識(shí)別準(zhǔn)確率較高、穩(wěn)定性較好。本文的主要工作和貢獻(xiàn)有:
1)所提出的MPGAT 在跨被試情緒腦電信號(hào)分類任務(wù)上表現(xiàn)優(yōu)秀,在SEED、SEEDIV 和DREAMER 數(shù)據(jù)集上測(cè)試結(jié)果表明,MPGAT 達(dá)到當(dāng)前最先進(jìn)模型的性能水平;
2)MPGAT 利用多通路結(jié)構(gòu)來(lái)提取腦電信號(hào)的多尺度時(shí)頻特征,進(jìn)而實(shí)現(xiàn)多通路多尺度腦電信號(hào)特征融合[20];
3)同時(shí)運(yùn)用了圖注意力機(jī)制來(lái)捕捉不同對(duì)象的情緒腦電信號(hào)的時(shí)空域特征,實(shí)現(xiàn)跨被試情緒識(shí)別。
目前,腦電采集方法通常是將若干個(gè)腦電極固定在人頭部或大腦皮層的相應(yīng)位置,由腦電極測(cè)量大腦皮層神經(jīng)活動(dòng)引起的電壓變化。腦電極的分布位置是由一些標(biāo)準(zhǔn)規(guī)定的,比如國(guó)際10/20系統(tǒng)[6]。腦電極的分布位置是固定的且有一定的規(guī)律,所以腦電信號(hào)可以被視為一種經(jīng)典的非歐氏結(jié)構(gòu)化數(shù)據(jù),非常適合用圖數(shù)據(jù)來(lái)表示:
式中:V代表圖 G的節(jié)點(diǎn)(總共有N個(gè)節(jié)點(diǎn));E 是圖G 的無(wú)向邊邊集。腦電信號(hào)的圖表示方法中,往往用一個(gè)節(jié)點(diǎn)代表一個(gè)EEG 電極,根據(jù)腦電節(jié)點(diǎn)的位置由K-近鄰算法(KNN)生成邊集 E,從而可以將腦電信號(hào)表示為一個(gè)無(wú)向圖。
根據(jù)以往的研究,圖卷積神經(jīng)網(wǎng)絡(luò)分為譜方法和空間方法。譜方法利用卷積定理,使信號(hào)映射到譜空間,克服了非歐氏數(shù)據(jù)缺失平移不變性特點(diǎn);空間方法是直接在圖數(shù)據(jù)上進(jìn)行操作,通過(guò)聚合鄰居節(jié)點(diǎn)的信息達(dá)到卷積效果。
圖注意力網(wǎng)絡(luò)(graph attention networks,GAT)是一種基于注意力機(jī)制來(lái)進(jìn)行圖結(jié)構(gòu)數(shù)據(jù)分類的網(wǎng)絡(luò),屬于圖卷積神經(jīng)網(wǎng)絡(luò)的空間方法,其基本思想是利用自注意力策略,通過(guò)聚合鄰居點(diǎn)的信息來(lái)計(jì)算每個(gè)圖節(jié)點(diǎn)在圖數(shù)據(jù)的隱藏表征,并利用注意力機(jī)制定義信息融合函數(shù)[21]。與其他圖網(wǎng)絡(luò)不同的是,圖注意力網(wǎng)絡(luò)是通過(guò)節(jié)點(diǎn)的特征表達(dá)來(lái)計(jì)算關(guān)聯(lián)權(quán)重,而不是根據(jù)邊的信息計(jì)算權(quán)重。
圖注意力網(wǎng)絡(luò)的輸入是一系列節(jié)點(diǎn)的特征向量,可表示為H={h1,h2,···,hN},hi∈RN×F,其中N是節(jié)點(diǎn)數(shù)量,F(xiàn)是特征維數(shù)。圖注意力網(wǎng)絡(luò)使用了一種自注意力機(jī)制a來(lái)計(jì)算輸入特征向量的注意力系數(shù),并進(jìn)行歸一化,具體如式(1)、(2)。
式中:eij是節(jié)點(diǎn)i與節(jié)點(diǎn)j之間的注意力權(quán)重;αij是歸一化后的注意力權(quán)重,表示節(jié)點(diǎn)j對(duì)節(jié)點(diǎn)i的重要程度;h是特征向量;W是權(quán)重矩陣。
由式(1)、(2)可得,圖注意力網(wǎng)絡(luò)計(jì)算節(jié)點(diǎn)i的一階鄰居節(jié)點(diǎn)的注意力系數(shù),注意力權(quán)重和表達(dá)式為
式中:aT代表注意力權(quán)重向量的轉(zhuǎn)置;L(·)表示 LeakyReLU 激活函數(shù)。為了使網(wǎng)絡(luò)獲得更多信息,圖注意力網(wǎng)絡(luò)使用了一種多頭機(jī)制,使得每個(gè)頭捕獲不同的信息,最后將多頭的信息通過(guò)一個(gè)線性層融合在一起,注意力系數(shù)與對(duì)應(yīng)的特征向量組合起來(lái),計(jì)算每個(gè)節(jié)點(diǎn)的最終輸出特征:
式中:W是線性層的權(quán)重矩陣;σ是非線性激活函數(shù);是圖注意力網(wǎng)絡(luò)最終輸出網(wǎng)絡(luò)。
圖注意力網(wǎng)絡(luò)通過(guò)注意力機(jī)制,分配不同權(quán)重給節(jié)點(diǎn),有效地提高了網(wǎng)絡(luò)的表征能力。同時(shí),圖注意力網(wǎng)絡(luò)運(yùn)行非常高效,計(jì)算復(fù)雜度為O(|V|FF′+|E|F′)。F是輸入向量的維度,|V|是節(jié)點(diǎn)數(shù)量,|E|是邊數(shù)量。
在情緒體驗(yàn)期間,大腦的特定部位被激活,呈現(xiàn)出局部特征。研究表明,不同大腦腦區(qū)具有聯(lián)系性。圖網(wǎng)絡(luò)能夠發(fā)掘出不同腦電通道之間的聯(lián)系性,注意力機(jī)制給予節(jié)點(diǎn)不同的權(quán)重,賦予了網(wǎng)絡(luò)更好的表征性能。圖注意力網(wǎng)絡(luò)應(yīng)用到腦電信號(hào)上,能夠得到更能表現(xiàn)情感特征的腦電信號(hào)表征,從而得到更好的分類效果。
本文提出了一種基于圖注意力網(wǎng)絡(luò)的跨被試情緒腦電識(shí)別模型。本文的模型MPGAT 具有多個(gè)通路,目的是運(yùn)用多通路來(lái)提取多個(gè)尺度的時(shí)頻特征和通道聯(lián)系。每個(gè)通路首先對(duì)EEG 信號(hào)進(jìn)行卷積池化,這是為了提取單個(gè)EEG 通道內(nèi)特征信號(hào)的時(shí)頻域特征。而不同的通路由擁有不同的卷積核的卷積層和池化層提取EEG 信號(hào)的全局或局部的時(shí)頻特征,這樣可以挖掘出EEG 信號(hào)在不同尺度的特征數(shù)據(jù)。通路對(duì)EEG 信號(hào)進(jìn)行卷積池化后,再利用圖網(wǎng)絡(luò)去提取通道間的聯(lián)系信息,即情緒體驗(yàn)期間多個(gè)EEG 腦電極之間采集到信號(hào)之間的全局或局部聯(lián)系信息,獲取不同腦區(qū)之間相干程度信息,從而得到更精細(xì)、更準(zhǔn)確的情緒腦電識(shí)別模型。MPGAT 網(wǎng)絡(luò)的總體結(jié)構(gòu)分為3 個(gè)路徑,每個(gè)路徑的組成為卷積池化模塊、圖注意力網(wǎng)絡(luò)層、全連接層和輸出層,如圖1所示。每個(gè)卷積池化模塊包括不同大小卷積核的二維卷積和最大值池化。該模型首先使用二維卷積和最大值池化對(duì)腦電特征數(shù)據(jù)進(jìn)行降采樣和特征提取,將卷積池化的輸出矩陣進(jìn)行形狀重塑成一個(gè)一維特征向量,再將這個(gè)特征向量與EEG 電極圖相結(jié)合,輸入圖注意力網(wǎng)絡(luò)。將3 個(gè)圖注意力網(wǎng)絡(luò)的輸出拼接在一起輸入一個(gè)全連接層,得到情緒預(yù)測(cè)結(jié)果。
圖1 MPGAT 模型框架圖Fig.1 Framework of MPGAT model
1.3.1 卷積池化模塊
MPGAT 第一層由3 個(gè)卷積池化模塊組成,卷積池化模塊只針對(duì)單一EEG 通道,其目的是取單個(gè)腦電信號(hào)通道內(nèi)5 個(gè)頻帶之間的時(shí)頻特征,形式是一個(gè)形狀為5×T的二維矩陣,T為EEG 特征信號(hào)長(zhǎng)度。具體而言,就是將EEG 特征圖數(shù)據(jù)復(fù)制為3 份,同時(shí)輸入到3 個(gè)卷積池化模塊中。其中,模塊主要由二維卷積和最大值池化組成。1×1卷積核的作用是增加腦電信號(hào)的維度。不同的通路使用了不同大小的卷積核和下采樣層,小卷積核能提取鄰接頻帶的關(guān)聯(lián)信息,即提取頻帶間的局部時(shí)頻特征。而大卷積核對(duì)全部5 個(gè)頻帶卷積獲取全局特征,通過(guò)不同通路的卷積池化操作,使得不同通路具有不同的感受野。卷積池化操作后使用非線性激活函數(shù)為網(wǎng)絡(luò)增加非線性特性,可以概括為
式中:x和z分別是輸入和輸出特征矩陣;*代表卷積運(yùn)算;wk是某個(gè)卷積層的權(quán)重矩陣;bk是偏置參數(shù);σ表示非線性激活函數(shù)。
在卷積池化模塊中,激活函數(shù)主要使用ReLU函數(shù):
式中:R(·)代表ReLU 函數(shù)。
由于每個(gè)被試的腦電數(shù)據(jù)分布相差較大,網(wǎng)絡(luò)需要適應(yīng)不同的數(shù)據(jù)分布,導(dǎo)致網(wǎng)絡(luò)訓(xùn)練速度下降和出現(xiàn)過(guò)擬合現(xiàn)象。為了解決這個(gè)問(wèn)題,在卷積之后和使用ReLU 激活函數(shù)之前增加一個(gè)批量歸一化層(batch normalization,BN)。在使用ReLU 激活函數(shù)之后,增加dropout 層,目的是進(jìn)一步防止過(guò)擬合現(xiàn)象以及提高網(wǎng)絡(luò)的泛化能力。
1.3.2 圖注意力層
圖注意力網(wǎng)絡(luò)可以學(xué)習(xí)多通道間的依賴關(guān)系,且不改變腦電特征圖的結(jié)構(gòu)。本模型的圖網(wǎng)絡(luò)層包括3 個(gè)平行的模塊,每個(gè)模塊有兩層圖注意力網(wǎng)絡(luò)。圖網(wǎng)絡(luò)的輸入是一維特征向量,因此需要把卷積池化模塊的二維矩陣輸出重塑為一維特征向量。為了盡可能地學(xué)習(xí)腦電通道間的依賴關(guān)系,需要把卷積池化模塊的二維矩陣輸出重塑為一維特征向量。
1.3.3 全連接線性層
將圖注意力網(wǎng)絡(luò)的輸出特征hk拼接在一起,就得到了全連接層的輸入向量z:
式中:C表示向量拼接函數(shù)。
全連接層后使用LogSoftMax 函數(shù)得出最后的情緒腦電預(yù)測(cè)結(jié)果,w和b表示權(quán)重矩陣和偏置項(xiàng):
式中:P代表預(yù)測(cè)結(jié)果;L(·)代表LogSoftmax 函數(shù)。
SEED 數(shù)據(jù)集是上海交通大學(xué)BCMI 實(shí)驗(yàn)室采集的情緒腦電數(shù)據(jù)集,全稱為“SJTU Emotion EEG Dataset”。數(shù)據(jù)集中總共包含15 位受試者針對(duì)15 個(gè)實(shí)驗(yàn)的62 通道腦電信號(hào)。研究人員準(zhǔn)備了15 個(gè)時(shí)長(zhǎng)為4 min 左右的電影片段,這些電影片段被分為3 個(gè)類別,分別是消極、中性和積極。積極類型的影片是喜劇,觀看時(shí)會(huì)激發(fā)被試者的快樂(lè)等積極情緒;而消極類型的影片是天災(zāi)人禍類型的悲劇電影,會(huì)令被試者激發(fā)悲傷等消極情緒;中性電影是世界遺產(chǎn)紀(jì)錄片,不會(huì)激發(fā)被試的積極或者消極情感。受試者被要求觀看這些電影片段,在每個(gè)片段播放完畢后,受試者有45 s 的時(shí)間進(jìn)行自我評(píng)價(jià)和心情平復(fù)。
SEED 數(shù)據(jù)集所提供的腦電數(shù)據(jù)為62 通道的腦電數(shù)據(jù),每個(gè)被試者都會(huì)進(jìn)行3 輪試驗(yàn),每次試驗(yàn)相隔1~2 周時(shí)間,整個(gè)數(shù)據(jù)集共包括45 次試驗(yàn)的數(shù)據(jù)。每個(gè)試驗(yàn)的數(shù)據(jù)都進(jìn)行了預(yù)處理,原始數(shù)據(jù)被降采樣為200 Hz,且經(jīng)帶通濾波器處理后保留0~75 Hz 的數(shù)據(jù)。
SEED-IV 數(shù)據(jù)集同樣是BCMI 實(shí)驗(yàn)室采集的情緒腦電數(shù)據(jù)集。與SEED 數(shù)據(jù)集不同的是,研究人員準(zhǔn)備了72 個(gè)電影片段,分為4 個(gè)類別,分別是開心、傷心、恐懼和中性。每個(gè)被試者接受了3 次實(shí)驗(yàn),每次觀看24 個(gè)電影片段。試驗(yàn)期間,被試者的腦電信號(hào)和眼動(dòng)信號(hào)分別被62 通道的ESI NeuroScan 系統(tǒng)和SMI 記錄儀記錄。
DREAMER 數(shù)據(jù)集是一個(gè)常用的情緒識(shí)別數(shù)據(jù)集。研究人員讓被試者觀看剪輯過(guò)的電影片段,以誘發(fā)被試者的情緒,并使用14 通道的腦電采集設(shè)備記錄EEG 數(shù)據(jù)。每段影片播放完畢后,研究人員根據(jù)被試者的評(píng)價(jià)使用效價(jià)、喚醒、支配3 個(gè)維度對(duì)情緒進(jìn)行分類。數(shù)據(jù)集包含了快樂(lè)、興奮、幸福、平靜、憤怒、厭惡、恐懼、悲傷和驚訝9 種情緒誘發(fā)影片各2 段,一共18 個(gè)電影片段。
對(duì)于SEED 和SEED-IV 數(shù)據(jù)集,腦電數(shù)據(jù)的微分熵特征通過(guò)短時(shí)傅里葉變換和不重疊的漢明窗口(為1 s)計(jì)算得出,并在5 個(gè)頻段中求平均值。微分熵的公式為
為了簡(jiǎn)化計(jì)算,假設(shè)腦電信號(hào)遵循高斯分布為x~N(μ,σ2),微分熵的計(jì)算可以簡(jiǎn)化為
在DREAMER 數(shù)據(jù)集中,本文使用1~75 Hz帶通濾波器來(lái)減少EEG 信號(hào)的噪具體地。具體地,通過(guò)使用短期傅里葉變換(short-time Fourier transform,STFT)從EEG 信號(hào)中獲得theta 頻帶(4~7 Hz)、alpha 頻帶(8~13 Hz)、beta 頻帶(14~30 Hz)和gamma 頻帶(>31 Hz)。特征提取方面,本文假設(shè)腦電信號(hào)遵循高斯分布,根據(jù)式(11)、(12)可以得到DREAMER 數(shù)據(jù)集的微分熵特征。
本文實(shí)驗(yàn)的軟硬件環(huán)境為:Ubuntu 18.04 操作系統(tǒng),模型搭建框架為Pytorch 1.7.0 和Pytorchgeometric 1.7.0,使用一張2080TI 顯卡加速訓(xùn)練任務(wù),CUDA 版本為11.2,內(nèi)存64 GB,顯存11 GB。
本文使用交叉驗(yàn)證方法評(píng)估本文提出的方法,具體方法是使用其中一個(gè)被試者的腦電數(shù)據(jù)作為測(cè)試集,其他被試者的腦電數(shù)據(jù)作為訓(xùn)練集。因?yàn)镾EED 和SEED-IV 的被試數(shù)量同樣是15,模型訓(xùn)練分別在SEED 和SEED-IV 上進(jìn)行15 次,每一次的測(cè)試集數(shù)據(jù)為其中一個(gè)被試者的腦電數(shù)據(jù),保證每個(gè)被試者的數(shù)據(jù)都參與了測(cè)試集,而在DREAMER 數(shù)據(jù)集上被試者數(shù)量為23,同樣使用留一法進(jìn)行交叉驗(yàn)證實(shí)驗(yàn)。本文實(shí)驗(yàn)利用了SEED 和SEED-IV 數(shù)據(jù)集中的預(yù)處理特征數(shù)據(jù)進(jìn)行情緒識(shí)別實(shí)驗(yàn),而在DREAMER 數(shù)據(jù)集上使用微分熵特征進(jìn)行實(shí)驗(yàn)。本文的實(shí)驗(yàn)采用了Adam 優(yōu)化器加速模型的訓(xùn)練過(guò)程[22],batch size為16,學(xué)習(xí)率為0.000 01。同時(shí),使用Dropout 算法抑制模型的過(guò)擬合現(xiàn)象。在訓(xùn)練過(guò)程中,訓(xùn)練集的評(píng)價(jià)指標(biāo)為AUC 參數(shù)達(dá)到0.999 以上時(shí)停止訓(xùn)練。
表1 給出了在SEED 數(shù)據(jù)集和SEED-IV 數(shù)據(jù)集中,本文使用的MPGAT 和其他論文模型的平均準(zhǔn)確率和標(biāo)準(zhǔn)差。其中,傳統(tǒng)機(jī)器學(xué)習(xí)方法可以被運(yùn)用在情緒分類任務(wù)上,Collobert 等[23]提出了支持向量機(jī)(supported vector machine,SVM)和轉(zhuǎn)導(dǎo)支持向量機(jī)T-SVM;Pan 等[24]提出遷移成分分析(transfer component analysis,TCA)。深度學(xué)習(xí)方法也被運(yùn)用在情緒分類中,類似的研究有:Song等[18]使用動(dòng)態(tài)圖卷積神經(jīng)網(wǎng)絡(luò),能夠動(dòng)態(tài)改變圖信號(hào),獲得更佳的表征;Li 等[11]使用深度適應(yīng)網(wǎng)絡(luò)進(jìn)行跨被試情緒識(shí)別;Li 等[12]為了模擬兩個(gè)半球腦電信號(hào)之間的不對(duì)稱差異,提出了一種新穎的雙半球差異模型(BiHDM)用于腦電情緒識(shí)別。
表1 不同模型在SEED 和SEED-IV 數(shù)據(jù)集上的平均準(zhǔn)確率和標(biāo)準(zhǔn)差Table 1 Average accuracy and standard deviation of different models on the SEED and SEED-IV datasets %
作為對(duì)比,本文使用GCN[24]、GAT[21]與MPGAT在SEED 和SEED-IV 數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。從表1 中可得,本文提出的MPGAT 在SEED 數(shù)據(jù)集上平均準(zhǔn)確率為86.03%,方差為7.40,在SEED-IV數(shù)據(jù)集上平均準(zhǔn)確率為72.71%,方差為4.38。同時(shí),在SEED 數(shù)據(jù)集中,GCN 的平均準(zhǔn)確率比MPGAT低1.08%,GAT 的平均準(zhǔn)確率比MPGAT 低0.45%。在SEEDIV 數(shù)據(jù)集中,MPGAT 的平均準(zhǔn)確率比GAT 和GCN 分別高2.38%和0.38%。MPGAT 在SEED 和SEEDIV 數(shù)據(jù)集上的標(biāo)準(zhǔn)差在所有模型中較低,說(shuō)明MPGAT 在執(zhí)行情緒識(shí)別任務(wù)上具有良好的穩(wěn)定性。
為了驗(yàn)證MPGAT 的穩(wěn)定性,本文利用交叉驗(yàn)證法進(jìn)行了30 次跨被試者情緒分類實(shí)驗(yàn)。如圖2所示,由于不同被試者個(gè)體之間的情緒腦電差異較大,導(dǎo)致跨被試情緒識(shí)別結(jié)果準(zhǔn)確率波動(dòng)較大。從圖2 可以得出,被試序號(hào)3、6、9、11、14 的平均準(zhǔn)確率顯著高于總平均準(zhǔn)確率,而被試序號(hào)7、8、12 的平均準(zhǔn)確率低于80%??傮w來(lái)說(shuō),MPGAT 的情緒識(shí)別平均準(zhǔn)確率達(dá)到了最先進(jìn)模型的準(zhǔn)確率,由此證明本文提出的基于圖注意力網(wǎng)絡(luò)的情緒識(shí)別方法是有效的。
圖2 MPGAT 模型對(duì)于SEED 數(shù)據(jù)集每個(gè)被試的實(shí)驗(yàn)結(jié)果Fig.2 Experimental results of the MPGAT model for each subject in the SEED dataset
表2 給出了在DREAMER 數(shù)據(jù)集上MPGAT和其他論文模型的平均準(zhǔn)確率和標(biāo)準(zhǔn)差。其中,Zheng 等[26]使用SVM 和深度信念網(wǎng)絡(luò)(deep belief networks,DBN)進(jìn)行情緒分類任務(wù)。SVM 和DBN 模型的效價(jià)與喚醒的平均準(zhǔn)確率分別為56.57%和58.91%,56.43%和58.94%。實(shí)驗(yàn)結(jié)果表明,MPGAT 在DREAMER 數(shù)據(jù)集上的效價(jià)與喚醒的平均準(zhǔn)確率分別為76.35%、75.46%,在喚醒維度上是所有模型最高的。因此,MPGAT 在DREAMER 數(shù)據(jù)集上具有良好的識(shí)別表現(xiàn),同時(shí)也進(jìn)一步驗(yàn)證了MPGAT 的先進(jìn)性和可行性。
表2 不同模型在DREAMER 數(shù)據(jù)集上的平均準(zhǔn)確率和標(biāo)準(zhǔn)差Table 2 Average accuracy and standard of different models on the DREAMER datasets %
MPGAT 的特點(diǎn)是具有多條通路提取EEG 特征信號(hào)的信息,不同通路的卷積池化模塊具有不同的卷積核。為了驗(yàn)證通路對(duì)實(shí)驗(yàn)結(jié)果的影響,本文在SEED 數(shù)據(jù)集進(jìn)行了消融實(shí)驗(yàn)。3 個(gè)通路中缺失通路一時(shí)準(zhǔn)確率為85.42%,缺失通路二時(shí)準(zhǔn)確率為85.36%,缺失通路三時(shí)準(zhǔn)確率為85.67%,分別低于具有3 個(gè)通路的MPGAT 模型0.61%、0.67%、0.36%。這就表明,3 個(gè)通路能夠多尺度地獲取信息,把3 個(gè)通路的輸出拼接起來(lái),再通過(guò)線性層,能夠?qū)η榫w識(shí)別任務(wù)的準(zhǔn)確率產(chǎn)生增益。
原始情緒腦電是非平穩(wěn)、非線性的隨機(jī)信號(hào),數(shù)據(jù)量冗余較大,且信噪比較低,而腦電信號(hào)特征參數(shù)如功率譜密度(power spectral density,PSD)、微分熵等更能代表腦電信號(hào)在某些方面的突出特征,因此情緒分類任務(wù)一般使用腦電信號(hào)的特征進(jìn)行分類。以往的研究表明,使用不同特征會(huì)對(duì)情緒識(shí)別結(jié)果產(chǎn)生顯著影響。如圖3 所示,RASM(rational asymmetry)和DASM(differential asymmetry)是由DE 特征計(jì)算得出的,旨在表達(dá)不對(duì)稱性[9]:
圖3 MPGAT 在SEED 數(shù)據(jù)集不同特征的實(shí)驗(yàn)結(jié)果Fig.3 Experimental results of different features of the MPGAT in the SEED dataset
式中:D代表DASM;R代表RASM。
本文在SEED 數(shù)據(jù)集上分別使用DE、PSD、ASM、DASM 以及RASM 特征進(jìn)行跨被試情緒識(shí)別任務(wù),結(jié)果顯示DE 的分類結(jié)果顯著優(yōu)于其他特征,與以往的研究基本一致。另外,PSD、ASM、DASM、RASM 特征的平均準(zhǔn)確率分別為77.56%、8.43%、77.33%、78.49%,均低于微分熵DE 特征。
本文提出的EEG 建圖算法能夠利用不同EEG電極的情緒腦電數(shù)據(jù)的聯(lián)系。EEG 圖的連通性也會(huì)對(duì)模型準(zhǔn)確率產(chǎn)生一定的影響,而本文利用k近鄰算法作為對(duì)EEG 電極建模的算法。如圖4所示,針對(duì)k近鄰算法的不同k值對(duì)模型的影響進(jìn)行了實(shí)驗(yàn)。其中,k值為3 時(shí)模型準(zhǔn)確率達(dá)到最高為86.03%,k值為4、5、10 的準(zhǔn)確率分別為85.81%、85.32%、84.52%,平均準(zhǔn)確率隨著k值的增大而減小。由此可知,圖連通性越大,準(zhǔn)確率并不會(huì)相應(yīng)提高,反而圖注意網(wǎng)絡(luò)的情緒腦電表征能力會(huì)得到削弱。當(dāng)k=62 時(shí),因?yàn)殡姌O數(shù)為62,此時(shí)EEG 圖為全連接圖,每個(gè)節(jié)點(diǎn)都可以獲取其他所有節(jié)點(diǎn)的信息,但是此時(shí)準(zhǔn)確率比k值為3 時(shí)的準(zhǔn)確率低0.55%。圖5 是模型訓(xùn)練結(jié)束后特征可視化得到的腦電地形圖。從圖5 中可得,積極情緒中權(quán)重較大的電極分別是P8、FZ、FC1、CZ、PZ。激活電極主要分布在腦部頂葉所在的位置,同時(shí)額葉也有一定程度的激活。自然情緒中權(quán)重較大的電極分別是FPZ、F3、FT7、C2、P5,激活電極的分布較為分散,額葉有較為明顯的激活。消極情緒權(quán)重較大的電極分別是FC5、CP1、PO3、O1、P6,激活電極分布在腦部枕葉所在的位置。
圖4 不同k 值的KNN 算法建圖在SEED 數(shù)據(jù)集實(shí)驗(yàn)結(jié)果Fig.4 KNN algorithm mapping experiment results using different k values in the SEED dataset
圖5 MPGAT 模型的特征向量可視化圖Fig.5 Feature vector visualization diagram of MPGAT model
本文提出了一種基于圖注意力網(wǎng)絡(luò)的跨被試腦電情緒識(shí)別方法。本研究根據(jù)腦電極位置將腦電信號(hào)建模為圖數(shù)據(jù),輸入圖注意力網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練并得出結(jié)果。本文提出的MPGAT 通過(guò)融合多個(gè)平行的圖注意力模塊的輸出特征向量,以捕捉不同腦區(qū)之間的局部和全局特征。與其他模型準(zhǔn)確率相比,MPGAT 具有較高的準(zhǔn)確率和較好的穩(wěn)定性,達(dá)到了最先進(jìn)模型的水平。未來(lái),我們將改進(jìn)MPGAT,使其計(jì)算復(fù)雜度降低同時(shí)準(zhǔn)確率得到提升。本文的模型有望為情緒認(rèn)知科學(xué)研究與情緒腦機(jī)接口系統(tǒng)提供新的技術(shù)手段。