顏勇君,龍柏睿,張肖霞,童煉
1.湖南工業(yè)大學計算機學院,湖南 株洲 412007;2.廣東工業(yè)大學計算機學院,廣東 廣州 510006;3.長沙學院計算機科學與工程學院,湖南 長沙 410022
情緒在我們日常生活中扮演著重要的角色,因此在建立人機情感互動方面,情緒識別變得越來越重要[1]。近年來,腦電波受到了廣泛的研究,因為其可以提供一種簡單、便攜和易于使用的情緒識別解決方案[2]。在腦機接口(BCI)中,情緒識別是計算機了解人類狀態(tài)的一項重要任務[3]。深度學習作為一種自動學習特征的方法,可以自動在數(shù)據(jù)中提取特征,并對網(wǎng)絡學習到的特征進行進一步分類或回歸[4]。在情緒識別任務中,深度學習方法包括卷積神經(jīng)網(wǎng)絡(CNN)、長短時記憶網(wǎng)絡(LSTM)、門控循環(huán)單元(GRU)等,這些方法不需要人工進行特征提取,可以適應復雜的任務和大量的數(shù)據(jù)[5]。目前,深度學習在基于腦電信號的情緒識別領域中展現(xiàn)出了很好的效果[6]。
本研究的貢獻在于驗證了一種緊湊的卷積神經(jīng)網(wǎng)絡EEGNet 在用于處理腦電信號時具有更好的性能和更少的參數(shù)量。實驗通過情緒識別相關腦電數(shù)據(jù)集的選取、腦電信號原始數(shù)據(jù)的預處理、超參數(shù)的優(yōu)化訓練、模型的訓練等步驟實現(xiàn)了對常用的腦電情緒識別數(shù)據(jù)集SEED 和SEED-IV 的情緒分類,在三分類和四分類的任務上分別達到了85.3%和73.3%的準確率,表明了EEGNet 在處理情緒相關腦電信號方面的可行性及有效性。
實驗數(shù)據(jù)集均由上海交通大學的BCMI 實驗室提供。實驗共計15 名受試者,其中有7 名男性和8 名女性,平均年齡為23 歲。對每個參與者在不同的時間里進行了3 次實驗。數(shù)據(jù)集中包含對EEG原始信號降采樣到200Hz,采用0—75Hz 帶通濾波器的預處理原始腦電數(shù)據(jù),以及通過人工特征提取所得到的如差分不對稱(DASM)和有理不對稱(RASM)等特征數(shù)據(jù)。上述特征適用于情緒分類的任務,其中DASM 是指不同腦電信號間的差異,而RASM 是指不同腦電信號間的比率[7]。SEED 數(shù)據(jù)集提供的情緒類別為3 種,分別為積極、中性和消極;SEED-IV 數(shù)據(jù)集提供的情緒類別為4 種,分別為恐懼、悲傷、中性和喜悅。數(shù)據(jù)集相關概要信息如下表1 所示。
表1 數(shù)據(jù)集概要
1.1.1 SEED 數(shù)據(jù)集
實驗人員在6 部中文電影中選取了15 個電影片段的剪輯作為實驗中的刺激,這些電影片段數(shù)量均等地對應上述3 種情緒,每段影片剪輯無特定說明且持續(xù)時間在4 min 左右,經(jīng)過精心編輯,以保持每段剪輯能產(chǎn)生連貫的情感,并最大化情感含義[8]。
每次實驗的過程中,受試者需要將15 個實驗片段全部看完,因此每次實驗均有15 個實驗樣本,受試者在觀看每段影片剪輯前有5 s 的提示時間,觀看完畢后有45 s 的自我評估時間和15 s 的休息時間。通過精心的實驗順序安排,確保了同一情感對應的影片不會連續(xù)顯示。
1.1.2 SEED-IV 數(shù)據(jù)集
實驗人員精心選取了72 個電影片段的剪輯作為刺激,將其劃分為3 組,以每組24 個電影片段的方式進行了實驗,這些電影片段數(shù)量均等地分別對應上述4 種情緒,每段影片無特殊說明且持續(xù)時間為2 min 左右[9]。
每次實驗的過程中,受試者需要將24 個實驗片段全部看完,因此每次實驗均有24 個實驗樣本,受試者在觀看每段影片剪輯前有5 s 的提示時間,觀看完畢后有45 s 的自我評估時間和15 s 的休息時間。通過精心的實驗順序安排,確保了同一情感對應的影片不會在實驗中連續(xù)顯示。
1.2.1 在SEED 數(shù)據(jù)集上的預處理
在SEED 數(shù)據(jù)集中,經(jīng)預處理的腦電信號數(shù)據(jù)的采樣率為200Hz,即每秒的采樣點數(shù)為200,受試者所觀看的電影片段長度為3—4 min,故每段影片片段所對應采集的腦電信號數(shù)據(jù)樣本的采樣點數(shù)不盡相同。為確保盡可能地保留腦電信號原始數(shù)據(jù)中的時序特征,預處理時在15 個電影片段對應的實驗樣本中,以采樣點數(shù)最少的樣本為基準,使用數(shù)據(jù)裁剪的方法,對所有樣本的采樣點數(shù)進行歸一化處理,最終所得的樣本形狀為(62,37 001)。其中,62 代表的是數(shù)據(jù)采集的刺激實驗中的62 個腦電極,37 001代表的是歸一化處理對象樣本中采樣點數(shù)的最小值。
1.2.2 在SEED-IV 數(shù)據(jù)集上的預處理
在SEED-IV 數(shù)據(jù)集中,經(jīng)預處理的腦電信號數(shù)據(jù)的采樣率同樣為200Hz,受試者所觀看的電影片段長度為2—4 min,相比于SEED數(shù)據(jù)集,各影片片段所對應采集的腦電信號數(shù)據(jù)樣本的采樣點數(shù)差異更大。為盡可能地保留腦電信號原始數(shù)據(jù)中的時序特征的同時避免破壞數(shù)據(jù)本身的特征,本次實驗沒有使用插值法對腦電信號數(shù)據(jù)進行處理,而是在丟棄了部分采樣點數(shù)過少的樣本后對剩余的樣本進行了裁剪處理,裁剪方法與處理SEED 數(shù)據(jù)集所使用的方法相一致。經(jīng)歸一化后所得的樣本形狀為(62,30 601)。其中,62 為實驗所使用的腦電極數(shù),30 601 為歸一化處理對象樣本中采樣點數(shù)的最小值。
EEGNet 是一種緊湊的卷積神經(jīng)網(wǎng)絡架構,可用于基于EEG 的多種腦機接口范式[10]。EEGNet可在數(shù)據(jù)量非常有限的情況下進行訓練,并且可以產(chǎn)生神經(jīng)心理學可解釋的特征。
所謂卷積操作,本質是對輸入數(shù)據(jù)進行加權求和,其中的權重由卷積運算中的卷積核控制,并且在訓練過程中,卷積核中的數(shù)值也會通過計算梯度進一步進行調整。整個卷積神經(jīng)網(wǎng)絡可以抽象為如下所示的公式,其中f所代表的是特征圖,M和K分別代表卷積核的深度和大小,w和b代表權重和偏執(zhí),σ代表的是激活函數(shù)。其中,上下標中的l代表卷積神經(jīng)網(wǎng)絡的層數(shù),i和j分別代表行數(shù)和列數(shù),k和m為數(shù)量序號。
EEGNet 的總體網(wǎng)絡結構如表2 所示,網(wǎng)絡中的卷積層均為一維卷積,網(wǎng)絡結構圖中使用二維卷積僅為便于軟件實現(xiàn)。EEGNet 接受形狀為(C,T)的數(shù)據(jù)輸入,其中C為腦電信號的通道數(shù),T為腦電信號的采樣點數(shù),數(shù)據(jù)經(jīng)過升維操作后以(1,C,T)的格式輸入網(wǎng)絡。
表2 EEGNet 網(wǎng)絡結構
EEGNet 網(wǎng)絡中先后使用了深度卷積和可分離卷積對輸入數(shù)據(jù)進行卷積操作,如圖1 所示[1],相比于常規(guī)的卷積操作,由于深度卷積僅在數(shù)據(jù)的各通道內進行卷積操作,而非對數(shù)據(jù)的每個位置都進行卷積,在腦電信號的處理中,這樣的卷積有利于對各通道內腦電數(shù)據(jù)時序信息的提取,因此在EEGNet 中深度卷積核又被稱為時序濾波器,其長度在EEGNet 中被定義為F1,是可針對數(shù)據(jù)集中數(shù)據(jù)的采樣率進行自定義的超參數(shù)之一。而后續(xù)的可分離卷積則是深度卷積和逐點卷積的結合,以同樣的方式進一步降低模型的參數(shù)量,使EEGNet 成為一個緊湊而輕量化的卷積神經(jīng)網(wǎng)絡。
圖1 EEGNet 網(wǎng)絡中的卷積操作
深度卷積(Depth-wise Convolution)是一種逐通道卷積的卷積方式,每個通道僅被一個卷積核進行卷積,其卷積核形狀為(S,1,C),其中S為卷積核的長度,1 代表輸入數(shù)據(jù)維度為一維,C表示輸出數(shù)據(jù)被拆分的通道數(shù),因此經(jīng)過卷積操作后所得到的特征圖(Feature Map)的數(shù)量即為變量C所定義的通道數(shù),而傳統(tǒng)卷積操作后往往會對特征圖進行擴展,訓練的參數(shù)量也更大。但由于深度卷積僅在每個通道內進行卷積操作,而忽略了不同通道在空間上的特征信息,因此需要在逐通道卷積操作后進行逐點卷積,將所得到的特征圖重新組合生成新的特征圖。
可分離卷積(Separable Convolution)本質上是一種逐通道卷積和逐點卷積(Point-wise Convolution)相結合的卷積方式。其中的逐點卷積的方式與傳統(tǒng)卷積十分相似,其卷積核形狀為(1,1),此時網(wǎng)絡上一層輸出的每一個特征圖的格式為(1,T//4),其中T為最初輸入數(shù)據(jù)的采樣點數(shù)。因此,逐點卷積對每一個特征圖都進行了單獨的卷積操作,經(jīng)過卷積操作后所得到的特征圖的數(shù)量即為卷積核的數(shù)量,該數(shù)值在EEGNet 中被定義為F2,可作為網(wǎng)絡中的超參數(shù)進行修改,本層卷積在深度方向上對其進行了加權組合,進而對不同通道間在空間維度上的特征進行提取。普通卷積和可分離卷積的區(qū)別如圖2 所示。
圖2 普通卷積和可分離卷積的區(qū)別
在每個卷積層后,EEGNet 使用了批量標準化(Batch Normalization)實現(xiàn)對輸入數(shù)據(jù)的正則化操作,使輸入的數(shù)據(jù)在深度學習優(yōu)化過程中的分布相對穩(wěn)定,即網(wǎng)絡中每一層輸入數(shù)據(jù)的均值和方差都保持在一定范圍內,因此下一層網(wǎng)絡不必不斷去適應底層網(wǎng)絡輸入的變化,從而實現(xiàn)網(wǎng)絡內的層間解耦,允許每一層進行獨立學習,提高了整個網(wǎng)絡的學習速度,減少權重較大的特征淹沒權重較小的特征這一情況的出現(xiàn),弱化了網(wǎng)絡模型對內部參數(shù)的敏感性,有效提升網(wǎng)絡模型在特征分布不規(guī)律的數(shù)據(jù)上的收斂效果。
輸入數(shù)據(jù)在經(jīng)過批量標準化過后,將通過ELU(Exponential Linear Unit)激活函數(shù),為網(wǎng)絡模型添加更多的非線性元素,使網(wǎng)絡能在非線性的關系中也能有更好的擬合效果。相比于其他的線性非飽和函數(shù),如ReLU 函數(shù)及其變體函數(shù),ELU 函數(shù)對于所有負值輸入經(jīng)過激活后都能得到非零的輸出,因此使用ELU 函數(shù)時不存在“神經(jīng)元死亡”的問題,其在提升網(wǎng)絡擬合能力的同時也有效地避免了梯度爆炸和梯度消失問題的出現(xiàn)。ELU 激活函數(shù)的公式如下:
激活層之后的是池化層(Pooling),池化的目的是對數(shù)據(jù)進行降維操作,去除了數(shù)據(jù)中的冗余信息,降低了網(wǎng)絡中計算的參數(shù)量,能在一定程度上防止過擬合現(xiàn)象的發(fā)生。EEGNet 網(wǎng)絡中使用了平均池化(Average Pooling)來對數(shù)據(jù)進行處理,即對池化核對應的數(shù)據(jù)進行加權平均,保留了卷積后數(shù)據(jù)的整體特征。隨后數(shù)據(jù)將通過Dropout 操作訓練期間對網(wǎng)絡中的輸入進行隨機變換,依據(jù)一定的概率將部分神經(jīng)元的輸出值設置為0,這部分被拋棄的神經(jīng)元將不會參與參數(shù)前向傳播和反向傳播的過程,防止神經(jīng)元之間產(chǎn)生共適應,減輕網(wǎng)絡在訓練過程中的過擬合問題,增加了網(wǎng)絡模型的多樣性和健壯性。
輸入數(shù)據(jù)分別經(jīng)過兩層特殊卷積以及上述處理后將通過全連接層進行特征空間變換,數(shù)據(jù)最終被壓縮成模長為輸出維度數(shù)的一維向量,而后該向量將經(jīng)過Softmax 層進行激活,將神經(jīng)網(wǎng)絡的輸出進行歸一化處理。其中Softmax 激活函數(shù)的公式如下所示:
在該函數(shù)中,分子通過自然指數(shù)函數(shù)將輸入數(shù)據(jù)中實數(shù)映射到0 到正無窮的范圍上,分母則將輸入數(shù)據(jù)中經(jīng)過映射的實數(shù)求和,進而使得輸入數(shù)據(jù)被轉換為不同情緒類別中的概率分布。
EEGNet 作為一種緊湊的卷積神經(jīng)網(wǎng)絡,目前已成功地應用于涉及不同類型EEG 信號的多個任務中,例如P300 視覺誘發(fā)電位、錯誤相關負性反應(ERN)和運動節(jié)律(SMR)等,在多個腦電相關的數(shù)據(jù)集上展現(xiàn)出了良好的泛化能力。
得益于深度卷積層的應用,EEGNet 在處理數(shù)據(jù)的時序特征上有著更優(yōu)秀的能力,因此,EEGNet對無特征工程的原始腦電數(shù)據(jù)有著出色的分類效果。傳統(tǒng)的卷積神經(jīng)網(wǎng)絡在處理原始腦電特征時,往往忽略了腦電信號中的時序信息,而對不同通道在空間維度上的特征更加敏感,因此在包含時序特征的原始腦電數(shù)據(jù)上的分類效果相對較差。
針對SEED 數(shù)據(jù)集中經(jīng)人工提取的特征數(shù)據(jù),如腦電數(shù)據(jù)的微分熵特征,同時嘗試使用支持向量機(SVM)這一傳統(tǒng)的分類方法對數(shù)據(jù)直接進行分類。
支持向量機(Support Vector Machine,SVM)是一類按監(jiān)督學習方式對數(shù)據(jù)進行二元分類的廣義線性分類器,該算法的決策邊界是對學習樣本進行求解所得的最大邊距超平面,進而通過該決策邊界進行分類。該算法的基本思想是在樣本數(shù)據(jù)的特征空間上找到一個最優(yōu)超平面,使該超平面能夠將不同類別的樣本分開,并且使不同類別之間的間隔最大。SVM 通常用于二元分類問題,也可以推廣至多元分類的問題,在多元分類的情況下,通常將問題分解為多個二元分類的子問題,再利用SVM 進行分類。
但支持向量機作為傳統(tǒng)的分類方法仍然存在著一些局限性,例如當數(shù)據(jù)噪聲較大或實驗數(shù)據(jù)分布為非線性的情況時,其分類效果往往不夠理想。傳統(tǒng)機器學習方法需要手動進行特征提取和選擇,并對數(shù)據(jù)進行歸一化、縮放等處理,這需要領域專業(yè)知識和經(jīng)驗。而EEGNet 使用卷積神經(jīng)網(wǎng)絡,可以自動提取特征,并且對于不同尺度、頻率的信號具有較好的適應性。
使用EEGNet 進行分類任務時,理解網(wǎng)絡所學到的特征對于保證模型的可靠性至關重要。模型所產(chǎn)生的分類結果需要確保不是由于數(shù)據(jù)中的噪聲或異常值引起的,而是由相關特征所驅動的。
EEGNet 通過在深度卷積網(wǎng)絡中使用專門的濾波器和一維卷積,可以提取到更有意義和區(qū)分性的特征,因此可以更好地進行情緒分類任務。另外,EEGNet采用的卷積方式較傳統(tǒng)的CNN更加局部化,可以更好地保留信號的空間特征,這樣在處理EEG信號時可以更好地保留空間信息,從而可以更好地識別不同的腦電波形式,有助于提高情緒分類的準確性。另外,由于EEGNet 采用的是一維卷積,在網(wǎng)絡的輸入輸出上易于解釋。在輸入方面,EEGNet 中的每個特征通道都可以被視為對應于不同電極對應采集的腦電信號。在輸出方面,EEGNet 的每個類別都可以被視為對應于腦電信號的不同情感狀態(tài)。
事件相關電位(ERP)是一種腦電生理學的測量方法,用于研究特定的感知、認知或運動事件對大腦電活動的影響。事件相關電位是通過將大量的腦電信號進行平均來獲得的,以消除隨機噪聲和增強事件相關的電位。事件相關電位可以提供有關大腦對特定事件的反應時間和神經(jīng)機制的信息。常見的事件相關電位包括P300、N400 和MMN 等。目前,EEGNet 已經(jīng)在基于事件相關電位(ERP)的腦電信號數(shù)據(jù)集上得到了較為廣泛的應用。
EEGNet 在使用P300 信號的數(shù)據(jù)集上進行了被試者間分類(Cross-Subject Classification)的實驗,即利用數(shù)據(jù)集中的一組被試的數(shù)據(jù)來訓練EEGNet模型,并在另一個不同的被試組的數(shù)據(jù)集上進行分類預測。該數(shù)據(jù)集是通過對受試者進行重復的“非目標性”視覺刺激所收集的基于事件相關電位的腦電數(shù)據(jù)集,反映了大腦對特定刺激的認知和注意的過程。在最終的測試中,EEGNet 的預訓練模型在該數(shù)據(jù)集上的二分類準確率達到了90%左右。
上述實驗充分體現(xiàn)了EEGNet 在基于事件相關電位的腦電信號上出色的泛化能力。事件相關電位的腦電數(shù)據(jù)是通過刺激和響應測量而產(chǎn)生的,而非通過受試者的自由思考和行為表現(xiàn)而獲取,在數(shù)據(jù)收集的過程中,實驗條件和刺激都能得到有效的控制,以獲得可重復的結果。同時,事件相關電位是在刺激后幾毫秒至幾百毫秒內形成的,因此具有非常高的時間分辨率,有效地捕捉了腦電活動的快速變化及其時域特征。
在情緒識別領域,事件相關電位同樣是一種常用的腦電信號測量方法,SEED 和SEED-IV 數(shù)據(jù)集即使用影片片段作為視覺刺激所收集的事件相關電位的腦電數(shù)據(jù)集,適合用于EEGNet 的訓練與測試。
3.1.1 在SEED 數(shù)據(jù)集上的實驗
針對SEED 數(shù)據(jù)集中經(jīng)特征工程處理后的數(shù)據(jù),進行了支持向量機(SVM)這一傳統(tǒng)的機器學習分類方法的分類實驗。這部分數(shù)據(jù)由15 位受試者經(jīng)3 次實驗得來,共計45 組實驗數(shù)據(jù),每組實驗數(shù)據(jù)中包含15 個腦電數(shù)據(jù)的特征樣本,其數(shù)據(jù)格式為(62,T),其中T為該數(shù)據(jù)對應影片刺激的時長,單位為s。
在支持向量聚類(SVC)中進行了基于RBF核函數(shù)的數(shù)據(jù)分類實驗,其基本思想是將輸入空間映射到一個高維的特征空間中,使得在該特征空間中可以更容易地進行線性分類。具體來說,RBF 核函數(shù)可以使低維空間中的數(shù)據(jù)映射到無窮維的空間中,從而可以捕捉到更多的數(shù)據(jù)信息。在RBF 核函數(shù)中,每個樣本點都被看作一個基函數(shù),而它們之間的距離則用高斯函數(shù)進行計算。因此樣本點之間的相似性就可以通過它們在高斯函數(shù)下的距離來度量,距離越近的點相似度越高。
同時選取了基于線性動態(tài)系統(tǒng)(LDS)方法得到的微分熵(DE)數(shù)據(jù)。微分熵數(shù)據(jù)是對腦電信號進行微分處理后,通過計算微分信號的熵值來描述腦電信號復雜性和隨機性的一類數(shù)據(jù),其計算方式是將微分處理后的信號離散化為若干個狀態(tài),結合每個狀態(tài)出現(xiàn)的概率,再通過熵的定義所計算得來。由于微分熵是基于時間序列的熵的概念,其計算充分考慮了信號的變化率和時間間隔,保留了原始數(shù)據(jù)中的時序信息,因此常用于研究腦電信號的時域特征,亦可直接用于腦電信號的分類。
在腦電信號的delta 波段、theta 波段、alpha波段、beta 波段和gamma 波段中,theta 波段(4—8Hz)多出現(xiàn)在輕度睡眠、沉思和冥想狀態(tài),alpha波段(8—13Hz)多出現(xiàn)在放松、專注和集中狀態(tài),因此,上述波段對應的腦電數(shù)據(jù)與人的情緒相關度更高。實驗中也將theta 波段和alpha 波段對應的特征數(shù)據(jù)作為研究對象開展分類實驗,雖然相較于傳統(tǒng)的機器學習方法,深度學習在處理復雜數(shù)據(jù)的分類問題上有著更強的表達能力,但這一分類結果能為基于深度學習方法的情緒分類實驗提供一個可供參考的標準。實驗依據(jù)3∶2 的比例將每組實驗中的15 個數(shù)據(jù)樣本劃分為訓練集與測試集,在三分類情況下,theta 腦電波段最終所得的平均分類準確率為61.7%,如圖3 所示;alpha 腦電波段最終所得的平均分類準確率為63.4%,如圖4 所示。
圖3 theta 波段特征數(shù)據(jù)在SVM 分類器上的分類準確率及其平均分類準確率
圖4 alpha 波段特征數(shù)據(jù)在SVM 分類器上的分類準確率及其平均分類準確率
SEED 數(shù)據(jù)集中的原始腦電數(shù)據(jù)同樣對應45組實驗數(shù)據(jù),每組實驗數(shù)據(jù)中包含15 個二維腦電原始數(shù)據(jù)樣本,分別對應唯一的標簽序列,在時間維度對數(shù)據(jù)進行歸一化處理后輸入EEGNet 網(wǎng)絡進行訓練。
訓練中使用的損失函數(shù)為交叉熵函數(shù),作為凸函數(shù),在訓練過程中不存在局部最優(yōu)解的問題,故在梯度下降等優(yōu)化算法中可以有效地找到全局最優(yōu)解,交叉熵可用于判斷兩個概率分布之間的差異性大小,在衡量模型分類能力的任務中有很高的適用性。訓練中使用的優(yōu)化器函數(shù)為Adam 優(yōu)化器,相比于傳統(tǒng)的梯度下降法,Adam 優(yōu)化器不需要手動地調節(jié)學習率,而是根據(jù)梯度的一階矩估計(梯度的均值)和二階矩估計(梯度的無中心矩)自適應地調節(jié)每個參數(shù)的學習率。訓練過程中的學習率使用了StepLR 學習率調整機制進行自衰減,每經(jīng)過5 輪學習,學習率將降低為原來的90%。其中Adam 優(yōu)化器的公式如下所示,θ為EEGNet 中全體參數(shù)構成的向量;m為沖量,當對模型優(yōu)化參數(shù)時可輔助進行方向修正,使參數(shù)優(yōu)化不僅僅依靠梯度,避免了優(yōu)化時陷入鞍點;v-hat為指數(shù)移動均值,根據(jù)梯度計算得來;下標t表示當前時刻,t-1為上一時刻。
關于EEGNet 網(wǎng)絡,其深度卷積層(Depthwise Convolution)中的卷積核,即時序濾波器的長度被設置為了100。這是因為當時序卷積核的長度被設置為采樣率的一半時,網(wǎng)絡能有效地提取2Hz及以上的頻率信息[11],即對低頻信息能更加敏感。在深度可分離卷積層,在參考了EEGNet 原始論文中的建議后,將該層卷積核長度設置為了16,以達到更好的分類效果。
實驗根據(jù)7∶2∶1 的比例,以受試者編號為依據(jù)將數(shù)據(jù)集劃分為訓練集、驗證集和測試集,其中訓練集和驗證集用于EEGNet 模型的訓練,測試集則用于測試預訓練EEGNet 模型的泛化能力及分類表現(xiàn)。經(jīng)訓練,最終模型在訓練集上的損失降到了0.554,驗證集上的分類準確率達到了66.2%。
對此預訓練模型以8 為批量大小在測試集上進行了三分類測試,以0、1、2 作為情緒標簽分別對應了消極、中性和積極的情緒,測試同時也計算了預訓練模型在各批數(shù)據(jù)中的均方誤差、平均絕對誤差、召回率和Macro-F1分數(shù)。其中,召回率是指對于某個類別,模型正確識別出該類別的樣本數(shù)量與該類別實際樣本數(shù)量之間的比例,用于衡量模型對各個類別的識別能力。多分類時的Macro-F1分數(shù)則是各類別F1分數(shù)的平均值,每一類的F1分數(shù)是綜合考慮模型在該類別上進行預測的精確率和召回率的調和平均數(shù),這一指標避免了只關注精確率和召回率的其中一個而造成的誤差。最終,該預訓練模型在測試集上的平均準確率達到了90.0%。
3.1.2 在SEED-IV 數(shù)據(jù)集上的實驗
實驗針對SEED-IV 數(shù)據(jù)集中的原始腦電數(shù)據(jù)對EEGNet 進行了訓練,該數(shù)據(jù)集同樣是由15 名受試者通過3 次實驗得來,但由于3 次實驗中所使用的刺激不同,因此,其數(shù)據(jù)樣本對應的標簽序列也有所不同。數(shù)據(jù)在時間維度上進行了歸一化處理,以確保數(shù)據(jù)樣本格式的唯一性,而后輸入到EEGNet 中進行訓練。
實驗中所使用的損失函數(shù)和優(yōu)化器函數(shù)仍然為交叉熵函數(shù)和Adam 優(yōu)化器,學習率仍使用StepLR學習率調整機制進行衰減,每經(jīng)過5 輪學習,學習率將降為原來的90%。同時由于數(shù)據(jù)采樣率為200Hz,EEGNet 中深度卷積層的時序卷積核長度被設置為100。
由于SEED-IV 數(shù)據(jù)集中的原始腦電數(shù)據(jù)在時間維度上的差異較大,即采樣點數(shù)在數(shù)量分布上的均方差較大,部分數(shù)據(jù)樣本的采樣點數(shù)過少,導致在實驗之初對數(shù)據(jù)格式進行歸一化處理時,選取的采樣點數(shù)的基準值較小,使最終輸入網(wǎng)絡進行訓練的數(shù)據(jù)量及其在時間維度上的特征相對有所減少。經(jīng)多輪訓練,EEGNet 模型始終難以收斂到理想的范圍,得到的預訓練模型的泛化能力較差,其在測試集上的準確率為48.5%,測試集中包含受試者編號為2 和15 的數(shù)據(jù)樣本。
因此,考慮到時間維度上的數(shù)據(jù)特征對EEGNet 模型擬合能力的影響,在實驗過程中通過不斷提高采樣點數(shù)的基準值進行數(shù)據(jù)歸一化處理,并手動過濾了部分采樣點數(shù)過少的數(shù)據(jù)樣本,在5輪訓練和測試后,所得預訓練模型的準確率在相同測試集上的變化趨勢如圖5 所示。
圖5 不同采樣點數(shù)對應的EEGNet 預訓練模型在測試集上的準確率
為兼顧較好的模型擬合效果和充足的訓練數(shù)據(jù)量,最終選定了以30 601 作為SEED-IV 數(shù)據(jù)集上采樣點數(shù)歸一化的基準值。對整體數(shù)據(jù)進行歸一化處理后,將數(shù)據(jù)集以7∶2∶1 的比例劃分為訓練集、驗證集和測試集。同樣對數(shù)據(jù)集進行了多次重新劃分,確保每次劃分所得的測試集中數(shù)據(jù)歸編號不同的受試者所有。經(jīng)訓練,模型最終在訓練集上的損失降到了0.746,在驗證集上的分類準確率達到了58.6%。
與在SEED 數(shù)據(jù)集上的測試實驗類似,以0、1、2、3 作為標簽分別對應了中性、悲傷、恐懼和喜悅4 種情緒,對此預訓練模型在測試集上以8 為批量大小進行四分類測試,同樣地,在測試過程中計算了每一批量數(shù)據(jù)的均方誤差、平均絕對誤差、召回率和Macro-F1分數(shù),用于對模型的泛化能力進行更加直觀的考察,通常情況下Macro-F1的值能與模型的泛化能力成正相關關系。最終,該預訓練模型在測試集上的準確率達到了86.4%。
經(jīng)過在SEED 數(shù)據(jù)集和SEED-IV 數(shù)據(jù)集上的多輪實驗,且每輪實驗都重新打亂并劃分數(shù)據(jù)集,得到了如圖6 所示的EEGNet 預訓練模型在不同的測試集上的準確率。其中,在5 輪實驗中,EEGNet 在SEED 測試集上的三分類平均準確率達到了85.3%,在SEED-IV 測試集上的四分類平均準確率達到了73.3%。圖中橫軸方向的標記即為當次訓練時所劃分測試集數(shù)據(jù)對應的受試者編號。
圖6 EEGNet 預訓練模型在SEED 和SEED-IV 測試集上的準確率
由以上的實驗結果可得知,與傳統(tǒng)的機器學習分類方法相比,經(jīng)深度學習訓練的EEGNet 模型在SEED 數(shù)據(jù)集上有著更好的分類能力。在三分類的SEED 數(shù)據(jù)集上,EEGNet 模型在測試數(shù)據(jù)上也表現(xiàn)出了良好的泛化能力。在四分類的SEED-IV 數(shù)據(jù)集上,限定數(shù)據(jù)樣本的采樣點數(shù)在30 000 以上時,仍有較為可觀的數(shù)據(jù)量參與模型的訓練,在此情況下,EEGNet 也能保持較高的分類準確率,筆者認為主要原因還是EEGNet 對輸入數(shù)據(jù)中的時序特征有著較高的敏感度,因此腦電數(shù)據(jù)采樣點的數(shù)量將直接對EEGNet 模型的分類準確率產(chǎn)生較大的影響。
在保持模型訓練的超參數(shù)不變的情況下,隨著數(shù)據(jù)集劃分的不同,實驗所得預訓練模型的在對應測試集上的準確率有所不同,甚至產(chǎn)生了較大的差異,這一現(xiàn)象在四分類的SEED-IV 數(shù)據(jù)集上尤為明顯。針對這一現(xiàn)象,初步認為其原因可能為如下三點。
第一,數(shù)據(jù)集中數(shù)據(jù)分布不均,使EEGNet 網(wǎng)絡在學習的過程中難以收斂,模型欠擬合。
第二,部分受試者之間存在著較大的個體差異性,使得模型在其對應測試集上的泛化能力較差,預測準確率低。
第三,對SEED-IV 數(shù)據(jù)集進行預處理時,由于對大量數(shù)據(jù)進行過濾和裁剪,對數(shù)據(jù)集中部分數(shù)據(jù)的特征在一定程度上造成了破壞,導致對模型的訓練造成影響。
綜上所述,EEGNet 作為適合處理時序信號的緊湊型卷積神經(jīng)網(wǎng)絡在SEED 和SEED-IV 數(shù)據(jù)集上表現(xiàn)出了良好的分類能力,在數(shù)據(jù)量有限的情況下也表現(xiàn)出了良好的識別能力和健壯性。
本次實驗設計的方法仍存在一定的局限性,在實驗中所遇到的部分現(xiàn)象仍有待進一步設計實驗進行驗證。例如,考慮到受試者之間的差異,僅對實驗數(shù)據(jù)集進行受試者間分類(Cross-Subject Classification),而忽略同一受試者自身在不同情緒上的差異性。這需要更改數(shù)據(jù)集的劃分方式,進行受試者內分類(Within-Subject Classification),開展進一步的研究。另外,由于參與本次實驗的SEED 數(shù)據(jù)集和SEED-IV 數(shù)據(jù)集間在數(shù)據(jù)格式上存在一定程度上的差異,因此在訓練前對數(shù)據(jù)進行預處理時對實驗變量的控制存在一定的不合理之處。
針對腦電情緒識別任務,對一種緊湊型的、適用于基于腦電信號的腦機接口范式的卷積神經(jīng)網(wǎng)絡EEGNet 模型進行了研究。該模型在傳統(tǒng)卷積神經(jīng)網(wǎng)絡的基礎上引入了深度卷積和可分離卷積機制,因此得以更加有效地處理時序信息中的相關特征。實驗圍繞SEED 數(shù)據(jù)集和SEED-IV 數(shù)據(jù)集中的單模態(tài)腦電數(shù)據(jù)對EEGNet 進行了訓練和測試,對EEGNet 網(wǎng)絡模型在基于腦電信號的情緒識別效果方面進行了評估。EEGNet 模型在測試過程中體現(xiàn)出了良好的泛化能力,在情緒分類上取得了較高的準確率。
預處理后的數(shù)據(jù)均為腦電信號經(jīng)下采樣和去噪后的原始數(shù)據(jù),未經(jīng)特征工程處理和數(shù)據(jù)增強處理,表明EEGNet 模型在網(wǎng)絡設計層面的合理性,通過逐通道卷積和逐點卷積的結合,能十分有效地從原始數(shù)據(jù)中提取到分類相關的特征,尤其是EEGNet 對輸入數(shù)據(jù)中的時序特征有著較高的依賴性,實驗結果充分地體現(xiàn)了這一點,這說明了EEGNet 在實踐過程中有著良好的實用性。另外,對于數(shù)據(jù)量相對較小的數(shù)據(jù)集,EEGNet 網(wǎng)絡模型同樣能保持較高的分類準確率,說明其在數(shù)據(jù)量不夠充足時,依然能對實驗數(shù)據(jù)進行較好的擬合,在小樣本的腦電信號的分類問題上仍保持較高的健壯性。
作為卷積神經(jīng)網(wǎng)絡,EEGNet 只能接受定長格式的數(shù)據(jù)輸入,而SEED 數(shù)據(jù)集和SEED-IV 數(shù)據(jù)集中所提供的腦電數(shù)據(jù)在時間維度上的格式并不是固定的,這與數(shù)據(jù)集的采集方式以及所使用的刺激密切相關。因此,在預處理數(shù)據(jù)的歸一化過程中,難免對原始數(shù)據(jù)進行裁剪,對數(shù)據(jù)的完整性以及數(shù)據(jù)集中不同數(shù)據(jù)間的整體性造成破壞,對模型的訓練也將產(chǎn)生一定程度的影響,甚至使得模型在特定的數(shù)據(jù)集上難以收斂。因此,EEGNet 在處理變長序列信息方面仍然有較大的優(yōu)化空間,可適當?shù)匾腩愃朴赗NN、LSTM 網(wǎng)絡等結構的適合處理變長序列的網(wǎng)絡層對輸入數(shù)據(jù)預處理后,再進一步進行卷積操作提取特征,但其實用性還有待設計實驗進行進一步的驗證。另外,實驗中所使用的數(shù)據(jù)集均基于事件相關電位,僅記錄了受試者經(jīng)刺激后的腦電反應,但情緒是一個動態(tài)的過程,因此仍存在著一定的局限性。
最后,由于EEGNet 網(wǎng)絡有著較為出色的穩(wěn)健性,其深度可分離卷積層的設計減少了它在訓練過程中所需的參數(shù)量,使其在計算能力較弱的嵌入式設備中的應用成為可能,而邊緣學習是當前人工智能領域的熱點之一,EEGNet 網(wǎng)絡與邊緣設備的結合將為基于腦電信號的情緒識別任務提供更加高效、準確和便捷的解決方案。