孟 明胡家豪高云園馬玉良
(杭州電子科技大學自動化學院,浙江 杭州310018)
情感是一種綜合了感覺、思想和行為的復雜狀態(tài),是人類對內部或外部刺激真實的心理和生理反應[1]。隨著人工智能技術的不斷發(fā)展,情感識別已經成為了人機交互(Human Machine Interface,HMI)領域的研究熱點[2],將情感自動識別技術引入到HMI應用,可顯著提高用戶的體驗質量,并推動實現人工智能由感知智能到認知智能的飛躍[3-5]。腦機接口(Brain Computer Interface,BCI)可以有效的作為人機交互的橋梁,BCI技術可通過非侵入的方式采集人體腦電信號(electroencephalography,EEG),且大量的神經生理學和心理學研究發(fā)現,人類的情緒產生和情感活動與大腦皮層的電信號高度相關[6],因此EEG信號憑借其高時間分辨率,低成本,高便捷的優(yōu)點被有效地運用在人類情感識別任務中。
如何對情感EEG信號進行特征提取并分類是一項具有挑戰(zhàn)性的任務,基于淺層機器學習方法的研究在該領域取得了一定的進展。Shahnaz C等人[7]對EEG信號進行經驗模態(tài)分解(EMD)運算,選取得到的本征模式函數(IMF)進行離散小波變換(DWT),然后選擇合適的DWT系數方差、峰度、偏度來形成特征向量,并使用SVM進行情感分類。Liu[8]等人分別從時域和頻域提取腦電信號的高階過零分析、分型維度和離散小波變換、功率譜密度等特征,利用隨機森林算法(Random Forest,RF)進行最后分類。Guo[9]等人分別提取受試α,β,γ腦電頻段的granger因果特征,并引入稀疏組lasso算法進行特征篩選,獲得高相關性特征子集作為情感分類特征,最后使用SVM進行情感分類。然而這類方法依賴人為從EEG信號中尋找和提取各種與情感相關的特征,這也成為了阻礙系統性能突破的瓶頸。
近年來隨著深度學習技術的不斷發(fā)展,深度神經網絡(DNN)被越來越多研究者應用在情感EEG信號處理中。Shawky[10]等人提出了一種3D卷積神經網絡(3-Dimensional Convolutional Neural Networks,3D-CNN)來進行情感腦電信號的特征提取與分類。Xing[11]等人提出了一種基于堆棧自動編碼器(Stacked Auto Encoder,SAE)的腦電源信號特征提取方法,并使用長短期記憶網絡(Long-short term memory neural network,LSTM)對提取到的特征進行分類。DNN擺脫了特征工程,能夠自行實現端到端的“黑箱”學習過程,適合對抽象的EEG信號進行識別分類,得到的分類結果也普遍優(yōu)于淺層機器學習。然而EEG信號是一種集時域、頻域、空間域信息于一體的復雜信號,僅使用單模態(tài)DNN模型難以充分挖掘其潛在的特征規(guī)律。且腦電信號多個通道中可能存在著冗余信息干擾,不僅影響最終的分類結果還增大了樣本維度,提高了DNN的訓練難度。
針對上述存在的問題,本文提出了一種結合互信息通道選擇與混合深度神經網絡的腦電情感識別方法。提取EEG信號各通道中γ節(jié)律的微分熵(Differential Entropy,DE)特征,進一步計算通道歸一化互信息(NMI)矩陣選取一定數量的最優(yōu)通道,之后采用卷積神經網絡(CNN)和長短期記憶網絡(LSTM)相結合的混合DNN進行特征提取和分類,并利用DEAP數據集對所提出的方法進行評估。
DEAP是由Koelstra[12]等建立的面向情感識別領域的包含多模態(tài)信號的數據集。數據集采集了32位健康被試各自觀看40段時長60 s的情感誘發(fā)視頻的生理電信號,其中包括32通道的EEG信號和8通道的外周生理信號,采樣頻率為512 Hz,圖1為一次實驗的具體流程。
圖1 實驗任務時間軸
實驗開始后,屏幕顯示2 s當前視頻編號,隨后屏幕呈現交叉十字,記錄5 s信號基值,接著播放60 s的情感誘發(fā)視頻,最后被試將對觀看后的視頻在情感的效價、喚醒度、喜好度、控制程度4個維度上進行1~9的評分。DEAP中提供了預處理后的數據,包括將EEG信號下采樣至128 Hz,利用ICA算法去除眼電偽跡干擾。每段EEG信號的長度為63 s(包括3 s實驗前的腦電基線信號和60 s的視頻刺激信號)。本文進行的是針對效價和喚醒度的二分類任務,根據被試的評分標記數據集中樣本的類別,以5為閾值,即將低于5的樣本標記為低效價/低喚醒度,高于5的樣本標記為高效價/高喚醒度。
根據腦神經科學和心理學的研究,腦電信號的δ(1 Hz~3 Hz)、θ(4 Hz~7 Hz)、α(8 Hz~13 Hz)、β(14 Hz~30 Hz)、γ(31 Hz~50 Hz)5個節(jié)律與人的生理活動有著密切聯系[13],其中γ節(jié)律與人類情感活動有較大關聯[14-16]。根據各節(jié)律的起始和截止頻率,使用8階巴特沃斯濾波器對原始腦電信號進行帶通濾波得到γ節(jié)律信號用于進一步的提取特征和通道選擇。
2.1.1 微分熵
微分熵(Differential Entropy,DE)可對連續(xù)性隨機變量概率分布的不確定性總量進行具體量化,Duan[17]等人首次將其作為特征引入到基于EEG的情感識別任務中。采用DE特征可以減小獲取EEG高頻信號時所產生的濾波誤差[18],進而提高模型后續(xù)的學習效果,DE的定義為:
式中:p(x)表示連續(xù)信息的概率密度函數,[a,b]為信息的取值區(qū)間。對于固定頻帶的EEG樣本,其各通道采樣值可近似地認為服從正態(tài)分布N(μ,σ2),故單個EEG樣本各通道的DE特征為:
2.1.2 歸一化互信息
互信息(Mutual Information,MI)是衡量兩個隨機變量之間相互依賴性的統計學指標[19],對于兩類離散隨機變量X和Y,其互信息為:
式中:p(x,y)為兩個隨機變量的聯合分布,p(x),p(y)分別為兩個隨機變量的邊緣分布。為了方便計算和對比,將所得的互信息進行歸一化處理:
式中:H(X)與H(Y)分別為隨機變量X和Y的信息熵:
2.1.3 通道選擇
首先計算一次實驗中各通道EEG信號的DE特征,然后計算各通道DE值之間的MI并進行歸一化處理,相同通道之間的MI值為1,如此便得到了一個n×n(n為通道個數)的實對稱互信息矩陣INMI。
以權值來表征各通道的任務相關程度并進行通道選擇,零初始化各被試全通道權值向量求出被試每次實驗對應的INMI后,對其按列相加,得到各通道與其他通道互信息和的向量VNMI,互信息和值越大代表該通道在情感活動中與其余腦區(qū)電極交互信息越多,任務相關性越高,故取VNMI中最大元素,記其對應的通道編號為l,同時將向量Ws中的值加一。單個被試共進行M次實驗,故經過M輪更新計算后得到單個被試的最終權值向量Ws。
由于個體的差異性,依賴被試的通道選擇最終得到的是每個被試的最優(yōu)通道集,然而在一些應用場景中對每一位使用者設計特定的最優(yōu)通道集是不切實際的,這里采用一種權值求和的思想,選擇出適合所有被試的最優(yōu)通道集,將每位被試經過M輪更新后的權值向量Ws按通道編號對應相加,得到不依賴具體被試的共性通道權值向量其中
N表示被試總數表示被試s第i個通道的權值。將Wf中的元素按從大到小的順序排列后,選出前k個通道作為最優(yōu)通道集合。
通道選擇方法的整體流程如表1所示:
表1 通道選擇流程
2.2.1 二維腦電序列變換
EEG信號由攜帶特定電極排布的可穿戴式腦電帽采集,DEAP中使用的是國際常用的“10-20”腦電帽,“10”和“20”是指相鄰電極之間的實際距離為顱骨前后或左右總距離的10%或20%[20]。各通道在某采樣時刻t采集到的腦電信號構成向量Xt=為t時刻第n個通道采集的腦電數據。對于一個時間窗[0,T-1],共有T個這樣的向量構成腦電信號序列。
原一維腦電信號只能表示兩個相鄰采樣點之間的數據變換情況,根據腦電帽的電極分布,將一維腦電信號Xt轉換為二維矩陣形式,既保留了電極空間排布的拓撲特性,又可作為后續(xù)CNN網絡的輸入,因此向量Xt可轉換為二維矩陣形式的Yt,其中未排布電極的位置設為0,如此一個時間窗[0,T-1]內的T個一維腦電數據[X0,X1,…,XT-1]便轉換為T個腦電數據矩陣[Y0,Y1,…,YT-1],如圖2所示。
圖2 腦電信號采集和變換流程
2.2.2 混合深度神經網絡結構
混合網絡結合了CNN和RNN兩種深度學習模型在提取樣本空域和時域特征的獨特優(yōu)勢,CNN模型用于處理二維腦電數據,而從屬于RNN網絡模型的LSTM則直接用于處理一維腦電數據,兩個并行的網絡同時對輸入樣本提取特征,然后對各自提取的特征進行特征融合[21],最后根據融合的特征進行分類,如圖3所示。
圖3 混合深度神經網絡(HDNN)模型
CNN模型從經過二維轉換的腦電信號序列中提取空間域特征,第j個EEG樣本經過轉換后輸入到CNN模型中為Pj=[Y0,Y1,…,YT-1]εRT×h×w,其中Yk(k=0,1,2…T-1)是維度為h×w的矩陣。在CNN模型中共有4個卷積層,對于前三個卷積層,輸入的是二維的稀疏矩陣,使用3×3卷積核可能無法充分提取特征圖的特征信息,使用5×5卷積核可能會加大卷積運算復雜度,故選擇4×4的卷積核,卷積核步長設為“1”,并進行調整補零(Padding)使得經過卷積后的特征圖維度與卷積前保持一致,三個卷積層分別使用32、64、128個卷積核。傳統CNN模型中卷積核之間需要有池化層(Pooling Layer)操作,降低數據維度加速訓練效果,然而本文CNN模塊中輸入的腦電矩陣維數較小,加入池化層可能會丟失關鍵的特征信息,故此CNN模型中未設置池化層。輸入序列經過三層卷積后還需經過一個拼接層(Concatenate Layer)使得各個采樣時刻特征融合為一個輸入序列的總特征,之后經過一個具有10卷積核,卷積核維度為1×1的卷積層,作為CNN網絡的最終特征輸出,為了方便特征融合將最終特征輸出展平(Flatten)為一維特征向量CjεR810。
構建雙層LSTM網絡提取各采樣點之間的時間域特征,LSTM模型第j個EEG樣本輸入為Qj=[X0,X1,…,XT-1],記第一層LSTM單元在當前時刻t的隱層輸出為ht,則ht-1表示在前一時刻t-1時的隱層輸出,在LSTM的每一層中,前一個時間點的信息被傳遞到當前時間點,以此類推,影響最后一個采樣時刻的最終輸出。第一層LSTM的隱層輸出序列[h0,h1,…,hT-1]作為第二層LSTM單元的輸入。由于我們感興趣的是輸入EEG樣本整個時段的情感類別,因此取第二層最后一個單元的輸出h′T-1作為輸入樣本的特征,將h′T-1送入全連接層,作為LSTM模型提取的最終特征Lj,其中Lj∈R1024。
將上述兩個模型提取到的空域特征和時域特征連接起來作為最終的特征向量,最后經過一個帶有softmax輸出的全連接層進行分類。
本文的實驗由兩部分組成,一部分是基于NMI的最優(yōu)通道選取,另一部分是模型分類效果對比。其中我們分別對比了不同通道模式下混合深度神經網絡與單模態(tài)深度神經網絡的分類效果。
本文對DEAP中預處理后的單次實驗EEG信號,去除其前3 s的基線數據,以1 s時間窗將原信號劃分為60個互不重疊的樣本,故每位被試的40次實驗共得到2 400個樣本,每個樣本的數據維度為128×32。對每位被試取80%的樣本作為訓練集,20%的樣本作為測試集,并進行5折交叉驗證,取平均值作為單被試的分類結果。所有被試分類結果的平均值作為模型的最終分類結果。
依照前述基于NMI的通道選擇算法,利用權值相加法對所有被試進行統一的最優(yōu)通道選擇。將所得最終通道權值向量Wf中的元素按從大到小排列,取滿足前文通道選擇要求的前k個通道最為最優(yōu)通道集。為確定合理的k值,定義了閾值a:
通過調整a的值,來確定k的最優(yōu)解,同時計算每個閾值下對應的通道集合,經過實驗驗證,當a值取55.46%時所對應的通道集在被試驗證集上取得了最優(yōu)的分類效果,此時k=10,最優(yōu)通道集的名稱和所對應的權值數量如圖4所示:
圖4 最優(yōu)通道權值
為進一步驗證所提通道選擇算法的普適性和泛化能力,本文以不放回抽樣的方式分別隨機抽取了8,16,24名被試的數據組成新的樣本集,分別使用本文所提出的基于互信息的通道選擇法篩選最優(yōu)通道,根據各通道所得到的歸一化權值大小繪制出對應的腦地形圖,如圖5所示:
圖5 通道權值腦地形圖
由圖5可以看到,隨著樣本集數量的不斷增加,權值較大的通道的分布呈現出明顯的聚集域,如前額葉區(qū)(尤其是左前額葉)、頂葉區(qū)和顳葉區(qū),這也在經驗上和人類情感活動相關的腦區(qū)大致吻合[22-25],進一步驗證了本文所提的通道選擇方法的合理性,同時也可以觀察到由不同數量的隨機被試數據組成的新樣本集所得到的高權值通道分布大致相同,且隨著樣本數量的增加,分布范圍愈發(fā)穩(wěn)定,這在一定程度上證明了本文所提的通道選擇方法具有普適性和泛化能力。
基于通道選擇的結果,對比了全通道HDNN和選擇通道HDNN兩種模型在情感的效價和喚醒度上的分類效果,基于上文通道選擇的結果,對CNN模塊輸入層的二維腦電矩陣中未經選擇的22個通道數據置0,選中的10通道數據保持不變;對LSTM模塊的輸入層僅選擇這10個通道的數據即可。表2展示了各被試在兩種模型下的輸入數據格式。
表2 不同通道模式下模型輸入數據格式
所有被試在情感V-A維度上的平均分類結果如表3所示,可以看到經過通道選擇后,NMI-HDNN在使用低維度,高稀疏樣本的條件下分類準確率較全通道HDNN模型在效價和喚醒都上分別得到了1.15%和0.7%的提升,推斷在相同分類模型下,通道選擇可以排除冗余通道的信息干擾,提高模型穩(wěn)定性。
表3 兩種模型下所有被試的平均分類準確率(均值±標準差)
為研究空域特征和時域特征對腦電情感識別的影響和作用,分別去掉HDNN模型中的空域特征提取器CNN模塊和時域特征提取器LSTM模塊,保持余下獨立的CNN和LSTM模型網絡架構不變,得到Single LSTM,Single CNN兩種分類模型,結合通道選擇在DEAP數據集上對所有被試數據分別使用這兩種模型進行分類實驗,結果和對比如圖6所示:
圖6 不同通道模式下Single-LSTM,Single-CNN,HDNN分別在情感V-A維度上的分類效果
從圖6中可以看到,相同通道模式下HDNN模型的分類準確率最高,Single-CNN模型其次,Single-LSTM模型最低,經過通道選擇后的各模型得到的分類準確率均高于全通道模型。
從以分類準確率標準差做出的誤差線可以看到,相同通道模式下HDNN模型的標準差最小,Single-CNN模型其次,Single-LSTM模型最高,且經過通道選擇后的各模型標準差大多低于全通道模型。
實驗結果佐證了提出的NMI-HDNN模型不僅可以集成不同深度學習網絡的分類優(yōu)勢,還排除了冗余通道的信息干擾,取得了最優(yōu)的分類結果。
表4 為其他使用DEAP情感腦電數據集文獻的分類結果與本文方法結果的對比,分類任務均為在效價和喚醒度上的二分類。
表4 同類研究不同分類方法的分類結果比較
文獻[7-9]。均通過淺層機器學習模型進行情感識別,其中文獻[7]和文獻[8]對提取到的EEG特征進行直接分類,文獻[9]則引入稀疏組lasso算法對獲取的granger因果特征值進行特征篩選,獲得高相關性特征子集作為分類特征,其取得的分類結果優(yōu)于前者,這一定程度的證明了對任務相關性的特征進行篩選有助于提高BCI的分類性能。本文則通過計算個通道間的NMI值達到了對任務相關通道的篩選,并結合混合深度神經網絡進行分類,結果優(yōu)于基于淺層機器學習模型的方法。
文獻[10]與文獻[11]。使用單模態(tài)深度神經網絡進行特征提取和情感識別,其分類結果低于本文提出的NMI-HDNN的分類結果,說明HDNN較DNN能更充分的提取EEG信號的多域特征,且通道選擇可排除冗余信息干擾,降低模型的訓練難度,證明了本文方法的可行性和優(yōu)越性。
本文提出了一種結合NMI通道選擇與混合深度神經網絡的腦電情感識別方法,提取EEG信號各通道中與情感活動最相關的γ節(jié)律的DE特征,通過DE計算通道間相互的NMI,將所得NMI矩陣按列求和后的向量作為表征各通道任務相關性的權值,通過權值大小選出一定數量的最優(yōu)通道,之后采用CNN與LSTM相結合的混合DNN網絡進行樣本特征提取和分類。使用該方法在公開的DEAP情感腦電數據集進行了實驗對比,結果表明通道選擇可以排除冗余通道信息干擾,提高分類準確率。同時HDNN的分類效果優(yōu)于單一結構的深度神經網絡,說明混合神經網絡可以繼承不同深度神經網絡的優(yōu)勢,挖掘更多的EEG樣本信息。該方法一定程度解決了淺層機器學習在腦電情感識別領域依賴特征工程的問題。在未來的工作中將進一步探索可進行跨被試,跨時段工作的腦電情感分類模型,以提高情感BCI技術的應用價值。