蔡靖,袁守國,李銳,徐夢輝
(吉林大學(xué) 儀器科學(xué)與電氣工程學(xué)院,吉林 長春 130061)
情緒是人們對客觀事物的一種反饋方式,更是人們情感的表現(xiàn)方式,故而情緒識別被廣泛應(yīng)用于人工智能、心理學(xué)、情感計算、計算機(jī)視覺和醫(yī)學(xué)治療等領(lǐng)域[1]。生理信號是由人體內(nèi)的自主神經(jīng)系統(tǒng)活動而產(chǎn)生的,既不會受到人為意志的控制,也不會被偽裝,可以客觀地反映人體的生理和心理活動狀態(tài),因而可以作為一種能夠較準(zhǔn)確判斷情緒狀態(tài)的依據(jù)。隨著科學(xué)技術(shù)的發(fā)展,基于生理信號(腦電、心電、脈搏、呼吸、皮溫、肌電、皮膚電導(dǎo))的情緒識別的研究取得了大量的成果。文獻(xiàn)表明,與大腦活動最密切的EEG 信號可以最真實地反映出人的情緒狀態(tài)[2]。
近年來,基于腦電信號的情緒識別是當(dāng)前關(guān)于情緒研究領(lǐng)域和人機(jī)交互領(lǐng)域的熱門課題。Pane 等人提出了一種將情緒側(cè)化和整體學(xué)習(xí)相結(jié)合的策略,對DEAP數(shù)據(jù)集采用隨機(jī)森林的方法進(jìn)行分類,分類準(zhǔn)確率為75.6%[3];Verma 等人基于DEAP 數(shù)據(jù)庫使用支持向量機(jī)(Support Vector Machine,SVM)進(jìn)行多模態(tài)情緒識別[4];Kolodyazhniy 利用K-近鄰算法和交叉驗證的方法對34名參與者的數(shù)據(jù)集進(jìn)行分析,對恐懼、悲傷及中性3 種情緒狀態(tài)的識別準(zhǔn)確率最高達(dá)73.2%[5]。但這些方法識別情緒種類不多且準(zhǔn)確率較低,對此,本文提出一種采用加權(quán)KNN 算法、基于DEAP 數(shù)據(jù)庫的5 折交叉驗證的方法實現(xiàn)對興奮(excited)、放松(relaxed)、沮喪(depressed)、憤怒(angry)4 種情緒的準(zhǔn)確識別,識別準(zhǔn)確率高達(dá)80%。
Koelstra 等人在2011 年建立DEAP 數(shù)據(jù)集[6],該數(shù)據(jù)集記錄32 名參與者的腦電圖和外周生理信號,每人觀看40 部長達(dá)一分鐘的音樂視頻片段,每個片段結(jié)束后,參與者都會進(jìn)行自我評估。受試者對愉悅度(Valence)、喚醒度(Arousal)、支配性(Dominance)、喜歡程度(Liking)4個項目進(jìn)行數(shù)字(1~9)打分。
在采集的40 個生理信號通道中,前32 個通道采集的為腦電信號,腦電通道按照國際10-20 系統(tǒng),選擇32個通道的位置,如圖1 所示。
Zheng Weilong 等人的研究中發(fā)現(xiàn),采用位于外側(cè)顳區(qū)的4 通道的最佳平均精度和標(biāo)準(zhǔn)差分別為82.88%、10.92%,略低于全62 個通道的83.99%的平均精度[7]。為了減小計算量,本文僅選用EEG 信號的左右對稱的14個通 道(AF3、F3、F7、FC5、T7、P7、O1、AF4、F4、F8、FC6、T8、P8、O2)的EEG信號進(jìn)行分析。
本文采用喚醒度-愉悅度(Arousal-Valence)模型,將情緒映射到喚醒度和愉悅度組成的二維空間中,1.0~4.5 和4.5~9 的愉悅度分別映射為“消極”和“積極”,1.0~4.5 和4.5~9 的喚醒度分別映射為“平靜”和“活躍”。根據(jù)映射關(guān)系,可將情緒分為興奮、放松、沮喪、憤怒4類,如圖2 所示。
特征提取的主要任務(wù)是提取出能夠?qū)EG 信號映射到情緒狀態(tài)中的一些顯著特征?,F(xiàn)有的腦電特征主要分為時域特征、頻域特征、時頻域特征以及空間域特征4 類[9]。本文主要討論兩類特征,一類是基于時域的統(tǒng)計特征,另一類是基于頻域的功率譜(Power Spectral Density,PSD)和微分熵(Differential Entropy,DE)。
具體做法是:首先,設(shè)置一個寬度為6 s 的矩形窗,計算該時間窗內(nèi)的EEG 信號下面提到的所有特征;然后平滑移動時間窗前進(jìn)2 s,即與上一組序列重疊4 s,直到將60 s 的信號全部計算完畢。
在時域上提取的特征包括信號統(tǒng)計量(均值、中位數(shù)、最大值、最小值、標(biāo)準(zhǔn)差、方差、峰值)、偏度(skewness)、峰度(kurtosis)、分形維數(shù)(FD)、Hjorth 復(fù)雜性、Hjorth移動性共12 種特征值。其中信號統(tǒng)計量特征計算方法比較簡單,故在此不做贅述,對其他的幾個特征展開詳細(xì)討論。
(1)偏度(skewness)
偏度是統(tǒng)計數(shù)據(jù)分布偏斜方向和程度的度量,是統(tǒng)計數(shù)據(jù)分布非對稱程度的數(shù)字特征。
其中,Xi表示第i 個信號值,μx表示一組信號的平均值,σx則表示標(biāo)準(zhǔn)差。
(2)峰度(又稱峰態(tài)系數(shù),kurtosis)
峰度表征了概率密度分布曲線在平均值處峰值的高低,即反映了數(shù)據(jù)的尖度。
(3)分形維數(shù)(Fractal Dimension,F(xiàn)D)[9]
分形維數(shù)可以用來表征時間域信號的復(fù)雜程度。本文利用Higuchi 算法來計算EEG 信號的分形維數(shù)FD。
(4)Hjorth 參數(shù)[10]
Hjorth 移動性(Mobility)給出關(guān)于幅度標(biāo)準(zhǔn)偏差的斜率標(biāo)準(zhǔn)偏差的度量,反映了時間序列的坡度變化程度。
式中,X'是X 的一階差分,σ2(X)為X 的方差。
Hjorth 復(fù)雜性(Complexity)給出有關(guān)正弦波的過度細(xì)節(jié)的度量,反映出一個振幅上有多少個標(biāo)準(zhǔn)的坡(slope)。
據(jù)現(xiàn)有的研究表明,腦電信號分為5 個頻段,考慮到成年人只在深度睡眠和無夢睡眠時腦電才會保持在Delta 頻段(1~4 Hz),故不考慮提取該波段的特征,而是提取了Theta 頻段(4~8 Hz)、Alpha 頻段(8~12 Hz)、Low Beta 頻段(12~16 Hz)、High Beta 頻段(16~25 Hz)和Gamma頻段(25~45 Hz),各個頻段下的時域波形如圖3 所示。由于Beta 包含了大量的有關(guān)興奮、恐懼、憤怒等強(qiáng)烈情緒的信息[11],因此對其進(jìn)行細(xì)分。
(1)功率譜密度(PSD)
功率譜密度是用來表征信號功率與頻率的關(guān)系的物理量,計算公式如式(5)所示:
式中,fstop為頻段的截止位置頻率,fstart為頻段的起始位置頻率。
(2)微分熵(DE)
微分熵被用于測量連續(xù)隨機(jī)變量的復(fù)雜性。由于腦電圖數(shù)據(jù)具有較高的低頻能量,DE 具有區(qū)分低頻和高頻能量腦電圖模式的平衡能力,對于EEG 信號,其在數(shù)值上等于功率譜密度的對數(shù)[12]。
對于提取到的8 316 個特征,存在著大量相關(guān)關(guān)系,如果不進(jìn)行降維處理就進(jìn)行機(jī)器學(xué)習(xí)訓(xùn)練,不僅會占用大量內(nèi)存,消耗更多的時間,而且極有可能面臨著過擬合的問題,所以必須對特征進(jìn)行降維處理。本文采用的特征降維方法是主成分分析法(Principal Component Analysis,PCA)。主成分分析是一種使用正交變換將一組可能相關(guān)變量的觀察結(jié)果轉(zhuǎn)換為一組稱之為主成分的線性不相關(guān)變量的值的統(tǒng)計方法。具體計算過程如下:
輸入:特征數(shù)據(jù)集Dn×m={x1,x2,…,xm},每類特征xi=(xi1,xi2,…,xin)T是長度為n 的列向量,需要降維到低維空間的維度為k。
(1)中心化數(shù)據(jù):xi←xi-
(2)計算協(xié)方差矩陣:C=cov(D)=DDT
(3)計算特征值和特征向量:[V,M]=eig(C)
(4)前k 個的特征值構(gòu)成向量Λ=(λ1,λ2,…,λk)T,所對應(yīng)的特征向量組成投影矩陣 (也稱系數(shù)矩陣)W={w1,w2,…,wk}
輸出:降維后的數(shù)據(jù)An×k=Dn×m×W,原始特征在降維后數(shù)據(jù)中的貢獻(xiàn)率為P=W×Λ。
限定總解釋方差為95%,最終將輸入特征的數(shù)量從8 316 個減少到54 個。
在進(jìn)行PCA 降維之前,需要對特征進(jìn)行歸一化和標(biāo)準(zhǔn)化[8]。同時,為了研究降維前的各特征對主成分的貢獻(xiàn)率,分別對時域、頻域所有特征以及14 個通道進(jìn)行討論。對這些特征進(jìn)行權(quán)重分析,即將總權(quán)重設(shè)為100,通過PCA 分析計算了8 316 個特征各自對54 個主成分的貢獻(xiàn)率(也就是累加權(quán)重)。
K-近鄰(KNN)由Cover 和Hart 提出,是一種十分有效且方法簡單、易于理解、容易實現(xiàn)的非參數(shù)有監(jiān)督的學(xué)習(xí)分類器[14],如圖4 所示。
對于給定的測試樣本,使用一定的距離測量方法找到訓(xùn)練集中最接近的k 個訓(xùn)練樣本。然后,根據(jù)這k 個“鄰居”的信息對測試樣本進(jìn)行預(yù)測。
設(shè)一個測試樣本x=(x1,x2,…,xs),則該樣本點與訓(xùn)練集中某一樣本點xi之間的距離有兩種計算方法:
(1)歐式距離:
(2)曼哈距離:
對類別的判定同樣有兩種方法[15]:
(1)投票法:從K 個近鄰中選擇某個類別點數(shù)最多的那一類作為測試樣本的類別;
(2)加權(quán)投票法:根據(jù)距離遠(yuǎn)近賦予權(quán)重,通常權(quán)重是距離平方的倒數(shù)。
本文采用歐式距離作為樣本間的距離,設(shè)f(xi)為樣本xi的類別標(biāo)簽,其取值范圍為V={0,1,2,3},分別對應(yīng)4 類情緒(沮喪、放松、憤怒、興奮)。具體實現(xiàn)方法如式(9)所示:
當(dāng)a、b 為同一類時,則認(rèn)為投同意票,記數(shù)將會加1;否則認(rèn)為投反對票,記數(shù)不會加1。
但由于K 個距離大小不同,因此本文選擇加權(quán)投票法。以每個近鄰的距離的平方的倒數(shù)作為其權(quán)重,這樣一來,距離近的相似度更高,權(quán)重值也更大,這樣的KNN 算法稱為距離加權(quán)KNN 算法。具體實現(xiàn)方法如式(10)所示:
計算上述所有特征,圖5 為對通道F3 的EEG 信號提取的22 類特征,并進(jìn)行了歸一化和標(biāo)準(zhǔn)化。
圖6 為12 類時域特征隨時間的變化曲線,其中分形維數(shù)FD、偏度及h2(Hjorth 移動性)隨時間變化波動程度較大,平均值、中位數(shù)、極值等特征則比較平穩(wěn)。
圖7 為頻域特征隨時間變化曲線,Alpha 頻段、Low Beta 頻段的PSD 和DE 都表現(xiàn)出較強(qiáng)平穩(wěn)性,其他頻段都有著一定的波動。
利用PCA 降維把8 316 維的原始數(shù)據(jù)降維到53維,并對時域各類特征、頻域各波段、14 個通道的權(quán)重進(jìn)行討論。
時域各類特征權(quán)重如表1、圖8 所示。其中h1 和h2分別為Hjorth 復(fù)雜性和Hjorth 移動性。
表1 時域各類特征權(quán)重
在所有的12 個時域特征中,最大值、最小值以及差值、標(biāo)準(zhǔn)差、方差有著較高的權(quán)重,峰度和Hjorth 移動性權(quán)重較低。
頻域各波段權(quán)重如表2、圖9 所示。
表2 頻域各類特征權(quán)重
從圖9 中可以看出,Gamma 波段、Alpha 及Low Beta波段所占權(quán)重較大,High Beta 和Theta 權(quán)重較小。
14 個通道特征權(quán)重如圖10 所示。
可以看到14 個通道的貢獻(xiàn)率各不相同,除了F4 通道明顯高于F3 通道和F7 通道明顯高于F8 通道以外,其他左右對稱的兩通道差異都不是很大。同時還可以看到,每一通道的頻域特征權(quán)重都普遍大于時域特征的權(quán)重。其中表現(xiàn)最好的幾個通道為P7、F4、F7、AF3、AF4。
隨機(jī)選取80%數(shù)據(jù)進(jìn)行訓(xùn)練、20%數(shù)據(jù)進(jìn)行測試,采用K=10 的加權(quán)KNN 算法,進(jìn)行5 折交叉驗證,分類結(jié)果的混淆矩陣如圖11 所示。可以看出對4 類情緒的識別準(zhǔn)確率都在72%以上,平均準(zhǔn)確度為80%,其中,對第4 類情緒(興奮)識別準(zhǔn)確率最高。4 種模型下的ROC曲線如圖12~圖15 所示。
本文基于DEAP 的數(shù)據(jù)庫,選用14 通道EEG 信號并對其進(jìn)行時域特征和頻域特征提取,對各類特征權(quán)重加以分析發(fā)現(xiàn),時域特征中,最大值、最小值、極差、標(biāo)準(zhǔn)差、方差有著較高的權(quán)重;其次是偏度、Hjorth 復(fù)雜性、平均值、中位數(shù)以及分形維數(shù);峰度和Hjorth移動性權(quán)重較低。頻域特征中,Gamma 波段、Alpha 及Low Beta 波段所占權(quán)重較大,High Beta 和Theta 較小。尤其是Low Beta波段的PSD 權(quán)重遠(yuǎn)高于DE,這與其他幾個波段相反??傮w來看,14 個通道的頻域特征權(quán)重都高于時域特征,且各個通道的貢獻(xiàn)率也不相同,除了F4 通道明顯高于F3通道和F7 通道明顯高于F8 通道以外,其他左右對稱的兩通道差異都不是很大。通過PCA 主成分分析法對特征進(jìn)行降維處理,利用加權(quán)KNN 算法進(jìn)行5 折交叉驗證訓(xùn)練,最終最對興奮(excited)、放松(relaxed)、沮喪(depressed)、憤怒(angry)4 種情緒的識別準(zhǔn)確率達(dá)到了80%。