柳素紅,孫 曉,李春彬
(合肥工業(yè)大學計算機與信息學院,合肥 230601)
情感是人們進行認知、決策處理和人際互動的重要組成部分,在人們的日常交流和社會活動中起著重要的作用,醫(yī)學、神經(jīng)學、心理學和情感計算等領域的研究人員希望通過計算機系統(tǒng)識別和理解人類情感。隨著科技的發(fā)展和社會的進步,人機交互(Human-Computer Interaction,HCI)技術引起了人們越來越多的關注。HCI 有著廣闊的應用前景,比如在人機對話領域中[1],情感識別可以使機器感知人的情感心理狀態(tài),從而使機器更加了解對話對象,提供更加人性化的回答,提高人機對話體驗;在醫(yī)療領域,情感識別可以輔助醫(yī)生進行自閉癥、焦慮癥和一些腦功能障礙疾病的治療;在航空航天領域,通過監(jiān)控航天員的情感狀態(tài)可以實時掌握航天員的生理狀態(tài),幫助航天員順利完成航天任務。因此,對情感識別進行研究有著重大的意義。
當前對于情感識別的研究內(nèi)容主要分為兩類:第一類是基于非生理信號的情感識別,這些非生理信號包括語音[2]、身體姿態(tài)[3]和面部表情[4]等;第二類是基于生理信號的情感識別,如肌電[5]、心電[6]和腦電[7]等。由于語音、身體姿態(tài)和面部表情等非生理信號容易受到人的主觀控制,一些真實情感容易被掩蓋,因此對這些非生理信號進行情感分類不易獲得準確的結果。腦電信號是從大腦皮層直接獲得的,不易被掩蓋,并且它是由人的中樞神經(jīng)系統(tǒng)產(chǎn)生,而中樞神經(jīng)系統(tǒng)控制著人的情感表達,腦電信號可以實時并真實地反映出人的情感狀態(tài),因此越來越多的研究人員使用腦電信號進行情感識別研究。
特征提取和分類算法是腦電信號情感識別研究的主要內(nèi)容,由于腦電信號存在數(shù)據(jù)量少、數(shù)據(jù)復雜的特點,因此有效地提取腦電信號中有利于情感識別的特征對結果起著至關重要的作用。研究者從不同角度出發(fā),得到了許多對腦電信號情感識別有效的特征,如時域和頻域上的統(tǒng)計特性(STA)和分形維數(shù)(Fractial Dimension,F(xiàn)D)[8],它們被證明能有效地對腦電信號進行情感分類。此外,還有頻域特征中的功率譜密度(Power Spectral Density,PSD),GANESH 等[9]在DEAP 數(shù)據(jù)集上,通過提取每位受試者的對稱通道的互相關系數(shù)、離散小波變換(DWT)系數(shù)、Hjorth 參數(shù)、PSD、波段能量等特征,使用支持向量機(SVM)和K 最近鄰(KNN)在特征融合的基礎上進行情感分類,得到了較好的結果。根據(jù)DALTROZZO 等[10]對熟悉度作用的研究結果,THAMMASAN 等[11]將DEAP 數(shù)據(jù)集分為低熟悉度和高熟悉度的數(shù)據(jù),通過提取PSD 和FD,使用多層感知器(MLP)、SVM 和C4.5 算法對高、低熟悉度的腦電信號分別進行分類實驗,其中使用SVM 對低熟悉度的PSD 特征進行分類達到了最好的效果。ZHANG 等[12]提取了theta、alpha、beta 和gamma 4 個頻段的PSD 特征,首先使用Relief 算法進行通道選擇,然后運用SVM 和概率神經(jīng)網(wǎng)絡(PNN)進行分類,均得到了較好的結果。
隨著深度學習技術的發(fā)展,許多新的特征提取方法和分類方法被引入腦電信號研究領域,如TRIPATHI 等[13]將DEAP數(shù)據(jù)集中的腦電數(shù)據(jù)按時序劃分為10 小段,分別提取均值、中位數(shù)、最大值、最小值、標準差、方差、偏度、峰度等統(tǒng)計特征,使用深度神經(jīng)網(wǎng)絡(Deep Neural Network,DNN)作為分類器進行分類,在二分類和三分類的結果上都優(yōu)于傳統(tǒng)的SVM 和KNN。此外,LI 等[14]對腦電信號進行連續(xù)小波變換(CWT)后將其轉換為圖像并使用結合了卷積神經(jīng)網(wǎng)絡(CNN)和遞歸神經(jīng)網(wǎng)絡(Recursive Neural Network,RNN)的混合神經(jīng)網(wǎng)絡結構進行腦電信號情感識別,KAWDE 等[15]直接使用深度信念網(wǎng)絡(DBN)在經(jīng)過帶通濾波器的腦電信號上進行情感分類,ZHAN 等[16]設計一個淺的深度平行的卷積神經(jīng)網(wǎng)絡方法進行腦電的情感分類,均取得了很好的效果。
盡管深度神經(jīng)網(wǎng)絡的性能超過了傳統(tǒng)特征提取加分類器的方法,但現(xiàn)有的預測結果仍然有提升空間。由于腦電信號數(shù)據(jù)的復雜性,很少有研究將原始信號直接作為模型輸入,特征提取會損失部分數(shù)據(jù),包括信號之間的空間信息以及連續(xù)信號間的細微變化。但腦電信號的數(shù)據(jù)量限制又導致端到端的深度神經(jīng)網(wǎng)絡模型很難直接從深度學習模型中學習到與腦電信號情感識別相關的特征。因此,本文從近年來流行的特征抽取和深度學習的研究中得到啟發(fā),構建一個新的腦電信號情感識別模型框架,以在情感二分類和三分類問題上獲得較好的分類效果。
為驗證及充分比較本文方法的有效性,本文選擇DEAP 作為實驗數(shù)據(jù)集,DEAP 是由KOELSTAR等[17]建立的多模態(tài)數(shù)據(jù)集,該數(shù)據(jù)集是專用于生理信號情感識別分析的開源數(shù)據(jù)集。DEAP 包括來自中樞神經(jīng)系統(tǒng)(Central Nervous System,CNS)和周圍神經(jīng)系統(tǒng)(Peripheral Nervous System,PNS)的信號,探索了通過向不同用戶播放各類音樂視頻并采集相應生理信號,分析采集的生理信號對聽音樂時情感進行分類的可能性。
KOELSTAR 等[17]招募32 名健康的受試者(50%為女性),年齡在19~37 歲之間,每位受試者在實驗預設條件下,觀看40 段時長均為1 min 的音樂視頻,每段視頻結束后,受試者需要根據(jù)自身感受對喚醒度(Arousal)、效價度(Valence)、喜歡度(Liking)和優(yōu)勢度(Dominance)進行評分,評分范圍為1~9。本文根據(jù)RUSSELL 等[18]提出的二維情感模型選擇Valence和Arousal表示情感,不同情感均可映射到模型中的一點,Valence 表示人的情感狀態(tài)從負性情感(消極、悲傷等)到正性情感(積極、高興等),Arousal表示人感受到的情感強度從弱(冷靜)到強(激動)。該情感模型將Valence 和Arousal 映射到一個二維平面,并將二維平面分為4 個象限,第一象限為高效價度高喚醒度(HVHA),第二象限為低效價度高喚醒度(LVHA),第三象限為低效價度低喚醒度(LVLA),第四象限為高效價度低喚醒度(HVLA),如圖1 所示。
圖1 Valence-Arousal 二維情感模型Fig.1 Valence-Arousal two dimensional emotional model
每段音樂視頻會讓受試者產(chǎn)生不同的情感,DEAP 記錄了實驗過程中每位受試者的腦電信號(EEG)和外周生理信號。腦電信號由32 通道的腦電采集設備采集,采樣頻率為512 Hz,電極位置參照國際10-20 電極法[19]。在腦電信號采集實驗中,10-20 電極法是一種國際公認的在頭皮放置電極位置的方法,該系統(tǒng)是基于電極的位置和大腦皮層的潛在區(qū)域之間的關系設計的,如圖2 所示,DEAP 數(shù)據(jù)集采集實驗所用的32 個電極放置在頭皮上的位置為白色電極所在位置,黑色電極是未使用的電極。
圖2 10-20 系統(tǒng)中電極的位置分布Fig.2 Positions distribution of electrode in the 10-20 system
DEAP 數(shù)據(jù)集提供了兩種數(shù)據(jù)格式:第一種為原始數(shù)據(jù)采樣率為512 Hz,包括32 通道EEG 數(shù)據(jù),由于采集設備的不同,1-22 通道數(shù)據(jù)以Twente 格式記錄,23-32 通道數(shù)據(jù)以Geneva 格式記錄,兩者的數(shù)據(jù)存儲形式也不相同;第二種為降采樣并統(tǒng)一數(shù)據(jù)格式后的數(shù)據(jù),同樣有32 通道數(shù)據(jù),但采樣率降至128 Hz。由于多數(shù)研究在后者上進行實驗,為了增加對比結果的有效性,本文選擇降采樣后的數(shù)據(jù)作為實驗數(shù)據(jù)。
DEAP 數(shù)據(jù)集在采集過程中,需要每位受試者觀看40 個時長1 min 的音樂視頻片段,因此數(shù)據(jù)集包含32 位受試者的各40 段腦電信號數(shù)據(jù)??紤]到情感的產(chǎn)生本身是一個復雜的過程,并且在情感誘發(fā)實驗中,一般存在從平靜到情感激發(fā)再到平靜的過程,本文實驗并不對數(shù)據(jù)進行分片來擴大數(shù)據(jù)集,而直接使用整段數(shù)據(jù)來預測腦電信號的情感。因此,本文使用的數(shù)據(jù)包含32×40=1280 段腦電信號,每一段信號有32 通道數(shù)據(jù),每一通道代表一個電極采集的信號。每一通道數(shù)據(jù)持續(xù)63 s,其中前3 s 沒有意義,腦電信號采樣率為128 Hz,共8 064 次采樣,由于去除了前3 s 無效數(shù)據(jù),因此本文所使用的原始數(shù)據(jù)大小為1280×32×7 680。按照8∶2 的比例,將數(shù)據(jù)隨機劃分成訓練集和驗證集,其中訓練集包含1 024 個數(shù)據(jù),驗證集包含256 個數(shù)據(jù),進行模型訓練時,采用10 折-交叉驗證對模型進行驗證。
由于標簽是對于喚醒度(Arousal)和效價度(Valence)的連續(xù)值,因此在在二分類實驗中,以5 為分界點將Arousal 和Valence 分為低等級和高等級,數(shù)值小于5 的為低等級,數(shù)值大于等于5 的為高等級;在三分類實驗中,根據(jù)數(shù)據(jù)分布,以4 和6 為分界點將Arousal 和Valence 分為低、中、高三等級,每一等級的數(shù)據(jù)量相對均衡,即數(shù)值小于4 的為低等級,數(shù)值大于等于4、小于等于6 的為中等級,大于6 的為高等級。在將標簽由連續(xù)值轉換成二分類標簽和三分類標簽的基礎上,本文在DEAP 數(shù)據(jù)上使用腦電信號分別進行情感二分類和三分類。
本文的主要貢獻包括:
1)通過插值算法重建腦電信號間的位置關系,并作為深度學習模型的輸入,有效地提高了腦電信號情感分類的準確率。
2)將時序卷積模型引入腦電信號情感識別。
3)時頻域信息融合模型結合時域信息、頻域信息和電極位置信息,在DEAP 數(shù)據(jù)集上得到了更好的分類準確率。對于Valence 和Arousal,二分類準確率分別為86.31%和85.57%,三分類準確率分別為79.45%和78.96%。
圖3 所示為本文腦電情感識別的流程框架。本文模型主要由3 個部分組成,分別利用從采集的原始腦電數(shù)據(jù)中抽取的時域特征、頻域特征中的功率譜密度序列以及從功率譜密度和電極相對位置還原的位置信息,在經(jīng)過特征融合后對Arousal 和Valence進行分類。在不使用信息融合模型時,3 個部分數(shù)據(jù)均可分別進行情感分類。在此融合模型框架下,分別使用功率譜密度序列和功率譜密度分布圖進行情感分類,將訓練好的模型參數(shù)作為預訓練模型參數(shù),用于抽取對應特征向量,最后將3 個部分的特征向量進行特征層拼接后,使用全連接層預測最后的情感分類結果。
圖3 本文腦電信號情感識別融合模型框架Fig.3 The fusion model framework of EEG emotion recognition in this paper
2.2.1 特征提取
頻域分析在腦電信號情感分類問題上已被證明具有很好的效果,因此充分利用腦電信號在頻域上的特性有利于提高模型分類準確率。腦電信號根據(jù)其頻率范圍主要分為5 個頻段,分別為delta 波(1~3 Hz)、theta 波(4~7 Hz)、alpha 波(8~13 Hz)、beta 波(14~30 Hz)和gamma 波(31~45 Hz)。由于delta 波多在嬰兒智力發(fā)育不成熟和成人熟睡狀態(tài)時出現(xiàn),因此本文使用4~45 Hz 的帶通濾波器對腦電信號進行濾波,獲得去除delta 頻段的腦電數(shù)據(jù)。
對于單個電極而言,采集的腦電數(shù)據(jù)為一維離散變化數(shù)值,因此可以從時域和頻域兩方面對數(shù)據(jù)進行分析。本文使用濾波器去除delta頻段后,在時域上,抽取包括均值、中位數(shù)、最大值、最小值、標準差、方差、偏度和峰度在內(nèi)的8 個統(tǒng)計特征。在頻域上,使用快速傅里葉變換后計算出theta、alpha、beta 和gamma 頻段的功率譜密度,設長度為N的腦電信號x(t),t的取值為0~N-1,經(jīng)過傅里葉變換的結果如下:
其中:k=0,1,…,N-1;ωk=2πk/N。腦電信號的功率譜密度是其自相關函數(shù)γ(i)的傅里葉變換,自相關函數(shù)如下:
其中:i=0,1,…,N-1。自相關函數(shù)為偶函數(shù),因此有:
功率譜密度函數(shù)如下:
其中:k=-(N-1),-(N-2),…,0,1,…,N-1。
最終對于單個數(shù)據(jù),可以得到了一個維度為4×32×M的序列,其中,4 代表4 個頻段,32 代表32 個通道,M表示有效窗口數(shù)。
2.2.2 序列模型
特征序列的長度M與窗口大小N的選取有關,在本文實驗環(huán)境下,當M=12 時,在功率譜密度序列模型上獲得最佳分類結果。此時對于任意頻段功率譜密度,得到的是一個32×12 的二維矩陣,由于CNN模型通過多個卷積層的疊加能獲得更大的感受野,可以捕獲通道間的位置關系以及單個通道間時序上的關系,在腦電信號情感識別任務上取得很好的效果,該模型使用2 個卷積層加2 個全連接層的結構,其中卷積層的參數(shù)見表1,使用same padding,卷積層后的激活函數(shù)分別使用ELU 和ReLU,并使用BN,2 個全連接層前均加上系數(shù)為0.5 的Dropout 層,最后得到預測結果。
表1 卷積核參數(shù)Table 1 Convolution kernel parameters
2.3.1 位置信息重建
盡管2.2.1 節(jié)通過時頻域分析在腦電信號上抽取了一些有用的特征,但由圖2 所示的DEAP 數(shù)據(jù)集采集時所參照的10-20 系統(tǒng)電極的位置分布可知,在數(shù)據(jù)采集過程中電極之間存在相對位置關系。而在2.2.1 節(jié)中,所有腦電信號處理都是以單個電極為單位進行的,因此在以SVM 或KNN 等作為分類器,并使用從腦電信號上抽取的時域、頻域特征進行情感識別時,無法引入電極間的相對間的相對位置關系。在使用深度學習模型時,直接使用原始腦電信號序列或統(tǒng)計特征,盡管通過DBN 或CNN 進行學習時,模型有能力學習位置關系,但由于數(shù)據(jù)量較小,很難學習到準確的位置關系。因此,本文通過對數(shù)據(jù)進行位置信息重建,引入位置信息使得模型可以直接使用腦電信號中的位置關系,提高腦電信號情感識別的準確率。
本節(jié)將從位置計算和插值計算2 個方面詳細介紹位置信息重建的具體過程。為了能準確地計算電極位置,需要詳細介紹10-20 電極法中電極位置分布規(guī)則,10 和20 均代表圓周上電極間的距離,其中,10代表間隔距離為半圓周的10%,20 代表間隔距離為半圓周的20%。20%間隔的電極包括Fp1、Fp2、F8、T8、P8、O2、O1、P7、T7、F7,將上述10 個電極順時針相連相鄰兩點間的距離均為半圓周的20%,同時Fp1、Fp2、O2、O1與鼻子為軸的中軸線間的距離均為半圓周的10%。同樣地,在上述10 個電極中間等間隔放置10 個 電 極Fpz、AF8、FT8、TP8、PO8、OZ、PO7、TP7、FT7、AF7后,20 個電極間的間隔距離均為半圓周的10%。在得到圓周上20 個電極的位置后,分別作過AF7和AF8、F7和F8、FT7和FT8、TP7和TP8、PO7和PO8,并 垂直于中軸線的連接線,對連線上的電極作等距離劃分,得到剩下全部電極的位置。
在確定了電極的位置后,以Cz 電極的位置為中心,建立實際數(shù)據(jù)采集過程中的電極所處的大腦平面至二維平面的映射規(guī)則。由于不同電極間的距離相差較大,而當目標二維平面較小時,不同的距離被壓縮成同樣的大小,為了保留位置間的細微區(qū)別,二維平面的大小被設置成64×64,此時20 個電極所處圓的半徑為24。根據(jù)上述建立的平面映射規(guī)則,每一個電極對應二維平面上的一個坐標點,將某一時刻電極采集的信號強度作為該點的數(shù)值,就獲得了一個二維稀疏矩陣,稀疏數(shù)據(jù)不利于深度學習的模型,因此本文使用插值算法對稀疏矩陣進行填充。
插值算法被廣泛應用于圖像處理領域,如對圖像進行縮放時會使用雙線性內(nèi)插值法[20]、線性插值三角網(wǎng)法[21]等插值算法,使得放大后的圖像盡可能平滑,在進行地理圖像重構時會使用反距離加權插值法[22]、規(guī)則樣條插值算法等還原地理表面。不同于為了讓圖像看起來自然的圖像插值算法,腦電信號有本身的特點。腦電信號由不同腦部區(qū)域產(chǎn)生,同區(qū)域內(nèi)不同電極數(shù)值相關性大而不同區(qū)域內(nèi)數(shù)值相關性小,同時腦電信號存在非平穩(wěn)和非線性的特點,本文使用非線性加權插值的方法對稀疏矩陣進行填充。由于電極間位置越近,電極采集數(shù)據(jù)之間的影響越大,考慮到腦電信號非線性的特點,使用反比例函數(shù)對腦電信號進行加權。式(5)中包含的反比例函數(shù)權重隨著距離的增加迅速衰減,既反映了腦電信號的非線性變化,同時也使得距離遠的位于不同區(qū)域的腦電信號間的影響很小,有效反映了不同電極間的信號的相互作用。位于位置(x,y)的腦電信號強度valx,y等于不同電極采集數(shù)據(jù)的加權的和,單個電極對位置(x,y)的影響vali,(x,y)可表示為:
其中:λ是反比例函數(shù)的參數(shù),其控制了信號衰減的速率,λ越小信號衰減速率越快,本文選擇的λ=0.1;vali表示電極i的采集值;dx,y表示位置(x,y)距離電極i的距離,由歐拉距離表示:
其中:xi和yi表示電極i的位置。因此,位置(x,y)的腦電信號強度valx,y可表示如下:
本文在對位置信息進行重建時,并沒有直接使用原始腦電信號,而是使用功率譜密度。因為當直接使用腦電信號進行位置信息重建時,每次采集的信號會轉換得到一個信號強度矩陣,而每一個數(shù)據(jù)樣本包含7 680 次采樣數(shù)據(jù)。由圖4(a)可知,在使用原始信號進行位置信息重建時,相鄰幀的變化很大,無法通過如處理視頻文件時,等間隔抽取數(shù)據(jù)而不影響數(shù)據(jù)的相對完整性,同時可以看到,圖4(b)所代表功率譜密度隨時間變化并不明顯。而時間長度為7 680 的序列,現(xiàn)階段很難使用時序CNN 和RNN 進行學習。因此,本文使用2.2.1 節(jié)中通過計算原始腦電信號的自相關函數(shù)γ(i),并進行傅里葉變換后獲得的功率譜密度進行位置信息重建,該數(shù)值反映了腦電信號在頻域上的分布。信息重建的時間單位為時間窗口大小N,在該窗口時間內(nèi)的腦電信號分別計算theta、alpha、beta 和gamma 頻段的功率譜密度。同一個時間窗口內(nèi)的數(shù)據(jù),在每一個頻段上的32 個電極的功率譜密度會被重建為一個包含位置信息的二維矩陣。因此,對于一個數(shù)據(jù)樣本,最后可以獲得大小為4×M×64×64 的時序數(shù)據(jù),其中,4 代表4 個頻段,M為有效窗口數(shù),重建數(shù)據(jù)大小為64×64 的二維矩陣,如圖4(b)所示。
圖4 位置信息重建Fig.4 Reconstruct of position information
2.3.2 分布圖模型
在本文實驗環(huán)境下,當有效窗口數(shù)M=23 時,在功率譜密度分布圖模型上獲得最佳分類結果。此時對于任意頻段功率譜密度,有23 個有效窗口,每一個時間窗口內(nèi)的32 通道的頻段功率譜密度被轉換成一個二維矩陣,因此輸入為4 通道,每一通道為64×64×32 的三維矩陣,該模型使用same padding 和4 個3D 卷積核以及一個全連接層和1 個softmax 層去預測Arousal 和Valence 類別,每個3D 卷積核間均存在一個3D 最大池化層和批標準化(Batch Normalization,BN)層,3D 卷積核的參數(shù)如表2所示,最后全連接(Fully Connected,F(xiàn)C)層輸入維度為1 024,當進行二分類時輸出維度為2,當進行三分類時輸出維度為3。
表2 3D 卷積核參數(shù)Table 2 3D convolution kernel parameter
由2.2 節(jié)和2.3 節(jié)可知,單一的功率譜密度序列模型和功率譜密度分布圖模型均可直接被用來進行情感分類,除了對結果直接進行加權求和獲得最后結果外,本文也采取了特征融合,由于數(shù)據(jù)量較少,直接使用端到端模型難度很大,因此本文采取分步預訓練的方法,即將2.2 節(jié)和2.3 節(jié)中訓練好的模型作為特征抽取器,將功率譜密度分布圖轉換為1 024 維序列,將功率譜密度序列圖轉換為386 維序列,再使用直接拼接的方法將兩者以及時域特征拼接成1 418 維向量,最后使用一個全連接層和softmax 層進行情感分類。
由于本文所使用的模型由三部分組成,均可直接用于情感分類,本節(jié)對不同部分的分類效果進行說明,同時與已存在研究所使用方法的結果進行對比,以證明本文模型的有效性。
3.1.1 窗口大小對模型結果的影響
通過改變窗口大小和步長可以得到不同的有效窗口數(shù),窗口數(shù)會影響功率譜密度分布圖模型和功率譜密度序列模型的預測結果,進而影響整個融合模型的結果,表3 和表4 均給出不同窗口大小對應的有效窗口數(shù),以及分別使用功率譜分布圖模型和功率譜密度序列模型在二分類上的準確率。由表3 和表4 的結果可知,窗口大小設置為640 時可以取得最好的分類準確率,窗口設置的過大或者過小時分類準確率都會降低(粗體表示最優(yōu)值)。結果表明,當時間窗口設置的較小時,不能有效地提取到腦波信號中與情感有關的信息,或造成一定的信息丟失;當窗口設置的較大時,又可能會造成一些與情感相關的特征與其他無關特征混淆,混入冗余信息。在不同頻段的二分類結果如圖5 所示。
表3 窗口大小對PSD 分布模型的影響Table 3 Influences of window size for PSD distribution model
表4 窗口大小對PSD 序列模型的影響Table 4 Influences of window size for PSD sequence model
圖5 不同頻段的二分類結果Fig.5 Binary classification results of different bands
3.1.2 模型各部分效果分析
本文中模型的不同部分對于模型最后預測結果的作用是不相同的,本文分別運用分布圖、序列、時域、分布圖模型+序列模型進行特征融合,運用分布圖模型+時域模型進行加權求和,運用分布圖模型+序列模型+時域加權求和、分布圖+序列+時域進行特征融合。通過7 種方法對Valence 和Arousal分別進行二分類,其中加權求和均為求均值,表5 所示為消融分析下各方法的分類結果。由表5 數(shù)據(jù)可以看出,分布圖+序列+時域特征融合的方法對Valence 和Arousal 分類能得到最好的結果,準確率分別為86.31%和85.57%(粗體表示最優(yōu)值)。
表5 不同模型各部分對最后結果的影響Table 5 Influence of each part of the different model on the final result
3.1.3 不同模型對比
除本文所使用到的模型外,研究人員還提出了一系列的方法。文獻[11]通過提取功率譜密度特征,使用SVM 對 其分類,在Valence 和Arousal 上的準確率分別為72.5%和73.30%。文獻[12]同樣是提取功率譜密度特征,使用概率神經(jīng)網(wǎng)絡得到的分類準確率分別為81.21%和81.26%。文獻[13]通過提取不同的統(tǒng)計特征,使用卷積神經(jīng)網(wǎng)絡對其分類得到的準確率為81.41%和73.36%。文獻[14]對腦電進行連續(xù)小波變換后將其轉換為圖像,使用CNN+RNN 得到的準確率為72.06%和74.12%。文獻[15]使用深度信念網(wǎng)絡對腦電信號分類的準確率為78.28%和70.23%。將文獻[11-15]中的方法作為對比方法,與本文中的分布圖+序列+時域特征融合分類方法進行結果對比,如表6 所示。由表6 數(shù)據(jù)可知,本文所提出的分布圖+序列+時域特征融合模型,由于融合了多模態(tài)數(shù)據(jù),并引入了位置信息,可以得到很好的分類準確率,效果優(yōu)于其他方法。
表6 不同腦電信號情感分類方法比較Table 6 Comparison of different EEG emotion classification methods %
本文同樣使用了二分類結果中的7種方法對Valence和Arousal分別進行了三分類,不同方法的三分類結果如表7 所示。由表7 可以看出,三分類與二分類的結果類似,同樣是使用分布圖+序列+時域特征融合方法能得到最好的分類結果,準確率達到79.45%和78.96%。
表7 不同模型的三分類結果Table 7 Three classification results of different models
由于腦電本身就是一種非線性和非平穩(wěn)的隨機信號,分類算法在訓練和測試的過程中隨著識別情感類別的增加,損失也會增加,所以每種方法下的三分類準確率會低于二分類準確率。圖6 展示了本文中的7 種分類方法對Valence 的二分類和三分類結果對比,從圖中可以明顯看出,7 種方法對Valence 的三分類準確率均低于二分類準確率。此外,不同方法對Arousal 的三分類準確率同樣低于二分類準確率,此處僅以Valence 為例進行直觀表示。
圖6 二分類和三分類結果對比Fig.6 Comparison of results in binary classification and three classification
深度學習方法在眾多研究領域中效果較好,尤其在數(shù)據(jù)量較大的情況下,端到端的模型可避免不正確的手工特征影響分類結果,但在腦電信號情感識別領域,由于數(shù)據(jù)量不大,很難直接訓練得到有效的端到端模型。本文在現(xiàn)有研究的基礎上,提出一種基于功率譜密度的腦電信號位置信息重建方法。該方法構建的深度學習模型能直接利用電極間的位置信息,并與傳統(tǒng)特征結合分類器的模型進行有效融合。實驗結果表明,在對Valence 和Arousal 進行二分類和三分類的任務上,該方法分別取得了86.31%和85.57%、79.45%和78.96%的準確率。本文方法直接在時域上使用原始腦電信號效果并不顯著,下一步將結合神經(jīng)科學相關知識在短時片段上進行位置信息重建,通過特定模式識別在整體上實現(xiàn)腦電信號情感分類。