陳景霞,唐喆喆,林文濤,胡凱蕾,謝 佳
陜西科技大學 電子信息與人工智能學院,西安 710021
情緒在人們的思考、行為和交流方式中起著重要作用。隨著人工智能技術的發(fā)展,人們的關注熱點轉向開發(fā)能夠自動識別人類情感的設備和系統(tǒng)[1]。將人機交互系統(tǒng)中的情緒評估與情緒識別相結合,可以讓人機交互更加智能化、人性化。因此,情緒識別在安全駕駛、醫(yī)療保?。ㄌ貏e是心理健康檢測)、社會保障等領域具有廣泛的應用前景[2]。
目前,用于情緒識別的數據主要分為兩大類,一類是非生理信號,如面部表情、語音音調等;另一類是生理信號,如心電、皮膚電、眼電、腦電等。其中,腦電信號(electroencephalogram,EEG)由于其采集時無法偽裝且較易獲得真實客觀的結果的特點,成為了情緒識別中較受重視的一種生理信號。近年來,基于EEG的情緒識別引起了學術界和工業(yè)界的廣泛關注[3-4]。研究人員在特征提取和模型構建方面取得了較大的進展。然而,對于使用機器學習或深度學習來構建基于EEG的情緒識別模型,可用的高質量訓練數據仍顯不足,其主要原因包括:(1)建立一個能夠有效采集EEG信號的實驗環(huán)境的開銷比較大;(2)基于EEG的情緒識別實驗耗時長且步驟繁瑣,信號采集效率低;(3)采集的原始EEG數據的信噪比太低;(4)基于EEG的公共情緒識別數據集數量有限,如DEAP[5]、SEED[6-7]、DREAMER[8]、MAHNOBHCI[9]等。因此,高質量EEG數據的缺乏限制了機器學習和深度學習方法在EEG情緒識別中的進一步發(fā)展和應用。
解決數據稀缺性問題的一種策略是根據原始數據生成人工數據,利用生成的人工數據擴充原始數據集,這通常被稱為數據增強[10]。在計算機視覺領域中,通過幾何變換(平移、旋轉、縮放、水平剪切)[11]來生成人工圖像是很常見的。類似的技術也被應用在基于腦電信號的任務中。Lotte[12]通過對原始實驗的相關組合和畸變產生人工腦電數據,該方法提高了訓練集較小時的識別準確率。Wang等人[13]通過在腦電特征中加入高斯噪聲生成人工數據,提高了基于EEG的情緒識別模型的性能。
由于腦電信號為時間序列信號,應用幾何變換會破壞事件相關的特征。Goodfellow等人[14]提出的生成對抗網絡(generative adversarial networks,GANs)并沒有通過幾何變換生成數據,而是通過采用對抗式訓練生成類似現實的數據。Hartmann等人[15]提出了腦電信號生成對抗網絡(electroencephalogram-generative adversarial networks,EEG-GAN)生成腦電信號,在神經科學中開辟了一系列新的生成應用場景,如腦機接口任務中的數據增強、EEG超采樣或損壞數據段的恢復等。Zhang和Liu[16]提出了一種基于條件的深度卷積生成對抗網絡(conditional deep convolutional generative adversarial networks,cDCGAN),在運動想象的BCI競賽數據集上進行了驗證,實驗結果表明,原始EEG數據、人工EEG數據和混合EEG數據的分類準確率基本一致,分別為82.86%、82.86%和82.14%。Luo等人[17]提出了一個條件Wasserstein生成對抗網絡(conditional Wasserstein generative adversarial networks,CWGAN),采用帶有梯度懲罰的CWGAN生成EEG的微分熵(DE)特征并對EEG訓練數據進行增強,在DEAP數據集上進行了喚醒度和效價情感二分類實驗,在SEED數據集上進行了情感三分類實驗,其分類精度較原始DE特征分別提高了2.97、9.15和20.13個百分點。Bhat和Hortal[18]提出了一種基于梯度懲罰的Wasserstein生成對抗網絡(Wasserstein generative adversarial networks with gradient punishment,WGAN-GP)的EEG數據增強方法,在DEAP數據集上提取時域的9個特征,情緒二分類任務的準確率在效價、喚醒度、支配度和喜歡這四個維度上分別提高了5、3.75、6.25、17.5個百分點。
雖然現有的基于GAN增強原始數據集的方法已取得了較大的進展,但仍存在兩個問題有待解決:一是由于原始EEG信號的信噪比較低,直接生成原始EEG數據可能會引入噪聲和偽跡,導致生成數據質量較差;二是如何使用深度學習網絡從EEG時序信號中提取前后相關的特征信息,從而提高生成數據的質量?;谏鲜鰞蓚€問題,本文將EEG數據的標簽作為輔助信息輸入到搭建的帶有自注意力機制的Wasserstein生成對抗網絡中,從而生成更高質量的DE特征和PSD特征,最后在SVM分類器上進行情緒分類。本文主要研究了引入自注意力機制的條件Wasserstein生成對抗網絡(SAcWGAN)在生成并增強EEG數據集(合成數據)方面的可用性,以及提高情緒識別分類性能的有效性。
GANs是新興的深度學習網絡結構,最常用于生成類似真實的數據。一個標準的GAN由兩個相互競爭的組件組成,它們都被參數化為深度神經網絡。給定真實數據分布Pr和生成數據分布Pg,生成器G在給定噪聲變量輸入的情況下生成類似真實的數據分布Pg,而判別器D要嘗試識別一個樣本是來自Pr還是Pg。對抗性訓練過程可以表述為一個極大極小問題:
其中,θG和θD分別表示生成器和判別器的參數,Pg是由xg=G(xz)隱式定義的,這里的xz是噪聲樣本,采集自均勻分布或高斯分布。
原始的GANs使用的優(yōu)化方法是KL散度(Kullback-Leibler divergence)和JS散度(Jensen-Shannon diver-gence)。這兩個方法都是對兩個數據分布之間的差異進行描述,其中JS散度對KL散度不對稱的這一缺陷進行了改進,但是這兩種度量方式在計算時還是會出現梯度不連續(xù)并且會消失的問題,這也是GAN網絡不穩(wěn)定的主要原因。
針對GAN網絡中存在的梯度消失問題,Arjovsky等人[19]提出了Wasserstein生成對抗網絡(Wasserstein generative adversarial network,WGAN)。WGAN網絡摒棄了KL散度和JS散度,引入了推土機距離(earthmover distance,EMD),也被稱為Wasserstein距離,其計算公式可以表示為:
其中,Π(Pr,Pg)表示真實數據分布Pr和生成數據分布Pg之間所有可能的聯合分布,γ是其中任意一個可能的聯合分布。
EMD幾乎在所有地方都是連續(xù)且可微分的,因此可以為優(yōu)化生成器提供有意義的梯度,這樣可以保證GANs的收斂性。在現實中,其實很難實現上述等式的輸入值,從而有了另一種方法,即應用EMD的KR對偶性(Kantorovich-Rubinstein duality),將公式(2)轉化為:
其中,f是1-Lipschitz函數的集合,K是一個常數。在實現過程中,判別器D的輸出替換了f,‖f‖L≤K被‖D‖L≤1替換。
接下來的問題就是解決公式(3)中函數f的最大化問題。Arjovsky等人[19]提出了一種權重剪裁的方法,即在優(yōu)化判別器時每一步梯度下降后,將判別器的參數的絕對值剪裁到某個固定常數所構成的范圍。但是權重剪裁的方法比較暴力,為了使訓練過程更加穩(wěn)定,收斂速度更快,Gulrajani等人[20]采用梯度懲罰的Lipschitz約束,而不是權重剪裁,直接約束梯度范數,他們所提出的方法是在網絡的損失函數上增加了一個懲罰項:
其中,λ是控制原始數據和梯度懲罰之間權衡的超參數,是從真實數據分布Pr和生成數據分布Pg之間的直線上采樣的數據點,其計算公式如下:
其中,α來自U[0,1],xr來自Pr,xg來自Pg。
受Mirza等人[21]提出的條件生成對抗網絡(conditional generative adversarial nets,cGANs)的啟發(fā),可以將類別標簽作為額外信息也輸入到生成器和判別器中。為了生成具有多個類別的數據,將輔助標簽Lr輸入判別器和生成器。在生成器中,將噪聲Z和Lr連接起來;在判別器中,將真實數據Pr和生成數據Pg與Lr連接起來,構造一個隱藏表示,它可以控制生成數據的類別。
本文首先構建cWGAN,其工作原理如圖1所示,基于梯度懲罰的cWGAN其生成器損失(Gloss)和判別器損失(Dloss)的計算公式可以表示為:
圖1 cWGAN的工作原理Fig.1 Working principle of cWGAN
在本文構建的cWGAN網絡中,生成器和判別器中均有卷積層,而卷積層受到卷積核大小的限制,生成器只能采集到EEG數據局部區(qū)域的相關性。EEG數據是時間序列信號,前后的時間點信息是有關聯性的,Zhang和Goodfellow等人[22]在2019年提出的SAGAN中使用到的自注意力機制可以在數據生成過程中利用自注意力的遠程依賴關系建立模型,從而提高生成數據的質量。在基于EEG的情緒識別中,自注意力機制可以利用來自所有時間點的信息生成更細致的與情緒相關的信息。同時,判別器可以用來檢查EEG時間序列中前后相差較遠的時間點的細節(jié)特征是否相關。自注意力機制既可以給更重要的信息分配更大的權重,也可以獲取EEG時間序列的全局特征。
本文采用的自注意力機制的工作原理如圖2所示。圖中最后的輸出,即自注意力特征映射是將卷積特征映射和其自身轉置的乘積再與卷積特征映射相乘,這樣計算的效果可以增強EEG時間序列中時間點相差較遠特征間的關聯,從而可以學習任意兩個時間點之間的依賴關系,進而獲得EEG全局特征。
圖2 自注意力機制的工作原理Fig.2 Working principle of self-attention mechanism
具體的計算方法如下:記Wf∈?Cˉ×C,Wg∈?Cˉ×C,Wh∈?Cˉ×C和Wv∈?C×Cˉ是學習的權重矩陣,都是通過1×1卷積實現,在實驗中使用/8。將一個隱藏層x∈?C/N的EEG信號特征轉換為兩個特征空間f、g來計算注意力,其中C是通道數,N是來自前一個隱藏層的特征位置數,f(x)=Wf x,g(x)=Wg x。
用βj,i表示在合成第j個區(qū)域時模型對第i個位置的影響程度,有:
其中,sij=f(xi)Tg(xj)。
注意層的輸出為o=(o1,o2,…,oj,…,oN)∈?C×N,其中:
此外,進一步將注意層的輸出與一個比例參數相乘,并將其添加回輸入特征圖。因此,最終的輸出表示為:
其中,γ被初始化為0,目的是讓網絡首先關注鄰域信息,然后逐漸學會為其他遠距離特征分配權重。
本文搭建的SA-cWGAN的總體結構如圖1所示,其生成器與判別器的結構如圖3所示。其中,判別器是由卷積層(Conv)、批量歸一化層(BN)、LeakyReLU激活層、自注意力層(self-attention)、平鋪層(Flatten)和全連接層(Dense)構成,生成器是由全連接層(Dense)、批量歸一化層(BN)、ReLU激活層、反卷積層(DeConv)、自注意力層(self-attention)和卷積層(Conv)構成,最后一層是由激活函數為ReLU的卷積輸出生成的EEG數據。SA-cWGAN使用Wasserstein距離作為判別器的損失函數來穩(wěn)定整個訓練過程,并使用TTUR(two timescale update rule)技術來優(yōu)化整個網絡的訓練,即生成器和判別器的使用單獨的學習率進行訓練。
圖3 SA-cWGAN中生成器與判別器的網絡結構Fig.3 Network structure of generator and discriminator in SA-cWGAN
本文在公開的EEG情緒識別數據集DEAP和SEED上進行實驗,以驗證并評估所提方法的性能。
DEAP數據集是由英國倫敦瑪麗皇后大學的Koelstra等人[5]創(chuàng)建的,它包含32名參與者在觀看40個1 min時長的音樂視頻片段時的腦電信號和其他外圍生理信號,觀看視頻之后,每個被試對觀看的每個視頻根據喚醒度、效價、喜好、支配度和熟悉度在連續(xù)的9分制上進行在線自我評價,評價值越大表示各項指標越強。該數據集包括48個通道,其中32個EEG通道、12個外圍通道(包括皮膚電反應和溫度)、3個未使用的通道和1個狀態(tài)通道。根據國際1 020系統(tǒng)對來自EEG的信號進行采樣。
SEED數據集是由上海交通大學的呂寶糧等人[6-7]創(chuàng)建的,它包含15名參與者觀看15個情緒電影片段,以引出三種情緒:積極、中性和消極。實驗共開展了三次,總共有45個實驗。該數據集包括62個EEG通道,使用ESI神經掃描系統(tǒng)以1 000 Hz的采樣率記錄EEG信號。
2.2.1 預處理
(1)DEAP數據集
本文取DEAP數據集的32個通道的EEG信號,為了消除數據采集過程中所產生的噪聲和偽跡,使用4~45 Hz的帶通濾波器對數據進行過濾,再采用盲源分離技術將眼電干擾去除,并將采樣頻率降到128 Hz,最終得到總時長為63 s的EEG信號,包括觀看前靜息態(tài)的3 s和觀看視頻時的60 s。將觀看視頻之前靜息態(tài)的3 s EEG信號作為基線,以剔除與視頻刺激無關的信號,從60 s實驗信號中去除基線,得到刺激相關的序列變化。之后再對每個視頻誘發(fā)的60 s EEG序列進行特征提取。
原始的數據集數據(data)格式表示為32(subs)×40(trials)×40(channels)×8 064(samples),其中8 064表示128(samples)×63(s),標簽表示為40(trials)×4。經過上述預處理之后,數據表示為32(subs)×40(trials)×32(channels)×7 680(samples)。標簽(labels)選取效價和喚醒度兩個維度,即40(trials)×2,然后,將評分大于5的值設為1,表示高效價/喚醒度;小于等于5的值設為0,表示低效價/喚醒度;這兩類標簽表示為{0,1}。
本文作者之前的實驗[23]發(fā)現,使用大于或小于1秒的窗長進行分段都會降低分類的性能,這也許與人類大腦情感活動的周期長度有關。因此,本文進行樣本劃分時采用1 s時長對EEG序列進行不重疊分段,每個實驗得到60個片段,每個片段包含128個采樣點,每個采樣點包含32個通道,這樣每個被試的EEG數據可表示為40×128×60×32,維度變換后得到2 400×128×32的EEG數據,每個被試共有2 400個EEG片段,每個片段大小為128×32。對標簽進行同樣的處理,維度變換后可表示為2 400×1。
(2)SEED數據集
SEED數據集中已有提取到的DE和PSD特征,將每個被試的實驗數據連接到一起后的DE和PSD特征大小均為62(channels)×5×3 394(samples),其中5為δ、θ、α、β和γ五個頻帶;三分類標簽表示為{?1,0,1}。
2.2.2 特征提取及處理
Zheng等人的研究[6]表明,EEG信號的DE特征對于EEG情緒識別性能較好。因此,本文選用微分熵(differential entropy,DE)特征進行后續(xù)的實驗。DE特征的計算公式可以表示為:
其中,時間序列X服從高斯分布N(μ,σ2)Shi等人[24]證明了DE的值等于一定頻帶內固定長度EEG序列的對數頻譜能量,根據他們的方法,本文從預處理的EEG信號中提取了DE特征。
同時,本文也提取了DEAP數據集上的PSD特征,PSD是基于EEG的情緒識別的傳統(tǒng)特征,用來驗證所提方法的有效性。
神經科學和心理學的研究表明,EEG信號在δ(1~4 Hz)、θ(4~8 Hz)、α(8~13 Hz)、β(13~30 Hz)和γ(30 Hz以上)5個頻段上包含大量與情緒等心理活動密切相關的節(jié)律信息[25]。由于DEAP數據集在預處理時已將δ頻帶過濾,故從θ、α、β和γ這四個頻帶提取DE特征和PSD特征。
對DEAP和SEED數據集中的DE特征和PSD特征分別進行最小最大歸一化處理,然后輸入到本文構建的生成對抗網絡模型中進行DE和PSD數據生成。最小最大值歸一化(min-max normalization)的計算方式如式(11)所示。
對于每一維特征xi,i=1,2,…,p,第k個樣本的特征值xik,k=1,2,…,n,歸一化后表示為:
使結果值映射到[0,1]之間。其中min(xi)和max(xi)分別是特征xi在所有樣本上的最小值和最大值。
經過處理后,DEAP數據集中每個被試的EEG數據維度轉化為32(channels)×4,其帶有標簽的樣本數量為2 400個;SEED數據集中每個被試的EEG數據維度轉化為62(channels)×5,其帶有標簽的樣本數量為3 394個。本文在DEAP數據集的效價和喚醒度兩個維度上進行了二分類實驗,在SEED數據集上進行了三分類實驗。
基于上述DEAP和SEED數據集中所有被試的EEG數據的DE和PSD特征,本文進行了大量情感分類實驗,來驗證所提方法的可行性與有效性,并使用SVM對原始數據和增強數據進行情緒分類。實驗基于Tensorflow 1.8框架和GeForce GTX 3090 GPU進行。
本文選擇三種目前使用較多的生成對抗網絡作為基準方法展開對比實驗,3種對比方法的基本原理和配置如下:
(1)cGAN:生成器和判別器網絡均由多層感知機構成,EEG情緒標簽作為兩個網絡的輔助信息輸入,對抗性訓練過程與原始GAN網絡一致,使用BCEloss作為判別器的損失函數,使用Adam優(yōu)化器優(yōu)化生成器和判別器網絡。
(2)cDCGAN:判別器由兩層卷積網絡構成,生成器由兩層反卷積網絡構成,EEG情緒標簽作為兩個網絡的輔助信息輸入,損失函數和優(yōu)化函數與上面的cGAN相同。
(3)cWGAN:生成器和判別器網絡與cDCGAN網絡的構成相同,使用Wasserstein距離來計算損失函數并加上一個梯度懲罰項,使用Adam優(yōu)化器來優(yōu)化兩個網絡。
3.1.1 網絡結構與超參數選擇
為了獲取模型的最優(yōu)參數配置,本文設置了如下模型參數的搜索空間:模型生成器和判別器的卷積和反卷積層數分別可選2、3和4,每一個卷積層和反卷積層的卷積核個數可選16、32、64和128,生成器和判別器的優(yōu)化器學習率選擇區(qū)間為[0.000 01,0.000 1,0.001,0.01],梯度懲罰項的超參數λ的值分別可選1、5和10,訓練機制的超參數critic的值分別可選5、10和20,迭代次數分別可選500、1 000、1 500和2 000。為了得到最優(yōu)的loss曲線和質量最高的生成數據,對這些參數設置排列組合并進行一次次調優(yōu)實驗,最終得到如表1所示的最優(yōu)參數配置。
表1 SA-cWGAN網絡的參數設置Table 1 Parameter setting of SA-cWGAN network
其中,G表示生成器,D表示判別器,卷積層和反卷積層的參數n、k和s分別表示卷積核個數、卷積核大小和步長,“/”前后的數據分別為DEAP和SEED數據集訓練時的模型參數,其余參數保持一致。
3.1.2 SA-cWGAN模型的訓練過程分析
生成對抗網絡一般使用判別器損失作為評價網絡學習功能好壞的指標。本文所構建的SA-cWGAN模型在DEAP數據集效價維度下判別器損失(Dloss)的學習曲線如圖4所示。DEAP數據集喚醒度和效價維度下和SEED數據集中被試進行模型訓練的曲線都是相似的。
圖4 SA-cWGAN模型判別器損失的學習曲線Fig.4 Learning curve of discriminator loss of SA-cWGAN model
圖4是DEAP數據集在效價維度下SA-cWGAN模型判別器損失(Dloss)的學習曲線,如圖所示,隨著迭代系數的增加,判別器損失值剛開始會出現急速下降的情況,但它很快就會上升到?1以上,經過400次迭代后,Dloss已經上升到?0.2,這表明該網絡具有良好的收斂性能,當迭代次數達到600以后,Dloss雖然會輕微振蕩,但也是穩(wěn)定在?0.15~0這個范圍之間,并且不斷趨近于0。同時,Wasserstein距離用來描述真實數據分布和生成數據分布之間的差異性,Dloss收斂到一個較小的值意味著兩個數據分布越來越相似。此外,也可以觀察到Dloss的收斂速度很快并且訓練過程很穩(wěn)定,這應該得益于梯度懲罰(GP)在梯度計算過程中起到的作用。
本文分別在DEAP數據集的喚醒度(arousal)和效價(valence)兩個維度以及SEED數據集上進行了數據增強與情感分類實驗,并使用SVM作為分類器。DEAP數據集中每個被試有2 400個樣本,實驗分別生成了0、50、200、500、1 000、2 000、2 400和4 000個人工DE和PSD特征樣本;SEED數據集中每個被試有3 394個樣本,實驗分別生成了0、50、200、500、1 000、2 000、3 394和5 000個人工DE和PSD特征樣本。將它們分別添加到原始訓練數據集中對其進行增強。
通過觀察表2和表3可知,無論在DEAP數據集的arousal和valence兩個維度還是SEED數據集上,隨著所提模型生成的人工樣本逐步添加到原始數據集,平均分類準確率都有一定的增長。在給每個被試的原始訓練集中添加2 400/3 394個人工樣本(1×dataset)時,DE和PSD特征上的平均分類準確率均達到了峰值,在DEAP數據的arousal和valence維度上和SEED數據集上,增強的DE訓練數據集平均分類準確率分別為75.26%、80.06%和88.26%,較原始DE訓練數據集的平均分類準確率分別提高了16.63、17.55和4.64個百分點,這表明了由SA-cWGAN生成的人工樣本可以有效地增強訓練數據集并提升情緒識別的性能。由表2、表3可知,所提模型生成的PSD特征也能有效地增強分類準確率。但人工樣本數繼續(xù)增加時,兩個數據集上分類準確率均趨于穩(wěn)定并且有所降低,這表明隨著人工樣本的增加,與情緒識別不相關的特征也在增加,分類準確率也因此受到限制。
表2 DEAP數據集上的平均分類準確率Table 2 Mean classification accuracies in DEAP dataset單位:%
表3 SEED數據集上的平均分類準確率Table 3 Mean classification accuracies in SEED dataset單位:%
圖5中展示的是在DEAP數據集的arousal和valence兩個維度上原始數據集和添加2 400個人工樣本以后的數據集上每個被試的分類準確率對比情況,可以看出,用所提模型生成的人工樣本對原有數據集進行增強后均在不同程度上提高了每個被試的分類準確率。從而驗證了所提模型及方法對于提高EEG情緒分類任務準確率的有效性。
圖5 每個被試分類準確率對比示意圖Fig.5 Comparison diagram of classification accuracy of each subject
3.3.1 與基準模型對比
為了驗證所提模型的可行性與有效性,本文還搭建了cGAN、cDCGAN和cWGAN三種基準模型進行了對比實驗。這三個模型的基本原理和配置如本節(jié)開頭所述。表4中的結果都是DEAP數據集中給每個被試添加2 400個生成的人工樣本(1×dataset)后使用SVM分類器進行二分類的平均分類準確率;表5中的結果都是SEED數據集中給每個被試添加3 394個生成的人工樣本(1×dataset)后使用SVM分類器進行三分類的平均分類準確率。
如表4和表5所示,這三個模型所生成的人工樣本添加到原始訓練數據集后都不同程度地提高了分類準確率。但是,cGAN和cDCGAN由于訓練過程不穩(wěn)定,訓練過程中容易出現模型坍塌,最后的準確率提高得不是很明顯;cDCGAN因為生成器和判別器都使用的是卷積網絡,所以可以獲取到更多與情緒相關的信息;cWGAN是在cDCGAN的基礎上改進了損失計算函數和梯度計算方式,即使用Wasserstein距離來縮小生成數據和真實數據之間的分布差異,并使用梯度懲罰來計算梯度,從而使得分類準確率提高得更加明顯。本文所提模型是在搭建的cWGAN模型上引入了自注意力機制并且對生成器和判別器使用不同的學習率,通過觀察表4和表5可知,所提模型達到了最優(yōu)效果,增強的DE訓練數據集較cWGAN在DEAP數據集的arousal和valence維度和SEED數據集上分別提高了3.2、4.37和1.7個百分點,這表明自注意力機制可以更好地提取時間序列中前后時間點的深層情感相關信息。同時,也證明了所提模型提高情緒分類任務的可行性和有效性。
表4 DEAP數據集不同模型的平均分類準確率Table 4 Mean classification accuracies of different model in DEAP dataset 單位:%
表5 SEED數據集不同模型的平均分類準確率Table 5 Mean classification accuracies of different model in SEED dataset 單位:%
3.3.2 與現有最優(yōu)模型對比
為了進一步驗證自注意力機制對提升cWGAN生成人工樣本質量的有效性,將所提模型與Luo等人[17]所提出的CWGAN模型在不同程度增強的數據集上進行了對比實驗。對比實驗采用與其相同的策略來劃分每個被試的訓練集和測試集。DEAP數據集的總樣本數有2 400個,有40個實驗(trials),前24個實驗(1 440個樣本)設為訓練集,其他的16個實驗(960個樣本)設為測試集;SEED數據集的總樣本數有3 394個,有15個實驗(trials),前9個實驗(2 010個樣本)設為訓練集,其他的6個實驗(1 384個樣本)設為測試集。在兩個數據集上提取每秒頻帶上的DE和PSD特征,并使用相同參數配置的SVM作為分類器。對比實驗結果如表6、7所示。
添加的人工樣本數量n×dataset表示將原始數據集擴增n倍,通過觀察表6和表7中數據發(fā)現,當擴增樣本為1×dataset時,兩個模型均達到峰值。由于Luo等人只對DE訓練數據集進行了增強,所以對比實驗只羅列了Luo等人所提模型對DE訓練數據集進行增強的平均分類準確率。所提模型對DE和PSD訓練數據集分別進行了增強,在DEAP數據集的valence維度上比Luo等人提出的模型高出6.17個百分點,在SEED數據集上比Luo等人提出的模型高出1.3個百分點,后面隨著人工樣本數的增加,平均分類準確率也趨于穩(wěn)定。在本文的實驗場景下,原始DE特征在DEAP數據集的valence維度的平均分類準確率比arousal維度的平均分類準確率要高,可能是數據處理階段受實驗環(huán)境和條件的影響,與Luo等人的實驗結果有所不同。實驗結果證明了所提模型的有效性,并且也表明自注意力機制能夠獲取EEG數據前后時間點的相關信息,進而有效提升了生成數據的質量和情感分類的性能。
表6 不同程度增強的DEAP數據集上的對比實驗結果Table 6 Comparative experimental results on DEAP datasets with different scale of enhancement 單位:%
表7 不同程度增強的SEED數據集上的對比實驗結果Table 7 Comparative experimental results on SEED datasets with different scale of enhancement 單位:%
本文提出了一個引入自注意力機制的條件Wasserstein生成對抗網絡(SA-cWGAN)模型,模型在使用Wasserstein距離來穩(wěn)定訓練過程的同時,引入自注意力機制從而能夠更好地提取EEG時間序列前后相關的特征信息,提升生成數據的質量,以解決基于深度學習的EEG情緒識別研究中高質量數據集缺乏、情感分類準確率和穩(wěn)定性不高等問題。在DEAP和SEED數據集上進行了多組對比實驗,使用了生成的DE和PSD特征來擴充原始數據集,使用SVM進行情緒二分類和三分類實驗,所提模型對DE特征的增強效果更佳,在DEAP數據集的喚醒度和效價兩個維度上的最好平均分類準確率達到了75.26%和80.06%,均優(yōu)于所搭建的三個基準模型,并較現有的最優(yōu)模型在效價情緒二分類的平均準確率提高了6.17個百分點,在SEED數據集上的平均分類準確率也提升了,較現有的最優(yōu)模型提高了1.3個百分點,結果證明了所提模型的可行性與有效性。
與文本、語音、圖像等數據不同的是,生成的EEG數據比較抽象,這些生成數據的可解釋性和如何評估這些生成的人工數據的質量還需要做進一步研究。此外,后續(xù)也會對生成對抗網絡進行更深入的研究,不斷改進優(yōu)化模型的結構從而生成更多高質量的EEG數據,為EEG情緒識別、腦-機接口任務中EEG數據增強、EEG超采樣及損壞數據段的恢復提供更多有效的解決途徑。