摘 要:現(xiàn)有的機器學(xué)習和深度學(xué)習在解決基于心電信號的情緒識別問題時主要使用全監(jiān)督的學(xué)習方法。這種方法的缺點在于需要大量的有標簽數(shù)據(jù)和計算資源。同時,全監(jiān)督方法學(xué)習到的特征表示通常只能針對特定任務(wù),泛化性較差。針對這些問題,提出了一種基于對比學(xué)習的心電信號情緒識別方法,該方法分為預(yù)訓(xùn)練和微調(diào)兩步。預(yù)訓(xùn)練的目的是從未標記的心電數(shù)據(jù)中學(xué)習特征表示,具體為:設(shè)計了兩種簡單高效的心電信號增強方式,將原始數(shù)據(jù)通過這兩種數(shù)據(jù)增強轉(zhuǎn)換成兩個相關(guān)但不同的視圖;接著這兩種視圖在時間對比模塊中學(xué)習魯棒的時間特征表示;最后在上下文對比模塊中學(xué)習具有判別性的特征表示。微調(diào)階段則使用帶標記數(shù)據(jù)來學(xué)習情緒識別任務(wù)。在三個公開數(shù)據(jù)集上的實驗表明,該方法在心電信號情緒識別準確率上與現(xiàn)有方法相比提高了0.21%~3.81%。此外,模型在半監(jiān)督設(shè)定場景中表現(xiàn)出高有效性。
關(guān)鍵詞:心電信號; 情緒識別; 對比學(xué)習; 自監(jiān)督學(xué)習; 深度學(xué)習; 生理信號; 數(shù)據(jù)增強; 自注意力機制
中圖分類號:TP391文獻標志碼: A文章編號:1001-3695(2024)04-024-1123-08
doi:10.19734/j.issn.1001-3695.2023.07.0354
ECG-based emotion recognition based on contrastive learning
Long Jinyi1a,1b,2, Fang Jinglong1 Liu Siwei1 Wu Hanrui1 Zhang Jia1a
Abstract:The majority of current machine learning and deep learning solutions for ECG-based emotion recognition utilize fully-supervised learning methods. Several limitations of this approach are that large human-annotated datasets and computing resources are required. Furthermore, the feature representations learned by fully supervised methods tend to be task-specific with limited generalization capability. In response to these issues, this paper proposed an approach based on contrastive lear-ning for ECG-based emotion recognition, which consisted of two steps,such as pre-training and fine-tuning. The goal of pre-training was to learn representations from unlabeled EGG data through contrastive learning. Specifically, it designed two simple and efficient ECG signal augmentation methods, and used these two views to learn robust temporal representations in the time contrastive module, followed by learning discriminative feature representations in the context contrastive module. Fine-tuning used labelled data to learn emotion recognition. Experiments show that the proposed method has reached the maximum accuracy on three public ECG-based emotion recognition datasets. Additionally, the proposed method shows high efficiency under the semi-supervised settings.
Key words:electrocardiogram signal; emotion recognition; contrastive learning; self-supervised learning; deep learning; physiological signals; data augmentation; self-attention mechanism
0 引言
情緒是人對外界客觀事物的態(tài)度體驗及其相應(yīng)的行為反映,情緒識別在許多場景中都非常有用[1]。例如:在醫(yī)學(xué)領(lǐng)域,其用于抑郁病人的壓力評估;在產(chǎn)品銷售領(lǐng)域,獲取用戶的情緒變化,有利于確定個人是否真的有興趣購買某種商品;在交通領(lǐng)域中,及時檢測司機的情緒狀態(tài)是避免事故發(fā)生的一種有效手段。
近年來,國內(nèi)外學(xué)者使用各種生理信號用于情緒識別,其中有面部表情[2]、心電圖(ECG)[3]、腦電圖(EEG)[4]、眼電圖(EOG)[4]和皮膚電反應(yīng)(GSR)[5]等。研究證明,在上述生理信號中,心電信號是用于人類情緒識別可靠且有效的信息來源,在識別和預(yù)測人類情緒方面具有很大的潛力[6]。
通?;谛碾娦盘杹韺崿F(xiàn)情緒識別的方法有基于手工提取特征的傳統(tǒng)機器學(xué)習方法和基于自動提取特征的先進深度學(xué)習方法兩種。
基于手工提取特征和傳統(tǒng)的機器學(xué)習方法旨在通過心率變異性(HRV)分析來手工提取特征,然后使用傳統(tǒng)的機器學(xué)習方法對其分類。例如,Xu等人[3]收集了391名被試在不同情緒狀態(tài)下的ECG信號,接著利用小波變換技術(shù)檢測P-QRS-T波 位置并提取了79個HRV相關(guān)特征,為了更好地分類,研究人員在分類前對特征進行選擇。Hsu等人[6]利用聲音刺激誘發(fā)被試者的情緒,并收集心電圖數(shù)據(jù),提取時頻域特征。同時,在逐步前向選擇-基于類別子集的特征選擇算法基礎(chǔ)上,提出了一種順序前向浮動選擇內(nèi)核的類可分離性特征選擇算法,最后使用最小二乘支持向量機來對喚醒度和效價分數(shù)分類。Healey等人[7]收集參與者完成駕駛?cè)蝿?wù)時的心電信號和壓力水平,然后從收集的心電信號中手動提取時域和頻域特征,最后使用線性判別分析(LDA)進行壓力等級分類。Subramanian等人[8]為了通過生理信號來實現(xiàn)情緒識別,在向被試者展示情感電影剪輯片段的同時記錄了心電圖數(shù)據(jù),接著計算HRV特征以及心率和連續(xù)心跳間間隔。使用支持向量機(SVM)和樸素貝葉斯(NB)來對這些手動提取的特征在喚醒度(arousal)和效價分數(shù)(valence)維度進行分類。Sepúlveda等人[9]使用小波散射(wavelet scattering)算法從AMIGOS數(shù)據(jù)庫中提取心電信號的特征,然后使用分類器線性判別分析、決策樹(DT)、樸素貝葉斯、K最鄰近(KNN)、支持向量機對特征進行分類以評估其性能,結(jié)果表明,使用小波變換提高了心電信號情緒識別的性能。Khan等人[10]利用從心電圖中獲得的心率變異性相關(guān)特征和特征選擇技術(shù)訓(xùn)練了多層感知器(MLP)、支持向量機、決策樹、梯度提升決策樹(GBDT)、邏輯回歸、Adaboost和Extra Tree分類器七個機器學(xué)習模型用于對情感狀態(tài)進行分類。在DREAMER[11]和 SWELL[12]兩個公共數(shù)據(jù)集上的實驗結(jié)果表明,沒有特定的機器學(xué)習對所有數(shù)據(jù)效果都好。Extra Tree 分類器能夠在SWELL數(shù)據(jù)集上實現(xiàn)最佳性能,而對于DREAMER數(shù)據(jù)集,分類器取決于情感維度。總體來看,對于這種手工提取特征的傳統(tǒng)機器學(xué)習方法,往往需要人工設(shè)計特征,而這不僅需要領(lǐng)域?qū)I(yè)知識和經(jīng)驗,而且容易受到人為偏見的影響,從而限制了模型的泛化能力。
為了應(yīng)對上述傳統(tǒng)方法的缺點,有學(xué)者將先進的深度學(xué)習方法用于心電信號情緒識別任務(wù),使其可以端到端地學(xué)習到情緒分類的特征。例如,Santamaria-Granados等人[13]分別使用了AlexNet[14]和VGGNet[15]兩種深度卷積網(wǎng)絡(luò)(DCNN),直接將心電信號作為網(wǎng)絡(luò)的輸入對情感進行分類。結(jié)果表明,與傳統(tǒng)的分類器相比,使用深度卷積神經(jīng)網(wǎng)絡(luò)在AGMIGOS數(shù)據(jù)集上取得了更好的效果。Kawde等人[16]提出了一種基于深度置信網(wǎng)絡(luò)和棧式自動編碼器的深度學(xué)習網(wǎng)絡(luò),用于從心電圖信號等多種生理信號中提取特征,同時利用多通道卷積神經(jīng)網(wǎng)絡(luò)進行特征融合和分類,從而實現(xiàn)情緒識別。Dar等人[17]利用一維卷積神經(jīng)網(wǎng)絡(luò)和長短期記憶網(wǎng)絡(luò)(LSTM)[18]來建立情緒識別的深度模型,并利用兩個公開數(shù)據(jù)集中的心電圖等生理信號完成情緒識別任務(wù),最終取得了較好的效果。Chen等人[19]在基于生理信號情緒識別模型的研究中,使用了雙向長短時記憶循環(huán)神經(jīng)網(wǎng)絡(luò)(BiLSTM)[20]來對心電信號作特征提取,實驗結(jié)果證明使用心電信號有助于準確地識別人類情緒。Nita等人[21]為了應(yīng)對獲取大量且平衡的帶有情感標注的心電信號困難的問題,采取了一種全新的數(shù)據(jù)增強策略,并結(jié)合了七層卷積神經(jīng)網(wǎng)絡(luò)模型。在DREAMER數(shù)據(jù)集上的實驗結(jié)果表明,該方法提高了基于心電信號的情緒識別準確率。由此可見,對于自動提取特征的先進深度學(xué)習方法而言,關(guān)鍵在于設(shè)計一個合適的特征提取網(wǎng)絡(luò),同時還需要足夠多的有標注數(shù)據(jù)。
綜上所述,雖然這兩種基于心電信號來實現(xiàn)情緒識別的方法已經(jīng)取得了不錯的效果,但仍然存在一定的局限性。一方面,現(xiàn)實生活中,獲取大規(guī)模標記的心電情緒數(shù)據(jù)集不僅代價昂貴,還需要耗費大量的時間和人力。另一方面,全監(jiān)督方法在訓(xùn)練時往往針對特定的任務(wù),這會導(dǎo)致學(xué)習到的特征表示泛化性差。因此,如何在不依賴標簽的情況下從心電數(shù)據(jù)本身學(xué)習到魯棒性的特征表示,并將其用于情緒識別任務(wù)成為了迫切需要解決的問題。針對這些問題,自監(jiān)督對比學(xué)習方法被認為是一種可行的方案。
近年來,自監(jiān)督學(xué)習在有效提取數(shù)據(jù)表征方面獲得了廣泛的關(guān)注[22],它可以在不依賴標簽的情況下自動從數(shù)據(jù)本身學(xué)到數(shù)據(jù)的有效表示。對比學(xué)習是自監(jiān)督學(xué)習的一種實現(xiàn)方式,它通過對比正負樣本的相似度,最小化正樣本對之間的距離,最大化負樣本對之間的距離,構(gòu)建數(shù)據(jù)的有效表示[23]。這在一定程度上可以緩解心電信號有情緒標簽數(shù)據(jù)不足的問題。此外,由于對比學(xué)習關(guān)注數(shù)據(jù)之間的相對關(guān)系,而不是特定任務(wù)的細節(jié),從而使模型學(xué)習到的特征通常更具通用性。
受這些研究的啟發(fā),本文提出了一種基于對比學(xué)習的心電信號情緒識別方法。該方法基于心電信號的固有特征,在不依賴標簽的情況下,心電數(shù)據(jù)本身學(xué)習到數(shù)據(jù)的高級有效表示,并將其用于下游情緒識別任務(wù)。具體而言,本文方法分為兩個階段。a)預(yù)訓(xùn)練階段設(shè)計使用了兩種簡單且高效的心電數(shù)據(jù)增強方式,然后使用全卷積神經(jīng)網(wǎng)絡(luò)(FCN)進行特征提取,得到輸入樣本的兩個不同但相關(guān)的視圖。受文獻[24]啟發(fā),這兩個視圖隨后被用到兩個不同對比學(xué)習模塊。(a)時間對比模塊使用了一種交叉視圖預(yù)測任務(wù)來迫使模型學(xué)習魯棒的時間相關(guān)特征表示。具體實現(xiàn)為,對于某個特定的時間步長,它利用一個視圖的過去來預(yù)測另一個視圖的未來,從而執(zhí)行跨視圖預(yù)測任務(wù)。(b)在時間對比模塊可以分別得到兩個視圖融合了序列全局信息的上下文特征,這些特征將進入上下文對比模塊,進一步學(xué)習具有判別性的特征。在上下文對比模塊的目標是最大化同一樣本的不同視圖上下文特征之間的相似性,同時最小化不同樣本之間的相似性。b)在預(yù)訓(xùn)練階段結(jié)束以后,利用有情緒標注的數(shù)據(jù)微調(diào)特征提取網(wǎng)絡(luò),使其更適用于下游情緒識別任務(wù)。在三個公開數(shù)據(jù)集上的實驗表明,所提方法與現(xiàn)有方法相比,在所有數(shù)據(jù)集上均有提高,證明了方法的有效性。
本文工作的主要貢獻如下:a)首次將對比學(xué)習方法引入到心電信號情緒識別這一問題中,提出了一種基于對比學(xué)習的心電信號情緒識別方法,減少了心電信號情緒識別任務(wù)中對標簽的依賴程度;b)針對心電信號的固有特征,設(shè)計使用了兩種簡單且高效的心電數(shù)據(jù)增強方式,幫助模型有效地提取更加通用的特征,并用于情緒識別任務(wù),提高了模型的泛化能力。
1 基于對比學(xué)習的心電信號情緒識別方法
1.1 總體概述
本文方法主要包括兩個步驟:a)預(yù)訓(xùn)練階段,從無標記心電數(shù)據(jù)中學(xué)習通用的特征表示;b)微調(diào)階段,使用有標注的數(shù)據(jù)微調(diào)特征提取網(wǎng)絡(luò),將學(xué)習到的表征用于情緒識別任務(wù)。
方法總體框架如圖1所示,其中預(yù)訓(xùn)練階段主要包括心電數(shù)據(jù)增強(ECG augmentation)、特征提?。╢eature extraction)、時間對比(temporal contrasting)和上下文對比(contextual contrasting)四個模塊的訓(xùn)練學(xué)習。在微調(diào)階段,在特征提取網(wǎng)絡(luò)基礎(chǔ)上加一個多層感知機(MLP)和激活層作為分類模型,使用有標記心電數(shù)據(jù)對此模型進行全監(jiān)督訓(xùn)練,完成情緒識別任務(wù)。
1.2 心電數(shù)據(jù)增強與特征提取
首先,心電數(shù)增強模塊利用弱增強和強增強兩種增強方式,從原始心電數(shù)據(jù)中生成兩種不同但相關(guān)的視圖。其次,時間對比模塊通過設(shè)計一個艱巨的跨視圖預(yù)測任務(wù)來學(xué)習魯棒的特征表示,該任務(wù)在某個時間步長內(nèi),利用一種增強的過去潛在特征來預(yù)測另一種增強的未來。最后,為了進一步學(xué)習區(qū)分性特征表示,在上下文對比模塊中,通過上下文對比損失來最大化正樣本對之間的相似度,最小化負樣本對之間的相似度。
對比學(xué)習的核心思想是最大化同一樣本的不同視圖之間的相似性,同時最小化它與其他樣本之間的相似性,從而期望模型學(xué)習到樣本更通用的特征表示。數(shù)據(jù)增強是對比學(xué)習方法成功的一個關(guān)鍵點,不同的增強方式可能導(dǎo)致結(jié)果相差巨大[23]。因此選擇合適的數(shù)據(jù)增強方式對于對比學(xué)習非常關(guān)鍵。在計算機視覺領(lǐng)域,對圖像常用的數(shù)據(jù)增強方式有旋轉(zhuǎn)、縮放、修剪、水平翻轉(zhuǎn)、垂直翻轉(zhuǎn)和顏色空間變換(隨機選擇通道像素失活)等[25,26]。這些簡單的數(shù)據(jù)增強方式往往很有效,然而,由于以下原因,這些基于圖像的數(shù)據(jù)增強方式可能無法很好地處理心電信號。首先,圖像的特征主要是空間特征不同,而心電信號是時間序列數(shù)據(jù),主要以時間依賴性為特征。因此直接將上述技術(shù)應(yīng)用于心電信號可能無法有效獲得數(shù)據(jù)的時間特征。其次,一些用于圖像的增強技術(shù),如顏色空間變換,無法很好地適應(yīng)心電信號這樣的時間序列數(shù)據(jù)。
到目前為止,關(guān)于時間序列數(shù)據(jù)的對比學(xué)習工作和時間序列數(shù)據(jù)增強方式的相關(guān)工作也較少。例如,文獻[27]開發(fā)了針對腦電信號的對比學(xué)習方法。然而,這種方法是針對腦電數(shù)據(jù)提出的,無法推廣到心電信號。因此本文設(shè)計了弱增強和強增強兩種不同的心電信號增強方式。使用這兩種增強有助于通過時間對比模塊中交叉預(yù)測任務(wù)更好地學(xué)習心電數(shù)據(jù)的魯棒特征表示。最終使用的弱增強是為信號增加高斯噪聲(Gauss noise),該增強方式僅僅只對信號的形狀上產(chǎn)生有限的變化,而強增強是一種縮放+排列(scale+permutation)操作,對信號的結(jié)構(gòu)和形狀產(chǎn)生較大的變化,更多的增強選擇過程和細節(jié)見2.6節(jié)。
本文的特征提取網(wǎng)絡(luò)使用的是全卷積網(wǎng)絡(luò),它可以從時間序列中提取特征并保持輸入數(shù)據(jù)的時序性。網(wǎng)絡(luò)使用三個連續(xù)的卷積塊(conv-block)作為特征提取器。每個卷積塊包括一個卷積層,后面接著一個batch normalization層、一個ReLU激活層和一個最大池化層。其中過濾器(filter)的數(shù)量分別是32、64、128,卷積核尺寸分別是25、8、8。每個最大池化層中過濾器和和步長都固定為2。另外,為了防止可能的過擬合,在第一個卷積塊后引入了10%的dropout。
這里使用余弦相似度來判斷各個向量之間的相似程度:sim( a,b)=a T b ‖ a‖ /‖ b ‖,其中 a、b 都是向量,τ為可調(diào)節(jié)的溫度系數(shù)。因此網(wǎng)絡(luò)最終的損失函數(shù)Ltotal為兩個時間對比損失和一個上下文對比損失的線性組合,公式如下:
其中:m為類別的數(shù)量;yi,c為第i個樣本屬于類別c的真實標簽; i,c為樣本i屬于類別c的預(yù)測概率。
在每個訓(xùn)練批次中,計算所有樣本的交叉熵損失,然后使用反向傳播來計算梯度,并使用Adam[30]優(yōu)化器更新分類模型參數(shù)以最小化分類損失Lce。
綜上所述,本文基于對比學(xué)習的心電信號情緒識別方法訓(xùn)練過程如圖1,首先計算樣本在預(yù)訓(xùn)練階段的總損失Ltotal,通過最小化Ltotal來更新網(wǎng)絡(luò)參數(shù),在這個過程中,模型從心電數(shù)據(jù)中學(xué)會一般性的特征表示;接著在微調(diào)階段使用預(yù)訓(xùn)練時的特征提取網(wǎng)絡(luò)作為分類主模型,計算樣本的分類損失Lce并通過最小化Lce來更新模型參數(shù)。微調(diào)結(jié)束以后得到一個具有情緒識別能力的端到端模型。
1.6 算法步驟
2 實驗及結(jié)果分析
2.1 實驗數(shù)據(jù)集及預(yù)處理
本文選用AMIGOS、DREAMER和WESAD數(shù)據(jù)集三個公開數(shù)據(jù)集來評估模型性能。
AMIGOS數(shù)據(jù)集是一個用于個人和群體的情感、人格特征和情緒多模態(tài)研究的數(shù)據(jù)集[31]。該數(shù)據(jù)集包含40個參與者在兩個不同的實驗設(shè)置中收集的包含心電信號在內(nèi)的其他各種生理信號。第一組實驗中40名參與者觀看了16個250 s簡短的情感視頻,第二組實驗中40名參與者觀看了4個超過14 min的情感視頻。實驗過程中使用可穿戴式傳感器以256 Hz的采樣頻率記錄ECG數(shù)據(jù)。在每次實驗后,每個被試對觀看的每個視頻根據(jù)情感狀態(tài)在連續(xù)的9分制上進行自我評估,包括喚醒度和效價分數(shù),評估值越大表示各項指標越強。本文只選取第一組實驗設(shè)置下的心電數(shù)據(jù),在喚醒度和效價分數(shù)兩個維度上進行二分類。
DREAMER數(shù)據(jù)集是一個多模式數(shù)據(jù)庫,該數(shù)據(jù)集包含23個參與者在觀看18個視頻片段時的腦電圖和ECG信號[11],以及參與者在每次刺激后對觀看的每個視頻根據(jù)情感狀態(tài)在連續(xù)的5分制上進行自我評估,包括喚醒度和效價分數(shù),評估值越大表示各項指標越強。這些數(shù)據(jù)通過便攜式可穿戴式傳感器以256 Hz的采樣頻率收集,每次記錄時間為60 s。本文只使用該數(shù)據(jù)集的心電數(shù)據(jù),在喚醒度和效價分數(shù)兩個維度上進行五分類。
WESAD數(shù)據(jù)集是一個情緒分類多模態(tài)傳感器數(shù)據(jù)集[32],它包含來自15名參與者的心電圖數(shù)據(jù)。目標是研究中性、壓力大、愉快和冥想四種不同的情感狀態(tài)。實驗在四個場景下進行。首先是正常階段,在此期間要求參與者進行正?;顒樱玳喿x雜志和坐在/站在桌子旁,此階段持續(xù)20 min。然后是在娛樂場景中,參與者觀看了11個有趣的視頻片段,總時長為392 s。接下來,在壓力情景下,參與者完成了總共1 min的公開演講和算術(shù)任務(wù)。最后,參與者在實驗人員的指導(dǎo)下進行了7 min的冥想。每次階段實驗完成后,使用正面和負面影響(PANAS)方案收集每個階段的標簽。實驗過程中使用RespiBAN Professional傳感器以700 Hz的采樣率收集ECG信號。本文只使用該數(shù)據(jù)集中的心電數(shù)據(jù)對四種情感狀態(tài)進行四分類。
由于上述數(shù)據(jù)集是使用不同的硬件設(shè)備收集的,所以具有不同的屬性,例如數(shù)據(jù)持續(xù)時長和采樣率等。此外,為了消除采集過程中產(chǎn)生的噪聲和基線漂移,減少數(shù)據(jù)間的差異,對上述數(shù)據(jù)集采取了如下三個預(yù)處理步驟。首先,為了統(tǒng)一數(shù)據(jù)集中數(shù)據(jù)的采樣率,對WESAD數(shù)據(jù)集中數(shù)據(jù)下采樣到256 Hz;其次,為了消除所有三個數(shù)據(jù)集中的基線漂移,對所有的數(shù)據(jù)應(yīng)用通帶頻率為0.8 Hz的高通IIR濾波器;最后,對每個數(shù)據(jù)集各自采用z-score標準化。
在經(jīng)過上述的預(yù)處理后,處理后的ECG信號被分割為固定窗口大小為10 s的片段,同時為了避免訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)之間的數(shù)據(jù)泄漏,每個段之間沒有重疊。
2.2 參數(shù)設(shè)置和評價指標
首先,將數(shù)據(jù)集隨機劃分為兩個部分,70%為訓(xùn)練集,30%為測試集,實驗一共進行了10次,結(jié)果取平均值。訓(xùn)練任務(wù)分為預(yù)訓(xùn)練和微調(diào)兩部分。預(yù)訓(xùn)練和微調(diào)部分的最大迭代次數(shù)MaxEpoch都設(shè)置為100,batchsize設(shè)置為128,使用初始值為3E-4、權(quán)重衰退為3E-4的Adam優(yōu)化器調(diào)整學(xué)習率,動量因子β1為0.9,動量因子β2為0.99。在數(shù)據(jù)增強模塊中,強增強部分,信號最大分割長度M=10,隨后進行信號幅度放大的比例設(shè)置為0.8;弱增強部分,給原始信號添加的噪聲信噪比設(shè)置為15。對于兩種損失函數(shù)的權(quán)重系數(shù),λ1設(shè)置為1,λ2設(shè)置為1。對于使用的Transformer自回歸模型,encoder層數(shù)設(shè)置為4,多頭注意力頭數(shù)h設(shè)置為4,隱藏層特征維度設(shè)置為64。在上下文對比模塊中,對比損失函數(shù)中的溫度系數(shù)τ設(shè)置為0.2。模型使用NVIDIA GeForce RTX 3080 GPU進行訓(xùn)練。
本文以分類準確率(Acc)和F1宏平均(F1)作為評價指標。Acc和F1的計算公式分別為
其中:TP是正樣本中分類正確的樣本數(shù);FP是正樣本中分類錯誤的樣本數(shù);TN是負樣本中分類準確的樣本數(shù);FN是負樣本中分類錯誤的樣本數(shù)。
2.3 對比實驗結(jié)果
為了測試模型在基于心電信號情緒分類上的性能,參考文獻[10,13,33],本文選用了五種傳統(tǒng)的基準算法,同時還選取了四種近期效果較好的深度學(xué)習方法進行對比實驗,以驗證本文方法的有效性。具體對比方法如下:
a)傳統(tǒng)機器學(xué)習方法。支持向量機(SVM)[10]、樸素貝葉斯(NB)[33]、決策樹(DT)[10]、隨機森林(RF)[33]、K最鄰近(KNN)[33]。
b)深度學(xué)習方法。RNN-FCN[34]結(jié)合時間序列分類模型和基于循環(huán)神經(jīng)網(wǎng)絡(luò)和全卷積神經(jīng)網(wǎng)絡(luò)兩者之間的優(yōu)點來提高時間序列分類的準確率和效率。RNN可以很好地學(xué)習時間序列之間的長期依賴關(guān)系,F(xiàn)CN則可以從時間序列數(shù)據(jù)中提取特征。ALSTM-FCN[34]在LSTM中添加了一個注意力層,使得模型既保留了LSTM的記憶能力[35],又減少了計算復(fù)雜度,更好地捕獲時間序列數(shù)據(jù)中的重要信息。同時采用了FCN的架構(gòu),從時間序列數(shù)據(jù)中提取特征,使得模型更具魯棒性。InceptionTime[36]是由Inception模塊和一維卷積組成的。Inception模塊是由多個不同大小的卷積核組成的,它能夠同時提取局部和全局的特征,從而提高模型的性能。此外,它還采用了一維卷積處理一維序列數(shù)據(jù),使其具有更少的參數(shù)和更快的計算速度。TS-TCC[24](基于自監(jiān)督學(xué)習的時間序列表示學(xué)習模型)的核心思想是通過兩種時間序列增強方法和兩種對比學(xué)習模塊從時間序列中學(xué)習特征表示。該方法在三個時間序列數(shù)據(jù)集上均取得了較好的結(jié)果。
各方法在三個數(shù)據(jù)集上的實驗結(jié)果如表1所示,表中黑體數(shù)字表示最優(yōu)值。結(jié)果顯示,本文方法的分類性能優(yōu)于目前領(lǐng)先的心電信號情緒識別方法。所提方法在三個數(shù)據(jù)集上的分類準確率提高了0.21%~3.81%。
從表1可以看出,四種深度學(xué)習的方法雖然可以在個別數(shù)據(jù)集上達到和本文方法相當?shù)慕Y(jié)果,如InceptionTime在WESAD數(shù)據(jù)集上的結(jié)果,但在AMIGOS數(shù)據(jù)集上,該方法的性能不如大部分傳統(tǒng)的機器學(xué)習方法。說明這些深度學(xué)習時間序列分類方法并不能很好地適用于不同的數(shù)據(jù)集。此外可以看出,在數(shù)據(jù)量較小的數(shù)據(jù)集WESAD和AMIGOS上,傳統(tǒng)的機器學(xué)習方法往往可以表現(xiàn)出較優(yōu)的結(jié)果,而在數(shù)據(jù)較大的數(shù)據(jù)集DREAMER上,深度學(xué)習方法往往分類性能更好。最后,從表1可以發(fā)現(xiàn),對比方法中,機器學(xué)習方法的方差往往比深度學(xué)習要低,這說明了機器學(xué)習方法穩(wěn)定性普遍高于深度學(xué)習方法,而本文方法的方差可以和機器學(xué)習方法媲美,表明了方法的穩(wěn)定性。綜上,本文方法可以很好地從心電信號中學(xué)習到有用的特征,以用于情緒識別任務(wù),在分類準確率上與現(xiàn)有方法對比都有不同程度的提高,同時具備高穩(wěn)定性,也說明了模型的泛化性較強。
2.4 消融實驗結(jié)果
為了驗證模型中的時間對比模塊、上下文對比模塊和強弱增強模塊對基于心電信號的情緒識別任務(wù)是有效的,在三個數(shù)據(jù)集上進行消融實驗,結(jié)果如表2所示。
在表中,baseline表示僅使用上下文對比模塊中的對比損失,baseline+CPC表示在basline的基礎(chǔ)上加入時間對比模塊中沒有交叉預(yù)測任務(wù)的對比預(yù) 測編碼(contrastive predictive coding,CPC)[37],但此時每個視圖只對自身未來步長進行預(yù)測,weak only和strong only表示只使用弱增強和強增強的模型。
結(jié)果表示,相比baseline,在時間對比模塊中加入了交叉預(yù)測任務(wù)以后,模型在所有數(shù)據(jù)集上的性能都有不同程度的提升,這意味著交叉學(xué)習任務(wù)起到了提高模型分類性能的作用。加入上下文對比模塊以后,模型的性能進一步得到了提升。最后可以證明,只使用一種數(shù)據(jù)增強的模型分類性能都不如同時使用兩種增強,而且可以發(fā)現(xiàn),強增強在AMIGOS和WESAD數(shù)據(jù)集上對模型的性能提升作用大于弱增強。
2.5 強弱增強的有效性
由于對比學(xué)習方法對數(shù)據(jù)增強方式十分敏感,所以選擇合適的增強方式至關(guān)重要。目標是為本文研究的基于對比學(xué)習的心電信號情緒識別方法選擇合適的增強方式。
為了從原始心電信號中得到兩種不同的增強視圖,本文的目的是選擇選擇一種合適的弱增強方式和強增強方式。這里本文將弱增強定義為僅僅只對原始信號的形狀上產(chǎn)生有限的變化的增強方式,具體實現(xiàn)為信號增加一定信噪比(SNR)的高斯噪聲(Gauss noise)、縮放(scale)、垂直翻轉(zhuǎn)(negation)、時間翻轉(zhuǎn)(time shift)、隨機時間拉伸(time warp),而強增強則是對信號的結(jié)構(gòu)和形狀產(chǎn)生較大的變化,如隨機排列(permutation)以及permutation和各種弱增強的組合。
如表3,在WESAD數(shù)據(jù)集上分析了兩種增強方式的選擇過程。首先本文依次使用所有的弱增強,一個視圖上依次使用一種弱增強方式,另一個視圖則沒有應(yīng)用任何增強。此時準確率最高為77.88%,在弱增強為增加Gauss noise時取得。然后,在僅使用permutation作為強增強,不應(yīng)用弱增強時,得到的預(yù)測準確率比單獨只用任何一種弱增強獲得的結(jié)果都要高,此時為79.14%。接著,在將permutation和增加Gauss noise分別作為強弱增強時,模型的預(yù)測準確率進一步得到了提升。最后,本文固定增加Gauss noise為弱增強,設(shè)計組合了另外四種強增強方式,以獲得最適用心電信號的增強方式。最終結(jié)果表明,在使用增加Gauss noise作為弱增強,scale+permutation作為強增強時,模型取得了最好的結(jié)果,為83.96%。
如圖3,原始心電信號在經(jīng)過弱增強以后,得到的心電信號被加了高斯噪聲,這種變換非常類似在采集心電信號時,由于環(huán)境影響或者儀器問題加入的噪聲。而強增強對原始心電信號進行縮放操作,這與傳感器和皮膚導(dǎo)電等影響對心電信號的幅度進行縮放操作類似。因此,在對比學(xué)習中使用這些增強可以幫助模型有效地提取更加通用的特征,并泛化到模型沒有見過的數(shù)據(jù)中[38]。
2.6 半監(jiān)督訓(xùn)練的有效性
為了測試本文方法在半監(jiān)督條件設(shè)定下的性能,展示對比學(xué)習方法在少標簽樣本情況下的優(yōu)勢,實驗分別隨機使用1%、10%、25%、50%、75%的訓(xùn)練集數(shù)據(jù)來微調(diào)預(yù)訓(xùn)練好的模型。圖4是使用半監(jiān)督條件下微調(diào)模型和全監(jiān)督訓(xùn)練下的結(jié)果對比圖。結(jié)果表明,在使用同樣數(shù)據(jù)量的情況下,本文所使用的自監(jiān)督方法在分類準確率上都高于全監(jiān)督訓(xùn)練。此外,可以發(fā)現(xiàn),雖然對比學(xué)習方法使用有標簽的數(shù)據(jù)量少于全監(jiān)督方法,但是模型的分類準確率依然可以和全監(jiān)督方法相當甚至更高。例如在WESAD中,本文方法在利用25%的訓(xùn)練數(shù)據(jù)情況下的分類性能高于使用了75%訓(xùn)練數(shù)據(jù)的全監(jiān)督方法。對AMIGOS數(shù)據(jù)集的喚醒度和效價分數(shù)進行分類時,對比方法在利用25%的訓(xùn)練數(shù)據(jù)情況下的分類性能和使用了50%訓(xùn)練數(shù)據(jù)的全監(jiān)督方法相當。這充分說明了對比方法在使用有限少量標簽數(shù)據(jù)的情況下提高了數(shù)據(jù)效率,降低了標簽成本以及方法的通用性等優(yōu)勢。
2.7 超參分析
本文考慮了一些超參數(shù)對模型性能的影響,在WESAD數(shù)據(jù)集中分析了時間對比模塊中預(yù)測的未來時間步長數(shù)K、式(5)中的λ1和λ2、數(shù)據(jù)增強模塊中對信號增強噪聲信噪比SNR、信號縮放程度scale ratio和最大分割長度對實驗結(jié)果的影響。預(yù)測的未來時間步長數(shù)K對實驗結(jié)果的影響如圖5(a)所示。橫坐標表示預(yù)測的步長數(shù)占特征長度的百分比,可以看到,隨著預(yù)測的未來時間步長數(shù)增加,模型的分類性能也在不斷上升,然而達到40%以后,模型的性能開始直線下降,這說明此時更長的預(yù)測步長數(shù)影響了自回歸模型的有效訓(xùn)練。因此將值設(shè)置為特征長度的40%。
λ1和λ2分別影響時間對比模塊中的兩個損失和上下文對比損失在總損失的占比,圖5(b)(c)中可見模型分類準確率隨著λ1和λ2在0.001~1 000變化的曲線圖。首先固定λ2值為1,改變λ1的值。可以發(fā)現(xiàn),在λ1值取1時模型取得了最優(yōu)性能。接著,固定λ1值為1,對λ2的值進行改變,此時發(fā)現(xiàn)λ2也在取1時模型獲得了最優(yōu)性能。因此,將λ1和λ2都設(shè)置為1。除此之外,還發(fā)現(xiàn)λ1在小于1時,參數(shù)的變化對結(jié)果較大于1時更加敏感,而λ2對模型性能的影響與λ1剛好相反。
SNR值為弱增強中加噪信號的信噪比,值越大說明信號中加的噪聲越大。如圖5(d),隨著SNR值越來越大,模型通過對比學(xué)習到的信息逐漸增加,性能逐漸提高,當SNR=15時,模型的分類準確率達到最高,而當SNR值繼續(xù)增加,增強的信號和原始信號相差過大,導(dǎo)致失去了一些有利于模型情緒識別的信息,使模型的性能開始逐漸下降。同時,在圖5(e)(f)中呈現(xiàn)出與SNR類似的趨勢,分別在取0.8和10時模型獲取最優(yōu)性能。這再一次說明了選擇合適的數(shù)據(jù)增強方式對于對比學(xué)習模型成功起到了至關(guān)重要的作用。
3 結(jié)束語
在利用心電信號識別被試情緒的任務(wù)中,為了解決數(shù)據(jù)中標簽稀少的問題,本文實現(xiàn)了一個基于對比學(xué)習的心電信號情緒識別方法。首先,在心電數(shù)據(jù)增強模塊設(shè)計了兩種簡單且高效的心電信號增強方法;然后,在時間對比模塊中使用了時間序列預(yù)測任務(wù)來提取數(shù)據(jù)情緒相關(guān)特征;最后將融合了歷史時序信息的上下文特征向量映射到一個可運用對比的空間,使用兩種對比損失來優(yōu)化模型。實驗結(jié)果表明,本文模型在三個公開心電信號情緒識別數(shù)據(jù)集上都取得了較高的分類準確率,證明了該方法的有效性。此外,在半監(jiān)督設(shè)定場景中,該方法也表現(xiàn)出了高有效性,這意味著可以通過利用少量的標記數(shù)據(jù)和大量的未標記數(shù)據(jù)來訓(xùn)練模型,從而在實踐中更加實用。綜上,該方法為解決基于心電信號的情緒識別問題提供了一種新的思路和解決方案。今后將探索更加簡單高效的自監(jiān)督模型來解決心電信號情緒識別任務(wù),提高模型分類性能和速度。
參考文獻:
[1]鄧欣, 高峰星, 米建勛, 等. 基于稀疏表示的腦電(EEG)情感分類[J]. 計算機應(yīng)用研究, 2019, 36 (3): 801-806. (Deng Xin, Gao Fengxing, Mi Jianxun,et al.Classifying emotional EEG using sparse representation method[J].Application Research of Computers , 2019, 36 (3): 801-806.)
[2]程艷, 蔡壯, 吳剛, 等. 結(jié)合自注意力特征過濾分類器和雙分支GAN的面部表情識別[J]. 模式識別與人工智能, 2022, 35 (3): 243-253. (Cheng Yan, Cai Zhuang, Wu Gang,et al.Facial expression recognition combining self-attention feature filtering classifier and two-branch GAN[J].Pattern Recognition and Artificial Intelligence , 2022,35 (3): 243-253.)
[3]Xu Y Liu G Y. A method of emotion recognition based on ECG signal[C]//Proc of International Conference on Computational Intelligence and Natural Computing. Piscataway, NJ: IEEE Press, 2009: 202-205.
[4]Zhang Guangyi, Etemad A. Capsule attention for multimodal EEG and EOG spatiotemporal representation learning with application to driver vigilance estimation[J].IEEE Trans on Neural Systems and Rehabilitation Engineering , 2019,29 : 1138-1149.
[5]Wu Guanghu Liu Guangyuan, Hao Min. The analysis of emotion recognition from GSR based on PSO[C]//Proc of International Symposium on Intelligence Information Processing and Trusted Computing. Piscataway, NJ: IEEE Press, 2010: 360-363.
[6]Hsu Y L, Wang J S, Chiang W C,et al.Automatic ECG-based emotion recognition in music listening[J].IEEE Trans on Affective Computing , 2017, 11 (1): 85-99.
[7]Healey J Picard R W. Detecting stress during real-world driving tasks using physiological sensors[J].IEEE Trans on Intelligent Transportation Systems,2005, 6 (2): 156-166.
[8]Subramanian R, Wache J, Abadi M K,et al.ASCERT-AIN: emotion and personality recognition using commercial sensors[J].IEEE Trans on Affective Computing , 2016, 9 (2): 147-160.
[9]Sepúlveda Castillo F, Palma C,et al.Emotion recognition from ECG signals using wavelet scattering and machine learning[J]. App-lied Sciences , 2021,11 (11): 4945.
[10]Khan C M T, Ab Aziz N Raja J E,et al.Evaluation of machine learning algorithms for emotions recognition using electrocardiogram[J].Emerging Science Journal , 2022, 7 (1): 147-161.
[11]Katsigiannis S, Ramzan N. DREAMER: a database for emotion re-cognition through EEG and ECG signals from wireless low-cost off-the-shelf devices[J].IEEE Journal of Biomedical and Health Informatics,2017,22 (1): 98-107.
[12]Koldijk S, Sappelli M, Verberne S,et al.The swell knowledge work dataset for stress and user modeling research[C]//Procs of the 16th International Conference on Multimodal Interaction. New York: ACM Press, 2014: 291-298.
[13]Santamaria-Granados L, Munoz-Organero M, Ramirez-Gonzalez G,et al.Using deep convolutional neural network for emotion detection on a physiological signals dataset[J].IEEE Access , 2018, 7 : 57-67.
[14]Krizhevsky Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks[J].Communications of the ACM,2017,60 (6): 84-90.
[15]Simonyan K, Zisserman A. Very deep convolutional networks for largescale image recognition[EB/OL]. (2014-09-04). https://arxiv.org/abs/1409.1556.
[16]Kawde P, Verma G K. Multimodal affect recognition in VAD space using deep learning[C]//Proc of International Conference on Smart Technologies for Smart Nation. Piscataway, NJ: IEEE Press, 2017: 890-895.
[17]Dar M N, Akram M U, Khawaja S G,et al.CNN and LSTM-based emotion charting using physiological signals[J].Sensors , 2020,20 (16): 4551.
[18]Hochreiter S, Schmidhuber J. Long short-term memory[J].Neural Computation , 1997, 9 (8): 1735-1780.
[19]Chen Tian, Yin Hongfang, Yuan Xiaohui,et al.Emotion recognition based on fusion of long short-term memory networks and SVMs[J].Digital Signal Processing , 202 117 : 103153.
[20]Huang Zhiheng, Xu Wei, Yu Kai. Bidirectional LSTM-CRF models for sequence tagging[EB/OL]. (2015-08-09). https://arxiv.org/abs/1508.01991.
[21]Nita S, Bitam S, Heidet M,et al.A new data augmentation convolutional neural network for human emotion recognition based on ECG signals[J].Biomedical Signal Processing and Control , 2022,75 : 103580.
[22]Liu Xiao, Zhang Fanjin, Hou Zhenyu,et al.Self-supervised lear-ning: generative or contrastive[J].IEEE Trans on Knowledge and Data Engineering,2021,35 (1): 857-876.
[23]Chen Ting, Kornblith S, Norouzi M,et al.A simple framework for contrastive learning of visual representations[C]//Proc of the 37th International Conference on Machine Learning. [S.l.]: JMLR.org, 2020: 1597-1607.
[24]Eldele E, Ragab M, Chen Zhenghua,et al.Time-series representation learning via temporal and contextual contrasting[EB/OL]. (2021-06-26). https://arxiv.org/abs/2106.14112.
[25]Zoph B, Cubuk E D, Ghiasi G,et al.Learning data augmentation strategies for object detection[M]// Vedaldi Bischof H, Brox T, et al. Computer Vision. Cham: Springer, 2020: 566-583.
[26]謝有慶, 何濤, 邱捷. 基于分數(shù)階微分的電力系統(tǒng)有霧圖像增強研究[J]. 廣東電力, 2020,33 (9): 129-137. (Xie Youqing, He Tao, Qiu Jie. Research on foggy image enhancement in power system based on fractional differential[J].Guangdong Electric Power , 2020,33 (9): 129-137.)
[27]Mohsenvand M N, Izadi M R, Maes P. Contrastive representation learning for electroencephalogram classification[C]//Proc of Machine Learning for Health NeurIPS Workshop.[S.l.]: PMLR, 2020: 238-253.
[28]Vaswani Shazeer N, Parmar N,et al.Attention is all you need[C]//Advances in Neural Information Processing Systems. Red Hook,NY:Curran Associate Inc., 2017:6000-6010.
[29]Devlin J, Chang Mingwei, Lee K,et al.BERT: pretraining of deep bidirectional transformers for language understanding[C]//Proc of Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg, PA: Association for Computational Linguistics, 2019: 4171-4186.
[30]Kingma D P, Ba J. Adam: a method for stochastic optimization[EB/OL]. (2014-12-22). https://arxiv.org/abs/1412.6980.
[31]Miranda-Correa J Abadi M K, Sebe N,et al.AMIGOS: a dataset for affect, personality and mood research on individuals and groups[J].IEEE Trans on Affective Computing,2018, 12 (2): 479-493.
[32]Schmidt P, Reiss Duerichen R,et al.Introducing WESAD, a multimodal dataset for wearable stress and affect detection[C]//Proc of the 20th ACM International Conference on Multimodal Interaction. New York: ACM Press, 2018: 400-408.
[33]Ismail S N M S, Aziz N A Ibrahim S Z. A comparison of emotion recognition system using electrocardiogram(ECG) and photoplethysmogram(PPG)[J].Journal of King Saud University-Computer and Information Sciences , 2022,34 (6): 3539-3558.
[34]Karim F, Majumdar S, Darabi H,et al.Multivariate LSTM-FCNs for time series classification[J].Neural Networks , 2019,116 : 237-245.
[35]陸世豪, 祝云, 周振茂. 基于多頭注意力循環(huán)卷積神經(jīng)網(wǎng)絡(luò)的電力設(shè)備缺陷文本分類方法[J]. 廣東電力, 2021,34 (6): 30-38. (Lu Shihao, Zhu Yun, Zhou Zhenmao. Text classification model of power equipment defects based on multi-h(huán)ead attention RCNN[J].Guangdong Electric Power,2021,34 (6): 30-38.)
[36]Ismail Fawaz H, Lucas B, Forestier G,et al.InceptionTime: finding AlexNet for time series classification[J].Data Mining and Know-ledge Discovery,2020,34 (6): 1936-1962.
[37]Oord Li Yazhe, Vinyals O. Representation learning with contrastive predictive coding[EB/OL]. (2018-07-10). https://arxiv.org/abs/1807.03748.
[38]Soltanieh S, Etemad Hashemi J. Analysis of augmentations for contrastive ECG representation learning[C]//Proc of International Joint Conference on Neural Networks. Piscataway, NJ: IEEE Press, 2022: 1-10.
收稿日期:2023-07-25;修回日期:2023-09-28基金項目:國家自然科學(xué)基金資助項目(62276115);廣東省中醫(yī)藥信息化重點實驗室資助項目(2021B1212040007)
作者簡介:龍錦益(1983—),男,廣東湛江人,教授,博導(dǎo),博士,CCF會員,主要研究方向為機器學(xué)習、腦機交互與融合、非侵入式神經(jīng)調(diào)控與運動功能輔助康復(fù);方景龍(1999—),男,安徽銅陵人,碩士研究生,主要研究方向為情緒識別、生理信號、深度學(xué)習;劉斯為(1995—),男,廣東廣州人,博士研究生,主要研究方向為腦機接口、深度學(xué)習、機器學(xué)習;吳漢瑞(1990—),男,廣東惠來人,副教授,碩導(dǎo),博士,主要研究方向為遷移學(xué)習、圖學(xué)習;張佳(1991—),男(通信作者),湖南衡陽人,講師,碩導(dǎo),博士,主要研究方向為機器學(xué)習、數(shù)據(jù)挖掘、智能人機交互(jiazhang@jnu.edu.cn).