章文佩 沈群倫 宋錦濤 周仁來(lái)
基于事件相關(guān)電位(ERPs)和機(jī)器學(xué)習(xí)的考試焦慮診斷
章文佩沈群倫宋錦濤周仁來(lái)
(南京大學(xué)心理系, 南京 210023) (安徽工業(yè)大學(xué)工商管理系, 馬鞍山 243032)(中國(guó)科學(xué)院數(shù)學(xué)與系統(tǒng)科學(xué)研究院, 北京 100190)
考試焦慮對(duì)個(gè)體的身心具有嚴(yán)重危害。傳統(tǒng)診斷考試焦慮的方法容易受到個(gè)體主觀態(tài)度的影響, 從而影響對(duì)個(gè)體考試焦慮的發(fā)現(xiàn)與及早干預(yù)。為了克服傳統(tǒng)主觀問(wèn)卷對(duì)考試焦慮群體診斷的不足, 本研究提出腦電神經(jīng)數(shù)據(jù)結(jié)合機(jī)器學(xué)習(xí)的客觀綜合診斷方法評(píng)估個(gè)體的考試焦慮水平。研究采用情緒Stroop范式, 結(jié)合腦電技術(shù)測(cè)量個(gè)體對(duì)考試焦慮者的注意抑制功能, 機(jī)器學(xué)習(xí)基于此前提, 提取P1, P2, N2, P3和LPP五種事件相關(guān)電位(ERP)成分, 以卷積神經(jīng)網(wǎng)絡(luò)(CNN)為主采用7種常見(jiàn)的機(jī)器學(xué)習(xí)算法對(duì)個(gè)體考試焦慮程度進(jìn)行進(jìn)一步的診斷。結(jié)果表明CNN對(duì)考試焦慮診斷的準(zhǔn)確率達(dá)86.5%, F1-score為0.911, 顯著高于其他6種常見(jiàn)算法。因此采用CNN對(duì)腦電信號(hào)進(jìn)行深度學(xué)習(xí)得出的診斷模型能夠有效地對(duì)個(gè)體的考試焦慮程度進(jìn)行診斷。
機(jī)器學(xué)習(xí); 考試焦慮; 情緒Stroop; ERPs
在中國(guó), 考試是評(píng)價(jià)個(gè)人能力的一種主要手段。作為一種評(píng)價(jià)性事件, 個(gè)體對(duì)考試的認(rèn)知會(huì)影響個(gè)體在面對(duì)此類事件時(shí)的焦慮程度(Schutz, Davis, & Schwanenflugel, 2002)。當(dāng)個(gè)體非常重視考試結(jié)果并因此將考試視為一種威脅, 會(huì)出現(xiàn)焦慮的癥狀(Lotz & Sparfeldt, 2017)。高度考試焦慮在各級(jí)學(xué)生中的比例都超過(guò)20% (陳睿, 劉瀟楠, 周仁來(lái), 2011), 在一些地區(qū)的初中生中這一比例甚至高達(dá)35% (陳祉妍, 2002)。
考試焦慮對(duì)個(gè)體的身心健康具有嚴(yán)重危害。首先, 在面臨重要考試的時(shí)候, 考試焦慮者會(huì)體會(huì)到一種強(qiáng)烈的擔(dān)憂和情緒反應(yīng), 時(shí)時(shí)刻刻在擔(dān)心考試的失敗, 他人的評(píng)價(jià)以及考試結(jié)果的排名(Zeidner & Matthews, 2005)。不僅是心慌、緊張等情緒體驗(yàn), 考試焦慮者還會(huì)表現(xiàn)出一系列生理的、行為的反應(yīng), 如出現(xiàn)與植物性神經(jīng)活動(dòng)失調(diào)相關(guān)的身體反應(yīng)癥狀(如心跳加快、出冷汗、呼吸急促、顫抖等), 并且由此影響個(gè)體的生理健康, 影響內(nèi)分泌, 降低免疫功能, 增加感染性疾病、胃部不適及睡眠障礙等軀體疾病(閆慧, 盧莉, 2014)。此外, 高度的考試焦慮往往與抑郁情緒相聯(lián)系(陳睿等, 2011), 而抑郁癥發(fā)病得越早, 越可能影響至終生, 且復(fù)發(fā)率和自殺率越高(王瑋文, 謝希, 邵楓, 2008)。因此, 對(duì)考試焦慮進(jìn)行早期的準(zhǔn)確診斷十分必要。
目前, 國(guó)內(nèi)外對(duì)考試焦慮的研究中所采用的診斷技術(shù)主要采用主觀測(cè)評(píng), 具體分為問(wèn)卷調(diào)查法和訪談法。然而, 想要僅通過(guò)主觀測(cè)評(píng)技術(shù)達(dá)到對(duì)考試焦慮進(jìn)行早期識(shí)別并準(zhǔn)確診斷其程度并不容易。具體限制在于:(1)真實(shí)性:當(dāng)被試由于某些原因想要隱藏自己真實(shí)的情況時(shí), 采用訪談或者問(wèn)卷等主觀測(cè)評(píng)的方法可能會(huì)降低評(píng)估的準(zhǔn)確性(風(fēng)笑天, 2003), 如學(xué)生不希望自己被老師或者家長(zhǎng)知道自己的考試焦慮, 則會(huì)選擇更為積極的主觀表述, 從而影響評(píng)估結(jié)果。(2)誘導(dǎo)性:主觀評(píng)估的過(guò)程可能激發(fā)個(gè)體的負(fù)性情緒, 如在填答問(wèn)卷中看到“考試”, “掛科”等字面負(fù)性信息, 或者訪談中提及有關(guān)考試的負(fù)性經(jīng)歷, 個(gè)體都有可能會(huì)誘發(fā)出相關(guān)的負(fù)性情緒(Diegomantecón, 2015), 從而可能會(huì)加重或者影響個(gè)體作答時(shí)的情緒狀態(tài), 從而影響評(píng)估結(jié)果。
為了降低這些限制, 結(jié)合客觀技術(shù)的綜合診斷必不可少。而精確敏感的客觀技術(shù)指標(biāo)需要以考試焦慮的病理模式為基礎(chǔ)??荚嚱箲]者并不總是處在一種不適應(yīng)的狀態(tài)中, 考試焦慮癥狀的出現(xiàn)具有情境性和特異性(Lowe et al., 2008), 當(dāng)沒(méi)有或者面對(duì)非重要考試相關(guān)事件時(shí), 考試焦慮者并沒(méi)有明顯的心理生理不適癥狀, 只會(huì)表現(xiàn)出一定的焦慮癥狀, 但當(dāng)重要考試相關(guān)事件出現(xiàn)時(shí), 考試焦慮者的焦慮水平會(huì)急速上升, 伴隨著明顯的心理生理反應(yīng), 并進(jìn)一步影響個(gè)體的認(rèn)知水平(Lotz & Sparfeldt, 2017; Mok & Chan, 2016)。這表明, 考試焦慮的癥狀是隨著考試焦慮者對(duì)考試事件的認(rèn)知而變化的, 即考 試焦慮者越將考試事件視作是一種威脅(即對(duì)考試的認(rèn)知越不合理), 越能夠激發(fā)他們的不適癥狀(Mochcovitch, da Rocha Freire, Garcia, & Nardi, 2014)。因此, 考試焦慮者的認(rèn)知模式是對(duì)考試焦慮進(jìn)行診斷的重要基礎(chǔ)。
腦電技術(shù)(Electroencephalography, EEG) 可以有效反映個(gè)體對(duì)特定刺激的情緒狀態(tài)變化、注意及背后的認(rèn)知模式(Edwards, Burt, & Lipp, 2010)。腦電是人腦活動(dòng)時(shí)產(chǎn)生的自發(fā)電位, 具有較高的時(shí)間分辨率和敏感性 (Luck, Woodman, & Vogel, 2000), 其中, 事件相關(guān)電位(event-related potentials, ERPs)則是大腦對(duì)特定類型刺激的電位反應(yīng), 可以反映個(gè)體對(duì)特定事件的認(rèn)知模式??荚嚱箲]者的重要認(rèn)知特點(diǎn)為將考試視為一種威脅, 因此考試相關(guān)威脅信息出現(xiàn)時(shí), 高考試焦慮者更容易將注意資源放在考試相關(guān)威脅信息上(即注意偏向), 并持續(xù)加工這些信息, 對(duì)當(dāng)前需要進(jìn)行的任務(wù)產(chǎn)生干擾(Kalanthroff, Henik, Derakshan, & Usher, 2016; Putwain, Langdale, Woods, & Nicholson, 2011)。具體表現(xiàn)為當(dāng)考試相關(guān)(威脅)信息出現(xiàn)時(shí), 高考試焦慮者在ERP的重要成分上有顯著的波幅變化(增加或降低)。
情緒Stroop范式能夠很好地反映高考試焦慮個(gè)體對(duì)考試威脅信息的認(rèn)知特點(diǎn)(van Bockstaele et al., 2014; Verhaak, Smeenk, van Minnen, & Kraaimaat, 2004)。在情緒Stroop任務(wù)中, 每次給被試呈現(xiàn)一個(gè)詞語(yǔ)刺激, 同時(shí)包含目標(biāo)維度(顏色)和干擾維度(詞義), 要求被試只專注目標(biāo)維度(即判斷詞的顏色)而忽略干擾維度(即詞義), 詞義分為考試相關(guān)威脅詞(如:掛科)和中性詞(如:街道), 任務(wù)通過(guò)比較威脅詞和中性詞條件下的ERP成分變化推斷個(gè)體對(duì)威脅信息的注意特點(diǎn)(Dennis & Chen, 2009; Gu et al., 2011)。由于高考試焦慮者對(duì)考試相關(guān)威脅信息存在注意偏向, 因此, 當(dāng)威脅詞出現(xiàn)時(shí), 相比于低考試焦慮者, 高考試焦慮者會(huì)在一些有重要意義的ERP成分上表現(xiàn)出波幅的顯著變化, 可能表現(xiàn)為相對(duì)早期的、感覺(jué)的, 與自動(dòng)化加工關(guān)的成分(如P1, P2, N2等成分) (Kanske & Kotz, 2012; Wabnitz, Martens, & Neuner, 2016), 及相對(duì)晚期的、認(rèn)知的, 與自主加工和情緒活動(dòng)相關(guān)的成分(如P3, LPP等成分; Albert, López-Martín, & Carretié, 2010; Raz, Dan, Arad, & Zysberg, 2013)的波幅顯著增強(qiáng)。
采用ERPs技術(shù)對(duì)考試焦慮程度評(píng)估可以有效降低問(wèn)卷法的限制:(1)真實(shí)性:ERPs中的特定成分反映的是個(gè)體對(duì)特定刺激的自動(dòng)化反應(yīng), 不易于自主控制, 具有高度的客觀性(Righi, Mecacci, & Viggiano, 2009)。(2)誘導(dǎo)性:ERP任務(wù)中呈現(xiàn)的刺激材料往往時(shí)間較短, 個(gè)體沒(méi)有充分的時(shí)間對(duì)其進(jìn)行加工, 從而對(duì)個(gè)體(Morel, George, Foucher, Chammat, & Dubal, 2014; Tillman & Wiens, 2011)的情緒和認(rèn)知影響較低。然而ERPs技術(shù)也存在自身的局限性:(1)個(gè)體差異性:不同個(gè)體之間的腦電幅值可能差異很大, 很難找到具有代表性的有效特征, 使得在使用腦電對(duì)不同群體進(jìn)行分類診斷的精確性受到影響(Boshra, Ruiter, Reilly, & Connolly, 2016; 王艷娜, 孫丙宇, 2017)。(2)干擾性:由于腦電指標(biāo)十分敏感, 因此很容易受到外界干擾信號(hào)或者內(nèi)部其他類型認(rèn)知的干擾(Cecotti et al., 2011)。因此單獨(dú)使用ERPs技術(shù)進(jìn)行分類診斷的準(zhǔn)確率無(wú)法保證。
為了減少ERPs技術(shù)的限制對(duì)考試焦慮診斷性的影響, 增加診斷的穩(wěn)定性與準(zhǔn)確性, 我們?cè)谀X電技術(shù)的基礎(chǔ)上進(jìn)一步采用機(jī)器學(xué)習(xí)技術(shù)。機(jī)器學(xué)習(xí)特別是深度學(xué)習(xí)是一種強(qiáng)力的分類模型, 已經(jīng)在圖像識(shí)別(Krizhevsky, Sutskever, & Hinton, 2012), 自然語(yǔ)言處理(Kumar et al., 2016), 文本分類(Yang et al., 2016)等任務(wù)中取得很好的結(jié)果。我們主要采用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network, CNN)這種深度學(xué)習(xí)算法對(duì)腦電類型數(shù)據(jù)進(jìn)行模型的建立。在適用性方面, CNN是一種基于普通神經(jīng)網(wǎng)絡(luò)的推廣算法, 特別善于捕捉數(shù)據(jù)的局部特征。腦電數(shù)據(jù)雖然存在個(gè)體差異性和干擾性的局限, 但是也存在相對(duì)穩(wěn)定性, 即在頭皮上相鄰電極點(diǎn)之間的點(diǎn)位變化具有很大的相關(guān)性, 結(jié)合分析能夠提高準(zhǔn)確性。而CNN可以組合分析相鄰電極點(diǎn)之間的腦電數(shù)據(jù), 通過(guò)下采樣的方式來(lái)減小數(shù)據(jù)矩陣的大小, 有效減少數(shù)據(jù)的位移、擾動(dòng)和一些小的變化對(duì)數(shù)據(jù)穩(wěn)定性和準(zhǔn)確性的影響, 因此CNN對(duì)腦電數(shù)據(jù)具有高度適用性(Lu, Jiang, & Liu, 2017; Seijdel, Ramakrishnan, Losch, & Scholte, 2016)。在具體操作方面, 為了處理一些復(fù)雜的任務(wù), 在傳統(tǒng)的分類模型中, 往往需要對(duì)數(shù)據(jù)進(jìn)行很復(fù)雜的特征提取, 然后將得到的特征放入分類模型中進(jìn)行處理。而CNN是一種端對(duì)端的算法, 即只需要將經(jīng)過(guò)簡(jiǎn)單預(yù)處理的數(shù)據(jù)作為模型的輸入, CNN會(huì)自動(dòng)學(xué)習(xí)特征, 并且利用習(xí)得的特征進(jìn)行分類。此外, 同傳統(tǒng)機(jī)器學(xué)習(xí)方法相比, CNN在這一類有空間結(jié)構(gòu)的數(shù)據(jù)上表現(xiàn)遠(yuǎn)超傳統(tǒng)機(jī)器學(xué)習(xí)方法(Lee, 2015; Fotin, Haldankar,& Periaswamy, 2016), 并且已被驗(yàn)證確實(shí)能夠提取出高層次的有用的信息(Zeiler & Fergus, 2014; Mahendran & Vedaldi, 2015), 同時(shí)神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)能夠保證它可以實(shí)現(xiàn)對(duì)任何一個(gè)從輸入向量到輸出向量的連續(xù)映射函數(shù)的逼近(Hornik, 1991)。所以我們認(rèn)為CNN能在ERPs數(shù)據(jù)上取得良好的結(jié)果。
因此, 本文主要關(guān)注考試焦慮的程度評(píng)估與診斷問(wèn)題, 采用卷積神經(jīng)網(wǎng)絡(luò)(CNN)對(duì)高、低考試焦慮者在情緒Stroop中的ERP腦電信號(hào)進(jìn)行分類模型的建立, 并進(jìn)一步使用該模型對(duì)被試的考試焦慮進(jìn)行診斷, 試圖探究更為客觀、準(zhǔn)確的考試焦慮診斷方法。
本研究通過(guò)海報(bào)及網(wǎng)絡(luò)招募的方式招募了82名被試。被試(年齡為18~26歲; 皆為右利手)根據(jù)考試焦慮量表(Sarason, 1978)得分以及兩位專家的綜合評(píng)估被分至高考試焦慮組(TAS分?jǐn)?shù):27.85 ± 4.78, 人數(shù)為57人, 男性25人, 年齡:21.27 ± 1.89歲)和低考試焦慮組(TAS分?jǐn)?shù):8.65 ± 2.76, 人數(shù)為25人, 男性12人, 年齡:21.35 ± 2.96歲)。該實(shí)驗(yàn)已經(jīng)通過(guò)倫理委員會(huì)的審查, 所有被試在實(shí)驗(yàn)前已經(jīng)簽署知情同意書(shū), 均為自愿參加實(shí)驗(yàn), 在實(shí)驗(yàn)之后也獲得相應(yīng)的報(bào)酬(40元)。
考試焦慮量表是由美國(guó)臨床心理學(xué)家Irwin G. Sarason于1978年編制完成的(Sarason, 1978)。TAS量表共37題, 每個(gè)問(wèn)題要求作是或否的二擇一回答, “是”記1分, “否”記0分, 通過(guò)計(jì)算總分對(duì)考試焦慮程度進(jìn)行評(píng)估, 總分范圍為0~37, 得分越高說(shuō)明考試焦慮的程度越高, TAS得分≥20為高考試焦慮者, TAS得分≤12為低考試焦慮者(Newman, 1996; Wang, 2001)。量表的重測(cè)信度為0.61, 同質(zhì)性系數(shù)為0.64。量表的結(jié)構(gòu)效度采用與考試焦慮測(cè)驗(yàn)(TAI)的相關(guān)測(cè)得, TAS 總量表分和TAI的擔(dān)心(worry)分量表的相關(guān)為0.48; 和TAI的情緒性(emotionality)分量表的相關(guān)為0.60 (王才康, 2001)。
情緒Stroop任務(wù)設(shè)計(jì)與前人設(shè)計(jì)類似(Thomas, Johnstone, & Gonsalvez, 2007), 要求被試忽略詞義, 只判斷詞的顏色。在材料上:(1)詞義分為兩種條件:考試相關(guān)威脅詞(如“試卷”, “分?jǐn)?shù)”)和中性詞(如“花園”, 鞋子)。詞匯的選取是通過(guò)評(píng)定的方法:請(qǐng)40位被試(不參加此次實(shí)驗(yàn))根據(jù)威脅度和相關(guān)度篩選出考試相關(guān)威脅詞與中性詞各15個(gè), 并根據(jù)使用頻率進(jìn)行匹配。評(píng)定結(jié)果為考試相關(guān)威脅詞的威脅度((38) = 30.19,< 0.001)與相關(guān)度((38) = 38.166,< 0.001)都顯著高于中性詞, 且兩類詞在使用頻率上沒(méi)有顯著差異((38) = 1.436,= 0.162)。(2)詞色分為兩種條件:紅色和藍(lán)色。在操作上, 任務(wù)包括兩部分(1)練習(xí)部分:包含6次實(shí)驗(yàn)試次, 但是每次呈現(xiàn)的都是中性詞, 具體設(shè)置與實(shí)驗(yàn)部分(見(jiàn)后文)類似, 且練習(xí)部分中出現(xiàn)的詞都沒(méi)有出現(xiàn)在實(shí)驗(yàn)部分中。此外, 每個(gè)試次中在被試進(jìn)行反應(yīng)之后程序都呈現(xiàn)“正確”或“錯(cuò)誤”的反饋(實(shí)驗(yàn)部分不呈現(xiàn)反饋); (2)實(shí)驗(yàn)部分:包含120次試次(每個(gè)詞匯隨機(jī)出現(xiàn)4次, 2次為紅色, 2次為藍(lán)色)。每個(gè)試次都以計(jì)算機(jī)屏幕中央呈現(xiàn)注視點(diǎn)“+”開(kāi)始, 該注視點(diǎn)停留在屏幕上200 ms, 之后屏幕呈現(xiàn)空白并持續(xù)一定時(shí)間(在800至1200 ms之間隨機(jī)), 隨后一個(gè)目標(biāo)詞將出現(xiàn)在白色背景下。每個(gè)試次在以下兩種情況下結(jié)束:(a)被試完成反應(yīng)(按下按鈕選擇詞匯的顏色), 或者(b)在2000 ms內(nèi)未進(jìn)行反應(yīng)。試次間會(huì)出現(xiàn)空白屏幕并持續(xù)一定時(shí)間(在1000至1200 ms之間隨機(jī))。
本研究采用NeuroScan公司的64導(dǎo)放大器采集EEG信號(hào)。采集時(shí)采用左側(cè)乳突作為參考電極。水平眼電分別置于雙眼外眼瞼處, 垂直眼電分別置于左眼上下2.5 cm處。全頭電阻始終保持在5 kΩ以下。EEG信號(hào)的采集采用直流電(DC)模式, 分辨率為1000 Hz。
腦電信號(hào)的離線處理采用Curry 7.0.8軟件。EEG信號(hào)通過(guò)雙側(cè)乳突進(jìn)行轉(zhuǎn)參考, 進(jìn)行0~30 Hz的濾波, 并對(duì)垂直眼電與質(zhì)量不佳的信號(hào)進(jìn)行校正或刪除。ERP成分信息通過(guò)疊加被試分別在兩種條件下的EEG信號(hào)得出:EEG信號(hào)以每次刺激前200 ms至刺激后1000 ms (共計(jì)1200 ms)進(jìn)行分段疊加, 采用刺激前200 ms的數(shù)據(jù)作為基線對(duì)ERP波形進(jìn)行校正。在具體分析的ERP成分上, 本研究根據(jù)前人文獻(xiàn)(Donaldson, Ait Oumeziane, Hélie, & Foti, 2016; Felmingham, Stewart, Kemp, & Carr, 2016)并結(jié)合本研究的結(jié)果提取出5個(gè)具有含義的ERP成分:P1 (120~170 ms), P2 (210~260 ms), N2 (240~290 ms), P3 (320~370 ms)和LPP (450~600 ms), 在每個(gè)ERP成分的時(shí)間段內(nèi)取峰值作為此成分的數(shù)據(jù)值。最終, 對(duì)于每一個(gè)被試, 我們采集有64個(gè)電極點(diǎn)信號(hào), 每個(gè)電極點(diǎn)包含威脅詞, 中性詞兩種條件, 每種條件含有5種ERP成分的峰值數(shù)據(jù), 即一個(gè)被試有64×2×5 = 640個(gè)數(shù)據(jù)。為了確定這5種成分的選擇是否具有代表性, 我們對(duì)分別對(duì)5種成分在Fz, FCz, Cz, CPz和Pz五個(gè)電極點(diǎn)上的ERP波幅進(jìn)行2(組別高考試焦慮, 低考試焦慮) × 2(條件:考試焦慮威脅詞, 中性詞)的重復(fù)測(cè)量方差分析, 從而判斷這5種成分的選取是否能有效區(qū)分高、低考試焦慮者。
在神經(jīng)網(wǎng)絡(luò)任務(wù)中, 我們一般會(huì)對(duì)數(shù)據(jù)進(jìn)行歸一化或者正則化處理, 這樣可以使模型盡快的收斂, 由于這些數(shù)據(jù)的絕對(duì)值都小于15, 我們直接將數(shù)據(jù)除以15, 使它們的取值在(?1, 1)之間。
為了對(duì)每種機(jī)器學(xué)習(xí)算法進(jìn)行更為客觀的比較, 我們采取k折交叉驗(yàn)證的方式, 即:將樣本均勻地分為互斥的k份, 保證每一份的樣本個(gè)數(shù)相同。一共進(jìn)行k次訓(xùn)練, 每次訓(xùn)練選其中k?1份作為訓(xùn)練集, 剩下一份作為測(cè)試集, 最終的指標(biāo)為k次訓(xùn)練之后得到的模型在測(cè)試集上指標(biāo)的平均值(見(jiàn)圖1)。一種基于經(jīng)驗(yàn)的k值確定方式為k≈log (n) (Jung, 2018), n為樣本量的大小。這里log (n) = log (82) ≈4.4, 因此我們向上取整取k = 5, 使用5折交叉驗(yàn)證。
卷積操作是卷積神經(jīng)網(wǎng)絡(luò)的核心操作, 通過(guò)它模型得以提取數(shù)據(jù)的不同特征, 模型也是通過(guò)這一步在數(shù)據(jù)中學(xué)習(xí)到了卷積核的參數(shù)。卷積的操作如圖2, 具體公式為:
圖1 圖中的表示原始數(shù)據(jù)集,,,…D表示將分成的k個(gè)相同大小的子集
圖2 卷積操作的計(jì)算展示
注:這里的卷積是不進(jìn)行補(bǔ)全的卷積, 即卷積運(yùn)算之后數(shù)據(jù)矩陣會(huì)相應(yīng)變小, 同時(shí)也有一種補(bǔ)全的卷積操作, 即在原數(shù)據(jù)矩陣周圍添0, 使得卷積之后得到的數(shù)據(jù)矩陣大小不變。
卷積操作是通過(guò)卷積核(紅色矩陣)在數(shù)據(jù)矩陣(藍(lán)色矩陣)上進(jìn)行滑動(dòng), 將對(duì)應(yīng)的元素進(jìn)行相乘相加得到的新元素作為輸出矩陣的對(duì)應(yīng)元素。這里輸出數(shù)據(jù)矩陣的長(zhǎng)和寬皆為:4?2+1 = 3。黃色矩陣的第一個(gè)元素是由1×1+2×0+5×0+6×2 = 13得到, 由于我們的步長(zhǎng)是1, 那么將紅色矩陣向右滑動(dòng)一格, 黃色矩陣的第二個(gè)元素由2×1+0×3+6×0+1×2 = 4得到, 其他元素以此類推。使用多個(gè)卷積核就可以得到多個(gè)不同的輸出, 以此得到輸入數(shù)據(jù)的多個(gè)不同特征, 卷積核中的元素是所要訓(xùn)練的參數(shù), 可以通過(guò)反向傳播的方式進(jìn)行訓(xùn)練(LeCun & Bengio, 1995)。
池化是卷積神經(jīng)網(wǎng)絡(luò)中常用的一種操作, 它通過(guò)降低矩陣長(zhǎng)和寬的大小, 降低了數(shù)據(jù)矩陣的分辨率, 但是也進(jìn)一步壓縮并提取了原數(shù)據(jù)的特征, 并且減少了網(wǎng)絡(luò)計(jì)算的復(fù)雜度。圖3是一個(gè)最大池化操作的直觀展示, 不難看出, 如果數(shù)據(jù)矩陣中的部分?jǐn)?shù)據(jù)發(fā)生一些輕微變化, 最大池化還是能輸出一樣的結(jié)果, 這也是模型對(duì)于數(shù)據(jù)的偏移和旋轉(zhuǎn)有較好的魯棒性的原因。
圖3 最大池化的計(jì)算展示
注:圖中表示的是一個(gè)4×4的矩陣上使用一個(gè)2×2的窗口以步長(zhǎng)為2進(jìn)行最大池化, 其原理就是取出每個(gè)2×2窗口中的的最大元素作為輸出矩陣中對(duì)應(yīng)元素的值。
本研究使用的卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)見(jiàn)圖4。本文中使用的CNN的輸入數(shù)據(jù)維度是64×2×5, 其中64代表64個(gè)不同位置的電極點(diǎn), 2代表任務(wù)條件(即威脅詞和中性詞下不同的腦電信息), 5代表5種ERP成分(即P1, P2, N2, P3和LPP成分)。將原始數(shù)據(jù)輸入到卷積層Conv1做卷積計(jì)算, 即用一個(gè)較小的卷積核(也叫卷積矩陣)在數(shù)據(jù)矩陣上根據(jù)給定的步長(zhǎng)(這里步長(zhǎng)為1)進(jìn)行滑動(dòng), 將對(duì)應(yīng)位置的元素進(jìn)行相乘求和。在如圖中輸入數(shù)據(jù)矩陣為64×2×5的情況下, 用16個(gè)5×5的卷積核來(lái)進(jìn)行卷積操作, 每一個(gè)卷積核都進(jìn)行卷積操作就得到16個(gè)64×2的矩陣(這里我們使用補(bǔ)全的卷積方式, 于是數(shù)據(jù)矩陣的大小并不發(fā)生改變), 這16個(gè)矩陣分別代表16種原數(shù)據(jù)的不同特征, 在深度學(xué)習(xí)中我們稱為通道數(shù)??梢钥闯鼍矸e是一種局部操作, 通過(guò)一定大小的卷積核作用于局部數(shù)據(jù)區(qū)域來(lái)提取局部信息, 這里卷積核的大小是事先給定的, 里面的參數(shù)由模型學(xué)習(xí)而來(lái), 這些特性使得CNN的參數(shù)可以共享, 減少了參數(shù)個(gè)數(shù), 并且在數(shù)據(jù)發(fā)生平移變換的時(shí)候, 模型仍能捕捉到相似的特征。為了滿足不同任務(wù)的需要, 近年來(lái), 許多不同的卷積核如空洞卷積也被提出(Yu & Koltun, 2015)。
卷積層一般會(huì)跟著一個(gè)下采樣操作, 又叫池化層, 即通過(guò)一個(gè)小矩陣在數(shù)據(jù)矩陣上滑動(dòng), 只提取小矩陣中的最大數(shù)據(jù)(最大池化)或平均數(shù)據(jù)(平均池化), 從一個(gè)較大數(shù)據(jù)矩陣壓縮到一個(gè)較小的矩陣用作下一層的輸入, 這一層沒(méi)有參數(shù)需要學(xué)習(xí), 通過(guò)池化運(yùn)算可以減少分辨率, 降低數(shù)據(jù)對(duì)噪音的敏感程度。在這里Pool1層做的就是池化操作, 通過(guò)一個(gè)4×1的矩陣在上一卷積層的輸出矩陣中以步長(zhǎng)為3滑動(dòng), 使該輸出矩陣變?yōu)?2×2×16的大小(22 = [65/4]+1, []表示向下取整)。
圖4 本研究使用的卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)圖
注:每一層的具體參數(shù)見(jiàn)表1。橫線上的數(shù)據(jù)表示這一層的輸入數(shù)據(jù)的維度, 也即上一層輸出數(shù)據(jù)的維度。Conv代表卷積操作, Pool代表池化操作, relu代表在卷積操作之后的非線性激活方法。
每次池化之后我們都會(huì)對(duì)輸出的數(shù)據(jù)矩陣做非線性激活, 這一手段使得模型能夠擬合任意的數(shù)據(jù)流形, 常用的非線性激活函數(shù)是relu函數(shù)。即:
()=(0,)
在很多實(shí)驗(yàn)中驗(yàn)證了這是一個(gè)非常有效的激活函數(shù), 并且具有生物學(xué)意義, 這種非線性的激活函數(shù)使得卷積神經(jīng)網(wǎng)絡(luò)可以逼近任意數(shù)據(jù)分布, 使得網(wǎng)絡(luò)有了非常強(qiáng)大的擬合能力, 同時(shí)也有防止梯度消失的作用(Nair & Hinton, 2010)。
在后面的幾層中我們繼續(xù)做了卷積和池化的操作, 使得數(shù)據(jù)矩陣的長(zhǎng)和寬越來(lái)越小, 而通道數(shù)越來(lái)越多, 即學(xué)習(xí)得到的特征數(shù)越來(lái)越多, 這就是卷積神經(jīng)網(wǎng)絡(luò)的特征提取的過(guò)程。
傳統(tǒng)的CNN在倒數(shù)幾層架構(gòu)中會(huì)將數(shù)據(jù)矩陣展平成一個(gè)向量, 再加入幾層全連接網(wǎng)絡(luò), 也就是FC層, 最后一層再用softmax分類器進(jìn)行輸出。而最近的研究指出全連接網(wǎng)絡(luò)會(huì)非常容易導(dǎo)致過(guò)擬合, 取消中間的全連接層, 而全用卷積層代替, 并且加入平均池化也即Pool3, 可以大大提高模型的泛化性(Lin, Chen, & Yan, 2013), 因此這里我們采用的也是這種架構(gòu)。
最后在經(jīng)過(guò)FC層之后能得到一個(gè)預(yù)測(cè)的類別即被試的考試焦慮或者非考試焦慮, 將預(yù)測(cè)的結(jié)果與已知的實(shí)際類別進(jìn)行比較并計(jì)算兩者之間的誤差, 使用優(yōu)化算法Adam來(lái)優(yōu)化模型中每一層的參數(shù)從而減少誤差, 使預(yù)測(cè)的正確率不斷上升, 本文所使用的卷積神經(jīng)網(wǎng)絡(luò)在交叉驗(yàn)證下的正確率達(dá)到了86.6%。本文中的卷積神經(jīng)網(wǎng)絡(luò)的代碼框架是TensorFlow, 在python上進(jìn)行了實(shí)現(xiàn), 并使用了GPU加速, 顯卡配置是2塊Quadro P500。
為了便于說(shuō)明每一層的結(jié)構(gòu), 我們將卷積和池化分為兩層來(lái)介紹, 這里我們建立了一個(gè)7層的卷積神經(jīng)網(wǎng)絡(luò)(表1), 通過(guò)卷積操作來(lái)提取特征, 通過(guò)池化來(lái)壓縮數(shù)據(jù)的分辨率, 最后采用平均池化提取全局特征, 這一操作可以增加模型的泛化能力。
本文還使用了其他機(jī)器學(xué)習(xí)的分類方法:邏輯回歸(Logistic Regression), K近鄰(KNN), 支持向量機(jī)(SVM), 隨機(jī)森林(Random Forest), 人工神經(jīng)網(wǎng)絡(luò)(ANN), 循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN), 并將分類結(jié)果與卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行比較(表2)。其中邏輯回歸是在正負(fù)兩類樣本找到一個(gè)線性分類邊界來(lái)劃分兩類樣本的算法; K近鄰則是通過(guò)計(jì)算新樣本與訓(xùn)練集中樣本的“距離”來(lái)進(jìn)行新樣本的劃分, 找出訓(xùn)練集中離新樣本“距離”最近的K個(gè)點(diǎn), K個(gè)點(diǎn)中正(負(fù))類樣本更多, 則新樣本就被預(yù)測(cè)為正(負(fù))類樣本, 這里我們使用歐式距離; 支持向量機(jī)通過(guò)尋找離分類邊界最近的訓(xùn)練樣本點(diǎn)來(lái)找到劃分超平面, 這些樣本點(diǎn)被稱為支持向量; 隨機(jī)森林是多棵決策樹(shù)的集成, 通過(guò)可放回采樣, 隨機(jī)選取樣本、特征來(lái)構(gòu)造多棵決策樹(shù), 根據(jù)每個(gè)樹(shù)的分類結(jié)果來(lái)投票共同決定新樣本的分類結(jié)果; ANN是最普通神經(jīng)網(wǎng)絡(luò), 多層的神經(jīng)網(wǎng)絡(luò)通過(guò)多次特征的線性組合與非線性函數(shù)的激活來(lái)得到強(qiáng)大的學(xué)習(xí)能力; RNN是ANN的一種推廣, 它使得每一層的神經(jīng)元之間可以互相連接, 從而增加了信息的流動(dòng)性, 往往應(yīng)用在自然語(yǔ)言處理當(dāng)中。
表1 卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)
注:通過(guò)三次卷積操作提取了數(shù)據(jù)的特征, 將數(shù)據(jù)矩陣的大小進(jìn)行壓縮, 但是數(shù)據(jù)的深度加深, 每次池化操作之后都使用了relu函數(shù)對(duì)數(shù)據(jù)矩陣進(jìn)行逐元素激活, 最后加上一個(gè)全連接層將每一個(gè)樣本進(jìn)行分類。
情緒Stroop的ERP結(jié)果見(jiàn)圖5, 方差分析結(jié)果表明P1, P2, N2, P3和LPP這5種ERP成分對(duì)高、低考試焦慮者具有鑒別能力, 即在Fz, FCz, Cz, CPz和Pz點(diǎn)上均有顯著結(jié)果。具體表現(xiàn)為(以Cz點(diǎn)結(jié)果為例), 在5種成分上, 條件主效應(yīng)在P2, N2, 和P3成分上顯著(P2:(1, 80) = 9.25,= 0.003, η= 0.10; N2:(1, 80) = 19.51,< 0.001, η= 0.20; P3:(1, 80) = 27.86,0.001η= 0.26), 在P1和LPP成分上不顯著(s(1, 80) < 1.06,s > 0.307), 組別主效應(yīng)均不顯著(s (1, 80) < 1.52,s > 0.221), 組別與條件交互效應(yīng)均顯著(P1:(1, 80) = 11.68,< 0.001, η= 0.13; P2:(1, 80) = 14.10,< 0.001, η= 0.15; N2:(1, 80) = 28.55,< 0.001, η= 0.26; P3:(1, 80) = 22.41,< 0.001η= 0.22;LPP:(1, 80) = 16.92,< 0.001η= 0.18); 進(jìn)一步簡(jiǎn)單分析表明, 高考試焦慮組在考試相關(guān)威脅詞條件下的ERP波幅顯著強(qiáng)于中性詞條件下(P1:(1, 80) = 16.19,<0.001, η= 0.17; P2:(1, 80) = 37.88,< 0.001, η= 0.32; N2:(1, 80) = 78.12,< 0.001η= 0.49; P3:(1, 80) = 82.18,< 0.001η= 0.51; LPP:(1, 80) = 19.55,< 0.001, η= 0.20), 而低考試焦慮組在兩種詞匯條件下的ERP波幅沒(méi)有顯著差異(P1, P2, N2, P3:s (1, 80) < 2.06,s > 0.155; LPP:(1, 80) = 4.02,= 0.048, η= 0.05, 邊緣顯著)。
不同機(jī)器學(xué)習(xí)算法比較的結(jié)果見(jiàn)表2。由于這一批數(shù)據(jù)正反兩類的數(shù)目并不均衡, 這里我們使用在測(cè)試集上的準(zhǔn)確率和F1-score來(lái)評(píng)價(jià)模型的優(yōu)劣, F1-score是樣本類別不均衡下一種衡量模型好壞的評(píng)價(jià)指標(biāo), 它是基于查準(zhǔn)率與查全率的調(diào)和平均來(lái)定義的, 在這一實(shí)驗(yàn)中, 高考試焦慮人群的數(shù)量遠(yuǎn)多于低考試焦慮人群, 因此在高考試焦慮人群上的準(zhǔn)確性可能會(huì)掩蓋低考試焦慮的部分, 相對(duì)于單一的準(zhǔn)確性而言F1-score更加全面的衡量了模型在高、低考試焦慮這兩類人群上的準(zhǔn)確性。通過(guò)對(duì)不同模型間的各類重要指標(biāo)進(jìn)行比較(表2), 我們發(fā)現(xiàn)CNN在這一分類任務(wù)上的各個(gè)重要指標(biāo)都顯著高于其他算法。例如, 宿云、胡斌、徐立新、張曉煒和陳婧(2015)在研究中提到的用隨機(jī)森林對(duì)EGG信號(hào)進(jìn)行分類的方法, 雖然隨機(jī)森林構(gòu)建更快, 需要調(diào)整的參數(shù)也更少, 但是它在某些噪音較大的分類問(wèn)題上容易過(guò)擬合, 且偏向于劃分取值較多的特征, 因此在當(dāng)前數(shù)據(jù)上表現(xiàn)不佳, 同時(shí)也有研究指出, 神經(jīng)網(wǎng)絡(luò)往往比隨機(jī)森林得到的結(jié)果更優(yōu)一些(Strier & Shechter, 2016)。因此我們認(rèn)為, 在對(duì)于腦電信號(hào)的處理方面, 卷積神經(jīng)網(wǎng)絡(luò)確實(shí)有獨(dú)特的優(yōu)勢(shì)。
表2 不同機(jī)器學(xué)習(xí)模型的結(jié)果對(duì)比
圖5 情緒Stroop任務(wù)的ERP波形圖
注:情緒Stroop任務(wù)中高、低考試焦慮在兩種條件(中性詞和考試相關(guān)威脅詞)下的ERP總平均波形圖(以Fz, FCz, Cz, CPz和Pz電極點(diǎn)為例)。
本研究提出了一種用于考試焦慮程度的診斷方法。該方法使用ERPs技術(shù)采集并分析高、低考試焦慮者在情緒Stroop中對(duì)考試相關(guān)威脅詞與中性詞下的ERP成分, 采用機(jī)器學(xué)習(xí)(以CNN算法為主)建立了一個(gè)對(duì)被試焦慮與否的分類模型, 并且通過(guò)一些量化的指標(biāo)說(shuō)明CNN在這一分類任務(wù)上的表現(xiàn)明顯好于其它5種算法。
首先, 情緒Stroop范式結(jié)合ERPs技術(shù)確實(shí)可以作為一個(gè)有效判斷考試焦慮程度的診斷任務(wù)。具體表現(xiàn)為以下三點(diǎn):
(1)范式對(duì)考試焦慮程度評(píng)估的可靠性與有效性。通過(guò)比較不同算法在兩個(gè)指標(biāo)上的得分(見(jiàn)表2)可以得出, 采用各模型對(duì)被試的ERP數(shù)據(jù)進(jìn)行計(jì)算均可以得到較高的準(zhǔn)確率和F1-score, 準(zhǔn)確率高表示模型對(duì)高、低考試焦慮兩類人群總的分類能力強(qiáng), F1-score高代表模型對(duì)于識(shí)別高、低考試焦慮人的能力都強(qiáng)并且不會(huì)因?yàn)閮深悩颖镜臄?shù)量不均勻使模型產(chǎn)生偏差。前人研究中表明當(dāng)準(zhǔn)確率大于75%, F1-score大于0.8, 模型就有良好的性能(Dem?ar, 2006)。本研究中所采用的機(jī)器學(xué)習(xí)算法的結(jié)果基本都能滿足這一條件, 這表明對(duì)個(gè)體應(yīng)用情緒Stroop范式所采集到的ERP數(shù)據(jù)對(duì)個(gè)體考試焦慮程度的判斷具有穩(wěn)定性, 因此, 證明此任務(wù)具有良好的效度。
(2)機(jī)器學(xué)習(xí)特征選取的有效性和高度客觀性。本研究在機(jī)器學(xué)習(xí)的特征選取中具有重要心理學(xué)意義的特征是任務(wù)條件(即情緒Stroop任務(wù)中的考試相關(guān)威脅條件與中性條件)和ERP成分(即P1, P2, N2, P3和LPP成分), 而通過(guò)對(duì)腦電結(jié)果的方差分析可以得出這兩種重要特征的選取兼具有效性和客觀性。首先, 方差分析的結(jié)果表明這兩種特征可以有效區(qū)分高、低考試焦慮者。方差結(jié)果表明低考試焦慮者在情緒Stroop任務(wù)中的兩種條件下的ERP波幅沒(méi)有顯著差異, 而高考試焦慮者的ERP波幅有顯著差異, 并體現(xiàn)在各個(gè)ERP成分上。這說(shuō)明高考試焦慮者會(huì)因?yàn)榭荚囅嚓P(guān)威脅詞的出現(xiàn)而受到干擾, 說(shuō)明結(jié)合這兩類特征可以有效反映高考試焦慮者認(rèn)知中視考試相關(guān)威脅詞為威脅的認(rèn)知模式(Gootjes, Coppens, Zwaan, Franken, & van Strien, 2011)。其次, 在這5種ERP成分各自代表了不同的心理學(xué)意義并且ERP波幅可以量化, 從而達(dá)到診斷的客觀性與準(zhǔn)確性。具體而言, P1-P2-N2成分反映的是個(gè)體對(duì)刺激自動(dòng)化的注意偏向(Berggren & Derakshan, 2013; Derakshan, Smyth, & Eysenck, 2009), P3成分在此類任務(wù)中反映的主要是在個(gè)體對(duì)信息進(jìn)一步的精細(xì)加工(Jo, Schmidt, Inacker, Markowiak, & Hinterberger, 2016; Peng, Cai, & Zhou, 2015), LPP成分反映的則是個(gè)體對(duì)刺激的情緒性自動(dòng)反應(yīng)(Cosme & Wiens, 2015; Gootjes et al., 2011)。本研究的ERP結(jié)果說(shuō)明當(dāng)考試相關(guān)威脅信息出現(xiàn)時(shí), 高考試焦慮者能夠迅速注意到并自動(dòng)化加工這類信息(P1-P2-N2成分), 之后高考試焦慮者對(duì)這類信息的干擾抑制失敗, 從而對(duì)此類信息進(jìn)行進(jìn)一步精細(xì)加工(P3成分), 這種對(duì)威脅信息的加工隨后激發(fā)了相應(yīng)的負(fù)性情緒(LPP成分), 因此本研究中的ERP成分可以有效反映高考試焦慮者對(duì)考試信息的不合理認(rèn)知(Chen & Zhou, 2010)。最后, 由于高考試焦慮者對(duì)考試相關(guān)威脅的反應(yīng)包含高度自動(dòng)化的反應(yīng), 他們?cè)谶M(jìn)行任務(wù)的時(shí)候往往很難意識(shí)到自己對(duì)不同類型詞匯的反應(yīng), 無(wú)法猜測(cè)任務(wù)目的(Yiend, 2010), 因此在使用此模型進(jìn)行考試焦慮篩查時(shí), 可以有效避免由于猜測(cè)到任務(wù)目的而有意識(shí)地進(jìn)行某種傾向的回答(例如掩蓋焦慮程度或者夸大焦慮程度), 達(dá)到診斷的客觀性與準(zhǔn)確性。
(3)情緒Stroop范式結(jié)合ERPs技術(shù)評(píng)估手段的可操作性。完成一次情緒Stroop任務(wù)只需要5分鐘, 且實(shí)驗(yàn)范式規(guī)則簡(jiǎn)單易懂, 具有高度有效性與可靠性(van Bockstaele et al., 2014; Verhaak et al., 2004), 因此能夠很好地應(yīng)用到實(shí)際診斷。
其次, 不同算法的比較可以得出我們建立的卷積神經(jīng)網(wǎng)絡(luò)模型具有良好的區(qū)別高、低考試焦慮者的能力。具體表現(xiàn)為以下三點(diǎn):
(1)高準(zhǔn)確率。相比于其他算法, CNN的算法具有最高的準(zhǔn)確率(86.5%)和F1-score (0.911)。因?yàn)镃NN模型擁有對(duì)數(shù)據(jù)的平移不變性, 并且能夠捕捉數(shù)據(jù)的局部特性和提取更高級(jí)的特征(Boureau et al., 2010), 因此使得卷積神經(jīng)網(wǎng)絡(luò)相對(duì)于其他模型而言, 對(duì)腦電數(shù)據(jù)的分析具有更高的適用性, 因此有比較明顯的提升。因此, 本研究建立的CNN診斷模型具有高度準(zhǔn)確性, 可靠性和普適性, 同時(shí)由于F1-score很高, 這一模型在識(shí)別高、低考試焦慮上都有很高的準(zhǔn)確度。
(2)診斷精確性。在應(yīng)用CNN模型對(duì)考試焦慮進(jìn)行診斷時(shí), 不僅可以對(duì)個(gè)體是否是考試焦慮者進(jìn)行診斷, 還可以分析出其考試焦慮的程度。在操作層面上, 卷積神經(jīng)網(wǎng)絡(luò)最后一層輸出的是直接的分類結(jié)果, 對(duì)于一個(gè)新的被試, 只要輸入數(shù)據(jù), 就可以判定他是否是考試焦慮, 而倒數(shù)第二層輸出的結(jié)果是該被試是高考試焦慮或低考試焦慮的概率。這個(gè)概率可以反映被試個(gè)體的考試焦慮程度, 即屬于高考試焦慮這一類的概率越大, 被試的考試焦慮程度越大。因此, 通過(guò)對(duì)高、低考試焦慮者在情緒Stroop中的ERP腦電信號(hào)進(jìn)行機(jī)器學(xué)習(xí)的結(jié)果可以有效對(duì)個(gè)體的考試焦慮程度進(jìn)行客觀診斷。
(3)可操作性。雖然對(duì)比于傳統(tǒng)機(jī)器學(xué)習(xí)方法, 卷積神經(jīng)網(wǎng)絡(luò)的模型搭建需要仔細(xì)的調(diào)參, 花費(fèi)更多地時(shí)間, 但是一旦模型建立, 進(jìn)行預(yù)測(cè)就會(huì)非??? 特別是對(duì)于大量數(shù)據(jù)而言, 深度學(xué)習(xí)模型有非常大的優(yōu)勢(shì)。
本研究的局限主要在于兩點(diǎn):首先, 本研究中數(shù)據(jù)量不高, 深度學(xué)習(xí)是數(shù)據(jù)驅(qū)動(dòng)的模型, 即深度模型強(qiáng)大的泛化能力來(lái)自于龐大的數(shù)據(jù)量, 由于我們的數(shù)據(jù)量有限, 因此這可能會(huì)降低模型的泛化能力。未來(lái)可考慮建立大數(shù)據(jù)數(shù)據(jù)庫(kù), 并使用數(shù)據(jù)增強(qiáng)等一系列手段提升數(shù)據(jù)量, 模型的表現(xiàn)可能有更進(jìn)一步的提升; 其次, 本研究提出的綜合診斷方法需要借助腦電設(shè)備, 相對(duì)于單純采用問(wèn)卷進(jìn)行診斷還是限制更多。不過(guò)隨著便攜腦電設(shè)備的不斷發(fā)展, 此診斷方法會(huì)變得越加便利。
在本研究中, 我們?cè)噲D通過(guò)卷積神經(jīng)網(wǎng)絡(luò)來(lái)對(duì)考試焦慮進(jìn)行更加客觀的診斷, 目標(biāo)是達(dá)到對(duì)考試焦慮的及早診斷考試焦慮程度評(píng)估。從機(jī)器學(xué)習(xí)的兩個(gè)重要指標(biāo)上的表現(xiàn)來(lái)看, 各類模型是相當(dāng)有效的, 其中, CNN模型是最適用于ERP數(shù)據(jù)的深度學(xué)習(xí), 對(duì)考試焦慮的診斷及程度判斷具有很高的準(zhǔn)確率與可靠性。
Albert, J., López-Martín, S., & Carretié, L. (2010). Emotional context modulates response inhibition: Neural and behavioral data.,(1), 914–921.
Berggren, N., & Derakshan, N. (2013). Attentional control deficits in trait anxiety: why you see them and why you don’t.,(3), 440–446.
Boshra, R., Ruiter, K., Reilly, J., & Connolly, J. (2016). Machinelearning based framework for EEG/ERP analysis.,, 105.
Boureau, Y-L., Bach, F., LeCun, Y., & Ponce, J. (2010, June). Learning mid-level features for recognition. In(pp. 2559–2566). IEEE.
Cecotti, H., Rivet, B., Congedo, M., Jutten, C., Bertrand, O., Maby, E., & Mattout, J. (2011). A robust sensor-selection method for P300 brain-computer interfaces.,(1), 016001.
Chen, R., Liu, X. N., & Zhou, R. L. (2011). The attentional bias to threat stimuli in test-anxious students.,(1), 151–154.
[陳睿, 劉瀟楠, 周仁來(lái). (2011). 不同程度考試焦慮個(gè)體對(duì)威脅性刺激注意機(jī)制的差異.,(1), 151–154.]
Chen, R., & Zhou, R. (2010). Attentional disengage from test-related pictures in test-anxious students: Evidence from event-related potentials.,, 232–239.
Chen, Z. Y. (2002). Fear of negative evaluation and test anxiety in middle school students.,(12), 855–857.
[陳祉妍. (2002). 中學(xué)生負(fù)面評(píng)價(jià)恐懼與考試焦慮的相關(guān)性.,(12), 855–857.]
Cosme, D., & Wiens, S. (2015). Self-reported trait mindfulness and affective reactivity: A motivational approach using multiple psychophysiological measurese.,(3), e0119466.
Dem?ar, J. (2006). Statistical comparisons of classifiers over multiple data sets.,, 1–30.
Dennis, T. A., & Chen, C-C. (2009). Trait anxiety and conflict monitoring following threat: An ERP study.,(1), 122–131.
Derakshan, N., Smyth, S., & Eysenck, M. W. (2009). Effects of state anxiety on performance using a task-switching paradigm: An investigation of attentional control theory.,(6), 1112–1117.
Diegomantecón, J. (2015). Instrument adaptation in cross-cultural studies of students’ mathematics-related beliefs: Learning from healthcare research.,(4), 545–567.
Donaldson, K. R., Ait Oumeziane, B., Hélie, S., & Foti, D. (2016). The temporal dynamics of reversal learning: P3 amplitude predicts valence-specific behavioral adjustment.,, 24–32.
Edwards, M. S., Burt, J. S., & Lipp, O. V. (2010). Selective attention for masked and unmasked threatening words in anxiety: Effects of trait anxiety, state anxiety and awareness.,(3), 210–218.
Felmingham, K. L., Stewart, L. F., Kemp, A. H., & Carr, A. R. (2016). The impact of high trait social anxiety on neural processing of facial emotion expressions in females.,, 179–186.
Feng, X. (2003). Result representation and method application: Analysis of 141 investigations.,(2), 28–38.
[風(fēng)笑天. (2003). 結(jié)果呈現(xiàn)與方法運(yùn)用——141項(xiàng)調(diào)查研究的解析.,(2), 28–38.]
Fotin, S. V., Yin, Y., Haldankar, H., Hoffmeister, J. W., & Periaswamy, S. (2016, March). Detection of soft tissue densities from digital breast tomosynthesis: comparison of conventional and deep learning approaches. In(Vol. 9785, p. 97850X). International Society for Optics and Photonics.
Gootjes, L., Coppens, L. C., Zwaan, R. A., Franken, I. H. A., & van Strien, J. W. (2011). Effects of recent word exposure on emotion-word Stroop interference: An ERP study.,(3), 356–363.
Gu, R., Lei, Z., Broster, L., Wu, T., Jiang, Y., & Luo, Y-J. (2011). Beyond valence and magnitude: A flexible evaluative coding system in the brain.,(14), 3891–3897.
Hornik, K. (1991). Approximation capabilities of multilayer feedforward networks.,(2), 251–257.
Jo, H-G., Schmidt, S., Inacker, E., Markowiak, M., & Hinterberger, T. (2016). Meditation and attention: a controlled study on long-term meditators in behavioral performance and event-related potentials of attentional control.,, 33–39.
Jung, Y. (2018). Multiple predicting K-fold cross-validation for model selection.,(1), 197–215.
Kalanthroff, E., Henik, A., Derakshan, N., & Usher, M. (2016). Anxiety, emotional distraction, and attentional control in the Stroop task.,(3), 293–300.
Kanske, P., & Kotz, S. A. (2012). Effortful control, depression, and anxiety correlate with the influence of emotion on executive attentional control.,(1), 88–95.
Krizhevsky, A., Sutskever, I., & Hinton, G. E. (2012). Imagenet classification with deep convolutional neural networks. In(pp. 1097–1105).
Kumar, A., Irsoy, O., Ondruska, P., Iyyer, M., Bradbury, J., Gulrajani, I., … Com, R. (2016). Ask me anything: Dynamic memory networks for natural language processing.(pp. 1378–1387).
LeCun, Y., & Bengio, Y. (1995). Convolutional networks for images, speech, and time-series.(pp. 255–258). M. A. Arbib, Ed.Cambridge, MA: MIT Press.
Lee, A. (2015). Comparing deep neural networks and traditionalvision algorithms in mobile robotics..Retrieved from http://cs.swarthmore.edu
Lin, M., Chen, Q., & Yan, S. (2013). Network in network.. Retrieved from https:// arxiv.org/abs
Lotz, C., & Sparfeldt, J. R. (2017). Does test anxiety increase as the exam draws near? – students’ state test anxiety recorded over the course of one semester.,, 397–400.
Lowe, P. A., Lee, S. W., Witteborg, K. M., Prichard, K. W., Luhr, M. E., Cullinan, C. M., ... Janik, M. (2008). The Test Anxiety Inventory for Children and Adolescents (TAICA) examination of the psychometric properties of a new multidimensional measure of test anxiety among elementary and secondary school students.,(3), 215–230.
Lu, Y., Jiang, H., & Liu, W. (2017, September). Classification of EEG signal by STFT-CNN framework: identification of right-/left-hand motor imagination in BCI systems. In(Vol. 299, p. 001).
Luck, S. J., Woodman, G. F., & Vogel, E. K. (2000). Event-related potential studies of attention.,(11), 432–440.
Mahendran, A., & Vedaldi, A. (2015). Understanding deep image representations by inverting them. In(pp. 5188–5196).
Mochcovitch, M. D., da Rocha Freire, R. C., Garcia, R. F., & Nardi, A. E. (2014). A systematic review of fMRI studies in generalized anxiety disorder: evaluating its neural and cognitive basis.,, 336–342.
Mok, W. S. Y., & Chan, W. W. L. (2016). How do tests and summary writing tasks enhance long-term retention of students with different levels of test anxiety?,(6), 567–581.
Morel, S., George, N., Foucher, A., Chammat, M., & Dubal, S. (2014). ERP evidence for an early emotional bias towards happy faces in trait anxiety.,(1), 183–192.
Nair, V., & Hinton, G. E. (2010). Rectified linear units improve restricted boltzmann machines. In(pp. 807–814).
Newman, E. (1996).Los Angeles: Learning Skills Publications.
Peng, M., Cai, M., & Zhou, R. (2015). Processing of task-irrelevant emotional faces impacted by implicit sequence learning.,(17), 1056–1060.
Putwain, D. W., Langdale, H. C., Woods, K. A., & Nicholson, L. J. (2011). Developing and piloting a dot-probe measure of attentional bias for test anxiety.,(4), 478–482.
Raz, S., Dan, O., Arad, H., & Zysberg, L. (2013). Behavioral and neural correlates of emotional intelligence: An event- related potentials (ERP) study.,, 44–53.
Righi, S., Mecacci, L., & Viggiano, M. P. (2009). Anxiety, cognitive self-evaluation and performance: ERP correlates.,(8), 1132–1138.
Sarason, I. G. (1978). The test anxiety scale: Concept and research. In(Vol. 5, pp. 193–216).Washington DC: Hemisphere.
Schutz, P. A., Davis, H. A., & Schwanenflugel, P. J. (2002). Organization of concepts relevant to emotions and their regulation during test taking.,(4), 316–342.
Seijdel, N., Ramakrishnan, K., Losch, M., & Scholte, S. (2016). Overlap in performance of CNN’s, human behavior and EEG classification.,(12), 501.
Strier, R., & Shechter, D. (2016). Visualizing access: Knowledge development in university-community partnerships.,(3), 343–359.
Su, Y., Hu, B., Xu, L. X., Zhang, X. W., & Chen, J. (2015). EEG-data-oriented knowledge modeling and emotion recognition.,(11), 1002–1009. https://doi.org/10.1360/N972014-00829
[宿云, 胡斌, 徐立新, 張曉煒, 陳婧. (2015). 面向腦電數(shù)據(jù)的知識(shí)建模和情感識(shí)別.,(11), 1002–1009.]
Thomas, S. J., Johnstone, S. J., & Gonsalvez, C. J. (2007). Event-related potentials during an emotional Stroop task.,(3), 221– 231.
Tillman, C. M., & Wiens, S. (2011). Behavioral and ERP indices of response conflict in Stroop and flanker tasks.,(10), 1405–1411.
van Bockstaele, B., Verschuere, B., Tibboel, H., de Houwer, J., Crombez, G., & Koster, E. H. W. (2014). A review of current evidence for the causal impact of attentional bias on fear and anxiety.,(3), 682–721.
Verhaak, C. M., Smeenk, J. M., van Minnen, A., & Kraaimaat, F. W. (2004). Neuroticism, preattentive and attentional biases towards threat, and anxiety before and after a severe stressor: A prospective study.,(4), 767–778.
Wabnitz, P., Martens, U., & Neuner, F. (2016). Written threat: electrophysiological evidence for an attention bias to affective words in social anxiety disorder.,(3), 516–538.
Wang, C. K. (2001). Reliability and validity of test anxiety scale-Chinese version.,(2), 96–97.
[王才康. (2001). 考試焦慮量表在大學(xué)生中的測(cè)試報(bào)告.,(2), 96–97.]
Wang, W.-W., Xie, X., & Shao, F. (2008). Early-onset depression and its neural basis.,(3), 411–417.
[王瑋文, 謝希, 邵楓. (2008). 早發(fā)性抑郁及其神經(jīng)基礎(chǔ).,(3), 411–417.]
Wang, Y-N., & Sun, B-Y. (2017). Cigarette craving EEG classification based on convolution neural networks.,(6), 256–260.
[王艷娜, 孫丙宇. (2017). 基于卷積神經(jīng)網(wǎng)絡(luò)的煙癮渴求腦電分類.,(6), 256–260.]
Yan, H., & Lu, L. (2014). Effects of exam stress on psychosomatic response saliva immuneglobulin and cortisol among medical college student.,(6), 813–816.
[閆慧, 盧莉. (2014). 考試應(yīng)激對(duì)醫(yī)學(xué)生心身反應(yīng)唾液免疫球蛋白及皮質(zhì)醇的影響.,(6), 813–816.]
Yang, Z., Yang, D., Dyer, C., He, X., Smola, A., & Hovy, E. (2016). Hierarchical attention networks for document classification., 1480–1489.
Yiend, J. (2010). The effects of emotion on attention: A review of attentional processing of emotional information.,(1), 3–47.
Yu, F., & Koltun, V. (2015). Multi-scale context aggregation by dilated convolutions..Retrieved from https://arxiv.org/abs
Zeidner, M., & Matthews, G. (2005). Evaluation anxiety. In A. J. Elliot & C. S. Dweck (Eds.),(pp. 141–163). London: Guildford Press.
Zeiler, M. D., & Fergus, R. (2014, September). Visualizing and understanding convolutional networks. In(pp. 818–833). Springer, Cham.
Classification of test-anxious individuals using Event-Related Potentials (ERPs): The effectiveness of machine learning algorithms
ZHANG Wenpei; SHEN Qunlun; SONG Jintao; ZHOU Renlai
(Department of Psychology, Nanjing University, Nanjing, 210023, China)(Department of Business Administration, School of Business, Anhui University of Technology, Maanshan, 243032, China) (Academy of Mathematics and Systems Science, Chinese Academy of Sciences, 100190, China)
Individuals with test anxiety always treat tests/examinations as a potential threat. This cognitive mode impairs these individuals’ cognition, attention and emotions. A traditional method classifying subjects either as high or low on test anxiety (i.e., HTA or LTA, respectively) relies on questionnaire data. Questionnaire data may be unstable due to the subjective nature of participants’ attitudes, implying a reduced classification accuracy. In search for higher levels of (data) stability and classification accuracy a new classification approach is proposed. This new approach overcomes subjective data’s negative impact on classification accuracy by relying on event-related potential (EPR) data (also referred to as ERPs), objective (multivariate, longitudinal) data which adequately capture participants’ reactions to relevant stimuli (over time). However, as ERP data may still be somewhat unstable due to individual differences between participants, (machine) learning algorithms are adopted as their ‘learning’ feature may increase both the stability of ERP data and classification accuracy.
This study recruited 57 HTA participants and 25 LTA participants based on: (a) Test Anxiety Scale (TAS) scores, and (b) (two) specialists’ psychological diagnostic results on a single participant. Reliance on the emotional Stroop (ES) paradigm in combination with ERP technology enabled the assessment of participants’ cognitive mode related to test anxiety. In ES, the information on the ERP components P1, P2, N2, P3 and LPP ERP were selected as input for seven commonly used machine learning algorithms: Convolutional Neural Network (CNN), Logistic Regression (LR), K Nearest Neighbors (KNN), Support Vector Machine (SVM), Random Forest (RF), Artificial Neural Network (ANN), and Recurrent Neural Network (RNN). To compare the classification accuracy of these algorithms (using the complete sample of HTA and LTA subjects) important indexes (i.e., accuracy and F1-score) were calculated and compared across these algorithms.
The results showed that: (a) the ERPs data collected in ES allow effective differentiation between HTA and LTA (P1:(1, 80) = 11.68,< 0.001, η= 0.13; P2:(1, 80) = 14.10,< 0.001, η= 0.15; N2:(1, 80) = 28.55,< 0.001, η= 0.26; P3:(1, 80) = 22.41,< 0.001η= 0.22;LPP:(1, 80) = 16.92,< 0.001η= 0.18); (b) classification on the basis of ERP data using machine learning algorithms shows high accuracy and stability, that is the classification accuracy of all seven algorithms is found to be high as evidenced by an accuracy index of 71.8% or higher (CNN: 86.5%, LR: 80.3%, KNN: 71.8%, SVM: 79.0%, RF: 73.1%, ANN: 82.7%, and RNN: 79.2%) and an F1-score of 0.814 or higher (CNN: 0.911, LR: 0.868, KNN: 0.817, SVM: 0.865, RF: 0.814, ANN: 0.882, and RNN: 0.870); (c) CNN outperforms the other six common machine learning algorithms showing both the highest accuracy index and F1-score. Moreover, as over and above this (relative) superiority CNN combines the (technical) property known as ‘shift invariance’ and robustness to noise, the algorithm may be considered ideal for effectively classifying test anxious individuals using ERP data.
It is concluded that: (a) as manifested by its ‘discriminatory’ nature and stable classification performance (as evidenced by all machine learning algorithms’ favorable values for all important indices) reliance on the ES paradigm enables machine learning leading up to effective diagnosis of test anxiety; and (b) participants’ classification into HTA and LTA by relying on ERP data which are subsequently analyzed by means of the machine learning algorithm CNN is (most) effective (i.e., as benchmarked against six other commonly used machine learning algorithms). Consequently, using ES in combination with ERP technology and the CNN machine learning algorithm can be conceived as an ideal method for diagnosing test anxiety.
machine learning; test anxiety; emotional Stroop; ERPs
2018-10-29
* 中央高?;究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)資金(14370303)、江蘇省普通高校學(xué)術(shù)學(xué)位研究生科研創(chuàng)新計(jì)劃項(xiàng)目(KYZZ16_0010)和安徽省高校人文科學(xué)研究項(xiàng)目(SK2017A0084)資助。
章文佩與沈群倫為共同第一作者
R395
周仁來(lái), E-mail: rlzhou@nju.edu.cn