徐振國 張冠文 孟祥增 黨同桐
[摘? ?要] 情感能夠影響和調(diào)節(jié)學(xué)習(xí)者的注意、記憶、思維等認(rèn)知活動,學(xué)習(xí)者情感的準(zhǔn)確識別是構(gòu)建智慧學(xué)習(xí)環(huán)境中和諧情感交互的基礎(chǔ),更是判斷學(xué)習(xí)者學(xué)習(xí)狀態(tài)的重要手段。傳統(tǒng)學(xué)習(xí)者情感識別方法存在識別率低、算法復(fù)雜、魯棒性差等問題,并且容易丟失面部表情特征的關(guān)鍵信息。文章提出一種基于卷積神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)者情感識別方法,該網(wǎng)絡(luò)包括3個卷積層、3個池化層和1個全連接層。然后在自主搭建的大規(guī)模學(xué)習(xí)者情感數(shù)據(jù)庫中進(jìn)行了訓(xùn)練和實驗,實驗結(jié)果表明該方法能夠快速、準(zhǔn)確的識別學(xué)習(xí)者情感。未來,該方法可應(yīng)用到智慧學(xué)習(xí)環(huán)境建設(shè)中,為完善學(xué)習(xí)者模型、實現(xiàn)情感交互、挖掘?qū)W習(xí)行為等提供技術(shù)支撐。
[關(guān)鍵詞] 深度學(xué)習(xí); 學(xué)習(xí)者情感; 情感識別; 智慧學(xué)習(xí)環(huán)境; 情感交互; 卷積神經(jīng)網(wǎng)絡(luò)
[中圖分類號] G434? ? ? ? ? ? [文獻(xiàn)標(biāo)志碼] A
一、引? ?言
智慧學(xué)習(xí)環(huán)境注重培養(yǎng)學(xué)習(xí)者的創(chuàng)新能力、問題求解能力、決策力和批判性思維能力等高階能力,認(rèn)知活動在培養(yǎng)過程中起著至關(guān)重要的協(xié)調(diào)與控制作用[1]。情感是由外界刺激引起的心理反應(yīng),能夠影響和調(diào)節(jié)注意、知覺、表象、記憶、思維和語言等認(rèn)知活動。研究表明,學(xué)習(xí)過程中的積極情感有助于激發(fā)學(xué)習(xí)動機(jī)、培養(yǎng)學(xué)習(xí)興趣,促進(jìn)認(rèn)知過程;而消極情感則會影響耐心度、注意力,阻礙認(rèn)知過程[2]。另外,智慧學(xué)習(xí)環(huán)境以學(xué)習(xí)者為中心,打破了傳統(tǒng)的教學(xué)模式,強(qiáng)調(diào)以MOOCs、微課、博物館等為學(xué)習(xí)資源的泛在學(xué)習(xí)和無縫學(xué)習(xí)。學(xué)習(xí)者多借助電子書包等移動設(shè)備進(jìn)行自主學(xué)習(xí)和協(xié)作學(xué)習(xí),師生在時空上多處于準(zhǔn)分離狀態(tài),難以感受對方的情感,普遍存在“情感缺失”問題。學(xué)習(xí)者情感能夠影響學(xué)習(xí)興趣和效率,其準(zhǔn)確識別是構(gòu)建智慧學(xué)習(xí)環(huán)境中和諧情感交互的基礎(chǔ),更是判斷學(xué)習(xí)者學(xué)習(xí)狀態(tài)的重要手段,對促進(jìn)學(xué)習(xí)者的智慧學(xué)習(xí)具有重要意義。
2016年《地平線報告(高等教育版)》指出,情感計算(Affective Computing)將在未來四到五年內(nèi)得到普遍應(yīng)用[3]。學(xué)習(xí)者情感識別作為情感計算的重要內(nèi)容,研究者主要圍繞生理信號、心理測量、外顯行為對其開展研究[4]。美國學(xué)者梅拉比安(Albert Mehrabian)指出,感情表達(dá)=7%的言辭+38%的聲音+55%的面部表情[5]。心理學(xué)家艾克曼(Paul Ekman)的研究表明,從面部表情到單一具體情感狀態(tài)映射的準(zhǔn)確率為88%[6]。可見,學(xué)習(xí)者情感表達(dá)方式中,面部表情起到了非常關(guān)鍵的作用。并且實踐應(yīng)用中,通過學(xué)習(xí)設(shè)備自帶攝像頭捕捉學(xué)習(xí)者的面部表情,進(jìn)而識別學(xué)習(xí)者情感狀態(tài),要比其他方法更加自然可行。
傳統(tǒng)學(xué)習(xí)者面部表情識別算法主要包括圖像預(yù)處理、特征提取、特征選擇、分類器構(gòu)建等過程,面部表情的視覺情感特征需要顯式的表達(dá)和提取,并依賴經(jīng)驗或運(yùn)氣對其進(jìn)行挑選。這無疑增加了識別難度,并且可能會丟失原圖像的關(guān)鍵特征信息。隨著技術(shù)的快速發(fā)展,深度學(xué)習(xí)(Deep Learning,DL)成為人工智能領(lǐng)域重要的機(jī)器學(xué)習(xí)算法。深度學(xué)習(xí)將圖像特征提取與神經(jīng)網(wǎng)絡(luò)的模糊分類相結(jié)合,省略前期復(fù)雜的圖像預(yù)處理和特征提取過程,使之不再依賴人工精心設(shè)計的顯式特征提取方法,在提高性能、泛化能力的同時,也提高了識別算法的魯棒性[7]。深度學(xué)習(xí)已在醫(yī)學(xué)圖像處理、自然語言處理等領(lǐng)域獲得應(yīng)用,但在教育領(lǐng)域的應(yīng)用尚需進(jìn)一步研究。本研究自建大規(guī)模學(xué)習(xí)者情感數(shù)據(jù)庫,并提出基于深度學(xué)習(xí)的學(xué)習(xí)者情感識別方法,以期提高學(xué)習(xí)者情感的識別效率和準(zhǔn)確率,為智慧學(xué)習(xí)環(huán)境中和諧情感交互提供技術(shù)支撐,促進(jìn)學(xué)習(xí)者輕松、投入和有效的學(xué)習(xí)。
二、相關(guān)研究
自2006年以來,深度學(xué)習(xí)在算法、理論和應(yīng)用等方面取得了巨大成功,已然成為人工智能和大數(shù)據(jù)領(lǐng)域的發(fā)展引擎。情感能力是人類智能的重要標(biāo)志,賦予計算機(jī)識別、理解和表達(dá)情感的能力,是人工智能未來前進(jìn)的方向。通過梳理深度學(xué)習(xí)、學(xué)習(xí)者情感識別的發(fā)展歷程及相關(guān)研究,既可為本研究的開展提供有價值的借鑒,也可為彌補(bǔ)現(xiàn)有研究的不足提供切入點(diǎn)。
(一)深度學(xué)習(xí)
迄今人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks,ANN)大致經(jīng)歷了三個階段,第一個階段始于20世紀(jì)40年代至60年代的控制論。但其無法處理“異或”問題,并且此時的計算機(jī)缺乏足夠的計算能力,無法滿足神經(jīng)網(wǎng)絡(luò)長時間的運(yùn)行需求。第二個階段始于20世紀(jì)80年代末期,魯姆哈特(David Rumelhart)等學(xué)者提出反向傳播(Back Propagation,BP)算法[8],雖然克服了“異或”問題,并使兩層神經(jīng)網(wǎng)絡(luò)所需的復(fù)雜計算量降低,但受限于數(shù)據(jù)獲取的瓶頸,普遍存在過擬合等問題。隨著計算機(jī)性能的顯著提升以及大數(shù)據(jù)時代的到來,2006年,加拿大的辛頓(Geoffery Hinton)等研究者在Science上發(fā)表了一篇文章,提出一種被稱為“深度置信網(wǎng)絡(luò)”(Deep Belief Network,DBN)的神經(jīng)網(wǎng)絡(luò)模型以實現(xiàn)數(shù)據(jù)降維[9]。文章的核心觀點(diǎn)為:(1)有著較多隱層的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)具有獨(dú)特的特征學(xué)習(xí)能力,能夠較好地獲取圖像更本質(zhì)的特征;(2)可通過“逐層初始化”來克服深層神經(jīng)網(wǎng)絡(luò)的訓(xùn)練難度。自此,開啟了人工智能領(lǐng)域的深度學(xué)習(xí)時代。2016年3月,阿爾法圍棋(Alphago)以4:1的比分戰(zhàn)勝韓國圍棋名將李世石,引起全世界關(guān)注的同時,深度學(xué)習(xí)、神經(jīng)科學(xué)等概念也進(jìn)入普通公眾的視野。
深度學(xué)習(xí)屬于機(jī)器學(xué)習(xí)(Machine Learning,ML),本質(zhì)上是對擁有深層結(jié)構(gòu)的模型進(jìn)行訓(xùn)練的一類方法的統(tǒng)稱。目前主流的深度學(xué)習(xí)模型有深度置信網(wǎng)絡(luò)(Deep Belief Networks,DBN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks,RNN)、卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)等。1998年,美國學(xué)者勒存(Yann Lecun)等提出基于梯度學(xué)習(xí)的CNN算法,并將其運(yùn)用于手寫數(shù)字字符識別[10]。2012年,在ImageNet大規(guī)模視覺挑戰(zhàn)賽中,辛頓等學(xué)者憑借CNN獲得圖像分類和目標(biāo)定位任務(wù)的冠軍。自此,CNN得到學(xué)界的關(guān)注和持續(xù)研究。CNN最初受腦神經(jīng)科學(xué)研究的啟發(fā),模仿視覺神經(jīng)中簡單細(xì)胞和復(fù)雜細(xì)胞的視覺信息處理過程,用卷積操作模擬簡單細(xì)胞對不同方向邊緣信息的處理過程,用池化操作模擬復(fù)雜細(xì)胞累積相近的簡單細(xì)胞的處理結(jié)果[11]。CNN支持將圖像的像素值直接作為輸入值,隱式地獲得圖像抽象的特征信息,而不必事先對圖像進(jìn)行預(yù)處理以及顯式地提取圖像特征,避免了復(fù)雜的特征提取和人工選擇過程,并且CNN對圖像的平移、縮放、旋轉(zhuǎn)等變換以及光照、遮擋物等敏感問題具有較高魯棒性。因此,CNN在手寫字符識別、人臉識別、車牌字符識別等領(lǐng)域得到了廣泛應(yīng)用,目前已成為人工智能領(lǐng)域的重要方法。深度學(xué)習(xí)和CNN的關(guān)系如圖1所示。
(二)學(xué)習(xí)者情感識別
情感是人們在社會活動中對客觀事物所持的態(tài)度體驗,是人們對客觀事物的一種特殊的心理反映形式,它在人的思想認(rèn)識及行為表現(xiàn)中發(fā)揮著重要作用[12]。學(xué)習(xí)者情感多指學(xué)習(xí)者在學(xué)習(xí)過程中由學(xué)習(xí)內(nèi)容、學(xué)習(xí)畫面等刺激產(chǎn)生的內(nèi)心體驗及相應(yīng)的外部表現(xiàn)。近年來,隨著情感計算的發(fā)展,研究者基于不同的情感理論已提出許多種學(xué)習(xí)者情感識別方法。目前,學(xué)習(xí)者情感識別主要圍繞生理信號分析、心理測量分析、外顯行為分析等三類方法展開研究。其中,基于外顯行為的方法又分為基于面部表情的方法、基于語音表情的方法和基于姿勢表情的方法等。
1. 基于面部表情的學(xué)習(xí)者情感識別研究
孫波等研究者依據(jù)艾克曼提出的面部表情編碼系統(tǒng)(Facial Action Coding System,F(xiàn)ACS)構(gòu)建基于面部表情識別的情感分析框架SLE-FER,包括感知層、傳輸層、數(shù)據(jù)層、分析層和應(yīng)用層,并利用張量分解算法進(jìn)行表情識別[1]。詹澤慧結(jié)合眼動追蹤與面部表情識別,提出基于智能Agent的遠(yuǎn)程學(xué)習(xí)者情感與認(rèn)知識別模型,將眼動追蹤與表情監(jiān)控迭代識別、情感與認(rèn)知過程相耦合,以提高識別準(zhǔn)確率[13]。荷蘭開放大學(xué)的巴雷尼(KiavashBahreini)等學(xué)者提出通過網(wǎng)絡(luò)攝像頭和麥克風(fēng)改善學(xué)習(xí)者學(xué)習(xí)的框架FILTWAM,F(xiàn)ILTWAM根據(jù)學(xué)習(xí)者的面部表情及語言表達(dá)識別學(xué)習(xí)者情感并及時提供反饋[14]。印度的雷(Arindam Ray)等學(xué)者采用面部表情及生理信息相結(jié)合的方法識別學(xué)習(xí)者情感,其中生理信息包括心率、皮膚電傳導(dǎo)、血容量壓力,基于此,他們探討了學(xué)習(xí)過程中情感的變化,以及如何使用情感反饋來改善學(xué)習(xí)體驗[15]。
2. 基于其他方法的學(xué)習(xí)者情感識別研究
喬向杰等研究者根據(jù)OCC模型理論,提出基于認(rèn)知評價的學(xué)生情感識別模型,采用模糊推理方法實現(xiàn)對學(xué)習(xí)事件的期望度推理,并通過構(gòu)建動態(tài)貝葉斯網(wǎng)絡(luò)對所構(gòu)建的模型進(jìn)行了計算機(jī)仿真測試和評估[16]。黃煥認(rèn)為,學(xué)習(xí)者發(fā)布的微博內(nèi)容帶有情感特征,對其分析能夠獲得學(xué)習(xí)者當(dāng)時的情感狀態(tài),因此,提出一種基于學(xué)習(xí)者微博分析的情感建模方法[17]。臺灣的陳志銘(Chih-Ming Chen)等學(xué)者采用基于生理信息檢測的情感估計系統(tǒng)emWave來估計學(xué)習(xí)者的情感狀態(tài)[18]。巴西雅克(Patricia Jaques)等學(xué)者借助信念、愿望、意圖模型在教育環(huán)境中實施情感判斷過程,他們采用基于情感認(rèn)知理論并可通過計算實現(xiàn)的心理學(xué)OCC模型,從而根據(jù)學(xué)習(xí)者的行為推斷出學(xué)習(xí)者的情感[19]。
綜上所述,國內(nèi)外學(xué)者對學(xué)習(xí)者情感的識別進(jìn)行了廣泛研究,其中基于面部表情的學(xué)習(xí)者情感識別研究最多。學(xué)習(xí)者相對于普通人群具有其特殊性,生理信號分析等通過附加設(shè)備判斷學(xué)習(xí)者情感的方法在學(xué)習(xí)環(huán)境中較難實現(xiàn),基于心理測量、認(rèn)知評價的方法則較難保證結(jié)果的客觀性,相對而言,學(xué)習(xí)者面部表情是學(xué)習(xí)者在學(xué)習(xí)過程中的自然表達(dá),能夠較好地客觀反映學(xué)習(xí)者真實的情感狀態(tài)。徐曉青等學(xué)者指出,教育領(lǐng)域基于面部表情的識別方法相比于其他情感識別方法,可用性較高[20]。但目前研究多采用人臉識別、特征提取、特征選擇、訓(xùn)練分類的傳統(tǒng)機(jī)器學(xué)習(xí)方法,效率低且難以保證人工選擇的特征是否能夠有效反映面部表情。因此,本研究采用具有自主學(xué)習(xí)能力的CNN實現(xiàn)對學(xué)習(xí)者情感的有效識別。
三、卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)設(shè)計
作為深度學(xué)習(xí)的重要方法,CNN具有權(quán)值共享和局部連接的特點(diǎn),降低了網(wǎng)絡(luò)復(fù)雜度的同時,也利于并行處理。CNN的前饋運(yùn)算階段通過卷積(Convolution)操作、池化(Pooling)操作和激活函數(shù)映射等一系列操作的層層堆疊,將圖像、音頻等原始數(shù)據(jù)的高層語義信息逐層提取出來。其中,不同類型的操作一般稱作層,卷積操作即卷積層,池化操作即池化層。CNN通常包括輸入層、卷積層、池化層、全連接層和輸出層。
(一)卷積層
卷積層為特征提取層,是CNN的基礎(chǔ)。每個卷積層包括多個神經(jīng)元,每個神經(jīng)元利用多個可訓(xùn)練的卷積核分別與前一層所有的特征圖進(jìn)行卷積求和,加上偏值,以此作為激活函數(shù)的參數(shù)求解,輸出值將構(gòu)成新的特征圖像[11]。卷積核大小和卷積步長是重要的調(diào)整參數(shù)。卷積層的計算公式為:
公式(1)中,l表示當(dāng)前層;l-1表示前一層;f()為激活函數(shù);?茚表示卷積;ylj為當(dāng)前層的第j個輸出圖像(特征圖像);yil-1為前一層的第i個輸出圖像,即當(dāng)前層的輸入圖像;wlij表示當(dāng)前層第j個特征圖像與前一層第i個特征圖像的卷積核;blj表示當(dāng)前層第j個神經(jīng)元的輸入偏置;Nl-1表示前一層神經(jīng)元的數(shù)量。CNN中常用的激活函數(shù)有線性修正函數(shù)(ReLU)、雙曲正切S形函數(shù)(Tanh)、對數(shù)S形函數(shù)(Sigmoid)等,本研究采用的激活函數(shù)為Sigmoid函數(shù)。
(二)池化層
池化層又被稱為下采樣層,特征圖的數(shù)量會因卷積層數(shù)量的遞增而增加,導(dǎo)致學(xué)習(xí)到的特征維數(shù)將快速增長,給分類器造成困難。池化層的關(guān)鍵作用就是特征降維,減少計算量和參數(shù)數(shù)量,并在一定程度上防止過擬合,更方便優(yōu)化。池化層并不改變特征圖的數(shù)量,而是使特征圖的尺寸變小。池化的類型主要有平均值池化和最大值池化兩種,池化操作的類型、核大小、步長是重要的調(diào)整參數(shù),本研究采用平均值池化的方式。池化層的計算公式為:
公式(2)中,down()表示池化函數(shù);ylj和yil-1表示當(dāng)前層和前一層的第j個特征圖像;?茁lj和blj表示當(dāng)前層第j個特征圖像的權(quán)重系數(shù)和偏值。
(三)全連接層
全連接層在整個CNN中起到“分類器”的作用,全連接層的輸出將作為輸出層的輸入或最終的分類結(jié)果,CNN通常有一個或多個全連接層。全連接層的每個神經(jīng)元都將與前一層的所有神經(jīng)元相連,把卷積層和池化層提取到的特征綜合起來[21]。實際使用中,全連接層可由卷積操作實現(xiàn),對前層是全連接的全連接層可以轉(zhuǎn)化為卷積核為1×1的卷積;而前層是卷積層的全連接層可以轉(zhuǎn)化為卷積核為h×w的全局卷積,h和w分別是前層卷積輸出結(jié)果的高和寬。
(四)卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)
CNN結(jié)構(gòu)設(shè)計需要考慮準(zhǔn)確率、訓(xùn)練速度和內(nèi)存消耗等三個因素。研究表明,小卷積核通過多層疊加可取得與大卷積核同等規(guī)模的感受野,此外采用小卷積核可增加網(wǎng)絡(luò)深度,并減少參數(shù)個數(shù)。通常卷積核大小設(shè)置為3×3或5×5,本研究設(shè)置卷積核大小為5×5,步長為1。網(wǎng)絡(luò)層數(shù)過低會導(dǎo)致信息表達(dá)能力不足,增加網(wǎng)絡(luò)的層數(shù)會使特征信息表達(dá)能力逐步增強(qiáng),但層數(shù)過多也會導(dǎo)致網(wǎng)絡(luò)結(jié)構(gòu)過于復(fù)雜,訓(xùn)練時間增加,易出現(xiàn)過擬合現(xiàn)象[22]。輸入圖像尺寸、卷積核大小、卷積步長、池化窗口大小、池化步長共同決定網(wǎng)絡(luò)層數(shù),本研究根據(jù)學(xué)習(xí)者面部表情圖像的特點(diǎn),設(shè)計了一種7層的CNN,其中包括3個卷積層、3個池化層、1個全連接層,結(jié)構(gòu)如圖2所示。(1)輸入層為60×60像素的學(xué)習(xí)者面部表情圖像。(2)在C1層用6個5×5的卷積核對輸入圖像進(jìn)行卷積操作,步長為1,激活函數(shù)為Sigmoid函數(shù)。此時C1層包含6個特征圖,特征圖的尺寸為56×56。(3)在S1層用2×2的池化窗口對C1層的特征圖進(jìn)行池化操作,池化方式為平均值池化,步長為1。此時C1層仍包含6個特征圖,特征圖的尺寸為28×28。(4)在C2層用12個5×5的卷積核對S1層的特征圖進(jìn)行卷積操作,步長為1。此時C2層包含12個特征圖,特征圖的尺寸為24×24。(5)在S2層用2×2的池化窗口對C2層的特征圖進(jìn)行池化操作,池化方式為平均值池化,步長為1。此時S2層仍包含12個特征圖,特征圖尺寸為12×12。? ? ? (6)在C3層用24個5×5的卷積核對S2層的特征圖進(jìn)行卷積操作,步長為1。此時C3層包含24個特征圖,特征圖的尺寸為8×8。(7)在S3層用2×2的池化窗口對C3層的特征圖進(jìn)行池化操作,池化方式為平均值池化,步長為1。此時S2層仍包含24個特征圖,特征圖尺寸為4×4。(8)全連接層的每個神經(jīng)元與S3層的特征圖進(jìn)行全連接,輸出層將輸出最終的分類結(jié)果及強(qiáng)度。
四、卷積神經(jīng)網(wǎng)絡(luò)的參數(shù)訓(xùn)練
CNN的訓(xùn)練就是利用已標(biāo)注情感類型及強(qiáng)度的面部表情樣本集調(diào)整CNN的內(nèi)部參數(shù)。大數(shù)據(jù)訓(xùn)練樣本是進(jìn)行深度學(xué)習(xí)的前提和基礎(chǔ),樣本的數(shù)量和質(zhì)量將直接決定深度學(xué)習(xí)的性能和泛化能力。本研究首先明確學(xué)習(xí)者情感的類型,然后自主構(gòu)建大規(guī)模學(xué)習(xí)者情感數(shù)據(jù)庫,并將其作為訓(xùn)練樣本集對CNN進(jìn)行訓(xùn)練,從而實現(xiàn)對學(xué)習(xí)者情感的準(zhǔn)確識別。
(一)學(xué)習(xí)者情感數(shù)據(jù)庫
基于面部表情的情感識別離不開表情數(shù)據(jù)庫的支撐。目前,情感識別研究開始面向各專業(yè)領(lǐng)域發(fā)展,特別是學(xué)習(xí)者情感識別受到研究者的廣泛關(guān)注,但基于面部表情構(gòu)建的學(xué)習(xí)者情感數(shù)據(jù)庫并不多見[4]。因此,建設(shè)基于面部表情的學(xué)習(xí)者情感數(shù)據(jù)庫,對學(xué)習(xí)者情感識別算法的深入研究具有一定的推動作用。
1. 學(xué)習(xí)者情感的類型
情感是人類對客觀事物的態(tài)度體驗與相應(yīng)的行為反應(yīng),對于情感的描述,我國古代有“七情六欲”之說,西方思想家笛卡爾(Rene Descartes)則認(rèn)為有六種原始情感。目前,心理學(xué)領(lǐng)域主要圍繞基本情感和維度情感兩種理論對情感分類展開研究。艾克曼在對面部表情和行為反應(yīng)研究的基礎(chǔ)上,將基本情感分為高興、驚訝、悲傷、憤怒、恐懼、厭惡[23]。伊扎德(Carroll Izard)提出差別情感理論,認(rèn)為基本情感除艾克曼所說的六類外,還包括害羞、輕蔑、興趣和自罪感[24]。普拉奇克(Robert Plutchik)認(rèn)為,情緒具有強(qiáng)度、相似度和兩極性三個維度,他采用倒立圓錐的形象來描述三個維度間的關(guān)系,八個截面分別表示狂喜、接受、驚奇、恐懼、悲痛、憎恨、狂怒和警惕等八種基本情感,最強(qiáng)烈的情感位于頂部,越往下情感強(qiáng)度越弱;對角位置的情感具有兩極性,相鄰的情感表現(xiàn)出相似性[25]。
學(xué)習(xí)者情感雖具有人類情感的普遍特性,但又具有其獨(dú)特性。孫波將學(xué)習(xí)者的情感類型概括為高興、驚訝、厭煩、困惑、疲勞、專注及自信[1]。魏刃佳則采用艾克曼的基本情感理論,將學(xué)習(xí)者情感分為六種類型[26]。劉永娜依據(jù)文獻(xiàn)調(diào)研及課堂視頻分析,提出學(xué)習(xí)者情感包括高興、驚奇、自信、厭煩、困惑、挫敗、疲憊、專注、走神等九種[4]。詹澤慧從喚醒維度、興趣維度、愉快維度將學(xué)習(xí)者情感類別分為緊張、睡眠、感興趣、不感興趣、愉快、不愉快[13]。雖然研究者對學(xué)習(xí)者情感的劃分并不一致,但都是在艾克曼六種基本情感理論的基礎(chǔ)上進(jìn)行研究的。本研究在借鑒既有研究的基礎(chǔ)上,認(rèn)為常見的學(xué)習(xí)者情感主要包括常態(tài)、高興、憤怒、悲傷、驚恐、專注、厭倦等七種類型。
2. 構(gòu)建學(xué)習(xí)者情感數(shù)據(jù)庫
目前,人臉面部表情數(shù)據(jù)庫主要有日本女性人臉表情數(shù)據(jù)庫(JAFFE)、卡內(nèi)基梅隆大學(xué)的CK(Cohn-Kanade)人臉表情數(shù)據(jù)庫及其擴(kuò)展數(shù)據(jù)庫CK+人臉表情數(shù)據(jù)庫、馬里蘭大學(xué)人臉表情數(shù)據(jù)庫、清華大學(xué)人臉表情數(shù)據(jù)庫、五邑大學(xué)CED-WYU人臉表情數(shù)據(jù)庫、BNU學(xué)習(xí)情感數(shù)據(jù)庫等[27]。首先,由于外國人的人臉及表情特征與中國人的人臉及表情特征具有顯著差異,用外國人的人臉表情數(shù)據(jù)庫進(jìn)行訓(xùn)練,訓(xùn)練結(jié)果很難推廣到中國。其次,目前已知的人臉表情數(shù)據(jù)庫樣本數(shù)量較少且多為成人,很難滿足深度學(xué)習(xí)和實際應(yīng)用的需求。最后,由于隱私保護(hù)等原因,也較難獲得其他機(jī)構(gòu)或單位的人臉表情數(shù)據(jù)庫。因此,本研究選擇自主建設(shè)基于面部表情的學(xué)習(xí)者情感數(shù)據(jù)庫。
被試為70名研究生,其中18名男生,52名女生,年齡范圍在20到29歲之間。在正式采集表情前,分組對他們進(jìn)行培訓(xùn),使他們能夠盡量在自然狀態(tài)下呈現(xiàn)標(biāo)準(zhǔn)的各類情感及強(qiáng)度。采集平臺用C++語言編寫,采集設(shè)備為高清攝像頭。正式采集表情時,每名研究生表現(xiàn)常態(tài)、高興、憤怒、悲傷、驚恐、專注、厭倦等7種情感,每種情感由弱到強(qiáng)表現(xiàn)5種強(qiáng)度,每種強(qiáng)度捕捉30幅圖像,形成擁有73500幅學(xué)習(xí)者面部表情圖像的原始數(shù)據(jù)庫。捕捉的同時,由平臺自動標(biāo)注每幅圖像的情感類型及強(qiáng)度,例如:0001_02_03_0004中,0001表示被試編號、02表示情感類型、03表示情感強(qiáng)度、0004表示圖像編號。
隨后采用基于Haar矩形特征的Adaboost方法,對原始數(shù)據(jù)庫內(nèi)的73500幅圖像進(jìn)行人臉檢測,共提取出70090幅人臉圖像。人臉檢測算法相對成熟、完善,本文不再贅述。因為前期采集環(huán)境為宿舍、自習(xí)室等,背景較為復(fù)雜,給人臉檢測造成困擾。后期采用純色背景進(jìn)行采集,人臉檢測準(zhǔn)確率較高。最終,本研究選用其中的60000幅面部表情圖像作為深度學(xué)習(xí)的訓(xùn)練樣本,9000幅面部表情圖像作為深度學(xué)習(xí)的測試樣本。7種情感的面部表情樣例如圖3所示。
(二)實驗結(jié)果分析
在訓(xùn)練開始前,需要將訓(xùn)練樣本集中的圖像進(jìn)行預(yù)處理,將圖像歸一化為60×60像素的RGB圖像。同時,為了提高訓(xùn)練結(jié)果的魯棒性和準(zhǔn)確率,并且避免出現(xiàn)過擬合問題。本研究在原訓(xùn)練樣本集的基礎(chǔ)上進(jìn)行數(shù)據(jù)擴(kuò)充,擴(kuò)增訓(xùn)練樣本集的數(shù)量為原來的5倍,即訓(xùn)練樣本集圖像總數(shù)增加到30萬。具體做法為取原圖像的左上、右上、左下、右下以及原圖像作為新的訓(xùn)練樣本。本研究采用WIN10下的Matlab 2016軟件作為實驗環(huán)境,計算機(jī)CPU為Core i7-6700,內(nèi)存為24G。
CNN的訓(xùn)練主要包括信號正向傳播和誤差反向傳播兩個過程。其中正向傳播階段,輸入圖像經(jīng)過多次卷積操作、池化操作,將高層語義信息逐層由輸入圖像中提取出來,逐層抽象。最終,CNN的最后一層將其目標(biāo)任務(wù)形式化為目標(biāo)函數(shù)。通過計算預(yù)測值與標(biāo)注值間的誤差,憑借反向傳播算法將誤差由最后一層逐層向前反饋,更新每層參數(shù),并在更新參數(shù)后再次前饋。正向傳播、反向傳播反復(fù)循環(huán),直到模型收斂,達(dá)到訓(xùn)練的目的。測試結(jié)果見表1。
由表1可知,驚恐、常態(tài)、高興、憤怒、悲傷的識別率較高,均超過85%,專注、厭倦的識別率較低,但也超過80%。驚恐、憤怒、悲傷等表情面部特征明顯,因此,準(zhǔn)確率較高。而專注與常態(tài)、厭倦與悲傷面部特征相似,給識別帶來難度,因此,準(zhǔn)確率相對較低。但七種面部表情的準(zhǔn)確率均高于80%,說明本研究基于深度學(xué)習(xí)提出的學(xué)習(xí)者情感識別方法能夠較為準(zhǔn)確地識別學(xué)習(xí)者情感,具有實際應(yīng)用價值。與已有研究相比,平均識別率比傳統(tǒng)機(jī)器識別算法略高,但CNN省略前期復(fù)雜的特征提取過程,耗時明顯比傳統(tǒng)機(jī)器識別算法縮短。經(jīng)實驗測試,能無延遲地實時識別學(xué)習(xí)者情感,現(xiàn)已實際應(yīng)用到智慧學(xué)習(xí)環(huán)境中學(xué)習(xí)畫面情感自適應(yīng)調(diào)整系統(tǒng)。
五、學(xué)習(xí)者情感的識別應(yīng)用
現(xiàn)有的智慧學(xué)習(xí)環(huán)境研究重“知”輕“情”,注重學(xué)習(xí)者認(rèn)知層面的適應(yīng)性和個性化,而較少考慮性格、興趣、情感等非智力因素在學(xué)習(xí)活動中的作用,對學(xué)習(xí)者情感狀態(tài)的適應(yīng)性考慮較少,以致智慧學(xué)習(xí)環(huán)境缺乏情感的自適應(yīng)和個性化,使學(xué)習(xí)者在學(xué)習(xí)過程中缺少情感支持。本研究提出的CNN結(jié)構(gòu)和方法能夠快速、準(zhǔn)確地識別學(xué)習(xí)者情感,并且支持將攝像頭捕捉的圖像作為原始圖像直接輸入,避免傳統(tǒng)識別方法中的特征提取過程,可實時、快速識別學(xué)習(xí)者的情感,將來可在以下領(lǐng)域取得實際應(yīng)用:
(一)完善智慧學(xué)習(xí)環(huán)境中的學(xué)習(xí)者模型
學(xué)習(xí)者模型是學(xué)習(xí)者特征在虛擬學(xué)習(xí)環(huán)境中的抽象表示,代表著學(xué)習(xí)環(huán)境所能認(rèn)識和理解的學(xué)習(xí)者,并實時更新學(xué)習(xí)者的特征信息,是智慧學(xué)習(xí)環(huán)境實施智慧化、個性化的重要依據(jù)。因此,構(gòu)建完善的學(xué)習(xí)者模型是為學(xué)習(xí)者提供智慧學(xué)習(xí)服務(wù)的前提和基礎(chǔ)。目前,學(xué)習(xí)者模型領(lǐng)域已建立IEEE PAPI、IMSLIP等標(biāo)準(zhǔn),研究者也從不角度對其進(jìn)行了研究。但已有研究多關(guān)注學(xué)習(xí)者基本信息和認(rèn)知層面的屬性特征,如性別、年齡、知識水平、認(rèn)知能力等,忽視或輕視學(xué)習(xí)者的情境、偏好、情感等因素。學(xué)習(xí)者模型既要涵蓋學(xué)習(xí)者的基本信息、學(xué)業(yè)信息、關(guān)系信息、知識狀態(tài),還要涉及情境特征、情感狀態(tài)等。本研究將有助于構(gòu)建融合情感特征的智慧學(xué)習(xí)環(huán)境學(xué)習(xí)者模型。該模型主要包括基本信息、學(xué)習(xí)者偏好、知識狀態(tài)、情境特征、情感狀態(tài)等。其中,基本信息主要包括姓名、性別、年齡、年級、聯(lián)系方式等;學(xué)習(xí)者偏好包括學(xué)習(xí)風(fēng)格、內(nèi)容偏好、交互偏好、媒體偏好等;知識狀態(tài)包括知識基礎(chǔ)、領(lǐng)域知識、掌握程度等;情境特征包括社會情境、認(rèn)知情境、技術(shù)情境等[28];情感狀態(tài)則包括情感類型及強(qiáng)度等,情感類型及強(qiáng)度將由本研究提出的學(xué)習(xí)者情感識別方法實時識別后獲得,以便及時更新完善學(xué)習(xí)者模型。
(二)實現(xiàn)智慧學(xué)習(xí)環(huán)境中的情感交互
目前,智慧學(xué)習(xí)環(huán)境研究多關(guān)注根據(jù)學(xué)習(xí)者的知識水平提供適應(yīng)性的學(xué)習(xí)內(nèi)容,即強(qiáng)調(diào)智慧學(xué)習(xí)環(huán)境中認(rèn)知層面的自適應(yīng)交互,較少考慮學(xué)習(xí)者情感的自適應(yīng)交互。智慧學(xué)習(xí)環(huán)境需要提供比信息化、數(shù)字化更加個性化、智慧化的學(xué)習(xí)服務(wù),要提供更智慧化的學(xué)習(xí)服務(wù),學(xué)習(xí)環(huán)境與學(xué)習(xí)者間的情感自適應(yīng)交互必不可少,而學(xué)習(xí)者情感快速、準(zhǔn)確的實時識別是實現(xiàn)智慧學(xué)習(xí)環(huán)境情感自適應(yīng)交互的基礎(chǔ)。智慧學(xué)習(xí)環(huán)境中,學(xué)習(xí)者主要通過觀看學(xué)習(xí)內(nèi)容的信息呈現(xiàn)畫面即學(xué)習(xí)畫面進(jìn)行學(xué)習(xí),學(xué)習(xí)畫面是學(xué)習(xí)者學(xué)習(xí)的主要環(huán)境,并且是學(xué)習(xí)者與學(xué)習(xí)內(nèi)容間信息交互的主通道,對學(xué)習(xí)效果有著至關(guān)重要的影響。學(xué)習(xí)畫面所隱含的情感對學(xué)習(xí)者的學(xué)習(xí)興趣、認(rèn)知負(fù)荷、情感狀態(tài)都有潛在影響,智慧學(xué)習(xí)環(huán)境中的學(xué)習(xí)畫面情感是其情感特征的重要表現(xiàn)。本研究將有助于實現(xiàn)智慧學(xué)習(xí)環(huán)境中的和諧情感交互,根據(jù)學(xué)習(xí)者觀看學(xué)習(xí)畫面的面部表情,識別、判斷學(xué)習(xí)者的情感狀態(tài),結(jié)合學(xué)習(xí)者對學(xué)習(xí)畫面的視覺情感偏好,自動調(diào)整學(xué)習(xí)畫面的關(guān)鍵視覺情感特征,包括調(diào)整界面背景顏色與紋理、增強(qiáng)顯示學(xué)習(xí)興趣點(diǎn)區(qū)域或重點(diǎn)學(xué)習(xí)內(nèi)容、增添隱現(xiàn)趣味動畫等,而且快速、實時,不影響學(xué)習(xí)者正常在線學(xué)習(xí),使學(xué)習(xí)者始終保持積極、良好的情感狀態(tài)。
(三)挖掘智慧學(xué)習(xí)環(huán)境中的學(xué)習(xí)行為
學(xué)習(xí)行為泛指學(xué)習(xí)者在某種動機(jī)引導(dǎo)下,為實現(xiàn)一定學(xué)習(xí)目標(biāo)而與周圍環(huán)境進(jìn)行的雙向交互活動的總和[29]。挖掘智慧學(xué)習(xí)環(huán)境中的學(xué)習(xí)行為,能夠發(fā)現(xiàn)和理解數(shù)據(jù)背后隱藏的信息,既能夠準(zhǔn)確把握學(xué)習(xí)者的學(xué)習(xí)狀態(tài),以做出客觀、有效的評價和建議,又能夠自適應(yīng)推送符合學(xué)習(xí)者需求的資源和內(nèi)容,并為教師或管理者的決策提供支持。目前,研究者主要通過學(xué)習(xí)者的論壇交流、鍵鼠交互、文本輸入、測驗提交、觀看記錄等挖掘?qū)W習(xí)者的學(xué)習(xí)行為,而學(xué)習(xí)者情感狀態(tài)的識別為智慧學(xué)習(xí)環(huán)境中的學(xué)習(xí)行為分析開辟了新的途徑。智慧學(xué)習(xí)環(huán)境可根據(jù)學(xué)習(xí)者的情感狀態(tài)為其推送交互程度、資源類型、難易程度恰當(dāng)?shù)膶W(xué)習(xí)資源。學(xué)習(xí)者學(xué)習(xí)過程中,實時識別學(xué)習(xí)者情感,連續(xù)時間內(nèi),若學(xué)習(xí)者多為消極情感時,可自適應(yīng)推送較低難度的學(xué)習(xí)內(nèi)容或任務(wù),也可推送交互性或趣味性較強(qiáng)的資源類型;若學(xué)習(xí)者多為積極情感,則可自適應(yīng)推送難度較高的學(xué)習(xí)內(nèi)容或任務(wù)。對于學(xué)習(xí)過程中的情感狀態(tài),在課后將以儀表盤或分析報告的形式呈現(xiàn)給學(xué)習(xí)者或教師,便于學(xué)習(xí)者調(diào)整學(xué)習(xí)狀態(tài),也有利于教師掌握學(xué)習(xí)者的學(xué)習(xí)狀態(tài)和對學(xué)習(xí)內(nèi)容的理解程度,以便及時調(diào)整學(xué)習(xí)內(nèi)容的難易程度以及呈現(xiàn)類型。通過一段時間內(nèi)學(xué)習(xí)者情感數(shù)據(jù)的收集和分析,可挖掘?qū)W習(xí)者的學(xué)習(xí)風(fēng)格、內(nèi)容偏好、交互偏好、資源類型偏好等關(guān)鍵信息。
六、結(jié)? ?語
學(xué)習(xí)者情感的準(zhǔn)確識別是實現(xiàn)智慧學(xué)習(xí)環(huán)境中和諧情感交互的關(guān)鍵,只有高效識別出學(xué)習(xí)者的情感,智慧學(xué)習(xí)環(huán)境中的學(xué)習(xí)畫面或智能教學(xué)Agent才能進(jìn)行相應(yīng)調(diào)整,實現(xiàn)自適應(yīng)和個性化。已有學(xué)習(xí)者情感識別多采用人工特征提取后機(jī)器學(xué)習(xí)的傳統(tǒng)方法,復(fù)雜且效率較低。深度學(xué)習(xí)作為人工智能領(lǐng)域的重要技術(shù),以原始圖像作為輸入,通過訓(xùn)練樣本集進(jìn)行自主學(xué)習(xí),避免了顯式的特征提取過程,具有較高性能和泛化能力。此外,池化層的下采樣操作增強(qiáng)了識別算法的魯棒性。本研究在借鑒既有研究的基礎(chǔ)上,將常見學(xué)習(xí)者情感分為常態(tài)、高興、憤怒、悲傷、驚恐、專注、厭倦,并以此自建大規(guī)模學(xué)習(xí)者情感數(shù)據(jù)庫,提出基于深度學(xué)習(xí)的學(xué)習(xí)者情感識別方法。該方法相比于傳統(tǒng)的學(xué)習(xí)者情感識別方法,具有較高準(zhǔn)確率和魯棒性,并可應(yīng)用于智慧學(xué)習(xí)環(huán)境,將有助于完善學(xué)習(xí)者模型、實現(xiàn)情感交互、挖掘?qū)W習(xí)行為。但仍存在較多不足,在后續(xù)研究中將增加學(xué)習(xí)者情感類型、擴(kuò)充學(xué)習(xí)者情感數(shù)據(jù)庫,優(yōu)化基于深度學(xué)習(xí)的學(xué)習(xí)者情感識別方法,進(jìn)一步提高識別準(zhǔn)確率和效率。目前,本研究已將通過Matlab軟件編寫的學(xué)習(xí)者情感識別程序封裝成函數(shù),可供C、C++、C#、Java等語言調(diào)用,以期為智慧學(xué)習(xí)環(huán)境理論研究者、平臺建設(shè)者提供參考和幫助,為智慧學(xué)習(xí)環(huán)境的情感自適應(yīng)交互作出應(yīng)有貢獻(xiàn)。
[參考文獻(xiàn)]
[1] 孫波,劉永娜,陳玖冰,等. 智慧學(xué)習(xí)環(huán)境中基于面部表情的情感分析[J]. 現(xiàn)代遠(yuǎn)程教育研究,2015(2):96-103.
[2] 孟昭蘭. 情緒心理學(xué)[M]. 北京:北京大學(xué)出版社,2005.
[3] 金慧,劉迪,高玲慧,等. 新媒體聯(lián)盟《地平線報告》(2016高等教育版)解讀與啟示[J]. 遠(yuǎn)程教育雜志,2016,35(2):3-10.
[4] 劉永娜. 學(xué)習(xí)環(huán)境中基于面部表情的情感識別[D]. 北京:北京師范大學(xué),2015.
[5] MEHRABIAN A. Communication without words[J]. Psychology today,1968,2(4):53-56.
[6] EKMAN P,F(xiàn)RIESEN W V.? Facial action coding system: a technique for the measurement of? facial? movement[M]. Palo Alto: Consulting Psychologists Press,1978.
[7] KRIZHEVSKY A,SUTSKEVER I,HINTON G E. ImageNet classification with deep convolutional neural networks[C]//Advances in neural information processing systems. Lack Tahoe,Nevada:Currant Associates Inc,2012:1097-1105.
[8] RUMELHART D E,HINTON G E,WILLIAMS R J. Learning representations by back-propagating errors[J]. Nature,1986,323(6088): 533.
[9] HINTON G E,SALAKHUTDINOV R R. Reducing the dimensionality of data with neural networks[J]. Science,2006,313(5786): 504-507.
[10] LECUN Y,BOTTOU L,BENGIO Y,et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE,1998,86(11):2278-2324.
[11] 劉瑞梅,孟祥增. 基于深度學(xué)習(xí)的多媒體畫面情感分析[J]. 電化教育研究,2018,39(1):68-74.
[12] 許遠(yuǎn)理,熊承清. 情緒心理學(xué)的理論與應(yīng)用[M]. 北京:中國科學(xué)技術(shù)出版社,2011.
[13] 詹澤慧. 基于智能Agent的遠(yuǎn)程學(xué)習(xí)者情感與認(rèn)知識別模型——眼動追蹤與表情識別技術(shù)支持下的耦合[J].現(xiàn)代遠(yuǎn)程教育研究,2013(5):100-105.
[14] BAHREINI K,NADOLSKI R,WESTERA W. Towards multimodal emotion recognition in e-learning environments[J]. Interactive learning environments,2016,24(3):590-605.
[15] RAY A,CHAKRABARTI A. Design and implementation of technology enabled affective learning using fusion of bio-physical and facial expression[J]. Educational technology & society,2016,19(4):112-125.
[16] 喬向杰,王志良,王萬森. 基于OCC模型的E-learning系統(tǒng)情感建模[J]. 計算機(jī)科學(xué),2010,37(5):214-218.
[17] 黃煥. 面向e-Learning的學(xué)習(xí)者情感建模及應(yīng)用研究[D]. 武漢:華中師范大學(xué),2014.
[18] CHEN C M,WANG H P. Using emotion recognition technology to assess the effects of different multimedia materials on learning emotion and performance[J]. Library & information science research,2011,33(3):244-255.
[19] JAQUES P A,VICARI R M. A BDI approach to infer student's emotions in an intelligent learning environment[J]. Computers & education,2007,49(2):360-384.
[20] 徐曉青,趙蔚,劉紅霞. 混合式學(xué)習(xí)環(huán)境下情緒分析應(yīng)用與模型研究——基于元分析的視角[J].電化教育研究,2018,39(8):70-77.
[21] 盧官明,何嘉利,閆靜杰,等. 一種用于人臉表情識別的卷積神經(jīng)網(wǎng)絡(luò)[J]. 南京郵電大學(xué)學(xué)報(自然科學(xué)版),2016,36(1):16-22.
[22] 彭清,季桂樹,謝林江,等. 卷積神經(jīng)網(wǎng)絡(luò)在車輛識別中的應(yīng)用[J]. 計算機(jī)科學(xué)與探索,2018,12(2):282-291.
[23] EKMAN P,F(xiàn)RIESEN W V. Constants across cultures in the face and emotion.[J]. Journal of personality & social psychology,1971, 17(2):124-129.
[24] IZARD C E. Human emotions[M]. New York:Plenum Press,1977.
[25] PLUTCHIK R. The nature of emotions[J]. American scientist,2001,89(4):344-350.
[26] 魏刃佳,丁亦喆,張莉,等. 在線學(xué)習(xí)系統(tǒng)中情感識別模塊的設(shè)計與實現(xiàn)[J]. 現(xiàn)代教育技術(shù),2014,24(3):115-122.
[27] 劉永娜,孫波,陳玖冰,等. BNU學(xué)習(xí)情感數(shù)據(jù)庫的設(shè)計與實現(xiàn)[J]. 現(xiàn)代教育技術(shù),2015,25(10):99-105.
[28] 丁繼紅,劉華中. 影響教育資源選擇的學(xué)習(xí)者模型構(gòu)建[J]. 遠(yuǎn)程教育雜志,2017,35(4):97-103.
[29] 楊金來,洪偉林,張翼翔. 網(wǎng)絡(luò)學(xué)習(xí)行為的實時監(jiān)控研究與實踐[J]. 開放教育研究,2008,14(4):87-92.