魏艷濤 雷芬 胡美佳 鄧偉 姚璜 王志鋒
摘? ?要:學(xué)習情緒分析有助于理解學(xué)生學(xué)習狀態(tài)、為實施有效學(xué)習干預(yù)提供重要依據(jù)。近年來,隨著人工智能的快速發(fā)展,表情識別已成為感知學(xué)習情緒最直接和最有效的方式,備受教育技術(shù)領(lǐng)域關(guān)注。然而,由于表情與認知之間關(guān)聯(lián)高度復(fù)雜、教育場景復(fù)雜多變等,學(xué)生表情識別依然是一個開放問題。文章采用文獻分析法,對學(xué)生表情識別的研究現(xiàn)狀及趨勢進行深入探討。文章首先歸納分析了面向?qū)W生表情識別的表情分類和數(shù)據(jù)庫構(gòu)建研究進展,重點分析了學(xué)生表情分類和數(shù)據(jù)庫構(gòu)建存在的系列問題;其次,詳細梳理了學(xué)生表情識別方法的研究現(xiàn)狀,并分析了表情識別方法未來的發(fā)展方向;第三,梳理了表情識別在教育領(lǐng)域的典型應(yīng)用;最后,探討了學(xué)生表情識別未來在表情分類、魯棒識別算法構(gòu)建以及隱私保護等方向上的發(fā)展趨勢。
關(guān)鍵詞:人工智能;學(xué)習情緒;學(xué)生表情識別;教學(xué)評價
中圖分類號:G424;TP391.41 文獻標志碼:A 文章編號:1673-8454(2020)21-0048-08
一、引言
學(xué)習情緒是一種重要的內(nèi)隱式學(xué)習特征。學(xué)習情緒分析不僅可以為教師理解學(xué)生的學(xué)習行為、動機、興趣和注意力提供線索,而且還可以為教學(xué)評價和教學(xué)反思提供重要依據(jù)。如何有效精準識別學(xué)生學(xué)習過程中的情緒狀態(tài),一直是教育領(lǐng)域的研究重點和難點。心理學(xué)家Mehrabian通過研究發(fā)現(xiàn):“情緒表達=7%的語言+38%的姿勢表情+55%的面部表情”,面部表情包含豐富直觀的情緒信息。研究表明,在學(xué)習環(huán)境下,面部表情不僅能直觀反映學(xué)生的情緒狀態(tài),還能反映學(xué)生的心理狀態(tài)。[1]因此,面部表情識別已成為感知學(xué)習情緒的主要途徑。
早期學(xué)習情緒識別主要依靠人工觀察和學(xué)生自我報告。然而,人工觀察法效率低下,且不適用于師生分離的在線學(xué)習環(huán)境;而自我報告方法主觀性強,易對學(xué)習過程產(chǎn)生干擾。隨后Ekman等人開發(fā)的面部動作編碼系統(tǒng)(Facial Action Coding System,F(xiàn)ACS)受到廣泛關(guān)注,F(xiàn)ACS根據(jù)面部肌肉活動定義了46個動作單元來判斷面部表情,但其實際應(yīng)用中的使用效率并不高。因此,教育領(lǐng)域迫切需要探索適合大規(guī)模數(shù)據(jù)實時處理的學(xué)習情緒識別方法。
近年來,隨著人工智能的迅速發(fā)展,表情識別技術(shù)在人機交互、安全、自動化、醫(yī)療、通信等領(lǐng)域取得了豐碩成果。表情識別因數(shù)據(jù)獲取的便捷性和方法使用的高效性,而受到了教育領(lǐng)域的廣泛關(guān)注。通過基于計算機視覺的表情識別方法準確識別學(xué)習情緒,既可以解決學(xué)習情緒狀態(tài)難以自動感知的問題,也順應(yīng)了信息技術(shù)與教育教學(xué)深度融合的發(fā)展趨勢。更為重要的,表情識別可為學(xué)生調(diào)整學(xué)習狀態(tài)和教育者調(diào)整教學(xué)策略等提供有效支撐。
當前,表情識別在“人工智能+教育”領(lǐng)域已逐漸引起重視。本文在中國知網(wǎng)數(shù)據(jù)庫中以關(guān)鍵詞“學(xué)生表情識別OR學(xué)生情緒識別OR參與度識別OR參與度檢測”為檢索條件,同時在“Web of Science”、“Springer”、“Elsevier Science”等數(shù)據(jù)庫中以關(guān)鍵詞“expression recognition of students”、“expression classification of students”、“engagement detection”、“engagement recognition ” 為檢索條件進行檢索,人工剔除無關(guān)文獻,迄今為止有關(guān)學(xué)生表情識別的有效中外文獻分別為111篇和524篇,其中文獻發(fā)表數(shù)量隨年度變化情況如圖1所示。
圖1表明,從2008年開始,國內(nèi)外發(fā)表的有關(guān)學(xué)生表情識別的文獻數(shù)量總體呈上升趨勢,尤其是近幾年增長速度明顯??梢姡S著“人工智能+教育”的興起,表情識別的相關(guān)研究和應(yīng)用在教育領(lǐng)域逐漸成為新的研究熱點。
二、學(xué)生表情分類及數(shù)據(jù)庫構(gòu)建
在教學(xué)環(huán)境下,識別學(xué)生表情有助于及時了解學(xué)生的學(xué)習狀態(tài)。隨著學(xué)生表情識別研究的不斷深入,越來越多的研究者認識到高質(zhì)量的表情數(shù)據(jù)庫對訓(xùn)練有效的識別模型、準確理解學(xué)生的學(xué)習行為和狀態(tài)具有重要作用。迄今為止,國內(nèi)外學(xué)者建立了許多與學(xué)生表情相關(guān)的數(shù)據(jù)庫,但其構(gòu)建標準和方法并不統(tǒng)一。特別地,表情分類作為表情識別的核心問題和構(gòu)建表情庫的首要任務(wù)還未得到很好的解決。
1.學(xué)生表情分類
美國學(xué)者Paul Ekman將人類普遍情緒分為六種,即高興、生氣、驚訝、恐懼、厭惡和悲傷。目前大多數(shù)研究者均是在Ekman六類基本情緒理論基礎(chǔ)上開展學(xué)生表情識別研究,如表1所示。然而,學(xué)習情緒不僅具有人類情緒的普遍性,而且還具有其獨特性,例如學(xué)生表情大多時候處于中性狀態(tài),波動幅度不大,而類似于“悲傷”和“生氣”這類強烈的負面情緒則需要較強的誘導(dǎo)因素才會出現(xiàn)。由此可見研究者應(yīng)將關(guān)注點置于頻率出現(xiàn)較高且能真實反映學(xué)生學(xué)習狀態(tài)的表情,才能挖掘出學(xué)生在不同學(xué)習環(huán)境下的真實學(xué)習情緒。
2.學(xué)生表情數(shù)據(jù)庫構(gòu)建
學(xué)生表情數(shù)據(jù)庫的質(zhì)量將直接影響表情識別的效果。如何構(gòu)建學(xué)生表情數(shù)據(jù)庫一直是個開放性的問題?,F(xiàn)有的學(xué)生面部表情數(shù)據(jù)庫主要分為三種類型:一是基于Ekman的6種基本情緒而構(gòu)建的學(xué)生表情數(shù)據(jù)庫;二是采用面部運動編碼系統(tǒng)(Facial Action Coding System, FACS)進行編碼的學(xué)生表情數(shù)據(jù)庫;三是根據(jù)特定研究需要構(gòu)建的學(xué)生表情數(shù)據(jù)庫。[12]在這三種類型的數(shù)據(jù)庫中,收集有關(guān)學(xué)生表情數(shù)據(jù)的常用方法有兩種:一種是在實驗前對學(xué)生進行表情培訓(xùn),要求學(xué)生按照指示扮演需要采集的表情;另一種是學(xué)生在誘導(dǎo)素材的引導(dǎo)下,采集他們自然而發(fā)的無意識的表情。比較有代表性的表情數(shù)據(jù)庫如表2所示。
(1)學(xué)生扮演表情數(shù)據(jù)庫
學(xué)生扮演的表情具有很強的針對性,適合做大規(guī)模的學(xué)生表情數(shù)據(jù)采集。如徐振國[12]建立了由70名研究生組成的包含常態(tài)、高興、憤怒、悲傷、驚恐、專注、走神等7種學(xué)習情緒的73500張面部表情圖像庫。學(xué)生在扮演相應(yīng)表情時面部肌肉運動幅度大、表情特征性強、持續(xù)時間久,采集起來比較容易。但是在真實情境下大多時候?qū)W生處于常態(tài)情緒,表情變化幅度并不會太大,因此通過學(xué)生扮演表情建立的數(shù)據(jù)庫無法真實地反映出學(xué)生學(xué)習狀態(tài)。
(2)學(xué)生自發(fā)表情數(shù)據(jù)庫
近幾年,研究者更傾向于研究學(xué)生無意識流露出的表情,其更貼近真實的學(xué)習狀態(tài)。因此,自發(fā)的學(xué)生表情數(shù)據(jù)庫數(shù)量較多。如Kappor等[14]采用電腦解謎的誘導(dǎo)方式,采集到了136名兒童高興趣、中興趣、低興趣、乏味和休息五種狀態(tài)下的自然表情。Whitehill等[3]提取了34名學(xué)生在認知實驗過程中產(chǎn)生的快樂、悲傷、厭惡、恐懼、驚訝和中性六種表情數(shù)據(jù)。D'Mello等[9]借助攝像機和身體測試系統(tǒng)采集到了28名大學(xué)生在與AutoTutor互動過程中的自然表情。雖然學(xué)生在自然狀態(tài)下流露的表情研究價值高,但是學(xué)生面部肌肉運動幅度小、表情特征性弱、持續(xù)時間短,所以采集過程較為困難。
(3)學(xué)生表情數(shù)據(jù)庫的不足
基于以上探討,本文發(fā)現(xiàn)目前學(xué)生表情數(shù)據(jù)庫的構(gòu)建存在以下不足:
①數(shù)據(jù)庫的建立標準不統(tǒng)一
單從Ekman提出的六種基本表情對學(xué)生情緒進行歸納分類,并不能完全劃分真實情緒的界限。例如學(xué)生在學(xué)習過程中出現(xiàn)的乏味、疲勞、厭倦等頻率較高的表情,面部呈現(xiàn)的效果非常相似,但目前學(xué)術(shù)界并沒有形成統(tǒng)一的區(qū)分標準。除此之外,由于學(xué)生表情變化十分豐富,研究者在構(gòu)建相關(guān)數(shù)據(jù)庫時,定義的類別各式各樣,導(dǎo)致數(shù)據(jù)庫的質(zhì)量參差不齊。
②自發(fā)表情采集困難
目前大部分研究者都傾向于采集學(xué)生的自發(fā)表情,但是采集的過程也面臨許多困難。首先要找到能夠成功引發(fā)學(xué)生自發(fā)表情產(chǎn)生所需的誘導(dǎo)素材并不是一件易事。其次在教室環(huán)境下的采集過程中,攝像頭與學(xué)生保持一定距離,由于攝像頭需同時捕捉多位學(xué)生的面部表情,且攝像頭在教室的安置問題,很可能使數(shù)據(jù)庫視頻質(zhì)量不佳,單個人臉的分辨率不夠高,數(shù)據(jù)處理過程困難。
③開源大規(guī)模數(shù)據(jù)庫較少
目前在學(xué)生表情識別方面的研究并不多,而且對學(xué)生進行數(shù)據(jù)采集也涉及相關(guān)隱私問題,因此開源的學(xué)生表情數(shù)據(jù)庫甚少。而且,不同國家的人臉的面部單元(眼間距、鼻翼寬、額寬)具有一定的差異性,開源數(shù)據(jù)庫的適用性存在問題。未來需要建立我國學(xué)生表情的大規(guī)模開源數(shù)據(jù)庫,以便開展學(xué)生表情識別的研究與應(yīng)用。
三、表情識別方法概述
學(xué)生表情識別準確與否對后續(xù)開展學(xué)習分析有著直接影響。因此,教育應(yīng)用對表情識別方法的性能提出了更高要求。目前,表情識別方法大致分為基于傳統(tǒng)機器學(xué)習的方法和基于深度學(xué)習的方法,表情識別過程主要包括人臉檢測、圖像預(yù)處理、特征提取和表情分類等,如圖2所示。
1.傳統(tǒng)機器學(xué)習方法
(1)人臉檢測
學(xué)生表情圖像的背景對識別的效果有很大影響。因此在提取學(xué)生表情特征之前,首先要檢測或定位人臉,然后去除背景和非人臉區(qū)域。當前,人臉檢測方法又分為基于特征和基于統(tǒng)計學(xué)習的方法。
①基于特征的方法
早期基于特征的方法一般要提取灰度、顏色、紋理等特征。然而,這些底層特征難以表達圖像的高層語義信息。為了克服底層特征的不足,研究者開始轉(zhuǎn)向使用具有更高層次的中層特征。中層特征能獲得更豐富的語義信息,具有更好的抽象表達能力,使分類器對其更易檢測和判斷。常用的基于中層特征的方法包括Object Bank、Distinctive Part、HoF等。為了彌補單一特征帶來的特征信息不足,有研究者提出利用流行的特征獲取方法獲取不同的特征,如將膚色、人臉結(jié)構(gòu)、紋理、運動信息等結(jié)合使用,通過不同特征的有效結(jié)合,以提高檢測性能。[16]
②基于統(tǒng)計學(xué)習的方法
基于統(tǒng)計學(xué)習的方法包括神經(jīng)網(wǎng)絡(luò)、支持向量機(Support Vector Machine, SVM)、貝葉斯決策和AdaBoost等方法,其中AdaBoost方法因其快速度和高精度的特點被廣泛應(yīng)用于在線學(xué)習環(huán)境下的學(xué)生人臉檢測。[12]21世紀初,Viola&Jone提出著名的V-J算法,通過將Harr-like特征分類器引入人臉檢測中,并結(jié)合AdaBoost方法得到最能表示人臉的矩形特征,使人臉檢測得到新的發(fā)展。與在線學(xué)習環(huán)境不同的是,傳統(tǒng)課堂中學(xué)生的小幅度行為不受控制,容易出現(xiàn)臉部被遮擋等情況,且細小的行為都會導(dǎo)致識別效果產(chǎn)生偏差。[2][17]
(2)數(shù)據(jù)預(yù)處理
不相關(guān)的頭部姿勢、光照變化、噪聲干擾等都是很常見的影響識別效果的干擾因素。因此在獲取有意義的特征之前,通常需要進行預(yù)處理操作,幫助對齊和規(guī)范面部傳達的視覺語義信息。常見的預(yù)處理方法包括人臉對齊、數(shù)據(jù)擴容、人臉歸一化等。[16]
為了對齊人臉,研究者往往將多個檢測器結(jié)合,相互補充,以此克服只使用一個檢測器進行人臉比對的缺陷。當前,基于深度學(xué)習的人臉對齊算法得到了廣泛應(yīng)用,但由于深度學(xué)習淺層特征表征能力不強,魯棒性差,且難以實現(xiàn)真正意義上的“端對端”,因此,Liu等[18]提出一種端到端的推理決策網(wǎng)絡(luò)方法,將人臉對齊看成一種馬爾可夫決策過程,通過策略梯度實現(xiàn)魯棒人臉對齊。而訓(xùn)練算法性能需要足夠多的數(shù)據(jù)樣本,大多數(shù)研究者采取數(shù)據(jù)擴容方法解決樣本容量不足問題。數(shù)據(jù)擴容方式包括隨機擾動和變換,如翻轉(zhuǎn)、平移、縮放、對比度、噪聲及顏色抖動等。除此之外,研究者還采用人臉歸一化的方法來減少光照和頭部姿勢的改變而導(dǎo)致的圖像變化。[19]
(3)特征提取
特征提取是表情識別中的關(guān)鍵環(huán)節(jié)。學(xué)習環(huán)境下的學(xué)生表情具有一定的內(nèi)隱性和復(fù)雜性,因此需要設(shè)計有效的特征提取方法。當前依據(jù)數(shù)據(jù)形態(tài)的不同及識別任務(wù)的特點,可將表情特征提取算法分為兩大類——基于靜態(tài)圖像和基于視頻的特征提取方法。
①基于靜態(tài)圖像的特征提取
由于靜態(tài)圖像獲取及處理便捷的特性,已有大量研究不考慮數(shù)據(jù)的時序性問題,進行基于靜態(tài)圖像的表情識別任務(wù)?;陟o態(tài)圖像的特征提取算法可進一步細分為整體法和局部法。整體法包括主元分析法(Principal Component Analysis,PCA)、獨立分量分析法(Independent Component Analysis,ICA)和線性判別分析法(Linear Discriminant Analysis,LDA)等。PCA算法作為一種無監(jiān)督的方法,在最大化保留人臉信息的基礎(chǔ)上,還能對數(shù)據(jù)特征進行降維。ICA算法作為一種無監(jiān)督的方法,與PCA不同的是,除了能對數(shù)據(jù)降維,提取出的屬性具備相互獨立性,且因收斂速度快,被用于提取學(xué)生表情特征。[20]LDA算法是一種有監(jiān)督的方法,能將高維數(shù)據(jù)投影到最佳辨別矢量空間并壓縮數(shù)據(jù),保留最相關(guān)的特征。該方法在表情識別任務(wù)中得到了廣泛應(yīng)用。比較經(jīng)典的局部特征提取方法有Gabor小波和局部二值模式(Local Binary Patterns,LBP)等。利用Gabor小波系數(shù)編碼學(xué)生臉部表情,可以獲得良好的視覺效果。但是在計算不同尺度和方向的小波核函數(shù)時,Gabor產(chǎn)生的高維特征向量容易造成信息冗余。LBP能夠?qū)叶葓D像進行有效處理,獲取紋理信息進行表達,且對光照條件不敏感。由于學(xué)習環(huán)境下的學(xué)生表情幅度變化不大,研究者開始轉(zhuǎn)向微表情的探究。微表情是一種短暫的面部動作,持續(xù)時間短且強度低。Mao等[21]利用微表情圖像和中性表情圖像中對應(yīng)子塊之間的投影誤差,提出了一種將圖像各子塊提取的LBP特征進行分割的學(xué)生微表情識別方法。但LBP產(chǎn)生的二值數(shù)據(jù)易受到噪聲的干擾,通過對LBP的改進,目前已經(jīng)產(chǎn)生了旋轉(zhuǎn)不變LBP算法、均勻LBP算法、多尺度LBP算法等。
②基于視頻的特征提取
視頻可呈現(xiàn)人臉形變和肌肉運動過程,對表情發(fā)生的過程和情緒的轉(zhuǎn)變具有較好的解釋性?;谝曨l的特征提取算法分為光流法、模型法和幾何法。光流法指利用視頻序列圖像間像素強度的時域變化和相關(guān)性,獲得人臉各個部分發(fā)生運動的信息,表征臉部形變和變化趨勢。Liu等[22]為了提高視頻序列中微表情的識別率,在微表情視頻序列中抽取主方向,將面部區(qū)域劃分為感興趣區(qū)域,并計算感興趣區(qū)域中的平均光流特征。目前研究者提出了改進的光流法,如金字塔光流法、差分光流法、區(qū)域光流法、特征光流法等,以克服傳統(tǒng)光流法運算量大、處理困難、易受光線影響等問題。[17]模型法包括主動形狀模型法(Active Shape Models,ASM)和主動外觀模型法(Active Appearance Model,AAM)。在線學(xué)習系統(tǒng)中,魏刃佳等[23]基于ASM定位人臉特征點,獲取眼部和嘴巴的形變特征識別學(xué)習者的疲勞情況。AAM是當前人臉特征點定位的主流研究方法,韓麗等[24]基于AAM對課堂環(huán)境下學(xué)生面部關(guān)鍵點進行標記,依據(jù)建立的形狀模型提取多姿態(tài)人臉特征,有效解決了人臉姿態(tài)的多樣性,取得了較好的識別效果。幾何方法通過定位面部五官即眉毛、眼睛、鼻子、嘴巴和下巴來獲取人臉表情的顯著特征。
目前一些擴展的手工特征描述符(比如LBP-TOP、3D-HOG 、3D-SIFT等),也被用來提取圖像的時域特征。[25]然而,單一的特征提取算法并不能獲得學(xué)生較全面的表情信息,且光照、遮擋、膚色以及運動偏移等因素都會影響表情識別效果。為了提高識別的魯棒性,多特征融合已成為研究者廣泛使用的方式。
(4)表情分類
選擇有效的分類器是進行學(xué)生表情識別的關(guān)鍵。當前,支持向量機(Support Vector Machine,SVM)、貝葉斯網(wǎng)絡(luò)(Bayesian Network)和隱馬爾科夫模型(Hidden Markov Model, HMM)等分類器在解決學(xué)生表情分類問題上取得了較好的效果。例如唐康[2]提出了一種基于樸素貝葉斯分類的表情識別和評分方法,對學(xué)生情緒進行正負面的分類和評分。鄭子聰在獲取學(xué)生表情特征的基礎(chǔ)上,結(jié)合SVM線性分類法來識別學(xué)生的疲勞狀態(tài)。Whitehill等[3]使用Gabor法提取學(xué)生面部特征,利用SVM法進行表情分類,該方法泛化能力強,識別準確率高。Grafsgaard等[26]在HMM基礎(chǔ)上提出了一種學(xué)習混淆預(yù)測模型,該模型可以預(yù)測學(xué)習者的對話動作、任務(wù)表現(xiàn)和面部表情,解決學(xué)習中伴隨的困惑障礙。事實上,分類器的選擇很大程度取決于所使用的數(shù)據(jù)集的屬性。
2.基于深度學(xué)習的方法
當面對大規(guī)模數(shù)據(jù)時,傳統(tǒng)的機器學(xué)習分類方法效率低下,不能滿足實際需求,特征描述符也只能從面部表情中提取低級特征。除此之外,傳統(tǒng)的手工設(shè)計特征依賴于大量的先驗知識和豐富的經(jīng)驗,并且大多為特定應(yīng)用所設(shè)計,泛化性能不強,特征描述符在實驗中還需要人工調(diào)整其參數(shù),十分耗時。深度學(xué)習的出現(xiàn)為問題的解決提供了可能,深度學(xué)習試圖通過多重非線性轉(zhuǎn)換和表示的層次結(jié)構(gòu)來捕獲高級抽象的特征。[27]當前深度學(xué)習被劃分為三類——無監(jiān)督深度網(wǎng)絡(luò)、有監(jiān)督深度網(wǎng)絡(luò)和半監(jiān)督深度網(wǎng)絡(luò)。無監(jiān)督深度網(wǎng)絡(luò)是指在學(xué)習過程中不需要利用標簽信息,主要包括受限波爾茲曼機(Restricted Boltzmann Machine,RBM)、深度置信網(wǎng)絡(luò)(Deep Belief Networks,DBN)等。有監(jiān)督深度網(wǎng)絡(luò)是指在學(xué)習中需要使用標簽信息,它包括遞歸神經(jīng)網(wǎng)絡(luò)(Recursive Neural Network,RNN)、卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)等。半監(jiān)督深度學(xué)習網(wǎng)絡(luò)只需要少量標記數(shù)據(jù)和大量未標記數(shù)據(jù)進行學(xué)習,在當前深度學(xué)習中受到廣泛關(guān)注。
(1)基于靜態(tài)圖像的表情識別
目前在靜態(tài)圖像的表情識別中,常用的深度學(xué)習方法包括CNN、徑向基神經(jīng)網(wǎng)絡(luò)(Radial Basis Neural Networks,RBNN)和深度信念網(wǎng)絡(luò)(Deep Belief Network,DBN)等,[28]其中CNN被廣泛應(yīng)用于學(xué)生靜態(tài)圖像的面部表情識別。[20]例如徐振國[12]設(shè)計了一種7層CNN模型,該模型能快速且準確地識別學(xué)生表情并進一步判斷學(xué)生情緒狀態(tài)。Xu等[17]提出了一種基于情緒感知的學(xué)習框架,利用CNN模型對學(xué)生進行臉部檢測和表情強度排序。由于深度挖掘方法會自動提取特征,一些無用的特征會干擾有用的特征,為了提高模型的識別性能,研究者開始不斷對CNN進行簡化和改進。[19]
許多現(xiàn)有的情感識別方法專注于單個任務(wù),而情感表現(xiàn)形式豐富,情感識別與各種因素交織在一起,如眼睛狀態(tài)、頭部姿勢、心率、腦電等。為了解決這一問題,當前已有學(xué)者充分考慮各個模態(tài)對情感識別的貢獻度,建立多模態(tài)學(xué)生情感識別方法。[29]除此之外,目前研究大多基于某一種深度學(xué)習方法完成表情識別任務(wù),然而,單一神經(jīng)網(wǎng)絡(luò)的適用范圍有限,未來多種神經(jīng)網(wǎng)絡(luò)的組合使用是提高識別效率的研究熱點。
(2)基于視頻的表情識別
雖然基于靜態(tài)圖像的方法可以有效地提取圖像的空間信息,但是在真實的學(xué)習環(huán)境中,學(xué)生表情具有低強度、時間短、持續(xù)性和時序性的特點,因此通過連續(xù)幀識別面部表情更自然,識別結(jié)果更為精準。由于RNN在各種序列分析任務(wù)上取得了不錯的表現(xiàn),人們嘗試使用RNN對隨時間演化的面部表情進行識別。Zhang等[30]基于RNN設(shè)計了一種時空遞歸神經(jīng)網(wǎng)絡(luò)模型,利用輸入信號的時空依賴性學(xué)習隱藏特征,并在腦電波和面部表情數(shù)據(jù)集上證明了其有效性。然而,RNN用于提供一種簡單的機制來解決爆炸和消失梯度問題,容易喪失學(xué)習序列時域特征的能力,為此,長短時記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)應(yīng)運而生。如王素琴等[31]建立了VGGNet-LSTM模型,首先通過VGGNet模型提取表情圖像的視覺特征,然后使用LSTM提取圖像序列的時序特征,通過特征融合后在此基礎(chǔ)上進行分類,顯著提高了表情識別的準確率。除了面部表情類信息外,Zhu等[32]還考慮了代表性的表情狀態(tài)(表情的起始、頂點、偏移量)等影響因素,建立了一個深度的CNN-LSTM子網(wǎng)來學(xué)習圖像的時空特征, 進一步識別在線學(xué)習中的面部表情。盡管深度學(xué)習具有強大的特征學(xué)習能力,但在表情識別任務(wù)中依然面臨一些挑戰(zhàn)。例如深度學(xué)習需要大量的樣本進行訓(xùn)練,而已有的許多學(xué)生表情數(shù)據(jù)庫規(guī)模達不到模型要求,同時,學(xué)生的年齡、身高等無關(guān)因素的差異也會影響識別結(jié)果。
當前,將傳統(tǒng)機器學(xué)習方法與深度學(xué)習方法結(jié)合使用也成為一種常用策略。如在遠程學(xué)習中,為了實時識別學(xué)生的學(xué)習狀態(tài),Yang等[33]采用Haar級聯(lián)方法對人臉圖像進行檢測,然后通過Sobel邊緣檢測得到特征值,并送入神經(jīng)網(wǎng)絡(luò)進行識別。而為了自動檢測學(xué)生學(xué)習走神情況,Bosch等[34]使用OpenFace實時提取面部圖像特征和頭部姿勢特征,建立由SVM和深度神經(jīng)網(wǎng)絡(luò)組成的機器學(xué)習模型,但識別的準確率不高。
四、表情識別的典型教育應(yīng)用
1.線下教學(xué)應(yīng)用
學(xué)生在課堂上的情緒能夠直觀反映他們對知識的接受程度。然而,傳統(tǒng)課堂學(xué)生人數(shù)較多,面對這種大規(guī)模表情識別的環(huán)境,依賴于教師觀察學(xué)生學(xué)習情緒變化的方法效率低下。將表情識別技術(shù)引入課堂,可以自動化地連續(xù)監(jiān)測、記錄、識別、分析學(xué)生情緒變化,且不會對教學(xué)實踐流程和學(xué)生學(xué)習過程產(chǎn)生干擾。
表情識別技術(shù)引入課堂,為了解學(xué)生課堂投入度、評價課堂效果、衡量教學(xué)質(zhì)量和調(diào)整教學(xué)策略提供了有益幫助,同時為新入職的教師培訓(xùn)和學(xué)校異常事件檢測開辟了新的途徑。例如Gupta 等[11]通過最大邊緣的人臉檢測方法識別學(xué)生表情并計算學(xué)生的投入度,將情緒內(nèi)容分析的結(jié)果反饋給教師進行課堂效果評價。學(xué)生的情緒演變可以幫助教師了解學(xué)生的學(xué)習狀況,進一步提高教學(xué)質(zhì)量,因此,Zeng等[35]設(shè)計了EmotionCues視覺分析系統(tǒng),可以在課堂視頻中支持從集體和個人的角度對學(xué)生情緒演變進行可視化分析。此外,Park等[36]借助Emotient軟件,通過使用真實課堂行為仿真實時自動檢測職前教師與虛擬學(xué)生互動情緒體驗,為以后的虛擬教學(xué)仿真和教師培訓(xùn)提供經(jīng)驗。Alkabbany等[15]提出通過識別學(xué)生學(xué)習表情可開發(fā)早期預(yù)警系統(tǒng)來檢測學(xué)生的焦慮和抑郁,以幫助教育者采取措施及早應(yīng)對。
在復(fù)雜的課堂環(huán)境下,應(yīng)結(jié)合學(xué)生的生理和心理等多重指標分析學(xué)生的學(xué)習狀態(tài)。韓麗等[24]提出了一種課堂教學(xué)評價系統(tǒng),將學(xué)生頭部姿態(tài)與面部表情相結(jié)合,用來測量學(xué)生在課堂上的關(guān)注度、參與度、活躍時間分布,進一步進行教學(xué)調(diào)整和教學(xué)質(zhì)量評價。為了克服當前教學(xué)評價的不足,唐康[2]結(jié)合課堂教學(xué)場景,提出了一種基于深度學(xué)習的人臉檢測和表情識別技術(shù),建立了“學(xué)生抬頭率—學(xué)生表情—學(xué)生專注度—課堂教學(xué)質(zhì)量”的教學(xué)質(zhì)量評價軸。Monkaresi等[37]通過將表情識別技術(shù)與心率遙感技術(shù)結(jié)合,識別學(xué)生在學(xué)習過程中的參與度。
2.在線教育
隨著計算機網(wǎng)絡(luò)的發(fā)展,在線學(xué)習得到了廣泛關(guān)注和大規(guī)模推廣。教育游戲、智能輔導(dǎo)系統(tǒng)以及大型開放式網(wǎng)絡(luò)課程(Massive Open Online Courses,MOOC)等眾多教學(xué)形式的出現(xiàn),為學(xué)生創(chuàng)造了豐富的學(xué)習環(huán)境。[3]然而,在線學(xué)習環(huán)境下的師生分離,容易造成師生情感交流缺失。
表情識別技術(shù)使計算機被賦予類人的情緒特征解釋和生成能力,能夠監(jiān)測學(xué)生的學(xué)習狀態(tài),幫助平臺調(diào)整教學(xué)流程,提高學(xué)生學(xué)習參與度,同時還能幫助教師及時了解學(xué)生的學(xué)習掌握情況,為實現(xiàn)學(xué)習者的個性化學(xué)習提供技術(shù)支撐。如為了檢測學(xué)生在線學(xué)習參與度水平,Sharma等學(xué)者通過將學(xué)生眼睛、頭部、面部表情等運動信息結(jié)合起來識別學(xué)生學(xué)習狀態(tài)和投入程度,進一步對教學(xué)流程進行優(yōu)化。[6][23][25]為了準確判斷學(xué)生情感,張敬然[20]從多角度出發(fā)建立了在線學(xué)習行為深度感知分類模型,依據(jù)學(xué)生眼睛狀態(tài)和表情獲得學(xué)生情緒,以此了解學(xué)生的學(xué)習狀態(tài),幫助實現(xiàn)學(xué)生的個性化學(xué)習。
現(xiàn)有研究表明,若計算機能夠根據(jù)學(xué)生的學(xué)習情緒及時提供干預(yù)措施,學(xué)生的學(xué)習效率將會得到很大幅度提升。[13]智能導(dǎo)師系統(tǒng)(Intelligent Tutoring Systems,ITS)因其可以模擬優(yōu)秀教師的思維輔助學(xué)生學(xué)習而得到廣泛應(yīng)用。然而,已有研究表明目前的ITS普遍存在以下問題:一是不能和學(xué)生進行自適應(yīng)性的情緒交互,容易讓學(xué)生對所學(xué)內(nèi)容產(chǎn)生厭煩情緒;二是認知診斷能力較差,不能很好地引導(dǎo)學(xué)生進行學(xué)習,無法達到實現(xiàn)促進學(xué)習效果的目的。表情識別技術(shù)為新一代ITS功能的完善提供了強有力的技術(shù)支持。例如孫波等[4]構(gòu)建了基于學(xué)生表情識別的情緒分析框架,并將此框架應(yīng)用在三維虛擬學(xué)習平臺 Magic Learning的師生情緒交互子系統(tǒng)上,通過虛擬教師對學(xué)習者情緒進行干預(yù)。Joshi等[13]基于開發(fā)的模型,依據(jù)面部表情相關(guān)信號預(yù)測學(xué)生學(xué)習行為,ITS以此提供適當和有效的干預(yù)措施,可量化地改善學(xué)習體驗,使學(xué)生保持最佳的情緒狀態(tài),并給出有益的輔導(dǎo)。除此之外,ITS還可以融入到特殊教育中,例如Rudovic等[38]制定了個性化的機器學(xué)習(ML)框架,用于自動感知兒童的情感狀態(tài)并應(yīng)用到自閉癥的治療當中,且通過實驗證明了其可行性。
五、學(xué)生表情識別的發(fā)展趨勢
表情識別為學(xué)生在學(xué)習過程中的情緒狀態(tài)的感知提供了有效手段,但是該領(lǐng)域仍然存在一些問題亟待解決,未來該領(lǐng)域?qū)又悄?、更加高效和更加人性化的方向發(fā)展。
1.提升復(fù)雜環(huán)境下學(xué)生表情識別性能
面對多樣化的教育場所,光線變化、遮擋、學(xué)生動作幅度等潛在因素都會給表情識別算法帶來巨大挑戰(zhàn),而學(xué)生的相貌、表情、膚色等差異也是影響識別率的重要因素。因此,在努力提升表情識別算法性能時,研究者應(yīng)充分考慮環(huán)境因素和一些潛在因素的影響,使設(shè)計出的算法更具魯棒性。除此之外,在分析學(xué)生學(xué)習狀態(tài)時,單一的表情信息并不能完整傳遞學(xué)生的情緒內(nèi)容。未來應(yīng)從多模態(tài)融合的情緒識別出發(fā),在完善相關(guān)技術(shù)理論的基礎(chǔ)上,充分考慮語音、姿態(tài)、表情、眼球追蹤、腦電波等數(shù)據(jù)之間的聯(lián)系,通過模態(tài)間的信息互補獲得更滿意的識別效果。[39]
2.完善學(xué)生表情數(shù)據(jù)庫
學(xué)生表情數(shù)據(jù)庫是開展學(xué)生情緒狀態(tài)分析相關(guān)工作的前提。然而,當前學(xué)生表情數(shù)據(jù)庫的建立存在諸多問題,例如建庫方法各式各樣、表情分類標準不統(tǒng)一、樣本質(zhì)量參差不齊。同時,復(fù)雜的表情采集過程和耗時的人工標注環(huán)節(jié)也進一步制約了數(shù)據(jù)庫中樣本的規(guī)模。而學(xué)生表情數(shù)據(jù)庫的完善對準確識別學(xué)生情緒有著現(xiàn)實意義。未來如何構(gòu)建一個樣本數(shù)量充足、表情分類合理、圖像質(zhì)量優(yōu)良的數(shù)據(jù)庫是研究者需要深思的問題。
3.加強學(xué)生隱私保護
隨著大數(shù)據(jù)時代的到來,隱私和安全問題愈來愈突出。在數(shù)據(jù)的采集過程中,學(xué)生的一舉一動都會被攝像頭捕獲。這些數(shù)據(jù)的流失可能會侵犯到學(xué)生的隱私,給學(xué)生帶來不良影響。教育領(lǐng)域普遍認為,學(xué)生信息隱私化處理也是研究的一個重要環(huán)節(jié),目前在學(xué)生表情識別相關(guān)研究和應(yīng)用中對該問題的關(guān)注度不夠,我們應(yīng)積極采取措施加強學(xué)生隱私保護。
六、結(jié)語
人工智能的興起將對教育發(fā)展產(chǎn)生深遠影響,表情識別技術(shù)的快速發(fā)展將為“人工智能+教育”時代的教育應(yīng)用提供有力支撐。將先進的表情識別技術(shù)融入教學(xué)系統(tǒng),可自動分析學(xué)生的情緒狀態(tài),獲得包括學(xué)習參與度、頻度、活躍程度等在內(nèi)的實時數(shù)據(jù)。教師可據(jù)此獲得學(xué)生的學(xué)習狀態(tài),并做出客觀的教學(xué)評價和及時的教學(xué)調(diào)整。學(xué)生也可以利用數(shù)據(jù)的反饋進一步調(diào)整學(xué)習,提高學(xué)習效率??梢姡瑢W(xué)生表情識別對智能時代的教與學(xué)具有十分重要的意義。然而,學(xué)生表情識別依然面臨著許多挑戰(zhàn),研究者應(yīng)該多角度、多維度去深刻分析學(xué)生情緒變化與學(xué)習狀態(tài)之間的關(guān)聯(lián),并且強調(diào)在真實學(xué)習環(huán)境中注重長期實地研究,以便使人工智能技術(shù)更高效地應(yīng)用于教育領(lǐng)域,服務(wù)于教學(xué)。
參考文獻:
[1]Tonguc G,Ozkara B O.Automatic recognition of student emotions from facial expressions during a lecture[J].Computers in Education,2020(148):1-12.
[2]唐康.人臉檢測和表情識別研究及其在課堂教學(xué)評價中的應(yīng)用[D].重慶:重慶師范大學(xué),2019.
[3]Whitehill J,Serpell Z,Lin Y C, et al.The faces of engagement: Automatic recognition of student engagement from facial expressions[J].IEEE Transactions on Affective Computing,2014,5(1): 86-98.
[4]孫波,劉永娜,陳玖冰,羅繼鴻,張迪.智慧學(xué)習環(huán)境中基于面部表情的情感分析[J].現(xiàn)代遠程教育研究,2015(2):96-103.
[5]徐振國,張冠文,孟祥增,黨同桐,孔璽.基于深度學(xué)習的學(xué)習者情感識別與應(yīng)用[J].電化教育研究,2019(2):87-94.
[6]Sharma P,Joshi S,Gautam S,et al.Student engagement detection using emotion analysis,eye tracking and head movement with machine learning[J].arXiv: Computer Vision and Pattern Recognition,2019.
[7]Graesser A,Chipman P,King B,et al.Emotions and learning with auto tutor[J]. Frontiers in Artificial Intelligence and Applications,2007(158):569-571.
[8]Lehman B A,Zapata-Rivera D.Student emotions in conversation-based assessments[J].IEEE Transactions on Learning Technologies,2018,11(1):41-53.
[9]D'Mello S,Picard R W,Graesser A.Toward an affect-sensitive Auto Tutor[J].IEEE Intelligent Systems,2007,22(4):53-61.
[10]Calvo R A,D'Mello S K.New perspectives on affect and learning technologies [M]. Springer Science & Business Media,2011.
[11]Gupta S K,Ashwin T S,Guddeti R M R.Students affective content analysis in smart classroom environment using deep learning techniques[J].Multimedia Tools and Applications,2019:1-28.
[12]徐振國.智慧學(xué)習環(huán)境中學(xué)習畫面的情感識別及其應(yīng)用[D].濟南:山東師范大學(xué),2019.
[13]Joshi A,Allessio D,Magee J,et al.Affect-driven learning outcomes prediction in intelligent tutoring systems[C].2019 14th IEEE International Conference on Automatic Face & Gesture Recognition.IEEE,2019:1-5.
[14]Kapoor A,Picard R W.Multimodal affect recognition in learning environments[C].Proceedings of the 13th annual ACM international conference on Multimedia.ACM,2005:677-682.
[15]Alkabbany I,Ali A,F(xiàn)arag A,et al.Measuring student engagement level using facial information[C].2019 IEEE International Conference on Image Processing. IEEE,2019:3337-3341.
[16]Li S,Deng W.Deep facial expression recognition:A Survey[J].arXiv: Computer Vision and Pattern Recognition,2018.
[17]Xu R,Chen J,Han J,et al.Towards emotion-sensitive learning cognitive state analysis of big data in education: deep learning-based facial expression analysis using ordinal information[J].Computing,2019:1-16.
[18]Liu H,Lu J,Guo M,et al.Learning reasoning-decision networks for robust face alignment.[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2020,42(3):679-693.
[19]Li S and Deng W.Deep facial expression recognition:A Survey[J].IEEE Transactions on Affective Computing,in press,2020.
[20]張敬然.基于面部識別技術(shù)的在線學(xué)習行為深度感知方法研究與應(yīng)用[D].南京:南京師范大學(xué),2018.
[21]Mao L,Wang N,Wang L,et al.Classroom micro-expression recognition algorithms based on multi-feature fusion[J].IEEE Access,2019(7):64978-64983.
[22]Liu Y,Zhang J,Yan W,et al.A main directional mean optical flow feature for spontaneous micro-expression recognition[J].IEEE Transactions on Affective Computing,2016,7(4):299-310.
[23]魏刃佳,丁亦喆,張莉,吳振強.在線學(xué)習系統(tǒng)中情感識別模塊的設(shè)計與實現(xiàn)[J].現(xiàn)代教育技術(shù),2014(3):115-122.
[24]韓麗,李洋,周子佳,宋沛軒.課堂環(huán)境中基于面部表情的教學(xué)效果分析[J].現(xiàn)代遠程教育研究,2017(4):97-103,112.
[25]陳子健,朱曉亮.基于面部表情的學(xué)習者情緒自動識別研究——適切性、現(xiàn)狀、現(xiàn)存問題和提升路徑[J].遠程教育雜志,2019(4):64-72.
[26]Grafsgaard J F,Boyer K E,Lester J C.Predicting facial indicators of confusion with hidden Markov models[C].International Conference on Affective computing and intelligent interaction.Springer,2011:97-106.
[27]Sariyanidi E,Gunes H,Cavallaro A,et al.Automatic analysis of facial affect: A survey of registration,representation,and recognition[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2015,37(6):1113-1133.
[28]Li Y,Zeng J,Shan S,et al.Occlusion aware facial expression recognition using cnn with attention mechanism[J].IEEE Transactions on Image Processing,2018,28(5):2439-2450.
[29]Chaparro V,Gomez A,Salgado A,et al.Emotion recognition from EEG and facial expressions: a multimodal approach [C].The 40th Annual International Conference of the IEEE Engineering in Medicine and Biology Society,2018:530-533.
[30]Zhang T,Zheng W,Cui Z,et al.Spatial-temporal recurrent neural network for emotion recognition[J].IEEE Transactions on Systems,Man,and Cybernetics,2019,49(3):839-847.
[31]王素琴,張峰,高宇豆,石敏.基于圖像序列的學(xué)習表情識別[J/OL].系統(tǒng)仿真學(xué)報,2020:1-7.https://doi.org/10.16182/j.issn1004731x.joss.19-VR0470.
[32]Zhu X,Chen Z.Dual-modality spatiotemporal feature learning for spontaneous facial expression recognition in e-learning using hybrid deep neural network [J].The Visual Computer,2020,36(4):743-755.
[33]Yang D,Alsadoon A,Prasad P W,et al.An emotion recognition model based on facial recognition in virtual learning environment[J].Procedia Computer Science,2018: 2-10.
[34]Bosch N,Dmello S.Automatic Detection of mind wandering from video in the lab and in the classroom[J].IEEE Transactions on Affective Computing,2019:1-16.
[35]Zeng H,Shu X,Wang Y,et al.EmotionCues: Emotion-oriented visual summarization of classroom videos[J].IEEE Transactions on Visualization and Computer Graphics,in press,2020.
[36]Park S,Ryu J. Exploring preservice teachers emotional experiences in an immersive virtual teaching simulation through facial expression recognition[J]. International Journal of Human-Computer Interaction,2019,35(6):521-533.
[37]Monkaresi H,Bosch N,Calvo R A,et al.Automated detection of engagement using video-based estimation of facial expressions and heart rate[J].IEEE Transactions on Affective Computing,2017,8(1):15-28.
[38]Rudovic O,Lee J,Dai M,et al.Personalized machine learning for robot perception of affect and engagement in autism therapy[J].Science Robotics,2018,3(19).
[39]Giannakos M N,Sharma K,Pappas I O,et al.Multimodal data as a means to understand the learning experience[J].International Journal of Information Management,2019(48):108-119.
(編輯:王天鵬)