沈同平,王元茂,黃方亮,許歡慶
(安徽中醫(yī)藥大學 醫(yī)藥信息工程學院,安徽 合肥 230012)
2020年初,一場突如其來的新型冠狀病毒,打亂了國人正常的生活節(jié)奏,也嚴重影響全國各個層次的教育工作。為了響應教育部的“停課不停學”的號召,各級教育部門積極搭建教育資源應用平臺,提供豐富多樣的優(yōu)質在線教學資源,全力保障教師在線教學、學生居家學習[1]。同時,教育部出臺《關于加快建設高水平本科教育全面提高人才培養(yǎng)能力的意見》,提出建設國家級、省級一流線上和線下精品課程各一萬門(“雙萬計劃”),鼓勵教師和學生利用在線教學平臺,積極進行教學改革,實現人人皆學、處處能學、時時可學的泛在化混合學習新環(huán)境、新模式。
在線教學,是互聯網+教育的一種形式,指的是利用互聯網技術,借助相關智能設備(電腦、平板、手機、電視等)開展教育教學活動,可以突破時間和空間的限制,以最經濟、最可行的方式實現異地教學,促進教育資源的均衡配置。
在線教學環(huán)境下,一般可以通過學習者的面部表情來判斷學習狀態(tài)和學習效果。情緒,主要是指情感性的反應,客觀事物的態(tài)度體驗以及相應的行為反應,是非常短暫但強烈的體驗。美國心理學家Paul Ekman通過研究發(fā)現人的6種基本情緒:高興、生氣、驚訝、恐懼、厭惡和悲傷的面部表情、生理和行為反應具有跨文化一致性。心理學家Mehrabian通過研究發(fā)現:情緒表達=7%的語言+38%的語音表情+55%的面部表情。因此,面部表情成為情緒識別研究領域主要的數據類型[2]。
傳統教學環(huán)境中,教師隨時通過觀察學生聽課的狀態(tài)(面部表情、坐姿等)來改變教學方式,調節(jié)課堂氛圍,提高教學效果。在線教學環(huán)境中,因為時空的限制,無法實時獲取學生的情緒表現。隨著人工智能、情感計算等研究領域的發(fā)展,計算機具備識別學習者面部表情、判斷學習者內在情緒狀態(tài)的能力,幫助教師掌握學生對知識點的理解程度和興趣度等信息,采取相應的教學手段,提高在線教學課堂教學質量。江波等設計了一組基于在線測評的困惑誘導實驗,提出了一種基于面部表情的學習困惑自動識別算法,通過設定不同難度的測試題誘導被試者產生困惑情緒,同時利用攝像設備實時捕捉學習者的面部表情,提取面部重要特征點,進而利用機器學習算法進行困惑識別,可為下一代智能教輔系統的學習者情緒建模提供技術支撐[3]。韓麗等結合現有智能監(jiān)控設備設計的課堂教學評價系統,利用多姿態(tài)人臉檢測和面部表情識別技術,及時獲取學生在學習過程中的情緒變化,反饋給教師,幫助教師準確全面地掌握所有學生在課堂教學中的參與情況。該系統不僅能夠自動跟蹤及分析教學過程中學生的整體狀態(tài),有效掌控課堂教學過程,還可指定跟蹤對象,對指定對象在課堂中的狀態(tài)進行統計分析,以便進行個體的針對性指導以及學習問題的及時矯正[4]。陳盛等提出采用基于陣列攝像頭獲取全體學生課堂面部表情、判斷知識點教學效果的實時反饋系統,可以輔助教師動態(tài)了解學生的學習狀態(tài),以便及時調整教學方式或進度。通過課堂實驗及課后問卷調查結果,表明此反饋系統可有效提高教學質量,從而達到更理想的教學效果[5]。何秀玲等提出一種提取并融合表情圖像的局部幾何特征、KPCA降維的CLBP全局淺層紋理特征和CNN全局深度網絡特征,構建一個全新的自發(fā)學習表情數據庫,將課堂學習中的情緒分為困惑、快樂、疲倦、驚訝和中性等5種類型,用于CNN模型的訓練。該方法能夠有效獲取課堂中學生情緒變化,幫助教師準確全面地掌握班級學生的整體情況,促進課堂教學質量的提高[6]。
本文在現有研究的基礎上,針對在線教學環(huán)境的特點及教學評價模式,重點研究學習者面部表情與教學效果之間的關系,并采用深度學習技術對在線教學效果進行評價。本方法可以通過對在線學習者的面部表情進行實時識別,并及時跟蹤和分析學習者的學習狀態(tài),輔助教師把握在線課程教學效果,有效掌控在線教學過程。
通過對學習者面部表情變化的識別和分析,研究學習者內心的情緒狀態(tài),評價在線學習效果,因此面部表情識別的準確率至關重要。目前,面部表情識別主要通過以下幾個步驟實現:(1)人臉檢測;(2)面部表情特征提??;(3)面部表情分類算法。面部表情特征提取難度較大,容易受個人差異、光線、動作等因素干擾,同時很多面部表情特征依賴于人工提取,不同特征的選擇對算法性能存在巨大的影響。
深度學習(deep learning,DL)是機器學習算法最新的研究方向,使計算機具備人類的自主學習能力,在搜索推薦、語音識別、圖像處理、自然語言處理等領域,取得了突破性進展[7]。深度學習,可以讓計算機自我構建對事物的描述、理解,實現事物特征的自動提取。在面部表情識別過程中,深度學習算法首先提取表情低層特征,然后逐層將低層特征組合成高層特性處理。其中,卷積神經網絡(convolutional neural network,CNN)是深度學習代表算法之一。1962年Hubel等人通過對貓視覺皮層細胞的研究,提出了感受野這個概念;1980年,日本學者福島邦彥仿造生物的視覺皮層(visual cortex)設計了以“neocognition”命名的神經網絡。隨著計算機計算能力的進一步發(fā)展,卷積神經網絡的表征學習能力得到了關注,AlexNet、ZFNet、VGGNet、GoogLeNet和ResNet等CNN模型進一步提升深度學習的效果[8]。
CNN深度神經網絡模型主要由卷積層、池化層和全連接層等部分組成。卷積層對輸入圖像進行卷積操作,提取圖像特征;池化層盡可能去除圖像冗余數據,保留圖像核心特征;全連接層將圖像特征傳遞給分類層進行圖像分類輸出,如圖1所示。
圖1 CNN模型基本結構
(1)卷積層
卷積層由若干個卷積單元組成,對輸入的圖像進行卷積運算,提取圖像不同特征,如圖像邊緣、紋理和線條等。
(1)
(2)池化層
池化層在卷積層之后,通過降采樣來壓縮數據和減少參數量,提高數據執(zhí)行效率,減小過擬合。常用的方法有Max pooling(最大池化)和average pooling(平均池化),而實際用的較多的是Max pooling。
(2)
(3)全連接層
全連接層中的每個神經元與其上一層的所有神經元進行全連接。全連接層可以整合卷積層或者池化層中具有類別區(qū)分性的局部信息。假設x1、x2、x3為全連接層的輸入,a1、a2、a3為輸出。
a1=W11*x1+W12*x2+W13*x3+b1
(3)
a2=W21*x1+W22*x2+W23*x3+b2
(4)
a3=W31*x1+W32*x2+W33*x3+b3
(5)
全連接層中的每一個神經元都與上一層的所有神經元進行全連接,用來把前邊提取到的特征綜合起來。每個神經元激勵函數一般采用Relu函數,輸出層一般采用Softmax函數作為分類器,輸出不同預測結果的概率分布,選擇其中最大的數據作為輸入數據的測試標簽。
實驗采用的環(huán)境為
軟件環(huán)境:Windows 7下的Tensor Flow 1.11.0版本;
硬件環(huán)境:Intel(R)Core(TM)i5-4590 CPU@3.30 GHz;
內存:8.0 GB。
Jaffe(the Japanses female facial expression database)數據庫,即日本女性面部表情數據庫,該數據庫共有213張表情圖片,如圖2所示。213張表情圖片由10名女性的7種表情組成,分別為angry(憤怒),disgust(厭惡),fear(恐懼),happy(高興),sad(悲傷),surprise(驚訝),neutral(中性),如圖3所示。
圖2 Jaffe數據庫表情數據
圖3 Jaffe表情庫7種基本表情示例
考慮到Jaffe數據庫中數據量較少,因此模型訓練參數選擇為:batch_size=10,epochs=100,lr=0.0001。在進行100次迭代運算后,模型網絡達到收斂的程度。模型訓練的準確率和損失值的變化曲線如圖4(a)和圖4(b)所示。
圖4(a) 模型訓練acc(%) 圖4(b) 模型訓練loss(%)
由圖4(a)可以看出,訓練準確率隨著迭代次數的增加而逐漸增加,隨后開始趨于穩(wěn)定。由圖4(b)可知,損失值隨著迭代次數的增加而逐漸減小,隨后開始穩(wěn)定在較小的值附近,說明訓練好的網絡模型具有較好的穩(wěn)定性。
為了進一步驗證本文模型的有效性,采用通過精確率(P)、召回率(R)和F1值對模型進行評價。
(6)
(7)
(8)
其中,Tp表示真正例,Fp表示假正例,Fn表示假負例。模型效果分別如圖5和表1所示。
圖5 模型在Jeffe數據庫上的混淆矩陣
表1 不同表情的識別效果 %
本文在對在線教學效果評價分析的基礎上,重點研究面部表情變化與教學效果之間的關聯關系。研究表明學生面部表情變化直接反映學生內心的學習狀態(tài),進而判斷學生的學習效果。因此,本文提出一種利用深度神經網絡技術構建面部表情識別模型,采用TensorFlow平臺,對Jaffe數據庫進行測試、驗證。實驗結果表明,該模型在測試集的準確率達到1。為了驗證模型的適應性,后期將面部表情識別模型在CK+數據集和Fer-2013數據集上進行測試、驗證,也可以考慮構建自發(fā)表情數據集,來驗證本文方法的有效性和適應性。