重慶第二師范學(xué)院 曾文韜 張曉琴 王小亞 曾 瑞 李宗劍
隨著人工智能技術(shù)在教育領(lǐng)域的迅速發(fā)展,傳統(tǒng)的課堂教學(xué)評(píng)價(jià)已無法滿足如今豐富多彩的課堂教學(xué)。通過對(duì)學(xué)生五類課堂表情(傾聽、理解、疑惑、抗拒、不屑)的檢索結(jié)果,可及時(shí)掌握學(xué)生在課堂中的情緒變化和參與情況,為改善教學(xué)質(zhì)量提供幫助。
在“一對(duì)多”的教學(xué)模式下,老師和學(xué)生的互動(dòng)大多是提問、討論、作業(yè)的方式,這些方式不可避免帶來傳遞的滯后性。多媒體相關(guān)技術(shù)的引入,使課堂變得豐富多彩,從一定程度上改善了課堂氛圍,但教師獲得學(xué)生反饋的滯后性依舊未能得到有效改善。人臉表情圖像檢索是通過圖像傳感器采集人的面部表情,通過表情分析進(jìn)行分類的一項(xiàng)技術(shù)。本文將卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)與課堂教學(xué)相結(jié)合,研究基于CNN的課堂表情圖像檢索技術(shù)。
心理學(xué)家Mehrabian指出,情感信息表達(dá)=7%語言+38%聲音+55%面部表情。由此可見表情所表達(dá)的情感基本就反應(yīng)了一個(gè)人的心理狀態(tài)。在課堂教學(xué)中,學(xué)生的表情反應(yīng)出自身的學(xué)習(xí)狀態(tài)和課堂教學(xué)質(zhì)量。目前針對(duì)課堂學(xué)生表情并沒有統(tǒng)一的分類,經(jīng)過多方面的資料查閱和信息收集,以及深入到課堂環(huán)境進(jìn)行實(shí)地觀測(cè),本文采用五類課堂表情分類,分別為:傾聽,理解,疑惑,厭倦和不屑。
傾聽。當(dāng)學(xué)生并不反感教師當(dāng)前所講內(nèi)容,并且愿意繼續(xù)聽教師講述。
理解。當(dāng)學(xué)生理解并消化了教師當(dāng)前的教學(xué)內(nèi)容,產(chǎn)生了學(xué)習(xí)興趣,并且對(duì)后續(xù)教學(xué)內(nèi)容好奇,或是對(duì)教師當(dāng)前的教學(xué)內(nèi)容非常滿意。
疑惑。當(dāng)學(xué)生對(duì)教師所講內(nèi)容產(chǎn)生了不同意見,或是完全不能理解時(shí),他們的心情會(huì)有幾分奇怪和驚訝。
厭倦。當(dāng)學(xué)生精神狀態(tài)不佳,或?qū)處煯?dāng)前的教學(xué)內(nèi)容沒有興趣,注意力已經(jīng)完全沒有集中在課堂,內(nèi)心只是期待趕快下課。
不屑。由于未知的原因,學(xué)生對(duì)教師的教學(xué)內(nèi)容和教學(xué)方式產(chǎn)生了反感,或是對(duì)教師當(dāng)前的教學(xué)內(nèi)容不屑一顧,此時(shí)學(xué)生還沒有完全失去對(duì)于教學(xué)內(nèi)容的興趣,他們只是希望教師及時(shí)地做出針對(duì)性的改變。
CNN是多層感知機(jī)(Multilayer Perceptron,MLP)的變種,由生物學(xué)家休博爾和維瑟爾在早期關(guān)于貓視覺皮層的研究發(fā)展而來。CNN可以自動(dòng)從(通常是大規(guī)模)數(shù)據(jù)中學(xué)習(xí)特征,并把結(jié)果向同類型未知數(shù)據(jù)泛化。CNN的結(jié)構(gòu)包含卷積層,池化層,全連接層等。
CNN中對(duì)圖像的特征提取主要由卷積層和池化層完成。
一張輸入圖像,首先需經(jīng)過卷積層卷積。所謂“卷積”就是在輸入圖像中對(duì)一個(gè)小區(qū)域的像素加權(quán)平均后讓其成為輸出圖像中每個(gè)對(duì)應(yīng)像素的過程。權(quán)值由一個(gè)函數(shù)定義,這個(gè)函數(shù)被稱為卷積核。一個(gè)卷積核,可提取到一張圖像中相同的特征,但每張圖的特征多種多樣,一個(gè)卷積核不可能提取到全部的特征。因此通常的做法是采用多重卷積核,即采用多個(gè)卷積核對(duì)同一張圖像進(jìn)行卷積,確保提取到盡可能多的特征。
通過卷積后的特征圖不僅能在一定程度上保留盡可能多的特征,還能去掉圖像中許多不必要的細(xì)節(jié)。但卷積后參數(shù)數(shù)量依然龐大,還需進(jìn)一步去掉更多細(xì)節(jié),同時(shí)最大程度保留特征,這一過程被稱為池化。一般情況下,特征圖中存在特征的區(qū)域相比于其它區(qū)域的計(jì)算值會(huì)相對(duì)較高,因此采用最大池化可保留更多的特征。
通過卷積和池化,在減少參數(shù)數(shù)量的同時(shí)保留了特征,但上述過程為線性過程,無法解決非線性問題,因此引入激活函數(shù)來為CNN添加非線性因素。
圖片分類由CNN的全連接層完成,全連接層根據(jù)提取的特征來確定圖片所屬類別。因?yàn)榫矸e操作所提取到的特征只是圖片的局部特征,因此在進(jìn)行分類之前,全連接層還需將提取到的特征進(jìn)行重組,特征重組本質(zhì)上是將一個(gè)特征空間線性變換到另一個(gè)特征空間。對(duì)于輸入特征為二維的特征圖,全連接層采用一個(gè)和特征圖大小一致的卷積核對(duì)該特征圖進(jìn)行全局卷積,將局部特征整合到一起,輸出結(jié)果。這種做法一定程度上減少了特征位置對(duì)于分類的影響,忽略了圖片中特征本身的空間結(jié)構(gòu)特性,極大的增強(qiáng)了神經(jīng)網(wǎng)絡(luò)的魯棒性。
CNN將特征重組后的結(jié)果交給softmax分類器輸出分類的結(jié)果。Softmax分類器在CNN的最后一層,本質(zhì)上是一個(gè)函數(shù),常用于多分類模型,返回每個(gè)類別的概率,概率最大項(xiàng)對(duì)應(yīng)的結(jié)果就是最終結(jié)果。不管輸出結(jié)果正確與否,都代表CNN完成圖片的檢索,也表示CNN完成前向傳播,接下來就需要根據(jù)CNN對(duì)圖片的檢索結(jié)果和真實(shí)結(jié)果的差值,進(jìn)行反向傳播修改卷積核權(quán)重等相關(guān)超參數(shù),使下一次的檢索結(jié)果更加接近真實(shí)結(jié)果,這個(gè)差值即為損失函數(shù)。
首先,經(jīng)人工數(shù)據(jù)比對(duì)后的圖片作為輸入圖片進(jìn)入神經(jīng)網(wǎng)絡(luò),特征提取由卷積層和池化層完成,經(jīng)過兩層卷積池化保留主要特征。接著采用全連接層將卷積層和池化層提取到的局部特征進(jìn)行特征重組,并交給softmax分類器進(jìn)行圖片檢索,然后根據(jù)損失函數(shù)值,反向傳播對(duì)相關(guān)超參數(shù)進(jìn)行修改,使預(yù)測(cè)結(jié)果更加接近真實(shí)結(jié)果。
課堂表情圖像的檢索是建立在良好的CNN模型基礎(chǔ)上。表情檢索流程的設(shè)計(jì)如圖1所示。
圖1 表情檢索流程
每個(gè)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練都需要大量數(shù)據(jù),考慮到目前并沒有關(guān)于課堂表情的數(shù)據(jù)集,因此實(shí)驗(yàn)采用的數(shù)據(jù)以fer2013數(shù)據(jù)集為基礎(chǔ),按照五類課堂表情對(duì)該數(shù)據(jù)集進(jìn)行篩選,篩選后的結(jié)果為訓(xùn)練集5364張圖片,驗(yàn)證集662張圖片,測(cè)試集1354張圖片,每張圖片均屬于五類表情之一。
實(shí)驗(yàn)所采取的數(shù)據(jù)集所含的數(shù)據(jù)樣本較少,針對(duì)該情況,我們?cè)谟?xùn)練CNN之前對(duì)數(shù)據(jù)集的數(shù)據(jù)樣本進(jìn)行擴(kuò)充,擴(kuò)充方式包括但不限于旋轉(zhuǎn),翻轉(zhuǎn),顛倒,這些方式也是訓(xùn)練神經(jīng)網(wǎng)絡(luò)常規(guī)的數(shù)據(jù)樣本擴(kuò)充方式。
在CNN網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計(jì)上,用于訓(xùn)練的圖片尺寸為48×48,相比于大尺寸圖片所蘊(yùn)含的信息相對(duì)較少,如果結(jié)構(gòu)設(shè)計(jì)過于復(fù)雜可能丟失圖片的顯著特征從而影響訓(xùn)練結(jié)果,最終導(dǎo)致實(shí)驗(yàn)結(jié)果不理想。因此我們?cè)O(shè)計(jì)了9層神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),其中3層卷積,2層池化,4層全連接的結(jié)構(gòu),如圖2所示。
圖2 CNN實(shí)驗(yàn)結(jié)構(gòu)
在CNN的訓(xùn)練過程中,梯度下降方法是隨機(jī)梯度下降方法,損失函數(shù)為交叉熵函數(shù),初始學(xué)習(xí)率為0.01,每次學(xué)習(xí)率衰減為10-6,初始動(dòng)量為0.9,應(yīng)用內(nèi)斯特羅夫動(dòng)力。將所有的訓(xùn)練數(shù)據(jù)分為若干組,每組有128個(gè)圖片樣本,總共訓(xùn)練50個(gè)周期。
在定位人臉的過程中,我們采用的是OpenCV的臉部追蹤器。定位到臉部后,將臉部圖像截取下來進(jìn)行預(yù)處理,然后將預(yù)處理后的圖片提交給訓(xùn)練好的CNN模型,通過模型檢索后輸出結(jié)果,并實(shí)時(shí)反饋結(jié)果。
為了探究不同數(shù)量的樣本集及其它超參數(shù)對(duì)CNN訓(xùn)練結(jié)果的影響,我們?cè)跀?shù)據(jù)集上進(jìn)行了多次實(shí)驗(yàn),相關(guān)結(jié)果如表1所示。
表1 CNN訓(xùn)練結(jié)果
卷積的次數(shù)和數(shù)量在很大程度上影響局部特征的提取效率與準(zhǔn)確度,多次卷積確實(shí)對(duì)提取特征比較有利,但也會(huì)使神經(jīng)網(wǎng)絡(luò)變得復(fù)雜,需要訓(xùn)練的參數(shù)也會(huì)增加,進(jìn)而導(dǎo)致模型訓(xùn)練的效率下降。經(jīng)過多次的對(duì)比試驗(yàn),我們選取其中表現(xiàn)最好的模型進(jìn)行應(yīng)用效果的測(cè)試,最終模型的實(shí)際應(yīng)用效果如圖3所示。
圖3 CNN應(yīng)用效果示例
結(jié)語:針對(duì)課堂教學(xué)的應(yīng)用需求,結(jié)合神經(jīng)網(wǎng)絡(luò)技術(shù),本文研究了基于CNN的課堂表情圖像檢索技術(shù)。本文采用的數(shù)據(jù)集原型來自fer2013數(shù)據(jù)集,而該數(shù)據(jù)集某種程度上并不是非常適合課堂表情檢索。雖采用了數(shù)據(jù)樣本擴(kuò)充的方式,但相較于神經(jīng)網(wǎng)絡(luò)需要的大數(shù)據(jù)量依然不夠,因此,解決課堂表情數(shù)據(jù)樣本不足問題和進(jìn)一步改進(jìn)CNN網(wǎng)絡(luò)結(jié)構(gòu)以提高應(yīng)用效果是接下來的研究方向。