[摘 要]在當(dāng)前社會(huì)背景下,深度學(xué)習(xí)方法在教育領(lǐng)域的應(yīng)用研究顯得尤為關(guān)鍵。而課堂教學(xué)作為教學(xué)工作中最重要的一環(huán),學(xué)生的課堂行為直接反映了教學(xué)效果和教育質(zhì)量。首先,本研究采集學(xué)生課堂行為的圖像數(shù)據(jù)。其次,通過CNN-GRU模型,識(shí)別和分析學(xué)生在課堂中的行為。最后,通過獲取的學(xué)生行為信息,了解學(xué)生學(xué)習(xí)狀態(tài)和需求。深入研究學(xué)生課堂行為希望為提高課堂教學(xué)質(zhì)量提供重要支持,從而為社會(huì)培養(yǎng)更具競(jìng)爭(zhēng)力的人才,推動(dòng)社會(huì)進(jìn)步。
[關(guān)鍵詞]深度學(xué)習(xí);神經(jīng)網(wǎng)絡(luò)模型;CNN-GRU;學(xué)生課堂行為識(shí)別
doi:10.3969/j.issn.1673-0194.2024.13.058
[中圖分類號(hào)]G642 [文獻(xiàn)標(biāo)識(shí)碼]A [文章編號(hào)]1673-0194(2024)13-0195-03
0" " "引 言
近年來,隨著人工智能技術(shù)的蓬勃發(fā)展,深度學(xué)習(xí)方法在教育領(lǐng)域引起了廣泛關(guān)注。教育部印發(fā)的《高等學(xué)校人工智能創(chuàng)新行動(dòng)計(jì)劃》文件中明確指出,需要加快人工智能在教育領(lǐng)域的創(chuàng)新應(yīng)用,利用智能技術(shù)支撐人才培養(yǎng)模式的創(chuàng)新,推進(jìn)教育均衡發(fā)展、促進(jìn)教育公平、提高教育質(zhì)量。因此,本研究通過采集學(xué)生上課時(shí)的行為圖像,應(yīng)用深度學(xué)習(xí)技術(shù)對(duì)其學(xué)習(xí)狀態(tài)進(jìn)行準(zhǔn)確分類,提供更深入的學(xué)生行為數(shù)據(jù),從而提高課堂教學(xué)質(zhì)量。
1" " "相關(guān)理論與技術(shù)基礎(chǔ)
本研究首先使用Faster R-CNN(Region-based Convolutional Neural Network)方法,對(duì)學(xué)生的課堂行為數(shù)據(jù)進(jìn)行采集,并對(duì)數(shù)據(jù)進(jìn)行隨機(jī)抽樣后存儲(chǔ)為數(shù)據(jù)集。再分別通過CNN(Convolutional Neural Network)、GRU(Gate Recurrent Unit)、CNN-GRU三個(gè)模型,對(duì)采集到的學(xué)生課堂行為數(shù)據(jù)集進(jìn)行識(shí)別。最終對(duì)三個(gè)模型的識(shí)別效果,基于準(zhǔn)確率、召回率和F1值三個(gè)指標(biāo)進(jìn)行了對(duì)比。
1.1" "Faster R-CNN算法
1.1.1" "Faster R-CNN算法簡(jiǎn)述
Faster R-CNN是一種用于目標(biāo)檢測(cè)的深度學(xué)習(xí)算法[1],由微軟研究員等于2015年提出[2]。Faster R-CNN包括兩個(gè)主要模塊:①卷積神經(jīng)網(wǎng)絡(luò)用于提取圖像特征,通常采用預(yù)訓(xùn)練的網(wǎng)絡(luò);②Region Proposal Network(RPN)負(fù)責(zé)生成可能包含目標(biāo)的候選區(qū)域,并將這些提議區(qū)域傳遞給后續(xù)的目標(biāo)分類和邊界框回歸模塊。
1.1.2" "Faster R-CNN算法優(yōu)點(diǎn)
Faster R-CNN算法具有幾個(gè)顯著的優(yōu)點(diǎn)。①端到端訓(xùn)練:Faster R-CNN引入了RPN,簡(jiǎn)化了流程,提高了訓(xùn)練效率。②準(zhǔn)確性:通過利用CNN提取圖像特征,提高了檢測(cè)精度。③多尺度適應(yīng)性:RPN在生成區(qū)域時(shí)考慮了多個(gè)尺度,使Faster R-CNN對(duì)不同大小和比例的目標(biāo)具有較好的適應(yīng)性。④可擴(kuò)展性:由于Faster R-CNN采用了模塊化設(shè)計(jì),可以方便地替換和更新網(wǎng)絡(luò)的組成部分。
1.2" "CNN模型
1.2.1" "CNN模型簡(jiǎn)述
CNN是一種深度學(xué)習(xí)模型,專門設(shè)計(jì)用于處理和識(shí)別具有網(wǎng)格狀結(jié)構(gòu)的數(shù)據(jù)[3-4],主要包括以下部分。①卷積層:通過卷積操作提取輸入數(shù)據(jù)的局部特征,從而形成特征映射。②激活函數(shù):在卷積層后引入非線性激活函數(shù),如ReLU。③池化層:池化操作通過降采樣的方式減小特征映射的尺寸,同時(shí)保留主要信息。例如最大池化和平均池化。④全連接層:全連接層的神經(jīng)元與前一層的所有神經(jīng)元相連接,形成全連接的結(jié)構(gòu)。
1.2.2" "CNN模型優(yōu)點(diǎn)
CNN模型具備以下優(yōu)點(diǎn):①CNN的特征學(xué)習(xí)和提取機(jī)制基于卷積計(jì)算,可以有效捕獲圖像的復(fù)雜特征;②CNN的參數(shù)共享機(jī)制降低了模型的復(fù)雜性和訓(xùn)練參數(shù)的數(shù)量;③CNN可應(yīng)用于很多領(lǐng)域,適配范圍廣。
1.3" "GRU模型
1.3.1" "GRU模型簡(jiǎn)述
GRU是一種神經(jīng)網(wǎng)絡(luò)模型,屬于循環(huán)神經(jīng)網(wǎng)絡(luò)的一種變體,用于處理序列數(shù)據(jù)[5]。GRU在每個(gè)神經(jīng)元中都具有門控結(jié)構(gòu),包括重置門ri和更新門zi[6]。重置門的計(jì)算如公式(1)所示:
1.3.2" "GRU模型優(yōu)點(diǎn)
GRU的優(yōu)點(diǎn)包括以下幾種。①更好地捕獲序列信息:由于同時(shí)考慮了前后兩個(gè)方向的信息,GRU能夠更好地捕獲序列數(shù)據(jù)中的依賴關(guān)系,有助于提高模型的性能。②減少梯度消失問題:通過雙向結(jié)構(gòu),GRU能夠減輕傳統(tǒng)的LSTM的梯度消失或梯度爆炸的問題。③適用于多種任務(wù):GRU在自然語言處理、語音識(shí)別等領(lǐng)域得到了廣泛應(yīng)用。
2" " "CNN-GRU模型
CNN-GRU模型是結(jié)合了CNN和GRU的神經(jīng)網(wǎng)絡(luò)模型。CNN-GRU保留了CNN對(duì)局部特征的提取能力的同時(shí),增加了GRU的序列信息建模能力。CNN-GRU模型的優(yōu)勢(shì)有:①更好的序列建模能力;②減少過擬合風(fēng)險(xiǎn);③較強(qiáng)的魯棒性。
本次實(shí)驗(yàn)采取的模型參數(shù)如表1所示。
本次實(shí)驗(yàn)采用的學(xué)習(xí)率是0.001,且將該實(shí)驗(yàn)重復(fù)進(jìn)行10輪。實(shí)驗(yàn)中引入了早停機(jī)制(Early stopping),將早停機(jī)制的閾值設(shè)定在500(即當(dāng)驗(yàn)證集損失值連續(xù)500次訓(xùn)練沒有繼續(xù)降低時(shí),訓(xùn)練停止)。同時(shí)為避免過擬合現(xiàn)象,引入了隨機(jī)失活機(jī)制(Dropout),設(shè)定失活率為0.3(即每次訓(xùn)練時(shí),將神經(jīng)網(wǎng)絡(luò)中30%的隨機(jī)神經(jīng)元失活)。
3" " "實(shí)證分析
3.1" "實(shí)驗(yàn)數(shù)據(jù)獲取
本次實(shí)驗(yàn)使用的圖像數(shù)據(jù)來自高校課堂教學(xué),對(duì)學(xué)生的圖像采集均由任課教師事先通知各位學(xué)生,并在征得學(xué)生同意后進(jìn)行錄制。所采集的所有數(shù)據(jù)均只作研究使用。
數(shù)據(jù)獲取步驟:
(1)錄制學(xué)生上課行為視頻。
(2)使用OpenCV庫(kù),導(dǎo)入視頻數(shù)據(jù)。
(3)對(duì)視頻數(shù)據(jù)進(jìn)行抽幀,并保存抽取的圖像數(shù)據(jù)。
(4)使用Faster R-CNN算法,對(duì)步驟(2)的圖像數(shù)據(jù)進(jìn)行人像截取。
(5)保存所有學(xué)生的行為圖像數(shù)據(jù)。
本次實(shí)驗(yàn)將學(xué)生課堂行為進(jìn)行分類:聽課、交頭接耳、睡覺、其他行為。并設(shè)定各類別編碼:1—聽課,2—交頭接耳,3—睡覺,4—其他行為。除1—聽課外,均判定為非認(rèn)真聽課狀態(tài)。
3.2" "實(shí)驗(yàn)結(jié)果分析
本實(shí)驗(yàn)實(shí)證過程均基于Python 3.9.12和Pytorch 1.12.0完成。共獲取學(xué)生行為圖像2 036張。使用8∶1∶1的方式對(duì)數(shù)據(jù)集進(jìn)行分割,將其中1 628張圖像作為模型的訓(xùn)練集,204張作為驗(yàn)證集,剩余204張作為測(cè)試集。為驗(yàn)證CNN-GRU模型的有效性,本研究基于三個(gè)指標(biāo)——準(zhǔn)確率、召回率、F1值,分別對(duì)CNN模型,GRU模型,和CNN-GRU模型進(jìn)行了對(duì)比實(shí)驗(yàn)。在測(cè)試集上各模型對(duì)學(xué)生行為圖像的分類結(jié)果如表2所示。
結(jié)合實(shí)驗(yàn)結(jié)果可以得出如下結(jié)論:
(1)CNN-GRU模型可以在學(xué)生行為圖像的數(shù)據(jù)集上達(dá)到收斂,驗(yàn)證了CNN-GRU模型在學(xué)生課堂行為識(shí)別領(lǐng)域具備適用性。
(2)三個(gè)模型的對(duì)比中,CNN-GRU模型比CNN和GRU二者單獨(dú)工作的性能更好。驗(yàn)證了在CNN模型的全連接層之前添加GRU層能夠產(chǎn)生積極作用。
(3)準(zhǔn)確率、召回率以及F1值三個(gè)指標(biāo)的評(píng)估結(jié)果,驗(yàn)證了CNN-GRU模型在學(xué)生課堂行為識(shí)別領(lǐng)域具備良好的綜合性能。
4" " "結(jié)束語
本文根據(jù)采集到的學(xué)生課堂行為圖像數(shù)據(jù),基于CNN-GRU模型對(duì)學(xué)生課堂行為進(jìn)行了分類和識(shí)別。并且在同一數(shù)據(jù)集上對(duì)CNN模型、GRU模型以及CNN-GRU模型的分類性能進(jìn)行了比對(duì),驗(yàn)證了CNN-GRU模型的優(yōu)勢(shì),并且實(shí)驗(yàn)結(jié)果也驗(yàn)證了CNN-GRU模型在學(xué)生課堂行為識(shí)別領(lǐng)域的適用性,可為深度學(xué)習(xí)方法在課堂教學(xué)領(lǐng)域的應(yīng)用提供進(jìn)一步的理論支撐。
主要參考文獻(xiàn)
[1]湯文虎,吳龍,黎堯,等. 基于改進(jìn)Faster RCNN的鋼線圈頭部小目標(biāo)檢測(cè)算法[J]. 現(xiàn)代制造工程,2023(8):127-133,147.
[2]REN S,HE K,GIRSHICK R,et al. Faster R-CNN:Towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2016,39(6):1137-1149.
[3]胡紀(jì)年,李雨成,李俊橋,等. 基于CNN的礦井外因火災(zāi)火源定位方法研究[J]. 中國(guó)安全生產(chǎn)科學(xué)技術(shù),2024,20(3):134-140.
[4]張曉青,劉小舟,陳登. 面向移動(dòng)端圖像分類的輕量級(jí)CNN優(yōu)化[J]. 計(jì)算機(jī)工程與設(shè)計(jì),2024,45(2):436-442.
[5]何儒漢,陳一帆,余永升,等. 基于GRU與自注意力網(wǎng)絡(luò)的聲源到達(dá)方向估計(jì)[J]. 計(jì)算機(jī)科學(xué),2023,50(增刊2): 998-1004.
[6]李世明,顧東健,余志文,等. 基于改進(jìn)GRU模型的配電網(wǎng)故障線路區(qū)段檢測(cè)[J]. 微型電腦應(yīng)用,2023,39(10):105-109.