引言
智慧教育是人工智能時(shí)代的教育新形態(tài),旨在以數(shù)據(jù)治理為核心、以數(shù)智技術(shù)為驅(qū)動(dòng),提升教育現(xiàn)代化水平[]。然而,無(wú)論教育形態(tài)如何改變,學(xué)生注意力研究都是至關(guān)重要的。這是因?yàn)?,學(xué)生的注意力會(huì)直接影響其學(xué)習(xí)效果,同時(shí)學(xué)生的注意力水平也是影響教師教學(xué)成效的關(guān)鍵因素之一[2]。近年來(lái),作為教育過(guò)程性評(píng)估的核心觀測(cè)指標(biāo),學(xué)生注意力已成為提升教學(xué)質(zhì)量的關(guān)鍵。但是,當(dāng)前學(xué)生注意力評(píng)估還存在若干局限,如在一對(duì)多的教學(xué)環(huán)境下,很難全面且及時(shí)地評(píng)價(jià)每個(gè)學(xué)生的注意力;評(píng)價(jià)手段單一,限制了對(duì)學(xué)生注意力影響因素的全面考量;評(píng)價(jià)標(biāo)準(zhǔn)不統(tǒng)一且缺乏一個(gè)有效的聯(lián)合模型,導(dǎo)致評(píng)價(jià)結(jié)果過(guò)于依賴(lài)某一標(biāo)準(zhǔn),而未能有效減少評(píng)價(jià)誤差;表情識(shí)別技術(shù)在準(zhǔn)確性上的不足,也使得對(duì)學(xué)生注意力的評(píng)價(jià)出現(xiàn)了偏差[3]。
多特征學(xué)生注意力評(píng)估是指通過(guò)整合面部表情、頭部姿態(tài)、疲勞度等多維行為特征,對(duì)學(xué)生課堂認(rèn)知投入狀態(tài)進(jìn)行量化分析的研究范式。深度學(xué)習(xí)技術(shù)憑借其強(qiáng)大的特征提取與融合能力,為高效、動(dòng)態(tài)地捕捉上述多維行為特征提供了關(guān)鍵的技術(shù)支撐。基于此,本研究先設(shè)計(jì)多特征學(xué)生注意力評(píng)估路線,實(shí)施深度學(xué)習(xí)驅(qū)動(dòng)的多特征學(xué)生注意力評(píng)估并對(duì)學(xué)生注意力進(jìn)行精準(zhǔn)量化分析。在此基礎(chǔ)上,本研究嘗試構(gòu)建深度學(xué)習(xí)驅(qū)動(dòng)的多特征學(xué)生注意力評(píng)估模型,并進(jìn)行該模型的應(yīng)用與效果驗(yàn)證,以期通過(guò)實(shí)時(shí)且精準(zhǔn)的注意力評(píng)估,輔助教師動(dòng)態(tài)調(diào)整教學(xué)策略,實(shí)現(xiàn)對(duì)課堂教學(xué)的個(gè)性化干預(yù),同時(shí)為教育管理者提供數(shù)據(jù)驅(qū)動(dòng)的決策依據(jù),推動(dòng)智慧教育環(huán)境下課堂教學(xué)模式的深度變革與優(yōu)化。
一多特征學(xué)生注意力評(píng)估路線的設(shè)計(jì)
為精準(zhǔn)評(píng)估一對(duì)多教學(xué)環(huán)境下學(xué)生的課堂注意力,有效改善現(xiàn)有評(píng)估方法在全面性、實(shí)時(shí)性、多維度考量、誤差控制及表情識(shí)別準(zhǔn)確性等方面的不足,本研究設(shè)計(jì)了“‘人臉檢測(cè) $$ 表情識(shí)別 + 頭部姿態(tài)估計(jì)與疲勞度檢測(cè)’" 學(xué)生多維度特征融合”的多特征學(xué)生注意力評(píng)估路線,如圖1所示。該路線旨在通過(guò)系統(tǒng)整合面部表情、頭部姿態(tài)、疲勞度等多維行為特征,實(shí)現(xiàn)對(duì)學(xué)生注意力的精準(zhǔn)量化分析,并為后續(xù)構(gòu)建多特征學(xué)生注意力評(píng)估模型提供理論指導(dǎo)。
1人臉檢測(cè)
目前,我國(guó)課堂教學(xué)仍多為“大班教學(xué)”,即由一名教師對(duì)多名學(xué)生進(jìn)行教學(xué)和管理。在這種教學(xué)模式下,人臉檢測(cè)作為課堂教學(xué)數(shù)據(jù)采集的基礎(chǔ)環(huán)節(jié),其檢測(cè)精度直接關(guān)系著后續(xù)算法的有效性和學(xué)生注意力評(píng)估結(jié)果的可靠性,其操作步驟如圖1的 ①~⑤ 所示。為構(gòu)建適用于真實(shí)課堂教學(xué)環(huán)境的神經(jīng)網(wǎng)絡(luò)模型,本研究采用RetinaFace人臉檢測(cè)模型,并結(jié)合WiderFace數(shù)據(jù)集開(kāi)展訓(xùn)練——此數(shù)據(jù)集涵蓋高遮擋、多角度、低分辨率及復(fù)雜光照條件等多樣化場(chǎng)景下的人臉圖像樣本,能夠高度還原實(shí)際授課環(huán)境,有效提升RetinaFace人臉檢測(cè)模型在課堂場(chǎng)景下學(xué)生人臉識(shí)別任務(wù)中的魯棒性與準(zhǔn)確率。
2表情識(shí)別
完成人臉檢測(cè)后,便進(jìn)入表情識(shí)別環(huán)節(jié),其操作步驟如圖1的 ⑥~? 所示?;贛ediapipe框架的468關(guān)鍵點(diǎn)面部特征檢測(cè)算法,本研究首先對(duì) FER2013數(shù)據(jù)集進(jìn)行精細(xì)化重標(biāo)定,將面部表情分為排斥、聆聽(tīng)、困惑、激動(dòng)四種,并經(jīng)過(guò)人工復(fù)查,來(lái)確保分類(lèi)的準(zhǔn)確性與合理性,獲得重標(biāo)定的面部表情識(shí)別數(shù)據(jù)集FER2013。為進(jìn)一步提升算法在教學(xué)環(huán)境中的適應(yīng)性,本研究同步構(gòu)建了自制表情數(shù)據(jù)集:通過(guò)攝像頭記錄15名志愿者學(xué)生的聽(tīng)課視頻,從中提取初始視頻幀。在每段視頻中,志愿者學(xué)生以分鐘為單位分別展示排斥、聆聽(tīng)、困惑、激動(dòng)四種表情,構(gòu)成人臉表情圖像數(shù)據(jù)集。隨后,將重標(biāo)定的面部表情識(shí)別數(shù)據(jù)集FER2013和人臉表情圖像數(shù)據(jù)集按7:3的比例混合,作為本研究的初始數(shù)據(jù)集。最后,利用此初始數(shù)據(jù)集對(duì)融合了CBAM注意力機(jī)制模塊的ResNet表情識(shí)別模型進(jìn)行訓(xùn)練與優(yōu)化。
3頭部姿態(tài)估計(jì)和疲勞度檢測(cè)
頭部姿態(tài)估計(jì)和疲勞度檢測(cè)的操作步驟如圖1的 ?~? 所示,其中人臉關(guān)鍵點(diǎn)的精準(zhǔn)檢測(cè)與定位至關(guān)重要。本研究復(fù)現(xiàn)了Dlib 關(guān)鍵點(diǎn)檢測(cè)、手工訓(xùn)練的深度學(xué)習(xí)模型關(guān)鍵點(diǎn)檢測(cè)和Mediapipe關(guān)鍵點(diǎn)檢測(cè)三種方案,經(jīng)對(duì)比驗(yàn)證后選用Mediapipe關(guān)鍵點(diǎn)檢測(cè)作為最終方案。具體來(lái)說(shuō),先利用Mediapipe對(duì)步驟 ⑤ 得到的每幀圖像中的所有學(xué)生人臉進(jìn)行關(guān)鍵點(diǎn)檢測(cè),獲取課堂中每名學(xué)生的468個(gè)人臉關(guān)鍵點(diǎn)信息;之后基于這些關(guān)鍵點(diǎn)信息,對(duì)每一名學(xué)生進(jìn)行頭部姿態(tài)估計(jì)和疲勞度檢測(cè)。
4學(xué)生多維度特征融合
學(xué)生多維度特征融合的操作步驟如圖1的 ? 所示。首先,系統(tǒng)地提取學(xué)生面部表情、頭部姿態(tài)、疲勞度三個(gè)維度(共7項(xiàng))的指標(biāo):一是面部表情維度,捕捉學(xué)生情緒的細(xì)微變化,具體為“排斥”(x1)、“聆聽(tīng)”(x2)、“困惑”(x3)和“激動(dòng)”(x4)這四種表情的累計(jì)出現(xiàn)次數(shù);二是頭部姿態(tài)維度,分析學(xué)生的頭部朝向與角度,判斷其專(zhuān)注方向,具體為頭部姿態(tài)位于Pitch lt;-5° 、 -15°° 這一范圍內(nèi)的低頭次數(shù)(x5);三是疲勞度維度,結(jié)合眼部和嘴部的開(kāi)合程度,評(píng)估學(xué)生的精神狀態(tài),具體為學(xué)生的打哈欠次數(shù)(x6)和閉眼次數(shù)(x7)。之后,將提取的7項(xiàng)指標(biāo)輸入機(jī)器學(xué)習(xí)算法——極限學(xué)習(xí)機(jī)(ExtremeLearningMachine,ELM),對(duì)學(xué)生的多維度特征進(jìn)行融合,實(shí)現(xiàn)對(duì)學(xué)生注意力的精準(zhǔn)量化。最后,構(gòu)建深度學(xué)習(xí)驅(qū)動(dòng)的多特征學(xué)生注意力評(píng)估模型并進(jìn)行具體的教學(xué)應(yīng)用與效果驗(yàn)證。
二深度學(xué)習(xí)驅(qū)動(dòng)的多特征學(xué)生注意力評(píng)估的實(shí)施與精準(zhǔn)量化
在學(xué)生注意力評(píng)估中,獲取多維表征信息是實(shí)現(xiàn)精準(zhǔn)評(píng)估的關(guān)鍵。按照多特征學(xué)生注意力評(píng)估路線,本研究選取面部表情、頭部姿態(tài)、疲勞度三個(gè)維度作為學(xué)生注意力評(píng)估的核心指標(biāo)。其中,面部表情評(píng)估是通過(guò)RetinaFace人臉檢測(cè)模型定位學(xué)生的面部區(qū)域,之后通過(guò)融合了CBAM注意力機(jī)制模塊的 ResNet表情識(shí)別模型,來(lái)識(shí)別學(xué)生進(jìn)行課堂學(xué)習(xí)的面部表情。而頭部姿態(tài)、疲勞度評(píng)估是采用頭部姿態(tài)估計(jì)和疲勞度檢測(cè)的方法,通過(guò)頭部朝向與角度、眼部和嘴部的開(kāi)合程度,來(lái)量化分析學(xué)生的專(zhuān)注狀態(tài)與投入程度。
1學(xué)生面部表情識(shí)別
(1)RetinaFace人臉檢測(cè)模型
人臉檢測(cè)是表情識(shí)別的基礎(chǔ)。目前,學(xué)生人臉檢測(cè)面臨一系列挑戰(zhàn),主要表現(xiàn)為: ① 人臉尺度方面,受教室布局和座位排列的影響,后排學(xué)生的面部在攝像頭中存在小尺度、低像素、多遮擋等問(wèn)題,且隨著學(xué)生與攝像頭距離的增加,基于深度學(xué)習(xí)的人臉檢測(cè)算法性能明顯下降; ② 人臉姿態(tài)方面,由于攝像頭角度固定,且學(xué)生頭部動(dòng)作較多,故課堂中存在大量不同姿態(tài)的人臉圖像,這使得人臉檢測(cè)難度大; ③ 光照環(huán)境方面,實(shí)際授課環(huán)境中陽(yáng)光照射角度的變化和室內(nèi)燈光的不均勻等問(wèn)題,也會(huì)對(duì)人臉檢測(cè)效果產(chǎn)生負(fù)面影響。對(duì)此,本研究應(yīng)用RetinaFace人臉檢測(cè)模型,通過(guò)模型的多尺度特征金字塔結(jié)構(gòu)處理小尺度人臉并用其預(yù)測(cè)的五個(gè)人臉關(guān)鍵點(diǎn)來(lái)增強(qiáng)檢測(cè)魯棒性,結(jié)合WiderFace數(shù)據(jù)集,進(jìn)一步提升學(xué)生人臉檢測(cè)效果。
(2)融合了CBAM注意力機(jī)制模塊的ResNet表情識(shí)別模型
盡管人臉表情識(shí)別技術(shù)日益成熟,但在大課堂這一特定場(chǎng)景下的識(shí)別效果仍不盡人意。而現(xiàn)有的學(xué)生表情識(shí)別分類(lèi)體系難以反映真實(shí)課堂教學(xué)情境下的學(xué)生情感狀態(tài),其分類(lèi)標(biāo)準(zhǔn)也缺乏堅(jiān)實(shí)的理論基礎(chǔ)與科學(xué)驗(yàn)證[4]。因此,為訓(xùn)練出更貼合真實(shí)課堂場(chǎng)景的表情識(shí)別模型,本研究首先基于羅素情感模型[5],對(duì)FER2013數(shù)據(jù)集進(jìn)行重標(biāo)定,并根據(jù)學(xué)生的課堂行為特征[6],重新定義出“排斥”“聆聽(tīng)”“困惑”“激動(dòng)”四種標(biāo)簽,以精準(zhǔn)表征課堂上學(xué)生的情感狀態(tài)。之后,通過(guò)電腦攝像頭采集15名學(xué)生志愿者的動(dòng)態(tài)表情視頻,構(gòu)建自制數(shù)據(jù)集,并將兩類(lèi)數(shù)據(jù)集按7:3的比例混合,作為模型訓(xùn)練的初始數(shù)據(jù)集。最后,經(jīng)實(shí)驗(yàn)比較與驗(yàn)證,本研究選取ResNet34作為主干網(wǎng)絡(luò),并引入CBAM注意力機(jī)制模塊[7,形成融合了CBAM注意力機(jī)制模塊的ResNet 表情識(shí)別模型,并利用初始數(shù)據(jù)集對(duì)此模型進(jìn)行訓(xùn)練與優(yōu)化,使其聚焦學(xué)生表情的細(xì)微變化與深層次特征,增強(qiáng)對(duì)學(xué)生不同面部表情的區(qū)分能力。
2學(xué)生頭部姿態(tài)估計(jì)和疲勞度檢測(cè)
學(xué)生頭部姿態(tài)估計(jì)和疲勞度檢測(cè)主要基于468個(gè)人臉關(guān)鍵點(diǎn)信息的分析來(lái)實(shí)現(xiàn)。本研究采用基于位姿矩陣的姿態(tài)檢測(cè)方法進(jìn)行學(xué)生頭部姿態(tài)估計(jì)——此方法結(jié)合Mediapipe檢測(cè)到的468個(gè)人臉關(guān)鍵點(diǎn),應(yīng)用PNP 算法計(jì)算出學(xué)生頭部的三維信息值(即俯仰角Pitch值、航向角Yaw值、橫滾角Roll值)[8;同時(shí),統(tǒng)計(jì)學(xué)生頭部處于不同姿態(tài)時(shí)三維信息值的分布范圍,界定出表征學(xué)生“低頭”姿態(tài)的三維信息值范圍?;谖蛔司仃嚨淖藨B(tài)檢測(cè)效果如圖2所示。
為更好地表征學(xué)生的疲勞度,本研究將一節(jié)課中每個(gè)學(xué)生的閉眼次數(shù)和打哈欠次數(shù)作為評(píng)價(jià)指標(biāo)來(lái)進(jìn)行疲勞度檢測(cè)。而學(xué)生是否閉眼、是否打哈欠,分別由描述眼部狀態(tài)的EAR值、描述嘴部狀態(tài)的MAR值進(jìn)行表征?;诒狙芯繄F(tuán)隊(duì)開(kāi)發(fā)的代碼,結(jié)合實(shí)際教學(xué)視頻的數(shù)據(jù)分析,本研究提取15名志愿者學(xué)生的EAR序列和MAR序列,并同步記錄人工標(biāo)注的疲勞等級(jí)( 1~3 級(jí),分別為不疲勞、較為疲勞、嚴(yán)重疲勞)。采用 Spearman秩相關(guān)系數(shù)進(jìn)行分析,可以發(fā)現(xiàn)EAR均值與疲勞等級(jí)顯著負(fù)相關(guān) (r=-0.72,plt;0.01) ,MAR均值與疲勞等級(jí)顯著正相關(guān)( ?=0.68 , plt;0.01 ),可見(jiàn)EAR值、MAR值都能有效表征學(xué)生的疲勞度?;诖耍狙芯吭O(shè)置了不同面部特征的EAR 閾值和MAR閾值(如表1所示)來(lái)判斷學(xué)生的疲勞度。
對(duì)兩種眼部狀態(tài)(睜眼、閉眼)和三種嘴部狀態(tài)(閉嘴、微張嘴、打哈欠)進(jìn)行兩兩搭配組合,即可得到六種面部狀態(tài),如圖3所示。
三深度學(xué)習(xí)驅(qū)動(dòng)的多特征學(xué)生注意力評(píng)估模型構(gòu)建
1圖像特征評(píng)測(cè)法與ELM算法
Brozina 等[0]的研究表明,學(xué)生的學(xué)習(xí)效果與其學(xué)習(xí)注意力之間存在顯著的正相關(guān)關(guān)系??梢?jiàn),注意力是衡量學(xué)生學(xué)習(xí)效果的一個(gè)重要因素。Fredricks等11]提出,學(xué)生注意力可解構(gòu)為情感參與、認(rèn)知參與和行為參與三個(gè)維度。其中,行為參與作為可觀測(cè)的基礎(chǔ)要素,是衡量學(xué)習(xí)質(zhì)量的重要行為表征[12],具體可通過(guò)學(xué)生上課時(shí)的外顯行為,如是否抬頭、眼睛是否注視黑板或教師、有何情感反應(yīng)等進(jìn)行多維度的學(xué)生注意力評(píng)估。如何通過(guò)可量化的行為特征實(shí)現(xiàn)對(duì)學(xué)生注意力的精準(zhǔn)評(píng)估,已成為智慧教育研究的關(guān)鍵課題。在當(dāng)前的評(píng)估研究中,操作行為評(píng)測(cè)法(如作業(yè)分析、問(wèn)卷調(diào)查等)雖然易于實(shí)施且能收集主觀反饋,但受個(gè)體習(xí)性影響顯著且數(shù)據(jù)處理成本高[13];生理參數(shù)評(píng)測(cè)法(如腦電、心率變異等)依賴(lài)精密儀器,易干擾學(xué)習(xí)狀態(tài)且實(shí)施門(mén)檻高4]。而相比之下,圖像特征評(píng)測(cè)法聚焦于捕捉學(xué)習(xí)者自然狀態(tài)下的外顯行為信號(hào)(如面部表情變化、頭部姿態(tài)異常、坐姿偏離等),具有非接觸、可擴(kuò)展性強(qiáng)、較為客觀、實(shí)施成本低等優(yōu)勢(shì),成為了適配真實(shí)課堂復(fù)雜環(huán)境的理想選擇[15]。因此,本研究選擇圖像特征評(píng)測(cè)法,通過(guò)計(jì)算機(jī)視覺(jué)技術(shù)解析連續(xù)視頻流,為深度學(xué)習(xí)模型提供數(shù)據(jù)輸入,進(jìn)而量化分析與學(xué)生注意力密切相關(guān)的行為特征。
然而,在進(jìn)行實(shí)際應(yīng)用的過(guò)程中,本研究面臨如何運(yùn)用圖像特征評(píng)測(cè)法來(lái)高效融合面部表情、頭部姿態(tài)、疲勞度等多維度行為特征,并將其實(shí)時(shí)轉(zhuǎn)化為可解釋注意力評(píng)估結(jié)果的挑戰(zhàn)。對(duì)此,本研究引入ELM算法作為特征融合與建模的核心。ELM作為一種高效的單隱層前饋神經(jīng)網(wǎng)絡(luò),其優(yōu)勢(shì)在于通過(guò)隨機(jī)初始化隱層節(jié)點(diǎn)參數(shù)并固定,僅需通過(guò)求解 Moore-Penrose廣義逆即可直接獲得輸出層的權(quán)重,這種無(wú)需迭代優(yōu)化的機(jī)制使其訓(xùn)練速度相較于傳統(tǒng)神經(jīng)網(wǎng)絡(luò)大幅提升,能夠滿(mǎn)足課堂評(píng)估對(duì)實(shí)時(shí)性的嚴(yán)苛要求,并且ELM算法能在極快的計(jì)算速度下達(dá)到最小訓(xùn)練誤差并保持良好的泛化性能,其算法結(jié)構(gòu)簡(jiǎn)單、易于部署[]。為了使多特征學(xué)生注意力評(píng)估結(jié)果直接服務(wù)于課堂教學(xué),本研究設(shè)計(jì)并開(kāi)發(fā)了專(zhuān)用的上位機(jī)程序界面——本研究中的“上位機(jī)”專(zhuān)指運(yùn)行于教師端計(jì)算機(jī)、用于集成本研究用到的所有算法、能可視化分析結(jié)果并提供交互功能的應(yīng)用程序,教師可以通過(guò)上位機(jī)提供的直觀圖形界面實(shí)時(shí)獲取學(xué)生的注意力情況,有針對(duì)性地調(diào)整講授節(jié)奏或插入互動(dòng)環(huán)節(jié),及時(shí)進(jìn)行知識(shí)點(diǎn)復(fù)講或提供個(gè)性化指導(dǎo),真正實(shí)現(xiàn)從“數(shù)據(jù)感知”到“教學(xué)干預(yù)”的閉環(huán)優(yōu)化,為智慧課堂中的動(dòng)態(tài)教學(xué)決策提供量化支撐。
2模型構(gòu)建
綜合上述分析,本研究采用ELM算法,以多特征學(xué)生注意力評(píng)估路線為理論指導(dǎo),構(gòu)建了深度學(xué)習(xí)驅(qū)動(dòng)的多特征學(xué)生注意力評(píng)估模型(下文簡(jiǎn)稱(chēng)“評(píng)估模型”),如圖4所示。評(píng)估模型旨在為教師提供實(shí)時(shí)、精準(zhǔn)的課堂反饋,助力優(yōu)化教學(xué)策略,提高課堂教學(xué)效率,同時(shí)促進(jìn)學(xué)生學(xué)習(xí)效果的有效提升。
評(píng)估模型依托算力層提供的基礎(chǔ)計(jì)算能力,支撐其上的模型層集成關(guān)鍵算法組件;數(shù)據(jù)層匯聚在線慕課、微課等多元化真實(shí)課堂資源,為模型訓(xùn)練與驗(yàn)證提供數(shù)據(jù)基礎(chǔ);算法鏈路層清晰地描繪了從學(xué)生視頻輸入,經(jīng)人臉檢測(cè)、表情識(shí)別、頭部姿態(tài)估計(jì)和疲勞度檢測(cè),到ELM量化分析并最終輸出注意力評(píng)分的完整技術(shù)鏈路;應(yīng)用層將評(píng)估模型封裝為面向教育場(chǎng)景的智能服務(wù)模塊,包括提供AI助教、AI助學(xué)、AI助研和AI助評(píng)功能;最終到達(dá)服務(wù)層,服務(wù)于多元教育主體(包括AI教育研究中心、基礎(chǔ)教育學(xué)校、高等教育機(jī)構(gòu)等),為其提升教學(xué)質(zhì)量和優(yōu)化學(xué)習(xí)效果提供支持。在評(píng)估模型中,算力層、模型層與數(shù)據(jù)層共同構(gòu)成了支撐系統(tǒng)的“底層基礎(chǔ)”;算法鏈路層的技術(shù)模塊與應(yīng)用層的服務(wù)模塊共同組成可復(fù)用、可組合的“應(yīng)用積木”;而服務(wù)層提供的智慧教育服務(wù)及其致力于實(shí)現(xiàn)的頂層“智慧教育”目標(biāo),則是對(duì)國(guó)家教育戰(zhàn)略的“政策呼應(yīng)”,最終形成“技術(shù)支撐-場(chǎng)景應(yīng)用-價(jià)值落地”的完整邏輯,賦能智慧教育發(fā)展。
四評(píng)估模型的教學(xué)應(yīng)用與效果驗(yàn)證
1教學(xué)應(yīng)用
基于深度學(xué)習(xí)驅(qū)動(dòng)的多特征學(xué)生注意力評(píng)估模型,本研究通過(guò)編寫(xiě)上位機(jī)界面,將算法與評(píng)估模型進(jìn)行集成,開(kāi)發(fā)出智能教學(xué)評(píng)估軟件,并將其應(yīng)用于實(shí)際的課堂教學(xué)場(chǎng)景。上位機(jī)界面如圖5右半部分所示,其包含四大功能模塊,分別為表情識(shí)別模塊、頭部姿態(tài)估計(jì)模塊、疲勞度檢測(cè)模塊和注意力評(píng)估模塊。上位機(jī)能夠?qū)崟r(shí)讀取并在其界面中央?yún)^(qū)域顯示單人或多人的上課視頻,能自動(dòng)繪制出與四大功能模塊相對(duì)應(yīng)的表情評(píng)分曲線、頭部姿態(tài)評(píng)分曲線、疲勞度評(píng)分曲線、注意力評(píng)估曲線。為檢驗(yàn)?zāi)P驮趯?shí)際教學(xué)場(chǎng)景中的應(yīng)用效果,本研究錄制了華東地區(qū)Z大學(xué)自動(dòng)化專(zhuān)業(yè)的一堂專(zhuān)業(yè)必修課課程視頻(時(shí)長(zhǎng)為40分鐘,參與學(xué)生有45人,均為大二學(xué)生),其中評(píng)估模型應(yīng)用的典型教學(xué)場(chǎng)景如圖5左半部分所示。
具體來(lái)說(shuō),評(píng)估模型首先共提取了三個(gè)維度的7項(xiàng)指標(biāo): ① 面部表情維度,是基于ResNet+CBAM分類(lèi)結(jié)果,統(tǒng)計(jì)排斥(x1)、聆聽(tīng)(x2)、困惑(x3)和激動(dòng)( δX4 )這四種表情的累計(jì)出現(xiàn)次數(shù); ② 頭部姿態(tài)維度,是基于Mediapipe關(guān)鍵點(diǎn)和PNP 算法計(jì)算出Pitch 值和Roll值,統(tǒng)計(jì)頭部姿態(tài)位于Pitch lt;-5° 、-15° ),并利用ELM通過(guò)隱藏層節(jié)點(diǎn)非線性映射實(shí)現(xiàn)多特征聯(lián)合建模。之后,將7項(xiàng)指標(biāo) X=[x1,x2,…,x7] 經(jīng)歸一化處理后,輸入ELM網(wǎng)絡(luò),通過(guò)線性最小二乘法求出輸出層權(quán)重。最終,ELM經(jīng)過(guò)訓(xùn)練后,輸出結(jié)果為一個(gè)介于 0~1 之間的數(shù)值,這個(gè)數(shù)值代表了學(xué)生在聽(tīng)課過(guò)程中的不同注意力狀態(tài)和課堂學(xué)習(xí)效果,其與ELM評(píng)分的關(guān)系如表2所示。
結(jié)合表2所示的關(guān)系,本研究在Z大學(xué)自動(dòng)化專(zhuān)業(yè)的一堂專(zhuān)業(yè)必修課中進(jìn)行了評(píng)估模型的具體應(yīng)用。在課程開(kāi)展的過(guò)程中,本研究基于時(shí)序隨機(jī)選取時(shí)間點(diǎn)為5分鐘、12分鐘、15分鐘、23分鐘、30分鐘、37分鐘的課程幀,然后應(yīng)用評(píng)估模型實(shí)時(shí)求解對(duì)應(yīng)時(shí)刻的評(píng)分(總分為1分),結(jié)果依次為0.95分、0.83分、0.56分、0.46分、0.12分、0.37分,如圖5左半部分所示。本研究將上述評(píng)分結(jié)果以日志形式存儲(chǔ),并實(shí)時(shí)映射至上位機(jī)“學(xué)生注意力評(píng)估系統(tǒng)”窗格進(jìn)行可視化呈現(xiàn);同時(shí),為助力教師深度解析課堂數(shù)據(jù)、明晰課程注意力的內(nèi)在邏輯,上位機(jī)同步集成“表情評(píng)分曲線”“頭部姿態(tài)評(píng)分曲線”“疲勞度評(píng)分曲線”來(lái)實(shí)時(shí)展示課堂數(shù)據(jù),為教師開(kāi)展教學(xué)分析與改進(jìn)工作提供全方位支撐,如圖5右半部分所示。
2效果驗(yàn)證
(1)時(shí)序分析能力驗(yàn)證
本研究通過(guò)導(dǎo)出前文所提Z大學(xué)專(zhuān)業(yè)必修課的注意力評(píng)分日志,利用Python繪制了課堂單位周期內(nèi)學(xué)生注意力評(píng)分的時(shí)序曲線(如圖6所示),并計(jì)算其環(huán)比增長(zhǎng)量,用于量化課堂單位周期內(nèi)學(xué)生注意力的波動(dòng)程度。圖6顯示,評(píng)估模型得出的學(xué)生注意力的動(dòng)態(tài)變化情況大致符合約翰·梅迪納[17]提出的“10分鐘法則”:學(xué)生在上課后的 10~15 分鐘注意力處于峰值,隨后因認(rèn)知疲勞或興趣減退而逐漸下降。這一結(jié)果證明評(píng)估模型能有效捕捉并精準(zhǔn)刻畫(huà)學(xué)生注意力的動(dòng)態(tài)變化情況,且能及時(shí)反映因認(rèn)知生理機(jī)制(如好奇心滿(mǎn)足后的自然疲勞)或教學(xué)情境因素(如內(nèi)容吸引力變化)引起的注意力動(dòng)態(tài)衰減規(guī)律。
(2)評(píng)分準(zhǔn)確性驗(yàn)證
為檢驗(yàn)多特征學(xué)生注意力評(píng)估模型的準(zhǔn)確性,本研究采用了基于專(zhuān)家評(píng)判的效標(biāo)效度驗(yàn)證方法,具體流程如下:首先,邀請(qǐng)5名具有十年以上教學(xué)經(jīng)驗(yàn)的教育學(xué)領(lǐng)域教授作為評(píng)分員。接著,將用于評(píng)估模型測(cè)試的同一段40分鐘課堂視頻按時(shí)間順序劃分為4個(gè)連續(xù)的10分鐘課堂時(shí)間段。隨后,每位專(zhuān)家獨(dú)立觀看這4個(gè)課堂時(shí)間段的視頻,并按照表2對(duì)這4個(gè)課堂時(shí)間段的學(xué)生注意力整體水平進(jìn)行量化評(píng)分——為減少個(gè)體主觀性評(píng)判差異的影響,本研究計(jì)算了4個(gè)課堂時(shí)間段視頻的專(zhuān)家評(píng)分均值,得到各課堂時(shí)間段視頻的人工注意力評(píng)分基準(zhǔn)值。最后,將4個(gè)課堂時(shí)間段視頻的專(zhuān)家評(píng)分與評(píng)估模型評(píng)分進(jìn)行對(duì)比分析,結(jié)果如圖7顯示,可以看出:評(píng)估模型評(píng)分與專(zhuān)家評(píng)分在四個(gè)課堂時(shí)間段均表現(xiàn)出高度的一致性,兩者的平均絕對(duì)誤差小于0.05。此結(jié)果驗(yàn)證了評(píng)估模型具有較高的評(píng)分準(zhǔn)確性,其評(píng)估結(jié)果能夠有效地逼近經(jīng)驗(yàn)豐富的專(zhuān)家基于直接觀察所做出的綜合判斷。
五結(jié)語(yǔ)
本研究設(shè)計(jì)了多特征學(xué)生注意力評(píng)估路線,通過(guò)面部表情識(shí)別、頭部姿態(tài)估計(jì)和疲勞度檢測(cè),實(shí)現(xiàn)了對(duì)學(xué)生注意力的精準(zhǔn)量化分析。在此基礎(chǔ)上,本研究構(gòu)建了深度學(xué)習(xí)驅(qū)動(dòng)的多特征學(xué)生注意力評(píng)估模型并進(jìn)行了其教學(xué)應(yīng)用與效果驗(yàn)證。此模型具有多維度、深層次、強(qiáng)耦合等特征,其構(gòu)建不僅為個(gè)性化教學(xué)的實(shí)時(shí)反饋與動(dòng)態(tài)調(diào)整提供了技術(shù)支撐,也為推動(dòng)新時(shí)代智慧教育生態(tài)的數(shù)據(jù)化、精準(zhǔn)化發(fā)展提供了實(shí)證支持。需要指出的是,目前深度學(xué)習(xí)驅(qū)動(dòng)的多特征學(xué)生注意力評(píng)估模型尚未深度融合教育知識(shí)圖譜,難以挖掘注意力與知識(shí)結(jié)構(gòu)之間的潛在聯(lián)系;評(píng)估模型的多源特征融合僅限于學(xué)生的行為特征層面,而缺乏對(duì)語(yǔ)音、行為日志等多模態(tài)數(shù)據(jù)的整合;同時(shí),也缺乏對(duì)評(píng)估模型與教師教學(xué)動(dòng)態(tài)雙向關(guān)聯(lián)機(jī)制的深入探索,尚未形成教與學(xué)協(xié)同優(yōu)化的閉環(huán)。對(duì)此,后續(xù)研究可以拓展多模態(tài)數(shù)據(jù)的采集范圍與融合深度,提升評(píng)估模型的感知與分析能力;可以設(shè)計(jì)評(píng)估模型與教師教學(xué)的動(dòng)態(tài)雙向關(guān)聯(lián)機(jī)制,探索教與學(xué)協(xié)同優(yōu)化路徑,助力教師科學(xué)做出教學(xué)決策并進(jìn)行個(gè)性化干預(yù),為提升課堂教學(xué)質(zhì)量提供數(shù)據(jù)驅(qū)動(dòng)的實(shí)施方案。
參考文獻(xiàn)
[1]中國(guó)科技網(wǎng).《中國(guó)智慧教育藍(lán)皮書(shū)》:智慧教育是數(shù)字時(shí)代的教育新形態(tài)[OL].
[2]卓鐵農(nóng),英迪,趙暉.融合跨模態(tài)注意力與角色交互的學(xué)生課堂專(zhuān)注度研究[J].計(jì)算機(jī)科學(xué),2025,(6):1-18.
[3]石奕.基于人臉識(shí)別技術(shù)的學(xué)生課堂專(zhuān)注度評(píng)價(jià)模型研究[D].武漢:華中師范大學(xué),2020:1.
[4]LiL,Zhang Y,ChiMY,et al.Spontaneous facial expresiondatabaseof learners'academic emotions inonline learingwith hand occlusion[J]. Computers and Electrical Engineering, 2022,97:107667.
[5]RussellJA.Acircumplex model ofaffct[J]. Jourmal ofPersonalityand Social Psychology,1980,(6):1161-1178.
[6]陳雪.基于機(jī)器視覺(jué)的學(xué)生課堂注意力分析研究[D].哈爾濱:哈爾濱理工大學(xué),2022:27.
[7]馬穎,伊力哈木·亞爾買(mǎi)買(mǎi)提,侯雪揚(yáng),等.融合CBAM的雙向遞歸門(mén)控殘差圖像Copy-Move篡改檢測(cè)[J].哈爾濱工業(yè)大學(xué)學(xué)報(bào),2025,(6):1-11.
[8]陳平,皇甫大鵬,駱祖瑩,等.基于單幅圖像 PnP 頭部姿態(tài)估計(jì)的學(xué)習(xí)注意力可視化分析[J].通信學(xué)報(bào),2018,(S1):141-150.
[9]張闖,朱天軍,李學(xué)民.基于深度學(xué)習(xí)和面部多特征融合的駕駛員疲勞檢測(cè)研究[J].計(jì)算機(jī)測(cè)量與控制,2022,(12):42-50.
[10]BrozinaC,KnightDB,KinoshitaT,etal.Engagedtoscced:Understandingfst-yearengineringsudentsoureengagement and performance through analytics[J]. IEEE Access, 2019,7:163686-163699.
[1]FredricksJA,BlumenfeldPC,ParisA H.Schoolengagement:Potentialoftheconcept,stateofthe evidene[J].Reviewof Educational Research, 2004,(1):59-109.
[12]武法提,張琪.學(xué)習(xí)行為投入:定義、分析框架與理論模型[J].中國(guó)電化教育,2018,(1):35-41.
[13]樊雅琴,周東岱,楊君輝,等.項(xiàng)目式 STEM教學(xué)中學(xué)生參與度測(cè)量研究[J].現(xiàn)代教育技術(shù),2018,(1):121-126.
[14]ChenCM, WangJY,YuCM.Assessingtheattentionlevelsofstudents byusinganoveattentionawaresystembasedonbrainwave signals[J]. British Journal of Educational Technology, 2017,(2):348-369.
[15]莊立強(qiáng).基于計(jì)算機(jī)視覺(jué)的在線課堂學(xué)生注意力識(shí)別方法研究[D].蘭州:西北師范大學(xué),2024:5.
[16]李剛生,高鐵剛,劉旭,等.基于極限學(xué)習(xí)機(jī)算法的學(xué)困生預(yù)測(cè)研究[J].現(xiàn)代教育技術(shù),2018,(4):34-40.
[17](美)約翰·梅迪納著.楊光,馮立巖譯.讓大腦自由:釋放天賦的12條定律[M].北京:中國(guó)人民大學(xué)出版社,2009:61.
How to Carry out Multi-feature Student Attention Assessment Driven by Deep Learning?
YUHao-Wen1 ZHANG Ling2 LI Gang-Sheng3[Corresponding Author] FU Dong-Fei2
(1.College ofEducation, Zhejiang University, Hangzhou, Zhejiang, China 310058; 2. College of Engineering, Ocean University of China, Qingdao, Shandong, China 266500; 3.Department of Education, Ocean University of China, Qingdao, Shandong, China )
Abstract: Inrecent years,student attentionassssment driven by deep learning has become one ofthe important paths to promotethereform of smart education. However, the existing student atention assessment models generallyhave problems suchas singleasessmentdimensions,weak modeladaptabilityanduntimelyfedback.Therefore,this paperfrstdesigneda multi-feature student attntion assessment route of“‘face detection $$ expression recognition + head posture estimation and fatigue degree detection $$ student multi-dimensional feature fusion\". After that, the paper selected facial expression, head posture and fatiguedegre as thecore indicators foratention assessment,implemented amulti-feature student atention assessment drivenbydeep learningand conducteda precisequantitativeanalysisofstudents’atention.Basedonthis,guided bythe multi-featurestudentattetionassessmentroute,thepaperconstrucedamulti-featurestudentatetionasssmentmodel drivenbydeep learning.Finally,te paperutilizedtheclassroomrecordingdatatoverifytheappicationeffectofthemodel in terms of temporalanalysis abilityandscoringaccuracy.Itwas foundthatthismodelcaneffctivelycaptureand preciselydepict the dynamic change situations of students’attention,can promptly reflect the dynamic decay law of attntion caused by cognitivephysiologicalmechansms or teaching contextualfactors,andhadarelativelyhighscoringaccuracy.The researchof this paper promoted the vertical extension of teachers’teaching and the horizontal expansion of students’learning styles, innovating the integration path of“AI + Education\".
Keywords:multi-eaturestudentateton;deepleang; expressrecogition;hadposure;ftiuedeg;clasrooast