張 源
(安徽醫(yī)學高等??茖W校教務處,合肥 230601)
目前關于線上教學的研究與實踐處在起步階段,也是現(xiàn)在高職教學改革的熱點項目.人工智能與線上教學的融合成了必然趨勢,授課方式的改變必然需要管理模式的更新.學業(yè)預警是一個新的詞匯,也是一種高等教育的管理模式,學業(yè)預警的一個核心組成部分就是課程考核成績預警.教學干預作為對學習者學習產(chǎn)生影響的介入手段,它能闡釋學習過程中多方面的要素和關系,能為改善學習績效提供新的思路和視角[1].傳統(tǒng)課堂環(huán)境下的教學干預,常指教師發(fā)現(xiàn)問題后直接為學習者提供方法上的建議、態(tài)度和心理上的疏導,而線上教學中課堂的干預信息獲取媒介更加豐富,手段更加智能化.融合“互聯(lián)網(wǎng)+”和“智能+”技術的在線學習將成為線上教學的重要發(fā)展趨勢,尤其是今年的疫情防控,在線教學規(guī)模大、范圍廣,在全球范圍如此規(guī)模實屬首次.因此,大力提升信息化服務管理能力,提升在線平臺管理水平,決策支持水平,以此在保障線上和線下教學質(zhì)量實質(zhì)等效的基礎上,充分發(fā)揮在線教育的優(yōu)勢.
以我校為例,對比2018~2020 年在線教學平臺的教師參與數(shù)量和學生參與數(shù)量如表1 所示,截至目前我校有226 門在線課程,本年度3 個月學生人數(shù)是2018 年全年人數(shù)的112 倍多,學生學習人次比2018 年全年增加了1490 倍,教師參與數(shù)量也增加了23 倍,教師登錄次數(shù)增加了96 倍.主要原因:一是教育部2020 年1 月《利用網(wǎng)絡平臺,“停課不停學”》文件的通知要求,二是線上教學得到了廣泛認可和普及.
表1 2018~2020年的教師和學生某平臺參與數(shù)量
表1 (續(xù))
基于學業(yè)預警的預測模型是教育大數(shù)據(jù)、云計算等智能技術應用的熱點,許多研究采用數(shù)據(jù)挖掘、機器學習、深度學習等技術來預測成績.Wookhee Min等[2]采用LSTM 網(wǎng)絡評估191 名中學生在智能游戲?qū)W習環(huán)境中的交互數(shù)據(jù)和干預學習措施.Sorour 等[3]采用數(shù)據(jù)挖掘技術分析學習者的評論數(shù)據(jù),通過SVM 模型預測學生成績.Huang &Fang[4]運用了四種不同的方法來預測學生在神經(jīng)工程動力學課程中的成績,這些方法使用了來自四個學期的323 名學生的數(shù)據(jù),以三個期中考試成績作為學生本學期表現(xiàn)的指標,以學生在四門必修及動力相關課程的累積平均績點及成績作為學生修習前的表現(xiàn)指標.Le 等[5]利用遞歸神經(jīng)網(wǎng)絡分類方法,對20 門MOOC 的數(shù)據(jù)集進行評估,形成專有數(shù)據(jù)庫,為教學團隊提供個性化通信儀表板,并通過學習者投入度實時預測分析模型得出學習者獲得結(jié)課證書和離開課程的概率,為可能無法成功結(jié)課的學習者提供個性化學習支持服務,增強MOOC 平臺的精準學習服務功能.
目前智能學業(yè)預警常見的問題有以下幾個方面:
(1)通常使用一個通用的預測模型,不能解決所有課程的復雜性,模型只針對學生行為,而教師授課行為往往被忽略;
(2)通常只對結(jié)果進行預測,而對影響結(jié)果的特征指標沒有量化分析;
預警目的是提前發(fā)現(xiàn)學生或者教師行為的異常情況,并加以干預,盡可能防止學業(yè)危機的出現(xiàn),因此需要制定精準干預措施.
針對上述問題,本研究構(gòu)建了基于隨機森林的預測模型分析教師和學生行為,通過計算特征行為的強弱指標,制定精準的干預措施,形成了智能預警、精準干預措施、再智能預警的線上教學監(jiān)管閉環(huán),如圖1 所示.
圖1 線上教學智能預警與干預體系閉環(huán)圖
隨機森林(Random Forest)是一種魯棒且實用的機器學習技術,結(jié)合隨機森林的特征原理進行特征選擇,對特征進行重要性排序,從而篩選出“強特征”.但是,該技術在處理非平衡數(shù)據(jù)的時候精確度大幅下降,尤其是在隨機抽取訓練子集進行訓練時,存在抽取的子集均為“弱特征”子集,導致產(chǎn)生“弱決策樹”現(xiàn)象,因此傳統(tǒng)的隨機森林受到噪聲和冗余特征干擾,使得訓練出現(xiàn)擬合且魯棒性大大降低的情況[6].鑒于此,本研究先進行一次主成分分析,初次過濾“弱特征”,避免出現(xiàn)隨機抽取特征產(chǎn)生的“弱決策樹”.在構(gòu)建訓練子訓練集中,存在部分沒有選擇的訓練集,將這部分稱為袋外樣本(out-of-bag),通過計算袋外樣本的誤差來評估特征指標的重要性.針對重要的“強特征”制定干預措施,分別對教師行為“強特征”和學生行為“強特征”采用精準干預措施,構(gòu)建的模型框架如圖2 所示.
圖2 基于隨機森林智能預警和精準干預模型框架圖
構(gòu)建的教師行為、學生行為和課程信息的指標體系,首先輸入特征集合X,計算特征之間的相關系數(shù)矩陣W,輸出計算各指標得分:
wij為指標權重,Pij為第j個公共指標,εij為偏置參數(shù).構(gòu)建一種K個{c(X,θi),i=1,2,…,K} 分類器,θi為特征向量,i為模型中的子分類器數(shù),最后通過多數(shù)投票原理確定樣本所屬類別,模型表達如下:
其中,C(x)為組合預測模型,hi為單個子分類單元,Y表示輸出變量,V(·)為投票函數(shù).首先,隨機產(chǎn)生K個訓練集T1,T2,…,Tk;其次,選取K個樣本進行訓練,每個子分類單元與每個樣本對應,得到K個分類器.假設每個樣本有N個屬性,0 ≤m≤N是整數(shù),從N個屬性中選取m個最佳屬性作為子分類單元的屬性集,訓練過程中,確保m不變.最后,根據(jù)產(chǎn)生的子分類單元,將分類結(jié)果定義為C1,C2,…,Ck,依次對每個分類單元進行測試,將測試集樣本X對應分類結(jié)果C1(X),C2(X),…,Ck(X),通過多數(shù)投票法得到K個分類單元最終的輸出結(jié)果.
最后得出所有特征的重要性得分.若Score大于0,說明加入干擾數(shù)據(jù)后準確率下降,該特征重要性較高,反之,Score小于0,說明該特征重要性較低,由此得到特征體系中的重要性指標.
本研究采用我校某在線教學平臺教學活動和選課人數(shù)排名TOP10 的課程如表2 所示,設計了教師13 個在線教學活動特征指標集合X={x1,x2,x3,…,xn},n=13,具體特征指標如表3 所示,學生11 個學習行為特征指標集Y={y1,y2,y3,…,yn},n=11,具體指標如表4所示.
表2 我校教學活動和選課人數(shù)排名TOP10
表3 教師行為特征表
表4 學生行為特征表
將學生行為和教師行為數(shù)據(jù)分別與學生成績對應生成訓練數(shù)據(jù),其中學生行為數(shù)據(jù)65500 條,教師行為數(shù)據(jù)5000 條,這些特征數(shù)據(jù)的取值范圍非常大,如果直接輸入到模型進行訓練和預測,會嚴重影響實驗性能.特征值在分類器進行訓練時,為避免數(shù)值范圍屬性值影響實驗結(jié)果,將特征值進行歸一化處理,使求得的特征值標準化處理到[-1,1]區(qū)間或者[0,1]區(qū)間.本研究采用零均值歸一化方法:
其中,xmean為所有樣本值的平均值,xSD為均方差.
為保障數(shù)據(jù)的有效性,我們選擇出勤率和學習進度均在10%以上的數(shù)據(jù),分成三類z1={0,1,2}分別對應優(yōu)秀、合格、不及格三個類別,其中85 分以上(含85 分)為優(yōu)秀,60~85 分(不含85 分)為合格,60 分以下(不含60 分)為不及格,部分數(shù)據(jù)如表6所示.同時,將教師特征數(shù)據(jù)中x2不為空的特征數(shù)據(jù)對應成績的三類,z2={0,1,2}分別對應10%以上學業(yè)不及格類、10%以上學業(yè)合格類和10%以上學業(yè)優(yōu)秀類。部分數(shù)據(jù)集如表5 所示.另外,收集了5000 條學生行為特征數(shù)據(jù)集和2000 條教師行為特征數(shù)據(jù)集,并經(jīng)過預處理用于驗證模型性能.
表5 教師行為數(shù)據(jù)集
表6 學生行為訓練數(shù)據(jù)集
實驗模型超參設置涉及訓練率、最小批尺寸、訓練迭代次數(shù)等,依據(jù)經(jīng)驗調(diào)試取值,采用5 折交叉驗證算法更新參數(shù),參數(shù)的初始化選擇隨機初始,學習率設置為0.001,迭代次數(shù)選擇12000 次,我們將教師和學生行為特征的訓練樣本按照6∶4,7∶3的比例抽取樣本和袋外數(shù)據(jù)樣本,教師和學生行為的驗證樣本按照8∶2 和9∶1 的比例抽取樣本和袋外數(shù)據(jù)樣本.
實驗結(jié)果表明訓練數(shù)據(jù)集在迭代10000 次以后達到96%以上,驗證數(shù)據(jù)集的準確率達到90%以上,該模型的性能符合預期.但是,由于訓練數(shù)據(jù)集有限,同時特征指標值的差異性變化趨勢反應出隨著迭代次數(shù)增加到4000 以后,準確率變化不明顯,后期會增加特征選擇和樣本數(shù)量.
圖3 在訓練數(shù)據(jù)集和驗證數(shù)據(jù)集上的模型性能表現(xiàn)
為了驗證學生行為中特征重要性權重指標,最佳屬性個數(shù)m設置為不超過的整數(shù),故m≤3,計算袋外數(shù)據(jù)(out-of-bag)誤差值Score來評估學生行為關鍵指標,特征權重值計算結(jié)果如圖4 所示.
圖4 學生行為關鍵指標分析圖
實驗表明學生行為中的y9、y6、y1、y10、y3、y2所占的權重比較大,其余4 個重要性指標權重幾乎為0.經(jīng)過專家主觀分析,課堂問答完成次數(shù)和課堂活動參與數(shù)較多,反映學生對學習的積極性較高,因此,課程的參與度高,明顯對學生學業(yè)成績的提高起到重要作用.
為了計算教師行為中特征重要性權重指標,我們將每門課程單獨歸一化處理,防止不同課程之間由于課時不同而產(chǎn)生的樣本分布不均衡.本研究的指標體系設置為10 個,故m≤3,特征權重值計算結(jié)果如圖5 所示.
圖5 教師行為關鍵指標分析圖
實驗結(jié)果表明x2、x11、x9、x4、x12、x10和x1是影響學生成績的主要指標,其余6 個指標通過實驗得出所占權重相對較低.專家主觀分析課堂教學次數(shù)較多和視頻資源豐富的教師對學生學業(yè)影響較大,教師采用線上教學是否頻繁且課程內(nèi)容準備是否充分直接影響了學生學習的質(zhì)量,所以該兩項指標對學業(yè)影響較大.
研究結(jié)果客觀地反映出線上教學是影響學業(yè)成績的主要因素,針對兩種角色分別在不同的時間節(jié)點,進行分析預測(1 或者3 個月),然后對可能出現(xiàn)不及格的學生行為或者引起10%學生學業(yè)不及格的教師行為加以人工干預,當重要性指標低于相應閾值,就觸發(fā)干預措施機制.具體指標閾值如表7 所示.
表7 重要性指標干預閾值表
對達到閾值的指標采取干預措施,具體措施如下:
(1)學生行為干預
y9(問答):對學生進行跟蹤,通過談話、問卷形式,調(diào)查學生的情緒和狀態(tài),激發(fā)學習積極性,督促其主動學習;
y6(課堂活動參與數(shù)):授課教師主動激發(fā)學生參與課堂活動,循序漸進地培養(yǎng)學生的課堂參與積極性;
y1(登錄次數(shù)):通過談話和問卷了解學生登錄次數(shù)較少的原因,并督促和鼓勵學生使用線上平臺進行學習;
y10(筆記):通過發(fā)布任務和談話,跟蹤學生學習進度,并通過測驗了解學生對知識的掌握程度;
y3(簽到數(shù)):通過1 對1 溝通,了解學生沒有簽到的原因;
y2(學習進度):通過1 對1 交流,了解學生學習進度慢的原因,并通過制定考試成績核算辦法來約束學生學習行為.
(2)教師行為干預
x2(課堂教學):教學管理部門通過談話和通知,督促教師線上教學的頻次;
x11(視頻資源):此項指標反映該門課程視頻資源數(shù)量,分管部門提醒教師根據(jù)授課內(nèi)容適當增加教學視頻資源;
x9(已批作業(yè)):此項指標反映該教師批改作業(yè)次數(shù),分管部門提醒教師及時完成作業(yè)批改;
x4(題目):此項指標反映該教師相比同課程的題庫數(shù)量,分管部門提醒教師及時更新題庫;
x12(教學評價):此項指標反映該教師獲得學生的課堂教學評價等級,分管部門通過談話提醒教師,并加強對該課程的教師進行聽課;
本研究選擇10 門線上教學課程的學生行為數(shù)據(jù)65500 條,教師行為數(shù)據(jù)5000 條用于模型訓練,同時生成了5000 條學生行為數(shù)據(jù)和2000 條教師行為數(shù)據(jù)作為驗證數(shù)據(jù),設計了基于隨機森林智能預警模型,將教師和學生行為特征的訓練樣本按照6∶4,7∶3 的比例抽取樣本和袋外數(shù)據(jù)樣本,教師和學生行為的驗證樣本按照8∶2 和9∶1 的比例抽取樣本和袋外數(shù)據(jù)樣本,采用了關鍵指標重要性評估方法計算教師行為和學生行為的“強特征”.實驗結(jié)果表明訓練模型的準確率達到96%以上,在驗證數(shù)據(jù)集的預測結(jié)果也達到了90%以上.通過計算袋外數(shù)據(jù)誤差值來評估特征權重,分析了關鍵指標的重要性,實驗結(jié)果表明學生行為中的問答、課堂活動參與數(shù)、登錄次數(shù)、筆記、簽到數(shù)、學習進度等特征重要性權重高,教師行為中的課堂教學、視頻資源、已批作業(yè)、題目、課堂教學評價、已批考試試卷和登錄次數(shù)等特征重要性權重高.最后,針對學生行為和教師行為制定了精準干預措施.本研究構(gòu)建的模型暫未考慮時間因素,未來會在模型中加入時間序列參數(shù),計算不同時間序列條件下特征重要性權重,再實時采用干預措施.