隨著互聯(lián)網(wǎng)技術(shù)在教育領(lǐng)域的大規(guī)模應(yīng)用,教育大數(shù)據(jù)挖掘已成為推動我國教育改革、創(chuàng)新發(fā)展的重要戰(zhàn)略。大規(guī)模開放在線課程(Massive Open Online Courses,MOOC)作為遠(yuǎn)程教育的重要形式之一,打破了學(xué)習(xí)者的時間和空間限制,滿足了學(xué)習(xí)者多樣化的學(xué)習(xí)需求。
MOOC平臺完整記錄了教學(xué)者和學(xué)習(xí)者的行為,產(chǎn)生了大量連續(xù)的教學(xué)互動信息。這些信息表征了學(xué)習(xí)者零散、無意識的學(xué)習(xí)行為,是深入研究學(xué)習(xí)行為和學(xué)習(xí)心理的新素材。對其進(jìn)行深入分析,能夠發(fā)掘?qū)W習(xí)者最真實(shí)的思維和學(xué)習(xí)情況,不僅能在理論上促進(jìn)對學(xué)習(xí)本質(zhì)、學(xué)習(xí)者的學(xué)習(xí)心理和學(xué)習(xí)行為的研究,更能在實(shí)際應(yīng)用中幫助跟蹤學(xué)習(xí)者的學(xué)習(xí)過程、評價學(xué)習(xí)效果、準(zhǔn)確把握其學(xué)習(xí)狀態(tài),以便及早干預(yù)[1-3]。隨著MOOC平臺在線學(xué)習(xí)系統(tǒng)的激增,教育數(shù)據(jù)呈現(xiàn)出爆發(fā)式增長的勢頭,傳統(tǒng)技術(shù)手段已經(jīng)無法對海量數(shù)據(jù)進(jìn)行處理和分析。大數(shù)據(jù)技術(shù)可以計算和分析教、學(xué)、研等多角度的數(shù)據(jù)特征,構(gòu)建用戶畫像,提取出對學(xué)生學(xué)習(xí)行為和教師教學(xué)情況的反饋和建議,從而為改善教學(xué)質(zhì)量做出最合理的評估和決策。
大數(shù)據(jù)挖掘技術(shù)是指從大量數(shù)據(jù)中自動搜索特殊關(guān)系信息的過程。大數(shù)據(jù)挖掘通常與計算機(jī)科學(xué)有關(guān),并通過統(tǒng)計分析、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、專家系統(tǒng)和模式識別等方法實(shí)現(xiàn)目標(biāo)。其中“機(jī)器學(xué)習(xí)”是21世紀(jì)興起的一門多領(lǐng)域交叉學(xué)科,機(jī)器學(xué)習(xí)理論主要是設(shè)計和分析一些讓計算機(jī)可以自動“學(xué)習(xí)”的算法,“機(jī)器學(xué)習(xí)”算法是一類從數(shù)據(jù)中自動分析獲得規(guī)律,并利用規(guī)律對未知數(shù)據(jù)進(jìn)行預(yù)測的算法;“深度學(xué)習(xí)”是建立、模擬人腦神經(jīng)網(wǎng)絡(luò),通過模仿人腦的機(jī)制進(jìn)行數(shù)據(jù)的詮釋,如聲音、圖像和文本識別等。
從數(shù)學(xué)模型的角度來講,深度學(xué)習(xí)是一種復(fù)雜的特征提取方法,將原始數(shù)據(jù)通過一些非線性模型變換為更高層次的抽象表達(dá),再組合多層變換,學(xué)習(xí)提取出非常復(fù)雜的函數(shù)特征方法。與傳統(tǒng)機(jī)器學(xué)習(xí)相比,深度學(xué)習(xí)的核心在于含有多個隱層,并且各層特征的提取不是通過人工參與設(shè)計,而是在其學(xué)習(xí)過程里從數(shù)據(jù)中自學(xué)。這種“黑盒式”的自學(xué)習(xí)特征對數(shù)據(jù)結(jié)構(gòu)要求低,但對數(shù)據(jù)量要求大,因此非常適合當(dāng)前互聯(lián)網(wǎng)大數(shù)據(jù)應(yīng)用的需要[4]。由于深度學(xué)習(xí)非常依賴于高端硬件設(shè)備,而且當(dāng)數(shù)據(jù)量較少時,深度學(xué)習(xí)算法的表現(xiàn)并不佳[5],因此本文采用傳統(tǒng)的機(jī)器學(xué)習(xí)算法建立學(xué)習(xí)預(yù)警模型。
“翻轉(zhuǎn)課堂”作為一種新型教學(xué)模式[6],以學(xué)生為主體,能夠真正調(diào)動學(xué)生積極性,提高學(xué)習(xí)效率和質(zhì)量。目前基于MOOC教學(xué)的“翻轉(zhuǎn)課堂”,即線上線下混合教學(xué)法已經(jīng)被廣泛應(yīng)用于高校教學(xué)。然而關(guān)于在如何深入挖掘MOOC平臺的海量教學(xué)信息分析和預(yù)測學(xué)習(xí)者的學(xué)習(xí)行為和特點(diǎn),并制定精準(zhǔn)的教學(xué)方案,從而針對性地指導(dǎo)學(xué)習(xí)及評估教學(xué)質(zhì)量等方面的研究尚淺。因此本文將以《臨床藥物治療學(xué)》課程為例,通過實(shí)證開展混合教學(xué)法中基于在線學(xué)習(xí)行為數(shù)據(jù)的學(xué)習(xí)預(yù)警模型研究。
近年來國外研究者除關(guān)注學(xué)習(xí)者對在線學(xué)習(xí)的接受程度外,也關(guān)注學(xué)習(xí)者的學(xué)習(xí)表現(xiàn)、學(xué)習(xí)態(tài)度、學(xué)習(xí)動機(jī)以及學(xué)習(xí)風(fēng)格等,數(shù)據(jù)挖掘技術(shù)開始受到重視[7]。Teng等人[8]依據(jù)學(xué)習(xí)行為的相似性對學(xué)習(xí)者進(jìn)行聚類,并在分析聚類結(jié)果后為每類學(xué)習(xí)者提供針對性建議;Aher等人[9]在K-means 算法聚類的基礎(chǔ)上,應(yīng)用Apriori算法對各類學(xué)生的課程學(xué)習(xí)記錄進(jìn)行關(guān)聯(lián)規(guī)則分析,得到各類學(xué)生偏好的課程學(xué)習(xí)順序,從而向?qū)W生推薦合適的課程。
隨著大數(shù)據(jù)算法的不斷演進(jìn),國外大數(shù)據(jù)挖掘技術(shù)在教育領(lǐng)域的應(yīng)用日新月異[10-14]。在可視化預(yù)警系統(tǒng)上,比較有代表性的是可汗學(xué)院的學(xué)習(xí)儀表盤系統(tǒng)。該系統(tǒng)將學(xué)習(xí)管理系統(tǒng)與可視化工具相結(jié)合,運(yùn)用信息跟蹤技術(shù)和鏡像技術(shù)對學(xué)習(xí)者的學(xué)習(xí)行為、習(xí)慣興趣等信息進(jìn)行記錄和追蹤,并對測驗(yàn)成績、學(xué)習(xí)時間和學(xué)習(xí)路徑等數(shù)據(jù)進(jìn)行分析,依據(jù)對知識點(diǎn)的掌握情況進(jìn)行反饋預(yù)警,幫助學(xué)習(xí)者提高知識點(diǎn)掌握程度和改善學(xué)習(xí)技能[15]。近年來國內(nèi)MOOC快速崛起,數(shù)據(jù)挖掘技術(shù)被引入在線學(xué)習(xí)行為的研究,涌現(xiàn)出一批研究成果[16-19]。
檢索國內(nèi)常用數(shù)據(jù)庫,時間跨度為2007-2018年,獲得有關(guān)學(xué)習(xí)預(yù)警模型設(shè)計的文獻(xiàn)。如趙慧瓊等設(shè)計的在線學(xué)習(xí)干預(yù)模型,運(yùn)用數(shù)據(jù)分析技術(shù)對學(xué)習(xí)管理系統(tǒng)存儲的數(shù)據(jù)進(jìn)行分析,利用決策樹算法進(jìn)行危機(jī)診斷,一旦發(fā)現(xiàn)學(xué)習(xí)者存在危機(jī),則及時采取電子郵件、資源推薦、彈出窗口等方式發(fā)送預(yù)警信息,以輔助學(xué)習(xí)者的學(xué)習(xí)活動順利進(jìn)行[20]。
通過分析國內(nèi)外教育大數(shù)據(jù)文獻(xiàn)內(nèi)容發(fā)現(xiàn),在教育數(shù)據(jù)的挖掘上,大多偏重于對數(shù)據(jù)自身的分析,缺少對教育價值的深度分析;在教育數(shù)據(jù)的建模分析上,主要集中在理論模型的建立與性質(zhì)分析,而基于在真實(shí)教學(xué)數(shù)據(jù)上建立機(jī)器學(xué)習(xí)模型進(jìn)行挖掘分析的研究較為少見;預(yù)警模型的算法單一,沒有采用主流機(jī)器學(xué)習(xí)算法,并且很少采用交叉驗(yàn)證、混淆矩陣等技術(shù)評估和選擇合適的模型。由于機(jī)器學(xué)習(xí)算法日新月異,主觀選擇的某一種機(jī)器學(xué)習(xí)算法有時并非最好的選擇。如果把目前主流的機(jī)器學(xué)習(xí)算法(如支持向量機(jī)(SVM),隨機(jī)森林、樸素貝葉斯、Logistic回歸、決策樹、k-近鄰等)都代入數(shù)據(jù)中訓(xùn)練,并用交叉驗(yàn)證、混淆矩陣等技術(shù)評估和選擇合適的算法模型,這樣的模型精度會更高,預(yù)警評估的效果將更好。
《臨床藥物治療學(xué)》課程是浙江醫(yī)藥高等??茖W(xué)校(以下簡稱“我?!?開設(shè)的一門專業(yè)課程,教師團(tuán)隊為藥學(xué)院教師,適用對象為藥學(xué)類專業(yè)的學(xué)生,開課時間為2018年2-6月,實(shí)驗(yàn)對象為2016級藥學(xué)專業(yè)的300余名學(xué)生。按班級分為“MOOC+案例教學(xué)”對照組和“MOOC+翻轉(zhuǎn)課堂”實(shí)驗(yàn)組(分別為179人和129人),2組分別采用“MOOC+案例”教學(xué)和“MOOC+翻轉(zhuǎn)課堂”教學(xué)。兩組授課內(nèi)容完全相同,且均連續(xù)實(shí)施32學(xué)時(其中10學(xué)時是MOOC教學(xué))。
實(shí)驗(yàn)教學(xué)方法主要分為以下兩種。
2.2.1 “MOOC+案例”教學(xué)
預(yù)習(xí):登錄超星泛雅平臺學(xué)習(xí),完成測驗(yàn)作業(yè)和討論。
案例引入:課堂上選擇疾病典型案例,根據(jù)教學(xué)目標(biāo)設(shè)置問題,給予學(xué)生同樣的案例。
互動交流:學(xué)生在課前和課中以小組為單位,互相交流并解決問題,在教師引導(dǎo)下小組討論發(fā)言。
歸納總結(jié):教師對案例討論進(jìn)行點(diǎn)評及歸納總結(jié)。
臨床實(shí)訓(xùn):醫(yī)院各科室?guī)Ы提t(yī)生帶領(lǐng)學(xué)生閱讀病歷,與患者溝通并了解病情和用藥,根據(jù)案例指導(dǎo)學(xué)生制定和評價藥物治療方案。
2.2.2 “MOOC+翻轉(zhuǎn)課堂”教學(xué)
根據(jù)學(xué)生在MOOC平臺的學(xué)習(xí)情況分層分類設(shè)計翻轉(zhuǎn)課堂教學(xué)內(nèi)容,分別給予學(xué)習(xí)情況較好和較差的學(xué)生不同難度的案例學(xué)習(xí),并統(tǒng)計平臺上學(xué)生知識掌握情況。針對未掌握的知識點(diǎn)進(jìn)行重點(diǎn)講述,其余學(xué)習(xí)過程與“MOOC+案例”教學(xué)班相同。
表1 慕課+案例教學(xué)組和慕課+翻轉(zhuǎn)課堂組期末成績
大數(shù)據(jù)挖掘分析與建模流程分為數(shù)據(jù)獲取與特征分析、數(shù)據(jù)預(yù)處理與特征選擇、模型構(gòu)建3個步驟。
3.1.1 數(shù)據(jù)集描述
從超星MOOC平臺采集的《臨床藥物治療學(xué)》MOOC在線學(xué)習(xí)行為數(shù)據(jù)描述了一個學(xué)習(xí)者該門課程的學(xué)習(xí)記錄,每列項為對學(xué)習(xí)者學(xué)習(xí)行為的描述,提供了十幾項維度,主要分為3類,分別是課程信息(臨床藥物治療學(xué))、學(xué)習(xí)者的基本信息(學(xué)號、姓名、性別)、學(xué)習(xí)者的行為信息(視頻觀看時長、訪問數(shù),任務(wù)點(diǎn)完成百分比、總討論數(shù)、回復(fù)討論、發(fā)表討論、課程視頻得分、課程測驗(yàn)得分、作業(yè)得分、MOOC綜合成績、MOOC綜合成績五級制等級、MOOC綜合成績是否及格、期末成績)。
3.1.2 數(shù)據(jù)獲取
利用Python數(shù)據(jù)分析模塊pandas讀取合并2016級藥學(xué)專業(yè)300名學(xué)生在超星MOOC平臺上的學(xué)習(xí)行為信息(包括測驗(yàn)、作業(yè)成績,討論數(shù),視頻觀看時長等指標(biāo)數(shù)據(jù)),并與期末筆試成績按學(xué)號關(guān)聯(lián)合并,完成數(shù)據(jù)提取工作。
3.1.3 學(xué)習(xí)者行為分析
通過單特征分析、多變量統(tǒng)計分析,統(tǒng)計繪圖得出以下結(jié)論。MOOC綜合成績(由線上學(xué)習(xí)中的觀看視頻完成度、線上測驗(yàn)及線上作業(yè)成績組成)A-E中期末筆試不及格人數(shù)比例隨等級下降而升高(圖1)。圖1中“0”代表不及格,“1”代表及格;橫坐標(biāo)中等級A為90分及以上,等級B為80~89分,等級C為70~79分,等級D為60~69分,等級E為60分以下;縱坐標(biāo)為人數(shù)。MOOC綜合成績等級相同時,不同性別在期末筆試成績中有顯著差異:女生及格率更高(圖2),且女生在期末筆試成績中及格人數(shù)的比例明顯高于男生(圖3);總討論數(shù)和訪問數(shù)的中位數(shù)數(shù)據(jù)均顯示女生高于男生,但總討論數(shù)、訪問數(shù)與期末筆試成績是否及格均分布呈現(xiàn)區(qū)域不平衡,一般情況下考試及格的學(xué)生總討論數(shù)、訪問數(shù)均更高(圖4和圖5)。觀看視頻時長的中位數(shù)數(shù)據(jù)女生高于男生,一般情況下考試及格的學(xué)生觀看視頻時長更長(圖6)。
圖1 MOOC綜合成績等級與期末筆試成績及格關(guān)系
圖2 MOOC綜合成績等級、性別和期末筆試成績及格率的關(guān)系
圖3 不同性別和期末筆試成績及格人數(shù)的對比
圖4 不同性別和總討論數(shù)對期末筆試成績的影響
圖5 不同性別和訪問數(shù)對期末筆試成績的影響
圖6 不同性別和觀看視頻時長對期末筆試成績的影響
通過檢查缺失值并進(jìn)行填充,然后將特征數(shù)據(jù)標(biāo)準(zhǔn)化建立特征熱圖(圖7)篩選各特征相關(guān)性。
將標(biāo)準(zhǔn)化后的特征數(shù)據(jù)通過熱圖,可以從中看到一些正相關(guān)的特征以及一些負(fù)相關(guān)的特征。去掉其中“課程視頻得分”“期末成績”“回復(fù)討論”“MOOC綜合成績五級制等級”“課程測驗(yàn)得分”5個特征。
圖7 特征熱圖
雖然本文從特征分析部分獲得了一些結(jié)論,但仍然不能準(zhǔn)確地預(yù)測學(xué)生對知識點(diǎn)的掌握情況以及是否能通過期末筆試。本文將使用主流機(jī)器學(xué)習(xí)算法建模,預(yù)測學(xué)生是否已經(jīng)掌握相關(guān)知識。在機(jī)器學(xué)習(xí)領(lǐng)域,沒有一種算法能夠完美解決所有問題,尤其是對監(jiān)督學(xué)習(xí)(如預(yù)測建模),所選的算法必須要適用于特定問題,這就要求正確的選擇機(jī)器學(xué)習(xí)算法[21]。機(jī)器學(xué)習(xí)算法很多,如分類、回歸、聚類、推薦、圖像識別領(lǐng)域等,想找到一種合適的算法并不容易。因此在實(shí)際應(yīng)用中通常會選擇大家普遍認(rèn)同的算法,然后通過交叉驗(yàn)證(cross-validation)對每種算法進(jìn)行逐一測試、比較,最后選擇最好的一個模型。
本文在教學(xué)實(shí)踐中嘗試使用如支持向量機(jī)(SVM)、隨機(jī)森林(Random-Forests)、樸素貝葉斯(Na?ve Bayes)、邏輯回歸(Logistic Regression)、決策樹(Decision Tree)、k-近鄰(KNN)等主流機(jī)器學(xué)習(xí)算法建立預(yù)警模型。機(jī)器學(xué)習(xí)預(yù)警模型能夠通過學(xué)生的學(xué)習(xí)行為信息預(yù)測其期末筆試成績是否及格。模型的精度并不是決定機(jī)器學(xué)習(xí)算法效果的唯一因素。假設(shè)算法模型在訓(xùn)練數(shù)據(jù)上進(jìn)行訓(xùn)練,需要在測試集上進(jìn)行測試才有效果。如果算法模型在訓(xùn)練集上的精確度很高,但是無法確保在所有的新測試集上精度都很高,當(dāng)訓(xùn)練和測試數(shù)據(jù)發(fā)生變化時,精確度也會改變,它可能會增加或減少。為了克服這一問題并得到一個廣義模型,我們通常使用交叉驗(yàn)證。我們將數(shù)據(jù)分為10等分,通過特征數(shù)據(jù)標(biāo)簽準(zhǔn)備、數(shù)據(jù)集切分、多種建模算法對比,用交叉驗(yàn)證來評估模型的精度。模型平均精度排前3位的依次為:支持向量機(jī)(76.33%)、邏輯回歸(75.67%)、隨機(jī)森林(72.67%)。其中支持向量機(jī)(SVM)建立的模型精度最高,平均預(yù)測精度和最高預(yù)測精度分別達(dá)到76.33%和90%(表2,圖8,圖9)。
表2 機(jī)器學(xué)習(xí)算法模型平均精度和標(biāo)準(zhǔn)差
圖8 機(jī)器學(xué)習(xí)算法模型平均精度條形圖
圖9 機(jī)器學(xué)習(xí)算法模型精度箱型圖
本文還使用混淆矩陣、ROC曲線下面積對機(jī)器學(xué)習(xí)算法模型進(jìn)行評估。
3.3.1 混淆矩陣
混淆矩陣是對有監(jiān)督機(jī)器學(xué)習(xí)分類算法準(zhǔn)確率進(jìn)行評估的工具。通過將訓(xùn)練集數(shù)據(jù)訓(xùn)練好的模型預(yù)測的數(shù)據(jù)與測試數(shù)據(jù)進(jìn)行對比,使用混淆矩陣(Confusion matrix)指標(biāo)對模型的分類效果進(jìn)行度量[22]。各機(jī)器學(xué)習(xí)預(yù)警模型的混淆矩陣見圖10。
圖10 機(jī)器學(xué)習(xí)算法模型混淆矩陣
3.3.2 ROC曲線下面積(ROC-AUC )
ROC曲線(receiver operating characteristic curve)又稱“接受者操作特征曲線”,最早應(yīng)用于雷達(dá)信號檢測領(lǐng)域,后來人們將其用于評價機(jī)器學(xué)習(xí)模型的預(yù)測能力。ROC曲線是基于混淆矩陣的結(jié)果計算得出,AUC(Area Under Curve)的值為ROC曲線下面的面積。若模型預(yù)測完全準(zhǔn)確,則AUC為1。但現(xiàn)實(shí)中不會有如此完美的模型,一般AUC值在0.5到1之間。AUC值越高,則模型的預(yù)測能力越好。各機(jī)器學(xué)習(xí)預(yù)警模型ROC-AUC見表3。
表3 機(jī)器學(xué)習(xí)算法模型ROC-AUC
綜合混淆矩陣、ROC-AUC、模型精度交叉驗(yàn)證,選擇支持向量機(jī)(SVM)模型預(yù)測學(xué)生知識掌握情況,為教學(xué)評估、改善“MOOC翻轉(zhuǎn)課堂”教學(xué)質(zhì)量提供了數(shù)字化的模型評估標(biāo)準(zhǔn)。
《臨床藥物治療學(xué)》是我校藥學(xué)專業(yè)學(xué)生的專業(yè)核心課程,目前以線上線下混合教學(xué)為主。為了更好地利用MOOC指導(dǎo)線下的“翻轉(zhuǎn)課堂”教學(xué),提高教學(xué)質(zhì)量,對2016級藥學(xué)專業(yè)1-10班學(xué)生在線學(xué)習(xí)行為數(shù)據(jù)進(jìn)行了挖掘和分析,并通過機(jī)器學(xué)習(xí)方法建立了在線學(xué)習(xí)行為數(shù)據(jù)與期末閉卷筆試成績(線下考試)的預(yù)測模型。
通過比較不同教學(xué)組的期末筆試成績發(fā)現(xiàn),通過MOOC學(xué)習(xí),“翻轉(zhuǎn)課堂”組的學(xué)生成績要優(yōu)于普通的案例教學(xué)組,說明通過對MOOC平臺的數(shù)據(jù)挖掘,可以對學(xué)生進(jìn)行分層分類教學(xué),并優(yōu)化教學(xué)設(shè)計,從而提高課堂效率。
本文發(fā)現(xiàn)設(shè)置的MOOC綜合成績并非期末筆試成績及格的決定性因素,MOOC綜合成績等級A中也有部分學(xué)生期末筆試成績不及格,等級B-E中期末筆試不及格人數(shù)比例隨等級下降而升高,說明MOOC綜合成績的組成僅有觀看視頻完成度、線上測驗(yàn)及線上作業(yè)成績組成是不夠的,還需引入其他學(xué)習(xí)行為指標(biāo),才能更好地預(yù)測期末筆試成績。即使MOOC綜合成績等級相同,不同性別學(xué)生的期末筆試成績也不相同,以女生及格率更高??傮w來看,女生在期末筆試成績中及格人數(shù)比例明顯高于男生,這可能跟女生更愿意努力學(xué)習(xí)以在考試中取得高分的意愿有一定關(guān)系。在“翻轉(zhuǎn)課堂”實(shí)踐教學(xué)中,觀察到女生在查資料和討論上較活躍,且發(fā)言更加積極主動,而這種主動性在一定程度上推動了學(xué)習(xí)進(jìn)步。此外,總討論數(shù)及訪問數(shù)的中位數(shù)數(shù)據(jù)反映女生對MOOC的參與積極性更高,但總討論數(shù)、訪問數(shù)與期末筆試成績是否及格呈現(xiàn)區(qū)域不平衡,一般情況下考試及格的學(xué)生參與度更高(即討論數(shù)、訪問數(shù)均更高)。也有個別異常積極討論的學(xué)生依舊不及格,推測這部分學(xué)生可能學(xué)習(xí)比較勤奮,但學(xué)習(xí)方法不太得當(dāng),需要教師重點(diǎn)關(guān)注和引導(dǎo)。視頻觀看時長的中位數(shù)反映女生的學(xué)習(xí)時間更長,筆試及格率也更高。研究中發(fā)現(xiàn)觀看視頻完成度(視頻完成90%即給予觀看視頻完成度滿分)相同的情況下,女生及格率更高,推測部分男生可能僅僅為了完成視頻觀看任務(wù)而播放視頻,并沒有認(rèn)真觀看和學(xué)習(xí)。可以考慮在未來的視頻播放中插入測試題,以提高學(xué)生的學(xué)習(xí)注意力,使學(xué)生真正從視頻中學(xué)到知識。由于視頻觀看完成度指標(biāo)存在一定局限性,選用視頻觀看時長這個指標(biāo)來替代,能更加客觀地預(yù)測期末筆試成績。通過視頻觀看時長發(fā)現(xiàn)一般情況下學(xué)習(xí)時間越長,及格率越高,推測反復(fù)看視頻可以加深對知識點(diǎn)的理解,這也體現(xiàn)了MOOC學(xué)習(xí)的優(yōu)勢。
本文以期末筆試成績作為最終預(yù)測指標(biāo),因?yàn)殚]卷考試更突顯公平公正,受其他因素干擾較小,且考試知識點(diǎn)囊括MOOC所學(xué)范圍,分布相對合理。學(xué)生的學(xué)習(xí)態(tài)度可以通過在線課程的訪問數(shù)、討論數(shù)、視頻觀看時長等指標(biāo)體現(xiàn),而學(xué)習(xí)能力在一定程度上可以通過線上測驗(yàn)和作業(yè)成績體現(xiàn)。學(xué)生的學(xué)習(xí)態(tài)度和能力會影響其最終的學(xué)習(xí)質(zhì)量,因此通過預(yù)警模型可以提前進(jìn)行干預(yù),對預(yù)警學(xué)生(預(yù)測出其期末筆試成績可能低于60分)進(jìn)行督學(xué)導(dǎo)學(xué),提高其學(xué)習(xí)質(zhì)量,使其真正掌握知識和技能。
本文總結(jié)了國內(nèi)外研究者在教育大數(shù)據(jù)挖掘的相關(guān)研究及存在的問題,以《臨床藥物治療學(xué)》MOOC課程在線學(xué)習(xí)行為數(shù)據(jù)為基礎(chǔ)使用主流機(jī)器學(xué)習(xí)算法建立預(yù)警模型,并基于各種學(xué)習(xí)行為指標(biāo)預(yù)測其對期末筆試成績的影響。通過熱圖對各種學(xué)習(xí)行為特征進(jìn)行篩選,將在線學(xué)習(xí)行為數(shù)據(jù)使用主流機(jī)器學(xué)習(xí)算法來訓(xùn)練和建立預(yù)警模型,綜合混淆矩陣、ROC-AUC、模型精度交叉驗(yàn)證等模型評估指標(biāo),最終選擇支持向量機(jī)(SVM)模型來預(yù)測學(xué)生知識掌握情況。它對學(xué)生的學(xué)習(xí)質(zhì)量評估起到預(yù)警作用。教師可以調(diào)整教學(xué)計劃,指導(dǎo)線下的“翻轉(zhuǎn)課堂”教學(xué),并重點(diǎn)關(guān)注被預(yù)警的學(xué)生;學(xué)生則需要督促其端正態(tài)度,加強(qiáng)學(xué)習(xí)。
由于本文只選用了300名學(xué)生的MOOC特征數(shù)據(jù),訓(xùn)練數(shù)據(jù)偏少,模型的精度尚需提高。下一步一方面計劃大量采集不同學(xué)習(xí)者的學(xué)習(xí)行為數(shù)據(jù)來進(jìn)一步訓(xùn)練模型,另一方面計劃通過優(yōu)化特征進(jìn)一步提升模型精度,更好地預(yù)測學(xué)習(xí)者的學(xué)習(xí)質(zhì)量,并計劃對被預(yù)警者進(jìn)行多種手段干預(yù),如平臺中的督學(xué)導(dǎo)學(xué)功能、電子郵件,談心法等。同時通過深度學(xué)習(xí)為不同的學(xué)習(xí)者精準(zhǔn)推送知識點(diǎn),真正做到因材施教,從而全面提升教學(xué)質(zhì)量。