李國(guó)峰
(滁州學(xué)院 教育科學(xué)學(xué)院,安徽 滁州 239000 )
機(jī)器學(xué)習(xí)技術(shù)在智慧教育中的應(yīng)用已經(jīng)成為挖掘數(shù)據(jù)價(jià)值、探索智慧教育的新興領(lǐng)域.基于機(jī)器學(xué)習(xí)技術(shù),深挖數(shù)據(jù)價(jià)值,建立智慧教育背景下的學(xué)生成績(jī)預(yù)測(cè)系統(tǒng),是教育發(fā)展的必然趨勢(shì).隨著越來(lái)越多的學(xué)生進(jìn)入在線(xiàn)學(xué)習(xí)環(huán)境,有關(guān)學(xué)生訪問(wèn)和學(xué)習(xí)模式的數(shù)據(jù)庫(kù)將不斷增長(zhǎng),諸如考試分?jǐn)?shù)等電子信息可為教師提供有力的決策工具.這些數(shù)據(jù)使教育利益相關(guān)者能夠發(fā)現(xiàn)關(guān)于學(xué)生的新的、有趣的和有價(jià)值的信息.國(guó)內(nèi)外學(xué)者對(duì)此進(jìn)行了深入的研究[1-4].Hershkovitz 等[5]提供了一種基于智慧教育的機(jī)器學(xué)習(xí)技術(shù)應(yīng)用分類(lèi);Kabra 等[6]將決策樹(shù)分類(lèi)算法應(yīng)用于教育系統(tǒng)預(yù)測(cè)學(xué)生的學(xué)習(xí)成績(jī),并提取特征用以描述未來(lái)學(xué)生在考試中的成績(jī);Kotsiantis[7]在前人工作的基礎(chǔ)上,開(kāi)發(fā)了一個(gè)基于回歸技術(shù)的原型決策支持系統(tǒng),用于預(yù)測(cè)學(xué)生未來(lái)的成績(jī).
基于前人的研究,本文提出了一種基于機(jī)器學(xué)習(xí)算法的決策支持工具,其被用于預(yù)測(cè)學(xué)生在學(xué)年期末考試中的表現(xiàn).該工具的顯著優(yōu)點(diǎn)為具有簡(jiǎn)單的接口,使得其可部署在任何操作系統(tǒng)下的任何平臺(tái)上,同時(shí)支持學(xué)生入學(xué)程序和教育機(jī)構(gòu)的服務(wù)系統(tǒng),因此更有利于挖掘影響大學(xué)生成績(jī)的主要因素,最終為高校學(xué)生成績(jī)輔導(dǎo)提供科學(xué)的決策.
傳統(tǒng)的數(shù)據(jù)庫(kù)只能實(shí)現(xiàn)成績(jī)查詢(xún)、查找表現(xiàn)較差的學(xué)生、查找最高分的學(xué)生等功能.而作為一個(gè)新興的研究領(lǐng)域,機(jī)器學(xué)習(xí)對(duì)提高教育機(jī)構(gòu)和教育系統(tǒng)的質(zhì)量具有巨大的潛力.在過(guò)去的十年中,因?yàn)榻逃嫦嚓P(guān)者能夠通過(guò)機(jī)器學(xué)習(xí)發(fā)現(xiàn)關(guān)于學(xué)生的新的、有趣的和有用的信息并能改善傳統(tǒng)教育系統(tǒng)的不足[8],因此這一領(lǐng)域的研究呈指數(shù)級(jí)增長(zhǎng).機(jī)器學(xué)習(xí)的重要性在于幫助教育工作者和研究人員從復(fù)雜的問(wèn)題中提取有用的數(shù)據(jù)[9],其應(yīng)用主要集中在開(kāi)發(fā)準(zhǔn)確的模型、預(yù)測(cè)學(xué)生的成績(jī)和表現(xiàn)等方面,從而提高學(xué)習(xí)體驗(yàn)和學(xué)習(xí)效果.
高等教育的快速發(fā)展使得高校不斷地?cái)U(kuò)大辦學(xué)規(guī)模,專(zhuān)業(yè)數(shù)量越來(lái)越多,同時(shí)招生的人數(shù)也越來(lái)越多,準(zhǔn)確預(yù)測(cè)學(xué)生在不同階段的學(xué)習(xí)成績(jī)對(duì)教育工作者實(shí)施學(xué)生教學(xué)管理具有至關(guān)重要的意義[10].為了預(yù)測(cè)學(xué)生的成績(jī),教育者可以將學(xué)生的口頭和書(shū)面考試以及少量的評(píng)估測(cè)試中的成績(jī)作為強(qiáng)有力的決策工具.通過(guò)預(yù)測(cè)結(jié)果為每一名學(xué)生指定最合適的干預(yù)措施,并根據(jù)他們的需要提供進(jìn)一步的幫助.此外,對(duì)學(xué)習(xí)成績(jī)比較差的學(xué)生進(jìn)行準(zhǔn)確識(shí)別,有助于教師結(jié)合學(xué)生的實(shí)際情況提供更具針對(duì)性的教育服務(wù)方式,從而確保學(xué)生獲得良好的知識(shí)教育.
機(jī)器學(xué)習(xí)是從一組已知屬性值來(lái)預(yù)測(cè)未知屬性值的過(guò)程[11].為此,人們開(kāi)發(fā)了大量人工智能和統(tǒng)計(jì)的技術(shù)和算法.貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)是由節(jié)點(diǎn)和鏈接的有向無(wú)環(huán)圖和一組條件概率表組成.網(wǎng)絡(luò)中的每個(gè)節(jié)點(diǎn)都與一個(gè)特性相關(guān)聯(lián),節(jié)點(diǎn)之間的鏈接表示它們之間的關(guān)系,鏈接的強(qiáng)度由條件概率表決定.人工神經(jīng)網(wǎng)絡(luò)(ANN)是由緊密聯(lián)系的自適應(yīng)處理單元組成的并行計(jì)算模型,具有從經(jīng)驗(yàn)中學(xué)習(xí)和發(fā)現(xiàn)新信息的特點(diǎn)[12].決策樹(shù)是監(jiān)督分類(lèi)學(xué)習(xí)中應(yīng)用最廣泛的算法之一,其使用一組訓(xùn)練示例創(chuàng)建一個(gè)基于樹(shù)結(jié)構(gòu)的模型,并旨在將屬于不同類(lèi)別的示例分離開(kāi)來(lái).支持向量機(jī)(SVM)是一組監(jiān)督學(xué)習(xí)方法,作為分類(lèi)中最精確的判別方法的一部分,可對(duì)廣義畫(huà)像算法的非線(xiàn)性模型的擴(kuò)展[13].該算法基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化,這是機(jī)器學(xué)習(xí)中使用的一個(gè)歸納原則.利用適當(dāng)選擇的具有足夠維數(shù)的特征空間,可以分離出任何一致的訓(xùn)練集[14-15].圖1 為成績(jī)預(yù)測(cè)決策流程示意圖.
圖1 成績(jī)預(yù)測(cè)決策流程示意圖
本研究的目的是開(kāi)發(fā)一種決策支持工具來(lái)預(yù)測(cè)學(xué)生在期末考試中的表現(xiàn).
第一階段為數(shù)據(jù)收集和數(shù)據(jù)準(zhǔn)備階段.第二階段為模型構(gòu)建階段,通過(guò)一系列的測(cè)試來(lái)評(píng)估每種機(jī)器學(xué)習(xí)技術(shù)中最流行和最常用的算法的分類(lèi)性能.在第三階段中將準(zhǔn)確率最高的分類(lèi)器整合到一個(gè)用戶(hù)友好的軟件工具中,且該工具被用于預(yù)測(cè)學(xué)生的成績(jī),以便教育工作者更容易地識(shí)別出弱勢(shì)學(xué)生并提供支持行動(dòng).
本研究使用的數(shù)據(jù)是某高校大一學(xué)生的外國(guó)語(yǔ)成績(jī),包括279 個(gè)不同的數(shù)據(jù)集.該數(shù)據(jù)集與學(xué)生的口語(yǔ)成績(jī)、考試成績(jī)和期末考試成績(jī)有關(guān).在學(xué)生績(jī)效評(píng)估中使用分類(lèi)方案,將學(xué)生分為4 個(gè)等級(jí).
1)“Fail”代表學(xué)生表現(xiàn)得分為0~9.
2)“Good”代表學(xué)生表現(xiàn)得分為10~14.
3)“Very good”代表學(xué)生表現(xiàn)得分為15~17.
4)“Excellent”代表學(xué)生表現(xiàn)得分為18~20.
圖2 給出了數(shù)據(jù)集的分布,圖中顯示了被劃分為“失敗”(53 個(gè)實(shí)例)、“良好”(76 個(gè)實(shí)例)、“非常好”(85 個(gè)實(shí)例)和“優(yōu)秀”(65 個(gè)實(shí)例)的學(xué)生數(shù)量.
圖2 數(shù)據(jù)集分布
本文數(shù)據(jù)集的屬性(特性)和每個(gè)屬性的值如表1 所示.屬性集分為3 組,分別為“注冊(cè)屬性”“導(dǎo)師屬性”和“課堂屬性”.
表1 數(shù)據(jù)集的詳細(xì)信息表
隨機(jī)森林算法的步驟如下[16].
1)利用Bootstrap 方法多次采樣,隨機(jī)產(chǎn)生k 個(gè)訓(xùn)練集θ1,θ2,…,θk;利用每個(gè)訓(xùn)練集生成對(duì)應(yīng)的決策樹(shù)集{T(x,θ1)},{T(x,θ2)},…,{T(x,θk)};
2)假設(shè)特征為M 維,從M 維特征中隨機(jī)抽取m 個(gè)特征作為當(dāng)前節(jié)點(diǎn)的分裂特征集,并以m 個(gè)特征中最好的分裂方式對(duì)該節(jié)點(diǎn)進(jìn)行分裂;
3)在節(jié)點(diǎn)分裂的過(guò)程中不進(jìn)行剪枝操作,確保每個(gè)決策樹(shù)均得到最大限度的生長(zhǎng);
4)對(duì)于測(cè)試集樣本Z,運(yùn)用每個(gè)決策樹(shù)進(jìn)行測(cè)試,獲取對(duì)應(yīng)的類(lèi)別{T(z,θ1)},{T(z,θ2)},…,{T(z,θk)};
5)運(yùn)用投票法,將k 個(gè)決策樹(shù)中輸出最多的類(lèi)別作為測(cè)試集樣本Z 所屬類(lèi)別.
基于隨機(jī)森林的學(xué)習(xí)成績(jī)測(cè)評(píng)流程圖如圖3 所示.
圖3 基于隨機(jī)森林的學(xué)習(xí)成績(jī)測(cè)評(píng)流程圖
機(jī)器學(xué)習(xí)算法的最終目的在于獲得一個(gè)函數(shù)模型,本文利用未知回歸函數(shù)的樣本對(duì)目標(biāo)連續(xù)變量y 與變量x1,x2,…,xn的關(guān)系進(jìn)行預(yù)測(cè),這些樣本描述了預(yù)測(cè)器和目標(biāo)變量之間的不同映射.
本實(shí)驗(yàn)結(jié)果驗(yàn)證所采用算法:隨機(jī)森林(RF)、遞歸流分類(lèi)(RFC)、支持向量機(jī)(SVM)和前饋神經(jīng)網(wǎng)絡(luò)(BPNN).
實(shí)驗(yàn)分兩個(gè)階段進(jìn)行.在第一階段(訓(xùn)練階段),使用采集的數(shù)據(jù)進(jìn)行訓(xùn)練.訓(xùn)練階段分為5 個(gè)連續(xù)的步驟.第一步為人員數(shù)據(jù)的統(tǒng)計(jì)、第一次課堂、書(shū)面作業(yè)和最終的課程情況(最終分?jǐn)?shù));第二步為第三次課堂情況;第三步為第三次書(shū)面作業(yè);第四步包括第四次課堂情況;第五步包括表1 中描述的所有屬性.
從導(dǎo)師登記的數(shù)據(jù)集中獲取學(xué)生新學(xué)年的10 組數(shù)據(jù),這10 組數(shù)據(jù)被用來(lái)驗(yàn)證成績(jī)預(yù)測(cè)決策系統(tǒng)在測(cè)試階段的準(zhǔn)確性.測(cè)試階段也分為5 個(gè)步驟.第一步為使用人口統(tǒng)計(jì)數(shù)據(jù)以及新學(xué)年的兩次課堂和書(shū)面作業(yè)來(lái)預(yù)測(cè)每個(gè)學(xué)生的成績(jī),該步驟重復(fù)10 次.第二步采用這些人員統(tǒng)計(jì)數(shù)據(jù)和第三次課堂的數(shù)據(jù)來(lái)預(yù)測(cè)每個(gè)學(xué)生的成績(jī),該步驟重復(fù)10 次.第三步利用第二步的數(shù)據(jù)和第三次書(shū)面作業(yè)的數(shù)據(jù)來(lái)預(yù)測(cè)學(xué)生的成績(jī).剩下的步驟按照上面描述的方法使用新學(xué)年的數(shù)據(jù),該步驟重復(fù)10 次.
表2 給出了實(shí)驗(yàn)中所有測(cè)試步驟中最容易理解的測(cè)量方法——平均絕對(duì)誤差.
表2 實(shí)驗(yàn)結(jié)果的平均絕對(duì)誤差
結(jié)果表明,M5 規(guī)則是用于構(gòu)建軟件支持工具的最精確的回歸算法.M5 規(guī)則除了性能更好之外,還具有更高的可理解性的優(yōu)點(diǎn).
為保證實(shí)測(cè)結(jié)果的可靠性,隨機(jī)抽取80%的數(shù)據(jù)作為訓(xùn)練樣本集,剩下20%為測(cè)試樣本集,將隨機(jī)森林(RF)、遞歸流分類(lèi)(RFC)、支持向量機(jī)(SVM)和前饋神經(jīng)網(wǎng)絡(luò)(BPNN)進(jìn)行對(duì)比.測(cè)試結(jié)果如表3 所示.
表3 識(shí)別效果
圖4、圖5、圖6、圖7 中,“*”表示大學(xué)生成績(jī)狀態(tài)的預(yù)測(cè)類(lèi)別,“○”表示大學(xué)生實(shí)際知識(shí)儲(chǔ)備,通過(guò)對(duì)比可以直觀地顯示大學(xué)生心理狀態(tài)識(shí)別結(jié)果和實(shí)際大學(xué)生成績(jī)狀態(tài)類(lèi)別,其中1、2、3、4 分別表示學(xué)習(xí)成績(jī):Excellent、Very good、Good 和Fail.當(dāng)“*”和“○”重合時(shí),大學(xué)生成績(jī)狀態(tài)的預(yù)測(cè)類(lèi)別和實(shí)際類(lèi)別一致,說(shuō)明識(shí)別正確;當(dāng)“*”和“○”不重合時(shí),大學(xué)生成績(jī)狀態(tài)的預(yù)測(cè)類(lèi)別和實(shí)際類(lèi)別不一致,此時(shí)大學(xué)生心理狀態(tài)識(shí)別錯(cuò)誤.實(shí)驗(yàn)結(jié)果顯示,隨機(jī)森林的識(shí)別準(zhǔn)確率為99.41%,其優(yōu)于RFC 的96.30%、SVM 的96.50%和BP 的92.33%.通過(guò)對(duì)比發(fā)現(xiàn)隨機(jī)森林具有更高的大學(xué)生心理狀態(tài)識(shí)別率,效果較好.
圖4 RF 識(shí)別結(jié)果圖
圖5 RFC 識(shí)別結(jié)果圖
圖6 SVM 識(shí)別結(jié)果圖
圖7 BPNN 識(shí)別結(jié)果圖
在智慧教育背景下,本文提出了基于機(jī)器學(xué)習(xí)技術(shù)的成績(jī)預(yù)算決策系統(tǒng),并利用數(shù)據(jù)挖掘方法和機(jī)器學(xué)習(xí)方法,建立學(xué)習(xí)預(yù)測(cè)體系,提升了預(yù)測(cè)效果,最終為教師的指導(dǎo)和管理提供支撐.本文工具的建立與應(yīng)用可為確定缺乏學(xué)習(xí)動(dòng)機(jī)的學(xué)習(xí)者尋找補(bǔ)救措施從而降低輟學(xué)率,同時(shí)預(yù)測(cè)其通過(guò)課程的成功率.通過(guò)對(duì)幾種最先進(jìn)的算法的比較,找到更適合幫助教師的教學(xué)輔助工具,從而更準(zhǔn)確地預(yù)測(cè)學(xué)生的學(xué)習(xí)成績(jī).
寧德師范學(xué)院學(xué)報(bào)(自然科學(xué)版)2021年1期