吳興惠 周玉萍 邢?;?/p>
摘要:對(duì)學(xué)生成績(jī)數(shù)據(jù)的挖掘,尋找成績(jī)數(shù)據(jù)中潛在的知識(shí)和信息,對(duì)教學(xué)質(zhì)量的提高有著積極的指導(dǎo)意義。本文提出一種自學(xué)習(xí)分類算法(隨機(jī)森林),以某校學(xué)生成績(jī)?yōu)閿?shù)據(jù)對(duì)象,對(duì)數(shù)據(jù)中前期成績(jī)進(jìn)行分析,預(yù)測(cè)后期專業(yè)課的平均成績(jī)。并對(duì)得到的課程重要性排序結(jié)果,對(duì)學(xué)生上課時(shí)能夠進(jìn)行針對(duì)性的講解有一定的輔助作用。
關(guān)鍵詞:隨機(jī)森林;成績(jī)分析;預(yù)測(cè)
中圖分類號(hào):TP181
文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2020)04-0254-02.
收稿日期:2019-10-25
基金項(xiàng)目:海南省教育科學(xué)規(guī)劃課題:基于一種自學(xué)習(xí)分類算法的學(xué)生成績(jī)?cè)u(píng)價(jià)研究(QJY20181071)作者簡(jiǎn)介:吳興惠(1975—),女,海南儋州人,海南師范大學(xué)副教授,碩士,從事計(jì)算機(jī)應(yīng)用研究。
衡量一個(gè)學(xué)生掌握在校期間所學(xué)的知識(shí)的好壞主要看學(xué)習(xí)成績(jī),因此如何科學(xué)合理的對(duì)學(xué)生成績(jī)進(jìn)行評(píng)價(jià)也是作為評(píng)估課堂教學(xué)質(zhì)量好壞的一個(gè)很重要的依據(jù)之一。通過(guò)學(xué)生前期學(xué)習(xí)的成績(jī)來(lái)預(yù)測(cè)后期的成績(jī),對(duì)教學(xué)質(zhì)量的提高有一定的促進(jìn)作用。
目前,已有很多學(xué)者對(duì)學(xué)生成績(jī)進(jìn)行預(yù)測(cè)做了研究。采用密度全局K-means算法對(duì)學(xué)生數(shù)據(jù)進(jìn)行聚類分析,挖掘影響學(xué)生成績(jī)的相關(guān)因素,并對(duì)學(xué)生成績(jī)進(jìn)行預(yù)測(cè)分析[1]。構(gòu)建結(jié)合決策樹(shù)和LMBP神經(jīng)網(wǎng)絡(luò)算法的分析預(yù)測(cè)模型,并應(yīng)用于教育數(shù)據(jù)挖掘中,可以實(shí)現(xiàn)學(xué)生成績(jī)分析及預(yù)測(cè)[2]。采用數(shù)據(jù)分類中的C5.0算法,以該分?jǐn)?shù)區(qū)間為預(yù)測(cè)目標(biāo),構(gòu)建了成績(jī)的細(xì)分預(yù)測(cè)規(guī)則,實(shí)現(xiàn)了成人學(xué)位英語(yǔ)考試的成績(jī)細(xì)分預(yù)測(cè)系統(tǒng)[3]。對(duì)于學(xué)生成績(jī)?cè)u(píng)價(jià),有提出的基于主成分分析法對(duì)學(xué)生成績(jī)進(jìn)行綜合評(píng)價(jià)[4],也有對(duì)影響學(xué)生成績(jī)因素的重要性進(jìn)行排序的研究。
自學(xué)習(xí)分類算法(隨機(jī)森林算法)是一種集成學(xué)習(xí)算法,是利用多個(gè)決策樹(shù)對(duì)樣本進(jìn)行訓(xùn)練、分類并預(yù)測(cè)。主要應(yīng)用于分類和回歸。因此隨機(jī)森林被應(yīng)用于很多領(lǐng)域。許允之把隨機(jī)森林算法應(yīng)用到環(huán)境保護(hù)中,用其預(yù)測(cè)徐州霧霾情況,最后分析和闡述了徐州對(duì)霧霾的治理措施。結(jié)合隨機(jī)森林與端梯度提升算法,并使用十折交叉驗(yàn)證確定最佳的預(yù)測(cè)模型,應(yīng)用于預(yù)測(cè)冠心病住院費(fèi)用[6]。結(jié)合深度學(xué)習(xí)與隨機(jī)森林算法提出一種大數(shù)據(jù)特征選擇算法,設(shè)計(jì)基于隨機(jī)森林的特征消除算法,對(duì)高維大數(shù)據(jù)集進(jìn)行特征降維處理[7]。針對(duì)構(gòu)建智慧校園學(xué)生畫(huà)像的數(shù)據(jù)缺失與高維特征問(wèn)題,引入外部數(shù)據(jù)彌補(bǔ)缺失的數(shù)據(jù),輔助用戶建模,提出一種基于隨機(jī)森林的雙向特征選擇算法(RFBFS)解決高維特征問(wèn)題[8]。這些研究沒(méi)有將隨機(jī)森林算法應(yīng)用于學(xué)生成績(jī)進(jìn)行評(píng)價(jià)研究分析。
本文提出一種自學(xué)習(xí)分類算法-隨機(jī)森林分類算法預(yù)測(cè)學(xué)生成績(jī),并通過(guò)實(shí)驗(yàn)說(shuō)明該算法在對(duì)學(xué)生成績(jī)數(shù)據(jù)預(yù)測(cè)上的有效性,希望該算法在教學(xué)管理能起到積極的改進(jìn)作用。
1 隨機(jī)森林算法
1.1 決策樹(shù)
決策樹(shù)是基于樹(shù)結(jié)構(gòu)來(lái)進(jìn)行決策的一種算法。它是一樹(shù)狀結(jié)構(gòu),它從根節(jié)點(diǎn)開(kāi)始對(duì)數(shù)據(jù)樣本(由實(shí)例集組成,實(shí)例有若干屬性)進(jìn)行測(cè)試,根據(jù)不同的結(jié)果將數(shù)據(jù)樣本劃分成不同的數(shù)據(jù)樣本子集。每個(gè)數(shù)據(jù)樣本子集構(gòu)成一子節(jié)點(diǎn)。生成的決策樹(shù)的每個(gè)葉節(jié)點(diǎn)對(duì)應(yīng)一個(gè)分類。它有ID3、C4.5、CRAT、SLIQ等。一棵決策樹(shù)的生成過(guò)程主要有3個(gè)部分,即特征選擇、決策樹(shù)生成和剪枝。其中最關(guān)鍵的問(wèn)題是特征選擇,不同的分裂標(biāo)準(zhǔn)對(duì)決策樹(shù)的泛化誤差有很大的影響。ID3決策樹(shù)算法是根據(jù)信息論的信息增益來(lái)進(jìn)行評(píng)估和特征選擇的,C4.5決策樹(shù)算法是用信息增益率來(lái)選擇特征的,CRAT決策樹(shù)算法采用的是Gini指數(shù)來(lái)進(jìn)行選擇的。
1.2 隨機(jī)森林
隨機(jī)森林在以決策樹(shù)為基學(xué)習(xí)器構(gòu)建Bagging集成的基礎(chǔ)上,進(jìn)一步在決策樹(shù)的訓(xùn)練過(guò)程中引入隨機(jī)屬性的選擇。隨機(jī)森林算法簡(jiǎn)單、易于實(shí)現(xiàn)、計(jì)算開(kāi)銷小,在很多現(xiàn)實(shí)任務(wù)中展現(xiàn)出強(qiáng)大的性能。
隨機(jī)森林分類是由很多決策樹(shù)分類模型組成的組合分類模型,每個(gè)決策樹(shù)分類模型都有一票投票權(quán)來(lái)選擇最優(yōu)的分類結(jié)果。隨機(jī)森林分類的基本思想:首先,利用bootstrap抽樣從原始訓(xùn)練集抽取k個(gè)樣本,每個(gè)樣本的樣本容量都與原始訓(xùn)練集一樣;然后,對(duì)k個(gè)樣本分別建立k個(gè)決策樹(shù)模型,得到k種分類結(jié)果;最后,根據(jù)k種分類結(jié)果對(duì)每個(gè)記錄進(jìn)行投票表決決定其最終分類[9]。隨機(jī)森林構(gòu)建主要包括以下3個(gè)步驟:
(1)為N棵決策樹(shù)抽樣產(chǎn)生N個(gè)訓(xùn)練集。每一棵決策樹(shù)都對(duì)應(yīng)一個(gè)訓(xùn)練集,主要采用Bagging抽樣方法從原始數(shù)據(jù)集中產(chǎn)生N個(gè)訓(xùn)練子集。
(2)決策樹(shù)構(gòu)建。
決策樹(shù)的構(gòu)建過(guò)程包括兩個(gè)步驟:先構(gòu)建獨(dú)立的決策樹(shù),然后多棵決策樹(shù)形成“森林”,在每棵樹(shù)的生長(zhǎng)過(guò)程中,由指數(shù).最小原則選出M個(gè)特征變量中m個(gè)屬性中的最優(yōu)劃分。節(jié)點(diǎn)分裂原則一般采用CART算法或C4.5算法。在隨機(jī)森林算法中,選中的屬性個(gè)數(shù)稱為隨機(jī)特征變量。
(3)隨機(jī)森林形成及算法執(zhí)行。重復(fù)步驟(1)、(2),構(gòu)建大量決策樹(shù),形成隨機(jī)森林。算法最終輸出由多數(shù)投票方法實(shí)現(xiàn),將測(cè)試集樣本輸入隨機(jī)構(gòu)建的N棵決策子樹(shù)進(jìn)行分類,總結(jié)每:棵決策樹(shù)分類結(jié)果,并將具有最大投票數(shù)的分類結(jié)果作為算法最終輸出結(jié)果[10]。
隨機(jī)森林示意圖如圖1所示:
2 基于隨機(jī)森林的學(xué)生成績(jī)?cè)u(píng)價(jià)
本文的實(shí)驗(yàn)數(shù)據(jù)來(lái)自某高校2012級(jí)信息學(xué)院計(jì)算機(jī)系四個(gè)班的學(xué)生成績(jī)。用以上提出的隨機(jī)森林模型對(duì)學(xué)生前期成績(jī)數(shù)據(jù)建模,預(yù)測(cè)后期的專業(yè)平均成績(jī)。由預(yù)測(cè)結(jié)果得到各門(mén)課程的重要性。由此結(jié)果,教師在教學(xué)過(guò)程中可重點(diǎn)進(jìn)行教學(xué),提高教學(xué)質(zhì)量,達(dá)到培養(yǎng)人才目的。
2.1 數(shù)據(jù)預(yù)處理
本文的數(shù)據(jù)來(lái)自某2012級(jí)信息學(xué)院256名學(xué)生8896條成績(jī)。由于采集到的數(shù)據(jù)是不完整的含有噪聲的冗余數(shù)據(jù),因此需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。原始數(shù)據(jù)中的屬性個(gè)數(shù)很多,刪除一些不相關(guān)的屬性,如學(xué)年、學(xué)分、班級(jí)以及課程性等。采用分箱法對(duì)學(xué)生成績(jī)數(shù)據(jù)進(jìn)行離散化處理。處理后的數(shù)據(jù)將分為五個(gè)等級(jí),分別為:60分以下為不及格,60-70為及格,70-80為中等,80-90為良好,90-100為優(yōu)秀。離散化后的數(shù)據(jù)如下表所示:
2.2 實(shí)驗(yàn)驗(yàn)證與結(jié)果分析
本實(shí)驗(yàn)采用python語(yǔ)言平臺(tái)Anaconda3實(shí)現(xiàn)。首先構(gòu)建了如圖2所示基于ESP_RF算法的學(xué)生成績(jī)?cè)u(píng)價(jià)模型結(jié)構(gòu)。
首先,確定隨機(jī)森林模型中兩個(gè)重要參數(shù):樹(shù)節(jié)點(diǎn)的變量個(gè)數(shù)mtry的值和樹(shù)的個(gè)數(shù)ntree。通過(guò)實(shí)驗(yàn)得到,當(dāng)決策樹(shù)數(shù)量取值大于400以后,錯(cuò)誤率趨于穩(wěn)定,以此將ntee值設(shè)為400。并從實(shí)驗(yàn)得到當(dāng)決策樹(shù)節(jié)點(diǎn)所選變量數(shù)為3的時(shí)候,模型的誤判率均值是最低的。實(shí)驗(yàn)結(jié)果如圖3所示。
通過(guò)學(xué)生第一至第四學(xué)期的成績(jī)預(yù)測(cè)第五學(xué)期的專業(yè)課成績(jī),并對(duì)影響下學(xué)期的課程進(jìn)行排序。如圖4所示:
從以上實(shí)驗(yàn)中可以得出:
1)這幾門(mén)課程中“數(shù)據(jù)結(jié)構(gòu)”對(duì)學(xué)生專業(yè)學(xué)習(xí)課程的影響最大。其次是“數(shù)據(jù)庫(kù)原理”“WEB高級(jí)語(yǔ)言程序設(shè)計(jì)”“程序設(shè)計(jì)與算法訓(xùn)練”“面向?qū)ο蟪绦蛟O(shè)計(jì)”和“數(shù)據(jù)結(jié)構(gòu)課程設(shè)計(jì)”。
2)“電子技術(shù)基礎(chǔ)”“計(jì)算機(jī)科學(xué)概論”對(duì)學(xué)生成績(jī)影響較小。
根據(jù)實(shí)驗(yàn)得到的模型中兩種自變量重要程序排序?qū)Ρ冉Y(jié)果,實(shí)踐課成績(jī)對(duì)后期學(xué)生專業(yè)學(xué)習(xí)的影響較小,在今后的教學(xué)過(guò)程中,能夠有針對(duì)性地對(duì)學(xué)生教學(xué)有所傾向,為學(xué)生對(duì)后續(xù)課程的學(xué)習(xí)打好基礎(chǔ)。
本研究在對(duì)學(xué)生成績(jī)數(shù)據(jù)進(jìn)行處理時(shí),由于所收集到的數(shù)據(jù)存在缺失、多次補(bǔ)考值等問(wèn)題,進(jìn)行離散化處理后,得到的模型效果不是特別理想。也沒(méi)有過(guò)多考慮其他因素對(duì)成績(jī)的影響。在將來(lái)的研究中,可以考慮其他因素及與多種模型進(jìn)行對(duì)比以得到更加準(zhǔn)確的結(jié)果。
參考文獻(xiàn):
[1]謝娟英.學(xué)生成績(jī)關(guān)鍵因素挖掘與成績(jī)預(yù)測(cè)[J].南京信息工程大學(xué)學(xué)報(bào):自然科學(xué)版,2019(3):316-325.
[2]吳強(qiáng).基于決策樹(shù)-LMBP神經(jīng)網(wǎng)絡(luò)的學(xué)生成績(jī)分析及預(yù)測(cè)模型的研究[J].成都信息工程學(xué)院學(xué)報(bào),2018(3):274-280.
[3]孫力,張凱.基于數(shù)據(jù)挖掘的網(wǎng)絡(luò)教育學(xué)習(xí)成績(jī)細(xì)分預(yù)測(cè)的研究與實(shí)現(xiàn)[J].中國(guó)遠(yuǎn)程教育,2016(12):22-29.
[4]錢(qián)浩韻.基于主成分分析法的學(xué)生成績(jī)?cè)u(píng)價(jià)[J].南京工業(yè)職業(yè)技術(shù)學(xué)院學(xué)報(bào),2017,17(4):21-24.
[5]許允之.基于隨機(jī)森林算法的徐州霧霾回歸預(yù)測(cè)模型[A].《環(huán)境工程》編委會(huì)、工業(yè)建筑雜志社有限公司.《環(huán)境工程》2019年全國(guó)學(xué)術(shù)年會(huì)論文集[C].《環(huán)境工程》編委會(huì)、工業(yè)建筑雜志社有限公司:《環(huán)境工程》編輯部,2019:6.
[6]夏濤,徐輝煌.基于機(jī)器學(xué)習(xí)的冠心病住院費(fèi)用預(yù)測(cè)研究[J].智能計(jì)算機(jī)與應(yīng)用,2019(9).
[7]馮曉榮.基于深度學(xué)習(xí)與隨機(jī)森林的高維數(shù)據(jù)特征選擇[J].計(jì)算機(jī)工程與設(shè)計(jì),2019,40(9).
[8]楊長(zhǎng)春.基于隨機(jī)森林的學(xué)生畫(huà)像特征選擇方法[J].計(jì)算機(jī)工程與設(shè)計(jì),2019,40(10).
[9]呂紅燕,馮倩.隨機(jī)森林算法研究綜述[0].河北省科學(xué)院學(xué)報(bào),2019,40(10).
[10]梁瓊芳,莎仁.基于隨機(jī)森林的數(shù)學(xué)試題難易度分類研究[J].軟件導(dǎo)刊,2019(9).
[通聯(lián)編輯:王力]