亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

利用隨機(jī)森林算法對(duì)學(xué)生成績(jī)?cè)u(píng)價(jià)與預(yù)測(cè)研究

2020-04-14 04:54:29吳興惠周玉萍邢海花

電腦知識(shí)與技術(shù) 2020年4期

吳興惠周玉萍邢?；?/p>

摘要：對(duì)學(xué)生成績(jī)數(shù)據(jù)的挖掘，尋找成績(jī)數(shù)據(jù)中潛在的知識(shí)和信息，對(duì)教學(xué)質(zhì)量的提高有著積極的指導(dǎo)意義。本文提出一種自學(xué)習(xí)分類算法（隨機(jī)森林），以某校學(xué)生成績(jī)?yōu)閿?shù)據(jù)對(duì)象，對(duì)數(shù)據(jù)中前期成績(jī)進(jìn)行分析，預(yù)測(cè)后期專業(yè)課的平均成績(jī)。并對(duì)得到的課程重要性排序結(jié)果，對(duì)學(xué)生上課時(shí)能夠進(jìn)行針對(duì)性的講解有一定的輔助作用。

關(guān)鍵詞：隨機(jī)森林;成績(jī)分析;預(yù)測(cè)

中圖分類號(hào)：TP181

文獻(xiàn)標(biāo)識(shí)碼：A

文章編號(hào)：1009-3044（2020）04-0254-02.

收稿日期：2019-10-25

基金項(xiàng)目：海南省教育科學(xué)規(guī)劃課題：基于一種自學(xué)習(xí)分類算法的學(xué)生成績(jī)?cè)u(píng)價(jià)研究（QJY20181071）作者簡(jiǎn)介：吳興惠（1975—），女，海南儋州人，海南師范大學(xué)副教授，碩士，從事計(jì)算機(jī)應(yīng)用研究。

衡量一個(gè)學(xué)生掌握在校期間所學(xué)的知識(shí)的好壞主要看學(xué)習(xí)成績(jī)，因此如何科學(xué)合理的對(duì)學(xué)生成績(jī)進(jìn)行評(píng)價(jià)也是作為評(píng)估課堂教學(xué)質(zhì)量好壞的一個(gè)很重要的依據(jù)之一。通過(guò)學(xué)生前期學(xué)習(xí)的成績(jī)來(lái)預(yù)測(cè)后期的成績(jī)，對(duì)教學(xué)質(zhì)量的提高有一定的促進(jìn)作用。

目前，已有很多學(xué)者對(duì)學(xué)生成績(jī)進(jìn)行預(yù)測(cè)做了研究。采用密度全局K-means算法對(duì)學(xué)生數(shù)據(jù)進(jìn)行聚類分析，挖掘影響學(xué)生成績(jī)的相關(guān)因素，并對(duì)學(xué)生成績(jī)進(jìn)行預(yù)測(cè)分析[1]。構(gòu)建結(jié)合決策樹(shù)和LMBP神經(jīng)網(wǎng)絡(luò)算法的分析預(yù)測(cè)模型，并應(yīng)用于教育數(shù)據(jù)挖掘中，可以實(shí)現(xiàn)學(xué)生成績(jī)分析及預(yù)測(cè)[2]。采用數(shù)據(jù)分類中的C5.0算法，以該分?jǐn)?shù)區(qū)間為預(yù)測(cè)目標(biāo)，構(gòu)建了成績(jī)的細(xì)分預(yù)測(cè)規(guī)則，實(shí)現(xiàn)了成人學(xué)位英語(yǔ)考試的成績(jī)細(xì)分預(yù)測(cè)系統(tǒng)[3]。對(duì)于學(xué)生成績(jī)?cè)u(píng)價(jià)，有提出的基于主成分分析法對(duì)學(xué)生成績(jī)進(jìn)行綜合評(píng)價(jià)[4]，也有對(duì)影響學(xué)生成績(jī)因素的重要性進(jìn)行排序的研究。

自學(xué)習(xí)分類算法（隨機(jī)森林算法）是一種集成學(xué)習(xí)算法，是利用多個(gè)決策樹(shù)對(duì)樣本進(jìn)行訓(xùn)練、分類并預(yù)測(cè)。主要應(yīng)用于分類和回歸。因此隨機(jī)森林被應(yīng)用于很多領(lǐng)域。許允之把隨機(jī)森林算法應(yīng)用到環(huán)境保護(hù)中，用其預(yù)測(cè)徐州霧霾情況，最后分析和闡述了徐州對(duì)霧霾的治理措施。結(jié)合隨機(jī)森林與端梯度提升算法，并使用十折交叉驗(yàn)證確定最佳的預(yù)測(cè)模型，應(yīng)用于預(yù)測(cè)冠心病住院費(fèi)用[6]。結(jié)合深度學(xué)習(xí)與隨機(jī)森林算法提出一種大數(shù)據(jù)特征選擇算法，設(shè)計(jì)基于隨機(jī)森林的特征消除算法，對(duì)高維大數(shù)據(jù)集進(jìn)行特征降維處理[7]。針對(duì)構(gòu)建智慧校園學(xué)生畫(huà)像的數(shù)據(jù)缺失與高維特征問(wèn)題，引入外部數(shù)據(jù)彌補(bǔ)缺失的數(shù)據(jù)，輔助用戶建模，提出一種基于隨機(jī)森林的雙向特征選擇算法（RFBFS）解決高維特征問(wèn)題[8]。這些研究沒(méi)有將隨機(jī)森林算法應(yīng)用于學(xué)生成績(jī)進(jìn)行評(píng)價(jià)研究分析。

本文提出一種自學(xué)習(xí)分類算法-隨機(jī)森林分類算法預(yù)測(cè)學(xué)生成績(jī)，并通過(guò)實(shí)驗(yàn)說(shuō)明該算法在對(duì)學(xué)生成績(jī)數(shù)據(jù)預(yù)測(cè)上的有效性，希望該算法在教學(xué)管理能起到積極的改進(jìn)作用。

1 隨機(jī)森林算法

1.1 決策樹(shù)

決策樹(shù)是基于樹(shù)結(jié)構(gòu)來(lái)進(jìn)行決策的一種算法。它是一樹(shù)狀結(jié)構(gòu)，它從根節(jié)點(diǎn)開(kāi)始對(duì)數(shù)據(jù)樣本（由實(shí)例集組成，實(shí)例有若干屬性）進(jìn)行測(cè)試，根據(jù)不同的結(jié)果將數(shù)據(jù)樣本劃分成不同的數(shù)據(jù)樣本子集。每個(gè)數(shù)據(jù)樣本子集構(gòu)成一子節(jié)點(diǎn)。生成的決策樹(shù)的每個(gè)葉節(jié)點(diǎn)對(duì)應(yīng)一個(gè)分類。它有ID3、C4.5、CRAT、SLIQ等。一棵決策樹(shù)的生成過(guò)程主要有3個(gè)部分，即特征選擇、決策樹(shù)生成和剪枝。其中最關(guān)鍵的問(wèn)題是特征選擇，不同的分裂標(biāo)準(zhǔn)對(duì)決策樹(shù)的泛化誤差有很大的影響。ID3決策樹(shù)算法是根據(jù)信息論的信息增益來(lái)進(jìn)行評(píng)估和特征選擇的，C4.5決策樹(shù)算法是用信息增益率來(lái)選擇特征的，CRAT決策樹(shù)算法采用的是Gini指數(shù)來(lái)進(jìn)行選擇的。

1.2 隨機(jī)森林

隨機(jī)森林在以決策樹(shù)為基學(xué)習(xí)器構(gòu)建Bagging集成的基礎(chǔ)上，進(jìn)一步在決策樹(shù)的訓(xùn)練過(guò)程中引入隨機(jī)屬性的選擇。隨機(jī)森林算法簡(jiǎn)單、易于實(shí)現(xiàn)、計(jì)算開(kāi)銷小，在很多現(xiàn)實(shí)任務(wù)中展現(xiàn)出強(qiáng)大的性能。

隨機(jī)森林分類是由很多決策樹(shù)分類模型組成的組合分類模型，每個(gè)決策樹(shù)分類模型都有一票投票權(quán)來(lái)選擇最優(yōu)的分類結(jié)果。隨機(jī)森林分類的基本思想：首先，利用bootstrap抽樣從原始訓(xùn)練集抽取k個(gè)樣本，每個(gè)樣本的樣本容量都與原始訓(xùn)練集一樣;然后，對(duì)k個(gè)樣本分別建立k個(gè)決策樹(shù)模型，得到k種分類結(jié)果;最后，根據(jù)k種分類結(jié)果對(duì)每個(gè)記錄進(jìn)行投票表決決定其最終分類[9]。隨機(jī)森林構(gòu)建主要包括以下3個(gè)步驟：

（1）為N棵決策樹(shù)抽樣產(chǎn)生N個(gè)訓(xùn)練集。每一棵決策樹(shù)都對(duì)應(yīng)一個(gè)訓(xùn)練集，主要采用Bagging抽樣方法從原始數(shù)據(jù)集中產(chǎn)生N個(gè)訓(xùn)練子集。

（2）決策樹(shù)構(gòu)建。

決策樹(shù)的構(gòu)建過(guò)程包括兩個(gè)步驟：先構(gòu)建獨(dú)立的決策樹(shù)，然后多棵決策樹(shù)形成“森林”，在每棵樹(shù)的生長(zhǎng)過(guò)程中，由指數(shù).最小原則選出M個(gè)特征變量中m個(gè)屬性中的最優(yōu)劃分。節(jié)點(diǎn)分裂原則一般采用CART算法或C4.5算法。在隨機(jī)森林算法中，選中的屬性個(gè)數(shù)稱為隨機(jī)特征變量。

（3）隨機(jī)森林形成及算法執(zhí)行。重復(fù)步驟（1）、（2），構(gòu)建大量決策樹(shù)，形成隨機(jī)森林。算法最終輸出由多數(shù)投票方法實(shí)現(xiàn)，將測(cè)試集樣本輸入隨機(jī)構(gòu)建的N棵決策子樹(shù)進(jìn)行分類，總結(jié)每：棵決策樹(shù)分類結(jié)果，并將具有最大投票數(shù)的分類結(jié)果作為算法最終輸出結(jié)果[10]。

隨機(jī)森林示意圖如圖1所示：

2 基于隨機(jī)森林的學(xué)生成績(jī)?cè)u(píng)價(jià)

本文的實(shí)驗(yàn)數(shù)據(jù)來(lái)自某高校2012級(jí)信息學(xué)院計(jì)算機(jī)系四個(gè)班的學(xué)生成績(jī)。用以上提出的隨機(jī)森林模型對(duì)學(xué)生前期成績(jī)數(shù)據(jù)建模，預(yù)測(cè)后期的專業(yè)平均成績(jī)。由預(yù)測(cè)結(jié)果得到各門(mén)課程的重要性。由此結(jié)果，教師在教學(xué)過(guò)程中可重點(diǎn)進(jìn)行教學(xué)，提高教學(xué)質(zhì)量，達(dá)到培養(yǎng)人才目的。

2.1 數(shù)據(jù)預(yù)處理

本文的數(shù)據(jù)來(lái)自某2012級(jí)信息學(xué)院256名學(xué)生8896條成績(jī)。由于采集到的數(shù)據(jù)是不完整的含有噪聲的冗余數(shù)據(jù)，因此需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。原始數(shù)據(jù)中的屬性個(gè)數(shù)很多，刪除一些不相關(guān)的屬性，如學(xué)年、學(xué)分、班級(jí)以及課程性等。采用分箱法對(duì)學(xué)生成績(jī)數(shù)據(jù)進(jìn)行離散化處理。處理后的數(shù)據(jù)將分為五個(gè)等級(jí)，分別為：60分以下為不及格，60-70為及格，70-80為中等，80-90為良好，90-100為優(yōu)秀。離散化后的數(shù)據(jù)如下表所示：

2.2 實(shí)驗(yàn)驗(yàn)證與結(jié)果分析

本實(shí)驗(yàn)采用python語(yǔ)言平臺(tái)Anaconda3實(shí)現(xiàn)。首先構(gòu)建了如圖2所示基于ESP_RF算法的學(xué)生成績(jī)?cè)u(píng)價(jià)模型結(jié)構(gòu)。

首先，確定隨機(jī)森林模型中兩個(gè)重要參數(shù)：樹(shù)節(jié)點(diǎn)的變量個(gè)數(shù)mtry的值和樹(shù)的個(gè)數(shù)ntree。通過(guò)實(shí)驗(yàn)得到，當(dāng)決策樹(shù)數(shù)量取值大于400以后，錯(cuò)誤率趨于穩(wěn)定，以此將ntee值設(shè)為400。并從實(shí)驗(yàn)得到當(dāng)決策樹(shù)節(jié)點(diǎn)所選變量數(shù)為3的時(shí)候，模型的誤判率均值是最低的。實(shí)驗(yàn)結(jié)果如圖3所示。

通過(guò)學(xué)生第一至第四學(xué)期的成績(jī)預(yù)測(cè)第五學(xué)期的專業(yè)課成績(jī)，并對(duì)影響下學(xué)期的課程進(jìn)行排序。如圖4所示：

從以上實(shí)驗(yàn)中可以得出：

1）這幾門(mén)課程中“數(shù)據(jù)結(jié)構(gòu)”對(duì)學(xué)生專業(yè)學(xué)習(xí)課程的影響最大。其次是“數(shù)據(jù)庫(kù)原理”“WEB高級(jí)語(yǔ)言程序設(shè)計(jì)”“程序設(shè)計(jì)與算法訓(xùn)練”“面向?qū)ο蟪绦蛟O(shè)計(jì)”和“數(shù)據(jù)結(jié)構(gòu)課程設(shè)計(jì)”。

2）“電子技術(shù)基礎(chǔ)”“計(jì)算機(jī)科學(xué)概論”對(duì)學(xué)生成績(jī)影響較小。

根據(jù)實(shí)驗(yàn)得到的模型中兩種自變量重要程序排序?qū)Ρ冉Y(jié)果，實(shí)踐課成績(jī)對(duì)后期學(xué)生專業(yè)學(xué)習(xí)的影響較小，在今后的教學(xué)過(guò)程中，能夠有針對(duì)性地對(duì)學(xué)生教學(xué)有所傾向，為學(xué)生對(duì)后續(xù)課程的學(xué)習(xí)打好基礎(chǔ)。

本研究在對(duì)學(xué)生成績(jī)數(shù)據(jù)進(jìn)行處理時(shí)，由于所收集到的數(shù)據(jù)存在缺失、多次補(bǔ)考值等問(wèn)題，進(jìn)行離散化處理后，得到的模型效果不是特別理想。也沒(méi)有過(guò)多考慮其他因素對(duì)成績(jī)的影響。在將來(lái)的研究中，可以考慮其他因素及與多種模型進(jìn)行對(duì)比以得到更加準(zhǔn)確的結(jié)果。

參考文獻(xiàn)：

[1]謝娟英.學(xué)生成績(jī)關(guān)鍵因素挖掘與成績(jī)預(yù)測(cè)[J].南京信息工程大學(xué)學(xué)報(bào)：自然科學(xué)版，2019（3）：316-325.

[2]吳強(qiáng).基于決策樹(shù)-LMBP神經(jīng)網(wǎng)絡(luò)的學(xué)生成績(jī)分析及預(yù)測(cè)模型的研究[J].成都信息工程學(xué)院學(xué)報(bào)，2018（3）：274-280.

[3]孫力，張凱.基于數(shù)據(jù)挖掘的網(wǎng)絡(luò)教育學(xué)習(xí)成績(jī)細(xì)分預(yù)測(cè)的研究與實(shí)現(xiàn)[J].中國(guó)遠(yuǎn)程教育，2016（12）：22-29.

[4]錢(qián)浩韻.基于主成分分析法的學(xué)生成績(jī)?cè)u(píng)價(jià)[J].南京工業(yè)職業(yè)技術(shù)學(xué)院學(xué)報(bào)，2017，17（4）：21-24.

[5]許允之.基于隨機(jī)森林算法的徐州霧霾回歸預(yù)測(cè)模型[A].《環(huán)境工程》編委會(huì)、工業(yè)建筑雜志社有限公司.《環(huán)境工程》2019年全國(guó)學(xué)術(shù)年會(huì)論文集[C].《環(huán)境工程》編委會(huì)、工業(yè)建筑雜志社有限公司：《環(huán)境工程》編輯部，2019：6.

[6]夏濤，徐輝煌.基于機(jī)器學(xué)習(xí)的冠心病住院費(fèi)用預(yù)測(cè)研究[J].智能計(jì)算機(jī)與應(yīng)用，2019（9）.

[7]馮曉榮.基于深度學(xué)習(xí)與隨機(jī)森林的高維數(shù)據(jù)特征選擇[J].計(jì)算機(jī)工程與設(shè)計(jì)，2019，40（9）.

[8]楊長(zhǎng)春.基于隨機(jī)森林的學(xué)生畫(huà)像特征選擇方法[J].計(jì)算機(jī)工程與設(shè)計(jì)，2019，40（10）.

[9]呂紅燕，馮倩.隨機(jī)森林算法研究綜述[0].河北省科學(xué)院學(xué)報(bào)，2019，40（10）.

[10]梁瓊芳，莎仁.基于隨機(jī)森林的數(shù)學(xué)試題難易度分類研究[J].軟件導(dǎo)刊，2019（9）.

[通聯(lián)編輯：王力]