亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        利用隨機(jī)森林算法對(duì)學(xué)生成績(jī)?cè)u(píng)價(jià)與預(yù)測(cè)研究

        2020-04-14 04:54:29吳興惠周玉萍邢海花
        電腦知識(shí)與技術(shù) 2020年4期
        關(guān)鍵詞:成績(jī)分析隨機(jī)森林預(yù)測(cè)

        吳興惠 周玉萍 邢?;?/p>

        摘要:對(duì)學(xué)生成績(jī)數(shù)據(jù)的挖掘,尋找成績(jī)數(shù)據(jù)中潛在的知識(shí)和信息,對(duì)教學(xué)質(zhì)量的提高有著積極的指導(dǎo)意義。本文提出一種自學(xué)習(xí)分類算法(隨機(jī)森林),以某校學(xué)生成績(jī)?yōu)閿?shù)據(jù)對(duì)象,對(duì)數(shù)據(jù)中前期成績(jī)進(jìn)行分析,預(yù)測(cè)后期專業(yè)課的平均成績(jī)。并對(duì)得到的課程重要性排序結(jié)果,對(duì)學(xué)生上課時(shí)能夠進(jìn)行針對(duì)性的講解有一定的輔助作用。

        關(guān)鍵詞:隨機(jī)森林;成績(jī)分析;預(yù)測(cè)

        中圖分類號(hào):TP181

        文獻(xiàn)標(biāo)識(shí)碼:A

        文章編號(hào):1009-3044(2020)04-0254-02.

        收稿日期:2019-10-25

        基金項(xiàng)目:海南省教育科學(xué)規(guī)劃課題:基于一種自學(xué)習(xí)分類算法的學(xué)生成績(jī)?cè)u(píng)價(jià)研究(QJY20181071)作者簡(jiǎn)介:吳興惠(1975—),女,海南儋州人,海南師范大學(xué)副教授,碩士,從事計(jì)算機(jī)應(yīng)用研究。

        衡量一個(gè)學(xué)生掌握在校期間所學(xué)的知識(shí)的好壞主要看學(xué)習(xí)成績(jī),因此如何科學(xué)合理的對(duì)學(xué)生成績(jī)進(jìn)行評(píng)價(jià)也是作為評(píng)估課堂教學(xué)質(zhì)量好壞的一個(gè)很重要的依據(jù)之一。通過(guò)學(xué)生前期學(xué)習(xí)的成績(jī)來(lái)預(yù)測(cè)后期的成績(jī),對(duì)教學(xué)質(zhì)量的提高有一定的促進(jìn)作用。

        目前,已有很多學(xué)者對(duì)學(xué)生成績(jī)進(jìn)行預(yù)測(cè)做了研究。采用密度全局K-means算法對(duì)學(xué)生數(shù)據(jù)進(jìn)行聚類分析,挖掘影響學(xué)生成績(jī)的相關(guān)因素,并對(duì)學(xué)生成績(jī)進(jìn)行預(yù)測(cè)分析[1]。構(gòu)建結(jié)合決策樹(shù)和LMBP神經(jīng)網(wǎng)絡(luò)算法的分析預(yù)測(cè)模型,并應(yīng)用于教育數(shù)據(jù)挖掘中,可以實(shí)現(xiàn)學(xué)生成績(jī)分析及預(yù)測(cè)[2]。采用數(shù)據(jù)分類中的C5.0算法,以該分?jǐn)?shù)區(qū)間為預(yù)測(cè)目標(biāo),構(gòu)建了成績(jī)的細(xì)分預(yù)測(cè)規(guī)則,實(shí)現(xiàn)了成人學(xué)位英語(yǔ)考試的成績(jī)細(xì)分預(yù)測(cè)系統(tǒng)[3]。對(duì)于學(xué)生成績(jī)?cè)u(píng)價(jià),有提出的基于主成分分析法對(duì)學(xué)生成績(jī)進(jìn)行綜合評(píng)價(jià)[4],也有對(duì)影響學(xué)生成績(jī)因素的重要性進(jìn)行排序的研究。

        自學(xué)習(xí)分類算法(隨機(jī)森林算法)是一種集成學(xué)習(xí)算法,是利用多個(gè)決策樹(shù)對(duì)樣本進(jìn)行訓(xùn)練、分類并預(yù)測(cè)。主要應(yīng)用于分類和回歸。因此隨機(jī)森林被應(yīng)用于很多領(lǐng)域。許允之把隨機(jī)森林算法應(yīng)用到環(huán)境保護(hù)中,用其預(yù)測(cè)徐州霧霾情況,最后分析和闡述了徐州對(duì)霧霾的治理措施。結(jié)合隨機(jī)森林與端梯度提升算法,并使用十折交叉驗(yàn)證確定最佳的預(yù)測(cè)模型,應(yīng)用于預(yù)測(cè)冠心病住院費(fèi)用[6]。結(jié)合深度學(xué)習(xí)與隨機(jī)森林算法提出一種大數(shù)據(jù)特征選擇算法,設(shè)計(jì)基于隨機(jī)森林的特征消除算法,對(duì)高維大數(shù)據(jù)集進(jìn)行特征降維處理[7]。針對(duì)構(gòu)建智慧校園學(xué)生畫(huà)像的數(shù)據(jù)缺失與高維特征問(wèn)題,引入外部數(shù)據(jù)彌補(bǔ)缺失的數(shù)據(jù),輔助用戶建模,提出一種基于隨機(jī)森林的雙向特征選擇算法(RFBFS)解決高維特征問(wèn)題[8]。這些研究沒(méi)有將隨機(jī)森林算法應(yīng)用于學(xué)生成績(jī)進(jìn)行評(píng)價(jià)研究分析。

        本文提出一種自學(xué)習(xí)分類算法-隨機(jī)森林分類算法預(yù)測(cè)學(xué)生成績(jī),并通過(guò)實(shí)驗(yàn)說(shuō)明該算法在對(duì)學(xué)生成績(jī)數(shù)據(jù)預(yù)測(cè)上的有效性,希望該算法在教學(xué)管理能起到積極的改進(jìn)作用。

        1 隨機(jī)森林算法

        1.1 決策樹(shù)

        決策樹(shù)是基于樹(shù)結(jié)構(gòu)來(lái)進(jìn)行決策的一種算法。它是一樹(shù)狀結(jié)構(gòu),它從根節(jié)點(diǎn)開(kāi)始對(duì)數(shù)據(jù)樣本(由實(shí)例集組成,實(shí)例有若干屬性)進(jìn)行測(cè)試,根據(jù)不同的結(jié)果將數(shù)據(jù)樣本劃分成不同的數(shù)據(jù)樣本子集。每個(gè)數(shù)據(jù)樣本子集構(gòu)成一子節(jié)點(diǎn)。生成的決策樹(shù)的每個(gè)葉節(jié)點(diǎn)對(duì)應(yīng)一個(gè)分類。它有ID3、C4.5、CRAT、SLIQ等。一棵決策樹(shù)的生成過(guò)程主要有3個(gè)部分,即特征選擇、決策樹(shù)生成和剪枝。其中最關(guān)鍵的問(wèn)題是特征選擇,不同的分裂標(biāo)準(zhǔn)對(duì)決策樹(shù)的泛化誤差有很大的影響。ID3決策樹(shù)算法是根據(jù)信息論的信息增益來(lái)進(jìn)行評(píng)估和特征選擇的,C4.5決策樹(shù)算法是用信息增益率來(lái)選擇特征的,CRAT決策樹(shù)算法采用的是Gini指數(shù)來(lái)進(jìn)行選擇的。

        1.2 隨機(jī)森林

        隨機(jī)森林在以決策樹(shù)為基學(xué)習(xí)器構(gòu)建Bagging集成的基礎(chǔ)上,進(jìn)一步在決策樹(shù)的訓(xùn)練過(guò)程中引入隨機(jī)屬性的選擇。隨機(jī)森林算法簡(jiǎn)單、易于實(shí)現(xiàn)、計(jì)算開(kāi)銷小,在很多現(xiàn)實(shí)任務(wù)中展現(xiàn)出強(qiáng)大的性能。

        隨機(jī)森林分類是由很多決策樹(shù)分類模型組成的組合分類模型,每個(gè)決策樹(shù)分類模型都有一票投票權(quán)來(lái)選擇最優(yōu)的分類結(jié)果。隨機(jī)森林分類的基本思想:首先,利用bootstrap抽樣從原始訓(xùn)練集抽取k個(gè)樣本,每個(gè)樣本的樣本容量都與原始訓(xùn)練集一樣;然后,對(duì)k個(gè)樣本分別建立k個(gè)決策樹(shù)模型,得到k種分類結(jié)果;最后,根據(jù)k種分類結(jié)果對(duì)每個(gè)記錄進(jìn)行投票表決決定其最終分類[9]。隨機(jī)森林構(gòu)建主要包括以下3個(gè)步驟:

        (1)為N棵決策樹(shù)抽樣產(chǎn)生N個(gè)訓(xùn)練集。每一棵決策樹(shù)都對(duì)應(yīng)一個(gè)訓(xùn)練集,主要采用Bagging抽樣方法從原始數(shù)據(jù)集中產(chǎn)生N個(gè)訓(xùn)練子集。

        (2)決策樹(shù)構(gòu)建。

        決策樹(shù)的構(gòu)建過(guò)程包括兩個(gè)步驟:先構(gòu)建獨(dú)立的決策樹(shù),然后多棵決策樹(shù)形成“森林”,在每棵樹(shù)的生長(zhǎng)過(guò)程中,由指數(shù).最小原則選出M個(gè)特征變量中m個(gè)屬性中的最優(yōu)劃分。節(jié)點(diǎn)分裂原則一般采用CART算法或C4.5算法。在隨機(jī)森林算法中,選中的屬性個(gè)數(shù)稱為隨機(jī)特征變量。

        (3)隨機(jī)森林形成及算法執(zhí)行。重復(fù)步驟(1)、(2),構(gòu)建大量決策樹(shù),形成隨機(jī)森林。算法最終輸出由多數(shù)投票方法實(shí)現(xiàn),將測(cè)試集樣本輸入隨機(jī)構(gòu)建的N棵決策子樹(shù)進(jìn)行分類,總結(jié)每:棵決策樹(shù)分類結(jié)果,并將具有最大投票數(shù)的分類結(jié)果作為算法最終輸出結(jié)果[10]。

        隨機(jī)森林示意圖如圖1所示:

        2 基于隨機(jī)森林的學(xué)生成績(jī)?cè)u(píng)價(jià)

        本文的實(shí)驗(yàn)數(shù)據(jù)來(lái)自某高校2012級(jí)信息學(xué)院計(jì)算機(jī)系四個(gè)班的學(xué)生成績(jī)。用以上提出的隨機(jī)森林模型對(duì)學(xué)生前期成績(jī)數(shù)據(jù)建模,預(yù)測(cè)后期的專業(yè)平均成績(jī)。由預(yù)測(cè)結(jié)果得到各門(mén)課程的重要性。由此結(jié)果,教師在教學(xué)過(guò)程中可重點(diǎn)進(jìn)行教學(xué),提高教學(xué)質(zhì)量,達(dá)到培養(yǎng)人才目的。

        2.1 數(shù)據(jù)預(yù)處理

        本文的數(shù)據(jù)來(lái)自某2012級(jí)信息學(xué)院256名學(xué)生8896條成績(jī)。由于采集到的數(shù)據(jù)是不完整的含有噪聲的冗余數(shù)據(jù),因此需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。原始數(shù)據(jù)中的屬性個(gè)數(shù)很多,刪除一些不相關(guān)的屬性,如學(xué)年、學(xué)分、班級(jí)以及課程性等。采用分箱法對(duì)學(xué)生成績(jī)數(shù)據(jù)進(jìn)行離散化處理。處理后的數(shù)據(jù)將分為五個(gè)等級(jí),分別為:60分以下為不及格,60-70為及格,70-80為中等,80-90為良好,90-100為優(yōu)秀。離散化后的數(shù)據(jù)如下表所示:

        2.2 實(shí)驗(yàn)驗(yàn)證與結(jié)果分析

        本實(shí)驗(yàn)采用python語(yǔ)言平臺(tái)Anaconda3實(shí)現(xiàn)。首先構(gòu)建了如圖2所示基于ESP_RF算法的學(xué)生成績(jī)?cè)u(píng)價(jià)模型結(jié)構(gòu)。

        首先,確定隨機(jī)森林模型中兩個(gè)重要參數(shù):樹(shù)節(jié)點(diǎn)的變量個(gè)數(shù)mtry的值和樹(shù)的個(gè)數(shù)ntree。通過(guò)實(shí)驗(yàn)得到,當(dāng)決策樹(shù)數(shù)量取值大于400以后,錯(cuò)誤率趨于穩(wěn)定,以此將ntee值設(shè)為400。并從實(shí)驗(yàn)得到當(dāng)決策樹(shù)節(jié)點(diǎn)所選變量數(shù)為3的時(shí)候,模型的誤判率均值是最低的。實(shí)驗(yàn)結(jié)果如圖3所示。

        通過(guò)學(xué)生第一至第四學(xué)期的成績(jī)預(yù)測(cè)第五學(xué)期的專業(yè)課成績(jī),并對(duì)影響下學(xué)期的課程進(jìn)行排序。如圖4所示:

        從以上實(shí)驗(yàn)中可以得出:

        1)這幾門(mén)課程中“數(shù)據(jù)結(jié)構(gòu)”對(duì)學(xué)生專業(yè)學(xué)習(xí)課程的影響最大。其次是“數(shù)據(jù)庫(kù)原理”“WEB高級(jí)語(yǔ)言程序設(shè)計(jì)”“程序設(shè)計(jì)與算法訓(xùn)練”“面向?qū)ο蟪绦蛟O(shè)計(jì)”和“數(shù)據(jù)結(jié)構(gòu)課程設(shè)計(jì)”。

        2)“電子技術(shù)基礎(chǔ)”“計(jì)算機(jī)科學(xué)概論”對(duì)學(xué)生成績(jī)影響較小。

        根據(jù)實(shí)驗(yàn)得到的模型中兩種自變量重要程序排序?qū)Ρ冉Y(jié)果,實(shí)踐課成績(jī)對(duì)后期學(xué)生專業(yè)學(xué)習(xí)的影響較小,在今后的教學(xué)過(guò)程中,能夠有針對(duì)性地對(duì)學(xué)生教學(xué)有所傾向,為學(xué)生對(duì)后續(xù)課程的學(xué)習(xí)打好基礎(chǔ)。

        本研究在對(duì)學(xué)生成績(jī)數(shù)據(jù)進(jìn)行處理時(shí),由于所收集到的數(shù)據(jù)存在缺失、多次補(bǔ)考值等問(wèn)題,進(jìn)行離散化處理后,得到的模型效果不是特別理想。也沒(méi)有過(guò)多考慮其他因素對(duì)成績(jī)的影響。在將來(lái)的研究中,可以考慮其他因素及與多種模型進(jìn)行對(duì)比以得到更加準(zhǔn)確的結(jié)果。

        參考文獻(xiàn):

        [1]謝娟英.學(xué)生成績(jī)關(guān)鍵因素挖掘與成績(jī)預(yù)測(cè)[J].南京信息工程大學(xué)學(xué)報(bào):自然科學(xué)版,2019(3):316-325.

        [2]吳強(qiáng).基于決策樹(shù)-LMBP神經(jīng)網(wǎng)絡(luò)的學(xué)生成績(jī)分析及預(yù)測(cè)模型的研究[J].成都信息工程學(xué)院學(xué)報(bào),2018(3):274-280.

        [3]孫力,張凱.基于數(shù)據(jù)挖掘的網(wǎng)絡(luò)教育學(xué)習(xí)成績(jī)細(xì)分預(yù)測(cè)的研究與實(shí)現(xiàn)[J].中國(guó)遠(yuǎn)程教育,2016(12):22-29.

        [4]錢(qián)浩韻.基于主成分分析法的學(xué)生成績(jī)?cè)u(píng)價(jià)[J].南京工業(yè)職業(yè)技術(shù)學(xué)院學(xué)報(bào),2017,17(4):21-24.

        [5]許允之.基于隨機(jī)森林算法的徐州霧霾回歸預(yù)測(cè)模型[A].《環(huán)境工程》編委會(huì)、工業(yè)建筑雜志社有限公司.《環(huán)境工程》2019年全國(guó)學(xué)術(shù)年會(huì)論文集[C].《環(huán)境工程》編委會(huì)、工業(yè)建筑雜志社有限公司:《環(huán)境工程》編輯部,2019:6.

        [6]夏濤,徐輝煌.基于機(jī)器學(xué)習(xí)的冠心病住院費(fèi)用預(yù)測(cè)研究[J].智能計(jì)算機(jī)與應(yīng)用,2019(9).

        [7]馮曉榮.基于深度學(xué)習(xí)與隨機(jī)森林的高維數(shù)據(jù)特征選擇[J].計(jì)算機(jī)工程與設(shè)計(jì),2019,40(9).

        [8]楊長(zhǎng)春.基于隨機(jī)森林的學(xué)生畫(huà)像特征選擇方法[J].計(jì)算機(jī)工程與設(shè)計(jì),2019,40(10).

        [9]呂紅燕,馮倩.隨機(jī)森林算法研究綜述[0].河北省科學(xué)院學(xué)報(bào),2019,40(10).

        [10]梁瓊芳,莎仁.基于隨機(jī)森林的數(shù)學(xué)試題難易度分類研究[J].軟件導(dǎo)刊,2019(9).

        [通聯(lián)編輯:王力]

        猜你喜歡
        成績(jī)分析隨機(jī)森林預(yù)測(cè)
        無(wú)可預(yù)測(cè)
        黃河之聲(2022年10期)2022-09-27 13:59:46
        選修2-2期中考試預(yù)測(cè)卷(A卷)
        選修2-2期中考試預(yù)測(cè)卷(B卷)
        不必預(yù)測(cè)未來(lái),只需把握現(xiàn)在
        隨機(jī)森林在棉蚜蟲(chóng)害等級(jí)預(yù)測(cè)中的應(yīng)用
        基于二次隨機(jī)森林的不平衡數(shù)據(jù)分類算法
        軟件(2016年7期)2017-02-07 15:54:01
        學(xué)生成績(jī)分析系統(tǒng)
        拱壩變形監(jiān)測(cè)預(yù)報(bào)的隨機(jī)森林模型及應(yīng)用
        基于Apriori算法的高校學(xué)生成績(jī)數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘分析
        基于隨機(jī)森林算法的飛機(jī)發(fā)動(dòng)機(jī)故障診斷方法的研究
        92自拍视频爽啪在线观看| 蜜桃臀无码内射一区二区三区| 97在线视频免费人妻| 亚洲精品久久久久中文字幕| 亚洲av日韩综合一区在线观看| 亚洲色偷拍区另类无码专区| 中文字幕亚洲好看有码| 人妻少妇中文字幕av| 在厨房拨开内裤进入毛片| 色哟哟精品视频在线观看 | 中文字幕乱码免费视频| 中文字幕第一页亚洲观看| 国产黄色一级大片一区二区| 日本一区二区三区人妻| 国产乱国产乱老熟300部视频| 99久久久国产精品免费蜜臀| 成年人视频在线播放视频| 亚洲精品美女中文字幕久久| 久久精品国产亚洲av麻豆色欲| 国产人在线成免费视频| 中文字幕午夜AV福利片| 亚洲国产综合精品中久| 四虎成人精品在永久免费| 丰满熟妇乱又伦| 欧美高清国产在线播放| 国产日韩精品视频一区二区三区| 色偷偷激情日本亚洲一区二区| 男男性恋免费视频网站| 日韩一区二区不卡av| 国产丝袜美腿在线视频| 手机福利视频| 亚洲av中文无码乱人伦在线r▽| 国产成人cao在线| 久草中文在线这里只有精品 | 国产呦系列呦交| 亚洲天堂第一区| 国产在线看不卡一区二区| 久久久久亚洲av成人人电影| 亚洲依依成人亚洲社区| 大肥婆老熟女一区二区精品| 久久久人妻精品一区bav|