亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于機器學(xué)習(xí)的學(xué)生成績預(yù)警系統(tǒng)建模與研究

        2016-02-28 02:04:02吳鯤
        關(guān)鍵詞:分差剪枝決策樹

        吳鯤

        (江蘇聯(lián)合職業(yè)技術(shù)學(xué)院揚州商務(wù)分院,江蘇 揚州 225127)

        基于機器學(xué)習(xí)的學(xué)生成績預(yù)警系統(tǒng)建模與研究

        吳鯤

        (江蘇聯(lián)合職業(yè)技術(shù)學(xué)院揚州商務(wù)分院,江蘇 揚州 225127)

        隨著高校智慧校園建設(shè)的深入,所采集的校園大數(shù)據(jù)呈幾何基數(shù)增長,如何充分利用大數(shù)據(jù)對校園學(xué)習(xí)生活進行科學(xué)的預(yù)測與示警是智慧校園建設(shè)研究的重大課題。為了彌補以往的技術(shù)不足,采用機器學(xué)習(xí)技術(shù)應(yīng)用于成績預(yù)警這個領(lǐng)域中,隨機森林算法、應(yīng)用支持向量機(SVM,Support Vector Machine)、線性回歸、回歸分類樹等技術(shù),詳細論述了高校學(xué)生成績預(yù)警系統(tǒng)的基于機器學(xué)習(xí)的成績預(yù)警功能的設(shè)計與實現(xiàn)。

        機器學(xué)習(xí);隨機森林算法;SVM;成績預(yù)警;智慧校園

        高校的智慧校園建設(shè)正如火如荼地進行,作為數(shù)字化校園的更高級階段,智慧校園建設(shè)強調(diào)的是“智慧”,突出的是智能,如何利用大數(shù)據(jù)技術(shù)、云服務(wù)、物聯(lián)網(wǎng)等技術(shù),以人為本地為師生、家長、社會提供信息化服務(wù),以達到為學(xué)生的發(fā)展和終生幸福打好扎實的基礎(chǔ),是智慧校園建設(shè)研究的熱點問題。高校學(xué)生成績管理是高校教務(wù)系統(tǒng)管理的核心,以往的學(xué)生成績管理系統(tǒng)只關(guān)注于學(xué)生學(xué)習(xí)數(shù)據(jù)的分析,計算不同成績產(chǎn)生的概率,通過一定的算法推定未來的成績從而產(chǎn)生預(yù)警。這種方法將學(xué)生的學(xué)習(xí)獨立于學(xué)生的校園活動之外,有其局限性。通過智慧校園產(chǎn)生的大數(shù)據(jù),充分采集學(xué)生的大數(shù)據(jù),如進入圖書館學(xué)習(xí)的時間、通過門禁進入實訓(xùn)室的時間、校園消費軌跡、網(wǎng)絡(luò)上網(wǎng)日志等數(shù)據(jù),采用隨機森林算法建立起高校學(xué)生成績預(yù)警系統(tǒng),以期對學(xué)習(xí)行為進行警示,全面提高學(xué)生的成績。

        一、相關(guān)技術(shù)綜述

        (一)決策樹

        數(shù)據(jù)的分類以樹形結(jié)構(gòu)的方式呈現(xiàn),每個分支都代表著不同的分類情況。分類的標準分為信息增益法,用信息的增益作為分類劃分的標準,如ID3、C4.5算法、基尼指數(shù)法。用數(shù)據(jù)劃分的純度來做比較,最典型的就是CART分類回歸樹所用的方法,樹構(gòu)造好了之后,可以有剪枝的操作。

        (二)隨機森林

        隨機森林算法是用隨機的方式來建立一個森林,森林有決策樹,每個決策樹生成是隨機的,它們之間是沒有關(guān)聯(lián)的。當有一個新的輸入樣本進入的時候,就讓森林中的每一棵決策樹分別進行一下判斷,看看這個樣本應(yīng)該屬于哪一類(對于分類算法),然后看看哪一類被選擇最多,就預(yù)測這個樣本為那一類。

        在傳統(tǒng)的CART算法中,每個內(nèi)部節(jié)點都是原始數(shù)據(jù)集的子集,根節(jié)點包含了所有的原始數(shù)據(jù)而在每個內(nèi)部節(jié)點處,從所有屬性中找出最好的分裂方式進行分裂,然后對后續(xù)節(jié)點依次進行分裂,直到葉子節(jié)點最后通過剪枝使測試誤差最小。與其他算法不同,隨機森林中單棵樹的生長可概括為以下幾點:

        1.使用Bagging方法形成各異的訓(xùn)練集;假設(shè)原始訓(xùn)練集中的樣本數(shù)為N,從中有放回地隨機選取個樣本形成一個新的訓(xùn)練集,以此生成一棵分類樹。

        2.隨機選擇特征對分類回歸樹的內(nèi)部節(jié)點進行分裂;假設(shè)共有M個特征,指定一個正整數(shù)m〈〈M,在每個內(nèi)部節(jié)點,從M個特征中隨機抽取m個特征作為候選特征,選擇這個m特征上最好的分裂方式對節(jié)點進行分裂。在整個森林的生長過程中,M的值保持不變。

        3.每棵樹任其生長,不進行剪枝。

        (三)支持向量機(SVM)

        支持向量機(SVM)是在統(tǒng)計學(xué)習(xí)理論和結(jié)構(gòu)風險最小原理基礎(chǔ)上發(fā)展起來的一種新的機器學(xué)習(xí)方法,是解決非線性分類、函數(shù)估算、密度估算等問題的有效手段,主要思想是建立一個最優(yōu)決策超平面,使得該平面兩側(cè)距平面最近的兩類樣本之間的距離最大化,從而對分類問題提供良好的泛化能力。根據(jù)有限的樣本信息在模型中特定訓(xùn)練樣本的學(xué)習(xí)精度和無錯誤地識別任意樣本的能力之間尋求最佳最精確的結(jié)果,保證了模型具有全局最優(yōu)、最大泛化能力、推廣能力強等優(yōu)點,在解決小樣本、非線性及高維模式識別中表現(xiàn)出許多特有的優(yōu)勢,并能夠推廣應(yīng)用到函數(shù)擬合中,能夠很好地解決許多實際預(yù)測問題。

        二、預(yù)測模型的建立

        (一)關(guān)鍵數(shù)據(jù)的提取

        為了對學(xué)生的期末成績走向有一個合理的預(yù)測,根據(jù)校園生活實際經(jīng)驗進行了關(guān)鍵詞的選取,本文從3個大項、12個小項進行了關(guān)鍵數(shù)據(jù)的提取,涵蓋了學(xué)生進入圖書館學(xué)習(xí)的時間、學(xué)生吃飯的時間、學(xué)生的課堂學(xué)習(xí)時間、通過門禁進入實訓(xùn)室的時間、進入機房的時間、校園消費記錄、進入宿舍時間、學(xué)生上網(wǎng)學(xué)習(xí)的時間、學(xué)生上網(wǎng)游戲的時間、學(xué)生上網(wǎng)休閑的時間作為關(guān)鍵數(shù)據(jù)進行深入的挖掘,所采集的數(shù)據(jù)是江蘇聯(lián)合職業(yè)技術(shù)學(xué)院揚州商務(wù)分院所有學(xué)生采集的大數(shù)據(jù)。

        (二)數(shù)據(jù)特征值的提取

        表1 關(guān)鍵數(shù)據(jù)表

        特征的選取對于構(gòu)建決策樹的分類十分重要,提取出合適的特征值對于預(yù)測學(xué)生成績發(fā)展的趨勢具有十分重要的意義。在選擇特征值時,希望發(fā)現(xiàn)那些對學(xué)生成績波動影響特別大的特征集。

        決策樹(隨機森林)的特征值的選取依賴于已知數(shù)據(jù),利用決策樹我們對測試集進行分類,以此判斷是否需要對學(xué)生進行預(yù)警。在這個過程中,由于樹的劃分太細,很容易造成過擬合的問題。在這里,我們可以利用剪枝來確認最終的特征值,剪枝的方法主要有如下幾種:(1)錯誤率降低剪枝:最簡單的剪枝方法,減少某個節(jié)點看是否能夠提高正確率(利用訓(xùn)練集來驗證正確率而不是測試集)。(2)悲觀剪枝:主要依據(jù)概率論根據(jù)自身節(jié)點比較信息增益來進行剪枝。(3)代價復(fù)雜度:主要是通過增加新的節(jié)點看是否能大幅提升準確率,通過閾值來判斷是否增加新的節(jié)點)。隨機森林的本質(zhì)就是多棵決策樹的組合,利用不怎么準確的決策方法生成最終一個可靠的結(jié)果。

        三、基于隨機森林的學(xué)習(xí)成績預(yù)測算法

        (一)模型的算法

        首先我們得到?jīng)Q策樹,下面我們就需要進行相對應(yīng)的剪枝。這里我們利用剪枝前后信息熵的變化來說明。以屬性R分裂前后的信息增益比其他屬性最大。這里信息的定義如下:

        其中的m表示數(shù)據(jù)集D中類別C的個數(shù),Pi表示D中任意一個記錄屬于Ci的概率,計算時Pi=(D中屬于Ci類的集合的記錄個數(shù)/|D|)。Info(D)表示將數(shù)據(jù)集D不同的類分開需要的信息量。

        熵表示的是不確定度的度量,如果某個數(shù)據(jù)集的類別的不確定程度越高,則其熵就越大。比如我們將學(xué)生上網(wǎng)瀏覽的目的定義為f1,f1的取值為{1,2,3,4,5,6},代表有六種不同的可能性,則f1的熵entropy(f1)=-(1/6*log (1/6)+…+1/6*log(1/6))=-1*log(1/6)=2.58;我們將學(xué)生進入圖書館的目的定義為f2,f2的取值為 {1,2,3,4},f2的熵entropy(1)=-(1/4*log(1/4)+1/4*log(1/4)+1/4*log(1/4) +1/4*log(1/4)) =-log(1/4)=2;將學(xué)生進入實訓(xùn)室的目的定義為f3,顯然學(xué)生進入實訓(xùn)室一定是為了學(xué)習(xí),即f3的取值為{1},故其熵entropy(f3)=-1*log(1)=0。可以看到,可能的情況越多,熵值也越大。而當只有一個可能時,熵值為0,此時表示不確定程度為0,也就是學(xué)生的目的是確定的。

        有了上面關(guān)于熵的運算,我們接著計算信息增益。假設(shè)我們選擇屬性R作為分裂屬性,數(shù)據(jù)集D中,R有k個不同的取值{V1,V2,…,Vk},于是可將D根據(jù)R的值分成k組{D1,D2,…,Dk},按R進行分裂后,將數(shù)據(jù)集D不同的類分開還需要的信息量為:

        信息增益的定義為分裂前后,兩個信息量只差:

        信息增益Gain(R)表示屬性R給分類帶來的信息量,我們尋找Gain最大的屬性,就能使分類盡可能的純,即最可能地把不同的類分開。不過我們發(fā)現(xiàn),對所有的屬性Info(D)都是一樣的,所以求最大的Gain可以轉(zhuǎn)化為求最新的。

        (二)實際預(yù)測過程

        下面這個例子會預(yù)測學(xué)生是否沉迷于網(wǎng)絡(luò),首先我們得到如此的決策樹,下面就需要進行相對應(yīng)的剪枝。因為不同年級的課余時間不一樣,我們將年級作為一個特征值,學(xué)生到課率作為第二個特征值,學(xué)生上網(wǎng)日志訪問游戲類網(wǎng)站地址的頻率作為第三個特征值;將學(xué)生上網(wǎng)頻率作為第四個特征值。數(shù)據(jù)集D如附表1:

        圖1 決策樹

        附表1的數(shù)據(jù)集是根據(jù)學(xué)生的年級、上網(wǎng)頻率、是否經(jīng)常訪問游戲IP以及到課率來確定他是否會沉迷于網(wǎng)絡(luò),即最后一列“是否沉迷于網(wǎng)絡(luò)”是類標。現(xiàn)在我們用信息增益選出最佳的分類屬性,計算按年級分裂后的信息量:

        整個式子由三項累加而成,第一項為一年級,14條記錄中有5條為一年級,其中2(占2/5)條沉迷于網(wǎng)絡(luò),3(占3/5)條不沉迷于網(wǎng)絡(luò)。第二項為二年級,第三項為三年級。類似的有:

        同理,得出:lnfo訪問游戲(D)=0.789 ,lnfo到課率(D)=0.892

        可以得出lnfo年級(D)最小,說明不要增加信用等級這個節(jié)點,增加之后不確定新增加,即以年級分裂后,分得的結(jié)果中類標最純,此時以年級作為根結(jié)點的測試屬性。

        由于數(shù)據(jù)來源不同,存在不同的結(jié)果結(jié)合。這里首先根據(jù)隨機森林得到相對應(yīng)的分類。然后進行剪枝,得到相對應(yīng)的特征,再利用這些特征對結(jié)果進行分類,同時我們把這個隨機森林方法應(yīng)用到歷史的情況,利用提取學(xué)生的一卡通、門禁等各種數(shù)據(jù)以及SVM方法來擬合某學(xué)期成績的升降(采用交叉檢驗,使得結(jié)果具有穩(wěn)定性不至于出現(xiàn)過擬合的問題)。利用這個擬合函數(shù)來預(yù)測學(xué)生本學(xué)期的分差,而如果結(jié)果的趨勢和Tree的判別趨勢相同我們就選擇采信這種方法,如果兩個結(jié)果趨勢矛盾,我們將利用這個學(xué)生本人的歷史數(shù)據(jù)再次進行SVM模擬,將結(jié)果加入到之前的SVM模型當中。

        用SVM方法來擬合歷史上特征量的變化和最終分差的差別,利用這個SVM擬合來擬合本學(xué)習(xí)期學(xué)生的變化得到最終的分差。這里的分差表示學(xué)生本學(xué)期均分和以往均分的變化,正值表示學(xué)生成績下滑,負值表示學(xué)生成績上升。因此,我們就可以在學(xué)期中通過這種算法不斷提醒某些學(xué)生可能存在成績下滑的危險或大幅度上升的趨勢。

        四、預(yù)測結(jié)果與分析

        (一)預(yù)測結(jié)果

        完成對模型建模與計算后,分別對學(xué)校一年級、二年級、三年級的學(xué)生數(shù)據(jù)進行分類與擬合,計算最終分差,這里截取了部分同學(xué)的分差,如表2,并形成年級成績分差趨勢圖,如圖2。

        (二)結(jié)果分析

        如圖3所示,我們將2015年學(xué)校三個年級成績趨勢分差的預(yù)測值和學(xué)校三個年級實際成績分差進行了對比,模型擬合效果總體成績趨勢較為理想,但預(yù)測分差值和實際分差值浮動的幅度還是較大,需要在以后的研究中再引入其他數(shù)據(jù)加以改進。

        表2 各年級學(xué)生成績分差

        附表1 學(xué)生上網(wǎng)數(shù)據(jù)統(tǒng)計

        圖2 各年級學(xué)生成績分差趨勢

        圖3 預(yù)測成績與實際對比圖

        [1]Brett Lanta.機器學(xué)習(xí)與R語言[M].北京:機械工業(yè)出版社,2015:5-17.

        [2]方匡南,吳見彬,朱建平,謝邦昌.隨機森林方法研究綜述[J].統(tǒng)計與信息壇,2011(3):32-38.

        [3]董師師,黃哲學(xué).隨機森林理論淺析[J].集成技術(shù),2013(1):1-7.

        [4]劉華煜.基于支持向量機的機器學(xué)習(xí)研究[D].大慶石油學(xué)院,2005.

        [5]王全才.隨機森林特征選擇[D].大連理工大學(xué),2011.

        TP

        A

        1673-0046(2016)12-0178-03

        猜你喜歡
        分差剪枝決策樹
        新建本科院校學(xué)生評教的實證研究
        人到晚年宜“剪枝”
        基于YOLOv4-Tiny模型剪枝算法
        贏在高考
        一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
        決策樹和隨機森林方法在管理決策中的應(yīng)用
        電子制作(2018年16期)2018-09-26 03:27:06
        剪枝
        天津詩人(2017年2期)2017-03-16 03:09:39
        基于決策樹的出租車乘客出行目的識別
        二、三本合并情況下的一種高校投檔線預(yù)測方法
        98分和100分差多少
        国产欧美日韩视频一区二区三区| 校园春色综合久久精品中文字幕| 精品国产免费一区二区三区香蕉| 日韩亚洲av无码一区二区三区| 国产午夜在线观看视频播放| 中文字幕成人乱码亚洲| 一区二区在线视频免费蜜桃| av中文字幕潮喷人妻系列| 亚洲人成无码网www| 爱v天堂在线观看| 美腿丝袜日韩在线观看| 精品乱码一区内射人妻无码| 亚洲日韩∨a无码中文字幕| 国产精品麻豆A啊在线观看| 男女啪啪动态视频在线观看| 国产freesexvideos中国麻豆 | 少妇被啪出水在线视频| 极品少妇hdxx麻豆hdxx| 日日碰狠狠躁久久躁96avv| 精品国免费一区二区三区| 免费人成黄页网站在线一区二区| 国产办公室秘书无码精品99| 蜜桃成人无码区免费视频网站| 亚洲午夜无码视频在线播放| 久久人妻少妇嫩草av蜜桃| 国产精品久久成人网站| 自拍偷自拍亚洲精品播放| 日本一区二区三区小视频| 中文字幕一区在线直播| 玩50岁四川熟女大白屁股直播| 精品午夜久久网成年网| 久久久99精品国产片| 亚洲精品国产精品乱码在线观看| www国产无套内射com| 欧美精品日韩一区二区三区| 亚洲精品女同一区二区三区| 国产超碰人人爽人人做人人添| 国产一国产一级新婚之夜| 精品日韩av专区一区二区 | 五月天丁香久久| 日韩女同一区二区三区久久|