亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        決策樹算法在學(xué)生成績分析中的應(yīng)用研究

        2017-03-01 10:56:01韓麗娜韓改寧
        電子設(shè)計工程 2017年2期
        關(guān)鍵詞:信息學(xué)生

        韓麗娜,韓改寧

        (咸陽師范學(xué)院 圖形圖像處理研究所,陜西 咸陽 712000)

        決策樹算法在學(xué)生成績分析中的應(yīng)用研究

        韓麗娜,韓改寧

        (咸陽師范學(xué)院 圖形圖像處理研究所,陜西 咸陽 712000)

        基于挖掘分析影響學(xué)生學(xué)習(xí)效果主因素為目的,采用了能夠?qū)?shù)據(jù)進行挖掘分析并直觀展示結(jié)果的決策樹技術(shù)方法,通過某班學(xué)生某門課程的學(xué)習(xí)信息數(shù)據(jù)進行挖掘分析的試驗,采用ID3和C4.5算法生成決策樹,并使用后剪枝技術(shù)精簡決策樹,最終找出決定本門課程學(xué)習(xí)效果的主要因素-考勤。從而為分析學(xué)生學(xué)習(xí)情況,給予個性化提示與指導(dǎo)提供有效的建議。

        決策樹;信息熵;信息增益;信息增益率

        決策樹算法最早源于人工智能的機器學(xué)習(xí)技術(shù),用以實現(xiàn)數(shù)據(jù)內(nèi)在規(guī)律的探究和新數(shù)據(jù)對象的分類預(yù)測[1-2]。由于其出色的數(shù)據(jù)分析能力和直觀易懂的結(jié)果展示等特點,決策樹成為一種重要的數(shù)據(jù)挖掘技術(shù)。隨著信息化技術(shù)的不斷發(fā)展,高校遇到的新問題越來越多,雖然積累了大量的學(xué)生信息,但學(xué)生的管理工作越來越復(fù)雜[2]。決策樹技術(shù)對學(xué)生的學(xué)習(xí)信息進行挖掘分析,找到影響學(xué)習(xí)效果的因素以及這些因素反映的相關(guān)問題,那么就能及時反饋教學(xué)效果,預(yù)測學(xué)生的發(fā)展趨勢,進而對學(xué)生的行為進行個性化指導(dǎo),這樣不僅有利于教師改進教學(xué)方式,而且對學(xué)生的管理工作也提供了有用信息。所以研究決策樹技術(shù)在高校中的應(yīng)用具有重要的現(xiàn)實意義。

        1 決策樹算法及基本概念

        1.1 ID3算法

        決策樹算法的目的是通過向數(shù)據(jù)學(xué)習(xí),獲得輸入變量和輸出變量不同取值下的數(shù)據(jù)分類和預(yù)測規(guī)律,并用于對新數(shù)據(jù)對象的分類預(yù)測[3-4]。屆時,決策樹能夠依據(jù)新數(shù)據(jù)輸入變量的取值,推斷其輸出變量的分類取值。它是一種有指導(dǎo)的學(xué)習(xí),要求數(shù)據(jù)既包含輸入變量也包含輸出變量。

        決策樹最有名的算法是Quinlan在1986年提出的ID3算法[5],該算法通過計算每個屬性的信息增益,選取具有最高增益的屬性作為給定數(shù)據(jù)集合的測試屬性并創(chuàng)建根節(jié)點,以該屬性為標(biāo)記,對該屬性的每個取值創(chuàng)建一個分支,并據(jù)此劃分樣本[6-8]。以此類推不斷向下,直到選擇某個葉子節(jié)點,從而構(gòu)造決策樹。

        1.2 信息熵及信息增益

        信息熵:ID3算法認為,對于樣例集合S而言,擁有P個正例和N個反例(若為多個分類結(jié)果,可照此類推),它的信息熵是信息量的數(shù)學(xué)期望,公式為:

        樣例集 S中具有某屬性 A且有 v個取值(A {V1,V2,…Vv}),并將S分為對應(yīng)的v個子集S1,S2,…Sv,而且對于任意一個Si子集均含有Pi個正例和Ni個反例,規(guī)定Si的信息熵為:

        條件熵:以屬性A為根進行分類的信息熵(也叫條件熵)為:

        信息增益:屬性A的信息增益[8-10]定義為:

        1.3 C4.5算法

        由于ID3算法是以信息增益值的大小作為標(biāo)準(zhǔn),它存在一定問題:類別值多的輸入變量比類別值少的輸入變量肯定有更多的機會成為當(dāng)前最佳分組變量。為了解決這個問題,完善形成了C4.5算法。它的核心概念還是信息熵,主要以信息增益率為標(biāo)準(zhǔn)確定最佳分組變量。

        信息增益率:屬性A的信息增益率定義為:

        可見,如果輸入變量A有較多的分類值,則它的信息熵會很大,而信息增益率會因此降低,進而消除了類別數(shù)目所帶來的影響。

        2 決策樹技術(shù)的應(yīng)用

        本次數(shù)據(jù)信息以某學(xué)院某專業(yè)38名同學(xué)《程序設(shè)計基礎(chǔ)》期末上機考試成績?yōu)榛A(chǔ),結(jié)合學(xué)生的平時成績(考勤,回答問題,作業(yè)完成)以及學(xué)生的調(diào)查數(shù)據(jù)信息(課程的興趣,每周上機時長,試卷難易程度,學(xué)生自評)等對學(xué)生信息進行數(shù)據(jù)挖掘分析,生成決策樹。

        2.1 數(shù)據(jù)收集、處理

        數(shù)據(jù)源主要包括調(diào)查數(shù)據(jù)信息、學(xué)生學(xué)習(xí)信息以及考試成績信息[11-13]。調(diào)查數(shù)據(jù)信息如表1所示,主要包括學(xué)生的學(xué)號,性別,課程興趣,每周上機時長,試卷難易程度,學(xué)生自評等。學(xué)生學(xué)習(xí)信息如表2所示,包括考勤,回答問題,作業(yè)完成等。其中每周上機時長(h)分為>2、1-2、<1;課程興趣分為感興趣、一般、不感興趣;試卷難易分為高、中、低。上課考勤、回答問題、作業(yè)完成為學(xué)生實際完成次數(shù)(滿勤16次,提問16次,作業(yè)布置10次)??荚嚦煽冃畔⑷绫?所示。

        表1 學(xué)生調(diào)查統(tǒng)計表

        表2 學(xué)生學(xué)習(xí)情況統(tǒng)計表

        表3 學(xué)生成績表

        由于學(xué)生缺考,調(diào)查者未填寫等等原因,收集到的數(shù)據(jù)存在不完整性,剔除不合要求的數(shù)據(jù)[14-15],剩下35條學(xué)生數(shù)據(jù),將其中的23條數(shù)據(jù)作為訓(xùn)練樣本數(shù)據(jù),其余12條數(shù)據(jù)作為測試樣本數(shù)據(jù)。

        為了便于建立決策樹模型,根據(jù)實際情況,采用3個數(shù)據(jù)表中的學(xué)號,課程興趣,每周上機時長,試卷難易,考勤,成績合并為一個成績分析表如表 4所示,以此作為建立決策樹模型的依據(jù)。經(jīng)過數(shù)據(jù)預(yù)處理后,量化表示數(shù)據(jù)表中的描述性文字(其中考勤>13次,優(yōu)秀,考勤8-13之間,一般,考勤<8次,差;成績<60分,不及格,成績60-85,良好,成績>85,優(yōu)秀)。

        2.2 構(gòu)造決策樹

        據(jù)表4可知,訓(xùn)練樣本的結(jié)果分為優(yōu)秀(C1),良好(C2),不及格(C3)三類。

        表4 學(xué)生成績分析表

        1)計算信息熵

        對于23個訓(xùn)練樣本,其中成績C1類有14個樣本,成績C2類有5個樣本,成績C3類有4個樣本。根據(jù)公式(1)得到信息熵為:

        2)計算條件熵

        考查樣本屬性A“每周上機時長”,共有優(yōu)秀,差,一般3個取值,據(jù)此將23個訓(xùn)練樣本也分為3類 (S1,S2,S3),屬性A取值優(yōu)秀有4個樣本(S1類),取值一般的有15個樣本(S2類),取值差的有4個樣本(S3類)。S1類中成績?yōu)镃1類的樣本有3個,成績?yōu)镃2類的樣本有1個,成績?yōu)镃3類的樣本有0個,根據(jù)公式(1)可得到S1類、S2類、S3類的信息熵分別為:

        根據(jù)公式(2),可得到以屬性A為分類的條件熵

        3)計算信息增益和信息增益率

        根據(jù)公式(3),公式(4)可得到屬性A的信息增益和信息增益率為:

        同理,可求出其他屬性(課程興趣B,考勤C,試卷難易D)的信息增益和信息增益率。由于試卷難易結(jié)果都為中,對構(gòu)建決策樹沒有影響。

        4)建立決策樹

        ID3算法選擇信息增益最大的屬性C(或C4.5算法選擇信息增益率最大的屬性C)作為樹根節(jié)點,按照屬性C的3個取值,對23個樣本進行分支得到3個子集,如圖1所示,然后對每一個分支按照以上方法遞歸計算,最后得到?jīng)Q策樹如圖2所示。

        圖1 屬性A為根建立分支

        5)修剪決策樹[8,15]

        由于完整的決策樹對樣本特征的描述 “過于精確”,所以并不是一棵最佳樹。隨著建樹層次的增加,確定分支準(zhǔn)則的樣本數(shù)量不斷減少,個性化特征非常明顯,缺乏一般性,出現(xiàn)“過渡擬合”的想象,解決這個問題的方法就是決策樹修剪。決策樹剪枝有兩種基本策略,一種是預(yù)修剪,另一種是后修剪[2]。文章采用后修剪方式繪制出來的決策樹如圖3所示。通過后剪枝技術(shù),只保留對學(xué)習(xí)成績影響最大的屬性值,減去對學(xué)習(xí)成績影響小的屬性。

        2.3 模型評估

        基于23個訓(xùn)練樣本,采用C4.5方法構(gòu)建完成某班學(xué)生學(xué)習(xí)成績的決策樹模型,是否對其它樣本集有效呢?將12個測試樣本數(shù)據(jù)按照此模型進行分析,11個學(xué)生數(shù)據(jù)符合模型的結(jié)果,準(zhǔn)確率達到了91%。采用其他專業(yè)同門課程的學(xué)生信息數(shù)據(jù)進行測試,準(zhǔn)確率也達到了85%以上,因此該模型是有效的,能夠?qū)W(xué)生的學(xué)習(xí),教師和教育教學(xué)部門的工作起到指導(dǎo)作用。

        圖2 學(xué)生成績分析決策樹

        圖3 修正后的決策樹

        3 結(jié) 論

        文中在論述了決策樹算法的基礎(chǔ)上,采用決策樹技術(shù)對學(xué)生成績問題進行了分析研究。選取影響學(xué)生學(xué)習(xí)成績的主要因素作為屬性,利用ID3算法和C4.5算法構(gòu)造決策樹,并通過后剪枝技術(shù)得到最終的決策樹,結(jié)果表明,學(xué)生上課聽講和課程興趣是影響學(xué)生成績的主要因素。通過測試樣本數(shù)據(jù)對模型進行評估,準(zhǔn)確率達到85%以上。不足之處該模型中樣本數(shù)據(jù)較少,考慮影響學(xué)生成績的因素不夠全面,而且基于訓(xùn)練樣本的后剪枝技術(shù)還需要進一步改進。

        [1]李愛國,厙向陽.數(shù)據(jù)挖掘原理、算法及應(yīng)用[M].西安:西安電子科技大學(xué)出社,2012.

        [2]薛薇,陳歡歌.SPSS Modeler數(shù)據(jù)挖掘方法及應(yīng)用[M].北京:電子工業(yè)出版社,2014.

        [3]施俊琦,王星(譯).決策與判斷[M].北京:人民郵電出版社,2004.

        [4]王永梅,胡雪鋼.決策樹中ID算法的研究[J].安徽大學(xué)學(xué)報(自然科學(xué)版),2011,35(3):71-75.

        [5]樊敏.基于決策樹算法的成績優(yōu)秀率分析與研究[J].計算機時代,2015(12):70-71.

        [6]劉靜.基于決策樹技術(shù)的CET-4成績數(shù)據(jù)挖掘研究[J].赤峰學(xué)院學(xué)報(自然科學(xué)版),2015,31(12): 18-19.

        [7]陳治國.數(shù)據(jù)挖掘技術(shù)在教學(xué)決策支持中的應(yīng)用研究[D].長沙:國防科技大學(xué),2006.

        [8]蔣盛益,李霞,鄭琪..數(shù)據(jù)挖掘原理與實踐[M].北京:電子工業(yè)出版社,20113.

        [9]覃桂敏基于數(shù)據(jù)倉庫的決策支持技術(shù)的研究[D].西安:西安電子科技大學(xué),2004.

        [10]楊靜.決策樹算法的研究與應(yīng)用[J].計算機技術(shù)與發(fā)展,2010,20(2):115-118.

        [11]崔仁桀.數(shù)據(jù)挖掘在學(xué)生專業(yè)成績預(yù)測上的應(yīng)用[J].軟件,2016,37(1):24-27.

        [12]陳凱,曹曉光,楊冀紅,等.基于C4.5決策樹算法的全國積雪模型生成[J].電子設(shè)計工程,2014,22(17): 44-47.

        [13]周寶曜,劉偉,范承工.大數(shù)據(jù)戰(zhàn)略·技術(shù)·實踐[M].北京:電子工業(yè)出版社,2013.

        [14]冷泳林.ID3算法在學(xué)生評教數(shù)據(jù)分析中的應(yīng)用研究[J].電子設(shè)計工程,2013,21(2):4-6,9.

        [15]楊淑瑩.模式識別與智能計算-MATLAB技術(shù)實現(xiàn)[M].北京:電子工業(yè)出版,2009.

        [16]徐巖,陳昕.基于貝葉斯決策樹的電網(wǎng)報警信息去噪方法研究 [J].陜西電力,2014(6):38-41.

        [17]高靜,楊楠,賀元康.基于Matlab/Simulink的直流輸電系統(tǒng)異常引起的發(fā)電機組失步保護動作仿真分析[J].陜西電力,2014(2):70-73.

        [18]宋曉林,王正杰,寇喆.基于LabVIEW和Matlab綜合平臺的高精度多功能虛擬數(shù)字電能表的研究[J].陜西電力,2015(8):39-44,49.

        Application of the decision tree algorithm in the analysis of student achievement

        HAN Li-na,HAN Gai-ning
        (Institute of Graphics and Image Processing,Xian Yang Normal College,Xianyang 712000,China)

        Based on the analysis of the main factors that influence the students'learning effect,the method of decision tree is adopted to analyze the data and display the results directly.Through the study of a certain class of students learning data mining analysis of the test,it uses the ID3 and C4.5 algorithm to generate a decision tree and streamline it with post-pruning technology.Finally the main factors influenced the effectiveness of this course,checking work attendance was found out.Then an effective suggestions on individualized presentation and guidance was provided after analysis of students learning.

        decision tree;information entropy;information gain;information gain rate

        TN91

        :A

        :1674-6236(2017)02-0018-04

        2016-04-27稿件編號:201604261

        陜西省教育廳資助項目(14JK1802);咸陽師范學(xué)院引進人才項目(13XSYK053);陜西省教育科學(xué)“十二五”規(guī)劃2014年度項目(SGH140802)

        韓麗娜(1976—),女,陜西富平人,博士,副教授。研究方向:數(shù)據(jù)挖掘,圖像處理。

        猜你喜歡
        信息學(xué)生
        快把我哥帶走
        《李學(xué)生》定檔8月28日
        電影(2018年9期)2018-11-14 06:57:21
        趕不走的學(xué)生
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        學(xué)生寫話
        學(xué)生寫的話
        展會信息
        中外會展(2014年4期)2014-11-27 07:46:46
        聰明的學(xué)生等
        信息
        健康信息
        祝您健康(1987年3期)1987-12-30 09:52:32
        2021亚洲色中文字幕| 国产精品无码久久综合网| 色老板精品视频在线观看| 国产精品欧美日韩在线一区| 国产优质女主播在线观看| 日韩人妻免费视频一专区| 在线精品无码字幕无码av | 欧美大香线蕉线伊人久久| 久久精品成人亚洲另类欧美| 午夜一区二区三区福利视频| 国产suv精品一区二区四| 人禽伦免费交视频播放| 精品福利一区| 久久精品国产精品亚洲艾| 亚洲精品国偷拍自产在线| 黑人玩弄人妻中文在线| 丰满熟妇人妻av无码区 | 久久成人永久免费播放| 国产精品成年人毛片毛片| 最新国产精品拍自在线观看| 少妇性l交大片| 成 人 网 站 在线 看 免费| 国产亚洲一区二区精品| 国产精品天干天干综合网| 亚洲精品无码不卡av| 麻豆人妻无码性色AV专区| 一本色道久久亚洲av红楼| 国产xxx69麻豆国语对白| chinese国产乱在线观看| 激情视频在线观看国产中文| 亚洲亚色中文字幕剧情| 亚洲精品乱码久久久久久日本蜜臀| 亚洲不卡无码高清视频| 一区二区三区日韩毛片| 性做久久久久久免费观看| 国产精品.xx视频.xxtv| 国产在线白浆一区二区三区在线 | 国产让女高潮的av毛片| 四虎国产精品免费久久| 亚洲国产成人精品激情资源9| 日本中文字幕有码在线播放|