薛亞楠 楊曉東
摘 ?要:決策樹是從一組無規(guī)則并且無次序的數(shù)據(jù)集中求解分類問題的重要技術(shù)。決策樹不僅是從數(shù)據(jù)集中生成分類器的有效方法,同時也是數(shù)據(jù)挖掘技術(shù)中一個活躍的研究領(lǐng)域。通過決策樹挖掘可以對數(shù)據(jù)進行分類。該文以學(xué)生學(xué)習(xí)態(tài)度、完成作業(yè)情況、考勤等為因素,利用決策樹技術(shù)分析影響學(xué)生成績的因素,對學(xué)生成績的影響因素加以探討。
關(guān)鍵詞:數(shù)據(jù)挖掘 ?決策樹方法 ?學(xué)生成績
中圖分類號:G64 ? 文獻標(biāo)識碼:A 文章編號:1672-3791(2019)12(c)-0083-02
在數(shù)據(jù)挖掘和數(shù)據(jù)分析中,決策樹起著非常重要的作用,其可以構(gòu)建一個決策系統(tǒng),對數(shù)據(jù)進行預(yù)測。決策樹的結(jié)構(gòu)類似樹型結(jié)構(gòu),利用樹的結(jié)構(gòu)將記錄進行分類,樹的一個葉結(jié)點就代表某個條件下的一個記錄集。并根據(jù)記錄字段的不同取值建立分支,以此重復(fù),便可生成決策樹。根據(jù)決策樹的結(jié)構(gòu)對數(shù)據(jù)集中的屬性值進行測試可以對未知數(shù)據(jù)對象進行分類識別。決策樹的常用算法包括:ID3算法、C4.5算法、CART算法、CHAID算法等。
1 ?決策樹方法的特點
決策樹因其形狀像樹。所以特點包括:(1)一個決策樹由一系列節(jié)點和分支組成。(2)節(jié)點和子節(jié)點之間形成分支,節(jié)點代表著決策過程中所考慮的屬性,不同屬性值形成不同分支。
基于CLS算法思想和Quinlan的ID3算法思想,改進的決策樹學(xué)習(xí)算法如下。
(1)生成一顆空決策樹和一張訓(xùn)練樣本表。
(2)若訓(xùn)練樣本集T中的所有樣本都屬于同一類,則生成結(jié)點T,并終止學(xué)習(xí)算法。
(3)根據(jù)最大信息增益的原則,先從訓(xùn)練樣本屬性中選擇信息增益最大的屬性,并生成測試性結(jié)點,即根結(jié)點A。
(4)若A的取值為a1,a2,…,am,則根據(jù)A取值不同,將 T劃分為m個子集T1,T2,…,Tm。
(5)對每一個Ti(1≤i≤m),轉(zhuǎn)步驟(2)。
2 ?實證分析
該研究用例是采用某大學(xué)學(xué)生期末數(shù)學(xué)成績數(shù)據(jù)作為挖掘?qū)ο螅瑪?shù)據(jù)來源于網(wǎng)絡(luò)。通過挖掘分析,找出影響學(xué)生成績的主要因素。該文采用基于ID3算法的改進算法建立決策樹。建立決策樹,應(yīng)從以下屬性考慮:(1)學(xué)生對數(shù)學(xué)課的感興趣程度;(2)學(xué)習(xí)態(tài)度;(3)出勤情況;(4)獨立完成作業(yè)情況。
如表1所示,經(jīng)過數(shù)據(jù)處理后的數(shù)據(jù)成績信息的訓(xùn)練集,將考試結(jié)果分為4類。具體為:A(優(yōu)秀)、B(良好)、C(及格)、D(不及格)。我們的輸出結(jié)果是A、B、C、D,一共30條記錄。其中,取值為A的記錄有17個,取值為B的記錄有9個,取值為C的記錄有2個,取值為D的記錄有2個。則樣本S記為:S1=17,S2=9,S3=2,S4=2。
根據(jù)熵的計算公式,得到:
下面計算信息增益:分別以“對數(shù)學(xué)課感興趣的程度”“學(xué)習(xí)態(tài)度”“課堂考勤”等作為根結(jié)點,計算其信息增益。以屬性“對數(shù)學(xué)感興趣的程度”作為根節(jié)點。取值為感興趣的記錄有17個,其中有14個A、2個B、1個C,0個D;取值為一般的記錄有11個,其中有3個A,7個B,0個 C,1個D;取值為不感興趣的記錄有2個,其中1個D,1個C,0個A,0個B。
計算其相應(yīng)的熵:
然后計算其相應(yīng)的信息增益:
同理,我們得到了以上4個屬性相應(yīng)的信息增值Gain(對數(shù)學(xué)的感興趣程度)=0.511972,Gain(學(xué)習(xí)態(tài)度)=0.708688,Gain(課堂考勤)=0.395689,Gain(獨立完成作業(yè)情況)=0.77499。
最后按信息增益最大的原則選 “獨立完成作業(yè)情況”作為根結(jié)點,并將樣本分成3個部分,然后對每一棵子樹按照遞歸的方法計算,并且進行剪枝,最后得出的決策樹如圖1所示。
從研究得到的決策樹發(fā)現(xiàn),考試結(jié)果多數(shù)是A(優(yōu)秀)的學(xué)生在作業(yè)完成時,獨立完成作業(yè)情況很好,對數(shù)學(xué)感興趣的學(xué)生往往考試結(jié)果也較好,多數(shù)為A(優(yōu)秀)或B(良好);而相反,獨立完成作業(yè)較差或?qū)?shù)學(xué)不感興趣的學(xué)生,往往考試結(jié)果都不理想。另外,學(xué)生的學(xué)習(xí)態(tài)度也是一個不容忽視的因素。
3 ?結(jié)語
該文通過一個實例表述了數(shù)據(jù)挖掘技術(shù)在學(xué)生成績分析中的應(yīng)用,通過決策樹方法能夠分析影響學(xué)生學(xué)習(xí)成績因素的原因,獨立完成作業(yè)情況,課堂考勤以及學(xué)習(xí)態(tài)度都對學(xué)生成績有著相互影響,通過分析影響學(xué)生成績的因素,從而制定相應(yīng)的措施,達到提高教學(xué)質(zhì)量的目的,同時對于學(xué)校和教師來說可以通過決策樹分析重點管理學(xué)生,幫助有效提高學(xué)習(xí)成績。
參考文獻
[1] 朱迪茨.實用數(shù)據(jù)挖掘[M].北京:電子工業(yè)出版社,2004.
[2] 魏萍萍,王翠茹,王保義,等.數(shù)據(jù)挖掘技術(shù)及其在高校教學(xué)系統(tǒng)中的應(yīng)用[J].計算機工程,2003(11):87-89.
[3] (英)漢德(Hand,D.),著.數(shù)據(jù)挖掘原理[M].張銀奎,譯.北京:機械工業(yè)出版社,2003.
[4] 王名揚.基于數(shù)據(jù)挖掘的決策樹生成與剪枝方法[J].計算機工程與科學(xué),2005(11):19-20.
[5] 楊清.基于決策樹的學(xué)習(xí)算法[J].湘潭師范學(xué)院學(xué)報,2005(3):24-25.
[6] 黃芳.基于數(shù)據(jù)挖掘的決策樹技術(shù)在成績分析中的應(yīng)用研究[D].山東大學(xué),2009.