摘 要:決策樹技術(shù)是數(shù)據(jù)挖掘的一種實用而方便的分類技術(shù)。通過對計算機一級考試相關(guān)數(shù)據(jù)進行研究,選取影響一級考試通過率的重要因素,經(jīng)過分析后作為決策屬性。根據(jù)ID3算法,挖掘出三大影響計算機一級考試通過率的重要屬性。本文結(jié)果表明,不僅獲得了具有一定價值的隱含信息,而且對計算機基礎(chǔ)教學有一定的指導(dǎo)作用。
關(guān)鍵詞:分類;計算機一級考試;決策樹
1 引言
目前,隨著信息技術(shù)的高速進步與發(fā)展,各行各業(yè)對人才提出新的標準,能夠熟練使用計算機已成為人們必須掌握的一種基本工作技能。計算機等級考試通過率與一個學校的計算機基礎(chǔ)教學水平成一定的正比關(guān)系,為更好的提高計算機教學的效果,從歷年的計算機等級考試成績數(shù)據(jù)中挖掘出有用信息,采取有針對性的有效措施提高計算機等級考試的通過率,具有十分重要的實用價值。
2分類
2.1 基本概念
分類是一種重要的數(shù)據(jù)分析形式,它提取刻畫重要數(shù)據(jù)類的模型。這種模型稱為分類器,預(yù)測分類的(離散的、無序的)類標號。例如,我們可以建立個分類模型,把銀行貸款申請劃分成安全或危險。這種分析可以幫助我們更好地全面理解數(shù)據(jù)[1]。
2.2 決策樹歸納分類
分類是數(shù)據(jù)挖掘的重要部分,現(xiàn)代商業(yè)支持系統(tǒng)的主要功能大多為分類。在數(shù)據(jù)挖掘技術(shù)中,有很多種分類的技術(shù),較常見的為如下幾種方法:決策樹算法、關(guān)聯(lián)算法、粗糙集、遺傳算法、貝葉斯分類等[2]。
決策樹分類分兩階段。第一階段是利用訓(xùn)練集建立并精化一棵決策樹,建立決策樹模型。第二階段是利用生成完畢的決策樹對輸入的數(shù)據(jù)進行分類[3]。
2.3 ID3 算法描述
ID3 算法的核心是選擇決策樹各級結(jié)點的屬性,采用自頂向下的遞歸方式,根據(jù)屬性選擇的標準--最高信息增益,作為決策樹的一個結(jié)點[4]。該屬性使結(jié)果集對樣本分類所需要的信息量最小。
2.3.1 分類期望信息
設(shè)數(shù)據(jù)分區(qū)D為訓(xùn)練樣本的訓(xùn)練集,假定類標號屬性具有m個不同值,定義m個不同類Ci (i=1,…,m),設(shè)Ci,D是D中Ci類元組的集合,|D|和|Ci,D|分別是D和Ci,D元組的個數(shù),則對D中元組分類所需要期信息由下次給出[5]:
其中,pi是D中任意元組屬于類Ci的非零概率,并用|Ci,D|/|D|估計。
2.3.2 從決策樹種提出分類規(guī)則
規(guī)則表達式:IF-THEN。生成規(guī)則的方法為:
1)根節(jié)點到各個葉節(jié)點屬于一條規(guī)則。
2)根據(jù)每條路徑,以標準選擇恰當?shù)膶傩宰鳛橐?guī)則前提(IF)部分,相應(yīng)的每條結(jié)點的葉節(jié)點為結(jié)論(THEN)部分。
3 決策樹分類在計算機一級考試中的應(yīng)用
3.1 數(shù)據(jù)準備及預(yù)處理
筆者所在學校每年都會統(tǒng)計學生參與計算機考試的情況,本文從數(shù)據(jù)庫中選擇了2005年6月的計算機一級考試的411名學生作為研究對象,并進行分析處理后得到表1數(shù)據(jù)::
(1)將“是否完成計算機基礎(chǔ)課程學習”分為“完成”和“未完成”兩類。
(2)將“年級”分為“大一”、“大二”和“大三”三類。
(3)將“專業(yè)”分為“理科類”和“文科類”兩類。
(4)將“每周上機次數(shù)”分為“<3”“、3- 4”和“>4”三類。
(5)將“一級等級考試通過否”分為“是”和“否”兩類。
3.2構(gòu)造決策樹
根據(jù)表1構(gòu)建決策樹。根據(jù)ID3算法,按照計算機一級考試通過與否,逐步按照以下步驟構(gòu)建決策樹。
第一步:根據(jù)表1,計算分類所需要的期望值。
將類標識屬性“是否通過計算機一級考試”分為兩類,D1代表通過計算機教試,D2代表沒有通過計算機考試。設(shè)D1對應(yīng)于“是”,D2對應(yīng)于“否”。對應(yīng)元組為D1=8,D2=6
根據(jù)ID3算法中屬性選擇度量--信息增益原理,可算出給定樣本分類所需要的期望值:
第二步:計算每個屬性的信息增益
首先計算屬性“是否完成計算機基礎(chǔ)課程學習”的信息增益
對于該屬性的類“完成”,有6個“是”元組,3個“否”元組。對于類“未完成”,有2個“是”元組,3個“否”元組。
則,對元組進行分類所需要的期望信息為:
因此,這種劃分的信息增益
Gain(是否完成計算機基礎(chǔ)課程學習)=info(D1,D2)-info是否完成基礎(chǔ)課程=0.396位
同理,可以計算出Gain(年級)=-0.028 位,Gain(專業(yè))= 0.128位,Gain(每周上機次數(shù))=0.474位。
第三步:確定屬性結(jié)點
由于屬性“每周上機次數(shù)”的信息增益最高,因此被選為分裂屬性,作為第一個結(jié)點,將樣本訓(xùn)練集分為三部分。然后將每個部分依上述方法計算,可以得到最終決策樹如圖1所示:
圖1 生成決策樹
3.3 提取分類規(guī)則
IF“每周上機次數(shù)>4”AND“完成計算機基礎(chǔ)課程學習” THEN 通過率為:28.6%。
IF“每周上機次數(shù)>4”AND“未完成計算機基礎(chǔ)課程學習”AND “專業(yè)為理科類”THEN通過率為:7%。
IF“每周上機次數(shù)=3-4”AND“專業(yè)為理科類” THEN 通過率為:21.4%。
3.4 結(jié)果分析
根據(jù)上述分類規(guī)則,可以得到結(jié)論,詳見圖2所示:
圖2 通過率分布
在每周上機次數(shù)>3的學生中,有80%的學生通過計算機一級考試。在完成計算機基礎(chǔ)課程的學生中,有66.7%的學生通過計算機一級考試。在理科類學生中,有60%的學生通過計算機一級考試。鑒于以上分析,得出以下結(jié)論:
(1)重視計算機基礎(chǔ)課程教學。首先,計算機一級考試通過率在某種程度上反映了各個高校的計算機基礎(chǔ)教育水平,因此各大高校越來越重視計算機基礎(chǔ)的教學,將計算機課程列入大學公共必修課。其次,計算機一級考試,由于其公平性、規(guī)范性、權(quán)威性,在社會各行各業(yè)中均有一定的影響力,在當今激烈的人才競爭中,通過計算機一級考試已經(jīng)成為具有計算機基本技術(shù)的能力證明。再次,從本文結(jié)論可知,影響計算機一級考試通過率的最重要因素為:修完計算機基礎(chǔ)課程。因此,建議各高校參加一級計算機考試的學生必須修完計算機基礎(chǔ)課程。
(2)加強學生的上機操作力度。從結(jié)論中可以看出,學生所學的專業(yè)類別并不是決定計算機一級考試通過率的最大因素。學校應(yīng)根據(jù)自身情況,增加學生每周上機的次數(shù),以學生上機操作為主,教師指導(dǎo)為輔,加大學生自主學習能力的培養(yǎng),使學生能在課余時間主動學習并掌握知識,學以致用,為計算機一級考試做好知識儲備。
參考文獻
[1]Jiawei Han, Micheline Kamber ,Jianpei,范明,孟小峰譯.數(shù)據(jù)挖掘概念與技術(shù)[M].機械工業(yè)出版社,2012.
[2]遲慶云.基于決策樹的分類算法研究與應(yīng)用[D].2006.
[3] 胡少東.客戶細分方法探析[J]工業(yè)技術(shù)經(jīng)濟 2005,24(7)66-69.)
[4] Cygnus GNU Binutils Cygwin Online publication 1999.