亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于ID3算法的五年制高職學(xué)生成績因素分析

2015-05-30 10:48:04王光法

軟件工程 2015年7期

摘要：近年來，五年制高職教育飛速發(fā)展，各學(xué)校在不斷探索五年制高職教育方式方法的同時，也形成了一定的培養(yǎng)評價機制，這些評價機制在培養(yǎng)方法與手段的評價方面，大都停留在經(jīng)驗判斷和感性基礎(chǔ)上，缺乏科學(xué)計算支撐。文章在梳理相關(guān)培養(yǎng)環(huán)節(jié)基礎(chǔ)上，引進數(shù)據(jù)挖掘算法，將五年制育人各個環(huán)節(jié)要素作為輸入，通過算法，將培養(yǎng)環(huán)節(jié)各數(shù)據(jù)要素隱含的信息量化到學(xué)生成績這一個“基點”上，并且通過構(gòu)造五年制高職教育中學(xué)生成績因素的決策樹實現(xiàn)數(shù)據(jù)可視化，從而指導(dǎo)我們優(yōu)化教育資源和培養(yǎng)結(jié)構(gòu)，增強下一步教育方法改進的精準(zhǔn)性與高效性。

關(guān)鍵詞：數(shù)據(jù)挖掘；五年制高職；ID3算法；決策樹

中圖分類號：TP18 文獻標(biāo)識碼：A

1 引言（Introduction）

五年制高等職業(yè)教育近年來發(fā)展飛速，為各地培養(yǎng)了大批初中畢業(yè)起點的高等職業(yè)技術(shù)技能人才。然而五年制高職生源的普遍入學(xué)成績較上高中的學(xué)生成績低，這已經(jīng)是業(yè)內(nèi)共識。這就要求各五年制高職學(xué)校立足于生源實際特點，科學(xué)利用各種教育方式和教育資源，挖掘有利因素積極促進學(xué)生成長成才。傳統(tǒng)的學(xué)生成績統(tǒng)計方法已無法發(fā)現(xiàn)學(xué)生成績數(shù)據(jù)中存在的關(guān)系和規(guī)則，更無法根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測未來的發(fā)展趨勢[1]。因此一種新的數(shù)據(jù)分析技術(shù)——數(shù)據(jù)挖掘技術(shù)應(yīng)運而生。文中將影響學(xué)生成績的因素通過ID3算法構(gòu)造五年制高職學(xué)生成績決策樹，把學(xué)生成績和培養(yǎng)要素之間的關(guān)系實現(xiàn)可視化。為更好開展教育教學(xué)工作和學(xué)生自我學(xué)習(xí)提供參考依據(jù)。

2 原理介紹（Principle introduction）

2.1 數(shù)據(jù)挖掘

數(shù)據(jù)挖掘（Data Mining，簡稱DM），簡單地講就是從大量數(shù)據(jù)中挖掘或抽取出人們事先不知道但又潛在有用的知識的過程，又稱為數(shù)據(jù)庫中知識發(fā)現(xiàn)（Knowledge Discovery in Database，簡稱KDD），它是一個從大量數(shù)據(jù)中抽取挖掘出未知的、有價值的模式或規(guī)律等知識的復(fù)雜過程。數(shù)據(jù)挖掘技術(shù)涉及多學(xué)科交叉領(lǐng)域，融合了統(tǒng)計學(xué)、機器學(xué)習(xí)、模式識別、數(shù)據(jù)庫和數(shù)據(jù)倉庫、信息檢索、可視化、算法、高性能計算等最新研究成果。目前，數(shù)據(jù)挖掘方法主要有分類算法、回歸算法、分割算法、關(guān)聯(lián)算法、順序分析算法等。本文就是匯集五年制高職學(xué)生培養(yǎng)的訓(xùn)練集，采用分類算法，建立分類模型，為每個類別做出準(zhǔn)確的描述，從看似無關(guān)的數(shù)據(jù)中挖掘出分類規(guī)則，實現(xiàn)對下一步訓(xùn)練方法的決策和對未來的數(shù)據(jù)的預(yù)測。

2.2 決策樹的分類方法介紹

決策樹（Decision Tree）是在已知各種情況發(fā)生概率的基礎(chǔ)上，通過構(gòu)成決策樹來求取凈現(xiàn)值的期望值大于等于零的概率，是直觀運用概率分析的一種圖解法[2]。決策樹是一個預(yù)測模型，它代表的是對象屬性與對象值之間的一種映射關(guān)系。決策樹分為分類樹和回歸樹兩種，本文就是用影響學(xué)生成績的離散因素進行分類算法構(gòu)造分類樹。所謂分類算法，簡單來說，就是根據(jù)文本的特征或?qū)傩?，劃分到已有的類別中。它提供一種在什么條件下會得到什么值的類似規(guī)則的方法，采用自頂向下的遞歸方式，在決策樹的內(nèi)部節(jié)點進行屬性值的比較，并根據(jù)不同的屬性值從該節(jié)點向下分支，葉節(jié)點是要學(xué)習(xí)劃分的類，從根節(jié)點到葉節(jié)點的一條路徑就對應(yīng)著一條分類規(guī)則，整個決策樹就對應(yīng)著一組析取表達式規(guī)則，如圖1所示。常用的分類算法包括：決策樹分類法、樸素的貝葉斯分類算法（native Bayesian classifier）、基于支持向量機（SVM）的分類器、神經(jīng)網(wǎng)絡(luò)法、k-最近鄰法（k-nearest neighbor，kNN）、模糊分類法等。

圖1 決策樹的構(gòu)造和剪枝去噪過程

Fig.1 Process of decision tree building and improving

2.3 ID3算法描述

ID3算法最早是由羅斯昆（J·Ross Quinlan）于1975年在悉尼大學(xué)提出的一種分類預(yù)測算法，算法的核心是“信息熵”，信息熵就是一組數(shù)據(jù)包含的信息概率的度量，該算法是以信息論為基礎(chǔ)，以信息熵和信息增益度為衡量標(biāo)準(zhǔn)[3]。ID3算法通過計算每個屬性的信息增益，認為信息增益高的是好屬性，每次劃分選取信息增益最高的屬性為劃分標(biāo)準(zhǔn)，重復(fù)這個過程，直至生成一個能完美分類訓(xùn)練樣例的決策樹。

設(shè)數(shù)據(jù)劃分D為類標(biāo)記的元組的訓(xùn)練集。假定類標(biāo)號屬性具有M個不同值，定義m個不同的類Ci（I=1，2，…，m），Ci，D是Ci類的元組的集合，和分別表示D和Ci，D中元組的個數(shù)。對D中的元組分類所需的期望信息由下式給出：

（1）

假設(shè)屬性A具有v個不同的離散屬性值，可使用屬性A把數(shù)據(jù)集D劃分成v個子集{D1，D2，…，Dv}。設(shè)子集Dj中全部的記錄數(shù)在A上具有相同的值aj?；诎碅劃分對D的元組分類所需要的期望信息由下式給出：

（2）

信息增益定義為原來的信息需求（基于類比例）與新的信息需求（對A劃分之后得到的）之間的差，即

Gain（A）=Info（D）-InfoA（D）（3）

通過ID3算法，計算出每個屬性的信息增益，把具有最高信息增益的屬性作為測試屬性創(chuàng)建一個節(jié)點，并按照該屬性的每個值創(chuàng)建一個分支，各分支節(jié)點依此方法創(chuàng)建。

3 ID3算法在五年制高職學(xué)生成績分析中的運用

（The use of ID3 algorithm in the analysis to

the students'achievements in five-year higher

vocational school）

3.1 學(xué)生成績因素整理

根據(jù)五年制高職學(xué)生學(xué)習(xí)結(jié)構(gòu)組成，大致分為課堂內(nèi)和課堂外，課堂內(nèi)初步分為：出勤情況、聽課情況、作業(yè)完成情況，課堂外初步分為：課后看書情況、參加文體活動情況以及是否學(xué)生干部。為了使結(jié)論更加客觀，樣本選取為即將離校實習(xí)的高年級學(xué)生，并且是在全校十多個專業(yè)中隨機抽取141名學(xué)生作為樣本，數(shù)據(jù)經(jīng)離散化處理后詳見表1。

表1 部分學(xué)生成績表

Tab.1 Part of the studentsachievements

編號姓名出勤情況聽課情況課后看書情況作業(yè)完

成情況參加

活動學(xué)生

干部總評

成績

1 胡揚正常認真 >0.5小時一般少否良

2 胡宏奇正常一般 >0.5小時一般一般否良

3 滕步南正常認真 >1小時認真一般否優(yōu)

4 張正常不認真 <0.5小時不認真一般否差

5 張悅正常一般 >0.5小時一般多否良

6 滕騰正常一般 >0.5小時認真多否優(yōu)

7 徐堅翔正常認真 >1小時認真多是優(yōu)

8 袁飛正常一般 >1小時一般多是優(yōu)

9 張少年正常一般 >0.5小時一般一般否良

10 史萱升正常一般 >0.5小時一般多否良

… …… …… …… …… …… …… …… ……

3.2 構(gòu)造學(xué)生成績決策樹

從表1觀察可知類標(biāo)號“總評成績”有三個取值（優(yōu)、良、差），因此有三個不同的類，即m=3，其中總評成績=“優(yōu)”的類有56個元組，等于“良”的有63個元組，等于“差”的有22個元組。根據(jù)公式（1）可以計算D中元組分類所需要的期望信息：

再根據(jù)每個屬性計算信息熵，首先從“出勤情況”屬性開始，該屬性有三個值，依據(jù)每個樣本分布，對應(yīng)每個屬性所劃分的子集的信息熵：

表2 學(xué)生成績數(shù)據(jù)庫類標(biāo)記的因素元組統(tǒng)計表

Tab.2 The statistical database of the students'

achievements

出勤情況聽課情況課后看書情況作業(yè)完成文體活動學(xué)生

干部

正常一般不正常認真一般不認真 >1小時 >0.5小時 <0.5小時認真一般不認真多一般少是否

成績優(yōu)56 54 2 0 50 6 0 21 14 21 54 2 0 38 12 6 37 19

成績良63 59 4 0 22 39 2 9 29 25 46 17 0 25 17 21 23 40

成績差22 18 2 2 0 7 15 1 0 21 3 11 8 2 7 13 2 20

根據(jù)公式1和表2，對D的元組進行分類所需要的期望信息為：

當(dāng)“出勤情況”=“正常”時：

信息熵

當(dāng)“出勤情況”=“一般”時：

信息熵

當(dāng)“出勤情況”=“不正?！睍r：

信息熵

根據(jù)公式2：

再根據(jù)公式3得出這種劃分的信息增益是Gain（出勤情況）=Info（D）-Info出勤情況（D）=0.01693

同理，可計算Gain（聽課情況）=Info（D）-Info聽課

情況（D）=0.509681

Gain（課后看書情況）=Info（D）-Info課后看書

情況（D）=0.215816

Gain（作業(yè)完成情況）=Info（D）-Info作業(yè)完成

情況（D）=0.354715

Gain（文體活動情況）=Info（D）-Info文體活動

情況（D）=0.1551

Gain（干部情況）=Info（D）-Info干部情況（D）=0.13083

從計算可知，學(xué)生的“聽課情況”具有最高的信息增益，它被選作測試屬性，創(chuàng)建一個節(jié)點，用“聽課情況”來標(biāo)記，并對于每個屬性引出一個分支，同理，在“認真”“一般”和“不認真”三個分支上，分別對其他屬性計算信息增益，按照上述方法遞歸，從而得出圖1決策樹。

圖2 影響學(xué)生成績因素決策樹

Fig.2 The decision tree of the factors that affect

students' achievements

從圖1可以看出，學(xué)生的學(xué)習(xí)成績主要取決于學(xué)生的聽課情況因素，聽課認真的同學(xué)基本上學(xué)習(xí)成績都是優(yōu)良，聽課不認真的同學(xué)學(xué)習(xí)成績都不好。由于數(shù)據(jù)中存在著一些冗余和噪聲等，影響了決策樹的深度，進行剪枝后的決策樹如圖2所示。

3.3 成績因素分析

從圖2的學(xué)生成績可視化因素中，影響學(xué)生成績因素除“聽課情況”“課后看書”“作業(yè)情況”等外，還與“文體活動”“是否學(xué)干”等因素有關(guān)。課堂聽課質(zhì)量是關(guān)鍵因素，課外看書和認真作業(yè)是對聽課質(zhì)量的有力補充或彌補。而參加文體活動會讓學(xué)生從活動中習(xí)得的方法遷移到學(xué)習(xí)上，擔(dān)任學(xué)生干部工作也會促進多方面的能力提高，具有激勵效應(yīng)，共同形成學(xué)生成長成才助推因素。這恰恰說明了職業(yè)教育通常以學(xué)生的綜合素質(zhì)與能力為追求目標(biāo)，在教育形式上與應(yīng)試教育相比“更加放得開”，一些與常規(guī)教學(xué)內(nèi)容看似無關(guān)的因素，某種程度上卻促進了學(xué)生的學(xué)習(xí)興趣和學(xué)習(xí)效果。

圖3 剪枝后的決策樹

Fig.3 Themodified decision tree

4 結(jié)論（Conclusion）

職業(yè)教育是素質(zhì)教育和能力教育的結(jié)合體，我們既要加強以課堂為中心的教學(xué)效果，培養(yǎng)并養(yǎng)成學(xué)生課后閱讀與認真作業(yè)的良好習(xí)慣，還要加強校園文化建設(shè)，發(fā)揮環(huán)境育人作用，充分調(diào)動一切有利因素促進學(xué)生成長成才。

參考文獻（References）

[1] 王永梅.ID3算法在計算機成績分析中的應(yīng)用[J].合肥學(xué)院學(xué) 報，2010，2（1）：34.

[2] 決策樹.[EB/OL].http：//baike.baidu.com/link？url=2_RdpiP_ 9Xds9QLc-C4eAhQgKNfdu-fIkCBir0aPmesvmJl_LQLUXJV WO9z6eL5pRGc9tEx68boR6XgIHYwWkK.

[3] ID3算法[EB/OL].http：//baike.baidu.com/link？url=In7lbKZgR g9RR4eTG3EzZIxZLzuE0JURWX299FCv569SxZbYrW2Gw rK4urr1qsjhTTpnDQQPwxSfCuvqsxxTqq.

作者簡介：

王光法（1974-），男，碩士，講師.研究領(lǐng)域：算法應(yīng)用研究.