【摘要】本文以orange機(jī)器學(xué)習(xí)軟件為工具,以廣西師范學(xué)院計算機(jī)本科專業(yè)學(xué)生的基本信息和成績數(shù)據(jù)作為處理對象,詳細(xì)介紹了如何利用orange軟件中的決策樹算法對計算機(jī)專業(yè)的本科生的成績分布進(jìn)行數(shù)據(jù)處理及分析的過程。實驗結(jié)果表明:數(shù)據(jù)分析得到的結(jié)論符合計算機(jī)學(xué)科特點(diǎn),能夠為學(xué)院決策者在專業(yè)培養(yǎng)計劃的制定中提供科學(xué)依據(jù)。
【關(guān)鍵詞】orange;高校;學(xué)生成績;數(shù)據(jù)挖掘
1.引言
學(xué)生的成績是衡量高校教學(xué)質(zhì)量的一個重要指標(biāo)。隨著高校學(xué)生人數(shù)的逐年增加,學(xué)生成績數(shù)據(jù)也越來越龐大,這些大量的數(shù)據(jù)中蘊(yùn)含著許多有意義的信息。數(shù)據(jù)挖掘(Data mining)是用于從大量的不完全的、模糊的、有噪聲的觀察數(shù)據(jù)中,去發(fā)現(xiàn)用戶感興趣數(shù)據(jù)的技術(shù)。利用數(shù)據(jù)挖掘技術(shù)發(fā)現(xiàn)大量學(xué)生成績數(shù)據(jù)中的規(guī)律和隱含的知識,對于指導(dǎo)高校教學(xué)質(zhì)量和培養(yǎng)計劃的制定都具有重要的實際意義。
本文將利用數(shù)據(jù)挖掘工具軟件orange,以廣西師范學(xué)院計算機(jī)專業(yè)學(xué)生成績?yōu)槔?,對計算機(jī)專業(yè)學(xué)生的成績做非監(jiān)督分類處理分析。
2.orange軟件簡介
Orange是一個基于組件的數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)軟件套裝,其中封裝了決策樹、關(guān)聯(lián)規(guī)則、統(tǒng)計分析等數(shù)十種數(shù)據(jù)挖掘經(jīng)典算法。它功能友好,其具有快速而又多功能的可視化編程前端,可以方便瀏覽數(shù)據(jù)分析和可視化。Orange軟件是綁定了Python以進(jìn)行腳本開發(fā),能夠與c,c++方便的融合。是數(shù)據(jù)挖掘的有利工具。打開orange軟件后可見其界面圖:
圖1 orange軟件的界面圖
本文利用orange軟件中的ID3決策樹算法對廣西師范學(xué)院計算機(jī)專業(yè)的學(xué)生成績做分類分析。決策樹是一種利用信息論原理對樣本的屬性進(jìn)行歸納分類產(chǎn)生的樹形結(jié)構(gòu)。
構(gòu)建決策樹的基本步驟為:
(1)連續(xù)屬性離散化
(2)選擇測試屬性構(gòu)造決策樹
(3)決策樹剪枝
3.利用orange的id3算法分析高校學(xué)生成績
在利用orange中的決策樹算法對高校學(xué)生成績進(jìn)行分析之前,進(jìn)行數(shù)據(jù)采集,并將數(shù)據(jù)處理成算法所需的數(shù)據(jù)格式等步驟。下面詳細(xì)介紹分析過程:
3.1 數(shù)據(jù)采集
本文以廣西師范學(xué)院計算機(jī)與信息工程學(xué)院的3屆學(xué)生成績?yōu)槔?,對其進(jìn)行處理分析。所采到的原始數(shù)據(jù)信息表包括:學(xué)生的基本信息表、學(xué)生學(xué)科成績表,其中學(xué)生學(xué)科成績表包含了學(xué)生大學(xué)四年所修的所有學(xué)科的成績數(shù)據(jù)。
原始學(xué)生成績表如表1所示:
表1 學(xué)生成績信息
原始學(xué)生基本信息表如表2所示(基于保密原則,給出格式,學(xué)生具體信息不便透露):
表2 學(xué)生基本信息
表3 學(xué)生成績分布處理字段說明
Codedesign:程序設(shè)計成績; math:數(shù)學(xué)成績; P.E.:體育成績;
Introduceofcomputer:計算機(jī)導(dǎo)論成績; English:英語成績; Total:總成績;
area:籍貫; sex:性別; result:等級評定;
表4 整理后的部分學(xué)生成績表
codedesign math P.E. English introduceofcomputer area sex result
1.3 1.3 1.8 1.7 0.7 M 1 C
1.5 1.2 1.8 1.5 0.7 E 1 D
1.4 1.4 1.8 1.5 0.7 W 1 C
1.5 1.4 1.9 1.3 0.6 E 1 D
3.2 數(shù)據(jù)預(yù)處理
(1)數(shù)據(jù)清洗
在收集到的數(shù)據(jù)中,往往包含著許多與挖掘任務(wù)無相關(guān)、冗余的屬性。為提高決策樹算法的效率,需要對原始數(shù)據(jù)進(jìn)行清洗。
學(xué)生基本信息表的清洗:只保留性別、籍貫兩個屬性。
學(xué)生成績信息表數(shù)據(jù)量大,科目繁多。為能夠在成績分類挖掘中進(jìn)行統(tǒng)一比較,本文只選取了部分科目成績進(jìn)行整理比較。這些科目成績分別是:程序設(shè)計成績、數(shù)學(xué)成績、體育成績、英語成績和計算機(jī)導(dǎo)論成績數(shù)據(jù)。
(2)數(shù)據(jù)規(guī)范化
學(xué)校的學(xué)生成績信息是用百分制記錄,不符合ID3算法數(shù)據(jù)需離散型的要求,故應(yīng)ID3算法的要求,數(shù)據(jù)源整理為離散型變量。
性別數(shù)據(jù)處理:男為1,女為2;
籍貫數(shù)據(jù)處理:本次收集到的學(xué)生數(shù)據(jù)以廣西學(xué)生為多,桂南為S,桂北為N,桂東為E,桂西為W,桂中為M。廣西以外地區(qū)以another表示。
成績數(shù)據(jù)離散化處理:由于原始成績都為百分制,使得數(shù)據(jù)過于連續(xù),難以進(jìn)行區(qū)分。處理方法為:將總成績除以一百,再進(jìn)行四舍五入。例:在其中一組數(shù)據(jù)49份P.E.成績中,學(xué)生的分?jǐn)?shù)從158分至192分不等,出現(xiàn)三十余組數(shù)據(jù)。將其成績除以100再四舍五入,如158分的成績將化為1.6,192分的成績則化為1.9。整組P.E.成績便被劃分為了:1.6、1.7、1.8、1.9四個組別。
經(jīng)過預(yù)處理后,得到的學(xué)生信息表內(nèi)容如表3所示,部分?jǐn)?shù)據(jù)整理示例如表4所示.
3.3 實驗步驟
(1)打開orange軟件。
(2)使用File部件負(fù)責(zé)所需分析數(shù)據(jù)的導(dǎo)入,Classification部件負(fù)責(zé)分類算法的選擇,Classification Tree Viewer 與 Classification Tree Graph部件分別代表決策樹的兩種不同表達(dá)形式。前者是以樹狀目錄表的形式表示ID3的分類結(jié)果,可以觀察到分類的數(shù)據(jù)細(xì)節(jié),包括類別、閾值等。后者以圖形的方式表示ID3的分類結(jié)果,非常直觀。
將部件以單線相連,便可以實現(xiàn)由File所導(dǎo)入數(shù)據(jù)的決策樹輸出。
圖2 Orange Canvas部件連接圖
(3)雙擊File部件將出現(xiàn)數(shù)據(jù)導(dǎo)入界面,按提示操作即可完成實驗數(shù)據(jù)導(dǎo)入。
(4)導(dǎo)入數(shù)據(jù)后,回到Orange Canvas部件連接圖,此時數(shù)據(jù)已經(jīng)通過Examples連接線段導(dǎo)入Classifiction Tree部件選擇了算法。Classifiction Tree的連接線段將其導(dǎo)入Classification Tree Viewer 部件和Classification Tree Graph部件。我們通過雙擊Classification Tree Viewer 與 Classification Tree Graph部件便可以得到?jīng)Q策樹的兩種表現(xiàn)形式。
Classification Tree Graph示例如圖3所示:
圖3 實驗結(jié)果Classification Tree Graph表示
3.4 實驗結(jié)果分析
從決策樹的分類結(jié)果我們可以看出:信息熵下降程度最大的分類屬性為math;其次為專業(yè)課成績introduceofcomputer。數(shù)據(jù)分布表現(xiàn)為:學(xué)生成績首先以math成績進(jìn)行分類,math成績lt;1.250的學(xué)生成績評定都為D,math成績gt;1.250的學(xué)生成績評定以C為多,占有73.7%;其次在math成績gt;1.250的學(xué)生里以introduceofcomputer成績進(jìn)行分類,introduceofcomputer成績lt;0.650的學(xué)生成績評定為為D,introduceofcomputer成績gt;0.650的學(xué)生成績評定為C,等等。
從以上成績的分布來看,影響計算機(jī)專業(yè)學(xué)生的專業(yè)成績的主要因素有兩個,一個是數(shù)學(xué)成績,一個是計算機(jī)導(dǎo)論成績。這說明了計算機(jī)專業(yè)本身是一個邏輯性很強(qiáng)的專業(yè),數(shù)學(xué)能力較強(qiáng)的學(xué)生比較容易適應(yīng)這個專業(yè)的學(xué)習(xí)。另一方面,計算機(jī)專業(yè)也是一個應(yīng)用型的專業(yè),要求學(xué)生有較強(qiáng)的動手能力,反映到成績上,表現(xiàn)為一年級的學(xué)生如果在計算機(jī)導(dǎo)論的成績較好,說明這些學(xué)生對計算機(jī)的操作熟練,對這個專業(yè)有直觀具體的認(rèn)識,因而在后面的專業(yè)學(xué)習(xí)中成績也較好。
4.結(jié)論
本文以orange機(jī)器學(xué)習(xí)軟件為工具,以廣西師范學(xué)院計算機(jī)本科專業(yè)學(xué)生的基本信息和成績數(shù)據(jù)作為處理對象,對如何利用orange軟件中的決策樹算法對計算機(jī)專業(yè)的本科生的成績分布進(jìn)行了數(shù)據(jù)處理及分析,提供了詳細(xì)的實驗步驟和方案。數(shù)據(jù)分析得到的結(jié)論符合計算機(jī)學(xué)科特點(diǎn),能夠為學(xué)院領(lǐng)導(dǎo)在專業(yè)培養(yǎng)計劃的制定中提供科學(xué)的依據(jù)。
參考文獻(xiàn)
[1]劉曉芬.決策樹分類算法及其在高校學(xué)生就業(yè)中的應(yīng)用研究[D].湖北大學(xué)碩士學(xué)位論文.2012:26-32.
[2]廖芹,郝志峰,陳志宏.數(shù)據(jù)挖掘與數(shù)學(xué)建模[M].國防工業(yè)出版社,2010:153-154.
[3]胡文瑜,孫志揮,吳英杰.數(shù)據(jù)挖掘取樣方法研究[J]. 計算機(jī)研究與發(fā)展,2011,48(1).45-54.
[4] 范明,孟小峰譯.數(shù)據(jù)挖掘概念與技術(shù)[M].機(jī)械工業(yè)出版社,2012.
[5]劉春陽.數(shù)據(jù)挖掘技術(shù)在高校成績管理中的應(yīng)用研究[D].大連交通大學(xué)工程碩士學(xué)位論文.2009:29-4.
作者簡介:
王宇紅(1991—),女,廣西桂林人,現(xiàn)就讀于廣西師范學(xué)院計算機(jī)與信息工程學(xué)院。
馬健(1993—),男,山東龍口人,現(xiàn)就讀于廣西師范學(xué)院計算機(jī)與信息工程學(xué)院。
通訊作者:覃曉(1973—),女,廣西環(huán)江人,碩士,廣西師范學(xué)院副教授,研究方向:數(shù)據(jù)挖掘。