摘要:本文在討論數(shù)據(jù)挖掘技術(shù)的基本概念、決策樹方法的基礎(chǔ)上,提出了決策樹算法在數(shù)字化校園中的應(yīng)用,以高校學(xué)生等級的劃分為例介紹了該算法的實施過程,并對結(jié)果進行了分析,得出供高校管理者決策的結(jié)論。
關(guān)鍵詞:數(shù)據(jù)挖掘;決策樹算法;數(shù)字化校園;學(xué)生等級
中圖分類號:G64文獻(xiàn)標(biāo)識碼:B
文章編號:1672-5913(2007)06-0040-04
1 引言
數(shù)字化校園是以數(shù)字化信息為依托,利用計算機技術(shù)、網(wǎng)絡(luò)技術(shù)、通訊技術(shù)支持學(xué)校教學(xué)和管理信息流,實現(xiàn)教育、教學(xué)、科研、管理、技術(shù)服務(wù)等信息收集、處理、整合、存儲、傳輸、應(yīng)用,使教學(xué)資源得到充分優(yōu)化利用的一種虛擬教育環(huán)境[1]。數(shù)字化校園建設(shè)已經(jīng)成為現(xiàn)代高校建設(shè)的重要組成部分,如何更好地利用數(shù)字化校園信息,提高高校教學(xué)效率,從而為社會培養(yǎng)出更多高素質(zhì)人才,是一個值得研究的問題。數(shù)字化校園是面向教師和學(xué)生的,并為教師和學(xué)生服務(wù)。利用數(shù)據(jù)挖掘技術(shù),在了解學(xué)生的各個方面信息的基礎(chǔ)上,通過決策樹算法得到學(xué)生學(xué)習(xí)成績的總體發(fā)展趨勢,為高校教學(xué)提供決策支持作用。
2 數(shù)據(jù)挖掘技術(shù)
2.1 數(shù)據(jù)挖掘的基本概念
數(shù)據(jù)挖掘(Data Mining,DM)是從大量的、不完全的、有噪聲的、模糊的、隨機的實際數(shù)據(jù)中,提取隱含在其中的、人們不知道的,但又是潛在有用的信息和知識的過程[2]。目的是發(fā)現(xiàn)未知的關(guān)系和以數(shù)據(jù)擁有者可以理解并對其有價值的新穎方式來總結(jié)數(shù)據(jù),進而預(yù)測未來可能發(fā)生的行為,從而為決策行為提供有利的支持。
2.2 決策樹方法
決策樹方法是數(shù)據(jù)挖掘的核心技術(shù)算法之一,通過大量數(shù)據(jù)有目的地分類,從中找出一些潛在的、對決策有價值的信息,常用于預(yù)測模型中。目前,國際上最有影響力的決策樹方法是ID3決策樹生成算法,C4.5算法是ID3算法的改進,該算法主要采用信息增益比來確定被測試的屬性[3]。
決策樹(Decision Tree)是一個類似于流程圖的樹結(jié)構(gòu),其中每個內(nèi)部節(jié)點表示在一個屬性上的測試,每個分支代表一個測試輸出,而每個樹葉節(jié)點代表類或類分布。樹的最頂層節(jié)點是根節(jié)點。通常情況下,采用自頂向下遞歸的各個擊破的方式構(gòu)造決策樹,在此過程中,選擇合適的屬性作為測試屬性;采用剪枝方法控制生成的決策樹的大?。皇莾蓚€關(guān)鍵的問題。
決策樹的基本算法是貪心算法,它以自頂向下遞歸的各個擊破方式構(gòu)造決策樹,算法Generate_ decision_tree生成一棵決策樹的基本步驟。
輸入:訓(xùn)練樣本samples,由決策屬性表示,候選屬性的集合attribute_list。
輸出:一棵決策樹。
(1)創(chuàng)建節(jié)點N;
(2)if samples 都在同一個類C then;
(3)返回N作為葉節(jié)點,以類C標(biāo)記;
(4)if attribute_list為空,以類C標(biāo)記;
(5)返回N作為葉節(jié)點,標(biāo)記為samples中最普通的類,//多數(shù)表決;
(6)選擇attribute_list中具有最高信息增益的屬性test_attribute;
(7) 標(biāo)記節(jié)點N為test_attribute;
(8)for each test_attribute中的已知值ai //劃分samples;
(9)由節(jié)點N長出一個條件為test_attribute= ai的分支;
(10)設(shè)si是samples中test_attribute= ai的樣本的集合,//一個劃分;
(11)if si為空then;
(12)加上一個樹葉,標(biāo)記為samples中最普通的類;
(13)else加上一個由Generate_decision_tree返回的節(jié)點。
以上遞歸步驟當(dāng)下列條件成立時停止:
(1)給定節(jié)點的所有樣本屬于同一類;
(2)沒有剩余屬性可以用來進一步劃分樣本,在此情況下,使用多數(shù)表決;
(3)分支test_attribute= ai沒有樣本,在這種情況下,以samples中的多數(shù)類創(chuàng)建一個樹葉。
3 數(shù)字化校園整體框架
基于當(dāng)前高等院校校園網(wǎng)的基本設(shè)施和已有的各種應(yīng)用服務(wù),一個基于通用的統(tǒng)一身份認(rèn)證和統(tǒng)一信息展示的數(shù)字化校園解決方案的總體框架。這個框架能夠集成各種校園網(wǎng)中的應(yīng)用。各個子系統(tǒng)在數(shù)字化校園中的位置如圖1所示。
在這個數(shù)字化校園框架中,利用PKI體系結(jié)構(gòu)作為統(tǒng)一身份認(rèn)證系統(tǒng)的基礎(chǔ),以LDAP目錄作為校園網(wǎng)內(nèi)各種身份和信息數(shù)據(jù)的存儲媒體,從而實現(xiàn)Portal信息展示平臺,為校園網(wǎng)內(nèi)各種應(yīng)用服務(wù)的集成與展現(xiàn)提供了途徑。
4 數(shù)據(jù)挖掘技術(shù)在數(shù)字化校園中應(yīng)用
數(shù)據(jù)挖掘過程主要經(jīng)歷以下階段:確定數(shù)據(jù)挖掘?qū)ο?、?shù)據(jù)準(zhǔn)備等。下面將結(jié)合數(shù)字化校園介紹數(shù)據(jù)挖掘關(guān)鍵過程的應(yīng)用。
圖1數(shù)字化校園的整體框架
4.1 確定數(shù)據(jù)挖掘?qū)ο?/p>
定義清晰的挖掘?qū)ο?,認(rèn)清數(shù)據(jù)挖掘的目標(biāo)是數(shù)據(jù)挖掘的第一步。在數(shù)字化校園信息庫中,主要的信息就是教師和學(xué)生,如何更好地協(xié)調(diào)教師和學(xué)生的關(guān)系,更好地促進教育事業(yè)的發(fā)展,本文先從本科生著手,來研究本科生在校的基本情況,從而確定以學(xué)生為主體。
4.2 數(shù)據(jù)準(zhǔn)備
收集和描述數(shù)據(jù)是整個數(shù)據(jù)挖掘工作中相當(dāng)重要的一部分。數(shù)據(jù)準(zhǔn)備一般包括兩個步驟:數(shù)據(jù)的選擇和數(shù)據(jù)的預(yù)處理。這里主要是在校本科生的家庭出身、學(xué)習(xí)、每月消費、每月借書、社會工作等情況。例如從校園一卡通系統(tǒng)中可以找到某個學(xué)生這個月的消費情況。下面的挖掘方法并未對學(xué)生信息的各個子庫中所有數(shù)據(jù)進行直接挖掘,而是以學(xué)生的數(shù)字化校園中的基本信息作為基礎(chǔ)信息,通過對學(xué)校的各個子庫的個人信息進行加工處理,運用簡單的統(tǒng)計方法對每個子庫信息進行聚合,從而得到進行數(shù)據(jù)挖掘的基本信息。
把從各個子庫中得到想要的數(shù)據(jù)必須經(jīng)過處理才能應(yīng)用到數(shù)據(jù)挖掘技術(shù)中去。例如我們把學(xué)生通過文字所表現(xiàn)的不同屬性進行量化,以便于算法分析。我們把學(xué)生分為:A、B、C、D、E五個等級,即各個方面都表現(xiàn)優(yōu)秀的學(xué)生為A、中等靠上但次于優(yōu)秀的為B、中等生為C、中等靠下為D、各個方面都很差的為E。
依據(jù)以上量化標(biāo)準(zhǔn),我們把統(tǒng)計得到用于數(shù)據(jù)樣本的一個6維向量進行初步量化。
(1)學(xué)生每月消費:超過500元的為高、300~500元的為中、低于300的低。
(2)圖書館平均每月借書(每月按圖書館開放25天計算):每月光顧圖書館4次以上為優(yōu),2~4次為良,少于2次的為中。
(3)專業(yè)課平均成績:高于85分的為優(yōu),75~85之間的為良,60~75之間的為中。
(4)參加社會活動情況:1表示經(jīng)常參加社會活動,0.5表示參加社會活動適度,0表示基本上不參加社會活動。
(5)家庭出身:“農(nóng)”表示出身農(nóng)民,“工”表示出身工人,“干”表示出身干部。
(6)學(xué)生等級:各個方面都表現(xiàn)優(yōu)秀的學(xué)生為A,中等靠上但次于優(yōu)秀的為B,中等生為C,中等靠下為D,各個方面都很差的為E。
下面介紹一個訓(xùn)練樣本,該數(shù)據(jù)樣本選自2003級計算機專業(yè)某個班學(xué)號的前15名,如表1所示。
4.3 構(gòu)造決策樹
根據(jù)選取訓(xùn)練樣本數(shù)據(jù)集,取屬性“學(xué)生等級”作為類別標(biāo)識屬性,屬性“家庭出身”、“每月平均消費水平”、“專業(yè)課平均成績”、“圖書館借書”、“參加社會活動”作為屬性集。訓(xùn)練樣本集類A、B、C、D、E所對應(yīng)的樣本個數(shù)記為s1、s2、s3、s4、s5。其中s1=2,s2=4,s3=4,s4=3,s5=2。
首先,對給定的樣本分類所需的期望信息:
類似地,我們可以計算Gain(每月平均消費水平)=0.4076,Gain(專業(yè)課平均成績)=1.2668, Gain(圖書館借書)=0.6963, Gain(參加社會活動)=0.266,由于專業(yè)課平均成績在屬性中具有最高信息增益,它被選作測試屬性。創(chuàng)建一個節(jié)點,用專業(yè)課平均成績標(biāo)記,并對于每個屬性值,引出一個分支。樣本據(jù)此劃分,重復(fù)上述步驟,最后返回的最終判定樹如圖2所示。
4.4 結(jié)果分析
比較以上5個屬性的信息增益,得到學(xué)生等級決策樹,從而得到以下結(jié)論:
(1) 可以看出專業(yè)課水平的高低是決定學(xué)生等級的關(guān)鍵因素。
(2) 圖書館借書次數(shù)較多,可以看出學(xué)生比較重視學(xué)習(xí)。
(3) 參加社會活動積極的學(xué)生,也是相對較好的學(xué)生。
(4) 每月消費較高的部分同學(xué)比較側(cè)重于學(xué)習(xí)之外的別的方面,所以這些學(xué)生是較差的。
(5) 并不是來自家庭貧困的學(xué)生都是好學(xué)生,也不是來自家庭富裕的學(xué)生都是差學(xué)生,雖說大學(xué)生關(guān)鍵是靠個人的努力,學(xué)校的管理和督促對那一部分消費比較高的學(xué)生來說還是能起到一定的作用的。
5 結(jié)論
本文根據(jù)數(shù)字化校園系統(tǒng)中所存儲的學(xué)生信息,利用數(shù)據(jù)挖掘技術(shù)的決策樹方法分析了影響學(xué)生等級的重要因素,這只是數(shù)據(jù)挖掘技術(shù)在數(shù)字化校園系統(tǒng)中一個簡單的應(yīng)用。如何充分地利用高校資源,把數(shù)據(jù)挖掘技術(shù)和數(shù)字化校園更好地結(jié)合起來是當(dāng)前高校面臨的一個很重要的現(xiàn)實問題,從而達(dá)到提高教學(xué)質(zhì)量和大學(xué)生素質(zhì)的目的。
參考文獻(xiàn):
[1] 陸炯.數(shù)字化校園的總體框架與若干關(guān)鍵技術(shù)的研究[D].南京大學(xué):南京大學(xué)出版社,2004.
[2] Jiawei Han, Micheline Kamber.數(shù)據(jù)挖掘:概念與技術(shù)[M].北京:機械工業(yè)出版社,2001.
[3] 陳文偉,黃金才.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘[M].北京:人民郵電出版社,2004.
收稿日期:2006-10-08
作者簡介:張治斌(1953-),男,河南洛陽人,高級工程師,主要研究方向為計算機應(yīng)用。