郭慧
(山西華澳商貿(mào)職業(yè)學(xué)院,山西 太原 030031)
數(shù)據(jù)挖掘技術(shù)在學(xué)生成績管理系統(tǒng)中的應(yīng)用
郭慧
(山西華澳商貿(mào)職業(yè)學(xué)院,山西 太原 030031)
將數(shù)據(jù)挖掘技術(shù)引入到學(xué)生成績管理系統(tǒng)中,能夠?qū)逃龥Q策和教學(xué)評(píng)價(jià)提供強(qiáng)大的理論支持,提高教師“教”和學(xué)生“學(xué)”的質(zhì)量。論文以學(xué)生成績分析表為數(shù)據(jù)集建立挖掘模型,使用決策樹ID3算法完成構(gòu)建模型,并對模型的準(zhǔn)確性進(jìn)行了必要的評(píng)估。通過分析,得到相關(guān)屬性與學(xué)生成績之間的關(guān)系,并從中挖掘出學(xué)生成績的好壞與哪些因素有關(guān)、它們之間存在怎樣的關(guān)系等。
成績管理;數(shù)據(jù)挖掘;決策樹;ID3
作為決策支持過程的最新技術(shù),數(shù)據(jù)挖掘能夠深層次地對數(shù)據(jù)進(jìn)行挖掘和分析,其無疑會(huì)對教學(xué)決策和教學(xué)評(píng)價(jià)提供強(qiáng)大的理論支持。在學(xué)生成績管理系統(tǒng)中,數(shù)據(jù)挖掘技術(shù)的應(yīng)用可以深入分析學(xué)生成績與各因素之間潛在的關(guān)聯(lián)。譬如,經(jīng)過對學(xué)生成績的相關(guān)分析,數(shù)據(jù)挖掘技術(shù)可以解決諸如“學(xué)生成績的好壞與哪些因素有關(guān)”、“它們之間又是怎樣的關(guān)系”的問題,其評(píng)價(jià)結(jié)果對于教與學(xué)的改進(jìn)及提高意義重大。
在傳統(tǒng)的教學(xué)過程中,習(xí)慣采用數(shù)據(jù)庫查詢的方法實(shí)現(xiàn)對數(shù)據(jù)信息的處理。筆者將采用數(shù)據(jù)挖掘技術(shù)中的ID3算法實(shí)現(xiàn)對數(shù)據(jù)的處理,并形成分類規(guī)則,從而更深入地分析此數(shù)據(jù)。
(1)明確挖掘?qū)ο蠹澳繕?biāo):定義好要解決的問題。此處以山西華澳商貿(mào)職業(yè)學(xué)院計(jì)算機(jī)2009級(jí)軟件班學(xué)生,共有60名學(xué)生、12門課程、三個(gè)學(xué)期為例,希望根據(jù)學(xué)生的考試成績,分析出學(xué)生成績的好壞與哪些因素有關(guān),并以此所得結(jié)果來指導(dǎo)并促進(jìn)教師“教”和學(xué)生“學(xué)”。
(2)數(shù)據(jù)準(zhǔn)備:從學(xué)生成績管理系統(tǒng)的數(shù)據(jù)庫中提取相應(yīng)的數(shù)據(jù),并進(jìn)行預(yù)處理,如去除噪聲、對丟失數(shù)據(jù)進(jìn)行填補(bǔ)及刪除無效數(shù)據(jù)等。
(3)數(shù)據(jù)挖掘:數(shù)據(jù)經(jīng)過預(yù)處理后,根據(jù)數(shù)據(jù)功能的類型和特點(diǎn)選擇相應(yīng)的算法對其進(jìn)行數(shù)據(jù)挖掘。
(4)結(jié)果分析:對挖掘的結(jié)果要進(jìn)行必要的解釋和評(píng)價(jià),使其轉(zhuǎn)換為易于用戶理解的知識(shí)。
(5)知識(shí)運(yùn)用:教師可以將分析所得知識(shí)運(yùn)用到教學(xué)環(huán)節(jié)中,如進(jìn)行教學(xué)決策,從而達(dá)到教學(xué)指導(dǎo)的目的。
基于本數(shù)據(jù)挖掘的目標(biāo)是分析學(xué)生成績的好壞與哪些因互素有關(guān),而學(xué)生成績管理系統(tǒng)數(shù)據(jù)庫的數(shù)據(jù)必然存在大量的冗余問題,此處必須對庫的信息進(jìn)行提取以便形成相關(guān)數(shù)據(jù)表。之后,還必須對數(shù)據(jù)進(jìn)行相關(guān)性操作。
(1)數(shù)據(jù)集成
數(shù)據(jù)集成決不是簡單的數(shù)據(jù)合成,而是在原始數(shù)據(jù)的基礎(chǔ)上經(jīng)過轉(zhuǎn)換、提煉,形成規(guī)范化的、統(tǒng)一的、可挖掘的數(shù)據(jù)。此處針對數(shù)據(jù)庫技術(shù),將收集到的相關(guān)數(shù)據(jù)庫文件進(jìn)行利用SQL語句實(shí)現(xiàn)表的連接操作,從而生成“成績分析”表,其數(shù)據(jù)結(jié)構(gòu)為:學(xué)號(hào)、姓名、性別、作業(yè)、參加活動(dòng)、平均成績等。由于針對的是專業(yè)能力基本信息收集,一些無關(guān)屬性應(yīng)被剔除,如學(xué)生的出生日期、家庭住址等。集成后的數(shù)據(jù)如下:
表1 學(xué)生成績集成后數(shù)據(jù)表
(2)數(shù)據(jù)清理
由于數(shù)據(jù)倉庫中的數(shù)據(jù)是面向某一主題的,數(shù)據(jù)可能從幾個(gè)表中抽取出來,數(shù)據(jù)庫中的數(shù)據(jù)類型不同,必然出現(xiàn)一些數(shù)據(jù)不完整、數(shù)據(jù)錯(cuò)誤、數(shù)據(jù)重復(fù)等各種問題。
在該課題中,學(xué)生成績數(shù)據(jù)庫中的數(shù)據(jù)都非常重要,且是經(jīng)過多次復(fù)查才得到的,所以錯(cuò)誤數(shù)據(jù)和不一不致性一般不會(huì)存在。但是,可能會(huì)出現(xiàn)另外的情況。比如,有的學(xué)生有些課程缺考或休學(xué),需要對數(shù)據(jù)進(jìn)行置“0”的處理。且這些數(shù)據(jù)對成績的分析是無意義的,故可以剔除,以免影響分析結(jié)果。
(3)數(shù)據(jù)歸約
數(shù)據(jù)歸約,其目的是縮小數(shù)據(jù)規(guī)模。經(jīng)過數(shù)據(jù)預(yù)處理后,根據(jù)聚類評(píng)價(jià)模型,把每個(gè)學(xué)生劃分到相應(yīng)的簇中,對學(xué)生形成定性的評(píng)價(jià),再根據(jù)數(shù)據(jù)轉(zhuǎn)化規(guī)則,得到如表2的數(shù)據(jù):
分析如下:
①學(xué)生記錄共60個(gè);
②性別字段為男或女;
③對“作業(yè)”提交情況進(jìn)行離散化處理,結(jié)果為:0表示經(jīng)常不交作業(yè);1表示偶爾不交;2表示全交;
④對“參加活動(dòng)”情況進(jìn)行離散化處理,結(jié)果為:0表示不參加活動(dòng);1表示偶爾參加;2表示經(jīng)常參加活動(dòng)。
表2 學(xué)生成績歸約后數(shù)據(jù)表
為了尋找學(xué)生學(xué)習(xí)成績的好壞和哪些因素有關(guān)、它們之間又存在怎樣的關(guān)系,論文基于決策樹算法建立數(shù)據(jù)模型,首先對學(xué)生成績數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行處理,然后應(yīng)用決策樹算法建立相應(yīng)的決策樹,并通過分析,得到相關(guān)屬性與學(xué)生成績之間的關(guān)系。
論文以學(xué)生成績分析表為數(shù)據(jù)集建立挖掘模型,使用決策樹算法中經(jīng)典的ID3算法完成構(gòu)建模型,具體過程如下:
首先,對成績分析表中的各屬性計(jì)算其信息熵;其次,把計(jì)算得到的信息增益最大的屬性作為決策樹根結(jié)點(diǎn),再進(jìn)行數(shù)據(jù)子集劃分;
最后,劃分得到的每個(gè)子集遞歸進(jìn)行,直到所有屬性都劃分完為止。
根據(jù)上述步驟,詳細(xì)過程如下:
(1)根據(jù)定義的信息熵,計(jì)算分類屬性的信息量
以上的訓(xùn)練集中,共有60個(gè)樣本。經(jīng)過聚類后,得到的簇是“優(yōu)”的樣本有12個(gè),“良”的有16個(gè),“中”的有17個(gè),“差”的有15個(gè)。為計(jì)算每個(gè)屬性的信息增益,首先給定樣本分類所需的信息熵:
根據(jù)信息熵計(jì)算公式得到:I(s1,s2,s3,s4)=I(12,16, 17,15)=1.988394308
(2)依次計(jì)算每個(gè)屬性的信息熵
例如:計(jì)算“性別”屬性,該屬性有兩個(gè)值,需要對每個(gè)值所劃分的子集計(jì)算信息量。
對于“性別”=“男”和“性別”=“女”而言,樣本分布如表:
表3 “性別”=“男”的樣本分布表
根據(jù)公式得每個(gè)屬性的信息熵計(jì)算得到:
E(性別)=48/60×I(24,13,11)+12/60×I(7,2,3)=1.474880232
表4 “性別”=“女”的樣本分布表
E(作業(yè)情況)=31/60×I(12,12,6,1)+15/60×I(0,3,9,3) +14/60×I(0,1,2,11)=1.39741438
E(參加活動(dòng))=19/60×I(5,5,2,7)+21/60×I(5,6,8,2) +20/60×I(2,5,7,6)=1.87711283
根據(jù)公式Gain(A)=Info(D)-InfoA(D),計(jì)算得到:
Gain(性別)=I(s1,s2,s3,s4)-E(性別)=1.39741438
Gain(作業(yè)情況)=I(s1,s2,s3,s4)-E(作業(yè)情況) =0.590979928
Gain(參加活動(dòng))=I(s1,s2,s3,s4)-E(參加活動(dòng)) =0.111281478
根據(jù)以上各屬性的信息增益,選擇信息增益最大的屬性作為根結(jié)點(diǎn),即將“作業(yè)”屬性的信息增益最大,故以作業(yè)決策樹的根結(jié)點(diǎn),并且根據(jù)該屬性的三個(gè)值分為三支,如下:
圖1 初生成的決策樹
遞歸上述過程,計(jì)算出性別、參加活動(dòng)屬性的信息增益,經(jīng)過計(jì)算,“參加活動(dòng)”的信息增益最大,將它作為“作業(yè)”的子節(jié)點(diǎn),引出三個(gè)分支,再遞歸。
經(jīng)過剪枝等處理后,最終生成的決策樹為:
圖2 最終生成的決策樹
根據(jù)以上決策樹,通過分析,得到如下結(jié)論:
①經(jīng)常不交作業(yè)的學(xué)生成績往往不好。
②性別不能決定學(xué)習(xí)成績的好壞。
③學(xué)生的學(xué)習(xí)成績和參加活動(dòng)是可以相互促進(jìn)的,如果學(xué)生能很好地調(diào)控二者的時(shí)間,完全可以相互促進(jìn)。
通過研究與測試數(shù)據(jù)分析,確定以上模型的準(zhǔn)確率閾值為85%。將預(yù)測集數(shù)據(jù)利用決策樹模型驗(yàn)證結(jié)果與實(shí)際學(xué)生學(xué)習(xí)成績的情況相比較,并與相關(guān)的教師進(jìn)行論證,確認(rèn)本模型的準(zhǔn)確率為90%,超過預(yù)定的準(zhǔn)確率閾值,能夠反映學(xué)生成績與影響因素的關(guān)系。
其結(jié)論為:學(xué)生成績的好壞與學(xué)生作業(yè)的完成情況及學(xué)生是否能合理分配參加活動(dòng)時(shí)間有關(guān)。因此,教師在教學(xué)中要合理引導(dǎo)學(xué)生安排活動(dòng)與學(xué)習(xí)時(shí)間,并及時(shí)督促學(xué)生及時(shí)完成作業(yè),學(xué)生也應(yīng)學(xué)會(huì)自我調(diào)控,提高學(xué)習(xí)效率。
[1]韓家煒.?dāng)?shù)據(jù)挖掘概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2007.
[2]漢德.?dāng)?shù)據(jù)挖掘原理[M].北京:機(jī)械工業(yè)出版社,2003,1-2.4.
TN
A
1673-0046(2012)5-0180-02