亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

數(shù)據(jù)挖掘技術(shù)在學(xué)生成績管理系統(tǒng)中的應(yīng)用

2012-10-13 14:31:02郭慧

太原城市職業(yè)技術(shù)學(xué)院學(xué)報(bào) 2012年5期

關(guān)鍵詞：數(shù)據(jù)挖掘作業(yè)分析

郭慧

（山西華澳商貿(mào)職業(yè)學(xué)院，山西太原 030031）

數(shù)據(jù)挖掘技術(shù)在學(xué)生成績管理系統(tǒng)中的應(yīng)用

郭慧

（山西華澳商貿(mào)職業(yè)學(xué)院，山西太原 030031）

將數(shù)據(jù)挖掘技術(shù)引入到學(xué)生成績管理系統(tǒng)中，能夠?qū)逃龥Q策和教學(xué)評(píng)價(jià)提供強(qiáng)大的理論支持，提高教師“教”和學(xué)生“學(xué)”的質(zhì)量。論文以學(xué)生成績分析表為數(shù)據(jù)集建立挖掘模型，使用決策樹ID3算法完成構(gòu)建模型，并對模型的準(zhǔn)確性進(jìn)行了必要的評(píng)估。通過分析，得到相關(guān)屬性與學(xué)生成績之間的關(guān)系，并從中挖掘出學(xué)生成績的好壞與哪些因素有關(guān)、它們之間存在怎樣的關(guān)系等。

成績管理；數(shù)據(jù)挖掘；決策樹；ID3

作為決策支持過程的最新技術(shù)，數(shù)據(jù)挖掘能夠深層次地對數(shù)據(jù)進(jìn)行挖掘和分析，其無疑會(huì)對教學(xué)決策和教學(xué)評(píng)價(jià)提供強(qiáng)大的理論支持。在學(xué)生成績管理系統(tǒng)中，數(shù)據(jù)挖掘技術(shù)的應(yīng)用可以深入分析學(xué)生成績與各因素之間潛在的關(guān)聯(lián)。譬如，經(jīng)過對學(xué)生成績的相關(guān)分析，數(shù)據(jù)挖掘技術(shù)可以解決諸如“學(xué)生成績的好壞與哪些因素有關(guān)”、“它們之間又是怎樣的關(guān)系”的問題，其評(píng)價(jià)結(jié)果對于教與學(xué)的改進(jìn)及提高意義重大。

在傳統(tǒng)的教學(xué)過程中，習(xí)慣采用數(shù)據(jù)庫查詢的方法實(shí)現(xiàn)對數(shù)據(jù)信息的處理。筆者將采用數(shù)據(jù)挖掘技術(shù)中的ID3算法實(shí)現(xiàn)對數(shù)據(jù)的處理，并形成分類規(guī)則，從而更深入地分析此數(shù)據(jù)。

一、數(shù)據(jù)挖掘的流程

（1）明確挖掘?qū)ο蠹澳繕?biāo)：定義好要解決的問題。此處以山西華澳商貿(mào)職業(yè)學(xué)院計(jì)算機(jī)2009級(jí)軟件班學(xué)生，共有60名學(xué)生、12門課程、三個(gè)學(xué)期為例，希望根據(jù)學(xué)生的考試成績，分析出學(xué)生成績的好壞與哪些因素有關(guān)，并以此所得結(jié)果來指導(dǎo)并促進(jìn)教師“教”和學(xué)生“學(xué)”。

（2）數(shù)據(jù)準(zhǔn)備：從學(xué)生成績管理系統(tǒng)的數(shù)據(jù)庫中提取相應(yīng)的數(shù)據(jù)，并進(jìn)行預(yù)處理，如去除噪聲、對丟失數(shù)據(jù)進(jìn)行填補(bǔ)及刪除無效數(shù)據(jù)等。

（3）數(shù)據(jù)挖掘：數(shù)據(jù)經(jīng)過預(yù)處理后，根據(jù)數(shù)據(jù)功能的類型和特點(diǎn)選擇相應(yīng)的算法對其進(jìn)行數(shù)據(jù)挖掘。

（4）結(jié)果分析：對挖掘的結(jié)果要進(jìn)行必要的解釋和評(píng)價(jià)，使其轉(zhuǎn)換為易于用戶理解的知識(shí)。

（5）知識(shí)運(yùn)用：教師可以將分析所得知識(shí)運(yùn)用到教學(xué)環(huán)節(jié)中，如進(jìn)行教學(xué)決策，從而達(dá)到教學(xué)指導(dǎo)的目的。

二、數(shù)據(jù)倉庫的建立

基于本數(shù)據(jù)挖掘的目標(biāo)是分析學(xué)生成績的好壞與哪些因互素有關(guān)，而學(xué)生成績管理系統(tǒng)數(shù)據(jù)庫的數(shù)據(jù)必然存在大量的冗余問題，此處必須對庫的信息進(jìn)行提取以便形成相關(guān)數(shù)據(jù)表。之后,還必須對數(shù)據(jù)進(jìn)行相關(guān)性操作。

（1）數(shù)據(jù)集成

數(shù)據(jù)集成決不是簡單的數(shù)據(jù)合成，而是在原始數(shù)據(jù)的基礎(chǔ)上經(jīng)過轉(zhuǎn)換、提煉，形成規(guī)范化的、統(tǒng)一的、可挖掘的數(shù)據(jù)。此處針對數(shù)據(jù)庫技術(shù)，將收集到的相關(guān)數(shù)據(jù)庫文件進(jìn)行利用SQL語句實(shí)現(xiàn)表的連接操作，從而生成“成績分析”表，其數(shù)據(jù)結(jié)構(gòu)為：學(xué)號(hào)、姓名、性別、作業(yè)、參加活動(dòng)、平均成績等。由于針對的是專業(yè)能力基本信息收集，一些無關(guān)屬性應(yīng)被剔除，如學(xué)生的出生日期、家庭住址等。集成后的數(shù)據(jù)如下：

表1 學(xué)生成績集成后數(shù)據(jù)表

（2）數(shù)據(jù)清理

由于數(shù)據(jù)倉庫中的數(shù)據(jù)是面向某一主題的，數(shù)據(jù)可能從幾個(gè)表中抽取出來，數(shù)據(jù)庫中的數(shù)據(jù)類型不同，必然出現(xiàn)一些數(shù)據(jù)不完整、數(shù)據(jù)錯(cuò)誤、數(shù)據(jù)重復(fù)等各種問題。

在該課題中，學(xué)生成績數(shù)據(jù)庫中的數(shù)據(jù)都非常重要，且是經(jīng)過多次復(fù)查才得到的，所以錯(cuò)誤數(shù)據(jù)和不一不致性一般不會(huì)存在。但是，可能會(huì)出現(xiàn)另外的情況。比如，有的學(xué)生有些課程缺考或休學(xué)，需要對數(shù)據(jù)進(jìn)行置“0”的處理。且這些數(shù)據(jù)對成績的分析是無意義的，故可以剔除，以免影響分析結(jié)果。

（3）數(shù)據(jù)歸約

數(shù)據(jù)歸約，其目的是縮小數(shù)據(jù)規(guī)模。經(jīng)過數(shù)據(jù)預(yù)處理后，根據(jù)聚類評(píng)價(jià)模型，把每個(gè)學(xué)生劃分到相應(yīng)的簇中，對學(xué)生形成定性的評(píng)價(jià)，再根據(jù)數(shù)據(jù)轉(zhuǎn)化規(guī)則，得到如表2的數(shù)據(jù)：

分析如下：

①學(xué)生記錄共60個(gè)；

②性別字段為男或女；

③對“作業(yè)”提交情況進(jìn)行離散化處理，結(jié)果為：0表示經(jīng)常不交作業(yè)；1表示偶爾不交；2表示全交；

④對“參加活動(dòng)”情況進(jìn)行離散化處理，結(jié)果為：0表示不參加活動(dòng)；1表示偶爾參加；2表示經(jīng)常參加活動(dòng)。

表2 學(xué)生成績歸約后數(shù)據(jù)表

三、模型的實(shí)現(xiàn)

為了尋找學(xué)生學(xué)習(xí)成績的好壞和哪些因素有關(guān)、它們之間又存在怎樣的關(guān)系，論文基于決策樹算法建立數(shù)據(jù)模型，首先對學(xué)生成績數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行處理，然后應(yīng)用決策樹算法建立相應(yīng)的決策樹，并通過分析，得到相關(guān)屬性與學(xué)生成績之間的關(guān)系。

論文以學(xué)生成績分析表為數(shù)據(jù)集建立挖掘模型，使用決策樹算法中經(jīng)典的ID3算法完成構(gòu)建模型，具體過程如下：

首先，對成績分析表中的各屬性計(jì)算其信息熵；其次，把計(jì)算得到的信息增益最大的屬性作為決策樹根結(jié)點(diǎn)，再進(jìn)行數(shù)據(jù)子集劃分；

最后，劃分得到的每個(gè)子集遞歸進(jìn)行，直到所有屬性都劃分完為止。

根據(jù)上述步驟，詳細(xì)過程如下：

（1）根據(jù)定義的信息熵，計(jì)算分類屬性的信息量

以上的訓(xùn)練集中，共有60個(gè)樣本。經(jīng)過聚類后，得到的簇是“優(yōu)”的樣本有12個(gè)，“良”的有16個(gè)，“中”的有17個(gè)，“差”的有15個(gè)。為計(jì)算每個(gè)屬性的信息增益，首先給定樣本分類所需的信息熵：

根據(jù)信息熵計(jì)算公式得到：I(s1,s2,s3,s4)=I(12,16, 17,15)=1.988394308

（2）依次計(jì)算每個(gè)屬性的信息熵

例如：計(jì)算“性別”屬性，該屬性有兩個(gè)值，需要對每個(gè)值所劃分的子集計(jì)算信息量。

對于“性別”=“男”和“性別”=“女”而言，樣本分布如表：

表3 “性別”=“男”的樣本分布表

根據(jù)公式得每個(gè)屬性的信息熵計(jì)算得到：

E(性別)=48/60×I(24,13,11)+12/60×I(7,2,3)=1.474880232

表4 “性別”=“女”的樣本分布表

E(作業(yè)情況)=31/60×I(12,12,6,1)+15/60×I(0,3,9,3) +14/60×I(0,1,2,11)=1.39741438

E(參加活動(dòng))=19/60×I(5,5,2,7)+21/60×I(5,6,8,2) +20/60×I(2,5,7,6)=1.87711283

根據(jù)公式Gain(A)=Info(D)-InfoA(D)，計(jì)算得到：

Gain(性別)=I(s1,s2,s3,s4)-E(性別)=1.39741438

Gain(作業(yè)情況)=I(s1,s2,s3,s4)-E(作業(yè)情況) =0.590979928

Gain(參加活動(dòng))=I(s1,s2,s3,s4)-E(參加活動(dòng)) =0.111281478

根據(jù)以上各屬性的信息增益，選擇信息增益最大的屬性作為根結(jié)點(diǎn)，即將“作業(yè)”屬性的信息增益最大，故以作業(yè)決策樹的根結(jié)點(diǎn)，并且根據(jù)該屬性的三個(gè)值分為三支，如下：

圖1 初生成的決策樹

遞歸上述過程，計(jì)算出性別、參加活動(dòng)屬性的信息增益，經(jīng)過計(jì)算，“參加活動(dòng)”的信息增益最大，將它作為“作業(yè)”的子節(jié)點(diǎn)，引出三個(gè)分支，再遞歸。

經(jīng)過剪枝等處理后，最終生成的決策樹為：

圖2 最終生成的決策樹

根據(jù)以上決策樹，通過分析，得到如下結(jié)論：

①經(jīng)常不交作業(yè)的學(xué)生成績往往不好。

②性別不能決定學(xué)習(xí)成績的好壞。

③學(xué)生的學(xué)習(xí)成績和參加活動(dòng)是可以相互促進(jìn)的，如果學(xué)生能很好地調(diào)控二者的時(shí)間，完全可以相互促進(jìn)。

四、模型準(zhǔn)確性評(píng)估

通過研究與測試數(shù)據(jù)分析，確定以上模型的準(zhǔn)確率閾值為85%。將預(yù)測集數(shù)據(jù)利用決策樹模型驗(yàn)證結(jié)果與實(shí)際學(xué)生學(xué)習(xí)成績的情況相比較，并與相關(guān)的教師進(jìn)行論證，確認(rèn)本模型的準(zhǔn)確率為90%，超過預(yù)定的準(zhǔn)確率閾值，能夠反映學(xué)生成績與影響因素的關(guān)系。

其結(jié)論為：學(xué)生成績的好壞與學(xué)生作業(yè)的完成情況及學(xué)生是否能合理分配參加活動(dòng)時(shí)間有關(guān)。因此，教師在教學(xué)中要合理引導(dǎo)學(xué)生安排活動(dòng)與學(xué)習(xí)時(shí)間，并及時(shí)督促學(xué)生及時(shí)完成作業(yè)，學(xué)生也應(yīng)學(xué)會(huì)自我調(diào)控，提高學(xué)習(xí)效率。

[1]韓家煒．?dāng)?shù)據(jù)挖掘概念與技術(shù)[M]．北京：機(jī)械工業(yè)出版社，2007．

[2]漢德．?dāng)?shù)據(jù)挖掘原理[M]．北京：機(jī)械工業(yè)出版社，2003，1-2．4．

1673-0046（2012）5-0180-02

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

數(shù)據(jù)挖掘技術(shù)在學(xué)生成績管理系統(tǒng)中的應(yīng)用

一、數(shù)據(jù)挖掘的流程

二、數(shù)據(jù)倉庫的建立

三、模型的實(shí)現(xiàn)

四、模型準(zhǔn)確性評(píng)估

二、數(shù)據(jù)倉庫的建立

四、模型準(zhǔn)確性評(píng)估