亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        數(shù)據(jù)挖掘技術(shù)在學(xué)生成績管理系統(tǒng)中的應(yīng)用

        2012-10-13 14:31:02郭慧
        關(guān)鍵詞:數(shù)據(jù)挖掘作業(yè)分析

        郭慧

        (山西華澳商貿(mào)職業(yè)學(xué)院,山西 太原 030031)

        數(shù)據(jù)挖掘技術(shù)在學(xué)生成績管理系統(tǒng)中的應(yīng)用

        郭慧

        (山西華澳商貿(mào)職業(yè)學(xué)院,山西 太原 030031)

        將數(shù)據(jù)挖掘技術(shù)引入到學(xué)生成績管理系統(tǒng)中,能夠?qū)逃龥Q策和教學(xué)評(píng)價(jià)提供強(qiáng)大的理論支持,提高教師“教”和學(xué)生“學(xué)”的質(zhì)量。論文以學(xué)生成績分析表為數(shù)據(jù)集建立挖掘模型,使用決策樹ID3算法完成構(gòu)建模型,并對模型的準(zhǔn)確性進(jìn)行了必要的評(píng)估。通過分析,得到相關(guān)屬性與學(xué)生成績之間的關(guān)系,并從中挖掘出學(xué)生成績的好壞與哪些因素有關(guān)、它們之間存在怎樣的關(guān)系等。

        成績管理;數(shù)據(jù)挖掘;決策樹;ID3

        作為決策支持過程的最新技術(shù),數(shù)據(jù)挖掘能夠深層次地對數(shù)據(jù)進(jìn)行挖掘和分析,其無疑會(huì)對教學(xué)決策和教學(xué)評(píng)價(jià)提供強(qiáng)大的理論支持。在學(xué)生成績管理系統(tǒng)中,數(shù)據(jù)挖掘技術(shù)的應(yīng)用可以深入分析學(xué)生成績與各因素之間潛在的關(guān)聯(lián)。譬如,經(jīng)過對學(xué)生成績的相關(guān)分析,數(shù)據(jù)挖掘技術(shù)可以解決諸如“學(xué)生成績的好壞與哪些因素有關(guān)”、“它們之間又是怎樣的關(guān)系”的問題,其評(píng)價(jià)結(jié)果對于教與學(xué)的改進(jìn)及提高意義重大。

        在傳統(tǒng)的教學(xué)過程中,習(xí)慣采用數(shù)據(jù)庫查詢的方法實(shí)現(xiàn)對數(shù)據(jù)信息的處理。筆者將采用數(shù)據(jù)挖掘技術(shù)中的ID3算法實(shí)現(xiàn)對數(shù)據(jù)的處理,并形成分類規(guī)則,從而更深入地分析此數(shù)據(jù)。

        一、數(shù)據(jù)挖掘的流程

        (1)明確挖掘?qū)ο蠹澳繕?biāo):定義好要解決的問題。此處以山西華澳商貿(mào)職業(yè)學(xué)院計(jì)算機(jī)2009級(jí)軟件班學(xué)生,共有60名學(xué)生、12門課程、三個(gè)學(xué)期為例,希望根據(jù)學(xué)生的考試成績,分析出學(xué)生成績的好壞與哪些因素有關(guān),并以此所得結(jié)果來指導(dǎo)并促進(jìn)教師“教”和學(xué)生“學(xué)”。

        (2)數(shù)據(jù)準(zhǔn)備:從學(xué)生成績管理系統(tǒng)的數(shù)據(jù)庫中提取相應(yīng)的數(shù)據(jù),并進(jìn)行預(yù)處理,如去除噪聲、對丟失數(shù)據(jù)進(jìn)行填補(bǔ)及刪除無效數(shù)據(jù)等。

        (3)數(shù)據(jù)挖掘:數(shù)據(jù)經(jīng)過預(yù)處理后,根據(jù)數(shù)據(jù)功能的類型和特點(diǎn)選擇相應(yīng)的算法對其進(jìn)行數(shù)據(jù)挖掘。

        (4)結(jié)果分析:對挖掘的結(jié)果要進(jìn)行必要的解釋和評(píng)價(jià),使其轉(zhuǎn)換為易于用戶理解的知識(shí)。

        (5)知識(shí)運(yùn)用:教師可以將分析所得知識(shí)運(yùn)用到教學(xué)環(huán)節(jié)中,如進(jìn)行教學(xué)決策,從而達(dá)到教學(xué)指導(dǎo)的目的。

        二、數(shù)據(jù)倉庫的建立

        基于本數(shù)據(jù)挖掘的目標(biāo)是分析學(xué)生成績的好壞與哪些因互素有關(guān),而學(xué)生成績管理系統(tǒng)數(shù)據(jù)庫的數(shù)據(jù)必然存在大量的冗余問題,此處必須對庫的信息進(jìn)行提取以便形成相關(guān)數(shù)據(jù)表。之后,還必須對數(shù)據(jù)進(jìn)行相關(guān)性操作。

        (1)數(shù)據(jù)集成

        數(shù)據(jù)集成決不是簡單的數(shù)據(jù)合成,而是在原始數(shù)據(jù)的基礎(chǔ)上經(jīng)過轉(zhuǎn)換、提煉,形成規(guī)范化的、統(tǒng)一的、可挖掘的數(shù)據(jù)。此處針對數(shù)據(jù)庫技術(shù),將收集到的相關(guān)數(shù)據(jù)庫文件進(jìn)行利用SQL語句實(shí)現(xiàn)表的連接操作,從而生成“成績分析”表,其數(shù)據(jù)結(jié)構(gòu)為:學(xué)號(hào)、姓名、性別、作業(yè)、參加活動(dòng)、平均成績等。由于針對的是專業(yè)能力基本信息收集,一些無關(guān)屬性應(yīng)被剔除,如學(xué)生的出生日期、家庭住址等。集成后的數(shù)據(jù)如下:

        表1 學(xué)生成績集成后數(shù)據(jù)表

        (2)數(shù)據(jù)清理

        由于數(shù)據(jù)倉庫中的數(shù)據(jù)是面向某一主題的,數(shù)據(jù)可能從幾個(gè)表中抽取出來,數(shù)據(jù)庫中的數(shù)據(jù)類型不同,必然出現(xiàn)一些數(shù)據(jù)不完整、數(shù)據(jù)錯(cuò)誤、數(shù)據(jù)重復(fù)等各種問題。

        在該課題中,學(xué)生成績數(shù)據(jù)庫中的數(shù)據(jù)都非常重要,且是經(jīng)過多次復(fù)查才得到的,所以錯(cuò)誤數(shù)據(jù)和不一不致性一般不會(huì)存在。但是,可能會(huì)出現(xiàn)另外的情況。比如,有的學(xué)生有些課程缺考或休學(xué),需要對數(shù)據(jù)進(jìn)行置“0”的處理。且這些數(shù)據(jù)對成績的分析是無意義的,故可以剔除,以免影響分析結(jié)果。

        (3)數(shù)據(jù)歸約

        數(shù)據(jù)歸約,其目的是縮小數(shù)據(jù)規(guī)模。經(jīng)過數(shù)據(jù)預(yù)處理后,根據(jù)聚類評(píng)價(jià)模型,把每個(gè)學(xué)生劃分到相應(yīng)的簇中,對學(xué)生形成定性的評(píng)價(jià),再根據(jù)數(shù)據(jù)轉(zhuǎn)化規(guī)則,得到如表2的數(shù)據(jù):

        分析如下:

        ①學(xué)生記錄共60個(gè);

        ②性別字段為男或女;

        ③對“作業(yè)”提交情況進(jìn)行離散化處理,結(jié)果為:0表示經(jīng)常不交作業(yè);1表示偶爾不交;2表示全交;

        ④對“參加活動(dòng)”情況進(jìn)行離散化處理,結(jié)果為:0表示不參加活動(dòng);1表示偶爾參加;2表示經(jīng)常參加活動(dòng)。

        表2 學(xué)生成績歸約后數(shù)據(jù)表

        三、模型的實(shí)現(xiàn)

        為了尋找學(xué)生學(xué)習(xí)成績的好壞和哪些因素有關(guān)、它們之間又存在怎樣的關(guān)系,論文基于決策樹算法建立數(shù)據(jù)模型,首先對學(xué)生成績數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行處理,然后應(yīng)用決策樹算法建立相應(yīng)的決策樹,并通過分析,得到相關(guān)屬性與學(xué)生成績之間的關(guān)系。

        論文以學(xué)生成績分析表為數(shù)據(jù)集建立挖掘模型,使用決策樹算法中經(jīng)典的ID3算法完成構(gòu)建模型,具體過程如下:

        首先,對成績分析表中的各屬性計(jì)算其信息熵;其次,把計(jì)算得到的信息增益最大的屬性作為決策樹根結(jié)點(diǎn),再進(jìn)行數(shù)據(jù)子集劃分;

        最后,劃分得到的每個(gè)子集遞歸進(jìn)行,直到所有屬性都劃分完為止。

        根據(jù)上述步驟,詳細(xì)過程如下:

        (1)根據(jù)定義的信息熵,計(jì)算分類屬性的信息量

        以上的訓(xùn)練集中,共有60個(gè)樣本。經(jīng)過聚類后,得到的簇是“優(yōu)”的樣本有12個(gè),“良”的有16個(gè),“中”的有17個(gè),“差”的有15個(gè)。為計(jì)算每個(gè)屬性的信息增益,首先給定樣本分類所需的信息熵:

        根據(jù)信息熵計(jì)算公式得到:I(s1,s2,s3,s4)=I(12,16, 17,15)=1.988394308

        (2)依次計(jì)算每個(gè)屬性的信息熵

        例如:計(jì)算“性別”屬性,該屬性有兩個(gè)值,需要對每個(gè)值所劃分的子集計(jì)算信息量。

        對于“性別”=“男”和“性別”=“女”而言,樣本分布如表:

        表3 “性別”=“男”的樣本分布表

        根據(jù)公式得每個(gè)屬性的信息熵計(jì)算得到:

        E(性別)=48/60×I(24,13,11)+12/60×I(7,2,3)=1.474880232

        表4 “性別”=“女”的樣本分布表

        E(作業(yè)情況)=31/60×I(12,12,6,1)+15/60×I(0,3,9,3) +14/60×I(0,1,2,11)=1.39741438

        E(參加活動(dòng))=19/60×I(5,5,2,7)+21/60×I(5,6,8,2) +20/60×I(2,5,7,6)=1.87711283

        根據(jù)公式Gain(A)=Info(D)-InfoA(D),計(jì)算得到:

        Gain(性別)=I(s1,s2,s3,s4)-E(性別)=1.39741438

        Gain(作業(yè)情況)=I(s1,s2,s3,s4)-E(作業(yè)情況) =0.590979928

        Gain(參加活動(dòng))=I(s1,s2,s3,s4)-E(參加活動(dòng)) =0.111281478

        根據(jù)以上各屬性的信息增益,選擇信息增益最大的屬性作為根結(jié)點(diǎn),即將“作業(yè)”屬性的信息增益最大,故以作業(yè)決策樹的根結(jié)點(diǎn),并且根據(jù)該屬性的三個(gè)值分為三支,如下:

        圖1 初生成的決策樹

        遞歸上述過程,計(jì)算出性別、參加活動(dòng)屬性的信息增益,經(jīng)過計(jì)算,“參加活動(dòng)”的信息增益最大,將它作為“作業(yè)”的子節(jié)點(diǎn),引出三個(gè)分支,再遞歸。

        經(jīng)過剪枝等處理后,最終生成的決策樹為:

        圖2 最終生成的決策樹

        根據(jù)以上決策樹,通過分析,得到如下結(jié)論:

        ①經(jīng)常不交作業(yè)的學(xué)生成績往往不好。

        ②性別不能決定學(xué)習(xí)成績的好壞。

        ③學(xué)生的學(xué)習(xí)成績和參加活動(dòng)是可以相互促進(jìn)的,如果學(xué)生能很好地調(diào)控二者的時(shí)間,完全可以相互促進(jìn)。

        四、模型準(zhǔn)確性評(píng)估

        通過研究與測試數(shù)據(jù)分析,確定以上模型的準(zhǔn)確率閾值為85%。將預(yù)測集數(shù)據(jù)利用決策樹模型驗(yàn)證結(jié)果與實(shí)際學(xué)生學(xué)習(xí)成績的情況相比較,并與相關(guān)的教師進(jìn)行論證,確認(rèn)本模型的準(zhǔn)確率為90%,超過預(yù)定的準(zhǔn)確率閾值,能夠反映學(xué)生成績與影響因素的關(guān)系。

        其結(jié)論為:學(xué)生成績的好壞與學(xué)生作業(yè)的完成情況及學(xué)生是否能合理分配參加活動(dòng)時(shí)間有關(guān)。因此,教師在教學(xué)中要合理引導(dǎo)學(xué)生安排活動(dòng)與學(xué)習(xí)時(shí)間,并及時(shí)督促學(xué)生及時(shí)完成作業(yè),學(xué)生也應(yīng)學(xué)會(huì)自我調(diào)控,提高學(xué)習(xí)效率。

        [1]韓家煒.?dāng)?shù)據(jù)挖掘概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2007.

        [2]漢德.?dāng)?shù)據(jù)挖掘原理[M].北京:機(jī)械工業(yè)出版社,2003,1-2.4.

        TN

        A

        1673-0046(2012)5-0180-02

        猜你喜歡
        數(shù)據(jù)挖掘作業(yè)分析
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        隱蔽失效適航要求符合性驗(yàn)證分析
        快來寫作業(yè)
        電力系統(tǒng)不平衡分析
        電子制作(2018年18期)2018-11-14 01:48:24
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        電力系統(tǒng)及其自動(dòng)化發(fā)展趨勢分析
        作業(yè)
        故事大王(2016年7期)2016-09-22 17:30:08
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        基于GPGPU的離散數(shù)據(jù)挖掘研究
        我想要自由
        日韩一二三四区免费观看| 亚洲中文字幕无码一区| 98bb国产精品视频| 国产成年无码久久久久下载| 自拍视频在线观看国产| 亚洲av中文无码乱人伦下载| 人妻影音先锋啪啪av资源| 青青草视频华人绿色在线| 少妇人妻av一区二区三区| 色爱情人网站| 国产av电影区二区三区曰曰骚网| 国内视频偷拍一区,二区,三区| 国产成人av三级三级三级在线| 亚洲午夜av久久久精品影院色戒| 极品粉嫩小仙女高潮喷水操av| 日韩av无码精品一二三区| 99久久综合狠狠综合久久| 激情人妻网址| 狼人伊人影院在线观看国产| 亚洲中字慕日产2020| 欧洲综合色| 日韩精品一级在线视频| 国产精品一区二区性色| 日韩制服国产精品一区| 精品亚洲少妇一区二区三区| va精品人妻一区二区三区| 国产精品久久久久高潮| 亚洲影院天堂中文av色| 蜜桃伦理一区二区三区| 国产农村妇女精品一区| 久久精品娱乐亚洲领先| 一区二区三区国产在线网站视频| 亚洲精品456在线播放狼人| 久久精品国产亚洲av麻豆图片| 1000部精品久久久久久久久 | 日韩精品专区在线观看| 中文字幕一区二区三区日韩精品 | 亚洲一区二区三区成人在线| 国产精品久久免费中文字幕| 中文国产日韩欧美二视频| 无码人妻丝袜在线视频|