沈偉明
[摘要]學(xué)校里每年都存放著大量的學(xué)生信息,這些信息的大部分是用于今后查對,如果這些成千LYY的信息只用于核對和備案,可以說這是一種信息浪費。如何充分地利用這些數(shù)據(jù),使其潛在的使用價值得到充分的挖掘和利用,為學(xué)校決策者提供決策依據(jù),科學(xué)指導(dǎo)教學(xué)。本文利用現(xiàn)有學(xué)生成績數(shù)據(jù)庫,應(yīng)用改進(jìn)的數(shù)據(jù)挖掘Apfiofi算法進(jìn)行了情況分類,分析《c語言程序設(shè)計》課程成績優(yōu)秀直接影響《數(shù)據(jù)結(jié)構(gòu)》課程成績優(yōu)秀.學(xué)??梢哉{(diào)整教學(xué)內(nèi)容和改進(jìn)教學(xué)方法以適應(yīng)學(xué)生的學(xué)習(xí)和教學(xué)質(zhì)量的提高。
[關(guān)鍵詞]數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則;Apfiofi算法
一、數(shù)據(jù)挖掘概述
1.1數(shù)據(jù)挖掘
數(shù)據(jù)挖掘是近幾年來新興的一種對數(shù)據(jù)處理的技術(shù),又稱為數(shù)據(jù)庫中的知識發(fā)現(xiàn),就是從大量的、不完全、有噪聲的、模糊的、隨機的數(shù)據(jù)中,提取隱含在其中的,人們事先不知道的,但又是潛在有用的信息和知識(模型或規(guī)則)的過程,是一類深層次的數(shù)據(jù)分析方法。數(shù)據(jù)挖掘的第一步就是將手中的信息進(jìn)行預(yù)處理操作后存放在數(shù)據(jù)倉庫中。數(shù)據(jù)預(yù)處理包括數(shù)據(jù)清理與數(shù)據(jù)集成,數(shù)據(jù)清理的內(nèi)容有消除噪聲和不一致數(shù)據(jù),對于本文研究的學(xué)生成績數(shù)據(jù)庫,因為在學(xué)生成績輸入過程中可能出現(xiàn)輸入失誤。數(shù)據(jù)集成就是將多種數(shù)據(jù)源統(tǒng)一為一種存儲方式,在研究的學(xué)生成績信息大部分是以電子表格(EXCEL)和WPs文件格式存儲的,除此之外還有文本格式(TXT)與其它格式,要研究多年來所有學(xué)生的信息,必須把它們放在一個統(tǒng)一數(shù)據(jù)庫中以便數(shù)據(jù)挖掘系統(tǒng)進(jìn)行挖掘。數(shù)據(jù)挖掘在最近幾年里已被數(shù)據(jù)庫界廣泛研究,其中關(guān)聯(lián)規(guī)則的挖掘是一個重要的方面.
1.2關(guān)聯(lián)規(guī)則
關(guān)聯(lián)規(guī)則挖掘是在大量數(shù)據(jù)中項集之間發(fā)現(xiàn)有趣的關(guān)聯(lián)或相關(guān)聯(lián)系,是一種簡單卻很實用的分析規(guī)則。滿足x的數(shù)據(jù)庫元組也很可能會滿足Y。關(guān)聯(lián)規(guī)則挖掘問題可以劃分成兩個子問題:發(fā)現(xiàn)頻繁項目集;生成關(guān)聯(lián)規(guī)則。
1.3Apfiofi算法
首先設(shè)計一個保存有所有項集的類,它的主要屬性有PID:PID項集;Sup_count:PID項集的支持計數(shù),還包含一個主要方法,目的是判斷PID對象是否是頻繁項集。然后,我們要找到頻繁集項,根據(jù)事務(wù)表的存儲方式,對表進(jìn)行簡單l的SQL查詢就可得到支持計數(shù),從而判斷是否是頻繁一項集。找到頻繁一項集就可以通過頻繁k項集找了頻繁k+1項集,主要過程為:構(gòu)造出頻繁k項集的Lu和Lv,對其進(jìn)行連接步計算,如果可以連接,則生成候選的k+1項集;對通過連接步生成的候選k+1項集通過頻繁k項集進(jìn)行MN,縮小候選k+1項集;統(tǒng)計選k+1項集的支持度,通過對事物集進(jìn)行SQL統(tǒng)計,計算出k+1項集的支持技術(shù),若滿足最小支持度,則標(biāo)記為頻繁項集。最后,對所有頻繁項集L找出其所有非空真子集Lu,計算Lu和L-Lu的置信度,這個即是頻繁項集又滿足最低之心度的項集即為一條關(guān)聯(lián)規(guī)則。至此,Apfiofi算法在程序中基本實現(xiàn),運行程序,測試器有效性和效率,完成關(guān)聯(lián)規(guī)則并給出結(jié)果。
二、方案實施實例
1、挖掘?qū)ο蠹澳繕?biāo):本例以我校2009級計算機應(yīng)用技術(shù)專業(yè)畢業(yè)班的學(xué)生成績?yōu)樵紨?shù)據(jù),采用關(guān)聯(lián)規(guī)則和Apfiofi算法對該數(shù)據(jù)進(jìn)行分析,大致說明數(shù)據(jù)挖掘在高校成績管理中的應(yīng)用。
2、數(shù)據(jù)采集:成績數(shù)據(jù)庫中包括了學(xué)生的平時作業(yè)成績及課程的考試成績。這個數(shù)據(jù)庫由教師在教學(xué)過程中產(chǎn)生。
3、模型的選定:分析學(xué)生各科目成績的之間的影響關(guān)系,例如:某學(xué)生《c語言程序設(shè)計》優(yōu)秀與《數(shù)據(jù)結(jié)構(gòu)》優(yōu)秀的關(guān)系。我們采用關(guān)聯(lián)規(guī)則中最著名的Apfiofi算法。
4、集成數(shù)據(jù):將采集到的多個數(shù)據(jù)庫的數(shù)據(jù)進(jìn)行合并操作。
5、清理數(shù)據(jù):在統(tǒng)計學(xué)生成績源表數(shù)據(jù)時,會存在一些屬性缺少屬性值的情況,對于這些缺少屬性值的屬性,采用清理技術(shù)來填補空缺的數(shù)據(jù)值.本文采用忽略元祖的方法把沒有參加考試學(xué)生及成績數(shù)據(jù)不完整的記錄n除掉.最后得到有效記錄數(shù)據(jù)。
6、轉(zhuǎn)換數(shù)據(jù):使用統(tǒng)一的格式表示成績數(shù)據(jù),便于數(shù)據(jù)挖掘、本文挖掘的是軟件專業(yè)學(xué)生備門課程之間的優(yōu)秀關(guān)系,使用關(guān)聯(lián)規(guī)則挖掘成績數(shù)據(jù)需要邏輯性數(shù)據(jù),所以大于90分成績定義屬性值為“1”。
三、Apriori算法數(shù)據(jù)挖掘
1)建立事務(wù)數(shù)據(jù)表,根據(jù)挖掘要求,只保留優(yōu)秀成績,沒有獲得優(yōu)秀的學(xué)生記錄做n除處理。2)頻繁項集的數(shù)據(jù)表.表中用來存放項目名稱xl,X2及包含此項目的記錄數(shù)。3)將數(shù)據(jù)表中支持度計數(shù)小于最小支持度的記錄n除,得到最終頻繁l項集.4)求后繼各頻繁項目集.5)把最終頻繁項集中小于最小置信度。值的記錄n除,從而產(chǎn)生規(guī)則信息,存人數(shù)據(jù)表1。
計算最后的置信度,把小于最小置信度0值的記錄n除,得出最終關(guān)聯(lián)規(guī)則,存入數(shù)據(jù)表2
總之,隨著數(shù)據(jù)分析技術(shù)的發(fā)展,數(shù)據(jù)挖掘在學(xué)校教學(xué)管理方面有著巨大的應(yīng)用潛力,高校的教育管理者應(yīng)該充分認(rèn)識到信息的重要性,提高信息的利用效率。endprint