摘要:隨著全球網(wǎng)絡(luò)化,網(wǎng)絡(luò)環(huán)境已被應(yīng)用到各個(gè)領(lǐng)域,而學(xué)生信息的不斷增加使得普通數(shù)據(jù)庫(kù)已無(wú)法滿足學(xué)生管理需求。為了促進(jìn)學(xué)生信息管理工作更好的開展,利用數(shù)據(jù)挖掘技術(shù)從大量歷史數(shù)據(jù)中挖掘其中隱含的信息就變得尤為重要,而挖掘的信息也可以作為指導(dǎo)學(xué)生信息管理工作開展的依據(jù)。本文以學(xué)生信息管理系統(tǒng)為研究對(duì)象,針對(duì)學(xué)生信息管理工作冗長(zhǎng)復(fù)雜且管理困難等問(wèn)題提出Apriori算法,Apriori算法在系統(tǒng)中的運(yùn)用使得學(xué)生信息管理效率有了大幅度的提升。
關(guān)鍵詞:Apriori算法;信息管理;關(guān)聯(lián)規(guī)則
中圖分類號(hào):TP311.13 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9599 (2012) 21-0000-02
學(xué)生信息管理工作作為學(xué)校管理工作的重要內(nèi)容,目前學(xué)生信息管理工作內(nèi)容包括學(xué)生資料、學(xué)生成績(jī)、學(xué)生評(píng)估等多方面的內(nèi)容,由于數(shù)據(jù)來(lái)源眾多格式相對(duì)混亂,因而為信息管理工作帶來(lái)了許多困難,無(wú)論是存儲(chǔ)還是查閱都不方便。為了解決以上問(wèn)題讓管理員在存儲(chǔ)、搜索和查閱學(xué)生信息的過(guò)程中更為簡(jiǎn)便高效,本文提出了一種基于Apriori算法的學(xué)生信息管理系統(tǒng),該系統(tǒng)以學(xué)生成績(jī)?yōu)槔龑?duì)關(guān)聯(lián)規(guī)則在管理系統(tǒng)中的實(shí)際運(yùn)用進(jìn)行了研究和探索。引入關(guān)聯(lián)規(guī)則算法中的Apriori算法對(duì)學(xué)生學(xué)年成績(jī)進(jìn)行分析,通過(guò)挖掘數(shù)據(jù)中潛在的信息來(lái)探索學(xué)生的發(fā)展規(guī)律,為提高教學(xué)水平提供一定的科學(xué)依據(jù)。
1 數(shù)據(jù)挖掘技術(shù)
1.1 數(shù)據(jù)挖掘理論。數(shù)據(jù)挖掘是一種透過(guò)數(shù)理模式對(duì)數(shù)據(jù)進(jìn)行分析,并從大量數(shù)據(jù)中找出其潛在規(guī)律的一種挖掘技術(shù),由于被挖掘的數(shù)據(jù)量龐大、模糊且不具備任何規(guī)律,所以數(shù)據(jù)挖掘數(shù)據(jù)是一項(xiàng)偉大的發(fā)現(xiàn)。數(shù)據(jù)挖掘又稱知識(shí)發(fā)現(xiàn),根據(jù)過(guò)程不同它大致可分為三個(gè)步驟,即數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘、結(jié)果表達(dá)和解釋,由于數(shù)據(jù)挖掘可以挖掘出潛在的規(guī)律和信息,它可以幫助決策者調(diào)整市場(chǎng)策略以降低運(yùn)營(yíng)風(fēng)險(xiǎn),做出正確的決策,所以它被廣泛的應(yīng)用于各個(gè)領(lǐng)域,對(duì)企業(yè)數(shù)據(jù)進(jìn)行高度自動(dòng)化的分析。
1.2 關(guān)聯(lián)規(guī)則簡(jiǎn)介。關(guān)聯(lián)規(guī)則是指從數(shù)據(jù)庫(kù)中找出高頻數(shù)據(jù)項(xiàng)之間潛在的某種關(guān)系的規(guī)則,關(guān)聯(lián)規(guī)則在實(shí)際領(lǐng)域中的運(yùn)用使得資源得到了有效的利用,而個(gè)領(lǐng)域的服務(wù)質(zhì)量有相對(duì)有所提升。Apriori算法是關(guān)聯(lián)規(guī)則中常用的一種算法,也是數(shù)據(jù)挖掘技術(shù)中影響力較大的一種算法,其核心是基于兩階段頻集思想的遞推算法。首先應(yīng)找出所有頻集,然后由頻集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則,這些規(guī)則必須滿足最小支持度和最小置信度,一旦規(guī)則生成那些小于用戶預(yù)定最小置信度的規(guī)則則被排除,然后好再對(duì)剩下的頻集進(jìn)行搜索和掃描,在壓縮收縮空間的同時(shí)提高頻繁項(xiàng)集的置信度。
2 關(guān)聯(lián)算法在學(xué)生成績(jī)管理系統(tǒng)的實(shí)現(xiàn)與具體應(yīng)用
2.1 關(guān)聯(lián)規(guī)則在程序中的應(yīng)用。在程序中實(shí)現(xiàn)關(guān)聯(lián)規(guī)則首先應(yīng)設(shè)計(jì)一個(gè)具有各種項(xiàng)集的類,還有一個(gè)可以判斷PID對(duì)象是否為頻繁項(xiàng)集的主要方法,然后根據(jù)事務(wù)表的存儲(chǔ)方式對(duì)頻繁集項(xiàng)進(jìn)行SQL查詢判斷該頻繁項(xiàng)集是否符合要求。先構(gòu)造頻繁項(xiàng)集k的非空真子集Lu,并進(jìn)行連接步計(jì)算,若連接成功則生成候選項(xiàng)集k+1;計(jì)算出項(xiàng)集k+1的支持度,若支持度大于最小支持度,則標(biāo)記為頻繁項(xiàng)集;最后找出所有頻繁項(xiàng)集的非空真子集Lu,并通過(guò)事務(wù)表計(jì)算出非空真子集的置信度,比較非空真子集的置信度與最小置信度的大小,若符合則該項(xiàng)集為一條關(guān)聯(lián)規(guī)則,至此關(guān)聯(lián)規(guī)則在程序中的應(yīng)用就算實(shí)現(xiàn)了。
2.2 數(shù)據(jù)挖掘的具體應(yīng)用。由于學(xué)生推優(yōu)需要得出一個(gè)公正全面的評(píng)價(jià)結(jié)果,所以評(píng)價(jià)過(guò)程需對(duì)學(xué)生各方面的信息和表現(xiàn)進(jìn)行綜合考慮,學(xué)科成績(jī)和綜合評(píng)測(cè)作為評(píng)價(jià)學(xué)生的重要依據(jù),挖掘這兩個(gè)數(shù)據(jù)庫(kù)中的數(shù)據(jù)就成了推優(yōu)工作的重要內(nèi)容。本文將我院2009級(jí)機(jī)械工程專業(yè)畢業(yè)班的學(xué)生成績(jī)作為數(shù)據(jù)挖掘的原始數(shù)據(jù),并利用數(shù)據(jù)挖掘中的Apriori算法對(duì)這些原始數(shù)據(jù)進(jìn)行分析,促進(jìn)數(shù)據(jù)挖掘技術(shù)在高校信息管理系統(tǒng)中的運(yùn)用。
第一步:數(shù)據(jù)采集。如表1所示為2009級(jí)機(jī)械工程專業(yè)畢業(yè)班的學(xué)生成績(jī),將這些數(shù)據(jù)據(jù)聚集到一起并建立一個(gè)原始數(shù)據(jù)庫(kù),數(shù)據(jù)庫(kù)中包含了48名學(xué)生以及22門課程,總共1056條記錄。如表1所示為學(xué)生原始成績(jī)數(shù)據(jù):
第二步:數(shù)據(jù)預(yù)處理。為了簡(jiǎn)化存儲(chǔ)過(guò)程,我們可以去掉一些無(wú)關(guān)項(xiàng)目或是用一些簡(jiǎn)單的符號(hào)作為課程編號(hào),通過(guò)這種數(shù)據(jù)轉(zhuǎn)換方式對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。如表2所示用學(xué)號(hào)代替學(xué)生姓名、C1表示體育科目、C2代表大學(xué)語(yǔ)文、C3表示實(shí)習(xí)科目,用C4表示大學(xué)英語(yǔ)等。如表2所示為原始數(shù)據(jù)轉(zhuǎn)換后的數(shù)據(jù)模式:
第三步:數(shù)據(jù)轉(zhuǎn)換:為了滿足數(shù)據(jù)挖掘所需要求,在進(jìn)行數(shù)據(jù)挖掘前我們應(yīng)對(duì)數(shù)據(jù)的格式進(jìn)行統(tǒng)一處理,在挖掘?qū)W生成績(jī)的過(guò)程中引入關(guān)聯(lián)分析,將預(yù)處理后的數(shù)據(jù)轉(zhuǎn)換成邏輯型數(shù)據(jù),而學(xué)生成績(jī)數(shù)據(jù)表則用布爾型數(shù)據(jù)表表示,為了體現(xiàn)各學(xué)科之間的優(yōu)劣關(guān)系,我們將90分以上的成績(jī)用“1”表示,90分以下的用“0”表示,“1”表示事務(wù)中該項(xiàng)存在,相反則不存在該項(xiàng)。
第四步:應(yīng)用Apriori 算法進(jìn)行數(shù)據(jù)挖掘:
將置信度設(shè)置為0.6,支持度設(shè)定為0.2,將轉(zhuǎn)換后的數(shù)據(jù)導(dǎo)入關(guān)聯(lián)規(guī)則表,利用Apriori算法得出科目與成績(jī)之間的關(guān)聯(lián)規(guī)則。如表3所示為部分關(guān)聯(lián)規(guī)則:
從上表得知大學(xué)語(yǔ)文“優(yōu)”大學(xué)英語(yǔ)“優(yōu)”的置信度約為62%,機(jī)械制圖“優(yōu)”電工基礎(chǔ)“優(yōu)”的置信度約為64%,同樣的情況在工程力學(xué)和機(jī)械制圖兩個(gè)科目上也有所體現(xiàn),由此可見,這兩個(gè)科目是比較重要的課程,根據(jù)挖掘結(jié)果顯示可對(duì)這兩個(gè)科目的課程進(jìn)行重點(diǎn)建設(shè)。
3 總結(jié)
通過(guò)實(shí)踐證明基于Apriori算法在學(xué)生信息管理系統(tǒng)中的應(yīng)用具有一定的實(shí)用價(jià)值,數(shù)據(jù)挖掘的針對(duì)性和準(zhǔn)確性使得關(guān)聯(lián)規(guī)則算法在學(xué)生信息管理系統(tǒng)發(fā)揮了課程建設(shè)和提高教學(xué)水平的功能。盡管數(shù)據(jù)挖掘技術(shù)目前在高校學(xué)生管理系統(tǒng)中運(yùn)用得并不多,但隨著關(guān)聯(lián)規(guī)則算法的不斷推廣,其獨(dú)特優(yōu)越性使得數(shù)據(jù)挖掘技術(shù)有了大力的推廣,而基于Apriori算法的學(xué)生信息管理系統(tǒng)也將成為高校學(xué)生管理領(lǐng)域今后發(fā)展的重要方向。
參考文獻(xiàn):
[1]邱桃榮,白小明,張麗萍.基于粒計(jì)算的Apriori算法及其在圖書管理系統(tǒng)中的應(yīng)用[J].微計(jì)算機(jī)信息,2006,22(21):218-221.
[2]柴晟,成飏,李學(xué)鋒.基于改進(jìn)Apriori算法的評(píng)教系統(tǒng)應(yīng)用研究[J].微計(jì)算機(jī)信息,2007,23(15):218-220.
[作者簡(jiǎn)介]
陶榮(1981-),女,工程碩士,工作單位:廣西工商職業(yè)技術(shù)學(xué)院,講師,研究方向:計(jì)算機(jī)應(yīng)用技術(shù)。